当前位置:首页->基本方法->文章内容
聚类分析方法小结

                                                        文/勺海(北京)市场研究公司 助理研究员 王轶君 编写

 

将定量调查或者其他消费者数据进行聚类分析,再通过交叉分析描述细分市场轮廓是我们常用的方法。 聚类分析可以作为其他多元统计分析的预备过程,先聚类,然后再利用判别分析进一步研究各个群体之间的差异。先通过聚类分析达到简化数据的目的,将众多的个体先聚集成比较好处理的几个类别或子集,然后再进行后续的多元分析。它也可以用于抽样设计中的分层抽样。

 

对一个数据,既可以对变量(指标)进行分类,也可以对观测值来分类。分类的时候,不一定要事先假定有多少类,也可以完全根据数据自身的规律来分类。一般将变量的聚类分析称为R型聚类,而对观测值聚类称为Q型聚类。

 

聚类分析中,比较重要的概念涉及到对两个距离概念的认识。搞清楚这两个距离概念对于聚类分析本身具有很大的帮助。按照远近程度来聚类是聚类分析法的要义,那么这个远近究竟指什么呢?一指点与点之间的距离,二是类和类之间的距离。点间距离本身有多个定义方式也即多种运算方法。因此,你只要选择一种算法即可。由一个点组成的类是最基本的类;如果每一类都由一个点组成,那么点间距离就是类间距离。但是如果一个类包含不止一个点,那么就需要确定类间距离。类间距离是基于点间距离定义的。如两类之间最近点之间的距离可以作为两类间距离,也可以选用最远点的距离,还可以选择各类之间的中心距离。

 

从实际操作来讲,聚类分析法有多种方法。Two Step Cluster AnalysisK-means cluster analysisHierarchical Cluster Analysis三种聚类方法在SPSS里都有提供,但其应用范围和优劣势各有不同。

 

K-means cluster analysisKCA)也叫快速聚类,是我们现在做人群细分时最常使用的方法。该方法是单纯应用统计技术根据若干指定变量(应限制为尺度变量)将众多案例分到固定的类别中去。此种方法用于大量(数千)case的类别划分时非常有效。但该方法可以选择的内容较少,最重要的是选择聚类的数量,迭代的次数,和聚类的中心位置;人为经验和判断无形中会起很大作用。KCA方法本身是要求事先确定分类的。它不仅要求确定分类的类数,而且你还需要事先确定点,也就是聚类种子,当然,SPSS可以为你自动选种子。然后,根据其他点离这些种子的远近把所有点进行分类。再然后呢,就是将这几类的中心(均值)作为新的基石,再分类。如此迭代。因此,前面聚类基石或者说种子的选择不必过于认真。

 

TwoStep Cluster Analysis是揭示自然类别的探索性工具。该方法的算法与传统聚类技术相比有一些显著的特点:它可以基于类别变量和连续变量来进行聚类;自动选择聚类结果的最佳类别数;具备有效分析大量数据的能力。

 

如果我们只拥有少量的Case(少于数百个),并且想尝试多种聚类方法,测量不同类别之间的差异,我们就应该尝试使用Hierarchical Cluster AnalysisHCA)。当然该方法不仅可以对样本聚类,也可以对变量聚类。此种方法的分类结果取决于对聚类方法、距离测量方法、标准化变量的设置。这种方法不事先确定类数,有多少点就是多少类,它沿着最近的先聚为一类的思想进行合并,直至最后只有一大类为止。

 

聚类分析需要注意的几点:

 

聚类结果深受变量选择的影响,因此一开始就需要你目标明确,确定自己的变量。

KCA做聚类时,对孤立点的处理建议如下:

首先,你可以用箱形图分析一下各变量,如果某一case在多个变量上都是奇异点,那么你可以考虑将这样的case去掉后,再做一遍聚类;此时,要特别注意一下Distances between Final Cluster Centers的变动,因为你删除的点也可能数量不多,但影响很大;

 

第二,在做聚类的同时,你也可以保存各样本距其所在类中心的距离,这一指标给你后期分析提供了一些灵活性,你可以以此为依据,选择各类中比较有代表性的数据做进一步的分析,以突出类别之间的差异;

 

第三,正如之前提到的,KCA在聚类时类别数是人为主观确定的,所以建议一定多做一些尝试,在基本方案定下来之后,尝试一些边际分析,至少要加一类、减一类再各做一次,做一下交叉表,看看你现在选择的类别方案是否相对稳定;

 

最后,再提醒一句,如果你在聚类的同时,选择了迭代,一定要注意迭代次数的设置,以保证算法的收敛,这样你得到的聚类结果才是稳定的。

                                                        

         

 

相关阅读
下一篇:无
勺海生活 | 加入我们 | 各地机构

版权所有 勺海(北京)市场研究公司 京ICP备05019507号

电话:010-84284411 传真:010-84284411转203 E-mail:market@datasea.com.cn

北京朝阳区胜古中路2号院5号楼金基业大厦706(100029)