聚类模型的评价指标

2024-05-16 20:18

1. 聚类模型的评价指标

        误差平方和(Sum of the Squared Error, SSE),也被称为组内误差平方和，它是机器学习中很重要的概念，该概念是在聚类和回归类算法中均有广泛应用。 在聚类算法中所谓误差平方和是指每个数据点的误差，即它到最所属类别质心的欧几里得距离，然后求和汇总即得误差平方和 。在聚类算法中，SSE是我们判断模型是否最优的重要指标，我们希望求得的模型是在给定K值的情况下SSE最小的模型， 即在相同的K值情况下聚类模型SSE越小越好，这也是聚类算法最核心的优化条件 。
  
     除了误差平方和SSE，轮廓系数(Silhouette Coefficient)，也是聚类效果好坏的一种评价方式。它结合凝聚度和分离度两种因素。下面详细介绍三者关系。
  
     对于基于原型的簇，簇的凝聚度可以定义为关于簇原型(质心或中心点)的邻近度的和。同理，两个簇之间的分离度可以用两个簇原型的邻近性度量。如下图所示，其中簇的质心用"+"标记。
                                          
 凝聚度的计算公式为：  ，其中proximity是邻近度计算公式，  是簇  的质心，当邻近度计算公式取欧几里得距离时，  的凝聚度就是该簇的SSE。
  
     分离度的衡量则有两种方法，其一是计算两两质心之间的分离度，可由如下公式计算得出  
  
 另一种则是计算某簇质心到数据集总体质心之间的分离度  ,其中c是数据集整体质心，进一步我们就可对其进行求和汇总，从而求得总体凝聚度和分离度，这里需要注意，虽然我们在求和过程中可以利用另一台计算体系来对每个分量赋予权值然后求和，但这种做法并不常见，一下讨论是建立在简单求和汇总的基础上进行的。同时，在简单求和取总分离度的情况下，上述两种分离度的方法实际上是等价的。
  
    凝聚度和SSE 
  
 在欧式距离定义的空间内，总凝聚度实际上和误差平方和等价，当然，SSE误差平方和还被称作组内误差平方和。
  
    分离度和组间误差平方和(SSR) 
  
 在欧式空间中，当我们采用簇质心和整体质心的邻近度来衡量分离度的时候，实际上总分离度和组间误差平方(SSR)和等价，SSR计算公式如下：  
  
    凝聚度和分离度之间的关系
   
  
     实际上，通过数字手段我们能证明，对于给定的数据集，无论划分总SSE和总SSR之和是一个常数，即离差平方和(SST)，这个结果实际上说明要最小化SSE(凝聚度)也就等价于要最大化SSR(分离度)，因此之前我们以最小化SSE作为模块优化目标，也可以用凝聚度和分离度的角度进行理解。
  
     凝聚度和分离度之间的这种相对关系在其他诸多模型中也能遇见，最典型的就是 方差分析和回归分析 中，我们也常常使用SSE和SSR来衡量模型有效性、提供模型优化的指导意见。
  
     如果在方差分析中，组内SSE就是用以区分连续变量的离散变量各水平所对应的分组内的误差，计算过程和聚类分析也高度相似，其SSE是计算各组内连续变量到其均值之间的距离平方和，而SSR则是各分类水平的均值到整体数据集的均值之间的距离平方和，同时SST则等于数据集中所有数据到均值之间的距离平方和，且SST = SSR + SSE。因此，正确了解SSE和SSR将是我们理解诸多算法的有效途径。
  
 轮廓系数(silhouette coefficient)指标结合了凝聚度和分离度。下面的步骤解释和如何计算个体点的轮廓系数。此过程由如下三步组成。我们以欧式距离为例，但是类似的方法可以使用相似度。
  
     （1）对于第i个对象，计算它到簇中所有其他对象的平均距离。该值记作  
  
     （2）对于第i个对象和不包含该对象的任意簇，计算该对象到给定簇中所有对象的平均距离。关于所有的簇，找出最小值；该值记作  。
  
     （3）对于第i个对象，轮廓系数是  
  
      轮廓系数的值在-1和1之间变化 。我们不希望出现负值，因为负值表示点到簇内点的平均距离  大于点到其他簇的最小平均距离  。我们希望轮廓系数是正数(  )，并且  越接近0越好，因为当  =0时轮廓系数取其最大值1。我们可以简单地取簇中点的轮廓系数的平均值，计算簇的平均轮廓系数。通过计算所有点的平均轮廓系数，可以得到聚类优良性的总度量。
  
     由此我们能看出。轮廓系数可以在模型取不同质心数量的情况下对模型聚类效果进行纵向比较，进而能够给最终聚类数量提供建议。

聚类模型的评价指标

2. 聚类的评价指标

在聚类任务中，常见的评价指标有：准确率、F值、调整兰德系数和标准互信息素。
将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合，这些对象与同一个簇中的对象彼此相似，与其他簇中的对象相异。“物以类聚，人以群分”，在自然科学和社会科学中，存在着大量的分类问题。聚类分析又称群分析，它是研究（样品或指标）分类问题的一种统计分析方法。聚类分析起源于分类学，但是聚类不等于分类。聚类与分类的不同在于，聚类所要求划分的类是未知的。聚类分析内容非常丰富，有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。

3. 相似系数聚类分析法

聚类分析是多元变量统计分析中的一种方法，其中Q型分析是依据标本的测定数据，定量确定标本间存在的相似性或亲疏关系，构成分类谱系图。实验室光谱曲线的相似性不外乎表现在以下3个方面：①光谱之间反射率的接近程度，可以用n维欧氏空间中两点之间的距离系数表示；②光谱之间反射率的成比例程度，可以用n维向量空间中的相似系数表示；③光谱之间反射率相互消长的密切程度，可以用相关系数表示。
矿物的光谱识别可以采用基于矿物标形谱的特征匹配提取。然而岩石是矿物的集合体，不能简单套用上述方法。目前成像光谱技术的岩性识别实质上仍然是矿物识别的模型为主，而遥感应用中面临的大量问题是没有特征吸收带或特征吸收很弱的岩石光谱信息。因此基于谱形总体相似性的识别就显得很有意义。
相似系数方法不考虑样品的总体反射水平，因此不易区别“异类同谱”现象。这也部分解释了光谱角度填图方法在实际应用中效果不理想的原因。另一方面，岩石和土壤中的有机质会产生极为敏感的光谱“淬火效应”（quenching effect，Clark，l983）PI，当有机质含量达到0.1%以上即可强烈压抑吸收和反射强度。磁铁矿等不透明金属矿物以及岩石的不同风化程度也对光谱具有类似的压抑作用。上述影响类似于物体的灰体吸收，使同类岩石的总体反射水平发生变异，但基本谱形不变；因此，仅仅依据光谱的矢量角度就难以区分这种差异。为解决这些问题，选取反射率平均值（Pm）和方差（Pυ）两个统计量，可以对同类样品进一步加以区分。这两个统计量参与图像处理过程，将有助于改善光谱角度填图方法的不足。

相似系数聚类分析法

4. 聚类分析测度相似性的方法包括

聚类分析测度相似性的方法包括：分层聚类法和迭代聚类法。
聚类分析法是理想的多变量统计技术，主要有分层聚类法和迭代聚类法。 聚类分析也称群分析、点群分析，是研究分类的一种多元统计方法。例如，我们可以根据各个银行网点的储蓄量、人力资源状况、营业面积、特色功能、网点级别、所处功能区域等因素情况，将网点分为几个等级，再比较各银行之间不同等级网点数量对比状况。

基本思想：我们所研究的样品（网点）或指标（变量）之间存在程度不同的相似性（亲疏关系——以样品间距离衡量）。于是根据一批样品的多个观测指标，具体找出一些能够度量样品或指标之间相似程度的统计量，以这些统计量为划分类型的依据。
把一些相似程度较大的样品（或指标）聚合为一类，把另外一些彼此之间相似程度较大的样品（或指标）又聚合为另一类，直到把所有的样品（或指标）聚合完毕，这就是分类的基本思想。

在聚类分析中，通常我们将根据分类对象的不同分为Q型聚类分析和R型聚类分析两大类。

5. 聚类分析中常用的相似性测度主要有

距离测度、相似测度和匹配测度。距离测度例如欧氏距离、绝对值距离、明氏距离、马氏距离等。相似测度有角度相似系数、相关系数、指数相似系数等。



聚类分析指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程。它是一种重要的人类行为。
聚类分析的目标就是在相似的基础上收集数据来分类。聚类源于很多领域，包括数学，计算机科学，统计学，生物学和经济学。在不同的应用领域，很多聚类技术都得到了发展，这些技术方法被用作描述数据，衡量不同数据源间的相似性，以及把数据源分类到不同的簇中。

从统计学的观点看，聚类分析是通过数据建模简化数据的一种方法。传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。
采用k-均值、k-中心点等算法的聚类分析工具已被加入到许多著名的统计分析软件包中，如SPSS、SAS等。
从机器学习的角度讲，簇相当于隐藏模式。聚类是搜索簇的无监督学习过程。与分类不同，无监督学习不依赖预先定义的类或带类标记的训练实例，需要由聚类学习算法自动确定标记，而分类学习的实例或数据对象有类别标记。聚类是观察式学习，而不是示例式的学习。

聚类分析中常用的相似性测度主要有

6. 聚类分析测度相似性的方法有哪些

因果测度是聚类分析测度相似性的方法。

聚类（Clustering）就是一种寻找数据之间内在结构的技术。聚类把全体数据实例组织成一些相似组，而这些相似组被称作簇。处于相同簇中的数据实例彼此相同，处于不同簇中的实例彼此不同。
聚类分析定义
聚类分析是根据在数据中发现的描述对象及其关系的信息，将数据对象分组。目的是，组内的对象相互之间是相似的（相关的），而不同组中的对象是不同的（不相关的）。组内相似性越大，组间差距越大，说明聚类效果越好。
聚类效果的好坏依赖于两个因素：1.衡量距离的方法（distance measurement） 2.聚类算法（algorithm）
聚类分析常见算法

K-均值聚类也称为快速聚类法，在最小化误差函数的基础上将数据划分为预定的类数K。该算法原理简单并便于处理大量数据K-均值算法对孤立点的敏感性，K-中心点算法不采用簇中对象的平均值作为簇中心，而选用簇中离平均值最近的对象作为簇中心。
也称为层次聚类，分类的单位由高到低呈树形结构，且所处的位置越低，其所包含的对象就越少，但这些对象间的共同特征越多。该聚类方法只适合在小数据量的时候使用，数据量大的时候速度会非常慢。

7. 聚类分析与判别分析有什么区别与联系？

1.聚类分析与判别分析的区别与联系     都是研究分类的，在进行聚类分析前，对总体到底有几种类型不知道（研究分几类较为合适需从计算中加以调整）。判别分析则是在总体类型划分已知，对当前新样本判断它们属于哪个总体。如我们对研究的多元数据的特征不熟悉，当然要进行聚类分析，才能考虑判别分析问题。2.聚类分析分两种：Q型聚类（对样本的聚类），P型聚类（对变量的聚类）     聚类分析需要注意的是，一般小样本数据可以用系统聚类法，大样本数据一般用快速聚类法（K均值聚类法）。需要根据统计量判断分几类比较合适，一般用R平方统计、伪F统计量等。如用前者时，可以从R平方的变换看n个样品分成几类比较合适，如分为5类时，R平方为0.9，当分为四类时，其值减小较快，如R平方为0.4，则认为分五类比较合适。另外，不同的分类方法产生的分类结果可能不同，要结合实际情况选出最优的分类方法。3.判别分析     有Fisher判别，Bayes判别和逐步判别。一般用Fisher判别即可，要考虑概率及误判损失最小的用Bayes判别，但变量较多时，一般先进行逐步判别筛选出有统计意义的变量，再结合实际情况选择用哪种判别方法。

聚类分析与判别分析有什么区别与联系？

8. 关于聚类分析

1。聚类分析的特点
　聚类分析（cluster analysis）是根据事物本身的特性研究个体的一种方法，目的在于将相似的事物归类。它的原则是同一类中的个体有较大的相似性，不同类的个体差异性很大。这种方法有三个特征：适用于没有先验知识的分类。如果没有这些事先的经验或一些国际、国内、行业标准，分类便会显得随意和主观。这时只要设定比较完善的分类变量，就可以通过聚类分析法得到较为科学合理的类别；可以处理多个变量决定的分类。例如，要根据消费者购买量的大小进行分类比较容易，但如果在进行数据挖掘时，要求根据消费者的购买量、家庭收入、家庭支出、年龄等多个指标进行分类通常比较复杂，而聚类分析法可以解决这类问题；聚类分析法是一种探索性分析方法，能够分析事物的内在特点和规律，并根据相似性原则对事物进行分组，是数据挖掘中常用的一种技术。 
　　这种较成熟的统计学方法如果在市场分析中得到恰当的应用，必将改善市场营销的效果，为企业决策提供有益的参考。其应用的步骤为：将市场分析中的问题转化为聚类分析可以解决的问题，利用相关软件（如SPSS、SAS等）求得结果，由专家解读结果，并转换为实际操作措施，从而提高企业利润，降低企业成本。 
2.应用范围
　聚类分析在客户细分中的应用 
　　 
　　消费同一种类的商品或服务时，不同的客户有不同的消费特点，通过研究这些特点，企业可以制定出不同的营销组合，从而获取最大的消费者剩余，这就是客户细分的主要目的。常用的客户分类方法主要有三类：经验描述法，由决策者根据经验对客户进行类别划分；传统统计法，根据客户属性特征的简单统计来划分客户类别；非传统统计方法，即基于人工智能技术的非数值方法。聚类分析法兼有后两类方法的特点，能够有效完成客户细分的过程。 
　　例如，客户的购买动机一般由需要、认知、学习等内因和文化、社会、家庭、小群体、参考群体等外因共同决定。要按购买动机的不同来划分客户时，可以把前述因素作为分析变量，并将所有目标客户每一个分析变量的指标值量化出来，再运用聚类分析法进行分类。在指标值量化时如果遇到一些定性的指标值，可以用一些定性数据定量化的方法加以转化，如模糊评价法等。除此之外，可以将客户满意度水平和重复购买机会大小作为属性进行分类；还可以在区分客户之间差异性的问题上纳入一套新的分类法，将客户的差异性变量划分为五类：产品利益、客户之间的相互作用力、选择障碍、议价能力和收益率，依据这些分析变量聚类得到的归类，可以为企业制定营销决策提供有益参考。 
　　以上分析的共同点在于都是依据多个变量进行分类，这正好符合聚类分析法解决问题的特点；不同点在于从不同的角度寻求分析变量，为某一方面的决策提供参考，这正是聚类分析法在客户细分问题中运用范围广的体现。 
　　 
　　聚类分析在实验市场选择中的应用 
　　 
　　实验调查法是市场调查中一种有效的一手资料收集方法，主要用于市场销售实验，即所谓的市场测试。通过小规模的实验性改变，以观察客户对产品或服务的反应，从而分析该改变是否值得在大范围内推广。 
　　实验调查法最常用的领域有：市场饱和度测试。市场饱和度反映市场的潜在购买力，是市场营销战略和策略决策的重要参考指标。企业通常通过将消费者购买产品或服务的各种决定因素（如价格等）降到最低限度的方法来测试市场饱和度。或者在出现滞销时，企业投放类似的新产品或服务到特定的市场，以测试市场是否真正达到饱和，是否具有潜在的购买力。前述两种措施由于利益和风险的原因，不可能在企业覆盖的所有市场中实施，只能选择合适的实验市场和对照市场加以测试，得到近似的市场饱和度；产品的价格实验。这种实验往往将新定价的产品投放市场，对顾客的态度和反应进行测试，了解顾客对这种价格的是否接受或接受程度；新产品上市实验。波士顿矩阵研究的企业产品生命周期图表明，企业为了生存和发展往往要不断开发新产品，并使之向明星产品和金牛产品顺利过渡。然而新产品投放市场后的失败率却很高，大致为66%到90%。因而为了降低新产品的失败率，在产品大规模上市前，运用实验调查法对新产品的各方面（外观设计、性能、广告和推广营销组合等）进行实验是非常有必要的。 
　　在实验调查方法中，最常用的是前后单组对比实验、对照组对比实验和前后对照组对比实验。这些方法要求科学的选择实验和非实验单位，即随机选择出的实验单位和非实验单位之间必须具备一定的可比性，两类单位的主客观条件应基本相同。 
　　通过聚类分析，可将待选的实验市场（商场、居民区、城市等）分成同质的几类小组，在同一组内选择实验单位和非实验单位，这样便保证了这两个单位之间具有了一定的可比性。聚类时，商店的规模、类型、设备状况、所处的地段、管理水平等就是聚类的分析变量。 转