机器学习 第九章聚类

关于周志华老师的《机器学习》这本书的学习笔记
记录学习过程
本博客记录Chapter9

1 聚类任务

聚类任务(clustering)是一类典型的”无监督学习“任务,其训练样本的标记信息是未知的,目标是通过对无标记训练样本的学习来揭示数据的内在性质及规律:将数据集中的样本划分为若干个通常是互不相交的子集,每个子集称为一个簇。

形式化地说,假定样本集D={x1,x2,,xm}D=\{x_1,x_2,…,x_m\}包含mm个无标记样本,每个样本xi=(xi1,xi2,,xin)x_i=(x_{i1},x_{i2},…,x_{in})是一个nn维地特征向量。则聚类算法将样本集DD划分为kk个不相交的簇{Cll=1,2,,k}\{C_l|l=1,2,…,k\}。我们用λj{1,2,,k}\lambda_j\in \{1,2,…,k\}表示样本xjx_j的”簇标记“(cluster label),即xjCλjx_j \in C_{\lambda_j}。于是聚类的结果可以用包含mm个元素的簇标记向量λ={λ1,λ2,,λj}\lambda = \{\lambda_1,\lambda_2,…,\lambda_j\}表示。

2 性能度量

聚类性能度量亦称为”有效性指标“(validity index)。针对聚类问题,直观上看,我们希望”物以类聚“,即同一簇的样本尽可能彼此相似,不同簇的样本尽可能不同。换言之,聚类结果的”簇内相似度“应该比较高,并且”簇间相似度“应该比较低。

聚类性能度量的指标大致有两类:

  • 外部指标(external index):将聚类结果与某个参考模型(reference model)进行比较
  • 内部指标(internal index):直接考察聚类结果而不利用任何参考模型

对于数据集D={x1,x2,,xm}D=\{x_1,x_2,…,x_m\},假定通过聚类得出的簇划分为C={C1,C2,,Ck}C=\{C_1,C_2,…,C_k\},参考模型给出的簇划分C={C1,C2,,Cs}C^*=\{C_1^*,C_2^*,…,C_s^*\},相应的,令λ\lambdaλ\lambda^*表示CCCC^*的簇标记向量。我们将样本两两配对考虑,定义:

a=SS,  SS={(xi,xj)λi=λj,λi=λj,i<j},b=SD,  SD={(xi,xj)λi=λj,λiλj,i<j},c=DS,  DS={(xi,xj)λiλj,λi=λj,i<j},d=DD,  DD={(xi,xj)λiλj,λiλj,i<j}a=|SS|, \space\space SS=\{(x_i,x_j)|\lambda_i=\lambda_j,\lambda^*_i=\lambda_j^*,i<j\},\\ b=|SD|, \space\space SD=\{(x_i,x_j)|\lambda_i=\lambda_j,\lambda^*_i\neq \lambda_j^*,i<j\},\\ c=|DS|, \space\space DS=\{(x_i,x_j)|\lambda_i\neq \lambda_j,\lambda^*_i=\lambda_j^*,i<j\},\\ d=|DD|, \space\space DD=\{(x_i,x_j)|\lambda_i\neq \lambda_j,\lambda^*_i\neq \lambda_j^*,i<j\}

© 版权声明
THE END
喜欢就支持一下吧
点赞0 分享