关于周志华老师的《机器学习》这本书的学习笔记
记录学习过程
本博客记录Chapter9
1 聚类任务
聚类任务(clustering)是一类典型的”无监督学习“任务,其训练样本的标记信息是未知的,目标是通过对无标记训练样本的学习来揭示数据的内在性质及规律:将数据集中的样本划分为若干个通常是互不相交的子集,每个子集称为一个簇。
形式化地说,假定样本集D={x1,x2,…,xm}包含m个无标记样本,每个样本xi=(xi1,xi2,…,xin)是一个n维地特征向量。则聚类算法将样本集D划分为k个不相交的簇{Cl∣l=1,2,…,k}。我们用λj∈{1,2,…,k}表示样本xj的”簇标记“(cluster label),即xj∈Cλj。于是聚类的结果可以用包含m个元素的簇标记向量λ={λ1,λ2,…,λj}表示。
2 性能度量
聚类性能度量亦称为”有效性指标“(validity index)。针对聚类问题,直观上看,我们希望”物以类聚“,即同一簇的样本尽可能彼此相似,不同簇的样本尽可能不同。换言之,聚类结果的”簇内相似度“应该比较高,并且”簇间相似度“应该比较低。
聚类性能度量的指标大致有两类:
- 外部指标(external index):将聚类结果与某个参考模型(reference model)进行比较
- 内部指标(internal index):直接考察聚类结果而不利用任何参考模型
对于数据集D={x1,x2,…,xm},假定通过聚类得出的簇划分为C={C1,C2,…,Ck},参考模型给出的簇划分C∗={C1∗,C2∗,…,Cs∗},相应的,令λ与λ∗表示C与C∗的簇标记向量。我们将样本两两配对考虑,定义:
a=∣SS∣, SS={(xi,xj)∣λi=λj,λi∗=λj∗,i<j},b=∣SD∣, SD={(xi,xj)∣λi=λj,λi∗=λj∗,i<j},c=∣DS∣, DS={(xi,xj)∣λi=λj,λi∗=λj∗,i<j},d=∣DD∣, DD={(xi,xj)∣λi=λj,λi∗=λj∗,i<j}
© 版权声明
文章版权归作者所有,未经允许请勿转载。
THE END