一、无监督学习介绍 

机器学习算法分类(不同角度):

什么是无监督学习?(unsupervised learning)

解释 1

解释 2

解释 3

对于监督学习:

AI遮天传 ML-无监督学习

我们通过多个样例<xi,yi>来训练模型,对于一个需要预测的样例xn+1,我们通过训练完的模型对其进行预测,得到yn+1,(x一般很复杂,有多种特征值,y一般比较简单,比如是某分类)如:

AI遮天传 ML-无监督学习

对于无监督学习

AI遮天传 ML-无监督学习

对于给的一组x1...xn,我们一般会预测下一个xn+1是什么样,或者x1...xn它们是一个什么样的结构组成的。

AI遮天传 ML-无监督学习

对于半监督学习

AI遮天传 ML-无监督学习

有一堆数据(1,2...n...m),有一些是由标注的,还有一些是没有y的(m>>n),对于有标注的那部分,我们还是以监督学习的方法的到模型去预测输入的样例。我们用100个数据去学习10000个数据,我们可以看对于那些没有标注(y)的,哪些与有标注的相类似(如果不使用基于实例的学习方法的话)。

无标注数据的结构

无监督学习中最重要的就是学到无标注数据的结构

对于一张图片,我们随即交换像素点和RGB后:

AI遮天传 ML-无监督学习

而实际上它是这样一张图片:

AI遮天传 ML-无监督学习

这里的结构信息就是什么样的像素RGB它们是在一起的。此外还涉及一些语义信息,比如我们在图片中可以看到有树,草地,天空,这些经过分割后,下一步才会做一些理解,比如右下角是一朵向日葵,阳光,中间的两个分开的房子...

ps:一个有趣的小问题:如果我们不知道它是一棵树,那怎么把它分割成一棵树了呢?如果没有办法把它分割出来,又怎么能知道它是一棵树呢?

AI遮天传 ML-无监督学习

我们可以用无标注数据干什么

二、聚类介绍

什么是聚类?

什么样的聚类好?

通常,我们认为类内距离小类间距离大的聚类更好。

AI遮天传 ML-无监督学习

聚类类型

软聚类(soft clustering) vs. 硬聚类(hard clustering)

如:

AI遮天传 ML-无监督学习

AI遮天传 ML-无监督学习

层次聚类 vs. 非层次聚类

如:

AI遮天传 ML-无监督学习

AI遮天传 ML-无监督学习

聚类的应用

数据聚类需要什么?

数据

相似度度量

AI遮天传 ML-无监督学习

三、层次聚类

AI遮天传 ML-无监督学习

凝聚式层次聚类算法(Agglomerative, bottom-up)

AI遮天传 ML-无监督学习

类相似度 

AI遮天传 ML-无监督学习

实例:意大利城市的层次聚类

AI遮天传 ML-无监督学习

AI遮天传 ML-无监督学习

AI遮天传 ML-无监督学习

AI遮天传 ML-无监督学习

AI遮天传 ML-无监督学习

分裂式层次聚类(Divisive, top-down)

根据一个类中最大的间隔进行分裂

  1. 最大平均类内距离的点:Splinter group
  2. 其他点 :保持不变(Old party)
  3. 重复以下操作直到不再发生改变: 把满足MinDist_to_Splinter >= MinDis_to_Old的点:Splinter

AI遮天传 ML-无监督学习

分裂式层次聚类vs. 凝聚式层次聚类

AI遮天传 ML-无监督学习

层次聚类的相关讨论

优点

缺点

神经科学数据分析中的应用

AI遮天传 ML-无监督学习

四、K-means 聚类

算法:

不保证找到最优解

AI遮天传 ML-无监督学习

AI遮天传 ML-无监督学习

AI遮天传 ML-无监督学习

算法的收敛性

AI遮天传 ML-无监督学习

AI遮天传 ML-无监督学习

AI遮天传 ML-无监督学习

K-means 算法特性小结

模型: 向量空间模型

策略: 最小化类内对象的欧式距离

算法: 迭代

硬聚类

非层次

K-means 算法举例

AI遮天传 ML-无监督学习

应用举例:不仅仅是聚类 —— 图像压缩

数据:所有像素

特征:RGB值

AI遮天传 ML-无监督学习

 每个像素根据所属类的中心对应的 {R,G,B} 值进行重画

K-means讨论:如何确定“k”?

方法1:

AI遮天传 ML-无监督学习

方法2 :

AI遮天传 ML-无监督学习

K-means :更多讨论

五、K- medoids

用 medoid – 用最靠近类中心的对象作为类的参考点 而不是用类的均值

基本策略:

K- medoids改进算法:PAM(Partitioning Around Medoids)

基本策略:

类的质量

代价函数:类内对象与类中心的平均不相似度

如总代价为20

AI遮天传 ML-无监督学习

K-Medoids讨论

优点:

缺点:

基于大样本的改进算法:CLARA(Clustering LARge Applications)

基本策略:当面对大样本量时:

无监督学习总结

有监督 v.s. 无监督学习

聚类

层次聚类      

K-means 聚类

K-medoids 聚类(及其变种与改进:PAM,CLARA)