计算机课件教学
有言用户
视频脚本
大家好,我是计算机与人工智能学院的马杰老师,今天我们要学习的是第三章聚类算法。
注意和监督学习算法中的分类不同,聚类算法属于无监督学习,下面我们一起学习一下。
聚类是将数据集划分成组的任务,这些组叫作簇。其目标是划分数据,使得一个簇内的数据点非常相似且不同簇内的数据点非常不同。与分类算法类似,聚类算法为每个数据点分配一个数字,表示这个点属于哪个簇。
k 均值聚类是最简单也最常用的聚类算法之一。它试图找到代表数据特定区域的簇中心,算法交替执行以下两个步骤:
将每个数据点分配给最近的簇中心
然后将每个簇中心设置为所分配的所有数据点的平均值。
如果簇的分配不再发生变化,那么算法结束。下面我们来具体看下这个算法的生成过程。
当前有一些数据,簇中心用三角形表示,数据点用圆形表示,颜色用来区分簇成员。 根据算法
选择3个初始簇中心,注意此处的簇中心个数可以自由设定。
将每个数据点分配给最近的簇中心
再计算每个簇的平均值,将簇中心重新设置为该簇所有数据点的平均值
根据新的簇中心重新分配数据,然后第二次计算新的簇中心
根据第二次计算得到的簇中心重新分配数据。这次重新分配数据后,计算发现簇中心不再变化,算法结束
以上就是本节课的全部内容,感谢大家聆听,再见。
为我推荐