机器学习之聚类算法的原理推导及相关知识总结 | 您所在的位置:网站首页 › 简述聚类分析的过程 › 机器学习之聚类算法的原理推导及相关知识总结 |
文章目录
1、知道几个关于"差"的概念2、理解相似度度量的各种方法和相互关系2.1、欧氏距离2.2、jaccard相似系数2.3、余弦相似度2.4、Pearson相似系数2.5、相对熵
3、掌握掌握K-Means算法3.1、知道聚类的思想3.2、K-Means算法原理3.3、知道K-Mediods聚类3.4、如何选取K-means的初始值3.5、K-means的目标函数
4、知道聚类的衡量效果的指标5、了解层次聚类的思路和方法6、理解密度聚类7、掌握谱聚类的算法7.1、了解谱(方阵的全体特征值称为方阵的谱)以及谱半径(最大的特征值称为谱半径)7.2、几个概念di代表行列式的第i行的累加值。 邻接矩阵W(又称为相似矩阵)又为对称矩阵(Wij与Wji的值相等即i、j的距离相等),主对角线的值取0 ![这里写图片描述](https://img-blog.csdn.net/20180915165407777?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzE2NjMzNDA1/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70) 7.2、了解谱分析的整体的过程7.3、其他谱聚类算法
8、知道拉布拉斯矩阵9、知道标签传递算法
1、知道几个关于"差"的概念
均值、方差、标准差、协方差: 欧氏距离:p=2(又称为第二范式)。曼哈顿距离:p=1(又称为第一范式,p为多少也就为第几范式)。 2.2、jaccard相似系数用于比较有限样本集之间的相似性与差异性。Jaccard系数值越大,样本相似度越高。 2.3、余弦相似度两个变量之间的协方差和标准差的商。 又称为KL散度(Kullback–Leibler divergence,简称KLD)[1],信息散度(information divergence),信息增益(information gain)。 余弦相似度与Pearson相似系数之间的关系 先做一个初始的划分之后通过迭代来改变样本和簇之间的隶属关系。 1、选取初始的K个类别中心数据(可以自定义也可以随机选取K个样本) 2、对于每个样本将其标记为距离类别中心最近的类别(对样本进行聚类处理)。 3、将每个类别中心更新为隶属于该类别的所有样本的均值。 4、重复2、3直到类别中心的变化小于某阈值(迭代次数/簇中心变化率/最小平方误差MSE) 类别中心的更新依据从数据的均值改为中位数。 首先,知道K-means是初值敏感的(K的输入很关键),也就是每个类别中初始值的选择是很关键的。那么如何有效的选取K-Means的初始值? 得到第一个初始值后求其他点到该初始值的距离时将距离初始值较远的点作为簇点的概率大些,这样就可以得到较好的初始簇点。 目标函数:求每个簇的样本点到每个簇中心的距离的加和;求导后就相当于将周围点的平均值付给μ作为新的簇中心。 均一性和完整性就类似于之前半监督中的准确率和召回率 V-measure:均一性和完整性的加权平均 知道这两个算法AGNES和DIANA
任意两个点之间的相似度可以用径向量机函数来求(也就是两点之间的距离) 不同的谱聚类算法只是对应的拉普拉斯矩阵改变了,其他的步骤都没变。
|
CopyRight 2018-2019 实验室设备网 版权所有 |