凝聚层次聚类算法的优缺点是什么

#凝聚层次聚类算法的优缺点是什么| 来源: 网络整理| 查看: 265

你好，这篇文章咱们讨论一下关于「凝聚层次聚类算法的优缺点是什么」的事情…

关于凝聚层次聚类算法的优缺点

聚类是一种无监督学习的技术，它可以对给定的数据集进行自动分类，将相似的实例聚成一类，不相似的实例聚成其他类。对于不同的聚类算法，它们的性能和适用范围各不相同。凝聚层次聚类是常用的聚类算法之一，下文将介绍凝聚层次聚类算法的优缺点。

凝聚层次聚类算法简介

凝聚层次聚类算法是从下往上进行构建聚类树的一种聚类算法，所谓聚类树就是将数据集中的每个点视为叶节点，迭代地将最相邻的连续的两个点合并为一个父节点。因此，凝聚层次聚类算法被称为自底向上（bottom-up）的聚类算法。这里的“凝聚”就是指将相似的数据点聚合成一个群组的过程。

凝聚层次聚类的优点 1. 结果形式更加直观

凝聚层次聚类算法的结果形式是一棵聚类树，这个树形结构直观地展示了数据集中的分层结构。因此，他能够在很大程度上简化数据的可视化和展示，尤其适用于数据量较少的情况，比如在商业领域中用于市场划分、人口统计等。聚类树中的每个节点表示一个聚类，每个叶子节点表示数据集中的一个数据点，不同颜色或尺寸的点可根据不同的聚类或数据集的维度进行展示。

2. 可适用于不同类型的距离度量

凝聚层次聚类算法使用不同的距离度量来确定数据点之间的相似性。这些度量可以基于距离（欧氏距离、曼哈顿距离等）、相关性、相似性等。因此，凝聚层次聚类算法适用于不同类型的数据集。

3. 对于小型数据集表现优异

当数据集比较小的时候，凝聚层次聚类算法有更好的表现。在数据量较小的情况下，他能够更加准确地确定聚类，从而生成高质量的聚类树。因此，一些小型的科研实验和工业应用中采用凝聚层次聚类算法已经得到了证明。

凝聚层次聚类算法的缺点 1. 无法处理大数据集

凝聚层次聚类算法的计算复杂度为O(n^3)，因此难以处理大型数据集。虽然有一些启发式方法能够加速聚类过程，但这仅仅是一种帮助性的手段，解决的只是局部问题，手段本身并不能有效地降低时间复杂度。因此，凝聚层次聚类算法仅适用于小数据集。

2. 可能会受到噪音的干扰

凝聚层次聚类算法受到数据点之间的距离度量的影响。当数据集中存在噪音时，这些噪音点可能干扰到计算相似性和接下来的聚类结果，从而导致聚类结果的不准确性。这也是凝聚层次聚类算法不太适合处理那些包含噪声的数据集的原因之一。

3. 生成聚类树的层数与阈值的关系

聚类树的分层结构是凝聚层次聚类算法的重要特征。但是，找到最优的层数和最优的聚类结果之间需要权衡。需要选择一个阈值来控制树中聚类的数量。但是这个阈值的确定并不总是很容易，因此会影响到聚类的结果。太高的阈值会使得聚类之间的联系很强，而太低的阈值则会使得聚类间的区别模糊，因此聚类结果不稳定。

结束语

综上所述，凝聚层次聚类算法有其天然的优点：生成的聚类树形结构能够直观展示数据之间的层次关系，作为聚类领域的一种基本算法，它具有非常高的可用性。但是也存在一些缺点，比如它不能很好地处理大数据集，算法复杂度也较高。此外，聚类树的生成与阈值的选择之间存在权衡关系，需要依据具体的应用场景进行调整。在实际的应用过程中，凝聚层次聚类算法应该更多地搭配其他的聚类算法使用，以便达到更优化的结果。

大家都在看： [论文][人脸算法]Semi-supervised Emotion Recognition using Inconsistently Annotated Data 研究背景

表情识别遇到的问题：a）缺少充足的数据b）表情过于细微，难以辨别c）主观的，不一致的标签d）自然条件下的数据包含姿态，强度，遮挡方面的变化

解决方法：基于self-training 的半监督的CNN网络结构

网络结构

[论文][人脸算法]Semi-supervised Emotion Recognition using Inconsistently Annotated Data

它分为四个部分：模型的初始训练、未标记数据的网络参数更新、标签更新和样本重要性分配。

[En]

It is divided into four parts: initial training of the model, updating network parameters with untagged data, label updating, and sample importance allocation.

模型初始训练 Initial Model Training

对于有标签的数据，使用分类交叉熵损失来更新模型的参数，直到模型的性能达到一定的水平(标签数据是有限的，在这个有限的数据集的条件下模型的性能是最好的)。

[En]

For tagged data, use classification cross-entropy loss to update the parameters of the model until the performance of the model reaches a certain level (the tagged data is limited, the best model performance under the condition of this limited data set).

按照one-hot标签训练模型容易造成过拟合，由此改变策略，使用label smoothing，即使用 smooth 分布代替one-hot标签，具体方法如下： [论文][人脸算法]Semi-supervised Emotion Recognition using Inconsistently Annotated Data

使用无标签的数据更新网络参数 Exploiting Unlabeled Data for Model Update

在使用有标签数据对模型初始化之后，我们将无标签数据放入网络，产生对应的伪标签，注意，我们使用softmax后得到的概率分布作为gt，而不是使用one-hot标签作为gt。在得到的伪标签中，我们选取高置信度的标签（作为真值）和对应样本加入训练集。此时，我们使用有标签数据和少量（为避免过拟合？？？）高置信度的伪标签数据进行训练。

其中，闸值在0.7-0.95之间

在self training过程中，保持有标签数据和无标签数据的数量平衡十分关键，一般可以选取90%有标签和10%无标签数据

标签更新 label update

我们需要对有标签数据的gt分布进行谨慎的修改以适应不同强度的表情。

当标签数据的预测正确并且最高置信度大于门限值时，使用原始标签；否则，使用新的平滑标签。 [En]

When the prediction of tag data is correct and the highest confidence is greater than the gate value, the original tag is used; otherwise, a new, smoothed tag is used.

样本重要性分配 Assigning Sample Importance

一些标签数据中使用的标签是错误的，这不利于模型的训练，所以我们给每个标签样本赋予一个重要的权重，同时我们假装所有高置信度的虚假标签都是正确的，所以没有处罚。

[En]

The tags used in some tagged data are wrong, which is not conducive to the training of the model, so we assign an important weight to each tagged sample, and at the same time, we pretend that all the false tags with high confidence are correct, so there is no penalty.

当单个样本的loss大于平均loss时，w变小，反之，w变大。最后，为了减少计算量，我们取weight范围为[0,1] 实验

Original: https://www.cnblogs.com/qiqiblogs/p/15944386.htmlAuthor: 柒七同学Title: [论文][人脸算法]Semi-supervised Emotion Recognition using Inconsistently Annotated Data

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/440375/

转载文章受原作者版权保护。转载请注明原作者出处！

【本文地址】

公司简介

联系我们