k最近邻算法与k均值聚类算法有何不同？ - 问答

我们将从了解k-NN和k-means聚类的工作原理开始。

K最近邻算法（K-NN） k-NN是用于分类的监督算法。这意味着我们有一些预先标记的数据，我们将其提供给模型以使其了解该数据（即训练）中的动态。然后，它利用这些学习对测试数据进行推断。在分类的情况下，标记的数据实际上是离散的。步骤： 1.确定相似性或距离指标。

2.将原始标记的数据集拆分为训练和测试数据。

3.选择一个评估指标。

4.确定k的值。这里k表示在对目标标签进行多数投票时我们将考虑的最邻近的数量。

5.多次运行k-NN，更改k并检查评估指标。

6.在每次迭代中，k邻近值投票，多数票获胜并成为最终预测的值。

7.通过选择评估效果最佳的k来优化k。

8.选择k后，使用相同的训练集，然后创建一个新的测试集，其中包含没有标签的并且想要预测的人们的年龄和收入。

k均值 k-Means是用于聚类的无监督算法。所谓无监督，是指我们没有任何预先标记的数据来训练模型。因此，该算法仅依靠独立特征的动态来推断看不见的数据。步骤 1.最初，随机选择k个质心/聚类中心。尝试使它们靠近数据但彼此不同。

2.然后将每个数据点分配给最接近的质心。

3.将质心移动到分配给它的数据点的平均位置。

4.重复前面的两个步骤，直到分配不变或变化很小。

比较两种算法

2021-01-20 11:29 更新

anna • 5042

理工酷