有哪些方法可以使用少量观察值来近似数据集？ - 问答

核心集是保留数据集某些特定属性的一组数据点的子集。通常，此属性是几何的，例如数据集的均值。

核心集确实是个很优秀的概念，并且在机器学习中颇受欢迎，因为它们有助于将大型数据集提炼成很小的数据集，并使算法运行得更快。

它们已被用来加速聚类算法，例如k均值，k中值，分类算法（例如SVM ），以及在数据简约性是关键的情况下，例如在主动学习算法中。

注意，我提到的算法如何取决于数据的几何形状。在这种情况下，核心集会派上用场。

举一个具体的例子，k中心问题。给定 ñ 个数据点，目标是选择 ķ 个数据点，以便每个其他数据点都接近其中一个 ķ 点（比如说远距离δ ）。有人可能会说 ķ 这种核心集中的点在某种意义上保留了数据的几何形状。它们就像是数据的草图。（k中心问题：红点都点在数据集中，而蓝点是在coreset点）

但是，当然有一个问题。在许多情况下，寻找最佳核心集是十分困难的，而且通常在计算上是不可行的。可是，还有有效的贪婪算法来找到核心组，这些核心组可以证明是最优的，这意味着即使不是完美的草图，也可以使用核心集获得足够好的数据草图。

核心集就像是你的数据的一个很好的草图。很难找到完美的内核集，但是足够好的核心还是比较容易找到的。

2021-01-25 14:17 更新

anna • 5042

理工酷