有哪些方法可以使用少量观察值来近似数据集?
0 275
0
该提问暂无详细描述
收藏
2021-01-25 13:25 更新 karry •  4540
共 1 个回答
高赞 时间
0

核心集是保留数据集某些特定属性的一组数据点的子集。通常,此属性是几何的,例如数据集的均值。

核心集确实是个很优秀的概念,并且在机器学习中颇受欢迎,因为它们有助于将大型数据集提炼成很小的数据集,并使算法运行得更快。

它们已被用来加速聚类算法,例如k均值,k中值,分类算法(例如SVM ),以及在数据简约性是关键的情况下,例如在主动学习算法中。

注意,我提到的算法如何取决于数据的几何形状。在这种情况下,核心集会派上用场。

举一个具体的例子,k中心问题 。给定 ñ 个 数据点,目标是选择 ķ 个 数据点,以便每个其他数据点都接近其中一个 ķ 点(比如说远距离δ )。有人可能会说 ķ 这种核心集中的点在某种意义上保留了数据的几何形状。它们就像是数据的草图。 (k中心问题:红点都点在数据集中,而蓝点是在coreset点)

但是,当然有一个问题。在许多情况下,寻找最佳核心集是十分困难的,而且通常在计算上是不可行的。可是,还有有效的贪婪算法来找到核心组,这些核心组可以证明是最优的,这意味着即使不是完美的草图,也可以使用核心集获得足够好的数据草图。

核心集就像是你的数据的一个很好的草图。很难找到完美的内核集,但是足够好的核心还是比较容易找到的。

收藏
2021-01-25 14:17 更新 anna •  5042