为什么在主成分分析之前要拓展数据？ - 问答

主成分分析

主成分分析算法有多种版本，但是大多数会选择最大方差的第一个主成分。但是仅当每种度量单位之间的差异同等重要时，这样做才有意义。即使度量单位相同，也可能不正确。如果度量单位是不同的，例如以英寸和美元为单位，巧合的是，一英寸与一美元可能会同等重要。

拓展数据

有些算法在将每个度量除以标准偏差（或其他缩放因子）后自动将其标准化，然后再将其放入PCA算法中（某些PCA算法具有内置的缩放功能，可以执行相同的操作）。尽管这比仅输入原始数据要少一些随意性，但也不一定是正确的。例如，下图显示了不同学院的录取学生的高中GPA的中位数与GPA的中位数。这就是我们通常可以绘制数据图的方式。从比例表中可以看出，0.5 GPA与SAT的100点相同。PCA将选择通过这些点的线的最宽角度，该角度大约为45度，这使得这两个度量同样重要。但是，如果不按比例对PCA算法使用相同数据就会出现以下情况。在此图中，X和Y轴都从0到1600；表示所有GPA看上去都与零没有区别。如果PCA算法将选择中值SAT作为唯一重要的变量。点最宽的角度为0度，就会出现下图这样的情况。要正确进行此分析，就必须考虑1点GPA与1点SAT的相对含义。通过数据中的标准偏差来缩放每个坐标是合理的，这类似于是第一张图的做法，但事实并非如此。在进行处理之前，我们必须考虑想知道的事情。如果要对大学进行分类，则权重可能会与对学生进行分类的权重不同。

2021-02-16 17:39 更新

小眼的铁板烧 • 3522

理工酷

首页

圈子

资源下载

主成分分析

拓展数据

邀请回答

推荐问题

推荐资源

加入组织

理工酷

首页

圈子

资源下载

站外资源

问答

网址导航

主成分分析

拓展数据

邀请回答 换一组

推荐问题

推荐资源

加入组织

邀请回答