如何进行特征选择？ - 问答

机器学习将特征选择分为3个不同的类别：过滤法，包装法和嵌入法。

过滤法

它包括可以确定特征是否具有统计学意义的简单统计检验，例如用t检验的p值来确定是否应接受零假设和拒绝特征。但此方法没有考虑要素交互，所以不推荐使用这种方式进行要素选择，因为它可能会导致信息丢失。

包装法

它涉及了使用学习算法来报告特征的最佳子集，例如，竞争性数据科学界广泛使用RandomForest，通过查看信息增益来确定特征的重要性。这样可以快速而粗略地概述哪些特征很重要，从而有助于对项目特征进行非正式验证。

基于树的模型（例如RandomForest），在多重共线性，缺失值，离群值等问题上也很健壮，并且能够发现要素之间的某些相互作用。然而，此方法可能在计算上开销较大。

嵌入法

它涉及到同时进行特征选择和模型调整。一些方法包括了诸如向前和向后选择之类的贪婪算法，以及基于Lasso（L1）和Elastic Net（L1 + L2）的模型。使用此方法时可能需要一些经验才能知道向后和向前应该选择在哪里停止，以及如何调整基于正则化的模型参数。

2021-01-25 17:40 更新

Lisa • 1796

理工酷