为什么基于树的模型对异常值具有鲁棒性？ - 问答

基于树的方法将预测变量空间（即X1，X2，…，Xp的可能值的集合）划分为J个不同且不重叠的区域R1，R2…..RJ。

从理论上讲，这些区域可以具有任何形状。但是，为了简化并简化对所得预测模型的解释，我们选择将预测变量空间划分为高维矩形或框

目的是找到由R1，R2，..... RJ组成的框，该框最小化Rs的平方和（RSS）不幸的是，将特征空间的每个可能分区都分为J个框在计算上是不可行的。因此，我们采用自上而下的贪婪方法，称为递归二进制拆分。该方法是自上而下的，因为它始于树的顶部，然后相继分割预测变量空间。每个拆分都通过树上向下的两个新分支来指示。

过度是因为在树构建过程的每个步骤中，最佳拆分都是在该特定步骤进行的，而不是向前看并选择一个将在将来的某个步骤中获得更好树的拆分。

我们首先选择预测变量Xj和切点s ，以便将预测变量空间划分为{X | Xj <s}区域会导致RSS的最大可能减少。

接下来，我们重复该过程，寻找最佳的预测变量和最佳切点，以便进一步拆分数据，以便将每个结果区域中的RSS最小化。

但是，这一次，我们没有拆分整个预测变量空间，而是拆分了两个先前确定的区域之一。我们现在有三个区域。同样，我们希望进一步拆分这三个区域之一，以最小化RSS。该过程一直持续到达到停止标准为止。

例如，我们可以继续进行，直到没有一个区域包含五个以上的观察值。

例子：由于极值或离群值永远不会导致RSS大量减少，因此它们永远不会参与拆分。

因此，基于树的方法对异常值不敏感。

2021-01-19 11:40 更新

karry • 4540

理工酷

首页

圈子

资源下载

邀请回答

推荐问题

推荐资源

加入组织

理工酷

首页

圈子

资源下载

站外资源

问答

网址导航

邀请回答 换一组

推荐问题

推荐资源

加入组织

邀请回答