决策树中的基尼杂质是什么?
0 1211
0
该提问暂无详细描述
收藏
2021-01-20 15:11 更新 正直的烤面包 •  3992
共 1 个回答
高赞 时间
0

考虑最简单的决策树:一条if-else语句。

假设我们要根据某人的身高来预测其性别,我们有10个人的数据,其中粗体为女性,斜体为男性,身高以厘米为单位:

148157158、162、164168、172、176、180、184

我们要找到一个阈值,在该阈值以下我们可以预测女性,否则将预测为男性。

假设我们选择170作为阈值,此时,左侧的组有一个“杂质”(162),而右侧的组没有任何“杂质”。如果我们选择160作为阈值,则左边的组没有杂质,而右边的组有两个杂质(164,168)。

基尼杂质可以看作是量化一个组“好”程度的方法,便于我们更好地选择阈值。查看其公式,可以知道:如果一组中全为女性或全为男性,则基尼杂质为零。如果是50%的男性和50%的女性,那么基尼杂质将为0.5(在这种情况下,它可以保持的最大值),这是最坏的情况。

如果阈值选182会导致一个组5位女性和4位男性,阈值选150会导致5位男性和4位女性为一组,基尼杂质都比较高。因此,我们选择170作为阈值,可以使两组中杂质的比例均较低。

从更大的角度来看,在决策树中决定拆分时,期望最大化父节点基尼杂质和子节点基尼杂质的总和之间的差异。

收藏
2021-01-20 15:40 更新 阿托 •  17009