决策树中如何处理连续值的问题？ - 问答

现实学习任务中常会遇到连续属性，由于连续属性取值数目不再有限，不能根据连续属性的可取值来对结点进行划分。此时，连续属性的离散化技术可以派上用场。最简单的策略是二分法对连续属性进行处理，这是C4.5采用的机制。给定样本集D和连续属性a。假设a在D上出现了n个不同的取值，将这些值从小到大进行排序，记为{a1，a2,…an}。基于划分点t可将D分为自己Dt-，Dt+，其中Dt-包含那些在属性a上取值不大于t的样本，而Dt+则包含那些在属性a上取值大于t的样本。显然，对相邻的属性取值ai与ai+1来说，t在区间[ai，ai+1)中取任意值所产生的划分结果相同。因此，对连续属性a，我们可考察包含n-1个元素的候选划分点集合: 即把区间[ai，ai+1)的中位点(ai+ ai+1)/2作为候选划分点。然后，我们就可像离散属性值一样来考察这些划分点，选取最优的划分点进行样本集合的划分。

2021-02-04 12:45 更新

空心人 • 3368

理工酷

首页

圈子

资源下载

邀请回答

推荐问题

推荐资源

加入组织

理工酷

首页

圈子

资源下载

站外资源

问答

网址导航

邀请回答 换一组

推荐问题

推荐资源

加入组织

邀请回答