如何理解机器学习中的决策树算法？ - 问答

决策树算法是用于学习分类器的算法，即将值向量映射到标签的算法，其中该分类器由决策树表示。这样的树可以被认为是嵌套的if-then-else表达式，其中的条件每次都是向量中值的简单条件。例如，如果输入向量是（a,b,c），那么决策树可能是：

IF  a > 5  
THEN IF b < 6 
     THEN RETURN "accept" 
     ELSE IF a < 15 
          THEN RETURN "reject" 
          ELSE RETURN "accept" 
ELSE IF c < 10 
     THEN IF c > 2 
          THEN RETURN "accept" 
          ELSE RETURN "reject" 
     ELSE RETURN "reject"

当然，这也可以表示为一个二叉树，其中每个内部节点都标记有条件，而叶子则标记有返回的分类：决策树算法的输入是由多个向量及其正确分类组成的输入数据集。例如，可能的输入是：

 a  b  c  class. 
=============== 
 1  2  1  reject 
 4  2  3  accept 
 4  3 10  reject 
 8  3  2  accept 
 6  7  5  reject 
 6  9  7  reject 
16  8 11  accept

注意，对于这个输入集，给定的决策树确实正确地分类了所有向量，但具有该属性的决策树并不是唯一的。因此，你不仅需要找到这样的决策树，而且最重要的是找到最合适的决策树。在这里，“适当”这个概念是由一个事实决定的：即输入是来自大型真实世界集合的样本，并且通过构造决策树来正确地分类这个大集合中的向量。因此，“适当”的概念将取决于（1）这个较大集合的特征（例如，每个向量的概率）和（2）每个特定情况下错误分类的代价。

2021-01-14 14:19 更新

Lisa • 1796

理工酷

首页

圈子

资源下载

邀请回答

推荐问题

推荐资源

加入组织

理工酷

首页

圈子

资源下载

站外资源

问答

网址导航

邀请回答 换一组

推荐问题

推荐资源

加入组织

邀请回答