1.引入
从根节点开始一步步走到叶子节点(决策),所有的数据最终都会落到叶子节点,既可以做分类也可以做回归
2.数的组成
- 根节点:第一个选择点
- 非叶子节点与分支:中间过程
- 叶子节点:最终的决策结果
3.衡量标准-熵
熵是表示随机变量不确定性的度量
公式:H(X)=- ∑ pi * logpi, i=1,2, … , n
A集合[1,1,1,1,1,1,1,1,2,2]
B集合[1,2,3,4,5,6,7,8,9,1]
显然A集合的熵值要低,因为A里面只有两种类别,相对稳定一些
而B中类别太多了,熵值就会大很多
不确定性越大,得到的熵值也就越大 当p=0或p=1时,H(p)=0,随机变量完全没有不确定性 当p=0.5时,H(p)=1,此时随机变量的不确定性最大