决策树的构建
C4.5算法
参考文章:
https://blog.csdn.net/zjsghww/article/details/51638126
算法步骤:
1)计算总信息熵 Entropy
2)分别计算每个属性信息熵
3)总信息熵 - 属性信息熵 得到信息增益 Gain(A)
4)计算信息增益率 GainRatio(A) = Gain / Ent
5)增益率max的为根节点
注意
总信息熵用结果的概率进行计算
属性信息熵:
∑( p(属性概率) * ∑ -( p(该属性内成功概率) log2 p + p(该属性内失败概率)log2 p ))