机器学习入门第一课:决策树学习概述与实现

1. 熵
熵:指的是一组样本的混乱度。

E n t r o p y ( S ) = ∑ i = 1 c − p i log ⁡ p i Entropy(S) = \sum_{i=1}^{c} -p_i \log{p_i} Entropy(S)=i=1cpilogpi

例子:
一个袋子里有50颗巧克力,50颗为红色。 熵为0表示没有随机性。
一个袋子里有50颗巧克力,25颗为红色,25颗为蓝色。 熵为1表示呈均匀分布。
一个袋子里有4中颜色,每种颜色个数相同。 熵为2,也表示均匀分布。

熵是和属性有关的,上面的熵为0,是说样本集在属性“颜色”上是纯的。
如果换成属性“想吃”,那么

2. 信息增益
字面理解,XXX带来的增量,信息的增量。

G a i n ( S , A ) ≡ E n t r o p y ( S ) − ∑ v ∈ V a l u e s ( A ) ∣ S v ∣ ∣ S ∣ E n t r o p y ( S v ) Gain(S, A) \equiv Entropy(S) - \sum_{v \in Values(A)} \frac{ \vert{S_v}\vert}{\vert{S}\vert} Entropy(S_v) Gain(S,A)Entropy(S)vValues(A)SSvEntropy(Sv)

例子中:想吃红色士力架,主要分类属性为“想吃”、“不想吃”,次要分类属性为红色和士力架。
Information(Chocolates, Colors)表示的就是因为“红色”这种颜色属性带来的信息的增益。
上面的公式的意思是:总的信息量-固定属性红色时的信息量
“想吃红色士力架”的主要属性“吃”,与颜色“红色”和品牌“士力架”有关,
当固定颜色这个属性,那么所得到的熵表示的就是品牌在红色巧克力当中的随机性/混乱度。


问题:

  1. 熵为整数都表示均匀分布??? 换一种理解,熵表示样本集合的纯度,数值越小越纯。【参考《机器学习》周志华】
  2. 熵的公式,理解为 l o g 2 ( p i ) − 1 log_2(p_i)^{-1} log2(pi)1,这个式子的含义是什么?
  3. 信息增益的公式,为什么是总的熵减去固定某种属性的结果?而不是一个加法直接计算该属性的增益?

参考:
[1] 计算熵网站
[2] Introduction to Decision Tree Learning
[3] 入门 | 机器学习第一课:决策树学习概述与实现

你可能感兴趣的:(note)