由随机变量 X X X与 Y Y Y之间互信息的计算公式: I ( X ; Y ) = H ( X ) − H ( X ∣ Y ) I(X;Y) = H(X) - H(X|Y) I(X;Y)=H(X)−H(X∣Y)表示随机变量Y含有X的多少信息。
由第一部分的分析,如果选择属性 A A A进行切分(即 Y Y Y的分布对应于属性A的每一取值的频率,属性A的取值一共有k个),信息增益的计算公式为: G a i n A = E n t r o p y ( p ) − ∑ i = 1 k n i n E n t r o p y ( i ) Gain_{A} = Entropy(p) - \sum_{i = 1}^{k}\frac{n_i}{n}Entropy(i) GainA=Entropy(p)−i=1∑knniEntropy(i)
其中 E n t r o p y ( p ) Entropy(p) Entropy(p)表示所有样本的熵, E n t r o p y ( i ) Entropy(i) Entropy(i)表示划分后第 i i i个属性取值下所有样本的熵。
假设有n个布尔属性,则针对这些属性决策树的假设空间如何?
问题:观测一个实数值,并用此值来预测目标值t;
由泰勒公式,任何曲线在满足一定的条件下都可以用多项式函数近似。
f ( x ) = ∑ n = 0 ∞ f n ( x 0 ) n ! ( x − x 0 ) n f(x) = \sum_{n = 0}^{\infty} \frac{f^n(x_0)}{n!}(x - x_0)^n f(x)=n=0∑∞n!fn(x0)(x−x0)n
因此考虑使用多项式函数拟合曲线。即假设空间为: y ( x ; w ) = w 0 + w 1 x + w 2 x 2 + ⋯ + w m x m y(x;\mathbf{w}) = w_0 + w_1x+w_2x^2+\cdots+w_mx^m y(x;w)=w0+w1x+w2x2+⋯+wmxm优化的目标函数为 E ( w ) = 1 2 ∑ i = 1 n ( y ( x i ; w ) − t i ) 2 E(\mathbf{w}) = \frac{1}{2} \sum_{i = 1}^{n}(y(x_i;w) - t_i)^2 E(w)=21i=1∑n(y(xi;w)−ti)2优化目标为$ arg min w E ( w ) \mathop{\arg\min}\limits_{\mathbf{w}} E(\mathbf{w}) wargminE(w)
这里 w = ( w 0 , w 1 ⋯ w m ) T \mathbf{w} = (w_0,w_1\cdots w_m)^T w=(w0,w1⋯wm)T
令 X i = ( x i 0 , x i 1 ⋯ x i m ) X_i = (x_i^0,x_i^1\cdots x_i^m) Xi=(xi0,xi1⋯xim),即第i个样本的0-m次幂组成的列向量。再令 X ‾ = [ X 1 X 2 ⋮ X n ] \overline{X} = \left[\begin{matrix} X_1 \\ X_2 \\ \vdots \\X_n \end{matrix}\right] X=⎣⎢⎢⎢⎡X1X2⋮Xn⎦⎥⎥⎥⎤.最后,令 T = ( t 1 , t 2 ⋯ t n ) T T = (t_1,t_2 \cdots t_n)^T T=(t1,t2⋯tn)T。则最终的优化目标可以写作: arg min w 1 2 ( X ‾ w − T ) T ( X ‾ w − T ) \mathop{\arg\min}\limits_{\mathbf{w}} \frac{1}{2}(\overline{X}\mathbf{w}-T)^T(\overline{X}\mathbf{w}-T) wargmin21(Xw−T)T(Xw−T)
为了求出上述式子的解析解,只需令 d E d w = 0 \frac{dE}{d\mathbf{w}} = 0 dwdE=0。
而 E ( w ) = 1 2 ( w T X ‾ T − T T ) ( X ‾ w − T ) = 1 2 ( w T X ‾ T X w − 2 w T X ‾ T T + T T T ) E(w) = \frac{1}{2}(\mathbf{w}^T\overline{X}^T - T^T)(\overline{X}\mathbf{w} - T) \\ = \frac{1}{2}(\mathbf{w}^T\overline{X}^TX\mathbf{w} - 2\mathbf{w}^T\overline{X}^TT+T^TT) E(w)=21(wTXT−TT)(Xw−T)=21(wTXTXw−2wTXTT+TTT)第二步成立是因为标量的转置和自身相等。
d E d w = X ‾ T X ‾ w − X ‾ T T \begin{aligned} \frac{dE}{d\mathbf{w}} &= \overline{X}^T\overline{X}\mathbf{w} - \overline{X}^TT \end{aligned} dwdE=XTXw−XTT得到 w = ( X ‾ T X ‾ ) − 1 X ‾ T T \mathbf{w} = (\overline{X}^T\overline{X})^{-1}\overline{X}^TT w=(XTX)−1XTT
注:有关一些此正规方程优化的补充知识: