下面哪些是基于核的机器学习算法(多选) ? ( ) ?(\quad) ?()
A Expectation Maximization \mathcal A \quad \text{Expectation Maximization} AExpectation Maximization
B Radial Basis Function \mathcal B \quad \text{Radial Basis Function} BRadial Basis Function
C Linear Discriminate Analysis \mathcal C \quad \text{Linear Discriminate Analysis} CLinear Discriminate Analysis
D Support Vector Machine \mathcal D \quad \text{Support Vector Machine} DSupport Vector Machine
在刷题系列(五)——过拟合、模型复杂度与核函数中对核函数的描述是特征转换后的样本之间内积的一种方式:
κ ( x ( i ) , x ( j ) ) = [ ϕ ( x ( i ) ) ] T ⋅ ϕ ( x ( j ) ) ( x ( i ) , x ( j ) ∈ X ) \kappa(x^{(i)},x^{(j)}) = [\phi(x^{(i)})]^T \cdot \phi(x^{(j)}) \quad (x^{(i)},x^{(j)} \in \mathcal X) κ(x(i),x(j))=[ϕ(x(i))]T⋅ϕ(x(j))(x(i),x(j)∈X)
从更泛化的角度观察,它实际上就是两个高维向量内积的一种表达方式。也就是说,更重要的是内积:因为如线性核函数 ( Linear Kernel ) (\text{Linear Kernel}) (Linear Kernel)并没有改变样本特征的维度信息。下面观察 4 4 4个选项,哪些选项中出现了内积现象:
关于 A \mathcal A \quad A 选项,我们介绍过 EM \text{EM} EM算法 ( Expectation Maximization ) (\text{Expectation Maximization}) (Expectation Maximization)关于参数的优化过程:
θ ^ = arg max θ log P ( X ∣ θ ) ⇔ arg max θ ∫ Z Q ( Z ) log P ( X , Z ∣ θ ) Q ( Z ) d Z ⏟ ELBO \begin{aligned} \hat \theta & = \mathop{\arg\max}\limits_{\theta} \log \mathcal P(\mathcal X \mid \theta) \\ & \Leftrightarrow \mathop{\arg\max}\limits_{\theta} \underbrace{\int_{\mathcal Z} \mathcal Q(\mathcal Z) \log \frac{\mathcal P(\mathcal X,\mathcal Z \mid \theta)}{\mathcal Q(\mathcal Z)} d\mathcal Z}_{\text{ELBO}} \end{aligned} θ^=θargmaxlogP(X∣θ)⇔θargmaxELBO ∫ZQ(Z)logQ(Z)P(X,Z∣θ)dZ
其中 Z \mathcal Z Z是模型中与观测变量相对的隐变量 ( Latent Variable ) (\text{Latent Variable}) (Latent Variable)。即便我们将 log P ( X ∣ θ ) \log \mathcal P(\mathcal X\mid \theta) logP(X∣θ)按照样本角度进行展开:
这里
z ( i ) z^{(i)} z(i)则表示:模型中
x ( i ) x^{(i)} x(i)作为输入样本的条件下,模型中被激活的隐变量。它包含模型中所有隐变量分量,但仅对
x ( i ) x^{(i)} x(i)一个样本的服务结果。
θ ^ = arg max θ ∑ i = 1 N [ ∫ z ( i ) Q ( z ( i ) ) log P ( x ( i ) , z ( i ) ∣ θ ) Q ( z ( i ) ) d z ( i ) ] \hat \theta = \mathop{\arg\max}\limits_{\theta} \sum_{i=1}^N \left[\int_{z^{(i)}} \mathcal Q(z^{(i)}) \log \frac{\mathcal P(x^{(i)},z^{(i)} \mid \theta)}{\mathcal Q(z^{(i)})} dz^{(i)}\right] θ^=θargmaxi=1∑N[∫z(i)Q(z(i))logQ(z(i))P(x(i),z(i)∣θ)dz(i)]
我们依然没有发现内积现象。因此, EM \text{EM} EM算法不是基于核的机器学习算法。
关于 B \mathcal B \quad B 选项,径向基核函数 ( Radial Basis Function,RBF ) (\text{Radial Basis Function,RBF}) (Radial Basis Function,RBF),也就是高斯核函数,它就是一种描述高维向量内积的方式:
其中系数
1 2 σ 2 \begin{aligned}\frac{1}{2\sigma^2}\end{aligned} 2σ21不影响内积运算的复杂度,仅是各元素少了一个系数。
κ ( x ( i ) , x ( j ) ) = exp { − 1 2 σ 2 ∣ ∣ x ( i ) − x ( j ) ∣ ∣ 2 } ⇒ exp { − ∣ ∣ x ( i ) − x ( j ) ∣ ∣ 2 } = ϕ ( x ( i ) ) ⋅ ϕ ( x ( j ) ) \begin{aligned} \kappa(x^{(i)},x^{(j)}) & = \exp \left\{-\frac{1}{2\sigma^2} ||x^{(i)} - x^{(j)}||^2\right\} \\ & \Rightarrow \exp \left\{- ||x^{(i)} - x^{(j)}||^2\right\} \\ & = \phi(x^{(i)}) \cdot \phi(x^{(j)}) \end{aligned} κ(x(i),x(j))=exp{−2σ21∣∣x(i)−x(j)∣∣2}⇒exp{−∣∣x(i)−x(j)∣∣2}=ϕ(x(i))⋅ϕ(x(j))
其中:
使用‘泰勒公式’的展开结果。
{ ϕ ( x ( i ) ) = exp [ − ( x ( i ) ) 2 ] ⋅ ∑ m = 0 ∞ 2 m m ! ( x ( i ) ) m ϕ ( x ( j ) ) = exp [ − ( x ( j ) ) 2 ] ⋅ ∑ m = 0 ∞ 2 m m ! ( x ( j ) ) m \begin{cases} \begin{aligned} \phi(x^{(i)}) = \exp [-(x^{(i)})^2] \cdot \sum_{m=0}^{\infty} \sqrt{\frac{2^m}{m!}}(x^{(i)})^m \end{aligned} \\ \begin{aligned} \phi(x^{(j)}) = \exp [-(x^{(j)})^2] \cdot \sum_{m=0}^{\infty} \sqrt{\frac{2^m}{m!}}(x^{(j)})^m \end{aligned} \end{cases} ⎩ ⎨ ⎧ϕ(x(i))=exp[−(x(i))2]⋅m=0∑∞m!2m(x(i))mϕ(x(j))=exp[−(x(j))2]⋅m=0∑∞m!2m(x(j))m
因此,它可以表示为高维向量内积的形式。
关于 C \mathcal C \quad C 选项:我们在线性分类中介绍过它的参数求解过程。其中线性判别分析关于参考系/投影方向 W \mathcal W W的策略/损失函数表示如下:
J ( W ) = W T ( X C 1 ˉ − X C 2 ˉ ) ( X C 1 ˉ − X C 2 ˉ ) T W W T ( S C 1 + S C 2 ) W \mathcal J(\mathcal W) = \frac{\mathcal W^T(\bar{\mathcal X_{\mathcal C_1}} - \bar{\mathcal X_{\mathcal C_2}})(\bar{\mathcal X_{\mathcal C_1}} - \bar{\mathcal X_{\mathcal C_2}})^T \mathcal W}{\mathcal W^T(\mathcal S_{\mathcal C_1} + \mathcal S_{\mathcal C_2}) \mathcal W} J(W)=WT(SC1+SC2)WWT(XC1ˉ−XC2ˉ)(XC1ˉ−XC2ˉ)TW
其对应的模型为: h ( x ) = W T x h(x) = \mathcal W^Tx h(x)=WTx。其 W \mathcal W W最优解 W ^ \hat {\mathcal W} W^可表示为如下形式:
∂ J ( W ) ∂ W ≜ 0 ⇒ W ^ = W T S w i t h W W T S s e t W S w i t h − 1 S b e t W \frac{\partial \mathcal J(\mathcal W)}{\partial \mathcal W} \triangleq 0 \Rightarrow \hat {\mathcal W} = \frac{\mathcal W^T\mathcal S_{with}\mathcal W}{\mathcal W^T\mathcal S_{set}\mathcal W} \mathcal S_{with}^{-1} \mathcal S_{bet} \mathcal W ∂W∂J(W)≜0⇒W^=WTSsetWWTSwithWSwith−1SbetW
其中 S w i t h \mathcal S_{with} Swith表示类内方差:
S C i ( i = 1 , 2 ) \mathcal S_{\mathcal C_i}(i=1,2) SCi(i=1,2)表示类
i i i自身的方差结果;
N i \mathcal N_i Ni表示类
i i i中的样本数量,下同。
{ S w i t h = S C 1 + S C 2 S C i = 1 N i ∑ x ( j ) ∈ X C i ( x ( j ) − X C i ˉ ) ( x ( j ) − X C i ˉ ) T \begin{cases} \mathcal S_{with} = \mathcal S_{\mathcal C_1} + \mathcal S_{\mathcal C_2} \\ \begin{aligned} \mathcal S_{\mathcal C_i} = \frac{1}{\mathcal N_i} \sum_{x^{(j)} \in \mathcal X_{\mathcal C_i}} (x^{(j)} - \bar{\mathcal X_{\mathcal C_i}})(x^{(j)} - \bar{\mathcal X_{\mathcal C_i}})^T \end{aligned} \end{cases} ⎩ ⎨ ⎧Swith=SC1+SC2SCi=Ni1x(j)∈XCi∑(x(j)−XCiˉ)(x(j)−XCiˉ)T
S b e t \mathcal S_{bet} Sbet表示类间方差:
X C i ˉ ( i = 1 , 2 ) \bar{\mathcal X_{\mathcal C_i}}(i=1,2) XCiˉ(i=1,2)描述类
i i i内的均值结果。而
S b e t \mathcal S_{bet} Sbet是将‘均值结果’作为样本去描述‘均值的方差结果’。同上,和真正的方差相比,少了一个系数,但不影响
W ^ \hat {\mathcal W} W^的最优解方向。
{ S b e t = ( X C 1 ˉ − X C j ˉ ) ( X C 1 ˉ − X C j ˉ ) T X C i ˉ = 1 N i ∑ x ( j ) ∈ X C i x ( j ) \begin{cases} \mathcal S_{bet} = (\bar{\mathcal X_{\mathcal C_1}} - \bar{\mathcal X_{\mathcal C_j}})(\bar{\mathcal X_{\mathcal C_1}} - \bar{\mathcal X_{\mathcal C_j}})^T\\ \begin{aligned} \bar{\mathcal X_{\mathcal C_i}} = \frac{1}{\mathcal N_i} \sum_{x^{(j)} \in \mathcal X_{\mathcal C_i}} x^{(j)} \end{aligned} \end{cases} ⎩ ⎨ ⎧Sbet=(XC1ˉ−XCjˉ)(XC1ˉ−XCjˉ)TXCiˉ=Ni1x(j)∈XCi∑x(j)
在求解过程中,无论是 S b e t \mathcal S_{bet} Sbet还是 S w i t h \mathcal S_{with} Swith,我们都要去求解向量内积。只不过这个内积的元素有些特殊:
{ S b e t ⇒ X C 1 ˉ − X C j ˉ S w i t h ⇒ x ( j ) − X C i ˉ \begin{cases} \mathcal S_{bet} \Rightarrow \bar{\mathcal X_{\mathcal C_1}} - \bar{\mathcal X_{\mathcal C_j}} \\ \mathcal S_{with} \Rightarrow x^{(j)} - \bar{\mathcal X_{\mathcal C_i}} \end{cases} {Sbet⇒XC1ˉ−XCjˉSwith⇒x(j)−XCiˉ
即便是有些特殊,但是既然是内积,就可以使用核函数进行表示。此时 C \mathcal C \quad C 选项正确;
如果再观察,会发现向量 X C 1 ˉ − X C j ˉ \bar{\mathcal X_{\mathcal C_1}} - \bar{\mathcal X_{\mathcal C_j}} XC1ˉ−XCjˉ和向量 x ( j ) − X C i ˉ x^{(j)} - \bar{\mathcal X_{\mathcal C_i}} x(j)−XCiˉ的大小和 x ( j ) x^{(j)} x(j)均相同。这意味着:无论是哪种内积结果,其执行内积过程中并没有维度上的变化。可以将其视作一个线性核函数。
本质上,我们可能并没有使用所谓的线性核函数,而仅是求解了它们的类内方差和类间方差。但是,其内部包含了‘线性核函数’的思想。
线性判别分析作为一个经典的分类模型,它对样本的要求是线性可分的。如果遇到线性不可分的情况,线性判别分析的模型也会相应发生变化:
h ( x ) = W T ϕ ( x ) h(x) = \mathcal W^T\phi(x) h(x)=WTϕ(x)
相比于线性可分,在线性不可分的条件下,我们需要对 x x x进行特征转换,使其有机会在高维线性可分。并且通过核函数对特征转换的内积结果进行优化。对应算法被称作核线性判别分析 ( Kernalized Linear Discriminant Analysis,KLDA ) (\text{Kernalized Linear Discriminant Analysis,KLDA}) (Kernalized Linear Discriminant Analysis,KLDA)。
这里不过多展开描述。推荐一篇文章,详见下方链接,侵删。
关于线性判别分析的一些小误区:关于上述 W \mathcal W W和 W ^ \hat {\mathcal W} W^关系式中,由于分子、分母均是标量,则有:
中的向量就是一组基,各向量之间两两正交。
这里的最大非零广义特征值,欢迎小伙伴们讨论。《机器学习》(周志华著) P63 3.4 线性判别分析
关于 D \mathcal D \quad D 选项的支持向量机,我们在引出对偶问题一节中将对偶问题转化为只包含 λ ( i ) ( i = 1 , 2 , ⋯ , N ) \lambda^{(i)}(i=1,2,\cdots,N) λ(i)(i=1,2,⋯,N)变量的优化问题:
《机器学习》(周志华著) P123 6.2 对偶问题
{ max λ − 1 2 [ ∑ i = 1 N ∑ j = 1 N λ ( i ) λ ( j ) y ( i ) y ( j ) ( x ( i ) ) T x ( j ) ] + ∑ i = 1 N λ ( i ) { s . t . λ ( i ) ≥ 0 ∑ i = 1 N λ ( i ) y ( i ) = 0 \begin{cases}\mathop{\max}\limits_{\lambda} -\frac{1}{2} \left[\sum_{i=1}^N\sum_{j=1}^N \lambda^{(i)}\lambda^{(j)}y^{(i)}y^{(j)}\left(x^{(i)}\right)^{T}x^{(j)}\right] + \sum_{i=1}^N\lambda^{(i)} \\ \begin{cases} s.t. \quad \lambda^{(i)} \geq 0 \\ \sum_{i=1}^N \lambda^{(i)}y^{(i)} = 0 \end{cases} \end{cases} ⎩ ⎨ ⎧λmax−21[∑i=1N∑j=1Nλ(i)λ(j)y(i)y(j)(x(i))Tx(j)]+∑i=1Nλ(i){s.t.λ(i)≥0∑i=1Nλ(i)y(i)=0
明显存在样本之间内积的项: [ x ( i ) ] T x ( j ) [x^{(i)}]^Tx^{(j)} [x(i)]Tx(j),同样针对线性不可分问题,或者计算复杂度较高的情况,可以使用核函数进行优化。
相关参考:
【机器学习】表示定理和核线性判别分析(KLDA)