实际上就是我们熟悉的模型
f ( x ) = w 1 x 1 + w 2 x 2 + w 3 x 3 + ⋯ + w d x d + b f(\textbf{x})=w_{1}x_{1}+w_{2}x_{2}+w_{3}x_{3}+\cdots+w_{d}x_{d}+b f(x)=w1x1+w2x2+w3x3+⋯+wdxd+b
也可写成向量形式
f ( x ) = w T x + b f(\textbf{x})=\textbf{w}^{T}\textbf{x}+b f(x)=wTx+b
当 w \textbf{w} w和 b b b学得之后,模型确定。
利用最小二乘方法:
更近一步线性回归也可以指 y y y的函数与 x x x之间的关系
分类回归,实际上就是广义线性模型的特殊形式: 即寻找一个单调可微函数将分类任务的真实标记 y 与线性回归模型的预测值联系起来 \color{blue}{即寻找一个单调可微函数将分类任务的真实标记y与线性回归模型的预测值联系起来} 即寻找一个单调可微函数将分类任务的真实标记y与线性回归模型的预测值联系起来
对数几率函数(logistic function): y = 1 1 + e − z y=\dfrac{1}{1+e^{-z}} y=1+e−z1 (z取值 ( − ∞ , + ∞ ) (-\infin,+\infin) (−∞,+∞),y取值 ( − 1 , 1 ) (-1,1) (−1,1))
z = w T x + b z=\textbf{w}^{T}\textbf{x}+b z=wTx+b
则有: y = 1 1 + e − ( w T x + b ) y=\dfrac{1}{1+e^{-(\textbf{w}^{T}\textbf{x}+b)}} y=1+e−(wTx+b)1
因此有: l n y 1 − y = w T x + b ln\dfrac{y}{1-y}=\textbf{w}^{T}\textbf{x}+b ln1−yy=wTx+b
如何预测? \color{red}{如何预测?} 如何预测?
二分类问题,也称为“ F i s h e r Fisher Fisher判别分析”,但除此之外 L D A LDA LDA也可以用于多分类任务中,常被认为是经典的监督降维技术。
思想:将样例投影到一条直线上 ( y = w T x ) (y=w^{T}x) (y=wTx), 使得同类的点尽可能接近,异类的点尽可能远离 \color{blue}使得同类的点尽可能接近,异类的点尽可能远离 使得同类的点尽可能接近,异类的点尽可能远离,再对新样本进行分类时将其投影到同一条直线上,在根据投影点的位置来确定新样本的类别。
X i , μ i , Σ i X_{i},\mu_{i},\Sigma_{i} Xi,μi,Σi分别是 i = { 0 , 1 } i=\{0,1\} i={0,1}两类样本的示例集合、均值向量,协方差矩阵。
思想中蓝色部分所述即选取直线的方法,也就是通过什么来估计 w w w。
所以综上所述:最大化 J = ∣ ∣ w T μ 0 − w T μ 1 ∣ ∣ 2 2 w T Σ 0 w + w T Σ 1 w = w T ( μ 0 − μ 1 ) ( μ 0 − μ 1 ) T w w T ( Σ 0 + Σ 1 ) w J=\dfrac{||w^{T}\mu_{0}-w^{T}\mu_{1}||_{2}^{2}}{w^{T}\Sigma_{0}w+w^{T}\Sigma_{1}w}=\dfrac{w^{T}(\mu_{0}-\mu_{1})(\mu_{0}-\mu_{1})^{T}w}{w^{T}(\Sigma_{0}+\Sigma_{1})w} J=wTΣ0w+wTΣ1w∣∣wTμ0−wTμ1∣∣22=wT(Σ0+Σ1)wwT(μ0−μ1)(μ0−μ1)Tw,即可满足上述条件。
为了简化上式定义了两个新的概念:
因此 J J J可以改写为 J = w T S b w w T S w w J=\dfrac{w^{T}S_{b}w}{w^{T}S_{w}w} J=wTSwwwTSbw
多分类学习的基本思路是:“拆解法”,即将多分类任务拆为若干个二分类任务求解。
具体来说(这里算是机器学习的核心思想,I think):先对问题进行拆分,然后为拆出来的每个二分类任务训练一个分类器;在测试时,对这些分类器的预测结果进行集成以获得最终的多分类结果。 关键在于如何对多分类任务进行拆解,以及如何对多个分类器进行集成。 \color{blue}关键在于如何对多分类任务进行拆解,以及如何对多个分类器进行集成。 关键在于如何对多分类任务进行拆解,以及如何对多个分类器进行集成。
经典的拆分策略:
对比 \color{purple}对比 对比:OvR需要N个分类器,OvO需要 N ( N − 1 ) 2 \dfrac{N(N-1)}{2} 2N(N−1)个分类器,OvR训练时间更长,OvO储存开销和测试时间更大。
在预测性能上两者相差不大。
三种方法: