机器学习03 线性模型

前言:本章先介绍如何使用线性模型(linear model)处理回归任务,再考虑经由映射函数处理二分类任务的对数几率回归(logistic regression, 或 logit regression),和利用样本点投影距离处理二分类任务的线性判别分析(Linear Discriminant Analysis, LDA),最后介绍多分类学习,并指出类别不平衡问题及再缩放(rescaling)的应对策略。


知识点

输入属性若存在关系(order),可通过连续化转为连续值;不存在序关系,则转化为n维向量,若将其连续化,则对距离计算等造成误导(9.3节)

线性判别分析(Linear Discriminant Analysis, LDA)的思想:异样本的投影尽可能远;同样本的投影尽可能近。

多分类学习处理思路:拆解法,将多分类任务拆为若干个二分类任务求解。具体策略有“一对一”(One vs. One, OVO)、“一对其余”(One vs. Rest, OvR)和“多对多”(Many vs. Many, MvM)。

拆解策略 特点
OvO 将N个类别任意两两配对,产生 N(N-1)/2 个二分类任务。
OvR 产生 N 个分类任务。
训练每个训练器使用全部训练样例
MvM 将若干个类作为正类,若干其他类作为反类。正反例构造需要使用纠错输出码(Error Correcting Output Codes. ECOC)

类别不平衡问题:分类任务中不同类别的训练样例数目不相当(如,正例有998个,而反例有2个)。

存在于不同类别的训练样例数不同的原始问题中,也存在于处理多分类时拆解分类任务后。

处理方法:再缩放(rescaling)–对训练集中的反例进行欠采样(undersampling);对训练集中的正例进行过采样(oversampling);阈值移动(threshold-moving)。

问题

E ( w , b ) E_{(w, b)} E(w,b)为什么是关于 w w w b b b 的凸函数?为什么关于 w w w b b b 的导数均为零时,得到 w w w b b b 的最优解?

E ( w , b ) E_{(w, b)} E(w,b)若为一般的二元函数,可由定义判定凹凸性;若为可微函数,可由两充要条件判断。

充要条件1(一阶条件):设 R c R_c Rc E n E_n En 上的开凸集, f ( X ) f(X) f(X) R c R_c Rc 上可微,则 f ( X ) f(X) f(X) R c R_c Rc 上的凸函数的充要条件是:对任意不同两点 X ( 1 ) ∈ R c X^{(1)} \in R_c X(1)Rc X ( 2 ) ∈ R c X^{(2)} \in R_c X(2)Rc,恒有 f ( X ( 2 ) ) ≥ f ( X ( 1 ) ) + ∇ f ( X ( 1 ) ) T ( X ( 2 ) = X ( 1 ) ) f(X^{(2)}) \geq f(X^{(1)})+\nabla f\left(X^{(1)} \right) ^{T}(X^{(2)}=X^{(1)}) f(X(2))f(X(1))+f(X(1))T(X(2)=X(1))

充要条件2(二阶条件):设 R c R_c Rc E n E_n En 上的开凸集, f ( X ) f(X) f(X) R c R_c Rc 上二阶可微,则 f ( X ) f(X) f(X) R c R_c Rc 上的凸函数(严格凸函数)的充要条件是:对所有 X ∈ R c X \in R_c XRc,其黑塞矩阵半正定(正定)。

凸函数的任意极大(小)值为其最大(小)值,且凸函数的驻点就是全局最优点。


待办:

P56:为什么当 X T X X^TX XTX 不是满秩矩阵,可以解出多个 w ^ \hat{w} w^

P59:书写3.25中的似然项,即3.26

P61:公式推导

你可能感兴趣的:(机器学习)