西瓜书 第3章 线性模型 读书笔记

第3章 线性模型

1.基本形式

1.1 线性模型(linear model)

试图学得一个通过属性的线性组合来进行预测的函数

函数形式:

向量形式:

1.2 非线性模型(nonlinear model)

在线性模型的基础上通过引入层级结构或高位映射而得

1.4 可解释性(comprehensibility/understandability)

ω直观表达了各属性在预测中的重要性

 

2.线性回归(linear regression)

2.1 定义与数学形式

试图学得一个线性模型以尽可能准确地预测实值输出标记

公式:

 

2.2 离散属性与序关系

  • 有序属性值:连续化
  • 无序属性值:one-hot化

2.3 性能度量-均方误差

公式:

西瓜书 第3章 线性模型 读书笔记_第1张图片

 

2.3.1 欧氏距离(Euclidean distance

2.3.2 最小二乘法(least square method

  • 基于均方误差对模型求解的方法
  • 试图找到一条直线,使所有样本到直线上的欧式距离之和最小

2.3.3 最小二乘“参数估计”(parameter estimation

ω和b最优解的闭式(closed-form)解

  • 分别对ω和b求导
  • 分别对求导后的式子等于零

2.4 多元线性回归(multivariate linear regression)

2.4.1 秩矩阵(full-rank matrix)或正则矩阵(positive definite matrix)

现实任务重的xTx往往不是满秩矩阵

2.4.2 归纳偏好决定多个解的选择

常见做法:引入正则化(regularization)项

2.5 对数线性回归(log-linear regression) 令模型预测值逼近u的衍生物,例如ln(y)

2.5.1 在形式上仍是线性回归,但实质上已是在求取输入空间到输出空间的非线性函数映射

2.5.2 线性回归模型的预测值与真实标记联系起来的

西瓜书 第3章 线性模型 读书笔记_第2张图片

2.6 广义线性模型(generalized linear model

形式:

 

  • 联系函数(link function g(.)
  • 对数线性回归是广义线性模型在g(.)=ln(.)的特例

 

3.对数几率回归(logistic regression,亦称logit regression)(不建议用逻辑回归说法)

3.1 分类任务怎么办?

3.1.1 二分类,使用单位阶跃函数(unit-step function)

 西瓜书 第3章 线性模型 读书笔记_第3张图片

3.1.2 替代函数(surrogate function

在一定程度上近似单位阶跃函数 单调可微

对数几率函数(logistic function),一种 Sigmoid函数

3.1.3 两个函数的联系

 西瓜书 第3章 线性模型 读书笔记_第4张图片

3.2 几率(odds)

  • 假设

  • 对数几率函数

  • 带入假设

  • 变换

  • 几率是样本为正例跟样本为负例的比值

3.3 对数几率(log odds,亦称logit)

3.4 优点

  • 直接对分类可能性进行建模,无需事先假设数据分布
  • 可得到近似概率预测
  • 对率函数是任意阶可导的凸函数,方便求最优解

3.5 极大似然法(maximum likelihood method)

3.5.1 凸优化理论

3.5.2 经典的数值优化算法,例如

  • 梯度下降法(gradient descent method
  • 牛顿法(Newton method

 

4.线性判别分析(Linear Discriminant Analysis,简称LDA)

4.1 LDA的思想

给定训练样例集,设法将样例投影到一条直线上,使得同类样例的投影点尽可能接近,异类样例的投影点尽可能远离

4.2 二分类问题上称“Fisher判别分析”

  • 类内散度矩阵(with-class scatter matrix) Sw
  • 类间散度矩阵(between-class scatter matrix) Sb
  • LDA可从贝叶斯决策理论的角度来阐释
  • Sb与Sw的广义瑞利商(generalized Rayleigh quotient) LDA最大化的目标

LDA可达到最优分类,当

  • 两类数据同先验
  • 满足高斯分布
  • 协方差相等

4.3 LDA可以推广到多分类任务

矩阵的迹(trace)

 

5.多分类学习

5.1 基本思路

拆解法:讲多分类任务拆为若干个二分类任务求解

5.2 最经典的拆分策略

  • 一对一(One vs One,简称OvO)
  • 一对其余(One vs Rest,简称OvR)
  • 多对多(Many vs Many,简称MvM)

1)最常用技术:纠错输出码(Error Correcting Output,简称ECOC) 编码矩阵(coding matrix)

二元码 指定正类和反类

三元码 还可以指定用类

2)OvO和OvR是MvM的特例

 

6.类别不平衡问题(class-imbalance)

定义:分类任务中不同类别的训练样例数目差别很大的情况

6.1 处理的基本方法

再平衡(rebalance)/ 再缩放(rescaling)

6.1.1 代价敏感学习(cost-sensitive learning)的基础

6.1.2 解决现实中没有“无偏采样”的做法

  • 欠采样(undersampling)/下采样(downsampling)
  • 过采样(oversampling)/上采样(upsampling)
  • 阈值移动(threshold-moving)

 

7.阅读材料

7.1 稀疏表示(sparse representation)

  • 稀疏性问题本质上对应L0范数的优化,通常是NP难问题
  • 求稀疏解的重要技术  LASSO通过L1范数近似L0范数

7.2 MvM实现方式补充

  • ECOC
  • 有向无环图DAG(Directed Acyclic Graph)
  • 多类支持向量机

7.3 代价敏感学习

基于类别的误分类代价(misclassification cost)

7.4 多分类学习

每个样本仅属于一个类别

7.5 多标记学习(multi-label learning)

为一个样本同时预测出多个类别标记

转载于:https://www.cnblogs.com/rongguohao/p/10881283.html

你可能感兴趣的:(数据结构与算法,人工智能)