西瓜书第3章学习笔记

目录

3.1基本形式

3.2线性回归

3.3对数几率回归(逻辑回归)

3.4线性判别分析(Linear Discriminate Analysis,LDA)

3.5多分类学习

3.6分类不平衡问题


机器学习三要素:

模型——根据具体问题,确定假设空间;

策略:根据评价标准,确定选取最优模型的策略;

算法——求解损失函数,确定最优模型

注:西瓜书第3章学习的时候参考了南瓜书以及斯坦福吴恩达老师的课程。

3.1基本形式

线性模型的一般表达式

f(x)=w_1x_1+w_2x_2+...+w_dx_d+b

写成向量形式为

f(x)=w^Tx+b

3.2线性回归

线性回归试图学得

南瓜书中用极大似然估计推出,可以通过让f(x_i)y_i均方误差最小来作为性能度量,此时需要找到最优解\omega^*b^*。求解\omega和b,使得E_{(\omega,b)}=\sum_{i=1}^m(y_i-wx_i-b)^2最小化的过程,称为线性回归模型的最小二乘“参数估计”(parameter estimation)。

多元线性回归中,则是由向量和矩阵来描述\omega,x等。

下面贴出吴恩达课程的学习笔记:

西瓜书第3章学习笔记_第1张图片

 西瓜书第3章学习笔记_第2张图片

 西瓜书第3章学习笔记_第3张图片

 西瓜书第3章学习笔记_第4张图片

 3.3对数几率回归(逻辑回归)

虽然被称为回归,但是其实是解决分类问题。主要思想是找一个单调可微函数将分类任务的真是标记y与线性回归模型的预测值联系起来。

西瓜书第3章学习笔记_第5张图片

西瓜书第3章学习笔记_第6张图片 西瓜书第3章学习笔记_第7张图片

3.4线性判别分析(Linear Discriminate Analysis,LDA)

思想:给定训练样例集,设法将样例投影到一条直线上,使得同类样例的投影点尽可能接近、异类样例的投影点尽可能原理;在对新样本进行分类时,将其投影到同样的这条直线上,再根据投影点的位置来确定新样本的图例。

西瓜书第3章学习笔记_第8张图片

 3.5多分类学习

拆分策略主要有:一对一(OvO)、一对其余(OvR)和多对多(MvM)

 3.6分类不平衡问题

解决方法:

  1. 对较多的样本进行欠采样,代表性算法SMOTE(插值产生额外样例)
  2. 对较少的样本进行过采样,代表性算法EasyEnsemble(利用集成学习将样例分为若干个集合)
  3. 阈值移动

你可能感兴趣的:(机器学习,机器学习,算法,人工智能)