西瓜书——第三章 线性模型总结

一、基本形式

1、线性组合的基本形式是什么?向量形式怎么表示?
2、线性模型与非线性模型之间有什么关系?如何通过现象模型得到非线性模型?

二、线性回归——回归任务

1、对数据处理:(这里指对离散属性的量化)
例如:”身高“的”高“、”低“,可转化为{1.0,0.0};
”身高“的”高“、”中“、”低“,可转化为{1.0, 0.5,0.0};
”瓜类“的”西瓜“、”南瓜“、”黄瓜“,可转化为{0,0,1},{0,1,0},{1,0,0};
注:若将为无序属性连续化,则会不恰当地引入序的关系,对后续处理如距离计算等造成误差。
2、如何确定w和b呢?——均方误差是回归任务中最常用的性能度量,尝试让均方误差最小;
3、知道熟悉最小二乘法求解最优结果。

三、对数几率回归——分类任务

1、首先知道什么是”广义线性模型“;
2、对数几率回归思想就是利用”广义线性模型“:只需找一个单调可谓函数将分类任务的真实标记y与线性回归的预测值联系起来;
3、最常用的sigmoid函数,了解它的性值、图形;
4、如何通过”极大似然法“来估计w和b?知道其中的原理和公式推导;
5、知道什么是线性判别分析?
6、理解线性判别分析的建模过程;
7、如何将线性判别分析推广到多分类任务中,理解其建模过程;

四、多分类学习

1、如何实现多分类学习‘
2、多分类学习的基本思想是什么?能不能改进?
3、有哪些经典的拆分策略?(OvO, OvR, MvM);
4、图解拆分策略;

五、类别不平衡问题

1、为什么会出现类别不平衡问题?
2、假设数据是无偏采样,那么分类器的预测与观测几率有什么关系?
3、说说类别不平衡学习中的一个基本策略——”再缩放“
4、实际问题往往不存在“训练集是真实样本总体的五篇估计”该怎么做;(现在技术有三类做法)
5、谈谈这三类做法;代表算法;
6、说说”稀疏表示“;

你可能感兴趣的:(机器学习)