西瓜书读书笔记 ch3线性模型 ch4决策树

项目实践中对机器学习有一些零碎的接触,通过西瓜书的学习 构建和梳理知识体系,不错的一个办法。

西瓜书写的比较深入浅出,建议机器学习者入门了解。

下面是部分章节的笔记:


ch2 模型选择和评价


阅读建议:对模型性能评价的各项指标有了了解,但是灵活运用还是比较难,建议掌握基本概念,各种算法和模型学好 有一定实操基础后再回来看。



ch3 线性模型


* 线性模型的定义和表示

f(x)=(w1,w2,...,wd)*(x1,x2,..,xd) + b

* 线性回归及参数求解

f(x) y 之间均方差最小情况求得参数 w & b

欧几里得距离最小,也叫最小二乘法进行参数估计

建模:  模型+算法+采样训练

线性回归模型 + 最小二乘法 + 采样

* 对数几率回归  逻辑回归

线性回归进行Y的预测, 逻辑回归进行Y的分类(通过对数函数保证 预测值落在固定的区间)

此处有N多公式看的比较晕,高阶可导连续凸函数。。。blabla

参数计算: 梯度下降法

建模: 逻辑回归模型 + 梯度下降算法 + 采样

* 线性判别分析 线性判别分类

linear discrimination analysis  LDA

参数计算: 类内散度矩阵  广义瑞利商  全局散度矩阵等

模型: 线性判别分类LDA + 算法 + 采样逻辑

* 多分类学习

两个策略: 部分 二分类方法可以直接推广到多分类;  多个二分类学习器解决多分类问题

多个分类器的集成策略: 一对一、一对其余、多对多

最优效果/最优参数计算方法:  编码矩阵ECOC

* 样本不均衡问题

不均衡样本问题: 欺诈和异常检测等情况,正反例的不均衡

三个解决办法:

1. 欠采样: 反例欠采样,使得正反例样本均衡; 代表算法 EasyEnsemble学习器 反例采样+正例,多次学习,尽量不丢失样本数据

2. 过采样: 衍生增加一些正例; 算法 SMOTE进行正例插值产生衍生正例

3. 阈值移动:通常的0.5阈值变为真实无偏差采样阈值(往往经验值)

* 衍生:多元稀疏问题、多标记学习

本章阅读建议: 有基础的不论,我看了两遍基本概念get了,公式和算法之类的基本了解了。



ch4 决策树


* 决策树的定义和表示

树 天然解决分类问题的好办法,最符合人的思维(麦肯锡思维中 问题树、是否树、决策树)

决策树是一个递归进行树构建的过程,目的实现对样例的归纳,实现在测试样例上的泛化能力。

* 数的划分算法

三种划分方法:

1. ID3

2. C4.5

3. CART

划分的依据:信息增益,各种公式 blabla

* 过拟合与剪枝

决策树的归纳过程,贪心算法,容易造成过拟合,需要进行剪枝,剪枝分位预剪枝、后剪枝

方法:用验证集,对树按照分类性能(信息增益)进行控制(控制树的成长)

* 数据处理

1. 连续变量的处理,通常使用二分法(又是信息增益)进行连续属性的离散化处理

2. 缺失值处理,不同的算法处理办法不同,也是产生算法差异的地方

*  多变量决策树

看的比较晕,第二遍再了解

建模: 决策树模型 + 算法(id3 c4.5 cart) + 样本处理技术(combined with 算法)

* 应用

决策树是分类模型

1. 决策树的 isolation forest 进行离群点探测

2. 决策树的组合学习方法: 树变森林

本章没有涉及,应该在后续章节中深入




ch5 神经网络


先暂停下,把线性模型、决策树  捋一捋

你可能感兴趣的:(西瓜书读书笔记 ch3线性模型 ch4决策树)