西瓜书读书笔记 ch3线性模型 ch4决策树

项目实践中对机器学习有一些零碎的接触，通过西瓜书的学习构建和梳理知识体系，不错的一个办法。

西瓜书写的比较深入浅出，建议机器学习者入门了解。

下面是部分章节的笔记：

ch2 模型选择和评价

阅读建议：对模型性能评价的各项指标有了了解，但是灵活运用还是比较难，建议掌握基本概念，各种算法和模型学好有一定实操基础后再回来看。

ch3 线性模型

* 线性模型的定义和表示

f(x)=(w1,w2,...,wd)*(x1,x2,..,xd) + b

* 线性回归及参数求解

f(x) y 之间均方差最小情况求得参数 w & b

欧几里得距离最小，也叫最小二乘法进行参数估计

建模：模型+算法+采样训练

线性回归模型 + 最小二乘法 + 采样

* 对数几率回归逻辑回归

线性回归进行Y的预测，逻辑回归进行Y的分类（通过对数函数保证预测值落在固定的区间）

此处有N多公式看的比较晕，高阶可导连续凸函数。。。blabla

参数计算：梯度下降法

建模：逻辑回归模型 + 梯度下降算法 + 采样

* 线性判别分析线性判别分类

linear discrimination analysis LDA

参数计算：类内散度矩阵广义瑞利商全局散度矩阵等

模型：线性判别分类LDA + 算法 + 采样逻辑

* 多分类学习

两个策略：部分二分类方法可以直接推广到多分类；多个二分类学习器解决多分类问题

多个分类器的集成策略：一对一、一对其余、多对多

最优效果/最优参数计算方法：编码矩阵ECOC

* 样本不均衡问题

不均衡样本问题：欺诈和异常检测等情况，正反例的不均衡

三个解决办法：

1. 欠采样：反例欠采样，使得正反例样本均衡；代表算法 EasyEnsemble学习器反例采样+正例，多次学习，尽量不丢失样本数据

2. 过采样：衍生增加一些正例；算法 SMOTE进行正例插值产生衍生正例

3. 阈值移动：通常的0.5阈值变为真实无偏差采样阈值（往往经验值）

* 衍生：多元稀疏问题、多标记学习

本章阅读建议： 有基础的不论，我看了两遍基本概念get了，公式和算法之类的基本了解了。

ch4 决策树

* 决策树的定义和表示

树天然解决分类问题的好办法，最符合人的思维（麦肯锡思维中问题树、是否树、决策树）

决策树是一个递归进行树构建的过程，目的实现对样例的归纳，实现在测试样例上的泛化能力。

* 数的划分算法

三种划分方法：

1. ID3

2. C4.5

3. CART

划分的依据：信息增益，各种公式 blabla

* 过拟合与剪枝

决策树的归纳过程，贪心算法，容易造成过拟合，需要进行剪枝，剪枝分位预剪枝、后剪枝

方法：用验证集，对树按照分类性能（信息增益）进行控制（控制树的成长）

* 数据处理

1. 连续变量的处理，通常使用二分法（又是信息增益）进行连续属性的离散化处理

2. 缺失值处理，不同的算法处理办法不同，也是产生算法差异的地方

* 多变量决策树

看的比较晕，第二遍再了解

建模：决策树模型 + 算法（id3 c4.5 cart） + 样本处理技术（combined with 算法）

* 应用

决策树是分类模型

1. 决策树的 isolation forest 进行离群点探测

2. 决策树的组合学习方法：树变森林

本章没有涉及，应该在后续章节中深入

ch5 神经网络

先暂停下，把线性模型、决策树捋一捋