机器学习初步-笔记

机器学习初步-笔记

  • 第一章-绪论
    • 1.1教材
    • 1.2课程定位
    • 1.3机器学习
    • 1.4典型的机器学习过程
    • 1.5计算学习理论
    • 1.6基本术语
    • 1.7归纳偏好
    • 1.8NFL定理
  • 第二章-模型评估与选择
    • 2.1泛化能力
    • 2.2过拟合和欠拟合
    • 2.3三大问题
    • 2.4评估方法
      • 留出法(hold-out)
      • 交叉验证法(cross validation)
      • 自助法(bootstrap):有放回采样
    • 2.5调参与验证集
    • 2.6性能度量
    • 2.7比较检验
  • 第三章-线性模型
    • 3.1线性回归
    • △3.2最小二乘解-已经手写推导
    • 3.3多元线性回归
    • 3.4广义线性模型
    • 3.5对率回归
    • △3.6对率回归求解
    • 3.7类别不平衡
  • 第四章-决策树
    • 4.1决策树基本流程
    • 4.2信息增益划分
    • 4.3其他属性划分准则
    • 4.4决策树的剪枝
    • 4.5缺失值的处理
  • 第五章-支持向量机
    • 5.1支持向量机基本型
    • 5.2对偶问题与解的特性
    • 5.3求解方法
    • 5.4特征空间映射
    • 5.5核函数
    • 5.6如何使用SVM?
  • 第六章-神经网络
    • 6.1神经网络模型
    • 6.2万有逼近能力
    • 6.3BP算法推导
  • 第七章-贝叶斯分类器
    • 7.1贝叶斯决策论
    • 7.2生成式和判别式模型
    • 7.3贝叶斯分类器与贝叶斯学习
    • 7.4极大似然估计
    • 7.5朴素贝叶斯分类器
  • 第八章-继承学习和聚类
    • 8.1集成学习
    • 8.2好而不同
    • 8.3两类常用集成学习方法
    • 8.4Boosting
    • 8.5Bagging
    • 8.6多样性度量
    • 8.7聚类
    • 8.8聚类方法概述

第一章-绪论

1.1教材

机器学习初步-笔记_第1张图片

1.2课程定位

  • 搞清楚是什么为什么这么做

1.3机器学习

  • 利用经验改善系统自身的性能,目前主要研究智能数据分析的理论和方法

1.4典型的机器学习过程

  • “好瓜、坏瓜”是一个西瓜样例的类别标记
    机器学习初步-笔记_第2张图片

1.5计算学习理论

  • x是输入数据,f是模型;y是预测值|f(x)-y|<=ε,P(|f(x)-y|)>=1-δ,δ绝对小并且1-δ接近1,表示概率P的值绝对准;PAC概率近似正确。
    机器学习初步-笔记_第3张图片

1.6基本术语

  • 输出结果不知道就是无监督学习。泛化:学到的数据,再处理新数据的能力,就是指ε 到底可以达到多少。
  • 示例:一行样本的各个属性值(特征值)
  • 样例:好瓜
  • 假设:学到的模型f(x)

1.7归纳偏好

  • 偏置,对某种东西有特殊的喜好,若非必要,勿增实体
  • 奥卡姆剃刀 原则:若有多个假设与观察一致,则选最简单的那个

1.8NFL定理

在这里插入图片描述

第二章-模型评估与选择

2.1泛化能力

  • 错误率低,精度高;对新的数据的处理能力强。

2.2过拟合和欠拟合

  • 泛化误差:在“未来”样本上的误差
  • 经验误差:在训练集.上的误差,亦称“训练误差”
  • 过拟合:就是训练集训练过度,新的样本预测能力差
  • 欠拟合:就是训练集训练不好,新的样本预测能力也差

2.3三大问题

  • 如何获得测试结果?评估方法
  • 如何评估性能优劣?性能度量
  • 如何判断实质差别?比较检验

2.4评估方法

  • 如何将测试集和验证集分割;注意原始数据集应该互斥

留出法(hold-out)

  • 保持数据分布一致性( 例如:分层采样)
  • 多次重复划分(例如: 100次随机划分)
  • 测试集不能太大、不能太小(例如: 1/5~1/3) .
  • 存在缺点:不能每个样本都测试到,会遗漏样本

交叉验证法(cross validation)

  • k-折交叉验证
    机器学习初步-笔记_第4张图片
  • 存在缺点:如果男女性别的测试,测试精度就会不准

自助法(bootstrap):有放回采样

机器学习初步-笔记_第5张图片

2.5调参与验证集

机器学习初步-笔记_第6张图片

2.6性能度量

  • 均方误差
    机器学习初步-笔记_第7张图片
  • 错误率和精度
    机器学习初步-笔记_第8张图片
  • 查准率和查全率。查全率:收购西瓜的公司希望把瓜摊的好瓜都尽量收走。
    机器学习初步-笔记_第9张图片

机器学习初步-笔记_第10张图片

2.7比较检验

机器学习初步-笔记_第11张图片

第三章-线性模型

3.1线性回归

  • w,b求出最优解
    机器学习初步-笔记_第12张图片

  • 序关系:高1.0 中0.8 低0.5

  • 一些青色,浑浊,沉闷变成onehot编码[0 1 0]代表浑浊这样。

△3.2最小二乘解-已经手写推导

  • 最小二乘法:基于均方误差最小化来进行模型求解的方法称为
  • 偏导求极大值和极小值,找它的变化率
    机器学习初步-笔记_第13张图片

3.3多元线性回归

  • 归纳偏好-正则化
    机器学习初步-笔记_第14张图片

3.4广义线性模型

  • 逼近对数线性回归
    机器学习初步-笔记_第15张图片

  • 联系函数
    机器学习初步-笔记_第16张图片

3.5对率回归

  • 几率
    机器学习初步-笔记_第17张图片

  • 对率回归;是分类学习算法
    机器学习初步-笔记_第18张图片

△3.6对率回归求解

  • 对数几率回归为什么不能通过令偏导为0求解?均方损失非凸
    机器学习初步-笔记_第19张图片

3.7类别不平衡

  • 小类比大类重要时候,类别不平衡问题中何时需要做特殊处理
    机器学习初步-笔记_第20张图片

  • 解决类别不平衡问题:1过采样:将原来小类别的样本变大,和原来的大样本平衡;2欠采样:将原来大类别的样本变小,和原来的小样本平衡;3阀值移动:SVM阀值移动
    机器学习初步-笔记_第21张图片

第四章-决策树

4.1决策树基本流程

  • 三种停止条件:
  • (1)当前结点包含的样本全属于同一类别,无需划分;就是决策树只有一个结点;
  • (2)当前属性集为空,或是所有样本在所有属性上取值相同,无法划分;就是属性值太多相同;
  • (3)当前结点包含的样本集合为空,不能划分.就是决策树预测出来的属性。

4.2信息增益划分

  • 信息增益:划分前的信息熵-划分后的信息熵
    在这里插入图片描述
  • 西瓜书的例子
    机器学习初步-笔记_第22张图片

  • 最后以最大的纹理为划分的结点。
    机器学习初步-笔记_第23张图片

4.3其他属性划分准则

  • 信息增益率;起到了规范化的作用;教材p76
    机器学习初步-笔记_第24张图片

4.4决策树的剪枝

  • 预剪枝:提前终止某些分支的增长
  • 后剪枝:生成一颗完全树,再“回头”剪枝
    机器学习初步-笔记_第25张图片

4.5缺失值的处理

  • 对于属性值的缺失:基本思路就是,样本赋权,权重划分

机器学习初步-笔记_第26张图片

机器学习初步-笔记_第27张图片

第五章-支持向量机

5.1支持向量机基本型

机器学习初步-笔记_第28张图片

机器学习初步-笔记_第29张图片

5.2对偶问题与解的特性

机器学习初步-笔记_第30张图片

机器学习初步-笔记_第31张图片

5.3求解方法

机器学习初步-笔记_第32张图片

5.4特征空间映射

机器学习初步-笔记_第33张图片

5.5核函数

  • 核函数:1距离矩阵2半正定
    机器学习初步-笔记_第34张图片
    机器学习初步-笔记_第35张图片

5.6如何使用SVM?

机器学习初步-笔记_第36张图片

机器学习初步-笔记_第37张图片
机器学习初步-笔记_第38张图片

第六章-神经网络

6.1神经网络模型

机器学习初步-笔记_第39张图片
机器学习初步-笔记_第40张图片

6.2万有逼近能力

6.3BP算法推导


机器学习初步-笔记_第41张图片

机器学习初步-笔记_第42张图片

机器学习初步-笔记_第43张图片
机器学习初步-笔记_第44张图片

第七章-贝叶斯分类器

7.1贝叶斯决策论

机器学习初步-笔记_第45张图片

7.2生成式和判别式模型

机器学习初步-笔记_第46张图片

7.3贝叶斯分类器与贝叶斯学习

  • 贝叶斯主义认为,分布的参数是分布。
  • 统计学习属于频率主义。

7.4极大似然估计

7.5朴素贝叶斯分类器

  • 注意:对连属性,计算条件概率可考虑概率密度函数
    机器学习初步-笔记_第47张图片

机器学习初步-笔记_第48张图片

第八章-继承学习和聚类

8.1集成学习

  • Ensemble learning:多个学习器集成。

8.2好而不同

机器学习初步-笔记_第49张图片

  • E是集成学习的错误;E-是每个个体错误的平均,就是平均性能;A-就是每个个体之间的差异度。希望E-小,每个个体A-之间的差异要大,就是diversity。
  • 误差-分歧分解表明集成学习中多样性是关键。
    机器学习初步-笔记_第50张图片

8.3两类常用集成学习方法

  • 串行和并行化算法
    机器学习初步-笔记_第51张图片

8.4Boosting

  • alignment配准
  • Boosting流程:对错误样本进行加权,最后进行求和。
  • Boosting是一种同质集成学习方法。
    机器学习初步-笔记_第52张图片

8.5Bagging

  • 投票做分类,平均做回归;
  • 注意:Bagging算法使用的采样方法是有放回采样。
    机器学习初步-笔记_第53张图片

8.6多样性度量

  • 多样性度量
    机器学习初步-笔记_第54张图片

  • 现有的76种多样性度量

  • diversity和E的关系
    机器学习初步-笔记_第55张图片

8.7聚类

  • 无监督学习除了聚类,还有密度估计;有监督:回归,分类。
    机器学习初步-笔记_第56张图片

  • 聚类也可以做分类的预处理。
    机器学习初步-笔记_第57张图片

8.8聚类方法概述

  • 一些新算法的比较容易诞生

  • 常见的聚类算法

  • 什么是层次聚类,AGNES;越下层,越粒化;
    机器学习初步-笔记_第58张图片

  • 原型聚类都可以看成高斯聚类的特例,比较适合处理椭球结构

  • 密度聚类比较适合与香肠型聚类
    机器学习初步-笔记_第59张图片

你可能感兴趣的:(机器学习,人工智能,python)