机器学习课堂笔记-1

目录

课程概述

机器学习定义

机器学习应用与发展

机器学习常用术语


课程概述

期末60+平时40

回归算法、神经网络分类、聚类算法、降维算法

机器学习学习流程图如下:

机器学习课堂笔记-1_第1张图片

1.回归分析:

  • 线性回归
  • 非线性回归

2.分类算法:

  • 神经网络
  • 支持向量机
  • 朴素贝叶斯
  • K-近邻
  • 决策树(随机森林)
  • 深度神经网络

3.聚类算法:

  • K-means聚类
  • 层次聚类
  • 密度聚类
  • 谱聚类
  • 高斯混合聚类

4.降维算法:

  • 主成分分析
  • 线性判别分析
  • 局部线性嵌入

参考书目:

  • 西瓜书(周志华)
  • 斯坦福大学】吴恩达:【斯坦福大学】2019零基础入门吴恩达机器学习到进阶教程_哔哩哔哩_bilibili

!!考前2次画重点!!


机器学习定义

归纳法:从特殊到一般

演绎法:从一般到特殊

传统编程:数据+规则—>结果

模拟人脑:数据+答案==>规则—>结果

机器学习流程图如下:机器学习课堂笔记-1_第2张图片

 机器学习依赖数据,而目前大公司牢牢掌握着数据,有一个关键点在于数据的采集如何简单下来?


机器学习应用与发展

应用

小数据举例:

  • 画作鉴别:笔触分析(降低成本:需要专业素养,专业训练培养,越专业花费时间,越节约成本时间,效率高,精度高)
  • 风格转换(生成对抗网络)(问题在于合成细节处理是否到位)
  • 古文献修复
  • (自动记录人工训练数据,自动选择决策(作为判断参考,不敢直接使用决策结果,具体问题需要具体分析,这叫“辅人性”

 大数据举例:

  •  帮助奥巴马胜选

发展

机器学习课堂笔记-1_第3张图片

机器学习发展历史回顾 - 知乎https://zhuanlan.zhihu.com/p/43833351


机器学习常用术语

有监督学习,无监督学习,半监督学习

数据集:训练集,测试集

假设(hypothesis),真相(ground-truth)

               通过回归进行分类,成熟程度:0.95>0.5,熟瓜,0.1<0.5,生瓜

《机器学习》中的假设空间和版本空间_anqijiayou的博客-CSDN博客_假设空间https://blog.csdn.net/anqijiayou/article/details/79697900?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522163194774316780357226967%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%255Fall.%2522%257D&request_id=163194774316780357226967&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~all~first_rank_ecpm_v1~rank_v31_ecpm-1-79697900.pc_search_result_cache&utm_term=%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E4%B8%AD%E7%9A%84%E5%81%87%E8%AE%BE%E7%A9%BA%E9%97%B4&spm=1018.2226.3001.4187归纳偏好:两个模型预测结果不一致,任何一个有效的机器学习算法必有其偏好,而学习算法的归纳偏好是否与问题本身匹配。

奥卡姆剃刀:如非必要,勿增实体。

NFL定理(no free lunch定理):一个算法\xi _{0}若在某些问题上比另一个算法\xi _{1}好,必存在另一些问题,\xi _{1}\xi _{0}好。

具体的问题适用情况好即可,说明不适用情况。

 模型选取:

  1. 评价方法(数据集生成)
  2. 评价指标(性能度量)
  3. 比较检验(假设检验)\xi\xi _{0}
  4. 特征工程(预处理,归一化)

 泛化误差越小越好,经验误差还真不一定越小越好(因为会“过拟合”)(短期检验期内越小越好)。死书活学>活电脑死学。多参加不同活动泛化误差小。以前的我:先减少误差后泛化误差,效率低了,做了重复工作,前期收获少。

过拟合的原因:

  1. 参数数量过多或者训练样本不足,解决方法:正则化-参数稀疏化(L1范数)或参数衰减(L2范数)。 样本数量过少怎么解决:样本扩充augment:目前最新的是生成对抗网络生成新的样本。
  2. 过训练,解决方法:验证集+early stop

怎么选择模型实际上还是根据模型的结果来,方法只是作为一个参考。

性能度量是衡量模型泛化能力的评价标准,反映了任务需求。

模型好不好:不仅取决于算法和数据,还取决于任务需求。

回归分析

分类:

  • 错误率:误分类数/总数
  • 精度:正确/总数

每类精度:每一类里的正确/总数。平均精度

混淆矩阵confusion matrix正规论文会有个图。横坐标实际,纵坐标预测,二维矩阵热图。

  • 查准率:P=TP/(TP+FP) 偏好推荐
  • 查全率:R=TP/(TP+FN)

评价分类器优劣:P-R图,ROC,AUC

聚类的指标:

外部指标:定义a,b,c,d,

  • jaccard系数,
  • FM指数(根号下查准率×查全率),
  • rand指数(RI=2(a+d)/(m(m+1)))

内部指标:聚类结果的簇划分,DB指标,Dunn指数,要求类间距离大,类内距离小。

DBI=簇间距离/簇内距离

距离度量:曼哈顿距离,欧式距离,闵可夫距离,切比雪夫距离等等(可以作为研究工作的创新点之一

比较检验——实质差别

得到的是测试性能,实质考量的是泛化性能,(毕竟你的测试结果可能随着测试集的变化而变化)

说白了,就是概率近似正确,就是大概率是没问题的。

1.利用二项检验,显著性检验\alpha=90%,如果落在了这个区域里面,说明可信的可能性在置信区间里面。

2.多次进行留出法或交叉检验法的情况下,利用t分布进行估计,假设泛化误差率与测试误差的均值相同。有论文是这么用的。

两个分类器性能比较-t分布。

偏差-方差分解

泛化误差是怎么得来的?E(f:D)=bias^{2}(x)+var(x)+\xi ^{2}偏差:期望输出与真实输出的差别;方差:同样大小的训练集的变动,所导致的性能变化;噪声

特征工程

你可能感兴趣的:(机器学习,机器学习,python)