[中英字幕]吴恩达机器学习系列课程 笔记

[中英字幕]吴恩达机器学习系列课程 笔记

  • 教程与代码地址
  • P1 1-1.欢迎参加《机器学习》课程
  • P2 1-2.什么是机器学习?
  • P3 1-3.监督学习
  • P4 1-4.无监督学习
  • P5 2-1.模型描述
  • P6 2-2.代价函数
  • P7 2-3.代价函数(一)
  • P8 2-4.代价函数(二)
  • P9 2-5.梯度下降
  • P10 2-6.梯度下降知识点总结
  • P11 2-7.线性回归的梯度下降
  • P12 3-1.矩阵和向量
  • P13 3-2.加法和标量乘法
  • P14 3-3.矩阵向量乘法
  • P15 3-4.矩阵乘法
  • P16 3-5.矩阵乘法特征
  • P17 3-6.逆和转置
  • P18 4-1.多功能
  • P19 4-2.多元梯度下降法
  • P20 4-3.多元梯度下降法演练.I.–.特征缩放
  • P21 4-4.多元梯度下降法II.–.学习率
  • P22 4-5.特征和多项式回归
  • P23 4-6.正规方程(区别于迭代方法的直接解法)
  • P24 4-7.正规方程在矩阵不可逆情况下的解决方法
  • P25 4-8.导师的编程小技巧
  • P26 5-1.基本操作
  • P27 5-2.移动数据
  • P28 5-3.计算数据
  • P29 5-4.数据绘制
  • P30 5-5.控制语句:for,while,if.语句
  • P31 5-6.矢量
  • P32 6-1.分类
  • P33 6-2.假设陈述
  • P34 6-3.决策界限
  • P35 6-4.代价函数
  • P36 6-5.简化代价函数与梯度下降
  • P37 6-6.高级优化
  • P38 6-7.多元分类:一对多
  • P39 7-1.过拟合问题
  • P40 7-2.代价函数
  • P41 7-3.线性回归的正则化
  • P42 7-4.Logistic.回归的正则化
  • P43 8-1.非线性假设
  • P44 8-2.神经元与大脑
  • P45 8-3.模型展示Ⅰ
  • P46 8-4.模型展示Ⅱ
  • P47 8-5.例子与直觉理解Ⅰ
  • P48 8-6.例子与直觉理解Ⅱ
  • P49 8-7.多元分类
  • P50 9-1.代价函数
  • P51 9-2.反向传播算法
  • P52 9-3.理解反向传播
  • P53 9-4.使用注意:展开参数
  • P54 9-5.梯度检测
  • P55 9-6.随机初始化
  • P56 9-7.组合到一起
  • P57 9-8.无人驾驶
  • P58 10-1.决定下一步做什么
  • P59 10-2.评估假设
  • P60 10-3.模型选择和训练、验证、测试集
  • P61 10-4.诊断偏差与方差
  • P62 10-5.正则化和偏差、方差
  • P63 10-6.学习曲线
  • P64 10-7.决定接下来做什么
  • P65 11-1.确定执行的优先级
  • P66 11-2.误差分析
  • P67 11-3.不对称性分类的误差评估
  • P68 11-4.精确度和召回率的权衡
  • P69 11-5.机器学习数据
  • P70 12-1.优化目标
  • P71 12-2.直观上对大间隔的理解
  • P72 12-3.大间隔分类器的数学原理
  • P73 12-4.核函数1
  • P74 12-5.核函数2
  • P75 12-6.使用SVM
  • P76 13-1.无监督学习
  • P77 13-2.K-Means算法
  • P78 13-3.优化目标
  • P79 13-4.随机初始化
  • P80 13-5.选取聚类数量
  • P81 14-1.目标.I:数据压缩
  • P82 14-2.目标.II:可视化
  • P83 14-3.主成分分析问题规划1
  • P84 14-4.主成分分析问题规划2
  • P85 14-5.主成分数量选择
  • P86 14-6.压缩重现
  • P87 14-7.应用.PCA.的建议
  • P88 15-1.问题动机
  • P89 15-2.高斯分布
  • P90 15-3.算法
  • P91 15-4.开发和评估异常检测系统
  • P92 15-5.异常检测.VS.监督学习
  • P93 15-6.选择要使用的功能
  • P94 15-7.多变量高斯分布
  • P95 15-8.使用多变量高斯分布的异常检测
  • P96 16-1.问题规划
  • P97 16-2.基于内容的推荐算法
  • P98 16-3.协同过滤
  • P99 16-4.协同过滤算法
  • P100 16-5.矢量化:低轶矩阵分解
  • P101 16-6.实施细节:均值规范化
  • P102 17-1.学习大数据集
  • P103 17-2.随机梯度下降
  • P104 17-3.Mini-Batch.梯度下降
  • P105 17-4.随机梯度下降收敛
  • P106 17-5.在线学习
  • P107 17-6.减少映射与数据并行
  • P108 18-1.问题描述与.OCR.pipeline
  • P109 18-2.滑动窗口
  • P110 18-3.获取大量数据和人工数据
  • P111 18-4.天花板分析:下一步工作的.pipeline
  • P112 19-1.总结与感谢

教程与代码地址

笔记中,图片和代码基本源自up主的视频和代码

视频地址:[中英字幕]吴恩达机器学习系列课程
代码地址:matlab 代码
讲义地址:https://github.com/TheisTrue/MLofAndrew-Ng
如果想要爬虫视频网站一样的csdn目录,可以去这里下载代码:https://github.com/JeffreyLeal/MyUtils/tree/%E7%88%AC%E8%99%AB%E5%B7%A5%E5%85%B71

P1 1-1.欢迎参加《机器学习》课程

P2 1-2.什么是机器学习?

P3 1-3.监督学习

P4 1-4.无监督学习

P5 2-1.模型描述

P6 2-2.代价函数

P7 2-3.代价函数(一)

P8 2-4.代价函数(二)

[中英字幕]吴恩达机器学习系列课程 笔记_第1张图片

P9 2-5.梯度下降

[中英字幕]吴恩达机器学习系列课程 笔记_第2张图片

[中英字幕]吴恩达机器学习系列课程 笔记_第3张图片

[中英字幕]吴恩达机器学习系列课程 笔记_第4张图片

Θ n e w = Θ − α ∂ J ( Θ ) ∂ Θ \Theta_{new} = \Theta - \alpha\frac{\partial J(\Theta)}{\partial \Theta} Θnew=ΘαΘJ(Θ)
∂ J ( Θ ) ∂ Θ \frac{\partial J(\Theta)}{\partial \Theta} ΘJ(Θ) 其实是上山最快的方向, α \alpha α 是学习率,走一步的距离,当前位置-上山最快的方向*走一步的距离=下山最快的路径。

P10 2-6.梯度下降知识点总结

P11 2-7.线性回归的梯度下降

P12 3-1.矩阵和向量

P13 3-2.加法和标量乘法

P14 3-3.矩阵向量乘法

P15 3-4.矩阵乘法

P16 3-5.矩阵乘法特征

P17 3-6.逆和转置

P18 4-1.多功能

P19 4-2.多元梯度下降法

P20 4-3.多元梯度下降法演练.I.–.特征缩放

[中英字幕]吴恩达机器学习系列课程 笔记_第5张图片

normalize 之后,训练收敛要更快,椭圆收敛慢,收敛到中心的距离更远。

P21 4-4.多元梯度下降法II.–.学习率

学习率要用不同数量级去尝试,看哪个收敛比较快

P22 4-5.特征和多项式回归

P23 4-6.正规方程(区别于迭代方法的直接解法)

[中英字幕]吴恩达机器学习系列课程 笔记_第6张图片

对于数据集很大的训练,即使参数求解有闭式解,我们扔使用梯度下降法,因为矩阵的复杂度为 O ( n 3 ) O(n^3) O(n3)

P24 4-7.正规方程在矩阵不可逆情况下的解决方法

P25 4-8.导师的编程小技巧

P26 5-1.基本操作

P27 5-2.移动数据

P28 5-3.计算数据

P29 5-4.数据绘制

P30 5-5.控制语句:for,while,if.语句

P31 5-6.矢量

P32 6-1.分类

P33 6-2.假设陈述

[中英字幕]吴恩达机器学习系列课程 笔记_第7张图片

P34 6-3.决策界限

P35 6-4.代价函数

P36 6-5.简化代价函数与梯度下降

[中英字幕]吴恩达机器学习系列课程 笔记_第8张图片

下面三种无需手动设置学习率。

P37 6-6.高级优化

P38 6-7.多元分类:一对多

P39 7-1.过拟合问题

P40 7-2.代价函数

[中英字幕]吴恩达机器学习系列课程 笔记_第9张图片

此 loss 函数的后项,就是一个惩罚函数,就是 regularization。 λ \lambda λ 很大, θ \theta θ 就会很小,偏置 θ 0 \theta_0 θ0 会很大,相当于直线,减小过拟合。

P41 7-3.线性回归的正则化

[中英字幕]吴恩达机器学习系列课程 笔记_第10张图片

正则化后求解参数时,蓝色部分是较之前多出来的项。加上此项,奇异矩阵也会变非奇异矩阵。

P42 7-4.Logistic.回归的正则化

P43 8-1.非线性假设

P44 8-2.神经元与大脑

P45 8-3.模型展示Ⅰ

P46 8-4.模型展示Ⅱ

P47 8-5.例子与直觉理解Ⅰ

P48 8-6.例子与直觉理解Ⅱ

P49 8-7.多元分类

P50 9-1.代价函数

P51 9-2.反向传播算法

[中英字幕]吴恩达机器学习系列课程 笔记_第11张图片

[中英字幕]吴恩达机器学习系列课程 笔记_第12张图片

δ \delta δ 是偏导
[中英字幕]吴恩达机器学习系列课程 笔记_第13张图片

从神经网络到BP算法(纯理论推导)

P52 9-3.理解反向传播

P53 9-4.使用注意:展开参数

P54 9-5.梯度检测

[中英字幕]吴恩达机器学习系列课程 笔记_第14张图片

ϵ \epsilon ϵ 通常是 1 0 − 4 10^{-4} 104

P55 9-6.随机初始化

权重初始化如果相等,更新也会相等,就学不到东西了

P56 9-7.组合到一起

P57 9-8.无人驾驶

P58 10-1.决定下一步做什么

P59 10-2.评估假设

P60 10-3.模型选择和训练、验证、测试集

[中英字幕]吴恩达机器学习系列课程 笔记_第15张图片

交叉验证与训练集、验证集、测试集

P61 10-4.诊断偏差与方差

P62 10-5.正则化和偏差、方差

[中英字幕]吴恩达机器学习系列课程 笔记_第16张图片

使用验证集调整超参数。

P63 10-6.学习曲线

[中英字幕]吴恩达机器学习系列课程 笔记_第17张图片

[中英字幕]吴恩达机器学习系列课程 笔记_第18张图片

高偏差说明模型有问题,增大数据集是没有用的。
[中英字幕]吴恩达机器学习系列课程 笔记_第19张图片

高方差,增大数据集是有用的。

P64 10-7.决定接下来做什么

[中英字幕]吴恩达机器学习系列课程 笔记_第20张图片

P65 11-1.确定执行的优先级

P66 11-2.误差分析

使用简单的算法,分析分类错误的样本,使用更好的分类特征。

P67 11-3.不对称性分类的误差评估

准确率、精确率、召回率、F1值、ROC/AUC整理笔记

P68 11-4.精确度和召回率的权衡

P69 11-5.机器学习数据

P70 12-1.优化目标

P71 12-2.直观上对大间隔的理解

[中英字幕]吴恩达机器学习系列课程 笔记_第21张图片

P72 12-3.大间隔分类器的数学原理

[中英字幕]吴恩达机器学习系列课程 笔记_第22张图片

已知 p ( i ) ⋅ ∥ θ ∥ ≥ 1 p^{(i)}\cdot \lVert \theta \lVert \geq 1 p(i)θ1,想要 p ( i ) p^{(i)} p(i) 大,即右边那样, ∥ θ ∥ \lVert \theta \lVert θ 就要小,这就是SVM。

P73 12-4.核函数1

核函数,用于产生新的特征,是特征映射。

P74 12-5.核函数2

[中英字幕]吴恩达机器学习系列课程 笔记_第23张图片

给予m个样本,输入x是一个n维的向量,使用此核函数后,每个核函数对应一个样本。

[中英字幕]吴恩达机器学习系列课程 笔记_第24张图片

C大, 1 λ \frac{1}{\lambda} λ1 小,趋于unfitting;
C小, 1 λ \frac{1}{\lambda} λ1 大,趋于overfitting;

P75 12-6.使用SVM

使用normalization技巧。
[中英字幕]吴恩达机器学习系列课程 笔记_第25张图片

P76 13-1.无监督学习

P77 13-2.K-Means算法

[中英字幕]吴恩达机器学习系列课程 笔记_第26张图片

第一个子循环,将样本分类;
第二个子循环,寻找每个类别的新中心。

P78 13-3.优化目标

P79 13-4.随机初始化

k在2-4左右,比较小的时候,随机初始化才会有比较大的影响。

P80 13-5.选取聚类数量

P81 14-1.目标.I:数据压缩

P82 14-2.目标.II:可视化

P83 14-3.主成分分析问题规划1

[中英字幕]吴恩达机器学习系列课程 笔记_第27张图片

左边是 linear regression,右边是 PCA。

P84 14-4.主成分分析问题规划2

P85 14-5.主成分数量选择

[中英字幕]吴恩达机器学习系列课程 笔记_第28张图片

保留90%的能量、信息。
[中英字幕]吴恩达机器学习系列课程 笔记_第29张图片

计算S矩阵的能量即可。

P86 14-6.压缩重现

[中英字幕]吴恩达机器学习系列课程 笔记_第30张图片

左边是压缩,右边是解压。

P87 14-7.应用.PCA.的建议

  1. 先用PCA降维,再输入到其他算法。
  2. 特征数远大于样本数时,很容易过拟合,PCA可降维,减少过拟合,但这不是推荐的减少过拟合的方法。正则化才比较推荐。

P88 15-1.问题动机

P89 15-2.高斯分布

P90 15-3.算法

[中英字幕]吴恩达机器学习系列课程 笔记_第31张图片

异常数据监测算法。

P91 15-4.开发和评估异常检测系统

P92 15-5.异常检测.VS.监督学习

[中英字幕]吴恩达机器学习系列课程 笔记_第32张图片

正负样例极度不平均

P93 15-6.选择要使用的功能

变成高斯去检测。

P94 15-7.多变量高斯分布

[中英字幕]吴恩达机器学习系列课程 笔记_第33张图片

[中英字幕]吴恩达机器学习系列课程 笔记_第34张图片

不同方差的高斯形状。

P95 15-8.使用多变量高斯分布的异常检测

[中英字幕]吴恩达机器学习系列课程 笔记_第35张图片


[中英字幕]吴恩达机器学习系列课程 笔记_第36张图片

左边是圆,右边是椭圆。
左边自己设计,右边自动捕捉特征。
右边 Σ \Sigma Σ矩阵要是奇异的,说明有冗余特征。

P96 16-1.问题规划

[中英字幕]吴恩达机器学习系列课程 笔记_第37张图片

用户可能只对部分电影有评分,造成难以推荐的问题。

P97 16-2.基于内容的推荐算法

[中英字幕]吴恩达机器学习系列课程 笔记_第38张图片

以一部电影的爱情部分,动作部分等作为特征,用户就不用所有电影都看了。

P98 16-3.协同过滤

如果没有人告诉我们每部电影的各种成分占比是多少,使用上面算法就很困难。
[中英字幕]吴恩达机器学习系列课程 笔记_第39张图片

根据用户的喜好 θ \theta θ与他们看共同看过的电影,预测电影的特征。

[中英字幕]吴恩达机器学习系列课程 笔记_第40张图片

用户喜好预测电影特征,电影特征预测用户喜好,不断迭代就会收敛。

P99 16-4.协同过滤算法

P100 16-5.矢量化:低轶矩阵分解

[中英字幕]吴恩达机器学习系列课程 笔记_第41张图片

协同过滤算法,用到低轶矩阵分解。

P101 16-6.实施细节:均值规范化

[中英字幕]吴恩达机器学习系列课程 笔记_第42张图片

没有评分的,最后会给他推荐大众喜欢的,平均值。

P102 17-1.学习大数据集

P103 17-2.随机梯度下降

[中英字幕]吴恩达机器学习系列课程 笔记_第43张图片

左边是计算全部数据集的梯度,右边是计算单个数据的梯度。

P104 17-3.Mini-Batch.梯度下降

[中英字幕]吴恩达机器学习系列课程 笔记_第44张图片

batch:全部数据;
stochastic:单个数据;
mini-batch:一小批数据。

P105 17-4.随机梯度下降收敛

[中英字幕]吴恩达机器学习系列课程 笔记_第45张图片
纵轴是一堆样例的平均损失:
图(1,1)波动小的线使用更小的学习率;
图(1,2)更平滑的线使用更大的mini-batch;
图(2,1)波动大的线使用很少的样例;
图(2,2)发散,应该使用更小的学习率;

[中英字幕]吴恩达机器学习系列课程 笔记_第46张图片

学习率也衰减。

P106 17-5.在线学习

不断使用在线用户的数据来学习,而不是使用固定的数据集。

P107 17-6.减少映射与数据并行

[中英字幕]吴恩达机器学习系列课程 笔记_第47张图片

把数据集分成多个,计算后结果汇总,再更新参数。

P108 18-1.问题描述与.OCR.pipeline

在这里插入图片描述

P109 18-2.滑动窗口

[中英字幕]吴恩达机器学习系列课程 笔记_第48张图片

使用滑动窗口去检测。
[中英字幕]吴恩达机器学习系列课程 笔记_第49张图片
分割字符:
[中英字幕]吴恩达机器学习系列课程 笔记_第50张图片

P110 18-3.获取大量数据和人工数据

对原始图片进行仿射,即旋转和拉伸。
对原始音频添加不同的失真与背景声音。

P111 18-4.天花板分析:下一步工作的.pipeline

把资源集中在对整个系统提升最大的那个部分。即使是吴恩达,也不能靠直接分析把精力投入到哪个模块,而是要做上限分析。

P112 19-1.总结与感谢

你可能感兴趣的:(b站/技术笔记,机器学习,人工智能,python)