吴恩达--机器学习笔记(2022年课程第一周)

第一周:
机器学习:监督学习、无监督学习
一、无监督学习:给定的事例数据并没有输出标签y,即给定的数据与输出标签y无关;研究的是在给定的数据集中找到一些结论,某种结构或某种模式或有趣的东西;
不是给答案的,是探索结构或模式的。
||
聚类算法、
1、聚类:决定将数据分配给不同的几个集群,决定了有几个什么样的集群或几个什么样的组;获取没有标签的数据,并将它们自动分配到不同的集群中;将相似的点组合在一起
2、异常检测
3、降维:尽可能的缩小数据集,而更少的减少丢失的数据


二、监督学习:给定了一些事例正确的答案(标签),计算机从正确的答案中进行学习;X->Y(有标签);要求给每个输入提供相对正确的答案
||
预测、分类算法==》
1、预测:从众多有可能的、无限的数据结果中,预测y可能的结果
2、分类:从可能出现的一小部分有限的结果中,得到y可能的结果
*分类–分类模型

*预测–线性回归模型:
~训练集:所有的数据构成的一个表格,每一行对应一组x,y,画在图上代表一个的点。即训练集中的数据构成了这个图中的所有点
然后再根据这些点的分布,利用成本函数构造线性回归模型
我们所求的x和预测得到的y不在该训练集中,因为y本身也不是确切值

~表示方法:
(x,y):一组数据
m:训练集中的某一行
(x^(i) y^(i)):训练集中第i行的数据;i是index,不是幂

~通过训练集,得学习法则==》 f
f就是机器通过训练集中的数据,学习得到的function,然后利用这个function就可以预测每个x对应的y了;即x-> f->y^ (y是预测估计得到的,不是准确值,estimate y)
f=wx+b(由参数w,b决定y)

*成本函数(平方误差成本函数):通过它可使y^ (i)更接近训练集中的每个y(i)
吴恩达--机器学习笔记(2022年课程第一周)_第1张图片
通过w,b的改变使得J变得更小,这样得到更适合的w,b,用来构成更准确的f

~针对不同组的w,b可得到不同的f函数(二维),和J函数(三维)
三维的J函数,我们可通过画3D立体图或者等高线来表示
3D立体:
吴恩达--机器学习笔记(2022年课程第一周)_第2张图片

等高线:
吴恩达--机器学习笔记(2022年课程第一周)_第3张图片
右侧等高线可以看出蓝黄绿三点的w,b虽然不同,得到的f函数自然也不相同,但是对应的J函数的值却相同,即是同一等高线;
吴恩达--机器学习笔记(2022年课程第一周)_第4张图片
根据3D模型可知,最里面的等高线的中心点即为J的最小值,因此我们要做的就是通过取不同的w,b的值,来无限接近最小值J
||
让计算机自己去自动寻找满足最小值J的w,b 的方法:梯度下降

~梯度下降:适用于任何一种函数,用来求函数mini值
因此函数的参数可以有很多个,最小值也不一定就只有一个(如深度神经网络。。。深度学习)
梯度下降只能求得局部最小解。即当给定一个初始值w,b,只能得到有关该种情况的局部最小值,每种局部最小值之间无法互通
如下图所示函数:(不是平方误差成本函数,该函数似碗装,只有一个mini)
吴恩达--机器学习笔记(2022年课程第一周)_第5张图片
梯度下降算法,实则为根据下面的公式重复、多次、同步、更新参数w,b,直到逼近J的局部最小值,也就是算法收敛–参数w,b不再随着更新而发生很大的变化
吴恩达--机器学习笔记(2022年课程第一周)_第6张图片
导数:求出斜率,判断梯度下降的方向;>0,w–;<0,w++(往中间的mini值走)
吴恩达--机器学习笔记(2022年课程第一周)_第7张图片
~即使当尔法固定一个值的时候,最后也会找到J函数的局部最小值。因为随着w的更新变化,斜率会变小,即导数会逐渐变小,直到最后w=w不再变化,此时就为局部最小解了
吴恩达--机器学习笔记(2022年课程第一周)_第8张图片
尔法:学习率
用来判断下降多少,当过小时,下降速度会很小,步骤次数会很多,但是最后能找到最小值;
当过大时,可能会离最小值越来越远,最后找不见最小值
吴恩达--机器学习笔记(2022年课程第一周)_第9张图片
线性回归模型中利用梯度下降实现成本函数的融合==》
吴恩达--机器学习笔记(2022年课程第一周)_第10张图片
吴恩达--机器学习笔记(2022年课程第一周)_第11张图片
注意:这种梯度下降是批量梯度下降,也就是当参数w,b每一次改变时,都要查看对应的训练集中的每组数据(xi,yi)

你可能感兴趣的:(机器学习,人工智能,python)