吴恩达机器学习笔记一

目录:

  1. 机器学习
  2. 监督学习
  3. 无监督学习
  4. 单变量线性回归
  5. 代价函数
  6. 梯度下降
  7. 批量梯度下降

1.机器学习含义
机器学习(Machine Learning)是研究计算机怎样模拟或实现人类的学习行为,以获取新的
知识或技能,重新组织已有的知识结构使之不断改善自身的性能。
目标“让机器自己学习怎么来解决问题”
由Tom Mitchell定义的机器学习是,
一个好的学习问题或一个程序 认为能从经验E中学习,解决任务T,达到性能度量值P,当且仅当有了经验E后,经过P评判,程序在处理T时的性能有所提升。
经验E 就是程序上万次自我练习的经验而任务 T 就是下棋。性能度量值 P ,就是它在与一
些新的对手比赛时,赢得比赛的概率。

2.主要内容

  1. 监督学习(参数/非参数算法,支持向量机,核函数,神经网络)
  2. 无监督学习(聚类,降维,推荐系统,深入学习推荐)
  3. 在机器学习的最佳实践(偏差、方差理论等)

3 监督学习
监督学习指我们给学习算法一个由“正确答案”组成的数据集。
吴恩达机器学习笔记一_第1张图片
横轴表示房子的面积,单位是平方英尺,纵轴表示房价,单位是
千美元。那基于这组数据,假如你有一个朋友,他有一套 750 平方英尺房子,现在他希望把
房子卖掉,想知道这房子能卖多少钱?
拟合一条直线推测出房子可卖$150000
二次方程拟合 房子能卖出接近$200000 ,显然二次方程更好些!

在这个例子中,我们给了一系列房子的数据,我们给定数据集中每个样本的正确价格,
即它们实际的售价然后运用学习算法,算出更多的正确答案。比如那个新房子的价格。
用术语来讲,这叫做回归问题。我们试着推测出一个连续值的结果,即房子的价格。

假设说你想通过查看病历来推测乳腺癌良性与否,
吴恩达机器学习笔记一_第2张图片
这个数据集中,横轴表示肿瘤的大小,纵轴上,标出 1 和 0 表示是或者不是恶性肿瘤。我们之前见过的肿瘤,如果是恶性则记为 1,不是恶性,或者说良性记为 0。
或者用不同的符号表示良性和恶性肿瘤,良性的肿瘤改成用 O 表示,恶性的继续用 X 表示,来预测肿瘤的恶性与否。

分类指的是,我们试着推测出离散的输出值: 0 或 1 良性或恶性,
监督学习的基本思想是:数据集中的每个样本都有 “正确答案”,再根据这些样本做出预测。
就像房子和肿瘤的例子那样,用回归来推出连续的输出,分类的目标是推出一组离散的结果。
4 无监督学习
无监督学习中没有任何标签 或者是相同的标签 或者是没有标签。 已知数据集,却不知如何处理,也未告知每个数据点是什么, 就是一个数据集
其实,他就是学习策略,交给算法大量的数据,并让算法为我们从数据中找出某种结构。
无监督学习可用于组织大型计算机集群、社交网络分析、新闻事件分类、垃圾邮件问题等。
5 单变量线性回归
以房屋交易问题为例,假使我们回归问题的训练集如下表所示:
吴恩达机器学习笔记一_第3张图片
吴恩达机器学习笔记一_第4张图片
这就是一个监督学习算法的工作方式,我们可以看到这里有我们的训练集里房屋价格
我们把它喂给我们的学习算法,学习算法的工作了,然后输出一个函数,通常表示为小写 ℎ
表示。 ℎ 代表 hypothesis(假设), ℎ表示一个函数,输入是房屋尺寸大小,就像你朋友想出售
的房屋,因此 ℎ 根据输入的 值来得出 值, 值对应房子的价格 因此, ℎ 是一个从
到 的函数映射。
我将选择最初的使用规则ℎ代表 hypothesis,因而,要解决房价预测问题,我们实际上
是要将训练集“喂”给我们的学习算法, 进而学习得到一个假设ℎ,然后将我们要预测的房屋
的尺寸作为输入变量输入给ℎ,预测出该房屋的交易价格作为输出变量输出为结果。那么,
对于我们的房价预测问题,我们该如何表达 ℎ?
一种可能的表达方式为: ℎ() = 0 + 1,因为只含有一个特征/输入变量,因此这样
的问题叫作单变量线性回归问题。
6 代价函数
吴恩达机器学习笔记一_第5张图片
在这里插入图片描述
吴恩达机器学习笔记一_第6张图片
这个问题中,每次拟合出不同的直线,就会有一个代价函数值,
我们的目标就是找出满足代价函数值最小θ0和θ1值。
7 梯度下降
梯度下降是一个用来求函数最小值的算法,我们可使用梯度下降自动找出代价函数J最小值。
吴恩达机器学习笔记一_第7张图片
通俗的理解:
想象一下你正站立在山的这一点上,站立在你想象的公园这座红色山上,在梯度下降算
法中,我们要做的就是旋转 360 度,看看我们的周围,并问自己要在某个方向上,用小碎步
尽快下山。这些小碎步需要朝什么方向?如果我们站在山坡上的这一点,你看一下周围,你
会发现最佳的下山方向,你再看看周围,然后再一次想想,我应该从什么方向迈着小碎步下
山?然后你按照自己的判断又迈出一步,重复上面的步骤,从这个新的点,你环顾四周,并
决定从什么方向将会最快下山,然后又迈进了一小步,并依此类推,直到你接近局部最低点
的位置。
吴恩达机器学习笔记一_第8张图片
其中是学习率( learning rate),它决定了我们沿着能让代价函数下降程度最大的方向
向下迈出的步子有多大,在批量梯度下降中,我们每一次都同时让所有的参数减去学习速率
乘以代价函数的导数。
它的关键是同时更新θ0,θ1
像这样:
吴恩达机器学习笔记一_第9张图片
注意: α太小,每次会一点点挪动,需要很多不才能到达全局最低点。
α太大,可能会越过最低点,甚至可能无法收敛,一次次越过最低点,直到越来越远,甚至发散。
假如 θ1在一个局部最低点,那么它的导数等于0,并且θ1不再改变,此时对其更新等于什么都没做,不会改变参数的值。并且θ1越接近最低点,每次移动步伐越小,直至最后不在改变。
吴恩达机器学习笔记一_第10张图片
8. 梯度下降的线性回归
有时也称为批量梯度下降, 指的是在梯度下降的每一步中, 我们都用到了
所有的训练样本,在梯度下降中,在计算微分求导项时,我们需要进行求和运算,所以,在
每一个单独的梯度下降中,我们最终都要计算这样一个东西,这个项需要对所有个训练样
本求和。 批量梯度下降说明了我们需要考虑所有这一批训练样本,每次只关注训练集中的一些小的子集。
吴恩达机器学习笔记一_第11张图片
之前的线性回归问题运用梯度下降,关键在于求出代价函数的导数。

吴恩达机器学习笔记一_第12张图片
更多内容参见:https://github.com/fengdu78/Coursera-ML-AndrewNg-Notes

你可能感兴趣的:(机器学习,机器学习,梯度下降,回归,监督学习,代价函数)