Andrew Ng机器学习笔记(一)之简介线性回归

什么是线性回归?

在监督学习(supervised learning)中:

  1. x表示输入值;
  2. y表示输出值(也是预测值);
  3. (x(i), y(i))被称为训练样本;
  4. 一组(x(i), y(i)),i=1,...,m,被称为训练集(training set)
注意:这里的上标i指的是序号,而与取幂无关

为了更直观一点,下面是监督学习的流程图(其中h——hypothesis是预测算法生成的线性式):


Andrew Ng机器学习笔记(一)之简介线性回归_第1张图片
supervise learning processing

Andrew举了个房价预测的栗子(一个回归的预测):

Andrew Ng机器学习笔记(一)之简介线性回归_第2张图片
房价预测

Andrew Ng机器学习笔记(一)之简介线性回归_第3张图片
房价预测

这里的房价可以认为是连续的,所以可以模拟一条直线来根据房间面积来预测房价,这就叫线性回归。
但是如果y只是一簇一簇离散的数据,比如根据房屋面积判断是别墅还是平房,那么这样就叫做分类问题。



Cost Function(误差函数)

我们用cost function来评估hypothesis的准确性,这里y(i)是输入为x(i)时的真实值。有时候也称为“Squared error function”或者“Mean squared error”

Cost Function

误差项

cost function如何得来?

  • 在这里由于误差项可正可负,相加时会正负抵消,这样就无法区分没有偏差和政府偏差相抵消时的情况。因此,我们使用误差的平方和,并令其最小,这样的方法也叫做最小平方发(Least Squares Method)。
  • 后面我们就会知道为什么除的是2m而不是m,这里简单说一下:
    除以2m,是用来简化其数据,make it easy。
Andrew Ng机器学习笔记(一)之简介线性回归_第4张图片
Cost Function

你可能感兴趣的:(Andrew Ng机器学习笔记(一)之简介线性回归)