CS229 回归(2-4节)

什么是监督学习(supervised learning):给定一些训练集合(其中包括features 和 targets),通过学习型算法,训练出一些参数和分类器,以便对于一些target未知的数据进行决策(predicted)。
当 target variables 是连续的时候,称为回归(regression);而当 target variables 是离散值得时候,称为分类(classification)。

第 I 部分——线性回归(Linear Regression)

训练模型如下所示:

在这里,我们令 X0=1,theta和x都被表示为向量,n是feature的数量
确定了h(x)中的theta,我们就可以预测未知数据了,那么如何确定theta的值呢?

这里先定义一个 cost function:
这里写图片描述
用来度量预测值与真实值之间的差异,那么使得这个差异值达到最小的theta值就是所求啦!

1-1. LMS(Least Mean Square)算法

对 theta值 进行更新:
这里写图片描述
CS229 回归(2-4节)_第1张图片
这里写图片描述
这里可以看到,当预测值与原值差别较大时,theta值改变的比较厉害。改变的方向朝下降最快的方向走。这里的alpha表示速率,不宜过大或过小。

批(batch)梯度下降:每改变一次,需要遍历数据集中的所有数据。如果m很大,则很耗费资源
CS229 回归(2-4节)_第2张图片

随机(stochastic)梯度下降:每改变一次只看一行数据。(right away)。相比较而言,还是随机梯度下降比较好一些。

1-2. LSR(Least Squares Revisited)
首先介绍矩阵运算以及矩阵(方阵)的“迹(trace)”——对角线上元素之和。

我们将数据集写成 m * n 的矩阵(其中只包含features),将对应的targets写成列向量(m * 1),然后将J(theta)函数用矩阵改写,再进行各种矩阵求导变换,最后得出当J最小时,theta的取值为:
这里写图片描述

1-3. 回归问题的概率解释(极大似然)

1-4. 局部加权线性回归(LWR,Locally weighted linear regression)

第 II 部分——分类和logistic回归

2-1. Logistic回归
CS229 回归(2-4节)_第3张图片
g(z)叫做logistic函数或者sigmoid函数,如下图所示:
CS229 回归(2-4节)_第4张图片
经过了一系列推倒,得到了theta的更新函数:
这里写图片描述

2-2. the perceptron learning algorithm
CS229 回归(2-4节)_第5张图片

2-3 牛顿方法解决最大似然问题
之前都是靠求偏导数,现在引入一个新的方法:
CS229 回归(2-4节)_第6张图片
CS229 回归(2-4节)_第7张图片

第 III 部分——GLM(Generalized Linear Models)

3-1. the Exponential Family
如果一类分布能写成以下形式,就称之为“指数分布”:
这里写图片描述

3-2. Constructing GLMs

3-3. softmax function

你可能感兴趣的:(算法)