《机器学习》(西瓜书)第三章

机器学习的三要素

1:模型:根据实际问题,确定假设空间

2:策略:根据评价标准,确定选取最优模型的策略(通常会产出一个“损失函数”)(损失函数:每次训练集送入模型后,输出预测值,通过损失函数计算出预测值和真实值之间的差异值,通过模型反向传播更新参数,降低损失值)

3:算法:求解损失函数,确定最优模型

书本笔记

3.1 基本形式

f\left ( x \right )= w1x1+w2x2+...+wdxd+b

解释:给定d个属性描述(x1,x2...),其中w直观地表现了各属性在预测中的重要性(模型的可解释性)。非线性模型可由线性模型转化而来。

3.2 线性回归

对离散属性,若属性间存在“序”的关系,通过连续化将其转化为连续值(例如:高,中,低\rightarrow1.0,0.5,0.0);若不存在序关系,假定有k个属性值,转化为k维向量(例如瓜类,西瓜(1,0,0);南瓜(0,1,0);黄瓜(0,0,1))

接着,确定w和b。方法:最小二乘法。利用均方误差来性能度量,让\sum \left ( f\left ( xi \right )-yi \right )^{2}最小化(对应了欧氏距离)。我们求解w和b使其最小的过程,称为“线性回归模型的最小二乘’参数估计‘”,通过求导可得到关于w和b最优解的“闭式解”。

更一般,样本由多个属性描述构成,称为“多元线性回归”。

为了解决多元线性回归的问题,我们将w和b写入向量形式。(由于笔者能力有限,先将原书内容放在这里,等以后再来进行补充)

《机器学习》(西瓜书)第三章_第1张图片

 《机器学习》(西瓜书)第三章_第2张图片

 我们可以根据输出的变化尺度,对原式进行相应调整,例如加入ln,或者e...。这就是对数线性回归(非线性),更一般地,可以考虑率单调可微函数。

y=g^{^{-1}}\left ( wx+b \right )

这样得到的模型称为“广义线性模型”,g()称为“联系函数”,显然对数线性回归是广义线性模型在g()=ln() 时的特殊情况。

3.3 对数几率回归(对率回归)

若要做的任务是分类,那么我们利用阶跃函数。

y=\frac{1}{1+e^{-z}}(对数几率函数)

也可以直接转化为分段函数。

当x=0时,y=0.5;

当x>0时,y=1;

当x<0时,y=0.(阶跃函数)

由于阶跃函数不连续,则我们将对数几率函数作为g()。

优点:直接对分类可能性进行建模,无需事先假设数据分布;可得到近似概率预测。

3.4 线性判别分析(LDA)

在二分类问题上最早由Fisher提出,又称“Fisher判别分析”。

思想:给定训练集,将样例投入到一条直线上,我们要求同类样例的投影点尽可能接近,异类样例投影点尽可能远离。在对新事物进行预测时,根据其投影点的位置来确定其类别。

几何角度:异类样本的中心尽可能远(正反中心远);同类样本的方差尽可能小。

视频笔记

P2 一元线性回归

极大似然估计

用途:估计概率分布的参数值;方法:对于离散型或者连续型随机变量,假设其概率质量函数或者是概率密度函数为p(x,\theta),其中\theta可以有多个,例如正态分布有两个参数\mu\sigma,伯努利分布只有一个参数p。现有n个来自X的独立同分布(随机变量服从同一 分布 ,并且互相独立)样本,则他们的联合概率(关于\theta的函数)。

 L\left ( \theta \right )= \prod P\left ( xi \theta \right )

给出一个直观想法:使该联合概率最大的分布即为待求分布,也同时是\theta的估计值。

注:对于误差\varepsilon,通常假定其服从均值为0的正态分布(中心极限定理解释:一个随机变量是由许多个随机变量的和,那么这个随机变量符合正态分布)。

P3 多元线性回归

将w和x以及b都写进矩阵。

f\left ( x \right )=\begin{pmatrix}w1 w2w3...wdwd+1 \end{pmatrix}\begin{pmatrix} x1 x2 x3...xd 1 \end{pmatrix}

注意:打印失误,前面应该是行向量,后面应该是列向量,且后面最后一个数是1.

P4 对数几率回归

三要素:

模型:线性模型,输出值范围为0~1,近似跃阶的单调可微函数

策略:极大似然估计,信息论

算法:梯度下降,牛顿法

信息论

自信息:

I\left ( X \right )= -logbp\left ( x \right )

当b=2时单位为bit;当b=e时单位为nat。

信息熵(自信息的期望):度量随机变量X的不确定性,信息熵越大越不确定。

H\left ( X \right )= E\left [ I\left ( X \right ) \right ]= -\sum p\left ( x \right )logbp\left ( x \right )

相对熵(KL散度):

度量两个分布的差异,典型应用于度量理想分布和模拟分布之间的差异。

P5 二分类线性判别分析

你可能感兴趣的:(人工智能)