【监督学习】第六课习得理论(learning theory)

这里是监督学习第六课,需要看其他课的请点击我的文章列表!

 

统计学习模型:

如何学习一个模型呢?

通过定义联立分布P(X,y),我们可以用积分得到模型函数的期望误差expected error。

其中V函数为loss function,损失函数,参数为观测y和预测y。

【监督学习】第六课习得理论(learning theory)_第1张图片

而让这个期望误差最小的时候,我们就得到了在给定数据下的最优解,可惜的是,分布是固定但未知的,所以我们无法得到最优解。

 

这个误差函数的定义不是唯一的,有logistics 的,有平方误差,分类误差等等。

由于我们手上的资料可以看做是从总体中的iid样本,所以我们可以用经验误差来替代期望误差。

经验误差为

【监督学习】第六课习得理论(learning theory)_第2张图片

 

若经验误差为0 ,但期望误差却很高,就产生了overfitting的问题。于是我们设立了一个假设空间。现在我们的假设必须属于假设空间。

岭回归

岭回归通过最小化惩罚化误差来得到最优解。(定义略了)

对于每一个A,总有一个λ ,可以让A的假设空间HA中的最优解和岭回归的最优解一致。

 

Test set bound

【监督学习】第六课习得理论(learning theory)_第3张图片

对于training 错误率为cs的模型来说,CD有1- δ 的概率 不大于 右式所表达错误率。

 

习得理论关注的问题是习得算法的产出(预测能力)

1 期望误差接近经验误差

2随着样本增加期望误差下降

 

学习机的泛化

根据统计理论来说,我们关注的是一个随机变量 e(S,A,F),其中S是样本,A是算法,F是函数空间,AF(S)是学习到(从F中选择)的模型

 

从UCI乳腺癌数据中(分类标签),我们需要学习一个分类器。在slide中用了simple Parzen window classifier(一种分类器)来做分类。这个算法要先算正类别 和负类别的平均值。有了平均值之后,权重向量,weight vector就是正样本向量 - 负样本向量。

wv = w+    -     w-

slide中虽然没有提到分类器的表达式,但估计是 wx = d ,d是截距,w是平面的法向量,x是一个数据点或一个向量,

 

分类问题中的误导。

由于期望误差不等于经验误差,所以我们把期望误差远离经验误差的情况称为误导。

假设训练误差率为0,期望错误率为e,

【监督学习】第六课习得理论(learning theory)_第4张图片

我们可以看出,即使当期望误差率不为0 的情况下,训练误差仍然可以为0,根据二项分布我们可以知道概率P为(1-p)^m,其中p为期望误差率,m为样本的个数。而因为p大于e,所以 1- p< 1 - e ,所以两者的m次方也有相同关系。最后由一个不等式的定理推出最后结果。

假设概率最大值为t,则t = exp(-em),

t = exp(-em)

1/t = exp(em)

ln 1/t = em

 e = ln (1/t)  /m

 

有限,可数函数类

现在假设F函数空间中有f1 到fn ,n个函数

让被每个函数误导的概率都低于qn δ,那么就有

也就是∑qnδ < δ。

那么被其中一个函数误导的概率就是。

An是一个事件,定义如下,代表 被fn误导

由   事件的并集的概率小于 单独事件的概率和     可得(单独事件概率多算了交集)

 

hoeffding 不等式

两个式子代表一个随机变量的抽样和总体均值关系。

由于exp的指数带有负号,说明e(抽样均值和总体均值距离)越大,可能性越小,类似正态分布。

a和b是x的取值区间。

当a=0,b=1,上面的式子又可以简化成更简单的表达式。

通过用δ替代 误导率(左边式子的界限),上面的式子可以等价为均值的偏移区间。

【监督学习】第六课习得理论(learning theory)_第5张图片

δ = exp(-2me^2)

1/δ = exp(2me^2)

2m  e^2=ln (1/δ)

e = (ln (1/δ) /2m)^0.5

【监督学习】第六课习得理论(learning theory)_第6张图片

因为e^2 = (log|H| + log(1/δ)) /2m,所以

 

结构风险:

【监督学习】第六课习得理论(learning theory)_第7张图片

 

(==========施工中==========)

你可能感兴趣的:(监督学习)