李宏毅机器学习day2

一:理解偏差和方差学习误差为什么是偏差和方差而产生的,并且推导数学公式过拟合,欠拟合
  经典打靶的例子。靶心就是真实模型。我们首先根据数据,选择所对应的模型。如线形模型或回归模型。这个就相当于划定了一个范围。我们在划定的范围内通过训练得到模型。这就跟真实的模型已经有了距离这就是偏差。而方差就是选择出来的模型范围内模型的复杂程度决定。具体来说。模型较复杂。模型对输入数据敏感,波动大,方差大。易过拟合。模型简单,则易欠拟合。
f ^ \hat f{} f^ —预测模型,f—真实的模型,由于噪声的影响,采样会有误差。记为 ε 则y=f+ε。加上ε服从正态分布则 E(ε)=0, V a r ( ε ) = δ 2 Var(ε)= δ^2 Var(ε)=δ2,假设采用平方差损失函数。则误差的期望为 E [ y − f ^ ] 2 = E ( y 2 + f ^ 2 − 2 y f ^ ) = E ( y 2 ) + E [ f ^ 2 ] − 2 E ( y f ^ ) , E[y-\hat f]^2=E(y^2+\hat f^2-2y\hat f)=E(y^2)+E[\hat f^2]-2E(y\hat f), E[yf^]2=E(y2+f^22yf^)=E(y2)+E[f^2]2E(yf^), 方 差 的 性 质 随 机 变 量 X 的 方 差 V a r ( X ) = E ( X 2 ) − E ( X ) 2 方差的性质随机变量X的方差Var(X)=E(X^2)-E(X)^2 XVar(X)=E(X2)E(X)2
所以原式 = V a r ( y ) + E ( y ) 2 + V a r ( f ^ ) + E ( f ^ ) 2 − 2 E ( ( f + ε ) f ^ ) =Var(y)+E(y)^2+Var(\hat f)+E(\hat f)^2-2E((f+ε)\hat f) =Var(y)+E(y)2+Var(f^)+E(f^)22E((f+ε)f^)
V a r ( y ) = E ( y 2 ) − E ( y ) 2 = E ( ( f + ε ) 2 ) − E ( y ) 2 = E ( f 2 ) + E ( ε 2 ) + − 2 E ( f ) ( ε + ( E ( f + ε ) ) 2 = δ 2 Var(y)=E(y^2)-E(y)^2=E((f+ε)^2)-E(y)^2=E(f^2)+E(ε^2)+-2E(f)(ε+(E(f+ε))^2=δ^2 Var(y)=E(y2)E(y)2=E((f+ε)2)E(y)2=E(f2)+E(ε2)+2E(f)(ε+(E(f+ε))2=δ2
原 式 = δ 2 + f 2 + V a r ( f ^ ) + E ( f ^ ) 2 − 2 E ( f f ^ ) − 2 E ( ε f ) = δ 2 + f 2 + V a r ( f ^ ) + E ( f ^ ) 2 − 2 f E ( f ^ ) = δ 2 + V a r ( f ^ ) + ( f − E ( f ^ ) ) 2 原式=δ^2+f^2+Var(\hat f)+E(\hat f)^2-2E(f\hat f)-2E(εf)=δ^2+f^2+Var(\hat f)+E(\hat f)^2-2fE(\hat f)=δ^2+Var(\hat f)+(f-E(\hat f))^2 =δ2+f2+Var(f^)+E(f^)22E(ff^)2E(εf)=δ2+f2+Var(f^)+E(f^)22fE(f^)=δ2+Var(f^)+(fE(f^))2误差的期望值 = 噪音的方差 + 模型预测值的方差 + 预测值相对真实值的偏差的平方

二:对应bias和variance什么情况学习鞍点,复习上次任务学习的全局最优和局部最优解决办法有哪些?

三:**梯度下降学习Mini-Batch与SGD学习Batch与Mini-Batch,
(1):SGD梯度下降的区别如何根据样本大小选择哪个梯度下降(批量梯度下降,Mini-Batch
随机梯度下降就是训练的时候一个一个样本进行训练。这样的耗时。实际情况一般用批量的梯度下降。将训练集分成多个Batch,一个batch多个样本。一般选取2的幂次方。

(2)写出SGD和Mini-Batch的代码学习交叉验证学习归一化 学习回归模型评价指标**

你可能感兴趣的:(李宏毅机器学习day2)