课程时长共64min31s
什么是深层神经网络?
对于如下一个四层神经网络
对于单个输入的正向传播计算公式:
z [ l ] = W [ l ] a [ l − 1 ] + b [ l ] a [ l ] = g [ l ] ( z [ l ] ) z^{[l]}=W^{[l]}a^{[l-1]}+b^{[l]}\\ a^{[l]} = g^{[l]}(z^{[l]}) z[l]=W[l]a[l−1]+b[l]a[l]=g[l](z[l])
向量化正向传播计算公式:
Z [ l ] = W [ l ] A [ l − 1 ] + b [ l ] A [ l ] = g [ l ] ( Z [ l ] ) Z^{[l]}=W^{[l]}A^{[l-1]}+b^{[l]}\\ A^{[l]} = g^{[l]}(Z^{[l]}) Z[l]=W[l]A[l−1]+b[l]A[l]=g[l](Z[l])
对于单个输入,以下参数的维度:
z [ l ] , a [ l ] , d z [ l ] , d a [ l ] : ( n [ l ] , 1 ) W [ l ] , d W [ l ] : ( n [ l ] , n [ l − 1 ] ) b [ l ] , d b [ l ] : ( n [ l ] , 1 ) z^{[l]},a^{[l]},dz^{[l]},da^{[l]}:(n^{[l]}, 1)\\ W^{[l]}, dW^{[l]}:(n^{[l]}, n^{[l-1]})\\ b^{[l]},db^{[l]}:(n^{[l]}, 1) z[l],a[l],dz[l],da[l]:(n[l],1)W[l],dW[l]:(n[l],n[l−1])b[l],db[l]:(n[l],1)
对于m个输入,以下参数的维度:
Z [ l ] , A [ l ] , d Z [ l ] , d A [ l ] : ( n [ l ] , m ) W [ l ] , d W [ l ] : ( n [ l ] , n [ l − 1 ] ) b [ l ] , d b [ l ] : ( n [ l ] , m ) Z^{[l]},A^{[l]},dZ^{[l]},dA^{[l]}:(n^{[l]}, m)\\ W^{[l]}, dW^{[l]}:(n^{[l]}, n^{[l-1]})\\ b^{[l]},db^{[l]}:(n^{[l]}, m) Z[l],A[l],dZ[l],dA[l]:(n[l],m)W[l],dW[l]:(n[l],n[l−1])b[l],db[l]:(n[l],m)
先学习简单特征,深层结合特征,探测更加复杂的东西
另一个,电路理论的解释
正向传播过程:
反向传播过程:
更新 W [ l ] , b [ l ] W^{[l]},b^{[l]} W[l],b[l]:
对于第 l l l层:
正向传播
输入 a [ l − 1 ] a^{[l-1]} a[l−1]
输出 a [ l ] , c a c h e ( z [ l ] , w [ l ] , b [ l ] ) a^{[l]},cache(z^{[l]},w^{[l]},b^{[l]}) a[l],cache(z[l],w[l],b[l])
首个输入数据 a [ 0 ] = x a^{[0]}=x a[0]=x
反向传播
输入 d a [ l ] , z [ l ] da^{[l]},z^{[l]} da[l],z[l]
输出 d a [ l − a ] , d W [ l ] , d b [ l ] da^{[l-a]},dW^{[l]},db^{[l]} da[l−a],dW[l],db[l]
首个输入数据 d a [ L ] = − y a [ L ] + 1 − y 1 − a [ L ] da^{[L]}=-\frac {y}{a^{[L]}}+\frac{1-y}{1-a^{[L]}} da[L]=−a[L]y+1−a[L]1−y
向量化首个输入数据 d A [ L ] = ∑ i = 1 m ( − y ( i ) a [ L ] ( i ) + 1 − y ( i ) 1 − a [ L ] ( i ) ) dA^{[L]}=\sum_{i=1}^m(-\frac {y^{(i)}}{a^{[L](i)}}+\frac{1-y^{(i)}}{1-a^{[L](i)}}) dA[L]=∑i=1m(−a[L](i)y(i)+1−a[L](i)1−y(i))
参数 parameter
超参数 hyper parameter