2022.5.1第四次周报

目录

前言

Learning Rate

分类 Classification

Convolutional Neural Networks(CNN)

为什么用CNN做影像辨识

为什么可以用比较少的参数可以来做影像处理这件事情

CNN架构

总结


前言

本周学习有关类神经网络的自动调整学习速率(Learning Rate)和 损失函数(Loss)也可能有影响和卷积神经网络(Convolutional Neural Networks,CNN)

Learning Rate

Adam:RMSProp+Monentum

Various Improvements(改进后的公式)

{\theta _{i}}^{t+1}\leftarrow \theta _{i}^{t}-\frac{^{\eta _{t} }}{\sigma _{i}}m_{i}^{t}

\sigma _{i}^{t}=\sqrt{\frac{1}{t+1}\sum_{i=0}^{t}(g_{i}^{t})^{2}}

\eta ^{t}:learning rate scheduling

学习速率调度

\sigma _{i}:root mean square of the gradients  (only magnitude唯一幅度)

梯度的均方根

m_{i}^{t}(momentum):weighted sum of the previous gradients  (consider direction考虑方向 )

先前梯度的加权和

分类 Classification

Regression

label

\check{y}\leftrightarrow y=b+c^{T}\sigma (b+wx))

Classification

y={b}'+{w}'\sigma (b+wx)

label    \hat{y}\leftrightarrow {y}'=softmax(y)

soft-max:{y_{i}}'=\frac{exp(y_{i})}{\sum_{j}^{}exp(y_{j})}

Loss of classification

label

\hat{y}\leftrightarrow {y}'\leftarrow softmax\leftarrow y\leftarrow network\leftarrow x

Mean Square Error (MSE) e=\sum_{i}^{}({\hat{y_{i}}-y_{i}}')^{2}

Cross-entropy    e=-\sum_{i}^{}\hat{y_{i}}ln{y_{i}}'

L=\frac{1}{N}\sum_{n}^{}e_{n}

Minimizing cross-entropy is equivalent to maximizing likelihood

最小化交叉熵等效于最大化似然

Convolutional Neural Networks(CNN)

为什么用CNN做影像辨识

     我们都知道CNN常常被用在影像处理上,如果你今天用CNN来做影像处理,当然也可以用一般的neural network来做影像处理,不一定要用CNN。但是呢,我们现在会遇到的问题是这样的,实际上我们在training neural network时,我们会期待说:在network的structure里面,每一个neural就是代表了一个最基本的classifier,事实在文件上根据训练的结果,你有可能会得到很多这样的结论。但现在的问题是这样的,当我们一般直接用fully connect feedforward network来做影像处理的时候,往往我们会需要太多的参数,那么CNN做的事就是简化neural network的架构。我们把这里面一些根据人的知识,我们根据我们对影像就知道,某些weight用不上的,我们一开始就把它滤掉。不是用fully connect feedforward network,而是用比较少的参数来做影像处理这件事。

为什么可以用比较少的参数可以来做影像处理这件事情

     第一个是在影像处理里面,我们说第一层的 hidden layer那些neural要做的事就是侦测某一种pattern,有没有某一种patter出现。大部分的pattern其实要比整张的image还要小,对一个neural来说,假设它要知道一个image里面有没有某一个pattern出现,它其实是不需要看整张image,它只要看image的一小部分。

     第二是同样的pattern在image里面,可能会出现在image不同的部分,但是代表的是同样的含义,它们有同样的形状,可以用同样的neural,同样的参数就可以把patter侦测出来。

第三个是:我们知道一个image你可以做subsampling,你把一个image的奇数行,偶数列的pixel拿掉,变成原来十分之一的大小,它其实不会影响人对这张image的理解。对你来说:这张image跟这张image看起来可能没有太大的差别。是没有太大的影响的,所以我们就可以用这样的概念把image变小,这样就可以减少你需要的参数。

CNN架构

2022.5.1第四次周报_第1张图片

Convolution(卷积)

Max Pooling(池化)

Flatten(展开)

CNN的架构是这样的,首先input一张image以后,这张image会通过convolution layer,接下里做max pooling这件事,然后在做convolution,再做max pooling这件事。这个process可以反复无数次,反复的次数你觉得够多之后,(但是反复多少次你是要事先决定的,它就是network的架构(就像你的neural有几层一样),你要做几层的convolution,做几层的Max Pooling,你再定neural架构的时候,你要事先决定好)。你做完决定要做的convolution和Max Pooling以后,你要做另外一件事,这件事情叫做flatten,再把flatten的output丢到一般fully connected feedforward network,然后得到影像辨识的结果。

 

总结

本节CNN从两个方向来解释

2022.5.1第四次周报_第2张图片

 

你可能感兴趣的:(机器学习,深度学习)