深度学习 学习笔记总结

最近也不知道干啥了,索性把这个坑填完,也算是对自己研一的一些总结吧。

文章目录

  • 前言
  • 一、神经网络与深度学习
  • 二、神经网络的过拟合与正则化
  • 三、深度学习的优化算法
  • 四、卷积神经网络
  • 五、循环神经网络
    • 从第五章开始 重点就将在NLP领域了
  • 六、长短期记忆网络
  • 七、自然语言处理与词向量
  • 八、word2vec词向量
  • 九、seq2seq与注意力模型
  • 十、从Embedding到XLNET:NLP预训练简介
  • 十一、深度生成模型之自编码器
  • 十二、GAN
  • 十三、神经风格迁移、深度强化学习下与胶囊网络
  • 十四、深度学习框架
  • 十五、NLP经典数据集


前言

这周将深度学习的东西写一点总结吧,也算是对研一的一个小总结,要加油呀呀呀。

提示:以下是本篇文章正文内容,寻欢桑知识水平有限,请大家多多批评

一、神经网络与深度学习

1.以神经网络为核心的深度学习是机器学习的一个分支,所以本质上也遵循机器学习的基本要义和法则。
2.对线性不可分的情况,在感知机的基础上一共两种解决方法:一,支持向量机;二,神经网络模型(也叫作多层感知机MLP)这使得神经网络能够处理非线性的问题。
3.BP神经网络模型:前向计算得到输出,反向传播调整参数,最后得到顺势最小时的参数为最优学习参数。(反向传播是基于梯度下降的,主要是以目标参数的负梯度方向对参数进行更新,所以基于损失函数对前向计算过程中各个变量进梯度计算非常有必要)
交叉熵损失函数L(y,a)=-(yloga+(1-y)log(1-a))

二、神经网络的过拟合与正则化

神经网络因为隐藏层的存在可以实现复杂的非线性拟合功能,但是也带来过拟合的问题,解决过拟合的问题,我们一般使用正则化。这一节主要介绍一种正则化方法:Dropout。
1.有监督机器学习的损失函数计算公式①。所有有监督机器学习的核心任务就是正则化参数的同时最小化经验误差。通俗的来说训练误差小,测试误差也小,模型就有比较好的泛化能力;或者说模型偏差小,方差也小。深度学习 学习笔记总结_第1张图片
2.过拟合就是说,在训练集表现好,而在测试集表现差。特征工程,扩大训练集,算法设计和超参数调优等都是为防止过拟合的。
3.①式的第二项就是正则化项,那么大 就是正则化系数,通常大于零,是一种调整经验误差和正则化项之间关系的系数。
4.范数。常见的L1和L2范数,机器学习当中使用的多的为L2范数。L1通常用于实现参数矩阵的稀疏性。深度学习 学习笔记总结_第2张图片
5.带正则化的交叉熵损失函数⑤
深度学习 学习笔记总结_第3张图片
6.Dropout(随机失活):在神经网络训练过程中,对所有神经元按照一定的概率进行消除的处理方式。 所以,从本质上来讲,Dropout也是一种正则化的方式。带有Dropoutj结构的神经网络模型效果类似与L2正则化。

三、深度学习的优化算法

神经网络的训练求解方法从早期的梯度下降、批梯度下降,随机梯度下降到Momentum、RMSProp和Adam等,大体上都脱离不了梯度下降的框架。
1.一个完整的统计学习方法包括模型、策略和算法三个要素。
2.Adam(自适应矩估计算法)是一种将Momentum(动量梯度下降)和RMSProp(均方根加速算法)结合起来的算法。再同等数据量的情况下,Adam算法占用内存小,超参数相对固定,特别适用于大量训练数据的场景,且对稀疏和梯度噪音有很多的容忍性。主要是用了一阶矩和二阶矩,实际上是综合考虑了直线惯性和转动惯性
深度学习 学习笔记总结_第4张图片

四、卷积神经网络

1.卷积层是的神经网络具备更强的学习和特征提取能力,池化层是使得CNN有更强的稳定性。全连接层可以起到分类器的作用。一个典型的CNN通常就包含这 三层。在训练卷积网络时,需要初始化滤波器中卷积参数,在训练中不断迭代得到最好的滤波器参数。卷积本质上就是一个翻转平移加权求和的操作。
2.使用卷积对图像等数据做出处理。将卷积核与图片矩阵对齐,对应格子的数字相乘后再相加,再填到新矩阵中,这就是卷积。新矩阵能反映特征,叫特征图。是这一层的输出,也是下一层的输入。通过训练寻找卷积核。池化层和全连接层,池化层能选取图像的主要特征;全连接层一般在最后,能将提取到的特征集合在一起,给出图片可能是某种事物的概率。将声音当作图谱处理可以完成语音识别,将词语作为向量处理可以完成机器翻译。

五、循环神经网络

从第五章开始 重点就将在NLP领域了

迁移学习可以帮助我们缓解在数据和计算资源上的尴尬。所谓的迁移学习就是利用数据、任务或模型之间的相似性,将在旧领域学习过或训练好的模型,应用于新领域的过程。两个任务的输入属于同一性质。
RNN(Recurrent Neural Network)
音频是按照时间顺序播放的。建立由序列输入到序列输出之间的有监督机器学习模型就是RNN要做的事。带有时间和记忆属性的神经网络模型使得深度学习可以解决语音识别和自然语言处理等建模问题。
1.一个RNN单元结构通常需要进行两次激活计算,一次是结合上一个时间步的隐状态值和输入计算,另一次是基于当前隐状态值的输出状态。两次激活计算公式如下深度学习 学习笔记总结_第5张图片
2.结构类型多对一多个输入一个输出可以适用与情感分析,文本分类等。例如:电影评论得到情感分析。深度学习 学习笔记总结_第6张图片

六、长短期记忆网络

1.LSTM是RNN的一种常见的改进模型,引用了门机制去解决梯度爆炸或者梯度消散的问题。在【0,1】之间,0是完全舍弃,1是完全保留。门计算所需要用到的参数,由模型自己去进行学习。每一个门都有对应的参数,每一个门的每次计算,是根据当前的输入前一刻的状态,以及内部状态,来计算门的值是什么,最后再对整个状态进行更新整个状态进行更新。遗忘门丢掉 不需要的信息,输入门要记住那些东西,输出门决定了多大程度输出信息。
深度学习 学习笔记总结_第7张图片

2.GRU是另一个对RNN进行改进的模型,可以看作是LSTM的变形。相对于LSTM ,GRU模型减少了一个门,更新们是遗忘门和输入门的结合体。参数量也会变少。因此,最终GRU的速度比RNN、LSTM更快一些。 深度学习 学习笔记总结_第8张图片
深度学习 学习笔记总结_第9张图片

七、自然语言处理与词向量

1.词汇表征 目前主要有两种方法,一种是传统机器学习中的one-hot编码方式,另外一种是基于神经网络的词嵌入技术。
one-hot词汇表征方法存在两个缺点:①容易造成维数灾难②不能很好地获取词汇间的相似性。
第二种称为词嵌入技术,基本思想是将词汇表中的每个单词表示为一个普通向量。(例如word2vec word2vec有两种语言模型 一种是会根据上下文来预测中间词的CBOW(连续词袋模型) 另一种是根据中间词来预测上下文的Skip-gram(跳字模型))
2.词向量 词向量的本质在于降维
3.语言模型 通俗来讲就是把一些词语组成一句话来判断这句话是不是一句完整的话。两种语言模型:一种是基于概率统计语言描述的语言模型,另外一种则是利用函数来拟合上述概率模型,将模型当做一种有监督学习模型来求解。

八、word2vec词向量

word2vec word2vec有两种语言模型 一种是会根据上下文来预测中间词的CBOW(连续词袋模型) 另一种是根据中间词来预测上下文的Skip-gram(跳字模型)本质上都是一种词汇降维的操作。
1.将CBOW的输入层换成输出层基本上就变成了Skip-gram模型,二者 可以理解为一种互为翻转的关系。

九、seq2seq与注意力模型

十、从Embedding到XLNET:NLP预训练简介

十一、深度生成模型之自编码器

十二、GAN

十三、神经风格迁移、深度强化学习下与胶囊网络

十四、深度学习框架

十五、NLP经典数据集

1.IMDB 是一家在线收集各种电影信息的网站 和豆瓣类似,用户可以再上面发表对电影的评价。IMDB数据集御用情感分析的IMDB电影评论二分类数据集,包含25000个训练样本和25000个测试样本,所有影评都被标记为正面和负面两种评价。IMDB数据集地址

#导入IMDB模块
from tensflow.keras.datasets import imdb
#导入数据
(x_train,y_train),(x_test,y_test)=imdb.load_data()
#输出数据维度
print(x_train.shape,y_train.shape,x_test.shape,y_test.shape)
  1. WikiText 保留了产生每个词汇的原始文章,非常适用于长期依赖的大文本建模问题 数据集地址
    3.Amazon reviews

Amazon Reviews数据集分为Full和Polarity两个版本。Full版本每个类别包含600000个训练样本和130000个测试样本,Polarity版本每个类别则包含1800000个训练样本和200000个测试样本。评论的商品包括书籍、电子产品、电影、日常家用产品、衣服、手机、玩具等各类常用物品。
Amazon Reviews数据集地址
4.Sogou news Sogou news 数据集是来自SogouCA和SogouCS新闻语料库总共包含运动、金融、娱乐、汽车和技术5个类别2909551篇新闻文章构成的数据集。每个类别分别包含90000个训练样本和12000个测试样本。

Sogou news 数据集地址

你可能感兴趣的:(深度学习,学习)