重学《动手学深度学习》 —— 深度学习简介(第一章)笔记

深度学习简介

本章地址:https://tangshusen.me/Dive-into-DL-PyTorch/#/chapter01_DL-intro/deep-learning-intro

仅作为私人阅读笔记,欢迎讨论与分享

简介

机器学习和深度学习等数据科学方法可以看做是传统编程的逆向思考(以识别图中是否有猫为例)
传统编程方法:编写函数,识别猫 (编写函数实现需求)
机器学习方法:先验的判断是否有猫,将源图片分为两类,然后根据给定函数模型找到函数的具体表达式(根据需求找到函数)

机器学习需要做啥?
首先,需要针对具体问题设计函数模型
然后,根据大量数据学习函数的参数,即学得函数的具体表达式,学习的目的是希望函数能够拟合问题的需求,比如能够正确的将图像分为是否有猫两类

机器学习与深度学习
前面说过,机器学习是先找到函数的模型然后再确定函数的具体参数的过程,机器学习是实现人工智能的一种手段
深度学习是一类用神经元表示的函数,深度学习是机器学习的一种方法
重学《动手学深度学习》 —— 深度学习简介(第一章)笔记_第1张图片

起源

神经网络的灵感来源于生物学,虽然之后成为了一个独立的学科(即并不谋求完全满足生物学现象),但仍有生物学的影子(符合生物学解释的特征),绝大多数神经网络都包含以下的核心原则:

  • 交替使用线性处理单元与非线性处理单元,它们经常被称为“层”
  • 使用链式法则(即反向传播)来更新网络的参数

深度学习瓶颈(1995-2005年期间): 算力不够、数据太少、缺乏可解释性导致结果不可预测

相比之下,核方法、决策树和概率图模型等统计工具更优

重学《动手学深度学习》 —— 深度学习简介(第一章)笔记_第2张图片

发展

为什么要用深度学习?
深度学习是时代的选择,现今存储容量没能跟上数据量增长的步伐,与此同时,计算力的增长又盖过了数据量的增长。所以,人们迫切需要解决存储容量小的问题,由于非线性结构能够提高数据的存储能力,提高数据间的关系表达能力,由线性结构中的一对一关系提升到非线性结构中一对多或多对多关系。
从而,机器学习研究者将视线从广义线性模型及核方法转移到深度多层神经网络。

深度学习发展过程中的重要技术
下列这些技术的出现,引领着深度学习技术不断优化,逐步达到如今的地位(摘抄自教材)

  • 优秀的容量控制方法,如丢弃法,使大型网络的训练不再受制于过拟合(大型神经网络学会记忆大部分训练数据的行为)。这是靠在整个网络中注入噪声而达到的,如训练时随机将权重替换为随机的数字。

  • 注意力机制解决了另一个困扰统计学超过一个世纪的问题:如何在不增加参数的情况下扩展一个系统的记忆容量和复杂度。注意力机制使用了一个可学习的指针结构来构建出一个精妙的解决方法 。也就是说,与其在像机器翻译这样的任务中记忆整个句子,不如记忆指向翻译的中间状态的指针。由于生成译文前不需要再存储整句原文的信息,这样的结构使准确翻译长句变得可能。

  • 记忆网络和神经编码器—解释器这样的多阶设计使得针对推理过程的迭代建模方法变得可能。这些模型允许重复修改深度网络的内部状态,这样就能模拟出推理链条上的各个步骤,就好像处理器在计算过程中修改内存一样。

  • 另一个重大发展是生成对抗网络的发明。传统上,用在概率分布估计和生成模型上的统计方法更多地关注于找寻正确的概率分布,以及正确的采样算法。生成对抗网络的关键创新在于将采样部分替换成了任意的含有可微分参数的算法。这些参数将被训练到使辨别器不能再分辨真实的和生成的样本。生成对抗网络可使用任意算法来生成输出的这一特性为许多技巧打开了新的大门。例如生成奔跑的斑马和生成名流的照片都是生成对抗网络发展的见证。

  • 许多情况下单个GPU已经不能满足在大型数据集上进行训练的需要。过去10年内我们构建分布式并行训练算法的能力已经有了极大的提升。设计可扩展算法的最大瓶颈在于深度学习优化算法的核心:随机梯度下降需要相对更小的批量。与此同时,更小的批量也会降低GPU的效率。如果使用1,024个GPU,每个GPU的批量大小为32个样本,那么单步训练的批量大小将是32,000个以上。近年来李沐、Yang You等人 以及Xianyan Jia等人的工作将批量大小增至多达64,000个样例,并把在ImageNet数据集上训练ResNet-50模型的时间降到了7分钟。与之对比,最初的训练时间需要以天来计算。

  • 并行计算的能力也为至少在可以采用模拟情况下的强化学习的发展贡献了力量。并行计算帮助计算机在围棋、雅达利游戏、星际争霸和物理模拟上达到了超过人类的水准。

  • 深度学习框架也在传播深度学习思想的过程中扮演了重要角色。Caffe、 Torch和Theano这样的第一代框架使建模变得更简单。

重学《动手学深度学习》 —— 深度学习简介(第一章)笔记_第3张图片

深度学习特点

特点1 多级特征
在机器学习的众多研究方向中,表征学习关注如何自动找出表示数据的特征,以便更好到学习到输入和输出的内在关系。
深度学习能够包含多级特征,在每一级(从原始数据开始),深度学习通过简单的函数将该级的特征变换为更高级的特征,进而可以逐级表示越来越抽象的概念或模式。因此,深度学习模型也可以看作是由许多简单函数复合而成的函数。当这些复合的函数足够多时,深度学习模型就可以表达非常复杂的变换关系,即可以表示多级特征。

特点2 自主学习
深度学习可以自动学习找到各层级的特征,是端到端的训练。也就是说,并不是将单独调试的部分拼凑起来组成一个系统,而是将整个系统组建好之后一起训练,通过自主学习实现特征的自动提取。

重学《动手学深度学习》 —— 深度学习简介(第一章)笔记_第4张图片

参考:
[1] 浅谈线性结构和非线性结构的区别,https://blog.csdn.net/weixin_44431371/article/details/100559104

感谢开源,致敬:
《动手学深度学习》原本:https://github.com/d2l-ai/d2l-zh
《动手学深度学习》Pytorch版:https://github.com/ShusenTang/Dive-into-DL-PyTorch

你可能感兴趣的:(动手学深度学习阅读笔记)