对《神经网络与深度学习》(邱锡鹏 )的知识梳理(一)

第一部分·入门篇

  • 写在前面
    • 第一章 绪论
      • 1.1 人工智能
      • 1.2 神经网络
      • 1.3 机器学习
      • 1.4 表示学习
      • 1.5 深度学习
      • 1.6 本书的组织结构
      • 1.7 总结与深入阅读

写在前面

四月初,《神经网络与深度学习》又重新发布了,相信有不少人注意到这本书,它由复旦大学教授邱锡鹏所著。在今年最新的版本中,它又融合了最新最热的知识点。阅读这本书,一方面是为了巩固已有的基础知识,另一方面,也是查漏补缺,发现自己还不曾了解的知识领域。但单纯地读完一本书会存在遗忘的问题,因此我将在阅读过程中提炼一些关键词或关键句,必要的话会提供个人小小的总结。整个系列博客的知识梳理顺序都是按照书中的章节顺序,对于一些我个人认为值得记忆的点,我会适当进行发散学习或在后续做一些补充、解释工作(例如,另写一篇博客)。该书总共分为三个部分,其中第一部分主要是基础知识的介绍,有一些基本概念和定义;第二部分主要介绍深度学习中的神经网络模型;而第三部分则是深度学习的其他方法介绍。

第一章 绪论

  1. 机器学习,深度学习,神经网络
    简单说说三者的关系。实际上,深度学习是机器学习的一个子问题,其主要目的是从数据中自动学习到有效的特征表示。神经网络仅仅是深度学习领域中的一类数学模型,其他的模型还包括概率图模型等。
  2. 贡献度分配问题(Credit Assignment Problem,CAP) [Minsky, 1963]
    这是深度学习中的一个重要问题,即一个系统中不同的组件(Components)或其参数对最终系统输出结果的贡献或影响。它关系到对参数的学习。目前在深度学习中,神经网络能较好的解决这个问题。这也是神经网络模型更流行的原因之一。

1.1 人工智能

  1. 图灵测试
    “一个人在 不接触对方的情况下,通过一种特殊的方式,和对方进行一系列的问答。如果 在相当长时间内,他无法根据这些问题判断对方是人还是计算机,那么就可以 认为这个计算机是智能的。”——这是1950年阿兰·图灵在其论文《Computing Machinery and Intelligence》中提出的。图灵测试为之后的人工智能领域提供了更清晰的研究方向。

  2. 1956年达特茅斯会议
    这是对人工智能而言及其重要的一次会议。在这次会议上,“人工智能”的概念被提出并被作为正式的研究领域。John McCarthy提出了人工智能的定义:人工智能就是要让机器的行为看起来就像是人所表现出的智能行为一样。

  3. 人工智能的主要领域
    它们是:感知、学习和认知,三者对应着不同的研究领域。

  4. 人工智能的发展历史和流派
    发展历史可分为三个时期:推理期,知识期,学习期[周志华,2016]。
    推理期:研究者的过于乐观和现实的巨大反差,人工智能的研究一度陷入低谷。
    知识期:出现了专家系统(Expert System),即“知识库+推理机”的模式。一个专家系统必须具备三要素:(1)领域专家级知识;(2)模拟专家思维;(3)达到专家级的水平。
    学习期:这是和机器学习息息相关的时期。
    对《神经网络与深度学习》(邱锡鹏 )的知识梳理(一)_第1张图片

    图1.图片来自《神经网络与深度学习》
     

    人工智能大体上可分为两个流派:符号主义连接主义。前者在推理期与知识期比较流行,可解释性强。其思想为信息可用符号表示,而符号可通过显示规则来操作。后者又称仿生学派或生理学派,连接主义认为人类的认知过程是由大量简单神经元 构成的神经网络中的信息处理过程,而不是符号运算。

1.2 神经网络

  1. 人工神经网络
    人工神经网络(ArtificialNeural Network,ANN),即我们通常所说的神经网络,是参考人脑神经系统而来的。它可以看作是个通用的函数逼近器,一个两层的神经网络可以逼近任意的函数。理论上,只要有足够的训练数据和神经元数量,人工神经网络就可以学到很多复杂的函数。
  2. 赫布网络、感知器、反向传播算法
    赫布网络是首个可学习的人工神经网络,其理论来自于加拿大心理学家Donald Hebb所提出的赫布理论(Hebbian Theory)或赫布法则(Hebb’s Rule)。感知器是最早的具有机器学习思想的神经网络,结构简单。而近年来真正引起神经网络发展高潮的则是反向传播算法,它不仅用于多层前馈神经网络, 还用于其他类型神经网络的训练。

1.3 机器学习

  1. 传统机器学习的特点
    机器学习可看作为浅层学习(Shallow Learning),其特征主要靠人工经验或特征转换方法来抽取。很多的模式识别问题都可以看作特征工程(Feature Engineering)问题。
  2. 传统机器学习的数据处理过程
    图片来自《神经网络与深度学习》
图2. 传统机器学习的数据处理过程
 

其中,特征提取是指提取出有效特征。而特征转换涉及到特征的升维与降维。降维包括特征抽取 (Feature Extraction)和特征选择(Feature Selection)两种途径。常用的特征转换方法有主成分分析(Principal components analysis,PCA)、线性判别分析(Linear Discriminant Analysis)等。

1.4 表示学习

  1. 含义
    表示学习是指一种能自动学习有效特征的学习方式,它能提高最终机器学习模型的性能。要学习到一种好的高层语义表示(一般为分布式表示),通常需要从底层特征开始,经过多步非线性转换才能得到。
  2. 语义鸿沟
    语义鸿沟问题是指输入数据的底层特征和高层语义信息之间的不一致性和差异性,例如在图片在像素级和人类理解意义上的差异。这也引申出了关于表示学习的两个核心问题:(1)什么是好的表示?(2)如何学习到好的表示?
  3. 局部表示与分布式表示
    局部表示或离散表示通常可以由ONE-HOT表示,其缺点是显而易见的:1)大而稀疏,难以扩展;2)无法体现其内部的相似性。 而分布式表示或分散式表示则往往是低维度的稠密向量,通常通过嵌入的方式实现。
  4. 参考文献
    一篇经典的关于表示学习的文章: Representation learning: A review and new perspectives.

1.5 深度学习

  1. 问题与解决方法
    深度学习需要解决的关键问题就是贡献度分配问题(CAP)。目前最主要采用的方法是神经网络模型,其原因是它可以使用误差反向传播算法,可以较好的解决CAP。
    对《神经网络与深度学习》(邱锡鹏 )的知识梳理(一)_第2张图片
图3. 深度学习的数据处理流程
 
  1. 端到端学习(End-to-End Learning)
    传统的多模块学习有着明显的问题:1)各个子模块需要单独优化,其优化目标往往不能与总体目标保持一致;2)错误传播问题。而端到端学习直接优化任务的总目标。

1.6 本书的组织结构

对《神经网络与深度学习》(邱锡鹏 )的知识梳理(一)_第3张图片

图4. 该书的组织结构。同时也是一张对于知识点梳理得很好的图。
 

1.7 总结与深入阅读

与深度学习相关的国际会议:

  • 国际表示学习会议(International Conference on Learning Representations,ICLR)
  • 神经信息处理系统年会(AnnualConferenceonNeuralInformationProcessing Systems,NeurIPS)
  • 国际机器学习会议(InternationalConferenceonMachineLearning,ICML)
  • 国际人工智能联合会议(International Joint Conference on Artificial Intelligence,IJCAI)
  • 美国人工智能协会年会(AAAIConferenceonArtificialIntelligence,AAAI)

你可能感兴趣的:(《神经网络与深度学习》)