python深度学习include框架_搞事情。《用Python实现深度学习框架》已出版上架。...

我和 @张觉非 合作的《用Python实现深度学习框架》一书已经由人民邮电出版社出版上市了。写作本书的缘由,是2017年11月我加入了360,开始负责以机器学习平台为中心的AI技术设施的研发,三年来愈发觉得机器学习是把数学,计算机科学,软件工程架构和互联网核心业务结合的最紧密的领域之一。做AI基础设施则要求我们对这几个领域都要有深入的理解,这对研发团队带来了极大的挑战,毕竟这种人才是极其稀缺的。

我们团队内做了大量的学习分享帮助大家成长但效果并不显著。一次午后798的散步时,我和觉非老师同时想到了Minix这个在大学操作系统原理课程中用于教学的迷你版Unix,我们决定效仿下,用Python语言,只依赖Numpy实现一个深度学习框架。因为深度学习框架是机器学习理论和技术的集大成者,非常适合用于理论学习和技术实践。我们这个框架基于计算图,支持自动求导、梯度优化和分布式训练(依赖了gRPC),可用来搭建LR,FM到DNN,CNN,RNN,W&D等各种机器学习模型。整个框架的代码只有两千行,稍微有点编程基础的同学都能跟着重新实现一遍。

我们给这个“麻雀虽小,五脏俱全”的框架起名MatrixSlow,一方面简单起见框架只支持二维矩阵(没有扩展到高维tensor),另一方面以原理介绍为主没有太多的性能优化,因此运行起来有些慢;)。我们用MatrixSlow在内部做了一系列的培训分享,反响相当不错,因此我和觉非老师决定花一点时间把这个框架的细节用文字描述一下,于是就有了本书。著名物理学家,诺贝尔奖得主Richard Feynman办公室的黑板上写了:"What I cannot create, I do not understand.",即“我不能建造的,我便无法理解”,MatrixSlow和本书,算是我们对伟大科学先哲思想的一次小小的践行。

感谢复旦大学 @邱锡鹏 教授,一流科技 @袁进辉 老师,我的老东家格灵深瞳 @赵勇 勇哥和360人工智能研究院院长 @yafeng deng 邓总对本书的推荐,感谢邮电出版社策划人和编辑,感谢觉非老师和我们团队,让我有了如此奇妙之旅。

实物:外观内容

以下是书的前言部分,供大家先睹为快。如果大家还不想买书,可以先看一下我们开源出来的代码(纯Python,核心部分2K行左右),本书其实是对这部分代码的文字化描述,介绍了代码背后的原理和细节。出版仓促,代码的README之类的文档写的不甚详细,我们后续会逐步完善,也期待大家的贡献。zackchen/MatrixSlow​github.com

前言:

理查德·费恩曼(Richard Feynman)教授去世后,人们在他的黑板上发现了What I cannot create, I do not understand 这句话。其实,费恩曼教授的本意是:除非你能由基本原理推导出某个结论,否则就没有真正理解它。记结论或背公式是没有用的,只有从一张白纸开始一步步地将结论构建出来,你才是真正理解了一个理论或一个事物。

在机器学习领域,特别是在神经网络和深度学习范畴内,模型和网络数量众多,各种超参数也是名目繁多。特别是当人们应用深度神经网络时,又会针对具体问题的特点提出许多特殊的网络结构。但是我们必须看到,这些眼花缭乱的模型和网络并非彼此孤立,它们之间存在着密切的联系和连续的发展演化路径。

如果将一个领域的知识比作一棵大树,那么我们对它的认识过程不应该是从外向里、从顶向下的,不应该只满足于认识并记住它那繁多的树叶。初学者往往会陷入茴字四种写法式的误区,并且以知道各种模型、各个网络为荣,从而陷入概念和术语的迷宫却看不到它们之间存在的更深刻的联系。总而言之,要想认识一棵树,从树冠开始一片一片认识每个树叶无疑是效率低下的。

更重要的是,通过这种方式根本无法达到真正理解。我们应该从树根出发,沿着树干向上,并尝试重新构建整棵树。在此期间,可以在某个树枝的根部就停下来,因为那时会发现,剩下的细枝末节(字面意思)已经不再重要了,只要在需要的时候再查看那个分支就行了。总之,要想真正地理解(understand)一个领域,就必须能从基本原理出发重新建造(create)它们,最终你会具备统一的、非碎片化的眼光。

程序员爱说一句话:不要重复造轮子。在工作和生产中的确不应该重复造轮子,但在学习和理解的过程中却需要重复。费恩曼教授的黑板上还有一句话:Know how to solve every problem that has been solved(应该知道每一个已被解决的问题的解决方法)。许多教师都会强调习题的重要性,这是对的。在座的诸位“做题家”对此自然也体会深刻。但费恩曼教授更高一筹,他所传达的思想是做题不是目的,目的是教人学会自己动手构造。光看明白是不够的,只有会造轮子才能改进轮子;只有会解有答案的问题,才能去解决还没有答案的问题。其实,这仍然是理解与建造的关系。

1984 年,《现代操作系统》(俗称马戏团书)的作者塔嫩鲍姆教授(Andrew S. Tanenbaum)开发了一个教学用的操作系统Minix。受其启发(多大程度未知),Linus Torvalds 创造了Linux系统。这里我们决定效仿前辈,带领读者用Python 语言从零开始实现一个基于计算图的机器学习/深度学习框架,我们称其MatrixSlow。取这个谦卑的名字是为了表明它只是一个用于教学的框架。若在座诸君中有哪位能受其启发并创造一个专业的深度学习框架,我们将深感欣慰。

计算图是一个强大的工具,用它可以搭建并训练从简单的线性回归、逻辑回归到复杂的深度神经网络等一大类机器学习模型。计算图通过自动求导和梯度下降法,以统一的方式给这一类机器学习模型提供了训练算法。因此,实现了计算图也就等于实现了大部分机器学习算法。看过本书的第二部分,读者将会对这一点有所感受。

在一步步带领读者实现计算图框架的同时,我们还介绍了机器学习、模型、训练等相关概念和原理(我们假设所有读者都没有前导知识,完全从空白讲起)。此外,本书以相当大的篇幅介绍了线性模型、逻辑回归、多层全连接神经网络、非全连接深度神经网络、循环神经网络和卷积神经网络等模型的原理和结构,并且尤其注重它们之间的联系。读者会看到,动机和思路是如何被反复应用并逐渐发展的。我们还以一些实际问题为例展示了这些模型的应用。最后,我们讨论了一些工程方面的问题,例如模型的保存与服务、分布式训练以及要想实现专业级深度学习框架还需应对的若干问题。

虽然本书的主旨为理解与建造,但是通过建造达成理解才是关键。时常会有朋友问:“是否有必要亲手实现模型?”必要与否很难界定,这取决于想要实现模型的人的目的和工作层次(这里的层次并无高低褒贬之意)。所以,我们不谈目的与必要性,只谈亲手实现模型的好处。以我的浅见以及亲身经历来看,亲手实现模型极其有助于夯实理解。在动手实现模型的过程中,你不得不把对理论的理解厘清到最细微处,这里容不得半点含糊。

更重要的是,当自己实现的模型运转起来,应用于实际问题以测试其正确性时,现实会逼迫你反复测试,这个过程可以极大地帮助你加深对于模型行为的理解。作为程序员,测试本来是一件在概念上简单明确的事情。在设计程序的时候,预测有如此这般的输出,它就应该有如此这般的输出。一个断言(assert),过就是过,不过就是不过。但是在机器学习领域,这个范式就会有一定程度上的失效。

我们知道,模型(起码本书讨论的这类模型)的训练是一个近似迭代优化的过程,其中到处存在随机性:参数的随机初始化,样本的随机洗牌(shuffle)以及一些例如Drop Out 之类引入随机性的正则化方法等,都会带来不确定性。训练的结果,比如模型参数、损失和评价指标等,都只具有统计意义。更重要的是,模型在样本集上的损失取决于问题本身,我们不可能知道这个高维函数的真实“地形”。基于梯度的优化算法也不能保证可以找到全局最优点。全局最优点可能根本就不存在或者存在但不唯一。所以,模型训练根本没有严格的正确与否一说。

但是,模型的实现总有对错。错的实现在各个测试问题上都不会有好的表现。简单来说,好的表现就是随着训练的进行,损失值降低而指标上升。但是,受制于问题本身、模型结构以及超参数,对的实现有时也未见得会有好表现,或者好表现的现象需要很久才能显现。这迫使实现者必须反复在各类问题上验证自己的实现,尝试各种模型结构和超参数的组合,这是一个永无终点的过程。实现者对自己的实现的信心会随着无数次尝试而逐渐坚定。更为宝贵的是,所有的这些操作和观察都能帮助实现者建立起对模型行为的认知和直觉。

我们知道,结构和超参数控制着模型的自由度,自由度又决定了模型的偏差-方差权衡,进而影响了模型的过拟合/欠拟合。在物理学中,一套完整的约束可将动力系统的自由度降低一个整数值。由此,之后就可以用数量更少的广义坐标表示该系统。类比到模型训练,正则化方法施加的约束并不是完整的,模型的自由度也不是整数。狭义的正则化之外的超参数,乃至模型结构,都在以复杂的方式影响着模型的自由度。我们常说调参,就是以一种经验的、半猜半试的方式控制模型自由度,以改进模型的表现。当然,我们还有相对蛮力的网格搜索和随机搜索,以及一些非参数优化算法,如遗传、贝叶斯等,但是它们都需要较大的计算量,使得我们在大部分时候难以承受。

了解每一个超参数的原理和含义,以及它们对自由度的大致影响,是建模工程师的必备能力。各种超参数在具体问题、具体模型上究竟会以什么形式产生什么影响,只有经过观察和经验的积累才能形成认识。实现并验证模型的过程,就是一个密集经历这种观察和经验积累的过程。在复杂的科学和技术领域,亲身经历与体验是必不可少的,这是一个经历生命的过程。魔鬼梅菲斯特曾对拜访浮士德博士的青年学生说:“理论是灰色的,而生命之树长青。”

既然说到了理论,这又是一个机器学习领域与程序员熟悉的其他领域不同的地方。实现和应用机器学习必须要理解其原理,而阅读其他领域的源代码时,只要把代码读透也就彻底理解了。你也许会这样想,在完全知道内存、总线和CPU 中发生的每一件事后,我难道还不能理解这个程序在干什么吗?对于机器学习来说,这还真不够。比如,你在某处看到了一个计算,但是这里为什么要计算?计算的目的是什么?为什么有效?这些可不是代码能告诉你的。“读代码”原本是程序员了解一个东西的终极大招,但是在机器学习这里又失效了。

有种常见的说法是把公式推一遍。理解机器学习的数学原理可不能只是简单地“推公式”,而应该要理解公式究竟说了什么。当然,在初学时能够把公式推导的每一步都弄明白就已经不易了。但是如果把注意力都集中到推导,又容易使人难以看清这些公式究竟表达了什么。这就好比虽然踩着脚印亦步亦趋,最后确实也走到了目的地,但始终没有抬头看清这是什么路,目的地是哪里,为什么走这条路,而这些才是最重要的。人们总是希望(妄想)生活中不要有数学。实际上,所谓数学和非数学,无非都是在说事说理而已。要想把事情说得精确深刻,就必须把相关的量以及量之间的关系说清楚,而数学就是简洁地表达这些关系的一种手段。

由于本书面向的是初学者,因此在数学上没有搞得太深入、太复杂。我们会尽力阐述,以帮助读者掌握机器学习的数学所说的“事”是什么,也就是“推公式”时容易看不清的那些东西。本书不避讳使用公式,因为在必要时这是必不可少的,但量确实不大。我们把一些较为高级的主题放在了灰色的选读框中。读者可以根据实际需要选择是否略过这些高级主题,而不至于干扰阅读。记住,数学永远都是必要的。本书在数学上简单了,则必然不够深刻。鉴于此,读者可以参考本书的姊妹篇《深入理解神经网络:从逻辑回归到CNN》①,那里有更完整的数学。

内容概览

本书分为三个部分。第一部分是原理篇,包含第1 章至第3 章。其中,第1 章介绍机器学习的基本概念,引入了一个简单的线性模型ADALINE,这一章介绍的概念贯穿本书。第2 章介绍计算图,其核心内容是计算图的原理、梯度下降法以及计算图上的自动求导。第3 章介绍梯度下降法的各种变体。在前三章中,我们带领读者实现MatrixSlow 框架的核心基础设施,并在此过程中渗透讲解基础原理和概念。

第二部分是模型篇。有了基础设施,我们就可以搭建各种模型了。本部分包括第4 章至第8章。其中,第4 章介绍逻辑回归,第5 章介绍多层全连接神经网络,第6 章介绍几种非全连接神经网络,第7 章介绍循环神经网络,第8 章介绍卷积神经网络。这些模型/网络的选择和顺序不是任意的。我们的想法是由简到繁、由浅至深地介绍其动机和思路的发展演变,使读者看到这些典型的、常用的模型/网络之间的联系。虽然原则上读者可以按照兴趣选读这些章节,但是我们还是建议大家能按顺序阅读,特别是第4 章和第5 章。模型虽然简单,但它们是后续一切复杂延伸的基础和出发点。

第三部分是工程篇。在这一部分中,我们将讨论一些与深度学习框架相关的工程问题。本部分包括第9 章至第12 章。其中,第9 章对训练逻辑做进一步封装,并讨论模型评估;第10 章介绍模型的保存、导入和服务部署;第11 章介绍分布式训练,在大数据和深度学习时代,样本量和网络规模都是巨大的,这些使得分布式训练必不可少;第12 章简单讨论要实现一个专业级的深度学习框架还需面对和处理的一些问题。

读者对象

本书的目标读者是对机器学习,特别是神经网络与深度学习的原理和实现感兴趣的工程师、学生以及其他各行业人士。我们不预设读者有任何与机器学习相关的前导知识,完全从零讲起(但愿能达到效果)。需要读者具有基础的编程知识,否则难以阅读书中的代码。

MatrixSlow 框架以Python 语言实现,而Python 语法简单,因此相信读者即便没有Python 经验,只要具备基础的编程能力也能读懂。我们使用Python 的线性代数库Numpy 存储矩阵并进行矩阵运算。书中的代码都是自明的,且有丰富的注释,读者不需要事先掌握Numpy 也能读懂。代码中还有对其他一些库的少量、零星的使用,它们都不会给理解代码造成障碍。

如前面所说,本书不“数树叶”,也不深究茴字的多种写法,并非一本神经网络与深度学习的模型大全。MatrixSlow 框架旨在教学,用实现来帮助读者理解原理。它虽然可以运用于一些小问题,但还远不是一个专业的深度学习框架。在对数学原理的讲解方面,本书试图抓住本质和精髓,但是考虑本书的层次,还有许多深刻的内容没有涉及。

代码资源

本书代码可至图灵社区(首页-图灵社区)本书主页“随书下载”中免费注册下载。另外,本书作者在知乎开设了专栏“计算主义”,以后会继续在专栏中讨论和分享相关主题。鉴于作者水平有限,错误难免,欢迎读者来信指正,邮箱是[email protected]

本书第1、2、4、5、6、7 和8 章由张觉非撰写。第3、9、10、11 和12 章由陈震撰写。

目录:

第一部分 原理篇

第1章 机器学习与模型 2

1.1 模型 2

1.2 参数与训练 4

1.3 损失函数 9

1.4 计算图的训练 10

1.5 小结 12

第2章 计算图 13

2.1 什么是计算图 13

2.2 前向传播 14

2.3 函数优化与梯度下降法 18

2.4 链式法则与反向传播 29

2.5 在计算图上执行梯度下降法 36

2.6 节点类及其子类 36

2.7 用计算图搭建ADALINE并训练 44

2.8 小结 48

第3章 优化器 49

3.1 优化流程的抽象实现 49

3.2 BGD、SGD和MBGD 53

3.3 梯度下降优化器 58

3.4 朴素梯度下降法的局限 60

3.5 冲量优化器 61

3.6 AdaGrad优化器 62

3.7 RMSProp优化器 64

3.8 Adam优化器 65

3.9 小结 68

第二部分 模型篇

第4章 逻辑回归 70

4.1 对数损失函数 70

4.2 Logistic函数 73

4.3 二分类逻辑回归 75

4.4 多分类逻辑回归 78

4.5 交叉熵 81

4.6 实例:鸢尾花 85

4.7 小结 88

第5章 神经网络 90

5.1 神经元与激活函数 90

5.2 神经网络 95

5.3 多层全连接神经网络 99

5.4 多个全连接层的意义 101

5.5 实例:鸢尾花 108

5.6 实例:手写数字识别 110

5.7 小结 116

第6章 非全连接神经网络 117

6.1 带二次项的逻辑回归 117

6.2 因子分解机 124

6.3 Wide & Deep 132

6.4 DeepFM 137

6.5 实例:泰坦尼克号幸存者 141

6.6 小结 150

第7章 循环神经网络 151

7.1 RNN的结构 151

7.2 RNN的输出 152

7.3 实例:正弦波与方波 155

7.4 变长序列 159

7.5 实例:3D电磁发音仪单词识别 164

7.6 小结 167

第8章 卷积神经网络 168

8.1 蒙德里安与莫奈 168

8.2 滤波器 170

8.3 可训练的滤波器 176

8.4 卷积层 183

8.5 池化层 186

8.6 CNN的结构 189

8.7 实例:手写数字识别 190

8.8 小结 194

第三部分 工程篇

第9章 训练与评估 196

9.1 训练和Trainer训练器 196

9.2 评估和Metrics节点 202

9.3 混淆矩阵 204

9.4 正确率 204

9.5 查准率 206

9.6 查全率 206

9.7 ROC曲线和AUC 208

9.8 小结 211

第10章 模型保存、预测和服务 212

10.1 模型保存 213

10.2 模型加载和预测 216

10.3 模型服务 216

10.4 客户端 222

10.5 小结 223

第11章 分布式训练 224

11.1 分布式训练的原理 224

11.2 基于参数服务器的架构 230

11.3 Ring AllReduce原理 241

11.4 Ring AllReduce架构实现 248

11.5 分布式训练性能评测 257

11.6 小结 259

第12章 工业级深度学习框架 261

12.1 张量 262

12.2 计算加速 263

12.3 GPU 265

12.4 数据接口 266

12.5 模型并行 266

12.6 静态图和动态图 267

12.7 混合精度训练 268

12.8 图优化和编译优化 270

12.9 移动端和嵌入式端 270

12.10 小结 271

推荐:

这是一本引人入胜的书,它通过由浅入深的讲解让你了解深度学习的原理、模型和实现方法,内容清晰易懂,表达生动形象。当从零开始一步一步实现一个深度学习框架MatrixSlow,你会更加深入地理解深度学习的奥秘,进而快速提升自己的能力。

—— @邱锡鹏,复旦大学计算机学院教授

深度学习框架是算法原理和工程系统相结合的产物。业界知名的框架,如TensorFlow, PyTorch等,动辄十万行的代码令想了解其内部机制的朋友望而却步。因此,对大多数人来说,深度学习框架仍充满神秘气息。我们团队做了好几年深度学习框架研发,一直苦于没有好的入门教材。现在终于有一本书把深度学习框架的工作原理通俗易懂地讲了出来。本书是一本诚意满满的作品。作者用Python实现了一个麻雀虽小但五脏俱全的深度学习框架MatrixSlow,把原理与实现一网打尽,使读者可以对深度学习框架的内核有较全面的了解。如果想进一步探索工业级项目,本书也是一个很好的起点。

—— @袁进辉,一流科技创始人、CEO

本书以浅显易懂的方式介绍了深度学习背后的理论。书中出现的公式不多,而是尽力以形象化的方式描述深度学习的数学原理,非常适合对理解数学公式有恐惧症的朋友阅读。同时,本书提供并详解了一个完全用Python实现的比较完整的、现代化的深度学习框架,手把手地帮助读者理解深度学习框架的实现细节。可以说,在这本书的帮助下,读者可以用类似搭积木、玩乐高的方式,边玩边学,实现一个深度学习框架。本书倡导“通过建造来促进理解”的学习理念。对于复杂难懂的概念,除非亲手实现,否则很难真正理解掌握。我非常赞同这个理念,很高兴作者把这个建造与理解的过程分享出来,为众多对这个领域感兴趣的朋友提供参考。

—— @赵勇,格灵深瞳创始人、CEO

在AI时代,深度学习框架层出不穷,教大家使用各种框架的书籍也并不稀缺。但是本书独树一帜,它如抽丝剥茧般为读者刨析了深度学习框架的各个功能模块,如计算图、自动求导、优化算法、分布式训练、模型管理等,并介绍了基于计算图的多种机器学习模型的原理和应用。本书提供了框架本身和构建各类模型的代码,既深入核心原理,又浅显易懂。所谓“不能创造,无法理解”,相信通过自己打造一个深度学习框架,读者可以更深入地理解其中的原理。愿大家更懂AI!

—— @yafeng deng,奇虎360集团副总裁、人工智能研究院院长

介绍下本书的姊妹篇《深入理解神经网络 -- 从逻辑回归到CNN》,是 @张觉非 去年出版的介绍机器学习理论和原理的书。这本书从最简单的逻辑回归开始介绍机器学习背后的数学原理,然后逐步过渡到近几年快速发展的深度神经网络,介绍了二者的联系与区别(联系可能比区别要大得多)。相较于《用Python实现深度学习框架》,这本书会更偏理论一些,书中公式会更多,介绍的内容也更基础,感兴趣的同学可以关注下。感谢!

你可能感兴趣的:(python深度学习include框架_搞事情。《用Python实现深度学习框架》已出版上架。...)