感谢邓力、刘洋博士能够提供给广大NLP从业者、爱好者提供了这本全面、通俗易懂的好书,以及其他专家前辈在具体章节、领域做出的贡献。
本书共338页,涵盖了NLP基本问题的介绍,以及深度学习在对话系统、QA系统、机器翻译、知识图谱、情感分析等经典NLP任务的应用详述,本人一直希望能有这样的一本工具书出现,当他出现的时候,却很无奈的发现是英文版的,并且尚未找到中文翻译版。不管是出于学习的目的,还是为NLP界做出贡献的目的,决心亲自进行翻译,鉴于英语水平、翻译水平以及NLP领域的知识水平所限,不奢求最终翻译能够达到信、雅、达的水平,但求能够充分保留书中原意,不至于误人子弟则心满意足矣。
“由在NLP和深度学习两个领域均在国际上受人尊敬的专家——邓力博士牵头,会同一众在这个NLP领域中最为活跃的研究者共同完成本书的撰写。本书全面介绍并回顾了应用深层学习解决自然语言处理的基本问题的最新进展。更进一步讲,随着对NLP深度学习应用的巨大进步,对高质量和最新的教材以及研究文献的需求急剧上升,这本书的出现是非常及时的。本书为深度学习和NLP领域的从业人员、特别是那些NLP技术正在成为其重要推动力和核心竞争力的互联网及AI初创企业,提供了独一无二的参考指南。”
— — 张宏江(源代码资本创始人,前金山软件CEO)
“这本书全面介绍了深度学习应用于自然语言处理领域的最新进展。由一群有经验、有抱负的NLP研究者所编写,它涵盖了广泛的主要NLP应用,包括口语理解,对话系统,词汇分析,解析,知识图谱,机器翻译,问答系统,情感分析,社会计算。
这本书结构清晰,从主要研究趋势到最新的深度学习方法,到他们的局限性再到他们所许下的未来工作。鉴于其齐全的内容、复杂的算法和详细的实践案例,这本书为所有从事研究或学习的读者关于深度学习与自然语言处理提供了宝贵的指引。”
— — 王海峰(现任百度高级副总裁,AI技术平台体系总负责人,前计算语言学协会会长)
“在2011年,在深度学习在工业界的至暗时刻,我估计大多数的语音识别应用中机器的错误率仍然是人类表现的5-10倍,并强调了知识工程在未来发展方向的重要性。但在短短几年内,机器使用深度学习在语音对话识别的准确率就已经非常接近人类了。作为最近使用深度学习来解决语音识别问题的先驱——邓力博士以及他的同事们共同编著了这本书。这本书优雅地描述了语音识别作为自然语言处理的一个重要子领域的这段迷人的历史。此外,本书还把这一历史视角从语音识别扩展到自然语言处理的更一般领域,为自然语言处理的未来发展提供了真正有价值的指导。
重要的是,这本书提出了一个论点,即当前的深层学习趋势是从以前的数据驱动(浅层)机器学习时代开始的一场革命,尽管表面上的深层学习似乎只是在利用更多的数据、更多的计算能力和更复杂的模型。的确,正如书中所指出的,目前为NLP应用开发的深度学习技术,尽管在解决单个NLP任务方面非常成功,但是还没有充分利用存在于这个世界的丰富知识或人类的认知能力。因此,我充分接受本书作者所表达的观点,即更先进的、无缝集成知识工程的深度学习将为NLP的下一次革命铺平道路。
我极力推荐语音、NLP研究者、工程师以及学生去读这本杰出而实时的书,不仅可以了解NLP和深度学习的最新技术,而且可以获得对NLP领域未来发展的重要洞察。”
— — 古井真熙(芝加哥丰田技术研究所所长)
自然语言处理(NLP),其目的是使计算机能够智能地处理人类语言。是跨人工智能、计算科学、认知科学、信息处理和语言学的跨学科领域。涉及计算机与人类语言之间的交互,NLP应用程序,如语音识别、对话系统、信息检索、问答系统和机器翻译已经开始改变人们识别、获取和利用信息的方式。
NLP的发展可以被描述成三波主要的浪潮:理性主义、经验主义和深度学习。在第一波浪潮中,理性主义方法依赖于手工设计规则,来将知识加入到以人类大脑中的语言知识是通过继承而来,是固定不变的,为前提假设的NLP系统中。在第二波浪潮中,经验主义方法假设丰富的感官输入以及可观察的语言数据表现形式是必需的,并且足以使得人类的大脑习得自然语言复杂的结构体系。结果就是,为了从大型语料库中发现语言的规律性,我们开发了概率模型。在第三波浪潮中,深度学习受到生物神经系统从语言数据中学习到内在表示的启发,运用了非线性的多层级模型来作为模拟人类认知能力的方法。深度学习和自然语言处理的交叉的结果就是,在许多实际任务中取得了显著的成果。语音识别是第一个受到深度学习强烈影响的工业级NLP应用,通过利用大规模训练数据,深度神经网络相比与传统方法,识别误差显著降低。另一个深度学习在NLP领域突出的成功应用是机器翻译。利用神经网络对人类语言之间的映射进行端到端的神经机器翻译已被证明可以大大提高翻译质量。因此,神经机器翻译迅速成为谷歌、微软、FaceBook、百度等大型技术公司主要商业在线翻译服务应用的新技术。许多其他NLP领域,包括语言理解与对话、词法分析与解析、知识图谱、信息检索、文本问答、社会计算、语言生成以及文本情感分析,在这第三波NLP浪潮中都通过使用深度学习取得了显著的提升。时至今天,深度学习成为了应用于几乎所有NLP任务的统治方法。
本书的主要目的是提供一个深度学习应用于NLP近期发展的综合性概述,面向以NLP为中心,目前最先进的深度学习研究。并且聚焦于深度学习在NLP主要应用上,诸如:口语理解、对话系统、词法分析/解析、知识图谱、机器翻译、问答系统、情感分析、社会计算以及自然语言生成(根据图像)所扮演的角色。本书适合于具有计算技术背景的读者,包括研究生、博士后研究人员、教育工作者、工业界研究人员以及任何想要跟上与NLP相关最新深度学习技术之人。
本书分为十一章:
第一章首先回顾了NLP的基础知识以及本书中接下来的章节中涉及的NLP的主要范围,接着深入探讨自然语言处理的历史发展,总结为三大浪潮和未来方向。随后,在第2-10章,关于深层学习应用于NLP的最新进展的深入调研被分成九个单独的章节,每个章节覆盖NLP的一个基本独立的应用领域。每一章的主体都是由在各个领域积极工作的主要研究人员和专家所撰写的。
本书的起源是2016年10月在中国山东烟台举行的第15届中国计算语言学全国会议(CCL 2016)上提供的一套综合性教程,我们双方都是本书的编辑,积极参与并担任主要角色。
我们感谢我们的Springer Nature的高级编辑Celine 常兰兰博士,她亲切地邀请我们写下这本书,并且提供了许多及时的帮助来完成这本书。我们还要感谢斯普林格的助理编辑简·李,她在准备稿件的各个阶段提供了宝贵的帮助。
我们感谢在第2-10章投入宝贵时间来准备这些章节内容的所有作者:Gokhan Tur,Asli Celikyilmaz,Dilek Hakkani-Tur,车万翔,张岳,韩先培,刘知远,张家俊,刘康,冯岩松,唐都钰,张梅山,赵鑫,李晨亮,以及何晓冬。第4-9章节的作者是CCL2016的演讲者,他们花了相当多的时间更新讲材,介绍自2016年10月以来该领域的最新进展。
此外,我们感谢许多评论家和读者,Sadaoki Furui、Andrew Ng、Fred Juang、Ken Church、王海峰和张宏江,他们不仅给了我们许多必要的鼓励,而且还提供了许多建设性的意见,大幅地改进了早期的草稿。
最后,我们感谢我们的组织,微软研究院及Citadel对冲基金(邓力)和清华大学(刘洋),他们为我们完成这本书提供了非常棒的环境、支持和鼓励。刘洋还获得国家自然科学基金(No.61522204, No.61432013, 和No.61331013)的资助。
美国西雅图 邓力
中国北京 刘洋
2017年10月
1 深度学习与自然语言简介 ···································································· 1
邓力,刘洋
2 对话理解中的深度学习 ········································································ 23
Gokhan Tur,Asli Celikyilmaz,何晓东,Dilek Hakkani-Tür,刘洋
3 语音与文本对话系统中的深度学习 ························································ 49
Asli Celikyilmaz,邓力,Dilek Hakkani-Tür
4 语法词法分析与解析中的深度学习 ························································ 79
车万翔,张岳
5 知识图谱中的深度学习 ······································································· 117
刘知远,韩先培
6 机器翻译中的深度学习 ······································································· 147
刘洋,张家俊
7 问答系统中的深度学习 ······································································· 185
刘康,冯岩松
8 情感分析中的深度学习 ······································································· 219
唐都钰,张梅山
9 社会计算中的深度学习 ······································································· 255
赵鑫,李晨亮
10 看图说话中的深度学习 ······································································· 289
何晓冬,邓力
11 尾声:深度学习时代的NLP边界 ··························································· 309
邓力,刘洋
词汇表 ································································································ 327
AI Artificial intelligence 人工智能
AP Averaged perceptron 平均感知器
ASR Automatic speech recognition 自动语音识别
ATN Augmented transition network 扩充转换网络
BiLSTM Bidirectional long short-term memory 双向长短期记忆网络
BiRNN Bidirectional recurrent neural network 双向循环记忆网络
BLEU Bilingual evaluation understudy 双语评价研究
BOW Bag-of-words 词袋模型
CBOW Continuous bag-of-words 连续词袋模型
CCA Canonical correlation analysis 典型关联分析
CCG Combinatory categorial grammar 组合范畴语法
CDL Collaborative deep learning 协作式深度学习
CFG Context free grammar 上下文无关语法
CYK Cocke–Younger–Kasami CYK算法
CLU Conversational language understanding 对话理解
CNN Convolutional neural network 卷积神经网络
CNNSM Convolutional neural network based semantic model 基于语义模型的卷积神经网络
cQA Community question answering 对话式问答
CRF Conditional random field 条件随机场
CTR Collaborative topic regression 协同话题回归
CVT Compound value typed 复合值类型
DA Denoising autoencoder 自编码器去噪
DBN Deep belief network 深度置信网络
DCN Deep convex net 深度凸网络深度卷积网络
DNN Deep neural network 深度神经网络
DSSM Deep structured semantic model 深度结构化语义模型
DST Dialog state tracking 对话状态跟踪
EL Entity linking 实体链接
EM Expectation maximization 最大期望值算法
FSM Finite state machine 有限状态机
GAN Generative adversarial network 对抗生成网络
GRU Gated recurrent unit 门控循环单元
HMM Hidden Markov model 隐马尔可夫模型
IE Information extraction 信息抽取
IRQA Information retrieval-based question answering 基于检索的问答系统
IVR Interactive voice response 交互式语音应答系统
KBQA Knowledge-based question answering 基于知识的问答系统
KG Knowledge graph 知识图谱
L-BFGS Limited-memory Broyden–Fletcher–Goldfarb–Shanno L-BFGS算法
LSI Latent semantic indexing 潜在语义索引
LSTM Long short-term memory 长短期记忆网络
MC Machine comprehension 机器理解
MCCNN Multicolumn convolutional neural network 多列卷积神经网络
MDP Markov decision process 马尔科夫决策过程
MERT Minimum error rate training 最小错误率训练
METEOR Metric for evaluation of translation with explicit ordering 显式排序翻译评价指标
MIRA Margin infused relaxed algorithm 边缘注入松弛算法
ML Machine learning 机器学习
MLE Maximum likelihood estimation 最大似然估计
MLP Multiple layer perceptron 多层感知机
MMI Maximum mutual information 最大互信息
M-NMF Modularized nonnegative matrix factorization 模块化非负矩阵分解
MRT Minimum risk training 最低风险训练
MST Maximum spanning tree 最大生成树
MT Machine translation 机器翻译
MV-RNN Matrix-vector recursive neural network 矩阵向量递归神经网络
NER Named entity recognition 命名实体识别
NFM Neural factorization machine 神经分解机
NLG Natural language generation 自然语言生成
NMT Neural machine translation 神经分解机
NRE Neural relation extraction 基于神经网络的关系抽取
OOV Out-of-vocabulary 词汇剔除算法
PA Passive aggressive 主动攻击算法
PCA Principal component analysis 主成分分析
PMI Point-wise mutual information 逐点互信息
POS Part of speech 词性
PV Paragraph vector 段落向量
QA Question answering 问答系统
RAE Recursive autoencoder 递归自编码器
RBM Restricted Boltzmann machine 受限玻尔兹曼机
RDF Resource description framework 资源描述框架
RE Relation extraction 关系抽取
RecNN Recursive neural network 递归神经网络
RL Reinforcement learning 强化学习
RNN Recurrent neural network 循环神经网络
ROUGE Recall-oriented understudy for gisting evaluation 面向召回的效果评估研究
RUBER Referenced metric and unreferenced metric blended evaluation routine 引入衡量和不引入衡量的混合评价模型
SDS Spoken dialog system 口语对话系统
SLU Spoken language understanding 口语理解
SMT Statistical machine translation 统计机器翻译
SP Semantic parsing 语义分析
SRL Semantic role labeling 语义角色标注
SRNN Segmental recurrent neural network 切片循环神经网络
STAGG Staged query graph generation 分阶查询图生成
SVM Support vector machine 支持向量机
UAS Unlabeled attachment score 未标记依附分数
UGC User-generated content 用户产生内容
VIME Variational information maximizing exploration 变分信息最大化探索
VPA Virtual personal assistant 虚拟私人助理
=====================================================================
译者注:
主要参与作者:
何晓东
何晓东博士是京东AI研究院常务副院长、深度学习及语音和语言实验室主任。他于 1996 年获得清华大学(北京)学士学位, 1999 年获得中国科学院(北京)硕士学位, 并于2003获哥伦比亚大学博士学位。他的研究兴趣主要集中在人工智能领域,包括深度学习,自然语言,计算机视觉,语音, 信息检索和知识表示。
加入京东之前,何晓冬博士就职于美国微软雷德蒙德研究院,担任主任研究员(Principal Researcher)及深度学习技术中心(DLTC)负责人,同时在位于西雅图的华盛顿大学兼任教授、博士生导师。微软在2018年1月推出的人工智能绘画机器人正是出自何晓冬团队的作品。
车万翔
哈尔滨工业大学计算机学院副教授、博士生导师。斯坦福大学访问学者,合作导师Christopher Manning教授。现任中国中文信息学会计算语言学专业委员会委员、青年工作委员会副主任;中国计算机学会高级会员、YOCSEF哈尔滨主席。主要研究领域为自然语言处理,在ACL、EMNLP、AAAI、IJCAI等国内外高水平期刊和会议上发表学术论文40于篇,其中AAAI 2013年的文章获得了最佳论文提名奖,出版教材 2 部,译著 2 部。
目前承担国家自然科学基金、973等多项科研项目。负责研发的语言技术平台(LTP)已被600余家单位共享,提供的在线“语言云”服务已有用户1万余人,并授权给百度、腾讯、华为等公司使用。2009年,获CoNLL国际多语种句法和语义分析评测第1名。2016年获黑龙江省科技进步一等奖;2015和2016连续两年获得Google Focused Research Award(谷歌专注研究奖);2012年,获黑龙江省技术发明奖二等奖;2010年获钱伟长中文信息处理科学技术奖一等奖、首届汉王青年创新奖等多项奖励。
张岳
新加坡科技设计大学助理教授。获清华大学计算机科学与技术学士学位,牛津大学计算机科学硕士和博士学位。2012年加入新加坡科技设计大学之前,曾在英国剑桥大学担任博士后研究员。对自然语言处理、机器学习和人工智能有浓厚的研究兴趣,主要从事统计句法分析、文本生成、机器翻译、情感分析和股票市场分析的研究。任ACM/IEEE TALLIP副主编及COLING 2014、NAACL 2015、EMNLP 2015、ACL 2017和EMNLP 2017的程序委员会领域主席和IALP 2017的程序委员会主席。
刘知远
刘知远,清华大学计算机系副教授、博士生导师。主要研究方向为表示学习、知识图谱和社会计算。2011年获得清华大学博士学位,已在ACL、IJCAI、AAAI等人工智能领域的著名国际期刊和会议发表相关论文60余篇,Google Scholar统计引用超过2700次。承担多项国家自然科学基金。曾获清华大学优秀博士学位论文、中国人工智能学会优秀博士学位论文、清华大学优秀博士后、中文信息学会青年创新奖,入选中国科学青年人才托举工程、CCF-Intel青年学者提升计划。担任中文信息学会青年工作委员会执委、副主任,中文信息学会社会媒体处理专委会委员、秘书,SCI期刊Frontiers of Computer Science青年编委,ACL、COLING、IJCNLP领域主席。
韩先培
韩先培,博士,中国科学院软件研究所基础软件国家工程研究中心/计算机科学国家重点实验室副研究员。主要研究方向是信息抽取、知识库构建、语义计算以及智能问答系统。在ACL、SIGIR等重要国际会议发表论文20余篇。韩先培是中国中文信息学会会员,中国中文信息学会语言与知识计算专业委员会秘书长及中国中文信息学会青年工作委员会委员。
张家俊
张家俊于中科院自动化所获得博士学位,现任中科院自动化所模式识别国家重点实验室副研究员,中国科学院青年创新促进会会员。研究方向为自然语言处理、机器翻译、跨语言文本信息处理、深度学习等。现任人工智能学会青年工作委员会常务委员、中文信息学会计算语言学专委会和青年工作委员会委员。在国际著名期刊IEEE/ACM TASLP、IEEE Intelligent Systems、ACM TALLIP与国际重要会议AAAI、IJCAI、ACL、EMNLP、COLING等发表学术论文40余篇。曾获PACLIC-2009、NLPCC-2012(2017)和CWMT-2014最佳论文奖。2014年获中国中文信息学会“钱伟长中文信息处理科学技术奖”一等奖(排名第三)。2015年入选首届中国科协“青年人才托举工程”计划。
刘康
刘康,博士,现任中科院自动化所模式识别国家重点实验室副研究员,西安电子科技大学客座教授。研究领域包括信息抽取、网络挖掘、问答系统等,同时也涉及模式识别与机器学习方面的基础研究。在自然语言处理、知识工程等领域国际重要会议和期刊发表论文九十余篇(如TKDE、ACL、IJCAI、EMNLP、COLING、CIKM等),获得KDD CUP 2011 Track2 全球亚军,COLING 2014最佳论文奖,首届“CCF-腾讯犀牛鸟基金卓越奖”、2014年度中国中文信息学会“钱伟长中文信息处理科学技术奖-汉王青年创新一等奖”、2015、2016 Google Focused Research Award等。
冯岩松
冯岩松,北京大学计算机科学与技术研究所讲师。2011年毕业于英国爱丁堡大学,获得信息科学博士学位。主要研究方向包括自然语言处理、信息抽取、智能问答以及机器学习在自然语言处理中的应用;研究小组已连续三年在面向结构化知识库的知识问答评测QALD中获得第一名;相关工作已发表在TPAMI、ACL、EMNLP等主流期刊与会议上。作为项目负责人或课题骨干已承担多项国家自然科学基金及科技部863计划项目。分别在 2014 和 2015 年获得 IBM Faculty Award。
唐都钰
唐都钰,微软亚洲研究院自然语言计算组研究员,主要从事包括智能问答、语义理解、常识推理等在内的自然语言处理基础研究。唐都钰博士论文题目为《基于表示学习的文本情感分析研究》获2016年中国中文信息学会优秀博士学位论文奖。
张梅山
张梅山,新加坡科技与设计大学,博士后研究员。张梅山博士分别于2004年、2008年和2014年获得中国地质大学(武汉)物理学学士、中科院软件所计算机应用技术硕士和哈尔滨工业大学计算机应用技术博士学位,目前任职新加坡科技与设计大学博士后研究员。近年来发表各类论文23篇,其中,AAAI、ACL、EMNLP、COLING等领域顶级会议论文11篇。目前的主要研究兴趣为自然语言处理、情感分析和深度学习。
赵鑫
赵鑫,中国人民大学信息学院副教授,近五年内在国内外著名学术期刊与会议上发表论文近60篇,其中包括信息检索领域顶级学术期刊ACM TOIS和学术会议SIGIR、数据挖掘领域顶级学术期刊IEEE TKDE/ACM TKDD和学术会议SIGKDD、自然语言处理顶级会议ACL/EMNLP/COLING。
所发表的学术论文取得了一定的关注度,据Google Scholar统计(搜索 Wayne Xin Zhao),已发表论文共计被引用近1800次。担任多个重要的国际会议或者期刊评审。目前承担国家自然科学基金青年项目一项和北京市自然科学基金面上项目一项,以及横向项目多项。
李晨亮
李晨亮,男,博士,副教授, 硕士生导师,2013年毕业于新加坡南洋理工大学计算机工程学院,获博士学位。同年由武汉大学计算机学院引进,获得优秀青年骨干教师启动资金。2015年入选武汉大学珞珈青年学者。研究兴趣包括信息检索、数据挖掘(文本挖掘)、自然语言处理、机器学习和社交媒体分析。
其主要科研成果已先后发表在国际顶级学术期刊和会议上;担任中国中文信息学会青年工作委员会委员、社交媒体专委会委员、信息检索专委会委员。作为骨干成员参与新加坡教育部科学基金项目1项,新加坡国防部科技项目1项。2016年指导硕士生在CCF-A类会议SIGIR2016上发表长文论文一篇,并获大会最佳学生论文提名奖(Best Student Paper Award Honorable Mention)