https://www.toutiao.com/a6663025237497479692/
出品 | AI科技大本营(ID: rgznai100)
今天给大家介绍一位斯坦福博士毕业生的传奇人生。
她的一篇名为“Neural Reading Comprehension and Beyond”的博士论文火了。
在论文提交后的短短四周内就获得了超过 2700 的查阅量,她就是 90 后美女学霸陈丹琦。
https://cs.stanford.edu/~danqi/
小姐姐籍贯湖南长沙,小学三年级起学习奥数,从小就对数学有着特殊的天赋;中学就读于”百年老校“雅礼中学,期间,陈丹琦又迷上了信息学;高中时,便获得了国际信息学奥林匹克金奖,还上了当年的新闻,成为湖南省第一位入选信息学国家队的女选手,被媒体称作“透着周笔畅似的微笑”的女生。
在此期间,她还提出了 CDQ 分治算法,以及插头 DP(轮廓线动态规划)。
随后她又进入了清华学堂计算机科学实验室(姚班),并在毕业时荣获清华大学 2012 届优秀本科毕业论文,以及姚期智院士亲自颁发的获奖证书的殊荣。
而这仅仅只是她在算法/数据结构和理论计算机科学方面。之后,在斯坦福大学学习的六年多的时间里,新的研究领域正向她打开……
期间,她还担任过:
目前,陈丹琦正访问美国西雅图的 Facebook AI Research 和华盛顿大学,主要研究方向是深度学习在自然语言处理中的应用,尤其是文本理解和知识表示/推理之间的交叉领域。
据悉,2019 年秋季,陈丹琦将加入普林斯顿大学计算机科学系担任助理教授。
她的求学经历、成长历程无不彰显出她的”学霸“气质,然而在她的成长历程中,她却一直心怀感谢。她的父亲,是当年国防科大的数学副教授。对于父母,她心怀感恩,值得骄傲。
http://theory.stanford.edu/~yuhch123/
她的爱人,俞华程,与她一同毕业姚班,进入斯坦福攻读算计博士学位,仅用 4 年时间便发表数篇重要论文提前毕业,现于哈佛大学做博士后。对于爱人,她感念他儿时起的十多年陪伴,钦佩他的“谦逊、专注、聪慧与努力”。
当然,此次她最要首先感谢的就是她的博士论文指导老师、斯坦福大学语言学和计算机科学教授 Christopher Manning。要知道在计算机领域,博士毕业的难度可想而知。
作为斯坦福人工智能实验室(SAIL)小组成员之一的 Chris Manning,在自然语言领域多有建树,其主讲的斯坦福 CS224n 课程(期间陈丹琦也作为助教),与李飞飞的 CS231n 同为自然语言处理和计算机视觉领域的“必修课”。
去年 11 月,Chris 也成为斯坦福实验室的新负责人,与回归斯坦福的李飞飞开始新的合作。
那么,Chris 与爱徒陈丹琦是否会成为下一个自然语言处理界的”李飞飞与李佳的 CP“呢?
下面,我们试图透过陈丹琦的博士毕业论文”Neural Reading Comprehension and Beyond“,了解她目前在自然语言处理领域的成果。
Christopher Manning 评论称:“陈丹琦是采用神经网络进行自然语言理解的先驱。她的这个模型简单、干净、成功率高,吸引了不少人的关注。”
该篇论文主要讨论了“人工智能中最难以琢磨且长期存在的挑战之一”:教机器如何理解人类语言。通过改进性能,通过验证和推广的模型以及问答系统的潜在应用以推进自然语言处理技术的方法。
论文链接:https://stacks.stanford.edu/file/druid:gd576xb1833/thesis-augmented.pdf
以下为论文摘要及论文框架部分(AI科技大本营做了不改变原文的翻译):
摘要
教机器理解人类语言文本是人工智能所面临的最困难、长期存在的挑战之一。而本文探讨的就是阅读理解问题:如何建立一种计算机系统,使其能真正的读懂文本并回答问题。一方面,我们认为阅读理解是评价计算机系统对人类语言理解能力的一项重要指标。另一方面,如果真的可以构建高效的阅读理解系统,那么这将成为自动问答和对话系统应用落地的关键技术。
这篇论文专注于神经阅读理解,一类基于深度神经网络的阅读理解模型。与稀疏的、手动的、基于特征的传统模型相比,这种端到端神经模型被证明在学习丰富语言现象方面更有效,在现代阅读理解的各项指标上都有大幅度的提升。
论文主要由两部分组成。第一部分主要分析神经阅读理解的本质,介绍在建立有效的神经阅读理解模型中我们所做的努力,更重要的是理解神经阅读理解模型实际中学到了什么,以及要解决当前的任务模型理解深度需要达到什么程度。我们还总结了这一领域的最新进展,讨论了未来的发展方向和有待解决的问题。
在第二部分,我们探讨的是如何把神经阅读理解模型的最新研究成果应用在实际中。为此,我们探索了两个新课题:
(1)如何将信息检索技术与神经阅读理解相结合,解决大规模开放域问题的问答;
(2)如何基于阅读理解模型从目前的单向制问答方式转变为对话式的问答系统。我们把这些方法应用在 DRQA 和 COQA 项目中,并证明了其有效性。我们相信,未来这些方法在语言技术领域中将会有很大的发展前景。
(第一部分)
第二章主要阐述了阅读理解任务的历史与近年发展概况。然后定义了问题公式与主要分类,并简短讨论阅读理解与通用问题回答间的区别;最后,探讨近年来神经阅读理解由大规模数据集和神经模型两者带来的成功。
第三章内容主要基于她们自己的研究工作。先介绍了神经阅读理解的全部模型。从非神经网络方法,基于特征分类的方法开始,讨论它们与端到端的神经方法有哪些区别。然后到神经网络方法,介绍了她们自己的提出的方法“THE STANFORD ATTENTIVE READER ”,以及此方法应用到 CNN/DAILY MAIL 和 SQUAD 两个代表性数据集上的实验结果。更重要的是还深入分析了神经网络模型之所以有更好的理解能力到底学习了什么。最后,总结了近年来神经阅读理解模型在不同方面取得的进展。
第四章主要探讨了关于这个领域未来的研究工作于开放性研究问题。
(第二部分)
第五章中,我们将开放域问答任务视为阅读理解的应用之一。如何将高性能的神经阅读理解系统与有效的信息检索技术结合,构建新一代开放域问答系统。同时以我们的研究工作为基础,介绍了 DRQA 系统,包括其关键部分与如何为其构造训练数据,并对其在多个任务基准中进行评估。从而探讨 DRQA 系统的局限性与未来的工作方向。
第六章研究了对话式问答系统,即机器必须理解一段文字内容后回答对话中出现的一系列问题。在简要回顾对话系统相关论文后发现,构建信息搜寻对话主体的关键是对话问答。之后对 CoQA 进行了介绍,一个为对话问答系统构建的新颖数据集,从文本段落的 8k 对话中收集的 12.7 万个问答与答案,对此进行深度分析与构建几个模型。基于我们 2019 年现阶段的一些工作,我们也对此领域的未来方向进行了探讨。
最后在第七章进行论文的总结。
或许当你读到这里,你或许已对陈丹琦过去的精彩人生感到羡慕,对她目前的学术成果有所赞赏,但或许你不知道的是:
在她走出国门留学海外的生涯里,遇到过多少的难题和挫折?
例如同为 Chris Manning 学生的齐鹏,与陈丹琦同来自清华,也是个相当的厉害人物
2012 年,齐鹏以 89.9% 的GPA(Top 5)从清华毕业。
同年,在多哈举办的 2012 神经信息处理国际会议上,齐鹏与其指导老师胡晓林,中科院院士、计算机系教授张钹共同撰写的论文《用于建模视觉皮层V2区神经元的层次化K-均值算法》(Hierarchical K-Means Algorithm for Modeling Visual Area V2 Neurons)获得最佳论文奖。
2013 年,齐鹏成为吴恩达的学生,在斯坦福继续深造。
2015 年,齐鹏在 Chris Manning 的指导下攻读博士学位期间,除了曾与陈丹琦共同发 Paper 之外,还做了其他工作:
比如两人最新发表的文章,就介绍了斯坦福大学 NLP 组推出的最新的机器阅读数据集——CoQA 和 HotpotQ。
虽然,陈丹琦和齐鹏都属于天之骄子,但读博历程向来艰辛,特别是在另一个陌生语言的国度。
正如陈丹琦在博士论文的致谢里所写:
“按照要求,我得在斯坦福修 5 门英语课程,对这个国家也知之甚少,甚至从未听说过”自然语言处理“这一概念。
从结巴的英语,到 156 页的英语论文,其中艰辛可想而知。
而齐鹏在读博之前还动手翻译了 Philip J. Guo 的回忆录《The Ph.D. Grind》,这本书记述了从 2006 年到 2012 年 Philip J. Guo 在斯坦福⼤学攻读博⼠研究⽣期间六年的求学经历,可见齐鹏在决定读博之前必然做了很多心理准备。
在”译者序“里,齐鹏写道:
“借原作者致礼的这句话,再次表达对他们的敬意:献给所有热爱创造的⼈。“
链接:file:///Users/Mryong/Downloads/phd-grind-chn.pdf