最后一课——自然语言处理(NLP)

      《最后一课》,都德著名的一篇短篇小说,在我国已成为“爱国主义”,不做亡国奴的代名词。(据一些资料表明,《最后一课》实际上代表了法国的核心利益,阿尔萨斯原本就是德国的土地,后被法国占领,普法战争法国战败,阿尔萨斯被归还给德国,其实该地区说法语的人口只占5%。这有点侵华日军战败却遗憾不能在中国的领土上说日语的感觉。)本文引用《最后一课》作为标题,只是取其字面意思。

       来哈工大两个月有余,过着幼儿园一般的单纯生活。不一定准时上课,但一定准时下课。上的课不少,逃的课亦不少。逃课的理由只有一种,那就是确实不想去;而上课的理由却有千百万种:或是老师点名,或是要交作业,或是想知道考试方式,再或是这门课不去听一定无法通过,再再或是我真的从这门课中学到了一点点知识。说来惭愧,还真有这么一门我没有缺席过,也从没想过要逃的课程——关老师讲授的自然语言处理。

        自然语言处理,顾名思义,用计算机处理人类的语言。我的研究方向虽然待定,但肯定和NLP差的十万八千里。开学选课之时,自己并没有考虑太多,只是由于本科期间曾涉及过文本分类方向的一些皮毛,深感NLP是计算机与人类交互的最高境界,出于这样一种盲目崇拜,选择了此门课。十余周下来,关老师介绍了一些关于NLP的基础知识和模型,着重介绍了音字转换系统的实现,即拼音输入法(哈工大开发了各位电脑中的微软拼音输入法,关老师也参与其中)。个人觉得,关老师对于某些定理及算法的阐述并不到位,甚至只是一笔带过,致使很多讲过的东西如浮云一般,飘过而已。但这并不阻碍我对他的崇敬,每个人都有其讲授知识的方式,言传身教也并非研究生教育的最好方式。关老师在课上不止一次的强调研究生已不是知识的接受者,而是知识的发现者与创造者,导师所起的作用仅仅是指导学生如何做学问,做什么样的学问,如何才能少走弯路。古人云,师者,传道授业解惑也。小学到本科的老师可能着重于授业解惑,而研究生导师更侧重于传道,至于授业解惑的重任还是交给书籍、论文和网络吧。我虽不是关老师的学生,但从他对知识求是的态度,不失幽默的表述,敢于承认失败的勇气和语重心长的建议,我感觉到一位长者、智者和传道者的存在。

        时间飞逝,很快就到了最后一节课,按照事先的约定,关老师给我们做了《一篇文章的诞生》——一位科研工作者近年来的一些经历与感悟这样一份报告。课前,我私下人肉了关老师,了解到他博士毕业于哈工大,博士期间参与了与微软和日本什么公司的合作,有着丰富的工程经验和技术积累,博士毕业后他来到香港科技大学参与了问答式搜索引擎的研发,后又回到哈工大任教,40岁上到了教授博导,他本人及其背后强大的工大NLP团队在国内学术界有一定影响力。近期在他的指导下,该团队针对iPadiPhone等苹果设备研发了智能拼音语句输入法——WI输入法,据说取得了不错的反响(这里算是一个广告,有苹果系列产品的朋友可以试用)。以下的一些感悟是我根据他的报告整理而成,其中也有一些个人见解。

       1.       如何写出一篇真正的好文章?

        一篇真正的好文章不是为了学位、职称、奖金等功利而写,而是有一个好的想法,如骨鲠在喉,不吐不快。文章作者迫切地希望别人都能了解到这样的成果,渴望用这样的成果去影响别人对于问题的看法,帮助别人更好地更有效地从事该领域的研究。一篇好文章,或是能引起同行的共鸣,或是能引起一些讨论,产生一些新的火花。如果一篇文章写出来,自己都不愿意多看,并且知道没什么人会关注,仅仅是为了文章而文章,那对于学术是没有多少意义的。

       2.       一篇好文章的诞生。

       关老师从有想法开始起,到文章的真正发表(IEEE.Trans)经历了8年多的时间,期间经历了初探、布局、奋争、低估、转机和收获几大历程。从文章形成初稿到最后发表亦经历了两年多的时间。写出一篇高水平的文章是需要可持续性的规划和努力的。时至今日,关老师仍然在为这篇文章的理论体系寻找一种机器学习方法支撑该理论。

       3.       做有用户的产品,做留得住的研究。

        如今的研究生入校大多面临两种选择,要么走工程路线,以技术为核心;要么走学术路线,以科学理论为基础。很多做工程的同学往往面临这样的问题,费了很多精力弄出来的产品没有多少用户,只是一个摆设;做理论的同学更是痛苦,理论研究要求完备性,严整性,并且有时脱离实际,只能通过仿真模拟或是一些数学手段评价理论的好坏,因此,创新难度更大。无论是工程也好理论也好,对于选题的把握非常重要。做工程的同学要选择能够广泛应用的技术实现产品,并且要做就做最好的或是有特色的产品,争取最大可能的用户。搞理论的同学要研究能够经得住时间考验的理论,要能给后人留下讨论的空间。当然,上述两个设想都是理想化的,实际研究项目开展后面临的问题是非常多的,很有可能以失败告终,也没有人能预先知道究竟会不会成功。通往成功的道路也许一条,通往错误的道路却有千百万条。如果事先没有规划,甚至都不计结果,很难走对成功的那条路。

        4.       细节决定成败。

       “细节决定成败”时下充斥于各种媒体。的确,千里之堤毁于蚁穴,细节的力量体现在生活中的各个方面,学术道路亦然。关老师虽取得了现今的一些成就,但他也在很多小事情上有过失误。他告诉我们,首先不能年轻气盛,要遵守国际上学术界的规定,对于署名权(idea是谁的就是谁的),著作权,以及学术道德等问题严格规范自己。在一个团队中,要明确自己的需求和身份,不可贪心,要与上司、导师保持良好的关系。因为,一个小的错误就可能耽误一些事情,甚至葬送你的职业生涯。关老师在投稿IEEE.Trans时曾因为换了邮箱失去与编辑部的联系,导致文章晚发表了几个月;也曾因为投稿时忽视了回执,导致投稿失败;更曾因为没有注重英文写作和实验的翔实性,导致文章未被录用。对于我们这些在学术道路上刚刚开头的菜鸟来说,细节更加的重要,这关系到别人对你的第一印象。

        5. 好的机会都是争取来的。

        这句话不确切,但也是事实的反应。的确,有些绝顶厉害的高手还没毕业就坐等被顶级公司签约。也很少有人能做到让一个地方离开了你就无法正常运转,遭受极大损失。大多数情况下,鉴于中国庞大的人才储备,总能找着到代替你的人。因此,别太拿自己当回事,争取可能的机会,或许会有不一样的结果。

        6.直面惨淡的人生与笑看风云淡。

        人面对生活的态度部分决定了其所能达到的高度。我欣赏那种“知道自己不知道”,敢于承认失败,笑看成败的人,即自知,求是,淡定,关老师则是其中一位。老师在他的报告中,总是能一针见血的指出自己的错误在哪里,不足在哪里,毫不遮掩。很多时候他都是略带调侃与自嘲的口吻告诉我们应该如何避免他的失误,这是很多人所无法做到的。对于自己所取得一些成绩,老师以幽默的口吻说道,就算现在什么都不做回家睡大觉,二十年后应该会被学术界所承认。笑对成败并非不看重,而是以一种轻松,娱乐略带自信的心态接受已有结果。

        核心:百折不挠,坚持不懈。

        总结来总结去,不如用老师自己的说法总结他的研究历程,那就是:百折不挠,坚持不懈。百折不挠侧重的是面对挫折的态度,坚持不懈侧重于做事的恒心。对于一个研究人员来说,他所取得的失败远比他收获的成果多得多,因此需要极大的意志力和恒心去战胜困难。关老师的一篇论文,曾因为英文写作不过关,内容不翔实等原因被退稿了数次,造成了他事业上的低谷,屡次被拒之后,老师下定决心提高英文写作水平并重新撰写了论文,然后找专门的英语老师和专业老师逐字修改,一稿形成之后直接投向了代表学科最高水平的期刊IEEE.Trans。论文虽勉强通过Trans一审,但评审专家也提出了很多的意见,老师又闭关三个月完成了论文的二稿,进一步提高了论文的含金量,终于通过了二审,并最终发表。从论文屡次被拒到重写后初稿形成经历了3~4年的时间,论文的修改与发表经历了快两年的时间。人的一辈子能有几个六年呢?有多少人会花上生命中约1/15的时间去做同一件事情呢?

        我本科期间也尝试写过学术论文(当然水平非常低),论文完稿投出去后,经历了大约为时一个月的反复修改,有内容的问题,也有格式排版的问题。那段时期,每天晚上的第一件事就是打开电脑改论文,最后看到自己的论文就想吐。论文成稿后,我就再也没打开过那个word文件看过。虽然论文带来了一些荣誉,但其本质与废纸并无差别。论文之后,因为视觉疲劳、理论水平不足等原因,我失去了对这个领域的兴趣,中断了学习探讨,丧失了继续提高的机会。

         旁注:兴趣使然。

         这一点是关老师报告中未提到的,却亦是非常重要的。实际上,老师对于NLP领域的热爱,无时无刻不在课堂上表现出来。他经常用“美”,“漂亮”,“完美”之类形容姑娘的词来形容公式与模型。提及他的产品和论文,也总是神采奕奕。科研工作者如何能获得成功,很大程度上取决于他发现问题后,有没有强大的兴趣作支撑去解决这个问题。老师在2000年做工程中发现相似度的问题,到0506年论文完稿时才有了比较完备的理论去解释这个问题。而老师同时期遇到的参数自学习问题,时至今日他仍在探索中。

        兴趣是最好的老师。

        再注:分享。

        写论文的目的是发表,发表的目的是让你的观点被广大学者所关注,即分享你的观点。写文档,作报告,写博客的目的其实都是如此。甚至在我看来,写程序也是如此,自己的程序能被别人所引用,修改实现新的功能,发挥更大价值是一件很美好的事情。事实上,开源就是这么一回事。

        如今,愿意分享的人少了。人们更多满足于自己知道了什么,而非我让别人知道了什么。知识是需要交流的,倘若没有西方科学技术这些舶来品,中国肯定无法达到现今的高度。同理,我们在学术上、技术上有的一些成果也需要和别人分享、交流。有的人会认为分享了,别人就都知道了,你的优势就不在了。其实我觉得,评价一个人智慧与否,并不是看我懂的东西比你多多少,而是我能理解你理解不了的东西。

        当今中国不缺乏穷则独善其身的人,缺乏的是达则兼济天下的人。从这点上说,我也感谢老师分享他的一些经历和感悟。

        结语:

        说来耻辱,我坐在电脑旁边将近 7 个多小时,才憋出了这四千个字。高中的语文老师估计又要在心里感谢我了,不用看我的作文为他减少了极大地负担。不过做了自己想做的事情和应该做的事情,花点时间又算什么呢?很多年以后我或许会忘了 NLP 的公式模型,但我不会忘了今天所写下的这些,这就足够了。

你可能感兴趣的:(最后一课——自然语言处理(NLP))