weixin_33721427

机器学习与自然语言处理

一、引言

随着大规模语料库的建设和各种语言知识库的出现，基于语料库的统计机器学习方法进入自然语言处理的视野。多种机器学习方法应用到自然语言处理中来并取得了良好的效果，促进了自然语言处理技术的发展。然而，自然语言处理领域仍然有许多课题尚待探索，为机器学习的研究与应用提供了广阔的舞台。

本文较系统地介绍了自然语言处理中广泛存在的歧义现象的类型、实例和问题，并提供了我们利用机器学习方法解决其中一些问题的实例。本文还引出文学语言对机器学习的挑战性课题，其目的是期望更多的机器学习专家关注自然语言处理领域中的问题，共同努力，使自然语言处理技术朝自然语言理解的方向不断前进。

二、自然语言处理的主攻方向

自然语言处理的流程可以划分为分析和生成两大部分。自然语言生成固然也有很多难题，但几十年来，自然语言处理研究的重点是分析。自然语言分析的关键就是识别与消解自然语言的歧义。人与人的交流由于有共同的知识背景，并且能领会交流的环境和过程，通常不会产生误解。但是，作为语言学研究对象的任何一个语言单位，如词、短语和句子等，如果脱离语境而孤立存在，通常都是有歧义的。当交流在人和机器之间进行时，由于机器尚不具备“背景知识”和“世界知识”，歧义现象就表现得尤为突出。

汉语信息处理很难回避的一个步骤就是把用汉字序列书写的句子切分为词的序列或者说从句子中辨识出词。在这个最基本的步骤中，就存在大量的歧义。例如，仅“白天鹅”这3个汉字组成的序列就存在歧义：是“白/天鹅/”还是“白天/鹅/”？如果这3个字的序列落在更长的汉字序列中，歧义就可能得以消解。

白天鹅飞过来了——白/天鹅/飞/过来/了/ （因为鹅不会飞）

白天鹅可以看家——白天/鹅/可以/看/家/ （家里通常不会养天鹅）

人如何消解歧义呢？当然是根据业已掌握的知识。也可以把这些知识教授给计算机，存储在知识库中，计算机据此也可以消解这样的歧义。但如果“白天鹅”落在“白天鹅在湖里游泳”中，仅依靠存储在人脑或电脑中的静态知识，是不能判定句中的“白天鹅”这3个字应该如何切分的，必须依赖更大的上下文语境。

* 本文相关研究得到国家 973 课题“文本内容理解的数据基础（ 2004CB318102 ）”、国家自然科学基金（ 60773173 ， 60603093 ， 60503071 ）、国家博士后基金（ 20060400027 ）和江苏省社会科学基金（ 06JSBYY001 ）的支持。

动物园里，白天鹅在湖里游泳。——动物园/里/，/白/天鹅/在/湖/里/游泳/。/

白天鹅在湖里游泳，夜晚青蛙在池边鸣唱。

——白天/鹅/在/湖/里/游泳/，/夜晚/青蛙/在/池/边/鸣唱/。/

词语切分确定下来之后，还有歧义。见下例：

老子不在家——老子/不/在/家/

这里的“老子”如果读“lao3zi3”，是指古代的人物；如果读“lao3zi”，则可能指“父亲”，或者指“自己”。以上句子中“子”的读音不同可以造成意义的不同，而同音词也会形成另外的歧义。下面几个例子中“连”的读音是一样的，但词性不同（当然，词义也不同）：

一个连有三个排——“连”是名词，指军队的建制；

我们兄弟心连心——“连”是动词，“连接”的意思；

苹果可以连皮吃——“连”是介词，“带”的意思。

当词语切分和词性标注正确解决之后，还会面临语句结构的歧义。

两个孩子的母亲——两/m 个/q 孩子/n 的/u 母亲/n

——[ [ 两/m 个/q 孩子/n ] 的/u 母亲/n ]

——[ 两/m 个/q [孩子/n 的/u 母亲/n ] ]

(m,q,n,u 分别是数词、量词、名词、助词的代码)

短语中各个词的结合顺序不同，就构成结构不同的短语，意义也就不一样。

再考察下面一组句子及其切分和词性标注的结果，其切分、标注、语句结构都无歧义：

狗熊/n 吃/v 玉米/n
学生/n 吃/v 食堂/n

民工/n 吃/v 大碗/n
显然，动词“吃”与其后面同是宾语的“玉米”、“食堂”、“大碗”的语义关系是不一样的：“玉米”是“吃”的受事（动作所及的对象），“食堂”是“吃”的处所，“大碗”则是工具。又如，同是述补结构的“写完了”、“写累了”、“写满了”、“写全了”中的补语“完、累、满、全”的语义指向也是不一样的：“书稿写完了”、“老师写累了”、“纸写满了”、“要点写全了”。这样的语义指向问题对于计算机理解来说已经非常困难了，但毕竟还可以根据上下文进行分析。而像对

天快要下雨了吧？

这句话的意义的理解，则完全依赖说这句话的人身份和当时的心境：主人希望留客还是在下逐客令。只有对说话者的态度进行揣度分析，才能消解这种语境歧义。

除上述句子内的切词、多音词、词性、词义、句法结构、语义角色等都有歧义现象外，其它语言求解问题，诸如断句（现代汉语尽管有标点符号，确定句法和语义相对完整、又不过长的句子仍是难题）、指代、省略也可归结为歧义问题。

自然语言处理技术的进步总是伴随着计算机系统内的知识库的丰富和发展。然而，人对知识的运用并不局限于已经知道的知识以及单纯的机械计算或逻辑推理，人还会灵活运用旧知识，从而创造出新知识。以下是笔者之一的亲身经历。

曾在飞机上阅读《今日民航》（2001年9月号）上一篇关于“沙漠化”的文章：“几年前由于种植籽瓜有利可图，使大批的种植者就到过渡带来开垦，……在这样的绿洲和沙漠过渡带开垦，极易造成风蚀。”

删节号代表略去的很长的篇幅。开始读删节号之前的第2句话，就是读不懂，朦胧地做了这样的切分：“就”、“就到”、“到”、“到过”、“过渡”、“带”、“带来”、“来”、“开垦”，总是感觉不连贯。无奈，也就放过去了。当读到删节号后的那句话时，“过渡带”这个新词突然被发现，而且很自然地联想到前面那句未能理解的话，现在也豁然理解了。那时笔者第一次接触“绿洲和沙漠过渡带”这样一个新概念，从前笔者的脑海中并没有这样的知识，却突然获取了这个知识，这种情况可不可以说是“顿悟”？这种“顿悟”的机理，计算机可以模拟吗？这一段由不懂到懂的文字显然超出了“未定义词”的范畴，因为“籽瓜”对很多人和机器词典来说或许也是未定义词，但似乎并不像“过渡带”这个新概念那样妨碍对文章的理解。

让计算机理解符合规则（词法、句法、语义）的自然语言的语句和文本已经是十分困难的任务，不同语言单位的各种形态的歧义已经让研究者左支右绌，力不从心。然而，当自然语言处理面对语言中的各种修辞手法时，又会遭遇什么样的困难呢？

三、文学语言对机器学习提出的挑战

记得一位语言学家W. Taubert 曾说过，“自然语言是一套规则加噪声”。这个命题如果不算是一条定律，至少是一种看法。

哪些现象可以看作是噪声？规则能反映形象思维的规律吗？这些问题同样难以界定。

并非所有不合规则和常识的语句都是噪声。在常识范围内，动词“吃”的客体或对象通常是食物。土块不是食物。有报纸曾载，“中国河北省有个老太太吃土块”。显然不能认为这句违背常识的话是混在正常自然语言中的噪声。

文学作品常常采用的一些表现手法更增加了自然语言理解的难度，甚至超越了目前机器理解可能达到的界限。而这些文学表现手法也不能简单地看作是自然语言的噪声。

（1）隐喻和影射

隐喻是修辞学的传统研究内容，运用隐喻是为了提高语言表达效果。作为一种修辞手段，隐喻可以归于文学语言的范畴，但从认知语言学角度观察，隐喻无处不在，因此它又不限于文学语言的范畴。认知语言学甚至认为“隐喻不仅仅是语言修辞手段，而且是一种思维方式——隐喻概念体系。作为人们认知、思维、经历、语言甚至行为的基础，隐喻是人类生存主要的和基本的方式[1]。”在计算语言学领域，特别是在汉语信息处理领域，中国内地学者只是近年来才开始关注“隐喻”的识别和求解[2,3]。不过，语言信息处理要走上自然语言理解的坦途，隐喻是必须逾越的路障。

首先探讨隐喻和歧义的关系。歧义是指对同一个语言形式进行分析或理解时，至少存在两种不同的结果。歧义消解就是对两种以上的可能结果，在特定的语境中选择其中的一种作为答案。歧义的最终消解取决于语境，需要语境分析。机器理解的困难是“由同辨异”。

“这男人是狼”和“那女人是狐狸”这样的话就是隐喻。“男人是狼”本是违反生物分类学常识的，而在自然语言中这种表现形式又是常见的。隐喻符合人的认知机制，说话人利用了“男人”和“狼”的某种共同属性构成含有隐喻的句子，比直接说“男人如何如何”的表现力要丰富得多，听话人“异中求同”，也能够理解说话人想讲什么。对于机器来说，“异中求同”和“由同辨异”一样困难。隐喻也包含有歧义问题，“男人是狼”在不同的语境中也可能表达不同的意思。又如，“男人都是动物”表面上是符合常识的，这句话在不同语境中有歧义，在某个语境中，也可以作为隐喻。隐喻和歧义的复杂关系及其界定还需要进行深入的讨论。

可以根据包含隐喻的语言单位的大小将隐喻划分为词汇级、语句级和篇章级。

从词汇级隐喻开始（以下涉及词义，均参照《现代汉语词典》[4]，但也有一些修改）。像“山头”、“墙脚”、“心田”、“吹牛”、“露马脚”、“吹毛求疵”、“鸡蛋里挑骨头”这样一些些词语，都是借助隐喻形成的。例如，“山头”有两个义项：①山的最高处；②比喻独霸一方的宗派。②显然是隐喻。关于①，这个“山头”也是由隐喻形成的，本体是“山（的最高处）”，喻体是“（人）头”。只是人们已经习惯叫“山头”，词典就不特别指明它是隐喻。“山头”在组成短语时又可以有进一步的隐喻用法，如“他这个人惯于垒山头，作风不正派”。

只要词典（或机器中的词汇知识库）登录了这些词语的各种义项（包括本义或引申的隐喻义），识别和理解这些词语没有特别的困难，其求解技术同歧义消解没有本质的区别。词汇级隐喻也在发展。像“病毒”、“窗口”、“垃圾”这些词，1996年版的《现代汉语词典》的释义都与计算机技术没有关系。由于计算机技术的普及，这些词的新义在社会上的使用日益广泛。2005年版的《现代汉语词典》增加了这些词作为计算机词汇的新义项。这些词都是由隐喻形成的，但把这些词汇加入词典后，对这些词汇隐喻意义的识别就如同词义消歧一样，没有特别之处了。

语句级的隐喻如：“金融风暴”、“知识的海洋”、“郎平是中国女排的铁榔头”、“铁榔头（指郎平）的去向尚未敲定”、“幻想是诗人的翅膀”，等等。“诗人的翅膀”和“幻想是翅膀”已经是隐喻的表现形式，“幻想是诗人的翅膀”则是双重隐喻。

“风暴”、“海洋”、“铁榔头”、“翅膀”都是普通的名词，用在这里使整个语句有了隐喻的意义。普通动词和形容词也可以用于隐喻。像“铁榔头（指郎平）的去向尚未敲定”中的“敲”在这里也是隐喻用法。其它的例子还有“用知识照亮希望”，“热血沸腾，激情燃烧”、“这样处理可以得到漂亮的结果”，等等。

“书要摆在书架上，或者抛几本在地板上，酒杯要摆在桌子上，但算盘却要收在抽屉里，或者最好是收在肚子里。”（鲁迅《病后杂谈》）

这是一个句群。第二个“或者”之前的几句都符合常识。“算盘”作为计算工具自然可以“收在抽屉里”，前面用“但”，会使人感到奇怪。读到“或者最好是收在肚子里”，才会理解“收在肚子里”的“算盘”是个人的想法和打算，当然不便摆在“桌面”上。这样，整个句群的隐喻意义才会显现出来。

“打起黄莺儿，莫叫枝上啼。啼时惊妾梦，不得到辽西。”这首短诗可以作为篇章级隐喻的例子。其中“辽西”喻指古战场，整首诗则反映妻子对在远方征战的亲人的魂牵梦绕。篇章级的隐喻自然更难求解。像鲁迅的《狂人日记》显然不能按字面意义去理解，一定要理解它隐喻什么，影射什么。在这里，影射是要达到的目的，而隐喻只是表现手段。

语言或文章常有弦外之音（这里的“弦外之音”又隐喻“言外之意”），这是最难理解和表达的。弦外之音是否也可看作篇章级隐喻的效果？或许也可看作是语用问题，也就是必须基于语境（狭义的上下文和广义的社会、文化、历史环境）才能消解的歧义。

再看朱庆余的宫中词“寂寂花开闭院门，美人相并立琼轩。含情欲说宫中事，鹦鹉前头不敢言。”诗人想象两个宫女想讲讲贴己话，又恐鹦鹉学舌，泄露机密。计算机即使装备了“鹦鹉会学人说话”的知识，它能理解诗中所反映的宫女的孤寂和胆怯吗？这首诗或许还有更深一层的含义，表现皇宫内院的压抑、沉闷、恐怖、人人自危的生存环境，这样的一层含义，计算机能够通过学习进而理解吗？

文学作品常常表现人物触景生情，如王昌龄的《闺怨》：“闺中×××不知愁，春日凝妆上翠楼。忽见陌头杨柳色，悔教夫婿觅封侯。”为什么×××见了杨柳，就对让丈夫外出竞逐功名起了后悔之心？只在这一首诗中是难以找到答案的，必须了解当时人们的文化背景。以“杨柳”为关键词检索唐诗，找到如下一些诗篇：张九龄的《折杨柳》：“纤纤折杨柳，持此寄情人，一枝何足贵，怜是故园春。”李瑞的《横吹曲辞——折杨柳》：“赠君折杨柳，颜色岂能久，上客莫沾巾，佳人正回首。”令狐楚的《远离别》：“昨日卢梅渡口，整见诸人镇守，都护三年不归，折尽江边杨柳。”还有《送别》：“杨柳东门树，青青夹御河。近来攀折苦，应为别离多。”从这些诗，读者可以了解，唐代人经常把“杨柳”和“离别”、“思念”联系在一起。计算机能不能学到这样的知识？对包含“杨柳”的诗篇进行比较、计算、判别，探求诗篇所表达的情感，进而达到对不同语境中的“杨柳”词义的理解。这是计算语言学正在努力研究的问题[5]。

除了隐喻之外，还有很多的文学表现手法也突破了常规的语法。文学作品是形象思维的结晶，其表现形式自然也需要形象生动，需要标新立异，常常采用夸张、拟人、典故、双关等表现手法，还要照顾韵律、节奏、效果等美学因素，由此造成的真实文本往往有不合语法、违反常识的现象，这些算不算噪声，计算机如何识别、应对和理解？

（2）引用典故

韦庄的《章台夜思》：“清瑟怨遥夜，绕弦风雨哀。孤灯闻楚角，残月下章台。芳草已云暮，故人殊未来。乡书不可寄，秋雁又南回。”乡书和秋雁有何关联？这里引用了古人（《汉书：苏武传》）的雁足传书的故事。

杜牧的《赤壁》：“折戟沉沙铁未销，自将磨洗认前朝。东风不与周郎便，铜雀春深锁二乔。”这里引用了火烧赤壁的大故事，里面又包含了借东风、孙策娶大乔、周瑜娶小乔、曹操建铜雀台等小情节。如果不了解这些历史事件，如何能知道这首诗在说些什么呢？

当代人讲话、写文章也常常引用典故或古诗词。

（3）遣词造句的形象化

（3-1）使用形象化的量词

通常名词与量词的搭配有一定的规则和约定俗成的习惯。为了生动形象，使人印象深刻，

可能故意标新立异，选用其它的词作量词。例如：“灯”是可计数名词，与它搭配的典型量词是“盏”。可是，在下面的报道中：

“雪一程，风一程，灾区雪夜千帐灯。张北县台路沟乡二百来户人家的大圪村，人口近六百人。走进村民赵荣福家的帐篷，几户人正围坐在一台电视机前，收看电视新闻节目。”

“千帐灯”虽然符合“数词+量词+名词”的结构，可是量词用了“帐”，显然不合常规，但又比“盏”要生动，更切合情境。又如，“一钩新月”、“一叶小舟”、“一寸光阴一寸金”中的量词“钩、叶、寸”是很形象的，但都不是通常使用的。

（3-2）词性的变通使用

古汉语中不乏词性变通使用的实例：

晓镜但愁云鬓改

在此，名词“镜”作动词用：“照镜子”。

春风又绿江南岸

在此，形容词“绿”作动词用：“使…变绿”。

当局能肩天下事

读书深得古人心

在此，名词“肩”作动词用：“肩负”。

这里的名词“镜”、“肩”和形容词“绿”都作了动词，固然是受制于古诗、楹联的字数和格律，却也显得紧凑、生动。由此可以看出，词性变通使用的现象在古汉语中已经存在。变通使用得多了、久了，就成了兼类。

（3-3）韵律影响语序，造成不合语法、语义的词序

×××的诗句“春风杨柳万千条，六亿神州尽舜尧。”中的“神州”指中国，何来“六亿中国”？应是“中国的六亿人”。受律诗平仄分布规律的制约，诗人改变了正常语序。

李清照的词：“帘卷西风，人比黄花瘦。”查《现代汉语词典》中动词“卷”，有例句：“风卷着雨点劈面打来”。据此，正常语序“西风卷帘”才好理解。

（3-4）拟声、拟态词

“离离原上草，一岁一枯荣。野火烧不尽，春风吹又生。远芳侵古道，晴翠接荒城。又送王孙去，萋萋满别情。”这里的“离离”指草长垂貌；“萋萋”指草盛貌。

“风萧萧兮易水寒，壮士一去兮不复还。”中的“萧萧”可能是拟声词。“无边落木萧萧下，不尽长江滚滚来”中的“萧萧”、“滚滚”可能是拟态词，也可能是拟声词。这些拟声词、拟态词是很难根据所用的汉字猜想其真正意义的。

（3-5）褒贬色彩转换

“他出国留学不过3年，便‘拐’了一个洋妞回来。”“拐骗”意义的“拐”是贬义词，用在这里只有夸耀、羡慕的意义，完全没有贬义。

正意反说与褒贬色彩转换有点相似。“岭外音书绝，经冬复立春。近乡情更怯，不敢问来人。”（李频：渡汉江）长年流浪在外，好不容易快回到故里了，照常理，本该急切了解家乡近况，此刻却反而不敢打听了，这种心态把太过牵挂的心境，表现得淋漓尽致。

（4）夸张

李白的乐府诗《将进酒》：“君不见黄河之水天上来，奔流到海不复回。君不见高堂明镜悲白发，朝如青丝暮成雪。”讲黄河水的磅礴气势，用头发喻人生，都极其夸张，超出了常识。

（5）双关

（5-1）语义双关

由于语言符号的有限性与自然语言所表现的内容的无限性，自然语言的歧义是固有的，但人们有时还要故意采用歧义表现手段，凸现出待人接物的技巧和语言运用的艺术。一语双关是典型的例证。

“可是匪徒们走上几十里的大山背，他们没想到包马脚的麻袋片全烂掉在马路上，露出了他们的马脚。”（曲波《林海雪原》）

通常，“露马脚”只用其引申义（隐喻）：露出破绽。这里的“露马脚”一语双关：表面上叙述事实，实际上用了隐喻。

“往后的日子，儿子开始在下课后被留下来，开始了他自己说的‘留学’生涯。理由是字写得太丑了，留下来继续学写字。”

通常，“留学”是“留在国外学习”的缩写，约定俗成，中国人“留学”还常让人羡慕。这里将“留下来继续学写字”也紧缩成“留学”，也符合词语缩略的规则，却又明显带有调侃的口气，显得幽默风趣。

以下的例子是歧义的活用 —— 一语双关的例子：

某下岗工人开的理发店的招牌：“从头开始”。其意思一：我的新生活从（剃）头（理发）开始；意思二：下岗不可怕，一切可以从头（重新）做起。表现了理发店主人诙谐的性格，乐观的生活态度。

另一理发店的招牌：“顶上功夫”。其意思一：头（顶）上的手艺——理发；意思二：最棒的手艺。一语双关，用得实在妙！

（5-2）谐音双关

利用音同或音近的条件使词语或句子语义双关，也是一种艺术。古诗如：

“东边日出西边雨

道是无晴（情）却有晴（情）”

这样的谐音双关是耐人寻味的。　　

此外，汉语中的许多歇后语就是利用谐音双关构成的。例如

老虎拉车——谁赶（敢）？

也有兼顾谐音和意义的。某车主在他的后车窗写道：“别吻我，我怕羞（修）！”

意思一：别撞上我，修车挺麻烦的。意思二：别太亲近我，我害羞。语言形象生动，利用谐音双关，风趣幽默。

（6）拟人化

童话故事中的“狼和小羊”的对话惟妙惟肖地刻画了一个霸道者的蛮不讲理和弱小者的聪明善辨。在常识中，无论是狼还是小羊可都不会说人话呀。有的童话故事还浓缩成了一句习惯用语：“狐狸吃不到葡萄说葡萄酸”。

目前不仅自然语言处理的实用技术同识别、理解文学语言的要求尚有很大的距离，而且计算语言学在理论上也没有找到合适的模型。可否借鉴机器学习的理论和方法以及如何借鉴？是否可以围绕文学语言的理解建立一套机器学习的理论和方法？这些问题都值得我们探讨、思考和实践。

四、服务于机器学习的语言资源建设

北京大学计算语言学研究所(ICL/PKU, Institute of Computational Linguistics, Peking University)自1986年成立，至今已有二十多个年头。在这二十余年自然语言处理的实践中，我们深切体会到语言资源和语言知识库在自然语言处理中的重要性。面向自然语言的机器学习，就是要在大规模语料库的基础上训练各种模型的参数；要在各类语言知识库的强力支撑下，完成自然语言各层级的处理任务。而语言知识库建设本身，也就是语言文本中的知识发现，同样可以利用机器学习的各种方法。

二十年来，我们建立起比较齐全的各类语言资源，其中一些已经在国内外机器学习和相关研究中得到广泛的应用。在此基础上，我们先后开展了词法分析、句法分析、语义分析、语用分析、机器翻译、领域知识工程、信息检索、信息抽取、自动问答系统等一系列的研究，积累了一定的经验。到目前为止，已经成形的语言知识库主要有：

（1）现代汉语语法信息词典[6]

（2）大规模现代汉语基本标注语料库[7,8]

（3）大规模现代汉语词义标注语料库[9]

（4）面向汉英机器翻译的现代汉语语义词典[10]

（5）面向跨语言文本内容处理的中文概念词典[11]

（6）英汉、日汉对照双语语料库[12]

（7）多个专业领域的术语库（信息科学技术、体育、商务、旅游、餐饮）[13]

（8）现代汉语短语结构规则库[14]

（9）中国古代诗词语料库[15]

（10）服务于语言知识库建设的各种工具软件

成果（1）是北大语言知识库的第一块基石。它收词8万，依据语法功能优势分布建立了一个面向信息处理的词类体系，完成了8万词语的归类，在此基础上，进而又采用关系数据库文件格式按类描述每个词语的详细的语法属性。成果（2）就是在此基础上开发的，现在已经积累到约6000万汉字的规模。

成果（4）的结构设计参照成果（1），采用同样的知识描述形式，词语条目也是《现代汉语语法信息词典》的子集，记录数约有6万。成果（3）是以成果（4）为基础建立起来的，同时，大规模词义语料库的标注过程，也对《现代汉语语义词典》的完善发挥了巨大的作用。成果（5）参照WordNet, 用同义词词集synset表示概念，目前收入的概念已达到10万。这两部词典从不同侧面描述了汉语词汇的语义知识。由于它们是面向机器翻译以及信息检索、信息提取等跨语言文本处理的，都涉及两种以上的语言，所以它们的每一个词条都有对译的英语词。成果（6）以更大的对译单位（文章、段落、句子、短语）覆盖两种语言。目前对齐了的英汉对照的句子在80万对以上，日汉对照的句子也有2.5万对。

从成果（1）到成果（6）汇集的都是日常生活语言的知识。成果（7）则提供专业知识，这些术语库中的术语都是英汉对照的。另有一部计算语言学的术语库，英、日、德、汉4种语言对照，收入5000多条计算语言学和自然语言处理领域的术语[16]。

从成果（1）到成果（7）聚焦于词汇知识。成果（8）描述的则是句法结构知识，含600多条扩充的上下文无关句法规则。

从成果（1）到成果（8）都是关于现代汉语的。建设“中国古代诗词语料库”的目的是利用在现代汉语信息处理研究中积累的技术和方法开展古代诗词计算机辅助深层研究，同时进行古代汉语和现代汉语的纵向对比研究。

建造语言知识库需要专家知识的投入，也需要工具软件的辅助。ICL/PKU开发的一系列工具软件也是知识库的有机组成部分。成果（10）中包含的“现代汉语词语切分与词性标注软件”、“现代汉语文本注音软件”、“双语语料库构建工具集”具有通用性。为中文概念词典CCD研制的可视化词典辅助构造软件VACOL，对加快CCD的研制进程起了关键作用。以前提供《现代汉语语法信息词典》给用户使用时，只提供数据库本身，现在也开发了功能完善的管理软件，不但操作快速安全，而且为词典的扩充提供了方便。

这些语言数据资源汇集的语言知识及其表述形式独立于特定的语言信息处理系统和实现算法。这种设计理念使得这些知识库得以广泛传播。

从方法论角度考察，这些语言数据资源的建设既采用基于规则的方法，也采用基于统计的方法。“大规模基本标注语料库”及其开发工具“词语切分与词性标注软件”是最典型的例证。而这些语言数据资源的存在又促进了这两种方法的发展和融合。

ICL/PKU 为这些资源的传播提供了便利，所有资源的规格说明书都已经公开发表。“现代汉语词语切分、词性标注、注音软件”的功能可以在网上测试。现在可以从网上[1]下载的资源包括：《现代汉语语法信息词典》的1万个词语的样例数据库；一个月的《人民日报》标注语料库，200多万字；机器翻译评测大纲与例句集；大规模词义标注语料库的部分语料，等等。自2001年5月10日起对《人民日报》语料库下载次数开始进行统计，截至2007年2月28日，已记录了11578下载人次。并且，这个数字仍在不断更新。从1996年以来，以《现代汉语语法信息词典》为龙头的北大语言数据资源通过签订许可使用权协议的方式转让给了国内外的诸多大学、研究院所和公司，遍及美国、法国、德国、英国、瑞典、日本、韩国、新加坡、中国香港、中国台湾以及境内各地。2007年初，ICL/PKU申报的“综合型语言知识库”研究成果通过了教育部组织的技术鉴定。以张钹院士为主任、怀进鹏教授为副主任的鉴定委员会认为：“《综合型语言知识库》开创性地实现了汉语词语的大规模归类与属性描述，很好地处理了基础研究与应用研究的关系，形成了基础资源建设与应用系统开发相互支撑、相互促进的良性模式，其规模、深度、质量和应用效果在我国语言工程实践中是前所未有的。该成果是以汉语为核心的多语言知识库建设中最全面、最重要的研究成果，总体上达到了国际领先水平。”

机器学习的本质是基于数据的学习（Learning from Data）。在自然语言处理中，机器要学习的语言知识的源头是人们使用的话语和创作的文本，现在通常以语料库的形式存放在机器中。从没有经过任何加工的原始语料中，机器就可以学到很多书面语言的知识，例如汉字频度、常用的汉字串（组块）及其频度、汉字串与汉字串的搭配以及搭配强度等，甚至通过聚类方法也可以区分（或者说“辨析”，也是某种意义上的“学习”）词语的义项乃至文本的内容，这类学习可以归于无指导的学习。无指导的学习很重要，人可能主要是通过无指导的学习方式培养自己的学习和处事能力的。但人类社会又强调教育的重要性，教育是有指导的学习。人类借助老师、教材等有指导的方式学到的可能主要是知识。知识不能等同于能力，但是能力的强弱在某种程度上或在某些方面又要依赖于是否具备足够的知识。显然，对于人来说，有指导的学习和无指导的学习缺一不可。我们以为，机器也是一样。原始语料固然包含大量的语言知识，在确定的上下文环境中，其含义和用法也是确定的，机器是可以学到的。但原始语料中语言知识的表现方式却是隐性的，限于当前人工智能的水平（学习能力）或者数据的规模，机器还不容易学到这些知识。需要有人加以指导、点拨。以不同的形式和深度对语料进行加工，就是使隐含的信息显性化。例如，进行了切分的语料，使词的知识显性化了；完成了词性标注的语料，不仅使词的知识显性化，而且使其词性的知识显性化。加工越深，显性化的信息就越多。

语言学家的论著和语文词典是人类语言知识的集大成者。人通过阅读语言学论著和查阅词典学习语言知识，可以收到事半功倍的效果。机器也应该是这样的。不过，面向人的论著和词典，也是当代的计算机理解不了或不便应用的。《现代汉语语法信息词典》，《现代汉语语义词典》和《中文概念词典》这类相当于语文词典的语言知识库都是结构化的，机器就便于利用了。结构化的语言知识库与非结构化的文本中的语言知识构成互补的关系：词汇知识库中关于语言知识的表达都是显性的，但也是静态的，存在“不确定性”（例如：一词多类或一词多义）；在真实的文本语料中，词的每次出现都有一定的语境，其词义、句法功能、语义角色虽然都是确定的，但却是隐性的。要使文本中的语言知识显性化，结构化的语言知识库可以提供必要的支持。

对结构化的语言知识库也可以进行知识挖掘，即结构化的语言知识库也是机器学习可以利用的数据。特别是当把结构化的语言知识库以及基于这些知识库加工的语料库集成到一起，机器可以学到更丰富、更深入的语言知识。

正是基于上述认识，ICL/PKU不仅研制了多种类型的语言知识库，而且力求各类知识库相互补足，形成综合型语言知识库。ICL/PKU利用综合型语言知识库，尝试进行深层次的知识挖掘，已经取得一些成果，例如，词频、带词性的词频、词的（粗/细粒度）义项频度、词的分布均匀度、动词向名词漂移现象以及词与词组合规律的定量描述，等等。这些知识无论对于信息处理，还是对于语言本体研究乃至语言教学都是十分有价值的。

为了让已有的各类语言知识库发挥更大的效益，ICL/PKU正在努力把它们集成到综合型语言知识库系统中[17]。也期望这样的综合型语言知识库系统为机器学习提供一个广阔的舞台。

五、机器学习方法的实践

在 ICL/PKU现有的语言资源的支撑下，我们近期开展了许多研究，这里介绍3个例子：词义消歧研究、文本的情感倾向分析研究和隐喻识别研究。这些研究都使用了机器学习的方法，涉及自然语言处理的各个层面。如果说词义消歧还可以归于语言本体研究的话，那么文本的情感倾向分析则深入到文本所反映的主观褒贬态度，而隐喻的识别则把研究的触角伸向修辞学以及人类语言认知的层面上。

（1）词义消歧研究

一词多义在自然语言中是一个非常普遍的现象。以动词“讲”为例，可以出现在“讲/故事/”和“讲/卫生/”等上下文中。前者的意思是“说”，而后者表示“注意”。

词义消歧（Word Sense Disambiguation, WSD）就是从给定上下文中确定一个多义词的具体意思（sense）。这项研究最早源起于20世纪50年代的机器翻译，目前已涉及自然语言处理的诸多领域，如机器翻译、信息检索、问答系统等。数十年来，针对词义消歧已经提出许多方法，大致可以分为基于规则的方法、基于词典的方法和基于语料库的方法。

目前基于统计学习的主流研究方法是把词义消歧看作典型的分类问题，通过建立词义标注语料库作为训练数据去训练各种分类器，实现对新的上下文中多义词的消歧。WSD可以描述如下：

对具有N个义项的多义词W，记为 S = {s₁, s₂, … , s_n}。W出现在某个确定的上下文C（可以是小句、句子、段落甚至篇章）中，词义消歧的任务就是根据给定的上下文C，在这N个义项中选择一个最合适的义项，记为：

其中，R用来计算每个义项和上下文匹配的程度。

需要指出的是，词义消歧也可以采用自动聚类的方法实现，称为词义区分（Word Sense Discrimination）。虽然也可以缩写为WSD，但这不属于本文讨论的范围（有兴趣的读者可参阅[18]）。以下行文中，若无特别说明，WSD即为词义消歧。

词义消歧不是自然语言处理的一项独立的任务，而且消歧系统性能的评测会因为词义区分的颗粒度、所用语料等的不同而有很大的差异。为了更好地开展研究，国际上于1998年成立了SENSEVAL（[url]http://www.senseval.org[/url]）组织，提供benchmark 数据，开展国际评测。迄今为止已经进行了3届。2007年将进行第4届评测，名称改为SemEval-2007。从名字的改变可以看出，该测评从以往的单纯词义消歧，发展到包括词义消歧和语义角色标注等多个方面的测评。ICL/PKU也提供了一个任务，为评测提供标准语料[19]。从以往的评测结果看，所用分类器包括支持向量机、决策表、决策树、贝叶斯、神经网络、最大熵等分类模型和算法。性能比较好的系统，几乎都采用了集成（Ensemble）学习的策略[20]。

下面将按照数据采集、特征提取和选择、模型选择、训练和性能评估这一机器学习的经典流程来介绍ICL/PKU所做的工作。

(1) 数据采集

对词义消歧而言，数据采集WST（Word Sense Tagging）就是建立大规模、高质量的词义标注语料库，称为词义标注（Word Sense Tagging, WST）。其本身可独立成为一个研究课题，涉及词典选择（词义区分的颗粒度）、语料选择（语料的平衡性和规模）、标注方法（正确性和一致性如何保证）等方面。我们设计了人机互助的高效词义标注语料库建设模式，并积累了一套完整的软件工具。文献[9]详细介绍了词义标注语料库的建设工作。

词典选用ICL/PKU的《现代汉语语义词典》，语料库选择人民日报（词义标注前已经完成词语切分和词性标注），采用机器辅助的人工标注方法。目前已经完成170个动词和796个名词的义项区分和描写，在《人民日报》642万字的语料上标注了76，519个词语的义项编码。这应该是当今规模最大的现代汉语词义标注语料库。

必须指出的是，尽管目前语料库规模比较大，但是对于机器学习来讲仍然是稀疏的，主要表现为多义词的各个义项出现的不平衡。出现在2000年1-3月这三个月人民日报语料中的多义名词有485个，其中只以一个义项出现在语料中的有237个。仅有51% 表现为真正的多义词。义项分布的不平衡，给机器学习带来巨大困难。已经有许多研究人员致力于解决这个问题[21]。

（2）特征提取和选择

英国语言学家J. R. Firth有句名言“观其伴、知其义”。就是说，人通过一个词周围的那些词（也就是这个词的上下文语境）来辨别它的意义。目前的机器学习中，特征选择也主要来自多义词出现的上下文。上下文是一个广义的概念，多义词所在的句子、段落、甚至整个篇章都可以称为上下文。我们的研究仅以多义词所在的句子作为上下文，从中提取和选择特征。以现有的语言资源和处理工具为基础，目前用到的特征主要是词法特征和浅层的语义特征。下面举一个例子来说明，其中多义词为“分子”：

此外/c ，/w 他们/r 还/d 监视/v 恐怖/a 分子/n 可能/v 对/p 两/m 国/n 电脑/n 系统/n 的/u 袭击/v 。/w

词法层特征：包括局部词、局部词性、局部词及词性、局部共现、词袋和搭配。除搭配外，这些特征的获取相对容易，也比较准确。针对上面的例子作如下简单说明：

局部词特征是指把多义词周围窗口大小为n的范围内的词作为特征。若设定窗口大小为3，则特征向量表示为-3=还, W_-2=监视, W_-1=恐怖, W₊₁=可能, W₊₂=对, W₊₃=两>。局部词性是指把多义词周围窗口大小为n的范围内词的词性作为特征。仍以窗口大小为3为例，特征向量表示为-3=d, P_-2=v, P_-1=a, P₊₁=v, P₊₂=p, P₊₃=m>。局部词及词性是指把多义词周围窗口大小为n的范围内的“词+词性”作为特征。上句中词和词性特征向量为<还/ d, 监视/v, 恐怖/a, 可能/v, 对/p, 两/m>。局部共现是指两个（或多个）词同时出现在多义词的窗口。设C_i,j表示一个共现，并且这两个词的位置分别位于距多义词第i个位置和第j个位置。比如：C_-1,1表示多义词的左右紧邻的两个词。共现限于多义词所在的句子范围内。我们取C_-2,-1, C_-1,1, C_1,2, C_-2,1, C_-2,2作为局部共现特征。例句中的共现特征为<监视_恐怖, 恐怖_可能, 可能_对, 监视_可能, 监视_对>。局部共现考察了多义词周围的词的搭配对消歧的影响，是对多义词搭配信息很好的补充。词袋中的词（Bag-of-Word, BOW）是指多义词上下文中所有出现的词，没有位置信息，不包括标点。搭配信息对词义消歧有着重要的作用，许多情况下，仅仅通过搭配就可以直接消解歧义。遗憾的是，在有限的上下文中很难准确地找到搭配词对。

句法层：在我们的特征选择中，尚未加入句法特征。文献[22]的研究表明，和英文相比，加入句法特征后，中文词义消歧的性能提高并不明显。

语义层：这里主要进行了机构名称识别。在现代汉语基本标注语料库中，已经对机构名作了捆绑。比如“阿拉伯国家联盟”，在语料中标记为“[阿拉伯/n 国家/n 联盟/n]nt”。其中nt表明，方括号中的是一个机构名称。

许多研究者认为，特征提取和选择是目前WSD的研究重点[23，24]。我们针对SENSEVAL-3的中文语料，对上下文所开窗口大小对系统性能的影响进行了研究。实验中采用的分类器是SVM-MultiClass工具包（线性核，一次优化）。实验结果如图1所示。从结果中不难看出，当窗口为9时，消歧性能达到最好。

图1：消歧性能随上下文窗口变化的曲线

（3）模型选择和训练

选择支持向量机（Support Vector Machines, SVM）开展研究。支持向量机是近年来机器学习领域非常流行的方法，该方法因其有限样本下良好的推广能力而备受重视。SVM已经在手写体数字识别、人脸识别、文本分类等领域得到了广泛的应用。文献[25]利用支持向量机对英文词义消歧进行实验，结果要优于朴素贝叶斯、决策树、最大熵等方法。

我们在核函数的选择和采用何种多分策略两个方面进行了实验研究[26]。

核函数的选择。考察了SVM各种核函数对词义消歧的影响，选择二十个多义词（每个多义词均为两个义项），选用上面介绍的所有特征，用SVM-light进行实验。通过设置不同的核函数，并且对每种核函数试验各种参数设置，达到最优时各种核函数的实验结果见表1：

表1 利用各种核函数的消歧结果

核函数	参数设置	正确率	训练时间
线性核	无	90.03	96s
多项式核	a=1, b=1, d=7	90.05	356s
RBF 核		86.50	467s
Sigmoid 核	v=2, c=1	81.12	264s

从结果看，如果对核函数参数进行合理的调整，多项式核的效果比其它核的效果要好。但是，多项式核的参数太多，在参数空间中寻找最优的参数设置比较困难。综合各种核函数的参数设置的复杂性、正确率以及时间效率等因素，线性核还是比较理想的选择。

二分到多分的转换。WSD显然是一个多分类问题，因为多义词常常多于两个义项。如何用SVM解决多类别的分类问题，是当前机器学习领域的研究热点之一。目前主要有两类方法：用多个二类SVM构造多类别SVM的方法和一次优化决策的方法。前者又可以分为1对多（1-v-r）、1对1（1-v-1）和有向图三种方法。

针对多义词“想”（共4个义项）分别对上述四个方法进行实验（语料使用2000年1-3月人民日报），结果如表2 ：

表2 利用各种多类别SVM方法的消歧结果

多类别 SVM 方法	正确率	训练时间	测试时间
1-v-1	88.06%	36s	3s
1-v-r	87.12%	70s	9s
有向图 SVM	87.67%	39s	4s
一次优化决策	87.94%	43s	4s

从结果来看1-v-1的方法正确率最高，运行时间也较短。一次优化决策的方法效果也不错，且构造起来比较简单、训练时间也较短。

（4）实验及分析

我们在两组训练数据上进行实验。第一组数据使用SENSEVAL-3中文评测数据（由哈尔滨工业大学提供）。语料共有20个多义词，793个训练实例，379个测试实例。第二组数据是ICL/PKU 的人工标注语料。

在SENSEVAL-3数据集上的实验。实验结果显示最大熵的准确率为62.53%，支持向量机

[1] http ：//icl.pku.edu.cn

转载于:https://blog.51cto.com/nianhongdong/75659

你可能感兴趣的:(机器学习与自然语言处理)

【机器学习与自然语言处理】预训练 Pre-Training 各种经典方法的概念汇总溢流眼泪【科研】机器学习自然语言处理人工智能
【NLP概念合集：一】预训练Pre-Training，微调Fine-Tuning及其方法的概念区别前言请看此正文预训练Pre-Training无监督学习unsupervisedlearning概念：标签PCA主成分分析（PrincipalComponentAnalysis）降维算法LSA潜在语义分析（LatentSemanticAnalysis）降维算法LDA隐含狄利克雷分布（LatentDiri
亚马逊高调入局ChatGPT大战，发布Titan大模型、AI编程助手全免费，CEO：改变所有体验... IT农民工1 chatgpt AI编程人工智能机器学习
MLNLP社区是国内外知名的机器学习与自然语言处理社区，受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。社区的愿景是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进步，特别是初学者同学们的进步。转载自|机器之心新工具叫Bedrock，用于一揽子替代ChatGPT和DALL-E2，并支持了Titan大模型。一夜之间，亚马逊来了个「弯道超车」。在全球各大科技巨头都在拥抱如
基于深度学习技术的智能问答轻雨科技
由于机器学习与自然语言处理技术的显著进步和大规模知识库以及海量网络信息的出现，自动问答系统离实际应用越来越近。然而业界应用和学术研究，问句的真实意图分析、问句与答案之间的匹配关系判别任然是制约自动问答系统性能的两个关键难题。问答系统是信息检索的一种高级形式，它能用准确、简洁的自然语言回答用户用自然语言提出的问题。其研究兴起的主要原因是人们对快速、准确地获取信息的需求。其中问答系统是目前人工智能和自
【知识图谱系列】基于生成式的知识图谱预训练模型 zenRRan 算法机器学习人工智能深度学习数据挖掘
点击上方，选择星标，每天给你送干货！来自：机器学习与自然语言处理本文介绍一篇基于生成式的图谱预训练模型GPT-GNN（KDD2020），介绍GPT-GNN模型核心点和模型思路，完整汇报ppt获取请关注公众号回复关键字：GPT-GNNBACKGROUNDBackground1、GPT/GPT2.0：GPT和GPT2.0是自然语言处理领域的生成式训练模型，预训练阶段通过大量预料进行无监督学习，预训练任
MLNLP2022官宣！第一届机器学习算法与自然语言处理大会开始免费报名，29场报告，60余位学者等你来！... zenRRan
每天给你送来NLP技术干货！由MLNLP社区主办的“第一届机器学习算法与自然语言处理大会”（MLNLP2022）将于2022年11月26日-27日线上召开，智源社区提供在线支持。MLNLP大会旨在为人工智能、机器学习与自然语言处理领域内的学者提供一个学术交流的平台。本届大会内容涵盖高效AI、推荐系统、机器翻译、论文实践、预训练圆桌对话、可信AI、语音处理以及代码智能等8个论坛，期待能够促进国内外机
李航博士的《浅谈我对机器学习的理解》机器学习与自然语言处理数据娃掘机器学习自然语言处理 nlp
算算时间，从开始到现在，做机器学习算法也将近八个月了。虽然还没有达到融会贯通的地步，但至少在熟悉了算法的流程后，我在算法的选择和创造能力上有了不小的提升。实话说，机器学习很难，非常难，要做到完全了解算法的流程、特点、实现方法，并在正确的数据面前选择正确的方法再进行优化得到最优效果，我觉得没有个八年十年的刻苦钻研是不可能的事情。其实整个人工智能范畴都属于科研难题，包括模式识别、机器学习、搜索、规划等
牛逼了同学！一位哈工大在读 NLP 博士积累 28W 粉丝 GitHubDaily
今天只给大家推荐一位博主的公众号【机器学习算法与自然语言处理】，博主忆臻目前在哈工大SCIR实验室读NLP方向博士，该号记录他一直学习以来的笔记总结，干货满满。他的公众号在自然语言处理方向排名第一，机器学习算法方向排名第一，至今写了260多篇高质量原创文章，有28万的粉丝！该平台也成为国内最大的机器学习与自然语言处理分享平台！下面我们来看该号的介绍！国内最大的机器学习与自然语言处理分享平台。28W
【知识图谱系列】知识图谱表示学习综述 | 近30篇优秀论文串讲 zenRRan 算法人工智能知识图谱机器学习编程语言
点击上方，选择星标或置顶，每天给你送干货！来自：机器学习与自然语言处理本文分享一篇知识图谱表示学习汇报ppt，将知识图谱表示学习方法粗略分为四大类，涉及将近30篇优秀论文，只简单介绍其核心思想，完整汇报ppt获取请关注公众号回复关键字：知识图谱表示学习1、翻译距离模型：包括TransH、TransR、TransD、TranSparse、TransM、MianfoldE、TransF、TransA、
深度学习多种模型评估指标学习(结合yolov5) 心如坚石深度学习深度学习
前言感觉自己学习了那么久的深度学习，然而对于模型评估却一直处于迷迷瞪瞪的状态，非常不爽，在加上我看一篇文章的介绍。所以今天我想整理一下。参考文章来源微信公众号——机器学习与自然语言处理。准确率在介绍下面的评估指标时，先明白以下概念，在多类分类问题中，分类结果一般有4种情况:(1)属于类C的样本被正确分类到类C，记这一类样本数为TP(预测正确)(2)不属于类C的样本被错误分类到类C，记这一类样本数为
推荐值得私藏的几个优质公众号漫话编程
高速、巨量的互联网信息流冲击，让我们没法腾出大量的时间去寻找和筛选优质内容，下面是小编经常在看的几个专注于原创的高质量技术公众号。这些公众号有许多优质的行业干货与前沿资讯。大家可以关注一下他们，一起学习。机器学习算法与自然语言处理▲▲▲国内最大的机器学习与自然语言处理分享平台。20W+NLPer聚集地！专注于思维、技术、经验分享交流！既讲原创深度技术、又不失通俗易懂。深度学习这件小事▲▲▲机器学习
DNN/LSTM/Text-CNN情感分类实战与分析 zenRRan
点击上方，选择星标或置顶，每天给你送干货！阅读大概需要21分钟跟随小博主，每天进步一丢丢来自：知乎专栏机器不学习作者:天雨粟整理：机器学习与自然语言处理公众号https://zhuanlan.zhihu.com/p/37978321前言最近把2014年YoonKim的《ConvolutionalNeuralNetworksforSentenceClassification》看了下，不得不说虽然Te
独家对话AAAI、ACM、ACL三会会士Raymond J. Mooney | 香侬专栏 PaperWeekly
专栏介绍：《香侬说》为香侬科技打造的一款以机器学习与自然语言处理为专题的访谈节目。由斯坦福大学，麻省理工学院,卡耐基梅隆大学，剑桥大学等知名大学计算机系博士生组成的“香侬智囊”撰写问题，采访顶尖科研机构（斯坦福大学，麻省理工学院，卡耐基梅隆大学，谷歌，DeepMind，微软研究院，OpenAI等）中人工智能与自然语言处理领域的学术大牛,以及在博士期间就做出开创性工作而直接进入顶级名校任教职的学术新
深入理解L1、L2范数取个名字最难了机器学习正则化 L1范数 L2范数
关于作者作者小硕一枚，研究方向为机器学习与自然语言处理，欢迎大家关注我的个人博客https://wangjie-users.github.io/，相互交流，一起学习成长。前言说起L1、L2范数，大家会立马想到这是机器学习中常用的正则化方法，一般添加在损失函数后面，可以看作是损失函数的惩罚项。那添加L1和L2正则化后到底有什么具体作用呢？为什么会产生这样的作用？本篇博文将和大家一起去探讨L1范数、L
机器学习中的线性代数知识（上）取个名字最难了机器学习机器学习矩阵线性代数
关于作者作者小硕一枚，研究方向为机器学习与自然语言处理，欢迎大家关注我的个人博客https://wangjie-users.github.io/，相互交流，一起学习成长。前言Asallweknow,线性代数对于机器学习的重要性不言而喻。但纵观国内的教材和课程，大部分线性代数的讲解，一上来就堆满了各种定义和公式，从而导致我们知其然而不知其所以然，不利于我们深入理解机器学习的算法。因此，希望本篇博文能
专栏 | 香侬科技独家对话斯坦福大学计算机学院教授Dan Jurafsky PaperWeekly
专栏介绍：《香侬说》为香侬科技打造的一款以机器学习与自然语言处理为专题的访谈节目。由斯坦福大学，麻省理工学院,卡耐基梅隆大学，剑桥大学等知名大学计算机系博士生组成的“香侬智囊”撰写问题，采访顶尖科研机构（斯坦福大学，麻省理工学院，卡耐基梅隆大学，谷歌，DeepMind，微软研究院，OpenAI等）中人工智能与自然语言处理领域的学术大牛,以及在博士期间就做出开创性工作而直接进入顶级名校任教职的学术新
香侬专栏 | 独家对话斯坦福大学计算机系教授Percy Liang PaperWeekly
专栏介绍：《香侬说》为香侬科技打造的一款以机器学习与自然语言处理为专题的访谈节目。由斯坦福大学，麻省理工学院,卡耐基梅隆大学，剑桥大学等知名大学计算机系博士生组成的“香侬智囊”撰写问题，采访顶尖科研机构（斯坦福大学，麻省理工学院，卡耐基梅隆大学，谷歌，DeepMind，微软研究院，OpenAI等）中人工智能与自然语言处理领域的学术大牛,以及在博士期间就做出开创性工作而直接进入顶级名校任教职的学术新
推荐几个（抖音/阿里/腾讯）年薪100W大佬的硬核公众号视学算法
学习如逆水行舟，不进则退；只有坚持不断的学习,才能保持进步。今天给大家精心挑选的这几个优质的公众号，在行业深耕已久，相信大家一定会有所收获，感兴趣的可以关注一下。机器学习算法与自然语言处理国内最大的机器学习与自然语言处理分享平台。25W+NLPer聚集地！专注于思维、技术、经验分享交流！既讲原创深度技术、又不失通俗易懂。▲长按上方二维码识别关注人工智能爱好者社区专注人工智能、机器学习、深度学习、自
文本语义匹配概述取个名字最难了自然语言处理
关于作者作者小硕一枚，研究方向为机器学习与自然语言处理，欢迎大家关注我的个人博客https://wangjie-users.github.io/，相互交流，一起学习成长。前言在NLP的诸多应用中，有很多应用都有在语义上衡量文本相似度的需求，我们将这类需求统称为“语义匹配”。根据文章长度的不同，语义匹配可以细分为三类：短文本-短文本语义匹配，短文本-长文本语义匹配和长文本-长文本语义匹配。短文本-短
机器学习与自然语言处理 weixin_33721427
一、引言随着大规模语料库的建设和各种语言知识库的出现，基于语料库的统计机器学习方法进入自然语言处理的视野。多种机器学习方法应用到自然语言处理中来并取得了良好的效果，促进了自然语言处理技术的发展。然而，自然语言处理领域仍然有许多课题尚待探索，为机器学习的研究与应用提供了广阔的舞台。本文较系统地介绍了自然语言处理中广泛存在的歧义现象的类型、实例和问题，并提供了我们利用机器学习方法解决其中一些问题的实例
DNN/LSTM/Text-CNN情感分类实战与分析 zenRRan
点击上方，选择星标或置顶，每天给你送干货！阅读大概需要21分钟跟随小博主，每天进步一丢丢来自：知乎专栏机器不学习作者:天雨粟整理：机器学习与自然语言处理公众号https://zhuanlan.zhihu.com/p/37978321前言最近把2014年YoonKim的《ConvolutionalNeuralNetworksforSentenceClassification》看了下，不得不说虽然Te
毕业五年，就在一线城市买房的阿里系大神的公众号 Hadoop技术博文
工作、生活节奏超快的今天，想要不断提升自我，碎片化阅读学习是你最佳的选择，如果你有一颗学习的心，那这些优质的公众号，绝对会让你受益匪浅。在这里为你精选了几个精品技术公众号，涵盖了时下最热门的技术领域，还有行业内的热点新闻和干货教程推送。机器学习算法与自然语言处理▲长按图片识别二维码关注国内最大的机器学习与自然语言处理分享平台。20W+NLPer聚集地！专注于思维、技术、经验分享交流！既讲原创深度技
推荐几个我私藏很久的技术公众号给大家！ Wang_AI
学习如逆水行舟，不进则退；只有坚持不断的学习,才能保持进步。今天给大家精心挑选的几个我私藏已久的优质的公众号，在行业深耕已久，相信大家一定会有所收获，感兴趣的可以关注一下。机器学习算法与自然语言处理国内最大的机器学习与自然语言处理分享平台。25W+NLPer聚集地！专注于思维、技术、经验分享交流！既讲原创深度技术、又不失通俗易懂。▲长按上方二维码识别关注人工智能爱好者社区专注人工智能、机器学习、深
基于深度学习的智能问答 weixin_33785972
作者：周小强陈清财曾华军1引言纵观自动问答系统的技术发展历史，从1950年代因图灵测试而诞生至今，已经有几十年的历史。但真正在产业界得到大家的广泛关注，则得益于2011年Siri和Watson成功所带来的示范效应。自此，自动问答系统较以往任何时候都显得离实际应用更近。这一方面归功于机器学习与自然语言处理技术的长足进步，另一方面得益于维基百科等大规模知识库以及海量网络信息的出现。然而，现有的自动问答
推荐几个阿里、拼多多大佬的 IT 公众号！ GitHubDaily
学习如逆水行舟，不进则退；只有坚持不断的学习,才能保持进步。今天给大家精心挑选的这几个优质的公众号，在行业深耕已久，相信大家一定会有所收获，感兴趣的可以关注一下。机器学习算法与自然语言处理国内最大的机器学习与自然语言处理分享平台。25W+NLPer聚集地！专注于思维、技术、经验分享交流！既讲原创深度技术、又不失通俗易懂。▲长按上方二维码识别关注人工智能爱好者社区专注人工智能、机器学习、深度学习、自
「文末预告，注意查收」告别枯燥的理论，回归技术程序猿DD_
这是一个知识快速迭代的时代，程序员在积累经验的同时，如何快速获取新的知识和技能呢？如何在竞争日益激烈的当下，不断提升自身的不可替代性呢？今天，在这里为大家甄选了几个高质量的技术公众号。告别枯燥的理论，从及时资讯、一线技术、实用案例、职业发展等多方位分享实操性强、可落地的内容和学习方法。新的一年，愿你的每一份努力都有回报！1机器学习与自然语言处理机器学习算法与自然语言处理，一个哈工大NLP在读博士的
金九银十，是时候推荐几个让你少走弯路的公众号了！ Linux阅码场
工作、生活节奏超快的今天，想要不断提升自我，碎片化阅读学习是你最佳的选择，如果你有一颗学习的心，那这些优质的公众号，绝对会让你受益匪浅。在这里为你精选了几个精品技术公众号，涵盖了时下最热门的技术领域，还有行业内的热点新闻和干货教程推送。机器学习算法与自然语言处理▲长按图片识别二维码关注国内最大的机器学习与自然语言处理分享平台。20W+NLPer聚集地！专注于思维、技术、经验分享交流！既讲原创深度技
金九银十，是时候推荐几个让你少走弯路的公众号了！ Linux阅码场
工作、生活节奏超快的今天，想要不断提升自我，碎片化阅读学习是你最佳的选择，如果你有一颗学习的心，那这些优质的公众号，绝对会让你受益匪浅。在这里为你精选了几个精品技术公众号，涵盖了时下最热门的技术领域，还有行业内的热点新闻和干货教程推送。机器学习算法与自然语言处理▲长按图片识别二维码关注国内最大的机器学习与自然语言处理分享平台。20W+NLPer聚集地！专注于思维、技术、经验分享交流！既讲原创深度技
一波机器学习、数据分析、金融量化与Python内涵公众号推荐给大家磐创 AI
“三人行，必有我师焉”，学习就是要从别人身上学到好的。今天特意给大家推荐7个优质公众号，目前属于活跃度非常高的几个原创公众号，涵盖了python，AI以及后端等技术栈，重点是他们还坚持在技术免费分享的第一线！机器学习算法与自然语言处理国内最大的机器学习与自然语言处理分享平台。20W+NLPer聚集地！专注于思维、技术、经验分享交流！既讲原创深度技术、又不失通俗易懂。长按识别二维码关注码农有道一个百
【决胜AI】机器学习与自然语言处理算法实战课程菜鸟学生会机器学习
阅读更多【决胜AI】机器学习与自然语言处理算法实战课程网盘地址：https://pan.baidu.com/s/1weSoFYRdr9oD6m1e6iFxRg提取码:593k备用地址（腾讯微云）：https://share.weiyun.com/5eL4At1密码：4dd3ms随着自然语言处理技术无处不在，成为很多项目的核心竞争力。被广泛用在语音识别，语音合成，自动分词，句法分析，语法纠错，关键词
【决胜AI】机器学习与自然语言处理算法实战课程菜鸟学生会机器学习
阅读更多【决胜AI】机器学习与自然语言处理算法实战课程网盘地址：https://pan.baidu.com/s/1weSoFYRdr9oD6m1e6iFxRg提取码:593k备用地址（腾讯微云）：https://share.weiyun.com/5eL4At1密码：4dd3ms随着自然语言处理技术无处不在，成为很多项目的核心竞争力。被广泛用在语音识别，语音合成，自动分词，句法分析，语法纠错，关键词
apache 安装linux windows 墙头上一根草 apache inux windows
linux安装Apache 有两种方式一种是手动安装通过二进制的文件进行安装，另外一种就是通过yum 安装，此中安装方式，需要物理机联网。以下分别介绍两种的安装方式通过二进制文件安装Apache需要的软件有apr,apr-util,pcre 1，安装 apr 下载地址：htt
fill_parent、wrap_content和match_parent的区别 Cb123456 match_parent fill_parent
fill_parent、wrap_content和match_parent的区别: 1）fill_parent 设置一个构件的布局为fill_parent将强制性地使构件扩展，以填充布局单元内尽可能多的空间。这跟Windows控件的dockstyle属性大体一致。设置一个顶部布局或控件为fill_parent将强制性让它布满整个屏幕。 2） wrap_conte
网页自适应设计天子之骄 html css 响应式设计页面自适应
网页自适应设计网页对浏览器窗口的自适应支持变得越来越重要了。自适应响应设计更是异常火爆。再加上移动端的崛起，更是如日中天。以前为了适应不同屏幕分布率和浏览器窗口的扩大和缩小，需要设计几套css样式，用js脚本判断窗口大小，选择加载。结构臃肿，加载负担较大。现笔者经过一定时间的学习，有所心得，故分享于此，加强交流，共同进步。同时希望对大家有所
[sql server] 分组取最大最小常用sql 一炮送你回车库 SQL Server
--分组取最大最小常用sql--测试环境if OBJECT_ID('tb') is not null drop table tb;gocreate table tb( col1 int, col2 int, Fcount int)insert into tbselect 11,20,1 union allselect 11,22,1 union allselect 1
ImageIO写图片输出到硬盘 3213213333332132 java image
package awt; import java.awt.Color; import java.awt.Font; import java.awt.Graphics; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imagei
自己的String动态数组宝剑锋梅花香 java 动态数组数组
数组还是好说，学过一两门编程语言的就知道，需要注意的是数组声明时需要把大小给它定下来，比如声明一个字符串类型的数组：String str[]=new String[10]; 但是问题就来了，每次都是大小确定的数组，我需要数组大小不固定随时变化怎么办呢？动态数组就这样应运而生，龙哥给我们讲的是自己用代码写动态数组，并非用的ArrayList 看看字符
pinyin4j工具类 darkranger .net
pinyin4j工具类Java工具类 2010-04-24 00:47:00 阅读69 评论0 字号：大中小引入pinyin4j-2.5.0.jar包: pinyin4j是一个功能强悍的汉语拼音工具包，主要是从汉语获取各种格式和需求的拼音，功能强悍，下面看看如何使用pinyin4j。本人以前用AscII编码提取工具，效果不理想，现在用pinyin4j简单实现了一个。功能还不是很完美，
StarUML学习笔记----基本概念 aijuans UML建模
介绍StarUML的基本概念，这些都是有效运用StarUML?所需要的。包括对模型、视图、图、项目、单元、方法、框架、模型块及其差异以及UML轮廓。模型、视与图（Model, View and Diagram） &
Activiti最终总结 avords Activiti id 工作流
1、流程定义ID：ProcessDefinitionId，当定义一个流程就会产生。 2、流程实例ID：ProcessInstanceId，当开始一个具体的流程时就会产生，也就是不同的流程实例ID可能有相同的流程定义ID。 3、TaskId，每一个userTask都会有一个Id这个是存在于流程实例上的。 4、TaskDefinitionKey和（ActivityImpl activityId
从省市区多重级联想到的，react和jquery的差别 bee1314 jquery UI react
在我们的前端项目里经常会用到级联的select，比如省市区这样。通常这种级联大多是动态的。比如先加载了省，点击省加载市，点击市加载区。然后数据通常ajax返回。如果没有数据则说明到了叶子节点。针对这种场景，如果我们使用jquery来实现，要考虑很多的问题，数据部分，以及大量的dom操作。比如这个页面上显示了某个区，这时候我切换省，要把市重新初始化数据，然后区域的部分要从页面
Eclipse快捷键大全 bijian1013 java eclipse 快捷键
Ctrl+1 快速修复(最经典的快捷键,就不用多说了)Ctrl+D: 删除当前行 Ctrl+Alt+↓ 复制当前行到下一行(复制增加)Ctrl+Alt+↑ 复制当前行到上一行(复制增加)Alt+↓ 当前行和下面一行交互位置(特别实用,可以省去先剪切,再粘贴了)Alt+↑ 当前行和上面一行交互位置(同上)Alt+← 前一个编辑的页面Alt+→ 下一个编辑的页面(当然是针对上面那条来说了)Alt+En
js 笔记函数征客丶 JavaScript
一、函数的使用 1.1、定义函数变量 var vName = funcation(params){ } 1.2、函数的调用函数变量的调用： vName(params); 函数定义时自发调用：(function(params){})(params); 1.3、函数中变量赋值 var a = 'a'; var ff
【Scala四】分析Spark源代码总结的Scala语法二 bit1129 scala
1. Some操作在下面的代码中，使用了Some操作：if (self.partitioner == Some(partitioner))，那么Some(partitioner)表示什么含义？首先partitioner是方法combineByKey传入的变量， Some的文档说明： /** Class `Some[A]` represents existin
java 匿名内部类 BlueSkator java匿名内部类
组合优先于继承 Java的匿名类，就是提供了一个快捷方便的手段，令继承关系可以方便地变成组合关系继承只有一个时候才能用，当你要求子类的实例可以替代父类实例的位置时才可以用继承。在Java中内部类主要分为成员内部类、局部内部类、匿名内部类、静态内部类。内部类不是很好理解，但说白了其实也就是一个类中还包含着另外一个类如同一个人是由大脑、肢体、器官等身体结果组成，而内部类相
盗版win装在MAC有害发热，苹果的东西不值得买，win应该不用 ljy325 游戏 apple windows XP OS
Mac mini 型号: MC270CH-A RMB:5,688 Apple 对windows的产品支持不好,有以下问题: 1.装完了xp,发现机身很热虽然没有运行任何程序！貌似显卡跑游戏发热一样，按照那样的发热量,那部机子损耗很大,使用寿命受到严重的影响! 2.反观安装了Mac os的展示机，发热量很小，运行了1天温度也没有那么高 &nbs
读《研磨设计模式》-代码笔记-生成器模式-Builder bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 生成器模式的意图在于将一个复杂的构建与其表示相分离，使得同样的构建过程可以创建不同的表示（GoF） * 个人理解： * 构建一个复杂的对象，对于创建者（Builder）来说，一是要有数据来源(rawData)，二是要返回构
JIRA与SVN插件安装 chenyu19891124 SVN jira
JIRA安装好后提交代码并要显示在JIRA上，这得需要用SVN的插件才能看见开发人员提交的代码。 1.下载svn与jira插件安装包，解压后在安装包(atlassian-jira-subversion-plugin-0.10.1) 2.解压出来的包里下的lib文件夹下的jar拷贝到(C:\Program Files\Atlassian\JIRA 4.3.4\atlassian-jira\WEB
常用数学思想方法 comsci 工作
对于搞工程和技术的朋友来讲，在工作中常常遇到一些实际问题，而采用常规的思维方式无法很好的解决这些问题，那么这个时候我们就需要用数学语言和数学工具，而使用数学工具的前提却是用数学思想的方法来描述问题。。下面转帖几种常用的数学思想方法，仅供学习和参考函数思想　　把某一数学问题用函数表示出来，并且利用函数探究这个问题的一般规律。这是最基本、最常用的数学方法
pl/sql集合类型 daizj oracle 集合 type pl/sql
--集合类型 /* 单行单列的数据，使用标量变量单行多列数据，使用记录单列多行数据，使用集合（。。。） *集合：类似于数组也就是。pl/sql集合类型包括索引表（pl/sql table）、嵌套表（Nested Table）、变长数组（VARRAY）等 */ /* --集合方法 &n
[Ofbiz]ofbiz初用 dinguangx 电商 ofbiz
从github下载最新的ofbiz（截止2015-7-13），从源码进行ofbiz的试用 1. 加载测试库 ofbiz内置derby，通过下面的命令初始化测试库 ./ant load-demo (与load-seed有一些区别) 2. 启动内置tomcat ./ant start 或 ./startofbiz.sh 或 java -jar ofbiz.jar &
结构体中最后一个元素是长度为0的数组 dcj3sjt126com c gcc
在Linux源代码中，有很多的结构体最后都定义了一个元素个数为0个的数组，如/usr/include/linux/if_pppox.h中有这样一个结构体： struct pppoe_tag { __u16 tag_type; __u16 tag_len; &n
Linux cp 实现强行覆盖 dcj3sjt126com linux
发现在Fedora 10 /ubutun 里面用cp -fr src dest，即使加了-f也是不能强行覆盖的，这时怎么回事的呢？一两个文件还好说，就输几个yes吧，但是要是n多文件怎么办，那还不输死人呢？下面提供三种解决办法。方法一我们输入alias命令，看看系统给cp起了一个什么别名。 [root@localhost ~]# aliasalias cp=’cp -i’a
Memcached(一)、HelloWorld frank1234 memcached
一、简介高性能的架构离不开缓存，分布式缓存中的佼佼者当属memcached，它通过客户端将不同的key hash到不同的memcached服务器中，而获取的时候也到相同的服务器中获取，由于不需要做集群同步，也就省去了集群间同步的开销和延迟，所以它相对于ehcache等缓存来说能更好的支持分布式应用，具有更强的横向伸缩能力。二、客户端选择一个memcached客户端，我这里用的是memc
Search in Rotated Sorted Array II hcx2013 search
Follow up for "Search in Rotated Sorted Array":What if duplicates are allowed? Would this affect the run-time complexity? How and why? Write a function to determine if a given ta
Spring4新特性——更好的Java泛型操作API jinnianshilongnian spring4 generic type
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装JDK liuxingguome centos
1、行卸载原来的： [root@localhost opt]# rpm -qa | grep java tzdata-java-2014g-1.el6.noarch java-1.7.0-openjdk-1.7.0.65-2.5.1.2.el6_5.x86_64 java-1.6.0-openjdk-1.6.0.0-11.1.13.4.el6.x86_64 [root@localhost
二分搜索专题2-在有序二维数组中搜索一个元素 OpenMind 二维数组算法二分搜索
1,设二维数组p的每行每列都按照下标递增的顺序递增。用数学语言描述如下：p满足 (1),对任意的x1，x2，y，如果x1<x2,则p(x1,y)<p(x2,y); (2),对任意的x，y1,y2, 如果y1<y2,则p(x,y1)<p(x,y2); 2,问题：给定满足1的数组p和一个整数k，求是否存在x0,y0使得p(x0,y0)=k? 3,算法分析： (
java 随机数 Math与Random SaraWon java Math Random
今天需要在程序中产生随机数，知道有两种方法可以使用，但是使用Math和Random的区别还不是特别清楚，看到一篇文章是关于的，觉得写的还挺不错的，原文地址是 http://www.oschina.net/question/157182_45274?sort=default&p=1#answers 产生1到10之间的随机数的两种实现方式： //Math Math.roun
oracle创建表空间 tugn oracle
create temporary tablespace TXSJ_TEMP tempfile 'E:\Oracle\oradata\TXSJ_TEMP.dbf' size 32m autoextend on next 32m maxsize 2048m extent m
使用Java8实现自己的个性化搜索引擎 yangshangchuan java superword 搜索引擎 java8 全文检索
需要对249本软件著作实现句子级别全文检索，这些著作均为PDF文件，不使用现有的框架如lucene，自己实现的方法如下： 1、从PDF文件中提取文本，这里的重点是如何最大可能地还原文本。提取之后的文本，一个句子一行保存为文本文件。 2、将所有文本文件合并为一个单一的文本文件，这样，每一个句子就有一个唯一行号。 3、对每一行文本进行分词，建立倒排表，倒排表的格式为：词=包含该词的总行数N=行号