Insight Natural Language Computing-----记Ming Zhou, Long Jiang and Xiaohua Liu讲座

           12月7日,下午两点,迎来了我们的第三次讲座,这一次讲座的主题是关于自然语言计算的,每每提到自然语言这个词就让我头痛,因为我会不经意间把自然语言和数理逻辑这门课联系在一起。。。不过今天听了Long jiang和Xiaohua研究员 的讲座后(zhou老师不在,让我小小的遗憾了一下),我对其的好感度,直线上升!

          做任何事都是需要背景的。。。Xiaohua老师一上来就给我们介绍了当今Internet Service的时代背景。关于当今的趋势,有使用第三方软件的,比如Facebook,有提供实时的服务,比如YouTube,有提供移动搜索的,比如手机,还有提供social power(即人民的力量)的。在这样的一个时代背景下,NLP遇到了许多难题与挑战!没有挑战哪有进步!NLP2.0应运而生,谈了一堆理论的东西,就在我即将被困意摧残得节节败溃地时候,精彩部分来了, Xiaohua老师给我们讲起了Engkoo,这是一个在线词典。任何飘渺的东西还是实例化来得实在,动听!这虽然不是我第一次听说这款产品,但是这却是我第一次这么了解它,感谢Xiaohua老师!首先,它是从网页上获取数据集,这就解决了以前在封闭数据集上搜索的弊病。虽然里面含有机器翻译,但是大部分结果是从网页中搜索而来,里面用到的技术我比较感兴趣的有:平行页面搜索(from Parallel Page),比如Internet上有的网页是有中英文版本的,于是可以同时截取,然后再匹对。页面中如果存在链接的话,那么也极大可能是中英文的两个版本,可以递归处理。同时,Engkoo采用了pattern匹配,我比较喜欢这个。因为像我这种英语匮乏的人以后就可以输入I am adv.  Sorry 来查询并丰富我的句子了,哈哈。在这一点上我觉得Engkoo比较人性化,满足了我这个用户的需求。Engkoo的整个过程大体可以描述为从Internet网上获取数据源,然后寻找候选URL,找到平行页面等含有中英对照的资源,最后再匹对。当然说起来简单,但是做起来应该不容易吧,呵呵。

            接着是Long Jiang老师给我们讲解NLP,嘿嘿,我最感兴趣当然还是实例化的东西,Jiang老师给我们讲解的是一款对对联的产品,这是一个神奇的东西,感谢Jiang老师给我们的讲解让我们又有了收获。这是我第一次听说这款软件,不知道的朋友,可以去玩玩(http://duilian.msra.cn/)这款产品,同样是基于网页的,这让我再次想起了Xiaohua老师反复强调而又意味深长的话----“人民的力量是强大的!”。该产品在匹对我们输入的上联时,用了好几个方法,一是找同义词,二是通过机器学习来获取,三是通过收集web上用户们的知识进行匹对,等等。这些都只是第一步,第二步根据统计概率进行筛选,比如是匹对山高,还是山阔好。如果高字出现在山字后面概率高就选它。第三步是我比较感兴趣的一步,是过滤。因为我们知道对对联并不是简单的字词匹配,除了押韵还有一些规则,这当中我最喜欢的一个例子是,“有子有女才是好,缺鱼缺羊不是鲜”,刚开始我也很好奇,它该怎么区分好是由子女组成,然后再配出同样规则的下联呢?这其中运用了一个我很感兴趣的技术,它把汉字的一笔一画归类,然后再用类号的序列表示一个字,这方法真好!

           呵呵,今天的讲座让我收获不少,再次感谢两位老师今天给我们带来的演讲!看来自然语言处理并非我脑海中那么索然无味亚,今后一定要多接触接触!多学习学习!

 

MicroTeam  Liuhang

你可能感兴趣的:(language)