《统计自然语言处理基础》笔记(2)语义消歧方法总结

语义消歧  可以看作分类问题。一个词W有K个含义,对W消歧 就是确定W在特定句子中究竟使用了哪一个含义,即把W分到K类中的一个。分类的依据则是和W邻近的词,即W的上下文C。

歧义可以分为两类:一类是词的语义有多种,如“bank”,可以是银行,也可以是河岸;另一类是词本身的词性也是多样的,如predicate,既能作为名字,也能作为动词。对于前者,

可能需要与W相隔较远的其他词参与消歧,而对于后者,往往通过邻近的词汇就能确定W的词性了。


常用的消歧方法:

一、有监督消歧

     1.  贝叶斯分类

           s = arg max  p(Sk|c),  Sk 是W可能包含的语义,C是歧义词的上下文,而s是 使该概率最大的语义,即消歧后确定的语义。

     2. 基于信息论的方法。以W包含2个语义为例,基本思想是最大化 互信息 I(P,Q),P是W的语义集,Q是W的指示器取值集(指示器 即能区分W不同语义的关键邻近词)。

          例:法语“ prendre”的含义是take或make,其指示器可以是 decision,note,example,measure。P划分为 p1 = {take,}和p2={make,},

                  Q分为Q1 = {note,example,measure,}和Q2 = {decision},  如果W的指示器为note,出现在Q1中,那么W对应的语义应该对应地出现在P1中,即take。

                   在这里,P和Q的集合划分的原则是最大化 I(P,Q)。

          该方法感觉和贝叶斯分类本质上类似,还是基于邻近词,根据概率判决,只是具体的公式不一样。

       

二、 基于词典的消歧(本质上也是无监督消歧的一种

         1.  基于语义定义的消歧。如果词典中对W的 第i种定义 包含 词汇Ei,那么如果在一个包含W的句子中,同时也出现了Ei,那么就认为 在该句子中 W的语义应该取词典中的第i 

              种定义。

         2.  基于类义辞典的消歧。 词的每个语义 都定义其对应的主题或范畴(如“网球”对应的主题是“运动”),多个语义即对应了多个主题。如果W的上下文C中的词汇包含多个主                   题,则取其频率最高的主题,作为W的主题,确定了W的主题后,也就能确定其对应的语义。

         3.  基于双语对比的消歧。这种方法比较有创意,即把一种语言作为另一种语言的定义。例如,为了确定“interest”在英文句子A中的含义,可以利用句子A的中文表达,因为 

              interest的不同语义在中文的表达是不同的。如果句子A对应中文包含“存款利率”,那么“interest”在句子A的语义就是“利率”。如果句子A的对应中文是“我对英语没有兴趣”,

              那么其语义就是“兴趣”。


三、无监督消歧

           主要是使用EM算法 对W的上下文C进行无监督地聚类,也就是对 W的语义进行了分类。(当然,该分类的结果不见得就是和词典中对该词的定义分类是匹配的)。

总结


马克思说:”人是社会关系的总和”,那么词的含义就是其 上下文关系的体现,所有消歧方法都必须依赖于词的上下文信息,不同方法的区别在于对上下文信息的挖掘程度和方式。也可以看出,消歧成功与否的关键在于能否充分挖掘和利用上下文信息,上下文可以既可以在广度上扩展:从邻近词汇 ,到跨句,甚至可以到段落,也可以在深度上扩展:从字面语义,到高层的抽象概念。


你可能感兴趣的:(机器学习,自然语言处理,NLP)