实体消歧和实体统一

实体消歧
概念:实体消歧的本质在于一个词有很多可能的意思,也就是在不同的上下文中所表达的含义不太一样。

例子:‘我的手机是苹果’和‘我喜欢吃苹果’这两个句子中的‘苹果’代表的含义是不一样的。

问题:怎么识别单词的真正含义?

方法:能过上下文计算相似度。比如我们已知“苹果:是水果中的一种,一般产自于…”,“苹果:美国一家高科技公司,经典的产品有iPhone手机”,我们可以将这两种含义用向量来表示;接下来,对于一个需要识别一句子,比如“我想吃苹果”,把这个句子中“苹果”的上下文取出来也转化为向量,分别和以上的两种含义进行比较,哪个相似度高,我们就可以认为词语代表了哪种含义。

实体统一

概念:同一个实体有不同的表达方式,有时候需要把不同的表达方式统一为同一种表达方式。

例子:”中华人民共和国“,”中国“都表示同一个意思。如果把实体统一,可以减少一些NLP任务的难度。常见的应用场景是在构建知识图谱中,需要对地名,公司名,专业术语等进行统一。

问题:给定两个实体,判断是否指向同一个含义?

方法:假设现在我们要判断一些公司名是否表示同一个公司。那么需要预先定义一些规则,比如可以把”XX有限公司“中的”有限公司“去除,可以把”XX公司“中的”公司“去除等等。有了这些规则后,我们就可以把公司名进行规则处理,相当于英文里stemming的操作,将名称转化为原型,这样我们就可以得知两种表达方式是否是指向同一个含义。

你可能感兴趣的:(自然语言处理)