读《若无云,岂有风--词语语义相似度计算简介》

原文链接http://stblog.baidu-tech.com/?p=1738


有语境来衡量一个词的语义,以及其与其他词之间的互动关系,通常涉及到一下三个问题:
问题一:语境怎么表示?如何衡量两个语境是否类似?
问题二:如果一个词代表多个事务,怎么区分代表的不同语境?
问题三:两个事物之间几乎不共享语境,是否代表他们之间没有关系?

问题一:语境怎么表示?如何衡量两个语境是否类似?
1、语境通常用向量空间模型来表示(VSM),权重的选择有很多,可以用共现频率、tf-idf,互信息等
2、语境相似性就是向量空间模型的相似性,一般有两种计算方法
      ① 欧式向量空间
           余弦相似度公式:
            
           欧氏距离:
            
      ② 概率向量空间
            K-L距离:
            
            JS距离:
            
3、如何筛选出需要计算的向量呢 
      ① 原型方法:将所有的向量取平均,形成一个向量使用
      ② 范例方法:对向量集合里的向量两两计算相似度,取均值、最大值、最小值
 
问题二:如果一个词代表多个事务,怎么区分代表的不同语境?——带约束的语义相似度计算
     简而言之,这个问题就是考虑词语的多义性,例如“苹果”代表的是水果,还是手机?
     比较简单的解决思路是:构建一个词的空间向量的时候,从它周围的关键词中选。全选计算开销比较大,怎么折中呢?
① 只选择向量集合S中和关键词k的相似度大于某个阈值的向量使用
② 对S中的向量先聚类
③ 对目标词向量V和关键词向量K进行相加或者相乘
④ 交运算

问题三:两个事物之间几乎不共享语境,是否代表他们之间没有关系?
     经过二的处理,向量会变得有些稀疏,导致不显著共享预警元素的词语义上依旧有可能是相似的,所以引申出了平滑的概念。
     所谓平滑,就是指用一个词的相似词来代表它本身
     读《若无云,岂有风--词语语义相似度计算简介》_第1张图片



你可能感兴趣的:(读《若无云,岂有风--词语语义相似度计算简介》)