C-value、D-value算法

1 基本概念
2 研究现状
3 C-Value、D-value方法详解
4 算法实现

1 基本概念

C-value、D-value这两个算法都是用于术语抽取。

1.1 术语概念

特定专业领域中一般概念的词语指称。具体地说,是在某个学科领域中使用,表示该学科领域内概念或关系的词语。术语可以是词,也可以是短语。

1.2 术语特征

  • 专业性:术语表达各个专业的特殊概念的,所以通行范围有限,使用的人较少。
  • 科学性:术语的语义范围准确,它不仅标记一个概念,而且使其精确,与相似的概念相区别。
  • 单义性:术语与一般词汇的最大不同点在于它的单义性,即在某一特定专业范围内是单义的。
  • 系统性:在一门科学或技术中,每个术语的地位只有在这一专业的整体概念体系中才能加以规定。

1.3 术语的结构特征

  • 术语的边界特点:按照术语的前后界有无明显标记,术语可分为三类:有前后界标记的;有前界或后界标记的;无前后界标记的。
  • 术语的长度特点:中文术语长度主要是2~6个字。
  • 词性特点:术语大多是名词性短语。
  • 术语构成模式:如名词+名词,(形容词|名词)+名词等。

1.4 术语的领域特征

  • 在某一领域中经常出现的词,很可能是这个领域的一个术语;
  • 仅仅在某个领域中才出现的词,很可能是这个领域的一个术语;
  • 如果一个词在某一领域中出现的频率相对比在一般文本中出现的频率高的话,则很可能是这个领域的一个术语;
  • 在某些方面,一个词偏向于在某个领域中出现,则很可能是一个术语。

2 研究现状

2.1 语言学的方法

语言学法先把文本分词、标注词性,然后对比分词结果和词法规则,匹配一致的内容计为候选术语。

2.2 统计学方法

搭建在统计学理论的基石之上,互信息、熵、TF-IDF等都属于该类。

2.3 概率法

概率法的理论基础是概率论和随机过程。HMM和条件随机场都属于该类。

2.4 混合法

即综合运用语言学、统计法、概率法进行术语抽取。C-value、D-value算法都属于该类。

3 C-Value、D-value方法详解

3.1 C-Value方法详解

C-value方法的基本思想是先用语言规则得到候选术语集,然后使用统计信息来进行过滤。公式如下:


image.png

公式的计算分为两种情况:
首先,CV方法是基于词串a的词频的。对于a的c-value的值计算,分为两种情况:
(1)a 不是嵌套串
c-value的值就取决于a的频数和词串a的长度。算法认为,词串的字数对于词串的c-value
值起促进作用,换言之,词串越长,是术语的可能性就越大。
(2)a是嵌套串
公式中


image.png

表示的是包含a的长串b的词频,例如,a是”石油”,那么,b可能是“中石油”、”石油科技大学”,”西南石油”,”石油天然气”等等包含a的词串。该参数对词串的作用是消极的。即可以认为,一个词串a,若嵌套其的词串出现的频数较高,则a是术语的可能性就越小。例如,a是”石油”,那么f(b)为包含a的候选串”中石油”,f(b)出现的频数越高,表明f(b)是一个术语的可能性就越大,则a本身是一个术语的可能性就越小。

(Ta)表示的是所有含有词串a 的集合,例如,a是”石油”,那么,(Ta)就是“中石油”、”石油科技大学”,”西南石油”,”石油天然气”等等包含a的词串的集合。该参数对词串的作用是积极的。 P(Ta)表示(Ta)的个数,次数应该是4。(Ta)表征了a的独立性,若包含一个词串的集合个数越多,表明a在多个词中都出现过,则认为a有较强的独立性,更可能是一个术语。

总之,(1)一个词串a,若嵌套a的某个词串b出现的频数较高,则b是术语的可能性就较大,a是术语可能性就较小。(2)嵌套a的词串组成的集合越大,表明a在多个词串中以不同的形式出现,a的独立性就越高,越可能是术语。所以第一个参数对c-value的值起消极作用,第二个参数起积极作用。

3.2 D-Value方法详解

D-Value方法是一种基于术语词频分布变化统计,看下面的图。


image.png

不难发现术语在文档中的词频变化比较大, 曲线抖动相对较为剧烈。 而普通短语的出现则比较平稳, 上下浮动不大。
分析语料发现, 在科技文献中, 术语的出现一般分为两种情况:

  • 文档的主要内容和该术语关系密切, 则该术语被提及的次数很频繁;
  • 文档与该术语属于同一类别内, 但并不是直接相关, 所以会有所提及, 但次数较少。正因为如此, 术语在不同的文档中, 出现的词频才会有较大的变化。

可见, 词频分布的变化能对鉴别一个候选项是否为专业术语做出重要的指示。

计算公式如下:


image.png
  • tf(t)表示候选术语 t在整个测试语料中出现的总频率;
  • df(t)表示候选术语 t 出现的文档频率;
  • N 表示包含候选术语 t 的文档数;
  • tf(t)表示候选术语 t 在第 i 篇文档中出现的频率;
  • tf(t)(—)表示候选术语 t在 N 篇文档中出现的平均频率

通过上式, 可以看出:当一个候选术语出现的次数越多、涉及的文档数越少、在每篇文档中出现的次数相差越大时, 就越可能是术语, 这与上文提到的观察现象相符。

4 算法实现


END

你可能感兴趣的:(C-value、D-value算法)