多词表达抽取

基于位置标签的复合名词抽取论文
核心算法:
文本处理预处理过后,在此基础上对每个词条添加位置标签,形成每个词条的位置标签集,在进行停用词过滤以及同义词的合并处理,得到原子词条集;依照词条位置信息计算复合词条之间的同现度与相邻度,抽取复合词得到候选符合词集,最后通过对词集进行词性搭配分析,构建反规则模式集,并利用其进行筛选过滤,最后对被过滤的垃圾串进行两端逐步消减再识别。
多词表达抽取_第1张图片
其中抽取算法和反规则筛选是关键点,抽取算法是用于从原子词条集中抽取得到候选复合词集;反规则筛选是构建反规则模式集然后以此进行匹配并进行垃圾串识别。

基于统计的方法:
1、互信息,则频繁出现的词汇比较容易被抽取出来,低频词汇出现频率肯定比较少,难以抽取出来。
多词表达抽取_第2张图片
2、卡方用于衡量实际值与理论值的差异程度,根据自由度查询可得卡方值,便可得知两者相关的概率值。
多词表达抽取_第3张图片

3、对数似然比(Log Likelihood Ratio,LLR)
似然比[14]的值表示一个假设的可能性比其他假设
大多少。多词表达抽取中可设置两个可选的假设,即
多词表达抽取_第4张图片
对数似然比对于同时出现次数比较少的多词表达也能够被抽取出来,一些虽然频繁出现的词汇,却会因为词性的变化而导致部分不常出现,名词变为复数,动词变为第三人称等。

4、最大熵模型

5、发现问题
领域问题,无论是常用语言还是其他的少数语种,多数人有提出这个问题,即模型可能适用于某一些领域,到了其他的领域效果差这种,但是一直没有人解决,基本都是所有领域都混合一起抽取

通用语言能够结合分词来做多词表达的提取,建立在词上面比建立在字上面能够获取的信息更多,能够有效提高准确率,但非通用语种的分词工具尚不具有,比较头疼。

一些连词、代词、虚词、标点符号、数字等在复合名词中不会出现的可以过滤掉,这需要构建停用词词表,多于非通用语种,难以找到比较全的停用词表资源。

如果要构造基于规则的方法,我们必须去找到比较全的名词集合表,动词集合表,形容词结合表等在多次表达中会出现的词性的词汇,由于当前非通用语种缺乏对应的词性标注工具,所以在基于规则上单独靠着将原文词汇与词库字典中的词汇进行匹配将大大增加时间复杂度,影响效率。所以基于规则的可以考虑在后期进行过滤抽取出来的候选词汇,但要找到比较全的词语搭配规则可能比较难。

你可能感兴趣的:(非通用语种,多词表达)