NLP--基于规则的自然语言处理方法 (理性方法,传统方法)

1. 概述

  • 强调对语言知识的理性整理(知识工程)
  • 受计算语言学理论指导
  • 基于规则的知识表示和推导(符号计算)
  • 语言处理规则(数据)与程序分离,程序体现为规则语言的解释器!

2. 词法分析

 形态还原(针对英语、德语、法语等)

  • 把句子中的词还原成它们的基本词形。

 词性标注

  • 为句子中的词标上预定义类别集合(标注集)中的类。

 命名实体识别

  • 人名
  • 地名
  • 机构名

 分词(针对汉语、日语等)

  • 识别出句子中的词。

2.1形态还原(英语)

 把句子中的词还原成原形,作为词的其它信息(词典、个性规则)的索引。
 构词特点

  • 屈折变化:词尾和词形变化,词性不变。如:
study, studied,studied,studying
   speak,spoke,spoken,speaking
  • 派生变化:加前缀和后缀,词性发生变化。如:
friend,friendly,friendship,...
  • 复合变化:多个单词以某种方式组合成一个词。

 还原规则

  • 通用规则:变化有规律

  • 个性规则:变化无规律

2.1.1 形态还原规则举例

 英语“规则动词”还原

  • *s -> * (SINGULAR3)

  • *es -> * (SINGULAR3)

  • *ies -> *y (SINGULAR3)

  • *ing -> * (VING)

  • *ing -> *e (VING)

  • *ying -> *ie (VING)

  • *??ing -> *? (VING)

  • *ed -> * (PAST)(VEN)

  • *ed -> *e (PAST)(VEN)

  • *ied -> *y (PAST)(VEN)

  • *??ed -> *? (PAST)(VEN)

 英语不规则动词还原

  • went -> go (PAST)

  • gone -> go (VEN)

  • sat -> sit (PAST) (VEN)

2.1.2 形态还原算法

  1. 输入一个单词
  2. 如果词典里有该词,输出该词及其属性,转4,否则,转3
  3. 如果有该词的还原规则,并且,词典里有还原后的词,则输出还原后的词及其属性,转4,否则,调用<未登录词模块>
  4. 如果输入中还有单词,转(1),否则,结束。
Proj. 1 实现一个英语单词还原工具。
(词典:http://nlp.nju.edu.cn/MT_Lecture/dic_ec.rar)

2.2 词性标注

 为句子中的词标上预定义类别集合(标注集)中的类(词性),为后续的句法/语义分析提供必要的信息。
 标注体系的确定
 标注方法

2.2.1 词性标注体系

 词的分类

  • 按形态和句法功能(句法相关性)
  • 按表达的意思(语义相关性)
  • 兼顾上述二者

2.2.1.1 英文词的分类

 开放类(open class)

- Nouns

句法上:可作物主、可有限定词、有复数形式

语义上:人名、地名和物名

- Verbs

句法上:作谓语、有几种词形变化
语义上:动作、过程(一系列动作)

- Adjectives

句法上:修饰Nouns等
语义上:性质

- Adverbs

句法上:修饰Verbs等
语义上:方向、程度、方式、时间

 封闭类(closed class,function words)

  • Determiners
  • Pronouns
  • Prepositions
  • Conjunctions
  • Auxiliary verbs
  • Particles(if、not、…)
  • Numerals

2.2.1.2 汉语分词(切分)

 词是语言中最小的能独立运用的单位,也是语言信息处理的基本单位。
 分词是指根据某个分词规范,把一个“字”串划分成“词”串。

  • 问题:难以确定何谓汉语的“词”

    1.单字词与语素的界定:猪肉、牛肉
    2.词与短语(词组)的界定:黑板、黑布

  • 信息处理用现代汉语分词规范:GB-13715(1992)

  • 具体应用系统可根据各自的需求制定规范

 分词带来的问题

  • 丢失信息、错误的分词、不同的分词规范

2.2.1.2.1切分歧义及歧义字段的种类

 交集型歧义字段

  • ABC切分成AB/C或A/BC

     如:“和平等”
     “独立/自主/和/平等/独立/的/原则”
     “讨论/战争/与/和平/等/问题”
    

 组合型歧义字段

  • AB切分成AB或A/B

     如:“马上”
     “他/骑/在/马/上”
     “马上/过来”
    

 混合型歧义

  • 由交集型歧义和组合型歧义嵌套与交叉而成

     如:“得到达”(交集型、组合型)
     	“我/今晚/得/到达/南京” 
     	“我/得到/达克宁/了 ” 
     	“我/得/到/达克宁/公司/去”
    

 伪歧义与真歧义

  • 伪歧义字段指在任何情况下只有一种切分

     “挨批评”只有一种切分
     根据歧义字段本身就能消歧
    
  • 真歧义字段指在不同的情况下有多种切分

    “从小学”可以有多种切分:

“从小/学” ,如:“从小/学/电脑” (“从小”是切分成“从小”还是“从/小”要根据分词规范!)
“从/小学”,如:“他/从/小学/毕业/后”

 **根据歧义字段的上下文来消歧**

2.2.1.2.2 分词方法

一般通过分词词典和分词规则库进行分词。主要方法有:
 正向最大匹配(FMM)或逆向最大匹配(RMM)

  • 从左至右(FMM)或从右至左(RMM),取最长的词

  • “幼儿园 地 节目”或“幼儿 园地 节目”

 双向最大匹配

  • 分别采用FMM和RMM进行分词

  • 如果结果一致,则认为成功;否则,采用消歧规则进行消歧(交集型歧义):

 正向最大、逆向最小匹配

  • 发现组合型歧义

 逐词遍历匹配

  • 在全句中取最长的词,去掉之,对剩下字符串重复该过程

 设立切分标记

  • 收集词首字和词尾字,把句子分成较小单位,再用某些方法切分

 全切分

  • 获得所有可能的切分,选择最大可能的切分

2.2.1.2.3 基于规则的歧义字段消歧方法

 利用歧义字串、前驱字串和后继字串的句法、语义和语用信息:

  • 句法信息

     “阵风”:根据前面是否有数词来消歧。“一/阵/风/吹/过/来”、“今天/有/阵风”
    
  • 语义信息

     “了解”:“他/学会/了/解/数学/难题”(“难题”一般是“解”而不是“了解”,另外,还有“学会”)
    
  • 语用信息

     “拍卖”:“乒乓球拍卖完了”,要根据场景(上下文)来确定
    

 规则的粒度

  • 基于具体的词(个性规则)

  • 基于词类、词义类(共性规则)

Proj. 2 实现一个基于词典与规则的汉语自动分词系统。
(词典:)

你可能感兴趣的:(NLP)