例如:
I’ll see prof. Zhang home after the concert.的识别结果:I/ will/ see/ prof./ Zhang/ home/ after/ the/ concert/.
常见的特殊形式的单词识别如下:
(1) prof., Mr., Ms. Co., Oct. 等放入词典;
(2) Let’s / let’s => let + us
(3) I’am => I + am
(4) {it, that, this, there, what, where}’s =>
{it, that, this, there, what, where} + is
(5) can’t => can + not;
won’t => will + not
(6) {is, was, are, were, has, have, had}n’t =>
{is, was, are, were, has, have, had} + not
(7) X’ve => X + have;
X’ll=> X + will; X’re => X + are
(8) he’s => he + is / has => ?
she’s => she + is / has => ?
(9) X’d Y => X + would (如果 Y 为单词原型)
=> X + had (如果 Y 为过去分词)
汉语中词的定义界限不清晰,例如单字词与词素,词与短语,还有存在歧义,一种是交集型歧义,例如在组合成分子里面“结合”、“合成”、“成分”和“分子”均构成词,交集串的集合为{合,成,分},因此,链长为3。还有一种是组合型歧义,例如“将来”、“现在”、“才能”、 “学生会”等,都是组合型歧义字段。还有一个问题是未登录词的识别,包括人名、地名、组织机构名,新出现的词汇、术语、个别俗语等
有词典切分/ 无词典切分,基于规则的方法/ 基于统计的方法
有词典切分,机械切分,分为正向最大匹配算法 (Forward MM, FMM) 、逆向最大匹配算法 (Backward MM, BMM) 和双向最大匹配算法 (Bi-directional MM)
优点:程序简单易行,开发周期短;仅需要很少的语言资源(词表),不需要任何词法、句法、语义资源;
弱点:歧义消解的能力差;切分正确率不高,一般在95%左右。
设待切分字串 S = c 1 c 2 ⋯ c n S = c_1c_2\cdots c_n S=c1c2⋯cn,其中 c i ( i = 1 , 2 , ⋯ , n ) c_i(i = 1,2,\cdots,n) ci(i=1,2,⋯,n)为单个的字, n n n为串的长度, n ≥ 1 n \geq 1 n≥1,建立一个节点数为 n + 1 n + 1 n+1的有向无环图 G G G,各节点编号依次为 V 0 , V 1 , V 2 , ⋯ , V n V_0,V_1,V_2,\cdots,V_n V0,V1,V2,⋯,Vn,算法描述如下:
优点:切分原则符合汉语自身规律;需要的语言资源(词表)也不多。
弱点:对许多歧义字段难以区分,最短路径有多条时,选择最终的输出结果缺乏应有的标准;字串长度较大和选取的最短路径数增大时,长度相同的路径数急剧增加,选择最终正确的结果困难越来越大。
对于待切分的句子 S S S, W = w 1 w 2 ⋯ w k ( 1 ≤ k ≤ n ) W = w_1w_2\cdots w_k(1 \leq k \leq n) W=w1w2⋯wk(1≤k≤n)是一种可能的切分:
W ∗ = a r g m a x W p ( W ∣ S ) = a r g m a x W p ( W ) p ( S ∣ W ) \begin{aligned} W^* &= \mathop{arg\ max}\limits_Wp(W|S) \\ &= \mathop{arg\ max}\limits_Wp(W)p(S|W) \\ \end{aligned} W∗=Warg maxp(W∣S)=Warg maxp(W)p(S∣W)
优点:在训练语料规模足够大和覆盖领域足够多时,可以获得较高的切分正确率。
弱点:模型性能较多地依赖于训练语料的规模和质量,训练语料的规模和覆盖领域不好把握; 计算量较大。
把输入字串(句子) S S S作为HMM μ \mu μ的输入;切分后的单词串 S w S_w Sw为状态的输出,即观察序列 S w = w 1 w 2 ⋯ w n , n ≥ 1 S_w = w_1w_2\cdots w_n,n \geq 1 Sw=w1w2⋯wn,n≥1,词性序列 S c S_c Sc为状态序列,每个词性标记 c i c_i ci对应HMM中的一个状态 q i q_i qi, S c = c 1 c 2 ⋯ c n S_c = c_1c_2\cdots c_n Sc=c1c2⋯cn
优点:在训练语料规模足够大和覆盖领域足够多时,可以获得较高的切分正确率。
弱点:模型性能较多地依赖于训练语料的规模和质量,训练语料的规模和覆盖领域不好把握; 模型实现复杂、计算量较大。
基本思想:将分词过程看作是字的分类问题。该方法认为,每个字在构造一个特定的词语时都占据着一个确定的构词位置(即词位)。假定每个字只有4个词位:词首(B)、词中(M)、词尾(E)和单独成词(S),那么,每个字归属一特定的词位。
该方法的重要优势在于,它能够平衡地看待词表词和未登录词的识别问题,文本中的词表词和未登录词都是用统一的字标注过程来实现的。在学习构架上,既可以不必专门强调词表词信息,也不用专门设计特定的未登录词识别模块,因此,大大地简化了分词系统的设计
大部分基于词的分词方法采用的是生成式模型(Generativemodel),建立在统计学 和 Bayes 理论的基础之上,而基于字的分词方法采用区分式模型(Discriminative model)(假定每个字只有4个词位:词首(B)、词中(M)、词尾(E)和单独成词(S)),基于字的区分模型有利于处理集外词,而基于词的生成模型更多地考虑了词汇之间以及词汇内部字与字之间的依存关系。因此,可以将两者的优势结合起来。
包含命名实体(Named Entity, NE)人名(中国人名和外国译名)、地名、组织机构名、数字、日期、货币数量;其他新词,专业术语、新的普通词汇等。
计算潜在姓名的概率估值及相应姓氏的姓名阈值(threshold value),根据姓名概率评价函数和修饰规则对潜在的姓名进 行筛选。
计算概率估计值,设姓名 Cname = Xm1m2,其中 X 表示姓,m1m2分别表示名字首字和名字尾字。分别用下列公式计算姓氏和名字的使用频率:
F ( X ) = X 用作姓氏 X 出现的总次数 F ( m 1 ) = m 1 作为名字首字出现的次数 m 1 出现的总次数 F ( m 2 ) = m 2 作为名字尾字出现的次数 m 2 出现的总次数 P ( C n a m e ) = { F ( X ) × F ( m 1 ) × F ( m 2 ) 复名情况 F ( X ) × F ( m 2 ) 单名情况 F(X) = \frac{X用作姓氏}{X出现的总次数} \\ F(m_1) = \frac{m_1作为名字首字出现的次数}{m_1出现的总次数} \\ F(m_2) = \frac{m_2作为名字尾字出现的次数}{m_2出现的总次数} \\ P(Cname) = \begin{cases} F(X)\times F(m_1)\times F(m_2) & 复名情况 \\ F(X)\times F(m_2) & 单名情况 \end{cases} F(X)=X出现的总次数X用作姓氏F(m1)=m1出现的总次数m1作为名字首字出现的次数F(m2)=m2出现的总次数m2作为名字尾字出现的次数P(Cname)={F(X)×F(m1)×F(m2)F(X)×F(m2)复名情况单名情况
姓氏 X X X构成姓名的最小阈值:
T m i n ( X ) = { F ( X ) × M i n ( F ( m 1 ) × F ( m 2 ) ) 复名情况 F ( X ) × M i n ( F ( m 2 ) ) 单名情况 T_{min}(X) = \begin{cases} F(X)\times Min( F(m_1)\times F(m_2)) & 复名情况 \\ F(X)\times Min (F(m_2)) & 单名情况 \end{cases} Tmin(X)={F(X)×Min(F(m1)×F(m2))F(X)×Min(F(m2))复名情况单名情况
姓名的评价函数:
f = ln P ( C n a m e ) f = \ln P(Cname) f=lnP(Cname)
对于特定的姓氏 X X X 通过训练语料得到一阈值 β X \beta_X βX ,当 f f f 大于 β X \beta_X βX 时,该识别的汉字串确定为中文姓名。下面是姓名的修饰规则:
如果姓名前是一个数字,或者与“.”字符的距离小于 2个字节,则否定此姓名。左界规则:若潜在姓名前面是一称谓,或一标点符号,或者潜在姓名在句首,或者潜在的姓名的姓氏使用频率为100%,则姓名的左界确定。右界规则:若姓名后面是一称谓,或者是一指界动词(如,说,是,指出,认为等)或标点符号,或者潜在的姓名在句尾,或者潜在姓名的尾字使用频率为100%,则姓名的右界确定。含重合部分的潜在姓名不可能同时成立。利用各种规则消除冲突的潜在姓名。
词性(part-of-speech, POS)标注(tagging)的主要任务是消除词性兼类歧义。在汉语中会出现形同音不同,同形、同音,但意义毫不相干等情况