Neural word segmentation learning for chinese

What

中文分词系统

Why

已有的分词系统都是建立在character-based sequence labeling基础上的,只有窗口内的信息和相邻tags的interaction会被考虑到。
而该系统utilize complete segmentation history且没有窗口的限制了。

How

综述:1. 利用gated combination neural network over characters生成候选的分词方法。2. 再用LSTM language scoring model给其评分。

首先介绍评分系统:
  1. character embedding, 给每个汉字一个字向量(字向量经训练效果会更好)

  2. 用gated combination neural network的方法把字向量转变为词向量


    Neural word segmentation learning for chinese_第1张图片
    r:reset gates z:update gates

    图中,w为词向量,c1...cL是字向量。其余为带训练的参数。该方法可有效capture汉字和汉字之间的交互关系。

  3. 用word score给每个获得的词向量打分。


    yi: 词向量 u:训练参数,代表yi多大可能是个真实存在的词
  4. LSTM来为词与词之间的link关系打分

P_{t+1}是待训练的参数,代表当前词和下一个词的连续程度
  1. 为整个句子打分:link score和word score之和
第二部分是如何获得待评分的分词方法

不能用维特比方法,因为该方法是基于马尔科夫链的假设(只有相邻的词之间才有相互作用,不符合本文利用全部segmentation history的假设)。
故而采用集束搜索。具体可见文中伪代码。

最后介绍训练方法

定义max-margin(hinge loss)为不正确的分词个数乘以平滑参数,并以此定义l2范式形式的损失函数。
由于目标函数不能微分,采用subgradient method训练。

实验结果证明,本方案的分词正确率高于其他若干实验。

你可能感兴趣的:(Neural word segmentation learning for chinese)