【阅读笔记一】Lattice-Based Recurrent Neural Network, Encoders
for Neural Machine Translation(Jinsong Su et al.)
摘要介绍:
NMT神经机器翻译很大程度上依赖于词级建模来学习输入句子的语义表示。
对于处理没有自然语言分隔符的语言(比如中文),需要首先进行标记,这就产生了
两个问题:1)为源句子模型找到最优标记粒度的难度很大,粗粒度导致数据稀疏,细粒度导致有用信息丢失;2)难度大就容易造成错误,产生的错误会带到NMT的编码器中去,影响源句子的表示。
基于这两个问题,为了更好地进行源句建模,有必要向NMT提供多个标记化,而不是单一的标记化序列。
本文提出了一种基于词格的递归神经网络NMT编码器:1)以压缩编码多个标记字格作为输入;2)并在前面的时间步骤中学习从任意多个输入和隐藏状态生成新的隐藏状态。
字格是许多标记化的压缩表示,基于词格的编码器不仅减轻了最佳标记方式的标记错误( 1-best
tokenization errors)的负面影响,而且更具有表达性和嵌入输入句子的灵活性。
NMT特点:
传统的统计机器翻译模拟管道(pipeline)中源语言和目标语言之间的潜在结构和对应关系,
NMT则是训练了一个统一的编码-解码神经网络,其中编码器将输入的句子映射成固定长度的向量,解码器从编码的向量生成翻译。
基于词格的递归神经网络NMT:
本文调查和比较了两个基于词格的RNN编码器:
1).浅度词格GRU编码器:基于来自多个采用标准GRU体系结构的标记的输入和隐藏状态的组合;
2).深度词格GRU编码器:它学习并更新门、输入和隐藏状态的特定标记向量(tokenization-specific
vector),然后为当前单元生成隐藏状态向量。
在这两种编码器中,可以同时利用许多不同的标记来进行输入句子建模。
结论:
与标准的RNN编码器相比,本文的编码器同时利用输入和前面的隐藏状态,依赖于多个标记来为源语句建模。因此,它们不仅减少了1-best tokenization
errors的传播,而且比标准编码器更具表现力和灵活性。
汉英互译的实验结果表明,本文的编码器在各种基线上都有显著的改进。
展望:
本文的网络结构依赖于源句的词格。扩展模型,将分割模型合并到源句表示学习中。通过这种方式,符号化和翻译可以相互协作。此外,更好的组合策略来改进编码器。
验证实验:
为了验证所提出的编码器的有效性,我们对汉英翻译任务进行了实验。
实验结果表明:
(1)利用词界信息学习准确嵌入输入的汉语句子是十分必要的;
(2)基于词格的RNN编码器在NMT方面优于标准RNN编码器。据我们所知,这是第一次尝试在词格上构建NMT。
实验部分:
1.数据集
对NIST汉英翻译任务中提出的编码器进行了评估:
训练数据集:LDC2002E18、LDC2003E07、LDC2003E14、LDC2004T07、LDC2004T08和LDC2005T06中提取的125万对句子,其中中文单词2790万,英文单词3450万。
验证数据集:NIST 2005数据集
测试数据集:NIST 2002、2003、2004、2006和2008数据集。
使用斯坦福大学发布的toolkit2在CTB、PKU和MSR语料库上训练分词器以获得汉语句子格。
为了有效的训练神经网络,我们使用了中、英文最常用的50K单词作为我们的词汇。CTB、北大、MSR、lattice语料库中的汉语词汇占98.5%、98.6%、99.3%、97.3%,英语词汇占99.7%。
2.实验结果:
字符覆盖比率:
翻译质量:
使用1-best分词的NMT解码实验:
模型:
Word Lattice
Lattice模型完全独立于分词,但由于可以在上下文中自由选择词汇来消除歧义,因此在使用单词信息时更加有效。
两种基于词格的RNN编码器
【阅读笔记二】基于BLSTM 的命名实体识别方法( fenget al. )
摘要介绍:
对于(1)监督学习语料不足;(2)RNN 无法很好地处理长距离依赖问题, 并且训练算法存在梯度消失或爆炸问题
基于三点考虑:(1)文本是否被识别为命名实体与其上下文有关, 也与构成命名实体的每个字及字序有关;(2)考虑标注序列中标签间的相关性, 对本文提出的模型的代价函数进行约束, 在小的训练数据上尽可能挖掘有价值的信息, 以提高命名实体识别的效果;(3)传统识别方法中的人工特征和领域知识对命名实体的识别效果的提升有重要影响, 但设计人工特征和获取领域知识的代价昂贵。
因此,本文提出了一种利用神经网络模型解决命名实体识别问题的有效方法, 该方法不直接依赖人工特征和外部资源, 只是利用了少量的监督数据、 领域知识和大量的无标注数据, 解决了目前的机器学习方法中过度依赖人工特征和领域知识及语料不足的问题。本文提出的命名实体识别方法中融入了词语的上下文信息、 词语的前后缀信息和领域词典, 将这种信息特征化为词的分布表示特征; 考虑了词语的标签之间的约束关系, 进一步提高了识别的效果。
展望:本文只是顺序地读取数据对命名实体进行识别, 每个词语对命名实体的影响同等重要, 并没有考虑不同的词语对命名实体的不同影响,如何将深度学习的注意力机制引入本文的模型中、 重点关注对命名实体识别有重要影响的词语, 是进一步需要解决的问题。
实验部分:
数据集:
DataSet1(大规模无标注语料)、DataSet2(标注语料)、DataSet3(命名实体识别标注语料)
DataSet4(本文将DataSet2 和DataSet3 中的标签进行 删除, 并 拆分 为 字符序列数据, 得到的数据集)
DataSet5(选择搜狗输入法词库中的部分数据[, 包括常见的中国人名、中国地名、 国家机关组织机构名, 拆分为 字符序列数据)
样本分类:TP FP TN FN
评价指标:精确率(Precision,P)、召回率 (Recall, R) 、F 测度值 (F-score,F) 、敏感度 (Sensitivity, Sent) 、特异性 (Specificity,Spec) 、1-特异性(1GSpec) 、 准确率(Accuracy,Acc)
实验结果:
实验影响因素:
地名和机构名这两类命名实体的长度通常较人名长, 而且构成复杂,由基于上下文的词向量和BLSTM_Ec 模型训练得到的词向量对识别效果有积极的影响。
人名词语长度较短、人名的姓氏和名字没有较强的约束关系、人名词典中的人名与待识别的文本中的人名实体没有很强的相关性, 因此前后缀信息、标签约束信息和领域知识对人名这类实体有一定的影响, 但影响不大。
模型:
其中,Ec为字符级向量;Ew为基于上下文词语的词向量。
【阅读笔记一】An Empirical Study of Automatic Chinese
Word Segmentation for Spoken Language Understanding and Named Entity
Recognition(Luo et al.)
背景:在英语文本中,句子是用空格分隔的单词序列。中文句子则是没有自然分隔符的字符串(其他类似语言:阿拉伯语、日语),汉语处理任务的第一步是识别句子中的单词序列,在合适的位置作边界标记。在中文文本中分词可以一定程度消歧义。分词通常被认为是许多中文自然语言处理任务的第一步,但它对这些后续任务的影响相对研究较少。
摘要介绍:
目前主要存在问题是1)在对新数据应用现有的分词器时的不匹配问题;2)一个更好的分词器是否能产生更好的后续NLP任务性能。
对于以上问题,本文提出三种方法:1)在后续的任务中使用分词输出作为额外的特征,这比使用分词单元更能抵抗错误传播。2)使用从后续任务训练数据中获得的部分标记数据对现有的分词器进行改进,进一步提高了端到端的性能。3)利用了分词输出的n-best 表,使得后续的任务对分词错误不那么敏感。
中文分词的任务主要是:1)识别句子中的单词序列。2)在合适的位置标记边界。
总结:
本文提出三种方法:利用分词输出作为附加特征;进行局部学习自适应;利用n-best表。
另外还研究了CWS在三种不同情况下的影响: 1)当域数据没有单词边界信息时,由公共域外数据构建的单词分段器能够提高端到端性能,将其与从人类注释派生的部分标记数据进行调整可以进一步提高性能。2)将n-best词分段边缘化会带来进一步的改进,当领域分词可用时,使用领域数据本身训练的词分段者有更好的CWS性能,但不一定有更好的端到端任务性能。一个在训练和测试数据上表现更平衡的词段器可以获得更好的端到端性能。3)在手工分割测试数据时,分词确实对任务有很大帮助,分词可以减少后续NLP任务的模糊性。
未来可能方向:顺序堆叠两层CRF,一层用于分词,一层用于后续任务。除了序列标记问题,探讨更多后续任务。
实验(NER部分):
对于使用的NER数据,域训练和测试数据都有词界信息。这里讨论用域内数据训练的分词器和公开可用数据之间的区别(第二种情况)。分词性能与端到端后续任务之间的关系。
实验数据:使用第三个SIGHAN中文处理Bakeoff的基准NER数据(SIGHAN-3)
(Levow, 2006)。训练集数据:46364句,测试集数据:4365句。这些数据都被标注了单词边界和NER信息。
实验结果: