Is Word Segmentation Necessary for Deep Learning of Chinese Representations? 论文笔记

Is Word Segmentation Necessary for Deep Learning of Chinese Representations?

分词带来的问题

  • 词的稀疏性,很多词仅出现一次,引起过拟合和OOV问题
  • 汉语的vague带来分词的困难,不同分词器不同结果
  • 据说分词会带来更多的语义信息,但目前不能确定,因为语料库太小而不能看到性能的提升

深度学习前

在IR、MT等领域,分词对模型的效果都没有明显的提高-或不一定提高。

在认知科学里面,眼动实验中,读字跟读词一样快

深度学习的实验

MT、文本分类、语言建模、句子匹配

表现都更好,至少一样好——基于字也编码了足够的语义信息

为什么不好

  • data sparsity
  • OOV word
  • over fit
  • 不同领域之间迁移能力弱

相关工作

基于词典分词,举例最大匹配模型

统计模型:HMM-BEMS

具体实验

详细介绍了 基于字符和基于词的模型在不同任务(MT、文本分类等)上的表现,并进行了相应的分析。认为word并不能带来更多的语义信息

对为什么有此差别进行了分析:sparsity、OOV、过拟合,进行了句子之间attention的可视化

其他

看到了网上对这篇论文的评价,有人认为很有启发,很novel,有的人认为实验很迷,认为transformer的模型表现不会这么差。

这篇论文提供了一个思路,抛砖引玉吧。

你可能感兴趣的:(NLP)