NLP 分类问题的讨论

不同形态的文本

  • 短文本
    商品评论,电影短评, 微博等内容, 句子的长度在50个单词以内。
    因为句子短, 所以对这些 word 的 vector 取平均 还能保留一些局部信息, 论文中普遍这么用.
  • 长文本
    长篇文本, 1000单词级别.
    因为句子长, 所以对各 word 的 vector 取平均就没什么意思了, 不然有了 word2vec 之后, 就没有必要再搞一个 doc2vec 出来了.
  • 多元素内容
    像电商的导购文章, 有文本,图片, 短视频, 商品信息等。
    我们希望综合语义与其他非语义信息, 作为融合特征用于建模.

文本分类相关手段对比

  • 词袋模型
    通过单词的 one-hot 得到文本的向量表示, 高维又稀疏, 忽略词语之间的关联性.
  • Text CNN
    需要固定文本长度n,如n=50, 取50个单词, 过短的进行zero-padding, 长的需要截断。
    所以, 长文本因为内容截断, 会有信息损失.
  • FastText
    不需要固定文本长度.
    输出为单词的vector时, 无法有效表示长文本。
    输出为类别时, 可以满足需求. 但无法融合文章中的非文本信息.
  • Word2Vec
    给一个语料库, 训练后得到每个单词的 vector 表示, 但用这些 word 去表示长文本还是很勉强.
  • Doc2Vec
    无监督的学习, 得到的doc的vector更通用.
    但阿里云PAI的Doc2Vec组件没有预测功能. 对于未登录文本, 就无能为力了.
  • 多网络融合
    第一个网络用于处理文章的语义, 第二个处理传统特征

参考

  1. Semi-supervised Convolutional Neural Networks for Text Categorization via Region Embedding

你可能感兴趣的:(NLP)