Character-level Convolutional Networks for Text Classification

文中指出,在大规模数据集上(尤其是书写不规范的ugc),cnn文本分类问题在char-level同样有很好的效果。
文中alphabet总共有70个char:


alphabet

模型包括6层卷积3层全连接,前两层fc使用了0.5的dropout。


Character-level Convolutional Networks for Text Classification_第1张图片
char-cnn

每层细节如下表所示:


Character-level Convolutional Networks for Text Classification_第2张图片
Character-level Convolutional Networks for Text Classification_第3张图片

输入部分截断到长度为1014,不在alphabet中的词向量置0。

数据增强:近义词替换

评估:


Character-level Convolutional Networks for Text Classification_第4张图片
Evaluation

你可能感兴趣的:(Character-level Convolutional Networks for Text Classification)