rnn attention 进行文本分类测试报告

一直在在进行 NLU 的研究,项目需要,需要进行text class,之前用的是 xgb,使用的是二分类,效果总体还可以,但是缺点也很明显,费劲呀,当需要进行生产时,每一个文本都需要把所有的模型全部调用一遍,流量很大的时候,服务器压力可想而知哈。

后来进行了 textcnn 的测试,对于每一个class,使用二分类的时候,效果可以比 xgb 提升约5%,达到93%,问题还是上面提到的,流量大了服务器顶不住,然后用多分类测试,当class > 20时,准确率下降到了70%,惨不忍睹呀。

ok,接着改进吧,用 rnn + attention 试试吧,听着是不是很牛逼,attention 呀,结果令人大失所望,结果就不说了,代码用的是这个,其中也提到了,代码实现的是这篇论文《Hierarchical Attention Networks for Document Classification》。既然大名鼎鼎,我这测试效果不好,肯定是有原因的。统计了下,我这里每个分类的文本平均就是40个汉字吧,算是句子哈,训练数据大概是3.6万,测试、验证数据各0.4万。猜想大概是因为文本短,信息量少,所以更复杂的算法反而效果不好?就像朝鲜战场,小米加步枪干掉飞机坦克??

好吧,等我想明白再更新吧,只是做个记录哈。

你可能感兴趣的:(rnn attention 进行文本分类测试报告)