最近要做一个新闻质量判断的项目,记录一下过程和收集到的资料,先占个坑,内容先冗杂在一起,后期再拆分
5.17
Automatic Text Scoring Using Neural Networks(使用神经网络的自动文本评分):
-论文原文地址:https://arxiv.org/abs/1606.04289
-论文解读《Automatic Text Scoring Using Neural Networks》:https://blog.csdn.net/Linyi_DanielWu/article/details/90375072
A Neural Approach to Automated Essay Scoring(一种自动将论文评分的神经学方法):
-论文原文:http://www.aclweb.org/old_anthology/D/D16/D16-1193.pdf
-论文解读:《A Neural Approach to Automated Essay Scoring》:
竞赛:Kaggle:The Hewlett Foundation: Automated Essay Scoring(Kaggle:The Hewlett Foundation:论文自动评分系统):https://www.kaggle.com/c/asap-aes
githb开源项目项目:Enhanced AI Scoring Engine(增强的人工智能得分引擎):https://github.com/edx/ease
------------------------------------------------------------------------------------------------------------------------
相关算法及demo:
-------------------------------------------------------------------------------------------------------------------------
实验
1、对新闻阅读量的预测:
做二分类:按阅读量标记数据,阅读量大于x为1,小于x为0
-- 新闻contentLDA提取主题得到的D-T向量后,使用LR模型预测,val-acc:73%
考虑用户在点开新闻之前只是浏览了title,所以只使用title做语料
-- word2vec+lstm val-acc:70%,可能是数据量太少的原因,使用深度学习并不会有太大优势
综上,可能传统的方法表现更好,遂考虑以下的模型
-- tfidf +LR val-acc:75% 确实是比上面要好一些,后面开始调参。
2、对投稿新闻预测是否被选中发布:
难点:没有被选中的新闻原因很多,时效性、新闻本身质量、话题敏感等等
考虑
-- 首先直接word2vec+lstm 丢到模型里看看主奴却屡 val-acc: