NLP文本评分、文章筛选

最近要做一个新闻质量判断的项目,记录一下过程和收集到的资料,先占个坑,内容先冗杂在一起,后期再拆分

5.17

Automatic Text Scoring Using Neural Networks(使用神经网络的自动文本评分):

-论文原文地址:https://arxiv.org/abs/1606.04289

-论文解读《Automatic Text Scoring Using Neural Networks》:https://blog.csdn.net/Linyi_DanielWu/article/details/90375072

 

A Neural Approach to Automated Essay Scoring(一种自动将论文评分的神经学方法):

-论文原文:http://www.aclweb.org/old_anthology/D/D16/D16-1193.pdf

-论文解读:《A Neural Approach to Automated Essay Scoring》:

竞赛:Kaggle:The Hewlett Foundation: Automated Essay Scoring(Kaggle:The Hewlett Foundation:论文自动评分系统):https://www.kaggle.com/c/asap-aes

githb开源项目项目:Enhanced AI Scoring Engine(增强的人工智能得分引擎):https://github.com/edx/ease

------------------------------------------------------------------------------------------------------------------------

相关算法及demo:

-------------------------------------------------------------------------------------------------------------------------

实验

1、对新闻阅读量的预测:

做二分类:按阅读量标记数据,阅读量大于x为1,小于x为0

    -- 新闻contentLDA提取主题得到的D-T向量后,使用LR模型预测,val-acc:73%

考虑用户在点开新闻之前只是浏览了title,所以只使用title做语料

    -- word2vec+lstm val-acc:70%,可能是数据量太少的原因,使用深度学习并不会有太大优势

综上,可能传统的方法表现更好,遂考虑以下的模型

    -- tfidf +LR val-acc:75%  确实是比上面要好一些,后面开始调参。

 

2、对投稿新闻预测是否被选中发布:

难点:没有被选中的新闻原因很多,时效性、新闻本身质量、话题敏感等等

考虑

    -- 首先直接word2vec+lstm 丢到模型里看看主奴却屡  val-acc:

 

你可能感兴趣的:(NLP文本评分、文章筛选)