评论总结生成系统(应用型)

无效评论的过滤

1、像电商评论中最常出现的一种评论就是无意义的符号型的评论,比如全是数字或者全是标点的那种评论,这种评论可以使用正则表达式去剔除。
2、第二种评论就是一些无意义的文本评论了,比如说京东里面经常会有一些为了获得京豆而凑字数的评论,这类的评论同样是无效评论,对于没有任何标签的原始评论,这种无效评论其实比较难以检测。这时候我们假设每条这种无效评论都包含一定的关键词,我们找出这些关键词就可以判断评论是否是无效的评论。当然我们不需要找出所有的无效词,我们只要找出少部分,然后通过词向量或者TF-IDF去找相似的词就可以啦,当然这边最好还是要有一定的人工干预,不然容易过滤掉一些有效的评论。
3、第三种评论就是情感和评分出入很大的评论,这类评论也算一种无效评论,检测这种评论主要使用情感分析的技术去分析每一个评论的情感极性,然后和它的评分做相应的比较就可以加以判断了。

方面属性的抽取

有了删选完成的评论数据之后,我们就可以开始我们的方面属性提取了,什么叫方面属性,举一个简单的例子,例如手机的评论,里面的方面属性就可以是外观、续航、屏幕之类,由于数据没有任何标签,这边我尝试使用关键词抽取的方式来抽取出具体的方面属性,主要应用的算法也就是TF-IDF、TextRank之类的算法。

描述性短语的抽取

这种主要就是抽取两类短语啦,外观很好看,很好的设计,使用窗口+词性标注就可以实现这类短语的抽取了。

最终总结评论的生成

我们抽取出大量的评论之后要怎么去生成一个总结性的评论呢。
这里其实有两套方案,首先介绍第一套方案,有机会再介绍第二套方案。

两个简单的定义
首先是流行性:也就是总评论数量中包含这条短语的比例
其次是明确性:比如说有50个描述词是漂亮,其中手机外观漂亮占了百分之九十,那么漂亮很明显就是描述外观的

我们的主要目的就是最大化这两个定义,找出最合适的评论短语去拼接我们的评论总结

我们使用整数线性规划(ILP)去解这个问题,长度约束,方面短语约束,情感一致性约束

主要的一些知识点:
TF-IDF、TextRank、ILP、词性分析的基本算法

你可能感兴趣的:(NLP)