文献笔记1

一、文章信息

作者:陈卓,李倩,杜军威

单位:青岛科技大学信息科技技术学院

期刊:东北师大学报(自然科学版)

题目:面向化工领域社区问答的答案质量预测研究

二、背景、目的、结论

背景:海川化工论坛是化工领域最具权威性的问答及社交网站,但随着问答社区规模的增大,用户专业水平差异明显,导致问题回答质量参差不齐,提问者对答案筛选辨别难度大大增加

目的:对用户来说,有影响力的用户给出的答案具有较高的可信度和可靠性.为此,需要根据高质量答案的共有特征以及给出该答案的用户特征,设计高效的高质量答案识别方法,推动社区发展并加快知识传播,减少知识获取成本

结论:通过分析海川化工论坛问答相关数据﹐从答案的文本特征和基于网络表示学习的用户特征两个方面构建答案特征.利用因子分解机(FM)算法构建了答案质量预测模型。实验结果表明,用该方法构建的化工问题答案预测模型得到的答案选择准确率相比深度学习模型有了明显提升

三、结果与讨论

通过数据集分析获取比较重要的数据并预处理

文献笔记1_第1张图片

为了确保提取的特征对答案的选择是有影响的,对从数据集中提取的特征进行了一个P值、均值和标准差的计算

文献笔记1_第2张图片

由表3可看出标签﹖的汉字个数、平均句长.标点符号、答赏人数﹑总财富和总魅力远远高于标签1和标签3

随后调整矩阵参数获得不同的准确率分布

文献笔记1_第3张图片

最终学习率取0.005,迭代次数取80,k取128

最后采取FM模型优化分析,为了评价模型的预测结果,本文采用准确率作为衡量指标。经过文本向量进行分组实验,得出分解机维度的改变对准确率没有影响.因此,后续实验将采用4特征向量,分解机维度取1.1.10.,后又计算不同迭代次数下的准确率,得出在迭代次数为100,学习率为0.01的情况下准确率最高。

图8表示在学习率为0.01,分解机维度为1.1.10,迭代次数为100的参数条件下,将文本向量和用户向量结合起来的SGD、MCMC、ALS3种优化方法的准确率分布.由图8可知,使用随即梯度下降(SGD)优化方法所得的准确率最高.并且结合前面的实验发现,将用户向量加上之后,准确率提高到了98.8% 文章随机选取了⒉组和3组测试集,与第1组作比较,发现准确率最高的是第Ⅰ组,为98.8%(见图9).

文献笔记1_第4张图片

最终通过与模型1 : word2vec+Bi-LSTM+Attention答案质量预测模型.模型2:word2vec+Bi-LSTM答案质量预测模型的实验结果进行对比可以看出基于FM模型的分类方法相较于其他深度学习模型性能明显提升,是一个较好的获得高质量答案的预测模型。

文献笔记1_第5张图片

四、文章好在哪里

  1. 思路清晰,步骤鲜明。说明现状提出问题并引出FM算法,接着介绍所需的文本体征和用户特征以及FM算法的计算方法。然后展示实验结果并进行适当分析,清晰展示出了FM算法的优势。结构值得借鉴。

  1. 多次利用对比法获得所需数组,很严谨、可信度高。

  1. 运用FM算法,并将其应用到海川化工论坛,通过构建一种新的用户特征网络表示形式并将其与文本特征拼接在一起,发现比其他深度学习模型性能明显提升,在未来能为用户预测更加优质的答案。

你可能感兴趣的:(其他)