文献笔记5

一、文章信息

作者:成全 张燕刚

单位:福州大学经济与管理学院

期刊:情报学报

题目:面向用户需求主题的在线问答社区 信息多层级分类研究

二、背景、目的、结论

背景:互联网在线问答社区服务的广泛性、便捷性、互动性与个性化特征促进了该模式的飞速发展,在线问答社 区已逐渐成为人们获取各类生活信息的重要平台。然而,社区内信息资源存在缺乏有效组织与语义关联缺失等现实瓶 颈,以及生活类信息的高复杂、多层级等特性,导致用户的在线信息需求服务体验效果不尽如人意。

目的:为实现对在线问 答社区内各类信息资源的细粒度组织与语义关系揭示,进而达到面向用户需求主题实施信息精准分类的目标,本研究 利用在线母婴社区内用户提问数据构建用户需求的多层级架构体系,进而生成经过验证的、具有多层级需求主题的标 签化数据实验样本。

结论:通过比对本研究所构建的面向用户需求主题的信息多层级分类模型 与 TextAttBiRNN 单层级分 类模型及 HFT-CNN 、HCCNN 等多层级分类模型的分类效果,验证了UNT-HC模型在实现在线问答社区中层级单标签、超 细粒度文本信息分类应用中性能的优越性。

三、结果与讨论

实验内容主要涉及以下三个部分:

(1)在线问答社区用户信息需求主题层级分类体系构建,利用在线母婴问答社区妊娠期孕妇提问文本数据构建用户信息需求主题层级分类体系,并以此作为UNT-HC模型构建及其数据样本标签编码评估的标准;

(2)通过实验对比多组不同的参数值取值对UNT-HC模型多层级分类效果的影响,并且选取其中相对最优的一组参数取值作为最终模型的参数设置;

(3)通过实验对比不同词表征模型对UNT-HC模型多层级分类效果的影响,并从中选择一种相对较优的词表征模型进行后续模型分类效果对比验证实验。

经过对用户数据和层级分类数据的划分和预处理以及编码和测试之后,分别使用 word2vec、 FastText、DSG、LDA2vec 四种词表征模型对 moth‐ er_data 数据集中的用户提问文本进行表征,并且分 别将层级分类实验结果的准确度输出 。不同 词表征模型层级分类准确度实验结果如下图所示

文献笔记5_第1张图片

在后续两组实验中, 将选择本实验中的 FastText 词表征模型及其对应的 层级分类结果完成对比验证 。

迭代到第 9 次时,第 3 层级损失值与 准确率趋于平稳,此时模型达到最优。

文献笔记5_第2张图片

为验证本研究模型 UNT-HC 相较于单层级分类 模型的分类效果是否有显著提升,本研究利用相同 数据集对比验证了单层 TextAttBiRNN 文本分类算法 与 UNT-HC 分类模型,其对比实验结果如下表。

文献笔记5_第3张图片

由上表可知,相比于直接对最底层标签预测的 单层级分类算法 TextAttBiRNN 而言,本研究模型 UNT-HC 的分类效果有明显提升。

为验证相较于现有的多层级分类模型 HFT-CNN 与 HCCNN,本研究模型 UNT-HC 的分类性能,在 采用同一数据集的情况下,分别利用两种层级分类 模型对其进行多层级分类训练与测试。

HFT-CNN 模型和 HCCNN 模型的最终标签分类结果 如下表

文献笔记5_第4张图片

根据各层级分类模型最终标签分类预测准确率 结果可知,本研究模型 UNT-HC 相比于 HFT-CNN 和 HCCNN 模型的多层级单标签分类效果更优 。

四、文章好在哪里

  1. 引言阶段提出 了文章的贡献,是新思路,暂时不知道能否借鉴。

  1. 研究也是关于两大核心问题,类似与其他文章,可以运用。

  1. 可以从多角度出发说明现状。

  1. 对于中文文本而言,预处理主要包括中文 文本分词和去停用词两个阶段,可用Jieba分词工具。

————————————————

版权声明:本文为CSDN博主「szx6984」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。

原文链接:https://blog.csdn.net/szx6984/article/details/128595205

你可能感兴趣的:(其他)