论文总结7 基于LDA主题模型的软件缺陷分派方法_黄小亮|TF-IDF

目录

 构建模型

对称狄利克雷分布

软件缺陷分派


传统的VSM向量空间模型的软件缺陷分配方法:存在特征空间维度高数据稀疏且包含噪音等问题,分派准确率较低。

LDA:将缺陷报告从原始的高维文本单词空间映射到低维语义主题空间,在新的低维主题空间上进行分派。

软件缺陷分派的目的,就是利用缺陷跟踪系统(如 Bugzilla)中己解决缺陷的历史信息(包括参与解决缺陷的人员信息),对新提交的缺陷进行自动分派。缺陷的自动分派能帮助系统开发与维护人员将宝贵的时间专注于缺陷的修复。

相比于普通的文本分类问题,缺陷分派可用信息少,而类别多,每个开发人员相当于一个类别,因此分配效果普遍较差,分派准确率低。

使用基于文本分类的方法来进行缺陷分派时,基本方法是使用 description 信息作为文本,修复缺陷的人作为文本的类别标签,然后用 TF-IDF(Term Frequency-Inverse Document Frequency)构建向量空间模型,将每个缺陷报告表示成单词空间上的一个向量,再使用分类方法对新的缺陷报告进行分类,将其分派给类别对应的开发者。论文总结7 基于LDA主题模型的软件缺陷分派方法_黄小亮|TF-IDF_第1张图片

LDA 是一种对文本建模的方法,它将文档表示成一个由文档、主题和词组成的 3 层概率模型,常被用来做主题分析[5]。LDA 模型建立在文档是“词袋”(bag-of-word)的假设之上,该假设忽略了单词之间的顺序关系,是可交换的,因此,在给定某些参数的情况下,这些单词在文档中就是独立同分布的。通过 LDA 建模,可以将文本映射到主题空间上,从而对其进行主题分类判断相似度等操作。论文总结7 基于LDA主题模型的软件缺陷分派方法_黄小亮|TF-IDF_第2张图片

 构建模型

推导模型的参数的方法是使用吉布斯采样Gibbs的马尔可夫链蒙特卡洛MCMC方法,该方法对每个位置上的单词(将所有文档连成串)分配一个主题,并以此为状态空间来构建马尔可夫链,通过Gibbs采样来更新节点状态(单词的主题),收敛到稳定状态后再用统计规律计算出数据集上LDA模型概率分布的近似。

对称狄利克雷分布

论文总结7 基于LDA主题模型的软件缺陷分派方法_黄小亮|TF-IDF_第3张图片

软件缺陷分派

LDA 是一种对文本建模的方法,它将文档表示成一个由文档、主题和词组成的 3 层概率模型,常被用来做主题分   析[5]。LDA 模型建立在文档是“词袋”(bag-of-word)的假设之上,该假设忽略了单词之间的顺序关系,是可交换的,因此,在给定某些参数的情况下,这些单词在文档中就是独立同分布的。通过 LDA 建模,可以将文本映射到主题空间上,从而对其进行主题分类和判断相似度等操作。 论文总结7 基于LDA主题模型的软件缺陷分派方法_黄小亮|TF-IDF_第4张图片

(2023年 3月11日 23:00首次发布)

你可能感兴趣的:(论文总结,机器学习,人工智能)