gensim conherence model C_V 值与其他指标负相关BUG

在我用gensim3.8.3 conherence model分析京东评论主题模型时, C_V 与npmi、u_mass出现了强烈的皮尔逊负相关:

gensim conherence model C_V 值与其他指标负相关BUG_第1张图片

这些地方也反映了类似问题:

https://github.com/dice-group/Palmetto/issues/12

https://github.com/dice-group/Palmetto/issues/13

https://github.com/dice-group/Palmetto/issues/76

按道理来说,这些一致性评分都是越高越好。这里是怎么回事呢?

原来是原实现代码的gamma值搞错了,应该设置为1而不是2:

https://github.com/dice-group/Palmetto/issues/81

ps:截至2023.07.27,我电脑里的gensim版本还是3.8.1,没有更新到最新版的gensim(4.3.0),因此不知道gensim是否已修复此问题。肯折腾的朋友可以去尝试一下

你可能感兴趣的:(NLP,bug,数据分析,gensim)