最近在预言文本相似度相关的知识,接下来实践一下基于WMD(词移距离)的短文本相似度计算。
词移距离(Word Mover's Distance)是在词向量的基础上发展而来的用来衡量文档相似性的度量, 是一种计算句子之间距离的方法,距离越小,相似度越高。
词移距离WMD:
Word2Vec得到的词向量可以反映词与词之间的语义差别,那么如果我们希望有一个距离能够反映文档和文档之间的相似度,应该怎么做呢?一个想法是将文档距离建模成两个文档中词的语义距离的一个组合,比如说对两个文档中的任意两个词所对应的词向量求欧氏距离然后再加权求和,大概是这样的形式:,其中c(i,j)为i,j两个词所对应的词向量的欧氏距离。
词移距离的gensim官方例子在https://github.com/RaRe-Technologies/gensim/blob/c971411c09773488dbdd899754537c0d1a9fce50/docs/notebooks/WMD_tutorial.ipynb
语料:网上爬取的语料
实现步骤:
1、数据预处理
2、训练词向量
3、计算WMD(词移距离)的短文本相似度
数据预处理:加载停用词,分词
# -*- coding: UTF-8 -*-
import jieba
f1 = open('write.txt','w',encoding='utf-8')
f = open('data/shan2.txt', encoding='utf-8')
lines = f.readlines()
corpus = []
documents = []
#加载停用词
stopwords = []
stopword = open('data/stopword.txt','r',encoding='utf-8')
for line in stopword:
stopwords.append(line.strip())
for each in lines:
each = each.replace('\n', '').replace(' ', '').strip()
print(each)
documents.append(each)
each = list(jieba.cut(each))
text = [w for w in each if not w in stopwords]
corpus.append(text)
print(len(corpus))
训练模型:
# -*- coding: UTF-8 -*-
from gensim.models import Word2Vec
from wmd_process import corpus
print(20 * '*', '训练模型', 40 * '*')
model = Word2Vec(corpus, workers=3, size=100,min_count=1)
model.save("model/word2vec_news.model")
print("训练完成")
计算WMD(词移距离)的短文本相似度:
# -*- coding: UTF-8 -*-
from gensim.similarities import WmdSimilarity
import jieba
from wmd_process import corpus
from wmd_process import documents
from gensim.models import Word2Vec
#停用词载入
stopwords = []
stopword = open('data/stopword.txt','r',encoding='utf-8')
for line in stopword:
stopwords.append(line.strip())
# 加载模型
model = Word2Vec.load("model/word2vec_news.model")
# 初始化WmdSimilarity
num_best = 10
instance = WmdSimilarity(corpus, model, num_best=10)
print(20 * '*', '测试', 40 * '*')
while True:
sent = input('输入查询语句: ')
sent_w = list(jieba.cut(sent))
query = [w for w in sent_w if not w in stopwords]
#在相似性类中的“查找”query
sims = instance[query]
# 返回相似结果
print('source_Query:')
print(sent)
for i in range(num_best):
print('sim = %.4f' % sims[i][1])
print(documents[sims[i][0]])
返回结果展示:
******************** 测试 ****************************************
输入查询语句: 借钱不还怎么办
source_Query:
借钱不还怎么办
sim = 0.8512
20623,对方借钱不还怎么办
sim = 0.8488
19687,欠钱不还不承认怎么办
sim = 0.8424
19361,别人借钱不还怎么办
sim = 0.8400
19706,借钱给别人不还怎么办
sim = 0.8388
20561,"朋友借钱不还,我该怎么办"
sim = 0.8352
19077,同事借钱不还怎么办
sim = 0.8285
19820,欠钱不还没钱还怎么办
sim = 0.8251
19166,借钱100万不还怎么办
sim = 0.8243
19773,借钱暂时还不了怎么办
sim = 0.8231
19902,对方欠钱不还怎么办
输入查询语句: 放高利贷会坐牢吗
source_Query:
放高利贷会坐牢吗
sim = 0.8617
82,放高利贷会坐牢吗
sim = 0.8263
706,放高利贷构成犯罪吗
sim = 0.8112
2969,放高利贷犯法吗?
sim = 0.7902
796,赌场放高利贷犯法吗
sim = 0.7841
262,帮人放高利贷犯法吗
sim = 0.7816
387,赖账会坐牢吗
sim = 0.7816
485,信用卡三万块还不了会坐牢吗
sim = 0.7812
785,欠账扣车违法吗
sim = 0.7786
1034,分期付款买手机不还款会坐牢吗
sim = 0.7784
801,职业放贷人会坐牢吗
输入查询语句: 夫妻离婚债务如何处理
source_Query:
夫妻离婚债务如何处理
sim = 0.8387
22126,夫妻共同债务如何界定,夫妻共同债务如何处理
sim = 0.8307
18656,离婚时怎样处理夫妻共同债务,夫妻共同债务如何处理
sim = 0.8302
23014,婚后债务如何处理
sim = 0.8137
23388,夫妻离婚后债务如何处理
sim = 0.8130
21871,离婚如何处理夫妻间债务关系
sim = 0.8106
11018,夫妻共同债务离婚时如何处理,夫妻共同债务如何分割?
sim = 0.8102
22127,夫妻共同债权如何处理,夫妻共同债务如何处理
sim = 0.8085
20552,夫妻婚前债务怎么处理,夫妻婚前债务的处理
sim = 0.8078
22167,如何处理夫妻共同债务,夫妻共同债务的处理原则
sim = 0.8074
20247,离婚怎么处理夫妻间债务关系,协议离婚如何处理债务
小结:
感觉效果还可以,但是据相关验证WMD文本相似度计算的效果和word2vec效果差不多,还不一定有word2vec效果好。
相关理论链接:Supervised Word Mover's Distance (可监督的词移距离) - NIPS 2016论文精选#2
https://blog.csdn.net/qrlhl/article/details/78512598