(Python gensim+Word2Vec)实现文本相似度计算

# -*-encoding=utf-8-*-
import jieba
from gensim.models.word2vec import Word2Vec
# jieba分词返回列表
def jieba_cut(sent):
    sent1 = jieba.lcut(sent)
    return sent1
# gensim-Word2Vec模型训练
def word2vec1(sent1,sent2):
    sent1 = jieba_cut(sent1)
    sent2 = jieba_cut(sent2)
    sentences = [];sentences.append(sent1);sentences.append(sent2)
    model = Word2Vec(sentences, min_count=1)
    return model
# 输入需要分析的文本
def model1():
    sent1 = jieba_cut(input())
    sent2 = jieba_cut(input())
    return sent1,sent2
# 输出特定词在文本中的相似性比较
def sim(mo,sent1,sent2):
    for i in mo.wv.most_similar(sent1,sent2,topn=5):
        print(i[0],i[1])
    # print(mo.wv.most_similar(sent1,sent2,topn=5)
mo = word2vec1(input(),input())
yo = model1()
xo = mo.wv.n_similarity(yo[0],yo[1])
print('文本相似度:%f'%xo)
sim(mo,["互联网","信息"],["个人隐私"])
# 输出全文本词向量
print(mo.wv.vectors)
# 来自网络社交、直播、游戏、电商、金融、物流、交通、社区服务等多个应用领域运营主体的相关负责人现场签署了《深圳市APP个人信息保护自律承诺书》,向社会公开作出“不超范围采集信息,不强制索要用户授权,不利用大数据杀熟、不滥用人脸识别数据,不监听个人隐私”等承诺。
# 深圳市委网信办主要负责同志表示,深圳是互联网大市,互联网站和APP数量位居全国各大城市前列,强化个人信息保护尤为重要。头部企业要带头落实主体责任,做到“言必信、行必果”,把承诺落实在实际行动上,建立严格的个人信息保护合规制度体系,确保用户放心下载、放心使用,为全市广大APP运营企业发挥表率作用。网信部门将以开展党史学习教育“我为群众办实事”实践活动为契机,切实履行监管责任,汇聚各部门和社会各方力量,把群众急难愁盼的事抓实抓好抓到位。
# 不超范围采集信息,不强制索要用户授权,不利用大数据杀熟、不滥用人脸识别数据,不监听个人隐私”等承诺。
# 深圳是互联网大市,互联网站和APP数量位居全国各大城市前列,强化个人信息保护尤为重要。

待测文本未去除停用词

(Python gensim+Word2Vec)实现文本相似度计算_第1张图片

 敬请指正!

你可能感兴趣的:(nlp,python,word2vec)