word2vec python 代码实现,word2vec初探(用python简单实现)

为什么要用这个?

因为看论文和博客的时候很常见,不论是干嘛的,既然这么火,不妨试试.

如何安装

从网上爬数据下来

对数据进行过滤、分词

用word2vec进行近义词查找等操作

运行结果:

需要安装的包,可以用pycharm的preference:

点「+」加号

同样,点「+」加号。过一会儿会提示你安装是否成功的。

整个的文件结构:

-语料(网上爬下来的)

-自定义词典

-主要的python文件

主要的py文件:

# -*- coding: utf-8-*-

import jieba

from gensim.models import word2vec

# 去掉中英文状态下的逗号、句号

def clearSen(comment):

comment = comment.strip(' ')

comment = comment.replace('、','')

comment = comment.replace('~','。')

comment = comment.replace('~','')

comment = comment.replace('{"error_message": "EMPTY SENTENCE"}','')

comment = comment.replace('…','')

comment = comment.replace('\r', '')

comment = comment.replace('\t', ' ')

comment = comment.replace('\f', ' ')

comment = comment.replace('/', '')

comment = comment.replace('、', ' ')

comment = comment.replace('/', '')

comment = comment.replace(' ', '')

comment = comment.replace(' ', '')

comment = comment.replace('_', '')

comment = comment.replace('?', ' ')

comment = comment.replace('?', ' ')

comment = comment.replace('了', '')

comment = comment.replace('➕', '')

return comment

# 用jieba进行分词

comment = open('./corpus/comment.txt').read()

comment = clearSen(comment)

jieba.load_userdict('./user_dict/userdict_food.txt')

comment = ' '.join(jieba.cut(comment))

# 分完词后保存到新的txt中

fo = open("./corpus/afterSeg.txt","w")

fo.write(comment)

print("finished!")

fo.close()

# 用 word2vec 进行训练

sentences=word2vec.Text8Corpus(u'./corpus/afterSeg.txt')

# 第一个参数是训练语料,第二个参数是小于该数的单词会被剔除,默认值为5, 第三个参数是神经网络的隐藏层单元数,默认为100

model=word2vec.Word2Vec(sentences,min_count=3, size=50, window=5, workers=4)

y2=model.similarity(u"不错", u"好吃") #计算两个词之间的余弦距离

print(y2)

for i in model.most_similar(u"好吃"): #计算余弦距离最接近“滋润”的10个词

print(i[0],i[1])

# 训练词向量时传入的两个参数也对训练效果有很大影响,需要根据语料来决定参数的选择,好的词向量对NLP的分类、聚类、相似度判别等任务有重要意义

清洗数据的clearSen()不要笑。萌新就是这样很傻很粗暴的……

Python简单爬虫入门三

我们继续研究BeautifulSoup分类打印输出 Python简单爬虫入门一 Python简单爬虫入门二 前两部主要讲述我们如何用BeautifulSoup怎去抓取网页信息以及获取相应的图片标题等信 ...

Python简单爬虫入门二

接着上一次爬虫我们继续研究BeautifulSoup Python简单爬虫入门一 上一次我们爬虫我们已经成功的爬下了网页的源代码,那么这一次我们将继续来写怎么抓去具体想要的元素 首先回顾以下我们Bea ...

亲身试用python简单小爬虫

前几天基友分享了一个贴吧网页,有很多漂亮的图片,想到前段时间学习的python简单爬虫,刚好可以实践一下. 以下是网上很容易搜到的一种方法: #coding=utf-8 import urllib i ...

GJM : Python简单爬虫入门(二) [转载]

感谢您的阅读.喜欢的.有用的就请大哥大嫂们高抬贵手"推荐一下"吧!你的精神支持是博主强大的写作动力以及转载收藏动力.欢迎转载! 版权声明:本文原创发表于 [请点击连接前往] ,未经 ...

Selenium + PhantomJS + python 简单实现爬虫的功能

Selenium 一.简介 selenium是一个用于Web应用自动化程序测试的工具,测试直接运行在浏览器中,就像真正的用户在操作一样 selenium2支持通过驱动真实浏览器(FirfoxDrive ...

【美妙的Python之中的一个】Python简单介绍及环境搭建

美妙的Python之Python简单介绍及安装         简而言之: Python 是能你无限惊喜的语言,与众不同.             1.Python:                  ...

PHP分页初探 一个最简单的PHP分页代码的简单实现

PHP分页代码在各种程序开发中都是必须要用到的,在网站开发中更是必选的一项. 要想写出分页代码,首先你要理解SQL查询语句:select * from goods limit 2,7.PHP分页代码核 ...

python 简单图像识别--验证码

python  简单图像识别--验证码 记录下,准备工作安装过程很是麻烦. 首先库:pytesseract,image,tesseract,PIL windows安装PIL,直接exe进行安装更方便( ...

python简单的监控脚本-利用socket、psutil阻止远程主机运行特定程序

python简单的监控脚本-利用socket.psutil阻止远程主机运行特定程序 psutil是一个跨平台的库(http://code.google.com/p/psutil/),能够轻松的实现获取 ...

Python 简单入门指北(二)

Python 简单入门指北(二) 2 函数 2.1 函数是一等公民 一等公民指的是 Python 的函数能够动态创建,能赋值给别的变量,能作为参传给函数,也能作为函数的返回值.总而言之,函数和普通变量 ...

随机推荐

jquery基础

show() hide() toggle()         fadeIn() fadeOut() fadeToggle() fadeTo()         slideUp() slideDown( ...

Spring的IOC原理(转载)

在网上看到一篇文章,感觉写得挺不错的,转载一下,本文转载自:http://www.cnblogs.com/xdp-gacl/p/3707631.html 一. IoC理论的背景 我们都知道,在采用面向 ...

关于区域性网站CMS的一些个人看法

最近了解了几款国外开源CMS,与现有国内客户需求及业务习惯,结论如下:1.国人的习惯,有后台管理和会员管理2种,而老外大部分开源系统都是一个管理即前台管理,而且大部分架构是固定死的,如果在想抽出一个后 ...

安卓开发_浅谈Service

一.Service(服务) Service是Android程序中四大基础组件之一,它和Activity一样都是Context的子类,区别在于它没有UI界面,是在后台运行的组件. public abst ...

C#格式化

格式化表示的一般格式 { N [ , M ] [ :格式码 ] } N:  指定参数序列中的输出序号,比如{0} , {1}, {2}等. M: 指定参数输出的最小长度. 如果参数长度小于M,则空格填 ...

MySQL数据库8.0.15 安装教程

第一步:安装MySQL服务 这里下载完成的是一个压缩文件,直接将里面的‘mysql-8.0.15-winx64'文件夹解压到你想要安装的路径即可,我是直接安装在C盘的. 解压完后的文件路径如下图: 在 ...

PHP语言学习之php做图片上传功能

本文主要向大家介绍了PHP语言学习之php做图片上传功能,通过具体的内容向大家展示,希望对大家学习php语言有所帮助. 今天来做一个图片上传功能的插件,首先做一个html文件:text.php < ...

承上 DBlink 与 SCN | 新增视图找出外部 SCN 跳变

综述    SQL> set pages 100 lines 200 col result for a15 col OPERATION_TIMESTAMP for a35 col HOST_N ...

【React + flask】跨域服务及访问

Flask from flask import Flask , request from flask_cors import * import flask import json import pic ...

Spring Security 认证流程

请求之间共享SecurityContext原因:

你可能感兴趣的:(word2vec,python,代码实现)