E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
zhwiki
解决gensim训练时出现killed问题
具体代码如下:importgensimimporttimeimportosimportglob#将语料库分成多个文件corpus_path='/mnt/e/ProLearn/NLP/wiki_nlp_data/
zhwiki
_simplified_yh.t
一个爱折腾的小人物
·
2023-12-27 06:18
日常小知识
python
自然语言处理
机器学习
人工智能
深度学习
wiki中文语料+word2vec (python3.5 windows win7)
环境:win7+python3.51.下载wiki中文分词语料使用迅雷下载会快不少,大小为1个多Ghttps://dumps.wikimedia.org/
zhwiki
/latest/
zhwiki
-latest-pages-articles.xml.bz22
deex13491
·
2023-11-03 05:39
python
json
操作系统
word2vec工具实战(使用gensim)
3.8condaactivateword2vec然后安装一下所需要的库pipinstallnumpypipinstallscipypipinstallgensimpipinstalljieba首先下载一下数据集
zhwiki
Otto_1027
·
2023-08-14 22:42
跑项目实况
word2vec
自然语言处理
制作百科词向量
分为如下步骤:下载WikiExtractort提取繁体文转化为简体文分词训练模型(获得词向量)测试1.下载网址如下:https://dumps.wikimedia.org/
zhwiki
/,具体可见最开始的那个网站
白三点
·
2023-06-18 07:14
python
深度学习
windows下使用word2vec训练维基百科中文语料全攻略!(一)
训练数据下载我们使用维基百科训练词向量,维基百科数据的下载地址为:https://dumps.wikimedia.org/
zhwiki
/lates
LeadAI学院
·
2023-04-10 06:10
(一)利用Wikipedia中文语料训练词向量word2vec——获取Wikipedia简体中文语料库
目录第一步下载语料库第二步将下载好的bz2文件转换为txt(text)文件第三步繁体转换为简体第一步下载语料库Wikipedia中文语料库链接:https://dumps.wikimedia.org/
zhwiki
风度翩翩猪肉王子
·
2023-03-15 05:15
MachineLearning
word2vec
wikipedia
语料库
wiki维基百科各种语料数据下载
wiki维基百科常用语料下载路径英文语料路径:https://dumps.wikimedia.org/enwiki/中文语料路径:https://dumps.wikimedia.org/
zhwiki
/西班牙语料路径
mtj66
·
2023-01-05 16:50
机器学习
python
NLP:使用 gensim 中的 word2vec 训练中文词向量
可以在wiki官网下载中文语料,下载后得到一个名为
zhwiki
-latest-p
空杯的境界
·
2023-01-05 10:43
01_机器学习
#
01.02
NLP
word2vec
词向量
gensim
NLP
zhwiki
Wasmer中文网:通用的WebAssembly运行时库
Wasmer中文网:https://wasmer.zcopy.site维基百科镜像站:中文站:https://
zhwiki
.netlify.app英文站:https://en.wikimirror.xyz
碧眼麒麟
·
2022-12-06 09:21
训练词向量实战
基于gensim训练中文词向量数据集下载中文维基百科数据[维基百科数据链接](https://dumps.wikimedia.org/
zhwiki
/),在该目录下选择最新的数据,我下载的是
zhwiki
-latest-pages-articles.xml.bz2
要努力的鱼~
·
2020-09-16 22:31
项目实战
深度学习
机器学习
python
NLP任务之文本对分类
训练中文词向量预料地址:链接提取码:ihu4使用gensim库的WikiCorpus,将xml文件转到txt文件fromgensim.corporaimportWikiCorpusinput_path='
zhwiki
-latest-pages-artic
Muasci
·
2020-09-13 15:12
机器学习
自然语言处理
wiki中文文本语料下载,在维基百科中文语料训练Word2vec and doc2vec 文本向量化代码示例
首先下载wiki中文语料(大约1.7G)https://dumps.wikimedia.org/
zhwiki
/latest/
zhwiki
-latest-pages-articles.xml.bz2下载的文件名为
光英的记忆
·
2020-09-12 19:48
gensim
gensim
word2vec
doc2vec
wiki
中文语料
word2vec
Corpuszh_cn搜狗语料库:ftp://ftp.labs.sogou.com/Data/SogouCS/SogouCS.tar.gz中文维基百科语料库:https://dumps.wikimedia.org/
zhwiki
treasuresss
·
2020-08-26 14:43
深度学习
维基百科中文语料库训练word2vec模型和使用总结
word2vec模型并使用说明windows使用opencc中文简体和繁体互转使用中文维基百科训练word2vec模型一、下载维基百科中文语料库下载地址:https://dumps.wikimedia.org/
zhwiki
渣渣小耳
·
2020-08-21 18:23
机器学习
自然语言处理
word2vec模型训练过程
https://blog.csdn.net/vivian_ll/article/details/899142191.先下载中文维基百科的原始数据https://dumps.wikimedia.org/
zhwiki
沈奕阳
·
2020-08-10 21:57
使用中文维基百科进行GloVe实验
处理之后得到文件:corpus.
zhwiki
.segwithb.txt2.实验2.1GloVe获取GloVe,命令:wgethttp://www-nlp.stanford.edu/software/GloVe
David_Hernandez
·
2020-07-11 13:54
NLP
wiki数据处理
1.在https://dumps.wikimedia.org/
zhwiki
/20190501/下载数据,数据包的名字为:
zhwiki
-20190501-pages-articles.xml.bz21.6g
kiki.try
·
2020-07-11 12:26
python
Wikipedia 语料库处理
参考:http://licstar.net/archives/262参考的博客略旧,根据博客内容调整了处理过程第一步:下载语料最新的:http://download.wikipedia.com/
zhwiki
GZGlenn
·
2020-07-11 08:40
Coding
wiki中英文语料处理
Wiki官方提供了下载链接:https://dumps.wikimedia.org/
zhwiki
/latest/本文处理的中文wiki:
zhwiki
-latest-pages-articles.xml.bz2
watersink
·
2020-07-07 19:15
深度学习
Keras中加载预训练的词向量
/data/
zhwiki
_2017_03.sg_50d.word2vec"f=open(glove_dir,"r",encoding="utf-8")##获取词向
闰土不用叉
·
2020-06-30 04:58
Keras
自然语言处理
Keras
词向量
word2vec
Embedding
维基百科镜像处理
1.中文维基数据下载下载dump:https://dumps.wikimedia.org/
zhwiki
/latest/,维基数据主要包含以下几部分
zhwiki
-latest-pages-articles.xml.bz2
weixin_34194702
·
2020-06-28 13:09
Gensim模块训练词向量
中文维基百科的打包文件地址为https://dumps.wikimedia.org/
zhwiki
/latest/
zhwiki
-latest-pages-articles.xml.bz2中文维基百
bingxiash
·
2020-06-27 08:10
NLP
word2vec训练与相似度计算
中文语料预处理采用维基百科里的中文网页作为训练语料库,下载地址为:https://dumps.wikipedia.org/
zhwiki
/20190301/
zhwiki
-20190301-pages-articles.xml.bz2
韩明宇
·
2020-06-25 12:21
NLP
【python】gensim训练word2vec,生成wiki.zh.text.model
wiki.zh.text.model模型https://download.csdn.net/download/luolinll1212/106404511,下载中文维基百科https://dumps.wikimedia.org/
zhwiki
风泽茹岚
·
2020-06-21 03:53
机器学习
SEO的入门的基本环境开发
(有关博客是基于《自制搜索引擎》)1、基本的来源数据(wiki上的数据(xml格式))https://dumps.wikimedia.org/
zhwiki
/latest/这里可以查看到解压wekipedia
墨子幻
·
2020-04-09 20:15
中文Wiki语料获取
1.数据下载#wiki中文数据的下载地址是:https://dumps.wikimedia.org/
zhwiki
/latest/
zhwiki
-latest-pages-articles.xml.bz2需对其进行繁简转换
Yuxuanxuan
·
2020-04-03 06:15
使用
zhwiki
数据训练word2vec
当前项目中用到的词向量都是网上别人已经训练好的这个项目是常用的一些语料资源集合https://github.com/ares5221/ChineseNLPCorpus这个项目是当前常用的词向量的集合https://github.com/Embedding/Chinese-Word-Vectors但是网上下载的词向量都是直接用的,如果想要继续训练的话,需要有保存的model,这个一般都没有,所有我们
凌烟阁主5221
·
2020-02-05 08:14
windows下使用word2vec训练维基百科中文语料全攻略!(一)
1、训练数据下载我们使用维基百科训练词向量,维基百科数据的下载地址为:https://dumps.wikimedia.org/
zhwiki
/latest/
zhwiki
-latest-pages-
文哥的学习日记
·
2019-12-26 00:27
markdown笔记 (markdown语法写)
[Foo](https://zh.wikipedia.org/static/images/project-logos/
zhwiki
.png)标题井号加空格加内容强调*强调*或者_强调_(示例:斜体)又或者以制表符或至少四个空格缩进的行
墨染书
·
2019-12-01 07:25
使用中文维基百科语料库训练一个word2vec模型并使用说明
image相关资料下载:中文维基百科下载地址:https://dumps.wikimedia.org/
zhwiki
/WikiExtractor项目git地址:https://github.com/attardi
Python疯子
·
2019-04-22 11:39
【NLP】维基百科中文数据训练word2vec词向量模型——基于gensim库
word2vec词向量模型,大体步骤如下:数据预处理模型的训练模型的测试准备条件:Windows1064位Python3.6,并安装gensim库:pipinstallgensim数据集:下载地址注意:下载
zhwiki
-latest-pages-articles-multistream.xml.bz2
Daycym
·
2019-04-03 14:12
NLP
【NLP】维基百科中文数据训练word2vec词向量模型——基于gensim库
word2vec词向量模型,大体步骤如下:数据预处理模型的训练模型的测试准备条件:Windows1064位Python3.6,并安装gensim库:pipinstallgensim数据集:下载地址注意:下载
zhwiki
-latest-pages-articles-multistream.xml.bz2
Daycym
·
2019-04-03 14:12
NLP
gensim训练word2vec,生成wiki.zh.text.model
wiki.zh.text.model模型https://download.csdn.net/download/luolinll1212/106404511,下载中文维基百科https://dumps.wikimedia.org/
zhwiki
Allure_过客
·
2019-02-16 16:56
基于word2vec使用中文wiki语料库训练词向量
(所有代码见我的Github)数据获取使用的语料库是wiki百科的中文语料库,下载地址:https://dumps.wikimedia.org/
zhwiki
/latest/
zhwiki
-
凌霄文强
·
2019-01-19 20:34
自然语言处理入门一:
zhwiki
数据处理
数据下载地址约15G20181027博主环境win10X64Anaconda3.7python3.5wiki数据下载完成后的文件名为:enwiki-latest-pages-articles.xml.bz2或者:
zhwiki
-latest-pages-articles.xml.bz2
heivy
·
2018-10-27 17:47
python
自然语言处理NLP
小项目(Gensim库)--维基百科中文数据处理
1.下载维基百科数据https://dumps.wikimedia.org/
zhwiki
/latest/2.预处理文件:将压缩的文件转化成.txt文件添加脚本文件process.py,代码如下:importloggingimportos.pathimportsysfromgensim.corporaimportWikiCorpusif
fenfenxhf
·
2018-10-10 15:19
机器学习
gensim中文词向量训练实战
ubuntu16.04Python3.6Anacondagensim:word2vec模型训练jieba:中文分词hanziconv:繁体转简体转换2.程序代码程序目录如下所示:data目录下stop_words.json是停用词列表
zhwiki
biubiubiu888
·
2018-09-29 16:10
利用维基百科语料和gensim训练中英文word2vec模型
dumps.wikimedia.org/enwiki/latest/enwiki-latest-pages-articles.xml.bz2中文:https://dumps.wikimedia.org/
zhwiki
weok
·
2018-08-26 23:18
python
word2vec
维基百科中文语料训练word2vec模型
1.原始语料获取http://download.wikipedia.com/
zhwiki
/latest/
zhwiki
-latest-pages-articles.xml.bz2下载语料。
Cracks_Yi
·
2018-06-04 15:55
【Python3】基于Gensim的维基百科语料库中文词向量训练
)安装Gensim库:在AnacondaPrompt中输入:pipinstallgensim等待其显示安装完毕即可1.首先获取维基百科语料库资源https://dumps.wikimedia.org/
zhwiki
DrogoZhang
·
2018-02-24 23:34
自然语言处理
【学习笔记】维基百科中文数据处理(NLP)
本文简单记录一下初学NLP的一个小例子,NLP需要使用语料库进行训练,本文使用维基百科的中文数据进行训练,下载地址在:https://dumps.wikimedia.org/
zhwiki
/20171020
cskywit
·
2018-02-05 10:55
机器学习
使用中文维基百科进行GloVe实验
处理之后得到文件:corpus.
zhwiki
.segwithb.txt2.实验2.1GloVe获取GloVe,命令:wgethttp://www-nlp.stanford.edu/software/GloVe
David_Hernandez
·
2017-10-20 18:34
NLP
windows下用Anaconda3做基于维基百科中文word2vec训练
下载维基百科中文语料http://www.52nlp.cn/中英文维基百科语料上的Word2Vec实验中下载中文维基百科数据,也可从中文数据的下载地址是:https://dumps.wikimedia.org/
zhwiki
Johline
·
2017-07-11 14:19
word2vec
使用wiki百科和gensim训练中文词向量
下载wiki百科的数据那么我是从https://dumps.wikimedia.org/
zhwiki
/20170520/上下载的1.4G的这个xml版本抽取数据的内容使用https://github.com
Nicholas_Wong
·
2017-05-23 10:39
nlp
中文维基百科文本数据获取与预处理
下载数据方法1:使用官方dump的xml数据最新打包的中文文档下载地址是:https://dumps.wikimedia.org/
zhwiki
/latest/
zhwiki
-latest-pages-articles.xml.bz2
cyqian
·
2016-05-09 00:00
维基百科
python
自然语言处理
nlp
抽取wiki内容以及简体中文转换为繁体中文
下载WikiDump 之后(链接是:http://download.wikipedia.com/
zhwiki
/latest/
zhwiki
-latest-pages-articles.xml.bz2。)
monsion
·
2013-04-15 16:00
windows中mwdumper导入
zhwiki
的数据
我使用的是MWDumperisaquicklittletoolforextractingsetsofpagesfromaMediaWikidumpfile.导入mediawiki中的中文数据包.首先需要强调的是download下的mwdumper.jar包,已经不能导入新版本的了,需要下载http://csomalin.csoma.elte.hu/~tgergo/wiki/mwdumper.jar
chjshan55
·
2011-02-25 09:00
windows中mwdumper导入
zhwiki
的数据
我使用的是MWDumperisaquicklittletoolforextractingsetsofpagesfromaMediaWikidumpfile.导入mediawiki中的中文数据包.首先需要强调的是download下的mwdumper.jar包,已经不能导入新版本的了,需要下载http://csomalin.csoma.elte.hu/~tgergo/wiki/mwdumper.jar
chjshan55
·
2011-02-25 09:00
windows
exception
table
delete
character
download
[lucene] setOmitTermFreqAndPositions与setOmitNorms
+ 测试setOmitTermFreqAndPositions与setOmitNorms后搜索速度的变化 元数据:
zhwiki
-20100529-pagelinks.sql(675587k)
wapysun
·
2010-07-20 13:00
apache
sql
Lucene
PALM Kdic,Zdic之维基百科简易制作教程
至少不需要写代码了嘛)但是,前提是,维基的发布文件格式不变好了,方法如下:1,上维基网站下载最新的发布引用:wiki下载地址xml格式需要转才能用http://download.wikimedia.org/
zhwiki
coldwindflyrain
·
2008-01-31 13:00
java
xml
工具
redirect
Palm
archive
上一页
1
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他