E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
corpus
三、语料与词汇资源
本节介绍语料和词汇资源的重要性和获取方式请尊重原创,转载请注明来源网站www.shareditor.com以及原始链接地址NLTK语料库NLTK包含多种语料库,举一个例子:Gutenberg语料库,执行:nltk.
corpus
.gutenberg.fileids
jiangjingxuan
·
2020-07-07 11:28
动手做聊天机器人
NLP学习(三)-词典
text):#输出不常见的词text_vocab=set(w.lower()forwintextifw.isalpha())english_vocab=set(w.lower()forwinnltk.
corpus
.words.words
宋建国
·
2020-07-07 09:23
自然语言处理
NLP学习(二)-语料库学习
基本语料库函数1.古腾堡语料库获取模块语料库中的文档列表print(nltk.
corpus
.gutenberg.fileids())#模块中的语料库的文档列表提取特定文档的词汇,并输出文章长度emma=
宋建国
·
2020-07-07 09:23
自然语言处理
tf-idf:sklearn中TfidfVectorizer使用
/tfidf-data.txt"withopen(data_file,'r')asf:forlineinf:
corpus
.append("".join(jieb
erinapple
·
2020-07-07 07:12
机器学习实战
利用 Keras 的类 Tokenizer 对原始文本数据进行单词级 one-hot 编码
fromkeras.preprocessing.textimportTokenizertext_
corpus
=['Thecatsatonthemat.','Thedogatemyhomework.']
chouchoubuchou
·
2020-07-07 05:46
nltk缺少对应的stopwords语料库
Errorloadingstopwords:Traceback(mostrecentcalllast):File"C:\Users\Jack\anaconda3\envs\py36_tf17\lib\site-packages\nltk\
corpus
Murphy.AI
·
2020-07-06 22:29
ERROR集合
python
数据处理——CountVectorizer、TfidfTransformer、TfidfVectorizer
1.1举个栗子fromsklearn.feature_extraction.textimportCountVectorizer,TfidfVectorizer,TfidfTransformer#导入包
corpus
黑桃5200
·
2020-07-06 22:12
机器学习算法
关于中英文语料的获取途径总结
中文:https://github.com/candlewill/Dialog_
Corpus
这个是一个集合,包括之前答主的答案!
一夜了
·
2020-07-06 20:01
机器学习及深度学习相关
NLP
Python中的TfidfVectorizer参数解析
transformer=TfidfTransformer()#构建一个计算TF-IDF的玩意儿tfidf=transformer.fit_transform(vectorizer.fit_transform(
corpus
小白的进阶
·
2020-07-06 16:21
python
基于Xgboost的文本分类——Python实现
3、从数据库读取数据deftrain_
corpus
_generator():globaldb#coding:utf-8num=0fortopicintopics:num+=1#到第十类时要终止迭代器pri
zzzzy_smile
·
2020-07-06 14:20
数据挖掘
1.自然语言处理(NLP)与Python
NLTK模块及功能介绍如下:语言处理任务NLTK模块功能描述获取语料库nltk.
corpus
语料库和词汇的标准化接口字符串处理nltk.tokenize,nltk.stem分词器,句子
lk-csdn
·
2020-07-05 12:06
Python
Machine
Learning
机器学习
NLP
NLTK
python自然语言处理学习笔记二
第二章获得文本语料和词汇资源1获取文本语料古腾堡语料库gutenberg>>>importnltk>>>nltk.
corpus
.gutenberg.fileids()['austen-emma.txt'
retacn
·
2020-07-05 10:22
python自然语言处理
中文自然语言处理医疗、法律等公开数据集整理分享
资源整理自网络,源地址:https://github.com/OYE93/Chinese-NLP-
Corpus
分词、词性标注实体识别法律文本分类情感分析医疗领域分词、实体识别、问答数据集往期精品内容分享深度学习基础系列之
lqfarmer
·
2020-07-04 22:30
深度学习
深度学习视频教程及资料下载
生成对抗网络GAN
python实现Kmeans文本聚类,通过PCA降维和Matplotlib显示聚类3d三维图像
点击打开链接在此基础上,主要实现以下改进及结果1.替换使用sklearn.feature_extraction.text.TfidfVectorizer,将
corpus
文本转换为tfidf值的svm向量
bingwork
·
2020-07-04 12:46
liblinear文本分类开发
训练模型读取语料和词典进行训练ScannergetCorpus=newScanner(newBufferedInputStream(newFileInputStream(newFile(
corpus
))
fuck_prometheus
·
2020-07-02 03:12
词性标注和命名实体识别
forw,tinpsg.cut(sent):print(w,"/",t)命名实体识别构建训练集和测试集:importosdefcorpus(
corpus
_path):data=open(
corpus
_path
孔夫子的高压锅
·
2020-07-02 00:03
NLP
Python中CountVectorizer()、TfidfTransformer() 和 TfidfVectorizer()的关系
CountVectorizer()输入:文档
corpus
输出:文档中各个单词的词频TF(即每个单词在文档中出现的次数)TfidfTransformer()输入:词频TF输出:词频逆反文档频率TF-IDF
月半君
·
2020-07-01 14:22
python
兰卡(英:Lanka)|萌新推荐配卡、紫卡市场官网交易价格介绍-Warframe星际战甲
兰卡是一个
Corpus
狙击步枪,可以在道场的能量研究室研究解锁。尽管它与已经“退役”的狙击特昂外观一模一样,它的工作方式却完全不同。兰卡使用蓄力攻击机制,在按下攻击键1秒之后达到最大伤害。
an鑫_wolfxin2010
·
2020-06-30 22:22
Stanford Natural Language Inference (SNLI)和Multi-Genre NLI
Corpus
(MultiNLI) 数据集
StanfordNaturalLanguageInference(SNLI)和Multi-GenreNLICorpus(MultiNLI)数据集https://nlp.stanford.edu/projects/snli/https://www.nyu.edu/projects/bowman/multinli/MultiNLI是SNLI的升级版,格式一样,规模相当,但是前者变化更多,也包含了一
zdcs
·
2020-06-30 12:33
深度学习
机器学习
自然语言处理
一般技巧和资源介绍
GAT代码更换Text_gcn数据集实验记录
首先,找到原始文档也就是gcn里面的
corpus
下R52数据集,这里面都是文档一行是一条数据,我保留了60条,然后更改data下的R52.text,这里面数据也是保留60条,但是要注意里面有test和train
xulijun_811
·
2020-06-30 04:58
利用神经网络解决NLP问题【W2V+SVM】&【W2V+CNN】_完整项目_CodingPark编程公园
文章介绍本文讲述利用Word2Vec把文字向量化,随后分别利用SVM与CNN进行学习与测试W2V+SVM监视数据我们先读入数据,看一下数据长什么样子分割测试/训练集这里我们注意,我们需要三样东西:
corpus
TEAM-AG
·
2020-06-28 21:27
自然语言处理
神经网络
python
深度学习
神经网络
tensorflow
机器学习
训练GloVe中文词向量
准备源码从GitHub下载代码,https://github.com/stanfordnlp/GloVe将语料
corpus
.txt放入到Glove的主文件夹下。
sliderSun
·
2020-06-28 20:17
深度学习
中文自然语言处理
继续玩word2vec (English
Corpus
)
二是文本——我总觉得wikipedia文本并不是一个很好的
corpus
,它的语言缺乏足够的变化,也不够生动——对比而言,我玩了几次的中文文本都是文学作品(一次是演义公案小说,一次是金古梁)。
方城主
·
2020-06-28 14:21
Python数据挖掘-文本挖掘
(一)语料库(
Corpus
)在python中,如何根据以往的文档文件搭建一个语料库?1.什么是语料库语料库是我们要分析的所
???111
·
2020-06-27 20:20
心理咨询问答语料库: efaqa-
corpus
-zh
https://github.com/chatopera/efaqa-
corpus
-zh数据集介绍心理咨询问答语料库(以下也称为“数据集”,“语料库”)是为应用人工智能技
Hai Liang Wang
·
2020-06-27 14:44
聊天机器人
语料库
数据集
自然语言理解
心理咨询
人工智能
NLP学习之使用pytorch搭建textCNN模型进行中文文本分类
相关代码详见:https://github.com/PingHGao/textCNN_pytorch数据获取中文数据是从https://github.com/brightmart/nlp_chinese_
corpus
持久决心
·
2020-06-27 07:07
深度学习
textCNN
pytorch
中文文本分类
NLP
利用gensim构建word2vec词向量模型并保存词向量
根据训练语料库,自己训练语言模型得到词向量'''#对分词后的文本训练Word2vec模型fromgensim.modelsimportword2vecimportloggingdefget_wordvec(
corpus
_path
快乐小码农
·
2020-06-27 04:45
自然语言处理
Machine
Learning
python
文本相似度,文本匹配模型归纳总结
本文将会整合近几年来比较热门的一些文本匹配模型,并以QA_
corpus
为测试基准,分别进行测试,代码均采用tensorflow进行实现,每个模型均会有理论讲解与代码实现,现已添加到我的github欢迎star
爱编程真是太好了
·
2020-06-27 04:04
机器学习
自然语言处理
深度学习
深度文本匹配模型
python中文语料分词处理,按字或者词cut_sentence
/
corpus
/keywords.txt")stopwords_path="./
corpus
/stopwords.txt"st
高颜值的杀生丸
·
2020-06-26 23:12
Wikipedia
corpus
英文语料处理,获得原文
我们在预训练wordvector或其他预训练任务时,需要大量的语料数据,Wikipedia开放了英文语料,大约11G:wiki英文语料下载链接该语料库是.bz2格式,但是不能直接解压,需要使用工具处理,我们介绍两种常用的处理工具,gensim和wikiextractor。Gensimgensim提供了处理工具,但是只能够获得文章的词列表,丢失了段落句子以及标点符号。fromgensim.corpo
sigmeta
·
2020-06-26 10:20
nlp
机器学习保险行业问答开放数据集:1.语料介绍
insuranceqa-
corpus
-zh保险行业语料库Welcome该语料库包含从网站InsuranceLibrary收集的问题和答案。
Hai Liang Wang
·
2020-06-26 07:07
聊天机器人
python数据分析学习笔记九
第九章分析文本数据和社交媒体1安装nltk略2滤除停用字姓名和数字示例代码如下:importnltk#加载英语停用字语料sw=set(nltk.
corpus
.stopwords.words('english
retacn
·
2020-06-26 05:18
python数据分析
Xlnet句向量实现(embedding)与句子相似度计算
Xlnet是bert预训练模型之后NLP领域的又一重大进展,它充分吸收了Bert的双向语言模型(自编码-MaskLM机制)、预训练+Finetun机制(Transformer特征抽取)、大规模语料训练经验(
corpus
Macropodus
·
2020-06-26 05:25
自然语言处理
emmbedding
拿来即可用系列——glove及gensim训练词向量
github.com/ttjjlw/Embeding,请前往该地址下载glove及gensim训练词向量的相关代码gensim训练词向量:1、进入GensimWord2Vec文件夹,先执行generate_train_
corpus
.py
程序认生
·
2020-06-25 18:29
word2vec
Sampling-Bias-Corrected Neural Modeling for Large
Corpus
Item Recommendations
Introduction推荐系统常被视作召回+排序的两阶段系统。本文的重点就在于为一个有百万量级item的个性化推荐构建一个召回系统。给出一个{user,context,item}的三元组,召回模型通常的解决方法是:1)分别学习{user,context}和{item}的表示,2)利用一个简单的打分函数(例如点积)来为query生成候选item。context通常是有动态性质的变量,例如一天里的时
我爱写报告
·
2020-06-24 12:19
论文笔记
文本向量化---从向量到向量(tfidf)
corpus
=[dictionary.doc2bow(text)fortextintexts]tfidf=models.TfidfModel(
corpus
)#第一步--初始化一个模型doc_bow=[(
上进的菜鸟
·
2020-06-24 02:17
nlp
TFIDF解释与简单实现
TFIDF介绍本文所讲的所有例子均为一下例子
corpus
=[["我","a","e"],["我","a","c"],["我","a","b"]]TFIDF全程叫做termfrequency–inversedocumentfrequency
jiangzhenkang
·
2020-06-23 21:45
自然语言处理
tfidf python 中文 实例
fromsklearn.feature_extraction.textimportTfidfTransformerfromsklearn.feature_extraction.textimportCountVectorizerif__name__=="__main__":
corpus
guotong1988
·
2020-06-23 11:12
自然语言处理NLP
Information
Retrieval
射线与三角型、多边形相交测试
GameRes论坛上的
corpus
说当交点接近公用边时,可能是因为计算误差,有时会出现两个三角形都发生相交或者都没发生相交的错
gaoxudong
·
2020-06-23 09:58
图形算法
C++:文本分类器
2.文本分类过程2.1实验样本选择训练样本和测试样本使用的是"tc-
corpus
-ans
flytiger_ouc
·
2020-06-23 08:00
C&C++
文本相似度相关工作调研(一)
ASurveyOfTextSimilarityApproach(本文翻译自上述文献)方法分为四种string-based,
corpus
-based,knowledge-based,HybridSimilarityMeasureIntroduction
c-minus
·
2020-06-23 00:46
NLP
deepwalk配置和运行
github.com/phanein/deepwalk数据集的定义http://leitang.net/social_dimension.html核心代码walks=graph.build_deepwalk_
corpus
YizhuJiao
·
2020-06-22 09:55
Network
Embedding
【5】使用结巴分词对分类语料库分词
thread-1295-1-1.html工作空间(workspace)路径:X:\WorkSpace\text_miningX为Windows硬盘盘符项目主目录:text_mining|--text_
corpus
_small
搬砖小工053
·
2020-06-22 04:35
文本挖掘
中文机器翻译数据集
DatasetWMT2018AIchallenger(英中翻译规模最大的口语领域英中双语对照数据集)UM-
Corpus
:ALargeEnglish-ChineseParallelCorpusOpenSubtitles2016MultiUNMethodsAIChallenger2017
CopperDong
·
2020-06-22 03:26
机器翻译
python自然语言处理学习笔记5——载入语料库
gutenberg语料库花样电子书>>>importnltk>>>nltk.
corpus
.gutenberg.fileids()['austen-emma.txt','austen-persuasion.txt
Iwanaabigdrumstick
·
2020-06-21 22:38
python
python自然语言处理
Pycharm各种问题
1.报错如下[Gensim]FileNotFoundError[Errno2]Nosuchfileordirectory:'model/ch-
corpus
-3sg.bin'解决方案:https://stackoverflow.com
FannieCream
·
2020-06-21 20:45
Python数据挖掘——文本分析
二、语料库(
Corpus
)语料库是我们要分析的所有文档的集合。
zhuoyue65
·
2020-06-21 15:04
数据挖掘
中文文本分类流程
/train_
corpus
/C3-Art,……,\train_
corpus
\C39-Sports测试集语料库用于检测实际效果,也是已经分好类的语料库。
ylyyyy
·
2020-06-21 12:37
利用word2vec,对短文本做文本相似
#第一步,制作语料(训练数据)
corpus
=[]withopen(r'F:\pycode\RasaNl
泬寥兮
·
2020-06-21 12:49
d
nlp
机器学习保险行业问答开放数据集:1.语料介绍
insuranceqa-
corpus
-zh保险行业语料库Welcome该语料库包含从网站InsuranceLibrary收集的问题和答案。
Hai Liang Wang
·
2020-06-21 09:04
聊天机器人
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他