E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
corpus
利用python进行自然语言处理学习笔记——chap2
第二章.获得文本语料与词汇资源语料库和相关资源条件概率分布3.WordNet古登堡语料库:ProjectGutenbergimportnltknltk.
corpus
.gutenberg#includingfileids
foursight
·
2022-11-20 22:40
NLP
python
自然语言处理
使用huggingface‘s transformers预训练自己模型时报:Assertion ‘srcIndex < srcSelectDimSize‘ failed. 的解决办法
是目前功能比较强大的包含各种预训练Transformer类模型的framework:https://github.com/huggingface/transformers在这里,他们介绍了怎么用自己的
corpus
蛐蛐蛐
·
2022-11-20 12:55
深度学习
Python技巧
自然语言处理
深度学习
Dataset的简单构建
我们自定义的Dataset类必须要实现:classdataset(Dataset):def__init__(self,
corpus
_path,sentence_max_length):passdef__
Offer.harvester
·
2022-11-19 18:15
NLP入门
深度学习
NLP
论文笔记:Cross-Lingual Semantic Role Labeling with High-Quality Translated Training
Corpus
基于高质量翻译训练语料库的跨语言语义角色标注摘要介绍2相关工作3SRLTranslation(SRL翻译)4TheSRLModel4.1WordRepresentation(词语表征)4.2EncodingLayer4.3OutputLayer5Experiments5.1UniversalPropositionBank5.2SRLTranslation5.3Settings5.4Cross-Li
帅帅梁
·
2022-11-15 09:11
bert
自然语言处理
transformer
深度学习
python
Nltk——语料库
自带的语料库在nltk.
corpus
包下,提供了几类标注好的语料
big_matster
·
2022-11-11 08:47
文本分类从入门到精通比赛
python
人工智能
《Python自然语言处理》第二章习题部分答案
8.在名字语料库上定义一个条件频率分布,看看哪个首字母在男性名字中比在女性名字中更常用从性别入手,首先我们得知道>>>names=nltk.
corpus
.names>>>names.fileids()[
温涛
·
2022-10-24 18:09
学习
python
nlp
list
算法
python余弦相似度文本分类_TF-IDF与余弦相似度
文本向量化特征的不足在将文本分词并向量化后,我们可以得到词汇表中每个词在各个文本中形成的词向量,我们将下面4个短文本做了词频统计:
corpus
=["IcometoChinatotravel","ThisisacarpoluparinChin
weixin_39834984
·
2022-10-05 07:46
python余弦相似度文本分类
pyLDAvis.gensim.prepare(lda,
corpus
,dictionary)出现OSError: [Errno 22] Invalid argument错误
用pyLDAvis做文本聚类的时候,在jupyternotebook上是Invalidargument的错误,在pycharm上是joblib.externals.loky.process_executor.TerminatedWorkerError的错误,试了好久才发现问题在哪,设置n_jobs=1,改为单线程即可
weixin_43936680
·
2022-09-20 07:57
python
no module namedpyLDAvis.gensim
现在改为importpyLDAvis.gensim_modelsasgensimvispyLDAvis.enable_notebook()'''lda:计算好的话题模型
corpus
:文档词频矩阵dictiona
qq_42041648
·
2022-09-20 07:09
python运行问题
python
深入理解PyTorch中的nn.Embedding的使用
目录一、前置知识1.1语料库(
Corpus
)1.2词元(Token)1.3词表(Vocabulary)二、nn.Embedding基础2.1为什么要embedding?
·
2022-07-04 13:01
深入理解PyTorch中的nn.Embedding
目录一、前置知识1.1语料库(
Corpus
)1.2词元(Token)1.3词表(Vocabulary)二、nn.Embedding基础2.1为什么要embedding?
raelum
·
2022-06-28 07:22
PyTorch
pytorch
人工智能
python
BLEU——机器翻译评测
算法详解.目录BLEU算法介绍N-gram准确率(N-gramPrecision)召回率短句惩罚因子(BrevityPenalty,BP)BLEU算法代码实现sentence_bleu语句级的bleu值
corpus
_bleu
杨一yangyi
·
2022-06-19 13:48
machine
translation
机器翻译
python
关于BLEU值计算的学习笔记
NLTK首先是nltk.translate.bleu_score,其中包含了sentence_bleu和
corpus
_bleu,其中sentence_bleu也是通过调用
corpus
_bleu来实现的。
happy_windman
·
2022-06-19 13:17
个人随笔
机器翻译
BLEU
gensim中带监督味的作者-主题模型
作者主题模型的通俗解释model_list=[]foriinrange(5):model=AuthorTopicModel(
corpus
=
corpus
,num_topics=10,id2word=dictionary.id2token
蔡艺君小朋友
·
2022-05-21 07:59
作者主题模型
遇到的bug:1.BUG1perwordbound=at_model.bound(at_model.
corpus
,author2doc=at_model.author2doc,doc2author=at_model.doc2author
蔡艺君小朋友
·
2022-05-21 07:29
python
atmodel
R文本分析(三)
主题模型训练############################################library(lda)
corpus
<-lexicalize(sample.words,lower=TRUE
小豆角lch
·
2022-02-15 05:07
Spark中使用HanLP分词
)放到hdfs上,然后在项目配置文件hanlp.properties中配置root的路径,比如:root=hdfs://localhost:9000/tmp/2.实现com.hankcs.hanlp.
corpus
.io.IIOAdapter
lanlantian123
·
2022-02-13 05:09
Word Embedding总结
WordEmbedding总结1.前言wordrepresentation有两种方式传统方法Knowledge-basedrepresentation词的离散表示
corpus
-basedrepresentation
是neinei啊
·
2022-02-06 02:52
gensim.model.Word2Vec()的参数
1.sentences:可以是一个List,对于大语料集,建议使用BrownCorpus,Text8
Corpus
或·ineSentence构建。
·
2021-11-10 10:33
数据挖掘自然语言处理
【2020-07-16】Word2Vec
gensim的Word2Vec参数Word2Vec(sentences=None,#可以是一个list,对于大语料集,建议使用BrownCorpus,Text8
Corpus
或·ineSentence构建
BigBigFlower
·
2021-06-25 20:24
TF-IDF
词频TFTF=某个词在文章中的出现次数TF=某个词在文章中的出现次数/文章总词数TF=某个词在文章中的出现次数/拥有最高词频的词的次数逆文档频率IDF语料库(
corpus
)模拟语言的使用环境。
reeuq
·
2021-06-06 22:56
Python文本挖掘学习笔记-NLTK-Stopword,Stemming,Lemmatization,pos tag
我们可以试试看我们从nltk的语料库
corpus
里下载一下stopwords的词库:然后,我们print一下,看看nltk给我
认真学习的兔子
·
2021-05-03 16:41
Linux练习的代码
2.sutestusercd~mkdirmydir3.wgethttp://202.118.69.111/ccbd/
corpus
.tarcd/home/testuser/mydirtar–xvfcorpus.tar4
阿金的故事
·
2021-04-28 02:23
从头开始训练BERT语言模型
BERT代码链接5.BERT下游任务应用举例5.1将tf模型转换成pytorch格式5.2使用simpletransformers进行文本分类1.数据准备1.1构建语料库 如果没有给定语料库文件(如
corpus
.txt
herosunly
·
2021-02-22 17:27
AI比赛经验分享
深度学习
BERT
Annotated
Corpus
for Named Entity Recognition 数据集下载
一般用于命名实体识别模型测试Context:AnnotatedCorpusforNamedEntityRecognitionusingGMB(GroningenMeaningBank)corpusforentityclassificationwithenhancedandpopularfeaturesbyNaturalLanguageProcessingappliedtothedataset.Ti
immenselee
·
2020-12-25 21:20
Python
自然语言处理
python
数据集
python把字符串转化为字典_python 将字符串转换为字典
我获取的是json数据:content={"
corpus
_no":"6470277238193690986","err_msg":"success.","err_no":0,"result":["今天天气怎么样
weixin_39590601
·
2020-11-29 01:34
python把字符串转化为字典
Resource cmudict not found. Please use the NLTK Downloader to obtain the resource:
Traceback(mostrecentcalllast):File"/home/oxwod/anaconda3/envs/python35/lib/python3.5/site-packages/nltk/
corpus
will199321
·
2020-09-17 14:55
deepvoice3
nltk
word2vec函数参数
gensim.models.word2vec.Word2Vec(sentences=None,
corpus
_file=None,size=100,alpha=0.025,window=5,min_count
冥更
·
2020-09-17 05:41
Python
Torchtext 库简单文本预处理
—>torchtext.data.Field加载
corpus
(都是string)—>torchtext.data.Datasets在Datasets中,torchtext将
corpus
处理成一个个的torchtext.data.E
闲看蒹葭
·
2020-09-16 23:48
Pytorch
pytorch
Word2vec 中文词向量训练
-coding:utf-8-*-fromgensim.modelsimportWord2Vecfromgensim.models.word2vecimportLineSentencetxtpath="
corpus
.txt
*MuYu*
·
2020-09-16 22:14
NLP
Word2vec
词向量
gensim
java 根据值获得键(map get key by value)
要处理一个文档集合,需要统计出
corpus
包含的所有单词,即统计出一个词汇表,词汇表中需要保存单词和相应的索引。当然,统计之前需要对文档进行stopwordremoval和textstemming。
march_on
·
2020-09-15 22:54
java
Python系列(4)-- Python 正则表达式匹配字符串替换、格式修改
CreatedonMonSep2520:47:332017@author:Don"""importref=open("84.txt",'rb')r=open("84_result.txt","w+")
corpus
bllddee
·
2020-09-13 07:07
python
TF-IDF
1.TF-IDF的原理(1)为什么要进行TF-IDF处理如果没有经过TF-IDF处理时,对下面的4个短文做了词频统计:
corpus
=["IcometoChinatotravel","ThisisacarpoluparinChina
嘿呀嘿呀 拔罗卜
·
2020-09-13 06:20
NLP
tfidf代码整理及理解
fromsklearn.feature_extraction.textimportTfidfVectorizertfidf=TfidfVectorizer()
corpus
=["我来到北京清华大学",#第一类文本切词后的结果
l8947943
·
2020-09-13 04:45
python问题
Gensim用LDA模型计算文档相似度
Imanagedtoattainsuccessfulresultsondocumentmatchingandsimilaritieswhenusingtheactualdocumentasaquery.dictionary=corpora.Dictionary.load('dictionary.dict')
corpus
叮当了个河蟹
·
2020-09-12 22:36
移动开发
将list中各个元素逐行输出
withopen('
corpus
.csv','w')asfo:fordincorpus:fo.write(str(d)+'\n')
weixin_45405128
·
2020-09-12 08:16
Python
拼写纠错python代码
fromnltkimport*fromnltk.corpusimportbrown#每次访问数据需要添加数据至路径当中
corpus
=brown.sents()#.sent()整个语料库中的句子,sents
赤醒醒
·
2020-09-11 17:36
笔记
自然语言处理
Glove算法安装出错,解决办法
fasttext包 参考地址glove使用#importingtheglovelibraryfromgloveimportCorpus,Glove#creatingacorpusobjectcorpus=
Corpus
明明1234明
·
2020-09-11 15:03
机器学习
python 将字符串转换为字典
我获取的是json数据:content={"
corpus
_no":"6470277238193690986","err_msg":"success.","err_no":0,"result":["今天天气怎么样
weixin_30566063
·
2020-08-26 14:58
用Python进行自然语言处理-2. Accessing Text Corpora and Lexical Resources
我们可以看看nltk里集成了多少电子书:>>>importnltk>>>nltk.
corpus
.gutenberg.fileids()['austen-emma.txt','austen-persuasion.txt
rebellion51
·
2020-08-24 02:15
nlp
新闻文本分类之旅 Word2Vec_
Corpus
天池-零基础入门NLP新闻文本分类预训练Word2vec语料导入相关库读取数据加载语料训练语料保存模型新闻文本分类预训练Word2vec语料导入相关库importnumpyasnpimportpandasaspdfromgensim.modelsimportword2vec读取数据train_df=pd.read_csv('../data/train_set.csv',sep='\t')test_
目光所及
·
2020-08-23 22:35
自然语言处理
自然语言处理
中文NLP处理方法-to-do-list
我们把一个文本集合称为语料库(
Corpus
),当有几个这样的文本集合的时候,我们称之为语料库集合(Corpora)。
sakwsnow
·
2020-08-22 11:47
深度学习
机器学习
流程
自然语言处理
Python自然语言处理第二章部分习题
importnltkemma=nltk.
corpus
.gutenberg.words('austen-emma.txt')len(emma)#求取文本中的词标识符len(set(emma))#求取文本中的
美利坚合众国圣安东尼奥马刺村
·
2020-08-22 03:03
Python编程
NLP学习
Spark中使用HanLP分词
)放到hdfs上,然后在项目配置文件hanlp.properties中配置root的路径,比如:root=hdfs://localhost:9000/tmp/2.实现com.hankcs.hanlp.
corpus
.io.IIOAdapter
云聪
·
2020-08-22 01:09
Spark
自然语言处理
spark集群使用hanlp进行分布式分词操作说明
以下为全文:分两步:第一步:实现hankcs.hanlp/
corpus
.io.IIOAdapter1.publicclassHadoopFileIoAdapterimplementsIIOAdapter
adnb34g
·
2020-08-22 01:13
大数据
hanlp
布尔检索模型简单实现
/data/bytecup.
corpus
.validati
抬头挺胸才算活着
·
2020-08-21 22:29
KNN针对中文文本分类
改编自博客:http://blog.csdn.net/github_36326955/article/details/54891204做个笔记代码按照1234的顺序进行即可:1.py(
corpus
_segment.py
Applied Sciences
·
2020-08-20 22:43
Python自然语言处理
逆向最大匹配算法之python实现
/
corpus
/WordList.txt','r',encoding='utf8')dic={}while1:line=f1.readline()iflen(line)==0:breakterm=line.strip
崔昕阳
·
2020-08-19 16:15
Python
gensim快速使用简介
corpusraw_
corpus
=["Humanmachineinterfaceforlababccomputerapplications","Asurveyofuseropinionofcomputersystemresponsetime
Kevin_1992
·
2020-08-19 02:21
自然语言处理
机器学习:NLP(自然语言处理)基础,相似度分析,KNN情感分类
文章目录文本相似度分析1.把评论翻译成机器看的懂的语言1).分词(把句子拆分成词语)2).制作词袋模型(bag-of-word:可以理解成装着所有词的袋子)3).用词袋模型制作语料库(
corpus
:把每一个句子都用词袋表示
Mr. Donkey_K
·
2020-08-19 00:53
机器学习笔记
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他