E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
语料
python nltk 安装失败以及download()出错
1、什么是nltk一个完整的⾃然语⾔处理框架⾃带
语料
库,词性分类库⾃带分类,分词,等等功能有强⼤的社区⽀持框架设计上没有考虑中文使用安装语句pipinstallnltknltk.download()#下载
是鱼儿啊~
·
2023-01-05 21:33
机器学习
python
开发语言
数据挖掘
NLTK
语料
库nltk.download()安装失败及下载很慢的解决方法
一.解决nltk.download()安装失败importnltknltk.download()下载nltk
语料
库出现getaddrinfofailed如下错误:这里只需将ServerIndex路径改成
深度学习菜鸟
·
2023-01-05 21:32
python
自然语言处理
python成语接龙代码_实现成语接龙(Python)
字相同拼音也要相同模式2:字相同拼音不要求相同模式3:字不要相同拼音要求相同,即谐音就可以接龙的成语必须是四字成语已使用过的成语双方均不得再次使用一方不按照规则接龙或接不下去时判定失败数据获取和清洗本文
语料
来自于
weixin_39756273
·
2023-01-05 20:34
python成语接龙代码
我用 Python 自制成语接龙小游戏,刺激
在https://github.com/pwxcoo/chinese-xinhua项目中可以下载到中华成语的
语料
库,该项目收录包括14032条歇后语,16142个汉字,264434个词语,31648个成语
程序员婷崽
·
2023-01-05 20:31
python
开发语言
用 Python 自制成语接龙小游戏!
作者:小小明来源:杰哥的IT之旅在https://github.com/pwxcoo/chinese-xinhua项目中可以下载到中华成语的
语料
库,该项目收录包括14032条歇后语,16142个汉字,264434
Python数据之道
·
2023-01-05 20:31
数据挖掘
python
人工智能
数据分析
大数据
用Python 做成语接龙,超简单,有语音,过年和孩子玩
过年和孩子玩成语需要准备的资料:idiom.json文件python3.6安装pyttsx3pandasnumpy在https://github.com/pwxcoo/chinese-xinhua项目中可以下载到中华成语的
语料
库
搬码工琪老师
·
2023-01-05 20:29
python制作生活小工具
python
开发语言
基于mrpc的文本分类任务Bert源码分析(一):特征提取
他们主要的工作是预训练出了一个模型,即对一个很大的
语料
库进行训练,得到相应的词向量。这一步,主要用到mask,transformer等机制。
丹妮与铁王座
·
2023-01-05 19:10
BERT源码学习记录
wiki维基百科各种
语料
数据下载
wiki维基百科常用
语料
下载路径英文
语料
路径:https://dumps.wikimedia.org/enwiki/中文
语料
路径:https://dumps.wikimedia.org/zhwiki/西班牙
语料
路径
mtj66
·
2023-01-05 16:50
机器学习
python
论文阅读笔记---《TransferNet: An Effective and Transparent Framework for Multi-hop Question Answering over》
这些关系可以用知识图谱中的标签(例如,配偶)或文本
语料
库中的文本(例如,他们已经结婚26年)来表示。现有模型通常通过预测顺序关系路径或聚合隐藏图特征来推断答案。前者难以优化,后者缺乏可解释性。
Ray.1998
·
2023-01-05 14:13
论文笔记
自然语言处理
人工智能
nlp
transformer
神经网络
语音识别入门第一节:语音识别概述
目录语音识别的定义语音识别的重要性语音交互语音识别的挑战性语音识别的发展历史语音识别的深度学习时代现代语音识别框架
语料
库与工具包语音识别的定义语音识别:AutomaticSpeechRecognition
安静_xju
·
2023-01-05 11:49
语音识别入门
语音识别
人工智能
【Gensim + TSNE使用】word2vec词向量处理中文小说 (词嵌入、高维数据降维)
调用gensim.models.word2vec对
语料
建立词向量。词嵌入,使用TSNE进行数据降维,使用plt可视化词嵌入结果。
FUTUREEEEEE
·
2023-01-05 10:51
word2vec
自然语言处理
机器学习
自然语言处理之使用gensim.Word2Vec训练词向量进行词义消歧
不过嘛,正如我们想的那样,肯定是
语料
库越大越好,但越大呢就训练的时间越长,这也是没办法的事情。我建议大家用GPU来训练,当当当,强烈推荐AI
猫头丁
·
2023-01-05 10:51
自然语言处理
自然语言处理
nlp
词向量
gensim
aistudio
主题模型Gensim入门系列之三:主题和变换
系列目录:(1)主题模型Gensim入门系列之一:核心概念(2)主题模型Gensim入门系列之二:
语料
和向量空间(3)主题模型Gensim入门系列之三:主题和变换(4)主题模型Gensim入门系列之四:
liuzard
·
2023-01-05 10:49
自然语言处理
主题模型
gensim
nlp
自然语言处理
主题模型
gensim
主题模型Gensim入门系列之四:文本相似度查询
系列目录:(1)主题模型Gensim入门系列之一:核心概念(2)主题模型Gensim入门系列之二:
语料
和向量空间(3)主题模型Gensim入门系列之三:主题和变换(4)主题模型Gensim入门系列之四:
liuzard
·
2023-01-05 10:49
主题模型
自然语言处理
gensim
nlp
自然语言处理
主题模型
gensim
主题模型Gensim入门系列之一:核心概念
系列目录:(1)主题模型Gensim入门系列之一:核心概念(2)主题模型Gensim入门系列之二:
语料
和向量空间(3)主题模型Gensim入门系列之三:主题和变换(4)主题模型Gensim入门系列之四:
liuzard
·
2023-01-05 10:19
自然语言处理
主题模型
nlp
自然语言处理
主题模型
gensim
主题模型Gensim入门系列之二:
语料
和向量空间
系列目录:(1)主题模型Gensim入门系列之一:核心概念(2)主题模型Gensim入门系列之二:
语料
和向量空间(3)主题模型Gensim入门系列之三:主题和变换(4)主题模型Gensim入门系列之四:
liuzard
·
2023-01-05 10:19
自然语言处理
主题模型
gensim
nlp
自然语言处理
主题模型
gensim
gensim.word2vec 训练词向量
importjiebaimportnumpyasnpimportpandasaspdfromgensim.models.word2vecimportWord2Vecimportjoblibfromsklearn.svmimportSVC#读取两个类别的
语料
little fly
·
2023-01-05 10:46
自然语言处理
nlp
gensim入门
简介:gensim是挖掘文档语义结构的工具,通过
语料
库(文档集),生成表示文本的向量。
语料
库:
语料
库是数字文档的集合,是gensim的输入
攀攀的跟屁虫
·
2023-01-05 10:15
自然语言处理
应用 - gensim如何得到word2vec词向量
从三个方面去说明word2vec词向量中文
语料
处理(pythongensimword2vec总结)python训练work2vec词向量系列函数(pythongensim)python训练work2vec
lamusique
·
2023-01-05 10:45
应用型
word2vec
gensim
NLP
词向量
中文自然语言处理--词向量Word2Vec
fromgensim.modelsimportWord2Vecimportjieba#先导入Gensim中的Word2Vec和jieba分词器,再引入黄河和长江的
语料
#定义停用词、标点符号punctuation
糯米君_
·
2023-01-05 10:14
中文自然语言处理
python
中文自然语言处理
词向量
NLP:使用 gensim 中的 word2vec 训练中文词向量
1.1下载数据集 本内容使用wiki中文
语料
作为训练数据。可以在wiki官网下载中文
语料
,下载后得到一个名为zhwiki-latest-p
空杯的境界
·
2023-01-05 10:43
01_机器学习
#
01.02
NLP
word2vec
词向量
gensim
NLP
zhwiki
人工智能培训老师讲师叶梓:计算机视觉领域的自监督学习模型——MAE-2
主要方法是在大型文本
语料
库上进行预训练,然后在较小的特定于任务的数据集上进行微调。Transformer未完,下一篇继续……
大数据AI人工智能专家培训讲师叶梓团队
·
2023-01-05 09:41
人工智能讲师
人工智能
AI
人工智能
计算机视觉
自然语言处理
AI讲师
自监督学习模型
自然语言处理常用资源分享
自然语言处理常用资源分享目录博主介绍开源Python库知识图谱相关
语料
&数据集词表其他可能有帮助的研究目录博主介绍个人主页:苏州凯捷智能科技有限公司个人社区:CSDN全国各地程序猿作者介绍:苏州凯捷智能科技有限公司创始人
苏州凯捷智能科技有限公司
·
2023-01-04 15:41
凯捷
自然语言处理
人工智能
nlp
使用全局优化方法识别中文事件因果关系
使用全局优化方法识别中文事件因果关系目录使用全局优化方法识别中文事件因果关系一、
语料
库标注及基准系统1、因果
语料
库标注1.显示因果关系2.隐式因果关系3.非因果关系2、基准系统二、全局优化模型1.目标函数
懒人的理想主义
·
2023-01-04 07:05
论文总结
个人见解
彻底搞懂BPE(Byte Pair Encode)原理(附代码实现)
例子1.准备一个
语料
库(corpus),并统计这个
语料
库中每个词语的词频,通过“[词频]词语_”的形式存储,这里的“_”表示词语结尾。
无名草鸟
·
2023-01-03 22:49
ai
自然语言处理
nlp知识点总结(上)
壹:
语料
库一、什么是
语料
库1.定义
语料
库(corpus)一词在语言学上意指大量的文本,通常经过整理,具有既定格式与标记。2.种类共时
语料
库与历时
语料
库。通用
语料
库与专用
语料
库。
m0_59989429
·
2023-01-03 17:01
课程复习
自然语言处理
人工智能
论文笔记之Distributed Representations of Words and Phrases and their Compositionality
这篇文章是用于解决skip-gram和CBOW两种模型在计算softmax时因为
语料
库V太大导致计算复杂度偏高的问题。
Ton10
·
2023-01-03 09:48
NLP
机器学习
深度学习
人工智能
NLP
word2vec
Contrastive Domain Adaptation for Question Answering using Limited Text Corpora
ContrastiveDomainAdaptationforQuestionAnsweringusingLimitedTextCorpora基于有限文本
语料
库的问答对比领域自适应codeAbstract
自然语言处理CS
·
2023-01-03 09:47
论文笔记
深度学习
机器学习
人工智能
10.6_similarity-analogy
实际中,在大规模
语料
上预训练的词向量常常可以应用到下游自然语言处理任务中。本节将演示如何用这些预训练的词向量来求近义词和类比词。我们还将在后面两节中继续应用预训练的词向量。
给算法爸爸上香
·
2023-01-02 16:51
#
Pytorch
deep
learning
pytorch
深度学习
人工智能
10.3_word2vec-pytorch
我们以10.1节(词嵌入word2vec)中的跳字模型和10.2节(近似训练)中的负采样为例,介绍在
语料
库上训练词嵌入模型的实现。我们还会介绍一些实现中的技巧,如二次采样(subsampling)。
给算法爸爸上香
·
2023-01-02 16:20
#
Pytorch
deep
learning
pytorch
word2vec
深度学习
下载Wikidata并转成TXT文档
1.下载wikidataWikipedia中文
语料
库链接:wikidata页面里面是不同时间段的数据,本人选择的是20221001目录下的文件。接下来就是要下载好的bz2文件转成txt格式的。
五彩神石
·
2023-01-02 13:51
ubuntu
python
linux
自然语言处理
英文维基百科Python查询API
问题描述维基百科
语料
库是做文本挖掘和自然语言处理相关实验的一个非常重要的公开可获取大规模
语料
库(知识库),有时需要对其进行检索并对获取结果页面的相关信息,如正文文本、标题、页面文本长度等。
Luban250
·
2023-01-02 13:51
python
文本挖掘
自然语言处理
维基百科API
英文维基百科API
wikipedia
API
维基百科Python
API
维基百科搜索API
keras.preprocessing.sequence.pad_sequences
fromkeras.preprocessing.textimportTokenizer#文本标记实用类,允许使用两种方法向量化一个文本
语料
库:将每个文本转化为一个整数序列(每个整数都是词典中标记的索引)
Rouge-Eradiction
·
2023-01-02 12:22
keras
自然语言处理
【机器学习】TF-IDF词袋模型简介
来计算TF-IDF总结引言TF-IDF全称为TF-IDF(TermFrequency-InverseDocumentFrequency,词频-逆文档频率),这是一种统计方法,用来评估一个词对于一个文件集或
语料
库中的其中一份文件的重要程度
Coder_preston
·
2023-01-02 11:09
深度学习
tf-idf
sklearn
GPT1、GPT2、GPT3原理
GPT-3:海量参数AbstractIntroductionGPT-1:无监督学习GPT-1原理介绍GPT模型主要包含两个阶段,第一个阶段,先利用大量未标注的
语料
预训练一个语言模型,接着,在第二个阶段对预训练好的语言模
ywm_up
·
2023-01-02 10:35
NLP/ML/DL
GPT1
GPT2
GPT3
embedding
NLP
利用CRF++处理英文
语料
实验过程(二):将
语料
划分为训练
语料
和测试
语料
数据划分规则总数据量有1692行,这里我按照4:1的比例划分训练数据和测试数据。划分结束后,训练数据的行数为:测试数据的行数为:所以训练数据:测试数据近似于4:1详细代码这里将显示我是如何进行数据划分的#数据预处理:每5行的第1行放到测试数据集中,其余4行作为训练数据集f1=open("train.data",'w+')f2=open("test.data",'w+')f=open("Tagres
Qin_Alemon
·
2023-01-02 09:12
自然语言处理
CRF++
用tensorflow快速创建
语料
库词汇索引的方法
前言在写快速搭建垃圾分类智能问答机器人时,发现使用词向量训练模型准确率仅有70左右,考虑了几点问题:一是数字类、英文类的词没有对应的词向量;二是训练
语料
太少了(百级),导致词向量优势体现不出来。
szZack
·
2023-01-01 13:37
自然语言处理
常见问题
词向量维与词典大小_word2vec原理 以及词向量构建中的一些体会
早期的词向量选择使用one-hot编码,就是先构建出
语料
中的词典,然后每一个词的向量为该词序号为一,其余位为零,长度为词典大小的一个稀疏向量,可以想像,这样一组向量相当于每个向量占一个坐标轴,那么向量会很稀疏
Rachel瑞小秋
·
2023-01-01 13:35
词向量维与词典大小
【学习4】LSTM
语料
词典的生成
参考https://zhuanlan.zhihu.com/p/399181261、首先,必须有一个待处理的文本数据集json_dir=r'.\data'json_file='IUdata_trainval.json'vocab_dir=r'.\data'vocab_file='IUdata_vocab.pkl'json_path=os.path.join(json_dir,json_file)vo
iviyandyssg
·
2023-01-01 13:30
学习
python
lstm
Beyond 预训练语言模型,NLP还需要什么样的知识?
2018年底,预训练语言模型横空出世,极大缓解了这个问题,通过“超大规模无监督
语料
上的预训练语言模型+相对少量的监督样本进行任务精调(fine-tuning)”,可以大幅提升各类NLP任务的效果。
飞桨PaddlePaddle
·
2022-12-31 20:13
大数据
自然语言处理
编程语言
机器学习
人工智能
学习笔记CB007:分词、命名实体识别、词性标注、句法分析树
基于条件随机场命名实体识别方法属于有监督学习方法,利用已标注大规模
语料
库训练。命名实体的放射性。命名实体的前后词。特征模板,当前位置前后n个位置字/词/字母/数字/
ahua2886
·
2022-12-31 19:50
GloVe模型训练
两类学习词向量的家族:1全局矩阵分解方法:像LSA(latentsemanticanalysis),有效的利用
语料
库的统计信息,但是在单词类比任务上做的较差。
solitude23
·
2022-12-31 15:52
自然语言处理
Glove模型详解
目录Glove模型总结Glove模型GloVe(GlobalVectors)模型认为
语料
库中单词出现的统计(共现矩阵)是学习词向量表示的无监督学习算法的重要资料。
big_matster
·
2022-12-31 15:49
PYthon小白成长记
机器学习
深度学习
人工智能
Glove模型的原理与代码
原理部分1.共现矩阵2.F值的获取3.Glove公式的获取4.损失函数的获取三、代码部分1.词表映射2.词嵌入3.训练函数4.输出结果总结一、背景 GloVe模型即GlobalVectors模型,该模型认为
语料
库中单词出现的统计
zaiziwamei
·
2022-12-31 15:15
NLP
算法
人工智能
鹏城AI靶场助力大规模高质量中文
语料
数据集安全开放
鹏城实验室率先开放大规模高质量中文
语料
数据集(鹏程·盘古
语料
数据集-1.1TB高质量中文
语料
数据、一带一路多语言
语料
数据集-1TB高质量多语言
语料
数据),研究人员可在鹏城AI靶场上安全使用数据,但无法带走数据
OpenI启智社区
·
2022-12-31 09:44
人工智能
中文预料数据集
鹏城AI靶场
开源数据集
TJU自然语言处理复习(1)
基于规则的自然语言处理基于统计的自然语言处理n-gram语言模型统计语言模型
语料
库:统计NLP的知识来源搭配NLP的方法论之争基于深度学习的自然语言处理什么是自然语言处理?自然语言是什么?
重铸计科荣光我辈义不容辞
·
2022-12-31 08:19
自然语言处理
nlp
1024程序员节
python中文字符串比较模块_python比较字符串相似度,原创度检测工具
8-*-"""基于gensim模块的中文句子相似度计算思路如下:1.文本预处理:中文分词,去除停用词2.计算词频3.创建字典(单词与编号之间的映射)4.将待比较的文档转换为向量(词袋表示方法)5.建立
语料
库
大不列颠一号
·
2022-12-30 19:59
python中文字符串比较模块
【NLP+机器学习】实现对评论的情感倾向分析,预测,评估
前言对文本的情感分析采用了两种思路——文本分类和文本聚类有监督的学习无监督的学习训练集包括输入和由人工标注的输出(x,y)其训练集没有人为标注的输出(x)分类(classify)聚类(cluster)测试文本(
语料
samarua
·
2022-12-30 17:20
#
NLP
自然语言处理
NLP
机器学习
情感分析
文本分类
文本聚类
生成式对话seq2seq:从rnn到transformer
查阅了一些市面上能看到资料,工业上的做法,普遍是基础模板(例如aiml)+IR闲聊库(例如小黄鸡
语料
QA)+爬虫(百度、搜狗)+知识图谱(wiki百科)+对话生成模型。
Ted_Li
·
2022-12-30 14:13
nlp
自然语言处理
seq2seq
Bert
GPT
Transformer
Graph embedding
DeepWalk为了使用无监督的方式训练每一个节点的embedding,我们会联想到word-embedding的方式,而word-embedding需要
语料
来训练每一个词的embe
vincent_hahaha
·
2022-12-30 14:34
GNN
GNN
上一页
19
20
21
22
23
24
25
26
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他