E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
语料库
NLTK
语料库
nltk.download()安装失败及下载很慢的解决方法
一.解决nltk.download()安装失败importnltknltk.download()下载nltk
语料库
出现getaddrinfofailed如下错误:这里只需将ServerIndex路径改成
sky2line
·
2023-01-15 12:36
Python学习
深度学习
python
开发语言
The ATIS Spoken Language Systems Pilot Corpus
我们描述了ATISATISATIS试点
语料库
,设计的语料可以测量进展,在口语语言系统中,包括:aspeechandnaturallanguagecompoment.这个尝点标注着全面收集语料和提供指导为未来的努力
big_matster
·
2023-01-15 06:18
论文创新及观点
语音识别
人工智能
【自然语言处理】Gensim核心概念
2.Corpus:
语料库
语料库
是文档对象的集合。
语料库
在Gensim中主要有两个作用:作为训练模型的输入。在训练期间,模型使用这个训练
语料库
来寻找共同的主题,初始化它们的内部模型参数。组织文件。训
皮皮要HAPPY
·
2023-01-14 08:28
自然语言处理
人工智能
自然语言处理
人工智能
Gensim
主题建模
清华刘知远、黄民烈团队力作:一个「PPT」框架,让超大模型调参变简单
通过微调PLM的全部参数,从大规模无标签
语料库
中获得的多方面知识可以用于处理各种NLP任务
PaperWeekly
·
2023-01-13 01:49
机器学习
人工智能
深度学习
大数据
算法
[调研]一些公开NLP库的效果
2.功能矩阵对比3.性能测试(1)分词数据集选用sighan2005PKU
语料库
测试集中的1930个样本。结论:整体效果上看,若对精度要求高,对时间要求低,可以采用foolnltk;若对时间有一
女青年学习日记
·
2023-01-12 17:22
模型调研
算法
nlp
tf-idf的原理及计算
termfrequencyidf;inversedocumentfrequencyTF=某个词在文章中出现的次数/文章的总次数或TF=某个词在文章中出现的次数/该问出现次数最多的词出现的次数IDF=log(
语料库
的文档总数
会发paper的学渣
·
2023-01-12 16:24
NLP
推荐
搜索
tf-idf
AISHELL-3: A MULTI-SPEAKER MANDARIN TTS CORPUS AND THE BASELINES 论文理解
0.说明很好的中文多说话人TTS语料,谢谢各位老师们~0.摘要在本文中,我们提出了AISHELL-3,一个大规模和高保真的多说话人普通话语音
语料库
,可用于训练多说话人文本到语音(TTS)系统。
ruclion
·
2023-01-12 13:15
研三-语音合成论文
自然语言处理
机器学习:TF-IDF算法【词频-逆文本频率=TF×IDF】【用以评估一个词对于一个文档集中的其中一份文档的重要】【词频:词或短语在一篇文章中出现的概率】【逆文本频率:总文档数量/该词出现的文档数量】
一、什么是TF-IDFTF-IDF是一种统计方法,用以评估一个词对于一个文件集或一个
语料库
中的其中一份文件的重要程度。可用于关键词提取。
u013250861
·
2023-01-12 08:44
机器学习/ML
机器学习
算法
人工智能
TF-IDF
来,带你从TF-IDF说起搞懂BM25
这篇文章中有一点理解,我么先搬过来:IDF表征的是区分度、稀缺性,用以评估一个单词在
语料库
中的重要程度,一个词在少数几篇文档中出现的次数越多,它的IDF值越高,如果这个词在大多数文档中都出现了,这个值就不大了
知了爱啃代码
·
2023-01-12 08:44
NLP-自然语言处理笔记
nlp
自然语言处理
算法
人工智能
TF-IDF与BM25算法原理
1.TF-IDF原理TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个
语料库
中的一份文件的重要程度。
orangerfun
·
2023-01-12 08:13
自然语言处理
算法
【NLP工具】hanLP2.1的使用(未完)
借助世界上最大的多语种
语料库
,HanLP2.1支持包括简繁中英日俄法德在内的1
尊新必威
·
2023-01-11 18:56
自然语言处理
HanLP的分词
importhanlphanlp.pretrained.tok.ALL#语种见名称最后一个字段或相应
语料库
调用hanlp.load进行加载,模型会自动下载到本地缓存。
Sonhhxg_柒
·
2023-01-11 18:54
自然语言处理(NLP)
自然语言处理
人工智能
一文看懂 NLP 中的情感分析任务
情感倾向分析的方法主要分为两类:基于情感词典的方法;基于机器学习的方法,如基于大规模
语料库
的机器学习。前者需要用到标注好的情
深度学习技术前沿
·
2023-01-09 12:33
人工智能
自然语言处理
机器学习
nlp
编程语言
想要学习NLP情感分析,你竟然没看过这篇文章!
情感倾向分析的方法主要分为两类:基于情感词典的方法;基于机器学习的方法,如基于大规模
语料库
的机器学习。前者需要用到标注好的情
csdn人工智能头条
·
2023-01-09 12:57
人工智能
机器学习
自然语言处理
编程语言
nlp
Word2Vec之CBOW详解
举个例子,一个corpus(
语料库
)为“Idrinkcoffeeeveryday”。假设将单词放入数组str,则该数组str长度
Feather_74
·
2023-01-09 03:42
NLP自然语言处理
word2vec
人工智能
nlp
1024程序员节
Quora Question Pairs整理 - 文本相似度计算(unfinished)
具体地,根据
语料库
获得一个单词集合,集合中保存着语
weixin_30399055
·
2023-01-08 06:01
人工智能
数据结构与算法
基于Python+JavaScript的面向文本分析的交互式主题建模可视化分析系统
本课题的研究背景和意义21.1.1主题模型的发展及研究现状21.1.2目前存在的问题31.1.3本课题的研究意义31.2研究内容和主要工作31.3本文的组织结构3二、核心算法32.1文本预处理42.2大型
语料库
的内存优化
biyezuopin
·
2023-01-08 06:00
python
javascript
数据挖掘
面向文本分析
交互式主题建模可视化
文本相似度和距离度量
具体地,根据
语料库
获得一个单
a flying bird
·
2023-01-08 06:28
NLP
bert生成句向量(python)
第一步:安装库pipinstallbert-serving-serverpipinstallbert-serving-client第二步:下载
语料库
bert中文模型链接:https://storage.googleapis.com
江湖夜雨十年灯丶
·
2023-01-08 00:40
python
bert
自然语言处理
NLP
语料库
构建(corpus)
1文本加载文本处理函数学习:re.sub():正则表达式替换函数,对于输入的一个字符串,利用正则表达式(的强大的字符串处理功能),去实现(相对复杂的)字符串替换处理,然后返回被替换后的字符串,实现比普通字符串的replace更加强大的替换功能。importres="大家好,我是一个小白。I'msogladtointroducemyself,andI’m18yearsold.Todayis2020/
自在犹仙
·
2023-01-07 21:26
深度学习集训
自然语言处理
人工智能
python
python 文本挖掘 TF-IDF 的jieba与sklearn实现
TF-IDF(TermFrequency-InverseDocumentFrequency,词频-逆文件频率).TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个
语料库
中的其中一份文件的重要程度
English Chan
·
2023-01-07 15:10
机器学习
python
自然语言处理
tf-idf
关键词提取-基于python实现tf-idf
关键词提取代码实现:#encoding:utf-8importjiebaimportreimportosimportnumpyasnpclassMyTfIdf:def__init__(self):#
语料库
中所有文档的每个词的词频的统计
Jason_Honey2
·
2023-01-07 15:03
python
自然语言处理
tf-idf
文本相似度算法:文本向量化+距离公式
1.1.1词袋模型的步骤第一步:构造词典根据
语料库
,把所有的词都提取出来,编上序号第二步:独热编码,D维向量记词典大小为D,那么每个文章就是一个D维向量:每个位置上的数字表示对应编号的词在该文章中出现的次数
==樛木==
·
2023-01-07 07:34
深度学习之个人总结
文本相似度
文本向量化
余弦相似度
词袋模型
TD-IDF
Python分析国家领导人新春贺词建立主题模型
主题建模可以帮助开发人员直观地理解和探索数据,以便更好地挖掘
语料库
中的主题。成功的主题建模需要多次迭代:清洗数据、读取结果、相应地调整预处理并重试。
今天喝奶茶了嗎
·
2023-01-06 10:10
自然语言处理
python
机器学习
自然语言处理
解决nltk download(‘brown’)连接尝试失败问题
连接尝试失败1、去下载官方包(http://www.nltk.org/nltk_data/)2、选择其中一个路径,将解压后的文件按照该路径放好再运行一下代码#nltk库提供了直接生成N-gram的方法#以布朗
语料库
的单词
小白*进阶ing
·
2023-01-05 21:33
python
开发语言
python nltk 安装失败以及download()出错
1、什么是nltk一个完整的⾃然语⾔处理框架⾃带
语料库
,词性分类库⾃带分类,分词,等等功能有强⼤的社区⽀持框架设计上没有考虑中文使用安装语句pipinstallnltknltk.download()#下载
是鱼儿啊~
·
2023-01-05 21:33
机器学习
python
开发语言
数据挖掘
NLTK
语料库
nltk.download()安装失败及下载很慢的解决方法
一.解决nltk.download()安装失败importnltknltk.download()下载nltk
语料库
出现getaddrinfofailed如下错误:这里只需将ServerIndex路径改成
深度学习菜鸟
·
2023-01-05 21:32
python
自然语言处理
我用 Python 自制成语接龙小游戏,刺激
在https://github.com/pwxcoo/chinese-xinhua项目中可以下载到中华成语的
语料库
,该项目收录包括14032条歇后语,16142个汉字,264434个词语,31648个成语
程序员婷崽
·
2023-01-05 20:31
python
开发语言
用 Python 自制成语接龙小游戏!
作者:小小明来源:杰哥的IT之旅在https://github.com/pwxcoo/chinese-xinhua项目中可以下载到中华成语的
语料库
,该项目收录包括14032条歇后语,16142个汉字,264434
Python数据之道
·
2023-01-05 20:31
数据挖掘
python
人工智能
数据分析
大数据
用Python 做成语接龙,超简单,有语音,过年和孩子玩
过年和孩子玩成语需要准备的资料:idiom.json文件python3.6安装pyttsx3pandasnumpy在https://github.com/pwxcoo/chinese-xinhua项目中可以下载到中华成语的
语料库
搬码工琪老师
·
2023-01-05 20:29
python制作生活小工具
python
开发语言
基于mrpc的文本分类任务Bert源码分析(一):特征提取
他们主要的工作是预训练出了一个模型,即对一个很大的
语料库
进行训练,得到相应的词向量。这一步,主要用到mask,transformer等机制。
丹妮与铁王座
·
2023-01-05 19:10
BERT源码学习记录
论文阅读笔记---《TransferNet: An Effective and Transparent Framework for Multi-hop Question Answering over》
这些关系可以用知识图谱中的标签(例如,配偶)或文本
语料库
中的文本(例如,他们已经结婚26年)来表示。现有模型通常通过预测顺序关系路径或聚合隐藏图特征来推断答案。前者难以优化,后者缺乏可解释性。
Ray.1998
·
2023-01-05 14:13
论文笔记
自然语言处理
人工智能
nlp
transformer
神经网络
语音识别入门第一节:语音识别概述
目录语音识别的定义语音识别的重要性语音交互语音识别的挑战性语音识别的发展历史语音识别的深度学习时代现代语音识别框架
语料库
与工具包语音识别的定义语音识别:AutomaticSpeechRecognition
安静_xju
·
2023-01-05 11:49
语音识别入门
语音识别
人工智能
自然语言处理之使用gensim.Word2Vec训练词向量进行词义消歧
不过嘛,正如我们想的那样,肯定是
语料库
越大越好,但越大呢就训练的时间越长,这也是没办法的事情。我建议大家用GPU来训练,当当当,强烈推荐AI
猫头丁
·
2023-01-05 10:51
自然语言处理
自然语言处理
nlp
词向量
gensim
aistudio
主题模型Gensim入门系列之四:文本相似度查询
入门系列之二:语料和向量空间(3)主题模型Gensim入门系列之三:主题和变换(4)主题模型Gensim入门系列之四:文本相似度查询————————————————————————————本文主要介绍如何从一个
语料库
中
liuzard
·
2023-01-05 10:49
主题模型
自然语言处理
gensim
nlp
自然语言处理
主题模型
gensim
gensim入门
简介:gensim是挖掘文档语义结构的工具,通过
语料库
(文档集),生成表示文本的向量。
语料库
:
语料库
是数字文档的集合,是gensim的输入
攀攀的跟屁虫
·
2023-01-05 10:15
自然语言处理
人工智能培训老师讲师叶梓:计算机视觉领域的自监督学习模型——MAE-2
主要方法是在大型文本
语料库
上进行预训练,然后在较小的特定于任务的数据集上进行微调。Transformer未完,下一篇继续……
大数据AI人工智能专家培训讲师叶梓团队
·
2023-01-05 09:41
人工智能讲师
人工智能
AI
人工智能
计算机视觉
自然语言处理
AI讲师
自监督学习模型
使用全局优化方法识别中文事件因果关系
使用全局优化方法识别中文事件因果关系目录使用全局优化方法识别中文事件因果关系一、
语料库
标注及基准系统1、因果
语料库
标注1.显示因果关系2.隐式因果关系3.非因果关系2、基准系统二、全局优化模型1.目标函数
懒人的理想主义
·
2023-01-04 07:05
论文总结
个人见解
彻底搞懂BPE(Byte Pair Encode)原理(附代码实现)
例子1.准备一个
语料库
(corpus),并统计这个
语料库
中每个词语的词频,通过“[词频]词语_”的形式存储,这里的“_”表示词语结尾。
无名草鸟
·
2023-01-03 22:49
ai
自然语言处理
nlp知识点总结(上)
壹:
语料库
一、什么是
语料库
1.定义
语料库
(corpus)一词在语言学上意指大量的文本,通常经过整理,具有既定格式与标记。2.种类共时
语料库
与历时
语料库
。通用
语料库
与专用
语料库
。
m0_59989429
·
2023-01-03 17:01
课程复习
自然语言处理
人工智能
论文笔记之Distributed Representations of Words and Phrases and their Compositionality
这篇文章是用于解决skip-gram和CBOW两种模型在计算softmax时因为
语料库
V太大导致计算复杂度偏高的问题。
Ton10
·
2023-01-03 09:48
NLP
机器学习
深度学习
人工智能
NLP
word2vec
Contrastive Domain Adaptation for Question Answering using Limited Text Corpora
ContrastiveDomainAdaptationforQuestionAnsweringusingLimitedTextCorpora基于有限文本
语料库
的问答对比领域自适应codeAbstract
自然语言处理CS
·
2023-01-03 09:47
论文笔记
深度学习
机器学习
人工智能
10.3_word2vec-pytorch
我们以10.1节(词嵌入word2vec)中的跳字模型和10.2节(近似训练)中的负采样为例,介绍在
语料库
上训练词嵌入模型的实现。我们还会介绍一些实现中的技巧,如二次采样(subsampling)。
给算法爸爸上香
·
2023-01-02 16:20
#
Pytorch
deep
learning
pytorch
word2vec
深度学习
下载Wikidata并转成TXT文档
1.下载wikidataWikipedia中文
语料库
链接:wikidata页面里面是不同时间段的数据,本人选择的是20221001目录下的文件。接下来就是要下载好的bz2文件转成txt格式的。
五彩神石
·
2023-01-02 13:51
ubuntu
python
linux
自然语言处理
英文维基百科Python查询API
问题描述维基百科
语料库
是做文本挖掘和自然语言处理相关实验的一个非常重要的公开可获取大规模
语料库
(知识库),有时需要对其进行检索并对获取结果页面的相关信息,如正文文本、标题、页面文本长度等。
Luban250
·
2023-01-02 13:51
python
文本挖掘
自然语言处理
维基百科API
英文维基百科API
wikipedia
API
维基百科Python
API
维基百科搜索API
keras.preprocessing.sequence.pad_sequences
fromkeras.preprocessing.textimportTokenizer#文本标记实用类,允许使用两种方法向量化一个文本
语料库
:将每个文本转化为一个整数序列(每个整数都是词典中标记的索引)
Rouge-Eradiction
·
2023-01-02 12:22
keras
自然语言处理
【机器学习】TF-IDF词袋模型简介
来计算TF-IDF总结引言TF-IDF全称为TF-IDF(TermFrequency-InverseDocumentFrequency,词频-逆文档频率),这是一种统计方法,用来评估一个词对于一个文件集或
语料库
中的其中一份文件的重要程度
Coder_preston
·
2023-01-02 11:09
深度学习
tf-idf
sklearn
用tensorflow快速创建
语料库
词汇索引的方法
下面介绍用tensorflow快速创建
语料库
词汇索引的方法用tensorflow快速创建
语料库
词汇索引功能建立词汇表和word到index,及index到word的map,这就需
szZack
·
2023-01-01 13:37
自然语言处理
常见问题
学习笔记CB007:分词、命名实体识别、词性标注、句法分析树
基于条件随机场命名实体识别方法属于有监督学习方法,利用已标注大规模
语料库
训练。命名实体的放射性。命名实体的前后词。特征模板,当前位置前后n个位置字/词/字母/数字/
ahua2886
·
2022-12-31 19:50
GloVe模型训练
两类学习词向量的家族:1全局矩阵分解方法:像LSA(latentsemanticanalysis),有效的利用
语料库
的统计信息,但是在单词类比任务上做的较差。
solitude23
·
2022-12-31 15:52
自然语言处理
上一页
8
9
10
11
12
13
14
15
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他