E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
语料库
中文语音识别数据集总结
目录OpenSLR国内镜像1.FreeSTChineseMandarinCorpus2.PrimewordsChineseCorpusSet13.爱数智慧中文手机录音音频
语料库
(MandarinChineseReadSpeech
buaa996
·
2022-12-02 16:48
语音识别
人工智能
自然语言处理
Pytorch+LSTM 的词汇预测
[email protected]
#@FILE:torch_LSTM.py#@Time:2022/6/710:59#@Software:PyCharm#@site:#@Description:采用LSTM进行
语料库
预测
linxizi0622
·
2022-12-01 16:53
NLP
lstm
pytorch
深度学习
人工智能
一、自然语言处理(新手上路)
自然语言处理层次2.1语音、图像和文本2.2中文分词、词性标注和命名实体识别2.3信息抽取2.4文本分类与文本聚类2.5句法分析2.6语义分析与篇章分析2.7其它高级任务3.NLP发展历史4.机器学习5.
语料库
前言自然语言处理
卡拉比丘流形
·
2022-11-30 19:56
自然语言处理
python
开发语言
nlp
CVPR 2021 UniT: Multimodal Multitask Learning with a Unifified Transformer
前人的研究表明,在大型
语料库
中训练的transformer在一系列的下游语言任务中学习了强大的表征。
smile909
·
2022-11-30 19:18
CVPR
2021
序列模型之循环神经网络(二)
术语:corpus
语料库
语料库
是自然语言处理的一个专有名词,就是很长的或者说数量众多的英文句子组
深海鱼肝油ya
·
2022-11-30 15:17
#
深度学习
深度学习
循环神经网络
GRU单元
RNN梯度消失
生成序列
自然语言处理课程学习总结
NaturallanguageunderstandingNaturallanguageprocessingComputationalLinguistics现在的自然语言处理是一个门介乎语言学、计算机科学和认知心理学之间的交叉科学主要应用机器翻译、语言识别与合成、自动文摘、信息检索、自动问答、
语料库
建立基本
Quincy1994
·
2022-11-29 22:25
自然语言处理
自然语言处理
自然语言
李沐动手学深度学习V2-bert预训练数据集和代码实现
一方面最初的BERT模型是在两个庞大的图书
语料库
和英语维基百科的合集上预训练的。另一方面现成的预训练BERT模型可能不适合医学等特定领域的应用。
cv_lhp
·
2022-11-29 13:00
李沐动手学深度学习笔记
深度学习
bert
bert预训练
transformer
pytorch
deepwalk详解
4.适用场景5.不足和改进1.算法思想源于word2vec,word2vec通过
语料库
中的句子序列来描述词与词的共现关系,进而学习到词语的向量表示。
黄龙马
·
2022-11-29 12:15
深度学习
图嵌入
社交网络
Deepwalk详解
算法思想源于word2vec,word2vec通过
语料库
中的句子序列来描述词与词之间的共现关系。进而学习到词语的向量表示,deepwalk则使用图中的节点与节点的共像现关系来学习节点的向量表示。
big_matster
·
2022-11-29 11:09
零样本概览前部分
算法
人工智能
一种中文作文自动评分方法及教辅系统的复现及步骤摘录
一、中文自动评分系统的构建方法1、
语料库
构建步骤,用于构建中文作文
语料库
:待评分作文获取步骤:(1)获取待评分作文图片(2)进行中文识别,得到作文文本(3)直接获取待评分作文文本2、浅层特征提取步骤,基于
语料库
提取作文的浅层特征浅层特征提取步骤
卧语寒蝉
·
2022-11-29 09:57
nlp
深度学习
【模型复现】文本匹配、文本分类模型ABSA快速复现
基于属性的情感分析(AspectBasedSentimentAnalysis)是一种在给定的
语料库
中同时提取(co-extracting)表达意见和(事物)属性/方面术
极链AI云
·
2022-11-29 00:19
模型部署
深度学习
机器学习
自然语言处理
复现实验:文本数据的分类与分析
对
语料库
的文档进行建模-->掌握文本建模的方法。基于有监督的机器学习方法训练文本分类器-->掌握分类算法原理。利用学习的文本分类器对未知文本进行分类判别,掌握评价分类器性能的评估方法。
@张小凡
·
2022-11-29 00:48
分类
人工智能
nlp
利用Word2Vec在语料中构建种子词集同类词
步骤:1)对
语料库
建立word2vec词向量模型;2)利用gensim.model联动的词汇相似
Papaya沐
·
2022-11-28 18:43
nlp
word2vec
python
自然语言处理
LineSentence 解决utf-8 codec can't decode byte 0xbe in position xx 方法
这块真的是修了快一下午,真实自闭(菜确实是原罪)本文参考自解决在使用gensim.models.word2vec.LineSentence加载
语料库
时报错UnicodeDecodeError:‘utf-
退堂鼓一级演员
·
2022-11-28 18:43
jieba
python
机器学习
Word2Vec的参数解释
使用Gensim训练Word2vec十分方便,训练步骤如下:1.将
语料库
预处理:一行一个文档或句子,将文档或句子分词(以空格分割,英文可以不用分词,英文单词之间已经由空格分割,中文预料需要使用分词工具进行分词
小白的进阶
·
2022-11-28 18:38
python
NLP
使用gensim.models.word2vec.LineSentence之前的语料预处理
nlp小白摸爬滚打的叨叨叨记录在进行自然语言处理工作时,不可避免使用大型
语料库
。在这里记录并分享做自己实验的时候读函数文档,以及参考各路大神,终于明白LinSentence如何使用的历程。
Papaya沐
·
2022-11-28 18:07
nlp
word2vec
python
自然语言处理
python处理数据集_用python处理movie数据集
我的实验是实现一个主题驱动的自动聊天机器人,CornellMovieDialogsCorpus是一个从电影数据中生成的电影对白
语料库
,包含大概600部电影对白,并且语料中含有电影名、角色、IMDB评分等许多信息
元气少女小林
·
2022-11-28 14:12
python处理数据集
TF-IDF词频逆文档频率算法
一.原理分析词频逆文档频率(TF-IDF)是一种特征向量化方法,广泛用于文本挖掘中,以反映术语对
语料库
中文档的重要性。用t表示术语,用d表示文档,用D表示
语料库
。
神之凝视
·
2022-11-28 11:30
Spark
机器学习
大数据
spark
TF-IDF
基于python的英文文档集上的tf、idf和tf_idf图像绘制
TF-IDF是一种统计方法,用以评估一个字词对于一个文件集或一个
语料库
中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在
语料库
中出现的频率成反比下降。
橙子树下
·
2022-11-27 18:58
python
python
tf-idf
plt
信息检索
CIKM 2022最佳论文:融合图注意力机制与预训练语言模型的常识库补全
©作者|巨锦浩单位|复旦大学硕士生来源|知识工场研究背景常识在各种
语料库
中很少被明确表达,但对于机器理解自然语言非常有用。
PaperWeekly
·
2022-11-27 10:01
【开源】MagicData-RAMC :180小时中文对话式语音数据集正式发布
为了进一步丰富开源语音
语料库
,促进语音语言处理技术的发展,MagicData联合中科院声学研究所、上海交通大学和西北工业大学,在Magichub开源社区正式开源180小时中文对话式语音数据集MagicData-RAMC
Magic Data
·
2022-11-27 03:39
人工智能
数据库
自然语言处理
机器学习
大数据
自然语言处理系列之:词性标注与命名实体识别
最简单的方法是从
语料库
中统计每个词对应的高频词性,并将其作为默认词性;词性标注规范北大词性标注集;宾州词性标注集;[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来
Hi丶ImViper
·
2022-11-27 03:37
python
python
机器学习
自然语言处理
机器人改变生活利弊英语作文_最新雅思写作
语料库
:机器人利弊
因此,小站在这里为同学们整理了雅思备考
语料库
,希望对备考的同学们有所帮助。本文主要分享关于机器人利弊的语料,话不多说,直接干货奉上!
幻世魔王
·
2022-11-27 02:14
机器人改变生活利弊英语作文
Mind the GAP: A Balanced Corpus of Gendered Ambiguous Pronouns--论文笔记
MindtheGAP:ABalancedCorpusofGenderedAmbiguousPronouns注意差距:性别歧义代词的平衡
语料库
AbstractCoreferenceresolutionisanimportanttaskfornaturallanguageunderstanding
JasonSera
·
2022-11-26 13:07
偏见研究
人工智能
自然语言处理
深度学习,实现智能聊天对话机器人(大数据人工智能公司)
目前使用广泛的聊天机器人采用机器学习、深度学习技术,如检索式机器人,通过用户输入的信息,在已有的对话
语料库
找到适合当前问题的最佳回复;生成式机器人,是利用编码-解码技术生成回复内容,更接近人类的回复。
沃达德软件
·
2022-11-26 07:27
人工智能
大数据
深度学习
机器学习
NLP - 关键词提取 - TextRank
NLP-关键词提取-TextRank一、TextRank介绍二、PageRank介绍三、PageRank计算过程四、关键词提取任务一、TextRank介绍TextRank算法则可以脱离
语料库
的基础,仅对单篇文档进行分析就可以提取该文档的关键词
大虾飞哥哥
·
2022-11-26 03:26
NLP
自然语言处理
算法
机器学习
M6-中文多模态预训练模型
回顾方法下游应用程序可扩展到具有万亿个参数的模型1.回顾多模态预训练模型架构:l基于transformerl单流或者双流图像特征:l目标特征lPatch特征l原始像素下游任务:l理解:VQA,检索l生成:图像字幕对M6的预期l在中文
语料库
上的预训练模型
Necther
·
2022-11-25 19:29
自然语言处理
深度学习
计算机视觉
机器学习
《Transformers自然语言处理系列教程》第1章:Transformers 介绍
与此同时,一种名为ULMFiT的有效迁移学习方法表明,在一个非常大和多样化的
语料库
上,训练长短期记忆(LSTM)网络,可以用很少的标记数据,产生SOTA的文本分类器。
小爷毛毛(卓寿杰)
·
2022-11-25 17:05
自然语言处理
深度学习
transformer
知识图谱-多跳推理问答-模型-2020:EmbedKGQA【第一个将KGE用于多跳推理问答任务的方法】【直接通过score=φ(q,e_h,e_a‘)从KG中选择答案实体】
最近的方法已使用外部文本
语料库
来处理KG稀疏性。而本文期望通过利用KGembedding的链接预测属性,不依赖外部数据解决KG不完整问题。
u013250861
·
2022-11-25 16:16
#
KG/KGQA(多跳推理问答)
知识图谱
人工智能
【论文翻译】Neural Architectures for Named Entity Recognition
Abstract处于领先水平的命名实体识别系统严重依赖于人工设计的特征与特定领域的知识,从而更高效地学习小型、带标记的
语料库
。
aibin6833
·
2022-11-25 13:57
python
数据库
操作系统
知识图谱构建与应用推荐学习分享
传统的语言建模不利用文本
语料库
中经常观察到的实体事实,如何将知识整合到语言表征中已引起越来越多的关注。二、知识图谱语言模型(KGLM):通过选择和复制实体来学习并呈现知识。
renhongxia1
·
2022-11-25 13:41
迁移学习
人工智能
深度学习
知识图谱
学习
人工智能
情感分析技术
先对
语料库
的进行情感分析,有助于生成更加自然的,多样化的文本。最近读的论文大多数也大都涉及情感分析,所以想要系统学一下,多了解这一方面的技术。
欢桑
·
2022-11-24 22:40
nlp
深入浅出Word2Vec原理解析
1.1统计语言模型统计语言模型是用来计算一个句子的概率的概率模型,它通常基于一个
语料库
来构建。那什么叫做一个句子的概率呢?假设表示由个词按顺序构
风度78
·
2022-11-24 18:27
Hugging Face——MLM预训练掩码语言模型方法
只要用于预训练的
语料库
与用于微调的
语料库
没有太大区别,迁移学习通常会产生很好的结果。但是,在某些情况下,你需要先微调数据上的语言模型,然后再训练特定于任务的head。
Charon_HN
·
2022-11-24 12:43
#
炼丹记录
HuggingFace
Pytorch
掩码模型
MLM
BERT
手把手教你对抓取的文本进行分词、词频统计、词云可视化和情感分析
他要构建
语料库
,目前通过Python网络爬虫抓到的数据存在一个csv文件里边,现在要把数据放进txt里,表示不会,然后还有后
Python进阶者
·
2022-11-24 11:52
可视化
python
csv
数据分析
数据可视化
NLP入门学习(一):搜狗新闻
语料库
的获取与预处理
前言今天是2021年10月6日,从9月份开学好像一直什么都没有学习,可能也只有每天刷点力扣题了吧,一天当中很多的时间都浪费了,本来想的是平平淡淡的过完研究生的生活,但好像发现如果一开始的目标就很低的话,那很可能这个目标完成不了,所以说我的目标就是成为优秀毕业生顺利毕业,与此同时希望自己能找到一个好工作。那么从现在开始,我不仅仅要每天刷力扣题,而且还要准备论文和项目了,java方面的我是不太可能了,
dreamlpx
·
2022-11-24 10:02
NLP入门学习
自然语言处理
python
语料库
数据处理个案实例(分词和分句、词频统计、排序)
本文来自《基于Python的
语料库
处理》_雷蕾著。7.1分句和分词7.1.1分句分句(sentencesplitting)就是将字符串按自然句子的形式进行切分。
Triumph19
·
2022-11-24 10:01
python文本分析
利用Python进行数据分析
python
人工智能
自然语言处理
语音处理 之 libritts,AIShell
LibriSpeech该数据集为包含文本和语音的有声读物数据集,由VassilPanayotov编写的大约1000小时的16kHz读取英语演讲的
语料库
。
才大难为用
·
2022-11-24 09:10
自然语言处理
python
深度学习
机器学习
BERT源码解析(上)
还有一个是nextsentenceprediction,判断两个句子是否在文章中互为上下句,然后使用大规模的
语料库
去预训练。模型结构如下:Bertbase具有12层上图所示的
CReep~
·
2022-11-23 14:23
nlp
机器学习算法
bert
自然语言处理
深度学习
论文阅读;Questions Are All You Need to Train a Dense Passage Retriever
训练密集通道检索器所需要的问题arxiv2022论文链接摘要我们介绍了ART,这是一种新的
语料库
级自动编码方法,用于训练不需要任何标记训练数据的密集检索模型。
张
·
2022-11-23 13:37
OpenQA论文阅读
学习笔记
论文阅读
深度学习
人工智能
论文阅读Unsupervised Corpus Aware Language Model Pre-training for Dense Passage Retrieval
密集文本检索的无监督
语料库
感知语言模型预训练ACL2022论文链接摘要最近的研究证明了使用微调语言模型(LM)进行密集检索的有效性。
张
·
2022-11-23 13:30
OpenQA论文阅读
学习笔记
论文阅读
语言模型
人工智能
ERNIE: Enhanced Language Representation with Informative Entities中文
4.1预训练数据集4.2参数设置和训练细节4.5GLUE4.6消融研究5结论ERNIE注:本文为清华和华为的ERNIE模型,百度也有个同名的ERNIE清华ERNIE原论文百度ERNIE原论文摘要在大规模
语料库
上预训练的
葫芦娃啊啊啊啊
·
2022-11-23 10:12
论文
知识图谱
自然语言处理
人工智能
深度学习
详细介绍百度ERNIE:通过知识集成增强表示
简介相关工作采用矢量表示单词,上下文无关的表示采用上下文来预测丢失的单词,没有考虑先验知识采用异构数据ERNIE的详细实现Transformer编码器知识整合基本级别掩码短语级别掩码实体级别掩码实验异构
语料库
预训练
若年封尘
·
2022-11-23 10:27
深度学习
百度
人工智能
深度学习
ERNIE
机器学习——LDA主题模型
LDA主题模型LDA是一种非监督机器学习技术,可以用来识别大规模文档集(documentcollection)或
语料库
(corpus)中潜藏的主题信息。
weixin_46064807
·
2022-11-22 23:08
LDA建模
python
机器学习
自然语言处理
TF-IDF算法原理和公式
一、什么是TF-IDF算法TF-IDF算法是一种统计方法,用以评估一字词对于一个文件集或一个
语料库
中的其中一份文件的重要程度。
CoolSichuan
·
2022-11-22 18:35
SEO
算法
搜索引擎
百度
tf idf python_TFIDF算法的python实现
TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个
语料库
中的其中一份文件的重要程度。字词的重要性随着它在文件
weixin_39533795
·
2022-11-22 17:29
tf
idf
python
TF-IDF算法介绍及实现
TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个
语料库
中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会
嘻哈吼嘿呵
·
2022-11-22 17:24
#
机器学习
TF-IDF算法实现
TermFrequency-InverseDocumentFrequency,TF-IDF)是一种用于资讯检索与文本挖掘的常用加权技术●TF-IDF是一种统计方法,用以评估一一个字词对于一个文件集或一个
语料库
中的其中一份文件的重要程度
VernonJsn
·
2022-11-22 17:51
算法
人工智能
tfidf代码实现
TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个
语料库
中
望长安于日下
·
2022-11-22 17:21
linux
python
自然语言处理
TF-IDF 统计算法介绍与代码实现
一种统计方法,用以评估一字词对于一个文件集或一个
语料库
中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但随着它在
语料库
中出现的频率成反比下降。
青霄
·
2022-11-22 17:48
算法
TF-IDF算法
相似度
上一页
11
12
13
14
15
16
17
18
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他