E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
语料
序列模型之循环神经网络(二)
术语:corpus
语料
库
语料
库是自然语言处理的一个专有名词,就是很长的或者说数量众多的英文句子组
深海鱼肝油ya
·
2022-11-30 15:17
#
深度学习
深度学习
循环神经网络
GRU单元
RNN梯度消失
生成序列
天池小布助手对话短文本语义匹配-文本二分类实践(pytorch)
模型数据来自天池全球人工智能技术创新大赛【赛道三】详情数据格式:模型:textcnn,lstm,lstm+attention最后选择用最后一种方法步骤:1.如果想利用词向量模型训练的结果做embeeding,则准备有标签
语料
路新航
·
2022-11-30 14:07
深度学习
python
深度学习
机器学习
ACL 2022 Tutorial解析——知识增强自然语言理解
来自:圆圆的算法笔记NLP预训练模型需要非常大的参数量以及非常多的
语料
信息,这些都是希望能尽可能多的记住文本中的知识,以此提升下游任务效果。
zenRRan
·
2022-11-30 01:34
算法
大数据
编程语言
python
机器学习
ACL2022 | 基于神经标签搜索的零样本多语言抽取式文本摘要
抽取式文本摘要目前在英文上已经取得了很好的性能,这主要得益于大规模预训练语言模型和丰富的标注
语料
。但是对于其他小语种语言,目前很难得到大规模的标注数据。中国科学院信息工程研究所和微软亚洲研究院
zenRRan
·
2022-11-30 01:33
算法
大数据
自然语言处理
编程语言
python
自然语言处理课程学习总结
NaturallanguageunderstandingNaturallanguageprocessingComputationalLinguistics现在的自然语言处理是一个门介乎语言学、计算机科学和认知心理学之间的交叉科学主要应用机器翻译、语言识别与合成、自动文摘、信息检索、自动问答、
语料
库建立基本
Quincy1994
·
2022-11-29 22:25
自然语言处理
自然语言处理
自然语言
BERT从零详细解读:如何做预训练 - MLM+NSP
MLM:masklanguagemodelNSP:去判断两个句子之间的关系BERT在预训练时使用的是大量的无标注的
语料
(比如随手可见的一些文本,它是没有标注的)。
kikato2022
·
2022-11-29 13:40
NLP
自然语言处理
NLP实践 | 用自己的
语料
进行MLM预训练
每天给你送来NLP技术干货!编辑:AI算法小喵1.关于MLM1.1背景作为Bert预训练的两大任务之一,MLM和NSP大家应该并不陌生。其中,NSP任务在后续的一些预训练任务中经常被嫌弃,例如Roberta中将NSP任务直接放弃,Albert中将NSP替换成了句子顺序预测。这主要是因为NSP作为一个分类任务过于简单,对模型的学习并没有太大的帮助,而MLM则被多数预训练模型保留下来。由Roberta
zenRRan
·
2022-11-29 13:35
python
机器学习
人工智能
深度学习
tensorflow
李沐动手学深度学习V2-bert预训练数据集和代码实现
一方面最初的BERT模型是在两个庞大的图书
语料
库和英语维基百科的合集上预训练的。另一方面现成的预训练BERT模型可能不适合医学等特定领域的应用。
cv_lhp
·
2022-11-29 13:00
李沐动手学深度学习笔记
深度学习
bert
bert预训练
transformer
pytorch
deepwalk详解
4.适用场景5.不足和改进1.算法思想源于word2vec,word2vec通过
语料
库中的句子序列来描述词与词的共现关系,进而学习到词语的向量表示。
黄龙马
·
2022-11-29 12:15
深度学习
图嵌入
社交网络
Deepwalk详解
算法思想源于word2vec,word2vec通过
语料
库中的句子序列来描述词与词之间的共现关系。进而学习到词语的向量表示,deepwalk则使用图中的节点与节点的共像现关系来学习节点的向量表示。
big_matster
·
2022-11-29 11:09
零样本概览前部分
算法
人工智能
一种中文作文自动评分方法及教辅系统的复现及步骤摘录
一、中文自动评分系统的构建方法1、
语料
库构建步骤,用于构建中文作文
语料
库:待评分作文获取步骤:(1)获取待评分作文图片(2)进行中文识别,得到作文文本(3)直接获取待评分作文文本2、浅层特征提取步骤,基于
语料
库提取作文的浅层特征浅层特征提取步骤
卧语寒蝉
·
2022-11-29 09:57
nlp
深度学习
文本表征 Text Representation
基于词向量的固定表征:Word2vec、FastText、GloVe基于词向量的动态表征:ELMo、GPT、BERT各模型的优缺点:One-hot表示:维度灾难、语义鸿沟;静态表证矩阵分解(LSA):利用全局
语料
特征
jzwei023
·
2022-11-29 06:16
NLP
深度学习
自然语言处理
【模型复现】文本匹配、文本分类模型ABSA快速复现
基于属性的情感分析(AspectBasedSentimentAnalysis)是一种在给定的
语料
库中同时提取(co-extracting)表达意见和(事物)属性/方面术
极链AI云
·
2022-11-29 00:19
模型部署
深度学习
机器学习
自然语言处理
复现实验:文本数据的分类与分析
对
语料
库的文档进行建模-->掌握文本建模的方法。基于有监督的机器学习方法训练文本分类器-->掌握分类算法原理。利用学习的文本分类器对未知文本进行分类判别,掌握评价分类器性能的评估方法。
@张小凡
·
2022-11-29 00:48
分类
人工智能
nlp
BERT详解
输入部分详细解读cls、sep存在因为bert预训练任务中有nsp任务(判断两个句子之间的关系)将cls的输出向量接一个二分类器,去做一个二分类任务预训练之MLM详解bert在预训练的时候,使用的是大量的无标注的
语料
认为
Grateful_Dead424
·
2022-11-28 23:31
bert
深度学习
人工智能
利用Word2Vec在
语料
中构建种子词集同类词
nlp小白努力探索的第n天......今天记录和分享利用gensim.model.word2vec.Word2Vec在
语料
中构建种子词集同类词先说明任务情况:全量
语料
数据中包含:已打标
语料
,未打标
语料
。
Papaya沐
·
2022-11-28 18:43
nlp
word2vec
python
自然语言处理
LineSentence 解决utf-8 codec can't decode byte 0xbe in position xx 方法
这块真的是修了快一下午,真实自闭(菜确实是原罪)本文参考自解决在使用gensim.models.word2vec.LineSentence加载
语料
库时报错UnicodeDecodeError:‘utf-
退堂鼓一级演员
·
2022-11-28 18:43
jieba
python
机器学习
词向量实践(gensim)
https://github.com/cyandn/practice/tree/master/Word2Vecgensim中Word2Vec参数解释:主要参数介绍如下:sentences:我们要分析的
语料
dazha4426
·
2022-11-28 18:38
人工智能
Word2Vec的参数解释
使用Gensim训练Word2vec十分方便,训练步骤如下:1.将
语料
库预处理:一行一个文档或句子,将文档或句子分词(以空格分割,英文可以不用分词,英文单词之间已经由空格分割,中文预料需要使用分词工具进行分词
小白的进阶
·
2022-11-28 18:38
python
NLP
使用gensim.models.word2vec.LineSentence之前的
语料
预处理
nlp小白摸爬滚打的叨叨叨记录在进行自然语言处理工作时,不可避免使用大型
语料
库。在这里记录并分享做自己实验的时候读函数文档,以及参考各路大神,终于明白LinSentence如何使用的历程。
Papaya沐
·
2022-11-28 18:07
nlp
word2vec
python
自然语言处理
python处理数据集_用python处理movie数据集
我的实验是实现一个主题驱动的自动聊天机器人,CornellMovieDialogsCorpus是一个从电影数据中生成的电影对白
语料
库,包含大概600部电影对白,并且
语料
中含有电影名、角色、IMDB评分等许多信息
元气少女小林
·
2022-11-28 14:12
python处理数据集
中文对话数据集预处理
一、数据集介绍本文采用50w中文闲聊
语料
作为预处理数据集百度网盘【提取码:4g5e】,中文闲聊
语料
的内容样例如下:谢谢你所做的一切你开心就好开心嗯因为你的心里只有学习某某某,还有你这个某某某用的好你们宿舍
qq_42999411
·
2022-11-28 14:07
pytorch
人工智能
python
刷新SOTA!Salesforce提出跨模态对比学习新方法,仅需4M图像数据!
文|子龙多模态已经不是一个新鲜的话题,如何在一个模型中融合CV和NLP的信息同时吸引了两个领域的目光(CV、NLP的会都能投),但是很容易就能想到,来自图片的视觉特征和来自
语料
的文本特征来自不同的模型,
夕小瑶
·
2022-11-28 11:40
机器学习
人工智能
计算机视觉
python
算法
TF-IDF词频逆文档频率算法
一.原理分析词频逆文档频率(TF-IDF)是一种特征向量化方法,广泛用于文本挖掘中,以反映术语对
语料
库中文档的重要性。用t表示术语,用d表示文档,用D表示
语料
库。
神之凝视
·
2022-11-28 11:30
Spark
机器学习
大数据
spark
TF-IDF
tensorflow聊天机器人python实现_GitHub - Jaleel-zhu/tensorflow-chatbot: 使用Tensorflow实现了一个简易的中文聊天机器人...
本项目使用TensorFlow实现了一个简易的聊天机器人项目结构corpus:存放
语料
数据data:存放经过预处理的训练数据doc:存放资料文档hparams:存放预定义的超参数json文件models
weixin_39613208
·
2022-11-28 10:42
AI机器翻译数据预处理步骤
之前在进行机器翻译时,一般除了与句子长度做了长度限制外,几乎没有做任何额外的操作,直接暴力的使用BPE算法对
语料
进行预处理。
数据无忧 DATA5U
·
2022-11-28 08:38
自然语言处理
机器学习
神经网络
数据挖掘
深度学习
中文医疗NLP领域 数据集,论文 ,知识图谱,
语料
,工具包
中文评测数据集中文医学知识图谱英文数据集相关论文中文医疗领域
语料
医学embedding开源工具包工业级产品/解决方案blog分享友情链接中文评测数据集1.Yidu-S4K:医渡云结构
深度学习技术前沿
·
2022-11-28 07:49
自然语言处理
机器学习
人工智能
大数据
深度学习
NLP——8.基于统计的翻译系统
1、需要从大量的
语料
中学习出在新的句子知道对应的英语翻译是什么。
少奶奶的猪
·
2022-11-27 20:36
NLP
基于python的英文文档集上的tf、idf和tf_idf图像绘制
TF-IDF是一种统计方法,用以评估一个字词对于一个文件集或一个
语料
库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在
语料
库中出现的频率成反比下降。
橙子树下
·
2022-11-27 18:58
python
python
tf-idf
plt
信息检索
文本挖掘案例:基于CSDN博客文章内容的文本挖掘与词云绘制
文章目录一.
语料
准备1.获取文章地址2.由地址获取内容二.文本挖掘1.读取文本2.中文分词3.词性标注4.去除停用词5.词性分布分析6.高频词汇分析7.词云绘制一.
语料
准备1.获取文章地址首先选择需要分析的博主进入其主页浏览器上方主页地址
这也是计划的一部分
·
2022-11-27 12:21
NLP
python
nlp
中文分词
自然语言处理
CIKM 2022最佳论文:融合图注意力机制与预训练语言模型的常识库补全
©作者|巨锦浩单位|复旦大学硕士生来源|知识工场研究背景常识在各种
语料
库中很少被明确表达,但对于机器理解自然语言非常有用。
PaperWeekly
·
2022-11-27 10:01
【开源】MagicData-RAMC :180小时中文对话式语音数据集正式发布
为了进一步丰富开源语音
语料
库,促进语音语言处理技术的发展,MagicData联合中科院声学研究所、上海交通大学和西北工业大学,在Magichub开源社区正式开源180小时中文对话式语音数据集MagicData-RAMC
Magic Data
·
2022-11-27 03:39
人工智能
数据库
自然语言处理
机器学习
大数据
自然语言处理系列之:词性标注与命名实体识别
最简单的方法是从
语料
库中统计每个词对应的高频词性,并将其作为默认词性;词性标注规范北大词性标注集;宾州词性标注集;[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来
Hi丶ImViper
·
2022-11-27 03:37
python
python
机器学习
自然语言处理
机器人改变生活利弊英语作文_最新雅思写作
语料
库:机器人利弊
其实在雅思写作中,再好的范文,也只能告诉你如何写好一篇文章的骨架,而要做到有血有肉,言之有物,则要靠大量的观点
语料
的搜集整理。因此,小站在这里为同学们整理了雅思备考
语料
库,希望对备考的同学们有所帮助。
幻世魔王
·
2022-11-27 02:14
机器人改变生活利弊英语作文
Python实现全角与半角相互转换
全角与半角转换在处理汉语
语料
中会经常出现,这里分别说明汉字、数字、字母的unicode编码范围。以及全角与半角的转换方法。最后给出wiki上全角和半角的编码对照表。
不撸先疯。
·
2022-11-27 01:12
Python
数学基础
python
全角
半角
数据清洗之如何用一行Python代码去掉文本中的各种符号
目录前言1.问题描述2.相关知识3.解决方案总结前言在搜集了很多文本
语料
之后,会开始漫长的数据清洗过程,通常要不断迭代。1.问题描述有些文本数据中,会包含一些特殊符号。
·
2022-11-27 00:12
源1.0预训练语言模型使用示例
1前言源1.0预训练语言模型(简称源1.0)是浪潮人工智能研究院发布的人工智能巨量模型,单体模型参数量达到2457亿,成为全球最大规模的中文
语料
AI巨量模型。
飞翔的大鱼
·
2022-11-26 18:05
经验总结
人工智能
机器学习
深度学习
语言模型
用更少GPU完成更多计算量,中文巨量模型源1.0比GPT-3强在哪里?
精筛后数据大小与原始
语料
大小对比。图上左为张量并行,上右为数据并行
计算机视觉研究院
·
2022-11-26 18:34
算法
大数据
自然语言处理
python
计算机视觉
中文巨量模型“源1.0”:
语料
质量清洗与数据分析方法
2021年,浪潮人工智能研究院发布了中文巨量模型“源1.0”,其参数规模为2457亿,训练采用的中文数据集达5TB,超越美国OpenAI组织研发的GPT-3模型。“源1.0”在语言智能方面表现优异,获得中文语言理解评测基准CLUE榜单的零样本学习(zero-shot)和小样本学习(few-shot)两类总榜冠军。测试结果显示,人群能够准确分辨人与“源1.0”作品差别的成功率低于50%。“源1.0”
AI科技大本营
·
2022-11-26 18:04
数据分析
数据挖掘
人工智能
快速构建一个简单的对话+问答AI (上)
文章目录前言part0资源准备基本功能
语料
停用词问答闲聊
语料
获取part01句的表达表达one-hot编码词嵌入大致原理实现简单版复杂版如何训练转换后的形状part02循环神经网络RNNRNN投影图RNN
Huterox
·
2022-11-26 17:33
自然语言处理
人工智能
人工智能
机器人
Mind the GAP: A Balanced Corpus of Gendered Ambiguous Pronouns--论文笔记
MindtheGAP:ABalancedCorpusofGenderedAmbiguousPronouns注意差距:性别歧义代词的平衡
语料
库AbstractCoreferenceresolutionisanimportanttaskfornaturallanguageunderstanding
JasonSera
·
2022-11-26 13:07
偏见研究
人工智能
自然语言处理
java实现文本纠错功能_调用百度API进行文本纠错
要求1:有多人同时在线编辑文档,然后文档功能有类似Word中的在疑似错误下标浪线,或者标记高亮,并且要推荐修改选项要求2:
语料
数据的获取、处理以及完善要求3:文章写完后要有生成keyword根据老师所讲要查阅文献
妙面爸
·
2022-11-26 11:37
java实现文本纠错功能
ACL’21 | 对话系统也要进军多模态了!
然而,当前的对话模型,如Meena、BlenderBot、DialoGPT等,都是在纯文本
语料
上进行训练得到的,在学习过程中,缺乏对视觉信息的感知和理解。
夕小瑶
·
2022-11-26 10:14
计算机视觉
机器学习
人工智能
深度学习
大数据
细粒度分类数据集汇总
医疗图像更多的是小样本学习,那么如何选择一个小样本数据集来针对各个算法进行比较,从而选择最好的算法,故整理了小样本学习相关的数据,也就是常用的细粒度分类数据简单的小样本分类的每个类别的图片或者
语料
大致在
小小她爹
·
2022-11-26 07:05
自然语言处理
深度学习,实现智能聊天对话机器人(大数据人工智能公司)
目前使用广泛的聊天机器人采用机器学习、深度学习技术,如检索式机器人,通过用户输入的信息,在已有的对话
语料
库找到适合当前问题的最佳回复;生成式机器人,是利用编码-解码技术生成回复内容,更接近人类的回复。
沃达德软件
·
2022-11-26 07:27
人工智能
大数据
深度学习
机器学习
NLP - 关键词提取 - TextRank
NLP-关键词提取-TextRank一、TextRank介绍二、PageRank介绍三、PageRank计算过程四、关键词提取任务一、TextRank介绍TextRank算法则可以脱离
语料
库的基础,仅对单篇文档进行分析就可以提取该文档的关键词
大虾飞哥哥
·
2022-11-26 03:26
NLP
自然语言处理
算法
机器学习
中文自然语言处理--jieba基于 TextRank 算法进行中文文本中的关键词提取
PageRank改进而来,核心思想将文本中的词看作图中的节点,通过边相互连接,不同的节点会有不同的权重,权重高的节点可以作为关键词#-*-coding:utf-8-*-importjieba.analyse#采用的
语料
来自于百度百科对人工智能的定义
糯米君_
·
2022-11-26 02:14
中文自然语言处理
python
中文自然语言处理
jieba
近期知识图谱顶会论文推荐,你都读过哪几篇?
EMNLP2018■论文解读|刘兵,东南大学博士,研究方向为自然语言处理、信息抽取论文动机在远程监督任务中,除了
语料
的错误标注问题,还存在句内噪声单词过多的问题,即多数句子都存在一些与表达关系无关的词汇
PaperWeekly
·
2022-11-26 02:03
还在调API写所谓的AI“女友”,唠了唠了,教你基于python咱们“new”一个(深度学习)
文章目录前言停用词闲聊
语料
基础知识词的表示表达one-hot编码词嵌入大致原理实现简单版复杂版如何训练转换后的形状RNN循环网络RNNRNN投影图RNN是三维立体的LSTM&GRU构建数据配置数据集准备分词划分数据集加载模型搭建基本概念
Huterox
·
2022-11-25 23:53
人工智能
自然语言处理
人工智能
python
深度学习
M6-中文多模态预训练模型
回顾方法下游应用程序可扩展到具有万亿个参数的模型1.回顾多模态预训练模型架构:l基于transformerl单流或者双流图像特征:l目标特征lPatch特征l原始像素下游任务:l理解:VQA,检索l生成:图像字幕对M6的预期l在中文
语料
库上的预训练模型
Necther
·
2022-11-25 19:29
自然语言处理
深度学习
计算机视觉
机器学习
上一页
24
25
26
27
28
29
30
31
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他