E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
语料
《Transformers自然语言处理系列教程》第1章:Transformers 介绍
与此同时,一种名为ULMFiT的有效迁移学习方法表明,在一个非常大和多样化的
语料
库上,训练长短期记忆(LSTM)网络,可以用很少的标记数据,产生SOTA的文本分类器。
小爷毛毛(卓寿杰)
·
2022-11-25 17:05
自然语言处理
深度学习
transformer
知识图谱-多跳推理问答-模型-2020:EmbedKGQA【第一个将KGE用于多跳推理问答任务的方法】【直接通过score=φ(q,e_h,e_a‘)从KG中选择答案实体】
最近的方法已使用外部文本
语料
库来处理KG稀疏性。而本文期望通过利用KGembedding的链接预测属性,不依赖外部数据解决KG不完整问题。
u013250861
·
2022-11-25 16:16
#
KG/KGQA(多跳推理问答)
知识图谱
人工智能
【论文翻译】Neural Architectures for Named Entity Recognition
Abstract处于领先水平的命名实体识别系统严重依赖于人工设计的特征与特定领域的知识,从而更高效地学习小型、带标记的
语料
库。
aibin6833
·
2022-11-25 13:57
python
数据库
操作系统
知识图谱构建与应用推荐学习分享
传统的语言建模不利用文本
语料
库中经常观察到的实体事实,如何将知识整合到语言表征中已引起越来越多的关注。二、知识图谱语言模型(KGLM):通过选择和复制实体来学习并呈现知识。
renhongxia1
·
2022-11-25 13:41
迁移学习
人工智能
深度学习
知识图谱
学习
人工智能
提升机器翻译质量,推动“一带一路”建设进程,景联文科技提供多语种平行
语料
数据
“推进“一带一路”建设的重要意义是要建立一个政治互信、经济融合、文化包容的利益共同体、命运共同体和责任共同体,而语言多样性引发的语音障碍被认为是合作过程中遇到的最大的挑战之一。机器翻译被认为是解决此难题的重要途径,景联文科技作为一家专业的数据采集标注公司,为机器翻译提供高质量数据采集标注服务。”共建“一带一路”倡议是我国在新时期实行全方位对外开放的重大举措、推行互利共赢的重要平台,是我国参与全球开
景联文科技
·
2022-11-25 09:27
数据采集
数据标注
机器翻译
科技
人工智能
情感分析技术
先对
语料
库的进行情感分析,有助于生成更加自然的,多样化的文本。最近读的论文大多数也大都涉及情感分析,所以想要系统学一下,多了解这一方面的技术。
欢桑
·
2022-11-24 22:40
nlp
NLP学习笔记-QA机器人(七)
问答机器人介绍1.问答机器人问答机器人思路1.问题的处理,包括
语料
和用户输入的问题2.找回:海选,选用机器学习等训练速度较快的方法,大致返回相似的前K个问题3.排序:精选,使用深度学习,返回相似度的值这里的问答机器人是我们在分类之后
吃一口桃酥
·
2022-11-24 20:59
笔记
神经网络
人工智能
自然语言处理
聊天机器人
python
【打卡】汽车领域多语种迁移学习挑战赛
赛事介绍赛题背景本次迁移学习任务中,讯飞智能汽车BU将提供较多的车内人机交互中文
语料
,以及少量的中英、中日、中阿平行
语料
作为训练集,参赛选手通过提供的数据构建模型,进行意图分类及关键信息抽取任务,最终使用英语
千千惠儿
·
2022-11-24 18:09
汽车
迁移学习
机器学习
深入浅出Word2Vec原理解析
1.1统计语言模型统计语言模型是用来计算一个句子的概率的概率模型,它通常基于一个
语料
库来构建。那什么叫做一个句子的概率呢?假设表示由个词按顺序构
风度78
·
2022-11-24 18:27
竞赛:汽车领域多语种迁移学习挑战赛(科大讯飞)
.评估指标四、准备阶段1、报名比赛2、查看训练集和测试集字段类型五、文本分析与文本分词1、使用jieba对中文进行分词2、使用negisa对日语进行分词六、TFIDF与文本分类1、使用TFIDF,提取
语料
的
Lingxw_w
·
2022-11-24 12:43
数据挖掘和数据分析
#
NLP
自然语言处理
人工智能
python
Hugging Face——MLM预训练掩码语言模型方法
只要用于预训练的
语料
库与用于微调的
语料
库没有太大区别,迁移学习通常会产生很好的结果。但是,在某些情况下,你需要先微调数据上的语言模型,然后再训练特定于任务的head。
Charon_HN
·
2022-11-24 12:43
#
炼丹记录
HuggingFace
Pytorch
掩码模型
MLM
BERT
手把手教你对抓取的文本进行分词、词频统计、词云可视化和情感分析
他要构建
语料
库,目前通过Python网络爬虫抓到的数据存在一个csv文件里边,现在要把数据放进txt里,表示不会,然后还有后
Python进阶者
·
2022-11-24 11:52
可视化
python
csv
数据分析
数据可视化
基于Text-CNN模型的中文文本分类实战
文本分类作为一种有监督学习的任务,毫无疑问的需要一个可用于有监督学习的
语料
集
weixin_30740581
·
2022-11-24 11:54
人工智能
java
爬虫
自然语言处理之机器处理流程
来自微信公众号人工智能头条为什么会有分词我们知道自然语言处理中词为最小的处理单元,当你的
语料
为句子、短文本、篇章时,我们要做的第一步就是分词。由于英语的基本组成单位就是词,分词是比较容易的。
weixin_33785108
·
2022-11-24 10:08
人工智能
数据结构与算法
爬虫
NLP入门学习(一):搜狗新闻
语料
库的获取与预处理
前言今天是2021年10月6日,从9月份开学好像一直什么都没有学习,可能也只有每天刷点力扣题了吧,一天当中很多的时间都浪费了,本来想的是平平淡淡的过完研究生的生活,但好像发现如果一开始的目标就很低的话,那很可能这个目标完成不了,所以说我的目标就是成为优秀毕业生顺利毕业,与此同时希望自己能找到一个好工作。那么从现在开始,我不仅仅要每天刷力扣题,而且还要准备论文和项目了,java方面的我是不太可能了,
dreamlpx
·
2022-11-24 10:02
NLP入门学习
自然语言处理
python
语料
库数据处理个案实例(分词和分句、词频统计、排序)
本文来自《基于Python的
语料
库处理》_雷蕾著。7.1分句和分词7.1.1分句分句(sentencesplitting)就是将字符串按自然句子的形式进行切分。
Triumph19
·
2022-11-24 10:01
python文本分析
利用Python进行数据分析
python
人工智能
自然语言处理
语音处理 之 libritts,AIShell
LibriSpeech该数据集为包含文本和语音的有声读物数据集,由VassilPanayotov编写的大约1000小时的16kHz读取英语演讲的
语料
库。
才大难为用
·
2022-11-24 09:10
自然语言处理
python
深度学习
机器学习
词向量训练
三、实验内容1.数据读取及预处理中文
语料
已经分好词了,还需要去掉停用词。defload_stopwords():withopen('da
街头~神秘人
·
2022-11-23 15:56
深度学习
python
自然语言处理
BERT源码解析(上)
还有一个是nextsentenceprediction,判断两个句子是否在文章中互为上下句,然后使用大规模的
语料
库去预训练。模型结构如下:Bertbase具有12层上图所示的
CReep~
·
2022-11-23 14:23
nlp
机器学习算法
bert
自然语言处理
深度学习
论文阅读;Questions Are All You Need to Train a Dense Passage Retriever
训练密集通道检索器所需要的问题arxiv2022论文链接摘要我们介绍了ART,这是一种新的
语料
库级自动编码方法,用于训练不需要任何标记训练数据的密集检索模型。
张
·
2022-11-23 13:37
OpenQA论文阅读
学习笔记
论文阅读
深度学习
人工智能
论文阅读Unsupervised Corpus Aware Language Model Pre-training for Dense Passage Retrieval
密集文本检索的无监督
语料
库感知语言模型预训练ACL2022论文链接摘要最近的研究证明了使用微调语言模型(LM)进行密集检索的有效性。
张
·
2022-11-23 13:30
OpenQA论文阅读
学习笔记
论文阅读
语言模型
人工智能
ERNIE: Enhanced Language Representation with Informative Entities中文
4.1预训练数据集4.2参数设置和训练细节4.5GLUE4.6消融研究5结论ERNIE注:本文为清华和华为的ERNIE模型,百度也有个同名的ERNIE清华ERNIE原论文百度ERNIE原论文摘要在大规模
语料
库上预训练的
葫芦娃啊啊啊啊
·
2022-11-23 10:12
论文
知识图谱
自然语言处理
人工智能
深度学习
详细介绍百度ERNIE:通过知识集成增强表示
简介相关工作采用矢量表示单词,上下文无关的表示采用上下文来预测丢失的单词,没有考虑先验知识采用异构数据ERNIE的详细实现Transformer编码器知识整合基本级别掩码短语级别掩码实体级别掩码实验异构
语料
库预训练
若年封尘
·
2022-11-23 10:27
深度学习
百度
人工智能
深度学习
ERNIE
一些经典的召回算法模型
在其他场景中,以电商举例,我们会直接对商品ID做Embedding,其训练的
语料
来自于用户的行为日志,故这个空间是用户的兴趣点组成。行为日志的类
fond_dependent
·
2022-11-23 08:01
搜搜
【动手学——循环神经网络】day04_recurrent neural network从零实现
从零开始实现循环神经网络我们先尝试从零开始实现一个基于字符级循环神经网络的语言模型,这里我们使用周杰伦的歌词作为
语料
,首先我们读入数据:one-hot向量我们需要将字符表示成向量,这里采用one-hot
Johnny_sc
·
2022-11-23 06:42
深度学习
神经网络
BERT学习
bert通过对
语料
进行无监督学习,该模型自动学习各种信息。一:模型简介1、结构:bert是个有12层encoder组成的结构,只有encoder,没有decoder。
0x3fffffff
·
2022-11-23 02:14
nlp
bert
深度学习
自然语言处理
机器学习——LDA主题模型
LDA主题模型LDA是一种非监督机器学习技术,可以用来识别大规模文档集(documentcollection)或
语料
库(corpus)中潜藏的主题信息。
weixin_46064807
·
2022-11-22 23:08
LDA建模
python
机器学习
自然语言处理
[文献阅读]—一篇不错的低资源机器翻译综述(Neural Machine Translation for Low-Resource Languages: A Survey)
文章目录前言时间线技术数据增强(dataaugmentation)基于单词、短语替换的数据增强(坑1)基于回译的数据增强平行
语料
挖掘无监督机器翻译(unsupervisedNMT)初始化回译判别分类器半监督机器翻译
Muasci
·
2022-11-22 20:07
文献阅读之家
机器翻译
自然语言处理
人工智能
[机器翻译]——pivot-based zero-shot translation based on fairseq
文章目录前言翻译到en生成"伪"的、到英语的数据文件把每一个zs语言对翻译到en从fairseq-generate生成的文件中,抽取纯en文件把en数据和所有zs语言对的tgt数据形成平行
语料
,然后做预处理形成
Muasci
·
2022-11-22 20:29
机器翻译
机器翻译
人工智能
python
综述 | 少量标注数据下的命名实体识别研究
面向少量标注数据的NER方法分类基于规则、统计机器学习和深度学习的方法在通用
语料
上能取得良好的效果,但在特定领域、小语种等缺
zenRRan
·
2022-11-22 19:17
大数据
自然语言处理
数据挖掘
算法
编程语言
TF-IDF算法原理和公式
一、什么是TF-IDF算法TF-IDF算法是一种统计方法,用以评估一字词对于一个文件集或一个
语料
库中的其中一份文件的重要程度。
CoolSichuan
·
2022-11-22 18:35
SEO
算法
搜索引擎
百度
tf idf python_TFIDF算法的python实现
TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个
语料
库中的其中一份文件的重要程度。字词的重要性随着它在文件
weixin_39533795
·
2022-11-22 17:29
tf
idf
python
TF-IDF算法介绍及实现
TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个
语料
库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会
嘻哈吼嘿呵
·
2022-11-22 17:24
#
机器学习
TF-IDF算法实现
TermFrequency-InverseDocumentFrequency,TF-IDF)是一种用于资讯检索与文本挖掘的常用加权技术●TF-IDF是一种统计方法,用以评估一一个字词对于一个文件集或一个
语料
库中的其中一份文件的重要程度
VernonJsn
·
2022-11-22 17:51
算法
人工智能
tfidf代码实现
TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个
语料
库中
望长安于日下
·
2022-11-22 17:21
linux
python
自然语言处理
TF-IDF 统计算法介绍与代码实现
一种统计方法,用以评估一字词对于一个文件集或一个
语料
库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但随着它在
语料
库中出现的频率成反比下降。
青霄
·
2022-11-22 17:48
算法
TF-IDF算法
相似度
长文 | HuggingFace实战 之 多语言命名实体识别
来自:ChallengeHub作者:致Great到本章为止,我们已经使用Transformers模型来解决英文
语料
的NLP任务,但如果我们
语料
是用Greek,Swahili或者Klingon等语言组成,
zenRRan
·
2022-11-22 16:01
python
机器学习
人工智能
深度学习
java
机器学习备忘录_20200627
1.negativesampling往往在word2vec中运用到,在用softmax计算分母的时候,由于
语料
太大(1-hot),全遍历一遍计算效率不高,很难简单用sotfmax之后的大向量表示各个word
kiki0530
·
2022-11-22 08:25
备用资源
机器学习
算法
python
NLP 论文领读|合成数据的妙用:低成本构建高质量的大规模平行
语料
欢迎来到「澜舟论文领读」专栏!快乐研究,当然从研读paper开始——澜舟科技团队注重欢乐的前沿技术探索,希望通过全新专栏和大家共同探索人工智能奥秘、交流NLP「黑科技」,踩在「巨人」肩上触碰星辰!关注「澜舟科技」公众号,加入交流群和大家一起探索NLP前沿技术!官方网站:https://langboat.com本期分享者:陈圆梦,澜舟科技研究实习生,北京交通大学博士二年级,研究方向为多语言神经机器翻
澜舟孟子开源社区
·
2022-11-22 06:29
NLP
论文领读
数据挖掘
自然语言处理
人工智能
深度学习
nlp
维基百科的
语料
库下载以及信息提取笔记
目录前言一、前提知识1-1、中文维基百科的下载1-2、抽取正文内容,繁体转换为简体1-2-1、抽取正文内容1-2-2、繁体转换为简体1-3、特征工程1-4、训练词向量二、实战训练总结前言中文
语料
库一般都是极为稀少的
ㄣ知冷煖★
·
2022-11-22 05:24
自然语言处理
深度学习
自然语言处理
python
【NLP】Word2Vec笔记(代码)
从参数解释到实战参数解释fromgensim.modelsimportWord2Vec#下面的参数均是默认值Word2Vec(sentences=None,#sentences可以是分词列表,也可以是大
语料
YWP_2016
·
2022-11-22 05:45
NLP
自然语言处理
word2vec
人工智能
自然语言处理学习笔记十一(文本分类)
在文本聚类中,体验了无须标注
语料
库的便利性,但是无监督学习总归无法按照我们的意志预测出文档的类别,限制了文本聚类的应用场景。为了解决更多的需要将文档分门别类地归入具体的类别中,于是有了文本分类的产生。
犀利哗啦760596103
·
2022-11-22 04:35
自然语言处理
分类
机器学习
我的NVIDIA开发者之旅——使用NeMo快速构建智能问答系统学习笔记
我的NVIDIA开发者之旅——使用NeMo快速构建智能问答系统学习笔记"我的NVIDIA开发者之旅”|征文活动进行中…智能问答系统是自然语言处理领域的重要任务之一,它是对无序
语料
信息进行有序、科学的整理
不古MrBugu
·
2022-11-22 02:22
学习
人工智能
自然语言处理
论文:Graph Convolutional Networks for Text Classification
TextGCN:使用图卷积网络进行文本分类,基于词共现和文档词关系为
语料
库构建一个单独的文本图,word和document的初始向量为one-hot表示。
ren.yz
·
2022-11-22 02:37
文本分类
深度学习
cnn
神经网络
论文阅读笔记(四):Learning Transferable Visual Models From Natural Language Supervision
NLP领域已经有很多工作可以利用大量
语料
的数据进行自监督训练(BERTGPTT5等…),这些模型的效果已经超越了人工标记的数据集。
长安一夜如梦
·
2022-11-22 00:46
计算机视觉
人工智能
深度学习
NLP到Word2Vec实战-第一课
文章目录QANLTK一、概述1.定义2.安装NLTK3.安装
语料
库二、文本处理流程1.Tokenize——长句拆分成小部分2.中英文区别—中文没有空格(1)中文分词——jieba.cut()——一般要与
weixin_47082769
·
2022-11-21 18:49
自然语言处理
自然语言处理
word2vec
python
textcnn文本词向量_基于Text-CNN模型的中文文本分类实战
文本分类作为一种有监督学习的任务,毫无疑问的需要一个可用于有监督学习的
语料
集
排骨小仙女oho
·
2022-11-21 14:43
textcnn文本词向量
Spark 实战,第 6 部分: 基于 Spark ML 的文本分类
引言文本分类是一个典型的机器学习问题,其主要目标是通过对已有
语料
库文本数据训练得到分类模型,进而对新文本进行类别标签的预测。
AISeekOnline
·
2022-11-21 14:35
Spark
机器学习
数据挖掘
数据集使用bert模型出现bug修改(自用)
转换成txt格式,编码要为“utf-8”内容和格式的分隔符要记得查看在在内容里是是否存在相同的分割符,如果存在相同的分隔符,需要处理掉(目的是防止程序识别错误,分割错误)导入自己
语料
时,经常出现的错误。
代码小学渣
·
2022-11-21 14:24
毕设
bert
bug
机器学习
论文研读record1 #ner
Conll2003相关数据集是基于新闻的(命名实体识别NER和实体识别任务的
语料
库集合|INFORX(inforscan.com))1#TENER:AdaptingTransformerEncoderforNamedEntityRecognitionAIM
Zyuting1
·
2022-11-21 13:46
深度学习
神经网络
python
上一页
25
26
27
28
29
30
31
32
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他