roberta 第2页

读论文——Pre-Training with Whole Word Masking for Chinese BERT（2021 11.25）

第一遍标题以及作者（202111.25）摘要本文基于BERT，在RoBERTa上进行一系列改进，提出了用于中文的预训练模型MacBERT。

前行follow·2023-08-17 02:30

预训练模型发展史

目录：一、传统词向量预训练：NNLM、SENNA、Word2Vec二、上下文相关词向量：CoVe、ELMo三、NLP中的预训练模型：GPT、BERT、BERT改进(RoBERTa、XLNet、ALBERT

可爱多多多_·2023-08-16 06:13

KU Leuven & TU Berlin 推出“RobBERT”，一款荷兰索塔 BERT

来自比利时鲁汶大学和柏林工业大学的一组研究人员最近推出了基于荷兰RoBERTa的语言模型RobBERT。

大伟先生·2023-08-16 02:06

训练用于序列分类任务的 RoBERTa 模型的适配器

这些限制阻碍了RoBERTa模型开发更多用途和适应性更强的NLP技术，该模型可以从多个任务中学习并针对多个任务进行学习；在本文中，我们将重点关注序列分类任务。

TD程序员·2023-08-12 07:33

MATLAB算法实战应用案例精讲-【深度学习】预训练模型RoBERTa及ERINE系列

目录RoBERTa:ARobustlyOptimizedBERTPretrainingApproach1.DynamicMasking2.Full-SentenceswithoutNSP3.LargerBatchSize4

林聪木·2023-08-10 05:55

Hierarchical Graph Network for Multi-hop Question Answering

GraphConstructionModuleContextEncodingModuleGraphReasoningModuleMulti-taskPredictionModuleGraphConstruction找到最相关的段落训练了一个Roberta

一纸素笺凝笑语·2023-08-08 10:53

基于 chinese-roberta-wwm-ext 微调训练 6 分类情感分析模型

一、模型和数据集介绍1.1预训练模型chinese-roberta-wwm-ext是基于RoBERTa架构下开发，其中wwm代表WholeWordMasking，即对整个词进行掩码处理，通过这种方式，模型能够更好地理解上下文和语义关联

小毕超·2023-07-22 02:47

关于记忆，你需要知道的

认知科学家比约克夫妇（RobertA.Bjork&ElizabethLigonBjork）在近30年前的研究中提出了“必要难度”这一概来帮助我们解释这个情况。什么是“必要难度”呢？

皮小芸·2023-07-21 20:15

国内HuggingFace，预训练模型镜像使用

HuggingFaceTransformers是自然语言处理领域的重要开源项目，提供了基于通用架构（如BERT，GPT-2，RoBERTa）的数千个预训练模型，并提供了PyTorch和TensorFlow

javastart·2023-07-17 13:35

BERT系列算法解读（RoBERTa/ALBERT/DistilBERT/Transformer/Hugging Face/NLP/预训练模型）更新中

BERT（BidirectionalEncoderRepresentationsfromTransformers，基于Transformers的双向编码器表示）系列算法在自然语言处理任务中是必不可少的经典模型，当初第一代GPT模型发布的时候，坐了冷板凳，罪魁祸首就是BERT。有任何问题欢迎在下面留言本篇文章配套的PPT资源已经上传目录1、如何训练BERT1.1相关背景1.2方法1随机遮挡1.3方法

会害羞的杨卓越·2023-07-16 12:50

Ubuntu下载速度过慢解决

今天用Ubuntu下载Roberta文件到本地，速度特别慢，Ubuntu系统自带的源文件，都是国外的源网址，在国内下载安装升级源或者依赖的时候，都比较慢，更换国内的源地址，轻松搞定此问题。

Dr.sky_·2023-07-14 10:31

深入理解深度学习——BERT派生模型：RoBERTa（A Robustly Optimized BERT Pretraining Approach）

RoBERTa（模型名源自论文名ARobustlyOptimizedBERTPretrainingApproach）是脸书公司提出的在BERT基础上增加训练数据，充分训练得到的预训练语言模型。

von Neumann·2023-06-24 01:08

T5、RoBERTa、悟道·天鹰、紫东太初、CPM作者谈基础模型前沿技术丨大模型科研、创业避坑指南...

6月9日的北京智源大会“基础模型前沿技术”论坛邀请了T5、RoBERTa、悟道·天鹰、紫东太初、CPM等重要模型工作作者出席。

智源社区·2023-06-22 04:40

数据增强在文本分类任务中的应用

我主要采用两种对比方法，一种是Roberta+数据增强（随机替换、删除、插入、交换）；另一种是Roberta+数据增强（随机替换、删除、插入），然后经过对比使用，查看具体效果。

Dr.sky_·2023-06-19 18:28

浅谈数据增强

以下是一些常见的数据增强方法：目录一、数据增强的概念二、数据增强在Roberta对SST-2数据集的文本二分类任务的应用

Dr.sky_·2023-06-14 14:36

DEBERTA: DECODING-ENHANCED BERT WITH DIS- ENTANGLED ATTENTION glue榜首论文解读

一、概览二、详细内容abstracta.两个机制来improvebert和robertaⅰ.disentangledattentionmechanismⅱ.enhancedmaskdecoderb.fine-tuning

HxShine·2023-06-14 08:31

若灬秋《一生的旅途》读书笔记及感悟

关于本书作者简介罗伯特·艾格(RobertA."Bob"Iger)，1951年2月10日在美国纽约长岛出生，是一位美国商人。

若灬秋·2023-06-13 23:12

LLM：finetune预训练语言模型

RoBERTa/BERT/DistilBERTandmaskedlanguagemodeling[transformers/examples/pytorch/language-modelingatmain

-柚子皮-·2023-06-12 17:02

谁说学生模型就得小？稀疏化DAN模型推理可提速600倍

本文中，作者对RoBERTa-Large进行了模型蒸馏，得到了一个基于DAN架构的、具有十亿级参数、稀疏激活的学生模型。实验表明，该模型在六个文本分类任务上保持了教师模型97%的表现，同时在CPU和G

PaperWeekly·2023-06-11 23:23

NLP面试题准备

（2）其他的模型-ELMO和RoBERTa的原理是什么（3）LSTM有哪三个门，LSTM解决了RNN的什么问题？

jianafeng·2023-06-10 12:58

Hugging Face Model Hub 预训练模型清华镜像使用

今天遇到一个错误：OSError:Couldn’treachserverat‘https://s3.amazonaws.com/models.huggingface.co/bert/roberta-large-config.json

乐清sss·2023-04-14 15:39

Encoding.word_ids()

fromtransformersimportAutoTokenizerDOWNLOADED_MODEL_PATH='model'tokenizer=AutoTokenizer.from_pretrained('google/bigbird-roberta-base

SmartDemo·2023-04-13 14:10

通俗易懂：8大步骤图解注意力机制

BERT、RoBERTa、ALBERT、SpanBERT、DistilBERT、SesameBERT、SemBERT、MobileBERT、TinyBERT和CamemBERT的共同点是什么？

喜欢打酱油的老鸟·2023-04-06 13:31

ERNIE预训练模型

在bert的变体中，ROBERTA和ALBERT都更改或移除了NSP任务，他们认为

不会念经的木鱼仔·2023-04-03 10:29

预训练模型

实验细节二、ALBERT1、贡献1.1词向量分解1.2层参数共享1.3SOP任务三、ERNIE1、贡献2、实验细节2.1语料2.2MLM任务2.3DLM任务四、DistilBERT1、贡献2、实验细节五、RoBERTa1

hellozgy·2023-04-01 23:25

吊打 CLIP 平均10个点，Meta 多模态通用模型 FLAVA真香啊

然而，纯粹的NLP任务有BERT、RoBERTa，CV任务有ViT，多模态任务又有VLBERT、OSCAR

机器学习社区·2023-03-29 20:15

RoBERTa极简简介

RoBERTa模型是在BERT预训练模型的基础上改进了三点：一、采用动态Masking机制，每次向模型输入一个序列时，都会生成一种新的遮盖方式二、删除了NextSentencePrediction(NSP

ASS-ASH·2023-03-29 09:16

YhX.·2023-03-29 05:13

五条写作规则(写程序也一样)

Robert著名的美国科幻小说作家罗伯特·海因莱因（RobertA.Heinlein），给有志于写作的年轻人，传授过五条写作规则，帮助他们入门。我觉得这些规则，不仅适用于作家，也同样适用于程序员。

遇酒无缘·2023-03-25 22:47

预训练数据大小对于预训练模型的影响

YianZhang,AlexWarstadt，Haau-SingLi,andSamuelR.Bowman链接：https://arxiv.org/pdf/2011.04946.pdf引言： NLP领域的研究目前由像RoBERTa

zenRRan·2023-03-18 20:06

如何使用huggingface的trainer训练模型？

一个简单的模型使用实例如下：fromtransformersimportBertTokenizer,BertModeltokenizer=BertTokenizer.from_pretrained('uer/chinese_roberta_L

chadqiu·2023-02-04 13:52

RoBERTa：一种鲁棒地优化BERT预训练的方法

RoBERTa：一种鲁棒地优化BERT预训练的方法文章目录RoBERTa：一种鲁棒地优化BERT预训练的方法前言背景实验静态VS动态Masking输入形式与NSP任务更大的batch_size更大的BPE

beyourselfwb·2023-02-01 10:04

MacBERT 的改进（Revisiting Pre-Trained Models for Chinese Natural Language Processing）

MacBERT1.MacBERT简介2.论文的主要工作2.1预训练模型对比BERTERNIEXLNET3.MacBERT的结构3.1BERT-wwm&RoBERTa-wwm3.2MacBERT训练过程试验结果总结

无为二里·2023-01-31 18:52

I-BERT: Integer-only BERT Quantization（2021-1-5）

模型介绍基于Transformer的模型，例如BERT、RoBERTa，在许多的自然语言处理任务中获得最优的结果。由于内存使用、推断延迟、能源损耗，以至于无法有效率的在边缘甚至数据中心进行推断。

不负韶华ღ·2023-01-31 01:06

HuggingFace BERT源码详解：基本模型组件实现

PaperWeekly·2023-01-30 21:55

Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks解读

摘要使用bert和roberta来计算句子相似度太耗时，本文作者提出sentence-bert，使用孪生或三生网络对bertpretrain进行修整，在sentenceembeddingsmethods

qq_33221657·2023-01-29 14:47

【文献翻译】Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks

Sentence-BERT：使用SiameseBERT网络的句子嵌入【摘要】虽然BERT和RoBERTa在语义文本相似性(STS)句对回归任务上取得了最新的性能，但是它需要将两个句子都输入网络，这会导致巨大的计算开销

春日思绪·2023-01-29 14:13

《Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks》论文阅读

文章地址：https://arxiv.org/abs/1908.10084文章目录文章内容文章模型文章总结文章内容 BERT和RoBERTa在一些任务中已经取得了不错的结果，但是在处理句子对相关的任务时

jst100·2023-01-29 14:13

BERT衍生模型

对预训练模型写的比较全的一篇文章别人整理的比较全的综述:NLP预训练模型1–综述NLP预训练模型2–BERT详解和源码分析NLP预训练模型3–预训练任务优化（ERNIE、SpanBERT）NLP预训练模型4–训练方法优化（RoBERTa

zhurui_xiaozhuzaizai·2023-01-23 13:47

【深度学习】干货！小显存如何训练大模型

之前Kaggle有一个Jigsaw多语言毒舌评论分类[1]比赛，当时我只有一张11G显存的1080Ti，根本没法训练SOTA的Roberta-XLM-large模型，只能遗憾躺平。

风度78·2023-01-18 00:25

NLP-预训练模型：迁移学习（拿已经训练好的模型来使用）【预训练模型：BERT、GPT、Transformer-XL、XLNet、RoBerta、XLM、T5】、微调、微调脚本、【GLUE数据集】

深度学习-自然语言处理：迁移学习（拿已经训练好的模型来使用）【GLUE数据集、预训练模型（BERT、GPT、transformer-XL、XLNet、T5）、微调、微调脚本】一、迁移学习概述二、NLP中的标准数据集1、GLUE数据集合的下载方式2、GLUE子数据集的样式及其任务类型2.1CoLA数据集【判断句子语法是否正确】2.2SST-2数据集【情感分类】2.3MRPC数据集【判断每对句子是否具

u013250861·2023-01-17 18:33

【论文笔记】MacBert：Revisiting Pre-trained Models for Chinese Natural Language Processing

Abstract）1.介绍（Introduction）2.相关工作（RelatedWork）3.中文预训练模型（ChinesePre-trainedLanguageModels）3.1BERT-wwm&RoBERTa-wwm3.2MacBERT4

iioSnail·2023-01-17 10:25

历史最全最新中文自然语言处理预训练模型汇总分享-内含免费下载地

包含自然语言理解系列模型，如BERT、RoBERTa、ALBERT、NEZHA、XLNET、MacBERT、ELECTRA、ZEN、ERNIE。

lqfarmer·2023-01-16 11:09

Sentence-BERT 论文阅读

BERT、RoBERTa已经在文本语义相似度任务（semantictextualsimilarity，STS）上达到了sota。

_illusion_·2023-01-16 08:52

sentence-transformers(SBert)中文文本相似度预测(附代码)

前言训练文本相似度数据集并进行评估：sentence-transformers(SBert)预训练模型：chinese-roberta-wwm-ext数据集：蚂蚁金融文本相似度数据集前端：Vue2+elementui

我先润了·2023-01-16 08:10

bert4keras预训练的一些问题总结

1.近日在使用bert4keras，在原有的Roberta训练领域内的roberta的时候遇到了一些问题，在此记录一下，便于日后的翻阅。

光头小黑·2023-01-14 08:03

Roberta-wwm-ext-large模型中的wwm理解

Roberta：Robustoptimizebertapproach（名字来自于一篇论文题目的缩写）wwm：wholewordmasking的缩写；经典的bert作mask是随机的，且是基于WordPiecetoken

Takoony·2023-01-13 17:30

广告行业中那些趣事系列18：RoBERTa-wwm-ext模型为啥能带来线上效果提升？

本篇一共5840个字摘要：本篇主要分享能带来线上文本分类效果有效提升的RoBERTa-wwm-ext模型。

数据拾光者·2023-01-13 17:29

几种预训练模型：bert-wwm,RoBERTa,RoBERTa-wwm

bert-large：24层，330M参数bert-base：12层，110M参数1.bert-wwmwwm即wholewordmasking（对全词进行mask），谷歌2019年5月31日发布，对bert的升级，主要更改了原预训练阶段的训练样本生成策略。改进：用mask标签替换一个完整的词而不是字。2.bert-wwm-extbert-wwm的升级版，改进：增加了训练数据集同时也增加了训练步数。

谁怕平生太急·2023-01-13 17:59

基于 bert-wwm-ext + roberta-large实现新馆疫情语句的文本匹配问答

新冠疫情相似句对判定算法说明代码说明运行环境运行说明参考资料1.算法说明本解决方案使用了基于病名\药名的数据增强+模型融合+训练时-测试时增强+伪标签的解决方案基于病名\药名的数据增强Dataaugmentation

甜辣uu·2023-01-13 17:29

推荐频道

roberta