Transformer论文学习第43页

Megatron-LM GPT 源码分析（二） Sequence Parallel分析

引言本文接着上一篇【Megatron-LMGPT源码分析（一）TensorParallel分析】，基于开源代码GitHub-NVIDIA/Megatron-LM:Ongoingresearchtrainingtransformermodelsatscale

HaoBBNuanMM·2023-10-29 08:36

Megatron-LM GPT 源码分析（一） Tensor Parallel分析

引言本文基于开源代码GitHub-NVIDIA/Megatron-LM:Ongoingresearchtrainingtransformermodelsatscale，通过GPT的模型运行示例，从三个维度

HaoBBNuanMM·2023-10-29 08:35

Megatron-LM GPT 源码分析（三） Pipeline Parallel分析

引言本文接着上一篇【Megatron-LMGPT源码分析（二）SequenceParallel分析】，基于开源代码GitHub-NVIDIA/Megatron-LM:Ongoingresearchtrainingtransformermodelsatscale

HaoBBNuanMM·2023-10-29 08:03

Task02 学习Attention和Transformer

1.1seq2seq模型定义：一个序列到一个序列（seq2seq）模型，接收的输入是一个（单词、字母、图像特征）序列，输出的是另一个序列；在神经机器翻译中，一个序列是指一连串的单词。模型结构：由编码器和解码器组成编码器：用于处理输入序列中的每个元素，把这些信息转换为一个上下文向量，处理完成后，输出到解码器；解码器：用于逐项生成输出序列中的元素。原始模型：编码器和解码器使用循环神经网络（RNN）；上

def1037aab9e·2023-10-29 04:03

工程师必须记住的电路元件符号及英语翻译

电阻器（Resistor）:R电容器（Capacitor）:C电感器（Inductor）:L变压器（Transformer）:T二极管（Diode）:D三极管（Transistor）:Q晶体管（Transistor

凡亿教育·2023-10-29 02:26

使用GPT-4模型打造智能代码助手：轻松提升开发效率与代码质量

GTP4与GPT3的参数规模对比GPT4与GPT3优化对比GPT4与GPT3的区别GPT-4和GPT-3都是由OpenAI开发的大型语言模型，基于Transformer架构。

violets007·2023-10-28 23:21

股票价格预测 | 融合CNN和Transformer以提升股票趋势预测准确度

相比之下，Transformer可以学习全局上下文和长期关系。本文提出了一种结合CNN和Transformer的方法，来同时建模时间序列中的短期和长期关系，并预测未来股票价格是上涨、下跌还是保持不变。

算法如诗·2023-10-28 23:17

transformer模型训练结构解析（加深理解）

运行项目的一些感受：很多时候，一个整体的深度学习项目的程序的执行流程是需要理一理的，往往是多个模块层层包含嵌套，然后执行的顺序也是在多个python功能模块间跳转，有时候在某个程序文件里的短短一行代码（比如self._train_model(training_loader)）背后可能是运行了上百行另一个类下的某个函数的功能代码，主要需要体会模型中层层嵌套，模块化的思维，然后掌握举一反三的能力。深度

A half moon·2023-10-28 21:54

hugging face tansformer实战篇-阅读理解任务

fromdatasetsimportload_dataset,DatasetDictfromtransformersimportAutoTokenizer,AutoModelForQuestionAnswering

qq_48566899·2023-10-28 19:43

Transformer、Bert、Gpt对比系列，超详细介绍transformer的原理，bert和gpt的区别

一、Transformer架构图Transformer是一种用于序列到序列学习的神经网络模型，主要用于自然语言处理任务，如机器翻译、文本摘要等。

医学小达人·2023-10-28 19:09

CVPR 2023 | EfficientViT: Memory Efficient Vision Transformer with Cascaded Group Attention

EfficientViT:MemoryEfficientVisionTransformerwithCascadedGroupAttention论文链接：https://arxiv.org/abs/2305.07027

有为少年·2023-10-28 18:41

一文通透位置编码：从标准位置编码到旋转位置编码RoPE

前言关于位置编码和RoPE我之前在本博客中的另外两篇文章中有阐述过(一篇是关于LLaMA解读的，一篇是关于transformer从零实现的)，但自觉写的不是特别透彻好懂再后来在我参与主讲的类ChatGPT

v_JULY_v·2023-10-28 13:22

NLP实操手册: 基于Transformer的深度学习架构的应用指南(综述)

点击上方“AI遇见机器学习”，选择“星标”公众号重磅干货，第一时间送达翻译来自：百分点认知智能实验室易显维桂安春论文：TheNLPCookbook:ModernRecipesforTransformerbasedDeepLearningArchitectures

Evan-yzh·2023-10-28 11:21

论文阅读——BART

是一个结合了双向和自回归transformers的模型。

じんじん·2023-10-28 05:14

论文阅读——BERT

BERT:Pre-trainingofDeepBidirectionalTransformersforLanguageUnderstanding1.Motivation2.Contribution3.Method3.1BERT3.2Pre-trainingBERT3.3Fine-tuningBERT4

猫猫头不写bug·2023-10-28 05:37

ICML 2023 最新大模型方向 Oral 论文盘点

1.ScalingVisionTransformersto22BillionParameters这篇论文总结了训练2.2万亿参数视觉转换

深度之眼·2023-10-28 00:40

大模型知识蒸馏概述

来自：吃果冻不吐果冻皮进NLP群—>加入NLP交流群近年来，随着Transformer、MOE架构的提出，使得深度学习模型轻松突破上万亿规模参数，从而导致模型变得越来越大，因此，我们需要一些大模型压缩技术来降低模型部署的成本

zenRRan·2023-10-28 00:38

Test Accuracy vs. Generalization Gap:论文简览

文章做了什么：对不同设置下数百个预训练Transformer模型进行了研究，包括变化数据量、模型大小和优化超参数等；对来

别码了W哥·2023-10-28 00:36

一分钟图情论文：《ChatGPT对文献情报工作的影响》

它使用了GPT（GenerativePre-trainedTransformer）模型，该模型是一种预训练的神经网络模型，可以生成自然语言文本。

是希望·2023-10-27 23:42

《动手学深度学习 Pytorch版》 10.7 Transformer

Transformer模型完全基于注意力机制，没有任何卷积层或循环神经网络层。

AncilunKiang·2023-10-27 23:45

Transformer简单理解（MT）

Transformer21年cs224n的Transformer这课换了TA来讲，有点听不太懂（我是菜狗）这篇suggestedreading讲得非常清楚TheIllustratedTransformerKey-Query-ValueAttention

rd142857·2023-10-27 22:21

RNN and Transformer理解

RNN:参考：https://github.com/AntoineTheb/RNN-RL/blob/master/algos/PPO.pyhttps://blog.csdn.net/baishuiniyaonulia/article/details/100051600https://www.machunjie.com/deeplearning/120.htmlhttps://blog.csdn.n

qq_478377515·2023-10-27 22:50

Transformer 相关理解（上）

Transformer是自然语言处理（NLP）领域一个十分知名的特征处理器，其本质是使用注意力机制进行自然语言的翻译。

Weber77·2023-10-27 22:49

Caoyy686868·2023-10-27 22:19

Transformer 简单理解

文章目录一、Transformer的架构一、编码1.1词向量编码（InputEmbedding）1.2位置编码（PositionalEncoding）二、Mask2.1PADMask2.2上三角Mask

hjxu2016·2023-10-27 22:19

单文档内容bert分词

importpandasaspdfromtransformersimportBertTokenizerimportre#加载BERT分词器tokenizer=BertTokenizer.from_pretrained

Wenliam·2023-10-27 21:34

[论文阅读]CenterFormer——基于center的三维目标检测Transformer

CenterFormerCenter-basedTransformerfor3DObjectDetection论文网址：CenterFormer总结背景LiDAR是自动驾驶中的关键感知工具,可以提供高精度的

一朵小红花HH·2023-10-27 19:39

Prompt设计与大语言模型微调

输入编码：ChatGPT将经过预处理的文本输入到神经网络中进行编码处理，使用的是多层transformer编码器结构。预测输出：ChatGPT通过对输入进行逐个token预测，输出下一个

阿里巴巴淘系技术团队官网博客·2023-10-27 18:24

盘点国产ChatGPT十大模型

什么是ChatGPTChatGPT是一种基于OpenAI的GPT（GenerativePre-trainedTransformer）模型的聊天机器人。

周杰伦的稻香·2023-10-27 18:29

huggingface官网教程里面的几个用transformers做下游任务的例子(上)

1.请见官网：TextclassificationTokenclassificationquestion_answeringLanguagemodelingtranslationSummarizationMultiplechoice

不当菜鸡的程序媛·2023-10-27 17:38

基于LSTM encoder-decoder模型实现英文转中文的翻译机器

正是对这个应用的研究，发展出了注意力机制，在此基础上产生了AIGC领域的霸主transformer。

马尔科夫司机·2023-10-27 17:00

Transformer-深度学习-台湾大学李宏毅-课程笔记

Seq2seq）适用任务语音识别机器翻译语音翻译语音合成聊天机器人自然语言处理硬解任务：文法分析硬解任务：多标签分类硬解任务：目标检测Sequence-to-sequence（Seq2seq）EncoderTransformer

成大事·2023-10-27 17:28

Apache Calcite 论文学习笔记

特别声明：本文来源于掘金，“预留”发表的[ApacheCalcite论文学习笔记](https://juejin.im/post/5d2ed6a96fb9a07eea32a6ff)最近在关注大数据处理的技术和开源产品的实现

weixin_30323631·2023-10-27 16:18

Week29：复盘能治疗焦虑。

4.论文学习6天。5.21天爱上自己练习到4天。6.千聊上英子的微信公众号排版视

Amy宝宝·2023-10-27 12:06

第9期 | GPTSecurity周报

GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大型语言模型（LLM）等安全领域应用的知识。

云起无垠·2023-10-27 11:45

第5期 | GPTSecurity周报

GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大型语言模型（LLM）等安全领域应用的知识。

云起无垠·2023-10-27 11:15

第6期|GPTSecurity周报

GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大型语言模型（LLM）等安全领域应用的知识。

云起无垠·2023-10-27 11:15

第7期 | GPTSecurity周报

GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大型语言模型（LLM）等安全领域应用的知识。

云起无垠·2023-10-27 11:15

第8期 | GPTSecurity周报

GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大型语言模型（LLM）等安全领域应用的知识。

云起无垠·2023-10-27 11:39

深度学习：GPT1、GPT2、GPT-3

自监督学习微调ExperimentGPT-2IntroductionApproachConclusionGPT-3GPT-1IntroductionGPT-1（GenerativePre-trainingTransformer

HanZee·2023-10-27 08:19

kaggle 猫狗数据标签_动手变形金刚（Kaggle Google QUEST问题与解答标签）。

kaggle猫狗数据标签Thisisa3partserieswherewewillbegoingthroughTransformers,BERT,andahands-onKagglechallenge—GoogleQUESTQ

weixin_26752765·2023-10-27 07:38

CT3D：Improving 3D Object Detection with Channel-wise Transformer 论文阅读

所以我们提出CT3D，其中包含regionproposal和aChannel-wiseTransformer。对于每一个proposal都是由proposal-

莫～忆轩*·2023-10-27 07:00

量化HuggingFace的Transformers 模型

量化Transformers模型原文地址：https://huggingface.co/docs/transformers/main/en/main_classes/quantizationAutoGPTQ

Tim_Van·2023-10-27 04:00

基于hugging face的autogptq量化实践

1.量化并保存到本地的#导入库：fromtransformersimportAutoModelForCausalLM,AutoTokenizer,GPTQConfigmodel_id="facebook

dear_queen·2023-10-27 04:29

论文阅读 - MetaTroll: Few-shot Detection of State-Sponsored Trolls with Transformer Adapters

链接：https://arxiv.org/pdf/2303.07354.pdf目录摘要1INTRODUCTION2RELATEDWORK2.1Trolldetection2.2Meta-learning2.3Few-shottextclassification3PROBLEMSTATEMENT4APPROACH4.1StageOneTraining4.2StageTwoTraining4.3Sta

无脑敲代码，bug漫天飞·2023-10-26 23:18

目标检测算法回顾之Transformer based篇章

基于Transformer的目标检测方法（一）引言（二）概述（三）发展轴预览（四）CNN-backbone系列4.1DETR与CNN-based的区别DETR的网络结构DETR的评价4.2DeformableDETR4.2.0DeformableDETR

xiaobai_Ry·2023-10-26 22:12

第13期 | GPTSecurity周报

GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大型语言模型（LLM）等安全领域应用的知识。

云起无垠·2023-10-26 18:12

第10期 | GPTSecurity周报

GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大型语言模型（LLM）等安全领域应用的知识。

云起无垠·2023-10-26 18:12

第12期 | GPTSecurity周报

GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大型语言模型（LLM）等安全领域应用的知识。

云起无垠·2023-10-26 18:12

第11期 | GPTSecurity周报

GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大型语言模型（LLM）等安全领域应用的知识。

云起无垠·2023-10-26 18:09

推荐频道

Transformer论文学习

Megatron-LM GPT 源码分析（二） Sequence Parallel分析

Megatron-LM GPT 源码分析（一） Tensor Parallel分析

Megatron-LM GPT 源码分析（三） Pipeline Parallel分析

Task02 学习Attention和Transformer

工程师必须记住的电路元件符号及英语翻译

使用GPT-4模型打造智能代码助手：轻松提升开发效率与代码质量

股票价格预测 | 融合CNN和Transformer以提升股票趋势预测准确度

transformer模型训练结构解析（加深理解）

hugging face tansformer实战篇-阅读理解任务

Transformer、Bert、Gpt对比系列，超详细介绍transformer的原理，bert和gpt的区别

CVPR 2023 | EfficientViT: Memory Efficient Vision Transformer with Cascaded Group Attention

一文通透位置编码：从标准位置编码到旋转位置编码RoPE

NLP实操手册: 基于Transformer的深度学习架构的应用指南(综述)

论文阅读——BART

论文阅读——BERT

ICML 2023 最新大模型方向 Oral 论文盘点

大模型知识蒸馏概述

Test Accuracy vs. Generalization Gap:论文简览

一分钟图情论文：《ChatGPT对文献情报工作的影响》

《动手学深度学习 Pytorch版》 10.7 Transformer

Transformer简单理解（MT）

RNN and Transformer理解

Transformer 相关理解（上）

Transformer相关理解

Transformer 简单理解

单文档内容bert分词

[论文阅读]CenterFormer——基于center的三维目标检测Transformer

Prompt设计与大语言模型微调

盘点国产ChatGPT十大模型

huggingface官网教程里面的几个用transformers做下游任务的例子(上)

基于LSTM encoder-decoder模型实现英文转中文的翻译机器

Transformer-深度学习-台湾大学李宏毅-课程笔记

Apache Calcite 论文学习笔记

Week29：复盘能治疗焦虑。

第9期 | GPTSecurity周报

第5期 | GPTSecurity周报

第6期|GPTSecurity周报

第7期 | GPTSecurity周报

第8期 | GPTSecurity周报

深度学习：GPT1、GPT2、GPT-3

kaggle 猫狗数据标签_动手变形金刚（Kaggle Google QUEST问题与解答标签）。

CT3D：Improving 3D Object Detection with Channel-wise Transformer 论文阅读

量化HuggingFace的Transformers 模型

基于hugging face的autogptq量化实践

论文阅读 - MetaTroll: Few-shot Detection of State-Sponsored Trolls with Transformer Adapters

目标检测算法回顾之Transformer based篇章

第13期 | GPTSecurity周报

第10期 | GPTSecurity周报

第12期 | GPTSecurity周报

第11期 | GPTSecurity周报