transformer论文阅读第6页

什么是ChatGPT

它是基于Transformer架构的，拥有超过350GB的参数，可以进行各种自然语言处理任务，如语音识别、机器翻译、对话生成和问答等。

丨逐风者丨·2024-08-22 20:48

注意力机制在Transformer模型中的原理与应用

很高兴能为您撰写这篇关于"注意力机制在Transformer模型中的原理与应用"的技术博客文章。作为一位世界级的人工智能专家和计算机领域大师,我将以专业、深入、实用的角度来全面探讨这个重要的技术主题。

AGI通用人工智能之禅·2024-08-22 17:36

Datawhale AI夏令营第四期魔搭- AIGC文生图方向 task03笔记

2,深度学习基础：熟悉神经网络、卷积神经网络（CNN）、Transformer等深度学习模型的基本原理。

汪贤阳·2024-08-22 11:30

Transformer模型:Postion Embedding实现

GPT-4o(OpenAI)Transformer模型中的PositionEmbedding（位置编码）是用于在不使用循环神经网络的情况下捕捉序列数据的位置信息的一种方法。

109702008·2024-08-22 10:58

SAXParseException/SAXParseException/XRRuntimeException报错解决

报错信息：org.xhtmlrenderer.util.XRRuntimeException:Can'tloadtheXMLresource(usingTrAXtransformer).org.xml.sax.SAXParseException

charlieshawn·2024-08-22 09:18

曼巴大战变形金刚：号称超越Transformer架构的Mamba架构是什么？

曼巴大战变形金刚：号称超越Transformer架构的Mamba架构是什么？Mamba是一种新兴的深度学习架构，旨在解决长序列数据的建模问题。

Chauvin912·2024-08-22 03:39

开源免费大语言模型（LLMs）排行榜

目录一、模型介绍1.1LLaMA(LargeLanguageModelMetaAI)1.2Falcon1.3Mistral1.4GPT-NeoX1.5Bloom1.6OPT(OpenPre-trainedTransformer

张3蜂·2024-08-21 22:37

百度Ernie大模型是什么？

百度的Ernie模型（EnhancedRepresentationthroughkNowledgeIntegration）是一个基于Transformer架构的预训练语言模型。

会飞的岛格酱·2024-08-21 21:01

大模型的学习 LLaMa和ChatGLM，minichatgpt4

答：Bert的模型由多层双向的Transformer编码器组成，由12层组成，768隐藏单元，12个head，总参数量110M，约1.15亿参数量。

贝猫说python·2024-03-27 07:55

《论文阅读》EmpDG：多分辨率交互式移情对话生成 COLING 2020

《论文阅读》EmpDG：多分辨率交互式移情对话生成COLING2020前言简介模型架构共情生成器交互鉴别器损失函数前言亲身阅读感受分享，细节画图解释，再也不用担心看不懂论文啦~无抄袭，无复制，纯手工敲击键盘

365JHWZGo·2024-03-26 00:13

chatGLM-6B部署报错quantization_kernels_parallel.so‘ (or one of its dependencies). Try using the full pat

chatglm2时候报错：FileNotFoundError:Couldnotfindmodule'C:\Users\Administrator\.cache\huggingface\modules\transformers_modules

FL1623863129·2024-03-20 14:25

论文阅读——SpectralGPT

SpectralGPT:SpectralFoundationModelSpectralGPT的通用RS基础模型，该模型专门用于使用新型3D生成预训练Transformer（GPT）处理光谱RS图像。

じんじん·2024-03-18 07:14

今日无更新

根据原来的改改就好……这周真的是有点繁杂了，搞定之后连着四五月份要写两篇论文，再加上五月底的课程论文还有紧接着的文献综述，看样子要疯……现在梳理一下自己手里的锤子：转到Pytorch，使用AllenNLP了解Transformer

我的昵称违规了·2024-03-17 17:12

YOLOv9改进添加可变形注意力机制DAttention

一、DeformableAttentionTransformer论文论文地址：arxiv.org/pdf/2201.00520.pdf二、DeformableAttentionTransformer注意力结构

学yolo的小白·2024-03-16 05:06

图像算法实习生--面经1

小豆包的小朋友0217·2024-03-14 17:44

【学习总结】Python transformers AutoTokenizer encode 出现的 101 和 102

1.代码展示：fromtransformersimportAutoTokenizer,AutoModelmodel_name="bert-base-chinese"tokenizer=AutoTokenizer.from_pretrained

爱学习的小道长·2024-03-14 14:10

深度学习踩坑记录（持续更新）

目录4060显卡cuda版本异常transformers初始化TrainingArguments时output_dir指定问题4060显卡cuda版本异常环境：torch1.11.0+cu113程序报错

芒果不茫QAQ·2024-03-13 15:39

小白看得懂的 Transformer

而BERT取得成功的一个关键因素是Transformer的强大作用。谷歌的Transformer模型最早是用于机器翻译任务，当时达到了SOTA效果。

zy_zeros·2024-03-12 18:39

beam search原理与常见实现，与直接sample的区别

BeamSearch与直接Sample的区别1.确定性与随机性2.结果多样性3.性能与效率4.应用场景常见的BeamSearch实现1.TensorFlow库2.PyTorch库3.HuggingFace的Transformers

samoyan·2024-03-11 13:11

Transformer、BERT和GPT 自然语言处理领域的重要模型

Transformer、BERT和GPT都是自然语言处理领域的重要模型，它们之间有一些区别和联系。

Jiang_Immortals·2024-03-08 23:21

[论文笔记] Transformer-XL

这篇论文提出的Transformer-XL主要是针对Transformer在解决长依赖问题中受到固定长度上下文的限制，如Bert采用的Transformer最大上下文为512（其中是因为计算资源的限制，

心心喵·2024-03-08 14:09

ChatGPT介绍

它基于Transformer架构，这是一种在自然语言处理（NLP）领域取得突破的深度学习方法。通过在海量的互联网文本数据上进行预训练，ChatGPT获得了强大的语言理解和生成能力。

程序媛9688·2024-03-07 11:03

VisionLLaMA: A Unified LLaMA Interface for Vision Tasks

VisionLLaMA:AUnifiedLLaMAInterfaceforVisionTasks相关链接：arxivgithub关键字：VisionLLaMA、visiontransformers、imagegeneration

liferecords·2024-03-06 21:47

Sora - 探索AI视频模型的无限可能

其次，Sora在技术上采用了扩散型变换器（DiffusionTransformer）架构。这种架构结合了扩散模型和变换器模型

nanshaws·2024-03-06 08:31

转载--OpenAI视频生成模型Sora的全面解析：从ViViT、Diffusion Transformer到NaViT、VideoPoet

前言真没想到，距离视频生成上一轮的集中爆发(详见《Sora之前的视频生成发展史：从Gen2、EmuVideo到PixelDance、SVD、Pika1.0》)才过去三个月，没想OpenAI一出手，该领域又直接变天了自打2.16日OpenAI发布sora以来(其开发团队包括DALLE3的4作TimBrooks、DiT一作BillPeebles、三代DALLE的核心作者之一AdityaRamesh等1

依然风yrlf·2024-03-05 09:02

关于MediaEval数据集的Dataset构建（Text部分-使用PLM BERT）

importrandomimportnumpyasnpimportpandasaspdimporttorchfromtransformersimportBertModel,BertTokenizerfromtqdm.autoimporttqdmfromtorch.utils.dataimportDatasetimportre

Coisíní℘·2024-03-04 18:42

Transformer结构介绍和Pyotrch代码实现

Transformer结构介绍和Pyotrch代码实现关注B站查看更多手把手教学：肆十二-的个人空间-肆十二-个人主页-哔哩哔哩视频(bilibili.com)基本结构介绍Transformer结构是近年来自然语言处理

肆十二·2024-03-03 15:35

你下个Vite项目能不能用上Lightning CSS

LightningCSS什么是LightningCSS引用官方的介绍：AnextremelyfastCSSparser,transformer,bundler,andminifier.一个非常快的CSS

·2024-03-03 06:06

论文阅读：2020GhostNet华为轻量化网络

创新：（1）对卷积进行改进（2）加残差连接1、GhostModule1、利用1x1卷积获得输入特征的必要特征浓缩。利用1x1卷积对我们输入进来的特征图进行跨通道的特征提取，进行通道的压缩，获得一个特征浓缩。2、利用深度可分离卷积获得特征浓缩的相似特征图（Ghost）。在获得特征浓缩之后，利用深度可分离卷积进行逐层卷积，进行跨特征点的特征提取，获得额外的特征图，也就是Ghost。将这两个进行堆叠就是

A_my_*·2024-03-01 10:21

Mamba 作者谈 LLM 未来架构

前言在大模型领域，一直稳站C位的Transformer最近似乎有被超越的趋势。这个挑战者就是一项名为【Mamba】的研究，其在语言、音频和基

JOYCE_Leo16·2024-02-28 20:04

Transformer视频理解学习的笔记

今天复习了Transformer,ViT,学了SwinTransformer,还有观看了B站视频理解沐神系列串讲视频上（24.2.26未看完,明天接着看）这里面更多论文见：https://github.com

LinlyZhai·2024-02-28 14:26

基于深度学习的中文语音识别系统（毕设）

该系统实现了基于深度框架的语音识别中的声学模型和语言模型建模，其中声学模型包括CNN-CTC、GRU-CTC、CNN-RNN-CTC，语言模型包含transformer、CBHG，数据集包含stc、primewords

程序员奇奇·2024-02-28 11:53

一些大佬的可解释人工智能的优质资料整理及总结（更新中）

针对Transformer系列模型的模型可解释性分析：1.关于Transformer可解释性的介绍：Transformer模型的可解释性内容总结：2.关于VIT模型的可解释性研究介绍：VisionTransformer

Trouville01·2024-02-27 15:57

《论文阅读》e-CARE：探索可解释因果推理的新数据集 ACL2022

《论文阅读》e-CARE：探索可解释因果推理的新数据集ACL2022前言简介数据集优势数据集语料级别的统计数据集示例评分标准前言今天为大家带来的是《e-CARE:aNewDatasetforExploringExplainableCausalReasoning

365JHWZGo·2024-02-26 17:31

Attention注意力机制

网上的文章总把Attention注意力机制和Transformer模型结合来讲，看起来非常复杂。实际上Attention不仅作用于自然语言处理领域，目前已是很通用的技术。

xieyan0811·2024-02-25 16:44

论文阅读笔记《SimpleShot: Revisiting Nearest-Neighbor Classification for Few-Shot Learning》

小样本学习&元学习经典论文整理||持续更新核心思想本文提出一种基于最近邻方法的小样本学习算法（SimpleShot），作者指出目前大量的小样本学习算法都采用了元学习的方案，而作者却发现使用简单的特征提取器+最近邻分类器的方法就能实现非常优异的小样本分类效果。本文首先用特征提取网络fθf_{\theta}fθ+线性分类器在一个基础数据集上对网络进行训练，将训练得到的特征提取网络增加一个简单的特征

深视·2024-02-24 10:28

论文阅读：四足机器人对抗运动先验学习稳健和敏捷的行走

论文：LearningRobustandAgileLeggedLocomotionUsingAdversarialMotionPriors进一步学习：AMP，baseline方法，TO摘要：介绍了一种新颖的系统，通过使用对抗性运动先验(AMP)使四足机器人在复杂地形上实现稳健和敏捷的行走。主要贡献包括为机器人生成AMP数据集，并提出一种教师-学生训练框架来学习稳健和敏捷的运动技能。该系统在现实世界

u小鬼·2024-02-20 21:53

大模型量化技术原理-LLM.int8()、GPTQ

近年来，随着Transformer、MOE架构的提出，使得深度学习模型轻松突破上万亿规模参数，从而导致模型变得越来越大，因此，我们需要一些大模型压缩技术来降低模型部署的成本，并提升模型的推理性能。

吃果冻不吐果冻皮·2024-02-20 21:39

【机器学习案例5】语言建模 - 最常见的预训练任务一览表

自监督学习(SSL)是基于Transformer的预训练语言模型的支柱，该范例涉及解决有助于建模自然语言的预训练任务(PT)。本文将所有流行的预训练任务放在一起，以便我们一目了然地评估它们。

suoge223·2024-02-20 20:05

java实现Word文件转换成PDF

坐标com.documents4jdocuments4j-local1.0.3com.documents4jdocuments4j-api1.0.3com.documents4jdocuments4j-transformer-msoffice-word1.0.3

@Ciano·2024-02-20 19:03

Java 实现 WORD转PDF，用Documents4j

https://stackoverflow.com/a/59624576依赖：com.documents4jdocuments4j-local1.0.3com.documents4jdocuments4j-transformer-msoffice-word1.0.3Java

总有刁民想害朕啊·2024-02-20 19:32

openai chat GPT-4 Technical Report 技术报告论文

GPT-4是基于Transformer架构的模型，经过预训练以预测文档中的下一个标记。后训练对齐过程导致在事实性和符合所需行为方面的性能得到改善。该

·2024-02-20 19:06

openai chat GPT-4 Technical Report 技术报告论文

GPT-4是基于Transformer架构的模型，经过预训练以预测文档中的下一个标记。后训练对齐过程导致在事实性和符合所需行为方面的性能得到改善。该

·2024-02-20 18:30

认知篇-剖析LLM基座

其中，基于Transformer架构的预训练语言模型（PretrainedLanguageModel，PLM）更是成为了研究的热点。

·2024-02-20 18:29

openai chatGPT 原理通俗介绍

ChatGPT（GenerativePre-trainedTransformer）作为一种先进的语言生成模型，在各类对话系统和智能助手中得到了广泛应用。

·2024-02-20 18:29

Vis-TOP：视觉Transformer叠加处理器

摘要近年来，Transformer[23]在自然语言处理(NLP)领域取得了良好的效果，并开始向计算机视觉(CV)领域拓展。

离欢·2024-02-20 18:47

【Transformer养猪】Livestock Monitoring with Transformer

对牲畜行为的跟踪有助于在现代动物饲养场及早发现并预防传染病。除了经济收益，这将减少畜牧业中使用的抗生素数量，否则这些抗生素将进入人类的饮食，加剧抗生素耐药性的流行，这是导致死亡的主要原因。我们可以使用大多数现代农场都有的标准摄像机来监控牲畜。然而，大多数计算机视觉算法在这项任务中表现不佳，主要原因是:(i)农场饲养的动物看起来相同，缺乏任何明显的空间特征，(ii)现有的跟踪器都不能长时间保持健壮，

离欢·2024-02-20 18:47

聊聊transformers库；微软推出ZeRO++技术：优化大型AI模型训练时间和成本

AI新闻微软推出ZeRO++技术：优化大型AI模型训练时间和成本摘要：据报道，微软研究人员最近发布了一项名为ZeRO++的新技术，旨在优化训练大型AI模型时常遇到的数据传输成本和带宽限制问题，可大幅减少训练时间和成本。ZeRO++建立在现有的ZeRO传输技术基础上，并通过提供增强的通信策略来提高训练效率并降低成本。通过对权重进行量化，ZeRO++可以减少参数通信量，同时保持训练精度。为了最小化通信

go2coding·2024-02-20 17:05

【Transformer】Transformer的简单了解：Positional Encoding、Self-attention、Batch 与 Layer Norm 等

自从2017年Transformer模型被提出以来，它已经从论文最初的机器翻译领域，转向语音，图像，视频等等方面的应用。

magic_ll·2024-02-20 16:38

【论文阅读】【yolo系列】YOLO-Pose的论文阅读

Abstract我们介绍YOLO-pose，一种无热图联合检测的新方法，基于流行的YOLO目标检测框架的图像二维多人姿态估计。【现有方法的问题】现有的基于热图的两阶段方法是次优的，因为它们不是端到端可训练的，训练依赖于surrogateL1loss，该损失不能直接优化评估指标–目标关键点相似度（OKS）。【ours优势：端到端训练，并优化OKS指标本身，无复杂的后处理】该模型学习了在一次前向传递中

magic_ll·2024-02-20 16:04

推荐频道

transformer论文阅读

什么是ChatGPT

注意力机制在Transformer模型中的原理与应用

Datawhale AI夏令营第四期魔搭- AIGC文生图方向 task03笔记

Transformer模型:Postion Embedding实现

SAXParseException/SAXParseException/XRRuntimeException报错解决

曼巴大战变形金刚：号称超越Transformer架构的Mamba架构是什么？

开源免费大语言模型（LLMs）排行榜

百度Ernie大模型是什么？

大模型的学习 LLaMa和ChatGLM，minichatgpt4

《论文阅读》EmpDG：多分辨率交互式移情对话生成 COLING 2020

chatGLM-6B部署报错quantization_kernels_parallel.so‘ (or one of its dependencies). Try using the full pat

论文阅读——SpectralGPT

今日无更新

YOLOv9改进 添加可变形注意力机制DAttention

图像算法实习生--面经1

【学习总结】Python transformers AutoTokenizer encode 出现的 101 和 102

深度学习踩坑记录（持续更新）

小白看得懂的 Transformer

beam search原理与常见实现，与直接sample的区别

Transformer、BERT和GPT 自然语言处理领域的重要模型

[论文笔记] Transformer-XL

ChatGPT介绍

VisionLLaMA: A Unified LLaMA Interface for Vision Tasks

Sora - 探索AI视频模型的无限可能

转载--OpenAI视频生成模型Sora的全面解析：从ViViT、Diffusion Transformer到NaViT、VideoPoet

关于MediaEval数据集的Dataset构建（Text部分-使用PLM BERT）

Transformer结构介绍和Pyotrch代码实现

你下个Vite项目能不能用上Lightning CSS

论文阅读：2020GhostNet华为轻量化网络

Mamba 作者谈 LLM 未来架构

Transformer视频理解学习的笔记

基于深度学习的中文语音识别系统（毕设）

一些大佬的可解释人工智能的优质资料整理及总结（更新中）

《论文阅读》e-CARE：探索可解释因果推理的新数据集 ACL2022

Attention注意力机制

论文阅读笔记《SimpleShot: Revisiting Nearest-Neighbor Classification for Few-Shot Learning》

论文阅读：四足机器人对抗运动先验学习稳健和敏捷的行走

大模型量化技术原理-LLM.int8()、GPTQ

【机器学习案例5】语言建模 - 最常见的预训练任务一览表

java实现Word文件转换成PDF

Java 实现 WORD转PDF，用Documents4j

openai chat GPT-4 Technical Report 技术报告论文

openai chat GPT-4 Technical Report 技术报告论文

认知篇-剖析LLM基座

openai chatGPT 原理通俗介绍

Vis-TOP：视觉Transformer叠加处理器

【Transformer养猪】Livestock Monitoring with Transformer

聊聊transformers库； 微软推出ZeRO++技术：优化大型AI模型训练时间和成本

【Transformer】Transformer的简单了解：Positional Encoding、Self-attention、Batch 与 Layer Norm 等

【论文阅读】【yolo系列】YOLO-Pose的论文阅读

YOLOv9改进添加可变形注意力机制DAttention

聊聊transformers库；微软推出ZeRO++技术：优化大型AI模型训练时间和成本