Transformer论文学习第28页

AIGC专题报告：ChatGPT纪要分享

（报告出品方：久谦中台）报告共计：135页OpenAI高管解密ChatGPT¶GPT-3是一种大型语言模型，被训练用来在给定上下文中预测下一个单词，使用Transformer架构1它很灵活，可以用于翻译

人工智能学派·2023-12-15 00:15

大模型的实践应用13-量化后的通义千问Qwen的18亿参数在CPU上的部署，最小2GB显存可跑，并利用两种文本流式方式输出

Qwen-1.8B是基于Transformer的大语言模型,在超大规模的预训练数据上进行训练得到。预训练数据类型多样，覆盖广泛，包括大量网络文本、专业书籍、

微学AI·2023-12-14 21:01

Transformer

Transformer是深度学习领域的一种重要模型架构，由Google的研究人员于2017年提出。

wangqiaowq·2023-12-14 21:34

003 FeedForward前馈层

一、环境本文使用环境为：Windows10Python3.9.17torch1.13.1+cu117torchvision0.14.1+cu117二、前馈层原理Transformer模型中的前馈层（FeedForwardLayer

韩师兄_·2023-12-14 21:00

用 C 写一个卷积神经网络

用C写一个卷积神经网络深度学习领域最近发展很快，前一段时间读transformer论文《AttentionIsAllYouNeed》时，被一些神经网络和深度学习的概念搞得云里雾里，其实也根本没读懂。

zerok775·2023-12-14 21:37

YoloV8改进策略：Gold-YOLO高效目标检测器与YoloV8激情碰撞

静静AI学堂·2023-12-14 20:36

ViTDet论文笔记

arxiv：https://arxiv.org/abs/2203.16527GitHub：https://github.com/ViTAE-Transformer/ViTDet摘要本文提出使用plain

hello_dear_you·2023-12-14 18:11

ChatGPT的常识

ChatGPT是一个基于GPT模型的聊天机器人，GPT即“GenerativePre-trainingTransformer”，是一种预训练的语言模型。

小楼先森·2023-12-14 16:28

gpt3、gpt2与gpt1区别

One-shotLearning-CSDN博客Zero-shot（零次学习）简介-CSDN博客GPT1、GPT2、GPT3、InstructGPT-CSDN博客目录gpt2与gpt1区别：gpt3与gpt2区别：GPT-2模型由多层单向transformer

小趴菜日记·2023-12-14 15:06

谷歌发布最强AI大模型Gemini（超越chatgpt4）

此次谷歌发布的Gemini模型可实现多模态，性能大幅提升，Gemini是基于Transformerdecoder构建的多模态模型，这种技术能够处理视频、音频和文本等不同内容形式的信息。

智慧医疗探索者·2023-12-14 14:48

HAT（CVPR 2023）：Hybrid Attention Transformer for Image Restoration

HAT论文地址：HAT:HybridAttentionTransformerforImageRestoration代码地址：XPixelGroup/HAT:CVPR2023-ActivatingMorePixelsinImageSuper-ResolutionTransformer

Miracle Fan·2023-12-14 13:47

EMT（light sr）：Efficient Mixed Transformer for Single Image Super-Resolution

EMT论文地址：EfficientMixedTransformerforSingleImageSuper-Resolution代码地址：Fried-Rice-Lab/EMT:EfficientMixedTransformerforSingleImageSuper-Resolution

Miracle Fan·2023-12-14 13:47

SwinIR: Image Restoration Using Swin Transformer

SwinIR简介论文地址：SwinIR:ImageRestorationUsingSwinTransformer代码：SwinIR本文提出了一个基于swintransformer的图像超分模型swinIR

Miracle Fan·2023-12-14 12:53

用于 ChatGPT 的 FPGA 加速大型语言模型

大型语言模型通常使用深度学习技术构建，特别是使用Transformer架构。Transformer是一种神经网络模型，擅长捕获序列中的长

FPGA技术联盟·2023-12-14 12:00

【起草】章节 1-1 介绍 ChatGPT 的基本概念和工作原理

ChatGPT（GenerativePre-trainedTransformer）是一种基于深度学习的语言模型，由OpenAI开发。

数字化转型2025·2023-12-14 12:44

SMOKE Single-Stage Monocular 3D Object Detection via Keypoint Estimation 论文学习

论文地址：SMOKE:Single-StageMonocular3DObjectDetectionviaKeypointEstimationGithub地址：https://github.com/open-mmlab/mmdetection3d/tree/main/configs/smoke1.解决了什么问题？预测物体的3D朝向角和平移距离对于自动驾驶感知非常重要。现有的单目视觉方法主要包含两个部

calvinpaean·2023-12-06 23:41

模型微调技术

尤其是LoRA，它在Transformer架构的每一层中注入可训练的秩分解矩阵，从而大大减少了下游任务的可训练参数数量。而且，LoRA的表现与完全

LANWENBING·2023-12-06 21:13

chatgpt高效提示

它建立在Transformer架构上，可以处理大量数据并生成高质量的文本。然而，为

顾久~·2023-12-06 19:51

扩散模型学习（三）

TextEncoder）3.UNet4.调度器（Scheduler）5.采样循环三、其他管线1.Img2Img2.In-Painting3.Depth2Image一、StableDiffusion使用首先安装必要的库，transformers

李明朔·2023-12-06 18:51

【论文学习】GRAPH ATTENTION NETWORKS

背景通过在图算法中引入self-attention的机制，解决图卷积中之前的一些问题，并且保证了时间和空间复杂度线性于图的边或者节点。图注意力网络计算方式1.图网络每一层的输入和输出都是每个节点的特征向量。2.每条边的注意力权重计算3.左图是self-attention权重的计算，右图是某个节点multi-head-attention的计算方式，加权多个head之后求平均。4.multi-head

WitsMakeMen·2023-12-06 18:50

第30期 | GPTSecurity周报

GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大型语言模型（LLM）等安全领域应用的知识。

云起无垠·2023-12-06 15:50

CVPR 2023 精选论文学习:Seeing What You Miss Vision-Language Pre-Training With Semantic Completion Learning

以下是根据MECE原则找到的四个可以作为分类标准的特征：1.预训练任务。预训练任务是指模型在用于下游任务之前进行训练的特定任务。在视觉语言预训练的背景下，有几种常见的预训练任务：对比学习：在对比学习中，模型被训练来区分相似和不相似的示例对。例如，在视觉语言预训练的情况下，模型可以被训练来区分图像和它们对应的标题，或区分图像和它们对应的描述。掩码语言建模(MLM)：在MLM中，模型被训练来预测句子中

结构化文摘·2023-12-06 12:36

CVPR 2023 精选论文学习笔记：Instant Volumetric Head Avatars

以下是四个可以作为分类标准的特征：1.数据表示。数据表示是NeRF的一个基本方面，它决定了输入数据如何在模型中编码和利用。数据表示的选择会显著影响NeRF模型的效率、准确性和适用性。隐式NeRF。隐式NeRF使用一个连续函数来表示场景，将空间中的每个点映射到其对应的颜色和密度值。这种连续表示具有以下优点：表达力：隐式NeRF可以有效地捕捉精细的几何形状和复杂的细节，使其适用于模型复杂场景。效率：隐

结构化文摘·2023-12-06 12:06

CVPR 2023 精选论文学习笔记：UniSim A Neural Closed-Loop Sensor Simulator

基于MECE原则，我们给出以下分类标准：标准1：仿真类型仿真类型是指仿真器是否能够实时生成场景。实时仿真器能够以每秒至少30帧的速度生成图像和视频，使其适用于训练和测试自动驾驶汽车等机器人。另一方面，离线仿真器不是实时的，但它们可以生成更逼真的图像和视频。这使它们更适合创建计算机视觉算法的训练数据等任务。实时仿真：这些仿真器设计用于与模拟系统在闭环中运行，允许实时交互和决策。这种仿真类型对于训练和

结构化文摘·2023-12-06 12:05

CVPR 2023 精选论文学习笔记：Towards Scalable Neural Representation for Diverse Videos

基于MECE原则，我们给出以下四个分类标准：分类标准1：表示类型隐式神经表示（INR）隐式神经表示（INR）是一类神经网络架构，将场景或对象表示为从3D点映射到颜色和不透明度值的连续函数。该函数通常从一组训练图像或视频中学习，然后可以用于渲染场景或对象的新视图。INR已被证明

结构化文摘·2023-12-06 12:35

CVPR 2023 精选论文学习笔记：Differentiable Shadow Mapping for Efficient Inverse Graphics

以下是四个可以用来对本文选题中不同研究工作进行分类的特征：1.渲染技术可微渲染：可微渲染是一种允许从图像或其他数据中高效优化3D形状和材料的技术。这是通过使渲染过程相对于场景的参数（例如形状、材料和照明）可微来实现的。这允许使用梯度优化方法来找到最能解释输入数据的参数。可微渲染已被证明对于各种任务有效，包括图像重建、形状优化和材料估计。非可微渲染：非可微渲染是渲染的传统方法，不允许使用梯度优化。这

结构化文摘·2023-12-06 12:04

动能资讯 | 智慧汽车—城市NOA迎爆发

在特斯拉引领的Transformer+Bev架构驱动下，智驾算法趋近于端到端的智驾大模型，使得智能驾驶开始步入城市NOA新时代。消费者认知增强，未来市场空间广阔。

weng13924672287·2023-12-06 09:34

论文阅读：一种通过降低噪声和增强判别信息实现细粒度分类的视觉转换器

论文标题：Avisiontransformerforfine-grainedclassificationbyreducingnoiseandenhancingdiscriminativeinformation

小源0·2023-12-06 06:57

【论文笔记】SCRIPT：Source Code Summarization with Structural Relative Position Guided Transformer

SCRIPT1Introduction2ProposedApproachA.RelativeDistanceWeightedTransformerB.StructuralRPE-InducedTransformerSelf-AttentionSequentialRelativePositionalEncodingASTRelativePositionalEncodingStructuralRPE

Luo_LA·2023-12-06 06:15

AGI = 大模型 + 知识图谱 + 强化学习

例如，GPT-3（GenerativePre-trainedTransformer3）是一个大型的自然语言处理模型，拥有数十亿的参数。

summer_west_fish·2023-12-06 06:13

【论文笔记】A Transformer-based Approach for Source Code Summarization

ATransformer-basedApproachforSourceCodeSummarization1.Introduction2.Approach2.1ArchitectureSelf-AttentionCopyAttention2.2PositionRepresentations

Luo_LA·2023-12-06 06:40

RNN、Seq2Seq、Transformers：NLP 中常用的神经架构简介

循环神经网络是一类神经架构，具有很酷的特性——循环机制——这使得它们成为处理可变长度的顺序数据的自然选择。与标准神经网络不同，RNN可以在接受新输入的同时保留前一层的信息。这是它的工作原理假设我们正在构建一个电子商务聊天机器人，由一个处理文本的RNN和一个预测其背后意图的前馈网络组成。机器人收到这条消息：“嗨！你们这件衬衫有不同颜色吗？”我们有11个单词（11个单词嵌入）作为输入，并且序列被切成标

wouderw·2023-12-06 05:27

【Transformer论文精读系列】（一）如何理解Transformer里的注意力机制？

论文：AttentionIsAllYouNeed参考李沐老师的讲解视频：Transformer论文逐段精读【论文精读】_哔哩哔哩_bilibili其他参考：超强动画，一步一步深入浅出解释Transformer

HiLittleBoat·2023-12-06 03:46

抑制过拟合——从梯度的角度看LayerNorm的作用

抑制过拟合——从梯度的角度看LayerNorm的作用Normalization的目的LayerNorm&BatchNorm可视化分析LayerNorm分析loss分析梯度在深入探索transformer

征途黯然.·2023-12-06 03:39

Talk | 华为谢恩泽: PixArt-α, 基于Transformer的高质量文本到图像生成扩散模型的快速训练

他与大家分享的主题是:“PixArt-Alpha,基于Transformer的高质量文本到图像生成的扩散模型的快速训练”，介绍了他们团队在基于Transformer的T2I扩散模型PIXART-α的一系列研究成果

TechBeat人工智能社区·2023-12-06 00:43

6-PACK论文学习及复现记录

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、基本思想1.1创新点1.2两个变换二、实现结构1.基于注意力机制生成锚点特征2.生成关键点(分对称类、非对称)2.1损失函数（非对称）2.2损失函数（对称）3.预测帧间变化4.测试指标三、项目复现3.1数据文件含义3.2代码逻辑四、复现记录4.1环境配置&复现流程4.1.1本地4.1.2服务器配置4.2遇到的问题4.2

wliu_kk·2023-12-06 00:18

【读点论文】A survey of the Vision Transformers and its CNN-Transformer based Variants近年来这个方向的文献阅读记录

AsurveyoftheVisionTransformersanditsCNN-TransformerbasedVariantsAbstract视觉Transformer作为卷积神经网络(cnn)的可能替代品

羞儿·2023-12-05 23:02

AI：大语言模型训练方法 - 机器学习

TransformerTransformer是一种深度学习的模型架构，特别适用于自然语言处理任务。

AnyaPapa·2023-12-05 21:25

下载Huggingface Transformer 在苹果M1芯片上（保姆教程，我可以，你也可以）

文章的reference:https://developer.apple.com/metal/tensorflow-plugin/https://www.youtube.com/watch?v=17gDhXU55oU和https://medium.com/@faizififita1/huggingface-installation-on-apple-silicon-2022-m1-pro-max-

小张儿zandau·2023-12-05 19:39

Vision Transformer原理分析

VisionTransformer原理分析VisionTransformer是2021年Google团队提出的将Transformer应用在图像分类的模型，因为其模型简单、效果好、可扩展性强，成为CV领域的里程碑著作

X_Student737·2023-12-05 17:31

transformer没有BN层

传统的Transformer模型中通常不包含BatchNormalization（BN）层。Transformer模型的核心是自注意力机制，由注意力头组成，而不依赖于卷积或全连接层。

不当菜鸡的程序媛·2023-12-05 17:18

transformers tokenizer.encode_plus() 的padding=True踩的坑

转载：transformerstokenizer.encode_pl

不当菜鸡的程序媛·2023-12-05 17:18

深度学习与TensorFlow:FCN论文学习笔记

这篇文章陆陆续续看了快两周,其中也遇到了自己很多的知识的漏洞,踩了很多坑,这里希望能够和大家说一说,也希望大家可以分享一下自己的看法.1:FCN基本思路自从CNN成功之后,很多人都在尝试使用CNN进行图像分割,个人认为CNN最厉害的地方是他的多层结构可以自动提取学习的特征,并且将其学习,并且将提取的这些特征进行分类,但是我们当用CNN进行图像分割的时候,CNN的这项优势反而变成了劣势,因为在特征提

云时之间·2023-12-05 15:28

ViT

【arxiv2020.10,ICLR2021】ViTAnImageisWorth16x16Words:TransformersforImageRecognitionatScale目录abstractintroViT

Mr.Light·2023-12-05 15:26

Vision Transformer（VIT）原理总结

VIT，文章题名为AnImageisWorth16x16Words:TransformersforImageRecognitionatScale，发表于2020年10月。

白三点·2023-12-05 15:26

SwinTransformer与Vit细节总结

建议通过标题来快速跳转Vit(VisionTransformer)Vit把图片打成了patch，然后过标准的TransformerEncoder，最后用CLStoken来做分类Vit的位置编码作者在文中试了几种方式

taoqick·2023-12-05 15:56

Transformer总结——VIT

1：在attentionisallyouneed文章中，作者提出了多头注意力。注意力公式：dk是K的维度。多头公式：VIT将多头注意力应用到了图像领域，所以具体看一下VIT关于多头注意力的代码实现。classPatchEmbed(nn.Module):def__init__(self,img_size=224,patch_size=16,in_c=3,embed_dim=768,norm_laye

翰墨大人·2023-12-05 15:25

VIT论文介绍

论文链接：戳我Transformer结构原本应用于自然语言处理，本篇希望找到可以在不用CNN情况下使用纯Transformer构架在图像分类任务上使用少量运算资源来训练达到更好的结果。

赵卓不凡·2023-12-05 15:25

VIT总结

关于transformer、VIT和SwinT的总结1.transformer1.1.注意力机制Anattentionfunctioncanbedescribedasmappingaqueryandasetofkey-valuepairstoanoutput

一轮秋月·2023-12-05 15:22

pytorch bert实现文本分类

huggingface上自行挑选1.导入必要的库importosimporttorchfromtorch.utils.dataimportDataLoader,TensorDataset,random_splitfromtransformersimportBertTokenizer

骑单车的王小二·2023-12-05 14:13

推荐频道

Transformer论文学习