Transformer论文学习第2页

You Only Cache Once: Decoder-Decoder Architectures for Language Models

单次缓存：与标准Transformer相比，YOCO只缓存一次KV对，显著减少了GP

YiHanXii·2024-09-05 19:08

6、关于Medical-Transformer

6、关于Medical-TransformerAxial-Attention原文链接：Axial-attentionMedical-Transformer原文链接：Medical-TransformerMedical-Transformer

安逸sgr·2024-09-05 14:05

大模型--个人学习心得

大模型LLM定义大模型LLM，全称LargeLanguageModel，即大型语言模型LLM是一种基于Transformer架构模型，它通过驯良大量文本数据，学习语言的语法、语义和上下文信息，从而能够对自然语言文本进行建模这种模型在自然语言处理

挚爱清&虚·2024-09-05 12:27

深度学习算法——Transformer

参考教材：动手学pytorch一、模型介绍Transformer模型完全基于注意力机制，没有任何卷积层或循环神经网络层。

fw菜菜·2024-09-04 18:31

基于Bert-base-chinese训练多分类文本模型(代码详解）

目录一、简介二、模型训练三、模型推理一、简介BERT（BidirectionalEncoderRepresentationsfromTransformers）是基于深度学习在自然语言处理（NLP）领域近几年出现的

一颗洋芋·2024-09-04 15:41

高校为什么需要AIGC大数据实验室？

AIGC技术创新：探索如何利用人工智能算法，如深度学习中的生成对抗网络（GAN）、变分自编码器（VAE）、基于Transformer架构的语言模型（如GPT系列）等，来高效地生成高质量的文本、图像、音频

泰迪智能科技01·2024-09-04 13:28

自动驾驶之心规划控制理论&实战课程

多传感器标定全栈系统学习教程多传感器融合:毫米波雷达和视觉融合感知全栈教程(深度学习传统方式)多传感器融合跟踪全栈教程(视频答疑)多模态融合3D目标检测教程(视频答疑)规划控制理论&实战课程国内首个BEV感知全栈系列学习教程首个基于Transformer

vsdvsvfhf·2024-09-04 10:05

Azure和Transformers的详细解释

AzureAI是微软提供的人工智能(AI)解决方案的集合，旨在帮助开发人员、数据科学家和企业轻松构建和部署智能应用程序。以下是对AzureAI各个方面的详细解释：AzureAI主要组件AzureCognitiveServices（认知服务）：计算视觉：包括图像识别、物体检测、人脸识别以及图像标注等。语音服务：包括语音识别、语音合成、说话人识别和语音翻译等。语言理解服务：包括文本分析、语言翻译、情感

漫天飞舞的雪花·2024-09-04 09:04

【深度学习 transformer】使用pytorch 训练transformer 模型,hugginface 来啦

它由几个关键组件组成：Transformers：这是一个基于PyTorch的库，提供了各种预训练的NLP模型，如BERT、GPT、RoBERTa、DistilBERT等。

东华果汁哥·2024-09-04 06:39

LLM大模型落地-从理论到实践

学习目标熟悉主流LLM（Llama,ChatGLM,Qwen）的技术架构和技术细节；有实际应用RAG、PEFT和SFT的项目经验较强的NLP基础，熟悉BERT、T5、Transformer和GPT的实现和差异

hhaiming_·2024-09-04 01:12

2.关于Transformer

关于Transformer模型架构举例输入图像为3x224x224EmbeddedPatches将一张图的多个区域进行卷积，将每个区域转换成多维度向量（多少卷积核就有多少维向量）self.patch_embeddings

安逸sgr·2024-09-03 20:05

DETR3D 开源项目教程

DETR3D开源项目教程detr3d项目地址:https://gitcode.com/gh_mirrors/de/detr3d项目介绍DETR3D是一个基于Transformer架构的开源三维目标检测框架

齐妤茜·2024-09-03 19:35

3.关于Detr

关于Detr模型架构总体架构classTransformer(nn.Module):def__init__(self,d_model=512,nhead=8,num_encoder_layers=6,num_decoder_layers

安逸sgr·2024-09-03 19:05

GPT 模型简史：从 GPT-1 到 GPT-4

文章目录GPT-1GPT-2GPT-3从GPT-3到InstructGPTGPT-3.5、Codex和ChatGPTGPT-4GPT-1 2018年年中，就在Transformer架构诞生⼀年后，

三月七꧁ ꧂·2024-09-03 19:04

OpenAI Chatgpt发展历史和Chatgpt-3的研发过程工作原理

ChatGPT是由OpenAI的研究团队基于GPT技术（GenerativePre-trainedTransformer）开发的AI对话引擎。

roxxo·2024-09-03 04:29

周报 | 24.8.26-24.9.1文章汇总

能玩的Transformer可视化解释工具！_研究别人的黑盒算法机器学习python-CSDN博客极市平台|语言图像模型大一统！Meta将Transformer和Di

双木的木·2024-09-02 13:25

大语言模型诞生、探索和爆发阶段

2017年：Google发表了Transformer架构，这是一种基于自注意力机制的神经网络架构，它彻底改变了自然语言处理（NLP）领域，使得大规模并行化处理成为可能，

花开盛夏^.^·2024-09-02 10:38

GPT-3：一个新应用生态系统诞生了

Transformerencoder-decoder模型之间由超过1,750亿个被称为参数的单词之间的加权值连接，将其15亿个参数的前身GPT-2打的落花流水。您只要输入要执行的任务

派派AI学院·2024-09-02 09:34

Transformer面试真题详解——覆盖99%的Transformer面试问题（建议收藏）

文章目录1.请简述一下Transformer的基本结构和原理2.Transformer为什么使用多头注意力机制3.Transformer计算attention为什么选择点乘而不是加法？

爱睡觉的咋·2024-09-02 05:34

【论文笔记】Training language models to follow instructions with human feedback B部分

TraininglanguagemodelstofollowinstructionswithhumanfeedbackB部分回顾一下第一代GPT-1：设计思路是“海量无标记文本进行无监督预训练+少量有标签文本有监督微调”范式；模型架构是基于Transformer

Ctrl+Alt+L·2024-09-02 01:12

【HuggingFace Transformers】BertIntermediate 和 BertPooler源码解析

BertIntermediate和BertPooler源码解析1.介绍1.1位置与功能1.2相似点与不同点2.源码解析2.1BertIntermediate源码解析2.2BertPooler源码解析1.介绍1.1位置与功能(1)BertIntermediate位置：位于BertLayer的注意力层（BertSelfAttention）和输出层（BertOutput）之间。功能：它执行一个线性变换（

CS_木成河·2024-09-01 17:25

在浏览器上使用transformers.js运行（WebGPU）RMBG-1.4进行抠图（背景移除）

在浏览器上使用transformers.js运行（WebGPU）RMBG-1.4进行抠图（背景移除）说明：首次发表日期：2024-08-28官方Github仓库地址：https://github.com

shizidushu·2024-09-01 17:55

LLM-项目详解（一）：Chinese-LLaMA-Alpaca【transformers/models/llama/modeling_llama.py文件】

u013250861·2024-08-31 22:57

总结：大模型技术栈---算法与原理

word-levelchar-levelsubword-levelBPEWordPieceUniLMSentencePieceByteBPE2.positionencoding绝对位置编码ROPEAliBi相对位置编码Transformer-XLT5

lichunericli·2024-08-31 22:26

《BERT基础教程：Transformer大模型实战》读书笔记

概念BERT，BidirectionalEncoderRepresentationsfromTransformers，多Transformer的双向编码器表示法。

johnny233·2024-08-31 19:39

深度学习项目实践——QQ聊天机器人（transformer）（三）功能实现的方法——NoneBot2插件结构与编写

深度学习项目实践——QQ聊天机器人（transformer）（三）功能实现的方法——NoneBot2插件结构与编写在前两节中，我们详细讲解了QQ聊天的原理、QQ机器人的框架与环境配置的流程。

Linductor·2024-08-31 18:58

YOLOv9独家改进：一种高效移动应用的卷积加性自注意Vision Transformer

本文独家改进：轻量化改进之高效移动应用的卷积加性自注意VisionTransformer，构建了一个新颖且高效实现方式——卷积加性相似度函数，并提出了一种名为卷积加性标记混合器（CATM）的简化方法来降低计算开销

AI小怪兽·2024-08-31 17:28

自己设计一个Transformer模型

Transformer模型在2017年被Google提出，直接基于self-attention结构，不再依赖于RNN、LSTM或者CNN，是一种Seg2Seg模型。

郑不凡·2024-08-31 13:23

巴伦射频变器（Balun RF Transformer）的常规产品通常包括以下几种类型

1:1高频变压器：用于将平衡和非平衡信号进行转换，通常在信号传输和接收电路中使用，如无线通信设备和各种高频电子设备中。1:4高频变压器：主要用于阻抗匹配和信号传输，能够将低阻抗的平衡信号转换为高阻抗的非平衡信号，广泛应用于射频收发器件和天线系统。双平衡变压器：用于同时处理两个平衡信号的变压器，如应用于差分放大器和差分信号处理电路中。4:1高频变压器：类似于1:4变压器，用于信号匹配和转换，将高阻抗

Hqst88888·2024-08-31 08:50

第65期 | GPTSecurity周报

GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。

云起无垠·2024-08-31 05:26

快速使用transformers的pipeline实现各种深度学习任务

目录引言安装情感分析文本生成文本摘要图片分类实例分割目标检测音频分类自动语音识别视觉问答文档问题回答图文描述引言在这篇中文博客中，我们将深入探讨使用transformers库中的pipeline()函数

E寻数据·2024-08-31 04:54

1-pipeline()函数-transformers-python库

pipeline()函数pipeline()函数是Transformers库中最基本的工具。Transformer模型用于解决各种NLP任务，Transformers库提供了创建和使用这些模型的功能。

Flora-pi·2024-08-31 04:53

Transformer模型整体构建的实现

编码器-解码器结构classEncoderDecoder(nn.Module):def__init__(self,encoder,decoder,source_embedding,target_embedding,generator):"""初始化函数中有5个参数,分别是编码器对象,解码器对象,源数据嵌入函数,目标数据嵌入函数,以及输出部分的类别生成器对象"""super(EncoderDecod

好好学习Py·2024-08-30 22:14

Bert中文预训练模型（Bert-base-chinese）

使用importtorchfromtransformersimportBertTokenizer,BertModel#第一步：离线下载#fromtran

好好学习Py·2024-08-30 22:14

Prompt Engineering Concepts

Introduction,ConceptsTextgenerationmodelsgenerationpre-trainedtransformers,GPTforshort.所以呢，前置知识是TransformerAssistants

初梦语雪·2024-08-30 06:59

大模型训练优化方法

本文主要参考HF上的一篇文章：https://huggingface.co/docs/transformers/perf_train_gpu_one，以及笔者在实际训练中的一些经验，给出一些比较实用的方法

少喝冰美式·2024-08-30 05:28

大模型训练和推理

文章目录一、NLP基础1.Tokenizer2.positionencoding3.注意力机制与transformer架构二、大模型训练1.SFT训练2.RLHF训练3.分布式并行训练技术（1）模型并行

李明朔·2024-08-30 01:27

HuggingFace - linux环境修改下载默认缓存路径

_使用huggingface下载bert保存在哪里怎么看-CSDN博客Howtochangehuggingfacetransformersdefaultcachedirectory-StackOverflowlinux

如果曾经拥有·2024-08-30 01:53

【多变量输入超前多步预测】基于Transformer的光伏功率预测研究（Matlab代码实现）

本文目录如下：目录⛳️赠与读者1概述一、Transformer模型概述二、多变量输入三、超前多步预测四、实现步骤五、优势与挑战优势：挑战：六、结论与展望2运行结果3参考文献4Matlab代码、数据⛳️赠与读者‍做科研

科研_G.E.M.·2024-08-29 21:58

[从0开始AIGC][LLM]：Pre-Norm or Post-Norm？训练效率还是训练效果？

Pre-NormorPost-NormPre-NormorPost-Norm1.什么是Pre-Norm和Post-Norm2.为什么Pre-Norm比Post-Norm易于训练2.1Transformer

Way_X·2024-08-29 05:42

AIGC深度学习教程：Transformer模型中的Position Embedding实现与应用

在进入深度学习领域时，Transformer模型几乎是绕不开的话题，而其中的PositionEmbedding更是关键。

玩AI的小胡子·2024-08-29 05:10

TPAMI 2024 | TransVG++：基于语言条件视觉Transformer的端到端视觉定位

题目：TransVG++:End-to-EndVisualGroundingWithLanguageConditionedVisionTransformerTransVG++：基于语言条件视觉Transformer

小白学视觉·2024-08-29 00:33

论文：Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks

论文：Retrieval-AugmentedGenerationforKnowledge-IntensiveNLPTaskscode:https://github.com/huggingface/transformerscode

Ian_Wonder·2024-08-28 18:27

【好书分享第十期】大模型应用解决方案_基于ChatGPT和GPT-4等Transformer架构的自然语言处理（文末送书）

文章目录前言一、内容简介二、作者简介三、目录四、摘录粉丝福利前言在不到4年的时间里，Transformer模型以其强大的性能和创新的思想，迅速在NLP社区崭露头角，打破了过去30年的记录。

屿小夏·2024-08-28 14:56

Python深度学习：构建下一代智能系统

为了帮助广大学员更加深入地学习人工智能领域最近3-5年的新理论与新技术，本文讲解注意力机制、Transformer模型（BERT、GPT-1/2/3/3.5/4、DETR、ViT、SwinTransformer

2401_83402415·2024-08-28 10:04

回归预测|基于鲸鱼优化WOA-Transformer-BiLSTM组合模型的数据回归预测Matlab程序多特征输入单输出

回归预测|基于鲸鱼优化WOA-Transformer-BiLSTM组合模型的数据回归预测Matlab程序多特征输入单输出文章目录前言时序预测|基于鲸鱼优化WOA-Transformer-BiLSTM组合模型的数据时序预测

机器不会学习CL·2024-08-28 02:14

讲解如何使用RAG（检索增强生成）和LLM（大语言模型）来构建一个法律咨询网站。

2.环境配置安装必要的Python库：pipinstallopenaifaiss-cpusentence-transformersflask二、设计系统架构整个系统将包括以下几个部分：前端：用户输入问题和上传文件的界面

winfredzhang·2024-08-27 12:44

深度学习学习经验——变换器（Transformer）

变换器（Transformer）变换器（Transformer）是一种用于处理序列数据的深度学习模型，与循环神经网络（RNN）不同，它不依赖于顺序处理数据，而是依靠一种称为注意力机制（AttentionMechanism

Linductor·2024-08-26 19:44

CVPR2024部分研究方向文章梳理（持续更新中）

CVPR2024部分研究方向文章梳理（持续更新中）长尾分布（Long-Tailed）DeiT-LT:DistillationStrikesBackforVisionTransformerTrainingonLong-TailedDatasets

路漫漫独求索·2024-08-26 14:12

神经网络微调技术全解（02）-针对每种微调技术的具体实施示例（含代码）

python复制代码fromtransformersimportBertModel,AdapterConfig,AdapterModel#加载预训练的BERT模型model=BertModel.from_pretrai

技术与健康·2024-08-26 11:20

推荐频道

Transformer论文学习