transformer论文解读第2页

全新 Hopper 架构的Transformer 引擎有什么特点？

Transformer引擎是全新Hopper架构的一部分，将显著提升AI性能和功能，并助力在几天或几小时内训练大型模型。

扫地的小何尚·2025-01-18 17:50

BERT详解

1.背景结构1.1基础知识BERT（BidirectionalEncoderRepresentationsfromTransformers）是谷歌提出，作为一个Word2Vec的替代者，其在NLP领域的

comli_cn·2025-01-18 17:18

1.4走向不同：GPT 与 BERT 的选择——两大NLP模型的深度解析

走向不同：GPT与BERT的选择——两大NLP模型的深度解析在自然语言处理（NLP）领域，GPT（GenerativePretrainedTransformer）和BERT（BidirectionalEncoderRepresentationsfromTransformers

少林码僧·2025-01-18 16:12

第83期 | GPTSecurity周报

GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。

云起无垠·2025-01-18 16:11

NVIDIA Hopper 架构深入

主要新功能包括：2.新的transformer引擎结合使用软件和定制

RZer·2025-01-18 16:40

使用神经网络拟合6项参数

使用神经网络拟合6项参数1.数据预处理1.1添加参数解析1.2数据预处理逻辑1.3数据归一化及划分1.4数据标签处理逻辑1.5数据转torch2.定义model2.1CNN_LSTM2.2Transformer3

Andrew_Xzw·2025-01-18 15:06

【大模型LoRa微调】Qwen2.5 Coder 指令微调【代码已开源】

~~~https://github.com/LFF8888/FF-Studio-Resources第001个文件哦~一、引言：大语言模型与指令微调1.1大语言模型发展简史随着深度学习的飞速发展，特别是Transformer

FF-Studio·2025-01-18 07:31

Transformer 架构对比：Dense、MoE 与 Hybrid-MoE 的优劣分析

1.LLM基础架构类型DenseTransformerMoE(MixtureofExperts)TransformerHybrid-MoETransformer2.Transformer按照编码方式分类单向自回归模型

XianxinMao·2025-01-18 05:21

第78期 | GPTSecurity周报

GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。

·2025-01-18 05:13

ACL 2024 | 美团技术团队精选论文解读

本文精选了美团技术团队被ACL2024收录的4篇论文进行解读，论文内容覆盖了训练成本优化、投机解码、代码生成优化、指令微调（IFT）等技术领域。这些论文是美团技术团队跟高校、科研机构合作的成果。希望能给从事相关研究工作的同学带来一些帮助或启发。ACL是计算语言学和自然语言处理领域最重要的顶级国际会议，由国际计算语言学协会组织，每年举办一次。据谷歌学术计算语言学刊物指标显示，ACL影响力位列第一，是

·2025-01-18 05:12

【YOLOv8改进- Backbone主干】YOLOv8更换主干网络之ConvNexts，纯卷积神经网络，更快更准，，降低参数量！

YOLOv8有效改进系列及项目实战目录包含卷积，主干注意力，检测头等创新机制以及各种目标检测分割项目实战案例专栏链接:YOLOv8基础解析+创新改进+实战案例介绍摘要视觉识别的“咆哮20年代”开始于视觉Transformer

YOLO大师·2025-01-18 02:59

第81期 | GPTSecurity周报

GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。

·2025-01-18 01:02

第83期 | GPTSecurity周报

GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。

·2025-01-18 00:26

Time-LLM ：超越了现有时间序列预测模型的学习器

福安德信息科技·2025-01-17 23:38

注意力池化层：从概念到实现及应用

多头注意力机制（MultiheadAttention）是Transformer模型的核心，它通过多个注意力头来捕捉序列中不同部分之间的关系。

专业发呆业余科研·2025-01-17 21:39

LTX-Video 高效视频生成模型，一键处理图片&文字

LTX-Video是由Lightricks在2024年开发的一种视频生成模型，这种模型采用了transformer和Video-VAE技术，能够高效生成高分辨率视频。

·2025-01-17 20:21

第79期 | GPTSecurity周报

GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。

·2025-01-17 19:08

KDD 2024 | 美团技术团队精选论文解读 & 论文分享会预告

ACMSIGKDD（KnowledgeDiscoveryandDataMining，简称KDD）是数据挖掘领域的国际顶级会议。KDDCup比赛是由SIGKDD主办的数据挖掘研究领域的国际顶级赛事，从1997年开始，每年举办一次，是目前数据挖掘领域最有影响力的赛事。本文精选了美团技术团队被KDD2024收录的5篇长文进行解读，覆盖了用户意图感知、机器学习&运筹优化、在线控制实验、联合广告模型、实时调

·2025-01-17 19:29

深度定制：Embedding与Reranker模型的微调艺术

微调过程可以使用不同的库和框架来实现，例如sentence-transformers库，它提供了便捷的API来调整Embeddin

从零开始学习人工智能·2025-01-17 15:22

开源人工智能模型框架：探索与实践

通过对多个主流开源框架，如TensorFlow、PyTorch、Keras、Detectron2、OpenCV、HuggingFaceTransformers、AllenNLP、MindSpore和Fastai

CodeJourney.·2025-01-17 12:27

如何学习Transformer架构

Transformer架构自提出以来，在自然语言处理领域引发了革命性的变化。作为一种基于注意力机制的模型，Transformer解决了传统序列模型在并行化和长距离依赖方面的局限性。

fydw_715·2025-01-17 10:07

pip install transformers教程

直接pipinstalltransformers会报错，报错内容如下：Collectingsafetensors>=0.3.1(fromtransformers)Usingcachedsafetensors

养一只Trapped_beast·2025-01-17 09:26

北大新模型FAN：新型神经网络架构，填补周期性特征建模空白

然而，传统的神经网络模型，如多层感知器（MLP）和Transformer，在周期性建模方面却存在明显不足。

海森大数据·2025-01-17 07:11

MiniMax开源，突破传统Transformer架构，震撼业界

国产大模型市场再掀巨浪，传统Transformer架构或许将不再是唯一选择。

·2025-01-17 01:18

从RNN到Transformer：生成式AI技术演变与未来展望

从传统的递归神经网络（RNN）到革命性的Transformer架构，本文将全面剖析这一技术发展历程。

非著名架构师·2025-01-17 00:42

211本硕二战腾讯大模型算法岗，已凉......

八股，双向transformerencoder结构，

AI大模型入门·2025-01-16 21:47

手撕Transformer -- Day2 -- Embdding

手撕Transformer–Day2–Embdding目录手撕Transformer--Day2--EmbddingTransformer网络结构图代码Part1库函数Part2实现嵌入以及位置编码，作为一个类

小菜鸟博士·2025-01-16 21:45

VLM 系列——Qwen2 VL——论文解读——前瞻（源码解读）

一、概述1、是什么是一系列多模态大型语言模型（MLLM），其中包括2B、7B、72B三个版本，整体采用视觉编码器+LLM形式（可以认为没有任何投射层）。比较创新的是图像缩放方式+3DLLM位置编码+（预估后面的训练方式也不太一样）。能够处理包括文本、图像在内的多种数据类型，具备图片描述、单图文问答、多图问对话、视频理解对话、json格式、多语言、agent、高清图理解（代码编写和debug论文暂时

TigerZ*·2025-01-16 18:48

一起学Hugging Face Transformers（8）- 使用Transformers 库制作一个简易问答系统

HuggingFaceTransformers库是一个强大的工具，它提供了许多预训练的自然语言处理模型，简化了构建问答系统的过程。本文将介绍如何使用Huggi

做个天秤座的程序猿·2025-01-16 17:35

Hugging Face Transformers 库学习提纲

文章目录前言一、[基础概念](https://blog.csdn.net/kljyrx/article/details/139984730)二、[环境准备](https://blog.csdn.net/kljyrx/article/details/140006571)三、库的基本使用四、高级应用五、实践案例六、生态系统和工具七、社区与资源八、进阶学习总结前言HuggingFaceTransform

做个天秤座的程序猿·2025-01-16 17:05

不科学上网使用Hugging Face的Transformers库

参考ProgramSynthesiswithCodeGen—ROCmBlogs(amd.com)HF-Mirror-Huggingface镜像站https://huggingface.co/docs/transformers

109702008·2025-01-16 16:02

BART&BERT

BART和BERT都是基于Transformer架构的预训练语言模型。

Ambition_LAO·2024-09-16 07:02

季风泯灭的季节·2024-09-16 04:13

轻量级模型解读——轻量transformer系列

文章目录1、DeiT2、ConViT3、Mobile-Former4、MobileViTTransformer是2017谷歌提出的一篇论文，最早应用于NLP领域的机器翻译工作，Transformer解读

lishanlu136·2024-09-16 01:18

探索创新科技： Lite-Mono - 简约高效的小型化Mono框架

探索创新科技：Lite-Mono-简约高效的小型化Mono框架Lite-Mono[CVPR2023]Lite-Mono:ALightweightCNNandTransformerArchitectureforSelf-SupervisedMonocularDepthEstimation

杭律沛Meris·2024-09-15 21:38

解决BERT模型bert-base-chinese报错（无法自动联网下载）

二、网站google-bert(BERTcommunity)Thisorganizationismaintainedbythetransformerstea

搬砖修狗·2024-09-15 13:47

车载以太网之SOME/IP

发展历程AUTOSAR4.0-完成宝马SOME/IP消息的初步集成；AUTOSAR4.1-支持SOME/IP-SD及其发布/订阅功能；AUTOSAR4.2-添加transformer用于序列化以及其他相关优化

IT_码农·2024-09-15 10:20

基于深度学习的农作物病害检测

基于深度学习的农作物病害检测利用卷积神经网络（CNN）、生成对抗网络（GAN）、Transformer等深度学习技术，自动识别和分类农作物的病害，帮助农业工作者提高作物管理效率、减少损失。

SEU-WYL·2024-09-15 06:51

【笔记】扩散模型（七）：Latent Diffusion Models（Stable Diffusion）论文解读与代码实现

论文链接：High-ResolutionImageSynthesiswithLatentDiffusionModels官方实现：CompVis/latent-diffusion、CompVis/stable-diffusion这一篇文章的内容是LatentDiffusionModels（LDM），也就是大名鼎鼎的StableDiffusion。先前的扩散模型一直面临的比较大的问题是采样空间太大，学

LittleNyima·2024-09-15 00:42

多模态Transformer之文本与图像联合建模 - Transformer教程

大家好，今天我们来聊聊一个既前沿又有趣的话题——多模态Transformer，特别是文本与图像的联合建模。

shandianfk_com·2024-09-14 22:52

transformer架构(Transformer Architecture)原理与代码实战案例讲解

transformer架构(TransformerArchitecture)原理与代码实战案例讲解关键词：Transformer,自注意力机制,编码器-解码器,预训练,微调,NLP,机器翻译作者：禅与计算机程序设计艺术

AI架构设计之禅·2024-09-14 16:47

多模态大模型微调Qwen-VL微调及日志

%pipinstallmodelscope-U%pipinstalltransformersacceleratetiktoken-U%pipinstalleinopstransformers_stream_generator-U

Messi^·2024-09-14 15:10

英伟达（NVIDIA）B200架构解读

H100芯片是一款高性能AI芯片，其中的TransformerEngine是专门用于加速Transformer模型计算的核心部件。

weixin_41205263·2024-09-14 14:31

大规模语言模型的书籍分享，从零基础入门到精通非常详细收藏我这一篇就够了

第一点是可拓展的训练架构与学习范式:Transformer架构能够拓展到百亿、千亿甚至万亿参数规模，并且将预训练任务统一为预测下一个词这一通用学习范式;第二点是对于数据质量与数据规模的重视:不同于BERT

黑客-雨·2024-09-13 10:05

QLoRa使用教程

https://huggingface.co/docs/peft/main/en/developer_guides/quantization案例11.4bit量化+LoRaimporttorchfromtransformersimportBitsAndBytesConfigconfig

云帆@·2024-09-13 03:12

【Tools】大模型中的BERT概念

摇来摇去摇碎点点的金黄伸手牵来一片梦的霞光南方的小巷推开多情的门窗年轻和我们歌唱摇来摇去摇着温柔的阳光轻轻托起一件梦的衣裳古老的都市每天都改变模样方芳《摇太阳》BERT（BidirectionalEncoderRepresentationsfromTransformers

音乐学家方大刚·2024-09-12 19:26

Transformer模型：WordEmbedding实现

前言最近在学Transformer，学了理论的部分之后就开始学代码的实现，这里是跟着b站的up主的视频记的笔记，视频链接：19、Transformer模型Encoder原理精讲及其PyTorch逐行实现

Galaxy.404·2024-09-12 17:42

【Vidu发布】中国首个长时长、高一致性、高动态性Video AI大模型

该模型采用生数科技团队原创的Diffusion与Transformer融合的架构U-ViT。

叶锦鲤·2024-09-12 13:44

论文翻译：arxiv-2022 Ignore Previous Prompt: Attack Techniques For Language Models

AttackTechniquesForLanguageModelshttps://arxiv.org/pdf/2211.09527忽略之前的提示：针对语言模型的攻击技术文章目录忽略之前的提示：针对语言模型的攻击技术摘要1引言摘要基于Transformer

CSPhD-winston-杨帆·2024-09-12 12:14

【Qwen2部署实战】Qwen2初体验：用Transformers打造智能聊天机器人

系列篇章No.文章1【Qwen部署实战】探索Qwen-7B-Chat：阿里云大型语言模型的对话实践2【Qwen2部署实战】Qwen2初体验：用Transformers打造智能聊天机器人3【Qwen2部署实战

寻道AI小兵·2024-09-12 06:09

推荐频道

transformer论文解读

全新 Hopper 架构的Transformer 引擎有什么特点？

BERT详解

1.4走向不同：GPT 与 BERT 的选择——两大NLP模型的深度解析

第83期 | GPTSecurity周报

NVIDIA Hopper 架构深入

使用神经网络拟合6项参数

【大模型LoRa微调】Qwen2.5 Coder 指令微调【代码已开源】

Transformer 架构对比：Dense、MoE 与 Hybrid-MoE 的优劣分析

第78期 | GPTSecurity周报

ACL 2024 | 美团技术团队精选论文解读

【YOLOv8改进- Backbone主干】YOLOv8更换主干网络之ConvNexts，纯卷积神经网络，更快更准，，降低参数量！

第81期 | GPTSecurity周报

第83期 | GPTSecurity周报

Time-LLM ：超越了现有时间序列预测模型的学习器

注意力池化层：从概念到实现及应用

LTX-Video 高效视频生成模型，一键处理图片&文字

第79期 | GPTSecurity周报

KDD 2024 | 美团技术团队精选论文解读 & 论文分享会预告

深度定制：Embedding与Reranker模型的微调艺术

开源人工智能模型框架：探索与实践

如何学习Transformer架构

pip install transformers教程

北大新模型FAN：新型神经网络架构，填补周期性特征建模空白

MiniMax开源，突破传统Transformer架构，震撼业界

从RNN到Transformer：生成式AI技术演变与未来展望

211本硕二战腾讯大模型算法岗，已凉......

手撕Transformer -- Day2 -- Embdding

VLM 系列——Qwen2 VL——论文解读——前瞻（源码解读）

一起学Hugging Face Transformers（8）- 使用Transformers 库制作一个简易问答系统

Hugging Face Transformers 库学习提纲

不科学上网使用Hugging Face的Transformers库

BART&BERT

AI大模型的架构演进与最新发展

轻量级模型解读——轻量transformer系列

探索创新科技： Lite-Mono - 简约高效的小型化Mono框架

解决BERT模型bert-base-chinese报错（无法自动联网下载）

车载以太网之SOME/IP

基于深度学习的农作物病害检测

【笔记】扩散模型（七）：Latent Diffusion Models（Stable Diffusion）论文解读与代码实现

多模态Transformer之文本与图像联合建模 - Transformer教程

transformer架构(Transformer Architecture)原理与代码实战案例讲解

多模态大模型微调Qwen-VL微调及日志

英伟达（NVIDIA）B200架构解读

大规模语言模型的书籍分享，从零基础入门到精通非常详细收藏我这一篇就够了

QLoRa使用教程

【Tools】大模型中的BERT概念

Transformer模型：WordEmbedding实现

【Vidu发布】中国首个长时长、高一致性、高动态性Video AI大模型

论文翻译：arxiv-2022 Ignore Previous Prompt: Attack Techniques For Language Models

【Qwen2部署实战】Qwen2初体验：用Transformers打造智能聊天机器人