TRansformer 第16页

【AIGC入门一】Transformers 模型结构详解及代码解析

Transformers开启了NLP一个新时代，注意力模块目前各类大模型的重要结构。作为刚入门LLM的新手，怎么能不感受一下这个“变形金刚的魅力”呢？

不想动脑筋的亮亮·2024-01-16 15:59

ChatGPT ：国内免费可用 ChatGPT +Midjourney绘图

前言ChatGPT（全名：ChatGenerativePre-trainedTransformer），美国OpenAI研发的聊天机器人程序，于2022年11月30日发布。

偷拨网线的william·2024-01-16 15:29

【大模型】大语言模型前沿技术系列讲座-学习笔记2：Transformer -＞ChatGPT

最近参加了深蓝学院举办的《大型语言模型前沿技术系列分享》，该系列分享以大模型(LLM)为背景，以科普、启发为目的，从最基本的Transformer开始讲起，逐步涉及一些更高阶更深入的课题，涵盖大模型基础

不雨_亦潇潇·2024-01-16 15:28

EOCR-CT电流互感器与SR-CT区别简介

电流互感器CT是（CurrentTransformers）的缩写，是将一次测的大电流，按比列变为适合通过测量仪表或保护装置的变换设备。

上海韩施电气中国区总代·2024-01-16 15:22

Transformers 中原生支持的量化方案概述

转载自：https://huggingface.co/blog/zh/overview-quantization-transformers文章目录资源bitsandbytes与auto-gptq之比较bitsandbytes

小然爱看·2024-01-16 15:20

Mindspore 公开课 - BERT

而非模型架构，便可以在下游任务中达到很好的效果；相比于GPT，BERT在处理词元表示时考虑到了双向上下文的信息；BERT结构BERT（BidirectionalEncoderRepresentationfromTransformers

coyote_xujie·2024-01-16 10:37

开源项目汇总：机器学习前沿探索 | 开源专题 No.60

facebookresearch/xformersStars:6.0kLicense:NOASSERTIONxFormers是一个加速Transformer研究的工具包，主要功能如下：可自定义构建模块：

开源服务指南·2024-01-16 10:01

GPT的版本发展历史及特点

版本介绍GPT（GenerativePre-trainedTransformer）是一系列基于Transformer架构的预训练语言模型，由OpenAI推出。

图灵追慕者·2024-01-16 09:26

自然语言中的神经网络基础（1）

本文介绍在自然语言处理中常用的四种神经网络模型，即多层感知机模型、卷积神经网络、循环神经网络和以Transformer为代表的自注意力模型。

makelope·2024-01-16 07:48

【论文分享】TCCT: Tightly-coupled convolutional transformer on time series forecasting

TCCT:时间序列预测的紧耦合卷积Transformer提高Transformer的效率和增强局部性，将Transformer与CNN进行了不同程度的结合。

Holy姜姜·2024-01-16 06:58

MHFormer 论文解读

目录Multi-HypothesisTransformer结果Introduction&Relatedwork多假设为什么作者提出这个模型？

AI视觉网奇·2024-01-16 03:59

Embedding：数据的奇妙之变

一、向量Embedding与ChatGPT大模型ChatGPT大模型是OpenAI开发的一种基于Transformer架构的预训练语言模型。它在大规模语料库上进行了训练，可以

千与编程·2024-01-16 02:36

GPT有什么用？对哪些行业帮助比较大？无际Ai带来介绍

GPT是“GenerativePre-trainedTransformer”的缩写。

无际Ai·2024-01-16 01:53

Mindspore 公开课 - prompt

prompt介绍Fine-TuningtoPromptLearningPre-train,Fine-tuneBERTbidirectionaltransformer，词语和句子级别的特征抽取，注重文本理解

coyote_xujie·2024-01-15 22:12

作业（2）

基础作业：复现课程知识库助手搭建过程(截图)配置好前面的环境后，下载sentence-transformers模型向量数据库的构建与固定：构建web端的代码最终出现的效果与互动进阶作业：选择一个垂直领域

亲爱的阿基米德^·2024-01-15 21:13

LLM主流框架：Causal Decoder、Prefix Decoder和Encoder-Decoder

本文将介绍如下内容：transformer中的mask机制CausalDecoderPrefixDecoderEncoderDecoder总结一、transformer中的mask机制在Transformer

TFATS·2024-01-15 17:53

论文阅读 Vision Transformer - VIT

文章目录1摘要1.1核心2模型架构2.1概览2.2对应CV的特定修改和相关理解3代码4总结1摘要1.1核心通过将图像切成patch线形层编码成token特征编码的方法，用transformer的encoder

highoooo·2024-01-15 16:06

【文本分类】Attention Is All You Need

·阅读摘要：本文于2017年6月发布，属于Transformer模型的开山之作，地位不言而喻。

征途黯然.·2024-01-15 16:09

Transformer原理与代码实现

Transformer原理与代码实现概览一、嵌入层`Embedding`二、位置编码`PositionalEncoding`三、（整合）Transformer嵌入层`TransformerEmbedding

征途黯然.·2024-01-15 16:33

ChatGPT 和文心一言的优缺点及需求和使用场景

ChatGPT（GenerativePre-trainedTransformer）是由OpenAI开发的生成式AI模型，它在庞大的文本数据集上进行了预训练，并可以根据输入生成具有上下文和逻辑性的回复。

csdn_aspnet·2024-01-15 14:02

chatgpt和文心一言哪个更好用

一、智能回复ChatGPT：ChatGPT是一种基于Transformer的深度学习模型，它能够通过上下文理解对话，并产生相应的回复。与传统的聊天机器人

前端御书房·2024-01-15 14:58

LLM模型的generate和chat函数区别

在HuggingFace的transformers库中，GPT（GenerativePre-trainedTransformer）类的模型有两个常用的生成文本的方法：generate和chat。

NLP工程化·2024-01-15 11:35

多特征变量序列预测(三)——CNN-Transformer风速预测模型

目录往期精彩内容：前言1多特征变量数据集制作与预处理1.1导入数据1.2数据集制作与预处理2基于Pytorch的CNN-Transformer预测模型2.1定义CNN-Transformer预测模型2.2

建模先锋·2024-01-15 10:05

实例分割模型Mask2Former解析

论文：《Masked-attentionMaskTransformerforUniversalImageSegmentation》https://arxiv.org/abs/2112.01527代码地址

交换喜悲·2024-01-15 09:15

WordPiece和SentencePiece区别

BERT（BidirectionalEncoderRepresentationsfromTransformers）模型的分词器通常使用子词级别的分词方法，其中最常用的分词器包括WordPiece和SentencePiece

hema12138·2024-01-15 08:26

TRB 2024论文分享：基于生成对抗网络和Transformer模型的交通事件检测混合模型

TRB（TransportationResearchBoard，美国交通研究委员会，简称TRB）会议是交通研究领域知名度最高学术会议之一，近年来的参会人数已经超过了2万名，是参与人数和国家最多的学术盛会。TRB会议几乎涵盖了交通领域的所有主题，主要包括公路、铁路、水运、航空、管道等诸多领域，接收来自交通系统、交通工程、交通政策、交通管理、交通实际操作、政府研究、学术研究和工业界最新的研究成果。TR

audyxiao001·2024-01-15 08:21

经典论文学习：Attention Is All You Need（Transformer）

1，概述《AttentionIsAllYouNeed》是一篇由GoogleDeepMind团队在2017年发表的论文，该论文提出了一种新的神经网络模型，称为Transformer模型，用于自然语言处理任务

才能我浪费·2024-01-15 07:37

论文阅读：Attention is all you need

【最近课堂上Transformer之前的DL基础知识储备差不多了，但学校里一般讲到Transformer课程也接近了尾声；之前参与的一些科研打杂训练了我阅读论文的能力和阅读源码的能力，也让我有能力有兴趣对最最源头的论文一探究竟

__心似大海__·2024-01-15 07:31

【论文精读CVPR_2023】Face Transformer: Towards High Fidelity and Accurate Face Swapping

【论文精读CVPR_2023】FaceTransformer:TowardsHighFidelityandAccurateFaceSwapping一、前言Abstract1.Introduction2.

旋转的油纸伞·2024-01-15 03:43

FlashAttention燃爆显存，Transformer上下文长度史诗级提升...

转载自|新智元继超快且省内存的注意力算法FlashAttention爆火后，升级版的2代来了。FlashAttention-2是一种从头编写的算法，可以加快注意力并减少其内存占用，且没有任何近似值。比起第一代，FlashAttention-2速度提升了2倍。甚至，相较于PyTorch的标准注意力，其运行速度最高可达9倍。一年前，StanfordAILab博士TriDao发布了FlashAttent

风度78·2024-01-15 03:42

Transformer：深度学习的新篇章

扫码进群领资料Transformer，这个曾经默默无闻的深度学习模型，如今已经成为自然语言处理领域一颗耀眼的明星。从最初的机器翻译任务到如今

人工智能的光信号·2024-01-15 00:36

GPT如此火爆的几个重要原因

GPT即“GenerativePre-trainedTransformer”的缩写，是一种基于Transformer模型的大规模预训练语言模型。它由OpenAI开发，并在2018年首次发布。

广州硅基技术官方·2024-01-14 22:04

AI大模型学习笔记一：transformer和fine tune技术介绍

一、商业观点：企业借助大模型获得业务增长可能二、底层原理：transformer1）备注①下面每个步骤都是自回归的过程（aotu-regressive）：已输出内容的每个字作为输入，一起生成下一个字②合起来就是

谢白羽·2024-01-14 22:53

GAT网络为什么占用那么多的显存

GAT网络显存占用原因分析（非专业，纯个人理解）1：GAT的注意力机制2：为什么transformer就可以有很长的输入本blog主要聚焦以下几点：GAT为什么占用那么多的显存，尤其是在节点多的时候Transformer

无穷升高的卡农·2024-01-14 22:19

自然语言处理学习笔记（通俗白话）

自然语言处理学习笔记1，Transformer2，注意力机制3，卷积网络为什么要用多个卷积核进行图像处理？

小威程序员·2024-01-14 22:13

AAAI 2024｜ETH轻量化Transformer最新研究，浅层MLP完全替换注意力模块提升性能

论文题目：RethinkingAttention:ExploringShallowFeed-ForwardNeuralNetworksasanAlternativetoAttentionLayersinTransformers

TechBeat人工智能社区·2024-01-14 20:13

AAAI 2021最佳论文《Informer》作者：Transformer 最新进展

作者：周号益，彭杰奇单位：北京航空航天大学自2017年，AshishVaswani等人在《AttentionIsAllYouNeed》这篇文章种提出了Transformer模型后，BERT等工作极大地扩展了该模型在

智源社区·2024-01-14 20:12

AAAI 2021 | 机器翻译最新进展解读

目前基于自注意力机制的Transformer模型成为了机器翻译任务的主流模型，在多个公开测试集上取得了最优的翻译性能。研究人员在此基础上根据不同的应用场景及实际需求进行求解，涌现了大量优秀的研究工作。

智源社区·2024-01-14 20:11

从DETR到Mask2former(2): 损失函数loss function

首先，从huggingface的transformers库中拿出detrsegmen

河北一帆·2024-01-14 19:26

万字长文——搞懂Transformer的来龙去脉

原文：Attentionisallyouneed谷歌团队2017年发表在NIPS简单理解Transformer处理词语的方式：传统的方法是逐个词处理，就像阅读一本书，一次只看一个词。

SQingL·2024-01-14 18:08

大模型实战营Day5 LMDeploy大模型量化部署实践

模型部署定义产品形态计算设备大模型特点内存开销大动态shape结构简单部署挑战设备存储推理速度服务质量部署方案：技术点（模型并行transformer计算和访存优化低比特量化ContinuousBatchPageAttention

流浪德意志·2024-01-14 17:38

NLP论文阅读记录 - 2022 W0S | 基于Longformer和Transformer的提取摘要层次表示模型

4.1数据集4.2对比模型4.3实施细节4.4评估指标4.5实验结果4.6细粒度分析五总结思考前言AHierarchicalRepresentationModelBasedonLongformerandTransformerforExtractiveSummarizat

yuyuyu_xxx·2024-01-14 17:33

SpringJPA的entityManager执行原生SQL

不然查询结果都是大写映射不上实体字段Stringsql="select\"id\",\"name\"fromtableNamewhereid=:id"//构造查询和返回结果到指定VO，返回到map就用Transformers.ALIAS_TO_ENTITY_MAPNativeQueryImplementornativeQuery

爱窦·2024-01-14 17:33

华科提出首个用于伪装实例分割的一阶段框架OSFormer

本篇分享ECCV2022论文『OSFormer:One-StageCamouflagedInstanceSegmentationwithTransformers』，华科Ð提出首个用于伪装实例分割的一阶段

FightingCV·2024-01-14 16:03

transformer的输入到输出（维度以及矩阵计算）

基本的transformer模型框架本期以翻译为一个例子讲述他的训练过程：从输入文本开始：x=早上好y=goodmorningencode部分：inputs的输入(可以是字也可以是词)：x=早上好经过embedding

NLPnoproble·2024-01-14 14:01

[论文精读]Brain Network Transformer

论文网址：[2210.06681]BrainNetworkTransformer(arxiv.org)论文代码：GitHub-Wayfear/BrainNetworkTransformer:Theopen-sourceimplementationoftheNeurIPS2022paperBrainNetworkTransformer

夏莉莉iy·2024-01-14 13:03

[论文精读]Large-scale Graph Representation Learning of Dynamic Brain Connectome with Transformers

论文网址：[2312.14939]Large-scaleGraphRepresentationLearningofDynamicBrainConnectomewithTransformers(arxiv.org

夏莉莉iy·2024-01-14 13:32

计算机视觉-Archer·2024-01-14 13:38

在 Nvidia Docker 容器编译构建显存优化加速组件 xFormers

写在前面xFormers是FaceBookResearch（Meta）开源的使用率非常高的Transformers加速选型，当我们使用大模型的时候，如果启用xFormers组件，能够获得非常明显的性能提升

soulteary·2024-01-14 10:20

【深度学习：Foundation Models】基础模型完整指南

项人工智能原理根据大量数据进行预训练自我监督学习过度拟合微调和快速工程（适应性强）广义的基础模型的用例基础模型的类型计算机视觉基础模型计算机视觉基础模型的示例多模式基础模型多模式基础模型示例生成对抗网络（GAN）GAN的示例基于Transformer

jcfszxc·2024-01-14 10:14

推荐频道

TRansformer