TRansformer 第18页

deformable convolutional networks

转自：点击打开链接上一篇我们介绍了：深度学习方法（十二）：卷积神经网络结构变化——SpatialTransformerNetworks，STN创造性地在CNN结构中装入了一个可学习的仿射变换，目的是增加

麦兜ppig·2024-01-29 02:11

自然语言处理中的注意力机制与Transformer架构

1.背景介绍自然语言处理(NLP)是计算机科学和人工智能领域的一个重要分支，旨在让计算机理解和生成人类语言。自然语言处理的一个重要任务是机器翻译，即将一种自然语言翻译成另一种自然语言。传统的机器翻译方法通常使用规则引擎或统计模型，但这些方法在处理复杂句子和长文本时效果有限。随着深度学习技术的发展，神经网络在自然语言处理领域取得了显著的进展。2017年，Vaswani等人提出了一种新的神经网络架构—

OpenChat·2024-01-29 00:24

vit细粒度图像分类（四）BT-Net学习笔记

1.摘要为了改进在细粒度图像分类过程中类别差异难以提取的问题，本文提出了一种基于Transformer双线性网络的细粒度网络分类优化方法(BT-Net)。

无妄无望·2024-01-28 22:06

显存不够又想用某个模型时的模型量化操作

fromtransformersimportAutoTokenizer,AutoModelForCausalLM,BitsAndBytesConfigquantization_config=BitsAndBytesConfig

鱼鱼9901·2024-01-28 20:00

transformers实现各种NLP任务的流程框架

整理了b站up主的教程，加强对于transformers的使用理解，以及针对各种Nlp任务的训练和评估、推理的流程框架个人代码：https://github.com/yuyu990116/transformers_tutorials

鱼鱼9901·2024-01-28 20:28

Huggingface上传自己的模型

前言Huggingfacetransformer

Q同学的nlp笔记·2024-01-28 18:07

深入理解Transformer模型1

一、简述：transformer是深度学习中极为重要的一种模型。它由编码器(Encoder)和解码器(Decoder)两部分组成。

KDtery35·2024-01-28 18:36

深入了解Transformer架构

1.背景介绍1.背景介绍自2017年的AttentionisAllYouNeed论文发表以来，Transformer架构已经成为深度学习领域的一大突破。

OpenChat·2024-01-28 18:06

LLM之llm-viz：llm-viz(3D可视化GPT风格LLM)的简介、安装和使用方法、案例应用之详细攻略

llm-viz的安装和使用方法llm-viz的案例应用1、三维可视化nano-GPT进而理解Transformer内在机制llm-viz的简介2023年3月，软件工程师BrendanBycroft开发了

一个处女座的程序猿·2024-01-28 13:29

预训练语言模型transformer

预训练语言模型的学习方法有三类：自编码（auto-encode,AE)、自回归（autoregressive,AR），Encoder-Decoder结构。决定PTM模型表现的真正原因主要有以下几点：更高质量、更多数量的预训练数据增加模型容量及复杂度，例如GoogleT5增加纵向复杂度，ALBERT增加横向复杂度，GPT3结合两者。更充分地训练模型，例如RoBERTa，增大batch_size和ep

Icevivina·2024-01-28 11:48

51-17 视频理解串讲— MViT 论文精读

继TimeSformer模型之后，咱们再介绍两篇来自FacebookAI的论文，即MultiscaleVisionTransformers以及改进版MViTv2:ImprovedMultiscaleVisionTransformersforClassificationandDetection

深圳季连AIgraphX·2024-01-28 11:45

【GitHub项目推荐--计算机视觉工具箱】【转载】

EasyCV是阿里巴巴开源的基于PyTorch的ComputerVision工具箱，主要专注于自监督学习和Transformer。

旅之灵夫·2024-01-28 11:29

Vision Mamba:将Mamba应用于计算机视觉任务的新模型

来源：DeepHubIMBA本文约1300字，建议阅读5分钟Mamba是LLM的一种新架构，与Transformers等传统模型相比，它能够更有效地处理长序列。

数据派THU·2024-01-28 08:21

【DeepLearning-9】YOLOv5模型网络结构中加入MobileViT模块

但同时，Transformer可能无法充分利

风筝超冷·2024-01-28 08:33

GPT等大语言模型是典型的人机环境交互、协同系统

GPT等大语言模型是一种典型的人机环境交互、协同系统，同时也是一种基于Transformer模型的自然语言处理（NLP）模型，使用了大规模的无监督预训练和有监督微调的方法进行训练。

人机与认知实验室·2024-01-28 06:33

AIGC的底层核心结构Transformer是如何彻底改变NLP游戏规则的？OJAC近屿智能带你一探究竟

OJAC近屿智能·2024-01-28 06:45

【论文笔记】GPT，GPT-2，GPT-3

参考：GPT，GPT-2，GPT-3【论文精读】GPTTransformer的解码器，仅已知"过去"，推导"未来"论文地址：ImprovingLanguageUnderstandingbyGenerativePre-Training

爱学习的卡比兽·2024-01-28 06:44

transformers 部署

由于已经有conda和pycharm，而且感觉python3.6比较老，因此打算安装python3.10，后来发现好像不支持tokenizers，又重新安装python3.9.1、condacreate-nenv_namepython=3.9安装过程出现如下:appearstobecorrupted.Thepath'venvlauncher.exe'处理方式，清理缓存即可condaclean--p

javastart·2024-01-28 05:20

安装SDXL时tokenizers报错

mutTisundefinedbehavior,evenifthereferenceisunused,considerinsteadusinganUnsafeCelltokenizers的版本太低了，升级一下，如0.15.0，同时transformer

Zqchang·2024-01-28 05:18

如何利用ChatGPT提升工作效率？

一、了解ChatGPTChatGPT，全称是“ChatGenerativePre-trainedTransformer”，是由OpenAI开发的一种基于Transformer的

Dxy1239310216·2024-01-28 01:34

手写GPT实现小说生成(二)

做一个小说续写器，即只需要给出一些文本，让模型帮你续写，主要内容包含：模型编写训练适配小说的中文分词器将小说按固定大小拆分生成数据集拆分训练/测试集训练体验小说续写效果同时结合HuggingFace的transformers

愤怒的可乐·2024-01-28 01:25

AI与就业：GPT的广泛使用将如何影响职场生态？

随着人工智能技术的飞速发展，GPT（GenerativePre-trainedTransformer）作为一种强大的自然语言处理工具，已经成为了各行各业关注的焦点。

qq_53915944·2024-01-28 00:15

《自然语言处理的前沿探索：深度学习与大数据引领技术风潮》

词嵌入、循环神经网络（RNN）、Transformer、以及注意力机制等技术成为自然语言处理的引擎，驱动着计算机更好地理解和生成人类语言。

清水白石008·2024-01-28 00:05

自然语言处理中的Transformer架构

Transformer架构是一种新颖的神经网络架构，它在2017年由Vaswani等人提出，并在2018年的论文中得到了广泛应用。Transformer架构的出现为NLP领域带来了革命性的

OpenChat·2024-01-27 23:08

脑电整合器：用于脑电解码和可视化的卷积转换器

脑电整合器：用于脑电解码和可视化的卷积转换器EEGConformer:ConvolutionalTransformerforEEGDecodingandVisualization来源期刊：IEEETRANSACTIONSONNEURALSYSTEMSANDREHABILITATIONENGINEERING

有人学习不瞌睡吗·2024-01-27 22:29

【史上最全之 ChatGPT 和文心一言对比】

接下来，我们将从智能回复、语言准确性以及知识库丰富度等核心维度对二者进行一番细致比较~方向一：ChatGPTChatGPTChatGPT凭借其强大的Transformer架构和大规模训练模型，在智能回复方面展

数据科学与艺术的贺公子·2024-01-27 19:22

数据中心大型AI模型所需的网络需求

随着Transformer的崛起和2023年ChatGPT的大规模应用，业界逐渐形成共识：遵循一定的规模效应原则，增加模型参数量能够显著提升模型性能。

audrey-luo·2024-01-27 19:13

粒子群算法pos优化transformer 时间序列预测

对于Transformer模型，使用粒子群优化（ParticleSwarmOptimization,PSO）进行参数调优是一种策略。

mqdlff_python·2024-01-27 16:40

vit细粒度图像分类（二）SwinFC 学习笔记

基准骨干网络采用具有多阶段层级架构设计的SwinTransformer模型作为全新视觉特征提取器，从中获取局部和全局信息以及多尺度特征。

无妄无望·2024-01-27 13:39

深度学习知识

context阶段和generation阶段的不同context阶段（又称Encoder）主要对输入编码，产生CacheKV(CacheKV实际上记录的是Transformer中Attention模块中

zhuikefeng·2024-01-27 13:08

【DeepLearning-7】 CNN 和Transformer的混合神经网络结构

dim:Transformer部分的特征维度。depth:Transformer的层数。kernel_siz

风筝超冷·2024-01-27 12:52

可能会绕过RNN了

最近看了一些关于nlp技术路线的文章，自从2018年bert之后，nlp的重点似乎已经从rnn转移到transformer。

我的昵称违规了·2024-01-27 10:50

Transformers Tutorial教程3-7

IntroductionTransformers库的一个使用，用这个库就可以很轻松地去使用和训练自己的一个预训练语言模型。

ringthebell·2024-01-27 09:44

Tortoise-tts Better speech synthesis through scaling——TTS论文阅读

【FlowUs息流】tortoise论文地址：BetterspeechsynthesisthroughscalingAbstract:自回归变换器和DDPM：自回归变换器（autoregressivetransformers

pied_piperG·2024-01-27 09:38

解读BEVFormer，新一代CV工作的基石

pipeline[2203.17270]BEVFormer:LearningBird's-Eye-ViewRepresentationfromMulti-CameraImagesviaSpatiotemporalTransformers

哆啦叮当·2024-01-27 08:27

【微调大模型】如何利用开源大模型，微调出一个自己大模型

其中，预训练大模型如Transformer、BERT等，凭借其强大的表示能力和泛化能力，在自然语言处理、计算机视觉等多个领域取得了显著的成功。

yuzhangfeng·2024-01-27 06:53

AI应用快速上手：基于文本的情感分析

本文主要介绍一个基于高通SnapdragonNeuralProcessingEngineSDK和ACL2020MobileBERTTransformer模型的文本情绪分析Android应用程序，该应用的所有源代码都可以在

csdnsqst0050·2024-01-27 03:42

高通AI应用快速上手：基于Transformers的智能问答

本文主要介绍一个基于高通SnapdragonNeuralProcessingEngineSDK和ICLR2020ElectraTransformer模型的智能问答Android应用程序，该应用的所有源代码都可以在

csdnsqst0050·2024-01-27 03:10

五大自然语言处理技术里程碑浅析

而自然语言处理的研究与业界发展中具有五大里程碑式的技术：词嵌入，循环神经网络，Transformer，注意力机制，大语言模型。

Syntax_CD·2024-01-26 21:54

VIT探索笔记（AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE）

探索笔记CodePaper[vit-pytorch](https://github.com/lucidrains/vit-pytorch/tree/main)参看学习bilibili视频11.1VisionTransformer

FMsunyh·2024-01-26 19:34

精选11篇顶会论文，深度学习时间序列预测模型汇总！（含2024最新）

本文精心汇总了11篇深度学习时间序列预测模型的顶会论文，涵盖基于递归神经网络（RNN）、卷积神经网络（CNN）、Transformer架构以及多元时序预测等多种类型的模

AI热心分享家·2024-01-26 18:03

Transformer热门魔改方案汇总！大大提升模型速度与效果！

随着序列长度的增加，Transformer中注意力机制的计算量会持续上升，导致计算代价较高。

AI热心分享家·2024-01-26 18:33

TensorRT-9.0和TensorRT-LLM马上要发布了！

模型部署】技术交流群本文只做学术分享，如有侵权，联系删文TensorRT-9.0和TensorRT-LLM马上要发布了，这里先汇总一下信息，之后会搞，需要注意这俩是两个不一样的东西，后者继承自fastertransformer

自动驾驶之心·2024-01-26 16:52

YOLOv8优化策略：注意力涨点系列篇 | 多尺度双视觉Dualattention | Dual-ViT，顶刊TPAMI 2023

注意yolo，提升小目标检测能力YOLOv8改进专栏：http://t.csdnimg.cn/hGhVK学姐带你学习YOLOv8，从入门到创新，轻轻松松搞定科研；1.原理介绍论文：DualVisionTransformer

会AI的学姐·2024-01-26 15:07

#算法#如何手撸自己的模型，培养思维看这一篇就够了！

以下是一般的步骤：选择模型架构：根据任务的性质和数据的特点，选择适当的模型架构，例如选择使用卷积神经网络（CNN）、循环神经网络（RNN）、自注意力机制（Transformer）等。

向日葵花籽儿·2024-01-26 11:52

Bert Transformer细节总结

常见的attention有几种？Attention的本质就是一种加权机制。一些的常用实现形式如下：attention=f(Q,K)attention=f(Q,K)attention=f(Q,K)多层感知机方法先将Query和Key进行拼接，然后接一个多层感知机。这种方法不需要Query和Key的向量长度相等，Query和Key之间的交互方式是通过学习获得的。f(Q,K)=mlp([Q;K])f(Q

taoqick·2024-01-26 11:51

torch.matmul和torch.bmm区别

torch.matmul可用于4维数组的相乘，而torch.bmm只能用户3维数组的相乘，以/home/tiger/.local/lib/python3.9/site-packages/transformers

taoqick·2024-01-26 11:44

【前沿技术杂谈：NLP技术的发展与应用】探索自然语言处理的未来

【前沿技术杂谈：NLP技术的发展与应用】探索自然语言处理的未来NLP技术的发展与应用：探索自然语言处理的未来方向一：技术进步词嵌入（WordEmbeddings）Transformer架构自然语言推理方向二

jcfszxc·2024-01-26 10:35

论文阅读——Mockingjay: unsupervised speech representation learning

《Mockingjay:UnsupervisedSpeechRepresentationLearningwithDeepBidirectionalTransformerEncoders》原文地址：https

没有热情得活着不如死去·2024-01-26 09:35

【DeepLearning-5】基于Transformer架构的自定义神经网络类

类定义classUserDefined(nn.Module):UserDefined是一个自定义的神经网络类，继承自PyTorch的nn.Module基类。构造函数__init__def__init__(self,dim,depth,heads,dim_head,mlp_dim,dropout=0.):__init__方法是类的构造函数，用于初始化UserDefined实例。dim:特征的维度。d

风筝超冷·2024-01-26 09:02

推荐频道

TRansformer