Transformer论文学习第25页

Long-Context下LLM模型架构全面介绍

深度学习自然语言处理原创作者：cola随着ChatGPT的快速发展，基于Transformer的大型语言模型(LLM)为人工通用智能(AGI)铺平了一条革命性的道路，并已应用于知识库、人机界面和动态代理等不同领域

大数据AI人工智能培训专家培训讲师叶梓·2023-12-24 01:31

LLaMA开源大模型源码分析！

Datawhale干货作者：宋志学，Datawhale成员花了一晚上照着transformers仓库的LLaMA源码，把张量并行和梯度保存的代码删掉，只留下模型基础结构，梳理了一遍LLaMA的模型结构。

Datawhale·2023-12-23 16:17

再见卷积神经网络，使用 Transformers 创建计算机视觉模型

本文旨在介绍/更新Transformers背后的主要思想，并介绍在计算机视觉应用中使用这些模型的最新进展。读完这篇文章，你会知道……为什么Transformers在NLP任务中的表现优于SOTA模型。

AAI机器之心·2023-12-23 14:13

图像融合论文阅读笔记：SwinFusion: Cross-domain Long-range Learning for General Image Fusion via Swin Transforme

article{ma2022swinfusion,title={SwinFusion:Cross-domainlong-rangelearningforgeneralimagefusionviaswintransformer

qiang42·2023-12-23 13:24

基于ChatGLM搭建专业领域问答机器人的思路

下面提出一个专业医学问题交于ChatGLM回答，代码如下：fromtransformer

新知图书·2023-12-23 12:52

VGG 论文学习

题目：VERYDEEPCONVOLUTIONALNETWORKSFORLARGE-SCALEIMAGERECOGNITION题目译:大规模图像识别的的深度卷积神经网络作者:KarenSimonyan∗&AndrewZisserman+VisualGeometryGroup,DepartmentofEngineeringScience,UniversityofOxford研究背景：ILSVRC-20

奋斗的bobo·2023-12-23 10:09

HW4 Speaker classification-SIMPLE (TRANSFORMER)

TaskdescriptionClassifythespeakersofgivenfeatures.Maingoal:Learnhowtousetransformer.Baselines:Easy:R

闪闪发亮的小星星·2023-12-23 10:20

LLM之RAG实战（六）| 高级RAG 02：选择最佳embedding和重排序模型

我们有多种embedding模型可供选择，包括OpenAI、CohereAI和开源sentencetransformers。

wshzd·2023-12-23 09:27

huggingface报错记录

1.OSError:Unabletoloadweightsfrompytorchcheckpointfilefor'/mnt/workspace/wzf/transformer/model/vit-gpt2

小趴菜日记·2023-12-23 07:49

大语言模型的三种主要架构 Decoder-Only、Encoder-Only、Encoder-Decoder

现代大型语言模型（LLM）的演变进化树，如下图：https://arxiv.org/pdf/2304.13712.pdf基于Transformer模型以非灰色显示：decoder-only模型在蓝色分支

Charles_yy·2023-12-23 06:35

transformer系列之空间复杂度

一、加载阶段该阶段是指将模型加载进GPU的状态；该阶段仅仅需要计算模型的参数量足以；transformer模型由lll个相同的层组成，每个层分为两部分：self-attention块和MLP块，如图所示

Takoony·2023-12-23 04:47

一个小例子搞懂transformer中的label smoothing(标签平滑)

我们知道transformer中的正则化除了使用常见的dropout，还使用了labelsmoothing，也就是标签平滑。

前行的zhu·2023-12-23 02:51

image caption 必看论文，模型整理

基础模型transformers-attentionisallyouneed细节笔记论文笔记几个重点1.架构图2.attention原理attention机制中的query,key,value的概念解释

MIngo的成长·2023-12-23 01:16

vit-transfomers 逐段精读

VisionTransformerExplained|PapersWithCode有趣的特性在cnn中处理的不太好，但是在transformers都能处理的很好的例子。

MIngo的成长·2023-12-23 01:16

DETR 【目标检测里程碑的任务】

paperwithcode-DETR标题End-to-EndObjectDetectionwithTransformersend-to-end意味着去掉了NMS的操作（生成很多的预测框，nms去掉冗余的预测框

MIngo的成长·2023-12-23 01:44

看过的最棒的一篇对Transformer的理解，适合基础少的小白

引言如今爆火的大模型，GPT-3，BERT等，通过大量的参数和数据，为我们提供了前所未有的自然语言处理能力，使得机器能够更好地理解和生成人类的语言。而注意力机制无疑是重要的基石之一，作为一种新的神经网络结构，使得模型能够更好地捕捉序列中的长距离依赖关系，从而大大提高了模型的性能。本文将从通俗和学术两个角度，详细介绍大模型和注意力机制的基础知识。无论你是对人工智能感兴趣的初学者，还是寻求深入理解的开

没有竹蜻蜓的小叮当·2023-12-23 00:09

24、DHFormer :残差模块+Transformer，用了之后[腰不酸腿不疼了]，世界一下子变得清晰了！

论文：《DHFormer:AVisionTransformer-BasedAttentionModuleforImageDehazing》本文由昌迪加尔大学于2023年12月15日发表于arXiv的《ComputerScience

是馒头阿·2023-12-22 17:19

16、佛罗里达理工学院提出：seUNet:自动化医学图像分割领域极致的个人英雄主义

三位作者鉴于自动化医学图像分割诊断对现代临床医学的实践变得愈发的重要，也鉴于目前机器学习算法的进步，共同提出seUNet：一种简单而有效的医学图像分割UNet-Transformer模型。

是馒头阿·2023-12-22 17:48

TypeScript实战——ChatGPT前端自适应手机端，PC端

它是GPT（GenerativePre-trainedTransformer）模型的一个变种，通过在大规模的互联网文本数据上进行预训练，学习到了丰富的语言知识和语义理解能力。ChatGPT可

雪碧有白泡泡·2023-12-22 15:41

Baichuan2大模型启动时，所依赖的三方包版本都有哪些

如下：pipinstalltriton==2.0.0pipinstalltorch==2.0.1pipinstalltransformers==4.33.3pipins

危险、·2023-12-22 13:25

启动百川大模型错误解决：ModuleNotFoundError: No module named ‘bitsandbytes‘

1.错误信息Traceback(mostrecentcalllast):File"/root/.cache/huggingface/modules/transformers_modules/Baichuan2

危险、·2023-12-22 13:25

【Python】傻瓜式玩转创意：用Python和GPT打造微头条AI写作

微头条是短文本内容平台，而GPT（GenerativePre-trainedTransformer）是一种强大的自然语言处理模型。

半抹灯芯·2023-12-22 13:11

谁会成为第一个MoE大模型基座呢？重磅！Mixtral MoE 8x7B！！！

前言由Transformer衍生的

BRUCE_WUANG·2023-12-22 11:55

LLM推理优化综述

1摘要自OpenAI发布ChatGPT以来，基于Transformer架构的大语言模型(LLM)在全球范围内引发了深度的技术关注，并取得了令人瞩目的成就。

Linux基金会AI&Data基金会·2023-12-22 10:08

vLLM 实战

1.整体介绍根据公开文档中的实验结果，vLLM吞吐量比HuggingFaceTransformers高出24倍，比TGI高出

Linux基金会AI&Data基金会·2023-12-22 10:38

GPTs | 如何构建私人AI助理

1GPTs简介GPTs是OpenAI推出的自定义GPT（GenerativePre-trainedTransformers），允许用户构建自定义ChatGPT完成特定的个人和专业任务，用户能快速创建自己专用版本的

远见阁·2023-12-22 08:13

2024 年 8 个顶级开源 LLM（大语言模型）

LLM基于transformers（一种强大的神经架构）是用于建模和处理人类语言的AI系统。它们之所以被称为“大”，是因为它们有数亿甚至数十亿个参数，这些参数是使用大量文本数据语料库预先训练的。

yule.yang·2023-12-22 07:28

Transformer引领AI领域：从模型到平台，全方位探索与实践

清图·2023-12-22 02:32

【Deformable DETR】

最近学习CV中的Transformer有感而发，网上关于DeformableDETR通俗的帖子不是很多，因此想分享一下最近学习的内容。第一次发帖经验不足，文章内可能有许多错误或不恰之处欢迎批评指正。

别致的SmallSix·2023-12-22 01:22

react中使用react-konva实现画板框选内容

文章目录一、前言1.1、`API`文档1.2、`Github`仓库二、图形2.1、拖拽`draggable`2.2、图片`Image`2.3、变形`Transformer`三、实现3.1、依赖3.2、源码

小马甲丫·2023-12-22 00:35

【论文阅读笔记】MMMViT: Multiscale multimodal vision transformer for brain tumor segmentation with missing m

QiuC,SongY,LiuY,etal.MMMViT:Multiscalemultimodalvisiontransformerforbraintumorsegmentationwithmissingmodalities

cskywit·2023-12-21 20:28

【论文阅读笔记】BTS-ST: Swin transformer network for segmentation and classification of multimodality breast

IqbalA,SharifM.BTS-ST:Swintransformernetworkforsegmentationandclassificationofmultimodalitybreastcancerimages

cskywit·2023-12-21 20:28

ChatGLM-6B源码解析之 web_demo.py

fromtransformersimportAutoModel,AutoTokenizerimportgradioasgrimportmdtex2htmltokenizer=AutoTokenizer.from_pretrained

量化交易曾小健(金融号)·2023-12-21 20:15

【算法面经】九维数据CV算法工程师一面

投稿作者：LSC编辑：学姐1.详细聊项目2.模型的常见优化方法(1)更换模型backbone等结构(2)数据准确(3)平衡数据解决样本不均衡(4)模型集成等(5)根据loss下降的趋势调整参数3.介绍一下Transformer

深度之眼·2023-12-21 19:11

【CCF BDCI 2023】多模态多方对话场景下的发言人识别 Baseline 0.71 概述

【CCFBDCI2023】多模态多方对话场景下的发言人识别Baseline0.71概述模型简介基于CNN的判断每张人脸是否是说话人的模型基于Transformer-Encoder的判断同一段对话中不同轮次的说话人关系的模型说话人识别求解器文件结构如何运行代码

我是小白呀·2023-12-21 18:48

【Transformer框架代码实现】

TransformerTransformer框架注意力机制框架导入必要的库InputEmbedding/OutEmbeddingPositionalEmbeddingTransformerEmbeddingScaleDotProductAttention

大佬喝可乐·2023-12-21 18:44

清华朱文武团队：开源世界首个轻量图自动机器学习库AutoGL-light

扫码在主页获取加入方式计算机视觉研究院专栏ColumnofComputerVisionInstitute清华大学朱文武教授团队自2020年发布智图库（AutoGL）以来，在图自动机器学习的可解释性和可泛化能力等方面取得新进展，特别关注于图Transformer

计算机视觉研究院·2023-12-21 17:23

【Spark-ML源码解析】Word2Vec

LotusQ·2023-12-21 17:18

论文解读：SwinTransformer-减少Q、K、V的运算规模

概述以及要解决的问题什么是Bankbone:不论什么模型，用这个backbone提特征，效果大概率非常好直接套用在各种下游任务中要解决的问题：一个block要完成的任务整体网络架构H*W*3卷积->还是H*w*3->对应H*w的特征图的，取4*4的小正方型resize为一维向量(长度为16)，总16个(H/4)*(H/4)之后考虑上channel=3，故一维向量长度应为16*3=48，故此时有的特

十有久诚·2023-12-21 16:15

论文解读：EfficientViT-提高吞吐量

摘要要解决的问题Visiontransformershaveshowngreatsuccessduetotheirhighmodelcapabilities.However,theirremarkableperformanceisaccompaniedbyheavycomputationcosts

十有久诚·2023-12-21 16:45

论文解读：Axial-DeepLab: Stand-Alone Axial-Attention forPanoptic Segmentation

singleDoc#《轴注意力机制》一个问题为什么transformer一开始都有CNN：降低H、W，降低self-attention计算规模O(特征点的个数^2，即(H*W)^2)Stand-

十有久诚·2023-12-21 16:14

不用再找了，这是大模型实践最全的总结

对于以Transformer、MOE结构为代表的大模型来说，传统的单机单卡训练模式肯定不能满足上千（万）亿级参数的模型训练，这时候我们就需要解决内存墙和通信墙等一系列问题，在单机多卡或者多机多卡进行模型训练

机器学习社区·2023-12-21 14:56

ChatGPT：你真的了解网络安全吗？浅谈攻击防御进行时之传统的网络安全

ChatGPT（全名：ChatGenerativePre-trainedTransformer），美国OpenAI研发的聊天机器人程序，是人工智能技术驱动的自然语言处理工具。

会python的小孩·2023-12-21 13:45

Web ML 库的Transformers.js 提供文本转语音功能

JavaScript库Transformers.js提供了类似PythonTransformers库的功能，设计用于在Web浏览器中直接运行Transformer模型，而不再需要外部服务器参与处理。

xiangzhihong8·2023-12-21 11:40

AIGC：阿里开源大模型通义千问部署与实战

Qwen-7B是基于Transformer的大语言模型,在超大规模的预训练数据上进行训练得到。预训练数据类型多样，覆盖广泛，包括大量网络文本、专业书籍、代码等。

智慧医疗探索者·2023-12-21 06:54

RTDETR论文快速理解和代码快速实现(训练与预测)

RTDERT模型训练(data-->train)1、环境安装2、训练1、数据准备2、数据yaml文件3、训练代码4、训练运行结果3、推理1、推理代码2、推理运行结果总结前言最近，我们想比较基于DETR的transformer

tangjunjun-owen·2023-12-21 05:41

技术分析测试

整体架构流程提示：这里可以添加技术整体架构例如：在语言模型中，编码器和解码器都是由一个个的Transformer组件拼接在一起形成的。

青山渺渺·2023-12-21 04:11

【无标题】