transformer论文阅读

BART&BERT

Ambition_LAO·2024-09-16 07:02

季风泯灭的季节·2024-09-16 04:13

轻量级模型解读——轻量transformer系列

文章目录1、DeiT2、ConViT3、Mobile-Former4、MobileViTTransformer是2017谷歌提出的一篇论文，最早应用于NLP领域的机器翻译工作，Transformer解读

lishanlu136·2024-09-16 01:18

探索创新科技： Lite-Mono - 简约高效的小型化Mono框架

探索创新科技：Lite-Mono-简约高效的小型化Mono框架Lite-Mono[CVPR2023]Lite-Mono:ALightweightCNNandTransformerArchitectureforSelf-SupervisedMonocularDepthEstimation

杭律沛Meris·2024-09-15 21:38

解决BERT模型bert-base-chinese报错（无法自动联网下载）

二、网站google-bert(BERTcommunity)Thisorganizationismaintainedbythetransformerstea

搬砖修狗·2024-09-15 13:47

车载以太网之SOME/IP

发展历程AUTOSAR4.0-完成宝马SOME/IP消息的初步集成；AUTOSAR4.1-支持SOME/IP-SD及其发布/订阅功能；AUTOSAR4.2-添加transformer用于序列化以及其他相关优化

IT_码农·2024-09-15 10:20

基于深度学习的农作物病害检测

基于深度学习的农作物病害检测利用卷积神经网络（CNN）、生成对抗网络（GAN）、Transformer等深度学习技术，自动识别和分类农作物的病害，帮助农业工作者提高作物管理效率、减少损失。

SEU-WYL·2024-09-15 06:51

多模态Transformer之文本与图像联合建模 - Transformer教程

大家好，今天我们来聊聊一个既前沿又有趣的话题——多模态Transformer，特别是文本与图像的联合建模。

shandianfk_com·2024-09-14 22:52

transformer架构(Transformer Architecture)原理与代码实战案例讲解

transformer架构(TransformerArchitecture)原理与代码实战案例讲解关键词：Transformer,自注意力机制,编码器-解码器,预训练,微调,NLP,机器翻译作者：禅与计算机程序设计艺术

AI架构设计之禅·2024-09-14 16:47

多模态大模型微调Qwen-VL微调及日志

%pipinstallmodelscope-U%pipinstalltransformersacceleratetiktoken-U%pipinstalleinopstransformers_stream_generator-U

Messi^·2024-09-14 15:10

英伟达（NVIDIA）B200架构解读

H100芯片是一款高性能AI芯片，其中的TransformerEngine是专门用于加速Transformer模型计算的核心部件。

weixin_41205263·2024-09-14 14:31

《互联网时代教师自主成长的模式研究》论文阅读与思考2

2.第二部分教师自主成长的模式建构，实质上是对新网师底层逻辑的描述。你认为，新网师的培训模式与传统常见的培训模式有哪些区别？这些区别有什么意义或价值？读完第二部分后，你对新网师有哪些新的认识或理解？你认为新网师目前哪些方面做得好，哪些方面做得还不够？答：我认为新网师的培训模式与传统常见的培训模式有以下区别：（1）培训对象的参与动机不同。新网师学员的参与是自觉自愿、积极主动，而传统培训更多是被迫参与

宁超群·2024-09-14 03:01

大规模语言模型的书籍分享，从零基础入门到精通非常详细收藏我这一篇就够了

第一点是可拓展的训练架构与学习范式:Transformer架构能够拓展到百亿、千亿甚至万亿参数规模，并且将预训练任务统一为预测下一个词这一通用学习范式;第二点是对于数据质量与数据规模的重视:不同于BERT

黑客-雨·2024-09-13 10:05

QLoRa使用教程

https://huggingface.co/docs/peft/main/en/developer_guides/quantization案例11.4bit量化+LoRaimporttorchfromtransformersimportBitsAndBytesConfigconfig

云帆@·2024-09-13 03:12

【Tools】大模型中的BERT概念

摇来摇去摇碎点点的金黄伸手牵来一片梦的霞光南方的小巷推开多情的门窗年轻和我们歌唱摇来摇去摇着温柔的阳光轻轻托起一件梦的衣裳古老的都市每天都改变模样方芳《摇太阳》BERT（BidirectionalEncoderRepresentationsfromTransformers

音乐学家方大刚·2024-09-12 19:26

Transformer模型：WordEmbedding实现

前言最近在学Transformer，学了理论的部分之后就开始学代码的实现，这里是跟着b站的up主的视频记的笔记，视频链接：19、Transformer模型Encoder原理精讲及其PyTorch逐行实现

Galaxy.404·2024-09-12 17:42

【Vidu发布】中国首个长时长、高一致性、高动态性Video AI大模型

该模型采用生数科技团队原创的Diffusion与Transformer融合的架构U-ViT。

叶锦鲤·2024-09-12 13:44

论文翻译：arxiv-2022 Ignore Previous Prompt: Attack Techniques For Language Models

AttackTechniquesForLanguageModelshttps://arxiv.org/pdf/2211.09527忽略之前的提示：针对语言模型的攻击技术文章目录忽略之前的提示：针对语言模型的攻击技术摘要1引言摘要基于Transformer

CSPhD-winston-杨帆·2024-09-12 12:14

【Qwen2部署实战】Qwen2初体验：用Transformers打造智能聊天机器人

系列篇章No.文章1【Qwen部署实战】探索Qwen-7B-Chat：阿里云大型语言模型的对话实践2【Qwen2部署实战】Qwen2初体验：用Transformers打造智能聊天机器人3【Qwen2部署实战

寻道AI小兵·2024-09-12 06:09

论文学习笔记 VMamba: Visual State Space Model

当前的视觉模型如卷积神经网络（CNNs）和视觉Transformer（ViTs）在处理大规模视觉任务时展现出良好的表现，但都存在各自的局限性。

Wils0nEdwards·2024-09-11 23:47

《自然语言处理 Transformer 模型详解》

一、引言在自然语言处理领域，Transformer模型的出现是一个重大的突破。

黑色叉腰丶大魔王·2024-09-11 21:02

【定位系列论文阅读】-Patch-NetVLAD: Multi-Scale Fusion of Locally-Global Descriptors for Place Recognition（一）

这里写目录标题概述研究内容Abstract第一段（介绍本文算法大致结构与优点）1.Introduction介绍第一段（介绍视觉位置识别的重要性）第二段（VPR的两种常见方法，本文方法结合了两种方法）第三段（本文贡献）第四段（为证明本文方法优越性，进行的测试以及比较）2.RelatedWork相关工作第一段（介绍早期与深度学习的全局图像描述符）第二段（介绍局部关键点描述符）第三段（局部描述符可以进一

醉酒柴柴·2024-09-11 21:32

论文阅读笔记（十九）：YOLO9000: Better, Faster, Stronger

WeintroduceYOLO9000,astate-of-the-art,real-timeobjectdetectionsystemthatcandetectover9000objectcategories.FirstweproposevariousimprovementstotheYOLOdetectionmethod,bothnovelanddrawnfrompriorwork.Theim

__Sunshine__·2024-09-11 21:59

论文阅读笔记: DINOv2: Learning Robust Visual Features without Supervision

DINOv2:LearningRobustVisualFeatureswithoutSupervision论文地址:https://arxiv.org/abs/2304.07193代码地址:https://github.com/facebookresearch/dinov2摘要大量数据上的预训练模型在NLP方面取得突破，为计算机视觉中的类似基础模型开辟了道路。这些模型可以通过生成通用视觉特征(即无

小夏refresh·2024-09-11 20:50

深度学习速通系列:LoRA微调是什么

它的核心思想是在不改变预训练模型权重的前提下，通过在模型的Transformer层中引入可训练的低秩矩阵来实现模型的微调。这种方法可以显著减少训练参数的数量，从而降低对计算资源的需求。

Ven%·2024-09-11 11:47

大模型LLM面试常见算法题-包括Attention和Transformer常见面试题

大模型：位置编码有哪些？介绍LoRA与QLoRARAG和微调的区别是什么？哪些因素会导致LLM的偏见？什么是思维链（CoT）提示？Tokenizer的实现方法及原理解释一下大模型的涌现能力？解释langchainAgent的概念langchain有哪些替代方案？RLHF完整训练过程是什么？为什么RLHF的效果这么好?RLHF使用的训练数据是什么样的?RAG和微调的区别是什么？有了解过什么是稀疏微调

剑圣土豆·2024-09-10 15:57

gpt-2语言模型训练

针对你要用到的字段信息进行处理，然后把需要处理的数据丢给模型去训练，这个模型我是直接从GPT2的网站下载下来的依赖的必要文件截图如下：二、具体代码样例实现：importosimportpandasaspdfromtransformersimportGPT2Tokenizer

谷隐凡二·2024-09-10 09:48

论文笔记—NDT-Transformer: Large-Scale 3D Point Cloud Localization using the Normal Distribution Transfor

论文笔记—NDT-Transformer:Large-Scale3DPointCloudLocalizationusingtheNormalDistributionTransformRepresentation

入门打工人·2024-09-10 03:09

深度解析：从概念到变革——Transformer大模型的前世今生以及大模型预备知识讲解[知存科技]

深度解析：从概念到变革——Transformer大模型的前世今生点击：知存科技相关课程推荐知存科技是全球领先的存内计算芯片企业。针对AI应用场景，在全球率先商业化量产基于存内计算技术的神经网络芯片。

汀、人工智能·2024-09-10 02:00

AI科学家：从理论到实践的科研自动化革命

近日，SakanaAI公司，由Transformer架构的创造者之一LlionJones创立，宣布了一项令人震惊的进展——首个完全自动化的科研平台，名为“TheAIScientist”。

海森大数据·2024-09-09 22:26

揭秘GLM-130B爆火秘诀：颠覆性自回归填空和二维位置编码的训练黑科技

1.模型架构简介GLM-130B是基于Transformer架构的双语（中文和英文）语言模型，拥有1300亿个参数。

大多_C·2024-09-09 15:34

conda进行transformers安装

首先建立新环境condacreate-nmyenvpython=3.8安装numpy和pytorchcondainstallnumpycondainstallpytorchtorchvisiontorchaudiocpuonly-cpytorch-cconda-forge其余的一些环境配置huggingface_hub0.16.4py_0huggingfaceimportlib-metadata6

大多_C·2024-09-09 15:04

周四 2020-01-09 08:00 - 24:30 多云 02h10m

二〇二〇年一月九日基本科研[1]:1.论文阅读论文--二小时十分2.论文实现实验--小时3.数学SINS推导回顾--O分4.科研参考书【】1)的《》看0/0页-5.科研文档1)组织工作[1]:例会--英语能力

么得感情的日更机器·2024-09-08 23:58

Transformer、BERT、GPT、T5、LLM（大语言模型），以及它们在实际行业中的运用

我们重点讨论以下几个主流模型框架：Transformer、BERT、GPT、T5、LLM（大语言模型），以及它们在实际行业中的运用。

Funhpc_huachen·2024-09-08 17:38

深度学习特征提取魔改版太强了！发文香饽饽！

目前比较常见的深度学习特征提取方法有基于transformer、基于CNN、基于LSTM以及基于GAN，都发展的比较成熟。但为了追求更快速、准确、鲁棒的特征点提取，研究者们开始致力于改进深度

深度之眼·2024-09-08 17:03

【论文阅读】Mamba:选择状态空间模型的线性时间序列建模（二）

文章目录3.4一个简化的SSM结构3.5选择机制的性质3.5.1和门控机制的联系3.5.2选择机制的解释3.6额外的模型细节A讨论：选择机制C选择SSM的机制Mamba论文第一部分Mamba:选择状态空间模型的线性时间序列建模(一)3.4一个简化的SSM结构如同结构SSM，选择SSM是单独序列变换可以灵活地整合进神经网络。H3结构式最知名SSM结构地基础，其通常包括受线性注意力启发的和MLP交替地

syugyou·2024-09-08 15:52

探索POSTECH-CVLab的Point Transformer: 重塑3D点云处理的新篇章

探索POSTECH-CVLab的PointTransformer:重塑3D点云处理的新篇章在计算机视觉和深度学习领域中，3D点云处理是一个至关重要的环节，因为它能够帮助我们理解复杂环境中的三维结构。

尤琦珺Bess·2024-09-08 11:23

多模态大模型：技术原理与实战 ChatGPT的诞生

1.1.1早期人工智能1.1.2机器学习时代1.1.3深度学习的崛起1.2自然语言处理的演进1.2.1基于规则的方法1.2.2统计机器学习方法1.2.3深度学习在NLP中的应用1.3大语言模型的出现1.3.1Transformer

AI大模型应用之禅·2024-09-08 10:51

深入理解ChatGPT的模型结构和训练流程

近年来，基于变换器（Transformer）的语言模型已经成为了主流。ChatGPT是一种基于变换器的语言模型，由OpenAI团队提出并开源。本文将深入探讨ChatGPT的模型结构和训练流程。

计算机小陈·2024-09-08 10:49

深度学习项目实践——qq聊天机器人（transformer）（二）配置环境与部署

深度学习项目实践——qq聊天机器人（transformer）（二）配置环境与部署上一节我们讲解了qq聊天的原理和qq机器人的框架以及运行流程，这一节我们来讲怎么配置环境，部署qq机器人。

Linductor·2024-09-08 05:41

Transformer+目标检测，这一篇入门就够了

VisionTransformerforObjectDetection本文作者：Encoder-Decoder简介：Encoder-Decoder的缺陷：Attention机制：Self-Attention

BIT可达鸭·2024-09-07 21:19

.pt文件无法打开或乱码？如何查看.pt文件的具体内容？

复现论文GTM-Transformer过程中的数据集直接用vscode打开的效果没法看importtorch#Loadcategoryandcolorencodingscat_dict=torch.load

多恩Stone·2024-09-07 17:44

【计算机视觉前沿研究热点顶会】ECCV 2024中Mamba有关的论文

MambaIR：状态空间模型图像恢复的简单基线近年来，图像恢复技术取得了长足的进步，这在很大程度上归功于现代深度神经网络的发展，如CNN和Transformers。

平安顺遂事事如意·2024-09-07 08:17

【LLM大模型】24年最新大语言模型新书！这本LLM大模型黑书你一定要学（附PDF）

会AIGC的小孩·2024-09-07 01:01

Transformer模型在文本摘要任务中的应用与性能分析

Transformer模型自从由Vaswani等人在2017年提出以来，已经在自然语言处理（NLP）的多个领域取得了显著的成果，尤其是在文本摘要任务中。

liuxin33445566·2024-09-06 20:59

【大模型系列篇】预训练模型：BERT & GPT

2018年，Google首次推出BERT（BidirectionalEncoderRepresentationsfromTransformers）。

木亦汐丫·2024-09-06 18:13

KAN网络技术最全解析——最热KAN能否干掉MLP和Transformer？（收录于GPT-4/ChatGPT技术与产业分析）

KAN网络结构思路来自Kolmogorov-Arnold表示定理。MLP在节点（“神经元”）上具有固定的激活函数，而KAN在边（“权重”）上具有可学习的激活函数。在数据拟合和PDE求解中，较小的KAN可以比较大的MLP获得更好的准确性。相对MLP，KAN也具备更好的可解释性，适合作为数学和物理研究中的辅助模型，帮助发现和寻找更基础的数值规律。（点赞是我们分享的动力）MLP与KAN对比与传统的MLP

u013250861·2024-09-06 14:45

GPT-4访问入口与使用指南

GPT-4（GenerativePre-trainedTransformer4）是OpenAI开发的最新一代语言模型。它基于Transformer架构，

IT管理圈·2024-09-06 14:42

Ilya七年前说深度学习已进入瓶颈期；英特尔曾拒绝OpenAI股权；GPT-4o新版本上线 | AI头条...

Ilya曾在Transformer论文发表前一个月表示深度学习已进入瓶颈期英特尔错失OpenAI投资机会，在AI竞争中陷入困境GPT-4o新版本上线，降价之外还有性能提升宇树科技开源人形机器人远程操作项目好莱坞因人工智能应用产生分歧奥特曼暗示

AI科技大本营·2024-09-06 11:25

Ilya新公司获10亿美元融资；支付宝将发布AI独立App支小宝 | AI头条

前OpenAI联合创始人新公司获10亿美元融资支付宝将发布AI独立App支小宝Transformer作者创业公司Sakana.AI获1亿美元A轮融资2024外滩大会开幕，凯文・凯利谈AI时代三大趋势零一万物发布

AI科技大本营·2024-09-06 10:21

推荐频道