Transformer 第4页

解决：libssl.so.10: cannot open shared object file: No such file or directory

RuntimeError:Failedtoimporttransformers.models.bertbecauseofthefollowingerror(lookuptoseeitstraceback

铭147·2025-02-12 04:25

Transformer细节（九）——Transformer位置编码

一、总述Transformer模型中的位置编码（PositionalEncoding）是用于向模型提供序列中各个元素位置信息的机制。

多学学多写写·2025-02-12 04:25

缩放点积注意力（Scaled Dot-Product Attention）

ScaledDot-ProductAttention）缩放点积注意力（ScaledDot-ProductAttention）是自注意力（Self-Attention）机制的一种变体，它被广泛应用于现代的神经网络架构中，尤其是在Transformer

彬彬侠·2025-02-11 20:53

DeepSeek发布开源多模态大模型Janus-Pro-7B！本地部署+Colab部署！支持图像识别和图像生成！基准测试得分超越OpenAI的DALL·E 3 + Stable Diffusion

模型主要特点:统一的架构:Janus-Pro采用单一transformer架构来处理文本和图像信息，实现了真正的多模态理解和生成

AI超元域·2025-02-11 20:21

【NLP算法面经】NLP算法面经 -- 腾讯 VS 美团（附面题）

博客主页：[青松]目录【NLP百面百过】大模型算法高频面题（全面整理ʘ‿ʘ）一、大模型（LLMs）基础面大模型（LLMs）架构篇注意力机制（Attention）篇Transformer理论篇二、大模型微调面有监督微调

青松ᵃⁱ·2025-02-11 13:37

【人工智能领域优质书籍】实战AI大模型

书籍亮点1.全面Al知识结构:从基础理论到最前沿的实践应用，全面覆盖了’Al大模型领域，包括Transformer模型、BERT、ALBERT、T5、G

秋说·2025-02-11 12:01

Transformer：基于注意力机制的序列转换模型

Transformer：基于注意力机制的序列转换模型最近，我研究了一篇非常有趣的论文——《AttentionIsAllYouNeed》，由GoogleBrain团队的AshishVaswani等人撰写。

金外飞176·2025-02-11 09:07

StripedHyena 模型介绍

StripedHyena是近年来提出的一种新型神经网络架构，旨在替代或补充传统的Transformer模型。

qq_27390023·2025-02-11 08:51

Transformer 的辉煌与大模型方向确立，点燃AGI之火把

技术壁垒：模型，技术，开源CUDA壁垒：PTX编程更加底层，大量中国硬件公司，可以适配Transformer架构的奠基2017年，Vaswani等人发表了开创性论文《AttentionisAllY

dingcb168·2025-02-11 07:47

【AI学习】LLM的发展方向

当然，首先要有一个能够scaling的模型架构，Transformer是首个能够scaling的模型架构，去年的Mamba学习，了解了为什么CNN、LSTM这些架构为什么无法scaling。

bylander·2025-02-11 03:47

【深度学习】常见模型-BERT（Bidirectional Encoder Representations from Transformers）（双向编码器表示）

BERT（BidirectionalEncoderRepresentationsfromTransformers）BERT是什么？

IT古董·2025-02-11 02:06

基于“感知–规划–行动”的闭环系统架构

1.感知（Perception）1.1多模态数据采集与预处理传感器系统Agent的感知层通常由多种传感器组成，支持采集多种形式的数据：视觉：采用摄像头、深度传感器，通过卷积神经网络（CNN）、视觉Transformer

由数入道·2025-02-10 22:39

1.1 Attention机制终极指南：从数学推导到Transformer实战，解密大模型核心引擎

Attention机制终极指南：从数学推导到Transformer实战，解密大模型核心引擎引言：人脑如何启发AI革命？

少林码僧·2025-02-10 19:49

DeepSeek-VL2 、 qwen2.5 vl 技术选型比较

以下是两者的技术选型对比分析，涵盖架构设计、性能、适用场景和实际应用考量：1.核心架构对比维度DeepSeek-VL2Qwen2.5-VL视觉编码器基于改进的ViT（VisionTransformer）

天机️灵韵·2025-02-10 18:42

基于Python和开源框架的简单聊天交互软件代码实现

代码实现：基于Flask的聊天交互软件1.环境准备安装所需依赖：pipinstallflaskflask-socketiotransformers2.代码实现fromflaskimportFlask,render_template

星糖曙光·2025-02-10 14:33

DeepSeek和ChatGPT的优劣或者区别（答案来DeepSeek和ChatGPT）

ChatGPT：基于Transformer架构，参数规模估计约1万亿，依

笑傲江湖2023·2025-02-10 12:45

锂电池剩余寿命预测 | Matlab基于Transformer-GRU的锂电池剩余寿命预测

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、期刊写作与指导，代码获取、论文复现及科研仿真合作可私信或扫描文章底部二维码。个人主页：Matlab科研工作室个人信条：格物致知。更多Matlab完整代码及仿真定制内容点击智能优化算法神经网络预测雷达通信无线传感器电力系统信号处理图像处理路径规划元胞自动机无人机物理应用机器学习内容介绍锂离子电池作为一种重要的储能装置，在

天天Matlab代码科研顾问·2025-02-10 09:24

深度解析Transformer架构核心原理，让小白也懂

解密Transformer：从人类思维到机器智能的注意力革命引言：语言理解的本质困境在纽约地铁站，一个三岁孩童指着广告牌上的"Apple"问妈妈："这是吃的苹果还是爸爸的手机？"

python算法(魔法师版)·2025-02-10 07:00

ai大模型学习和实践

1.3以下方法被用于处理序列数据的是1.4注意力机制是什么2、变革里程碑：transformer的崛起2.1Transformer模型和注意力机制的关系2.2Transformer模型和注意力机制在数据训练上有差异

编程ID·2025-02-10 07:26

AI大模型系列之七：Transformer架构讲解

目录Transformer网络是什么？输入模块结构：编码器模块结构：解码器模块:输出模块结构：Transformer具体是如何工作的？Transformer核心思想是什么？

m0_74823683·2025-02-10 03:58

Awesome Video Transformer

AwesomeVideoTransformer仅针对Video数据，探索近年来Transformer的架构演进，以及实现细节。

Yuezero_·2025-02-10 03:27

AI学习专题（一）LLM技术路线

（贝叶斯定理、极大似然估计）最优化方法（梯度下降、拉格朗日乘子法）编程&框架Python（NumPy、Pandas、Matplotlib）PyTorch&TensorFlow基础HuggingFaceTransformers

王钧石的技术博客·2025-02-10 01:39

AI大模型：一文搞懂大模型文件存储格式新宠GGUF

本文大介绍大模型文件存储格式新宠GGUF，目前HuggingfaceTransformers已经支持了GGUF格式，同时，像谷歌的Gemma、阿里的Qwen等模型默认已经提供了GGUF格式

Llama-Turbo·2025-02-10 01:37

多头注意力机制的创新优化：MLA架构解析

摘要MLA（Multi-headLatentAttention）架构是对Transformer模型中多头注意力（MHA）结构的创新优化，旨在提高推理阶段的效率并降低资源消耗。

耶耶Norsea·2025-02-09 23:22

动态词表采样：一种控制模型词表大小的新方法

背景介绍随着深度学习技术的发展，尤其是Transformer架构的成功应用，预训练语言模型如BERT、GPT等取得了

东方佑·2025-02-09 18:50

T5模型-基于Transformer架构的通用文本到文本转换模型

T5（Text-to-TextTransferTransformer）是由Google于2019年提出的一种基于Transformer架构的通用文本到文本转换模型。

Jiang_Immortals·2025-02-09 16:09

混合专家模型 (MoE) 最全详细图解

随着Mixtral8x7B(announcement,modelcard)的推出，一种称为混合专家模型(MixedExpertModels，简称MoEs)的Transformer模型在开源人工智能社区引起了广泛关注

DFCED·2025-02-09 10:23

个性化音乐生成：生成式AI在音乐推荐与创作中的应用

文章目录引言生成式AI与个性化音乐生成1.变分自编码器（VAE）2.生成对抗网络（GAN）3.Transformer模型4.扩散模型（DiffusionModels）技术实现1.音乐特征提取2.基于VAE

二进制独立开发·2025-02-09 00:34

Vision Transformer学习笔记（2020 ICLR）

摘要(Abstract)：简述了ViT（VisionTransformer）模型的设计和实验结果，展示了其在大规模图像数据集上进行训练时的优越性能。

刘若里·2025-02-08 21:15

动手学图神经网络（12）：MovieLens上的链接回归

环境设置使用pip安装pyg-lib、pytorch_geometric、sentence_transformers、fuzzywuzzy、captum等。

段智华·2025-02-08 11:07

深度学习的文本生成：从seq2seq到GPT2和GPT3

文章目录1.背景介绍1.1序列到序列（seq2seq）模型1.1.1编码器1.1.2解码器1.1.3训练1.2Transformer模型1.2.1自注意力机制1.2.2位置编码1.2.3多头注意力1.2.4

AI天才研究院·2025-02-08 11:33

ACC-UNet网络学习笔记（2023 MICCAI ）

同样，医学图像领域也发生了一样的变化，最具影响力的网络结构——U-Net已和Transformer相结合而被重新设计。

刘若里·2025-02-08 10:58

完整的671B R1塞进本地，详尽教程来了！

李锡涵（XihanLi）作者简介：伦敦大学学院（UCL）计算机系博士研究生，谷歌开发者专家，主要研究方向为学习优化，在NeurIPS、ICLR、AAMAS、CIKM等会议发表过学术论文，CircuitTransformer

·2025-02-08 10:08

AI学习指南HuggingFace篇-项目实战：情感分析系统

HuggingFace的Transformers库提供了强大的工具，使得情感分析变得简单高效。

俞兆鹏·2025-02-08 10:25

【Block总结】DFFN，门控机制选择性保留低频和高频信息

论文信息标题:EfficientFrequencyDomain-basedTransformersforHigh-QualityImageDeblurring论文链接:LingshunKong,JiangxinDong

AI浩·2025-02-08 08:36

【AI原理解析】— Gemini模型

模型基础与架构模型架构模型尺寸3.多模态处理能力输入处理数据处理训练过程4.技术细节与优化预训练上下文长度注意机制5.安全性与编程能力安全性评估编程能力6.模型发布与应用发布时间应用方向7.性能评估8.数学基础8.1Transformer

coolkidlan·2025-02-08 06:49

DeepSeek为什么采用与主流大模型不一样的MoE架构？一文搞懂什么是MoE模型

但像Qwen、LLama模型，用的却是Dense架构，也就是传统的Transformer架构。这两种架构有个很明显的区别。

大模型_学习路线·2025-02-08 04:39

Flash Attention介绍

FlashAttention是一种优化Transformer模型中注意力机制的技术，旨在提高计算效率并减少内存使用。

TAICHIFEI·2025-02-08 03:38

AI商业化：如何包装技术并找到客户需求？

一、引言在过去几年里，从GPT、Transformer到DeepSeek，以及分布式训练和微调技术的发展，为AI技术带来了质的飞跃。然而，光有先进的技术并不足以实现商业成功。如何将这些技术包装成易于

hjy1821·2025-02-07 17:34

深度搜索MoE：利用大规模预训练模型提升信息检索效能

利用大规模预训练模型提升信息检索效能DeepSeek-MoE项目地址:https://gitcode.com/gh_mirrors/de/DeepSeek-MoE项目简介DeepSeek-MoE是一个基于Transformer

杭律沛Meris·2025-02-07 15:20

SRMT：一种融合共享记忆与稀疏注意力的多智能体强化学习框架

自反射记忆Transformer(SRMT)作为一种新型记忆增强型transformer架构，专注于提升基于AI的决策能力和多智能体协同效果。

·2025-02-07 13:28

DeepSeek 多模态大模型Janus-Pro本地部署教程

该框架通过将视觉编码解耦到不同的处理路径（同时仍使用单一统一的Transformer架构

·2025-02-07 13:20

大模型参数量及其单位的概念

BERT（BidirectionalEncoderRepresentationsfromTransformers）模型有几种不同的版本，它们的参数量不同。

这个人有丶懒·2025-02-07 03:57

使用一个大语言模型对另一个大语言模型进行“调教”

以下是基于搜索结果整理的详细步骤和方法：1.准备工作安装必要的库•Transformers：用于加载和训练模型。•Datasets：用于处理数据集。

大霸王龙·2025-02-07 03:25

deepseek再爆大招，janus pro炸裂出场

januspro多模态大模型炸裂出场，transformer架构，没有走diffusion路线，再次颠覆行业认知，继续追着OpenAI打。家里有高配电脑的可以玩起来了，网上自己搜索吧。

caoz·2025-02-06 12:15

大模型的底层逻辑及Transformer架构

其中，Transformer架构是目前主流的大模型架构，它通过自注意力机制和前馈神经网络来处理输入数据。这种架构能够高效地处理序列数据，如文本。3.自

搏博·2025-02-06 02:04

（14-6-03）基于Latent Diffusion Transformer的文生视频系统：实现模型（03）图像生成模型

它结合了Transformer架构和扩散模型的优势。

码农三叔·2025-02-05 22:30

Transformers解决RuntimeError: element 0 of tensors does not require grad and does not have a grad_fn

在使用Transformers启动梯度检查点时，即：model.gradient_checkpointing_enable()时，会报错RuntimeError:element0oftensorsdoesnotrequiregradanddoesnothaveagrad_fn

怎么这么多名字都被占了·2025-02-05 18:06

中国AI再放异彩！MiniMax01开源震撼全球

它突破了传统的Transformer架构，这可是AI领域的核心技术之一。对于咱们普通人来说，

盼达思文体科创·2025-02-05 15:15

DeepSeek-R1全面超越OpenAI o1：开源大模型训练范式革新

OpenAI早期专注于强化学习（RL），但在Transformer结构问世后，迅速调整方向，借助Google的开源研究开发出强大的LLM。然而，尽

·2025-02-05 02:16

推荐频道

Transformer