TRansformer 第8页

自然语言处理之机器翻译：Transformer：前馈神经网络在Transformer中的应用

自然语言处理之机器翻译：Transformer：前馈神经网络在Transformer中的应用自然语言处理与机器翻译简介自然语言处理的基本概念自然语言处理（NaturalLanguageProcessing

zhubeibei168·2025-05-13 16:05

BitNet b1.58 2B4T Technical Report

模型架构：基于标准Transformer模型和BitNet框架进行修改，核心创新是用自定义的BitLinear层替换标准全精度线性层，对权重和激活值

UnknownBody·2025-05-13 15:24

PyTorch 实战：从 0 开始搭建 Transformer

导入必要的库pythonimportmathimporttorchimporttorch.nnasnnfromLabmL_helpers.moduleimportModulefromlabml_n.utilsimportclone_module_ListfromtypingimportOptional,Listfromtorch.utils.dataimportDataLoader,TensorD

COOCC1·2025-05-13 13:40

day 23

机器学习管道pipeline一般通用pipeline的实现流程：1.构建多个转换器（transformer），来实现对特征的预处理2.构建ColumnTransformer，将不同的预处理应用于不同的列子集

lcccyyy1·2025-05-13 09:49

解析 BERT 模型的核心结构

```html解析BERT模型的核心结构解析BERT模型的核心结构BERT（BidirectionalEncoderRepresentationsfromTransformers）是近年来自然语言处理领域的一项重要突破

BUG生产制造部·2025-05-13 08:12

机器学习-PipeLine初识

AScikit_Learnpipelinecanberegardedasameta-estimatororseveraltansformersandestimatorcanalsobewrapperedaroundtogether.IfwecallthefitmethodofPipeline,thedatawillbepasseddownaseriesoftransformersviafit

Santorinisu·2025-05-13 05:52

机器学习管道 pipeline

知识回顾:转化器和估计器的概念管道工程ColumnTransformer和Pipeline类作业：整理下全部逻辑的先后顺序，看看能不能制作出适合所有机器学习的通用pipeline基础概念pipeline

zx43·2025-05-13 05:22

大模型企业落地应用方法对比：微调、RAG与MCP工具调用

JSONL或CSV格式数据质量：需要高质量、领域特定的标注数据数据规模：根据需求从数千到数十万条不等，质量高于数量技术栈基础模型：GPT、LLaMA、Claude等大型语言模型训练框架：HuggingFaceTransformers

热血的青春666·2025-05-13 04:15

基于LSTM-Transformer混合模型实现股票价格多变量时序预测(PyTorch版)

前言系列专栏:【深度学习：算法项目实战】✨︎涉及医疗健康、财经金融、商业零售、食品饮料、运动健身、交通运输、环境科学、社交媒体以及文本和图像处理等诸多领域，讨论了各种复杂的深度神经网络思想，如卷积神经网络、循环神经网络、生成对抗网络、门控循环单元、长短期记忆、自然语言处理、深度强化学习、大型语言模型和迁移学习。在金融市场的分析中，股票价格预测一直是一个充满挑战且备受关注的领域。Transforme

矩阵猫咪·2025-05-13 02:04

【Transformer】解密Transformer核心模块可训练参数

在Transformer模型中，所有可训练（trainable）的模块构成了其核心架构，每个模块都有其特定的功能和意义，并且都包含可通过反向传播进行优化的参数。

小波才露尖尖角·2025-05-12 19:16

BUG: 加载部分sentence transformers模型报错HFValidationError: Repo_id must be in the form repo_name

解释：以bge-m3为例，除了常见的config.json、pytorch_model.bin等等外还需要下载1_Pooling文件夹，里面包含了一个config.json，这是sentencetransformers

the_3rd_bomb·2025-05-12 13:35

将lora权重合并到原模型

importosimporttorchfromtransformersimportAutoModelForCausalLM,AutoTokenizerfrompeftimportPeftModel,Pe

the_3rd_bomb·2025-05-12 13:04

Vision Transformer（ViT）

VisionTransformer（ViT）是一种将Transformer模型应用于计算机视觉任务的创新方法，由GoogleResearch团队在2020年提出。

豆芽819·2025-05-12 00:07

[CLS] 输出向量和 [MASK] 向量

[CLS]输出向量和[MASK]向量是BERT（BidirectionalEncoderRepresentationsfromTransformers）模型中两个具有特定功能的特殊标记所对应的输出表示，

潇锐killer·2025-05-11 23:05

语音合成之一TTS技术发展史综述

技术的起源与早期探索基于规则的TTS系统：原理与发展共振峰合成技术：作用与影响拼接合成技术：发展与应用统计参数语音合成：以隐马尔可夫模型（HMM）为例深度学习驱动的TTS：神经网络的突破代表性模型：WaveNet与Transformer

shichaog·2025-05-11 22:25

GPT论文阅读：Language Models are Unsupervised Multitask Learners

GPT系列第二篇论文：LanguageModelsareUnsupervisedMultitaskLearners第一篇阅读链接abstractGPT-2是一个参数量为1.5B的transformer，

真的没有脑袋·2025-05-11 22:24

《AI大模型应知应会100篇》第53篇：Hugging Face生态系统入门

本文将深入介绍HuggingFace生态系统的核心组件，包括Transformers、Datasets、Tokenizers和Hub平台

带娃的IT创业者·2025-05-11 12:56

光流｜基于深度学习的光流估计算法汇总，原理，公式，流程图，代码

**RAFT（RecurrentAll-PairsFieldTransformers）**5.

单北斗SLAMer·2025-05-11 08:01

北斗导航｜探讨VisionTransformer（ViT）是否可以用于接收机自主完好性监测

VisionTransformer（ViT）forRAIM**1.ViT在RAIM中的适用性分析****（1）空间相关性建模****（2）动态场景适应性****（3）计算效率优化****2.具体应用案例与技术实现

单北斗SLAMer·2025-05-11 08:01

AI是如何一键生成高清美女图的？从文生图到AI写真图的秘密

/download/u013177034/90487548AI一键生成美女图：超实用Python代码#首先，确保安装好了以下依赖（建议用Colab或虚拟环境跑）#pipinstalldiffuserstransformersacceleratesafetensorstorchtorchvisionfr

人工之梦·2025-05-11 06:17

聊聊Spring AI Alibaba的SentenceSplitter

SpringAIAlibaba的SentenceSplitterSentenceSplitterspring-ai-alibaba-core/src/main/java/com/alibaba/cloud/ai/transformer

hello_ejb3·2025-05-11 05:42

从零实现基于Transformer的英译汉任务

1.model.py（用的是上一篇文章的代码：从0搭建Transformer-CSDN博客）importtorchimporttorch.nnasnnimportmathclassPositionalEncoding

AlexandrMisko·2025-05-11 01:42

神经网络开发实战：从零基础到企业级应用（含CNN、RNN、BP网络代码详解）

从基础的感知机到复杂的Transformer架构，从图像识别到自然语言处理，神经网络技术的演进推动了人工智能的快速发展。

Android洋芋·2025-05-10 23:57

大语言模型主流架构解析：从 Transformer 到 GPT、BERT

友情提示：本文内容由银河易创AI（https://ai.eaigx.com）创作平台的gpt-4-turbo模型生成，旨在提供技术参考与灵感启发。文中观点或代码示例需结合实际情况验证，建议读者通过官方文档或实践进一步确认其准确性。在自然语言处理（NLP）的研究与应用中，大语言模型（LargeLanguageModel,LLM）近年来取得了显著的进展。大语言模型凭借其强大的上下文理解与生成能力，已被

字节旅行·2025-05-10 22:53

AI与自然语言处理（NLP）：从BERT到GPT的演进

从BERT到GPT的演进系统化学习人工智能网站（收藏）：https://www.captainbed.cn/flu文章目录AI与自然语言处理（NLP）：从BERT到GPT的演进摘要引言技术架构演进：从Transformer

layneyao·2025-05-10 21:42

深入浅出：AIGC条件生成模型架构解析

深入浅出：AIGC条件生成模型架构解析关键词：AIGC、条件生成模型、生成对抗网络、变分自编码器、Transformer、扩散模型、多模态生成摘要：本文系统解析AIGC（人工智能生成内容）领域中条件生成模型的核心架构与技术原理

AI天才研究院·2025-05-10 17:21

2025最详细的学习路线，零基础入门大模型教程，让你少走99%弯路！【值得收藏】

Transformer架构解析。预训练、SFT、RLHF。第三阶段：编程基础与工具使用目标：掌握大

AGI大模型学习·2025-05-10 14:03

开源python-打包发布

python开源系列文章开源Python-单元测试开源python-文档撰写开源python-代码规范与检查开源python-打包发布开源python-自动集成开源python-向transformers

YueTann·2025-05-10 11:38

【LLM】6：大语言模型中的 KV 缓存机制

1.KV缓存的背景在Transformer模型的推理阶段（例如在机器翻译、文本生成等任务中），每生成一个新的token时，模型需要重新计算该位置的自注意力分数。

月涌大江流丶·2025-05-10 10:03

BERT的变种

BERT双向的TransformerEncoder。

jzwei023·2025-05-10 10:01

大模型算法面试|阿里二面凉了：Transformer为何要用KV缓存？

这篇文章，我们就从面试官的视角，来拆解这个Transformer的面试连环炮。如果是你在面试现场被这些问题“轰炸”，到底该咋回答呢？嘿嘿，一起看看吧！01为什么Transformer推理要做KV缓存？

AI小白熊·2025-05-10 10:29

《AI架构的认知革命：构建具有自我意识的智能系统》

通过剖析DeepMind的"自省架构"和OpenAI的"自我认知Transformer"

好好好cdnm（原hhhcdnm）·2025-05-10 09:24

在Mac M1/M2上使用Hugging Face Transformers进行中文文本分类（完整指南）

在MacM1/M2上使用HuggingFaceTransformers进行中文文本分类（完整指南）前言随着AppleSilicon芯片（M1/M2）的普及，越来越多的开发者希望在Mac上运行深度学习任务

zeroporn·2025-05-10 08:22

CUDA：out of memory的解决方法（实测有效）

这个问题可能由几个因素引起：模型和数据规模：深度学习模型尤其是大型模型，如Transformer或大型CNN，拥有大量的参数，这些参数在训练时需要被加载到GPU显存中。

摆烂仙君·2025-05-09 20:30

探索视频分类的新境界：`video-transformers`

探索视频分类的新境界：video-transformersvideo-transformersEasiestwayoffine-tuningHuggingFacevideoclassificationmodels

高慈鹃Faye·2025-05-09 20:58

机器学习与深度学习

机器学习的分类1.监督学习2.无监督学习3.强化学习（二）机器学习的应用场景二、深度学习（一）深度学习的核心原理（二）常见的深度学习模型1.卷积神经网络（CNN）2.循环神经网络（RNN）及其变体3.Transformer

水花花花花花·2025-05-09 16:28

LLM 大模型学习必知必会系列(四)：LLM训练理论篇以及Transformer结构模型详解

LLM大模型学习必知必会系列(四)：LLM训练理论篇以及Transformer结构模型详解1.模型/训练/推理知识介绍深度学习领域所谓的“模型”，是一个复杂的数学公式构成的计算步骤。

汀、人工智能·2025-05-09 14:16

【人工智能核心技术全景解读】从机器学习到深度学习实战

技术背景与价值当前技术痛点️解决方案概述目标读者说明一、技术原理剖析核心概念图解核心作用讲解关键技术模块说明⚖️技术选型对比二、实战演示️环境配置要求️核心代码实现案例1：图像分类（CNN）案例2：文本情感分析（Transformer

满怀1015·2025-05-09 13:42

深入解析 Transformers 框架（五）：嵌入（Embedding）机制和 Word2Vec 词嵌入模型实战

微信公众号：老牛同学公众号标题：深入解析Transformers框架（五）：嵌入（Embedding）机制和Word2Vec词嵌入模型实战公众号链接：https://mp.weixin.qq.com/s

老牛同学·2025-05-09 09:14

SwinTransformer改进（10）：Efficient Multi-scale Attention (EMA) 增强的 Swin Transformer 模型

1.介绍本文将深入分析一个结合了EfficientMulti-scaleAttention(EMA)模块的SwinTransformer模型实现。

点我头像干啥·2025-05-09 05:24

26备战秋招day19——VIT

VisionTransformer(ViT)：变革计算机视觉的新架构VisionTransformer(ViT)是计算机视觉领域的一个重大突破，它将自然语言处理中的Transformer架构应用到图像处理任务中

如意鼠·2025-05-09 05:52

【论文阅读】Packing Input Frame Context in Next-Frame Prediction Models for Video Generation

无论视频有多少帧，Transformer的输入长度都不变。解决了随着视频

s1ckrain·2025-05-09 04:15

GPT与LLaMA：两大语言模型架构的深度解析与对比

引言自2017年Transformer架构问世以来，自然语言处理（NLP）领域经历了革命性突破。

一休哥助手·2025-05-09 03:12

基于Transformer的算力供需动态平衡算法研究与实践

本文提出一种基于Transformer架构的算力需求预测模型，通过动态感知-预测-调度机制，实现算力资源的智能化供需平衡，为构建新一代AI算力基础设施提供新思路。一、现有方法

九章云极AladdinEdu·2025-05-09 01:26

OpenAI Codex——通过自然语言输入理解编程需求，并生成相应的代码

它基于GPT（GenerativePre-trainedTransformer）技术的改进版本，能够理解多种编程语言并生成有用的代码段。

爱研究的小牛·2025-05-08 18:08

无网络环境下配置并运行 word2vec复现.py

importtorchimportpandasaspdimportjiebaimporttorchimporttorch.nnasnnfromtqdmimporttqdmfromtorch.utils.dataimportDataLoader,DatasetfromtransformersimportAutoTokenizer

风筝超冷·2025-05-08 16:25

基于Transformer模型的音-字转换及代码实现

Transformer是Google的团队在2017年提出的一种NLP经典模型，现在比较火热的Bert、GPT也都是基于Transformer。

bullnfresh·2025-05-08 07:03

Transformer处理文本分类实例(Pytorch)

文章目录项目开源:GIT地址Transformer处理文本分类实例参考网站我们构建一个实例问题,预测AG_NEWS的文本分类AG_NEWS数据集介绍预测目标总体思路(简述)主要流程数据预处理dataset

TomcatLikeYou·2025-05-08 01:22

大模型技术全景解析：从基础架构到应用生态

#aigc#大模型#gpt一、基础架构·底层架构·Transformer：基于自注意力机制的深度学习架构，是众多大语言模型的核心技术底座。

阿飞快码·2025-05-08 00:17

AI 学习笔记：在 Macbook M1上对 DeepSeek进行无 GPU 环境下的 SFT微调，Transformers+LoRA，已跑通并出结果。

一、背景通用模型除了挂载知识库，去回答垂类问题以外，还有就是做SFT的微调，而大多数人其实是没有英伟达显卡的，但又挡不住学习的渴望，还想在老旧的电脑上去尝试微调，而我翻看了很多教程，都没有一个完整能够完全跑通的完整案例，决定一定要整一个出来。二、目标在没有专业显卡的普通笔记本上去做Deepseek的微调，将它由一个通用模型改造为能够回答专业医疗问题的模型。它的特点是：微调电脑只有集成显卡，纯CPU

极极光·2025-05-07 23:42

推荐频道

TRansformer