TRANSFORM

大模型-FlashAttention 算法分析

随着Transformer变得越来越大、越来越深，但它在长序列上仍然处理的很慢、且耗费内存。（自注意力时间和显存复杂度与序列长度成二次方），现有近似注意力方法，

清风lsq·2025-07-03 05:46

变幻莫测：CoreData 中 Transformable 类型面面俱到（八）

不过，大家是否知道在CoreData中还存在一个Transformable类型，它到底是个啥？应用场景有哪些？在最新的SwiftData中有没有对应物？

大熊猫侯佩·2025-07-03 01:10

大模型学习（Datawhale_Happy-LLM）笔记7: Encoder-Decoder PLM

大模型学习（Datawhale_Happy-LLM）笔记7:Encoder-DecoderPLM1.Encoder-Decoder架构概述1.1架构基础Encoder-DecoderPLM是基于原始Transformer

lxltom·2025-07-02 23:31

SOTA是什么意思？

最近看到一篇关于Transformer模型的论文，谷歌推出的BERT模型在11项NLP（naturallanguageprocessing）任务中夺得SOTA结果，引爆了整个NLP界。

有奇妙能力吗·2025-07-02 21:45

AI人工智能领域深度学习的跨模态检索技术

AI人工智能领域深度学习的跨模态检索技术关键词：跨模态检索、深度学习、多模态学习、特征提取、相似度计算、注意力机制、Transformer摘要：本文深入探讨了AI领域中基于深度学习的跨模态检索技术。

AI学长带你学AI·2025-07-02 18:20

LeetCode423. Reconstruct Original Digits from English

outputthedigitsinascendingorder.Note:InputcontainsonlylowercaseEnglishletters.Inputisguaranteedtobevalidandcanbetransforme

tigerhuli·2025-07-02 15:29

Dimba: Transformer-Mamba Diffusion Models————3 Methodology

图解图片中的每个模块详解1.文本输入(Text)描述：输入的文本描述了一个具有具体特征的场景。功能：提供关于要生成图像的详细信息。2.T5模型(TexttoFeature)描述：使用T5模型将文本转换为特征向量。功能：提取文本中的语义信息，为后续的图像生成提供条件。3.图像输入(Image)描述：输入图像通过变分自编码器(VAE)编码器处理。功能：将图像转换为潜在表示，用于添加噪声并进行扩散过程。

·2025-07-02 12:05

从零开始理解Transformer模型：架构与应用

引言近年来，Transformer模型席卷了自然语言处理（NLP）领域，成为了深度学习中的明星架构。

淮橘√·2025-07-02 11:29

『大模型笔记』KV缓存：Transformer中的内存使用！

『大模型笔记』KV缓存：Transformer中的内存使用！文章目录一.KV缓存：Transformer中的内存使用！

AI大模型前沿研究·2025-07-02 05:46

大语言模型（LLM）笔记

LLM（LargeLanguageModel）是基于Transformer架构构建，并在海量文本语料上训练出的具备自然语言理解和生成能力的深度神经网络模型。

笑衬人心。·2025-07-02 03:59

AI编程实战：Cursor黑科技全解析

技术构建跨文件语义图谱，实现类/函数级上下文感知实时生成UML时序图辅助架构设计（快捷键Ctrl+Alt+U）多模态编程#输入："PyTorch实现ResNet50猫狗分类，带数据增强"@AI生成代码transform

ithadoop·2025-07-01 18:51

【Transformer论文】通过蒙面多模态聚类预测学习视听语音表示

文献题目：LEARNINGAUDIO-VISUALSPEECHREPRESENTATIONBYMASKEDMULTIMODALCLUSTERPREDICTION发表时间：2022发表期刊：ICLR摘要语音的视频记录包含相关的音频和视觉信息，为从说话者的嘴唇运动和产生的声音中学习语音表示提供了强大的信号。我们介绍了视听隐藏单元BERT(AV-HuBERT)，这是一种用于视听语音的自我监督表示学习框架

Wwwilling·2025-07-01 13:24

告别GPU焦虑：如何在纯CPU服务器上，打造高性能Embedding服务？

一开始，我们图方便，直接从HuggingFace上拉了当时效果最好的BAAI/bge-m3模型，用transformers库一把梭。结果呢？

ezl1fe·2025-07-01 10:02

当前最好的0样本文本转语音是哪个模型？

MegaTTS3（字节跳动&浙江大学）‌‌核心优势‌：仅需‌3-10秒‌参考音频即可精准克隆音色，支持中英混合语音自然切换1112轻量化设计（0.45B参数），实时生成延迟低于400ms11采用‌DiffusionTransformer

skywalk8163·2025-07-01 05:00

DiNA：扩张邻域注意力 Transformer

摘要Transformer正迅速成为跨模态、跨领域和跨任务中应用最广泛的深度学习架构之一。

AI专题精讲·2025-06-30 13:44

Java使用documents4j将word和excel转pdf

pom.xml添加documents4j依赖com.documents4jdocuments4j-local1.0.3com.documents4jdocuments4j-transformer-msoffice-word1.0.3&

药岩·2025-06-30 12:37

DeepSeek：AI驱动的效率革命与实战案例解

一、技术革新：DeepSeek的核心竞争力深度学习赋能DeepSeek的技术架构基于BERT、Transformer等先进深度学习模型，通过构建复

weixin_45788582·2025-06-30 10:52

nlp遇到的问题

1.AttributeError:'CodeGenTokenizer'objecthasnoattribute'encoder'pipinstalltransformers==4.33.22.ImportError

·2025-06-30 04:49

【大模型】Transformer架构完全解读：从“盲人摸象“到“通晓万物“的AI进化论

Transformer架构完全解读：从"盲人摸象"到"通晓万物"的AI进化论——一位大模型探索者的技术日记☕第一章：为什么说Transformer是AI界的"蒸汽机革命"？

全栈追梦人·2025-06-29 23:21

SeaTunnel2.1.1源码解析

目录一：启动脚本解析二：源码解析入口2.execute()核心方法1.其中BaseSource、BaseTransform、BaseSink都是接口、都实现Plugin接口。

Adobee Chen·2025-06-29 16:58

Apache SeaTunnel Flink引擎执行流程源码分析

FlinkExecution的创建与初始化3.1核心组件初始化3.2关键对象说明4.任务执行：FlinkExecution.execute()5.Source处理流程5.1插件初始化5.2数据流生成6.Transform

Code Monkey’s Lab·2025-06-29 16:26

【2024 CVPR-Backbone】RepViT: Revisiting Mobile CNN From ViT Perspective

摘要近期，轻量级视觉Transformer（ViT）在资源受限的移动设备上表现出比轻量级卷积神经网络（CNN）更优异的性能和更低的延迟。

无敌悦悦王·2025-06-29 10:45

使用vllm部署 Nanonets-OCR-s

一、环境准备与依赖安装1.安装vLLM与多模态依赖#安装vLLM（含CUDA加速）pipinstallvllm==0.3.21#建议使用稳定版本pipinstalltransformers==4.35

没刮胡子·2025-06-28 23:20

day39

importtorchimporttorch.nnasnnimporttorch.optimasoptimfromtorch.utils.dataimportDataLoader,Dataset#DataLoader是PyTorch中用于加载数据的工具fromtorchvisionimportdatasets,transforms

心落薄荷糖·2025-06-28 21:40

LLaMA Factory 微调后，迁移模型

方法1：使用HuggingFaceHub（最推荐）fromtransformersimportAutoModelForCausalLM,AutoTokenizer#在源服务器上保存模型到Hubmodel.push_to_hub

激进小猪1002·2025-06-28 18:17

FB-OCC: 3D Occupancy Prediction based on Forward-BackwardView Transformation

NVidia，CVPR20233DOccupancyPredictionChallengeworkshoppaper：https://arxiv.org/pdf/2307.1492code：https://github.com/NVlabs/FB-BEV大参数量imagebackboneInternImage-H，1B外部数据集预训练：object365nuscenes：有点云label，强化网络

justtoomuchforyou·2025-06-28 16:55

实现网页中CSS图片3D旋转效果

本文详细介绍了实现CSS图片3D旋转效果所需的CSS属性，如transform,perspective,transition,以及:hover选择器，并提供了一个简单的代码示例。

Kiki-2189·2025-06-28 12:32

Transformer底层原理解析及基于pytorch的代码实现

1.Transformer底层原理解析1.1核心架构突破Transformer是自然语言处理领域的革命性架构，其核心设计思想完全摒弃了循环结构，通过自注意力机制实现全局依赖建模。

LiRuiJie·2025-06-28 11:24

大模型笔记10：LoRA微调

Transformer中微调哪些参数：LoRA的改进版本

errorwarn·2025-06-28 09:41

大语言模型(LLM)量化基础知识(一)

随着大型语言模型(LLM)的参数数量的增长,与其支持硬件（加速器内存）增长速度之间的差距越来越大，如下图所示：上图显示，从2017年到2022年，语言模型的大小显著增加：2017年：Transformer

-派神-·2025-06-27 23:42

基于Transformer实现机器翻译

目录一、前言1.1什么是Transformer?

yyyyurina.·2025-06-27 20:17

信号处理算法：快速傅里叶变换(FFT)_（2）.FFT算法的原理与实现

FFT算法的原理与实现1.引言快速傅里叶变换（FastFourierTransform,FFT）是一种高效的算法，用于计算离散傅里叶变换（DiscreteFourierTransform,DFT）及其逆变换

kkchenkx·2025-06-27 19:06

快速傅里叶变换(FFT)是什么？

DFT全称：**DiscreteFourierTransform（离散傅里叶变换）想象你有一段数字化的信号（比如一段音频采样、图像像素数据、

Yashar Qian·2025-06-27 18:05

基于大模型的短暂性脑缺血发作（TIA）全流程预测与诊疗辅助系统技术方案大纲

术后康复全周期二、系统架构模块1.术前预测模块高危人群筛查模型输入：电子健康记录(EHR)、基因数据、可穿戴设备实时监测特征工程：血压波动模式、颈动脉斑块稳定性评分TIA发作概率预测72小时预警模型（LSTM+Transforme

LCG元·2025-06-27 18:34

LLM推理入门实践：基于 Hugging Face Transformers 和 vLLM

文章目录1.HuggingFace模型下载2.HuggingFaceTransformers库模型推理3.关于prompt的组成：system、user、assistant4.vLLM模型推理vLLM的多卡推理踩坑

ctrl A_ctrl C_ctrl V·2025-06-27 17:57

用生活例子讲透Transformer，大模型为何强大

想象一下，你现在是个翻译员，手头有一本厚厚的英文书，要把它翻译成中文。这可不是个轻松活儿！以前的翻译方法（老派翻译官：RNNs）过去，我们的电脑（也就是老模型，比如RNNs）是这样翻译的：就像一个超级认真的翻译官，他会逐字逐句地读英文书。他读到一个英文词时，会琢磨这个词之前讲了什么，以及他到现在为止记住了多少内容，然后才决定怎么翻译。这种方法有两个大毛病：太慢，不能分工合作：就像一个翻译官，他必须

九章云极DataCanvas·2025-06-27 15:13

一些针对FOC算法的 Clark/Park变换和 SVPWM生成的案例代码

1.Python仿真示例(1)Clark/Park变换实现importnumpyasnpdefclark_transform(ia,ib,ic):"""Clark变换（幅值不变，k=2/3）"""i_alph

鹿屿二向箔·2025-06-27 13:29

GRU与Transformer结合：新一代序列模型

GRU与Transformer结合：新一代序列模型关键词：GRU、Transformer、序列模型、结合、深度学习摘要：本文深入探讨了GRU与Transformer结合所形成的新一代序列模型。

AI大模型应用工坊·2025-06-27 11:48

工具分享-从ibd文件中恢复数据的神器ibd2sql

2.ibd2sql简介ibd2sqlistooloftransformmysqlibdfiletosql(da

GreatSQL社区·2025-06-27 02:44

⼤模型（LLMs）基础⾯

⽬前主流的开源LLM（语⾔模型）模型体系包括以下⼏个：1.GPT（GenerativePre-trainedTransformer）系列：由OpenAI发布的⼀系列基于Transformer架构的语⾔模型

cv2016_DL·2025-06-27 01:04

PD分离与EP分离技术

一、Prefill与Decode的底层原理剖析1.1Prefill阶段的数学本质（以Transformer架构为例）计算密集型的核心原因：#自注意力计算伪代码Q=X@W_Q#[batch,seq_len

静谧之心·2025-06-27 00:33

Java如何导出word(根据模板生成),通过word转成pdf,放压缩包

betaorg.apache.poipoi4.1.2org.apache.poipoi-ooxml4.1.2org.apache.poipoi-scratchpad4.1.2com.documents4jdocuments4j-local1.0.3com.documents4jdocuments4j-transformer-msoffice-wor

R-sz·2025-06-26 20:31

使用Hugging Face的Sentence Transformers进行文本嵌入

概述HuggingFace的SentenceTransformers是一种用于生成文本和图像嵌入的Python框架，提供了最新的技术。

2501_92325368·2025-06-26 11:34

Kaggle金牌方案复现：CGO-Transformer-GRU多模态融合预测实战

1背景分析在2023年Kaggle"GlobalMultimodalDemandForecastingChallenge"竞赛中，CGO-Transformer-GRU方案以领先第二名1.8个百分点的绝对优势夺冠

·2025-06-26 03:04

LSTM、GRU 与 Transformer网络模型参数计算

hidden_size+hidden_size²+hidden_size)4个门控结构GRU3×(embed_dim×hidden_size+hidden_size²+hidden_size)3个门控结构Transformer

suixinm·2025-06-26 00:44

多头注意力机制中全连接函数

在神经网络（特别是Transformer中的多头注意力机制）中，全连接函数（FullyConnectedLayer,FCLayer）通常指的是一个线性变换层，即nn.Linear在PyTorch中的实现

不知更鸟·2025-06-25 23:05

大语言模型全流程开发技术详解：从架构、训练到对齐与量化

github.com/mlabonne/llm-course大语言模型全流程开发技术详解：从架构、训练到对齐与量化大模型实战指南：多模型生态实战与论文解读一、LLM架构（TheLLMarchitecture）不需要对Transformer

艾墨舟启航·2025-06-25 20:46

ArduinoFFT库版本差异导致峰值频率提取问题分析

ArduinoFFT库版本差异导致峰值频率提取问题分析arduinoFFTFastFourierTransformforArduino项目地址:https://gitcode.com/gh_mirrors

尤颖贝Dora·2025-06-25 18:32

预训练语言模型

1.1Encoder-onlyPLMEncoder-only架构是Transformer的重要分支，专注于自然语言理解（NLU）任务，核心代表是BERT及其优化模型（RoBERTa、ALBERT）。

lynnzon·2025-06-25 11:10

大模型学习（Datawhale_Happy-LLM）笔记4: 预训练语言模型

大模型学习（Datawhale_Happy-LLM）笔记4:预训练语言模型一、概述本章按Encoder-Only、Encoder-Decoder、Decoder-Only的顺序来依次介绍Transformer

lxltom·2025-06-25 11:09

推荐频道