MiHao_YOUNG

Transformer系列论文阅读

这是博主在五一期间对Transformer几篇相关论文阅读的小笔记和总结
也借鉴参考了很多大佬的优秀文章，链接贴在文章下方，推荐大家前去阅读

该文章只是简单叙述几个Transformer模型的基本框架，对其详细信息（如实验情况等）请阅读论文或点击下方对应文章链接前往阅读

阅读论文

A Survey on Visual Transformer[1]

Transformers in Vision: A Survey[2]

An Image Is Worth 16X16 Words: Transformers for Image Recognition at Scale[3]

Swin Transformer: Hierarchical Vision Transformer using Shifted Windows[4]

Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions[5]

Transformer in Transformer[6]

ConvBERT: Improving BERT with Span-based Dynamic Convolution[7]

Tokens-to-Token ViT: Training Vision Transformers from Scratch on ImageNet[8]

AutoTrans: Automating Transformer Design via Reinforced Architecture Search[9]

综述

[1]，[2]讲述了目前Visual Transformer的爆火和Transformer在CV方面的各种应用，

虽然Transformer爆火，但目前CV领域还是由CNN主导

但人们依然很看好Transformer在CV领域的应用于前景，希望将Transformer迁移到CV领域中，

主要分为两大类

将self-attention机制与常见的CNN架构结合
用self-attention机制完全替代CNN，如[3]，[4]，[5]

[3]提出VIT模型，应用于CV领域的Image Classification，在大规模数据上训练的得到的模型达到不错的效果

[4]提出Swin Transformer模型，基于VIT模型的改进，应用于Image classification，Object detection，Semantic segmentation

[5]提出Pyramid Vision Transformer模型，基于VIT模型的改进，应用于Object detection，Semantic segmentation

[6]提出Transformer in Transformer模型，应用于Image benchmark and downstream tasks

[7]提出ConvBERT模型，基于BERT的预训练语言模型

[8]提出Tokens-to-Token ViT模型，基于VIT模型改进

[9]讨论了Transformer Model 的自动化设计，对于layer-norm的位置，个数，attention head 的个数，使用哪个激活函数的问题

VIT

VIT是早期提出用于CV中Image classification的结构，虽然存在着不足，但对最近Swin Transformer，Pyramid Vision Transformer等模型提出提供了宝贵经验。

Transformer在NLP中处理的是序列化的数据，而CV中处理的是三维的图像数据（H，W，C）

所以，VIT提出了Patch划分的方法，将三维图像数据转化为序列化数据

基础模型

将图像转化为序列化数据
- 将图像划分为一个个Patch，对这一系列Patch进行reshape，从而得到序列化的Patch数据，即Flattened Patch
对于一张 $\times W \times C$ 的图片，采用 $\times P$ 的Patch来划分，得到 $N=\frac{H}{P} \times \frac{W}{P}$ 个patch( $P\times P\times C$ )，reshape后得到维度 $P^2C$ 的Flattened Patch(向量)，对N个Flattened Patch进行concat之后得到一个 $N\times (P^2C)$ 的二维矩阵，相对于NLP中输入Transformer的Word Embedding
- Linear Projection：对维度 $P^2C$ 的Flattened Patch进行维度转化，得到固定长度 $D$ 的特征向量
  - 防止模型结构受Patch大小的影响
综上，原本 $\times W \times C$ 的图片转化为了 $N 个 D$ 维向量（或一个 $\times D$ 的二维矩阵）
Position embedding
- 0-9的紫色框表示各个位置的position embedding，粉色框为经过Linear Projection后的Flattened Patch，二者相加
Learnable embedding
- 分类标志位[class]，即图中0编号，它经过Encoder后的结果作为整个图像的表示
- 假如随意指定1-9作为整个图像的表示，则会导致整体表示偏向这个Embedding信息，即图像表示偏重于反映某个Patch
Transformer Encoder
- 第一层输入， $x$ 表示一个Patch， $E$ 表示Linear Projection转化矩阵
  $z_0=[x_{class};x^1_pE;...x_p^NE]+E_{pos}\\ E\in \Bbb R^{(P^2·C)\times D},E_{pos}\in \Bbb R^{(N+1)\times D}$
- 对于第 $l$ 层
$z^{'}_l=MSA(LN(z_{l-1}))+z_{l-1}\\ z_l=MLP(LN(z^{'}_l))+z^{'}_l\\ l = 1...L$
- 每个块后使用Residual connection，每个块前使用Layernorm

不足

在中等大小的数据集（如 ImageNet）上训练得到的VIT模型准确率低于CNN模型

Swin

Swin Transformer基于VIT进行了改进，可以作为通用backone，应用于Image classification，Object detection，Semantic segmentation

引入层次化结构
- 解决CV领域scale变化范围大的问题
将self-attention计算限制在local window中
- 解决CV使用Transformer计算复杂度为图像size二次方的问题
支持cross-window connection

基础模型

创新

引入stage，随着网络深度增加，合并patch

使用基于Shifted Windows的W-MSA替换标准的MSA

提出Shifted Window划分

Stage

引入4个stage，每个stage的操作类似于上述的VIT模型

区别

Swin随着网络深度的加深，patch的数量在不断减少，且每个patch的感知范围在不断扩大，而VIT模型的patch保持不变

Patch Partition：如VIT模型将图像转化为序列化数据，将原始图像划分为一个个Patch，但彼此不重叠
- 根据设置的Patch大小（ $\times 4$ ），对输入的Image（ $H\times W\times 3$ ）划分为 $\frac{H}{4} \times \frac{W}{4}$ 个Patch
- 将原始图像的像素值作为其 Feature
- 每个Patch的维度为 $\times 4 \times 3 = 48$
Stage1
- Linear Embedding：将 Feature 映射到任意维度，记作 $C$
- Transformer Block：进行Self-Attention运算，不改变token数量
Stage2
- Patch Merging：对 $\times 2$ 的相邻Patch进行合并，通过linear layer将Feature映射到 $4 C$ 维度
  - 合并过后，Patch数量降为 $\frac{1}{4}$ ，MLP作用后，维度为 $2 C$
Stage3，Stage4
- 类似于Stage2，最终得到一个层次化的结构

W-MSA

每个window包含 $\times M$ 个patch，整个图像包含 $\times w$ 个patch，总共 $\frac{h}{4} \times \frac{w}{4}$ 个Patch

复杂度计算
$\Omega(MSA) = 4hwC^2 + 2(hw)^2C\\ \Omega(W-MSA)=4hwC^2 + 2M^2hwC$
当 $M$ 固定大小时， $\Omega(W-MSA)$ 为线性增长

Shifted Window 划分

在连续的Swin Transformer Block之间交替进行两种划分配置，进而保持 non-overlapped windows 的高效计算同时引入 cross-window connection

Layer1：将 $8\times 8$ 的Feature Map 划分为 $\times 2$ 个window，每个window大小为 $\times4,即M=4$
Layer2：将Layer1的一系列window移动 $(\lfloor\frac{M}{2} \rfloor,\lfloor\frac{M}{2} \rfloor)$ 个像素

存在问题

可能会生成过多window，范围 $[\lceil\frac{h}{M} \rceil\times\lceil\frac{w}{M} \rceil,(\lceil\frac{h}{M} \rceil+1)\times(\lceil\frac{w}{M} \rceil+1)]$
生成window大小不一致，部分window较小

解决方案

Cyclic Shift

经过循环填补，Layer2的window划分类似于Layer1，此时的batch window由不相邻的sub-window构成，采用masking mechanism来限制seft attention在sub-window中的计算

不足

图像分类上比ViT、DeiT等Transformer类型的网络效果更好，但是比不过CNN类型的EfficientNet，猜测Swin Transformer还是更加适用于更加复杂、尺度变化更多的任务。

Swin Transformer没有提供类似反卷积的上采样的算法

每一个window的Q，K，V都是独立的，即没有CNN的权值共享特性

PVT

Pyramid Vision Transformer同样基于VIT模型进行改进，是一种使用Transformer模型的无卷积骨干网络，主要用于除图像分类外的密集预测任务。

引入金字塔结构
- Feature Map的分辨率随着网络加深，逐渐减小
- Feature Map 的Channel数随着网络加深，逐渐增大
- 解决了VIT模型中，输入高分辨率图像产生高内存占用甚至显存溢出的问题
PVT继承了CNN和Transformer的优势，通过简单的替换CNN骨干使其成为不同视觉任务的统一骨干结构
在object detection，semantic and instance segmentation 任务上取得优越性

基础模型

创新

引入stage，随着网络深度增加，Feature Map的分辨率，逐渐减小，Channel数，逐渐增大

使用**spatial-reduction attention(SRA)**替换标准的MSA

Stage

Stage1
- patch embedding：对输入的 $H\times W\times 3$ 图像(Feature Map)进行token化，设定其patch的大小 $p\times p$ ，将RGB图像划分为 $\frac{HW}{P^2}$ 个patch
  - 对这一系列的patch进行展开，然后传入linear projection中进行Patch Embedding
  - 将结果reshape后得到大小 $\frac{HW}{P^2}\times C$ 的embedded patch
- 将embedded patch 和其对应的position embedding 一起传入Transformer Encoder中
  - SRA处理：使用函数 $Reshape(x,R_i)$ 将传入的embedding patch进行变形，由 $\Bbb R^{(HW)\times C}$ 转换为 $\Bbb R^{\frac{HW}{R_i^2}\times(R_i^2C)}$ ，然后乘以一个 $W^s\in \Bbb R^{(R_i^2C)\times C}$ 矩阵，进而将原本的空间规模降为 $\frac{1}{R_i^2}$ ，即 $\Bbb R^{\frac{HW}{R_i^2}\times C}$ ，这是SRA的核心
- 将Transformer Encoder的结果进行reshape得到 $\frac{H}{P}\times\frac{W}{P}\times C$ Feature Map，即 $F_1$
Stage2，Stage3，Stage4
- 由上一个Stage的输出作为输入，重复流程

SRA

SRA的核心是减少K与V的空间规模，也就是对的数量，对比于MHA，K与V的空间规模降为其 $\frac{1}{R_i^2}$

处理过程
$SRA(Q,K,V)=Concat(head_0,...,head_{N_{i}})W^o\\ head_j=Attention(QW_j^Q,SR(K)W_j^V,SR(V)W_j^V)$
SR(·)为spatial-reduction operation， $W^s$ 是一个linear projection，它把input sequence的维度降到 $C_i$ 。
$SR(x)=Norm(Reshape(x,R_i)W^s)$

不足

随着输入图片的增大，PVT的资源消耗增长率比ResNet高

TNT

Transformer in Transformer，用于视觉识别

对patch-level和pixel-level representation都进行建模
- 解决VIT相关模型忽略了每个patch内部固有结构信息的问题
堆叠TNT Block来构建TNT模型

基础模型

创新

Inner Transformer Block用于提取pixel embedding的局部结构信息

Outer Transformer Block用于提取patch embedding的全局信息

通过Linear Projection将pixel embedding投影到patch embedding space

将输入图像划分为一个个Patch，
Unfold & Linear：将输入的Patch，转换为对应的Patch Embedding，Pixel Embedding
- Patch
  $\gamma_0=[Y_0^1,...Y_0^n]\in\Bbb R^{n \times p^{'}\times p^{'} \times c}\\ Y_0^i\in \Bbb R^{p^{'}\times p^{'} \times c}$
- Pixel
  $Y_0^i=[y_0^{i,1},...,y_0^{i,m}]\\ m=p^{'2}$
TNT Block
- inner transformer block
  $Y_l^{'i}=Y_{l-1}^{i}+MSA(LN(Y_{l-1}^{i}))\\ Y_l^{i}=Y_{l}^{'i}+MLP(LN(Y_{l}^{'i}))\\$
- outer transformer block 输入， $V e c ()$ 将Pixel展开成向量，b为bias
  $Z_{l-1}^i=Z_{l-1}^i+Vec(Y_{l-1}^{i})W_{l-1}+b_{l-1}$
- outer transformer block
  $Z_l^{'i}=Z_{l-1}^{i}+MSA(LN(Z_{l-1}^{i}))\\ Z_l^{i}=Z_{l}^{'i}+MLP(LN(Z_{l}^{'i}))\\$
- TNT block
  $\gamma_l,Z_l=TNT(\gamma_{l-1},Z_{l-1})$

position encoding

Pixel position encoding 在每一个Patch是共享的

ConvBERT

ConvBERT是一种基于span的动态卷积模型

提出span-based dynamic convolution来代替一些冗余的self-attention head
- 减少了预训练的计算花销，提高了local dependencies的建模能力
提出mixed attention block
- 结合span-based dynamic convolution和剩余的self-attention head
- 更高效地学习 global and local context
基于BERT结合mixed attention block，建立ConvBERT模型
- 在各种downstream tasks中表现比BERT及其变体模型优越
- 且更少的训练花销和更少的模型参数

基础模型

self-attention：使用所有token来捕获全局依赖关系，但由观察得知，BERT模型学习的更多是局部依赖关系
- 随着序列增长，复杂度呈现二次增长
- 故传统BERT模型存在大量冗余
dynamic convolution：使用一个Kernel Generator来为每一个word embedding生成自己的Kernel
- 但对于上下文相同的word生成的Kernel是相同的，无法解决一词多义的问题
span-based dynamic convolution：通过输入的word embedding和其周围的word embedding结合来生成Kernel
- 解决一词多义的问题

Span-based dynamic convolution

生成dynamic Kernel
$f(Q,K_s)=softmax(W_f(Q\circ K_s))$
span-based dynamic convolution公式
$SDConv(Q,K_s,V;W_f,i)=LConv(V,softmax(W_f(Q \circ K_s)),i)$
ConvBERT架构

Mixed Attention
- 结合Self-Attention和Span-based dynamic convolution
- Self-Attention捕获全局信息，Span-based dynamic convolution捕获局部信息

$$ MixedAttention(K,Q,K_s,V;W_f)=Cat(SelfAttention(Q,K,V),SDConv(Q,K_s,V;W_f)) $$

Bottleneck design for Self-Attention
- 使用bottleneck structure来减少attention head
- 将输入的embedding映射到更低维度
Grouped Feed-Forward module
- 对Feed-Forward的改进，减少参数数量
  $M=\prod_{i=0}^{g}[f_{\frac{d}{g} \rightarrow \frac{m}{g}}^i(H_{[:,i-1:i\times \frac{d}{g}]})\\ M^{'} = GeLU(M)\\ H^{'}=\prod_{i=0}^{g}[f_{\frac{d}{g} \rightarrow \frac{m}{g}}^i(M_{[:,i-1:i\times \frac{d}{g}]}^{'})]$

Tokens-to-Token ViT

Tokens-to-Token Vit是基于Vit模型进行改进的

提出Tokens-to-token
- 解决Vit无法对图像相邻像素的局部结构信息（边缘，线条，纹理）进行建模
- 对token进行局部建模，保留token局部结构信息并且减少token长度
结合了deep-narrow结构的高效backone
- 解决Vit冗余attention对feature richness的限制

基础模型

创新

Tokens to token Module：对图像的local structure 信息进行建模，并且减少了token的长度

re-structurization

soft split

T2T-ViT backone：应用了deep-narrow结构，减少了attention冗余，提高feature richness

Tokens to token Module

Re-structurization
- 对输入进行传统Transformer处理
  $T^{'}=MLP(MSA(T))$
- Reshape：将 $T^{'}\in \Bbb R^{l\times c}$ 转为 $\in \Bbb R^{h \times w\times c}$
  $I=Reshape(T^{'})$
Soft Split
- 建立local structure信息，减少token长度 $l$
- 避免re-structurization过程中信息丢失，在split中采取overlap机制，将每一个patch与其周围的patch联系起来，从而捕获周围pixel和patch的信息
  $l_0=\lfloor\frac{h+2p-k}{k-s}+1 \rfloor \times \lfloor\frac{w+2p-k}{k-s}+1 \rfloor$
  
  $T_{i+1}=SS(T_i)$

T2T-ViT backone

AutoTrans

comprehensive search space
- 对layer-norm的位置设置
PL strategy and parameter sharing strategy
- 对attention head数量的设置

参考文章

感谢下列文章提供的帮助，推荐大伙们阅读

用Transformer完全替代CNN

Swin Transformer对CNN的降维打击

大白话Pyramid Vision Transformer

Transformer in Transformer论文解读

ConvBERT：使用基于区间的动态卷积来提升BERT

【人工智能之大模型】阐述生成式语言模型的工作机理...（二） 985小水博一枚呀大大大模型知识点人工智能语言模型自然语言处理机器学习神经网络
【人工智能之大模型】阐述生成式语言模型的工作机理…（二）【人工智能之大模型】阐述生成式语言模型的工作机理…（二）文章目录【人工智能之大模型】阐述生成式语言模型的工作机理...（二）前言4.代码逐行解释TransformerBlock类初始化前向传播GenerativeLM类初始化前向传播推理示例测试生成5.总结欢迎宝子们点赞、关注、收藏！欢迎宝子们批评指正！祝所有的硕博生都能遇到好的导师！好的审稿
使用PyTorch搭建Transformer神经网络:入门篇 DASA13 pytorch transformer 神经网络
1.简介Transformer是一种强大的神经网络架构,在自然语言处理等多个领域取得了巨大成功。本教程将指导您使用PyTorch框架从头开始构建一个Transformer模型。我们将逐步解释每个组件,并提供详细的代码实现。2.环境设置首先,确保您的系统中已安装Python(推荐3.7+版本)。然后,安装PyTorch和其他必要的库:pipinstalltorchnumpymatplotlib3.P
初始OpenCV 指尖下的技术 OpenCV opencv 人工智能计算机视觉
OpenCV是一个功能强大、应用广泛的计算机视觉库，它为开发人员提供了丰富的工具和算法，可以帮助他们快速构建各种视觉应用。随着计算机视觉技术的不断发展，OpenCV也将会继续发挥重要的作用。OpenCV提供了大量的计算机视觉算法和图像处理工具，广泛应用于图像和视频的处理、分析以及机器学习领域。所以学习人计算机视觉或者图像处理方面的知识，OpenCV是一个要重点学习的工具库。首先介绍一下OpenCV
深入探讨盘古大模型的高精度多尺度能力 Hardess-god WRF 人工智能算法
随着人工智能技术的快速发展，大模型的研究逐渐进入新的阶段。其中，盘古大模型以其卓越的高精度和多尺度处理能力成为研究热点。本文将详细分析盘古模型在高精度多尺度问题上的技术特征、优势和应用潜力，并探讨其深入研究的方向。一、盘古模型概述盘古模型是华为推出的中文预训练大模型系列，拥有数十亿甚至千亿级的参数规模。它以Transformer架构为基础，通过海量文本数据进行训练，表现出优异的自然语言理解和生成能
CBNetV2: A Composite Backbone Network Architecture for Object Detection论文阅读 Laughing-q 论文阅读深度学习人工智能目标检测实例分割 transformer
CBNetV2:ACompositeBackboneNetworkArchitectureforObjectDetection论文阅读介绍方法CBNetV2融合方式对Assistant的监督实验与SOTA的比较在主流backbone架构上的通用性与更宽更深的网络比较与可变形卷积的兼容在主流检测器上的模型适用性在SwinTransformer上的模型适用性消融实验paper：https://arxi
Springboot使用itext及documents4j操作pdf（word转pdf、pdf加水印（文字或图片，可指定位置）、pdf加密（打开密码，编辑密码））爱编程的小飞哥 SpringBoot java itext
pom.xml引入com.documents4jdocuments4j-local1.0.3com.documents4jdocuments4j-transformer-msoffice-word1.0.3com.itextpdfitextpdf5.5.11com.itextpdfitext-asian5.2.0创建PDF操作工具类PdfUtilspackagecom.ruoyi.common.u
LLMs之minimind：minimind源码解读(pretrain.py)——实现基于Transformer架构的大规模语言模型预训练及wandb监控—支持余弦退火学习率调度/分布式预训练/自动混一个处女座的程序猿 NLP/LLMs CaseCode transformer minimind 预训练
LLMs之minimind：minimind源码解读(pretrain.py)——实现基于Transformer架构的大规模语言模型预训练及wandb监控—支持余弦退火学习率调度/分布式预训练/自动混合精度优化/梯度累积/梯度裁剪/定期保存模型目录minimind源码解读(pretrain.py)——实现基于Transformer架构的大规模语言模型预训练及wandb监控—支持余弦退火学习率调度/
【人工智能】大模型的幻觉问题：DeepSeek 的解决策略与实践蒙娜丽宁 Python杂谈人工智能人工智能
《PythonOpenCV从菜鸟到高手》带你进入图像处理与计算机视觉的大门！解锁Python编程的无限可能：《奇妙的Python》带你漫游代码世界大语言模型（LLM）的“幻觉”问题，即模型生成与事实不符或脱离上下文的内容，是限制其广泛应用的关键挑战之一。本文深入探讨了幻觉问题的成因，包括训练数据的偏差、推理过程中的过度泛化以及缺乏外部验证机制。以DeepSeek系列模型为研究对象，我们分析了其在解
AI时代个人财富增长实战指南：从零基础到精通变现的完整路径 A达峰绮人工智能
（本文基于人工智能技术发展规律，结合互联网经济底层逻辑，为普通从业者构建系统性AI应用框架）一、建立AI认知基础：技术理解与工具掌握技术分类认知人工智能工具分为四大功能模块：自然语言处理（文本生成、对话交互）、计算机视觉（图像视频处理）、数据分析（预测建模）、自动化控制（流程优化）。建议新手首先掌握语言类工具的基础操作，逐步扩展到其他领域。工具操作逻辑通用AI工具通常包含三大核心功能模块：输入界面
【北上广深杭大厂AI算法面试题】计算机视觉篇...如何解决多尺度问题？努力毕业的小土博^_^ AI算法题库人工智能算法计算机视觉深度学习神经网络
【北上广深杭大厂AI算法面试题】计算机视觉篇…如何解决多尺度问题？【北上广深杭大厂AI算法面试题】计算机视觉篇…如何解决多尺度问题？文章目录【北上广深杭大厂AI算法面试题】计算机视觉篇...如何解决多尺度问题？前言数据级别的多尺度模型架构上的多尺度表示FPN代码示例（PyTorch）说明其他多尺度处理方法总结欢迎铁子们点赞、关注、收藏！祝大家逢考必过！逢投必中！上岸上岸上岸！upupup大多数高校
Deepseek-R1-Distill-Llama-8B + Unsloth 中文医疗数据微调实战 LuckyAnJo LLM相关 llama python 自然语言处理人工智能
内容参考至博客与Bin_Nong1.环境搭建主要依赖的库(我的版本)：torch==2.5.1unsloth==2025.2.15trl==0.15.2transformers==4.49.0datasets=3.3.1wandb==0.19.62.数据准备-medical_o1_sft_Chinese经过gpt-o1的包含cot(思考过程)的中文医疗问答数据，格式与内容如下:"Question"
搜广推校招面经五十四 Y1nhl 搜广推面经搜索算法 python 推荐算法机器学习人工智能
美团推荐算法一、手撕Transformer的位置编码1.1.位置编码的作用Transformer模型没有显式的序列信息（如RNN的循环结构），因此需要通过位置编码（PositionalEncoding）为输入序列中的每个位置添加位置信息。位置编码的作用是：提供序列位置信息：帮助模型理解输入序列中元素的顺序。保持唯一性和连续性：确保每个位置的位置编码是唯一的，且相邻位置的位置编码是连续的。1.2.位
【面经&八股】搜广推方向：面试记录（十三）秋冬无暖阳° 搜广推等—算法面经面试职场和发展
【面经&八股】搜广推方向：面试记录（十三）文章目录【面经&八股】搜广推方向：面试记录（十三）1.自我介绍2.实习经历问答3.八股之类的问题4.编程题5.反问6.可以1.自我介绍。。。。。。2.实习经历问答挑最熟的一个跟他讲就好了。一定要熟~3.八股之类的问题极大似然估计和贝叶斯估计，区别与联系建议参考这个链接transformer为什么要使用多头关键点在于集成，使语义更加完善圆上随机去三个点，三个
一步到位！7大模型部署框架深度测评：从理论到DeepSeek R1:7B落地实战人肉推土机人工智能 python
本文在掘金同步发布：文章地址更多优质文章，请关注本人掘金账号：人肉推土机的掘金账号随着大语言模型（LLM）的广泛应用，如何高效部署和推理模型成为开发者关注的核心问题。本文深入解析主流模型部署框架（Transformers、ModelScope、vLLM、LMDeploy、Ollama、SGLang、DeepSpeed），结合其技术原理、优缺点及适用场景，并提供DeepSeekR1:7B的详细部署实
计算机视觉技术探索：美颜SDK如何利用深度学习优化美颜、滤镜功能？美狐美颜sdk 美颜SDK 美颜API 直播美颜SDK 计算机视觉深度学习直播美颜SDK 美颜sdk 第三方美颜sdk 美颜api
时下，计算机视觉+深度学习正在重塑美颜技术，通过智能人脸检测、AI滤镜、深度美肤、实时优化等方式，让美颜效果更加自然、精准、个性化。那么，美颜SDK如何结合深度学习来优化美颜和滤镜功能？本文将深入解析AI在美颜技术中的应用，并探讨其未来发展趋势。一、深度学习如何赋能美颜SDK？1.AI人脸检测与关键点识别：精准捕捉五官在美颜过程中，首先需要精准检测人脸位置和五官特征点，确保美颜效果不会失真。深度学
车牌识别技术揭秘：如何用 C# 实现自动车牌识别系统威哥说编程 c#开发语言
车牌识别（LicensePlateRecognition，LPR）是一项计算机视觉技术，用于自动识别车辆的车牌号码。在实际应用中，车牌识别技术被广泛用于停车场管理、交通监控和安防系统等领域。实现车牌识别系统的关键步骤包括图像预处理、车牌检测、字符分割、字符识别等。C#中可以通过结合OpenCV、EmguCV、TesseractOCR等工具来实现车牌识别系统。一、所需工具和库EmguCV：这是一个封
DeepSeek-R1大模型微调技术深度解析：架构、方法与应用全解析大势下的牛马搭建本地gpt 架构 deepseek 微调
1.DeepSeek-R1大模型架构设计与技术特性1.1架构设计DeepSeek-R1作为超大规模语言模型，其核心架构设计包含以下创新：专家混合架构（MoE）采用6710亿参数的混合专家架构（MoE），每个推理过程仅激活370亿参数，实现计算效率与资源利用率的突破性提升。Transformer框架增强基于改进型Transformer架构，结合多头注意力机制（MLA）与动态权重分配技术，优化了长程依
10.2 如何解决从复杂 PDF 文件中提取数据的问题？墨染辉大语言模型 pdf
10.2如何解决从复杂PDF文件中提取数据的问题？解决方案：嵌入式表格检索解释：嵌入式表格检索是一种专门针对从复杂PDF文件中的表格提取数据的技术。它结合了表格识别、解析和语义理解，使得从复杂结构的表格中检索信息成为可能。具体步骤：表格检测和识别：目标：在PDF页面中准确地定位和识别表格区域。方法：使用计算机视觉和深度学习技术，如卷积神经网络（CNN）或其他先进的图像处理算法。效果：能够检测出页面
3090显卡Ktransformer本地部署deepseek R1:70B SIATdog ai
这里写自定义目录标题效果完成视频：配置参考依赖安装安装cuda配置环境下载deepseekR170B下载ktransoformer开始安装运行Web启动常见问题runtimeerrordon'tmatch更新cudaERROR:Failedtobuildinstallablewheelsforsomepyproject.tomlbasedprojects(ktransformers)效果完成视频：
Softmax温度调节与注意力缩放：深度神经网络中的平滑艺术 Mark White dnn 人工智能神经网络
Softmax温度调节与注意力缩放：深度神经网络中的平滑艺术在深度学习的精密机械中，有些细微的调整机制往往被视为理所当然，却实际上蕴含着深刻的数学洞察和巧妙的工程智慧。今天，我们将探讨两个看似独立却本质相通的机制：生成模型中的温度参数与Transformer注意力机制中的缩放因子。这两个设计都围绕着同一个核心概念——softmax分布的平滑控制。Softmax函数：概率分布的催化剂在深入讨论之前，
探索Sfm-python: 一款强大的计算机视觉库缪昱锨Hunter
探索Sfm-python:一款强大的计算机视觉库去发现同类优质开源项目:https://gitcode.com/在计算机视觉领域，Sfm-python是一个值得关注的开源项目，它以简洁高效的Python接口提供结构化从运动（StructurefromMotion,SfM）算法。如果你对3D重建、图像匹配或地理定位有兴趣，那么这个项目将是你不可或缺的工具。让我们一起深入了解一下它的技术细节、应用场景
机器学习是怎么一步一步由神经网络发展到今天的Transformer架构的？ yuanpan 机器学习神经网络 transformer
机器学习和神经网络的发展经历了一系列重要的架构和技术阶段。以下是更全面的总结，涵盖了从早期神经网络到卷积神经网络之前的架构演变：1.早期神经网络：感知机（Perceptron）时间：1950年代末至1960年代。背景：感知机由FrankRosenblatt提出，是第一个具有学习能力的神经网络模型。它由单层神经元组成，可以用于简单的二分类任务。特点：输入层和输出层之间直接连接，没有隐藏层。使用简单的
常见经典目标检测算法 109702008 人工智能 #深度学习目标检测人工智能
ChatGPT目标检测（ObjectDetection）是计算机视觉领域的一个重要分支，其目的是识别数字图像中的不同对象，并给出它们的位置和类别。近年来，许多经典的目标检测算法被提出并广泛应用。以下是一些常见的经典目标检测算法：1.R-CNN（RegionswithCNNfeatures）:R-CNN通过使用区域提议方法（如选择性搜索）首先生成潜在的边界框，然后使用卷积神经网络(CNN)提取特征，
《深度剖析：BERT与GPT——自然语言处理架构的璀璨双星》人工智能深度学习
在自然语言处理（NLP）的广袤星空中，BERT（BidirectionalEncoderRepresentationsfromTransformers）与GPT（GenerativePretrainedTransformer）系列模型宛如两颗最为耀眼的星辰，引领着NLP技术不断迈向新的高度。它们基于独特的架构设计，以强大的语言理解与生成能力，彻底革新了NLP的研究与应用范式，成为学界和业界竞相探索
Hugging Face预训练GPT微调ChatGPT（微调入门！新手友好！） y江江江江机器学习大模型 gpt chatgpt
HuggingFace预训练GPT微调ChatGPT（微调入门！新手友好！）在实战中，⼤多数情况下都不需要从0开始训练模型，⽽是使⽤“⼤⼚”或者其他研究者开源的已经训练好的⼤模型。在各种⼤模型开源库中，最具代表性的就是HuggingFace。HuggingFace是⼀家专注于NLP领域的AI公司，开发了⼀个名为Transformers的开源库，该开源库拥有许多预训练后的深度学习模型，如BERT、G
YOLOv12优化：图像去噪 | AAAI2025 Transformer |一种基于Transformer的盲点网络（TBSN）架构，结合空间和通道自注意力层来增强网络能力 AI小怪兽 YOLOv12魔术师 YOLO transformer 深度学习人工智能 python
提出了一种基于Transformer的盲点网络（TBSN）架构，通过分析和重新设计Transformer运算符以满足盲点要求。TBSN遵循扩张BSN的架构原则，并结合空间和通道自注意力层来增强网络能力。如何使用：1）结合C3k2二次创新使用；2）结合A2C2f二次创新使用；亮点包括：1.提出了一种新的基于Transformer的盲点网络（TBSN）架构；2.引入了知识蒸馏策略来提高计算效率；3.在
【人工智能】注意力机制深入理解问道飞鱼机器学习与人工智能人工智能注意力机制
文章目录**一、注意力机制的核心思想****二、传统序列模型的局限性****三、Transformer与自注意力机制****1.自注意力机制的数学公式****四、注意力机制的关键改进****1.稀疏注意力（SparseAttention）****2.相对位置编码（RelativePositionEncoding）****3.图注意力网络（GraphAttentionNetwork,GAN）****
Transformer与图神经网络的融合与应用 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Transformer与图神经网络的融合与应用关键词：Transformer,图神经网络,注意力机制,图结构数据,图表示学习,图分类,图生成1.背景介绍近年来，深度学习技术在各个领域取得了显著的进展。其中，Transformer模型和图神经网络（GraphNeuralNetworks,GNNs）是两个备受关注的研究方向。Transformer最初应用于自然语言处理领域，通过自注意力机制实现了并行计
深度学习的颠覆性发展：从卷积神经网络到Transformer AI天才研究院 AI大模型应用入门实战与进阶 ChatGPT 大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍深度学习是人工智能的核心技术之一，它通过模拟人类大脑中的神经网络学习从大数据中抽取知识，从而实现智能化的自动化处理。深度学习的发展历程可以分为以下几个阶段：2006年，GeoffreyHinton等人开始研究卷积神经网络（ConvolutionalNeuralNetworks，CNN），这是深度学习的第一个大突破。CNN主要应用于图像处理和语音识别等领域。2012年，AlexKrizh
AI 大模型应用数据中心的数据迁移架构 AGI大模型与大数据研究院 DeepSeek R1 &大数据AI人工智能 java python javascript kotlin golang 架构人工智能
AI大模型、数据中心、数据迁移、架构设计、迁移策略、性能优化、安全保障1.背景介绍随着人工智能（AI）技术的飞速发展，大规模AI模型的应用日益广泛，涵盖了自然语言处理、计算机视觉、语音识别等多个领域。这些AI模型通常需要海量的数据进行训练和推理，因此数据中心作为AI应用的基础设施，显得尤为重要。然而，随着AI模型规模的不断扩大，数据中心面临着新的挑战：数据规模庞大:AI模型的训练和推理需要海量数据
linux系统服务器下jsp传参数乱码 3213213333332132 java jsp linux windows xml
在一次解决乱码问题中，发现jsp在windows下用js原生的方法进行编码没有问题，但是到了linux下就有问题， escape,encodeURI,encodeURIComponent等都解决不了问题但是我想了下既然原生的方法不行，我用el标签的方式对中文参数进行加密解密总该可以吧。于是用了java的java.net.URLDecoder,结果还是乱码，最后在绝望之际，用了下面的方法解决了
Spring 注解区别以及应用 BlueSkator spring
1. @Autowired @Autowired是根据类型进行自动装配的。如果当Spring上下文中存在不止一个UserDao类型的bean，或者不存在UserDao类型的bean，会抛出 BeanCreationException异常，这时可以通过在该属性上再加一个@Qualifier注解来声明唯一的id解决问题。 2. @Qualifier 当spring中存在至少一个匹
printf和sprintf的应用 dcj3sjt126com PHP sprintf printf
<?php printf('b: %b c: %c d: %d <bf>f: %f', 80,80, 80, 80); echo ' '; printf('%0.2f %+d %0.2f ', 8, 8, 1235.456); printf('th
config.getInitParameter 171815164 parameter
web.xml <servlet> <servlet-name>servlet1</servlet-name> <jsp-file>/index.jsp</jsp-file> <init-param> <param-name>str</param-name>
Ant标签详解--基础操作 g21121 ant
Ant的一些核心概念： build.xml：构建文件是以XML 文件来描述的，默认构建文件名为build.xml。 project：每个构建文
[简单]代码片段_数据合并 53873039oycg 代码
合并规则:删除家长phone为空的记录,若一个家长对应多个孩子,保留一条家长记录,家长id修改为phone,对应关系也要修改。代码如下:
java 通信技术云端月影 Java 远程通信技术
在分布式服务框架中，一个最基础的问题就是远程服务是怎么通讯的，在Java领域中有很多可实现远程通讯的技术，例如：RMI、MINA、ESB、Burlap、Hessian、SOAP、EJB和JMS等，这些名词之间到底是些什么关系呢，它们背后到底是基于什么原理实现的呢，了解这些是实现分布式服务框架的基础知识，而如果在性能上有高的要求的话，那深入了解这些技术背后的机制就是必须的了，在这篇blog中我们将来
string与StringBuilder 性能差距到底有多大 aijuans
之前也看过一些对string与StringBuilder的性能分析，总感觉这个应该对整体性能不会产生多大的影响，所以就一直没有关注这块！由于学程序初期最先接触的string拼接，所以就一直没改变过自己的习惯！
今天碰到 java.util.ConcurrentModificationException 异常 antonyup_2006 java 多线程工作 IBM
今天改bug，其中有个实现是要对map进行循环，然后有删除操作，代码如下： Iterator<ListItem> iter = ItemMap.keySet.iterator(); while(iter.hasNext()){ ListItem it = iter.next(); //...一些逻辑操作 ItemMap.remove(it); } 结果运行报Con
PL/SQL的类型和JDBC操作数据库百合不是茶 PL/SQL表标量类型游标 PL/SQL记录
PL/SQL的标量类型: 字符,数字,时间,布尔,%type五中类型的 --标量：数据库中预定义类型的变量 --定义一个变长字符串 v_ename varchar2(10); --定义一个小数,范围 -9999.99~9999.99 v_sal number(6,2); --定义一个小数并给一个初始值为5.4 :=是pl/sql的赋值号
Mockito：一个强大的用于 Java 开发的模拟测试框架实例 bijian1013 mockito 单元测试
Mockito框架： Mockito是一个基于MIT协议的开源java测试框架。 Mockito区别于其他模拟框架的地方主要是允许开发者在没有建立“预期”时验证被测系统的行为。对于mock对象的一个评价是测试系统的测
精通Oracle10编程SQL(10)处理例外 bijian1013 oracle 数据库 plsql
/* *处理例外 */ --例外简介 --处理例外-传递例外 declare v_ename emp.ename%TYPE; begin SELECT ename INTO v_ename FROM emp where empno=&no; dbms_output.put_line('雇员名：'||v_ename); exceptio
【Java】Java执行远程机器上Linux命令 bit1129 linux命令
Java使用ethz通过ssh2执行远程机器Linux上命令，封装定义Linux机器的环境信息 package com.tom; import java.io.File; public class Env { private String hostaddr; //Linux机器的IP地址 private Integer po
java通信之Socket通信基础白糖_ java socket 网络协议
正处于网络环境下的两个程序，它们之间通过一个交互的连接来实现数据通信。每一个连接的通信端叫做一个Socket。一个完整的Socket通信程序应该包含以下几个步骤： ①创建Socket； ②打开连接到Socket的输入输出流； ④按照一定的协议对Socket进行读写操作； ④关闭Socket。 Socket通信分两部分：服务器端和客户端。服务器端必须优先启动，然后等待soc
angular.bind boyitech AngularJS angular.bind AngularJS API bind
angular.bind 描述：上下文，函数以及参数动态绑定，返回值为绑定之后的函数. 其中args是可选的动态参数，self在fn中使用this调用。使用方法： angular.bind(se
java-13个坏人和13个好人站成一圈，数到7就从圈里面踢出一个来，要求把所有坏人都给踢出来，所有好人都留在圈里。请找出初始时坏人站的位置。 bylijinnan java
import java.util.ArrayList; import java.util.List; public class KickOutBadGuys { /** * 题目：13个坏人和13个好人站成一圈，数到7就从圈里面踢出一个来，要求把所有坏人都给踢出来，所有好人都留在圈里。请找出初始时坏人站的位置。 * Maybe you can find out
Redis.conf配置文件及相关项说明（自查备用） Kai_Ge redis
Redis.conf配置文件及相关项说明 # Redis configuration file example # Note on units: when memory size is needed, it is possible to specifiy # it in the usual form of 1k 5GB 4M and so forth: #
[强人工智能]实现大规模拓扑分析是实现强人工智能的前奏 comsci 人工智能
真不好意思,各位朋友...博客再次更新... 节点数量太少,网络的分析和处理能力肯定不足,在面对机器人控制的需求方面,显得力不从心.... 但是,节点数太多,对拓扑数据处理的要求又很高,设计目标也很高,实现起来难度颇大...
记录一些常用的函数 dai_lm java
public static String convertInputStreamToString(InputStream is) { StringBuilder result = new StringBuilder(); if (is != null) try { InputStreamReader inputReader = new InputStreamRead
Hadoop中小规模集群的并行计算缺陷 datamachine mapreduce hadoop 并行计算
注：写这篇文章的初衷是因为Hadoop炒得有点太热，很多用户现有数据规模并不适用于Hadoop，但迫于扩容压力和去IOE（Hadoop的廉价扩展的确非常有吸引力）而尝试。尝试永远是件正确的事儿，但有时候不用太突进，可以调优或调需求，发挥现有系统的最大效用为上策。 -----------------------------------------------------------------
小学4年级英语单词背诵第二课 dcj3sjt126com english word
egg 蛋 twenty 二十 any 任何 well 健康的，好 twelve 十二 farm 农场 every 每一个 back 向后，回 fast 快速的 whose 谁的 much 许多 flower 花 watch 手表 very 非常，很 sport 运动 Chinese 中国的
自己实践了github的webhooks, linux上面的权限需要注意 dcj3sjt126com github webhook
环境, 阿里云服务器 1. 本地创建项目, push到github服务器上面 2. 生成www用户的密钥 sudo -u www ssh-keygen -t rsa -C "[email protected]" 3. 将密钥添加到github帐号的SSH_KEYS里面 3. 用www用户执行克隆, 源使
Java冒泡排序蕃薯耀冒泡排序 Java冒泡排序 Java排序
冒泡排序 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月23日 10:40:14 星期二 http://fanshuyao.iteye.com/
Excle读取数据转换为实体List【基于apache-poi】 hanqunfeng apache
1.依赖apache-poi 2.支持xls和xlsx 3.支持按属性名称绑定数据值 4.支持从指定行、列开始读取 5.支持同时读取多个sheet 6.具体使用方式参见org.cpframework.utils.excelreader.CP_ExcelReaderUtilTest.java 比如： Str
3个处于草稿阶段的Javascript API介绍 jackyrong JavaScript
原文： http://www.sitepoint.com/3-new-javascript-apis-may-want-follow/?utm_source=html5weekly&utm_medium=email 本文中，介绍3个仍然处于草稿阶段，但应该值得关注的Javascript API. 1) Web Alarm API &
6个创建Web应用程序的高效PHP框架 lampcy Web 框架 PHP
以下是创建Web应用程序的PHP框架，有coder bay网站整理推荐： 1. CakePHP CakePHP是一个PHP快速开发框架，它提供了一个用于开发、维护和部署应用程序的可扩展体系。CakePHP使用了众所周知的设计模式，如MVC和ORM，降低了开发成本，并减少了开发人员写代码的工作量。 2. CodeIgniter CodeIgniter是一个非常小且功能强大的PHP框架，适合需
评"救市后中国股市新乱象泛起"谣言 nannan408
首先来看百度百家一位易姓作者的新闻：三个多星期来股市持续暴跌，跌得投资者及上市公司都处于极度的恐慌和焦虑中，都要寻找自保及规避风险的方式。面对股市之危机，政府突然进入市场救市，希望以此来重建市场信心，以此来扭转股市持续暴跌的预期。而政府进入市场后，由于市场运作方式发生了巨大变化，投资者及上市公司为了自保及为了应对这种变化，中国股市新的乱象也自然产生。首先，中国股市这两天
页面全屏遮罩的实现方式 Rainbow702 html css 遮罩 mask
之前做了一个页面，在点击了某个按钮之后，要求页面出现一个全屏遮罩，一开始使用了position:absolute来实现的。当时因为画面大小是固定的，不可以resize的，所以，没有发现问题。最近用了同样的做法做了一个遮罩，但是画面是可以进行resize的，所以就发现了一个问题，当画面被reisze到浏览器出现了滚动条的时候，就发现，用absolute 的做法是有问题的。后来改成fixed定位就
关于angularjs的点滴 tntxia AngularJS
angular是一个新兴的JS框架，和以往的框架不同的事，Angularjs更注重于js的建模，管理，同时也提供大量的组件帮助用户组建商业化程序，是一种值得研究的JS框架。 Angularjs使我们可以使用MVC的模式来写JS。Angularjs现在由谷歌来维护。这里我们来简单的探讨一下它的应用。首先使用Angularjs我
Nutz--->>反复新建ioc容器的后果 xiaoxiao1992428 DAO mvc IOC nutz
问题： public class DaoZ { public static Dao dao() { // 每当需要使用dao的时候就取一次 Ioc ioc = new NutIoc(new JsonLoader("dao.js")); return ioc.get(

Transformer系列论文阅读

阅读论文

综述

VIT

基础模型

不足

Swin

基础模型

Stage

W-MSA

Shifted Window 划分

不足

PVT

基础模型

Stage

SRA

不足

TNT

基础模型

position encoding

ConvBERT

基础模型

Tokens-to-Token ViT

基础模型

AutoTrans

参考文章

你可能感兴趣的:(Transformer,计算机视觉)