Cherry_qy

[Transformer] Swin Transformer V2: Scaling Up Capacity and Resolution

论文： https://arxiv.org/pdf/2111.09883.pdf

代码： GitHub - microsoft/Swin-Transformer: This is an official implementation for "Swin Transformer: Hierarchical Vision Transformer using Shifted Windows".

1 Introduction

在Swin Transformer的基础上，提出了以下的改进措施：

1）post normalization technique and scaled cosine attention提升大型视觉模型的稳定性;

2）log-spaced continuous position bias 进行低分辨率预训练模型向高分辨率模型迁移。

3）implementation details 大幅节省GPU显存占用以使得大视觉模型训练变得可行。

基于上述技术与自监督预训练，训练了一个包含 3 billion 参数量的SwinTransformer模型并将其迁移到不同的高分辨率输入的下游任务上，取得了SOTA性能。

Swin Transformer V2 在四个具有代表性的基准上刷新纪录：在 ImageNet-V2 图像分类任务上 top-1 准确率为 84.0%，COCO 目标检测任务为 63.1 / 54.4 box / mask mAP，ADE20K 语义分割为 59.9 mIoU，Kinetics-400 视频动作分类的 top-1 准确率为 86.8%。

2 A Brief Review of Swin Transformer

Swin Transformer是一种通用的视觉骨干模型，在不同的视觉任务(包含图像分类、目标检测以及语义分割)上均取得了极强性能。Swin Transformer的主要思想：为常规Transformer Encoder架构引入了几个重要的视觉信号先验信息，包含分层、局部以及平移不变形。基础Transformer单元提供了强建模能力，视觉先验信息使其可以处理不同视觉任务。

2.1 Normalization Configuration

原始的SwinTransformer采用了常规的预归一化技术

2.2 Relative position bias

原始Swin Transformer引入了一个额外参数偏置，公式如下：

其中，B是每个head的相对位置偏置，对于dense recognition任务非常重要。当进行不同分辨率模型迁移时，常规方案是对该偏置矩阵进行双三次插值。

2.3 Issues in scaling up model capacity and window resolution

在对SwinTransformer进行容量与窗口分辨率的scaling过程中，我们发现以下两个问题：

扩大模型容量过程中的不稳定问题，见下图。

在大型模型中，跨层激活函数输出的幅值的差异变得更大。激活值是逐层累积的，因此深层的幅值明显大于浅层的幅值。当我们将原来的 Swin Transformer 模型从小模型放大到大模型时，深层的 activation 值急剧增加。最高和最低幅值之间的差异达到了10^4。

当我们进一步扩展到一个巨大的规模 (658M 参数) 时，它不能完成训练，如下图所示。

跨窗口分辨率迁移模型时的性能退化问题，见下表。

许多下游视觉任务需要高分辨率的图像或窗口，预训练模型时是在低分辨率下进行的，而 fine-tuning 是在高分辨率下进行的。针对分辨率不同的问题传统的做法是把位置编码进行双线性插值，这种做法是次优的。如下图3所示是不同位置编码方式性能的比较，当我们直接在较大的图像分辨率和窗口大小测试预训练的 Imagenet-1k 模型 (分辨率256×256，window siez=8×8) 时，发现精度显著下降。

使用post normalization technique and scaled cosine attention解决不稳定问题；

使用log-spaced continuous position bias解决跨窗口分辨率迁移问题。

3 Method

3.1 Scaling up Model Capacity

3.1.1.Post Normalization

原始SwinTransformer的预归一化配置下，每个残差模块的输出激活值与主分支直接合并，导致主分支在更深层的幅值越来越大，进而导致训练不稳定。

为缓解该问题，我们提出了Post Normalization：每个残差模块的输出先进行归一化再与主分支进行合并，因此主分支的幅值不会逐层累积。从上面的Figure2可以看到：使用Post Normalization的模型激活幅值更温和。

在最大的模型中，我们每6个Transformer模块额外引入一个LN单元以进一步稳定训练。

3.1.2 Scaled Cosine Attention

在原始自注意力计算过程中，像素对的相似性通过query与key的点积计算。我们发现：在大模型中，某些模块与head的注意力图会被少量像素对主导。为缓解该问题，我们提出了Scaled Cosine Attention(SCA)，公式如下：

3.2 Scaling Up Window Resolution

3.2.1 Continuous Relative Position Bias

不同于直接对偏置参数直接优化，连续位置偏置方法不是直接优化参数偏差，而是在相对坐标上引入一个小的元（meta）网络：

注：g是一个很小的网络，比如2层MLP中间加一个ReLU。元网络对任意相对坐标生成偏置参数，因而可以自然地进行任意窗口尺寸的迁移。在推理阶段，每个相对位置的偏置可以预先计算并保存，按照原始方式进行推理。

3.2.2 Log-space Coordinates

当变化很大的窗口大小之间迁移时，有较大比例的相对坐标范围需要外插。为缓解该问题，我们采用了log-spaced坐标：

△x和△y是线性空间的坐标

通过对数空间坐标，在进行块分辨率迁移时，所需的外插比例会更小。比如，将8*8 window预训练模型向16*16 window 迁移时，输入坐标范围从[-7,7]*[-7,7]调整为[-15,15]*[-15,15]，外插比例为8/7=1.14倍。而采用对数空间坐标，输入坐标范围从[-2.079,2.079]*[-2.079,2.079]调整为[-2.773,2.773]*[-2.773,2.773]，外插比例0.33倍。表1 给出了不同位置偏置下的迁移性能对比，可以看到：当向更大窗口尺寸迁移时，对数空间连续位置偏置性能最佳。

3.3 Other Implementation

3.3.1 Implementation to save GPU memory

大分辨率输入与大容量模型存在的另一个问题是GPU显存占用不可接受问题。我们采用了以下实现改善该问题：

Zero-Redundancy Optimizer(ZeRO): 传统的数据并行训练方法 (如 DDP) 会把模型 broadcast 到每个 GPU 里面，这对于大型模型来讲非常不友好，比如参数量为 3,000M=3B 的大模型来讲，若使用 AdamW optimizer，32为的浮点数，就会占用 48G 的 GPU memory。通过零优化器，模型参数和相应的优化状态将被划分并分布到多个GPU，从而显著降低内存消耗，对整体训练速度影响极小；

（来自论文：Zero: Memory optimizations toward training trillion parameter models）

Activation check-pointing：Transformer 层中的特征映射也消耗了大量的 GPU 内存，在 image 和 window 分辨率较高的情况下会成为一个瓶颈。采用checkpoint技术节省GPU占用，但会降低30%训练速度；

（来自论文：Training deep nets with sublinear memory cost）

Sequential Self-attention computation：在非常大的分辨率下训练大模型时，如分辨率为1535×1536，window size=32×32时，在使用了上述两种优化策略之后，对于常规的 GPU (40GB 的内存)来说，仍然是无法承受的。作者发现在这种情况下，self-attention 模块构成了瓶颈。为了解决这个问题，作者实现了一个 sequential 的 self-attention 计算，而不是使用以前的批处理计算方法。这种优化在前两个阶段应用于各层，并且对整体的训练速度有一定的提升。

3.3.2 Joining with a self-supervised approach

更大的模型需要更多的数据(data hungry)。为解决该问题，之前的大模型训练通过采用额外的数据或者自监督预训练。我们对这两种策略进行了组合。

对ImageNet-22K进行扩大五倍达到了70M数量；
采用自监督训练以更好的进行数据挖掘。

通过上述训练方案，训练了一个具有3 B参数量的SwinTransformer模型并在多个基准数据集上取得了SOTA性能。

3.4 Model Configurations

我们保持与SwinTransformer相同的stage、block以及通道配置得到了四个版本的SwinTransformerV2：

SwinV2-T: C96, layer number= {2,2,6,2}
SwinV2-S: C96, layer number= {2,2,18,2}
SwinV2-B: C128, layer number= {2,2,18,2}
SwinV2-L: C192, layer number= {2,2,18,2}

我们进一步对SwinV2进行更大尺寸缩放得到了658M与3B参数模型：（每6层额外增加一个LN）

SwinV2-H: C=352, layer number={2,2,18,2}
SwinV2-G: C=512, layer number={2,2,42,2}

4 Experiments

Swin Transformer V2 在四个具有代表性的基准上刷新纪录：在 ImageNet-V2 图像分类任务上 top-1 准确率为 84.0%，COCO 目标检测任务为 63.1 / 54.4 box / mask mAP，ADE20K 语义分割为 59.9 mIoU，Kinetics-400 视频动作分类的 top-1 准确率为 86.8%。

SwinV2-G 实验设置：预训练采用 192×192 图像分辨率，以节省训练成本，实验采用 2-step 预训练方法：首先，在 ImageNet-22K-ext 数据集上使用自监督方法对模型进行 20epoch 的预训练。其次，在 ImageNet-1K V1 和 V2 分类任务上，继续将模型进行 30epoch 预训练。

4.1 ImageNet-1K 图像分类结果

表 2 将 SwinV2-G 模型与之前在 ImageNet-1K V1 和 V2 分类任务上的最大 / 最佳视觉模型进行了比较。SwinV2-G 是之前所有密集（dense）视觉模型中最大的。它在 ImageNet V2 基准测试中达到了 84.0% 的 top-1 准确率，比之前最好的 ViT-G (83.3%) 高 0.7%。但是，SwinV2-G 在 ImageNet-1K V1 上的准确率比 CoAtNet-7 略低（90.17% 比 90.88%）。

4.2 COCO 目标检测结果

表 3 将 SwinV2-G 模型与之前在 COCO 目标检测和实例分割任务上取得最佳性能模型进行了比较。SwinV2-G 在 COCO test-dev 上实现了 63.1/54.4 box/max AP，比 SoftTeacher(61.3/53.0) 提高了 + 1.8/1.4。这表明扩展视觉模型有利于目标检测任务中的密集视觉识别任务。

4.3 ADE20K 语义分割结果

下表 4 将 SwinV2-G 模型与之前在 ADE20K 语义分割基准上的 SOTA 结果进行了比较。Swin-V2-G 在 ADE20K val 集上实现了 59.9 mIoU，比之前的 SOTA 结果（BEiT）58.4 高了 1.5。这表明扩展视觉模型有益于像素级视觉识别任务。在测试时使用更大的窗口大小还可以带来 +0.2 的增益，这可能归功于有效的 Log-spaced CPB 方法。

4.4 Kinetics-400 视频动作分类结果

下表 5 将 SwinV2-G 模型与之前在 Kinetics-400 动作分类基准上的 SOTA 结果进行了比较。可以看到，Video-SwinV2-G 实现了 86.8% 的 top-1 准确率，比之前的 SOTA （TokenLearner）85.4% 高出 +1.4%。这表明扩展视觉模型也有益于视频识别任务。在这种场景下，在测试时使用更大的窗口大小也可以带来额外增益 ( +0.2% )，这也要归功于有效的 Log-spaced CPB 方法。

5 Ablations

post-norm 和缩放余弦注意力的消融实验：下表 6 展示了 post-norm 和缩放余弦注意力方法应用于原始 Swin Transformer 方法的性能表现。可以看到，这两种方法都提高了 Swin-Tiny、Swin-Small 和 Swin-Base size 的准确率，整体提升分别为 +0.2%、+0.4% 和 +0.5%，表明它们对更大的模型更有益。

你可能感兴趣的:(Transformer,backbone,transformer,深度学习,人工智能)

AI人工智能代理工作流AI Agent WorkFlow：设计智能任务处理流程 AI天才研究院计算 AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
AI人工智能代理工作流AIAgentWorkFlow：设计智能任务处理流程作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来在当今的数字化时代，随着数据量的爆炸式增长和复杂性的提升，传统的手动任务处理方式已经无法满足高效、准确的需求。人工智能技术的发展为自动化任务处理提供了新的可能性。AI人工智能代理（AIAgent）作为一
图像处理篇---图像预处理 Ronin-Lotus 图像处理篇深度学习篇程序代码篇图像处理人工智能 opencv python 深度学习计算机视觉
文章目录前言一、通用目的1.1数据标准化目的实现1.2噪声抑制目的实现高斯滤波中值滤波双边滤波1.3尺寸统一化目的实现1.4数据增强目的实现1.5特征增强目的实现：边缘检测直方图均衡化锐化二、分领域预处理2.1传统机器学习（如SVM、随机森林）2.1.1特点2.1.2预处理重点灰度化二值化形态学操作特征工程2.2深度学习（如CNN、Transformer）2.2.1特点2.2.2预处理重点通道顺序
目前市场上主流的机器视觉的框架有哪些？他们的特点及优劣 yuanpan 机器学习计算机视觉
目前市场上主流的机器视觉框架和工具可以分为商业软件、开源工具和深度学习框架三大类。以下是它们的总结及特点对比：1.商业软件(1)Halcon(MVTec)特点：专注于工业机器视觉，提供高精度、高效率的算法。支持复杂的工业应用，如缺陷检测、3D视觉、深度学习等。提供图形化开发工具HDevelop和多种编程接口。优势：算法优化好，适合实时工业应用。硬件兼容性强，支持多种工业相机和设备。劣势：商业软件，
Transformers模型版本和lm_eval老版本冲突问题ImportError: cannot import name ‘initialize_tasks‘ from ‘lm_eval.task neverwin6 llama python 服务器
Transformers模型版本和lm_eval老版本冲突问题1问题背景在LLM评测的时候，要用lm_eval模型，而对于像是llama3/Mistrual等比较新的模型，较低的Transformers不能适配，所以要升级到0.40.0以上才行，但是如果升级的话，那么直接在沿用老版本的lm_eval评测就会出现：Traceback(mostrecentcalllast):File"main.py"
1.1PaddleTS_环境配置：一个易用的深度时序建模的Python库 pythonQA python paddlepaddle
PaddleTS是一个易用的深度时序建模的Python库，它基于飞桨深度学习框架PaddlePaddle，专注业界领先的深度模型，旨在为领域专家和行业用户提供可扩展的时序建模能力和便捷易用的用户体验。PaddleTS的主要特性包括：设计统一数据结构，实现对多样化时序数据的表达，支持单目标与多目标变量，支持多类型协变量封装基础模型功能，如数据加载、回调设置、损失函数、训练过程控制等公共方法，帮助开发
【大模型科普】AIGC技术发展与应用实践（一文读懂AIGC）人工智能
【专栏介绍】⌈⌈⌈人工智能与大模型应用⌋⌋⌋人工智能（AI）通过算法模拟人类智能，利用机器学习、深度学习等技术驱动医疗、金融等领域的智能化。大模型是千亿参数的深度神经网络（如ChatGPT），经海量数据训练后能完成文本生成、图像创作等复杂任务，显著提升效率，但面临算力消耗、数据偏见等挑战。当前正加速与教育、科研融合，未来需平衡技术创新与伦理风险，推动可持续发展。文章目录一、AIGC概述（一）什么是
代码逐行解析 | 教你在C++中使用深度学习提取特征点 3Ｄ视觉工坊 3D视觉从入门到精通 c++深度学习开发语言人工智能
点击下方卡片，关注「3D视觉工坊」公众号选择星标，干货第一时间送达扫描下方二维码，加入3D视觉技术星球，星球内汇集了众多3D视觉实战问题，以及各个模块的学习资料：最新顶会论文、书籍、源码、视频（近20门系统课程[星球成员可免费学习]）等。想要入门3D视觉、做项目、搞科研，就加入我们吧。作者：泡椒味的口香糖|来源：3DCV添加微信：dddvision
EmbodiedSAM：在线实时3D实例分割,利用视觉基础模型实现高效场景理解数据猎手小k 3D 实例分割在线实时感知视觉基础模型（VFM）应用
2025-02-12，由清华大学和南洋理工大学的研究团队开发一种名为EmbodiedSAM（ESAM）的在线3D实例分割框架。该框架利用2D视觉基础模型辅助实时3D场景理解，解决了高质量3D数据稀缺的难题，为机器人导航、操作等任务提供了高效、准确的视觉感知能力。一、研究背景随着机器人技术和人工智能的发展，机器人在复杂环境中执行任务（如导航、操作和交互）的能力越来越依赖于对三维（3D）场景的实时、准
国产信创AI IDE：开启智能编程新时代 InsCode AI IDE
国产信创AIIDE：开启智能编程新时代随着信息技术的迅猛发展，软件开发工具也在不断演进。近年来，人工智能（AI）技术的应用为编程工具带来了革命性的变化。其中，国产信创AIIDE——InsCodeAIIDE，作为一款由CSDN、GitCode和华为云CodeArtsIDE联合开发的新一代集成开发环境（IDE），以其智能化、高效化的特点，正在引领智能编程的新时代。最新接入DeepSeek-V3模型，点
【产品小白】什么是AI产品经理百事不可口y 产品经理的一步一步人工智能产品经理学习产品运营内容运营用户运营
一、AI产品经理的定义与角色定位AI产品经理是人工智能技术与商业应用之间的核心桥梁，负责将复杂的AI技术转化为满足市场需求的产品。需同时具备技术理解力、商业洞察力和用户思维，既要参与算法选型与数据建模，又要定义产品功能与市场策略，是贯穿产品全生命周期的关键角色。与传统互联网产品经理相比，AI产品经理的独特之处在于：技术深度参与：需理解机器学习、自然语言处理（NLP）、计算机视觉等技术原理，并参与数
人工智能（AI）系统化学习路线 xiaoyu❅ python 人工智能学习
一、为什么需要系统化学习AI？人工智能技术正在重塑各行各业，但许多初学者容易陷入误区：❌盲目跟风：直接学习TensorFlow/PyTorch，忽视数学与算法基础。❌纸上谈兵：只看理论不写代码，无法解决实际问题。❌方向模糊：对CV/NLP/RL等细分领域缺乏认知，难以针对性提升。正确的学习姿势：“金字塔式”分层学习（理论→算法→框架→应用→工程化），逐步构建完整的AI知识体系。二、人工智能学习路线
深度学习-130-RAG技术之基于Anything LLM搭建本地私人知识库的应用策略问题总结(一) 皮皮冰燃深度学习深度学习人工智能 RAG
文章目录1AnythingLLM的本地知识库1.1本地知识库应用场景1.2效果对比及思考1.3本地体现在哪些方面1.3.1知识在本地1.3.2分割后的文档在本地1.3.3大模型部署运行在本地2问错问题带来的问题2.1常见的问题2.2原因分析3为什么LLM不使用我的文件？3.1LLM不是万能的【omnipotent】3.2LLM不会自省【introspect】3.3AnythingLLM是如何工作的
3DMAX点云算法：实现毫米级BIM模型偏差检测（附完整代码）夏末之花人工智能
摘要本文基于激光雷达点云数据与BIM模型的高精度对齐技术，提出一种融合动态体素化与多模态特征匹配的偏差检测方法。通过点云预处理、语义分割、模型配准及差异分析，最终实现建筑构件毫米级偏差的可视化检测。文中提供关键代码实现，涵盖点云处理、特征提取与深度学习模型搭建。一、核心算法流程点云预处理与特征增强去噪与下采样：采用统计滤波与体素网格下采样，去除离群点并降低数据量。语义分割：基于PointNet++
数据增强：扩充数据集，提升模型的鲁棒性 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 LLM大模型落地实战指南计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
数据增强：扩充数据集，提升模型的鲁棒性1.背景介绍1.1数据集的重要性在机器学习和深度学习领域中,数据集是训练模型的基础。高质量的数据集对于构建准确、鲁棒的模型至关重要。然而,在现实世界中,获取大量高质量的数据通常是一个巨大的挑战。数据采集过程耗时耗力,而且成本高昂。此外,某些领域的数据存在隐私和安全问题,难以获取。1.2数据集不足的挑战当数据集规模有限时,模型很容易过拟合,无法很好地推广到新的、
Docker打包深度学习项目 FLY_LTL docker 深度学习容器
文章目录Docker打包深度学习项目1.Docker和NVIDIAContainerToolkit的安装1.Docker2.NVIDIAContainerToolkit3.添加国内镜像源2.使用Dockerfile打包并保存镜像1.Dockerfile2.通过Dockerfile生成镜像3.保存镜像和加载4.运行Docker并测试参考Docker打包深度学习项目本文来源于个人实践总结，供各位同学参
MMScan数据集：首个最大的多模态3D场景数据集，包含层次化的语言标注数据集
2024-10-24，由上海人工智能实验室联合多所高校创建了MMScan，这是迄今为止最大的多模态3D场景数据集，包含了层次化的语言标注。数据集的建立，不仅推动了3D场景理解的研究进展，还为训练和评估多模态3D感知模型提供了宝贵的资源。一、研究背景：随着大型语言模型（LLMs）的兴起和与其他数据模态的融合，多模态3D感知因其与物理世界的连接而受到越来越多的关注，并取得了快速进展。然而，现有的数据集
【AI大模型】RAG如何让生成AI更智能？最新方法与优劣深度解析健忘的派大星人工智能语言模型 ai AI大模型 agi RAG 程序员
前言近年来，人工智能技术突飞猛进，尤其是生成式AI，简直像是开了挂一样，各种惊艳的表现让人直呼“未来已来”。根据IDC的研究，生成式AI的市场规模在2022年已经达到了107亿美元，而到2026年，这个数字预计会飙升至326亿美元！不过，尽管生成式AI很强大，但它也并非完美无缺——比如生成内容的质量、准确性和可靠性，依然有提升的空间。这时候，检索增强生成（RAG）技术登场了！RAG的核心思路很简单
深度革命：ResNet 如何用 “残差连接“ 颠覆深度学习安意诚Matrix 机器学习笔记深度学习人工智能
一文快速了解ResNet创新点在深度学习的历史长河中，2015年或许是最具突破性的一年。这一年，微软亚洲研究院的何恺明团队带着名为ResNet（残差网络）的模型横空出世，在ImageNet图像分类竞赛中以3.57%的错误率夺冠，将人类视觉的识别误差（约5.1%）远远甩在身后。更令人震撼的是，ResNet将神经网络的深度推至152层，彻底打破了"深层网络无法训练"的魔咒。这场革命的核心，正是一个简单
智能形状匹配技术全解析：从经典算法到深度学习与神经形态计算【超级详细版】 AI筑梦师计算机视觉算法深度学习人工智能机器学习计算机视觉 python
智能形状匹配技术全解析：从经典算法到深度学习与神经形态计算1.引言1.1研究背景在计算机视觉、模式识别、医学影像分析和自动驾驶等领域，形状匹配是核心任务之一。然而，现实世界的形状往往存在可变性（Variability），主要体现在以下几个方面：形变（Deformation）：物体可能由于柔性材料、外力作用或生物运动发生非刚性形变。尺度变化（ScaleVariation）：目标形状在不同场景下可能大
A Survey of Large Language Models大模型综述论文章节总结 WhyteHighmore 论文语言模型人工智能自然语言处理论文笔记
ASurveyofLLM人大译ASurveyofLargeLanguageModels这篇论文全面回顾了大型语言模型(LLM)的最新进展，重点关注其发展背景、关键发现和主流技术。文章主要围绕LLM的四个主要方面展开：1引言自从1950年图灵测试被提出以来，人类一直在探索机器掌握语言智能的方法。语言本质上是一种受语法规则支配的复杂、精细的人类表达系统，这使得开发能够理解和掌握语言的强大人工智能(AI
AI：对比ChatGPT这类聊天机器人，人形机器人对人类有哪些不一样的影响？ InnoLink_1024 AGI 人工智能机器学习 chatgpt 人工智能机器人
人形机器人与像ChatGPT这样的聊天机器人相比，虽然都属于人工智能技术的应用，但由于其具备的物理形态和与环境的互动能力，它们对人类的影响会有很大的不同。下面从多个角度进行对比，阐述它们各自对人类的不同影响：1.物理交互与虚拟交互人形机器人：具有物理形态，能够在物理世界中与人类进行直接交互。例如，搬运物品、进行日常家务、提供身体上的帮助（如扶持老人、帮助走路等），以及进行非语言的沟通（如手势、面部
Python 模拟鼠标轨迹算法 a485240 鼠标轨迹计算机外设
一.鼠标轨迹模拟简介传统的鼠标轨迹模拟依赖于简单的数学模型，如直线或曲线路径。然而，这种方法难以捕捉到人类操作的复杂性和多样性。AI大模型的出现，使得能够通过深度学习技术，学习并模拟更自然的鼠标移动行为。二.鼠标轨迹算法实现AI大模型通过学习大量的人类鼠标操作数据，能够识别和模拟出自然且具有个体差异的鼠标轨迹。以下是实现这一技术的关键步骤：数据收集：收集不同玩家在各种游戏环境中的鼠标操作数据，包括
DeepSeek从入门到精通「清华团队」 YuKeeHgg DeepSeek 人工智能 ai
由清华大学新闻与传播学院新媒体研究中心元宇宙文化实验室的余梦珑博士后及其团队撰写文档的核心内容围绕DeepSeek的技术特点、应用场景、使用方法以及如何通过提示语设计提升AI使用效率等方面展开，帮助用户从入门到精通DeepSeek的使用。「文末附下载方式」第一部分：DeepSeek基础概念1.1DeepSeek简介定义：专注通用人工智能（AGI）的中国科技公司，主攻大模型研发与应用。核心产品：开源
人工智能的未来：从基础到前沿的探索与展望小二爱编程· 人工智能 ai AI编程 AI写作 AI作画
1.人工智能简介内容概述：人工智能（AI）是指模拟和执行人类智能任务的技术。随着计算能力和数据量的增加，AI在各个领域取得了显著进展，从自动化的基本任务到解决复杂的实际问题，人工智能正渗透到我们生活的各个方面。2.人工智能的种类与发展内容概述：AI的种类可以按智能的复杂度分为三大类：弱人工智能（NarrowAI）：目前大多数应用都属于弱AI，如语音助手、自动驾驶等。它们专注于特定任务，并且无法扩展
KV 缓存简介 dev.null AI 缓存
以下是关于KV缓存（Key-ValueCache）的简介，涵盖其定义、原理、作用及优化意义：1.什么是KV缓存？KV缓存是Transformer架构（如GPT、LLaMA等大模型）在自回归生成任务（如文本生成）中，用于加速推理过程的核心技术。其本质是：在生成序列时，缓存历史token的Key和Value矩阵，避免重复计算，从而显著减少计算量。2.为什么需要KV缓存？传统自注意力计算的问题在生成第t
【论文精读】PatchTST-基于分块及通道独立机制的Transformer模型打酱油的葫芦娃时序预测算法时序预测 PatchTST Transformer 预训练微调表征学习
《ATIMESERIESISWORTH64WORDS:LONG-TERMFORECASTINGWITHTRANSFORMERS》的作者团队来自PrincetonUniversity和IBMResearch，发表在ICLR2023会议上。动机Transformer模型因其自注意力机制在处理序列数据方面的优势，在自然语言处理（NLP）、计算机视觉（CV）、语音等多个领域取得了巨大成功。这种机制使得模型
Transformer精选问答 EmbodiedTech 大模型人工智能 transformer 深度学习人工智能
Transformer精选问答1Transformer各自模块作用Encoder模块经典的Transformer架构中的Encoder模块包含6个EncoderBlock.每个EncoderBlock包含两个子模块,分别是多头自注意力层,和前馈全连接层.多头自注意力层采用的是一种ScaledDot-ProductAttention的计算方式,实验结果表明,Multi-head可以在更细致的层面上提
迁移学习入门 EmbodiedTech 人工智能大模型迁移学习人工智能机器学习
迁移学习1迁移学习的概念预训练模型定义:简单来说别人训练好的模型。一般预训练模型具备复杂的网络模型结构；一般是在大量的语料下训练完成的预训练语言模型的类别现在我们接触到的预训练语言模型，基本上都是基于transformer这个模型迭代而来的因此划分模型类别的时候，以transformer架构来划分：Encoder-Only:只有编码器部分的模型，代表：BERTDecoder-Only:只要解码器部
SciER：首个大规模科学文档中的实体和关系抽取数据集数据集
2024-10-28，为科学文档中的实体和关系抽取领域带来了突破，提供了一个包含106篇完整科学出版物、超过24,000个实体和12,000个关系的大规模数据集，这对于构建科学知识图谱和促进科学信息抽取技术的发展具有重要意义。数据集地址：SciER|科学信息提取数据集|人工智能数据集一、研究背景：在科学文档中，实体（如数据集、方法、任务）和它们之间的关系对于理解科学发现和推动研究进展至关重要。然而
使用LoRA微调LLaMA3 想胖的壮壮深度学习人工智能
使用LoRA微调LLaMA3的案例案例概述在这个案例中，我们将使用LoRA微调LLaMA3模型，进行一个文本分类任务。我们将使用HuggingFace的Transformers库来完成这个过程。步骤一：环境搭建安装必要的Python包pipinstalltransformersdatasetstorch配置GPU环境确保你的环境中配置了CUDA和cuDNN，并验证GPU是否可用。importtor
Spring中@Value注解，需要注意的地方无量 spring bean @Value xml
Spring 3以后,支持@Value注解的方式获取properties文件中的配置值，简化了读取配置文件的复杂操作 1、在applicationContext.xml文件(或引用文件中)中配置properties文件 <bean id="appProperty" class="org.springframework.beans.fac
mongoDB 分片开窍的石头 mongodb
mongoDB的分片。要mongos查询数据时候先查询configsvr看数据在那台shard上，configsvr上边放的是metar信息，指的是那条数据在那个片上。由此可以看出mongo在做分片的时候咱们至少要有一个configsvr,和两个以上的shard（片）信息。第一步启动两台以上的mongo服务 &nb
OVER(PARTITION BY)函数用法 0624chenhong oracle
这篇写得很好，引自 http://www.cnblogs.com/lanzi/archive/2010/10/26/1861338.html OVER(PARTITION BY)函数用法 2010年10月26日 OVER(PARTITION BY)函数介绍开窗函数 &nb
Android开发中，ADB server didn't ACK 解决方法一炮送你回车库 Android开发
首先通知：凡是安装360、豌豆荚、腾讯管家的全部卸载，然后再尝试。一直没搞明白这个问题咋出现的，但今天看到一个方法，搞定了！原来是豌豆荚占用了 5037 端口导致。参见原文章：一个豌豆荚引发的血案——关于ADB server didn't ACK的问题简单来讲，首先将Windows任务进程中的豌豆荚干掉，如果还是不行，再继续按下列步骤排查。 &nb
canvas中的像素绘制问题换个号韩国红果果 JavaScript canvas
pixl的绘制，1.如果绘制点正处于相邻像素交叉线，绘制x像素的线宽，则从交叉线分别向前向后绘制x/2个像素，如果x/2是整数，则刚好填满x个像素，如果是小数，则先把整数格填满，再去绘制剩下的小数部分，绘制时，是将小数部分的颜色用来除以一个像素的宽度，颜色会变淡。所以要用整数坐标来画的话（即绘制点正处于相邻像素交叉线时），线宽必须是2的整数倍。否则会出现不饱满的像素。 2.如果绘制点为一个像素的
编码乱码问题灵静志远 java jvm jsp 编码
1、JVM中单个字符占用的字节长度跟编码方式有关，而默认编码方式又跟平台是一一对应的或说平台决定了默认字符编码方式；2、对于单个字符：ISO-8859-1单字节编码，GBK双字节编码，UTF-8三字节编码；因此中文平台(中文平台默认字符集编码GBK)下一个中文字符占2个字节，而英文平台(英文平台默认字符集编码Cp1252(类似于ISO-8859-1))。 3、getBytes()、getByte
java 求几个月后的日期 darkranger calendar getinstance
Date plandate = planDate.toDate(); SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd"); Calendar cal = Calendar.getInstance(); cal.setTime(plandate); // 取得三个月后时间 cal.add(Calendar.M
数据库设计的三大范式（通俗易懂） aijuans 数据库复习
关系数据库中的关系必须满足一定的要求。满足不同程度要求的为不同范式。数据库的设计范式是数据库设计所需要满足的规范。只有理解数据库的设计范式，才能设计出高效率、优雅的数据库，否则可能会设计出错误的数据库. 目前，主要有六种范式：第一范式、第二范式、第三范式、BC范式、第四范式和第五范式。满足最低要求的叫第一范式，简称1NF。在第一范式基础上进一步满足一些要求的为第二范式，简称2NF。其余依此类推。
想学工作流怎么入手 atongyeye jbpm
工作流在工作中变得越来越重要，很多朋友想学工作流却不知如何入手。很多朋友习惯性的这看一点，那了解一点，既不系统，也容易半途而废。好比学武功，最好的办法是有一本武功秘籍。研究明白，则犹如打通任督二脉。系统学习工作流，很重要的一本书《JBPM工作流开发指南》。本人苦苦学习两个月，基本上可以解决大部分流程问题。整理一下学习思路，有兴趣的朋友可以参考下。 1 首先要
Context和SQLiteOpenHelper创建数据库百合不是茶 android Context创建数据库
一直以为安卓数据库的创建就是使用SQLiteOpenHelper创建,但是最近在android的一本书上看到了Context也可以创建数据库,下面我们一起分析这两种方式创建数据库的方式和区别,重点在SQLiteOpenHelper 一:SQLiteOpenHelper创建数据库: 1,SQLi
浅谈group by和distinct bijian1013 oracle 数据库 group by distinct
group by和distinct只了去重意义一样，但是group by应用范围更广泛些，如分组汇总或者从聚合函数里筛选数据等。譬如：统计每id数并且只显示数大于3 select id ,count(id) from ta
vi opertion 征客丶 mac opration vi
进入 command mode （命令行模式）按 esc 键再按 shift + 冒号注：以下命令中带 $ 【在命令行模式下进行】，不带 $ 【在非命令行模式下进行】一、文件操作 1.1、强制退出不保存 $ q! 1.2、保存 $ w 1.3、保存并退出 $ wq 1.4、刷新或重新加载已打开的文件 $ e 二、光标移动 2.1、跳到指定行数字
【Spark十四】深入Spark RDD第三部分RDD基本API bit1129 spark
对于K/V类型的RDD,如下操作是什么含义？ val rdd = sc.parallelize(List(("A",3),("C",6),("A",1),("B",5)) rdd.reduceByKey(_+_).collect reduceByKey在这里的操作，是把
java类加载机制 BlueSkator java 虚拟机
java类加载机制 1.java类加载器的树状结构引导类加载器 ^ | 扩展类加载器 ^ | 系统类加载器 java使用代理模式来完成类加载，java的类加载器也有类似于继承的关系，引导类是最顶层的加载器，它是所有类的根加载器，它负责加载java核心库。当一个类加载器接到装载类到虚拟机的请求时，通常会代理给父类加载器，若已经是根加载器了，就自己完成加载。虚拟机区分一个Cla
动态添加文本框 BreakingBad 文本框
<script> var num=1; function AddInput() { var str=""; str+="<input
读《研磨设计模式》-代码笔记-单例模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ public class Singleton { } /* * 懒汉模式。注意，getInstance如果在多线程环境中调用，需要加上synchronized，否则存在线程不安全问题 */ class LazySingleton
iOS应用打包发布常见问题 chenhbc ios iOS发布 iOS上传 iOS打包
这个月公司安排我一个人做iOS客户端开发，由于急着用，我先发布一个版本，由于第一次发布iOS应用，期间出了不少问题，记录于此。 1、使用Application Loader 发布时报错：Communication error.please use diagnostic mode to check connectivity.you need to have outbound acc
工作流复杂拓扑结构处理新思路 comsci 设计模式工作算法企业应用 OO
我们走的设计路线和国外的产品不太一样，不一样在哪里呢？国外的流程的设计思路是通过事先定义一整套规则(类似XPDL)来约束和控制流程图的复杂度(我对国外的产品了解不够多，仅仅是在有限的了解程度上面提出这样的看法)，从而避免在流程引擎中处理这些复杂的图的问题，而我们却没有通过事先定义这样的复杂的规则来约束和降低用户自定义流程图的灵活性，这样一来，在引擎和流程流转控制这一个层面就会遇到很
oracle 11g新特性Flashback data archive daizj oracle
1. 什么是flashback data archive Flashback data archive是oracle 11g中引入的一个新特性。Flashback archive是一个新的数据库对象，用于存储一个或多表的历史数据。Flashback archive是一个逻辑对象，概念上类似于表空间。实际上flashback archive可以看作是存储一个或多个表的所有事务变化的逻辑空间。
多叉树:2-3-4树 dieslrae 树
平衡树多叉树,每个节点最多有4个子节点和3个数据项,2,3,4的含义是指一个节点可能含有的子节点的个数,效率比红黑树稍差.一般不允许出现重复关键字值.2-3-4树有以下特征: 1、有一个数据项的节点总是有2个子节点(称为2-节点) 2、有两个数据项的节点总是有3个子节点(称为3-节
C语言学习七动态分配 malloc的使用 dcj3sjt126com c language malloc
/* 2013年3月15日15:16:24 malloc 就memory(内存) allocate(分配)的缩写本程序没有实际含义，只是理解使用 */ # include <stdio.h> # include <malloc.h> int main(void) { int i = 5; //分配了4个字节静态分配 int * p
Objective-C编码规范[译] dcj3sjt126com 代码规范
原文链接 : The official raywenderlich.com Objective-C style guide 原文作者 : raywenderlich.com Team 译文出自 : raywenderlich.com Objective-C编码规范译者 : Sam Lau
0.性能优化-目录 frank1234 性能优化
从今天开始笔者陆续发表一些性能测试相关的文章，主要是对自己前段时间学习的总结，由于水平有限，性能测试领域很深，本人理解的也比较浅，欢迎各位大咖批评指正。主要内容包括：一、性能测试指标吞吐量、TPS、响应时间、负载、可扩展性、PV、思考时间 http://frank1234.iteye.com/blog/2180305 二、性能测试策略生产环境相同基准测试预热等 htt
Java父类取得子类传递的泛型参数Class类型 happyqing java 泛型父类子类 Class
import java.lang.reflect.ParameterizedType; import java.lang.reflect.Type; import org.junit.Test; abstract class BaseDao<T> { public void getType() { //Class<E> clazz =
跟我学SpringMVC目录汇总贴、PDF下载、源码下载 jinnianshilongnian springMVC
----广告-------------------------------------------------------------- 网站核心商详页开发掌握Java技术，掌握并发/异步工具使用，熟悉spring、ibatis框架；掌握数据库技术，表设计和索引优化，分库分表/读写分离；了解缓存技术，熟练使用如Redis/Memcached等主流技术；了解Ngin
the HTTP rewrite module requires the PCRE library 流浪鱼 rewrite
./configure: error: the HTTP rewrite module requires the PCRE library. 模块依赖性Nginx需要依赖下面3个包 1. gzip 模块需要 zlib 库 ( 下载: http://www.zlib.net/ ) 2. rewrite 模块需要 pcre 库 ( 下载: http://www.pcre.org/ ) 3. s
第12章 Ajax（中） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Optimize query with Query Stripping in Web Intelligence blueoxygen BO
http://wiki.sdn.sap.com/wiki/display/BOBJ/Optimize+query+with+Query+Stripping+in+Web+Intelligence and a very straightfoward video http://www.sdn.sap.com/irj/scn/events?rid=/library/uuid/40ec3a0c-936
Java开发者写SQL时常犯的10个错误 tomcat_oracle java sql
1、不用PreparedStatements 　　有意思的是，在JDBC出现了许多年后的今天，这个错误依然出现在博客、论坛和邮件列表中，即便要记住和理解它是一件很简单的事。开发者不使用PreparedStatements的原因可能有如下几个：　　他们对PreparedStatements不了解　　他们认为使用PreparedStatements太慢了　　他们认为写Prepar
世纪互联与结盟有感阿尔萨斯
10月10日，世纪互联与（Foxcon）签约成立合资公司，有感。全球电子制造业巨头（全球500强企业）与世纪互联共同看好IDC、云计算等业务在中国的增长空间，双方迅速果断出手，在资本层面上达成合作，此举体现了全球电子制造业巨头对世纪互联IDC业务的欣赏与信任，另一方面反映出世纪互联目前良好的运营状况与广阔的发展前景。众所周知，精于电子产品制造（世界第一），对于世纪互联而言，能够与结盟

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他