深圳季连AIgraphX

51-18 视频理解串讲— MViTv2：Improved Multiscale Vision transformers for Classification and Detection 论文精读

今天要读的论文MViTv2仍然来自Facebook AI。

论文和代码地址

论文名称：MViTv2: Improved Multiscale Vision Transformers for Classification and Detection

论文地址：https://arxiv.org/abs/2112.01526

代码地址：https://github.com/facebookresearch/mvit

首先咱们来看MViT存在的缺点。

1）MViT采用的是和ViT一样的绝对位置编码，即物体在图片中移动之后其绝对位置发生了改变，相应的绝对位置编码也发生了变化。这其实忽略了一个很重要的视觉先验知识，即平移不变性。

2）在MViT中，池化Q张量时，只在每个stage的第一个Transformer block中计算，且步长只有(1,2,2)。而池化K、V张量时，在stage所有的Transformer block中计算，步长(1,8,8)，这相差很大，可能会存在Q向量信息不足问题。

如何解决MViT存在的问题，咱们来看改进版MViTv2。

Abstract

在本文中，作者研究并试图将多尺度视觉transformer(MViTv2)作为图像、视频分类和目标检测的统一架构，提出了一个改进的MViT版本。它结合了分解的相对位置嵌入和残差池化连接，本文以五种size实例化这种架构，并在ImageNet分类、COCO检测和Kinetics视频识别方面对其进行评估，其性能优于之前的工作。作者进一步将MViTv2的池化注意力与窗口注意力机制进行比较，前者在准确性/计算方面胜出。在没有花里胡哨的情况下，MViTv2在3个领域达到了SOTA：ImageNet分类的准确率为 88.8%，COCO对象检测的准确率为58.7 APbox，Kinetics-400视频分类的准确率为86.1%。代码和模型可在 https://github.com/facebookresearch/mvit 获得。

Introduction

为不同的视觉识别任务设计架构历来很困难，最广泛使用的架构是结合简单性和有效性的架构，例如VGGNet和ResNet 。最近，vision transformer，ViT表现出了良好的性能，并可与卷积神经网络CNN相媲美。最近有很多工作针对ViT提出了广泛的修改，将它们应用于不同的视觉任务。

虽然ViT在图像分类中很受欢迎，但它用于高分辨率目标检测和时空视频理解任务仍然具有挑战性。视觉信号的密度在计算和内存需求方面提出了严峻的挑战，因为这些尺度在基于Transformer 的模型的自注意力块中的复杂性呈二次方关系。社区已经通过不同的策略解决了这种负担：两个流行的是1）在窗口内计算局部注意力，用于对象检测，以及2）池化注意力，在计算视频任务中的自注意力之前，局部聚合特征。

后者促进了多尺度vision transformer，MViT的发展，它不再像VIT将图像以固定的比例分为一定数量的patch，而是具有从高分辨率到低分辨率的多阶段、特征层次结构。

在本文中，作者开发了两种简单的技术改进，以进一步提高其性能，并研究将MViT作为单一模型家族，用于跨3个任务进行视觉识别任务：图像分类、目标检测和视频分类，以了解它是否可以作为空间的通用视觉骨干网络和时空识别任务（见图 1）。

改进架构MViTv2包括以下：

1）创建了强大的基线，以改善沿两个轴的池化注意力：

(a)平移不变性位置嵌入，使用分解的位置距离注入位置信息到Transformer 块中；

(b)残差池化连接，以补偿pooling stride在注意力计算中的作用。

简单而有效的升级带来了明显更好的结果。

2）MViTv2，采用了标准的密集预测框架：带有特征金字塔网络FPN的 Mask R-CNN，并将其应用于对象检测和实例分割。

MViT是否可以通过使用pooling attention来处理高分辨率视觉输入，以克服所涉及的计算和内存成本？实验表明，池化注意力比局部窗口注意力机制（例如Swin transformer）更有效，作者进一步开发了一种简单而有效的混合窗口力注意方案，可以补充池化注意力以获得更好的准确性/计算折衷。

3）以五种规格（宽度、深度、分辨率）实例化了架构，并提出了大型多尺度transformer实际训练方法。MViT变体应用于图像分类、目标检测和视频分类，其修改最小，以求研究其作为通用视觉架构的目的。

Related Work

CNN

作为计算机视觉任务包括图像识别、目标检测和视频识别的主要骨干网络。

Vision transformers

自ViT的工作以来，它在图像patch上应用Transformer架构，并在图像分类方面显示出非常有竞争力的结果。目前社区已经开发了不同的工作来进一步改进ViT，包括有效的训练方法、多尺度transformer结构和先进的自注意力机制设计。在这项工作中，我们建立在多尺度vision transfromer，MViT的基础上，并将其作为各种视觉任务的通用骨干网络。

Vision transformers for object detection

ViT目标任务设法解决检测的挑战，通常需要高分辨率输入和特征图进行准确的目标定位。由于transformer中自注意算子的二次复杂度，这大大增加了计算复杂度。最近有些技术缓解了此计算开销，包括shifted window attention和 Longformer attention。同时，MViT中的池化注意力旨在从不同的角度有效地计算自注意力。本文研究了用MViT进行检测，而且更一般地将池化注意力与局部注意力机制进行了比较。

Vision transformers for video recognition

ViT视频识别任务最近也显示出强劲的结果，但大多依赖于大规模外部数据(如ImageNet21K)的预训练。MViTv1报告了基于Transformer的Kinetics数据架构的良好从头开始训练方法。本文通过改进的池化注意力来改进MViT架构，这在准确性上简单而有效；此外，还研究了ImageNet预训练对视频任务的巨大效果。

Revisiting Multiscale Vision Transformers

MViTv1的关键思想是构建不同的stage为low and high-level多尺度视觉建模，该方案打破了ViT中固定比例尺度的思想，同时引入了pooling attention。池化注意力通过池化Q张量实现不同stage的分辨率降低（对应的是序列长度），并通过池化K和V张量来显著降低计算和内存复杂度。

Pooling Attention可以在每个stage都进行池化，这样可以大大减少Q，K，V计算时的内存成本和计算量。

Improved Multiscale Vision Transformers

Improved Pooling Attention

Decomposed relative position embedding

虽然MViT已经显示出它们在建模token之间的交互能力，但它们专注于内容，而不是结构。时空结构建模仅依赖于“绝对”位置嵌入来提供位置信息，这忽略了视觉中移位不变性。也就是说，MViT对两个patch之间的交互进行建模的方式会根据它们在图像中的绝对位置而改变，即使它们的相对位置保持不变。为了解决这个问题，我们结合了相对位置嵌入，它只依赖于token之间的相对位置距离到池化自我注意计算中。

Residual pooling connection

MViT for Object Detection

在本节中，将描述如何将 MViT 主干网络应用于对象检测和实例分割任务。

FPN integration

MViT的层次结构在四个stage产生多尺度特征图，因此自然地集成到特征金字塔网络(FPN)中进行目标检测任务，如图3所示。FPN中横向连接的自顶向下金字塔在所有尺度上为MViT构建了语义特别强的特征映射。通过使用带有 MViT 骨干网络的 FPN，我们将其应用于不同的检测架构（例如 Mask R-CNN）。

Hybrid window attention

Transformers 中的自注意力具有二次复杂度 w.r.t 令牌的数量。对于目标检测来说，这个问题更加严重，因为它通常需要高分辨率输入和特征图。本文研究了两种显著降低这种计算和内存复杂性的方法：首先，在MViT的注意力块中设计的池化注意力pooling attention。其次，在Swin目标检测任务中，窗口注意力window attention作为一种减少计算的技术。

池化注意和窗口注意都通过减少Q，K和V张量的大小来控制自我注意的复杂性。然而，它们的内在性质是不同的：池化注意力通过局部聚合对它们进行下采样来汇集特征，但保持全局自注意力计算；而窗口注意力保持张量的分辨率，但通过将输入（patch化标记）划分为不重叠的窗口在本地执行自注意力，然后仅在每个窗口内计算局部自注意力。这两种方法的内在差异促使我们研究它们是否可以在目标检测任务中执行互补。

默认情况下，窗口注意力仅在窗口内执行局部自注意力，因此缺乏跨窗口的连接。与使用移位窗口来缓解这个问题的Swin不同，本文提出了一种简单的混合窗口注意力 (Hwin) 设计来添加跨窗口连接。Hwin计算所有窗口内的局部注意力，但输入到FPN的最后三个stage的最后一个块。这样，FPN的输入特征映射包含全局信息。5.3节中的消融表明，这种简单的Hwin在图像分类任务和目标检测任务上的表现始终优于Swin。此外，结合池化注意力和Hwin在目标检测方面能取得了最佳性能。

Positional embeddings in detection

与ImageNet分类不同，输入是固定分辨率的裁剪（例如 224×224），对象检测通常在训练中输入不同大小尺寸。对于 MViT 中的位置嵌入（绝对或相对），首先从ImageNet预训练权重初始化参数，对应于具有 224×224 输入大小的位置嵌入，然后将它们插值到各自的大小以进行对象检测训练。

MViT for Video Recognition

Initialization from pre-trained MViT

相比于基于图像的MViT，基于视频的MViT只有三个差异：1）在投影层，patch化主干需要将输入投影到时空立方体而不是2D patch中； 2）池化算子现在汇集时空特征图； 3）相对位置嵌入参考时空位置。

由于 1) 和 2) 中的投影层和池化算子默认由卷积层实例化，因此我们使用膨胀的初始化作为CNN。具体来说，在预训练模型中用2D conv层的权重初始化中心帧的conv过滤器，并将其他权重初始化为 0。对于 3)，我们利用方程4中分解的相对位置嵌入，简单地将来自预训练权重作时间嵌入，空间嵌入初始化为 0。

MViT Architecture Variants

我们构建了几个具有不同参数和FLOP数量的 MViT 变体，如表 1 所示，以便与其他vision transformer工作进行公平比较。具体来说，通过改变基本通道维度、每个阶段的块数和块中的头数，为MViT设计了五种变体（Tiny、Small、Base、Large 和 Huge）。请注意，本文使用较少数量的头来改进运行时间，因为更多的头会导致较慢的运行时间，但对FLOP和参数没有影响。

遵循 MViT池化注意力设计，默认在所有池化注意力块中使用K和V pooling，在第一阶段将池化步幅设置为4，并自适应地衰减跨阶段的步幅 w.r.t 分辨率。

Experiments: Image Recognition

首先在ImageNet图像分类和COCO目标检测上检测了MViTv2的性能，然后进行全面的消融实验。其中在AVA数据集上动作检测效果如下。

AVA Action Detection

Comparison with previvous work on AVA（Spatio-Temporal Action Detection v2.2）

Ablations on ImageNet and COCO

Different self-attention mechanism

 本文研究了pooling attention和Hwin自注意力，实验结果如下：

（1）对于ViT-B模型，基于窗口的方法减少了计算量和内存消耗，但是由于缺少跨窗口之间的交互，使得精度也下降了2.0%，Swin window可以提升0.4%的精度。 本文的HWin则与Full attention性能相近，比Swin Window提升1.7%，结合pooling attention则在计算量减少38%的情况下达到了最佳精度。 
（2）对于MViTv2-S，默认使用pooling attention，添加Swin和HWin都可以降低模型的复杂度，但性能会略有衰减。通过进一步增加池化的步幅可以实现最佳的精度/算力折衷。

Positional embeddings

针对不同的位置嵌入观察到：（i）将(2)与(1)进行比较，绝对位置仅比 no pos 性能略有提高，这是因为池化算子（由 conv 层实例化）已经对位置信息进行建模。(ii) 比较(3, 4)和(1, 2)，相对位置可以通过将平移不变性先验引入池化注意力来带来性能提升。最后，分解的相对位置嵌入比COCO上的联合相对位置快3.9倍。

Residual pooling connection

简单地添加残差路径(2)可以提高 IN-1K (+0.3%) 和 COCO (APbox +0.8) 的结果，成本可以忽略不计。(3)使用残差池并将Q池化添加到所有其他层（步幅为=1）会导致显着提升，尤其是在COCO（+1.4 APbox）上。这表明MViTv2中Q pooling block和残差连接式十分有必要。 

Runtime Compression

可以看到MViT比Swin有更高的吞吐率，图略。

目标检测时，使用单尺度检测和多尺度检测器，可以看到FFN显著提升了两个backbone的性能。MViT-B显著优于ViT-B，这说明使用多尺度的层次化设计非常适合密集预测的目标检测任务。

Experiments: Video Recognition

在Kinetics-400、Kinetics-600和Kinetics-700和Something-Something-v2(SSv2)数据集上做了实验，部分结果如下。

Ablations on Kinetics

实验观察到：针对MViTv2-S和MViTv2-B模型，与从头开始训练相比，使用IN1K或IN21k预训练可以提高准确性。另外对于大型模型，ImageNet预训练是必要的，因为它们在从头开始训练时严重过拟合。

Conclusion

本文提出了一种改进的Multiscale Vision Transformer作为视觉识别的通用层次结构。在实证评估中，与其他相比，MViTv2表现出强大的性能，并在图像分类、目标检测、实例分割和视频识别中广泛使用的基准上实现了最先进的准确性。希望对视觉识别的进一步研究有用。

本文由深圳季连科技有限公司AIgraphX自动驾驶大模型团队整理编辑。如有错误，欢迎在评论区指正。

【第9章】“基础工作流”怎么用？（图生图/局部重绘/VAE/更多基础工作流）ComfyUI基础入门教程聚梦小课堂 ComfyUI基础入门课 comfyui 基础教程工作流教程 AI绘画教程 AI作画人工智能 stable diffusion
引言学到这里，大家是不是会比较纠结，好像还在持续学习新的东西，未来还有多少基础的东西要学习，才能正常使用ComfyUI呢？这其实需要转变一个心态。AI绘画还处于一个快速迭代的过程，隔三岔五的就会有很多新技术、新模型出现，ComfyUI目前同样处于一个快速更新的阶段，从更新记录上也可以看到，几乎每一两天都会更新新版本。同样，生态的各种自定义节点也在持续更新。所以，不可能有个教程把所有未来会用到的知识
做好自己生活的导演，难道不是吗？心灵星图程序人生
做好自己生活的导演，难道不是吗？在这个短视频盛行的时代，每个人都可以成为自己生活的导演。无论是记录生活点滴，还是分享专业知识，掌握基本的视频制作技巧都能让我们的表达更加精彩。今天就让我们一起探讨视频创作的三大核心要素。一、内容为王：讲好你的故事视频剪辑的核心是内容叙事。再华丽的特效也比不上一个打动人心的故事。以下是几个常见的内容问题：内容表达不通顺语气、语速不自然外界干扰影响理解需要通过节奏调整让
YOLO魔改之频率分割模块（FDM）清风AI YOLO算法魔改系列 YOLO 人工智能计算机视觉目标检测 python 深度学习
目标检测原理目标检测是一种将目标分割和识别相结合的图像处理技术，旨在从图像中定位并识别特定目标。深度学习方法，如FasterR-CNN和YOLO系列，已成为主流解决方案。这些方法通常采用两阶段或单阶段策略，通过卷积神经网络(CNN)提取特征并进行分类和定位。在小目标检测中，为克服分辨率低和特征不明显的问题，模型设计中会特别注重特征融合和多尺度处理，以增强对小目标的感知能力。YOLOv8基础YOLO
PyTorch模型训练实战指南：掌握动态图特性与工业级部署技巧 lmtealily pytorch 人工智能 python
前言在深度学习领域，PyTorch凭借其动态计算图、高效的自动微分系统及高度Pythonic的设计哲学，已成为学术界与工业界的主流框架。其即时执行模式大幅简化了模型调试流程，而灵活的模块化设计则为复杂模型的构建提供了坚实基础。然而，从实验原型到工业级部署的全链路实践中，开发者仍需系统性掌握框架核心特性与工程化技巧。本文以实战为导向，深入剖析PyTorch动态图机制与自动微分原理，详解从数据预处理、
ESG证书：AI预测未来十年职场人的黄金入场券 ESG学习圈 pandas python django
当ChatGPT开始撰写ESG报告，当机器学习模型精准预测企业碳排放轨迹，一场由AI驱动的ESG革命正在颠覆传统可持续发展领域。根据彭博新能源财经预测，到2030年全球ESG资产管理规模将突破50万亿美元，而AI技术将成为撬动这个万亿级市场的核心杠杆。一、AI透视下的ESG黄金时代在微软开发的AI模型ESG-NOW系统中，通过分析全球4300家上市公司近十年的环境数据，成功预测2025年新能源行业
【新能源集成热管理系统的开发与优化】新能源汽车--三电老K 研发测试汽车学习方法
新能源集成热管理系统的开发与优化涉及多阶段的试验、标定和策略调整，需结合实验室仿真、环境仓测试及实车道路验证，以应对高低温、极端气候等复杂工况。以下是具体实施方法：一、环境仓试验室测试系统标定与基础验证模型搭建：通过AMESim等仿真工具建立机-电-热耦合模型，涵盖电池、电机、空调等子系统，分析高温工况下各部件能耗占比及整车续航表现。参数标定：在环境仓中模拟极端温度（如38℃高温或-30℃低温），
计算机视觉毕业设计选题推荐：选题技巧建议收藏 HaiLang_IT 毕业设计人工智能计算机视觉
目录前言毕设选题开题指导建议更多精选选题选题帮助最后前言大家好,这里是海浪学长毕设专题!大四是整个大学期间最忙碌的时光，一边要忙着准备考研、考公、考教资或者实习为毕业后面临的升学就业做准备,一边要为毕业设计耗费大量精力。学长给大家整理了人工智能专业最新精选选题，如遇选题困难或选题有任何疑问，都可以问学长哦(见文末)!对毕设有任何疑问都可以问学长哦!更多选题指导:最新最全计算机专业毕设选题精选推荐汇
【数学建模】模糊综合评价模型详解、模糊集合论简介烟锁池塘柳0 数学建模数学建模
模糊综合评价模型详解文章目录模糊综合评价模型详解1.模糊综合评价模型概述2.模糊综合评价的基本原理2.1基本概念2.2评价步骤3.模糊综合评价的数学模型3.1数学表达3.2模糊合成运算4.模糊综合评价的应用领域5.模糊综合评价的优缺点5.1优点5.2缺点6.模糊综合评价的实现步骤7.模糊综合评价在实际项目中的应用案例8.结论参考资料1.模糊综合评价模型概述模糊综合评价法(FuzzyComprehe
【数学建模】灰色关联分析模型详解与应用烟锁池塘柳0 数学建模数学建模算法
灰色关联分析模型详解与应用文章目录灰色关联分析模型详解与应用引言灰色系统理论简介灰色关联分析基本原理灰色关联分析计算步骤1.确定分析序列2.数据无量纲化处理3.计算关联系数4.计算关联度灰色关联分析应用实例实例：某企业生产效率影响因素分析灰色关联分析在各领域的应用灰色关联分析的Python实现灰色关联分析的局限性结论引言在数据分析领域，我们经常面临样本量少、信息不完全、数据不确定性高的情况。传统的
【网易雷火秋招】前端面经分享编程自学-领绿学长前端求职招聘面试
网易网易雷火是国内一流且最有创新力的游戏研发团队，是网易杭州的第一个游戏工作室。雷火开创性的打造了《逆水寒》、《永劫无间》、《倩女幽魂》、《全明星街球派对》等一众爆款游戏；并在二次元、FPS、主机游戏等方向上持续探索，《代号：无限大》等在研项目收到玩家广泛关注。与此同时，我们与全球合作伙伴一起共同构建开放、协同、共荣共生的产业生态，致力于让中国游戏走出去，让世界听见雷火声音。雷火还拥有国内专业从事
MyBatis-Plus中使用@Transactional注解的5大陷阱，你中招了吗？墨瑾轩 Java乐园 mybatis
关注墨瑾轩，带你探索编程的奥秘！超萌技术攻略，轻松晋级编程高手技术宝库已备好，就等你来挖掘订阅墨瑾轩，智趣学习不孤单即刻启航，编程之旅更有趣MyBatis-Plus中使用@Transactional注解的5大陷阱，你中招了吗？在使用MyBatis-Plus进行持久层开发时，事务控制是确保数据一致性的重要手段。然而，在实践中，不当的使用@Transactional注解可能导致各种意想不到的问题。本文
学习积累规划一个DBA的成功之路小藤椅 Oracle基础知识数据库 db2 sql server informix ibm oracle
一个DBA的数据库学习经验：选定发展方向1999年，我在开始读研时就给自己确定了以后的发展方向。当时有两个方向：网络，数据库技术。因为在2000年之时，网络大热，市场上拥有CCNP、CCIE证书的人特别牛。所以我当时也考下了CCNP证书，但后来发现网络方向涉及很多硬件层面的东西，这些都对厂商的依赖性太强，个人发挥空间不大。而我喜欢钻研，所以慢慢开始转向专攻数据库技术。在认准数据库这个方向后，我开始
3.16RabbitMQ入门实战 plusk rabbitmq 分布式
RabbitMQ基本概念：RabbitMQ是遵循AMQP（AdvancedMessageQueueProtocol）协议，即高级消息队列协议实现的，AMQP协议是一个标准协议，如果想写一个原生的消息队列的话也可以遵守该协议去开发。结合AMQP协议的模型图我们可以去理解RabbitMQ的运行机制：生产者（Publisher，图中最左边）：发送消息到交换机交换机（Exchange）：接收消息，并决定转
DeepSeek+知网研学轻松搞定研究生选题 AI新视界 AI学术学术软件推荐 AI工具 AI学术学习人工智能学术
选题是研究生学术研究的起点，一个好的选题不仅决定了研究的方向，还直接影响研究的深度和成果。本文将详细介绍如何结合DeepSeek大模型与知网研学，帮助研究生高效完成选题工作。一、选题的重要性与挑战选题的重要性：选题是研究的核心，决定了研究的创新性和可行性。好的选题能够为后续研究提供明确的方向和动力。选题的挑战：如何从海量文献中找到有价值的研究方向？如何判断选题的创新性和研究价值？如何确保选题的可行
【Dive Into Stable Diffusion v3.5】1：开源项目正式发布——深入探索SDv3.5模型全参/LoRA/RLHF训练 Donvink 大模型 #AIGC stable diffusion AIGC 人工智能机器学习深度学习
目录1引言2项目简介3快速上手3.1下载代码3.2环境配置3.3项目结构3.4下载模型与数据集3.5运行指令3.6核心参数说明3.6.1通用参数3.6.2优化器/学习率3.6.3数据相关4结语1引言在人工智能和机器学习领域，生成模型的应用越来越广泛。StableDiffusion作为其中的佼佼者，因其强大的图像生成能力而备受关注。今天，我的开源项目DiveIntoStableDiffusionv3
云原生边缘计算：分布式智能的时代黎明桂月二二云原生边缘计算分布式
引言：从集中式算力到万物智联的范式裂变AT&T边缘节点部署超5000个，特斯拉自动驾驶系统每节点200TOPS算力。国家电网通过边缘计算实现毫秒级电网故障隔离，菜鸟物流分拣效率提升400%。IDC预测2027年边缘基础设施支出将达亿，宝马汽车工厂设备预测性维护准确率达9亿运维成本。一、边缘计算范式进化论1.1算力拓扑结构演变世代大型主机中心化云计算分布式雾计算去中心化边缘计算泛在化神经形态计算体计
效果媲美GPT4V的多模态大型语言模型MiniCPM-V-2_6详细介绍我就是全世界语言模型人工智能自然语言处理
MiniCPM-V-2.6概述1.1模型背景MiniCPM-V-2.6是由nuoan开发的一款达到GPT-4V级别的多模态大型语言模型（MLLM）。该模型专为手机上的单图像、多图像和视频处理设计，旨在提供高效、准确的多模态内容理解与生成能力。随着移动设备的普及和计算能力的提升，用户对于在移动端进行复杂图像和视频处理的需求日益增长。MiniCPM-V-2.6的推出，正是为了满足这一需求，提供了一种在
开源模型应用落地-qwen模型小试-调用Qwen2-7B-Instruct-进阶篇（十二）开源技术探险家开源模型-实际应用落地 #深度学习自然语言处理语言模型
一、前言经过前五篇“qwen模型小试”文章的学习，我们已经熟练掌握qwen大模型的使用。然而，就在前几天阿里云又发布了Qwen2版本。无论是语言模型还是多模态模型，均在大规模多语言和多模态数据上进行预训练，并通过高质量数据进行后期微调以贴近人类偏好。本文将介绍如何使用Transformers库进行模型推理（相较于qwen1系列，使用方式上有较大的调整），现在，我们赶紧跟上脚步，去体验一下新版本模型
基于大模型的腮腺多形性腺瘤全周期诊疗方案研究报告 LCG元围术期危险因子预测模型研究人工智能
目录一、引言1.1研究背景与目的1.2研究现状与趋势二、大模型预测原理与方法2.1大模型概述2.2数据收集与预处理2.3模型训练与优化三、术前预测与评估3.1肿瘤特征预测3.2风险评估3.3案例分析四、术中方案制定与实施4.1手术方案选择4.2面神经保护策略4.3麻醉方案确定五、术后恢复与并发症预测5.1恢复情况预测5.2并发症风险预测5.3案例分析六、术后护理与康复6.1护理措施6.2康复训练6
Java IDEA中Gutter Icons图标的含义路宇 java笔记 java intellij-idea 开发语言 gutter-icons 图标 Java开发工具
前些天发现了一个蛮有意思的人工智能学习网站,8个字形容一下"通俗易懂，风趣幽默"，感觉非常有意思,忍不住分享一下给大家。点击跳转到教程前言：很多人刚开始用IDEA来学习编程，会发现下面这些图标。但是我们有时候并不知道它的含义和设置显示与隐藏，下面给大家讲解一下装订线图标位于左侧编辑器中。它们调用一些基本操作以及其他特定于框架和技术的功能。设置步骤File->Setting进到idea的设置页面。接
使用fastapi部署stable diffusion模型明晚十点睡代码 fastapi stable diffusion pytorch python 人工智能深度学习计算机视觉
使用vscode运行stablediffusion模型，每次加载模型都需要10+分钟，为算法及prompt调试带来了极大麻烦。使用jupyter解决自然是一个比较好的方案，但如果jupyter由于种种原因不能使用时，fastapi无疑成为了一个很好的选择。参考github链接：https://github.com/jarvislabsai/fastapi-sd-templatefromfastap
数学中的“矩” heraldww 数学概率论人工智能机器学习
数学中的“矩”矩的数学意义，高度总结：数学上，“矩”是一组点组成的模型的特定的数量测度。在力学和统计学中都有用到“矩”。如果这些点代表“质量”，那么：零阶矩表示所有点的质量；一阶矩表示质心；二阶矩表示转动惯量。如果这些点代表“概率密度”，那么：零阶矩表示这些点的总概率（也就是1）；一阶矩表示期望；二阶（中心）矩表示方差；三阶（中心）矩表示偏斜度；四阶（中心）矩表示峰度；这个数学上的概念和物理上的“
项目经理面试全攻略：从底层能力拆解到高通过率话术
在竞争激烈的职场中，项目经理岗位的面试堪称“综合能力大考”——既要展现系统化的方法论，又要传递真实的领导力，还要让考官相信你能在复杂环境中推动结果落地。据PMI（美国项目管理协会）调查，82%的优秀项目经理在面试中能清晰呈现“业务价值-团队协作-风险控制”的三角能力模型。本文从能力拆解、面试准备、实战话术三个维度，揭秘项目经理面试通关法则。一、项目经理面试的四大核心能力雷达图面试官通过以下维度评估
项目复盘：卓越项目经理的炼金术——将经验转化为组织黄金的终极法则
一、项目复盘的时空坐标：生命周期的涅槃时刻在NASA的项目管理体系中，复盘被称为"经验汲取引擎"，位于项目生命周期末端却影响未来所有项目起点。真正的复盘不是终点悼词，而是组织进化的基因重组。阶段复盘：敏捷开发每2周举行迭代复盘，如特斯拉软件团队通过156次迭代复盘将自动驾驶误判率降低83%终局复盘：波音787项目历时7年的终局复盘形成《复合材料应用手册》，成为航空业标准跨期复盘：华为建立"五年战略
【硬核实战】ETCD+AI智能调度深度整合！从架构设计到调优避坑，手把手教你打造高可用调度系统！码农突围计划人工智能 etcd 大数据
一、核心架构设计：ETCD如何赋能AI调度？架构图：[AI调度引擎]←实时数据→[ETCD集群]↓决策指令[执行层（车辆/物流/交通设备）]核心角色：ETCD：存储调度策略、节点状态、任务队列、实时环境数据（如交通流量、天气）AI模型：基于ETCD数据动态决策（如路径规划、资源分配）调度执行层：接收ETCD下发的指令并执行（如车辆调度、信号灯控制）优势：强一致性：ETCD的Raft协议确保调度策略
信创产品在政府采购中的五大优势程序员
信创产品在政府采购中扮演着越来越重要的角色，其优势逐渐凸显，为政府采购领域带来了诸多积极影响。随着信息技术的飞速发展和国家对自主创新的高度重视，信创产品凭借自身独特的特性，在政府采购市场中展现出强大的竞争力。以下将详细阐述信创产品在政府采购中的五大优势。安全性更高在数字化时代，信息安全至关重要，尤其是对于政府采购项目，涉及大量敏感信息和公共利益。信创产品在安全性方面具有显著优势。首先，信创产品的研
【科研必备】EI/Scopus收录！2025年3-4月智能制造、自动化、无人驾驶、人工智能等前沿领域国际会议邀您参与~与全球学者交流，让学术之光在国际舞台上闪耀！努力毕业的小土博^_^ 学术会议推荐制造自动化人工智能深度学习神经网络算法
【科研必备】EI/Scopus收录！2025年3-4月智能制造、无人驾驶、人工智能等前沿领域国际会议邀您参与~与全球学者交流，让学术之光在国际舞台上闪耀！【科研必备】EI/Scopus收录！2025年3-4月智能制造、无人驾驶、人工智能等前沿领域国际会议邀您参与~与全球学者交流，让学术之光在国际舞台上闪耀！文章目录【科研必备】EI/Scopus收录！2025年3-4月智能制造、无人驾驶、人工智能等
深度解析Java中的代码分支策略规划：掌握GitFlow与GitHub Flow的艺术墨夶 Java学习资料2 java github 开发语言
在这个技术日新月异的时代，每一个开发者都在寻找提高效率、减少错误并优化团队协作的方法。而当涉及到代码管理时，选择正确的分支策略至关重要。今天，我们将深入探讨如何在Java项目中应用两种流行的分支策略——GitFlow和GitHubFlow，并通过详尽的示例代码来展示它们的实际运用。1.分支管理策略概览分支管理策略不仅帮助团队成员之间进行有效的沟通，还确保了代码库的健康状态。无论是小型创业公司还是大
知识库在意图识别中扮演着**数据支撑**和**语义理解辅助**的双重角色 PersistDZ 大数据与AI 人工智能
知识库在意图识别中扮演着数据支撑和语义理解辅助的双重角色，而训练智能客服的意图识别Agent需要结合知识库的结构化数据与机器学习技术。以下是详细解析：一、知识库在意图识别中的作用1.提供标注数据意图标签定义：知识库中存储了预先定义的意图分类体系（如“订单查询”“退换货”“投诉”等），为模型提供明确的训练目标。标注样本：知识库包含大量用户对话历史及其对应的意图标签，是训练监督学习模型的核心数据源。2
Gmsh教程网卡了 Gmsh python Gmsh
13、在没有底层CAD模型的情况下重新擦除STL文件importgmsh#导入Gmsh库，用于几何建模和网格划分importmath#导入数学库，用于计算importos#导入操作系统库，用于处理文件路径importsys#导入系统库，用于处理命令行参数gmsh.initialize()#初始化Gmsh环境defcreateGeometryAndMesh():#清除之前的模型和数据gmsh.cle
jsonp 常用util方法 hw1287789687 jsonp jsonp常用方法 jsonp callback
jsonp 常用java方法 (1)以jsonp的形式返回:函数名(json字符串) /*** * 用于jsonp调用 * @param map : 用于构造json数据 * @param callback : 回调的javascript方法名 * @param filters : <code>SimpleBeanPropertyFilter theFilt
多线程场景 alafqq 多线程
0 能不能简单描述一下你在java web开发中需要用到多线程编程的场景？0 对多线程有些了解，但是不太清楚具体的应用场景，能简单说一下你遇到的多线程编程的场景吗？ Java多线程 2012年11月23日 15:41 Young9007 Young9007 4 0 0 4 Comment添加评论关注(2) 3个答案按时间排序按投票排序 0 0 最典型的如： 1、
Maven学习——修改Maven的本地仓库路径 Kai_Ge maven
安装Maven后我们会在用户目录下发现.m2 文件夹。默认情况下，该文件夹下放置了Maven本地仓库.m2/repository。所有的Maven构件(artifact)都被存储到该仓库中，以方便重用。但是windows用户的操作系统都安装在C盘，把Maven仓库放到C盘是很危险的，为此我们需要修改Maven的本地仓库路径。
placeholder的浏览器兼容 120153216 placeholder
【前言】自从html5引入placeholder后，问题就来了，不支持html5的浏览器也先有这样的效果，各种兼容，之前考虑，今天测试人员逮住不放，想了个解决办法，看样子还行，记录一下。【原理】不使用placeholder，而是模拟placeholder的效果，大概就是用focus和focusout效果。【代码】 <scrip
debian_用iso文件创建本地apt源 2002wmj Debian
1.将N个debian-506-amd64-DVD-N.iso存放于本地或其他媒介内，本例是放在本机/iso/目录下 2.创建N个挂载点目录如下： debian:~#mkdir –r /media/dvd1 debian:~#mkdir –r /media/dvd2 debian:~#mkdir –r /media/dvd3 …. debian:~#mkdir –r /media
SQLSERVER耗时最长的SQL 357029540 SQL Server
对于DBA来说，经常要知道存储过程的某些信息： 1. 执行了多少次 2. 执行的执行计划如何 3. 执行的平均读写如何 4. 执行平均需要多少时间列名 &
com/genuitec/eclipse/j2eedt/core/J2EEProjectUtil 7454103 eclipse
今天eclipse突然报了com/genuitec/eclipse/j2eedt/core/J2EEProjectUtil 错误，并且工程文件打不开了，在网上找了一下资料，然后按照方法操作了一遍，好了，解决方法如下：错误提示信息： An error has occurred.See error log for more details. Reason: com/genuitec/
用正则删除文本中的html标签 adminjun java html 正则表达式去掉html标签
使用文本编辑器录入文章存入数据中的文本是HTML标签格式，由于业务需要对HTML标签进行去除只保留纯净的文本内容，于是乎Java实现自动过滤。如下： public static String Html2Text(String inputString) { String htmlStr = inputString; // 含html标签的字符串 String textSt
嵌入式系统设计中常用总线和接口 aijuans linux 基础
嵌入式系统设计中常用总线和接口任何一个微处理器都要与一定数量的部件和外围设备连接，但如果将各部件和每一种外围设备都分别用一组线路与CPU直接连接，那么连线
Java函数调用方式——按值传递 ayaoxinchao java 按值传递对象基础数据类型
Java使用按值传递的函数调用方式，这往往使我感到迷惑。因为在基础数据类型和对象的传递上，我就会纠结于到底是按值传递，还是按引用传递。其实经过学习，Java在任何地方，都一直发挥着按值传递的本色。首先，让我们看一看基础数据类型是如何按值传递的。 public static void main(String[] args) { int a = 2;
ios音量线性下降 bewithme ios音量
直接上代码吧 //second 几秒内下降为0 - (void)reduceVolume:(int)second { KGVoicePlayer *player = [KGVoicePlayer defaultPlayer]; if (!_flag) { _tempVolume = player.volume;
与其怨它不如爱它 bijian1013 选择理想职业规划
抱怨工作是年轻人的常态，但爱工作才是积极的心态，与其怨它不如爱它。一般来说，在公司干了一两年后，不少年轻人容易产生怨言，除了具体的埋怨公司“扭门”，埋怨上司无能以外，也有许多人是因为根本不爱自已的那份工作，工作完全成了谋生的手段，跟自已的性格、专业、爱好都相差甚远。
一边时间不够用一边浪费时间 bingyingao 工作时间浪费
一方面感觉时间严重不够用，另一方面又在不停的浪费时间。每一个周末，晚上熬夜看电影到凌晨一点，早上起不来一直睡到10点钟，10点钟起床，吃饭后玩手机到下午一点。精神还是很差，下午像一直野鬼在城市里晃荡。为何不尝试晚上10点钟就睡，早上7点就起，时间完全是一样的，把看电影的时间换到早上，精神好，气色好，一天好状态。控制让自己周末早睡早起，你就成功了一半。有多少个工作
【Scala八】Scala核心二：隐式转换 bit1129 scala
Implicits work like this: if you call a method on a Scala object, and the Scala compiler does not see a definition for that method in the class definition for that object, the compiler will try to con
sudoku slover in Haskell (2) bookjovi haskell sudoku
继续精简haskell版的sudoku程序，稍微改了一下，这次用了8行，同时性能也提高了很多，对每个空格的所有解不是通过尝试算出来的，而是直接得出。 board = [0,3,4,1,7,0,5,0,0, 0,6,0,0,0,8,3,0,1, 7,0,0,3,0,0,0,0,6, 5,0,0,6,4,0,8,0,7,
Java-Collections Framework学习与总结-HashSet和LinkedHashSet BrokenDreams linkedhashset
本篇总结一下两个常用的集合类HashSet和LinkedHashSet。它们都实现了相同接口java.util.Set。Set表示一种元素无序且不可重复的集合；之前总结过的java.util.List表示一种元素可重复且有序
读《研磨设计模式》-代码笔记-备忘录模式-Memento bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; /* * 备忘录模式的功能是，在不破坏封装性的前提下，捕获一个对象的内部状态，并在对象之外保存这个状态，为以后的状态恢复作“备忘”
《RAW格式照片处理专业技法》笔记 cherishLC PS
注意，这不是教程！仅记录楼主之前不太了解的一、色彩（空间）管理作者建议采用ProRGB（色域最广），但camera raw中设为ProRGB，而PS中则在ProRGB的基础上，将gamma值设为了1.8（更符合人眼）注意：bridge、camera raw怎么设置显示、输出的颜色都是正确的（会读取文件内的颜色配置文件），但用PS输出jpg文件时，必须先用Edit->conv
使用 Git 下载 Spring 源码编译 for Eclipse crabdave eclipse
使用 Git 下载 Spring 源码编译 for Eclipse 1、安装gradle，下载 http://www.gradle.org/downloads 配置环境变量GRADLE_HOME，配置PATH %GRADLE_HOME%/bin，cmd，gradle -v 2、spring4 用jdk8 下载 https://jdk8.java.
mysql连接拒绝问题 daizj mysql 登录权限
mysql中在其它机器连接mysql服务器时报错问题汇总一、[running][email protected]:~$mysql -uroot -h 192.168.9.108 -p //带-p参数，在下一步进行密码输入 Enter password: //无字符串输入 ERROR 1045 (28000): Access
Google Chrome 为何打压 H.264 dsjt apple html5 chrome Google
Google 今天在 Chromium 官方博客宣布由于 H.264 编解码器并非开放标准，Chrome 将在几个月后正式停止对 H.264 视频解码的支持，全面采用开放的 WebM 和 Theora 格式。 Google 在博客上表示，自从 WebM 视频编解码器推出以后，在性能、厂商支持以及独立性方面已经取得了很大的进步，为了与 Chromium 现有支持的編解码器保持一致，Chrome
yii 获取控制器名和方法名 dcj3sjt126com yii framework
1. 获取控制器名在控制器中获取控制器名: $name = $this->getId(); 在视图中获取控制器名: $name = Yii::app()->controller->id; 2. 获取动作名在控制器beforeAction()回调函数中获取动作名: $name =
Android知识总结（二） come_for_dream android
明天要考试了，速速总结如下 1、Activity的启动模式 standard：每次调用Activity的时候都创建一个（可以有多个相同的实例，也允许多个相同Activity叠加。） singleTop：可以有多个实例，但是不允许多个相同Activity叠加。即，如果Ac
高洛峰收徒第二期：寻找未来的“技术大牛” ——折腾一年，奖励20万元 gcq511120594 工作项目管理
高洛峰，兄弟连IT教育合伙人、猿代码创始人、PHP培训第一人、《细说PHP》作者、软件开发工程师、《IT峰播》主创人、PHP讲师的鼻祖！首期现在的进程刚刚过半，徒弟们真的很棒，人品都没的说，团结互助，学习刻苦，工作认真积极，灵活上进。我几乎会把他们全部留下来，现在已有一多半安排了实际的工作，并取得了很好的成绩。等他们出徒之日，凭他们的能力一定能够拿到高薪，而且我还承诺过一个徒弟，当他拿到大学毕
linux expect heipark expect
1. 创建、编辑文件go.sh #!/usr/bin/expect spawn sudo su admin expect "*password*" { send "13456\r\n" } interact 2. 设置权限 chmod u+x go.sh 3.
Spring4.1新特性——静态资源处理增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
idea ubuntuxia 乱码 liyonghui160com
1.首先需要在windows字体目录下或者其它地方找到simsun.ttf 这个字体文件。 2.在ubuntu 下可以执行下面操作安装该字体： sudo mkdir /usr/share/fonts/truetype/simsun sudo cp simsun.ttf /usr/share/fonts/truetype/simsun fc-cache -f -v
改良程序的11技巧 pda158 技巧
有很多理由都能说明为什么我们应该写出清晰、可读性好的程序。最重要的一点，程序你只写一次，但以后会无数次的阅读。当你第二天回头来看你的代码时，你就要开始阅读它了。当你把代码拿给其他人看时，他必须阅读你的代码。因此，在编写时多花一点时间，你会在阅读它时节省大量的时间。让我们看一些基本的编程技巧：尽量保持方法简短永远永远不要把同一个变量用于多个不同的
300个涵盖IT各方面的免费资源（下）——工作与学习篇 shoothao 创业免费资源学习课程远程工作
工作与生产效率: A. 背景声音 Noisli:背景噪音与颜色生成器。 Noizio:环境声均衡器。 Defonic:世界上任何的声响都可混合成美丽的旋律。 Designers.mx:设计者为设计者所准备的播放列表。 Coffitivity:这里的声音就像咖啡馆里放的一样。 B. 避免注意力分散 Self Co
深入浅出RPC uule rpc
深入浅出RPC-浅出篇深入浅出RPC-深入篇 RPC Remote Procedure Call Protocol 远程过程调用协议它是一种通过网络从远程计算机程序上请求服务，而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在，如TCP或UDP，为通信程序之间携带信息数据。在OSI网络通信模型中，RPC跨越了传输层和应用层。RPC使得开发