HERODING77

【论文精读】Masked Autoencoders Are Scalable Vision Learners

Masked Autoencoders Are Scalable Vision Learners

前言
Abstract
1. Introduction
2. Related Work
- Masked language modeling
- Autoencoding
- Masked image encoding
- Self-supervised learning
3. Approach
- Masking
- MAE encoder
- MAE decoder
- Reconstruction target
- Simple implementation
4. ImageNet Experiments
- 4.1. Main Properties
- 4.2. Comparisons with Previous Results
- 4.3. Partial Fine-tuning
5. Transfer Learning Experiments
6. Discussion and Conclusion
阅读总结

前言

来自大神何凯明团队的工作，发表在CVPR2022，作为ViT的续作，解决了ViT的自监督学习问题，将通用的Transformer在CV领域再一次推进，文章的写作和思路都很值得借鉴，简单的方法也可以很硬核。

Paper: https://openaccess.thecvf.com/content/CVPR2022/papers/He_Masked_Autoencoders_Are_Scalable_Vision_Learners_CVPR_2022_paper.pdf
Code: https://github.com/facebookresearch/mae

Abstract

本文表明MAE是计算机视觉可扩展的自监督学习者。MAE的方法很简单：随机mask图像patch并重建丢失的像素。它基于两个核心设计：

设计一个非对称的编码器-解码器架构，编码器仅对可见的像素操作，解码器根据潜在的表征和mask tokens重建原始图像。
mask高比例（如75%）的图像会产生不平凡且有意义的自监督任务。

将这两个方法结合起来可以高效训练大模型并提升准确性。在ViT-Huge模型上仅基于ImageNet-1K就能达到87.8%的准确率，优于监督预训练结果。

1. Introduction

由于模型和算力的快速发展，百万级别的数据已经无法满足当前的模型，需要上亿级别的标签数据。这种对数据的需求在NLP领域已经通过自监督学习的方式得到了解决，典型的模型有BERT和GPT。这些方法可以训练包含超过1000亿个参数的通用模型。
同样的思想也很自然应用到CV领域，但是应用起来却远远落后于在NLP中的效果。因此作者提出疑问：究竟是什么造成掩码自编码在CV和NLP领域的不同？作者尝试从以下几点进行回答：

架构不同。卷积一直占据CV领域主要地位，但是将mask标记或者位置信息集成到卷积中并不容易（掩码的部分卷着卷着可能就没了，很难单独拎出来）。好在ViT解决了这个问题。
信息密度不同。在NLP中，一个词就是一个高度语义的实体，缺失部分很容易产生歧义。但是在图片中，像素是冗余的，缺失很容易通过插值法复原。为了缓解差异，作者展示了一个简单的策略：随机掩码大部分图像块。这可以大大减少冗余，增大模型学习难度。

上述图片展示的是经过大量掩码后的图片通过MAE修复后与原图的对比结果。可以看到随机掩码75%的图像块基本可以复原原始图像语义信息，但是更大的掩码比例会在一定程度上丢失部分语义信息。

解码器层在文本和图像中发挥不同的作用。在视觉中，解码器重构像素，因此其输出的语义级别要低于常见的识别任务。而对于自然语言，解码器预测包含丰富语义信息的缺失单词。因此NLP中解码器只需要一层MLP，而CV需要更复杂的结构。

基于上述分析，本文提出简单、有效、可扩展的MAE，用于视觉的表示学习。MAE随机掩码图像块，并在像素空间进行重建。它具有非对称的编码器-解码器设计，解码器部分只操作未掩码图像块，轻量级的解码器重建掩码图像块，整个流程如下图所示：

高掩码率的设计即可以提高模型的准确率，又可以减少预训练的时间和内存消耗。
MAE可以学习到泛化能力强的模型。在ImageNet-1K上训练ViT-Large/Huge，性能优于在百倍监督数据集下预训练的ViT。在目标检测、实体分割和语义分割的实验上也取得了比监督预训练更好的效果。更重要的是，模型的可扩展性和NLP中自监督训练有着一致的表现。

2. Related Work

Masked language modeling

掩码语言建模BERT和自回归模型GPT在NLP预训练方法中取得成功。这些方法已被证实具有良好的可扩展性，可以推广到各种下游任务。

Autoencoding

自编码是学习表征的经典方法。经典的自编码器包括PCA和k-means。去噪自编码器DAE是自编码器，它先破坏原始的输入信号，然后学习重建损坏的信号。MAE虽然也是去噪自编码器，但是很多方面与DAE不同。

Masked image encoding

通过对图像进行掩码学习表征。开创性工作如DAE，上下文编码器使用卷积网络修复大的缺失区域。最近的方法都是基于Transformer，如IGPT对像素序列操作并预测未知像素，ViT研究了自监督学习掩码图像块预测。最近，BEiTher提出预测离散token。

Self-supervised learning

最近对比学习很流行，对两个或多个图像之间的相似性或相异性建模，它主要依赖数据增强。而自编码器的自监督学习和对比学习是不一样的。

3. Approach

MAE是一个简单的自编码方法，可以根据部分观察结果重建原始信号。MAE有一个编码器将信号映射到潜在表征，一个解码器从潜在表征中重建原始信号。但是和典型的自编码器又有不同，采用不对称设计，编码器部分只对未掩码的token进行操作，而解码器采用轻量级设计，从潜在表征和掩码token重建信号。

Masking

遵循ViT的形式，我们将一张图片划分为互不相交的图像块。接着对图像块进行不放回随机采样，并对剩余图像块进行掩码。高掩码率让模型无法通过相近图像块轻松外推像素，高度稀疏的输入也有助于设计高效的编码器。

MAE encoder

编码器部分采用ViT，只对未掩码的图像块建模。首先将图像块线性映射为embedding再加入位置信息，然后通过一系列Transformer块处理。未掩码的图像块只占整个图像的小部分（25%），因此允许模型使用小部分计算和内存去训练大的编码器模型。

MAE decoder

解码器输入是完整的图像块序列。所有的掩码token通过一个共享的、可学习的向量表示，同时加入为所有的token加入位置信息。解码器部分只在预训练重建图像的时候使用，因此可以灵活设计解码器架构。作者采用计算量只有编码器10%的解码器，这样的非对称设计显著减少了预训练时间。

Reconstruction target

MAE通过预测掩码图像块的像素值来重建输入。输出的是每个图像块的像素向量，通过线性投影映射回原始的图像块大小。损失函数采用MSE，仅在掩码图像块上计算损失。
此外，作者还研究了重建目标是每个图像块的归一化像素值。具体来说，作者计算图像块中所有像素的平均值和标准差，使用它们来归一化该图像块。

这里其实只能在训练的时候采用该方法，因为训练时图像已知，可以计算出均值和方差，但是在预测时如何计算是个问题。

Simple implementation

整体过程如下：

为每个输入图像块生成embedding并加入位置信息。
随机打乱顺序进行掩码。
将未掩码的图像块输入到编码器中。
编码后将图像块序列恢复，让token与原始位置对齐，并加入位置信息。
输入解码器中对mask的图像块进行重建。

4. ImageNet Experiments

作者在ImageNet-1K数据集上进行自监督预训练，然后分别在端到端和最后线性层上进行微调。
Baseline: ViT-LArge. 下面是重头开始训练的ViT-L与微调MAE的比较：

从头开始训练ViT-L并非易事，但是ViT-L加上强正则化可以显著提升效果。尽管如此，MAE还是要高于ViT-L的结果。

4.1. Main Properties

消融实验见上表，有如下的观察结果。
Masking ratio.

上表展示了mask比例对微调结果的影响，可以看到75%对于两种微调方式都是有利的。这与BERT观察到的结果形成鲜明的对比，BERT只有15%的掩码率。此外，上表还表明端到端微调和线性层微调遵循不同的趋势。后者对掩码比例明显更为敏感。
Decoder design.
解码器可以灵活设计，如4.1表中a和b。对于端到端微调来说，解码器的层数对结果几乎没有影响，单层Transformer就可以达到84.8%的出色表现，这可以显著加快训练速度。而足够深的解码器对线性层微调极为重要（最高能提升8%）。
表1b研究了解码器维度对性能的影响，512的维度在两个微调条件下都能表现良好。
Mask token.
MAE的一个重要设计是在编码器阶段跳过掩码图像块，并在解码器阶段应用。表1c研究了这种设计，可以发现，如果编码器加入了掩码token，效果会变差，可能原因是掩码的图像块并不真实存在，这限制了编码器的性能。因此不添加掩码图像块是一举两得的操作，既能提高模型性能，又大大减少了计算量和内存消耗，实现了2.8倍的加速，对于更大的模型，加速效果更明显。

Reconstruction target.
表1d比较了不同的重建目标。经过标准化的像素可以提高准确性。另一种变体在图像块空间执行PCA并采用最大的PCA系数，这样做会降低准确性。
此外MAE还与BEiT进行了对比，比起tokenizer的方法，MAE不仅简单，而且性能更好。
Data augmentation.
表1e研究了数据增强对MAE预训练的影响。MAE仅在裁剪增强上性能会更好。这一属性和对比学习的相关方法显著不同，后者严重依赖数据增强。在MAE中，每次迭代掩码不同，都是新的数据，因此不满足数据增强的场景（训练数据不足）。
Mask sampling strategy.
表1f比较了不同的掩码采样策略，效果如下图所示：

大块掩码在50%的掩码率下最好，但是重建结果仍很模糊。网格采样掩码表示质量很低。因此，简单的随机采样最适合MAE。它允许更高的掩码比例，具有加速优势，同时准确性也更好。
Training schedule.
到目前为止都是基于800轮的预训练，下图显示了训练长度的影响：

随着训练时间的延长，准确性稳步提高。甚至到1600轮仍未见饱和。

4.2. Comparisons with Previous Results

Comparisons with self-supervised methods.

上表不同方法在ViT模型下的微调结果。随着模型越大，方法之间的差异增大，说明更大的模型面临着过拟合的问题。在ViT-H448上进行微调，MAE可以达到87.8%的准确率。比当前最先进的技术有着显著提升。
与BEiT相比，MAE更准确、更简单、更快速。结果见表1c。
Comparisons with supervised pre-training.

和最初的ViT-L相比，MAE的监督学习效果会更好，但准确性会饱和。MAE遵循JFT300M上进行监督预训练的趋势，这表明MAE可以帮助扩大模型的大小。

4.3. Partial Fine-tuning

表1显示了端到端微调和最后一层微调的巨大差距，但是这种差异的变化也是值得注意的。

上图展示了结果，值得注意的是，仅微调一个Transformer块即可将准确度从73.5%提高到81.0%。此外如果只微调Transformer块中的MLP层，也能获得79.1%的准确度。上图还和MoCo v3进行比较，MoCo线性微调效果好，但是MAE具有更强的非线性特征，因此微调Transformer块效果会更好。
这些观察都表明线性层并不是评估表示质量的唯一标准，并且线性层和迁移学习性能没有相关性。

5. Transfer Learning Experiments

在目标检测任务上，MAE效果是最好的。

在语义分割任务上，MAE效果也是最好的。

在分类任务的迁移学习上，MAE表现出模型越大，准确性越高的趋势。大大优于SOTA。

上表比较了像素重建和token重建的差异，可以看出性能没有明显的差异，而重建token更为简单，因此MAE的方法无需进一步优化为dMAE。

6. Discussion and Conclusion

在NLP中，简单的自监督学习方法可以从指数可扩展的模型中受益。在CV中，尽管自监督学习取得进展，但是还是监督学习占据主导。本文在ImageNet和迁移学习上观察发现，自编码器可以类似NLP自监督学习方法提供可扩展的优势，自监督学习可能成为CV领域的新趋势。
另一方面，作者注意到图像和文本信息是有差异的，文本中一个词是语义单元，包含信息更多，而图像块常常不是特定的物体，可能是一个物体或者多个物体的一部分。尽管如此，MAE仍能重建像素，这说明MAE学习到了很多视觉上的概念，这对未来的工作将具有一定的启发意义。

阅读总结

简单的方法，优秀的性能，丰富的实验，再加上条理清晰的论文，这就是一个优秀工作所具备的品质。本文的引言部分以提问题的方法，一步步的寻求答案，让本文的方法浮出水面，这样的写作思路可以更好将读者带入故事中，帮助读者理解工作的细节。
MAE相当于是ViT的续作，解决了ViT中自监督学习方法的不足，也让我对做文章有了更深的认识，每篇文章，或多或少都有不足，有的会指出，有的不会，但说到底，如果读者能够做到精读论文，相信工作的不足你一定能够发现，那么这就是之后可以关注的重点，只要解决不足，不就又是一篇好的工作了，这样的效率可比盲目空想来的快多了。

Unity编辑器扩展C#遍历文件夹以及子目录下的所有图片 charlsdm C#Unity unity 编辑器 c#
下边是我自己写的编辑器扩展关于遍历文件夹下边以及子目录下的所有图片，仅提供参考[MenuItem("编辑器扩展关于图集/C#遍历文件夹以及子目录下的所有图片")]staticvoidRefreshAllPicture(){string[]DebugAllImage=newstring[]{};DebugAllImage=KnowAllPicture(
Linux如何压缩或解压文件到指定目录 S1901 CentOS7 Linux shell编程 Linux tar命令解压压缩文件操作
解压文件到指定目录命令格式：tar-zxvf【压缩包文件名.tar.gz】-C【路径】/例如：tar-zxvfaaa.tar.gz-C/tmp/压缩文件到指定目录命令格式：tar-zcvf【目录】/【压缩包文件名.tar.gz】【源文件】例如：tar-zcvf/tmp/test.tar.gzjapan/注意：一次压缩多个文件时，直接在源文件后用空格格开即可。
位图的深入解析：从数据结构到图像处理与C++实现 Exhausted、机器学习计算机视觉人工智能图像处理 c++算法数据结构开发语言
在学习优选算法课程的时候，博主学习位运算了解到位运算的这个概念，之前没有接触过，就查找了相关的资料，丰富一下自身，当作课外知识来了解一下。位图（Bitmap）是一种用于表示图像的数据结构，它将图像分解为像素的二维网格，每个像素的颜色值存储在一个矩阵中。位图广泛应用于计算机图形学、图像处理和计算机视觉等领域。目录1.位图的基本概念1.1像素1.2分辨率1.3颜色深度2.位图的存储格式2.1BMP格式
ORB-SLAM2源码学习：Tracking.cc：GrabImageStereo、GrabImageRGBD、GrabImageMonocular处理图像 PaLu-LvL 计算机视觉 #ORB-SLAM2 #局部建图线程计算机视觉人工智能 c++ubuntu 学习
前言该部分函数在Tracking.cc源文件中定义，用于处理图像。1.函数作用：1.GrabImageStereo函数的主要作用是处理输入的双目图像（左视图和右视图），进行必要的预处理（颜色转换），创建表示当前帧的对象，并执行跟踪操作，最后返回当前帧在世界坐标系下的变换矩阵。cv::MatTracking::GrabImageStereo(constcv::Mat&imRectLeft,const
python版halcon 转numpy 虚假程序设计 python numpy opencv
新版Halcon支持python接口,Python函数和halcon函数名几乎完全相同,用python写一些对性能要求不高的插件还是很舒服的.(halcon-python环境配置可以看我之前的文章)众所周知python中图像是用numpy表示的,python常用的图像处理库matplotlib,pillow,opencv-python,Scipy,pgmagick....等等...所以图像转成nu
halcon opencv C++环境配置 | halcon opencv |C++互转opencv和Halcon图像变量(非常详细)|(msvc2015/17)(143) 虚假程序设计 opencv c++人工智能
这是本人第一次正儿八经非调侃的态度写C相关的东西;VS的C++每次环境不好配置就让人望而却步;而python的优势在于环境几乎只需要pipinstallxxx;C#多数情况下nuget点点点在添加引用就能愉快的玩耍;而pyC#背后竟然是xxx;有一被分层包养的感觉;而C/CPP头文件程序链接文件(动态|静态)动态链接库这都啥??掌握pythonnetctypes咯咯咯嘎嘎嘎%$#@#$%&^*(&
java lambda表达式编译_什么是Java 8 Lambda表达式编译？我是一只萤火虫呀 java lambda表达式编译
参见英文答案>HowwillJavalambdafunctionsbecompiled?考虑下面的Java8代码段。publicstaticvoidmain(String[]args){Listintegers=Arrays.asList(1,2,3,4,5);Consumerconsumer=x->System.out.print(x);integers.forEach(consumer);}什
计算机视觉国内外研究现状（综述）埃菲尔铁塔_CV算法计算机视觉
1.国内外研究进展1.2.1特征提取研究进展特征提取是图像处理的一个重要环节，是进行身份识别和行为识别的重要部分。近年来，针对不同特征的提取，国内外学者提出了许多特征提取算法，同样特征提取的效果大都不错。但是在复杂的猪舍环境中提取猪的特征还是比较困难的。下面针对几种目前常用的特征提取算法进行一些介绍。（1）传统的特征提取算法传统特征提取算法已经发展了很久，现阶段比较成熟，是深度学习算法出来之前研究
3dgs 2025 学习笔记 AI算法网奇 3d渲染学习笔记
CVPR20243D方向总汇包含（3DGS、三维重建、深度补全、深度估计、全景定位、表面重建和特征匹配等）_cvpr2024-structure-awaresparse-viewx-ray3dreconstr-CSDN博客https://github.com/apple/ml-hugs3DGSCOLMAP-Free3DGaussianSplatting⭐codeprojectFeature3DGS
【深入探索-deepseek】高等数学与AI的因果关系我的青春不太冷人工智能机器学习数学
目录数学在AI不同领域的应用区别一、计算机视觉领域1.线性代数2.微积分3.概率论与统计二、自然语言处理领域三、语音识别领域四、数学在AI不同领域应用的逻辑图五、参考资料数学在AI不同领域的应用区别一、计算机视觉领域1.线性代数图像变换：想象我们有一张二维图片，图片里有个点，它的位置用坐标((x,y))表示。现在我们想把这个点绕着图片的原点（就像把纸钉在墙上，以钉子的位置为中心）逆时针旋转一定角度
图像分类与目标检测算法 BugNest AI 算法分类目标检测 ai 人工智能图像处理
在计算机视觉领域，图像分类与目标检测是两项至关重要的技术。它们通过对图像进行深入解析和理解，为各种应用场景提供了强大的支持。本文将详细介绍这两项技术的算法原理、技术进展以及当前的落地应用。一、图像分类算法图像分类是指将输入的图像划分为预定义的类别之一。这一过程的核心在于特征提取和分类器的设计。1.特征提取特征提取是图像分类的第一步，其目标是从图像中提取出能够区分不同类别的关键信息。传统的特征提取方
【鸿蒙在OpenHarmony系统上集成OpenCV，实现图片裁剪】萌虎不虎 OpenHarmony harmonyos opencv 华为
鸿蒙在OpenHarmony系统上集成OpenCV，实现图片裁剪OpenCV介绍OpenCV（OpenSourceComputerVisionLibrary）是一个开源的计算机视觉和机器学习软件库。它由一系列的C函数和少量C++类构成，同时提供Python、Java和MATLAB等语言的接口，实现了图像处理和计算机视觉方面的很多通用算法。OpenCV具有极广的应用领域，它包括但不限于：人脸识别和物
cv2小练习 #岩王爷 pyqt 音视频
基础概念帧率是指在单位时间内，显示的图像帧数的数量。它是衡量视频或动画流畅度的一个重要指标。帧率的单位通常是每秒帧数（FramesPerSecond，简称FPS）。在数字视频和计算机图形领域，帧率是决定视频播放质量和流畅度的关键因素。一般来说，当帧率较高时，视频播放会更加流畅，动画也会更加细腻和逼真；而当帧率较低时，视频播放可能会出现不流畅、卡顿或抖动的现象。虽然帧率本身不能直接控制倍速播放，但倍
使用 HuggingFace 库进行本地嵌入向量生成 qq_37836323 python 人工智能开发语言
在当今的AI和机器学习应用中，嵌入向量（embeddings）已成为不可或缺的一部分。嵌入向量能够将文本等高维数据转换为低维稠密向量，从而便于计算和分析。在本文中，我们将介绍如何使用HuggingFace库在本地生成嵌入向量，并演示相关代码。环境准备首先，我们需要安装一些必要的依赖库。可以通过以下命令进行安装：#安装必要的库!pipinstallsentence-transformers!pipi
计算机视觉工业相机、镜头、接口、光源概览及选型参考坐望云起深度学习从入门到精通计算机视觉数码相机人工智能镜头接口数据接口镜头
一、相机1、分类按芯片类型分类：CCD相机、CMOS相机按传感器的结构特性分类：线阵相机、面阵相机按输出信号方式分类：模拟相机、数码相机按输出色彩方式分类：黑白相机、彩色相机2、重要参数芯片尺寸芯片尺寸表示图像传感器感光区域的面积大小，直接决定了整个系统的物理放大率。相机的芯片尺寸如图所示。分辨率分辨率表示每英寸包含的像素数。对于图像来说，分辨率是非常重要的，决定了图像是否能够清晰地呈现：相机的分
Java笔记——Java基础概念_java概念啊健的影子 java 笔记 python
Java基础概念基础概念Java语言一种面向对象的语言publicclassHello{publicstaticvoidmain(String[]args){System.out.println("Helloworld!");}}publicclassHello{publicstaticvoidmain(String[]args){System.out.println("Helloworld!")
Java笔记——50个JAVA常见代码大全:学完这篇从Java小白到架构师啊健的影子 java 笔记 python
50个JAVA常见代码大全：学完这篇从Java小白到架构师Java，作为一门流行多年的编程语言，始终占据着软件开发领域的重要位置。无论是初学者还是经验丰富的程序员，掌握Java中常见的代码和概念都是至关重要的。本文将列出50个Java常用代码示例，并提供相应解释，助力你从Java小白成长为架构师。基础语法1.HelloWorldpublicclassHelloWorld{publicstaticv
【人工智能】Python中的深度学习优化器：从SGD到Adam 蒙娜丽宁 Python杂谈人工智能人工智能 python 深度学习
《PythonOpenCV从菜鸟到高手》带你进入图像处理与计算机视觉的大门！解锁Python编程的无限可能：《奇妙的Python》带你漫游代码世界在深度学习模型的训练过程中，优化器起着至关重要的作用，它决定了模型的收敛速度以及最终的性能。本文将介绍深度学习中常用的优化器，从传统的随机梯度下降（SGD）到现代的自适应优化器（如Adam）。我们将深入探讨每种优化器的原理、优缺点，并通过Python实现
【人工智能】基于Python和OpenCV实现实时人脸识别系统：从基础到应用蒙娜丽宁 Python杂谈人工智能 python 开发语言
随着人工智能和计算机视觉的快速发展，人脸识别技术已广泛应用于监控、安全、社交媒体、金融和医疗等领域。本文将介绍如何利用Python和OpenCV库，结合dlib进行实时人脸识别的实现。通过构建一个基础的实时人脸识别系统，读者将深入了解人脸检测与识别的核心原理，掌握如何使用现有的计算机视觉工具快速开发一个有效的实时系统。本文将详细介绍如何通过OpenCV和dlib来实现人脸检测与识别，如何实时获取摄
【AI】人工智能没那么神秘！仇辉攻防人工智能 ai 语言模型自然语言处理机器学习深度学习网络安全
AI是什么？人工智能（ArtificialIntelligence），英文缩写为AI。AI人工智能不是简单的应用程序，而是一类技术，包含机器学习、自然语言处理、计算机视觉等多个领域。AI系统通常由算法、数据、模型和代码组成，其中代码用于实现算法，数据用于训练模型，最终形成智能决策能力。AI可以嵌入到应用程序中，但其本身是一个复杂的技术体系。AI为什么这么聪明？AI之所以看起来很聪明，主要是因为它通
TX2+FFmpeg+OpenCV读取显示网络摄像头宗而研之 #NVIDIA Jetson
作者：JasonDing链接：https://www.jianshu.com/p/6ef3c18d61b0來源：简书著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。引子OpenCV中有自己的用于处理图片和视频的类VideoCapture，可以很方便的读入文件和显示。现在视频数据流是ffmpeg解码h264文件得到的，由于要依赖该数据源进行相应的后续处理，所以需要将ffmpeg中
Flux如何工作？这款新图像生成AI可与Midjourney一较高下硅基创想家 AI-人工智能与大模型人工智能 midjourney Flux 大模型人工智能生成图片
Flux是什么？Flux是黑森林实验室（BlackForestLabs）开发的一款新型人工智能图像生成模型。它代表了人工智能生成艺术领域的重大进展，采用了一种“混合架构”，将transformer和diffusion技术相结合，参数规模达120亿。该模型在图像生成方面具备顶尖性能，在精准遵循提示词、视觉质量、图像细节和输出多样性等方面表现卓越。谁创造了Flux？该模型由黑森林实验室推出。这是一家新
【Ubuntu系统Qt下使用OpenCV打开摄像头并把图像显示到QLabel上】落叶霜霜 ubuntu qt opencv php linux 开发语言运维
error:undefinedreferenceto`cv::VideoCapture::~VideoCapture()’解决undefinedreferencetocv::VideoCapture::VideoCapture()在使用OpenCV进行图像或视频处理时，有时会遇到类似于undefinedreferencetocv::VideoCapture::VideoCapture()`的错误信
python 摄像头异常,opencvpython摄像头读取错误 weixin_39580564 python 摄像头异常
我有个错误VIDEOIOERROR:V4L2:PixelformatofincomingimageisunsupportedbyOpenCVUnabletostopthestream:DeviceorresourcebusyVIDEOIOERROR:V4L:can'topencamerabyindex0尝试运行代码时importtimeimportdatetimeimportcv2importbo
C++ OpenCV读取摄像头闪退的解决方法 EiyMobile c++opencv 开发语言 OpenCV
在使用OpenCV进行摄像头读取时，有时会遇到程序闪退的情况，这通常是由于摄像头设备无法被正确打开所导致的。本文将介绍如何解决这个问题。检查摄像头连接首先，我们需要检查摄像头的连接是否正常。如果摄像头没有正确连接到计算机上，或者连接的线路有问题，那么摄像头就无法被正确识别。检查摄像头驱动程序如果摄像头连接正常，那么我们需要检查摄像头的驱动程序是否正确安装。如果驱动程序没有正确安装或者已经损坏，那么
transformer 我爱派生深度学习 transformer 深度学习人工智能
导语：2017年，一篇名为《AttentionisAllYouNeed》的论文横空出世，提出了Transformer模型，彻底改变了自然语言处理（NLP）领域的格局。Transformer以其独特的结构和强大的性能，迅速成为NLP领域的霸主，并逐渐向其他人工智能领域渗透。本文将带你深入了解Transformer的原理、优势以及应用，探讨其对人工智能发展的深远影响。一、从RNN到Transforme
【Nginx】Nginx 最新稳定版本（1.26.3）发布 cnskylee Nginx nginx 负载均衡软负载
根据nginx.org官网显示，2025年2月5日发布了1.26.3稳定版。该版本修复了多处Bug，并修复了一个安全漏洞(CVE-2025-23419)。二进制源码版本下载地址：http://nginx.org/download/nginx-1.26.3.tar.gzRPM包下载地址（ForLinux8&9）：http://nginx.org/packages/centos/8/x86_64/RP
安全研究员职业提升路径 rockmelodies 人工智能 deepseek
阶段一：基础能力沉淀期（0-3年）目标薪资：15-30万/年（国内）核心技能掌握渗透测试全流程（Web/App/内网）熟练使用BurpSuite、Metasploit、IDAPro等工具理解漏洞原理（如OWASPTop10、CVE漏洞复现）获得OSCP认证（实战渗透黄金标准）变现策略参与众测平台（HackerOne/Bugcrowd），积累漏洞奖金撰写技术博客，建立个人技术品牌参与企业红队外包项目
中值十字形滤波 matlab,Opencv+python：中值滤波十字形窗口夏小龙中值十字形滤波 matlab
前言在进行图像空域处理时，对于椒盐噪声的图像，中值滤波是一个很不错的选择，一般来说mask有矩形椭形和十字形，十字形被认为在处理含有少数尖锥基元的图像更能保证尖锥的形状，由于没找到Matlab自带的函数库实现十字窗口，并且论坛上有极少的Opencv基于python的代码，大多还是付费的，于是自己写了一个模板，能够实现基本原理，至于效果和处理速度，有时间以后会进行优化。中值滤波中值滤波的原理很简单，
python中的网络编程 suanfa_student python 网络服务器
Socket网络编程计算机之间进行连接通信的一套程序接口，相当于在发送端和接收端建立通信管道。编写TCP使用Socket模块，方法包括：connect:连接远程计算机地址send(bytes[,flag]):发送数据recv(bufsize[,flags]):接收数据bind(address):绑定地址listen(backlog):开始监听,backlog指定连接队列最大长度accept():响
PHP如何实现二维数组排序？ IT独行者二维数组 PHP 排序　
二维数组在PHP开发中经常遇到，但是他的排序就不如一维数组那样用内置函数来的方便了，（一维数组排序可以参考本站另一篇文章【PHP中数组排序函数详解汇总】）。二维数组的排序需要我们自己写函数处理了，这里UncleToo给大家分享一个PHP二维数组排序的函数：代码： functionarray_sort($arr,$keys,$type='asc'){ $keysvalue= $new_arr
【Hadoop十七】HDFS HA配置 bit1129 hadoop
基于Zookeeper的HDFS HA配置主要涉及两个文件,core-site和hdfs-site.xml。测试环境有三台 hadoop.master hadoop.slave1 hadoop.slave2 hadoop.master包含的组件NameNode, JournalNode, Zookeeper，DFSZKFailoverController
由wsdl生成的java vo类不适合做普通java vo darrenzhu VO wsdl webservice rpc
开发java webservice项目时，如果我们通过SOAP协议来输入输出，我们会利用工具从wsdl文件生成webservice的client端类，但是这里面生成的java data model类却不适合做为项目中的普通java vo类来使用，当然有一中情况例外，如果这个自动生成的类里面的properties都是基本数据类型，就没问题，但是如果有集合类，就不行。原因如下： 1)使用了集合如Li
JAVA海量数据处理之二（BitMap）周凡杨 java 算法 bitmap bitset 数据
路漫漫其修远兮，吾将上下而求索。想要更快，就要深入挖掘 JAVA 基础的数据结构，从来分析出所编写的 JAVA 代码为什么把内存耗尽，思考有什么办法可以节省内存呢？啊哈！算法。这里采用了 BitMap 思想。首先来看一个实验：指定 VM 参数大小： -Xms256m -Xmx540m
java类型与数据库类型 g21121 java
很多时候我们用hibernate的时候往往并不是十分关心数据库类型和java类型的对应关心，因为大多数hbm文件是自动生成的，但有些时候诸如：数据库设计、没有生成工具、使用原始JDBC、使用mybatis(ibatIS)等等情况，就会手动的去对应数据库与java的数据类型关心，当然比较简单的数据类型即使配置错了也会很快发现问题，但有些数据类型却并不是十分常见，这就给程序员带来了很多麻烦。 &nb
Linux命令 510888780 linux命令
系统信息 arch 显示机器的处理器架构(1) uname -m 显示机器的处理器架构(2) uname -r 显示正在使用的内核版本 dmidecode -q 显示硬件系统部件 - (SMBIOS / DMI) hdparm -i /dev/hda 罗列一个磁盘的架构特性 hdparm -tT /dev/sda 在磁盘上执行测试性读取操作 cat /proc/cpuinfo 显示C
java常用JVM参数墙头上一根草 java jvm参数
-Xms：初始堆大小，默认为物理内存的1/64(<1GB)；默认(MinHeapFreeRatio参数可以调整)空余堆内存小于40%时，JVM就会增大堆直到-Xmx的最大限制 -Xmx：最大堆大小，默认(MaxHeapFreeRatio参数可以调整)空余堆内存大于70%时，JVM会减少堆直到 -Xms的最小限制 -Xmn：新生代的内存空间大小，注意：此处的大小是（eden+ 2
我的spring学习笔记9-Spring使用工厂方法实例化Bean的注意点 aijuans Spring 3
方法一： <bean id="musicBox" class="onlyfun.caterpillar.factory.MusicBoxFactory" factory-method="createMusicBoxStatic"></bean> 方法二：
mysql查询性能优化之二 annan211 UNION mysql 查询优化索引优化
1 union的限制有时mysql无法将限制条件从外层下推到内层，这使得原本能够限制部分返回结果的条件无法应用到内层查询的优化上。如果希望union的各个子句能够根据limit只取部分结果集，或者希望能够先排好序在合并结果集的话，就需要在union的各个子句中分别使用这些子句。例如想将两个子查询结果联合起来，然后再取前20条记录，那么mys
数据的备份与恢复百合不是茶 oracle sql 数据恢复数据备份
数据的备份与恢复的方式有: 表,方案 ,数据库; 数据的备份: 导出到的常见命令; 参数说明 USERID 确定执行导出实用程序的用户名和口令 BUFFER 确定导出数据时所使用的缓冲区大小，其大小用字节表示 FILE 指定导出的二进制文
线程组 bijian1013 java 多线程 thread java多线程线程组
有些程序包含了相当数量的线程。这时，如果按照线程的功能将他们分成不同的类别将很有用。线程组可以用来同时对一组线程进行操作。创建线程组：ThreadGroup g = new ThreadGroup(groupName); &nbs
top命令找到占用CPU最高的java线程 bijian1013 java linux top
上次分析系统中占用CPU高的问题，得到一些使用Java自身调试工具的经验，与大家分享。 (1)使用top命令找出占用cpu最高的JAVA进程PID:28174 (2)如下命令找出占用cpu最高的线程 top -Hp 28174 -d 1 -n 1 32694 root 20 0 3249m 2.0g 11m S 2 6.4 3:31.12 java
【持久化框架MyBatis3四】MyBatis3一对一关联查询 bit1129 Mybatis3
当两个实体具有1对1的对应关系时，可以使用One-To-One的进行映射关联查询 One-To-One示例数据以学生表Student和地址信息表为例，每个学生都有都有1个唯一的地址(现实中，这种对应关系是不合适的，因为人和地址是多对一的关系)，这里只是演示目的学生表 CREATE TABLE STUDENTS (
C/C++图片或文件的读写 bitcarter 写图片
先看代码： /*strTmpResult是文件或图片字符串 * filePath文件需要写入的地址或路径 */ int writeFile(std::string &strTmpResult,std::string &filePath) { int i,len = strTmpResult.length(); unsigned cha
nginx自定义指定加载配置 ronin47
进入 /usr/local/nginx/conf/include 目录，创建 nginx.node.conf 文件，在里面输入如下代码： upstream nodejs { server 127.0.0.1:3000; #server 127.0.0.1:3001; keepalive 64; } server { liste
java-71-数值的整数次方.实现函数double Power(double base, int exponent)，求base的exponent次方 bylijinnan double
public class Power { /** *Q71-数值的整数次方 *实现函数double Power(double base, int exponent)，求base的exponent次方。不需要考虑溢出。 */ private static boolean InvalidInput=false; public static void main(
Android四大组件的理解 Cb123456 android 四大组件的理解
分享一下，今天在Android开发文档-开发者指南中看到的: App components are the essential building blocks of an Android
[宇宙与计算]涡旋场计算与拓扑分析 comsci 计算
怎么阐述我这个理论呢？。。。。。。。。。首先：宇宙是一个非线性的拓扑结构与涡旋轨道时空的统一体。。。。我们要在宇宙中寻找到一个适合人类居住的行星，时间非常重要，早一个刻度和晚一个刻度，这颗行星的
同一个Tomcat不同Web应用之间共享会话Session cwqcwqmax9 session
实现两个WEB之间通过session 共享数据查看tomcat 关于 HTTP Connector 中有个emptySessionPath 其解释如下： If set to true, all paths for session cookies will be set to /. This can be useful for portlet specification impleme
springmvc Spring3 MVC，ajax，乱码 dashuaifu spring jquery mvc Ajax
springmvc Spring3 MVC @ResponseBody返回，jquery ajax调用中文乱码问题解决 Spring3.0 MVC @ResponseBody 的作用是把返回值直接写到HTTP response body里。具体实现AnnotationMethodHandlerAdapter类handleResponseBody方法，具体实
搭建WAMP环境 dcj3sjt126com wamp
这里先解释一下WAMP是什么意思。W:windows，A：Apache，M：MYSQL，P：PHP。也就是说本文说明的是在windows系统下搭建以apache做服务器、MYSQL为数据库的PHP开发环境。工欲善其事，必须先利其器。因为笔者的系统是WinXP，所以下文指的系统均为此系统。笔者所使用的Apache版本为apache_2.2.11-
yii2 使用raw http request dcj3sjt126com http
Parses a raw HTTP request using yii\helpers\Json::decode() To enable parsing for JSON requests you can configure yii\web\Request::$parsers using this class: 'request' =&g
Quartz-1.8.6 理论部分 eksliang quartz
转载请出自出处：http://eksliang.iteye.com/blog/2207691 一.概述基于Quartz-1.8.6进行学习，因为Quartz2.0以后的API发生的非常大的变化，统一采用了build模式进行构建；什么是quartz? 答：简单的说他是一个开源的java作业调度框架，为在 Java 应用程序中进行作业调度提供了简单却强大的机制。并且还能和Sp
什么是POJO？ gupeng_ie java POJO 框架 Hibernate
POJO--Plain Old Java Objects(简单的java对象) POJO是一个简单的、正规Java对象，它不包含业务逻辑处理或持久化逻辑等，也不是JavaBean、EntityBean等，不具有任何特殊角色和不继承或不实现任何其它Java框架的类或接口。 POJO对象有时也被称为Data对象，大量应用于表现现实中的对象。如果项目中使用了Hiber
jQuery网站顶部定时折叠广告 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/4.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>网页顶部定时收起广告jQuery特效 - HoverTree<
Spring boot内嵌的tomcat启动失败 kane_xie spring boot
根据这篇guide创建了一个简单的spring boot应用，能运行且成功的访问。但移植到现有项目（基于hbase）中的时候，却报出以下错误： SEVERE: A child container failed during start java.util.concurrent.ExecutionException: org.apache.catalina.Lif
leetcode: sort list michelle_0916 Algorithm linked list sort
Sort a linked list in O(n log n) time using constant space complexity. ====analysis======= mergeSort for singly-linked list ====code======= /** * Definition for sin
nginx的安装与配置,中途遇到问题的解决 qifeifei nginx
我使用的是ubuntu13.04系统，在安装nginx的时候遇到如下几个问题，然后找思路解决的，nginx 的下载与安装 wget http://nginx.org/download/nginx-1.0.11.tar.gz tar zxvf nginx-1.0.11.tar.gz ./configure make make install 安装的时候出现
用枚举来处理java自定义异常 tcrct java enum exception
在系统开发过程中，总少不免要自己处理一些异常信息，然后将异常信息变成友好的提示返回到客户端的这样一个过程，之前都是new一个自定义的异常，当然这个所谓的自定义异常也是继承RuntimeException的，但这样往往会造成异常信息说明不一致的情况，所以就想到了用枚举来解决的办法。 1，先创建一个接口，里面有两个方法，一个是getCode, 一个是getMessage public
erlang supervisor分析 wudixiaotie erlang
当我们给supervisor指定需要创建的子进程的时候，会指定M,F,A,如果是simple_one_for_one的策略的话，启动子进程的方式是supervisor:start_child(SupName, OtherArgs),这种方式可以根据调用者的需求传不同的参数给需要启动的子进程的方法。和最初的参数合并成一个数组，A ++ OtherArgs。那么这个时候就有个问题了，既然参数不一致，那