PeaceInMind

域适配论文杂读（门外汉级）

要看的基于深度学习的adaptation和image translation方面的论文，希望能对这个领域最新的工作有个概念,主要给自己看。其实个人觉得解决这个问题真的不是重点，而是研究它的成因，以便在训练的过程中解决CNN泛化的问题才是本质

Table of Contents

未看或未总结

分类或分割

[2018-arxiv] Adaptive Semantic Segmentation with a Strategic Curriculum of Proxy Labels [paper]

[2018-ICML] Learning Semantic Representations for Unsupervised Domain Adaptation[paper]

[2018-ICLR] Self-ensembling for visual domain adaptation [paper]

[2018-ICML]CYCADA: CYCLE-CONSISTENT ADVERSARIAL DOMAIN ADAPTATION [paper]

[2018-PR] Adaptive Batch Normalization for practical domain adaptation [paper]

[2018-CVPR-oral] Maximum Classifier Discrepancy for Unsupervised Domain Adaption[paper]

[2017-NIPS] Learning multiple visual domains with residual adapters[paper]

[2017-CVPR] Unsupervised Pixel-Level Domain adaption with Generative Adversarial Networks[paper]

[2018-CVPR]Deep Cocktail Network:Multi-source Unsupervised Domain Adaptation with Category Shift [paper]

检测器

[2018-CVPR] Domain Adaptive Faster R-CNN for Object Detection in the Wild [paper]

[2018-CVPR]Cross-domain weakly supervised object detection through progressive domain adaptation [paper][code]

Image Translation

[2018-NIPS] Image-to-image translation for cross-domain disentanglement [paper][code]

[2018-ECCV-oral]Diverse Image-to-Image Translation via Disentangled Representations [paper][code]

未看或未总结

Learning from Web Data: the Benefit of Unsupervised Object Localization

Unsupervised Domain Adaptation using Generative Models and Self-ensembling

SPLAT: Semantic Pixel-Level Adaptation Transforms for Detection

Domain Alignment with Triplets

Adversarial Feature Augmentation for Unsupervised Domain Adaptation

Moment Matching for Multi-Source Domain Adaptation

Unsupervised Image-to-Image Translation Using Domain-Specific Variational Information Bound

Conditional Adversarial Domain Adaptation

Adversarial Multiple Source Domain Adaptation

A Unified Feature Disentangler for Multi-Domain Image Translation and Manipulation

Revisiting (ϵ,γ,τ)(ϵ,γ,τ)-similarity learning for domain adaptation

[2018-arxiv]Progressive Feature Alignment for Unsupervised Domain Adaptation [paper]

[2018-NIPS]Generalizing to Unseen Domains via Adversarial Data Augmentation

[2018-ECCV] Domain Adaptation for Semantic Segmentation via Class-Balanced Self-Training

[2018-ECCV-oral] A Style-Aware Content Loss for Real-time HD Style Transfer

[2018-CVPR] Joint Pixel and Feature-level Domain Adaptation in the Wild

[2018-CVPR] Iterative Learning with Open-set Noisy Labels

[2018-CVPR-weakly] Zigzag learning for weakly Supervised Object detection

[2018-arxiv-weakly] Exploring the Limits of Weakly Supervised Pretraining[paper]

[2019-AAAI] Depthwise Convolution is All You Need for Learning Multiple Visual Domains [paper]主要去共享ponitwise的卷积

分类或分割

[2018-arxiv] Adaptive Semantic Segmentation with a Strategic Curriculum of Proxy Labels [paper]

自从看了MCD后，对类似的论文要求就高了。这篇论文的主体思想在我看了MCD后就想到了，但是个人觉得逃不出MCD的魔爪，也就没有尝试。当然这篇论文有两个东西不在我的意料之中

1 在souce domain用难例挖掘，在target domain用简例挖掘

2 在损失函数里面加个一个loss,使得两个分类网络的权值不同

其实个人觉得一开始就用proxy-label（一些论文里称之为pseudo-label）是有一定风险的，这个跟任务有关，没有一种很好的机制保证在很多任务都work,因为一不小心就跑飞了。

另外这篇论文竟然不引用MCD不是很能理解

[2018-ICML] Learning Semantic Representations for Unsupervised Domain Adaptation[paper]

我个人觉得这篇文章一定程度上受到了adaptive bn的影响。出发点也较为合理，因为直接用proxy-label或者pseudo-lable个人是觉得不太鲁棒的。作者用的是align每一个label的均值，明显更合理些。当然还是那个问题，用proxy-label需要仔细设计，不一定在很多任务都适用。

[2018-ICLR] Self-ensembling for visual domain adaptation [paper]

没有仔细看，感觉跟下面的MCD有点异曲同工

[2018-ICML]CYCADA: CYCLE-CONSISTENT ADVERSARIAL DOMAIN ADAPTATION [paper]

个人觉得比较无趣的工作，用cyclegan做image translation,估计是架不住性能好

[2018-PR] Adaptive Batch Normalization for practical domain adaptation [paper]

这篇也是我非常喜欢的论文，前期没调研清楚，我跟这篇想到一块去了，等好多实验做完了才发现思路已经被发了。所以进入一个领域要早，行动也要快。个人已经验证过这种zero-shot方法在作者没有实验的很多任务上都能有较大的提高。当然理论上还是有一定缺陷的，所以性能上比用了target damain数据的方法要差点，但是方案确实很简洁，我个人觉得很优美，发PR有点小亏。

[2018-CVPR-oral] Maximum Classifier Discrepancy for Unsupervised Domain Adaption[paper]

外行的角度看，非常漂亮的工作，非常创新且有意思的文章，解决方案也非常简洁。分类分割都适合，而且还有源码.

基本上传统的adapation的工作都是一个分支是对抗地区分源域和目标域，另外一个分支去对源域的样本做分类，两个分支共享网络（特征生成器）的一个重要任务是将源域和目标域的样本都投影到同一个特征空间，那么有可能会造成下图左边的情形，虽然源域和目标域区分不出来了，但是不同类别的样本特征空间有可能也会纠缠在一起，不利于最终的分类目标。虽然个人觉得图中有些夸张，因为毕竟还在另外一个分支在起作用，但是确实之前的方案没有刻意地考虑这个问题。

所以为了达到考虑类别分界面的目的，该工作的框架和训练目标有了明显的变化。同样一个生成器，两个分支，一个分支还是做分类，另外一个分支从对抗训练变成了还是做分类任务.然后每次迭代训练都分成三步。第一步，按照普通的分类损失让生成器和两个分类器能够处理源域的样本，第二步，固定生成器，训练两个分类器，同样，两个分类器需要处理源域分类损失，另外一个目标需尽量对目标域的样本做出不同的预测。这样训练过后的一个好处就是，如下图中的“maximize discrepancy”部分，如果两个分类器都对一个目标样本分类一致的话，那么这个样本肯定是比较好迁移的，两个分类器的分界面会先向这些好处理样本收缩。第三步，如下图中的“Minimize discrepancy”,固定分类器，训练生成器，使得样本的特征向F1，F2漂移.经过多次这样的迭代，最终就能得到想要的结果。

用作者的源码简单地跑了一下GTA5到cityscape的实验，发现两个loss有量级上的差距，后面需要再仔细看看。

一个可能的小缺陷是F1和F2都太靠近分界面，另外一个就是不知道target domain数据的分布，不一定能像作者画的那样，F1，F2能以合适的速度抢占target domain的区域。

[2017-NIPS] Learning multiple visual domains with residual adapters[paper]

一些量化方法里把大部分的权重量比特而保留少部分作为浮点型以提高精度。这篇文章的出发点其实有一点异曲同工之妙。它希望用同一个网络架构去解决不同domain的问题，但是希望共享大部分的权值，而重新训练少部分值。跟传统的finetuneing共享底层特征不同，该工作利用resnet的buildblock，并将其里面的大部分参数设置成了domain-agnostic的参数，而剩下了小部分的设置成domain-specific参数。domian-agnostic的参数可以通过在一个大型的数据库训练后固定下来。而domain-specific的参数就针对不同的数据或任务去调整。如下图，domain-specific的参数包括所有的BN层和作者新加的一些卷积层。这篇还有个改进版本。

[2017-CVPR] Unsupervised Pixel-Level Domain adaption with Generative Adversarial Networks[paper]

作者给出了一个非常直观也非常有意思的思路,应该是我看到的第一篇利用style transfer做adaption的工作。source domain的数据有label, target domain没有label,那作者就利用source domain的数据去生成类似于target domain的数据，然后用这些生成的数据去训练，一方面数据类似，另一方面又有label.

[2018-CVPR]Deep Cocktail Network:Multi-source Unsupervised Domain Adaptation with Category Shift [paper]

这一篇没有看的太懂，囫囵吞枣。该工作主要解决两个现实中可能出现的问题。第一个是可能有多个不同的source,因此该论文叫multi-source...，第二个target domain的类别不一定每个source都有，称之为catogoryshift。作者的做法个人理解有点像ensemble,不过加了weight。

首先作者为每个source都训练一个分类器Cs，并且还有一个domainclassifier以区别它和target domain. 那么想要得到一幅最终图片的类别，那么可以ensemble多个单独分类器Cs的结果。如果测试图片跟那个domain最接近，那么那个分类器的权重更高。domain的接近性可以用domain classifier的损失来判断。没看懂的主要地方在公式6，也就是domain classifier的损失选择原因。

[2018-CVPR] Joint Optimization Framework for Learning with Noisy Labels

该论文处理的的有错误标注的情况，相比于下篇论文，应该是个close-set的案例，也就是说虽然有些样本被标错了，但是样本的真实类别还包含在这个数据库中。比如imagenet有1000类，里面有猫有狗，然后一幅狗的图片被标成了猫，猫这个类别还是在这1000类里面，就称之为close-set.如果狗的图片被标成了狗粮，不在这1000类里面，就定义成open-set.

这个工作首先能给人insight的一个贡献从实验中发现了一个很有趣的现象，当用一个高学习率去训练网络时，网络对这种噪声比较鲁棒。

另外整个大框架的思路是很普通的，我刚进入这个领域就能想到，如下图，不过难点就在于怎么distill好的样本，如果没有好的方式，训练出来的结果很有可能不是想要的，就和把已经有部分认知能力的中学生扔进山里自我学习差不多，有可能出来一个杰出人才，有可能变成坏蛋，所有得想办法做一些间接的监督。

作者给出的方案是加两个约束在损失上。第一个是预测类别分布要与先验知识（比如训练集的类别分布）尽量一致。这里约束存在明显的缺陷，因为训练时候一般batch不是很大，对于一个batch的均值这个类别分布有个比较大的bias，特别是类别比较多的情况下。第二个约束是希望每个预测的label尽量confident，比如预测的概率不要停留在0.5，尽量要么0要么1，这是合理的，不过没有理解作者给出的可以防止陷入局部最优解的理由，需要再看看。

[2018-CVPR] fully convolutional adaptation networks for semantic segmentation[paper]

个人认为这篇工作每个子模块思想上都没特别大的创新，不过由于总体上讲在像素域做adaptation的确实不多，并且本人的一些粗浅实验显示直接在像素域做对抗训练效果不好，所以这篇论文还是能给人一些启发的。作者主要将像素域的adaptation分成两个子模块，并claim成两个很高大上的词汇叫appearance-level和representation-level domain adaptation,个人觉得其实就是style transfer和对抗训练，即先把源域的图片transfer到target domain,然后利用普通的像素域进行对抗训练。不过作者用的是老式的stype transfer的方法，一幅源域图片感觉应该都得调好久。

[2018-CVPR] ROAD: Reality Oriented Adaptation for Semantic Segmentation of Urban Scenes[paper]

主要是想利用合成的数据迁移到实际的数据。主要创新是在损失的设计上，adaption核心的东西还是里用分类的那一套。

作者在损失设计上考虑了两个方面，

第一个是Target Guided Distillation，个人看完之后还是觉得比较诡异，不过按照论文里的ablaiton study效果不错。作者用了两个同样架构的网络，只是一个权值用的是ImageNet训练的结果并且不会再改变，一个是权值需要微调以用于分割。固定不动的网络输入是真实图片，在某个层得到一个激活图f1,分割网络输入的是合成图片，还是在同样的层上得到另外一个激活图f2.那么这个损失的定义就是这两个图f1和f2的相异性，用的是逐点的欧式距离。所以很容易发现诡异的地方有两点，第一个是合成图片和实际图片不是配对的，不过在低层或者高层去匹配感觉都不是合理。第二个是一个网络是为分割，一个网络是为分类，这样的匹配合理性真是不是很能理解。

第二个在于像素级别的domain classifier,这个很好理解，就是让基础网络不能区分某个像素点是来自源域还是目标域，不过好像navie的方式不太好使，也就是直接把来自不同域的所有的像素当成两个类别，作者认为像素的方差太大（个人理解是不管是源域还是目标域像素特征分布纠缠在一块了），那么网络本来就分不出来，对抗训练也就没效果，

作者的方法是根据这类图片的特殊性，把图片分成了9块，比如图片上中区域对应的可能都是天空，中间都对应的都是马路什么的。经过这样的切分后，某个区域的像素点的特征比较集中，网络更能抓住它的特征，好区别，那么对抗训练才有效果。

检测器

[2018-CVPR] Domain Adaptive Faster R-CNN for Object Detection in the Wild [paper]

检测器的adaption问题研究的还是很少的，虽然本篇采用的还是分类器adaption的思路。如下图，该工作在faster rcnn的基础上加了三个模块。

其中两个模块是image-level adaption和 instance-leveladaption，很好理解。就是利用gradient reverse layer让基础的卷积层分不清图片和其中的物体是来自源域还是目标域。第三部分的consistency regularization也很好理解，就是作者希望两个模块的判断有一致性，最好不要出现image-level分类成源域而instance-level把该图的物体分类成目标域这种显然矛盾的结果，所以作者加了一个欧式loss，只需要计算每个instance类别激活值跟imagelevel head上特征图上图个激活值平均值的欧式距离。

（一点小疑问，由于RPN初期给出的box一般不太好，在instance的loss权重的设置上是不是能先低后高而不是一直保持在一个固定值上，实验为准）

[2018-CVPR]Cross-domain weakly supervised object detection through progressive domain adaptation [paper][code]

不知道怎么评价这篇文章。这篇文章想做的是跟其他的有些区别，首先他想做的是物体检测，不过在target domain里不像之前的完全没有标注，而是说有一些image level的标注，比如说这幅图里有猫和狗，但是不知道在什么地方。

作者用了两个技巧，第一个他称之为damain transfer,个人认为就是上面提到的 Unsupervised Pixel-Level Domain adaption with GenerativeAdversarial Networks 那一套，只是现在GAN上用了非常火的CycleGAN.第二个就是Pseudo-Labeling,target domain不是有图像级别的标签么，比如说狗和人，那么我先用在source domain训练的检测器去检测，狗和人置信度第一的框暂时认为是真值，然后去迭代训练。其实这种思想感觉是MIL的一个子集，早在image caption上就做的比较好了，比如 From Captions toVisual Concepts and Back 这篇论文

Image Translation

[2018-NIPS] Image-to-image translation for cross-domain disentanglement [paper][code]

这篇论文还没有理解透彻，因为感觉每个模块都似曾相识。这个工作对数据更严格，是要有paired data,这种数据估计也就是分类才有。在这样的数据下，作者把数据的特征表示成两个部分，一个部分是自己独有的（Exclusive representation.），另外一个部分是共享的（Shared representation.），如下图。

然后采用encoder-decoder架构结合一堆的loss迫使去学习上面的表达。

Exclusive representation:就是上面图2左边最顶和最底的两条线路。以x那条线路为例，x经过encoder得到特征表征，然后会被分成两部分，独有的部分会经过一个gradient reverse layer(前馈无影响，反馈把梯度变符号)，再经过一个decoder去生成一幅图像y'.Decoder是希望这幅图跟y越像越好，但是由于有gradient reverse layer, 前面的encoder是希望不能恢复，因此这个encoder出来的独有部分是不能恢复出y的。

Shared representation: 由于作者采用的是paired data, 所有共有的部分，就可以用L1的loss来训练。

Adding noise in the representation： 但是为了防止减数和被减数都趋向于非常小的数来减少loss,作者采用了先前工作的一个trick,在encoder的输出加一个N（0,0.1）的高斯噪声（怎么直观理解？）。

Reconstructing the latent space：相对于独有部分，通过共享的部分作者是希望能恢复出另外一个域的数据，也就是上面左图的中间部分。另外作者跟cyclegan类似，x恢复出的数据y'再经过相应的encoder应该得到跟前面decoder输入一致的表达

Architectural bottleneck: 这一段不是特别理解 Therefore, instead of using skip connections, we reduce the architectural bottleneck by increasing the size of the latent representation

WGAN-GP loss. 只是肤浅地看过一点，忘了，后面需要再看

Cross-domain autoencoders：交换共享部分还是可以恢复出来

[2018-ECCV-oral]Diverse Image-to-Image Translation via Disentangled Representations [paper][code]

作者把特征表达拆成了两部分，一个是不同域共有的content，一个是域特有的attribute,为了能生成diverse的结果，作者把attribute的分布约束在高斯分布，这样在测试的时候可以利用同一个content结合不同的attribute分别作为相应encoder的输入就能生成不同的结果。

网络设计部分：不同域的Content encoder的最后一层和Generator的第一层是共享的，去保证不同域的相同content投影到同样的空间。

Loss设计：作者采用了很多loss的组合来保证解耦特征的学习

content对抗loss:很常用的对抗loss,用一个discriminator去尽量区分content是来自哪个域，而encoder尽量去迷惑discirmiantor

self construction loss: 这个也很常见，当把一幅图片encoder成一个内部表达后，还是可以通过generator把原图恢复出来，如果原图是x,那么x' = Gx(Ecx(x),Eax(x))

construction loss = L1(x, x')

attribute loss: 上面提到了attribute要约束在高斯分布，作者采用的KL距离，另外作者为了鼓励attribute的可逆性，作者加了一个regression loss,意思就是，在一个content上结合一个随机的attribute z，生成一张图片，那么对这张图片再次通过encoder得到的attribute z'应该跟z类似

L1( Eax(Gx(Ecx(x),z))) , z)

Cross-cycle Consistency Loss：这个就是作者独特的东西。虽然cross cycle loss在很多其他论文里采用了，但是很多其他的都只能产生一个结果，作者为了适应生成不同的结果，作者改变了一些行为。从X,Y域各取样本x,y,那么可以用过各自的encoder生成Ecx(x),Eax(x)和Ecy(y),Eay(x)

作者首先交换了各自的attribute,并调用各自的生成器生成新的图像u,v，也就是

u = Gx(Ecx(x),Eay(x))

v = Gy(Eay(x),Eax(x))

按照作者的定义和设想，u的内容应该跟x一样，但是attribute（在style trnasfer中也可以成style）是跟y一样。

作者在这里加个一个domain classifier，希望去区分图片来自哪个域。那么对于u而言，domain classfier希望将它分类成X域，但是前面的Ecoder和Generator希望这个classifier不能区分。 y类似

接着进入cross-cycle阶段，作者再次交互对应的attribute，那么生成的应该就是图片应该类似于原图

摄像头各参数的意义_详解：摄像头参数介绍说明序雨摄像头各参数的意义
摄像头的核心是CCD，由于CCD在生产过程中分不同等级和和生产商获得的途径不同，造成CCD的采集效果也不同。一个简单的检测方法，就是将摄像头通电，不接镜头，用手遮住镜头接口，看图像有没有亮点，雪花大不大，然后接上镜头，将摄像头对准一个色彩鲜明的物体，查看器的颜色是否有偏色，图像有无扭曲现象，色彩和灰度是否平滑。由于摄像头的核心部件是CCD，所以其主要参数大多与CCD有关，下面就列出摄像头的主要参数
20.XLD轮廓 Echo`` Halcon系统化学习计算机视觉人工智能算法
目录1.xld概念2.画轮廓3.区域转轮廓4.边缘提取算子5.xld特征提取6.提取任意线条7.提取最长的线条8.xld分割10.xld合并11.xld拟合12.xld几何变换13.xld变换14.xld集合运算15.区域和轮廓精度16.轮廓的保存读取17.halcon操作CAD文件18.轮廓测量算子19.同心度计算1.xld概念*图像处理*1.处理对象HObject*1.图像-image*2.区
（五)PS识别：压缩痕迹挖掘-压缩量化表与 DCT 系数分析超龄超能程序猿机器学习 python 图像处理人工智能计算机视觉
（一)PS识别：Python图像分析PS识别之道（二）PS识别：特征识别-直方图分析的从原理到实现（三)PS识别：基于噪声分析PS识别的技术实现（四)PS识别：基于边缘纹理检测分析PS识别的技术实现一介绍本文将介绍一种基于量化表分析和DCT系数分析的图片PS检测方法，帮助你判断图片是否经过处理。二实现原理量化表分析在JPEG图片的压缩过程中，量化表起着关键作用。不同的软件或处理操作可能会改变量化表
SQLite和MySQL数据库的区别与应用坚持学习的小菜鸟数据库
简单来说，SQLITE功能简约，小型化，追求最大磁盘效率；MYSQL功能全面，综合化，追求最大并发效率。如果只是单机上用的，数据量不是很大，需要方便移植或者需要频繁读/写磁盘文件的话，就用SQLite比较合适；如果是要满足多用户同时访问，或者是网站访问量比较大是使用MYSQL比较合适。下面详细介绍两者的区别和应用：SQLiteSQLite是非凡的数据库，他可以进程在使用它的应用中。作为一个自包含、
ViP-LLaVA: 使大型多模态模型理解任意视觉提示 AI专题精讲 Paper阅读多模态人工智能 AI
摘要现有的大型视觉-语言多模态模型主要关注整体图像理解，但在实现区域特定的理解方面仍存在显著差距。目前，使用文本坐标或空间编码的方法通常无法为视觉提示提供用户友好的接口。为了解决这个问题，我们提出了一种新颖的多模态模型，能够解码任意（自由形式）视觉提示。这使得用户可以通过自然提示（如“红色边框”或“指向箭头”）直观地标记图像并与模型互动。我们的简单设计直接将视觉标记叠加在RGB图像上，避免了复杂的
知识图谱的个性化智能教学推荐系统(论文+源码) 毕设工作室_wlzytw python论文项目知识图谱人工智能
目录摘要Abstract目录第1章绪论1.1研究背景及意义1.2国内外研究现状1.2.1知识图谱1.2.2个性化推荐系统1.3本文研究内容及创新点1.4全文组织结构第2章相关理论与技术概述2.1知识图谱2.1.1知识图谱的介绍与发展2.1.2知识图谱的构建2.3协同过滤推荐算法2.2.1推荐算法概述2.2.2Pearson相关系数2.2.3Spearman相关系数2.4Bert模型和Albert模
Gemini CLI：AI工程师的黄金规范框架 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 语言模型 python 深度学习人工智能机器学习
GeminiCLI的系统提示词：高阶工程规范+安全边界控制+工具编排能力GeminiCLI的系统提示词，它是AI工程师的黄金范本，可看作“高阶工程规范+安全边界控制+工具编排能力”的完整框架，具体内容如下：核心目标：让AI作为专注软件工程任务的交互式CLI代理，遵循指令、利用工具，安全高效地协助用户。核心准则：读改代码要遵守项目规范，验证库和框架的可用性，模仿现有代码风格，修改要自然融入项目，谨慎
RocksDB深度指南：从LSM树原理到时序键优化涵树_fx Rust 实战架构设计 rust 后端时序数据库
RocksDB确实很适合这种中等规模的配置数据存储场景，它比文件存储更高效，又比独立数据库更轻量。除此之外，它还具有下面这些优点：支持原子写入操作，避免文件存储可能出现的写入中断问题读操作支持无锁并发，效率非常高支持列式存储，带来了更加丰富的数据管理和查询能力内置压缩功能，可以节省存储空间支持快照功能，方便配置回滚当然，我选择RocksDB的原因是我不希望因为存储配置相关的数据而依赖传统意义上的数
多模态大模型的技术应用与未来展望：重构AI交互范式的新引擎 zhaoyi_he 重构人工智能
一、引言：为什么多模态是AI发展的下一场革命？过去十年，深度学习推动了计算机视觉和自然语言处理的飞跃，但两者的发展路径长期割裂。随着生成式AI和大模型时代的到来，**多模态大模型（MultimodalFoundationModels）**以统一的建模方式处理图像、文本、音频、视频等多源数据，重塑了“感知-认知-决策”链条，为AGI迈出关键一步。OpenAI的GPT-4o、Google的Gemini
图像分割技术详解：从原理到实践 lanjieying
本文还有配套的精品资源，点击获取简介：图像分割是图像处理领域将图像分解为多个区域的过程，用于图像分析、特征提取等。文章介绍了图像分割的原理，并通过一个将图像划分为2*4子块的示例，展示了如何使用Python和matplotlib库中的tight_subplot函数进行图像分割和展示。文章还探讨了图像分割在不同领域的应用，以及如何在机器学习项目中作为数据预处理步骤。1.图像分割基本概念在图像处理领域
STM32-内存运行原理与RAM执行实战东方少爷内存地址单片机嵌入式硬件 arm开发硬件工程 stm32
一、底层原理深度解析（先懂“为什么要拷贝”）1.存储介质本质差异（ROM/FlashvsRAM）ROM（以STM32内部Flash为例）：物理特性：电可擦写非易失性存储（虽叫ROM，实际可通过编程改写），擦写次数有限（一般万次级别），读速度慢（STM32F1系列Flash读取周期约30-50ns）。存储内容：程序代码（指令）、只读常量（const修饰的全局变量、字符串字面量）、初始化的全局变量（R
OpenCV 图像操作：颜色识别、替换与水印添加
目录引言代码实现1.导入必要的库2.图像加法3.图像直接相加4.颜色加权加法5.HSV颜色空间转换概念作用6.查找颜色范围对应的像素点7.与运算-生成掩膜8.添加水印9.主函数总结引言在计算机视觉领域，OpenCV是一个强大的库，提供了丰富的图像操作功能。本文将详细介绍如何使用OpenCV进行图像加法、颜色加权加法、HSV颜色空间转换、颜色范围查找、与运算生成掩膜以及添加水印等操作，并给出相应的P
Android PNG/JPG图ARGB_8888/RGB_565‌解码形成Bitmap在物理内存占用大小的简单计算
AndroidPNG/JPG图ARGB_8888/RGB_565‌解码形成Bitmap在物理内存占用大小的简单计算Android的Bitmap是一个用于表示图像数据的核心类，代表一张图片在内存中的存储，Bitmap存储了图像的像素信息数据。Bitmap把图像理解为像素点组成的二维矩阵，每个像素点存储对应位置的一系列ARGB值（透明度+红绿蓝通道）。Bitmap在内存中占用大小的关键计算公式：‌内存
Pillow 安装使用教程小奇JAVA面试安装使用教程 pillow microsoft 深度学习
一、Pillow简介Pillow是Python图像处理库PIL（PythonImagingLibrary）的友好分支，是图像处理的事实标准。它支持打开、编辑、转换、保存多种图像格式，常用于图像批量处理、验证码识别、缩略图生成等应用场景。二、安装Pillow2.1使用pip安装（推荐）pipinstallPillow2.2验证安装importPILprint(PIL.__version__)若无报错
Python实例题：基于 Flask 的在线聊天系统
目录Python实例题题目要求：解题思路：代码实现：Python实例题题目基于Flask的在线聊天系统要求：使用Flask框架构建一个实时在线聊天系统，支持以下功能：用户注册、登录和个人资料管理一对一实时聊天功能群聊功能消息通知和未读消息提示在线用户状态显示使用Flask-SocketIO实现实时通信。使用SQLite数据库存储用户、聊天记录等信息。添加美观的前端界面，支持响应式设计。解题思路：使
DeepSeek AI全面应用：AI时代的高效办公与创意生产指南 Want595 人工智能 deepseek
京东链接：https://item.jd.com/15045868.html当当链接：https://product.dangdang.com/29893005.html文章目录写在前面核心亮点1.直击痛点：从“低效搬砖”到“智能掌控”2.创意觉醒：让AI成为你的“灵感引擎”3.跨平台协作：无缝衔接AI生态4.实战驱动：130+案例，即学即用5.超值资源包：扫码即得适合谁读1.职场人2.创作者/自
Redis分片集群原理
1.为何需要分片集群？让我们先快速回顾一下Redis扩展的演进过程：单机Redis：最简单，但也最受限于服务器的物理资源（CPU、内存、网络带宽）。一旦宕机，服务完全中断。主从复制：通过设置一个主节点和多个从节点，实现了读写分离，提高了读并发能力，并提供了数据冗余以应对主节点故障。但所有数据仍存储在主节点上，内存容量和写性能依然受限于单个服务器，无法无限扩展。当业务数据量达到数十GB甚至TB级别，
游戏引擎中顶点着色&像素着色霸王奉先游戏开发基础理论游戏引擎顶点着色器像素着色器顶点颜色顶点UV 顶点法向
一.GPU渲染管线GPU在接收到游戏端提交的Mesh,Shader数据后,渲染管线开始工作,将数据进行处理投射为2D屏幕中光栅图像.GPU硬件中着色单元有两类,分别为顶点着色器和像素着色器.二.顶点着色器完成Mesh网格中顶点(3D)到屏幕(2D)计算vertex_fvf(灵活顶点格式)=3D坐标+法向+UV+颜色(布料,摇曳等特殊效果)+自定义structVetex_Fvf{floatx,y,z
Coze智能体开发：如何批量生成和处理图片王国平 Coze AI Agent智能体开发语言模型人工智能开发语言智能体 Agent
在绘本制作、图片后期制作等场景中，往往需要使用模型来批量生成和处理图片。扣子提供了多个图像处理类节点，支持图像生成、添加水印、画质优化等多种常见的图片处理方式，你可以在批处理节点中嵌套图像生成等图像处理节点，实现图片的批量操作。本文档以绘本制作工作流为例，演示如何通过批处理节点和图像节点实现图像的批量生成和批量处理。效果演示通过绘本制作工作流，你可以批量生成类似以下风格的图片。搭建过程中你也可以根
SVG格式深度解析与Path应用实战：从原理到企业级全场景开发（实战版）
一、简介在数字图形领域，SVG（ScalableVectorGraphics）凭借其矢量特性、可编辑性和交互能力，成为现代设计和开发的核心工具。本文将从SVG的基础原理出发，深入解析其技术特性，并与主流图像格式（如JPEG、PNG、PLT等）进行对比分析。通过企业级应用案例，结合代码示例和Mermaid图表，帮助开发者全面掌握SVG的应用场景与开发技巧，实现从零到一的高效实践。二、SVG格式的核心
主流 3D 感知技术对比-iTOF、dTOF、结构光、激光雷达 moonsims 数码相机
主流3D感知技术对比-iTOF、dTOF、结构光、激光雷达四类主流3D感知技术对比表对比维度iToF相机dToF相机固态LiDAR+可见光融合结构光相机测距原理连续调制光→相位差计算激光脉冲→飞行时间测距激光扫描点云+图像纹理融合投射编码光图案+视差三角测量代表设备IntelD435i,AzureKinectSTVL53L5CX,SonyIMX611L3CAM,RoboSenseM1+RGBRea
OpenCV教程——图像模糊。均值模糊，高斯模糊，中值模糊，双边模糊，高斯分布
1.图像模糊图像模糊是图像处理中最简单和常用的操作之一。⚠️使用该操作的原因之一是为了给图像预处理时降低噪声。图像模糊操作背后是数学的卷积计算。卷积操作的原理：常用的图像模糊的方法：均值模糊高斯模糊中值模糊双边模糊这四种模糊方式有时也被称为：均值滤波、高斯滤波、中值滤波和双边滤波。因为模糊属于一种滤波操作，具体关系可参照下图：其中，均值滤波、高斯滤波和中值滤波属于线性滤波；而双边滤波属于非线性滤波
用PyTorch实现MNIST手写数字识别
MNIST包含70,000张手写数字图像:60,000张用于培训，10,000张用于测试。图像是灰度的，28x28像素的，并且居中的，以减少预处理和加快运行。1、导入相关库importtorchimporttorchvisionfromtorch.utils.dataimportDataLoaderimporttorch.nnasnnimporttorch.nn.functionalasFimpo
2024年11月架构设计师论文真题回顾，附参考解答、解析及所涉知识点（一）一几文架构系统架构系统架构设计师软考高级 IT考证
软考高级系统架构设计师考试包含三个科目：信息系统综合知识、案例分析和系统架构设计论文。考试形式为机考。本文主要回顾2024年下半年(2024-11-10)系统架构设计师考试下午论文的题目，同时附带参考解答、解析和所涉知识点。综合知识2024年11月架构设计师综合知识真题回顾，附参考答案、解析及所涉知识点（一）2024年11月架构设计师综合知识真题回顾，附参考答案、解析及所涉知识点（二）2024年1
202505架构师论文《论静态负载均衡策略设计和应用》文琪小站系统架构师软考论文负载均衡运维软考论文
软件架构师论文范文系列摘要在当今高度依赖信息技术的时代，构建高性能、高可用的分布式系统已成为必然趋势。负载均衡作为分布式系统中的关键技术，旨在将请求或数据有效地分发到多个处理单元，以优化资源利用率、提升系统吞吐量并确保服务的稳定运行。本文深入探讨了静态负载均衡策略的设计原理、技术特点及其在实际项目中的应用。首先，概述了负载均衡的整体概念及静态策略的分类，重点介绍了基于哈希、轮询和权重等静态算法的实
支持向量机（SVM）在肝脏CT/MRI图像分类（肝癌检测）中的应用及实现猿享天开医学影像支持向量机机器学习人工智能算法
博主简介：CSDN博客专家、CSDN平台优质创作者，高级开发工程师，数学专业，10年以上C/C++,C#,Java等多种编程语言开发经验，拥有高级工程师证书；擅长C/C++、C#等开发语言，熟悉Java常用开发技术，能熟练应用常用数据库SQLserver,Oracle,mysql,postgresql等进行开发应用，熟悉DICOM医学影像及DICOM协议,业余时间自学JavaScript,Vue,
打开摄像头，服务器和客户端传输摄像头图像数据 qianshanxue11 qt 图像处理
1：CameraServer主要功能，打开摄像头，接收客户端请求接收到客户端请求“R”字符后开始传输摄像头图像。#include"mainwindow.h"#include"ui_mainwindow.h"#includeMainWindow::MainWindow(QWidget*parent):QMainWindow(parent),ui(newUi::MainWindow){ui->setu
【雕爷学编程】MicroPython手册之 ESP32-CAM 图像识别驴友花雕 1024程序员节单片机嵌入式硬件 MicroPython python ESP32-CAM 图像识别
MicroPython是为了在嵌入式系统中运行Python3编程语言而设计的轻量级版本解释器。与常规Python相比，MicroPython解释器体积小(仅100KB左右)，通过编译成二进制Executable文件运行，执行效率较高。它使用了轻量级的垃圾回收机制并移除了大部分Python标准库，以适应资源限制的微控制器。MicroPython主要特点包括:1、语法和功能与标准Python兼容,易学
深度学习篇---简单果实分类网络
下面我将提供一个使用Python从零实现果实分类模型的完整流程，包括数据准备、模型构建、训练和部署，不依赖任何深度学习框架，仅使用NumPy进行数值计算。1.数据准备与预处理首先需要准备果实图像数据集，将其分为好果和坏果两类，并进行预处理：importosimportnumpyasnpfromPILimportImagefromsklearn.model_selectionimporttrain_
Teacher Forcing--------一种用于序列生成任务的训练技巧 AI扶我青云志自然语言处理人工智能
好的，我们来详细介绍一下TeacherForcing，这是一种在训练序列生成模型（如循环神经网络RNN、长短期记忆网络LSTM、门控循环单元GRU、以及后来的Transformer）时常用的重要技术。核心概念目标：训练一个模型，使其能够根据给定的输入序列（如前一个词、图像编码、时间步数据等）预测下一个输出元素（如下一个词、下一个音符、下一个时间点的值等）。这在机器翻译、文本摘要、对话生成、语音合成
继之前的线程循环加到窗口中运行 3213213333332132 java thread JFrame JPanel
之前写了有关java线程的循环执行和结束，因为想制作成exe文件，想把执行的效果加到窗口上，所以就结合了JFrame和JPanel写了这个程序，这里直接贴出代码，在窗口上运行的效果下面有附图。 package thread; import java.awt.Graphics; import java.text.SimpleDateFormat; import java.util
linux 常用命令 BlueSkator linux 命令
1.grep 相信这个命令可以说是大家最常用的命令之一了。尤其是查询生产环境的日志，这个命令绝对是必不可少的。但之前总是习惯于使用（grep -n 关键字文件名）查出关键字以及该关键字所在的行数，然后再用（sed -n '100,200p' 文件名），去查出该关键字之后的日志内容。但其实还有更简便的办法，就是用（grep -B n、-A n、-C n 关键
php heredoc原文档和nowdoc语法 dcj3sjt126com PHP heredoc nowdoc
<!doctype html> <html lang="en"> <head> <meta charset="utf-8"> <title>Current To-Do List</title> </head> <body> <?
overflow的属性周华华 JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
《我所了解的Java》——总体目录 g21121 java
准备用一年左右时间写一个系列的文章《我所了解的Java》，目录及内容会不断完善及调整。在编写相关内容时难免出现笔误、代码无法执行、名词理解错误等，请大家及时指出，我会第一时间更正。 &n
[简单]docx4j常用方法小结 53873039oycg docx
本代码基于docx4j-3.2.0，在office word 2007上测试通过。代码如下: import java.io.File; import java.io.FileInputStream; import ja
Spring配置学习云端月影 spring配置
首先来看一个标准的Spring配置文件 applicationContext.xml <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi=&q
Java新手入门的30个基本概念三 aijuans java 新手 java 入门
17.Java中的每一个类都是从Object类扩展而来的。　　18.object类中的equal和toString方法。　　equal用于测试一个对象是否同另一个对象相等。　　toString返回一个代表该对象的字符串,几乎每一个类都会重载该方法,以便返回当前状态的正确表示.(toString 方法是一个很重要的方法)　　 19.通用编程:任何类类型的所有值都可以同object类性的变量来代替。　
《2008 IBM Rational 软件开发高峰论坛会议》小记 antonyup_2006 软件测试敏捷开发项目管理 IBM 活动
我一直想写些总结,用于交流和备忘,然都没提笔,今以一篇参加活动的感受小记开个头,呵呵! 其实参加《2008 IBM Rational 软件开发高峰论坛会议》是9月4号,那天刚好调休.但接着项目颇为忙,所以今天在中秋佳节的假期里整理了下. 参加这次活动是一个朋友给的一个邀请书,才知道有这样的一个活动,虽然现在项目暂时没用到IBM的解决方案,但觉的参与这样一个活动可以拓宽下视野和相关知识.
PL/SQL的过程编程,异常,声明变量,PL/SQL块百合不是茶 PL/SQL的过程编程异常 PL/SQL块声明变量
PL/SQL; 过程; 符号; 变量; PL/SQL块; 输出; 异常; PL/SQL 是过程语言(Procedural Language)与结构化查询语言(SQL)结合而成的编程语言PL/SQL 是对 SQL 的扩展,sql的执行时每次都要写操作
Mockito(三)--完整功能介绍 bijian1013 持续集成 mockito 单元测试
mockito官网：http://code.google.com/p/mockito/，打开documentation可以看到官方最新的文档资料。一.使用mockito验证行为 //首先要import Mockito import static org.mockito.Mockito.*; //mo
精通Oracle10编程SQL(8)使用复合数据类型 bijian1013 oracle 数据库 plsql
/* *使用复合数据类型 */ --PL/SQL记录 --定义PL/SQL记录 --自定义PL/SQL记录 DECLARE TYPE emp_record_type IS RECORD( name emp.ename%TYPE, salary emp.sal%TYPE, dno emp.deptno%TYPE ); emp_
【Linux常用命令一】grep命令 bit1129 Linux常用命令
grep命令格式 grep [option] pattern [file-list] grep命令用于在指定的文件(一个或者多个,file-list)中查找包含模式串(pattern)的行,[option]用于控制grep命令的查找方式。 pattern可以是普通字符串，也可以是正则表达式，当查找的字符串包含正则表达式字符或者特
mybatis3入门学习笔记白糖_ sql ibatis qq jdbc 配置管理
MyBatis 的前身就是iBatis，是一个数据持久层(ORM)框架。 MyBatis 是支持普通 SQL 查询，存储过程和高级映射的优秀持久层框架。MyBatis对JDBC进行了一次很浅的封装。以前也学过iBatis，因为MyBatis是iBatis的升级版本，最初以为改动应该不大，实际结果是MyBatis对配置文件进行了一些大的改动，使整个框架更加方便人性化。
Linux 命令神器：lsof 入门 ronin47 lsof
lsof是系统管理/安全的尤伯工具。我大多数时候用它来从系统获得与网络连接相关的信息，但那只是这个强大而又鲜为人知的应用的第一步。将这个工具称之为lsof真实名副其实，因为它是指“列出打开文件（lists openfiles）”。而有一点要切记，在Unix中一切（包括网络套接口）都是文件。有趣的是，lsof也是有着最多
java实现两个大数相加，可能存在溢出。 bylijinnan java实现
import java.math.BigInteger; import java.util.regex.Matcher; import java.util.regex.Pattern; public class BigIntegerAddition { /** * 题目：java实现两个大数相加，可能存在溢出。 * 如123456789 + 987654321
Kettle学习资料分享，附大神用Kettle的一套流程完成对整个数据库迁移方法 Kai_Ge Kettle
Kettle学习资料分享 Kettle 3.2 使用说明书目录概述..........................................................................................................................................7 1.Kettle 资源库管
[货币与金融]钢之炼金术士 comsci 金融
自古以来,都有一些人在从事炼金术的工作.........但是很少有成功的那么随着人类在理论物理和工程物理上面取得的一些突破性进展...... 炼金术这个古老
Toast原来也可以多样化 dai_lm android toast
Style 1：默认 Toast def = Toast.makeText(this, "default", Toast.LENGTH_SHORT); def.show(); Style 2：顶部显示 Toast top = Toast.makeText(this, "top", Toast.LENGTH_SHORT); t
java数据计算的几种解决方法3 datamachine java hadoop ibatis r-langue r
4、iBatis 简单敏捷因此强大的数据计算层。和Hibernate不同，它鼓励写SQL，所以学习成本最低。同时它用最小的代价实现了计算脚本和JAVA代码的解耦，只用20%的代价就实现了hibernate 80%的功能,没实现的20%是计算脚本和数据库的解耦。复杂计算环境是它的弱项，比如：分布式计算、复杂计算、非数据
向网页中插入透明Flash的方法和技巧 dcj3sjt126com html Web Flash
将 Flash 作品插入网页的时候，我们有时候会需要将它设为透明，有时候我们需要在Flash的背面插入一些漂亮的图片，搭配出漂亮的效果……下面我们介绍一些将Flash插入网页中的一些透明的设置技巧。　　一、Swf透明、无坐标控制　　首先教大家最简单的插入Flash的代码，透明，无坐标控制：　　注意wmode="transparent"是控制Flash是否透明
ios UICollectionView的使用 dcj3sjt126com
UICollectionView的使用有两种方法，一种是继承UICollectionViewController，这个Controller会自带一个UICollectionView；另外一种是作为一个视图放在普通的UIViewController里面。个人更喜欢第二种。下面采用第二种方式简单介绍一下UICollectionView的使用。 1.UIViewController实现委托，代码如
Eos平台java公共逻辑蕃薯耀 Eos平台java公共逻辑 Eos平台 java公共逻辑
Eos平台java公共逻辑 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月1日 17:20:4
SpringMVC4零配置--Web上下文配置【MvcConfig】 hanqunfeng springmvc4
与SpringSecurity的配置类似，spring同样为我们提供了一个实现类WebMvcConfigurationSupport和一个注解@EnableWebMvc以帮助我们减少bean的声明。 applicationContext-MvcConfig.xml  <
解决ie和其他浏览器poi下载excel文件名乱码 jackyrong Excel
使用poi,做传统的excel导出，然后想在浏览器中，让用户选择另存为，保存用户下载的xls文件，这个时候，可能的是在ie下出现乱码（ie,9,10,11),但在firefox,chrome下没乱码，因此必须综合判断，编写一个工具类： /** * * @Title: pro
挥洒泪水的青春 lampcy 编程生活程序员
2015年2月28日，我辞职了，离开了相处一年的触控，转过身--挥洒掉泪水，毅然来到了兄弟连，背负着许多的不解、质疑——”你一个零基础、脑子又不聪明的人，还敢跨行业，选择Unity3D？“，”真是不自量力••••••“，”真是初生牛犊不怕虎•••••“，••••••我只是淡淡一笑，拎着行李----坐上了通向挥洒泪水的青春之地——兄弟连！这就是我青春的分割线，不后悔，只会去用泪水浇灌——已经来到
稳增长之中国股市两点意见-----严控做空，建立涨跌停版停牌重组机制 nannan408
对于股市，我们国家的监管还是有点拼的，但始终拼不过飞流直下的恐慌，为什么呢？笔者首先支持股市的监管。对于股市越管越荡的现象，笔者认为首先是做空力量超过了股市自身的升力，并且对于跌停停牌重组的快速反应还没建立好，上市公司对于股价下跌没有很好的利好支撑。我们来看美国和香港是怎么应对股灾的。美国是靠禁止重要股票做空，在
动态设置iframe高度(iframe高度自适应) Rainbow702 JavaScript iframe contentDocument 高度自适应局部刷新
如果需要对画面中的部分区域作局部刷新，大家可能都会想到使用ajax。但有些情况下，须使用在页面中嵌入一个iframe来作局部刷新。对于使用iframe的情况，发现有一个问题，就是iframe中的页面的高度可能会很高，但是外面页面并不会被iframe内部页面给撑开，如下面的结构： <div id="content"> <div id=&quo
用Rapael做图表 tntxia rap
function drawReport(paper,attr,data){ var width = attr.width; var height = attr.height; var max = 0; &nbs
HTML5 bootstrap2网页兼容（支持IE10以下） xiaoluode html5 bootstrap
<!DOCTYPE html> <html> <head lang="zh-CN"> <meta charset="UTF-8"> <meta http-equiv="X-UA-Compatible" content="IE=edge">

域适配论文杂读（门外汉级）

未看或未总结

分类或分割

[2018-arxiv] Adaptive Semantic Segmentation with a Strategic Curriculum of Proxy Labels [paper]

[2018-ICML] Learning Semantic Representations for Unsupervised Domain Adaptation[paper]

[2018-ICLR] Self-ensembling for visual domain adaptation [paper]

[2018-ICML]CYCADA: CYCLE-CONSISTENT ADVERSARIAL DOMAIN ADAPTATION [paper]

[2018-PR] Adaptive Batch Normalization for practical domain adaptation [paper]

[2018-CVPR-oral] Maximum Classifier Discrepancy for Unsupervised Domain Adaption[paper]

[2017-NIPS] Learning multiple visual domains with residual adapters[paper]

[2017-CVPR] Unsupervised Pixel-Level Domain adaption with Generative Adversarial Networks[paper]

[2018-CVPR]Deep Cocktail Network:Multi-source Unsupervised Domain Adaptation with Category Shift [paper]

检测器

[2018-CVPR] Domain Adaptive Faster R-CNN for Object Detection in the Wild [paper]

[2018-CVPR]Cross-domain weakly supervised object detection through progressive domain adaptation [paper][code]

Image Translation

[2018-NIPS] Image-to-image translation for cross-domain disentanglement [paper][code]

[2018-ECCV-oral]Diverse Image-to-Image Translation via Disentangled Representations [paper][code]

你可能感兴趣的:(图像,论文杂读)