卡小葵

数据增强调研

文章目录

数据增强调研报告
- 一、常用的增强技术
- - （一）几何变换
  - （二）颜色空间转换
- 二、一般增强技术
- - （一）内核过滤器（Kernel filters）
  - （二）混合图像(mixing image)[5]
- （三）、高级增强技术
- - 一、特征空间增强（Feature space augmentation）
  - （二）、Adversarial training对抗训练
  - （三）GAN‑based Data Augmentation[10][11]
  - （四）、神经风格转移[11] Neural Style Transfe
  - （五）、元学习[2][13]
- 四、总结
- 五、参考文献

数据增强调研报告

使用深度学习解决问题的一个常见障碍是训练模型所需的数据量。对大数据的需求是因为模型中有大量参数需要学习，在有限数据的情况下，数据增强至关重要。数据增强方法从问题的根源——训练数据集——开始进行。这是在假设可以通过扩充从原始数据集中提取更多信息的情况下完成的。这些增强通过数据扭曲或过采样人为地扩大了训练数据集的大小。数据扭曲增强是对现有图像进行转换，以便保留它们的标签。这包括几何和颜色转换，随机擦除，对抗性训练，和神经风格转移。过采样增强是创建合成实例，并将它们添加到训练集中。这包括混合图像、特征空间扩展和生成性对抗网络。过采样和数据扭曲扩展并不形成相互排斥的二分法。例如，GAN样本可以随机裁剪堆叠，以进一步扩大数据集。
本次调查中列出的增强是几何变换、颜色空间变换、核过滤器、混合图像、随机擦除、特征空间增强、对抗训练、基于GAN的增强、神经风格转移和元学习方案。

一、常用的增强技术

（一）几何变换

优点在于对于训练数据中存在的位置偏差，几何变换是非常好的解决方案。如果存在位置偏差，例如在面部识别数据集中，每个面部都完美地位于框架的中心，几何变换是一个很好的解决方案。除了克服位置偏差的强大能力之外，几何变换也很有用，因为它们易于实现，在许多图像处理库可以让水平翻转和旋转等操作轻松上手。
缺点在于几何变换的一些缺点包括额外的内存、变换计算成本和额外的训练时间。必须手动观察一些几何变换，如平移或随机裁剪，以确保它们没有改变图像的标签。最后，在医学图像分析等许多应用领域，训练数据与测试数据之间的偏差比位置和平移差异更复杂。因此，几何变换可以应用的位置和时间的范围相对有限。
挑战在于在几何增强过程中，我们要考虑几何扩增物的应用“安全性”，即它在转换后保留标签的可能性。因此在一定的失真幅度下保持标签不发生变换，也是目前存在的特定数据的扩增设计和开发通用扩增策略的挑战。
几何变换类型：

翻转

可以选择水平或垂直翻转图像。垂直轴翻转比水平翻转更常见。这种增强是最容易实现的方法之一，并且在诸如CIFAR-10和ImageNet这样的数据集上证明是有用的，但一些架构并不支持垂直翻转图像，例如：数字字符识别过程中（6&9）。

旋转

旋转增强是通过在1和359度之间的轴上左右旋转图像来完成的。旋转增强的安全性在很大程度上取决于旋转度参数。1到20度之间的轻微旋转可能对数字识别任务(如MNIST)有用，但随着旋转程度的增加，数据的标签在转换后不再保留。

3.平移

向左、向右、向上或向下移动图像是一种非常有用的变换，可以避免数据中的位置偏差。例如，如果一个数据集中的所有图像都是居中的，这在人脸识别数据集中是很常见的，这将需要在完全居中的图像上测试该模型。当原始图像在一个方向上平移时，剩余的空间可以用常数值(如0秒或255秒)填充，也可以用随机或高斯噪声填充。这种填充保留了图像增强后的空间维度。

缩放

图像可以被放大或缩小。放大时，放大后的图像尺寸会大于原始尺寸。大多数图像处理架构会按照原始尺寸对放大后的图像进行裁切。

剪裁

通过裁剪每个图像的中心块，裁剪图像可以用作具有混合高度和宽度尺寸的图像数据的实际处理步骤。此外，随机裁剪也可以用来提供非常类似于平移的效果。但随机裁剪和平移的区别在于，裁剪会减小输入的大小，例如(256，256) → (224，224)，而平移会保留图像的空间维度。根据为裁剪选择的减少阈值，这可能不是一个保留标签的转换。

噪声注入

过拟合（Overfitting）经常会发生在神经网络试图学习高频特征（即非常频繁出现的无意义模式）的时候，而学习这些高频特征对模型提升没什么帮助。那么如何处理这些高频特征呢？一种方法是采用具有零均值特性的高斯噪声，它实质上在所有频率上都能产生数据点，可以有效的使高频特征失真，减弱其对模型的影响。
但这也意味着低频的成分（通常是你关心的特征）同时也会受到影响，但是神经网络能够通过学习来忽略那些影响。事实证明，通过添加适量的噪声能够有效提升神经网络的学习能力，即给图像添加噪声可以帮助CNNs学习更健壮的特征。
一个“弱化”的版本是椒盐噪声，它以随机的白色和黑色像素点呈现并铺满整个图片。这种方式对图像产生的作用和添加高斯噪声产生的作用是一样的，只是效果相对较弱。

（二）颜色空间转换

转换图像数据被编码成3个堆叠矩阵，每个矩阵的大小为高度×宽度。这些矩阵表示单个RGB颜色值的像素值。光照偏差是图像识别问题中最常见的挑战之一。因此，颜色空间变换的有效性，也称为光度变换，概念化相当直观。快速修复过亮或过暗的图像的方法是在图像中循环，并以恒定值减少或增加像素值。一个快速的颜色空间操作是拼接出单独的RGB颜色矩阵。另一种变换包括将像素值限制在某个最小值或最大值。数字图像中颜色的内在表现有助于许多增强策略。色彩空间转换也可以从图像编辑应用程序中获得。每个RGB颜色通道中图像的像素值被聚集以形成颜色直方图。此直方图可用于应用改变图像色彩空间特征的过滤器。色彩空间的增加给了创造力很大的自由。
改变图像的颜色分布可以很好地解决测试数据所面临的照明挑战。
与几何变换类似，颜色空间变换的缺点是增加了内存、变换成本和训练时间。此外，颜色变换可能会丢弃重要的颜色信息，因此并不总是保持标签的变换。例如，对于某些任务来说，颜色是一个非常重要的区别特征，然不和适宜的颜色空间转换将消除数据集中存在的有利于空间特征的颜色偏差，以至不利于图像分类识别
颜色空间变换可以从颜色抖动(随机颜色处理)、边缘增强和主成分分析三方面研究。
对于几何变换和颜色空间转换，泰勒和尼茨基[4]提供了一个关于几何变换和光度变换(颜色空间)有效性的比较研究，他们在Caltech101数据集上进行了4倍交叉验证，筛选出8421张大小为256 × 256的图像，并对这些扩展进行了测试(表1)研究表明，对于以下方法对比而说，剪裁在图像增强过程中的增强效果更加明显。

二、一般增强技术

（一）内核过滤器（Kernel filters）

内核过滤器是一种非常流行的图像处理技术，用于锐化和模糊图像。这些滤镜通过在图像上滑动n × n矩阵来工作，既可以使用高斯模糊滤镜(这会导致图像更模糊)，也可以使用高对比度垂直或水平边缘滤镜(会导致边缘图像更清晰)。直观地说，在测试期间，用于数据增强的模糊图像可能导致对运动模糊的更高抵抗力。此外，为数据增强而锐化图像可以封装更多感兴趣对象的细节。锐化和模糊是对图像应用核过滤器的一些经典方式。内核过滤器是一个相对未被探索的数据扩充领域。这种技术的一个缺点是，它与CNNs的内部机制非常相似。中枢神经系统有参数内核，可以学习逐层表示图像的最佳方式。例如，可以用一个卷积层来实现像PatchShuffle正则化这样的东西。这可以通过修改标准卷积层参数来实现，使得填充参数保持空间分辨率，并且随后的激活层将像素值保持在0到255之间，这与将像素映射到0到1之间的值的sigmoid激活不同。内核过滤器可以更好地实现为网络的一个层，而不是通过数据扩充作为数据集的一个补充。

（二）混合图像(mixing image)[5]

混合图像是通过平均像素值将图像混合在一起是一种非常违反直觉的数据增强方法。
对人类观察者来说，这样做产生的图像看起来不像是有用的转换。然而，Ionue[7]展示了如何将样本配对发展成为有效的扩增策略。并在研究中发现的另一个细节是，当混合来自整个训练集的图像而不是来自完全属于同一类的实例时，获得了更好的结果。此外，样本配对可以叠加在其他增强技术之上。

方法：①一种非线性方法将图像组合成新的训练实例[6]：

②另一方法是随机裁剪图像并将裁剪后的图像连接在一起以形成新图像[8]：

这项技术的一个明显缺点是，从人类的角度来看，它没有什么意义。混合图像带来的性能提升很难理解或解释。可能解释是数据集大小的增加导致了诸如线和边之类的低级特征的更可靠表示。
（三）、随机擦除random erasing [9]
这一点受到dropout正规化的启发，随机擦除迫使模型学习有关图像的更多描述性特征，从而防止过拟合某个特定视觉特征。，随机擦除的好处在于可以确保网络关注整个图像，而不只是其中的一部分。随机擦除的一个缺点是不一定会保留标签。

在所讨论的几何变换、色彩空间变换、核滤波器、混合图像和随机擦除中，几乎所有这些变换都带有相关的失真幅度参数。在数据非常有限的领域，这可能会导致进一步的过度拟合。因此，重要的是要考虑搜索算法，以获得增强数据的最佳子集，从而训练深度学习模型。

（三）、高级增强技术

一、特征空间增强（Feature space augmentation）

神经网络的顺序处理可以被操纵，使得中间表示可以从网络整体中分离出来。可以提取和隔离完全连接的层中的图像数据的低维表示。特例：基于SMOTE类别不平衡的过采样法来进行特征空间的插值操作进行数据增强，就实验效果而言不算特别出众。此外：特征空间增强的一个缺点是很难解释矢量数据。可以使用自动编码器网络将新矢量恢复成图像；然而，这需要复制正在训练的CNN的整个编码部分。对于深度中枢神经系统，这导致大量的自动编码器，训练起来非常困难和耗时。最后，Wong等人[14]发现，当可以在数据空间中变换图像时，数据空间增强将优于特征空间增强。即，不建议使用。
（注SMOTE[1]（合成少数类过采样技术）是一种流行的增强，用于缓解阶级不平衡的问题。它是基于随机过采样算法的一种改进方案，由于随机过采样采取简单复制样本的策略来增加少数类样本，这样容易产生模型过拟合的问题，即使得模型学习到的信息过于特别(Specific)而不够泛化(General)，SMOTE算法的基本思想是对少数类样本进行分析并根据少数类样本人工合成新样本添加到数据集中。
缺点: 一是在近邻选择时,存在一定的盲目性。即如何确定K值,才能使算法达到最优这是未知的。另外,该算法无法克服非平衡数据集的数据分布问题,容易产生分布边缘化问题。)

（二）、Adversarial training对抗训练

对抗训练是使用两个或多个网络的框架，这些网络的损失函数中编码有不同的目标，通过限制敌对网络可用的扩充和扭曲集，它可以学习产生导致错误分类的扩充，从而形成有效的搜索算法。这些增强对于加强分类模型中的弱点是有价值的。因此，对抗训练是一种有效的数据增强搜索技术。但是实际应用中其实提高不一定明显，因为自然对抗样本的数目没有那么多。而NIPS的对抗攻击大赛很多从神经网络的学习策略下手，进行梯度攻击，更加偏向于人为的攻击了，对于普适的检测性能提高意义反而不大，更强调安全需求高的场合。即对抗训练虽然是有效的搜索技术，但实用率当前来讲，并不高

（三）GAN‑based Data Augmentation[10][11]

GAN可以用作过采样技术来解决类不平衡的问题。且用于无监督异常检测。通过对罕见的正常样本(发生概率小的样本)进行过采样，GANs能够降低异常检测的假阳性率。但很难从当前的前沿架构中获得高分辨率输出。增加生成器生成的图像的输出大小可能会导致训练不稳定和不收敛。此外，训练过程中仍需要大量的数据来训练。因此，根据初始数据集的有限程度，GANs可能不是一个实用的解决方案。即目前来讲GAN虽然可以解决类不平衡问题，但因其训练仍需要大量数据，且难以获取高分辨率输出，也不太具有实用性。

（四）、神经风格转移[11] Neural Style Transfe

该算法的工作原理是通过操纵CNNS上的序列表示，使一幅图像的风格可以转移到另一幅图像，同时保留其原始内容。神经风格转移扩展了照明变化，并允许不同的纹理和艺术风格的编码。这使得数据增强的实践者在通过神经风格转移导出新图像时，可以决定从哪种风格中取样。但是选择哪种风格的样品可能是一项具有挑战性的任务，如果样式集太小，可能会给数据集带来进一步的偏差。且需要大量额外的内存和计算来转换和存储图像。运行时间非常慢，因此不适用于数据增强。即当前来讲神经风格转移可以扩充数据，扩展照明变化，更换图像风格，但扩展风格选取，和运行时间，计算量方面仍是很大的挑战，不具有实用性。

（五）、元学习[2][13]

深度学习研究中的元学习概念通常是指用神经网络优化神经网络的概念。利用进化和随机搜索算法是未来工作的一个有趣的领域。元学习中的优化策略则是：优化一组初始参数，或优化一个可以快速在每个任务上表现良好的模型，尝试用系统性的方法去学习一种在各种任务中都非常优秀的初始化参数。其可以避免迁移学习需要大量样本的情况，研究了如何从有限带标签数据中学习的问题，故元学习需要不同的数据组合模式，关注点转向收集许多种类的任务。
当前针对实验“元学习”的方法有很多，具体可以分为以下几类：
1、基于记忆Memory的方法。基本思路：因为要通过以往的经验来学习，那就可以通过在神经网络中添加Memory来实验。
2、基于预测梯度的方法。基本思路：Meta Learning的目的是实现快速学习，而实现快速学习的关键点是神经网络的梯度下降要准和快，那么就可以让神经网络利用以往的任务学习如何预测梯度，这样面对新的任务，只要梯度预测的准，那么学习就会快。
3、利用Attention注意力机制.基本思路：训练一个Attention模型，在面对新任务时，能够直接的关注最重要部分。
4、借鉴LSTM的方法.基本思路：LSTM内部的更新非常类似于梯度下降的更新，那么能否利用LSTM的结构训练处一个神经网络的更新机制，输入当前网络参数，直接输出新的更新参数
5、面向RL的Meta Learning方法.基本思路：既然Meta Learning可以用在监督学习，那么增强学习上又可以怎么做呢？能否通过增加一些外部信息的输入比如reward，和之前的action来实验。
6、通过训练一个base model的方法，能同时应用到监督学习和增强学习上
基本思路：之前的方法只能局限在监督学习或增强学习上，能否做出一个更通用的模型。
7、利用WaveNet的方法.基本思路：WaveNet的网络每次都利用了之前的数据，那么能否照搬WaveNet的方式来实现Meta Learning呢？就是充分利用以往的数据。
8、预测Loss的方法.基本思路：要让学习的速度更快，除了更好的梯度，如果有更好的Loss，那么学习的速度也会更快，因此，可以构建一个模型利用以往的任务来学习如何预测Loss。

四、总结

增加图像数据的有趣方法分为两大类: 数据扭曲和过采样。这些扩充中常用数据扩增方法——几何变换，颜色特征转换得到广泛应用，且很容易解释其作为数据增强方法的好处，而对于像mixing image此类的方法，尚未被解释其在扩增过程中的有效之因，同时对于特征空间增强，对抗学习，GAN,以及神经风格转移和迁移学习，其均存在耗费时间长，作为数据增强暂不实用的特点，故数据扩充的未来工作将集中在许多不同的领域，如建立扩充技术的分类法，提高GAN样本的质量，学习将元学习和数据扩充相结合的新方法，发现数据扩充和分类器体系结构之间的关系，并将这些原则扩展到其他数据类型等。除此之外，我们还可以通过调整分辨率大小，探索膨胀数据的子集以找到训练数据的最佳排序来解决数据扩增的问题。

五、参考文献

[1] Chawla N V, Bowyer K W, Hall L O, et al. SMOTE: synthetic minority over-sampling technique[J]. Journal of Artificial Intelligence Research, 2002, 16(1):321-357.
[2] Santoro, Adam, Bartunov, Sergey, Botvinick, Matthew, Wierstra, Daan, and Lillicrap, Timothy. Meta-learning with memory-augmented neural networks. In Proceedings of The 33rd International Conference on Machine Learning, pp. 1842–1850, 2016.
[3]Shorten C , Khoshgoftaar T M . A survey on Image Data Augmentation for Deep Learning[J]. Journal of Big Data, 2019, 6(1):1-48.
[4]Luke T, Geoff N. Improving deep learning using generic data augmentation. arXiv preprint. 2017.
[5] Hiroshi I. Data augmentation by pairing samples for images classification. ArXiv e-prints. 2018
[6]Cecilia S, Michael JD. Improved mixed-example data augmentation. ArXiv preprint. 2018
[7]Tomohiko K, Michiaki I. Icing on the cake: an easy and quick post-learning method you can try after deep learning. arXiv preprints. 2018.

[8]Ryo T, Takashi M. Data augmentation using random image cropping and patches for deep CNNs. arXiv preprints. 2018.
[9] Zhun Z, Liang Z, Guoliang K, Shaozi L, Yi Y. Random erasing data augmentation. ArXiv e-prints. 2017.
[10] Christopher B, Liang C, Ricardo GPB, Roger G, Alexander H, David AD, Maria VH, Joanna W, Daniel R. GAN augmentation: augmenting training data using generative adversarial networks. arXiv preprint. 2018
[11]Leon AG, Alexander SE, Matthias B. A neural algorithm of artistic style. ArXiv. 2015
[12] A F A , A I D , B E K , et al. GAN-based synthetic medical image augmentation for increased CNN performance in liver lesion classification[J]. Neurocomputing, 2018, 321:321-331.
[13] Meta-Learning: A Survey. Joaquin Vanschoren
[14]Sebastien CW, Adam G, Victor S, Mark DM. Understanding data augmentation for classification: when to warp? CoRR, abs/1609.08764, 2016.

Android 开源组件和第三方库汇总 gyyzzr Android Android 开源框架
转载1、github排名https://github.com/trending,github搜索：https://github.com/search2、https://github.com/wasabeef/awesome-android-ui目录UIUI卫星菜单节选器下拉刷新模糊效果HUD与Toast进度条UI其它动画网络相关响应式编程地图数据库图像浏览及处理视频音频处理测试及调试动态更新热更新
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）阿牛的药铺算法移植部署 fpga开发 verilog
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）引言：为什么这个FPGA入门路线能帮你快速上岗？本文设计了一条**"Verilog语法→工具链操作→光学项目实战→岗位技能对标"的阶梯式学习路径。不同于泛泛而谈的FPGA教程，我们聚焦光学类产品开发**核心能力（时序接口设计、图像处理算法移植、高速接口应用），通过3个递进式项目（从LED闪烁到图像边缘检测），
PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
Python流星雨 Want595 python 开发语言
文章目录系列文章写在前面技术需求完整代码代码分析1.模块导入2.画布设置3.画笔设置4.颜色列表5.流星类(Star)6.流星对象创建7.主循环8.流星运动逻辑9.视觉效果10.总结写在后面系列文章序号直达链接表白系列1Python制作一个无法拒绝的表白界面2Python满屏飘字表白代码3Python无限弹窗满屏表白代码4Python李峋同款可写字版跳动的爱心5Python流星雨代码6Python
霍夫变换（Hough Transform）算法原来详解和纯C++代码实现以及OpenCV中的使用示例点云SLAM 算法图形图像处理算法 opencv 图像处理与计算机视觉算法直线提取检测目标检测霍夫变换算法
霍夫变换（HoughTransform）是一种经典的图像处理与计算机视觉算法，广泛用于检测图像中的几何形状，例如直线、圆、椭圆等。其核心思想是将图像空间中的“点”映射到参数空间中的“曲线”，从而将形状检测问题转化为参数空间中的峰值检测问题。一、霍夫变换基本思想输入：边缘图像（如经过Canny边缘检测）输出：一组满足几何模型的形状（如直线、圆）关键思想：图像空间中的一个点→参数空间中的一个曲线参数空
用OpenCV标定相机内参应用示例（C++和Python）
下面是一个完整的使用OpenCV进行相机内参标定（CameraCalibration）的示例，包括C++和Python两个版本，基于棋盘格图案标定。一、目标：相机标定通过拍摄多张带有棋盘格图案的图像，估计相机的内参：相机矩阵（内参）K畸变系数distCoeffs可选外参（R,T）标定精度指标（如重投影误差）二、棋盘格参数设置（根据自己的棋盘格设置）：棋盘格角点数：9x6（内角点，9列×6行）；每个
Shader面试题100道之（81-100）还是大剑师兰特 #Shader 综合教程100+大剑师 shader面试题 shader教程
Shader面试题（第81-100题）以下是第81到第100道Shader相关的面试题及答案：81.Unity中如何实现屏幕空间的热扭曲效果（HeatDistortion）？热扭曲效果可以通过GrabPass抓取当前屏幕图像，然后在片段着色器中使用噪声或动态UV偏移模拟空气扰动，再结合一个透明通道控制扭曲强度来实现。82.Shader中如何实现物体轮廓高亮（OutlineHighlight）？轮廓
ThinkSound V2版 - 一键给无声视频配音，为AI视频生成匹配音效支持50系显卡一键整合包下载昨日之日2006 ai语音音视频人工智能
ThinkSound是阿里通义实验室开源的首个音频生成模型，它能够让AI像专业“音效师”一样，根据视频内容生成高度逼真、与视觉内容完美契合的音频。ThinkSound可直接应用于影视后期制作，为AI生成的视频自动匹配精准的环境噪音与爆炸声效；服务于游戏开发领域，实时生成雨势变化等动态场景的自适应音效；同时可以无障碍视频生产，为视障用户同步生成画面描述与环境音效。今天分享的ThinkSoundV2版
数字孪生技术为UI前端注入新活力：实现产品设计的沉浸式体验 ui设计前端开发老司机 ui
hello宝子们...我们是艾斯视觉擅长ui设计、前端开发、数字孪生、大数据、三维建模、三维动画10年+经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩!一、引言：从“平面交互”到“沉浸体验”的UI革命当用户在电商APP中翻看3D家具模型却无法感知其与自家客厅的匹配度，当设计师在2D屏幕上绘制汽车内饰却难以预判实际乘坐体验——传统UI设计的“平面化、静态化、割裂感”
被动降噪的概念及编程实现 CodeByte 人工智能算法 javascript 编程
被动降噪是指通过编程技术和算法，对输入的数据进行处理，以减少或消除其中的噪声。噪声可以是各种形式的干扰，例如来自传感器、通信信号或其他外部源的干扰。在本文中，我们将探讨被动降噪的意义以及如何使用编程来实现这一目标。被动降噪的意义：噪声对数据的准确性和可靠性产生负面影响。在许多应用领域，例如图像处理、音频处理和信号处理中，噪声的存在可能导致数据质量下降，使得后续的分析和处理变得困难。因此，被动降噪技
反光衣识别漏检率 30%？陌讯多尺度模型实测优化
在建筑工地、交通指挥等场景中，反光衣是保障作业人员安全的重要装备，对其进行精准识别是智能监控系统的核心功能之一。但传统视觉算法在实际应用中却屡屡碰壁：强光下反光衣易与背景混淆、远距离小目标漏检率高达30%、复杂场景下模型泛化能力不足[实测数据来源：某智慧工地项目2024年Q1日志]。这些问题直接导致安全监控系统预警滞后，给安全生产埋下隐患。一、技术解析：反光衣识别的核心难点与陌讯算法创新反光衣识别
盲超分的核心概念小冷爱读书数学建模盲超分超分重建
一、盲超分的本质与数学建模1.退化过程的数学表达低分辨率图像（LR）可看作高分辨率图像（HR）经过退化模型后的结果：：观测到的低分辨率图像：待恢复的高分辨率图像：模糊核（BlurKernel）⊗：卷积操作↓：下采样（步长为）：加性噪声（如高斯噪声、泊松噪声等）盲超分的核心问题：在未知、、的情况下，从估计。2.为什么传统超分方法会失效？传统方法（如SRCNN、EDSR）假设退化是固定的（如双三次下采
AI 图像编辑提示词参考之：背景替换
在AI图像编辑中（以FluxKontext为例），“替换背景”（BackgroundReplacement）是提升图像表现力的关键手段之一。但背景更换不仅仅是简单的视觉置换，更重要的是：确保人物主体外观不变，并与新背景在色温、色调、光影等方面自然融合。只有这样，最终图像才会呈现出“原本拍摄于该背景环境”的真实感。建议使用以下结构组织提示词：Replacethebackgroundwith[新背景]
视频分析：让AI看懂动态画面随机森林404 计算机视觉音视频人工智能 microsoft
引言：动态视觉理解的革命在数字信息爆炸的时代，视频已成为最主要的媒介形式。据统计，每分钟有超过500小时的视频内容被上传到YouTube平台，而全球互联网流量的82%来自视频数据传输。面对如此海量的视频内容，传统的人工处理方式已无法满足需求，这正是人工智能视频分析技术大显身手的舞台。视频分析技术赋予机器"看懂"动态画面的能力，使其能够自动理解、解释甚至预测视频中的内容，这一突破正在彻底改变我们与视
目标检测（object detection）加油吧zkf 目标检测目标检测人工智能计算机视觉
目标检测作为计算机视觉的核心技术，在自动驾驶、安防监控、医疗影像等领域发挥着不可替代的作用。本文将系统讲解目标检测的概念、原理、主流模型、常见数据集及应用场景，帮助读者构建对这一技术的完整认知。一、目标检测的核心概念目标检测（ObjectDetection）是指在图像或视频中自动定位并识别出所有感兴趣的目标的技术。它需要解决两个核心问题：分类（Classification）：确定图像中每个目标的类
探索WPF界面的神器：Snoop 伍霜盼Ellen
探索WPF界面的神器：Snoop项目地址:https://gitcode.com/gh_mirrors/sno/snoopwpfSnoop是一款由PeteBlois发起，并由BastianSchmidt维护的开源WPF应用监视工具。它提供了一种无需调试器就能浏览和操作任何运行中WPF应用程序视觉、逻辑和自动化树的强大功能。无论是修改属性值、查看触发器还是在属性变化时设置断点，Snoop都能轻松应对
模型训练与部署注意事项篇---resize Atticus-Orion 图像处理篇深度学习篇模型训练与部署注意事项篇深度学习计算机视觉人工智能
图像大小的影响在YOLOv系列模型的训练和推理部署过程中，图像大小的选择是影响模型性能（精度、速度、泛化能力）的关键因素之一。两者的关系既相互关联，又存在一定的灵活性，具体可从以下几个方面详细分析：一、核心关系：训练与推理图像大小的“基准一致性”YOLOv模型（如YOLOv5、v7、v8等）的训练和推理图像大小通常以**“基准尺寸”**为核心关联，即训练时设定的图像尺寸会作为模型设计的基础，而推理
深度学习图像分类数据集—桃子识别分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：桃子识别分类：['B1','M2','R0','S3']训练数据集总共有6637张图片，每个文件夹单独放一种数据各子文件夹图片统计:·B1:1601张图片·M2:1800张图片·R0:1601张图片·S3:
NVIDIA 系列之使用生成式 AI 增强 ROS2 机器人技术：使用 BLIP 和 Isaac Sim 进行实时图像字幕制作知识大胖 NVIDIA GPU和大语言模型开发教程人工智能机器人
简介在快速发展的机器人领域，集成先进的AI模型可以显著增强机器人系统的功能。在本博客中，我们将探讨如何在ROS2（机器人操作系统2）环境中利用BLIP（引导语言图像预训练）模型进行实时图像字幕制作，并使用NVIDIAIsaacSim进行模拟。我们将介绍如何实现一个ROS2节点，该节点订阅摄像头源、应用BLIP模型进行图像字幕制作，并实时显示结果。这种集成展示了生成式AI在增强人机交互方面的强大功能
卫星分析系列之使用卫星图像量化野火烧毁面积在 Google Colab 中使用 Python 使用 Sentinel-2 图像确定森林火灾烧毁面积知识大胖 NVIDIA GPU和大语言模型开发教程 python sentinel 开发语言
简介几年前，当大多数气候模型预测如果我们不采取必要措施，洪水、热浪和野火将会发生更多时，我没想到这些不寻常的灾难现象会成为常见事件。其中，野火每年摧毁大量森林面积。如果你搜索不同地方的重大野火表格，你会发现令人震惊的统计数据，显示由于野火，地球上有多少森林面积正在消失。在本教程中，我将结合我已经发表过的关于下载、处理卫星图像和可视化野火的故事，量化加州发生的其中一场重大野火的烧毁面积。与之前的帖子
使用NVIDIA NeRF将2D图像转换为逼真的3D模型（Python） ByteWhiz 3d python 计算机视觉 Python
使用NVIDIANeRF将2D图像转换为逼真的3D模型（Python）NeuralRadianceFields（NeRF）是一种强大的方法，可以将2D图像转换为逼真的3D模型。它使用神经网络来建模场景的辐射场，并通过渲染多个视角的图像来重建3D模型。在本文中，我们将使用Python和NVIDIANeRF库来实现这一过程。首先，我们需要安装所需的库。我们可以通过以下命令使用pip安装NVIDIANe
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
Android 图像处理 - Bitmap 图像处理观察记录（基本图像复制、带目录创建的图像复制、字节流处理的图像复制、并发图像复制、单线程池顺序图像复制）
Bitmap图像处理观察记录1、基本图像复制从应用内部存储目录读取test.png使用BitmapFactory解码为Bitmap对象将Bitmap重新压缩保存为newTest.png操作成功，compress返回trueFilefile=newFile(getFilesDir(),"test.png");StringabsolutePath=file.getAbsolutePath();Bitm
OpenCV图像数据处理:convertTo,normalize和scaleAdd luofeiju OpenCV函数实战 opencv
在OpenCV图像处理的世界里，有几个函数进行一些基本数据变换：cv::convertTo()：类型转换与线性缩放；cv::normalize()：归一化处理；cv::scaleAdd()：加权叠加运算。cv::addWeighted():与scaleAdd相似，进行加权叠加运算；一、cv::convertTo()：线性变换+数据类型转换voidcv::Mat::convertTo(OutputA
Gradio全解系列7——Additional Features：补充特性（上）龙焰智能 Gradio全解教程人工智能 gradio 补充特性队列输入输出流提示及进度条批处理函数
Gradio全解7——AdditionalFeatures：补充特性（上）前言第7章AdditionalFeatures：补充特性7.1队列7.1.1使用方法7.1.2配置队列演示7.2输入输出流7.2.1输出流1.生成器yield2.流媒体7.2.2输入流1.流事件2.图像滤镜7.2.3统一的输入输出流7.2.4跟踪过去的输入或输出7.3提示及进度条7.3.1提示7.3.2进度条7.4批处理函数
【前端】异步任务风控验证与轮询机制技术方案（通用笔记版）
一、背景场景在某类生成任务中，例如用户点击“执行任务”按钮后触发一个较耗时的后端操作（如生成报告、渲染图像、转码视频等），由于其调用了模型、渲染服务或需要较长处理时间，为了防止接口被频繁恶意调用，系统需要加入风控验证机制。此外，因任务处理为异步，前端无法立即获得最终结果，因此需通过轮询方式定期查询任务状态，等待任务完成后展示结果。二、整体流程说明1.用户点击“执行任务”按钮：前端调用风控接口/ap
如何将 GIF 图片从 iPhone 传输到Mac ？ Coolmuster iOS 苹果手机 iPhone iphone macos ios
随着iOS系统的不断更新，现在我们已经迎来了iOS18，它为我们带来了更多的功能和改进。在iOS10中，保存的GIF图像会转换成静态图片，但自iOS11起，用户可以在iPhone和iPad上以原始格式保存GIF。若您希望备份这些生动有趣的GIF照片，将它们从iPhone传输到Mac是一个不错的选择。本文将向您展示几种将GIF图像备份到Mac计算机的有效方法。尽管Mac无法直接播放GIF，但本文还会
Matplotlib-图像处理与可视化
Matplotlib-图像处理与可视化一、图像数据的本质：从数组到像素二、基础操作：加载与显示图像1.加载图像数据2.显示单张图像3.显示灰度图像三、进阶可视化：通道分离与色彩调整1.分离RGB通道2.调整亮度与对比度四、实用技巧：色彩映射与像素值分析1.自定义色彩映射（Colormap）2.像素值分布直方图五、多图对比与标注：算法结果可视化1.边缘检测结果对比2.图像标注：突出感兴趣区域六、注意
用Python和OpenCV从零搭建一个完整的双目视觉系统（三） presenttttt 双目立体视觉数码相机
本系列文章旨在系统性地阐述如何利用Python与OpenCV库，从零开始构建一个完整的双目立体视觉系统。本项目github地址：https://github.com/present-cjn/stereo-vision-python.git在上一篇文章中，我们为项目设计了清晰的架构。现在，我们将深入第一个，也是整个双目视觉系统最关键的模块——相机标定(CameraCalibration)。如果说双目
（一）OpenCV——噪声去除（降噪）
高斯滤波器（针对高斯噪声）高斯噪声是指它的概率密度函数服从高斯分布（即正态分布）的一类噪声。常见的高斯噪声包括起伏噪声、宇宙噪声、热噪声和散粒噪声等等。高斯滤波(Gaussianfilter)包含许多种，包括低通、带通和高通等，我们通常图像上说的高斯滤波，指的是高斯模糊(GaussianBlur)，是一种高斯低通滤波，其过滤调图像高频成分（图像细节部分），保留图像低频成分（图像平滑区域），所以对图
LeetCode[位运算] - #137 Single Number II Cwind java Algorithm LeetCode 题解位运算
原题链接：#137 Single Number II 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现三次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：与#136类似，都是考察位运算。不过出现两次的可以使用异或运算的特性 n XOR n = 0, n XOR 0 = n，即某一
《JavaScript语言精粹》笔记 aijuans JavaScript
0、JavaScript的简单数据类型包括数字、字符创、布尔值（true/false）、null和undefined值，其它值都是对象。 1、JavaScript只有一个数字类型，它在内部被表示为64位的浮点数。没有分离出整数，所以1和1.0的值相同。 2、NaN是一个数值，表示一个不能产生正常结果的运算结果。NaN不等于任何值，包括它本身。可以用函数isNaN(number)检测NaN,但是
你应该更新的Java知识之常用程序库 Kai_Ge java
在很多人眼中，Java 已经是一门垂垂老矣的语言，但并不妨碍 Java 世界依然在前进。如果你曾离开 Java，云游于其它世界，或是每日只在遗留代码中挣扎，或许是时候抬起头，看看老 Java 中的新东西。 Guava Guava[gwɑ:və]，一句话，只要你做Java项目，就应该用Guava（Github）。 guava 是 Google 出品的一套 Java 核心库，在我看来，它甚至应该
HttpClient 120153216 httpclient
/** * 可以传对象的请求转发，对象已流形式放入HTTP中 */ public static Object doPost(Map<String,Object> parmMap,String url) { Object object = null; HttpClient hc = new HttpClient(); String fullURL
Django model字段类型清单 2002wmj django
Django 通过 models 实现数据库的创建、修改、删除等操作，本文为模型中一般常用的类型的清单，便于查询和使用： AutoField：一个自动递增的整型字段，添加记录时它会自动增长。你通常不需要直接使用这个字段；如果你不指定主键的话，系统会自动添加一个主键字段到你的model。(参阅自动主键字段) BooleanField：布尔字段,管理工具里会自动将其描述为checkbox。 Cha
在SQLSERVER中查找消耗CPU最多的SQL 357029540 SQL Server
返回消耗CPU数目最多的10条语句 SELECT TOP 10 total_worker_time/execution_count AS avg_cpu_cost, plan_handle, execution_count, (SELECT SUBSTRING(text, statement_start_of
Myeclipse项目无法部署，Undefined exploded archive location 7454103 eclipse MyEclipse
做个备忘！错误信息为： Undefined exploded archive location 原因：在工程转移过程中，导致工程的配置文件出错；解决方法：
GMT时间格式转换 adminjun GMT 时间转换
普通的时间转换问题我这里就不再罗嗦了，我想大家应该都会那种低级的转换问题吧，现在我向大家总结一下如何转换GMT时间格式，这种格式的转换方法网上还不是很多，所以有必要总结一下，也算给有需要的朋友一个小小的帮助啦。 1、可以使用 SimpleDateFormat SimpleDateFormat EEE-三位星期 d-天 MMM-月 yyyy-四位年
Oracle数据库新装连接串问题 aijuans oracle数据库
割接新装了数据库，客户端登陆无问题，apache/cgi-bin程序有问题，sqlnet.log日志如下： Fatal NI connect error 12170. VERSION INFORMATION: TNS for Linux: Version 10.2.0.4.0 - Product
回顾java数组复制 ayaoxinchao java 数组
在写这篇文章之前，也看了一些别人写的，基本上都是大同小异。文章是对java数组复制基础知识的回顾，算是作为学习笔记，供以后自己翻阅。首先，简单想一下这个问题：为什么要复制数组？我的个人理解：在我们在利用一个数组时，在每一次使用，我们都希望它的值是初始值。这时我们就要对数组进行复制，以达到原始数组值的安全性。java数组复制大致分为3种方式：①for循环方式 ②clone方式 ③arrayCopy方
java web会话监听并使用spring注入 bewithme Java Web
在java web应用中，当你想在建立会话或移除会话时，让系统做某些事情，比如说，统计在线用户，每当有用户登录时，或退出时，那么可以用下面这个监听器来监听。 import java.util.ArrayList; import java.ut
NoSQL数据库之Redis数据库管理(Redis的常用命令及高级应用) bijian1013 redis 数据库 NoSQL
一 .Redis常用命令 Redis提供了丰富的命令对数据库和各种数据库类型进行操作，这些命令可以在Linux终端使用。 a.键值相关命令 b.服务器相关命令 1.键值相关命令 &
java枚举序列化问题 bingyingao java 枚举序列化
对象在网络中传输离不开序列化和反序列化。而如果序列化的对象中有枚举值就要特别注意一些发布兼容问题: 1.加一个枚举值新机器代码读分布式缓存中老对象，没有问题，不会抛异常。老机器代码读分布式缓存中新对像，反序列化会中断，所以在所有机器发布完成之前要避免出现新对象，或者提前让老机器拥有新增枚举的jar。 2.删一个枚举值新机器代码读分布式缓存中老对象，反序列
【Spark七十八】Spark Kyro序列化 bit1129 spark
当使用SparkContext的saveAsObjectFile方法将对象序列化到文件，以及通过objectFile方法将对象从文件反序列出来的时候，Spark默认使用Java的序列化以及反序列化机制，通常情况下，这种序列化机制是很低效的，Spark支持使用Kyro作为对象的序列化和反序列化机制，序列化的速度比java更快，但是使用Kyro时要注意，Kyro目前还是有些bug。 Spark
Hybridizing OO and Functional Design bookjovi erlang haskell
推荐博文： Tell Above, and Ask Below - Hybridizing OO and Functional Design 文章中把OO和FP讲的深入透彻，里面把smalltalk和haskell作为典型的两种编程范式代表语言，此点本人极为同意，smalltalk可以说是最能体现OO设计的面向对象语言，smalltalk的作者Alan kay也是OO的最早先驱，
Java-Collections Framework学习与总结-HashMap BrokenDreams Collections
开发中常常会用到这样一种数据结构，根据一个关键字，找到所需的信息。这个过程有点像查字典，拿到一个key，去字典表中查找对应的value。Java1.0版本提供了这样的类java.util.Dictionary(抽象类)，基本上支持字典表的操作。后来引入了Map接口，更好的描述的这种数据结构。 &nb
读《研磨设计模式》-代码笔记-职责链模式-Chain Of Responsibility bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 业务逻辑：项目经理只能处理500以下的费用申请，部门经理是1000，总经理不设限。简单起见，只同意“Tom”的申请 * bylijinnan */ abstract class Handler { /*
Android中启动外部程序 cherishLC android
1、启动外部程序引用自： http://blog.csdn.net/linxcool/article/details/7692374 //方法一 Intent intent=new Intent(); //包名包名+类名（全路径） intent.setClassName("com.linxcool", "com.linxcool.PlaneActi
summary_keep_rate coollyj SUM
BEGIN /*DECLARE minDate varchar(20) ; DECLARE maxDate varchar(20) ;*/ DECLARE stkDate varchar(20) ; DECLARE done int default -1; /* 游标中注册服务器地址 */ DE
hadoop hdfs 添加数据目录出错 daizj hadoop hdfs 扩容
由于原来配置的hadoop data目录快要用满了，故准备修改配置文件增加数据目录，以便扩容，但由于疏忽，把core-site.xml, hdfs-site.xml配置文件dfs.datanode.data.dir 配置项增加了配置目录，但未创建实际目录，重启datanode服务时，报如下错误： 2014-11-18 08:51:39,128 WARN org.apache.hadoop.h
grep 目录级联查找 dongwei_6688 grep
在Mac或者Linux下使用grep进行文件内容查找时，如果给定的目标搜索路径是当前目录，那么它默认只搜索当前目录下的文件，而不会搜索其下面子目录中的文件内容，如果想级联搜索下级目录，需要使用一个“-r”参数： grep -n -r "GET" . 上面的命令将会找出当前目录“.”及当前目录中所有下级目录
yii 修改模块使用的布局文件 dcj3sjt126com yii layouts
方法一：yii模块默认使用系统当前的主题布局文件，如果在主配置文件中配置了主题比如: 'theme'=>'mythm', 那么yii的模块就使用 protected/themes/mythm/views/layouts 下的布局文件；如果未配置主题，那么 yii的模块就使用 protected/views/layouts 下的布局文件，总之默认不是使用自身目录 pr
设计模式之单例模式 come_for_dream 设计模式单例模式懒汉式饿汉式双重检验锁失败无序写入
今天该来的面试还没来，这个店估计不会来电话了，安静下来写写博客也不错，没事翻了翻小易哥的博客甚至与大牛们之间的差距，基础知识不扎实建起来的楼再高也只能是危楼罢了，陈下心回归基础把以前学过的东西总结一下。 *********************************
8、数组豆豆咖啡二维数组数组一维数组
一、概念数组是同一种类型数据的集合。其实数组就是一个容器。二、好处可以自动给数组中的元素从0开始编号，方便操作这些元素三、格式 //一维数组 1,元素类型[] 变量名 = new 元素类型[元素的个数] int[] arr =
Decode Ways hcx2013 decode
A message containing letters from A-Z is being encoded to numbers using the following mapping: 'A' -> 1 'B' -> 2 ... 'Z' -> 26 Given an encoded message containing digits, det
Spring4.1新特性——异步调度和事件机制的异常处理 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
squid3(高命中率)缓存服务器配置 liyonghui160com
系统:centos 5.x 需要的软件:squid-3.0.STABLE25.tar.gz 1.下载squid wget http://www.squid-cache.org/Versions/v3/3.0/squid-3.0.STABLE25.tar.gz tar zxf squid-3.0.STABLE25.tar.gz &&
避免Java应用中NullPointerException的技巧和最佳实践 pda158 java
1) 从已知的String对象中调用equals()和equalsIgnoreCase()方法，而非未知对象。　　总是从已知的非空String对象中调用equals()方法。因为equals()方法是对称的，调用a.equals(b)和调用b.equals(a)是完全相同的，这也是为什么程序员对于对象a和b这么不上心。如果调用者是空指针，这种调用可能导致一个空指针异常 Object unk
如何在Swift语言中创建http请求 shoothao http swift
概述：本文通过实例从同步和异步两种方式上回答了”如何在Swift语言中创建http请求“的问题。如果你对Objective-C比较了解的话，对于如何创建http请求你一定驾轻就熟了，而新语言Swift与其相比只有语法上的区别。但是，对才接触到这个崭新平台的初学者来说，他们仍然想知道“如何在Swift语言中创建http请求？”。在这里,我将作出一些建议来回答上述问题。常见的
Spring事务的传播方式 uule spring事务
传播方式：新建事务 required required_new - 挂起当前非事务方式运行 supports &nbs