糖醋小排♚

图像质量评估综述

背景介绍
在过去的几十年里，由于质量评估(Quality Assessment，QA)在许多领域有其广泛的实用性，比如图像压缩、视频编解码、视频监控等，并且对高效、可靠质量评估的需求日益增加，所以QA成为一个感兴趣的研究领域，每年都涌现出大量的新的QA算法，有些是扩展已有的算法，也有一些是QA算法的应用。

质量评估可分为图像质量评估（Image Quality Assessment, IQA）和视频质量评估（Video Quality Assessment, VQA），本文主要讨论图像质量评估。IQA从方法上可分为主观评估和客观评估。主观评估就是从人的主观感知来评价图像的质量，首先给出原始参考图像和失真图像，让标注者给失真图像评分，一般采用平均主观得分（Mean Opinion Score, MOS）或平均主观得分差异（Differential Mean Opinion Score, DMOS）表示。客观评估使用数学模型给出量化值，可以使用图像处理技术生成一批失真图像，操作简单，已经成为IQA研究的重点。图像质量评估算法的目标是自动评估与人的主观质量判断相一致的客观图像质量。然而，主观评估费时费力，在实际应用中不可行，并且主观实验受观看距离、显示设备、照明条件、观测者的视觉能力、情绪等诸多因素影响。因此，有必要设计出能够自动精确的预测主观质量的数学模型。

IQA按照原始参考图像提供信息的多少一般分成3类：全参考(Full Reference-IQA, FR-IQA)、半参考(Reduced Reference-IQA, RR-IQA)和无参考(No Reference-IQA, NR-IQA), 无参考也叫盲参考(Blind IQA, BIQA)。FR-IQA同时有原始(无失真、参考)图像和失真图像,难度较低，核心是对比两幅图像的信息量或特征相似度，是研究比较成熟的方向。NR-IQA只有失真图像，难度较高，是近些年的研究热点，也是IQA中最有挑战的问题。RR-IQA只有原始图像的部分信息或从参考图像中提取的部分特征，此类方法介于FR-IQA和NR-IQA之间，且任何FR-IQA和NR-IQA方法经过适当加工都可以转换成RR-IQA方法。进一步，NR-IQA类算法还可以细分成两类，一类研究特定类型的图像质量，比如估计模糊、块效应、噪声的严重程度，另一类估计非特定类型的图像质量，也就是一个通用的失真评估。一般在实际应用中无法提供参考图像，所以NR-IQA最有实用价值，也有着广泛的应用，使用起来也非常方便，同时，由于图像内容的千变万化并且无参考，也使得NR-IQA成为较难的研究对象。

数据集
要想公正的比较各个IQA算法的性能，有必要建立一个具有各种内容和失真的图像数据集。图像质量评估的数据集也很多，如表1。具有广泛认可的数据集有：LIVE，TID2008，TID2013，CSIQ，IVC和Toyama。给定这些数据集，然后就可以计算平均主观评分和客观模型预测值之间的差异和相关性。更高的相关性表明更好的模型性能。

表1：IQA 公开数据集[9]
3. 评估方法
上面简单介绍了IQA的背景知识和数据集，下面是本文的重点，主要介绍IQA的评估指标，使用一些传统算法和深度学习算法解决IQA问题。

3.1 评估指标

3.2 传统算法
以下简单介绍使用传统算法评估FR-IQA、RR-IQA和NR-IQA，文中提到的大部分算法可参考网站cvpr16_gmad。

3.2.1 FR-IQA

PSNR是图像、视频处理领域应用最广的性能量化方法，计算复杂度小，实现速度快，已经应用在视频编码标准H.264、H.265中。尽管PSNR具有上述特点，但是局限性很明显，受像素点的影响比较大，与主观评价一致性比较低，没有考虑人类视觉系统（Human Visual System， HVS）的一些重要的生理、心理、物理学特征。基于HVS，提出了误差灵敏度分析和结构相似度分析（Structural SIMilarity Index, SSIM）[1]的评价方法。结构相似性假定HVS高度适应于从场景中提取结构信息，试图模拟图像的结构信息，实验表明场景中物体的结构与局部亮度和对比度无关，因此，为了提取结构信息，我们应该分离照明效果。后来又发展出多尺度的结构相似性（Multi-Scale Structural SIMilarity Index, MS-SSIM）[1]和信息量加权的结构相似性(Information Content Weighted Structural Similarity Index, IW-SSIM)[13]，在多尺度方法中，将不同分辨率和观察条件下的图像细节结合到质量评估算法中。 VIF[12]算法使用高斯尺度混合（Gaussian Scale Mixtures, GSMs）在小波域对自然图像进行建模，由源模型，失真模型和HVS模型三部分组成。MAD[8]算法假定HVS在判断图像质量时采用不同的策略，即使用局部亮度、对比度掩蔽和空间频率分量的局部统计量的变化来寻找失真。FSIM[1]算法强调人类视觉系统理解图像主要根据图像低级特征，选择相位一致性（Phase Congruency, PC）和图像梯度幅度（Gradient Magnitude, GM）来计算图像质量。后又加入颜色特征并用相位一致性信息做加权平均，发展出FSIMc[1]算法。VSI[15]算法把FSIMc中的相位一致性特征换成了显著图，保留FSIMc中的梯度和颜色信息，提高了效果。GMSD[14]只用梯度作为特征，采用标准差pooling代替以前的均值pooling，达到了较好的效果。总体上来说，FR-IQA算法性能和速度都在提高，准确率也达到了新高度，如下表2：

表2：不同FR-IQA算法在四个不同的数据集上的表现对比
3.2.2 RR-IQA

虽然FR-IQA取得了良好的效果，但在许多应用中，参考图像获取不到，只能获取参考图像的一部分信息或间接特征，这便发展出RR-IQA。 RR-IQA方法为参考图像无法完全访问的情况提供了解决方案。这种类型的方法通常先从参考图像提取最小参数集，然后结合失真图一起来估计质量。RR-IQA研究中的一个重要问题是如何确定IQA任务的有效参数。Maalouf et al等人[10]提出了基于群变换的RR算法，给定参考图像及其失真版本，将图像组应用于两个图像以便提取图像的纹理和梯度信息，然后将该信息通过CSF滤波和阈值处理以获得灵敏度系数，最后通过将失真图像的灵敏度系数与参考图像的灵敏度系数进行比较来估计图像质量。Guanawan等人[6]提出了基于局部谐波分析对阻塞或模糊降级的图像进行操作的RR-IQA算法，从边缘检测图像来计算局部谐波幅度信息，然后将该信息与失真图像一起用于估计图像质量。还有其他的基于自然场景统计（Natural Scene Statistics, NSS）的RR-IQA方法，一般的RR-IQA系统见下图：

3.2.3 NR-IQA

现实场景中，人们在没有参考图像的情况下能够无差错地判断失真图像的质量，但从计算机的角度来看，这项任务是相当具有挑战性的。 NR-IQA算法试图不用参考图像来评估图像质量。

绝大多数NR-IQA算法试图检测特定类型的失真，如模糊，块效应，各种形式的噪声等。例如，用于锐度、模糊度估计的算法已被证明对于模糊图像的NR-IQA表现良好。 NR-IQA方法可以评价图像的模糊度，有基于边缘分析的方法，如使用Sobel、Canny提取图像边缘。有基于变换域的方法，如使用DCT、DWT进行模糊评价。有基于像素统计信息的方法，如统计图像协方差矩阵的最大的前几个特征值的迹作为图像锐度的估计。NR-IQA方法可以估计噪声，有基于滤波的方法、基于小波变换和其他一些变换域的方法。 NR-IQA方法可以评估块效应，有基于块边界和变换域的方法。NR-IQA方法还可以评估JPEG和JPEG2000的压缩失真。

还有一些基于通用类型的NR-IQA算法，这些算法不检测特定类型的失真，他们通常将IQA问题转化成一个分类或回归问题，其中分类、回归是使用特定的特征进行训练的。相关的特征要么使用自然场景统计提取，要么通过机器学习和深度学习发现。NR-IQA使用自然场景统计的一个主要思想是，自然图像表现出一定的统计规律，可以在失真的情况下进行评估。我们可以通过提取特征来估计质量，这些特征指示这些统计数据在失真图像中的偏离程度,比如BLINDS-II[1]，这些方法速度通常非常慢，因为使用了计算耗时的图像转换。有基于SVM的方法，这类方法先提取图像空间域或变换域特征, 基于已有的数据训练支持向量回归分析模型（Support Vector Regression, SVR），或者对失真图像使用SVM+SVR模型，代表算法有BIQI[1]，DIIVINE[1]，BRISQUE[1]等。或者使用概率模型的方法，比如BLIINDS[11]，NIQE[1]。或者基于码本的方法，比如CORNIA[1]。并且 CORNIA证明，可以直接从原始图像像素学习判别图像特征，而不使用手工提取特征。

3.3 深度学习算法
最近几年，深度学习已经引起了研究者们的关注，并在各计算机视觉任务上取得了巨大的成功。具体而言，CNN已经在许多标准的对象识别基准上表现出了优越的性能。 CNN的优势之一是可以直接将原始图像作为输入，并将特征学习融入到训练过程中。 CNN具有深层次的结构，可以有效地学习复杂的映射，同时要求最小的领域知识。这里主要介绍使用深度学习训练NR-IQA。

Le Kang等人[7]使用5层CNN准确的预测NR-IQA，网络结构图如下。该方法输入32*32大小的图像块，使用局部归一化、结合全局max pooling、min pooling、Relu非线性激活层，选择SVR损失函数，使用带动量的SGD来训练模型。在网络结构中，特征学习和回归被整合到一个优化过程中，从而形成一个更有效的估计图像质量的模型。这种方法在LIVE数据集上表现了当时最好的性能，并且在交叉数据集实验中显示了出色的泛化能力。文章最后还做了图像局部失真的实验，证明了CNN的局部质量估计能力。

图2：Le Kang等人使用的网络结构
Weilong Hou等也采用深度学习算法进行图像质量评价。使用BIQA框架，综合图像代表，NSS特征，混合特征，分类，后验概率计算等功能为一体，由3级小波变换细节特征为输入，训练过程先采用受限波尔兹曼机RBM进行层间学习，再通过反向传播算法进行微调，最后将预测结果分为5个等级。这个新的基于分类框架比回归框架更加自然，对小训练集更加稳定，通过实验证明模型更加的高效和鲁棒。

Ke Gu等人[5]介绍了一种新的基于深度学习的图像质量指数（Deep learning based Image Quality Index， DIQI）来评估无参考图像质量。首先把RGB图像转换到YIQ颜色空间，从中提取3000个特征，然后使用L-BFGS算法训练一个稀疏的自动编码器，输入数据是s×3000的矩阵，s表示训练样本的个数，设计一个3层的DNN，使用刚才训练的自动编码器初始化DNN，然后使用线性函数计算输出，最后根据损失函数使用反向传播算法微调DNN每层的权重。实验结果表明DIQI的有效性，并且对比经典的FR-IQA、RR-IQA算法，DNN是IQA研究中一个有前景的方向。

图3：DIQI结构和稀疏表示
Sebastian Bosse等人[4], 设计了一个端到端的深度神经网络。作者修改了VGG网络，新网络包含10个卷积层、5个pooling层来提取特征，2个fc层做回归，将大图片分成多个小块作为输入。然后NR-IQA与FR-IQA共用网络，可以学习出局部权重和局部质量，计算MAE损失进行端到端的训练。作者对比了三种特征向量的融合、空间pooling和权重估计，最后 [公式] 和平均权重效果最好。只使用NR-IQA分支就可以预测NR-IQA，网络设计比较灵活。实验评估了一些有代表性的公开数据集，都表现出了优越的性能，通过跨数据集的测试表明该算法有很好的泛化能力。

图4：Sebastian Bosse等人使用的网络结构
Simone Bianco等人[3]使用了DeepBIQ模型，DeepBIQ通过将原始图像的多个子区域上预测的分数进行平均来估计图像质量。输入图像块，加载预训练模型微调CNN，输出SVR来计算每个图像块的分数。作者评估了几种效果：1）使用不同的预训练模型，2）使用大量的图像块而不是整个图像训练，同时使用不同的特征和结果融合策略，3）由于图片数据量少，固定网络全连接前的权值，使用NR-IQA数据微调网络。测试图像质量挑战数据集的结果表明，DeepBIQ取得了几乎0.91的LCC。此外，在许多情况下，DeepBIQ的质量分数预测更接近平均观察者的分数。

图5：DeepBIQ 特征的不同融合方式
Xialei Liu等人[2]提出RankIQA模型来评估无参考图像的质量。之前的模型主要都是从提取特征和网络方面做改进，并没有考虑数据集图像少的问题。而RankIQA正是从数据预处理出发，取得了NR-IQA最好效果。为了解决IQA数据集不足的问题，通过已知质量的图片使用图像处理变换生成不同级别不同类型的排序的失真图像。这些排序的图像集是自动生成的，而不用人工标注。这样就得到一个大数据集，然后就可以选择一个更宽更深的网络来训练。作者首先选择Siamese网络学习出生成数据排序关系的表示特征，然后将训练好的Siamese网络中表示的知识迁移到传统的CNN中，从而估算出单个图像的绝对图像质量。作者还改进了一个比传统Siamese网络更高效的反向传播算法：以前Siamese网络使用成对的样本训练网络，这样有大量样本有重复计算，现在所有样本只前向传播一次，统计出loss，然后计算梯度进行反向传播，这样得到更快的训练速度和更低的损失。作者实验了三个从浅到深的网络：Shallow，Alexnet，VGG16。Shallow包含4个卷积层和一个fc层，最后VGG16的结果最好。我们还可以训练测试一些更深的网络或者设计一些新网络。作者测试TID2013表明，RankIQA超过state-of-the-art 5％,并且在LIVE测试中，RankIQA优于现有的NR-IQA技术，甚至超越了FR-IQA方法的最新技术，从而无需参考图像就可以推断IQA。

图6：RankIQA网络结构
代码实现链接：https://github.com/xialeiliu
3.4 实验结果
在表3中, 统计了一些FR-IQA算法和NR-IQA算法在LIVE数据集上的表现，到目前为止结果最好是RankIQA，RankIQA在NR-IQA上的评估指标甚至超过了FR-IQA。

表 3: 各算法在 LIVE 数据集上的 LCC 和 SROCC 表现
根据RankIQA的主页https://xialeiliu.github.io/RankIQA/提供的文档和源码，首先生成一批排序的失真图像，使用脚本准备好训练、测试集，然后使用网络进行训练。训练模型分为2个阶段，第一阶段使用Siamese网络通过排序图像学习出图像的表示特征，第二阶段使用第一阶段训练好的模型微调自己的IQA数据。我使用自己的数据集：训练集7.5W张，测试集6500，分别微调出了回归和分类模型，微调时使用较小的学习率，回归结果见表4，后使用TID2013+FT模型微调出分类的准确率为 [公式]。与公开数据集上的LCC和SROCC差别都比较大，可能原因是自己数据的主观性比较强，与公开数据集存在分布差异。

表4: 训练测试自己数据的表现
4 总结
从NR-IQA的发展来看，经历了先前针对特定失真类型到基于规则判断的方法后，逐渐到提取复杂特征、基于机器学习的方向发展，直到现在使用深度学习的方法，NR-IQA取得了较好的结果。深度学习具有复杂的网络结构和很好的非线性映射能力，可以端到端的完成特征提取和识别，从实验结果来看，性能超过其他机器学习的方法，在IQA中发挥了重要的作用。但其局限性是设计网络和训练网络都需要一定的技巧，另外训练需要大量的数据，数据量少容易产生过拟合。各个IQA算法也有其局限性，目前还没有客观评价视频编码的算法，虽然PSNR已经应用在视频编码标准中，但是实验证明PSNR和SSIM等算法并不能客观的评价图像质量，如图7，圆外6幅图像MAE相同，即PSNR相同，可是主观观测差别很大，图中SSIM不同，貌似SSIM效果好点，但是有论文证明SSIM并不比PSNR优秀。PSNR范围[0，100]，SSIM的范围[0,1]，他们也没有准确的对应关系。也还没有客观评价与主观评价一致性高的算法，如图8，主观与客观呈现非线性的关系。目前各IQA算法主要评估图片质量都是单一的质量值，并不能反应综合图像质量情况，在各个数据集上SRCC高并不意味着总体上SRCC高。IQA算法对数据集依赖严重，现实中自然图片千变万化，包含多重失真，比公开数据集更复杂，仅靠提升LCC和SROCC是远远不够的。所以现有的IQA算法只能解决一部分问题，如果投入使用还需继续探索。

图7: 圆内是原始图像，圆外是 6 幅加入不同失真图像，它们 PSNR 相同，SSIM 不同

图8: 主观平均得分与模型预测得分的非线性关系
参考文献
[1] Algorithm Reference. https://ece.uwaterloo.ca/~zduanmu/cvpr16_gmad.

[2] RankIQA: Learning from Rankings for No-reference Image Quality Assessment. https://xialeiliu.github.io/RankIQA.

[3] S. Bianco, L. Celona, P. Napoletano, and R. Schettini. On the use of deep learning for blind image quality assessment. arXiv preprint arXiv:1602.05531, 2016.

[4] S. Bosse, D. Maniry, K.-R. Müller, T. Wiegand, and W. Samek. Deep neural networks for no-reference and full-reference image quality assessment. IEEE Transactions on Image Processing, 27(1):206–219, 2018.

[5] K. Gu, G. Zhai, X. Yang, and W. Zhang. Deep learning network for blind image quality assessment. In Image Processing (ICIP), 2014 IEEE International Conference on, pages 511–515. IEEE, 2014.

[6] I. P. Gunawan and M. Ghanbari. Reduced reference picture quality estimation by using local harmonic amplitude information. In London Communications Symposium, volume 2003, pages 353–358, 2003.

[7] L. Kang, P. Ye, Y. Li, and D. Doermann. Convolutional neural networks for no-reference image quality assessment. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 1733–1740, 2014.

[8] E. C. Larson and D. M. Chandler. Most apparent distortion: full-reference image quality assessment and the role of strategy. Journal of Electronic Imaging, 19(1):011006–011006, 2010.

[9] 图像质量评价怎么了 – 全参考方法整理与实用性探讨. https://zhuanlan.zhihu.com/p/24804170.

[10] A. Maalouf, M.-C. Larabi, and C. Fernandez-Maloigne. A grouplet-based reduced reference image quality assessment. In Quality of Multimedia Experience, 2009. QoMEx 2009. International Workshop on, pages 59–63. IEEE, 2009.

[11] M. A. Saad, A. C. Bovik, and C. Charrier. A dct statistics-based blind image quality index. IEEE Signal Processing Letters, 17(6):583–586, 2010.

[12] H. R. Sheikh and A. C. Bovik. Image information and visual quality. IEEE Transactions on image processing, 15(2):430–444, 2006.

[13] Z. Wang and Q. Li. Information content weighting for perceptual image quality assessment. IEEE Transactions on Image Processing, 20(5):1185–1198, 2011.

[14] W. Xue, L. Zhang, X. Mou, and A. C. Bovik. Gradient magnitude similarity deviation: A highly e cient perceptual image quality index. IEEE Transactions on Image Processing, 23(2):684–695, 2014.

[15] L. Zhang, Y. Shen, and H. Li. Vsi: A visual saliency-induced index for perceptual image quality assessment. IEEE Transactions on Image Processing, 23(10):4270–4281, 2014.

C++11堆操作深度解析：std::is_heap与std::is_heap_until原理解析与实践
文章目录堆结构基础与函数接口堆的核心性质函数签名与核心接口std::is_heapstd::is_heap_until实现原理深度剖析std::is_heap的验证逻辑std::is_heap_until的定位策略算法优化细节代码实践与案例分析基础用法演示自定义比较器实现最小堆检查边缘情况处理性能分析与实际应用时间复杂度对比典型应用场景与手动实现的对比注意事项与最佳实践迭代器要求比较器设计C++标
有必要获得WHQL测试认证吗，有什么好处？
什么是WHQL认证？WHQL是MicrosoftWindowsHardwareQualityLab的缩写，中文意思是Windows硬件设备质量实验室，主要是对Windows操作系统的兼容性测试，检验硬件产品和驱动程序在windows系统下的兼容性和稳定性。当某一硬件或软件通过WHQL测试时，制造商可以在其产品包装和广告上使用“DesignedforWindows”标志。该标志可以证明硬件或软件已经
C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element((1) 2401_84976182 程序员 c语言 c++学习
既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上CC++开发知识点，真正体系化！由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新如果你需要这些资料，可以戳这里获取#include#include#includeusingnamespacestd;boolcmp(int
冒泡、选择、插入排序：三大基础排序算法深度解析（C语言实现） xienda 算法排序算法数据结构
在算法学习道路上，排序算法是每位程序员必须掌握的基石。本文将深入解析冒泡排序、选择排序和插入排序这三种基础排序算法，通过C语言代码实现和对比分析，帮助读者彻底理解它们的差异与应用场景。算法原理与代码实现1.冒泡排序（BubbleSort）工作原理：通过重复比较相邻元素，将较大元素逐步"冒泡"到数组末尾。voidbubbleSort(intarr[],intn){ for(inti=0;iarr[
Leetcode 148. 排序链表
文章目录前引题目代码（首刷看题解）代码（8.9二刷部分看解析）代码（9.15三刷部分看解析）前引综合性比较强的一道题，要求时间复杂度必须O(logn)才能通过，最适合链表的排序算法就是归并。这里采用自顶向下的方法步骤：找到链表中点（双指针）对两个子链表排序(递归，直到只有一个结点，记得将子链表最后指向nullptr）归并（引入dummy结点）题目Leetcode148.排序链表代码（首刷看题解）c
前端项目架构设计要领
1.架构设计的核心目标在设计前端项目架构时，核心目标是模块化、可维护、可扩展、可测试，以及开发效率的最大化。这些目标可以通过以下几个方面来实现：组件化：将UI功能封装为可复用的组件。模块化：将业务逻辑分解为独立的模块或服务。自动化构建与部署：实现自动化构建、测试和部署流程，减少人为操作的错误。代码规范化与检查：确保团队协作时，代码风格和质量一致。2.项目目录结构设计一个清晰合理的目录结构对大型项目
Android 开源组件和第三方库汇总 gyyzzr Android Android 开源框架
转载1、github排名https://github.com/trending,github搜索：https://github.com/search2、https://github.com/wasabeef/awesome-android-ui目录UIUI卫星菜单节选器下拉刷新模糊效果HUD与Toast进度条UI其它动画网络相关响应式编程地图数据库图像浏览及处理视频音频处理测试及调试动态更新热更新
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）阿牛的药铺算法移植部署 fpga开发 verilog
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）引言：为什么这个FPGA入门路线能帮你快速上岗？本文设计了一条**"Verilog语法→工具链操作→光学项目实战→岗位技能对标"的阶梯式学习路径。不同于泛泛而谈的FPGA教程，我们聚焦光学类产品开发**核心能力（时序接口设计、图像处理算法移植、高速接口应用），通过3个递进式项目（从LED闪烁到图像边缘检测），
PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
基于架构的软件设计（Architecture-Based Software Design，ABSD）是一种以架构为核心的软件开发方法
ABSD方法与生命周期基于架构的软件设计（Architecture-BasedSoftwareDesign，ABSD）是一种以架构为核心的软件开发方法，强调在开发的各个阶段都要以架构为中心，确保系统的整体结构和质量属性得到有效管理。ABSD方法是一个自顶向下、递归细化的过程，软件系统的架构通过该方法得到细化，直到能产生软件构件和类。ABSD方法的三个基础功能的分解：使用基于模块的内聚和耦合技术，将
配音助手：自媒体神器，内置海量音色的语音，支持多主播配音阿幸软件杂货间媒体
软件介绍内置文字转语音，提供多个主播音色，男声、女声、小孩、方言。支持的场景也是比较多，比如：广告促销、有声读物、广播配音、影视配音、Ai配音等。这个软件是免费的，只不过需要通过手机号码登录就可以使用全部功能了。软件下载夸克下载
霍夫变换（Hough Transform）算法原来详解和纯C++代码实现以及OpenCV中的使用示例点云SLAM 算法图形图像处理算法 opencv 图像处理与计算机视觉算法直线提取检测目标检测霍夫变换算法
霍夫变换（HoughTransform）是一种经典的图像处理与计算机视觉算法，广泛用于检测图像中的几何形状，例如直线、圆、椭圆等。其核心思想是将图像空间中的“点”映射到参数空间中的“曲线”，从而将形状检测问题转化为参数空间中的峰值检测问题。一、霍夫变换基本思想输入：边缘图像（如经过Canny边缘检测）输出：一组满足几何模型的形状（如直线、圆）关键思想：图像空间中的一个点→参数空间中的一个曲线参数空
用OpenCV标定相机内参应用示例（C++和Python）
下面是一个完整的使用OpenCV进行相机内参标定（CameraCalibration）的示例，包括C++和Python两个版本，基于棋盘格图案标定。一、目标：相机标定通过拍摄多张带有棋盘格图案的图像，估计相机的内参：相机矩阵（内参）K畸变系数distCoeffs可选外参（R,T）标定精度指标（如重投影误差）二、棋盘格参数设置（根据自己的棋盘格设置）：棋盘格角点数：9x6（内角点，9列×6行）；每个
Shader面试题100道之（81-100）还是大剑师兰特 #Shader 综合教程100+大剑师 shader面试题 shader教程
Shader面试题（第81-100题）以下是第81到第100道Shader相关的面试题及答案：81.Unity中如何实现屏幕空间的热扭曲效果（HeatDistortion）？热扭曲效果可以通过GrabPass抓取当前屏幕图像，然后在片段着色器中使用噪声或动态UV偏移模拟空气扰动，再结合一个透明通道控制扭曲强度来实现。82.Shader中如何实现物体轮廓高亮（OutlineHighlight）？轮廓
被动降噪的概念及编程实现 CodeByte 人工智能算法 javascript 编程
被动降噪是指通过编程技术和算法，对输入的数据进行处理，以减少或消除其中的噪声。噪声可以是各种形式的干扰，例如来自传感器、通信信号或其他外部源的干扰。在本文中，我们将探讨被动降噪的意义以及如何使用编程来实现这一目标。被动降噪的意义：噪声对数据的准确性和可靠性产生负面影响。在许多应用领域，例如图像处理、音频处理和信号处理中，噪声的存在可能导致数据质量下降，使得后续的分析和处理变得困难。因此，被动降噪技
【GESP】C++三级真题 luogu-B4359 [GESP202506 三级] 分糖果 CoderCodingNo GESP c++java 开发语言
GESPC++三级，2025年6月真题，模拟算法，难度★★☆☆☆。本次三级题目个人感觉比较简单。题目题解详见：【GESP】C++三级真题luogu-B4359[GESP202506三级]分糖果|OneCoder【GESP】C++三级真题luogu-B4359[GESP202506三级]分糖果|OneCoderGESPC++三级，2025年6月真题，模拟算法，难度★★☆☆☆。本次三级题目个人感觉比较
盲超分的核心概念小冷爱读书数学建模盲超分超分重建
一、盲超分的本质与数学建模1.退化过程的数学表达低分辨率图像（LR）可看作高分辨率图像（HR）经过退化模型后的结果：：观测到的低分辨率图像：待恢复的高分辨率图像：模糊核（BlurKernel）⊗：卷积操作↓：下采样（步长为）：加性噪声（如高斯噪声、泊松噪声等）盲超分的核心问题：在未知、、的情况下，从估计。2.为什么传统超分方法会失效？传统方法（如SRCNN、EDSR）假设退化是固定的（如双三次下采
【DBC】DBC中CAN信号多路复用徐饼干 DBC 程序人生其他经验分享
DBC文件信号多路复用详解1何时定义有些信号比较长，但是又不常用，就可以定义多路复用信号以节约空间。2具体定义2.1定义一个短信号来当做“控制开关”。【若定义1bit，则有2种可能0x00和0x01，复用两路】【若定义2bit，则有4种可能0x00和0x01和0x10和0x11，复用四路】…所以说，这个短信号的长度和你想复用多少路有关，多长？放在什么位置？由定义者决定2.2节约空间是如何体现的现在
AI 图像编辑提示词参考之：背景替换
在AI图像编辑中（以FluxKontext为例），“替换背景”（BackgroundReplacement）是提升图像表现力的关键手段之一。但背景更换不仅仅是简单的视觉置换，更重要的是：确保人物主体外观不变，并与新背景在色温、色调、光影等方面自然融合。只有这样，最终图像才会呈现出“原本拍摄于该背景环境”的真实感。建议使用以下结构组织提示词：Replacethebackgroundwith[新背景]
el-timeline时间线（Plus）左边图标改为自定义图片顾尘眠 javascript 前端 vue.js
（目前图片有点小，还需要自己去调整下大概样式，比较懒，就放了个大概样子）时间线左侧正常根据文档内容，是填写的icon，但通过icon属性还有另外一个类型，component，可以搭配h函数写一组img元素，实现将图标改为本地图片{{activity.content}}import{h}from'vue'constactivities=[{content:'Eventstart',timestamp
redis中什么是bigkey？会有什么影响？ Vic2334 redis
什么是bigkey？会有什么影响？bigkey是指key对应的value所占的内存空间比较大，例如一个字符串类型的value可以最大存到512MB，一个列表类型的value最多可以存储23-1个元素。如果按照数据结构来细分的话，一般分为字符串类型bigkey和非字符串类型bigkey。字符串类型：体现在单个value值很大，一般认为超过10KB就是bigkey，但这个值和具体的OPS相关。非字符串
目标检测（object detection）加油吧zkf 目标检测目标检测人工智能计算机视觉
目标检测作为计算机视觉的核心技术，在自动驾驶、安防监控、医疗影像等领域发挥着不可替代的作用。本文将系统讲解目标检测的概念、原理、主流模型、常见数据集及应用场景，帮助读者构建对这一技术的完整认知。一、目标检测的核心概念目标检测（ObjectDetection）是指在图像或视频中自动定位并识别出所有感兴趣的目标的技术。它需要解决两个核心问题：分类（Classification）：确定图像中每个目标的类
模型训练与部署注意事项篇---resize Atticus-Orion 图像处理篇深度学习篇模型训练与部署注意事项篇深度学习计算机视觉人工智能
图像大小的影响在YOLOv系列模型的训练和推理部署过程中，图像大小的选择是影响模型性能（精度、速度、泛化能力）的关键因素之一。两者的关系既相互关联，又存在一定的灵活性，具体可从以下几个方面详细分析：一、核心关系：训练与推理图像大小的“基准一致性”YOLOv模型（如YOLOv5、v7、v8等）的训练和推理图像大小通常以**“基准尺寸”**为核心关联，即训练时设定的图像尺寸会作为模型设计的基础，而推理
让电机转起来--基于STM32F1控制两相步进电机转动-新手小白入（完整代码）梦想是成为甜妹儿 stm32 嵌入式硬件单片机
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、基础内容1、步进电机2、电机驱动器3、接线方法二、最简单控制电机转动程序1.定时器的输出比较功能生成PWM波2.电机方向控制3.主函数三、进阶版电机控制程序1.加入按键控制2.motor.c中添加一个函数3.主函数总结前言本帖分享步进电机与驱动器的接线方式、速度计算与代码分析。第一次接触电机的小白可能会面对无数的代码分
深度学习图像分类数据集—桃子识别分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：桃子识别分类：['B1','M2','R0','S3']训练数据集总共有6637张图片，每个文件夹单独放一种数据各子文件夹图片统计:·B1:1601张图片·M2:1800张图片·R0:1601张图片·S3:
《C++性能优化指南》 linux版代码及原理解读第四章 v俊逸 C++性能优化指南性能优化 C++性能优化指南性能优化
目录概述为什么字符串很麻烦字符串是动态分配的字符串赋值背后的操作如何面对字符串会进行大量复制写时复制COW（copyonwrite）尝试优化字符串避免临时字符串通过预留存储空间减少内存分配通过传递引用减少实参复制使用迭代器操作减少循环中的比较操作减少返回值的复制还没有结束，使用字符数组代替字符串再次优化字符串尝试其他的算法叠加以前的优化方式使用其他的编译器使用其他字符串的库功能丰富的字符串库使用s
Llama-Omni会说话的人工智能“语音到语音LLM” 利用低延迟、高质量语音转语音 AI 彻底改变对话方式（教程含源码）知识大胖 NVIDIA GPU和大语言模型开发教程 llama 人工智能 nvidia llm
介绍“单靠技术是不够的——技术与文科、人文学科的结合，才能产生让我们心花怒放的成果。”——史蒂夫·乔布斯近年来，人机交互领域发生了重大变化，尤其是随着ChatGPT、GPT-4等大型语言模型(LLM)的出现。虽然这些模型主要基于文本，但人们对语音交互的兴趣日益浓厚，以使人机对话更加无缝和自然。然而，实现语音交互而不受语音转文本处理中常见的延迟和错误的影响仍然是一个挑战。关键字：Llama-Omni
NVIDIA 系列之使用生成式 AI 增强 ROS2 机器人技术：使用 BLIP 和 Isaac Sim 进行实时图像字幕制作知识大胖 NVIDIA GPU和大语言模型开发教程人工智能机器人
简介在快速发展的机器人领域，集成先进的AI模型可以显著增强机器人系统的功能。在本博客中，我们将探讨如何在ROS2（机器人操作系统2）环境中利用BLIP（引导语言图像预训练）模型进行实时图像字幕制作，并使用NVIDIAIsaacSim进行模拟。我们将介绍如何实现一个ROS2节点，该节点订阅摄像头源、应用BLIP模型进行图像字幕制作，并实时显示结果。这种集成展示了生成式AI在增强人机交互方面的强大功能
卫星分析系列之使用卫星图像量化野火烧毁面积在 Google Colab 中使用 Python 使用 Sentinel-2 图像确定森林火灾烧毁面积知识大胖 NVIDIA GPU和大语言模型开发教程 python sentinel 开发语言
简介几年前，当大多数气候模型预测如果我们不采取必要措施，洪水、热浪和野火将会发生更多时，我没想到这些不寻常的灾难现象会成为常见事件。其中，野火每年摧毁大量森林面积。如果你搜索不同地方的重大野火表格，你会发现令人震惊的统计数据，显示由于野火，地球上有多少森林面积正在消失。在本教程中，我将结合我已经发表过的关于下载、处理卫星图像和可视化野火的故事，量化加州发生的其中一场重大野火的烧毁面积。与之前的帖子
使用NVIDIA NeRF将2D图像转换为逼真的3D模型（Python） ByteWhiz 3d python 计算机视觉 Python
使用NVIDIANeRF将2D图像转换为逼真的3D模型（Python）NeuralRadianceFields（NeRF）是一种强大的方法，可以将2D图像转换为逼真的3D模型。它使用神经网络来建模场景的辐射场，并通过渲染多个视角的图像来重建3D模型。在本文中，我们将使用Python和NVIDIANeRF库来实现这一过程。首先，我们需要安装所需的库。我们可以通过以下命令使用pip安装NVIDIANe
eclipse maven IXHONG eclipse
eclipse中使用maven插件的时候，运行run as maven build的时候报错 -Dmaven.multiModuleProjectDirectory system propery is not set. Check $M2_HOME environment variable and mvn script match. 可以设一个环境变量M2_HOME指
timer cancel方法的一个小实例 alleni123 多线程 timer
package com.lj.timer; import java.util.Date; import java.util.Timer; import java.util.TimerTask; public class MyTimer extends TimerTask { private int a; private Timer timer; pub
MySQL数据库在Linux下的安装 ducklsl mysql
1.建好一个专门放置MySQL的目录 /mysql/db数据库目录 /mysql/data数据库数据文件目录 2.配置用户，添加专门的MySQL管理用户 >groupadd mysql ----添加用户组 >useradd -g mysql mysql ----在mysql用户组中添加一个mysql用户 3.配置，生成并安装MySQL >cmake -D
spring------>>cvc-elt.1: Cannot find the declaration of element Array_06 spring bean
将-------- <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3
maven发布第三方jar的一些问题 cugfy maven
maven中发布第三方jar到nexus仓库使用的是 deploy:deploy-file命令有许多参数，具体可查看 http://maven.apache.org/plugins/maven-deploy-plugin/deploy-file-mojo.html 以下是一个例子： mvn deploy:deploy-file -DgroupId=xpp3
MYSQL下载及安装 357029540 mysql
好久没有去安装过MYSQL，今天自己在安装完MYSQL过后用navicat for mysql去厕测试链接的时候出现了10061的问题，因为的的MYSQL是最新版本为5.6.24，所以下载的文件夹里没有my.ini文件，所以在网上找了很多方法还是没有找到怎么解决问题，最后看到了一篇百度经验里有这个的介绍，按照其步骤也完成了安装，在这里给大家分享下这个链接的地址
ios TableView cell的布局张亚雄 tableview
cell.imageView.image = [UIImage imageNamed:[imageArray objectAtIndex:[indexPath row]]]; CGSize itemSize = CGSizeMake(60, 50); &nbs
Java编码转义 adminjun java 编码转义
import java.io.UnsupportedEncodingException; /** * 转换字符串的编码 */ public class ChangeCharset { /** 7位ASCII字符，也叫作ISO646-US、Unicode字符集的基本拉丁块 */ public static final Strin
Tomcat 配置和spring aijuans spring
简介 Tomcat启动时，先找系统变量CATALINA_BASE，如果没有，则找CATALINA_HOME。然后找这个变量所指的目录下的conf文件夹，从中读取配置文件。最重要的配置文件：server.xml 。要配置tomcat，基本上了解server.xml，context.xml和web.xml。 Server.xml -- tomcat主
Java打印当前目录下的所有子目录和文件 ayaoxinchao 递归 File
其实这个没啥技术含量，大湿们不要操笑哦，只是做一个简单的记录，简单用了一下递归算法。 import java.io.File; /** * @author Perlin * @date 2014-6-30 */ public class PrintDirectory { public static void printDirectory(File f
linux安装mysql出现libs报冲突解决 BigBird2012 linux
linux安装mysql出现libs报冲突解决安装mysql出现 file /usr/share/mysql/ukrainian/errmsg.sys from install of MySQL-server-5.5.33-1.linux2.6.i386 conflicts with file from package mysql-libs-5.1.61-4.el6.i686
jedis连接池使用实例 bijian1013 redis jedis连接池 jedis
实例代码： package com.bijian.study; import java.util.ArrayList; import java.util.List; import redis.clients.jedis.Jedis; import redis.clients.jedis.JedisPool; import redis.clients.jedis.JedisPoo
关于朋友 bingyingao 朋友兴趣爱好维持
成为朋友的必要条件：志相同，道不合，可以成为朋友。譬如马云、周星驰一个是商人，一个是影星，可谓道不同，但都很有梦想，都要在各自领域里做到最好，当他们遇到一起，互相欣赏，可以畅谈两个小时。志不同，道相合，也可以成为朋友。譬如有时候看到两个一个成绩很好每次考试争做第一，一个成绩很差的同学是好朋友。他们志向不相同，但他
【Spark七十九】Spark RDD API一 bit1129 spark
aggregate package spark.examples.rddapi import org.apache.spark.{SparkConf, SparkContext} //测试RDD的aggregate方法 object AggregateTest { def main(args: Array[String]) { val conf = new Spar
ktap 0.1 released bookjovi kernel tracing
Dear, I'm pleased to announce that ktap release v0.1, this is the first official release of ktap project, it is expected that this release is not fully functional or very stable and we welcome bu
能保存Properties文件注释的Properties工具类 BrokenDreams properties
今天遇到一个小需求：由于java.util.Properties读取属性文件时会忽略注释，当写回去的时候，注释都没了。恰好一个项目中的配置文件会在部署后被某个Java程序修改一下，但修改了之后注释全没了，可能会给以后的参数调整带来困难。所以要解决这个问题。 &nb
读《研磨设计模式》-代码笔记-外观模式-Facade bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* * 百度百科的定义： * Facade（外观）模式为子系统中的各类（或结构与方法）提供一个简明一致的界面， * 隐藏子系统的复杂性，使子系统更加容易使用。他是为子系统中的一组接口所提供的一个一致的界面 * * 可简单地
After Effects教程收集 cherishLC After Effects
1、中文入门 http://study.163.com/course/courseMain.htm?courseId=730009 2、videocopilot英文入门教程（中文字幕） http://www.youku.com/playlist_show/id_17893193.html 英文原址： http://www.videocopilot.net/basic/ 素
Linux Apache 安装过程 crabdave apache
Linux Apache 安装过程下载新版本： apr-1.4.2.tar.gz（下载网站：http://apr.apache.org/download.cgi） apr-util-1.3.9.tar.gz（下载网站：http://apr.apache.org/download.cgi） httpd-2.2.15.tar.gz（下载网站：http://httpd.apac
Shell学习之变量赋值和引用 daizj shell 变量引用赋值
本文转自：http://www.cnblogs.com/papam/articles/1548679.html Shell编程中，使用变量无需事先声明，同时变量名的命名须遵循如下规则：首个字符必须为字母（a-z，A-Z）中间不能有空格，可以使用下划线（_）不能使用标点符号不能使用bash里的关键字（可用help命令查看保留关键字）需要给变量赋值时，可以这么写：
Java SE 第一讲（Java SE入门、JDK的下载与安装、第一个Java程序、Java程序的编译与执行） dcj3sjt126com java jdk
Java SE 第一讲： Java SE：Java Standard Edition Java ME: Java Mobile Edition Java EE：Java Enterprise Edition Java是由Sun公司推出的（今年初被Oracle公司收购）。收购价格：74亿美金 J2SE、J2ME、J2EE JDK：Java Development
YII给用户登录加上验证码 dcj3sjt126com yii
1、在SiteController中添加如下代码： /** * Declares class-based actions. */ public function actions() { return array( // captcha action renders the CAPTCHA image displ
Lucene使用说明 dyy_gusi Lucene search 分词器
Lucene使用说明 1、lucene简介 1.1、什么是lucene Lucene是一个全文搜索框架，而不是应用产品。因此它并不像baidu或者googleDesktop那种拿来就能用，它只是提供了一种工具让你能实现这些产品和功能。 1.2、lucene能做什么要回答这个问题，先要了解lucene的本质。实际
学习编程并不难,做到以下几点即可! gcq511120594 数据结构编程算法
不论你是想自己设计游戏，还是开发iPhone或安卓手机上的应用，还是仅仅为了娱乐，学习编程语言都是一条必经之路。编程语言种类繁多，用途各异，然而一旦掌握其中之一，其他的也就迎刃而解。作为初学者，你可能要先从Java或HTML开始学，一旦掌握了一门编程语言，你就发挥无穷的想象，开发各种神奇的软件啦。 1、确定目标学习编程语言既充满乐趣，又充满挑战。有些花费多年时间学习一门编程语言的大学生到
Java面试十问之三：Java与C++内存回收机制的差别 HNUlanwei java C++finalize()堆栈内存回收
大家知道， Java 除了那 8 种基本类型以外，其他都是对象类型（又称为引用类型）的数据。 JVM 会把程序创建的对象存放在堆空间中，那什么又是堆空间呢？其实，堆（ Heap）是一个运行时的数据存储区，从它可以分配大小各异的空间。一般，运行时的数据存储区有堆（ Heap）和堆栈（ Stack），所以要先看它们里面可以分配哪些类型的对象实体，然后才知道如何均衡使用这两种存储区。一般来说，栈中存放的
第二章 Nginx+Lua开发入门 jinnianshilongnian nginx lua
Nginx入门本文目的是学习Nginx+Lua开发，对于Nginx基本知识可以参考如下文章： nginx启动、关闭、重启 http://www.cnblogs.com/derekchen/archive/2011/02/17/1957209.html agentzh 的 Nginx 教程 http://openresty.org/download/agentzh-nginx-tutor
MongoDB windows安装基本命令 liyonghui160com
windows安装安装目录： D:\MongoDB\ 新建目录 D:\MongoDB\data\db 4.启动进城： cd D:\MongoDB\bin mongod -dbpath D:\MongoDB\data\db &n
Linux下通过源码编译安装程序 pda158 linux
一、程序的组成部分　　Linux下程序大都是由以下几部分组成：　　二进制文件：也就是可以运行的程序文件　　库文件：就是通常我们见到的lib目录下的文件　　配置文件：这个不必多说，都知道　　帮助文档：通常是我们在linux下用man命令查看的命令的文档　　二、linux下程序的存放目录　　linux程序的存放目录大致有三个地方：　　/etc, /b
WEB开发编程的职业生涯４个阶段 shw3588 编程 Web 工作生活
觉得自己什么都会 2007年从学校毕业，凭借自己原创的ASP毕业设计，以为自己很厉害似的，信心满满去东莞找工作，找面试成功率确实很高，只是工资不高，但依旧无法磨灭那过分的自信，那时候什么考勤系统、什么OA系统、什么ERP，什么都觉得有信心，这样的生涯大概持续了约一年。根本不是自己想的那样 2008年开始接触很多工作相关的东西，发现太多东西自己根本不会，都需要去学，不管是asp还是js，
遭遇jsonp同域下变作post请求的坑 vb2005xu jsonp 同域post
今天迁移一个站点时遇到一个坑爹问题,同一个jsonp接口在跨域时都能调用成功,但是在同域下调用虽然成功,但是数据却有问题. 此处贴出我的后端代码片段 $mi_id = htmlspecialchars(trim($_GET['mi_id '])); $mi_cv = htmlspecialchars(trim($_GET['mi_cv '])); 贴出我前端代码片段: $.aj

图像质量评估综述

你可能感兴趣的:(图像质量比较,计算机视觉)