CharlesWu123

图像质量评价（IQA）综述

文章目录

背景介绍
方法介绍
- 1. CG-DIQA
- 2. A New Document Image Quality Assessment Method Based on Hast Derivation
- 3. Blind quality assessment metric and degradation classification for degraded document images
- 4. SPAQ
- 5. MetaIQA
- 6. Blindly Assess Image Quality in the Wild Guided by A Self-Adaptive Hyper Network
- 7. Assessing Image Quality Issues for Real-World Problems
- 8. TRIQ
- 方法总结
数据集总结
评价方式
- SROCC（Spearman’s rank order correlation coefficient）
- PLCC（Pearson’s linear correlation coefficient）
- MOS（mean opinion score）
参考文献
参考文章
后续更新

背景介绍

对于图像处理领域来讲，一个首要的目标是去提升处理后的图像的质量，而这个质量应该更符合人类的感知，即：如何去评判一个算法所得到的图像是好是坏？这不应该单单是靠着某个指标来决定的，而是应该依赖于人类的观感。简而言之，这个图像处理算法所得到的结果图片，只有人类看上去感觉更"好看"，我们才说 A 是一个好算法。
那接下来得问题是：不能总是靠人来帮助我们构建好的算法，因为人力资源是很昂贵的，因此我们就需要图像质量评价 (IQA)算法。
我们希望：一个好的图像质量评价 (IQA) 算法，它可以像人一样给出这个结果图是好是坏。对于一张结果图来说，人感觉它又美又好看，我们的IQA算法就应该给它高分；人感觉它又丑又难看，我们的IQA算法就应该给它低分。

目前的质量评价方法分为三类：

全参考 IQA（Full-Reference IQA）：输入两张图，一张清晰的图（即 Ground Truth），称为参考图，一张需要评价的图，称为失真图，通过对比两幅图像的信息量或特征相似度来实现质量评价，是研究比较成熟的方向。
半参考 IQA（Reduced-Reference IQA）：输入一张图，就是要评价的图，它可能是某个图像复原GAN模型生成的图片等等，称为失真图。在RR问题中给出了失真图像，没有参考图像，但是给了参考图像的部分信息。比如只有原始图像的部分信息或从参考图像中提取的部分特征，此类方法介于FR-IQA和NR-IQA之间，且任何FR-IQA和NR-IQA方法经过适当加工都可以转换成RR-IQA方法。进一步，NR-IQA类算法还可以细分成两类，一类研究特定类型的图像质量，比如估计模糊、块效应、噪声的严重程度，另一类估计非特定类型的图像质量，也就是一个通用的失真评估。一般在实际应用中无法提供参考图像，所以NR-IQA最有实用价值，也有着广泛的应用，使用起来也非常方便，同时，由于图像内容的千变万化并且无参考，也使得NR-IQA成为较难的研究对象。
无参考 IQA（No-Reference IQA）：输入有1张图，就是要评价的图，它可能是某个图像复原GAN模型生成的图片等等，我们叫它失真图。在NR问题中仅给出了失真图像。NR是最难的图像质量评价方法，是近些年的研究热点，也是IQA中最有挑战的问题。

方法介绍

1. CG-DIQA

论文题目：CG-DIQA: No-reference Document Image Quality Assessment Based on Character Gradient [3]

论文地址：https://arxiv.org/abs/1807.04047

ICPR 2018

无参考的 DIQA 方法（CG-DIQA）：把输入图像转换为灰度图像，缩放到一个固定尺寸，然后使用 MSER 方法检测候选字符块，计算候选字符的梯度的标准差，最后估计文档图像的质量分数。

优点：

由于使用的是传统图像方法，所以不需要大量的训练集
不需要参考图像

缺点：

此方法只能评价模糊图像的质量分数，对于光照、遮挡等图像的质量分数无法估计
无源码

2. A New Document Image Quality Assessment Method Based on Hast Derivation

论文题目：A New Document Image Quality Assessment Method Based on Hast Derivation [4]

论文地址：https://ieeexplore.ieee.org/document/8978126

全参考 DIQA 方法（FR-DIQA）：首先采用一阶、二阶导数。然后，通过在参考图像和扭曲图像上使用哈斯特过滤器获得的二阶哈斯特衍生图，从而创建一个相似图。最后使用平均池化来获得失真文档图像的质量分数。

优点：

传统图像，不需要大量的训练集

缺点：

无源码
需要参考图像用做参考，才能得到低质量图像的质量分数

3. Blind quality assessment metric and degradation classification for degraded document images

论文题目：Blind quality assessment metric and degradation classification for degraded document images [5]

论文地址：https://www.sciencedirect.com/science/article/abs/pii/S0923596518307501?via%3Dihub

4. SPAQ

论文题目：Perceptual Quality Assessment of Smartphone Photography [1]

论文地址：https://www.sci-hub.ren/10.1109/CVPR42600.2020.00373

代码地址：https://github.com/h4nwei/SPAQ（数据集）

主要介绍了手机照片的数据集 SPAQ ，66 个手机拍的 11125 张图片，都有标注，包括图像质量，图像属性（亮度、色度、对比度、噪声、锐度），场景类别（动物、都市风景、人、风景、内景、夜景、植物、静物、其他）

BaseLine：ResNet-50

5. MetaIQA

论文题目：MetaIQA: Deep Meta-learning for No-Reference Image Quality Assessment [6]

论文地址：https://arxiv.org/abs/2004.05508

基于元学习的非参考图像质量评价：可以在各种失真图像上表现良好

利用元学习通过多个特定失真的 NR-IQA 任务查找图像失真的通用规则。通过大量的已知失真类型的 NR-IQA 任务学习一个共享的质量先验，然后用未知的失真类型来微调。

利用大量特定失真的 NR-IQA 任务建立一个元训练集（支持集和查询集），使用从支持集到查询集的两级梯度下降方法讯息质量先验模型。
在一个目标 NR-IQA 任务上微调质量先验模型，获得质量模型

合成数据集

优点：

可以应对几乎所有失真图像
需要数据少量

缺点：

无源码，训练复杂

6. Blindly Assess Image Quality in the Wild Guided by A Self-Adaptive Hyper Network

论文题目：Blindly Assess Image Quality in the Wild Guided by A Self-Adaptive Hyper Network [7]

论文地址：https://www.sci-hub.ren/10.1109/CVPR42600.2020.00372

根据图像内容自适应预测图像质量：分为三个部分

主干网络：提取语义特征
目标网络：预测图像质量
超网络：为目标网络生成一系列自适应参数

使用主干网路提取图像语义特征后，通过超网络自适应建立感知线索，然后通过质量预测网络输出质量分数。

数据集：

合成：LIVE、TID2013、CSIQ

真实：LIVE Challenge、KonIQ-10k

优点：

根据图像内容预测图像质量，更符合文档图像
效果比前边的几个方法都好
无参考图像质量评价

缺点：

无源码

7. Assessing Image Quality Issues for Real-World Problems

论文名称：Assessing Image Quality Issues for Real-World Problems [2]

论文地址：https://arxiv.org/abs/2003.12511

数据集地址：https://vizwiz.org

介绍了一个大尺度数据集 VizWiz-QualityIssues（39181张图片），与图像质量评价相关联的两个视觉任务：图像字幕和视觉问答。

8. TRIQ

论文题目：Transformer for Image Quality Assessment [14]

论文地址：https://arxiv.org/abs/2101.01097

代码地址：https://github.com/junyongyou/triq

方法总结

传统方法只能针对某一种特定的失真类型做质量评分，不具有泛化性。

深度学习方法比传统图像方法更加泛化，更加鲁棒。经过分析，方法 TRIQ 和 Blindly Assess Image Quality in the Wild Guided by A Self-Adaptive Hyper Network 在公共数据集上的效果比较好。

数据集总结

合成数据集：TID2013[12]、KADID-10K、CSIQ[13]

真实数据集：BID[8]、CID13[9]、LIVE Challenge[10]、KonIQ-10k[11]、SPAQ[1]、VizWiz-QualityIssues[2]

评价方式

衡量图像质量评估结果的指标有很多，每种指标都有自己的特点，通常比较模型客观值与观测的主观值之间的差异和相关性。常见的 2 种评估指标是Spearman秩相关系数 (Spearman’s Rank Order Correlation Coefficient, SROCC) 和线性相关系数 (Linear Correlation Coefficient, LCC) 。LCC也叫Pearson相关系数 (PLCC) ，描述了主、客观评估之间的线性相关性，定义如下

SROCC（Spearman’s rank order correlation coefficient）

SROCC衡量算法预测的单调性
$\frac{6 \sum_{i-1}^N(v_i - p_i)^2}{N(N^2 - 1)}$
其中 $v_i$ 、 $p_i$ 分别表示 $y_i$ 、 $\hat{y}_i$ 在真实值和预测值序列中的排序位置。

这个指标我们可以这样来理解：假设现在有 $N$ 张图片，IQA 算法为它们打分，排名分别是 $1, 2, ..., N$ 。而与此同时人类也为它们来打分，排名分别是 $1, 2, ..., N$ 。

假设现在如果这个IQA算法很完美，则IQA算法的排名应该是与真人的排名一致，即有： $v_1=p_1, v_2=p_2, ..., v_N= p_N$ ，此时带入公式计算得SROCC=1。

假设现在如果这个IQA算法很差劲，则IQA算法的排名应该是与真人的排名刚好完全相反，即人类认为好的图片，IQA算法认为很差，即有： $v_1=p_N, v_2=p_{N-1}, ..., v_N= p_1$ ，此时带入公式计算得SROCC=-1。

PLCC（Pearson’s linear correlation coefficient）

$\frac{\sum_{i=1}^N(y_i - \bar{y})(\hat{y_i} - \bar{\hat{y}})}{\sqrt{\sum_{i=1}^N(y_i - \bar{y})^2} \sqrt{\sum_{i=1}^N(\hat{y}_i - \bar{\hat{y}})^2} }$

其中 $N$ 表示失真图像数， $y_i$ 、 $\hat{y_i}$ 分别是第 i 幅图像真实值和预测分数， $\bar{y}$ 、 $\bar{\hat{y}}$ 分别表示真实平均值和预测平均值。

PLCC 衡量的其实是 $y_i - \bar{y}$ 和 $\hat{y_i} - \bar{\hat{y}}$ 这两个向量之间的相似性。这两个向量越相似则 PLCC 的值越接近于 1，代表人类平均主观评分和客观IQA模型预测值之间的相关性越高，即我们的IQA模型越好。

MOS（mean opinion score）

$\sum_{x\in[1,2,3,4,5]} x \cdot p(x)$
1=bad, 2 = poor, 3 = fair, 4 = good, 5 = excellent

除此之外，还有Kendall秩相关系数（Kendall Rank Order Correlation Coefficient, KROCC），均方根误差（Root Mean Square Error, RMSE）等评估指标。KROCC的性质和SROCC一样，也衡量了算法预测的单调性。RMSE计算MOS与算法预测值之间的绝对误差，衡量算法预测的准确性。

参考文献

[1] Yuming Fang, Hanwei Zhu, Yan Zeng, Kede Ma, Zhou Wang: Perceptual Quality Assessment of Smartphone Photography. CVPR 2020: 3674-3683 论文地址代码地址百度网盘

[2] Tai-Yin Chiu, Yinan Zhao, Danna Gurari: Assessing Image Quality Issues for Real-World Problems. CVPR 2020: 3643-3653 论文地址数据集地址

[3] Hongyu Li, Fan Zhu, Junhua Qiu: CG-DIQA: No-Reference Document Image Quality Assessment Based on Character Gradient. ICPR 2018: 3622-3626 论文地址

[4] Alireza Alaei: A New Document Image Quality Assessment Method Based on Hast Derivations. ICDAR 2019: 1244-1249 论文地址

[5] Atena Shahkolaei, Azeddine Beghdadi, Mohamed Cheriet: Blind quality assessment metric and degradation classification for degraded document images. Signal Process. Image Commun. 76: 11-21 (2019) 论文地址

[6] Hancheng Zhu, Leida Li, Jinjian Wu, Weisheng Dong, Guangming Shi: MetaIQA: Deep Meta-Learning for No-Reference Image Quality Assessment. CVPR 2020: 14131-14140 论文地址

[7] Shaolin Su, Qingsen Yan, Yu Zhu, Cheng Zhang, Xin Ge, Jinqiu Sun, Yanning Zhang: Blindly Assess Image Quality in the Wild Guided by a Self-Adaptive Hyper Network. CVPR 2020: 3664-3673 论文地址

[8] A. Ciancio, C. A. Da, S. E. Da, A. Said, R. Samadani, and P. Obrador. No-reference blur assessment of digital pictures based on multifeature classififiers. IEEE Transactions on Image Processing, 20(1):64–75, Jan. 2010. 论文地址

[9] V. Toni, N. Mikko, V. Mikko, O. Pirkko, and H. Jukka. CID2013: A database for evaluating no-reference image quality assessment algorithms. IEEE Transactions on Image Processing, 24(1):390–402, Jan. 2015. 论文地址

[10] D. Ghadiyaram and A. C. Bovik. Massive online crowd sourced study of subjective and objective picture quality. IEEE Transactions on Image Processing, 25(1):372–387, Jan. 2016 论文地址数据集地址

[11] V. Hosu, H. Lin, T. Sziranyi, and D. Saupe. KonIQ-10k: An ecologically valid database for deep learning of blind image quality assessment. CoRR, abs/1910.06180, 2019. 论文地址数据集地址

[12] N. Ponomarenko, L. Jin, O. Ieremeiev, V. Lukin, K. Egiazar ian, J. Astola, B. Vozel, K. Chehdi, M. Carli, F. Battisti, and C.-C. J. Kuo. Image database TID2013: Peculiarities, results and perspectives. Signal Processing: Image Communication, 30:57–77, Jan. 2015. 论文地址数据集地址百度网盘

[13] E. C. Larson and D. M. Chandler. Most apparent distortion:Full-reference image quality assessment and the role of strategy. SPIE Journal of Electronic Imaging, 19(1):1–21, Jan.2010. 论文地址数据集地址

[14] Junyong You, Jari Korhonen:Transformer for Image Quality Assessment. CoRR abs/2101.01097 (2021) 论文地址代码地址

参考文章

搞懂 Vision Transformer 原理和代码，看这篇技术综述就够了（十一）

后续更新

图像质量评价研究综述——从失真的角度

PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
霍夫变换（Hough Transform）算法原来详解和纯C++代码实现以及OpenCV中的使用示例点云SLAM 算法图形图像处理算法 opencv 图像处理与计算机视觉算法直线提取检测目标检测霍夫变换算法
霍夫变换（HoughTransform）是一种经典的图像处理与计算机视觉算法，广泛用于检测图像中的几何形状，例如直线、圆、椭圆等。其核心思想是将图像空间中的“点”映射到参数空间中的“曲线”，从而将形状检测问题转化为参数空间中的峰值检测问题。一、霍夫变换基本思想输入：边缘图像（如经过Canny边缘检测）输出：一组满足几何模型的形状（如直线、圆）关键思想：图像空间中的一个点→参数空间中的一个曲线参数空
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
【Qualcomm】高通SNPE框架简介、下载与使用 Jackilina_Stone 人工智能 Qualcomm SNPE
目录一高通SNPE框架1SNPE简介2QNN与SNPE3Capabilities4工作流程二SNPE的安装与使用1下载2Setup3SNPE的使用概述一高通SNPE框架1SNPE简介SNPE（SnapdragonNeuralProcessingEngine），是高通公司推出的面向移动端和物联网设备的深度学习推理框架。SNPE提供了一套完整的深度学习推理框架，能够支持多种深度学习模型，包括Pytor
目标检测（object detection）加油吧zkf 目标检测目标检测人工智能计算机视觉
目标检测作为计算机视觉的核心技术，在自动驾驶、安防监控、医疗影像等领域发挥着不可替代的作用。本文将系统讲解目标检测的概念、原理、主流模型、常见数据集及应用场景，帮助读者构建对这一技术的完整认知。一、目标检测的核心概念目标检测（ObjectDetection）是指在图像或视频中自动定位并识别出所有感兴趣的目标的技术。它需要解决两个核心问题：分类（Classification）：确定图像中每个目标的类
深度学习篇---昇腾NPU&CANN 工具包 Atticus-Orion 上位机知识篇图像处理篇深度学习篇深度学习人工智能 NPU 昇腾 CANN
介绍昇腾NPU是华为推出的神经网络处理器，具有强大的AI计算能力，而CANN工具包则是面向AI场景的异构计算架构，用于发挥昇腾NPU的性能优势。以下是详细介绍：昇腾NPU架构设计：采用达芬奇架构，是一个片上系统，主要由特制的计算单元、大容量的存储单元和相应的控制单元组成。集成了多个CPU核心，包括控制CPU和AICPU，前者用于控制处理器整体运行，后者承担非矩阵类复杂计算。此外，还拥有AICore
深度学习图像分类数据集—桃子识别分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：桃子识别分类：['B1','M2','R0','S3']训练数据集总共有6637张图片，每个文件夹单独放一种数据各子文件夹图片统计:·B1:1601张图片·M2:1800张图片·R0:1601张图片·S3:
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
NumPy-@运算符详解 GG不是gg numpy numpy
NumPy-@运算符详解一、@运算符的起源与设计目标1.从数学到代码：符号的统一2.设计目标二、@运算符的核心语法与运算规则1.基础用法：二维矩阵乘法2.一维向量的矩阵语义3.高维数组：批次矩阵运算4.广播机制：灵活的形状匹配三、@运算符与其他乘法方式的核心区别1.对比`np.dot()`2.对比元素级乘法`*`3.对比`np.matrix`的`*`运算符四、典型应用场景：从基础到高阶1.深度学习
NLP_知识图谱_大模型——个人学习记录 macken9999 自然语言处理知识图谱大模型自然语言处理知识图谱学习
1.自然语言处理、知识图谱、对话系统三大技术研究与应用https://github.com/lihanghang/NLP-Knowledge-Graph深度学习-自然语言处理(NLP)-知识图谱：知识图谱构建流程【本体构建、知识抽取（实体抽取、关系抽取、属性抽取）、知识表示、知识融合、知识存储】-元気森林-博客园https://www.cnblogs.com/-402/p/16529422.htm
解决 Python 包安装失败问题：以 accelerate 为例
在使用Python开发项目时，我们经常会遇到依赖包安装失败的问题。今天，我们就以accelerate包为例，详细探讨一下可能的原因以及解决方法。通过这篇文章，你将了解到Python包安装失败的常见原因、如何切换镜像源、如何手动安装包，以及一些实用的注意事项。一、问题背景在开发一个深度学习项目时，我需要安装accelerate包来优化模型的训练过程。然而，当我运行以下命令时：bash复制pipins
从RNN循环神经网络到Transformer注意力机制：解析神经网络架构的华丽蜕变熊猫钓鱼>_> 神经网络 rnn transformer
1.引言在自然语言处理和序列建模领域，神经网络架构经历了显著的演变。从早期的循环神经网络（RNN）到现代的Transformer架构，这一演变代表了深度学习方法在处理序列数据方面的重大进步。本文将深入比较这两种架构，分析它们的工作原理、优缺点，并通过实验结果展示它们在实际应用中的性能差异。2.循环神经网络（RNN）2.1基本原理循环神经网络是专门为处理序列数据而设计的神经网络架构。RNN的核心思想
如何使用Python实现交通工具识别
如何使用Python实现交通工具识别文章目录技术架构功能流程识别逻辑用户界面增强特性依赖项主要类别内容展示该系统是一个基于深度学习的交通工具识别工具，具备以下核心功能与特点：技术架构使用预训练的ResNet50卷积神经网络模型（来自ImageNet数据集）集成图像增强预处理技术（随机裁剪、旋转、翻转等）采用多数投票机制提升预测稳定性基于置信度评分的结果筛选策略功能流程用户通过GUI界面选择待识别图
OpenCV图片操作100例：从入门到精通指南（1）总有刁民想爱朕ha opencv 计算机视觉人工智能
OpenCV图片操作100例：从入门到精通指南本文整理了100个OpenCV实用技巧，涵盖图像处理各个领域，助你轻松掌握计算机视觉核心技能！一、入门必备：基础操作1.图像读写与显示importcv2#读取图像（BGR格式）img=cv2.imread('image.jpg')#显示图像cv2.imshow('示例图片',img)cv2.waitKey(0)#按任意键退出cv2.destroyAll
OpenCV图片操作100例：从入门到精通指南（3）总有刁民想爱朕ha opencv 人工智能计算机视觉
高效学习路径：1️⃣分阶段学习：入门：1-20例（基础操作）进阶：21-50例（图像处理）高级：51-100例（计算机视觉）2️⃣项目驱动学习：证件照背景替换（1-15例）停车场车位检测（30-45例）视频运动追踪（70-85例）3️⃣性能优化技巧：#使用UMat加速图像处理umat_img=cv2.UMat(img)processed=cv2.GaussianBlur(umat_img,(5,5
Python OpenCV教程从入门到精通的全面指南【文末送书】一键难忘 python opencv 开发语言
文章目录PythonOpenCV从入门到精通1.安装OpenCV2.基本操作2.1读取和显示图像2.2图像基本操作3.图像处理3.1图像转换3.2图像阈值处理3.3图像平滑4.边缘检测和轮廓4.1Canny边缘检测4.2轮廓检测5.高级操作5.1特征检测5.2目标跟踪5.3深度学习与OpenCVPythonOpenCV从入门到精通【文末送书】PythonOpenCV从入门到精通OpenCV(Ope
OpenCV入门到精通：AI视觉处理的完整指南 AI云原生与云计算技术学院人工智能 opencv 计算机视觉 ai
OpenCV入门到精通：AI视觉处理的完整指南关键词：OpenCV、计算机视觉、图像预处理、目标检测、AI视觉应用摘要：本文是一份面向AI视觉爱好者的OpenCV完整学习指南。从OpenCV的核心概念讲起，结合生活案例、代码示例和项目实战，逐步拆解图像读取/显示、灰度化、边缘检测、目标检测等关键技术。无论你是想入门计算机视觉的新手，还是希望用OpenCV解决实际问题的开发者，都能通过本文掌握从理论
CNN 猫狗识别：从理论到实战的深度解析爱熬夜的小古 cnn 深度学习人工智能
在计算机视觉领域，卷积神经网络（ConvolutionalNeuralNetwork，CNN）凭借其强大的特征提取和模式识别能力，成为图像分类任务的主流技术。猫狗识别作为经典的图像分类问题，不仅能帮助我们理解CNN的工作原理，还能为实际应用提供技术支持。本文将深入探讨CNN在猫狗识别中的应用，从理论基础到实战代码，带你全面掌握这项技术。一、CNN基础理论概述（一）CNN的核心组件卷积层：是CNN的
OpenCV入门到精通：从基础到实战的全面指南
摘要：本文旨在为初学者和有一定经验的开发者提供OpenCV从入门到精通的全面指南。文章首先介绍了OpenCV的基本概念和安装方法，然后深入讲解了图像处理基础、特征检测与匹配、视频处理与分析等核心内容，最后通过实战案例展示了OpenCV在计算机视觉任务中的应用。关键词：OpenCV；图像处理；特征检测；视频分析；实战案例引言OpenCV（OpenSourceComputerVisionLibrary
第八周 tensorflow实现猫狗识别降花绘 365天深度学习 tensorflow系列 tensorflow 深度学习人工智能
本文为365天深度学习训练营内部限免文章（版权归K同学啊所有）**参考文章地址：[TensorFlow入门实战｜365天深度学习训练营-第8周：猫狗识别（训练营内部成员可读）]**作者：K同学啊文章目录一、本周学习内容:1、自己搭建VGG16网络2、了解model.train_on_batch（）3、了解tqdm，并使用tqdm实现可视化进度条二、前言三、电脑环境四、前期准备1、导入相关依赖项2、
深度学习实战-使用TensorFlow与Keras构建智能模型程序员Gloria Python超入门 TensorFlow python
深度学习实战-使用TensorFlow与Keras构建智能模型深度学习已经成为现代人工智能的重要组成部分，而Python则是实现深度学习的主要编程语言之一。本文将探讨如何使用TensorFlow和Keras构建深度学习模型，包括必要的代码实例和详细的解析。1.深度学习简介深度学习是机器学习的一个分支，使用多层神经网络来学习和表示数据中的复杂模式。其广泛应用于图像识别、自然语言处理、推荐系统等领域。
AI在垂直领域的深度应用：医疗、金融与自动驾驶的革新之路
AI在垂直领域的深度应用：医疗、金融与自动驾驶的革新之路一、医疗领域：AI驱动的精准诊疗与效率提升1.医学影像诊断AI算法通过深度学习技术，已实现对X光、CT、MRI等影像的快速分析，辅助医生检测癌症、骨折等疾病。例如，GoogleDeepMind的AI系统在乳腺癌筛查中，误检率比人类专家低9.4%；中国的推想医疗AI系统可在20秒内完成肺部CT扫描分析，为急诊救治争取黄金时间。2.药物研发传统药
专题：2025云计算与AI技术研究趋势报告|附200+份报告PDF、原数据表汇总下载
原文链接：https://tecdat.cn/?p=42935关键词：2025,云计算，AI技术，市场趋势，深度学习，公有云，研究报告云计算和AI技术正以肉眼可见的速度重塑商业世界。过去十年，全球云服务收入激增8倍，中国云计算市场规模突破6000亿元，而深度学习算法的应用量更是暴涨400倍。这些数字背后，是企业从“自建机房”到“云原生开发”的转型，是AI从“实验室”走向“产业级应用”的跨越。本报告
【深度学习解惑】在实践中如何发现和修正RNN训练过程中的数值不稳定？云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习 rnn 人工智能 tensorflow pytorch 神经网络机器学习
在实践中发现和修正RNN训练过程中的数值不稳定目录引言与背景介绍原理解释代码说明与实现应用场景与案例分析实验设计与结果分析性能分析与技术对比常见问题与解决方案创新性与差异性说明局限性与挑战未来建议和进一步研究扩展阅读与资源推荐图示与交互性内容语言风格与通俗化表达互动交流1.引言与背景介绍循环神经网络(RNN)在处理序列数据时表现出色，但训练过程中常面临梯度消失和梯度爆炸问题，导致数值不稳定。当网络
【深度学习实战】当前三个最佳图像分类模型的代码详解云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习人工智能分类模型机器学习 Transformer EfficientNet ConvNeXt
下面给出三个在当前图像分类任务中精度表现突出的模型示例，分别基于SwinTransformer、EfficientNet与ConvNeXt。每个模型均包含：训练代码（使用PyTorch）从预训练权重开始微调（也可注释掉预训练选项，从头训练）数据集目录结构：└──dataset_root├──buy#第一类图像└──nobuy#第二类图像随机拆分：80%训练，20%验证每个Epoch输出一次loss
第35周—————糖尿病预测模型优化探索
目录目录前言1.检查GPU2.查看数据编辑3.划分数据集4.创建模型与编译训练5.编译及训练模型6.结果可视化7.总结前言本文为365天深度学习训练营中的学习记录博客原作者：K同学啊1.检查GPUimporttorch.nnasnnimporttorch.nn.functionalasFimporttorchvision,torch#设置硬件设备，如果有GPU则使用，没有则使用cpudevice=
深度学习预备知识 AmazingMQ 深度学习人工智能
1.Tensor张量定义：张量（tensor）表示一个由数值组成的数组，这个数组可能有多个维度（轴）。具有一个轴的张量对应数学上的向量，具有两个轴的张量对应数学上的矩阵，具有两个以上轴的张量目前没有特定的数学名称。importtorch#arange创建一个行向量x，这个行向量包含以0开始的前12个整数。x=torch.arange(12)print("x=",x)#x=tensor([0,1,2
根茎式装配体（RA）作为下一代协同智能范式的理论、架构与应用由数入道人工智能思维框架软件工程智能体
一、引言——范式危机与新大陆的召唤1.1表征主义的黄昏：当前AI协同范式的认知天花板自艾伦·图灵在《计算机器与智能》中播下思想的种子以来，人工智能的漫长征途始终被一个强大而内隐的哲学范式所笼罩——我们称之为“表征主义”（Representationism）。这一范式，无论其外在形态如何演变，从早期的符号逻辑、专家系统，到如今风靡全球的深度学习神经网络，其核心信念从未动摇：智能的核心，在于构建一个关
Manus AI与多语言手写识别
ManusAI与多语言手写识别背景与概述手写识别技术的发展现状与挑战ManusAI的核心技术与应用场景多语言手写识别的市场需求与难点ManusAI的技术架构深度学习在手写识别中的应用多语言支持的模型设计数据预处理与特征提取方法多语言手写识别的关键挑战不同语言字符的多样性处理上下文语义与书写风格适应性低资源语言的训练数据获取解决方案与优化策略迁移学习在多语言任务中的应用端到端模型的优化与轻量化用户反
基于LIDC-IDRI肺结节肺癌数据集的人工智能深度学习分类良性和恶性肺癌（Python 全代码）全流程解析（二）
基于LIDC-IDRI肺结节肺癌数据集的人工智能深度学习分类良性和恶性肺癌（Python全代码）全流程解析（二）1环境配置和数据集预处理1.1环境配置1.1数据集预处理2深度学习模型训练和评估2.1深度学习模型训练2.1深度学习模型评估笑话一则开心一下喽完整代码如下：模型文件如下深度学习模型讲解---待续第一部分内容的传送门第三部分传送门1环境配置和数据集预处理1.1环境配置环境配置建议使用ana
eclipse maven IXHONG eclipse
eclipse中使用maven插件的时候，运行run as maven build的时候报错 -Dmaven.multiModuleProjectDirectory system propery is not set. Check $M2_HOME environment variable and mvn script match. 可以设一个环境变量M2_HOME指
timer cancel方法的一个小实例 alleni123 多线程 timer
package com.lj.timer; import java.util.Date; import java.util.Timer; import java.util.TimerTask; public class MyTimer extends TimerTask { private int a; private Timer timer; pub
MySQL数据库在Linux下的安装 ducklsl mysql
1.建好一个专门放置MySQL的目录 /mysql/db数据库目录 /mysql/data数据库数据文件目录 2.配置用户，添加专门的MySQL管理用户 >groupadd mysql ----添加用户组 >useradd -g mysql mysql ----在mysql用户组中添加一个mysql用户 3.配置，生成并安装MySQL >cmake -D
spring------>>cvc-elt.1: Cannot find the declaration of element Array_06 spring bean
将-------- <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3
maven发布第三方jar的一些问题 cugfy maven
maven中发布第三方jar到nexus仓库使用的是 deploy:deploy-file命令有许多参数，具体可查看 http://maven.apache.org/plugins/maven-deploy-plugin/deploy-file-mojo.html 以下是一个例子： mvn deploy:deploy-file -DgroupId=xpp3
MYSQL下载及安装 357029540 mysql
好久没有去安装过MYSQL，今天自己在安装完MYSQL过后用navicat for mysql去厕测试链接的时候出现了10061的问题，因为的的MYSQL是最新版本为5.6.24，所以下载的文件夹里没有my.ini文件，所以在网上找了很多方法还是没有找到怎么解决问题，最后看到了一篇百度经验里有这个的介绍，按照其步骤也完成了安装，在这里给大家分享下这个链接的地址
ios TableView cell的布局张亚雄 tableview
cell.imageView.image = [UIImage imageNamed:[imageArray objectAtIndex:[indexPath row]]]; CGSize itemSize = CGSizeMake(60, 50); &nbs
Java编码转义 adminjun java 编码转义
import java.io.UnsupportedEncodingException; /** * 转换字符串的编码 */ public class ChangeCharset { /** 7位ASCII字符，也叫作ISO646-US、Unicode字符集的基本拉丁块 */ public static final Strin
Tomcat 配置和spring aijuans spring
简介 Tomcat启动时，先找系统变量CATALINA_BASE，如果没有，则找CATALINA_HOME。然后找这个变量所指的目录下的conf文件夹，从中读取配置文件。最重要的配置文件：server.xml 。要配置tomcat，基本上了解server.xml，context.xml和web.xml。 Server.xml -- tomcat主
Java打印当前目录下的所有子目录和文件 ayaoxinchao 递归 File
其实这个没啥技术含量，大湿们不要操笑哦，只是做一个简单的记录，简单用了一下递归算法。 import java.io.File; /** * @author Perlin * @date 2014-6-30 */ public class PrintDirectory { public static void printDirectory(File f
linux安装mysql出现libs报冲突解决 BigBird2012 linux
linux安装mysql出现libs报冲突解决安装mysql出现 file /usr/share/mysql/ukrainian/errmsg.sys from install of MySQL-server-5.5.33-1.linux2.6.i386 conflicts with file from package mysql-libs-5.1.61-4.el6.i686
jedis连接池使用实例 bijian1013 redis jedis连接池 jedis
实例代码： package com.bijian.study; import java.util.ArrayList; import java.util.List; import redis.clients.jedis.Jedis; import redis.clients.jedis.JedisPool; import redis.clients.jedis.JedisPoo
关于朋友 bingyingao 朋友兴趣爱好维持
成为朋友的必要条件：志相同，道不合，可以成为朋友。譬如马云、周星驰一个是商人，一个是影星，可谓道不同，但都很有梦想，都要在各自领域里做到最好，当他们遇到一起，互相欣赏，可以畅谈两个小时。志不同，道相合，也可以成为朋友。譬如有时候看到两个一个成绩很好每次考试争做第一，一个成绩很差的同学是好朋友。他们志向不相同，但他
【Spark七十九】Spark RDD API一 bit1129 spark
aggregate package spark.examples.rddapi import org.apache.spark.{SparkConf, SparkContext} //测试RDD的aggregate方法 object AggregateTest { def main(args: Array[String]) { val conf = new Spar
ktap 0.1 released bookjovi kernel tracing
Dear, I'm pleased to announce that ktap release v0.1, this is the first official release of ktap project, it is expected that this release is not fully functional or very stable and we welcome bu
能保存Properties文件注释的Properties工具类 BrokenDreams properties
今天遇到一个小需求：由于java.util.Properties读取属性文件时会忽略注释，当写回去的时候，注释都没了。恰好一个项目中的配置文件会在部署后被某个Java程序修改一下，但修改了之后注释全没了，可能会给以后的参数调整带来困难。所以要解决这个问题。 &nb
读《研磨设计模式》-代码笔记-外观模式-Facade bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* * 百度百科的定义： * Facade（外观）模式为子系统中的各类（或结构与方法）提供一个简明一致的界面， * 隐藏子系统的复杂性，使子系统更加容易使用。他是为子系统中的一组接口所提供的一个一致的界面 * * 可简单地
After Effects教程收集 cherishLC After Effects
1、中文入门 http://study.163.com/course/courseMain.htm?courseId=730009 2、videocopilot英文入门教程（中文字幕） http://www.youku.com/playlist_show/id_17893193.html 英文原址： http://www.videocopilot.net/basic/ 素
Linux Apache 安装过程 crabdave apache
Linux Apache 安装过程下载新版本： apr-1.4.2.tar.gz（下载网站：http://apr.apache.org/download.cgi） apr-util-1.3.9.tar.gz（下载网站：http://apr.apache.org/download.cgi） httpd-2.2.15.tar.gz（下载网站：http://httpd.apac
Shell学习之变量赋值和引用 daizj shell 变量引用赋值
本文转自：http://www.cnblogs.com/papam/articles/1548679.html Shell编程中，使用变量无需事先声明，同时变量名的命名须遵循如下规则：首个字符必须为字母（a-z，A-Z）中间不能有空格，可以使用下划线（_）不能使用标点符号不能使用bash里的关键字（可用help命令查看保留关键字）需要给变量赋值时，可以这么写：
Java SE 第一讲（Java SE入门、JDK的下载与安装、第一个Java程序、Java程序的编译与执行） dcj3sjt126com java jdk
Java SE 第一讲： Java SE：Java Standard Edition Java ME: Java Mobile Edition Java EE：Java Enterprise Edition Java是由Sun公司推出的（今年初被Oracle公司收购）。收购价格：74亿美金 J2SE、J2ME、J2EE JDK：Java Development
YII给用户登录加上验证码 dcj3sjt126com yii
1、在SiteController中添加如下代码： /** * Declares class-based actions. */ public function actions() { return array( // captcha action renders the CAPTCHA image displ
Lucene使用说明 dyy_gusi Lucene search 分词器
Lucene使用说明 1、lucene简介 1.1、什么是lucene Lucene是一个全文搜索框架，而不是应用产品。因此它并不像baidu或者googleDesktop那种拿来就能用，它只是提供了一种工具让你能实现这些产品和功能。 1.2、lucene能做什么要回答这个问题，先要了解lucene的本质。实际
学习编程并不难,做到以下几点即可! gcq511120594 数据结构编程算法
不论你是想自己设计游戏，还是开发iPhone或安卓手机上的应用，还是仅仅为了娱乐，学习编程语言都是一条必经之路。编程语言种类繁多，用途各异，然而一旦掌握其中之一，其他的也就迎刃而解。作为初学者，你可能要先从Java或HTML开始学，一旦掌握了一门编程语言，你就发挥无穷的想象，开发各种神奇的软件啦。 1、确定目标学习编程语言既充满乐趣，又充满挑战。有些花费多年时间学习一门编程语言的大学生到
Java面试十问之三：Java与C++内存回收机制的差别 HNUlanwei java C++finalize()堆栈内存回收
大家知道， Java 除了那 8 种基本类型以外，其他都是对象类型（又称为引用类型）的数据。 JVM 会把程序创建的对象存放在堆空间中，那什么又是堆空间呢？其实，堆（ Heap）是一个运行时的数据存储区，从它可以分配大小各异的空间。一般，运行时的数据存储区有堆（ Heap）和堆栈（ Stack），所以要先看它们里面可以分配哪些类型的对象实体，然后才知道如何均衡使用这两种存储区。一般来说，栈中存放的
第二章 Nginx+Lua开发入门 jinnianshilongnian nginx lua
Nginx入门本文目的是学习Nginx+Lua开发，对于Nginx基本知识可以参考如下文章： nginx启动、关闭、重启 http://www.cnblogs.com/derekchen/archive/2011/02/17/1957209.html agentzh 的 Nginx 教程 http://openresty.org/download/agentzh-nginx-tutor
MongoDB windows安装基本命令 liyonghui160com
windows安装安装目录： D:\MongoDB\ 新建目录 D:\MongoDB\data\db 4.启动进城： cd D:\MongoDB\bin mongod -dbpath D:\MongoDB\data\db &n
Linux下通过源码编译安装程序 pda158 linux
一、程序的组成部分　　Linux下程序大都是由以下几部分组成：　　二进制文件：也就是可以运行的程序文件　　库文件：就是通常我们见到的lib目录下的文件　　配置文件：这个不必多说，都知道　　帮助文档：通常是我们在linux下用man命令查看的命令的文档　　二、linux下程序的存放目录　　linux程序的存放目录大致有三个地方：　　/etc, /b
WEB开发编程的职业生涯４个阶段 shw3588 编程 Web 工作生活
觉得自己什么都会 2007年从学校毕业，凭借自己原创的ASP毕业设计，以为自己很厉害似的，信心满满去东莞找工作，找面试成功率确实很高，只是工资不高，但依旧无法磨灭那过分的自信，那时候什么考勤系统、什么OA系统、什么ERP，什么都觉得有信心，这样的生涯大概持续了约一年。根本不是自己想的那样 2008年开始接触很多工作相关的东西，发现太多东西自己根本不会，都需要去学，不管是asp还是js，
遭遇jsonp同域下变作post请求的坑 vb2005xu jsonp 同域post
今天迁移一个站点时遇到一个坑爹问题,同一个jsonp接口在跨域时都能调用成功,但是在同域下调用虽然成功,但是数据却有问题. 此处贴出我的后端代码片段 $mi_id = htmlspecialchars(trim($_GET['mi_id '])); $mi_cv = htmlspecialchars(trim($_GET['mi_cv '])); 贴出我前端代码片段: $.aj