小白进阶中...

图像美学质量评价技术综述

图像美学质量评价技术综述

1. 引言

随着智能手机的快速发展与普及，图像以爆炸性的速度在网络上增长，帮助人们了解图像的质量如何已经逐渐成为研究热点。图像美学质量评价是虚拟现实技术在图像方面的新应用，是目前计算机视觉领域研究的热点问题之一。

图像美学质量评价技术是计算机通过计算图像的质量和模拟人类对美的认知与感知来自动评价图像的美感。对于手机拍摄的多张相似的照片，该技术可以帮助人们筛选出最“美”的那张照片来克服选择恐惧；对于多张不同的视频封面，该技术可以帮助视频选择最“美”的封面来提高其点击率。图像美学质量评价技术不仅可以筛选出美学质量较高的图片，还可以提高拍摄设备的质量，并且计算机可以根据自己的理解自动对图像进行美化。该技术不仅推动了设计行业、美妆行业、电影电视行业的进步，还促进了科技的发展。

越来越多的研究人员开始关注图像美学质量评价领域。图像美学质量评价根据数据集可以分为全参考、半参考和无参考的图像美学质量评价。全参考需要待评价的图像和参考图像的像素点一一对应比较，半参考只需要待评价的图像和参考图像上的部分特征做对比，而无参考不需要参考图像。对于无参考的图像进行美学质量评价是现今该课题的研究热点。目前许多学者提出的图像美学质量评价方法是首先进行图像特征提取，然后将提取到的特征训练一个分类器或回归模型，最后决策出该图像的质量；有一小部分学者提出在提取完图像特征后，对特征进行语义分析建立感知规则，最后再预测目标图像的美学质量。

2. 主体部分

2.1 国内外研究现状

图像美学质量评价技术的关键任务在于正确地提取图像中的美学特征，并作出合理的决策。根据技术的发展历程，将其分为传统的图像美学质量评价技术【1-11】和基于深度学习的图像美学质量评价技术。传统的图像美学质量评价技术获取美学特征的方法是通过手工提取或人为设计特征【19-31】，提取的特征是已知的。基于深度学习的图像美学质量评价技术获取美学特征是通过深度神经网络自动提取，提取的特征是不可解释的、未知的。早期的基于深度学习的图像美学质量评价常把任务做成一个分类或回归问题，将图像二分的分为高质量和低质量。近两年开始有学者提出以数据驱动的方法更加有效，通过微调神经网络，以较少的数据训练，也可以取得很好的成果。

2.1.1 传统的图像美学质量评价方法

传统的图像美学质量评价研究大都集中在如何提取图像的美学特征上，主要是通过人工设计特征分类器或提取器来实现的【12】。Tong等人【13】将对比度、显著性和鲜明度等全局低级特征直接相连并利用Boosting算法来训练图像美学质量分类器。其算法的复杂度非常高且最终取得成果有限。Datta等人【1】将RGB格式图像转换为HSV格式，设计了底层特征（形状、颜色、纹理、图片大小等）和高层特征（区域对比度、三分构图法等）等56种特征，从中选取了15种最有效的特征，然后训练SVM分类器预测图像美学质量二分类结果。Ke等人【2】构造了图像清晰度、曝光度、绚丽度等高层语义的特征，然后基于这些特征训练贝叶斯分类器来输出二值分类结果。在这两个工作中，虽然都取得了不错的成果，且时间复杂度远低于Tong等人【13】，但研究者在设计特征都是从整张图像出发的，并未考虑到区域图像特征与图像美学质量评价之间的关系，并且这两个工作都将图像美学质量评价问题转化为二分类问题来解决。Luo等人【3】将图像分为主体部分和背景部分，对主体部分设计了亮度对比度、颜色和谐度等高级语义特征，用贝叶斯分类器判读图像美学质量，以此证明了区域图像特征对图像美学质量评价结果影响很大。Wu等人【14】使用Gabor滤波器预估图像的中心部分，然后从图像的整体和中心区域部分提取低级HSV颜色特征，再利用SVM分类器得到描述图像模糊度的具体形容词。Bhattacharya等人【15】使用视觉权重和相对前景位置进行特征组合，模拟前景物体和背景的关系，并用得到的特征训练了一个SVR模型。Wei等人【16】从整幅图像中提取场景特征和全局色调特征，从图像主体部分提取空间复杂度、清晰对比度、明暗对比度等区域特征，然后针对每一个特征训练一个独立的SVM分类器，再分析每个特征对图像美学质量评价结果的影响，最后将多个特征融合再训练。该方法不仅有效地提高了模型的预测精度，而且证明了将图像区域特征和全局特征融合更利于图像美学质量研究。

图1 Tong等人【13】实验结果，Ps是预测结果，Mhs是人类打分的平均分数

图2 Ke等人【2】实验结果，左边的三张都是高质量图片，右边的三张都是低质量图片

图3 Luo等人【3】实验结果，在1000张图片中a是排名前五的，b是排名后5的

传统的图像美学质量评价虽然都取得了不错的成果，但是都忽略了不同内容的图像具有不同的特性，这对图像美学质量评价的结果有很大的影响。于是，研究者开始对不同内容的图像设计不同的美学特征，其中最受欢迎的是对人脸的研究。Schmid等人【17】在人脸标注了29个关键点来表示人脸的结构，并在对称性和黄金比例等数据的基础上建立了一个有效的预测模型。Lienhard等人【18】将人脸分为鼻子、眼睛、嘴巴等子区域，然后基于人类对美的认知计算各子区域的光照、饱和度、对比度等指标，最后用这些指标训练SVM分类器判断人脸美观度。

图4 Schmid等人【17】检测人脸的29个关键点

图5 Lienhard等人【18】将人脸分成四个子区域

人工设计的美学特征很难非常全面和详细。人为设计特征需要研究人员对美学有一定的认知，对摄影知识有一定的了解，最好有丰富的摄影经验，因为拍摄结果受拍摄场景、拍摄目标等多方面外在影响。并且随着数据集的不断增长，传统的方法已经不足以支撑对图像美学质量特征评价的继续研究。随着深度学习技术的快速发展，研究者在图像美学质量评价研究的任务上引入了卷积神经网络（CNN），研究人员不需要大量的美学知识和摄影经验，利用CNN可以自动提取美学特征。近几年，深度学习在图像美学质量评价方面取得了优异的成果，成为了解决图像美学质量评价问题的主流算法。

2.1.2 基于深度学习的图像美学质量评价方法

2012年，Krizhevsky等人【19】将卷积神经网络应用到了图像分类任务上，并展现了良好的性能，使得越来越多的研究者开始通过深度学习的方法解决图像处理问题。利用深度学习进行图像美学质量评价研究最直接的方法就是使用一经训练好的深度模型直接提取图像的美学特征，然后再用获取到的特征训练一个新的图像美学质量评价分类器。Li等人【20】用训练好的AlexNet模型获取图像美学特征，然后判断图像美学质量二分类结果。Gray等人【21】将图像直接输入到网络中获取人脸面部特征。Gao等人【22】首先从已经训练好的VGG16网络中提取不同层的美学特征，然后对这些特征进行融合，最后再用SVM分类器预测结果。Liu等人【23】把从ResNet模型中抽取的特征和手动设计的特征结合起来表示人脸图像，然后使用分布式标签学习方法来预测人脸美观度的分析。

随着图像美学质量评价领域的深入研究，研究人员开始将图像直接输入神经网络中，训练自己的图像美学质量评价模型。Xin等人【24】提出的PAPID模型是第一个使用美学数据训练卷积神经网络的模型，PAPID模型类似于AlexNet模型的架构，其中最后一个全连接层输出二维概率进行审美二元分类。Xin等人【25】认为之前提出的PAPID模型是从每个图像中抽取出一个局部区域作为训练样本，这并不能很好的代替整个图像，因此他们提出了DMA-Net模型，它使用从一个图像生成的多个局部区域来训练模型。Zhao等人【29】提出了一种从AlexNet架构修改的卷积神经网络。Chen等人【30】提出了一种用于美学特征表示的CNN。Shu等人【26】提出使用卷积神经网络对图像美学质量进行排序，为了训练和分析这个模型，构建了一个新的属性数据库（AADB）。Ma等人【27】提出了一种A-Lamp CNN架构来同时学习细粒度和整体布局，该网络中提出了自适应的多图像块选择策略，而不是随机的修剪，其中自适应选择图像块来保留图像的细粒度，属性图用来保留图像的整体布局，从而提高网络模型的预测性能。Talebi等人【28】提出的NIMA模型是一种深度卷积神经网络架构，能够从直接观感（技术角度）和吸引程度（美学角度）预测人类对图像评估意见的分布，NIMA模型不是简单的将图像分为高质量和低质量，或者进行回归得到平均分，而是对任意给定的图像输出分数，这种方法更直接地揭示了训练数据是如何被捕获的，更能呈现出对于人类偏好的更好预测。Su等人【31】提出在使用卷积神经网络提取完图像的局部和全局的美学特征后，再对特征进行语义分析建立感知规则，最后使用目标网络预测图像美学质量，该方法无论是在真实数据集还是在合成数据集上都表现了良好的性能和泛化能力。

图6 PAPID模型【24】网络结构

图7 DMA-Net模型【25】网络结构

图8 A-Lamp模型【27】网络结构

图9 Su等人【31】提出的网络结构

2.2 面临的问题

图像美学质量评价工作虽然现在已经取得了优异的成果，但仍然存在各种挑战：

(1)如何设计网络使输入图像尺寸不受限制。深度卷积神经网络在提取图像美学特征方面最大的局限性是其要求输入图像大小是固定的，从而图像需要在输入之前进行剪裁、缩放或填充等操作，而这些操作会破坏图像的原有结构，从而影响最后的评价结果。

(2)如何同时保留图像的全局信息和局部信息。目前的图像美学质量评价模型提取美学特征的时候，可以分别提取图像的全局特征和局部特征，然后再将多种特征融合研究或每个特征分别研究后再融合研究。

(3)如何从有限的辅助信息中学习特定类别的图像美学。例如如何确定图像的模糊性是技术问题还是故意拍摄的。

(4)如何建立更全面细节的感知规则。目前对图像美学特征进行语义分析的方法并不多，而且很少有学者加入语义分析这一步的操作。

2.3 发展趋势

随着5G技术的进步和人工智能的发展，图像美学质量评价领域也受到越来越多的关注。我认为在未来可以从以下四个方面来继续研究：

(1)图像输入网络不再受尺寸限制；

(2)构建同时保留图像的全局信息和局部细节的网络架构；

(3)对不同内容的图片选择不同的美学信息使用同一网络模型进行美学质量评价；

(4)图像美学质量评价的结果可以多形式化，如：分值加文字评价。

2.4 拟开展研究工作

通过阅读图像美学质量评价领域的文献和有关资料，本课题拟开展的研究工作为采用深度学习方法，提取图像的美学特征，然后对特征进行语义分析，最后使用目标网络对图像美学质量进行预测。

对于图像美学特征提取部分，采用的基础网络是Res-Net101。图像局部特征的大小和尺度各不相同，所以使用不同大小的模块进行特征提取，即把同一行或同一列的所有数据相加后求平均，然后将这些数据堆叠起来，在对堆叠后的数据用1x1卷积。提取多尺度内容特征时，从最后一层提取的特征代表图像整体内容，实现了同时保留图像的局部特征和全局特征。

对于建立感知规则部分，不同内容的图像，感知图像质量规则的方式也不同。引入超网络学习从图像内容到如何判断图像质量规则预测的映射。超网络可以有几个1x1的卷积层和生成权重的分支组成，对于不同类型的参数可以使用不同的权重生成方法，生成的权值指导目标网络预测图像质量。

对于美学质量评价部分，引入目标网络，该网络可由多个完全连接的层构成，输入是多尺度的内容特征向量，输出是通过感知规则生成的权值确目标网络的层传播来获得质量分数。给网络的功能是将学习到的图像特征映射到质量分数上。

2.5 总结

在近几年里，图像美学质量评价技术取得了不错的成果，这是由社会需求和科学挑战共同推进的。本文介绍了图像美学质量评价的一般流程，回顾了图像美学质量评价的研究历程，对其他学者已经提出的文献和方法作了总结和概述。传统的图像美学质量评价方法计算复杂且效率低下，评价结果也不够理想；而基于深度学习的方法对研究者美学和摄影方面的知识储备要求不高，不仅提高了计算速度，而且预测结果较好。接下来探讨了图像美学质量评价课题中仍然有待解决的一些问题和难点，对图像美学质量评价方向未来的发展趋势进行了一些分析和展望。最后，提出了本课题拟开展的研究工作。

参考文献

Datta R , Li J , Wang J Z . STUDYING AESTHETICS IN PHOTOGRAPHIC IMAGES USING A COMPUTATIONAL APPROACH:, US20130011070[P]. 2013.
Ke Y , Tang X , Jing F . The Design of High-Level Features for Photo Quality Assessment[C]// IEEE Computer Society. IEEE Computer Society, 2006:419-426.
Luo Y , Tang X . Photo and Video Quality Evaluation: Focusing on the Subject[J]. Proc. ECCV, part III, 2008, 2008.
Li C , Chen T . Aesthetic Visual Quality Assessment of Paintings[J]. IEEE Journal of Selected Topics in Signal Processing, 2009, 3(2):236-252.
Li C , Gallagher A C , Loui A C , et al. Aesthetic quality assessment of consumer photos with faces[C]// Proceedings of the International Conference on Image Processing, ICIP 2010, September 26-29, Hong Kong, China. IEEE, 2010.
Bhattacharya S , Sukthankar R , Shah M . A framework for photo-quality assessment and enhancement based on visual aesthetics[C]// Proceedings of the 18th ACM international conference on Multimedia. ACM, 2010.
Jin X , Zhao M , Chen X , et al. Learning Artistic Lighting Template from Portrait Photographs[C]// Computer Vision - ECCV 2010, 11th European Conference on Computer Vision, Heraklion, Crete, Greece, September 5-11, 2010, Proceedings, Part IV. DBLP, 2010.
Gray D , Kai Y , Wei X , et al. Predicting Facial Beauty without Landmarks[C]// European Conference on Computer Vision. Springer-Verlag, 2010.
Jiang W , Loui A C , Cerosaletti C D . Automatic aesthetic value assessment in photographic images[C]// IEEE International Conference on Multimedia & Expo. IEEE, 2010.
Dhar S , Ordonez V , Berg T L . High level describable attributes for predicting aesthetics and interestingness[C]// The 24th IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2011, Colorado Springs, CO, USA, 20-25 June 2011. IEEE, 2011.
Chen X , Xin J , Wu H , et al. Learning Templates for Artistic Portrait Lighting Analysis[J]. IEEE Transactions on Image Processing, 2014, 24(2):608-618.
武志波. 基于深度学习的图像美学质量评价方法的研究[D]. 电子科技大学.
Tong H , Li M , Zhang H J , et al. Classification of Digital Photos Taken by Photographers or Home Users[J]. Springer, Berlin, Heidelberg, 2004.
Wu Y , Bauckhage C , Thurau C . The Good, the Bad, and the Ugly: Predicting Aesthetic Image Labels[C]// International Conference on Pattern Recognition. IEEE, 2010.
Bhattacharya S , Sukthankar R , Shah M . A holistic approach to aesthetic enhancement of photographs[J]. Acm Transactions on Multimedia Computing Communications & Applications, 2011, 7S(1):1-21.
Wei L , Wang X , Tang X . Content-Based Photo Quality Assessment[C]// IEEE International Conference on Computer Vision, ICCV 2011, Barcelona, Spain, November 6-13, 2011. IEEE, 2011.
Schmid K , Marx D , Samal A . Computation of a face attractiveness index based on neoclassical canons, symmetry, and golden ratios[J]. Pattern Recognition, 2008, 41( 8):2710-2717.
Lienhard A , Ladret P , Caplier A . How to predict the global instantaneous feeling induced by a facial picture?[J]. Image Communication, 2015.
Krizhevsky A , Sutskever I , Hinton G . ImageNet Classification with Deep Convolutional Neural Networks[J]. Advances in neural information processing systems, 2012, 25(2).
Li H , Tian X , D Zhe, et al. Photo Quality Assessment with DCNN that Understands Image Well[J]. 2015 International Conference on MultiMedia Modelling (MMM 2015), 2015, InternationalConferenceonMultiMediaModelling(MMM2015).
Gray D , Kai Y , Wei X , et al. Predicting Facial Beauty without Landmarks[C]// European Conference on Computer Vision. Springer-Verlag, 2010.
Gao F , Wang Y , Li P , et al. DeepSim: Deep Similarity for Image Quality Assessment[J]. Neurocomputing, 2017, 257(sep.27):104-114.
Liu S , Li B , Fan Y , et al. Label distribution based facial attractiveness computation by deep residual learning[J]. IEEE Transactions on Multimedia, 2016, PP(99):1-1.
Xin L , Zhe L , Jin H , et al. Rating Pictorial Aesthetics Using Deep Learning[J]. IEEE Transactions on Multimedia, 2015, 17(11):1-1.
Xin L , Zhe L , Shen X , et al. Deep Multi-patch Aggregation Network for Image Style, Aesthetics, and Quality Estimation[C]// IEEE International Conference on Computer Vision. IEEE, 2016.
Shu K , Shen X , Zhe L , et al. Photo Aesthetics Ranking Network with Attributes and Content Adaptation[J]. Springer, Cham, 2016.
Ma S , Liu J , Chen C W . A-Lamp: Adaptive Layout-Aware Multi-Patch Deep Convolutional Neural Network for Photo Aesthetic Assessment[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2017.
Talebi H , Milanfar P . NIMA: Neural Image Assessment[J]. IEEE Transactions on Image Processing, 2017:1-1.
Zhao, Mingquan, Wang, et al. A multi-scene deep learning model for image aesthetic evaluation[J]. Signal Processing. Image Communication: A Publication of the the European Association for Signal Processing, 2016, 47:511-518.
Chen Y , Hu Y , Zhang L , et al. Describing Human Aesthetic Perception by Deeply-learned Attributes from Flickr[J]. 2016.
Su S , Yan Q , Zhu Y , et al. Blindly Assess Image Quality in the Wild Guided by a Self-Adaptive Hyper Network[C]// 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2020.

GraphCube、Spark和深度学习技术赋能快消行业关键运营环节 weixin_30777913 开发语言大数据深度学习人工智能 spark
在快消品（FMCG）行业，需求计划（DemandPlanning）、库存管理（InventoryManagement）和需求供应管理（DemandSupplyManagement）是影响企业整体效率和利润水平的关键运营环节。GraphCube图多维数据集技术、Spark大数据分析处理技术和深度学习技术的结合，为这些环节提供了智能化、动态化和实时化的解决方案，显著提升业务运营效率和企业利润。一、技术
Marker可以快速且准确地将PDF转换为markdown格式。星霜笔记开源关注简介免费源码 pdf
MarkerMarker可以快速且准确地将PDF转换为markdown格式。支持多种文档类型（针对书籍和科学论文进行了优化）支持所有语言移除页眉/页脚/其他杂质格式化表格和代码块提取并保存图像以及markdown将大多数方程转换为latex支持在GPU、CPU或MPS上运行工作原理Marker是一个由深度学习模型组成的管道：提取文本，必要时进行OCR处理（启发式算法，surya，tesseract
Hugging Face预训练GPT微调ChatGPT（微调入门！新手友好！） y江江江江机器学习大模型 gpt chatgpt
HuggingFace预训练GPT微调ChatGPT（微调入门！新手友好！）在实战中，⼤多数情况下都不需要从0开始训练模型，⽽是使⽤“⼤⼚”或者其他研究者开源的已经训练好的⼤模型。在各种⼤模型开源库中，最具代表性的就是HuggingFace。HuggingFace是⼀家专注于NLP领域的AI公司，开发了⼀个名为Transformers的开源库，该开源库拥有许多预训练后的深度学习模型，如BERT、G
Open-Sora - 为所有人实现高效的视频制作大众化小众AI AI开源音视频人工智能 AI编程
GitHub：https://github.com/hpcaitech/Open-Sora更多AI开源软件：发现分享好用的AI工具、AI开源软件、AI模型、AI变现-小众AI这是一款开源的SOTA（State-of-the-Art）视频生成模型，仅用20万美元（224张GPU）就能训练出商业级11B参数的视频生成大模型。它采用Python语言和PyTorch深度学习框架开发，具有生成速度快、资源消
Adam-mini：深度学习内存效率新突破 XianxinMao 人工智能深度学习人工智能
标题：Adam-mini：深度学习内存效率新突破文章信息摘要：Adam-mini优化器在深度学习领域展现出突破性潜力，尤其在内存效率和计算性能上表现卓越。相比AdamW，Adam-mini将内存效率提升了一倍，并通过减少学习率数量显著降低了内存消耗，同时保持了与AdamW相当甚至更好的性能。在训练十亿参数级别的大语言模型（LLM）时，Adam-mini实现了49.6%的吞吐量提升，并减少了33%的
Transformer与图神经网络的融合与应用 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Transformer与图神经网络的融合与应用关键词：Transformer,图神经网络,注意力机制,图结构数据,图表示学习,图分类,图生成1.背景介绍近年来，深度学习技术在各个领域取得了显著的进展。其中，Transformer模型和图神经网络（GraphNeuralNetworks,GNNs）是两个备受关注的研究方向。Transformer最初应用于自然语言处理领域，通过自注意力机制实现了并行计
深度学习的颠覆性发展：从卷积神经网络到Transformer AI天才研究院 AI大模型应用入门实战与进阶 ChatGPT 大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍深度学习是人工智能的核心技术之一，它通过模拟人类大脑中的神经网络学习从大数据中抽取知识，从而实现智能化的自动化处理。深度学习的发展历程可以分为以下几个阶段：2006年，GeoffreyHinton等人开始研究卷积神经网络（ConvolutionalNeuralNetworks，CNN），这是深度学习的第一个大突破。CNN主要应用于图像处理和语音识别等领域。2012年，AlexKrizh
高性能计算:GPU加速与分布式训练 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍随着人工智能技术的飞速发展，深度学习模型的规模和复杂度不断提升，对计算能力的需求也越来越高。传统的CPU架构已经难以满足深度学习模型训练的需求，因此，GPU加速和分布式训练成为了高性能计算领域的研究热点。1.1.深度学习与计算挑战深度学习模型通常包含数百万甚至数十亿个参数，训练过程需要进行大量的矩阵运算和梯度更新，对计算资源的需求非常高。传统的CPU架构虽然具有较强的通用性，但其并行计
使用 MistralAI 平台进行开源模型托管与调用 VYSAHF python
MistralAI是一个提供开放源码模型托管的平台，致力于帮助开发者更轻松地使用和管理开源模型。通过该平台，你可以方便地调用强大的深度学习模型，并将其集成到你的应用中。本文将带你了解如何利用MistralAI提供的服务来进行模型的托管和调用。技术背景介绍MistralAI的服务包括了如聊天模型和嵌入模型等，这些模型适用于聊天机器人、文本嵌入等各种场景。使用这些模型需要注册并获取一个有效的API密钥
AI 大模型应用数据中心的数据迁移架构 AGI大模型与大数据研究院 DeepSeek R1 &大数据AI人工智能 java python javascript kotlin golang 架构人工智能
AI大模型、数据中心、数据迁移、架构设计、迁移策略、性能优化、安全保障1.背景介绍随着人工智能（AI）技术的飞速发展，大规模AI模型的应用日益广泛，涵盖了自然语言处理、计算机视觉、语音识别等多个领域。这些AI模型通常需要海量的数据进行训练和推理，因此数据中心作为AI应用的基础设施，显得尤为重要。然而，随着AI模型规模的不断扩大，数据中心面临着新的挑战：数据规模庞大:AI模型的训练和推理需要海量数据
暗光增强技术研究进展与产品落地综合分析（2023-2025） AndrewHZ 深度学习新浪潮图像处理算法动态范围计算机视觉深度学习 transformer 暗光增强
一、引言暗光增强技术作为计算机视觉与移动影像领域的核心研究方向之一，近年来在算法创新、硬件适配及产品落地方面取得了显著进展。本文从技术研究与产业应用两个维度，系统梳理近三年（2023-2025）该领域的关键突破，并对比分析主流手机厂商的影像技术优劣势。二、暗光增强技术研究进展1.算法创新：从传统模型到深度学习（1）Retinex理论的深度结合清华与ETH联合提出的Retinexformer（202
金融风控算法透明度与可解释性优化智能计算研究中心其他
内容概要金融风控算法的透明化研究面临模型复杂性提升与监管合规要求的双重挑战。随着深度学习框架在特征提取环节的广泛应用，算法可解释性与预测精度之间的平衡成为核心议题。本文从联邦学习架构下的数据协作机制出发，结合特征工程优化与超参数调整技术，系统性分析逻辑回归、随机森林等传统算法在召回率、F1值等关键指标上的表现差异。研究同时探讨数据预处理流程对风控决策鲁棒性的影响，并提出基于注意力机制的特征权重可视
H800核心性能优化技术智能计算研究中心其他
内容概要作为新一代AI加速卡的核心创新载体，H800通过异构计算架构与动态能效管理技术的协同设计，实现了从硬件底层到应用层的系统性优化。其技术突破聚焦于张量核心重构带来的计算密度提升、混合精度运算对资源利用率的增强，以及智能散热方案在复杂负载场景下的稳定性保障。这些创新不仅显著提升了30%以上的能效比，更通过精细化任务调度机制，解决了深度学习训练中高并发数据处理与模型参数同步的效率瓶颈。值得关注的
TikTokenizer 项目常见问题解决方案齐飞锴Timothea
TikTokenizer项目常见问题解决方案tiktokenizerOnlineplaygroundforOpenAPItokenizers项目地址:https://gitcode.com/gh_mirrors/ti/tiktokenizer项目基础介绍TikTokenizer是一个开源项目，主要用于文本处理，特别是将文本转化为可用于深度学习的格式。该项目是基于TensorFlow和Keras开发
TypeScript语言的计算机视觉苏墨瀚包罗万象 golang 开发语言后端
使用TypeScript进行计算机视觉：一个现代化的探索引言随着人工智能和机器学习的快速发展，计算机视觉（ComputerVision）成为了一个极具活力的研究领域。计算机视觉旨在使计算机能够“看”和“理解”数字图像或视频中的内容。近年来，TypeScript作为一种现代化的编程语言，因其类型安全和更好的开发体验，逐渐在前端和后端开发中得到了广泛应用。本文将探讨如何使用TypeScript进行计算
DeepSeek混合专家架构赋能智能创作智能计算研究中心其他
内容概要在人工智能技术加速迭代的当下，DeepSeek混合专家架构（MixtureofExperts）通过670亿参数的动态路由机制，实现了多模态处理的范式突破。该架构将视觉语言理解、多语言语义解析与深度学习算法深度融合，构建出覆盖文本生成、代码编写、学术研究等场景的立体化能力矩阵。其核心优势体现在三个维度：精准化内容生产——通过智能选题、文献综述自动生成等功能，将学术论文写作效率提升40%以上；
人工智能之数学基础：数学对人工智能技术发展的作用每天五分钟玩转人工智能机器学习深度学习之数学基础人工智能深度学习机器学习神经网络自然语言处理数学
本文重点数学是人工智能技术发展的基础，它提供了人工智能技术所需的数学理论和算法，包括概率论、统计学、线性代数、微积分、图论等等。本文将从以下几个方面探讨数学对人工智能技术发展的作用。概率论和统计学概率论和统计学是人工智能技术中最为重要的数学分支之一。概率论和统计学的应用范围非常广泛，包括机器学习、数据挖掘、自然语言处理、计算机视觉等领域。在人工智能技术中，概率论和统计学主要用于处理不确定性的问题，
YOLO11改进-模块-引入频率谱动态聚合模块FSDA 去除噪声一勺汤 YOLOv11模型改进系列目标检测魔改模块 YOLO YOLOv11 YOLOv11改进改进
在图像去雾领域，深度学习在白天图像去雾方面成果显著，但夜间雾图研究较少。夜间雾图面临诸多挑战，其中包括雾、辉光和噪声因多个低强度有源彩色光源而具有复杂特性，以及模拟与真实数据的域差异导致的亮度问题。为解决这些，我们使用FSDA模块，处理频率不一致特性。FSDA先对频谱信息聚合，再计算通道权重并应用，最后映射回空间域，以此优化频谱信息，使模型更好处理复杂干扰。本文将其与YOLOv11相结合，增强YO
基于多头注意机制的多尺度特征融合的GCN的序列数据（功率预测、故障诊断）模型及代码详解清风AI 深度学习算法详解及代码复现人工智能神经网络深度学习 python conda pip pandas
GCN基础在深度学习领域中，图卷积网络(GCN)是一种强大的图数据处理工具。它将卷积操作扩展到图结构上，能够有效捕捉图中节点之间的关系信息。GCN的核心思想是通过聚合邻居节点的特征来更新目标节点的表示，这种局部聚合机制使得GCN能够学习到图的拓扑结构和节点属性。GCN的主要构成要素包括节点特征矩阵、邻接矩阵和卷积核。通过多次迭代，GCN可以逐步学习到图中节点的高阶表示，为后续的分类、预测等任务提供
YOLO魔改之频率分割模块（FDM）清风AI YOLO算法魔改系列 YOLO 人工智能计算机视觉目标检测 python 深度学习
目标检测原理目标检测是一种将目标分割和识别相结合的图像处理技术，旨在从图像中定位并识别特定目标。深度学习方法，如FasterR-CNN和YOLO系列，已成为主流解决方案。这些方法通常采用两阶段或单阶段策略，通过卷积神经网络(CNN)提取特征并进行分类和定位。在小目标检测中，为克服分辨率低和特征不明显的问题，模型设计中会特别注重特征融合和多尺度处理，以增强对小目标的感知能力。YOLOv8基础YOLO
PyTorch模型训练实战指南：掌握动态图特性与工业级部署技巧 lmtealily pytorch 人工智能 python
前言在深度学习领域，PyTorch凭借其动态计算图、高效的自动微分系统及高度Pythonic的设计哲学，已成为学术界与工业界的主流框架。其即时执行模式大幅简化了模型调试流程，而灵活的模块化设计则为复杂模型的构建提供了坚实基础。然而，从实验原型到工业级部署的全链路实践中，开发者仍需系统性掌握框架核心特性与工程化技巧。本文以实战为导向，深入剖析PyTorch动态图机制与自动微分原理，详解从数据预处理、
计算机视觉毕业设计选题推荐：选题技巧建议收藏 HaiLang_IT 毕业设计人工智能计算机视觉
目录前言毕设选题开题指导建议更多精选选题选题帮助最后前言大家好,这里是海浪学长毕设专题!大四是整个大学期间最忙碌的时光，一边要忙着准备考研、考公、考教资或者实习为毕业后面临的升学就业做准备,一边要为毕业设计耗费大量精力。学长给大家整理了人工智能专业最新精选选题，如遇选题困难或选题有任何疑问，都可以问学长哦(见文末)!对毕设有任何疑问都可以问学长哦!更多选题指导:最新最全计算机专业毕设选题精选推荐汇
PyTorch 深度学习实战（19）：离线强化学习与 Conservative Q-Learning (CQL) 算法进取星辰 PyTorch 深度学习实战深度学习 pytorch 算法
在上一篇文章中，我们探讨了分布式强化学习与IMPALA算法，展示了如何通过并行化训练提升强化学习的效率。本文将聚焦离线强化学习（OfflineRL）这一新兴方向，并实现ConservativeQ-Learning(CQL)算法，利用Minari提供的静态数据集训练安全的强化学习策略。一、离线强化学习与CQL原理1.离线强化学习的特点无需环境交互：直接从预收集的静态数据集学习数据效率高：复用历史经验
一切皆是映射：DQN训练加速技术：分布式训练与GPU并行 AI天才研究院计算 AI大模型企业级应用开发实战 ChatGPT 计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍1.1深度强化学习的兴起近年来，深度强化学习（DeepReinforcementLearning，DRL）在游戏、机器人控制、自然语言处理等领域取得了令人瞩目的成就。作为一种结合深度学习和强化学习的强大技术，DRL能够使智能体在与环境交互的过程中学习最优策略，从而实现自主决策和控制。1.2DQN算法及其局限性深度Q网络（DeepQ-Network，DQN）是DRL的一种经典算法，它利用
大规模语言模型从理论到实践分布式训练的集群架构 AI智能涌现深度研究 DeepSeek R1 &大数据AI人工智能 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大规模语言模型从理论到实践分布式训练的集群架构作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着深度学习技术的飞速发展，大规模语言模型（LargeLanguageModels,LLMs）在自然语言处理（NaturalLanguageProcessing,NLP）领域取得了突破性进展。LLMs，如BERT、GPT-3等，通
图生视频技术的发展与展望：从技术突破到未来图景 Liudef06 Stable Diffusion 音视频人工智能深度学习 stable diffusion
一、技术发展现状图生视频（Image-to-VideoGeneration）是生成式人工智能（AIGC）的重要分支，其核心是通过单张或多张静态图像生成动态视频序列。近年来，随着深度学习、多模态融合和计算硬件的进步，图生视频技术经历了从基础研究到商业落地的快速演进。早期探索与GAN的奠基早期图生视频技术主要基于生成对抗网络（GAN），通过对抗训练生成低分辨率的视频片段。例如，DeepMind的DVD
Python 的 ultralytics 库详解白.夜人工智能
ultralytics是一个专注于计算机视觉任务的Python库，尤其以YOLO（YouOnlyLookOnce）系列模型为核心，提供了简单易用的接口，支持目标检测、实例分割、姿态估计等任务。本文将详细介绍ultralytics库的功能、安装方法、核心模块以及使用示例。1.ultralytics库简介ultralytics库由Ultralytics团队开发，旨在为YOLO系列模型提供高效、灵活且易
Moodle + Websoft9：创新教育的强大组合，助力教学与学习开源软件
Moodle+Websoft9：构建未来课堂的技术基石一、Moodle：开源生态的深度解析•模块化设计：支持超800个官方插件，如H5P交互内容创作、BigBlueButton虚拟课堂，满足个性化教学需求。•学习分析引擎：内置LearningAnalyticsAPI，可集成Python/R语言进行深度学习，预测学生学业风险。•移动优先战略：MoodleApp支持离线学习、扫码签到，2023年新增A
书籍-《动手学深度学习（英文版）》
书籍：DiveintoDeepLearning作者：AstonZhang，ZacharyC.Lipton，MuLi，AlexanderJ.Smola出版：CambridgeUniversityPress编辑：陈萍萍的公主@一点人工一点智能下载：书籍下载-《动手学深度学习（英文版）》01书籍介绍深度学习已经彻底改变了模式识别，为计算机视觉、自然语言处理和自动语音识别等领域提供了强大的工具。应用深度学
Opencv计算机视觉编程攻略-第一节图像读取与基本处理 weixin_44242403 深度学习 opencv 计算机视觉
1.图像读取导入依赖项的h文件#include#include#include#include项目Valuecore.hpp基础数据结构和操作（图像存储、矩阵运算、文件I/O）highgui.hpp图像显示、窗口管理、用户交互（图像/视频显示、用户输入处理、结果保存）imgproc.hpp图像处理算法（图像滤波、几何变换、边缘检测、形态学操作）二读取图片Matimage;//图像矩阵std::co
ASM系列六利用TreeApi 添加和移除类成员 lijingyao8206 jvm 动态代理 ASM 字节码技术 TreeAPI
同生成的做法一样，添加和移除类成员只要去修改fields和methods中的元素即可。这里我们拿一个简单的类做例子，下面这个Task类，我们来移除isNeedRemove方法，并且添加一个int 类型的addedField属性。 package asm.core; /** * Created by yunshen.ljy on 2015/6/
Springmvc-权限设计 bee1314 spring Web jsp
万丈高楼平地起。权限管理对于管理系统而言已经是标配中的标配了吧，对于我等俗人更是不能免俗。同时就目前的项目状况而言，我们还不需要那么高大上的开源的解决方案，如Spring Security，Shiro。小伙伴一致决定我们还是从基本的功能迭代起来吧。目标： 1.实现权限的管理（CRUD） 2.实现部门管理（CRUD) 3.实现人员的管理（CRUD） 4.实现部门和权限
算法竞赛入门经典（第二版）第2章习题 CrazyMizzz c 算法
2.4.1 输出技巧 #include <stdio.h> int main() { int i, n; scanf("%d", &n); for (i = 1; i <= n; i++) printf("%d\n", i); return 0; } 习题2-2 水仙花数(daffodil
struts2中jsp自动跳转到Action 麦田的设计者 jsp webxml struts2 自动跳转
1、在struts2的开发中，经常需要用户点击网页后就直接跳转到一个Action，执行Action里面的方法，利用mvc分层思想执行相应操作在界面上得到动态数据。毕竟用户不可能在地址栏里输入一个Action（不是专业人士） 2、＜jsp:forward page="xxx.action" /＞，这个标签可以实现跳转，page的路径是相对地址,不同与jsp和j
php 操作webservice实例 IT独行者 PHP webservice
首先大家要简单了解了何谓webservice，接下来就做两个非常简单的例子，webservice还是逃不开server端与client端。我测试的环境为：apache2.2.11 php5.2.10做这个测试之前，要确认你的php配置文件中已经将soap扩展打开，即extension=php_soap.dll; OK 现在我们来体验webservice //server端 serve
Windows下使用Vagrant安装linux系统 _wy_ windows vagrant
准备工作：下载安装 VirtualBox ：https://www.virtualbox.org/ 下载安装 Vagrant ：http://www.vagrantup.com/ 下载需要使用的 box ：官方提供的范例：http://files.vagrantup.com/precise32.box 还可以在 http://www.vagrantbox.es/
更改linux的文件拥有者及用户组(chown和chgrp) 无量 c linux chgrp chown
本文（转） http://blog.163.com/yanenshun@126/blog/static/128388169201203011157308/ http://ydlmlh.iteye.com/blog/1435157 一、基本使用：使用chown命令可以修改文件或目录所属的用户：命令
linux下抓包工具矮蛋蛋 linux
原文地址： http://blog.chinaunix.net/uid-23670869-id-2610683.html tcpdump -nn -vv -X udp port 8888 上面命令是抓取udp包、端口为8888 netstat -tln 命令是用来查看linux的端口使用情况 13 . 列出所有的网络连接 lsof -i 14. 列出所有tcp 网络连接信息 l
我觉得mybatis是垃圾！：“每一个用mybatis的男纸，你伤不起” alafqq mybatis
最近看了每一个用mybatis的男纸，你伤不起原文地址：http://www.iteye.com/topic/1073938 发表一下个人看法。欢迎大神拍砖；个人一直使用的是Ibatis框架，公司对其进行过小小的改良；最近换了公司，要使用新的框架。听说mybatis不错；就对其进行了部分的研究；发现多了一个mapper层；个人感觉就是个dao；
解决java数据交换之谜百合不是茶数据交换
交换两个数字的方法有以下三种，其中第一种最常用 /* 输出最小的一个数 */ public class jiaohuan1 { public static void main(String[] args) { int a =4; int b = 3; if(a<b){ // 第一种交换方式 int tmep =
渐变显示 bijian1013 JavaScript
<style type="text/css"> #wxf { FILTER: progid:DXImageTransform.Microsoft.Gradient(GradientType=0, StartColorStr=#ffffff, EndColorStr=#97FF98); height: 25px; } </style>
探索JUnit4扩展：断言语法assertThat bijian1013 java 单元测试 assertThat
一.概述 JUnit 设计的目的就是有效地抓住编程人员写代码的意图，然后快速检查他们的代码是否与他们的意图相匹配。 JUnit 发展至今，版本不停的翻新，但是所有版本都一致致力于解决一个问题，那就是如何发现编程人员的代码意图，并且如何使得编程人员更加容易地表达他们的代码意图。JUnit 4.4 也是为了如何能够
【Gson三】Gson解析{"data":{"IM":["MSN","QQ","Gtalk"]}} bit1129 gson
如何把如下简单的JSON字符串反序列化为Java的POJO对象? {"data":{"IM":["MSN","QQ","Gtalk"]}} 下面的POJO类Model无法完成正确的解析： import com.google.gson.Gson;
【Kafka九】Kafka High Level API vs. Low Level API bit1129 kafka
1. Kafka提供了两种Consumer API High Level Consumer API Low Level Consumer API(Kafka诡异的称之为Simple Consumer API，实际上非常复杂) 在选用哪种Consumer API时，首先要弄清楚这两种API的工作原理，能做什么不能做什么，能做的话怎么做的以及用的时候，有哪些可能的问题
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-归并排序 bylijinnan java
import java.util.Arrays; public class MergeSort { public static void main(String[] args) { int[] a={20,1,3,8,5,9,4,25}; mergeSort(a,0,a.length-1); System.out.println(Arrays.to
Netty源码学习-CompositeChannelBuffer bylijinnan java netty
CompositeChannelBuffer体现了Netty的“Transparent Zero Copy” 查看API（ http://docs.jboss.org/netty/3.2/api/org/jboss/netty/buffer/package-summary.html#package_description）可以看到，所谓“Transparent Zero Copy”是通
Android中给Activity添加返回键 hotsunshine Activity
// this need android:minSdkVersion="11" getActionBar().setDisplayHomeAsUpEnabled(true); @Override public boolean onOptionsItemSelected(MenuItem item) {
静态页面传参 ctrain 静态
$(document).ready(function () { var request = { QueryString : function (val) { var uri = window.location.search; var re = new RegExp("" + val + "=([^&?]*)", &
Windows中查找某个目录下的所有文件中包含某个字符串的命令 daizj windows 查找某个目录下的所有文件包含某个字符串
findstr可以完成这个工作。 [html] view plain copy >findstr /s /i "string" *.* 上面的命令表示，当前目录以及当前目录的所有子目录下的所有文件中查找"string&qu
改善程序代码质量的一些技巧 dcj3sjt126com 编程 PHP 重构
有很多理由都能说明为什么我们应该写出清晰、可读性好的程序。最重要的一点，程序你只写一次，但以后会无数次的阅读。当你第二天回头来看你的代码时，你就要开始阅读它了。当你把代码拿给其他人看时，他必须阅读你的代码。因此，在编写时多花一点时间，你会在阅读它时节省大量的时间。让我们看一些基本的编程技巧：尽量保持方法简短尽管很多人都遵
SharedPreferences对数据的存储 dcj3sjt126com
SharedPreferences简介： &nbs
linux复习笔记之bash shell (2) bash基础 eksliang bash bash shell
转载请出自出处： http://eksliang.iteye.com/blog/2104329 1.影响显示结果的语系变量（locale） 1.1locale这个命令就是查看当前系统支持多少种语系，命令使用如下： [root@localhost shell]# locale LANG=en_US.UTF-8 LC_CTYPE="en_US.UTF-8"
Android零碎知识总结 gqdy365 android
1、CopyOnWriteArrayList add(E) 和remove(int index)都是对新的数组进行修改和新增。所以在多线程操作时不会出现java.util.ConcurrentModificationException错误。所以最后得出结论：CopyOnWriteArrayList适合使用在读操作远远大于写操作的场景里，比如缓存。发生修改时候做copy，新老版本分离，保证读的高
HoverTree.Model.ArticleSelect类的作用 hvt Web .net C#hovertree asp.net
ArticleSelect类在命名空间HoverTree.Model中可以认为是文章查询条件类，用于存放查询文章时的条件，例如HvtId就是文章的id。HvtIsShow就是文章的显示属性，当为-1是，该条件不产生作用，当为0时，查询不公开显示的文章，当为1时查询公开显示的文章。HvtIsHome则为是否在首页显示。HoverTree系统源码完全开放，开发环境为Visual Studio 2013
PHP 判断是否使用代理 PHP Proxy Detector 天梯梦 proxy
1. php 类 I found this class looking for something else actually but I remembered I needed some while ago something similar and I never found one. I'm sure it will help a lot of developers who try to
apache的math库中的回归——regression（翻译） lvdccyb Math apache
这个Math库，虽然不向weka那样专业的ML库，但是用户友好，易用。多元线性回归，协方差和相关性（皮尔逊和斯皮尔曼），分布测试（假设检验，t，卡方，G），统计。数学库中还包含，Cholesky，LU，SVD，QR，特征根分解，真不错。基本覆盖了：线代，统计，矩阵，最优化理论曲线拟合常微分方程遗传算法（GA），还有3维的运算。。。
基础数据结构和算法十三：Undirected Graphs (2) sunwinner Algorithm
Design pattern for graph processing. Since we consider a large number of graph-processing algorithms, our initial design goal is to decouple our implementations from the graph representation
云计算平台最重要的五项技术 sumapp 云计算云平台智城云
云计算平台最重要的五项技术 1、云服务器云服务器提供简单高效，处理能力可弹性伸缩的计算服务，支持国内领先的云计算技术和大规模分布存储技术，使您的系统更稳定、数据更安全、传输更快速、部署更灵活。特性机型丰富通过高性能服务器虚拟化为云服务器，提供丰富配置类型虚拟机，极大简化数据存储、数据库搭建、web服务器搭建等工作；仅需要几分钟，根据CP
《京东技术解密》有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的12月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 12月试读活动回顾： http://webmaster.iteye.com/blog/2164754 本次技术图书试读活动获奖名单及相应作品如下：一等奖（两名） Microhardest：http://microhardest.ite

图像美学质量评价技术综述

你可能感兴趣的:(计算机视觉,深度学习)