C_小米同学

压缩视频增强调研

从一个比赛说起

NTIRE 2021 视频质量增强竞赛（Challenge on Quality Enhancement of Compressed Video）由瑞士苏黎世联邦理工学院（ETH Zurich）博士研究生 Ren Yang（本人）及导师 Dr. Radu Timofte 主办，为 NTIRE Workshop（CVPR 2021）的竞赛之一。这次比赛为CVPR贡献了很多优秀的论文，认真分析总结这次比赛优秀的视频增强网络是特别有必要的。

NTIRE 2021压缩视频质量增强挑战:赛有几个比赛的赛道，关于增强压缩视频的NTIRE 2021挑战赛的目标是：（一）提高视频质量增强的技术水平；（二）比较不同的解决办法；（三）推广新提议的LDV数据集；以及（四）研究更具挑战性的视频压缩设置上的质量增强。该比赛是整个2021年的相关挑战之一：非均匀去雾、使用双像素的散焦去模糊、深度引导图像重新照明、图像去模糊、多模态鸟瞰图像分类、学习超分辨率空间、压缩视频的质量增强（本报告）、视频超分辨率、感知图像质量评估、突发超分辨率。和高动态范围成像。

以前的视频增强的方法（2020年之前）

随着高质量，高分辨率视频的需求增加，为了在有限的带宽上传输更多数量的高分辨率视频，必须采用视频压缩来降低比特率。压缩视频不可避免的会带来伪影，并可能导致视频质量的退化，这是视频增强的必要性。在过去的几年,已经有大量的工作在这个方向,其中单帧质量增强方法是最先提出的,后来又有人提出多帧质量增强。此外，有的网络专注于提高压缩视频的感知质量，有网络专注于提高峰值信噪比(Peak Signal-to-Noise Ratio, PSNR)的性能，以实现对未压缩视频的更高保真度。这些工作表明了这一研究领域的广阔前景。

IPB帧

视频压缩中，每帧都代表着一幅静止的图像。而在进行实际压缩时，会采取各种算法以减少数据的容量，其中IPB帧就是最常见的一种。

I帧：帧内编码帧（intra picture）,I帧通常是每个GOP（MPEG所使用的一种视频压缩技术）的第一帧，经过适度地压缩，作为随机访问的参考点可以当成静态图像。I帧可以看做一个图像经过压缩后觉得产物，I帧压缩可以得6：1的压缩比而不会产生任何可觉察的模糊现象。I帧压缩可去掉视频的空间冗余信息，下面即将介绍P帧和B帧是为了去掉时间冗余信息。

P帧：前向预测编码在帧(predictive-frame),通过将图像序列中前面已编码帧的时间冗余信息去充分去除压缩传输数据量的编码图像，也成为预测帧。

B帧：双向预测内插编码帧（bi-directionalinterpolated prediction frame）,既考虑源图像序列前面的已编码帧，又估计源图像序列后面的已编码帧之间的时间冗余信息，来压缩传输数据量的编码图像，也成为双向预测帧。

基于上面的定义，我们可以从解码的角度来理解IBP帧。

I帧自身可以通过视频解压算法解压成一行单独的完善的完整视频画面，所以I帧去掉视频帧在空间维度上的冗余信息。

P帧需要参考其前面一个I帧或者P帧来解码成一张完整的视频画面。

B帧则需要参考前一个I帧或者P帧及其后面一个P帧来生成后面一张完整的视频画面，所以P帧与B帧去掉是视频在时间维度上的冗余信息。

单帧视频增强

1.DSCNN网络

Ren Yang, Mai Xu, and Zulin Wang. Decoder-side HEVC quality enhancement with scalable convolutional neural network.In Proceedings of the IEEE International Conferenceon Multimedia and Expo (ICME), pages 817–822. IEEE,2017. 1, 2

DSCNN网络是在ARCNN网络的基础上提出的，经典的ARCNN网络有四层网络结构：提取特征、去噪、非线性映射（1x1的卷积，类似于全连接层）、重构。DSCNN中设计了一个具有两个子网络的可伸缩结构，这样，解码后的HEVC视频的质量增强可以根据不同的计算资源进行调整。DS-CNN包括DS-CNN-I和DS-CNN-B两个子网络，分别用于增强I帧和B/P帧的质量。实验结果表明了DS-CNN方法在提高HEVC的I /P帧和B/P帧质量方面的有效性。（I帧保留了最全的信息，I帧可以指导B/P帧的增强）。

2.QECNN网络

Ren Yang, Mai Xu, Tie Liu, Zulin Wang, and Zhenyu Guan.Enhancing quality for HEVC compressed videos. IEEETransactions on Circuits and Systems for Video Technology,2018. 1

我们可以看见，上面两个网络是同一个团队的，大同小异，QECNN也是在ARCNN网络上做出的改进，QE-CNN方法学习了QE-CNN-I和QE-CNN-P模型，分别降低了HEVC I和P/B帧的失真。该方法不同于现有的基于cnn的质量增强方法（以前只增强I帧，没有增强预测帧B/P帧），后者仅处理编码内失真，因此不适用于P/B帧。该方法能够有效提高HEVC视频的I帧和P/B帧的质量。唯一与DSCNN很大不同的是，为了将QE-CNN方法应用于时间约束的场景，该团队进一步提出了一种时间约束的质量增强优化(TQEO)方案。TQEO方案控制了QE-CNN的计算时间以满足一个目标，同时最大限度地提高了质量。实验结果表明，在不同的时间约束条件下，从时间控制精度和质量提高两个方面验证了TQEO方案的有效性。

3.DCAD网络

Tingting Wang, Mingjin Chen, and Hongyang Chao. Anovel deep learning-based method of improving coding efficiency from the decoder-end for HEVC. In Proceedings of the Data Compression Conference (DCC), pages 410–419.IEEE, 2017. 1, 2

DCAD是一种全端到端前馈网络，他同样是基于ARCNN网络改进得到，运行速度比基于压缩感知的方法快得多，编码效率也更高。对于一些后续计算机视觉任务的需求，DCAD还可以作为一个扩展选项来生成更高质量的输入视频。实验结果表明，该方法不仅可以提高I帧的编码效率，而且可以提高B帧和P帧的编码效率。

4.存在问题

单帧视频增强的网络相对简单，训练较快，但是预测效果较差，不能充分利用视频帧与帧之间的时序信息。现在主流的网络都是多帧视频增强。

多帧视频增强

1.MFQE1.0

在谈到多帧视频增强前，我们先来看一下，一个视频帧序列的PSNR。

视频帧PSNR变化

通过上图，我们可以看见，一个视频帧序列的PSNR有一定的周期性变化，有的帧的PSNR高，有的又特别低，我们把高PSNR的帧称为高质量帧（PQF），低PSNR的帧称为低质量帧（非PQF）。MFQE网络的核心思想就是：通过两个PQF来增强一个非PQF帧。

那么，如何检测一个帧序列的PQF？端口向量机(SVM)作为一种检测PQF的无参考方法。然后，提出了一种新型的多帧CNN (MF-CNN)结构，该结构将当前帧和相邻的PQF作为输入。MF-CNN包括两个组成部分，即运动补偿子网(MC子网)和质量增强子网(QE子网)。

MC子网是用来补偿当前非PQF与其相邻PQF之间的运动的。该子网采用时空结构，用于提取和合并当前非PQF和补偿PQF的特征。最后，利用相邻PQF中的高质量内容，qsubnet可以提高当前非PQF的质量。

如上图所示，当前的非PQF(第96帧)和最近的PQF (第93帧和第97帧)被输入到我们MFQE方法的MF-CNN中。

因此，非PQF (第96帧)的低质量内容(篮球)可以在相同的内容上得到增强，但在相邻的PQF(第93帧和第97帧)中具有高质量。

此外，上图显示我们的MFQE方法也减轻了质量波动，因为非PQF的质量有了相当大的改善。

Ren Yang, Xiaoyan Sun, Mai Xu and Wenjun Zeng, "Quality-Gated Convolutional LSTM for Enhancing Compressed Video", in IEEE International Conference on Multimedia and Expo (ICME), 2019.

本文的主要贡献是:

(1)分析了各种视频编码标准压缩后的视频序列的帧级质量波动。

(2)我们提出了一种新的基于CNN的MFQE方法，该方法利用相邻的PQF来减少非PQF的压缩伪影。

2.STDF网络

给定一个2R + 1帧级联的压缩视频剪辑，首先采用偏移量预测网络生成可变形偏移量场。利用该偏移场（运动估计），进行时空变形卷积（运动、补偿），融合时间信息，生成融合的特征图。最后，利用QE网络计算增强残差映射，将残差映射重新添加到压缩后的目标帧中，得到最终的增强结果。上图展示了STDF网络的框架，它由一个时空变形融合(STDF)模块和一个质量增强(QE)模块组成。

STDF模块以目标帧和参考帧为输入，通过时空可变形卷积融合上下文信息，其中可变形偏移量由偏移量预测网络自适应生成。然后，通过融合特征映射，QE模块引入全卷积增强网络来计算增强结果。由于STDF模块和QE模块都是卷积的，所以我们统一的框架可以端到端进行训练。

3.MFQE2.0

MFQE2.0在MFQE1.0上的最大改变就是检测视频帧序列的PQF帧不同，MFQE2.0首先训练一个基于双向长短期记忆(BiLSTM)的模型作为一个无引用的方法来检测PQF。然后，提出了一种新型的多帧CNN (MF-CNN)结构，该结构将当前非PQF和相邻的PFQ作为输入，用于非PQF的质量增强。

4.存在问题

然而，以往方法的训练集规模是递增的，不同的方法也是在不同的测试集上进行测试的。也就是说，我可以以前的网络通过大量的压缩视频来训练，通过大数据来提升网络质量，其次，网络中，使用的训练数据是不一样的，在进行不同网络的横向比较时，不是很客观。

现在的压缩视频增强方法（2021年）

NTIRE 2021压缩视频质量增强的挑战赛上，出现了很多优秀的增强网络，他们几乎都是基于前面提的的网络的一个改进，在这次比赛中，引入了一个大规模多样化视频（LDV）数据集，这个数据集可以让让我们训练出更适合压缩视频增强的网络。在这次视频增强比赛中，又有三个赛道：Track 1和Track 2旨在增强HEVC在固定QP下压缩的视频Track 3旨在增强x265在固定比特率下压缩的视频。

这三条赛道共吸引了482人报名。在测试阶段，分别有12支队伍、8支队伍和11支队伍提交了track1、track2和track3的最终结果。

注意：Track 1和Track 3的质量增强目标是提高保真度(PSNR)， Track 2的质量增强目标是提高感知质量。

以下是三个赛道前几名的排名情况。

Table 1. The results of Track 1 (fixed QP, fidelity)

Table 2. The results of Track 2 (fixed QP, perceptual)

Table 3. The results of Track 3 (fixed bit-rate, fidelity)

1.LDV数据集

本文提出的LDV数据集中的视频示例，包含10类场景。左边的四列显示了NTRIE挑战中用于训练的部分视频。中间的两列是验证的视频。右边两列是测试视频，左边一列是Track1和Track 2的测试集，最右边一列是Track 3的测试集。

LDV数据集包含240个视频，包含10类场景，即动物、城市、特写、时尚、人、室内、公园、风景、运动和车辆。
在LDV的240个视频中，快速动作视频48个，高帧率视频68个( 50)，低帧率视频172个( 30)。
在75个LDV视频中，摄像机会有轻微的抖动(例如，用手持摄像机拍摄)，而在LDV中有20个视频是在黑暗的环境中拍摄的，例如，在夜间或在光线不足的房间中。在NTIRE 2021的挑战中，我们将LDV数据集分为训练集、验证集和测试集，分别包含200个、20个和20个视频。
测试集进一步分为两组，每组10个视频，分别为固定QP (tracks 1和2)和固定比特率(Track 3)的轨道。
这20个验证视频由10个场景类别的视频组成，每个类别有两个视频。
每个测试集有一个来自每个类别的视频。每个测试集的20个验证视频中有9个帧率较高，每个测试集的10个视频中有4个帧率较高。验证集中有5个快动视频。在固定QP和固定比特率轨道的测试集中，分别有3个和2个快动视频。

2.BILIBILI AI & FDU Team

BILIBILI AI & FDU Team

作为初步步骤，他们首先解码比特流提取每帧的QP。

根据QP值，他们选择前4帧和后4帧作为参考帧，因此总共9帧(包括目标帧)被输入模型。

1)将目标帧的时间戳记为t，同时选取相邻的两帧(t-1和t+1);

2)然后将之前的3个峰值质量帧(Peak Quality Frames, PQFs)[71]和随后的3个PQFs作为额外的参考帧。

3)如果没有更多的参考帧，并且在前一部分或后一部分中选择的参考帧数少于4个，则重复填充最后选择的参考帧，直到总共有8个参考帧。他们将9帧(8个参考帧和1个目标帧)输入到时空变形融合(STDF)模块中，以捕获时空信息。然后STDF模块的输出被发送到质量增强(QE)模块。QE模块采用了来自C2CNet[17]的自适应WDSR-A-Block堆栈。

3. NTU-SLab Team

NTU-SLab Team

NTU-SLab团队针对这一挑战提出了BasicVSR++方法。BasicVSR++包含两项经过深思熟虑的修改，以改进BasicVSR的传播和对准设计。如上图所示，给定一个输入视频，首先利用残差块提取每帧的特征。这些特征然后在提出的二阶网格传播方案下传播，其中对齐是由提出的流动引导的可变形对齐执行。传播后，利用聚合的特征进行卷积和像素变换生成输出图像。

4. NOAHTCV Team

NOAHTCV Team

如上图所示，输入图像包括三帧，即当前帧加上前一帧和下一帧PQF (Peak Quality frames，峰值质量帧)。第一步包括一个共享的特征提取与剩余块堆栈，随后使用一个U-Net来联合预测三个输入的每个单独的偏移量。这样的偏移被用来隐式地对齐和融合特征。注意，这一步的监督没有任何损失。在初始特征提取和对齐后，他们使用一个具有共享权值的多头U-Net来处理每个输入特征，在编码器和解码器的每个尺度上，他们将U-Net特征与尺度相关的变形卷积融合，对U-Net的输出特征进行最后一次融合，最后对输出的融合特征进行一堆剩余块的处理，预测最终的输出。这个输出实际上是残留信息，添加到输入帧以产生增强的输出帧。

5. Ivp-tencent Team

Ivp-tencent Team

如上图所示，Ivp-tencent团队提出了一种块移除网络(BRNet)来减少压缩视频中的块伪影，以提高视频质量。受EDSR和FFDNe的启发，提出的BRNet首先使用mean shift模块(mean shift)对输入帧进行归一化，然后采用可逆的下采样操作(Pixel Unshuffle)对帧进行处理，将压缩后的帧分割成四个下采样的子帧。然后，将子帧馈送到如图17所示的卷积网络中，其中使用了8个剩余块。最后，他们使用上采样操作(Pixel Shuffle)和mean shift模块来重建增强的帧。值得注意的是，在所有提出的方法中，Ivp-tencent的时间效率最高。它能够增强超过120帧每秒，所以它可能适用于高帧率的场景。个人认为，腾讯团队的这个模型非常有价值。

人工智能动画展示人类的特征 AGI大模型与大数据研究院 AI大模型应用开发实战 java python javascript kotlin golang 架构人工智能
人工智能，动画，人类特征，情感识别，行为模拟，机器学习，深度学习，自然语言处理1.背景介绍人工智能（AI）技术近年来发展迅速，已渗透到生活的方方面面。从智能语音助手到自动驾驶汽车，AI正在改变着我们的世界。然而，尽管AI技术取得了令人瞩目的成就，但它仍然难以完全模拟人类的复杂行为和特征。人类的特征是多方面的，包括情感、认知、社交和创造力等。这些特征是人类区别于其他生物的重要标志，也是人类社会文明发
深度学习篇---简单果实分类网络
下面我将提供一个使用Python从零实现果实分类模型的完整流程，包括数据准备、模型构建、训练和部署，不依赖任何深度学习框架，仅使用NumPy进行数值计算。1.数据准备与预处理首先需要准备果实图像数据集，将其分为好果和坏果两类，并进行预处理：importosimportnumpyasnpfromPILimportImagefromsklearn.model_selectionimporttrain_
YOLO学习笔记｜从YOLOv5到YOLOv11：技术演进与核心改进北斗猿 YOLO学习从零到1 YOLO 目标检测算法 python 计算机视觉
从YOLOv5到YOLOv11：技术演进与核心改进深度解析一、YOLO系列发展概述YOLO（YouOnlyLookOnce）目标检测算法自2016年诞生以来，凭借其"单次检测"的独特理念和卓越的实时性能，持续引领着计算机视觉领域的技术革新。从JosephRedmon的初代YOLO到AlexeyBochkovskiy的YOLOv4，再到Ultralytics团队的YOLOv5及后续系列，这一算法家族
Python深度学习：3步实现AI人脸识别，效果堪比专业软件！小筱在线 python 人工智能 python 深度学习
引言：AI人脸识别的时代已经到来在当今数字化时代，人脸识别技术已经从科幻电影走进了我们的日常生活。从手机解锁到机场安检，从银行身份验证到智能门禁系统，这项技术正以前所未有的速度改变着我们的生活方式。而令人振奋的是，借助Python和深度学习技术，普通人也能构建出专业级的人脸识别系统。本文将带领您通过三个关键步骤，使用Python深度学习技术实现一个准确率高达99%的人脸识别系统。这个系统不仅原理简
AI小智项目全解析：软硬件架构与开发环境配置 Despacito0o ai语音助手人工智能硬件架构 struts
AI小智项目全解析：软硬件架构与开发环境配置一、项目整体架构AI小智是一款基于ESP32的智能物联网设备，集成了语音交互、边缘计算等功能。整体系统架构如下：终端设备：ESP32模组作为核心通信方式：WebSocket实现实时音视频传输MQTT连接物联网后台管理系统HTTP进行系统间数据交换二、软件架构详解2.1后端技术栈#核心技术栈backend_stack={"语言":"Python","框架"
Spring AI 第二讲之 Chat Model API 第八节ZhiPu AI Chat 疼死老夫了人工智能
SpringAI支持知普人工智能的各种人工智能语言模型。您可以与知普人工智能语言模型互动，并基于知普人工智能模型创建多语言对话助手。先决条件您需要与ZhiPuAI创建一个API，以访问ZhiPuAI语言模型。在ZhiPuAI注册页面创建账户，并在APIKeys页面生成令牌。SpringAI项目定义了一个名为spring.ai.zhipuai.api-key的配置属性，你应将其设置为从APIKeys
Chat Model API 虾条_花吹雪 Spring AI java
聊天模型API为开发人员提供了将人工智能聊天完成功能集成到应用程序中的能力。它利用预训练的语言模型，如GPT（生成预训练转换器），以自然语言对用户输入生成类似人类的响应。API通常通过向人工智能模型发送提示或部分对话来工作，然后人工智能模型根据其训练数据和对自然语言模式的理解生成对话的完成或继续。然后将完成的响应返回给应用程序，应用程序可以将其呈现给用户或用于进一步处理。Spring人工智能聊天模
RTSP系列三：RTP协议介绍 BreakingY 网络音视频
我的音视频/流媒体开源项目(github)RTSP系列：RTSP系列一：RTSP协议介绍-CSDN博客RTSP系列二：RTSP协议鉴权-CSDN博客RTSP系列三：RTP协议介绍-CSDN博客RTSP系列四：RTSPServer/Client实战项目-CSDN博客目录一、基本概念二、RTP报文格式三、RTP封装视频3.1、RTP封装H2643.1.1、单一封包模式3.1.2、组合封包模式3.1.3
【RTSP从零实践】4、使用RTP协议封装并传输AAC
博客主页：https://blog.csdn.net/wkd_007博客内容：嵌入式开发、Linux、C语言、C++、数据结构、音视频本文内容：介绍怎么使用RTP协议封装并传输AAC金句分享：你不能选择最好的，但最好的会来选择你——泰戈尔⏰发布时间⏰：2025-07-0118:43:18本文未经允许，不得转发！！！目录一、概述二、实现步骤、实现细节✨2.1、实现AAC文件读取器✨2.2、实现AAC
【推荐算法课程二】推荐算法介绍-深度学习算法盒子6910 运维视角下的广告业务算法推荐算法深度学习运维开发运维人工智能
三、深度学习在推荐系统中的应用3.1深度学习推荐模型的演化关系图3.2AutoRec——单隐层神经网络推荐模型3.2.1AutoRec模型的基本原理AutoRec模型是一个标准的自编码器，它的基本原理是利用协同过滤中的共现矩阵，完成物品向量或者用户向量的自编码。再利用自编码的结果得到用户对物品的预估评分，进而进行推荐排序。什么是自编码器？自编码器是指能够完成数据“自编码”的模型。无论是图像、音频，
巅峰对决，超三十万奖金等你挑战！第十届信也科技杯全球AI算法大赛火热开赛！中杯可乐多加冰前沿资讯分享科技人工智能算法计算机视觉机器学习深度学习
信也科技今年跟IJCAI和CIKM这两大全球顶级AI会议合作，这场比赛被全球人工智能顶会CIKM收录为官方赛事单元，获奖选手有机会全球人工智能顶会创造更大的影响力。一、赛事概况随着深度伪造技术的高度发展，人工智能产业走深向实，生成合成技术开始呈现工具化和普及化趋势。在生成合成内容质量显著提升的当下，基于换脸攻击的身份冒用和欺诈事件在全球范围内激增，严重威胁个人隐私和公共数据安全。第十届信也科技杯全
【AI智能推荐系统】第二篇：深度学习在推荐系统中的架构设计与优化实践 DeepFaye 人工智能深度学习
第二篇：深度学习在推荐系统中的架构设计与优化实践提示语：“从Wide&Deep到Transformer，深度推荐模型如何突破性能瓶颈？本文将揭秘Netflix、淘宝都在用的深度学习推荐架构，手把手教你设计高精度推荐系统！”目录深度学习推荐系统的核心优势主流深度学习推荐架构解析2.1Wide&Deep模型2.2DeepFM与xDeepFM2.3神经协同过滤(NCF)2.4基于Transformer的
OPENAI中Assistants API的实现原理及示例代码python实现 dzend aigc python ai
OPENAI中AssistantsAPI的实现原理及示例代码前言OPENAI是一家人工智能公司，致力于研究和开发人工智能技术。其中，AssistantsAPI是OPENAI推出的一项人工智能服务，可以帮助开发者快速构建智能助手。本文将介绍AssistantsAPI的实现原理，并提供使用Python实现的示例代码。AssistantsAPI实现原理AssistantsAPI的实现原理主要包括以下几个
【深度学习】神经网络剪枝方法的分类烟锁池塘柳0 机器学习与深度学习深度学习神经网络剪枝
神经网络剪枝方法的分类摘要随着深度学习模型，特别是大语言模型（LLM）的参数量爆炸式增长，模型的部署和推理成本变得异常高昂。如何在保持模型性能的同时，降低其计算和存储需求，成为了工业界和学术界的核心议题。神经网络剪枝（Pruning）作为模型压缩的关键技术之一，应运而生。本文将解析剪枝技术的不同分类，深入探讨其原理、优缺点。文章目录神经网络剪枝方法的分类摘要1为什么我们需要剪枝？2分类方法一：剪什
Python 图像分类入门超龄超能程序猿机器学习 python 分类开发语言
一、介绍图像分类作为深度学习的基础任务，旨在将输入图像划分到预定义的类别集合中。在实际的业务中，图像分类技术是比较常用的一种技术技能。例如，在安防监控中，可通过图像分类识别异常行为；在智能交通系统中，实现对交通标志和车辆类型的快速识别等。本文将通过安装包已有数据带你逐步了解使用Python进行图像分类的全过程。二、环境搭建在开始图像分类项目前，需要确保Python环境中安装了必要的库。主要包括：T
初始CNN(卷积神经网络) 超龄超能程序猿机器学习 cnn 人工智能神经网络
卷积神经网络（ConvolutionalNeuralNetwork，简称CNN）作为深度学习的重要分支，在图像识别、目标检测、语义分割等领域大放异彩。无论是手机上的人脸识别解锁，还是自动驾驶汽车对道路和行人的识别，背后都离不开CNN的强大能力一、CNN诞生的背景与意义在CNN出现之前，传统的图像识别方法主要依赖人工提取特征，例如使用SIFT（尺度不变特征变换）、HOG（方向梯度直方图）等算法。这些
深度学习实验：GPU加速，突破性能瓶颈 AI天才研究院 Agentic AI 实战计算 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
深度学习实验：GPU加速，突破性能瓶颈1.背景介绍随着深度学习模型变得越来越复杂和庞大，传统的CPU已经无法满足训练和推理的计算需求。GPU凭借其强大的并行计算能力和专门为矩阵运算优化的架构，成为了深度学习领域的核心加速器。本文将探讨如何利用GPU加速深度学习实验,突破性能瓶颈,提高模型训练和推理的效率。2.核心概念与联系2.1GPU架构GPU(图形处理器)最初是为了加速图形渲染而设计的,但由于其
使用大模型预测胃穿孔的全流程系统技术方案大纲
目录一、项目概述二、项目背景三、建设目标四、建设内容（一）建设架构（二）核心功能（三）核心技术（四）预期成效（五）方案总结五、系统架构方案流程图六、实验验证证据七、健康教育与指导一、项目概述本项目旨在构建一套基于大模型的胃穿孔预测及全流程管理系统，通过整合术前、术中、术后各环节数据，利用先进的人工智能技术，实现对胃穿孔疾病的精准预测、手术方案优化、并发症风险预警以及术后护理指导等功能，为医疗决策提
深度学习相关指标工作笔记 Victor Zhong AI 框架深度学习笔记人工智能
这里写目录标题检测指标iou/Ｇou/Ｄiou/ＣiouMSE(MeanSquaredError)(均方误差)(回归问题)交叉熵损失函数(CrossEntropyErrorFunction)(分类问题)检测指标iou/Ｇou/Ｄiou/ＣiouIntersectionoverUnion(IoU)是目标检测里一种重要的评价值交并比令人遗憾的是IoU无法优化无重叠的bboxes如果用IoU作为loss
线性代数在图像处理中的应用 --- 纳尼? 2D的高斯核可以通过1D的高斯核直接生成？（秩为1的矩阵）松下J27 Linear Algebra 线性代数图像处理人工智能
二维高斯核，Rank秩等于一的矩阵之前，我在学习图像处理的时候，会经常用到Gaussianblur，也就是二维高斯低通滤波。当时用的都是Matlab中，现成的图像处理库。只需要输入sigma和kernelsize这些参数就行了，完全不需要考虑高斯核中的每个点长啥样。虽然教科书里面也会有一些配图，例如：直到后来，我学习高斯图像金字塔的时候发现，在别人的代码里面，他在生成二维高斯核的时候，并不是直接写
【深度学习新浪潮】基于扩散模型的图像编辑加速方法小米玄戒Andrew 深度学习新浪潮深度学习人工智能扩散模型 Transformer DiT 图像编辑模型加速
在基于扩散模型的图像编辑任务中，实现高质量与高效加速的平衡需要综合运用模型架构优化、采样策略创新、条件控制增强及硬件加速等多维度技术。一、一步反演与掩码引导的编辑框架通过一步反演框架将输入图像映射到可编辑的潜在空间，结合掩码引导的注意力重缩放机制，实现文本引导的局部编辑。例如，SwiftEdit通过一步反演和注意力重缩放，将编辑时间压缩至0.23秒，比传统多步方法快50倍。具体步骤包括：一步反演：
表观遗传风暴：深圳AI-BioFab终极防御战全纪实
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站⚡《表观遗传风暴：深圳AI-BioFab终极防御战全纪实》副标题：抗癌疫苗灌装倒计时90秒惊现组蛋白叛乱，中国启动虫洞计算化解文明级生物危机2025年7月2日14:26光明科学城急电当第184支抗癌疫苗注入冷链罐的瞬间，B3层突爆刺眼蓝光！培养舱内数千细胞染色体疯狂解旋，量子钟在14:26:03
医疗影像诊断新范式：多模态AI在癌症早筛中的落地难题 HeartException 人工智能
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站医疗影像诊断新范式：多模态AI在癌症早筛中的落地难题——2025年临床转化瓶颈突破与多中心验证报告残酷现实：FDA2025Q1报告显示，87%的AI影像工具因临床转化失败止步于III期试验破局曙光：斯坦福-梅奥联合研究证实，多模态融合使肺结节良恶性判别AUC提升至0.98（单模态上限0.91）一
合成生物学奇点：AI驱动CRISPR超进化工厂2025投产纪实
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站《合成生物学奇点：AI驱动CRISPR超进化工厂2025投产纪实》副标题：全球首座AI-BioFab落地深圳，蛋白质设计周期从3年压缩至11天，生物制造成本暴跌90%一、生物制造范式的历史性颠覆▶︎传统生物工程的三大世纪困局graphTDA[缓慢的试错循环]-->B[单基因改造耗时≥6个月]C[
Transformer已死？2025年十大替代架构实战评测
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站封面图建议：十大架构3D渲染图环绕碎裂的Transformer图标，背景为动态性能雷达图副标题：实测推理速度/显存占用/长文本能力，附迁移成本决策树一、争议源起：Transformer的时代性局限（2025版）graphLRA[Transformer痛点]-->B[显存黑洞：千亿模型推理需1.6
生物启发AI新突破：神经形态芯片+脉冲神经网络落地指南 HeartException 人工智能
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站《生物启发AI新突破：神经形态芯片+脉冲神经网络落地指南》副标题：基于2025年英特尔Loihi3芯片的工业级部署实战（附能耗对比&代码库）封面建议：脉冲神经网络动态脉冲传导图覆盖在神经形态芯片显微结构上，标注「能效比：传统GPU的1/800」一、2025生物启发AI的临界点突破生物神经特性事件
《从Backprop到Diffusion：深度学习的算法进化树全景图》 HeartException 学习人工智能
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站《从Backprop到Diffusion：深度学习的算法进化树全景图》**展开系统性解析。全文基于算法原理-技术突破-产业重塑的三层逻辑链，融合2025年最新研究成果与产业数据，呈现深度学习四十年的底层技术迁徙路径从Backprop到Diffusion：深度学习的算法进化树全景图副标题：一部算法
语言模型之谜：提示内容与格式的交响诗步子哥 AGI通用人工智能语言模型人工智能自然语言处理
当代人工智能领域中，语言模型（LLM）正以前所未有的规模和深度渗透到各行各业。从代码生成到数学推理，从问答系统到多项选择题，每一次技术的跃进都离不开一个看似简单却充满玄机的关键环节——提示（prompt）的设计。而在这场提示优化的探索中，内容与格式的双重奏正逐渐揭开其神秘面纱，谱写出一曲宏大的交响诗。本文将带您走进“内容格式集成提示优化（CFPO）”的奇幻世界，揭示如何透过细腻的内容雕琢和精妙的格
多模态大模型：技术原理与实战看清GPT的进化史和创新点 AI天才研究院 Agentic AI 实战计算 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
多模态大模型：技术原理与实战看清GPT的进化史和创新点1.背景介绍1.1人工智能的发展历程1.1.1早期人工智能1.1.2机器学习时代1.1.3深度学习的崛起1.2自然语言处理的演进1.2.1基于规则的方法1.2.2统计机器学习方法1.2.3深度学习方法1.3大语言模型的出现1.3.1Transformer架构的提出1.3.2GPT系列模型的发展1.3.3多模态大模型的兴起2.核心概念与联系2.1
《卷积神经网络到Vision Transformer：计算机视觉的十年架构革命》 HeartException 人工智能学习
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站题目《卷积神经网络到VisionTransformer：计算机视觉的十年架构革命》展开深度解析，全文采用技术演进史+架构对比+产业影响的三段式结构，附关键数据与趋势预测：卷积神经网络到VisionTransformer：计算机视觉的十年架构革命副标题：从局部感知到全局建模，一场改变AI视觉基石的
统一思想认识永夜-极光思想
1.统一思想认识的基础,才能有的放矢原因: 总有一种描述事物的方式最贴近本质,最容易让人理解. 如何让教育更轻松,在于找到最适合学生的方式. 难点在于,如何模拟对方的思维基础选择合适的方式. &
Joda Time使用笔记 bylijinnan java joda time
Joda Time的介绍可以参考这篇文章： http://www.ibm.com/developerworks/cn/java/j-jodatime.html 工作中也常常用到Joda Time，为了避免每次使用都查API，记录一下常用的用法： /** * DateTime变化（增减） */ @Tes
FileUtils API eksliang FileUtils FileUtils API
转载请出自出处：http://eksliang.iteye.com/blog/2217374 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
各种新兴技术不懂事的小屁孩技术
1:gradle Gradle 是以 Groovy 语言为基础，面向Java应用为主。基于DSL（领域特定语言）语法的自动化构建工具。现在构建系统常用到maven工具，现在有更容易上手的gradle，搭建java环境: http://www.ibm.com/developerworks/cn/opensource/os-cn-gradle/ 搭建android环境： http://m
tomcat6的https双向认证酷的飞上天空 tomcat6
1.生成服务器端证书 keytool -genkey -keyalg RSA -dname "cn=localhost,ou=sango,o=none,l=china,st=beijing,c=cn" -alias server -keypass password -keystore server.jks -storepass password -validity 36
托管虚拟桌面市场势不可挡蓝儿唯美
用户还需要冗余的数据中心，dinCloud的高级副总裁兼首席营销官Ali Din指出。该公司转售一个MSP可以让用户登录并管理和提供服务的用于DaaS的云自动化控制台，提供服务或者MSP也可以自己来控制。在某些情况下，MSP会在dinCloud的云服务上进行服务分层，如监控和补丁管理。 MSP的利润空间将根据其参与的程度而有所不同，Din说。 “我们有一些合作伙伴负责将我们推荐给客户作为个
spring学习——xml文件的配置 a-john spring
在Spring的学习中，对于其xml文件的配置是必不可少的。在Spring的多种装配Bean的方式中，采用XML配置也是最常见的。以下是一个简单的XML配置文件： <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.or
HDU 4342 History repeat itself 模拟 aijuans 模拟
来源：http://acm.hdu.edu.cn/showproblem.php?pid=4342 题意：首先让求第几个非平方数，然后求从1到该数之间的每个sqrt(i)的下取整的和。思路：一个简单的模拟题目，但是由于数据范围大，需要用__int64。我们可以首先把平方数筛选出来，假如让求第n个非平方数的话，看n前面有多少个平方数，假设有x个，则第n个非平方数就是n+x。注意两种特殊情况，即
java中最常用jar包的用途 asia007 java
java中最常用jar包的用途 jar包用途axis.jarSOAP引擎包commons-discovery-0.2.jar用来发现、查找和实现可插入式接口，提供一些一般类实例化、单件的生命周期管理的常用方法.jaxrpc.jarAxis运行所需要的组件包saaj.jar创建到端点的点到点连接的方法、创建并处理SOAP消息和附件的方法，以及接收和处理SOAP错误的方法. w
ajax获取Struts框架中的json编码异常和Struts中的主控制器异常的解决办法百合不是茶 js json编码返回异常
一:ajax获取自定义Struts框架中的json编码出现以下问题: 1,强制flush输出 json编码打印在首页 2, 不强制flush js会解析json 打印出来的是错误的jsp页面却没有跳转到错误页面 3, ajax中的dataType的json 改为text 会
JUnit使用的设计模式 bijian1013 java 设计模式 JUnit
JUnit源代码涉及使用了大量设计模式 1、模板方法模式（Template Method）定义一个操作中的算法骨架，而将一些步骤延伸到子类中去，使得子类可以不改变一个算法的结构，即可重新定义该算法的某些特定步骤。这里需要复用的是算法的结构，也就是步骤，而步骤的实现可以在子类中完成。
Linux常用命令（摘录） sunjing crond chkconfig
chkconfig --list 查看linux所有服务 chkconfig --add servicename 添加linux服务 netstat -apn | grep 8080 查看端口占用 env 查看所有环境变量 echo $JAVA_HOME 查看JAVA_HOME环境变量安装编译器 yum install -y gcc
【Hadoop一】Hadoop伪集群环境搭建 bit1129 hadoop
结合网上多份文档，不断反复的修正hadoop启动和运行过程中出现的问题，终于把Hadoop2.5.2伪分布式安装起来，跑通了wordcount例子。Hadoop的安装复杂性的体现之一是，Hadoop的安装文档非常多，但是能一个文档走下来的少之又少，尤其是Hadoop不同版本的配置差异非常的大。Hadoop2.5.2于前两天发布，但是它的配置跟2.5.0，2.5.1没有分别。 &nb
Anychart图表系列五之事件监听白糖_ chart
创建图表事件监听非常简单：首先是通过addEventListener('监听类型',js监听方法)添加事件监听，然后在js监听方法中定义具体监听逻辑。以钻取操作为例，当用户点击图表某一个point的时候弹出point的name和value，代码如下： <script> //创建AnyChart var chart = new AnyChart(); //添加钻取操作&quo
Web前端相关段子 braveCS web前端
Web标准：结构、样式和行为分离使用语义化标签 0）标签的语义：使用有良好语义的标签，能够很好地实现自我解释，方便搜索引擎理解网页结构，抓取重要内容。去样式后也会根据浏览器的默认样式很好的组织网页内容，具有很好的可读性，从而实现对特殊终端的兼容。 1）div和span是没有语义的：只是分别用作块级元素和行内元素的区域分隔符。当页面内标签无法满足设计需求时，才会适当添加div
编程之美-24点游戏 bylijinnan 编程之美
import java.util.ArrayList; import java.util.Arrays; import java.util.HashSet; import java.util.List; import java.util.Random; import java.util.Set; public class PointGame { /**编程之美
主页面子页面传值总结 chengxuyuancsdn 总结
1、showModalDialog returnValue是javascript中html的window对象的属性,目的是返回窗口值,当用window.showModalDialog函数打开一个IE的模式窗口时,用于返回窗口的值主界面 var sonValue=window.showModalDialog("son.jsp"); 子界面 window.retu
[网络与经济]互联网+的含义 comsci 互联网+
互联网+后面是一个人的名字 = 网络控制系统互联网+你的名字 = 网络个人数据库每日提示:如果人觉得不舒服,千万不要外出到处走动,就呆在床上,玩玩手游,更不能够去开车,现在交通状况不
oracle 创建视图 with check option daizj 视图 view oralce
我们来看下面的例子： create or replace view testview as select empno,ename from emp where ename like ‘M%’ with check option; 这里我们创建了一个视图，并使用了with check option来限制了视图。然后我们来看一下视图包含的结果： select * from testv
ToastPlugin插件在cordova3.3下使用 dibov Cordova
自己开发的Todos应用，想实现“ 再按一次返回键退出程序 ”的功能，采用网上的ToastPlugins插件，发现代码或文章基本都是老版本，运行问题比较多。折腾了好久才弄好。下面吧基于cordova3.3下的ToastPlugins相关代码共享。 ToastPlugin.java package&nbs
C语言22个系统函数 dcj3sjt126com c function
C语言系统函数一、数学函数下列函数存放在math.h头文件中Double floor(double num) 求出不大于num的最大数。Double fmod(x, y) 求整数x/y的余数。Double frexp(num, exp); double num; int *exp; 将num分为数字部分（尾数）x和以2位的指数部分n，即num=x*2n，指数n存放在exp指向的变量中，返回x。D
开发一个类的流程 dcj3sjt126com 开发
本人近日根据自己的开发经验总结了一个类的开发流程。这个流程适用于单独开发的构件，并不适用于对一个项目中的系统对象开发。开发出的类可以存入私人类库，供以后复用。以下是开发流程： 1. 明确类的功能，抽象出类的大概结构 2. 初步设想类的接口 3. 类名设计（驼峰式命名） 4. 属性设置(权限设置) 判断某些变量是否有必要作为成员属
java 并发 shuizhaosi888 java 并发
能够写出高伸缩性的并发是一门艺术在JAVA SE5中新增了3个包 java.util.concurrent java.util.concurrent.atomic java.util.concurrent.locks 在java的内存模型中，类的实例字段、静态字段和构成数组的对象元素都会被多个线程所共享，局部变量与方法参数都是线程私有的，不会被共享。
Spring Security（11）——匿名认证 234390216 Spring Security ROLE_ANNOYMOUS 匿名
匿名认证目录 1.1 配置 1.2 AuthenticationTrustResolver 对于匿名访问的用户，Spring Security支持为其建立一个匿名的AnonymousAuthenticat
NODEJS项目实践0.2[ express,ajax通信...] 逐行分析JS源代码 Ajax nodejs express
一、前言通过上节学习，我们已经 ubuntu系统搭建了一个可以访问的nodejs系统，并做了nginx转发。本节原要做web端服务及 mongodb的存取，但写着写着，web端就
在Struts2 的Action中怎样获取表单提交上来的多个checkbox的值 lhbthanks java html struts checkbox
第一种方法：获取结果String类型在 Action 中获得的是一个 String 型数据，每一个被选中的 checkbox 的 value 被拼接在一起，每个值之间以逗号隔开(,)。所以在 Action 中定义一个跟 checkbox 的 name 同名的属性来接收这些被选中的 checkbox 的 value 即可。以下是实现的代码：前台 HTML 代码：
003.Kafka基本概念 nweiren hadoop kafka
Kafka基本概念：Topic、Partition、Message、Producer、Broker、Consumer。 Topic：消息源（Message）的分类。 Partition： Topic物理上的分组，一
Linux环境下安装JDK roadrunners jdk linux
1、准备工作创建JDK的安装目录： mkdir -p /usr/java/ 下载JDK，找到适合自己系统的JDK版本进行下载： http://www.oracle.com/technetwork/java/javase/downloads/index.html 把JDK安装包下载到/usr/java/目录，然后进行解压： tar -zxvf jre-7
Linux忘记root密码的解决思路 tomcat_oracle linux
1：使用同版本的linux启动系统，chroot到忘记密码的根分区passwd改密码　　2：grub启动菜单中加入init=/bin/bash进入系统，不过这时挂载的是只读分区。根据系统的分区情况进一步判断. 　　3: grub启动菜单中加入 single以单用户进入系统. 　　4:用以上方法mount到根分区把/etc/passwd中的root密码去除　　例如: 　　ro
跨浏览器 HTML5 postMessage 方法以及 message 事件模拟实现 xueyou jsonp jquery 框架 UI html5
postMessage 是 HTML5 新方法，它可以实现跨域窗口之间通讯。到目前为止，只有 IE8+, Firefox 3, Opera 9, Chrome 3和 Safari 4 支持，而本篇文章主要讲述 postMessage 方法与 message 事件跨浏览器实现。postMessage 方法 JSONP 技术不一样，前者是前端擅长跨域文档数据即时通讯，后者擅长针对跨域服务端数据通讯，p

压缩视频增强调研

从一个比赛说起

以前的视频增强的方法（2020年之前）

IPB帧

单帧视频增强

1.DSCNN网络

2.QECNN网络

3.DCAD网络

4.存在问题

多帧视频增强

1.MFQE1.0

2.STDF网络

3.MFQE2.0

4.存在问题

现在的压缩视频增强方法（2021年）

1.LDV数据集

2.BILIBILI AI & FDU Team

3. NTU-SLab Team

4. NOAHTCV Team

5. Ivp-tencent Team

你可能感兴趣的:(音视频,计算机视觉,深度学习,图像处理,人工智能)