涵小呆

基于深度学习的跨分量预测技术

在最新的视频编码标准VVC中，首次提出了跨分量预测技术CCLM，通过建立亮度分量和色度分量的线性模型，实现从亮度分量到色度分量的映射。但是亮度和色度分量间并不总是线性关系，因此许多人提出通过网络来学习亮度分量与色度分量间的关系，来进一步提升的色度分量的预测性能。

2018-ICIP-A HYBRID NEURAL NETWORK FOR CHROMA INTRA PREDICTION

2020-TCSVT-Deep Learning-Based Chroma Prediction for Intra Versatile Video Coding

2020-JSTSP-Attention-Based Neural Networks for Chroma Intra Prediction in Video Coding

2021-ACM-Neural-Network-Based Cross-Channel Intra Prediction

JVET-W0111-AHG11: neural network based cross-component prediction model（Tencent）

JVET-X0130-AHG11: Cross-component prediction based on a neural network model

2018-ICIP-A HYBRID NEURAL NETWORK FOR CHROMA INTRA PREDICTION

这篇文章应该是最早提出将神经网络用于分量间预测的文章。

基于之前的亮度和色度之间建立线性模型从而预测色度像素的LM方法，该文章研究了一种利用神经网络提取亮度像素和色度像素间的相关性，并通过神经网络来预测色度像素的方法。

该文章采用了全连接网络和卷积网络相结合的方法：

使用全连接网络提取相邻重建像素的信息
使用卷积网络提取重建亮度块的信息
将提取出的亮度信息和相邻像素的信息以点乘的方式融合起来再通过卷积网络产生预测值

网络结构：

如图，以YUV420视频中的32x32大小的亮度块为例，由于色度块大小为16x16，所以需要对亮度块先进行下采样，使其与色度块的分辨率对齐

（1）全连接层：

将下采样后的亮度块的上相邻像素和左相邻像素(16+16+1=33)以及Cb、Cr块的相邻像素拼接成长度为99的一维向量，将其通过三层全连接层，如上图上半部分所示，最终输出长度为128的一维向量，然后将该向量平铺成维度为128x16x16的特征图

（2）卷积层

整个网络总共包含四个卷积层，卷积层的输入是下采样后的16x16的亮度块，首先将16x16的亮度块通过一个5x5的卷积层获得128x16x16的特征图，再将其通过5x5和3x3的组合卷积层，获得128x16x16的特征图，再将该特征图和全连接层输出的128x16x16的特征图进行融合（Element wise Product 对应元素相乘）,再将其通过一个1x1和3x3的组合卷积层和一个3x3的卷积层，最终输出2x16x16的图（Cb和Cr）

集成到HEVC

HEVC中，预测是基于变换块大小进行预测的，即色度TU大小包括4x4、8x8和16x16，为了处理不同大小的块，对不同块使用上图所示相同的网络但不同的超参数，各个尺寸TU使用的网络超参数如下：

实验结果

作者将上述的神经网络预测方法和LM预测方法同时集成在HM12.0中，二者共同的增益如下：

作者同时单独测试了LM方法和该方法的性能，结果表明该方法的性能优于LM方法。图2显示了为序列BQMall选择的色度预测模式，其中蓝色框表示该方法，红色框表示LM方法，可以观察到，提出的模式主要是为具有丰富纹理或结构的区域选择的。此外，提出的模式可以选择相当大的块，但LM主要用于较小的块。

2020-TCSVT-Deep Learning-Based Chroma Prediction for Intra Versatile Video Coding

本文章的亮点在于不再针对每个CU调用一次网络进行预测，而是在通过网络得到整个CTU的预测值，再通过相应CU的位置取出对应位置的预测像素。并且，本文将待预测位置处的像素使用CCLM预测技术初始化，通过网络对预测值进行增强。该网络的性能是跨分量预测相关论文中最好的。

本文提出了使用神经网络进行色度预测，主要包括以下三个方面的内容：

本文利用当前块对应的重建亮度块和相邻重建亮度像素以及当前色度块的相邻像素，通过神经网络预测当前色度块（CNN based Chroma Prediction ，CNNCP）
整个网络包括两个子网络：亮度下采样网络和色度预测网络；
将CNNCP集成到VTM中，通过RDO选出最佳预测模式

整个网络的框架如下图所示：

下采样网络

首先将4Nx4N的亮度块通过一个亮度下采样网络将亮度块变为2Nx2N大小，与色度块大小一致。亮度下采样网络包括6个卷积层，第二层的Stride是2，其余层的Stride为1；前5层的激活函数是ReLU，最后一层的激活函数为Tanh；下采样网络的超参数如下图所示

色度预测网络

输入：亮度块通过下采样网络后，获得2Nx2Nx16的亮度下采样图，再使用CCLM预测模式对当前色度块进行预测，将当前预测块和左侧、上侧、左上侧NxN大小的重建块拼成两个大小为2Nx2N的新的色度重建块（Cb、Cr），然后将亮度下采样块和新的色度重建块以及失真D（用Qp表征）级联，共同送入色度预测网络。

网络结构：色度预测网络共包括20个卷积层，所有卷积层的卷积核大小为3x3，前1-17层输出128个特征图，18-19层输出16个特征图，最后一层输出2Nx2N大小的Cb、Cr分量。整个网络的超参数如下图所示：

获得2Nx2N大小的Cb、Cr分量之后，取出其右下得NxN大小的块即为最终的预测结果。

训练：

使用DIV2K和UCID数据集，使用VTM4.0 Qp{22, 27, 32, 37}对其进行编码，然后进行数据增强后切割为128x128大小的Patch；对于这两个网络，使用如下图c所示的联合训练方法，不考虑亮度下采样的性能，仅考虑最终色度预测的性能。

集成到VVC中

在编码端，新增一个标志指示当前色度块使用CNNCP模式还是常规色度模式，通过RDO选择选出最佳的预测模式（常规预测模式、CNNCP），然后将其传到解码端。注意，CNNCP用于CTU level，对于小于CTU的情况，直接将预测结果拷贝到对应区域。

在解码端，首先解出是否使用CNNCP。在CTU中，如果解码标志为1，则使用空间信息和CCLM预测值作为输入计算CNNCP。

CNNCP和CCLM等的性能比较：

CNNCP在VTM9.3版本的性能：

2020-JSTSP-Attention-Based Neural Networks for Chroma Intra Prediction in Video Coding

本文是基于论文CHROMA INTRA PREDICTION WITH ATTENTION-BASED CNN ARCHITECTURES的改进，在该论文的基础上提出了三种改进方法，但基本思路保存不变，这里仅记录该论文的核心思路，而不记录三种改进方法。

本文提出了一种基于注意力机制的色度预测技术，网络结构如上图所示。网络的输入是YUV三分量的相邻重建像素和下采样后的亮度块。首先分别将相邻重建像素通过卷积提取特征，然后将提取出的特征通过矩阵乘法的方法融合并通过softmax得到上图中的attention mask，将该mask再用于相邻重建像素提取出的特征得到masked volume，最后将其与亮度重建像素提取出的特征通过点乘进行特征融合，得到最后的预测像素。

我认为本文的核心思想是通过相邻重建像素和亮度重建像素，得到了相邻重建像素在当前块各个位置的权重（即attention mask），将该权重再用于相邻重建像素得到色度的初步预测像素（masked volume），再将亮度信息通过点乘的方式和其结合起来，得到最终的预测像素。

本文在该网络的基础上，提出了三种改进：

降低卷积运算复杂度；
使用稀疏自动编码器的简化跨分量模块
将模型整数精度化

该网络在VTM7.0 的性能如下：（其中Anchor和测试都禁用二叉树、三叉树划分）

2021-ACM-Neural-Network-Based Cross-Channel Intra Prediction

本篇是在第一篇的基础上做的改进，网络的基本思路没变，核心思想是在做预测网络时引入了DCT Loss训练，认为使用DCT Loss训练网络，可以使得loss更接近实际编码中的残差，更好地模拟编码中的损失。

网络基本框架如上图所示，大体结构和第一篇文章类似，只是在融合相邻重建块提取出的信息和亮度块提取出的信息时，使用级联替代点乘的方式。并且在得到最终预测块和原始块计算残差后，将其通过DCT变换，得到频域的残差。

本文还根据网络结构，做了很多消融实验，讨论了不同网络结构参数对性能的影响，在此不做讨论。

训练：

使用DIV2K 训练集，本文认为使用原图训练可以在HM各种质量级别的图像上有很好地泛化能力，因此本文使用原始图进行训练。

实验结果：

本文研究了不同的损失函数对编码性能的影响，如下图所示，通过表中数据可以发现使用DCT域的L1 Loss性能要由于L2 loss和L1 Loss。在之前的研究中曾有人提出L2-Spatial会导致陷入局部极小点而差于L1-Spatial。本文作者发现在训练过程中先使用L2-Spatial损失函数进行训练，再使用L1-Spatial损失函数进行训练，会大幅降低L2-Spatial Loss。

本文还测试了网络在VTM9.0的性能，如下表所示：

其中总共使用4x4、8x8、16x16和32x32四种模型，并对 2N×N或者N×2N将其下采样成NxN的块再通过相应的网络。这样，可以将网络应用于VVC中的10种不同块大小：4×4、8×4、4×8、8×8、16×8、8×16、16×16、32×16、16×32和32×32。

JVET-W0111-AHG11: neural network based cross-component prediction model（Tencent）

本提案提出将当前块的相邻重建像素和对应位置的亮度重建像素共同送入网络中产生UV分量的预测。

如下图所示，先对相邻重建像素和亮度重建像素进行预处理。预处理单元以 YUV 和相邻重建样本作为输入。亮度分量下采样由双三次插值滤波器执行。相邻样本的高度/宽度由 n 决定，其中 n 设置为 4。相邻样本 (n, H) 或 (W, n) 被Transformation为大小 (W, H)。Transformation是通过 W/n 或 H/n 次复制来执行的。亮度通道提供 (W, H, 3) patch，U 和 V 均提供 (W, H, 2) patch。然后全部级联成一个 (W, H, 7) 作为神经网络的输入。

下图显示了网络结构。第一层和最后一层是核大小为3的常规卷积层。跳过层是核大小为5的规则卷积层。残差块（ResBlock）的结构由3个规则卷积层组成，其中N表示ResBlock的数量。在此贡献中，N 设置为 8。在 ResBlock 中，第一层是 1x1 卷积层，后面是 ReLU 激活函数，第二层是 1x1 卷积层，第三层是 3x3 卷积层。对于内部卷积层，特征图的数量设置为 32。

训练：

Network Information in Training Stage
Mandatory	GPU Type	GPU: V100
	Framework:	PyTorch v1.5
	Number of GPUs per Task	1

	Epoch:	500
	Batch size:	16
	Loss function:	L1
	Training time:	50h
	Training data information:	DIV2K
	Training configurations for generating compressed training data (if different to VTM CTC):	QP = 22, 27, 32, 37, 42
Optional
	Number of iterations
	Patch size	32*32
	Learning rate:	1e-4
	Optimizer:	ADAM
	Preprocessing:
	Mini-batch selection process:
	Other information:

实验结果：（Anchor是VTM11+V0056）

测试1：NNCCP 仅对 8x8、16x16 和 32x32 色度块启用

测试2：NNCCP对所有色度块启用

JVET-X0130-AHG11: Cross-component prediction based on a neural network model

本文提出了一个CCNN网络框架用于UV分量的预测。

CCNN结构如下图所示。 CCNN 将 YUV 420 格式的样本作为输入。为了预测大小为 (W, H) 的色度样本，CCNN 的输入是大小为 (2*W, 2*H) 的亮度重建样本以及亮度和色度分量的相邻重建样本。亮度分量下采样由双三次插值滤波器执行。将(1, H) 或 (W, 1) 的相邻重构样本沿轴复制转换为大小 (W, H)。这些输入样本级联起来形成一个大小为 (W, H, 7) 的张量。第一层、最后一层和跳过层是核大小为5的2D卷积层。残差块（ResBlock）的结构由两个核大小为3的卷积层组成，其中N表示ResBlock的数量，N 设置为 7。InstanceNorm和leaky ReLU激活函数结合到卷积层。对于卷积层，特征图的数量设置为 128。

分析：本提案和上篇腾讯的提案输入输出类似，网络结构大体相似，但性能更优，或许是Instance Norm起了一定作用？？？

训练：

Network Information in Training Stage
Mandatory	GPU Type	GPU: RTX 3090 x 2 x 24GB
	Framework:	PyTorch v1.7.1
	Number of GPUs per Task	2

	Epoch:	48
	Batch size:	512 x 2
	Loss function:	L2
	Training time:	37h
	Training data information:	BVI-DVC
	Training configurations for generating compressed training data (if different to VTM CTC):
Optional
	Number of iterations
	Patch size	32*32
	Learning rate:	3.16e-4
	Optimizer:	ADAM
	Preprocessing:	normalization
	Mini-batch selection process:
	Other information:

实验结果：（Anchor是VTM11+V0056）

Test1：CCNN仅用于16x16和32x32的色度块

	BD-rate Over VTM-11.0+V0056
	Y-PSNR	U-PSNR	V-PSNR	Y-MSIM	U-MSIM	V-MSIM	EncT	DecT
Class A1	-1.19%	0.16%	0.79%	-1.42%	0.38%	0.35%	478%	8442%
Class A2	-1.89%	1.69%	1.66%	-2.21%	1.01%	1.71%	374%	6959%
Class B	-0.54%	0.91%	1.27%	-0.67%	0.70%	1.57%	317%	6397%
Class C	-0.42%	0.88%	1.61%	-0.63%	1.25%	2.76%	272%	5228%
Class E	-0.62%	0.35%	-0.50%	-0.80%	0.96%	0.30%	355%	9782%
Overall	-0.86%	0.82%	1.04%	-1.07%	0.86%	1.44%	344%	6973%
Class D	-0.34%	0.49%	1.89%	-0.58%	1.08%	3.74%	228%	6028%
Class F	-0.30%	0.41%	0.52%	-0.26%	0.99%	1.39%	200%	4637%

	Random access Main10
	BD-rate Over VTM-11.0+V0056
	Y-PSNR	U-PSNR	V-PSNR	Y-MSIM	U-MSIM	V-MSIM	EncT	DecT
Class A1	-0.38%	-0.37%	0.10%	-0.47%	0.24%	-0.03%	220%	772%
Class A2	-0.72%	0.78%	0.67%	-0.83%	0.61%	1.18%	182%	494%
Class B	-0.23%	0.47%	0.95%	-0.27%	0.31%	1.24%	164%	439%
Class C	-0.10%	0.42%	0.56%	-0.17%	0.21%	1.28%	166%	425%
Class E
Overall	-0.32%	0.35%	0.62%	-0.40%	0.33%	0.98%	178%	499%
Class D	-0.10%	0.74%	1.11%	-0.23%	0.73%	1.92%	192%	734%
Class F	-0.11%	0.23%	0.03%	-0.09%	0.85%	0.69%	206%	345%

Test2：CCNN仅用于16x16 和 32x32 色度块，并进行 lambda 调整。

	BD-rate Over VTM-11.0+V0056
	Y-PSNR	U-PSNR	V-PSNR	Y-MSIM	U-MSIM	V-MSIM	EncT	DecT
Class A1	-0.56%	-3.71%	-2.44%	-0.66%	-2.83%	-2.62%	493%	9518%
Class A2	-0.90%	-2.55%	-2.17%	-1.19%	-3.26%	-2.32%	383%	7965%
Class B	-0.19%	-3.01%	-2.91%	-0.33%	-3.54%	-3.01%	324%	6900%
Class C	-0.04%	-2.60%	-2.03%	-0.26%	-3.02%	-1.93%	274%	3974%
Class E	-0.36%	-2.83%	-4.02%	-0.54%	-2.56%	-3.68%	360%	9704%
Overall	-0.37%	-2.93%	-2.70%	-0.55%	-3.10%	-2.70%	351%	6982%
Class D	0.03%	-2.93%	-1.76%	-0.18%	-3.30%	-0.96%	231%	4269%
Class F	0.10%	-1.94%	-1.90%	0.00%	-2.24%	-1.65%	203%	3803%

	BD-rate Over VTM-11.0+V0056
	Y-PSNR	U-PSNR	V-PSNR	Y-MSIM	U-MSIM	V-MSIM	EncT	DecT
Class A1	0.66%	-4.04%	-3.32%	0.79%	-3.44%	-3.10%	101%	95%
Class A2	1.04%	-4.04%	-3.74%	1.10%	-4.13%	-3.94%	101%	103%
Class B	0.38%	-3.87%	-4.13%	0.37%	-4.38%	-4.60%	101%	102%
Class C	0.37%	-3.64%	-3.61%	0.41%	-4.77%	-4.75%	101%	104%
Class E	0.29%	-3.29%	-3.77%	0.23%	-3.64%	-4.22%	101%	99%
Overall	0.52%	-3.78%	-3.76%	0.55%	-4.14%	-4.21%	101%	101%
Class D	0.37%	-3.43%	-3.54%	0.34%	-4.50%	-4.56%	101%	102%
Class F	0.39%	-2.33%	-2.41%	0.40%	-3.09%	-3.12%	100%	94%

你可能感兴趣的:(视频编码,深度学习,视频编码,深度学习)

PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
【Qualcomm】高通SNPE框架简介、下载与使用 Jackilina_Stone 人工智能 Qualcomm SNPE
目录一高通SNPE框架1SNPE简介2QNN与SNPE3Capabilities4工作流程二SNPE的安装与使用1下载2Setup3SNPE的使用概述一高通SNPE框架1SNPE简介SNPE（SnapdragonNeuralProcessingEngine），是高通公司推出的面向移动端和物联网设备的深度学习推理框架。SNPE提供了一套完整的深度学习推理框架，能够支持多种深度学习模型，包括Pytor
深度学习篇---昇腾NPU&CANN 工具包 Atticus-Orion 上位机知识篇图像处理篇深度学习篇深度学习人工智能 NPU 昇腾 CANN
介绍昇腾NPU是华为推出的神经网络处理器，具有强大的AI计算能力，而CANN工具包则是面向AI场景的异构计算架构，用于发挥昇腾NPU的性能优势。以下是详细介绍：昇腾NPU架构设计：采用达芬奇架构，是一个片上系统，主要由特制的计算单元、大容量的存储单元和相应的控制单元组成。集成了多个CPU核心，包括控制CPU和AICPU，前者用于控制处理器整体运行，后者承担非矩阵类复杂计算。此外，还拥有AICore
深度学习图像分类数据集—桃子识别分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：桃子识别分类：['B1','M2','R0','S3']训练数据集总共有6637张图片，每个文件夹单独放一种数据各子文件夹图片统计:·B1:1601张图片·M2:1800张图片·R0:1601张图片·S3:
NumPy-@运算符详解 GG不是gg numpy numpy
NumPy-@运算符详解一、@运算符的起源与设计目标1.从数学到代码：符号的统一2.设计目标二、@运算符的核心语法与运算规则1.基础用法：二维矩阵乘法2.一维向量的矩阵语义3.高维数组：批次矩阵运算4.广播机制：灵活的形状匹配三、@运算符与其他乘法方式的核心区别1.对比`np.dot()`2.对比元素级乘法`*`3.对比`np.matrix`的`*`运算符四、典型应用场景：从基础到高阶1.深度学习
NLP_知识图谱_大模型——个人学习记录 macken9999 自然语言处理知识图谱大模型自然语言处理知识图谱学习
1.自然语言处理、知识图谱、对话系统三大技术研究与应用https://github.com/lihanghang/NLP-Knowledge-Graph深度学习-自然语言处理(NLP)-知识图谱：知识图谱构建流程【本体构建、知识抽取（实体抽取、关系抽取、属性抽取）、知识表示、知识融合、知识存储】-元気森林-博客园https://www.cnblogs.com/-402/p/16529422.htm
解决 Python 包安装失败问题：以 accelerate 为例
在使用Python开发项目时，我们经常会遇到依赖包安装失败的问题。今天，我们就以accelerate包为例，详细探讨一下可能的原因以及解决方法。通过这篇文章，你将了解到Python包安装失败的常见原因、如何切换镜像源、如何手动安装包，以及一些实用的注意事项。一、问题背景在开发一个深度学习项目时，我需要安装accelerate包来优化模型的训练过程。然而，当我运行以下命令时：bash复制pipins
从RNN循环神经网络到Transformer注意力机制：解析神经网络架构的华丽蜕变熊猫钓鱼>_> 神经网络 rnn transformer
1.引言在自然语言处理和序列建模领域，神经网络架构经历了显著的演变。从早期的循环神经网络（RNN）到现代的Transformer架构，这一演变代表了深度学习方法在处理序列数据方面的重大进步。本文将深入比较这两种架构，分析它们的工作原理、优缺点，并通过实验结果展示它们在实际应用中的性能差异。2.循环神经网络（RNN）2.1基本原理循环神经网络是专门为处理序列数据而设计的神经网络架构。RNN的核心思想
如何使用Python实现交通工具识别
如何使用Python实现交通工具识别文章目录技术架构功能流程识别逻辑用户界面增强特性依赖项主要类别内容展示该系统是一个基于深度学习的交通工具识别工具，具备以下核心功能与特点：技术架构使用预训练的ResNet50卷积神经网络模型（来自ImageNet数据集）集成图像增强预处理技术（随机裁剪、旋转、翻转等）采用多数投票机制提升预测稳定性基于置信度评分的结果筛选策略功能流程用户通过GUI界面选择待识别图
Python OpenCV教程从入门到精通的全面指南【文末送书】一键难忘 python opencv 开发语言
文章目录PythonOpenCV从入门到精通1.安装OpenCV2.基本操作2.1读取和显示图像2.2图像基本操作3.图像处理3.1图像转换3.2图像阈值处理3.3图像平滑4.边缘检测和轮廓4.1Canny边缘检测4.2轮廓检测5.高级操作5.1特征检测5.2目标跟踪5.3深度学习与OpenCVPythonOpenCV从入门到精通【文末送书】PythonOpenCV从入门到精通OpenCV(Ope
第八周 tensorflow实现猫狗识别降花绘 365天深度学习 tensorflow系列 tensorflow 深度学习人工智能
本文为365天深度学习训练营内部限免文章（版权归K同学啊所有）**参考文章地址：[TensorFlow入门实战｜365天深度学习训练营-第8周：猫狗识别（训练营内部成员可读）]**作者：K同学啊文章目录一、本周学习内容:1、自己搭建VGG16网络2、了解model.train_on_batch（）3、了解tqdm，并使用tqdm实现可视化进度条二、前言三、电脑环境四、前期准备1、导入相关依赖项2、
深度学习实战-使用TensorFlow与Keras构建智能模型程序员Gloria Python超入门 TensorFlow python
深度学习实战-使用TensorFlow与Keras构建智能模型深度学习已经成为现代人工智能的重要组成部分，而Python则是实现深度学习的主要编程语言之一。本文将探讨如何使用TensorFlow和Keras构建深度学习模型，包括必要的代码实例和详细的解析。1.深度学习简介深度学习是机器学习的一个分支，使用多层神经网络来学习和表示数据中的复杂模式。其广泛应用于图像识别、自然语言处理、推荐系统等领域。
AI在垂直领域的深度应用：医疗、金融与自动驾驶的革新之路
AI在垂直领域的深度应用：医疗、金融与自动驾驶的革新之路一、医疗领域：AI驱动的精准诊疗与效率提升1.医学影像诊断AI算法通过深度学习技术，已实现对X光、CT、MRI等影像的快速分析，辅助医生检测癌症、骨折等疾病。例如，GoogleDeepMind的AI系统在乳腺癌筛查中，误检率比人类专家低9.4%；中国的推想医疗AI系统可在20秒内完成肺部CT扫描分析，为急诊救治争取黄金时间。2.药物研发传统药
专题：2025云计算与AI技术研究趋势报告|附200+份报告PDF、原数据表汇总下载
原文链接：https://tecdat.cn/?p=42935关键词：2025,云计算，AI技术，市场趋势，深度学习，公有云，研究报告云计算和AI技术正以肉眼可见的速度重塑商业世界。过去十年，全球云服务收入激增8倍，中国云计算市场规模突破6000亿元，而深度学习算法的应用量更是暴涨400倍。这些数字背后，是企业从“自建机房”到“云原生开发”的转型，是AI从“实验室”走向“产业级应用”的跨越。本报告
【深度学习解惑】在实践中如何发现和修正RNN训练过程中的数值不稳定？云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习 rnn 人工智能 tensorflow pytorch 神经网络机器学习
在实践中发现和修正RNN训练过程中的数值不稳定目录引言与背景介绍原理解释代码说明与实现应用场景与案例分析实验设计与结果分析性能分析与技术对比常见问题与解决方案创新性与差异性说明局限性与挑战未来建议和进一步研究扩展阅读与资源推荐图示与交互性内容语言风格与通俗化表达互动交流1.引言与背景介绍循环神经网络(RNN)在处理序列数据时表现出色，但训练过程中常面临梯度消失和梯度爆炸问题，导致数值不稳定。当网络
【深度学习实战】当前三个最佳图像分类模型的代码详解云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习人工智能分类模型机器学习 Transformer EfficientNet ConvNeXt
下面给出三个在当前图像分类任务中精度表现突出的模型示例，分别基于SwinTransformer、EfficientNet与ConvNeXt。每个模型均包含：训练代码（使用PyTorch）从预训练权重开始微调（也可注释掉预训练选项，从头训练）数据集目录结构：└──dataset_root├──buy#第一类图像└──nobuy#第二类图像随机拆分：80%训练，20%验证每个Epoch输出一次loss
第35周—————糖尿病预测模型优化探索
目录目录前言1.检查GPU2.查看数据编辑3.划分数据集4.创建模型与编译训练5.编译及训练模型6.结果可视化7.总结前言本文为365天深度学习训练营中的学习记录博客原作者：K同学啊1.检查GPUimporttorch.nnasnnimporttorch.nn.functionalasFimporttorchvision,torch#设置硬件设备，如果有GPU则使用，没有则使用cpudevice=
深度学习预备知识 AmazingMQ 深度学习人工智能
1.Tensor张量定义：张量（tensor）表示一个由数值组成的数组，这个数组可能有多个维度（轴）。具有一个轴的张量对应数学上的向量，具有两个轴的张量对应数学上的矩阵，具有两个以上轴的张量目前没有特定的数学名称。importtorch#arange创建一个行向量x，这个行向量包含以0开始的前12个整数。x=torch.arange(12)print("x=",x)#x=tensor([0,1,2
根茎式装配体（RA）作为下一代协同智能范式的理论、架构与应用由数入道人工智能思维框架软件工程智能体
一、引言——范式危机与新大陆的召唤1.1表征主义的黄昏：当前AI协同范式的认知天花板自艾伦·图灵在《计算机器与智能》中播下思想的种子以来，人工智能的漫长征途始终被一个强大而内隐的哲学范式所笼罩——我们称之为“表征主义”（Representationism）。这一范式，无论其外在形态如何演变，从早期的符号逻辑、专家系统，到如今风靡全球的深度学习神经网络，其核心信念从未动摇：智能的核心，在于构建一个关
Manus AI与多语言手写识别
ManusAI与多语言手写识别背景与概述手写识别技术的发展现状与挑战ManusAI的核心技术与应用场景多语言手写识别的市场需求与难点ManusAI的技术架构深度学习在手写识别中的应用多语言支持的模型设计数据预处理与特征提取方法多语言手写识别的关键挑战不同语言字符的多样性处理上下文语义与书写风格适应性低资源语言的训练数据获取解决方案与优化策略迁移学习在多语言任务中的应用端到端模型的优化与轻量化用户反
基于LIDC-IDRI肺结节肺癌数据集的人工智能深度学习分类良性和恶性肺癌（Python 全代码）全流程解析（二）
基于LIDC-IDRI肺结节肺癌数据集的人工智能深度学习分类良性和恶性肺癌（Python全代码）全流程解析（二）1环境配置和数据集预处理1.1环境配置1.1数据集预处理2深度学习模型训练和评估2.1深度学习模型训练2.1深度学习模型评估笑话一则开心一下喽完整代码如下：模型文件如下深度学习模型讲解---待续第一部分内容的传送门第三部分传送门1环境配置和数据集预处理1.1环境配置环境配置建议使用ana
深度学习交互式图像分割技术演进与突破 wang1776866571 深度学习交互式分割深度学习人工智能交互式分割
说明本文为作者读研期间基于交互式图像分割领域公开文献的系统梳理与个人理解总结，所有内容均为原创撰写（ai辅助创作），未直接复制或抄袭他人成果。文中涉及的算法、模型及实验结论均参考自领域内公开发表的学术论文（具体文献见文末参考文献列表）。本文旨在为交互式图像分割领域的学习者提供一份结构化的综述参考，内容涵盖技术演进、核心方法、关键技术优化及应用前景，希望能为相关研究提供启发。摘要：本文系统综述了基于
前沿交叉：Fluent与深度学习驱动的流体力学计算体系 m0_75133639 流体力学深度学习人工智能航空航天 fluent 流体力学材料科学 CFD
基础模块流体力学方程求解1、不可压缩N-S方程数值解法（有限差分/有限元/伪谱法）·Fluent工业级应用：稳态/瞬态流、两相流仿真（圆柱绕流、入水问题）·Tecplot流场可视化与数据导出2、CFD数据的AI预处理·基于PCA/SVD的流场数据降维·特征值分解与时空特征提取深度学习核心3.物理机理嵌入的神经网络架构·物理信息神经网络（PINN）：将N-S方程嵌入损失函数（JAX框架实现）·神经常
如何使用目标检测深度学习框架yolov8训练钢管管道表面缺陷VOC+YOLO格式1159张3类别的检测数据集步骤和流程 FL1623863129 深度学习目标检测深度学习 YOLO
【数据集介绍】数据集中有很多增强图片，大约300张为原图剩余为增强图片数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：1159标注数量(xml文件个数)：1159标注数量(txt文件个数)：1159标注类别数：3所在仓库：firc-dataset标注类别名称(注意yo
2025年人工智能、虚拟现实与交互设计国际学术会议学术小八学术人工智能 vr 交互
重要信息官网：www.aivrid.com时间：2025年10月17-19日地点：中国-东莞部分介绍征稿主题包括但不限于：生物特征模式识别机器视觉专家系统深度学习智能搜索自动编程智能控制智能机器人系统组件虚拟现实平台用于VR/AR的AI平台数据和生成、操作、分析和验证浸入式环境和虚拟世界的生成优化和现实的渲染人工智能与用户体验个性化推荐系统情感计算与用户响应虚拟现实与沉浸式技术沉浸式环境设计交互设
机器学习深度学习驱动在光子学设计中的应用与未来【专题培训会议邀您共探科技前沿】软研科技信息与通信信号处理量子计算人工智能
一、背景介绍在智能科技飞速发展的今天，光子学设计与智能算法的结合正成为科研创新的热点。深度学习、机器学习等算法在光子器件的逆向设计、超构表面材料设计、光学神经网络构建等方面展现出巨大潜力。二、会议亮点由北京软研国际信息技术研究院主办的“智能算法驱动的光子学设计与应用”专题培训会议，将深入探讨以下核心内容：光子器件的逆向设计：利用深度学习优化多参数光子器件设计。超构表面与超材料设计：智能算法在新型光
【第三章:神经网络原理详解与Pytorch入门】02.深度学习框架PyTorch入门-(4)Pytorch实战 IT古董人工智能课程深度学习神经网络 pytorch
第三章:神经网络原理详解与Pytorch入门第二部分：深度学习框架PyTorch入门第四节：Pytorch模型构建内容：如何搭建复杂网络以及如何修改模型与保存一、构建复杂神经网络结构在PyTorch中，构建复杂模型通常通过继承nn.Module类，分模块组织层与前向传播逻辑。示例：自定义一个卷积神经网络（CNN）importtorch.nnasnnimporttorch.nn.functional
探秘AI大模型：一键获取深度学习精华-PPT全面解读曹筱习Dwayne
探秘AI大模型：一键获取深度学习精华-PPT全面解读【下载地址】AI大模型PPT资源下载本仓库提供了一个名为“ai大模型ppt”的资源文件下载。该资源文件详细介绍了AI大模型的相关内容，包括但不限于AI大模型的定义、应用场景、技术架构、发展趋势等。通过这份PPT，您可以深入了解AI大模型的核心概念和实际应用，为您的学习和研究提供有力支持项目地址:https://gitcode.com/open-s
人工智能基础知识PPT课件智慧化智能化数字化方案方案解读馆人工智能入门人工智能学习人工智能课件人工智能PPT
人工智能基础知识定义与概念：人工智能是研究、开发用于模拟、延伸和扩展人类智能行为的综合性科学，其目的是让计算机系统具备执行人类智能任务的能力。涉及计算机科学、数学等多学科，研究对象是让系统具备智能，智能包括认知、适应和自主能力等维度。学派与方法学派：有符号主义、联结主义、行为主义等学派，分别从不同角度研究人工智能。方法：包括基于知识、学习和仿生的方法，如专家系统、机器学习、深度学习等。分类与发展分
Spring4.1新特性——综述 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
Schema与数据类型优化 annan211 数据结构 mysql
目前商城的数据库设计真是一塌糊涂，表堆叠让人不忍直视，无脑的架构师，说了也不听。在数据库设计之初，就应该仔细揣摩可能会有哪些查询，有没有更复杂的查询，而不是仅仅突出很表面的业务需求，这样做会让你的数据库性能成倍提高，当然，丑陋的架构师是不会这样去考虑问题的。选择优化的数据类型 1 更小的通常更好更小的数据类型通常更快，因为他们占用更少的磁盘、内存和cpu缓存，
第一节 HTML概要学习 chenke html Web css
第一节 HTML概要学习 1. 什么是HTML HTML是英文Hyper Text Mark-up Language(超文本标记语言)的缩写，它规定了自己的语法规则，用来表示比“文本”更丰富的意义，比如图片，表格，链接等。浏览器（IE,FireFox等）软件知道HTML语言的语法，可以用来查看HTML文档。目前互联网上的绝大部分网页都是使用HTML编写的。打开记事本输入一下内
MyEclipse里部分习惯的更改 Array_06 eclipse
继续补充中---------------------- 1.更改自己合适快捷键windows-->prefences-->java-->editor-->Content Assist--> Activation triggers for java的右侧“.”就可以改变常用的快捷键选中 Text
近一个月的面试总结 cugfy 面试
本文是在学习中的总结，欢迎转载但请注明出处：http://blog.csdn.net/pistolove/article/details/46753275 前言打算换个工作，近一个月面试了不少的公司，下面将一些面试经验和思考分享给大家。另外校招也快要开始了，为在校的学生提供一些经验供参考，希望都能找到满意的工作。
HTML5一个小迷宫游戏 357029540 html5
通过《HTML5游戏开发》摘抄了一个小迷宫游戏，感觉还不错，可以画画，写字，把摘抄的代码放上来分享下，喜欢的同学可以拿来玩玩！ <html> <head> <title>创建运行迷宫</title> <script type="text/javascript"
10步教你上传githib数据张亚雄 git
官方的教学还有其他博客里教的都是给懂的人说得，对已我们这样对我大菜鸟只能这么来锻炼，下面先不玩什么深奥的，先暂时用着10步干净利索。等玩顺溜了再用其他的方法。操作过程（查看本目录下有哪些文件NO.1）ls （跳转到子目录NO.2）cd+空格+目录（继续NO.3）ls （匹配到子目录NO.4）cd+ 目录首写字母+tab键+（首写字母“直到你所用文件根就不再按TAB键了”）（查看文件
MongoDB常用操作命令大全 adminjun mongodb 操作命令
成功启动MongoDB后，再打开一个命令行窗口输入mongo，就可以进行数据库的一些操作。输入help可以看到基本操作命令，只是MongoDB没有创建数据库的命令，但有类似的命令如：如果你想创建一个“myTest”的数据库，先运行use myTest命令，之后就做一些操作（如：db.createCollection('user')）,这样就可以创建一个名叫“myTest”的数据库。一
bat调用jar包并传入多个参数 aijuans
下面的主程序是通过eclipse写的： 1.在Main函数接收bat文件传递的参数（String[] args）如： String ip =args[0]; String user=args[1]; &nbs
Java中对类的主动引用和被动引用 ayaoxinchao java 主动引用对类的引用被动引用类初始化
在Java代码中，有些类看上去初始化了，但其实没有。例如定义一定长度某一类型的数组，看上去数组中所有的元素已经被初始化，实际上一个都没有。对于类的初始化，虚拟机规范严格规定了只有对该类进行主动引用时，才会触发。而除此之外的所有引用方式称之为对类的被动引用，不会触发类的初始化。虚拟机规范严格地规定了有且仅有四种情况是对类的主动引用，即必须立即对类进行初始化。四种情况如下：1.遇到ne
导出数据库提示 outfile disabled BigBird2012 mysql
在windows控制台下，登陆mysql，备份数据库： mysql>mysqldump -u root -p test test > D:\test.sql 使用命令 mysqldump 格式如下： mysqldump -u root -p *** DBNAME > E:\\test.sql。注意：执行该命令的时候不要进入mysql的控制台再使用，这样会报
Javascript 中的 && 和 || bijian1013 JavaScript &&||
准备两个对象用于下面的讨论 var alice = { name: "alice", toString: function () { return this.name; } } var smith = { name: "smith",
[Zookeeper学习笔记之四]Zookeeper Client Library会话重建 bit1129 zookeeper
为了说明问题，先来看个简单的示例代码： package com.tom.zookeeper.book; import com.tom.Host; import org.apache.zookeeper.WatchedEvent; import org.apache.zookeeper.ZooKeeper; import org.apache.zookeeper.Wat
【Scala十一】Scala核心五：case模式匹配 bit1129 scala
package spark.examples.scala.grammars.caseclasses object CaseClass_Test00 { def simpleMatch(arg: Any) = arg match { case v: Int => "This is an Int" case v: (Int, String)
运维的一些面试题 yuxianhua linux
1、Linux挂载Winodws共享文件夹 mount -t cifs //1.1.1.254/ok /var/tmp/share/ -o username=administrator,password=yourpass 或 mount -t cifs -o username=xxx,password=xxxx //1.1.1.1/a /win
Java lang包-Boolean BrokenDreams boolean
Boolean类是Java中基本类型boolean的包装类。这个类比较简单，直接看源代码吧。 public final class Boolean implements java.io.Serializable,
读《研磨设计模式》-代码笔记-命令模式-Command bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.Collection; import java.util.List; /** * GOF 在《设计模式》一书中阐述命令模式的意图：“将一个请求封装
matlab下GPU编程笔记 cherishLC matlab
不多说，直接上代码 gpuDevice % 查看系统中的gpu,,其中的DeviceSupported会给出matlab支持的GPU个数。 g=gpuDevice(1); %会清空 GPU 1中的所有数据,,将GPU1 设为当前GPU reset(g) %也可以清空GPU中数据。 a=1; a=gpuArray(a); %将a从CPU移到GPU中 onGP
SVN安装过程 crabdave SVN
SVN安装过程 subversion-1.6.12 ./configure --prefix=/usr/local/subversion --with-apxs=/usr/local/apache2/bin/apxs --with-apr=/usr/local/apr --with-apr-util=/usr/local/apr --with-openssl=/
sql　行列转换 daizj sql 行列转换行转列列转行
行转列的思想是通过case when 来实现列转行的思想是通过union all 来实现下面具体例子：假设有张学生成绩表(tb)如下: Name Subject Result 张三语文　　74 张三数学　　83 张三物理　　93 李四语文　　74 李四数学　　84 李四物理　　94 */ /* 想变成姓名 &
MySQL--主从配置 dcj3sjt126com mysql
linux下的mysql主从配置：说明：由于MySQL不同版本之间的(二进制日志)binlog格式可能会不一样，因此最好的搭配组合是Master的MySQL版本和Slave的版本相同或者更低， Master的版本肯定不能高于Slave版本。（版本向下兼容） mysql1 : 192.168.100.1 //master mysq
关于yii 数据库添加新字段之后model类的修改 dcj3sjt126com Model
rules: array('新字段','safe','on'=>'search') 1、array('新字段', 'safe')//这个如果是要用户输入的话，要加一下， 2、array('新字段', 'numerical'),//如果是数字的话 3、array('新字段', 'length', 'max'=>100),//如果是文本 1、2、3适当的最少要加一条，新字段才会被
sublime text3 中文乱码解决 dyy_gusi Sublime Text
sublime text3中文乱码解决原因：缺少转换为UTF-8的插件目的：安装ConvertToUTF8插件包第一步：安装能自动安装插件的插件，百度“Codecs33”，然后按照步骤可以得到以下一段代码： import urllib.request,os,hashlib; h = 'eb2297e1a458f27d836c04bb0cbaf282' + 'd0e7a30980927
概念了解：CGI，FastCGI，PHP-CGI与PHP-FPM geeksun PHP
CGI CGI全称是“公共网关接口”(Common Gateway Interface)，HTTP服务器与你的或其它机器上的程序进行“交谈”的一种工具，其程序须运行在网络服务器上。 CGI可以用任何一种语言编写，只要这种语言具有标准输入、输出和环境变量。如php,perl,tcl等。 FastCGI FastCGI像是一个常驻(long-live)型的CGI，它可以一直执行着，只要激活后，不
Git push 报错 "error: failed to push some refs to " 解决 hongtoushizi git
Git push 报错 "error: failed to push some refs to " . 此问题出现的原因是：由于远程仓库中代码版本与本地不一致冲突导致的。由于我在第一次git pull --rebase 代码后，准备push的时候，有别人往线上又提交了代码。所以出现此问题。解决方案： 1： git pull 2：
第四章 Lua模块开发 jinnianshilongnian nginx lua
在实际开发中，不可能把所有代码写到一个大而全的lua文件中，需要进行分模块开发；而且模块化是高性能Lua应用的关键。使用require第一次导入模块后，所有Nginx 进程全局共享模块的数据和代码，每个Worker进程需要时会得到此模块的一个副本（Copy-On-Write），即模块可以认为是每Worker进程共享而不是每Nginx Server共享；另外注意之前我们使用init_by_lua中初
java.lang.reflect.Proxy liyonghui160com
1.简介 Proxy 提供用于创建动态代理类和实例的静态方法（1）动态代理类的属性代理类是公共的、最终的，而不是抽象的未指定代理类的非限定名称。但是，以字符串 "$Proxy" 开头的类名空间应该为代理类保留代理类扩展 java.lang.reflect.Proxy 代理类会按同一顺序准确地实现其创建时指定的接口
Java中getResourceAsStream的用法 pda158 java
1.Java中的getResourceAsStream有以下几种： 1. Class.getResourceAsStream(String path) ： path 不以’/'开头时默认是从此类所在的包下取资源，以’/'开头则是从ClassPath根下获取。其只是通过path构造一个绝对路径，最终还是由ClassLoader获取资源。　　2. Class.getClassLoader.get
spring 包官方下载地址（非maven） sinnk spring
SPRING官方网站改版后，建议都是通过 Maven和Gradle下载，对不使用Maven和Gradle开发项目的，下载就非常麻烦，下给出Spring Framework jar官方直接下载路径: http://repo.springsource.org/libs-release-local/org/springframework/spring/ s
Oracle学习笔记(7) 开发PLSQL子程序和包 vipbooks oracle sql 编程
哈哈，清明节放假回去了一下，真是太好了，回家的感觉真好啊！现在又开始出差之旅了，又好久没有来了，今天继续Oracle的学习！这是第七章的学习笔记，学习完第六章的动态SQL之后，开始要学习子程序和包的使用了……，希望大家能多给俺一些支持啊！编程时使用的工具是PLSQL