Rainbow0210

深入理解卷积神经网络(CNN)——从原理到实现

王琦 QQ：451165431 计算机视觉&深度学习

转载请注明出处：http://blog.csdn.net/Rainbow0210/article/details/78562926。

本篇通过在MNIST上的实验，引出卷积神经网络相关问题，详细阐释其原理以及常用技巧、调参方法。欢迎讨论相关技术&学术问题，但谢绝拿来主义。

代码是博主自己写的，因为倾向于详细阐述底层原理，所以没有用TensorFlow等主流DL框架。实验结果与TF等框架可能稍有不同，其原因在于权重初始化方式的差异等，但并不影响对于网络的本质的理解。

实验概述

数据集

MNIST：0-9共10个数字，其中，60000条训练样本，10000条测试样本，每条样本分辨率为 28×28 。拉伸为 1 维向量，因而为 28×28=784 维。

实验平台

Python 2.7

实验内容

通过CNN完成对MNIST数据集的分类。具体有需要实现一下三部分：

卷积层：实现卷积层，包含 Conv2D, Relu, AvgPooled2D，其中，Relu 在作业一中已经实现
可视化：实现第一个卷积层的可视化（经过 Relu 激活之后）
损失函数：实现 SoftmaxCrossEntropyLoss

实验原理

二维卷积 Conv2D

对于两个二维矩阵 I,K ，其卷积的数学表述为：

S (i, j) = (I * K) (i, j) = \sum m \sum n I (m, n) \cdot K (i - m, j - n)

其中，

∗ 表示卷积运算，

⋅ 表示点积。卷积运算满足交换律：

S (i, j) = (K * I) (i, j) = \sum m \sum n I (i - m, j - n) \cdot K (m, n)

由于在CNN中，卷积核往往是通过优化学习得到的，所以一般来讲，卷积和相关性是等价的：

S (i, j) = (K * I) (i, j) = \sum m \sum n I (i + m, j + n) \cdot K (m, n)

下图为相关性计算的示意图，卷积则只需将Kernel旋转

180∘ 即可：

池化 Pooling

将特征分为若干个相交/不相交的区域，再在每个区域上通过计算其最大值 (max-pooling) /均值 (average-pooling)，得到其池化特征。下图为最大池化 (max-pooling)的示意图：

罗杰斯特回归 Logistic Regression

对于一个二分类问题，设有两类 ω0,ω1 ，标签分别为 0,1 ，相应的网络只有一个输出神经元，则：

P (t = 1 ∣ x) P (t = 0 ∣ x) = 1 1 + e x p ( - θ T \cdot x ) ≜ h (x) = 1 - h (x)

其中， x 是样本， t∈(0,1) 是标签。对于包含 N 个独立同分布样本的数据集，记样本为 x(n) ，对应的标签为 t(n) ，有：

p (t (n) ∣ x (n), θ) = h (x (n)) t (n) \cdot (1 - h (x (n))) (1 - t (n))

由于样本满足独立同分布，所以

p (t (1), t (2), . . ., t (N) ∣ x (1), x (2), . . ., x (N), θ) = \prod n = 1 N h (x (n)) t (n) \cdot (1 - h (x (n))) (1 - t (n))

通过最大似然原理，使得上述概率密度最大，也就是使得下式取得最小（误差函数）：

E (θ) = = = - ln p (t (1), t (2), . . ., t (N) ∣ x (1), x (2), . . ., x (N), θ) - \sum n = 1 N (t (n) \cdot h (x (n)) + (1 - t (n)) \cdot (1 - h (x (n)))) \sum n = 1 N E (θ) (n)

其中， E(θ)(n) 为交叉熵误差函数 (Cross-entropy Error Function)，定义如下：

E (θ) (n) = - t (n) \cdot h (x (n)) - (1 - t (n)) \cdot (1 - h (x (n)))

对于网络的训练阶段，是寻找合适的 θ 最小化上述损失函数；在网络的预测阶段，若 P(t=1∣x)>P(t=0∣x) ，则预测为 ω1 ，否则为 ω0 。

Softmax 回归 Softmax Regression

对于 K 分类问题（ K>2 ），标签为 K 位的 0−1 形式，即属于第 i 类，则第 i 位为 1 ，其他位为 0 。和罗杰斯特回归类似，定义：

h k (x) ≜ P (t k = 1 ∣ x, θ) = e x p ( θ T k \cdot x ) \sum K j = 1 e x p ( θ T j \cdot x )

优化目标为：寻找一个合适的 θ ，使得：

当 x∈ωk 时， P(tk=1∣x,θ) 尽可能大
当 x∉ωk 时， P(tk=1∣x,θ) 尽可能小

Softmax 函数：

ϕ (z i) = e z i \sum j e z j \in (0, 1)

值得注意的是：

\sum i ϕ (z i) = 1

与罗杰斯特回归类似，可以定义包含 N 个样本的似然函数:

p (t (1), t (2), . . ., t (N) ∣ x (1), x (2), . . ., x (N), θ) = \prod n = 1 N \prod k = 1 K P (t k = 1 ∣ x (n), θ) t (n) k

同样，可以得到交叉熵损失函数：

E (θ) = = = = - ln p (t (1), t (2), . . ., t (N) ∣ x (1), x (2), . . ., x (N), θ) - \sum n = 1 N \sum k = 1 K (t (n) \cdot ln e x p ( θ T k \cdot x ( n ) ) \sum K j = 1 e x p ( θ T j \cdot x ( n ) )) - \sum n = 1 N \sum k = 1 K (t (n) \cdot ln h (n) k) \sum n = 1 N E (θ) (n)

其中， E(θ)(n) 为交叉熵误差函数 (Cross-entropy Error Function)，定义如下：

E (θ) (n) = - \sum k = 1 K t (n) k ln h (n) k

对于网络的训练阶段，是寻找合适的 θ 最小化上述损失函数；在网络的预测阶段，若 P(ti∣x)=maxjP(tj∣x) ，则预测为第 i 类。

卷积神经网络

其与全连接网络的主要区别在于：权值共享、局部互连、池化。在计算机视觉 (CV) 和自然语言处理 (NLP) 领域均有着广泛的应用。

前向传播

卷积层 Convolutional Layer:
$y (l + 1) p = σ (y (l) p * w (l) p + b p)$
其中， σ 是激活函数，在卷积神经网络中，常用 relu 激活函数:
$σ (x) = m a x (x, 0)$
池化层 Pooling Layer:
$y (l + 1) p = p o o l i n g (y (l) p)$
全连接层 Fully Connected Layer:
$y (l + 1) = σ (y (l) \cdot w (l) + b (l))$
若该全连接层为网络的最后一层，则激活函数通常为Softmax(Cross-entropy)或者Sigmoid(MSE)。

反向传播

误差函数：
对于包含 N 个样本的数据集，定义误差函数：

E=∑n=1NE(n)

其中， E(n) 是第 n 个样本的误差函数。
- MSE:
  $E (n) = 1 2 \sum k = 1 K (t k - y (L) k) 2$
- Cross-entropy:
  $E (n) = - \sum k = 1 K t k \cdot ln y (L) k$
权值更新：

$w (l) j, i b (l) j = = w (l) j, i - η \cdot \partial E \partial w ( l ) j , i b (l) j - η \cdot \partial E \partial b ( l ) j$
权值衰减：
定义代价函数：

$J = E + λ 2 \cdot \sum i, j, l (w (l) j, i) 2$
此时权值更新应为：

$w (l) j, i b (l) j = = w (l) j, i - η \cdot \partial J \partial w ( l ) j , i = w (l) j, i - η \cdot \partial E \partial w ( l ) j , i - λ \cdot η \cdot w (l) j, i b (l) j - η \cdot \partial J \partial b ( l ) j = b (l) j - η \cdot \partial E \partial b ( l ) j$
局部梯度：
定义局部梯度：

$δ (l) j = \partial E ( n ) \partial u ( l ) j$
值得注意的是，逐层梯度的传导：
$\partial y ( l ) i \partial y ( l - 1 ) j = \sum k = 1 m \partial y ( l ) i \partial u ( l ) k \cdot \partial u ( l ) k \partial y ( l - 1 ) j$
具体计算：
- Convolutional Layer:
  简单起见，以一维卷积为例，我们计算下图的梯度：
  
  如图所示，网络的前一层有 5 个节点，后一层有 3 个节点，卷积核大小为 3 ，对应的运算关系如图。则可以得到局部梯度：
  
  $δ (l) 1 δ (l) 2 = = = \partial E ( n ) \partial u ( l ) 1 = \partial E ( n ) \partial u ( l + 1 ) 1 \cdot \partial u ( l + 1 ) 1 \partial y ( l ) 1 \cdot \partial y ( l ) 1 \partial u ( l ) 1 = δ l + 1 1 \cdot w (l) 1 \cdot σ' (u (l) 1) \partial E ( n ) \partial u ( l ) 2 = \partial E ( n ) \partial u ( l + 1 ) 1 \cdot \partial u ( l + 1 ) 1 \partial y ( l ) 2 \cdot \partial y ( l ) 2 \partial u ( l ) 2 + \partial E ( n ) \partial u ( l + 1 ) 2 \cdot \partial u ( l + 1 ) 2 \partial y ( l ) 2 \cdot \partial y ( l ) 2 \partial u ( l ) 2 δ l + 1 1 \cdot w (l) 2 \cdot σ' (u (l) 2) + δ l + 1 2 \cdot w (l) 1 \cdot σ' (u (l) 2)$
  
  同理可以计算 δ(l)3,δ(l)4,δ(l)5 。得到如下结论：
  
  $δ (l) = (δ (l + 1) * w l) \cdot (σ' (u (l)))$
  权值 w(l) 的梯度:
  
  $\partial E ( n ) \partial w ( l ) 1 \partial E ( n ) \partial w ( l ) 2 \partial E ( n ) \partial w ( l ) 3 = = = \sum i = 1 3 \partial E ( n ) \partial u ( l + 1 ) i \cdot \partial u ( l + 1 ) i \partial w ( l ) 1 = δ (l + 1) 1 \cdot y (l) 1 + δ (l + 1) 2 \cdot y (l) 2 + δ (l + 1) 3 \cdot y (l) 3 \sum i = 1 3 \partial E ( n ) \partial u ( l + 1 ) i \cdot \partial u ( l + 1 ) i \partial w ( l ) 2 = δ (l + 1) 1 \cdot y (l) 2 + δ (l + 1) 2 \cdot y (l) 3 + δ (l + 1) 3 \cdot y (l) 4 \sum i = 1 3 \partial E ( n ) \partial u ( l + 1 ) i \cdot \partial u ( l + 1 ) i \partial w ( l ) 3 = δ (l + 1) 1 \cdot y (l) 3 + δ (l + 1) 2 \cdot y (l) 4 + δ (l + 1) 3 \cdot y (l) 5$
  
  得到如下结论：
  
  $\partial E ( n ) \partial w ( l ) \partial E ( n ) \partial b ( l ) = = y (l) * δ (l + 1) \sum i = 1 3 \partial E ( n ) \partial u ( l + 1 ) i \cdot \partial u ( l + 1 ) i \partial b ( l ) = \sum i = 1 3 δ (l + 1) i$
- Average Pooling Layer:
  
  以上图为例，推倒局部梯度的计算：
  
  $δ (l) 1 δ (l) 2 = = \partial E ( n ) \partial u ( l ) 1 = \partial E ( n ) \partial u ( l + 1 ) 1 \cdot \partial u ( l + 1 ) 1 \partial y ( l ) 1 \cdot \partial y ( l ) 1 \partial u ( l ) 1 = δ (l + 1) 1 \cdot 1 2 \cdot σ' (u (l) 1) \partial E ( n ) \partial u ( l ) 2 = \partial E ( n ) \partial u ( l + 1 ) 1 \cdot \partial u ( l + 1 ) 1 \partial y ( l ) 2 \cdot \partial y ( l ) 2 \partial u ( l ) 2 = δ (l + 1) 1 \cdot 1 2 \cdot σ' (u (l) 2)$
  
  同理可得:
  
  $δ (l) 3 = δ l + 1 2 \cdot 1 2 \cdot σ' (u (l) 3) δ (l) 4 = δ l + 1 2 \cdot 1 2 \cdot σ' (u (l) 4)$
- Max Pooling Layer:
  
  以上图为例，推倒局部梯度的计算：
  - 若 y(l)1≥y(l)2 ，
    $δ (l) 1 δ (l) 2 = = \partial E ( n ) \partial u ( l ) 1 = \partial E ( n ) \partial u ( l + 1 ) 1 \cdot \partial u ( l + 1 ) 1 \partial y ( l ) 1 \cdot \partial y ( l ) 1 \partial u ( l ) 1 = δ l + 1 1 \cdot σ' (u (l) 1) \partial E ( n ) \partial u ( l ) 2 = 0$
  - 否则
    
    $δ (l) 1 δ (l) 2 = = \partial E ( n ) \partial u ( l ) 1 = 0 \partial E ( n ) \partial u ( l ) 2 = δ l + 1 1 \cdot σ' (u (l) 2)$
  - 若 y(l)3≥y(l)4 ，
    
    $δ (l) 3 δ (l) 4 = = \partial E ( n ) \partial u ( l ) 3 = \partial E ( n ) \partial u ( l + 1 ) 2 \cdot \partial u ( l + 1 ) 2 \partial y ( l ) 3 \cdot \partial y ( l ) 3 \partial u ( l ) 3 = δ l + 1 2 \cdot σ' (u (l) 3) \partial E ( n ) \partial u ( l ) 4 = 0$
  - 否则
    $δ (l) 3 δ (l) 4 = = \partial E ( n ) \partial u ( l ) 3 = 0 \partial E ( n ) \partial u ( l ) 4 = δ l + 1 2 \cdot σ' (u (l) 4)$
  不妨假设 y(l)1≥y(l)2,y(l)3≥y(l)4 ，则：
  
  δ(l)1 δ(l)2 δ(l)3 δ(l)4====δl+11⋅σ′(u(l)1)0δl+12⋅σ′(u(l)3)0

代码实现

损失函数 SoftmaxCrossEntropyLoss

class SoftmaxCrossEntropyLoss(object):
    def __init__(self, name):
        self.name = name
        self.h = None

    def forward(self, input, target):
        exp_input = np.exp(input)
        sum = np.sum(exp_input, axis=1)
        h = np.divide(exp_input.T, sum).T
        self.h = h
        return np.mean(np.sum(- target * np.log(h), axis=1))

    def backward(self, input, target):
        return (self.h - target) / len(input)

卷积层

class Conv2D(Layer):
    def __init__(self, name, in_channel, out_channel, kernel_size, pad, init_std):
        super(Conv2D, self).__init__(name, trainable=True)
        self.kernel_size = kernel_size
        self.pad = pad
        self.W = np.random.randn(out_channel, in_channel, kernel_size, kernel_size) * init_std
        self.b = np.zeros(out_channel)

        self.diff_W = np.zeros(self.W.shape)
        self.diff_b = np.zeros(out_channel)

    def forward(self, input):
        self._saved_for_backward(input)
        output = conv2d_forward(input, self.W, self.b, self.kernel_size, self.pad)
        return output

    def backward(self, grad_output):
        input = self._saved_tensor
        grad_input, self.grad_W, self.grad_b = conv2d_backward(input, grad_output, self.W, self.b, self.kernel_size, self.pad)
        return grad_input

    def update(self, config):
        mm = config['momentum']
        lr = config['learning_rate']
        wd = config['weight_decay']

        self.diff_W = mm * self.diff_W + (self.grad_W + wd * self.W)
        self.W = self.W - lr * self.diff_W

        self.diff_b = mm * self.diff_b + (self.grad_b + wd * self.b)
        self.b = self.b - lr * self.diff_b

池化层

class AvgPool2D(Layer):
    def __init__(self, name, kernel_size, pad):
        super(AvgPool2D, self).__init__(name)
        self.kernel_size = kernel_size
        self.pad = pad

    def forward(self, input):
        self._saved_for_backward(input)
        output = avgpool2d_forward(input, self.kernel_size, self.pad)
        return output

    def backward(self, grad_output):
        input = self._saved_tensor
        grad_input = avgpool2d_backward(input, grad_output, self.kernel_size, self.pad)
        return grad_input

实验参数

网络结构

层序号	网络层类型	输入节点数	输出节点数	核大小
1	Conv2D	12828	82828	3*3
2	Relu	82828	82828	-
3	AvgPool2D	82828	81414	2*2
4	Conv2D	81414	161414	3*3
5	Relu	161428	161414	-
6	AvgPool2D	161414	1677	2*2
7	Reshape	1677	784	-
8	Linear(FC)	784	256	-
9	Relu	256	256	-
10	Linear(FC)	256	10	-
11	Relu	10	10	-

learning rate	weight_decay	momentum	epoch	batch_size
0.01	0.0001	0.9	100	100

实验结果

epoch	训练集loss	测试集loss	训练集accuracy	测试集accuracy
0	0.1224	0.1495	96.23	95.14
10	0.0341	0.0400	98.89	98.54
20	0.0149	0.0355	99.49	98.92
30	0.0117	0.0342	99.69	98.93
40	0.0075	0.0351	99.77	98.85
50	0.0049	0.0365	99.89	98.88
60	0.0037	0.0343	99.94	98.99
70	0.0029	0.0322	99.97	98.97
80	0.0024	0.0322	99.98	99.03
90	0.0023	0.0313	99.98	99.02
100	0.0022	0.0307	99.99	99.10

第一层卷积层的结果可视化：

从实验结果可以看出，相比于MLP的 98.67% 的test-accuracy，CNN的test-accuracy更高，可以达到 99.10% ，但是test-loss却不比MLP低,可能的原因是由于CNN的局部互连性，导致一些全局信息的丢失，但是这些信息对于分类结果却影响不大。在CPU上，CNN的训练速度远远慢于MLP，一个epoch大概需要 6 分钟，但是在相同的超参数设置下，有着更快的收敛速度， 20 个epoch就基本收敛。

AIGC视频生成国产之光：ByteDance的PixelDance模型好评笔记 AIGC-视频补档 AIGC 计算机视觉人工智能深度学习机器学习论文阅读面试
大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本文详细介绍ByteDance的视频生成模型PixelDance，论文于2023年11月发布，模型上线于2024年9月，同时期上线的模型还有Seaweed（论文未发布）。优质专栏回顾：机器学习笔记深度学习笔记多模态论文笔记AIGC—图像文章目录论文摘要引言输入训练和推理时的数据处理总结相关工作视频生成长视频生成方法模型架构
PyTorch 基础数据集：从理论到实践的深度学习基石那年一路北 Pytorch理论+实践深度学习 pytorch 人工智能
一、引言深度学习作为当今人工智能领域的核心技术，在图像识别、自然语言处理、语音识别等众多领域取得了令人瞩目的成果。而在深度学习的体系中，数据扮演着举足轻重的角色，它是模型训练的基础，如同建筑的基石，决定了模型的性能和泛化能力。PyTorch作为当下最流行的深度学习框架之一，为开发者提供了丰富且强大的工具来处理数据集。本文将深入探讨PyTorch中的基础数据集，从深度学习中数据的重要性出发，详细介绍
【深度学习】Pytorch：导入导出模型参数 T0uken 深度学习 pytorch 人工智能
PyTorch是深度学习领域中广泛使用的框架，熟练掌握其模型参数的管理对于模型训练、推理以及部署非常重要。本文将全面讲解PyTorch中关于模型参数的操作，包括如何导出、导入以及如何下载模型参数。什么是模型参数模型参数是指深度学习模型中需要通过训练来优化的变量，如神经网络中的权重和偏置。这些参数存储在PyTorch的torch.nn.Module对象中，通过以下方式访问：importtorchim
matlab程序代编程写做代码图像处理BP神经网络机器深度学习python matlabgoodboy 深度学习 matlab 图像处理
1.安装必要的库首先，确保你已经安装了必要的Python库。如果没有安装，请运行以下命令：bash复制代码pipinstallnumpymatplotlibtensorflowopencv-python2.图像预处理我们将使用OpenCV来加载和预处理图像数据。假设你有一个图像数据集，每个类别的图像存放在单独的文件夹中。python复制代码importosimportcv2importnumpya
Python气象数据分析：风速预报订正、台风预报数据智能订正、机器学习预测风电场的风功率、浅水模型、预测ENSO等小艳加油大气科学 python 人工智能气象机器学习
目录专题一Python和科学计算基础专题二机器学习和深度学习基础理论和实操专题三气象领域中的机器学习应用实例专题四气象领域中的深度学习应用实例更多应用Python是功能强大、免费、开源，实现面向对象的编程语言，在数据处理、科学计算、数学建模、数据挖掘和数据可视化方面具备优异的性能，这些优势使得Python在气象、海洋、地理、气候、水文和生态等地学领域的科研和工程项目中得到广泛应用。可以预见未来Py
深度学习笔记——模型部署好评笔记深度学习笔记深度学习笔记人工智能 transformer 模型部署大模型部署大模型
大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本文简要概括模型部署的知识点，包括步骤和部署方式。文章目录模型部署模型部署的关键步骤常见的模型部署方式优势与挑战总结边缘端部署方案总结历史文章机器学习深度学习模型部署模型部署是指将训练好的机器学习或深度学习模型集成到生产环境中，使其能够在实际应用中处理实时数据和提供预测服务。模型部署的流程涉及模型的封装、部署环境的选择、部
基于Python机器学习、深度学习技术提升气象、海洋、水文领域实践应用 KY_chenzhao python 机器学习深度学习气象
1.背景与目标ENSO（ElNiño-SouthernOscillation）是全球气候系统中最显著的年际变率现象之一，对全球气候、农业、渔业等有着深远的影响。准确预测ENSO事件的发生和发展对于减灾防灾具有重要意义。近年来，深度学习技术在气象领域得到了广泛应用，其中长短期记忆网络（LSTM）因其在处理时间序列数据方面的优势，被广泛用于ENSO预测。2.数据准备数据来源包括NOAA（美国国家海洋和
基于深度学习的极端天气预测全解析与实战指南：基于MetNet 模型 AI_DL_CODE 深度学习人工智能 MetNet 天气预测 python
摘要：本文全面解析了基于深度学习的极端天气预测，重点介绍了MetNet模型。首先，文章阐述了极端天气预测的重要性和传统天气预报的局限性。接着，详细介绍了MetNet模型的基本架构、特点以及与其他气象预测模型的对比。然后，通过实战案例展示了MetNet模型在极端降雨天气预测中的应用，包括数据准备、模型搭建与训练、模型评估与预测。最后，文章总结了MetNet模型的优势与挑战，并展望了深度学习在气象领域
国自然青年项目｜基于多模态影像组学的乳腺癌分子分型预测研究｜基金申请·25-01-20 罗小罗同学基金申请医学人工智能人工智能国自然
小罗碎碎念今天和大家分享一份国自然青年项目，项目执行期为2021-2023年，直接费用为24万。项目聚焦乳腺癌分子分型预测，综合运用多模态组学数据、影像组学技术和深度学习技术。研究内容包括跨模态医学图像分割、多模态特征提取与融合、模型设计与系统研发。通过提出一系列创新算法，如基于类别中心原型对齐器的图像分割算法、基于自注意力机制与生成对抗网络的聚类算法等，实现了对乳腺癌分子分型的高精度预测，并开发
深度学习乐园智能零售柜商品识别 Java先进事迹深度学习零售人工智能
1.项目简介本项目专注于智能零售柜商品识别，是为第六届信也科技杯图像算法大赛设计的方案。其核心目标是利用深度学习技术，实现对顾客选购商品的精准识别和自动化结算。当商品被放置在指定区域时，系统应自动检测并识别每件商品，生成购物清单并计算总价格，提升零售柜的自动化与便利性。此类智能系统在不需要售货员的情况下即可进行商品识别和结算，相较于传统的硬件分隔、重量判断、顾客行为监测、或射频识别技术，这种方法不
在PyTorch框架上训练ImageNet时，Dataloader加载速度慢怎么解决？ cda2024 pytorch 人工智能 python
在深度学习领域，PyTorch因其灵活性和易用性而受到广泛欢迎。然而，在实际应用中，特别是在处理大规模数据集如ImageNet时，Dataloader的加载速度往往成为瓶颈。本文将深入探讨这一问题，并提供多种解决方案，帮助你在PyTorch框架上高效地训练ImageNet。1.问题背景ImageNet是一个包含超过1400万张图像的大规模数据集，被广泛用于图像分类任务的研究。在PyTorch中，D
ACNet：深度学习中的自适应卷积网络新星郎轶诺
ACNet：深度学习中的自适应卷积网络新星项目地址:https://gitcode.com/gh_mirrors/ac/ACNet在深度学习领域，卷积神经网络（CNN）一直是图像处理和计算机视觉任务的核心技术。然而，传统的固定大小的卷积核无法灵活适应不同区域的信息密度。针对这一问题，ACNet（AdaptiveConvolutionNetwork）项目应运而生，它引入了一种新型的自适应卷积层，旨在
自适应神经网络架构：原理解析与代码示例 chian-ocean 机器学习神经网络人工智能深度学习
个人主页：chian-ocean文章专栏自适应神经网络结构：深入探讨与代码实现1.引言随着深度学习的不断发展，传统神经网络模型在处理复杂任务时的局限性逐渐显现。固定的网络结构和参数对于动态变化的环境和多样化的数据往往难以适应，导致了过拟合或欠拟合的问题。自适应神经网络（AdaptiveNeuralNetworks,ANN）为此提供了一种新的解决方案，它可以根据数据特征和训练情况自动调整网络结构，从
全面解析NVIDIA显卡：从入门级到旗舰级显卡详解花千树-010 大模型人工智能算法智能电视
在选择显卡时，了解不同显卡的性能和适用场景是非常重要的。无论你是预算有限的入门用户，还是追求极致性能的游戏玩家，亦或是专业的内容创作者和深度学习研究人员，NVIDIA都有适合你的显卡。本篇博文将详细列举NVIDIA显卡的各项配置，从低到高逐一整理，并给出适用的使用场景。入门级显卡NVIDIAGeForceGT1030CUDA核心数:384基础频率:1227MHz加速频率:1468MHz显存:2GB
直播预告丨精度优于AlphaFold，基于深度学习实现生物大分子及其互作的三维结构预测
「MeetAI4S」系列直播第6期将于1月15日19:00准时开播，HyperAI超神经有幸邀请到了南开大学统计与数据科学学院教授郑伟，他本次分享的主题是「AlphaFold3王座未稳，来自学术界的反超：基于深度学习的生物大分子及其互作的三维结构预测」。蛋白质的功能取决于其独特的三维结构，近年来，基于深度学习等人工智能技术的蛋白质结构预测发展迅猛，AlphaFold甚至获得了2024年诺贝尔化学奖
AI代码生成工具的未来：杨立昆的洞见与AI革命前端
近年来，人工智能（AI）领域取得了令人瞩目的进展，特别是以大型语言模型为代表的AI技术，在自然语言处理、图像生成等领域展现出强大的能力。然而，深度学习先驱杨立昆（YannLeCun）却对现有的AI系统提出了尖锐的批评，他认为目前的AI系统“理解能力远不如猫”，缺乏对真实世界的理解和常识。这引发了人们对AI未来发展方向的思考，也为我们探讨AI代码生成工具，以及AI技术对人类社会的影响提供了新的视角。
【TVM 教程】内联及数学函数
ApacheTVM是一个端到端的深度学习编译框架，适用于CPU、GPU和各种机器学习加速芯片。更多TVM中文文档可访问→https://tvm.hyper.ai/作者：TianqiChen尽管TVM支持基本的算术运算，但很多时候，也需要复杂的内置函数，例如exp取指函数。这些函数是依赖target系统的，并且在不同target平台中可能具有不同的名称。本教程会学习到如何调用这些target-spe
基于YOLOv5、YOLOv8和YOLOv10的自助售货机商品检测：深度学习实践与应用 2025年数学建模美赛 YOLO 深度学习人工智能目标跟踪目标检测
引言自助售货机已经成为现代零售和自动化销售领域的重要组成部分。在自助售货机中，商品的检测与管理至关重要。通过精准的商品检测技术，售货机可以在商品售出后自动更新库存，并提供准确的商品信息反馈。然而，在复杂的环境下进行商品检测是一个具有挑战性的问题，尤其是在商品种类繁多、摆放方式多样以及光照条件变化较大的情况下。近年来，基于深度学习的目标检测算法，特别是YOLO（YouOnlyLookOnce）系列模
【分类】【损失函数】处理类别不平衡：CEFL 和 CEFL2 损失函数的实现与应用丶2136 AI 分类人工智能损失函数
引言在深度学习中的分类问题中，类别不平衡问题是常见的挑战之一。尤其在面部表情分类任务中，不同表情类别的样本数量可能差异较大，比如“开心”表情的样本远远多于“生气”表情。面对这种情况，普通的交叉熵损失函数容易导致模型过拟合到大类样本，忽略少数类样本。为了有效解决类别不平衡问题，Class-balancedExponentialFocalLoss(CEFL)和Class-balancedExponen
交叉熵损失函数（Cross-Entropy Loss）我叫罗泽南深度学习人工智能
原理交叉熵损失函数是深度学习中分类问题常用的损失函数，特别适用于多分类问题。它通过度量预测分布与真实分布之间的差异，来衡量模型输出的准确性。交叉熵的数学公式交叉熵的定义如下：CrossEntroyLoss=−∑i=1Nyi⋅log(y^i)\begin{equation}CrossEntroyLoss=-\sum_{i=1}^{N}y_i\cdotlog(\hat{y}_i)\end{equati
AI大模型引领医疗变革：十大创新应用场景塑造智慧医疗新时代和老莫一起学AI 人工智能自动化数据库学习语言模型大模型
前言在人工智能技术的迅猛发展中，AI大模型以其无与伦比的数据处理能力和深度学习能力，正逐步成为医疗健康领域变革的引领者。本文旨在深入探讨AI大模型在医疗领域的十大创新应用场景，展示其如何显著提升医疗服务效率、赋能临床决策，并推动整个行业向智能化转型。一、智能化诊疗：精准辅助，提升诊断效率AI大模型凭借对海量医疗数据的深度分析，能够协助医生进行更为精准的诊断。例如，百度灵医大模型凭借强大的数据处理能
技术文档的精髓：规划布局、语言表达与更新维护重庆钢铁侠经验分享
本文将从技术文档的规划布局、语言表达以及更新与维护三个方面入手，探讨如何打造一份出色的技术文档，确保信息的系统性、连贯性以及时效性。一：技术文档的规划布局1.1确定文档的整体架构技术文档的规划布局是确保信息呈现系统性和连贯性的关键。首先，需要确定文档的整体架构，这包括章节设置和逻辑顺序。一个好的架构应该能够清晰地指导读者从入门到精通。章节设置：根据文档的目的和受众，合理设置章节。例如，对于深度学习
基于深度学习的推荐系统构建：Movielens 数据集 fresh的转码之路深度学习人工智能机器学习推荐算法
基于深度学习的推荐系统构建：Movielens数据集依赖环境代码语言：python3.11.5开发平台：pycharmtensorflow版本：2.18.0MovieLen1M数据及简介MovieLens1M数据集包含包含6000个用户在近4000部电影上的100万条评分，也包括电影元数据信息和用户属性信息。下载地址为：http://files.grouplens.org/datasets/mov
海外抖音技术深度解析：算法、AI与全球化的挑战神探阿航计算机产业科普与思考算法人工智能机器学习数据挖掘深度学习
引言2025年1月19日，在美国宣布暂停服务，这一事件引发了全球用户的广泛关注。作为全球最受欢迎的短视频平台之一，其成功离不开其强大的技术支撑，尤其是其个性化推荐算法和AI驱动的创作工具。然而，随着全球市场环境的变化，它面临的技术与运营挑战也日益凸显。本文将深入分析其技术核心、全球化运营中的挑战及其未来发展方向。核心：个性化推荐引擎其算法是其成功的关键，其核心在于个性化推荐引擎。该引擎采用深度学习
YOLOv8与Transformer：探索目标检测的新架构 AI架构设计之禅 AI大模型应用入门实战与进阶大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
YOLOv8与Transformer：探索目标检测的新架构关键词：目标检测，深度学习，YOLOv8，Transformer，计算机视觉，卷积神经网络摘要：目标检测是计算机视觉领域的一项重要任务，其目标是从图像或视频中识别和定位特定对象。近年来，YOLO（YouOnlyLookOnce）系列算法以其高精度和高速度成为目标检测领域的佼佼者。最新版本的YOLOv8引入了Transformer架构，进一步
图像生成大模型：Imagen 详解转角再相遇 imagen python 深度学习计算机视觉
近年来，图像生成技术取得了显著进展，推动了计算机视觉和生成对抗网络（GAN）等领域的发展。Imagen是一个新兴的图像生成大模型，其在生成高质量、逼真图像方面表现出色。本文将详细讲解Imagen的基本原理、架构、训练流程及应用场景。1.Imagen的基本原理1.1什么是Imagen？Imagen是一种基于深度学习的图像生成模型，结合了自注意力机制（Self-attentionMechanism）和
【MySQL】Mysql数据库导入导出sql文件、备份数据库、迁移数据库程序员洲洲数据库数据库 mysql 导入导出sql sql文件备份迁移
本文摘要：本文提出了xxx的实用开发小技巧。作者介绍：我是程序员洲洲，一个热爱写作的非著名程序员。CSDN全栈优质领域创作者、华为云博客社区云享专家、阿里云博客社区专家博主。同时欢迎大家关注其他专栏，我将分享Web前后端开发、人工智能、机器学习、深度学习从0到1系列文章。同时洲洲已经建立了程序员技术交流群，如果您感兴趣，可以私信我加入我的社群，也可以直接vx联系（文末有名片）v：bdizztt随时
实战千问2大模型第五天——VLLM 运行 Qwen2-VL-7B（多模态）学术菜鸟小晨千问多模型 qwen2 vl
一、简介VLLM是一种高效的深度学习推理库，通过PagedAttention算法有效管理大语言模型的注意力内存，其特点包括24倍的吞吐提升和3.5倍的TGI性能，无需修改模型结构，专门设计用于加速大规模语言模型（LLM）的推理过程。它通过优化显存管理、支持大模型的批处理推理以及减少不必要的内存占用，来提高多GPU环境下的推理速度和效率。VLLM的核心特点包括：显存高效性：VLLM能够动态管理显存，
qwenvl 代码中的attention pool 注意力池如何理解，attention pool注意力池是什么？ OpenSani AI 大模型计算机视觉语言模型 qwenvl LLM
qwenvl中的attentionpool如何理解，其实这就是一个概念的问题看qwenvl的huggingface的代码的时候，发现代码里有一个Resampler以及attn_pool，这和之前理解的连接池线程池表示资源复用的意思不太一样，查了一下：注意这里的pool和线程池连接池里面的pool不一样:深度学习中的池化：池化在深度学习中主要指通过滑动窗口对特征图进行下采样，提取最重要的特征，减少计
计算机视觉与深度学习：使用深度学习训练基于视觉的车辆检测器（MATLAB源码-Faster R-CNN） ZhShy23 javascript 深度学习
在人工智能领域，计算机视觉是一个重要且充满活力的研究方向。它使计算机能够理解和分析图像和视频数据，从而做出有意义的决策。其中，目标检测是计算机视觉中的一项关键技术，它旨在识别并定位图像中的多个目标对象。车辆检测作为目标检测的一个重要应用，在自动驾驶、智能交通系统等领域有着广泛的应用前景。本文将介绍如何使用MATLAB和深度学习技术，特别是FasterR-CNN模型，来训练一个车辆检测器。文章目录一
桌面上有多个球在同时运动，怎么实现球之间不交叉，即碰撞？换个号韩国红果果 html 小球碰撞
稍微想了一下，然后解决了很多bug，最后终于把它实现了。其实原理很简单。在每改变一个小球的x y坐标后，遍历整个在dom树中的其他小球，看一下它们与当前小球的距离是否小于球半径的两倍？若小于说明下一次绘制该小球（设为a）前要把他的方向变为原来相反方向（与a要碰撞的小球设为b），即假如当前小球的距离小于球半径的两倍的话，马上改变当前小球方向。那么下一次绘制也是先绘制b，再绘制a，由于a的方向已经改变
《高性能HTML5》读后整理的Web性能优化内容白糖_ html5
读后感先说说《高性能HTML5》这本书的读后感吧，个人觉得这本书前两章跟书的标题完全搭不上关系，或者说只能算是讲解了“高性能”这三个字，HTML5完全不见踪影。个人觉得作者应该首先把HTML5的大菜拿出来讲一讲，再去分析性能优化的内容，这样才会有吸引力。因为只是在线试读，没有机会看后面的内容，所以不胡乱评价了。
[JShop]Spring MVC的RequestContextHolder使用误区 dinguangx jeeshop 商城系统 jshop 电商系统
在spring mvc中，为了随时都能取到当前请求的request对象，可以通过RequestContextHolder的静态方法getRequestAttributes()获取Request相关的变量，如request, response等。在jshop中，对RequestContextHolder的
算法之时间复杂度周凡杨 java 算法时间复杂度效率
在计算机科学中，算法的时间复杂度是一个函数，它定量描述了该算法的运行时间。这是一个关于代表算法输入值的字符串的长度的函数。时间复杂度常用大O符号表述，不包括这个函数的低阶项和首项系数。使用这种方式时，时间复杂度可被称为是渐近的，它考察当输入值大小趋近无穷时的情况。这样用大写O()来体现算法时间复杂度的记法，
Java事务处理 g21121 java
一、什么是Java事务通常的观念认为，事务仅与数据库相关。事务必须服从ISO/IEC所制定的ACID原则。ACID是原子性（atomicity）、一致性（consistency）、隔离性（isolation）和持久性（durability）的缩写。事务的原子性表示事务执行过程中的任何失败都将导致事务所做的任何修改失效。一致性表示当事务执行失败时，所有被该事务影响的数据都应该恢复到事务执行前的状
Linux awk命令详解 510888780 linux
一. AWK 说明 awk是一种编程语言，用于在linux/unix下对文本和数据进行处理。数据可以来自标准输入、一个或多个文件，或其它命令的输出。它支持用户自定义函数和动态正则表达式等先进功能，是linux/unix下的一个强大编程工具。它在命令行中使用，但更多是作为脚本来使用。 awk的处理文本和数据的方式：它逐行扫描文件，从第一行到
android permission 布衣凌宇 Permission
<uses-permission android:name="android.permission.ACCESS_CHECKIN_PROPERTIES" ></uses-permission>允许读写访问"properties"表在checkin数据库中，改值可以修改上传 <uses-permission android:na
Oracle和谷歌Java Android官司将推迟 aijuans java oracle
北京时间 10 月 7 日，据国外媒体报道，Oracle 和谷歌之间一场等待已久的官司可能会推迟至 10 月 17 日以后进行，这场官司的内容是 Android 操作系统所谓的 Java 专利权之争。本案法官 William Alsup 称根据专利权专家 Florian Mueller 的预测，谷歌 Oracle 案很可能会被推迟。　　该案中的第二波辩护被安排在 10 月 17 日出庭，从目前看来
linux shell 常用命令 antlove linux shell command
grep [options] [regex] [files] /var/root # grep -n "o" * hello.c:1:/* This C source can be compiled with:
Java解析XML配置数据库连接(DOM技术连接 SAX技术连接) 百合不是茶 sax技术 Java解析xml文档 dom技术 XML配置数据库连接
XML配置数据库文件的连接其实是个很简单的问题,为什么到现在才写出来主要是昨天在网上看了别人写的,然后一直陷入其中,最后发现不能自拔所以今天决定自己完成 ,,,,现将代码与思路贴出来供大家一起学习 XML配置数据库的连接主要技术点的博客; JDBC编程 : JDBC连接数据库 DOM解析XML: DOM解析XML文件 SA
underscore.js 学习（二） bijian1013 JavaScript underscore
Array Functions 所有数组函数对参数对象一样适用。1.first _.first(array, [n]) 别名: head, take 返回array的第一个元素，设置了参数n，就
plSql介绍 bijian1013 oracle 数据库 plsql
/* * PL/SQL 程序设计学习笔记 * 学习plSql介绍.pdf * 时间：2010-10-05 */ --创建DEPT表 create table DEPT ( DEPTNO NUMBER(10), DNAME NVARCHAR2(255), LOC NVARCHAR2(255) ) delete dept; select
【Nginx一】Nginx安装与总体介绍 bit1129 nginx
启动、停止、重新加载Nginx nginx 启动Nginx服务器，不需要任何参数u nginx -s stop 快速(强制)关系Nginx服务器 nginx -s quit 优雅的关闭Nginx服务器 nginx -s reload 重新加载Nginx服务器的配置文件 nginx -s reopen 重新打开Nginx日志文件
spring mvc开发中浏览器兼容的奇怪问题 bitray jquery Ajax springMVC 浏览器上传文件
最近个人开发一个小的OA项目,属于复习阶段.使用的技术主要是spring mvc作为前端框架,mybatis作为数据库持久化技术.前台使用jquery和一些jquery的插件. 在开发到中间阶段时候发现自己好像忽略了一个小问题,整个项目一直在firefox下测试,没有在IE下测试,不确定是否会出现兼容问题.由于jquer
Lua的io库函数列表 ronin47 lua io
1、io表调用方式：使用io表，io.open将返回指定文件的描述，并且所有的操作将围绕这个文件描述　　io表同样提供三种预定义的文件描述io.stdin,io.stdout,io.stderr 　　2、文件句柄直接调用方式,即使用file:XXX()函数方式进行操作,其中file为io.open()返回的文件句柄　　多数I/O函数调用失败时返回nil加错误信息,有些函数成功时返回nil
java-26-左旋转字符串 bylijinnan java
public class LeftRotateString { /** * Q 26 左旋转字符串 * 题目：定义字符串的左旋转操作：把字符串前面的若干个字符移动到字符串的尾部。 * 如把字符串abcdef左旋转2位得到字符串cdefab。 * 请实现字符串左旋转的函数。要求时间对长度为n的字符串操作的复杂度为O(n)，辅助内存为O(1)。 */ pu
《vi中的替换艺术》-linux命令五分钟系列之十一 cfyme linux命令
vi方面的内容不知道分类到哪里好，就放到《Linux命令五分钟系列》里吧！今天编程，关于栈的一个小例子，其间我需要把”S.”替换为”S->”(替换不包括双引号)。其实这个不难，不过我觉得应该总结一下vi里的替换技术了，以备以后查阅。 1 所有替换方案都要在冒号“:”状态下书写。 2 如果想将abc替换为xyz，那么就这样 :s/abc/xyz/ 不过要特别
[轨道与计算]新的并行计算架构 comsci 并行计算
我在进行流程引擎循环反馈试验的过程中，发现一个有趣的事情。。。如果我们在流程图的每个节点中嵌入一个双向循环代码段，而整个流程中又充满着很多并行路由，每个并行路由中又包含着一些并行节点，那么当整个流程图开始循环反馈过程的时候，这个流程图的运行过程是否变成一个并行计算的架构呢？
重复执行某段代码 dai_lm android
用handler就可以了 private Handler handler = new Handler(); private Runnable runnable = new Runnable() { public void run() { update(); handler.postDelayed(this, 5000); } }; 开始计时 h
Java实现堆栈（list实现） datageek 数据结构——堆栈
public interface IStack<T> { //元素出栈，并返回出栈元素 public T pop(); //元素入栈 public void push(T element); //获取栈顶元素 public T peek(); //判断栈是否为空 public boolean isEmpty
四大备份MySql数据库方法及可能遇到的问题 dcj3sjt126com DB backup
一：通过备份王等软件进行备份前台进不去？用备份王等软件进行备份是大多老站长的选择，这种方法方便快捷，只要上传备份软件到空间一步步操作就可以，但是许多刚接触备份王软件的客用户来说还原后会出现一个问题：因为新老空间数据库用户名和密码不统一，网站文件打包过来后因没有修改连接文件，还原数据库是好了，可是前台会提示数据库连接错误，网站从而出现打不开的情况。解决方法：学会修改网站配置文件，大多是由co
github做webhooks：[1]钩子触发是否成功测试 dcj3sjt126com github git webhook
转自: http://jingyan.baidu.com/article/5d6edee228c88899ebdeec47.html github和svn一样有钩子的功能，而且更加强大。例如我做的是最常见的push操作触发的钩子操作，则每次更新之后的钩子操作记录都会在github的控制板可以看到！工具/原料 github 方法/步骤
">的作用" target="_blank">JSP中的作用蕃薯耀
JSP中<base href="<%=basePath%>">的作用 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
linux下SAMBA服务安装与配置 hanqunfeng linux
局域网使用的文件共享服务。一.安装包： rpm -qa | grep samba samba-3.6.9-151.el6.x86_64 samba-common-3.6.9-151.el6.x86_64 samba-winbind-3.6.9-151.el6.x86_64 samba-client-3.6.9-151.el6.x86_64 samba-winbind-clients
guava cache IXHONG cache
缓存，在我们日常开发中是必不可少的一种解决性能问题的方法。简单的说，cache 就是为了提升系统性能而开辟的一块内存空间。　　缓存的主要作用是暂时在内存中保存业务系统的数据处理结果，并且等待下次访问使用。在日常开发的很多场合，由于受限于硬盘IO的性能或者我们自身业务系统的数据处理和获取可能非常费时，当我们发现我们的系统这个数据请求量很大的时候，频繁的IO和频繁的逻辑处理会导致硬盘和CPU资源的
Query的开始--全局变量,noconflict和兼容各种js的初始化方法 kvhur JavaScript jquery css
这个是整个jQuery代码的开始，里面包含了对不同环境的js进行的处理，例如普通环境，Nodejs，和requiredJs的处理方法。还有jQuery生成$, jQuery全局变量的代码和noConflict代码详解完整资源： http://www.gbtags.com/gb/share/5640.htm jQuery 源码： (
美国人的福利和中国人的储蓄 nannan408
今天看了篇文章，震动很大，说的是美国的福利。美国医院的无偿入院真的是个好措施。小小的改善，对于社会是大大的信心。小孩，税费等，政府不收反补，真的体现了人文主义。美国这么高的社会保障会不会使人变懒？答案是否定的。正因为政府解决了后顾之忧，人们才得以倾尽精力去做一些有创造力，更造福社会的事情，这竟成了美国社会思想、人
N阶行列式计算(JAVA) qiuwanchi N阶行列式计算
package gaodai; import java.util.List; /** * N阶行列式计算 * @author 邱万迟 * */ public class DeterminantCalculation { public DeterminantCalculation(List<List<Double>> determina
C语言算法之打渔晒网问题 qiufeihu c 算法
如果一个渔夫从2011年1月1日开始每三天打一次渔，两天晒一次网，编程实现当输入2011年1月1日以后任意一天，输出该渔夫是在打渔还是在晒网。代码如下： #include <stdio.h> int leap(int a) /*自定义函数leap()用来指定输入的年份是否为闰年*/ { if((a%4 == 0 && a%100 != 0
XML中DOCTYPE字段的解析 wyzuomumu xml
DTD声明始终以!DOCTYPE开头,空一格后跟着文档根元素的名称,如果是内部DTD,则再空一格出现[],在中括号中是文档类型定义的内容. 而对于外部DTD,则又分为私有DTD与公共DTD,私有DTD使用SYSTEM表示,接着是外部DTD的URL. 而公共DTD则使用PUBLIC,接着是DTD公共名称,接着是DTD的URL. 私有DTD <!DOCTYPErootSYST