zhiyong_will

卷积神经网络Inception Net

1. 概述

2014年，Google提出了包含Inception模块的网络结构，并命名为GoogLeNet[1]，其中LeNet为致敬LeNet网络，GoogLeNet在当年的ILSVRC的分类任务上获得冠军。GoogLeNet经过多次的迭代，最初的版本也被称为Inception v1。Inception的名字也得益于NIN和盗梦空间“We need to go deeper”的启发。提高模型的表达能力，最有效的办法是增加模型的大小，包括了模型的深度和模型的宽度，但是一味的增大模型会出现以下的一些问题：

模型越大，相应的参数也就会越多，就会出现过拟合；
模型越大，需要的计算资源也就会越多；

那么是否存在一种方法，能够在增大模型的同时，控制参数的个数呢？Inception v1中认为最基本的方法是使用稀疏连接代替全连接和卷积操作，同时引入 $1\times 1$ 的卷积核来进一步减少参数个数。

2015年，Google在Inception v1的基础上提出了Batch Normalization[2]的操作，并将其添加到GoogLeNet网络中，同时对网络结构做了一些修改，也被称为Inception v2，最终在ImageNet分类任务上的成绩超过了Inception v1。

在Inception v2之后，Google对Inception模块进行重新的思考，提出了一系列的优化思路，如针对神经网络的设计提出了四条的设计原则，提出了如何分解大卷积核，重新思考训练过程中的辅助分类器的作用，最终简化了网络的结构，得到了Inception v3[3]。

2. Inception网络结构

2.1. Inception v1

在Inception v1中提出了Inception模块，该模块在增加网络的深度和宽度的过程中极大减少了模型的参数。

2.1.1. Inception模块

在Inception v1中，提出了Inception模块，希望在Inception模块中引入稀疏连接来减少参数的数量。稀疏连接有两种方法，一种是空间（spatial）上的稀疏连接，也就是传统的CNN卷积结构，即只对输入图像的某一部分patch进行卷积，而不是对整个图像进行卷积，共享参数降低了总参数的数目减少了计算量；另一种方法是在特征（feature）维度进行稀疏连接，就是前一节提到的在多个尺寸上进行卷积再聚合，把相关性强的特征聚集到一起，每一种尺寸的卷积只输出256个特征中的一部分，这也是种稀疏连接。

基于上述的特征维度的稀疏连接，Inception模块的设计便与常见的CNN网络结构不同，原先的卷积层通常采用的是串联的设计思路，而在Inception模块中则是采用将多种不同规格的卷积并联的方式，在Inception中，选择的卷积核大小分别为 $1\times 1$ ， $3\times 3$ ， $5\times 5$ ，最终将各自所得到的特征图concat在一起，作为后续的输入，如下左图所示：

受到NIN[4]的启发，为进一步减少参数的个数，在 $3\times 3$ 和 $5\times 5$ 的卷积操作前增加了 $1\times 1$ 的卷积核。如果不采用并联的方式，对于大小为 $28\times 28\times 192$ 的输入，其中通道数为 $192$ ，大小为 $28\times 28\times 256$ 的输出，如果只采用 $3\times 3$ 的卷积核，则参数的个数为 $3\times 3\times 192\times 256=442368$ ，若果只是采用 $5\times 5$ 的卷积核，则参数的个数为 $5\times 5\times 192\times 256=1228800$ 。

而通过concat多种不同的卷积核以及pooling操作，则可以减少参数的个数，按照上述图片中标注的每种卷积核的输出通道数，其参数的个数为：

$\left\{\begin{matrix} 64\times 192 \\ 96\times 192+3\times 3\times 96\times 128 \\ 16\times 192+5\times 5\times 32\times 26 \\ 32\times 192\end{matrix}\right.$

最终的参数个数为 $163328$ ，相比较上述采用单一的卷积核，参数个数大大较少了。

2.1.2. Inception v1的网络结构

将Inception模块融合到卷积网络中，替换卷积神经网络中的部分卷积操作便得到Inception v1的结构，其结构的具体参数如下表所示：

其具体的计算过程如下所示：

data：大小为 $224\times224\times3$ ，且都进行了零均值化的预处理操作（图像每个像素减去均值）。
convolution：输入（ $224\times224\times3$ ），输出（ $112\times112\times64$ ，其中，卷积核大小为 $7\times7$ ，padding为 $3$ ，步长为 $2$ ，卷积核的个数为 $64$ ，卷积后进行ReLU操作）
max pool：输入（ $112\times112\times64$ ），输出（ $56\times56\times64$ ，其中，核的大小为 $3\times3$ ，步长为 $2$ ）
convolution：输入（ $56\times56\times64$ ），输出（ $56\times56\times192$ ，其中，卷积核大小为 $3\times3$ ，padding为 $1$ ，步长为 $1$ ，卷积核的个数为 $192$ ，卷积后进行ReLU操作）
max pool：输入（ $56\times56\times192$ ），输出（ $28\times28\times192$ ，其中，核的大小为 $3\times3$ ，步长为 $2$ ）
Inception(3a)：分为四个分支操作，输入（ $28\times28\times192$ ）
- 卷积1：输出（ $28\times28\times64$ ，其中，卷积核大小为 $1\times1$ ，padding为 $0$ ，步长为 $1$ ，卷积核的个数为 $64$ ）
- 卷积2：输出（ $28\times28\times128$ ，其中，包含了两部分的卷积操作，第一个是 $96$ 个 $1\times1$ 的卷积核，输出为 $28\times28\times96$ ，第二个是 $128$ 个 $3\times3$ 的卷积核，输出为 $28\times28\times128$ ）
- 卷积3：输出（ $28\times28\times32$ ，其中，包含了两部分的卷积操作，第一个是 $16$ 个 $1\times1$ 的卷积核，输出为 $28\times28\times16$ ，第二个是 $32$ 个 $5\times5$ 的卷积核，输出为 $28\times28\times32$ ）
- 卷积4：输出（ $28\times28\times32$ ，其中，包含了两部分的操作，第一个是max pool，核的大小为 $3\times3$ ，输出为 $28\times28\times192$ ，第二个是 $32$ 个 $1\times1$ 的卷积核，输出为 $28\times28\times32$ ）
- 将这四个结果进行连接，对这四部分输出结果的第三维并联，即 $64 + 128 + 32 + 32 = 256$ ，最终输出 $28\times28\times256$
Inception(3b)：分为四个分支操作，输入（ $28\times28\times256$ ）
- 卷积1：输出（ $28\times28\times128$ ，其中，卷积核大小为 $1\times1$ ，padding为 $0$ ，步长为 $1$ ，卷积核的个数为 $128$ ）
- 卷积2：输出（ $28\times28\times192$ ，其中，包含了两部分的卷积操作，第一个是 $128$ 个 $1\times1$ 的卷积核，输出为 $28\times28\times128$ ，第二个是 $192$ 个 $3\times3$ 的卷积核，输出为 $28\times28\times192$ ）
- 卷积3：输出（ $28\times28\times96$ ，其中，包含了两部分的卷积操作，第一个是 $32$ 个 $1\times1$ 的卷积核，输出为 $28\times28\times32$ ，第二个是 $96$ 个 $5\times5$ 的卷积核，输出为 $28\times28\times96$ ）
- 卷积4：输出（ $28\times28\times64$ ，其中，包含了两部分的操作，第一个是max pool，核的大小为 $3\times3$ ，输出为 $28\times28\times256$ ，第二个是 $64$ 个 $1\times1$ 的卷积核，输出为 $28\times28\times64$ ）
- 将这四个结果进行连接，对这四部分输出结果的第三维并联，即 $128 + 192 + 96 + 64 = 480$ ，最终输出 $28\times28\times480$

剩下的类似分析，就不一一列举了。完整的Inception v1的网络结构如下图所示：

在Inception v1中，还保留了局部响应归一Local Response Normalization，也就是上图中的LRN，不过LRN在VGG的论文中交待是没有作用的，在后续的Inception v2中也是将这部分替换掉，在此不做过多介绍。

2.1.3. Inception v1的训练

由于网络的深度增加了，防止在梯度回传的过程中造成梯度弥散，因此在中间的Inception模块中设置了额外的辅助Loss，用以增加向后传导的梯度，缓解梯度消失问题，同时增加额外的正则化操作。最终的损失函数是三个部分的损失函数的和。

2.2. Inception v2

Inception v2的网络在Inception v1的基础上，进行了改进，主要的改动包括两个方面：第一，加入了Batch Normalization层，减少了Internal Covariate Shift，使每一层的输出都规范化到一个 $N\left ( 0,1 \right )$ 的高斯分布；第二，使用 $2$ 个 $3\times 3$ 的卷积核替代Inception模块中的 $5\times 5$ 卷积核，既降低了参数数量，也加速计算；

2.2.1. Batch Normalization

由于在网络的每一层的输入发生变化后，就会使得每一层的内部参数要不断适应新的分布，这一现象称为内部协移（Internal Covariate Shift），为了减少这样的现象的出现，需要对每一层的输入归一化。

Batch Normalization的作用便是对batch内的输入做归一化操作，对于一个神经元的一个mini-batch上的一批数据，做一次BN操作:

假设batch的大小为 $m$ ，首先求解该mini-batch上的均值：
$\mu _B\leftarrow \frac{1}{m} \sum_{i=1}^{m}x_i$
求该mini-batch上的方差：
$\sigma _B^{2}\leftarrow \frac{1}{m}\sum_{i=1}^{m}(x_i-\mu _B)^2$
把每个数据归一化：
$\hat{x_i}\leftarrow \frac{x_i-\mu _B}{\sqrt{\sigma _B^2+\varepsilon }}$
，这样就得到了均值为0，方差为1的归一化数据。
使用线性变换:
$y_i\leftarrow \gamma \hat{x}_i+\beta$
，这样使得网络能学到更多的分布，既可以保持原输入，也可以改变，提升了模型的泛化能力。

综合以上的步骤，可以得到BN的具体过程：

在训练过程中，在每一批的batch数据上，计算batch内的均值和方差，实现对输入数据的归一化。

在测试过程中，测试数据不在是batch的，而更多的可能是单条数据，对于BN的计算，[2]中给出的方法是使用所有mini-batch的均值和方差来估计出两个统计量：

$\begin{matrix} E\left [ x \right ]\leftarrow E_B\left [ \mu _B \right ] \\ Var\left [ x \right ]\leftarrow \frac{m}{m-1}E_B\left [ \sigma _B^2 \right ] \end{matrix}$

2.2.2. 拆解大的卷积核

Inception v2针对v1的另一个优化是将其中的 $5\times 5$ 卷积核拆解成 $2$ 个 $3\times 3$ 的卷积核，如下图所示：

对于一个 $5\times 5$ 的卷积核可以拆解成 $2$ 个 $3\times 3$ 的卷积核，具体过程如下图所示：

2.2.3. Inception v2的网络结构

由上述分析，在Inception v2中将Inception模块中的 $5\times 5$ 的卷积核用两个相连的 $3\times 3$ 的卷积核替换。这一步的操作是使得模型的参数增加了25%，计算成本也提高了30%；同时将BN模块融合到网络中；除此之外，还对网络做了如下的一些修改，具体的网络结构如下图所示：

2.3. Inception v3

在Inception v2基础上，Google对之前提出的Inception模块进行了进一步的分析，在此基础上提出了较多的修改，这也成为了Inception v3[3]。Inception v3也成为了使用较多的GoogLeNet模型。

2.3.1. 设计神经网络的原则

在[3]中，提出了四条设计神经网络的原则，原文如下所示：

Avoid representational bottlenecks, especially early in the network.
Higher dimensional representations are easier to process locally within a network.
Spatial aggregation can be done over lower dimensional embeddings without much or any loss in representational power.
Balance the width and depth of the network.

对此，简单的理解为：

在网络的浅层不能对特征过多降维，这样会带来较多的特征损失
原含义是说增加特征的维度，能够加快训练速度，更容易收敛，实际上是指在最后的分类层之前，增加特征维度，生成高维稀疏特征。
在低维Embedding中进行空间上的聚合，不会对模型的表征能力上造成较大影响，这部分主要解释 $1\times 1$ 的作用， $1\times 1$ 卷积会进行空间上的聚合，减少参数，这样做不会带来较大的损失。
平衡宽度和深度，需要同时考虑。

2.3.2. 分解大卷积核

对于大的卷积核，在[3]中提出了两种分解的方法：

利用连续的两层小卷积核的卷积层代替大卷积层，如 $5\times 5$ 的卷积核可以由连续的两个 $3\times 3$ 的卷积核代替；
利用连续的两层非对称的卷积层代替原有卷积层，如 $n\times n$ 的卷积核可以由两个非对称的卷积核 $n\times 1$ 和 $1\times n$ 的卷积核代替。

具体如下图所示：

由上述的分析可知，这样做的好处能够减少参数量以及计算量。

2.3.3. 辅助分类器的作用

在Inception v1的模型中，在Inception模块的Inception(4a)和Inception(4d)后设置了辅助损失Loss，即辅助分类器。最初设计的思路是防止梯度在回传的过程中消失，即所谓的梯度消失现象，这样能方便模型的训练。然而，实验却发现在训练初期，有无辅助分类器对于模型效果并没有太大区别；在训练后期，有辅助分类器将提高模型的最终效果，辅助分类器更像是对模型起到了正则化的作用。

2.3.4. 减少特征图大小

一般来说，在卷积神经网络中，随着深度的加深，pooling操作导致特征图的大小不断变小，这会导致信息的丢失。为了缓解这种现象，在特征图的宽与高缩小减半的同时，利用大小为 $1\times 1$ 的卷积层使得特征图的通道数量翻倍，即从 $C\times W\times H$ 变为 $2C\times \frac{W}{2}\times \frac{H}{2}$ ，通过这样的方式，以减少池化操作所带来的信息损失。为此，有两种选择：

先进行升维操作，再进行pooling操作
先进行pooling操作，再进行升维操作

两种方法对比后，显然第一种方法更合理，但是第一种方法的计算量显然是比第二种方法大的（直观看第一种方法需要在更大的特征图上进行卷积操作），两种方式如下图所示：

在[3]中提出了另一种方法减少计算量的折衷的方法，即将卷积模块和pooling模块并行，最后将两个模块的结果concat在一起，如下图所示：

3. 总结

更宽更深的网络对于提升网络效果起到了至关重要的作用，但同时也带来了很多的问题，如难以训练，计算代价等等，沿着这条路，Google提出了Inception模块，并将其引入到卷积神经网络中，同时在网络的训练过程中又增加了诸如辅助分类器等帮助模型训练的优化，使得能够训练出更宽更深的网络模型Inception v1，同时在Inception v1的基础上，又继续优化，提出BN模块加速训练，提出大卷积转成多个小卷积来加速计算，得到了Inception v2和Inception v3模型。Google在Inception结构上的优化还未停止，在这之后，又吸收了其他模型结构的优势，推出了Inception v4以及xInception等等。

参考文献

[1] Szegedy C, Liu W, Jia Y, et al. Going deeper with convolutions[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2015: 1-9.

[2] Sergey Ioffe, Christian Szegedy , Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift. ICML, PMLR 37:448-456, 2015.

[3] Szegedy C, Vanhoucke V, Ioffe S, et al. Rethinking the inception architecture for computer vision[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 2818-2826.

[4] Lin M , Chen Q , Yan S . Network In Network[J]. Computer Science, 2013.

【DeepSeek实战】24、LangGraph完全指南：从入门到实战，构建复杂AI工作流无心水人工智能 LangGraph教程多Agent协作框架 LangGraph实战案例复杂AI逻辑实现 DeepSeek实战 AI工作流开发
引言：为什么LangGraph是AI工作流的“下一代引擎”？当你需要构建一个能处理循环逻辑的AI客服系统——比如“用户投诉未解决时自动转人工，解决后发送满意度调查”——传统的链式框架（如LangChain基础链）会显得力不从心：它们难以实现分支跳转、状态保存和循环执行。而LangGraph的出现，正是为了解决这一痛点。LangGraph是LangChain团队推出的AI工作流引擎，专为复杂业务逻辑
Spring Data Neo4j 与后端人工智能算法的数据交互 AI大模型应用实战 spring neo4j 人工智能 ai
SpringDataNeo4j与后端人工智能算法的数据交互关键词：SpringDataNeo4j、图数据库、人工智能算法、数据交互、知识图谱、图神经网络、数据集成摘要：本文深入探讨了如何利用SpringDataNeo4j框架实现后端人工智能算法与图数据库的高效数据交互。文章首先介绍了图数据库和人工智能算法的基本概念，然后详细解析了SpringDataNeo4j的核心架构和原理。接着，通过实际代码示
ResNet：深度卷积神经网络的里程碑心想事“程” 小知识点 cnn 人工智能神经网络
一、引言在深度学习的发展历程中，深度卷积神经网络（CNN）不断演进，旨在提升对图像等数据的特征提取与分类能力。然而，随着网络层数的增加，传统CNN面临着梯度消失、梯度爆炸以及退化等棘手问题，训练变得愈发困难。2015年，由微软研究院提出的ResNet（ResidualNetworks，残差网络）横空出世，它以独特的残差学习思想，成功攻克了这些难题，在ImageNet竞赛中大放异彩，开创了深度神经网
视觉算法之卷积神经网络清风AI 深度学习算法详解及代码复现计算机视觉 cnn 神经网络深度学习 python 课程设计毕业设计
定义与特点卷积神经网络(ConvolutionalNeuralNetwork,CNN)是一种专为处理具有网格结构的数据而设计的深度学习模型。其独特的结构和功能使其在图像处理、语音识别等领域展现出卓越的性能:CNN的核心设计理念源于对生物视觉系统的模仿。通过模拟大脑皮层中视网膜和视觉皮层的层次化结构,CNN能够有效地捕捉图像中的局部特征并逐步抽象为高层语义信息。这种设计使得CNN特别擅长处理图像和音
卷积神经网络架构的演进：从AlexNet到EfficientNet t0_54manong 大数据与人工智能 cnn 架构人工智能个人开发
在过去的8.5年里，深度学习取得了飞速的进步。回溯到2012年，AlexNet在ImageNet上的Top-1准确率仅为63.3%，而如今，借助EfficientNet架构和师生训练法，我们已经能达到超过90%的准确率。本文将聚焦于卷积神经网络（CNN）架构的演变，深入探究其背后的基本原理。一些关键术语在深入了解各种架构之前，我们需要明确几个关键术语。更宽的网络意味着卷积层中有更多的特征图（滤波器
一文搞懂 Cursor 内部工作原理~ zz_jesse
介绍了Cursor，一个结合了AI技术的代码编辑器，它通过深度学习和语义索引的方式，提升了开发者的工作效率。Cursor通过与VSCode相似的界面和功能，以及自己的AI特性，实现了代码的智能化编辑和错误检查。译文从这开始～～你可能已经看到新闻：OpenAI正以高达30亿美元的价格收购Windsurf！与此同时，Cursor的母公司Anysphere也正在以90亿美元估值融资9亿美元！这对于代码生
开源人工神经网络库（OpenANN） deepdata_cn 人工智能神经网络
OpenANN（OpenANN，OpenArtificialNeuralNetworkLibrary）是一个开源的人工神经网络库，基于C++编写，依赖Eigen3库进行高效的矩阵运算，使用CMake进行项目构建，支持多种神经网络架构，包括前馈神经网络、卷积神经网络和循环神经网络等，适用于图像识别、自然语言处理、时间序列预测等多种场景。提供数据预处理、模型保存和加载、超参数优化等功能。支持GPU加速
如何让AI真正理解你的意图（自适应Prompt实战指南） nine是个工程师大语言模型人工智能 prompt
目前的LLM模型，在理解用户意图方面，正在使用自适应Prompt技术，来提升模型的理解能力。目前使用deepseek推理模型能明显看到自适应的一个过程。前言：为什么你的AI总是"答非所问"？相信很多人都遇到过这样的情况：你问：“帮我写一个Python爬虫”AI答：给你一堆理论知识和完整教程（你只想要简单代码）你问：“推荐一部电影”AI答：推荐了《教父》（你想看轻松喜剧）你问：“解释一下机器学习”A
【AI大模型前沿】OmniAudio：阿里通义实验室的空间音频生成模型，开启沉浸式体验新时代寻道AI小兵 AI大模型 -前沿技术追踪人工智能音视频开源 AIGC 语言模型
系列篇章No.文章1【AI大模型前沿】深度剖析瑞智病理大模型RuiPath：如何革新癌症病理诊断技术2【AI大模型前沿】清华大学CLAMP-3：多模态技术引领音乐检索新潮流3【AI大模型前沿】浙大携手阿里推出HealthGPT：医学视觉语言大模型助力智能医疗新突破4【AI大模型前沿】阿里QwQ-32B：320亿参数推理大模型，性能比肩DeepSeek-R1，免费开源5【AI大模型前沿】TRELLI
目标检测YOLO实战应用案例100讲-基于深度学习的自动驾驶目标检测算法研究（续）林聪木目标检测 YOLO 深度学习
目录基于双蓝图卷积的轻量化自动驾驶目标检测算法5.1引言5.2DarkNet53网络冗余性分析5.3双蓝图卷积网络5.4实验结果及分析基于深度学习的自动驾驶目标检测算法研究与应用传统的目标检测算法目标检测基线算法性能对比与选择相关理论和算法基础2.1引言2.2人工神经网络2.3FCOS目标检测算法2.4复杂交通场景下的目标检测难点与FCOS改进方案基于FCOS的目标检测算法改进3.1引言3.2Re
AI人工智能遇上TensorFlow：技术融合新趋势 AI大模型应用之禅人工智能 tensorflow python ai
AI人工智能遇上TensorFlow：技术融合新趋势关键词：人工智能、TensorFlow、深度学习、神经网络、机器学习、技术融合、AI开发摘要：本文深入探讨了人工智能技术与TensorFlow框架的融合发展趋势。我们将从基础概念出发，详细分析TensorFlow在AI领域的核心优势，包括其架构设计、算法实现和实际应用。文章包含丰富的技术细节，如神经网络原理、TensorFlow核心算法实现、数学
大模型之Spring AI实战系列（三十二）：Spring Boot + DeepSeek 实战指南：工具函数（Function Call）实战应用
系列篇章No.文章1大模型之SpringAI实战系列（一）：基础认知篇-开启智能应用开发之旅2大模型之SpringAI实战系列（二）：SpringBoot+OpenAI打造聊天应用全攻略3大模型之SpringAI实战系列（三）：SpringBoot+OpenAI实现聊天应用上下文记忆功能4大模型之SpringAI实战系列（四）：SpringBoot+OpenAI使用OpenAIEmbedding实
MATLAB随机模拟技术在气候模型中的应用
本文还有配套的精品资源，点击获取简介：MATLAB是科学研究和工程领域中广泛使用的一款数学计算与编程软件，尤其在气象学和气候模拟方面有着重要的应用。’Fletcher_2019_Learning_Climate’项目通过MATLAB实现的随机模拟方法帮助理解气候变化。本文将详细探讨该项目的关键内容，包括气候模型的构成、随机过程与统计方法的运用、MATLAB编程技能、气候数据处理与分析、结果可视化以
智变时代|暴雨亮相第四届中国数据中心服务器与设备峰会 BAOYUCompany 人工智能
随着生成式AI浪潮席卷千行百业，算力基础设施的智能化升级已成为企业决胜未来的关键战场。在此背景下，第四届中国数据中心服务器与设备峰会于2025年7月1日在上海盛大开幕，聚焦大模型时代下服务器与设备的技术革新与应用落地。暴雨已经多次连续受邀参加本次峰会并在今年的峰会上发表了主题为《如何轻便应用大模型一体机》的演讲。暴雨产品营销总监李明指出：“当前DeepSeek等大模型应用仍然存在“硬件投资费用高昂
深度学习核心知识简介和模型调参研术工坊深度学习知识和技巧深度学习人工智能 python
深度学习模型调优就像调制一道复杂的菜肴，需要掌握多种"调料"的用法。本文将为您详解这些关键"调料"，帮助您烹饪出高性能的模型。###核心参数及其影响####1️⃣Loss（损失函数）**基本介绍**：衡量模型预测与真实值差距的指标，是模型优化的指南针。**生活类比**：想象你在教小孩认识动物：-**完美情况**：小孩看到猫说"猫"，看到狗说"狗"→Loss=0-**有错误**：小孩看到猫说"狗"→
【小白入门必看】一文读懂深度学习计算机视觉技术及学习路线
一、什么是计算机视觉？计算机视觉，其实就是教机器怎么像我们人一样，用摄像头看看周围的世界，然后理解它。比如说，它能认出这是个苹果，或者那边有辆车。除此之外，还能把拍到的照片或者视频转换成有用的信息，帮我们做决定。整个过程就是为了让机器能看懂图像，然后根据这些图像来做出聪明的选择。二、计算机视觉实现起来难吗？人类依赖视觉，找辆汽车轻而易举，毕竟汽车那么大，一眼就能看出来，所以常误以为计算机视觉简单，
2025年跑深度学习电脑配置-深度学习显卡推荐 OpenCV图像识别人工智能深度学习智能电视人工智能
2025年跑深度学习任务，电脑配置需从处理器、内存、显卡、存储、散热与电源、扩展性、网络连接等多方面综合考量，以下是具体分析：处理器（CPU）多核高性能：深度学习涉及大量并行计算任务，需要处理器具备强大的多核处理能力。英特尔至强Scalable处理器（SapphireRapids或后续架构）和AMDEPYC处理器（Genoa或后续架构）是不错的选择。英特尔至强Scalable处理器提供卓越的单核性
【零基础学AI】第30讲：生成对抗网络(GAN)实战 - 手写数字生成 1989 0基础学AI 人工智能生成对抗网络神经网络 python 机器学习近邻算法深度学习
本节课你将学到GAN的基本原理和工作机制使用PyTorch构建生成器和判别器DCGAN架构实现技巧训练GAN模型的实用技巧开始之前环境要求Python3.8+需要安装的包：pipinstalltorchtorchvisionmatplotlibnumpyGPU推荐（可大幅加速训练）前置知识第21讲TensorFlow基础第23讲神经网络原理基本PyTorch使用经验核心概念什么是GAN？GAN就像
【深度学习第六期深度学习中的归一化与正则化技术：原理、实践与应用】码上有前 Python 深度学习 Pytorch 深度学习人工智能 cnn
作者：“码上有前”文章简介：深度学习欢迎小伙伴们点赞、收藏⭐、留言深度学习中的归一化与正则化技术：原理、实践与应用摘要：本文深入探讨深度学习中批量归一化（BN）、层归一化（LN）、标准化以及正则化等关键技术。详细阐述它们的基本原理，包括如何调整数据分布、控制模型复杂度等；通过丰富的实例和对应代码，展示在不同网络架构中这些技术的具体实现方式，以及对模型训练和性能的影响；同时，对比分析各项技术的特点和
10、量子神经网络：从理论到实践安检量子神经网络 PennyLane Qiskit
量子神经网络：从理论到实践1.量子神经网络简介量子神经网络（QuantumNeuralNetworks,QNNs）是量子计算与经典机器学习相
深度神经网络课程设计：从理论到实践 Vita Libre
本文还有配套的精品资源，点击获取简介：深度神经网络是深度学习预测的核心技术，本课程设计项目旨在教授学生如何构建和应用深度神经网络进行各种预测任务，包括图像识别和自然语言处理。学生将通过源代码示例学习从网络架构设计、数据预处理到模型训练与评估的完整流程，并掌握深度学习的基本概念、组件及技巧。1.深度神经网络定义和在深度学习预测中的角色深度神经网络（DeepNeuralNetworks,DNNs）是深
深度学习基础与应用：从理论到实战创新工场
本文还有配套的精品资源，点击获取简介：深度学习是人工智能的核心分支，通过模拟人脑神经网络处理大量数据以执行复杂任务。Python因其简洁性和强大的库支持成为深度学习研究的首选语言。本文概述了深度学习基础概念、核心算法、Python框架，并假设了一个包含教程、示例代码、数据集、交互式学习环境、性能评估指标和进阶主题的“deep-learning-study-main”压缩包内容，旨在帮助学习者深入理
深层神经网络：原理与传播机制详解网安spinage 深度学习神经网络人工智能机器学习深度学习
网络架构概述本文探讨的深层神经网络结构如下：输入层：3个神经元第一隐藏层：5个神经元第二隐藏层：5个神经元第三隐藏层：3个神经元输出层：1个神经元输出层隐藏层3隐藏层2隐藏层1输入层输出神经元3.1神经元3.2神经元3.3神经元2.1神经元2.2神经元2.3神经元2.4神经元2.5神经元1.1神经元1.2神经元1.3神经元1.4神经元1.5输入1输入2输入3数学符号定义符号含义维度XXX输入数据3
App Trace 功能产品介绍 tongjiwenzhang 一键拉起 app 快速安装小程序微信小程序目标跟踪数据分析大数据
一键拉起、快速安装、免填邀请码的智能追踪解决方案一、功能概述AppTrace是一套专注于用户行为追踪与智能分发的技术方案，通过深度集成一键拉起、快速安装、免填邀请码三大核心功能，帮助企业精准追踪用户来源、优化转化路径，并提升拉新效率。二、核心功能详解1.一键拉起（DeepLinking）功能作用：用户点击H5页面、短信链接或二维码时，直接跳转至App内指定页面（如活动页、商品详情页）。避免“下载A
大模型与智能体：螺旋共生，绘就智能新蓝图东锋17 人工智能大模型智能体人工智能
大模型与智能体：螺旋共生，绘就智能新蓝图在人工智能的前沿领域，大模型与智能体宛如两颗璀璨的星辰，以一种精妙的螺旋共生关系，重塑着智能世界的格局，深刻影响着我们生活与工作的方方面面。大模型：构筑智能大厦的基石大语言模型，像广为人知的GPT-4、通义千问等，凭借在海量数据中深度学习的锤炼，展现出卓越的语言理解与生成天赋。它们就像知识渊博的学者，能熟练应对各类自然语言任务。无论是洋洋洒洒的文章创作，还是
深度学习之迁移学习路溪非溪人工智能迁移学习机器学习
认识迁移学习迁移学习（TransferLearning）是机器学习中的一种重要技术，其核心思想是将在一个任务上学习到的知识（模型参数、特征表示等），迁移应用到另一个相关但不同的任务中，从而提升新任务的学习效率和性能，尤其是在新任务数据有限的情况下。一、迁移学习的核心动机传统机器学习通常要求为每个新任务收集大量标注数据并从头训练模型，但现实中面临以下挑战：数据稀缺：例如医疗影像分析（罕见疾病样本少）
【机器学习】解密计算机视觉：CNN、目标检测与图像识别核心技术（第25天）吴师兄大模型 0基础实现机器学习入门到精通机器学习计算机视觉 cnn 人工智能目标检测图像识别 pytorch
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
LLM（大语言模型）能识别图像的核心原因:图像和文本记性特征识别且对其 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 语言模型人工智能自然语言处理算法均值算法 prompt
LLM（大语言模型）能识别图像的核心原因:图像和文本记性特征识别且对其在于跨模态对齐技术——通过训练将图像和文本映射到同一语义空间，使语言模型能够理解视觉信息。一、为什么LLM能识别图像？核心技术原理1.跨模态对齐：让图像与文本说同一种语言向量空间统一：图像通过CNN或ViT编码为特征向量（如512维），文本通过Transformer编码为语义向量（如768维）。CLIP等模型通过对比学习优化编码
【深度学习-Day 35】实战图像数据增强：用PyTorch和TensorFlow扩充你的数据集吴师兄大模型深度学习入门到精通深度学习 pytorch tensorflow 人工智能 python 大模型 LLM
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
PyTorch+CNN进行猫狗识别项目
任务介绍数据结构为：big_data├──train│└──cat│└──XXX.jpg（每个文件夹含若干张图像）│└──dog│└──XXX.jpg（每个文件夹含若干张图像）├──val│└──cat│└──XXX.jpg（每个文件夹含若干张图像）│└──dog└─────└──XXX.jpg（每个文件夹含若干张图像）需要对train数据集进行训练，达到给定val数据集中的一张猫/狗的图片，识别
jsonp 常用util方法 hw1287789687 jsonp jsonp常用方法 jsonp callback
jsonp 常用java方法 (1)以jsonp的形式返回:函数名(json字符串) /*** * 用于jsonp调用 * @param map : 用于构造json数据 * @param callback : 回调的javascript方法名 * @param filters : <code>SimpleBeanPropertyFilter theFilt
多线程场景 alafqq 多线程
0 能不能简单描述一下你在java web开发中需要用到多线程编程的场景？0 对多线程有些了解，但是不太清楚具体的应用场景，能简单说一下你遇到的多线程编程的场景吗？ Java多线程 2012年11月23日 15:41 Young9007 Young9007 4 0 0 4 Comment添加评论关注(2) 3个答案按时间排序按投票排序 0 0 最典型的如： 1、
Maven学习——修改Maven的本地仓库路径 Kai_Ge maven
安装Maven后我们会在用户目录下发现.m2 文件夹。默认情况下，该文件夹下放置了Maven本地仓库.m2/repository。所有的Maven构件(artifact)都被存储到该仓库中，以方便重用。但是windows用户的操作系统都安装在C盘，把Maven仓库放到C盘是很危险的，为此我们需要修改Maven的本地仓库路径。
placeholder的浏览器兼容 120153216 placeholder
【前言】自从html5引入placeholder后，问题就来了，不支持html5的浏览器也先有这样的效果，各种兼容，之前考虑，今天测试人员逮住不放，想了个解决办法，看样子还行，记录一下。【原理】不使用placeholder，而是模拟placeholder的效果，大概就是用focus和focusout效果。【代码】 <scrip
debian_用iso文件创建本地apt源 2002wmj Debian
1.将N个debian-506-amd64-DVD-N.iso存放于本地或其他媒介内，本例是放在本机/iso/目录下 2.创建N个挂载点目录如下： debian:~#mkdir –r /media/dvd1 debian:~#mkdir –r /media/dvd2 debian:~#mkdir –r /media/dvd3 …. debian:~#mkdir –r /media
SQLSERVER耗时最长的SQL 357029540 SQL Server
对于DBA来说，经常要知道存储过程的某些信息： 1. 执行了多少次 2. 执行的执行计划如何 3. 执行的平均读写如何 4. 执行平均需要多少时间列名 &
com/genuitec/eclipse/j2eedt/core/J2EEProjectUtil 7454103 eclipse
今天eclipse突然报了com/genuitec/eclipse/j2eedt/core/J2EEProjectUtil 错误，并且工程文件打不开了，在网上找了一下资料，然后按照方法操作了一遍，好了，解决方法如下：错误提示信息： An error has occurred.See error log for more details. Reason: com/genuitec/
用正则删除文本中的html标签 adminjun java html 正则表达式去掉html标签
使用文本编辑器录入文章存入数据中的文本是HTML标签格式，由于业务需要对HTML标签进行去除只保留纯净的文本内容，于是乎Java实现自动过滤。如下： public static String Html2Text(String inputString) { String htmlStr = inputString; // 含html标签的字符串 String textSt
嵌入式系统设计中常用总线和接口 aijuans linux 基础
嵌入式系统设计中常用总线和接口任何一个微处理器都要与一定数量的部件和外围设备连接，但如果将各部件和每一种外围设备都分别用一组线路与CPU直接连接，那么连线
Java函数调用方式——按值传递 ayaoxinchao java 按值传递对象基础数据类型
Java使用按值传递的函数调用方式，这往往使我感到迷惑。因为在基础数据类型和对象的传递上，我就会纠结于到底是按值传递，还是按引用传递。其实经过学习，Java在任何地方，都一直发挥着按值传递的本色。首先，让我们看一看基础数据类型是如何按值传递的。 public static void main(String[] args) { int a = 2;
ios音量线性下降 bewithme ios音量
直接上代码吧 //second 几秒内下降为0 - (void)reduceVolume:(int)second { KGVoicePlayer *player = [KGVoicePlayer defaultPlayer]; if (!_flag) { _tempVolume = player.volume;
与其怨它不如爱它 bijian1013 选择理想职业规划
抱怨工作是年轻人的常态，但爱工作才是积极的心态，与其怨它不如爱它。一般来说，在公司干了一两年后，不少年轻人容易产生怨言，除了具体的埋怨公司“扭门”，埋怨上司无能以外，也有许多人是因为根本不爱自已的那份工作，工作完全成了谋生的手段，跟自已的性格、专业、爱好都相差甚远。
一边时间不够用一边浪费时间 bingyingao 工作时间浪费
一方面感觉时间严重不够用，另一方面又在不停的浪费时间。每一个周末，晚上熬夜看电影到凌晨一点，早上起不来一直睡到10点钟，10点钟起床，吃饭后玩手机到下午一点。精神还是很差，下午像一直野鬼在城市里晃荡。为何不尝试晚上10点钟就睡，早上7点就起，时间完全是一样的，把看电影的时间换到早上，精神好，气色好，一天好状态。控制让自己周末早睡早起，你就成功了一半。有多少个工作
【Scala八】Scala核心二：隐式转换 bit1129 scala
Implicits work like this: if you call a method on a Scala object, and the Scala compiler does not see a definition for that method in the class definition for that object, the compiler will try to con
sudoku slover in Haskell (2) bookjovi haskell sudoku
继续精简haskell版的sudoku程序，稍微改了一下，这次用了8行，同时性能也提高了很多，对每个空格的所有解不是通过尝试算出来的，而是直接得出。 board = [0,3,4,1,7,0,5,0,0, 0,6,0,0,0,8,3,0,1, 7,0,0,3,0,0,0,0,6, 5,0,0,6,4,0,8,0,7,
Java-Collections Framework学习与总结-HashSet和LinkedHashSet BrokenDreams linkedhashset
本篇总结一下两个常用的集合类HashSet和LinkedHashSet。它们都实现了相同接口java.util.Set。Set表示一种元素无序且不可重复的集合；之前总结过的java.util.List表示一种元素可重复且有序
读《研磨设计模式》-代码笔记-备忘录模式-Memento bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; /* * 备忘录模式的功能是，在不破坏封装性的前提下，捕获一个对象的内部状态，并在对象之外保存这个状态，为以后的状态恢复作“备忘”
《RAW格式照片处理专业技法》笔记 cherishLC PS
注意，这不是教程！仅记录楼主之前不太了解的一、色彩（空间）管理作者建议采用ProRGB（色域最广），但camera raw中设为ProRGB，而PS中则在ProRGB的基础上，将gamma值设为了1.8（更符合人眼）注意：bridge、camera raw怎么设置显示、输出的颜色都是正确的（会读取文件内的颜色配置文件），但用PS输出jpg文件时，必须先用Edit->conv
使用 Git 下载 Spring 源码编译 for Eclipse crabdave eclipse
使用 Git 下载 Spring 源码编译 for Eclipse 1、安装gradle，下载 http://www.gradle.org/downloads 配置环境变量GRADLE_HOME，配置PATH %GRADLE_HOME%/bin，cmd，gradle -v 2、spring4 用jdk8 下载 https://jdk8.java.
mysql连接拒绝问题 daizj mysql 登录权限
mysql中在其它机器连接mysql服务器时报错问题汇总一、[running][email protected]:~$mysql -uroot -h 192.168.9.108 -p //带-p参数，在下一步进行密码输入 Enter password: //无字符串输入 ERROR 1045 (28000): Access
Google Chrome 为何打压 H.264 dsjt apple html5 chrome Google
Google 今天在 Chromium 官方博客宣布由于 H.264 编解码器并非开放标准，Chrome 将在几个月后正式停止对 H.264 视频解码的支持，全面采用开放的 WebM 和 Theora 格式。 Google 在博客上表示，自从 WebM 视频编解码器推出以后，在性能、厂商支持以及独立性方面已经取得了很大的进步，为了与 Chromium 现有支持的編解码器保持一致，Chrome
yii 获取控制器名和方法名 dcj3sjt126com yii framework
1. 获取控制器名在控制器中获取控制器名: $name = $this->getId(); 在视图中获取控制器名: $name = Yii::app()->controller->id; 2. 获取动作名在控制器beforeAction()回调函数中获取动作名: $name =
Android知识总结（二） come_for_dream android
明天要考试了，速速总结如下 1、Activity的启动模式 standard：每次调用Activity的时候都创建一个（可以有多个相同的实例，也允许多个相同Activity叠加。） singleTop：可以有多个实例，但是不允许多个相同Activity叠加。即，如果Ac
高洛峰收徒第二期：寻找未来的“技术大牛” ——折腾一年，奖励20万元 gcq511120594 工作项目管理
高洛峰，兄弟连IT教育合伙人、猿代码创始人、PHP培训第一人、《细说PHP》作者、软件开发工程师、《IT峰播》主创人、PHP讲师的鼻祖！首期现在的进程刚刚过半，徒弟们真的很棒，人品都没的说，团结互助，学习刻苦，工作认真积极，灵活上进。我几乎会把他们全部留下来，现在已有一多半安排了实际的工作，并取得了很好的成绩。等他们出徒之日，凭他们的能力一定能够拿到高薪，而且我还承诺过一个徒弟，当他拿到大学毕
linux expect heipark expect
1. 创建、编辑文件go.sh #!/usr/bin/expect spawn sudo su admin expect "*password*" { send "13456\r\n" } interact 2. 设置权限 chmod u+x go.sh 3.
Spring4.1新特性——静态资源处理增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
idea ubuntuxia 乱码 liyonghui160com
1.首先需要在windows字体目录下或者其它地方找到simsun.ttf 这个字体文件。 2.在ubuntu 下可以执行下面操作安装该字体： sudo mkdir /usr/share/fonts/truetype/simsun sudo cp simsun.ttf /usr/share/fonts/truetype/simsun fc-cache -f -v
改良程序的11技巧 pda158 技巧
有很多理由都能说明为什么我们应该写出清晰、可读性好的程序。最重要的一点，程序你只写一次，但以后会无数次的阅读。当你第二天回头来看你的代码时，你就要开始阅读它了。当你把代码拿给其他人看时，他必须阅读你的代码。因此，在编写时多花一点时间，你会在阅读它时节省大量的时间。让我们看一些基本的编程技巧：尽量保持方法简短永远永远不要把同一个变量用于多个不同的
300个涵盖IT各方面的免费资源（下）——工作与学习篇 shoothao 创业免费资源学习课程远程工作
工作与生产效率: A. 背景声音 Noisli:背景噪音与颜色生成器。 Noizio:环境声均衡器。 Defonic:世界上任何的声响都可混合成美丽的旋律。 Designers.mx:设计者为设计者所准备的播放列表。 Coffitivity:这里的声音就像咖啡馆里放的一样。 B. 避免注意力分散 Self Co
深入浅出RPC uule rpc
深入浅出RPC-浅出篇深入浅出RPC-深入篇 RPC Remote Procedure Call Protocol 远程过程调用协议它是一种通过网络从远程计算机程序上请求服务，而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在，如TCP或UDP，为通信程序之间携带信息数据。在OSI网络通信模型中，RPC跨越了传输层和应用层。RPC使得开发