志小

常用的轻量化网络结构：SqueezeNet、MobileNet、ShuffleNet、Xception

引言

自2012年AlexNet以来，卷积神经网络（简称CNN）在图像分类、图像分割、目标检测等领域获得广泛应用。随着性能的要求越来越高，AlexNet 已经无法满足大家的需求，于是乎各路大牛纷纷提出性能更优越的 CNN 网络，如VGG、GoogLeNet、ResNet、DenseNet等。由于神经网络的性质，为了获取更好的性能，网络的层数不断增加，从7层 AlexNet 到16层 VGG，再从16层 VGG 到 GoogLeNet 的22层，再从22层 GoogLeNet到152层 ResNet 更有上千层的 ResNet 和 DenseNet。虽然网络的性能得到了提高，但随之而来的就是效率问题。

效率问题主要是 模型的存储问题 和 模型进行预测的速度问题（以下简称为速度问题）。第一，存储问题。数百层网络意味着有着大量的权值参数，保存大量权值参数对设备的内存要求很高；第二，速度问题。在实际应用中，往往是毫秒级别，为了达到实际应用标准，要么提高处理器性能（如优化英特尔处理器或其他处理器），要么就是减少计算量。

只有解决CNN的效率问题，才能使CNN走出实验室，更广泛的应用于移动端。对于效率问题，通常的方法是进行模型压缩（Model Compression），即在已经训练好的模型上进行压缩，使得网络携带更少的网络参数，从而解决内存问题，同时可以解决速度问题。

相比于在已经训练好的模型上进行处理，轻量化模型设计则是另辟蹊径。轻量化模型模型设计，主要思想在于设计更高效的“网络计算方式”（主要针对卷积方式），从而使网络参数减少的同时，不损失网络性能。

本文就近年提出的四个轻量化模型进行学习和对比，四个模型分别是：SqueezeNet、MobileNet、ShuffleNet、Xception。这四种网络模型都不是在训练好的模型上进行压缩，而是在网络结构中的卷积计算上进行优化和改造。

以下是四个模型的作者及发表时间：

网络	最早公开日期	发表情况	作者团队	arXiv链接
SqueezeNet	2016.02	ICLR-2017	伯克利&斯坦福	https://arxiv.org/abs/1602.07360
MobileNet	2016.04	CVPR-2017	Google	https://arxiv.org/abs/1704.04861
ShuffleNet	2016.06	N/A	Face++	https://arxiv.org/abs/1707.01083
Xception	2016.10	CVPR-2017	Google	https://arxiv.org/abs/1610.02357

SqueezeNet

从命名 SqueezeNet 就知道本文的新意是 Squeeze，squeeze 在 SqueezeNet 中表示一个 squeeze 层，该层采用 1*1 卷积核对上一层 feature map 进行卷积，主要目的是减少 feature map 的维数（维数即通道数，就是将一个立方体的 feature map 切成一片一片的）。

创新点：采用不同于传统的卷积方式，提出 fire module。 fire module 包含两个部分： squeeze层和 expand 层。首先是 squeeze 层，就是 1*1 卷积，其卷积核数要少于上一层的 feature map 数； expand 层分别用 1*1 和 3*3 卷积，然后concat（通道数相加）。SqueezeNet 的创新点在 inception 中都有，进行了一些列的改变。有需要的话可以参考 inception 的论文。

SqueezeNet 的核心在于 fire module，fire module 由两层构成，分别是 squeeze层 + expand层。如图示：squeeze层是一个 1*1 卷积核的卷积层，expand 层是 1*1 和 3*3 卷积核的卷积层，expand层中把1*1 和 3*3 得到的 feature map 进行 concat。

具体的操作示意图：

Fire module输入的feature map为H*W*M的，输出的feature map为H*M*(e1+e3)，可以看到feature map的分辨率是不变的，变的仅是维数，也就是通道数，这一点和VGG的思想一致。

首先，H*W*M的feature map经过Squeeze层，得到S1个feature map，这里的S1均是小于M的，以达到“压缩”的目的，详细思想可参考Google的Inception系列。

其次，H*W*S1的特征图输入到Expand层，分别经过1*1卷积层和3*3卷积层进行卷积，再将结果进行concat，得到Fire module的输出，为 H*M*(e1+e3)的feature map。

fire模块有三个可调参数：S1，e1，e3，分别代表卷积核的个数，同时也表示对应输出feature map的维数，在本文提出的SqueezeNet结构中，e1=e3=4s1 。

讲完SqueezeNet的核心——Fire module，看看SqueezeNet的网络结构，如下图所示：

网络结构设计思想，同样与VGG的类似，堆叠的使用卷积操作，只不过这里堆叠的使用本文提出的Fire module(图中用红框部分)。

看看Squezeenet的参数数量以及性能：

在这里可以看到，论文题目中提到的小于 0.5M，是采用了 Deep Compression 进行模型压缩之后的结果。标题党，SqueezeNet < 0.5 MB，这个是用了模型压缩技术获得的，很容易让人误以为 SqueezeNet可以压缩模型。

SqueezeNet 小结：

1 Fire module 与GoogLeNet思想类似，采用1*1卷积对feature map的维数进行“压缩”，从而达到减少权值参数的目的；
2 采用与VGG类似的思想——堆叠的使用卷积，这里堆叠的使用Fire module 。

SqueezeNet与GoogLeNet和VGG的关系很大！

MoblieNet 网络结构讲解：参考链接1 参考链接2

Standard convolution、depthwise convolution 和 pointwise convolution示意图如下：

Standard convolution是采用N个大小为DK*DK的卷积核进行操作（注意卷积核大小是DK*DK, DK*DK*M是具体运算时候的大小！）

而depthwise convolution + pointwise convolution需要的卷积核：

Depthwise convolution ：一个卷积核负责一个通道，一个通道只被一个卷积核卷积；则这里有M个DK*DK的卷积核；

Pointwise convolution：为了达到输出N个feature map的操作，所以采用N个1*1的卷积核进行卷积，这里的卷积方式和传统的卷积方式是一样的，只不过采用了1*1的卷积核；其目的就是让新的每一个feature map包含有上一层各个feature map的信息！在此理解为将depthwise convolution的输出进行“串”起来。

举例讲解 Standard convolution、Depthwise convolution和Pointwise convolution：

假设输入的feature map 是两个5*5的，即5*5*2；输出feature map数量为3，大小是3*3（因为这里采用3*3卷积核）即3*3*3。

标准卷积，是将一个卷积核（3*3）扩展成M份（M=2）, 是让二维的卷积核（面包片）拓展到与输入feature map一样的面包块形状。例如，我们设置3个 3*3的卷积核，如下图Kernel所示，但是在实际计算当中，卷积核并不是3*3*3这么多，而是3*3*2*3 ( w*h*c_in*c_out) 。也就是上面所说的把二维的卷积核拓展到与feature map一样的面包块形状，如下图的K1 扩展成 K11,K12 。
（注：不是复制M份，因为每个二维卷积核的参数是不一样的，因此不是复制！）

（实际上，卷积核实际的尺寸应该是 w*h*c_in*c_out。往往，我们忽略掉c_in这个数，在设置卷积核数量时，也不会涉及到这个参数，但是在计算过程中是不能忽略的。其中，w*h就是通常我们所说的卷积核大小，例如3*3，5*5，7*7等；c_out是平时我们讲的卷积核个数，例如该卷积层设置了64个卷积核，则c_out = 64；而 c_in 则是等于上一层的feature map的数量。）

Standard过程如下图，X表示卷积，+表示对应像素点相加，可以看到对于O1来说，其与输入的每一个feature map都“发生关系”，包含输入的各个feature map的信息。

Depthwise 过程如下图，可以看到depthwise convolution 得出的两个feature map——fd1 和 fd2 分别只与 i1 和 i2 “发生关系” ，这就导致违背了观点 “输出的每一个feature map要包含输入层所有feature map的信息”，因而要引入pointwise convolution：

计算量对比：

其中DK为标准卷积核大小，M是输入feature map通道数，DF为输入feature map大小，N是输出feature map大小。本例中，DK=3，M=2，DF=5，N=3 ，参数的减少量主要就与卷积核大小DK有关。在本文MobileNet的卷积核采用DK=3，则大约减少了8~9倍计算量。

ShuffleNet 网络结构

shuffleNet 是 Face++ 团队提出的，论文标题《ShuffleNet： An Extremely Efficient Convolutional Neural Network for Mobile Devices 》。一看名字shuffleNet，就知道shuffle是本文的重点。那么 shuffle 是什么？为什么要 shuffle 呢？

shuffle 具体说是 channel shuffle，是将各部分的 feature map 的channel进行有序的打乱，构成新的 feature map，以解决 group convolution 带来的“信息流通不畅”问题。（mobileNet 是用 pointwise convolution 解决的这个问题）。由此可知， shuffle 不是任何网络都需要的，当采用了 group convolution 才有可能需要 shuffle 操作。为什么说是有可能，是因为还可以采用 point-wise convolution 或者其他新的方法来解决这个问题。

创新点：利用 group convolution 和 channel shuffle 着两个操作来设计卷积神经网络模型，以减少模型使用的参数数量。group convolution 并非原创，而 channel shuffle 是原创，channel shuffle 因 group convolution 而起。

对比一下 mobileNet，采用shuffle 替换掉 1*1 卷积（注意！是 1*1 Conv，也就是 pointwise convolution；特别注意的是 pointwise convolution 和 1*1 GConv 是不同的，1*1 GConv 更准确的理解是 pointwise group convolution；前者实现不同通道间的信息流通不畅，而后者仅仅是单通道卷积并造成信息不通畅问题），这样可以减少权值参数，而且是减少大量的权值参数，因为在 mobileNet中， 1*1 卷积有较多的卷积核，并且计算量巨大，mobileNet 每层的参数量和运算量如下图示：

shuffleNet 的创新点在于利用了group convolution 和 channel shuffle。

group convolution 自 AlexNet 就有，当时因为硬件限制而采用分组卷积；之后在2016年的 ResNeXt中，表明采用 group convolution 可获得高效的网络；Xception 和 mobileNet 均采用 depth-wise convolution，这些都是最近新出来的一系列轻量化网络模型。（group convolution 和 depth-wise 都会造成信息流通不畅问题，违背了观点 “输出的每一个feature map要包含输入层所有feature map的信息”）

如下图a所示，为了提升模型效率，采用 group convolution 但会有一个副作用，即 “ outputs from a certain channel are only derived from a small fraction of input channels. ” 于是采用channel shuffle 来改善各组间的“信息流通不畅”问题，如下图b所示。具体方法是：把各组的 channel 平均分成 g 份（下图 g = 3），然后依次序重新构成feature map。

对于一个卷积层分为 g 组：

-- 1. 有 g * n 个输出通道

-- 2. reshape为（g， n）

-- 3. 再转置为（n，g）

-- 4. 平坦化，再分为 g 组作为下一层的输入

示意图：

Shuffle Unit

在实际过程中我们构建一个 ShuffleNet Unit，便于构建实际模型。参考链接

图(a)是一个残差模块。对于主分支部分，我们可将其中标准卷积3×3拆分成深度分离卷积。我们将第一个1×1 卷积替换为逐点组卷积，再作通道混洗(即(b))
图(b)即ShuffleNet unit，主分支最后的1×1Conv改为1×1GConv，为了适配和恒等映射做通道融合。配合BN层和ReLU激活函数构成基本单元
图(c)即是做降采样的ShuffleNet unit，这主要做了两点修改：1. 在辅分支加入步长为2的3×3平均池化；2. 原本做元素相加的操作转为了通道级联，这扩大了通道维度，增加的计算成本却很少

NetWork Architecture

在上面的基本单元基础上，提出了 ShuffleNet 的整体架构：

主要分为三个阶段：

----每个阶段的第一个block的步长为2，下一阶段的通道翻倍
----每个阶段内的除步长其他超参数保持不变
----每个ShuffleNet unit的bottleneck通道数为输出的1/4(和ResNet设置一致)

这里主要是给出一个baseline。在ShuffleNet Unit中，参数g控制逐点卷积的连接稀疏性(即分组数)，对于给定的限制下，越大的g会有越多的输出通道，这帮助我们编码信息。

ShuffleNet小结：
1.与MobileNet一样采用了depthwise convolution，但是针对 depthwise convolution带来的副作用——“信息流通不畅”，ShuffleNet采用了一个channel shuffle 操作来解决。

2.在网络拓扑方面，ShuffleNet采用的是ResNet的思想，而MobileNet采用的是VGG的思想，SqueezeNet也是采用VGG的堆叠思想。

Xception 网络模型

参考链接1 参考链接2

Inception 是神经网络结构的一大神作，其提出的多尺寸卷积和多个小卷积核替代大卷积核等概念是现如今许多优秀网络架构的基石。也正是如此，基于此的 Xception 应运而生，作者称其为 Extreme Inception，增加的 Depthwise Separable Convolution也是让人眼前一亮。

本文不详细讲解论文内容，只探讨提出的几个基础概念和结构，并按时间顺序介绍。首先探讨的是 Inception 的多尺寸卷积核和卷积核替换，然后是 Bottleneck，最后到 Xception 的 Depthwise Separable Convolution。

多尺寸卷积核

Inception 最初提出的版本，其核心思想就是使用多尺寸卷积核去观察输入数据。举个例子，我们看某一个景象由于远近不同，同一个物体的大小也会有所不同，那么不同尺度的卷积核观察的特征就会有不同的效果。于是就有了如下的网路结构图：

于是网络结构就变胖了，增加了网络的宽度，同时也提高了对不同尺度的适应程度。

Pointwise Convolution

但是我们的网络变胖的同时，计算量也变大了，所以我们就想办法减少参数量来减少计算量，于是Inception v1 中的最终版本加上了 1*1 卷积核。

使用 1*1 卷积核对输入的特征图进行降维处理，这样就会极大地减少参数量，从而减少计算。

举个例子，输入数据的维度是 256 维，经过 1*1 卷积之后，我们输出的维度是 64 维，参数量是原来的 1/4。这就是 Pointwise Convolutionm，俗称 1*1 卷积，简写为 PW，主要用于数据降维从而减少参数量。也有使用 PW 做升维的，在 MobileNet v2 中就使用 PW 将 3 个特征图变成 6 个特征图，丰富输入数据的特征。具体可以参阅相关论文。

卷积核替换

就算有了 PW，由于 5*5 和 7*7 卷积核直接计算导致计算量还是非常大的，训练时间还是比较长，我们还需要再优化。人类的智慧是无穷的，于是想出了使用多个小卷积核替代大卷积核的方法，这就是 Inception v3，如图所示：

使用两个 3*3 卷积核来代替 5*5 卷积，效果上差不多，但参数量减少很多，达到优化的目的。不仅参数量减少了。层数也变多了，深度也随之加深。

除了规整的正方形，还有分解版本的 3*3 = 3*1 + 1*3 ，这个效果在深度较深的情况下比规整的卷积核更好：

我们假设输入256维，输出512维，计算一下参数量：

5*5 卷积核： 256*5*5*512 = 3276800

两个 3*3 卷积核： 256*3*3*256+256*3*3*512=589824+1179648=1769472

结果对比发现 1769472/3276800= 0.54，两个 3*3 卷积核的参数量是 5*5 的一半，可以大大加快训练速度。

Bottleneck

我们发现就算用了上面的结构和方法，参数量还是很大，于是乎我们结合上面的方法创造出 Bottleneck 的结构降低参数量。

Bottleneck 三步走是先 PW 对数据进行降维，在进行常规卷积核的卷积，最后 PW 对数据进行升维。我们举个例子，方便我们理解：

根据上图，我们做一个对比计算，假设输入 feature map 的维度为 256 维，要求输出的维度也是 256 维。有以上面的两种操作：

--直接使用 3*3 的卷积核。参数量 256*3*3*256 = 589824

--先使用 1*1 的卷积核，再经过 3*3 卷积核，最后经过一个 1*1 卷积核。参数量 256*1*1*64+ 64*3*3*64+ 64*1*1*256 = 69632

经过两种方式的对比，我们可以很明显的看到后者的参数量远小于前者。 Bottleneck 的核心思想还是利用多个小卷积核替代一个大卷积核，利用 1*1 卷积核替代大卷积核的的一部分工作。

Depthwise Separable Convolution

我们发现参数还是很多，于是人们想了又想，得出了 Depthwise Separable Convolution。这个想法最早来自论文《Design of Efficient Convolutional Layers using Single Intra-channel Convolution, Topological Subdivisioning and Spatial "Bottleneck" Structure》，后来被 Google 用在 MobileNet 和 Xception 中发扬光大。

这个卷积的大致意思是对每一个深度图进行卷积再融合，步骤是先 Depthwise Conv 再 Pointwise Conv，大大减少了参数量，下图是 Xception 模块的结构：

大致的步骤是这样的：

-- 分别按照不同通道进行一次卷积（生成输入通道数张 feature maps，不同通道之间的信息未共享）DW

--再将这些 feature maps 一起进行第二次卷积（解决不同通道信息的共享问题） PW

文字看起来有点抽象，举个例子来理解一下：输入的是 2 维的数据进行 3*3 卷积并输出 3 维的数据，与正常卷积对比：

正常卷积：

计算量：2*3*3*3 = 54

Depthwise Separable Convolution：

计算量：2*3*3 + 2*1*1*3 = 18+6 = 24

参数量对比 24/54 = 0.444 ，参数量是正常卷积的一半，在实际输入输出维度相差较大的情况下，效果更大明显。

总结：

从 Inception 到 Xception 的发展一路看来，每一次创新都让人啧啧称赞，精巧的结构设计和理念思想，让人佩服：1. 多个不同尺寸的卷积核，提高对不同尺度特征的适应能力；2. PW 卷积，降维或升维的同时，提高网络的表达能力；3. 多个小尺寸卷积核替代大卷积核，加深网络的同时减少参数量； 4. 精巧的 Bottleneck 结构，大大减少网络参数量； 5. 精巧的 Depthwise Separable Conv 设计，再度减少参数量。

了解了这些基础结构的思想，我们就可以站在巨人的肩膀上更好地向前看，走向更优秀的方向。

YOLOv13_SSOD：基于超图关联增强的半监督目标检测框架（原创创新算法）
YOLOv13_SSOD：基于超图关联增强的半监督目标检测框架项目背景随着深度学习技术的快速发展，目标检测在各个领域都取得了显著的进展。然而，现有的监督学习方法在实际应用中面临着标注数据稀缺、泛化能力不足等挑战。特别是在火灾烟雾检测、工业质检等特定场景中，获取大量高质量标注数据的成本极高。为了解决这一问题，本项目基于最新发布的YOLOv13架构，结合EfficientTeacher半监督学习框架，
USB串口通信、握手协议、深度学习等技术要点深度学习教程, 深度学习人工智能网络协议
基于OpenMV的智能车牌识别系统：从硬件到算法的完整实现前言本文将详细介绍一个基于OpenMV微控制器的智能车牌识别系统的设计与实现。该系统集成了嵌入式视觉处理、串口通信协议、深度学习OCR识别等多种技术，实现了从图像采集到车牌识别的完整流程。系统架构概述整体设计思路该车牌识别系统采用分布式架构设计，将计算密集型任务与嵌入式控制分离：┌─────────────┐USB串口通信┌────────
语音识别开源项目推荐：GitHub热门仓库盘点 AGI大模型与大数据研究院 AI大模型应用开发实战语音识别开源 github ai
2024年必看！GitHub热门语音识别开源项目全解析：从入门到实战关键词语音识别(ASR)、开源项目、GitHub、Whisper、FunASR、PaddleSpeech、深度学习摘要想象一下：开车时只需说一句话就能自动发消息，听英文演讲时实时获得中文翻译，给视障人士读文本时精准转换——这些场景的背后，语音识别（AutomaticSpeechRecognition,ASR）技术正在改变我们与机器
Python训练 + Go优化 + C#部署：端到端AI模型的跨语言实践威哥说编程人工智能学习资料库 python golang c#
在现代AI应用中，如何高效地训练、优化、并最终部署AI模型是一项复杂且具有挑战性的任务。在这一过程中，选择合适的编程语言和工具可以显著提高效率和系统的性能。Python作为AI领域的主流语言，具有丰富的深度学习框架（如PyTorch和TensorFlow），在模型训练方面处于领先地位。然而，针对计算密集型任务（如数据预处理、加密等），Go语言因其高效的并发处理和出色的性能，成为优化计算的理想选择。
DL00478-涡轮叶片缺陷检测数据集yolo格式1300张左右
涡轮叶片缺陷检测数据集yolo格式1300张左右涡轮叶片缺陷检测数据集YOLO格式解析：提升研究与论文写作的关键要点在研究涡轮叶片缺陷检测的过程中，数据集的选择和格式处理是一个至关重要的环节。特别是当你打算通过卷积神经网络（CNN）等深度学习模型进行缺陷检测时，数据集的标注和格式化直接影响到模型的训练效果和论文的质量。本文将重点探讨涡轮叶片缺陷检测数据集的YOLO格式，并分析如何利用这一格式为研究
Epoch 老兵发新帖人工智能
在深度学习和机器学习中，Epoch（轮次或周期）是一个核心训练概念，指模型在整个训练数据集上完成一次完整遍历的过程。以下是关于Epoch的详细解析：一、核心定义基本含义Epoch表示模型将所有训练数据完整学习一次的过程。例如：若训练集有10,000个样本，则1个Epoch即模型用这10,000个样本训练一轮。与相关概念的关系Batch（批次）：数据集被分割成的小组（如每批32个样本）。Iterat
深度学习图像分类数据集—百种病虫害分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：百种病虫害识别分类，训练集45095张，验证集7508张，测试集22619张具体类别为以下：insect_classes=["rice_leaf_roller","rice_leaf_caterpillar
车辆云端威胁情报共享系统的多维解析与发展路径百态老人大数据人工智能
第一部分：内容本质提取原始内容描述了一个闭环网络安全体系：“车辆实时上传异常行为日志至安全运营中心（VSOC），云端通过机器学习分析攻击模式并下发全局防御策略”。其核心架构包含：数据采集层：车辆端持续收集异常行为日志数据，包含CAN总线通信模式、网络流量特征及驾驶行为数据传输层：通过V2X通信协议和OTA更新通道实现车云双向通信分析层：安全运营中心(VSOC)采用CNN-BiSRU等深度学习模型进
基于深度学习的语音识别：从音频信号到文本转录 Blossom.118 机器学习与人工智能深度学习语音识别音视频人工智能机器学习线性代数计算机视觉
前言语音识别（AutomaticSpeechRecognition,ASR）是人工智能领域中一个极具挑战性和应用前景的研究方向。它通过将语音信号转换为文本，为人们提供了更加自然和便捷的人机交互方式。近年来，深度学习技术在语音识别领域取得了显著进展，极大地提高了语音识别的准确率和鲁棒性。本文将详细介绍如何使用深度学习技术构建一个语音识别系统，从音频信号的预处理到模型的训练与部署。一、语音识别的基本概
数字人系统：AI界的超级巨星，你准备好了吗？优秘智能UMI 数字人人工智能深度学习计算机视觉机器学习自然语言处理语言模型图像处理
在这个日新月异的科技时代，每一个创新的火花都可能点燃一场变革的燎原之火。今天，我们要聊的，正是那颗在AI领域熠熠生辉的璀璨新星——优秘数字人系统。它不仅仅是技术的飞跃，更是对未来生活方式的深刻重塑，一场关于人机交互、智能共生的美好预演。技术原理：深度解析与智能构建的奥秘1.深度学习：智能的基石数字人系统的核心技术之一在于深度学习。深度学习是一种模仿人脑神经网络结构和功能的机器学习技术，通过构建多层
聚焦基础研究突破，北电数智联合复旦大学等团队提出“AI安全”DDPA方法入选ICML CSDN资讯人工智能安全数据要素大数据
近日，由北电数智首席科学家窦德景教授牵头，联合复旦大学和美国奥本大学等科研团队共同研发，提出一种DDPA（DynamicDelayedPoisoningAttack）新型对抗性攻击方法，为机器学习领域的安全研究提供新视角与工具，相关论文已被国际机器学习大会（ICML2025）收录。ICML由国际机器学习学会（IMLS）主办，聚焦深度学习、强化学习、自然语言处理等机器学习前沿方向，是机器学习与人工智
商汤科技视觉算法面试30问全景精解
商汤科技视觉算法面试30问全景精解——AI赋能×智能视觉×产业创新：商汤科技视觉算法面试核心考点全览前言商汤科技（SenseTime）作为全球领先的人工智能平台公司，专注于计算机视觉、深度学习和智慧城市、智能汽车、智能医疗等领域，推动人脸识别、目标检测、视频分析、自动驾驶等前沿技术的产业化落地。商汤视觉算法岗位面试不仅考察候选人对视觉基础理论的扎实掌握，更关注其在大规模安防、自动驾驶、智慧医疗等复
旷视科技视觉算法面试30问全景精解机＿长科技算法面试深度学习 YOLO
旷视科技视觉算法面试30问全景精解——AI赋能×智能安防×视觉创新：旷视科技视觉算法面试核心考点全览前言旷视科技（Megvii）作为全球领先的人工智能公司，专注于计算机视觉、深度学习和智能安防等领域，推动人脸识别、目标检测、视频分析、工业视觉等前沿技术的产业化落地。旷视视觉算法岗位面试不仅考察候选人对视觉基础理论的扎实掌握，更关注其在大规模安防、工业检测、智慧城市等复杂场景下的创新与工程能力。本文
GPT-3 面试题
简介1、GPT-3是什么？它是基于什么模型的？GPT-3是一种基于深度学习原理的语言预测模型。它是由OpenAI开发的，可以从互联网数据中生成任何类型的文本。它只需要一小段文本作为输入，就可以生成大量的准确和复杂的机器生成文本²⁴。GPT-3是基于Transformer模型的，使用了仅有解码器的自回归架构。它使用下一个单词预测目标进行训练¹²。GPT-3有8个不同的模型，参数从1.25亿到1750
精通 triton 使用 MLIR 的源码逻辑 - 第001节：triton 的应用简介
项目使用到MLIR，通过了解triton对MLIR的使用，体会到MLIR在较大项目中的使用方式，汇总一下。1.Triton概述OpenAITriton是一个开源的编程语言和编译器，旨在简化GPU高性能计算（HPC）的开发，特别是针对深度学习、科学计算等需要高效并行计算的领域。既允许开发者编写高度优化的代码，又不必过度关注底层硬件细节。这样，通过简化高性能计算，可以加速新算法的实现和实验。传统GPU
ai绘画生成软件哪个好？几款好用的AI绘画软件分享! 呼酱小宝箱
随着人工智能技术的不断发展，越来越多的AI绘画生成软件被开发出来。这些软件利用深度学习技术，可以将普通照片或图像转化成具备艺术效果的画作。那么，ai绘画生成软件哪个好？首先，让我们来看一下几个常见的AI绘画生成软件，它们分别是：1、DeepDreamDeepDream是由Google开发的一款AI绘画生成软件。它通过卷积神经网络对输入的图片进行处理，从而生成出具有艺术风格的画作。DeepDream
DeepSeek部署指南：从入门到精通 wujj_whut 热门应用 c++DeepSeek 嵌入式实时数据库
DeepSeek部署指南：从入门到精通引言在人工智能和深度学习领域，模型的部署是一个至关重要的环节。DeepSeek作为一款强大的深度学习框架，其部署过程不仅关系到模型的性能表现，还直接影响到实际应用的效果。本文将详细介绍DeepSeek的部署流程，涵盖从环境配置到实际应用的各个方面，旨在帮助读者全面掌握DeepSeek的部署技巧。一、DeepSeek简介DeepSeek是一款开源的深度学习框架，
【人工智能之深度学习】1. 深度学习基石：神经元模型与感知机的数学本质（附代码实现与收敛性证明） AI_DL_CODE 人工智能之深度学习人工智能深度学习神经元模型感知机赫布法则深度学习基础线性可分
摘要：作为深度学习的基础单元，神经元模型与感知机承载着从生物智能到人工神经网络的桥梁作用。本文从生物神经元的工作机制出发，系统剖析数学建模过程：详解赫布法则的权重更新原理（Δwi=η·xi·y），推导McCulloch-Pitts神经元模型的数学表达（y=Θ(∑wixi−b)），重点证明感知机在linear可分情况下的收敛性——通过Novikoff定理严格推导迭代次数上界，揭示间隔γ对收敛速度的影
深度学习在环境感知中的应用：案例与代码实现
让机器学会“看”世界：深度学习如何赋能环境感知？关键词深度学习|环境感知|计算机视觉|传感器融合|语义分割|目标检测|自动驾驶摘要环境感知是机器与外界互动的“眼睛和耳朵”——从自动驾驶汽车识别行人，到智能机器人避开障碍物，再到城市监控系统检测异常，所有智能系统都需要先“理解”环境，才能做出决策。传统环境感知方法依赖手工特征提取，难以应对复杂场景；而深度学习通过数据驱动的方式，让机器从大量数据中自动
自编码器表征学习：重构误差与隐空间拓扑结构的深度解析码字的字节机器学习自编码器重构误差隐空间
自编码器基础与工作原理自编码器（Autoencoder）作为深度学习领域的重要无监督学习模型，其核心思想是通过模拟人类认知过程中的"压缩-解压"机制实现数据的表征学习。这种由GeoffreyHinton团队在2006年复兴的神经网络结构，本质上是一个试图通过编码-解码过程来复制其输入的系统，却在实现这一看似简单目标的过程中，意外地获得了强大的特征提取能力。基本架构与工作流程典型自编码器由对称的两部
基于YOLOv8的Web端交互式目标检测系统设计与实现 YOLO实战营 YOLO 前端目标检测人工智能 ui 目标跟踪计算机视觉
1.引言目标检测是计算机视觉领域的一项重要任务，它在安防监控、自动驾驶、医疗影像分析等领域有着广泛的应用。近年来，随着深度学习技术的快速发展，YOLO(YouOnlyLookOnce)系列算法因其出色的速度和精度平衡而备受关注。本文将详细介绍如何基于最新的YOLOv8模型构建一个Web端交互式目标检测系统，包含完整的UI界面设计和数据集处理流程。本系统将实现以下功能：基于YOLOv8的高效目标检测
基于卷积神经网络与小波变换的医学图像超分辨率算法复现神经网络15044 python 算法 cnn 算法人工智能图像处理开发语言神经网络深度学习
基于卷积神经网络与小波变换的医学图像超分辨率算法复现前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家，觉得好请收藏。点击跳转到网站。1.引言医学图像超分辨率技术在临床诊断和治疗规划中具有重要意义。高分辨率的医学图像能够提供更丰富的细节信息，帮助医生做出更准确的诊断。近年来，深度学习技术在图像超分辨率领域取得了显著进展。本文将复现一种结合卷积神经网络(CNN)、小波变
深度学习系列-----＞环境搭建（Ubuntu）二师兄用飘柔深度学习历程深度学习 ubuntu 人工智能 pytorch python
1、前言电脑基础系统硬件情况：系统：ubuntu18.04、显卡：GTX1050Ti；后续的环境搭建都在此基础上进行。此次学习选择Pytorch作为深度学习的框架，选择的原因主要由于PyTorch在研究领域特别受欢迎，较多的论文框架也是基于其开发。2、anaconda+python3安装测试在学习深度学习的过程中会涉及到使用不同版本python包的问题，而anaconda可以便捷获取包且对包能够进
深度学习-常用环境配置瑶山 AI linux 人工智能 windows CUDA PyTorch
目录Miniconda安装安装NVIDIA显卡驱动安装CUDA和cnDNNCUDAcuDNNPyTorch安装手动下载测试Miniconda安装最新版Miniconda搭建Python环境_miniconda创建python虚拟环境-CSDN博客安装NVIDIA显卡驱动直接进NVIDIA官网：NVIDIAGeForce驱动程序-N卡驱动|NVIDIA在这里有GeForce驱动程序，立即下载，这是下
在NLP深层语义分析中，深度学习和机器学习的区别与联系
在自然语言处理（NLP）的深层语义分析任务中，深度学习与机器学习的区别和联系主要体现在以下方面：一、核心区别特征提取方式机器学习：依赖人工设计特征（如词频、句法规则、TF-IDF等），需要领域专家对文本进行结构化处理。例如，传统情感分析需人工定义“情感词库”或通过词性标注提取关键成分。深度学习：通过神经网络自动学习多层次特征。例如，BERT等模型可从原始文本中捕获词向量、句法关系甚至篇章级语义，无
深度学习--利用梯度下降法进行多变量的二分类（感知机）白话学生nit 深度学习分类人工智能
其实这一节涉及到了感知机的相关知识，就把这一节当作是学习感知机的引子吧。什么是二分类我们先来说一下什么是二分类，二分类指的是将结果分为两个互斥的类别，通常用来表示问题的两种可能。为什么用感知机学习二分类常见的解决问题的模型有很多，这里我们使用感知机模型。至于为什么，因为感知机模型很多地方用起来比较简便，就拿我们这一节的问题举一下例子，我们需要依照房子的价格对房子进行分类。在感知机模型中，我们可以使
智能喷洒机器人目标识别系统：基于NanoDet的目标检测与UI界面实现 YOLO实战营机器人目标检测 ui NanoDet 计算机视觉目标跟踪深度学习
在现代农业生产中，自动化喷洒系统是实现精准农业的重要组成部分。智能喷洒机器人通过图像识别和自动控制技术，能够高效识别并精确喷洒农药、肥料等，提高农业生产效率，降低化学品使用量，减少环境污染。目标识别是智能喷洒机器人中至关重要的部分，它涉及到精准的作物和病虫害识别，确保喷洒操作的准确性。在本篇博客中，我们将构建一个基于NanoDet深度学习目标检测模型的智能喷洒机器人目标识别系统。我们将介绍如何使用
对标ChatGPT，「文心一言」今日亮相！AI人机时代来临，未来在何方？ AI医学
本文由「AI医学er」提供医海无涯，AI同舟。关注我们，助力高效科研。3月15日，OpenAI公布了其大型语言模型的最新版本——GPT-4。3月16日，百度文心一言人工智能聊天机器人正式上线。一个时代开始了。OpenAI在官网表示，GPT-4是一个能接受图像和文本输入，并输出文本的多模态模型，是OpenAI在扩展深度学习方面的最新成果。此前的ChatGPT，只能通过向其输入文字提问才能生成文字回答
【深度学习新浪潮】什么是system 1和system 2？小米玄戒Andrew 深度学习新浪潮深度学习人工智能大模型推理模型 COT 模型蒸馏动态推理
在大模型研究中，System1和System2的概念源于心理学家DanielKahneman的双系统理论，用于描述人类思维的两种模式。System1代表快速、直觉、自动化的思维（如模式识别），而System2代表慢速、有意识、需要努力的逻辑推理（如复杂数学计算）。这一理论被引入AI领域后，成为理解大模型能力边界和优化方向的重要框架。一、大模型中的System1与System2的定义System1（
学习人工智能开发的详细指南 Ws＿学习人工智能 python
一、引言人工智能（AI）开发是一个充满挑战与机遇的领域，它融合了数学、计算机科学、统计学、认知科学等多个学科的知识。随着大数据、云计算和深度学习技术的快速发展，AI已经成为推动社会进步和产业升级的关键力量。本文将为初学者提供一份详细的学习指南，帮助大家逐步掌握AI开发的核心技能。二、基础知识准备数学基础：线性代数：理解向量、矩阵、线性变换等基本概念，掌握矩阵运算和特征值分解等技巧。概率论与统计学：
jQuery 跨域访问的三种方式 No 'Access-Control-Allow-Origin' header is present on the reque qiaolevip 每天进步一点点学习永无止境跨域众观千象
XMLHttpRequest cannot load http://v.xxx.com. No 'Access-Control-Allow-Origin' header is present on the requested resource. Origin 'http://localhost:63342' is therefore not allowed access. test.html:1
mysql 分区查询优化 annan211 java 分区优化 mysql
分区查询优化引入分区可以给查询带来一定的优势，但同时也会引入一些bug. 分区最大的优点就是优化器可以根据分区函数来过滤掉一些分区，通过分区过滤可以让查询扫描更少的数据。所以，对于访问分区表来说，很重要的一点是要在where 条件中带入分区，让优化器过滤掉无需访问的分区。可以通过查看explain执行计划，是否携带 partitions
MYSQL存储过程中使用游标 chicony Mysql存储过程
DELIMITER $$ DROP PROCEDURE IF EXISTS getUserInfo $$ CREATE PROCEDURE getUserInfo(in date_day datetime)-- -- 实例-- 存储过程名为：getUserInfo-- 参数为：date_day日期格式:2008-03-08-- BEGINdecla
mysql 和 sqlite 区别 Array_06 sqlite
转载： http://www.cnblogs.com/ygm900/p/3460663.html mysql 和 sqlite 区别 SQLITE是单机数据库。功能简约，小型化，追求最大磁盘效率 MYSQL是完善的服务器数据库。功能全面，综合化，追求最大并发效率 MYSQL、Sybase、Oracle等这些都是试用于服务器数据量大功能多需要安装，例如网站访问量比较大的。而sq
pinyin4j使用 oloz pinyin4j
首先需要pinyin4j的jar包支持；jar包已上传至附件内方法一:把汉字转换为拼音；例如：编程转换后则为biancheng /** * 将汉字转换为全拼 * @param src 你的需要转换的汉字 * @param isUPPERCASE 是否转换为大写的拼音； true:转换为大写；fal
微博发送私信随意而生微博
在前面文章中说了如和获取登陆时候所需要的cookie，现在只要拿到最后登陆所需要的cookie，然后抓包分析一下微博私信发送界面 http://weibo.com/message/history?uid=****&name=**** 可以发现其发送提交的Post请求和其中的数据，让后用程序模拟发送POST请求中的数据，带着cookie发送到私信的接入口，就可以实现发私信的功能了。
jsp 香水浓 jsp
JSP初始化容器载入JSP文件后，它会在为请求提供任何服务前调用jspInit()方法。如果您需要执行自定义的JSP初始化任务，复写jspInit()方法就行了 JSP执行这一阶段描述了JSP生命周期中一切与请求相关的交互行为，直到被销毁。当JSP网页完成初始化后
在 Windows 上安装 SVN Subversion 服务端 AdyZhang SVN
在 Windows 上安装 SVN Subversion 服务端2009-09-16高宏伟哈尔滨市道里区通达街291号最佳阅读效果请访问原地址：http://blog.donews.com/dukejoe/archive/2009/09/16/1560917.aspx 现在的Subversion已经足够稳定，而且已经进入了它的黄金时段。我们看到大量的项目都在使
android开发中如何使用 alertDialog从listView中删除数据？ aijuans android
我现在使用listView展示了很多的配置信息，我现在想在点击其中一条的时候填出 alertDialog,点击确认后就删除该条数据，（ ArrayAdapter ，ArrayList，listView 全部删除），我知道在下面的onItemLongClick 方法中参数 arg2 是选中的序号，但是我不知道如何继续处理下去 1 2 3
jdk-6u26-linux-x64.bin 安装 baalwolf linux
1.上传安装文件(jdk-6u26-linux-x64.bin) 2.修改权限 [root@localhost ~]# ls -l /usr/local/jdk-6u26-linux-x64.bin 3.执行安装文件 [root@localhost ~]# cd /usr/local [root@localhost local]# ./jdk-6u26-linux-x64.bin&nbs
MongoDB经典面试题集锦 BigBird2012 mongodb
1.什么是NoSQL数据库？NoSQL和RDBMS有什么区别？在哪些情况下使用和不使用NoSQL数据库？ NoSQL是非关系型数据库，NoSQL = Not Only SQL。关系型数据库采用的结构化的数据，NoSQL采用的是键值对的方式存储数据。在处理非结构化/半结构化的大数据时；在水平方向上进行扩展时；随时应对动态增加的数据项时可以优先考虑使用NoSQL数据库。在考虑数据库的成熟
JavaScript异步编程Promise模式的6个特性 bijian1013 JavaScript Promise
Promise是一个非常有价值的构造器，能够帮助你避免使用镶套匿名方法，而使用更具有可读性的方式组装异步代码。这里我们将介绍6个最简单的特性。在我们开始正式介绍之前，我们想看看Javascript Promise的样子： var p = new Promise(function(r
[Zookeeper学习笔记之八]Zookeeper源代码分析之Zookeeper.ZKWatchManager bit1129 zookeeper
ClientWatchManager接口 //接口的唯一方法materialize用于确定那些Watcher需要被通知 //确定Watcher需要三方面的因素1.事件状态 2.事件类型 3.znode的path public interface ClientWatchManager { /** * Return a set of watchers that should
【Scala十五】Scala核心九：隐式转换之二 bit1129 scala
隐式转换存在的必要性，在Java Swing中，按钮点击事件的处理，转换为Scala的的写法如下： val button = new JButton button.addActionListener( new ActionListener { def actionPerformed(event: ActionEvent) {
Android JSON数据的解析与封装小Demo ronin47
转自：http://www.open-open.com/lib/view/open1420529336406.html package com.example.jsondemo; import org.json.JSONArray; import org.json.JSONException; import org.json.JSONObject; impor
[设计]字体创意设计方法谈 brotherlamp UI ui自学 ui视频 ui教程 ui资料
从古至今，文字在我们的生活中是必不可少的事物，我们不能想象没有文字的世界将会是怎样。在平面设计中，UI设计师在文字上所花的心思和功夫最多，因为文字能直观地表达UI设计师所的意念。在文字上的创造设计，直接反映出平面作品的主题。如设计一幅戴尔笔记本电脑的广告海报，假设海报上没有出现“戴尔”两个文字，即使放上所有戴尔笔记本电脑的图片都不能让人们得知这些电脑是什么品牌。只要写上“戴尔笔
单调队列-用一个长度为k的窗在整数数列上移动，求窗里面所包含的数的最大值 bylijinnan java 算法面试题
import java.util.LinkedList; /* 单调队列滑动窗口单调队列是这样的一个队列：队列里面的元素是有序的，是递增或者递减题目：给定一个长度为N的整数数列a(i),i=0,1,...,N-1和窗长度k. 要求：f(i) = max{a(i-k+1),a(i-k+2),..., a(i)},i = 0,1,...,N-1 问题的另一种描述就
struts2处理一个form多个submit chiangfai struts2
web应用中，为完成不同工作，一个jsp的form标签可能有多个submit。如下代码： <s:form action="submit" method="post" namespace="/my"> <s:textfield name="msg" label="叙述：">
shell查找上个月，陷阱及野路子 chenchao051 shell
date -d "-1 month" +%F 以上这段代码，假如在2012/10/31执行，结果并不会出现你预计的9月份，而是会出现八月份，原因是10月份有31天，9月份30天，所以-1 month在10月份看来要减去31天，所以直接到了8月31日这天，这不靠谱。野路子解决：假设当天日期大于15号
mysql导出数据中文乱码问题 daizj mysql 中文乱码导数据
解决mysql导入导出数据乱码问题方法：１、进入mysql，通过如下命令查看数据库编码方式： mysql> show variables like 'character_set_%'; +--------------------------+----------------------------------------+ | Variable_name&nbs
SAE部署Smarty出现：Uncaught exception 'SmartyException' with message 'unable to write dcj3sjt126com PHP smarty sae
对于SAE出现的问题：Uncaught exception 'SmartyException' with message 'unable to write file...。官方给出了详细的FAQ：http://sae.sina.com.cn/?m=faqs&catId=11#show_213 解决方案为： 01 $path
《教父》系列台词 dcj3sjt126com
Your love is also your weak point. 你的所爱同时也是你的弱点。 If anything in this life is certain, if history has taught us anything, it is that you can kill anyone. 不顾家的人永远不可能成为一个真正的男人。 &
mongodb安装与使用 dyy_gusi mongo
一.MongoDB安装和启动,widndows和linux基本相同 1.下载数据库, linux:mongodb-linux-x86_64-ubuntu1404-3.0.3.tgz 2.解压文件,并且放置到合适的位置 tar -vxf mongodb-linux-x86_64-ubun
Git排除目录 geeksun git
在Git的版本控制中，可能有些文件是不需要加入控制的，那我们在提交代码时就需要忽略这些文件，下面讲讲应该怎么给Git配置一些忽略规则。有三种方法可以忽略掉这些文件，这三种方法都能达到目的，只不过适用情景不一样。 1. 针对单一工程排除文件这种方式会让这个工程的所有修改者在克隆代码的同时，也能克隆到过滤规则，而不用自己再写一份，这就能保证所有修改者应用的都是同一
Ubuntu 创建开机自启动脚本的方法 hongtoushizi ubuntu
转载自： http://rongjih.blog.163.com/blog/static/33574461201111504843245/ Ubuntu 创建开机自启动脚本的步骤如下： 1) 将你的启动脚本复制到 /etc/init.d目录下以下假设你的脚本文件名为 test。 2) 设置脚本文件的权限 $ sudo chmod 755
第八章流量复制/AB测试/协程 jinnianshilongnian nginx lua coroutine
流量复制在实际开发中经常涉及到项目的升级，而该升级不能简单的上线就完事了，需要验证该升级是否兼容老的上线，因此可能需要并行运行两个项目一段时间进行数据比对和校验，待没问题后再进行上线。这其实就需要进行流量复制，把流量复制到其他服务器上，一种方式是使用如tcpcopy引流；另外我们还可以使用nginx的HttpLuaModule模块中的ngx.location.capture_multi进行并发
电商系统商品表设计 lkl
DROP TABLE IF EXISTS `category`; -- 类目表 /*!40101 SET @saved_cs_client = @@character_set_client */; /*!40101 SET character_set_client = utf8 */; CREATE TABLE `category` ( `id` int(11) NOT NUL
修改phpMyAdmin导入SQL文件的大小限制 pda158 sql mysql
　用phpMyAdmin导入mysql数据库时，我的10M的数据库不能导入，提示mysql数据库最大只能导入2M。　　 phpMyAdmin数据库导入出错：　　You probably tried to upload too large file. Please refer to documentation for ways to workaround this limit.
Tomcat性能调优方案 Sobfist apache jvm tomcat 应用服务器
一、操作系统调优对于操作系统优化来说，是尽可能的增大可使用的内存容量、提高CPU的频率，保证文件系统的读写速率等。经过压力测试验证，在并发连接很多的情况下，CPU的处理能力越强，系统运行速度越快。。【适用场景】任何项目。二、Java虚拟机调优应该选择SUN的JVM，在满足项目需要的前提下，尽量选用版本较高的JVM，一般来说高版本产品在速度和效率上比低版本会有改进。 J
SQLServer学习笔记 vipbooks 数据结构 xml
1、create database school 创建数据库school 2、drop database school 删除数据库school 3、use school 连接到school数据库，使其成为当前数据库 4、create table class(classID int primary key identity not null) 创建一个名为class的表，其有一

常用的轻量化网络结构：SqueezeNet、MobileNet、ShuffleNet、Xception

引言

SqueezeNet

MoblieNet 网络结构讲解： 参考链接1 参考链接2

ShuffleNet 网络结构

Xception 网络模型

你可能感兴趣的:(深度学习)

MoblieNet 网络结构讲解：参考链接1 参考链接2