丶Minskyli

深度学习之MobileNetV1

深度学习模型压缩之MobileNetv1

- - 摘要
  - 1.引言
  - 2.现有工作
  - 3.MobileNet结构
    - 3.1 深度可分离卷积
    - 3.2 网络结构和训练
    - 3.3 宽度乘法器：更薄的模型
    - 3.4 分辨率乘法器：约化表达
  - 4 实验
    - 4.1 模型选择
    - 4.2 模型压缩超参数
    - 4.3 细粒度识别
    - 4.4 大规模地理信息
    - 4.5 人脸属性
    - 4.6 目标检测
    - 4.7 人脸嵌入
  - 5 结论

摘要

我们针对移动端以及嵌入式视觉的应用提出了一类有效的模型叫MobileNets。MobileNets基于一种流线型结构使用深度可分离卷积来构造轻型权重深度神经网络。我们介绍两个能够有效权衡延迟和准确率的简单的全局超参数。这些超参数允许模型构造器能够根据特定问题选择合适大小的模型。我们在资源和准确率的权衡方面做了大量的实验并且相较于其他在ImageNet分类任务上著名的模型有很好的表现。然后，我们演示了MobileNets在广泛应用上的有效性，使用实例包含目标检测、细粒度分类、人脸属性以及大规模地理位置信息。

1.引言

自从著名的深度卷积神经网络AlexNet赢得ImageNet竞赛：ILSVRC 2012之后，卷积神经网络普遍应用在计算机视觉领域。为了得到更高的准确率，普遍的趋势是使网络更深更复杂。然而，这些在提升准确率的提升在尺寸和速度方面并不一定使网络更加有效。在大多现实世界应用中，比如机器人、无人驾驶和增强现实，识别任务需要在有限的计算平台上实时实现。

本文描述了一个有效的网络结构以及两组用于构建小型、低延迟模型的超参数，能在移动以及嵌入式视觉应用上轻易匹配设计要求。在第二节中回顾了现有构建小型模型的工作。第三节描述了MobileNet的结构以及两种超参数-宽度乘法器（width multiplier）和分辨率乘法器（resolution multiplier）来定义更小更有效的MobileNets。第四节描述了在ImageNet上的实验和大量不同的应用场景以及使用实例。第五节以总结和结论结束。

2.现有工作

近期已经有一些构造小而有效的神经网络的文献，如SqueezeNet、Flattened convolutional neural networks for feedforward acceleration、Imagenet classification using binary convolutional neural networks、Factorized convolutional neural networks、Quantized convolutional neural networks for mobile devices。这些方法可以大概分为要么是压缩预训练网络，要么直接训练小型网络。本文提出一类神经网络结构允许特定模型开发人员对于其应用上可以选择一个小型网络能匹配已有限制性的资源（延迟、尺寸）。MobileNets首先聚焦于优化延迟，但是也产生小型网络，许多文献在小型网络上只聚焦于尺寸但是没有考虑过速度问题。
MobileNets首先用深度可分离卷积（Rigid-motion scattering for image classification中首先被提出）进行构建，随后被用在inception结构中（GoogLeNetv2）来减少首先几层的计算量。Flattened networks构建网络运用完全分解的卷积并证明了极大分解网络的重要性。而Factorized Networks介绍了一个相似的分解卷积和拓扑连接的使用。随后，Xception network描述了如何放大深度可分离滤波器来完成InceptionV3网络。另一个小型网络是SqueezeNet，使用bottleneck的方法来设计一个小型网络。其他的减少计算的网络包含STN（Structured trans- forms for small-footprint deep learning.）和deep fried convnets（Deep fried convnets）。
另一种不同的途径就是收缩、分解、压缩预训练网络。基于乘积量化的压缩（Quantized convolutional neural networks for mobile devices.）基于哈希的压缩（Compressing neural networks with the hashing trick）基于剪枝、矢量量化、霍夫曼编码的压缩（Deep compression: Com- pressing deep neural network with pruning, trained quantiza- tion and huffman coding.）也被提出来。另外各种因子分解也被提出来加速预训练网络（Speeding up convolutional neural networks with low rank expansions.）（Speeding-up convolutional neural net- works using fine-tuned cp-decomposition.）其他方法来训练小型网络即为蒸馏法（Distillingtheknowledge in a neural network）即用一个大型的网络来教导一个小型网络。其于我们的方法相辅相成，在第4节中包含了一些我们的用例。另一种新兴的方法即低比特网络（Training deep neural networks with low precision multiplications.）（Quantized neural networks: Training neural net- works with low precision weights and activations.）（Xnor- net: Imagenet classification using binary convolutional neu- ral networks.）。

3.MobileNet结构

本节首先描述MobileNet的核心部分也就是深度可分离卷积。然后描述描述MobileNet的网络结构和两个模型收缩超参数即宽度乘法器和分辨率乘法器。

3.1 深度可分离卷积

MobileNet是一种基于深度可分离卷积的模型，深度可分离卷积是一种将标准卷积分解成深度卷积以及一个1x1的卷积即逐点卷积。对于MobileNet而言，深度卷积针对每个单个输入通道应用单个滤波器进行滤波，然后逐点卷积应用1x1的卷积操作来结合所有深度卷积得到的输出。而标准卷积一步即对所有的输入进行结合得到新的一系列输出。深度可分离卷积将其分成了两步，针对每个单独层进行滤波然后下一步即结合。这种分解能够有效的大量减少计算量以及模型的大小。如图1所示，一个标准的卷积1(a)被分解成深度卷积1(b)以及1x1的逐点卷积1(c)。

图1 标准卷积与深度可分离卷积

一个标准卷积层输入 DF∗DF∗M 的特征图F，并得到一个 DG∗DG∗N 的输出特征图G，其中 DF 表示输入特征图的宽和高，M是输入的通道数（输入的深度） DG 为输出特征图的宽和高，N是输出的通道数（输出的深度）。
标准卷积层通过由大小为 DK∗DK∗M∗N 个卷积核K个参数，其中 DK 是卷积核的空间维数，M是输入通道数，N是输出通道数。
标准卷积的输出的卷积图，假设步长为1，则padding由下式计算： Gk,l,n=∑i,j,mKi,j,m,n⋅Fk+i−1,l+j−1,m 。其计算量为 DK∗DK∗M∗N∗DF∗DF ，其由输入通道数M、输出通道数N、卷积核大小 DK 、输出特征图大小 DF 决定。MobileNet模型针对其进行改进。首先，使用深度可分离卷积来打破输出通道数与卷积核大小之间的相互连接作用。
标准的卷积操作基于卷积核和组合特征来对滤波特征产生效果来产生一种新的表示。滤波和组合能够通过分解卷积操作来分成两个独立的部分，这就叫做深度可分离卷积，可以大幅度降度计算成本。
深度可分离卷积由两层构成：深度卷积和逐点卷积。我们使用深度卷积来针对每一个输入通道用单个卷积核进行卷积，得到输入通道数的深度，然后运用逐点卷积，即应用一个简单的1x1卷积，来对深度卷积中的输出进行线性结合。MobileNets对每层使用batchnorm和ReLU非线性激活。
深度卷积对每个通道使用一种卷积核，可以写成： Gk,l,m^=∑i,jKi,j,m^⋅Fk+i−1,l+j−1,m ，其中 K̂ 是深度卷积核的尺寸 DK∗DK∗M ， K̂ 中第m个卷积核应用于F中的第m个通道来产生第m个通道的卷积输出特征图 Ĝ 。
深度卷积的计算量为： DK∗DK∗M∗DF∗DF 。
深度卷积相对于标准卷积十分有效，然而其只对输入通道进行卷积，没有对其进行组合来产生新的特征。因此下一层利用另外的层利用1x1卷积来对深度卷积的输出计算一个线性组合从而产生新的特征。
那么深度卷积加上1x1卷积的逐点卷积的结合就叫做深度可分离卷积，最开始在（Rigid-motion scattering for image classification.）中被提出。
深度可分离卷积的计算量为： DK∗DK∗M∗DF∗DF+M∗N∗DF∗DF ,即深度卷积和1x1的逐点卷积的和。
通过将卷积分为滤波和组合的过程得到对计算量的缩减： DK∗DK∗M∗DF∗DF+M∗N∗DF∗DFDK∗DK∗M∗DF∗DF=1N+1D2K
MobileNet使用3x3的深度可分离卷积相较于标准卷积少了8到9倍的计算量，然而只有极小的准确率的下降如第4节。
另外的空间维数的分解方式如（Flattenedconvolutional neural networks for feedforward acceleration）（Rethinking the inception architecture for computer vision.）中。但是相较于深度可分离卷积，计算量的减少也没有这么多。

3.2 网络结构和训练

MobileNet结构就像前面所提到的由深度可分离卷积所构成，且除了第一层之外为全卷积。通过用这些简单的项定义网络能够更容易的探索网络的拓扑结构来找到一个更好的网络。MobileNet结构由下表1定义。

表1 MobileNet的主体结构
所有的层都跟着一个batchnorm(Batch normalization: Accelerating deep network training by reducing internal covariate shift.)以及ReLU非线性激活函数，除了最后一层全连接层没有非线性激活函数直接送入softmax层进行分类。下图2比较了常规的卷积、batchnorm、ReLU层以及分解层包含深度可分离卷积、1x1卷积、以及在每层卷积层之后的batchnorm和ReLU非线性激活函数。

图2 标准卷积与深度可分离卷积的对比
下采样通过深度可分离卷积中第一层的深度卷积通过步长来进行控制，最后将卷积层中提取到的特征图经过全局平均池化层降维至1维，然后送入全连接层分成1000类。将深度卷积和逐点卷积算作两层，则MobileNet含有28层。
用这些少数的乘加运算来定义简单的网络是不够的。确保这些操作要十分有效也是非常重要的。实例化非结构稀疏矩阵操作除非有一个非常高的稀疏度，否则不一定比稠密矩阵操作更加快速。我们的模型结构几乎将左右的计算量都放在稠密的1x1卷积中，这可以通过高度优化的GEMM通用矩阵乘法函数来实现。通常卷积由GEMM来实现，但是要求一个im2col即在内存中初始化重新排序来映射到GEMM。比如，这个方法用在caffe模型框架中（Caffe: Convolu- tional architecture for fast feature embedding）。而1x1卷积则不需要内存的重新排序，并且能直接用GEMM方法实现，因此是最优化的数值线性代数算法之一。MobileNet95%的计算时间都花费在1x1的逐点卷积上，并且占参数量的75%，如表2所示。其他额外的参数几乎都集中于全连接层。

MobileNet模型在Tensorflow框架(Tensorflow: Large-scale machine learning on heterogeneous systems)中使用与InceptionV3（Rethinking the inception architecture for computer vision.）中一样的RMSprop异步梯度下降算法(] T. Tieleman and G. Hinton. Lecture 6.5-rmsprop: Divide the gradient by a running average of its recent magnitude. COURSERA: Neural Networks for Machine Learning, 4(2), 2012. 4
)然而，与训练大型网络模型不同的是，我们使用了非常少的正则化以及数据增强技术，因为小模型很少有过拟合的问题。当训练MobileNet时，我们没有使用side heads或者标签平滑操作，另外通过限制在大型Inception层训练中小的裁剪的大小来减少失真图片的数量。另外，我们发现在深度卷积中尽量不加入权重衰减（L2范数）是非常重要的，因为深度卷积中参数量很小。对于ImageNet数据集，无论模型大小，所有模型都被相同的超参数训练模型，下一节来说明。

3.3 宽度乘法器：更薄的模型

尽管最基本的MobileNet结构已经非常小并且低延迟。而很多时候特定的案例或者应用可能会要求模型变得更小更快。为了构建这些更小并且计算量更小的模型，我们引入了一种非常简单的参数 α 叫做宽度乘法器。宽度乘法器 α 的作用就是对每一层均匀薄化。给定一个层以及宽度乘法器 α ，输入通道数M变成了 αM 并且输出通道数变成 αN 。
加上宽度乘法器的深度可分离卷积的计算量如下： DK∗DK∗αM∗DF∗DF+αM∗αN∗DF∗DF
由于 α∈(0,1] ，一般设置为1\0.75\0.5\0.25。当 α=1 的时候就是最基本的MobileNet，当 α<1 时，就是薄化的MobileNet。宽度乘法器对计算量和参数量的减少大约 α2 倍。宽度乘法器可以应用在任何模型结构来定义一个更瘦的模型，并且权衡合理的精度、延迟的大小。宽度乘法器常用来薄化一个新的需要从头开始训练的网络结构。

3.4 分辨率乘法器：约化表达

第二个薄化神经网络计算量的超参数是分辨率乘法器 ρ 。我们将其应用在输入图片以及每一层的内部表达中。实际上，我们通过设置 ρ 来隐式的设置输入的分辨率大小。
我们现在可以对网络中的核心层的深度可分离卷积加上宽度乘法器 α 以及分辨率乘法器 ρ 来表达计算量： DK∗DK∗αM∗ρDF∗ρDF+αM∗αN∗ρDF∗ρDF
其中 ρ∈(0,1] ，一般隐式的设置以便于输入网络的图像分辨率为224\192\160\128等。当 ρ=1 时为最基本的MobileNet，当 ρ<1 时，则为薄化的MobileNet。分辨率乘法器对网络约化大约 ρ2 倍。
接下来举个例子，MobileNet中的一个典型的层以及深度可分离卷积、宽度乘法器、分辨率乘法器是如何约化计算量和参数量。表3中展示了一层的计算量和参数量以及结构收缩的这些方法应用在这些层之后的变化。第一行显示了全连接层的Mult-Adds和参数量，其输入特征图为14x14x512，并且卷积核的尺寸为3x3x512x512。我们将在下一节详细阐述资源和准确率之间的权衡关系。

4 实验

在这一节，我们首先调研了深度可分离卷积以及通过收缩网络的宽度而不是减少网络的层数带来的影响。然后展示了基于两个超参数：宽度乘法器和分辨率乘法器，来收缩网络的权衡，并且与一些著名的网络模型进行了对比。然后调研了MobileNet运用在一些不同的应用上的效果。

4.1 模型选择

首先我们展示了运用深度可分离卷积的MobileNet与全标准卷积网络的对比，如表4，我们可以看见在ImageNet数据集上使用深度可分离卷积相较于标准卷积准确率只减少了1%，但在计算量和参数量上却减少了很多。

接下来，我们展示了利用宽度是乘法器的薄化模型与只有少数层的千层神经网络进行对比，为了使MobileNet更浅，表1中的5层14x14x512的特征尺寸的可分离卷积层都被去掉了。表5展示了相同计算量参数量的情况下，让MobileNets薄化3%比让它更浅效果更好。

4.2 模型压缩超参数

表6展示了利用宽度乘法器 α 对MobileNet网络结构进行薄化后准确率，计算量和尺寸之间的权衡关系。准确率直到宽度乘法器 α 下降到0.25才显示下降很多。

表7展示了通过利用约化的MobileNets时不同分辨率乘法器时准确率、计算量和尺寸之间的权衡关系。准确率随着分辨率下降而平滑减小。

图3显示了16个不同的模型在ImageNet中准确率和计算量之间的权衡。这16个模型由4个不同的宽度乘法器{1,0.75,0.5,0.25}以及不同分辨率{224,192,160,128}组成。当

α α =0.25时，模型变得非常小，整个结果呈现对数线性跳跃。

图3
图4显示了16个不同模型在ImageNet中准确率和参数量之间的权衡。这16个模型由4个不同的宽度乘法器{1,0.75,0.5,0.25}以及不同分辨率{224,192,160,128}组成。

图4 颜色编码输入的分辨率，参数的数量不随输入分辨率而变化
表8比较了最基本的MobileNet与原始GoogleNet和VGG16。MobileNet和VGG16准确率几乎一样，但是参数量少了32倍，计算量少了27倍。相较于GoogleNet而言，准确率更高，并且参数量和计算量都少了2.5倍。

表9比较了约化后的MobileNet(

α=0.5 α = 0.5 ，并且分辨率为160x160，原本为224x224)与AlexNet以及SqueezeNet( Squeezenet: Alexnet-level accuracy with 50x fewer parameters and¡ 1mb model size. )。约化后的MobileNet相较于这两个模型，准确率都高，并且计算量相较于AlexNet少了9.4倍比SqueezeNet少了22倍。

4.3 细粒度识别

在斯坦福狗数据集（Novel dataset for fine-grained image categorization）上训练MobileNet来进行细粒度识别。我们扩展了（The unreasonable effectiveness of noisy data for fine-grained recognition.）中的方法，并且从网上收集了一个相对其更大，噪声更多的训练集，我们使用网上的噪声数据集先预训练一个细粒度识别狗的模型，然后在斯坦福狗数据集上进行精调。结果显示在表10中。MobileNet几乎可以实现最好的结果，并且大大减少了计算量和尺寸。

4.4 大规模地理信息

（PlaNet - Photo Geolocation with Convolutional Neural Networks）描述了在哪里拍照是一个分类问题。这个方法将地球分割为地理网格作为目标类来利用数以百万的地理标记图片训练一个卷积神经网络。PlaNet已经成功定位了大量照片，相对（ IM2GPS: estimating geographic in- formation from a single image）（Large-Scale Image Geolocalization.）针对相同的任务，效果更好。
我们在相同数据集上利用MobileNet结构重新训练PlaNet，因为PlaNet基于inceptionV3结构，其有5200万参数以及5.74亿的乘加计算量。而MobileNet只有1300万参数量以及几百万的乘加计算量。在表11中，MobileNet相较于PlaNet只有少数准确率的下降，然而大幅度的优于Im2GPS。

4.5 人脸属性

另一个MobileNet的使用实例就是利用未知深奥的训练过程来压缩大型系统。在人脸属性分类任务中，我们证明了MobileNet与蒸馏（一种针对深层网络的知识转换理论）（Distilling the knowledge in a neural network）之间的协同关系。我们利用7500万参数以及16亿乘加运算计算量来约化一个大型人脸属性分类器。这个分类器在一个类似于YFCC100M数据集（Yfcc100m: The new data in multimedia research.）上的一个多属性数据集上训练。
我们使用MobileNet结构提炼一个人脸属性分类器。通过训练分类器来蒸馏工作来模拟一个大型模型的输出，而不是真实的标签。因此能够训练非常大（接近无限）的未标记的数据集。结合蒸馏训练的可扩展性以及MobileNet的简约参数化，终端系统不仅要求正则化（权重衰减和早停），而且增强了性能。如表12中可以明显看到基于MobileNet-base分类器针对模型收缩更有弹性变化：它在跨属性间实现了一个相同的mAP但是只用了呀哪里1%的乘加运算。

4.6 目标检测

MobileNet也可以作为一个基本网络部署在现代目标检测系统中。我们在COCO数据集上训练得到结果并且赢得了2016COCO挑战赛。在表13中，MobileNet与VGG和InceptionV2在Faster-RCNN以及SSD(Ssd: Single shot multibox detector.)框架下进行比较。

在我们的实验中，SSD由分辨率为300的输入图片进行检测，Faster-RCNN有300和600两种分辨率进行比较。Faster-RCNN模型每张图片测试了300RPN候选区域框，模型利用COCO的训练和验证集进行训练，包含了8000张微缩图片，并且在微缩图片中进行测试。对于上述框架，MobileNet与其他网络进行比较，计算复杂度和模型尺寸相当于其他模型的一小部分。

4.7 人脸嵌入

FaceNet是艺术人脸识别模型中最好的（Facenet: A uni- fied embedding for face recognition and clustering.）它构建了基于三次损失的人脸嵌入。为了构建移动端FaceNet模型，我们在训练集上通过最小化FaceNet和MobileNet之间的平方差来蒸馏训练。结果展示在表14中。

5 结论

我们提出了一个新的模型基于深度可分离卷积网络结构MobileNet。我们调研了一些重要的设计决策来引领一个有效的模型。然后我们描述了如何使用宽度乘法器和分辨率乘法器通过权衡准确率来减少尺寸和延迟来构建更小更快的MobileNets。然后将MobileNet与著名的模型在尺寸、速度和准确率上进行比较。我们总结了当MobileNet应用在各种任务中的有效性。下一步为了帮助探索MobileNets的更多改进和应用，我们计划在tensorflow中加入MobileNet。

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
深度学习-点击率预估-研究论文2024-09-14速读 sp_fyf_2024 深度学习人工智能
深度学习-点击率预估-研究论文2024-09-14速读1.DeepTargetSessionInterestNetworkforClick-ThroughRatePredictionHZhong,JMa,XDuan,SGu,JYao-2024InternationalJointConferenceonNeuralNetworks,2024深度目标会话兴趣网络用于点击率预测摘要：这篇文章提出了一种新
计算机视觉中，Pooling的作用 Wils0nEdwards 计算机视觉人工智能
在计算机视觉中，Pooling（池化）是一种常见的操作，主要用于卷积神经网络（CNN）中。它通过对特征图进行下采样，减少数据的空间维度，同时保留重要的特征信息。Pooling的作用可以归纳为以下几个方面：1.降低计算复杂度与内存需求Pooling操作通过对特征图进行下采样，减少了特征图的空间分辨率（例如，高度和宽度）。这意味着网络需要处理的数据量会减少，从而降低了计算量和内存需求。这对大型神经网络
损失函数与反向传播 Star_. PyTorch pytorch 深度学习 python
损失函数定义与作用损失函数(lossfunction)在深度学习领域是用来计算搭建模型预测的输出值和真实值之间的误差。1.损失函数越小越好2.计算实际输出与目标之间的差距3.为更新输出提供依据（反向传播)常见的损失函数回归常见的损失函数有：均方差（MeanSquaredError，MSE）、平均绝对误差（MeanAbsoluteErrorLoss，MAE）、HuberLoss是一种将MSE与MAE
【深度学习】训练过程中一个OOM的问题，太难查了 weixin_40293999 深度学习深度学习人工智能
现象：各位大佬又遇到过ubuntu的这个问题么？现象是在训练过程中，ssh上不去了，能ping通，没死机，但是ubunutu的pc侧的显示器，鼠标啥都不好用了。只能重启。问题原因：OOM了95G，尼玛！！！！pytorch爆内存了，然后journald假死了，在journald被watchdog干掉之后，系统就崩溃了。这种规模的爆内存一般，即使被oomkill了，也要卡半天的，确实会这样，能不能配
云服务业界动态简报-20180128 Captain7
一、青云青云QingCloud推出深度学习平台DeepLearningonQingCloud，包含了主流的深度学习框架及数据科学工具包，通过QingCloudAppCenter一键部署交付，可以让算法工程师和数据科学家快速构建深度学习开发环境，将更多的精力放在模型和算法调优。二、腾讯云1.腾讯云正式发布腾讯专有云TCE(TencentCloudEnterprise)矩阵，涵盖企业版、大数据版、AI
机器学习VS深度学习 nfgo 机器学习
机器学习（MachineLearning,ML）和深度学习（DeepLearning,DL）是人工智能（AI）的两个子领域，它们有许多相似之处，但在技术实现和应用范围上也有显著区别。下面从几个方面对两者进行区分：1.概念层面机器学习：是让计算机通过算法从数据中自动学习和改进的技术。它依赖于手动设计的特征和数学模型来进行学习，常用的模型有决策树、支持向量机、线性回归等。深度学习：是机器学习的一个子领
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
深度学习-13-小语言模型之SmolLM的使用皮皮冰燃深度学习深度学习
文章附录1SmolLM概述1.1SmolLM简介1.2下载模型2运行2.1在CPU/GPU/多GPU上运行模型2.2使用torch.bfloat162.3通过位和字节的量化版本3应用示例4问题及解决4.1attention_mask和pad_token_id报错4.2max_new_tokens=205参考附录1SmolLM概述1.1SmolLM简介SmolLM是一系列尖端小型语言模型，提供三种规
基于深度学习的农作物病害检测 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的农作物病害检测利用卷积神经网络（CNN）、生成对抗网络（GAN）、Transformer等深度学习技术，自动识别和分类农作物的病害，帮助农业工作者提高作物管理效率、减少损失。1.农作物病害检测的挑战病害种类繁多：农作物病害的类型多样，不同病害在同一作物上的表现差异很大，同时同一种病害在不同生长阶段的症状也可能不同。环境影响：天气、光照、湿度等外部环境因素会影响农作物的表现，使得病害检
基于深度学习的文本引导的图像编辑 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的文本引导的图像编辑（Text-GuidedImageEditing）是一种通过自然语言文本指令对图像进行编辑或修改的技术。它结合了图像生成和自然语言处理（NLP）的最新进展，使用户能够通过描述性文本对图像内容进行精确的调整和操控。1.文本引导的图像编辑的挑战文本和图像之间的对齐：如何将文本中的语义信息准确地映射到图像中的特定区域或元素是一个关键挑战。这涉及到多模态数据的对齐和理解。编
深度学习--对抗生成网络（GAN, Generative Adversarial Network） Ambition_LAO 深度学习生成对抗网络
对抗生成网络（GAN,GenerativeAdversarialNetwork）是一种深度学习模型，由IanGoodfellow等人在2014年提出。GAN主要用于生成数据，通过两个神经网络相互对抗，来生成以假乱真的新数据。以下是对GAN的详细阐述，包括其概念、作用、核心要点、实现过程、代码实现和适用场景。1.概念GAN由两个神经网络组成：生成器（Generator）和判别器（Discrimina
深度学习：怎么看pth文件的参数奥利给少年深度学习人工智能
.pth文件是PyTorch模型的权重文件，它通常包含了训练好的模型的参数。要查看或使用这个文件，你可以按照以下步骤操作：1.确保你有模型的定义你需要有创建这个.pth文件时所用的模型的代码。这意味着你需要有模型的类定义和架构。2.加载模型权重使用PyTorch的load_state_dict方法来加载权重。这里是如何操作的：importtorchimporttorch.nnasnn#定义模型结构
chatgpt赋能python：如何在Python中安装Keras库？ turensu ChatGpt python chatgpt keras 计算机
如何在Python中安装Keras库？Keras是一个简单易用的神经网络库，由FrançoisChollet编写。它在Python编程语言中实现了深度学习的功能，可以使您更轻松地构建和试验不同类型的神经网络。如果您是一名Python开发人员，肯定会想知道如何在您的Python项目中安装Keras库。在本文中，我们将向您展示如何安装和配置Keras库。步骤1：安装Python要使用Keras库，您需
如何理解深度学习的训练过程奋斗的草莓熊深度学习人工智能 python scikit-learn virtualenv numpy pandas
文章目录1.训练是干什么？2.预训练模型进行训练，主要更改的是预训练模型的什么东西？1.训练是干什么？以yolov5为例子，训练的目的是把一组输入猫狗图像放到神经网络中，得到一个输出模型，这个模型下次可以直接用来识别哪个是猫，哪个是狗2.预训练模型进行训练，主要更改的是预训练模型的什么东西？超参数（Hyperparameters）：这是模型结构中定义的参数，比如：卷积核大小（kernel_size
Keras深度学习框架入门及实战指南司莹嫣Maude
Keras深度学习框架入门及实战指南keraskeras-team/keras:是一个基于Python的深度学习库，它没有使用数据库。适合用于深度学习任务的开发和实现，特别是对于需要使用Python深度学习库的场景。特点是深度学习库、Python、无数据库。项目地址:https://gitcode.com/gh_mirrors/ke/keras一、项目介绍Keras简介Keras是一款高级神经网络
深度学习驱动的车牌识别：技术演进与未来挑战逼子歌深度学习车牌识别神经网络字符识别 YOLO 卷积神经网络
一、引言1.1研究背景在当今社会，智能交通系统的发展日益重要，而车牌识别作为其关键组成部分，发挥着至关重要的作用。车牌识别技术广泛应用于交通管理、停车场管理、安防监控等领域。在交通管理中，它可以用于车辆识别、交通违法监控和车流统计等，提高交通管理的效率和准确性。在停车场管理中，实现车辆的自动识别和收费，提升管理和服务水平。在安防监控领域，可用于追踪嫌疑人及犯罪行为。深度学习的出现为车牌识别带来了重
每天五分钟玩转深度学习PyTorch：模型参数优化器torch.optim 幻风_huanfeng 深度学习框架pytorch 深度学习 pytorch 人工智能神经网络机器学习优化算法
本文重点在机器学习或者深度学习中，我们需要通过修改参数使得损失函数最小化(或最大化)，优化算法就是一种调整模型参数更新的策略。在pytorch中定义了优化器optim，我们可以使用它调用封装好的优化算法，然后传递给它神经网络模型参数，就可以对模型进行优化。本文是学习第6步(优化器)，参考链接pytorch的学习路线随机梯度下降算法在深度学习和机器学习中，梯度下降算法是最常用的参数更新方法，它的公式
什么是AIGC？有哪些免费工具？ chent_某位 AIGC
AIGC（AIGeneratedContent），即“人工智能生成内容”，是指通过人工智能技术自动生成各种类型的数字内容。AIGC让机器能够根据输入的信息或数据生成符合人类需求的文本、图像、音频、视频等内容，极大提高了内容创作的效率。AIGC的背景与起源随着深度学习和自然语言处理技术的快速发展，人工智能已经不再局限于简单的任务，如分类、预测和数据分析，而是具备了生成内容的能力。生成式AI模型，如O
transformer架构(Transformer Architecture)原理与代码实战案例讲解 AI架构设计之禅大数据AI人工智能 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
transformer架构(TransformerArchitecture)原理与代码实战案例讲解关键词：Transformer,自注意力机制,编码器-解码器,预训练,微调,NLP,机器翻译作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来自然语言处理（NLP）领域的发展经历了从规则驱动到统计驱动再到深度学习驱动的三个阶段。
如何有效的学习AI大模型？ Python程序员罗宾学习人工智能语言模型自然语言处理架构
学习AI大模型是一个系统性的过程，涉及到多个学科的知识。以下是一些建议，帮助你更有效地学习AI大模型：基础知识储备：数学基础：学习线性代数、概率论、统计学和微积分等，这些是理解机器学习算法的数学基础。编程技能：掌握至少一种编程语言，如Python，因为大多数AI模型都是用Python实现的。理论学习：机器学习基础：了解监督学习、非监督学习、强化学习等基本概念。深度学习：学习神经网络的基本结构，如卷
【深度学习】【OnnxRuntime】【Python】模型转化、环境搭建以及模型部署的详细教程牙牙要健康深度学习 onnx onnxruntime 深度学习 python 人工智能
【深度学习】【OnnxRuntime】【Python】模型转化、环境搭建以及模型部署的详细教程提示:博主取舍了很多大佬的博文并亲测有效,分享笔记邀大家共同学习讨论文章目录【深度学习】【OnnxRuntime】【Python】模型转化、环境搭建以及模型部署的详细教程前言模型转换--pytorch转onnxWindows平台搭建依赖环境onnxruntime调用onnx模型ONNXRuntime推理核
JAVA中的Enum 周凡杨 java enum 枚举
Enum是计算机编程语言中的一种数据类型---枚举类型。在实际问题中，有些变量的取值被限定在一个有限的范围内。例如，一个星期内只有七天我们通常这样实现上面的定义： public String monday; public String tuesday; public String wensday; public String thursday
赶集网mysql开发36条军规 Bill_chen mysql 业务架构设计 mysql调优 mysql性能优化
(一)核心军规 (1)不在数据库做运算 cpu计算务必移至业务层； (2)控制单表数据量 int型不超过1000w，含char则不超过500w；合理分表；限制单库表数量在300以内； (3)控制列数量字段少而精，字段数建议在20以内
Shell test命令 daizj shell 字符串 test 数字文件比较
Shell test命令 Shell中的 test 命令用于检查某个条件是否成立，它可以进行数值、字符和文件三个方面的测试。数值测试参数说明 -eq 等于则为真 -ne 不等于则为真 -gt 大于则为真 -ge 大于等于则为真 -lt 小于则为真 -le 小于等于则为真实例演示： num1=100 num2=100if test $[num1]
XFire框架实现WebService(二) 周凡杨 java webservice
有了XFire框架实现WebService(一)，就可以继续开发WebService的简单应用。 Webservice的服务端(WEB工程)：两个java bean类： Course.java package cn.com.bean; public class Course { private
重绘之画图板朱辉辉33 画图板
上次博客讲的五子棋重绘比较简单，因为只要在重写系统重绘方法paint（）时加入棋盘和棋子的绘制。这次我想说说画图板的重绘。画图板重绘难在需要重绘的类型很多，比如说里面有矩形，园，直线之类的，所以我们要想办法将里面的图形加入一个队列中，这样在重绘时就
Java的IO流西蜀石兰 java
刚学Java的IO流时，被各种inputStream流弄的很迷糊，看老罗视频时说想象成插在文件上的一根管道，当初听时觉得自己很明白，可到自己用时，有不知道怎么代码了。。。每当遇到这种问题时，我习惯性的从头开始理逻辑，会问自己一些很简单的问题，把这些简单的问题想明白了，再看代码时才不会迷糊。 IO流作用是什么？答：实现对文件的读写，这里的文件是广义的； Java如何实现程序到文件
No matching PlatformTransactionManager bean found for qualifier 'add' - neither 林鹤霄
java.lang.IllegalStateException: No matching PlatformTransactionManager bean found for qualifier 'add' - neither qualifier match nor bean name match! 网上找了好多的资料没能解决，后来发现：项目中使用的是xml配置的方式配置事务，但是
Row size too large (> 8126). Changing some columns to TEXT or BLOB aigo column
原文：http://stackoverflow.com/questions/15585602/change-limit-for-mysql-row-size-too-large 异常信息： Row size too large (> 8126). Changing some columns to TEXT or BLOB or using ROW_FORMAT=DYNAM
JS 格式化时间 alxw4616 JavaScript
/** * 格式化时间 2013/6/13 by 半仙 [email protected] * 需要 pad 函数 * 接收可用的时间值. * 返回替换时间占位符后的字符串 * * 时间占位符:年 Y 月 M 日 D 小时 h 分 m 秒 s 重复次数表示占位数 * 如 YYYY 4占4位 YY 占2位<p></p> * MM DD hh mm
队列中数据的移除问题百合不是茶队列移除
队列的移除一般都是使用的remov();都可以移除的,但是在昨天做线程移除的时候出现了点问题,没有将遍历出来的全部移除, 代码如下; // package com.Thread0715.com; import java.util.ArrayList; public class Threa
Runnable接口使用实例 bijian1013 java thread Runnable java多线程
Runnable接口 a. 该接口只有一个方法：public void run(); b. 实现该接口的类必须覆盖该run方法 c. 实现了Runnable接口的类并不具有任何天
oracle里的extend详解 bijian1013 oracle 数据库 extend
扩展已知的数组空间，例： DECLARE TYPE CourseList IS TABLE OF VARCHAR2(10); courses CourseList; BEGIN -- 初始化数组元素，大小为3 courses := CourseList('Biol 4412 ', 'Psyc 3112 ', 'Anth 3001 '); --
【httpclient】httpclient发送表单POST请求 bit1129 httpclient
浏览器Form Post请求浏览器可以通过提交表单的方式向服务器发起POST请求，这种形式的POST请求不同于一般的POST请求 1. 一般的POST请求，将请求数据放置于请求体中，服务器端以二进制流的方式读取数据，HttpServletRequest.getInputStream()。这种方式的请求可以处理任意数据形式的POST请求，比如请求数据是字符串或者是二进制数据 2. Form
【Hive十三】Hive读写Avro格式的数据 bit1129 hive
1. 原始数据 hive> select * from word; OK 1 MSN 10 QQ 100 Gtalk 1000 Skype 2. 创建avro格式的数据表 hive> CREATE TABLE avro_table(age INT, name STRING)STORE
nginx+lua+redis自动识别封解禁频繁访问IP ronin47
在站点遇到攻击且无明显攻击特征，造成站点访问慢，nginx不断返回502等错误时，可利用nginx+lua+redis实现在指定的时间段内，若单IP的请求量达到指定的数量后对该IP进行封禁，nginx返回403禁止访问。利用redis的expire命令设置封禁IP的过期时间达到在指定的封禁时间后实行自动解封的目的。一、安装环境： CentOS x64 release 6.4(Fin
java-二叉树的遍历-先序、中序、后序（递归和非递归）、层次遍历 bylijinnan java
import java.util.LinkedList; import java.util.List; import java.util.Stack; public class BinTreeTraverse { //private int[] array={ 1, 2, 3, 4, 5, 6, 7, 8, 9 }; private int[] array={ 10,6,
Spring源码学习-XML 配置方式的IoC容器启动过程分析 bylijinnan java spring IOC
以FileSystemXmlApplicationContext为例，把Spring IoC容器的初始化流程走一遍： ApplicationContext context = new FileSystemXmlApplicationContext ("C:/Users/ZARA/workspace/HelloSpring/src/Beans.xml&q
[科研与项目]民营企业请慎重参与军事科技工程 comsci 企业
军事科研工程和项目并非要用最先进，最时髦的技术，而是要做到“万无一失” 而民营科技企业在搞科技创新工程的时候，往往考虑的是技术的先进性，而对先进技术带来的风险考虑得不够，在今天提倡军民融合发展的大环境下，这种“万无一失”和“时髦性”的矛盾会日益凸显。。。。。。所以请大家在参与任何重大的军事和政府项目之前，对
spring 定时器-两种方式 cuityang spring quartz 定时器
方式一：间隔一定时间运行 <bean id="updateSessionIdTask" class="com.yang.iprms.common.UpdateSessionTask" autowire="byName" /> <bean id="updateSessionIdSchedule
简述一下关于BroadView站点的相关设计 damoqiongqiu view
终于弄上线了，累趴，戳这里http://www.broadview.com.cn 简述一下相关的技术点前端：jQuery+BootStrap3.2+HandleBars，全站Ajax（貌似对SEO的影响很大啊！怎么破？），用Grunt对全部JS做了压缩处理，对部分JS和CSS做了合并（模块间存在很多依赖，全部合并比较繁琐，待完善）。后端：U
运维 PHP问题汇总 dcj3sjt126com windows2003
1、Dede(织梦)发表文章时,内容自动添加关键字显示空白页解决方法：后台>系统>系统基本参数>核心设置>关键字替换（是/否），这里选择“是”。后台>系统>系统基本参数>其他选项>自动提取关键字，这里选择“是”。 2、解决PHP168超级管理员上传图片提示你的空间不足网站是用PHP168做的，反映使用管理员在后台无法
mac 下安装php扩展 - mcrypt dcj3sjt126com PHP
MCrypt是一个功能强大的加密算法扩展库，它包括有22种算法，phpMyAdmin依赖这个PHP扩展，具体如下：下载并解压libmcrypt-2.5.8.tar.gz。在终端执行如下命令： tar zxvf libmcrypt-2.5.8.tar.gz cd libmcrypt-2.5.8/ ./configure --disable-posix-threads --
MongoDB更新文档 [四] eksliang mongodb Mongodb更新文档
MongoDB更新文档转载请出自出处：http://eksliang.iteye.com/blog/2174104 MongoDB对文档的CURD，前面的博客简单介绍了，但是对文档更新篇幅比较大，所以这里单独拿出来。语法结构如下： db.collection.update( criteria, objNew, upsert, multi) 参数含义参数
Linux下的解压，移除，复制，查看tomcat命令 y806839048 tomcat
重复myeclipse生成webservice有问题删除以前的，干净 1、先切换到：cd usr/local/tomcat5/logs 2、tail -f catalina.out 3、这样运行时就可以实时查看运行日志了 Ctrl+c 是退出tail命令。有问题不明的先注掉 cp /opt/tomcat-6.0.44/webapps/g
Spring之使用事务缘由(3-XML实现) ihuning spring
用事务通知声明式地管理事务事务管理是一种横切关注点。为了在 Spring 2.x 中启用声明式事务管理，可以通过 tx Schema 中定义的 <tx:advice> 元素声明事务通知，为此必须事先将这个 Schema 定义添加到 <beans> 根元素中去。声明了事务通知后，就需要将它与切入点关联起来。由于事务通知是在 <aop:
GCD使用经验与技巧浅谈啸笑天 GC
前言 GCD(Grand Central Dispatch)可以说是Mac、iOS开发中的一大“利器”，本文就总结一些有关使用GCD的经验与技巧。 dispatch_once_t必须是全局或static变量这一条算是“老生常谈”了，但我认为还是有必要强调一次，毕竟非全局或非static的dispatch_once_t变量在使用时会导致非常不好排查的bug，正确的如下： 1
linux（Ubuntu）下常用命令备忘录1 macroli linux 工作 ubuntu
在使用下面的命令是可以通过--help来获取更多的信息1,查询当前目录文件列表：ls ls命令默认状态下将按首字母升序列出你当前文件夹下面的所有内容，但这样直接运行所得到的信息也是比较少的，通常它可以结合以下这些参数运行以查询更多的信息： ls / 显示/.下的所有文件和目录 ls -l 给出文件或者文件夹的详细信息 ls -a 显示所有文件，包括隐藏文
nodejs同步操作mysql qiaolevip 学习永无止境每天进步一点点 mysql nodejs
// db-util.js var mysql = require('mysql'); var pool = mysql.createPool({ connectionLimit : 10, host: 'localhost', user: 'root', password: '', database: 'test', port: 3306 });
一起学Hive系列文章 superlxw1234 hive Hive入门
[一起学Hive]系列文章目录贴，入门Hive，持续更新中。 [一起学Hive]之一—Hive概述，Hive是什么 [一起学Hive]之二—Hive函数大全-完整版 [一起学Hive]之三—Hive中的数据库(Database)和表(Table) [一起学Hive]之四-Hive的安装配置 [一起学Hive]之五-Hive的视图和分区 [一起学Hive
Spring开发利器：Spring Tool Suite 3.7.0 发布 wiselyman spring
Spring Tool Suite(简称STS)是基于Eclipse，专门针对Spring开发者提供大量的便捷功能的优秀开发工具。在3.7.0版本主要做了如下的更新：将eclipse版本更新至Eclipse Mars 4.5 GA Spring Boot(JavaEE开发的颠覆者集大成者，推荐大家学习)的配置语言YAML编辑器的支持(包含自动提示，