SongpingWang

CNN模型大综述

文章目录

一、主要的分类CNN网络：Backbone

1.1 LeNet5
1.2 Dan Ciresan Net
1.3 AlexNet

1.3.3 AlexNet的衍生

1.4 ZFNet
1.5 VGG-16/VGG-19
1.6 NIN网络
1.7 GoogLeNet - inception

1.7.1 [网络结构](https://www.zybuluo.com/rianusr/note/1419006)
inception v1：
inception v2：为了解决“Internal Covariate Shift”问题，提出了BN
inception v3
inception v4
Inception-ResNet v1
Inception-ResNet v2
1.7.2 主要技术点

1.8 ResNet
1.9 DenseNet

二、轻量化网络

2.1 SqueezeNet
2.2 NobileNet
2.3 ShuffleNet
2.4 Xception ： MobileNet的反向操作

三、目标检测模型

3.1 基于候选区域(Region Proposal)的深度学习目标检测法

3.1.1 [R-CNN Fast-RCNN Faster-RCNN](https://www.zybuluo.com/rianusr/note/1315377)
3.1.2 SSP-NET
3.1.3 R-FCN

3.2 基于回归方法的深度学习目标检测算法

3.2.1 Yolo系列
3.2.2 SSD
3.2.3 RetinaNet

**focal_loss**

3.3 RefineDet

3.3.1 网络结构
3.3.2 主要技术点

3.4 OCR

四、语义分割

4.1 FCN
4.2 Unet
4.3 SegNet
4.4 PSPNet
4.5 DeepLab
4.6 MaskRCNN

五、目标追踪

5.1 相关过滤
5.2 深度学习

六、行为识别

6.1 TSN

转载自：https://www.zybuluo.com/rianusr/note/1514835 非常感谢此博主允许转载

物体识别和检测（Object Detection）

语义分割（Semantic Segmentation）

运动和跟踪（Motion & Tracking）

三维重建（3D Reconstruction）

视觉问答（Visual Question & Answering）

动作识别（Action Recognition）等。

顶级会议

ICCV:International Comference on Computer Vision

CVPR:International Conference on Computer Vision and Pattern Recogintion

ECCV:Europeon Conference on Computer Vision

一、主要的分类CNN网络：Backbone

1.1 LeNet5

1994年：LeNet5 卷积-池化-全链接、Avepooling、sigmoid

网络结构

主要技术点

卷积、池化、非线性、全链接

采用卷积提取空间特征；

使用average pooling来进行特征图的下采样，筛选特征；

使用tanh或sigmoid激活函数来增加模型的表达；

使用全链接层（MLP）作为最后的分类器；

1.2 Dan Ciresan Net

2010年：Dan Ciresan Net - 第一个发布在GPU上训练的神经网络，包含了前向和反向传播

1.3 AlexNet

1.3 2012年：AlexNet ReLU、Dropout、Maxpooling、LRN、分组卷积

网络结构

主要技术点

使用ReLU激活函数；

使用Dropout技术实现模型的正则化，有效避免过拟合；

使用max pooling池化层保留特征图的最大响应；

因为GPU内存的限制，首次采用分组卷积的方法；

LRN：局部响应归一化层

（1）：通道间归一化是表示求和的通道数；

局部区域范围在相邻通道间，但没有空间上的扩张（即尺寸为local_sizeX1X1);

（2）：通道内归一化示表示归一化操作的区间的边长；local_size的默认值为5；

局部区域范围在当前通道内,有空间上的扩张（即1XlocalXloacl);

1.3.3 AlexNet的衍生

Overfeat：AlexNet的衍生 - 提出了learning bounding box的概念

1.4 ZFNet

2013年：ZFNet 特征可视化、反池化、反卷积、反激活

网络结构

主要技术点

（1）特征可视化：
反卷积、反池化、反激活函数

结论一：CNN网络前面的层学习的是物理轮廓、边缘、颜色、纹理等特征，后面的层学习的是和类别相关的抽象特征

结论二：CNN学习到的特征具有平移和缩放不变性，但是，没有旋转不变性

（2）特征提取的通用性：

CNN网络的特征提取具有通用性，这是后面微调（fine-tune）的理论支持

（3）对于遮挡的敏感性：

（4）特征的层次分析：更深层的网络有助于分类性能的提升；

层数越深，特征不变性越强，类别的判别能力越强；

（5）对AlexNet的改进：在卷积网络的第一层，更小的卷积核、步长效果更好

通过特征可视化可以知道，Krizhevsky的CNN结构学习到的第一层特征只对于高频和低频信息有了收敛，但是对于中层信息却还没有收敛；同时，第二层特征出现了混叠失真，这个主要是因为第一个卷积层的层的步长设置为4引起的，为了解决这个问题，作者不仅将第一层的卷积核的大小设置为7*7,同时，也将步长设置为2

特征可视化方法：

反池化：记录池化过程的最大值的位置，反池化时将该位置还原，其余位置填0；

池化过程不可逆，反池化只是一种近似

反卷积：使用学习到的核（参数一致）转置后作为反卷积的核，对调整后的特征进行反卷积；

反激活：同样采用ReLU激活函数，确保输出前后均为整数，激活与反激活过程没啥区别；

1.5 VGG-16/VGG-19

2014年：VGG-16/VGG-19 探索网络深度、3*3卷积核、3*3的卷积序列组合，模拟大卷积核的感受野

网络结构

主要技术点

第一个在各个层使用3*3卷积核（更小的卷积）进行卷积；

通过3*3的卷积序列组合，模拟大卷积核的感受野；

1.6 NIN网络

2014年：NIN网络

网络结构

主要技术点

各个卷积之后使用空间MLP进行特征组合；

MLP 的能力能通过将卷积特征组合进更复杂的组（group）来极大地增加单个卷积特征的有效性

将之前网络中最后的MLP层使用 全局平均池化层(Global Average Pooling) 代替；

1.7 GoogLeNet - inception

2014年：GoogLeNet - inception

inception网络是针对高层feature-map的操作，底层仍然保持传统的卷积来提取特征。

基于赫布原则和多尺度处理，提升了模型的宽度和深度；

利用padding=same的方式，通过不同尺度的卷积核，感受野不同，获取不同尺度obj的特征；

Inception为什么有效？

Inception的作用就是替代了人工确定卷积层中过滤器的类型或者是否创建卷积层和池化层，让网络自己学习它具体需要什么参数。

1.7.1 网络结构

inception v1：

第一代inception网络：通过1*1卷积核的降维操作，有效的降低了计算量；

inception v2：为了解决“Internal Covariate Shift”问题，提出了BN

这个问题是由于在训练过程中，网络参数变化所引起的。具体来说，对于一个神经网络，第n层的输入就是第n-1层的输出，在训练过程中，每训练一轮参数就会发生变化，对于一个网络相同的输入，但n-1层的输出却不一样，这就导致第n层的输入也不一样，这个问题就叫做“Internal Covariate Shift”

在网络结构方面，通过2个3*3的卷积操作，代替一个5*5的卷积，获得相同的感受野

BN的主要作用：

加速网络收敛；

防止梯度消失

inception v3

inception v4

Inception-ResNet v1

Inception-ResNet v2

1.7.2 主要技术点

bottleneck:通过1*1卷积进行通道降维后再进行卷积操作，之后再次通过1*1卷积进行升维操作；

使用辅助分类器：利用中间特征层进行预测，并将loss按照一定比例(0.3)贡献到总loss

把梯度有效的传递回去，不会有梯度消失问题，加快了训练

中间层的特征也有意义，空间位置特征比较丰富，有利于提成模型的判别力；

除了在加深模型的方向上，提出了在模型宽度上的探索；

注意：当过滤器的数目超过1000个的时候，会出现问题，网络会“坏死”

即在average pooling层前都变成0。即使降低学习率，增加BN层都没有用。这时候就在激活前缩小残差可以保持稳定。为了增加稳定性，作者通过 0.1 到 0.3 的比例缩放残差激活值，即下图

1.8 ResNet

2015年：ResNet

网络结构

主要技术点

shorcut or skip connections

一定程度上解决了深层网络训练时的梯度消失和梯度爆炸的问题；

保护信息的完整性；

整个网络只需要学习输入、输出差别的那一部分，简化学习目标和难度

1.9 DenseNet

2017年：DenseNet

网络结构


bottleneck优化：

主要技术点

由于密集连接方式，DenseNet提升了梯度的反向传播，使得网络更容易训练。

由于每层可以直达最后的误差信号，实现了隐式的“deep supervision”；

参数更小且计算更高效，这有点违反直觉，由于DenseNet是通过concat特征来实现短路连接，

实现了特征重用，并且采用较小的growth rate，每个层所独有的特征图是比较小的；

由于特征复用，最后的分类器使用了低级特征。

二、轻量化网络

轻量化模型：SqueezeNet，MobileNet，ShuffleNet以及Xception

2.1 SqueezeNet

fire_model :

总结：

1、提出了一种新的结构，来对原先的网络进行修改。

2、使用FCN替代FC，减小参数数量。

3、使用deep-compression方法来进一步缩小模型。

裁剪：设置阈值，对小于阈值的参数直接写0，然后用非零参数再次训练。

量化：对参数做聚类，然后每个类别的参数的梯度值相加，作用在聚类中心上。

编码：Huffman编码进一步压缩存储。

2.2 NobileNet

depthwise-separable-convolution :

me个channel单独配置一个卷积核，对所有卷积后的特征图经过1*1的卷积获得想要的channel_num

2.3 ShuffleNet

group convolutions:

详解：

1、假设有输入的feature-map是5*5*9的图。我们按照channel将其分为3组。

2、同样我们有12个卷积核，同样将其分为3组，每组负责对某一组channel进行卷积。

3、另外，如果一直这样分开，容易产生边缘效应。所以，对于每个channel内部，在卷积完了后，我们在分成若干个sub-group。

4、然后下一层的group就由上一层每个group中各取一个subgroup组成得到。

2.4 Xception ： MobileNet的反向操作

总结：

1、Xception作为Inception v3的改进，主要是在Inception v3的基础上引入了depthwise separable convolution，在基本不增加网络复杂度的前提下提高了模型的效果。

2、有些人会好奇为什么引入depthwise separable convolution没有大大降低网络的复杂度，因为depthwise separable convolution在mobileNet中主要就是为了降低网络的复杂度而设计的。

3、原因是Inception的作者加宽了网络，使得参数数量和Inception v3差不多，然后在这前提下比较性能。因此Xception目的不在于模型压缩，而是提高性能。

三、目标检测模型

深度学习目标检测网络汇总对比
CNN-目标检测、定位、分割

3.1 基于候选区域(Region Proposal)的深度学习目标检测法

3.1.1 R-CNN Fast-RCNN Faster-RCNN

主要技术点：

Selective Search RPN；

图像块缩放 ROI Pooling；

SVM分类器 SoftMax分类；

全连接层加速：对权值矩阵进行SVD分解；

轮流训练：

3.1.2 SSP-NET

3.1.3 R-FCN

3.2 基于回归方法的深度学习目标检测算法

3.2.1 Yolo系列

Yolo系列

3.2.2 SSD

从YOLO到SSD再到YOLO9000(二):SSD

3.2.3 RetinaNet

RetinaNet

focal_loss

3.3 RefineDet

对于目标检测，two-stage方法（例如Faster R-CNN）可以获得最高精度，而one-stage方法（例如SSD）具有高效率的优点。继承两者的优点且克服其缺点，本文提出了一种新的单次目标探测器，名为RefineDet，它比two-stage方法更精准，同时保持了one-stage方法的效率。

3.3.1 网络结构

3.3.2 主要技术点

3.4 OCR

目前OCR的应用场景主要分为以下三个方面：
1、自然场景下多形态文本检测与识别
2、手写体文本检测与识别
3、文档的文本检测与识别（版面分析等）
OCR目前的技术综述以及文献

文本检测: 1、CTPN（基于Faster RCNN）：目前比较成熟的文本检测框架，精确度较好。但是检测时间较长，有很大的优化空间。
【文献】Detecting Text in Natural Image with Connectionist Text Proposal Network; 2、TextBoxes、TextBoxes++（基于SSD）：调整Anchor长宽比，适用于文字细长的特点，但针对小文本会有漏检。
【文献】TextBoxes: A Fast Text Detector with a Single Deep Neural Network
TextBoxes++: A Single-Shot Oriented Scene Text Detector; 3、SegLink（CTPN+SSD）：通常用于自然场景下，检测多角度文本。
【文献】Detecting Oriented Text in Natural Images by Linking Segments; 4、DMPNet：采用非矩形四边形选定Anchor进行检测，通过Monte-Carlo方法计算标注区域于矩形候选框和旋转候选框的重合度后重新计算顶点坐标，得到非矩形四边形的顶点坐标。适用于自然场景下文本检测。
【文献】Deep Matching Prior Network: Toward Tighter Multi-oriented Text Detection; 5、YOLO：文本检测时间短，精确度较好。但针对小目标效果一般，容易造成大范围漏检。
【文献】YOLOv3: An Incremental Improvement; 6、EAST：采取FCN思路，做特征提取和特征融合，局部感知NMS阶段完成检测。网络的简洁使得检测准确率和速度都有进一步提升。（针对自然场景下使用较多）
【文献】EAST: An Efficient and Accurate Scene Text Detector; 7、Pixel-Anchor：针对Anchor数量多引起文本出现的丢失问题、Pixel感受野不足引起长文本丢失情况，结合两者各自的优点，对于长行的中文检测场景有较好的适应性。网络结构可以分为两部分，其中pixel-based的方法为对EAST的改进，anchor-based的方法为对SSD的改进。前者主要为了检测中等的文本，后者主要为了检测长行和较小的文本。
【文献】Pixel-Anchor: A Fast Oriented Scene Text Detector with Combined Networks; 8、IncepText：针对大尺度、长宽比及方向变化问题，借鉴GoogLeNet中的inception模块来解决这些问题。在inception结构中通过不同尺寸的卷积核设计达到检测不同大小和宽高比的文字，同时引入deformable卷积层操作和deformable PSROI pooling层提升任意方向文字的检测效果。
【文献】IncepText: A New Inception-Text Module with Deformable PSROI Pooling for Multi-Oriented Scene Text Detection
文本识别: 1、CNN+RNN+CTC（如CRNN）：使用目前最为广泛的一种文本识别框架。需要自己构建字词库（包含常用字、各类字符等）。
【文献】An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition; 2、CNN（如Densenet）+CTC：资料不多，效果一般，泛化能力较差。没有加入了RNN的效果好。
【文献】暂未找到，可参考GitHub; 3、Tesserocr（Tesseract）：使用比较广泛的一种开源识别框架，支持多语言多平台。Tesseract在识别清晰的标准中文字体效果还行，稍微复杂的情况就很糟糕（多字体等），而且花费的时间也很多。
GitHub; 4、RARE：主要用于识别变形的文本图像效果好，用于自然场景下文本识别。
【文献】Robust Scene Text Recognition with Automatic Rectification; 5、FOTS（EAST+CRNN）：端到端OCR模型，检测和识别任务共享卷积特征层，既节省了计算时间，也比两阶段训练方式学习到更多图像特征。引入了旋转感兴趣区域（RoIRotate）, 可以从卷积特征图中产生出定向的文本区域，从而支持倾斜文本的识别。
【文献】FOTS: Fast Oriented Text Spotting with a Unified Network
最新比赛进展: OCR的比赛，最著名的当属ICDAR了，即文档分析与识别国际会议（International Conference on Document Analysis and Recognition，ICDAR）。目前是每两年举办一次，2019年举办了一次比赛（ICDAR 2019），共分为以下六个赛道：; （1）Scene Text Visual Question Answering（ST-VQA，场景文本识别并回答问题）
（2）Multi-lingual scene text detection and recognition（MLT，多语言场景文本检测和识别）
（3）Large-scale Street View Text with Partial Labeling（LSVT，部分标签的大型街景文本识别）
（4）Arbitrary-Shaped Text（ArT，任意形状文本识别）
（5）Scanned Receipts OCR and Information Extraction（SROIE，扫描收据OCR和信息提取）
（6）Reading Chinese Text on Signboard（ReCTS，在商家招牌上识别中文）

四、语义分割

语义分割

4.1 FCN

4.2 Unet

深入理解深度学习分割网络Ｕnet

U-Net：生物医学的图像分割笔记

全卷积神经网络图像分割(U-net)-keras实现

Unet++:研习U-Net

全卷积网络（FCN）与图像分割

4.3 SegNet

4.4 PSPNet

4.5 DeepLab

4.6 MaskRCNN

模型结构：Backbone：ResNet101

主要技术点：

ROIAlign：不做任何量化，以双线性内插方法获取像素点的值

在FasterRCNN中ROIPooling经历了两次量化过程

在GT框映射到feature-map上时；

在执行ROIpooling的时候；

Mask Branch(Head Architecture) - FCN结构；

FPN

Multi-task Loss function：

Mask Branch针对FasterRCNN中识别为指定类的区域进行像素级别的预测；

对每个像素点采用sigmoid而分类，避免了类之间的竞争

图像分割综述【深度学习方法】

SegNet(Pooling的时候记录index)

空洞卷积-dilated conv

dilated的好处是不做pooling损失信息的情况下，加大了感受野，让每个卷积输出都包含较大范围的信息

潜在问题：

The Gridding Effect： kernel 并不连续，也就是并不是所有的 pixel 都用来计算了，因此这里将信息看做 checker-board 的方式会损失信息的连续性。这对 pixel-level dense prediction 的任务来说是致命的。

Long-ranged information might be not relevant：我们从 dilated convolution 的设计背景来看就能推测出这样的设计是用来获取 long-ranged information。然而光采用大 dilation rate 的信息或许只对一些大物体分割有效果，而对小物体来说可能则有弊无利了。如何同时处理不同大小的物体的关系，则是设计好 dilated convolution 网络的关键。

优化策略：

通向标准化设计：Hybrid Dilated Convolution (HDC)

第一个特性是，叠加卷积的 dilation rate 不能有大于1的公约数。比如 [2, 4, 6] 则不是一个好的三层卷积，依然会出现 gridding effect。

第二个特性是，我们将 dilation rate 设计成锯齿状结构，例如 [1, 2, 5, 1, 2, 5] 循环结构。

第三个特性是，我们需要满足一下这个式子：

其中是层的 dilation rate 而是指在层的最大dilation rate，那么假设总共有n层的话，默认。假设我们应用于 kernel 为的话，我们的目标则是，这样我们至少可以用 dilation rate 1 即 standard convolution 的方式来覆盖掉所有洞。

PSPNet：

deeplab

hole kernel

softmax + CRF

refineNet

RefineNet的一个特点是使用了较多的residual connection。这样的好处不仅在于在RefineNet内部形成了short-range的连接，对训练有益。此外还与ResNet形成了long-range的连接，让梯度能够有效传送到整个网络中。作者认为这一点对于网络是很有好处的。

分割网络总结：

五、目标追踪

5.1 相关过滤

5.2 深度学习

六、行为识别

6.1 TSN

AI人工智能领域知识图谱在深度学习中的应用拓展
AI人工智能领域知识图谱在深度学习中的应用拓展关键词：知识图谱、深度学习、神经网络、图嵌入、知识表示学习、推理机制、应用场景摘要：本文深入探讨了知识图谱与深度学习的融合应用，系统性地分析了知识图谱在深度学习中的关键技术路径和应用场景。文章首先介绍了知识图谱的基本概念和表示方法，然后详细阐述了知识图谱与深度学习结合的多种技术路线，包括图神经网络、知识嵌入和推理机制等。接着通过具体案例展示了知识图谱增
[pytorch] pytorch_model.bin 和 training_args.bin 的区别心心喵 pytorch 深度学习 pytorch 神经网络
pytorch_model.bin和training_args.bin是与PyTorch框架和训练过程相关的两个文件。pytorch_model.bin:这是保存了PyTorch模型的二进制文件。在使用PyTorch进行深度学习训练时，经过训练的模型会被保存为这个文件，其中包含了模型的权重参数。这个文件可以被加载到PyTorch中，以便进行推理、评估或继续训练。training_args.bin:
【2025最新】AI大模型项目实战教程大揭秘！超详细攻略，手把手带你飞，记得收藏！大模型教程人工智能产品经理大模型大模型教程大数据大模型学习程序员
一、大模型开发整理流程1.1、什么是大模型开发我们将开发以大语言模型为功能核心、通过大语言模型的强大理解能力和生成能力、结合特殊的数据或业务逻辑来提供独特功能的应用称为大模型开发。开发大模型相关应用，其技术核心点虽然在大语言模型上，但一般通过调用API或开源模型来实现核心的理解与生成，通过PromptEnginnering来实现大语言模型的控制，因此，虽然大模型是深度学习领域的集大成之作，大模型开
DiNA：扩张邻域注意力 Transformer AI专题精讲 Paper阅读 transformer 人工智能
摘要Transformer正迅速成为跨模态、跨领域和跨任务中应用最广泛的深度学习架构之一。在计算机视觉领域，除了持续发展的纯transformer架构，分层transformer也因其优越的性能和在现有框架中易于集成而受到广泛关注。这类模型通常采用局部化的注意力机制，如滑动窗口的NeighborhoodAttention（NA）或SwinTransformer的ShiftedWindowSelfA
解释神经网络的普适逼近定理（面试题200合集，中频、实用）快撑死的鱼算法工程师宝典（面试学习最新技术必备）深度学习人工智能
神经网络的普适逼近定理（UniversalApproximationTheorem,UAT）是理解为什么神经网络如此强大和灵活的理论基石之一。它为我们提供了信心，即在某些条件下，一个相对简单的神经网络结构原则上能够模拟出几乎任何复杂的函数。这个定理在深度学习领域中经常被提及，尤其是在讨论模型表达能力的时候。普适逼近定理（UniversalApproximationTheorem）概述普适逼近定理的
【TVM 教程】PAPI 入门
ApacheTVM是一个深度的深度学习编译框架，适用于CPU、GPU和各种机器学习加速芯片。更多TVM中文文档可访问→https://tvm.hyper.ai/性能应用程序编程接口（PerformanceApplicationProgrammingInterface，简称PAPI）是一个可在各种平台上提供性能计数器的库。在指定的运行期间，性能计数器提供处理器行为的准确底层信息，包含简单的指标，如总
人工智能-基础篇-10-什么是卷积神经网络CNN（网格状数据处理：输入层，卷积层，激活函数，池化层，全连接层，输出层等） weisian151 人工智能人工智能 cnn 神经网络
卷积神经网络（ConvolutionalNeuralNetwork,CNN）是一种专为处理网格状数据（如图像、视频、音频）设计的深度学习模型。它通过模拟生物视觉机制，从原始数据中自动提取多层次的特征，最终实现高效的分类、检测或生成任务。1、核心概念与原理1、生物视觉启发局部感受野：模仿人类视觉皮层神经元仅响应局部区域刺激的特性，每个神经元关注输入数据的局部区域（如图像的一小块区域）。权值共享：同一
CPO-CNN-GRU-Attention、CNN-GRU-Attention、CPO-CNN-GRU、CNN-GRU四模型多变量时序预测对比 Matlab科研辅导帮 cnn gru 人工智能
✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。个人主页：Matlab科研工作室个人信条：格物致知，求助可私信。内容介绍多变量时序预测在诸多领域扮演着至关重要的角色，例如金融、气象和工业控制等。近年来，深度学习方法在时序预测任务中取得了显著的进展。本文旨在系统地比较四种基于卷积神经网络（CNN）和循环神经网络（GRU）的不同架构，包
DeepSeek：AI驱动的效率革命与实战案例解 weixin_45788582 人工智能 ai DeepSeek
在人工智能技术的浪潮中，DeepSeek作为一款专注实现AGI（通用人工智能）的先锋工具，正通过其强大的自然语言处理（NLP）与分布式计算能力，重新定义高效办公的边界。以下通过技术解析与实战案例，展现DeepSeek如何赋能个人与企业，开启职场效率革命。一、技术革新：DeepSeek的核心竞争力深度学习赋能DeepSeek的技术架构基于BERT、Transformer等先进深度学习模型，通过构建复
AI 技术&AI开发框架 34号树洞人工智能深度学习人工智能机器学习 NLP GAI
目录一、AI技术及其开发框架1.AI技术分类与代表方向2.主流AI开发框架3.AI应用开发流程简述4.补充：基础依赖与生态二、AI技术方向1.机器学习（MachineLearning,ML）✦核心概念：✦关键方法：✦应用案例：2.深度学习（DeepLearning,DL）✦核心概念：✦网络结构举例：✦技术趋势：3.自然语言处理（NLP）✦核心任务：✦代表模型：4.计算机视觉（ComputerVis
【深度学习|冰川制图3】GlacierNet2：一种面向高山冰川制图的混合多模型学习架构努力毕业的小土博^_^ 论文推荐深度学习学习架构人工智能机器学习
【深度学习|冰川制图3】GlacierNet2：一种面向高山冰川制图的混合多模型学习架构【深度学习|冰川制图3】GlacierNet2：一种面向高山冰川制图的混合多模型学习架构文章目录【深度学习|冰川制图3】GlacierNet2：一种面向高山冰川制图的混合多模型学习架构引言欢迎铁子们点赞、关注、收藏！祝大家逢考必过！逢投必中！上岸上岸上岸！upupup大多数高校硕博生毕业要求需要参加学术会议，发
【深度学习|冰川制图4】GlacierNet2：一种面向高山冰川制图的混合多模型学习架构努力毕业的小土博^_^ 论文推荐深度学习学习架构人工智能
【深度学习|冰川制图4】GlacierNet2：一种面向高山冰川制图的混合多模型学习架构【深度学习|冰川制图4】GlacierNet2：一种面向高山冰川制图的混合多模型学习架构文章目录【深度学习|冰川制图4】GlacierNet2：一种面向高山冰川制图的混合多模型学习架构数据与方法2.1数据欢迎铁子们点赞、关注、收藏！祝大家逢考必过！逢投必中！上岸上岸上岸！upupup大多数高校硕博生毕业要求需要
【深度学习|冰川制图5】GlacierNet2：一种面向高山冰川制图的混合多模型学习架构努力毕业的小土博^_^ 优秀论文推荐深度学习学习人工智能
【深度学习|冰川制图5】GlacierNet2：一种面向高山冰川制图的混合多模型学习架构【深度学习|冰川制图5】GlacierNet2：一种面向高山冰川制图的混合多模型学习架构文章目录【深度学习|冰川制图5】GlacierNet2：一种面向高山冰川制图的混合多模型学习架构数据与方法2.2深度学习模型2.2.1GlacierNet模型2.2.2DeepLabV3+模型欢迎铁子们点赞、关注、收藏！祝大
【深度学习|学习笔记】什么是k折交叉验证？K折交叉验证的步骤详解？以及如何在K折交叉验证中选择k? 努力毕业的小土博^_^ 机器学习基础算法优质笔记2 深度学习学习笔记人工智能
【深度学习|学习笔记】什么是k折交叉验证？K折交叉验证的步骤详解？以及如何在K折交叉验证中选择k?【深度学习|学习笔记】什么是k折交叉验证？K折交叉验证的步骤详解？以及如何在K折交叉验证中选择k?文章目录【深度学习|学习笔记】什么是k折交叉验证？K折交叉验证的步骤详解？以及如何在K折交叉验证中选择k?一、什么是K折交叉验证？✅目的：二、K折交叉验证的发展背景三、K折交叉验证的步骤详解步骤如下：数学
【深度学习|学习笔记】网格搜索（GridSearchCV）和随机搜索（RandomizedSearchCV）详解，附代码。努力毕业的小土博^_^ 深度学习学习笔记深度学习学习笔记机器学习人工智能
【深度学习|学习笔记】网格搜索（GridSearchCV）和随机搜索（RandomizedSearchCV）详解，附代码。【深度学习|学习笔记】网格搜索（GridSearchCV）和随机搜索（RandomizedSearchCV）详解，附代码。文章目录【深度学习|学习笔记】网格搜索（GridSearchCV）和随机搜索（RandomizedSearchCV）详解，附代码。一、背景与发展：为什么需要
学习三维动画心得 2501_92205961 开发语言青少年编程
在大二学年的三维动画设计学习进程中，我围绕3dsMax和Blender两大核心软件展开深入钻研，并在此基础上探索技术应用与创新。不仅熟练掌握了基础操作，还深入到代码编写与复杂技术问题解决领域，逐步构建起系统的三维动画设计知识与技能体系，以下是详细的学习总结。一、3dsMax的深度学习与技术实践（一）高级建模与脚本优化在3dsMax的学习中，基础建模掌握后，我开始挑战高级建模技术。利用NURBS建模
信息抽取领域关键Benchmark方法：分类体系
信息抽取领域关键Benchmark方法：分类体系摘要信息抽取（InformationExtraction,IE）作为自然语言处理的核心任务之一，旨在从非结构化文本中识别并结构化关键信息（如实体、关系、事件等），广泛应用于知识图谱构建、智能问答和数据分析等领域。近年来，随着深度学习技术的快速发展，信息抽取方法在性能和应用范围上取得了显著进步，但同时也面临着任务多样性、跨领域泛化性以及低资源场景下的适
基于级联深度学习算法在双参数MRI中检测前列腺病变的评估| 文献速递-AI辅助的放射影像疾病诊断有Li 人工智能深度学习算法
Title题目EvaluationofaCascadedDeepLearning–basedAlgorithmforProstateLesionDetectionatBiparametricMRI基于级联深度学习算法在双参数MRI中检测前列腺病变的评估Background背景MultiparametricMRI(mpMRI)improvesprostatecancer(PCa)detectionc
深度学习使用Pytorch训练模型步骤 vvvdg 深度学习 pytorch 人工智能
训练模型是机器学习和深度学习中的核心过程，旨在通过大量数据学习模型参数，以便模型能够对新的、未见过的数据做出准确的预测。训练模型通常包括以下几个步骤：1.数据准备：收集和处理数据，包括清洗、标准化和归一化。将数据分为训练集、验证集和测试集。2.定义模型：选择模型架构，例如决策树、神经网络等。初始化模型参数（权重和偏置）。3.选择损失函数：根据任务类型（如分类、回归）选择合适的损失函数。4.选择优化
深度学习中Embedding原理讲解 zhishidi ai笔记深度学习 embedding 人工智能
我们用最直白的方式来理解深度学习中Embedding（嵌入）的概念。核心思想一句话：Embedding就是把一些复杂、离散的东西（比如文字、类别、ID）转换成计算机更容易理解和计算的“数字密码”，这些“数字密码”能代表这个东西的本质特征或含义。为什么需要Embedding？想象一下，你要教计算机认识“苹果”和“橙子”：原始表示（不好用）：你告诉计算机：“苹果”的编号是1，“橙子”的编号是2。问题来
Python助力自动驾驶：深度学习模型优化全攻略 Echo_Wish Python！实战！python 自动驾驶深度学习
Python助力自动驾驶：深度学习模型优化全攻略说起自动驾驶，大家第一反应往往是“高精地图”“传感器融合”“路径规划”等等，背后真正的“大脑”其实是各式各样的深度学习模型。它们负责感知环境、识别路况、预测行为，甚至实时做出决策。可是，跑在车上的这些模型不仅要精准，还得轻量、实时、稳定，这可不是简单的“丢GPU就能解决”的问题。今天，咱们就从Python开发者的视角，聊聊自动驾驶里深度学习模型的优化
TensorFlow：开启智能时代的引擎科技林总 DeepSeek学AI 人工智能
想象一下，计算机能看懂病历、汽车能自动驾驶、机器能创作艺术——这一切的核心，正是深度学习的力量。而推动这场革命的引擎之一，就是今天的主角：**TensorFlow**。---###**一、背景：为什么需要TensorFlow？1.**深度学习的爆发**-传统编程无法解决图像识别、自然语言处理等复杂问题。-神经网络需要高效工具处理海量数据和计算。2.**Google的答案**-2015年开源Tens
22种创新思路！今年必将是特征选择爆发的一年小唯啊小唯人工智能注意力机制特征选择
2025深度学习发论文&模型涨点之——特征选择特征选择是机器学习和数据挖掘领域中一个非常重要的步骤。它指的是从原始特征集合中挑选出对目标变量有较强预测能力的特征子集。在实际的数据集中，往往包含众多特征，但并非所有特征都对模型的性能有正面影响。例如在房价预测任务中，原始特征可能包括房屋的面积、房间数量、所在小区、周边配套设施等众多内容。通过特征选择，可以剔除一些无关的或者冗余的特征，比如可能存在的重
【深度学习|学习笔记】什么是正则化？如何理解正则化？L0、L1、L2正则化的起源、发展、原理、应用和对比详解，附代码。努力毕业的小土博^_^ 深度学习学习笔记深度学习学习笔记人工智能机器学习
【深度学习|学习笔记】什么是正则化？如何理解正则化？L0、L1、L2正则化的起源、发展、原理、应用和对比详解，附代码。【深度学习|学习笔记】什么是正则化？如何理解正则化？L0、L1、L2正则化的起源、发展、原理、应用和对比详解，附代码。文章目录【深度学习|学习笔记】什么是正则化？如何理解正则化？L0、L1、L2正则化的起源、发展、原理、应用和对比详解，附代码。前言一、什么是正则化？为什么需要它？✅
浅谈卷积神经网络(CNN) cyc&阿灿 cnn 人工智能神经网络
卷积神经网络(ConvolutionalNeuralNetworks,CNN)作为深度学习领域最具影响力的架构之一，已在计算机视觉、自然语言处理、医学影像分析等领域取得了革命性突破。本文将系统全面地剖析CNN的核心原理、关键组件、经典模型、数学基础、训练技巧以及最新进展，通过理论解析与代码实践相结合的方式，帮助读者深入掌握这一重要技术。一、CNN基础与核心思想1.1传统神经网络的局限性在处理图像等
【PyTorch】2024保姆级安装教程-Python-（CPU+GPU详细完整版）金枝玉叶9 程序员知识储备1 程序员知识储备2 程序员知识储备3 python pytorch 人工智能
【PyTorch】2024保姆级安装教程（CPU+GPU详细完整版）PyTorch是当前最受欢迎的深度学习框架之一。本文将详细讲解在Python环境中安装PyTorch，包括CPU和GPU版本的全方位指南。一、前置环境首先确保已安装Python环境，推荐使用Python3.8或以上版本。验证Python安装：python--versionpip--version推荐使用虚拟环境（如conda或ve
基于OpenCV图像分割与PyTorch的增强图像分类方案从零开始学习人工智能 opencv pytorch 分类
在图像分类任务中，背景噪声和复杂场景常常会对分类准确率产生负面影响。为了应对这一挑战，本文介绍了一种结合OpenCV图像分割与PyTorch深度学习框架的增强图像分类方案。通过先对图像进行分割提取感兴趣区域（RegionofInterest，ROI），再进行分类，可以有效减少背景干扰，突出关键特征，从而提高分类准确率。该方案在多种复杂场景下表现出色，尤其适用于图像背景复杂或包含多个对象的情况。一、
Deepoc大模型在半导体设计优化与自动化 Deepoch 自动化运维人工智能机器人单片机 ai 科技
大模型在半导体设计领域的应用已形成多维度技术渗透，其核心价值在于通过数据驱动的方式重构传统设计范式。以下从技术方向、实现路径及行业影响三个层面展开详细分析：参数化建模与动态调优基于物理的深度学习模型（如PINNs）将器件物理方程嵌入神经网络架构，实现工艺参数与电学性能的非线性映射建模。通过强化学习框架（如PPO算法）动态调整掺杂浓度、栅极长度等关键参数，在3nm节点下实现驱动电流提升18%的同时降
分布式训练架构解析
一、分布式训练的问题根源与需求驱动在深度学习领域，模型与数据规模呈指数级增长趋势，传统单机训练模式已难以满足日益复杂的业务需求，分布式训练技术应运而生，其核心驱动力源于以下三大关键困境：1.1算力瓶颈与训练效率危机单GPU设备的计算能力存在物理上限。以NVIDIAA100为例，其单卡FP32算力约为19.5TFLOPS，面对GPT-4这样拥有1.8万亿参数的超大型模型，若采用单机单卡训练，仅完成一
Python pdfminer.six库【PDF解析库】全面使用指南老胖闲聊 Python库大全 python pdf 开发语言
想全面了解DeepSeek的看过来【包邮】DeepSeek全攻略人人需要的AI通识课零基础掌握DeepSeek的实用操作手册指南【限量作者亲笔签名版售完即止】玩转DeepSeek这本就够了【自营包邮】DeepSeek实战指南deepseek从入门到精通实用操作指南现代科技科普读物AI普及知识读物人工智能使用教程中小学读物京东超级618Python初学者的入门教程动手学深度学习PyTorch版李沐和
xml解析小猪猪08 xml
1、DOM解析的步奏准备工作： 1.创建DocumentBuilderFactory的对象 2.创建DocumentBuilder对象 3.通过DocumentBuilder对象的parse(String fileName)方法解析xml文件 4.通过Document的getElem
每个开发人员都需要了解的一个SQL技巧 brotherlamp linux linux视频 linux教程 linux自学 linux资料
对于数据过滤而言CHECK约束已经算是相当不错了。然而它仍存在一些缺陷，比如说它们是应用到表上面的，但有的时候你可能希望指定一条约束，而它只在特定条件下才生效。使用SQL标准的WITH CHECK OPTION子句就能完成这点，至少Oracle和SQL Server都实现了这个功能。下面是实现方式： CREATE TABLE books ( id &
Quartz——CronTrigger触发器 eksliang quartz CronTrigger
转载请出自出处：http://eksliang.iteye.com/blog/2208295 一.概述 CronTrigger 能够提供比 SimpleTrigger 更有具体实际意义的调度方案，调度规则基于 Cron 表达式，CronTrigger 支持日历相关的重复时间间隔（比如每月第一个周一执行），而不是简单的周期时间间隔。二.Cron表达式介绍 1）Cron表达式规则表 Quartz
Informatica基础 18289753290 Informatica Monitor manager workflow Designer
1. 1）PowerCenter Designer：设计开发环境，定义源及目标数据结构；设计转换规则，生成ETL映射。 2）Workflow Manager：合理地实现复杂的ETL工作流，基于时间，事件的作业调度 3）Workflow Monitor：监控Workflow和Session运行情况，生成日志和报告 4）Repository Manager：
linux下为程序创建启动和关闭的的sh文件，scrapyd为例酷的飞上天空 scrapy
对于一些未提供service管理的程序每次启动和关闭都要加上全部路径，想到可以做一个简单的启动和关闭控制的文件下面以scrapy启动server为例，文件名为run.sh： #端口号，根据此端口号确定PID PORT=6800 #启动命令所在目录 HOME='/home/jmscra/scrapy/' #查询出监听了PORT端口
人--自私与无私永夜-极光
今天上毛概课,老师提出一个问题--人是自私的还是无私的,根源是什么? 从客观的角度来看,人有自私的行为,也有无私的
Ubuntu安装NS-3 环境脚本随便小屋 ubuntu
将附件下载下来之后解压，将解压后的文件ns3environment.sh复制到下载目录下（其实放在哪里都可以，就是为了和我下面的命令相统一）。输入命令： sudo ./ns3environment.sh >>result 这样系统就自动安装ns3的环境，运行的结果在result文件中，如果提示 com
创业的简单感受 aijuans 创业的简单感受
2009年11月9日我进入a公司实习，2012年4月26日，我离开a公司，开始自己的创业之旅。今天是2012年5月30日，我忽然很想谈谈自己创业一个月的感受。当初离开边锋时，我就对自己说：“自己选择的路，就是跪着也要把他走完”，我也做好了心理准备，准备迎接一次次的困难。我这次走出来，不管成败
如何经营自己的独立人脉 aoyouzi 如何经营自己的独立人脉
独立人脉不是父母、亲戚的人脉，而是自己主动投入构造的人脉圈。“放长线，钓大鱼”，先行投入才能产生后续产出。现在几乎做所有的事情都需要人脉。以银行柜员为例，需要拉储户，而其本质就是社会人脉，就是社交！很多人都说，人脉我不行，因为我爸不行、我妈不行、我姨不行、我舅不行……我谁谁谁都不行，怎么能建立人脉？我这里说的人脉，是你的独立人脉。以一个普通的银行柜员
JSP基础百合不是茶 jsp 注释隐式对象
1,JSP语句的声明 <%! 声明 %> 　　声明：这个就是提供java代码声明变量、方法等的场所。表达式 <%= 表达式 %> 　　这个相当于赋值，可以在页面上显示表达式的结果，程序代码段/小型指令　<% 程序代码片段 %> 2,JSP的注释
web.xml之session-config、mime-mapping bijian1013 java web.xml servlet session-config mime-mapping
session-config 1.定义： <session-config> <session-timeout>20</session-timeout> </session-config> 2.作用：用于定义整个WEB站点session的有效期限，单位是分钟。 mime-mapping 1.定义： <mime-m
互联网开放平台（1） Bill_chen 互联网 qq 新浪微博百度腾讯
现在各互联网公司都推出了自己的开放平台供用户创造自己的应用，互联网的开放技术欣欣向荣，自己总结如下： 1.淘宝开放平台(TOP) 网址：http://open.taobao.com/ 依赖淘宝强大的电子商务数据，将淘宝内部业务数据作为API开放出去，同时将外部ISV的应用引入进来。目前TOP的三条主线： TOP访问网站：open.taobao.com ISV后台：my.open.ta
【MongoDB学习笔记九】MongoDB索引 bit1129 mongodb
索引可以在任意列上建立索引索引的构造和使用与传统关系型数据库几乎一样,适用于Oracle的索引优化技巧也适用于Mongodb 使用索引可以加快查询,但同时会降低修改,插入等的性能内嵌文档照样可以建立使用索引测试数据 var p1 = { "name":"Jack", "age&q
JDBC常用API之外的总结白糖_ jdbc
做JAVA的人玩JDBC肯定已经很熟练了，像DriverManager、Connection、ResultSet、Statement这些基本类大家肯定很常用啦，我不赘述那些诸如注册JDBC驱动、创建连接、获取数据集的API了，在这我介绍一些写框架时常用的API，大家共同学习吧。 ResultSetMetaData获取ResultSet对象的元数据信息
apache VelocityEngine使用记录 bozch VelocityEngine
VelocityEngine是一个模板引擎，能够基于模板生成指定的文件代码。使用方法如下： VelocityEngine engine = new VelocityEngine();// 定义模板引擎 Properties properties = new Properties();// 模板引擎属
编程之美-快速找出故障机器 bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; public class TheLostID { /*编程之美假设一个机器仅存储一个标号为ID的记录，假设机器总量在10亿以下且ID是小于10亿的整数，假设每份数据保存两个备份，这样就有两个机器存储了同样的数据。 1.假设在某个时间得到一个数据文件ID的列表，是
关于Java中redirect与forward的区别 chenbowen00 java servlet
在Servlet中两种实现： forward方式：request.getRequestDispatcher(“/somePage.jsp”).forward(request, response); redirect方式：response.sendRedirect(“/somePage.jsp”); forward是服务器内部重定向，程序收到请求后重新定向到另一个程序，客户机并不知
[信号与系统]人体最关键的两个信号节点 comsci 系统
如果把人体看做是一个带生物磁场的导体,那么这个导体有两个很重要的节点,第一个在头部,中医的名称叫做百汇穴, 另外一个节点在腰部,中医的名称叫做命门如果要保护自己的脑部磁场不受到外界有害信号的攻击,最简单的
oracle 存储过程执行权限 daizj oracle 存储过程权限执行者调用者
在数据库系统中存储过程是必不可少的利器，存储过程是预先编译好的为实现一个复杂功能的一段Sql语句集合。它的优点我就不多说了，说一下我碰到的问题吧。我在项目开发的过程中需要用存储过程来实现一个功能，其中涉及到判断一张表是否已经建立，没有建立就由存储过程来建立这张表。 CREATE OR REPLACE PROCEDURE TestProc IS fla
为mysql数据库建立索引 dengkane mysql 性能索引
前些时候，一位颇高级的程序员居然问我什么叫做索引，令我感到十分的惊奇，我想这绝不会是沧海一粟，因为有成千上万的开发者（可能大部分是使用MySQL的）都没有受过有关数据库的正规培训，尽管他们都为客户做过一些开发，但却对如何为数据库建立适当的索引所知较少，因此我起了写一篇相关文章的念头。最普通的情况，是为出现在where子句的字段建一个索引。为方便讲述，我们先建立一个如下的表。
学习C语言常见误区如何看懂一个程序如何掌握一个程序以及几个小题目示例 dcj3sjt126com c 算法
如果看懂一个程序，分三步 1、流程 2、每个语句的功能 3、试数如何学习一些小算法的程序尝试自己去编程解决它，大部分人都自己无法解决如果解决不了就看答案关键是把答案看懂，这个是要花很大的精力，也是我们学习的重点看懂之后尝试自己去修改程序，并且知道修改之后程序的不同输出结果的含义照着答案去敲调试错误
centos6.3安装php5.4报错 dcj3sjt126com centos6
报错内容如下: Resolving Dependencies --> Running transaction check ---> Package php54w.x86_64 0:5.4.38-1.w6 will be installed --> Processing Dependency: php54w-common(x86-64) = 5.4.38-1.w6 for
JSONP请求 flyer0126 jsonp
使用jsonp不能发起POST请求。 It is not possible to make a JSONP POST request. JSONP works by creating a <script> tag that executes Javascript from a different domain; it is not pos
Spring Security（03）——核心类简介 234390216 Authentication
核心类简介目录 1.1 Authentication 1.2 SecurityContextHolder 1.3 AuthenticationManager和AuthenticationProvider 1.3.1 &nb
在CentOS上部署JAVA服务 java--hhf java jdk centos Java服务
本文将介绍如何在CentOS上运行Java Web服务，其中将包括如何搭建JAVA运行环境、如何开启端口号、如何使得服务在命令执行窗口关闭后依旧运行第一步：卸载旧Linux自带的JDK ①查看本机JDK版本 java -version 结果如下 java version "1.6.0"
oracle、sqlserver、mysql常用函数对比[to_char、to_number、to_date] ldzyz007 oracle mysql SQL Server
oracle &n
记Protocol Oriented Programming in Swift of WWDC 2015 ningandjin protocol WWDC 2015 Swift2.0
其实最先朋友让我就这个题目写篇文章的时候，我是拒绝的，因为觉得苹果就是在炒冷饭，把已经流行了数十年的OOP中的“面向接口编程”还拿来讲，看完整个Session之后呢，虽然还是觉得在炒冷饭，但是毕竟还是加了蛋的，有些东西还是值得说说的。通常谈到面向接口编程，其主要作用是把系统设计和具体实现分离开，让系统的每个部分都可以在不影响别的部分的情况下，改变自身的具体实现。接口的设计就反映了系统
搭建 CentOS 6 服务器(15) - Keepalived、HAProxy、LVS rensanning keepalived
（一）Keepalived （1）安装 # cd /usr/local/src # wget http://www.keepalived.org/software/keepalived-1.2.15.tar.gz # tar zxvf keepalived-1.2.15.tar.gz # cd keepalived-1.2.15 # ./configure # make &a
ORACLE数据库SCN和时间的互相转换 tomcat_oracle oracle sql
SCN（System Change Number 简称 SCN）是当Oracle数据库更新后，由DBMS自动维护去累积递增的一个数字，可以理解成ORACLE数据库的时间戳，从ORACLE 10G开始，提供了函数可以实现SCN和时间进行相互转换；　　用途：在进行数据库的还原和利用数据库的闪回功能时，进行SCN和时间的转换就变的非常必要了；　　操作方法：　　1、通过dbms_f
Spring MVC 方法注解拦截器 xp9802 spring mvc
应用场景，在方法级别对本次调用进行鉴权，如api接口中有个用户唯一标示accessToken,对于有accessToken的每次请求可以在方法加一个拦截器，获得本次请求的用户，存放到request或者session域。 python中，之前在python flask中可以使用装饰器来对方法进行预处理，进行权限处理先看一个实例,使用@access_required拦截： ?