夏洛的网

经典卷积神经网络总结：Inception v1\v2\v3\v4、ResNet、ResNext、DenseNet、SENet等

本文为总结今年来的卷积神经网络，主要按照时间线和方法类似程度的顺序总结。

开篇先前说下概要，然后展开详细介绍，主要是在densenet、resnext、senet这三个网络上介绍，前面的一系列网络大概讲一下思想。

1、时间轴

时间	团队	论文
2014.09	google	Inception v1
2015.02	google	Inception v2
2015.12	google	Inception v3
2016.02	google	Inception v4

时间	团队	论文
2015.12	microsoft	ResNet
2016.11	UCSD & Facebook	ResNext

时间	团队	论文
2016.08	CORNELL & Tsinghua & Facebook	DenseNet
2017.09	momenta	SENet

2、关于模型改进的一些个人总结

扩展网络深度，如resnet结构；
扩展网络宽度，如inception结构；
扩展cardinality，如resnext结构；
使用3x3卷积核替换5x5\7x7卷积核；
分解卷积核，nxn->1xn,nx1，减少模型参数；
上面方法进行排列组合；
attention结构，用在batch、channel、pixel上；

Inception系列

1、Inception v1

论文链接：https://arxiv.org/pdf/1409.4842.pdf

1.1 核心思想

传统网络都是通过层的叠加，增加网络深度，这篇论文提出从网络宽度上改进，通过concat操作，将经过不同kernel尺度的feature map进行concat，增加网络对尺度的适应性、增加网络的宽度，提高了网络内部资源的利用率。

inception block结构如下图所示：

$经典卷积神经网络总结：Inception v1\v2\v3\v4、ResNet、ResNext、DenseNet、SENet等_第1张图片$

网络中除了添加inception block之外，还使用global average pooling代替了全连接层，可以减少参数量，保留显著特征，降低特征维度。

1.2 网络结构

$经典卷积神经网络总结：Inception v1\v2\v3\v4、ResNet、ResNext、DenseNet、SENet等_第2张图片$

1.3 实验结果

$经典卷积神经网络总结：Inception v1\v2\v3\v4、ResNet、ResNext、DenseNet、SENet等_第3张图片$

参考链接：

2、Inception v2

论文链接：https://arxiv.org/pdf/1502.03167.pdf

1.1 核心思想

首次提出BN层，减少Internal Covariate Shift，具体BN层的解释可以参考以前的博客，将每一次一个batch中的数据分布控制在均值为0，方差为1。

1.2 网络结构

就是添加了BN层

1.3 实验结果

$经典卷积神经网络总结：Inception v1\v2\v3\v4、ResNet、ResNext、DenseNet、SENet等_第4张图片$

参考链接：

3、Inception v3

论文链接：https://arxiv.org/pdf/1512.00567.pdf

1.1 核心思想

1、卷积核进行分解：使用两个3x3卷积核代替5x5卷积核，三个3x3卷积核代替7x7卷积核，减少参数量，加快计算。（两个3x3与一个5x5作用是一样的，其感受野都是5）

$经典卷积神经网络总结：Inception v1\v2\v3\v4、ResNet、ResNext、DenseNet、SENet等_第5张图片$

$经典卷积神经网络总结：Inception v1\v2\v3\v4、ResNet、ResNext、DenseNet、SENet等_第6张图片$

2、进一步将nxn卷积核分解为1xn和nx1卷积核；

$经典卷积神经网络总结：Inception v1\v2\v3\v4、ResNet、ResNext、DenseNet、SENet等_第7张图片$

$经典卷积神经网络总结：Inception v1\v2\v3\v4、ResNet、ResNext、DenseNet、SENet等_第8张图片$

3、减少feature map的size，增加channel数；

1.2 网络结构

$经典卷积神经网络总结：Inception v1\v2\v3\v4、ResNet、ResNext、DenseNet、SENet等_第9张图片$

1.3 实验结果

$经典卷积神经网络总结：Inception v1\v2\v3\v4、ResNet、ResNext、DenseNet、SENet等_第10张图片$

参考链接：https://www.cnblogs.com/eniac1946/p/8669937.html

4、Inception v4

论文链接：https://arxiv.org/pdf/1602.07261.pdf

1.1 核心思想

基于inception v3的基础上，引入残差结构，提出了inception-resnet-v1和inception-resnet-v2，并修改inception模块提出了inception v4结构。基于inception v4的网络实验发现在不引入残差结构的基础上也能达到和inception-resnet-v2结构相似的结果，从而认为何凯明等人认为的：“要想得到深度卷积网络必须使用残差结构”这一观点是不完全正确的。

1.3 实验结果

在inception-resnet-v1与inception v3的对比中，inception-resnet-v1虽然训练速度更快，不过最后结果有那么一丢丢的差于inception v3；
在inception-resnet-v2与inception v4的对比中，inception-resnet-v2的训练速度更块，而且结果比inception v4也更好一点。所以最后胜出的就是inception-resnet-v2。

$经典卷积神经网络总结：Inception v1\v2\v3\v4、ResNet、ResNext、DenseNet、SENet等_第28张图片$

参考链接：

1、https://www.cnblogs.com/shouhuxianjian/p/7786760.html

2、https://blog.csdn.net/loveliuzz/article/details/79135583

ResNet系列

5、ResNet

论文链接：https://arxiv.org/pdf/1512.03385v1.pdf

1.1 核心思想

第一次提出残差结构，主要解决两个问题

梯度消失
随着网络深度增加，性能没有提升反而有所下降

如下图，本来要学习H(x)，现在转换为F(x)+x，二者效果相同，但是优化难度下降，并且因为多了一个x，使得求导时总有1，避免了梯度消失问题。

$经典卷积神经网络总结：Inception v1\v2\v3\v4、ResNet、ResNext、DenseNet、SENet等_第29张图片$

进一步拓展残差结构：

$经典卷积神经网络总结：Inception v1\v2\v3\v4、ResNet、ResNext、DenseNet、SENet等_第30张图片$

1.2 网络结构

1、首先是vgg网络、plain 网络和残差网络的结构比较；

$经典卷积神经网络总结：Inception v1\v2\v3\v4、ResNet、ResNext、DenseNet、SENet等_第31张图片$
$经典卷积神经网络总结：Inception v1\v2\v3\v4、ResNet、ResNext、DenseNet、SENet等_第32张图片$

2、本文中的网络结构

$经典卷积神经网络总结：Inception v1\v2\v3\v4、ResNet、ResNext、DenseNet、SENet等_第33张图片$

1.3 实验结果

$经典卷积神经网络总结：Inception v1\v2\v3\v4、ResNet、ResNext、DenseNet、SENet等_第34张图片$

参考链接：

6、ResNext

论文链接：：https://arxiv.org/pdf/1611.05431.pdf

6.1 核心思想

主要是采用了VGG堆叠思想和Inception的split-transform-merge思想，在不增加参数复杂度的前提下提高准确率。

对比于之前提高准确率的方法，大都是在depth和width上改进，本文提出一种新的方式，命名为cardinality，基数。即得到上一次feature map后，假设cardinality=32，则取32组1x1卷积核，每组4个，分别进行卷积，得到32组feature map，然后再分别进行3x3卷积，最后再通过1x1卷积把通道数还原回来。

具体残差结构如下所示：

$经典卷积神经网络总结：Inception v1\v2\v3\v4、ResNet、ResNext、DenseNet、SENet等_第35张图片$

上图右图中可以进行变体，下图中这三种结构是完全相等的，

图A就是上面所说的结构；
图B是在3x3卷积后进行了concat，然后再通过统一的1x1卷积操作，这个有点类似于inception-resnet；
C图结构更简洁且速度更快。采用组卷积。采用32个group，每个group的输入输出的通道数都是4；

$经典卷积神经网络总结：Inception v1\v2\v3\v4、ResNet、ResNext、DenseNet、SENet等_第36张图片$

6.2 网络结构

1、网络结构

$经典卷积神经网络总结：Inception v1\v2\v3\v4、ResNet、ResNext、DenseNet、SENet等_第37张图片$

resnext与resnet50/101参数量差不多，但是准确率却提升了。

6.3 实验结果

增加Cardinality和增加深度或宽度的对比实验，证明增加Cardinality确实效果比较好。

$经典卷积神经网络总结：Inception v1\v2\v3\v4、ResNet、ResNext、DenseNet、SENet等_第38张图片$

参考链接：https://blog.csdn.net/u014380165/article/details/71667916

其他

7、DenseNet

论文链接：https://arxiv.org/pdf/1608.06993.pdf

7.1 核心思想

densenet紧接着在resnet之后提出，结合了resnet的思想。网络改进除了像resnet和inception在深度和宽度上做文章外，densenet通过利用feature来减少参数的同时提高效果，对feature进行有效利用并加强feature的传递。

主要思想是将每一层都与后面的层连接起来，如果一个网络中有L层，那么会有L(L+1)/2个连接，具体连接如下图所示：

$经典卷积神经网络总结：Inception v1\v2\v3\v4、ResNet、ResNext、DenseNet、SENet等_第39张图片$

引用参考链接中的一段话：

DenseNet的一个优点是网络更窄，参数更少，很大一部分原因得益于这种dense block的设计，后面有提到在dense block中每个卷积层的输出feature map的数量都很小（小于100），而不是像其他网络一样动不动就几百上千的宽度。同时这种连接方式使得特征和梯度的传递更加有效，网络也就更加容易训练。原文的一句话非常喜欢：Each layer has direct access to the gradients from the loss function and the original input signal, leading to an implicit deep supervision.直接解释了为什么这个网络的效果会很好。前面提到过梯度消失问题在网络深度越深的时候越容易出现，原因就是输入信息和梯度信息在很多层之间传递导致的，而现在这种dense connection相当于每一层都直接连接input和loss，因此就可以减轻梯度消失现象，这样更深网络不是问题。另外作者还观察到这种dense connection有正则化的效果，因此对于过拟合有一定的抑制作用，博主认为是因为参数减少了（后面会介绍为什么参数会减少），所以过拟合现象减轻。

给出resnet和resnext两个结构的公式比较：

resnet：前一层经过非线性变换后与前一层相加得到本层的结果。

densenet：前n层所有的结果进行concat，然后再进行非线性转换。

为了保证feature map的channel不会太大，而且size要保持统一才能concat，将上述作为一个dense block，每个block之间通过池化层相连。

7.2 网络结构

1、引入dense block后的结构图

$经典卷积神经网络总结：Inception v1\v2\v3\v4、ResNet、ResNext、DenseNet、SENet等_第40张图片$

2、网络结构，图中k表示每个dense block中每层输出的feature map个数

$经典卷积神经网络总结：Inception v1\v2\v3\v4、ResNet、ResNext、DenseNet、SENet等_第41张图片$

3、bottleneck layer和translation layer

此外，在dense block中引入bottleneck layer，即卷积3x3前增加1x1卷积，以此来减少feature map数量。结构为：

BN -> Relu -> Conv 1x1 -> BN -> Relu -> Conv 3x3

由于feature map通道数量可能还是很大，在每个dense block之间，增加了translation layer，通过1x1卷积核来实现。

BN -> Relu -> Conv 1x1 -> Pooling

7.3 实验结果

$经典卷积神经网络总结：Inception v1\v2\v3\v4、ResNet、ResNext、DenseNet、SENet等_第42张图片$

参考链接：https://blog.csdn.net/u014380165/article/details/75142664

8、SENet

论文链接：https://arxiv.org/pdf/1709.01507.pdf

8.1 核心思想

从特征通道之间的关系入手，对特征通道之间的关系进行建模表示，根据重要程度增强有用的特征、抑制没有用的特征。

个人感觉像是在通道上做权重，类似于通道上的attention。

主要分为两个过程，如下图所示，squeeze挤压和excitation激励。

$经典卷积神经网络总结：Inception v1\v2\v3\v4、ResNet、ResNext、DenseNet、SENet等_第43张图片$

8.1.1 Squeeze

如下图所示，对通道进行了挤压，即通过全局平均池化，将shape为[H, W, C]的feature map变为[1, 1, C]。

顺着空间维度来进行特征压缩，将每个二维的特征通道变成一个实数，这个实数某种程度上具有全局的感受野，并且输出的维度和输入的特征通道数相匹配。它表征着在特征通道上响应的全局分布，而且使得靠近输入的层也可以获得全局的感受野，这一点在很多任务中都是非常有用的。

8.1.2 Excitation

得到挤压后的feature map后，进行激励，使用sigmoid函数。。

首先通过一个全连接层进行降维，即如下公式中的W1z，然后经过relu激活函数。即δ(W1z)，再经过全连接进行升维，即W2(δ(W1z))，然后通过sigmoid进行权重激活。

它是一个类似于循环神经网络中门的机制。通过参数 w 来为每个特征通道生成权重，其中参数 w 被学习用来显式地建模特征通道间的相关性。

8.1.3 Reweight

最后通过scale相乘，得到se block的结果。

将 Excitation 的输出的权重看做是进过特征选择后的每个特征通道的重要性，然后通过乘法逐通道加权到先前的特征上，完成在通道维度上的对原始特征的重标定。

8.1.4 se block

block结构图如下所示：

$经典卷积神经网络总结：Inception v1\v2\v3\v4、ResNet、ResNext、DenseNet、SENet等_第44张图片$

进一步，变为残差se block，

$经典卷积神经网络总结：Inception v1\v2\v3\v4、ResNet、ResNext、DenseNet、SENet等_第45张图片$

8.2 网络结构

整个网路结构如下图所示：分别为resnet-50，se-resnet-50，se-resnext-50；

$经典卷积神经网络总结：Inception v1\v2\v3\v4、ResNet、ResNext、DenseNet、SENet等_第46张图片$

8.3 实验结果

在主流网络上进行了复现，并加了se block结构后进行了比较。

$经典卷积神经网络总结：Inception v1\v2\v3\v4、ResNet、ResNext、DenseNet、SENet等_第47张图片$

参考链接：

1、https://blog.csdn.net/xjz18298268521/article/details/79078551

2、http://www.sohu.com/a/161633191_465975

AI 驱动自动化运维平台架构与实现大富大贵7 程序员知识储备1 程序员知识储备2 程序员知识储备3 算法机器学习人工智能决策树大数据
摘要：随着云计算、容器化和大规模分布式系统的普及，传统人工运维方法已难以满足现代IT环境中海量指标、日志和拓扑关系的实时分析与故障响应需求。AI驱动的自动化运维（AIOps）平台通过融合机器学习、深度学习、图分析以及强化学习等多学科技术，实现对海量运维数据的智能感知、预测、诊断和自动化修复。本文深入探讨AI驱动自动化运维平台的整体架构设计与核心技术实现，涵盖数据采集与预处理、AI引擎设计、自动化执
人工智能真的能编程吗？研究勾勒出自主软件工程的障碍 WSSWWWSSW 人工智能软件工程
想象一下这样一个未来：人工智能悄然承担起软件开发的繁重工作：重构杂乱无章的代码、迁移遗留系统以及排查竞态条件，这样人类工程师就可以专注于架构、设计以及那些机器仍然无法解决的真正新颖的问题。最近的进展似乎让这个未来近在咫尺，但麻省理工学院计算机科学与人工智能实验室（CSAIL）以及其他几家合作机构的研究人员发表的一篇新论文指出，要实现这个潜在的未来，需要认真审视当前面临的挑战。这篇题为《面向软件工程
arXiv.org
arXiv的发展历程与目标解析一、发展历程：从邮件列表到学术基础设施（1991年至今）萌芽期（1989-1991）起源：1989年，物理学家PaulGinsparg基于弦理论专家的邮件列表，尝试自动化预印本分发。1991年8月，洛斯阿拉莫斯国家实验室上线xxx.lanl.gov，最初仅服务高能物理领域，通过电子邮件接收投稿，半年内收录400篇论文。技术突破：1993年接入万维网，成为首个使用“摘要
YOLOv13_SSOD：基于超图关联增强的半监督目标检测框架（原创创新算法）
YOLOv13_SSOD：基于超图关联增强的半监督目标检测框架项目背景随着深度学习技术的快速发展，目标检测在各个领域都取得了显著的进展。然而，现有的监督学习方法在实际应用中面临着标注数据稀缺、泛化能力不足等挑战。特别是在火灾烟雾检测、工业质检等特定场景中，获取大量高质量标注数据的成本极高。为了解决这一问题，本项目基于最新发布的YOLOv13架构，结合EfficientTeacher半监督学习框架，
USB串口通信、握手协议、深度学习等技术要点深度学习教程, 深度学习人工智能网络协议
基于OpenMV的智能车牌识别系统：从硬件到算法的完整实现前言本文将详细介绍一个基于OpenMV微控制器的智能车牌识别系统的设计与实现。该系统集成了嵌入式视觉处理、串口通信协议、深度学习OCR识别等多种技术，实现了从图像采集到车牌识别的完整流程。系统架构概述整体设计思路该车牌识别系统采用分布式架构设计，将计算密集型任务与嵌入式控制分离：┌─────────────┐USB串口通信┌────────
爆改YOLOv8 | 利用AFPN增加小目标检测层(替换小目标检测头）
1，本文介绍这篇文章的改进机制是利用新推出的渐近特征金字塔网络（AFPN）来优化yolov8的检测头，AFPN的核心是引入一种渐近的特征融合策略，将底层和高层的特征逐渐整合到目标检测过程中。这种方式有助于减小不同层次特征之间的语义差距，提高特征融合效果，使得检测模型能更好地适应不同层次的语义信息。关于AFPN的详细介绍可以看论文：https://arxiv.org/pdf/2306.15988.p
语音识别开源项目推荐：GitHub热门仓库盘点 AGI大模型与大数据研究院 AI大模型应用开发实战语音识别开源 github ai
2024年必看！GitHub热门语音识别开源项目全解析：从入门到实战关键词语音识别(ASR)、开源项目、GitHub、Whisper、FunASR、PaddleSpeech、深度学习摘要想象一下：开车时只需说一句话就能自动发消息，听英文演讲时实时获得中文翻译，给视障人士读文本时精准转换——这些场景的背后，语音识别（AutomaticSpeechRecognition,ASR）技术正在改变我们与机器
单片机智能衣柜论文，仅供参考 Believe Y python
大连东软信息学院毕业设计（论文）论文题目：单片机智能衣柜学院：智能与电子工程学院专业：智能科学与技术学生姓名：周成彬学生学号：19003170203指导教师：王宏波韩媞导师职称：讲师副教授完成日期：2023年4月22日大连东软信息学院DalianNeusoftUniversityofInformation基于单片机的智能衣柜摘要尽管传统的衣橱能够很好地满足储藏衣物的需求，但是因为衣橱的作用很简单，
【论文蒸馏】Recent Advances in Speech Language Models: A Survey Greener_Pat 论文蒸馏语言模型人工智能 AudioLM
AbstractLLM蓬勃发展，但从交互的自然性上看语音大模型(SpeechLM)有巨大的发展空间。直接的方法是ASR(语音转文字)+LLM+TTS(文字转语音)，但是这样有其固有的限制，而端到端的SpeechLM表现更好，本文及其方法论做了一个概览的综述1.Introduction大语言模型提供了强大的AI基础支架，在其它领域有着广泛应用。但交互上不自然，所以需要声学大模型。一种直接的实现方式是
2022-08-05日学录当年观棋
月的最后一天，睡了很长的时间。外面的天气是燥热的，在宿舍的房间里有一丝微凉。实验说到底来说还是想法的验证，但在远远超出自己知识和能力范围的假设，自己也奈何估算不出来。对一些高级仪器的使用还在处于一个基本的阶段。后续在研二的这个阶段，要全身心投入到毕业论文的内容撰写之中去。其实想法有很多，但是真正估计出来可以做的其实也就一两个。这就最终决定了自己毕业论文的宽度。哈哈哈哈哈哈哈哈哈哈
Python训练 + Go优化 + C#部署：端到端AI模型的跨语言实践威哥说编程人工智能学习资料库 python golang c#
在现代AI应用中，如何高效地训练、优化、并最终部署AI模型是一项复杂且具有挑战性的任务。在这一过程中，选择合适的编程语言和工具可以显著提高效率和系统的性能。Python作为AI领域的主流语言，具有丰富的深度学习框架（如PyTorch和TensorFlow），在模型训练方面处于领先地位。然而，针对计算密集型任务（如数据预处理、加密等），Go语言因其高效的并发处理和出色的性能，成为优化计算的理想选择。
【无标题】
PyQt5相关论文方向扩充及技术特性解析PyQt5的核心优势PyQt5作为基于Qt框架的Python绑定库，在科研与工程应用中具备显著优势。其跨平台兼容性极强，可在Windows、macOS、Linux等主流操作系统上稳定运行，且能保持界面风格的一致性，这对开发多场景应用系统至关重要。在界面设计方面，PyQt5提供了丰富的UI组件库，从基础的按钮、文本框到高级的图表、3D控件应有尽有，同时支持Qt
DL00478-涡轮叶片缺陷检测数据集yolo格式1300张左右
涡轮叶片缺陷检测数据集yolo格式1300张左右涡轮叶片缺陷检测数据集YOLO格式解析：提升研究与论文写作的关键要点在研究涡轮叶片缺陷检测的过程中，数据集的选择和格式处理是一个至关重要的环节。特别是当你打算通过卷积神经网络（CNN）等深度学习模型进行缺陷检测时，数据集的标注和格式化直接影响到模型的训练效果和论文的质量。本文将重点探讨涡轮叶片缺陷检测数据集的YOLO格式，并分析如何利用这一格式为研究
具身智能的视觉-语言导航综述
24年2月来自曲阜师范、华东师大和哈工大的论文“Vision-LanguageNavigationwithEmbodiedIntelligence:ASurvey”。作为人工智能领域的长期愿景，具身智能的核心目标是提升智体与环境的感知、理解和交互能力。视觉-语言导航（VLN）作为实现具身智能的重要研究路径，致力于探索智体如何利用自然语言与人进行有效沟通，接收并理解指令，并最终依靠视觉信息实现精准导
具身智能：从理论到实践的跨越
具身智能（EmbodiedAI）的概念起源与发展是一个跨越半个多世纪的学术探索历程，其核心思想在不同学科的交叉碰撞中逐渐成型。以下从理论源头、技术奠基、术语演进三个维度展开解析，揭示这一概念的学术脉络与产业价值：一、理论源头：从图灵的哲学构想到认知科学的具身化转向1.图灵的"感官机器"设想（1950年）在人工智能奠基性论文《计算机器与智能》中，图灵提出了两种智能发展路径：抽象计算路径：如国际象棋等
Epoch 老兵发新帖人工智能
在深度学习和机器学习中，Epoch（轮次或周期）是一个核心训练概念，指模型在整个训练数据集上完成一次完整遍历的过程。以下是关于Epoch的详细解析：一、核心定义基本含义Epoch表示模型将所有训练数据完整学习一次的过程。例如：若训练集有10,000个样本，则1个Epoch即模型用这10,000个样本训练一轮。与相关概念的关系Batch（批次）：数据集被分割成的小组（如每批32个样本）。Iterat
深度学习图像分类数据集—百种病虫害分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：百种病虫害识别分类，训练集45095张，验证集7508张，测试集22619张具体类别为以下：insect_classes=["rice_leaf_roller","rice_leaf_caterpillar
基于小样本学习的图像分类综述 cdyyyyyyy 学习分类机器学习
目录引言基本概念小样本学习方法分类1、数据增强2、迁移学习3、元学习小样本学习主流方法1、基于度量的小样本学习2、基于Pretraining+FineTuning的方法3、基于元学习的小样本学习总结引言因为课程设计要求，所以进行了关于小样本学习的调研。目前小样本学习还是一个比较热门的研究，很多关于小样本学习的论文也陆续发表。本文只是一个概述，具体方法研究还有待深入。基本概念小样本学习（FSL：Fe
车辆云端威胁情报共享系统的多维解析与发展路径百态老人大数据人工智能
第一部分：内容本质提取原始内容描述了一个闭环网络安全体系：“车辆实时上传异常行为日志至安全运营中心（VSOC），云端通过机器学习分析攻击模式并下发全局防御策略”。其核心架构包含：数据采集层：车辆端持续收集异常行为日志数据，包含CAN总线通信模式、网络流量特征及驾驶行为数据传输层：通过V2X通信协议和OTA更新通道实现车云双向通信分析层：安全运营中心(VSOC)采用CNN-BiSRU等深度学习模型进
基于深度学习的语音识别：从音频信号到文本转录 Blossom.118 机器学习与人工智能深度学习语音识别音视频人工智能机器学习线性代数计算机视觉
前言语音识别（AutomaticSpeechRecognition,ASR）是人工智能领域中一个极具挑战性和应用前景的研究方向。它通过将语音信号转换为文本，为人们提供了更加自然和便捷的人机交互方式。近年来，深度学习技术在语音识别领域取得了显著进展，极大地提高了语音识别的准确率和鲁棒性。本文将详细介绍如何使用深度学习技术构建一个语音识别系统，从音频信号的预处理到模型的训练与部署。一、语音识别的基本概
外交部：即日起吊销《华尔街日报》三名驻京记者证件超甜吖
2月19日，外交部发言人耿爽主持网上例行记者会。有记者提问，上周，外交部发言人就《华尔街日报》发表辱华文章要求《华尔街日报》公开正式道歉并查处相关责任人，请问《华尔街日报》是否已就中方要求做出回应？耿爽表示，2月3日，《华尔街日报》刊发美国巴德学院教授米德（WalterRussellMead）撰写的评论文章。该文诋毁中国政府和中国人民抗击疫情的努力，报社编辑还为文章加上了《中国是真正的“亚洲病夫”
数字人系统：AI界的超级巨星，你准备好了吗？优秘智能UMI 数字人人工智能深度学习计算机视觉机器学习自然语言处理语言模型图像处理
在这个日新月异的科技时代，每一个创新的火花都可能点燃一场变革的燎原之火。今天，我们要聊的，正是那颗在AI领域熠熠生辉的璀璨新星——优秘数字人系统。它不仅仅是技术的飞跃，更是对未来生活方式的深刻重塑，一场关于人机交互、智能共生的美好预演。技术原理：深度解析与智能构建的奥秘1.深度学习：智能的基石数字人系统的核心技术之一在于深度学习。深度学习是一种模仿人脑神经网络结构和功能的机器学习技术，通过构建多层
聚焦基础研究突破，北电数智联合复旦大学等团队提出“AI安全”DDPA方法入选ICML CSDN资讯人工智能安全数据要素大数据
近日，由北电数智首席科学家窦德景教授牵头，联合复旦大学和美国奥本大学等科研团队共同研发，提出一种DDPA（DynamicDelayedPoisoningAttack）新型对抗性攻击方法，为机器学习领域的安全研究提供新视角与工具，相关论文已被国际机器学习大会（ICML2025）收录。ICML由国际机器学习学会（IMLS）主办，聚焦深度学习、强化学习、自然语言处理等机器学习前沿方向，是机器学习与人工智
商汤科技视觉算法面试30问全景精解
商汤科技视觉算法面试30问全景精解——AI赋能×智能视觉×产业创新：商汤科技视觉算法面试核心考点全览前言商汤科技（SenseTime）作为全球领先的人工智能平台公司，专注于计算机视觉、深度学习和智慧城市、智能汽车、智能医疗等领域，推动人脸识别、目标检测、视频分析、自动驾驶等前沿技术的产业化落地。商汤视觉算法岗位面试不仅考察候选人对视觉基础理论的扎实掌握，更关注其在大规模安防、自动驾驶、智慧医疗等复
旷视科技视觉算法面试30问全景精解机＿长科技算法面试深度学习 YOLO
旷视科技视觉算法面试30问全景精解——AI赋能×智能安防×视觉创新：旷视科技视觉算法面试核心考点全览前言旷视科技（Megvii）作为全球领先的人工智能公司，专注于计算机视觉、深度学习和智能安防等领域，推动人脸识别、目标检测、视频分析、工业视觉等前沿技术的产业化落地。旷视视觉算法岗位面试不仅考察候选人对视觉基础理论的扎实掌握，更关注其在大规模安防、工业检测、智慧城市等复杂场景下的创新与工程能力。本文
GPT-3 面试题
简介1、GPT-3是什么？它是基于什么模型的？GPT-3是一种基于深度学习原理的语言预测模型。它是由OpenAI开发的，可以从互联网数据中生成任何类型的文本。它只需要一小段文本作为输入，就可以生成大量的准确和复杂的机器生成文本²⁴。GPT-3是基于Transformer模型的，使用了仅有解码器的自回归架构。它使用下一个单词预测目标进行训练¹²。GPT-3有8个不同的模型，参数从1.25亿到1750
【Flink图计算源码解析】开篇：Flink图计算总览 hxcaifly Flink Flink原理和应用
文章目录1.图计算的作用2.本专题的写作目的3.FlinkGelly引擎总览3.1.Gelly的源码结构1.Graph的存储数据结构2.图的类别3.图的验证以及指标4.图的生成器5.Library6.图的迭代计算7.examples案例4.后记1.图计算的作用哲学上说事物之间普遍存在联系的，通常来说可以将事物看作图的顶点，事物间的联系看作图的边，典型的场景：对应于学术界的文献来说，每篇论文可以看作
大模型参与推理崩溃论战！从「思维错觉」到「错觉的错觉」再到「错觉的错觉的错觉」
苹果团队一篇论文，现已升级成AI圈“论文连续剧”。《思维的错觉》：大模型推理会崩溃。《思维的错觉的错觉》：大模型崩溃是错觉。《思维的错觉的错觉的错觉》：大模型还是会崩溃。起初，苹果团队发了一篇论文炮轰所有大模型推理都是假象，遇到高复杂度长推理问题时都会崩溃，即使给他们足够的时间和计算资源。这篇文章引起了广泛关注，有人支持也有人质疑。在质疑的人中，有一位网友与ClaudeOpus“合作”写了一篇长达
精通 triton 使用 MLIR 的源码逻辑 - 第001节：triton 的应用简介
项目使用到MLIR，通过了解triton对MLIR的使用，体会到MLIR在较大项目中的使用方式，汇总一下。1.Triton概述OpenAITriton是一个开源的编程语言和编译器，旨在简化GPU高性能计算（HPC）的开发，特别是针对深度学习、科学计算等需要高效并行计算的领域。既允许开发者编写高度优化的代码，又不必过度关注底层硬件细节。这样，通过简化高性能计算，可以加速新算法的实现和实验。传统GPU
陈若许凯张琳《重生后，我打脸恶毒狗男女》全文免费_陈若许凯张琳全文阅读_笔趣阁好书慢看
陈若许凯张琳《重生后，我打脸恶毒狗男女》全文免费_陈若许凯张琳全文阅读_笔趣阁主角配角：陈若许凯张琳小说别名：重生后，我打脸恶毒狗男女简介：中秋那天，我递了辞职信，远离医院那个是非之地。回乡下度假的那天，手机却被打爆了。男友的青梅疯狂发信息过来，质问我SCI医学论文怎么不写了。我感受着乡村的风和日丽，毅然关机图个清净。可是没等我找她，我的医院工作群已经炸开了，全是讨论着同一件事。张琳一早又发了新动
书其实只有三类西蜀石兰类
一个人一辈子其实只读三种书，知识类、技能类、修心类。知识类的书可以让我们活得更明白。类似十万个为什么这种书籍，我一直不太乐意去读，因为单纯的知识是没法做事的，就像知道地球转速是多少一样（我肯定不知道），这种所谓的知识，除非用到，普通人掌握了完全是一种负担，维基百科能找到的东西，为什么去记忆？知识类的书，每个方面都涉及些，让自己显得不那么没文化，仅此而已。社会认为的学识渊博，肯定不是站在
《TCP/IP 详解，卷1：协议》学习笔记、吐槽及其他 bylijinnan tcp
《TCP/IP 详解，卷1：协议》是经典，但不适合初学者。它更像是一本字典，适合学过网络的人温习和查阅一些记不清的概念。这本书，我看的版本是机械工业出版社、范建华等译的。这本书在我看来，翻译得一般，甚至有明显的错误。如果英文熟练，看原版更好： http://pcvr.nl/tcpip/ 下面是我的一些笔记，包括我看书时有疑问的地方，也有对该书的吐槽，有不对的地方请指正： 1.
Linux—— 静态IP跟动态IP设置 eksliang linux IP
一.在终端输入 vi /etc/sysconfig/network-scripts/ifcfg-eth0 静态ip模板如下： DEVICE="eth0" #网卡名称 BOOTPROTO="static" #静态IP（必须） HWADDR="00:0C:29:B5:65:CA" #网卡mac地址 IPV6INIT=&q
Informatica update strategy transformation 18289753290
更新策略组件：标记你的数据进入target里面做什么操作，一般会和lookup配合使用，有时候用0,1,1代表 forward rejected rows被选中，rejected row是输出在错误文件里，不想看到reject输出，将错误输出到文件，因为有时候数据库原因导致某些column不能update，reject就会output到错误文件里面供查看，在workflow的
使用Scrapy时出现虽然队列里有很多Request但是却不下载，造成假死状态酷的飞上天空 request
现象就是：程序运行一段时间，可能是几十分钟或者几个小时，然后后台日志里面就不出现下载页面的信息，一直显示上一分钟抓取了0个网页的信息。刚开始已经猜到是某些下载线程没有正常执行回调方法引起程序一直以为线程还未下载完成，但是水平有限研究源码未果。经过不停的google终于发现一个有价值的信息，是给twisted提出的一个bugfix 连接地址如下http://twistedmatrix.
利用预测分析技术来进行辅助医疗蓝儿唯美医疗
2014年，克利夫兰诊所（Cleveland Clinic）想要更有效地控制其手术中心做膝关节置换手术的费用。整个系统每年大约进行2600例此类手术，所以，即使降低很少一部分成本，都可以为诊所和病人节约大量的资金。为了找到适合的解决方案，供应商将视野投向了预测分析技术和工具，但其分析团队还必须花时间向医生解释基于数据的治疗方案意味着什么。克利夫兰诊所负责企业信息管理和分析的医疗
java 线程(一)：基础篇 DavidIsOK java 多线程线程
&nbs
Tomcat服务器框架之Servlet开发分析 aijuans servlet
最近使用Tomcat做web服务器，使用Servlet技术做开发时，对Tomcat的框架的简易分析：疑问：为什么我们在继承HttpServlet类之后，覆盖doGet(HttpServletRequest req, HttpServetResponse rep)方法后，该方法会自动被Tomcat服务器调用，doGet方法的参数有谁传递过来？怎样传递？分析之我见： doGet方法的
揭秘玖富的粉丝营销之谜与小米粉丝社区类似 aoyouzi 揭秘玖富的粉丝营销之谜
玖富旗下悟空理财凭借着一个微信公众号上线当天成交量即破百万，第七天成交量单日破了1000万;第23天时，累计成交量超1个亿……至今成立不到10个月，粉丝已经超过500万，月交易额突破10亿，而玖富平台目前的总用户数也已经超过了1800万，位居P2P平台第一位。很多互联网金融创业者慕名前来学习效仿，但是却鲜有成功者，玖富的粉丝营销对外至今仍然是个谜。　　近日，一直坚持微信粉丝营销
Java web的会话跟踪技术百合不是茶 url会话 Cookie会话 Seession会话 Java Web 隐藏域会话
会话跟踪主要是用在用户页面点击不同的页面时,需要用到的技术点会话:多次请求与响应的过程 1,url地址传递参数,实现页面跟踪技术格式:传一个参数的 url?名=值传两个参数的 url?名=值 &名=值关键代码
web.xml之Servlet配置 bijian1013 java web.xml Servlet配置
定义： <servlet> <servlet-name>myservlet</servlet-name> <servlet-class>com.myapp.controller.MyFirstServlet</servlet-class> <init-param> <param-name>
利用svnsync实现SVN同步备份 sunjing SVN 同步 E000022 svnsync 镜像
1. 在备份SVN服务器上建立版本库 svnadmin create test 2. 创建pre-revprop-change文件 cd test/hooks/ cp pre-revprop-change.tmpl pre-revprop-change 3. 修改pre-revprop-
【分布式数据一致性三】MongoDB读写一致性 bit1129 mongodb
本系列文章结合MongoDB，探讨分布式数据库的数据一致性，这个系列文章包括：数据一致性概述与CAP 最终一致性(Eventually Consistency) 网络分裂(Network Partition)问题多数据中心(Multi Data Center) 多个写者(Multi Writer)最终一致性一致性图表(Consistency Chart) 数据
Anychart图表组件-Flash图转IMG普通图的方法白糖_ Flash
问题背景：项目使用的是Anychart图表组件，渲染出来的图是Flash的，往往一个页面有时候会有多个flash图，而需求是让我们做一个打印预览和打印功能，让多个Flash图在一个页面上打印出来。那么我们打印预览的思路是获取页面的body元素，然后在打印预览界面通过$("body").append(html)的形式显示预览效果，结果让人大跌眼镜：Flash是
Window 80端口被占用 WHY? bozch 端口占用 window
平时在启动一些可能使用80端口软件的时候，会提示80端口已经被其他软件占用，那一般又会有那些软件占用这些端口呢？下面坐下总结： 1、web服务器是最经常见的占用80端口的，例如：tomcat , apache , IIS , Php等等； 2
编程之美-数组的最大值和最小值-分治法（两种形式） bylijinnan 编程之美
import java.util.Arrays; public class MinMaxInArray { /** * 编程之美数组的最大值和最小值分治法 * 两种形式 */ public static void main(String[] args) { int[] t={11,23,34,4,6,7,8,1,2,23}; int[]
Perl正则表达式 chenbowen00 正则表达式 perl
首先我们应该知道 Perl 程序中，正则表达式有三种存在形式，他们分别是：匹配：m/<regexp>;/ （还可以简写为 /<regexp>;/ ，略去 m）替换：s/<pattern>;/<replacement>;/ 转化：tr/<pattern>;/<replacemnt>;
[宇宙与天文]行星议会是否具有本行星大气层以外的权力呢? comsci
举个例子: 地球,地球上由200多个国家选举出一个代表地球联合体的议会,那么现在地球联合体遇到一个问题,地球这颗星球上面的矿产资源快要采掘完了....那么地球议会全体投票,一致通过一项带有法律性质的议案,既批准地球上的国家用各种技术手段在地球以外开采矿产资源和其它资源........ &
Oracle Profile 使用详解 daizj oracle profile 资源限制
Oracle Profile 使用详解转一、目的： Oracle系统中的profile可以用来对用户所能使用的数据库资源进行限制，使用Create Profile命令创建一个Profile，用它来实现对数据库资源的限制使用，如果把该profile分配给用户，则该用户所能使用的数据库资源都在该profile的限制之内。二、条件：创建profile必须要有CREATE PROFIL
How HipChat Stores And Indexes Billions Of Messages Using ElasticSearch & Redis dengkane elasticsearch Lucene
This article is from an interview with Zuhaib Siddique, a production engineer at HipChat, makers of group chat and IM for teams. HipChat started in an unusual space, one you might not
循环小示例，菲波拉契序列，循环解一元二次方程以及switch示例程序 dcj3sjt126com c 算法
# include <stdio.h> int main(void) { int n; int i; int f1, f2, f3; f1 = 1; f2 = 1; printf("请输入您需要求的想的序列："); scanf("%d", &n); for (i=3; i<n; i
macbook的lamp环境 dcj3sjt126com lamp
sudo vim /etc/apache2/httpd.conf /Library/WebServer/Documents 是默认的网站根目录重启Mac上的Apache服务这个命令很早以前就查过了，但是每次使用的时候还是要在网上查：停止服务：sudo /usr/sbin/apachectl stop 开启服务：s
java ArrayList源码下 shuizhaosi888 ArrayList源码
版本 jdk-7u71-windows-x64 JavaSE7 ArrayList源码上：http://flyouwith.iteye.com/blog/2166890 /** * 从这个列表中移除所有c中包含元素 */ public boolean removeAll(Collection<?> c) {
Spring Security（08）——intercept-url配置 234390216 Spring Security intercept-url 访问权限访问协议请求方法
intercept-url配置目录 1.1 指定拦截的url 1.2 指定访问权限 1.3 指定访问协议 1.4 指定请求方法 1.1 &n
Linux环境下的oracle安装 jayung oracle
linux系统下的oracle安装本文档是Linux(redhat6.x、centos6.x、redhat7.x) 64位操作系统安装Oracle 11g(Oracle Database 11g Enterprise Edition Release 11.2.0.4.0 - 64bit Production)，本文基于各种网络资料精心整理而成，共享给有需要的朋友。如有问题可联系：QQ：52-7
hotspot虚拟机 leichenlei java HotSpot jvm 虚拟机文档
JVM参数 http://docs.oracle.com/javase/6/docs/technotes/guides/vm/index.html JVM工具 http://docs.oracle.com/javase/6/docs/technotes/tools/index.html JVM垃圾回收 http://www.oracle.com
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” noaighost Web node.js
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” 眼里的Node.JS 初初接触node是一年前的事，那时候年少不更事。还在纠结什么语言可以编写出牛逼的程序，想必每个码农都会经历这个月经性的问题：微信用什么语言写的？facebook为什么推荐系统这么智能，用什么语言写的？dota2的外挂这么牛逼，用什么语言写的？……用什么语言写这句话，困扰人也是阻碍
快速开发Android应用 rensanning android
Android应用开发过程中，经常会遇到很多常见的类似问题，解决这些问题需要花时间，其实很多问题已经有了成熟的解决方案，比如很多第三方的开源lib，参考 Android Libraries 和 Android UI/UX Libraries。编码越少，Bug越少，效率自然会高。但可能由于根本没听说过、听说过但没用过、特殊原因不能用、自己已经有了解决方案等等原因，这些成熟的解决
理解Java中的弱引用 tomcat_oracle java 工作面试
　不久之前，我面试了一些求职Java高级开发工程师的应聘者。我常常会面试他们说，“你能给我介绍一些Java中得弱引用吗？”，如果面试者这样说，“嗯，是不是垃圾回收有关的？”，我就会基本满意了，我并不期待回答是一篇诘究本末的论文描述。　　然而事与愿违，我很吃惊的发现，在将近20多个有着平均5年开发经验和高学历背景的应聘者中，居然只有两个人知道弱引用的存在，但是在这两个人之中只有一个人真正了
标签输出html标签" target="_blank">关于标签输出html标签 xshdch jsp
http://back-888888.iteye.com/blog/1181202 关于<c:out value=""/>标签的使用，其中有一个属性是escapeXml默认是true(将html标签当做转移字符，直接显示不在浏览器上面进行解析)，当设置escapeXml属性值为false的时候就是不过滤xml，这样就能在浏览器上解析html标签， &nb

经典卷积神经网络总结：Inception v1\v2\v3\v4、ResNet、ResNext、DenseNet、SENet等

Inception系列

1、Inception v1

1.1 核心思想

1.2 网络结构

1.3 实验结果

2、Inception v2

1.1 核心思想

1.2 网络结构

1.3 实验结果

3、Inception v3

1.1 核心思想

1.2 网络结构

1.3 实验结果

4、Inception v4

1.1 核心思想

1.2 网络结构

1.2.1 Inception-v4

1.2.2 Inception-resnet-v1

1.2.3 Inception-resnet-v2

1.3 实验结果

ResNet系列

5、ResNet

1.1 核心思想

1.2 网络结构

1.3 实验结果

6、ResNext

6.1 核心思想

6.2 网络结构

6.3 实验结果

其他

7、DenseNet

7.1 核心思想

7.2 网络结构

7.3 实验结果

8、SENet

8.1 核心思想

8.1.1 Squeeze

8.1.2 Excitation

8.1.3 Reweight

8.1.4 se block

8.2 网络结构

8.3 实验结果

你可能感兴趣的:(论文,深度学习)