deep_learninger

神经网络架构演进史：全面回顾从LeNet5到Googlenet，resnet，fractalnet,ENet十余种架构

转载于：http://www.open-open.com/lib/view/open1473213789568.html

LeNet5

LeNet5 诞生于 1994 年，是最早的卷积神经网络之一，并且推动了深度学习领域的发展。自从 1988 年开始，在许多次成功的迭代后，这项由 Yann LeCun 完成的开拓性成果被命名为 LeNet5（参见：Gradient-Based Learning Applied to Document Recognition）。

LeNet5 的架构基于这样的观点：（尤其是）图像的特征分布在整张图像上，以及带有可学习参数的卷积是一种用少量参数在多个位置上提取相似特征的有效方式。在那时候，没有 GPU 帮助训练，甚至 CPU 的速度也很慢。因此，能够保存参数以及计算过程是一个关键进展。这和将每个像素用作一个大型多层神经网络的单独输入相反。LeNet5 阐述了那些像素不应该被使用在第一层，因为图像具有很强的空间相关性，而使用图像中独立的像素作为不同的输入特征则利用不到这些相关性。

LeNet5 特征能够总结为如下几点：

卷积神经网络使用 3 个层作为一个序列：卷积、池化、非线性 → 这可能是自从这篇 paper 起图像深度学习的关键特征！

使用卷积提取空间特征

使用映射到空间均值下采样（subsample）

双曲正切（tanh）或 S 型（sigmoid）形式的非线性

多层神经网络（MLP）作为最后的分类器

层与层之间的稀疏连接矩阵避免大的计算成本

总体来看，这个网络是最近大量架构的起点，并且也给这个领域的许多带来了灵感。

间隔

从 1998 年到 2010 年神经网络处于孵化阶段。大多数人没有意识到它们不断增长的力量，与此同时其他研究者则进展缓慢。由于手机相机以及便宜的数字相机的出现，越来越多的数据可被利用。并且计算能力也在成长，CPU 变得更快，GPU 变成了多种用途的计算工具。这些趋势使得神经网络有所进展，虽然速度很慢。数据和计算能力使得神经网络能完成的任务越来越有趣。之后一切变得清晰起来......

Dan Ciresan Net

2010 年的时候，Dan Claudiu Ciresan 和 Jurgen Schmidhuber 发布了最早的 GPU 神经网络的一个实现。这个实现是在一块 NVIDIA GTX 280 图形处理器上运行 9 层的神经网络，包含前向与反向传播。

AlexNet

2012 年，Alex Krizhevsky 发表了 Alexet（参见：ImageNet Classification with Deep Convolutional Neural Networks），它是 LeNet 的一种更深更宽的版本，并以显著优势赢得了困难的 ImageNet 竞赛。

AlexNet 将 LeNet 的思想扩展到了更大的能学习到远远更复杂的对象与对象层次的神经网络上。这项工作的贡献有：

使用修正的线性单元（ReLU）作为非线性

在训练的时候使用 Dropout 技术有选择地忽视单个神经元，以避免模型过拟合

覆盖进行最大池化，避免平均池化的平均化效果

使用 GPU NVIDIA GTX 580 减少训练时间

在那时，GPU 相比 CPU 可以提供更多数量的核，训练时间可以提升 10 倍，这又反过来允许使用更大的数据集和更大的图像。

AlexNet 的成功掀起了一场小革命。卷积神经网络现在是深度学习的骨干，它已经变成了「现在能解决有用任务的大型神经网络」的代名词。

Overfeat

2013 年的 12 月，纽约大学的 Yann LeCun 实验室提出了 AlexNet 的衍生——Overfeat（参见：OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks）。这篇文章也提出了学习边界框（learning bounding box），并导致之后出现了很多研究这同一主题的论文。我相信学习分割对象比学习人工边界框更好。

VGG

来自牛津大学的 VGG 网络（参见：Very Deep Convolutional Networks for Large-Scale Image Recognition）是第一个在各个卷积层使用更小的 3×3 过滤器（filter），并把它们组合作为一个卷积序列进行处理的网络。

这看来和 LeNet 的原理相反，其中是大的卷积被用来获取一张图像中相似特征。和 AlexNet 的 9×9 或 11×11 过滤器不同，过滤器开始变得更小，离 LeNet 竭力所要避免的臭名昭著的 1×1 卷积异常接近——至少在该网络的第一层是这样。但是 VGG 巨大的进展是通过依次采用多个 3×3 卷积，能够模仿出更大的感受野（receptive field）的效果，例如 5×5 与 7×7。这些思想也被用在了最近更多的网络架构中，如 Inception 与 ResNet。

VGG 网络使用多个 3×3 卷积层去表征复杂特征。注意 VGG-E 的第 3、4、5 块（block）：256×256 和 512×512 个 3×3 过滤器被依次使用多次以提取更多复杂特征以及这些特征的组合。其效果就等于是一个带有 3 个卷积层的大型的 512×512 大分类器。这显然意味着有大量的参数与学习能力。但是这些网络训练很困难，必须划分到较小的网络，并逐层累加。这是因为缺少强大的方式对模型进行正则化，或者或多或少约束大量由于大量参数增长的搜索空间。

VGG 在许多层中都使用大特征尺寸，因为推断（inference）在运行时是相当耗费时间的。正如 Inception 的瓶颈（bottleneck）那样，减少特征的数量将节省一些计算成本。

网络中的网络（Network-in-network）

网络中的网络（NiN，参见论文：Network In Network）的思路简单又伟大：使用 1×1 卷积为卷积层的特征提供更组合性的能力。

NiN 架构在各个卷积之后使用空间 MLP 层，以便更好地在其他层之前组合特征。同样，你可以认为 1×1 卷积与 LeNet 最初的原理相悖，但事实上它们可以以一种更好的方式组合卷积特征，而这是不可能通过简单堆叠更多的卷积特征做到的。这和使用原始像素作为下一层输入是有区别的。其中 1×1 卷积常常被用于在卷积之后的特征映射上对特征进行空间组合，所以它们实际上可以使用非常少的参数，并在这些特征的所有像素上共享！

MLP 的能力能通过将卷积特征组合进更复杂的组（group）来极大地增加单个卷积特征的有效性。这个想法之后被用到一些最近的架构中，例如 ResNet、Inception 及其衍生技术。

NiN 也使用了平均池化层作为最后分类器的一部分，这是另一种将会变得常见的实践。这是通过在分类之前对网络对多个输入图像的响应进行平均完成的。

GoogLeNet 与 Inception

来自谷歌的 Christian Szegedy 开始追求减少深度神经网络的计算开销，并设计出 GoogLeNet——第一个 Inception 架构（参见：Going Deeper with Convolutions）。

那是在 2014 年秋季，深度学习模型正在变得在图像与视频帧的分类中非常有用。大多数怀疑者已经不再怀疑深度学习与神经网络这一次是真的回来了，而且将一直发展下去。鉴于这些技术的用处，谷歌这样的互联网巨头非常有兴趣在他们的服务器上高效且大规模庞大地部署这些架构。

Christian 考虑了很多关于在深度神经网络达到最高水平的性能（例如在 ImageNet 上）的同时减少其计算开销的方式。或者在能够保证同样的计算开销的前提下对性能有所改进。

他和他的团队提出了 Inception 模块：

初看之下这不过基本上是 1×1、3×3、5×5 卷积过滤器的并行组合。但是 Inception 的伟大思路是用 1×1 的卷积块（NiN）在昂贵的并行模块之前减少特征的数量。这一般被称为「瓶颈（bottleneck）」。这部分内容将在下面的「瓶颈层（bottleneck layer）」部分来解释。

GoogLeNet 使用没有 inception 模块的主干作为初始层，之后是与 NiN 相似的一个平均池化层加 softmax 分类器。这个分类器比 AlexNet 与 VGG 的分类器的运算数量少得多。这也促成一项非常有效的网络设计，参见论文：An Analysis of Deep Neural Network Models for Practical Applications。

瓶颈层（Bottleneck layer）

受到 NiN 的启发，Inception 的瓶颈层减少了每一层的特征的数量，并由此减少了运算的数量；所以可以保持较低的推理时间。在将数据通入昂贵的卷积模块之前，特征的数量会减少 4 倍。在计算成本上这是很大的节约，也是该架构的成功之处。

让我们具体验证一下。现在你有 256 个特征输入，256 个特征输出，假定 Inception 层只能执行 3×3 的卷积，也就是总共要完成 256×256×3×3 的卷积（将近 589,000 次乘积累加（MAC）运算）。这可能超出了我们的计算预算，比如说，在谷歌服务器上要以 0.5 毫秒运行该层。作为替代，我们决定减少需要进行卷积运算的特征的数量，也就是 64（即 256/4）个。在这种情况下，我们首先进行 256 -> 64 1×1 的卷积，然后在所有 Inception 的分支上进行 64 次卷积，接而再使用一个来自 64 -> 256 的特征的 1×1 卷积，现在运算如下：

256×64 × 1×1 = 16,000s

64×64 × 3×3 = 36,000s

64×256 × 1×1 = 16,000s

相比于之前的 60 万，现在共有 7 万的计算量，几乎少了近 10 倍。

而且，尽管我们做了更好的运算，我们在此层也没有损失其通用性（generality）。事实证明瓶颈层在 ImageNet 这样的数据集上已经表现出了顶尖水平，而且它也被用于接下来介绍的 ResNet 这样的架构中。

它之所以成功是因为输入特征是相关联的，因此可通过将它们与 1×1 卷积适当结合来减少冗余。然后，在小数量的特征进行卷积之后，它们能在下一层被再次扩展成有意义的结合。

Inception V3（还有 V2）

Christian 和他的团队都是非常高产的研究人员。2015 年 2 月，Batch-normalized Inception 被引入作为 Inception V2（参见论文：Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift）。Batch-normalization 在一层的输出上计算所有特征映射的均值和标准差，并且使用这些值规范化它们的响应。这相当于数据「增白（whitening）」，因此使得所有神经图（neural maps）在同样范围有响应，而且是零均值。在下一层不需要从输入数据中学习 offset 时，这有助于训练，还能重点关注如何最好的结合这些特征。

2015 年 12 月，该团队发布 Inception 模块和类似架构的一个新版本（参见论文：Rethinking the Inception Architecture for Computer Vision）。该论文更好地解释了原始的 GoogLeNet 架构，在设计选择上给出了更多的细节。原始思路如下：

通过谨慎建筑网络，平衡深度与宽度，从而最大化进入网络的信息流。在每次池化之前，增加特征映射。

当深度增加时，网络层的深度或者特征的数量也系统性的增加。

使用每一层深度增加在下一层之前增加特征的结合。

只使用 3×3 的卷积，可能的情况下给定的 5×5 和 7×7 过滤器能分成多个 3×3。看下图

因此新的 Inception 成为了：

也可以通过将卷积平整进更多复杂的模块中而分拆过滤器：

在进行 inception 计算的同时，Inception 模块也能通过提供池化降低数据的大小。这基本类似于在运行一个卷积的时候并行一个简单的池化层：

Inception 也使用一个池化层和 softmax 作为最后的分类器。

ResNet

2015 年 12 月又出现了新的变革，这和 Inception V3 出现的时间一样。ResNet 有着简单的思路：供给两个连续卷积层的输出，并分流（bypassing）输入进入下一层（参见论文：Deep Residual Learning for Image Recognition）。

这和之前的一些旧思路类似。但 ResNet 中，它们分流两个层并被应用于更大的规模。在 2 层后分流是一个关键直觉，因为分流一个层并未给出更多的改进。通过 2 层可能认为是一个小型分类器，或者一个 Network-In-Network。

这是第一次网络层数超过一百，甚至还能训练出 1000 层的网络。

有大量网络层的 ResNet 开始使用类似于 Inception 瓶颈层的网络层：

这种层通过首先是由带有更小输出（通常是输入的 1/4）的 1×1 卷积较少特征的数量，然后使用一个 3×3 的层，再使用 1×1 的层处理更大量的特征。类似于 Inception 模块，这样做能保证计算量低，同时提供丰富的特征结合。

ResNet 在输入上使用相对简单的初始层：一个带有两个池的 7×7 卷基层。可以把这个与更复杂、更少直觉性的 Inception V3、V4 做下对比。

ResNet 也使用一个池化层加上 softmax 作为最后的分类器。

关于 ResNet 的其他洞见每天都有发生：

ResNet 可被认为既是平行模块又是连续模块，把输入输出（inout）视为在许多模块中并行，同时每个模块的输出又是连续连接的。

ResNet 也可被视为并行模块或连续模块的多种组合（参见论文：Residual Networks are Exponential Ensembles of Relatively Shallow Networks）。

已经发现 ResNet 通常在 20-30 层的网络块上以并行的方式运行。而不是连续流过整个网络长度。

当 ResNet 像 RNN 一样把输出反馈给输入时，该网络可被视为更好的生物上可信的皮质模型（参见论文：Bridging the Gaps Between Residual Learning, Recurrent Neural Networks and Visual Cortex）。

Inception V4

这是 Christian 与其团队的另一个 Inception 版本，该模块类似于 Inception V3：

Inception V4 也结合了 Inception 模块和 ResNet 模块：

我认为该架构不太简洁，但也满满都是较少透明度的启发法（heuristics）。很难理解里面的选择，对作者们而言也难以解释。

考虑到网络的简洁性，可被轻易的理解并修正，那 ResNet 可能就更好了。

SqueezeNet

SqueezeNet（参见论文：SqueezeNet: AlexNet-level accuracy with 50x fewer parameters and <0.5MB model size）是最近才公布的，该架构是对 ResNet 与 Inception 里面概念的重新处理。一个更好的架构设计网络型号要小，而且参数还不需要复杂的压缩算法。

ENet

我们的团队计划结合近期公开的架构的所有特征，做出一个非常高效、低重的网络，使用较少的参数和计算就能达到顶尖结果。该网络架构被称为 ENet，由 Adam Paszke 设计。我们已经使用它进行过单像素标记和场景解析。

详细了解 ENet 可参见论文 ENet: A Deep Neural Network Architecture for Real-Time Semantic Segmentation。ENet 是一个编码加解码的网络。编码器是一个常规的 CNN 设计进行分类。解码器是一个增采样（upsampling）网络，将分类反向传播给原始图像进行分割。这只使用了神经网络，没有其他算法进行图像分割。

ENet 被设计为在开始时尽可能使用最小数量的资源。正是如此它有着如此小的脚本，编码器和解码器网络共占有 0.7 MB，16 fp 精度。即使这么小的型号，ENet 在分割的准确度上也类似于或者高于其他神经网络解决方案。

模块分析

对 CNN 模块的分析，该论文（Systematic evaluation of CNN advances on the ImageNet）已经做过了，里面的发现是非常有帮助的：

使用没有 batchnorm 的 ELU 非线性或者有 batchnorm 的 ReLU。

使用一个学习到的 RGB 的彩色空间转换。

使用线性学习率衰退策略。

使用平均和最大池化层的和。

使用大约 128 到 256 的 mini-batch 大小。如果这对你的 GPU 而言太大，将学习率按比例降到这个大小就行。

使用完全连接层作为卷积，并为做最后预测平均所有预测。

当研究增加训练集大小的时候，检测有一个 plateau 是否没有达到

数据的整洁要比数据大小更重要。

如果你不能增加输入图像的大小，在随后的层上减少步幅（stride），这样做有同样的效果。

如果你的网络有复杂和高度优化的架构，像是 GoogLeNet，那修改一定要谨慎。

其他值得关注的架构

FractalNet（参见论文：FractalNet: Ultra-Deep Neural Networks without Residuals）使用递归架构，它在 ImageNet 上没有进行测试。该架构是 ResNet 的衍生或者更通用的 ResNet。

未来

我们相信制作神经网络架构是深度学习领域发展的头等大事。我们团队高度推荐仔细阅读并理解文中提到的论文。

但有人可能会想为什么我们要投入如此多的时间制作架构？为什么不是用数据告诉我们使用什么？如何结合模块？这些问题很好，但仍在研究中，有一篇论文可以参考：Neural networks with differentiable structure。

要注意到，我们在本文中谈到的大部分架构都是关于计算机视觉的。类似神经网络架构在其他领域内也有开发，学习其他所有任务中的架构变革也是非常有趣的。

如果你对神经网络架构和计算性能的比较有兴趣，可参见论文：An Analysis of Deep Neural Network Models for Practical Applications。

欢迎加入本站公开兴趣群

商业智能与数据分析群

兴趣范围包括各种让数据产生价值的办法，实际应用案例分享与讨论，分析工具，ETL工具，数据仓库，数据挖掘工具，报表系统等全方位知识

QQ群：81035754

从亏损到盈利：用Python实现WVAD策略，量价结合更靠谱程序化交易助手量化软件 Python 程序化交易 Python 量化炒股 PTrade QMT 量化交易量化软件 deepseek
从亏损到盈利：用Python实现WVAD策略，量价结合更靠谱那个让我夜不能寐的亏损账户去年有个客户老张来找我，50万本金半年亏了15万。他红着眼睛问我："为什么我跟着大V买卖还是亏？"我看了他的交易记录就明白了——全是凭感觉操作，涨了追，跌了割，完全被市场情绪牵着鼻子走。这让我想起自己刚入行时，盯着分时图眼睛发酸的日子。直到有天看到营业部老总桌上那本《量化交易入门》，才恍然大悟：原来职业玩家都在用
SQL 多个字段的值拼接成Josn 小二不二~ mysql
实际开发中，我们需要把一张表的多个字段值复制到一张新表里的一个字段来存储，少量数据我们可以通过sql语句来处理语法结构如下：SELECTColumnName1,CONCAT('{anytName:"',yourColumnName,'",anyName:"',yourColunName,'"}')asextFROMTableNameGROUPBYColumnName1;注意多个字段间不要换行，仔细
同花顺复权怎么设置？股价真实走势还原！
同花顺复权怎么设置？股价真实走势还原！复权是什么？为什么炒股必须懂这个？很多新手打开股票软件，看到贵州茅台从几十块涨到上千块，第一反应是"哇，这股票涨了上百倍！"但如果你看的是不复权的价格，这个结论就大错特错了。复权就是把股票历史上的分红、送股、配股等因素考虑进去，还原股价的真实走势。比如一只股票现在价格是10元，去年10送10（每10股送10股），那么去年这个时候的实际股价应该是20元，而不是软
《王者荣耀》游戏优化的AI革命：从性能提升到生态治理 AI编程员 001AI传统＆编程语言 002AI编程工具汇总 003AI编程作品汇总人工智能笔记学习深度学习游戏
目录：AI技术进化历程：使用时间轴和表格介绍“绝悟”AI从基础操作到职业水平的成长过程，以及“开悟”平台的技术外溢效应。性能优化策略：通过终端适配方案表格，分析预计算烘焙、多线程优化等技术如何解决亿级用户的设备兼容问题。游戏环境治理：列举AI接管、违规检测等机制如何应对挂机、摆烂等破坏公平性的行为。产业技术外溢：说明游戏AI如何向智能制造、自动驾驶等领域输出协作决策模型。伦理争议：探讨“超规格能力
【LeetCode 热题 100】234. 回文链表——快慢指针+反转链表 xumistore LeetCode leetcode 链表算法 java
Problem:234.回文链表题目：给你一个单链表的头节点head，请你判断该链表是否为回文链表。如果是，返回true；否则，返回false。文章目录整体思路完整代码时空复杂度时间复杂度：O(N)空间复杂度：O(1)整体思路这段代码旨在解决一个经典的链表问题：回文链表(PalindromeLinkedList)。问题要求判断一个单链表是否是回文结构，即从前向后读和从后向前读的序列是否相同。例如1
游戏可观测性：如何打造稳定高效的后台服务你一身傲骨怎能输游戏开发技术专栏可观测性
游戏服务可观测性能力建设摘要游戏服务的可观测性建设是保障稳定运营和高效排障的关键。现代游戏采用分布式架构，需要通过指标(Metrics)、日志(Logs)、追踪(Traces)三大支柱实现系统监控。核心能力包括：指标监控：系统资源、服务性能、业务数据日志分析：访问日志、业务日志、异常日志链路追踪：跨服务调用追踪和业务流程跟踪告警与可视化：实时告警、仪表盘、根因分析技术方案建议：指标采集：Prome
Yuzu模拟器Vulkan模式配置指南与性能优化实战 mmoo_python 性能优化 windows
Yuzu模拟器Vulkan模式配置指南与性能优化实战前言：VulkanAPI为何成为模拟器性能突破口作为当前最热门的Switch模拟器，Yuzu团队近期向全体用户开放了VulkanAPI支持功能。这项技术革新不仅解决了长期困扰AMD显卡用户的兼容性问题，更通过底层渲染架构的革新，为复杂3D游戏带来显著性能提升。本文将深度解析Vulkan模式的配置流程，结合实际测试数据揭示性能优化秘诀，助力玩家畅玩
十五天Python系统学习教程第十五天
Day15详细学习计划：Python综合项目实战与学习路径规划学习目标✅综合运用前14天知识完成完整项目开发✅掌握生产级项目架构设计与优化技巧✅制定后续学习计划与技能提升方案✅理解Python工程化开发最佳实践一、实战项目：企业级任务管理系统1.1项目需求核心功能：用户认证（JWT令牌）任务CRUD与状态流转（待办/进行中/已完成）任务分类与优先级管理数据统计可视化（任务完成率/耗时分析）邮件通知
前端开发常见问题（从布局到性能优化）白仑色前端系列前端开发 HTML CSS JavaScript 性能优化响应式布局跨域
前端开发作为连接用户与产品的重要桥梁，涉及HTML、CSS和JavaScript的综合运用。但在实际开发过程中，开发者常常会遇到各种“坑”，比如页面布局异常、跨域请求失败、性能瓶颈、浏览器兼容性差等问题。本文将围绕前端开发中常见的十大问题展开讲解：页面布局相关问题（盒模型、浮动、Flex布局）CSS样式冲突与继承JavaScript异步处理（Promise、async/await）跨域问题及解决方
Vulkan工厂论：高性能渲染架构的终极秘密你一身傲骨怎能输渲染管线架构
文章摘要Vulkan通过"现代自动化工厂"模式打造高性能渲染引擎：多线程并行处理(多个工头)、批量提交指令(批量订单)、自主资源管理(智能仓库)、灵活管线配置(可调流水线)和高效同步机制。相比传统API"老式工厂"的单线程指挥模式，Vulkan让CPU(工头)和GPU(工人)协同更高效，消除等待时间，充分发挥硬件性能，实现极致渲染效率。这套平台无关的设计适用于各种系统环境，为高质量实时渲染提供基础
LangChain核心组件全解析北辰alk AI langchain
文章目录一、核心架构组件1.模型I/O(ModelI/O)2.检索(Retrieval)3.记忆(Memory)4.链(Chains)5.代理(Agents)二、关键支持组件1.回调系统(Callbacks)2.文档加载器(DocumentLoaders)3.文本分割器(TextSplitters)4.向量存储(VectorStores)三、高级架构组件1.工具集成(Tools)2.工作流(Wor
AI LLM架构与原理 - 预训练模型深度解析陈乔布斯 AI 人工智能大模型人工智能架构机器学习深度学习大模型 Python AI
一、引言在人工智能领域，大型语言模型（LLM）的发展日新月异，预训练模型作为LLM的核心技术，为模型的强大性能奠定了基础。预训练模型通过在大规模无标注数据上进行学习，能够捕捉语言的通用模式和语义信息，从而在各种自然语言处理任务中展现出卓越的能力。本文将深入探讨AILLM架构与原理中预训练模型的方法论和技术，结合图解、代码解析和实际案例，为读者呈现一个全面且易懂的预训练模型图景。二、预训练模型的基本
Linux Vim 如何使用 BACKLS gradle vim
LinuxVim最全面教程目录介绍安装Vim基本操作启动与退出插入模式移动光标删除、复制和粘贴撤销与重做高级操作查找与替换多文件编辑宏与自动化插件管理配置Vim编辑vimrc常用配置示例总结介绍Vim是一个高度可配置的文本编辑器，适用于从日常文本编辑到复杂的编程任务。它的前身是vi编辑器，具有强大的文本处理能力和灵活的扩展性。安装Vim在不同的Linux发行版上安装Vim的方法略有不同。以下是一些
[创业之路-484]：企业经营层 - 职场人如何识别积极的工作环境：信任机制：从「分工协作」到「全能防御」；目标聚焦：从「价值创造」到「风险规避」；系统进化：从「熵减秩序」到「熵增混乱」。
前言：在一个分工明确安全可靠公平化的系统中，每个人只需要认真完成自己的目标，把其他环节交给受信任的队友，技术人只要关注技术，不需要防范被别人算计和坑害或吃亏。在一个不可靠不安全人治危机四伏的系统中，每个人不仅需要完成自己的目标，还需要把自己变成全才，以避免自己的付出在脱节的环节被淹没，还要关注各种无关的隐情，以避免在信息不对称时别忽悠，技术人员不仅仅要关注技术，还要人事，以防止一不小心暗算与坑害。
[创业之路-475]：企业经营层 - 苏超的火爆与小米成功背后的商业模式共同性观察文火冰糖的硅基工坊创业之路重构创业业务经营
苏超的火爆与小米成功背后的商业模式共同性在于二者均通过“群众参与+生态联动+文化赋能”构建了可持续的商业循环，具体体现在以下三个层面：一、群众参与：从“小众狂欢”到“全民共创”苏超的草根基因非职业化参赛：每支队伍职业运动员不超过3人，500余名球员来自各行各业（如公司职员、教师、大学生），年龄跨度16-40岁，彻底打破“专业壁垒”，让足球回归大众运动本质。低门槛观赛：票价亲民，第五轮场均现场观战人
PEFT（参数高效微调）技术全面解析：原理、方法与实战应用
文章目录一、PEFT核心概念解析1.1PEFT技术定义1.2与传统微调的对比二、为什么需要PEFT技术？2.1大模型时代的核心挑战2.2PEFT的核心优势三、主流PEFT方法技术剖析3.1代表性PEFT方法对比3.2关键技术实现细节3.2.1LoRA（Low-RankAdaptation）3.2.2Adapter模块3.3性能对比基准四、PEFT实战应用指南4.1使用HuggingFacePEFT
深度学习微调中的优化器全景解析：从理论到实践北辰alk AI 深度学习人工智能
文章目录一、基础优化器：深度学习微调的基石1.1随机梯度下降（SGD）1.2AdaGrad（自适应梯度算法）二、自适应优化器：现代深度学习的标配2.1RMSProp2.2Adam（自适应矩估计）三、大模型微调专用优化器3.1LAMB（Layer-wiseAdaptiveMoments）3.2Sophia（二阶优化启发）四、优化器性能对比研究4.1在GLUE基准上的表现（BERT-base微调）4.
Spring MVC 框架解析 Java廖志伟 Java场景面试宝典 Spring MVC Web Development Framework Java Web Applications
我是廖志伟，一名Java开发工程师、《Java项目实战——深入理解大型互联网企业通用技术》（基础篇）、（进阶篇）、（架构篇）清华大学出版社签约作家、Java领域优质创作者、CSDN博客专家、阿里云专家博主、51CTO专家博主、产品软文专业写手、技术文章评审老师、技术类问卷调查设计师、幕后大佬社区创始人、开源项目贡献者。拥有多年一线研发和团队管理经验，研究过主流框架的底层源码(Spring、Spri
JVM与Spring Boot核心解析 Java廖志伟 Java场景面试宝典 Java JVM Performance Optimization
我是廖志伟，一名Java开发工程师、《Java项目实战——深入理解大型互联网企业通用技术》（基础篇）、（进阶篇）、（架构篇）清华大学出版社签约作家、Java领域优质创作者、CSDN博客专家、阿里云专家博主、51CTO专家博主、产品软文专业写手、技术文章评审老师、技术类问卷调查设计师、幕后大佬社区创始人、开源项目贡献者。拥有多年一线研发和团队管理经验，研究过主流框架的底层源码(Spring、Spri
Spring MVC 架构解析 Java廖志伟 Java场景面试宝典 Spring MVC Web Development Java Frameworks
我是廖志伟，一名Java开发工程师、《Java项目实战——深入理解大型互联网企业通用技术》（基础篇）、（进阶篇）、（架构篇）清华大学出版社签约作家、Java领域优质创作者、CSDN博客专家、阿里云专家博主、51CTO专家博主、产品软文专业写手、技术文章评审老师、技术类问卷调查设计师、幕后大佬社区创始人、开源项目贡献者。拥有多年一线研发和团队管理经验，研究过主流框架的底层源码(Spring、Spri
PyTorch 详细安装教程及核心API使用指南慕婉0307 pytorch pytorch 人工智能 python
一、PyTorch简介PyTorch是由FacebookAIResearch(FAIR)于2016年开发的开源深度学习框架，现已成为学术界和工业界最受欢迎的深度学习工具之一。其核心优势在于采用了动态计算图（DynamicComputationGraph，又称"define-by-run"机制），这使得开发者能够像编写普通Python代码一样构建神经网络，并在运行时动态调整计算图结构，大大提高了研究
聊聊近期三大软件供应链安全威胁墨菲安全软件供应链安全企业安全建设开源组件 AI 投毒攻击
我们对近期（大概近三个月吧）全球范围内发生的软件供应链安全事件进行了一些总结和分析，我们发现被提的次数最多的主要是三大类的风险：1）商业软件供应链攻击：商业软件开发过程不透明，开发商安全水平有限，加上过去企业对商业软件的安全缺乏强制的要求，导致今天商业采购的软件已经成为企业安全木桶的最短板。2）开源组件的投毒攻击：从近期大量曝光的安全事件分析可以发现，开源组件的投毒攻击是目前黑灰产最常用的攻击手段
电机试验平台如何赋能研发?功能应用指南
电机试验平台作为现代工业生产和科研开发中的重要设备，其功能应用涵盖了从基础性能测试到复杂系统验证的多个领域。随着电机技术的快发展，电机试验平台的功能不断扩展，应用场景也日益广泛。本文将深入探讨电机试验平台的核心功能、关键技术以及在不同行业中的实际应用，为读者提供技术解析和实践参考。一、电机试验平台的核心功能电机试验平台的核心功能主要体现在以下几个方面：1.性能测试功能：这是电机试验平台基本的功能。
探究 Java SPI 原理与实战_打造高扩展性的应用架构随风九天 java java 架构开发语言 Java SPI
1.引言1.1为什么需要模块化与扩展性设计在大型软件系统中，良好的架构设计是至关重要的。模块化和可扩展性设计使得我们能够：将功能划分为独立的模块；在不修改原有代码的前提下引入新功能；实现松耦合、高内聚的设计目标。Java提供了多种机制来支持这种设计，其中SPI（ServiceProviderInterface）是一种轻量级的服务发现机制，广泛用于构建插件化系统。1.2Java中的常见扩展机制概述扩
一键将 SQL 转为 Java 实体类，全面支持 MySQL / PostgreSQL / Oracle！ A__tao sql java mysql
一键将SQL表结构转为Java实体类，全面支持MySQL/PostgreSQL/Oracle！还在手动根据SQL表结构去写Java实体类？字段一个个敲、类型一个个改、注释一个个补，既浪费时间又容易出错！现在，一款强大而简洁的开发神器来了：SQL转Java实体类在线工具（支持MySQL、PostgreSQL、Oracle）适用人群Java后端开发工程师数据库表结构设计者ORM模型搭建者（如Hiber
OpenSSL 与 OpenSSH 离线升级至最新版本 9.9p2
OpenSSL与OpenSSH离线升级至最新版本9.9p2一、前言在网络安全日益重要的今天，保持系统中的OpenSSL和OpenSSH为最新版本是至关重要的。然而，在一些内网环境中，由于网络限制，无法直接从互联网上下载最新的软件包进行升级。本文将详细介绍如何在离线环境下将OpenSSL和OpenSSH升级到最新版本9.9p2。二、准备工作2.1下载所需软件包https://wwyq.lanzouo
【Python 算法零基础 4.排序 ⑦ 桶排序】 L_cl Python常见算法排序算法数据结构算法
草木不争高，争的是生生不息——25.5.26选择排序回顾①遍历数组：从索引0到n-1（n为数组长度）。②每轮确定最小值：假设当前索引i为最小值索引min_index。从i+1到n-1遍历，若找到更小元素，则更新min_index。③交换元素：若min_index≠i，则交换arr[i]与arr[min_index]。'''①遍历数组：从索引 0 到 n-1（n 为数组长度）。②每轮确定最小值：假设
C#企业级API版本控制实战：构建可扩展的微服务架构墨夶 C#学习资料架构 c#微服务
第一章：企业级API版本控制的生死时速1.1版本控制的三重门//版本控制决策树publicenumVersionControlStrategy{[Description("URI路径版本控制")]UriPath=1,[Description("自定义HTTP头版本控制")]CustomHeader=2,[Description("Accept媒体类型版本控制")]MediaType=3}publi
JIEJIE.NET：.NET代码混淆终极实战指南墨夶 C#学习资料 .net windows
第一章：JIEJIE.NET核心架构解析1.1IL代码分析引擎//IL指令分析器核心逻辑publicclassILAnalyzer{publicvoidAnalyzeMethod(MethodBodymethodBody){//提取控制流图varcontrolFlowGraph=BuildControlFlowGraph(methodBody);//识别敏感结构varsensitiveStruct
【Python 算法零基础 4.排序 ⑥ 快速排序】 L_cl Python常见算法排序算法算法
既有锦绣前程可奔赴，亦有往日岁月可回首——25.5.25选择排序回顾①遍历数组：从索引0到n-1（n为数组长度）。②每轮确定最小值：假设当前索引i为最小值索引min_index。从i+1到n-1遍历，若找到更小元素，则更新min_index。③交换元素：若min_index≠i，则交换arr[i]与arr[min_index]。'''①遍历数组：从索引 0 到 n-1（n 为数组长度）。②每轮确定
怎么样才能成为专业的程序员？ cocos2d-x小菜编程 PHP
如何要想成为一名专业的程序员？仅仅会写代码是不够的。从团队合作去解决问题到版本控制，你还得具备其他关键技能的工具包。当我们询问相关的专业开发人员，那些必备的关键技能都是什么的时候，下面是我们了解到的情况。关于如何学习代码，各种声音很多，然后很多人就被误导为成为专业开发人员懂得一门编程语言就够了？！呵呵，就像其他工作一样，光会一个技能那是远远不够的。如果你想要成为
java web开发高并发处理 BreakingBad java Web 并发开发处理高
java处理高并发高负载类网站中数据库的设计方法（java教程,java处理大量数据，java高负载数据）一：高并发高负载类网站关注点之数据库没错,首先是数据库,这是大多数应用所面临的首个SPOF。尤其是Web2.0的应用，数据库的响应是首先要解决的。一般来说MySQL是最常用的，可能最初是一个mysql主机，当数据增加到100万以上，那么，MySQL的效能急剧下降。常用的优化措施是M-S（
mysql批量更新 ekian mysql
mysql更新优化：一版的更新的话都是采用update set的方式，但是如果需要批量更新的话，只能for循环的执行更新。或者采用executeBatch的方式，执行更新。无论哪种方式，性能都不见得多好。三千多条的更新，需要3分多钟。查询了批量更新的优化，有说replace into的方式，即： replace into tableName(id,status) values
微软BI（3） 18289753290 微软BI SSIS
1) Q：该列违反了完整性约束错误；已获得 OLE DB 记录。源:“Microsoft SQL Server Native Client 11.0” Hresult: 0x80004005 说明:“不能将值 NULL 插入列 'FZCHID'，表 'JRB_EnterpriseCredit.dbo.QYFZCH'；列不允许有 Null 值。INSERT 失败。”。 A：一般这类问题的存在是
Java中的List g21121 java
List是一个有序的 collection（也称为序列）。此接口的用户可以对列表中每个元素的插入位置进行精确地控制。用户可以根据元素的整数索引（在列表中的位置）访问元素，并搜索列表中的元素。与 set 不同，列表通常允许重复
读书笔记永夜-极光读书笔记
1. K是一家加工厂,需要采购原材料,有A,B,C,D 4家供应商,其中A给出的价格最低,性价比最高,那么假如你是这家企业的采购经理,你会如何决策? 传统决策: A:100%订单 B,C,D:0% &nbs
centos 安装 Codeblocks 随便小屋 codeblocks
1.安装gcc,需要c和c++两部分,默认安装下,CentOS不安装编译器的,在终端输入以下命令即可yum install gccyum install gcc-c++ 2.安装gtk2-devel,因为默认已经安装了正式产品需要的支持库,但是没有安装开发所需要的文档.yum install gtk2* 3. 安装wxGTK yum search w
23种设计模式的形象比喻 aijuans 设计模式
1、ABSTRACT FACTORY—追MM少不了请吃饭了，麦当劳的鸡翅和肯德基的鸡翅都是MM爱吃的东西，虽然口味有所不同，但不管你带MM去麦当劳或肯德基，只管向服务员说“来四个鸡翅”就行了。麦当劳和肯德基就是生产鸡翅的Factory 　　工厂模式：客户类和工厂类分开。消费者任何时候需要某种产品，只需向工厂请求即可。消费者无须修改就可以接纳新产品。缺点是当产品修改时，工厂类也要做相应的修改。如：
开发管理 CheckLists aoyouzi 开发管理 CheckLists
开发管理 CheckLists(23) -使项目组度过完整的生命周期开发管理 CheckLists(22) -组织项目资源开发管理 CheckLists(21) -控制项目的范围开发管理 CheckLists(20) -项目利益相关者责任开发管理 CheckLists(19) -选择合适的团队成员开发管理 CheckLists(18) -敏捷开发 Scrum Master 工作开发管理 C
js实现切换百合不是茶 JavaScript 栏目切换
js主要功能之一就是实现页面的特效,窗体的切换可以减少页面的大小,被门户网站大量应用思路: 1,先将要显示的设置为display:bisible 否则设为none 2,设置栏目的id ,js获取栏目的id,如果id为Null就设置为显示 3,判断js获取的id名字;再设置是否显示代码实现: html代码: <di
周鸿祎在360新员工入职培训上的讲话 bijian1013 感悟项目管理人生职场
这篇文章也是最近偶尔看到的，考虑到原博客发布者可能将其删除等原因，也更方便个人查找，特将原文拷贝再发布的。“学东西是为自己的，不要整天以混的姿态来跟公司博弈，就算是混，我觉得你要是能在混的时间里，收获一些别的有利于人生发展的东西，也是不错的，看你怎么把握了”，看了之后，对这句话记忆犹新。 &
前端Web开发的页面效果 Bill_chen html Web Microsoft
1.IE6下png图片的透明显示： <img src="图片地址" border="0" style="Filter.Alpha(Opacity)=数值(100),style=数值(3)"/> 或在<head></head>间加一段JS代码让透明png图片正常显示。 2.<li>标
【JVM五】老年代垃圾回收：并发标记清理GC(CMS GC) bit1129 垃圾回收
CMS概述并发标记清理垃圾回收(Concurrent Mark and Sweep GC）算法的主要目标是在GC过程中，减少暂停用户线程的次数以及在不得不暂停用户线程的请夸功能，尽可能短的暂停用户线程的时间。这对于交互式应用，比如web应用来说，是非常重要的。 CMS垃圾回收针对新生代和老年代采用不同的策略。相比同吞吐量垃圾回收，它要复杂的多。吞吐量垃圾回收在执
Struts2技术总结白糖_ struts2
必备jar文件早在struts2.0.*的时候，struts2的必备jar包需要如下几个： commons-logging-*.jar Apache旗下commons项目的log日志包 freemarker-*.jar
Jquery easyui layout应用注意事项 bozch jquery 浏览器 easyui layout
在jquery easyui中提供了easyui-layout布局，他的布局比较局限，类似java中GUI的border布局。下面对其使用注意事项作简要介绍：如果在现有的工程中前台界面均应用了jquery easyui，那么在布局的时候最好应用jquery eaysui的layout布局，否则在表单页面（编辑、查看、添加等等）在不同的浏览器会出
java-拷贝特殊链表：有一个特殊的链表，其中每个节点不但有指向下一个节点的指针pNext，还有一个指向链表中任意节点的指针pRand，如何拷贝这个特殊链表？ bylijinnan java
public class CopySpecialLinkedList { /** * 题目：有一个特殊的链表，其中每个节点不但有指向下一个节点的指针pNext，还有一个指向链表中任意节点的指针pRand，如何拷贝这个特殊链表？拷贝pNext指针非常容易，所以题目的难点是如何拷贝pRand指针。假设原来链表为A1 -> A2 ->... -> An，新拷贝
color Chen.H JavaScript html css
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <HTML> <HEAD>&nbs
[信息与战争]移动通讯与网络 comsci 网络
两个坚持:手机的电池必须可以取下来光纤不能够入户,只能够到楼宇建议大家找这本书看看:<&
oracle flashback query(闪回查询) daizj oracle flashback query flashback table
在Oracle 10g中，Flash back家族分为以下成员： Flashback Database Flashback Drop Flashback Table Flashback Query(分Flashback Query,Flashback Version Query，Flashback Transaction Query) 下面介绍一下Flashback Drop 和Flas
zeus持久层DAO单元测试 deng520159 单元测试
zeus代码测试正紧张进行中,但由于工作比较忙,但速度比较慢.现在已经完成读写分离单元测试了,现在把几种情况单元测试的例子发出来,希望有人能进出意见,让它走下去. 本文是zeus的dao单元测试: 1.单元测试直接上代码 package com.dengliang.zeus.webdemo.test; import org.junit.Test; import o
C语言学习三printf函数和scanf函数学习 dcj3sjt126com c printf scanf language
printf函数 /* 2013年3月10日20:42:32 地点：北京潘家园功能：目的：测试%x %X %#x %#X的用法 */ # include <stdio.h> int main(void) { printf("哈哈！\n"); // \n表示换行 int i = 10; printf
那你为什么小时候不好好读书? dcj3sjt126com life
dady, 我今天捡到了十块钱, 不过我还给那个人了 good girl! 那个人有没有和你讲thank you啊没有啦....他拉我的耳朵我才把钱还给他的, 他哪里会和我讲thank you 爸爸, 如果地上有一张5块一张10块你拿哪一张呢.... 当然是拿十块的咯... 爸爸你很笨的, 你不会两张都拿爸爸为什么上个月那个人来跟你讨钱, 你告诉他没
iptables开放端口 Fanyucai linux iptables 端口
1，找到配置文件 vi /etc/sysconfig/iptables 2，添加端口开放，增加一行，开放18081端口 -A INPUT -m state --state NEW -m tcp -p tcp --dport 18081 -j ACCEPT 3，保存 ESC :wq! 4，重启服务 service iptables
Ehcache（05）——缓存的查询 234390216 排序 ehcache 统计 query
缓存的查询目录 1. 使Cache可查询 1.1 基于Xml配置 1.2 基于代码的配置 2 指定可搜索的属性 2.1 可查询属性类型 2.2 &
通过hashset找到数组中重复的元素 jackyrong hashset
如何在hashset中快速找到重复的元素呢?方法很多，下面是其中一个办法： int[] array = {1,1,2,3,4,5,6,7,8,8}; Set<Integer> set = new HashSet<Integer>(); for(int i = 0
使用ajax和window.history.pushState无刷新改变页面内容和地址栏URL lanrikey history
后退时关闭当前页面 <script type="text/javascript"> jQuery(document).ready(function ($) { if (window.history && window.history.pushState) {
应用程序的通信成本 netkiller.github.com 虚拟机应用服务器陈景峰 netkiller neo
应用程序的通信成本什么是通信一个程序中两个以上功能相互传递信号或数据叫做通信。什么是成本这是是指时间成本与空间成本。时间就是传递数据所花费的时间。空间是指传递过程耗费容量大小。都有哪些通信方式全局变量线程间通信共享内存共享文件管道 Socket 硬件（串口，USB）等等全局变量全局变量是成本最低通信方法，通过设置
一维数组与二维数组的声明与定义恋洁e生二维数组一维数组定义声明初始化
/** * */ package test20111005; /** * @author FlyingFire * @date:2011-11-18 上午04:33:36 * @author ：代码整理 * @introduce :一维数组与二维数组的初始化 *summary： */ public c
Spring Mybatis独立事务配置 toknowme mybatis
在项目中有很多地方会使用到独立事务，下面以获取主键为例（1）修改配置文件spring-mybatis.xml  <tx:annotation-driven transaction-manager="transactionManager" /> &n
更新Anadroid SDK Tooks之后，Eclipse提示No update were found xp9802 eclipse
使用Android SDK Manager 更新了Anadroid SDK Tooks 之后，打开eclipse提示 This Android SDK requires Android Developer Toolkit version 23.0.0 or above, 点击Check for Updates 检测一会后提示 No update were found

神经网络架构演进史：全面回顾从LeNet5到Googlenet，resnet，fractalnet,ENet十余种架构

你可能感兴趣的:(神经网络架构演进史：全面回顾从LeNet5到Googlenet，resnet，fractalnet,ENet十余种架构)