PaperWeekly

贝叶斯神经网络最新综述

©PaperWeekly 原创 · 作者｜尹娟

学校｜北京理工大学博士生

研究方向｜随机过程、复杂网络

论文标题：Bayesian Neural Networks: An Introduction and Survey

论文链接：https://arxiv.org/abs/2006.12024

引言

下一代神经网络的演化方向是什么？最近两年在北京举行的智源大会都谈到了这个问题，可能性的一个答案是贝叶斯神经网络，因为它可以对已有的知识进行推断。逻辑推理作用就是可以对已有的知识进行延伸扩展。

举个例子，如果询问训练完善的 AI 模型的一个问题，“在乌克兰，新西兰，新加坡，阿尔及利亚这四个国家里，哪一个国家位于中国的最西边”，这个问题的难点就在于那个“最”字，如果是传统的 AI 模型可能会蒙圈，因为乌克兰和阿尔及利亚都是在中国的西边，因为现有的训练的知识并不足以告诉它哪个是最西边，经过 BNN（贝叶斯神经网络）训练的模型可能会从经纬度，气温等其他信息进行推断得出一个阿尔及利亚在中国的最西边这个答案。

BNN 的最新进展值得每个 AI 研究者紧密关注，本文就是一篇新鲜出炉的关于 BNN 的综述，为了方便读者的阅读，我按照自己的节奏和想法重新梳理了一下这篇文章。

神经网络

先回顾一下传统神经网络，论文限于篇幅的原因有一些重要的细节没有展开，而且我一直觉得神经网络中一个完善的形式应该是通过矩阵的形式表现出来，同理矩阵形式 BP 反向传播原理也能一目了然。

2.1 标量形式的神经网络

下图为标量形式的神经网络，并且为了说明方便不考虑偏置项。

给定一个训练样本，假设模型输出为，则均方误差为：

根据梯度下降法更新模型的参数，则各个参数的更新公式为：

链式法则求解会有如下推导形式：

可以发现标量视角下的神经网络更新参数求解梯度会给人一种很混乱的感觉。

2.2 矩阵形式的神经网络

下图为 3 层不考虑偏置项的全连接神经网络示意图：

上图可以描述为如下公式：

损失函数如下所示：

优化的目标函数为：

其中，表示的权重矩阵，为隐层向量。

2.2.1 随机梯度

采用随机梯度下降法求解优化深度神经网络的问题，如下式所示：

上式中，主要的问题是在于计算，通常采用的方法是链式法则求导。而反向传播就是一种很特殊的链式法则的方法。反向传播非常有效的避免大量的重复性的计算。

2.2.2 无激活函数的神经网络

L 层神经网络的无激活函数的目标函数定义为：

则各个层的梯度有如下形式：

其中，。

2.2.3 含有激活函数的神经网络

首先，考虑 2 层的有激活函数的神经网络，目标函数定义为：

各个层参数的梯度为：

其中，，，是导数。再考虑 L 层有激活函数的神经网络，目标函数定义为：

其中，

并且。

我们可以发现矩阵形式的求解参数梯度感官上更加的简便明了（公式推导会让人头大，不过推导过程是严格的）。

2.3 激活函数

神经网络中激活函数的作用是用来加入非线性因素以此来提高模型的表达能力，因为没有激活函数神经网络训练出来的模型是一种线性模型，这样对于回归和分类任务来说其表达能力不够。

下图为神经网络中常用的激活函数示例，其中蓝色线条为激活函数图像，红色线条为激活函数的导数图像。这些函数分别是 Sigmoid(x)，Tanh(x)，ReLU(x)，Leaky-ReLU(x)。

Sigmod 函数定义域为，值域为，过（0,1）点，单调递增，其函数和导数形式分别为：

Tanh 函数是一种双曲正切函数，定义域为 R，值域为，函数图像为过原点严格单调递增，其函数和导数形式分别为：

ReLU 函数又称线性整流函数其，定义域为 R，值域为，其函数和导数形式为：

Leak-ReLU 函数是 ReLU 函数的改进版本，定义域为 R，值域为 R，其函数和导数形式为：

DNN和BNN的区别

BNN 跟 DNN 的不同之处在于，其权重参数是随机变量，而非确定的值，它是通过概率建模和神经网络结合起来，并能够给出预测结果的置信度。其先验用来描述关键参数，并作为神经网络的输入。

神经网络的输出用来描述特定的概率分布的似然。通过采样或者变分推断来计算后验分布。这对于很多问题来说非常关键，由于 BNN 具有不确定性量化能力，所以具有非常强的鲁棒性。如下图所示为 DNN 和 BNN 的之间的差异：

如下图所示贝叶斯神经网络的回归与简单的神经网络方法的回归的进行了比较，并说明了测量不确定度的重要性。

虽然这两种方法在训练数据的范围内都表现良好，在需要外推法的情况下，概率方法提供了函数输出的完整分布，而不是由神经网络提供的点估计。概率方法提供的输出分布允许开发可信的模型，因为它们可以识别预测中的不确定性。

贝叶斯模型可以通过预测器的集合来捕捉数据驱动模型的内在认知下的不确定性；它通过将算法参数（以及相应的预测）转化为随机变量来实现。

在神经网络中，对于具有输入和网络权重参数的神经网络，则从网络权重的先验度量开始。通过似然评估权重为的网络与数据的拟合度。

贝叶斯推理通过 Bayes 定理将似然和先验相结合，得到权重空间的后验测度。神经网络的标准训练可以看作是贝叶斯推理的一种近似。

对于 NNs 这样的非线性/非共轭模型来说，精确地获得后验分布是不可能的。后验分布的渐近精确样本可以通过蒙特卡洛模拟来获得，对于一个新输入的样本贝叶斯预测都是从 n 个神经网络的集合中获得的，每个神经网络的权重都来自于其后验分布：

论文中这这部分作者没有详细展开说明，不过可以从公式可以推测出来表示的是已知训练数据集的情况下，贝叶斯神经网络给出的样本的预测，表示是不同权重参数的给出预测的期望，然后用蒙特卡洛模拟将期望形式转化成离散的平均加和的形式。

BNN的起源

MacKay 在 1992 年公布的文章《Bayesian interpolation》展示了贝叶斯框架如何自然地处理模型设计和通用统计模型比较的任务。在该工作中，描述了两个层次的推理：拟合模型的推理和评估模型适用性的推理。第一层推理是贝叶斯规则用于模型参数更新的典型应用。如下公式

其中是一般统计模型中的一组参数，是训练数据，是用于这一水平推断的第 i 个模型。然后将其描述为：

其中后验模型可以简化为：

对这个公式可以简单的理解为：

通过拉普拉斯近似可以得到如下推导：

这可以解释一种黎曼近似，具有代表证据峰值的最佳似然拟合，并且 Occam 因子是由高斯峰值周围的曲率表征的宽度。其中 Occam 因子的计算公式为：

这意味着 Occam 因子是似然参数空间中前后变化的比率。下图以图形方式演示了这个概念。有了这种表示，一个能够表示大范围数据的复杂模型将具有更广泛的证据，从而具有更大的 Occam 因子。

一个简单的模型在捕捉复杂的生成过程方面的能力会较低，但是较小范围的数据将能够以更大的确定性进行建模，从而降低 Occam 因子。这导致了模型复杂性的自然正则化。

一个不必要的复杂模型通常会导致较大的后验概率，从而导致较大的 Occam 因子和较低的证据。类似地，一个广泛或信息量较少的先验将导致 Occam 因子的减少，从而为正则化的贝叶斯设置提供了进一步的直觉。

使用这种证据框架需要计算边际似然，这是贝叶斯建模中最关键的挑战。考虑到接近边际可能性所需的大量的计算成本，比较许多不同的体系结构可能是不可行的。

尽管如此，证据框架的使用可以用来评估 BNN 的解决方案。对于大多数感兴趣的神经网络结构，目标函数是非凸的，具有许多局部极小值。每一个局部极小都可以看作是推理问题的一个可能解。

BNN的早期变分推理

变分推理一种近似推理方法，它将贝叶斯推理过程中所需的边缘化作为一个优化问题。这是通过假设后验分布的形式来实现的，并进行优化以找到最接近真实的后验分布。这种假设简化了计算，并提供了一定程度的可操作性。

假定的后验分布是参数集上的一个合适的密度，它仅限于由参数化的某一类分布。然后调整此变分分布的参数，以减少变分分布与真实后验分布之间的差异。

度量变分推理相似性的方法通常是变分分布和真分布之间的正向 KL 散度为：

对于变分推理可以将 KL 散度扩展为：

如图所示说明了如何将近似分布和真实后验之间的关系示意图，由此可知通过近似对数似然逼近近似分布与真实分布之间的 KL 散度。

BNN的蒙特卡洛方法

贝叶斯神经网络的重点是寻找良好的后验分布近似值上，预测值和区间都是作为后验的期望值来计算的，其中精确的预测依赖于对难以处理的后验概率的精确近似。具体的计算公式如下所示：

上面的积分公式的求解很困难，以前的方法是通过基于优化的方案，但优化方法中设置的限制通常会导致预测值不准确，所以基于优化的方案可以提供不准确的预测量。为了在有限的计算资源下做出准确的预测，通过使用马尔可夫链蒙特卡罗（MCMC）方法来求解上积分。

MCMC 是一种可以从从任意和难以处理的分布中进行采样的通用方法，会有如下公式：

传统的 MCMC 方法表现出一种随机游走行为，即序列是随机产生的。由于 BNNs 后验函数的复杂性和高维性，这种随机游走行为使得这些方法不适合在任何合理的时间内进行推理。为了避免随机行走行为，本文采用混合蒙特卡洛（HMC）方法用于将梯度信息合并到迭代行为中。

对于 BNNs，首先引入超先验分布来模拟先验参数精度，其中先验参数服从高斯先验。上的先验服从伽马分布，并且它是条件共轭的，这就使得吉布斯抽样可以用于对超参数进行推理，然后可以使用 HMC 来更新后验参数，最后从联合后验分布进行取样。

现代BNN模型

考虑到网络的大规模性，强大的推理能力通常需要建立在大数据集上。对于大数据集，完全对数似然的评估在训练目的上变得不可行。为了解决这一问题，作者采用了随机梯度下降（SGD）方法，利用小批量的数据来近似似然项，这样变分目标就变成：

其中，每个子集的大小为。这为在训练期间使用大型数据集提供了一种有效的方法。在通过一个子集后，应用反向传播来更新模型参数。SGD 是使用变分推理方法训练神经网络和贝叶斯神经网络的最常用方法。

Graves 在 2011 年发表了 BNN 研究的一篇重要论文《Practical variational inference for neural networks》。这项工作提出了一个 MFVB 处理使用因子高斯近似后验分布。这项工作的主要贡献是导数的计算。变分推理的目标可以看作是两个期望值的总和如下所示：

Opper 在 2009 年发表的《The variational gaussian approximation revisited Neural computation》中提出了利用高斯梯度特性来对参数进行更新操作，具体的如下所示：

上面两个公式用于近似平均参数和方差参数的梯度，并且该框架允许对 ELBO 进行优化，并且可以推广到任何的对数损失参数模型中。

已知分数函数估计依赖于对数导数性质，具体公式如下所示：

利用这个性质，可以对一个期望的导数形成蒙特卡罗估计，这在变分推理中是经常被使用，具体的推导过程如下所示：

变分推断的第二种梯度估计方法是通过路径导数估计值法。这项工作建立在“重新参数化技巧”的基础上，其中一个随机变量被表示为一个确定性和可微的表达式，具体形式如下所示：

其中和表示的是哈达玛积（Hadamard product）。使用这种方法可以有效地对期望值进行蒙特卡罗估计，具体的计算公式如下所示：

由于上式是可微的，所以可以使用梯度下降法来优化这种期望近似。这是变分推断中的一个重要属性，因为变分推断的目标的对数似然的期望值的求解困难很大。与分数函数估计量相比，路径估计值法更有利于降低方差。

Blundell 等人在论文《Bayes by Backprop》中提出了一种在 BNNs 中进行近似推理的方法。该方法利用重参数化技巧来说明如何找到期望导数的无偏估计。其期望导数的具体形式如下所示：

在贝叶斯的反向传播的算法中，函数设为：

其中可以看作是期望值的自变量，它是下界的一部分。

假设全因子高斯后验函数，其中用于确保标准差参数为正。由此，将网络中的权重的分布重新参数化为：

在该 BNN 中，可训练参数为和。由于采用全因子分布，则近似后验概率的对数可以表示为：

综合上面提到的贝叶斯的反向传播算法的细节，会有如下完整的算法流程图。

BNN的高斯过程特性

下图为当在参数上放置高斯先验时，随着网络规模的增加，先验在输出上诱导的图示。其中图中的每个点对应于一个网络的输出，参数从先验分布中进行采样。对于每个网络，隐藏单元的数量是图（a）对应着 1 个单元，图（b）对应着 3 个单元，图（c）对应着 10 个单元，图（d）对应着 100 个单元。

由此可知在中心极限定理下，随着隐层数 N 逐渐增大，输出服从高斯分布。由于输出被描述为基函数的无穷和，因此可以将输出看作高斯过程。高斯过程和具有单个隐藏层工作的无限宽网络之间的关系最近已扩展到深度神经网络的当中，这一联系的识别激发了 BNNs 的许多研究工作。

高斯过程提供了可靠的不确定性估计、可解释性和鲁棒性。但是高斯过程提供这些好处的代价是预测性能和随着数据集大小的增加所需的大量计算资源。高斯过程和 BNNs 之间的这种联系促使了两种建模方案的合并；既能维持神经网络的预测性能和灵活性，同时结合了高斯过程的的鲁棒性和概率性。

最近的研究已经确定了高斯过程属性不限于 MLP-BNN，而且在卷积中也可以应用该属性。因为 CNN 可以实现为 MLP，其结构在权重中被强制执行。Vander Wilk 等人在 2003 年发表的论文《Convolutional gaussian processes》中提出了卷积高斯过程，它实现了一种类似于 CNN 中的基于 patch 的操作来定义 GP 先验函数。

如下图所示，分析显示了高斯过程在预测偏差和方差方面的对比性能。用 Backprop 和一个因式高斯近似后验概率对 Bayes 模型进行训练，在训练数据分布的情况下，虽然训练数据区域外的方差与高斯过程相比显著低估，但预测结果是合理的。具有标度伯努利近似后验的 MC-Dropout 通常表现出更大的方差，尽管在训练数据的分布中保持不必要的高方差。

卷积BNN

虽然 MLP 是神经网络的基础，但最突出的神经网络架构是卷积神经网络。这些网络在具有挑战性的图像分类任务方面表现出色，其预测性能远远超过先前基于核或特征工程的方法。CNN 不同于典型的 MLP，它的应用是一个卷积型的算子，单个卷积层的输出可以表示为：

其中是非线性激活，表示类似卷积的运算。这里输入 X 和权重矩阵 W 不再局限于向量或矩阵，而是可以是多维数组。可以得到证明的是 cnn 可以编写成具有等效 MLP 模型，允许使用优化的线性代数包进行反向传播训练。

在现有研究方法的基础上，发展了一种新型的贝叶斯卷积神经网络（BCNN）。假设卷积层中的每个权重是独立的，允许对每个单独的参数进行因子分解，其中 BCNN 输出概率向量由 Softmax 函数表示：

非标准化的后验分布可以表示为：

作者做了相关的对比实验，BCNN 使用了流行的 LeNet 架构，并利用 BCNN 的平均输出进行分类，并使用可信区间来评估模型的不确定性。

在 MNIST 数据集中的 10000 个测试图像上，两个网络的总体预测性能显示出了比较好的性能。BCNN 的测试预测精度为 98.99%，香草网络的预测精度略有提高，预测精度为 99.92%。

虽然竞争性的预测性能是必不可少的，但 BCNN 的主要优点是可以提供有关预测不确定性的有价值的信息。从这些例子中，可以看到这些具有挑战性的图像存在大量的预测不确定性，这些不确定性可以用于在实际场景中做出更明智的决策。

更多阅读

#投稿通道#

让你的论文被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学习心得或技术干货。我们的目的只有一个，让知识真正流动起来。

???? 来稿标准：

• 稿件确系个人原创作品，来稿需注明作者个人信息（姓名+学校/工作单位+学历/职位+研究方向）

• 如果文章并非首发，请在投稿时提醒并附上所有已发布链接

• PaperWeekly 默认每篇文章都是首发，均会添加“原创”标志

???? 投稿邮箱：

• 投稿邮箱：[email protected]

• 所有文章配图，请单独在附件中发送

• 请留下即时联系方式（微信或手机），以便我们在编辑发布时和作者沟通

????

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域，欢迎在公众号后台点击「交流群」，小助手将把你带入 PaperWeekly 的交流群里。

你可能感兴趣的:(贝叶斯神经网络最新综述)

使用Jupyter Notebook进行深度学习编程 - 深度学习教程 shandianfk_com ChatGPT AI jupyter 深度学习 ide
大家好，今天我们要聊聊如何使用JupyterNotebook进行深度学习编程。深度学习是人工智能领域中的一项重要技术，通过模仿人脑神经网络的方式进行学习和分析。JupyterNotebook作为一个强大的工具，可以帮助我们轻松地进行深度学习编程，尤其适合初学者和研究人员。本文将带领大家一步步了解如何在JupyterNotebook中开展深度学习项目。一、什么是JupyterNotebook？Jup
360 最新Android面试题及参考答案大模型大数据攻城狮 android 安卓面经安卓面试 dex结构 hook技术 Binder aosp
一个activity只能有一个进程么【对进程的理解】在Android中，一个Activity并不只能有一个进程。进程是操作系统进行资源分配和调度的一个独立单位。从原理上来说，Android系统允许开发者通过在AndroidManifest.xml文件中的标签设置android:process属性，来指定Activity运行在不同的进程中。例如，如果有一个对性能要求很高的多媒体播放Activity，
下载安装新版Android studio4.1.3无法启动的问题 kaolagirl Android studio 前端
我原来的AndroidStudio是2.3.3版本的，想更新成最新版，然后就把之前的卸载了，安装一路顺畅，没什么问题，就在我启动的时候进度条到80%就不动了，真的搞了一整天，然后突然看到【yijiaodingqiankun】博主的文章，让我解决了，真的太感谢了！启动不起来的原因是因为，新版的AndroidStudio更换了某些配置的文件夹，和之前的有冲突，还有就是之前的配置文件和新版有冲突，也可能
Roblox 开源 AI 3D 生成模型，游戏开发迎来智能化变革 Yvette-W IT职业圈人工智能 3d 游戏
如果说过去的3D游戏开发需要建模师一笔一划地雕刻细节，如今AI的加入正在彻底改变这一模式。Roblox最新发布的3D生成AI模型——Cube，允许开发者用简单的文本指令，快速生成3D物体。更重要的是，Roblox还开放了Cube的开源版本，这意味着不仅Roblox开发者，任何游戏开发团队甚至个人创作者，都可以利用这项技术来提升创作效率。这一突破不仅能让游戏开发变得更快、更简单，也让AI在3D生成领
如何把master迁出的bug修改分支，合并、删除本地、删除远端软考真题app bug
要将fix/xxxxxx_20250319分支合并到master并删除本地及远程分支，请按以下步骤操作：1.切换到master分支并更新gitcheckoutmaster#切换到master分支gitpulloriginmaster#拉取远程master的最新代码2.合并分支到mastergitmergefix/xxxxxx_20250319#将fix/xxxxxx_20250319合并到当前分支
OpenCV ML 模块使用指南 ice_junjun OpenCV opencv 人工智能计算机视觉
一、模块概述OpenCV的ML模块提供了丰富的机器学习算法，可用于解决各种计算机视觉和数据分析问题。本指南将详细介绍该模块中主要的机器学习算法，包括支持向量机（SVM）、K均值聚类（K-Means）和神经网络（ANN），并结合图像分类和聚类分析这两个典型应用场景进行代码实现与解释。二、主要函数及类详解（一）支持向量机（SVM）：cv.ml.SVM_create()功能支持向量机（SVM）是一种强大
【001安卓开发方案调研】之Java+Gradle+XML 原生安卓开发 ThinkPet 移动app开发 android java xml
基于2025年国内安卓开发领域的最新动态，结合Java+Gradle+XML技术组合的生态发展，以下是综合分析：一、技术成熟度评估1.核心架构稳定性Java语言基础作为安卓开发官方支持语言，Java在国内拥有超过15年的技术积累，字节码编译机制与安卓ART虚拟机的深度适配，使其在内存管理、多线程处理等场景表现稳定。主流应用如微信、支付宝均保留Java核心模块。Gradle构建体系Gradle8.5
强化学习中策略网络模型设计与优化技巧数字扫地僧计算机视觉深度学习
I.引言强化学习（ReinforcementLearning,RL）是一种通过与环境交互，学习如何采取行动以最大化累积奖励的机器学习方法。策略网络（PolicyNetwork）是强化学习中一种重要的模型，它直接输出动作的概率分布或具体的动作。本篇博客将深入探讨策略网络的设计原则、优化技巧，并结合具体实例展示其应用。II.策略网络的基本概念A.策略网络的定义策略网络是一种神经网络，它接受当前状态作为
Git使用从入门到入土收藏吃灰系列 (十三) git stash、git check-pick、git tag、git diff 张时贰 Git &原理 &指令学习 git github
文章目录一、前言二、gitstash存储到堆栈三、Gittag标签四、gitcherry-pick挑选合并五、gitdiff本节速览gitstash堆栈gittag标签gitcherry-pick挑选合并gitdiff比较信息差异本节开始都是一些不怎么用的命令,或者一些使用技巧,了解即可一、前言参考安装Git详细安装教程参考视频B站Git最新教程通俗易懂，这个有点长，感觉讲的精华不多参考视频『Gi
SourceTree安装与使用缘来的精彩 sourceTree git
一、简介：一个用于Windows和Mac的免费Git客户端。Sourcetree简化了如何与Git存储库进行交互，这样您就可以集中精力编写代码。通过Sourcetree的简单GitGUI可视化和管理存储库。官网下载地址：Sourcetree|FreeGitGUIforMacandWindowsSourceTree下载-SourceTree最新版下载V3.4.22-阔思亮本文介绍的版本为source
jmeter安装和jmeter历史版本下载 weixin_30432007 java
一、jmete下载：1、最新版本下载地址：http://jmeter.apache.org/download_jmeter.cgi2、历史版本下载地址：https://archive.apache.org/dist/jmeter/binaries/二、软件安装及设置环境变量1、JDK安装目录在D:\ProgramFiles\Java，其环境变量设置为：JAVA_HOME值为：D:\ProgramF
vLLM 部署大模型哦豁灬深度学习 LLM 人工智能 vLLM 大模型部署 LLM
1介绍vLLM是来自UCBerkeley的LMSYS在LLM推理方面的最新工作（没错就是搞出Vicuna的那个group），最大亮点是采用PagedAttention技术，结合ContinuousBatching，极大地优化了realtime场景下的LLMserving的throughput与内存使用。vllmgithub仓库1.1安装安装命令：pip3installvllm#vllm==0.2.
找不到Jmeter历史版本下载的同学看这里（内附使用阿里镜像和腾讯镜像下载开源软件的地址）测试开发Kevin jmeter 测试工具 jmeter
最近需要在jmeter4上验证一个问题，于是就在网上各种找jmeter不同版本的下载地址，比较麻烦。为了让大家不踩坑，在这里汇总一下下载地址：下载jmeter地址汇总jmeter最新版本官网下载地址：ApacheJMeter-DownloadApacheJMeterhttps://jmeter.apache.org/download_jmeter.cgijmeter历史版本下载地址（建议收藏）In
自制C++小游戏走迷宫 ccw_china c++开发语言
直接上代码，有不足请指正，最新编辑于2025.3.22#include#include#include#includeusingnamespacestd;chara[100][100]={"####################","#O#####","###############","#################","#############","##################
卷积神经网络Batch Normalization的作用 arron8899 cnn batch 人工智能
BatchNormalization的作用（通俗版）1.像“稳定器”一样校准每层输入想象你在烤多层蛋糕，每层蛋糕的烘烤温度不同（相当于神经网络的每一层数据分布不同）。没有BN时，烤箱温度忽高忽低，导致有的层烤焦（梯度爆炸），有的层不熟（梯度消失）。BN的作用相当于给每一层装了一个自动温度调节器，实时将输入数据调整到标准温度（均值为0，方差为1），保证每层都能均匀受热，训练更稳定。2.让模型训练“少
一切皆是映射：实现神经网络的硬件加速技术：GPU、ASIC（专用集成电路）和FPGA（现场可编程门阵列） AI天才研究院 AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
文章目录一切皆是映射：实现神经网络的硬件加速技术：GPU、ASIC（专用集成电路）和FPGA（现场可编程门阵列）1.背景介绍2.核心概念与联系3.核心算法原理&具体操作步骤3.1算法原理概述3.2算法步骤详解3.2.1GPU加速3.2.2ASIC加速3.2.3FPGA加速3.3算法优缺点GPUASICFPGA3.4算法应用领域4.数学模型和公式&详细讲解&举例说明4.1数学模型构建4.2公式推导过
知识图谱中NLP新技术魔王阿卡纳兹知识图谱入门大数据治理与分析知识图谱自然语言处理人工智能
知识图谱与自然语言处理（NLP）的结合是当前人工智能领域的前沿方向，其技术发展呈现多维度融合与场景深化的特点。以下从核心技术突破、应用场景创新及未来趋势三个层面，系统梳理知识图谱中NLP的最新进展：一、核心技术突破基于预训练模型的图谱构建与增强预训练语言模型与知识嵌入融合：以BERT、KEPLER为代表的模型通过联合优化知识嵌入（KE）和语言建模目标，将知识图谱中的结构化知识融入预训练过程，显著提
Retrofit使用详解烈焰晴天 Android
综述retrofit是由square公司开发的。square在github上发布了很多优秀的Android开源项目。例如:otto(事件总线),leakcanary(排查内存泄露),android-times-square(日历控件),dagger(依赖注入),picasso(异步加载图片),okhttp(网络请求),retrofit(网络请求)等等。更
给普通人看的深度学习说明书：用快递系统理解AI如何思考嵌入式Jerry Python AI 人工智能深度学习
第一章：理解AI的思维方式（快递版）1.1快递分拣站的故事假设你管理一个快递分拣站：传统方法：手动制定规则（比如根据邮编分拣）机器学习：观察老员工的分拣记录，总结规律深度学习：搭建自动分拣流水线，自主发现隐藏规则1.2神经网络就像智能分拣机传送带（输入层）：接收包裹信息（图片像素/文字等）#就像扫描快递单input_data=[0.2,0.7,0.1]#归一化后的特征数据分拣工人（隐藏层）：每个工
AI学习资料|3月最新版可下载 2501_91122183 人工智能学习
AI学习资料：https://pan.quark.cn/s/d7452a3222d8都说AI是2025年新的风口，都想成为站在风口上的猪，可如何学习AI却成了拦住大多数人的第一道门槛。其实，学习AI很简单，你缺的只是一个信息差！这段时间，清华北大出品AI教学资料，火遍全网，从基础知识到实操应用，各种应用场景和进阶玩法讲解。即便是零基础新人也能轻松上手，从入门到精通。资料我已经帮大家整理好了，放在最
PCL基础：pcl::SACSegmentation＜PointXYZRGBN＞函数全面说明，一遍文章精通平面分割算法多宝Kim #PCL点云库使用笔记 c++算法 windows visual studio
创作不易，如果本篇文章能够给你提供帮助，请点赞鼓励+收藏备查+关注获取最新技术动态，支持作者输出高质量干货！（一般在周末更新技术干货）`pcl::SACSegmentation`是PointCloudLibrary(PCL)中用于进行随机抽样一致性（RandomSampleConsensus，RANSAC）平面分割的类模板，模板参数`PointXYZRGBN`表示点云中点的类型，该类型包含三维坐标
使用PyTorch搭建Transformer神经网络:入门篇 DASA13 pytorch transformer 神经网络
1.简介Transformer是一种强大的神经网络架构,在自然语言处理等多个领域取得了巨大成功。本教程将指导您使用PyTorch框架从头开始构建一个Transformer模型。我们将逐步解释每个组件,并提供详细的代码实现。2.环境设置首先,确保您的系统中已安装Python(推荐3.7+版本)。然后,安装PyTorch和其他必要的库:pipinstalltorchnumpymatplotlib3.P
解析大模型归一化：提升训练稳定性和性能的关键技术秋声studio 口语化解析深度学习人工智能大模型归一化
引言在深度学习领域，特别是在处理大型神经网络模型时，归一化（Normalization）是一项至关重要的技术。它可以提高模型的训练稳定性和性能，在加速收敛方面发挥了重要作用。本文将深入探讨大模型归一化的原理、常见方法及其应用场景，并结合实际案例和代码示例进行说明。一、归一化的作用与理论基础归一化的主要目的是为了提高模型的训练稳定性和性能。具体来说，归一化有以下几个关键作用：提高训练稳定性：在神经网
小白零基础学数学建模系列-引言与课程目录川川菜鸟数学建模小白到精通系列数学建模
目录引言一、我们的专辑包含哪些内容？第一周：数学建模基础与工具第二周：高级数学建模技巧与应用第三周：机器学习基础与数据处理第四周：监督学习与无监督学习算法第五周：神经网络二、学完本专辑能收获到什么？三、适合什么样的人群学习？四、如何学习本专辑？课程目录第1周：数学建模基础与工具第1天：数学建模入门介绍第2天：数学建模工具介绍第3天：线性回归与曲线拟合第4天：线性规划第5天：动态规划第2周：高级数学
git runner 配置_gitlab-ci配置详解(一) 夏天的sunnyrain git runner 配置
近期因为折腾gitlab-ci，专门去翻了很多文档，想想貌似自己挺傻的。按照官网教程本来biubiubiu就弄好了，非自己折腾了好几天，还没啥积累，真是作。想想唯一能积累的就是ci的配置详解了。该文基于最新版GitLabCommunityEdition10.1.1和GitLabRunner9.5.1-1使用.gitlab-ci.yml配置你的项目这篇文档描述了.gitlab-ci.yml的用法，本
k8s集群版本升级少陽君 K8S kubernetes 容器云原生
Kubernetes集群版本升级是为了获得最新的功能、增强的安全性和性能改进。然而，升级过程需要谨慎进行，特别是在生产环境中。通常，Kubernetes集群的版本升级应遵循逐步升级的策略，不建议直接跳过多个版本。Kubernetes版本升级的常见流程：升级顺序：先升级控制平面节点（MasterNodes），然后升级工作节点（WorkerNodes）。遵循版本兼容性：Kubernetes支持小版本的
重塑家用机器人大脑！云鲸旗舰机型逍遥002搭载旭日5正式开售量子位
2025年3月20日，全球家庭清洁机器人明星品牌云鲸智能携最新一代旗舰机型——云鲸逍遥002，亮相中国家电及消费电子博览会（AWE）。该产品以”AI智能深度清洁“为核心，基于地瓜机器人全新一代旭日5智能计算芯片，推出首创的双目AI视觉感知自适应系统，以10TOPs的端侧算力与180万点/秒的3D稠密深度点云生成能力，为家庭场景带来毫米级障碍测距精度与语义级环境理解，是家庭清洁机器人智能化演进的又一
嵌入式硬件篇---蓝牙模块 Ronin-Lotus 嵌入式硬件篇程序代码篇嵌入式硬件网络 c 蓝牙
文章目录前言一、核心技术原理蓝牙工作流程设备发现阶段配对连接阶段数据传输阶段二、协议栈架构（以BLE为例）1.物理层2.链路层3.HCI层4.GATT三、典型应用场景扩展1.室内定位系统（蓝牙5.1+）2.运动健康监测3.工业控制四、ESP32开发示例（BLE+经典蓝牙）1.环境配置2.BLE服务端代码3.经典蓝牙串口通信五、关键技术参数对比六、开发调试技巧空中抓包分析七、最新技术演进（蓝牙5.4
回归任务训练--MNIST全连接神经网络（Mnist_NN）豆芽819 深度学习框架PyTorch pytorch 深度学习人工智能机器学习回归
importtorchimportnumpyasnpimportloggingfromtorch.utils.dataimportTensorDataset,DataLoaderfromtorch.utils.dataimportDataLoader#配置日志logging.basicConfig(level=logging.INFO,format='%(asctime)s-%(levelname
鸿蒙NEXT版实战开发：使用WebRTC进行Web视频会议那只斑马不睡觉鸿蒙5.0 ArkWeb OpenHarmony harmonyos 华为前端 android ArkWeb
往期鸿蒙全套实战精彩文章必看内容：鸿蒙开发核心知识点，看这篇文章就够了最新版！鸿蒙HarmonyOSNext应用开发实战学习路线鸿蒙HarmonyOSNEXT开发技术最全学习路线指南鸿蒙应用开发实战项目，看这一篇文章就够了（部分项目附源码）使用WebRTC进行Web视频会议Web组件可以通过W3C标准协议接口拉起摄像头和麦克风。开发者在使用该功能时，需配置ohos.permission.CAMER
书其实只有三类西蜀石兰类
一个人一辈子其实只读三种书，知识类、技能类、修心类。知识类的书可以让我们活得更明白。类似十万个为什么这种书籍，我一直不太乐意去读，因为单纯的知识是没法做事的，就像知道地球转速是多少一样（我肯定不知道），这种所谓的知识，除非用到，普通人掌握了完全是一种负担，维基百科能找到的东西，为什么去记忆？知识类的书，每个方面都涉及些，让自己显得不那么没文化，仅此而已。社会认为的学识渊博，肯定不是站在
《TCP/IP 详解，卷1：协议》学习笔记、吐槽及其他 bylijinnan tcp
《TCP/IP 详解，卷1：协议》是经典，但不适合初学者。它更像是一本字典，适合学过网络的人温习和查阅一些记不清的概念。这本书，我看的版本是机械工业出版社、范建华等译的。这本书在我看来，翻译得一般，甚至有明显的错误。如果英文熟练，看原版更好： http://pcvr.nl/tcpip/ 下面是我的一些笔记，包括我看书时有疑问的地方，也有对该书的吐槽，有不对的地方请指正： 1.
Linux—— 静态IP跟动态IP设置 eksliang linux IP
一.在终端输入 vi /etc/sysconfig/network-scripts/ifcfg-eth0 静态ip模板如下： DEVICE="eth0" #网卡名称 BOOTPROTO="static" #静态IP（必须） HWADDR="00:0C:29:B5:65:CA" #网卡mac地址 IPV6INIT=&q
Informatica update strategy transformation 18289753290
更新策略组件：标记你的数据进入target里面做什么操作，一般会和lookup配合使用，有时候用0,1,1代表 forward rejected rows被选中，rejected row是输出在错误文件里，不想看到reject输出，将错误输出到文件，因为有时候数据库原因导致某些column不能update，reject就会output到错误文件里面供查看，在workflow的
使用Scrapy时出现虽然队列里有很多Request但是却不下载，造成假死状态酷的飞上天空 request
现象就是：程序运行一段时间，可能是几十分钟或者几个小时，然后后台日志里面就不出现下载页面的信息，一直显示上一分钟抓取了0个网页的信息。刚开始已经猜到是某些下载线程没有正常执行回调方法引起程序一直以为线程还未下载完成，但是水平有限研究源码未果。经过不停的google终于发现一个有价值的信息，是给twisted提出的一个bugfix 连接地址如下http://twistedmatrix.
利用预测分析技术来进行辅助医疗蓝儿唯美医疗
2014年，克利夫兰诊所（Cleveland Clinic）想要更有效地控制其手术中心做膝关节置换手术的费用。整个系统每年大约进行2600例此类手术，所以，即使降低很少一部分成本，都可以为诊所和病人节约大量的资金。为了找到适合的解决方案，供应商将视野投向了预测分析技术和工具，但其分析团队还必须花时间向医生解释基于数据的治疗方案意味着什么。克利夫兰诊所负责企业信息管理和分析的医疗
java 线程(一)：基础篇 DavidIsOK java 多线程线程
&nbs
Tomcat服务器框架之Servlet开发分析 aijuans servlet
最近使用Tomcat做web服务器，使用Servlet技术做开发时，对Tomcat的框架的简易分析：疑问：为什么我们在继承HttpServlet类之后，覆盖doGet(HttpServletRequest req, HttpServetResponse rep)方法后，该方法会自动被Tomcat服务器调用，doGet方法的参数有谁传递过来？怎样传递？分析之我见： doGet方法的
揭秘玖富的粉丝营销之谜与小米粉丝社区类似 aoyouzi 揭秘玖富的粉丝营销之谜
玖富旗下悟空理财凭借着一个微信公众号上线当天成交量即破百万，第七天成交量单日破了1000万;第23天时，累计成交量超1个亿……至今成立不到10个月，粉丝已经超过500万，月交易额突破10亿，而玖富平台目前的总用户数也已经超过了1800万，位居P2P平台第一位。很多互联网金融创业者慕名前来学习效仿，但是却鲜有成功者，玖富的粉丝营销对外至今仍然是个谜。　　近日，一直坚持微信粉丝营销
Java web的会话跟踪技术百合不是茶 url会话 Cookie会话 Seession会话 Java Web 隐藏域会话
会话跟踪主要是用在用户页面点击不同的页面时,需要用到的技术点会话:多次请求与响应的过程 1,url地址传递参数,实现页面跟踪技术格式:传一个参数的 url?名=值传两个参数的 url?名=值 &名=值关键代码
web.xml之Servlet配置 bijian1013 java web.xml Servlet配置
定义： <servlet> <servlet-name>myservlet</servlet-name> <servlet-class>com.myapp.controller.MyFirstServlet</servlet-class> <init-param> <param-name>
利用svnsync实现SVN同步备份 sunjing SVN 同步 E000022 svnsync 镜像
1. 在备份SVN服务器上建立版本库 svnadmin create test 2. 创建pre-revprop-change文件 cd test/hooks/ cp pre-revprop-change.tmpl pre-revprop-change 3. 修改pre-revprop-
【分布式数据一致性三】MongoDB读写一致性 bit1129 mongodb
本系列文章结合MongoDB，探讨分布式数据库的数据一致性，这个系列文章包括：数据一致性概述与CAP 最终一致性(Eventually Consistency) 网络分裂(Network Partition)问题多数据中心(Multi Data Center) 多个写者(Multi Writer)最终一致性一致性图表(Consistency Chart) 数据
Anychart图表组件-Flash图转IMG普通图的方法白糖_ Flash
问题背景：项目使用的是Anychart图表组件，渲染出来的图是Flash的，往往一个页面有时候会有多个flash图，而需求是让我们做一个打印预览和打印功能，让多个Flash图在一个页面上打印出来。那么我们打印预览的思路是获取页面的body元素，然后在打印预览界面通过$("body").append(html)的形式显示预览效果，结果让人大跌眼镜：Flash是
Window 80端口被占用 WHY? bozch 端口占用 window
平时在启动一些可能使用80端口软件的时候，会提示80端口已经被其他软件占用，那一般又会有那些软件占用这些端口呢？下面坐下总结： 1、web服务器是最经常见的占用80端口的，例如：tomcat , apache , IIS , Php等等； 2
编程之美-数组的最大值和最小值-分治法（两种形式） bylijinnan 编程之美
import java.util.Arrays; public class MinMaxInArray { /** * 编程之美数组的最大值和最小值分治法 * 两种形式 */ public static void main(String[] args) { int[] t={11,23,34,4,6,7,8,1,2,23}; int[]
Perl正则表达式 chenbowen00 正则表达式 perl
首先我们应该知道 Perl 程序中，正则表达式有三种存在形式，他们分别是：匹配：m/<regexp>;/ （还可以简写为 /<regexp>;/ ，略去 m）替换：s/<pattern>;/<replacement>;/ 转化：tr/<pattern>;/<replacemnt>;
[宇宙与天文]行星议会是否具有本行星大气层以外的权力呢? comsci
举个例子: 地球,地球上由200多个国家选举出一个代表地球联合体的议会,那么现在地球联合体遇到一个问题,地球这颗星球上面的矿产资源快要采掘完了....那么地球议会全体投票,一致通过一项带有法律性质的议案,既批准地球上的国家用各种技术手段在地球以外开采矿产资源和其它资源........ &
Oracle Profile 使用详解 daizj oracle profile 资源限制
Oracle Profile 使用详解转一、目的： Oracle系统中的profile可以用来对用户所能使用的数据库资源进行限制，使用Create Profile命令创建一个Profile，用它来实现对数据库资源的限制使用，如果把该profile分配给用户，则该用户所能使用的数据库资源都在该profile的限制之内。二、条件：创建profile必须要有CREATE PROFIL
How HipChat Stores And Indexes Billions Of Messages Using ElasticSearch & Redis dengkane elasticsearch Lucene
This article is from an interview with Zuhaib Siddique, a production engineer at HipChat, makers of group chat and IM for teams. HipChat started in an unusual space, one you might not
循环小示例，菲波拉契序列，循环解一元二次方程以及switch示例程序 dcj3sjt126com c 算法
# include <stdio.h> int main(void) { int n; int i; int f1, f2, f3; f1 = 1; f2 = 1; printf("请输入您需要求的想的序列："); scanf("%d", &n); for (i=3; i<n; i
macbook的lamp环境 dcj3sjt126com lamp
sudo vim /etc/apache2/httpd.conf /Library/WebServer/Documents 是默认的网站根目录重启Mac上的Apache服务这个命令很早以前就查过了，但是每次使用的时候还是要在网上查：停止服务：sudo /usr/sbin/apachectl stop 开启服务：s
java ArrayList源码下 shuizhaosi888 ArrayList源码
版本 jdk-7u71-windows-x64 JavaSE7 ArrayList源码上：http://flyouwith.iteye.com/blog/2166890 /** * 从这个列表中移除所有c中包含元素 */ public boolean removeAll(Collection<?> c) {
Spring Security（08）——intercept-url配置 234390216 Spring Security intercept-url 访问权限访问协议请求方法
intercept-url配置目录 1.1 指定拦截的url 1.2 指定访问权限 1.3 指定访问协议 1.4 指定请求方法 1.1 &n
Linux环境下的oracle安装 jayung oracle
linux系统下的oracle安装本文档是Linux(redhat6.x、centos6.x、redhat7.x) 64位操作系统安装Oracle 11g(Oracle Database 11g Enterprise Edition Release 11.2.0.4.0 - 64bit Production)，本文基于各种网络资料精心整理而成，共享给有需要的朋友。如有问题可联系：QQ：52-7
hotspot虚拟机 leichenlei java HotSpot jvm 虚拟机文档
JVM参数 http://docs.oracle.com/javase/6/docs/technotes/guides/vm/index.html JVM工具 http://docs.oracle.com/javase/6/docs/technotes/tools/index.html JVM垃圾回收 http://www.oracle.com
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” noaighost Web node.js
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” 眼里的Node.JS 初初接触node是一年前的事，那时候年少不更事。还在纠结什么语言可以编写出牛逼的程序，想必每个码农都会经历这个月经性的问题：微信用什么语言写的？facebook为什么推荐系统这么智能，用什么语言写的？dota2的外挂这么牛逼，用什么语言写的？……用什么语言写这句话，困扰人也是阻碍
快速开发Android应用 rensanning android
Android应用开发过程中，经常会遇到很多常见的类似问题，解决这些问题需要花时间，其实很多问题已经有了成熟的解决方案，比如很多第三方的开源lib，参考 Android Libraries 和 Android UI/UX Libraries。编码越少，Bug越少，效率自然会高。但可能由于根本没听说过、听说过但没用过、特殊原因不能用、自己已经有了解决方案等等原因，这些成熟的解决
理解Java中的弱引用 tomcat_oracle java 工作面试
　不久之前，我面试了一些求职Java高级开发工程师的应聘者。我常常会面试他们说，“你能给我介绍一些Java中得弱引用吗？”，如果面试者这样说，“嗯，是不是垃圾回收有关的？”，我就会基本满意了，我并不期待回答是一篇诘究本末的论文描述。　　然而事与愿违，我很吃惊的发现，在将近20多个有着平均5年开发经验和高学历背景的应聘者中，居然只有两个人知道弱引用的存在，但是在这两个人之中只有一个人真正了
标签输出html标签" target="_blank">关于标签输出html标签 xshdch jsp
http://back-888888.iteye.com/blog/1181202 关于<c:out value=""/>标签的使用，其中有一个属性是escapeXml默认是true(将html标签当做转移字符，直接显示不在浏览器上面进行解析)，当设置escapeXml属性值为false的时候就是不过滤xml，这样就能在浏览器上解析html标签， &nb