mingqian_chu

变分贝叶斯深度学习综述

**©PaperWeekly 原创 · 作者 |**薛博阳

**单位 |**香港中文大学

**研究方向 |**语言模型

引言

近年来，贝叶斯深度学习（Bayesian Deep Learn-ing）在诸多领域得到广泛关注应用，效果显著。本文将针对贝叶斯深度学习框架进行系统性的概述，包括模型不确定性的引入；贝叶斯神经网络（Bayesian Neural Network）、高斯过程（Gaussian Process）、变分自编码器（Variational Auto-Encoder）三个主流模型的介绍，以及如何使用变分推断（Variational In-ference）求解上述模型的潜在变量分布；最后对相关参考文献进行总结。

深度学习的不确定性

首先谈下为什么要引入贝叶斯深度学习方法。贝叶斯深度学习能够对传统深度学习模型的不确定性（Model Uncertainty）建模，随着近年来卷积神经网络，Transformer 等发展，主流深度学习框架变得越来越复杂，网络深度可达成百甚至上千层，参数量也超过数千亿。这些大规模的神经网络虽然对信息感知和特征提取能力越来越强，但也存在在有限数据集上容易过拟合及模型泛化能力弱的隐患。

针对这个问题，一种常用的方法是引入 Dropout，在模型训练时使用由一个超参数控制的伯努利分布对所有网络节点随机选择丢弃，使每次训练迭代的网络都不完全相同，引入了模型结构的不确定性；而在预测时则考虑所有节点，可看作所有训练中不同网络的集成（Ensemble）或平均，从而有效减小了过拟合，Dropout 中的超参数通常需要手动调节。

另一种方法是在网络参数上加入随机噪声，这相当于引入参数的不确定性。然而这些不确定性建模方法都只是简单的正则化，缺乏严谨的数学表述推理论证。深度学习任务通常有两种不确定性，一种是来源于数据噪声的随机不确定性（Aleatoric Uncertainty），另一种就是重点关注的模型不确定性，在不同模型框架上又可分为参数不确定性，结构不确定性以及隐变量的不确定性。下面使用一个更直观的例子来说明引入不确定性如何有效提升模型泛化能力。

传统深度学习模型都是确定函数的点估计（Point Estimation），对于一个鉴别狗品种的图像分类模型，如果输入一张训练集分布外的图像，如一只猫的照片，那样识别结果将很离谱。于是我们希望能在模型返回预测结果时附带不确定性信息，也可以看做对结果的置信度。这需要引入能对不确定性建模的概率模型（Probabilistic Model），如下图所示的二氧化碳浓度预测模型，蓝色虚线左边是观测数据，右边是测试数据；对于测试部分的数据点，传统的深度学习模型会给出确定的预测，如左图红色虚线所示；而概率模型则会对未知的测试部分均采用概率分布来表示，如右图蓝色阴影部分所示，在数据集不能学习到准确的数据分布的情况下（当然实际所用的所有数据集都是有限的），很显然引入不确定性更合理，这也是能有效提升模型泛化能力的原因。

▲ 图1. 传统深度学习模型（左）与概率模型（右）对二氧化碳浓度的预测

这里的概率模型就是用的贝叶斯方法建模，假设存在数据集和标签集，在预测测试数据对的概率分布时，根据边缘概率计算，我们有

其中为模型参数，问题就转换为求参数在训练集上的最大后验分布的问题。根据贝叶斯公式，有

传统深度学习通常是对参数进行定参估计，而贝叶斯模型把参数看做概率分布，需要对所有值进行积分，按照 Bishop 的《Pattern Recognition and Machine Learning》的定义，这种积分是贝叶斯方法的核心，在深度学习模型上应用贝叶斯方法就统称为贝叶斯深度学习。我们对公式（2）分母部分进行归一化积分，有

这部分也称作模型证据（Model Evidence）或边缘似然（Marginal Likelihood）分布。由于积分的存在，通常很难求得解析解，这就需要用到一些近似推断方法。至此，我们从不确定性，概率模型，贝叶斯方法的基本思路着手，明确了贝叶斯深度学习和不确定性的关系，下面就来讲贝叶斯深度学习里最经典的模型——贝叶斯神经网络。

贝叶斯神经网络

广义的贝叶斯深度学习在不同文章课题中定义略有不同，但狭义的贝叶斯深度学习公认是指贝叶斯神经网络。结合上文不确定性，再来详细讨论贝叶斯神经网络和传统神经网络的区别：传统神经网络中，我们认为模型参数是定值，如图二左所示，并且在一个任务上存在最优参数；训练时，给模型参数赋一组初值，基于观测数据集训练模型不断更新，训练时可以使用最大似然估计

或者加入正则项将最大似然变为最大后验估计

其中正则项是将假设为拉普拉斯先验，正则项是高斯先验，不论 MLE 还是 MAP，最终学习目标都是让参数无限逼近。

▲ 图2. 参数固定的传统神经网络（左）以及参数服从概率分布的贝叶斯神经网络（右）

需要指出虽然最大后验估计也引入先验，但仍属于定参估计，没有引入概率模型，不需要对参数积分，因此不属于贝叶斯方法。传统神经网络无法对不确定性建模，在监督学习中往往对预测结果过于自信，很容易发生过拟合。

顺着前文在参数上引入不确定性的思路，我们认为服从某种概率分布而非固定参数，如图二右所示，为了最大化不确定性，我们先假设服从高斯分布，这样训练的也不再是单一网络，而是无数个相同位置节点参数服从同一概率分布的集成网络。此时参数的先验分布不再是简单的正则项，而是对应的共轭分布，高斯分布的共轭先验也应该是一个高斯分布，对应的后验分布也是一个高斯分布。模型的优化目标就是最大化后验高斯分布，也就是公式（1）中的后验。

现在问题的关键就是计算公式（3）的边缘算子了。如果模型是线性回归之类的简单模型，其实也不难求出解析解，但换成神经网络后就会变得异常复杂，下面简单推导一下。假设有模型，输入向量，标签，模型参数为，假设模型输出服从均值为，方差为的高斯分布，有

权重的共轭先验也是高斯分布，假设其均值为，方差为，可得

后验分布由贝叶斯公式

计算，代入多元高斯概率密度函数，对后验分布取

其中为常数项。对于一般的线性回归模型，是关于的线性函数，后验概率仍是是关于的高斯分布，可以直接计算出解析解，但是在神经网络中，由于大量非线性单元，模型输出与不再是线性关系，网络模型对于参数值的高度非线性意味着精确的贝叶斯方法（即数值求解)不可行，因此我们不得不借助一些近似方法，如拉普拉斯近似（Laplace Approximation），马尔科夫链蒙特卡罗采样（Markov-Chain Monte-Carlo Sampling），以及近几年使用最多的变分推断法。

变分推断

本节主要讲变分推断求解贝叶斯神经网络的过程，类似的也可以用于其他贝叶斯深度学习模型上。

变分法最早起源于 18 世纪欧拉、拉格朗日等关于泛函优化的研究，泛函数（Functional）是以函数作为输入，返回泛函值作为输出的一种映射，它以一个函数作为输入，返回泛函的值作为输出。研究所有可能的输入函数，找到最大化或者最小化泛函的函数就是问题的解。相比其他近似推断方法，变分法具有更好的收敛性和可扩展性，适合大规模问题的求解。贝叶斯深度学习将参数视作概率分布后，误差函数的输入也就从定值变为函数，从而转变为泛函优化，这就是用变分法来求解贝叶斯深度学习模型的原因。

第三节已经证明了贝叶斯神经网络中的无法直接计算解析解，甚至很难采样。变分法的核心就是用一个可解的近似分布逼近真实分布。第二节分析表明估计后验分布需要最大化公式（3）边缘分布的积分，假设公式（3），根据 Jensen 不等式，有

这也被称为变分下限（Variational Lower Bound），是对后验概率的变分近似，是参数的先验分布，KL 散度用来度量两个概率分布的距离，如下图所示

▲ 图3. 变分下限

一种更直观的理解是，已知后验分布是一个未知分布，我们引入已知参数分布的去逼近，所以只需最小化 KL ，可以作如下推导

最终结果第一项与无关可以忽略，第二项和第三项分别求与先验的距离，以及时似然函数的期望值。这与公式（11）的结果一致，也就是目标函数或误差函数，即

与正则化的传统神经网络对比，贝叶斯神经网络误差函数也分为两部分，一是训练数据相关的似然代价（Likelihood Cost），其中服从；二是先验相关的复杂性代价（Complexity Cost），也就是把正则项变成 KL 散度，传统方法中引入正则项就有让模型参数变得稀疏的作用，控制了模型的复杂度。误差函数的优化就是在两项函数之间取平衡。

下面说说误差函数两项的求解方法，为了最大化不确定性，假设近似和后验均服从高斯分布，即

似然代价因为积分存在无法直接求解，在此借助蒙特卡罗采样（Monte Carlo Sampling），即

其中是每次训练中对的采样次数，如果直接对均值和方差采样代入高斯分布因指数运算在反向传播时会造成训练过程不稳定，在此使用一种重参数化（Reparameterize）方法，即

这意味着在前向传播计算似然代价时，参数需要从公式（17）随机采样获得，对应贝叶斯神经网络的参数不再是一个定值。

对于与的 KL 散度项，需要对积分离散化，然后代入高斯分布的概率密度函数，有

其中表示中的第项参数，并且相互独立，根据高斯分布均值和二阶矩的性质，即可完成最后一步推导。至此，我们已推导出误差函数项的形式，利用梯度下降和反向传播算法，就可以完成大规模参数贝叶斯神经网络的训练了，为了稀疏模型我们可以的标准高斯分布，反向传播算法如下

由于我们假设参数服从高斯分布，因此使用了均值和方差两个参数，参数量为同等规模的传统神经网络的 2 倍。当然实际上只需要对部分参数做贝叶斯推断，就可以取得较好的效果了。

简化后的代价函数也可以进行小批量梯度下降，训练时将随机分成个相等的子集。每次梯度更新是小批量上的平均。如果想要衡量复杂性成本与小批量之间的关系，我们可以将小批量均匀随机划分，那么 KL 代价可以在每个训练周期非均匀地分布在小批量之间：令，并且。

研究发现时效果最好，这也意味着在前几个小批量更新时在模型比较依赖先验也就是复杂性成本的影响，而后面训练时很大程度上受数据的影响。也就是说，当数据集趋于无穷时，贝叶斯神经网络和传统神经网络相差并不大，但是在有限数据集上，贝叶斯神经网络明显性能更优。

高斯过程

高斯过程是结合连续函数和概率模型的一种非参数化方法，函数的高斯过程可表示为

其中是训练集中的随机数据对，是核函数，上述公式是高斯过程的核空间表述（kernel space view），然而，由于数据集中所有数据点都需要相互运算，在大规模数据集上计算复杂度会特别高，另一种权重空间表述（weight space view）的高斯过程形式为模型中一系列基函数的插值

核函数与基函数的关系为，是第个基函数的系数。

此前已有研究证明，对于单隐层的神经网络，当隐层结点数不断增加并趋于无穷时，输出服从高斯分布。由于输出被描述为基函数的无穷和，因此可以将输出看作高斯过程，如下图所示可以看出高斯

▲ 图4. 单隐层神经网络结点数不断增加 (a),(b),©,(d) 时输出分布

过程是和模型结构相关的，这也启发了一系列将高斯过程与贝叶斯深度学习相结合的研究，一种思路就是利用上述权重空间的高斯过程，对基函数插值系数使用贝叶斯估计从而为模型结构的不确定性建模，公式（11）可表示如下

相较之下多了一个变量的积分，其余推导过程就按照变分下限，蒙特卡罗采样，重参数化，反向传播等一系列步骤进行，推导过程与第四节类似，在此不作赘述。

变分自编码器

变分自编码器本质上也是贝叶斯深度学习，只不过这次是对隐变量（Latent Variables）进行不确定性建模，也就是将神经网络中的隐藏层输出视作随机变量。传统自编码器是一种由编码器和解码器组成的用于特征提取或数据降维的模型。如下图所示左边是编码器，右边是解码器，通过自编码器将输

▲ 图5. 自编码器

入映射到低维空间再通过解码器还原回真实数据。

在数据处理时会遇到数据量不足的情况，这时就会考虑使用生成模型生成数据，变分自编码器就是在自编码器基础上对引入变分贝叶斯估计，使其能够生成数据。这涉及到一类利用变分贝叶斯求解图模型变量的方法，也是变分贝叶斯在深度学习隐藏变量上的应用，变分自编码器是其中的典型代表。

对于如下具有连续隐变量的概率图模型

▲ 图6. 连续隐变量的概率图模型

我们试图推断和学习有向概率图模型的隐分布，并通过对的采样来实现数据的生成。由于连续随机隐变量不可见，我们无法根据条件概率分布生成，也就无法得到生成模型。而数据的先验分布

因存在积分也无法求解，这时候就可以构建模型来近似

这个过程可视作编码器，即由样本数据学出一个对应的隐层分布，并使用作为解码器，实现模型生成。数据集的先验可以写作

其中就是变分下限，也可以写作

还可以进一步写作

接下来就是蒙特卡罗采样，重参数化，反向传播等一系列算法的运用，推导过程与第四章基本类似，在此不作赘述。

总结

本文从深度学习不确定性的角度切入，总结了贝叶斯深度学习模型提升模型的泛化能力的作用，并讲了三个主流的框架：贝叶斯神经网络，高斯过程，变分自编码器，分别在模型参数，模型结构和隐藏变量进行不确定性建模，并且给出变分法求解上述模型的过程。参考资料详见下文。

参考文献

模型不确定性：

[1] Gal, Y. “Uncertainty in Deep Learning.”PhD Thesis, 2016.

贝叶斯神经网络，变分推断：

[2] D. Barber and C. M. Bishop, “Ensemble Learning in Bayesian Neural Networks,”Nato ASI Series F Computer and Systems Sciences, 1998

[3] R. M. Neal, “Bayesian Learning for Neu- ral Networks,”Springer Science & Business Media, 2012.

[4] C. M. Bishop, “Pattern Recognition and Machine Learning,”Machine Learning, 2006.

[5] A. Graves, “Practical Variational Inference for Neural Networks,”NIPS 2012.

[6] C. Blundell et al., “Weight Uncertainty in Neural Network,”ICML 2014.

[7] Goan, E. Bayesian. “Neural Networks: An Introduction and Survey,”In Case Studies in Applied Bayesian Data Science 2020.

高斯过程：

[8] C. E. Rasmussen, “Gaussian Processes for Machine Learning,”Machine Learning, 2006.

变分自编码器：

[9] D. P. Kingma et al., “Auto-Encoding Vari- ational Bayes,”stat, 2014.

特别鸣谢

感谢 TCCI 天桥脑科学研究院对于 PaperWeekly 的支持。TCCI 关注大脑探知、大脑功能和大脑健康。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

投稿通道：

• 投稿邮箱：[email protected]

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

现在，在**「知乎」**也能找到我们了

进入知乎首页搜索**「PaperWeekly」**

点击**「关注」**订阅我们的专栏吧

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
【大模型应用开发动手做AI Agent】第一轮行动：工具执行搜索 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【大模型应用开发动手做AIAgent】第一轮行动：工具执行搜索作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，大模型应用开发已经成为当下热门的研究方向。AIAgent作为人工智能领域的一个重要分支，旨在模拟人类智能行为，实现智能决策和自主行动。在AIAgent的构建过程中，工具执行搜索是至关重要
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
Rust 所有权简介东离与糖宝 rust 后端 rust 开发语言
文章目录发现宝藏1.所有权基本概念2.所有权规则3.变量作用域4.栈与堆4.1栈（Stack）4.2堆（Heap）5.String类型5.1String类型5.2String的内存分配5.3所有权与内存管理5.4String与切片6.变量与数据交互方式6.1移动（Move）6.2.克隆（Clone）7.所有权与函数7.1.传递参数7.2.返回值总结发现宝藏前些天发现了一个巨牛的人工智能学习网站，通
深度学习-点击率预估-研究论文2024-09-14速读 sp_fyf_2024 深度学习人工智能
深度学习-点击率预估-研究论文2024-09-14速读1.DeepTargetSessionInterestNetworkforClick-ThroughRatePredictionHZhong,JMa,XDuan,SGu,JYao-2024InternationalJointConferenceonNeuralNetworks,2024深度目标会话兴趣网络用于点击率预测摘要：这篇文章提出了一种新
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
损失函数与反向传播 Star_. PyTorch pytorch 深度学习 python
损失函数定义与作用损失函数(lossfunction)在深度学习领域是用来计算搭建模型预测的输出值和真实值之间的误差。1.损失函数越小越好2.计算实际输出与目标之间的差距3.为更新输出提供依据（反向传播)常见的损失函数回归常见的损失函数有：均方差（MeanSquaredError，MSE）、平均绝对误差（MeanAbsoluteErrorLoss，MAE）、HuberLoss是一种将MSE与MAE
如何做好人生的选择题？百科全书式天才——赫伯特·西蒙给你答案伽马有话说
赫伯特·西蒙是谁？想必知道的人非常少。但当看到他的履历后，相信没有人再怀疑他是个“天才”。西蒙出生于1916年6月15日，是个美国人，他的名字全称为赫伯特·亚历山大·西蒙，在2001年2月9日与世长辞，在这84年的岁月中，西蒙以27岁时取得的政治学博士学位为开端，先后步入了政治学、管理学、认知心理学、信息科学、人工智能、科学哲学、应用数学、统计学、运筹学、控制论、数理经济学、公共管理等领域，在这些
软件测试/测试开发/全日制 |利用Django REST framework构建微服务霍格沃兹-慕漓 django 微服务 sqlite
霍格沃兹测试开发学社推出了《Python全栈开发与自动化测试班》。本课程面向开发人员、测试人员与运维人员，课程内容涵盖Python编程语言、人工智能应用、数据分析、自动化办公、平台开发、UI自动化测试、接口测试、性能测试等方向。为大家提供更全面、更深入、更系统化的学习体验，课程还增加了名企私教服务内容，不仅有名企经理为你1v1辅导，还有行业专家进行技术指导，针对性地解决学习、工作中遇到的难题。让找
【深度学习】训练过程中一个OOM的问题，太难查了 weixin_40293999 深度学习深度学习人工智能
现象：各位大佬又遇到过ubuntu的这个问题么？现象是在训练过程中，ssh上不去了，能ping通，没死机，但是ubunutu的pc侧的显示器，鼠标啥都不好用了。只能重启。问题原因：OOM了95G，尼玛！！！！pytorch爆内存了，然后journald假死了，在journald被watchdog干掉之后，系统就崩溃了。这种规模的爆内存一般，即使被oomkill了，也要卡半天的，确实会这样，能不能配
cmd泛滥_与您的后泛滥同事见面：人工智能机器人 weixin_26644585 人工智能 leetcode
cmd泛滥Readytoswapyouroldcube-mateforadisembodiedAI?IPsoftCEOChetanDube,creatorofAIco-workerAMELIA,giveshistakeonthepost-COVIDofficelandscape.准备将您的旧立方体伙伴换成无形的AI？AIsoft同事AMELIA的创始人IPsoft首席执行官ChetanDube阐述
两种方法判断Python的位数是32位还是64位 sanqima Python编程电脑 python 开发语言
Python从1991年发布以来，凭借其简洁、清晰、易读的语法、丰富的标准库和第三方工具，在Web开发、自动化测试、人工智能、图形识别、机器学习等领域发展迅猛。 Python是一种胶水语言，通过Cython库与C/C++语言进行链接，通过Jython库与Java语言进行链接。 Python是跨平台的，可运行在多种操作系统上，包括但不限于Windows、Linux和macOS。这意味着用Py
全自动解密解码神器 — Ciphey K'illCode python_模块 python vscode
Ciphey是一个使用自然语言处理和人工智能的全自动解密/解码/破解工具。简单地来讲，你只需要输入加密文本，它就能给你返回解密文本。就是这么牛逼。有了Ciphey，你根本不需要知道你的密文是哪种类型的加密，你只知道它是加密的，那么Ciphey就能在3秒甚至更短的时间内给你解密，返回你想要的大部分密文的答案。下面就给大家介绍Ciphey的实战使用教程。1.准备开始之前，你要确保Python和pip已
埃隆·马斯克表示特斯拉“没有必要”授权 xAI 模型喜好儿网人工智能 AIGC 马斯克
埃隆·马斯克近日在社交媒体上对《华尔街日报》的一篇报道进行了反驳。该报道指出，马斯克旗下的电动汽车公司特斯拉可能与人工智能初创公司xAI达成了一项收入分享协议，以便特斯拉能够使用xAI的人工智能模型。据称，这些模型将被集成到特斯拉的全自动驾驶（FSD）软件中，并可能用于开发特斯拉汽车的语音助手以及人形机器人擎天柱的软件。喜好儿网然而，马斯克否认了这一说法，他在社交媒体平台上表示，尽管特斯拉确实与x
Reflection 70B——HyperWrite推出的大型语言模型新加坡内哥谈技术语言模型人工智能自然语言处理
每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/在AI技术飞速发展的过程中，我们已经见证了可以写作、编程，甚至创造艺术的模型问世。但有一
5条实操干货有效打造你的个人品牌长安行动派
这是ZerK的第46篇原创相信大家对个人品牌这个词已经不在陌生。尤其是在知识付费的年代，你的个人品牌，就是你的标签！在《深度工作》中说到，在未来有三种人会越来越贵第一种人:能与机器对话，操纵机器的人。人工智能时代的到来，机器毕竟部分取代人类。第二种人:IP，知识产权或者文学潜在财产就像有些网上课程一周卖出的钱和一个机构卖一年一样多。价值99元的课程，10万人购买，是很常见的。爱产出大概就是10万✖
LeetCode[Math] - #66 Plus One Cwind java LeetCode 题解 Algorithm Math
原题链接：#66 Plus One 要求：给定一个用数字数组表示的非负整数，如num1 = {1, 2, 3, 9}, num2 = {9, 9}等，给这个数加上1。注意： 1. 数字的较高位存在数组的头上，即num1表示数字1239 2. 每一位（数组中的每个元素）的取值范围为0~9 难度：简单分析：题目比较简单，只须从数组
JQuery中$.ajax()方法参数详解 AILIKES JavaScript jsonp jquery Ajax json
url: 要求为String类型的参数，（默认为当前页地址）发送请求的地址。 type: 要求为String类型的参数，请求方式（post或get）默认为get。注意其他http请求方法，例如put和 delete也可以使用，但仅部分浏览器支持。 timeout: 要求为Number类型的参数，设置请求超时时间（毫秒）。此设置将覆盖$.ajaxSetup()方法的全局
JConsole & JVisualVM远程监视Webphere服务器JVM Kai_Ge JVisualVM JConsole Webphere
JConsole是JDK里自带的一个工具，可以监测Java程序运行时所有对象的申请、释放等动作，将内存管理的所有信息进行统计、分析、可视化。我们可以根据这些信息判断程序是否有内存泄漏问题。　　使用JConsole工具来分析WAS的JVM问题，需要进行相关的配置。　　首先我们看WAS服务器端的配置. 　　1、登录was控制台https://10.4.119.18
自定义annotation 120153216 annotation
Java annotation 自定义注释@interface的用法一、什么是注释说起注释，得先提一提什么是元数据(metadata)。所谓元数据就是数据的数据。也就是说，元数据是描述数据的。就象数据表中的字段一样，每个字段描述了这个字段下的数据的含义。而J2SE5.0中提供的注释就是java源代码的元数据，也就是说注释是描述java源
CentOS 5/6.X 使用 EPEL YUM源 2002wmj centos
CentOS 6.X 安装使用EPEL YUM源1. 查看操作系统版本[root@node1 ~]# uname -a Linux node1.test.com 2.6.32-358.el6.x86_64 #1 SMP Fri Feb 22 00:31:26 UTC 2013 x86_64 x86_64 x86_64 GNU/Linux [root@node1 ~]#
在SQLSERVER中查找缺失和无用的索引SQL 357029540 SQL Server
--缺失的索引 SELECT avg_total_user_cost * avg_user_impact * ( user_scans + user_seeks ) AS PossibleImprovement , last_user_seek ,
Spring3 MVC 笔记（二） —json+rest优化 7454103 Spring3 MVC
接上次的 spring mvc 注解的一些详细信息！其实也是一些个人的学习笔记呵呵！
替换“\”的时候报错Unexpected internal error near index 1 \ ^ adminjun java “\替换”
发现还是有些东西没有刻子脑子里,,过段时间就没什么概念了,所以贴出来...以免再忘... 在拆分字符串时遇到通过 \ 来拆分，可是用所以想通过转义 \\ 来拆分的时候会报异常 public class Main { /*
POJ 1035 Spell checker(哈希表) aijuans 暴力求解--哈希表
/* 题意：输入字典，然后输入单词，判断字典中是否出现过该单词，或者是否进行删除、添加、替换操作，如果是，则输出对应的字典中的单词要求按照输入时候的排名输出题解：建立两个哈希表。一个存储字典和输入字典中单词的排名，一个进行最后输出的判重 */ #include <iostream> //#define using namespace std; const int HASH =
通过原型实现javascript Array的去重、最大值和最小值 ayaoxinchao JavaScript array prototype
用原型函数（prototype）可以定义一些很方便的自定义函数，实现各种自定义功能。本次主要是实现了Array的去重、获取最大值和最小值。实现代码如下： <script type="text/javascript"> Array.prototype.unique = function() { var a = {}; var le
UIWebView实现https双向认证请求 bewithme UIWebView https Objective-C
什么是HTTPS双向认证我已在先前的博文 ASIHTTPRequest实现https双向认证请求中有讲述，不理解的读者可以先复习一下。本文是用UIWebView来实现对需要客户端证书验证的服务请求，网上有些文章中有涉及到此内容，但都只言片语，没有讲完全，更没有完整的代码，让人困扰不已。但是此知
NoSQL数据库之Redis数据库管理(Redis高级应用之事务处理、持久化操作、pub_sub、虚拟内存) bijian1013 redis 数据库 NoSQL
3.事务处理 Redis对事务的支持目前不比较简单。Redis只能保证一个client发起的事务中的命令可以连续的执行，而中间不会插入其他client的命令。当一个client在一个连接中发出multi命令时，这个连接会进入一个事务上下文，该连接后续的命令不会立即执行，而是先放到一个队列中，当执行exec命令时，redis会顺序的执行队列中
各数据库分页sql备忘 bingyingao oracle sql 分页
ORACLE 下面这个效率很低 SELECT * FROM ( SELECT A.*, ROWNUM RN FROM (SELECT * FROM IPAY_RCD_FS_RETURN order by id desc) A ) WHERE RN <20; 下面这个效率很高 SELECT A.*, ROWNUM RN FROM (SELECT * FROM IPAY_RCD_
【Scala七】Scala核心一：函数 bit1129 scala
1. 如果函数体只有一行代码，则可以不用写{},比如 def print(x: Int) = println(x) 一行上的多条语句用分号隔开，则只有第一句属于方法体，例如 def printWithValue(x: Int) : String= println(x); "ABC" 上面的代码报错，因为，printWithValue的方法
了解GHC的factorial编译过程 bookjovi haskell
GHC相对其他主流语言的编译器或解释器还是比较复杂的，一部分原因是haskell本身的设计就不易于实现compiler，如lazy特性，static typed，类型推导等。关于GHC的内部实现有篇文章说的挺好，这里，文中在RTS一节中详细说了haskell的concurrent实现，里面提到了green thread，如果熟悉Go语言的话就会发现，ghc的concurrent实现和Go有点类
Java-Collections Framework学习与总结-LinkedHashMap BrokenDreams LinkedHashMap
前面总结了java.util.HashMap，了解了其内部由散列表实现，每个桶内是一个单向链表。那有没有双向链表的实现呢？双向链表的实现会具备什么特性呢？来看一下HashMap的一个子类——java.util.LinkedHashMap。
读《研磨设计模式》-代码笔记-抽象工厂模式-Abstract Factory bylijinnan abstract
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * Abstract Factory Pattern * 抽象工厂模式的目的是： * 通过在抽象工厂里面定义一组产品接口，方便地切换“产品簇” * 这些接口是相关或者相依赖的
压暗面部高光 cherishLC PS
方法一、压暗高光&重新着色当皮肤很油又使用闪光灯时，很容易在面部形成高光区域。下面讲一下我今天处理高光区域的心得：皮肤可以分为纹理和色彩两个属性。其中纹理主要由亮度通道（Lab模式的L通道）决定，色彩则由a、b通道确定。处理思路为在保持高光区域纹理的情况下，对高光区域着色。具体步骤为：降低高光区域的整体的亮度，再进行着色。如果想简化步骤，可以只进行着色（参看下面的步骤1
Java VisualVM监控远程JVM crabdave visualvm
Java VisualVM监控远程JVM JDK1.6开始自带的VisualVM就是不错的监控工具. 这个工具就在JAVA_HOME\bin\目录下的jvisualvm.exe, 双击这个文件就能看到界面通过JMX连接远程机器, 需要经过下面的配置: 1. 修改远程机器JDK配置文件 (我这里远程机器是linux).
Saiku去掉登录模块 daizj saiku 登录 olap BI
1、修改applicationContext-saiku-webapp.xml <security:intercept-url pattern="/rest/**" access="IS_AUTHENTICATED_ANONYMOUSLY" /> <security:intercept-url pattern=&qu
浅析 Flex中的Focus dsjt html Flex Flash
关键字：focus、 setFocus、 IFocusManager、KeyboardEvent 焦点、设置焦点、获得焦点、键盘事件一、无焦点的困扰——组件监听不到键盘事件原因：只有获得焦点的组件（确切说是InteractiveObject）才能监听到键盘事件的目标阶段；键盘事件（flash.events.KeyboardEvent）参与冒泡阶段，所以焦点组件的父项（以及它爸
Yii全局函数使用 dcj3sjt126com yii
由于YII致力于完美的整合第三方库，它并没有定义任何全局函数。yii中的每一个应用都需要全类别和对象范围。例如，Yii::app()->user;Yii::app()->params['name'];等等。我们可以自行设定全局函数，使得代码看起来更加简洁易用。(原文地址) 我们可以保存在globals.php在protected目录下。然后，在入口脚本index.php的，我们包括在
设计模式之单例模式二（解决无序写入的问题） come_for_dream 单例模式 volatile 乱序执行双重检验锁
在上篇文章中我们使用了双重检验锁的方式避免懒汉式单例模式下由于多线程造成的实例被多次创建的问题，但是因为由于JVM为了使得处理器内部的运算单元能充分利用，处理器可能会对输入代码进行乱序执行（Out Of Order Execute）优化，处理器会在计算之后将乱序执行的结果进行重组，保证该
程序员从初级到高级的蜕变 gcq511120594 框架工作 PHP android html5
软件开发是一个奇怪的行业，市场远远供不应求。这是一个已经存在多年的问题，而且随着时间的流逝，愈演愈烈。我们严重缺乏能够满足需求的人才。这个行业相当年轻。大多数软件项目是失败的。几乎所有的项目都会超出预算。我们解决问题的最佳指导方针可以归结为——“用一些通用方法去解决问题，当然这些方法常常不管用，于是，唯一能做的就是不断地尝试，逐个看看是否奏效”。现在我们把淫浸代码时间超过3年的开发人员称为
Reverse Linked List hcx2013 list
Reverse a singly linked list. /** * Definition for singly-linked list. * public class ListNode { * int val; * ListNode next; * ListNode(int x) { val = x; } * } */ p
Spring4.1新特性——数据库集成测试 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
C# Ajax上传图片同时生成微缩图(附Demo) liyonghui160com
1.Ajax无刷新上传图片,详情请阅我的这篇文章。（jquery + c# ashx） 2.C#位图处理 System.Drawing。 3.最新demo支持IE7,IE8,Fir
Java list三种遍历方法性能比较 pda158 java
从c/c++语言转向java开发，学习java语言list遍历的三种方法，顺便测试各种遍历方法的性能，测试方法为在ArrayList中插入1千万条记录，然后遍历ArrayList，发现了一个奇怪的现象，测试代码例如以下： package com.hisense.tiger.list; import java.util.ArrayList; import java.util.Iterator;
300个涵盖IT各方面的免费资源（上）——商业与市场篇 shoothao seo 商业与市场 IT资源免费资源
A.网站模板+logo+服务器主机+发票生成 HTML5 UP:响应式的HTML5和CSS3网站模板。 Bootswatch:免费的Bootstrap主题。 Templated:收集了845个免费的CSS和HTML5网站模板。 Wordpress.org|Wordpress.com:可免费创建你的新网站。 Strikingly:关注领域中免费无限的移动优
localStorage、sessionStorage uule localStorage
W3School 例子 HTML5 提供了两种在客户端存储数据的新方法： localStorage - 没有时间限制的数据存储 sessionStorage - 针对一个 session 的数据存储之前，这些都是由 cookie 完成的。但是 cookie 不适合大量数据的存储，因为它们由每个对服务器的请求来传递，这使得 cookie 速度很慢而且效率也不

变分贝叶斯深度学习综述

你可能感兴趣的:(#,深度学习不确定性,深度学习,人工智能)