GZGlenn

PRML读书笔记——采样方法

本章中，我们希望解决的基本的问题涉及到关于⼀个概率分布p(z)寻找某个函数 f(z) 的期望。这⾥， z 的元素可能是离散变量、连续变量或者⼆者的组合。因此，在连续变量的情形下，我们希望计算下⾯的期望

E [f] = \int f (z) p (z) d z

我们假设，使⽤解析的⽅法精确地求出这种期望是⼗分复杂的。因此，我们采用采样的方法抽取出样本，计算出对应的值

本章的采样方法主要包括：重要采样、拒绝采样、蒙特卡罗采样、吉布斯采样、切片采样和混合蒙特卡罗采样等

基本采样方法

这里，我们研究从一个给定的概率分布中生成随机样本的方法

标准概率分布

这考虑如何从简单的非均匀分布中生成随机数。可以从均匀分布开始，利用变换的方法，形成所需要计算的概率分布，并求出这个概率分布的不定积分的反函数。

假设 z 在区间 (0,1) 上均匀分布，我们使用某个函数 f(.) 对 z 进行变换，得到 y=f(z) ，则y上的概率分布为:

p (y) = p (z) ∣ ∣ ∣ d z d y ∣ ∣ ∣

这里，y所具有的分布是我们希望的得到的分布形式。对上式积分，有：

z = h (y) \equiv \int y - \infty p (y ˆ) d y ˆ

它就是 p(y) 的不定积分，因此 y=h−1(z) 。

这里存在两个难点：（1）变换 f 不容易构造（2）不定积分不一定容易求解

为了对非均匀分布采样，考虑另外的方法：拒绝采样和重要采样，但它们只能处理单变量概率分布的情况。

拒绝采样

拒绝采样的思想是，目前需要采样的概率分布形式复杂，我们引入相对简单的概率分布（提议分布，proposal distribution），这个概率分布能覆盖目标分布，然后直接在提议分布上采样，通过一定的准则选择拒绝还是接受当前的采样值。

假设我们希望从概率分布 p(z) 中采样，但是它不是简单的标准概率分布形式，从中采样困难。与大多数情况类似，假设对于任意给定的
z，我们能够很容易计算 p(z) ，即：

p (z) = 1 Z p p ˜ (z)

现在，我们引入简单的提议分布 q(z) 和常数k，使得：

\forall z, k q (z) \geq p ˜ (x)

则函数 kq(z) 被称为比较函数。整体情况下图说明。拒绝采样器的每个步骤涉及到⽣成两个随机数。⾸先，我们从概率分布 q(z) 中⽣成⼀个数 z0 。接下来，我们在区间 [0,kq(z0)] 上的均匀分布
中⽣成⼀个数 u0 。这对随机数在函数 kq(z) 的曲线下⽅是均匀分布。最后，如果 u0>widetildep(z0) ，那
么样本被拒绝，否则 u0 被保留。因此，如果它位于图11.4的灰⾊阴影部分，它就会被拒绝。这样，剩余的点对在曲线 widetildep(z) 下⽅是均匀分布的，因此对应的z值服从概率分布 p(z) 。

一个样本的接受率为 p˜(z)kq(z) ，因此整体样本的接受率为：

p (a c c e p t e d) = \int {p ˜ ( z ) k q ( z )} q (z) d z = 1 k \int p ˜ (z) d z

显然，k越大，整体接受率越低，因此k越低越好，但是k有需要满足限制 kq(z) 处处不小于 p˜(z)

一般而言， q(z) 的形式不啊后确定，可以直接基于概率分布 p(z) 构建提议分布的函数形式。首先，可以从 ln p(z) 的某些格点处开始计算，计算对应的切线，将各个切线连起来形成界限函数。然后从界限分布中采样，如果样本被接受，则他是所求概率分布的样本；反之，将它并入格点的机会中，计算新的切线，优化界限函数。随着格点数量的增加，界限函数对目标概率分布的近似效果逐渐变好。

缺点：因为目标概率分布的情况复杂，找到⼀个较好的提议分布和⽐较函数是⼀件相当困难的事情。此外，接受率随着维度的指数下降是拒绝采样的⼀个⼀般特征。虽然拒绝采样在⼀维或⼆维空间中是⼀个有⽤的⽅法，但是它不适⽤于⾼维空间

重要采样

这种采样方法主要用于估计概率分布的期望。与拒绝采样不同，重要采样不拒绝任何的采样结果，而是给提议分布上的采样结果赋予权重

同样假设直接从 p(z) 采样无法完成，但是给定z， p(z) 很容易计算。为了计算期望，我们均匀地对z空间采样，然后计算期望：

E [f] = ≃ \sum l = 1 L p (z (l)) f (z (l))

显然，这种采样是非常低小的，因为一般而言，目标概率分布都将它的大部分质量限制在z空间的一个很小的区域，也就是说只有很小部分的样本会对求合适产生贡献。

这里再次引入提议分布 q(z) ，期望可以表示为：

E (f) = \int f (z) p (z) d z = \int f (z) p ( z ) q ( z ) q (z) d z ≃ 1 L \sum l = 1 L p ( z ( l ) ) q ( z ( l ) ) f (z (l))

这里， rl=p(z(l))q(z(l)) 称为重要性权重，修正了由于从错误的概率分布中采样引⼊的偏差。注意，与拒绝采样不同，所有⽣成的样本都被保留。

考虑到归一化因子难以求解，因此，一般定义 rl˜=p˜(z(l))q˜(z(l))

则：

E [f] ≃ \sum l = 1 L w l f (z (l))

w l = r ˜ l \sum m r ˜ m = p ˜ ( z ( l ) ) q ( z ( l ) ) \sum m p ˜ ( z ( m ) ) q ( z ( m ) )

缺点：它具有产⽣任意错误的结果的可能性，并且这种错误⽆法检测。这是因为重要采样⽅法的成功严重依赖于采样分布 q(z) 与所求的概率分布 p(z) 的匹配程度。经常出现的情形是 p(z) 变化剧烈，并且⼤部分的质量集中于z空间的⼀个相对较⼩的区域中，此时重要性权重 {rl} 由⼏个具有较⼤值的权值控制，剩余的权值相对较⼩。因此，有效的样本集⼤⼩会⽐表⾯上的样本集⼤⼩L⼩得多。如果没有样本落在 p(z)f(z) 较⼤的区域中，那么问题会更加严重。此时， rl 和 rlf(z(l)) 的表⾯上的⽅差可能很⼩，即使期望的估计可能错得离谱。

采样-重要性-重采样

这个⽅法有两个阶段。在第⼀个阶段， L 个样本 z(1),...,z(L) 从 q(z) 中抽取。然后在第⼆个阶段，用重要性采样的方法得到权重权值 w1,...,wL 。最后，L个样本的第⼆个集合从离散概率分布 (z(1),...,z(L)) 中抽取，概率由权值 (w1,...,wL) 给定。

可以证明，⽣成的L个样本只是近似地服从 p(z) ，但是在极限 L→∞ 的情况下，分布变为了正确的分布。

马尔科夫链蒙特卡罗（MCMC）

前面的基本采样方法在高维空间有很大的局限性。MCMC可以很好地应对样本空间维度的增长，MCMC的采样时针对时序状态的。

首先我们从提议分布中采样，记录下当前状态 z(τ) ，以及依赖于这个当前状态的提议分布 q(z|z(τ)) ，从⽽样本序列 z(1),z(2),... 组成了⼀个马尔科夫链。如果我们有 p(z)=p˜(z)Zp ，那么假定对于任意的z值都可以计算 p˜(z) ，并且提议分布很简单，直接采样容易。在算法的每次迭代中，我们从提议分布中⽣成⼀个候选样本 z∗ ，然后根据⼀个恰当的准则接受这个样本。

这里举一个例子，说明MCMC算法主要想解决的问题。考虑一个随机游走的例子。它有整数组成的状态空间z，概率为；

p (z (τ + 1) = z (τ)) = 0.5

p (z (τ + 1) = z (τ) + 1) = 0.25

p (z (τ + 1) = z (τ) - 1) = 0.25

其中 z(τ) 表⽰在步骤τ的状态。如果初始状态是 z(0)=0 ，那么根据对称性，在时刻 τ 的期望状态也是零，即 E[z(τ)]=0 ，类似地很容易看到 E[(z(τ))2]=τ/2 。因此，在τ步骤之后，随机游⾛所经过的平均距离正⽐于 τ 的平⽅根。这个平⽅根依赖关系是随机游⾛⾏为的⼀个典型性质，表明了随机游⾛在探索状态空间时是很低效的。设计马尔科夫链蒙特卡罗⽅法的⼀个中⼼⽬标就是避免随机游⾛⾏为。

马尔科夫链

这里主要分析马尔科夫链的基本性质——细节平衡性质（detailed balance）

首先，马尔科夫链具有齐次性，即下一时刻的状态只受当前状态的影响。

p (z (m + 1) | z (1), . . ., z (m)) = p (z (m + 1) | z (m))

因此，边缘概率为：

p (z (m + 1)) = \sum z (m) p (z (m + 1) | z (m)) p (z (m))

对于一个概率分布来说，如果马尔科夫链中的每⼀步都让这个概率分布保持不变，那么我们说这个概率分布关于这个马尔科夫链是不变的，或者静⽌的。对于⼀个转移概率为 T(z′,z) 的同质(对任意时刻，转移概率矩阵不变)的马尔科夫链来说，如果下式成立，则概率分布是不变的。

p * (z) = \sum z' T (z', z) p * (z')

细节平衡性质：是确保所求的概率分布 p(z) 不变的⼀个充分（⾮必要）条件，如下式。

p * (z) T (z, z') = p * (z') T (z', z)

满足细节平衡就能收敛到平稳分布，如下：

\sum z' p * (z') T (z', z) = \sum z' p * (z) T (z, z') = p * (z) \sum z' p (z | z') = p * (z)

这里就解释细节平衡得必要性，如果构造的马尔科夫链是的所求的概率分布是不变的，我们就能控制它收敛到指定的分布 p∗(z) 。

Metropolis 算法

我们假定提议分布是对称的，即 q(zA|zB)=q(zB|zA) 对于所有的 zA 和 zB 成⽴。这样，候选的样本被接受的概率为:

A (z *, z (τ)) = m i n (1, p ˜ ( z * ) p ˜ ( z ( τ ) ))

可以这样实现：在单位区间(0, 1)上的均匀分布中随机选择⼀个数u，然后如果 A(z∗,z(τ))>u 就接受这个样本。注意，如果从 z(τ) 到 z∗ 引起了 p(z) 的值的增⼤，那么这个候选样本会被保留。

如果候选样本被接受，那么 z(τ+1)=z∗ ，否则候选样本点 z∗ 被丢弃， z(τ+1) 被设置为 z(τ) ，
然后从概率分布 q(z|z(τ+1)) 中再次抽取⼀个候选样本。当⼀个候选点被拒绝时，前⼀个样本点会被包含到最终的样本的列表中（不会被直接丢弃），从⽽产⽣了样本点的多个副本。

Metropolis-Hastings 算法

它是基于metropolis的改进，这里提议分布不再是对称的，而且接受概率的形式发生改变。在算法的步骤 τ 中，当前状态为 z(τ) ，我们从概率分布 qk(z|z(τ)) 中抽取⼀个样本 z∗ ，则接受率为：

A (z *, z (τ)) = m i n (1, p ˜ ( z * ) q k ( z ( τ ) | z * ) p ˜ ( z ( τ ) ) q k ( z * | z ( τ ) ))

这样设计的理由是，形成的马尔科夫链是满足细节平衡的，也即是不变的马尔科夫链。即使随机游走，也能确保收敛到平稳分布。

吉布斯采样

吉布斯采样是马尔科夫链蒙特卡罗算法的具体情形

考虑我们想采样的概率分布 p(z)=p(z1,...,zM) ，并且假设我们已经选择了马尔科夫链的某个初始的状态。吉布斯采样的每个步骤涉及到将⼀个变量的值替换为以剩余变量的值为条件，从这个概率分布中抽取的那个变量的值

一般步骤如下：

（1）初始化 {zi:i=1,...,M}

（2）对于 τ=1,...,T ：

采样 zτ+11∼p(z1|zτ2,zτ3,...zτM)
采样 zτ+12∼p(z2|zτ+11,zτ3,...zτM)

… …

采样 zτ+1j∼p(zj|zτ+11,zτ+12,...zτ+1j−1,zτj+1,...,zτM)

… …

采样 zτ+1M∼p(zM|zτ+11,zτ+12,...zτ+1M−1)

切片采样

因为Metropolis算法对步长敏感。步长小，会产生随机游走，算法很慢；步长大，拒绝率较高，算法低效。切片采样替工了可以自动调节步长来匹配分布特征的方法。

这种采样方法使用额外的变量u对z进行增广，然后从联合的 (z,u) 空间中采样。比如，概率分布如下：

p ˆ (z, u) = ⎧ ⎩ ⎨ ⎪ ⎪ 1 Z p 0 0 \leq u \leq p ˜ (z) o t h e r s

则z的边缘概率分布为：

\int p ˆ (z, u) d u = \int p ˜ (z) 0 1 Z p d u = p ˜ ( z ) Z p = p (z)

我们可以通过从 pˆ(z,u) 中采样，然后忽略 u 值的⽅式得到 p(z) 的样本。通过交替地对 z 和 u 进⾏采样即可完成这⼀点。给定 z 的值，我们可以计算 p˜(z) 的值，然后在 0≤u≤p˜(z) 上均匀地对 u 进⾏采样，这很容易。然后，我们固定 u ，在由 {z:p˜(z)>u} 定义的分布的“切⽚”上，对z进⾏均匀地采样。

显然，得到u后，直接从穿过概率分布的切⽚中采样很困难。近似方法如下：

从⼀个包含 z(τ) 的具有某个宽度 w 的区域开始，然后测试每个端点，看它们是否位于切⽚内部。如果有端点没在切⽚内部，那么区域在增加 w 值的⽅向上进⾏扩展，知道端点位于区域外。然后， z′ 的⼀个样本被从这个区域中均匀抽取。如果它位于切⽚内，那么它就构成了 z(τ+1) 。如果它位于切⽚外，那么区域收缩，使得 z′ 组成⼀个端点，并且区域仍然包含 z(τ) 。然后，另⼀个样本点从这个缩⼩的区域中均匀抽取，以此类推，直到找到位于切⽚内部的⼀个 z 值。

混合蒙特卡罗采样

Metroplolis算法的主要局限是受步长影响，具有随机游走的行为。混合蒙特卡罗算法将哈密顿动态系统与Metropolis算法相结合，消除与离散化过程关联的任何偏差。

算法使⽤了⼀个马尔科夫链，它由对动量变量 r 的随机更新以及使⽤蛙跳算法对哈密顿动态系统的更新交替组成。在每次应⽤蛙跳算法之后，基于哈密顿函数 H 的值，确定Metropolis准则，确定⽣成的候选状态被接受或者拒绝。因此，如果 (z,r) 是初始状态， (z∗,r∗) 是蛙跳积分后的状态，那么候选状态被接受的概率为

m i n (1, e x p {H (x, r) - H (z *, r *)})

这里的H就是哈密顿动态系统的总能量，为势能和动能之和。感觉这部分没看懂，所以具体推导和分析就省略了

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
python中zeros用法_Python中的numpy.zeros()用法江平舟 python中zeros用法
numpy.zeros()函数是最重要的函数之一,广泛用于机器学习程序中。此函数用于生成包含零的数组。numpy.zeros()函数提供给定形状和类型的新数组,并用零填充。句法numpy.zeros(shape,dtype=float,order='C'参数形状：整数或整数元组此参数用于定义数组的尺寸。此参数用于我们要在其中创建数组的形状,例如(3,2)或2。dtype：数据类型(可选)此参数用于
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
【中国国际航空-注册_登录安全分析报告】风控牛验证码接口安全评测系列安全行为验证极验网易易盾智能手机
前言由于网站注册入口容易被黑客攻击，存在如下安全问题：1.暴力破解密码，造成用户信息泄露2.短信盗刷的安全问题，影响业务及导致用户投诉3.带来经济损失，尤其是后付费客户，风险巨大，造成亏损无底洞所以大部分网站及App都采取图形验证码或滑动验证码等交互解决方案，但在机器学习能力提高的当下，连百度这样的大厂都遭受攻击导致点名批评，图形验证及交互验证方式的安全性到底如何？请看具体分析一、中国国际航空PC
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
七.正则化愿风去了
吴恩达机器学习之正则化（Regularization）http://www.cnblogs.com/jianxinzhou/p/4083921.html从数学公式上理解L1和L2https://blog.csdn.net/b876144622/article/details/81276818虽然在线性回归中加入基函数会使模型更加灵活，但是很容易引起数据的过拟合。例如将数据投影到30维的基函数上，模
机器学习-------数据标准化罔闻_spider 数据分析算法机器学习人工智能
什么是归一化，它与标准化的区别是什么？一作用在做训练时，需要先将特征值与标签标准化，可以防止梯度防炸和过拟合；将标签标准化后，网络预测出的数据是符合标准正态分布的—StandarScaler()，与真实值有很大差别。因为StandarScaler()对数据的处理是（真实值-平均值）/标准差。同时在做预测时需要将输出数据逆标准化提升模型精度：标准化/归一化使不同维度的特征在数值上更具比较性，提高分类
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
两种方法判断Python的位数是32位还是64位 sanqima Python编程电脑 python 开发语言
Python从1991年发布以来，凭借其简洁、清晰、易读的语法、丰富的标准库和第三方工具，在Web开发、自动化测试、人工智能、图形识别、机器学习等领域发展迅猛。 Python是一种胶水语言，通过Cython库与C/C++语言进行链接，通过Jython库与Java语言进行链接。 Python是跨平台的，可运行在多种操作系统上，包括但不限于Windows、Linux和macOS。这意味着用Py
使用最大边际相关性(MMR)选择示例：提高AI模型的多样性和相关性 aehrutktrjk 人工智能 easyui 前端 python
使用最大边际相关性(MMR)选择示例：提高AI模型的多样性和相关性引言在机器学习和自然语言处理领域，选择合适的训练示例对模型性能至关重要。最大边际相关性(MaximalMarginalRelevance,MMR)是一种优秀的示例选择方法，它不仅考虑了示例与输入的相关性，还注重保持所选示例之间的多样性。本文将深入探讨如何使用MMR来选择示例，以提高AI模型的性能和泛化能力。什么是最大边际相关性(MM
LangChain集成指南:如何利用多样化的AI提供商 aehrutktrjk 人工智能 langchain python
LangChain集成指南:如何利用多样化的AI提供商引言在人工智能和机器学习领域,LangChain已成为一个强大而灵活的框架,允许开发者轻松集成各种AI服务提供商。本文将深入探讨LangChain的集成能力,介绍如何利用不同的AI提供商来增强你的应用程序,并提供实用的代码示例。LangChain集成概览LangChain支持多种AI提供商的集成,这些集成可以分为两类:独立包集成:这些提供商有独
机器学习VS深度学习 nfgo 机器学习
机器学习（MachineLearning,ML）和深度学习（DeepLearning,DL）是人工智能（AI）的两个子领域，它们有许多相似之处，但在技术实现和应用范围上也有显著区别。下面从几个方面对两者进行区分：1.概念层面机器学习：是让计算机通过算法从数据中自动学习和改进的技术。它依赖于手动设计的特征和数学模型来进行学习，常用的模型有决策树、支持向量机、线性回归等。深度学习：是机器学习的一个子领
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
【机器学习与R语言】1-机器学习简介苹果酱0567 面试题汇总与解析 java 中间件开发语言 spring boot 后端
1.基本概念机器学习：发明算法将数据转化为智能行为数据挖掘VS机器学习：前者侧重寻找有价值的信息，后者侧重执行已知的任务。后者是前者的先期准备过程：数据——>抽象化——>一般化。或者：收集数据——推理数据——归纳数据——发现规律抽象化：训练：用一个特定模型来拟合数据集的过程用方程来拟合观测的数据：观测现象——数据呈现——模型建立。通过不同的格式来把信息概念化一般化：一般化：将抽象化的知识转换成可用
Python前沿技术：机器学习与人工智能 4.0啊 Python 人工智能 python 机器学习
Python前沿技术：机器学习与人工智能一、引言随着科技的飞速发展，机器学习和人工智能（AI）已经成为了计算机科学领域的热门话题。Python作为一门易学易用且功能强大的编程语言，已经成为了这两个领域的首选语言之一。本文将深入探讨Python在机器学习和人工智能领域的应用，以及一些前沿技术和工具。二、Python机器学习基础2.1机器学习概述机器学习是人工智能（AI）的一个关键子集，它的核心在于让
chatgpt赋能python：如何在Python中计算平均值 tulingtest ChatGpt python chatgpt numpy 计算机
如何在Python中计算平均值计算平均值是数据分析、统计和机器学习等许多领域中的常见任务。Python作为一门功能强大且易于学习的编程语言，为计算平均值提供了多种方法。在本文中，我们将介绍如何在Python中计算平均值。什么是平均值简单来说，平均值是一组数字的总和除以数字的数量。例如，对于数字序列1，3，5，7，9，平均值是(1+3+5+7+9)/5=5。平均值在数据分析中非常有用，因为它可以提供
Python 初学者入门必知： Anaconda是什么？有什么作用？怎么使用？懒大王爱吃狼 Python基础 python 开发语言 python基础 python学习 anaconda anaconda安装 python教程
初学者在学习Python时，经常看到的一个名字是Anaconda。究竟什么是Anaconda，为什么它如此受欢迎？在这篇文章中，我们将探讨Anaconda，了解Anaconda的从安装到使用的。Anaconda是一个免费开源的Python和R编程发行版，包含上千个适用于数据科学和机器学习的包。同时，配备了Spyder和Jupyternotebook等工具，初学者可以使用它们来学习Python，使用
每天五分钟玩转深度学习PyTorch：模型参数优化器torch.optim 幻风_huanfeng 深度学习框架pytorch 深度学习 pytorch 人工智能神经网络机器学习优化算法
本文重点在机器学习或者深度学习中，我们需要通过修改参数使得损失函数最小化(或最大化)，优化算法就是一种调整模型参数更新的策略。在pytorch中定义了优化器optim，我们可以使用它调用封装好的优化算法，然后传递给它神经网络模型参数，就可以对模型进行优化。本文是学习第6步(优化器)，参考链接pytorch的学习路线随机梯度下降算法在深度学习和机器学习中，梯度下降算法是最常用的参数更新方法，它的公式
一切皆是映射：AI的去中心化：区块链技术的融合 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
一切皆是映射：AI的去中心化：区块链技术的融合作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming关键词：AI，区块链，去中心化，智能合约，共识机制，数据安全，隐私保护，分布式账本技术，机器学习，数据隐私1.背景介绍1.1问题的由来随着人工智能（AI）技术的快速发展，其在各个领域的应用越来越广泛，从自动驾驶、智能医疗到金融服务，AI正在改变着我们的生活。
第五届核磁机器学习班（训练营：2023.6.5~6.17）茗创科技
茗创科技专注于脑科学数据处理，涵盖（EEG/ERP,fMRI,结构像,DTI,ASL,FNIRS）等，欢迎留言讨论及转发推荐，也欢迎了解茗创科技的脑电课程，数据处理服务及脑科学工作站销售业务，可添加我们的工程师（微信号MCKJ-zhouyi或17373158786）咨询。★课程简介★基于血氧水平依赖的功能磁共振成像(fMRI)技术,利用其数据构建的功能性脑网络后,发现脑并不是一个单纯对外界刺激进行
如何有效的学习AI大模型？ Python程序员罗宾学习人工智能语言模型自然语言处理架构
学习AI大模型是一个系统性的过程，涉及到多个学科的知识。以下是一些建议，帮助你更有效地学习AI大模型：基础知识储备：数学基础：学习线性代数、概率论、统计学和微积分等，这些是理解机器学习算法的数学基础。编程技能：掌握至少一种编程语言，如Python，因为大多数AI模型都是用Python实现的。理论学习：机器学习基础：了解监督学习、非监督学习、强化学习等基本概念。深度学习：学习神经网络的基本结构，如卷
tomcat基础与部署发布暗黑小菠萝 Tomcat java web
从51cto搬家了，以后会更新在这里方便自己查看。做项目一直用tomcat，都是配置到eclipse中使用，这几天有时间整理一下使用心得，有一些自己配置遇到的细节问题。 Tomcat：一个Servlets和JSP页面的容器，以提供网站服务。一、Tomcat安装安装方式：①运行.exe安装包 &n
网站架构发展的过程 ayaoxinchao 数据库应用服务器网站架构
1.初始阶段网站架构：应用程序、数据库、文件等资源在同一个服务器上 2.应用服务和数据服务分离：应用服务器、数据库服务器、文件服务器 3.使用缓存改善网站性能：为应用服务器提供本地缓存，但受限于应用服务器的内存容量，可以使用专门的缓存服务器，提供分布式缓存服务器架构 4.使用应用服务器集群改善网站的并发处理能力：使用负载均衡调度服务器，将来自客户端浏览器的访问请求分发到应用服务器集群中的任何
[信息与安全]数据库的备份问题 comsci 数据库
如果你们建设的信息系统是采用中心-分支的模式,那么这里有一个问题如果你的数据来自中心数据库,那么中心数据库如果出现故障,你的分支机构的数据如何保证安全呢? 是否应该在这种信息系统结构的基础上进行改造,容许分支机构的信息系统也备份一个中心数据库的文件呢? &n
使用maven tomcat plugin插件debug关联源代码商人shang maven debug 查看源码 tomcat-plugin
*首先需要配置好'''maven-tomcat7-plugin'''，参见[[Maven开发Web项目]]的'''Tomcat'''部分。 *配置好后，在[[Eclipse]]中打开'''Debug Configurations'''界面，在'''Maven Build'''项下新建当前工程的调试。在'''Main'''选项卡中点击'''Browse Workspace...'''选择需要开发的
大访问量高并发 oloz 大访问量高并发
大访问量高并发的网站主要压力还是在于数据库的操作上，尽量避免频繁的请求数据库。下面简要列出几点解决方案： 01、优化你的代码和查询语句，合理使用索引 02、使用缓存技术例如memcache、ecache将不经常变化的数据放入缓存之中 03、采用服务器集群、负载均衡分担大访问量高并发压力 04、数据读写分离 05、合理选用框架，合理架构(推荐分布式架构)。
cache 服务器小猪猪08 cache
Cache 即高速缓存.那么cache是怎么样提高系统性能与运行速度呢？是不是在任何情况下用cache都能提高性能？是不是cache用的越多就越好呢？我在近期开发的项目中有所体会，写下来当作总结也希望能跟大家一起探讨探讨，有错误的地方希望大家批评指正。　　1.Cache 是怎么样工作的? 　　Cache 是分配在服务器上
mysql存储过程香水浓 mysql
Description:插入大量测试数据 use xmpl; drop procedure if exists mockup_test_data_sp; create procedure mockup_test_data_sp( in number_of_records int ) begin declare cnt int; declare name varch
CSS的class、id、css文件名的常用命名规则 agevs JavaScript UI 框架 Ajax css
CSS的class、id、css文件名的常用命名规则 (一)常用的CSS命名规则　　头：header 　　内容：content/container 　　尾：footer 　　导航：nav 　　侧栏：sidebar 　　栏目：column 　　页面外围控制整体布局宽度：wrapper 　　左右中：left right
全局数据源 AILIKES java tomcat mysql jdbc JNDI
实验目的：为了研究两个项目同时访问一个全局数据源的时候是创建了一个数据源对象，还是创建了两个数据源对象。 1：将diuid和mysql驱动包（druid-1.0.2.jar和mysql-connector-java-5.1.15.jar）copy至%TOMCAT_HOME%/lib下；2：配置数据源，将JNDI在%TOMCAT_HOME%/conf/context.xml中配置好,格式如下：&l
MYSQL的随机查询的实现方法 baalwolf mysql
MYSQL的随机抽取实现方法。举个例子，要从tablename表中随机提取一条记录，大家一般的写法就是：SELECT * FROM tablename ORDER BY RAND() LIMIT 1。但是，后来我查了一下MYSQL的官方手册，里面针对RAND()的提示大概意思就是，在ORDER BY从句里面不能使用RAND()函数，因为这样会导致数据列被多次扫描。但是在MYSQL 3.23版本中，
JAVA的getBytes()方法 bijian1013 java eclipse unix OS
在Java中，String的getBytes()方法是得到一个操作系统默认的编码格式的字节数组。这个表示在不同OS下，返回的东西不一样！ String.getBytes(String decode)方法会根据指定的decode编码返回某字符串在该编码下的byte数组表示，如： byte[] b_gbk = "
AngularJS中操作Cookies bijian1013 JavaScript AngularJS Cookies
如果你的应用足够大、足够复杂，那么你很快就会遇到这样一咱种情况：你需要在客户端存储一些状态信息，这些状态信息是跨session(会话)的。你可能还记得利用document.cookie接口直接操作纯文本cookie的痛苦经历。幸运的是，这种方式已经一去不复返了，在所有现代浏览器中几乎
[Maven学习笔记五]Maven聚合和继承特性 bit1129 maven
Maven聚合在实际的项目中，一个项目通常会划分为多个模块，为了说明问题，以用户登陆这个小web应用为例。通常一个web应用分为三个模块： 1. 模型和数据持久化层user-core, 2. 业务逻辑层user-service以 3. web展现层user-web， user-service依赖于user-core user-web依赖于user-core和use
【JVM七】JVM知识点总结 bit1129 jvm
1. JVM运行模式 1.1 JVM运行时分为-server和-client两种模式，在32位机器上只有client模式的JVM。通常，64位的JVM默认都是使用server模式，因为server模式的JVM虽然启动慢点，但是，在运行过程，JVM会尽可能的进行优化 1.2 JVM分为三种字节码解释执行方式：mixed mode, interpret mode以及compiler
linux下查看nginx、apache、mysql、php的编译参数 ronin47
在linux平台下的应用，最流行的莫过于nginx、apache、mysql、php几个。而这几个常用的应用，在手工编译完以后，在其他一些情况下（如：新增模块），往往想要查看当初都使用了那些参数进行的编译。这时候就可以利用以下方法查看。 1、nginx [root@361way ~]# /App/nginx/sbin/nginx -V nginx: nginx version: nginx/
unity中运用Resources.Load的方法？ brotherlamp unity视频 unity资料 unity自学 unity unity教程
问：unity中运用Resources.Load的方法？答：Resources.Load是unity本地动态加载资本所用的方法,也即是你想动态加载的时分才用到它,比方枪弹,特效,某些实时替换的图像什么的,主张此文件夹不要放太多东西,在打包的时分,它会独自把里边的一切东西都会集打包到一同,不论里边有没有你用的东西,所以大多数资本应该是自个建文件放置 1、unity实时替换的物体即是依据环境条件
线段树-入门 bylijinnan java 算法线段树
/** * 线段树入门 * 问题：已知线段[2,5] [4,6] [0,7]；求点2,4,7分别出现了多少次 * 以下代码建立的线段树用链表来保存，且树的叶子结点类似[i,i] * * 参考链接：http://hi.baidu.com/semluhiigubbqvq/item/be736a33a8864789f4e4ad18 * @author lijinna
全选与反选 chicony 全选
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <html> <head> <title>全选与反选</title>
vim一些简单记录 chenchao051 vim
mac在/usr/share/vim/vimrc linux在/etc/vimrc 1、问：后退键不能删除数据，不能往后退怎么办？答：在vimrc中加入set backspace=2 2、问：如何控制tab键的缩进？答：在vimrc中加入set tabstop=4 (任何
Sublime Text 快捷键 daizj 快捷键 sublime
[size=large][/size]Sublime Text快捷键：Ctrl+Shift+P：打开命令面板Ctrl+P：搜索项目中的文件Ctrl+G：跳转到第几行Ctrl+W：关闭当前打开文件Ctrl+Shift+W：关闭所有打开文件Ctrl+Shift+V：粘贴并格式化Ctrl+D：选择单词，重复可增加选择下一个相同的单词Ctrl+L：选择行，重复可依次增加选择下一行Ctrl+Shift+L：
php 引用(&)详解 dcj3sjt126com PHP
在PHP 中引用的意思是：不同的名字访问同一个变量内容. 与Ｃ语言中的指针是有差别的．Ｃ语言中的指针里面存储的是变量的内容在内存中存放的地址变量的引用 PHP 的引用允许你用两个变量来指向同一个内容复制代码代码如下: <? $a="ABC"; $b =&$a; echo
SVN中trunk,branches,tags用法详解 dcj3sjt126com SVN
Subversion有一个很标准的目录结构，是这样的。比如项目是proj，svn地址为svn://proj/，那么标准的svn布局是svn://proj/|+-trunk+-branches+-tags这是一个标准的布局，trunk为主开发目录，branches为分支开发目录，tags为tag存档目录（不允许修改）。但是具体这几个目录应该如何使用，svn并没有明确的规范，更多的还是用户自己的习惯。
对软件设计的思考 e200702084 设计模式数据结构算法 ssh 活动
软件设计的宏观与微观软件开发是一种高智商的开发活动。一个优秀的软件设计人员不仅要从宏观上把握软件之间的开发，也要从微观上把握软件之间的开发。宏观上，可以应用面向对象设计，采用流行的SSH架构，采用web层，业务逻辑层，持久层分层架构。采用设计模式提供系统的健壮性和可维护性。微观上，对于一个类，甚至方法的调用，从计算机的角度模拟程序的运行情况。了解内存分配，参数传
同步、异步、阻塞、非阻塞 geeksun 非阻塞
同步、异步、阻塞、非阻塞这几个概念有时有点混淆，在此文试图解释一下。同步：发出方法调用后，当没有返回结果，当前线程会一直在等待（阻塞）状态。场景：打电话，营业厅窗口办业务、B/S架构的http请求-响应模式。异步：方法调用后不立即返回结果，调用结果通过状态、通知或回调通知方法调用者或接收者。异步方法调用后，当前线程不会阻塞，会继续执行其他任务。实现：
Reverse SSH Tunnel 反向打洞實錄 hongtoushizi ssh
實際的操作步驟： # 首先，在客戶那理的機器下指令連回我們自己的 Server，並設定自己 Server 上的 12345 port 會對應到幾器上的 SSH port ssh -NfR 12345:localhost:22 [email protected] # 然後在 myhost 的機器上連自己的 12345 port，就可以連回在客戶那的機器 ssh localhost -p 1
Hibernate中的缓存 Josh_Persistence 一级缓存 Hiberante缓存查询缓存二级缓存
Hibernate中的缓存一、Hiberante中常见的三大缓存：一级缓存，二级缓存和查询缓存。 Hibernate中提供了两级Cache，第一级别的缓存是Session级别的缓存，它是属于事务范围的缓存。这一级别的缓存是由hibernate管理的，一般情况下无需进行干预；第二级别的缓存是SessionFactory级别的缓存，它是属于进程范围或群集范围的缓存。这一级别的缓存
对象关系行为模式之延迟加载 home198979 PHP 架构延迟加载
形象化设计模式实战 HELLO!架构一、概念 Lazy Load：一个对象，它虽然不包含所需要的所有数据，但是知道怎么获取这些数据。延迟加载貌似很简单，就是在数据需要时再从数据库获取，减少数据库的消耗。但这其中还是有不少技巧的。二、实现延迟加载实现Lazy Load主要有四种方法：延迟初始化、虚
xml 验证 pengfeicao521 xml xml解析
有些字符，xml不能识别，用jdom或者dom4j解析的时候就报错 public static void testPattern() { // 含有非法字符的串 String str = "Jamey친Ñ&#1282
div设置半透明效果 spjich css 半透明
为div设置如下样式： div{filter:alpha(Opacity=80);-moz-opacity:0.5;opacity: 0.5;} 说明： 1、filter：对win IE设置半透明滤镜效果，filter:alpha(Opacity=80)代表该对象80%半透明，火狐浏览器不认2、-moz-opaci
你真的了解单例模式么？ w574240966 java 单例设计模式 jvm
单例模式，很多初学者认为单例模式很简单，并且认为自己已经掌握了这种设计模式。但事实上，你真的了解单例模式了么。一，单例模式的5中写法。（回字的四种写法，哈哈。） 1，懒汉式（1）线程不安全的懒汉式 public cla