Sunburst7

参数估计—最大似然估计与贝叶斯估计

文章目录

一参数估计
二最大似然估计
- 2.1 参数分量
- 2.2 基本原理
- 2.3 高斯情况
- - 2.3.1 协方差矩阵 $\Sigma$ 已知，而均值 $\mu$ 未知
  - 2.3.2 协方差矩阵 $\Sigma$ 和均值 $\mu$ 都未知
三贝叶斯估计
- 3.1 基本原理
- 3.2 高斯情况下的贝叶斯估计
- - 3.2.1 单变量情况第一步： $p(\mu|D)$
  - 3.2.2 单变量情况第二步： $p(\textbf{x}|D)$
四最大似然估计与贝叶斯估计比较
参考

一参数估计

在贝叶斯决策论中，我们已经学习了如何根据先验概率 $P(\omega_i)$ 与类条件概率密度 $p(\textbf{x}|\omega_i)$ 来设计最优分类器。但在实际应用中，通常得不到有关问题的概率结构的全部信息。通常的解决方案是利用这些训练样本来估计问题中所涉及的先验概率和类条件密度函数，并把这些估计的结果当做实际问题的先验概率和类条件概率密度，然后在设计分类器

在典型的监督学习问题中，有标注的样本估计先验概率不困难，最大的困难在于估计类条件概率密度：

已有的训练样本数太少，很难满足所有的特征都存在的情况
当用于表示特征的向量x的维数较大时，就会产生严重的计算复杂度问题（算法的执行时间，系统的资源开销…）

但如果先验知识允许我们把条件概率密度进行参数化，例如：我们可以假设 $p(\textbf{x}|\omega_i)$ 是一个多元高斯分布，其均值是 $\mu_i$ ，协方差矩阵为 $\Sigma_i$ 。这样我们就把问题从估计完全未知的类条件概率密度 $p(\textbf{x}|\omega_i)$ 转化为了估计参数 $\mu_i$ 与 $\Sigma_i$ 。这样的方法被称为参数估计方法。与之对应的也有非参数估计方法。

参数估计问题是统计学中的经典问题，主要的解决方案有两种，分别对应统计学中的两大学派：

最大似然估计——频率学派（Frequentist）
贝叶斯估计——贝叶斯学派（Bayesian）

当然，在参数估计完成后，我们仍然使用后验概率作为分类准则。

二最大似然估计

2.1 参数分量

根据每个样本所属的类别对样本集 $D$ 进行分类： $D_1,D_2...,D_c$ ，任意一个分类样本集 $D_j$ 中的样本都是独立的根据类条件概率密度函数 $p(\textbf{x}|\omega_j)$ 来抽取的。因此获得一个重要假设：每个样本集中的样本都是独立同分布的随机变量(independent and identically distributed：i.i.d)，我们还假设每一个类的类条件概率密度 $p(\textbf{x}|\omega_j)$ 的形式都是已知的，未知的是具体的参数向量 $\theta_j$ 的值。比如：假设 $p(\textbf{x}|\omega_j)$ 服从多维正态分布，这样向量 $\theta_j$ 就由分量 $\mu_j,\Sigma_j$ 所组成。

为了强调类条件概率密度函数 $p(\textbf{x}|\omega_j)$ 依赖于参数向量 $\theta_j$ 的情况，通常写为形如 $p(\textbf{x}|\omega_j,\theta_j)$ 的形式。因此**最大似然估计（MLE）**解决的就是正确的估计各个类别的具体的参数向量： $\theta_1,\theta_2,...\theta_c$ 。

2.2 基本原理

问题其实就变成了一个条件概率最大的求解，即在已有的训练集的条件下，求使得 $p (θ ∣ D)$ 最大的参数 $\theta$ ，形式化表达为求解
$\hat{\theta}=\underset{\theta}{argmax}\;p(θ|D)\\$
而根据条件概率公式有
$p(\theta|D)=\frac{p(D|\theta)p(\theta)}{p(D)}$
因为我们在极大似然估计中假设 $\theta$ 是确定的，所以 $p(\theta)$ 就是一个常数。 $p (D)$ 同样是根据已有的数据得到的，也是确定的，或者我们可以把其看作是对整个概率的一个归一化因子。这时候，求解公式 (1) 就变成了求解
$\hat{\theta}=\underset{\theta}{argmax}\;p(D|\theta)\\$
一个有监督的总的样本集分为c类，我们要估计每个类的后验概率，有c个独立的问题，每个问题解决思路相同如下：已知样本集 $D$ 中有n个样本 $x_1,x_2...,x_n$ 。由于这些样本独立同分布，因此由（3）中的似然函数得：【2】
$L(\theta)=p(D|\theta)=\prod_{k=1}^np(\textbf{x}_k|\theta)$
因为样本集 $D$ 已知， $p(D|\theta)$ 可以看作是参数向量 $\theta$ 的函数，参数向量 $\theta$ 的最大似然估计，就是使似然函数： $p(D|\theta)$ 达到最大值的参数向量，记为 $\hat{\theta}$ 。为了方便分析取对数，定义对数似然函数：

$l(\theta|D)=lnp(D|\theta)$
如果实际的待求参数的个数为p，则参数向量 $\theta$ 可以写成如下的p维向量的形式： $\theta=(\theta_1,\theta_2**,...,\theta_p)^t$ 。**记 $\nabla_\theta$ 为梯度算子（构建求偏导数的数学式）**这样用数学语言表示求 $\hat{\theta}$ 的全过程：
$\nabla_\theta=\begin{bmatrix} \frac{\partial }{\partial \theta_1}\\ ...\\ \frac{\partial }{\partial \theta_p} \end{bmatrix}\\ l(\theta|D)=ln\sum_{k=1}^np(\textbf{x}_k|\theta)\\ 计算：\hat{\theta}=\underset{\theta}{argmax}\;l(\theta|D)\\ 等价于： \nabla_\theta l=\sum_{k=1}^n\nabla_\theta lnp(\textbf{x}_k|\theta)=0$
注意：求得的解 $\hat{\theta}$ 可能是全局最大值点，也可能是局部极值点。

2.3 高斯情况

深入讨论当训练样本服从多元正态分布时的情况。

2.3.1 协方差矩阵 $\Sigma$ 已知，而均值 $\mu$ 未知

我们得到以下结论，对于均值的最大似然估计就是对全体样本取平均。

2.3.2 协方差矩阵 $\Sigma$ 和均值 $\mu$ 都未知

高斯分布的更典型的情况是协方差矩阵 $\Sigma$ 和均值 $\mu$ 都未知。这样参数向量 $\theta$ 由两个分量组成。

先考虑单变量的情况
当高斯函数是多元时，最大似然估计的结果是：
$\hat{\mu}=\frac{1}{n}\sum_{k=1}^{n}\textbf{x}_k\\ \hat{\Sigma}=\frac{1}{n}(\textbf{x}_k-\hat{\mu})(\textbf{x}_k-\hat{\mu})^t$

**均值的最大似然估计就是样本的均值，而协方差的最大似然估计是n个 $(\textbf{x}_k-\hat{\mu})(\textbf{x}_k-\hat{\mu})^t$ 的算术平均。**实际上对方差的最大似然估计是有偏的估计，样本的协方差矩阵 $C=\frac{1}{n-1}(\textbf{x}_k-\hat{\mu})(\textbf{x}_k-\hat{\mu})^t$ ，而我们估计的方差是 $\hat{\sigma}=\frac{n-1}{n}C$

样本协方差矩阵的推导过程【2】：

三贝叶斯估计

3.1 基本原理

MLP通过最大化似然函数 $L(\theta)$ 从而找出参数 $\theta$ ，思想在于找出能最大概率生成这批数据的参数。但是这种做法完全依赖于数据本身，当数据量大的时候，最大似然估计往往能很好的估计出参数 $\theta$ ；但是当数据量小的时候，估计出来的结果并不会很好。就例如丢硬币问题，当我们投掷了5次，得出了正正正正正的结果，极大似然估计会得出投出正面的概率为100%！这显然是不符常理的。

贝叶斯派的人认为，后验概率中被估计的参数同样服从一种已知的分布，即参数也为一个随机变量。他们在估计参数前会先带来先验知识，例如参数在[0.5,0.6]的区域内出现的概率最大，在引入了先验知识后利用样本估计出参数分布的形式，在数据量小的情况下估计出来的结果往往会更合理。【2】

我们希望利用现有的全部信息来为测试样本x计算分类的依据：后验概率 $P(\omega_i|\textbf{x})$ （现有的全部信息一部分为我们的先验知识，比如未知概率密度函数的形式，未知参数取值范围；另一部分则来自训练集本身），假设已有训练集 $D={D_1,D_2,...,D_c}$ ，改写后验概率为： $P(\omega_i|\textbf{x},D)$ 表示训练集的重要性，则贝叶斯公式为：
$P(\omega_i|\textbf{x},D)=\frac{p(\textbf{x}|\omega_i,D)P(\omega_i|D)}{\sum_{j=1}^{c}p(\textbf{x}|\omega_i,D)P(\omega_j|D)}$

这一公式指出我们能够根据训练样本提供的信息来确定类条件概率密度和先验概率。
通常认为先验概率可以事先得到，或简单计算得到， $P(\omega_i|D)$ 可以简写为 $P(\omega_i)$
有监督学习可以把每个样本都归到它所属的类中，如果 $i\not=j$ ，那么样本集 $D_i$ 中的训练样本就对 $p(\textbf{x}|\omega_j,D)$ 没有任何影响，这样就产生两个简化：
- 能够对每一个类分别处理：只是用 $D_i$ 中的训练样本就能确定 $p(\textbf{x}|\omega_j,D)$
- 能够对每个类进行分别处理，公式中说明类别的符号都可以省略
本质上我们处理的是c个独立的问题，每个问题形式：已知一组训练样本D，根据这些样本估计 $p(\textbf{x}|D)$ （未简化为 $p(\textbf{x}|\omega_i,D)$ ）

参数估计法的前提是每个类的类条件概率密度形式已知，参数向量 $\theta$ 未知。对于任意一个测试样本x，去除类符号 $\omega_i$ 简化为 $p(\textbf{x}|\theta)$ 且形式已知。而贝叶斯估计与最大似然估计的区别体现在，我们不认为 $\theta$ 是一个固定但未知的值，而是服从一个概率分布 $p(\theta)$ 。根据 $p(\textbf{x}|\theta)$ 、 $p(\theta)$ 、与 $D$ ，我们可以得到未知参数 $\theta$ 的后验概率密度函数 $p(\theta|D)$
$p(\theta|D)=\frac{p(\theta)p(D|\theta)}{\int p(\theta)p(D|\theta)d\theta}\\ 其中:p(D|\theta)=\prod_{i=1}^{n}p(\textbf{x}_k|\theta)【这里\textbf{x}_k是训练样本集的某一个样本】$
接着根据 $P(\theta|D)$ 积分估算测试样本的后验概率 $p(\textbf{x}|D)$ ：
$p(\textbf{x}|D)=\int p(\textbf{x},\theta|D)d\theta\\=\int p(\textbf{x}|\theta,D)p(\theta|D)d\theta$
由于对测试样本x和训练样本集D的选取是独立进行的， $p(\textbf{x}|\theta,D)=p(\textbf{x}|\theta)$ ，公式(10)改为：
$p(\textbf{x}|D)=\int p(\textbf{x}|\theta)p(\theta|D)d\theta$

总结整个贝叶斯估计分为三个阶段：

根据样本与先验知识求得参数的后验概率
根据参数的后验概率与类条件概率密度的形式求得每个类的具体的类条件概率密度
最后求出每个类的后验概率

3.2 高斯情况下的贝叶斯估计

对高斯正态分布的情况，用贝叶斯估计的方法来计算未知参数 $\theta$ 的后验概率密度函数 $p(\theta|D)$ 和设计分类器所需的类条件概率密度函数 $p(\textbf{x}|D)$ ，其中假设 $p(\textbf{x}|\mu)\sim N(\mu,\Sigma)$ （相当于第一步中的 $p(\textbf{x}|\theta)$ ）

3.2.1 单变量情况第一步： $p(\mu|D)$

先考虑只有均值 $\mu$ 未知的情况，同时假设特征向量是一维的。 $p(x|\mu)\sim N(\mu,\Sigma)$ ，而且我们认为所有关于均值 $\mu$ 的先验知识都在先验概率密度函数 $p(\mu)$ 中，且均值 $\mu$ 服从 $p(\mu)\sim N(\mu_0,\sigma^2_0)$ （ $\mu_0,\sigma_0^2$ 已知），根据3.1节总结的贝叶斯估计三步走：

我们发现 $p(\mu|D)$ 是一个指数函数，且指数部分是 $\mu$ 的二次型，因此 $p(\mu|D)$ 实际上任然是正态分布，把 $p(\mu|D)$ 写成下面的形式：

利用对应位置系数相等的原则就可以求出 $\mu_n,\sigma_n^2$ 的值：

上述方程显示了先验知识和样本观测结果是如何被结合在一起，并且形成 $\mu$ 的后验概率密度函数 $p(\mu|D)$ 的，总的来说：

$\mu_n$ 代表在观测n个样本后对 $\mu$ 的真实值的最好估计， $\mu_n$ 是 $\mu_0与\hat{\mu}_n$ 的线性组合
$\sigma_n^2$ 表示对这种估计的不确定性（取值更离散，不集中）
- 如果 $\sigma_0 \not=0$ ，当n趋近于 $\infty$ ， $\mu_n$ 趋近于样本均值 $\hat{\mu}_n$ ，
- 当 $\sigma_0=0$ 时， $\mu_n=\mu_0$ ，这是一种退化的情况：我们对先验估计 $\mu_0$ 是如此的确信，以至于任何观测样本都无法改变我们的认知。
- 当 $\sigma_0$ 远大于 $\sigma$ ，表示我们对先验估计 $\mu_0$ 如此的不确信以至于直接拿样本均值 $\hat{\mu}_n$ 当做 $\mu$
根据公式（7）， $\sigma_n^2$ 是n的单调递减函数，也就是说每观测一个样本，我们对 $\mu$ 的估计的不确定性就会减小，当 $\mu$ 增加时， $p(\mu|D)$ 的概率密度图就会变得更尖锐，当n趋近于无穷大时，逼近狄拉克函数。

狄拉克δ函数是一个广义函数，在物理学中常用其表示质点、点电荷等理想模型的密度分布，该函数在除了零以外的点取值都等于零，而其在整个定义域上的积分等于1。

狄拉克δ函数在概念上，它是这么一个“函数”：在除了零以外的点函数值都等于零，而其在整个定义域上的积分等于1。【4】

3.2.2 单变量情况第二步： $p(\textbf{x}|D)$

在得到均值的后验概率密度 $p(\mu|D)$ 后，我们就可以计算类条件概率密度 $p(\textbf{x}|D)$ （实际上是 $p(\textbf{x}|\omega_i,D)$ ，把c个问题独立，去除类有关变量后）

求得类条件概率密度后再带入到公式(19)就能求出后验概率了。

四最大似然估计与贝叶斯估计比较

最大似然估计与贝叶斯估计在训练样本趋于无穷时效果是一样的，然而在实际的问题中，训练样本总是有限的，决定我们选择哪个方法的主要因素有

计算复杂度：MLE只涉及一些微分与求极值，而贝叶斯估计计算复杂的积分
可理解性：MLE是基于设计者所提供的训练样本的一个最佳解答，而贝叶斯估计方法得到的结果则是许多可行解的加权平均值，反映出对各种可行解的不确定程度
对初始先验知识的信任程度：MLE得到的类条件概率密度 $p(\textbf{x}|\hat{\theta})$ 形式与先验的假设是一样的，而贝叶斯估计得到的形式可能与初始假设不相同，贝叶斯方法能比MLE利用更多有用的信息。

总结贝叶斯方法有很强的理论基础，但在实际应用中最大似然估计更加简便，且性能也相差无几。

参考

【1】模式分类（第二版）

【2】(1条消息) 极大似然估计与贝叶斯估计_Jim_Liu-CSDN博客_极大似然估计和贝叶斯估计

【3】(20 封私信 / 29 条消息) 为什么样本方差（sample variance）的分母是 n-1？ - 知乎 (zhihu.com)

【4】百度百科：狄拉克δ函数

AIOps：解决企业IT挑战的智能利器雅菲奥朗认证培训 AIOps SRE 可观测性
前言：在当今数字化的时代，企业IT基础设施和应用程序规模不断扩大，面临着日益复杂的挑战。在这种情况下，AIOps人工智能运维成为解决企业IT运维困境的智能利器。AIOps与可观测性密切相关，可观测性是实现AIOps的基础。通过收集、监视和理解系统数据，AIOps能够自动化运维任务、实时监控系统状态、预测潜在问题，从而提高效率和稳定性。AIOps尤其适用于IT运维部门，这是一个迫切需要此类技术的群体
使用AIOps进行更好的事件管理茵赛飞3D CAD数据转换软件 pagerduty devops 人工智能运维
DevOps为科技界带来了更加协作和高效的工作流程。随着AIOps的集成，自动化更进一步，使用人工智能为团队提供更快的根本原因分析和算法降噪。主要从采用AIOps中受益的主要领域之一是事件管理。AIOps可以帮助DevOps团队自动化工作流程，以实现更智能、更高效的事件管理，从而腾出时间让IT运营团队成员专注于创新以改善用户体验。在本文中，我们将了解AIOps如何从检测和识别到响应改进事件管理，以
AI大模型编程能力对比：Deepseek&Claude&Gemini 黑夜路人（heiyeluren） AI人工智能人工智能 ai AIGC 语言模型
在当今快速发展的技术领域，人工智能（AI）模型在编程和数据处理方面的应用越来越广泛。不同的AI模型因其独特的设计理念和技术优势，适用于不同的编程任务和场景。本文将对三种主流的AI模型——DeepSeekv3、GeminiFlash2.0和Claude3.5Sonnet的编程能力进行详细对比，帮助读者根据具体需求选择最合适的工具。同时对DeepSeekv3、GeminiFlash2.0和Claude
DeepSeek：智能搜索与分析的新纪元 XRC2231 学习
在人工智能浪潮席卷全球的今天，DeepSeek如同一颗璀璨的新星，以其独特的魅力和强大的功能，在AI领域脱颖而出。DeepSeek，这一基于深度学习和数据挖掘技术的智能搜索与分析系统，不仅重新定义了搜索引擎的边界，更以其卓越的性能和广泛的应用场景，为全球用户带来了前所未有的智能体验。本文将从DeepSeek的定义、特点、应用场景、优势等方面进行全面而深入的介绍，带您领略这一新兴技术的独特魅力。一、
哈尔滨工业大学DeepSeek公开课人工智能：大模型原理技术与应用-从GPT到DeepSeek｜附视频下载方法你觉得205 人工智能机器学习大数据 ai 知识图谱 python 运维
导读INTRODUCTION今天继续哈尔滨工业大学车万翔教授带来了一场主题为“DeepSeek技术前沿与应用”的报告。本报告深入探讨了大语言模型在自然语言处理（NLP）领域的核心地位及其发展历程，从基础概念出发，延伸至语言模型在机器翻译、拼音输入法、语音识别等任务中的关键作用。强调了语言模型不仅辅助其他NLP任务，本身也蕴含大量知识，如地理信息、语义理解和推理能力。随着技术的发展，尤其是trans
机器学习knnlearn1 XW-ABAP 机器学习机器学习人工智能
importmatplotlib.pyplotaspltimportnumpyasnpimportoperator#定义一个函数用于创建数据集defcreateDataSet():#定义特征矩阵，每个元素是一个二维坐标点，代表不同策略数据点的坐标group=np.array([[20,3],[15,5],[18,1],[5,17],[2,15],[3,20]])#定义每个数据点对应的标签，用于区分
基于 MySQL 和 Spring Boot 的在线论坛管理系统设计与实现城南|阿洋-计算机从小白到大神 mysql spring boot 数据库
markdownCopy✌全网粉丝20W+,csdn特邀作者、博客专家、CSDN[新星计划]导师、java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、pyhton、机器学习技术领域和毕业项目实战✌哈喽兄弟们，好久不见哦～最近整理了一下之前写过的一些小项目/毕业设计。发现还是有很多存货的，想一想既然放在电脑里面也吃灰，那么还不如分享出去，没准还可以帮助到
零基础入门机器学习：用Scikit-learn实现鸢尾花分类藍海琴泉机器学习 scikit-learn 分类
适合人群：机器学习新手|数据分析爱好者|需快速展示案例的学生一、引言：为什么要学这个案例？目的：明确机器学习解决什么问题，建立学习信心。机器学习定义：让计算机从数据中自动学习规律（如分类鸢尾花品种）。为什么选鸢尾花数据集：数据量小、特征明确，适合教学演示。Scikit-learn优势：提供现成算法和工具，无需从头写数学公式。二、环境准备：5分钟快速上手目的：搭建可运行的代码环境，避免卡在工具安装环
机器学习--DBSCAN聚类算法详解 2201_75491841 机器学习算法聚类人工智能
目录引言1.什么是DBSCAN聚类？2.DBSCAN聚类算法的原理3.DBSCAN算法的核心概念3.1邻域（Neighborhood）3.2核心点（CorePoint）3.3直接密度可达（DirectlyDensity-Reachable）3.4密度可达（Density-Reachable）3.5密度相连（Density-Connected）4.DBSCAN算法的步骤5.DBSCAN算法的优缺点5
【机器学习】机器学习工程实战-第3章数据收集和准备腊肉芥末果机器学习工程实战机器学习人工智能
上一章：第2章项目开始前文章目录3.1关于数据的问题3.1.1数据是否可获得3.1.2数据是否相当大3.1.3数据是否可用3.1.4数据是否可理解3.1.5数据是否可靠3.2数据的常见问题3.2.1高成本3.2.2质量差3.2.3噪声（noise）3.2.4偏差（bias）3.2.5预测能力低（lowpredictivepower）3.2.6过时的样本3.2.7离群值3.2.8数据泄露/目标泄漏3
机器学习实战第一章机器学习基础 LuoY、 Machine Learning 机器学习算法人工智能
第一章机器学习1.1何谓机器学习1.2关键术语1.3机器学习的主要任务1.4如何选择合适的算法1.5开发机器学习应用程序的步骤1.6Python语言的优势1.1何谓机器学习 1、简单地说，机器学习就是把无序的数据转换成有用的信息； 2、机器学习能让我们自数据集中受启发，我们会利用计算机来彰显数据背后的真实含义； 3、机器学习横跨计算机科学、工程技术和统计学等多个学科，需要多学科的
数据挖掘实战-基于机器学习的垃圾邮件检测模型艾派森数据挖掘实战合集数据挖掘机器学习人工智能 python
‍♂️个人主页：@艾派森的个人主页✍作者简介：Python学习者希望大家多多支持，我们一起进步！如果文章对你有帮助的话，欢迎评论点赞收藏加关注+目录1.项目背景2.数据集介绍
集成学习（随机森林） herry57 数学建模大数据随机森林集成学习
目录一、集成学习概念二、Bagging集成原理三、随机森林四、例子（商品分类）一、集成学习概念集成学习通过建⽴⼏个模型来解决单⼀预测问题。它的⼯作原理是⽣成多个分类器/模型，各⾃独⽴地学习和作出预测。这些预测最后结合成组合预测，因此优于任何⼀个单分类的做出预测。只要单分类器的表现不太差，集成学习的结果总是要好于单分类器的二、Bagging集成原理分类圆形和长方形三、随机森林在机器学习中，随机森林是
【机器学习】朴素贝叶斯入门：从零到垃圾邮件过滤实战吴师兄大模型 0基础实现机器学习入门到精通机器学习人工智能朴素贝叶斯深度学习 pytorch sklearn 开发语言
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
【机器学习】机器学习工程实战-第2章项目开始前腊肉芥末果机器学习工程实战机器学习人工智能
上一章：第1章概述文章目录2.1机器学习项目的优先级排序2.1.1机器学习的影响2.1.2机器学习的成本2.2估计机器学习项目的复杂度2.2.1未知因素2.2.2简化问题2.2.3非线性进展2.3确定机器学习项目的目标2.3.1模型能做什么2.3.2成功模型的属性2.4构建机器学习团队2.4.1两种文化2.4.2机器学习团队的成员2.5机器学习项目为何失败2.5.1缺乏有经验的人才2.5.2缺乏领
机器学习怎么做特征工程全栈你个大西瓜人工智能机器学习人工智能特征工程数据预处理特征变换特征降维特征构造
一、特征工程通俗解释特征工程就像厨师做菜前的食材处理：原始数据是“生肉和蔬菜”，特征工程是“切块、腌制、调料搭配”，目的是让机器学习模型（食客）更容易消化吸收，做出更好预测（品尝美味）。二、为什么要做特征工程？数据质量差：原始数据常有缺失、噪声、不一致问题（如年龄列混入“未知”）。模型限制：算法无法直接理解原始数据（如文本、日期需要数值化）。提升效果：好特征能显著提升模型性能（准确率提升10%~5
【机器学习】机器学习四大分类藓类少女机器学习机器学习分类人工智能
机器学习的方法主要可以分为四大类，根据学习方式和数据标注情况进行分类：1.监督学习（SupervisedLearning）特点：有标注数据（即训练数据有明确的输入(X)和输出(Y)）。学习目标是找到一个映射(f(X)\approxY)。适用于分类和回归问题。主要算法：分类（Classification）：逻辑回归（LogisticRegression）支持向量机（SVM）朴素贝叶斯（NaïveBa
大模型学习终极指南：从新手到专家的必经之路，全网最详尽解析，你敢挑战吗？大模型入门教程学习人工智能 AI 大模型大模型学习大模型教程 AI大模型
随着人工智能技术的飞速发展，大模型（Large-ScaleModels）已经成为推动自然语言处理（NLP）、计算机视觉（CV）等领域进步的关键因素。本文将为您详细介绍从零开始学习大模型直至成为专家的全过程，包括所需掌握的知识点、学习资源以及实践建议等。无论您是初学者还是有一定基础的专业人士，都能从中获得有价值的指导。一、基础知识准备在开始学习大模型之前，需要先掌握一些基础知识，这些知识将为后续的学
机器学习——KNN超参数练习AI两年半机器学习人工智能深度学习
sklearn.model_selection.GridSearchCV是scikit-learn中用于超参数调优的核心工具，通过结合交叉验证和网格搜索实现模型参数的自动化优化。以下是详细介绍：一、功能概述GridSearchCV在指定参数网格上穷举所有可能的超参数组合，通过交叉验证评估每组参数的性能，最终选择最优参数组合。其核心价值在于：自动化调参：替代手动参数调试，提升效率3。交叉验证支持：通
编程内容简述！恶霸不委屈开发语言青少年编程汇编 java python
编程是指通过计算机语言来开发软件、程序和应用的过程，通常通过编写一系列的指令，来让计算机完成特定的任务。编程可以涉及多个领域和技术，以下是一些主要的编程内容：1.编程语言编程语言是程序员与计算机进行沟通的桥梁，不同的编程语言适用于不同的任务。常见的编程语言有：Python：简单易学，适用于数据分析、人工智能、网页开发等。JavaScript：网页开发中不可或缺的语言，用于动态网页和前端开发。Jav
大模型Agent 和 RAG 的关系大数据追光猿大模型语言模型人工智能学习方法 transformer
Agent和RAG（Retrieval-AugmentedGeneration）是两种在自然语言处理（NLP）和人工智能领域中广泛使用的技术，它们在功能、目标和实现方式上既有区别又有联系。以下是它们的关系及其协同作用的详细分析。1.Agent和RAG的定义（1）Agent定义：Agent是一种智能体，能够感知环境并采取行动以完成特定任务。在NLP领域，Agent通常指一个基于大语言模型（LLM）的
国产模型能否挑战 GPT-4？一文拆解 DeepSeek-V3 架构与实战应用 AI筑梦师人工智能学习框架架构深度学习 python agi 人工智能 tensorflow
✳️一、引言✅1.1DeepSeek-V3发布背景与定位随着大模型技术的快速演进，从GPT-3到GPT-4，全球在通用人工智能方向取得了长足进展。但与此同时，开源社区始终缺乏一个真正兼顾性能、效率、中文能力和实用性的高质量大模型。DeepSeek-V3的推出正是在这个背景下的一次关键突破。DeepSeek-V3是由中国团队DeepSeek开发的第三代大语言模型，它具备以下几个核心特性：开源可商用：
Agent、RAG、LangChain的概念及作用北极冰雨大模型人工智能
Agent：概念：在人工智能中，Agent通常指的是能够执行任务或做出决策的实体，可以是简单的程序，也可以是复杂的系统，如自动化客服助手、推荐系统等，甚至可以是软件代理、机器人或虚拟助手等各种形式。作用：它能利用内置的大语言模型来做出规划，决定执行哪些步骤，以及每个步骤需要调用哪些工具（如RAG），之后调用相应的工具，最终完成任务。例如，在客服问答场景中，Agent可以根据用户的问题，规划出需要查
DeepSeek多语言AI高效应用实践智能计算研究中心其他
内容概要在人工智能技术快速迭代的背景下，DeepSeek系列模型凭借混合专家架构（MoE）与670亿参数规模，在多语言处理、视觉语言理解及复杂任务生成领域实现了突破性进展。本文系统性拆解其技术架构设计逻辑，聚焦论文写作、代码生成、SEO关键词拓展三大核心场景，分析模型在高生成质量、低使用成本维度的差异化优势。技术维度DeepSeekProver传统单模态模型多语言支持97种语言动态切换单一语种优化
重要重要！！fisher矩阵是怎么计算和更新的，以及计算过程中参数的物理含义 ZhangJiQun&MXP 教学 2021 论文 2024大模型以及算力矩阵概率论线性代数 windows 微信机器学习
fisher矩阵是怎么计算和更新的，以及计算过程中参数的物理含义Fisher信息矩阵（FisherInformationMatrix,FIM）用于衡量模型参数估计的不确定性，其计算和更新在统计学、机器学习和优化中具有重要作用。以下是其计算和更新的关键步骤：一、Fisher矩阵的计算定义Fisher矩阵的元素表示对数似然函数关于参数的二阶导数的期望值的负数，即：Fi,j=−
AI大模型训练教程 Small踢倒coffee_氕氘氚 python自学经验分享笔记
1.引言随着人工智能技术的快速发展，大模型（如GPT-3、BERT等）在自然语言处理、计算机视觉等领域取得了显著的成果。训练一个大模型需要大量的计算资源、数据和专业知识。本教程将带你了解如何从零开始训练一个AI大模型。2.准备工作2.1硬件要求GPU：推荐使用NVIDIA的高性能GPU，如A100、V100等。内存：至少64GBRAM。存储：SSD存储，至少1TB。#2.2软件环境操作系统：Lin
使用Jupyter Notebook进行深度学习编程 - 深度学习教程 shandianfk_com ChatGPT AI jupyter 深度学习 ide
大家好，今天我们要聊聊如何使用JupyterNotebook进行深度学习编程。深度学习是人工智能领域中的一项重要技术，通过模仿人脑神经网络的方式进行学习和分析。JupyterNotebook作为一个强大的工具，可以帮助我们轻松地进行深度学习编程，尤其适合初学者和研究人员。本文将带领大家一步步了解如何在JupyterNotebook中开展深度学习项目。一、什么是JupyterNotebook？Jup
英伟达常用GPU参数速查表，含B300..... Ai17316391579 深度学习服务器人工智能机器学习服务器电脑计算机视觉深度学习神经网络
英伟达常用GPU参数速查表，收藏备用：含RTX5090、RTX4090D、L40、L20、A100、A800、H100、H800、H20、H200、B200、B300、GB300.....专注于高性能计算人工智能细分领域kyfwq001#5090##4090##英伟达“新核弹”B200发布##英伟达##英伟达B300##GPU##服务器##显卡##英伟达H800/A800芯片将禁售#
景联文科技提供高质量文本标注服务，驱动AI技术发展景联文科技科技人工智能
文本标注是指在原始文本数据上添加标签的过程，这些标签可以用来指示特定的实体、关系、事件等信息，以帮助计算机理解和处理这些数据。文本标注是自然语言处理（NLP）领域的一个重要环节，它通过为文本的不同部分提供具体的含义和上下文信息，增强机器学习和深度学习模型对文本内容的理解能力。标注类型情感分析情感极性：确定文本表达的情感倾向，如正面、负面或中立。强度评估：衡量情感的强烈程度，从轻微到极端不等。命名实
打造金融数据新引擎，看永洪科技助力头部农信社搭建一站式分析平台永洪科技金融数据可视化 BI 数据分析大数据
在数字化转型的浪潮中，金融行业作为经济发展的核心引擎，正加速探索数字化、智能化的新路径。永洪科技，近日成功助力某省农村信用社联合社（简称：Z企业）完成了其数字化转型的重要一步，通过部署先进的商业智能解决方案，为Z企业的业务升级与效能提升注入了强劲动力。随着智能金融时代的来临，以大数据、人工智能、移动互联等新兴技术为核心的金融科技持续赋能银行金融业务数字化、智能化、开放化的发展，为金融机构营销体系的
VMware Workstation 11 或者 VMware Player 7安装MAC OS X 10.10 Yosemite iwindyforest vmware mac os 10.10 workstation player
最近尝试了下VMware下安装MacOS 系统，安装过程中发现网上可供参考的文章都是VMware Workstation 10以下， MacOS X 10.9以下的文章，只能提供大概的思路，但是实际安装起来由于版本问题，走了不少弯路，所以我尝试写以下总结，希望能给有兴趣安装OSX的人提供一点帮助。写在前面的话：其实安装好后发现，由于我的th
关于《基于模型驱动的B/S在线开发平台》源代码开源的疑虑？ deathwknight JavaScript java 框架
本人从学习Java开发到现在已有10年整，从一个要自学 java买成javascript的小菜鸟，成长为只会java和javascript语言的老菜鸟（个人邮箱：[email protected]）一路走来，跌跌撞撞。用自己的三年多业余时间，瞎搞一个小东西（基于模型驱动的B/S在线开发平台，非MVC框架、非代码生成）。希望与大家一起分享，同时有许些疑虑，希望有人可以交流下平台
如何把maven项目转成web项目 Kai_Ge maven MyEclipse
创建Web工程，使用eclipse ee创建maven web工程 1.右键项目,选择Project Facets,点击Convert to faceted from 2.更改Dynamic Web Module的Version为2.5.(3.0为Java7的,Tomcat6不支持). 如果提示错误,可能需要在Java Compiler设置Compiler compl
主管？？？ Array_06 工作
转载：http://www.blogjava.net/fastzch/archive/2010/11/25/339054.html 很久以前跟同事参加的培训，同事整理得很详细，必须得转！前段时间，公司有组织中高阶主管及其培养干部进行了为期三天的管理训练培训。三天的课程下来，虽然内容较多，因对老师三天来的课程内容深有感触，故借着整理学习心得的机会，将三天来的培训课程做了一个
python内置函数大全 2002wmj python
最近一直在看python的document，打算在基础方面重点看一下python的keyword、Build-in Function、Build-in Constants、Build-in Types、Build-in Exception这四个方面，其实在看的时候发现整个《The Python Standard Library》章节都是很不错的，其中描述了很多不错的主题。先把Build-in Fu
JSP页面通过JQUERY合并行 357029540 JavaScript jquery
在写程序的过程中我们难免会遇到在页面上合并单元行的情况，如图所示如果对于会的同学可能很简单，但是对没有思路的同学来说还是比较麻烦的，提供一下用JQUERY实现的参考代码 function mergeCell(){ var trs = $("#table tr"); &nb
Java基础冰天百华 java基础
学习函数式编程 package base; import java.text.DecimalFormat; public class Main { public static void main(String[] args) { // Integer a = 4; // Double aa = (double)a / 100000; // Decimal
unix时间戳相互转换 adminjun 转换 unix 时间戳
如何在不同编程语言中获取现在的Unix时间戳(Unix timestamp)？ Java time JavaScript Math.round(new Date().getTime()/1000) getTime()返回数值的单位是毫秒 Microsoft .NET / C# epoch = (DateTime.Now.ToUniversalTime().Ticks - 62135
作为一个合格程序员该做的事 aijuans 程序员
作为一个合格程序员每天该做的事 1、总结自己一天任务的完成情况最好的方式是写工作日志，把自己今天完成了什么事情，遇见了什么问题都记录下来，日后翻看好处多多 2、考虑自己明天应该做的主要工作把明天要做的事情列出来，并按照优先级排列，第二天应该把自己效率最高的时间分配给最重要的工作 3、考虑自己一天工作中失误的地方，并想出避免下一次再犯的方法出错不要紧，最重
由html5视频播放引发的总结 ayaoxinchao html5 视频 video
前言项目中存在视频播放的功能，前期设计是以flash播放器播放视频的。但是现在由于需要兼容苹果的设备，必须采用html5的方式来播放视频。我就出于兴趣对html5播放视频做了简单的了解，不了解不知道，水真是很深。本文所记录的知识一些浅尝辄止的知识，说起来很惭愧。视频结构本该直接介绍html5的<video>的，但鉴于本人对视频
解决httpclient访问自签名https报javax.net.ssl.SSLHandshakeException: sun.security.validat bewithme httpclient
如果你构建了一个https协议的站点，而此站点的安全证书并不是合法的第三方证书颁发机构所签发，那么你用httpclient去访问此站点会报如下错误 javax.net.ssl.SSLHandshakeException: sun.security.validator.ValidatorException: PKIX path bu
Jedis连接池的入门级使用 bijian1013 redis redis数据库 jedis
Jedis连接池操作步骤如下： a.获取Jedis实例需要从JedisPool中获取； b.用完Jedis实例需要返还给JedisPool； c.如果Jedis在使用过程中出错，则也需要还给JedisPool； packag
变与不变 bingyingao 不变变亲情永恒
变与不变周末骑车转到了五年前租住的小区，曾经最爱吃的西北面馆、江西水饺、手工拉面早已不在，各种店铺都换了好几茬，这些是变的。三年前还很流行的一款手机在今天看起来已经落后的不像样子。三年前还运行的好好的一家公司，今天也已经不复存在。一座座高楼拔地而起，
【Scala十】Scala核心四：集合框架之List bit1129 scala
Spark的RDD作为一个分布式不可变的数据集合，它提供的转换操作，很多是借鉴于Scala的集合框架提供的一些函数，因此，有必要对Scala的集合进行详细的了解 1. 泛型集合都是协变的，对于List而言，如果B是A的子类，那么List[B]也是List[A]的子类，即可以把List[B]的实例赋值给List[A]变量 2. 给变量赋值(注意val关键字，a，b
Nested Functions in C bookjovi c closure
Nested Functions 又称closure，属于functional language中的概念，一直以为C中是不支持closure的，现在看来我错了，不过C标准中是不支持的，而GCC支持。既然GCC支持了closure，那么 lexical scoping自然也支持了，同时在C中label也是可以在nested functions中自由跳转的
Java-Collections Framework学习与总结-WeakHashMap BrokenDreams Collections
总结这个类之前，首先看一下Java引用的相关知识。Java的引用分为四种：强引用、软引用、弱引用和虚引用。强引用：就是常见的代码中的引用，如Object o = new Object();存在强引用的对象不会被垃圾收集
读《研磨设计模式》-代码笔记-解释器模式-Interpret bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 解释器（Interpreter）模式的意图是可以按照自己定义的组合规则集合来组合可执行对象 * * 代码示例实现XML里面1.读取单个元素的值 2.读取单个属性的值 * 多
After Effects操作&快捷键 cherishLC After Effects
1、快捷键官方文档中文版：https://helpx.adobe.com/cn/after-effects/using/keyboard-shortcuts-reference.html 英文版：https://helpx.adobe.com/after-effects/using/keyboard-shortcuts-reference.html 2、常用快捷键
Maven 常用命令 crabdave maven
Maven 常用命令 mvn archetype:generate mvn install mvn clean mvn clean complie mvn clean test mvn clean install mvn clean package mvn test mvn package mvn site mvn dependency:res
shell bad substitution daizj shell 脚本
#!/bin/sh /data/script/common/run_cmd.exp 192.168.13.168 "impala-shell -islave4 -q 'insert OVERWRITE table imeis.${tableName} select ${selectFields}, ds, fnv_hash(concat(cast(ds as string), im
Java SE 第二讲（原生数据类型 Primitive Data Type） dcj3sjt126com java
Java SE 第二讲： 1. Windows: notepad, editplus, ultraedit, gvim Linux: vi, vim, gedit 2. Java 中的数据类型分为两大类： 1）原生数据类型（Primitive Data Type） 2）引用类型（对象类型）（R
CGridView中实现批量删除 dcj3sjt126com PHP yii
1，CGridView中的columns添加 array( 'selectableRows' => 2, 'footer' => '<button type="button" onclick="GetCheckbox();" style=&
Java中泛型的各种使用 dyy_gusi java 泛型
Java中的泛型的使用：1.普通的泛型使用在使用类的时候后面的<>中的类型就是我们确定的类型。 public class MyClass1<T> {//此处定义的泛型是T private T var; public T getVar() { return var; } public void setVa
Web开发技术十年发展历程 gcq511120594 Web 浏览器数据挖掘
回顾web开发技术这十年发展历程： Ajax 03年的时候我上六年级，那时候网吧刚在小县城的角落萌生。传奇，大话西游第一代网游一时风靡。我抱着试一试的心态给了网吧老板两块钱想申请个号玩玩，然后接下来的一个小时我一直在，注，册，账，号。彼时网吧用的512k的带宽，注册的时候，填了一堆信息，提交，页面跳转，嘣，”您填写的信息有误，请重填”。然后跳转回注册页面，以此循环。我现在时常想，如果当时a
openSession()与getCurrentSession()区别： hetongfei java DAO Hibernate
来自 http://blog.csdn.net/dy511/article/details/6166134 1.getCurrentSession创建的session会和绑定到当前线程,而openSession不会。 2. getCurrentSession创建的线程会在事务回滚或事物提交后自动关闭,而openSession必须手动关闭。这里getCurrentSession本地事务(本地
第一章安装Nginx+Lua开发环境 jinnianshilongnian nginx lua openresty
首先我们选择使用OpenResty，其是由Nginx核心加很多第三方模块组成，其最大的亮点是默认集成了Lua开发环境，使得Nginx可以作为一个Web Server使用。借助于Nginx的事件驱动模型和非阻塞IO，可以实现高性能的Web应用程序。而且OpenResty提供了大量组件如Mysql、Redis、Memcached等等，使在Nginx上开发Web应用更方便更简单。目前在京东如实时价格、秒
HSQLDB In-Process方式访问内存数据库 liyonghui160com
HSQLDB一大特色就是能够在内存中建立数据库，当然它也能将这些内存数据库保存到文件中以便实现真正的持久化。先睹为快！下面是一个In-Process方式访问内存数据库的代码示例：下面代码需要引入hsqldb.jar包（hsqldb-2.2.8） import java.s
Java线程的5个使用技巧 pda158 java 数据结构
Java线程有哪些不太为人所知的技巧与用法？　　萝卜白菜各有所爱。像我就喜欢Java。学无止境，这也是我喜欢它的一个原因。日常工作中你所用到的工具，通常都有些你从来没有了解过的东西，比方说某个方法或者是一些有趣的用法。比如说线程。没错，就是线程。或者确切说是Thread这个类。当我们在构建高可扩展性系统的时候，通常会面临各种各样的并发编程的问题，不过我们现在所要讲的可能会略有不同。
开发资源大整合：编程语言篇——JavaScript（1） shoothao JavaScript
概述：本系列的资源整合来自于github中各个领域的大牛，来收藏你感兴趣的东西吧。程序包管理器管理javascript库并提供对这些库的快速使用与打包的服务。 Bower - 用于web的程序包管理。 component - 用于客户端的程序包管理，构建更好的web应用程序。 spm - 全新的静态的文件包管
避免使用终结函数 vahoa.ma java jvm C++
终结函数（finalizer）通常是不可预测的，常常也是很危险的，一般情况下不是必要的。使用终结函数会导致不稳定的行为、更差的性能，以及带来移植性问题。不要把终结函数当做C++中的析构函数（destructors）的对应物。我自己总结了一下这一条的综合性结论是这样的： 1）在涉及使用资源，使用完毕后要释放资源的情形下，首先要用一个显示的方

参数估计—最大似然估计与贝叶斯估计

文章目录

一 参数估计

二 最大似然估计

2.1 参数分量

2.2 基本原理

2.3 高斯情况

2.3.1 协方差矩阵 Σ \Sigma Σ已知，而均值 μ \mu μ未知

2.3.2 协方差矩阵 Σ \Sigma Σ和均值 μ \mu μ都未知

三 贝叶斯估计