何以少团栾。

贝叶斯视角下的机器学习

文章目录

一、从一个例子开始讲起
- 1. 最大似然估计（Maximum Likelihood Estimation）
- 2. 最大后验估计（Maximum A Posteriori Estimation）
- 3. 对比 MLE 和 MAE
二、机器学习中的损失函数 & 正则化
- 1. 贝叶斯的优越性

一、从一个例子开始讲起

我们已知一枚硬币抛出正面和反面的概率都是 0.5，那么若我们抛硬币 10 次，要计算抛硬币结果是 7 次正面，3 次反面的概率是多少？这是一个很简单的概率计算： $C_{10}^3 \times 0.5^7 \times 0.5^3$ 。

我们可以把硬币本身的属性（正面和反面概率都是 0.5）看作系统的固有属性 $\theta$ ，将抛硬币结果（7 正 3 反）看做发生的事件 $X$ 。那么只要我们知道硬币的固有属性 $\theta$ ，很容易就能计算出在给定 $\theta$ 下事件 $X$ 的概率，即 $P(X|\theta)$ 。比如：

若 $\theta =$ (正0.5, 0.5)，则 $P(X|\theta) = C_{10}^3 \times 0.5^7 \times 0.5^3$
若 $\theta =$ (正0.7, 0.3)，则 $P(X|\theta) = C_{10}^3 \times 0.7^7 \times 0.3^3$
若 $\theta =$ (正0.1, 0.9)，则 $P(X|\theta) = C_{10}^3 \times 0.1^7 \times 0.9^3$

P.S. 里 $C_{10}^3$ 表示抛硬币结果是没有顺序的，因此 10 次中任选 3 次结果为反面。

反过来，我们现在抛 10 次硬币，得到的结果 $X$ 是 7 个正，3 个反，我们想从这个已经发生的事实 $X$ （抛硬币结果）反推出硬币的固有属性 $\theta$ （即正面和反面的概率分别是多少？）。但实际上我们根本无法得到一个确定的 $\theta$ 值。因为硬币的固有属性不论是（正 0.5 反 0.5）还是（正 0.7 反 0.3）还是（正 0.1 反 0.9），都有可能抛出 7 正 3 反这个事实。

对于我们想要从已经发生的事实 $X$ 反推出系统的固有属性 $\theta$ 这个需求，统计学界存在两种不同的解决方案：

频率学派：系统属性 $\theta$ 是一个客观存在的固定值，可以通过找到使 $X$ 出现可能性最大的 $\theta$ 值对其进行估计，这就是最大似然估计（MLE）的核心思想。
贝叶斯学派：系统属性 $\theta$ 不是一个客观存在的固定值，而是一个可以取很多不同值的随机变量，其服从一个概率分布。贝叶斯学派首先根据主观经验假定 $\theta$ 的概率分布为 $P(\theta)$ （先验概率），然后根据观察到的事实 $X$ 对先验概率进行修正，得到修正后的概率分布 $P(\theta|X)$ （后验概率）。

1. 最大似然估计（Maximum Likelihood Estimation）

首先明确一个概念：

似然一般指似然函数，似然只是似然函数的简称，似然函数是一个多值函数，也就是说似然函数是一个概率分布；而最大似然值则是似然函数的最大值，它是一个确定的概率值。

回到正题：

设 $X$ 为已知量， $\theta$ 为变量，则似然函数 $L_X(\theta) = L(\theta|X) = P(X|\theta)$ 表示 $X$ 发生之后 $\theta$ 的似然值（注意：似然函数的变量为 $\theta$ ）。其实 $\theta$ 到底取什么值我们永远无法确定，因此人为规定当似然函数 $L(\theta|X)$ 取得最大值时，此时的 $\theta^*$ 就是我们想要的 $\theta$ ，也就是最可能得到结果 $X$ 的 $\theta$ ，我们就把 $\theta^*$ 认定为系统的固有属性，即：
$\begin{align} \nonumber \theta^* &= \arg\underset{\theta}{max} L(\theta|X) = \arg\underset{\theta}{max} P(X|\theta) \\ \nonumber &= \arg\underset{\theta}{max} \prod_{x_1}^{x_n} P(x_i|\theta) \\ \nonumber & = \arg\underset{\theta}{max} \sum_{x_1}^{x_n} \log P(x_i|\theta) \end{align}$
P.S. 为了便于计算，通常会对似然函数取对数，形成对数似然函数，此操作不影响函数的单调性和极大值。

总结最大似然估计（MLE）的思想：对于给定的 $X$ ，我们希望从所有可能的 $\theta$ 值中找出能最大概率生成 $X$ 的 $\theta^*$ 作为估计结果。

回到开头的例子，根据最大似然估计法估计 $\theta$ ，已知 $X =$ （7正，3反），设硬币朝上的概率是 $p$ ，则：
$L(\theta|X) = P(X|\theta) = C_{10}^3 \times p^7 \times (1-p)^3$
为了找到 $p^7 \times (1-p)^3$ 的最大值，我们对其求导：
$7p^6(1-p)^3 - 3p^7(1-p)^2 = 0$
可解得 $p = 0.7$ ，因此当 $\theta =$ (正 0.7 反 0.3) 时 $L(\theta|X)$ 取得最大值， $\theta =$ (正 0.7 反 0.3) 就是根据最大似然估计得出的系统固有属性。为了求解方便，会对似然函数取对数，这样不会影响函数的单调性和极值，还可以简化计算。

对似然函数取对数：
$\ln (p^7 \times (1-p)^3) = 7 \ln p + 3 \ln (1-p)$
对取对数后的似然函数求导，并计算导数为 0 的点：
$\frac{7}{p} - \frac{3}{1-p} = 0$
同样解得 $p = 0.7$ 。

总结最大似然估计的一般步骤：

写出似然函数；
对似然函数取对数；
求导，令导数等于 0 得到似然方程；
解似然方程，解得的结果即为所求。

补充：

$L(\theta|X) = P(X|\theta)$ 两者在数值上相等，但意义并不相同。个人理解 $P(X|\theta)$ 既可以表示概率也可以用于计算似然 $L(\theta|X)$ ：

似然性（likelihood） $L(\theta|X)$ 是关于 $\theta$ 的函数，它是从已经发生的事实 $X$ 出发，推断分布为 $\theta$ 的可能性大小；

概率（possibility） $P(X|\theta)$ 是关于 $X$ 的函数，它是在已知分布 $\theta$ 条件下，推测发生事件 $X$ 的可能性大小。

2. 最大后验估计（Maximum A Posteriori Estimation）

首先回顾一下贝叶斯公式：
$P(\theta|X) = \frac{P(X|\theta)}{P(X)} \times P(\theta)$
其中， $P(\theta|X)$ 为后验概率， $P(\theta)$ 为先验概率， $\frac{P(X|\theta)}{P(X)}$ 就是前面提到的修正项。贝叶斯学派根据观察到的事实 $X$ 对先验概率 $P(\theta)$ 进行修正，得到修正后的后验概率 $P(\theta|X)$ 。

可以看出，后验概率 $P(\theta|X)$ 是多少取决于修正项 $\frac{P(X|\theta)}{P(\theta)}$ 。在修正项中， $P(X|\theta) = L(\theta|X)$ （似然函数），因此 $P(X|\theta)$ 还可以叫做似然度（likelihood）。 $P (X)$ 是一种不考虑原因，只看结果的概率分布，可以叫做 evidence，它表达了 $X$ 发生的概率，计算为各种 $\theta$ 条件下发生 $X$ 的概率的积分（离散情况就是求和）。
$\int p(X|\theta)p(\theta) d \theta$

因此，贝叶斯公式可以描述为：

$\frac{likelihood}{evidence} \times prior$

由于似然函数是关于 $\theta$ 的函数，因此整个贝叶斯公式还可以看作是关于变量 $\theta$ 的函数：
$f_X(\theta) = P(\theta|X) = \frac{L(\theta|X)}{P(X)} \times P(\theta)$

回到正题：

最大后验估计与最大似然估计的差别在于：对参数进行估计之前有没有先验。最大似然估计是在对被估计量没有任何先验知识的前提下求得的，当要估计的参数有了先验知识（满足某种分布），此时就是最大后验估计要考虑的问题。

根据贝叶斯学派，系统属性 $\theta$ 不是一个固定的值，而是一个变量，它也服从某种概率分布。我们无法从 $X$ 推出一个确定的 $\theta$ ，只能得到不同 $\theta$ 的概率，也就是后验概率 $P(\theta|X)$ 。

这里要理解 “不同 $\theta$ 的概率” 可能会很抽象，这样的解释其实仍属于频率派。

如果我们用贝叶斯的思想去解释，将 $P(\theta|X)$ 理解为 “系统的可信度” 就容易多了。 $P(\theta)$ 可以说是系统在未经修正之前的可信度，中间发生了一些事情之后（ $X$ ），我们对系统的可信度变成了 $P(\theta|X)$ 。

最大后验估计实际上就是在已知系统先验 $P(\theta)$ 的情况下，找到能够最大化系统可信度 $P(\theta|X)$ 的那个参数 $\theta$ 。

现在我们要最大化后验概率 $P(\theta|X)$ ，但其难以计算（不可能穷举出所有可能的 $\theta$ ），因此可以借助贝叶斯公式，通过最大化 $f_X(\theta)$ 对参数 $\theta$ 进行估计。 $f_X(\theta)$ 是一个关于 $\theta$ 的函数，而 $P (X)$ 与 $\theta$ 无关，可以看作一个常数。因此（后验概率 正比于 似然函数 $\times$ 先验概率）：
$\begin{align} \nonumber \theta^* &= \arg\underset{\theta}{\max} f_X(\theta) = \arg\underset{\theta}{\max} L(\theta|X)P(\theta) \\ \nonumber & = \arg\underset{\theta}{\max} (\prod_{x_1}^{x_n} P(x_i|\theta))P(\theta) \\ \nonumber & = \arg\underset{\theta}{\max} ( \sum_{x_1}^{x_n} \log P(x_i|\theta) + \log P(\theta) ) \end{align}$
最后一步同样取了对数来方便计算。对比最大似然估计，最大后验估计实际上就是多了一项 $P(\theta)$ 。因为在最大似然估计法中，频率派认为 $\theta$ 是一个固定值，不存在分布情况，因此 $P(\theta) = 1$ ，而贝叶斯派认为 $\theta$ 是一个随机变量，它也服从某种概率分布。如果将 $P(\theta) = 1$ 代入最大后验估计中，就得到了最大似然估计。

补充：

如何理解先验/后验概率？
先验概率 $P(\theta)$ 是事件 $X$ 没有发生之前 $\theta$ 的概率，后验概率 $P(\theta|X)$ 是事件 $X$ 发生之后 $\theta$ 的概率。”先后“ 指的就是 $X$ 是否发生，没有发生就是先验，发生了就是后验。

先验概率 $P(\theta)$ 是如何得到的？
按贝叶斯主义的理解，它可以是凭借直觉或以前的经验，甚至随便猜测而得到的一个概率。但先验概率并不是最终的结果，先验概率会被修正。当事件 $X$ 发生了，先验概率就会被修正，修正结果就是后验概率。

为什么要最大化后验概率？
朴素贝叶斯法将样本分类到后验概率最大的类别中，这等价于期望风险最小化。

3. 对比 MLE 和 MAE

最大后验估计与最大似然估计的差别在于，它扩充了被优化的目标函数，其中融合了预估计量的先验分布信息，因此最大后验估计可以看作是添加了正则化的最大似然估计。

通过以上，可以知道：

最大似然估计（MLE）直接对似然函数 $L(\theta|X)$ 求最大，并认定 $\theta^* = \arg\underset{\theta}{\max} L(\theta|X)$
最大后验估计（MAP）是对函数 $f_X(\theta)$ 求最大，也就是对似然函数 $L(\theta|X)$ 和先验概率 $P(\theta)$ 的乘积求最大，并认定 $\theta^* = \arg\underset{\theta}{\max} f_X(\theta) = \arg\underset{\theta}{\max} L(\theta|X)P(\theta)$ 。

最大后验估计和最大似然估计的差异就是多了先验概率 $P(\theta)$ 。

最大后验估计和最大似然估计哪个更好一些呢？

最大后验估计以先验概率为起点，对其进行修正得到后验概率，而最大似然估计没有起点，有起点和没起点其实有很大差别。在某些情况下，最大似然估计和最大后验估计不仅仅是性能上优和劣的区别，而是使用最大似然估计是会出错的，但选择最大后验估计则可以避免这个错误。

举一个比较直观的例子：假如抛硬币 10 次均为正面，那么根据最大似然估计得出的结论，这枚硬币正面的概率是 1。但根据我们的经验来看，即使抛出 10 次均为正面，也不太可能正面概率为 1。如果我们用最大后验估计，首先对硬币的正反概率有一个预期（先验概率）为正面 0.5 反面 0.5，那么即使我们抛出 10 次均为正面，反面存在的概率即使很小，但依然存在。

二、机器学习中的损失函数 & 正则化

从概率角度理解损失函数，其本身就是一种概率分布。下面从贝叶斯角度看 $L_1$ 和 $L_2$ 正则化。

在神经网络训练中，根据最大似然估计，令： $\arg\underset{W}{\max} L(W|X,Y)$ ，其中 $X, Y$ 表示训练数据， $X$ 为数据， $Y$ 为标签； $W$ 表示神经网络的权重（这里忽略偏置 $b$ ）； $L$ 为似然函数。最大似然估计就是最大化似然函数 $L (W ∣ X, Y)$ ，此时的 $W$ 就是我们希望获得的 $W$ 。

根据最大似然估计公式可得：
$\begin{align} \nonumber W &= \arg\max_W L(W|X,Y) \\ \nonumber &= \arg\max_W P(X,Y|W) \\ \nonumber & = \arg\max_W \log P(X,Y|W) \end{align}$

这里 $\log P(X,Y|W)$ 就是损失函数。对损失函数我们一般习惯加上 $\log$ ，它不会影响最终取得最大值时 $W$ 的值（虽然两个最大值并不相等）。

在神经网络训练中，根据最大后验估计，令： $\arg\underset{W}{\max} P(W|X,Y)$ ，最大化后验概率可得：
$\begin{align} \nonumber W &= \arg\max_W P(W|X,Y) \\ \nonumber &= \arg\max_W f_{X,Y}(W) \\ \nonumber &= \arg\max_W \frac{P(X,Y|W)P(W)}{P(X,Y)} \end{align}$

其中， $P (X, Y)$ 是和 $W$ 无关的常数，因此可以忽略掉，得到：
$\begin{align} \nonumber W &= \arg\max_W P(X,Y|W)P(W) \\ \nonumber &= \arg\max_W \log P(X,Y|W)P(W) \\ \nonumber &= \arg\max_W (\log P(X,Y|W) + \log P(W)) \end{align}$

这里 $\log P(X,Y|W) + \log P(W)$ 就是损失函数，可以看出，第一项是最大似然估计的损失函数。最大后验估计的损失函数就是在最大似然估计的损失函数基础上又增加了一项 $\log P(W)$ 。

$P (W)$ 是先验概率，最大后验估计的损失函数最终形态就取决于 $P (W)$ ，先验概率取不同的值会带来不同的结果，那么如何选择 $W$ 的分布？理论上 $W$ 的分布是任意的，甚至你可以猜一个。

若为先验概率 $P (W)$ 选择期望为 $0$ ，方差为 $\sigma^2$ 的正态分布 $w_i \sim N(0, \sigma^2)$ ，则 $\log P(W)$ 就是 $L_2$ 范数，相当于给损失函数加了 $L_2$ 正则化。
若为先验概率 $P (W)$ 选择拉普拉斯分布 $w_i \sim Laplace(0,b)$ ，则 $\log P(W)$ 就是 $L_1$ 范数，相当于给损失函数加了 $L_1$ 正则化。
若为先验概率 $P (W)$ 取常数分布（平均分布），即无论 $W$ 取什么值 $P (W)$ 都是恒定的，那么 $\log P(W)$ 是可以被忽略掉的，此时最大后验估计退化为最大似然估计。

总结： 最大后验估计和最大似然估计相差一个先验概率。从正则化角度看，他们相差的就是一个正则化项。本质上，先验概率对应的就是正则化项。最大后验估计允许我们把先验知识加入到估计模型中，在公式表达上就是多了一个 $\log p(\theta)$ 项。

加入先验概率在样本很少的时候是很有用的（因此朴素贝叶斯在较少的样本下就能有很好的表现）。因为样本很少的时候我们的观测结果很可能出现偏差，此时先验知识会把估计的结果“拉”向先验，实际的估计结果将会在先验结果的两侧形成一个顶峰。通过调节先验分布的参数，比如 beta 分布的 $\alpha$ 和 $\beta$ ，我们还可以调节把估计的结果“拉”向先验的幅度， $\alpha$ 和 $\beta$ 越大，这个顶峰越尖锐。这样的参数我们叫做预估模型的“超参数”。（P.S. 先验的选取也很重要，如果先验分布选取不当反而会适得其反）

1. 贝叶斯的优越性

统计学对概率的理解有两个角度：频率派和贝叶斯派

频率派将概率看作是某件事多次发生的频率，用频率派的观点去理解抛硬币是没有问题的，因为抛硬币这件事本身就是多次可重复的，但如果用频率派观点去理解神经网络，会变得很抽象。而用贝叶斯的观点就能比较容易地理解神经网络。

在神经网络里， $W$ 是权重， $P (W)$ 是先验概率。如果用频率派去解释 $P (W)$ ，它是 $W$ 的什么频率呢？很抽象。但如果用贝叶斯来看，可以将先验概率 $P (W)$ 解释为：在最开始没有任何经验的时候，我们随便给出一个 $W$ ，此时对该系统相信的程度为 $P (W)$ ，即置信度。后验概率 $P (W ∣ X)$ 表示发生了某些修正之后，我们对该系统的相信程度达到了 $P (W ∣ X)$ 。而网络权重的修正就依赖于训练数据 $X$ 。

注意，先验 $P (W)$ 和后验 $P (W ∣ X)$ 都对应一个概率分布，贝叶斯公式修正的是概率分布，而不是一个具体的概率值。我们希望找到的是概率最大时对应的 $W$ 的值。

智慧交通是什么，可以帮助我们解决什么问题? Guheyunyi 运维大数据人工智能信息可视化前端
智慧交通是什么？智慧交通（SmartTransportation）是指利用物联网（IoT）、大数据、人工智能（AI）、云计算、5G通信等先进技术，对交通系统进行智能化管理和优化，以提高交通效率、减少拥堵、降低事故率、提升出行体验，并实现交通资源的合理配置和可持续发展。智慧交通的核心是通过数据采集、分析和应用，实现交通系统的智能化、自动化和协同化，从而构建一个高效、安全、绿色、便捷的交通生态系统。智
在线视频创作平台（Vidnami） deepdata_cn 视频生成视频剪辑视频创作
Vidnami是一款功能强大的在线视频创作平台，前身为ContentSamurai，于2015年推出，2020年更名为Vidnami。它运用人工智能技术，能够分析输入的文本，自动从大量素材中选取合适的图像和视频片段，将文字快速转化为具有专业外观的视频，无需用户具备视频编辑经验。该平台提供多种视频模板、全主题定制功能以及内置的免版权媒体库，包括3000万张图片和3万首音乐，还支持自动配音，用户可以录
OpenCV第1课OpenCV 介绍及其树莓派下环境的搭建嵌入式老牛树莓派之OpenCV opencv 人工智能计算机视觉
1.机器是如何“看”的我们人类可以通过眼睛看到五颜六色的世界，是因为人眼的视觉细胞中存在分别对红、绿、蓝敏感的3种细胞。其中的光感色素根据光线的不同进行不同比例的分解，从而让我们识别到各种颜色。对人工智能而言，学会“看”也是非常关键的一步。那么机器人是如何看到这个世界的呢？这就涉及到人工智能方向重要的分支--机器视觉。机器视觉即用机器人代替人眼来做测量和判断，通过机器视觉产品（即图像摄取装置，分C
Linux安装Anaconda和Jupyter 硬水果糖人工智能 Linux linux jupyter 运维
一、了解Anaconda和Jupyter引言：Anaconda是一个流行的开源数据科学平台，广泛用于数据分析、机器学习、人工智能等领域。它是一个集成了大量科学计算和数据科学工具的Python和R编程语言环境。Anaconda的主要目标是简化数据科学和机器学习的开发流程，提供一个易于安装和管理的环境。而预装了大量常用的Python和R库，这些库涵盖了数据科学的各个方面，包括：数据分析：Pandas、
DeepSeek 大模型落地成都高新区：科技赋能警务的创新变革 AGI大模型学习科技人工智能 DeepSeek 大模型 chatgpt 大模型应用 AI大模型
在科技飞速发展的当下，人工智能正以前所未有的速度融入各个领域，深刻改变着人们的生活与工作方式。公安领域也不例外，积极拥抱科技创新，成为提升警务效能、维护社会稳定的关键路径。全国第一例警用DeepSeek大模型落地成都高新区，这一突破性举措在警务智能化发展进程中具有里程碑意义，为公安工作带来了全方位的革新。一、警用DeepSeek大模型落地的时代背景近年来，国产AI蓬勃发展，不断涌现出令人瞩目的成果
大数据和人工智能概念全面解析就犯得上方法
一、大数据和人工智能大数据是伴随着信息数据爆炸式增长和网络计算技术迅速发展而兴起的一个新型概念。根据麦肯锡全球研究所的定义，大数据是一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合，具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。大数据能够帮助各行各业的企业从原本毫无价值的海量数据中挖掘出用户的需求，使数据能够从量变到质变，真正产生价值
DeepSeek爆火，背后模型竟藏着这些秘密！ qq_23519469 ai
DeepSeek是什么来头最近，AI圈可是被一个名字刷爆了屏，那就是DeepSeek！它就像一颗横空出世的超级新星，在全球范围掀起了一阵狂热的追捧潮，这热度，简直了！大家都在疯狂讨论它，各种测评、对比层出不穷。它到底有啥过人之处，能让这么多人都为之疯狂？今天咱就来好好唠唠。DeepSeek，全称杭州深度求索人工智能基础技术研究有限公司，是一家专注于开发先进大语言模型（LLM）和相关技术的企业。它成
AI人工智能代理工作流AI Agent WorkFlow：设计智能任务处理流程 AI天才研究院计算 AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
AI人工智能代理工作流AIAgentWorkFlow：设计智能任务处理流程作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来在当今的数字化时代，随着数据量的爆炸式增长和复杂性的提升，传统的手动任务处理方式已经无法满足高效、准确的需求。人工智能技术的发展为自动化任务处理提供了新的可能性。AI人工智能代理（AIAgent）作为一
【大模型科普】AIGC技术发展与应用实践（一文读懂AIGC）人工智能
【专栏介绍】⌈⌈⌈人工智能与大模型应用⌋⌋⌋人工智能（AI）通过算法模拟人类智能，利用机器学习、深度学习等技术驱动医疗、金融等领域的智能化。大模型是千亿参数的深度神经网络（如ChatGPT），经海量数据训练后能完成文本生成、图像创作等复杂任务，显著提升效率，但面临算力消耗、数据偏见等挑战。当前正加速与教育、科研融合，未来需平衡技术创新与伦理风险，推动可持续发展。文章目录一、AIGC概述（一）什么是
EmbodiedSAM：在线实时3D实例分割,利用视觉基础模型实现高效场景理解数据猎手小k 3D 实例分割在线实时感知视觉基础模型（VFM）应用
2025-02-12，由清华大学和南洋理工大学的研究团队开发一种名为EmbodiedSAM（ESAM）的在线3D实例分割框架。该框架利用2D视觉基础模型辅助实时3D场景理解，解决了高质量3D数据稀缺的难题，为机器人导航、操作等任务提供了高效、准确的视觉感知能力。一、研究背景随着机器人技术和人工智能的发展，机器人在复杂环境中执行任务（如导航、操作和交互）的能力越来越依赖于对三维（3D）场景的实时、准
国产信创AI IDE：开启智能编程新时代 InsCode AI IDE
国产信创AIIDE：开启智能编程新时代随着信息技术的迅猛发展，软件开发工具也在不断演进。近年来，人工智能（AI）技术的应用为编程工具带来了革命性的变化。其中，国产信创AIIDE——InsCodeAIIDE，作为一款由CSDN、GitCode和华为云CodeArtsIDE联合开发的新一代集成开发环境（IDE），以其智能化、高效化的特点，正在引领智能编程的新时代。最新接入DeepSeek-V3模型，点
【产品小白】什么是AI产品经理百事不可口y 产品经理的一步一步人工智能产品经理学习产品运营内容运营用户运营
一、AI产品经理的定义与角色定位AI产品经理是人工智能技术与商业应用之间的核心桥梁，负责将复杂的AI技术转化为满足市场需求的产品。需同时具备技术理解力、商业洞察力和用户思维，既要参与算法选型与数据建模，又要定义产品功能与市场策略，是贯穿产品全生命周期的关键角色。与传统互联网产品经理相比，AI产品经理的独特之处在于：技术深度参与：需理解机器学习、自然语言处理（NLP）、计算机视觉等技术原理，并参与数
人工智能（AI）系统化学习路线 xiaoyu❅ python 人工智能学习
一、为什么需要系统化学习AI？人工智能技术正在重塑各行各业，但许多初学者容易陷入误区：❌盲目跟风：直接学习TensorFlow/PyTorch，忽视数学与算法基础。❌纸上谈兵：只看理论不写代码，无法解决实际问题。❌方向模糊：对CV/NLP/RL等细分领域缺乏认知，难以针对性提升。正确的学习姿势：“金字塔式”分层学习（理论→算法→框架→应用→工程化），逐步构建完整的AI知识体系。二、人工智能学习路线
MMScan数据集：首个最大的多模态3D场景数据集，包含层次化的语言标注数据集
2024-10-24，由上海人工智能实验室联合多所高校创建了MMScan，这是迄今为止最大的多模态3D场景数据集，包含了层次化的语言标注。数据集的建立，不仅推动了3D场景理解的研究进展，还为训练和评估多模态3D感知模型提供了宝贵的资源。一、研究背景：随着大型语言模型（LLMs）的兴起和与其他数据模态的融合，多模态3D感知因其与物理世界的连接而受到越来越多的关注，并取得了快速进展。然而，现有的数据集
【AI大模型】RAG如何让生成AI更智能？最新方法与优劣深度解析健忘的派大星人工智能语言模型 ai AI大模型 agi RAG 程序员
前言近年来，人工智能技术突飞猛进，尤其是生成式AI，简直像是开了挂一样，各种惊艳的表现让人直呼“未来已来”。根据IDC的研究，生成式AI的市场规模在2022年已经达到了107亿美元，而到2026年，这个数字预计会飙升至326亿美元！不过，尽管生成式AI很强大，但它也并非完美无缺——比如生成内容的质量、准确性和可靠性，依然有提升的空间。这时候，检索增强生成（RAG）技术登场了！RAG的核心思路很简单
A Survey of Large Language Models大模型综述论文章节总结 WhyteHighmore 论文语言模型人工智能自然语言处理论文笔记
ASurveyofLLM人大译ASurveyofLargeLanguageModels这篇论文全面回顾了大型语言模型(LLM)的最新进展，重点关注其发展背景、关键发现和主流技术。文章主要围绕LLM的四个主要方面展开：1引言自从1950年图灵测试被提出以来，人类一直在探索机器掌握语言智能的方法。语言本质上是一种受语法规则支配的复杂、精细的人类表达系统，这使得开发能够理解和掌握语言的强大人工智能(AI
AI：对比ChatGPT这类聊天机器人，人形机器人对人类有哪些不一样的影响？ InnoLink_1024 AGI 人工智能机器学习 chatgpt 人工智能机器人
人形机器人与像ChatGPT这样的聊天机器人相比，虽然都属于人工智能技术的应用，但由于其具备的物理形态和与环境的互动能力，它们对人类的影响会有很大的不同。下面从多个角度进行对比，阐述它们各自对人类的不同影响：1.物理交互与虚拟交互人形机器人：具有物理形态，能够在物理世界中与人类进行直接交互。例如，搬运物品、进行日常家务、提供身体上的帮助（如扶持老人、帮助走路等），以及进行非语言的沟通（如手势、面部
DeepSeek从入门到精通「清华团队」 YuKeeHgg DeepSeek 人工智能 ai
由清华大学新闻与传播学院新媒体研究中心元宇宙文化实验室的余梦珑博士后及其团队撰写文档的核心内容围绕DeepSeek的技术特点、应用场景、使用方法以及如何通过提示语设计提升AI使用效率等方面展开，帮助用户从入门到精通DeepSeek的使用。「文末附下载方式」第一部分：DeepSeek基础概念1.1DeepSeek简介定义：专注通用人工智能（AGI）的中国科技公司，主攻大模型研发与应用。核心产品：开源
人工智能的未来：从基础到前沿的探索与展望小二爱编程· 人工智能 ai AI编程 AI写作 AI作画
1.人工智能简介内容概述：人工智能（AI）是指模拟和执行人类智能任务的技术。随着计算能力和数据量的增加，AI在各个领域取得了显著进展，从自动化的基本任务到解决复杂的实际问题，人工智能正渗透到我们生活的各个方面。2.人工智能的种类与发展内容概述：AI的种类可以按智能的复杂度分为三大类：弱人工智能（NarrowAI）：目前大多数应用都属于弱AI，如语音助手、自动驾驶等。它们专注于特定任务，并且无法扩展
SciER：首个大规模科学文档中的实体和关系抽取数据集数据集
2024-10-28，为科学文档中的实体和关系抽取领域带来了突破，提供了一个包含106篇完整科学出版物、超过24,000个实体和12,000个关系的大规模数据集，这对于构建科学知识图谱和促进科学信息抽取技术的发展具有重要意义。数据集地址：SciER|科学信息提取数据集|人工智能数据集一、研究背景：在科学文档中，实体（如数据集、方法、任务）和它们之间的关系对于理解科学发现和推动研究进展至关重要。然而
元戎启行最新战略RoadAGI：所有移动智能体都将被AI驱动量子位
2025年3月18日（北京时间），元戎启行作为国内人工智能企业代表，出席由NVIDIA主办的GTC大会。会上，公司CEO周光发表了技术主题演讲，展示了公司的最新战略布局RoadAGI，并发布道路通用人工智能平台——AISpark（以下简称”Spark平台”）。RoadAGI是元戎启行实现物理世界通用人工智能的关键一步，旨在让包括智能驾驶汽车在内的移动智能体，都具有在道路上自主行驶、与物理世界深度交
【财经信息差】2024年12月27日最新财经资讯一览每日财经热点一网打尽代码简单说 AI观财经:财经信息差 AI观财经财经信息差今日财经资讯财经热点今日资讯
大家好，欢迎来到财经信息差！每天，我们将带你直击全球财经动态，精选最新的市场变化、政策动向与产业趋势，让你在最短的时间内，轻松掌握最关键的财经资讯。随着人工智能技术的迅猛发展，我们将用AI的视角为你解析财经热点、企业动向及全球经济变化，让复杂的信息变得简单易懂，帮助你做出更明智的投资决策。财经领域股票市场美股三大指数集体低开，大型科技股多数下跌，纳斯达克金龙指数跌1.07%。小鹏汽车跌3.32%，
探索AI知识库的无限潜力：定义、应用与未来展望知识库知识库管理知识库软件
一、AI知识库的定义AI知识库，作为人工智能技术与传统知识库概念的融合，是指利用人工智能算法和技术构建、管理和维护的信息存储系统。它不仅包含了大量的结构化、半结构化和非结构化数据，还具备智能检索、推理分析、自我学习和优化等高级功能。AI知识库通过模拟人类的认知过程，实现了对知识的有效组织和高效利用，为各种应用场景提供了强大的支持。二、AI知识库的应用1.客户服务与支持在电子商务领域，AI知识库的应
低代码平台未来发展趋势有哪些？低代码
低代码平台的未来发展趋势呈现出多维度的创新与深化，以下结合JNPF快速开发平台的特性，为您分析其未来的发展方向：1.智能化与AI深度融合低代码平台将与人工智能技术深度融合，实现开发流程的智能化升级。例如，JNPF平台有望通过自然语言处理技术，让开发者仅需用自然语言描述需求，平台即可自动生成初步的应用架构和代码逻辑。此外，AI技术还将用于智能推荐、代码自动生成、流程自动化等功能，进一步提升开发效率。
探索“AI知识库”的未来：重塑信息获取与教育的新篇章知识库知识库管理
在数字化时代，信息的爆炸性增长既为人类带来了前所未有的知识盛宴，也带来了信息筛选与理解的巨大挑战。在此背景下，“AI知识库”作为人工智能技术与知识管理深度融合的产物，正逐步成为解决这一难题的关键。本文旨在探讨“AI知识库”的核心价值、技术进展、应用领域以及对未来教育与社会信息获取方式的深远影响，并在此基础上展望其发展前景。一、AI知识库的定义与核心价值定义：AI知识库，简而言之，是利用人工智能技术
人工智能之数学基础:基变换和坐标变换的区别每天五分钟玩转人工智能机器学习深度学习之数学基础人工智能机器学习算法基变换坐标变换线性变换
本文重点基变换和坐标变换是线性代数中的两个重要概念，它们描述了向量在不同基底或坐标系下的表示和转换关系。矩阵矩阵不仅可以作为线性变换的描述，而且可以作为一组基地描述。而作为变换的矩阵，不但可以把线性空间中的一个点给变换到另一个点去，而且也能够把线性空间中的一个坐标系（基）表换到另一个坐标系（基）去，这就是基变换和坐标变换。定义与本质基变换：定义：基变换是指向量在不同基底下表示的关系的数学描述。它涉
深度测评:2025年这五款AI直播工具风卷来袭，首款堪称直播界变革者! V__17671155793 智能电视
深度测评:2025年这五款AI直播工具风卷来袭，首款堪称直播界变革者!随着人工智能（AI）技术的飞速发展，直播行业正经历着前所未有的变革。2025年，被誉为“AI直播元年”，这一年见证了众多创新AI直播工具的涌现，它们不仅提升了直播的智能化水平，更在效率、互动性和观赏性上实现了质的飞跃。以下，我们将盘点2025年经典实用的十款AI直播工具，尤其聚焦于第一款，带您领略AI如何重塑直播行业。一、智享A
【SoC基础】第2节：CPU简介望闻问嵌 #SoC 单片机嵌入式硬件
：如果你也对机器人、人工智能感兴趣，看来我们志同道合✨：不妨浏览一下我的博客主页【https://blog.csdn.net/weixin_51244852】：文章若有幸对你有帮助，可点赞收藏⭐不迷路：内容若有错误，敬请留言指正！原创文，转载注明出处文章目录CPU结构设计CPU生产厂商CPU工作原理CPU的组成CPU的类型CPU内核与CPU的关系CPU内核种类参考CPU结构设计结构类型结构特点优点
深度学习在医学影像分析中的应用：DeepSeek系统的实践与探索 Evaporator Core #深度学习 #DeepSeek快速入门 DeepSeek进阶开发与应用深度学习人工智能
随着人工智能技术的迅猛发展，深度学习在医学领域的应用逐渐成为研究热点。医学影像分析作为医疗诊断的重要组成部分，正受益于深度学习技术的突破。DeepSeek系统是一种基于深度学习的医学影像分析平台，旨在通过高效、精准的算法辅助医生进行疾病诊断和治疗决策。本文将深入探讨DeepSeek系统的技术原理、实现方法及其在医学影像分析中的实际应用，并结合代码示例展示其核心功能。1.DeepSeek系统的技术架
Lisp语言的云存储俞嫦曦包罗万象 golang 开发语言后端
Lisp语言的云存储：构建智能化数据管理新时代引言随着信息技术的飞速发展，数据的生产和存储呈现出爆炸式增长。云存储作为一种新兴的数据管理方式，逐渐成为各行业必不可少的基础设施。尤其是在大数据、人工智能等领域，对数据的快速访问和高效存储要求尤为迫切。与此同时，Lisp语言作为一种历史悠久且具有强大表达能力的编程语言，通过其特有的特性，可以在云存储的架构设计与实现方面发挥独特的优势。本文将深入探讨Li
SQL的各种连接查询 xieke90 UNION ALL UNION 外连接内连接 JOIN
一、内连接概念：内连接就是使用比较运算符根据每个表共有的列的值匹配两个表中的行。内连接（join 或者inner join ） SQL语法： select * fron
java编程思想--复用类百合不是茶 java 继承代理组合 final类
复用类看着标题都不知道是什么,再加上java编程思想翻译的比价难懂,所以知道现在才看这本软件界的奇书一:组合语法:就是将对象的引用放到新类中即可代码: package com.wj.reuse; /** * * @author Administrator 组
[开源与生态系统]国产CPU的生态系统 comsci cpu
计算机要从娃娃抓起...而孩子最喜欢玩游戏.... 要让国产CPU在国内市场形成自己的生态系统和产业链,国家和企业就不能够忘记游戏这个非常关键的环节.... 投入一些资金和资源,人力和政策,让游
JVM内存区域划分Eden Space、Survivor Space、Tenured Gen，Perm Gen解释商人shang jvm内存
jvm区域总体分两类，heap区和非heap区。heap区又分：Eden Space（伊甸园）、Survivor Space(幸存者区)、Tenured Gen（老年代-养老区）。非heap区又分：Code Cache(代码缓存区)、Perm Gen（永久代）、Jvm Stack(java虚拟机栈)、Local Method Statck(本地方法栈)。 HotSpot虚拟机GC算法采用分代收
页面上调用 QQ oloz qq
<A href="tencent://message/?uin=707321921&Site=有事Q我&Menu=yes"> <img style="border:0px;" src=http://wpa.qq.com/pa?p=1:707321921:1></a>
一些问题文强chu 问题
1.eclipse 导出 doc 出现“The Javadoc command does not exist.” javadoc command 选择 jdk/bin/javadoc.exe 2.tomcate 配置 web 项目 ..... SQL:3.mysql * 必须得放前面否则 select&nbs
生活没有安全感小桔子生活孤独安全感
圈子好小，身边朋友没几个，交心的更是少之又少。在深圳，除了男朋友，没几个亲密的人。不知不觉男朋友成了唯一的依靠，毫不夸张的说，业余生活的全部。现在感情好，也很幸福的。但是说不准难免人心会变嘛，不发生什么大家都乐融融，发生什么很难处理。我想说如果不幸被分手(无论原因如何)，生活难免变化很大，在深圳，我没交心的朋友。明
php 基础语法 aichenglong php 基本语法
1 .1 php变量必须以$开头 <?php $a=” b”; echo ?> 1 .2 php基本数据库类型 Integer float/double Boolean string 1 .3 复合数据类型数组array和对象 object 1 .4 特殊数据类型 null 资源类型(resource) $co
mybatis tools 配置详解 AILIKES mybatis
MyBatis Generator中文文档 MyBatis Generator中文文档地址： http://generator.sturgeon.mopaas.com/ 该中文文档由于尽可能和原文内容一致，所以有些地方如果不熟悉，看中文版的文档的也会有一定的障碍，所以本章根据该中文文档以及实际应用，使用通俗的语言来讲解详细的配置。本文使用Markdown进行编辑，但是博客显示效
继承与多态的探讨百合不是茶 JAVA面向对象继承对象
继承 extends 多态继承是面向对象最经常使用的特征之一：继承语法是通过继承发、基类的域和方法 //继承就是从现有的类中生成一个新的类，这个新类拥有现有类的所有extends是使用继承的关键字：在A类中定义属性和方法； class A{ //定义属性 int age； //定义方法 public void go
JS的undefined与null的实例 bijian1013 JavaScript JavaScript
<form name="theform" id="theform"> </form> <script language="javascript"> var a alert(typeof(b)); //这里提示undefined if(theform.datas
TDD实践（一） bijian1013 java 敏捷 TDD
一.TDD概述 TDD：测试驱动开发，它的基本思想就是在开发功能代码之前，先编写测试代码。也就是说在明确要开发某个功能后，首先思考如何对这个功能进行测试，并完成测试代码的编写，然后编写相关的代码满足这些测试用例。然后循环进行添加其他功能，直到完全部功能的开发。
[Maven学习笔记十]Maven Profile与资源文件过滤器 bit1129 maven
什么是Maven Profile Maven Profile的含义是针对编译打包环境和编译打包目的配置定制，可以在不同的环境上选择相应的配置，例如DB信息，可以根据是为开发环境编译打包，还是为生产环境编译打包，动态的选择正确的DB配置信息 Profile的激活机制 1.Profile可以手工激活，比如在Intellij Idea的Maven Project视图中可以选择一个P
【Hive八】Hive用户自定义生成表函数(UDTF) bit1129 hive
1. 什么是UDTF UDTF，是User Defined Table-Generating Functions，一眼看上去，貌似是用户自定义生成表函数，这个生成表不应该理解为生成了一个HQL Table，貌似更应该理解为生成了类似关系表的二维行数据集 2. 如何实现UDTF 继承org.apache.hadoop.hive.ql.udf.generic
tfs restful api 加auth 2.0认计 ronin47
　　目前思考如何给tfs的ngx-tfs api增加安全性。有如下两点：　　一是基于客户端的ip设置。这个比较容易实现。　　二是基于OAuth2.0认证，这个需要lua，实现起来相对于一来说，有些难度。　　现在重点介绍第二种方法实现思路。　　前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGe
jdk环境变量配置 byalias java jdk
进行java开发，首先要安装jdk，安装了jdk后还要进行环境变量配置： 1、下载jdk（http://java.sun.com/javase/downloads/index.jsp），我下载的版本是：jdk-7u79-windows-x64.exe 2、安装jdk-7u79-windows-x64.exe 3、配置环境变量：右击"计算机"-->&quo
《代码大全》表驱动法-Table Driven Approach-2 bylijinnan java
package com.ljn.base; import java.io.BufferedReader; import java.io.FileInputStream; import java.io.InputStreamReader; import java.util.ArrayList; import java.util.Collections; import java.uti
SQL 数值四舍五入小数点后保留2位 chicony 四舍五入
1.round() 函数是四舍五入用，第一个参数是我们要被操作的数据，第二个参数是设置我们四舍五入之后小数点后显示几位。 2.numeric 函数的2个参数，第一个表示数据长度，第二个参数表示小数点后位数。例如：　　select cast(round(12.5,2) as numeric(5,2))
c++运算符重载 CrazyMizzz C++
一、加+，减-，乘*，除/ 的运算符重载 Rational operator*(const Rational &x) const{ return Rational(x.a * this->a); } 在这里只写乘法的，加减除的写法类似二、<<输出,>>输入的运算符重载 &nb
hive DDL语法汇总 daizj hive 修改列 DDL 修改表
hive DDL语法汇总１、对表重命名 hive> ALTER TABLE table_name RENAME TO new_table_name; 2、修改表备注 hive> ALTER TABLE table_name SET TBLPROPERTIES ('comment' = new_comm
jbox使用说明 dcj3sjt126com Web
参考网址：http://www.kudystudio.com/jbox/jbox-demo.html jBox v2.3 beta [ 点击下载] 技术交流QQGroup：172543951 100521167 [2011-11-11] jBox v2.3 正式版 - [调整&修复] IE6下有iframe或页面有active、applet控件
UISegmentedControl 开发笔记 dcj3sjt126com
// typedef NS_ENUM(NSInteger, UISegmentedControlStyle) { // UISegmentedControlStylePlain, // large plain &
Slick生成表映射文件 ekian scala
Scala添加SLICK进行数据库操作，需在sbt文件上添加slick-codegen包 "com.typesafe.slick" %% "slick-codegen" % slickVersion 因为我是连接SQL Server数据库，还需添加slick-extensions，jtds包 "com.typesa
ES-TEST gengzg test
package com.MarkNum; import java.io.IOException; import java.util.Date; import java.util.HashMap; import java.util.Map; import javax.servlet.ServletException; import javax.servlet.annotation
为何外键不再推荐使用 hugh.wang mysql DB
表的关联，是一种逻辑关系，并不需要进行物理上的“硬关联”，而且你所期望的关联，其实只是其数据上存在一定的联系而已，而这种联系实际上是在设计之初就定义好的固有逻辑。在业务代码中实现的时候，只要按照设计之初的这种固有关联逻辑来处理数据即可，并不需要在数据库层面进行“硬关联”，因为在数据库层面通过使用外键的方式进行“硬关联”，会带来很多额外的资源消耗来进行一致性和完整性校验，即使很多时候我们并不
领域驱动设计 julyflame VO DAO 设计模式 DTO po
概念： VO（View Object）：视图对象，用于展示层，它的作用是把某个指定页面（或组件）的所有数据封装起来。 DTO（Data Transfer Object）：数据传输对象，这个概念来源于J2EE的设计模式，原来的目的是为了EJB的分布式应用提供粗粒度的数据实体，以减少分布式调用的次数，从而提高分布式调用的性能和降低网络负载，但在这里，我泛指用于展示层与服务层之间的数据传输对
单例设计模式 hm4123660 java Singleton 单例设计模式懒汉式饿汉式
单例模式是一种常用的软件设计模式。在它的核心结构中只包含一个被称为单例类的特殊类。通过单例模式可以保证系统中一个类只有一个实例而且该实例易于外界访问，从而方便对实例个数的控制并节约系统源。如果希望在系统中某个类的对象只能存在一个，单例模式是最好的解决方案。 &nb
logback zhb8015 log logback
一、logback的介绍 Logback是由log4j创始人设计的又一个开源日志组件。logback当前分成三个模块：logback-core,logback- classic和logback-access。logback-core是其它两个模块的基础模块。logback-classic是log4j的一个改良版本。此外logback-class
整合Kafka到Spark Streaming——代码示例和挑战 Stark_Summer spark storm zookeeper PARALLELISM processing
作者Michael G. Noll是瑞士的一位工程师和研究员，效力于Verisign，是Verisign实验室的大规模数据分析基础设施（基础Hadoop）的技术主管。本文，Michael详细的演示了如何将Kafka整合到Spark Streaming中。期间， Michael还提到了将Kafka整合到 Spark Streaming中的一些现状，非常值得阅读，虽然有一些信息在Spark 1.2版
spring-master-slave-commondao 王新春 DAO spring dataSource slave master
互联网的web项目，都有个特点：请求的并发量高，其中请求最耗时的db操作，又是系统优化的重中之重。为此，往往搭建 db的一主多从库的数据库架构。作为web的DAO层，要保证针对主库进行写操作，对多个从库进行读操作。当然在一些请求中，为了避免主从复制的延迟导致的数据不一致性，部分的读操作也要到主库上。（这种需求一般通过业务垂直分开，比如下单业务的代码所部署的机器，读去应该也要从主库读取数