Artificial Idiots

生成模型笔记（二）：最大似然，贝叶斯和最大后验概率

由缓至急，循循而进。深沟高垒，步步为营。

本笔记仅为自己学习记录所用，参考的其他作者的内容见文中链接。如有不便，可以私信删除。

第二部分机器学习基础

参考内容

https://zhuanlan.zhihu.com/p/48521073
https://zhuanlan.zhihu.com/p/37215276
https://blog.csdn.net/liu1194397014/article/details/52766760
https://zhuanlan.zhihu.com/p/355019238
Deep Learning（花书第五章）

1.机器学习与统计推断

统计推断是通过样本推断总体的统计方法。
机器学习领域中的一个方向是通过统计推断中的数值优化来解决问题，称为统计学习。
机器学习更关注最小化预测误差的某种度量，比如模型的泛化能力，预测的准确率。统计推断更关注推断本身，比如模型或参数的显著性水平，置信度以及统计量意义。

直白的理解，对于一个图像生成任务来说，图像数据集相当于是从图像的分布中 $p_{data}$ 中采样出来的样本，而我们的生成模型就需要根据数据集中的样本来推断一个分布 $p_{model}$ 使得推断出来的分布与原始的分布尽可能的一致。

2.频率学派与贝叶斯学派

统计推断是统计学的一个庞大的分支。统计学有两大学派，频率学派和贝叶斯学派，两个学派在统计推断的方法上各有不同。

频率学派，20世纪初期建立，在之后的整个20世纪基本主宰了统计学，代表人物费舍尔（Fisher）、K.皮尔逊（Karl Pearson）、内曼（Neyman），费舍尔提出极大似然估计方法（Maximum Likelihood Estimation，MLE）和多种抽样分布。K.皮尔逊提出Pearson卡方检验、Pearson相关系数，内曼提出了置信区间的概念，和K.皮尔逊和儿子S.E.皮尔逊一起提出了假设检验的内曼-皮尔逊引理。（这几个人应该就是概率论假设检验部分的万恶之源 /doge）
贝叶斯学派，20世纪30年代建立，快速发展于20世纪50年代（计算机诞生之后），它的理论基础由17世纪的贝叶斯（Bayes）提出的贝叶斯公式，也称贝叶斯定理。贝叶斯方法经过高斯（Gauss）和拉普拉斯（Laplace）的发展，在19世纪主宰了统计学。所以在20世纪30年代贝叶斯学派的建立相当于是文艺复兴。（这几个人貌似比上边几个还要万恶，整个概率论就没见哪一章不出来这几个人的名字/doge）
抽象地说，两种学派的主要差别在于探讨「不确定性」这件事的立足点不一样，频率学派试图对「事件」本身建模，认为「事件本身就具有客观的不确定性」；贝叶斯学派不去试图解释「事件本身的随机性」，而是从观察事件的「观察者」角度出发，认为不确定性来源于「观察者」的「知识不完备」，在这种情况下，通过已经观察到的「证据」来描述最有可能的「猜的过程」，因此，在贝叶斯框架下，同一件事情对于知情者而言就是「确定事件」，对于不知情者而言就是「随机事件」，随机性并不源于事件本身是否发生，而只是描述观察者对该事件的知识状态。
具体来说，两种学派的主要差别是在对参数空间的认知上，即参数的可能取值范围。频率学派认为存在唯一的真实常数参数，观察数据都是在这个参数下产生的，由于不知道参数到底是哪个值，所以就引入了最大似然（Maximum Likelihood）和置信区间（confidence interval）来找出参数空间中最可能的参数值；贝叶斯学派认为参数本身存在一个概率分布，并没有唯一真实参数，参数空间里的每个值都可能是真实模型使用的参数，区别只是概率不同，所以就引入了先验分布（prior distribution）和后验分布（posterior distribution）来找出参数空间每个参数值的概率。
贝叶斯学派的贝叶斯方法由于其理论更符合我们解决问题的思路,推断过程中加入了过往经验,且由于计算机的发展有效地解决了贝叶斯方法的难推导和难计算等缺陷,在机器学习的各种应用上都大放光彩,但也由于其对先验知识的要求,导致不适合被使用在一些不适合加入先验知识\十分追求严谨的应用场景,比如制药\法律等;频率学派通过假设检验的统计方法可以有效解决制药\法律的推断问题,但实际上也有天然的缺陷(这一块扩展内容较多,以后有机会再讨论).

3.最大似然估计（MLE）,贝叶斯统计和最大后验概率（MAP）

这部分的内容属于传统机器学习的部分，但是在现在的深度神经网络中也可以看到影子。
频率学派与贝叶斯学派分别对应了两种经典的统计推断的方法：

频率学派（Frequentist）- 最大似然估计（MLE，Maximum Likelihood Estimation）
贝叶斯学派（Bayesians）- 最大后验估计（MAP，Maximum A Posteriori）

首先从宏观上对机器学习问题有一个说明。
设数据集为 $D=\lbrace x_1,x_2,...,x_n \rbrace$ ，现在先不着眼于数据集中的数据是有标签还是无标签的，就是给定的数据集，其中的数据都是独立同分布的。假设这些数据是以含有未知参数 $\theta$ 某种概率形式分布的，我们的任务就是通过已有的数据来估计这个未知的参数 $\theta$ 。
代入到机器学习中，也就是说我们的数据集是从 $p_{data}$ 中采样得到的，而我们需要根据训练数据集来训练模型使得模型得到的分布 $p_{moodel}$ 与原始数据分布尽可能的一致，而 $p_{model}$ 依赖于参数 $\theta$ 。
于是，我们的目标就是在给定数据集 $D$ 的情况下，去找到参数 $\theta$ 。而且频率学派的最大似然估计，和贝叶斯学派的最大后验概率的区别也是围绕着如何去找参数 $\theta$ 展开的。用公式来表示的话，我们的目标便是求 $p(\theta | D)$ 。
$p(\theta | D) = \frac{p(\theta, D)}{p(D)} = \frac{p(D | \theta) p(\theta)}{p(D)} \qquad \text{ (公式道) }$
道生一，一生二，二生三，三生万物，这个式子某种程度上就是生出万物的道。所以把这个式子命名为公式道。这是一个很宏观的式子，直接代入某个机器学习模型比如GAN或者VAE的话并不合适而且会很让人费解，因为对于每个具体的模型来说，这个式子的具体形式会根据情况而有所变化。

3.1 最大似然估计

3.1.1 最大似然估计

频率学派的思想就是认为存在唯一的真实常数参数。也就是说最优的参数 $\theta$ 是确定的只有一个。但是由于一些外界噪声的干扰，采样得到的数据看起来并不完全是由参数决定的。不过虽然由误差存在，只要在这个给定的数据的情况下，找到一个概率最大的参数就可以了。最大似然估计的思想就是如此。于是，就相当于最大化给定数据的时候找到的 $\theta$ 的可能性。结合上述的公式道，可以得出最大似然估计的目标：
$\hat{\theta}_{map} = \underset{\theta}{\operatorname{argmax}} p(\theta | D) = \underset{\theta}{\operatorname{argmax}} \frac{p_{model}(D | \theta)p(\theta)}{p(D)}$
在最大似然估计中假设的前提是参数 $\theta$ 是一个确定的值，或者可以理解成在未知数据的情况下 $\theta$ 取任何可以取到的值的可能性是相同的，那么 $p(\theta)$ 就是一个常数，而 $p (D)$ 是已有的数据集的分布，也是确定的,可以视作常数。再加上数据集中的数据都是独立同分布的前提条件，于是我们的目标就变成了，
$\underset{\theta}{\operatorname{argmax}} p_{model}(D | \theta) = \underset{\theta}{\operatorname{argmax}} \prod_{i=1}^n p_{model}(x_i | \theta)$
上面变形过的式子就是很常见的似然函数。在 $a r g m a x$ 的条件下，取 $l o g$ 不改变结果，因此可以进一步的转换成对数似然函数
$\underset{\theta}{\operatorname{argmax}} p_{model}(D | \theta) = \underset{\theta}{\operatorname{argmax}} \prod_{i=1}^n p_{model}(x_i | \theta) = \underset{\theta}{\operatorname{argmax}} \sum_{i=1}^n log(p_{model}(x_i | \theta))$
至此便是最大似然估计最终的目标的表示。那么最大似然估计的目标与交叉熵和KL散度有什么联系呢？

3.1.2 最大似然估计与交叉熵和KL散度

如果不太了解交叉熵和KL散度可以看末尾的补充内容
现在回过头来再看最大似然估计的目标，在 $a r g m a x$ 的条件下，缩放代价函数不改变结果，
$\begin{aligned} \underset{\theta}{\operatorname{argmax}} \sum_{i=1}^n log(p_{model}(x_i | \theta)) &= \frac{1}{n} \underset{\theta}{\operatorname{argmax}} \sum_{i=1}^n log(p_{model}(x_i | \theta)) \\ &= - \frac{1}{n} \underset{\theta}{\operatorname{argmax}} \sum_{i=1}^n log(p_{model}(x_i | \theta)) \end{aligned}$
根据辛钦大数定律，当 $n\to\infty$ 时，
$\lim\limits_{n\to\infty}(|\frac{1}{n} \sum_{i=1}^n log(p_{model}(x | \theta)) - E(log(p_{model}(x | \theta)))| < \epsilon) = 1$
即可以认为，当 $n\to\infty$ 时，从这里也可以看出最大似然估计在数据量很大的时候才会有准确的结果。
$\lim\limits_{n\to\infty}(\frac{1}{n} \sum_{i=1}^n log(p_{model}(x_i | \theta))) = E(log(p_{model}(x | \theta)))$
我们数据集中的 $x_i$ 都是从数据的分布 $p_{data}$ 中采样得到的，本身就服从一个分布，因而
$\begin{aligned} E(log(p_{model}(x | \theta))) &= E_{x \thicksim p_{data}}(log(p_{model}(x | \theta))) \\ -\frac{1}{n} \underset{\theta}{\operatorname{argmin}} \sum_{i=1}^n log(p_{model}(x_i | \theta)) &= \underset{\theta}{\operatorname{argmin}} E_{x \thicksim p_{data}}(log(p_{model}(x | \theta))) \end{aligned}$
于是，显然可以看出最大似然估计的目标就是最小化 $p_{data}$ 和 $p_{model}$ 的交叉熵。而交叉熵加上一个常数项就是 $p_{data}$ 和 $p_{model}$ 的KL散度。
$D_{KL}(p_{data}(x) || p_{model}(x | \theta)) = \sum_x p_{data}(x) log(p_{data}(x)) - \sum_x p_{data}(x) log(p_{model}(x | \theta))$

3.1.3 条件对数似然

这个部分后面有空再补，跟上边的原理基本一样，无非是推导加了条件分布。

3.2 贝叶斯统计与最大后验概率（MAP）

3.2.1 贝叶斯统计

首先说明先验概率（prior）和后验概率（posterior）。用公式道中的项作为例子。在掌握数据集 $D$ 之前，参数 $\theta$ 的分布 $p(\theta)$ 称为先验分布。而在掌握了数据集之后，参数的分布 $p(\theta | D)$ 就称为后验分布。先后即是指是否掌握了条件信息。

贝叶斯学派认为参数本身存在一个概率分布，并没有唯一真实参数，参数空间里的每个值都可能是真实模型使用的参数，区别只是概率不同。那么问题来了，如果连数据都不知道，我们怎么知道参数是怎么分布的？这个问题也是贝叶斯学派和频率学派的一个重要的区别。频率学派的看法就是参数是由数据样本估计得来的，没有数据样本就无从谈起参数。但是这并不是贝叶斯学派的考虑，贝叶斯估计中参数的先验分布很重要。

一个简单的例子来对二者进行比较，比如随机掷硬币的结果服从伯努利分布，扔三次硬币产生了（正正反）110这样的样本结果，根据最大似然估计，会猜测 $\thicksim Bern(2/3)$ 。但是在贝叶斯学派来看，根据历史的经验来看，随机掷硬币正反面其实可能是服从 $\thicksim Bern(1/2)$ ，只不过是样本太少了，所以产生了不同的结果。所以要考虑以往的经验在里面。那么这个先验的分布从哪来呢？事实上，先验在很多时候完全是假设，或者说是“猜的”，然后去验证已有的数据是否吻合先验猜想。总之，先验是与数据样本无关的。

这个小例子也从一个方面显示了频率派和贝叶斯派的应用场景，频率派适用在数据样本数量很大的时候，而贝叶斯派在数据样本较少的时候的表现会比频率派要好。在数据样本数量很大的时候，两者都会有准确的结果，但是相比之下贝叶斯派的计算成本要高得多。
现在再来看一下公式道

$p(\theta | D) = \frac{p(D | \theta) p(\theta)}{p(D)} \qquad \text{ (公式道) }$
这里除了分母可以看作一个归一化因子外，其余都是概率分布的函数，也就是说 $p(\theta)$ 不能再被看做常数，那么就需要对上式进行变形
$\begin{aligned} p(D) &= \int_{\theta} p(D | \theta)p(\theta) d\theta \\ p(D | \theta) &= \prod_{i=1}^n p(x_i | \theta) \\ p(\theta | D) &= \frac{(\prod_{i=1}^n p(x_i | \theta)) p(\theta)}{\int_{\theta} \prod_{i=1}^n p(x_i | \theta) p(\theta) d\theta} \end{aligned}$
通过贝叶斯统计，我们得到的不是单一的一个 $\theta$ ，而是一个分布 $p(\theta | D)$ 。 之后的处理方式有两种。第一种是用期望 $E(p(\theta | D))$ 来估计 $\theta$ 。这种方式相对简单，因为可以少算一次积分。但是结果会不太准确。第二种方式是保留 $E(p(\theta | D))$ ，而在预测的时候，用求边缘分布的方式，即 $\int_{\theta} p(x' | \theta) p(\theta | D) d\theta$ ，这种方式需要求积分，相对复杂，但是结果会相对更准确。
可以看出，直接用贝叶斯统计的方法需要求积分，而且这种积分通常没有解析解，就需要用近似推断（Approximate Inference）来估计，比如马尔科夫蒙特卡洛方法（MCMC），又或者我们之后会主要说明的变分推断（Variational Inference）。那么一个很重要的问题，如何在保证准确率不受太大影响的前提下去降低贝叶斯方法的计算复杂度。一种可行的方法就是最大后验概率（MAP）。

3.2.2 最大后验概率（MAP）

为了避免求积分的运算，一种可行的思路就是在贝叶斯估计中，采用极大似然估计的思想，考虑后验分布极大化而求解参数 $\theta$ ，这样就变成了最大后验估计（Maximum A Posterior estimation，MAP）
$\hat{\theta}_{map} = \underset{\theta}{\operatorname{argmax}} p(\theta | D) = \underset{\theta}{\operatorname{argmax}} \frac{p(D | \theta)p(\theta)}{p(D)}$
与之前极大似然估计相同的地方是这里的分母 $p (D)$ 依然可以看作是常数，但是不同的地方是 $p(\theta)$ 不能被看作是个常数了，于是优化的目标就可以写作
$\hat{\theta}_{map} = \underset{\theta}{\operatorname{argmax}} p(D | \theta)p(\theta) = \underset{\theta}{\operatorname{argmax}} (log(p(D | \theta) + log(p(\theta)))$
可以看出目标的前半部分 $\theta)$ 与最大似然估计的似然函数是一样的，不同的就在于后半部分的 $log(p(\theta))$ ，而后半部分的本质其实就是正则化项！
怎么理解后半部分是正则化项呢？考虑实际的情况，我们假设先验分布为 $\theta \thicksim N(0, \sigma^2)$ ，那么对正态分布取对数之后，得到的就是L2正则化项乘一个缩放因子。

至此，最大似然估计，贝叶斯统计和最大后验概率基本就结束了。做一个简单地总结。
首先来说最大似然估计具有一致性（即训练样本数量无穷大时，参数的最大似然估计会收敛到真实值）的条件：
（1） $p_{data}$ 真实分布必须在模型族 $P_{model}(.;\theta)$ 中。
（2） $p_{data}$ 真实分布必须刚好对应一个 $\theta$ 值。
感性的理解的话，就是说我们要合理的设计模型来保证模型的结果能够覆盖到真实分布。
在数据样本较少的情况下，贝叶斯学派的方法效果要相对准确。在数据样本数量逐渐增多的时候，最大后验概率的结果会收敛到最大似然的结果。

在很多现在的深度神经网络中依然可以看到这种方法的影子。比如，我们的很多神经网络初始化参数的方法，以及对参数进行正则化，以及在此基础上的通过梯度下降来求最佳参数，某种程度上都可以理解成是在求最大后验概率的过程。最后放一张图。图片引用的文章链接放在这部分开头的引用资源里边了。

补充内容、

交叉熵

假设两个概率分布 $p (X), q (X)$ ，交叉熵
$\begin{aligned} H(p, q) = - \sum_x p(x) log(q(x)) \\ = -E_{x \thicksim p(x)}(log(q(x))) \end{aligned}$

KL散度

KL散度，也称作相对熵，用来衡量两个分布之间的相似程度。
$\begin{aligned} D_{KL}(p || q) &= \sum_x p(x) log(\frac{p(x)}{q(x)}) \\ &= \sum_x p(x) log(p(x)) - \sum_x p(x) log(q(x)) \\ D_{KL}(q || p) &= \sum_x q(x) log(\frac{q(x)}{p(x)}) \\ &= \sum_x q(x) log(q(x)) - \sum_x q(x) log(p(x)) \end{aligned}$
KL散度的性质，
$\begin{aligned} (1) D_{KL}(p || q) &\ne D_{KL}(q || p) \\ (2)D_{KL}(p || q) &= 0 \Leftrightarrow p = q \\ (3)D_{KL}(p || q) &\ge 0 \end{aligned}$
以下都假设是离散的情况，连续的情况将累加换成积分即可。
下面证明性质（3），先引入Jensen不等式：
若 $f (x)$ 为区间 $I$ 上的下凸（上凸）函数，则对于任意 $x_i \in I$ 和 $\sum\lambda_i = 1, \lambda_i > 0$
$\text{下凸} \qquad f(\sum_{i=1}^n \lambda_ix_i) \le \lambda_if(\sum_{i=1}^n x_i) \\ \text{上凸} \qquad f(\sum_{i=1}^n \lambda_ix_i) \ge \lambda_if(\sum_{i=1}^n x_i)$
特别的，取 $\lambda_i = \frac{1}{n}$ ，此时
$\text{下凸} \qquad f(\sum_{i=1}^n \frac{1}{n}x_i) \le \frac{1}{n}f(\sum_{i=1}^n x_i) \\ \text{上凸} \qquad f(\sum_{i=1}^n \frac{1}{n}x_i) \ge \frac{1}{n}f(\sum_{i=1}^n x_i)$
利用Jensen不等式证明KL散度非负
$\begin{aligned} D_{KL}(p || q) &= \sum_{x \thicksim X} p(x) * [log(\frac{p(x)}{q(x)})] \\ &= - \sum_{x \thicksim X} p(x) * [log(\frac{q(x)}{p(x)})] \\ &\ge - log(\sum_{x \thicksim X} p(x) * \frac{q(x)}{p(x)}) \\ &= -log(\sum_{x \thicksim X} q(x)) \\ &= 0 \end{aligned}$

板凳-------Mysql cookbook学习（十一--------4)
唐宇迪机器学习实战课程笔记https://blog.csdn.net/weixin_54338498/article/details/128818007?spm=1001.2101.3001.6650.1&utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromBaidu%7ECtr-1-12881
04_JavaWeb回顾笔记 skping-go java javaweb
JavaWeb回顾笔记[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Wh1nKopi-1605668744709)(F:\资料\Java\笔记\笔记\assets\javaweb阶段知识体系.png)]Day01HTML1.1HTML简介HTML：HyperTextMarkupLanguage，超文本标记/标签语言。超文本:超出了普通文本的能力标记:标签W3C(Wo
【计算机网络】第三章：数据链路层（上） iFulling 计算机网络笔记计算机网络网络网络协议笔记
本篇笔记课程来源：王道计算机考研计算机网络接下节：【计算机网络】第三章：数据链路层（下）【计算机网络】第三章：数据链路层（上）一、数据链路层的功能1.基本概念2.功能总览二、组帧（封装成帧）1.主要实现2.字符计数法3.字节填充法4.零比特填充法5.违规编码法三、差错控制1.主要实现2.检错编码Ⅰ.奇偶校验码Ⅱ.循环冗余校验码3.纠错编码Ⅰ.海明校验码四、流量控制、可靠传输1.相关机制Ⅰ.滑动窗口
C练题笔记之：Leetcode-393. UTF-8 编码验证月团子 c语言 leetcode 算法
题目：给定一个表示数据的整数数组data，返回它是否为有效的UTF-8编码。UTF-8中的一个字符可能的长度为1到4字节，遵循以下的规则：对于1字节的字符，字节的第一位设为0，后面7位为这个符号的unicode码。对于n字节的字符(n>1)，第一个字节的前n位都设为1，第n+1位设为0，后面字节的前两位一律设为10。剩下的没有提及的二进制位，全部为这个符号的unicode码。这是UTF-8编码的工
量化价值投资中的深度学习技术：TensorFlow实战
量化价值投资中的深度学习技术：TensorFlow实战关键词：量化价值投资,深度学习,TensorFlow,股票预测,因子模型,LSTM神经网络,量化策略摘要：本文将带你走进"量化价值投资"与"深度学习"的交叉地带，用小学生都能听懂的语言解释复杂概念，再通过手把手的TensorFlow实战案例，教你如何用AI技术挖掘股票市场中的价值宝藏。我们会从传统价值投资的痛点出发，揭示深度学习如何像"超级分析
ResNet：深度卷积神经网络的里程碑心想事“程” 小知识点 cnn 人工智能神经网络
一、引言在深度学习的发展历程中，深度卷积神经网络（CNN）不断演进，旨在提升对图像等数据的特征提取与分类能力。然而，随着网络层数的增加，传统CNN面临着梯度消失、梯度爆炸以及退化等棘手问题，训练变得愈发困难。2015年，由微软研究院提出的ResNet（ResidualNetworks，残差网络）横空出世，它以独特的残差学习思想，成功攻克了这些难题，在ImageNet竞赛中大放异彩，开创了深度神经网
视觉算法之卷积神经网络清风AI 深度学习算法详解及代码复现计算机视觉 cnn 神经网络深度学习 python 课程设计毕业设计
定义与特点卷积神经网络(ConvolutionalNeuralNetwork,CNN)是一种专为处理具有网格结构的数据而设计的深度学习模型。其独特的结构和功能使其在图像处理、语音识别等领域展现出卓越的性能:CNN的核心设计理念源于对生物视觉系统的模仿。通过模拟大脑皮层中视网膜和视觉皮层的层次化结构,CNN能够有效地捕捉图像中的局部特征并逐步抽象为高层语义信息。这种设计使得CNN特别擅长处理图像和音
卷积神经网络架构的演进：从AlexNet到EfficientNet t0_54manong 大数据与人工智能 cnn 架构人工智能个人开发
在过去的8.5年里，深度学习取得了飞速的进步。回溯到2012年，AlexNet在ImageNet上的Top-1准确率仅为63.3%，而如今，借助EfficientNet架构和师生训练法，我们已经能达到超过90%的准确率。本文将聚焦于卷积神经网络（CNN）架构的演变，深入探究其背后的基本原理。一些关键术语在深入了解各种架构之前，我们需要明确几个关键术语。更宽的网络意味着卷积层中有更多的特征图（滤波器
一文搞懂 Cursor 内部工作原理~ zz_jesse
介绍了Cursor，一个结合了AI技术的代码编辑器，它通过深度学习和语义索引的方式，提升了开发者的工作效率。Cursor通过与VSCode相似的界面和功能，以及自己的AI特性，实现了代码的智能化编辑和错误检查。译文从这开始～～你可能已经看到新闻：OpenAI正以高达30亿美元的价格收购Windsurf！与此同时，Cursor的母公司Anysphere也正在以90亿美元估值融资9亿美元！这对于代码生
如何创建Python工程目录九月恒心 Python python 自动测试
如何创建一个简单但是比较规范的python工程目录，本文是学习了LearnPythontheHardWay相关内容后做的一些笔记。安装python第三方包1.pipfromhttp://pypi.python.org/pypi/pip用于安装python第三方包的工具2.distributefromhttp://pypi.python.org/pypi/distribute已被弃用，是SetupT
【AI大模型前沿】OmniAudio：阿里通义实验室的空间音频生成模型，开启沉浸式体验新时代寻道AI小兵 AI大模型 -前沿技术追踪人工智能音视频开源 AIGC 语言模型
系列篇章No.文章1【AI大模型前沿】深度剖析瑞智病理大模型RuiPath：如何革新癌症病理诊断技术2【AI大模型前沿】清华大学CLAMP-3：多模态技术引领音乐检索新潮流3【AI大模型前沿】浙大携手阿里推出HealthGPT：医学视觉语言大模型助力智能医疗新突破4【AI大模型前沿】阿里QwQ-32B：320亿参数推理大模型，性能比肩DeepSeek-R1，免费开源5【AI大模型前沿】TRELLI
目标检测YOLO实战应用案例100讲-基于深度学习的自动驾驶目标检测算法研究（续）林聪木目标检测 YOLO 深度学习
目录基于双蓝图卷积的轻量化自动驾驶目标检测算法5.1引言5.2DarkNet53网络冗余性分析5.3双蓝图卷积网络5.4实验结果及分析基于深度学习的自动驾驶目标检测算法研究与应用传统的目标检测算法目标检测基线算法性能对比与选择相关理论和算法基础2.1引言2.2人工神经网络2.3FCOS目标检测算法2.4复杂交通场景下的目标检测难点与FCOS改进方案基于FCOS的目标检测算法改进3.1引言3.2Re
AI人工智能遇上TensorFlow：技术融合新趋势 AI大模型应用之禅人工智能 tensorflow python ai
AI人工智能遇上TensorFlow：技术融合新趋势关键词：人工智能、TensorFlow、深度学习、神经网络、机器学习、技术融合、AI开发摘要：本文深入探讨了人工智能技术与TensorFlow框架的融合发展趋势。我们将从基础概念出发，详细分析TensorFlow在AI领域的核心优势，包括其架构设计、算法实现和实际应用。文章包含丰富的技术细节，如神经网络原理、TensorFlow核心算法实现、数学
notepad++正则表达式痞子IT 嵌入式开发语言 xml c语言
notepad++正则表达式使用笔记：1.查找空行：^\s*\r\n2.排除以（开头的行：^(?!（).*$3.查找第二行以A-D开头的情况：(\r\n)(^[A-D])4.查找不含有helloworld的行：^(?!.*helloworld).*$5.查找不以com结尾的字符串：^.*?(?|"']|"[^"]*"|'[^']*')*?(?:/>|>.*?)11.查找非换行空白：(\s)(?)及
SystemVerilog LRM 学习笔记 -- clocking块
1clocking...endclocking块clocking块是SV新feature，主要是为了更好解决testbench和DUT之间的timing和同步建模的问题，可以使user基于clockcycle在更高的抽象层次上写testbench(如“##3”，表示三个clock)。clocking只能在module/interface/checker/program中声明，不能在function
深度学习核心知识简介和模型调参研术工坊深度学习知识和技巧深度学习人工智能 python
深度学习模型调优就像调制一道复杂的菜肴，需要掌握多种"调料"的用法。本文将为您详解这些关键"调料"，帮助您烹饪出高性能的模型。###核心参数及其影响####1️⃣Loss（损失函数）**基本介绍**：衡量模型预测与真实值差距的指标，是模型优化的指南针。**生活类比**：想象你在教小孩认识动物：-**完美情况**：小孩看到猫说"猫"，看到狗说"狗"→Loss=0-**有错误**：小孩看到猫说"狗"→
JavaWeb（苍穹外卖）--学习笔记03（登录生成令牌）老虎0627 JavaWeb（苍穹外卖）学习笔记 java
前言本片文章是学习B站黑马程序员苍穹外卖的学习笔记。在Day01（如果学到登录界面这里卡住了，可以看看这篇文章），登陆界面的后端实现大致可以分为两部分登录功能和登录校验，其中登陆校验的实现是基于令牌JWT技术来实现会话追踪（校验部分还有拦截器Interceptor这个我没太学懂视频也没提，以后在更）JWT令牌基本概念JWT是一种在Web应用程序，简单且安全地处理用户身份验证和信息交换的技术，首先我
Vue3-尚硅谷笔记八月份的天气 Vue3-笔记笔记
1.Vue3简介2020年9月18日，Vue.js发布版3.0版本，代号：OnePiece（n经历了：4800+次提交、40+个RFC、600+次PR、300+贡献者官方发版地址：Releasev3.0.0OnePiece·vuejs/core截止2023年10月，最新的公开版本为：3.3.41.1.【性能的提升】打包大小减少41%。初次渲染快55%,更新渲染快133%。内存减少54%。1.2.【
【小白入门必看】一文读懂深度学习计算机视觉技术及学习路线
一、什么是计算机视觉？计算机视觉，其实就是教机器怎么像我们人一样，用摄像头看看周围的世界，然后理解它。比如说，它能认出这是个苹果，或者那边有辆车。除此之外，还能把拍到的照片或者视频转换成有用的信息，帮我们做决定。整个过程就是为了让机器能看懂图像，然后根据这些图像来做出聪明的选择。二、计算机视觉实现起来难吗？人类依赖视觉，找辆汽车轻而易举，毕竟汽车那么大，一眼就能看出来，所以常误以为计算机视觉简单，
Golang基础笔记十之goroutine和channel
本文首发于公众号：Hunter后端原文链接：Golang基础笔记十之goroutine和channel这一篇介绍Golang里的goroutine和channel通道。以下是本篇笔记目录：goroutinechannelgoroutine与channel的使用1、goroutinegoroutine是一种轻量级线程（用户态线程），由Go运行时管理而非操作系统，它是Go并发模型的核心，能高效处理大量
2025年跑深度学习电脑配置-深度学习显卡推荐 OpenCV图像识别人工智能深度学习智能电视人工智能
2025年跑深度学习任务，电脑配置需从处理器、内存、显卡、存储、散热与电源、扩展性、网络连接等多方面综合考量，以下是具体分析：处理器（CPU）多核高性能：深度学习涉及大量并行计算任务，需要处理器具备强大的多核处理能力。英特尔至强Scalable处理器（SapphireRapids或后续架构）和AMDEPYC处理器（Genoa或后续架构）是不错的选择。英特尔至强Scalable处理器提供卓越的单核性
计算机网络（王道考研）笔记个人整理——第六章：应用层 onlyTonight 计算机网络计算机网络考研笔记
第六章：应用层点击上方专栏查看六章全部笔记个人笔记整理位置：个人笔记完整版b站视频：王道考研（2019版）概述应用层对应用程序的通信提供服务。应用层协议定义：应用程序交换的报文类型（请求or响应）；各个报文类型的语法，如报文中的各个字段及其详细描述；字段的语义，即包含在字段中的信息的含义；进程何时、如何发送报文，以及对报文进行响应的规则。功能：文件传输、访问和管理；电子邮件；虚拟终端；查询服务和远
【深度学习第六期深度学习中的归一化与正则化技术：原理、实践与应用】码上有前 Python 深度学习 Pytorch 深度学习人工智能 cnn
作者：“码上有前”文章简介：深度学习欢迎小伙伴们点赞、收藏⭐、留言深度学习中的归一化与正则化技术：原理、实践与应用摘要：本文深入探讨深度学习中批量归一化（BN）、层归一化（LN）、标准化以及正则化等关键技术。详细阐述它们的基本原理，包括如何调整数据分布、控制模型复杂度等；通过丰富的实例和对应代码，展示在不同网络架构中这些技术的具体实现方式，以及对模型训练和性能的影响；同时，对比分析各项技术的特点和
笔记本电脑外接屏幕/台式电脑屏幕调节亮度方法小宇蛋电脑显示器
我之前找了很多办法都不顶用，因为屏幕电源和主机电源不一个，所以无法通过系统调节屏幕亮度。但其实办法很简单很简单，就问卖你屏幕的店家调节亮度的按钮在哪，直接通过屏幕上的按钮调节。
如何使用Python控制笔记本电脑屏幕亮度？很酷的站长编程笔记电脑 python 开发语言
Python已成为世界上最受欢迎的编程语言之一，这要归功于它的简单性、多功能性和广泛的应用程序。凭借其广泛的库和框架，Python可用于从Web开发到机器学习以及介于两者之间的任何内容。在Python中，最流行的数据分析和操作库之一是Pandas，它提供了处理表格数据的强大工具。在本教程中，我们将使用Python和屏幕亮度控制库来探索如何控制笔记本电脑屏幕亮度。我们将向您展示如何使用Python通
深度神经网络课程设计：从理论到实践 Vita Libre
本文还有配套的精品资源，点击获取简介：深度神经网络是深度学习预测的核心技术，本课程设计项目旨在教授学生如何构建和应用深度神经网络进行各种预测任务，包括图像识别和自然语言处理。学生将通过源代码示例学习从网络架构设计、数据预处理到模型训练与评估的完整流程，并掌握深度学习的基本概念、组件及技巧。1.深度神经网络定义和在深度学习预测中的角色深度神经网络（DeepNeuralNetworks,DNNs）是深
深度学习基础与应用：从理论到实战创新工场
本文还有配套的精品资源，点击获取简介：深度学习是人工智能的核心分支，通过模拟人脑神经网络处理大量数据以执行复杂任务。Python因其简洁性和强大的库支持成为深度学习研究的首选语言。本文概述了深度学习基础概念、核心算法、Python框架，并假设了一个包含教程、示例代码、数据集、交互式学习环境、性能评估指标和进阶主题的“deep-learning-study-main”压缩包内容，旨在帮助学习者深入理
大模型与智能体：螺旋共生，绘就智能新蓝图东锋17 人工智能大模型智能体人工智能
大模型与智能体：螺旋共生，绘就智能新蓝图在人工智能的前沿领域，大模型与智能体宛如两颗璀璨的星辰，以一种精妙的螺旋共生关系，重塑着智能世界的格局，深刻影响着我们生活与工作的方方面面。大模型：构筑智能大厦的基石大语言模型，像广为人知的GPT-4、通义千问等，凭借在海量数据中深度学习的锤炼，展现出卓越的语言理解与生成天赋。它们就像知识渊博的学者，能熟练应对各类自然语言任务。无论是洋洋洒洒的文章创作，还是
huggingface 笔记： Trainer UQI-LIUWJ 笔记人工智能
Trainer是一个为Transformers中PyTorch模型设计的完整训练与评估循环只需将模型、预处理器、数据集和训练参数传入Trainer，其余交给它处理，即可快速开始训练自动处理以下训练流程：根据batch计算loss使用backward()计算梯度根据梯度更新权重重复上述流程直到达到指定的epoch数1配置TrainingArguments使用TrainingArguments定义训练
huggingface笔记：文本生成Text generation UQI-LIUWJ python库整理笔记深度学习 python
1加载LLM模型fromtransformersimportAutoTokenizer,AutoModelForCausalLMimporttorchimportosmodel=AutoModelForCausalLM.from_pretrained("gpt2",device_map="auto",#自动分配到所有可用设备（优先GPU）torch_dtype=torch.bfloat16)2编码
springmvc 下 freemarker页面枚举的遍历输出杨白白 enum freemarker
spring mvc freemarker 中遍历枚举 1枚举类型有一个本地方法叫values（），这个方法可以直接返回枚举数组。所以可以利用这个遍历。 enum public enum BooleanEnum { TRUE(Boolean.TRUE, "是"), FALSE(Boolean.FALSE, "否");
实习简要总结 byalias 工作
来白虹不知不觉中已经一个多月了，因为项目还在需求分析及项目架构阶段，自己在这段时间都是在学习相关技术知识，现在对这段时间的工作及学习情况做一个总结：（1）工作技能方面大体分为两个阶段，Java Web 基础阶段和Java EE阶段 1）Java Web阶段在这个阶段，自己主要着重学习了 JSP, Servlet, JDBC, MySQL，这些知识的核心点都过了一遍，也
Quartz——DateIntervalTrigger触发器 eksliang quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208559 一.概述 simpleTrigger 内部实现机制是通过计算间隔时间来计算下次的执行时间，这就导致他有不适合调度的定时任务。例如我们想每天的 1：00AM 执行任务，如果使用 SimpleTrigger，间隔时间就是一天。注意这里就会有一个问题，即当有 misfired 的任务并且恢复执行时，该执行时间
Unix快捷键 18289753290 unix Unix；快捷键;
复制，删除，粘贴： dd:删除光标所在的行 &nbs
获取Android设备屏幕的相关参数酷的飞上天空 android
包含屏幕的分辨率以及屏幕宽度的最大dp 高度最大dp TextView text = (TextView)findViewById(R.id.text); DisplayMetrics dm = new DisplayMetrics(); text.append("getResources().ge
要做物联网？先保护好你的数据蓝儿唯美数据
根据Beecham Research的说法，那些在行业中希望利用物联网的关键领域需要提供更好的安全性。在Beecham的物联网安全威胁图谱上，展示了那些可能产生内外部攻击并且需要通过快速发展的物联网行业加以解决的关键领域。 Beecham Research的技术主管Jon Howes说：“之所以我们目前还没有看到与物联网相关的严重安全事件，是因为目前还没有在大型客户和企业应用中进行部署，也就
Java取模（求余）运算随便小屋 java
整数之间的取模求余运算很好求，但几乎没有遇到过对负数进行取模求余，直接看下面代码： /** * * @author Logic * */ public class Test { public static void main(String[] args) { // TODO A
SQL注入介绍 aijuans sql注入
二、SQL注入范例这里我们根据用户登录页面 <form action="" > 用户名：<input type="text" name="username"><br/> 密码：<input type="password" name="passwor
优雅代码风格 aoyouzi 代码
总结了几点关于优雅代码风格的描述：代码简单：不隐藏设计者的意图，抽象干净利落，控制语句直截了当。接口清晰：类型接口表现力直白，字面表达含义，API 相互呼应以增强可测试性。依赖项少：依赖关系越少越好，依赖少证明内聚程度高，低耦合利于自动测试，便于重构。没有重复：重复代码意味着某些概念或想法没有在代码中良好的体现，及时重构消除重复。战术分层：代码分层清晰，隔离明确，
布尔数组百合不是茶 java 布尔数组
androi中提到了布尔数组; 布尔数组默认的是false, 并且只会打印false或者是true 布尔数组的例子; 根据字符数组创建布尔数组 char[] c = {'p','u','b','l','i','c'}; //根据字符数组的长度创建布尔数组的个数 boolean[] b = new bool
web.xml之welcome-file-list、error-page bijian1013 java web.xml servlet error-page
welcome-file-list 1.定义： <welcome-file-list> <welcome-file>login.jsp</welcome> </welcome-file-list> 2.作用：用来指定WEB应用首页名称。 error-page1.定义： <error-page&g
richfaces 4 fileUpload组件删除上传的文件 sunjing clear Richfaces 4 fileupload
页面代码 <h:form id="fileForm"> <rich:
技术文章备忘 bit1129 技术文章
Zookeeper http://wenku.baidu.com/view/bab171ffaef8941ea76e05b8.html http://wenku.baidu.com/link?url=8thAIwFTnPh2KL2b0p1V7XSgmF9ZEFgw4V_MkIpA9j8BX2rDQMPgK5l3wcs9oBTxeekOnm5P3BK8c6K2DWynq9nfUCkRlTt9uV
org.hibernate.hql.ast.QuerySyntaxException: unexpected token: on near line 1解决方案白糖_ Hibernate
文章摘自：http://blog.csdn.net/yangwawa19870921/article/details/7553181 在编写HQL时，可能会出现这种代码： select a.name,b.age from TableA a left join TableB b on a.id=b.id 如果这是HQL，那么这段代码就是错误的，因为HQL不支持
sqlserver按照字段内容进行排序 bozch 按照内容排序
在做项目的时候，遇到了这样的一个需求：从数据库中取出的数据集，首先要将某个数据或者多个数据按照地段内容放到前面显示，例如:从学生表中取出姓李的放到数据集的前面； select * fro
编程珠玑-第一章-位图排序 bylijinnan java 编程珠玑
import java.io.BufferedWriter; import java.io.File; import java.io.FileWriter; import java.io.IOException; import java.io.Writer; import java.util.Random; public class BitMapSearch {
Java关于==和equals chenbowen00 java
关于==和equals概念其实很简单，一个是比较内存地址是否相同，一个比较的是值内容是否相同。虽然理解上不难，但是有时存在一些理解误区，如下情况： 1、 String a = "aaa"; a=="aaa"; ==> true 2、 new String("aaa")==new String("aaa
[IT与资本]软件行业需对外界投资热情保持警惕 comsci it
我还是那个看法,软件行业需要增强内生动力,尽量依靠自有资金和营业收入来进行经营,避免在资本市场上经受各种不同类型的风险,为企业自主研发核心技术和产品提供稳定,温和的外部环境... 如果我们在自己尚未掌握核心技术之前,企图依靠上市来筹集资金,然后使劲往某个领域砸钱,然
oracle 数据块结构 daizj oracle 块数据块块结构行目录
oracle 数据块是数据库存储的最小单位，一般为操作系统块的N倍。其结构为：块头－－〉空行－－〉数据，其实际为纵行结构。块的标准大小由初始化参数DB_BLOCK_SIZE指定。具有标准大小的块称为标准块（Standard Block）。块的大小和标准块的大小不同的块叫非标准块（Nonstandard Block）。同一数据库中，Oracle9i及以上版本支持同一数据库中同时使用标
github上一些觉得对自己工作有用的项目收集 dengkane github
github上一些觉得对自己工作有用的项目收集技能类 markdown语法中文说明回到顶部全文检索 elasticsearch bigdesk elasticsearch管理插件回到顶部 nosql mapdb 支持亿级别map, list, 支持事务. 可考虑做为缓存使用 C
初二上学期难记单词二 dcj3sjt126com english word
dangerous 危险的 panda 熊猫 lion 狮子 elephant 象 monkey 猴子 tiger 老虎 deer 鹿 snake 蛇 rabbit 兔子 duck 鸭 horse 马 forest 森林 fall 跌倒；落下 climb 爬；攀登 finish 完成；结束 cinema 电影院；电影 seafood 海鲜；海产食品 bank 银行
8、mysql外键(FOREIGN KEY)的简单使用 dcj3sjt126com mysql
一、基本概念 1、MySQL中“键”和“索引”的定义相同，所以外键和主键一样也是索引的一种。不同的是MySQL会自动为所有表的主键进行索引，但是外键字段必须由用户进行明确的索引。用于外键关系的字段必须在所有的参照表中进行明确地索引，InnoDB不能自动地创建索引。 2、外键可以是一对一的，一个表的记录只能与另一个表的一条记录连接，或者是一对多的，一个表的记录与另一个表的多条记录连接。 3、如
java循环标签 Foreach shuizhaosi888 标签 java循环 foreach
1. 简单的for循环 public static void main(String[] args) { for (int i = 1, y = i + 10; i < 5 && y < 12; i++, y = i * 2) { System.err.println("i=" + i + " y="
Spring Security（05）——异常信息本地化 234390216 exception Spring Security 异常信息本地化
异常信息本地化 Spring Security支持将展现给终端用户看的异常信息本地化，这些信息包括认证失败、访问被拒绝等。而对于展现给开发者看的异常信息和日志信息（如配置错误）则是不能够进行本地化的，它们是以英文硬编码在Spring Security的代码中的。在Spring-Security-core-x
DUBBO架构服务端告警Failed to send message Response javamingtingzhao 架构 DUBBO
废话不多说，警告日志如下，不知道有哪位遇到过，此异常在服务端抛出(服务器启动第一次运行会有这个警告)，后续运行没问题，找了好久真心不知道哪里错了。 WARN 2015-07-18 22:31:15,272 com.alibaba.dubbo.remoting.transport.dispatcher.ChannelEventRunnable.run(84)
JS中Date对象中几个用法 leeqq JavaScript Date 最后一天
近来工作中遇到这样的两个需求 1. 给个Date对象，找出该时间所在月的第一天和最后一天 2. 给个Date对象，找出该时间所在周的第一天和最后一天需求1中的找月第一天很简单，我记得api中有setDate方法可以使用使用setDate方法前，先看看getDate var date = new Date(); console.log(date); // Sat J
MFC中使用ado技术操作数据库你不认识的休道人 sql mfc
1.在stdafx.h中导入ado动态链接库 #import"C:\Program Files\Common Files\System\ado\msado15.dll" no_namespace rename("EOF","end")2.在CTestApp文件的InitInstance()函数中domodal之前写::CoIniti
Android Studio加速 rensanning android studio
Android Studio慢、吃内存！启动时后会立即通过Gradle来sync & build工程。（1）设置Android Studio a) 禁用插件 File -> Settings... Plugins 去掉一些没有用的插件。比如：Git Integration、GitHub、Google Cloud Testing、Google Cloud
各数据库的批量Update操作 tomcat_oracle java oracle sql mysql sqlite
MyBatis的update元素的用法与insert元素基本相同，因此本篇不打算重复了。本篇仅记录批量update操作的 sql语句，懂得SQL语句，那么MyBatis部分的操作就简单了。　　注意：下列批量更新语句都是作为一个事务整体执行，要不全部成功，要不全部回滚。 MSSQL的SQL语句　WITH R AS（　　SELECT 'John' as name, 18 as
html禁止清除input文本输入缓存 xp9802 input
多数浏览器默认会缓存input的值，只有使用ctl+F5强制刷新的才可以清除缓存记录。如果不想让浏览器缓存input的值，有2种方法：方法一：在不想使用缓存的input中添加 autocomplete="off"; eg: <input type="text" autocomplete="off" name