Xu_mWam

第六章最大熵原理

最大熵模型

最大熵原理

最大熵原理：学习概率模型时，在所有可能的概率模型（分布）中，熵最大的模型是最好的模型
通常用约束条件来确定概率模型的集合，最大熵原理也可以表述为在满足约束条件的模型集合中选取熵最大的模型。
设离散随机变量 $X$ 的概率分布是 $P (X)$ ，其熵是 $H(P)=-\sum_{x} P(x) \log P(x)$ 满足不等式 $\leqslant H(P) \leqslant \log |X|$
$∣ X ∣$ 是 $X$ 的取值个数，当 $X$ 为均匀分布右边不等式成立，也即 $X$ 服从均匀分布时，熵最大.

最大熵模型的定义
假设分类模型是一个条件概率分布 $P (Y ∣ X)$ ， $\in \mathcal{X} \subseteq \mathbf{R}^{n}$ 表示输入， $\in \mathcal{Y}$ 表示输出， $\mathcal{X}$ 和 $\mathcal{Y}$ 分别表示输入和输出的集合，这个模型表示的是对于给定的输入 $X$ ，以及条件概率 $P (Y ∣ X)$ 输出 $Y$
给定一个训练数据集 $T=\left\{\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right), \cdots,\left(x_{N}, y_{N}\right)\right\}$ 学习的目标是用最大熵原理选择最好的分类模型
给定训练数据集，可以确定联合分布 $P (X, Y)$ 的经验分布和边缘分布 $P (X)$ 的经验分布，分布以 $\tilde{P}(X, Y)$ 和 $\tilde{P}(X)$ 表示，这里 $\tilde{P}(X=x, Y=y)=\frac{v(X=x, Y=y)}{N}$ $\tilde{P}(X=x)=\frac{v(X=x)}{N}$ 其中 $v (X = x, Y = y)$ 表示训练数据中样本 $(x, y)$ 出现的频数， $v (X = x)$ 表示训练数据中输入 $x$ 出现的频数， $N$ 表示训练样本的容量
用特征函数 $f (x, y)$ 描述输入 $x$ 和输出 $y$ 之间的某一个事实.其定义是 $y)=\left\{\begin{array}{l}{1, x \text { and } y \text { satisfy the fact }} \\ {0, \text { else }}\end{array}\right.$ 它是一个二值函数，当 $x$ 和 $y$ 满足这个事实时取值为 $1$ ，否则取值为 $0$
特征函数 $f (x, y)$ 关于经验分布 $\tilde{P}(X, Y)$ 的期望，用 $E_{\tilde{p}}(f)$ 表示 $E_{\tilde{P}}(f)=\sum_{x, y} \tilde{P}(x, y) f(x, y)$ 特征函数 $f (x, y)$ 关于模型 $\tilde{P}(Y|X)$ 与经验分布 $\tilde{P}(X)$ 的期望值，用 $E_{P}(f)$ 表示 $E_{P}(f)=\sum_{x, y} \tilde{P}(x) P(y | x) f(x, y)$ 如果模型能够获取训练数据中的信息，那么就可以假设这两个期望值相等，即 $E_{P}(f)=E_{\tilde{p}}(f)$ 或 $\sum_{x, y} \tilde{P}(x) P(y | x) f(x, y)=\sum_{x, y} \tilde{P}(x, y) f(x, y)$ 假设有 $n$ 个特征函数 $f_{i}(x, y), \quad i=1,2, \cdots, n$ ,那么就有 $n$ 个约束条件
定义（最大熵模型） 假设满足所有约束条件的模型集合为 $\mathcal{C} \equiv\left\{P \in \mathcal{P} | E_{P}\left(f_{i}\right)=E_{\tilde{P}}\left(f_{i}\right), \quad i=1,2, \cdots, n\right\}$ 定义在条件概率分布 $P (Y ∣ X)$ 上的条件熵为 $H(P)=-\sum_{x, y} \tilde{P}(x) P(y | x) \log P(y | x)$ 则模型集合 $\mathcal{C}$ 中条件熵 $H (P)$ 最大的模型称为最大熵模型。

最大熵模型的学习

对于给定的训练数据集 $T=\left\{\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right), \cdots,\left(x_{N}, y_{N}\right)\right\}$ 以及特征函数 $f_{i}(x, y),i=1,2, \cdots, n$
最大熵模型的学习等价于约束优化问题： $\max _{P \in \mathbf{C}} \quad H(P)=-\sum_{x, y} \tilde{P}(x) P(y | x) \log P(y | x)$ $\text { s.t. } \quad E_{P}\left(f_{i}\right)=E_{\tilde{P}}\left(f_{i}\right), \quad i=1,2, \cdots, n$ $\sum_{y} P(y | x)=1$ 等价于 $\min _{P \in \mathbf{C}}-H(P)=\sum_{x, y} \tilde{P}(x) P(y | x) \log P(y | x)$ $\text { s.t. } \quad E_{P}\left(f_{i}\right)-E_{\tilde{P}}\left(f_{i}\right)=0, \quad i=1,2, \cdots, n$ $\sum_{y} P(y | x)=1$ 具体推导： $w_{0}, w_{1}, w_{2}, \cdots, w_{n}$ ，定义拉格朗日函数 $L (P, w)$ ： $\begin{aligned} L(P, w) \equiv &-H(P)+w_{0}\left(1-\sum_{y} P(y | x)\right)+\sum_{i=1}^{n} w_{i}\left(E_{\tilde{p}}\left(f_{i}\right)-E_{P}\left(f_{i}\right)\right) \\=& \sum_{x, y} \tilde{P}(x) P(y | x) \log P(y | x)+w_{0}\left(1-\sum_{y} P(y | x)\right) \\ &+\sum_{i=1}^{n} w_{i}\left(\sum_{x, y} \tilde{P}(x, y) f_{i}(x, y)-\sum_{x, y} \tilde{P}(x) P(y | x) f_{i}(x, y)\right) \end{aligned}$ 最优化的原始问题是 $\min _{P \in \mathbf{C}} \max _{w} L(P, w)$
对偶问题是 $\max _{w} \min _{P \in \mathbf{C}} L(P, w)$ 由于拉格朗日函数 $L (P, w)$ 是 $P$ 的凸函数，原始问题的解与对偶问题的解是等价的
首先解对偶问题内部的极小化问题 $\min _{P \in \mathbf C} L(P, w)$ ， $\min _{P \in \mathbf C} L(P, w)$ 是 $w$ 的函数，将其记作 $\Psi(w)=\min _{P \in \mathbf{C}} L(P, w)=L\left(P_{w}, w\right)$ $\Psi(w)$ 称为对偶函数，同时，将其解记作 $P_{w}=\arg \min _{P \in \mathbf{C}} L(P, w)=P_{w}(y | x)$ 具体地，求 $L (P, w)$ 对 $P (y ∣ x)$ 的偏导数 $\begin{aligned} \frac{\partial L(P, w)}{\partial P(y | x)} &=\sum_{x, y} \tilde{P}(x)(\log P(y | x)+1)-\sum_{y} w_{0}-\sum_{x, y}\left(\tilde{P}(x) \sum_{i=1}^{n} w_{i} f_{i}(x, y)\right) \\ &=\sum_{x, y} \tilde{P}(x)\left(\log P(y | x)+1-w_{0}-\sum_{i=1}^{n} w_{i} f_{i}(x, y)\right) \end{aligned}$ 令偏导数等于 $0$ ，在 $\tilde{P}(x)>0$ 的情况下，解得 $x)=\exp \left(\sum_{i=1}^{n} w_{i} f_{i}(x, y)+w_{0}-1\right)=\frac{\exp \left(\sum_{i=1}^{n} w_{i} f_{i}(x, y)\right)}{\exp \left(1-w_{0}\right)}$ 由于 $\sum_{y} P(y | x)=1$ ，得 $P_{w}(y | x)=\frac{1}{Z_{w}(x)} \exp \left(\sum_{i=1}^{n} w_{i} f_{i}(x, y)\right)$ 其中， $Z_{w}(x)=\sum_{y} \exp \left(\sum_{i=1}^{n} w_{i} f_{i}(x, y)\right)$ $Z_{w}(x)$ 称为规范化因子； $f_{i}(x, y)$ 是特征函数； $w_{i}$ 是特征的权值,由上两式表示的模型 $P_{w}=P_{w}(y | x)$ 就是最大熵模型，这里 $w$ 是最大熵模型中的参数向量之后，求解对偶问题外部的极大化问题 $\max _{w} \Psi(w)$ 将其解记 $w^*$ 为，即 $w^{*}=\arg \max _{w} \Psi(w)$ 这就是说可以应用最优化算法求对偶函数 ${\Psi}(w)$ 的极大化,得到 $w^*$ ,用来表示 $P^{*} \in \mathcal{C}$ ,这里 $P^{*}=P_{w^{*}}=P_{w^*} (y | x)$ 是学习到的最优模型（最大熵模型），最大熵模型的学习归结为对偶函数 ${\Psi}(w)$ 的极大化。

极大似然估计

下证对偶函数的极大化等价于最大熵模型的极大似然估计
已知训练数据的经验分布概率 $\tilde{P}(X, Y)$ ，条件概率分布 $P (Y ∣ X)$ 的对数似然函数表示为 $L_{\tilde{P}}\left(P_{w}\right)=\log \prod_{x, y} P(y | x)^{\tilde{P}(x, y)}=\sum_{x, y} \tilde{P}(x, y) \log P(y | x)$ 当条件概率分布 $P (y ∣ x)$ 是最大熵模型时，对数似然函数 $L_{\tilde{P}}\left(P_{w}\right)$ 为 $L_{\tilde{P}}\left(P_{w}\right)=\sum_{x, y} \tilde{P}(x, y) \log P(y | x)$ $=\sum_{x, y} \tilde{P}(x, y) \sum_{i=1}^{n} w_{i} f_{i}(x, y)-\sum_{x, y} \tilde{P}(x, y) \log Z_{w}(x)$ $=\sum_{x, y} \tilde{P}(x, y) \sum_{i=1}^{n} w_{i} f_{i}(x, y)-\sum_{x} \tilde{P}(x) \log Z_{w}(x)$ 再看对偶函数 ${\Psi}(w)$ ，由拉格朗日函数 $\begin{aligned} L(P, w) \equiv &-H(P)+w_{0}\left(1-\sum_{y} P(y | x)\right)+\sum_{i=1}^{n} w_{i}\left(E_{\tilde{p}}\left(f_{i}\right)-E_{P}\left(f_{i}\right)\right) \\=& \sum_{x, y} \tilde{P}(x) P(y | x) \log P(y | x)+w_{0}\left(1-\sum_{y} P(y | x)\right) \\ &+\sum_{i=1}^{n} w_{i}\left(\sum_{x, y} \tilde{P}(x, y) f_{i}(x, y)-\sum_{x, y} \tilde{P}(x) P(y | x) f_{i}(x, y)\right) \end{aligned}$ 及 $\Psi(w)=\min _{P \in \mathbf{C}} L(P, w)=L\left(P_{w}, w\right)$ 可得 $\begin{aligned} \Psi(w)=& \sum_{x, y} \tilde{P}(x) P_{w}(y | x) \log P_{w}(y | x) \\ &+\sum_{i=1}^{n} w_{i}\left(\sum_{x, y} \tilde{P}(x, y) f_{i}(x, y)-\sum_{x, y} \tilde{P}(x) P_{w}(y | x) f_{i}(x, y)\right) \end{aligned}$ $=\sum_{x, y} \tilde{P}(x, y) \sum_{i=1}^{n} w_{i} f_{i}(x, y)+\sum_{x, y} \tilde{P}(x) P_{w}(y | x)\left(\log P_{w}(y | x)-\sum_{i=1}^{n} w_{i} f_{i}(x, y)\right)$ $=\sum_{x, y} \tilde{P}(x, y) \sum_{i=1}^{n} w_{i} f_{i}(x, y)-\sum_{x, y} \tilde{P}(x) P_{w}(y | x) \log Z_{w}(x)$ $=\sum_{x, y} \tilde{P}(x, y) \sum_{i=1}^{n} w_{i} f_{i}(x, y)-\sum_{x} \tilde{P}(x) \log Z_{w}(x)$ 最后一步用到 $\sum_{y} P(y | x)=1$
比较 $L_{\tilde{P}}\left(P_{w}\right)$ 和 $\Psi(w)$ ，可得 $\Psi(w)=L_{\tilde{P}}\left(P_{w}\right)$ 对偶函数等价于对数似然函数 $L_{\tilde{P}}\left(P_{w}\right)$ ，于是证明了最大熵模型学习中的对偶函数极大化等价于最大熵模型的极大似然估计。
最大熵模型一般形式
$P_{w}(y | x)=\frac{1}{Z_{w}(x)} \exp \left(\sum_{i=1}^{n} w_{i} f_{i}(x, y)\right)$ 其中， $Z_{w}(x)=\sum_{y} \exp \left(\sum_{i=1}^{n} w_{i} f_{i}(x, y)\right)$ 这里， $\in \mathbf{R}^{n}$ 为输入， $\in\{1,2, \cdots, K\}$ 为输出， $\in \mathbf{R}^{n}$ 为权值向量， $f_{i}(x, y), i=1,2, \cdots, n$ 为任意实值特征函数.

模型学习的最优化算法

常用的方法有改进的迭代尺度法、梯度下降法、牛顿法或拟牛顿法
改进的迭代尺度法
最大熵模型为 $P_{w}(y | x)=\frac{1}{Z_{w}(x)} \exp \left(\sum_{i=1}^{n} w_{i} f_{i}(x, y)\right)$ 其中， $Z_{w}(x)=\sum_{y} \exp \left(\sum_{i=1}^{n} w_{i} f_{i}(x, y)\right)$ 对数似然函数为 $L(w)=\sum_{x, y} \tilde{P}(x, y) \sum_{i=1}^{n} w_{i} f_{i}(x, y)-\sum_{x} \tilde{P}(x) \log Z_{w}(x)$ 目标是通过极大似然函数学习模型的参数，即求对数似然函数的极大值 $\hat{{w}}$
$\mathrm{IIS}$ 的想法是:假设最大熵模型当前的参数向量是 $w=\left(w_{1}, w_{2}, \cdots, w_{n}\right)^{\mathrm{T}}$ ，我们希望找到一个新的参数向量 $w+\delta=\left(w_{1}+\delta_{1}, w_{2}+\delta_{2}, \cdots, w_{n}+\delta_{n}\right)^{\mathrm{T}}$ ，使得模型的对数似然函数值增大。如果能有这样一种参数向量更新的方法 $\tau : w \rightarrow w+\delta$ ，那么就可以重复使用这一方法，直至找到对数似然函数的最大值。
对于给定的经验分布 $\tilde{P}(x, y)$ ，模型参数 $w$ 从到 $w+\delta$ ，对数似然函数的改变量是 $\begin{aligned} L(w+\delta)-L(w) &=\sum_{x, y} \tilde{P}(x, y) \log P_{w+\delta}(y | x)-\sum_{x, y} \tilde{P}(x, y) \log P_{w}(y | x) \\ &=\sum_{x, y} \tilde{P}(x, y) \sum_{i=1}^{n} \delta_{i} f_{i}(x, y)-\sum_{x} \tilde{P}(x) \log \frac{Z_{w+\delta}(x)}{Z_{w}(x)} \end{aligned}$ 利用不等式 $-\log \alpha \geqslant 1-\alpha, \quad \alpha>0$ 建立对数似然函数改变量的下界：
$L(w+\delta)-L(w) \geqslant \sum_{x, y} \tilde{P}(x, y) \sum_{i=1}^{n} \delta_{i} f_{i}(x, y)+1-\sum_{x} \tilde{P}(x) \frac{Z_{w+\delta}(x)}{Z_{w}(x)}$ $=\sum_{x, y} \tilde{P}(x, y) \sum_{i=1}^{n} \delta_{i} f_{i}(x, y)+1-\sum_{x} \tilde{P}(x) \sum_{y} P_{w}(y | x) \exp \sum_{i=1}^{n} \delta_{i} f_{i}(x, y)$ 将右端记为 $A(\delta | w)=\sum_{x, y} \tilde{P}(x, y) \sum_{i=1}^{n} \delta_{i} f_{i}(x, y)+1-\sum_{x} \tilde{P}(x) \sum_{y} P_{w}(y | x) \exp \sum_{i=1}^{n} \delta_{i} f_{i}(x, y)$ 于是有 $L(w+\delta)-L(w) \geqslant A(\delta | w)$ 即 $A({\delta} | {w})$ 是对数似然函数改变量的一个下界
如果能够找到适当的 $\delta$ 使下界 $A({\delta} | {w})$ 提高，那么对数似然函数也会提高，然而，函数 $A({\delta} | {w})$ 中的 $\delta$ 是一个向量，含有多个变量，不易同时优化。 $\mathrm{IIS}$ 试图一次只优化其中一个变量 $\delta_{i}$ ，而固定其他变量 $\delta_{j}, \quad i \neq j$ 。为达到这一目的， $\mathrm{IIS}$ 进一步降低下界 $A({\delta} | {w})$ 。具体地，IIS引进一个量 $f^{\#}(x, y)$ ， $f^{\#}(x, y)=\sum_{i} f_{i}(x, y)$ 因为 $f_i$ 是二值函数，故 $f^{\#}(x, y)$ 表示所有特征在 $(x, y)$ 出现的次数，这样 $A({\delta} | {w})$ 可以写成 $A({\delta} | w)=\sum_{x, y} \tilde{P}(x, y) \sum_{i=1}^{n} \delta_{i} f_{i}(x, y)+1-\sum_{x} \tilde{P}(x) \sum_{y} P_{w}(y | x) \exp \left(f^{\#}(x, y) \sum_{i=1}^{n} \frac{\delta_{i} f_{i}(x, y)}{f^{\#}(x, y)}\right)$
利用指数函数的凸性以及对任意 $i$ ，有 $\frac{f_{i}(x, y)}{f^{\#}(x, y)} \geqslant 0$ 且 $\sum_{i=1}^{n} \frac{f_{i}(x, y)}{f^{\#}(x, y)}=1$
根据Jensen不等式，得到 $\exp \left(\sum_{i=1}^{n} \frac{f_{i}(x, y)}{f^{\#}(x, y)} \delta_{i} f^{\#}(x, y)\right) \leqslant \sum_{i=1}^{n} \frac{f_{i}(x, y)}{f^{\#}(x, y)} \exp \left(\delta_{i} f^{\#}(x, y)\right)$
于是可改写为 $A({\delta} | w) \geqslant \sum_{x, y} \tilde{P}(x, y) \sum_{i=1}^{n} \delta_{i} f_{i}(x, y)+1-\sum_{x} \tilde{P}(x) \sum_{y} P_{w}(y | x) \sum_{i=1}^{n}\left(\frac{f_{i}(x, y)}{f^{\#}(x, y)}\right) \exp \left(\delta_{i} f^{\#}(x, y)\right)$ 记上式不等式右端为 $B(\delta | w)=\sum_{x, y} \tilde{P}(x, y) \sum_{i=1}^{n} \delta_{i} f_{i}(x, y)+1-\sum_{x} \tilde{P}(x) \sum_{y} P_{w}(y | x) \sum_{i=1}^{n}\left(\frac{f_{i}(x, y)}{f^{\#}(x, y)}\right) \exp \left(\delta_{i} f^{\#}(x, y)\right)$ 于是得到 $L(w+\delta)-L(w) \geqslant B(\delta | w)$ 这里， $B(\delta | w)$ 是对似然函数改变量的一个新的（相对不紧的）下界
求 $B(\delta | w)$ 对 $\delta_{i}$ 的偏导数: $\frac{\partial B({\delta} | w)}{\partial \delta_{i}}=\sum_{x y} \tilde{P}(x, y) f_{i}(x, y)-\sum_{x} \tilde{P}(x) \sum_{y} P_{w}(y | x) f_{i}(x, y) \exp \left(\delta_{i} f^{\#}(x, y)\right)$ 在上式里，除 $\delta_{i}$ 外不含任何其他变量，令偏导数为 $0$ 得到 $\sum_{x, y} \tilde{P}(x) P_{w}(y | x) f_{i}(x, y) \exp \left(\delta_{i} f^{\#}(x, y)\right)=E_{\tilde{p}}\left(f_{i}\right)$ 于是，依次对 $\delta_{i}$ 求解方上式程可以求出 $\delta$
这就给出了一种求 $w$ 的最优解的迭代算法，即改进的迭代尺度算法 $\mathrm{IIS}$
拟牛顿法
对最大熵模型而言， $P_{w}(y | x)=\frac{\exp \left(\sum_{i=1}^{n} w_{i} f_{i}(x, y)\right)}{\sum_{y} \exp \left(\sum_{i=1}^{n} w_{i} f_{i}(x, y)\right)}$ 目标函数： $\min _{w \in \mathbf{R}^{n}} f(w)=\sum_{x} \tilde{P}(x) \log \sum_{y} \exp \left(\sum_{i=1}^{n} w_{i} f_{i}(x, y)\right)-\sum_{x, y} \tilde{P}(x, y) \sum_{i=1}^{n} w_{i} f_{i}(x, y)$ 梯度： $g(w)=\left(\frac{\partial f(w)}{\partial w_{1}}, \frac{\partial f(w)}{\partial w_{2}}, \cdots, \frac{\partial f(w)}{\partial w_{n}}\right)^{\mathrm{T}}$ 其中 $\frac{\partial f(w)}{\partial w_{i}}=\sum_{x, y} \tilde{P}(x) P_{w}(y | x) f_{i}(x, y)-E_{\tilde{P}}\left(f_{i}\right), \quad i=1,2, \cdots, n$

《统计学习方法》 李航

多模态大模型：技术原理与实战 ChatGPT的诞生 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
多模态大模型：技术原理与实战ChatGPT的诞生作者：禅与计算机程序设计艺术1.背景介绍1.1人工智能的发展历程1.1.1早期人工智能1.1.2机器学习时代1.1.3深度学习的崛起1.2自然语言处理的演进1.2.1基于规则的方法1.2.2统计机器学习方法1.2.3深度学习在NLP中的应用1.3大语言模型的出现1.3.1Transformer架构的提出1.3.2预训练语言模型的发展1.3.3GPT系
统计机器学习第十三章极大似然估计的性质——图解MLE的渐进正态性 cui_hao_nan 统计机器学习导论机器学习
n=10;t=10000;s=1/12/n;x=linspace(-0.4,0.4,100);y=1/sqrt(2*pi*s)*exp(-x.^2/(2*s));z=mean(rand(t,n)-0.5,2);figure(1);clf;holdonb=20;hist(z,b);h=plot(x,y*t/b*(max(z)-min(z)),'r-');这段代码的功能是生成随机数并进行直方图和曲线的
赠书 | 李航老师的蓝皮书茗创科技
赠书活动统计学习方法“统计机器学习方法是实现智能化目标的最有效的手段，统计机器学习是各种智能性处理研究领域中的核心技术，并且在这些领域的发展及应用中起着决定性的作用。”作者简介李航，日本京都大学电气电子工程系毕业，日本东京大学计算机科学博士。北京大学、南京大学客座教授，IEEE会士，ACM杰出科学家，CCF高级会员。研究方向包括信息检索，自然语言处理，统计机器学习，及数据挖掘。曾出版过三部学术专著
统计机器学习-感知机又双叒叕苟了一天
感知机是二分类的线性分类模型，即通过一个超平面将数据集分割在两侧，同在一个侧的为同一个分类，一般上侧的为正例，下侧的为负例。感知机的定义假设输入空间（特征空间）是，输出空间是。输入表示实例的特征向量，对应于输入空间（特征空间）的点；输出表示实例的类别。由输入空间到输出空间的如下函数称为感知机。其中，和为感知机模型参数，叫做权值或权值向量，叫做偏置，表示和的内积。是符号函数，即并且假设数据是完全线性
二、自然语言处理发展历程智享AI 深度学习自然语言处理
1.自然语言处理发展历程自然语言处理的发展历程经历了兴起阶段、符号主义、连接主义和深度学习阶段。兴起阶段：自然语言处理的萌芽期，代表人物包括图灵和香农。符号主义：自然语言处理的发展器，代表任务是乔姆斯基和他的生成文法。连接主义：自然语言处理的发展器，代表方法为统计机器学习。深度学习：自然语言处理的鼎盛期，代表人物为深度学习三巨头：YoshuaBengio、YannLeCun、GeoffreyHin
机器学习和深度学习检测网络安全课题：DDOS检测、恶意软件、恶意流量检测课题资料三更科技公社机器学习深度学习 web安全
开源的DDOS检测工具https://github.com/equalitie/learn2ban基于KDDCUP99数据集预测DDoS攻击基于谱分析与统计机器学习的DDoS攻击检测技术研究基于机器学习的分布式拒绝服务攻击检测方法研究DDoSAttacksUsingHiddenMarkovModelsandCooperativeReinforcementLearning*恶意软件检测https:/
神经网络：深度学习优化方法是Dream呀神经网络深度学习神经网络人工智能
1.有哪些方法能提升CNN模型的泛化能力采集更多数据：数据决定算法的上限。优化数据分布：数据类别均衡。选用合适的目标函数。设计合适的网络结构。数据增强。权值正则化。使用合适的优化器等。2.BN层面试高频问题大汇总BN层解决了什么问题？统计机器学习中的一个经典假设是“源空间（sourcedomain）和目标空间（targetdomain）的数据分布（distribution）是一致的”。如果不一致，
【期末复习向】文本理解与数据挖掘-名词解释诺坎普的风间数据挖掘人工智能文本理解深度学习名词解释
（一）什么是自然语言处理1.自然语言处理（NLP）从最广泛的意义上说，NLP指的是任何自动处理人类语言的程序（二）一系列自然语言处理问题2.NLP常用方法基于规则的方法（基于人工标注的规则和字典，覆盖度低）统计机器学习方法（被学术界和工业界采用；使用概率模型，包括训练数据、特征工程、在参数上训练模型、将模型应用与测试数据）联结主义方法（深度学习崛起，包括没有语言特征、采用大量原始数据训练、参数量大
zxl-机器学习-01 米米吉吉 Python 机器学习
文章目录机器学习一.定义：二.计算机三阶段三.基本要求四.统计机器学习五.基本问题六.机器学习的方法作者：zstarling机器学习网络算法机器优化概率统计数据矩阵信息模型推理知识靠学习一.定义：机器学习是把数据变成知识的和过程。计算机和数学的结合。统计提供建模的框架framework。数据挖掘和机器学习本质上无区别，机器学习更偏数学。区别：ML机器学习STAT统计学networks,graphs
多重共线性 7ccc099f4608
最近碰到个有有意思的问题：在传统统计机器学习（lr）中，相关性检测(VIF等)防止多重共线性非常重要；但是在实际的机器学习应用中，多重共线性似乎不用考虑。参考这个回答：https://stats.stackexchange.com/questions/168622/why-is-multicollinearity-not-checked-in-modern-statistics-machine-l
参数估计 Xwei1226 paper reading 参数估计
大学期间学习数理统计这门课程的时候，没有特别用心。说实话统计学还是挺枯燥的，而且当时也没有太多的学习意识，不知道为什么要学这些貌似八竿子打不着的东西。现在想想，当时真是toosimple，sometimesnaive啊。。等到越往后面深入，发现需要用的数学知识尤其是统计学知识越来越多，因为现在机器学习里发展最成熟应用最广泛的一部分就是统计机器学习，自然离不开统计学的方方面面。而且随着研究的逐步深入
图神经网络--论文精读无盐薯片图神经网络神经网络机器学习人工智能
论文精读图神经网络论文精读摘要介绍问题定义学习表示算法代码实战加载百科词条，构建无向图训练Word2Vec模型摘要DeepWalk用于学习隐式表征的表示学习方法，将节点在图中的连接关系进行编码，形成稠密低维连续的向量空间，可用于统计机器学习在多类别网络分类任务上表现不错，例如BlogCatalog、Flickr和YouTubeDeepWalk基于随机游走的，适用于稀疏标注的场景介绍背景：传统机器学
贝叶斯变分方法：初学者指南--平均场近似无水先生 #贝叶斯理论人工智能人工智能数学模型
EricJang:ABeginner'sGuidetoVariationalMethods:Mean-FieldApproximation(evjang.com)一、说明变分贝叶斯(VB)方法是统计机器学习中非常流行的一系列技术。VB方法允许我们将统计推断问题（即，给定另一个随机变量的值来推断随机变量的值）重写为优化问题（即，找到最小化某些目标函数的参数值），本文将阐述这种精妙模型。二、文章绪论2
机器学习实战梯度上升数学推导_机器学习-白板推导系列(二)-数学基础笔记 weixin_39644377 机器学习实战梯度上升数学推导
视频如下：机器学习-白板推导系列(二)-数学基础_哔哩哔哩(゜-゜)つロ干杯~-bilibiliwww.bilibili.com一、概率-高斯分布1-极大似然估计高斯分布在统计机器学习中占据重要的地位。本节内容主要是利用极大似然估计计算高斯分布下的最优参数。Data:假设数据中有个样本，每个样本为维数据（含有个feature）所有的样本都独立同分布于高斯分布MLE：极大似然估计MLE：求最优的使得
2018年8月9日真昼之月
早上提前于闹钟醒来，希望以后也能一直这样。坐地铁时再度挤成狗，早出门和地铁人不多果然是无法兼得的吗……再次久违（？）地来到公司并打扫工位，学长继续出差中，但是休产假的另一个同事倒是回来了……上午闲着没事看了看李航的统计机器学习，超困，中午睡了半个小时午觉后好了点。下午又看了一会儿书之后开始自己找正事干，写评分卡模型的操作说明写到一半。晚上大部分时间都在KFC摸鱼打鬼岛，面对Rider红鬼掏出了好久
浅谈从机器学习到深度学习江小北机器学习机器学习
机器学习分为频率派和贝叶斯派。频率派发展成统计机器学习，贝叶斯派发展成概率图模型。频率派有“四化”，如图所示，正则化有很多种，在损失函数后面加一个惩罚项，比如线性回归里面的L1和L2正则化，每个模型的正则化项不一定相同；核化用处非常多，常见的有kernelSVM，另外在降维也有用到，比如kernelPCA。集成方法现在非常多，bagging代表是随机森林，boosting代表有AdaBoost,G
概率论入门之《统计机器学习导论》阅读笔记（第一，二章）生而为弟
第一章统计机器学习第一章主要介绍了机器学习的分类：监督学习，非监督学习，强化学习。然后介绍了监督学习的三大主要任务：回归，分类，排序，以及非监督学习的聚类。最后稍稍介绍了一下机器学习中的其它技术：集成学习，张量学习，在线学习，迁移学习，度量学习。当然这些与概率论关系不大，因此笔者在此略过。下面着重记录第二章的阅读笔记。第二章随机变量与概率分布2.1数学基础imageimageimageimage以
监督学习方法与无监督学习方法总结 daisyxyr 李航统计学习方法笔记学习机器学习算法
（一）监督学习10种监督学习方法特点的概括汇总如下表：（二）无监督学习八种常用的统计机器学习方法，即聚类方法（包括层次聚类与k均值聚类）、奇异值分解（SVD）、主成分分析（PCA）、潜在语义分析（LSA）、概率潜在语义分析（PLSA）、马尔可夫链蒙特卡罗法（MCMC）、潜在狄利克雷分配（LDA）、PageRank算法还有另外三种常用的统计机器学习方法，即非负矩阵分解（NMF）、变分推理、幂法这些方
【统计机器学习】考核标准 + 课堂练习题汇总 MorleyOlsen 专业选修课系列机器学习人工智能
写在前面1：上课老师是：付学谦老师及其博士助教。上课带纸笔和人就行。2：上课的内容和作业量相比于其他选修课较为轻松，且只有大作业和论文报告，没有考试！！！基本上最后会留20min给同学们写课堂练习题。3：最好拍下每张ppt，指不定哪道题就用上了。以及现在是GPT时代，善用工具会事半功倍。4：平时分而言，我个人觉得挺玄学的，每次课都做前排且上课听讲并回答问题，最后也只拿了B+。5：所以，只是为了刷成
《统计机器学习》学习笔记第三章之K近邻资料加载中机器学习统计学习方法
本文完全转载于https://www.cnblogs.com/pinard/p/6061661.html标记了一些自己认为比较重要的句子，同时自己为了以后回顾方便就搬了过来。这是一个关于统计机器学习的系列笔记。K近邻法(k-nearestneighbors,KNN)是一种很基本的机器学习方法了，在我们平常的生活中也会不自主的应用。比如，我们判断一个人的人品，只需要观察他来往最密切的几个人的人品好坏
李航老师《统计学习方法》第1章阅读笔记 Chen_Chance 学习方法笔记人工智能
1.1统计学习统计学习的特点统计学习：计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析现在人们提及机器学习时，往往指统计机器学习，所以可以认为本书介绍的是机器学习方法统计学习的对象统计学习研究的对象是数据(data)，统计学习关于数据的基本假设是同类数据具有一定的统计规律性，这是统计学习的前提。e.g.用随机变量描述数据的特征，用概率分布描述数据的统计规律在统计学习中，以变量或变量组表
从统计语言模型到预训练语言模型---统计语言模型 hanscalZheng 大语言模型语言模型人工智能自然语言处理
语言模型从历史上来看，自然语言处理的研究范式变化是从规则到统计，从统计机器学习到基于神经网络的深度学习，这同时也是语言模型发展的历史。要了解语言模型的发展历史，首先我们需要认识什么是语言模型。语言模型的目标是建模自然语言的概率分布，即确定语言中任意词序列的概率，它提供了从概率统计角度建模语言文字的独特视角。语言模型在自然语言处理中用广泛的应用，在语音识别、语法纠错、机器翻译、语言生成等任务中均发挥
统计机器学习（二）-- 概率（3、4、5、6）雪茸川
概率1.1概率空间和事件样本空间是实验所有可能结果的空间，,是一个元素或者实现事件是样本空间的子集测度论相关巴拉巴拉随机变量离散随机变量(0-1)分布数学期望二项分布数学期望性质函数n:整数推广NegativeBinomialDistribution几何分布数学期望比如丢硬币得到一次正面所需要的次数泊松分布泊松定理注意：意味着当n很大的时候必定很小可能场景：一本书中一页的印刷错误，一天内病人的人数
【AI】机器学习——绪论 AmosTian AI #机器学习人工智能机器学习 AI
文章目录1.1机器学习概念1.1.1定义统计机器学习与数据挖掘区别机器学习前提1.1.2术语1.1.3特点以数据为研究对象目标方法——基于数据构建模型SML三要素SML步骤1.2分类1.2.1参数化/非参数化方法1.2.2按算法分类1.2.3按模型分类概率模型非概率模型逻辑斯蒂回归1.2.4基本分类监督学习分类符号表示形式化特征无监督模型特征符号表示形式化强化学习半监督学习主动学习1.2.5按技巧
统计机器学习 -- 目录雪茸川
概率基础随机变量1随机变量2高斯分布连续分布例子scalemixturepisribarinjeffreypriorstatisticinterenceLaplace变换多元分布定义概率变换jacobianwedgeproduction统计量多元正态分布Wishart分布矩阵元Beta分布统计量充分统计量指数值分布共轭先验性质EntropyKLdistanceproperties概率不等式1概率不
1.统计学习及监督学习概论徴徴南风
1.1统计学习统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。统计学习也称为统计机器学习。统计学习的前置知识：工科数学（高等数学），线性代数，概率论，一门基础编程语言（python）统计学习的步骤:有限数据-》假设空间-》学习策略-》实现算法-》选择最优-》预测新数据1.2统计学习的分类基本分类：监督学习，无监督学习，半监督学习，强化学习监督学习：监督学习的本
人工智能之数学（概率方面） aidh123 人工智能之数学概率贝叶斯
我们经常使用的统计机器学习算法，或者是神经网络模型中，数学作为最基础的根基，融合了高等数学中的微分学、概率、线性代数、凸优化等方面，每一个方面深入后都是有很多的益处，但是本着先实用，在进行学习的原则。所以主要是理解相关数学符号，理解统计学习中一些和概率相关的算法推导，即可。基础概率：一件事情发生的概率，等于该事件发生的数目除以所发生的数目。例如电影院观影人数为100人，女生50人，男士50人，你看
统计学习方法学习笔记（一）————统计学习方法概论阿波拉统计学习方法李航统计学习数据监督学习特征空间
1.统计学习（1）统计学习概念统计学习(statisticallearning)是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。统计学习也称为统计机器学习(statisticalmachinelearning)。（2）统计学习的特点统计学习以计算机及网络为平台，是建立在计算机及网络之上的。统计学习以数据为研究对象，是数据驱动的学科。统计学习的目的是对数据进行预测与分析
2022-04-29 《当产品经理遇到人工智能》读书笔记07 自然语言处理的产品应用 May_1013
自然语言处理产品应用在人工智能领域，会将所有人类使用的语言视为“自然”语言。自然语言处理NaturalLanguageProcessing，NLP技术可以让机器更加懂得人类的自然语言，理解人类通过语言所表达的含义。一、认识NLP1、常见自然语言处理的两种方法1）基于规则来理解自然语言，即通过制定一系列的规则来设计一个程序，然后通过这个程序来解决自然语言交流的问题2）基于统计机器学习来理解自然语言，
《统计学习方法》学习笔记1：以方法为中心王同学LM Machine learning 学习方法学习笔记
统计学习，也称统计机器学习，什么是学习，如果一个系统能够通过执行某个过程改进它的性能，就说这个系统可以学习。按此定义，统计机器学习，就是计算机系统通过运行数据及统计方法提高系统性能的机器学习。它以计算机和网络为平台，以数据为研究对象，目的是对数据进行预测与分析。统计学习以方法为中心，方法构建模型，再应用模型去预测与分析。1.统计学习建立在计算机和网络之上自不必说。2.之所以以数据为研究对象，是因为
html 周华华 html
js 1，数组的排列 var arr=[1,4,234,43,52,]; for(var x=0;x<arr.length;x++){ for(var y=x-1;y<arr.length;y++){ if(arr[x]<arr[y]){ &
【Struts2 四】Struts2拦截器 bit1129 struts2拦截器
Struts2框架是基于拦截器实现的，可以对某个Action进行拦截，然后某些逻辑处理，拦截器相当于AOP里面的环绕通知，即在Action方法的执行之前和之后根据需要添加相应的逻辑。事实上，即使struts.xml没有任何关于拦截器的配置，Struts2也会为我们添加一组默认的拦截器，最常见的是，请求参数自动绑定到Action对应的字段上。 Struts2中自定义拦截器的步骤是：
make:cc 命令未找到解决方法 daizj linux 命令未知 make cc
安装rz sz程序时，报下面错误： [root@slave2 src]# make posix cc -O -DPOSIX -DMD=2 rz.c -o rz make: cc：命令未找到 make: *** [posix] 错误 127 系统：centos 6.6 环境：虚拟机错误原因：系统未安装gcc，这个是由于在安
Oracle之Job应用周凡杨 oracle job
最近写服务，服务上线后，需要写一个定时执行的SQL脚本，清理并更新数据库表里的数据，应用到了Oracle 的 Job的相关知识。在此总结一下。一：查看相关job信息 1、相关视图 dba_jobs all_jobs user_jobs dba_jobs_running 包含正在运行
多线程机制朱辉辉33 多线程
转至http://blog.csdn.net/lj70024/archive/2010/04/06/5455790.aspx 程序、进程和线程：程序是一段静态的代码，它是应用程序执行的蓝本。进程是程序的一次动态执行过程，它对应了从代码加载、执行至执行完毕的一个完整过程，这个过程也是进程本身从产生、发展至消亡的过程。线程是比进程更小的单位，一个进程执行过程中可以产生多个线程，每个线程有自身的
web报表工具FineReport使用中遇到的常见报错及解决办法（一）老A不折腾 web报表 finereport java报表报表工具
FineReport使用中遇到的常见报错及解决办法（一）这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、address pool is full：含义：地址池满，连接数超过并发数上
mysql rpm安装后没有my.cnf 林鹤霄没有my.cnf
Linux下用rpm包安装的MySQL是不会安装/etc/my.cnf文件的，至于为什么没有这个文件而MySQL却也能正常启动和作用，在这儿有两个说法，第一种说法，my.cnf只是MySQL启动时的一个参数文件，可以没有它，这时MySQL会用内置的默认参数启动，第二种说法，MySQL在启动时自动使用/usr/share/mysql目录下的my-medium.cnf文件，这种说法仅限于r
Kindle Fire HDX root并安装谷歌服务框架之后仍无法登陆谷歌账号的问题 aigo root
原文：http://kindlefireforkid.com/how-to-setup-a-google-account-on-amazon-fire-tablet/ Step 4: Run ADB command from your PC On the PC, you need install Amazon Fire ADB driver and instal
javascript 中var提升的典型实例 alxw4616 JavaScript
// 刚刚在书上看到的一个小问题,很有意思.大家一起思考下吧 myname = 'global'; var fn = function () { console.log(myname); // undefined var myname = 'local'; console.log(myname); // local }; fn() // 上述代码实际上等同于以下代码 m
定时器和获取时间的使用百合不是茶时间的转换定时器
定时器:定时创建任务在游戏设计的时候用的比较多 Timer();定时器 TImerTask();Timer的子类由 Timer 安排为一次执行或重复执行的任务。定时器类Timer在java.util包中。使用时，先实例化，然后使用实例的schedule(TimerTask task, long delay)方法，设定
JDK1.5 Queue bijian1013 java thread java多线程 Queue
JDK1.5 Queue LinkedList： LinkedList不是同步的。如果多个线程同时访问列表，而其中至少一个线程从结构上修改了该列表，则它必须保持外部同步。（结构修改指添加或删除一个或多个元素的任何操作；仅设置元素的值不是结构修改。）这一般通过对自然封装该列表的对象进行同步操作来完成。如果不存在这样的对象，则应该使用 Collections.synchronizedList 方
http认证原理和https bijian1013 http https
一.基础介绍在URL前加https://前缀表明是用SSL加密的。你的电脑与服务器之间收发的信息传输将更加安全。 Web服务器启用SSL需要获得一个服务器证书并将该证书与要使用SSL的服务器绑定。 http和https使用的是完全不同的连接方式，用的端口也不一样,前者是80，后
【Java范型五】范型继承 bit1129 java
定义如下一个抽象的范型类，其中定义了两个范型参数，T1，T2 package com.tom.lang.generics; public abstract class SuperGenerics<T1, T2> { private T1 t1; private T2 t2; public abstract void doIt(T
【Nginx六】nginx.conf常用指令(Directive) bit1129 Directive
1. worker_processes 8; 表示Nginx将启动8个工作者进程，通过ps -ef|grep nginx,会发现有8个Nginx Worker Process在运行 nobody 53879 118449 0 Apr22 ? 00:26:15 nginx: worker process
lua 遍历Header头部 ronin47 lua header 遍历　
local headers = ngx.req.get_headers() ngx.say("headers begin", "<br/>") ngx.say("Host : ", he
java-32.通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小(两数组的差最小)。 bylijinnan java
import java.util.Arrays; public class MinSumASumB { /** * Q32.有两个序列a,b，大小都为n,序列元素的值任意整数，无序. * * 要求：通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小。 * 例如: * int[] a = {100,99,98,1,2,3
redis 开窍的石头 redis
在redis的redis.conf配置文件中找到# requirepass foobared 把它替换成requirepass 12356789 后边的12356789就是你的密码打开redis客户端输入config get requirepass 返回 redis 127.0.0.1:6379> config get requirepass 1) "require
[JAVA图像与图形]现有的GPU架构支持JAVA语言吗？ comsci java语言
无论是opengl还是cuda，都是建立在C语言体系架构基础上的，在未来，图像图形处理业务快速发展，相关领域市场不断扩大的情况下，我们JAVA语言系统怎么从这么庞大，且还在不断扩大的市场上分到一块蛋糕，是值得每个JAVAER认真思考和行动的事情
安装ubuntu14.04登录后花屏了怎么办 cuiyadll ubuntu
这个情况，一般属于显卡驱动问题。可以先尝试安装显卡的官方闭源驱动。按键盘三个键：CTRL + ALT + F1 进入终端，输入用户名和密码登录终端：安装amd的显卡驱动 sudo apt-get install fglrx 安装nvidia显卡驱动 sudo ap
SSL 与数字证书的基本概念和工作原理 darrenzhu 加密 ssl 证书密钥签名
SSL 与数字证书的基本概念和工作原理 http://www.linuxde.net/2012/03/8301.html SSL握手协议的目的是或最终结果是让客户端和服务器拥有一个共同的密钥，握手协议本身是基于非对称加密机制的，之后就使用共同的密钥基于对称加密机制进行信息交换。 http://www.ibm.com/developerworks/cn/webspher
Ubuntu设置ip的步骤 dcj3sjt126com ubuntu
在单位的一台机器完全装了Ubuntu Server，但回家只能在XP上VM一个，装的时候网卡是DHCP的，用ifconfig查了一下ip是192.168.92.128,可以ping通。转载不是错： Ubuntu命令行修改网络配置方法 /etc/network/interfaces打开后里面可设置DHCP或手动设置静态ip。前面auto eth0，让网卡开机自动挂载. 1. 以D
php包管理工具推荐 dcj3sjt126com PHP Composer
http://www.phpcomposer.com/ Composer是 PHP 用来管理依赖（dependency）关系的工具。你可以在自己的项目中声明所依赖的外部工具库（libraries），Composer 会帮你安装这些依赖的库文件。中文文档入门指南下载安装包列表 Composer 中国镜像
Gson使用四（TypeAdapter） eksliang json gson Gson自定义转换器 gsonTypeAdapter
转载请出自出处：http://eksliang.iteye.com/blog/2175595 一.概述 Gson的TypeAapter可以理解成自定义序列化和返序列化二、应用场景举例例如我们通常去注册时（那些外国网站），会让我们输入firstName，lastName,但是转到我们都
JQM控件之Navbar和Tabs gundumw100 html xml css
在JQM中使用导航栏Navbar是简单的。只需要将data-role="navbar"赋给div即可： <div data-role="navbar"> <ul> <li><a href="#" class="ui-btn-active&qu
利用归并排序算法对大文件进行排序 iwindyforest java 归并排序大文件分治法 Merge sort
归并排序算法介绍，请参照Wikipeida zh.wikipedia.org/wiki/%E5%BD%92%E5%B9%B6%E6%8E%92%E5%BA%8F 基本思想：大文件分割成行数相等的两个子文件，递归（归并排序）两个子文件，直到递归到分割成的子文件低于限制行数低于限制行数的子文件直接排序两个排序好的子文件归并到父文件直到最后所有排序好的父文件归并到输入
iOS UIWebView URL拦截啸笑天 UIWebView
本文译者：candeladiao，原文：URL filtering for UIWebView on the iPhone说明：译者在做app开发时，因为页面的javascript文件比较大导致加载速度很慢，所以想把javascript文件打包在app里，当UIWebView需要加载该脚本时就从app本地读取，但UIWebView并不支持加载本地资源。最后从下文中找到了解决方法，第一次翻译，难免有
索引的碎片整理SQL语句 macroli sql
SET NOCOUNT ON DECLARE @tablename VARCHAR (128) DECLARE @execstr VARCHAR (255) DECLARE @objectid INT DECLARE @indexid INT DECLARE @frag DECIMAL DECLARE @maxfrag DECIMAL --设置最大允许的碎片数量,超过则对索引进行碎片
Angularjs同步操作http请求with $promise qiaolevip 每天进步一点点学习永无止境 AngularJS 纵观千象
// Define a factory app.factory('profilePromise', ['$q', 'AccountService', function($q, AccountService) { var deferred = $q.defer(); AccountService.getProfile().then(function(res) {
hibernate联合查询问题 sxj19881213 sql Hibernate HQL 联合查询
最近在用hibernate做项目，遇到了联合查询的问题，以及联合查询中的N+1问题。针对无外键关联的联合查询，我做了HQL和SQL的实验，希望能帮助到大家。（我使用的版本是hibernate3.3.2） 1 几个常识：（1）hql中的几种join查询，只有在外键关联、并且作了相应配置时才能使用。（2）hql的默认查询策略，在进行联合查询时，会产
struts2.xml wuai struts
<?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache

第六章 最大熵原理