越前浩波

统计学习方法笔记（李航）———第一章（统计学习方法概论）

一、基本概念

假设空间（Hypothesis space）

相对“输入空间”、“输出空间”、“特征空间”等向量空间，假设空间的概念比较抽象。首先它是一个“映射”的集合。什么是映射呢？在这里暂且理解为函数吧。输入空间中的一个 n维向量x，通过函数 $f(\cdot)$ 得到了输出空间中的m维向量y：

注意：按照符号规定, $x^{(i)}$ 表示此向量的第 $i$ 个分量 (特征) , $x_{i}$ 表示这是第 $i$ 个向量 (样本)

因此, 假设空间是函数的集合, 即 “函数族" 。记作 $\mathscr{F}=\{f \mid Y=f(X)\}$ 。

模型分类

模型 $\left\{\begin{array}{l}\text { 概率模型 } \cdots \cdots \text { 条件概率分布 }: P(Y \mid X) \\ \text { 非概率模型 } \cdots \cdots . \text { 决策函数 }: Y=F(X)\end{array}\right.$

预测结果 $\left\{\begin{array}{l}\text { 概率模型 } \cdots \cdots y_{N+1}=\arg \max _{y} \hat{P}\left(y \mid x_{N+1}\right) \\ \text { 非概率模型 } \cdots \cdots y_{N+1}=\hat{f}\left(x_{N+1}\right)\end{array}\right.$

非概率模型（决策函数）较容易理解，通过对已知数据的 “学习" ，在假设空间中找到合适的 “决策函数" $\quad \hat{f} \quad$ ，然后通过此模型对 $x_{N+1}$ 进行预测，得到 $y_{N+1}$ 。寻找 $\hat{f}$ 的过程类似于数理统计中的“点估计" ，需要确定函数 $f_{\theta}(\cdot)$ 的未知参数 $\theta$

概率模型（条件概率分布）则不同, X和Y不能理解为分布函数 $\mid X)$ 的输入、输出，分布函数的值域为[0,1]之间的实数, 不能为m维向量。因此X和Y可以看作两个事件，相当于分布函数的两个参数。

$y_{N+1}=\arg \max _{y} \hat{P}\left(y \mid x_{N+1}\right)$ 该如何理解呢?
argmax表示arguments of maxima，意思是 “最大值的参数”，, 也就是 “求出使得函数出现最大值的参数” 。它的数学定义如下：

设 $\rightarrow Y, \quad \arg \max _{x} f(x):=\{x \mid \forall y: f(y) \leq f(x)\}$
为了更好地区分argmax 与 max, 下面给出max的定义作为对比：

设 $\rightarrow Y, \quad \max _{x} f(x):=\{f(x) \mid \forall y: f(y) \leq f(x)\}$
可以看到，argmax是自变量（参数）的集合, 可能存在多个值; max是函数值的集合, 最终只有一个值。

因此 $y_{N+1}=\arg \max _{y} \hat{P}\left(y \mid x_{N+1}\right)$ 可以理解为：对于分布函数 $\hat{P}(Y \mid X),$ 在
$X=x_{N+1}$ 的条件下, $\quad Y=y_{N+1}$ 使得该分布函数取得最大值。

无论是概率模型 $P_{\theta}(Y \mid X)$ 还是非概率模型 $Y=f_{\theta}(X),$ 学习的目的是确定模型的参数 $\theta$ 从而确定决策函数 $f_{\theta}$ 或者条件分布 $P_{\theta}$ 。 $X$ 、 $Y$ 是给定训练数据集，不需要学习。

二、统计学习方法的三要素

统计学习方法都是由“模型、策略和算法”三要素构成，即方法 = 模型 + 策略 + 算法。此处主要讨论监督学习的三要素。

模型
前文已详细地讨论过两种模型，假设空间可以表示为：
- 非概率模型
  $\mathscr{F}=\left\{f \mid Y=f_{\theta}(X), \theta \in R^{n}\right\}$
- 概率模型
  $\mathscr{F}=\left\{P \mid P_{\theta}(Y \mid X), \theta \in R^{n}\right\}$
  参数向量 $\theta$ 所在的空间 $R^{n}$ 称为 “参数空间" 。一般来说，在假设空间中寻找模型, 相当于在参数空间中寻找一个合适的参数向量。
策略

如何判断一个参数向量是否合适？或者说：如何判断一个模型是最优模型？

在已知数据中，模型的预测值与真实值差距越小，则表示模型越好，对应的参数向量越合适。这一判别标准就是所谓的“策略”。

为此引入：损失函数（loss function）、风险函数（risk function）的概念。

损失函数
度量一次预测的好坏，就是说对于一个样本，它的预测值与真实值的误差。书中介绍了4种损失函数，对于分类问题，常用0-1损失函数：
$f(X))=\left\{\begin{array}{l}1, Y \neq f(X) \\ 0, Y=f(X)\end{array}\right.$
对于回归问题，最常用的是
- 平方损失函数 (非概率模型) : $\quad L(Y, f(X))=(Y-f(X))^{2}$
- 对数损失函数 (概率模型) $\quad L(Y, P(Y \mid X))=-\log P(Y \mid X)$

平方损失函数的值越小，表示预测值与真实值误差越小，因此模型越好。

但对数损失函数则不能用误差来理解，因为 $\mid X)$ 表示在X条件下，Y出现的概率，应该是概率越大模型越好。函数 $L=-\log z$ 的图像如下：

当 $\mid X) \in[0,1]$ 时, 由于 $L=-\log z$ 为减函数, 因此z越接近1（发生概率越高），则损失函数的值就越接近于0 （损失函数越小）。

风险函数
由于损失函数只度量一次预测的好坏，评判一个模型的好坏需要看长期的发挥，因此用损失函数的数学期望定义 “风险函数” ，表示模型 $f (x)$ 在总体分布 $P (X, Y)$ 下的平均损失。
$R_{e x p}(f)=E_{P}[L(Y, f(X))]=\int_{\mathcal{X}, \mathcal{Y}} L(y, f(x)) P(x, y) d x d y$
经验风险(empirical risk)
实际上，我们并不知道总体分布 $P (X, Y)$ 是什么，否则就不需要学习和预测了，只能通过样本统计量估计风险函数（L的期望值）。
$R_{e m p}(f)=\frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right)$
当N趋于无穷时，经验风险收敛于期望风险（即风险函数）。
结构风险（structural risk）
当样本容量足够大时，经验风险有很好的效果。但当样本容量很小时，容易造成“过拟合”（后面会解释）。为了解决这一问题，在经验风险的基础上增加一个“正则化项”（即惩罚项），得到结构风险。
$R_{s r m}(f)=\frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right)+\lambda J(f)$
$J (f)$ 为模型的复杂度, 模型越复杂则结构风险越大。 $\quad \lambda \geq 0$ 用于权衡经验风险与模型复杂度, 结构风险小需要经验风险和模型复杂度同时小。
所谓模型复杂度, 可以理解为未知参数的个数。以多项式模型为例，次数越低模型就越简单, 一次多项式 $f(x)=\theta_{0}+\theta_{1} x$ 就比二次多项式 $f(x)=\theta_{0}+\theta_{1} x+\theta_{2} x^{2}$ 简单。正如奥卡姆弟
刀所言：如无必要，勿增实体。
两种策略
经验风险最小化： $\min _{f \in \mathscr{F}} \frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right)$
结构风险最小化： $\min _{f \in \mathscr{F}} \frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right)+\lambda J(f)$
风险最小化策略认为，经验风险（或结构风险）最小的模型就是最优的模型。此时，经验风险函数或结构风险函数就是最优化问题的目标函数。

算法

有了模型、目标函数以及策略，具体求解最优化问题的算法就是统计学习的算法。

三、过拟合与正则化（Over-fitting and Regularization）

更详细请参考：欠拟合和过拟合以及如何选择模型

过拟合
样本取值由总体分布决定，但也受随机性的影响。如下图所示，即使“真”模型是一条正弦曲线，样本点也不会全都在此曲线上。所谓“过拟合”就是在训练集里过度追求准确率，导致模型复杂度超过了“真”模型，结果反而“失真”了。因此训练误差并不是越小越好的。

例子：使用最小二乘法拟和曲线

高斯于 1823 年在误差e $_{1}, \ldots, e_{n}$ 独立同分布的假定下,证明了最小二乘方法的一个最优性质: 在所有无偏的线性估计类中,最小二乘方法是其中方差最小的！对于数据 $\left(x_{i}, y_{i}\right)(i=1,2,3 \ldots, m)$

拟合出函数h $(x)$

有误差，即残差: $r_{i}=h\left(x_{i}\right)-y_{i}$

此时L2范数(残差平方和)最小时， $h (x)$ 和 $y$ 相似度最高，更拟合

一般的 $H (x)$ 为n次的多项式， $H(x)=w_{0}+w_{1} x+w_{2} x^{2}+\ldots w_{n} x^{n}$
$w\left(w_{0}, w_{1}, w_{2}, \ldots, w_{n}\right)$ 为参数

最小二乘法就是要找到一组 $w\left(w_{0}, w_{1}, w_{2}, \ldots, w_{n}\right),$ 使得 $\sum_{i=1}^{n}\left(h\left(x_{i}\right)-y_{i}\right)^{2}$ (残差平方和) 最小

即，求 $\min \sum_{i=1}^{n}\left(h\left(x_{i}\right)-y_{i}\right)^{2}$

举例：我们用目标函数y = $\sin 2 \pi x,$ 加上一个正态分布的噪音干扰，用多项式去拟合

import numpy as np
import scipy as sp
from scipy.optimize import leastsq
import matplotlib.pyplot as plt
%matplotlib inline

ps: numpy.poly $\mathrm{d}([1,2,3])$ 生成 $1 x^{2}+2 x^{1}+3 x^{0 *}$


# 目标函数
def real_func(x):
    return np.sin(2*np.pi*x)

# 多项式
def fit_func(p, x):
    f = np.poly1d(p)
    return f(x)

# 残差
def residuals_func(p, x, y):
    ret = fit_func(p, x) - y
    return ret


# 十个点
x = np.linspace(0, 1, 10)
x_points = np.linspace(0, 1, 1000)
# 加上正态分布噪音的目标函数的值
y_ = real_func(x)
y = [np.random.normal(0, 0.1) + y1 for y1 in y_]


def fitting(M=0):
    """
    M    为 多项式的次数
    """
    # 随机初始化多项式参数
    p_init = np.random.rand(M + 1)
    # 最小二乘法
    p_lsq = leastsq(residuals_func, p_init, args=(x, y))
    print('Fitting Parameters:', p_lsq[0])

    # 可视化
    plt.plot(x_points, real_func(x_points), label='real')
    plt.plot(x_points, fit_func(p_lsq[0], x_points), label='fitted curve')
    plt.plot(x, y, 'bo', label='noise')
    plt.legend()
    return p_lsq

# M=0
p_lsq_0 = fitting(M=0)

# M=1
p_lsq_1 = fitting(M=1)

# M=3
p_lsq_3 = fitting(M=3)

# M=9
p_lsq_9 = fitting(M=9)

当 M=9 时，多项式曲线通过了每个数据点，但是造成了过拟合

正则化

避免过拟合的方法是正则化，以结构风险代替经验风险。实际上，常用参数向量的L1和L2范数来衡量模型的复杂度。

设模型的参数向量为 $w$

$w$ 的 $L_{1}$ 范数: $\quad\|w\|_{1}=\sum_{i=1}^{n}\left|w_{i}\right|,$ 即参数向量各分量的绝对值之和。
$w$ 的 $L_{2}$ 范数: $\quad\|w\|_{2}=\sqrt{\sum_{i=1}^{n} w_{i}^{2}},$ 即参数向量各分量的平方和, $,$ 也就是向量的欧氏长度。

对于线性回归问题, $L_{1}$ 正则化又称为 “LASSO回归" ， $L_{2}$ 正则化称为 “岭回归"
简单地说, $L_{1}$ 正则化使模型的非零参数尽量地少（使得较多的参数归零)， , $L_{2}$ 正则化则尽量把参数保留下来。

接上面例子结果显示过拟合，引入正则化项(regularizer)，降低过拟合
$Q(x)=\sum_{i=1}^{n}\left(h\left(x_{i}\right)-y_{i}\right)^{2}+\lambda\|w\|^{2}$
回归问题中，损失函数是平方损失，正则化可以是参数向量的 L2 范数,也可以是 L1 范数。

L1: regularization*abs§
L2: 0.5 * regularization * np.square§

regularization = 0.0001
def residuals_func_regularization(p, x, y):
    ret = fit_func(p, x) - y
    ret = np.append(ret,np.sqrt(0.5 * regularization * np.square(p)))  # L2范数作为正则化项
    return ret

# 最小二乘法,加正则化项
p_init = np.random.rand(9 + 1)
p_lsq_regularization = leastsq(
    residuals_func_regularization, p_init, args=(x, y))

plt.plot(x_points, real_func(x_points), label='real')
plt.plot(x_points, fit_func(p_lsq_9[0], x_points), label='fitted curve')
plt.plot(
    x_points,
    fit_func(p_lsq_regularization[0], x_points),
    label='regularization')
plt.plot(x, y, 'bo', label='noise')
plt.legend()

四、泛化能力（Genneralization ability）

所谓“泛化能力”就是通过学习得到的模型，对未知数据的预测能力。通常根据测试误差（在测试集上的表现）来评价泛化能力，但由于测试集的数据有限，可能存在一定的偏差。从理论上来说，我们通过“泛化误差”衡量其泛化能力：

$R_{e x p}(\hat{f})=E_{P}[L(Y, \hat{f}(X))]=\int_{\mathcal{X}, \mathcal{Y}} L(y, \hat{f}(x)) P(x, y) d x d y$
泛化误差实际上就是模型 $\hat{f}$ 的 “期望风险"

通过研究“泛化误差上界”（generalization error bound）来确定一个模型的泛化能力。泛化上界主要与下列两个因素有关：

它是样本容量N的函数，当N趋于无穷，泛化误差上界趋于0；
它是假设空间容量的函数，假设空间容量越大（存在越多的假设），寻找合适的模型就越难，泛化误差上界就越大。

在有限假设空间下，定理1.1证明了以上两个结论。

已知训练集 $T=\left\{\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right), \ldots\left(x_{N}, y_{N}\right)\right\},$ T是来自联合概率分布 $\mathrm{P}(\mathrm{X}, \mathrm{Y})$ 的独立同分布, $\quad X \in R^{n}, Y \in\{-1,+1\},$ 假设空间为有限集合 $\mathscr{F}=\left\{f_{1}, f_{2}, \ldots, f_{d}\right\}$

f 的期望风险和经验风险分别为:
$R (f) = E [L (Y, f (X))]$ 和 $\hat{R}(f)=\frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right)$

定理1.1 对于以上二分类问题, 当假设空间是有限个函数的集合 $\mathscr{F}=\left\{f_{1}, f_{2}, \ldots, f_{d}\right\}$ 时, 对任意一个函数 $\in \mathscr{F},$ 至少以概率 $1-\delta, \quad(0<\delta<1)$ 以下不等式成立

$\leq \hat{R}(f)+\varepsilon(d, N, \delta),$ 其中, $\varepsilon(d, N, \delta)=\sqrt{\frac{1}{2 N}\left(\log d+\log \frac{1}{\delta}\right)}$

结论部分用“概率语言" 表示为 $\leq \hat{R}(f)+\varepsilon) \geq 1-\delta$ ,注意此处Iog表示以e为底的自然对数。

证明：(1) Hoeffding不等式 $P(R(f)-\hat{R}(f) \geq \varepsilon) \leq \exp \left(-2 N \varepsilon^{2}\right)$

关于Hoeffding不等式的证明, 可以参考林轩田的《Learning from data》，第一章的习题有证明的提示，这里不深入讨论。

书中式1.34和1.35等价于 $P[|E(\bar{X})-\bar{X}| \geq t] \leq \exp \left(-\frac{2 N^{2} t^{2}}{\sum_{i=1}^{N}\left(b_{i}-a_{i}\right)^{2}}\right),$ 可通过取绝对值把两个不等式合并，这是Hoeffding不等式的标准形式。

根据定义, $\quad R(f)$ 就是0-1损失函数 $L (Y, f (X))$ 的数学期望, 而 $\hat{R}(f)$ 是损失函数在给定训练集T下的样本均值。它们分别对应Hoeffding不等式的 $E(\bar{X})$ 和 $\bar{X}$ 。

值得注意的是, 把 $R (f)$ 和 $\hat{R}(f)$ 代入Hoeffding不等式后，绝对值符号消失了。
这意味着 $R(f)-\hat{R}(f) \geq 0 ?$ 是的，因为 $\hat{R}(f)$ 是在训练集（有限数据集）下的误差, 而 $R (f)$ 是它的数学期望，相当于在无限数据集下的误差。无论模型如何优化，至多使得
常点" 导致 $R(f)-\hat{R}(f)>0$ 。所以不等式中的绝对值号可以去掉。

(2) 如何理解 $P(\exists f \in \mathscr{F}: R(f)-\hat{R}(f) \geq \varepsilon)=P\left(\bigcup_{f \in \mathscr{F}}\{R(f)-\hat{R}(f) \geq \varepsilon\}\right)$

注意集合论的基本概念： “事件A、事件B、事件C至少有一个发生” 的概率等于 “事件A发生或事件B发生或事件C发生" 的概率。

设 $X=\{A, B, C\},$ 则 $P(\exists x \in X)=P(A \cup B \cup C)$ ,ヨ表示 “存在一个” , “至少有一个” 的意思, 而 U 表示 “或" 的意思, 因此有
$P(\exists f \in \mathscr{F}: R(f)-\hat{R}(f) \geq \varepsilon)=P\left(\bigcup_{f \in \mathscr{F}}\{R(f)-\hat{R}(f) \geq \varepsilon\}\right)$

根据容斥原理, 等式右侧 $\leq \sum_{f \in \mathscr{F}} P(R(f)-\hat{R}(f) \geq \varepsilon) \leq d \exp \left(-2 N \varepsilon^{2}\right)$

实际上第二个小于等于号的等号不成立，因为一般情况下，不可能所有模型都出现等号（达到上界）。

(3) 从 “至少有一个f" 到 “任意"

把 $\exp \left(-2 N \varepsilon^{2}\right)$ 记作 $\delta,$ 即 $\delta=d \exp \left(-2 N \varepsilon^{2}\right),$ 可以得到
$\exp \left(-2 N \varepsilon^{2}\right)=\frac{\delta}{d} \Leftrightarrow 2 N \varepsilon^{2}=\log \left(\frac{d}{\delta}\right) \Leftrightarrow \varepsilon^{2}=\frac{1}{2 N} \log \left(\frac{d}{\delta}\right)=\frac{1}{2 N}\left(\log d+\log \frac{1}{\delta}\right)$

即 $\varepsilon(d, N, \delta)=\sqrt{\frac{1}{2 N}\left(\log d+\log \frac{1}{\delta}\right)}$

我们已经证明 $P(\exists f \in \mathscr{F}: R(f)-\hat{R}(f) \geq \varepsilon)P(∃f∈F:R(f)−R^(f)≥ε)<dexp(−2Nε2)=δ$

设事件 $E=\{\exists f \in \mathscr{F}: R(f)-\hat{R}(f) \geq \varepsilon\},$ 则 $P(\bar{E}) \geq 1-\delta$

事件E的补集是什么?

回到 $P(\exists x \in X),$ 它的补集为 $P(\overline{A \cup B \cup C})=P(\bar{A} \cap \bar{B} \cap \bar{C}),$ 表示
$\bar{A} 、 \bar{B}_{\text {、 }} \bar{C}$ 同时发生, 它们之中任意一个发生的概率.

所以, $\quad \bar{E}=\{\forall f \in \mathscr{F}: R(f)-\hat{R}(f)<\varepsilon\}$

即任意 $\in \mathscr{F},$ 有 $P(R(f)-\hat{R}(f)<\varepsilon) \geq 1-\delta$

不等式左边加上等号概率不变, 即 $P(R(f)-\hat{R}(f) \leq \varepsilon) \geq 1-\delta,$ 证毕。

五、监督学习应用

分类问题

引入了precision 精确率（查准率）、recall 召回率（查全率）、F1值等概念：

结合信息检索的例子理解P和R？一次检索相当于一次预测：
$P=\frac{T P}{T P+F P}$
P 表示 “检索出的信息有多少比例是用户感兴趣的" 。在检索出的信息中, 用户感兴趣的是TP, 用户不感兴趣的是FP。也就是说，预测为正例之中，有多少真实为正? 由此可见, P是从预测 (检索）的角度定义的概念。
$R=\frac{T P}{T P+F N}$
R 表示 “用户感兴趣的信息有多少比例被检索出来" ，在用户感兴趣的信息中，检索出的是TP, 未检索出的是FN。也就是说，真实为正例之中，有多少预测为正? 由此可见，R是从真实（用户）的角度定义的概念。

从信息检索的角度来看, P翻译为查准率，R翻译为查全率更为合适。

实际上，P和R就好像假设检验中的第一类错误和第二类错误，P和R是相互矛盾的度量。提高查准率P意味着提高门蓝, 一些真实的正例被拒绝，导致查全率R下降。反之亦然。
$1=\frac{2 P R}{P+R}=\frac{2 T P}{2 T P+F P+F N}$
它是P和R的调和均值, 当F1高时, P和R都较高。

标注问题

标注问题常出现在信息抽取、自然语言处理领域，如：句子中单词词性标注。

回归问题

通过决策函数进行数值预测。

习题

习题1.1
说明伯努利模型的极大似然估计以及贝叶斯估计中的统计学习方法三要素。伯努利模型是定义在取值为0与1的随机变量上的概率分布。假设观测到伯努利模型n次独立的数据生成结果，其中k次的结果为1，这时可以用极大似然估计或贝叶斯估计来估计结果为1的概率。

解答：

伯努利模型的极大似然估计以及贝叶斯估计中的统计学习方法三要素如下：

极大似然估计
模型: $\quad \mathcal{F}=\left\{\mathrm{f} \mid \mathrm{f}_{\mathrm{p}}(\mathrm{x})=\mathrm{p}^{\mathrm{x}}(1-\mathrm{p})^{(1-\mathrm{x})}\right\}$
策略：最大化似然函数
$\text { 算法: } \arg \min _{\mathrm{p}} \mathrm{L}(\mathrm{p})=\arg \min _{\mathrm{p}}\left(\begin{array}{l} \mathrm{n} \\ \mathrm{k} \end{array}\right) \mathrm{p}^{\mathrm{k}}(1-\mathrm{p})^{(\mathrm{n}-\mathrm{k})}$
贝叶斯估计
模型: $\quad \mathcal{F}=\left\{\mathrm{f} \mid \mathrm{f}_{\mathrm{p}}(\mathrm{x})=\mathrm{p}^{\mathrm{x}}(1-\mathrm{p})^{(1-\mathrm{x})}\right\}$
策略：求参数期望
算法:
$\begin{aligned} \mathrm{E}_{\pi}\left[\mathrm{p} \mid \mathrm{y}_{1}, \cdots, \mathrm{y}_{\mathrm{n}}\right] &=\int_{0}^{1} \mathrm{p} \pi\left(\mathrm{p} \mid \mathrm{y}_{1}, \cdots, \mathrm{y}_{\mathrm{n}}\right) \mathrm{dp} \\ &=\int_{0}^{1} \mathrm{p} \frac{\mathrm{f}_{\mathrm{D}}\left(\mathrm{y}_{1}, \cdots, \mathrm{y}_{\mathrm{n}} \mid \mathrm{p}\right) \pi(\mathrm{p})}{\int_{\Omega} \mathrm{f}_{\mathrm{D}}\left(\mathrm{y}_{1}, \cdots, \mathrm{y}_{\mathrm{n}} \mid \mathrm{p}\right) \pi(\mathrm{p}) \mathrm{dp}} \mathrm{dp} \\ &=\int_{0}^{1} \frac{\mathrm{p}^{\mathrm{k}+1}(1-\mathrm{p})^{(\mathrm{n}-\mathrm{k})}}{\int_{0}^{1} \mathrm{p}^{\mathrm{k}}(1-\mathrm{p})^{(\mathrm{n}-\mathrm{k})} \mathrm{dp}} \mathrm{dp} \end{aligned}$

伯努利模型的极大似然估计：

定义P $(\mathrm{Y}=1)$ 概率为p，可得似然函数为：
$\mathrm{L}(\mathrm{p})=\mathrm{f}_{\mathrm{D}}\left(\mathrm{y}_{1}, \mathrm{y}_{2}, \cdots, \mathrm{y}_{\mathrm{n}} \mid \theta\right)=\left(\begin{array}{l} \mathrm{n} \\ \mathrm{k} \end{array}\right) \mathrm{p}^{\mathrm{k}}(1-\mathrm{p})^{(\mathrm{n}-\mathrm{k})}$
方程两边同时对p求导, 则：
$\begin{aligned} 0 &=\left(\begin{array}{l} \mathrm{n} \\ \mathrm{k} \end{array}\right)\left[\mathrm{kp}^{\mathrm{k}-1}(1-\mathrm{p})^{(\mathrm{n}-\mathrm{k})}-(\mathrm{n}-\mathrm{k}) \mathrm{p}^{\mathrm{k}}(1-\mathrm{p})^{(\mathrm{n}-\mathrm{k}-1)}\right] \\ &=\left(\begin{array}{l} \mathrm{n} \\ \mathrm{k} \end{array}\right)\left[\mathrm{p}^{(\mathrm{k}-1)}(1-\mathrm{p})^{(\mathrm{n}-\mathrm{k}-1)}(\mathrm{m}-\mathrm{kp})\right] \end{aligned}$
可解出p的值为p $\mathrm{p}=1, \mathrm{p}=\mathrm{k} / \mathrm{n},$ 显然P $(\mathrm{Y}=1)=\mathrm{p}=\frac{\mathrm{k}}{\mathrm{n}}$

伯努利模型的贝早斯估计：定义P $(\mathrm{Y}=1)$ 概率为p, $\mathrm{p在}[0,1]$ 之间的取值是等概率的，因此先验概率密度函数 $\pi(\mathrm{p})=1,$ 可得似然函数为：

$\mathrm{L}(\mathrm{p})=\mathrm{f}_{\mathrm{D}}\left(\mathrm{y}_{1}, \mathrm{y}_{2}, \cdots, \mathrm{y}_{\mathrm{n}} \mid \theta\right)=\left(\begin{array}{l} \mathrm{n} \\ \mathrm{k} \end{array}\right) \mathrm{p}^{\mathrm{k}}(1-\mathrm{p})^{(\mathrm{n}-\mathrm{k})}$
根据似然函数和先验概率密度函数, 可以求解p的条件概率密度函数：
$\begin{aligned} \pi\left(\mathrm{p} \mid \mathrm{y}_{1}, \cdots, \mathrm{y}_{\mathrm{n}}\right) &=\frac{\mathrm{f}_{\mathrm{D}}\left(\mathrm{y}_{1}, \cdots, \mathrm{y}_{\mathrm{n}} \mid \mathrm{p}\right) \pi(\mathrm{p})}{\int_{\Omega} \mathrm{f}_{\mathrm{D}}\left(\mathrm{y}_{1}, \cdots, \mathrm{y}_{\mathrm{n}} \mid \mathrm{p}\right) \pi(\mathrm{p}) \mathrm{dp}} \\ &=\frac{\mathrm{p}^{\mathrm{k}}(1-\mathrm{p})^{(\mathrm{n}-\mathrm{k})}}{\int_{0}^{1} \mathrm{p}^{\mathrm{k}}(1-\mathrm{p})^{(\mathrm{n}-\mathrm{k})} \mathrm{d} \mathrm{p}} \\ &=\frac{\mathrm{p}^{\mathrm{k}}(1-\mathrm{p})^{(\mathrm{n}-\mathrm{k})}}{\mathrm{B}(\mathrm{k}+1, \mathrm{n}-\mathrm{k}+1)} \end{aligned}$
所以p的期望为：
$\begin{aligned} \mathrm{E}_{\pi}\left[\mathrm{p} \mid \mathrm{y}_{1}, \cdots, \mathrm{y}_{\mathrm{n}}\right] &=\int \mathrm{p} \pi\left(\mathrm{p} \mid \mathrm{y}_{1}, \cdots, \mathrm{y}_{\mathrm{n}}\right) \mathrm{dp} \\ &=\int_{0}^{1} \frac{\mathrm{p}^{(\mathrm{k}+1)}(1-\mathrm{p})^{(\mathrm{n}-\mathrm{k})}}{\mathrm{B}(\mathrm{k}+1, \mathrm{n}-\mathrm{k}+1)} \mathrm{d} \mathrm{p} \\ &=\frac{\mathrm{B}(\mathrm{k}+2, \mathrm{n}-\mathrm{k}+1)}{\mathrm{B}(\mathrm{k}+1, \mathrm{n}-\mathrm{k}+1)} \\ &=\frac{\mathrm{k}+1}{\mathrm{n}+2} \end{aligned}$

习题1.2
通过经验风险最小化推导极大似然估计。证明模型是条件概率分布，当损失函数是对数损失函数时，经验风险最小化等价于极大似然估计。

解答：

假设模型的条件概率分布是P $_{\theta}(\mathrm{Y} \mid \mathrm{X}),$ 现推导当损失函数是对数损失函数时，极大似然估计等价于经验风险最小化。极大似然估计的似然函数为:
$\mathrm{L}(\theta)=\prod_{D} \mathrm{P}_{\theta}(\mathrm{Y} \mid \mathrm{X})$
两边取对数：
$\begin{array}{c} \ln \mathrm{L}(\theta)=\sum_{\mathrm{D}} \ln \mathrm{P}_{\theta}(\mathrm{Y} \mid \mathrm{X}) \\ \arg \max _{\theta} \sum_{\mathrm{D}} \ln \mathrm{P}_{\theta}(\mathrm{Y} \mid \mathrm{X})=\arg \min _{\theta} \sum_{\mathrm{D}}\left(-\ln \mathrm{P}_{\theta}(\mathrm{Y} \mid \mathrm{X})\right) \end{array}$
反之，经验风险最小化等价于极大似然估计，亦可通过经验风险最小化推导极大似然估计。

参考自：
黄海广博士
datawhale

你可能感兴趣的:(math,机器/深度学习,机器学习,统计模型)

高效批量单词翻译工具的设计与应用
本文还有配套的精品资源，点击获取简介：在信息技术飞速发展的今天，批量单词翻译工具通过计算机的数据处理能力，大大提高了语言学习和文字处理的效率。用户通过简单输入单词列表到一个文本文件，并运行翻译程序，即可获得翻译结果并保存至指定文件。该工具集成了内置或外部翻译引擎，利用自然语言处理技术实现快速准确的翻译，并可能提供词性识别等附加功能。尽管机器翻译无法完全取代人工校对，但它为用户提供了一种高效的翻译解
PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
分布式学习笔记_04_复制模型 NzuCRAS 分布式学习笔记架构后端
常见复制模型使用复制的目的在分布式系统中，数据通常需要被分布在多台机器上，主要为了达到：拓展性：数据量因读写负载巨大，一台机器无法承载，数据分散在多台机器上仍然可以有效地进行负载均衡，达到灵活的横向拓展高容错&高可用：在分布式系统中单机故障是常态，在单机故障的情况下希望整体系统仍然能够正常工作，这时候就需要数据在多台机器上做冗余，在遇到单机故障时能够让其他机器接管统一的用户体验：如果系统客户端分布
Python之七彩花朵代码实现 PlutoZuo Python python 开发语言
Python之七彩花朵代码实现文章目录Python之七彩花朵代码实现下面是一个简单的使用Python的七彩花朵。这个示例只是一个简单的版本，没有很多高级功能，但它可以作为一个起点，你可以在此基础上添加更多功能。importturtleastuimportrandomasraimportmathtu.setup(1.0,1.0)t=tu.Pen()t.ht()colors=['red','skybl
C++ 设计模式：抽象工厂（Abstract Factory）冀晓武 C++设计模式 c++设计模式抽象工厂模式
链接：C++设计模式链接：C++设计模式-工厂方法链接：C++设计模式-原型模式链接：C++设计模式-建造者模式抽象工厂（AbstractFactory）是一种创建型设计模式，它提供一个接口，用于创建一系列相关或相互依赖的对象，而无需指定它们的具体类。抽象工厂模式通常用于创建一组相关的产品对象，例如不同类型的机器人和它们的配件。1.问题分析在某些情况下，我们需要创建一组相关或相互依赖的对象，但我们
Python中的静态方法和类方法详解
在Python中，`@staticmethod`和`@classmethod`是两种装饰器，它们用于定义类中的方法，但是它们的行为和用途有所不同。###@staticmethod`@staticmethod`装饰器用于定义一个静态方法。静态方法不接收类或实例的引用作为第一个参数，因此它不能访问类的状态或实例的状态。静态方法可以看作是与类关联的普通函数，但它们可以通过类名直接调用。classMath
Python多版本管理与pip升级全攻略：解决冲突与高效实践码界奇点 Python python pip 开发语言 python3.11 源代码管理虚拟现实依赖倒置原则
引言Python作为最流行的编程语言之一，其版本迭代速度与生态碎片化给开发者带来了巨大挑战。据统计，超过60%的Python开发者需要同时维护基于Python3.6+和Python2.7的项目。本文将系统解决以下核心痛点：如何安全地在同一台机器上管理多个Python版本pip依赖冲突的根治方案符合PEP标准的生产环境最佳实践第一部分：Python多版本管理核心方案1.1系统级多版本共存方案Wind
JavaScript 基础09：Web APIs——日期对象、DOM节点梦想当全栈 JavaScript javascript 前端开发语言
JavaScript基础09：WebAPIs——日期对象、DOM节点进一步学习DOM相关知识，实现可交互的网页特效能够插入、删除和替换元素节点。能够依据元素节点关系查找节点。一、日期对象掌握Date日期对象的使用，动态获取当前计算机的时间。ECMAScript中内置了获取系统时间的对象Date，使用Date时与之前学习的内置对象console和Math不同，它需要借助new关键字才能使用。1.实例
LangChain中的向量数据库接口－Weaviate 洪城叮当 langchain 数据库经验分享笔记交互人工智能知识图谱
文章目录前言一、原型定义二、代码解析1、add_texts方法1.1、应用样例2、from_texts方法2.1、应用样例3、similarity_search方法3.1、应用样例三、项目应用1、安装依赖2、引入依赖3、创建对象4、添加数据5、查询数据总结前言 Weaviate是一个开源的向量数据库，支持存储来自各类机器学习模型的数据对象和向量嵌入，并能无缝扩展至数十亿数据对象。它提供存储文档嵌
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
视频分析：让AI看懂动态画面随机森林404 计算机视觉音视频人工智能 microsoft
引言：动态视觉理解的革命在数字信息爆炸的时代，视频已成为最主要的媒介形式。据统计，每分钟有超过500小时的视频内容被上传到YouTube平台，而全球互联网流量的82%来自视频数据传输。面对如此海量的视频内容，传统的人工处理方式已无法满足需求，这正是人工智能视频分析技术大显身手的舞台。视频分析技术赋予机器"看懂"动态画面的能力，使其能够自动理解、解释甚至预测视频中的内容，这一突破正在彻底改变我们与视
uwsgi 安装
1.根据机器python环境版本进行安装pip/pip3installuwsgi安装可能报错[gcc-pthread]plugins/python/python_plugin.oInfileincludedfromplugins/python/python_plugin.c:1:plugins/python/uwsgi_python.h:2:10:fatalerror:Python.h:Nosuc
【Qualcomm】高通SNPE框架简介、下载与使用 Jackilina_Stone 人工智能 Qualcomm SNPE
目录一高通SNPE框架1SNPE简介2QNN与SNPE3Capabilities4工作流程二SNPE的安装与使用1下载2Setup3SNPE的使用概述一高通SNPE框架1SNPE简介SNPE（SnapdragonNeuralProcessingEngine），是高通公司推出的面向移动端和物联网设备的深度学习推理框架。SNPE提供了一套完整的深度学习推理框架，能够支持多种深度学习模型，包括Pytor
Python的科学计算库NumPy（一） linlin_1998 python numpy 开发语言
NumPy(NumericalPython)是Python中最基础、最重要的科学计算库之一，提供了高性能的多维数组（ndarray）对象和大量数学函数，是许多数据科学、机器学习库（如Pandas、SciPy、TensorFlow等）的基础依赖。1.创建一个numpy里面的一维数组importnumpyasnp###通过array方法创建一个ndarrayarray1=np.array([1,2,3
深度学习篇---昇腾NPU&CANN 工具包 Atticus-Orion 上位机知识篇图像处理篇深度学习篇深度学习人工智能 NPU 昇腾 CANN
介绍昇腾NPU是华为推出的神经网络处理器，具有强大的AI计算能力，而CANN工具包则是面向AI场景的异构计算架构，用于发挥昇腾NPU的性能优势。以下是详细介绍：昇腾NPU架构设计：采用达芬奇架构，是一个片上系统，主要由特制的计算单元、大容量的存储单元和相应的控制单元组成。集成了多个CPU核心，包括控制CPU和AICPU，前者用于控制处理器整体运行，后者承担非矩阵类复杂计算。此外，还拥有AICore
深度学习图像分类数据集—桃子识别分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：桃子识别分类：['B1','M2','R0','S3']训练数据集总共有6637张图片，每个文件夹单独放一种数据各子文件夹图片统计:·B1:1601张图片·M2:1800张图片·R0:1601张图片·S3:
2.4 基于dpdk的用户态协议栈的实现百亿苍狗高性能网络设计专栏开发语言网络
操作系统PosixAPI所提供的网络接口，数据收发是基于用户态与内核态的频繁切换实现。而dpdk实现了绕过内核监管，直接在用户态访问网络硬件，避免频繁状态切换。DPDK安装与配置虚拟机环境配置检查是否支持多队列网卡cat/proc/interrupts|grepens33(获取整个机器的终端)，结果19:4202120IO-APIC19-fasteoiens33，不支持多队列网卡。虚拟机关机，修改
使用 DeepSeek R1 和 Ollama 开发 RAG 系统使用 DeepSeek R1 和 Ollama 构建强大的 RAG 系统。了解开发智能 AI 解决方案的设置过程、最佳实践和技巧。知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 deepseek ollama
简介DeepSeekR1和Ollama提供了用于构建检索增强生成(RAG)系统的强大工具。本指南介绍了使用这些技术开发RAG应用程序的设置、实施和最佳实践。为什么RAG系统会改变游戏规则检索增强生成(RAG)系统结合了搜索和生成AI的优点，可实现精确且准确的情境感知响应。借助DeepSeekR1和Ollama等工具，创建RAG系统不再令人生畏。无论您是构建聊天机器人、知识助手还是AI驱动的搜索引擎
NVIDIA 系列之使用生成式 AI 增强 ROS2 机器人技术：使用 BLIP 和 Isaac Sim 进行实时图像字幕制作知识大胖 NVIDIA GPU和大语言模型开发教程人工智能机器人
简介在快速发展的机器人领域，集成先进的AI模型可以显著增强机器人系统的功能。在本博客中，我们将探讨如何在ROS2（机器人操作系统2）环境中利用BLIP（引导语言图像预训练）模型进行实时图像字幕制作，并使用NVIDIAIsaacSim进行模拟。我们将介绍如何实现一个ROS2节点，该节点订阅摄像头源、应用BLIP模型进行图像字幕制作，并实时显示结果。这种集成展示了生成式AI在增强人机交互方面的强大功能
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
GPT实操——利用GPT创建一个应用狗木马深度学习 gpt-3 gpt
功能描述信息查询：用户可以询问各种问题，如天气、新闻、股票等，机器人会返回相关信息。任务执行：用户可以要求机器人执行一些简单的任务，如设置提醒、发送邮件等。情感支持：机器人可以与用户进行情感交流，提供安慰和支持。个性化设置：用户可以自定义机器人的回复风格和偏好。技术栈前端：React.js后端：Node.js+Express数据库：MongoDB自然语言处理：OpenAIGPT-3API其他工具：
NumPy-@运算符详解 GG不是gg numpy numpy
NumPy-@运算符详解一、@运算符的起源与设计目标1.从数学到代码：符号的统一2.设计目标二、@运算符的核心语法与运算规则1.基础用法：二维矩阵乘法2.一维向量的矩阵语义3.高维数组：批次矩阵运算4.广播机制：灵活的形状匹配三、@运算符与其他乘法方式的核心区别1.对比`np.dot()`2.对比元素级乘法`*`3.对比`np.matrix`的`*`运算符四、典型应用场景：从基础到高阶1.深度学习
NLP_知识图谱_大模型——个人学习记录 macken9999 自然语言处理知识图谱大模型自然语言处理知识图谱学习
1.自然语言处理、知识图谱、对话系统三大技术研究与应用https://github.com/lihanghang/NLP-Knowledge-Graph深度学习-自然语言处理(NLP)-知识图谱：知识图谱构建流程【本体构建、知识抽取（实体抽取、关系抽取、属性抽取）、知识表示、知识融合、知识存储】-元気森林-博客园https://www.cnblogs.com/-402/p/16529422.htm
解决 Python 包安装失败问题：以 accelerate 为例
在使用Python开发项目时，我们经常会遇到依赖包安装失败的问题。今天，我们就以accelerate包为例，详细探讨一下可能的原因以及解决方法。通过这篇文章，你将了解到Python包安装失败的常见原因、如何切换镜像源、如何手动安装包，以及一些实用的注意事项。一、问题背景在开发一个深度学习项目时，我需要安装accelerate包来优化模型的训练过程。然而，当我运行以下命令时：bash复制pipins
思维链革命：让大模型突破“机器思考”的边界 John Song AI 人工智能思维链2.0 CoT 多模态思维链元认知优化
以下是对LilianWeng思维链技术深度解析文章（原文链接）的博客化重构，融合技术本质与应用实践：思维链革命：让大模型突破“机器思考”的边界——解析ChainofThought技术体系与下一代推理架构一、从黑箱到透明思考：CoT的核心突破传统LLM困境：“大模型如同天才自闭症患者——知识渊博却无法展示思考路径”CoT解决方案：#标准CoT提示模板prompt="""问题：小明有5个苹果，吃掉2个
在mac m1基于llama.cpp运行deepseek
lama.cpp是一个高效的机器学习推理库，目标是在各种硬件上实现LLM推断，保持最小设置和最先进性能。llama.cpp支持1.5位、2位、3位、4位、5位、6位和8位整数量化，通过ARMNEON、Accelerate和Metal支持Apple芯片，使得在MACM1处理器上运行Deepseek大模型成为可能。1下载llama.cppgitclonehttps://github.com/ggerg
车身焊接机器人系列编程：Yaskawa MA2010_（11）.机器人维护与保养 zhubeibei168 机器人（二）机器人网络
机器人维护与保养1.机器人维护的必要性在汽车制造行业中，车身焊接机器人（如YaskawaMA2010）的高效运行对于生产线的稳定性和生产质量至关重要。机器人维护不仅能够延长机器人的使用寿命，还能确保其在长时间运行中的性能稳定。维护工作主要包括定期检查、清洁、润滑、更换易损件和故障诊断等。本节将详细介绍这些维护工作的具体步骤和注意事项。2.定期检查定期检查是机器人维护的基础，可以及时发现潜在问题并进
从RNN循环神经网络到Transformer注意力机制：解析神经网络架构的华丽蜕变熊猫钓鱼>_> 神经网络 rnn transformer
1.引言在自然语言处理和序列建模领域，神经网络架构经历了显著的演变。从早期的循环神经网络（RNN）到现代的Transformer架构，这一演变代表了深度学习方法在处理序列数据方面的重大进步。本文将深入比较这两种架构，分析它们的工作原理、优缺点，并通过实验结果展示它们在实际应用中的性能差异。2.循环神经网络（RNN）2.1基本原理循环神经网络是专门为处理序列数据而设计的神经网络架构。RNN的核心思想
【机器学习笔记Ⅰ】9 特征缩放巴伦是只猫机器学习机器学习笔记人工智能
特征缩放（FeatureScaling）详解特征缩放是机器学习数据预处理的关键步骤，旨在将不同特征的数值范围统一到相近的尺度，从而加速模型训练、提升性能并避免某些特征主导模型。1.为什么需要特征缩放？(1)问题背景量纲不一致：例如：特征1：年龄（范围0-100）特征2：收入（范围0-1,000,000）梯度下降的困境：量纲大的特征（如收入）会导致梯度更新方向偏离最优路径，收敛缓慢。量纲小的特征（如
傅里叶级数分解问题
题目问题1.在区间[−l,l][-l,l][−l,l]上分解为完整傅里叶级数：(a)ezxe^{zx}ezx，其中z∈Cz\in\mathbb{C}z∈C；找出zzz的“例外”值；(b)cos⁡(ωx)\cos(\omegax)cos(ωx)，sin⁡(ωx)\sin(\omegax)sin(ωx)，其中00(\etal)^2+(n\pi)^2>0(ηl)2+(nπ)2>0对所有n≥1n\geq1
怎么样才能成为专业的程序员？ cocos2d-x小菜编程 PHP
如何要想成为一名专业的程序员？仅仅会写代码是不够的。从团队合作去解决问题到版本控制，你还得具备其他关键技能的工具包。当我们询问相关的专业开发人员，那些必备的关键技能都是什么的时候，下面是我们了解到的情况。关于如何学习代码，各种声音很多，然后很多人就被误导为成为专业开发人员懂得一门编程语言就够了？！呵呵，就像其他工作一样，光会一个技能那是远远不够的。如果你想要成为
java web开发高并发处理 BreakingBad java Web 并发开发处理高
java处理高并发高负载类网站中数据库的设计方法（java教程,java处理大量数据，java高负载数据）一：高并发高负载类网站关注点之数据库没错,首先是数据库,这是大多数应用所面临的首个SPOF。尤其是Web2.0的应用，数据库的响应是首先要解决的。一般来说MySQL是最常用的，可能最初是一个mysql主机，当数据增加到100万以上，那么，MySQL的效能急剧下降。常用的优化措施是M-S（
mysql批量更新 ekian mysql
mysql更新优化：一版的更新的话都是采用update set的方式，但是如果需要批量更新的话，只能for循环的执行更新。或者采用executeBatch的方式，执行更新。无论哪种方式，性能都不见得多好。三千多条的更新，需要3分多钟。查询了批量更新的优化，有说replace into的方式，即： replace into tableName(id,status) values
微软BI（3） 18289753290 微软BI SSIS
1) Q：该列违反了完整性约束错误；已获得 OLE DB 记录。源:“Microsoft SQL Server Native Client 11.0” Hresult: 0x80004005 说明:“不能将值 NULL 插入列 'FZCHID'，表 'JRB_EnterpriseCredit.dbo.QYFZCH'；列不允许有 Null 值。INSERT 失败。”。 A：一般这类问题的存在是
Java中的List g21121 java
List是一个有序的 collection（也称为序列）。此接口的用户可以对列表中每个元素的插入位置进行精确地控制。用户可以根据元素的整数索引（在列表中的位置）访问元素，并搜索列表中的元素。与 set 不同，列表通常允许重复
读书笔记永夜-极光读书笔记
1. K是一家加工厂,需要采购原材料,有A,B,C,D 4家供应商,其中A给出的价格最低,性价比最高,那么假如你是这家企业的采购经理,你会如何决策? 传统决策: A:100%订单 B,C,D:0% &nbs
centos 安装 Codeblocks 随便小屋 codeblocks
1.安装gcc,需要c和c++两部分,默认安装下,CentOS不安装编译器的,在终端输入以下命令即可yum install gccyum install gcc-c++ 2.安装gtk2-devel,因为默认已经安装了正式产品需要的支持库,但是没有安装开发所需要的文档.yum install gtk2* 3. 安装wxGTK yum search w
23种设计模式的形象比喻 aijuans 设计模式
1、ABSTRACT FACTORY—追MM少不了请吃饭了，麦当劳的鸡翅和肯德基的鸡翅都是MM爱吃的东西，虽然口味有所不同，但不管你带MM去麦当劳或肯德基，只管向服务员说“来四个鸡翅”就行了。麦当劳和肯德基就是生产鸡翅的Factory 　　工厂模式：客户类和工厂类分开。消费者任何时候需要某种产品，只需向工厂请求即可。消费者无须修改就可以接纳新产品。缺点是当产品修改时，工厂类也要做相应的修改。如：
开发管理 CheckLists aoyouzi 开发管理 CheckLists
开发管理 CheckLists(23) -使项目组度过完整的生命周期开发管理 CheckLists(22) -组织项目资源开发管理 CheckLists(21) -控制项目的范围开发管理 CheckLists(20) -项目利益相关者责任开发管理 CheckLists(19) -选择合适的团队成员开发管理 CheckLists(18) -敏捷开发 Scrum Master 工作开发管理 C
js实现切换百合不是茶 JavaScript 栏目切换
js主要功能之一就是实现页面的特效,窗体的切换可以减少页面的大小,被门户网站大量应用思路: 1,先将要显示的设置为display:bisible 否则设为none 2,设置栏目的id ,js获取栏目的id,如果id为Null就设置为显示 3,判断js获取的id名字;再设置是否显示代码实现: html代码: <di
周鸿祎在360新员工入职培训上的讲话 bijian1013 感悟项目管理人生职场
这篇文章也是最近偶尔看到的，考虑到原博客发布者可能将其删除等原因，也更方便个人查找，特将原文拷贝再发布的。“学东西是为自己的，不要整天以混的姿态来跟公司博弈，就算是混，我觉得你要是能在混的时间里，收获一些别的有利于人生发展的东西，也是不错的，看你怎么把握了”，看了之后，对这句话记忆犹新。 &
前端Web开发的页面效果 Bill_chen html Web Microsoft
1.IE6下png图片的透明显示： <img src="图片地址" border="0" style="Filter.Alpha(Opacity)=数值(100),style=数值(3)"/> 或在<head></head>间加一段JS代码让透明png图片正常显示。 2.<li>标
【JVM五】老年代垃圾回收：并发标记清理GC(CMS GC) bit1129 垃圾回收
CMS概述并发标记清理垃圾回收(Concurrent Mark and Sweep GC）算法的主要目标是在GC过程中，减少暂停用户线程的次数以及在不得不暂停用户线程的请夸功能，尽可能短的暂停用户线程的时间。这对于交互式应用，比如web应用来说，是非常重要的。 CMS垃圾回收针对新生代和老年代采用不同的策略。相比同吞吐量垃圾回收，它要复杂的多。吞吐量垃圾回收在执
Struts2技术总结白糖_ struts2
必备jar文件早在struts2.0.*的时候，struts2的必备jar包需要如下几个： commons-logging-*.jar Apache旗下commons项目的log日志包 freemarker-*.jar
Jquery easyui layout应用注意事项 bozch jquery 浏览器 easyui layout
在jquery easyui中提供了easyui-layout布局，他的布局比较局限，类似java中GUI的border布局。下面对其使用注意事项作简要介绍：如果在现有的工程中前台界面均应用了jquery easyui，那么在布局的时候最好应用jquery eaysui的layout布局，否则在表单页面（编辑、查看、添加等等）在不同的浏览器会出
java-拷贝特殊链表：有一个特殊的链表，其中每个节点不但有指向下一个节点的指针pNext，还有一个指向链表中任意节点的指针pRand，如何拷贝这个特殊链表？ bylijinnan java
public class CopySpecialLinkedList { /** * 题目：有一个特殊的链表，其中每个节点不但有指向下一个节点的指针pNext，还有一个指向链表中任意节点的指针pRand，如何拷贝这个特殊链表？拷贝pNext指针非常容易，所以题目的难点是如何拷贝pRand指针。假设原来链表为A1 -> A2 ->... -> An，新拷贝
color Chen.H JavaScript html css
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <HTML> <HEAD>&nbs
[信息与战争]移动通讯与网络 comsci 网络
两个坚持:手机的电池必须可以取下来光纤不能够入户,只能够到楼宇建议大家找这本书看看:<&
oracle flashback query(闪回查询) daizj oracle flashback query flashback table
在Oracle 10g中，Flash back家族分为以下成员： Flashback Database Flashback Drop Flashback Table Flashback Query(分Flashback Query,Flashback Version Query，Flashback Transaction Query) 下面介绍一下Flashback Drop 和Flas
zeus持久层DAO单元测试 deng520159 单元测试
zeus代码测试正紧张进行中,但由于工作比较忙,但速度比较慢.现在已经完成读写分离单元测试了,现在把几种情况单元测试的例子发出来,希望有人能进出意见,让它走下去. 本文是zeus的dao单元测试: 1.单元测试直接上代码 package com.dengliang.zeus.webdemo.test; import org.junit.Test; import o
C语言学习三printf函数和scanf函数学习 dcj3sjt126com c printf scanf language
printf函数 /* 2013年3月10日20:42:32 地点：北京潘家园功能：目的：测试%x %X %#x %#X的用法 */ # include <stdio.h> int main(void) { printf("哈哈！\n"); // \n表示换行 int i = 10; printf
那你为什么小时候不好好读书? dcj3sjt126com life
dady, 我今天捡到了十块钱, 不过我还给那个人了 good girl! 那个人有没有和你讲thank you啊没有啦....他拉我的耳朵我才把钱还给他的, 他哪里会和我讲thank you 爸爸, 如果地上有一张5块一张10块你拿哪一张呢.... 当然是拿十块的咯... 爸爸你很笨的, 你不会两张都拿爸爸为什么上个月那个人来跟你讨钱, 你告诉他没
iptables开放端口 Fanyucai linux iptables 端口
1，找到配置文件 vi /etc/sysconfig/iptables 2，添加端口开放，增加一行，开放18081端口 -A INPUT -m state --state NEW -m tcp -p tcp --dport 18081 -j ACCEPT 3，保存 ESC :wq! 4，重启服务 service iptables
Ehcache（05）——缓存的查询 234390216 排序 ehcache 统计 query
缓存的查询目录 1. 使Cache可查询 1.1 基于Xml配置 1.2 基于代码的配置 2 指定可搜索的属性 2.1 可查询属性类型 2.2 &
通过hashset找到数组中重复的元素 jackyrong hashset
如何在hashset中快速找到重复的元素呢?方法很多，下面是其中一个办法： int[] array = {1,1,2,3,4,5,6,7,8,8}; Set<Integer> set = new HashSet<Integer>(); for(int i = 0
使用ajax和window.history.pushState无刷新改变页面内容和地址栏URL lanrikey history
后退时关闭当前页面 <script type="text/javascript"> jQuery(document).ready(function ($) { if (window.history && window.history.pushState) {
应用程序的通信成本 netkiller.github.com 虚拟机应用服务器陈景峰 netkiller neo
应用程序的通信成本什么是通信一个程序中两个以上功能相互传递信号或数据叫做通信。什么是成本这是是指时间成本与空间成本。时间就是传递数据所花费的时间。空间是指传递过程耗费容量大小。都有哪些通信方式全局变量线程间通信共享内存共享文件管道 Socket 硬件（串口，USB）等等全局变量全局变量是成本最低通信方法，通过设置
一维数组与二维数组的声明与定义恋洁e生二维数组一维数组定义声明初始化
/** * */ package test20111005; /** * @author FlyingFire * @date:2011-11-18 上午04:33:36 * @author ：代码整理 * @introduce :一维数组与二维数组的初始化 *summary： */ public c
Spring Mybatis独立事务配置 toknowme mybatis
在项目中有很多地方会使用到独立事务，下面以获取主键为例（1）修改配置文件spring-mybatis.xml  <tx:annotation-driven transaction-manager="transactionManager" /> &n
更新Anadroid SDK Tooks之后，Eclipse提示No update were found xp9802 eclipse
使用Android SDK Manager 更新了Anadroid SDK Tooks 之后，打开eclipse提示 This Android SDK requires Android Developer Toolkit version 23.0.0 or above, 点击Check for Updates 检测一会后提示 No update were found