lgy54321

条件随机场

文章目录

概率无向图模型

模型定义
概率无向图模型:
概率无向图模型的因子分解

条件随机场的模型表示

linear-chain 条件随机场
CRF 的定义
CRF 的参数化形式
CRF 的简化形式
条件随机场的矩阵形式

条件随机场的概率计算问题

前向-后向算法
概率计算
期望值的计算

条件随机场的训练

L-BFGS算法

条件随机场的预测算法

条件随机场（conditional random field，以下简称CRF）是给定一组输入随机变量条件下另一组输出随机变量的条件概率分布模型，其特点是假设输出随机变量构成马尔可夫随机场（HMM 是状态序列的 Markov Chain）。CRF 可以用于不同的预测问题，在 Machine Learning 领域里 CRF 一般用作处理标注问题。常用的就是线性链（linear-chain) 条件随机场了，这时，问题变成了由输入序列对输出序列预测的判别模型，形式为对数线性模型，其学习方法通常是极大似然估计或正则化的极大似然估计。

概率无向图模型

概率无向图模型又称为马尔可夫随机场（Markov random field)，是一个可以由无向图表示的联合概率分布。

模型定义

图是由结点及连接结点的边组成的集合。结点和边分别记作 v 和 e ，结点和边的集合分别记作 V 和 E ，图记作 G=(V,E) ，无向图是指边没有方向的图。概率图模型（PGM）是由图表示的概率分布。设有联合概率分布 P(Y) ， $\in \mathcal{Y}$ 是一组随机变量。由无向图 G 表示概率分布，即在图 G 中，结点 v∈V 表示一个随机变量 $Y_v$ ， $Y_v|_{v \in V}$ ；边 e∈E 表示随机变量之间的概率依赖关系。

给定一个联合概率分布 P(Y) 和表示它的无向图 G。首先定义无向图表示的随机变量之间存在的成对马尔可夫性局、部马尔可夫性和全局马尔可夫性。分别介绍一下三个概念：

成对马尔可夫性：设 u 和 v 是无向图G中任意两个没有边连接的结点，结点u和v分别对应随机变量 Yu 和 Yv。其他所有结点为 O（集合），对应的随机变量组是 YO。成对马尔可夫性是指给定随机变量组 YO 的条件下随机变量 Yu 和 Yv 是条件独立的，其实意思就是说没有直连边的任意两个节点是独立的，即
$P(Y_v,Y_O |Y_W) = P(Y_v|Y_W)P(Y_O|Y_W)$
局部马尔可夫性：设 v \in V 是无向图 G 中任意一个结点，W 是与 v 有边连接的所有结点，O 是 v,W 以外的其他所有结点。v 表示的随机变量是 Yv ,W 表示的随机变量组是 Y_w，O 表示的随机变量组是 Y_O。局部马尔可夫性是指在给定随机变量组 Y_W 的条件下随机变量 v 与随机变量组 Y_O 是独立的，即
$P(Y_v,Y_O |Y_W) = P(Y_v|Y_W)P(Y_O|Y_W)$
在 $P(Y_O|Y_W) >0$ 时，等价地
$p(Y_v |Y_W) = P(Y_v|Y_W,Y_O)$
下图表示了局部马尔可夫性

全局马尔可夫性：设结点集合 A,B 是在无向图 G 中被结点集合 C 分开的任意结点集合，如图所示。结点集合 A,B 和 C 所对应的随机变量组分别是 YA,YB 和 YC。全局马尔可夫性是指给定随机变量组条件下随机变量组 YA 和 YB 是条件独立的，即
$P(Y_A,Y_B|Y_C) = P(Y_A|Y_C)P(Y_B|Y_C)$

概率无向图模型:

设有联合概率分布 P(Y) ，由无向图 G=(V,E) 表示，在图 G 中，结点表示随机变量，边表示随机变量之间的依赖关系。如果联合概率分布 P(Y) 满足成对、局部或全局马尔可夫性，就称此联合概率分布为概率无向图模型或马尔可夫随机场。

以上是概率无向图模型的定义，实际上，我们更关心的是如何求其联合概率分布。对给定的概率无向图模型，我们希望将整体的联合概率写成若干子联合概率的乘积的形式，也就是将联合概率进行因子分解，这样便于模型的学习与计算。事实上，概率无向图模型的最大特点就是易于因子分解。下面介绍这一结果。

概率无向图模型的因子分解

首先给出无向图中的团与最大团的定义，无向图 G 中任何两个结点均有边连接的结点子集称为团（clique)。若 C 是无向图 G 的一个团，并且不能再加进任何一个 G 的结点使其成为一个更大的团，则称此 C 为最大团（maximal clique)。

下图 (a) 表示由4个结点组成的无向图。图中由2个结点组成的团有5个:{ $Y_1,Y_2$ }, { $Y_2,Y_3$ }, { $Y_3,Y_4$ },{ $Y_4,Y_2$ },{ $Y_1,Y_3$ }.有2个最大团：{ $Y_1,Y_2,Y_3$ }，{ $Y_2,Y_3,Y_4$ },而 { $Y_1,Y_2,Y_3,Y_4$ } 不是一个团，因为 Y1 和 Y4 没有边连接。

将概率无向图模型的联合概率分布表示为其最大团上的随机变量的函数的乘积形式的操作，称为概率无向图模型的因子分解，譬如在解高次方程的时候，我们非常希望方程能够分解为多个低次方程的乘积。那么，对于概率分布函数而言，我们也希望能够这样做，即给定概率无向图模型，设无向图为 G ， C 为 G 上的最大团， YC 表示 C 对应的随机变量。那么概率无向图模型的联合概率分布 P(Y) 可分解为图中所有最大团 C 上的函数 $\Psi_C(Y_C)$ 的乘积形式，分解后的因子图如 (b) 所示，每个黑色的正方形便代表一个函数，图中将无向图拆分为两个最大团上势函数的乘积，具体的拆分公式为：
$\frac{1}{Z} \prod_C \Psi_C(Y_C)$

其中，Z 是规范化因子（normalization factor)，形式如下： $\sum_Y\prod_C \Psi_C(Y_C)$
规范化因子保证 P(Y) 构成一个概率分布。 $\Psi_C(Y_C)$ →R 称为势函数 (potential function)。这里要求势函数 $\Psi_C(Y_C)$ 是严格正的，通常定义为指数函数 $\Psi_C(Y_C) = \exp \left \{-E(Y_C) \right \}$
总结一下,便得到 Hammersley-Clifford定理，概率无向图模型的联合概率分布可以表示为如下形式：

$\begin{aligned} P(Y) &= \frac{1}{Z} \prod_C \Psi_C(Y_C) \\ Z &= \sum_Y\prod_C \Psi_C(Y_C) \end{aligned}$
其中，C 是无向图的最大团， YC 是 C 的结点对应的随机变量， ΨC(YC) 是 C 上定义的严格正函数，乘积是在无向图所有的最大团上进行的。

条件随机场的模型表示

linear-chain 条件随机场

条件随机场（conditional random field）是给定随机变量 X 条件下，随机变量 Y 的马尔可夫随机场。本文主要介绍定义在线性链上的特殊的条件随机场，称为线性链条件随机场（linear-chain CRF)。线性链条件随机场可以用于机器学习里的标注问题。这时，在条件概率模型 P(Y|X) 中，Y 是输出变量，表示标记序列，也把标记序列称为状态序列（同 HMM 中的状态序列)；X 是输入变量，表示观测序。学习时，利用训练数据集通过极大似然估计或正则化的极大似然估计得到条件概率模型 $\hat{P}(Y|X)$ ；然后使用该模型预测即可。

CRF 的定义

设 X 与 Y 是随机变量，P(Y|X) 是在给定 X 的条件下 Y 的条件概率分布。若随机变量 Y 构成一个由无向图 G = (V,E) 表示的马尔可夫随机场，即： $P(Y_v|X,Y_w,w \ne v) =P(Y_v|X,Y_w,w \sim v)$
对任意结点 v 成立，则称条件概率分布 P(Y|X) 为条件随机场。式中 w∼v 表示在图 G = (V,E) 中与结点 v 有边连接的所有结点 w， w≠v 表示结点 v 以外的所有结点， $Y_u,Y_v,Y_w$ 为结点 u,v,w 对应的随机变量，从定义来看，左边到右边点的数量大大减小，w≠v 的点有 |V|−1 个，而 w∼v 就少了，其实就是说当前变量只跟与之相邻的变量有关系，而独立于没有直接连接的变量。

在定义中并没有要求 X 和 Y 具有相同的结构。现实中，一般假设 X 和 Y 有相同的图结构。本书主要考虑无向图为线性链的情况，即对于节点 1 到 n，边的情为： $\left \{ (i,i+1) \right \}_{i=1}^{n-1}$ ，在此情况下 $=\left \{ X_i \right \}_{i=1}^{n} ,Y =\left \{ Y_i \right \}_{i=1}^{n}$ ，最大团是相邻两个结点的集合,下图即为 liner-chain CRF：

线性链条件随机场的定义：设 $=\left \{ X_i \right \}_{i=1}^{n} ,Y =\left \{ Y_i \right \}_{i=1}^{n}$ 均为线性链表示的随机变量序列，若在给定随机变量序列 X 的条件下，随机变量序列 Y 的条件概率分布 P(Y|X)构成条件随机场，即满足马尔可夫性
$P(Y_i | X,Y_1,…,Y_{i-1},Y_{i+1},…,Y_n) = P(Y_i | X,Y_{i-1},Y_{i+1})$
则称 P(Y|X) 为线性链条件随机场。注意当 i=1 或 i=n 时只考虑一侧，在标注问题中，X 表示输入观测序列，Y 表示对应的输出标记序列或状态序列。

CRF 的参数化形式

根据 Hammersley-Clifford 定理,可以给出线性链条件随机场 P(Y|X)的因子分解式，各因子是定义在相邻两个结点上的函数。在随机变量 X 取值为 x 的条件下，随机变量 Y 取值为 y 的条件概率具有如下形式：
$\frac{1}{Z(x)}\exp \left \{ \sum_{i,k}\lambda_k t_k (y_{i-1},y_i,x,i)+ \sum_{i,l}\mu_l s_l(y_i,x,i) \right \}$
其中 Z(x) 为归一化项： $\sum_y \left \{ \sum_{i,k}\lambda_k t_k (y_{i-1},y_i,x,i)+ \sum_{i,l}\mu_l s_l(y_i,x,i) \right \}$
式中， $t_k$ 和 $s_l$ 是特征函数， $\lambda_k$ 和 $\mu_l$ 是对应的权值。 Z(x) 是规范化因子，求和是在所有可能的输出序列上进行的。以上两个式子是线性链条件随机场模型的基本形式，表示给定输入序列 x ,对输出序列 y 预测的条件概率。其中 $t_k$ 是定义在边上的特征函数，称为转移特征（ t 是transition的缩写），依赖于当前和前一个位置， $s_l$ 是定义在结点上的特征函数，称为状态特征（s 是status的缩写），依赖于当前位置（无论哪种特征函数，都将当前可能的 yi 作为数）。 $t_k$ 和 $s_l$ 都依赖于位置，是局部特征函数。通常，特征函数 $t_k$ 和 $s_l$ 取值为 1 或 0 ；当满足特征条件时取值为 1 ,否则为 0 。CRF 完全由特征函数和对应的权值 $\lambda_k$ , $\mu_l$ 确定,线性链条件随机场也是对数线性模型（loglinear model)。

CRF 的简化形式

CRF 还可以由简化形式表示。注意到条件随机场式中同一特征在各个位置都有定义，可以对同一个特征在各个位置求和，将局部特征函数转化为一个全局特征函数，这样就可以将条件随机场写成权值向量和特征向量的内积形式，即条件随机场的简化形式，为简便起见，首先将转移特征和状态特征及其权值用统一的符号表示。设有 K1 个转移特征，K2 个状态特征,记 $f_k(y_{i-1},y_i,x,i) = \left \{ \begin{aligned} &t_k(y_{i-1},y_i,x,i), \ \ k = 1,2,...,K_1 \\ &s_t(y_i,x,i), \ \ \ \ \ \ \ \ \ \ k = K_1 + l ; l = 1,2,...,K_2 \end{aligned}\right.$
上式其实是对特征函数进行编码，编号的前 K1 个属于转移特征，后 K2 个属于状态特征。记 K=K1+K2 ，编号统一了，后面就可以放到同一个矩阵里了。

然后，对转移与状态特征在各个位置 i 求和，记作
$f_k(y,x) = \sum_{i=1}^nf_k(y_{i-1},y_i,x,i), \ \ \ k = 1,2,…,K$
上式的特征函数虽然都写成接受 4 个参数的形式，但对状态特征函数而言， $y_{i-1}$ 是会被忽略掉的，用 $w_k$ 表示特征 $f_k(y,x)$ 的权值，即
$w_k = \left \{ \begin{aligned} &\lambda_k, \ \ k = 1,2,...,K_1 \\ &\mu_l, \ \ k = K_1 + l ; l = 1,2,...,K_2 \end{aligned}\right.$
于是，条件随机场可表示为：
$\begin{aligned} P(y|x) &= \frac{1}{Z(x)} \exp \left \{ \sum_{k=1}^K w_k f_k(y,x) \right \}\\ Z(x) &= \sum_y \exp \left \{ \sum_{k=1}^Kw_kf_k(y,x)\right \} \end{aligned}$
若 w 表示权值向量，即
$w= (w_1,w_2,…,w_K)^T$
以 F(y,x) 表示全局特征向量，即： $\left \{ f_1(y,x), f_2(y,x),…,f_K(y,x) \right \}^T$
则条件随机场可以写成向量 w 与 F(y,x) 的内积的形式:
$P_w(y|x) = \frac{\exp\left \{w \cdot F(y,x)\right \} }{Z_w(x)}$
其中，
$Z_w(x) = \sum_y \exp \left \{ w \cdot F(y,x) \right \}$

条件随机场的矩阵形式

条件随机场还可以由矩阵表示。假设 $P_w(y|x)$ 是由内积形式给出的线性链条件随机场，表示对给定观测序列 x ，相应的标记序列 y 的条件概率。引进特殊的起点和终点状态标记 $y_0 = start , y_{n+1} = stop$ ，这时 $P_w(y|x)$ 可以通过矩阵形式表示。

对观测序列 x 的每一个位置 $i = 1, 2, \dots ， n + 1$ ，定义一个 m 阶矩阵（m 是标记 yi 取值的个数，因为 x 是给定的，$ i-1 和位置 i 各有 m 种可能，所以是 m 阶矩阵）：
$\begin{aligned} M_i(x) &= \left \{ M_i(y_{i-1},y_i|x)\right \} \\ M_i(y_{i-1},y_i|x)&= \exp \left \{ W_i(y_{i-1} ,y_i|x)\right \}\\ M_i(y_{i-1},y_i|x)&= \sum_{k=1}^Kw_k \cdot f_k(y_{i-1},y_i,x,i) \end{aligned}$
其实矩阵定义了一个状态 yi−1 的 m 种状态到 yi 的 m 种状态的转移的概率：
$\begin{aligned} M_i(y_{i-1} ,y_i|x) &= \exp\left\{ \sum_k\lambda_kf_k(y_{i-1},y_i,x,i)\right\} \\ &=\exp\left\{ \sum_k\lambda_kt_k(y_{i-1},y_i,x,i) + \sum_l\mu_l s_l(y_i,x,i) \right\} \end{aligned}$
举例来说，当 m = 3 时，除了 i =1 或者 i = n-1 ，每个矩阵 $M_i(x) \in\mathbb{R}^{3 \times 3}$ ，如下图所示

矩阵的形式类似于 HMM 中的转移矩阵，代表了状态之间转移的概率，其形式是这样的:
$\begin{aligned} M_1(x) &= \begin{bmatrix} M_1(y_0,y_1|x) & M_1(y_0,y_3|x) &M_1(y_0,y_3|x) \end{bmatrix} \\ \\ M_2(x) &=\begin{bmatrix} M_2(y_1,y_1|x) & M_2(y_1,y_2|x) & M_2(y_1,y_3|x)\\ M_2(y_2,y_1|x) & M_2(y_2,y_2|x) & M_2(y_2,y_3|x)\\ M_2(y_3,y_1|x) & M_2(y_3,y_2|x) & M_2(y_3,y_3|x) \end{bmatrix} \\ \\ M_i(x) \ &\mathbf{has \ the \ same \ form \ with} \ M_2(X), \ i = 3,...,n\\ \\ M_{n+1}(x) &=\begin{bmatrix} M_{n+1}(y_1,y_n|x)& \\ M_{n+1}(y_2,y_n|x) & \\ M_{n+1}(y_3,y_n|x)& \end{bmatrix} \\ \end{aligned}$
这样，给定观测序列x,标记序列 y 的非规范化概率可以通过 n+1 个矩阵的乘积 $\prod_{i=1}^{n+1}M_i(y_{i-1},y_i|x)$ 表示，于是，条件概率 Pw(y|x) 是：

$P_w(y|x) = \frac{1}{Z_w(x)} \prod_{i=1}^{n+1} M_i(y_{i-1},y_i|x)$
其中，Zw(x) 为规范化因子，是 n+1 个矩阵的乘积的 (start,stop) 元素：
$Z_w(x) = \left \{M_1(x),M_2(x)…M_{n+1}(x) \right \} _{start}^{stop}$

注意， $y_0 = start$ 与 $y_{n+1} = stop$ 表示开始状态与终止状态，规范化因子 Zw(x) 是以 start 为起点 stop 为终点通过状态的所有路径的非规范化概率 y1,y2,…,yn 之和。

这里的 M 矩阵像极了 HMM 中的转移概率矩阵，因为链式 CRF 中只有相邻两个节点间才有连接边。

条件随机场的概率计算问题

条件随机场的概率计算问题是给定条件随机场 P(Y|X) ，输入序列 x 和输出序列 y ,计算条件概率 $P(Y_{i-1} = y_{i-1}Y_i = y_i|x)$ ， $P(Y_i = y_i|x)$ 以及相应的数学期望的问题。为了方便起见，像 HMM 那样，引进前向-后向向量，递归地计算以上概率及期望值。这样的算法称为前向-后向算法。

前向-后向算法

对每个指标 $i = 0, 1, \dots, n + 1$ ，定义前向向量 $a_i(x)$ ,对于起始状态 i=0：

$a_0(y|x) = \left \{ \begin{aligned} &1, \ \ y = start \\ &0, \ \ else \end{aligned}\right.$

对于之后的状态 $i = 1, 2, \dots, n + 1$ ，递推公式为：

$a_i^T(y_i|x) = a^T_{i-1}(y_{i-1}|x)M_i(y_{i-1},y_i|x)$

这里 $M_i(y_{i-1},y_i|x)$ 对应的是转移矩阵中的一列，转为向量形式可表示为

$a^T_i(x) = a^T_{i-1}(x)M_i(x)$
$a_i(y_i|x)$ 表示在位置 i 的标记是 yi 并且到位置 i 的前部分标记序列的非规范化概率，yi 可取的值有 m 个，所以 ai(x) 是 m 维列向量。

同样，对每个指标 $i = 0, 1, \dots, n + 1$ ，定义后向向量 $\beta_i(x)$ :
$\beta_{n+1}(y_{n+1}|x) = \left \{ \begin{aligned} &1, \ \ y_{n+1} = stop \\ &0, \ \ else \end{aligned}\right.$

往前递推：

$\beta_i(y_i|x) = M_i(y_i,y_{i+1}|x)\beta_{i+1}(y_{i+1}|x)$

又可以表示为：

$\beta_i(x) = M_{i+1}(x) \beta_{i+1}(x)$

$\beta_i(y_i|x)$ 表示在位置 i 的标记为 $y_i$ ,并且从 i+1 到 n 的后部分标记序列的非规范化概率。

由前向-后向向量定义不难得到：

$a_n^T(x) \cdot \mathbf{1} = \mathbf{1}^T \cdot \beta_1(x)$
这里，1 是元素均为 1 的 m 维列向量。

概率计算

按照前向-后向向量的定义，很容易计算标记序列在位置 i 是标记 yi 的条件概率和在位置 i-1 与 i 是标记 $y_{i-1}$ 和 $y_{i}$ 的条件概率：
$\begin{aligned} P(Y_i= y_i|x) &= \frac{a_i^T(y_i|x) \beta_i(y_i|x)}{Z(x)} \\ P(Y_{i-1} = y_{i-1} ,Y_i= y_i|x) &=\frac{a_{i-1}^T(y_{i-1}|x)M_i(y_{i-1},y_i|x)\beta_i(y_i|x)}{Z(x)} \end{aligned}$
其中 $a_n^T(x) \cdot \mathbf{1}$

期望值的计算

利用前向-后向向量，可以计算特征函数关于联合分布 P(X,Y) 和条件分布 P(Y|X) 的数学期望。

特征函数 $\left \{ f_k \right \}_{k=1}^K$ 关于条件分布 P(Y|X) 的数学期望是
$\begin{aligned} E_{p(Y|X)}[f_k] &= \sum_yP(y|x)f_k(y,x) \\ &=\sum_{i=1}^{n+1}\sum_{y_{i-1}\ y_i}f_k(y_{i-1},y_i,x,i) \frac{a_{i-1}^TM_i(y_{i-1},y_i|x)\beta_i(y_i|x)}{Z(x)} \end{aligned}$
其中 $a_n^T(x) \cdot \mathbf{1}$
假设经验分布为 P˜(X) ，特征函数 $\left \{ f_k \right \}_{k=1}^K$ 关于联合分布 P(Y|X) 的数学期望是：
$\begin{aligned} E_{P(X,Y)}[f_k] &= \sum_{x,y}P(x,y)\sum_{i=1}^{n+1}f_k(y_{i-1}.y_i,x,i) \\ &= \sum_x\widetilde{P}(x) \sum_yP(y|x)\sum_{i=1}^{n+1}f_k(y_{i-1,}y_ix,i) \\ &= \sum_x\widetilde{P}(x) \sum_{i=1}^{n+1} \sum_{y_{i-1} \ y_i}f_k(y_{i-1,}y_ix,i)\frac{a_{i-1}^T(y_{i-1}|x)M_i(y_{i-1},y_i|x) \beta_i(y_i|x)}{Z(x)} \end{aligned}$
其中 $a_n^T(x) \cdot \mathbf{1}$
这个式子是特征函数数学期望的一般计算公式。对于转移特征 $t_k(y_{i-1},y_i,x,i) ,k=1,2,…,K$ ，可以将式中的 $f_k$ 换成 $t_k$ ;对于状态特征，可以将式中的 $f_k$ 换成 $s_l$ , 表示为 $s_l(y_i,x,i),k = K_1+1;l=1,2,…,K_2$ 。

有了这些式子，对于给定的观测序列 x 与标记序列 y ，可以通过一次前向扫描计算 $a_i$ 及 $Z (x)$ ,通过一次后向扫描计算 $\beta_i$ ，从而计算所有的概率和特征的期望。

条件随机场的训练

本节讨论给定训练数据集估计条件随机场模型参数的问题，即条件随机场的学习问题。条件随机场模型实际上是定义在时序数据上的对数线形模型，其学习方法包括极大似然估计和正则化的极大似然估计。具体的优化实现算法有改进的迭代尺度法IIS、梯度下降法以及 L-BFGS 算法。（crf++ 采用了 L-BFGS 优化的方式，所以着重看这种训练方法即可）

L-BFGS算法

对于条件随机场模型：
$P_w(y|x) = \frac{\exp \left \{ \sum_{k=1}^K w_kf_k(x,y)\right \}}{ \sum_y \left \{ \exp \sum_{i=1}^n w_if_i(x,y)\right \}}$
已知训练数据集，由此可知经验概率分布 $\widetilde{P}(X,Y)$ 可以通过极大化训练数据的对数似然函数来求模型参数，训练数据的对数似然函数为:
$L_{\widetilde{P}}(P_w) = \log \prod_{x,y}P_w(y|x)^{\widetilde{P}(x,y)} = \sum_{x,y}\widetilde{P}(x,y) \log P_w(y|x)$
接下来给出 log 似然函数：
$\begin{aligned} L(w) &= \sum_{x,y} \widetilde{P}(x,y) \log P_w(y|x) \\ &= \sum_{x,y} \left \{ \widetilde{P}(x,y)\sum_{k=1}^Kw_kf_k(y,x)-\widetilde{P}(x,y) \log Z_w(x) \right \} \\ &= \sum_{x,y} \widetilde{P}(x,y) \sum_{k=1}^K w_kf_k(x,y) - \sum_x\widetilde{P}(x)\log\sum_y\exp\left \{ \sum_{i=1} ^nw_if_i(x,y)\right \} \end{aligned}$
对目标进行 MLE 等价于极小化以下优化目标函数：
$\min_w f(w) = \sum_x\widetilde{P}(x) \log \sum_y \exp \left \{ \sum_{i=1}^n w_if_i(x,y)\right \} -\sum_{x,y}\widetilde{P}(x,y)\sum_{i=1}^nw_i f_i(x,y)$
其一阶梯度函数在 BFGS 算法的过程中有用到，形式如下：
$\left \{ \frac{\partial f(w)}{\partial w_1},\frac{\partial f(w)}{\partial w_2},…,\frac{\partial f(w)}{\partial w_n} \right \}$
具体其形式如下：
$\sum_{x,y}\widetilde{P}(x)P_w(y|x)f(x,y)-E_{\widetilde{P}}(f) = E_P(f) - E_{\widetilde{P}}(f)$
可以看到，这是要使得真实期望与经验期望的差值尽可能小，也正是我们的初衷，还可以为目标函数加上一个权重为 $\delta^2$ 的 L2 正则项(贝叶斯先验)，因此 g(w) 的形式变为
$E_P(f) - E_{\widetilde{P}}(f) + \frac{w}{\delta^2}$
总结一下便得到求解 CRF 的 BFGS 算法：
输入：特征函数 $f_1,f_2,…,f_n$ ；经验分布 $\widetilde{P}(X,Y)$ ；

输出：最优参数值 $\hat{w}$ ；最优模型 $P_{\hat{w}}(y|x)$ 。

(1) 选定初始点 $w^{(0)}$ ，取 B0 为正定对称矩阵，置 k=0；

(2) 计算 $g_k = g(w^{(k)})$ 。若 gk=0 ,则停止计算；否则转(3)

(3) 由拟牛顿条件 $B_kp_k = –g_k$ 求出 $p_k$

(4) 线性搜索：求 $\lambda_k$ 使得：

$f(w^{(k)} + \lambda_kp_k) = \min_{\lambda \ge 0}f(w^{(k)} + \lambda p_k)$

(5) 置 $w^{(k+1)} = w^{(k)} + \lambda_k p_k$
(6) 计算 $g_{k+1} = g(w^{(k+1)})$ ，若 $g_k = 0$ 则停止计算；否则，按下式求出 $B_{k+1}$ :

$B_{k+1} = B_k + \frac{y_ky_k^T}{y_k^T \delta_k} – \frac{B_k \delta_k \delta_k^TB_k}{\delta_k^TB_k\delta_k}$

其中：
$y_k = g_{k+1}-g_k , \ \ \delta_k = w^{(k+1)} - w^{(k)}$

(7) 置 k = k+1，转(3)

条件随机场的预测算法

CRF 的预测问题是给定模型参数和输入序列（观测序列）x，求条件概率最大的输出序列（标记序列）y∗，即对观测序列进行标注。条件随机场的预测算法同 HMM 还是维特比算法，根据 CRF模型可得：
$\begin{aligned} y^* &= \arg \max_yP_w(y|x) \\ &= \arg \max_y\frac{ \exp \left \{w \cdot F(y,x) \right\}}{Z_w(x)} \\ &= \arg \max_y \exp \left \{w \cdot F(y,x) \right\} \\ &= \arg \max_y \ w \cdot F(y,x) \end{aligned}$
于是，条件随机场的预测问题成为求非规范化概率最大的最优路径问题
$\arg \max_y \ w \cdot F(y,x)$
其中
$F_i(y_{i-1},y_i,x) = \left \{f_1(y_{i-1},y_i,x),f_2(y_{i-1},y_i,x),…,F_K(y_{i-1},y_i,x) \right \}^T$
为局部特征向量。

下面叙述维特比算法。首先求出位置 1 的各个标记 j=1,2,…，m 的非规范化概率:

$\delta_1(j) = w \cdot F_1(y_0 = start,y_1 = j,x)$

一般地，由递推公式，求出到位置 i 的各个标记 l=1，2,…m 的非规范化概率的最大值，同时记录非规范化概率最大值的路径：

$\begin{aligned} \delta_i(l) &= \max_{1 \le j \le m} \left \{\delta_i(l-1) + w \cdot F_i(y_{i-1} = j,y_i = l,x) \right\}, &\ l= 1,2,...,m\\ \Psi_i(l) &=\arg\max_{1 \le j \le m} \left \{\delta_{i-1}(l) + w \cdot F_i(y_{i-1} = j,y_i = l,x) \right\}, & \ l= 1,2,...,m \end{aligned}$
直到i = n 时终止。这时求得非规范化概率的最大值为

$\max_y(w \cdot F(y,x)) = \max_{1 \le j \le m} \delta_n(j)$

及最优路径的终点

$y_n^* = \arg \max_{1 \le j \le m} \delta _n(j)$

由此最优路径终点返回,不断的找到各个时刻的最优值：

$y_i^* = \Psi_{i+1}(y^*_{i+1}) , \ i = n-1,n-2,…,1$

以上便是一条最优路径了，求得该最优路径:

$y^* = (y_1^*,y_2^*,…,y_n^*)^T$

这便为条件随机场预测的维特比算法。

Python机器学习与深度学习：决策树、随机森林、XGBoost与LightGBM、迁移学习、循环神经网络、长短时记忆网络、时间卷积网络、自编码器、生成对抗网络、YOLO目标检测等 WangYan2022 机器学习/深度学习 Python 机器学习深度学习随机森林迁移学习
融合最新技术动态与实战经验，旨在系统提升以下能力：①掌握ChatGPT、DeepSeek等大语言模型在代码生成、模型调试、实验设计、论文撰写等方面的实际应用技巧②深入理解深度学习与经典机器学习算法的关联与差异，掌握其理论基础③熟练运用PyTorch实现各类深度学习模型，包括迁移学习、循环神经网络（RNN）、长短时记忆网络（LSTM）、时间卷积网络（TCN）、自编码器、生成对抗网络（GAN）、YOL
深入详解 AI 与深度学习：从零开始掌握 BERT 模型架构拉不拉斯AICoding 技术探索人工智能深度学习 bert
深入详解AI与深度学习：从零开始掌握BERT模型架构引言在自然语言处理（NLP）领域，BERT（BidirectionalEncoderRepresentationsfromTransformers）是近年来最具影响力的模型之一。它通过双向上下文理解彻底改变了NLP任务的处理方式。本文将从基础概念到核心原理、应用场景和实践技巧，深入浅出地讲解BERT，帮助初学者快速掌握这一技术。一、BERT的核心
Transformer模型架构深度讲解
Transformer是一种在自然语言处理（NLP）和深度学习中非常重要的模型架构。它首次由Vaswani等人于2017年提出，主要应用于序列到序列的任务（如机器翻译、文本生成、摘要生成等）。Transformer模型与传统的RNN（循环神经网络）和LSTM（长短时记忆网络）不同，它不依赖于时间步的顺序处理，而是完全基于“注意力机制”进行计算，这使得它在训练速度、并行化能力和长期依赖问题的处理上具
AI人工智能浪潮中，GPT的技术优势凸显 AI学长带你学AI 人工智能 gpt ai
AI人工智能浪潮中，GPT的技术优势凸显关键词：人工智能、GPT、自然语言处理、深度学习、Transformer、大语言模型、技术优势摘要：本文深入探讨了在人工智能浪潮中GPT(GenerativePre-trainedTransformer)系列模型的技术优势。我们将从GPT的核心架构出发，分析其独特的技术特点，包括自注意力机制、预训练-微调范式、零样本学习能力等。通过与传统NLP方法的对比，揭
自然语言处理-基于预训练模型的方法-笔记
自然语言处理-基于预训练模型的方法-笔记【下载地址】自然语言处理-基于预训练模型的方法-笔记《自然语言处理-基于预训练模型的方法》由哈尔滨工业大学出版，深入探讨了NLP领域的前沿技术与预训练模型的应用。本书系统介绍了预训练模型的基本概念、发展历程及常见模型的原理，并通过丰富的实践案例与代码实现，帮助读者掌握这些技术在自然语言处理任务中的实际应用。无论是初学者、研发人员，还是希望提升NLP能力的研究
大语言模型应用指南：ReAct 框架 AI大模型应用实战 java python javascript kotlin golang 架构人工智能
大语言模型应用指南：ReAct框架关键词：大语言模型,ReAct框架,自然语言处理(NLP),模型融合,多模态学习,深度学习,深度学习框架1.背景介绍1.1问题由来近年来，深度学习技术在自然语言处理(NLP)领域取得了显著进展。尤其是大语言模型(LargeLanguageModels,LLMs)，如BERT、GPT系列等，通过在大规模无标签数据上进行预训练，获得了强大的语言理解和生成能力。然而，预
大语言模型原理基础与前沿基于语言反馈进行微调 AI天才研究院计算 AI大模型企业级应用开发实战 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大语言模型原理基础与前沿基于语言反馈进行微调作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着深度学习技术的飞速发展，自然语言处理（NLP）领域取得了显著的进展。大语言模型（LargeLanguageModels，LLMs）如GPT-3、BERT等在各项NLP任务上取得了令人瞩目的成绩。然而，如何进一步提高大语言模型的理
从新闻到知识图谱：用大模型和知识工程“八步成诗”打造科技并购大脑许泽宇的技术分享知识图谱科技人工智能
一句话摘要：本文带你用现代NLP和知识图谱技术，把科技公司并购新闻变成结构化的知识大脑，过程全景揭秘，理论与实战齐飞，代码只用伪代码，干货与段子齐发，助你成为AI知识工程老司机！前言：为什么要把新闻变成知识图谱？想象一下，你是个投资分析师，老板让你一周内梳理全球科技并购大事件，找出谁在买谁、花了多少钱、背后有哪些大佬、涉及哪些新技术……你会怎么做？A.手动Ctrl+F，Excel狂敲，熬夜爆肝？B
Longformer: The Long-Document Transformer（2020-4-10）不负韶华ღ 深度学习（NLP）transformer 深度学习人工智能
模型介绍目前基于Transformer的预训练模型在各项NLP任务纷纷取得更好的效果，这些成功的部分原因在于Self-Attention机制，它运行模型能够快速便捷地从整个文本序列中捕获重要信息。然而传统的Self-Attention机制的时空复杂度与文本的序列长度呈平方的关系，这在很大程度上限制了模型的输入不能太长，因此需要将过长的文档进行截断传入模型进行处理，例如BERT中能够接受的最大序列长
搜索架构中的NLP技术：提升搜索准确性的关键搜索引擎技术架构自然语言处理人工智能 ai
搜索架构中的NLP技术：提升搜索准确性的关键关键词：搜索架构、NLP技术、查询理解、语义搜索、相关性排序、意图识别、BERT模型摘要：本文将深入探讨现代搜索架构中NLP技术的核心应用，从查询理解到结果排序的全流程，揭示NLP如何提升搜索准确性。我们将通过生动的比喻解释复杂概念，分析关键技术原理，并提供实际代码示例，帮助读者全面理解搜索系统背后的NLP魔法。背景介绍目的和范围本文旨在解析NLP技术在
探索AI人工智能医疗NLP实体识别系统的架构设计 AI学长带你学AI 人工智能自然语言处理 easyui ai
探索AI人工智能医疗NLP实体识别系统的架构设计关键词：人工智能、医疗NLP、实体识别、系统架构、深度学习、自然语言处理、医疗信息化摘要：本文将深入探讨医疗领域NLP实体识别系统的架构设计。我们将从基础概念出发，逐步解析医疗文本处理的特殊性，详细介绍实体识别技术的核心原理，并通过实际案例展示如何构建一个高效可靠的医疗实体识别系统。文章还将探讨当前技术面临的挑战和未来发展方向，为医疗AI领域的从业者
RNN案例人名分类器（完整步骤） AI扶我青云志 rnn 人工智能深度学习 nlp lstm gru
今天给大家分享一个NLP（自然语言处理）中的一个小案例，本案例讲解了RNN、LSTM、GRU模型是如何使用并进行预测的，一、案例架构人名分类器的实现可分为以下五个步骤:第一步:导入必备的工具包第二步:对data文件中的数据进行处理，满足训练要求第三步:构建RNN模型(包括传统RNN,LSTM以及GRU)第四步:构建训练函数并进行训练五步第:构建评估函数并进行预测二、实现步骤1.导包#导入torch
【论文笔记】RAGLAB: A Modular and Research-Oriented Unified Framework for Retrieval-Augmented Generation AustinCyy 论文笔记论文阅读
论文信息论文标题：RAGLAB:AModularandResearch-OrientedUnifiedFrameworkforRetrieval-AugmentedGeneration-EMNLP24论文作者：XuanwangZhang-NanjingUniversity论文链接：https://arxiv.org/abs/2408.11381代码链接：https://github.com/fat
Python设置国内镜像教程 wh3933 python 开发语言
####引言Python是一种广泛使用的高级编程语言，用于各种编程任务，从简单的脚本到复杂的机器学习算法。在安装Python包时，通常需要从Python包索引（PyPI）下载。由于网络原因，直接从PyPI下载可能速度较慢，因此，使用国内的镜像源可以显著提高下载速度。本文将详细介绍如何在Python中设置国内镜像。####文章目的本篇文章旨在指导用户如何将Python的包管理工具`pip`的默认源切
happy-llm 第一章 NLP 基础概念 weixin_38374194 自然语言处理人工智能学习
文章目录一、什么是NLP？二、NLP发展三大阶段三、NLP核心任务精要四、文本表示演进史1.传统方法：统计表征2.神经网络：语义向量化课程地址：happy-llmNLP基础概念一、什么是NLP？核心目标：让计算机理解、生成、处理人类语言，实现人机自然交互。现状与挑战：成就：深度学习推动文本分类、翻译等任务达到近人类水平。瓶颈：歧义性、隐喻理解、跨文化差异等。二、NLP发展三大阶段时期代表技术核心思
【AI】大语言模型（LLM）& NLP G皮T #大语言模型 LLM NLP 大模型大语言模型 AI 人工智能
大语言模型（LLM）&NLP1.大语言模型（LLM）1.1一句话解释1.2更形象的比喻1.3为什么叫“大”模型1.4它能做什么1.5现实中的例子2.对比NLP2.1用“汽车进化”比喻NLP→LLM2.2为什么说LLM属于NLP2.3LLM的“革命性突破”在哪里2.4总结1.大语言模型（LLM）1.1一句话解释大语言模型（LargeLanguageModel，LLM）是一个“超级文字预测器”，它通过
使用Python爬虫与自然语言处理技术抓取并分析网页内容 Python爬虫项目 python 爬虫自然语言处理 javascript 数据分析人工智能
1.引言在如今数据驱动的时代，网页爬虫（WebScraping）和自然语言处理（NLP）已成为处理大量网页数据的重要工具。利用Python爬虫抓取网页内容，结合NLP技术进行文本分析和信息抽取，能够从大量网页中提取有价值的信息。无论是新闻文章的情感分析、社交媒体的舆情分析，还是电商网站的商品评论挖掘，这些技术都发挥着至关重要的作用。本文将介绍如何利用Python爬虫与自然语言处理技术抓取并分析网页
计算机视觉中的Transformer：ViT模型详解与代码实现 AI大模型应用工坊计算机视觉 transformer 人工智能 ai
计算机视觉中的Transformer：ViT模型详解与代码实现关键词：计算机视觉、Transformer、ViT、自注意力机制、图像分块摘要：传统卷积神经网络（CNN）统治计算机视觉领域多年，但2020年一篇《AnImageisWorth16x16Words:TransformersforImageRecognitionatScale》的论文打破了这一格局——它将NLP领域的Transformer
AI 加持下的智能家居行业：变革、挑战与机遇低代码老李人工智能智能家居
在当今科技迅猛发展的浪潮中，人工智能（AI）已深深融入智能家居领域，成为推动其蓬勃发展的关键力量，为人们的生活带来了诸多便利和创新体验，同时也面临着一系列亟待解决的问题。一、AI驱动的智能家居功能升级（1）智能语音交互与控制智能语音助手作为智能家居的核心交互方式，借助自然语言处理（NLP）技术，让用户仅通过简单的语音指令，就能轻松操控家中各类智能设备，如精准控制灯光的开关与亮度调节、窗帘的开合、电
Python与Dlib库实现人脸技术实战西域情歌
本文还有配套的精品资源，点击获取简介：本项目详细说明了如何使用Python结合Dlib库实现人脸检测、识别、数量检测和距离检测。利用Dlib提供的机器学习算法和计算机视觉功能，包括HOG特征检测、级联分类器、面部特征向量模型和关键点预测等，项目能够快速准确地在图像中检测和识别人脸。此外，还介绍了如何统计图像中的人脸数量以及如何计算人脸之间的距离。通过实际代码资源，开发者能够掌握实时人脸技术的应用，
机器学习算法_支持向量机
一、支持向量机支持向量机只能做二分类任务SVM全称支持向量机，即寻找到一个超平面使样本分成两类，且间隔最大硬间隔：如果样本线性可分，在所有样本分类都正确的情况下，寻找最大间隔；如果出现异常值或样本线性不可分，此时硬间隔无法实现软间隔：允许部分样本，在最大间隔之内，甚至在错误的一边，寻找最大间隔；目标是尽可能保持间隔宽阔和限制间隔违例之间寻找良好的平衡惩罚系数：通过惩罚系数来控制这个平衡，C值越小，
NLTK库全解析：用Python打开自然语言处理的第一把钥匙
引言你是否好奇过，手机里的智能助手是如何“听懂”你说的话？电商平台的差评分析又是怎样精准提取“物流慢”“质量差”这些关键词？这些看似神奇的自然语言处理（NLP）功能，背后都藏着一个“入门神器”——NLTK（NaturalLanguageToolkit）。作为Python生态中最经典的NLP库，NLTK就像一本“NLP百科全书”，从最基础的文本拆分到复杂的语义理解，它用简单的代码接口，带我们推开自然
Python 爬虫实战：微博话题讨论数趋势爬取与分析全流程西攻城狮北 python 爬虫开发语言
1.项目背景与目标微博话题（#话题#）是社交媒体舆情监测、品牌营销、热点追踪的重要数据源。本实战要完成以下目标：爬取指定话题在7天内的讨论数、阅读量、热搜排名等关键指标。将数据存入MySQL，并每日增量更新。用Pandas+Matplotlib绘制趋势图，直观呈现热度变化。基于SnowNLP做情感倾向分析，输出正面/负面占比。生成一份可分享的HTML可视化报告。2.环境搭建与依赖2.1安装核心库p
大语言模型应用指南：Gemini简介 AI大模型应用之禅人工智能数学基础计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍自然语言处理（NLP）一直是人工智能领域的热门话题之一。在NLP中，语言模型是一个重要的概念，它可以用来预测下一个单词或字符的概率。近年来，随着深度学习技术的发展，大型语言模型的研究和应用也越来越受到关注。其中，Gemini是一种新型的大型语言模型，它在多项任务上取得了优异的表现。本文将介绍Gemini的核心概念、算法原理、数学模型和公式、项目实践、实际应用场景、工具和资源推荐、未来发
新华妙笔：AI智能写作助手，让高效写作触手可及东风西巷 AI写作 android 软件需求智能手机
在当今快节奏的时代，无论是职场人士、学生还是创作者，都面临着大量的写作任务。从工作总结、调研报告到公文写作、商业文案，高效且高质量的写作能力成为了提升个人竞争力的关键。然而，写作不仅需要丰富的知识储备和扎实的文字功底，还需要大量的时间和精力去打磨。为了帮助用户更高效地完成写作任务，新华妙笔APP应运而生。它是一款功能强大的AI智能写作助手，依托自然语言处理（NLP）和大数据分析技术，能够快速生成各
Day44
1.预训练概念：在大规模数据上训练模型学习通用知识，再迁移到下游任务微调2.常见模型：图像有AlexNet、ResNet、ViT；NLP有BERT、GPT3.图像模型发展：从手工特征到深度学习，从CNN到Transformer、多模态4.预训练策略：数据增强、自监督/监督训练、模型微调、多模态学习作业1.importtorchimporttorch.nnasnnimporttorch.optima
Python, Rust 开发机关事业单位公文写作助手APP
#机关事业单位公文写作助手应用设计基于Python和Rust开发机关事业单位公文写作APP的方案如下：##系统架构设计```桌面端/Web应用(Tauri/Vue.js)|RESTAPI/WebSocket|Rust核心服务(Actix-web/Axum)←───PythonNLP服务(FastAPI)|公文要素提取/模板生成/智能校对PostgreSQL数据库|Redis缓存(模板缓存/会话管理
【大模型面试】大模型Prompt Engineer面试题及参考答案大模型知识 prompt 人工智能开发语言 python chatgpt 深度学习大模型
一、基础概念类1.什么是大模型？大模型通常指具有庞大参数规模的机器学习模型，尤其是在自然语言处理（NLP）和计算机视觉等领域。这些模型能够学习到大量数据中的复杂模式和特征，具备强大的泛化能力，可在多种任务上表现出色，如GPT系列、BERT等。2.大模型与传统机器学习模型的区别是什么？传统机器学习模型参数规模相对较小，往往针对特定任务进行设计和训练，需要较多人工特征工程。而大模型参数数量庞大，通过在
AI产品经理技术篇：AI领域常用术语解析让我看看好学吗人工智能产品经理机器学习深度学习学习
作为AI产品经理，深入理解人工智能领域的核心术语是高效沟通、需求定义和产品落地的关键。无论是与算法工程师协作优化模型，还是向业务方解释技术方案，准确掌握专业术语能显著提升决策效率，避免因概念混淆导致的开发偏差。本文系统梳理了模型与算法、NLP（自然语言处理）、CV（计算机视觉）、数据处理、核心评估指标等领域的核心术语，帮助产品经理快速构建AI技术认知框架。目录1.基础概念2.模型与算法3.自然语言
大模型微调到底有没有技术含量？ DeepSeek-大模型系统教程人工智能语言模型 ai 大模型大模型微调程序员 AI大模型
今天给大家带来知乎好友@ybq的一篇回答-大模型微调到底有没有技术含量，或者说技术含量到底有多大？老生常谈的一句话吧：有没有技术含量取决于这个工作你怎么做，尤其是llm方向，上手门槛相比传统NLP变得更低了。我举一些例子吧，针对大模型微调的几个重要环节，我列举的每一种做法大概率都能完成最终目标，甚至说训出来的模型效果都没什么差别。但对个人能力成长的帮助就大不相同了。数据工作做法1:继承实验室或者同
jvm调优总结（从基本概念到深度优化） oloz java jvm jdk 虚拟机应用服务器
JVM参数详解：http://www.cnblogs.com/redcreen/archive/2011/05/04/2037057.html Java虚拟机中，数据类型可以分为两类：基本类型和引用类型。基本类型的变量保存原始值，即：他代表的值就是数值本身；而引用类型的变量保存引用值。“引用值”代表了某个对象的引用，而不是对象本身，对象本身存放在这个引用值所表示的地址的位置。
【Scala十六】Scala核心十：柯里化函数 bit1129 scala
本篇文章重点说明什么是函数柯里化，这个语法现象的背后动机是什么，有什么样的应用场景，以及与部分应用函数(Partial Applied Function)之间的联系 1. 什么是柯里化函数 A way to write functions with multiple parameter lists. For instance def f(x: Int)(y: Int) is a
HashMap dalan_123 java
HashMap在java中对很多人来说都是熟的；基于hash表的map接口的非同步实现。允许使用null和null键；同时不能保证元素的顺序；也就是从来都不保证其中的元素的顺序恒久不变。 1、数据结构在java中，最基本的数据结构无外乎：数组和引用（指针），所有的数据结构都可以用这两个来构造，HashMap也不例外，归根到底HashMap就是一个链表散列的数据
Java Swing如何实时刷新JTextArea，以显示刚才加append的内容周凡杨 java 更新 swing JTextArea
在代码中执行完textArea.append("message")后，如果你想让这个更新立刻显示在界面上而不是等swing的主线程返回后刷新，我们一般会在该语句后调用textArea.invalidate()和textArea.repaint()。问题是这个方法并不能有任何效果，textArea的内容没有任何变化，这或许是swing的一个bug，有一个笨拙的办法可以实现
servlet或struts的Action处理ajax请求 g21121 servlet
其实处理ajax的请求非常简单，直接看代码就行了： //如果用的是struts //HttpServletResponse response = ServletActionContext.getResponse(); // 设置输出为文字流 response.setContentType("text/plain"); // 设置字符集 res
FineReport的公式编辑框的语法简介老A不折腾 finereport 公式总结
FINEREPORT用到公式的地方非常多，单元格（以=开头的便被解析为公式），条件显示，数据字典，报表填报属性值定义，图表标题，轴定义，页眉页脚，甚至单元格的其他属性中的鼠标悬浮提示内容都可以写公式。简单的说下自己感觉的公式要注意的几个地方： 1.if语句语法刚接触感觉比较奇怪，if(条件式子,值1,值2)，if可以嵌套，if(条件式子1，值1，if(条件式子2，值2，值3)
linux mysql 数据库乱码的解决办法墙头上一根草 linux mysql 数据库乱码
linux 上mysql数据库区分大小写的配置 lower_case_table_names=1 1-不区分大小写 0-区分大小写修改/etc/my.cnf 具体的修改内容如下: [client] default-character-set=utf8 [mysqld] datadir=/var/lib/mysql socket=/va
我的spring学习笔记6-ApplicationContext实例化的参数兼容思想 aijuans Spring 3
ApplicationContext能读取多个Bean定义文件，方法是： ApplicationContext appContext = new ClassPathXmlApplicationContext（ new String[]｛“bean-config1.xml”，“bean-config2.xml”，“bean-config3.xml”，“bean-config4.xml
mysql 基准测试之sysbench annan211 基准测试 mysql基准测试 MySQL测试 sysbench
1 执行如下命令，安装sysbench-0.5： tar xzvf sysbench-0.5.tar.gz cd sysbench-0.5 chmod +x autogen.sh ./autogen.sh ./configure --with-mysql --with-mysql-includes=/usr/local/mysql
sql的复杂查询使用案列与技巧百合不是茶 oracle sql 函数数据分页合并查询
本片博客使用的数据库表是oracle中的scott用户表; ------------------- 自然连接查询查询 smith 的上司(两种方法) &
深入学习Thread类 bijian1013 java thread 多线程 java多线程
一．线程的名字下面来看一下Thread类的name属性，它的类型是String。它其实就是线程的名字。在Thread类中，有String getName()和void setName(String)两个方法用来设置和获取这个属性的值。同时，Thr
JSON串转换成Map以及如何转换到对应的数据类型 bijian1013 java fastjson net.sf.json
在实际开发中，难免会碰到JSON串转换成Map的情况，下面来看看这方面的实例。另外，由于fastjson只支持JDK1.5及以上版本，因此在JDK1.4的项目中可以采用net.sf.json来处理。一.fastjson实例 JsonUtil.java package com.study; impor
【RPC框架HttpInvoker一】HttpInvoker：Spring自带RPC框架 bit1129 spring
HttpInvoker是Spring原生的RPC调用框架，HttpInvoker同Burlap和Hessian一样，提供了一致的服务Exporter以及客户端的服务代理工厂Bean，这篇文章主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中
【Mahout二】基于Mahout CBayes算法的20newsgroup的脚本分析 bit1129 Mahout
#!/bin/bash # # Licensed to the Apache Software Foundation (ASF) under one or more # contributor license agreements. See the NOTICE file distributed with # this work for additional information re
nginx三种获取用户真实ip的方法 ronin47
随着nginx的迅速崛起，越来越多公司将apache更换成nginx. 同时也越来越多人使用nginx作为负载均衡, 并且代理前面可能还加上了CDN加速，但是随之也遇到一个问题：nginx如何获取用户的真实IP地址,如果后端是apache,请跳转到<apache获取用户真实IP地址>，如果是后端真实服务器是nginx，那么继续往下看。实例环境：用户IP 120.22.11.11
java-判断二叉树是不是平衡 bylijinnan java
参考了 http://zhedahht.blog.163.com/blog/static/25411174201142733927831/ 但是用java来实现有一个问题。由于Java无法像C那样“传递参数的地址，函数返回时能得到参数的值”，唯有新建一个辅助类：AuxClass import ljn.help.*; public class BalancedBTree {
BeanUtils.copyProperties VS PropertyUtils.copyProperties 诸葛不亮 PropertyUtils BeanUtils
BeanUtils.copyProperties VS PropertyUtils.copyProperties 作为两个bean属性copy的工具类，他们被广泛使用，同时也很容易误用，给人造成困然；比如：昨天发现同事在使用BeanUtils.copyProperties copy有integer类型属性的bean时，没有考虑到会将null转换为0，而后面的业
[金融与信息安全]最简单的数据结构最安全 comsci 数据结构
现在最流行的数据库的数据存储文件都具有复杂的文件头格式，用操作系统的记事本软件是无法正常浏览的，这样的情况会有什么问题呢？从信息安全的角度来看，如果我们数据库系统仅仅把这种格式的数据文件做异地备份，如果相同版本的所有数据库管理系统都同时被攻击，那么
vi区段删除 Cwind linux vi 区段删除
区段删除是编辑和分析一些冗长的配置文件或日志文件时比较常用的操作。简记下vi区段删除要点备忘。 vi概述引文中并未将末行模式单独列为一种模式。单不单列并不重要，能区分命令模式与末行模式即可。 vi区段删除步骤： 1. 在末行模式下使用:set nu显示行号非必须，随光标移动vi右下角也会显示行号，能够正确找到并记录删除开始行
清除tomcat缓存的方法总结 dashuaifu tomcat 缓存
用tomcat容器，大家可能会发现这样的问题，修改jsp文件后，但用IE打开依然是以前的Jsp的页面。出现这种现象的原因主要是tomcat缓存的原因。解决办法如下: 在jsp文件头加上 <meta http-equiv="Expires" content="0"> <meta http-equiv="kiben&qu
不要盲目的在项目中使用LESS CSS dcj3sjt126com Web less
　如果你还不知道LESS CSS是什么东西，可以看一下这篇文章，是我一朋友写给新人看的《CSS——LESS》　　不可否认，LESS CSS是个强大的工具，它弥补了css没有变量、无法运算等一些“先天缺陷”，但它似乎给我一种错觉，就是为了功能而实现功能。　　比如它的引用功能 ? .rounded_corners{
[入门]更上一层楼 dcj3sjt126com PHP yii2
更上一层楼通篇阅读完整个“入门”部分，你就完成了一个完整 Yii 应用的创建。在此过程中你学到了如何实现一些常用功能，例如通过 HTML 表单从用户那获取数据，从数据库中获取数据并以分页形式显示。你还学到了如何通过 Gii 去自动生成代码。使用 Gii 生成代码把 Web 开发中多数繁杂的过程转化为仅仅填写几个表单就行。本章将介绍一些有助于更好使用 Yii 的资源：
Apache HttpClient使用详解 eksliang httpclient http协议
Http协议的重要性相信不用我多说了，HttpClient相比传统JDK自带的URLConnection，增加了易用性和灵活性（具体区别，日后我们再讨论），它不仅是客户端发送Http请求变得容易，而且也方便了开发人员测试接口（基于Http协议的），即提高了开发的效率，也方便提高代码的健壮性。因此熟练掌握HttpClient是很重要的必修内容，掌握HttpClient后，相信对于Http协议的了解会
zxing二维码扫描功能 gundumw100 android zxing
经常要用到二维码扫描功能现给出示例代码 import com.google.zxing.WriterException; import com.zxing.activity.CaptureActivity; import com.zxing.encoding.EncodingHandler; import android.app.Activity; import an
纯HTML+CSS带说明的黄色导航菜单 ini html Web html5 css hovertree
HoverTree带说明的CSS菜单:纯HTML+CSS结构链接带说明的黄色导航在线体验效果：http://hovertree.com/texiao/css/1.htm代码如下,保存到HTML文件可以看到效果： <!DOCTYPE html > <html > <head> <title>HoverTree
fastjson初始化对性能的影响 kane_xie fastjson 序列化
之前在项目中序列化是用thrift，性能一般，而且需要用编译器生成新的类，在序列化和反序列化的时候感觉很繁琐，因此想转到json阵营。对比了jackson，gson等框架之后，决定用fastjson，为什么呢，因为看名字感觉很快。。。网上的说法： fastjson 是一个性能很好的 Java 语言实现的 JSON 解析器和生成器，来自阿里巴巴的工程师开发。
基于Mybatis封装的增删改查实现通用自动化sql mengqingyu DAO
1.基于map或javaBean的增删改查可实现不写dao接口和实现类以及xml，有效的提高开发速度。 2.支持自定义注解包括主键生成、列重复验证、列名、表名等 3.支持批量插入、批量更新、批量删除 <bean id="dynamicSqlSessionTemplate" class="com.mqy.mybatis.support.Dynamic
js控制input输入框的方法封装(数字，中文，字母，浮点数等) qifeifei javascript js
在项目开发的时候，经常有一些输入框，控制输入的格式，而不是等输入好了再去检查格式，格式错了就报错，体验不好。 /** 数字，中文，字母,浮点数(+/-/.) 类型输入限制，只要在input标签上加上 jInput="number,chinese,alphabet,floating" 备注：floating属性只能单独用*/ funct
java 计时器应用 tangqi609567707 java timer
mport java.util.TimerTask; import java.util.Calendar; public class MyTask extends TimerTask { private static final int
erlang输出调用栈信息 wudixiaotie erlang
在erlang otp的开发中，如果调用第三方的应用，会有有些错误会不打印栈信息，因为有可能第三方应用会catch然后输出自己的错误信息，所以对排查bug有很大的阻碍，这样就要求我们自己打印调用的栈信息。用这个函数：erlang:process_display (self (), backtrace).需要注意这个函数只会输出到标准错误输出。也可以用这个函数：erlang:get_s