JokerDuuuu

从HMM到CRF到LSTM+CRF

在实习的时候有用到LSTM+CRF，但以前对HMM、CRF理论了解的不多，导致自己在理论方面有所欠缺。因此特此写一篇从HMM到CRF再到LSTM+CRF中的非纯理论性质的文章，算是一个阶段性笔记和总结。
本文的侧重点还是以LSTM+CRF为主，对于LSTM+CRF中依赖到的HMM、CRF中的概念会做详细说明，主要包含几个部分：

马尔科夫模型

隐马尔科夫模型(HMM)

HMM中的前向算法

维特比算法(viterbe)

条件随机场(CRF)

CRF中的矩阵表示

CRF中的前向算法

LSTM+CRF模型

LSTM+CRF中CRF层

源码解析

本文长而杂，阅读须谨慎。

0. Markov Model

之前也看过隐马尔科夫模型，也知道它有转移矩阵A、观测矩阵B。但是看完没多久又忘了，又说不出。所以还是概念不清楚。这里再巩固下。

在隐马尔科夫模型前，先忘掉HMM中的状态或观测的概念，先引入马尔科夫模型的概念。

假设我们有一个随机变量序列 X=(X1,X2,...,XT) ，它们的取值都来自一个状态集合 S={s1,s2,...,s|S|} ，将状态值带入到随机变量序列中我们就得到了一个长度为 T 的状态序列。以天气系统为例， S={sun,cloud,rain} ， |S|=3 ，当观测长度为 T=3 时，可能的一个状态序列为 {X1=ssun,X2=scloud,X3=srain} 。

上面的状态序列，在马尔科夫模型中做了两个假设：

Limited Horizon：

$P (S t + 1 = s k ∣ X 1, X 2, . . ., X t) = P (S t + 1 = s k ∣ X t)$

即下一个状态的输出概率只与上一个状态有关
Time Invariant

$P (S t + 1 = s k ∣ X t) = P (X 2 = s k ∣ X 1)$

即状态 St+1 与 St 输出概率之间的关系与时刻t无关，不会应为时刻不同而改变。

在马尔科夫模型中，为了确定状态到状态的转移概率，因此我们需要定义状态转移矩阵 A ，而在状态到达初始时刻则需要定义初始状态概率向量 π 。

下面以一个例子说明马尔科夫模型：

(1) 记状态序列为

S = {0, 1}

(2) 初始状态概率为

π = {π 1, π 2} = {0.2, 0.8}

(3) 转移矩阵为

A = X t ∖ X t + 1 01 0 0.3 0.6 1 0.7 0.4

对应的转移状态图为

则状态序列为1011的概率为：

P (X 1 = 1, X 2 = 0, X 3 = 1, X 4 = 1) = π 1 \times P (X 2 = 0 ∣ X 1 = 1) \times P (X 3 = 1 ∣ X 2 = 0) \times P (X 4 = 1 ∣ X 3 = 1) = 0.8 \times 0.6 \times 0.7 \times 0.4 = 0.1344

从上面这个例子可以看到，马尔科夫模型只能解决简单的状态转移问题。也即我观测到了一个状态序列，同时我知道状态间如何转移，那么我就知道整个状态产生的概率。但如果我们无法观测到这个状态序列，该怎么办？

一个典型的例子就是Ice Cream Climatology问题，我想预测一段时间的气候是HOT还是COLD，但是我我无法观测到这段时间的气候是什么，我只能观测到我每天吃了多少个冰激凌。因此对我来说，气候就是个隐含序列，真正的观测序列是我这段时间吃的冰激凌数目序列。

另一个例子就是NLP中词性标注(POS Tagging)问题，我有两个序列，一个是句子序列，一个是句子中每个词的词性构成的标记序列。但实际中我通常只有句子序列，在预测前词性无法得知，因此词性就是个隐含序列。

当实际问题中即包含观测序列又包含隐含的状态序列时，就需要隐马尔科夫了。

1. Hidden Markov Model

隐马尔科夫模型包含两个序列，一个状态序列 Q={q1,q2,...,qn} ，一个观测序列 O={o1,o2,...,on} ，每个状态 qi 生成一个观测 oi 。在隐马尔科夫模型中，做了一个输出独立的假设：

P (o t ∣ i T, o T, i T - 1, o T - 1, . . ., i t + 1, o t + 1, i t, i t - 1, o t - 1, i 1, o 1) = P (o t | i t)

即t时刻的观测值只依赖于t时刻的状态，与其他时刻状态无关。符号系统我沿用了《统计学习方法》。

隐马尔科夫模型同样需要初始向量 π ，状态转移矩阵 A 。由于我们多引入了一个观测序列，因此需要额外定义一个观测概率矩阵 B ，用于描述某个状态 qt 产生某个观测值 ot 的概率。 λ=(A,B,π) 即模型的参数。

在隐马尔科夫模型中，有3个基本问题，这里我主要描述其中的两个：

(1) 概率计算问题：给定模型 λ=(A,B,π) 和观测序列 O={o1,o2,...,on} ，求观测 O 出现的概率 P(O|λ)

(2) 预测问题：给定模型 λ=(A,B,π) 和观测序列 O={o1,o2,...,on} ，求条件概率 P(I∣O) 最大的隐含状态序列 I={ii,i2,...,iT}

1.1 前向算法

求观测序列 O 出现的概率的一种方式是求出所有状态序列 I 产生观测序列 O 的概率。这里要求出所有可能的状态序列是不可行的。思路是对的，但是有种更高效的计算方式。记前向概率为：

α t (i) = P (o 1, o 2, . . ., o t, i t = q i ∣ λ)

表示到t时刻部分观测序列为 o1,o2,...,ot 且状态为 qi 的概率。即t-1时刻的所有状态转移到t时刻的状态 it=qi 并生成 ot 的概率。对于 it+1=qj 的状态也是如此，为t时刻所有状态转移到 qj 并在 qj 生成 ot+1 的概率。如图

计算后一时刻概率时，前一时刻的概率是可以复用的。前向算法就是这样的算法，它快速的地方就是每次计算直接引用前一个时刻的计算结果，避免重复计算。我参照《统计学习方法》例10.2写了个简单的实现

import time
import numpy as np

A = np.array([[0.5, 0.2, 0.3],
              [0.3, 0.5, 0.2],
              [0.2, 0.3, 0.5]])

B = np.array([[0.5, 0.5],
              [0.4, 0.6],
              [0.7, 0.3]])

PI = np.array([0.2, 0.4, 0.4])

def forward(obs):
    alpha_t = PI * B[:, obs[0]]
    for t in range(1, len(A)):
        # 计算t-1时刻所有节点到t时刻y中某一个节点的概率
        transition_score = np.dot(alpha_t, A)

        emission_score = B[: ,obs[t]]

        alpha_t = transition_score * emission_score

    po = np.sum(alpha_t)
    print("P(O|lambda): {}".format(po))
    return po

if __name__ == '__main__':
    obs = [0, 1, 0]  # red white red
    forward(obs)

1.2 预测算法

对于词性标注任务来说，即已知句子序列 O ，那这个句子最可能的词性序列 I 是什么？预测算法就是要求一个词性序列 I ，这个序列具有最大的条件概率 P(I∣O) 。

假设在t时刻观测值为 ot ，此时状态为 r 。在t-1时刻处于状态 s ， s 的取值分别为 i,j,k ，由状态 s 转移到状态 r 并产生 ot 的概率可以描述为：

P (i t = r ∣ i t - 1 = s) \times P (o t ∣ i t = r) = a s, r \times b r (o t), s \in i, j, k

假设状态 s=i,j,k 的概率为 ci,cj,ck ，那么上述概率用图示即为：

由t-1时刻的状态 s 到t时刻的状态 r 的的路径有三条，这三条都有可能是最优的状态路径，那么经过 r 后会传递出3条可能的状态序列，假设t+1时刻有三个状态，那么在t+1时刻的状态序列就有 3×3=32 种可能，可能的状态序列以指数传播。

在viterbi算法中，就不一样了。既然 s 到 r 有三条可能的路径，那就计算这三条状态序列的概率，保留概率最大的那条。如图：

这样每个状态就只会传递一个序列下去，而不是N个，就不会使序列数量呈指数成长。

为什么只要保留到当前节点的最优那条路径就可以了呢？再如图：

假设S->E的最优路径为S->A2->B2->C2->E，且这条路径经过C2，那么对于S->C2的其他所有子路径来说，S->A2->B2->C2这条子路径一定是最优的。如果这条路径不是最优的，比如有另一条路径S->A1->B1->C2更优，那么用这条路径替换S->A2->B2->C2，那么原先S->E的最优路径就不是S->A2->B2->C2->E，这与我们的假设矛盾。上面的证明说明“全局最短”路径必定经过在这些“局部最短”子路径。因此，每个节点只保留到自己的局部最优路径即可。

参照《统计学习方法》例10.3，我也写了个简单实现：

import time

import numpy as np

A = np.array([[0.5, 0.2, 0.3],
              [0.3, 0.5, 0.2],
              [0.2, 0.3, 0.5]])

B = np.array([[0.5, 0.5],
              [0.4, 0.6],
              [0.7, 0.3]])

PI = np.array([0.2, 0.4, 0.4])

def viterbi(obs):
    state = PI * B[:, obs[0]]
    # 记录到达当前state(t时刻)且具有最优路径概率的state_index(t-1时刻)
    sequence_indices = np.zeros((len(obs), len(A)), dtype=np.int32)

    # viterbi前向计算
    for t in range(1, len(obs)):
        state = state.reshape(-1, 1)
        # 计算每个状态最优路径的概率
        transition_score = (state * A).max(axis=0)
        sequence_indices[t] = (state * A).argmax(axis=0)
        state = transition_score * B[:, obs[t]]

    # 反向查找最优状态序列
    final_sequence = [state.argmax()]
    for t in range(len(obs)-1, 0, -1):
        state_index = sequence_indices[t][final_sequence[-1]]
        final_sequence.append(state_index)
    print("final_sequence: {}".format(final_sequence[::-1]))

    return final_sequence[::-1]

if __name__ == '__main__':
    obs = [0, 1, 0]  # red white red
    viterbi(obs)

2. Conditional Random Field

条件随机场的理论要讲起来一篇内容可能很难覆盖到，而且理论太多让人看起来容易睡着。我这里就简单引入一下，前面几段可能会非常无聊，但还是有必要讲下。关于定义和符号系统仍沿用《统计学习方法》，我会对书中表述有问题的做一定的修正和说明。在后面LSTM+CRF的部分，也会涉及到这节的内容。

2.1 CRF

设 X 与 Y 是随机变量， P(Y∣X) 是给定 X 时 Y 的条件概率分布，若随机变量 Y 构成的是一个马尔科夫随机场，则称条件概率分布 P(Y∣X) 是条件随机场。

2.2 Linear-Chain CRF

(1) 定义

在词性标注等问题中，我们通常使用条件随机场的特例——线性链条件随机场，因此我这里主要关注线性链条件随机场，定义为：

设 X=(X1,X2,...,Xn) ， Y=(Y1,Y2,...,Yn) 均为线性链表示的随机变量序列，在给定随机变量序列 X 的条件下，随机变量序列 Y 的条件概率分布 P(Y|X) 构成条件随机场，即满足马尔科夫性：

P (Y i ∣ X, Y 1, Y 2, . . ., Y i - 1, Y i + 1, . . ., Y n) = P (Y i ∣ X, Y i - 1, Y i + 1)

则称

P(Y∣X) P ( Y ∣ X ) 为线性链条件随机场。

(2) 模型表示

线性链条件随机场对 P(Y∣X) 建模，表示为：

P (y ∣ x) = 1 Z ( x ) e x p (\sum i, k λ k t k (y i - 1, y i, x, i) + \sum i, l μ l s l (y i, x, i))

其中：

Z (x) = \sum y e x p (\sum i, k λ k t k (y i - 1, y i, x, i) + \sum i, l μ l s l (y i, x, i))

tk 和 sl 是特征函数， λk 和 μl 为对应权重。 Z(x) 的求和是在所有可能的输出序列上进行。

(3) 简化形式

如果将上述 K1 个转移特征函数和 K2 个状态特征函数写在一起有：

P (y ∣ x) = 1 Z ( x ) e x p \sum k = 1 K w k f k (y, x)

Z (x) = \sum y e x p \sum k = 1 K w k f k (y, x)

其中： K=K1+K2 。

wk 将 λk 和 μl 整合在一起，定义为：

w k = {λ k μ l k = 1, 2, . . . K 1 k = K 1 + l, l = 1, 2..., K 2

fk 将 tk 和 sl 整合在一起，定义为：

f k (y i - 1, y i, x, i) = {t k (y i - 1, y i, x, i) s l (y i, x, i) k = 1, 2, . . . K 1 k = K 1 + l, l = 1, 2..., K 2

对 fk(yi−1,yi,x,i) 在各时序位置 i 求和，有：

f k (y, x) = \sum i = 1 n f k (y i - 1, y i, x, i)

(4) 矩阵表示

到这里就是重点了，因为LSTM+CRF的模型是基于矩阵形式求解的。矩阵形式的表示不仅表达简洁，而且我们发现这样表达后它和HMM的表达形式越发的像。

首先，在序列前后引入起点和终点标记： y0=start ， yn+1=stop 。同时定义一个 m×m 的矩阵 Mi(x) 。其中， m 为标记 y 的取值个数， i=1,2,...,n+1 ，那么有：

M i (x) = [M i (y i - 1, y i ∣ x)]

M i (y i - 1, y i ∣ x) = exp (W i (y i - 1, y i ∣ x))

M i (y i - 1, y i | x) = \sum k = 1 K w k \cdot f k (y i - 1, y i, x, i)

经过上面三个公式表示，有：

P w (y | x) = 1 Z w ( x ) \prod i = 1 n + 1 M i (y i - 1, y i ∣ x)

Z w (x) = (\prod i = 1 n + 1 M i (x)) s t a r t, s t o p

看完上面一堆公式后有两个问题：
1. Mi(x) 这个矩阵到底是什么样的？
2. 为什么 Zw(x) 可以表示为多个矩阵相乘？

对于第1个问题，假设标记 y 可能的取值为 {1,2,3} ，加上引入的 y0=start 和 yn+1=stop ， Mi(x) 为5阶矩阵。按照《统计学习方法》和CRF原论文的表达， Mi(x) 应该表示如下：

M 1 (x) M 2 (x) . . . M n + 1 (x) = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ 00000 M 1 (y 0, y 1 | x) 0000 M 1 (y 0, y 3 | x) 0000 M 1 (y 0, y 3 | x) 0000 00000 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ 00000 0 M 2 (y 1, y 1 | x) M 2 (y 2, y 1 | x) M 2 (y 3, y 1 | x) 0 0 M 2 (y 1, y 2 | x) M 2 (y 2, y 2 | x) M 2 (y 3, y 2 | x) 0 0 M 2 (y 1, y 3 | x) M 2 (y 2, y 3 | x) M 2 (y 3, y 3 | x) 0 00000 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ 00000000000000000000 0 M n + 1 (y 1, y n | x) M n + 1 (y 2, y n | x) M n + 1 (y 3, y n | x) 0 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

对于第2个问题， Zw(x) 中的求和是在所有可能的输出序列 y 上进行的， M1(x)×M2(x)×...Mn+1(x) 带入 Mi(yi−1,yi∣x) ，每个矩阵的乘积就变成原公式中的指数相加，而前 i 个矩阵的乘积代表了标记序列 y 从时刻1到t的所有可能的组合。n+1个矩阵相乘得到的矩阵 M(x) 为：

M (x) = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ 00000000000000000000 Z w (x) 0000 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

对矩阵 M(x) 取第start行stop列就得到了 Zw(x) 。有时候为了方便，可以去掉上面矩阵中的0元素，这样 M1(x) 为行向量， Mn+1(x) 为列向量，n+1个矩阵相乘得到的标量即 Zw(x) 。用图来表示上述过程如下：

图中的矩阵 Mi(x) 与HMM中的转移矩阵非常相似。

(5) 概率计算

这里我只对前向算法做以说明，通过前向算法可以求出任意时刻 y 的非规范化概率。

对每个位置 i=0,1,...,n+1 ，定义前向向量 αi(x) ：

α 0 (y ∣ x) = {10 y = s t a r t e l s e

假设标记 y 有3种可能的取值，加上 start 和 stop ， α0(x) 为5维列向量， αT0(x)=[1,0,0,0,0] 。

递推公式为：

α T i (y i ∣ x) = α T i - 1 (y i - 1 ∣ x) [M i (y i - 1, y i ∣ x)], i = 1, 2, . . ., n + 1

又可表示为 公式(1)：

α T i (x) = α T i - 1 (x) M i (x) (1)

ai(yi∣x) 表示在位置 i 的标记是 yi 并且到位置 i 的前部分标记序列的非规范化概率。通俗点就是到 i 时刻，标记 yi 下的累积概率。当计算到 n 时刻的累积概率 αn(x) 时，那么有规范化因子 Zw(x)=αTn(x)⋅1 ，这里的前向算法和前面分析求解 Zw(x) 的过程是类似的。

再借用上图，可以看到上图就是个多层的NN，网络由多个hidden layer构成，每一个hidden layer的输出即为 αn(x) ，下一层的权重矩阵为 Mi+1(x) 。

3. LSTM+CRF

在用深度学习去解决命名实体预测(NER)时，一般是LSTM+Softmax的架构，这种架构的缺点是不考虑预测序列的Label之间的关系，以词性标注为例，动词后面不可能再接动词，而CRF可以考虑相邻Label之间的关系。在《Neural Architectures for Named Entity Recognition》中使用了LSTM+CRF的网络结构去解决实体识别的问题，如下图。但是论文中对如何将LSTM的结果应用到CRF中讲的比较少，因此我参考了下tensorflow的crf层的实现。

3.1 定义

首先，先看下论文中的公式定义：

对于给定的输入 X=(x1,x2,...,xn) ，经过LSTM层后得到输出 P∈Rn×k ，其中 k 为实体标记的数目， Pi,j 为第 i 个词被预测为实体 j 的分数。

对于一条标记序列 y=(y1,y2,...,yn) ，定义：

s (X, y) = \sum i = 1 n P i, y i + \sum i = 0 n A y i, y i + 1 (2)

其中， A 为转移矩阵，添加start和end标记后，那么 A 变为 k+2 阶方阵。 Ai,j 为从标记 i 转移到标记 j 的分数。对分数 s(X,y) 取Softmax做规范化，则得到 y 的预测概率：

p (y ∣ X) = e s ( X , y ) \sum y ~ \in Y X e s ( X , y ~ ) (3)

其中，分母表示对所有可能的标记序列的分数求和。

在训练时，会最大化 log(p(y∣X)) ：

l o g (p (y ∣ X)) = s (X, y) - l o g ⎛ ⎝ \sum y ~ \in Y X e s (X, y ~) ⎞ ⎠ = s (X, y) - l o g a d d y ~ \in Y X s (X, y ~) (4)

3.2 模型实现

在tensorflow的crf.py实现中，有几个函数需要重点关注：

# 1 计算公式(4), log(p(y| X))
crf_log_likelihood(inputs, tag_indices, sequence_lengths)

# 1.1 计算公式(4)中的第一项s(X, y), 即公式(2)
crf_sequence_score(inputs, tag_indices, sequence_lengths, transition_params)

# 1.1.1 计算公式(2)中的第一项
crf_unary_score(tag_indices, sequence_lengths, inputs)

# 1.1.2 计算公式(2)中的第二项
crf_binary_score(tag_indicese, sequence_lengths, transition_params)

# 1.2 计算公式(4)中的第二项log(sum)
crf_log_norm(inputs, sequence_lengths, transition_params)

# 1.3 用于预测，输出具有最大p(y| X)条件概率的标记序列y
viterbi_decode(score, transition_params)

#1 crf_log_likelihood：入口函数，接收的inputs为LSTM的输出，计算公式(4)中的两项，对应内部调用的两个方法crf_sequence_score和crf_log_norm。

def crf_log_likelihood(inputs, tag_indices, sequence_lengths, transition_params):
  num_tags = inputs.get_shape()[2].value

  if transition_params is None:
    transition_params = vs.get_variable("transitions", [num_tags, num_tags])

  sequence_scores = crf_sequence_score(inputs, tag_indices, sequence_lengths,
                                       transition_params) 
  log_norm = crf_log_norm(inputs, sequence_lengths, transition_params)

  # Normalize the scores to get the log-likelihood per example.
  log_likelihood = sequence_scores - log_norm
  return log_likelihood, transition_params

#1.1 crf_sequence_score：计算公式(4)中的第一项，即 s(X,y) 。

s(X,y) 中的第一项和 yi 有关，被称为unary score，第二项和 yi,yi+1 有关，被称为binary score。unary score + binary score即 s(X,y) 。在CRF中有转移特征和状态特征的概念，状态特征函数与 yi 有关，转移特征函数与 yi,yi+1 有关。在tensorflow的实现中，没有特征函数的概念，只是会计算unary score和binary score。其中，LSTM的输出表示的是每个词在不同标记 y 上的分数，与前一时刻的 y 无关。因此，LSTM的输出会被用来计算unary score，在概念上可以视为CRF中的状态特征函数。而计算binary score时（即转移分数），会使用定义的transition_params，在概念上可以视为CRF中的转移特征函数。

def crf_sequence_score(inputs, tag_indices, sequence_lengths,
                       transition_params):
  def _single_seq_fn():
    # ...

  def _multi_seq_fn():
    # Compute the scores of the given tag sequence.
    unary_scores = crf_unary_score(tag_indices, sequence_lengths, inputs)
    binary_scores = crf_binary_score(tag_indices, sequence_lengths,
                                     transition_params)
    sequence_scores = unary_scores + binary_scores
    return sequence_scores

  return utils.smart_cond(
      pred=math_ops.equal(inputs.shape[1].value or array_ops.shape(inputs)[1],1),
      true_fn=_single_seq_fn,
      false_fn=_multi_seq_fn)

#1.1.1 crf_unary_score：计算公式(2)中的一元分数。

这个函数接收一个输入inputs，即LSTM对应的输出。比如LSTM的输出为：

i n p u t s = ⎡ ⎣ ⎢ ⎢ ⎢ - 3 1 - 1 0 51 - 1 0 - 1 340 ⎤ ⎦ ⎥ ⎥ ⎥

这里我们假设句子长度为3，最长句子为4，这里做了1个padding。其中，num_tags=3。行表示句子中的词，列表示词输入某个标记y的score。记：这个句子真实的标记序列 tag_indices=[1,2,2,0] ，那么这个句子的unary score = 第一个词属于tag=1的score + 第二个词属于tag=2的score + 第三个词属于tag=2的score。那么有unary score = 5 + 3 + 4 = 12。我们在上面中时在2D矩阵中计算的，而下面的源码实现中将2D矩阵flatten为1D矩阵进行计算，最后根据mask，去掉padding部分的结果。

def crf_unary_score(tag_indices, sequence_lengths, inputs):

  batch_size = array_ops.shape(inputs)[0]
  max_seq_len = array_ops.shape(inputs)[1]
  num_tags = array_ops.shape(inputs)[2]

  flattened_inputs = array_ops.reshape(inputs, [-1])

  offsets = array_ops.expand_dims(
      math_ops.range(batch_size) * max_seq_len * num_tags, 1)
  offsets += array_ops.expand_dims(math_ops.range(max_seq_len) * num_tags, 0)
  # Use int32 or int64 based on tag_indices' dtype.
  if tag_indices.dtype == dtypes.int64:
    offsets = math_ops.to_int64(offsets)
  flattened_tag_indices = array_ops.reshape(offsets + tag_indices, [-1])

  unary_scores = array_ops.reshape(
      array_ops.gather(flattened_inputs, flattened_tag_indices),
      [batch_size, max_seq_len])

  masks = array_ops.sequence_mask(sequence_lengths,
                                  maxlen=array_ops.shape(tag_indices)[1],
                                  dtype=dtypes.float32)

  unary_scores = math_ops.reduce_sum(unary_scores * masks, 1)
  return unary_scores

#1.1.2 crf_binary_score：计算公式(2)中的二元分数。

二元分数中涉及 yi,yi+1 ，因此涉及到转移矩阵transition_params，定义在#1.的函数中，如果我们没有传入，则内部会帮我们创建，作为一个trainable的parameter，随模型一起训练。这里假设转移矩阵为：

t r a n s i t i o n_p a r a m s = ⎡ ⎣ ⎢ - 3 31 542 - 2 13 ⎤ ⎦ ⎥

在实现中并没有加入start和stop，不影响结果。同样是刚才的例子， tag_indices=[1,2,2,0] ，那么binary score = 1->2的score + 2->2的score = 1 + 3 = 4。同样，我们是在2D矩阵中计算的，源码中将2D矩阵flatten到1D去gather每个位置的score，最后求和得到最终结果。

def crf_binary_score(tag_indices, sequence_lengths, transition_params):

  # Get shape information.
  num_tags = transition_params.get_shape()[0]
  num_transitions = array_ops.shape(tag_indices)[1] - 1

  # Truncate by one on each side of the sequence to get the start and end
  # indices of each transition.
  start_tag_indices = array_ops.slice(tag_indices, [0, 0],
                                      [-1, num_transitions])
  end_tag_indices = array_ops.slice(tag_indices, [0, 1], [-1, num_transitions])

  # Encode the indices in a flattened representation.
  flattened_transition_indices = start_tag_indices * num_tags + end_tag_indices
  flattened_transition_params = array_ops.reshape(transition_params, [-1])

  # Get the binary scores based on the flattened representation.
  binary_scores = array_ops.gather(flattened_transition_params,
                                   flattened_transition_indices)

  masks = array_ops.sequence_mask(sequence_lengths,
                                  maxlen=array_ops.shape(tag_indices)[1],
                                  dtype=dtypes.float32)
  truncated_masks = array_ops.slice(masks, [0, 1], [-1, -1])
  binary_scores = math_ops.reduce_sum(binary_scores * truncated_masks, 1)
  return binary_scores

#1.2 crf_log_norm：计算公式(4)中的第二项log(sum)，重点在CrfForwardRnnCell中，通过前向传播来计算log(sum)。

def crf_log_norm(inputs, sequence_lengths, transition_params):
  """Computes the normalization for a CRF.

  Args:
    inputs: A [batch_size, max_seq_len, num_tags] tensor of unary potentials
        to use as input to the CRF layer.
    sequence_lengths: A [batch_size] vector of true sequence lengths.
    transition_params: A [num_tags, num_tags] transition matrix.
  Returns:
    log_norm: A [batch_size] vector of normalizers for a CRF.
  """
  # Split up the first and rest of the inputs in preparation for the forward
  # algorithm.
  first_input = array_ops.slice(inputs, [0, 0, 0], [-1, 1, -1])
  first_input = array_ops.squeeze(first_input, [1])

  # If max_seq_len is 1, we skip the algorithm and simply reduce_logsumexp over
  # the "initial state" (the unary potentials).
  def _single_seq_fn():
    return math_ops.reduce_logsumexp(first_input, [1])

  def _multi_seq_fn():
    """Forward computation of alpha values."""
    rest_of_input = array_ops.slice(inputs, [0, 1, 0], [-1, -1, -1])

    # Compute the alpha values in the forward algorithm in order to get the
    # partition function.
    forward_cell = CrfForwardRnnCell(transition_params)
    _, alphas = rnn.dynamic_rnn(
        cell=forward_cell,
        inputs=rest_of_input,
        sequence_length=sequence_lengths - 1,
        initial_state=first_input,
        dtype=dtypes.float32)
    log_norm = math_ops.reduce_logsumexp(alphas, [1])
    return log_norm

  max_seq_len = array_ops.shape(inputs)[1]
  return control_flow_ops.cond(pred=math_ops.equal(max_seq_len, 1),
                               true_fn=_single_seq_fn,
                               false_fn=_multi_seq_fn)

前向计算log(sum)，对应 (5)概率计算一节的前向算法的计算，是在log空间完成的，__call__方法中使用reduce_logsumexp来计算，在sumexp之后套了一层log，保证计算在log空间完成。具体的细节可以参见博文《 Neural Architectures for Named Entity Recognition》中的 crf 层详解。

class CrfForwardRnnCell(rnn_cell.RNNCell):

  def __init__(self, transition_params):
    self._transition_params = array_ops.expand_dims(transition_params, 0)
    self._num_tags = transition_params.get_shape()[0].value

  def __call__(self, inputs, state, scope=None):
    state = array_ops.expand_dims(state, 2)

    # This addition op broadcasts self._transitions_params along the zeroth
    # dimension and state along the second dimension. This performs the
    # multiplication of previous alpha values and the current binary potentials
    # in log space.
    transition_scores = state + self._transition_params
    new_alphas = inputs + math_ops.reduce_logsumexp(transition_scores, [1])

    # Both the state and the output of this RNN cell contain the alphas values.
    # The output value is currently unused and simply satisfies the RNN API.
    # This could be useful in the future if we need to compute marginal
    # probabilities, which would require the accumulated alpha values at every
    # time step.
    return new_alphas, new_alphas

由于这个__call__方法的计算看起来不那么直观，我写了一版稍微直观一点的：

def crf_log_norm(inputs, sequence_lengths, transition_params):
  first_input = array_ops.slice(inputs, [0, 0, 0], [-1, 1, -1])
  first_input = array_ops.squeeze(first_input, [1])

  def _multi_seq_fn():
    rest_of_input = array_ops.slice(inputs, [0, 1, 0], [-1, -1, -1])

    forward_cell = CrfForwardRnnCell(transition_params)
    _, alphas = rnn.dynamic_rnn(
        cell=forward_cell,
        inputs=rest_of_input,
        sequence_length=sequence_lengths - 1,
        initial_state=math_ops.exp(first_input),                # alpha_0
        dtype=dtypes.float32)
    log_norm = math_ops.log(math_ops.reduce_sum(alphas, [1]))   # 最后取log
    return log_norm

  return _multi_seq_fn()

class CrfForwardRnnCell(rnn_cell.RNNCell):
  def __init__(self, transition_params):
    self._transition_params = transition_params
    self._num_tags = transition_params.get_shape()[0].value

  # 前向算法的计算
  def __call__(self, inputs, state, scope=None):

    # 计算矩阵M_{i+1}(x)
    mi = math_ops.exp(inputs + self._transition_params) 

    # 计算alpha_{i+1}(x) = alpha_i(x) * M_{i+1}(x)
    new_alphas = math_ops.matmul(state, mi) 

    return new_alphas, new_alphas

其实实现的方式挺多的，如果有人知道源码中为何要通过reduce_logsumexp来计算的话，也烦请告知下。

#1.3 viterbi_decode：用于预测，输出具有最大 p(y∣X) 条件概率的标记序列 y ，和前面HMM中的viterbi的实现思路类似，这里就不展开了。

def viterbi_decode(score, transition_params):
  trellis = np.zeros_like(score)
  backpointers = np.zeros_like(score, dtype=np.int32)
  trellis[0] = score[0]

  for t in range(1, score.shape[0]):
    v = np.expand_dims(trellis[t - 1], 1) + transition_params
    trellis[t] = score[t] + np.max(v, 0)
    backpointers[t] = np.argmax(v, 0)

  viterbi = [np.argmax(trellis[-1])]
  for bp in reversed(backpointers[1:]):
    viterbi.append(bp[viterbi[-1]])
  viterbi.reverse()

  viterbi_score = np.max(trellis[-1])
  return viterbi, viterbi_score

4. 总结

至此，我们大致了解了LSTM+CRF具体是怎么实现了。自LSTM+CRF的结构出现后，现在做NER的问题基本都是在原架构的基础上做了些改动，当时在搜Paper时也没搜到效果更好的方案，可能是CRF层确实很强力。

另外，tensorflow确实帮我们封装了一些很好用的方法，即使我们不懂原理但只要会调就好了，岂不是像煮青蛙一样。

So we’II still have to go to deeper levels if we’re trying something new…

5. 参考

《统计学习方法》10、11章
统计学习方法勘误 link
介绍HMM的两篇文章，通俗易懂。link1 link2
介绍Viterbe算法的文章。link
《条件随机场理论综述》论文。link
针对《统计学习方法》CRF相关部分的纠错和更为详细的说明。 link
《Neural Architectures for Named Entity Recognition》论文，使用LSTM+CRF结构做NER link
Tensorflow的CRF实现源码详解 link

你可能感兴趣的:(深度学习,机器学习)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
python中zeros用法_Python中的numpy.zeros()用法江平舟 python中zeros用法
numpy.zeros()函数是最重要的函数之一,广泛用于机器学习程序中。此函数用于生成包含零的数组。numpy.zeros()函数提供给定形状和类型的新数组,并用零填充。句法numpy.zeros(shape,dtype=float,order='C'参数形状：整数或整数元组此参数用于定义数组的尺寸。此参数用于我们要在其中创建数组的形状,例如(3,2)或2。dtype：数据类型(可选)此参数用于
深度学习-点击率预估-研究论文2024-09-14速读 sp_fyf_2024 深度学习人工智能
深度学习-点击率预估-研究论文2024-09-14速读1.DeepTargetSessionInterestNetworkforClick-ThroughRatePredictionHZhong,JMa,XDuan,SGu,JYao-2024InternationalJointConferenceonNeuralNetworks,2024深度目标会话兴趣网络用于点击率预测摘要：这篇文章提出了一种新
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
【中国国际航空-注册_登录安全分析报告】风控牛验证码接口安全评测系列安全行为验证极验网易易盾智能手机
前言由于网站注册入口容易被黑客攻击，存在如下安全问题：1.暴力破解密码，造成用户信息泄露2.短信盗刷的安全问题，影响业务及导致用户投诉3.带来经济损失，尤其是后付费客户，风险巨大，造成亏损无底洞所以大部分网站及App都采取图形验证码或滑动验证码等交互解决方案，但在机器学习能力提高的当下，连百度这样的大厂都遭受攻击导致点名批评，图形验证及交互验证方式的安全性到底如何？请看具体分析一、中国国际航空PC
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
损失函数与反向传播 Star_. PyTorch pytorch 深度学习 python
损失函数定义与作用损失函数(lossfunction)在深度学习领域是用来计算搭建模型预测的输出值和真实值之间的误差。1.损失函数越小越好2.计算实际输出与目标之间的差距3.为更新输出提供依据（反向传播)常见的损失函数回归常见的损失函数有：均方差（MeanSquaredError，MSE）、平均绝对误差（MeanAbsoluteErrorLoss，MAE）、HuberLoss是一种将MSE与MAE
七.正则化愿风去了
吴恩达机器学习之正则化（Regularization）http://www.cnblogs.com/jianxinzhou/p/4083921.html从数学公式上理解L1和L2https://blog.csdn.net/b876144622/article/details/81276818虽然在线性回归中加入基函数会使模型更加灵活，但是很容易引起数据的过拟合。例如将数据投影到30维的基函数上，模
机器学习-------数据标准化罔闻_spider 数据分析算法机器学习人工智能
什么是归一化，它与标准化的区别是什么？一作用在做训练时，需要先将特征值与标签标准化，可以防止梯度防炸和过拟合；将标签标准化后，网络预测出的数据是符合标准正态分布的—StandarScaler()，与真实值有很大差别。因为StandarScaler()对数据的处理是（真实值-平均值）/标准差。同时在做预测时需要将输出数据逆标准化提升模型精度：标准化/归一化使不同维度的特征在数值上更具比较性，提高分类
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
【深度学习】训练过程中一个OOM的问题，太难查了 weixin_40293999 深度学习深度学习人工智能
现象：各位大佬又遇到过ubuntu的这个问题么？现象是在训练过程中，ssh上不去了，能ping通，没死机，但是ubunutu的pc侧的显示器，鼠标啥都不好用了。只能重启。问题原因：OOM了95G，尼玛！！！！pytorch爆内存了，然后journald假死了，在journald被watchdog干掉之后，系统就崩溃了。这种规模的爆内存一般，即使被oomkill了，也要卡半天的，确实会这样，能不能配
两种方法判断Python的位数是32位还是64位 sanqima Python编程电脑 python 开发语言
Python从1991年发布以来，凭借其简洁、清晰、易读的语法、丰富的标准库和第三方工具，在Web开发、自动化测试、人工智能、图形识别、机器学习等领域发展迅猛。 Python是一种胶水语言，通过Cython库与C/C++语言进行链接，通过Jython库与Java语言进行链接。 Python是跨平台的，可运行在多种操作系统上，包括但不限于Windows、Linux和macOS。这意味着用Py
使用最大边际相关性(MMR)选择示例：提高AI模型的多样性和相关性 aehrutktrjk 人工智能 easyui 前端 python
使用最大边际相关性(MMR)选择示例：提高AI模型的多样性和相关性引言在机器学习和自然语言处理领域，选择合适的训练示例对模型性能至关重要。最大边际相关性(MaximalMarginalRelevance,MMR)是一种优秀的示例选择方法，它不仅考虑了示例与输入的相关性，还注重保持所选示例之间的多样性。本文将深入探讨如何使用MMR来选择示例，以提高AI模型的性能和泛化能力。什么是最大边际相关性(MM
LangChain集成指南:如何利用多样化的AI提供商 aehrutktrjk 人工智能 langchain python
LangChain集成指南:如何利用多样化的AI提供商引言在人工智能和机器学习领域,LangChain已成为一个强大而灵活的框架,允许开发者轻松集成各种AI服务提供商。本文将深入探讨LangChain的集成能力,介绍如何利用不同的AI提供商来增强你的应用程序,并提供实用的代码示例。LangChain集成概览LangChain支持多种AI提供商的集成,这些集成可以分为两类:独立包集成:这些提供商有独
jdk tomcat 环境变量配置 Array_06 java jdk tomcat
Win7 下如何配置java环境变量 1。准备jdk包，win7系统，tomcat安装包（均上网下载即可） 2。进行对jdk的安装，尽量为默认路径（但要记住啊！！以防以后配置用。。。） 3。分别配置高级环境变量。电脑-->右击属性-->高级环境变量-->环境变量。分别配置 : path &nbs
Spring调SDK包报java.lang.NoSuchFieldError错误 bijian1013 java spring
在工作中调另一个系统的SDK包，出现如下java.lang.NoSuchFieldError错误。 org.springframework.web.util.NestedServletException: Handler processing failed; nested exception is java.l
LeetCode[位运算] - #136 数组中的单一数 Cwind java 题解位运算 LeetCode Algorithm
原题链接：#136 Single Number 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现两次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：题目限定了线性的时间复杂度，同时不使用额外的空间，即要求只遍历数组一遍得出结果。由于异或运算 n XOR n = 0, n XOR 0 = n，故将数组中的每个元素进
qq登陆界面开发 15700786134 qq
今天我们来开发一个qq登陆界面，首先写一个界面程序，一个界面首先是一个Frame对象，即是一个窗体。然后在这个窗体上放置其他组件。代码如下： public class First { public void initul(){ jf=ne
Linux的程序包管理器RPM 被触发 linux
在早期我们使用源代码的方式来安装软件时，都需要先把源程序代码编译成可执行的二进制安装程序，然后进行安装。这就意味着每次安装软件都需要经过预处理-->编译-->汇编-->链接-->生成安装文件--> 安装，这个复杂而艰辛的过程。为简化安装步骤，便于广大用户的安装部署程序，程序提供商就在特定的系统上面编译好相关程序的安装文件并进行打包，提供给大家下载，我们只需要根据自己的
socket通信遇到EOFException 肆无忌惮_ EOFException
java.io.EOFException at java.io.ObjectInputStream$PeekInputStream.readFully(ObjectInputStream.java:2281) at java.io.ObjectInputStream$BlockDataInputStream.readShort(ObjectInputStream.java:
基于spring的web项目定时操作知了ing java Web
废话不多说，直接上代码，很简单配置一下项目启动就行 1，web.xml <?xml version="1.0" encoding="UTF-8"?> <web-app xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns="h
树形结构的数据库表Schema设计矮蛋蛋 schema
原文地址： http://blog.csdn.net/MONKEY_D_MENG/article/details/6647488 程序设计过程中，我们常常用树形结构来表征某些数据的关联关系，如企业上下级部门、栏目结构、商品分类等等，通常而言，这些树状结构需要借助于数据库完成持久化。然而目前的各种基于关系的数据库，都是以二维表的形式记录存储数据信息，
maven将jar包和源码一起打包到本地仓库 alleni123 maven
http://stackoverflow.com/questions/4031987/how-to-upload-sources-to-local-maven-repository <project> ... <build> <plugins> <plugin> <groupI
java IO操作与 File 获取文件或文件夹的大小，可读，等属性！！！百合不是茶
类 File File是指文件和目录路径名的抽象表示形式。 1，何为文件：标准文件（txt doc mp3...）目录文件（文件夹）虚拟内存文件 2，File类中有可以创建文件的 createNewFile（）方法,在创建新文件的时候需要try{} catch(）{}因为可能会抛出异常；也有可以判断文件是否是一个标准文件的方法isFile();这些防抖都
Spring注入有继承关系的类（2） bijian1013 java spring
被注入类的父类有相应的属性，Spring可以直接注入相应的属性，如下所例：1.AClass类 package com.bijian.spring.test4; public class AClass { private String a; private String b; public String getA() { retu
30岁转型期你能否成为成功人士 bijian1013 成长励志
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
【Velocity四】Velocity与Java互操作 bit1129 velocity
Velocity出现的目的用于简化基于MVC的web应用开发，用于替代JSP标签技术，那么Velocity如何访问Java代码.本篇继续以Velocity三http://bit1129.iteye.com/blog/2106142中的例子为基础， POJO package com.tom.servlets; public
【Hive十一】Hive数据倾斜优化 bit1129 hive
什么是Hive数据倾斜问题操作：join,group by,count distinct 现象：任务进度长时间维持在99%（或100%），查看任务监控页面，发现只有少量（1个或几个）reduce子任务未完成；查看未完成的子任务，可以看到本地读写数据量积累非常大，通常超过10GB可以认定为发生数据倾斜。原因：key分布不均匀倾斜度衡量：平均记录数超过50w且
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua csrf
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-3.求子数组的最大和 bylijinnan java
package beautyOfCoding; public class MaxSubArraySum { /** * 3.求子数组的最大和题目描述：输入一个整形数组，数组里有正数也有负数。数组中连续的一个或多个整数组成一个子数组，每个子数组都有一个和。求所有子数组的和的最大值。要求时间复杂度为O(n)。例如输入的数组为1, -2, 3, 10, -4,
Netty源码学习-FileRegion bylijinnan java netty
今天看org.jboss.netty.example.http.file.HttpStaticFileServerHandler.java 可以直接往channel里面写入一个FileRegion对象，而不需要相应的encoder： //pipeline（没有诸如“FileRegionEncoder”的handler）： public ChannelPipeline ge
使用ZeroClipboard解决跨浏览器复制到剪贴板的问题 cngolon 跨浏览器复制到粘贴板 Zero Clipboard
Zero Clipboard的实现原理 Zero Clipboard 利用透明的Flash让其漂浮在复制按钮之上，这样其实点击的不是按钮而是 Flash ，这样将需要的内容传入Flash，再通过Flash的复制功能把传入的内容复制到剪贴板。 Zero Clipboard的安装方法首先需要下载 Zero Clipboard的压缩包，解压后把文件夹中两个文件：ZeroClipboard.js
单例模式 cuishikuan 单例模式
第一种（懒汉，线程不安全）： public class Singleton { 2 private static Singleton instance; 3 pri
spring+websocket的使用 dalan_123
一、spring配置文件 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3.or
细节问题：ZEROFILL的用法范围。 dcj3sjt126com mysql
1、zerofill把月份中的一位数字比如1，2，3等加前导0 mysql> CREATE TABLE t1 (year YEAR(4), month INT(2) UNSIGNED ZEROFILL, -> day
Android开发10——Activity的跳转与传值 dcj3sjt126com Android开发
Activity跳转与传值，主要是通过Intent类，Intent的作用是激活组件和附带数据。一、Activity跳转方法一Intent intent = new Intent(A.this, B.class); startActivity(intent) 方法二Intent intent = new Intent();intent.setCla
jdbc 得到表结构、主键 eksliang jdbc 得到表结构、主键
转自博客：http://blog.csdn.net/ocean1010/article/details/7266042 假设有个con DatabaseMetaData dbmd = con.getMetaData(); rs = dbmd.getColumns(con.getCatalog(), schema, tableName, null); rs.getSt
Android 应用程序开关GPS gqdy365 android
要在应用程序中操作GPS开关需要权限： <uses-permission android:name="android.permission.WRITE_SECURE_SETTINGS" /> 但在配置文件中添加此权限之后会报错，无法再eclipse里面正常编译，怎么办？ 1、方法一：将项目放到Android源码中编译； 2、方法二：网上有人说cl
Windows上调试MapReduce zhiquanliu mapreduce
1.下载hadoop2x-eclipse-plugin https://github.com/winghc/hadoop2x-eclipse-plugin.git 把 hadoop2.6.0-eclipse-plugin.jar 放到eclipse plugin 目录中。 2.下载 hadoop2.6_x64_.zip http://dl.iteye.com/topics/download/d2b
如何看待一些知名博客推广软文的行为？ justjavac 博客
本文来自我在知乎上的一个回答：http://www.zhihu.com/question/23431810/answer/24588621 互联网上的两种典型心态：当初求种像条狗，如今撸完嫌人丑当初搜贴像条犬，如今读完嫌人软你为啥感觉不舒服呢？难道非得要作者把自己的劳动成果免费给你用，你才舒服？就如同 Google 关闭了 Gooled Reader，那是
sql优化总结 macroli sql
为了是自己对sql优化有更好的原则性，在这里做一下总结，个人原则如有不对请多多指教。谢谢！要知道一个简单的sql语句执行效率，就要有查看方式，一遍更好的进行优化。一、简单的统计语句执行时间 declare @d datetime ---定义一个datetime的变量set @d=getdate() ---获取查询语句开始前的时间select user_id
Linux Oracle中常遇到的一些问题及命令总结超声波 oracle linux
1.linux更改主机名 (1)#hostname oracledb　　　　临时修改主机名 (2) vi /etc/sysconfig/network 　　修改hostname (3) vi /etc/hosts　　　　　　　　修改IP对应的主机名 2.linux重启oracle实例及监听的各种方法（注意操作的顺序应该是先监听，后数据库实例） &nbs
hive函数大全及使用示例 superlxw1234 hadoop hive函数
具体说明及示例参见附件文档。文档目录：目录一、关系运算： 4 1. 等值比较: = 4 2. 不等值比较: <> 4 3. 小于比较: < 4 4. 小于等于比较: <= 4 5. 大于比较: > 5 6. 大于等于比较: >= 5 7. 空值判断: IS NULL 5
Spring 4.2新特性-使用@Order调整配置类加载顺序 wiselyman spring 4
4.1 @Order Spring 4.2 利用@Order控制配置类的加载顺序 4.2 演示两个演示bean package com.wisely.spring4_2.order; public class Demo1Service { } package com.wisely.spring4_2.order; public class