迷雾总会解

机器学习-63-Structured Learning-04-Sequence Labeling Problem(结构化学习-序列标注(HMM,CRF))

文章目录

- Sequence Labeling Problem
- - Sequence Labeling
  - - Definition
    - Application
    - Example Task：POS tagging
  - Outline(大纲)
  - HMM
  - - 介绍
    - 什么样的问题需要HMM模型
    - How you generate a sentence?
    - - step 1
      - step 2
    - HMM的数学表达
    - Estimating the probabilities(概率估计)
    - How to do POS Tagging?(如何进行词性标记)
    - Viterbi Algorithm(维特比算法)
    - Summary(总结)
    - Drawbacks(缺点)
  - Conditional Random Field (CRF,条件随机场)
  - - P(x,y) for CRF
    - Feature Vector
    - Training Criterion
    - Inference
    - CRF vs HMM
    - - Synthetic Data(合成数据)
    - Summary
  - Structured Perceptron/SVM
  - - Structured Perceptron
    - Structured Perceptron vs CRF
    - Structured SVM
    - Structured SVM – Error Function
    - 不同方法的比较
  - 为什么不用RNN
  - 把传统方法和深度学习整合在一起
  - Concluding Remarks

Sequence Labeling Problem

上一章节我们讲到结构化学习的一种方法—结构化支持向量机，本章学习另一种结构化学习的方法—序列标注。

Sequence Labeling

Definition

$\rightarrow Y$

序列标注的问题可以理解为：机器学习所要寻找的目标函数的输入是一个序列，输出也为一个序列，并且假设输入输出的序列长度相同，即输入可以写成序列向量的形式，输出也为序列向量。该任务可以利用循环神经网络来解决，但本章节我们可以基于结构化学习的其它方法进行解决(两步骤，三问题)。

Application

机器学习-63-Structured Learning-04-Sequence Labeling Problem(结构化学习-序列标注(HMM,CRF))_第2张图片

命名实体识别：就是给定一个句子来识别这个句子中的人名，地名，组织名称等信息

比如：

给定一个句子：“Harry Potter is a student of Hogwarts and lived on Privet Drive.”

就可以得出：Harry Potter是人名，Hogwarts 是组织名，Privet Drive是人名

但是对于中文的抽取很麻烦，例如下面两句要抽取人名：

楊公再興之神
馮氏埋香之塚

Example Task：POS tagging

POS tagging：标记一个句子中每个word的词性。

词性有很多的类别，名词下面就可以分成proper（专有名词）、common（一般名词）。动词可以分成main（主动词），modals（情态动词）等等。

机器学习-63-Structured Learning-04-Sequence Labeling Problem(结构化学习-序列标注(HMM,CRF))_第3张图片

现在要做的就是输入一个句子(比如，John saw the saw)，系统将会标记John为专有名词，saw为动词，the为限定词，saw为名词；

词性标注是自然语言处理中非常典型和重要的task，是许多文字理解的基石，比如要先有词性标注，后续才能比较方便地做句法分析和词义消歧，或者抽key word（一般是名词），自动检测出哪些词汇是名词的话，就可以先去掉一些不可能的词汇。

机器学习-63-Structured Learning-04-Sequence Labeling Problem(结构化学习-序列标注(HMM,CRF))_第4张图片

如果今天找到一个字典，告诉我们说每个词汇的词性是什么，那不就解决词性标注的问题了吗？写一个hash table，hash table告诉我们说“the”的output是“D"，那词性标注的问题不就解决了吗？这里困难的点是，词性标注光靠查表是不够的，要知道一整个sequence的信息才有可能把每一个word的词性找出来。

第一个"saw"更有可能是动词V，而不是名词N；
然而，第二个"saw"是名词N，因为名词N更可能跟在冠词“the”后面。

所以要把词性标注做好的话，必须考虑整个sequence的信息。

Outline(大纲)

机器学习-63-Structured Learning-04-Sequence Labeling Problem(结构化学习-序列标注(HMM,CRF))_第5张图片

HMM

介绍

隐马尔科夫模型（Hidden Markov Model，以下简称HMM）是比较经典的机器学习模型了，它在语言识别，自然语言处理，模式识别等领域得到广泛的应用。当然，随着目前深度学习的崛起，尤其是RNN，LSTM等神经网络序列模型的火热，HMM的地位有所下降。但是作为一个经典的模型，学习HMM的模型和对应算法，对我们解决问题建模的能力提高以及算法思路的拓展还是很好的。本文是HMM系列的第一篇，关注于HMM模型的基础。

什么样的问题需要HMM模型

首先我们来看看什么样的问题解决可以用HMM模型。使用HMM模型时我们的问题一般有这两个特征：

我们的问题是基于序列的，比如时间序列，或者状态序列。
们的问题中有两类数据，一类序列数据是可以观测到的，即观测序列；而另一类数据是不能观察到的，即隐藏状态序列，简称状态序列。

有了这两个特征，那么这个问题一般可以用HMM模型来尝试解决。这样的问题在实际生活中是很多的。比如：我现在在打字写博客，我在键盘上敲出来的一系列字符就是观测序列，而我实际想写的一段话就是隐藏序列，输入法的任务就是从敲入的一系列字符尽可能的猜测我要写的一段话，并把最可能的词语放在最前面让我选择，这就可以看做一个HMM模型了。再举一个，我在和你说话，我发出的一串连续的声音就是观测序列，而我实际要表达的一段话就是状态序列，你大脑的任务，就是从这一串连续的声音中判断出我最可能要表达的话的内容。

从这些例子中，我们可以发现，HMM模型可以无处不在。但是上面的描述还不精确，下面我们用精确的数学符号来表述我们的HMM模型。

How you generate a sentence?

机器学习-63-Structured Learning-04-Sequence Labeling Problem(结构化学习-序列标注(HMM,CRF))_第6张图片

我们如何生成一个句子呢?

这里主要是两个步骤：

step1：

当你想要说一句话的时候，你第一件在心里做的事情是先产生一个POS sequence，这个sequence是根据你脑中的grammar产生的（你大脑中对人类语言的理解）。

step2：

根据每一个tag（PN、V、D、N），去找一个符合tag的词汇，变成一个word sequence。文字和词性的关系可以从一个词典中得到。

step 1

当你想要说一句话的时候，你第一件在心里做的事情是先产生一个POS sequence，这个sequence是根据你脑中的grammar产生的（你大脑中对人类语言的理解）。

机器学习-63-Structured Learning-04-Sequence Labeling Problem(结构化学习-序列标注(HMM,CRF))_第7张图片

实际上这就是一个马尔科夫链，例如：

要说一句话，放在句首的0.5的几率是冠词，0.4的几率是专有名词，0.1的几率是动词

这里随机sample一下，假设第一个词是专有名词PN，PN后面80%几率是动词V，10%几率是冠词，10%几率直接结束。然后再随机sample一下。一直往下，直到end。

注意：每一个词后面接什么词合起来的几率应该是1，不是1就是ppt有问题。

当我们要计算"PN V D N"这样的一个序列的概率：
$\ \ \ V\ \ \ D \ \ \ N") = 0.4 × 0.8 × 0.25 × 0.95 ×0.1$

step 2

根据我们脑袋中的词典，把相应的词根据词性放到相应位置。

机器学习-63-Structured Learning-04-Sequence Labeling Problem(结构化学习-序列标注(HMM,CRF))_第8张图片

根据每一个tag（PN、V、D、N），在词典中找一个符合tag的词汇，变成一个word sequence。

名词罐子里面有五个词，sample出John的几率是0.2，同理：得到saw的几率是0.17，the的几率是0.63，最后saw的几率是0.17，根据词性这句话出现的几率为：
$\ \ saw \ \ the \ \ saw"|"PN \ \ V \ \ D \ \ N") = 0.2×0.17×0.63×0.17$

HMM的数学表达

机器学习-63-Structured Learning-04-Sequence Labeling Problem(结构化学习-序列标注(HMM,CRF))_第9张图片

HMM实际上就是在描述下面这件事情：

数学表达为：
$P (x, y) = P (y) P (x ∣ y)$
来看看右边分别怎么算的：
$P (y) = P (P N ∣ s t a r t) \times P (V ∣ P N) \times P (D ∣ V) \times P (N ∣ D)$

$P (x ∣ y) = P (J o h n ∣ P N) \times P (s a w ∣ V) \times P (t h e ∣ D) \times P (s a w ∣ N)$

用更加一般化的数学表达HMM：

机器学习-63-Structured Learning-04-Sequence Labeling Problem(结构化学习-序列标注(HMM,CRF))_第10张图片

输入： $x=x_{1}, x_{2} \cdots x_{L}$

输出： $y=y_{1}, y_{2} \cdots y_{L}$

Step1 计算y的概率就是各个词性出现的条件概率积，这个条件概率称为 Transition probability(转移概率)
$P(y)=P\left(y_{1} | s t a r t\right)\times \prod_{l=1}^{L-1} P\left(y_{l+1} | y_{l}\right) \times P\left(e n d | y_{L}\right) \tag{1}$
Step2 会计算x|y的概率，是词性产生word的条件概率积，这个条件概率称为 Emission probability(发散概率)
$y)=\prod_{l=1}^{L} P\left(x_{l} | y_{l}\right) \tag{2}$

写到一起：
$P(y)=P\left(y_{1} | s t a r t\right)\times \prod_{l=1}^{L-1} P\left(y_{l+1} | y_{l}\right) \times P\left(e n d | y_{L}\right) × \prod_{l=1}^{L} P\left(x_{l} | y_{l}\right) \tag{3}$
那么问题来了，怎么算这两个几率呢？

Estimating the probabilities(概率估计)

机器学习-63-Structured Learning-04-Sequence Labeling Problem(结构化学习-序列标注(HMM,CRF))_第11张图片

怎么算转移概率、发射概率？

这个就要从训练数据中得到，先收集一大堆的训练数据（sentence），每个sentence词汇都标注好词性了。每一个sentence就是一笔training data。

机器学习-63-Structured Learning-04-Sequence Labeling Problem(结构化学习-序列标注(HMM,CRF))_第12张图片

那么算公式(1)中的 $P(y_{l+1}|y_l)$ 这个概率就是计算：
$\frac{P\left(y_{l+1}=s^{\prime} | y_{l}=s\right)}{\left(s \text { and } s^{\prime} \text { are tags }\right)}=\frac{\operatorname{count}\left(s \rightarrow s^{\prime}\right)}{\operatorname{count}(s)}$
s和s ′ 是tag（词性标签）， $c o u n t (s)$ 就是在训练集中s出现的次数， $count(s\rightarrow s')$ 就是在训练集中s后面接s’的次数。

算公式(2)中的 $P\left(x_{l} | y_{l}\right)$ 这个概率就是计算：
$\frac{P\left(x_{l}=t | y_{l}=s\right)}{(s \text { is tag, and } t \text { is word })}=\frac{\operatorname{count}(s \rightarrow t)}{\operatorname{count}(s)}$
s是tag，t是word， $P(x_l=t|y_i=s)$ 的意思就是给一个词性，产生一个词汇的概率。 $c o u n t (s)$ 就是在训练集中s出现的次数， $count(s\rightarrow t)$ 在训练集中词性为s且词汇为t的次数。

讲到这里，老师解释了一下HMM在处理语音序列的时候表达式不是这样的，处理语音序列的时候，HMM里面的都是一个个高斯分布形成的GMM，不是像这里用统计的方法算出来的，GMM要用EM来解，这里不用。为什么？老师也没说，自己想。。。

How to do POS Tagging?(如何进行词性标记)

有两个上面算出来的概率之后，要做什么呢？

机器学习-63-Structured Learning-04-Sequence Labeling Problem(结构化学习-序列标注(HMM,CRF))_第13张图片

回到原来的问题，给一个句子x，要找y，x是我们看得到的，而y是隐藏的，这也就是为什么叫Hidden的原因！那找出y就要靠 $P (x, y)$

用概率来说就是，在给定x 的条件下出现的几率的y 就是我们要求的y：
$\arg \max\limits_{y\in Y} P(y|x)$
上式可以写成：
$\arg \max\limits_{y\in Y} \frac{P(x,y)}{P(x)}$
由于分母P ( x ) 是固定的，所以上式等价于：
$\arg \max\limits_{y\in Y} P(x,y)$
这个最有可能的y就是穷举所有的y，然后带入公式P ( x , y )里面，然后找到最大的那个~！，我们把它记为 $\tilde{y}$

下面来分析一下这个做法：

Viterbi Algorithm(维特比算法)

机器学习-63-Structured Learning-04-Sequence Labeling Problem(结构化学习-序列标注(HMM,CRF))_第14张图片

从前面我们可以知道给定一个x真正要求的是：
$\tilde{y} = \arg \max\limits_{y\in Y} P(x,y)$
如果是穷举所有可能的情况，那么假设现在有s个词性，sequnce长度是L，那有可能的y就是 $s^L$ 个！这个是非常大的数量。

但是用Viterbi Algorithm来解决这个问题，其算法时间复杂度为： $O(LS^2)$ ！

那么什么是Viterbi-Algorithm算法呢？

维特比算法是一个特殊但应用最广的动态规划算法。利用动态规划，可以解决任何一个图中的最短路径问题。而维特比算法是针对一个特殊的图-篱笆网了（Lattice）的有向图最短路径问题而提出来的。它之所以重要，是因为凡是使用隐马尔科夫模型描述的问题都可以用它解码，包括当前的数字通信、语音识别、机器翻译、拼音转汉字、分词等。

更多的就不介绍了，可以看这篇文章： Viterbi-Algorithm(维特比算法)

Summary(总结)

HMM的过程：

机器学习-63-Structured Learning-04-Sequence Labeling Problem(结构化学习-序列标注(HMM,CRF))_第15张图片

HMM也是结构化学习的一种方法，就要回答三个问题：

Q1：评估
$F (x, y) = P (x, y) = P (y) P (x ∣ y)$
该评估函数可以理解为x与y的联合概率。
Q2:推理
$\tilde{y}=\arg \max _{y \in \mathbb{Y}} P(x, y)$
定一个x，求出最大的y，使得我们定义函数的值达到最大(即维特比算法)。
Q3：训练

从训练数据集中统计得到P(y)与P(x | y)

该过程就是计算几率的问题或是统计语料库中词频的问题。

Drawbacks(缺点)

HMM会有什么问题？

机器学习-63-Structured Learning-04-Sequence Labeling Problem(结构化学习-序列标注(HMM,CRF))_第16张图片

在做Q2推理的时候，我们是把让P(x,y)最大的y作为output：
$\tilde{y}=\arg \max _{y \in \mathbb{Y}} P(x, y)$
如果我们要让HMM得到正确的结果，我们会希望正确的 $\tilde{y}$ ：
$\hat{y}) : P(x, \hat{y})>P(x, y)$
但是HMM可以做到这件事情吗？

HMM可能无法做到这件事情，在HMM训练中，你会发现它并没有保证可以让错误的y的P(x,y)一定是小的。

可能你会很懵逼，我们这里举一个例子来说明一下：

假设从语料库中的数据是统计出来(如上图右边所示)：

转移概率
- N后面接V的概率是9/10： $\frac{9}{10}$
- N后面接D的概率是1/10： $\frac{1}{10}$
分散概率
- V词性是word a的概率是1/2： $\frac{1}{2}$
- V词性是word c的概率是1/2： $\frac{1}{2}$
- D词性是word a的概率是1： $P (a ∣ D) = 1$

可以看到，每一种词性的转移概率和发散概率各自的总和是1！

机器学习-63-Structured Learning-04-Sequence Labeling Problem(结构化学习-序列标注(HMM,CRF))_第17张图片

假设我们知道在 $l - 1$ 时刻词性标记为N，即 $\mathrm{y}_{\mathrm{l}-1}=\mathrm{N}$ ，在 $l$ 时刻我们看到的单词为a，现在需要求出 $y_{l}=?$ 即 $y_l$ 最有可能的词性是什么？

根据我们之前得到的概率，我们可以得到：

$y_l = V$ 的概率为0.9 × 0.5 = 0.45
$y_l = D$ 的概率为0.1 × 1 = 0.1

所以最有可能的词性是V

机器学习-63-Structured Learning-04-Sequence Labeling Problem(结构化学习-序列标注(HMM,CRF))_第18张图片

可是如果我们观察下训练数据（如上图右边所示，和我们前面看的不同之处在于加了状态P，但其他的跟前面讲的概率相同）， $N \to V \to c$ 出现9次， $P \to V \to a$ 出现9次， $N \to D \to a$ 出现1次，那么N后面接V的概率是0.9，N后面接D的概率是0.1。V产生a的概率是0.5，产生c的概率是0.5，D产生a的概率是1。

根据训练数据，告诉我们说是V，但是你不觉得有问题吗？

在训练数据里，已经告诉你 $N \to D \to a$ ，但是你还是预测为V，这不是很奇怪吗。

对HMM来说，它会给一些在训练数据里没出现过的sequence高的概率（例如上面例子的 $N \to D \to a$ )。

也就是说HMM算法只会按照概率的高低来进行估计，并不管这个序列是否出现过（HMM自己脑补了未出现过的东西）。

但这个脑补的过程也不能说就是个坏事：

机器学习-63-Structured Learning-04-Sequence Labeling Problem(结构化学习-序列标注(HMM,CRF))_第19张图片

由于训练数据很少，也就是意味在真实的数据中是有可能出现训练数据中没有出现过的序列的，因此HMM在训练数据很少的时候性能反而比较好。也就是说训练数据多的时候HMM的表现并没有比较好。

隐马尔可夫模型会产生未卜先知的情况，是因为转移概率(Transition probability)和发散概率(Emission probability)，在训练时是分开建模的，两者是相互独立的。因此解决这个现象就是用更加复杂的模型，把这两个东西都考虑起来，即我们也可以用一个更复杂的模型来模拟两个序列之间的可能性，但要避免过拟合！

下面要讲的CRF就是用同样的模型，解决这个问题。

Conditional Random Field (CRF,条件随机场)

机器学习-63-Structured Learning-04-Sequence Labeling Problem(结构化学习-序列标注(HMM,CRF))_第20张图片

CRF描述的也是P(x, y)的问题，但与条件随机场表示形式很不一样(本质上是在训练阶段不同)，其几率正比于 $exp(w\cdot ϕ(x,y))$ ：
$\mathrm{P}(x, y) \propto \exp (w \cdot \phi(x, y)) \tag{1}$

$ϕ (x, y)$ 为一个特征向量；
w是一个权重向量，可以从训练数据中学习得到；
$\cdot ϕ(x,y))$ 总是正的，可以大于1。所以说是概率的话就不太对，只能说和概率是成正比的。

那我们不就不知道真正的P(x,y)是什么了吗？

没关系，CRF不关心P(x,y)，真正关心的是P(y|x)：
$x)=\frac{P(x, y)}{\sum_{y^{\prime}} P\left(x, y^{\prime}\right)} \tag{2}$
由公式(1)的正比可以得到：
$\frac{\exp (w \cdot \phi(x, y))}{R} \tag{3}$
公式(2)的分母部分我们也可以得出：
$\sum_{y\prime}P(x,y\prime) = \sum_{y\prime\in Y}\frac{\exp (w \cdot \phi(x, y\prime))}{R} \tag{4}$
将公式(3)和公式(4)带入公式(2)：
$x)=\frac{\frac{\exp (w \cdot \phi(x, y))}{R}}{\sum_{y\prime\in Y}\frac{\exp (w \cdot \phi(x, y\prime))}{R} } = \frac{\exp (w \cdot \phi(x, y))}{\sum_{y\prime\in Y}\exp (w \cdot \phi(x, y\prime)) } \tag{5}$
分母中是对所有的y进行求和，因此和x是相互独立的，可以把公式(5)写成：
$\frac{\exp (w \cdot \phi(x, y))}{Z(x)}$

P(x,y) for CRF

你可能会奇怪，为什么概率会正比于两个向量的内积，跟HMM完全不一样呀！

emm…其实是一样的！

为什么说CRF和HMM是一样的呢？是有人证明了的，CRF只不过是training上不一样，我们来看，在HMM里面是这样计算P ( x , y ) 的：
$y)=P\left(y_{1} | s t a r t\right) \prod_{l=1}^{L-1} P\left(y_{l+1} | y_{l}\right) P\left(e n d | y_{L}\right) \prod_{l=1}^{L} P\left(x_{l} | y_{l}\right) \tag{1}$
按乘法变加法的套路，对公式（1）的两边取对数
${\log P(x, y)} {=\log P\left(y_{1} | \operatorname{star} t\right)+\sum_{l=1}^{L-1} \log P\left(y_{l+1} | y_{l}\right)+\log P\left(\text {end} | y_{L}\right)} {\quad+\sum_{l=1}^{L} \log P\left(x_{l} | y_{l}\right)} \tag{2}$

机器学习-63-Structured Learning-04-Sequence Labeling Problem(结构化学习-序列标注(HMM,CRF))_第21张图片

我们先来看一下上面红色方框的部分，把这一项做下整理就得到了：
$\sum_{l=1}^{L} \log P\left(x_{l} | y_{l}\right) = \sum_{s,t}logP(t|s) \times N_{s,t}(x,y)$

$\sum_{l=1}^{L}$ 穷举所有可能的标记s和所有可能的单词t；
$\log P\left(x_{l} | y_{l}\right)$ 表示给定标记s的单词取对数的形式；
$N_{s, t}(x, y)$ 表示为单词t被标记成s的事情，在(x, y)对中总共出现的次数。

如果有10个可能的词性(s=10)和10000个词汇(t=10000)，那这里就是summation $\sum_{s,t} = 10*10000$ 项。

可能有点难理解，这里对于上面的转换再举一个具体的例子吧：

机器学习-63-Structured Learning-04-Sequence Labeling Problem(结构化学习-序列标注(HMM,CRF))_第22张图片

举个例子：有一个sentence x “The dog ate the homework”，每一个word都有一个tag的label。
$\begin{aligned} & x: The \ dog \ ate \ the \ homework \\ & y:\ D \ \ \ \ \ N\ \ \ V\ \ \ D\ \ \ \ \ \ \ \ \ \ \ \N \end{aligned}$
我们来分别计算每一个pair (x, y)出现的次数(不考虑大小写)：

“the”被标记为D（冠词），这个(x,y) pair出现的次数为2次： $N_{D,the}(x,y) = 2$
“dog”被标记为N（名词）的次数为1次： $N_{N,dog}(x,y) = 1$
“ate”被标记为V（动词）的次数为1次： $N_{V,ate}(x,y)=1$
“homework”被标记为N（名词）的次数为1次： $N_{N,homework}(x,y) = 1$
其他词汇和词性的次数为0次： $N_{s,t}(x,y) = 0$

计算下所有的概率的乘积：
$\begin{aligned} \sum_{l=1}^{L} \log P\left(x_{l} | y_{l}\right) & {=\log P(\text {the} | D)+\log P(\operatorname{dog} | N)+\log P(\text {ate} | V)} {+\log P(\text {the} | D)+\log P(\text {homework} | N)} \\ & = {\log P(\text { the } | D) \times 2+\log P(\operatorname{dog} | N) \times 1+\log P(a t e | V) \times 1} {+\log P(\text {homework} | N) \times 1} \end{aligned}$
可以看到，我们对概率对数之和整理之后，其实就可以得到下列等式：
$\sum_{l=1}^{L} \log P\left(x_{l} | y_{l}\right) = \sum_{s,t}logP(t|s) \times N_{s,t}(x,y) \tag{3}$
对于公式(2)的其他项我们也可以做一样的转化：

机器学习-63-Structured Learning-04-Sequence Labeling Problem(结构化学习-序列标注(HMM,CRF))_第23张图片

其中：

第一项：
$\log P(y_1|start) = \sum_s\log P(s|start)\times N_{start,x}(x,y) \tag{4}$
表示对所有标记的词性s放在句首的几率取对数，再乘上在(x, y)对中，标记s放在句首所出现的次数。
第二项：
$\sum_{l=1}^{L-1} \log P\left(y_{l+1} | y_{l}\right)=\sum_{s, s^{\prime}} \log P\left(s^{\prime} | s\right) \times N_{s, s^{\prime}}(x, y) \tag{5}$
表示计算s后面的标记后面跟s’在(x, y)里面所出现的次数，再乘上s后面跟s’的几率取对数。
第三项：
$\log P\left(\text {end} | y_{L}\right)=\sum_{s} \log P(e n d | s) \times N_{s, \text {end}}(x, y) \tag{6}$
表示对所有标记的词性s放在句尾的几率取对数，再乘上在(x, y)对中，标记s放在句尾所出现的次数。

机器学习-63-Structured Learning-04-Sequence Labeling Problem(结构化学习-序列标注(HMM,CRF))_第24张图片

将我们上面推导得到的公式(3),(4),(5),(6)带进公式(2)：
${\log P(x, y)} {=\log P\left(y_{1} | \operatorname{star} t\right)+\sum_{l=1}^{L-1} \log P\left(y_{l+1} | y_{l}\right)+\log P\left(\text {end} | y_{L}\right)} {\quad+\sum_{l=1}^{L} \log P\left(x_{l} | y_{l}\right)} \tag{2}$
中，就可以得到：
$\begin{aligned} {\log P(x, y)} = & \sum_{s, t} \log P(t | s) \times N_{s, t}(x, y) {+\sum_{s} \log P(s | \text {start}) \times N_{\text {start}, s}(x, y)} \\ & {+\sum_{s, s^{\prime}} \log P\left(s^{\prime} | s\right) \times N_{s, s^{\prime}}(x, y)}+\sum_{s} \log P(e n d | s) \times N_{s, e n d}(x,y) \end{aligned} \tag{7}$
其实看我们上面的式子，我们可以发现四项中每一个其实都是两个数相乘然后相加：

summation over所有的tag跟word
summation over所有的tag
summation over所有的tag和tag
summation over所有的tag

最后四项求和。那么近一步我们就可以将公式(7)描述成两个向量的inner product：
$\log P(x, y) =\left[\begin{array}{c}{\vdots} \\ {\log P(t | s)} \\ {\vdots} \\ {\vdots} \\ {\log P(s | s t a r t)} \\ {\vdots} \\ {\log P\left(s^{\prime} | s\right)} \\ {\vdots} \\ {\log P(e n d | s)} \\ {\vdots}\end{array}\right]\cdot \left[\begin{array}{c}{\vdots} \\ {N_{s, t}(x, y)} \\ {\vdots} \\ \vdots \\ {N_{\text {start}, s}(x, y)} \\ {\vdots} \\ {N_{s, s^{\prime}}(x, y)} \\ {\vdots} \\ {N_{s, e n d}(x, y)} \\ \vdots \end{array}\right] \tag{8}$
进而可以用 $w\cdot ϕ(x,y)$ 表示，第二个向量是依赖于(x, y)的，是(x,y)所形成的Feature，写成 $\phi(x,y)$ 。

对公式(8)两边同时取指数e：
$exp(w\cdot \phi(x,y))$
到这里就从HMM的形式推导到CRF的形式了，说明两个是一码事，但是注意，在CRF的定义中，上面的式子不是等号是正比于 $\propto$ ， 这点我们前面也有提及，下面来看看为什么：

机器学习-63-Structured Learning-04-Sequence Labeling Problem(结构化学习-序列标注(HMM,CRF))_第25张图片

从我们上面推出的公式(8)中，我们可以得出：
$w=\left[\begin{array}{c}{\vdots} \\ {\log P(t | s)} \\ {\vdots} \\ {\vdots} \\ {\log P(s | s t a r t)} \\ {\vdots} \\ {\log P\left(s^{\prime} | s\right)} \\ {\vdots} \\ {\log P(e n d | s)} \\ {\vdots}\end{array}\right] \phi(x, y)=\left[\begin{array}{c}{\vdots} \\ {N_{s, t}(x, y)} \\ {\vdots} \\ \vdots \\ {N_{\text {start}, s}(x, y)} \\ {\vdots} \\ {N_{s, s^{\prime}}(x, y)} \\ {\vdots} \\ {N_{s, e n d}(x, y)} \\ \vdots\end{array}\right] \tag{9}$
由上面的 $w$ 向量，我们可以知道每一个权重和几率是有对应关系的，而在 $w$ 中，权重其实一共分为四种，对应着公式(3),(4),(5),(6)中的每一个子项：

词性 s 时为word为 t 的概率：
$w_{s,t} = logP(x_i = t|y_i=s) \rightarrow P(x_i = t|y_i=s) = e^{w_{s,t}}$
句首是s概率：
$w_{start,s} = \log P(s|start) \rightarrow P(s|start) = e^{w_{start,s}}$
词性 s 时后面的词性为 s’ 的概率：
$w_{s,s\prime} = logP(y_i = s\prime|y_{i-1}=s) \rightarrow P(y_i = s\prime|y_{i-1}=s) = e^{w_{s,s\prime}}$
句尾为s的概率：
$w_{s,end} = \log P(end|s) \rightarrow P(end|s) = e^{w_{s,end}}$

也就是在 w 里面，每一个weight都对应到HMM里的某个概率取 log，如果想转回概率的话，就把 w 取exp。

而w在训练的过程中，w里面的值是可正可负的，值是负的话，取exp的值是小于1的，可以解释为一个概率，但是如果exp大于1的话，就不能解释为概率了。还有就是given s(tags)后对t(word) summation ，没有办法保证和是1 （因为 $P(x_i=t|y_i=s)$ 取了log）。所以没办法说 $P (x, y) = e x p (w \cdot ϕ (x, y))$ ) ，于是就改成正比。

一开始我看见上面的说法的时候，有点疑惑：根据公式(9)中的w，每一项概率P都是小于1的，那么取log后，不是一定小于0吗？为什么会可正可负呢？如果都是小于0，最后 $w\cdot \phi(x,y)$ 后再取一个指数e，是一定小于1大于0的，满足概率的呀！？

想了一下，我的理解是：我们在训练的时候，w会随着训练而进行修改，而我们每次训练的时候，可能并不能保证修改后的值是一定小于1的。我们并不能按照概率的思想来想训练的时候w的变化情况！

Feature Vector

下面来看CRF的Feature Vector是什么样子，就是 $\phi(x,y)$ 这个东西，我们前面已经求出来了：
$\phi(x, y)=\left[\begin{array}{c}{\vdots} \\ {N_{s, t}(x, y)} \\ {\vdots} \\ \vdots \\ {N_{\text {start}, s}(x, y)} \\ {\vdots} \\ {N_{s, s^{\prime}}(x, y)} \\ {\vdots} \\ {N_{s, e n d}(x, y)} \\ \vdots\end{array}\right]$
我们前面也说了， $\phi(x,y)$ 包含两个大部分：

第一个部分是有关tag（词性）和 word（词汇）的关系
第二个部分是有关tag（词性）和 tag（词性）之间的关系

又可分为四个小部分;

第一个部分是有关tag（词性）和 word（词汇）的关系
第三个部分是句子开头的tag（词性），即start 和 tag 的关系
第二个部分是句子中tag（词性）和 tag（词性）之间的关系
第四个部分是句子结尾的tag（词性），即end 和 tag的关系

下面直接看例子：

机器学习-63-Structured Learning-04-Sequence Labeling Problem(结构化学习-序列标注(HMM,CRF))_第26张图片

先看第一个部分，如上图右边的向量。

定义 $N_{s,t}(x,y)$ ：为词性s和词汇t在(x, y)对中出现的次数。

定义如果有S个tag，有L个可能的词汇，那向量维度就是 $S \times L$ ，例如有10种词性，10000个可能的词汇，那向量的长度就是100000维。

向量里面是所有词性跟所有词汇的pair，今天如果给一个(x,y)的pair，“the”标示为D出现2次的话，那向量维度D,the就对应2，没出现的pair都是0。可以想象这个向量的维度非常大，但有值的地方可能很少（稀疏）。

机器学习-63-Structured Learning-04-Sequence Labeling Problem(结构化学习-序列标注(HMM,CRF))_第27张图片

在第二个部分中，是如上图右边的向量。

定义 $N_{S, S^{\prime}}(x, y) :$ 为标记s和s’在(x, y)对中连续出现的次数。

$N_{D, D}(x, y)$ 表示D后面出现D在(x, y)对中出现的次数，在这个例子中D和D没有接在一起过，所以次数为0；D后面接N出现过2次…

如果有S个可能的标记，其维度为 $\times S + 2S$ (对所有的标记对，我们都需要一个维度，每一个标记跟start产生的对也是一个维度，每一个标记跟end所产生的对又是一个维度，因此所有标记的对为s的平方，start跟end的对为s)。

然后把part1和part2的向量接在一起作为 $\phi(x,y)$ ，这个向量有它自己的含义，跟HMM想要model的东西是一样的。

但是CRF牛叉的地方在于，因为CRF把概率描述成 $w$ 和 $\phi(x,y)$ 的inner product，所以这个特征向量可以不这样定义，可以自己来定义 $\phi(x,y)$ 的形式！

Training Criterion

下面来看CRF如何训练：

机器学习-63-Structured Learning-04-Sequence Labeling Problem(结构化学习-序列标注(HMM,CRF))_第28张图片

假设我们有一组训练数据：
$\left\{\left(x^{1}, \hat{y}^{1}\right),\left(x^{2}, \hat{y}^{2}\right), \cdots\left(x^{N}, \hat{y}^{N}\right)\right\}$
找到一个权重向量 $W^{*}$ 去最大化目标函数 $O (w)$ ；
$w^{*}=\arg \max _{w} \mathrm{O}(w) \tag{1}$
其中目标函数 $O (w)$ 为：
$O(w)=\sum_{n=1}^{N} \log P\left(\hat{y}^{n} | x^{n}\right)$
表示为我们要寻找一个w，使得最大化给定的 $x_n$ 所产生 $\hat{y}^{n}$ 正确标记的几率，再取对数进行累加。

你会发现和交叉熵很像，交叉熵也是最大化正确维度的几率再取对数，只不过此时是针对整个序列而言的。给定一整个sequence x，我们要让正确的sequence的概率的log越大越好。

根据概率公式：
$\begin{array}{l}{P(y | x)} {=\frac{P(x, y)}{\sum_{y^{\prime}} P\left(x, y^{\prime}\right)}}\end{array}$
我们可以很容易对目标函数中的项 $P(\hat{y}^n|x^n)$ 进行转换：
$\log P\left(\hat{y}^{n} | x^{n}\right)=\log P\left(x^{n}, \hat{y}^{n}\right)-\log \sum_{y^{\prime}} P\left(x^{n}, y^{\prime}\right) \tag{2}$
根据公式(1)知道我们的目标是maximize 目标函数，因此公式(2)真正要做的事情其实就是：

最大化 $\log P\left(x^{n}, \hat{y}^{n}\right)$ ，最大化在训练数据里看到的pair $(x^{n}, \hat{y}^{n})$ 的概率
最小化 $\log \sum_{y^{\prime}} P\left(x^{n}, y^{\prime}\right)$ ，最小化训练数据没有看到的pair的概率

因为是maximize 目标函数，我们又可以知道应该使用Gradient Ascent来更新w的数值：

机器学习-63-Structured Learning-04-Sequence Labeling Problem(结构化学习-序列标注(HMM,CRF))_第29张图片

Gradient descent：梯度下降里，最小化代价函数C，计算C的梯度，然后θ减去 $η \nabla C (θ)$ （即往负梯度方向走）:
$\theta \rightarrow \theta-\eta \nabla C(\theta)$
Gradient Ascent：梯度上升了，是θ加上 $η \nabla C (θ)$ （即往梯度方向走）：
$\theta \rightarrow \theta+\eta \nabla O(\theta)$

上面只是通用的公式，下面来看看具体怎么弄：

机器学习-63-Structured Learning-04-Sequence Labeling Problem(结构化学习-序列标注(HMM,CRF))_第30张图片

先写出目标函数：
$O(w)=\sum_{n=1}^{N} \log P\left(\hat{y}^{n} | x^{n}\right)=\sum_{n=1}^{N} O^{n}(w)$
对目标函数中每一项求梯度，可以得到：
$\nabla O^{n}(w)=\left[\begin{array}{c}{\vdots} \\ {\partial O^{n}(w) / \partial w_{s, t}} \\ {\vdots} \\ {\partial O^{n}(w) / \partial w_{s, s^{\prime}}}\\ \vdots\end{array}\right]$
我们w有很多很多，有的w对应到一个tag和一个word的pair，有的w是对应两个tag的pair。

我们来看看 $\frac{\partial O^n(w)}{\partial w_{s,t}}$ 如何计算，另外一个 $\frac{\partial O^n(w)}{\partial w_{s,s\prime}}$ 是类似的，就不说了！

注意，下面的步骤有点复杂，可以跳过哦~我们后面会直接将偏导后的结果！但其实也并不复杂！

机器学习-63-Structured Learning-04-Sequence Labeling Problem(结构化学习-序列标注(HMM,CRF))_第31张图片

我接下里的过程过程和ppt中的过程有点不大一样，我是根据最终的目标函数来推倒的，但想法是相同的。

有前面可知，我们的目标函数中的每一项其实就是：
$O^n(w) = \log P\left(\hat{y}^{n} | x^{n}\right)=\log P\left(x^{n}, \hat{y}^{n}\right)-\log \sum_{y^{\prime}} P\left(x^{n}, y^{\prime}\right)$
由(下面这个式子在我们将CRF开始的时候就已经说过并且证明了)：
$\mathrm{P}(x, y) \propto \exp (w \cdot \phi(x, y)) \rightarrow P(x,y) = \frac{\exp (w \cdot \phi(x, y))}{R}$
进一步推导：
$\begin{aligned} O^n(w) & = \log \frac{\exp (w \cdot \phi(x, \hat{y}^n))}{R} - \log \frac{\sum_{y\prime}exp\left(w\cdot\phi(x^n,y\prime)\right)}{R} \\ &= \log \exp (w \cdot \phi(x, \hat{y}^n)) - \log R - \log \sum_{y\prime}exp\left(w\cdot\phi(x^n,y\prime)\right) + \log R \\ &= w \cdot \phi(x, \hat{y}^n) - \log \sum_{y\prime}exp\left(w\cdot\phi(x^n,y\prime)\right) \end{aligned} \tag{1}$
上式中，最后的结论的第一项其实可以化为：
$\cdot \phi(x,\hat{y}^n) = \sum_{s,t}w_{s,t}\cdot N_{s,t}(x^n,\hat{y}^n)+\sum_{s,s\prime}w_{s,s\prime}\cdot N_{s,s\prime}(x^n,\hat{y}^n) \tag{2}$
其实，也很好理解，因为我们的权值和特征总体上分为两大类，前面有介绍，我们这里就以 $w_{s,t}$ 来计算，另一个 $w_{s,s\prime}$ 也是类似的！

现在来对公式(1)求梯度(偏导)：
$\frac{\partial O^n(w)}{\partial w_{s,t}} =\frac{\partial w\cdot\phi(x,\hat{y}^n)}{\partial w_{s,t}}+\frac{\partial \log \sum_{y\prime}exp\left(w\cdot\phi(x^n,y\prime)\right)}{\partial w_{s,t}} \tag{3}$
因此，根据公式(2)，我们公式(3)的第一项就是：
$\frac{\partial w\cdot\phi(x,\hat{y}^n)}{\partial w_{s,t}} = N_{s,t}(x^n,\hat{y}^n) \tag{4}$

机器学习-63-Structured Learning-04-Sequence Labeling Problem(结构化学习-序列标注(HMM,CRF))_第32张图片

上面我们已经将公式(3)的第一项求导的结果算出来了，就是(4)，因此现在我们现在要计算公式(3)的第二项：
$\begin{aligned} \frac{\partial \log \sum_{y\prime}exp\left(w\cdot\phi(x^n,y\prime)\right)}{\partial w_{s,t}} &= \frac{1}{\sum_{y\prime}exp\left(w\cdot\phi(x^n,y\prime)\right)}\cdot \frac{\partial \sum_{y\prime}exp\left(w\cdot\phi(x^n,y\prime)\right)}{\partial w_{s,t}} \\ &= \frac{1}{\sum_{y\prime}exp\left(w\cdot\phi(x^n,y\prime)\right)}\cdot \sum_{y\prime}exp\left(w\cdot\phi(x^n,y\prime)\right)\cdot \phi(x^n,y\prime) \\ &= \sum_{y\prime} \frac{exp\left(w\cdot\phi(x^n,y\prime)\right))}{\sum_{y\prime} exp\left(w\cdot\phi(x^n,y\prime)\right)} \cdot N_{s,t}(x^n,y\prime) \\ &= \sum_{y\prime} \frac{P(x^n,y\prime)}{P(x^n)} \cdot N_{s,t}(x^n,y\prime) \\ &= \sum_{y\prime}P(y\prime|x^n) \cdot N_{s,t}(x^n,y\prime) \end{aligned} \tag{5}$
将公式(4)和公式(5)带入公式(3)，可以求出梯度为：
$\begin{aligned} \frac{\partial O^n(w)}{\partial w_{s,t}} &=\frac{\partial w\cdot\phi(x,\hat{y}^n)}{\partial w_{s,t}}+\frac{\partial \log \sum_{y\prime}exp\left(w\cdot\phi(x^n,y\prime)\right)}{\partial w_{s,t}} \\ &= N_{s,t}(x^n,\hat{y}^n) + \sum_{y\prime}P(y\prime|x^n) \cdot N_{s,t}(x^n,y\prime) \end{aligned}$
至此证明完毕！

前面没看懂也没事，主要是这个结论：

机器学习-63-Structured Learning-04-Sequence Labeling Problem(结构化学习-序列标注(HMM,CRF))_第33张图片

$\begin{aligned} \frac{\partial O^n(w)}{\partial w_{s,t}} &= N_{s,t}(x^n,\hat{y}^n) + \sum_{y\prime}P(y\prime|x^n) \cdot N_{s,t}(x^n,y\prime) \end{aligned}$

第一项是word t被标识为tag s，在pair $(x^n,\hat{y}^n)$ 中出现的次数
第二项是，summation over所有可能的y ，summation 中每个term是（word t被标识为tag s在 $x^n$ 跟任意一个y的pair中出现的次数）乘上（给定 $x^n$ 后任意一个y的概率），y是所有可能出现的sequence，所以非常多。

算出来偏微分的结果，是要跟 $w_{s,t}$ 做相加，第一项和第二项是互相对抗的

第一项，如果算出来是正的，参数就会增加，算出来是负的，参数就会减少。这个式子告诉我们，如果 $s, t$ 这个pair在正确的训练数据 $(x^n,\hat{y}^n)$ 中出现的次数越多，那 $w_{s,t}$ 就会越大。
第二项告诉我们，如果 $s, t$ 这个pair在任意一个 $x^n,y)$ pair里出现的次数很多的话，那 $w_{s,t}$ 应该变小

如果 $s, t$ 在正确答案里出现的很多，那对应的 $w_{s,t}$ 就会增加，但是如果不只是在正确答案里出现的次数多，在随便哪个y跟 $x^n$ pair里出现的次数也多的话，就应该减小 $w_{s,t}$ 。

今天你要在第二项summation over所有可能的y，可能会卡住，不知道怎么算。但没有关系，这个也可以用维特比算法算。

机器学习-63-Structured Learning-04-Sequence Labeling Problem(结构化学习-序列标注(HMM,CRF))_第34张图片

之前是算了某一个w的偏微分，现在对整个w的偏微分向量就是（正确的 $\hat{y}$ 形成的特征向量）-（任意y’形成的特征向量∗y’的条件概率）：
$\bigtriangledown O(w) = \phi(x^n,\hat{y}^n)-\sum_{y\prime}P(y\prime|x^n)\phi(x^n,y\prime)$
如果我们把随机梯度上升的式子列出来的话

每次都取一笔数据 $(x^n,\hat{y}^n)$ ：
$\rightarrow w+\eta\left(\phi(x^n,\hat{y}^n)-\sum_{y\prime}P(y\prime|x^n)\phi(x^n,y\prime)\right)$

Inference

机器学习-63-Structured Learning-04-Sequence Labeling Problem(结构化学习-序列标注(HMM,CRF))_第35张图片

把ww向量算出来后，就可以做Q2：推理了！

我们知道现在要做的事情是，给一个x，找一个y让 $P (y ∣ x)$ 最大，在HMM里已经知道，等同于最大化 $P (y ∣ x)$ 。在CRF里又知道， $P (y ∣ x)$ 是正比于 $e x p (w \cdot ϕ (x, y))$ ，代进去等同于是最大化 $w \cdot ϕ (x, y)$ ：
$\begin{aligned} y &=\arg \max _{y \in Y} P(y | x)=\arg \max _{y \in Y} P(x, y) \\ &=\arg \max _{y \in Y} w \cdot \phi(x, y) \end{aligned}$
也可以用维特比算法做。

CRF vs HMM

机器学习-63-Structured Learning-04-Sequence Labeling Problem(结构化学习-序列标注(HMM,CRF))_第36张图片

CRF的训练过程中，不只会增加 $P(x,\hat{y})$ ，还会减少任意一个y和x形成pair的概率；
而HMM并没有减少概率这件事情。

我们知道说，如果要得到正确的答案，会希望：
$\hat{y}) : P(x, \hat{y})>P(x, y)$
CRF是增加 $\hat{y})$ ，减小 $P (x, y)$ ，所以CRF更有可能得到正确的结果。

举例来说，用之前HMM的例子：

根据训练数据，HMM给了如上图左下方所示的结果（直接统计来的），HMM说 $y_i$ 应该是V：
$P(V|N)\cdot P(a|V) = 0.45 \gt P(D|N)\cdot P(a|D) = 0.1$
但你会发现这种情况在我们的训练数据(上图左下角)中并没有出现过！
但是CRF不关心概率，就是调整w参数使得正确的(x,y) pair的分数比较大。所以CRF可能调来调去，使得P(a|V)到0.1，使得 $y_i$ 可能是D：
$P(D|N)\cdot P(a|D)=0.1 \gt P(V|N)\cdot P(a|V) = 0.09$

Synthetic Data(合成数据)

机器学习-63-Structured Learning-04-Sequence Labeling Problem(结构化学习-序列标注(HMM,CRF))_第37张图片

以下是一个综合的实验，比较CRF和HMM有什么不一样。

在这个实验里面，input是小写的a到z ，output是大写的A到E：
$x_{i} \in\{a-z\}, y_{i} \in\{A-E\}$
然后我们要生成一些人工数据，这些数据使用HMM生成的，但用的不是一般的HMM，用的是一个mixed-order HMM(混合顺序隐马尔科夫模型)。

转移概率是：
$\alpha P\left(y_{i} | y_{i-1}\right)+(1-\alpha) P\left(y_{i} | y_{i-1}, y_{i-2}\right)$
如果 $\alpha=1$ ，则后面一项是0，就是一般的HMM的转移概率。今天 $\alpha$ 的值可以任意调整，考虑一个order的比率大，还是两个order的比率大。
发射概率是：
$\alpha P\left(x_{i} | y_{i}\right)+(1-\alpha) P\left(x_{i} | y_{i}, x_{i-1}\right)$
如果 $\alpha=1$ ，也就是一般的HMM。

比较HMM和CRF（都是一般的HMM和CRF），HMM只考虑一个order（ $\alpha=1$ 的状况）。

一般而言，如果 $\alpha$ 越小，那么跟一般的HMM和CRF差距越大，得到的performance越差。但是我们想要知道在这种情况下，到底是HMM坏得比较厉害，还是CRF坏得比较厉害。

机器学习-63-Structured Learning-04-Sequence Labeling Problem(结构化学习-序列标注(HMM,CRF))_第38张图片

上图是实验的结果，每个圈圈是不同的 $\alpha$ 得到的结果。从左下到右上代表 $\alpha$ 由大到小，每个点都做HMM和CRF的实验，横轴和纵轴代表HMM和CRF犯错的百分比。

可以想象如果一个点在45度角的右侧，代表说HMM犯得错多，CRF犯得错少。从实验结果可以发现，非实心的点是 $\alpha \gt \frac{1}{2}$ ，接近一般的HMM或者CRF，在这个状况下HMM是比CRF好的，也不用意外，因为数据是从HMM产生的，所以HMM的假设更贴近数据的产生方式。 $\alpha \lt \frac{1}{2}$ 时，也就是数据的产生方式和HMM、CRF的假设都不合时，这时候CRF就会比HMM好。因此此时HMM只能按照概率，而CRF会调整参数去fit数据，就算有些假设没有被model在CRF里面，也可以借由调整参数考虑到这些假设，所以当你的模型和数据背后的假设不合时，CRF的表现就会比较好。

Summary

机器学习-63-Structured Learning-04-Sequence Labeling Problem(结构化学习-序列标注(HMM,CRF))_第39张图片

上图是CRF的总结。CRF也是一个结构化学习的方法，解决了3个问题。

Q1：评估

F(x,y)是P(y|x)：
$x)=\frac{\exp (w \cdot \phi(x, y))}{\sum_{y^{\prime} \in \mathbb{Y}} \exp \left(w \cdot \phi\left(x, y^{\prime}\right)\right)}$
Q2：推理

找使 $w \cdot ϕ (x, y)$ 最大的 $\tilde{y}$ ，利用维特比算法求解：
$\tilde{y}=\arg \max _{y \in \mathbb{Y}} P(y | x)=\arg \max _{y \in \mathbb{Y}} w \cdot \phi(x, y)$
Q3：训练

一般文献是写成相乘：
${w^{*}=\arg \max _{w} \prod_{n=1} P\left(\hat{y}^{n} | x^{n}\right)}$

但是也可以取log，变成相加(这中形式也是我们前面所讲的)：
$w^* = \arg \max\limits_w \sum_{n=1}^{N} \log P\left(\hat{y}^{n} | x^{n}\right)$
使用梯度上升求解w：
${\mathbf{w} \rightarrow w+\eta\left(\phi\left(x^{n}, \hat{y}^{n}\right)-\sum_{y^{\prime}} P\left(y^{\prime} | x^{n}\right) \phi\left(x^{n}, y^{\prime}\right)\right)}$

Structured Perceptron/SVM

Structured Perceptron

机器学习-63-Structured Learning-04-Sequence Labeling Problem(结构化学习-序列标注(HMM,CRF))_第40张图片

也是那三个问题吧，我们前面已经讲烂了~：

Q1：评估
$w\cdot \phi(x,y)$
你可以会说，如果x,y都是sequence的话，这个ϕ()应该定成什么样子？

可以选择自己喜欢的方式，最简单的方式就是拿CRF的形式做就好了。
Q2：推理
$\tilde{y} = \arg \max_{y\in Y}w\cdot \phi(x,y)$
一样使用维特比算法求解。
Q3：训练

对所有的训练数据n，和所有不等于 $\hat{y}$ 的y，我们希望让 $w\cdot \phi(x^n,\hat{y}^n)$ 大于 $w\cdot \phi(x^n,y)$ ：
$\forall n,\forall y \in Y,y\ne\hat{y}^n ：\ \ \ \ \ \ w \cdot \phi\left(x^{n}, \hat{y}^{n}\right)>w \cdot \phi\left(x^{n}, y\right)$
这件事在结构化感知机里，我们会找一个 $\tilde{y}$ （根据目前的w，让式子最大）：
$\tilde{y}^{n}=\arg \max _{y} w \cdot \phi\left(x^{n}, y\right)$
接下来更新w：
$\rightarrow w+\phi\left(x^{n}, \hat{y}^{n}\right)-\phi\left(x^{n}, \tilde{y}^{n}\right)$

Structured Perceptron vs CRF

机器学习-63-Structured Learning-04-Sequence Labeling Problem(结构化学习-序列标注(HMM,CRF))_第41张图片

你有没有觉得结构化感知机w更新很眼熟呢，和CRF的梯度上升很像？

在CRF梯度上升里，如果忽略掉 $\eta$ （学习率），那跟结构化感知机一样都有两项（绿色线项和紫色线项）。绿色项是一样的，紫色项虽然看起来不一样，但其实是很有关系的：

Structured Perceptron里则是某一个 $\tilde{y}$ 的特征向量，而 $\tilde{y}$ 可以让 $w⋅ϕ(x^n,y)$ 最大， $\tilde{y}$ 其实就是让概率 $P(y|x^n)$ 最大y：
$\begin{array}{l}{\tilde{y}^{n}=\arg \max _{y} w \cdot \phi\left(x^{n}, y\right)} \\ \phi(x^n,\tilde{y}^n)\end{array}$
这一项也叫做Hard(硬范畴)！
CRF里是summation over所有的y的特征向量，再做weight sum：
$\sum_{y^{\prime}} P\left(y^{\prime} | x^{n}\right) \phi\left(x^{n}, y^{\prime}\right)$
这一项也叫做Soft(软范畴)！

所以Structured Perceptron是减去Hard(硬范畴)：
$\begin{array}{l}{\tilde{y}^{n}=\arg \max _{y} w \cdot \phi\left(x^{n}, y\right)} \\ {w \rightarrow w+\phi\left(x^{n}, \hat{y}^{n}\right)-\phi\left(x^{n}, \tilde{y}^{n}\right)}\end{array}$
而CRF是Soft（软范畴）：
$\mathrm{w} \rightarrow w+\eta\left(\underline{\phi\left(x^{n}, \hat{y}^{n}\right)}-\sum_{y^{\prime}} P\left(y^{\prime} | x^{n}\right) \phi\left(x^{n}, y^{\prime}\right)\right)$

你可能感兴趣的:(李宏毅机器学习,自然语言处理,机器学习,结构化学习)

人工智能之数学基础：数学对人工智能技术发展的作用每天五分钟玩转人工智能机器学习深度学习之数学基础人工智能深度学习机器学习神经网络自然语言处理数学
本文重点数学是人工智能技术发展的基础，它提供了人工智能技术所需的数学理论和算法，包括概率论、统计学、线性代数、微积分、图论等等。本文将从以下几个方面探讨数学对人工智能技术发展的作用。概率论和统计学概率论和统计学是人工智能技术中最为重要的数学分支之一。概率论和统计学的应用范围非常广泛，包括机器学习、数据挖掘、自然语言处理、计算机视觉等领域。在人工智能技术中，概率论和统计学主要用于处理不确定性的问题，
人工智能之数学基础：线性子空间每天五分钟玩转人工智能机器学习深度学习之数学基础人工智能深度学习线性代数线性子空间线性空间
本文重点在前面的课程中，我们学习了线性空间，本文我们我们在此基础上学习线性子空间。在应用中，线性子空间的概念被广泛应用于信号处理、机器学习、图像处理等领域。子空间的性质子空间是线性空间的一部分，它需要满足下面的性质：设V是数域F上的线性空间，W是V的一个非空子集。如果W对于V中的加法运算和数乘运算也构成F上的一个线性空间，则称W为V的线性子空间（或称向量子空间）。具体来说，设V是一个线性空间，W是
详解离线安装Python库爱编程的喵喵 Python基础课程 python 离线安装 requirements
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了详解离线安装Python库，希望能对
YOLO11改进-模块-引入频率谱动态聚合模块FSDA 去除噪声一勺汤 YOLOv11模型改进系列目标检测魔改模块 YOLO YOLOv11 YOLOv11改进改进
在图像去雾领域，深度学习在白天图像去雾方面成果显著，但夜间雾图研究较少。夜间雾图面临诸多挑战，其中包括雾、辉光和噪声因多个低强度有源彩色光源而具有复杂特性，以及模拟与真实数据的域差异导致的亮度问题。为解决这些，我们使用FSDA模块，处理频率不一致特性。FSDA先对频谱信息聚合，再计算通道权重并应用，最后映射回空间域，以此优化频谱信息，使模型更好处理复杂干扰。本文将其与YOLOv11相结合，增强YO
java--(StringBuilder) qq_44766305 java 开发语言
上一节我们讲解了String，这一节我们来讲解StringBuilder。同样让我们带着疑问来学习:1.什么是StringBuilder?2.为什么要有StringBuilder?一、什么是StringBuilder?StringBuilder可以看成是一个容器，创建之后里面的内容是可变的。二、为什么要有StringBuilder？回答这个问题之前，让我们先看一个例子：publicclassdem
Kotlin学习4.3：构造函数 CNwanku Kotlin入门学习 Kotlin 移动开发
Kotlin学习4.3：构造函数主构函数this关键字次构函数主构函数在Kotlin中，构造函数用constructor关键字进行修饰，一个类可以有一个主构造函数和多个次构造函数。主构函数位于类头跟在类名之后，如果主构造函数没有任何注解或可见性修饰符（如public），constructor关键字可省略。主构函数定义的语法格式如下：class类名constructor([形参1，形参2，形参3])
基于多头注意机制的多尺度特征融合的GCN的序列数据（功率预测、故障诊断）模型及代码详解清风AI 深度学习算法详解及代码复现人工智能神经网络深度学习 python conda pip pandas
GCN基础在深度学习领域中，图卷积网络(GCN)是一种强大的图数据处理工具。它将卷积操作扩展到图结构上，能够有效捕捉图中节点之间的关系信息。GCN的核心思想是通过聚合邻居节点的特征来更新目标节点的表示，这种局部聚合机制使得GCN能够学习到图的拓扑结构和节点属性。GCN的主要构成要素包括节点特征矩阵、邻接矩阵和卷积核。通过多次迭代，GCN可以逐步学习到图中节点的高阶表示，为后续的分类、预测等任务提供
Kotlin学习-构造函数 liujun3512159 kotlin kotlin
Kotlin的构造函数分为主构造函数（primaryconstructor）和次级构造函数（secondaryconstructor）；主构造函数1、在Kotlin中一个类可以有一个主构造函数和一个或多个次构造函数；如果不写构造函数会有一个默认空的构造函数//关键字类名类头(参数、主构造函数){类体}classMyTest{}vartest=MyTest()//使用默认的构造函数创建对象//空的类
【第9章】“基础工作流”怎么用？（图生图/局部重绘/VAE/更多基础工作流）ComfyUI基础入门教程聚梦小课堂 ComfyUI基础入门课 comfyui 基础教程工作流教程 AI绘画教程 AI作画人工智能 stable diffusion
引言学到这里，大家是不是会比较纠结，好像还在持续学习新的东西，未来还有多少基础的东西要学习，才能正常使用ComfyUI呢？这其实需要转变一个心态。AI绘画还处于一个快速迭代的过程，隔三岔五的就会有很多新技术、新模型出现，ComfyUI目前同样处于一个快速更新的阶段，从更新记录上也可以看到，几乎每一两天都会更新新版本。同样，生态的各种自定义节点也在持续更新。所以，不可能有个教程把所有未来会用到的知识
YOLO魔改之频率分割模块（FDM）清风AI YOLO算法魔改系列 YOLO 人工智能计算机视觉目标检测 python 深度学习
目标检测原理目标检测是一种将目标分割和识别相结合的图像处理技术，旨在从图像中定位并识别特定目标。深度学习方法，如FasterR-CNN和YOLO系列，已成为主流解决方案。这些方法通常采用两阶段或单阶段策略，通过卷积神经网络(CNN)提取特征并进行分类和定位。在小目标检测中，为克服分辨率低和特征不明显的问题，模型设计中会特别注重特征融合和多尺度处理，以增强对小目标的感知能力。YOLOv8基础YOLO
ev录屏损坏修复 qq_39541626 个人开发
ev录屏应该不正常关闭，录屏损坏淘宝买了一个软件，修复成功，需找一个当时时间段的正常录屏学习，然后高级修复。整体花费5毛钱
PyTorch模型训练实战指南：掌握动态图特性与工业级部署技巧 lmtealily pytorch 人工智能 python
前言在深度学习领域，PyTorch凭借其动态计算图、高效的自动微分系统及高度Pythonic的设计哲学，已成为学术界与工业界的主流框架。其即时执行模式大幅简化了模型调试流程，而灵活的模块化设计则为复杂模型的构建提供了坚实基础。然而，从实验原型到工业级部署的全链路实践中，开发者仍需系统性掌握框架核心特性与工程化技巧。本文以实战为导向，深入剖析PyTorch动态图机制与自动微分原理，详解从数据预处理、
ESG证书：AI预测未来十年职场人的黄金入场券 ESG学习圈 pandas python django
当ChatGPT开始撰写ESG报告，当机器学习模型精准预测企业碳排放轨迹，一场由AI驱动的ESG革命正在颠覆传统可持续发展领域。根据彭博新能源财经预测，到2030年全球ESG资产管理规模将突破50万亿美元，而AI技术将成为撬动这个万亿级市场的核心杠杆。一、AI透视下的ESG黄金时代在微软开发的AI模型ESG-NOW系统中，通过分析全球4300家上市公司近十年的环境数据，成功预测2025年新能源行业
31天Python入门——第5天:循环那些事儿安然无虞 Python手把手教程 python 开发语言后端
你好，我是安然无虞。文章目录1.while循环1.1while循环的嵌套1.2补充学习:print函数2.for循环2.1range函数2.2for循环2.3continue和break以及return2.4for循环的嵌套3.补充学习3.1enumerate函数3.2zip函数3.3不要在遍历列表的过程中删除元素循环是编程语言常见的一种流程控制所谓循环就是反复的执行一段代码我们人类语言要让别人反
JDK8 Stream 数据流效率分析，Java开发你需要了解的那些事气质大叔程序员后端面试 java
此外还有一系列特化流，如IntStream，LongStream，DoubleStream等），Java8引入的的Stream主要用于取代部分Collection的操作，每个流代表一个值序列，流提供一系列常用的聚集操作，可以便捷的在它上面进行各种运算。集合类库也提供了便捷的方式使我们可以以操作流的方式使用集合、数组以及其它数据结构；作为阅读福利，小编也整理了一些Java学习笔记（包含面试真题+脑图
基础篇：ArkTS基础语法介绍言程序plus 鸿蒙Next开发 javascript arkts 鸿蒙
前言：目前流行的编程语言TypeScript是在JavaScript基础上通过添加类型定义扩展而来的，而ArkTS则是TypeScript的进一步扩展。TypeScript深受开发者的喜爱，因为它提供了一种更结构化的JavaScript编码方法。ArkTS旨在保持TypeScript的大部分语法，为现有的TypeScript开发者实现无缝过渡，让移动开发者快速上手ArkTS。ArkTS比typeS
MyBatis-Plus中使用@Transactional注解的5大陷阱，你中招了吗？墨瑾轩 Java乐园 mybatis
关注墨瑾轩，带你探索编程的奥秘！超萌技术攻略，轻松晋级编程高手技术宝库已备好，就等你来挖掘订阅墨瑾轩，智趣学习不孤单即刻启航，编程之旅更有趣MyBatis-Plus中使用@Transactional注解的5大陷阱，你中招了吗？在使用MyBatis-Plus进行持久层开发时，事务控制是确保数据一致性的重要手段。然而，在实践中，不当的使用@Transactional注解可能导致各种意想不到的问题。本文
学习积累规划一个DBA的成功之路小藤椅 Oracle基础知识数据库 db2 sql server informix ibm oracle
一个DBA的数据库学习经验：选定发展方向1999年，我在开始读研时就给自己确定了以后的发展方向。当时有两个方向：网络，数据库技术。因为在2000年之时，网络大热，市场上拥有CCNP、CCIE证书的人特别牛。所以我当时也考下了CCNP证书，但后来发现网络方向涉及很多硬件层面的东西，这些都对厂商的依赖性太强，个人发挥空间不大。而我喜欢钻研，所以慢慢开始转向专攻数据库技术。在认准数据库这个方向后，我开始
C语言经典算法之二叉树的后序遍历（递归实现） JJJ69 C语言经典算法算法 c语言开发语言数据结构
目录前言A.建议B.简介一代码实现二时空复杂度A.时间复杂度：B.空间复杂度：三优缺点A.优点：B.缺点：四现实中的应用前言A.建议1.学习算法最重要的是理解算法的每一步，而不是记住算法。2.建议读者学习算法的时候，自己手动一步一步地运行算法。tips：文中的（如果有）对数，则均以2为底数B.简介在C语言中，二叉树的后序遍历（PostorderTraversal）是一种按照“左子树-右子树-根节点
【Dive Into Stable Diffusion v3.5】1：开源项目正式发布——深入探索SDv3.5模型全参/LoRA/RLHF训练 Donvink 大模型 #AIGC stable diffusion AIGC 人工智能机器学习深度学习
目录1引言2项目简介3快速上手3.1下载代码3.2环境配置3.3项目结构3.4下载模型与数据集3.5运行指令3.6核心参数说明3.6.1通用参数3.6.2优化器/学习率3.6.3数据相关4结语1引言在人工智能和机器学习领域，生成模型的应用越来越广泛。StableDiffusion作为其中的佼佼者，因其强大的图像生成能力而备受关注。今天，我的开源项目DiveIntoStableDiffusionv3
开源模型应用落地-qwen模型小试-调用Qwen2-7B-Instruct-进阶篇（十二）开源技术探险家开源模型-实际应用落地 #深度学习自然语言处理语言模型
一、前言经过前五篇“qwen模型小试”文章的学习，我们已经熟练掌握qwen大模型的使用。然而，就在前几天阿里云又发布了Qwen2版本。无论是语言模型还是多模态模型，均在大规模多语言和多模态数据上进行预训练，并通过高质量数据进行后期微调以贴近人类偏好。本文将介绍如何使用Transformers库进行模型推理（相较于qwen1系列，使用方式上有较大的调整），现在，我们赶紧跟上脚步，去体验一下新版本模型
PyTorch 深度学习实战（19）：离线强化学习与 Conservative Q-Learning (CQL) 算法进取星辰 PyTorch 深度学习实战深度学习 pytorch 算法
在上一篇文章中，我们探讨了分布式强化学习与IMPALA算法，展示了如何通过并行化训练提升强化学习的效率。本文将聚焦离线强化学习（OfflineRL）这一新兴方向，并实现ConservativeQ-Learning(CQL)算法，利用Minari提供的静态数据集训练安全的强化学习策略。一、离线强化学习与CQL原理1.离线强化学习的特点无需环境交互：直接从预收集的静态数据集学习数据效率高：复用历史经验
Java IDEA中Gutter Icons图标的含义路宇 java笔记 java intellij-idea 开发语言 gutter-icons 图标 Java开发工具
前些天发现了一个蛮有意思的人工智能学习网站,8个字形容一下"通俗易懂，风趣幽默"，感觉非常有意思,忍不住分享一下给大家。点击跳转到教程前言：很多人刚开始用IDEA来学习编程，会发现下面这些图标。但是我们有时候并不知道它的含义和设置显示与隐藏，下面给大家讲解一下装订线图标位于左侧编辑器中。它们调用一些基本操作以及其他特定于框架和技术的功能。设置步骤File->Setting进到idea的设置页面。接
STM32F407 SPI1源代码 heraldww keil ARM stm32 单片机嵌入式硬件
头文件#ifndef__spi1_PA567_H#define__spi1_PA567_H#include"sys.h"#include"project_config.h"#include"gpio.h"////本程序只供学习使用，未经作者许可，不得用于其它任何用途//ALIENTEKSTM32F407开发板//SPI驱动代码//正点原子@ALIENTEK//技术论坛:www.openedv.co
如何快速提取PDF中的图片？这款免费工具让你事半功倍！ 10211234567890 pdf编辑 pdf pdf提取图片 pdf数据提取 pdf提取
在日常学习和工作中，PDF文件几乎成了我们处理文档的标配。但你是否遇到过这样的烦恼：想从PDF里提取图片，却只能手动截图，效率低还容易模糊？尤其是面对几十页的复杂文档，简直让人抓狂……别急！今天分享一个亲测高效的解决方案——完全免费、无需注册、一键提取PDF图片的工具，3分钟搞定难题！为什么你需要专业的PDF图片提取工具？手动截图太麻烦：图片位置分散、尺寸不一，截图后还需裁剪整理，耗时耗力。图片质
华为ensp--BGP路径选择Community 华为路由bgp
学习新思想，争做新青年，今天学习的是BGP路径选择Community实验目的·理解团体属性的概念与作用·熟悉运用团体属性来控制路由传递的方法·理解No-Export、No-Advertise、No-Export-Subconfed属性的区别实验内容本实验网络中，R1属于AS100，R2、R3和R4属于AS编号为200的一个联盟，R5属于AS300。在联盟AS200中，R2和R4属于成员AS2001
计算机网络笔记再战——理解几个经典的协议HTTP章4 charlie114514191 计算机网络学习计算机网络笔记 http 学习网络协议网络
计算机网络笔记再战——理解几个经典的协议10HTTP章4确保Web安全的HTTPSHTTP是不安全的，它使用的是明文传递，这意味着潜在的报文纂改。这里我们将学习更加安全的HTTPS协议通信使用明文（不加密），内容可能会被窃听不验证通信方的身份，因此有可能遭遇伪装无法证明报文的完整性，所以有可能已遭篡改HTTP本身没有办法加密，但是可以跟SSL（SecureSocketLayer）或者是TLS（Tr
【MYSQL学习】5分钟学会MySQL登录，新手也能轻松搞定？墨瑾轩 MySql入门~精通 mysql 学习 adb
关注墨瑾轩，带你探索编程的奥秘！超萌技术攻略，轻松晋级编程高手技术宝库已备好，就等你来挖掘订阅墨瑾轩，智趣学习不孤单即刻启航，编程之旅更有趣5分钟学会MySQL登录，新手也能轻松搞定？引言嘿，小伙伴们！今天我们来聊聊MySQL的登录问题。对于初学者来说，登录数据库可能是你接触MySQL的第一步，也是最重要的一步。那么，MySQL是如何登录的呢？有哪些常见的问题需要注意？别急，今天我就带你一步步了解
知识库在意图识别中扮演着**数据支撑**和**语义理解辅助**的双重角色 PersistDZ 大数据与AI 人工智能
知识库在意图识别中扮演着数据支撑和语义理解辅助的双重角色，而训练智能客服的意图识别Agent需要结合知识库的结构化数据与机器学习技术。以下是详细解析：一、知识库在意图识别中的作用1.提供标注数据意图标签定义：知识库中存储了预先定义的意图分类体系（如“订单查询”“退换货”“投诉”等），为模型提供明确的训练目标。标注样本：知识库包含大量用户对话历史及其对应的意图标签，是训练监督学习模型的核心数据源。2
K8S学习之基础四十：配置altermanager发送告警到钉钉群云上艺旅 K8S学习 kubernetes 学习钉钉 prometheus 云原生容器
配置altermanager发送告警到钉钉群创建钉钉群，设置机器人助手(必须是管理员才能设置)，获取webhookwebhook：https://oapi.dingtalk.com/robot/send?access_token=25bed933a52d69f192347b5be4b2193bc0b257a6d9ae68d81619e3ae3d93f7c6#创建cm，配置钉钉群信息vialertm
戴尔笔记本win8系统改装win7系统 sophia天雪 win7 戴尔改装系统 win8
戴尔win8 系统改装win7 系统详述第一步：使用U盘制作虚拟光驱： 1）下载安装UltraISO：注册码可以在网上搜索。 2）启动UltraISO，点击“文件”—》“打开”按钮，打开已经准备好的ISO镜像文
BeanUtils.copyProperties使用笔记 bylijinnan java
BeanUtils.copyProperties VS PropertyUtils.copyProperties 两者最大的区别是： BeanUtils.copyProperties会进行类型转换，而PropertyUtils.copyProperties不会。既然进行了类型转换，那BeanUtils.copyProperties的速度比不上PropertyUtils.copyProp
MyEclipse中文乱码问题 0624chenhong MyEclipse
一、设置新建常见文件的默认编码格式，也就是文件保存的格式。在不对MyEclipse进行设置的时候，默认保存文件的编码，一般跟简体中文操作系统（如windows2000，windowsXP）的编码一致，即GBK。在简体中文系统下，ANSI 编码代表 GBK编码;在日文操作系统下，ANSI 编码代表 JIS 编码。 Window-->Preferences-->General -
发送邮件不懂事的小屁孩 send email
import org.apache.commons.mail.EmailAttachment; import org.apache.commons.mail.EmailException; import org.apache.commons.mail.HtmlEmail; import org.apache.commons.mail.MultiPartEmail;
动画合集换个号韩国红果果 html css
动画指一种样式变为另一种样式 keyframes应当始终定义0 100 过程 1 transition 制作鼠标滑过图片时的放大效果 css .wrap{ width: 340px;height: 340px; position: absolute; top: 30%; left: 20%; overflow: hidden; bor
网络最常见的攻击方式竟然是SQL注入蓝儿唯美 sql注入
NTT研究表明，尽管SQL注入（SQLi）型攻击记录详尽且为人熟知，但目前网络应用程序仍然是SQLi攻击的重灾区。信息安全和风险管理公司NTTCom Security发布的《2015全球智能威胁风险报告》表明，目前黑客攻击网络应用程序方式中最流行的，要数SQLi攻击。报告对去年发生的60亿攻击行为进行分析，指出SQLi攻击是最常见的网络应用程序攻击方式。全球网络应用程序攻击中，SQLi攻击占
java笔记2 a-john java
类的封装： 1，java中，对象就是一个封装体。封装是把对象的属性和服务结合成一个独立的的单位。并尽可能隐藏对象的内部细节（尤其是私有数据） 2，目的：使对象以外的部分不能随意存取对象的内部数据（如属性），从而使软件错误能够局部化，减少差错和排错的难度。 3，简单来说，“隐藏属性、方法或实现细节的过程”称为——封装。 4，封装的特性： 4.1设置
[Andengine]Error：can't creat bitmap form path “gfx/xxx.xxx” aijuans 学习Android遇到的错误
最开始遇到这个错误是很早以前了，以前也没注意，只当是一个不理解的bug，因为所有的texture，textureregion都没有问题，但是就是提示错误。昨天和美工要图片，本来是要背景透明的png格式，可是她却给了我一个jpg的。说明了之后她说没法改，因为没有png这个保存选项。我就看了一下，和她要了psd的文件，还好我有一点
自己写的一个繁体到简体的转换程序 asialee java 转换繁体 filter 简体
今天调研一个任务，基于java的filter实现繁体到简体的转换，于是写了一个demo，给各位博友奉上，欢迎批评指正。实现的思路是重载request的调取参数的几个方法，然后做下转换。
android意图和意图监听器技术百合不是茶 android 显示意图隐式意图意图监听器
Intent是在activity之间传递数据;Intent的传递分为显示传递和隐式传递显式意图：调用Intent.setComponent() 或 Intent.setClassName() 或 Intent.setClass()方法明确指定了组件名的Intent为显式意图，显式意图明确指定了Intent应该传递给哪个组件。隐式意图;不指明调用的名称,根据设
spring3中新增的@value注解 bijian1013 java spring @Value
在spring 3.0中，可以通过使用@value，对一些如xxx.properties文件中的文件，进行键值对的注入，例子如下： 1.首先在applicationContext.xml中加入： <beans xmlns="http://www.springframework.
Jboss启用CXF日志 sunjing log jboss CXF
1. 在standalone.xml配置文件中添加system-properties： <system-properties> <property name="org.apache.cxf.logging.enabled" value=&
【Hadoop三】Centos7_x86_64部署Hadoop集群之编译Hadoop源代码 bit1129 centos
编译必需的软件 Firebugs3.0.0 Maven3.2.3 Ant JDK1.7.0_67 protobuf-2.5.0 Hadoop 2.5.2源码包 Firebugs3.0.0 http://sourceforge.jp/projects/sfnet_findbug
struts2验证框架的使用和扩展白糖_ 框架 xml bean struts 正则表达式
struts2能够对前台提交的表单数据进行输入有效性校验，通常有两种方式： 1、在Action类中通过validatexx方法验证，这种方式很简单，在此不再赘述； 2、通过编写xx-validation.xml文件执行表单验证，当用户提交表单请求后，struts会优先执行xml文件，如果校验不通过是不会让请求访问指定action的。本文介绍一下struts2通过xml文件进行校验的方法并说
记录-感悟 braveCS 感悟
再翻翻以前写的感悟，有时会发现自己很幼稚，也会让自己找回初心。 2015-1-11 1. 能在工作之余学习感兴趣的东西已经很幸福了； 2. 要改变自己，不能这样一直在原来区域，要突破安全区舒适区，才能提高自己，往好的方面发展； 3. 多反省多思考；要会用工具，而不是变成工具的奴隶； 4. 一天内集中一个定长时间段看最新资讯和偏流式博
编程之美-数组中最长递增子序列 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class LongestAccendingSubSequence { /** * 编程之美数组中最长递增子序列 * 书上的解法容易理解 * 另一方法书上没有提到的是，可以将数组排序（由小到大）得到新的数组， * 然后求排序后的数组与原数
读书笔记5 chengxuyuancsdn 重复提交 struts2的token验证
1、重复提交 2、struts2的token验证 3、用response返回xml时的注意 1、重复提交 (1)应用场景 (1-1)点击提交按钮两次。 (1-2)使用浏览器后退按钮重复之前的操作，导致重复提交表单。 (1-3)刷新页面 (1-4)使用浏览器历史记录重复提交表单。 (1-5)浏览器重复的 HTTP 请求。 (2)解决方法 (2-1)禁掉提交按钮 (2-2)
[时空与探索]全球联合进行第二次费城实验的可能性 comsci
二次世界大战前后,由爱因斯坦参加的一次在海军舰艇上进行的物理学实验 -费城实验至今给我们大家留下很多迷团..... 关于费城实验的详细过程,大家可以在网络上搜索一下,我这里就不详细描述了在这里,我的意思是,现在
easy connect 之 ORA-12154: TNS: 无法解析指定的连接标识符 daizj oracle ORA-12154
用easy connect连接出现“tns无法解析指定的连接标示符”的错误，如下： C:\Users\Administrator>sqlplus username/[email protected]:1521/orcl SQL*Plus: Release 10.2.0.1.0 – Production on 星期一 5月 21 18:16:20 2012 Copyright (c) 198
简单排序:归并排序 dieslrae 归并排序
public void mergeSort(int[] array){ int temp = array.length/2; if(temp == 0){ return; } int[] a = new int[temp]; int
C语言中字符串的\0和空格 dcj3sjt126com c
\0 为字符串结束符，比如说： abcd (空格)cdefg；存入数组时，空格作为一个字符占有一个字节的空间，我们
解决Composer国内速度慢的办法 dcj3sjt126com Composer
用法：有两种方式启用本镜像服务： 1 将以下配置信息添加到 Composer 的配置文件 config.json 中（系统全局配置）。见“例1” 2 将以下配置信息添加到你的项目的 composer.json 文件中（针对单个项目配置）。见“例2” 为了避免安装包的时候都要执行两次查询，切记要添加禁用 packagist 的设置，如下 1 2 3 4 5
高效可伸缩的结果缓存 shuizhaosi888 高效可伸缩的结果缓存
/** * 要执行的算法，返回结果v */ public interface Computable<A, V> { public V comput(final A arg); } /** * 用于缓存数据 */ public class Memoizer<A, V> implements Computable<A,
三点定位的算法 haoningabc c 算法
三点定位，已知a,b,c三个顶点的x,y坐标和三个点都z坐标的距离，la，lb,lc 求z点的坐标原理就是围绕a,b,c 三个点画圆，三个圆焦点的部分就是所求但是，由于三个点的距离可能不准，不一定会有结果，所以是三个圆环的焦点，环的宽度开始为0，没有取到则加1 运行 gcc -lm test.c test.c代码如下 #include "stdi
epoll使用详解 jimmee c linux 服务端编程 epoll
epoll - I/O event notification facility在linux的网络编程中，很长的时间都在使用select来做事件触发。在linux新的内核中，有了一种替换它的机制，就是epoll。相比于select，epoll最大的好处在于它不会随着监听fd数目的增长而降低效率。因为在内核中的select实现中，它是采用轮询来处理的，轮询的fd数目越多，自然耗时越多。并且，在linu
Hibernate对Enum的映射的基本使用方法 linzx0212 enum Hibernate
枚举 /** * 性别枚举 */ public enum Gender { MALE(0), FEMALE(1), OTHER(2); private Gender(int i) { this.i = i; } private int i; public int getI
第10章高级事件（下） onestopweb 事件
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
孙子兵法 roadrunners 孙子兵法
始计第一孙子曰：兵者，国之大事，死生之地，存亡之道，不可不察也。故经之以五事，校之以计，而索其情：一曰道，二曰天，三曰地，四曰将，五曰法。道者，令民于上同意，可与之死，可与之生，而不危也；天者，阴阳、寒暑、时制也；地者，远近、险易、广狭、死生也；将者，智、信、仁、勇、严也；法者，曲制、官道、主用也。凡此五者，将莫不闻，知之者胜，不知之者不胜。故校之以计，而索其情，曰
MySQL双向复制 tomcat_oracle mysql
本文包括: 主机配置从机配置建立主-从复制建立双向复制背景按照以下简单的步骤: 参考一下：在机器A配置主机(192.168.1.30) 在机器B配置从机(192.168.1.29) 我们可以使用下面的步骤来实现这一点步骤1：机器A设置主机在主机中打开配置文件 ,
zoj 3822 Domination(dp) 阿尔萨斯 Mina
题目链接：zoj 3822 Domination 题目大意：给定一个N∗M的棋盘，每次任选一个位置放置一枚棋子，直到每行每列上都至少有一枚棋子，问放置棋子个数的期望。解题思路：大白书上概率那一张有一道类似的题目，但是因为时间比较久了，还是稍微想了一下。dp[i][j][k]表示i行j列上均有至少一枚棋子，并且消耗k步的概率（k≤i∗j）,因为放置在i+1~n上等价与放在i+1行上，同理