木木KO

条件随机场（conditional random field，CRF）模型初探

转载原链接：https://www.cnblogs.com/LittleHann/p/8655354.html

阅读目录(Content)

1. 条件随机场，一种特殊的概率图模型结构
- 0x1：概率无向图模型
  - 1. 概率无向图模型定义
  - 2. 概率无向图模型的因子分解
2. 条件随机场的发展脉络
- 0x1：条件随机场的学术发展脉络
- 0x2：3种不同算法在标注问题中的计算要素
- 0x3：CRF算法对HMM和HEMM的主要改进点
  - 1. CRF避免了HMM中的严格的独立性假设条件
  - 2. CRF避免了HEMM的标记偏置问题（在进行序列标注时因为训练样本的分布不充分导致的过拟合）
- 0x4：3种算法的比较（简易图示）
  - 1. HMM
  - 2. MEMM
  - 3. CRF
3. 条件随机场模型
- 0x1：条件随机场表示及其语义
- 0x2：条件贝叶斯网对条件贝叶斯网结构的简化
- 0x3：有向依赖性
  - 1. 从一个从例子说明——词性标注问题
- 0x4：线性链条件随机场的定义与形式
  - 1. 条件随机场的定义
  - 2. 条件随机场的参数化形式
  - 3. 条件随机场的简化形式
  - 4. 条件随机场的矩阵形式
4. 条件随机场算法策略
- 0x1：前向-后向算法
- 0x2：概率计算
- 0x3：期望值的计算
5. 条件随机场的学习算法
- 0x1：改进的迭代尺度法
- 0x2：拟牛顿法
  - 1. 条件随机场模型学习的BFGS算法
6. 条件随机场的预测算法
- 0x1：条件随机场预测中的维特比算法
  - 1. 应用维特比算法求给定输入序列对应的最优输出序列 - 最大似然估计

回到顶部(go to top)

1. 条件随机场，一种特殊的概率图模型结构

我们知道，从图结构角度来说，概率图模型可以分为以下两种：

基于有向图的贝叶斯网：具备有向依赖性
基于无向图的马尔科夫网：具备无向依赖性

条件随机场是一个在变量子集上存在有向依赖的马尔科夫网，和通用的一般化概率图结构不同，条件随机场是一个链状的链模型，故称之为“场”。

马尔科夫网是一种概率无向图，这里简单介绍无向图的一个基本概念。

0x1：概率无向图模型

概率无向图模型（probabilistic undirected graphical model），又称为马尔科夫随机场（markov random field），是一个可以由无向图表示的联合概率分布。

1. 概率无向图模型定义

图（graph）是由节点（node）及连接节点的边（edge）组成的集合。节点的边分别记作 v 和 e，节点和边的集合分别记作 V 和 E，图记作 G =（V，E）。无向图是指边没有方向的图。因为理论上概率转移矩阵中所有节点间都是可以互相转移的。

概率图模型（probabilistic graphical model）是由图表示的概率分布。设有联合概率分布 P（Y），是一组随机变量。由无向图 G =（V，E）表示概率分布 P（Y），即在图 G 中，节点表示一个随机变量，；边表示随机变量之间的概率依赖关系。

给定一个联合概率分布 P（Y）和表示它的无向图 G。首先定义无向图表示的随机变量之间存在的成对马尔科夫性（pairwise markov property）、局部马尔科夫性（local markov property）、全局马尔科夫性（global markov property）。

1）成对马尔科夫性

设 u 和 v 是无向图 G 中任意两个没有边连接的节点，节点 u 和 v 分别对应随机变量 Yu 和 Yv。其他所有节点为 O，对应的随机变量组是 Yo。成对马尔科夫性是指给定随机变量组 Yo的条件下随机变量 Yu 和 Yv 是条件独立的，即：

2）局部马尔科夫性

设是无向图 G 中任意一个节点，W 是与 v 有边连接的所有节点， O 是v，W 以外的其他所有节点。v 表示的随机变量是 Yv，W 表示的随机变量组是 Yw，O 表示的随机变量组是 Yo。局部马尔科夫性是指在给定随机变量组 Yw 的条件下，随机变量 Yv 与随机变量 Yo是独立的，即：

3）全局马尔科夫性

设节点集合 A，B 是在无向图 G 中被节点集合 C 分开的任意节点集合，如下图所示

节点集合 A，B，C 所对应的随机变量组分别是 Ya，Yb，Yc。全局马尔科夫性是指给定随机变量组 Yc 条件下随机变量组 Ya 和 Yb 是条件独立的，即：

以上三种特性都满足一种：

有限依赖特性，超过一定范围的随机变量之间是条件独立的。其实，HMM本质也是一种有限依赖特性。

设有联合概率分布 P（Y），由无向图 G =（V，E）表示，在图 G 中，节点表示随机变量，边表示随机变量之间的依赖关系。如果联合概率分布P（Y）满足成对、局部或全局马尔科夫性，就称此联合概率分布为概率无向图模型（probabilistic undirected graphical model），或马尔科夫随机场（markov random field）。

2. 概率无向图模型的因子分解

对给定的概率无向图模型，我们希望将整体的联合概率写成若干子联合概率的乘积的形式，也就是将联合概率进行因子分解，这样便于模型的学习与计算。实际上，概率无向图模型的最大特点就是易于因子分解。

1）团与最大团

无向图 G 中任何两个节点均有边连接的节点子集称为团（clique）。若 C 是无向图 G 的一个团，并且不能再加进任何一个 G 的节点使其成为一个更大的团，则称此 C 为最大团（maximal clique）。

下图表示由4个节点组成的无向图：

图中由2个节点组成的团有5个：{Y1，Y2}、{Y2，Y3}、{Y3，Y4}、{Y4，Y2}、{Y1，Y3}；

有2个最大团：{Y1，Y2，Y3}、{Y2，Y3，Y4}；

注意，{Y1，Y2，Y3，Y4}不是一个团，因为 Y1 和 Y4 没有边连接，这对应在概率分布中即这2个随机变量之间没有概率依赖关系。

将概率无向图模型的联合概率分布表示为其最大团上的随机变量的函数的乘积形式的操作，称为概率无向图模型的因子分解（factorization）。

给定概率无向图模型，设其无向图为 G，C 为 G 上的最大团，Yc表示 C 对应的随机变量。那么概率无向图模型的联合概率分布 P（Y）可写作图中所有最大团 C 上的函数的乘积形式，即：

，

其中， Z 是规范化因子（normalization factor）：

规范化因子保证 P（Y）构成一个概率分布，函数称为势函数（potential function）。

这里要求势函数必须是严格正的，通常定义为指数函数：

2）Hammerslev-Clifford定理

概率无向图模型的因子分解由Hammerslev-Clifford定理来保证。

概率无向图模型的联合概率分布 P（Y）可以表示为如下形式：

其中，C 是无向图的最大团，Yc是 C 的节点对应的随机变量，是 C 上定义的严格正函数，乘积是在无向图所有的最大团上进行的。

回到顶部(go to top)

2. 条件随机场的发展脉络

0x1：条件随机场的学术发展脉络

我们可以不太严谨地这么说，HMM -> HEMM -> CRF，它们之间是逐渐演进的结果。

隐马尔可夫模型（Hidden Markov Model，HMM）、最大熵马尔可夫模型（Maximum Entropy Markov Model，MEMM）、以及条件随机场（Conditional Random Field，CRF）是链式模型中最常用也是最基本的三个模型。HMM首先出现，MEMM其次，CRF最后。三个算法主要思想如下：

HMM模型是对转移概率和表现概率直接建模，统计共现概率。
MEMM模型是对转移概率和表现概率建立联合概率，统计时统计的是条件概率，但MEMM容易陷入局部最优，是因为MEMM只在局部做归一化。
CRF模型中，统计了全局概率，同时在做归一化时，考虑了数据在全局的分布，而不是仅仅在局部归一化，这样就解决了MEMM中的标记偏置（label bias）的问题。

我们以标注问题为例，来对比一下这3种模型的不同之处。

0x2：3种不同算法在标注问题中的计算要素

用一个例子说明上述区别，对于一个标注任务

H（状态序列）= ”s s b e b c e”
O（观测序列）= “我爱北京天安门“

我们分别来看三种算法在训练过程中需要计算的组成要素：

1. 对于HMM的话，其判断这个标注成立的概率为 
P = 
    P(初始状态概率) * 
    P(初始状态转移到s)*P(‘我’表现为s) * 
    P(s转移到s)*P(‘爱’表现为s) * 
    P(s转移到b)*P(‘北’表现为b) *
    P(b转移到e)*P(‘京’表现为b) *
    P(e转移到b)*P(‘天’表现为b) *
    P(b转移到c)*P(‘安’表现为b) *
    P(c转移到e)*P(‘门’表现为b) * 
训练时，要统计状态转移概率矩阵和表现矩阵。

2. 对于MEMM的话，其判断这个标注成立的概率为 
P = 
    P(初始状态概率) *
    P(初始状态转移到s|’我’表现为s)*P(‘我’表现为s) * 
    P(s转移到s|’爱’表现为s)*P(‘爱’表现为s) * 
    ..
    P(c转移到e|‘门’表现为b)*P(‘门’表现为b)
训练时，要统计条件状态转移概率矩阵和表现矩阵。

3. 对于CRF的话，其判断这个标注成立的概率为 
P =  
    F(初始状态转移到s,’我’表现为s) *
    F(s转移到s, ‘爱’表现为s) * 
    F(s转移到b, ‘北’表现为b) *
    F(b转移到e, ‘京’表现为b) *
    F(e转移到b, ‘天’表现为b) *
    F(b转移到c, ‘安’表现为b) *
    F(c转移到e, ‘门’表现为b) * 
F为一个函数，是在全局范围统计归一化的概率而不是像MEMM在局部统计归一化的概率。

0x3：CRF算法对HMM和HEMM的主要改进点

1. CRF避免了HMM中的严格的独立性假设条件

我们知道，要再实际问题中应用HMM算法，隐马尔可夫模型作了两个基本假设：

齐次马尔科夫性假设：即假设隐藏的马尔柯夫链（隐状态序列）在任意时刻 t 的状态只依赖于前一时刻的状态，与其他时刻的状态及观测无关，也与当前时刻 t 无关：
观测独立性假设：即假设任意时刻的观测只依赖于该时刻的马尔柯夫链的状态（观测与隐状态一一对应），与其他观测及状态无关。观测序列彼此之间是独立同分布的（这点类似于朴素贝叶斯的独立同分布假设）

输出独立性假设（即要求观测序列之间是独立同分布的）要求序列数据严格相互独立才能保证推导的正确性，而事实上大多数序列数据不能被表示成一系列独立事件。而条件随机场CRF则使用一种概率图模型，具有表达长距离依赖性和交叠性特征的能力，能够较好地解决标注（分类）偏置等问题的优点，而且所有特征可以进行全局归一化，能够求得全局的最优解。

2. CRF避免了HEMM的标记偏置问题（在进行序列标注时因为训练样本的分布不充分导致的过拟合）

我们用一个例子来说明标记偏置问题

用Viterbi算法解码MEMM，状态1倾向于转换到状态2，同时状态2倾向于保留在状态2。

但是我们基于训练样本计算得到的解码过程，却不符合Viterbi算法的预期结果：

路径1-1-1-1的概率: 0.4 * 0.45 * 0.5 = 0.09
路径2-2-2-2的概率: 0.2 * 0.3 * 0.3 = 0.018
路径1-2-1-2的概率: 0.6 * 0.2 * 0.5 = 0.06
路径1-1-2-2的概率: 0.4 * 0.55 * 0.3 = 0.066

单纯从训练样本计算得到经验概率可知，最优路径为1-1-1-1。

然而，仔细观察可发现上图中stat1 中每个结点都倾向于转移到stat2，这明显是和直觉不相符的，同时还发现start3/4/5在这批训练样本的的转移概率为零（终止了）。

这是为什么呢？因为状态2可以转换的状态比状态1要多，从而使转移概率降低，即MEMM倾向于选择拥有更少转移的状态。

造成这一现象有很大可能只是因为这批训练样本抽样方式有问题，或者样本数量太少而导致规律分布产生了偏置。我们如果基于这种不完整的规律分布去进行模型训练学习，得到的模型一定也是不能完全表达真实的规律本身的。

从HEMM的数学公式上来分析产生这一问题的原因。

直接看MEMM公式：

求和的作用在概率中是归一化，但是这里归一化放在了指数内部，管这叫local归一化。

HEMM中的viterbi求解过程，是用dp的状态转移公式，因为是局部归一化，所以MEMM的viterbi的转移公式的第二部分出现了问题，导致dp无法正确的递归到全局的最优。

这就是所谓的标注偏置问题。实际上，造成这一问题的根本原因是每个节点分支数不同，由于MEMM的局部归一化特性，使得转出概率的分布不均衡，最终导致状态的转移存在不公平的情况。

CRF则是利用一种全局的优化思路来定向解决的，即使出现了上图所示的某个状态的next转移概率为1，在训练过程中也不会得出转移概率为1的模型参数。

0x4：3种算法的比较（简易图示）

1. HMM

HMM模型将标注任务抽象成马尔可夫链，一阶马尔可夫链式针对相邻标注的关系进行建模，其中每个标记对应一个概率函数。HMM是一种产生式模型，定义了联合概率分布p(x,y) ，其中x和y分别表示观察序列和相对应的标注序列的随机变量。

为了能够定义这种联合概率分布，产生式模型需要枚举出所有可能的观察序列（需要获取所有完整的概率分布），这在实际运算过程中很困难，所以我们可以将观察序列的元素看做是彼此孤立的个体, 即假设每个元素彼此独立（和naive bayes类似），任何时刻的观察结果只依赖于该时刻的状态。

上图很好诠释了HMM模型中存在两个假设：一是输出观察值（蓝色）之间严格独立，二是状态的转移过程中当前状态只与前一状态有关(一阶马尔可夫模型)。

2. MEMM

HMM模型在大量真实语料中观察序列的场景中会遇到表征力不足的瓶颈。因为观测序列在大数据集下更多的是以一种多重的交互特征形式表现的，观察元素之间广泛存在长程相关性。例如，在命名实体识别任务中，由于实体本身结构所具有的复杂性，利用简单的特征函数往往无法涵盖所有特性，这时HMM的假设前提使得它无法使用复杂特征(它无法使用多于一个标记的特征。），这个时候就需要引入最大熵名。

简单来说，MEMM把HMM模型和maximum-entropy模型的优点集合成一个统一的产生式模型，这个模型允许状态转移概率依赖于序列中彼此之间非独立的特征上，从而将上下文信息引入到模型的学习和识别过程中，达到了提高识别的准召率的效果。

上图说明MEMM模型克服了观察值之间严格独立产生的问题，但是由于状态之间的假设理论，使得该模型存在标注偏置问题。

3. CRF

我们知道，MEMM并不完美，它存在明显的标记偏置问题。于是CMU的教授JohnLafferty提出了更先进的CRF模型。

CRF模型具有以下特点：

CRF在给定了观察序列的情况下，对整个的序列的联合概率有一个统一的指数模型，它具备一个比较吸引人的特性就是其损失函数的凸面性；
CRF具有很强的推理能力，并且能够使用复杂、有重叠性和非独立的特征进行训练和推理，能够充分地利用上下文信息作为特征，还可以任意地添加其他外部特征，使得模型能够获取的信息非常丰富；
CRF解决了MEMM中的标记偏置问题，这也正是CRF与MEMM的本质区别所在，最大熵模型在每个状态都有一个概率模型，在每个状态转移时都要进行归一化。如果某个状态只有一个后续状态，那么该状态到后续状态的跳转概率即为1。这样，不管输入为任何内容，它都向该后续状态跳转。而CRF是在所有的状态上建立一个统一的概率模型，这样在进行归一化时，即使某个状态只有一个后续状态，它到该后续状态的跳转概率也不会为1。

上图显示CRF模型解决了标注偏置问题，去除了HMM中两个不合理的假设。当然，模型相应得也变复杂了

Relevant Link:

https://www.jianshu.com/p/55755fc649b1
https://www.cnblogs.com/Dr-XLJ/p/5466856.html
https://www.zhihu.com/question/35866596

回到顶部(go to top)

3. 条件随机场模型

在概率图模型中，我们将马尔科夫网表示描述为刻画X上联合分布的一种方法。相同的无向图表示和参数化也可以用来刻画条件分布P(Y | X)，其中 Y 是目标变量集，而 X 是（不相交的）观测变量集

在马尔科夫网情形下，这种表示通常称为条件随机场（CRF）。

0x1：条件随机场表示及其语义

更正式地，条件随机场是一个节点与 Y∪X 对应的无向图。在高层次上，用于普通马尔科夫网相同的方法，可以将这个图参数化为一系列的因子。这些因此也可以更紧凑地表示为一个对数线性模型。

为了表示上的一致性，对数线性模型可以看作是对一系列因子的刻画。

正式的定义如下：

条件随机场是一个节点与 X∪Y 对应的无向图，这个网络由一组满足每个的因子注释。刻画条件分布的网络如下所示：

只要中的两个变量在某个因子的辖域上一起出现，它们便由一条无向边相连。

0x2：条件贝叶斯网对条件贝叶斯网结构的简化

注意，与条件贝叶斯网的定义不用，条件随机场的结构中可能仍然含有X中变量之前的边。这种现象发生在这两个变量同时出现在包含目标变量的一个因子中。

然而，由于该网络明确地不能编码任何这种分布，因此这些边不能刻画X上任何分布的结构。

能够避免在X的变量熵编码分布是条件随机场的主要优势之一。这一灵活性允许我们在模型中引入充分的观测变量。此外，这一灵活性还允许我们运用领域知识来定义充足的用以刻画某领域的特征，而不用考虑对它们的联合分布建模的问题。

0x3：有向依赖性

条件随机场定义了Y关于X的一个条件分布，因此可以将其视为一个部分有向图（partially directed graph），其中，Y上存在一个无向的分量，而X中的变量是其父节点。

下面用一个常见的序列映射问题，词性标注，来解释条件随机场的有向依赖性是如何运用的。

1. 从一个从例子说明——词性标注问题

我们从一个具体的例子开始，来对CRM建立一个感性上的认识。

所谓词性标注问题，就是给一个句子中的每个单词注明词性。比如这句话：“Bob drank coffee at Starbucks”，注明每个单词的词性后是这样的：“Bob (名词) drank(动词) coffee(名词) at(介词) Starbucks(名词)”。

下面，就用条件随机场来解决这个问题。

我们知道，可选的标注序列有很多种，比如l还可以是这样：

“Bob (名词) drank(动词) coffee(名词) at(介词) Starbucks(名词)”
也可以是，“Bob (名词) drank(动词) coffee(动词) at(介词) Starbucks(名词)”

我们的任务是，在这么多的可选标注序列中，挑选出一个最靠谱的作为我们对这句话的标注。

怎么判断一个标注序列靠谱不靠谱呢？这里就要借助有监督学习的算法了，输入一个训练样本集，得到一个标注序列，使其”最符合训练样本集“中的概率分布，则说明这个标注序列最靠谱。

我们先从感性层面来讨论这个问题，

就我们上面展示的两个标注序列来说，第二个显然不如第一个靠谱，因为它把第二、第三个单词都标注成了动词，动词后面接动词，这在一个句子中通常是说不通的。

假如我们给每一个标注序列打分，打分越高代表这个标注序列越靠谱，我们至少可以说，凡是标注中出现了动词后面还是动词的标注序列，要给它负分！！

上面所说的动词后面还是动词就是一个特征函数，我们可以定义一个特征函数集合，用这个特征函数集合来为一个标注序列打分，并据此选出最靠谱的标注序列。把集合中所有特征函数对同一个标注序列的评分综合起来，就是这个标注序列最终的评分值。

1）定义CRF中的特征函数

我们继续围绕这个例子，讨论CRF中的特征函数定义的问题。

句子s（就是我们要标注词性的句子）
i，用来表示句子s中第i个单词
l_i，表示要评分的标注序列给第 i 个单词标注的词性（相当于词性序列的下标）
l_i-1，表示要评分的标注序列给第 i-1 个单词标注的词性

它的输出值是 0 或者 1, 0 表示要评分的标注序列不符合这个特征，1 表示要评分的标注序列符合这个特征。这种 0/1 取值的特征函数类似神经网络中的单个神经元。

Note:这里，我们的特征函数仅仅依靠当前单词的标签和它前面的单词的标签对标注序列进行评判，这样建立的CRF也叫作线性链CRF，这是CRF中的一种简单情况。

1.1）几个特征函数的例子

围绕词性标注这个例子，我们来人工定义几个特征函数：

：当l_i是“副词”并且第i个单词以“ly”结尾时，我们就让f1 = 1，其他情况f1为0。不难想到，模型经过训练后，f1 特征函数的权重 λ1 应当是正的（向训练样本拟合）。而且 λ1 越大，表示我们越倾向于采用那些把以“ly”结尾的单词标注为“副词”的标注序列。或者说训练样本中这个规律特征表现地越明显。

：如果i=1，l_i=动词，并且句子s是以“？”结尾时，f2=1，其他情况f2=0。同样，λ2应当是正的，并且λ2越大，表示我们越倾向于采用那些把问句的第一个单词标注为“动词”的标注序列。
：当l_i-1是介词，l_i是名词时，f3 = 1，其他情况f3=0。λ3也应当是正的，并且λ3越大，说明我们越认为介词后面应当跟一个名词。
：如果l_i和l_i-1都是介词，那么f4等于1，其他情况f4=0。

这里，我们应当可以想到λ4是负的，并且λ4的绝对值越大，表示我们越不认可介词后面还是介词的标注序列。

在实际的工程项目中，特征函数的选择是一个非常重要的过程，它取决于我们具体的业务场景。例如在入侵检测场景中，我们可能选取文本ascii序列模型作为特征，这意味着我们建立了一个先验假设：”正常的文本和异常的文本在ascii序列模式上存在明显的不一致“

2）对特征函数赋予对应的权重，得到概率表示 - 类似深度神经网络中的激活函数求值过程

定义好一组特征函数后，我们要给每个特征函数f_j赋予一个权重λ_j。

然后，只要有一个句子s，有一个标注序列 l，我们就可以通过对权重的加权计算来得到一个评分值，即对标记序列 l 评分。而特征函数是否激活取决于标记序列当天 l_i 的值是否满足特征条件。

上式中有两个求和，外面的求和用来求每一个特征函数f_j评分值的和，里面的求和用来求句子中每个位置的单词的的特征值的和。

对这个分数进行指数化和标准化（规范化到【0，1】值域中），我们就可以得到标注序列l的概率值 p（l | s ），如下所示

3）构建条件随机场CRF的基本要素

为了建一个条件随机场，我们首先要定义一个特征函数集，每个特征函数都以整个句子s，当前位置i，位置i和i-1的标签为输入。然后为每一个特征函数赋予一个权重，然后针对每一个标注序列l，对所有的特征函数加权求和，必要的话，可以把求和的值转化为一个概率值。

0x4：线性链条件随机场的定义与形式

之前的章节中，我们讨论了词性标注的问题，其实这背后是一种称为线性链条件随机场的模型，我们这个章节来详细讨论它。

1. 条件随机场的定义

条件随机场（conditional random field）是在给定随机变量 X 的条件下，随机变量 Y 的马尔科夫随机场。我们这节要讨论的定义在线性链上的特殊的条件随机场，称为线性链条件随机场（linear chain conditional field）。

线性链条件随机场可以用于标注等问题。这时，在条件概率模型 P（Y | X）中，Y 是输出变量，表示标记序列，X 是输入变量，表示需要标注的观测序列。也把标记序列称为状态序列（在隐马尔可夫模型中标记序列即隐状态序列）。

学习时，利用训练数据集通过极大似然估计或正则化的极大似然估计得到条件概率模型
预测时，对于给定的输入序列 x，求出条件概率最大的输出序列

1）从一般的条件随机场说起

设 X 与 Y 是随机变量，P（Y | X）是在给定 X 的条件下 Y 的条件概率分布。若随机变量 Y 构成一个由无向图 G =（V，E）表示的马尔科夫随机场，即：

对任意节点 v 成立，则称条件概率分布P（Y | X）为条件随机场。式中 w ~ v 表示在图 G =（V，E）中与节点 v 有边连接的所有节点 w，w != v 表示节点 v 以外的所有节点。

可以看到，条件随机场的定义是一个泛化的随机变量之间有限依赖的关系。同时也可以看到，HMM本质上是随机场的一种形态。

在定义中没有要求 X 和 Y 具有相同的结构。但是在实际使用中，一般假设 X 和 Y 有相同的图结构，

我们这里只讨论如下所示的线性链条件随机场：

在这种情况下，X = （X1，X2，...，Xn），Y = （Y1，Y2，...，Yn），最大团是相邻两个节点的集合

2）线性链条件随机场定义

设 X = （X1，X2，...，Xn），Y = （Y1，Y2，...，Yn）均为线性链表示的随机变量序列，若在给定随机变量序列 X 的条件下，随机变量序列 Y 的条件概率分布 P（Y | X）构成条件随机场，即满足马尔科夫性：

即某个隐状态只取决于其所在最大团以及条件变量 X。

则称 P（Y | X）为线性链条件随机场。

在标注问题中，X 表示输入观测序列，Y 表示对应的输出标记序列或状态序列。

2. 条件随机场的参数化形式

根据Hammerslev-Clifford定理（最大团因子分解）定理，可以给出线性链条件随机场 P（Y | X）的因子分解式，各因子是定义在相邻两个节点（对于线性链条件随机场来说，最大团就是相邻节点的集合）上的函数。

1）线性链条件随机场的参数化形式

设 P（Y | X）为线性链条件随机场，则在随机变量 X 取值为 x 的条件下，随机变量 Y 的取值为 y 的条件概率具有如下形式：

其中，

式中，和是特征函数，和是对应的权值。Z（X）是规范化因子，求和是在所有可能的输出序列上进行的。

上面式子是线性链条件随机场模型的基本形式，表示给定输入序列 x，对输出序列 y 预测的条件概率。

是定义在边上的特征函数，称为转移特征，依赖于当前和前一个位置；
是定义在节点上的特征函数，称为状态特征，依赖于当天位置；
和都依赖于位置，是局部特征函数。

通常，特征函数和取值为 1 或0；当满足条件时取值为1，否则为0。条件随机场完全由特征函数和，和对应的权值和确定。

线性链条件随机场也是对数线性模型（log linear model）

2）关于线性链条件随机场的一个简单的例子

设有一个标注问题：输入观测序列为 X = （X1，X2，X3），输出标记序列为 Y =（Y1，Y2，Y3），Y1，Y2，Y3取值于 {1，2}。

假设特征和和对应的权值和如下：

这里只写明特征取值为 1 的条件，取值为 0 的条件省略（因为0的结果为0，不影响加和式的结果）：

下同：

对给定的观测序列 x，求标记序列为 y = （y1，y2，y3）=（1，2，2）的非规范化条件概率：

P（y1 = 1，y2 = 2，y3 = 2 | x）= exp（1 + 0.2 + 1 + 0.5 + 0.5）

因为只有满足特征条件时才为1，否则为0，所以这里其实是在进行权值加和，将满足条件（转移特征、状态特征）的权值进行加和。

3. 条件随机场的简化形式

条件随机场还可以由简化形式表示，我们再来看一下线性链条件随机场的参数化形式：

我们注意到上式中同一个特征在各个位置都有定义，为了简化，可以对同一个特征在各个位置求和，将局部特征函数转化为一个全局特征函数，这样就可以将条件随机场写成权值向量和特征向量的内积形式，即条件随机场的简化形式。

为了简便说明，首先将转移特征和状态特征及其权值用统一的符号表示。设有 K1 个转移特征，K2 个状态特征，K = K1 + K2，记：

然后，对转移与状态特征在各个位置 i 求和，记作：

用表示特征的权值，即：

于是，条件随机场可以简化表示为：

若以 w 表示权值向量，即：

以 F（y，x）表示全局特征向量，即：

则条件随机场可以写成向量 w 与 F（y，x）的内积的形式：

，

其中，

4. 条件随机场的矩阵形式

条件随机场还可以由矩阵表示。假设线性链条件随机场，表示对给定观测序列 x，相应的标记序列 y 的条件概率。引进特殊的起点和终点状态标记，这时可以通过矩阵形式表示。

对观测序列 x 的每一个位置 i = 1，2，...，n+1，定义一个 m 阶矩阵（m 是标记 yi 取值的个数）

这样，给定观测序列 x，相应标记序列 y 的非规范化概率可以通过该序列 n+1 个矩阵适当元素的乘积表示。

于是，条件概率 = ，

其中，为规范化因子，是 n+1 个矩阵的乘积的（start，stop）元素：。

注意，表示开始状态与终止状态，规范化因子是以 start 为起点，stop 为终点通过状态的所有路径 y1y2...yn的非规范化概率之和。

1）一个简单的例子

给定一个下图所示的线性链条件随机场

观测序列 x，状态序列 y，i = 1，2，3，n = 3，标记，假设 y0 = start = 1，y4 = stop = 1，各个位置的随机矩阵 M1（x）、M2（x）、M3（x）、M4（x）分别是：

目标是求状态序列 y 以 start 为起点 stop 为终点所有路径的非规范化概率及规范化因子。

解：

首先先求从 start 到 stop 的所有路径，对应于

y = （1，1，1）

y = （1，1，2）

y = （1，2，1）

y = （1，2，2）

y = （2，1，1）

y = （2，1，2）

y = （2，2，1）

y = （2，2，2）

各路径对应的非规范化概率分别是：

然后求规范化因子，通过计算矩阵乘积 M1（x）M2（x）M3（x）M4（x）可知，其第一行第一列的元素为：

恰好等于从 start 到 stop 的所有路径的非规范化概率之和。

回到顶部(go to top)

4. 条件随机场算法策略

条件随机场的概率计算问题是给定条件随机场 P（Y | X），输入序列 x 和输出序列 y，计算条件概率以及相应的数学期望的问题。和HMM隐马一样，引进前向-后向向量，递归地计算以上概率及期望值。这样的算法称为前向-后向算法。

条件随机场是一种判别式模型，它的策略和其他概率统计机器学习模型一样，即经验风险最小化策略。即我们需要计算相关联合概率和条件概率的极值。

0x1：前向-后向算法

对每个指标 i = 0，1，....，n+1，定义前向向量：。

递推公式为：。

又可表示为：

表示在位置 i 的标记为 yi并且到位置 i 的前部分标记序列的非规范化概率，yi 可取的值有 m 个，所以是 m 维列向量。

同样，对每个指标 i = 0，1，....，n+1，定义后向向量：

，又可表示为：

表示为在位置 i 的标记为 yi 并且从 i+1 到 n 的后部分标记序列的非规范化概率。

0x2：概率计算

按照前向-后向向量的定义，很容易计算标记序列在位置 i 是标记 yi 的条件概率，和在位置 i-1 与 i 是标记 yi-1 和 yi 的条件概率：

其中，

0x3：期望值的计算

利用前向-后向向量，可以计算特征函数关于联合分布 P（X，Y）和条件分布 P（Y | X）的数学期望。

特征函数关于条件分布 P（Y | X）的数学期望是：

假设经验分布为，特征函数关于联合分布 P（X，Y）的数学期望是：

有了上式，对于给定的观测序列 x 与标记序列 y，可以通过一次前向扫描计算，通过一次后向扫描计算，从而计算所有的概率和特征的期望。

回到顶部(go to top)

5. 条件随机场的学习算法

我们上一小结讨论了，我们需要通过前向后向算法得到以及，接下来从算法工程实现上来讨论如何基于训练数据集进行代数计算。

给定训练数据集，估计条件随机场模型参数的问题，即条件随机场的学习问题。条件随机场模型实际上是定义在时序数据上的对数线性模型，其学习方法包括：极大似然估计；正则化的极大似然估计。

具体的优化实现算法有：改进的迭代尺度法IIS、梯度下降法、以及拟牛顿法。

0x1：改进的迭代尺度法

已知训练数据集，由此可以经验概率分布，可以通过极大化训练数据的对数似然函数来求模型参数。

训练数据的对数似然函数为：

把条件随机场的函数带入，上式对数似然函数为：

改进的迭代尺度法通过迭代的方法不断优化对数似然函数该变量的下界，达到极大化对数似然函数的目的。

我们看到，迭代尺度算法可以适用于任何的目标函数，算法本身是一种可以通用的计算框架，它可以适用于任何机器学习目标函数。

0x2：拟牛顿法

条件随机场模型学习还可以应用牛顿法或拟牛顿法，对于条件随机场模型：

学习的优化目标函数（损失函数）是：

其梯度函数是：

1. 条件随机场模型学习的BFGS算法

输入：特征函数 f1，f2，....，fn；经验分布；

输出：最优参数值；最优模型

1）选定初始点，取为正定对称矩阵，置 k = 0；

2）计算梯度函数，若 gk = 0，则停止计算；否则转 3）；

3）由求出；

4）一维搜索：求使得：；

5）置；

6）计算，若，则停止计算；否则，按下式求出；

，其中，；

7）置 k = k + 1，转 3）

回到顶部(go to top)

6. 条件随机场的预测算法

条件随机场的预测问题是给定条件随机场 P（Y | X）和输入序列（观测序列）x，求条件概率最大的输出序列（标记序列），即对观测序列进行标注。

条件随机场的预测算法采用 维特比算法。

条件随机场向量内积形式为：

于是，条件随机场的预测问题成为求非规范化概率最大的最优路径问题。。

这里，路径表示标记序列，其中，

注意，这里只需要计算非规范化概率，而不需要计算概率，可以大大提高效率。为了求解最优路径，将上式写成如下形式：

其中，是局部特征向量。

0x1：条件随机场预测中的维特比算法

首先求出位置 1 的各个标记 j = 1，2，...，m 的非规范化概率：

一般地，由递推公式，求出到位置 i 的各个标记 l = 1，2，...，m 的非规范化概率的最大值，同时记录非规范化概率最大值的路径，

直到 i = n 时终止，这时求得非规范化概率的最大值为

以及最优路径的终点

由此最优路径终点返回

求得最优路径

预测问题本质上就是最大似然估计，在数学上就是求极值。

1. 应用维特比算法求给定输入序列对应的最优输出序列 - 最大似然估计

设有一个标注问题：输入观测序列为 X = （X1，X2，X3），输出标记序列为 Y =（Y1，Y2，Y3），Y1，Y2，Y3取值于 {1，2}。

假设特征和和对应的权值和如下：

这里只写明特征取值为 1 的条件，取值为 0 的条件省略（因为0的结果为0，不影响加和式的结果）：

下同：

利用维特比算法求最优路径问题：

1）初始化：

i = 1，

2）递推：

最优标记序列：

你可能感兴趣的:(自然语言处理,概率算法,机器学习)

python学智能算法（二十七）|SVM-拉格朗日函数求解上西猫雷婶机器学习人工智能 python学习笔记支持向量机 python 机器学习算法人工智能
【1】引言前序学习进程中，我们已经掌握了支持向量机算法中，为寻找最佳分割超平面，如何用向量表达超平面方程，如何为超平面方程建立拉格朗日函数。本篇文章的学习目标是：求解SVM拉格朗日函数。【2】求解方法【2.1】待求解函数支持量机算法的拉格朗日函数为：L(w,b,α)=12∥w∥2−∑i=1mαi[yi(w⋅xi+b−1)]L(w,b,\alpha)=\frac{1}{2}{\left\|w\rig
2022-05-29 m美杨杨
如果一件事把你击垮了，击垮你的大概率不是这件事本身，而是你对这件事的解读。这是满哥针对自己高考复盘时的一个总结。视频中满哥说起自己高考前夜难以入眠，而写字的右手因打了掉瓶还肿着。面对他内心的焦急，他父亲宽慰他说：“你知道吗？高考前几乎所有的考生大脑都处于极度亢奋，特别活跃的状态，而这种状态通常会延续到高考结束。”也就是说高考期间睡不好本身不是问题，但如果你对睡不好这件事担心、在考试时不停给自己心里
【算法-贪心算法-python】柠檬水找零檀越@新空间 P1 算法与数据结构 s1 Python 算法贪心算法 python
欢迎来到我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。推荐:kuan的首页,持续学习,不断总结,共同进步,活到老学到老导航檀越剑指大厂系列:全面总结java核心技术点,如集合,jvm,并发编程redis,kafka,Spring,微服务,Netty等常用开发工具系列:罗列常用的开发工具,如IDEA,M
【算法】贪心算法——柠檬水找零
题解：柠檬水找零(贪心算法)目录1.题目2.题解3.参考代码4.证明5.总结1.题目题目链接：LINK2.题解分情况讨论+贪心算法当顾客为5元时，收下当顾客为10元时，收下10元并找回5元当顾客为20元时，收下20元并找回10+5元或者5+5+5元这里仅20元时候找钱会有分歧，所以这里我们用贪心算法，即优先留下尽可能多的5元，尽快把10元扔出去。原因：5元是“万金油”，既可以给10元找零，也可以给
大语言模型应用指南：网页实时浏览 AGI大模型与大数据研究院 AI大模型应用开发实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大语言模型应用指南：网页实时浏览作者：禅与计算机程序设计艺术1.背景介绍1.1大语言模型的崛起1.1.1自然语言处理的发展历程1.1.2Transformer模型的突破1.1.3预训练语言模型的优势1.2网页浏览的痛点1.2.1信息过载与检索困难1.2.2内容理解与知识提取1.2.3个性化与智能化需求1.3大语言模型与网页浏览的结合1.3.1智能问答与对话系统1.3.2知识图谱与语义搜索1.3.3
对王晓阳战友文章的点评专注执行
文章人生最重要的投资和选择链接http://mp.weixin.qq.com/s/VqNUQeXxWLdPkWXp-iRvPg金句投资的第一步是投资大脑和认知，第二步就是把自己认知到的东西写出来做一下复盘，加深自己的投资逻辑，写着写着你的思考会特别的清晰，第三步就是训练你的价值感，绝对不能在投资这条路上碰运气，这三步很重要，因为它增加了你投资成功的概率。点评战友你好！这篇文章对于很多人的投资认知是
基于机器学习的加密货币资金费率预测与套利策略云梦量化科技 python
一、资金费率机制解析永续合约的资金费率是加密货币衍生品市场独有的机制，旨在使永续合约价格锚定现货价格。资金费率每8小时结算一次，结算时多空双方互相支付资金费用：费率为正时，多头支付给空头；费率为负时，空头支付给多头。此机制既促使永续合约价格回归现货价格，也反映市场多空情绪。某安永续合约资金费率计算公式通常为：资金费率 F = 平均溢价指数 P + Clamp(综合利率 I − 溢价指数 P, +0
Jetson平台编译Tengine space01 AIoT Jetson 人工智能深度学习计算机视觉
1.Tengine简介Tengine于2017年在GitHub（https://github.com/OAID/Tengine）开源，是OPENAILAB（开放智能）推出的自主知识产权的边缘AI计算框架，致力于解决AIoT产业链碎片化问题，加速AI产业化落地。Tengine兼容多种操作系统和深度学习算法框架，简化和加速面向场景的AI算法在嵌入式边缘设备上快速迁移，以及实际应用部署落地，可以十倍提升
函数对象 tal0n
函数对象是STL库提供的除了迭代器，迭代器配接器以外的另外一种概念。简单来说：函数对象提供了一种方法，将要调用的函数与准备传递给这个函数的隐藏参数捆绑在一起。即：该对象实现了operator()的同时还提供了部分执行时的上下文环境。下面我们通过例子来详细看下函数对象。例子STL中有一个find_if的算法实现，他的参数包括：一组表示范围的迭代器，一个用于生成bool类型值的判断式。例如我们需要在一
机器人-组成结构-感知 - 决策 - 执行具身智能-查布嘎具身智能机器人人工智能
目录一、感知系统内部传感器：外部传感器：二、智能决策系统机器学习家族1.1机器学习2.1深度学习2.2深度学习模型(主要属于监督/强化学习范畴，但结构通用)：3.1监督学习3.2监督学习模型4.1半监督学习4.2无/半监督学习模型：5.1无监督学习5.2生成模型(可属于监督/无监督)：6.1强化学习7.1其他学习三、控制系统（运控）①对应小脑和脊柱一、感知系统①对应人体的五官。由具有不同功能的各种
飞算JavaAI：力臻开发之本真，破 AI 代码之繁琐，传统项目一键生成微学AI 人工智能 java javaAI
飞算JavaAI：力臻开发之本真，破AI代码之繁琐，传统项目一键生成文章目录飞算JavaAI：力臻开发之本真，破AI代码之繁琐，传统项目一键生成一、前言二、飞算JavaAI是什么？2.1背景与实力2.2飞算JavaAI的“独门绝技”三、飞算JavaAI实战体验3.1IDEA插件安装配置3.2Main中写一个简单的梯度下降算法3.3main函数搭建一个卷积神经网络网络3.4飞算JavaAI：需求分析
机器学习入门（五）：线性回归—从模型函数到目标函数米饭超人
从数据反推公式假设我们获得了这样一张表格，上面列举了美国纽约若干程序员职位的年薪：enterimagedescriptionhere大家可以看到，表格中列举了职位、经验、技能、国家和城市几项特征。除了经验一项，其他都是一样的。不同的经验（工作年限），薪水不同。而且看起来，工作年头越多，工资也就越高。那么我们把Experience与Salary抽取出来，用x和y来分别指代它们。enterimaged
短剧小程序的「技术革命」：从「粗放生长」到「精准运营」 weixin_lynhgworld 小程序
随着短剧行业进入「存量竞争」阶段，技术能力正成为小程序的核心竞争力。从内容推荐到用户留存，从广告变现到IP开发，每一环节都需要数据驱动和算法优化。一、智能推荐：让「用户找到剧」变成「剧找到用户」传统短剧平台依赖标签匹配，而小程序通过多维度数据实现精准推荐：「情绪图谱」分析：记录用户观看时的快进、暂停、重复播放等行为，构建情绪波动曲线；「场景化推荐」：根据时间（如深夜）、地点（如地铁）、设备（如手机
深入理解Mysql索引底层数据结构与算法桑翔
一.索引的本质索引是帮助MySQL高效获取数据的排好序的数据结构二.索引数据结构1.二叉树2.红黑树3.Hash表4.B-Tree1.叶节点具有相同的深度,叶节点的指针为空2.所有索引元素不重复3.节点中的数据索引从左到右递增排序B-Tree5.B+Tree1.非叶子节点不存储data,可以放更多的索引2.叶子节点包含所有索引字段3.叶子节点用指针连接,提高区间访问的性能(体现在做范围查询的时候)
Python深度学习实践：LSTM与GRU在序列数据预测中的应用 AI智能应用 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Python深度学习实践：LSTM与GRU在序列数据预测中的应用作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来序列数据预测是机器学习领域的一个重要研究方向，涉及时间序列分析、自然语言处理、语音识别等多个领域。序列数据具有时间依赖性，即序列中每个元素都受到前面元素的影响。传统的机器学习算法难以捕捉这种时间依赖性，而深度学习
一个例子带你入门机器学习
目录1.为建模选择数据2.选择预测目标3.选择“特征”4.构建您的模型（这篇文章将使用经典墨尔本房价数据集作为例子，引导机器学习的流程，数据集为melb_data.csv，请在csdn的下载区自行下载，运行代码时需要将数据集下载在同个目录下）1.为建模选择数据数据集有太多的变量，多到难以理解，甚至无法很好地打印出来。如何将这海量的数据削减为能够理解的内容？我们将首先凭借直觉选择几个变量。后续将介绍
初探机器学习与力学研究的交叉领域 faderbic 机器学习人工智能深度学习
目录关于如何踏入机器学习领域机器学习与力学研究的交叉方向1.使用机器学习加速有限元求解2.结合有限元计算和机器学习预测复杂材料结构与力学性能的关系3.结构健康检测4.疲劳寿命预测总结关于如何踏入机器学习领域因为我本科的专业是力学，所以当我开始关注机器学习领域时，首先考虑的是机器学习和力学的交叉领域。对于很多对人工智能感兴趣的朋友，想加入人工智能的潮流却不知道从何学起，我提供一个思路，我认为将自己学
[NIPST AI]对抗性机器学习攻击和缓解的分类和术语 Anooyman 人工智能网络安全人工智能大语言模型网络安全安全
原文link：https://nvlpubs.nist.gov/nistpubs/ai/NIST.AI.100-2e2025.pdfIntroduction人工智能（AI）系统在过去几年中持续全球扩展。这些系统正在被众多国家开发并广泛部署于各自的经济体系中，人们在生活的许多领域都获得了更多使用AI系统的机会。本报告区分了两大类AI系统：预测型AI（PredictiveAI，PredAI）和生成型A
使用 Python 爬取网易云音乐歌单数据（完整教程） Python爬虫项目 python 开发语言 github selenium 爬虫
一、引言随着在线音乐平台的普及，网易云音乐（NetEaseCloudMusic）凭借其个性化的推荐算法和丰富的用户互动，吸引了大量用户。网易云音乐的歌单中包含了丰富的音乐数据，包括歌曲名、歌手、专辑、播放量、评论数等信息。通过爬取这些数据，可以对音乐流行趋势进行分析，挖掘音乐推荐策略，甚至训练个性化推荐模型。本教程将使用Python构建一个爬虫，解析网易云音乐的歌单接口，获取歌曲数据并进行数据分析
c#集合排序 zls365365 c#windows 开发语言
在C#中，集合排序是一种常见的操作，它可以帮助我们对集合中的元素进行排序。C#中提供了多种集合排序方法，包括Array.Sort、List.Sort、SortedList和SortedSet等。下面分别介绍一下这些集合排序方法的用法和注意事项：1.Array.SortArray.Sort是C#中的数组排序方法，可以对数组中的元素进行排序。Array.Sort方法可以使用默认的排序算法或者自定义的排
C# 代码（`Hashtable` 和 `SortedList`）张謹礧 c#哈希算法开发语言
一、Hashtable（哈希表）1.基本概念非泛型集合：存储键值对（object类型），通过哈希算法实现快速查找。线程安全：默认非线程安全，可通过Hashtable.Synchronized创建线程安全版本。键的唯一性：键必须唯一，且不可为null（值可为null）。2.创建与初始化//创建空的HashtableHashtablehashtable=newHashtable();//创建并初始化
人脸检测算法——SCRFD 海绵波波107 #计算机视觉算法计算机视觉
SCRFD算法核心解析1.算法定义与背景SCRFD（SampleandComputationRedistributionforEfficientFaceDetection）由JiaGuo等人于2021年在arXiv提出，是一种高效、高精度的人脸检测算法，其核心创新在于：双重重分配策略：样本重分配（SR）：动态增强关键训练阶段的样本数据。计算重分配（CR）：通过神经架构搜索（NAS）优化骨干网络（B
力扣经典算法篇-28-无重复字符的最长子串(左右指针 + Hash统计） weisian151 算法-力扣经典篇算法 leetcode 哈希算法
1、题干给定一个字符串s，请你找出其中不含有重复字符的最长子串的长度。示例1:输入:s=“abcabcbb”输出:3解释:因为无重复字符的最长子串是“abc”，所以其长度为3。示例2:输入:s=“bbbbb”输出:1解释:因为无重复字符的最长子串是“b”，所以其长度为1。示例3:输入:s=“pwwkew”输出:3解释:因为无重复字符的最长子串是“wke”，所以其长度为3。请注意，你的答案必须是子串
周周见2018年46周-人不能太忙青梅煮酒2022
随着年龄的增长，精力明显不如从前。中午我要眯一小会，晚上加班到10点，就睡意袭人。而这些时候如果强打精神继续工作，效率就会低下，出错的概率也会比较高。通常我的做法就是，放下工作，先休息一会。下半年公司业务繁忙，客户也是项目建设的工作积压在下半年开展。于是我们到处赶场，没有片刻的安宁可以静下心来整理与复盘阶段性的工作。不少工作做的很粗糙，总想着腾出空来在进行整理。目前采取《稀缺》中提到的一个做法，预
通俗易懂：什么是决策树？淦暴尼算法 python 决策树算法机器学习
1.引言：决策树就像“选择题”你是否曾经在生活中做过“选择题”？比如：今天要不要带伞？晚饭吃什么？该不该买那件心仪已久的商品？其实，我们的大脑经常会像“决策树”一样，通过一连串问题和判断，逐步缩小选择范围，最终做出决定。**决策树（DecisionTree）**就是这样一种模拟人类决策过程的机器学习模型。它通过“提问-分支-决策”的方式，把复杂问题拆解成一系列简单的判断，广泛应用于分类（如判断邮件
java毕业设计-基于Javaweb的家常小菜烹饪学习管理系统的设计与实现(源码+LW+部署文档+全bao+远程调试+代码讲解等) 程序猿刘 vue spring boot 毕业设计 java 课程设计学习
博主介绍：✌️码农一枚，专注于大学生项目实战开发、讲解和毕业文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌️技术范围：：小程序、SpringBoot、SSM、JSP、Vue、PHP、Java、python、爬虫、数据可视化、大数据、物联网、机器学习等设计与开发。主要内容：免费开题报告、任务书、全bao定制+
java毕业设计源码案例-基于ssm+协同过滤的个性化小说推荐系统设计与实现(源码+LW+部署文档+全bao+远程调试+代码讲解等) 项目帮 springboot java 计算机毕设 java 课程设计开发语言
博主介绍：✌️码农一枚，专注于大学生项目实战开发、讲解和毕业文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌️技术范围：：小程序、SpringBoot、SSM、JSP、Vue、PHP、Java、python、爬虫、数据可视化、大数据、物联网、机器学习等设计与开发。主要内容：免费功能设计，开题报告、任务书、全b
73. 矩阵置零 youzhihua
题目描述给定一个mxn的矩阵，如果一个元素为0，则将其所在行和列的所有元素都设为0。请使用原地算法。示例：输入:[[1,1,1],[1,0,1],[1,1,1]]输出:[[1,0,1],[0,0,0],[1,0,1]]暴力求解思路1.遍历数组中的每个元素，若这个元素等于0，则分别使用两个Set记录下这个元素的横坐标和纵坐标。2.遍历两个Set，将其中的行和列的值都置成0。3.由于题目要求的是原地法
机器学习中的数据预处理：从入门到实践耐思nice～机器学习由浅入深-吴恩达机器学习人工智能
在当今的智能时代，机器学习已经渗透到我们生活的方方面面。比如我们常用的推荐系统，它能根据我们的浏览记录精准推送喜欢的商品或视频，这背后就离不开机器学习的支撑。而一个优秀的机器学习模型，离不开高质量的数据，数据预处理正是保证数据质量的关键环节，它就像烹饪前的食材处理，直接影响着最终“菜品”的口感，也就是模型的性能。今天，我们就来全面学习机器学习中数据预处理的关键步骤。一、数据预处理的重要性数据预处理
lanqiaoOJ 2145：求阶乘 ← 二分法 hnjzsyjyj 信息学竞赛 #分治算法与双指针算法二分法
【题目来源】https://www.lanqiao.cn/problems/2145/learning/【题目描述】满足N！的末尾恰好有K个0的最小的N是多少？如果这样的N不存在输出-1。【输入格式】一个整数K。【输出格式】一个整数代表答案。【输入样例】2【输出样例】10【评测用例规模与约定】对于30%的数据，1≤K≤10^6.对于100%的数据，1≤K≤10^18.【算法分析】●二分法的应用条件
rust的指针作为函数返回值是直接传递，还是先销毁后创建？ wudixiaotie 返回值
这是我自己想到的问题，结果去知呼提问，还没等别人回答，我自己就想到方法实验了。。 fn main() { let mut a = 34; println!("a's addr:{:p}", &a); let p = &mut a; println!("p's addr:{:p}", &a
java编程思想 -- 数据的初始化百合不是茶 java 数据的初始化
1.使用构造器确保数据初始化 /* *在ReckInitDemo类中创建Reck的对象 */ public class ReckInitDemo { public static void main(String[] args) { //创建Reck对象 new Reck(); } }
[航天与宇宙]为什么发射和回收航天器有档期 comsci
地球的大气层中有一个时空屏蔽层,这个层次会不定时的出现,如果该时空屏蔽层出现,那么将导致外层空间进入的任何物体被摧毁,而从地面发射到太空的飞船也将被摧毁... 所以,航天发射和飞船回收都需要等待这个时空屏蔽层消失之后,再进行 &
linux下批量替换文件内容商人shang linux 替换
1、网络上现成的资料　　格式: sed -i "s/查找字段/替换字段/g" `grep 查找字段 -rl 路径` 　　linux sed 批量替换多个文件中的字符串　　sed -i "s/oldstring/newstring/g" `grep oldstring -rl yourdir` 　　例如：替换/home下所有文件中的www.admi
网页在线天气预报 oloz 天气预报
网页在线调用天气预报 <%@ page language="java" contentType="text/html; charset=utf-8" pageEncoding="utf-8"%> <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transit
SpringMVC和Struts2比较杨白白 springMVC
1. 入口 spring mvc的入口是servlet，而struts2是filter（这里要指出，filter和servlet是不同的。以前认为filter是servlet的一种特殊），这样就导致了二者的机制不同，这里就牵涉到servlet和filter的区别了。参见：http://blog.csdn.net/zs15932616453/article/details/8832343 2
refuse copy, lazy girl! 小桔子 copy
妹妹坐船头啊啊啊啊！都打算一点点琢磨呢。文字编辑也写了基本功能了。。今天查资料，结果查到了人家写得完完整整的。我清楚的认识到： 1.那是我自己觉得写不出的高度 2.如果直接拿来用，很快就能解决问题 3.然后就是抄咩~~ 4.肿么可以这样子，都不想写了今儿个，留着作参考吧！拒绝大抄特抄，慢慢一点点写！
apache与php整合 aichenglong php apache web
一 apache web服务器 1 apeche web服务器的安装 1)下载Apache web服务器 2)配置域名(如果需要使用要在DNS上注册) 3)测试安装访问http://localhost/验证是否安装成功 2 apache管理 1)service.msc进行图形化管理 2)命令管理，配
Maven常用内置变量 AILIKES maven
Built-in properties ${basedir} represents the directory containing pom.xml ${version} equivalent to ${project.version} (deprecated: ${pom.version}) Pom/Project properties Al
java的类和对象百合不是茶 JAVA面向对象类对象
java中的类： java是面向对象的语言，解决问题的核心就是将问题看成是一个类，使用类来解决 java使用 class 类名来创建类，在Java中类名要求和构造方法，Java的文件名是一样的创建一个A类： class A{ } java中的类：将某两个事物有联系的属性包装在一个类中，再通
JS控制页面输入框为只读 bijian1013 JavaScript
在WEB应用开发当中，增、删除、改、查功能必不可少，为了减少以后维护的工作量，我们一般都只做一份页面，通过传入的参数控制其是新增、修改或者查看。而修改时需将待修改的信息从后台取到并显示出来，实际上就是查看的过程，唯一的区别是修改时，页面上所有的信息能修改，而查看页面上的信息不能修改。因此完全可以将其合并，但通过前端JS将查看页面的所有信息控制为只读，在信息量非常大时，就比较麻烦。
AngularJS与服务器交互 bijian1013 JavaScript AngularJS $http
对于AJAX应用（使用XMLHttpRequests）来说，向服务器发起请求的传统方式是：获取一个XMLHttpRequest对象的引用、发起请求、读取响应、检查状态码，最后处理服务端的响应。整个过程示例如下： var xmlhttp = new XMLHttpRequest(); xmlhttp.onreadystatechange
[Maven学习笔记八]Maven常用插件应用 bit1129 maven
常用插件及其用法位于：http://maven.apache.org/plugins/ 1. Jetty server plugin 2. Dependency copy plugin 3. Surefire Test plugin 4. Uber jar plugin 1. Jetty Pl
【Hive六】Hive用户自定义函数(UDF) bit1129 自定义函数
1. 什么是Hive UDF Hive是基于Hadoop中的MapReduce，提供HQL查询的数据仓库。Hive是一个很开放的系统，很多内容都支持用户定制，包括：文件格式：Text File，Sequence File 内存中的数据格式： Java Integer/String, Hadoop IntWritable/Text 用户提供的 map/reduce 脚本：不管什么
杀掉nginx进程后丢失nginx.pid，如何重新启动nginx ronin47 nginx 重启 pid丢失
nginx进程被意外关闭，使用nginx -s reload重启时报如下错误：nginx: [error] open() “/var/run/nginx.pid” failed (2: No such file or directory)这是因为nginx进程被杀死后pid丢失了，下一次再开启nginx -s reload时无法启动解决办法：nginx -s reload 只是用来告诉运行中的ng
UI设计中我们为什么需要设计动效 brotherlamp UI ui教程 ui视频 ui资料 ui自学
随着国际大品牌苹果和谷歌的引领，最近越来越多的国内公司开始关注动效设计了，越来越多的团队已经意识到动效在产品用户体验中的重要性了，更多的UI设计师们也开始投身动效设计领域。但是说到底，我们到底为什么需要动效设计？或者说我们到底需要什么样的动效？做动效设计也有段时间了，于是尝试用一些案例，从产品本身出发来说说我所思考的动效设计。一、加强体验舒适度嗯，就是让用户更加爽更加爽的用你的产品。
Spring中JdbcDaoSupport的DataSource注入问题 bylijinnan java spring
参考以下两篇文章： http://www.mkyong.com/spring/spring-jdbctemplate-jdbcdaosupport-examples/ http://stackoverflow.com/questions/4762229/spring-ldap-invoking-setter-methods-in-beans-configuration Sprin
数据库连接池的工作原理 chicony 数据库连接池
随着信息技术的高速发展与广泛应用，数据库技术在信息技术领域中的位置越来越重要，尤其是网络应用和电子商务的迅速发展，都需要数据库技术支持动态Web站点的运行，而传统的开发模式是：首先在主程序（如Servlet、Beans）中建立数据库连接；然后进行SQL操作，对数据库中的对象进行查询、修改和删除等操作；最后断开数据库连接。使用这种开发模式，对
java 关键字 CrazyMizzz java
关键字是事先定义的，有特别意义的标识符，有时又叫保留字。对于保留字，用户只能按照系统规定的方式使用，不能自行定义。 Java中的关键字按功能主要可以分为以下几类：（1）访问修饰符 public,private,protected p
Hive中的排序语法 daizj 排序 hive order by DISTRIBUTE BY sort by
Hive中的排序语法 2014.06.22 ORDER BY hive中的ORDER BY语句和关系数据库中的sql语法相似。他会对查询结果做全局排序，这意味着所有的数据会传送到一个Reduce任务上，这样会导致在大数量的情况下，花费大量时间。与数据库中 ORDER BY 的区别在于在hive.mapred.mode = strict模式下，必须指定 limit 否则执行会报错。
单态设计模式 dcj3sjt126com 设计模式
单例模式（Singleton）用于为一个类生成一个唯一的对象。最常用的地方是数据库连接。使用单例模式生成一个对象后，该对象可以被其它众多对象所使用。 <?phpclass Example{ // 保存类实例在此属性中 private static&
svn locked dcj3sjt126com Lock
post-commit hook failed (exit code 1) with output: svn: E155004: Working copy 'D:\xx\xxx' locked svn: E200031: sqlite: attempt to write a readonly database svn: E200031: sqlite: attempt to write a
ARM寄存器学习 e200702084 数据结构 C++c C#F#
无论是学习哪一种处理器，首先需要明确的就是这种处理器的寄存器以及工作模式。 ARM有37个寄存器，其中31个通用寄存器，6个状态寄存器。 1、不分组寄存器（R0-R7）不分组也就是说说，在所有的处理器模式下指的都时同一物理寄存器。在异常中断造成处理器模式切换时，由于不同的处理器模式使用一个名字相同的物理寄存器，就是
常用编码资料 gengzg 编码
List<UserInfo> list=GetUserS.GetUserList(11); String json=JSON.toJSONString(list); HashMap<Object,Object> hs=new HashMap<Object, Object>(); for(int i=0;i<10;i++) {
进程 vs. 线程 hongtoushizi 线程 linux 进程
我们介绍了多进程和多线程，这是实现多任务最常用的两种方式。现在，我们来讨论一下这两种方式的优缺点。首先，要实现多任务，通常我们会设计Master-Worker模式，Master负责分配任务，Worker负责执行任务，因此，多任务环境下，通常是一个Master，多个Worker。如果用多进程实现Master-Worker，主进程就是Master，其他进程就是Worker。如果用多线程实现
Linux定时Job：crontab -e 与 /etc/crontab 的区别 Josh_Persistence linux crontab
一、linux中的crotab中的指定的时间只有5个部分：* * * * * 分别表示：分钟，小时，日，月，星期，具体说来：第一段代表分钟 0—59 第二段代表小时 0—23 第三段代表日期 1—31 第四段代表月份 1—12 第五段代表星期几，0代表星期日 0—6 如： */1 * * * * 每分钟执行一次。 *
KMP算法详解 hm4123660 数据结构 C++算法字符串 KMP
字符串模式匹配我们相信大家都有遇过，然而我们也习惯用简单匹配法（即Brute-Force算法)，其基本思路就是一个个逐一对比下去，这也是我们大家熟知的方法，然而这种算法的效率并不高，但利于理解。假设主串s="ababcabcacbab",模式串为t="
枚举类型的单例模式 zhb8015 单例模式
E.编写一个包含单个元素的枚举类型[极推荐]。代码如下： public enum MaYun {himself; //定义一个枚举的元素，就代表MaYun的一个实例private String anotherField;MaYun() {//MaYun诞生要做的事情//这个方法也可以去掉。将构造时候需要做的事情放在instance赋值的时候：/** himself = MaYun() {*
Kafka+Storm+HDFS ssydxa219 storm
cd /myhome/usr/stormbin/storm nimbus &bin/storm supervisor &bin/storm ui &Kafka+Storm+HDFS整合实践kafka_2.9.2-0.8.1.1.tgzapache-storm-0.9.2-incubating.tar.gzKafka安装配置我们使用3台机器搭建Kafk
Java获取本地服务器的IP 中华好儿孙 java Web 获取服务器ip地址
System.out.println("getRequestURL:"+request.getRequestURL()); System.out.println("getLocalAddr:"+request.getLocalAddr()); System.out.println("getLocalPort:&quo