菜鸟的翅膀

隐马尔可夫模型介绍

http://blog.csdn.net/gumpeng/article/details/51648259

关于隐马尔可夫的理论介绍，请参见李航博士的《统计学习方法》，介绍的很详尽。

下面主要通过网上查到的例子来把隐马的相关问题说清楚。（以下内容都非原创，本人唯一的贡献就是将这些干货集中在了一起。）

一、什么是HMM

还是用最经典的例子，掷骰子。假设我手里有三个不同的骰子。第一个骰子是我们平常见的骰子（称这个骰子为D6），6个面，每个面（1，2，3，4，5，6）出现的概率是1/6。第二个骰子是个四面体（称这个骰子为D4），每个面（1，2，3，4）出现的概率是1/4。第三个骰子有八个面（称这个骰子为D8），每个面（1，2，3，4，5，6，7，8）出现的概率是1/8。

假设我们开始掷骰子，我们先从三个骰子里挑一个，挑到每一个骰子的概率都是1/3。然后我们掷骰子，得到一个数字，1，2，3，4，5，6，7，8中的一个。不停的重复上述过程，我们会得到一串数字，每个数字都是1，2，3，4，5，6，7，8中的一个。例如我们可能得到这么一串数字（掷骰子10次）：1 6 3 5 2 7 3 5 2 4

这串数字叫做可见状态链。但是在隐马尔可夫模型中，我们不仅仅有这么一串可见状态链，还有一串隐含状态链。在这个例子里，这串隐含状态链就是你用的骰子的序列。比如，隐含状态链有可能是：D6 D8 D8 D6 D4 D8 D6 D6 D4 D8

一般来说，HMM中说到的马尔可夫链其实是指隐含状态链，因为隐含状态（骰子）之间存在转换概率（transition probability）。在我们这个例子里，D6的下一个状态是D4，D6，D8的概率都是1/3。D4，D8的下一个状态是D4，D6，D8的转换概率也都一样是1/3。这样设定是为了最开始容易说清楚，但是我们其实是可以随意设定转换概率的。比如，我们可以这样定义，D6后面不能接D4，D6后面是D6的概率是0.9，是D8的概率是0.1。这样就是一个新的HMM。

同样的，尽管可见状态之间没有转换概率，但是隐含状态和可见状态之间有一个概率叫做输出概率（emission probability）。就我们的例子来说，六面骰（D6）产生1的输出概率是1/6。产生2，3，4，5，6的概率也都是1/6。我们同样可以对输出概率进行其他定义。比如，我有一个被赌场动过手脚的六面骰子，掷出来是1的概率更大，是1/2，掷出来是2，3，4，5，6的概率是1/10。

其实对于HMM来说，如果提前知道所有隐含状态之间的转换概率和所有隐含状态到所有可见状态之间的输出概率，做模拟是相当容易的。但是应用HMM模型时候呢，往往是缺失了一部分信息的，有时候你知道骰子有几种，每种骰子是什么，但是不知道掷出来的骰子序列；有时候你只是看到了很多次掷骰子的结果，剩下的什么都不知道。如果应用算法去估计这些缺失的信息，就成了一个很重要的问题。这些算法我会在下面详细讲。

×××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××

如果你只想看一个简单易懂的例子，就不需要往下看了。

×××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××

说两句废话，答主认为呢，要了解一个算法，要做到以下两点：会其意，知其形。答主回答的，其实主要是第一点。但是这一点呢，恰恰是最重要，而且很多书上不会讲的。正如你在追一个姑娘，姑娘对你说“你什么都没做错！”你要是只看姑娘的表达形式呢，认为自己什么都没做错，显然就理解错了。你要理会姑娘的意思，“你赶紧给我道歉！”这样当你看到对应的表达形式呢，赶紧认错，跪地求饶就对了。数学也是一样，你要是不理解意思，光看公式，往往一头雾水。不过呢，数学的表达顶多也就是晦涩了点，姑娘的表达呢，有的时候就完全和本意相反。所以答主一直认为理解姑娘比理解数学难多了。

回到正题，和HMM模型相关的算法主要分为三类，分别解决三种问题：

1）知道骰子有几种（隐含状态数量），每种骰子是什么（转换概率），根据掷骰子掷出的结果（可见状态链），我想知道每次掷出来的都是哪种骰子（隐含状态链）。

这个问题呢，在语音识别领域呢，叫做解码问题。这个问题其实有两种解法，会给出两个不同的答案。每个答案都对，只不过这些答案的意义不一样。第一种解法求最大似然状态路径，说通俗点呢，就是我求一串骰子序列，这串骰子序列产生观测结果的概率最大。第二种解法呢，就不是求一组骰子序列了，而是求每次掷出的骰子分别是某种骰子的概率。比如说我看到结果后，我可以求得第一次掷骰子是D4的概率是0.5，D6的概率是0.3，D8的概率是0.2.第一种解法我会在下面说到，但是第二种解法我就不写在这里了，如果大家有兴趣，我们另开一个问题继续写吧。

2）还是知道骰子有几种（隐含状态数量），每种骰子是什么（转换概率），根据掷骰子掷出的结果（可见状态链），我想知道掷出这个结果的概率。（Veterbi 算法）

看似这个问题意义不大，因为你掷出来的结果很多时候都对应了一个比较大的概率。问这个问题的目的呢，其实是检测观察到的结果和已知的模型是否吻合。如果很多次结果都对应了比较小的概率，那么就说明我们已知的模型很有可能是错的，有人偷偷把我们的骰子給换了。

3）知道骰子有几种（隐含状态数量），不知道每种骰子是什么（转换概率），观测到很多次掷骰子的结果（可见状态链），我想反推出每种骰子是什么（转换概率）。

这个问题很重要，因为这是最常见的情况。很多时候我们只有可见结果，不知道HMM模型里的参数，我们需要从可见结果估计出这些参数，这是建模的一个必要步骤。

问题阐述完了，下面就开始说解法。（0号问题在上面没有提，只是作为解决上述问题的一个辅助）

0.一个简单问题

其实这个问题实用价值不高。由于对下面较难的问题有帮助，所以先在这里提一下。

知道骰子有几种，每种骰子是什么，每次掷的都是什么骰子，根据掷骰子掷出的结果，求产生这个结果的概率。

解法无非就是概率相乘：

1.谁动了我的骰子？

比如说你怀疑自己的六面骰被赌场动过手脚了，有可能被换成另一种六面骰，这种六面骰掷出来是1的概率更大，是1/2，掷出来是2，3，4，5，6的概率是1/10。你怎么办么？答案很简单，算一算正常的三个骰子掷出一段序列的概率，再算一算不正常的六面骰和另外两个正常骰子掷出这段序列的概率。如果前者比后者小，你就要小心了。

比如说掷骰子的结果是：

要算用正常的三个骰子掷出这个结果的概率，其实就是将所有可能情况的概率进行加和计算。同样，简单而暴力的方法就是把穷举所有的骰子序列，还是计算每个骰子序列对应的概率，但是这回，我们不挑最大值了，而是把所有算出来的概率相加，得到的总概率就是我们要求的结果。这个方法依然不能应用于太长的骰子序列（马尔可夫链）。

我们会应用一个和前一个问题类似的解法，只不过前一个问题关心的是概率最大值，这个问题关心的是概率之和。解决这个问题的算法叫做前向算法（forward algorithm）。

首先，如果我们只掷一次骰子：

看到结果为1.产生这个结果的总概率可以按照如下计算，总概率为0.18：

把这个情况拓展，我们掷两次骰子：

看到结果为1，6.产生这个结果的总概率可以按照如下计算，总概率为0.05：

继续拓展，我们掷三次骰子：

看到结果为1，6，3.产生这个结果的总概率可以按照如下计算，总概率为0.03：

同样的，我们一步一步的算，有多长算多长，再长的马尔可夫链总能算出来的。用同样的方法，也可以算出不正常的六面骰和另外两个正常骰子掷出这段序列的概率，然后我们比较一下这两个概率大小，就能知道你的骰子是不是被人换了。

二、Veterbi 算法（换一个例子）

尝试用高中概率知识去理解一下 Veterbi 算法。内容绝对粗浅，100% 抄袭，欢迎指正。用一个别人家的栗子来说一下。

1.题目背景：

从前有个村儿，村里的人的身体情况只有两种可能：健康或者发烧。

假设这个村儿的人没有体温计或者百度这种神奇东西，他唯一判断他身体情况的途径就是到村头我的偶像金正月的小诊所询问。

月儿通过询问村民的感觉，判断她的病情，再假设村民只会回答正常、头晕或冷。

有一天村里奥巴驴就去月儿那去询问了。

第一天她告诉月儿她感觉正常。

第二天她告诉月儿感觉有点冷。

第三天她告诉月儿感觉有点头晕。

那么问题来了，月儿如何根据阿驴的描述的情况，推断出这三天中阿驴的一个身体状态呢?

为此月儿上百度搜 google ，一番狂搜，发现维特比算法正好能解决这个问题。月儿乐了。

2.已知情况：

隐含的身体状态 = { 健康 , 发烧 }

可观察的感觉状态 = { 正常 , 冷 , 头晕 }

月儿预判的阿驴身体状态的概率分布 = { 健康：0.6 , 发烧： 0.4 }

月儿认为的阿驴身体健康状态的转换概率分布 = {

健康->健康： 0.7 ,

健康->发烧： 0.3 ,

发烧->健康：0.4 ,

发烧->发烧： 0.6

}

月儿认为的在相应健康状况条件下，阿驴的感觉的概率分布 = {

健康，正常：0.5 ，冷：0.4 ，头晕： 0.1 ；

发烧，正常：0.1 ，冷：0.3 ，头晕： 0.6

}

阿驴连续三天的身体感觉依次是：正常、冷、头晕。

3.题目：

已知如上，求：阿驴这三天的身体健康状态变化的过程是怎么样的？

4.过程：

根据 Viterbi 理论，后一天的状态会依赖前一天的状态和当前的可观察的状态。那么只要根据第一天的正常状态依次推算找出到达第三天头晕状态的最大的概率，就可以知道这三天的身体变化情况。

传不了图片，悲剧了。。。

1.初始情况：

P(健康) = 0.6，P(发烧)=0.4。

2.求第一天的身体情况：

计算在阿驴感觉正常的情况下最可能的身体状态。

P(今天健康) = P(正常|健康)*P(健康|初始情况) = 0.5 * 0.6 = 0.3
P(今天发烧) = P(正常|发烧)*P(发烧|初始情况) = 0.1 * 0.4 = 0.04

那么就可以认为第一天最可能的身体状态是：健康。

3.求第二天的身体状况：

计算在阿驴感觉冷的情况下最可能的身体状态。

那么第二天有四种情况，由于第一天的发烧或者健康转换到第二天的发烧或者健康。

P(前一天发烧，今天发烧) = P(发烧|前一天)*P(发烧->发烧)*P(冷|发烧) = 0.04 * 0.6 * 0.3 = 0.0072
P(前一天发烧，今天健康) = P(健康|前一天)*P(发烧->健康)*P(冷|健康) = 0.04 * 0.4 * 0.4 = 0.0064
P(前一天健康，今天健康) = P(发烧|前一天)*P(健康->健康)*P(冷|健康) = 0.3 * 0.7 * 0.4 = 0.084
P(前一天健康，今天发烧) = P(健康|前一天)*P(健康->发烧)*P(冷|发烧) = 0.3 * 0.3 *.03 = 0.027

那么可以认为，第二天最可能的状态是：健康。

4.求第三天的身体状态：

计算在阿驴感觉头晕的情况下最可能的身体状态。

P(前一天发烧，今天发烧) = P(发烧|前一天)*P(发烧->发烧)*P(头晕|发烧) = 0.027 * 0.6 * 0.6 = 0.00972
P(前一天发烧，今天健康) = P(发烧|前一天)*P(发烧->健康)*P(头晕|健康) = 0.027 * 0.4 * 0.1 = 0.00108
P(前一天健康，今天健康) = P(健康|前一天)*P(健康->健康)*P(头晕|健康) = 0.084 * 0.7 * 0.1 = 0.00588
P(前一天健康，今天发烧) = P(健康|前一天)*P(健康->发烧)*P(头晕|发烧) = 0.084 * 0.3 *0.6 = 0.01512

那么可以认为：第三天最可能的状态是发烧。

5.结论

根据如上计算。这样月儿断定，阿驴这三天身体变化的序列是：健康->健康->发烧。

三、分词（jieba源码分析）

接下来的文字主要摘自一位大牛的系列博客，写的非常详细，只摘了 viterbi相关的部分（发现新词）。

中文分词的难点
1. 分词规范，词的定义还不明确 (《统计自然语言处理》宗成庆)
2. 歧义切分问题，交集型切分问题，多义组合型切分歧义等
  结婚的和尚未结婚的 =>
  结婚／的／和／尚未／结婚／的
  结婚／的／和尚／未／结婚／的
3. 未登录词问题
  有两种解释：一是已有的词表中没有收录的词，二是已有的训练语料中未曾出现过的词，第二种含义中未登录词又称OOV(Out of Vocabulary)。对于大规模真实文本来说，未登录词对于分词的精度的影响远超歧义切分。一些网络新词，自造词一般都属于这些词。
因此可以看到，未登录词是分词中的一个重要问题，jieba分词中对于OOV的解决方法是：采用了基于汉字成词能力的 HMM 模型，使用了 Viterbi 算法。

关于HMM的介绍网络上有很多资源，比如 52nlp HMM系列,在此不再具体介绍了，但一些基础知识要明确的：

HMM(Hidden Markov Model): 隐式马尔科夫模型。
HMM模型可以应用在很多领域，所以它的模型参数描述一般都比较抽象，以下篇幅针对HMM的模型参数介绍直接使用它在中文分词中的实际含义来讲：
HMM解决的三类问题：
a. 评估问题(概率计算问题)
即给定观测序列 O=O1,O2,O3…Ot和模型参数λ=(A,B,π)，怎样有效计算这一观测序列出现的概率.
(Forward-backward算法)
b. 解码问题(预测问题)
即给定观测序列 O=O1,O2,O3…Ot和模型参数λ=(A,B,π)，怎样寻找满足这种观察序列意义上最优的隐含状态序列S。
(viterbi算法,近似算法)
c. 学习问题
即HMM的模型参数λ=(A,B,π)未知，如何求出这3个参数以使观测序列O=O1,O2,O3…Ot的概率尽可能的大.
(即用极大似然估计的方法估计参数,Baum-Welch,EM算法)
HMM 模型的五元组表示：
{
states，//状态空间
observations，//观察空间
start_probability，//状态的初始分布，即π
transition_probability，//状态的转移概率矩阵，即A
emission_probability//状态产生观察的概率，发射概率矩阵,即B
}

使用jieba对句子:”到MI京研大厦”进行分词，若是使用非HMM模式则分词的结果为：
到/MI/京/研/大厦，使用HMM分词则结果为：到/MI/京研/大厦。下面一段是利用上一节的程序的计算结果。

"到MI京研大厦"的前缀字典:
到 205341
到M 0
到MI 0
到MI京 0
到MI京研 0
到MI京研大 0
到MI京研大厦 0
"到MI京研大厦"的DAG:
0 : [0]
1 : [1]
2 : [2]
3 : [3]
4 : [4]
5 : [5, 6]
6 : [6]
route:
{0: (-73.28491710434629, 0), 1: (-67.60579126740393, 1), 2: (-49.69423813964871, 2), 3: (-31.78268501189349, 3), 4: (-22.663377731606147, 4), 5: (-11.256112777387571, 6), 6: (-12.298425021367148, 6), 7: (0, 0)}
到/MI/京/研/大厦
...
Loading model cost 0.696 seconds.
Prefix dict has been built succesfully.

# HMM切分结果：
到/MI/京研/大厦1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25

从句子”到MI京研大厦”对应的前缀字典可以看出“京研”并没有在字典中，但是也被Viterbi算法识别出来了，可以看出HMM的强大之处了，也正是 HMM 三大基本问题之一，即根据观察序列，求隐藏状态序列。
上一节中我们说明了HMM由五元组表示，那么这样的五元组参数在中文分词中的具体含义是：

states(状态空间) & observations(观察空间).
汉字按照BEMS四个状态来标记，分别代表 Begin End Middle 和 Single， {B:begin, M:middle, E:end, S:single}。分别代表每个状态代表的是该字在词语中的位置，B代表该字是词语中的起始字，M代表是词语中的中间字，E代表是词语中的结束字，S则代表是单字成词。
观察空间为就是所有汉字(我她…)，甚至包括标点符号所组成的集合。
状态值也就是我们要求的值，在HMM模型中文分词中，我们的输入是一个句子(也就是观察值序列)，输出是这个句子中每个字的状态值，用这四个状态符号依次标记输入句子中的字，可方便的得到分词方案。如：
观察序列：我在北京
状态序列：SSBEBE
对于上面的状态序列，根据规则进行划分得到 S/S/BE/
对应于观察序列：我/在/北京/
分词任务就完成了。
同时我们可以注意到：
B后面只可能接(M or E)，不可能接(B or E)。而M后面也只可能接(M or E)，不可能接(B, S)。

上文只介绍了五元组中的两元 states & observations，下文介绍剩下的三元（start_probability，transition_probability，emission_probability）.
start_probability(状态的初始分布).
初始状态概率分布是最好理解的，如下 P={ 'B': -0.26268660809250016, 'E': -3.14e+100, 'M': -3.14e+100, 'S': -1.4652633398537678 }

示例数值是对概率值取对数之后的结果(trick, 让概率相乘变成对数相加)，其中-3.14e+100作为负无穷，也就是对应的概率值是0。它表示了一个句子的第一个字属于{B,E,M,S}这四种状态的概率，如上可以看出，E和M的概率都是0，这和实际相符合，开头的第一个字只可能是词语的首字(B)，或者是单字成词(S)，这部分内容对应 jieba/finalseg/prob_start.py文件，具体源码。
transition_probability（状态的转移概率矩阵）
转移概率是马尔科夫链很重要的一个知识点，马尔科夫链(一阶)最大的特点就是当前T=i时刻的状态state(i)，只和T=i时刻之前的n个状态有关，即:
{state(i-1), state(i-2), … state(i - n)}
HMM模型有三个基本假设：
a. 系统在时刻t的状态只与时刻t-1处的状态相关,(也称为无后效性）;
b. 状态转移概率与时间无关,(也称为齐次性或时齐性);
c. 假设任意时刻的观测只依赖于该时刻的马尔科夫链的状态，与其它观测及状态无关,(也称观测独立性假设)。
其中前两个假设为马尔科夫模型的假设。模型的这几个假设能大大简化问题。
再看下transition_probability，其实就是一个嵌套的字典，数值是概率求对数后的值,示例: P={'B': {'E': -0.510825623765990, 'M': -0.916290731874155}, 'E': {'B': -0.5897149736854513, 'S': -0.8085250474669937}, 'M': {'E': -0.33344856811948514, 'M': -1.2603623820268226}, 'S': {'B': -0.7211965654669841, 'S': -0.6658631448798212}}
如P[‘B’][‘E’]代表的含义就是从状态B转移到状态E的概率，由P[‘B’][‘E’] = -0.510825623765990，表示状态B的下一个状态是E的概率对数是-0.510825623765990。
这部分内容对应 jieba/finalseg/prob_trans.py文件，具体源码。
emission_probability(状态产生观察的概率，发射概率)
根据HMM观测独立性假设发射概率，即观察值只取决于当前状态值，也就是:
P(observed[i], states[j]) = P(states[j]) * P(observed[i]|states[j]),其中P(observed[i]|states[j])这个值就是从emission_probability中获取。
emission_probability示例如下： P={'B': {'\u4e00': -3.6544978750449433, '\u4e01': -8.125041941842026, '\u4e03': -7.817392401429855, '\u4e07': -6.3096425804013165, ..., 'S':{...}, ... }

比如P[‘B’][‘\u4e00’]代表的含义就是’B’状态下观测的字为’\u4e00’(对应的汉字为’一’)的概率对数P[‘B’][‘\u4e00’] = -3.6544978750449433。
这部分内容对应 jieba/finalseg/prob_emit.py文件，具体源码。

到这里已经结合HMM模型把jieba的五元参数介绍完，这五元的关系是通过一个叫Viterbi的算法串接起来，observations序列值是Viterbi的输入，而states序列值是Viterbi的输出，输入和输出之间Viterbi算法还需要借助三个模型参数，分别是start_probability，transition_probability，emission_probability。对于未登录词（OOV）的问题，即已知观察序列S，初始状态概率prob_start，状态观察发射概率prob_emit，状态转换概率prob_trans。求状态序列W，这是个解码问题，维特比算法可以解决。

Viterbi 维特比算法
HMM第二个问题又称为解码问题(预测问题)即给定观测序列 O=O1,O2,O3…Ot和模型参数λ=(A,B,π)，怎样寻找满足这种观察序列意义上最优的隐含状态序列S。
(viterbi算法,近似算法)，同样的，暴力算法是计算所有可能性的概率，然后找出拥有最大概率值的隐藏状态序列。与问题一的暴力解决方案类似，复杂度为O(N^T)。
那应该用什么方案呢？还是动态规划！
假设观察序列为O1,O2,O3,…,Ot. 在时刻i ∈ (1,t]时，定义D为观察O1,O2,…,Oi且Si=Sk时产生该观察序列的最大概率：

其中，S1,S2,….S(i-1),在此时也已经可以得到(子问题)。

它是一个是对子问题求最大值的最优解问题。
对于解码问题，因为需要求出的是使得观察序列概率最大的隐藏状态的序列，而不是最大概率，所以，在算法计算过程中，还需要记录前一个隐藏状态的值。
jieba Viterbi 的应用

jieba中对于未登录词问题，通过__cut_DAG 函数我们可以看出这个函数前半部分用 calc 函数计算出了初步的分词，而后半部分就是就是针对上面例子中未出现在语料库的词语进行分词了。
由于基于频度打分的分词会倾向于把不能识别的词组一个字一个字地切割开，所以对这些字的合并就是识别OOV的一个方向，__cut_DAG定义了一个buf 变量收集了这些连续的单个字，最后把它们组合成字符串再交由 finalseg.cut 函数来进行下一步分词。

# 利用 viterbi算法得到句子分词的生成器
def __cut(sentence):
    global emit_P
    # viterbi算法得到sentence 的切分
    prob, pos_list = viterbi(sentence, 'BMES', start_P, trans_P, emit_P)
    begin, nexti = 0, 0
    # print pos_list, sentence
    for i, char in enumerate(sentence):
        pos = pos_list[i]
        if pos == 'B':
            begin = i
        elif pos == 'E':
            yield sentence[begin:i + 1]
            nexti = i + 1
        elif pos == 'S':
            yield char
            nexti = i + 1
    if nexti < len(sentence):
        yield sentence[nexti:]1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19

对应的viterbi算法:

#状态转移矩阵，比如B状态前只可能是E或S状态  
PrevStatus = {  
    'B':('E','S'),  
    'M':('M','B'),  
    'S':('S','E'),  
    'E':('B','M')  
}  
def viterbi(obs, states, start_p, trans_p, emit_p):
    V = [{}]  # 状态概率矩阵  
    path = {}
    for y in states:  # 初始化状态概率
        V[0][y] = start_p[y] + emit_p[y].get(obs[0], MIN_FLOAT)
        path[y] = [y] # 记录路径
    for t in xrange(1, len(obs)):
        V.append({})
        newpath = {}
        for y in states:
            em_p = emit_p[y].get(obs[t], MIN_FLOAT)
            # t时刻状态为y的最大概率(从t-1时刻中选择到达时刻t且状态为y的状态y0)
            (prob, state) = max([(V[t - 1][y0] + trans_p[y0].get(y, MIN_FLOAT) + em_p, y0) for y0 in PrevStatus[y]])
            V[t][y] = prob
            newpath[y] = path[state] + [y] # 只保存概率最大的一种路径 
        path = newpath 
    # 求出最后一个字哪一种状态的对应概率最大，最后一个字只可能是两种情况：E(结尾)和S(独立词)  
    (prob, state) = max((V[len(obs) - 1][y], y) for y in 'ES')1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25

其实到这里思路很明确了，给定训练好的模型(如HMM)参数(λ=(A,B,π)), 然后对模型进行载入，再运行一遍Viterbi算法，就可以找出每个字对应的状态（B, M, E, S），这样就可以根据状态也就可以对句子进行分词。具体源码注释见：
github/init.py 。

https://www.zhihu.com/question/20136144/answer/37291465

https://www.zhihu.com/question/20962240/answer/33438846

http://blog.csdn.net/daniel_ustc/article/details/48195287

http://blog.csdn.net/daniel_ustc/article/details/48195655

http://blog.csdn.net/daniel_ustc/article/details/48223135

http://blog.csdn.net/daniel_ustc/article/details/48248393

《机器学习与数据挖掘》学习笔记（二）-续产品扫地僧
沿着PAC学习理论，讨论有限假设空间的样本复杂度，并用Hoeffding不等式来界定概率边界。假设空间的样本复杂度PAC可学习性很大程度上由所需的训练样本数量决定。随着问题规模的增长所带来的所需训练样本的增长称为学习问题的样本复杂度（samplecomplexity）。在多数实际问题中，最限制学习器成功的因素是有限的可用的训练数据。我们通常都喜欢能与训练数据拟合程度更高的假设，当一个学习器在可能时
牛人（周志华）推荐的人工智能网站城市中迷途小书童
AIURLs(maintainedbyZhi-HuaZhou)**北京大学视觉与听觉信息处理实验室北京邮电大学模式识别与智能系统学科复旦大学智能信息处理开放实验室IEEEComputerSociety北京映象站点计算机科学论坛机器人足球赛模式识别国家重点实验室南京航空航天大学模式识别与神经计算实验室-PARNEC南京大学机器学习与数据挖掘研究所-LAMDA南京大学人工智能实验室南京大学软件新技术国
1.5 The Leaming Problem-Machine Leaming and other Fields|机器学习基石（林轩田）-学习笔记努力奋斗的durian
文章原创,最近更新：2018-06-27学习链接:1.5TheLeamingProblem-MachineLeamingandotherFields1.MachineLearningandDataMining(机器学习与数据挖掘)讲完了机器学习完整的流程,下面将一下机器学习与其他相关领域的关系第一个讲的领域就是数据挖掘,数据挖掘与机器学习有什么不一样,如下:机器学习是用资料找出一个假说g,然后跟我
毕业设计选题 - 计算机毕业设计（论文）选题合集 weixin_55149953 毕业设计人工智能毕业设计毕设目标跟踪计算机视觉大数据算法
目录前言选题背景意义毕业设计选题深度学习与神经网络计算机视觉与图像处理机器学习与数据挖掘数据分析和大数据处理选题迷茫选题的重要性更多选题指导最后前言大四是整个大学期间最忙碌的时光,一边要忙着准备考研,考公,考教资或者实习为毕业后面临的就业升学做准备,一边要为毕业设计耗费大量精力。大四的同学马上要开始毕业设计,对选题有疑问可以问学长哦!以下整理了适合不同方向的计算机专业的毕业设计选题对毕设有任何疑问
DataFunSummit：2023年数据科学在线峰会-核心PPT资料下载百家峰会大数据数据治理数据科学大数据数据科学数据治理
一、峰会简介数据会说谎？如何正确的挖掘并使用数据？前沿的科学实验如何做？实验又是如何欺骗你的？数据中台如何发挥功效？用户增长有捷径吗？数据科学的最佳实践有哪些？本次峰会共包含了：机器学习与数据挖掘、AB实验、因果推断、数据中台与数字化转型、用户增长与运营、数据科学最佳实践等6大论坛。机器学习与数据挖掘方向的核心目标是通过机器学习的建模方式解决人与物的匹配问题，以及通过对人行为数据的建模或挖掘研究，
【机器学习】学习笔记01-概论 NRbene 机器学习机器学习学习数据挖掘
机器学习简介文章目录机器学习简介机器学习辨析深度学习与机器学习机器学习与数据挖掘机器学习与统计学习机器学习与传统编程机器学习概念适用条件挑战模型的稳定性模型的可解释性历史符号主义贝叶斯学派连接主义其他概念基本概念三要素模型策略算法归纳偏好证明机器学习的目标欠拟合和过拟合泛化误差(重点)缓解过拟合深入理解泛化误差基本概念方法总结机器学习一般流程机器学习分类按有无标签分类按输出空间分类按模型分类按算法
《机器学习与数据挖掘》学习笔记（一）产品扫地僧
从刚注册时强迫自己写文章时的拖延，到现在有了想法不自觉的想记录下来，是好的转变。最近开始对数据挖掘很感兴趣，在网易公开课上开始学加州理工的《机器学习和数据挖掘》，还可以顺便练练英语听力。第一课《学习问题》只要从问题引入，介绍什么是机器学习，以及常见的学习分类。在人类的认知中一些显而易见的结论，对机器而言是一个却是无限靠近的过程，比如婴儿可以快速识别一张脸的情绪等。课中介绍了银行信贷审批的例子。阐述
机器学习与数据挖掘第三、四周 Joy T 机器学习数据挖掘人工智能机器学习
为什么第二周没有呢……因为刚换老师，自学要适应一段时间。本课程作者之后的学习目标是：实操代码，至少要将作者参加数学建模中用到的数据处理方法都做一遍。首先，作者复习一下李宏毅老师的两节课程。机器学习概述机器学习就是让机器帮我们找一个函数！而这个函式，其实就是类神经网络！这个函式的输入可以是向量、矩阵和序列。矩阵往往用于表示图像。语音往往可以被表示为序列。输出可以是数值regression、类别cla
数分面试题1-牛客海星？海欣！面试问题 python 数据分析
1、python中你常用的包包名+作用+哪里使用过numpy:主要用来做多维数组的运算，高效的数值计算与数组操作，之前在推荐系统的项目中使用过pandas：用于数据处理与分析，提供了灵活的数据结构与数据操作功能matplotlib：数据可视化，比如想看数据的分布情况-箱线图，还有热力图、直方图、面积图、雷达图、极坐标图、等高线图等sklearn：用于机器学习与数据挖掘项目，提供多种机器学习算法与工
【AI】机器学习——绪论 AmosTian AI #机器学习人工智能机器学习 AI
文章目录1.1机器学习概念1.1.1定义统计机器学习与数据挖掘区别机器学习前提1.1.2术语1.1.3特点以数据为研究对象目标方法——基于数据构建模型SML三要素SML步骤1.2分类1.2.1参数化/非参数化方法1.2.2按算法分类1.2.3按模型分类概率模型非概率模型逻辑斯蒂回归1.2.4基本分类监督学习分类符号表示形式化特征无监督模型特征符号表示形式化强化学习半监督学习主动学习1.2.5按技巧
加州理工学院公开课：机器学习与数据挖掘_Epilogue（第十八课-终结篇）飞天狐213 机器学习机器学习 Aggregation 贝叶斯
课程简介:这是该课程的最后一课，作者首先总结了有关机器学习的理论、方法、模型、范式等。最后介绍了贝叶斯理论和Aggregation（聚合）方法在机器学习中的应用。课程提纲:1、机器学习的地图。2、贝叶斯理论。3、Aggregation（聚合）。1、机器学习的地图有关机器学习的方法、模型等非常多，简直令人目不暇接。比如下图列出来的。然而不建议一一学习这些方法、模型，否则容易迷失在这些方法里无法自拔。
大咖观点| AIGC与因果推断的双向赋能九章云极DataCanvas AIGC 人工智能大数据
近日，由DataFun主办的第三届数据科学在线峰会盛大举办。聚焦机器学习与数据挖掘、AB实验、因果推断、数据中台与数字化转型、用户增长与运营、数据科学最佳实践等6大数据科学主题，数十位国内外一线数据科学家围绕数据科学前沿技术成果和应用实践经验深入分享和交流。九章云极DataCanvas公司深度参与峰会，并分享前沿数据科学技术的最新研究进展。峰会上，九章云极DataCanvas公司AI架构师何刚发表
Python机器学习及实践_从零开始通往KAGGLE竞赛之路PDF高清完整版免费下载|百度云盘|Python基础教程免费电子书胡萝卜须_aee2
点击获取提取码：i5nwimage.pngPython机器学习及实践面向所有对机器学习与数据挖掘的实践及竞赛感兴趣的读者，从零开始，以Python编程语言为基础，在不涉及大量数学模型与复杂编程知识的前提下，逐步带领读者熟悉并且掌握当下流行的机器学习、数据挖掘与自然语言处理工具，如Scikit-learn、NLTK、Pandas、gensim、XGBoost、GoogleTensorflow等。全书
大咖观点| AIGC与因果推断的双向赋能 aigc
近日，由DataFun主办的第三届数据科学在线峰会盛大举办。聚焦机器学习与数据挖掘、AB实验、因果推断、数据中台与数字化转型、用户增长与运营、数据科学最佳实践等6大数据科学主题，数十位国内外一线数据科学家围绕数据科学前沿技术成果和应用实践经验深入分享和交流。九章云极DataCanvas公司深度参与峰会，并分享前沿数据科学技术的最新研究进展。峰会上，九章云极DataCanvas公司AI架构师何刚发表
机器学习与数据挖掘的学习路线图 thousand_
https://my.oschina.net/siiiso/blog/810554正式学习之前，你所需要的预备知识（主要是数学）应该包括：微积分（偏导数、梯度等等）、概率论与数理统计（例如极大似然估计、中央极限定理、大数法则等等）、最优化方法（比如梯度下降、牛顿-拉普什方法、变分法（欧拉-拉格朗日方程）、凸优化等等）——如果你对其中的某些名词感到陌生，那么就说明你尚不具备深入开展数据挖掘算法学习的
通关秘籍！Pandas最新官方教程中文版 Python数据之道
大家好，感谢大家一路以来的关注和支持，今天给大家强烈推荐我的好友云朵君的公众号『数据STUDIO』，强烈推荐大家关注～‍☠️宝藏级‍☠️原创公众号『数据STUDIO』内容超级硬核。公众号以Python为核心语言，垂直于数据科学领域，包括可戳Python｜MySQL｜数据分析｜数据可视化｜机器学习与数据挖掘｜爬虫等，从入门到进阶！云朵君为大家整理和筛选了大量火爆全网的Python数据科学学习资料，全
机器学习（面试题）及知识点菜田的守望者机器学习机器学习面试题
文章目录文章目录文章目录1，什么是机器学习2，机器学习与数据挖掘的区别3.什么是机器学习的过度拟合现象4.过度拟合产生的原因5.如何避免过度拟合6.什么是感应式的机器学习？7.什么是机器学习的五个流行的算法？9.在机器学习中，建立假设或者模型的三个阶段指的是什么？10.什么是监督学习的标准方法？11.什么是训练数据集和测试数据集？12.机器学习的方法？13.非机器学习有哪些类型？14.什么是非监督
python语法基础知识案例_Python 语法速览与实战清单 weixin_39860064 python语法基础知识案例
本文是对于现代Python开发：语法基础与工程实践的总结，更多Python相关资料参考Python学习与实践资料索引；本文参考了PythonCrashCourse-CheatSheets，pysheeet等。本文仅包含笔者在日常工作中经常使用的，并且认为较为关键的知识点与语法，如果想要进一步学习Python相关内容或者对于机器学习与数据挖掘方向感兴趣，可以参考程序猿的数据科学与机器学习实战手册。基
if i have five million dollars 云想飘飘
假如我有五百万我首先要还清我的房贷然后买辆车然后在村里盖个舒服的房子给父母然后想不到了抽个时间去考个机器学习与数据挖掘研究生然后努力工作。。。。
python竞赛之路_Python机器学习及实践：从零开始通往Kaggle竞赛之路 PDF高清完整版... weixin_39900468 python竞赛之路
Python机器学习及实践：从零开始通往Kaggle竞赛之路PDF高清完整版作者:范淼/李超出版社:清华大学出版社副标题:从零开始通往Kaggle竞赛之路出版年:2016-10-1定价:49元装帧:平装ISBN:9787302442875内容简介······本书面向所有对机器学习与数据挖掘的实践及竞赛感兴趣的读者，从零开始，以Python编程语言为基础，在不涉及大量数学模型与复杂编程知识的前提下，
Python机器学习及实践+从零开始通往Kaggle竞赛之路喜欢安静的程序猿 python 经典书籍
内容简介本书面向所有对机器学习与数据挖掘的实践及竞赛感兴趣的读者，从零开始，以Python编程语言为基础，在不涉及大量数学模型与复杂编程知识的前提下，逐步带领读者熟悉并且掌握当下最流行的机器学习、数据挖掘与自然语言处理工具，如Scikitlearn、NLTK、Pandas、gensim、XGBoost、GoogleTensorflow等。全书共分4章。第1章简介篇，介绍机器学习概念与Python
机器学习与数据挖掘，机器学习算法简介明月说数据数据挖掘算法大数据
什么是数据挖掘数据挖掘就是从大量的数据中去发现有用的信息，然后根据这些信息来辅助决策。听起来是不是跟传统的数据分析很像呢？实际上，数据挖掘就是智能化的数据分析，它们的目标都是一样的。但是，又有很大的区别。传统的数据分析和数据挖掘最主要的区别就是在揭示数据之间的关系上。传统的数据分析揭示的是已知的、过去的数据关系，数据挖掘揭示的是未知的、将来的数据关系。它们采用的技术也不一样，传统的数据分析采用计算
机器学习算法之LightGBM The king always the king 机器学习
LightGBM在很多方面会比XGBoost表现的更为优秀。它有以下优势：更快的训练效率低内存使用更高的准确率支持并行化学习可处理大规模数据支持直接使用category特征从下图实验数据可以看出，LightGBM比XGBoost快将近10倍，内存占用率大约为XGBoost的1/6，并且准确率也有提升。LightGBM的应用LightGBM在机器学习与数据挖掘领域有着极为广泛的应用。据统计Light
机器学习第一章（引言）罗辑罗辑机器学习
“假设用P来评估计算机程序在某任务类T上的性能，若一个程序通过利用经验E在T中任务上获得了性能改善，则意味着关于T和P，该程序对E进行了学习”机器学习致力于研究如何通过计算的手段，利用经验来改善系统自身的性能，从而在计算机上从数据中产生“模型”，依此来对新的未知的情况进行判断。机器学习与数据挖掘的关系：图1.机器学习与数据挖掘的关系机器学习中的基本术语：数据、任务、泛化能力机器学习中的假设空间、归
python手写数字识别教学_6手写数字识别_python机器学习与数据挖掘_Python视频-51CTO学院... 职业生涯规划师 python手写数字识别教学
爬虫Python基础、数据分析扩展包Numpy、pandas、matplotlib，Python读取MySQL数据，Python爬虫及Scrapy框架，无监督机器学习算法聚类分析等，以及案例：互联网金融行业客户价值分析等。机器学习机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有
Python多元线性回归、机器学习、深度学习在近红外光谱分析中的应用 PhyliciaFelicia 深度学习遥感医学影像 python 线性回归深度学习
导师：郁磊副教授，主要从事MATLAB编程、机器学习与数据挖掘、数据可视化和软件开发、人工智能近红外光谱分析、生物医学系统建模与仿真，具有丰富的实战应用经验，主编《MATLAB智能算法30个案例分析》、《MATLAB神经网络43个案例分析》相关著作。已发表多篇高水平的国际学术研究论文。基于Python多元线性回归、机器学习、深度学习在近红外光谱分析中的实践应用第一章：Python入门基础1、Pyt
基于Python多元线性回归、机器学习、深度学习在近红外光谱分析中的实践应用 WangYan2022 机器学习/深度学习 python 近红外光谱分析
【专家】：郁磊副教授，主要从事MATLAB编程、机器学习与数据挖掘、数据可视化和软件开发、人工智能近红外光谱分析、生物医学系统建模与仿真，具有丰富的实战应用经验，主编《MATLAB智能算法30个案例分析》、《MATLAB神经网络43个案例分析》相关著作。已发表多篇高水平的国际学术研究论文。【特色】：1、原理深入浅出的讲解，强调原理的重要性；2、技巧方法讲解，提供教程配套的完整教材数据及提供长期回放
《机器学习与数据挖掘》实验八 Tony_Chen_0725 机器学习与数据挖掘实验决策树 python
实验题目：编程实现AdaBoost算法实验目的：掌握AdaBoost算法的求解过程实验环境（硬件和软件）Anaconda/Jupyternotebook/Pycharm实验内容：编码实现AdaBoost算法，以决策树为基学习器，训练一个AdaBoost集成模型，对测试样本进行判别。要求：一、已经给定部分代码，补充完整的代码，需要补充代码的地方已经用红色字体标注，包括：（1）#补充定义弱分类器的代码
【案例实践】Python多元线性回归、机器学习、深度学习在近红外光谱分析中的实践应用吹翻书页的风数据语言统计分析 python 深度学习近红外光谱多元线性回归
查看原文>>>基于Python多元线性回归、机器学习、深度学习在近红外光谱分析中的实践应用【专家】：郁磊副教授主要从事MATLAB编程、机器学习与数据挖掘、数据可视化和软件开发、人工智能近红外光谱分析、生物医学系统建模与仿真，具有丰富的实战应用经验，主编《MATLAB智能算法30个案例分析》、《MATLAB神经网络43个案例分析》相关著作。已发表多篇高水平的国际学术研究论文。【内容】：第一章、Py
数据挖掘入门：Python开发环境搭建（eclipse-pydev模式） Snoopy_Yuan 数据挖掘数据挖掘 python sklearn eclipse pydev
为便于使用Python进行机器学习与数据挖掘的学习，先安装sklearn等常用库。然后搭建出集成开发环境。由于之前常采用EclipseIDE来开发C/C++和Java，故先考虑搭建Eclipse-Pydev环境来学习使用Python。准备工作Ubuntu-14.04LTS(自带Python2和Python3)JDK1.7EclipseIDE配置过程1.配置系统Python环境Ubuntu-14默认
JAVA中的Enum 周凡杨 java enum 枚举
Enum是计算机编程语言中的一种数据类型---枚举类型。在实际问题中，有些变量的取值被限定在一个有限的范围内。例如，一个星期内只有七天我们通常这样实现上面的定义： public String monday; public String tuesday; public String wensday; public String thursday
赶集网mysql开发36条军规 Bill_chen mysql 业务架构设计 mysql调优 mysql性能优化
(一)核心军规 (1)不在数据库做运算 cpu计算务必移至业务层； (2)控制单表数据量 int型不超过1000w，含char则不超过500w；合理分表；限制单库表数量在300以内； (3)控制列数量字段少而精，字段数建议在20以内
Shell test命令 daizj shell 字符串 test 数字文件比较
Shell test命令 Shell中的 test 命令用于检查某个条件是否成立，它可以进行数值、字符和文件三个方面的测试。数值测试参数说明 -eq 等于则为真 -ne 不等于则为真 -gt 大于则为真 -ge 大于等于则为真 -lt 小于则为真 -le 小于等于则为真实例演示： num1=100 num2=100if test $[num1]
XFire框架实现WebService(二) 周凡杨 java webservice
有了XFire框架实现WebService(一)，就可以继续开发WebService的简单应用。 Webservice的服务端(WEB工程)：两个java bean类： Course.java package cn.com.bean; public class Course { private
重绘之画图板朱辉辉33 画图板
上次博客讲的五子棋重绘比较简单，因为只要在重写系统重绘方法paint（）时加入棋盘和棋子的绘制。这次我想说说画图板的重绘。画图板重绘难在需要重绘的类型很多，比如说里面有矩形，园，直线之类的，所以我们要想办法将里面的图形加入一个队列中，这样在重绘时就
Java的IO流西蜀石兰 java
刚学Java的IO流时，被各种inputStream流弄的很迷糊，看老罗视频时说想象成插在文件上的一根管道，当初听时觉得自己很明白，可到自己用时，有不知道怎么代码了。。。每当遇到这种问题时，我习惯性的从头开始理逻辑，会问自己一些很简单的问题，把这些简单的问题想明白了，再看代码时才不会迷糊。 IO流作用是什么？答：实现对文件的读写，这里的文件是广义的； Java如何实现程序到文件
No matching PlatformTransactionManager bean found for qualifier 'add' - neither 林鹤霄
java.lang.IllegalStateException: No matching PlatformTransactionManager bean found for qualifier 'add' - neither qualifier match nor bean name match! 网上找了好多的资料没能解决，后来发现：项目中使用的是xml配置的方式配置事务，但是
Row size too large (> 8126). Changing some columns to TEXT or BLOB aigo column
原文：http://stackoverflow.com/questions/15585602/change-limit-for-mysql-row-size-too-large 异常信息： Row size too large (> 8126). Changing some columns to TEXT or BLOB or using ROW_FORMAT=DYNAM
JS 格式化时间 alxw4616 JavaScript
/** * 格式化时间 2013/6/13 by 半仙 [email protected] * 需要 pad 函数 * 接收可用的时间值. * 返回替换时间占位符后的字符串 * * 时间占位符:年 Y 月 M 日 D 小时 h 分 m 秒 s 重复次数表示占位数 * 如 YYYY 4占4位 YY 占2位<p></p> * MM DD hh mm
队列中数据的移除问题百合不是茶队列移除
队列的移除一般都是使用的remov();都可以移除的,但是在昨天做线程移除的时候出现了点问题,没有将遍历出来的全部移除, 代码如下; // package com.Thread0715.com; import java.util.ArrayList; public class Threa
Runnable接口使用实例 bijian1013 java thread Runnable java多线程
Runnable接口 a. 该接口只有一个方法：public void run(); b. 实现该接口的类必须覆盖该run方法 c. 实现了Runnable接口的类并不具有任何天
oracle里的extend详解 bijian1013 oracle 数据库 extend
扩展已知的数组空间，例： DECLARE TYPE CourseList IS TABLE OF VARCHAR2(10); courses CourseList; BEGIN -- 初始化数组元素，大小为3 courses := CourseList('Biol 4412 ', 'Psyc 3112 ', 'Anth 3001 '); --
【httpclient】httpclient发送表单POST请求 bit1129 httpclient
浏览器Form Post请求浏览器可以通过提交表单的方式向服务器发起POST请求，这种形式的POST请求不同于一般的POST请求 1. 一般的POST请求，将请求数据放置于请求体中，服务器端以二进制流的方式读取数据，HttpServletRequest.getInputStream()。这种方式的请求可以处理任意数据形式的POST请求，比如请求数据是字符串或者是二进制数据 2. Form
【Hive十三】Hive读写Avro格式的数据 bit1129 hive
1. 原始数据 hive> select * from word; OK 1 MSN 10 QQ 100 Gtalk 1000 Skype 2. 创建avro格式的数据表 hive> CREATE TABLE avro_table(age INT, name STRING)STORE
nginx+lua+redis自动识别封解禁频繁访问IP ronin47
在站点遇到攻击且无明显攻击特征，造成站点访问慢，nginx不断返回502等错误时，可利用nginx+lua+redis实现在指定的时间段内，若单IP的请求量达到指定的数量后对该IP进行封禁，nginx返回403禁止访问。利用redis的expire命令设置封禁IP的过期时间达到在指定的封禁时间后实行自动解封的目的。一、安装环境： CentOS x64 release 6.4(Fin
java-二叉树的遍历-先序、中序、后序（递归和非递归）、层次遍历 bylijinnan java
import java.util.LinkedList; import java.util.List; import java.util.Stack; public class BinTreeTraverse { //private int[] array={ 1, 2, 3, 4, 5, 6, 7, 8, 9 }; private int[] array={ 10,6,
Spring源码学习-XML 配置方式的IoC容器启动过程分析 bylijinnan java spring IOC
以FileSystemXmlApplicationContext为例，把Spring IoC容器的初始化流程走一遍： ApplicationContext context = new FileSystemXmlApplicationContext ("C:/Users/ZARA/workspace/HelloSpring/src/Beans.xml&q
[科研与项目]民营企业请慎重参与军事科技工程 comsci 企业
军事科研工程和项目并非要用最先进，最时髦的技术，而是要做到“万无一失” 而民营科技企业在搞科技创新工程的时候，往往考虑的是技术的先进性，而对先进技术带来的风险考虑得不够，在今天提倡军民融合发展的大环境下，这种“万无一失”和“时髦性”的矛盾会日益凸显。。。。。。所以请大家在参与任何重大的军事和政府项目之前，对
spring 定时器-两种方式 cuityang spring quartz 定时器
方式一：间隔一定时间运行 <bean id="updateSessionIdTask" class="com.yang.iprms.common.UpdateSessionTask" autowire="byName" /> <bean id="updateSessionIdSchedule
简述一下关于BroadView站点的相关设计 damoqiongqiu view
终于弄上线了，累趴，戳这里http://www.broadview.com.cn 简述一下相关的技术点前端：jQuery+BootStrap3.2+HandleBars，全站Ajax（貌似对SEO的影响很大啊！怎么破？），用Grunt对全部JS做了压缩处理，对部分JS和CSS做了合并（模块间存在很多依赖，全部合并比较繁琐，待完善）。后端：U
运维 PHP问题汇总 dcj3sjt126com windows2003
1、Dede(织梦)发表文章时,内容自动添加关键字显示空白页解决方法：后台>系统>系统基本参数>核心设置>关键字替换（是/否），这里选择“是”。后台>系统>系统基本参数>其他选项>自动提取关键字，这里选择“是”。 2、解决PHP168超级管理员上传图片提示你的空间不足网站是用PHP168做的，反映使用管理员在后台无法
mac 下安装php扩展 - mcrypt dcj3sjt126com PHP
MCrypt是一个功能强大的加密算法扩展库，它包括有22种算法，phpMyAdmin依赖这个PHP扩展，具体如下：下载并解压libmcrypt-2.5.8.tar.gz。在终端执行如下命令： tar zxvf libmcrypt-2.5.8.tar.gz cd libmcrypt-2.5.8/ ./configure --disable-posix-threads --
MongoDB更新文档 [四] eksliang mongodb Mongodb更新文档
MongoDB更新文档转载请出自出处：http://eksliang.iteye.com/blog/2174104 MongoDB对文档的CURD，前面的博客简单介绍了，但是对文档更新篇幅比较大，所以这里单独拿出来。语法结构如下： db.collection.update( criteria, objNew, upsert, multi) 参数含义参数
Linux下的解压，移除，复制，查看tomcat命令 y806839048 tomcat
重复myeclipse生成webservice有问题删除以前的，干净 1、先切换到：cd usr/local/tomcat5/logs 2、tail -f catalina.out 3、这样运行时就可以实时查看运行日志了 Ctrl+c 是退出tail命令。有问题不明的先注掉 cp /opt/tomcat-6.0.44/webapps/g
Spring之使用事务缘由(3-XML实现) ihuning spring
用事务通知声明式地管理事务事务管理是一种横切关注点。为了在 Spring 2.x 中启用声明式事务管理，可以通过 tx Schema 中定义的 <tx:advice> 元素声明事务通知，为此必须事先将这个 Schema 定义添加到 <beans> 根元素中去。声明了事务通知后，就需要将它与切入点关联起来。由于事务通知是在 <aop:
GCD使用经验与技巧浅谈啸笑天 GC
前言 GCD(Grand Central Dispatch)可以说是Mac、iOS开发中的一大“利器”，本文就总结一些有关使用GCD的经验与技巧。 dispatch_once_t必须是全局或static变量这一条算是“老生常谈”了，但我认为还是有必要强调一次，毕竟非全局或非static的dispatch_once_t变量在使用时会导致非常不好排查的bug，正确的如下： 1
linux（Ubuntu）下常用命令备忘录1 macroli linux 工作 ubuntu
在使用下面的命令是可以通过--help来获取更多的信息1,查询当前目录文件列表：ls ls命令默认状态下将按首字母升序列出你当前文件夹下面的所有内容，但这样直接运行所得到的信息也是比较少的，通常它可以结合以下这些参数运行以查询更多的信息： ls / 显示/.下的所有文件和目录 ls -l 给出文件或者文件夹的详细信息 ls -a 显示所有文件，包括隐藏文
nodejs同步操作mysql qiaolevip 学习永无止境每天进步一点点 mysql nodejs
// db-util.js var mysql = require('mysql'); var pool = mysql.createPool({ connectionLimit : 10, host: 'localhost', user: 'root', password: '', database: 'test', port: 3306 });
一起学Hive系列文章 superlxw1234 hive Hive入门
[一起学Hive]系列文章目录贴，入门Hive，持续更新中。 [一起学Hive]之一—Hive概述，Hive是什么 [一起学Hive]之二—Hive函数大全-完整版 [一起学Hive]之三—Hive中的数据库(Database)和表(Table) [一起学Hive]之四-Hive的安装配置 [一起学Hive]之五-Hive的视图和分区 [一起学Hive
Spring开发利器：Spring Tool Suite 3.7.0 发布 wiselyman spring
Spring Tool Suite(简称STS)是基于Eclipse，专门针对Spring开发者提供大量的便捷功能的优秀开发工具。在3.7.0版本主要做了如下的更新：将eclipse版本更新至Eclipse Mars 4.5 GA Spring Boot(JavaEE开发的颠覆者集大成者，推荐大家学习)的配置语言YAML编辑器的支持(包含自动提示，

隐马尔可夫模型介绍

你可能感兴趣的:(机器学习与数据挖掘)