皮卡丘的忧伤

【自然语言处理基础技能（NLP)】朴素贝叶斯

朴素贝叶斯

1. 引言

2. 贝叶斯公式

3. 用机器学习的视角理解贝叶斯公式

4. 垃圾邮件识别

5. 分词

6. 条件独立假设

7. 朴素贝叶斯(Naive Bayes)，“Naive”在何处？

8. 简单高效，吊丝逆袭

9.处理重复词语的三种方式

9.1多项式模型

9.2伯努利模型

9.3.混合模型

10.去除停用词与选择关键词

11.浅谈平滑技术

12.内容小结

13.为什么不直接匹配关键词识别垃圾邮件

14.实际工程的tricks

14.1 trick1：取对数

14.2 trick2：转换为权重

14.3 trick3：选取topk的关键词

14.4 trick4：分割样本

14.5 trick5：位置权重

14.6 trick6：蜜罐

15.贝叶斯方法的思维方式

15.1逆概率问题

15.2处理多分类问题

15.3先验概率的问题

16.（朴素）贝叶斯方法的常见应有

16.1褒贬分析

16.2拼写纠错

17.内容小结

1. 引言

贝叶斯方法是一个历史悠久，有着坚实的理论基础的方法，同时处理很多问题时直接而又高效，很多高级自然语言处理模型也可以从它演化而来。因此，学习贝叶斯方法，是研究自然语言处理问题的一个非常好的切入口。

2. 贝叶斯公式

贝叶斯公式就一行：

而它其实是由以下的联合概率公式推导出来：

其中P(Y)叫做先验概率，P(Y|X)叫做后验概率，P(Y,X)叫做联合概率。

贝叶斯最核心的公式就这么些。

3. 用机器学习的视角理解贝叶斯公式

在机器学习的视角下，我们把XX理解成“具有某特征”，把Y理解成“类别标签”(一般机器学习为题中都是X=>特征, Y=>结果对吧)。在最简单的二分类问题(是与否判定)下，我们将Y理解成“属于某类”的标签。于是贝叶斯公式就变形成了下面的样子:

我们简化解释一下上述公式：

而我们二分类问题的最终目的就是要判断P(“属于某类”|“具有某特征”)P(“属于某类”|“具有某特征”)是否大于1/2就够了。贝叶斯方法把计算“具有某特征的条件下属于某类”的概率转换成需要计算“属于某类的条件下具有某特征”的概率，而后者获取方法就简单多了，我们只需要找到一些包含已知特征标签的样本，即可进行训练。而样本的类别标签都是明确的，所以贝叶斯方法在机器学习里属于有监督学习方法。

这里再补充一下，一般『先验概率』、『后验概率』是相对出现的，比如P(Y)与P(Y|X)是关于Y的先验概率与后验概率，P(X)与P(X|Y)是关于XX的先验概率与后验概率。

4. 垃圾邮件识别

举个例子好啦，我们现在要对邮件进行分类，识别垃圾邮件和普通邮件，如果我们选择使用朴素贝叶斯分类器，那目标就是判断P(“垃圾邮件”|“具有某特征”)P(“垃圾邮件”|“具有某特征”)是否大于1/2。现在假设我们有垃圾邮件和正常邮件各1万封作为训练集。需要判断以下这个邮件是否属于垃圾邮件：

“我司可办理正规发票（保真）17%增值税发票点数优惠！”

也就是判断概率P(“垃圾邮件”|“我司可办理正规发票（保真）17%增值税发票点数优惠！”)P(“垃圾邮件”|“我司可办理正规发票（保真）17%增值税发票点数优惠！”)是否大于1/2。

咳咳，有木有发现，转换成的这个概率，计算的方法：就是写个计数器，然后+1 +1 +1统计出所有垃圾邮件和正常邮件中出现这句话的次数啊！！！好，具体点说：

5. 分词

一个很悲哀但是很现实的结论： 训练集是有限的，而句子的可能性则是无限的。所以覆盖所有句子可能性的训练集是不存在的。

所以解决方法是？ 句子的可能性无限，但是词语就那么些！！汉语常用字2500个，常用词语也就56000个(你终于明白小学语文老师的用心良苦了)。按人们的经验理解，两句话意思相近并不强求非得每个字、词语都一样。比如“我司可办理正规发票，17%增值税发票点数优惠！”，这句话就比之前那句话少了“（保真）”这个词，但是意思基本一样。如果把这些情况也考虑进来，那样本数量就会增加，这就方便我们计算了。

于是，我们可以不拿句子作为特征，而是拿句子里面的词语（组合）作为特征去考虑。比如“正规发票”可以作为一个单独的词语，“增值税”也可以作为一个单独的词语等等。

句子“我司可办理正规发票，17%增值税发票点数优惠！”就可以变成（“我”,“司”,“可”,“办理”,“正规发票”,“保真”,“增值税”,“发票”,“点数”,“优惠”)）。

于是你接触到了中文NLP中，最最最重要的技术之一：分词！！！也就是把一整句话拆分成更细粒度的词语来进行表示。另外，分词之后去除标点符号、数字甚至无关成分(停用词)是特征预处理中的一项技术。

中文分词是一个专门的技术领域(我不会告诉你某搜索引擎厂码砖工有专门做分词的！！！)，上过之前课程的同学都知道python有一个非常方便的分词工具jieba，假定我们已经完成分词工作：

我们观察（“我”,“司”,“可”,“办理”,“正规发票”,“保真”,“增值税”,“发票”,“点数”,“优惠”)，这可以理解成一个向量：向量的每一维度都表示着该特征词在文本中的特定位置存在。这种将特征拆分成更小的单元，依据这些更灵活、更细粒度的特征进行判断的思维方式，在自然语言处理与机器学习中都是非常常见又有效的。

因此贝叶斯公式就变成了：

6. 条件独立假设

下面我们马上会看到一个非常简单粗暴的假设。

概率P(（“我”,“司”,“可”,“办理”,“正规发票”,“保真”,“增值税”,“发票”,“点数”,“优惠”)|"垃圾邮件"）P(（“我”,“司”,“可”,“办理”,“正规发票”,“保真”,“增值税”,“发票”,“点数”,“优惠”)|"垃圾邮件"）依旧不够好求，我们引进一个很朴素的近似。为了让公式显得更加紧凑，我们令字母S表示“垃圾邮件”,令字母H表示“正常邮件”。近似公式如下：

这就是传说中的条件独立假设。基于“正常邮件”的条件独立假设的式子与上式类似，此处省去。接着，将条件独立假设代入上面两个相反事件的贝叶斯公式。

于是我们就只需要比较以下两个式子的大小：

厉(wo)害(cao)！酱紫处理后式子中的每一项都特别好求！只需要分别统计各类邮件中该关键词出现的概率就可以了！！！比如：

统计次数非常方便，而且样本数量足够大，算出来的概率比较接近真实。于是垃圾邮件识别的问题就可解了。

7. 朴素贝叶斯(Naive Bayes)，“Naive”在何处？

加上条件独立假设的贝叶斯方法就是朴素贝叶斯方法（Naive Bayes）。 Naive的发音是“乃一污”，意思是“朴素的”、“幼稚的”、“蠢蠢的”。咳咳，也就是说，大神们取名说该方法是一种比较萌蠢的方法，为啥？

将句子（“我”,“司”,“可”,“办理”,“正规发票”) 中的（“我”,“司”）与（“正规发票”）调换一下顺序，就变成了一个新的句子（“正规发票”,“可”,“办理”, “我”, “司”)。新句子与旧句子的意思完全不同。但由于乘法交换律，朴素贝叶斯方法中算出来二者的条件概率完全一样！计算过程如下：

也就是说，在朴素贝叶斯眼里，“我司可办理正规发票”与“正规发票可办理我司”完全相同。朴素贝叶斯失去了词语之间的顺序信息。这就相当于把所有的词汇扔进到一个袋子里随便搅和，贝叶斯都认为它们一样。因此这种情况也称作词袋子模型(bag of words)。词袋子模型与人们的日常经验完全不同。比如，在条件独立假设的情况下，“武松打死了老虎”与“老虎打死了武松”被它认作一个意思了。恩，朴素贝叶斯就是这么单纯和直接，对比于其他分类器，好像是显得有那么点萌蠢。

8. 简单高效，吊丝逆袭

虽然说朴素贝叶斯方法萌蠢萌蠢的，但实践证明在垃圾邮件识别的应用还令人诧异地好。Paul Graham先生自己简单做了一个朴素贝叶斯分类器，“1000封垃圾邮件能够被过滤掉995封，并且没有一个误判”。（Paul Graham《黑客与画家》）

那个...效果为啥好呢？

“有人对此提出了一个理论解释，并且建立了什么时候朴素贝叶斯的效果能够等价于非朴素贝叶斯的充要条件，这个解释的核心就是：有些独立假设在各个分类之间的分布都是均匀的所以对于似然的相对大小不产生影响；即便不是如此，也有很大的可能性各个独立假设所产生的消极影响或积极影响互相抵消，最终导致结果受到的影响不大。具体的数学公式请参考这篇 paper。”（刘未鹏《：平凡而又神奇的贝叶斯方法》）

恩，这个分类器中最简单直接看似萌蠢的小盆友『朴素贝叶斯』，实际上却是简单、实用、且强大的。

9. 处理重复词语的三种方式

我们之前的垃圾邮件向量（“我”,“司”,“可”,“办理”,“正规发票”,“保真”,“增值税”,“发票”,“点数”,“优惠”)，其中每个词都不重复。而这在现实中其实很少见。因为如果文本长度增加，或者分词方法改变，必然会有许多词重复出现，因此需要对这种情况进行进一步探讨。比如以下这段邮件：

“代开发票。增值税发票，正规发票。” 分词后为向量：（“代开”,“发票”,“增值税”,“发票”,“正规”,“发票”）

其中“发票”重复了三次。

9.1 多项式模型：

如果我们考虑重复词语的情况，也就是说，重复的词语我们视为其出现多次，直接按条件独立假设的方式推导，则有

在统计计算P(“发票”|S）时，每个被统计的垃圾邮件样本中重复的词语也统计多次。

你看这个多次出现的结果，出现在概率的指数/次方上，因此这样的模型叫作多项式模型。

9.2 伯努利模型

另一种更加简化的方法是将重复的词语都视为其只出现1次，

统计计算P(“词语”|S）P(“词语”|S）时也是如此。

这样的模型叫作伯努利模型（又称为二项独立模型）。这种方式更加简化与方便。当然它丢失了词频的信息，因此效果可能会差一些。

9.3 混合模型

第三种方式是在计算句子概率时，不考虑重复词语出现的次数，但是在统计计算词语的概率P(“词语”|S）时，却考虑重复词语的出现次数，这样的模型可以叫作混合模型。

我们通过下图展示三种模型的关系。

具体实践中采用那种模型，关键看具体的业务场景，一个简单经验是，对于垃圾邮件识别，混合模型更好些。

10. 去除停用词与选择关键词

我们继续观察（“我”,“司”,“可”,“办理”,“正规发票”,“保真”,“增值税”,“发票”,“点数”,“优惠”) 这句话。其实，像“我”、“可”之类词其实非常中性，无论其是否出现在垃圾邮件中都无法帮助判断的有用信息。所以可以直接不考虑这些典型的词。这些无助于我们分类的词语叫作“停用词”（Stop Words）。这样可以减少我们训练模型、判断分类的时间。于是之前的句子就变成了（“司”,“办理”,“正规发票”,“保真”,“增值税”,“发票”,“点数”,“优惠”) 。

我们进一步分析。以人类的经验，其实“正规发票”、“发票”这类的词如果出现的话，邮件作为垃圾邮件的概率非常大，可以作为我们区分垃圾邮件的“关键词”。而像“司”、“办理”、“优惠”这类的词则有点鸡肋，可能有助于分类，但又不那么强烈。如果想省事做个简单的分类器的话，则可以直接采用“关键词”进行统计与判断，剩下的词就可以先不管了。于是之前的垃圾邮件句子就变成了（“正规发票”,“发票”) 。这样就更加减少了我们训练模型、判断分类的时间，速度非常快。

“停用词”和“关键词”一般都可以提前靠人工经验指定。不同的“停用词”和“关键词”训练出来的分类器的效果也会有些差异。

11. 浅谈平滑技术

我们来说个问题(中文NLP里问题超级多，哭瞎T_T)，比如在计算以下独立条件假设的概率：

我们扫描一下训练集，发现“正规发票”这个词从出现过！！！*，于是P(“正规发票”|S）=0P(“正规发票”|S）=0...问题严重了，整个概率都变成0了！！！朴素贝叶斯方法面对一堆0，很凄惨地失效了...更残酷的是这种情况其实很常见，因为哪怕训练集再大，也可能有覆盖不到的词语。本质上还是样本数量太少，不满足大数定律，计算出来的概率失真**。为了解决这样的问题，一种分析思路就是直接不考虑这样的词语，但这种方法就相当于默认给P(“正规发票”|S）赋值为1。其实效果不太好，大量的统计信息给浪费掉了。我们进一步分析，既然可以默认赋值为1，为什么不能默认赋值为一个很小的数？这就是平滑技术的基本思路，依旧保持着一贯的作风，朴实/土但是直接而有效。

对于伯努利模型，P(“正规发票”|S）的一种平滑算法是：

对于多项式模型，P(“正规发票”| S）的一种平滑算法是：

说起来，平滑技术的种类其实非常多，有兴趣的话回头我们专门拉个专题讲讲好了。这里只提一点，就是所有的平滑技术都是给未出现在训练集中的词语一个估计的概率，而相应地调低其他已经出现的词语的概率。

平滑技术是因为数据集太小而产生的现实需求。如果数据集足够大，平滑技术对结果的影响将会变小。

12. 内容小结

我们找了个最简单常见的例子：垃圾邮件识别，说明了一下朴素贝叶斯进行文本分类的思路过程。基本思路是先区分好训练集与测试集，对文本集合进行分词、去除标点符号等特征预处理的操作，然后使用条件独立假设，将原概率转换成词概率乘积，再进行后续的处理。

贝叶斯公式 + 条件独立假设 = 朴素贝叶斯方法

基于对重复词语在训练阶段与判断（测试）阶段的三种不同处理方式，我们相应的有伯努利模型、多项式模型和混合模型。在训练阶段，如果样本集合太小导致某些词语并未出现，我们可以采用平滑技术对其概率给一个估计值。而且并不是所有的词语都需要统计，我们可以按相应的“停用词”和“关键词”对模型进行进一步简化，提高训练和判断速度。

13. 为什么不直接匹配关键词来识别垃圾邮件？

有同学可能会问：“何必费这么大劲算那么多词的概率？直接看邮件中有没有‘代开发票’、‘转售发票’之类的关键词不就得了？如果关键词比较多就认为是垃圾邮件呗。”

其实关键词匹配的方法如果有效的话真不必用朴素贝叶斯。毕竟这种方法简单嘛，就是一个字符串匹配。从历史来看，之前没有贝叶斯方法的时候主要也是用关键词匹配。但是这种方法准确率太低。我们在工作项目中也尝试过用关键词匹配的方法去进行文本分类，发现大量误报。感觉就像扔到垃圾箱的邮件99%都是正常的！这样的效果不忍直视。而加一个朴素贝叶斯方法就可能把误报率拉低近一个数量级，体验好得不要不要的。

另一个原因是词语会随着时间不断变化。发垃圾邮件的人也不傻，当他们发现自己的邮件被大量屏蔽之后，也会考虑采用新的方式，如变换文字、词语、句式、颜色等方式来绕过反垃圾邮件系统。比如对于垃圾邮件“我司可办理正规发票，17%增值税发票点数优惠”,他们采用火星文：“涐司岢办理㊣規髮票，17%增値稅髮票嚸數優蕙”，那么字符串匹配的方法又要重新找出这些火星文，一个一个找出关键词，重新写一些匹配规则。更可怕的是，这些规则可能相互之间的耦合关系异常复杂，要把它们梳理清楚又是大一个数量级的工作量。等这些规则失效了又要手动更新新的规则……无穷无尽猫鼠游戏最终会把猫给累死。

而朴素贝叶斯方法却显示出无比的优势。因为它是基于统计方法的，只要训练样本中有更新的垃圾邮件的新词语，哪怕它们是火星文，都能自动地把哪些更敏感的词语（如“髮”、“㊣”等）给凸显出来，并根据统计意义上的敏感性给他们分配适当的权重 ，这样就不需要什么人工了，非常省事。你只需要时不时地拿一些最新的样本扔到训练集中，重新训练一次即可。

小补充一下，对于火星文、同音字等替代语言，一般的分词技术可能会分得不准，最终可能只把一个一个字给分出来，成为“分字”。效果可能不会太好。也可以用过n-gram之类的语言模型，拿到最常见短语。当然，对于英文等天生自带空格来间隔单词的语言，分词则不是什么问题，使用朴素贝叶斯方法将会更加顺畅。

14.实际工程的tricks

应用朴素贝叶斯方法的过程中，一些tricks能显著帮助工程解决问题。我们毕竟经验有限，无法将它们全都罗列出来，只能就所知的一点点经验与大家分享，欢迎批评指正。

14.1 trick1：取对数

我们提到用来识别垃圾邮件的方法是比较以下两个概率的大小（字母S表示“垃圾邮件”,字母H表示“正常邮件”）：

但这里进行了很多乘法运算，计算的时间开销比较大。尤其是对于篇幅比较长的邮件，几万个数相乘起来还是非常花时间的。如果能把这些乘法变成加法则方便得多。刚好数学中的对数函数log就可以实现这样的功能。两边同时取对数（本文统一取底数为2），则上面的公式变为：

有同学可能要叫了：“做对数运算岂不会也很花时间？”的确如此，但是可以在训练阶段直接计算 logP ，然后把他们存在一张大的hash表里。在判断的时候直接提取hash表中已经计算好的对数概率，然后相加即可。这样使得判断所需要的计算时间被转移到了训练阶段，实时运行的时候速度就比之前快得多，这可不止几个数量级的提升。

14.2 trick2：转换为权重

14.3 trick3：选取topk的关键词

14.4 trick4：分割样本

选取topk个词语的方法对于篇幅变动不大的邮件样本比较有效。但是对篇幅过大或者过小的邮件则会有判断误差。

比如这个垃圾邮件的例子：（“我”,“司”,“可”,“办理”,“正规发票”,“保真”,“增值税”,“发票”,“点数”,“优惠”)。分词出了10个词语，其中有“正规发票”、“发票”2个关键词。关键词的密度还是蛮大的，应该算是敏感邮件。但因为采用最高15个词语的权重求和，并且相应的阈值是基于15个词的情况有效，可能算出来的结果还小于之前的阈值，这就造成漏判了。

类似的，如果一封税务主题的邮件有1000个词语，其中只有“正规发票”、“发票”、“避税方法”3个权重比较大的词语，它们只是在正文表述中顺带提到的内容。关键词的密度被较长的篇幅稀释了，应该算是正常邮件。但是却被阈值判断成敏感邮件，造成误判了。

这两种情况都说明topk关键词的方法需要考虑篇幅的影响。这里有许多种处理方式，它们的基本思想都是选取词语的个数及对应的阈值要与篇幅的大小成正比，本文只介绍其中一种方方法：

14.5 trick5：位置权重

到目前为止，我们对词语权重求和的过程都没有考虑邮件篇章结构的因素。比如“正规发票”如果出现在标题中应该比它出现在正文中对判断整个邮件的影响更大；而出现在段首句中又比其出现在段落正文中对判断整个邮件的影响更大。所以可以根据词语出现的位置，对其权重再乘以一个放大系数，以扩大其对整封邮件的影响，提高识别准确度。

14.6 trick6：蜜罐

我们通过辛辛苦苦的统计与计算，好不容易得到了不同词语的权重。然而这并不是一劳永逸的。我们我们之前交代过，词语及其权重会随着时间不断变化，需要时不时地用最新的样本来训练以更新词语及其权重。

而搜集最新垃圾邮件有一个技巧，就是随便注册一些邮箱，然后将它们公布在各大论坛上。接下来就坐等一个月，到时候收到的邮件就绝大部分都是垃圾邮件了（好奸诈）。再找一些正常的邮件，基本就能够训练了。这些用于自动搜集垃圾邮件的邮箱叫做“蜜罐”。“蜜罐”是网络安全领域常用的手段，因其原理类似诱捕昆虫的装有蜜的罐子而得名。比如杀毒软件公司会利用蜜罐来监视或获得计算机网络中的病毒样本、攻击行为等。

15. 贝叶斯方法的思维方式

讲了这么多tricks，但这些手段都是建立在贝叶斯方法基础之上的。因此有必要探讨一下贝叶斯方法的思维方式，以便更好地应用这种方法解决实际问题。

15.1 逆概问题

15.2 处理多分类问题

前面我们一直在探讨二分类（判断题）问题，现在可以引申到多分类（单选题）问题了。

还是用邮件分类的例子，这是现在不只要判断垃圾邮件，还要将正常邮件细分为私人邮件、工作邮件。现在有这3类邮件各1万封作为样本。需要训练出一个贝叶斯分类器。这里依次用Y1,Y2,Y3Y1,Y2,Y3表示这三类邮件，用XX表示被判断的邮件。套用贝叶斯公式有：

通过比较3个概率值的大小即可得到XX所属的分类。发现三个式子的分母P(X)一样，比较大小时可以忽略不计，于是就可以用下面这一个式子表达上面3式：

15.3 先验概率的问题

16. (朴素)贝叶斯方法的常见应用

说了这么多理论的问题，咱们就可以探讨一下(朴素)贝叶斯方法在自然语言处理中的一些常见应用了。以下只是从原理上进行探讨，对于具体的技术细节顾及不多。

16.1 褒贬分析

一个比较常见的应用场景是情感褒贬分析。比如你要统计微博上人们对一个新上映电影的褒贬程度评价：好片还是烂片。但是一条一条地看微博是根本看不过来，只能用自动化的方法。我们可以有一个很粗略的思路：

首先是用爬虫将微博上提到这个电影名字的微博全都抓取下来，比如有10万条。
然后用训练好的朴素贝叶斯分类器分别判断这些微博对电影是好评还是差评。
最后统计出这些好评的影评占所有样本中的比例，就能形成微博网友对这个电影综合评价的大致估计。

接下来的核心问题就是训练出一个靠谱的分类器。首先需要有打好标签的文本。这个好找，豆瓣影评上就有大量网友对之前电影的评价，并且对电影进行1星到5星的评价。我们可以认为3星以上的评论都是好评，3星以下的评论都是差评。这样就分别得到了好评差评两类的语料样本。剩下就可以用朴素贝叶斯方法进行训练了。基本思路如下：

训练与测试样本：豆瓣影评的网友评论，用爬虫抓取下100万条。
标签：3星以上的是好评，3星以下的是差评。
特征：豆瓣评论分词后的词语。一个简单的方法是只选择其中的形容词，网上有大量的情绪词库可以为我们所用。
然后再用常规的朴素贝叶斯方法进行训练。

但是由于自然语言的特点，在提取特征的过程当中，有一些tricks需要注意：

对否定句进行特别的处理。比如这句话“我不是很喜欢部电影，因为它让我开心不起来。”其中两个形容词“喜欢”、“开心”都是褒义词，但是因为句子的否定句，所以整体是贬义的。有一种比较简单粗暴的处理方式，就是“对否定词（“不”、“非”、“没”等）与句尾标点之间的所有形容词都采用其否定形式” 。则这句话中提取出来的形容词就应该是“不喜欢”和“不开心”。
一般说来，最相关的情感词在一些文本片段中仅仅出现一次，词频模型起得作用有限，甚至是负作用，则使用伯努利模型代替多项式模型。这种情况在微博这样的小篇幅文本中似乎不太明显，但是在博客、空间、论坛之类允许长篇幅文本出现的平台中需要注意。
其实，副词对情感的评价有一定影响。“不很喜欢”与“很不喜欢”的程度就有很大差异。但如果是朴素贝叶斯方法的话比较难处理这样的情况。我们可以考虑用语言模型或者加入词性标注的信息进行综合判断。这些内容我们将在之后的文章进行探讨。

当然经过以上的处理，情感分析还是会有一部分误判。这里涉及到许多问题，都是情感分析的难点：

情绪表达的含蓄微妙：“导演你出来，我保证不打死你。”你让机器怎么判断是褒还是贬？
转折性表达：“我非常喜欢这些大牌演员，非常崇拜这个导演，非常赞赏这个剧本，非常欣赏他们的预告片，我甚至为了这部影片整整期待了一年，最后进了电影院发现这是个噩梦。” 五个褒义的形容词、副词对一个不那么贬义的词。机器自然判断成褒义，但这句话是妥妥的贬义。

16.2 拼写纠错

拼写纠错本质上也是一个分类问题。但按照错误类型不同，又分为两种情况：

非词错误（Non-word Errors）：指那些拼写错误后的词本身就不合法，如将“wifi”写成“wify”；
真词错误（Real-word Errors）：指那些拼写错误后的词仍然是合法的情况，如将“wifi”写成“wife”。

真词错误复杂一些，我们将在接下来的文章中进行探讨。而对于非词错误，就可以直接采用贝叶斯方法，其基本思路如下：

标签：通过计算错误词语的最小编辑距离（之前咱们提到过的），获取最相似的候选词，每个候选词作为一个分类。
特征：拼写错误的词本身。因为它就一个特征，所以没有什么条件独立性假设、朴素贝叶斯啥的。它就是纯而又纯的贝叶斯方法。

由于自然语言的特点，有一些tricks需要注意：

据统计，80%的拼写错误编辑距离为1，几乎所有的拼写错误编辑距离小于等于2。我们只选择编辑距离为1或2的词作为候选词，这样就可以减少大量不必要的计算。
由于我们只选择编辑距离为1或2的词，其差别只是一两个字母级别差别。因此计算似然函数的时候，可以只统计字母层面的编辑错误，这样搜集的样本更多，更满足大数定律，也更简单。对于编辑距离为1的似然函数计算公式可以进化为：

17. 内容小结

从前面大家基本可以看出，工程应用不同于学术理论，有许多tricks需要考虑，而理论本质就是翻来倒去折腾贝叶斯公式，都快玩出花来了。

你可能感兴趣的:(NLP自然语言处理)

pytorch NLP自然语言处理入门一：文本表示 whyte王 pytorch NLP基础 pytorch 自然语言处理人工智能
开始编辑：2024/2/16；最后编辑2024/2/16教程出自：https://learn.microsoft.com/en-sg/training/modules/intro-natural-language-processing-pytorch/第二部分：https://blog.csdn.net/qq_33345365/article/details/136142152本博客旨在探讨处理自
【AI视野·今日NLP 自然语言处理论文速览第八十二期】Tue, 5 Mar 2024 hitrjj LLM NLP Papers 人工智能自然语言处理 NLP 预训练模型文本摘要情绪识别推理训练
AI视野·今日CS.NLP自然语言处理论文速览Tue,5Mar2024(showingfirst100of175entries)Totally100papers上期速览✈更多精彩请移步主页DailyComputationandLanguagePapersKey-Point-DrivenDataSynthesiswithitsEnhancementonMathematicalReasoningAut
【AI视野·今日NLP 自然语言处理论文速览第七十八期】Wed, 17 Jan 2024 hitrjj NLP LLM Papers NLP LLM 大语言模型文本处理生成模型
AI视野·今日CS.NLP自然语言处理论文速览Wed,17Jan2024(showingfirst100of163entries)Totally100papers上期速览✈更多精彩请移步主页DailyComputationandLanguagePapersDeductiveClosureTrainingofLanguageModelsforCoherence,Accuracy,andUpdatab
【AI视野·今日NLP 自然语言处理论文速览第七十九期】Thu, 18 Jan 2024 hitrjj LLM NLP Papers 自然语言处理 LLM 大语言模型对话系统 NLP
AI视野·今日CS.NLP自然语言处理论文速览Thu,18Jan2024Totally35papers上期速览✈更多精彩请移步主页DailyComputationandLanguagePapersDecipheringTextualAuthenticity:AGeneralizedStrategythroughtheLensofLargeLanguageSemanticsforDetectingH
2018-03-05 baitu
使用sar和kSar来发现Linux性能瓶颈剖析内存中的程序之秘JavaEE未来路在何方？用户帐户，授权和密码管理的12个最佳实践NLP自然语言处理框架ClearTKApacheUIMAClearTKLoggingWiththeElasticStack
【NLP 自然语言处理(一)---词向量】 y_dd 深度学习自然语言处理人工智能
文章目录什么是NLP自然语言处理发展历程自然语言处理模型模型能识别单词的方法词向量分词一个向量vector表示一个词词向量的表示-one-hot多维词嵌入wordembeding词向量的训练方法CBOWSkip-gram词嵌入的理论依据一个vector（向量）表示短语或者文章vectorspaceModelbag-of-wordvectorspaceModel+bag-of-word实现信息搜索改
NLP自然语言处理实战(三):词频背后的语义--5.距离和相似度&反馈及改进 Nobitaxi NLP自然语言处理实战学习自然语言处理机器学习人工智能
目录1.距离和相似度2.反馈及改进线性判别分析1.距离和相似度我们可以使用相似度评分（或距离），根据两篇文档的表达向量间的相似度（或距离）来判断文档间有多相似。LSA能够保持较大的距离，但它并不能总保持较小的距离（文档之间关系的精细结构）。LSA底层的SVD算法的重点是使新主题向量空间中所有文档之间的方差最大化。特征向量（词向量、主题向量、文档上下文向量等）之间的距离驱动着NLP流水线或任何机器学
NLP自然语言处理-第一章NLP基础 Viterbi
第一章NLP基础在本章你将学到NLP（自然语言处理）相关的基础知识。本章要点包括：NLP基础概念NLP的发展与应用NLP常用术语以及扩展介绍1.1什么是NLP1.1.1NLP的概念NLP（NaturalLanguageProcessing，自然语言处理）是计算机科学领域以及人工智能领域的一个重要的研究方向，它研究用计算机来处理、理解以及运用人类语言（如中文、英文等），达到人与计算机之间进行有效通讯
NLP自然语言处理 AI论道自然语言处理人工智能
随着人工智能的飞速发展，自然语言处理（NaturalLanguageProcessing，简称NLP）已经成为了AI领域的一颗璀璨明珠。NLP旨在赋予机器理解和处理人类语言的能力，这不仅仅是一项技术革新，更是一种推动人与机器交流方式根本性变革的力量。本文将对NLP进行简析，带领读者一探究竟。1、什么是自然语言处理？自然语言处理是计算机科学、人工智能和语言学交叉的一个分支学科，它涉及到让计算机能够理
NLP自然语言处理的基本语言任务介绍人生万事须自为，跬步江山即寥廓。机器学习人工智能自然语言处理人工智能机器学习
自然语言处理（NaturalLanguageProcessing，NLP）是计算机科学、人工智能和语言学领域的一个分支，它致力于使计算机能够理解、解释和生成人类语言。NLP的基本任务包括以下几个方面：1.分词（Tokenization）：将文本分割成单词、短语或其他有意义的元素（称为tokens）。分词是许多NLP任务的第一步。2.词性标注（Part-of-SpeechTagging）：为文本中的
【AI视野·今日NLP 自然语言处理论文速览第七十七期】Mon, 15 Jan 2024 hitrjj LLM NLP Papers 人工智能自然语言处理 LLM 大语言模型大模型自动翻译文本摘要
AI视野·今日CS.NLP自然语言处理论文速览Mon,15Jan2024Totally57papers上期速览✈更多精彩请移步主页DailyComputationandLanguagePapersMachineTranslationModelsareZero-ShotDetectorsofTranslationDirectionAuthorsMichelleWastl,JannisVamvas,R
【AI视野·今日NLP 自然语言处理论文速览第七十六期】Fri, 12 Jan 2024 hitrjj LLM NLP Papers 自然语言处理大语言模型 LLM NLP
AI视野·今日CS.NLP自然语言处理论文速览Fri,12Jan2024Totally60papers上期速览✈更多精彩请移步主页DailyComputationandLanguagePapersAxisTour:WordTourDeterminestheOrderofAxesinICA-transformedEmbeddingsAuthorsHiroakiYamagiwa,YusukeTakas
深入浅出自然语义处理原理并构建自然语义处理(NLP)模型GPT2 「已注销」笔记深度学习人工智能 pytorch 自然语言处理神经网络
NLP自然语言处理，GPT2模型1、词向量在图像的处理中，我们无需对图像进行特殊的处理，因为图像本身就是由矩阵来表示的。而处理自然语言的时候，语言是由每一个字、词组成的。而字、词是通过编码存储在计算机当中的。所以我们可以通过将字、词编码成为向量的形式，如此就可以输入进深度学习网络模型中。但是我们应该如何去编码呢？像做图像分类那样，使用one—hot的形式编码？但是这样会存在一个问题，在自然语言中，
NLP自然语言处理介绍 love6a6 nlp
自然语言处理（NaturalLanguageProcessing，NLP）是一种通过计算机技术与人类语言交互的研究领域。它致力于使计算机能够理解、解析、处理和生成人类语言，以实现人机之间的自然语言交流。NLP涉及多个技术和方法，包括语音识别、文本分析、语义理解、机器翻译、情感分析等。通过这些技术，NLP可以处理和分析大量的文本数据，识别文本中的关键信息和结构，并从中提取出有用的知识和洞察。NLP在
分享一个“产业级，开箱即用”的NLP自然语言处理工具李楷杰自然语言处理人工智能
NLP的全称是NatuarlLanguageProcessing，中文意思是自然语言处理，是人工智能领域的一个重要方向自然语言处理（NLP）的一个最伟大的方面是跨越多个领域的计算研究，从人工智能到计算语言学的多个计算研究领域都在研究计算机与人类语言之间的相互作用。它主要关注计算机如何准确并快速地处理大量的自然语言语料库。什么是自然语言语料库？它是用现实世界语言表达的语言学习，是从文本和语言与另一种
【AI视野·今日NLP 自然语言处理论文速览第七十五期】Thu, 11 Jan 2024 hitrjj LLM NLP Papers 人工智能自然语言处理 NLP LLM 大语言模型
AI视野·今日CS.NLP自然语言处理论文速览Thu,11Jan2024Totally36papers上期速览✈更多精彩请移步主页DailyComputationandLanguagePapersLeveragingPrintDebuggingtoImproveCodeGenerationinLargeLanguageModelsAuthorsXueyuHu,KunKuang,JiankaiSun
NLP自然语言处理原理应用讲解打工人何苦为难打工人 nlp
自然语言处理（NLP）是人工智能领域中研究如何让计算机理解和处理人类自然语言的一门学科。它的应用广泛，例如在搜索引擎、聊天机器人、机器翻译等领域中都发挥了重要的作用。NLP的基本原理是通过对大量的语料库进行训练，让计算机学习到语言的语法、语义、上下文等信息，从而能够理解人类的语言。在处理自然语言时，NLP需要先将文本转换成一系列的符号，然后对这些符号进行分析和处理，最后将这些处理结果转换成机器可以
rnn相关爱学习的羽 workHappy pytorch rnn 人工智能深度学习
构成比之前多了一个圈这个圈包含t时刻之前的数据特征，主要用在NLP自然语言处理中。只用最后一个结果ht，前面的当做中间结果特点会把之前看到的都记下来，但第n句话和第一句话之间联系不太大，没必要LSTM自然语言处理考虑词的前后顺序和相关性构建词向量，不断向后滑动学习cbow和skip-gram方法cbow输入上下文，输出预测最中间的位置的词skip-gram输入中间的词，输出预测的上下文改进方法加入
NLP自然语言处理实战 AI论道自然语言处理人工智能
一、自然语言处理的概念1.1自然语言处理的起源语言是人类社会发展过程的产物，是最能体现人类智慧和文明的证明，也是人类与动物最大的区别。它是一种人与人交流的载体，像计算机网络一样，我们使用语言相互传递知识。在人类历史的几千年，语言不断地繁衍发展。在计算机兴趣的近几十年，科学界正在试图不断努力，把人类的语言演变成分析数据特征的依据。在1970年，有两位美国人RichardBandler和JohnGri
NLP自然语言处理介绍 Dxy1239310216 nlp
自然语言处理（NLP，NaturalLanguageProcessing）是一门涉及计算机与人类语言之间交互的学科。它的目标是使计算机能够理解和生成人类语言，从而更好地处理和解析大量的文本数据。NLP不仅是人工智能领域中一个重要的分支，也是当今社会应用广泛的领域之一。在NLP中，一个基础但关键的任务是分词。由于自然语言中的词语是由连续的字符序列组成，计算机需要将这些连续的字符切分成单独的词语或词素
NLP自然语言处理应用场景相信光的力量-哇哈里自然语言处理人工智能
NLP自然语言处理应用场景：智能客服：NLP可以用于开发智能客服系统，帮助用户解决问题，提供快速响应和个性化服务。舆情分析：NLP可以对社交媒体、新闻、评论等大量文本数据进行分析，帮助企业了解公众对其品牌、产品或服务的看法和态度。机器翻译：NLP可以用于开发机器翻译系统，实现跨语言沟通和文化交流。文本分类：NLP可以对大量文本进行分类，例如将新闻文章分类为政治、娱乐、体育等不同领域。智能搜索：NL
【AI视野·今日NLP 自然语言处理论文速览第七十二期】Mon, 8 Jan 2024 hitrjj LLM NLP Papers 自然语言处理 LLM 大语言模型数据集文本生成对比学习文本摘要
AI视野·今日CS.NLP自然语言处理论文速览Mon,8Jan2024Totally17papers上期速览✈更多精彩请移步主页DailyComputationandLanguagePapersDeepSeekLLM:ScalingOpen-SourceLanguageModelswithLongtermismAuthorsDeepSeekAIXiaoBi,DeliChen,GuantingChe
【AI视野·今日NLP 自然语言处理论文速览第七十三期】Tue, 9 Jan 2024 hitrjj NLP LLM Papers 自然语言处理 LLM 大语言模型文本生成文本摘要代理模型
AI视野·今日CS.NLP自然语言处理论文速览Tue,9Jan2024Totally80papers上期速览✈更多精彩请移步主页DailyComputationandLanguagePapersFFSplit:SplitFeed-ForwardNetworkForOptimizingAccuracy-EfficiencyTrade-offinLanguageModelInferenceAuthor
【AI视野·今日NLP 自然语言处理论文速览第七十四期】Wed, 10 Jan 2024 hitrjj LLM NLP Papers 自然语言处理 LLM 大语言模型
AI视野·今日CS.NLP自然语言处理论文速览Wed,10Jan2024Totally38papers上期速览✈更多精彩请移步主页DailyComputationandLanguagePapersModelEditingCanHurtGeneralAbilitiesofLargeLanguageModelsAuthorsJiaChenGu,HaoXiangXu,JunYuMa,PanLu,Zhen
简单几个步骤几行代码一步一步掌握NLP自然语言处理通过Transformers模型实现包括情感分析,垃圾邮件检测,语法纠错,文本推理等代码讲故事机器人智慧之心自然语言处理人工智能 NLP Transformers 情感分析垃圾邮件语法纠错
简单几个步骤几行代码一步一步掌握NLP自然语言处理通过Transformers模型实现包括情感分析,垃圾邮件检测,语法纠错,文本推理等。垃圾邮件是广告、欺诈或其他不相关信息的电子邮件，给我们的日常工作和生活带来了困扰。为了有效过滤和阻止垃圾邮件的到达，我们需要使用各种判断方法和技术。首先，基于匹配规则的方法是最常见的垃圾邮件判断方法之一。通过设置一系列的规则和模式，对邮件的主题、发件人、内容等进行
【AI视野·今日NLP 自然语言处理论文速览第七十期】Thu, 4 Jan 2024 hitrjj LLM NLP Papers 自然语言处理 LLM 大语言模型文本摘要价值对齐智能助手训练方法
AI视野·今日CS.NLP自然语言处理论文速览Thu,4Jan2024Totally29papers上期速览✈更多精彩请移步主页DailyComputationandLanguagePapersMultilingualInstructionTuningWithJustaPinchofMultilingualityAuthorsUriShaham,JonathanHerzig,RoeeAharoni
【AI视野·今日NLP 自然语言处理论文速览第六十九期】Wed, 3 Jan 2024 hitrjj NLP LLM Papers 自然语言处理 NLP 大模型 LLM 大语言模型文本摘要文本生成
AI视野·今日CS.NLP自然语言处理论文速览Wed,3Jan2024Totally24papers上期速览✈更多精彩请移步主页DailyComputationandLanguagePapersAnAutoregressiveText-to-GraphFrameworkforJointEntityandRelationExtractionAuthorsZaratianaUrchade,NadiTo
【AI视野·今日NLP 自然语言处理论文速览第七十一期】Fri, 5 Jan 2024 hitrjj NLP LLM Papers 自然语言处理 LLM NLP 大语言模型智能诊断智能对话文本摘要
AI视野·今日CS.NLP自然语言处理论文速览Fri,5Jan2024Totally28papers上期速览✈更多精彩请移步主页DailyComputationandLanguagePapersLLaMAPro:ProgressiveLLaMAwithBlockExpansionAuthorsChengyueWu,YukangGan,YixiaoGe,ZeyuLu,JiahaoWang,YeFen
【AI视野·今日NLP 自然语言处理论文速览第六十六期】Tue, 31 Oct 2023 hitrjj NLP LLM Papers 人工智能自然语言处理 NLP NLPer LLM 大语言模型
AI视野·今日CS.NLP自然语言处理论文速览Tue,31Oct2023(showingfirst100of141entries)Totally100papers上期速览✈更多精彩请移步主页DailyComputationandLanguagePapersTheEval4NLP2023SharedTaskonPromptingLargeLanguageModelsasExplainableMetr
【AI视野·今日NLP 自然语言处理论文速览第六十七期】Mon, 1 Jan 2024 hitrjj NLP LLM Papers 自然语言处理 LLM 大语言模型文本摘要智能问答生成模型
AI视野·今日CS.NLP自然语言处理论文速览Mon,1Jan2024Totally42papers上期速览✈更多精彩请移步主页DailyComputationandLanguagePapersPrincipledGradient-basedMarkovChainMonteCarloforTextGenerationAuthorsLiDu,AfraAmini,LucasTorrobaHennige
jQuery 键盘事件keydown ,keypress ,keyup介绍 107x js jquery keydown keypress keyup
本文章总结了下些关于jQuery 键盘事件keydown ,keypress ,keyup介绍，有需要了解的朋友可参考。一、首先需要知道的是： 1、keydown() keydown事件会在键盘按下时触发. 2、keyup() 代码如下复制代码 $('input').keyup(funciton(){
AngularJS中的Promise bijian1013 JavaScript AngularJS Promise
一.Promise Promise是一个接口，它用来处理的对象具有这样的特点：在未来某一时刻（主要是异步调用）会从服务端返回或者被填充属性。其核心是，promise是一个带有then()函数的对象。为了展示它的优点，下面来看一个例子，其中需要获取用户当前的配置文件： var cu
c++ 用数组实现栈类 CrazyMizzz 数据结构 C++
#include<iostream> #include<cassert> using namespace std; template<class T, int SIZE = 50> class Stack{ private: T list[SIZE];//数组存放栈的元素 int top;//栈顶位置 public: Stack(
java和c语言的雷同麦田的设计者 java 递归 scaner
软件启动时的初始化代码，加载用户信息2015年5月27号从头学java二 1、语言的三种基本结构：顺序、选择、循环。废话不多说，需要指出一下几点： a、return语句的功能除了作为函数返回值以外，还起到结束本函数的功能，return后的语句不会再继续执行。 b、for循环相比于whi
LINUX环境并发服务器的三种实现模型被触发 linux
服务器设计技术有很多，按使用的协议来分有TCP服务器和UDP服务器。按处理方式来分有循环服务器和并发服务器。 1 循环服务器与并发服务器模型在网络程序里面，一般来说都是许多客户对应一个服务器，为了处理客户的请求，对服务端的程序就提出了特殊的要求。目前最常用的服务器模型有： ·循环服务器：服务器在同一时刻只能响应一个客户端的请求 ·并发服务器：服
Oracle数据库查询指令肆无忌惮_ oracle数据库
20140920 单表查询 -- 查询************************************************************************************************************ -- 使用scott用户登录 -- 查看emp表 desc emp
ext右下角浮动窗口知了ing JavaScript ext
第一种 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/
浅谈REDIS数据库的键值设计矮蛋蛋 redis
http://www.cnblogs.com/aidandan/ 原文地址：http://www.hoterran.info/redis_kv_design 丰富的数据结构使得redis的设计非常的有趣。不像关系型数据库那样，DEV和DBA需要深度沟通，review每行sql语句，也不像memcached那样，不需要DBA的参与。redis的DBA需要熟悉数据结构，并能了解使用场景。
maven编译可执行jar包 alleni123 maven
http://stackoverflow.com/questions/574594/how-can-i-create-an-executable-jar-with-dependencies-using-maven <build> <plugins> <plugin> <artifactId>maven-asse
人力资源在现代企业中的作用百合不是茶 HR 企业管理
//人力资源在在企业中的作用人力资源为什么会存在，人力资源究竟是干什么的人力资源管理是对管理模式一次大的创新，人力资源兴起的原因有以下点：工业时代的国际化竞争，现代市场的风险管控等等。所以人力资源在现代经济竞争中的优势明显的存在，人力资源在集团类公司中存在着明显的优势(鸿海集团)，有一次笔者亲自去体验过红海集团的招聘，只知道人力资源是管理企业招聘的当时我被招聘上了，当时给我们培训的人
Linux自启动设置详解 bijian1013 linux
linux有自己一套完整的启动体系，抓住了linux启动的脉络，linux的启动过程将不再神秘。阅读之前建议先看一下附图。本文中假设inittab中设置的init tree为： /etc/rc.d/rc0.d /etc/rc.d/rc1.d /etc/rc.d/rc2.d /etc/rc.d/rc3.d /etc/rc.d/rc4.d /etc/rc.d/rc5.d /etc
Spring Aop Schema实现 bijian1013 java spring AOP
本例使用的是Spring2.5 1.Aop配置文件spring-aop.xml <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmln
【Gson七】Gson预定义类型适配器 bit1129 gson
Gson提供了丰富的预定义类型适配器，在对象和JSON串之间进行序列化和反序列化时，指定对象和字符串之间的转换方式， DateTypeAdapter public final class DateTypeAdapter extends TypeAdapter<Date> { public static final TypeAdapterFacto
【Spark八十八】Spark Streaming累加器操作（updateStateByKey) bit1129 update
在实时计算的实际应用中，有时除了需要关心一个时间间隔内的数据，有时还可能会对整个实时计算的所有时间间隔内产生的相关数据进行统计。比如：对Nginx的access.log实时监控请求404时，有时除了需要统计某个时间间隔内出现的次数，有时还需要统计一整天出现了多少次404，也就是说404监控横跨多个时间间隔。 Spark Streaming的解决方案是累加器，工作原理是，定义
linux系统下通过shell脚本快速找到哪个进程在写文件 ronin47
一个文件正在被进程写我想查看这个进程文件一直在增大找不到谁在写使用lsof也没找到这个问题挺有普遍性的，解决方法应该很多，这里我给大家提个比较直观的方法。 linux下每个文件都会在某个块设备上存放，当然也都有相应的inode, 那么透过vfs.write我们就可以知道谁在不停的写入特定的设备上的inode。幸运的是systemtap的安装包里带了inodewatch.stp，位
java-两种方法求第一个最长的可重复子串 bylijinnan java 算法
import java.util.Arrays; import java.util.Collections; import java.util.List; public class MaxPrefix { public static void main(String[] args) { String str="abbdabcdabcx";
Netty源码学习-ServerBootstrap启动及事件处理过程 bylijinnan java netty
Netty是采用了Reactor模式的多线程版本，建议先看下面这篇文章了解一下Reactor模式： http://bylijinnan.iteye.com/blog/1992325 Netty的启动及事件处理的流程，基本上是按照上面这篇文章来走的文章里面提到的操作，每一步都能在Netty里面找到对应的代码其中Reactor里面的Acceptor就对应Netty的ServerBo
servelt filter listener 的生命周期 cngolon filter listener servelt 生命周期
1. servlet 当第一次请求一个servlet资源时，servlet容器创建这个servlet实例，并调用他的 init(ServletConfig config)做一些初始化的工作，然后调用它的service方法处理请求。当第二次请求这个servlet资源时，servlet容器就不在创建实例，而是直接调用它的service方法处理请求，也就是说
jmpopups获取input元素值 ctrain JavaScript
jmpopups 获取弹出层form表单首先，我有一个div，里面包含了一个表单，默认是隐藏的，使用jmpopups时，会弹出这个隐藏的div，其实jmpopups是将我们的代码生成一份拷贝。当我直接获取这个form表单中的文本框时，使用方法：$('#form input[name=test1]').val()；这样是获取不到的。我们必须到jmpopups生成的代码中去查找这个值，$(
vi查找替换命令详解 daizj linux 正则表达式替换查找 vim
一、查找查找命令 /pattern<Enter> ：向下查找pattern匹配字符串 ?pattern<Enter>：向上查找pattern匹配字符串使用了查找命令之后，使用如下两个键快速查找： n：按照同一方向继续查找 N：按照反方向查找字符串匹配 pattern是需要匹配的字符串，例如： 1: /abc<En
对网站中的js,css文件进行打包 dcj3sjt126com PHP 打包
一，为什么要用smarty进行打包 apache中也有给js,css这样的静态文件进行打包压缩的模块，但是本文所说的不是以这种方式进行的打包，而是和smarty结合的方式来把网站中的js,css文件进行打包。为什么要进行打包呢，主要目的是为了合理的管理自己的代码。现在有好多网站，你查看一下网站的源码的话，你会发现网站的头部有大量的JS文件和CSS文件，网站的尾部也有可能有大量的J
php Yii: 出现undefined offset 或者 undefined index解决方案 dcj3sjt126com undefined
在开发Yii 时，在程序中定义了如下方式： if($this->menuoption[2] === 'test')，那么在运行程序时会报：undefined offset:2，这样的错误主要是由于php.ini 里的错误等级太高了，在windows下错误等级
linux 文件格式（1） sed工具 eksliang linux linux sed工具 sed工具 linux sed详解
转载请出自出处： http://eksliang.iteye.com/blog/2106082 简介 sed 是一种在线编辑器，它一次处理一行内容。处理时，把当前处理的行存储在临时缓冲区中，称为“模式空间”（pattern space），接着用sed命令处理缓冲区中的内容，处理完成后，把缓冲区的内容送往屏幕。接着处理下一行，这样不断重复，直到文件末尾
Android应用程序获取系统权限 gqdy365 android
引用如何使Android应用程序获取系统权限第一个方法简单点，不过需要在Android系统源码的环境下用make来编译： 1. 在应用程序的AndroidManifest.xml中的manifest节点
HoverTree开发日志之验证码 hvt .net C#asp.net hovertree webform
HoverTree是一个ASP.NET的开源CMS，目前包含文章系统，图库和留言板功能。代码完全开放，文章内容页生成了静态的HTM页面，留言板提供留言审核功能，文章可以发布HTML源代码，图片上传同时生成高品质缩略图。推出之后得到许多网友的支持，再此表示感谢！留言板不断收到许多有益留言，但同时也有不少广告，因此决定在提交留言页面增加验证码功能。ASP.NET验证码在网上找，如果不是很多，就是特别多
JSON API：用 JSON 构建 API 的标准指南中文版 justjavac json
译文地址：https://github.com/justjavac/json-api-zh_CN 如果你和你的团队曾经争论过使用什么方式构建合理 JSON 响应格式，那么 JSON API 就是你的 anti-bikeshedding 武器。通过遵循共同的约定，可以提高开发效率，利用更普遍的工具，可以是你更加专注于开发重点：你的程序。基于 JSON API 的客户端还能够充分利用缓存，
数据结构随记_2 lx.asymmetric 数据结构笔记
第三章栈与队列一．简答题 1. 在一个循环队列中，队首指针指向队首元素的前一个位置。 2.在具有n个单元的循环队列中，队满时共有 n-1 个元素。 3. 向栈中压入元素的操作是先移动栈顶指针&n
Linux下的监控工具dstat 网络接口 linux
1) 工具说明dstat是一个用来替换 vmstat,iostat netstat,nfsstat和ifstat这些命令的工具, 是一个全能系统信息统计工具. 与sysstat相比, dstat拥有一个彩色的界面, 在手动观察性能状况时, 数据比较显眼容易观察; 而且dstat支持即时刷新, 譬如输入dstat 3, 即每三秒收集一次, 但最新的数据都会每秒刷新显示. 和sysstat相同的是,
C 语言初级入门--二维数组和指针 1140566087 二维数组 c/c++指针
/* 二维数组的定义和二维数组元素的引用二维数组的定义：当数组中的每个元素带有两个下标时，称这样的数组为二维数组； (逻辑上把数组看成一个具有行和列的表格或一个矩阵); 语法：类型名数组名[常量表达式1][常量表达式2] 二维数组的引用：引用二维数组元素时必须带有两个下标，引用形式如下：例如： int a[3][4]; 引用：
10点睛Spring4.1-Application Event wiselyman application
10.1 Application Event Spring使用Application Event给bean之间的消息通讯提供了手段应按照如下部分实现bean之间的消息通讯继承ApplicationEvent类实现自己的事件实现继承ApplicationListener接口实现监听事件使用ApplicationContext发布消息