pi9nc

贝叶斯分类器-基础知识

分类：机器学习 2013-05-10 17:22 37人阅读评论(0) 收藏举报

    机器学习 贝叶斯 分类器 概率 
  

本文转载自：http://www.cnblogs.com/phinecos/archive/2008/10/21/1315948.html，作者：phinecos（洞庭散人）

=======================================================================================

Preface

本文缘起于最近在读的一本书-- Tom M.Mitchell的《机器学习》,书中第6章详细讲解了贝叶斯学习的理论知识，为了将其应用到实际中来，参考了网上许多资料，从而得此文。文章将分为两个部分，第一部分将介绍贝叶斯学习的相关理论(如果你对理论不感兴趣，请直接跳至第二部分<<基于朴素贝叶斯分类器的文本分类算法（下）>>)。第二部分讲如何将贝叶斯分类器应用到中文文本分类，随文附上示例代码。

Introduction

我们在《概率论和数理统计》这门课的第一章都学过贝叶斯公式和全概率公式，先来简单复习下：

条件概率

定义设A, B是两个事件，且P(A)>0 称P(B∣A)=P(AB)/P(A)为在条件A下发生的条件事件B发生的条件概率。

乘法公式 设P(A)>0 则有P(AB)=P(B∣A)P(A)

全概率公式和贝叶斯公式

定义设S为试验E的样本空间，B1, B2, …Bn为E的一组事件，若BiBj=Ф, i≠j, i, j=1, 2, …,n; B1∪B2∪…∪Bn=S则称B1, B2, …, Bn为样本空间的一个划分。

定理设试验E的样本空间为，A为E的事件，B1, B2, …,Bn为的一个划分，且P(Bi)>0 (i=1, 2, …n)，则P(A)=P(A∣B1)P(B1)+P(A∣B2)+ …+P(A∣Bn)P(Bn)称为全概率公式。

定理设试验俄E的样本空间为S，A为E的事件，B1, B2, …,Bn为的一个划分，则

P(Bi∣A)=P(A∣Bi)P(Bi)/∑P(B｜Aj)P(Aj)=P(B｜Ai)P(Ai)/P(B)

称为贝叶斯公式。说明：i，j均为下标，求和均是1到n

下面我再举个简单的例子来说明下。

示例1

考虑一个医疗诊断问题，有两种可能的假设：（1）病人有癌症。（2）病人无癌症。样本数据来自某化验测试，它也有两种可能的结果：阳性和阴性。假设我们已经有先验知识：在所有人口中只有0.008的人患病。此外，化验测试对有病的患者有98%的可能返回阳性结果，对无病患者有97%的可能返回阴性结果。

上面的数据可以用以下概率式子表示：

P(cancer)=0.008,P(无cancer)=0.992

P(阳性|cancer)=0.98,P(阴性|cancer)=0.02

P(阳性|无cancer)=0.03，P(阴性|无cancer)=0.97

假设现在有一个新病人，化验测试返回阳性，是否将病人断定为有癌症呢？我们可以来计算极大后验假设：

P(阳性|cancer)p(cancer)=0.98*0.008 = 0.0078

P(阳性|无cancer)*p(无cancer)=0.03*0.992 = 0.0298

因此，应该判断为无癌症。

贝叶斯学习理论

贝叶斯是一种基于概率的学习算法，能够用来计算显式的假设概率，它基于假设的先验概率，给定假设下观察到不同数据的概率以及观察到的数据本身（后面我们可以看到，其实就这么三点东西，呵呵）。

我们用P(h)表示没有训练样本数据前假设h拥有的初始概率，也就称为h的先验概率，它反映了我们所拥有的关于h是一个正确假设的机会的背景知识。当然如果没有这个先验知识的话，在实际处理中，我们可以简单地将每一种假设都赋给一个相同的概率。类似，P(D)代表将要观察的训练样本数据D的先验概率（也就是说，在没有确定某一个假设成立时D的概率）。然后是P(D/h)，它表示假设h成立时观察到数据D的概率。在机器学习中，我们感兴趣的是P(h/D),也就是给定了一个训练样本数据D,判断假设h成立的概率，这也称之为后验概率，它反映了在看到训练样本数据D后假设h成立的置信度。（注：后验概率p(h/D)反映了训练数据D的影响，而先验概率p(h)是独立于D的）。

P(h|D) = P(D|h)P(h)/p(D),从贝叶斯公式可以看出，后验概率p(h/D)取决于P(D|h)P(h)这个乘积，呵呵，这就是贝叶斯分类算法的核心思想。我们要做的就是要考虑候选假设集合H，并在其中寻找当给定训练数据D时可能性最大的假设h（h属于H）。

简单点说，就是给定了一个训练样本数据（样本数据已经人工分类好了），我们应该如何从这个样本数据集去学习，从而当我们碰到新的数据时，可以将新数据分类到某一个类别中去。那可以看到，上面的贝叶斯理论和这个任务是吻合的。

朴素贝叶斯分类

也许你觉得这理论还不是很懂，那我再举个简单的例子，让大家对这个算法的原理有个快速的认识。（注：这个示例摘抄自《机器学习》这本书的第三章的表3-2.）

假设给定了如下训练样本数据，我们学习的目标是根据给定的天气状况判断你对PlayTennis这个请求的回答是Yes还是No。

Day	Outlook	Temperature	Humidity	Wind	PlayTennis
D1	Sunny	Hot	High	Weak	No
D2	Sunny	Hot	High	Strong	No
D3	Overcast	Hot	High	Weak	Yes
D4	Rain	Mild	High	Weak	Yes
D5	Rain	Cool	Normal	Weak	Yes
D6	Rain	Cool	Normal	Strong	No
D7	Overcast	Cool	Normal	Strong	Yes
D8	Sunny	Mild	High	Weak	No
D9	Sunny	Cool	Normal	Weak	Yes
D10	Rain	Mild	Normal	Weak	Yes
D11	Sunny	Mild	Normal	Strong	Yes
D12	Overcast	Mild	High	Strong	Yes
D13	Overcast	Hot	Normal	Weak	Yes
D14	Rain	Mild	High	Strong	No

可以看到这里样本数据集提供了14个训练样本，我们将使用此表的数据，并结合朴素贝叶斯分类器来分类下面的新实例：

(Outlook = sunny,Temprature = cool,Humidity = high,Wind = strong)

我们的任务就是对此新实例预测目标概念PlayTennis的目标值(yes或no).

由上面的公式可以得到：

可以得到：

P(PlayTennis =yes) = 9/14 = 0.64,P(PlayTennis=no)=5/14 = 0.36

P(Wind=Stong| PlayTennis =yes)=3/9=0.33,p(Wind=Stong| PlayTennis =no)=3/5 = 0.6

其他数据类似可得，代入后得到：

P(yes)P(Sunny|yes)P(Cool|yes)P(high|yes)P(Strong|yes) = 0.0053

P(no)P(Sunny|no)P(Cool|no)P(high|no)P(Strong|no)=0.0206

因此应该分类到no这一类中。

贝叶斯文本分类算法

好了，现在开始进入本文的主旨部分：如何将贝叶斯分类器应用到中文文本的分类上来？

根据联合概率公式（全概率公式）

M——训练文本集合中经过踢出无用词去除文本预处理之后关键字的数量。

作者：洞庭散人

出处：http://phinecos.cnblogs.com/　　　　

本博客遵从 Creative Commons Attribution 3.0 License，若用于非商业目的，您可以自由转载，但请保留原作者信息和文章链接URL。

贝叶斯分类器--原理流程应用

分类：机器学习 2013-05-10 17:34 75人阅读评论(0) 收藏举报

       机器学习 贝叶斯 分类器 
     

 目录(?)[+]

本文转载自：http://www.cnblogs.com/leoo2sk/archive/2010/09/17/naive-bayesian-classifier.html，感谢原作者张洋。

==============================================================================

算法杂货铺——分类算法之朴素贝叶斯分类(Naive Bayesian classification)

0、写在前面的话

我个人一直很喜欢算法一类的东西，在我看来算法是人类智慧的精华，其中蕴含着无与伦比的美感。而每次将学过的算法应用到实际中，并解决了实际问题后，那种快感更是我在其它地方体会不到的。

一直想写关于算法的博文，也曾写过零散的两篇，但也许是相比于工程性文章来说太小众，并没有引起大家的兴趣。最近面临毕业找工作，为了能给自己增加筹码，决定再次复习算法方面的知识，我决定趁这个机会，写一系列关于算法的文章。这样做，主要是为了加强自己复习的效果，我想，如果能将复习的东西用自己的理解写成文章，势必比单纯的读书做题掌握的更牢固，也更能触发自己的思考。如果能有感兴趣的朋友从中有所收获，那自然更好。

这个系列我将其命名为“算法杂货铺”，其原因就是这些文章一大特征就是“杂”，我不会专门讨论堆栈、链表、二叉树、查找、排序等任何一本数据结构教科书都会讲的基础内容，我会从一个“专题”出发，如概率算法、分类算法、NP问题、遗传算法等，然后做一个引申，可能会涉及到算法与数据结构、离散数学、概率论、统计学、运筹学、数据挖掘、形式语言与自动机等诸多方面，因此其内容结构就像一个杂货铺。当然，我会竭尽所能，尽量使内容“杂而不乱”。

1.1、摘要

贝叶斯分类是一类分类算法的总称，这类算法均以贝叶斯定理为基础，故统称为贝叶斯分类。本文作为分类算法的第一篇，将首先介绍分类问题，对分类问题进行一个正式的定义。然后，介绍贝叶斯分类算法的基础——贝叶斯定理。最后，通过实例讨论贝叶斯分类中最简单的一种：朴素贝叶斯分类。

1.2、分类问题综述

对于分类问题，其实谁都不会陌生，说我们每个人每天都在执行分类操作一点都不夸张，只是我们没有意识到罢了。例如，当你看到一个陌生人，你的脑子下意识判断TA是男是女；你可能经常会走在路上对身旁的朋友说“这个人一看就很有钱、那边有个非主流”之类的话，其实这就是一种分类操作。

从数学角度来说，分类问题可做如下定义：

已知集合： $C=\{y_1,y_2,...,y_n\}$ 和 $I=\{x_1,x_2,...,x_m,...\}$ ，确定映射规则，使得任意 $x_i \in I$ 有且仅有一个 $y_j \in C$ 使得成立。（不考虑模糊数学里的模糊集情况）

其中C叫做类别集合，其中每一个元素是一个类别，而I叫做项集合，其中每一个元素是一个待分类项，f叫做分类器。分类算法的任务就是构造分类器f。

这里要着重强调，分类问题往往采用经验性方法构造映射规则，即一般情况下的分类问题缺少足够的信息来构造100%正确的映射规则，而是通过对经验数据的学习从而实现一定概率意义上正确的分类，因此所训练出的分类器并不是一定能将每个待分类项准确映射到其分类，分类器的质量与分类器构造方法、待分类数据的特性以及训练样本数量等诸多因素有关。

例如，医生对病人进行诊断就是一个典型的分类过程，任何一个医生都无法直接看到病人的病情，只能观察病人表现出的症状和各种化验检测数据来推断病情，这时医生就好比一个分类器，而这个医生诊断的准确率，与他当初受到的教育方式（构造方法）、病人的症状是否突出（待分类数据的特性）以及医生的经验多少（训练样本数量）都有密切关系。

1.3、贝叶斯分类的基础——贝叶斯定理

每次提到贝叶斯定理，我心中的崇敬之情都油然而生，倒不是因为这个定理多高深，而是因为它特别有用。这个定理解决了现实生活里经常遇到的问题：已知某条件概率，如何得到两个事件交换后的概率，也就是在已知P(A|B)的情况下如何求得P(B|A)。这里先解释什么是条件概率：

表示事件B已经发生的前提下，事件A发生的概率，叫做事件B发生下事件A的条件概率。其基本求解公式为： $P(A|B)=\frac{P(AB)}{P(B)}$ 。

下面不加证明地直接给出贝叶斯定理：

$P(B|A)=\frac{P(A|B)P(B)}{P(A)}$

1.4、朴素贝叶斯分类

1.4.1、朴素贝叶斯分类的原理与流程

朴素贝叶斯分类是一种十分简单的分类算法，叫它朴素贝叶斯分类是因为这种方法的思想真的很朴素，朴素贝叶斯的思想基础是这样的：对于给出的待分类项，求解在此项出现的条件下各个类别出现的概率，哪个最大，就认为此待分类项属于哪个类别。通俗来说，就好比这么个道理，你在街上看到一个黑人，我问你你猜这哥们哪里来的，你十有八九猜非洲。为什么呢？因为黑人中非洲人的比率最高，当然人家也可能是美洲人或亚洲人，但在没有其它可用信息下，我们会选择条件概率最大的类别，这就是朴素贝叶斯的思想基础。

朴素贝叶斯分类的正式定义如下：

1、设 $x=\{a_1,a_2,...,a_m\}$ 为一个待分类项，而每个a为x的一个特征属性。

2、有类别集合 $C=\{y_1,y_2,...,y_n\}$ 。

3、计算。

4、如果 $P(y_k|x)=max\{P(y_1|x),P(y_2|x),...,P(y_n|x)\}$ ，则 $x \in y_k$ 。

那么现在的关键就是如何计算第3步中的各个条件概率。我们可以这么做：

1、找到一个已知分类的待分类项集合，这个集合叫做训练样本集。

2、统计得到在各类别下各个特征属性的条件概率估计。即。

3、如果各个特征属性是条件独立的，则根据贝叶斯定理有如下推导：

$P(y_i|x)=\frac{P(x|y_i)P(y_i)}{P(x)}$

因为分母对于所有类别为常数，因为我们只要将分子最大化皆可。又因为各特征属性是条件独立的，所以有：

$P(x|y_i)P(y_i)=P(a_1|y_i)P(a_2|y_i)...P(a_m|y_i)P(y_i)=P(y_i)\prod^m_{j=1}P(a_j|y_i)$

根据上述分析，朴素贝叶斯分类的流程可以由下图表示（暂时不考虑验证）：

可以看到，整个朴素贝叶斯分类分为三个阶段：

第一阶段——准备工作阶段，这个阶段的任务是为朴素贝叶斯分类做必要的准备，主要工作是根据具体情况确定特征属性，并对每个特征属性进行适当划分，然后由人工对一部分待分类项进行分类，形成训练样本集合。这一阶段的输入是所有待分类数据，输出是特征属性和训练样本。这一阶段是整个朴素贝叶斯分类中唯一需要人工完成的阶段，其质量对整个过程将有重要影响，分类器的质量很大程度上由特征属性、特征属性划分及训练样本质量决定。

第二阶段——分类器训练阶段，这个阶段的任务就是生成分类器，主要工作是计算每个类别在训练样本中的出现频率及每个特征属性划分对每个类别的条件概率估计，并将结果记录。其输入是特征属性和训练样本，输出是分类器。这一阶段是机械性阶段，根据前面讨论的公式可以由程序自动计算完成。

第三阶段——应用阶段。这个阶段的任务是使用分类器对待分类项进行分类，其输入是分类器和待分类项，输出是待分类项与类别的映射关系。这一阶段也是机械性阶段，由程序完成。

1.4.2、估计类别下特征属性划分的条件概率及Laplace校准

这一节讨论P(a|y)的估计。

由上文看出，计算各个划分的条件概率P(a|y)是朴素贝叶斯分类的关键性步骤，当特征属性为离散值时，只要很方便的统计训练样本中各个划分在每个类别中出现的频率即可用来估计P(a|y)，下面重点讨论特征属性是连续值的情况。

当特征属性为连续值时，通常假定其值服从高斯分布（也称正态分布）。即：

$g(x,\eta ,\sigma )=\frac{1}{\sqrt{2\pi }\sigma }e^-\frac{(x-\eta)^2}{2\sigma^2}$

而 $P(a_k|y_i)=g(a_k,\eta_{y_i},\sigma_{y_i})$

因此只要计算出训练样本中各个类别中此特征项划分的各均值和标准差，代入上述公式即可得到需要的估计值。均值与标准差的计算在此不再赘述。

另一个需要讨论的问题就是当P(a|y)=0怎么办，当某个类别下某个特征项划分没有出现时，就是产生这种现象，这会令分类器质量大大降低。为了解决这个问题，我们引入Laplace校准，它的思想非常简单，就是对没类别下所有划分的计数加1，这样如果训练样本集数量充分大时，并不会对结果产生影响，并且解决了上述频率为0的尴尬局面。

1.4.3、朴素贝叶斯分类实例：检测SNS社区中不真实账号

下面讨论一个使用朴素贝叶斯分类解决实际问题的例子，为了简单起见，对例子中的数据做了适当的简化。

这个问题是这样的，对于SNS社区来说，不真实账号（使用虚假身份或用户的小号）是一个普遍存在的问题，作为SNS社区的运营商，希望可以检测出这些不真实账号，从而在一些运营分析报告中避免这些账号的干扰，亦可以加强对SNS社区的了解与监管。

如果通过纯人工检测，需要耗费大量的人力，效率也十分低下，如能引入自动检测机制，必将大大提升工作效率。这个问题说白了，就是要将社区中所有账号在真实账号和不真实账号两个类别上进行分类，下面我们一步一步实现这个过程。

首先设C=0表示真实账号，C=1表示不真实账号。

1、确定特征属性及划分

这一步要找出可以帮助我们区分真实账号与不真实账号的特征属性，在实际应用中，特征属性的数量是很多的，划分也会比较细致，但这里为了简单起见，我们用少量的特征属性以及较粗的划分，并对数据做了修改。

我们选择三个特征属性：a1：日志数量/注册天数，a2：好友数量/注册天数，a3：是否使用真实头像。在SNS社区中这三项都是可以直接从数据库里得到或计算出来的。

下面给出划分：a1：{a<=0.05, 0.05=0.2}，a1：{a<=0.1, 0.1=0.8}，a3：{a=0（不是）,a=1（是）}。

2、获取训练样本

这里使用运维人员曾经人工检测过的1万个账号作为训练样本。

3、计算训练样本中每个类别的频率

用训练样本中真实账号和不真实账号数量分别除以一万，得到：

4、计算每个类别条件下各个特征属性划分的频率

5、使用分类器进行鉴别

下面我们使用上面训练得到的分类器鉴别一个账号，这个账号使用非真实头像，日志数量与注册天数的比率为0.1，好友数与注册天数的比率为0.2。

可以看到，虽然这个用户没有使用真实头像，但是通过分类器的鉴别，更倾向于将此账号归入真实账号类别。这个例子也展示了当特征属性充分多时，朴素贝叶斯分类对个别属性的抗干扰性。

1.5、分类器的评价

虽然后续还会提到其它分类算法，不过这里我想先提一下如何评价分类器的质量。

首先要定义，分类器的正确率指分类器正确分类的项目占所有被分类项目的比率。

通常使用回归测试来评估分类器的准确率，最简单的方法是用构造完成的分类器对训练数据进行分类，然后根据结果给出正确率评估。但这不是一个好方法，因为使用训练数据作为检测数据有可能因为过分拟合而导致结果过于乐观，所以一种更好的方法是在构造初期将训练数据一分为二，用一部分构造分类器，然后用另一部分检测分类器的准确率。

本文基于署名-非商业性使用 3.0许可协议发布，欢迎转载，演绎，但是必须保留本文的署名张洋（包含链接），且不得用于商业目的。如您有任何疑问或者授权方面的协商，请与我联系。

贝叶斯分类器--概念

分类：机器学习 2013-05-10 17:37 65人阅读评论(0) 收藏举报

       机器学习 贝叶斯 
     

本文转载自：http://blog.csdn.net/caiye917015406/article/details/7884293，谢谢原作者！

============================================================================

这几天在学习贝叶斯分类，据说它的文本分析很给力，主要是应用简单，所以就小试以下。。。。

首先看一下贝叶斯应用的一个小例子：

一个士兵射击，分别在100,200,300处射击击的概率是0.7，0.2，0.1，而在各处射中目标的概率是0.6,0.2,0.04。现在目标已被击毁，求士兵在200米击中的概率？

这个要用到贝叶斯，设A1，A2，A3分别为士兵在100,200,300处射击，B为击中目标。

则P(A1)=0.7，P(A2)=0.2，P(A3)=0.1。P(B|A1)=0.6，P(B|A2)=0.2，P(B|A3)=0.04。由贝叶斯公式可知

以上是贝叶斯的一个小应用，下面就详细的学习贝叶斯（本人是菜鸟，文中大部分内容均是借鉴，如有不对，大家指出）

一贝叶斯公式

由以上我们已经可以看出贝叶斯公式，这里给出更一般的公式：

对于各式的解释，可以见例题，应该就没问题了。

二贝叶斯分类

     如果把样本属于某个类别作为条件，样本的特征向量取值作为结果，则模式识别的分类决策过程也可以看作是一种根据结果推测条件的推理过程。它可以分为两种类型：
     一确定性分类决策：
      特征空间由决策边界划分为多个决策区域，当样本属于某类时，其特征向量一定落入对应的决策区域中，当样本不属于某类时，其特征向量一定不会落入对应的决策区域中；现有待识别的样本特征向量落入了某决策区域中，则它一定属于对应的类。

二随机性分类决策：
特征空间中有多个类，当样本属于某类时，其特征向量会以一定的概率取得不同的值；现有待识别的样本特征向量取了某值，则它按不同概率有可能属于不同的类，分类决策将它按概率的大小划归到某一类别中。

对于随机性分类决策，可以利用贝叶斯公式来计算样本属于各类的后验概率：

三贝叶斯分类器

1最小错误率贝叶斯分类器

当已知类别出现的先验概率P(Wi)和每个类别在样本中的概率为P(x|Wi)时，已经求的后验概率P(Wi|x).对于如此，利用最小错误率贝叶斯分类器的原理，可以做出以下判段：

两类问题时，当P(Wi|x)>P(Wj|x)时，判决属于类别Wi.

对于多类情况，当P(Wi|x)为所有中最大的，则属于Wi。

用图表可以很清晰的看出其分界：

二最大似然比贝叶斯分类器

三最小风险贝叶斯分类器

在最小错误率贝叶斯分类器分类时，仅考虑了样本属于每一类的后验概率最初分类决策，而没有考虑每一种分类决策的风险。例如针对某项检测指标进行癌症的诊断，如果计算出患者癌症和未患癌症的后验率均为50%，如果患者真实情况患了癌症，此时做出未患的诊断则会延误时机，比做出患癌症的诊断带来更为严重的后果。

于是，在这种情况下，要做改进。因此，在获得样本属于每一类的后验概率后，需要综合考虑各种分类决策的多带来的风险，选择分类风险最小的决策，这就是最小风险贝叶斯分类器。

这以上是贝叶斯的一般概念，对于贝叶斯分类器的构造还需要对参数进行估计，（未完待续）

贝叶斯分类器--文本分类的C语言实现

分类：机器学习 2013-05-10 17:40 86人阅读评论(0) 收藏举报

       机器学习 贝叶斯 文本分类 
     

本文转载自：http://blog.csdn.net/caiye917015406/article/details/7887221，谢谢原作者！

==============================================================================

第一个是用c语言做的关于文本的分类，主要是对待分类文本所有单词在模板中概率的后验计算。算法比较简单，从网上下的（没记下地址，若不愿意公开，请留言，自当处理），稍作了一点修改。。，等有时间可以实现垃圾邮件的分类，利用斯坦福机器学习公开课中方法，统计高频词，利用朴素贝叶斯。等有时间和大家分享。

[cpp]  view plain copy 
          
         
 
         
 #include   
 #include   
 #include  //_getcwd(), _chdir()  
 #include  //_MAX_PATH, system()  
 #include  //_finddata_t, _findfirst(), _findnext(), _findclose()  
 #include  
 using namespace std;  
 //#include  
 char vocabulary[1000][20];/*声明公有二维数组，用来存储分割好的单词*/  
   
   
 /*=================将要分类的文本分割成单词存储在二维数组vocabulary中================*/  
 //@输入参数：要分类的文本  
 //@输出参数：该文本中总单词数  
   
 int SplitToWord(char text[])  
 {  
 int i=0;  
 char seps[]=", .\n"; /*定义单词的分隔符*/   
 char *substring;   
   
 /******利用分隔符将文本内容分割成单词并存储******/  
 substring=strtok(text,seps);   
 while(substring!=NULL)   
 {     
    strcpy(vocabulary[i],substring);//将单词存储到vocabulary数组中   
    substring=strtok(NULL,seps);   
    i++;  
 }  
 return i; //返回一共多少个单词  
 }  
   
   
 /*===============================计算该目录下的文件数================================*/  
 //@输入参数：无  
 //@输出参数：该目录下.txt文件数  
   
 int CountDirectory()  
 {  
 int count=0; //txt文件计数器  
 long hFile;  
     _finddata_t fileinfo;  
   
 /********查找.txt文件，记录文件数**********/  
     if ((hFile=_findfirst("*.txt",&fileinfo))!=-1L)  
     {  
         do  
         {              
     count++;  
         } while (_findnext(hFile,&fileinfo) == 0);  
 }  
 return count;  
 }  
   
   
 /*===================================计算某类别中∏P(ai|vj)===================================*/  
 //@输入参数：分类文本中单词数  
 //@输出参数：该类别下∏P(ai|vj)  
   
 float CalculateWordProbability(int wordCount)  
 {  
 int countSame; //分类文本中的某单词在所有训练样本中出现次数  
 int countAll=0; //训练样本中总单词数  
 char token;  
 FILE *fp;  
 float wordProbability=1; //为后面联乘做准备  
 int i,j;  
 long hFile;  
     _finddata_t fileinfo;  
   
   
 for(j=0;j//对于分类样本中的每一个单词  
 {  
    countSame=0;  
    countAll=0;  
    if((hFile=_findfirst("*.txt",&fileinfo))!=-1L) //对于该类别下每一个.txt文本  
    {  
     do  
     {  
      if((fp=fopen(fileinfo.name,"r"))==NULL) //是否能打开该文本  
      {  
       printf("Sorry!Cannot open the file!\n");  
       exit(0);  
      }  
   
      /********存储此.txt文件中每个单词并与分类文本的单词作比较*******/  
      while((token = fgetc(fp)) != EOF)   
      {  
       char keyword[1024];   
       i = 0;   
        
       keyword[0] = token; // 将每个词第一个字符赋给数组第一个元素  
       while ((keyword[++i] = fgetc(fp)) != ' ' && keyword[i] != '\t' && keyword[i] != EOF && keyword[i] != '\n'); // 开始读字符，直到遇到空白符，说明找到一个词   
       keyword[i] = '\0';// 加结束符  
       countAll++;  
   
       if (strcmp(keyword,vocabulary[j]) == 0) //比较两个单词是否相同  
        countSame++;  
      }  
      fclose(fp);  
   
     }while (_findnext(hFile,&fileinfo) == 0);   
    }  
    wordProbability*=(float)(countSame+1)/(float)(wordCount+countAll)*300; //计算∏P(wj|vi)，为了扩大效果而*380  
 }  
   
 return wordProbability;  
 }  
     
   
 /*============================计算每个类别的最终概率输出结果===============================*/  
 //@输入参数：分类文本中单词数  
     
 void CalculateProbability(int wordCount,int num)  
 {  
 /*********将类别表存储在二维数组中*********/  
 FILE *fp;  
 char classList[10][20]; //类别列表  
     char ch;    //临时读取字符使用  
     int index=0; //classList的行标  
     int className_c=0; //classList的列标  
   
 if((fp=fopen("ClassList.txt","r"))==NULL)  
     {  
         printf("Failed to open the file: ClassList.txt.\n");  
     }  
     ch = fgetc(fp);  
     while(ch!=EOF)  
     {  
         if(ch!='\n')  
         {  
             classList[index][className_c]=ch;  
             className_c++;  
         }  
         else  
         {  
             classList[index][className_c]='\0';  
             index++;  
             className_c=0;  
         }  
    ch = fgetc(fp);  
 }  
   
 /********计算总文本数和每个类别下的文本数、∏P(ai|vj)********/  
 int txtCount[10]; //每个类别下的训练文本数  
 int countAll=0; //训练集中总文本数  
 float wordProbability[10]; //每个类别的单词概率，即∏P(ai|vj)  
   
 if(_chdir("D:\\openCV\\openCVProject\\openCVtext\\贝叶斯（文本分类）—c语言\\example\\1")) //更改当前绝对路径  
      printf("系统找不到指定路径!\n");  
 else  
 {  
    txtCount[0]=CountDirectory(); //获取该类别下.txt文件数  
    countAll+=txtCount[0];  
    wordProbability[0]=CalculateWordProbability(wordCount); //获取该类别下∏P(wj|vi)  
 }  
 if(_chdir("D:\\openCV\\openCVProject\\openCVtext\\贝叶斯（文本分类）—c语言\\example\\2")) //更改当前绝对路径  
    printf("系统找不到指定路径!\n");  
 else  
 {  
    txtCount[1]=CountDirectory(); //获取该类别下.txt文件数  
    countAll+=txtCount[1];  
    wordProbability[1]=CalculateWordProbability(wordCount); //获取该类别下∏P(wj|vi)  
 }  
 if(_chdir("D:\\openCV\\openCVProject\\openCVtext\\贝叶斯（文本分类）—c语言\\example\\3")) //更改当前绝对路径  
      printf("系统找不到指定路径!\n");  
 else  
 {  
    txtCount[2]=CountDirectory(); //获取该类别下.txt文件数  
    countAll+=txtCount[2];  
    wordProbability[2]=CalculateWordProbability(wordCount); //获取该类别下∏P(wj|vi)  
 }  
 if(_chdir("D:\\openCV\\openCVProject\\openCVtext\\贝叶斯（文本分类）—c语言\\example\\4")) //更改当前绝对路径  
      printf("系统找不到指定路径!\n");  
 else  
 {  
    txtCount[3]=CountDirectory(); //获取该类别下.txt文件数  
    countAll+=txtCount[3];  
    wordProbability[3]=CalculateWordProbability(wordCount); //获取该类别下∏P(wj|vi)  
 }  
 if(_chdir("D:\\openCV\\openCVProject\\openCVtext\\贝叶斯（文本分类）—c语言\\example\\5")) //更改当前绝对路径  
      printf("系统找不到指定路径!\n");  
 else  
 {  
    txtCount[4]=CountDirectory(); //获取该类别下.txt文件数  
    countAll+=txtCount[4];  
    wordProbability[4]=CalculateWordProbability(wordCount); //获取该类别下∏P(wj|vi)  
 }  
 if(_chdir("D:\\openCV\\openCVProject\\openCVtext\\贝叶斯（文本分类）—c语言\\example\\6")) //更改当前绝对路径  
      printf("系统找不到指定路径!\n");  
 else  
 {  
    txtCount[5]=CountDirectory(); //获取该类别下.txt文件数  
    countAll+=txtCount[5];  
    wordProbability[5]=CalculateWordProbability(wordCount); //获取该类别下∏P(wj|vi)  
 }  
 if(_chdir("D:\\openCV\\openCVProject\\openCVtext\\贝叶斯（文本分类）—c语言\\example\\7")) //更改当前绝对路径  
      printf("系统找不到指定路径!\n");  
 else  
 {  
    txtCount[6]=CountDirectory(); //获取该类别下.txt文件数  
    countAll+=txtCount[6];  
    wordProbability[6]=CalculateWordProbability(wordCount); //获取该类别下∏P(wj|vi)  
 }  
 if(_chdir("D:\\openCV\\openCVProject\\openCVtext\\贝叶斯（文本分类）—c语言\\example\\8")) //更改当前绝对路径  
      printf("系统找不到指定路径!\n");  
 else  
 {  
    txtCount[7]=CountDirectory(); //获取该类别下.txt文件数  
    countAll+=txtCount[7];  
    wordProbability[7]=CalculateWordProbability(wordCount); //获取该类别下∏P(wj|vi)  
 }  
 if(_chdir("D:\\openCV\\openCVProject\\openCVtext\\贝叶斯（文本分类）—c语言\\example\\9")) //更改当前绝对路径  
      printf("系统找不到指定路径!\n");  
 else  
 {  
    txtCount[8]=CountDirectory(); //获取该类别下.txt文件数  
    countAll+=txtCount[8];  
    wordProbability[8]=CalculateWordProbability(wordCount); //获取该类别下∏P(wj|vi)  
 }  
 if(_chdir("D:\\openCV\\openCVProject\\openCVtext\\贝叶斯（文本分类）—c语言\\example\\10")) //更改当前绝对路径  
      printf("系统找不到指定路径!\n");  
 else  
 {  
    txtCount[9]=CountDirectory(); //获取该类别下.txt文件数  
    countAll+=txtCount[9];  
    wordProbability[9]=CalculateWordProbability(wordCount); //获取该类别下∏P(wj|vi)  
 }  
   
 /*******计算先验概率和最终概率并输出分类结果*******/  
 float max=0;  
 int classNo=0;  
 float priorProbability[10];  
 float finalProbability[10];  
   
 for(int i=0;i
 {  
    priorProbability[i]=(float)txtCount[i]/(float)countAll; //先验概率  
    finalProbability[i]=priorProbability[i]*wordProbability[i]; //最终概率  
    if(finalProbability[i]>max) //找到最大概率并记录  
    {  
     max=finalProbability[i];  
     classNo=i;  
    }  
    printf("该文本为类别%s的概率为:%.5e\n",classList[i],finalProbability[i]); //输出每个类别的最终概率  
 }  
 printf("\n经分析，该文本最有可能为%s类文本!\n",classList[classNo]); //输出最后分类结果  
 }  
   
   
 /*===================调用文本分割函数和计算最终概率函数======================*/  
 //@输入参数：分类文本  
   
 void NaiveBayesClassifier(char text[],int num)  
 {  
 int vocabularyCount;//分类样本中单词数  
   
 vocabularyCount=SplitToWord(text); //对要分类的文本进行单词分割，结果存储在vocabulary数组中，返回分类样本中单词数  
 CalculateProbability(vocabularyCount,num); //计算最终概率  
 }  
   
   
 /*===================程序入口====================*/  
 int main()  
 {  
    FILE *fp;  
    if((fp=fopen("text.txt","r"))==NULL)  
    {  
         printf("Failed to open the file: ClassList.txt.\n");  
    }  
    char ch = fgetc(fp);  
    int i=0;  
    while(ch!=EOF)  
    {  
        ch = fgetc(fp);  
        i++;  
    }  
    char *text=new char(i+1);  
    fseek(fp,0,SEEK_SET);//  
    ch = fgetc(fp);  
    int j=0;  
    while(ch!=EOF)  
    {  
        ch = fgetc(fp);  
        cout<
        text[j]=ch;  
        j++;  
    }  
   // char text[]=new char(i);;  
    int num = 2;  
   
    NaiveBayesClassifier(text,num); /*调用朴素贝叶斯分类函数，返回最终分类结果*/  
 return 1;  
 }  
    
 

贝叶斯分类器--文本分类应用

分类：机器学习 2013-05-10 17:26 68人阅读评论(0) 收藏举报

       机器学习 贝叶斯 文本分类 
     

本文转载自：http://www.cnblogs.com/phinecos/archive/2008/10/21/1316044.html，谢谢原作者！

源代码下载：NaviveBayesClassify.rar

Preface

文本的分类和聚类是一个比较有意思的话题，我以前也写过一篇blog《基于K-Means的文本聚类算法》，加上最近读了几本数据挖掘和机器学习的书籍，因此很想写点东西来记录下学习的所得。

在本文的上半部分《基于朴素贝叶斯分类器的文本分类算法（上）》一文中简单介绍了贝叶斯学习的基本理论，这一篇将展示如何将该理论运用到中文文本分类中来，具体的文本分类原理就不再介绍了，在上半部分有，也可以参见代码的注释。

文本特征向量

文本特征向量可以描述为文本中的字／词构成的属性。例如给出文本：

Good good study,Day day up.

可以获得该文本的特征向量集：{ Good, good, study, Day, day , up.}

朴素贝叶斯模型是文本分类模型中的一种简单但性能优越的的分类模型。为了简化计算过程，假定各待分类文本特征变量是相互独立的，即“朴素贝叶斯模型的假设”。相互独立表明了所有特征变量之间的表述是没有关联的。如上例中，[good]和[study]这两个特征变量就是没有任何关联的。

在上例中，文本是英文，但由于中文本身是没有自然分割符（如空格之类符号），所以要获得中文文本的特征变量向量首先需要对文本进行中文分词

中文分词

这里采用极易中文分词组件，这个中文分词组件可以免费使用，提供Lucene接口，跨平台，性能可靠。

 
          
        
package com.vista;
 import java.io.IOException;      
 import jeasy.analysis.MMAnalyzer;
 
 /**
 * 中文分词器
 */
 public class ChineseSpliter 
 {
     /**
     * 对给定的文本进行中文分词
     * @param text 给定的文本
     * @param splitToken 用于分割的标记,如"|"
     * @return 分词完毕的文本
     */
     public static String split(String text,String splitToken)
     {
         String result = null;
         MMAnalyzer analyzer = new MMAnalyzer();      
         try      
         {
             result = analyzer.segment(text, splitToken);    
         }      
         catch (IOException e)      
         {     
             e.printStackTrace();     
         }     
         return result;
     }
 }
  
          
        

停用词处理

去掉文档中无意思的词语也是必须的一项工作,这里简单的定义了一些常见的停用词，并根据这些常用停用词在分词时进行判断。

 
          
        
package com.vista;
 
 /**
 * 停用词处理器
 * @author phinecos 
 * 
 */
 public class StopWordsHandler 
 {
     private static String stopWordsList[] ={"的", "我们","要","自己","之","将","“","”","，","（","）","后","应","到","某","后","个","是","位","新","一","两","在","中","或","有","更","好",""};//常用停用词
     public static boolean IsStopWord(String word)
     {
         for(int i=0;i<stopWordsList.length;++i)
         {
             if(word.equalsIgnoreCase(stopWordsList[i]))
                 return true;
         }
         return false;
     }
 }
  
          
        

训练集管理器

我们的系统首先需要从训练样本集中得到假设的先验概率和给定假设下观察到不同数据的概率。

 
          
        
package com.vista;
 import java.io.BufferedReader;
 import java.io.File;
 import java.io.FileInputStream;
 import java.io.FileNotFoundException;
 import java.io.IOException;
 import java.io.InputStreamReader;
 import java.util.Properties;
 import java.util.logging.Level;
 import java.util.logging.Logger;
 /**
 * 训练集管理器
 */
 public class TrainingDataManager 
 {
     private String[] traningFileClassifications;//训练语料分类集合
     private File traningTextDir;//训练语料存放目录
     private static String defaultPath = "D:\\TrainningSet";
     
     public TrainingDataManager() 
     {
         traningTextDir = new File(defaultPath);
         if (!traningTextDir.isDirectory()) 
         {
             throw new IllegalArgumentException("训练语料库搜索失败！ [" +defaultPath + "]");
         }
         this.traningFileClassifications = traningTextDir.list();
     }
     /**
     * 返回训练文本类别，这个类别就是目录名
     * @return 训练文本类别
     */
     public String[] getTraningClassifications() 
     {
         return this.traningFileClassifications;
     }
     /**
     * 根据训练文本类别返回这个类别下的所有训练文本路径（full path）
     * @param classification 给定的分类
     * @return 给定分类下所有文件的路径（full path）
     */
     public String[] getFilesPath(String classification) 
     {
         File classDir = new File(traningTextDir.getPath() +File.separator +classification);
         String[] ret = classDir.list();
         for (int i = 0; i < ret.length; i++) 
         {
             ret[i] = traningTextDir.getPath() +File.separator +classification +File.separator +ret[i];
         }
         return ret;
     }
     /**
     * 返回给定路径的文本文件内容
     * @param filePath 给定的文本文件路径
     * @return 文本内容
     * @throws java.io.FileNotFoundException
     * @throws java.io.IOException
     */
     public static String getText(String filePath) throws FileNotFoundException,IOException 
     {
         InputStreamReader isReader =new InputStreamReader(new FileInputStream(filePath),"GBK");
         BufferedReader reader = new BufferedReader(isReader);
         String aline;
         StringBuilder sb = new StringBuilder();
         while ((aline = reader.readLine()) != null)
         {
             sb.append(aline + " ");
         }
         isReader.close();
         reader.close();
         return sb.toString();
     }
     /**
     * 返回训练文本集中所有的文本数目
     * @return 训练文本集中所有的文本数目
     */
     public int getTrainingFileCount()
     {
         int ret = 0;
         for (int i = 0; i < traningFileClassifications.length; i++)
         {
             ret +=getTrainingFileCountOfClassification(traningFileClassifications[i]);
         }
         return ret;
     }
     /**
     * 返回训练文本集中在给定分类下的训练文本数目
     * @param classification 给定的分类
     * @return 训练文本集中在给定分类下的训练文本数目
     */
     public int getTrainingFileCountOfClassification(String classification)
     {
         File classDir = new File(traningTextDir.getPath() +File.separator +classification);
         return classDir.list().length;
     }
     /**
     * 返回给定分类中包含关键字／词的训练文本的数目
     * @param classification 给定的分类
     * @param key 给定的关键字／词
     * @return 给定分类中包含关键字／词的训练文本的数目
     */
     public int getCountContainKeyOfClassification(String classification,String key) 
     {
         int ret = 0;
         try 
         {
             String[] filePath = getFilesPath(classification);
             for (int j = 0; j < filePath.length; j++) 
             {
                 String text = getText(filePath[j]);
                 if (text.contains(key)) 
                 {
                     ret++;
                 }
             }
         }
         catch (FileNotFoundException ex) 
         {
         Logger.getLogger(TrainingDataManager.class.getName()).log(Level.SEVERE, null,ex);
     
         } 
         catch (IOException ex)
         {
             Logger.getLogger(TrainingDataManager.class.getName()).log(Level.SEVERE, null,ex);
         }
         return ret;
     }
 }
  
          
        

先验概率

先验概率是我们需要计算的两大概率值之一

 
          
        
package com.vista;
 /**
 * 先验概率计算
 * 先验概率计算
 * P(cj)=N(C=cj)/N 

 * 其中，N(C=cj)表示类别cj中的训练文本数量；
 * N表示训练文本集总数量。
 */
 public class PriorProbability 
 {
     private static TrainingDataManager tdm =new TrainingDataManager();
     /**
     * 先验概率
     * @param c 给定的分类
     * @return 给定条件下的先验概率
     */
     public static float calculatePc(String c)
     {
         float ret = 0F;
         float Nc = tdm.getTrainingFileCountOfClassification(c);
         float N = tdm.getTrainingFileCount();
         ret = Nc / N;
         return ret;
     }
 }
 
  
          
        

分类条件概率

这是另一个影响因子，和先验概率一起来决定最终结果

 
          
        
package com.vista;
 
 /**
 * 类条件概率计算
 *
 * 类条件概率
 * P(xj|cj)=( N(X=xi, C=cj
 * )+1 ) / ( N(C=cj)+M+V ) 

 * 其中，N(X=xi, C=cj）表示类别cj中包含属性x
 * i的训练文本数量；N(C=cj)表示类别cj中的训练文本数量；M值用于避免
 * N(X=xi, C=cj）过小所引发的问题；V表示类别的总数。
 *
 * 条件概率
 * 定义 设A, B是两个事件，且P(A)>0 称

 * P(B∣A)=P(AB)/P(A)

 * 为在条件A下发生的条件事件B发生的条件概率。
 
 */
 
 public class ClassConditionalProbability 
 {
     private static TrainingDataManager tdm = new TrainingDataManager();
     private static final float M = 0F;
     
     /**
     * 计算类条件概率
     * @param x 给定的文本属性
     * @param c 给定的分类
     * @return 给定条件下的类条件概率
     */
     public static float calculatePxc(String x, String c) 
     {
         float ret = 0F;
         float Nxc = tdm.getCountContainKeyOfClassification(c, x);
         float Nc = tdm.getTrainingFileCountOfClassification(c);
         float V = tdm.getTraningClassifications().length;
         ret = (Nxc + 1) / (Nc + M + V); //为了避免出现0这样极端情况，进行加权处理
         return ret;
     }
 }
  
          
        

分类结果

用来保存各个分类及其计算出的概率值，

 
          
        
package com.vista;
 /**
 * 分类结果
 */
 public class ClassifyResult 
 {
     public double probility;//分类的概率
     public String classification;//分类
     public ClassifyResult()
     {
         this.probility = 0;
         this.classification = null;
     }
 }
  
          
        

朴素贝叶斯分类器

利用样本数据集计算先验概率和各个文本向量属性在分类中的条件概率，从而计算出各个概率值，最后对各个概率值进行排序，选出最大的概率值，即为所属的分类。

 
          
        
package com.vista;
 import com.vista.ChineseSpliter;
 import com.vista.ClassConditionalProbability;
 import com.vista.PriorProbability;
 import com.vista.TrainingDataManager;
 import com.vista.StopWordsHandler;
 import java.util.ArrayList;
 import java.util.Comparator;
 import java.util.List;
 import java.util.Vector;
 
 /**
 * 朴素贝叶斯分类器
 */
 public class BayesClassifier 
 {
     private TrainingDataManager tdm;//训练集管理器
     private String trainnigDataPath;//训练集路径
     private static double zoomFactor = 10.0f;
     /**
     * 默认的构造器，初始化训练集
     */
     public BayesClassifier() 
     {
         tdm =new TrainingDataManager();
     }
 
     /**
     * 计算给定的文本属性向量X在给定的分类Cj中的类条件概率
     * ClassConditionalProbability连乘值
     * @param X 给定的文本属性向量
     * @param Cj 给定的类别
     * @return 分类条件概率连乘值，即

     */
     float calcProd(String[] X, String Cj) 
     {
         float ret = 1.0F;
         // 类条件概率连乘
         for (int i = 0; i <X.length; i++)
         {
             String Xi = X[i];
             //因为结果过小，因此在连乘之前放大10倍，这对最终结果并无影响，因为我们只是比较概率大小而已
             ret *=ClassConditionalProbability.calculatePxc(Xi, Cj)*zoomFactor;
         }
         // 再乘以先验概率
         ret *= PriorProbability.calculatePc(Cj);
         return ret;
     }
     /**
     * 去掉停用词
     * @param text 给定的文本
     * @return 去停用词后结果
     */
     public String[] DropStopWords(String[] oldWords)
     {
         Vector<String> v1 = new Vector<String>();
         for(int i=0;i<oldWords.length;++i)
         {
             if(StopWordsHandler.IsStopWord(oldWords[i])==false)
             {//不是停用词
                 v1.add(oldWords[i]);
             }
         }
         String[] newWords = new String[v1.size()];
         v1.toArray(newWords);
         return newWords;
     }
     /**
     * 对给定的文本进行分类
     * @param text 给定的文本
     * @return 分类结果
     */
     @SuppressWarnings("unchecked")
     public String classify(String text) 
     {
         String[] terms = null;
         terms= ChineseSpliter.split(text, " ").split(" ");//中文分词处理(分词后结果可能还包含有停用词）
         terms = DropStopWords(terms);//去掉停用词，以免影响分类
         
         String[] Classes = tdm.getTraningClassifications();//分类
         float probility = 0.0F;
         List<ClassifyResult> crs = new ArrayList<ClassifyResult>();//分类结果
         for (int i = 0; i <Classes.length; i++) 
         {
             String Ci = Classes[i];//第i个分类
             probility = calcProd(terms, Ci);//计算给定的文本属性向量terms在给定的分类Ci中的分类条件概率
             //保存分类结果
             ClassifyResult cr = new ClassifyResult();
             cr.classification = Ci;//分类
             cr.probility = probility;//关键字在分类的条件概率
             System.out.println("In process.");
             System.out.println(Ci + "：" + probility);
             crs.add(cr);
         }
         //对最后概率结果进行排序
         java.util.Collections.sort(crs,new Comparator() 
         {
             public int compare(final Object o1,final Object o2) 
             {
                 final ClassifyResult m1 = (ClassifyResult) o1;
                 final ClassifyResult m2 = (ClassifyResult) o2;
                 final double ret = m1.probility - m2.probility;
                 if (ret < 0) 
                 {
                     return 1;
                 } 
                 else 
                 {
                     return -1;
                 }
             }
         });
         //返回概率最大的分类
         return crs.get(0).classification;
     }
     
     public static void main(String[] args)
     {
         String text = "微软公司提出以446亿美元的价格收购雅虎中国网2月1日报道 美联社消息，微软公司提出以446亿美元现金加股票的价格收购搜索网站雅虎公司。微软提出以每股31美元的价格收购雅虎。微软的收购报价较雅虎1月31日的收盘价19.18美元溢价62%。微软公司称雅虎公司的股东可以选择以现金或股票进行交易。微软和雅虎公司在2006年底和2007年初已在寻求双方合作。而近两年，雅虎一直处于困境：市场份额下滑、运营业绩不佳、股价大幅下跌。对于力图在互联网市场有所作为的微软来说，收购雅虎无疑是一条捷径，因为双方具有非常强的互补性。(小桥)";
         BayesClassifier classifier = new BayesClassifier();//构造Bayes分类器
         String result = classifier.classify(text);//进行分类
         System.out.println("此项属于["+result+"]");
     }
 }
  
          
        

训练集与分类测试

作为测试，这里选用Sogou实验室的文本分类数据，我只使用了mini版本。迷你版本有10个类别，共计100篇文章，总大小244KB

使用的测试文本：

 
微软公司提出以446亿美元的价格收购雅虎
 
 中国网2月1日报道 美联社消息，微软公司提出以446亿美元现金加股票的价格收购搜索网站雅虎公司。
 
 微软提出以每股31美元的价格收购雅虎。微软的收购报价较雅虎1月31日的收盘价19.18美元溢价62%。微软公司称雅虎公司的股东可以选择以现金或股票进行交易。
 
 微软和雅虎公司在2006年底和2007年初已在寻求双方合作。而近两年，雅虎一直处于困境：市场份额下滑、运营业绩不佳、股价大幅下跌。对于力图在互联网市场有所作为的微软来说，收购雅虎无疑是一条捷径，因为双方具有非常强的互补性。(小桥)

使用mini版本的测试结果：

 
          
        
In process.
 IT：2.8119528E-5
 In process.
 体育：2.791735E-21
 In process.
 健康：3.3188528E-12
 In process.
 军事：2.532662E-19
 In process.
 招聘：2.3753596E-17
 In process.
 教育：4.2023427E-19
 In process.
 文化：6.0595915E-23
 In process.
 旅游：5.1286412E-17
 In process.
 汽车：4.085446E-8
 In process.
 财经：3.7337095E-10
 此项属于[IT]
  
          
        

作者：洞庭散人

出处：http://phinecos.cnblogs.com/　　　　

本博客遵从 Creative Commons Attribution 3.0 License，若用于非商业目的，您可以自由转载，但请保留原作者信息和文章链接URL。

OpenCV机器学习（1）：贝叶斯分类器实现代码分析

分类： OpenCV 机器学习 2013-05-14 11:16 214人阅读评论(5) 收藏举报

 目录(?)[+]

OpenCV的机器学习类定义在ml.hpp文件中，基础类是CvStatModel，其他各种分类器从这里继承而来。

今天研究CvNormalBayesClassifier分类器。

1.类定义

在ml.hpp中有以下类定义：

[cpp]  view plain copy print ? 
          
         
 class CV_EXPORTS_W CvNormalBayesClassifier : public CvStatModel  
 {  
 public:  
     CV_WRAP CvNormalBayesClassifier();  
     virtual ~CvNormalBayesClassifier();  
   
     CvNormalBayesClassifier( const CvMat* trainData, const CvMat* responses,  
         const CvMat* varIdx=0, const CvMat* sampleIdx=0 );  
   
     virtual bool train( const CvMat* trainData, const CvMat* responses,  
         const CvMat* varIdx = 0, const CvMat* sampleIdx=0, bool update=false );  
   
     virtual float predict( const CvMat* samples, CV_OUT CvMat* results=0 ) const;  
     CV_WRAP virtual void clear();  
   
     CV_WRAP CvNormalBayesClassifier( const cv::Mat& trainData, const cv::Mat& responses,  
                             const cv::Mat& varIdx=cv::Mat(), const cv::Mat& sampleIdx=cv::Mat() );  
     CV_WRAP virtual bool train( const cv::Mat& trainData, const cv::Mat& responses,  
                        const cv::Mat& varIdx = cv::Mat(), const cv::Mat& sampleIdx=cv::Mat(),  
                        bool update=false );  
     CV_WRAP virtual float predict( const cv::Mat& samples, CV_OUT cv::Mat* results=0 ) const;  
   
     virtual void write( CvFileStorage* storage, const char* name ) const;  
     virtual void read( CvFileStorage* storage, CvFileNode* node );  
   
 protected:  
     int     var_count, var_all;  
     CvMat*  var_idx;  
     CvMat*  cls_labels;  
     CvMat** count;  
     CvMat** sum;  
     CvMat** productsum;  
     CvMat** avg;  
     CvMat** inv_eigen_values;  
     CvMat** cov_rotate_mats;  
     CvMat*  c;  
 };  

2.示例

此类使用方法如下：（引用别人的代码，忘记出处了，非常抱歉这个。。。）

[cpp]  view plain copy print ? 
          
         
 //openCV中贝叶斯分类器的API函数用法举例  
 //运行环境：win7 + VS2005 + openCV2.4.5  
   
 #include "global_include.h"  
   
 using namespace std;  
 using namespace cv;  
   
 //10个样本特征向量维数为12的训练样本集，第一列为该样本的类别标签  
 double inputArr[10][13] =   
 {  
      1,0.708333,1,1,-0.320755,-0.105023,-1,1,-0.419847,-1,-0.225806,0,1,   
     -1,0.583333,-1,0.333333,-0.603774,1,-1,1,0.358779,-1,-0.483871,0,-1,  
      1,0.166667,1,-0.333333,-0.433962,-0.383562,-1,-1,0.0687023,-1,-0.903226,-1,-1,  
     -1,0.458333,1,1,-0.358491,-0.374429,-1,-1,-0.480916,1,-0.935484,0,-0.333333,  
     -1,0.875,-1,-0.333333,-0.509434,-0.347032,-1,1,-0.236641,1,-0.935484,-1,-0.333333,  
     -1,0.5,1,1,-0.509434,-0.767123,-1,-1,0.0534351,-1,-0.870968,-1,-1,  
      1,0.125,1,0.333333,-0.320755,-0.406393,1,1,0.0839695,1,-0.806452,0,-0.333333,  
      1,0.25,1,1,-0.698113,-0.484018,-1,1,0.0839695,1,-0.612903,0,-0.333333,  
      1,0.291667,1,1,-0.132075,-0.237443,-1,1,0.51145,-1,-0.612903,0,0.333333,  
      1,0.416667,-1,1,0.0566038,0.283105,-1,1,0.267176,-1,0.290323,0,1  
 };  
   
 //一个测试样本的特征向量  
 double testArr[]=  
 {  
     0.25,1,1,-0.226415,-0.506849,-1,-1,0.374046,-1,-0.83871,0,-1  
 };  
   
   
 

你可能感兴趣的:(Machine,learning)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
简单了解 JVM 记得开心一点啊 jvm
目录♫什么是JVM♫JVM的运行流程♫JVM运行时数据区♪虚拟机栈♪本地方法栈♪堆♪程序计数器♪方法区/元数据区♫类加载的过程♫双亲委派模型♫垃圾回收机制♫什么是JVMJVM是JavaVirtualMachine的简称，意为Java虚拟机。虚拟机是指通过软件模拟的具有完整硬件功能的、运行在一个完全隔离的环境中的完整计算机系统（如：JVM、VMwave、VirtualBox）。JVM和其他两个虚拟机
JVM、JRE和 JDK：理解Java开发的三大核心组件 Y雨何时停T Java java
Java是一门跨平台的编程语言，它的成功离不开背后强大的运行环境与开发工具的支持。在Java的生态中，JVM（Java虚拟机）、JRE（Java运行时环境）和JDK（Java开发工具包）是三个至关重要的核心组件。本文将探讨JVM、JDK和JRE的区别，帮助你更好地理解Java的运行机制。1.JVM：Java虚拟机（JavaVirtualMachine）什么是JVM？JVM，即Java虚拟机，是Ja
深度 Qlearning：在直播推荐系统中的应用 AGI通用人工智能之禅程序员提升自我硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
深度Q-learning：在直播推荐系统中的应用关键词：深度Q-learning,强化学习,直播推荐系统,个性化推荐1.背景介绍1.1问题的由来随着互联网技术的飞速发展,直播平台如雨后春笋般涌现。面对海量的直播内容,用户很难快速找到自己感兴趣的内容。因此,个性化推荐系统在直播平台中扮演着越来越重要的角色。1.2研究现状目前,主流的个性化推荐算法包括协同过滤、基于内容的推荐等。这些方法在一定程度上缓
管理员权限的软件不能开机自启动的解决方法 ss_ctrl
这是几种解决方法：1.将启动参数写入到32位注册表里面去在64位系统下我们64位的程序访问此HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Windows\CurrentVersion\Run注册表路径，是可以正确访问的，32位程序访问此注册表路径时，默认会被系统自动映射到HKEY_LOCAL_MACHINE\SOFTWARE\WOW6432Node\Microsoft
golang学习笔记--MPG模型 xxzed golang #学习笔记学习笔记 golang
MPG模式：M（Machine）：操作系统的主线程P（Processor）：协程执行需要的资源（上下文context），可以看作一个局部的调度器，使go代码在一个线程上跑，他是实现从N：1到N：M映射的关键G（Goroutine）：协程，有自己的栈。包含指令指针（instructionpointer）和其它信息（正在等待的channel等等），用于调度。一个P下面可以有多个G1、当前程序有三个M,
【开发环境搭建】Macbook M1搭建Java开发环境 weixin_44329069 java 开发语言
JDK安装与配置下载并安装JDK：ARM64DMG安装包下载链接：JDK21forMac(ARM64)。双击下载的DMG文件，按照提示安装JDK。配置环境变量：打开终端，使用vim编辑.bash_profile文件：vim~/.bash_profile在文件中添加以下内容来设置JAVA_HOME：exportJAVA_HOME=/Library/Java/JavaVirtualMachines/j
云服务业界动态简报-20180128 Captain7
一、青云青云QingCloud推出深度学习平台DeepLearningonQingCloud，包含了主流的深度学习框架及数据科学工具包，通过QingCloudAppCenter一键部署交付，可以让算法工程师和数据科学家快速构建深度学习开发环境，将更多的精力放在模型和算法调优。二、腾讯云1.腾讯云正式发布腾讯专有云TCE(TencentCloudEnterprise)矩阵，涵盖企业版、大数据版、AI
机器学习VS深度学习 nfgo 机器学习
机器学习（MachineLearning,ML）和深度学习（DeepLearning,DL）是人工智能（AI）的两个子领域，它们有许多相似之处，但在技术实现和应用范围上也有显著区别。下面从几个方面对两者进行区分：1.概念层面机器学习：是让计算机通过算法从数据中自动学习和改进的技术。它依赖于手动设计的特征和数学模型来进行学习，常用的模型有决策树、支持向量机、线性回归等。深度学习：是机器学习的一个子领
ResNet的半监督和半弱监督模型 Valar_Morghulis
Billion-scalesemi-supervisedlearningforimageclassificationhttps://arxiv.org/pdf/1905.00546.pdfhttps://github.com/facebookresearch/semi-supervised-ImageNet1K-models/权重在timm中也有：https://hub.fastgit.org/r
联邦学习 Federated learning Google I/O‘19 笔记努力搬砖的星期五笔记联邦学习机器学习机器学习 tensorflow
FederatedLearning:MachineLearningonDecentralizeddatahttps://www.youtube.com/watch?v=89BGjQYA0uE文章目录FederatedLearning:MachineLearningonDecentralizeddata1.DecentralizeddataEdgedevicesGboard:mobilekeyboa
PCL 怎样可视化深度图像 LeonDL168 PCL 计算机视觉人工智能视觉检测图像处理算法
本小节讲解如何可视化深度图像的两种方法，在3D视窗中以点云形式进行可视化（深度图像来源于点云），另一种是，将深度值映射为颜色，从而以彩色图像方式可视化深度图像。代码首先，在PCL（PointCloudLearning）中国协助发行的书提供光盘的第7章例2文件夹中，打开名为range_image_visualization.cpp的代码文件，同文件夹下可以找到相关的测试点云文件room_scan1.
FISCO BCOS（十七）——— go SDK的使用林中有神君 #FISCO BCOS 2.8.0 golang 服务器 linux fisco bcos 区块链
1、创建一个工作目录root@wyg-virtual-machine:~/fisco#mkdirgoWorkSpace2、下载go-sdkroot@wyg-virtual-machine:~/fisco/
Git报错（一）fatal: Could not read from remote repository. librarycode
解决方案来自CSDN：https://blog.csdn.net/cxwtsh123/article/details/79194263?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-3.control&dist_request_id=&depth_1-utm_source=distr
VOC数据集转换为CoCo数据集（亲测有效）情书学长人工智能学习笔记图像处理
#VOC数据集格式VOC格式的数据集分为3部分，Annotations、ImageSets、JPEGImages。（一）Annotations：存放数据标注的xml文件，格式如下：CUMID_train0001.pngC:\Users\86182\Desktop\CUMID_train\0001.pngUnknown2040136830MachineUnspecified0011933491451
【Vesta发号器源码】PropertyMachineIdsProvider DeanChangDM
Vesta发号器源码解析——PropertyMachineIdsProvider属性配置文件持有Id的模式,没啥东西，比单个的多了一个获取下一个的方法封装实现上略有一点点区别privatelong[]machineIds;privateintcurrentIndex;publiclonggetNextMachineId(){returngetMachineId();}publiclonggetMa
Awesome TensorFlow weixin_30594001 人工智能移动开发大数据
AwesomeTensorFlowAcuratedlistofawesomeTensorFlowexperiments,libraries,andprojects.Inspiredbyawesome-machine-learning.WhatisTensorFlow?TensorFlowisanopensourcesoftwarelibraryfornumericalcomputationusin
【ShuQiHere】探索人工智能核心：机器学习的奥秘 ShuQiHere 人工智能机器学习
【ShuQiHere】什么是机器学习？机器学习（MachineLearning,ML）是人工智能（ArtificialIntelligence,AI）中最关键的组成部分之一。它使得计算机不仅能够处理数据，还能从数据中学习，从而做出预测和决策。无论是语音识别、自动驾驶还是推荐系统，背后都依赖于机器学习模型。机器学习与传统的编程不同，它不再依赖于人类编写的固定规则，而是通过数据自我改进模型，从而更灵活
综述论文“A Survey of Zero-Shot Learning: Settings, Methods, and Applications” 硅谷秋水机器学习机器学习神经网络深度学习
该零样本学习综述，发表于ACMTrans.Intell.Syst.Technol.10,2,Article13(January2019)摘要：大多数机器学习方法着重于对已经在训练中看到其类别的实例进行分类。实际上，许多应用程序需要对实例进行分类，而这些实例的类以前没有见过。零样本学习（Zero-ShotLearning）是一种强大而有前途的学习范例，其中训练实例涵盖的类别与想分类的类别是不相交的。
go-etcd实战小书go golang 实战演练 golang etcd 服务发现服务注册微服务
etcd简介etcdisastronglyconsistent,distributedkey-valuestorethatprovidesareliablewaytostoredatathatneedstobeaccessedbyadistributedsystemorclusterofmachines.Itgracefullyhandlesleaderelectionsduringnetwork
梯度提升机 (Gradient Boosting Machines, GBM) ALGORITHM LOL boosting 集成学习机器学习
梯度提升机(GradientBoostingMachines,GBM)通俗易懂算法梯度提升机（GradientBoostingMachines，GBM）是一种集成学习算法，主要用于回归和分类问题。GBM本质上是通过训练一系列简单的模型（通常是决策树），然后将这些模型组合起来，从而提高整体预测性能。基本步骤初始模型：首先，我们用一个简单的模型（如一个常数值）作为预测模型，记为F0(x)F_0(x)F
机器学习 VS 表示学习 VS 深度学习 Efred.D 人工智能机器学习深度学习人工智能
文章目录前言一、机器学习是什么?二、表示学习三、深度学习总结前言本文主要阐述机器学习,表示学习和深度学习的原理和区别.一、机器学习是什么?机器学习(machinelearning),是从有限的数据集中学习到一定的规律,再把学到的规律应用到一些相似的样本集中做预测.机器学习的历史可以追溯到20世纪40年代McCulloch提出的人工神经元网络,目前学界大致把机器学习分为传统机器学习和机器学习两个类别
端到端的自动驾驶论文与代码整理大别山伧父自动驾驶
LearningbyCheatinggithubcodearxivpaperconferenceonrobotlearning最新进展(May2021)Checkoutourlatestfollow-upwork:WorldonRails(2020)Checkoutoursubmissiontothe2020CARLAChallenge!pass
JVM 架构 : 运行时数据区 & 内存结构光剑书架上的书
JVM:JavaVirtualMachine架构JVMArchitectureRuntimeDataArea/MemoryStructureClassloaderClassloaderisasubsysteminJVM,whichisprimarilyresponasibleforloadingthejavaclasses,thereare3differentclassloaders:Bootst
Lt-8 Multithreading yanlingyun0210 java
IntendedLearningOutcomesTounderstandtheconceptofconcurrency.Tounderstandthedifferenceofaprocessandathread.TodefineathreadusingtheThreadclassandRunnableinterface.TocontrolthreadswithvariousThreadmethod
如何使用Pytorch-Metric-Learning？鱼儿也有烦恼 PyTorch pytorch
文章目录如何使用Pytorch-Metric-Learning？1.Pytorch-Metric-Learning库9个模块的功能1.1Sampler模块1.2Miner模块1.3Loss模块1.4Reducer模块1.5Distance模块1.6Regularizer模块1.7Trainer模块1.8Tester模块1.9Utils模块2.如何使用PyTorchMetricLearning库中的
risc-v特权模式狮子座硅农（Leo ICer） risc-v
risc-v架构定义了3种工作模式，又称为特权模式（privilegedmode）。机器模式（machinemode），简称M模式；监督模式（supervisormode），简称S模式；用户模式（usermode），简称U模式。risc-v架构定义机器模式为必选模式，另外两种模式为可选模式，通过不同的模式组合可以实现不同的系统。risc-v架构支持几种不同的存储器地址管理机制，包括对物理地址和虚拟
推荐开源项目：PyTorch-Metric-Learning 潘惟妍
推荐开源项目：PyTorch-Metric-Learningpytorch-metric-learningTheeasiestwaytousedeepmetriclearninginyourapplication.Modular,flexible,andextensible.WritteninPyTorch.项目地址:https://gitcode.com/gh_mirrors/py/pytorc
推荐：FastAPI驱动的稳定扩散LLMs演示项目褚知茉Jade
推荐：FastAPI驱动的稳定扩散LLMs演示项目FastAPI-for-Machine-Learning-Live-DemoThisrepositorycontainsthefilestobuildyourveryownAIimagegenerationwebapplication!OutlinedarethecorecomponentsoftheFastAPIwebframework,anda
【python】【Ray的概述】资源存储库 python 开发语言
Overview概述Rayisanopen-sourceunifiedframeworkforscalingAIandPythonapplicationslikemachinelearning.Itprovidesthecomputelayerforparallelprocessingsothatyoudon’tneedtobeadistributedsystemsexpert.Rayminimi
js动画html标签（持续更新中） 843977358 html js 动画 media opacity
1.jQuery 效果 - animate() 方法改变 "div" 元素的高度： $(".btn1").click(function(){ $("#box").animate({height:"300px
springMVC学习笔记 caoyong springMVC
1、搭建开发环境 a>、添加jar文件，在ioc所需jar包的基础上添加spring-web.jar,spring-webmvc.jar b>、在web.xml中配置前端控制器 <servlet> &nbs
POI中设置Excel单元格格式 107x poi style 列宽合并单元格自动换行
引用：http://apps.hi.baidu.com/share/detail/17249059 POI中可能会用到一些需要设置EXCEL单元格格式的操作小结：先获取工作薄对象: HSSFWorkbook wb = new HSSFWorkbook(); HSSFSheet sheet = wb.createSheet(); HSSFCellStyle setBorder = wb.
jquery 获取A href 触发js方法的this参数无效的情况一炮送你回车库 jquery
html如下： <td class=\"bord-r-n bord-l-n c-333\"> <a class=\"table-icon edit\" onclick=\"editTrValues(this);\">修改</a> </td>" j
md5 3213213333332132 MD5
import java.security.MessageDigest; import java.security.NoSuchAlgorithmException; public class MDFive { public static void main(String[] args) { String md5Str = "cq
完全卸载干净Oracle11g sophia天雪 orale数据库卸载干净清理注册表
完全卸载干净Oracle11g A、存在OUI卸载工具的情况下：第一步：停用所有Oracle相关的已启动的服务；第二步：找到OUI卸载工具：在“开始”菜单中找到“oracle_OraDb11g_home”文件夹中 &
apache 的access.log 日志文件太大如何解决 darkranger apache
CustomLog logs/access.log common 此写法导致日志数据一致自增变大。直接注释上面的语法 #CustomLog logs/access.log common 增加： CustomLog "|bin/rotatelogs.exe -l logs/access-%Y-%m-d.log
Hadoop单机模式环境搭建关键步骤 aijuans 分布式
Hadoop环境需要sshd服务一直开启，故，在服务器上需要按照ssh服务，以Ubuntu Linux为例，按照ssh服务如下： sudo apt-get install ssh sudo apt-get install rsync 编辑HADOOP_HOME/conf/hadoop-env.sh文件，将JAVA_HOME设置为Java
PL/SQL DEVELOPER 使用的一些技巧 atongyeye java sql
1 记住密码这是个有争议的功能，因为记住密码会给带来数据安全的问题。但假如是开发用的库，密码甚至可以和用户名相同，每次输入密码实在没什么意义，可以考虑让PLSQL Developer记住密码。位置：Tools菜单－－Preferences－－Oracle－－Logon HIstory－－Store with password 2 特殊Copy 在SQL Window
PHP：在对象上动态添加一个新的方法 bardo 方法动态添加闭包
有关在一个对象上动态添加方法，如果你来自Ruby语言或您熟悉这门语言，你已经知道它是什么...... Ruby提供给你一种方式来获得一个instancied对象，并给这个对象添加一个额外的方法。好！不说Ruby了，让我们来谈谈PHP PHP未提供一个“标准的方式”做这样的事情，这也是没有核心的一部分... 但无论如何，它并没有说我们不能做这样
ThreadLocal与线程安全 bijian1013 java java多线程 threadLocal
首先来看一下线程安全问题产生的两个前提条件： 1.数据共享，多个线程访问同样的数据。 2.共享数据是可变的，多个线程对访问的共享数据作出了修改。实例：定义一个共享数据： public static int a = 0;
Tomcat 架包冲突解决征客丶 tomcat Web
环境： Tomcat 7.0.6 win7 x64 错误表象：【我的冲突的架包是：catalina.jar 与 tomcat-catalina-7.0.61.jar 冲突，不知道其他架包冲突时是不是也报这个错误】严重: End event threw exception java.lang.NoSuchMethodException: org.apache.catalina.dep
【Scala三】分析Spark源代码总结的Scala语法一 bit1129 scala
Scala语法 1. classOf运算符 Scala中的classOf[T]是一个class对象，等价于Java的T.class,比如classOf[TextInputFormat]等价于TextInputFormat.class 2. 方法默认值 defaultMinPartitions就是一个默认值，类似C++的方法默认值
java 线程池管理机制 BlueSkator java线程池管理机制
编辑 Add Tools jdk线程池一、引言第一：降低资源消耗。通过重复利用已创建的线程降低线程创建和销毁造成的消耗。第二：提高响应速度。当任务到达时，任务可以不需要等到线程创建就能立即执行。第三：提高线程的可管理性。线程是稀缺资源，如果无限制的创建，不仅会消耗系统资源，还会降低系统的稳定性，使用线程池可以进行统一的分配，调优和监控。
关于hql中使用本地sql函数的问题（问-答） BreakingBad HQL 存储函数
转自于：http://www.iteye.com/problems/23775 问：我在开发过程中，使用hql进行查询（mysql5）使用到了mysql自带的函数find_in_set()这个函数作为匹配字符串的来讲效率非常好，但是我直接把它写在hql语句里面（from ForumMemberInfo fm,ForumArea fa where find_in_set(fm.userId,f
读《研磨设计模式》-代码笔记-迭代器模式-Iterator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.Arrays; import java.util.List; /** * Iterator模式提供一种方法顺序访问一个聚合对象中各个元素，而又不暴露该对象内部表示 * * 个人觉得，为了不暴露该
常用SQL chenjunt3 oracle sql C++c C#
--NC建库 CREATE TABLESPACE NNC_DATA01 DATAFILE 'E:\oracle\product\10.2.0\oradata\orcl\nnc_data01.dbf' SIZE 500M AUTOEXTEND ON NEXT 50M EXTENT MANAGEMENT LOCAL UNIFORM SIZE 256K ; CREATE TABLESPA
数学是科学技术的语言 comsci 工作活动领域模型
从小学到大学都在学习数学，从小学开始了解数字的概念和背诵九九表到大学学习复变函数和离散数学，看起来好像掌握了这些数学知识，但是在工作中却很少真正用到这些知识，为什么？最近在研究一种开源软件-CARROT2的源代码的时候，又一次感觉到数学在计算机技术中的不可动摇的基础作用，CARROT2是一种用于自动语言分类（聚类）的工具性软件，用JAVA语言编写，它
Linux系统手动安装rzsz 软件包 daizj linux sz rz
1、下载软件 rzsz-3.34.tar.gz。登录linux，用命令 wget http://freeware.sgi.com/source/rzsz/rzsz-3.48.tar.gz下载。 2、解压 tar zxvf rzsz-3.34.tar.gz 3、安装 cd rzsz-3.34 ; make posix 。注意：这个软件安装与常规的GNU软件不
读源码之:ArrayBlockingQueue dieslrae java
ArrayBlockingQueue是concurrent包提供的一个线程安全的队列,由一个数组来保存队列元素.通过 takeIndex和 putIndex来分别记录出队列和入队列的下标,以保证在出队列时不进行元素移动. //在出队列或者入队列的时候对takeIndex或者putIndex进行累加,如果已经到了数组末尾就又从0开始,保证数
C语言学习九枚举的定义和应用 dcj3sjt126com c
枚举的定义 # include <stdio.h> enum WeekDay { MonDay, TuesDay, WednesDay, ThursDay, FriDay, SaturDay, SunDay }; int main(void) { //int day; //day定义成int类型不合适 enum WeekDay day = Wedne
Vagrant 三种网络配置详解 dcj3sjt126com vagrant
Forwarded port Private network Public network Vagrant 中一共有三种网络配置，下面我们将会详解三种网络配置各自优缺点。端口映射(Forwarded port)，顾名思义是指把宿主计算机的端口映射到虚拟机的某一个端口上，访问宿主计算机端口时，请求实际是被转发到虚拟机上指定端口的。Vagrantfile中设定语法为： c
16.性能优化-完结 frank1234 性能优化
性能调优是一个宏大的工程，需要从宏观架构(比如拆分，冗余，读写分离，集群，缓存等)，软件设计（比如多线程并行化，选择合适的数据结构），数据库设计层面（合理的表设计，汇总表，索引，分区，拆分，冗余等）以及微观（软件的配置，SQL语句的编写，操作系统配置等）根据软件的应用场景做综合的考虑和权衡，并经验实际测试验证才能达到最优。性能水很深，笔者经验尚浅，赶脚也就了解了点皮毛而已，我觉得
Word Search hcx2013 search
Given a 2D board and a word, find if the word exists in the grid. The word can be constructed from letters of sequentially adjacent cell, where "adjacent" cells are those horizontally or ve
Spring4新特性——Web开发的增强 jinnianshilongnian spring spring mvc spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装配置tengine并设置开机启动 liuxingguome centos
yum install gcc-c++ yum install pcre pcre-devel yum install zlib zlib-devel yum install openssl openssl-devel Ubuntu上可以这样安装 sudo aptitude install libdmalloc-dev libcurl4-opens
第14章工具函数（上） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Xelsius 2008 and SAP BW at a glance blueoxygen BO Xelsius
Xelsius提供了丰富多样的数据连接方式，其中为SAP BW专属提供的是BICS。那么Xelsius的各种连接的优缺点比较以及Xelsius是如何直接连接到BEx Query的呢？以下Wiki文章应该提供了全面的概览。 http://wiki.sdn.sap.com/wiki/display/BOBJ/Xcelsius+2008+and+SAP+NetWeaver+BW+Co
oracle表空间相关 tongsh6 oracle
在oracle数据库中，一个用户对应一个表空间，当表空间不足时，可以采用增加表空间的数据文件容量，也可以增加数据文件，方法有如下几种： 1.给表空间增加数据文件 ALTER TABLESPACE "表空间的名字" ADD DATAFILE '表空间的数据文件路径' SIZE 50M; &nb
.Net framework4.0安装失败 yangjuanjava .net windows
上午的.net framework 4.0，各种失败，查了好多答案，各种不靠谱，最后终于找到答案了和Windows Update有关系，给目录名重命名一下再次安装，即安装成功了！下载地址：http://www.microsoft.com/en-us/download/details.aspx?id=17113 方法： 1.运行cmd，输入net stop WuAuServ 2.点击开