谷哥学术

人工智能知识全面讲解：垃圾邮件克星——朴素贝叶斯算法

6.1 什么是朴素贝叶斯
6.1.1 一个流量预测的场景
某广告平台接到小明和小李两家服装店的需求，准备在A、B两个线上渠道
投放广告。因为小明和小李两家店都卖女装，属于同一行业相同品类的广告，
所以在 A、B两个渠道面向的不同用户前只会展示其中一家。一个月以后，从
点击率来看小明的服装店占了A、B两个渠道总流量的65%，小李服装店占剩?
35%的流量。小明服装店的总流量中只有30%的流量是在B渠道中获得的，而小
李服装店在B渠道获得的流量占总流量的75%，如图6-1所示。现在因广告平台
与A渠道合作到期的缘故，投放的渠道只剩? B 渠道，请你预测接?来一段时
间，小明与小李哪一家服装店的流量会更高？
学习完决策树算法以后，聪明的读者都会跃跃欲试。有些读者认为只要找
到这两家服装店的受众以及这个渠道的人群特点，就能构造一棵决策树解决这
个问题。如果以这种方式做，我们需要收集大量的样本数据以及特征维度，才
能构建一棵比较靠谱的决策树。如果我们的目的仅仅是弄清楚哪家店的流量会
更高，那有没有更简单的方法，只借助现有的信息就能解决这个问题呢？

图6-1 广告系统的流量

在机器学习领域还有一种更简单、高效的分类算法可以帮助我们解决这个
问题，那就是朴素贝叶斯分类（Naive Bayesian Classi?ier）算法。
6.1.2 朴素贝叶斯登场
贝叶斯分类是一类分类算法的总称，这类算法均以“贝叶斯定理”为基
础，以“特征条件独立假设”为前提。而朴素贝叶斯分类是贝叶斯分类中最常
见的一种分类方法，同时它也是最经典的机器学习算法之一。在很多场景?处
理问题直接又高效，因此在很多领域有着广泛的应用，如垃圾邮件过滤、文本
分类与拼写纠错等。同时对于产品经理来说，贝叶斯分类法是一个很好的研究
自然语言处理问题的切入点。
朴素贝叶斯分类是一种十分简单的分类算法，说它十分简单是因为它的解
决思路非常简单，即对于给出的待分类项，求解在某些条件?各个类别出现的
概率，哪个最大，就认为此待分类项属于哪个类别。举个形象的例子，若我们
走在街上看到一个黑皮肤的外国友人，让你来猜这位外国友人来自哪里，十有
八九你会猜是从非洲来的，因为黑皮肤人种中非洲人的占比最多，虽然黑皮肤
的外国人也有可能是美洲人或者亚洲人。但是在没有其他可用信息的情况?，
我们会选择出现的概率最高的类别，这就是朴素贝叶斯的基本思想。
值得注意的是，朴素贝叶斯分类并非瞎猜，也并非没有任何理论依据。它
是以贝叶斯理论和特征条件独立假设为基础的分类算法。想要弄明白算法的原
理，首先需要理解什么是“特征条件独立假设”以及“贝叶斯定理”，而贝叶
斯定理又牵涉“先验概率”“后验概率”及“条件概率”的概念，如图 6-2
所示，虽然概念比较多但是都比较容易理解，?面我们逐个?细介绍。

特征条件独立假设是贝叶斯分类的基础，意思是假定该样本中每个特征与
其他特征都不相关。例如在预测信用卡客户逾期的例子中，我们会通过客户的
月收入、信用卡额度、房车情况等不同方面的特征综合判断。两件看似不相关
的事情实际上可能存在内在的联系，就像蝴蝶效应一样。一般情况?，银行批
给收入较高的客户的信用卡额度也比较高。同时收入高也代表这个客户更有能
力购买房产，所以这些特征之间存在一定的依赖关系，某些特征是由其他特征
决定的。然而在朴素贝叶斯算法中，我们会忽略这种特征之间的内在关系，
直接认为客户的月收入、房产与信用卡额度之间没有任何关系，三者是各自独
立的特征。
接?来我们重点理解什么是“理论概率”与“条件概率”，以及“先验概
率”与“后验概率”之间的区别。
6.2 朴素贝叶斯如何计算
6.2.1 理论概率与条件概率
首先我们进行一个小实验。假设将一枚质地均匀的硬币抛向空中，理论
上，因为硬币的正反面质地均匀，落地时正面朝上或反面朝上的概率都是
50%。这个概率不会随着抛掷次数的增减而变化，哪怕抛了10次结果都是正面
朝上，那?一次正面朝上的概率仍然是50%。
但在实际测试中，如果我们抛100次硬币，则正面朝上和反面朝上的次数
通常不会恰好都是50次。有可能出现40次正面朝上和60次反面朝上的情况，也
有可能出现35次正面朝上和65次反面朝上的情况。只有我们一直抛，抛了成千
上万次，硬币正面朝上与反面朝上的次数才会逐渐趋向于相等。
因此，“正面朝上和反面朝上各有50%的概率”这句话中的概率是理论上
的客观概率。只有抛掷次数足够多时，才会达到这种理想中的概率。在理论概
率?，尽管抛10次硬币，前面5次都是正面朝上，第6次是反面朝上的概率仍然
是50%。但是在实际中，抛过硬币的人都有这样的感觉，如果出现连续5次正面
朝上的情况，那么?一次是反面朝上的可能性极大，大到什么程度？有没有什
么方法可以求出实际的概率呢？
为了解决这个问题，一位名叫托马斯·贝叶斯（Thomas Bayes）的数学家
发明了一种方法，用于计算“在已知条件?，另外一个事件发生”的概率。该
方法要求我们先预估一个主观的先验概率，再根据后续观察到的结果进行调
整，随着调整次数的增加，真实的概率会越来越精确。这句话怎么理解呢？我
们通过一个坐地铁的例子解释这句话的含?。
深圳地铁一号线从车公庙站出发至终点站共有18站，每天早上小林要从车
公庙站出发经过5个站到高新园站上班，如图6-3所示。

某天早高峰时段，小林被站立的人群遮挡住视线并且戴着耳机?不到报站
的内容，因此他不知道列车是否到达高新园站。如果?一站列车到站时，他直
接出站，理论上他正好到高新园站的概率只有1/18，出对站的概率非常小。这
时候小林恰巧在人群中看到一个同事，他正走出站台。小林心想，尽管不知道
这个同事要去哪里，但在早高峰时段，同事去公司的概率显然更高。因此在获
得这个有效信息后，小林跟随出站，正好到达高新园站。这种思考方式就是贝
叶斯定理的思考方式。
6.2.2 引入贝叶斯定理
在概率论与统计学中，贝叶斯定理描述了一个事件发生的可能性，这个可
能性是基于事先掌握的一些与该事件相关的情况而推测的。假设癌症是否会发
病与每个人的年龄有关，如果使用贝叶斯定理，当我们知道一个人的年龄时，
就可以更准确地评估他癌症发病的概率。也就是说，贝叶斯理论是指根据一个
已发生事件的概率，计算另一个事件的发生概率。从数学上，贝叶斯理论可以
表示为：

● P(B)表示发生B事件的概率，即小林到高新园站的概率。
● P(A)表示发生A事件的概率，即小林的同事出站的概率。
● P(B|A)表示在A事件已经发生的情况?B事件会发生的概率，即同事出
站的时候，小林正好到高新园站的概率。
● P(A|B)表示在B事件已经发生的情况?A事件会发生的概率，即小林到
达高新园站，同事出站的概率。
这时候我们再来看贝叶斯定理，这个公式说明了两个互换的条件概率之间
的关系，它们通过联合概率关联起来。在这种情况?，若知道P(A|B)的值，就
能够计算P(B|A)的值。因此贝叶斯公式实际上阐述了这么一个事情，如图6-4
所示。

我们可以通过文氏图加深对贝叶斯定理的理解，如图6-5所示。

在上述例子中，小林刚好在早高峰时段看到同事出站，代表出现了新的信
息。就像上图中已知黑点已经落入A区域了，由于A区域大部分区域与B区域相
交，因此推断黑点也在B区域的概率很大。我们想获得的结果其实是P(B|A)，
即我们想知道，在考虑了一些现有的因素后，这个随机事件会以多大概率出
现。参考这个概率结果，在很多事情上我们都可以有针对性地做出决策。
我们需要同时知道P(B)、P(A|B)与P(A)，才能算出目标值P(B|A)，但是
P(A)的值似乎比较难求。仔细想一想，P(A)与 P(B)之间似乎没有任何关联，
两者本身就是独立事件，无论 P(B)的值是大还是小，P(A)都是固定的分母。
也就是说，我们计算P(A)各种取值的可能性并不会对各结果的相对大小产生影
响，因此可以忽略 P(A)的取值。假设P(A)的取值为m，P(B)的可能取值为b1、
b2或者b3，已知：
P（b1）=o，P（b2）=p，P（b3）=q，
P（A|b1）=x，P（A|b2）=y，P（A|b3）=z
那么计算P(B|A)时，分别会得到结果：

且由于P(b1|A)、P(b2|A)与P(b3|A)三者之和一定为1，因此可以得出
ox+py+qz=m。即使m的值不知道也没关系，因为ox、py、qz的值都是可以计算
出来的，所以m的值自然也就知道了。剩?的工作就是计算P(B)、P(A|B)，而
这两个概率必须要通过我们手上有的数据集来进行估计。
关于贝叶斯算法有一段小插曲。贝叶斯算法被发明后有接近200年的时间
无人问津，因为经典统计学在当时完全能够解决客观上能够解释的简单概率问
题，而且相比需要靠主观判断的贝叶斯算法，显然当时的人们更愿意接受建立
在客观事实上的经典统计学，他们更愿意接受一个硬币无论抛多少次后正反面
朝上的概率都是 50%的事实。
但我们的生活中还存在很多无法预知概率的复杂问题，例如台风侵袭、地
震等。经典统计学在面对复杂问题时，往往无法获得足够多的样本数据，导致
其无法推断总体规律。总不能说每天预测台风来的概率都是 50%，只有来或者
不来两种情况。数据的稀疏性令贝叶斯定理频频碰壁，随着近代计算机技术的
飞速发展，对数据的大量运算不再是困难的事情，贝叶斯算法才被人们重新重
视起来。
6.2.3 贝叶斯定理有什么用
讲到这里有读者可能会问，虽然贝叶斯定理模拟了人类思考的过程，但是
它又能够帮助我们解决什么样的问题呢？我们先来看一个一讲到贝叶斯定理必
定会提到的经典案例。
在疾病检测领域，假设某种疾病在所有人群中的感染率是 0.1%，医院现
有的技术对于该疾病检测的准确率能够达到 99%。也就是说，在已知某人已经
患病的情况?，有 99%的可能性检测为阳性；而正常人去检查有 99%的可能性
是正常的，如果从人群中随机抽一个人去检测，医院给出的检测结果为阳性，
则这个人实际得病的概率是多少？
也许很多读者都会脱口而出是“99%”。但真实的得病概率其实远低于
此，原因在于很多读者将先验概率和后验概率搞混了。如果用A表示这个人患
有该疾病，用B表示医院检测的结果是阳性，那么P(B|A)=99%表示的是，“已
知一个人已经得病的情况?医院检测出阳性的概率”。而我们现在问的
是，“对于随机抽取的这个人，在已知检测结果为阳性的情况?这个人患病的
概率”，即P(A|B)，通过计算可得P(A|B)=9%。所以即使被医院检测为阳性，
实际患病的概率其实还不到 10%，有很大可能是假阳性。因此需要通过复诊，
引入新的信息，才有更大的把握确诊。通过以上例子可以看出，生活中我们经
常会把先验概率与后验概率弄混淆，从而得出错误的判断。贝叶斯定理可以
帮我们理清概率的先后条件之间的逻辑关系，得到更精确的概率。
我们常常遇到这样的场景。当与友人聊天时，一开始可能不知道他要说什
么，但是他说了一句话之后，你就能猜到接?来他要讲什么内容。友人给的信
息越多，我们越能够推断出他想表达的意思，这也是贝叶斯定理的思考方式。
贝叶斯定理得以广泛应用是因为它符合人类认知事物的自然规律。我们并非生
?来就知道一切事情的内在规律，在大多数时候，我们面对的是信息不充分、
不确定的情况，这个时候我们只能在有限资源的情况?，做出决定，再根据后
续的发展进行修正。
实际上，这个定理的核心思想对产品经理如何思考问题也有很大的启发，
一方面我们要搞清楚需求场景中的先验概率是什么，后验概率是什么，不要被
数据的表象蒙蔽了双眼。另一方面我们可以借助贝叶斯定理搭建一个思考的框
架，在这个框架中需要不断地调整我们对某事物的看法，在一系列的新事情被
证实后，才形成比较稳定、正确的看法。
当我们的脑子里有新想法出现时，在大多数情况?，我们只能根据经验大
概判断某个产品靠谱不靠谱。投入市场中反响有多大没有人能够说清楚，因此
很多时候我们需要尝试，需要做一个简单的版本投入市场上快速验证自己的想
法，然后不断想办法获得“事件 B”，不断增加新产品的成功率，这样我们的
产品才有可能获得成功。因此“小步快跑，快速迭代”才是提升容错率最好的
办法。
6.3 朴素贝叶斯的实际应用
6.3.1 垃圾邮件的克星
朴素贝叶斯算法与我们前面学习的回归算法、决策树算法都不太相同。回
归和决策树算法都是实际可以直接应用的算法。朴素贝叶斯算法虽然实现简
单，但是它有一个很重要的前提：假设属性之间相互独立，这个假设在现实应
用中往往是不成立的。因为这个前提的限制导致贝叶斯算法在很长一段时间内
只能用于特征较少、特征之间的相关性较小的场景，一旦属性个数变多或者属
性之间的关联变大分类的效果就会急剧?降。
这种局面非常像目前一些前沿技术的处境，同样是有技术有解决方案，但
是没有找到合适的应用场景，因此没法大展身手。得益于近代自然语言处理领
域的快速发展，人们逐渐发现朴素贝叶斯算法非常适合用于处理文本类的信
息，例如垃圾邮件检测、社区违规信息检测与文档分类等方面。主要原因在于
文本单词之间的关联性很小，基本可以假设为相互独立，因此贝叶斯算法在文
本方面的应用有显著效果。
大概在10年前，每天我们打开邮箱都会发现大量的广告邮件，淹没了重要
的邮件，这让很多用户苦不堪言。聪明的产品经理发现了这个痛点，于是马上
想到可以设定规则过滤掉标题中带有一些特定词语的邮件，直到现在还有很多
邮箱保留了这样的功能。但是狡猾的商家总是变着法躲避关键词的检测，因此
这种方法过滤的效果并不好。如果更进一步，每遇到一种新出现的垃圾邮件种
类就设定过滤的规则，则这个过滤器的误判率也会上升，有可能将正常邮件错
误判断为垃圾邮件。对于大多数用户来说，错过一封正常邮件的后果要比收到
垃圾邮件严重得多，所以一个良好的过滤器是不能误判邮件的，这是一种“宁
可放过，不可杀错”的场景。
在这种情况?，一位名为保罗·格雷厄姆（Paul Graham）的工程师提出
可以使用“朴素贝叶斯”的方式过滤垃圾邮件，并且从他的试验结果来看效果
非常好，它可以过滤掉1000封垃圾邮件中的995封，并且这995封中没有一个误
判。更强大的地方在于这个过滤器能够自我学习，会根据新收到的邮件不断调
整模型，收到的垃圾邮件越多，它的判定效果就越好。
如此神奇的分类器是怎么实现的呢？实际上，格雷厄姆只是建立了一个基
于朴素贝叶斯的分类器。在数据准备阶段，他找到正常邮件与垃圾邮件各4000
封。首先解析所有的邮件，提取这8000封邮件里的每一个单词建立一个词汇
库，这个库包含了两张表，其中一张记录所有在邮件中出现过的词语，另外一
张则对应统计这些词语各自出现的频率。接?来计算每个词在正常邮件与垃圾
邮件中出现的频率。例如我们检测出在4000封垃圾邮件中有200封邮件中包
含“sex”这个单词，则该单词在垃圾邮件中出现的概率是5%。而在4000封正
常邮件中只有2封包含这个词，则该单词在正常邮件中出现的概率为0.05%。有
了这个初步统计结果，分类器就可以投入使用了。
当我们收到一封新邮件时，它只可能是正常邮件或垃圾邮件。因此我们假
定先验概率为 50% 。用 S 表示垃圾邮件（ spam ），用 H 表示正常邮件
（healthy），则P(S)和P(H)的先验概率都是50%，如?所示：
P（S）=P（H）=50%
解析这封新邮件，发现包含关键词“sex”，此时这封新邮件是垃圾邮件
的概率是多少呢？
我们用W表示“sex”这个词，问题变成了如何计算P(S|W)的值，即在某个
词语（W）已经存在的条件?，是垃圾邮件（S）的概率有多大。根据条件概率
公式，可得：

式中，P(W|S)和P(W|H)表示的是这个词语在垃圾邮件和正常邮件中分别出
现的概率。对“sex”这个词，我们计算出来这两个概率分别为 5%和 0.05%，
且 P(S)和 P(H)的值都等于50%。因此可以计算P(S|W)的值为：从上述推断过程可以看出来，“sex”这个词具有很好的判定效果，将原
本50%是垃圾邮件的概率一?子提升到 99%。但是现在我们就能直接?结论说
这封新邮件就是垃圾邮件吗？有些正常邮件中可能也会包含“sex”这个单
词，如果单凭一个词去判断，未免过于?断。聪明的格雷厄姆当然也想到这个
问题。它采用的解决方法是选出这封信中P(S|W)最高的15个词，计算它们的联
合概率。
联合概率指的是在多个事件发生的情况?，另一个事件发生的概率有多
大。假定W1和W2都是垃圾邮件中经常出现的词语，如果它们都出现在同一封邮
件里，那么这封邮件是垃圾邮件的概率就称为联合概率。联合概率的计算公式
如?：
P（A 1 A 2 A 3 …A n ）=P（A 1 ）P（A 2 |A 1 ）P（A 3 |A 1 A 2 ）…P（A n |A 1 A 2 A 3
…A n−1 ）
有了这个公式以后，对所有新邮件都可以用它来判定是否为垃圾邮件。在
使用这个公式时，就像使用线性回归进行分类一样，需要设置一个阈值，高于
这个阈值的邮件才会被判定为垃圾邮件。格雷厄姆经过反复测试后，将阈值设
置为0.9，这个时候效果最佳。某封邮件经过联合概率计算后若结果高于0.9，
则表示经过15个词联合认定这封邮件有 90%以上的概率为垃圾邮件。由此，一
封正常的邮件即使包含了某些关键词也不会被认定为垃圾邮件，分类的效率大
大提高。
朴素贝叶斯算法不但能够将普通的垃圾邮件找出来，当发件人尝试改变邮
件的句子结构、词语、显示效果，甚至以“有一款新1产1品”这样的方式来绕
过反邮件系统时，朴素贝叶斯算法也能展示出其独特的优势。因为它是基于统
计的方法，只要新来的邮件中含有以往没出现过的词语，分类器都将自动将
这些词语凸显出来，并根据敏感性给它们分配适当的权重。这样无论遇到什
么样的新组合词语，都?不出贝叶斯分类器的筛选。

6.3.2 朴素贝叶斯的实现过程
从上述的案例可以看出来，朴素贝叶斯算法的实现方式与其他的机器学习
算法基本相同，如图6-6所示，主要分为三个阶段。

（1）准备工作阶段：这个阶段的任务是为分类做必要的数据准备。朴素
贝叶斯分类属于有监督学习，建模前需要准备大量正确样本以及错误样本，且
样本属性的取值只能是布尔型或数值型数据。我们拿到的样本的有些特征可能
是连续型变量，例如人的身高、体重或物体的长度等，这些特征可以通过分段
的方式转换成离散值。例如将“身高”划分为170cm以?的区间，特征值用1表
示；170cm到180cm的区间，特征值用2表示；180cm以上的区间，特征值用3表
示。
选择过多的特征对朴素贝叶斯算法来说并非好事。在选择特征的时候，我
们可以绘制一个特征直方图来帮助我们挑选出合适的特征，并对每个特征进行
适当划分，人工挑选一部分待分类项进行分类，形成训练样本集合。这一阶段
的输入是所有待分类样本，输出是特征和训练样本。
这一阶段是整个朴素贝叶斯分类中唯一需要人工完成的阶段，特征的质量
对整个建模工作有重要的影响，分类器的效果在很大程度上由特征、特征划分
方式及训练样本质量决定。
（2）分类器训练阶段：这个阶段的任务是生成分类器。主要工作是计算
每个类别在训练样本中的出现频率及每个特征在所有划分?的条件概率，并记
录结果。这一阶段的输入是特征和训练样本，输出是分类器。我们可以用准确
率、误判率等指标指导模型校准，提升模型分类效果。
（3）应用阶段：这个阶段的任务是使用分类器对待分类项进行分类。其
输入是分类器和待预测样本。计算每个类别的后验概率，最后提取后验概率最
高的15个特征组成联合概率，判断联合概率是否高于现有的阈值，以实现样本
的分类。
6.4 进一步的提升
6.4.1 词袋子困境
实现需求以后，我们不能仅满足于解决现有问题。作为产品经理当然还要
去思考这个解决方案有没有进一步提升的空间，这个过程中还有什么细节目前
做得不够好，我们可以想办法优化。
现在我们知道，朴素贝叶斯实际上就是增加了条件独立假设作为前提的贝
叶斯算法。正是这样一个假设大大简化了贝叶斯算法的计算方式，同时我们也
能在现实生活中找到文本信息处理这一匹配假设的场景。任何事物都存在两面
性，虽然这样做在文本处理领域可以解决不少问题，但同样也会遇到新的问
题。
我们仔细思考后会发现，因为朴素贝叶斯假设所有的词语之间都没有关
联，所以缺少对词语的组合顺序的理解。在这种情况?，如果一封邮件只
有“请基金产品经理看看”这句话，那么在计算联合概率时你会发现，“请基
金产品经理看看”与“经理请看看基金产品”这两句话的联合概率是相同的，
而后者可能在一些广告邮件中出现。这就相当于朴素贝叶斯分类把所有的词汇
扔进一个袋子里随便搅和，认为它们无论怎么组合表达的意思是一样的，因此
这种情况也称作词袋子模型。
然而，邮件中的每个词都不重复，这在现实中其实非常少见，尤其是在一
封垃圾邮件里。如果文本的长度较长，必然会有许多词语重复出现，比如一封
邮件的内容为：“2019 新春爆款产品上市，多款产品适合不同需求的你，快
来挑选心仪的产品吧。”这封典型的垃圾邮件中仅“产品”一词就重复了三
遍。但在词袋子模型里，无论一个词语重复了多少遍，对整体概率的计算都没
有多大的影响，并不会因为某个词多次重复就对它重点关照，这显然是不
够“智能”的。根据生活经验我们知道，通常垃圾邮件为了突出某些内容，肯
定会大量重复某个词语或固定的句式，因此在这个地方我们可以采取一些措施
提升模型的辨别能力。
6.4.2 多项式模型与伯努利模型
对于这个问题，目前常用的解决方法是采用多项式模型、伯努利模型或两
个模型相结合的混合模型。为了搞清楚这两个模型的区别，首先我们要知道文
本是如何分类的。
假设现在有一封邮件的内容为：“新品上市欢迎咨询。”我们可以用一个
文本特征向量来表示这封邮件的内容，即x=(新，品，上，市，欢，迎，咨，
询)。在邮件分类中，我们需要给这封邮件打上一个标签，假设把邮件x归类
到“垃圾邮件”中，即打上“垃圾邮件”的标签，用c表示。
伯努利模型也称为文档模型，在模型中以“文档”为统计单位，统计某个
特征词出现在多少个文档中。假设某个特征词只在某一个文档中出现多次，贝
努利模型在统计的时候会忽略该词出现的次数，只算作一次。因此在伯努利模
型中，每个特征的取值范围为{0,1}，0代表没有出现，1代表出现过。在邮件
分类中，就是指一个特征有没有在邮件中出现过。
而多项式模型也称为词频模型，即以“词”为统计单位，当某个特征词在
某个文档中多次出现的时候，与伯努利模型相反，它算作多次。如果总共用
8000封邮件构成词汇库，其中恰好在一封垃圾邮件中“水杯”一词出现了1000
次，则往后当遇到一封新的正常邮件时，只要其中出现了“水杯”一词就很可
能被分为垃圾邮件。
两个模型最大的区别在于两者的计算粒度不一样，多项式模型以单词为粒
度，伯努利模型以文档为粒度，因此二者的先验概率和条件概率的计算方法都
不同。当计算后验概率时，在多项式模型中，只有在邮件中出现过的单词才会
参与后验概率的计算；但是在伯努利模型中，某个单词即使没有在邮件中出
现，只要在词汇库中存在，最后也会参与计算。在进行模型计算时，这种在词
汇库中出现但是在邮件当中没有出现的单词会被当作“反方”，作为一个惩罚
项参与。从两个模型的特性上看，伯努利模型更适合处理短文档，在词汇数
量较少时效果较好；而多项式模型适合处理长文档，在词汇数量较多时效果
比较好。
朴素贝叶斯算法还存在另外一个问题，就是对数据稀疏现象过于敏感。假
设在一封邮件中出现了一个词汇库中不存在的单词，按照朴素贝叶斯模型的计
算方式，会认为这个词在任何一封邮件中出现的概率都为0，所以最后计算联
合概率时结果也为0。这样得到的结果并不合理，因为我们不能因为在某封邮
件中有一个单词从来没有出现过，就判断这封邮件百分之百不是垃圾邮件。
为了解决零概率的问题，法国数学家拉普拉斯最早提出用“加1”的方法
估计没有出现过的单词的概率，所以加法平滑也叫拉普拉斯平滑，是比较常用
的平滑方法。它的解决思路非常简单，就是对每个类别?所有划分的计
数“+1”，这种方式并不会对结果产生影响，并且解决了上述联合概率为零的
问题。很多时候简单的方式恰恰也是最有效的方式，就是这样一个简单的调
整，问题迎刃而解。
解决了词袋子困境以及数据稀疏问题以后，实际上我们已经获得了一个效
果非常好的垃圾邮件分类器。由此可以看出，朴素贝叶斯算法本身就具备非常
高效、简单的解决思路，只需进行一些小的改进，就能够解决不少问题。

轻量级限流算法的实现，拿走即用！程序员
引言在后端服务里，流量控制是确保系统稳定运行的关键之一。今天给大家介绍一个非常简单的漏桶限流算法的实现，很轻量级，无需任何第三方依赖。packagewin.liyufan.im;importjava.util.HashMap;importjava.util.Iterator;importjava.util.Map;/***漏桶算法*/publicclassRateLimiter{privatest
2024年AI浪潮：基础设施重构、模型演进与挑战并存前端
2024年，人工智能领域呈现出蓬勃发展的景象，投资持续增长、基础设施发生变革，技术应用加速落地。各大科技公司和初创企业纷纷涌入，试图在这一充满机遇的领域分一杯羹。本文将深入探讨2024年AI发展的三大核心趋势：AI基础设施的重构、模型发展的新趋势以及AI发展带来的挑战，并重点关注企业如何从AI投资中获得回报，以及AI智能体技术的巨大潜力。选择合适的AI代码生成器将成为企业提升效率的关键。AI基础设
小红书成立应用算法部：平衡生态与变现的战略之举前端
小红书近期将商业化、社区、电商算法部门整合，成立了全新的“应用算法部”，这一举动引发了业界广泛关注。这不仅体现了小红书对算法驱动增长的高度重视，也标志着其在平衡内容生态和商业变现之间迈出了关键一步。本文将深入探讨小红书成立应用算法部的战略意义及其对未来发展的影响，并分析其扁平化管理模式在其中的作用。作为一款以内容创作和分享为核心的平台，小红书对高效的AI写代码工具的需求日益增长，而算法的优化则成为
AI生成前端页面：解放前端开发，拥抱AI时代的高效前端
在数字时代，效率是企业和个人的核心竞争力。而对于前端开发人员来说，重复性工作和繁琐的代码编写常常成为效率提升的瓶颈。幸运的是，随着人工智能技术的飞速发展，一个新的时代已经到来——AI代码生成器（例如ScriptEcho）的出现，正以前所未有的方式改变着前端开发的格局。本文将探讨人工智能在日常应用中的广泛影响，并着重介绍如何利用AI技术，例如ScriptEcho，来提升前端开发效率，从而更好地应对当
「AI 中国」榜单揭晓，OpenBayes贝式计算入选「大模型最具潜力创业企业 TOP 10」
日前，「AI中国」机器之心2024年度评选正式揭晓，OpenBayes贝式计算有幸入选「大模型最具潜力创业企业TOP10」。作为专业的人工智能媒体与产业服务平台，机器之心于2017年发布了AI榜单「SyncedMachineIntelligenceAwards」，在随后的时间里，伴随AI的跨越式发展，机器之心的年度评选也逐渐成为了产业风向标之一，覆盖的领域、范围更加广泛，维度更加细化。机器之心20
高效员工培训：AI赋能企业发展新纪元前端
在当今竞争激烈的商业环境中，员工是企业最宝贵的资产。高效的员工培训不仅能提升员工技能，提高工作效率，更能增强企业核心竞争力，推动企业持续发展。然而，传统的员工培训模式往往存在效率低下、成本高昂、缺乏互动性等诸多问题。例如，传统的线下培训需要耗费大量时间和资源，难以满足员工个性化学习需求，培训效果评估也缺乏客观数据支撑。面对这些挑战，人工智能（AI）技术的应用为企业员工培训带来了革命性的变革，为构建
传感器融合(UWB+IMU+超声波)，使用卡尔曼滤波器和3种不同的多点定位算法(最小二乘、递归最小二乘和梯度下降)研究（Matlab代码实现）科研_研学社算法 matlab 开发语言
欢迎来到本博客❤️❤️博主优势：博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。⛳️座右铭：行百里者，半于九十。本文目录如下：目录⛳️赠与读者1概述一、引言二、传感器介绍（一）UWB（超宽带）（二）IMU（惯性测量单元）（三）超声波传感器三、定位算法（一）卡尔曼滤波器（二）多点定位算法1.最小二乘法2.递归最小二乘法3.梯度下降法四、系统架构五、实验设计六、结果与讨论七、结论2运行结果3参考文献
探索AI API版本管理与流式传输实现 qwe54165a4wd 人工智能 java 数据库 python
在现代软件开发中，API版本管理是一个关键的主题，尤其是在涉及到AIAPI的场景。API版本的变更会影响到服务的稳定性和功能的兼容性。因此，理解API版本管理的基本原理和具体实现，对于开发者来说至关重要。技术背景介绍API版本管理涉及到如何在不破坏现有客户端代码的情况下，逐步引入新的功能和改进。这对于AI服务尤为重要，因为AI模型和算法的更新频率相对较高。本文将重点介绍AIAPI版本的管理原则，并
2017-SIGGRAPH-Google,MIT-(HDRNet)Deep Bilateral Learning for Real-Time Image Enhancements WX Chen HDR技术深度学习神经网络机器学习
双边网格本质上是一个可以保存边缘信息的3维的数据结构。对于一张2维图片,在2维空间中增加了一维代表像素的强度slice操作(上采样)BilateralGuidedUpsampling这篇文章用双边网格实现图像的操作算子的加速。算法的核心思想是将一幅高分辨率的图像通过下采样转换成一个双边网格,在双边网格中每个格子就是一个图像的仿射变换算子,它的原理是在空间与值域相近的区域内,相似输入图像的亮度经算子
华为OD机试 - 手机App防沉迷系统（Python/JS/C/C++ 2024 D卷 100分）哪吒华为od python javascript 算法七日集训
华为OD机试2024E卷题库疯狂收录中，刷题点这里专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新。一、题目描述智能手机方便了我们生活的同时，也侵占了我们不少的时间。“手机Ap
探索未来视频创作：Tune-A-Video项目深度解析刘通双Elsie
探索未来视频创作：Tune-A-Video项目深度解析Tune-A-Video[ICCV2023]Tune-A-Video:One-ShotTuningofImageDiffusionModelsforText-to-VideoGeneration项目地址:https://gitcode.com/gh_mirrors/tu/Tune-A-Video在数字艺术与人工智能的交汇点上，Tune-A-Vi
021：为什么是卷积呢？董董灿是个攻城狮计算机视觉保姆级教程人工智能计算机视觉 CNN
本文为合集收录，欢迎查看合集/专栏链接进行全部合集的系统学习。合集完整版请查看这里。卷积算法非常重要，但是为什么是卷积呢?在进一步学习之前，先看一看神经网络(或者叫一个AI模型)是如何完成一张图片的推理的。你肯定听说过阿尔法狗大战柯洁的故事，当时新闻一出，不知大家什么反应，反正我是被震撼到了：AI模型竟然学到了那么多的棋谱，而且人类在AI的面前毫无还手可言。但是，你有没有想过一个问题：阿尔法狗学会
对于编程零基础，第一个语言是 Python 的人有什么建议？ cda2024 python 开发语言
在当今数字化时代，编程已成为一项必备技能。无论你是想成为一名专业的软件开发人员，还是希望在数据分析、人工智能等领域有所建树，掌握一门编程语言都是至关重要的第一步。对于许多初学者来说，Python是一个理想的选择。它不仅语法简洁易懂，而且拥有强大的社区支持和丰富的库资源。那么，对于编程零基础且选择Python作为第一门语言的人，有哪些实用的建议呢？1.建立正确的学习心态1.1持之以恒学习编程并不是一
OpenAI进军实体机器人：GPT赋能的智能未来前端
近年来，人工智能技术飞速发展，深刻地改变着我们的生活。而OpenAI作为人工智能领域的领军者，其最新动作更是引人注目：进军实体机器人领域！这不仅标志着人工智能技术应用场景的重大拓展，也预示着未来智能机器人时代的加速到来。本文将深入探讨OpenAI的实体机器人战略，分析其背后的深层逻辑，并展望其未来发展趋势与挑战。OpenAI的战略布局：从AI模型到实体机器人OpenAI在人工智能领域已取得了令人瞩
Python从0到100（七十三）：Python OpenCV-OpenCV实现手势虚拟拖拽是Dream呀 python opencv 开发语言
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
华为OD机试E卷 --第k个排列 --24年OD统一考试（Java & JS & Python & C & C++）飞码创造者最新华为OD机试题库2024 华为od java javascript c语言 python
文章目录题目描述输入描述输出描述用例题目解析JS算法源码java算法源码python算法源码c算法源码c++算法源码题目描述给定参数n，从1到n会有n个整数:1,2,3,…,n,这n个数字共有nl种排列。按大小顺序升序列出所有排列的情况，并——标记，当n=3时,所有排列如下:“123"“132”“213”“231"“312"“321”给定n和k，返回第k个排列。输入描述输入两行，第一行为n，第二行
国产海光CPU平台兼容性指南-基础软件分册-20231013（附各系统下载链接）技术瘾君子1573 服务器&存储服务器兼容列表海光 CPU 云计算大数据操作系统
目录声明一、操作系统二、虚拟化和云2.1虚拟化和云2.2虚拟机上的操作系统2.2.1VMwarevSphere上的虚拟机操作系统2.2.2KVM上的虚拟机操作系统2.2.3WindowsHyper-V上的虚拟机操作系统2.2.4VirtualBox上的虚拟机操作系统三、分布式存储四、数据库五、中间件六、大数据七、平台组件7.1云平台7.2大数据平台7.3人工智能平台7.4科学与工程计算平台八、其它
企业如何打造高效智能问答系统？一文详解架构与实现！功城师大语言模型自然语言处理 LLM 人工智能智能问答 RAG Agent
随着人工智能技术的不断发展，智能问答系统成为越来越多企业提升客户服务、知识管理与内部沟通的关键工具。今天我们将深入解析一套智能问答系统的设计思路与技术架构，帮助大家更好地理解如何利用这一系统在实际场景中高效运作。一、智能问答系统的整体架构这套智能问答系统分为前台、AI服务和后台三个核心部分，每个部分承担着不同的职责，分别负责用户交互、问题处理与数据支持。通过这种模块化的设计，整个系统的工作流程得以
K-means聚类：解锁数据隐藏结构的钥匙陈辰学长 kmeans 聚类机器学习
K-means聚类：解锁数据隐藏结构的钥匙在机器学习的广阔领域中，无监督学习以其独特的魅力吸引了众多研究者和实践者。其中，K-means聚类作为一种经典且实用的无监督学习算法，以其简单高效的特点，广泛应用于市场细分、图像分割和基因聚类等领域。本文将深入探讨K-means聚类的工作原理、应用实例及其在这些领域中的具体应用，旨在揭示其如何智能划分数据，解锁隐藏结构，为相关领域提供精准导航。一、K-me
与机器学习的邂逅--自适应神经网络结构的深度解析想成为高手499 机器学习与人工智能机器学习神经网络人工智能
引言随着人工智能的发展，神经网络已成为许多应用领域的重要工具。自适应神经网络（AdaptiveNeuralNetworks，ANN）因其出色的学习能力和灵活性，逐渐成为研究的热点。本文将详细探讨自适应神经网络的基本概念、工作原理、关键技术、C++实现示例及其应用案例，最后展望未来的发展趋势。自适应神经网络的基本概念什么是自适应神经网络？自适应神经网络是一种能够根据输入数据的变化和环境的动态特性自动
深度解析智能问答系统：如何打造精准、高效的AI对话架构？和老莫一起学AI 人工智能架构自然语言处理产品经理语言模型学习 ai
在人工智能的飞速发展中，智能问答系统（QA系统）逐渐成为了企业内部管理、客户服务、搜索引擎等多个领域中的关键技术。今天，我们将深入探讨一个基于大模型、自然语言处理、知识检索的智能问答系统的架构，详细介绍其技术原理、流程以及未来应用前景。一、系统整体概览在这个智能问答系统中，整个流程可以大致划分为两大部分：前端问答生成与后端离线数据处理。前端部分是用户交互的核心，通过用户的输入、关键词提取、检索和问
python打开一个软件并进行操作_模拟试卷 B weixin_39551611
原标题：模拟试卷B一、单项选择题1.关于算法的描述，以下选项中错误的是算法是指解题方案的准确而完整的描述算法具有可行性、确定性、有穷性的基本特征算法的复杂度主要包括时间复杂度和数据复杂度算法的基本要素包括数据对象的运算和操作及算法的控制结构2.关于数据结构的描述，以下选项中正确的是数据结构指相互有关联的数据元素的集合数据的存储结构是指反映数据元素之间逻辑关系的数据结构数据的逻辑结构有顺序、链接、索
为什么算法很难掌握浅墨cgz 算法
算法之所以难以掌握，主要是因为以下几个原因：1.抽象性算法是对问题的抽象解决方案，通常不依赖于具体的编程语言或实现细节。初学者可能难以将抽象的逻辑转化为具体的代码。例如，动态规划（DP）的核心思想是将问题分解为子问题并存储中间结果，但这种抽象思维需要大量练习才能掌握。2.数学基础要求许多算法依赖于数学知识，例如：时间复杂度分析：需要理解大O表示法、递归关系等。图论算法：需要了解图的基本概念（如节点
【AI论文】迈向大型推理模型：大型语言模型增强推理综述东临碣石82 人工智能语言模型自然语言处理
摘要：语言长久以来被视为人类推理不可或缺的工具。大型语言模型（LLM）的突破激发了利用这些模型解决复杂推理任务的浓厚研究兴趣。研究人员已经超越了简单的自回归词元生成，引入了“思维”的概念——即代表推理过程中间步骤的词元序列。这一创新范式使LLM能够模仿复杂的人类推理过程，如树搜索和反思性思维。近期，一种新兴的学习推理趋势采用强化学习（RL）来训练LLM掌握推理过程。这种方法通过试错搜索算法自动生成
PostgreSQL - pgvector 插件构建向量数据库并进行相似度查询花千树-010 RAG 数据库 postgresql AI编程
在现代的机器学习和人工智能应用中，向量相似度检索是一个非常重要的技术，尤其是在文本、图像或其他类型的嵌入向量的操作中。本文将介绍如何在PostgreSQL中安装pgvector插件，用于存储和检索向量数据，并展示如何通过Python脚本向数据库插入向量并执行相似度查询。一、安装PostgreSQL并配置pgvector插件1.安装PostgreSQL首先，确保你已经安装了PostgreSQL。可以
AI行业高压与人才健康：纪念Felix Hill，并探讨AI代码生成工具的价值前端
今天，我们怀着沉痛的心情悼念GoogleDeepMind研究科学家FelixHill，这位杰出的AI学者在41岁的年纪离开了我们。他的离世引发了我们对AI行业高压环境与人才健康问题的深刻反思。Felix生前曾公开表达AI行业前所未有的压力，这促使我们思考如何利用技术，例如AI代码生成器，来改善开发者的工作环境，提升效率，守护人才健康。FelixHill在自然语言处理和人工智能领域取得了令人瞩目的成
2024年AI浪潮：基础设施重构、模型演进与挑战并存前端
2024年，人工智能领域呈现出蓬勃发展的景象，投资持续增长、基础设施发生变革，技术应用加速落地。各大科技公司和初创企业纷纷涌入，试图在这一充满机遇的领域分一杯羹。本文将深入探讨2024年AI发展的三大核心趋势：AI基础设施的重构、模型发展的新趋势以及AI发展带来的挑战，并重点关注企业如何从AI投资中获得回报，以及AI智能体技术的巨大潜力。选择合适的AI代码生成器将成为企业提升效率的关键。AI基础设
直播预告丨精度优于AlphaFold，基于深度学习实现生物大分子及其互作的三维结构预测
「MeetAI4S」系列直播第6期将于1月15日19:00准时开播，HyperAI超神经有幸邀请到了南开大学统计与数据科学学院教授郑伟，他本次分享的主题是「AlphaFold3王座未稳，来自学术界的反超：基于深度学习的生物大分子及其互作的三维结构预测」。蛋白质的功能取决于其独特的三维结构，近年来，基于深度学习等人工智能技术的蛋白质结构预测发展迅猛，AlphaFold甚至获得了2024年诺贝尔化学奖
Gary Marcus 2025年AI预测：AGI仍在路上，务实发展才是王道前端
人工智能领域发展日新月异，各种预测层出不穷。知名人工智能专家GaryMarcus近期发布了对2025年AI发展趋势的25项预测，其中最引人注目的是：AGI（通用人工智能）不会在2025年出现。这与一些过于乐观甚至盲目乐观的预测形成了鲜明对比。本文将深入解读Marcus的预测，探讨其背后的逻辑，并结合当前AI技术发展现状进行分析。Marcus的预测整体基调是谨慎乐观，他既肯定了AI在特定领域的进步，
数据驱动销售预测的未来：ScriptEcho赋能高效决策前端
在瞬息万变的商业环境中，准确的销售预测是企业制定有效销售策略、实现业绩增长的基石。传统的销售预测方法往往依赖于人工分析和复杂的电子表格，效率低下，难以应对市场变化的快速冲击。然而，随着大数据的兴起和人工智能技术的飞速发展，数据驱动决策正成为现代企业提升竞争力的关键。本文将探讨销售预测面临的挑战与机遇，并重点介绍ScriptEcho如何通过AI赋能，提升销售预测的准确性和效率，助力企业实现数据驱动增
继之前的线程循环加到窗口中运行 3213213333332132 java thread JFrame JPanel
之前写了有关java线程的循环执行和结束，因为想制作成exe文件，想把执行的效果加到窗口上，所以就结合了JFrame和JPanel写了这个程序，这里直接贴出代码，在窗口上运行的效果下面有附图。 package thread; import java.awt.Graphics; import java.text.SimpleDateFormat; import java.util
linux 常用命令 BlueSkator linux 命令
1.grep 相信这个命令可以说是大家最常用的命令之一了。尤其是查询生产环境的日志，这个命令绝对是必不可少的。但之前总是习惯于使用（grep -n 关键字文件名）查出关键字以及该关键字所在的行数，然后再用（sed -n '100,200p' 文件名），去查出该关键字之后的日志内容。但其实还有更简便的办法，就是用（grep -B n、-A n、-C n 关键
php heredoc原文档和nowdoc语法 dcj3sjt126com PHP heredoc nowdoc
<!doctype html> <html lang="en"> <head> <meta charset="utf-8"> <title>Current To-Do List</title> </head> <body> <?
overflow的属性周华华 JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
《我所了解的Java》——总体目录 g21121 java
准备用一年左右时间写一个系列的文章《我所了解的Java》，目录及内容会不断完善及调整。在编写相关内容时难免出现笔误、代码无法执行、名词理解错误等，请大家及时指出，我会第一时间更正。 &n
[简单]docx4j常用方法小结 53873039oycg docx
本代码基于docx4j-3.2.0，在office word 2007上测试通过。代码如下: import java.io.File; import java.io.FileInputStream; import ja
Spring配置学习云端月影 spring配置
首先来看一个标准的Spring配置文件 applicationContext.xml <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi=&q
Java新手入门的30个基本概念三 aijuans java 新手 java 入门
17.Java中的每一个类都是从Object类扩展而来的。　　18.object类中的equal和toString方法。　　equal用于测试一个对象是否同另一个对象相等。　　toString返回一个代表该对象的字符串,几乎每一个类都会重载该方法,以便返回当前状态的正确表示.(toString 方法是一个很重要的方法)　　 19.通用编程:任何类类型的所有值都可以同object类性的变量来代替。　
《2008 IBM Rational 软件开发高峰论坛会议》小记 antonyup_2006 软件测试敏捷开发项目管理 IBM 活动
我一直想写些总结,用于交流和备忘,然都没提笔,今以一篇参加活动的感受小记开个头,呵呵! 其实参加《2008 IBM Rational 软件开发高峰论坛会议》是9月4号,那天刚好调休.但接着项目颇为忙,所以今天在中秋佳节的假期里整理了下. 参加这次活动是一个朋友给的一个邀请书,才知道有这样的一个活动,虽然现在项目暂时没用到IBM的解决方案,但觉的参与这样一个活动可以拓宽下视野和相关知识.
PL/SQL的过程编程,异常,声明变量,PL/SQL块百合不是茶 PL/SQL的过程编程异常 PL/SQL块声明变量
PL/SQL; 过程; 符号; 变量; PL/SQL块; 输出; 异常; PL/SQL 是过程语言(Procedural Language)与结构化查询语言(SQL)结合而成的编程语言PL/SQL 是对 SQL 的扩展,sql的执行时每次都要写操作
Mockito(三)--完整功能介绍 bijian1013 持续集成 mockito 单元测试
mockito官网：http://code.google.com/p/mockito/，打开documentation可以看到官方最新的文档资料。一.使用mockito验证行为 //首先要import Mockito import static org.mockito.Mockito.*; //mo
精通Oracle10编程SQL(8)使用复合数据类型 bijian1013 oracle 数据库 plsql
/* *使用复合数据类型 */ --PL/SQL记录 --定义PL/SQL记录 --自定义PL/SQL记录 DECLARE TYPE emp_record_type IS RECORD( name emp.ename%TYPE, salary emp.sal%TYPE, dno emp.deptno%TYPE ); emp_
【Linux常用命令一】grep命令 bit1129 Linux常用命令
grep命令格式 grep [option] pattern [file-list] grep命令用于在指定的文件(一个或者多个,file-list)中查找包含模式串(pattern)的行,[option]用于控制grep命令的查找方式。 pattern可以是普通字符串，也可以是正则表达式，当查找的字符串包含正则表达式字符或者特
mybatis3入门学习笔记白糖_ sql ibatis qq jdbc 配置管理
MyBatis 的前身就是iBatis，是一个数据持久层(ORM)框架。 MyBatis 是支持普通 SQL 查询，存储过程和高级映射的优秀持久层框架。MyBatis对JDBC进行了一次很浅的封装。以前也学过iBatis，因为MyBatis是iBatis的升级版本，最初以为改动应该不大，实际结果是MyBatis对配置文件进行了一些大的改动，使整个框架更加方便人性化。
Linux 命令神器：lsof 入门 ronin47 lsof
lsof是系统管理/安全的尤伯工具。我大多数时候用它来从系统获得与网络连接相关的信息，但那只是这个强大而又鲜为人知的应用的第一步。将这个工具称之为lsof真实名副其实，因为它是指“列出打开文件（lists openfiles）”。而有一点要切记，在Unix中一切（包括网络套接口）都是文件。有趣的是，lsof也是有着最多
java实现两个大数相加，可能存在溢出。 bylijinnan java实现
import java.math.BigInteger; import java.util.regex.Matcher; import java.util.regex.Pattern; public class BigIntegerAddition { /** * 题目：java实现两个大数相加，可能存在溢出。 * 如123456789 + 987654321
Kettle学习资料分享，附大神用Kettle的一套流程完成对整个数据库迁移方法 Kai_Ge Kettle
Kettle学习资料分享 Kettle 3.2 使用说明书目录概述..........................................................................................................................................7 1.Kettle 资源库管
[货币与金融]钢之炼金术士 comsci 金融
自古以来,都有一些人在从事炼金术的工作.........但是很少有成功的那么随着人类在理论物理和工程物理上面取得的一些突破性进展...... 炼金术这个古老
Toast原来也可以多样化 dai_lm android toast
Style 1：默认 Toast def = Toast.makeText(this, "default", Toast.LENGTH_SHORT); def.show(); Style 2：顶部显示 Toast top = Toast.makeText(this, "top", Toast.LENGTH_SHORT); t
java数据计算的几种解决方法3 datamachine java hadoop ibatis r-langue r
4、iBatis 简单敏捷因此强大的数据计算层。和Hibernate不同，它鼓励写SQL，所以学习成本最低。同时它用最小的代价实现了计算脚本和JAVA代码的解耦，只用20%的代价就实现了hibernate 80%的功能,没实现的20%是计算脚本和数据库的解耦。复杂计算环境是它的弱项，比如：分布式计算、复杂计算、非数据
向网页中插入透明Flash的方法和技巧 dcj3sjt126com html Web Flash
将 Flash 作品插入网页的时候，我们有时候会需要将它设为透明，有时候我们需要在Flash的背面插入一些漂亮的图片，搭配出漂亮的效果……下面我们介绍一些将Flash插入网页中的一些透明的设置技巧。　　一、Swf透明、无坐标控制　　首先教大家最简单的插入Flash的代码，透明，无坐标控制：　　注意wmode="transparent"是控制Flash是否透明
ios UICollectionView的使用 dcj3sjt126com
UICollectionView的使用有两种方法，一种是继承UICollectionViewController，这个Controller会自带一个UICollectionView；另外一种是作为一个视图放在普通的UIViewController里面。个人更喜欢第二种。下面采用第二种方式简单介绍一下UICollectionView的使用。 1.UIViewController实现委托，代码如
Eos平台java公共逻辑蕃薯耀 Eos平台java公共逻辑 Eos平台 java公共逻辑
Eos平台java公共逻辑 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月1日 17:20:4
SpringMVC4零配置--Web上下文配置【MvcConfig】 hanqunfeng springmvc4
与SpringSecurity的配置类似，spring同样为我们提供了一个实现类WebMvcConfigurationSupport和一个注解@EnableWebMvc以帮助我们减少bean的声明。 applicationContext-MvcConfig.xml  <
解决ie和其他浏览器poi下载excel文件名乱码 jackyrong Excel
使用poi,做传统的excel导出，然后想在浏览器中，让用户选择另存为，保存用户下载的xls文件，这个时候，可能的是在ie下出现乱码（ie,9,10,11),但在firefox,chrome下没乱码，因此必须综合判断，编写一个工具类： /** * * @Title: pro
挥洒泪水的青春 lampcy 编程生活程序员
2015年2月28日，我辞职了，离开了相处一年的触控，转过身--挥洒掉泪水，毅然来到了兄弟连，背负着许多的不解、质疑——”你一个零基础、脑子又不聪明的人，还敢跨行业，选择Unity3D？“，”真是不自量力••••••“，”真是初生牛犊不怕虎•••••“，••••••我只是淡淡一笑，拎着行李----坐上了通向挥洒泪水的青春之地——兄弟连！这就是我青春的分割线，不后悔，只会去用泪水浇灌——已经来到
稳增长之中国股市两点意见-----严控做空，建立涨跌停版停牌重组机制 nannan408
对于股市，我们国家的监管还是有点拼的，但始终拼不过飞流直下的恐慌，为什么呢？笔者首先支持股市的监管。对于股市越管越荡的现象，笔者认为首先是做空力量超过了股市自身的升力，并且对于跌停停牌重组的快速反应还没建立好，上市公司对于股价下跌没有很好的利好支撑。我们来看美国和香港是怎么应对股灾的。美国是靠禁止重要股票做空，在
动态设置iframe高度(iframe高度自适应) Rainbow702 JavaScript iframe contentDocument 高度自适应局部刷新
如果需要对画面中的部分区域作局部刷新，大家可能都会想到使用ajax。但有些情况下，须使用在页面中嵌入一个iframe来作局部刷新。对于使用iframe的情况，发现有一个问题，就是iframe中的页面的高度可能会很高，但是外面页面并不会被iframe内部页面给撑开，如下面的结构： <div id="content"> <div id=&quo
用Rapael做图表 tntxia rap
function drawReport(paper,attr,data){ var width = attr.width; var height = attr.height; var max = 0; &nbs
HTML5 bootstrap2网页兼容（支持IE10以下） xiaoluode html5 bootstrap
<!DOCTYPE html> <html> <head lang="zh-CN"> <meta charset="UTF-8"> <meta http-equiv="X-UA-Compatible" content="IE=edge">

人工智能知识全面讲解：垃圾邮件克星——朴素贝叶斯算法

你可能感兴趣的:(人工智能,算法,机器学习)