人生如梦幻泡影

数据挖掘十大经典算法（转存）

一、C4.5

C4.5 算法是机器学习算法中的一种分类决策树算法,其核心算法是 ID3 算法。

C4.5 算法继承了 ID3 算法的优点，并在以下几方面对 ID3 算法进行了改进：

1) 用信息增益率来选择属性，克服了用信息增益选择属性时偏向选择取值多的属性的不足；

2) 在树构造过程中进行剪枝；

3) 能够完成对连续属性的离散化处理；

4) 能够对不完整数据进行处理。

C4.5 算法有如下优点：产生的分类规则易于理解，准确率较高。其缺点是：在构造树的过程

中，需要对数据集进行多次的顺序扫描和排序，因而导致算法的低效。

1、机器学习中，决策树是一个预测模型；他代表的是对象属性与对象值之间的一种映射关

系。树中每个节点表示某个对象，而每个分叉路径则代表的某个可能的属性值，而每个叶结

点则

对应从根节点到该叶节点所经历的路径所表示的对象的值。决策树仅有单一输出，若欲有复

数输出，可以建立独立的决策树以处理不同输出。

2、从数据产生决策树的机器学习技术叫做决策树学习, 通俗说就是决策树。

3、决策树学习也是数据挖掘中一个普通的方法。在这里，每个决策树都表述了一种树型结

构，他由他的分支来对该类型的对象依靠属性进行分类。每个决策树可以依靠对源数据库的

分割进行数据测试。这个过程可以递归式的对树进行修剪。当不能再进行分割或一个单独的

类可以被应用于某一分支时，递归过程就完成了。另外，随机森林分类器将许多决策树结合

起来以提升分类的正确率。

决策树是如何工作的？

1、决策树一般都是自上而下的来生成的。

2、选择分割的方法有好几种，但是目的都是一致的：对目标类尝试进行最佳的分割。

3、从根到叶子节点都有一条路径，这条路径就是一条―规则

4、决策树可以是二叉的，也可以是多叉的。

对每个节点的衡量：

1) 通过该节点的记录数

2) 如果是叶子节点的话，分类的路径

3) 对叶子节点正确分类的比例。

有些规则的效果可以比其他的一些规则要好。

由于 ID3 算法在实际应用中存在一些问题，于是 Quilan 提出了 C4。5 算法，严格上说 C4。5

只能是 ID3 的一个改进算法。

C4.5 算法继承了 ID3 算法的优点，并在以下几方面对 ID3 算法进行了改进：

1) 用信息增益率来选择属性，克服了用信息增益选择属性时偏向选择取值多的属性的不足；

2) 在树构造过程中进行剪枝；

3) 能够完成对连续属性的离散化处理；

4) 能够对不完整数据进行处理。

C4.5 算法有如下优点：产生的分类规则易于理解，准确率较高。其缺点是：在构造树的过程

中，需要对数据集进行多次的顺序扫描和排序，因而导致算法的低效。此外，C4.5 只适合于

能够驻留于内存的数据集，当训练集大得无法在内存容纳时程序无法运行。来自搜索的其

他内容：

C4.5 算法是机器学习算法中的一种分类决策树算法,其核心算法是 ID3 算法。分类决策树算

法是从大量事例中进行提取分类规则的自上而下的决策树。决策树的各部分是:

根: 学习的事例集。

枝: 分类的判定条件。

叶: 分好的各个类。

ID3 算法

1、概念提取算法 CLS

1) 初始化参数 C={E},E 包括所有的例子,为根。

2) IF C 中的任一元素 e 同属于同一个决策类则创建一个叶子节点 YES 终止。

ELSE 依启发式标准,选择特征 Fi={V1,V2,V3,．．．Vn}并创建判定节点

划分 C 为互不相交的 N 个集合 C1,C2,C3,．．．,Cn；

3) 对任一个 Ci 递归。

2、ID3 算法

1) 随机选择 C 的一个子集 W (窗口)。

2) 调用 CLS 生成 W 的分类树 DT(强调的启发式标准在后)。

3) 顺序扫描 C 搜集 DT 的意外(即由 DT 无法确定的例子)。

4) 组合 W 与已发现的意外,形成新的 W。

5) 重复 2)到 4),直到无例外为止。

启发式标准:

只跟本身与其子树有关,采取信息理论用熵来量度。

熵是选择事件时选择自由度的量度,其计算方法为

P = freq(Cj,S)/|S|;

INFO(S)= - SUM( P*LOG(P) ) ;

SUM()函数是求 j 从 1 到 n 和。

Gain(X)=Info(X)-Infox(X);

Infox(X)=SUM( (|Ti|/|T|)*Info(X);

为保证生成的决策树最小,ID3 算法在生成子树时,选取使生成的子树的熵(即 Gain(S))最小的

的特征来生成子树。

3、ID3 算法对数据的要求

1）所有属性必须为离散量。

2）所有的训练例的所有属性必须有一个明确的值。

3）相同的因素必须得到相同的结论且训练例必须唯一。

C4.5 对 ID3 算法的改进:

1、熵的改进,加上了子树的信息

Split_Infox(X)= - SUM( (|T|/|Ti| ) *LOG(|Ti|/|T|) );

Gain ratio(X)= Gain(X)/Split Infox(X);

2、在输入数据上的改进

1) 因素属性的值可以是连续量,C4。5 对其排序并分成不同的集合后按照 ID3 算法当作离

散量进行处理,但结论属性的值必须是离散值。

2）训练例的因素属性值可以是不确定的,以?表示,但结论必须是确定的

3）对已生成的决策树进行裁剪,减小生成树的规模。

二、k-means

术语“k-means”最早是由 James MacQueen 在 1967 年提出的，这一观点可以追溯到 1957 年 Hugo

Steinhaus 所提出的想法。1957 年，斯图亚特·劳埃德最先提出这一标准算法，当初是作为一

门应用于脉码调制的技术,直到 1982 年，这一算法才在贝尔实验室被正式提出。1965 年， E。

W。Forgy 发表了一个本质上是相同的方法，1975 年和 1979 年，Hartigan 和 Wong 分别提出了

一个更高效的版本。

算法描述

输入：簇的数目 k；包含 n 个对象的数据集 D。

输出：k 个簇的集合。

方法：

从 D 中任意选择 k 个对象作为初始簇中心；

repeat;

根据簇中对象的均值，将每个对象指派到最相似的簇；

更新簇均值，即计算每个簇中对象的均值；

计算准则函数；

until 准则函数不再发生变化。

算法的性能分析

1、优点

（1）k-平均算法是解决聚类问题的一种经典算法，算法简单、快速。

（2）对处理大数据集，该算法是相对可伸缩的和高效率的，因为它的复杂度大约是 O（nkt），

其中 n 是所有对象的数目，k 是簇的数目,t 是迭代的次数。通常 k<

最优结束。

（3）算法尝试找出使平方误差函数值最小的 k 个划分。当簇是密集的、球状或团状的，而簇

与簇之间区别明显时，它的聚类效果很好。

2、缺点

（1）k-平均方法只有在簇的平均值被定义的情况下才能使用，不适用于某些应用，如涉及有

分类属性的数据不适用。

（2）要求用户必须事先给出要生成的簇的数目 k。

（3）对初值敏感，对于不同的初始值，可能会导致不同的聚类结果。

（4）不适合于发现非凸面形状的簇，或者大小差别很大的簇。

（5）对于"噪声"和孤立点数据敏感，少量的该类数据能够对平均值产生极大影响。

算法的改进

针对算法存在的问题，对 K-means 算法提出一些改进：

一是数据预处理，

二是初始聚类中心选择，

三是迭代过程中聚类种子的选择。

1、首先对样本数据进行正规化处理，这样就能防止某些大值属性的数据左右样本间的距离。

给定一组含有 n 个数据的数据集，每个数据含有 m 个属性，分别计算每一个属性的均值、标准

差对每条数据进行标准化。

3、其次，初始聚类中心的选择对最后的聚类效果有很大的影响，原 K-means 算法是随机选取

k 个数据作为聚类中心，而聚类的结果要是同类间尽可能相似，不同类间尽可能相异，所以初

始聚类中心的选取要尽可能做到这一点。采用基于距离和的孤立点定义来进行孤立点的预先筛

选，并利用两两数据之间的最大距离在剩余数据集合中寻找初始聚类中心。但对于实际数据，

孤立点个数往往不可预知。在选择初始聚类中心时，先将孤立点纳入统计范围，在样本中计算

对象两两之间的距离，选出距离最大的两个点作为两个不同类的聚类中心，接着从其余的样本

对象中找出已经选出来的所有聚类中心的距离和最大的点为另一个聚类中心，直到选出 k 个聚

类中心。这样做就降低了样本输入顺序对初始聚类中心选择的影响。

聚类中心选好以后，就要进行不断的迭代计算，在 K-means 算法中，是将聚类均值点(类中所

有数据的几何中心点)作为新的聚类种子进行新一轮的聚类计算，在这种情况下，新的聚类种

子可能偏离真正的数据密集区，从而导致偏差，特别是在有孤立点存在的情况下，有很大的局

限性。在选择初始中心点时，由于将孤立点计算在内，所以在迭代过程中要避免孤立点的影响。

这里根据聚类种子的计算时，采用簇中那些与第 k-1 轮聚类种子相似度较大的数据，计算他们

的均值点作为第 k 轮聚类的种子，相当于将孤立点排除在外，孤立点不参与聚类中心的计算，

这样聚类中心就不会因为孤立点的原因而明显偏离数据集中的地方。在计算聚类中心的时候，

要运用一定的算法将孤立点排除在计算均值点那些数据之外，这里主要采用类中与聚类种子相

似度大于某一阈值的数据组成每个类的一个子集，计算子集中的均值点作为下一轮聚类的聚类

种子。为了能让更多的数据参与到聚类中心的计算种去，阈值范围要包含大多数的数据。在第

k-1 轮聚类获得的类，计算该类中所有数据与该类聚类中心的平均距离 S,选择类中与聚类种子

相似度大于 2S 的数据组成每个类的一个子集，以此子集的均值点作为第 k 轮聚类的聚类种子。

在数据集中无论是否有明显的孤立点存在，两倍的平均距离都能包含大多数的数据。

对孤立点的改进—基于距离法经典 k 均值算法中没有考虑孤立点。所谓孤立点都是基于距离的,

是数据 U 集中到 U 中最近邻居的距离最大的对象, 换言之, 数据集中与其最近邻居的平均距离

最大的对象。针对经典 k 均值算法易受孤立点的影响这一问题, 基于距离法移除孤立点, 具体

过程如下:首先扫描一次数据集, 计算每一个数据对象与其临近对象的距离, 累加求其距离和,

并计算出距离和均值。如果某个数据对象的距离和大于距离和均值, 则视该点为孤立点。把这

个对象从数据集中移除到孤立点集合中, 重复直到所有孤立点都找到。最后得到新的数据集就

是聚类的初始集合。对随机选取初始聚类中心的改进经典 k 均值算法随机选取 k 个点作为初

始聚类中心进行操作。由于是随机选取, 则变化较大, 初始点选取不同, 获得聚类的结果也不

同。并且聚类分析得到的聚类的准确率也不一样。对 k 均值算法的初始聚类中心选择方法—随

机法进行改进, 其依据是聚类过程中相同聚类中的对象是相似的, 相异聚类中的对象是不相

似的。因此提出了一种基于数据对象两两间的距离来动态寻找并确定初始聚类中心的思路, 具

体过程如下:

首先整理移除孤立点后的数据集 U,记录数据个数 y,令 m=1。比较数据集中所有数据对象两两

之间的距离。找出距离最近的 2 个数据对象形成集合 Am;比较 Am 中每一个数据对象与数据对

象集合 U 中每一个对象的距离,在 U 中找出与 Am 中最近的数据对象,优先吸收到 Am 中,直到

Am 中的数据对象个数到达一定数值,然后令 m=m+1。再从 U 中找到对象两两间距离最近的 2 个

数据对象构成 Am,重复上面的过程,直到形成 k 个对象集合。这些集合内部的数据是相似的,而

集合间是相异的。可以看出,这种聚类方法同时满足以下 2 个条件:①每个组至少包含一个数

据对象; ②每个数据对象必须属于且仅属于一个组。即数据对象 Xi ∈Ai ,且 U={{A1 ∪A2

∪…∪Ak} ∪A0} ,且 Ai ∩Aj =Φ。最后对 k 个对象集合分别进行算术平均,形成 k 个初始聚

类中心。

近似的 k 平均算法已经被设计用于原始数据子集的计算。从算法的表现上来说，它并不保证

一定得到全局最优解，最终解的质量很大程度上取决于初始化的分组。由于该算法的速度很快，

因此常用的一种方法是多次运行 k 平均算法，选择最优解。

k 平均算法的一个缺点是，分组的数目 k 是一个输入参数，不合适的 k 可能返回较差的结果。

另外，算法还假设均方误差是计算群组分散度的最佳参数。

三、Svm

支持向量机，英文为 Support Vector Machine，简称 SV 机（论文中一般简称 SVM）。它

是一种监督式学习的方法，它广泛的应用于统计分类以及回归分析中。支持向量机属于一般化

线性分类器。他们也可以认为是提克洛夫规范化（Tikhonov Regularization）方法的一个特

例。这族分类器的特点是他们能够同时最小化经验误差与最大化几何边缘区。因此支持向量机

也被称为最大边缘区分类器。在统计计算中，最大期望（EM）算法是在概率（probabilistic）

模型中寻找参数最大似然估计的算法，其中概率模型依赖于无法观测的隐藏变量

（Latent Variabl）。最大期望经常用在机器学习和计算机视觉的数据集聚（Data

Clustering）领域。

最大期望算法经过两个步骤交替进行计算：

第一步是计算期望（E），也就是将隐藏变量象能够观测到的一样包含在内从而计算最大似

然的期望值；另外一步是最大化（M），也就是最大化在 E 步上找到的最大似然的期望值从

而计算参数的最大似然估计。M 步上找到的参数然后用于另外一个 E 步计算，这个过程不

断交替进行。

Vapnik 等人在多年研究统计学习理论基础上对线性分类器提出了另一种设计最佳准则。其

原理也从线性可分说起，然后扩展到线性不可分的情况。甚至扩展到使用非线性函数中去，

这种分类器被称为支持向量机(Support Vector Machine,简称 SVM)。支持向量机的提出有

很深的理论背景。支持向量机方法是在近年来提出的一种新方法。

SVM 的主要思想可以概括为两点：

(1) 它是针对线性可分情况进行分析，对于线性不可分的情况，通过使用非线性映射算法将

低维输入空间线性不可分的样本转化为高维特征空间使其线性可分，从而使得高维特征空间

采用线性算法对样本的非线性特征进行线性分析成为可能；

(2) 它基于结构风险最小化理论之上在特征空间中建构最优分割超平面，使得学习器得到全

局最优化,并且在整个样本空间的期望风险以某个概率满足一定上界。在学习这种方法时，

首先要弄清楚这种方法考虑问题的特点，这就要从线性可分的最简单情况讨论起，在没有弄

懂其原理之前，不要急于学习线性不可分等较复杂的情况，支持向量机。在设计时，需要用

到条件极值问题的求解，因此需用拉格朗日乘子理论，但对多数人来说，以前学到的或常用

的是约束条件为等式表示的方式，但在此要用到以不等式作为必须满足的条件，此时只要了

解拉格朗日理论的有关结论就行。

介绍

支持向量机将向量映射到一个更高维的空间里，在这个空间里建立有一个最大间隔超平面。

在分开数据的超平面的两边建有两个互相平行的超平面。分隔超平面使两个平行超平面的距

离最大化。假定平行超平面间的距离或差距越大，分类器的总误差越小。一个极好的指南是

C。J。C Burges 的《模式识别支持向量机指南》。van der Walt 和 Barnard 将支持向

量机和其他分类器进行了比较。

动机

有很多个分类器(超平面）可以把数据分开，但是只有一个能够达到最大分割。我们通常希

望分类的过程是一个机器学习的过程。这些数据点并不需要是中的点，而可以是任意(统计

学符号)中或者(计算机科学符号)的点。我们希望能够把这些点通过一个 n-1 维的超平面分

开，通常这个被称为线性分类器。有很多分类器都符合这个要求，但是我们还希望找到分类

最佳的平面，即使得属于两个不同类的数据点间隔最大的那个面，该面亦称为最大间隔超平

面。如果我们能够找到这个面，那么这个分类器就称为最大间隔分类器。

四、Apriori

Apriori 算法是种最有影响的挖掘布尔关联规则频繁项集的算法。它的核心是基于两阶段频

集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。在这里，所有支

持度大于最小支持度的项集称为频繁项集(简称频集)，也常称为最大项目集。

在 Apriori 算法中，寻找最大项目集(频繁项集)的基本思想是：算法需要对数据集进行多步

处理。第一步，简单统计所有含一个元素项目集出现的频数，并找出那些不小于最小支持度

的项目集，即一维最大项目集。从第二步开始循环处理直到再没有最大项目集生成。循环过

程是：第 k 步中，根据第 k-1 步生成的(k-1)维最大项目集产生 k 维侯选项目集，然后对数

据库进行搜索，得到侯选项目集的项集支持度，与最小支持度进行比较，从而找到 k 维最大

项目集。

从算法的运行过程，我们可以看出该 Apriori 算法的优点：简单、易理解、数据要求低，然

而我们也可以看到 Apriori 算法的缺点：

(1)在每一步产生侯选项目集时循环产生的组合过多，没有排除不应该参与组合的元素;

(2)每次计算项集的支持度时，都对数据库 D 中的全部记录进行了一遍扫描比较，如果是一

个大型的数据库的话，这种扫描比较会大大增加计算机系统的 I/O 开销。而这种代价是随着

数据库的记录的增加呈现出几何级数的增加。因此人们开始寻求更好性能的算法，如 F-P

算法。

五、EM

最大期望算法（Expectation-maximization algorithm，又译期望最大化算法）在统计中被

用于寻找，依赖于不可观察的隐性变量的概率模型中，参数的最大似然估计。

在统计计算中，最大期望（EM）算法是在概率模型中寻找参数最大似然估计或者最大后验估

计的算法，其中概率模型依赖于无法观测的隐藏变量（Latent Variable）。最大期望经常

用在机器学习和计算机视觉的数据聚类（Data Clustering）领域。最大期望算法经过两个

步骤交替进行计算，第一步是计算期望（E），利用对隐藏变量的现有估计值，计算其最大

似然估计值；第二步是最大化（M），最大化在 E 步上求得的最大似然值来计算参数的值。

M 步上找到的参数估计值被用于下一个 E 步计算中，这个过程不断交替进行。M 是一个在

已知部分相关变量的情况下，估计未知变量的迭代技术。

EM 的算法流程如下：

1、初始化分布参数

2、重复直到收敛：

3、E 步骤：估计未知参数的期望值，给出当前的参数估计。

4、M 步骤：重新估计分布参数，以使得数据的似然性最大，给出未知变量的期望估计。

六、PageRank

PageRank，网页排名，又称网页级别、Google 左侧排名或佩奇排名，是一种由搜索引擎根

据网页之间相互的超链接计算的技术，而作为网页排名的要素之一，以 Google 公司创办人

拉里·佩奇（Larry Page）之姓来命名。Google 用它来体现网页的相关性和重要性，在搜

索引擎优化操作中是经常被用来评估网页优化的成效因素之一。Google 的创始人拉里·佩

奇和谢尔盖·布林于 1998 年在斯坦福大学发明了这项技术。

PageRank 通过网络浩瀚的超链接关系来确定一个页面的等级。Google 把从 A 页面到 B 页面

的链接解释为 A 页面给 B 页面投票，Google 根据投票来源（甚至来源的来源，即链接到 A

页面的页面）和投票目标的等级来决定新的等级。简单的说，一个高等级的页面可以使其他

低等级页面的等级提升。

PageRank 让链接来"投票"，一个页面的“得票数”由所有链向它的页面的重要性来决定，

到一个页面的超链接相当于对该页投一票。一个页面的 PageRank 是由所有链向它的页面

（“链入页面”）的重要性经过递归算法得到的。一个有较多链入的页面会有较高的等级，

相反如果一个页面没有任何链入页面，那么它没有等级。

2005 年初，Google 为网页链接推出一项新属性 nofollow，使得网站管理员和网志作者可以

做出一些 Google 不计票的链接，也就是说这些链接不算作"投票"。nofollow 的设置可以抵

制垃圾评论。

Google 工具条上的 PageRank 指标从 0 到 10。它似乎是一个对数标度算法，细节未知。

PageRank 是 Google 的商标，其技术亦已经申请专利。PageRank 算法中的点击算法是由 Jon

Kleinberg 提出的。

PageRank 算法

1、PageRank

基本思想：如果网页 T 存在一个指向网页 A 的连接，则表明 T 的所有者认为 A 比较重要，从

而把 T 的一部分重要性得分赋予 A。这个重要性得分值为：PR（T）/C(T)

其中 PR（T）为 T 的 PageRank 值，C(T)为 T 的出链数，则 A 的 PageRank 值为一系列类似于

T 的页面重要性得分值的累加。

优点：是一个与查询无关的静态算法，所有网页的 PageRank 值通过离线计算获得；有效减

少在线查询时的计算量，极大降低了查询响应时间。

不足：人们的查询具有主题特征，PageRank 忽略了主题相关性，导致结果的相关性和主题

性降低；另外，PageRank 有很严重的对新网页的歧视。

2、Topic-Sensitive PageRank（主题敏感的 PageRank）

基本思想：针对 PageRank 对主题的忽略而提出。核心思想：通过离线计算出一个 PageRank

向量集合，该集合中的每一个向量与某一主题相关，即计算某个页面关于不同主题的得分。

主要分为两个阶段：主题相关的 PageRank 向量集合的计算和在线查询时主题的确定。

优点：根据用户的查询请求和相关上下文判断用户查询相关的主题（用户的兴趣）返回查询

结果准确性高。

不足：没有利用主题的相关性来提高链接得分的准确性。

3、Hilltop

基本思想：与 PageRank 的不同之处：仅考虑专家页面的链接。主要包括两个步骤：专家页

面搜索和目标页面排序。

优点：相关性强，结果准确。

不足：专家页面的搜索和确定对算法起关键作用，专家页面的质量决定了算法的准确性，而

专家页面的质量和公平性难以保证；忽略了大量非专家页面的影响，不能反应整个 Internet

的民意；当没有足够的专家页面存在时，返回空，所以 Hilltop 适合对于查询排序进行求

精。

影响 google PageRank 的因素有?

1 与 pr 高的网站做链接:

2 内容质量高的网站链接

3 加入搜索引擎分类目录

4 加入免费开源目录

5 你的链接出现在流量大、知名度高、频繁更新的重要网站上

6 google 对 DPF 格式的文件比较看重。

7 安装 Google 工具条

8 域名和 tilte 标题出现关键词与 meta 标签等

9 反向连接数量和反向连接的等级

10 Google 抓取您网站的页面数量

11 导出链接数量

七、AdaBoost

AdaBoost，是英文"Adaptive Boosting"（自适应增强）的缩写，是一种机器学习方法，由

Yoav Freund 和 Robert Schapire 提出。

AdaBoost 方法的自适应在于：前一个分类器分错的样本会被用来训练下一个分类器。

AdaBoost 方法对于噪声数据和异常数据很敏感。但在一些问题中，AdaBoost 方法相对于大

多数其它学习算法而言，不会很容易出现过拟合现象。

AdaBoost 方法中使用的分类器可能很弱（比如出现很大错误率），但只要它的分类效果比

随机好一点（比如两类问题分类错误率略小于 0。5），就能够改善最终得到的模型。而错

误率高于随机分类器的弱分类器也是有用的，因为在最终得到的多个分类器的线性组合中，

可以给它们赋予负系数，同样也能提升分类效果。

AdaBoost 方法是一种迭代算法，在每一轮中加入一个新的弱分类器，直到达到某个预定的

足够小的错误率。每一个训练样本都被赋予一个权重，表明它被某个分类器选入训练集的概

率。如果某个样本点已经被准确地分类，那么在构造下一个训练集中，它被选中的概率就被

降低；相反，如果某个样本点没有被准确地分类，那么它的权重就得到提高。通过这样的方

式，AdaBoost 方法能“聚焦于”那些较难分（更富信息）的样本上。

在具体实现上，最初令每个样本的权重都相等，对于第 k 次迭代操作，我们就根据这些权重

来选取样本点，进而训练分类器 Ck。然后就根据这个分类器，来提高被它分错的的样本的

权重，并降低被正确分类的样本权重。然后，权重更新过的样本集被用于训练下一个分类器

Ck[2]。整个训练过程如此迭代地进行下去。

Adaboost 算法的具体步骤如下：

1、给定训练样本集,其中,分别对应于正例样本和负例样本；为训练的最大循环次数；

2、初始化样本权重，即为训练样本的初始概率分布；

3、第一次迭代：

(1) 训练样本的概率分布下，训练弱分类器：

(2) 计算弱分类器的错误率：

(3) 选取，使得最小

(4) 更新样本权重：

(5) 最终得到的强分类器：

Adaboost 算法是经过调整的 Boosting 算法，其能够对弱学习得到的弱分类器的错误进行适

应性调整。上述算法中迭代了次的主循环，每一次循环根据当前的权重分布对样本 x 定一个

分布 P，然后对这个分布下的样本使用若学习算法得到一个错误率为的弱分类器，对于这个

算法定义的弱学习算法，对所有的，都有，而这个错误率的上限并不需要事先知道，实际上。

每一次迭代，都要对权重进行更新。更新的规则是：减小弱分类器分类效果较好的数据的概

率，增大弱分类器分类效果较差的数据的概率。最终的分类器是个弱分类器的加权平均。

八、KNN

1、K 最近邻(k-Nearest Neighbor，KNN)分类算法，是一个理论上比较成熟的方法，也是

最简单的机器学习算法之一。该方法的思路是：如果一个样本在特征空间中的 k 个最相似(即

特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。

2、KNN 算法中，所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻

近的一个或者几个样本的类别来决定待分样本所属的类别。KNN 方法虽然从原理上也依赖于

极限定理，但在类别决策时，只与极少量的相邻样本有关。由于 KNN 方法主要靠周围有限的

邻近的样本，而不是靠判别类域的方法来确定所属类别的，因此对于类域的交叉或重叠较多

的待分样本集来说，KNN 方法较其他方法更为适合。

3、KNN 算法不仅可以用于分类，还可以用于回归。通过找出一个样本的 k 个最近邻居，将

这些邻居的属性的平均值赋给该样本，就可以得到该样本的属性。更有用的方法是将不同距

离的邻居对该样本产生的影响给予不同的权值(weight)，如权值与距离成正比。

4、该算法在分类时有个主要的不足是，当样本不平衡时，如一个类的样本容量很大，而其

他类样本容量很小时，有可能导致当输入一个新样本时，该样本的 K 个邻居中大容量类的样

本占多数。因此可以采用权值的方法（和该样本距离小的邻居权值大）来改进。该方法的另

一个不足之处是计算量较大，因为对每一个待分类的文本都要计算它到全体已知样本的距

离，才能求得它的 K 个最近邻点。目前常用的解决方法是事先对已知样本点进行剪辑，事先

去除对分类作用不大的样本。该算法比较适用于样本容量比较大的类域的自动分类，而那些

样本容量较小的类域采用这种算法比较容易产生误分。

算法分类过程如下：

1、首先我们事先定下 k 值（就是指 k 近邻方法的 k 的大小，代表对于一个待分类的数据点，

我们要寻找几个它的邻居）。这边为了说明问题，我们取两个 k 值，分别为 3 和 9；

2、根据事先确定的距离度量公式（如：欧氏距离），得出待分类数据点和所有已知类别的

样本点中，距离最近的 k 个样本。

3、统计这 k 个样本点中，各个类别的数量。根据 k 个样本中，数量最多的样本是什么类别，

我们就把这个数据点定为什么类别。训练样本是多维特征空间向量，其中每个训练样本带有

一个类别标签。算法的训练阶段只包含存储的特征向量和训练样本的标签。在分类阶段，k

是一个用户定义的常数。一个没有类别标签的向量（查询或测试点）将被归类为最接近该

点的 K 个样本点中最频繁使用的一类。一般情况下，将欧氏距离作为距离度量，但是这是只

适用于连续变量。在文本分类这种非连续变量情况下，另一个度量——重叠度量（或海明距

离）可以用来作为度量。

通常情况下，如果运用一些特殊的算法来计算度量的话，K 近邻分类精度可显著提高，如运

用大边缘最近邻法或者近邻成分分析法。“多数表决”分类的一个缺点是出现频率较多的样

本将会主导测试点的预测结果，那是因为他们比较大可能出现在测试点的 K 邻域而测试点的

属性又是通过 K 领域内的样本计算出来的。解决这个缺点的方法之一是在进行分类时将样本

到测试点的距离考虑进去。

K 值的选择

如何选择一个最佳的 K 值取决于数据。一般情况下，在分类时较大的 K 值能够减小噪声的影

响。但会使类别之间的界限变得模糊。一个较好的 K 值能通过各种启发式技术来获取，比如，

交叉验证。

噪声和非相关性特征向量的存在会使 K 近邻算法的准确性减小。对于选择特征向量进行分类

已经作了很多研究。一个普遍的做法是利用进化算法优化功能扩展[3]，还有一种较普遍的

方法是利用训练样本的互信息进行选择特征。

K 近邻算法也适用于连续变量估计，比如适用反距离加权平均多个 K 近邻点确定测试点的值。

该算法的功能有：

1、从目标区域抽样计算欧式或马氏距离；

2、在交叉验证后的 RMSE 基础上选择启发式最优的 K 邻域；

3、计算多元 k-最近邻居的距离倒数加权平均。

九、Naive Baye

贝叶斯分类的基础是概率推理，就是在各种条件的存在不确定，仅知其出现概率的情况下，

如何完成推理和决策任务。概率推理是与确定性推理相对应的。而朴素贝叶斯分类器是基于

独立假设的，即假设样本每个特征与其他特征都不相关。举个例子，如果一种水果其具有红，

圆，直径大概 4 英寸等特征，该水果可以被判定为是苹果。

尽管这些特征相互依赖或者有些特征由其他特征决定，然而朴素贝叶斯分类器认为这些属性

在判定该水果是否为苹果的概率分布上独立的。朴素贝叶斯分类器依靠精确的自然概率模

型，在有监督学习的样本集中能获取得非常好的分类效果。在许多实际应用中，朴素贝叶斯

模型参数估计使用最大似然估计方法，换而言之朴素贝叶斯模型能工作并没有用到贝叶斯概

率或者任何贝叶斯模型。

尽管是带着这些朴素思想和过于简单化的假设，但朴素贝叶斯分类器在很多复杂的现实情形

中仍能够取得相当好的效果。2004 年，一篇分析贝叶斯分类器问题的文章揭示了朴素贝叶

斯分类器取得看上去不可思议的分类效果的若干理论上的原因。尽管如此，2006 年有一篇

文章详细比较了各种分类方法，发现更新的方法（如 boosted trees 和随机森林）的性能超

过了贝叶斯分类器。朴素贝叶斯分类器的一个优势在于只需要根据少量的训练数据估计出必

要的参数（变量的均值和方差）。由于变量独立假设，只需要估计各个变量的方法，而不需

要确定整个协方差矩阵。

两种分类模型：

分类是将一个未知样本分到几个预先已知类的过程。数据分类问题的解决是一个两步过程：

第一步,建立一个模型，描述预先的数据集或概念集。通过分析由属性描述的样本（或实例，

对象等）来构造模型。假定每一个样本都有一个预先定义的类，由一个被称为类标签的属性

确定。为建立模型而被分析的数据元组形成训练数据集，该步也称作有指导的学习。在众多

的分类模型中，应用最为广泛的两种分类模型是：决策树模型(Decision Tree Model)和朴

素贝叶斯模型（Naive Bayesian Model，NBC）；决策树模型通过构造树来解决分类问题。

1、首先利用训练数据集来构造一棵决策树，一旦树建立起来，它就可为未知样本产生一个

分类。在分类问题中使用决策树模型有很多的优点，决策树便于使用，而且高效；根据决策

树可以很容易地构造出规则，而规则通常易于解释和理解；决策树可很好地扩展到大型数据

库中，同时它的大小独立于数据库的大小；决策树模型的另外一大优点就是可以对有许多属

性的数据集构造决策树。决策树模型也有一些缺点，比如处理缺失数据时的困难，过度拟合

问题的出现，以及忽略数据集中属性之间的相关性等。

2、和决策树模型相比，朴素贝叶斯模型发源于古典数学理论，有着坚实的数学基础，以及

稳定的分类效率。同时，NBC 模型所需估计的参数很少，对缺失数据不太敏感，算法也比较

简单。理论上，NBC 模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此，

这是因为 NBC 模型假设属性之间相互独立，这个假设在实际应用中往往是不成立的，这给

NBC 模型的正确分类带来了一定影响。在属性个数比较多或者属性之间相关性较大时，NBC

模型的分类效率比不上决策树模型。而在属性相关性较小时，NBC 模型的性能最为良好。

贝叶斯分类器特点

1、需要知道先验概率

先验概率是计算后验概率的基础。在传统的概率理论中，先验概率可以由大量的重复实验所

获得的各类样本出现的频率来近似获得，其基础是“大数定律”，这一思想称为“频率主义”。

而在称为“贝叶斯主义”的数理统计学派中，他们认为时间是单向的，许多事件的发生不具

有可重复性，因此先验概率只能根据对置信度的主观判定来给出，也可以说由“信仰”来确

定。

2、按照获得的信息对先验概率进行修正

在没有获得任何信息的时候，如果要进行分类判别，只能依据各类存在的先验概率，将样本

划分到先验概率大的一类中。而在获得了更多关于样本特征的信息后，可以依照贝叶斯公式

对先验概率进行修正，得到后验概率，提高分类决策的准确性和置信度。

3、分类决策存在错误率

由于贝叶斯分类是在样本取得某特征值时对它属于各类的概率进行推测，并无法获得样本真

实的类别归属情况，所以分类决策一定存在错误率，即使错误率很低，分类错误的情况也可

能发生。

十、CART

分类回归树(CART,Classification And Regression Tree)也属于一种决策树，分类回归树

是一棵二叉树，且每个非叶子节点都有两个孩子，所以对于第一棵子树其叶子节点数比非叶

子节点数多 1。

决策树生长的核心是确定决策树的分枝准则。

1、如何从众多的属性变量中选择一个当前的最佳分支变量；

也就是选择能使异质性下降最快的变量。

异质性的度量：GINI、TWOING、least squared deviation。

前两种主要针对分类型变量，LSD 针对连续性变量。

代理划分、加权划分、先验概率

2、如何从分支变量的众多取值中找到一个当前的最佳分割点（分割阈值）。

(1) 分割阈值：

A、数值型变量——对记录的值从小到大排序，计算每个值作为临界点产生的子节点的异

质性统计量。能够使异质性减小程度最大的临界值便是最佳的划分点。

B、分类型变量——列出划分为两个子集的所有可能组合，计算每种组合下生成子节点的

异质性。同样，找到使异质性减小程度最大的组合作为最佳划分点。

在决策树的每一个节点上我们可以按任一个属性的任一个值进行划分。按哪种划分最好呢？

有 3 个标准可以用来衡量划分的好坏：GINI 指数、双化指数、有序双化指数。

终止条件：

一个节点产生左右孩子后，递归地对左右孩子进行划分即可产生分类回归树。这里的终止条

件是什么？什么时候节点就可以停止分裂了？

满足以下一个即停止生长。

（1）节点达到完全纯性；

（2）数树的深度达到用户指定的深度；

（3）节点中样本的个数少于用户指定的个数；

（4）异质性指标下降的最大幅度小于用户指定的幅度。

剪枝

当分类回归树划分得太细时，会对噪声数据产生过拟合作用。因此我们要通过剪枝来解决。

剪枝又分为前剪枝和后剪枝：前剪枝是指在构造树的过程中就知道哪些节点可以剪掉，于是

干脆不对这些节点进行分裂，在 N 皇后问题和背包问题中用的都是前剪枝，上面的χ2 方法

也可以认为是一种前剪枝；后剪枝是指构造出完整的决策树之后再来考查哪些子树可以剪

掉。

在分类回归树中可以使用的后剪枝方法有多种，比如：代价复杂性剪枝、最小误差剪枝、悲

观误差剪枝等等。这里我们只介绍代价复杂性剪枝法。

预测

回归树——预测值为叶节点目标变量的加权均值

分类树——某叶节点预测的分类值应是造成错判损失最小的分类值。

你可能感兴趣的:(算法,算法)

异步编程中的并发编程优化 AI天才研究院架构师必知必会系列自然语言处理人工智能语言模型编程实践开发语言架构设计
文章目录1.简介2.基本概念术语说明什么是异步编程？为什么要异步编程？浅谈异步编程模型基于事件驱动的模型基于消息队列的模型基于协程的模型为什么要进行并发优化？3.基本算法原理和具体操作步骤1.串行执行2.并行执行3.任务分片4.超时重试5.异步回调6.消息队列7.缓存8.异步框架9.模型选择4.具体代码实例和解释说明模块划分1.串行执行2.并行执行3.任务分片4.超时重试5.异步回调6.消息队列7
算法训练（leetcode）第四十六天 | 110. 字符串接龙、105. 有向图的完全可达性、106. 岛屿的周长 Star Patrick 刷题日记算法 leetcode 职场和发展
刷题记录*110.字符串接龙105.有向图的完全可达性邻接矩阵邻接表106.岛屿的周长深搜简化代码*110.字符串接龙题目地址使用广搜。本题相当于求最短路径，因此使用广搜。如何应用广搜是一个难点，因为题目给的是字符串而非图的表示（邻接矩阵、邻接表），因此需要自行构建连接关系。题目要求每一步只能修改一个字符，因此从起始字符串开始，对字符串中的每一个字符进行修改，修改后在输入的字符串列表中查找是否存在
Java架构师成长之路 hweiyu00 分享 spring 微服务 spring cloud java
概述本教程主要从6个方面，全面讲解Java技术栈的知识。1.性能调优深入理解MySQL底层原理、索引逻辑，数据结构与算法。使用Explain进行优化分析MVCC原理剖析日志机制解析2.框架源码掌握Spring底层原理带你手写一个Spring解析IOC、AOP源码、以及事务原理3.并发编程剖析Java底层锁机制CAS、JUC工具使用、AQS源码分析以及并发的集合类的讲解4.分布式开发剖析分布式中使用
笔记：代码随想录算法训练营day60：并查集理论基础、寻找存在的路径 jingjingjing1111 笔记
本文为学习并查集理论基础|代码随想录、代码随想录过程中的思考find是找的顶头上司，而不是当前上司，最后怎么也得找到一个顶头上司的上司是自己，要不然这个结构也不成立使用issame替换会使被操作者为当前节点，而非根节点。join(u,v)的功能为将v的根节点挂到u的根节点下模拟过程可以看出，join中的find中的路径压缩要在长度大于2（路径大于1）的时候才会体现出来107.寻找存在的路径卡码网题
【Matlab光伏功率预测】基于RF随机森林算法的多变量光伏功率预测（附MATLAB代码）天天科研工作室光伏功率预测算法 matlab 随机森林机器学习
【Matlab光伏功率预测】基于RF随机森林算法的多变量光伏功率预测（附MATLAB代码）文章目录【Matlab光伏功率预测】基于RF随机森林算法的多变量光伏功率预测（附MATLAB代码）文章介绍基本步骤代码分享运行结果参考资料文章介绍随机森林可以应用于光伏功率预测，这是一项重要的任务，旨在估计光伏发电系统的输出功率。光伏功率预测在可再生能源管理、电网调度和能源计划等领域具有广泛的应用。随机森林回
Golang算法（二）数据结构小烧卖算法 GO语言
数据结构栈队列双向链表二叉搜索树红黑树栈typeStackstruct{head*Node}typeNodestruct{datainterface{}next*Node}funcNewStack()*Stack{s:=&Stack{head:&Node{data:nil,next:&Node{},},}returns}func(s*Stack)Push(datainterface{}){n:=&
某人想将手中的一张面值100元的人民币换成10元、5元、2元和1元面值的票子。要求换正好40张，且每种票子至少一张。问：有几种换法？（C语言）热心市民小汪代码练习 C语言 c语言学习 java
一、首先分析题目有两点1、总和是100元。2、一共分为四十张且每种至少有一张。二、思路分析。10元的为s张，5元的为w张，2元的为e张，1元的为y张。n为有几种换算法首先，每个至少有一张a>=1,b>=1,c>=1,d>=1。#includeintmain(){inttotal;for(ints=1;s<=10;s++){for(intw=1;w<=20;w++){for(inte=1;e<=40
震惊！ “深度学习”都在学习什么扉间798 深度学习学习人工智能
常见的机器学习分类算法俗话说三个臭皮匠胜过诸葛亮这里面集成学习就是将单一的算法弱弱结合算法融合用投票给特征值加权重AdaBoost集成学习算法通过迭代训练一系列弱分类器，给予分类错误样本更高权重，使得后续弱分类器更关注这些样本，然后将这些弱分类器线性组合成强分类器，提高整体分类性能。（一）投票机制投票是一种直观且常用的算法融合策略。在多分类问题中，假设有多个分类器对同一数据进行分类判断。每个分类器
【论文阅读】Availability Attacks Create Shortcuts 开心星人论文阅读论文阅读
还得重复读这一篇论文，有些地方理解不够透彻可用性攻击通过在训练数据中添加难以察觉的扰动，使数据无法被机器学习算法利用，从而防止数据被未经授权地使用。例如，一家私人公司未经用户同意就收集了超过30亿张人脸图像，用于构建商业人脸识别模型。为解决这些担忧，许多数据投毒攻击被提出，以防止数据被未经授权的深度模型学习。它们通过在训练数据中添加难以察觉的扰动，使模型无法从数据中学习太多信息，从而导致模型在未见
最新智能优化算法：贪婪个体优化算法（Greedy Man Optimization Algorithm，GMOA）求解23个经典函数测试集，MATLAB代码 IT猿手 MATLAB 智能优化算法算法 matlab 开发语言人工智能智能优化算法
一、贪婪个体优化算法贪婪个体优化算法（GreedyManOptimizationAlgorithm，GMOA）是HamedNozari与HosseinAbdi于2024年提出的一种新型受生物启发的元启发式算法，它模拟了抵抗变化的竞争个体的行为。GMOA引入了两个独特的机制：MMO抵抗机制，防止过早替换解；周期性寄生虫清除机制，促进多样性并避免停滞。该算法旨在解决传统优化算法中的过早收敛和缺乏多样性
2025最新智能优化算法：改进型雪雁算法（Improved Snow Geese Algorithm, ISGA）求解23个经典函数测试集荣华富贵8 程序员的知识储备1 程序员的知识储备2 程序员的知识储备3 经验分享
摘要随着智能优化算法的不断发展，解决高维、复杂的优化问题已成为研究的重要课题。雪雁算法（SnowGeeseAlgorithm,SGA）作为一种新兴的自然启发式优化算法，以其高效的全局搜索能力受到了广泛关注。然而，雪雁算法在处理多峰、多约束和高维复杂问题时，仍面临收敛速度较慢和易陷入局部最优解的问题。为此，本文提出了一种改进型雪雁算法（ISGA），通过引入自适应权重调整机制和混合局部搜索策略，增强了
代码随想录算法训练营Day10 | Leetcode 150逆波兰表达式求值、239滑动窗口最大值、 347前 K 个高频元素 Dominic_Holmes leetcode python 算法数据结构
代码随想录算法训练营Day10|Leetcode150逆波兰表达式求值、239滑动窗口最大值、347前K个高频元素一、反转字符串相关题目：Leetcode150文档讲解：Leetcode150视频讲解：Leetcode1501.Leetcode150.逆波兰表达式求值给你一个字符串数组tokens，表示一个根据逆波兰表示法表示的算术表达式。请你计算该表达式。返回一个表示表达式值的整数。注意：有效的
LeetCode算法题(Go语言实现)_07 LuckyLay Golang学习笔记算法 leetcode 职场和发展 golang
题目给你一个整数数组nums，返回数组answer，其中answer[i]等于nums中除nums[i]之外其余各元素的乘积。题目数据保证数组nums之中任意元素的全部前缀元素和后缀的乘积都在32位整数范围内。请不要使用除法，且在O(n)时间复杂度内完成此题。一、代码实现funcproductExceptSelf(nums[]int)[]int{n:=len(nums)answer:=make([
机器学习：让计算机学会思考的艺术平凡而伟大. 机器学习机器学习人工智能
目录什么是机器学习？机器学习的基本步骤常见的机器学习算法机器学习的实际应用如何入门机器学习？结语在当今数字化时代，机器学习（MachineLearning,ML）已经成为一个炙手可热的话题。从推荐系统到自动驾驶汽车，再到语音助手，机器学习的应用无处不在。然而，对于许多人来说，机器学习仍然是一个神秘而复杂的领域。本文将用通俗易懂的语言，带你走进机器学习的世界，了解它的基本原理和应用。什么是机器学习？
机器学习中的 K-均值聚类算法及其优缺点平凡而伟大. 机器学习机器学习算法均值算法
K-均值聚类是一种常用的无监督学习算法，用于将数据集中的样本分成K个簇。其基本原理是将所有样本点划分到K个簇使得簇内样本点之间的距离尽可能接近，而不同簇之间的距离尽可能远。算法流程如下：随机选择K个样本点作为初始的聚类中心。将每个样本点分配到与其最近的聚类中心所在的簇。更新每个簇的聚类中心为该簇所有样本点的平均值。重复第2步和第3步，直到聚类中心不再变化或者达到最大迭代次数。优点：简单且易于实现。
使用 NetworkX 进行图论分析与可视化 aiweker 跟我学python 图论 python
使用NetworkX进行图论分析与可视化NetworkX是一个用于创建、操作和研究复杂网络的Python库。它提供了丰富的图论算法和数据结构，适用于各种网络分析任务。本文将分点介绍NetworkX的主要功能，并通过代码示例进行详细说明。1.安装NetworkX在开始使用NetworkX之前，首先需要安装它。可以通过pip进行安装：pipinstallnetworkx2.创建图NetworkX支持多
流浪地球 - 华为OD机试真题(E卷、Java) 什码情况华为od java 数据结构算法面试机试
针对刷题难，效率慢，我们提供一对一算法辅导，针对个人情况定制化的提高计划（全称1V1效率更高）。有兴趣的同学可以扫码添加我们的微信（code5bug）了解，免费试课一下。题目描述流浪地球计划在赤道上均匀部署了N个转向发动机，按位置顺序编号为0~N。1).初始状态下所有的发动机都是未启动状态;2).发动机启动的方式分为”手动启动”和”关联启动”两种方式;3).如果在时刻1一个发动机被启动，下一个时刻
MATLAB的function函数的使用晚风微凉～ matlab 开发语言
在工程应用中，我们经常会遇到算法的计算较为复杂，很多算法的过程重复次数过多的问题，针对这个问题我们可以考虑使用function函数简化代码编写的工作量。1、单个传参在使用function的函数时，我们首先需要定义function函数的结构；function[输出参数]=函数名（输入参数）%注释：function函数的使用一般是比较多的，因此需要注意注释的编写，避免后期工作的误导；主要代码：****
TCP三次握手与四次挥手（全网最易懂保姆级教程）秋‍. JAVA 网络服务器运维 java tcp/ip 三次握手
一、前置知识准备1.TCP协议特性-面向连接：通信前需要建立专用通道-可靠传输：通过确认机制保证数据可达-全双工通信：双方可同时发送数据-流量控制：滑动窗口机制-拥塞控制：慢启动算法2.关键概念说明|术语|说明||------------|----------------------------------------------------------------------||**SYN**|
三维点云重建的原理及代码晚风微凉～ matlab 图像处理
点云重建是将来自各种传感器（如激光雷达、相机等）采集的离散点云数据转换为具有结构和几何形状的物体模型的过程。在这个过程中，算法的核心任务是从大量的离散点中提取出具有几何意义的特征，并将这些特征组合成相应的物体模型。在实际应用中，无法获得物体所有表面的三维坐标数据，因此点云重建算法必须处理部分点云数据，尽可能准确地还原物体的几何结构。点云重建的目标是通过对描述物体表面形状的点数据进行处理，根据它们的
使用AIOps进行更好的事件管理茵赛飞3D CAD数据转换软件 pagerduty devops 人工智能运维
DevOps为科技界带来了更加协作和高效的工作流程。随着AIOps的集成，自动化更进一步，使用人工智能为团队提供更快的根本原因分析和算法降噪。主要从采用AIOps中受益的主要领域之一是事件管理。AIOps可以帮助DevOps团队自动化工作流程，以实现更智能、更高效的事件管理，从而腾出时间让IT运营团队成员专注于创新以改善用户体验。在本文中，我们将了解AIOps如何从检测和识别到响应改进事件管理，以
实时光线追踪技术：Ray Tracing_2024-07-21_02-55-16.Tex chenjj4003 游戏开发 python 算法人工智能矩阵线性代数骨骼绑定开发语言
实时光线追踪技术：RayTracing实时光线追踪技术教程基础知识光线追踪原理光线追踪是一种渲染技术，它通过模拟光线在场景中的传播和反射来生成图像。在实时光线追踪中，这一过程被优化以在有限的时间内完成，通常用于游戏和实时动画。其核心原理是逆向追踪，即从观察者（摄像机）发出光线，而不是从光源发出，这样可以减少计算量。示例：光线追踪的基本算法#Python示例代码，展示如何计算光线与场景中物体的交点c
图像质量评价学习笔记02：IQA模型性能评价指标（PLCC、SROCC、KROCC、RMSE）可靠的豆包蟹同志图像质量评估IQA 图像处理计算机视觉人工智能算法
性能好的图像质量评价（IQA）算法，其质量评测分数会与主观质量分数高度一致，IQA有许多评价指标，为了衡量方法测试结果与主观评价之间的一致性，视频质量专家组VQEG（VideoQualityExpertsGroup，目前国际上对视频质量进行标准化及性能测试的权威组织）提出了四个可以验证客观评价结果和主观评价结果之间的紧密程度的四个指标：PLCC、SROCC、KROCC和RMSE，也是目前最常用的I
X.509数字证书的签名和指纹汽车通信技术【付费专栏】车载以太网协议数字证书
X.509是一种非常普遍的数字证书标准，由国际电信联盟（ITU）制定。它定义了证书的格式和一种验证证书有效性的方法。X.509证书的结构遵循特定的语法和编码规则，通常使用ASN.1(AbstractSyntaxNotationOne)进行描述和编码。一个典型的X.509证书通常包含：版本、序列号、签名算法、颁发者、有效期、使用者、公钥、签名、指纹等。其中，版本号表示证书是哪个版本的，不同版本的数字
访问者模式【行为模式C++】 GoWjw 设计模式访问者模式
1.概述访问者模式是一种行为设计模式，它能将算法与其所作用的对象隔离开来。访问者模式主要解决的是数据与算法的耦合问题，尤其是在数据结构比较稳定，而算法多变的情况下。为了不污染数据本身，访问者会将多种算法独立归档，并在访问数据时根据数据类型自动切换到对应的算法，实现数据的自动响应机制，并确保算法的自由扩展。访问者模式在实际开发中使用的非常少，因为它比较难以实现并且应用该模式肯能会导致代码的可读性变差
策略模式烟沙九洲设计模式策略模式 java
策略（Strategy）模式属于行为型模式的一种。策略模式的核心思想是定义一系列算法，将每个算法封装起来，并使它们可以互换。策略模式让算法独立于使用它的客户而变化，从而实现了算法族的独立扩展和替换。策略模式指在一个方法中，某些关键步骤的算法依赖调用方传入的策略，传入不同的策略，即可获得不同的结果，大大增强了系统的灵活性。策略模式的核心思想是在一个计算方法中把容易变化的算法抽出来作为“策略”参数传进
模板方法模式烟沙九洲设计模式模板方法模式 java
模板方法（TemplateMethod）模式属于行为型模式的一种。模板方法模式定义了一个操作中的算法骨架，并将一些步骤延迟到子类中实现。模板方法模式的核心思想是：父类定义骨架，子类实现某些细节。模板方法模式允许子类在不改变算法结构的情况下，重新定义算法中的某些特定步骤。Java标准库有很多模板方法模式的应用。比如集合类中的AbstractList、AbstractQueuedSynchronize
【论文复现】——基于SIFT特征点结合ICP的点云配准方法点云侠点云配准专题开发语言计算机视觉算法 3d c++
目录一、论文概述二、代码实现三、结果展示1、初始位置2、配准结果四、实验心得一、论文概述在点云配准过程中，针对迭代最近点(ICP)算法对点云初始位置依赖性强且迭代速度慢的问题，提出一种基于尺度不变特征变换(SIFT)特征点结合ICP的点云配准方法。首先利用SIFT算法提取待配准点云和目标点云的特征点;接着计算出特征点的快速点特征直方图(FPFH)特征;然后依据该特征使用采样一致性初始配准(SA
数字签名与数字证书 TABE_ 计算机网络数字签名数字证书
这里写目录标题数字签名数字证书数字证书的原理数字证书的特点如何验证证书机构的公钥不是伪造的数字签名数字签名是非对称密钥加密技术与数字摘要技术的应用，数字签名就是用加密算法加密报文文本的摘要（摘要通过hash函数得到）而生成的内容。发送报文时，发送方用一个哈希函数从报文文本中生成报文摘要，然后用发送方的私钥对这个摘要进行加密生成数字签名，之后将数字签名和报文一起发送给接收方，即数字证书。接收方首先用
零基础入门机器学习：用Scikit-learn实现鸢尾花分类藍海琴泉机器学习 scikit-learn 分类
适合人群：机器学习新手|数据分析爱好者|需快速展示案例的学生一、引言：为什么要学这个案例？目的：明确机器学习解决什么问题，建立学习信心。机器学习定义：让计算机从数据中自动学习规律（如分类鸢尾花品种）。为什么选鸢尾花数据集：数据量小、特征明确，适合教学演示。Scikit-learn优势：提供现成算法和工具，无需从头写数学公式。二、环境准备：5分钟快速上手目的：搭建可运行的代码环境，避免卡在工具安装环
插入表主键冲突做更新 a-john
有以下场景：用户下了一个订单，订单内的内容较多，且来自多表，首次下单的时候，内容可能会不全（部分内容不是必须，出现有些表根本就没有没有该订单的值）。在以后更改订单时，有些内容会更改，有些内容会新增。问题：如果在sql语句中执行update操作，在没有数据的表中会出错。如果在逻辑代码中先做查询，查询结果有做更新，没有做插入，这样会将代码复杂化。解决： mysql中提供了一个sql语
Android xml资源文件中@、@android:type、@*、？、@+含义和区别 Cb123456 @+@?@*
一.@代表引用资源 1.引用自定义资源。格式：@[package:]type/name android：text="@string/hello" 2.引用系统资源。格式：@android:type/name android:textColor="@android:color/opaque_red"
数据结构的基本介绍天子之骄数据结构散列表树、图线性结构价格标签
数据结构的基本介绍数据结构就是数据的组织形式，用一种提前设计好的框架去存取数据，以便更方便，高效的对数据进行增删查改。正确选择合适的数据结构，对软件程序的高效执行的影响作用不亚于算法的设计。此外，在计算机系统中数据结构的作用也是非同小可。例如常常在编程语言中听到的栈，堆等，就是经典的数据结构。经典的数据结构大致如下：一：线性数据结构 (1)：列表 a
通过二维码开放平台的API快速生成二维码一炮送你回车库 api
现在很多网站都有通过扫二维码用手机连接的功能，联图网(http://www.liantu.com/pingtai/)的二维码开放平台开放了一个生成二维码图片的Api,挺方便使用的。闲着无聊，写了个前台快速生成二维码的方法。 html代码如下:(二维码将生成在这div下) ? 1 &nbs
ImageIO读取一张图片改变大小 3213213333332132 java IO image BufferedImage
package com.demo; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imageio.ImageIO; /** * @Description 读取一张图片改变大小 * @author FuJianyon
myeclipse集成svn（一针见血） 7454103 eclipse SVN MyEclipse
&n
装箱与拆箱----autoboxing和unboxing darkranger J2SE
4.2　自动装箱和拆箱基本数据(Primitive)类型的自动装箱(autoboxing)、拆箱(unboxing)是自J2SE 5.0开始提供的功能。虽然为您打包基本数据类型提供了方便，但提供方便的同时表示隐藏了细节，建议在能够区分基本数据类型与对象的差别时再使用。 4.2.1　autoboxing和unboxing 在Java中，所有要处理的东西几乎都是对象(Object)
ajax传统的方式制作ajax aijuans Ajax
//这是前台的代码 <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <% String path = request.getContextPath(); String basePath = request.getScheme()+
只用jre的eclipse是怎么编译java源文件的？ avords java eclipse jdk tomcat
eclipse只需要jre就可以运行开发java程序了，也能自动编译java源代码，但是jre不是java的运行环境么，难道jre中也带有编译工具？还是eclipse自己实现的？谁能给解释一下呢问题补充：假设系统中没有安装jdk or jre，只在eclipse的目录中有一个jre，那么eclipse会采用该jre，问题是eclipse照样可以编译java源文件，为什么呢？ &nb
前端模块化 bee1314 模块化
背景：前端JavaScript模块化，其实已经不是什么新鲜事了。但是很多的项目还没有真正的使用起来，还处于刀耕火种的野蛮生长阶段。 JavaScript一直缺乏有效的包管理机制，造成了大量的全局变量，大量的方法冲突。我们多么渴望有天能像Java（import），Python (import)，Ruby(require)那样写代码。在没有包管理机制的年代，我们是怎么避免所
处理百万级以上的数据处理 bijian1013 oracle sql 数据库大数据查询
一.处理百万级以上的数据提高查询速度的方法： 1.应尽量避免在 where 子句中使用!=或<>操作符，否则将引擎放弃使用索引而进行全表扫描。 2.对查询进行优化，应尽量避免全表扫描，首先应考虑在 where 及 o
mac 卸载 java 1.7 或更高版本征客丶 java OS
卸载 java 1.7 或更高 sudo rm -rf /Library/Internet\ Plug-Ins/JavaAppletPlugin.plugin 成功执行此命令后，还可以执行 java 与 javac 命令 sudo rm -rf /Library/PreferencePanes/JavaControlPanel.prefPane 成功执行此命令后，还可以执行 java
【Spark六十一】Spark Streaming结合Flume、Kafka进行日志分析 bit1129 Stream
第一步，Flume和Kakfa对接，Flume抓取日志，写到Kafka中第二部，Spark Streaming读取Kafka中的数据，进行实时分析本文首先使用Kakfa自带的消息处理（脚本）来获取消息，走通Flume和Kafka的对接 1. Flume配置 1. 下载Flume和Kafka集成的插件，下载地址：https://github.com/beyondj2ee/f
Erlang vs TNSDL bookjovi erlang
TNSDL是Nokia内部用于开发电信交换软件的私有语言，是在SDL语言的基础上加以修改而成，TNSDL需翻译成C语言得以编译执行，TNSDL语言中实现了异步并行的特点，当然要完整实现异步并行还需要运行时动态库的支持，异步并行类似于Erlang的process（轻量级进程），TNSDL中则称之为hand，Erlang是基于vm(beam)开发，
非常希望有一个预防疲劳的java软件, 预防过劳死和眼睛疲劳,大家一起努力搞一个 ljy325 企业应用
　非常希望有一个预防疲劳的java软件，我看新闻和网站，国防科技大学的科学家累死了，太疲劳，老是加班，不休息，经常吃药，吃药根本就没用，根本原因是疲劳过度。我以前做java,那会公司垃圾，老想赶快学习到东西跳槽离开，搞得超负荷，不明理。深圳做软件开发经常累死人，总有不明理的人，有个软件提醒限制很好，可以挽救很多人的生命。相关新闻：（1）IT行业成五大疾病重灾区：过劳死平均37.9岁
读《研磨设计模式》-代码笔记-原型模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * Effective Java 建议使用copy constructor or copy factory来代替clone()方法： * 1.public Product copy(Product p){} * 2.publi
配置管理---svn工具之权限配置 chenyu19891124 SVN
今天花了大半天的功夫，终于弄懂svn权限配置。下面是今天收获的战绩。安装完svn后就是在svn中建立版本库，比如我本地的是版本库路径是C:\Repositories\pepos。pepos是我的版本库。在pepos的目录结构 pepos component webapps 在conf里面的auth里赋予的权限配置为 [groups]
浅谈程序员的数学修养 comsci 设计模式编程算法面试招聘
浅谈程序员的数学修养
批量执行 bulk collect与forall用法 daizj oracle sql bulk collect forall
BULK COLLECT 子句会批量检索结果，即一次性将结果集绑定到一个集合变量中，并从SQL引擎发送到PL/SQL引擎。通常可以在SELECT INTO、 FETCH INTO以及RETURNING INTO子句中使用BULK COLLECT。本文将逐一描述BULK COLLECT在这几种情形下的用法。有关FORALL语句的用法请参考：批量SQL之 F
Linux下使用rsync最快速删除海量文件的方法 dongwei_6688 OS
1、先安装rsync：yum install rsync 2、建立一个空的文件夹：mkdir /tmp/test 3、用rsync删除目标目录：rsync --delete-before -a -H -v --progress --stats /tmp/test/ log/这样我们要删除的log目录就会被清空了，删除的速度会非常快。rsync实际上用的是替换原理，处理数十万个文件也是秒删。
Yii CModel中rules验证规格 dcj3sjt126com rules yii validate
Yii cValidator主要用法分析： yii验证rulesit 分类： Yii yii的rules验证 cValidator主要属性 attributes ,builtInValidators,enableClientValidation,message,on,safe,skipOnError
基于vagrant的redis主从实验 dcj3sjt126com vagrant
平台: Mac 工具: Vagrant 系统: Centos6.5 实验目的: Redis主从实现思路制作一个基于sentos6.5, 已经安装好reids的box, 添加一个脚本配置从机, 然后作为后面主机从机的基础box 制作sentos6.5+redis的box mkdir vagrant_redis cd vagrant_
Memcached(二)、Centos安装Memcached服务器 frank1234 centos memcached
一、安装gcc rpm和yum安装memcached服务器连接没有找到，所以我使用的是make的方式安装，由于make依赖于gcc，所以要先安装gcc 开始安装，命令如下，[color=red][b]顺序一定不能出错[/b][/color]：建议可以先切换到root用户，不然可能会遇到权限问题：su root 输入密码...... rpm -ivh kernel-head
Remove Duplicates from Sorted List hcx2013 remove
Given a sorted linked list, delete all duplicates such that each element appear only once. For example,Given 1->1->2, return 1->2.Given 1->1->2->3->3, return&
Spring4新特性——JSR310日期时间API的支持 jinnianshilongnian spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
浅谈enum与单例设计模式 247687009 java 单例
在JDK1.5之前的单例实现方式有两种(懒汉式和饿汉式并无设计上的区别故看做一种)，两者同是私有构造器，导出静态成员变量，以便调用者访问。第一种 package singleton; public class Singleton { //导出全局成员 public final static Singleton INSTANCE = new S
使用switch条件语句需要注意的几点 openwrt c break switch
1. 当满足条件的case中没有break，程序将依次执行其后的每种条件（包括default）直到遇到break跳出 int main() { int n = 1; switch(n) { case 1: printf("--1--\n"); default: printf("defa
配置Spring Mybatis JUnit测试环境的应用上下文 schnell18 spring mybatis JUnit
Spring-test模块中的应用上下文和web及spring boot的有很大差异。主要试下来差异有：单元测试的app context不支持从外部properties文件注入属性 @Value注解不能解析带通配符的路径字符串解决第一个问题可以配置一个PropertyPlaceholderConfigurer的bean。第二个问题的具体实例是：
Java 定时任务总结一 tuoni java spring timer quartz timertask
Java定时任务总结一.从技术上分类大概分为以下三种方式： 1.Java自带的java.util.Timer类，这个类允许你调度一个java.util.TimerTask任务; 说明： java.util.Timer定时器，实际上是个线程，定时执行TimerTask类 &
一种防止用户生成内容站点出现商业广告以及非法有害等垃圾信息的方法 yangshangchuan rank 相似度计算文本相似度词袋模型余弦相似度
本文描述了一种在ITEYE博客频道上面出现的新型的商业广告形式及其应对方法，对于其他的用户生成内容站点类型也具有同样的适用性。最近在ITEYE博客频道上面出现了一种新型的商业广告形式，方法如下： 1、注册多个账号（一般10个以上）。 2、从多个账号中选择一个账号，发表1-2篇博文