黑夜路人

[转]详细解释数据挖掘中的 10 大算法

在一份调查问卷中，三个独立专家小组投票选出的十大最有影响力的数据挖掘算法，今天我打算用简单的语言来解释一下。

一旦你知道了这些算法是什么、怎么工作、能做什么、在哪里能找到，我希望你能把这篇博文当做一个跳板，学习更多的数据挖掘知识。

还等什么？这就开始吧！

1.C4.5算法

C4.5是做什么的？C4.5 以决策树的形式构建了一个分类器。为了做到这一点，需要给定 C4.5 表达内容已分类的数据集合。

等下，什么是分类器呢？分类器是进行数据挖掘的一个工具，它处理大量需要进行分类的数据，并尝试预测新数据所属的类别。

举个例子吧，假定一个包含很多病人信息的数据集。我们知道每个病人的各种信息，比如年龄、脉搏、血压、最大摄氧量、家族病史等。这些叫做数据属性。

现在：

给定这些属性，我们想预测下病人是否会患癌症。病人可能会进入下面两个分类：会患癌症或者不会患癌症。 C4.5 算法会告诉我们每个病人的分类。

做法是这样的：

用一个病人的数据属性集和对应病人的反馈类型，C4.5 构建了一个基于新病人属性预测他们类型的决策树。

这点很棒，那么什么是决策树呢？决策树学习是创建一种类似与流程图的东西对新数据进行分类。使用同样的病人例子，一个特定的流程图路径可以是这样的：

病人有癌症的病史
病人有和癌症病人高度相似的基因表达
病人有肿瘤
病人的肿瘤大小超过了5cm

基本原则是：

流程图的每个环节都是一个关于属性值的问题，并根据这些数值，病人就被分类了。你可以找到很多决策树的例子。

算法是监督学习还是无监督学习呢？这是一个监督学习算法，因为训练数据是已经分好类的。使用分好类的病人数据，C4.5算法不需要自己学习病人是否会患癌症。

那 C4.5 算法和决策树系统有什么区别呢？

首先，C4.5 算法在生成信息树的时候使用了信息增益。

其次，尽管其他系统也包含剪枝，C4.5使用了一个单向的剪枝过程来缓解过渡拟合。剪枝给结果带来了很多改进。

再次，C4.5算法既可以处理连续数据也可以处理离散数据。我的理解是，算法通过对连续的数据指定范围或者阈值，从而把连续数据转化为离散的数据。

最后，不完全的数据用算法自有的方式进行了处理。

为什么使用 C4.5算法呢？可以这么说，决策树最好的卖点是他们方便于翻译和解释。他们速度也很快，是种比较流行的算法。输出的结果简单易懂。

哪里可以使用它呢？在 OpenTox 上可以找到一个很流行的开源 Java实现方法。Orange 是一个用于数据挖掘的开源数据可视化和分析工具，它的决策树分类器是用 C4.5实现的。

分类器是很棒的东西，但也请看看下一个聚类算法….

2. k 均值聚类算法

它是做什么的呢？K-聚类算法从一个目标集中创建多个组，每个组的成员都是比较相似的。这是个想要探索一个数据集时比较流行的聚类分析技术。

等下，什么是聚类分析呢？聚类分析属于设计构建组群的算法，这里的组成员相对于非组成员有更多的相似性。在聚类分析的世界里，类和组是相同的意思。

举个例子，假设我们定义一个病人的数据集。在聚类分析里，这些病人可以叫做观察对象。我们知道每个病人的各类信息，比如年龄、血压、血型、最大含氧量和胆固醇含量等。这是一个表达病人特性的向量。

请看：

你可以基本认为一个向量代表了我们所知道的病人情况的一列数据。这列数据也可以理解为多维空间的坐标。脉搏是一维坐标，血型是其他维度的坐标等等。

你可能会有疑问：

给定这个向量集合，我们怎么把具有相似年龄、脉搏和血压等数据的病人聚类呢？

想知道最棒的部分是什么吗？

你告诉 k-means 算法你想要多少种类。K-means 算法会处理后面的部分。

那它是怎么处理的呢？k-means 算法有很多优化特定数据类型的变量。

Kmeans算法更深层次的这样处理问题：

k-means 算法在多维空间中挑选一些点代表每一个 k 类。他们叫做中心点。
每个病人会在这 k 个中心点中找到离自己最近的一个。我们希望病人最靠近的点不要是同一个中心点，所以他们在靠近他们最近的中心点周围形成一个类。
我们现在有 k 个类，并且现在每个病人都是一个类中的一员。
之后k-means 算法根据它的类成员找到每个 k 聚类的中心（没错，用的就是病人信息向量）
这个中心成为类新的中心点。
因为现在中心点在不同的位置上了，病人可能现在靠近了其他的中心点。换句话说，他们可能会修改自己的类成员身份。
重复2-6步直到中心点不再改变，这样类成员也就稳定了。这也叫做收敛性。

这算法是监督的还是非监督的呢？这要看情况了，但是大多数情况下 k-means 会被划分为非监督学习的类型。并不是指定分类的个数，也没有观察对象该属于那个类的任何信息，k-means算法自己“学习”如何聚类。k-means 可以是半监督的。

为什么要使用 k-means 算法呢？我认为大多数人都同意这一点：

k-means 关键卖点是它的简单。它的简易型意味着它通常要比其他的算法更快更有效，尤其是要大量数据集的情况下更是如此。

他可以这样改进：

k-means 可以对已经大量数据集进行预先聚类处理，然后在针对每个子类做成本更高点的聚类分析。k-means 也能用来快速的处理“K”和探索数据集中是否有被忽视的模式或关系。

但用k-means 算法也不是一帆风顺的：

k means算法的两个关键弱点分别是它对异常值的敏感性和它对初始中心点选择的敏感性。最后一个需要记住的是， K-means 算法是设计来处理连续数据的。对于离散数据你需要使用一些小技巧后才能让 K-means 算法奏效。

Kmeans 在哪里使用过呢？网上有很多可获得的 kmeans 聚类算法的语言实现：

▪ Apache Mahout

▪ Julia

▪ R

▪ SciPy

▪ Weka

▪ MATLAB

▪ SAS

如果决策树和聚类算法还没有打动你，那么你会喜欢下一个算法的。

3.支持向量机

它是做什么的呢？支持向量机（SVM）获取一个超平面将数据分成两类。以高水准要求来看，除了不会使用决策树以外，SVM与 C4.5算法是执行相似的任务的。

咦？一个超..什么？超平面（hyperplane）是个函数，类似于解析一条线的方程。实际上，对于只有两个属性的简单分类任务来说，超平面可以是一条线的。

其实事实证明：

SVM 可以使用一个小技巧，把你的数据提升到更高的维度去处理。一旦提升到更高的维度中，SVM算法会计算出把你的数据分离成两类的最好的超平面。

有例子么？当然，举个最简单的例子。我发现桌子上开始就有一堆红球和蓝球，如果这这些球没有过分的混合在一起，不用移动这些球，你可以拿一根棍子把它们分离开。

你看，当在桌上加一个新球时，通过已经知道的棍字的哪一边是哪个颜色的球，你就可以预测这个新球的颜色了。

最酷的部分是什么呢？SVM 算法可以算出这个超平面的方程。

如果事情变得更复杂该怎么办？当然了，事情通常都很复杂。如果球是混合在一起的，一根直棍就不能解决问题了。

下面是解决方案：

快速提起桌子，把所有的球抛向空中，当所有的球以正确的方式抛在空中是，你使用一张很大的纸在空中分开这些球。

你可能会想这是不是犯规了。不，提起桌子就等同于把你的数据映射到了高维空间中。这个例子中，我们从桌子表面的二维空间过度到了球在空中的三维空间。

那么 SVM该怎么做呢？通过使用核函数（kernel），我们在高维空间也有很棒的操作方法。这张大纸依然叫做超平面，但是现在它对应的方程是描述一个平面而不是一条线了。根据 Yuval 的说法，一旦我们在三维空间处理问题，超平面肯定是一个面而不是线了。

关于 SVM的解释思路，Reddit 的 ELI5 和 ML 两个子版块上也有两个很棒的讨论帖。

那么在桌上或者空中的球怎么用现实的数据解释呢？桌上的每个球都有自己的位置，我们可以用坐标来表示。打个比方，一个球可能是距离桌子左边缘20cm 距离底部边缘 50 cm，另一种描述这个球的方式是使用坐标(x,y)或者(20,50)表达。x和 y 是代表球的两个维度。

可以这样理解：如果我们有个病人的数据集，每个病人可以用很多指标来描述，比如脉搏，胆固醇水平，血压等。每个指标都代表一个维度。

基本上，SVM 把数据映射到一个更高维的空间然后找到一个能分类的超平面。

类间间隔(margin)经常会和 SVM 联系起来，类间间隔是什么呢？它是超平面和各自类中离超平面最近的数据点间的距离。在球和桌面的例子中，棍子和最近的红球和蓝球间的距离就是类间间隔(margin)。

SVM 的关键在于，它试图最大化这个类间间隔，使分类的超平面远离红球和蓝球。这样就能降低误分类的可能性。

那么支持向量机的名字是哪里来的？还是球和桌子的例子中，超平面到红球和蓝球的距离是相等的。这些球或者说数据点叫做支持向量，因为它们都是支持这个超平面的。

那这是监督算法还是非监督的呢？SVM 属于监督学习。因为开始需要使用一个数据集让 SVM学习这些数据中的类型。只有这样之后 SVM 才有能力对新数据进行分类。

为什么我们要用 SVM 呢？ SVM 和 C4.5大体上都是优先尝试的二类分类器。根据“没有免费午餐原理”，没有哪一种分类器在所有情况下都是最好的。此外，核函数的选择和可解释性是算法的弱点所在。

在哪里使用 SVM？有什么 SVM 的实现方法，比较流行的是用scikit-learn, MATLAB 和 libsvm实现的这几种。

下面要介绍的算法是我最喜欢的算法之一：

4. Apriori 关联算法

它是做什么的？Apriori算法学习数据的关联规则(association rules)，适用于包含大量事务（transcation）的数据库。

什么是关联规则？关联规则学习是学习数据库中不同变量中的相互关系的一种数据挖掘技术。

举个 Apriori 算法的例子：我们假设有一个充满超市交易数据的数据库，你可以把数据库想象成一个巨大的电子数据表，表里每一行是一个顾客的交易情况，每一列代表不用的货物项。

精彩的部分来了：通过使用 Apriori 算法，我们就知道了同时被购买的货物项，这也叫做关联规则。它的强大之处在于，你能发现相比较其他货物来说，有一些货物更频繁的被同时购买—终极目的是让购物者买更多的东西。这些常被一起购买的货物项被称为项集（itemset）。

举个例子，你大概能很快看到“薯条+蘸酱”和“薯条+苏打水”的组合频繁的一起出现。这些组合被称为2-itemsets。在一个足够大的数据集中，就会很难“看到”这些关系了，尤其当还要处理3-itemset 或者更多项集的时候。这正是 Apriori 可以帮忙的地方！

你可能会对 Apriori 算法如何工作有疑问，在进入算法本质和细节之前，得先明确3件事情：

第一是你的项集的大小，你想看到的模式是2-itemset或3-itemset 还是其他的？
第二是你支持的项集，或者是从事务的总数划分出的事务包含的项集。一个满足支持度的项集叫做频繁项集。
第三是根据你已经统计的项集中某些数据项，计算其他某个数据项出现的信心水准或是条件概率。例如项集中出现的薯片的话，有67%的信心水准这个项集中也会出现苏打水。

基本的 Apriori 算法有三步：

参与，扫描一遍整个数据库，计算1-itemsets 出现的频率。
剪枝，满足支持度和可信度的这些1-itemsets移动到下一轮流程，再寻找出现的2-itemsets。
重复，对于每种水平的项集一直重复计算，知道我们之前定义的项集大小为止。

这个算法是监督的还是非监督的？Apriori 一般被认为是一种非监督的学习方法，因为它经常用来挖掘和发现有趣的模式和关系。

但是，等下，还有呢…对Apriori 算法改造一下也能对已经标记好的数据进行分类。

为什么使用Apriori 算法？它易于理解，应用简单，还有很多的派生算法。

但另一方面…

当生成项集的时候，算法是很耗费内存、空间和时间。

大量的 Apriori 算法的语言实现可供使用。比较流行的是 ARtool, Weka, and Orange。

下一个算法对我来说是最难的，一起来看下吧。

5.EM 最大期望算法 Expectation Maximization

EM 算法是做什么的？在数据挖掘领域，最大期望算法（Expectation-Maximization,EM）一般作为聚类算法（类似 kmeans 算法）用来知识挖掘。

在统计学上，当估算带有无法观测隐藏变量的统计模型参数时,EM 算法不断迭代和优化可以观测数据的似然估计值。

好，稍等让我解释一下…

我不是一个统计学家，所以希望我的简洁表达能正确并能帮助理解。

下面是一些概念，能帮我们更好的理解问题。

什么事统计模型？我把模型看做是描述观测数据是如何生成的。例如，一场考试的分数可能符合一种钟形曲线，因此这种分数分布符合钟形曲线（也称正态分布）的假设就是模型。

等下，那什么是分布？分布代表了对所有可测量结果的可能性。例如，一场考试的分数可能符合一个正态分布。这个正态分布代表了分数的所有可能性。换句话说，给定一个分数，你可以用这个分布来预计多少考试参与者可能会得到这个分数。

这很不错，那模型的参数又是什么呢？作为模型的一部分，分布属性正是由参数来描述的。例如，一个钟形曲线可以用它的均值和方差来描述。

还是使用考试的例子，一场考试的分数分布（可测量的结果）符合一个钟形曲线（就是分布）。均值是85，方差是100.

那么，你描述正态分布需要的所有东西就是这两个参数：

平均值
方差

那么，似然性呢？回到我们之前的钟形曲线例子，假设我们已经拿到很多的分数数据，并被告知分数符合一个钟形曲线。然而，我们并没有给到所有的分数，只是拿到了一个样本。

可以这样做：

我们不知道所有分数的平均值或者方差，但是我们可以使用样本计算它们。似然性就是用估计的方差和平均值得到的钟形曲线在算出很多分数的概率。

换句话说，给定一系列可测定的结果，让我们来估算参数。再使用这些估算出的参数，得到结果的这个假设概率就被称为似然性。

记住，这是已存在分数的假设概率，并不是未来分数的概率。

你可能会疑问，那概率又是什么？

还用钟形曲线的例子解释，假设我们知道均值和方差。然我们被告知分数符合钟形曲线。我们观察到的某些分数的可能性和他们多久一次的被观测到就是概率。

更通俗的讲，给定参数，让我们来计算可以观察到什么结果。这就是概率为我们做的事情。

很好，现在，观测到的数据和未观测到的隐藏数据区别在哪里？观测到的数据就是你看到或者记录的数据。未观测的数据就是遗失的数据。数据丢失的原因有很多（没有记录，被忽视了，等等原因）。

算法的优势是：对于数据挖掘和聚类，观察到遗失的数据的这类数据点对我们来说很重要。我们不知道具体的类，因此这样处理丢失数据对使用 EM 算法做聚类的任务来说是很关键的。

再说一次，当估算带有无法观测隐藏变量的统计模型参数时,EM 算法不断迭代和优化可以观测数据的似然估计值。希望现在再说更容易理解了。

算法的精髓在于：

通过优化似然性，EM 生成了一个很棒的模型，这个模型可以对数据点指定类型标签—听起来像是聚类算法！

EM 算法是怎么帮助实现聚类的呢？EM 算法以对模型参数的猜测开始。然后接下来它会进行一个循环的3步：

E 过程：基于模型参数，它会针对每个数据点计算对聚类的分配概率。
M 过程：基于 E 过程的聚类分配，更新模型参数。
重复知道模型参数和聚类分配工作稳定（也可以称为收敛）。

EM 是监督算法还是非监督算法呢？因为我们不提供已经标好的分类信息，这是个非监督学习算法。

为什么使用它？EM 算法的一个关键卖点就是它的实现简单直接。另外，它不但可以优化模型参数，还可以反复的对丢失数据进行猜测。

这使算法在聚类和产生带参数的模型上都表现出色。在得知聚类情况和模型参数的情况下，我们有可能解释清楚有相同属性的分类情况和新数据属于哪个类之中。

不过EM 算法也不是没有弱点…

第一，EM 算法在早期迭代中都运行速度很快，但是越后面的迭代速度越慢。

第二，EM 算法并不能总是寻到最优参数，很容易陷入局部最优而不是找到全局最优解。

EM 算法实现可以在 Weka中找到，mclust package里面有 R 语言对算法的实现，scikit-learn的gmm module里也有对它的实现。

上一篇中作者解释了 C4.5算法、K 均值聚类算法、支持向量机、Apriori 关联算法、EM 算法，下篇继续解释 PageRank 算法、AdaBoost 迭代算法、kNN 算法、朴素贝叶斯算法、CART 分类算法。

6.PageRank算法

算法是做什么的？PageRank是为了决定一些对象和同网络中的其他对象之间的相对重要程度而设计的连接分析算法(link analysis algorithm)。

那么什么是连接分析算法呢？它是一类针对网络的分析算法，探寻对象间的关系（也可成为连接）。

举个例子：最流行的 PageRank 算法是 Google 的搜索引擎。尽管他们的搜索引擎不止是依靠它，但 PageRank依然是 Google 用来测算网页重要度的手段之一。

解释一下：

万维网上的网页都是互相链接的。如果 Rayli.net 链接到了 CNN 上的一个网页，CNN 网页就增加一个投票，表示 rayli.net 和 CNN 网页是关联的。

这还没有结束：

反过来，来自rayli.net 网页的投票重要性也要根据 rayli.net 网的重要性和关联性来权衡。换句话说，任何给 rayli.net 投票的网页也能提升 rayli.net 网页的关联性。

基本概括一下：

投票和关联性就是 PageRank 的概念。rayli.net 给CNN 投票增加了 CNN 的 Pagerank，rayli.net 的 PageRank级别同时也影响着它为 CNN 投票多大程度影响了CNN 的 PageRank。

那么 PageRank 的0，1，2，3级别是什么意思？尽管 Google 并没有揭露PageRank 的精确含义，我们还是能了解它的大概意思。

我们能通过下面这些网站的PageRank得到些答案：

看到了么？

这排名有点像一个网页流行度的竞争。我们的头脑中都有了一些这些网站的流行度和关联度的信息。

PageRank只是一个特别讲究的方式来定义了这些而已。

PageRank还有什么其他应用呢？ PageRank是专门为了万维网设计的。

可以考虑一下，以核心功能的角度看，PageRank算法真的只是一个处理链接分析极度有效率的方法。处理的被链接的对象不止只是针对网页。

下面是 PageRank3个创新的应用：

芝加哥大学的Dr Stefano Allesina，将 PageRank应用到了生态学中，测定哪个物种对可持续的生态系统至关重要。
Twitter 研究出了一种叫 WTF（Who-to-Follow）算法，这是一种个性化的 PageRank推荐关注人的引擎。
香港理工大学的 Bin Jiang 使用一种变形的PageRank来预测基于伦敦地形指标的行人移动速率。

这算法是监督的还是非监督的？PageRank常用来发现一个网页的重要度关联度，通常被认为是一种非监督学习算法。

为什么使用PageRank？可以说，PageRank的主要卖点是：由于得到新相关链接具有难度，算法依然具有良好的鲁棒性。

更简单一点说，如果你又一个图或者网络，并想理解其中元素的相对重要性，优先性，排名或者相关性，可以用PageRank试一试。

哪里使用过它呢？Google 拥有PageRank 的商标。但是斯坦福大学取得了PageRank 算法的专利权。如果使用 PageRank，你可能会有疑问：我不是律师，所以最好和一个真正的律师确认一下。但是只要和 Google 或斯坦福没有涉及到商业竞争，应该都是可以使用这个算法的。

给出PageRank 的三个实现：

1 C++ OpenSource PageRank Implementation

2 Python PageRank Implementation

3 igraph – The network analysis package (R)

7.AdaBoost 迭代算法

AdaBoost 算法是做什么的？AdaBoost 是个构建分类器的提升算法。

也许你还记得，分类器拿走大量数据，并试图预测或者分类新数据元素的属于的类别。

但是，提升(boost) 指的什么？提升是个处理多个学习算法（比如决策树）并将他们合并联合起来的综合的学习算法。目的是将弱学习算法综合或形成一个组，把他们联合起来创造一个新的强学习器。

强弱学习器之间有什么区别呢？弱学习分类器的准确性仅仅比猜测高一点。一个比较流行的弱分类器的例子就是只有一层的决策树。

另一个，强学习分类器有更高的准确率，一个通用的强学习器的例子就是 SVM。

举个 AdaBoost 算法的例子：我们开始有3个弱学习器，我们将在一个包含病人数据的数据训练集上对他们做10轮训练。数据集里包含了病人的医疗记录各个细节。

问题来了，那我们怎么预测某个病人是否会得癌症呢？AdaBoost 是这样给出答案的：

第一轮，AdaBoost 拿走一些训练数据，然后测试每个学习器的准确率。最后的结果就是我们找到最好的那个学习器。另外，误分类的样本学习器给予一个比较高的权重，这样他们在下轮就有很高的概率被选中了。

再补充一下，最好的那个学习器也要给根据它的准确率赋予一个权重，并将它加入到联合学习器中（这样现在就只有一个分类器了）

第二轮， AdaBoost 再次试图寻找最好的学习器。

关键部分来了，病人数据样本的训练数据现在被有很高误分配率的权重影响着。换句话说，之前误分类的病人在这个样本里有很高的出现概率。

为什么？

这就像是在电子游戏中已经打到了第二级，但当你的角色死亡后却不必从头开始。而是你从第二级开始然后集中注意，尽力升到第三级。

同样地，第一个学习者有可能对一些病人的分类是正确的，与其再度试图对他们分类，不如集中注意尽力处理被误分类的病人。

最好的学习器也被再次赋予权重并加入到联合分类器中，误分类的病人也被赋予权重，这样他们就有比较大的可能性再次被选中，我们会进行过滤和重复。

在10轮结束的时候，我们剩下了一个带着不同权重的已经训练过的联合学习分类器，之后重复训练之前回合中被误分类的数据。

这是个监督还是非监督算法？因为每一轮训练带有已经标记好数据集的弱训练器，因此这是个监督学习。

为什么使用 AdaBoost？AdaBoost算法简单，编程相对来说简洁直白。

另外，它速度快！弱学习器一般都比强学习器简单，简单意味着它们的运行速度可能更快。

还有件事：

因为每轮连续的Adaboost回合都重新定义了每个最好学习器的权重，因此这是个自动调整学习分类器的非常简洁的算法，你所要做的所有事就是指定运行的回合数。

最后，算法灵活通用，AdaBoost 可以加入任何学习算法，并且它能处理多种数据。

AdaBoost 有很多程序实现和变体。给出一些：

▪ scikit-learn

▪ ICSIBoost

▪ gbm: Generalized Boosted Regression Models

如果你喜欢Mr.Rogers,你会喜欢下面的算法的…

8.kNN：k最近邻算法

它是做什么的？kNN，或 K 最近邻(k-Nearest Neighbors), 诗歌分类算法。然而，它和我们之前描述的分类器不同，因为它是个懒散学习法。

什么是懒散学习法呢？和存储训练数据的算法不同，懒散学习法在训练过程中不需要做许多处理。只有当新的未被分类的数据输入时，这类算法才会去做分类。

但在另一方面，积极学习法则会在训练中建立一个分类模型，当新的未分类数据输入时，这类学习器会把新数据也提供给这个分类模型。

那么 C4.5，SVM 和 AdaBoost 属于哪类呢？不像 kNN算法，他们都是积极学习算法。

给出原因：

1 C4.5 在训练中建立了一个决策分类树模型。

2 SVM在训练中建立了一个超平面的分类模型。

3 AdaBoost在训练中建立了一个联合的分类模型。

那么 kNN 做了什么？ kNN 没有建立这样的分类模型，相反，它只是储存了一些分类好的训练数据。那么新的训练数据进入时，kNN 执行两个基本步骤：

1 首先，它观察最近的已经分类的训练数据点—也就是，k最临近点（k-nearest neighbors）

2 第二部，kNN使用新数据最近的邻近点的分类，就对新数据分类得到了更好的结果了。

你可能会怀疑…kNN 是怎么计算出最近的是什么？对于连续数据来说，kNN 使用一个像欧氏距离的距离测度，距离测度的选择大多取决于数据类型。有的甚至会根据训练数据学习出一种距离测度。关于 kNN 距离测度有更多的细节讨论和论文描述。

对于离散数据，解决方法是可以把离散数据转化为连续数据。给出两个例子：

1 使用汉明距离（Hamming distance ）作为两个字符串紧密程度的测度。

2 把离散数据转化为二进制表征。

这两个来自Stack Overflow的思路也有一些关于处理离散数据的建议：

▪ KNN classification with categorical data

▪ Using k-NN in R with categorical values

当临近的点是不同的类，kNN 怎么给新数据分类呢？当临近点都是同一类的时候，kNN 也就不费力气了。我们用直觉考虑，如果附近点都一致，那么新数据点就很可能落入这同一个类中了。

我打赌你能猜到事情是从哪里开始变的麻烦的了…

当临近点不是同一类时，kNN 怎么决定分类情况的呢？

处理这种情况通常有两种办法：

1 通过这些临近点做个简单的多数投票法。哪个类有更多的票，新数据就属于那个类。

2 还是做个类似的投票，但是不同的是，要给那些离的更近的临近点更多的投票权重。这样做的一个简单方法是使用反距离(reciprocal distance). 比如，如果某个临近点距离5个单位，那么它的投票权重就是1/5.当临近点越来越远是，倒数距离就越来越小…这正是我们想要的。

这是个监督算法还是非监督的呢？因为 kNN 算法提供了已经被分类好的数据集，所以它是个监督学习算法。

为什么我们会用 kNN？便于理解和实现是我们使用它的两个关键原因。根据距离测度的方法，kNN 可能会非常精确。

但是这还只是故事的一部分，下面是我们需要注意的5点：

1 当试图在一个大数据集上计算最临近点时，kNN 算法可能会耗费高昂的计算成本。

2 噪声数据(Noisy data)可能会影响到 kNN 的分类。

3 选择大范围的属性筛选(feature)会比小范围的筛选占有很多优势，所以属性筛选(feature)的规模非常重要。

4 由于数据处理会出现延迟，kNN 相比积极分类器，一般需要更强大的存储需求。

5 选择一个合适的距离测度对 kNN 的准确性来说至关重要。

哪里用过这个方法？有很多现存的 kNN 实现手段：

▪ MATLAB k-nearest neighbor classification

▪ scikit-learn KNeighborsClassifier

▪ k-Nearest Neighbour Classification in R

是不是垃圾，先别管了。先读读下面的算法吧….

9. Naive Bayes 朴素贝叶斯算法

算法是做什么的？朴素贝叶斯（Naive Bayes）并不只是一个算法，而是一系列分类算法，这些算法以一个共同的假设为前提：

被分类的数据的每个属性与在这个类中它其他的属性是独立的。

独立是什么意思呢？当一个属性值对另一个属性值不产生任何影响时，就称这两个属性是独立的。

举个例子：

比如说你有一个病人的数据集，包含了病人的脉搏，胆固醇水平，体重，身高和邮编这样的属性。如果这些属性值互相不产生影响，那么所有属性都是独立的。对于这个数据集来说，假定病人的身高和邮编相互独立，这是合理的。因为病人的身高和他们的邮编没有任何关系。但是我们不能停在这，其他的属性间是独立的么？

很遗憾，答案是否定的。给出三个并不独立的属性关系：

▪ 如果身高增加，体重可能会增加。

▪ 如果胆固醇水平增加，体重可能增加。

▪ 如果胆固醇水平增加，脉搏也可能会增加。

以我的经验来看，数据集的属性一般都不是独立的。

这样就和下面的问题联系起来了…

为什么要把算法称为朴素的(naive)呢？数据集中所有属性都是独立的这个假设正是我们称为朴素（naive）的原因—— 通常下例子中的所有属性并不是独立的。

什么是贝叶斯（Bayes）？Thomas Bayes 是一个英国统计学家，贝叶斯定理就是以他名字命名的。点击这个链接可以知道更多贝叶斯定理的内容（Bayes’ Theorem）

总而言之，根据给定的一系列属性信息，借用概率的知识，我们可以使用这个定理来预测分类情况。

分类的简化等式看起来就像下面的这个式子：

我们在深入研究一下..

这个等式是什么意思？在属性1和属性2的条件下，等式计算出了A 类的概率。换句话说，如果算出属性1 和2，等式算出的数据属于 A 类的概率大小。

等式这样写解释为：在属性1和属性2条件下，分类 A 的概率是一个分数。

▪ 分数的分子是在分类 A条件下属性1的概率，乘以在分类 A 条件下属性2的概率，再乘以分类 A 的概率

▪ 分数的分母是属性1的概率乘以属性2的概率。

举个 Naive Bayes 的例子，下面是一个从 Stack Overflow thread (Ram’s answer)中找到的一个好例子。

事情是这样的：

▪ 我们有个1000个水果的训练数据集。

▪ 水果可能是香蕉，橘子或者其他（这些水果种类就是类）

▪ 水果可能是长形的、甜的、或者黄颜色的(这些是属性).

在这个训练集中你发现了什么？

▪ 500个香蕉中，长的有400个、甜的有350个、黄色的450个

▪ 300个橘子中、没有长的、甜的150个、黄色的300个

▪ 还剩下的200个水果中、长的100个、甜的150个、黄色的50个

如果我们根据长度、甜度和水果颜色，在不知道它们类别的情况下，我们现在可以计算水果是香蕉、橘子或者其他水果的概率了。

假设我们被告知这个未分类的水果是长的、甜的、黄色的。

下面我们以4个步骤来计算所有的概率：

第一步：想要计算水果是香蕉的概率，我们首先发现这个式子看起来很熟悉。这就是在属性为长形、甜和黄色的条件下，水果是香蕉类的概率，这个表达更简洁一些：

这确实就像我们之前讨论的那个等式。

第二步：以分子开始，让我们把公式的所有东西都加进去。

像公式一样，把所有的都乘起来，我们就得到了：

第三步：不用管分母了，因为计算别的分类时分子是一样的。

第四步：计算其他类时也做类似的计算：

因为0.252大于0.01875，Naive Bayes 会把长形，甜的还是黄色水果分到香蕉的一类中。

这是个监督算法还是非监督算法呢？为了得到频数表，Naive Bayes 提供了已经分好类的训练数据集，所以这是个监督学习算法。

为什么使用 Naive Bayes？就像你在上面看到的例子一样，Naive Bayes 只涉及到了简单的数学知识。加起来只有计数、乘法和除法而已。

一旦计算好了频数表(frequency tables),要分类一个未知的水果只涉及到计算下针对所有类的概率，然后选择概率最大的即可。

尽管算法很简单，但是 Naive Bayes 却出人意料的十分精确。比如，人们发现它是垃圾邮件过滤的高效算法。

Naive Bayes 的实现可以从Orange, scikit-learn, Weka 和 R 里面找到。

最后，看一下第十种算法吧。

10.CART 分类算法

算法是做什么的？ CART 代表分类和回归树(classification and regression trees)。它是个决策树学习方法，同时输出分类和回归树。像 C4.5一样，CART 是个分类器。

分类树像决策树一样么？分类树是决策树的一种。分类树的输出是一个类。

举个例子，根据一个病人的数据集、你可能会试图预测下病人是否会得癌症。这个分类或者是“会的癌症”或者是“不会得癌症”。

那回归树是什么呢？和分类树预测分类不同，回归树预测一个数字或者连续数值，比如一个病人的住院时间或者一部智能手机的价格。

这么记比较简单：

分类树输出类、回归树输出数字。

由于我们已经讲过决策树是如何分类数据的了，我们就直接跳过进入正题了…

CART和 C4.5对比如下：

这是个监督算法还是非监督的呢？为了构造分类和回归树模型，需要给它提供被分类好的训练数据集，因此 CART 是个监督学习算法。

为什么要使用 CART 呢？使用 C4.5的原因大部分也适用于 CART，因为它们都是决策树学习的方法。便于说明和解释这类的原因也适用于 CART。

和 C4.5一样，它们的计算速度都很快，算法也都比较通用流行，并且输出结果也具有可读性。

scikit-learn 在他们的决策树分类器部分实现了 CART 算法；R 语言的 tree package 也有 CART 的实现；Weka 和 MATLAB 也有CART的实现过程。

最后，基于斯坦福和加州大学伯克利分校的世界闻名的统计学家们的理论，只有 Salford系统有最原始的 CART 专利源码的实现部分。

文章来源:

http://blog.jobbole.com/90316/

http://blog.jobbole.com/89037/

你可能感兴趣的:(业界/规划/思考,机器学习,数据挖掘,svm)

致小溪流家人第十七封信 mxn马娜
溪爸，溪妈：周末好！溪流教室冬至的到来，让孩子们着实兴奋了一把。在这里也要感谢我们的昀恬妈妈，佳依妈妈，家梣妈妈到教室陪孩子们一起过冬至包饺子的活动。学霸队香蕉队水饺队草莓队我们分为了四组，每组分派一位大人参与。相信家人们从孩子的写绘里已经感知到当时现场的氛围有多热闹了。故事是如何而来？是从生活经历中来，培养孩子善于观察，善于发现，善于思考，用心感知生活中发生的一切，做一个心思细腻的人。生活经历，
焦茶琉樱SAFS
好累啊，刚刚听完了地理，还要画画，还要准备住宿的东西，今天没有脑细胞了，写不出深度思考了。把自己的一点小感想扩一扩好了。转了一位博主的“为什么画画能控制人的心情啊”。不得不说，实在是很能共情。画画的时候，会不自觉地跟着画面中人物一起做表情，人物笑得很灿烂，我也嘴角上扬直到笑肌发酸；人物哭得稀里哗啦，我的表情也皱成一团；人物目眦欲裂，我眼睛也同时睁大；人物厌世脸冷冰冰，我也面无表情。再就是这位博主发
第31次一周小结（2023.02.19-02.25） 2023.02.26 龚宇佳
上周总结：1.阅读21h。第一，精读《社会性动物》，有些内容和《态度改变与社会影响》、《思考，快与慢》想通，读起来很顺畅。第二，翻看《夏商周：从神话到史实》以及《汉字就是这么来的》。2.写作3.5h。保持日更。3.语言学习5h。I.粤语学习方面。上周模仿了电视剧《新四十二章经》，在工作中和同事用粤语交流，II.英语学习方面。每天至少听写或翻译一篇，跟读电影扎导版《正义联盟》。4.PPT学习3.5h
经典人生语录，为了自己想过的生活，勇于放弃一些东西然若一
为了自己想过的生活，勇于放弃一些东西。这个世界没有公正之处，你也永远得不到两全之计。若要自由，就得牺牲安全。若要闲散，就不能获得别人评价中的成就。若要愉悦，就无需计较身边人给予的态度。若要前行，就得离开你现在停留的地方。多微笑，做一个开朗热忱的女人；多打扮，做一个美丽优雅的女人；多倾听，做一个温柔善意的女人，多看书，做一个淡定内涵的女人；多思考，做一个聪慧冷静的女人。记住为自己而进步，而不是为了满
天时和地利一一《孙子兵法》之五计对教育的启示（二）旭日老师
昨天讲了《孙子兵法》五计中前两句名言对教育的启示，今天继续讲讲后面的天时地利两句名言对教育的启示。一、天者，阴阳，寒暑、时制也。它的意思是：所谓天时，是指用兵时的昼夜、晴雨，严寒、酷热，春夏秋冬等气候情况。这几个因素对行军打仗，用兵作战的影响是非常明显的，对于我们教育的影响，就很少去认真思考它。其实他对我们教育的其实也是非常大的：比如说昼夜不同时间对人的记忆力的影响。阅读毛主席的传记，就知道毛主席
分享~成功爱阳恒佳
2023年2月12日星期日1果断抉择人生，是一个不断选择的过程。面临选择时，最怕你优柔寡断，白白耗费大量时间成本，错失了最佳时机。其实，很多事情都没有唯一正确的选项，尝试就是进步最大的推力。果断抓住时机，确定行进方向，坚定地去执行，就已经成功了一半。2立即行动迟迟不肯动手，什么都不会发生。“拖延症”只会把你的时间和意志一点一点地吞噬掉。想到就立刻行动，规划好目标，再把它细化，设定最后期限，一步一步
贴现思维翁玲子
图片发自App得到的课程买了不少，最近空闲一翻，发现大多数都是只读了一半就撩那里了，无意中翻了一篇香帅的课程读了读。《如何用贴现思维思考个人价值》“贴”是现在，“现”是折扣，贴现可以试着未来价值和现在价值之间的折算，这个折算比率就是贴现率。例如：明年的100元，现在值95元，这个贴现率5%，老师用一个故事讲述了这个概念，好新鲜又很真实。同时我们生活中的很多长期决策中必备的一种思维。庸俗的鸡汤故事一
反直觉指数增长火之木叶啊
复利这个词在我们日常生活中很常见，但这个被爱因斯坦称为世界第八大奇迹的复利却很少真正的改变我们的思考和行为。因为复利是指数型发展的，而很多时候，我们都是线性思维，因而我们很难理解为什么复利如此神奇，即使看到了那条线，如果不是亲身去验算，我们的大脑仍倾向于把它当成不重要的事情。指数增长的神奇之处在于一旦超过临界点之后，马上就会发生显著的变化，甚至越来越大。王川老师在王川：论指数增长的反直觉性这篇文章
Python爬虫实战：批量下载小红书笔记图片的全流程技术解析 Python爬虫项目 2025年爬虫实战项目 python 爬虫笔记开发语言音视频 github
1.引言：为什么要爬取小红书笔记图片小红书作为新兴的生活方式分享平台，聚集了大量高质量原创笔记内容，涵盖时尚、美妆、旅游、美食等多领域。笔记中的图片往往是内容的核心，批量下载小红书笔记图片，有助于：内容归档与备份数据分析与用户行为研究图像识别与机器学习训练电商推广及内容再加工但小红书对内容保护做得较好，爬取难度较高，需要结合多技术手段突破。2.小红书平台特点与爬取难点动态加载与API接口多变：页面
『阅读•思考•灵性新苑‖第十辑/302/1001』《心灵的潜能:硅谷亿万富翁成功秘钥》 4 查尔斯·哈奈尔著梁红李艳红译景熙惟
第6章（部分节选）英国著名诗人乔治·赫伯特说过，意识到我们是什么人比我们已经做了什么重要得多。如果不能够十分确定选择的目标是否合乎正义、个性需求或者具有合理性，就应该及时放弃那个目标。今天人们很容易将错误、不当的事物加以粉饰，不断地伪装，使其看起来很像正确的事物。这种做法现在已经成为习以为常的事情，也是一种令人感到司空见惯的现象。一个人在面对压力和挑战的时候，那种镇定自若的理性竟然能够战胜天然的是
不会的先做到完成，会的尽量做到完美！认真带娃的妍一
共读《苏世民－我的经验与教训》day171、利他就是最好利己处于困境中的人往往只专注于他们自己的问题，而自己脱困的途径通常在于解决别人的问题。思考：我以前经常会去测试人性，然后会想不通。直到在2020年的元旦去北京上课，同住的小伙伴说了一句这就是人性呀，你干嘛还要去测试呢？突然意识到，对呀，他人这种行为表现才是最正常的。你能做的就是尽自己的所能做到，做好！学习让我改变最大的是会通过别人的行为去反思
亚历山大的远征李翠花
书的作者是阿里安，一位罗马共和国时期的希腊人。当时希腊已经是罗马帝国的一部分，希腊化的塞琉古和托勒密也受到来自罗马的强大压力。作为一个亡国人，回想继往同胞的伟业，心生感触，因此不免有夸大嫌疑。亚历山大其人其事早已经是妇孺皆知了，他创建的亚欧帝国，极大的传播了希腊化文化，推动了技术的传播和发展。我只想聊聊亚历山大的一些闪光点，正是这些时刻给了我思考。在我看来，一个人的生与死是最大的闪光点。生，蕴含着
#100天遇到更好的自己杨泽琴
《100天遇到更好的自己行动营》打卡第21天你可以选择那些会鼓励你获得幸福和成就的思考方式，而舍弃那些不能支持你获得幸福的思考方式。有段时间自己选择了躺平模式，工作之外其他啥也不想干。这边追着剧那边又感觉大好的时间被这样浪费很不应该。纠结来纠结去，追剧也没追好自己还产生了深深的负罪感。好朋友打过电话说有好消息，要我过去一趟。原来她工作履新了，还有其他要庆祝的事情。听到闺蜜讲的自己的事，我真心觉察到
了解我们骨子里的精神血脉辛苦快乐
小时候读过一些神话故事，曾经为故事中的人物感动，但仅仅是一种感动，没有悟透其中的神奇。这几天看到一篇关于哈佛大学教授解读中国神话的文章，有感于教授的慧心、慧眼和慧识。他提到的几个中国神话，差不多我们小时候都读过，包括钻木取火、大禹治水、愚公移山、夸父逐日、后羿射日、精卫填海，还有刑天的故事。在这些神话故事中，我们也读到了敬仰，但没有过深的思考和感悟。让这位哈佛的教授一讲，才感到了其中的伟大和不朽。
算法：动态规划洛谷 P8776 [蓝桥杯 2022 省 A] 最长不下降子序列健仙算法动态规划蓝桥杯
思路：首先，这题你得先会（nlogn）复杂度的求最长不下降子序列方法。我们可以直接让k个数从下标为1开始，滑动到末端，这k个数就不用看它，因为我们把他设置成k个数后面的数，所以答案先加上k，然后我们看预处理每一个数从他开始（包括这个数）后面的最长不下降子序列，把长度放入b数组中，这样我们答案就是k加上b【k+1】，然后我们看k前面的数，k前面的数不是让答案加上前面的最长不下降子序列，因为此时我们有
算法竞赛备赛——【图论】求最短路径——Floyd算法 Aurora_wmroy 算法竞赛备赛算法图论 c++蓝桥杯数据结构
floyd算法基于动态规划应用：求多源最短路时间复杂度：n^3dijkstra：不能解决负边权floyd：能解决负边权不能解决负边权回路问题求最短路径：dijkstrabfsfloyd思路1.让任意两点之间的距离变短：引入中转点k通过k来中转i---->k---->jj2.找状态：n个点都可以做中转点的情况下，i到j之间的最短路径的长度是x最终状态：dp[n][i][j]=x;中间状态：dp[k]
#主播养成记|百场直播复盘04 琴姐姐成长笔记
#视频号：琴姐姐百场直播【时间】2022.3.3下午13：30【主题】可实现的自由--为什么你自己一个人去深圳【思考】有小伙伴对于我一个人来深圳很好奇，其实，同样的好奇的不止一个，而是有近十位都问过同样的问题？难道你不用管孩子么？你家里怎么办，他们支持你么？这些问题，也让我思考，我是怎么做到的？为什么我能这么做，而且能得到家人的支持，毕竟年龄不小了，还敢跑一线城市，重新开启自己的创业？其实，我想和
起早贪黑黎福生一品味人生
没规划的人生叫拼图，有规划的人生叫蓝图；没目标的人生叫流浪，有目标的人生叫航行！每天给自己一点时间沉淀，当你可以直面自己身体里与生俱来的笨拙与孤独，你便能够彻底谅解过去的自己！！早上好！各位宗亲们美好的一天从周一开始
【机器学习】必会降维算法之：独立成分分析（ICA） Carl_奕然机器学习算法人工智能
独立成分分析（ICA）1、引言2、独立成分分析（ICA）2.0引言2.1定义2.2应用场景2.3核心原理2.4实现方式2.5算法公式2.6代码示例3、总结1、引言小屌丝：鱼哥，最近胡塞武装很哇塞啊。小鱼：你什么时候开始关注军事了？小屌丝：这…还用关注吗？都上新闻了。小鱼：嗯，那你知道胡塞武装为什么这么厉害吗？小屌丝：额…当然是光脚不怕穿鞋的。小鱼：…你可真是…小屌丝：真是啥？小鱼：一个字，自己体会
神经网络：从模式组合到多层神经网络的进化 MoonlitHan 人工智能
这两张图展示了神经网络如何从“简单判断”进化到“复杂识别”：1.模式组合：让神经网络“拆分任务”第一张图的核心是“模式组合”：比如识别数字3时，网络会把任务拆成“识别左半部分”和“识别右半部分”；中间的神经元专门负责提取局部特征（比如左半部分的曲线、右半部分的直线）；最终输出层的y₃和y₈会综合这些局部特征，判断图片是不是数字3或8。2.多层神经网络：让AI学会“分层思考”第二张图展示了多层神经网
2023-5-18晨间日记仓鼠zhi轮_2
今天是坚守日子起床：5：35就寝：23：30天气：多云心情：还行纪念日：假如爱有天意任务清单昨日完成的任务，最重要的三件事：一是八段锦完成一遍，二是完成一遍英语，三是组织会场改进：成立好习惯督导群习惯养成：抓紧做应该做的事情周目标·完成进度：解决难题学习·信息·阅读：宁静致远健康·饮食·锻炼：坚持就是胜利人际·家人·朋友：忙中突进工作·思考：稳住最美好的三件事：1.八段锦2.做饭送餐3.睡觉思考·
爬楼梯——动态规划不吃鱼的猫算法动态规划算法 leetcode
文章目录题目一解法一：动态规划题目二解法：题目一假设你正在爬楼梯。需要n阶你才能到达楼顶。每次你可以爬1或2个台阶。你有多少种不同的方法可以爬到楼顶呢？解法一：动态规划将dp[i]数组定义为到达第i阶楼梯有多少种方法，由每次可以爬1或2阶可以得到递推公式：dp[i]=dp[i−1]+dp[i−2]dp[i]=dp[i-1]+dp[i-2]dp[i]=dp[i−1]+dp[i−2]其中，dp[i-1
支持向量回归（Support Vector Regression, SVR）详解 DuHz 回归数据挖掘人工智能信号处理算法数学建模机器学习
支持向量回归（SupportVectorRegression,SVR）详解支持向量回归（SupportVectorRegression，简称SVR）是一种基于支持向量机（SVM）的回归分析方法，广泛应用于预测和模式识别领域。SVR通过在高维空间中寻找一个最优超平面，以最大化数据点与超平面的间隔，从而实现对连续型变量的预测。本文将深入探讨SVR的理论基础、数学原理、模型构建、参数选择、训练与优化、应
动态规划之爬楼梯
LeetCode地址：爬楼梯假设你正在爬楼梯。需要n阶你才能到达楼顶。每次你可以爬1或2个台阶。你有多少种不同的方法可以爬到楼顶呢？注意：给定n是一个正整数。示例1：输入：2输出：2解释：有两种方法可以爬到楼顶。1.1阶+1阶2.2阶示例2：输入：3输出：3解释：有三种方法可以爬到楼顶。-1阶+1阶+1阶-1阶+2阶-2阶+1阶第一种方法动态规划1.确定dp数组dp[i]爬到第i层楼梯，有dp[i
不完美的家庭会议水煮毛豆
第一天上网课加上我没在家。孩子还算自律，按时上课按时完成作业。就是我发现作业以“完成为目的”写的不好。提出建议似乎还有情绪……请教完奋赢老师我俩开始商量怎么“收拾”她——开个会！（这次由爸爸组织，爷爷奶奶也参加。）时间：2022年1月10日地点：客厅主持人：爸爸记录：妈妈参会成员：爸爸，妈妈，爷爷，奶奶，等等，仓鼠会议主题：总结2021规划2022会议流程：1.感谢家人。2.总结，规划3.一日流程
力扣第70题：爬楼梯动态规划DP入门（C++） Daking- leetCode耐刷王 leetcode 动态规划算法 c++
假设你正在爬楼梯。需要n阶你才能到达楼顶。每次你可以爬1或2个台阶。你有多少种不同的方法可以爬到楼顶呢？示例1：输入：n=2输出：2解释：有两种方法可以爬到楼顶。1.1阶+1阶2.2阶示例2：输入：n=3输出：3解释：有三种方法可以爬到楼顶。1.1阶+1阶+1阶2.1阶+2阶3.2阶+1阶思路什么叫动态规划？我们分割原始问题为多个子问题，在遍历数据的过程中，如果能根据之前得到的信息动态解决当前的子
Java 大视界 -- Java 大数据机器学习模型在金融市场情绪分析与投资策略制定中的应用青云交大数据新视界 Java 大视界 java 大数据机器学习情绪分析智能投资多源数据
Java大视界--Java大数据机器学习模型在金融市场情绪分析与投资策略制定中的应用）引言：正文：一、金融情绪数据的立体化采集与治理1.1多模态数据采集架构1.2数据治理与特征工程二、Java机器学习模型的工程化实践2.1情感分析模型的深度优化2.2强化学习驱动的动态投资策略三、顶级机构实战：Java系统的金融炼金术四、技术前沿：Java与金融科技的未来融合4.1量子机器学习集成4.2联邦学习在合
Java数据结构与算法(爬楼梯动态规划) 盘门 java数据结构与算法实战 java 动态规划开发语言
前言爬楼梯就是一个斐波那契数列问题，采用动态规划是最合适不过的。实现原理初始化:dp[0]=1;dp[1]=2;转移方程：dp[i]=dp[i-1]+d[i-2];边界条件:无具体代码实现classSolution{publicintclimbStairs(intn){if(n==1){return1;}int[]dp=newint[n];dp[0]=1;dp[1]=2;for(inti=2;i<
Python,Go are applicated to develop the app “Star travel and your preparation”
为了开发“星际旅行准备”应用（**StarTravelandYourPreparation**），结合**Python**和**Go**的技术优势，可设计如下分层架构，融合深空导航、生命维持系统（LSS）优化与跨星域资源管理功能：---###**1.核心架构设计**####**(1)星际导航引擎（Go）**-**角色**：实时多维空间路径规划与异常规避-**实现**：-**曲速走廊计算**：基于A
爬楼梯（动态规划） AWEN_33 算法
假设你正在爬楼梯。需要n阶你才能到达楼顶。每次你可以爬1或2个台阶。你有多少种不同的方法可以爬到楼顶呢？示例1：输入：n=2输出：2解释：有两种方法可以爬到楼顶。1.1阶+1阶2.2阶示例2：输入：n=3输出：3解释：有三种方法可以爬到楼顶。1.1阶+1阶+1阶2.1阶+2阶3.2阶+1阶c初解（动态规划）：classSolution{public:intclimbStairs(intn){//处
TOMCAT在POST方法提交参数丢失问题 357029540 java tomcat jsp
摘自http://my.oschina.net/luckyi/blog/213209 昨天在解决一个BUG时发现一个奇怪的问题，一个AJAX提交数据在之前都是木有问题的，突然提交出错影响其他处理流程。检查时发现页面处理数据较多，起初以为是提交顺序不正确修改后发现不是由此问题引起。于是删除掉一部分数据进行提交，较少数据能够提交成功。恢复较多数据后跟踪提交FORM DATA ，发现数
在MyEclipse中增加JSP模板删除-2008-08-18 ljy325 jsp xml MyEclipse
在D:\Program Files\MyEclipse 6.0\myeclipse\eclipse\plugins\com.genuitec.eclipse.wizards_6.0.1.zmyeclipse601200710\templates\jsp 目录下找到Jsp.vtl，复制一份，重命名为jsp2.vtl,然后把里面的内容修改为自己想要的格式，保存。然后在 D:\Progr
JavaScript常用验证脚本总结 eksliang JavaScript javaScript表单验证
转载请出自出处：http://eksliang.iteye.com/blog/2098985 下面这些验证脚本，是我在这几年开发中的总结，今天把他放出来，也算是一种分享吧，现在在我的项目中也在用！包括日期验证、比较，非空验证、身份证验证、数值验证、Email验证、电话验证等等...! &nb
微软BI（4） 18289753290 微软BI SSIS
1） Q:查看ssis里面某个控件输出的结果： A MessageBox.Show(Dts.Variables["v_lastTimestamp"].Value.ToString()); 这是我们在包里面定义的变量 2):在关联目的端表的时候如果是一对多的关系，一定要选择唯一的那个键作为关联字段。 3) Q：ssis里面如果将多个数据源的数据插入目的端一
定时对大数据量的表进行分表对数据备份酷的飞上天空大数据量
工作中遇到数据库中一个表的数据量比较大，属于日志表。正常情况下是不会有查询操作的，但如果不进行分表数据太多，执行一条简单sql语句要等好几分钟。。分表工具：linux的shell + mysql自身提供的管理命令原理：使用一个和原表数据结构一样的表，替换原表。 linux shell内容如下： =======================开始
本质的描述与因材施教永夜-极光感想随笔
不管碰到什么事,我都下意识的想去探索本质,找寻一个最形象的描述方式。我坚信,世界上对一件事物的描述和解释,肯定有一种最形象,最贴近本质,最容易让人理解 &
很迷茫。。。随便小屋随笔
小弟我今年研一，也是从事的咱们现在最流行的专业（计算机）。本科三流学校，为了能有个更好的跳板，进入了考研大军，非常有幸能进入研究生的行业（具体学校就不说了，怕把学校的名誉给损了）。先说一下自身的条件，本科专业软件工程。主要学习就是软件开发，几乎和计算机没有什么区别。因为学校本身三流，也就是让老师带着学生学点东西，然后让学生毕业就行了。对专业性的东西了解的非常浅。就那学的语言来说
23种设计模式的意图和适用范围 aijuans 设计模式
Factory Method 意图定义一个用于创建对象的接口，让子类决定实例化哪一个类。Factory Method 使一个类的实例化延迟到其子类。　　适用性当一个类不知道它所必须创建的对象的类的时候。　　当一个类希望由它的子类来指定它所创建的对象的时候。　　当类将创建对象的职责委托给多个帮助子类中的某一个，并且你希望将哪一个帮助子类是代理者这一信息局部化的时候。 Abstr
Java中的synchronized和volatile aoyouzi java volatile synchronized
说到Java的线程同步问题肯定要说到两个关键字synchronized和volatile。说到这两个关键字，又要说道JVM的内存模型。JVM里内存分为main memory和working memory。 Main memory是所有线程共享的，working memory则是线程的工作内存，它保存有部分main memory变量的拷贝，对这些变量的更新直接发生在working memo
js数组的操作和this关键字百合不是茶 js 数组操作 this关键字
js数组的操作; 一:数组的创建: 1、数组的创建 var array = new Array();　//创建一个数组 var array = new Array([size]);　//创建一个数组并指定长度，注意不是上限，是长度 var arrayObj = new Array([element0[, element1[, ...[, elementN]]]
别人的阿里面试感悟 bijian1013 面试分享工作感悟阿里面试
原文如下：http://greemranqq.iteye.com/blog/2007170 一直做企业系统，虽然也自己一直学习技术，但是感觉还是有所欠缺，准备花几个月的时间，把互联网的东西，以及一些基础更加的深入透析，结果这次比较意外，有点突然，下面分享一下感受吧！ &nb
淘宝的测试框架Itest Bill_chen spring maven 框架单元测试 JUnit
Itest测试框架是TaoBao测试部门开发的一套单元测试框架，以Junit4为核心，集合DbUnit、Unitils等主流测试框架，应该算是比较好用的了。近期项目中用了下，有关itest的具体使用如下： 1.在Maven中引入itest框架： <dependency> <groupId>com.taobao.test</groupId&g
【Java多线程二】多路条件解决生产者消费者问题 bit1129 java多线程
package com.tom; import java.util.LinkedList; import java.util.Queue; import java.util.concurrent.ThreadLocalRandom; import java.util.concurrent.locks.Condition; import java.util.concurrent.loc
汉字转拼音pinyin4j 白糖_ pinyin4j
以前在项目中遇到汉字转拼音的情况，于是在网上找到了pinyin4j这个工具包，非常有用，别的不说了，直接下代码： import java.util.HashSet; import java.util.Set; import net.sourceforge.pinyin4j.PinyinHelper; import net.sourceforge.pinyin
org.hibernate.TransactionException: JDBC begin failed解决方案 bozch ssh 数据库异常 DBCP
org.hibernate.TransactionException: JDBC begin failed: at org.hibernate.transaction.JDBCTransaction.begin(JDBCTransaction.java:68) at org.hibernate.impl.SessionImp
java-并查集（Disjoint-set）-将多个集合合并成没有交集的集合 bylijinnan java
import java.util.ArrayList; import java.util.Arrays; import java.util.HashMap; import java.util.HashSet; import java.util.Iterator; import java.util.List; import java.util.Map; import java.ut
Java PrintWriter打印乱码 chenbowen00 java
一个小程序读写文件，发现PrintWriter输出后文件存在乱码，解决办法主要统一输入输出流编码格式。读文件： BufferedReader 从字符输入流中读取文本，缓冲各个字符，从而提供字符、数组和行的高效读取。可以指定缓冲区的大小，或者可使用默认的大小。大多数情况下，默认值就足够大了。通常，Reader 所作的每个读取请求都会导致对基础字符或字节流进行相应的读取请求。因
[天气与气候]极端气候环境 comsci 环境
如果空间环境出现异变...外星文明并未出现,而只是用某种气象武器对地球的气候系统进行攻击,并挑唆地球国家间的战争,经过一段时间的准备...最大限度的削弱地球文明的整体力量,然后再进行入侵...... 那么地球上的国家应该做什么样的防备工作呢? &n
oracle order by与union一起使用的用法 daizj UNION oracle order by
当使用union操作时，排序语句必须放在最后面才正确，如下：只能在union的最后一个子查询中使用order by，而这个order by是针对整个unioning后的结果集的。So：如果unoin的几个子查询列名不同，如 Sql代码 select supplier_id, supplier_name from suppliers UNI
zeus持久层读写分离单元测试 deng520159 单元测试
本文是zeus读写分离单元测试,距离分库分表,只有一步了.上代码: 1.ZeusMasterSlaveTest.java package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Assert; import org.j
Yii 截取字符串(UTF-8) 使用组件 dcj3sjt126com yii
1.将Helper.php放进protected\components文件夹下。 2.调用方法： Helper::truncate_utf8_string($content,20,false); //不显示省略号 Helper::truncate_utf8_string($content,20); //显示省略号 &n
安装memcache及php扩展 dcj3sjt126com PHP
安装memcache tar zxvf memcache-2.2.5.tgz cd memcache-2.2.5/ /usr/local/php/bin/phpize (?) ./configure --with-php-confi
JsonObject 处理日期 feifeilinlin521 java json JsonOjbect JsonArray JSONException
写这边文章的初衷就是遇到了json在转换日期格式出现了异常 net.sf.json.JSONException: java.lang.reflect.InvocationTargetException 原因是当你用Map接收数据库返回了java.sql.Date 日期的数据进行json转换出的问题话不多说直接上代码 &n
Ehcache（06）——监听器 234390216 监听器 listener ehcache
监听器 Ehcache中监听器有两种，监听CacheManager的CacheManagerEventListener和监听Cache的CacheEventListener。在Ehcache中，Listener是通过对应的监听器工厂来生产和发生作用的。下面我们将来介绍一下这两种类型的监听器。
activiti 自带设计器中chrome 34版本不能打开bug的解决 jackyrong Activiti
在acitivti modeler中，如果是chrome 34，则不能打开该设计器，其他浏览器可以，经证实为bug，参考 http://forums.activiti.org/content/activiti-modeler-doesnt-work-chrome-v34 修改为，找到 oryx.debug.js 在最头部增加 if (!Document.
微信收货地址共享接口-终极解决 laotu5i0 微信开发
最近要接入微信的收货地址共享接口，总是不成功，折腾了好几天，实在没办法网上搜到的帖子也是骂声一片。我把我碰到并解决问题的过程分享出来，希望能给微信的接口文档起到一个辅助作用，让后面进来的开发者能快速的接入，而不需要像我们一样苦逼的浪费好几天，甚至一周的青春。各种羞辱、谩骂的话就不说了，本人还算文明。如果你能搜到本贴，说明你已经碰到了各种 ed
关于人才 netkiller.github.com 工作面试招聘 netkiller 人才
关于人才每个月我都会接到许多猎头的电话，有些猎头比较专业，但绝大多数在我看来与猎头二字还是有很大差距的。与猎头接触多了，自然也了解了他们的工作，包括操作手法，总体上国内的猎头行业还处在初级阶段。总结就是“盲目推荐，以量取胜”。目前现状许多从事人力资源工作的人，根本不懂得怎么找人才。处在人才找不到企业，企业找不到人才的尴尬处境。企业招聘，通常是需要用人的部门提出招聘条件，由人
搭建 CentOS 6 服务器 - 目录 rensanning centos
(1) 安装CentOS ISO（desktop/minimal）、Cloud（AWS/阿里云）、Virtualization（VMWare、VirtualBox）详细内容 (2) Linux常用命令 cd、ls、rm、chmod...... 详细内容 (3) 初始环境设置用户管理、网络设置、安全设置...... 详细内容 (4) 常驻服务Daemon
【求助】mongoDB无法更新主键 toknowme mongodb
Query query = new Query(); query.addCriteria(new Criteria("_id").is(o.getId())); &n
jquery 页面滚动到底部自动加载插件集合 xp9802 jquery
很多社交网站都使用无限滚动的翻页技术来提高用户体验，当你页面滑到列表底部时候无需点击就自动加载更多的内容。下面为你推荐 10 个 jQuery 的无限滚动的插件： 1. jQuery ScrollPagination jQuery ScrollPagination plugin 是一个 jQuery 实现的支持无限滚动加载数据的插件。 2. jQuery Screw S