Handsome_Engineer

用WEKA进行数据挖掘，第2部分：分类和群集

简介

在用 WEKA 进行数据挖掘，第 1 部分：简介和回归，我介绍了数据挖掘的概念以及免费的开源软件 Waikato Environment for Knowledge Analysis（WEKA），利用它可以挖掘数据来获得趋势和模式。我还谈到了第一种数据挖掘的方法 — 回归 — 使用它可以根据一组给定的输入值预测数字值。这种分析方法非常容易进行，而且也是功能最不强大的一种数据挖掘方法，但是通过它，读者对 WEKA 有了很好的了解，并且它还提供了一个很好的例子，展示了原始数据是如何转换为有意义的信息的。

在本文中，我将带您亲历另外两种数据挖掘的方法，这二者要比回归模型稍微复杂一些，但功能则更为强大。如果回归模型只能为特定输入提供一个数值输出，那么这两种模型则允许您对数据做不同的解析。正如我在第 1 部分中所说的，数据挖掘的核心就是将正确的模型应用于数据。即便有了有关客户的最佳数据（无论这意味着什么），但是如果没有将正确的模型应用于数据，那么这些数据也没有任何意义。不妨从另一个角度考虑这件事情：如果您只使用能生成数值输出的回归模型，那么 Amazon 如何能告知您“购买了 X 产品的客户还购买了 Y 产品”？这里没有数值型的函数能够告诉您这类信息。所以让我们来深入研究可用在数据中的其他两个模型。

在本文中，我会反复提及称为“最近邻”的数据挖掘方法，但我不会过多地对其进行剖析，详细的介绍会在第 3 部分给出。不过，我在本文中的比较和描述部分将它包括进来以使讨论更为完整。

分类 vs. 群集 vs. 最近邻

在我深入探讨每种方法的细节并通过 WEKA 使用它们之前，我想我们应该先理解每个模型 — 每个模型适合哪种类型的数据以及每个模型试图实现的目标。我们还会将我们已有的模型 — 回归模型 — 也包括在我们的讨论之中，以便您可以看到这三种新模型与我们已经了解的这个模型的对比。我将通过实际的例子展示每个模型的使用以及各自的不同点。这些实际的例子均围绕着一个本地的 BMW 经销店展开，研究它如何能增加销售。这个经销店已经保存了所有其过去的销售信息及有关购买过 BMW、留意过 BMW 或是来过 BMW 展厅的每个客户的信息。这个经销店想要增加未来的销售并部署了数据挖掘来实现此目标。

回归

问题：“对于新的 BMW M5 车型我们该如何定价？” 回归模型只能给出这个问题的一个数值答案。回归模型会使用 BMW 和 M5 的过去销售数据来基于所售汽车的属性和卖点确定人们过去在这个经销店购买车的价格。然后，回归模型允许 BMW 经销店插入新车的属性来确定其价格。

比如：Selling Price = $25,000 + ($2900 * Liters in Engine) + ($9000 * isSedan) + ($11,000 * isConvertible) + ($100 * inches of car) + ($22,000 * isM)。

分类

问题：“那么客户 X 有多大的可能会购买最新的 BMW M5 呢？” 创建一个分类树（一个决策树），并借此挖掘数据就可以确定这个人购买一辆新的 M5 的可能性有多大。这个树上的节点可以是年龄、收入水平、目前拥有的车的数量、婚姻状况、有无孩子、房主还是租户。对这个决策树使用此人的这些属性就可以确定他购买 M5 的可能性。

群集

问题是：“哪个年龄组最喜欢银色的 BMW M5？”这就需要挖掘数据来对比过去购车者的年龄和过去购买的车的颜色。从这些数据，就能够找到某个年龄组（比如 22-30 岁）具有订购某种颜色的 BMW M5 的更高的倾向性（75% 购买蓝色）。同样地，它也可显示另一个不同的年龄组（比如 55-62）则更倾向于订购银色的 BMW（65 % 购买银色，20 % 购买灰色）。这些数据，当挖掘后，倾向于集中于某些特定年龄组和特定颜色周围，方便用户快速判断该数据内的模式。

最近邻

问题：“当人们购买 BMW M5 时，他们倾向于同时购买其他哪些选项？”数据挖掘显示，人们入店并购买一辆 BMW M5 时，他们还会倾向于购买与之配套的行李箱。（这也就是所谓的购物篮分析）。使用此数据，汽车经销店就会将配套行李箱的促销广告放在店面的显眼处，甚至会在报纸上做促销广告，如果他们购买 M5，配套行李箱将免费/打折，以期增加销售。

分类

分类（也即分类树或决策树）是一种数据挖掘算法，为如何确定一个新的数据实例的输出创建逐步指导。它所创建的这个树上的每个节点都代表一个位置，在这个位置必须基于输入做出决策，并且会从一个节点移到下一个节点直至到达能够得出预测的输出的叶子节点。这虽然听起来有些让人迷惑，但其实它非常直观。让我们看一个例子。

清单 1. 简单的分类树

				
    [ Will You Read This Section? ]
          /              /
        Yes              No
        /                 /
[Will You Understand It?]  [Won't Learn It]
    /         /
  Yes          No
  /             /
  [Will Learn It]  [Won't Learn It]

这个简单的分类树试图回答这个问题：“您理解分类树么？”在每个节点，您都会回答这个问题并继续沿着分支下移，直到您到达一个回答了是或不是的叶子节点。这个模型可用于任何未知的数据实例，来预测这个未知数据实例是否通过只询问两个简单问题就能理解分类树。这看上去像是分类树的一大优势 — 它无需有关数据的大量信息就能创建一个十分准确且信息丰富的树。

分类树的一个重要概念非常类似于我们在用 WEKA 进行数据挖掘，第 1 部分：简介和回归回归模型中看到的概念：使用一个“训练集”来生成模型。就是拿一组输出值已知的数据集并使用此数据集来创建我们的模型。之后，只要我们有一个输出值未知的新的数据点，我们都可以将其放入这个模型并生成预期的输出。这与我们在回归模型中看到的没有差别。只不过，这个模型更进了一步，通常会把整个训练集分成两个部分：拿数据的约 60-80 % 放入我们的训练集，用来生成模型；然后拿剩下的数据放入一个测试集，在模型生成后，立即用其来测试我们模型的准确性。

那么这个额外的步骤为什么在此模型中如此重要呢？这个问题就是所谓的过拟合：如果我们提供过多数据用于模型创建，我们的模型虽然会被完美创建，但只针对的是该数据。请记住：我们想使用此模型来预测未来的未知数；我们不是想使用此模型来准确地预测我们已经知道的值。这就是为什么我们要创建一个测试集。在创建了模型后，我们要进行检查以确保我们所创建模型的准确性不会在测试集降低。这就保证了我们的模型会准确地预测出未来的未知值。使用 WEKA 会看到它的实际效果。

这还引出了分类树的另一个重要概念：修剪。修剪正如其名字所指，意思是删减分类树的枝条。那么为什么有人会想要将信息从分类树中删除呢？还是因为过拟合的缘故。随着数据集的增大以及属性数量的增长，我们所创建的树就会越来越复杂。理论上讲，一个树可以具有 leaves = (rows * attributes)。但那又有何益处呢？就预测未来的未知数而言，它根本帮不到我们，因它只适于我们现有的训练数据。因此我们需要的是一种平衡。我们想要我们的树尽量简单，节点和枝叶尽量少。同时我们还想要它尽量地准确。这就需要进行权衡，我们不久就会看到。

在使用 WEKA 前，有关分类我还想指出最后一点，那就是假正和假负。假正指的是这样的一个数据实例：我们创建的这个模型预测它应该是正的，但事实相反，实际值却是负的。同样地，假负指的是这样一个数据实例：我们创建的这个模型预测它应该是负的，但事实相反，实际值却是正的。

这些错误表明在我们的模型中出了问题，我们的模型正在错误地分类某些数据。虽然可能会出现不正确的分类，但可接受的错误百分比由模型创建者决定。比如，如果是在医院里测试心脏监视器，很显然，将需要极低的错误百分比。而如果您只是在有关数据挖掘的文章中挖掘一些虚构的数据，那么错误率可以更高一些。为了使之更进一步，还需要决定可以接受的假负与假正的百分比率是多少。我立即想到的一个例子就是垃圾邮件模型：一个假正（一个真邮件被标记为了垃圾邮件）要比假负（一个垃圾消息未被标记为垃圾邮件）更具破坏性。在像这样的例子中，就可以判断假负：假正的比率最低为 100:1 才是可以接受的。

好了，对于分类树的背景和技术方面的介绍已经够多了。让我们现在开始获得一些真正的数据并将其带入 WEKA。

WEKA 数据集

我们用于分类示例的数据集所围绕的仍然是我们虚构的 BMW 经销店。这个经销店正在启动一个推销计划，试图向其老客户推销两年延保。这个经销店过去曾做过类似的计划并从过去的销售中收集了 4,500 个数据点。数据集中的属性有：

收入水平 [0=$0-$30k, 1=$31k-$40k, 2=$41k-$60k, 3=$61k-$75k, 4=$76k-$100k, 5=$101k-$150k, 6=$151k-$500k, 7=$501k+]
第一辆 BMW 购买的年/月
最近的 BMW 购买的年/月
是否过去曾响应过延保计划

让我们来看看在这个例子中使用的 Attribute-Relation File Format (ARFF)。

清单 2. 分类 WEKA 数据

				
@attribute IncomeBracket {0,1,2,3,4,5,6,7}
@attribute FirstPurchase numeric
@attribute LastPurchase numeric
@attribute responded {1,0}

@data

4,200210,200601,0
5,200301,200601,1
...

在 WEKA 内进行分类

使用我们之前使用过的相同步骤来将数据文件 bmw-training.arff （参见下载）载入 WEKA。请注意：这个文件只包含经销店记录内的这 4,500 个记录中的 3,000 个。我们需要分割我们的记录以便某些数据实例被用来创建模型，某些被用来测试模型以确保没有过拟合。在加载了数据后，屏幕应该类似于图 1。

图 1. WEKA 内的 BMW 分类数据

与我们在用 WEKA 进行数据挖掘，第 1 部分：简介和回归中对回归模型所做的类似，我们选择 Classify 选项卡，然后选择 trees 节点，然后是 J48 叶子（我不知道为何这就是正式的名称，不过还是接受吧）。

图 2. BMW 分类算法

至此，我们已经准备好可以在 WEKA 内创建我们的模型了。请确保 Use training set 被选中以便我们使用刚刚加载的这个数据集来创建模型。单击 Start 并让 WEKA 运行。模型的输出应类似于清单 3 内的结果。

清单 3. WEKA 的分类模型的输出

				
Number of Leaves  : 	28

Size of the tree : 	43


Time taken to build model: 0.18 seconds

=== Evaluation on training set ===
=== Summary ===

Correctly Classified Instances        1774               59.1333 %
Incorrectly Classified Instances      1226               40.8667 %
Kappa statistic                          0.1807
Mean absolute error                      0.4773
Root mean squared error                  0.4885
Relative absolute error                 95.4768 %
Root relative squared error             97.7122 %
Total Number of Instances             3000     

=== Detailed Accuracy By Class ===

               TP Rate   FP Rate   Precision   Recall  F-Measure   ROC Area  Class
                 0.662     0.481      0.587     0.662     0.622      0.616    1
                 0.519     0.338      0.597     0.519     0.555      0.616    0
Weighted Avg.    0.591     0.411      0.592     0.591     0.589      0.616

=== Confusion Matrix ===

    a    b   <-- classified as
 1009  516 |    a = 1
 710  765 |    b = 0

上述这些数字是什么意思？我们怎么才能知道这是一个好的模型？我们应该寻找的这个所谓的“树”在哪里？这些问题问得很好。让我们逐一回答：

这些数字是什么意思？ 这里应该关注的重要数字是“Correctly Classified Instances”（59.1 %）与“Incorrectly Classified Instances”（40.9 %）旁边的这些数字。其他的重要数字还有“ROC Area”列第一行的这个数字（0.616）；我稍候会详细解释这个数字，目前只需记住即可。最后，在“Confusion Matrix”中，显示了假正和假负的数量。在这个矩阵中，假正为 516，假负为 710。
我们怎么才能知道这是一个好的模型？ 由于准确率仅为 59.1 %，我不得不承认经初步分析后，这不是一个非常好的模型。
这个所谓的“树”在哪里？ 要看到这个树，可右键单击刚刚创建的这个模型。在弹出菜单中，选择 Visualize tree。之后，就会看到我们所创建的这个分类树，虽然在本例中，可视树不能提供任何帮助。我们的树如图 3 所示。看到这个树的另一种方式是在 Classifier Output 内往高处看，其中的文本输出显示了具有节点和叶子的整个树。

图 3. 分类树可视化

还有最后一个步骤，就是验证我们的分类树，这需要贯穿模型运行我们的测试集并确保我们模型的准确性在测试集时与在训练集时相差不远。为此，在 Test options 内，选择 Supplied test set 单选按钮并单击 Set。选择文件 bmw-test.arff，内含 1,500 条记录，而这些记录在我们用来创建模型的训练集中是没有的。当我们这次单击 Start 时，WEKA 将会贯穿我们已经创建的这个模型运行测试数据集并会让我们知道模型的情况。让我们现在单击 Start。如下是输出。

图 4. 分类树测试

对比这个测试集的“Correctly Classified Instances”（55.7 %）与训练集的“Correctly Classified Instances”（59.1 %），我们看到此模型的准确性非常接近，这表明此模型不会在应用未知数据或未来数据时，发生故障。

不过，由于模型的准确性很差，只能正确地分类 60 % 的数据记录，因此我们可以后退一步说：“哦，这个模型一点都不好。其准确性勉强超过 50 %，我随便猜猜，也能得到这样的准确性。”这完全正确。这也是我想审慎地告诉大家的一点：有时候，将数据挖掘算法应用到数据集有可能会生成一个糟糕的模型。这一点在这里尤其准确，并且它是故意的。

我本想带您亲历用适合于分类模型的数据生成一个分类树的全过程。然而，我们从 WEKA 获得的结果表明我们错了。我们在这里本应选择的并非分类树。我们所创建的这个模型不能告诉我们任何信息，并且如果我们使用它，我们可能会做出错误的决策并浪费钱财。

那么这是不是意味着该数据无法被挖掘呢？当然不是，只不过需要使用另一种数据挖掘方法：最近邻模型，该模型会在本系列的后续文章中讨论，它使用相同的数据集，却能创建一个准确性超过 88 % 的模型。它旨在强调一点：那就是必须为数据选择合适的模型才能得到有意义的信息。

进一步阅读：如果您想更多地了解分类树，有一些关键字可以查找，因篇幅的原因我在这里就不逐一介绍了：ROC curves、AUC、false positives、false negatives、learning curves、Naive Bayes、information gain、overfitting、 pruning、chi-square test。

群集

群集让用户可以通过数据组来从数据确定模式。当数据集已定义并且需要从此数据确定一个通用的模式时，群集的优势就会比较明显。您可以根据自身业务需要创建一定数量的组。与分类相比，群集的一个好处是数据集内的每个属性都被用来分析该数据。（在分类方法中，只有属性的一个子集用在了模型中。）使用群集的一个主要劣势是用户需要提前知道他想要创建的组的数量。若用户对其数据知之甚少，这可能会很困难。是应该创建三个组？五个组？还是十个组？所以在决定要创建的理想组数之前，可能需要进行几个步骤的尝试和出错。

不过，对于一般的用户，群集有可能是最为有用的一种数据挖掘方法。它可以迅速地将整个数据集分成组，供您快速得出结论。此方法背后的算法多少有些复杂和难懂，这也是我们为何要充分利用 WEKA 的原因。

算法概览

如下是对群集中所用算法的一个简要的快速概览：

数据集内的每个属性都应该是规格化的，因此，每个值均除以该属性在数据集内的最高值与最低值间的差值。例如，如果属性是年龄，且最高值为 72，最低值为 16，那么年龄 32 将被规格化为 0.5714。
理想的群集数量给定后，就可以随机地从数据集选择该数量的样例来充当我们初始测试群集中心。比如，如果想要有三个群集，那么就可以从数据集中随意选择三行数据。
计算从每个数据样例到群集中心（我们随意选中的数据行）的距离，使用距离计算的最小平方法。
基于到每个群集中心的最短距离将每个数据行分配给一个群集。
计算重心，即只使用每个群集的数的每列数据的平均数。
计算每个数据样例与刚刚创建的这些重心之间的距离。如果群集及群集数不变，那么就说明大功告成，群集创建完毕。如果它们变化，那么就需要返回到步骤 3 重新开始并一遍遍重复，直到不再变化为止。

很显然，这看上去不怎么有趣。对于一个具有 10 行和三个群集的数据集，若使用电子数据表，需要花上 30 分钟才能完成。那么想象一下，如果有 100,000 数据行和 10 个群集，若用手工完成那将花费多长时间。所幸的是，计算机在几秒内就可以完成这类计算。

WEKA 的数据集

我们为群集示例要使用的这个数据集同样也围绕着我们虚构的 BMW 经销店。这个经销店保留了人们如何在经销店以及展厅行走、他们看了哪些车以及他们最终购车的机率的记录。经销店期望通过寻找数据内的模式挖掘这些数据并使用群集来判断其客户是否有某种行为特点。在这个例子中有 100 行数据，并且每个列都描述了顾客在他们各自的 BMW 体验中所到达的步骤，比如列中的 1 表示到达这一步的顾客看过这辆车，0 表示他们不曾到达看过车的这一步。清单 4 显示了我们在 WEKA 中所使用的 ARFF 数据。

清单 4. 群集 WEKA 数据

				
@attribute Dealership numeric
@attribute Showroom numeric
@attribute ComputerSearch numeric
@attribute M5 numeric
@attribute 3Series numeric
@attribute Z4 numeric
@attribute Financing numeric
@attribute Purchase numeric

@data

1,0,0,0,0,0,0,0
1,1,1,0,0,0,1,0
...

在 WEKA 内进行群集

采用与将数据加载到 Preprocess 选项卡时的相同步骤来将数据文件 bmw-browsers.arff 加载到 WEKA 内。花上几分钟时间来查看一下这个选项卡内的数据。看看这些列、属性数据以及列的分布等。在加载数据后，屏幕应该类似于图 5。

图 5. WEKA 内的 BMW 群集数据

有了这个数据集，我们就可以开始创建群集了，所以这次不是单击 Classify 选项卡，而是要单击 Cluster 选项卡。单击 Choose 并从所出现的各种选项中选择 SimpleKMeans（这是本文中我们所期望的进行群集的方法）。这时的 WEKA Explorer 窗口应该如图 6 所示。

图 6. BMW 群集算法

最后，我们想要通过单击 SimpleKMeans 调整我们群集算法的属性（虽然不是最佳的 UI 设计，但还是先接受吧）。这里我们想要调整的这个算法的惟一属性是 numClusters 字段，它表明我们想要创建多少群集。（在开始之前，需要知道这一点。）让我们将默认值从 2 更改为 5，若将来想要调整所创建群集的数量，就可以采用这些步骤。此时的 WEKA Explorer 应该类似于图 7。单击 OK 以接受这些值。

图 7. 群集属性

至此，我们已经可以运行这个群集算法了。如果使用电子数据表处理 100 行数据和五个数据群集将会花费几个小时的计算时间，但 WEKA 在不到一秒钟的时间内就能给出答案。输出应该类似于清单 5。

清单 5. 群集输出

				
                               Cluster#
Attribute            Full Data      0          1          2          3          4
                       (100)       (26)       (27)        (5)       (14)       (28)
==================================================================================
Dealership              0.6     0.9615     0.6667          1     0.8571          0
Showroom               0.72     0.6923     0.6667          0     0.5714          1
ComputerSearch         0.43     0.6538          0          1     0.8571     0.3214
M5                     0.53     0.4615      0.963          1     0.7143          0
3Series                0.55     0.3846     0.4444        0.8     0.0714          1
Z4                     0.45     0.5385          0        0.8     0.5714     0.6786
Financing              0.61     0.4615     0.6296        0.8          1        0.5
Purchase               0.39          0     0.5185        0.4          1     0.3214


Clustered Instances

0       26 ( 26%)
1       27 ( 27%)
2        5 (  5%)
3       14 ( 14%)
4       28 ( 28%)

那么这些结果该如何解析呢？这个输出告诉我们每个群集是如何联系在一起的，其中 “1” 表示该群集中的每个人都有相同的值 1，而 “0” 则表示该群集中的每个人的该属性都有一个值 0。其他的数值是群集内的每个人的平均值。每个群集向我们展示了顾客内的一种行为类型，从中我们可以开始得出如下结论：

群集 0 — 这个组我们可以称之为 “Dreamers”，因他们围着经销店徘徊，查看在停车场上停着的车，却不步入店面内，且更糟的是，他们没有购买过任何东西。
群集 1 — 我们将这一组称为是 “M5 Lovers”，因为他们常常会径直走到 M5 车型区，对 3-系列的车型和 Z4 均视而不见。不过，他们也没有多高的购买率 — 只有 52 %。这表明存在潜在问题，也是经销店今后改进的重点，比如可以派更多的销售人员到 M5 区。
群集 2 — 这个组很小，我们可以称之为 “Throw-Aways”，因为他们没有统计意义上的相关性，我们也不能从其行为得出任何好的结论。（这种情况若在群集上发生，可能表明应该减少所创建的群集的数量。）
群集 3 — 这个组，我们称之为 “BMW Babies”，因为他们总是会购买一辆车而且还会支付车款。正是在这里，数据向我们显示了一些有趣的事情：他们一般会在停车场内查看各种车型，然后返回到经销店内的计算机处搜索中意的车型是否有货。他们最终会购买 M5 或 Z4 车型（但从不购买 3-系列的）。这个群集告诉经销店它应该考虑让它的搜索计算机在停车场处就能很容易地被看到（或安置一台室外的搜索计算机），并且让 M5 或 Z4 在搜索结果中更为醒目。一旦顾客决定购买汽车，他总是符合购车款的支付条件并能够圆满完成这次购买。
群集 4 — 这个组我们将称之为 “Starting Out With BMW”，因为他们总是看 3-系列的车型，从不看贵很多的 M5。他们会径直步入展厅，而不会在停车场处东看西看，而且也不会使用计算机搜索终端。他们中有 50 % 会到达支付车款的阶段，但只有 32 % 会最终成交。经销店可以得出这样的结论：这些初次购买 BMW 车的顾客知道自己想要的车型是哪种（ 3-系列的入门级车型）而且希望能够符合购车款的支付条件以便买得起。经销店可以通过放松购车款的支付条件或是降低 3- 系列车型的价格来提高这一组的销售。

研究这些群集中数据的一种有趣方式是可视地查看它。为此，应该在 Cluster 选项卡上的这个 Result List 区域右键单击（同样地，亦不是最佳设计的 UI）。弹出菜单的一个选项是 Visualize Cluster Assignments。弹出的窗口则会让您处理这些结果并可视地查看它们。对于本例，将 X 轴更改为 M5 (Num)，将 Y 轴更改为 Purchase (Num)，将颜色更改为 Cluster (Nom)。结果，有一个图表会向我们显示这些群集是如何按照谁看过 M5 以及谁购买了一辆 M5 分组的。而且，将“Jitter”放大到最高的 3/4 处，这会手动地将这些标绘点分散开以便我们能更容易地看到它们。

那么这些可视结果是否与我们从清单 5 中的结果集中得出的结论相符呢？我们可以从 X=1, Y=1 这一点（即看过 M5 且进行过购买的那些人）看出这里所表示的群集只有是 1 和 3。我们还看到处于点 X=0, Y=0 的群集只有 4 和 0。那么这与我们上述结论是否相符呢？答案是肯定的。群集 1 和 3 是过去购买过 M5 的，而群集 0 则没有购买过任何车型，群集 4 只关注 3-系列。图 8 显示了本例的可视群集布局。您可以随意尝试更改 X 和 Y 轴来辨别出其他的趋势和模式。

图 8. 群集可视查看

进一步阅读：如果您有兴趣进一步钻研，可以按如下术语搜索相关信息： Euclidean distance、Lloyd's algorithm、Manhattan Distance、Chebyshev Distance、sum of squared errors、cluster centroids。

结束语

本文讨论了两种数据挖掘算法：分类树和群集。这两种算法与用 WEKA 进行数据挖掘，第 1 部分：简介和回归中介绍的回归模型的算法不同之处在于没有从模型只能得到数值输出的限制。这两个模型允许输出更为灵活，是数据挖掘领域的两个功能更为强大的武器。

从字面上理解，分类树就是要创建一个具有分支、节点和枝叶的树，能够让我们拿一个未知的数据点，将此数据点的属性应用到这个树并顺着这个树下移，直到到达一个叶子并且数据点的未知输出可以断定。我们了解了为了创建一个好的分类树模型，我们必须要有一个输出已知的现有数据集，从这个数据集才能构建我们的模型。我们还看到了我们需要将我们的数据集分成两个部分：一个用来创建模型的训练集；一个用来验证模型是否正确且没有过拟合的测试集。作为本部分的最后一个要点，我还指出在某些时候，即便是创建了一个您认为正确的数据模型，它也可能不正确，而您必须要摒弃整个模型和算法以寻找更好的解决方案。

群集算法是对一个数据集中的数据进行分组，以便您可以基于在这些组中看到的趋势得出结论。群集与分类及回归的不同之处在于它不生成单个的输出变量（结论容易得出），因而要求您必需观察输出并尝试得出自己的结论。正如在本例中看到的，这个模型生成了五个群集，但对群集内的这些数据的分析以及从这些信息中得出结论则取决于我们。就此而言，非常难以生成准确的群集模型（想象一下如果我们创建了过多或过少的群集，结果将会如何），而另一方面，我们将能够从这个结果集中挖掘出一些有趣的信息 — 这些信息是使用我们之前讨论过的其他任何模型都无法得到的。

第 3 部分是 “用 WEKA 进行数据挖掘” 系列的结束篇，会以最近邻模型结束我们对模型的讨论。我们还将会将 WEKA 用作第三方 Java™ 库，而不是作为一个独立的应用程序，这样一来，我们就可以将其直接嵌入到我们的服务器端代码。我们也就能够在我们的服务器上直接挖掘数据，而无须将它处理成一个 ARFF 文件后才能手动运行它。

你可能感兴趣的:(Weka)

Java与机器学习的邂逅：Weka框架入门指南墨夶 Java学习资料1 java 机器学习数据挖掘
在这个数据驱动的时代，机器学习已经成为各行业创新和优化的关键技术。而Java，作为一门成熟且广泛应用的编程语言，在企业级应用开发中占据着重要地位。将二者结合起来，利用Java实现机器学习算法，不仅可以充分发挥其强大的生态系统优势，还能为开发者提供一个高效、稳定的开发环境。今天，我们将带您走进Java与机器学习的世界，探索如何使用Weka这一著名的机器学习库来开启您的智能之旅。Weka简介及其优势什
Weka通过10天的内存指标数据计算内存指标动态阈值飞火流星02027 机器学习 #人工智能 #Java 数据挖掘人工智能机器学习 Weka 计算指标动态阈值使用统计方法计算动态阈值
在数据处理和监控系统中，动态阈值的计算是一种常见的方法，用以根据数据的实际分布和变化来调整阈值，从而更有效地监控和预警。在Weka中，虽然它主要是用于机器学习和数据挖掘的工具，但你可以通过一些间接的方法来实现内存指标的动态阈值计算。下面是一些步骤和思路，你可以用来计算内存指标的动态阈值：环境Weka官方网站：Weka3-DataMiningwithOpenSourceMachineLearning
如何从Excel中导入数据集到Weka 漂洋过海cv
如何在Weka中加载CSV机器学习数据从Excel中导入数据集到Weka(.xlsx->.csv->.arff)具体内容参考下述文章：https://cloud.tencent.com/developer/news/122669
weka 决策树 marui1982 机器学习
1.参数说明：Generaloptions:-hor-helpOutputhelpinformation.-synopsisor-infoOutputsynopsisforclassifier(useinconjunctionwith-h)-t（trainfile，训练文件，通常训练时只需要此文件即可，会进行10交叉验证）Setstrainingfile.-T（测试文件，如果设置，则不进行交叉验证
R语言机器学习与临床预测模型77--机器学习预测常用R语言包武昌库里写JAVA 面试题汇总与解析 spring log4j java 开发语言算法
R小盐准备介绍R语言机器学习与预测模型的学习笔记你想要的R语言学习资料都在这里，快来收藏关注【科研私家菜】01预测模型常用R包常见回归分析包:rpart包含有分类回归树的方法;earth包可以实现多元自适应样条回归;mgev包含广义加性模型回归;Rweka包中的MSP函数可用于回归。pls包中的plsr函数实现偏最小二乘和主成分回归。stats包中的ppr函数实现投影寻踪分析，同时包括线性回归的方
Petitjean2016A代码运行配置 sunnyorcloudy
1.新建javaproject，名称DBA2.在projectlayout处，选择“Useprojectfolderasrootforsourcesandclassfiles”3.import-ExistingprojectsintoWorkspace-选择wekaprojectwekaproject是从weka官网下载weka-src.jar，解压后，将其中的main目录下的weka项目导入得来
11.4 看不懂就慢慢看啊反复练习的阿离很笨吧
记得组合数学正交拉丁方从0开始！突然觉得老师说得很有道理，演化计算里活得最好的，不是最优秀的但也不是最差的，是最能适应环境的，别人怎么做，他就怎么做。动态规划，运筹学贝叶斯是生成学习算法，生成一个概率模型判别学习算法高斯判别分析/**NB.java*Copyright2005LiangxiaoJiang*/packageweka.classifiers.gla;importweka.core.*;
2019-04-19 AliceGYY
线性函数Y=0.8567+0.516XX称为自变量，也就是自己会变化的量。Y称作因变量，也就是因为X变化而引起变化的量。线性回归，能够用来探索多个变量与另一个变量之间的线性关系。weka、SPSS软件实现编程。
Weka在数据挖掘中的运用 02 Getting Started with Weka jenye_
Weka的发音不是Weaker安装Weka研究“Explorer”接口研究一些数据集创建一个分类器解释输出使用filters（过滤器）可视化数据集安装Wekajava环境安装包选择适合你电脑系统的版本。Explorer界面对于这门课程指用到Exploer界面。Experimenter界面针对基于不同数据集的不同机器学习方法的大规模性能比较。KnowlegeFlow界面是Weka的图形界面和命令行界
《数据挖掘基础》实验：Weka平台实现聚类算法 lazyn 数据挖掘原理聚类数据挖掘算法机器学习 Weka
实验目的进一步理解聚类算法（K-平均、PAM、层次聚类、密度聚类），利用weka实现数据集的聚类处理，学会调整模型参数，以图或树的形式给出挖掘结果，并解释规则的含义。实验要求（1）随机选取数据集（UCI或data文件夹），需要做预处理的，单独说明处理过程。完成以下内容：（用四种方法：K-means、K-中心法、层次、密度）文件导入与编辑参数设置说明结果截图结果分析与对比（2）以AQI.xls中1-
Weka 分类树输出结果解析 Weighted.avg deer(écho) MachineLearning 分类数据挖掘人工智能
本文是对weka分类树的结果解释，集合了其它的博文我们使用的是weka自带的weather数据库先看左侧，classifier是分类方法，J48是递归分治策略；cross-validation表示交叉验证，使用了10-Foldspercentagesplit表示分割比例，用以分割训练集和测试集（猜的）再看看output，yes(9/3)(5/2)表示训练集里3个no，测试集里2个no(猜的x2)其
日撸java_day66-68 luv_x_c java 算法
文章目录主动学习ALEC代码运行结果主动学习ALEC代码packagemachineLearning.activelearning;importweka.core.Instances;importjava.io.FileReader;importjava.io.IOException;importjava.util.Arrays;/***ClassName:Alec*Package:machine
geemap学习笔记018：非监督分类静观云起 geemap 遥感 Python 学习笔记分类
前言非监督分类是遥感影像中非常常用的一种分类方式，下图是EarthEngine中常用的聚类方法，本节就以landsat8数据为例，采用ee.Clusterer.wekaKMeans()方法进行聚类分类。1导入库并显示地图importeeimportgeemapMap=geemap.Map()Map2添加数据point=ee.Geometry.Point([-87.7719,41.8799])#初始
数据挖掘课程设计——基于关联规则挖掘的美国国会议员投票行为分析（使用weka） Moonee_ 数据挖掘课程设计数据挖掘课程设计 weka 算法
基于关联规则挖掘的美国国会议员投票行为分析一、基本原理二、数据结果处理与分析1.数据预处理与分析（Weka实现/代码实现）①数据集说明②数据预处理（weka）③代码实现Apriori算法④关联规则分析⑤散点图分析⑥修改参数设置三、结论一、基本原理本项目使用了关联规则挖掘这一数据挖掘技术来分析美国国会议员投票行为，揭示出影响议员投票结果的因素和规律。关联规则挖掘是一种发现数据集中频繁项集之间关系的方
数据挖掘与机器学习——weka应用技术与实践 maggie_J 机器学习数据挖掘机器学习
第一章weka介绍1.1weka简介weka是怀卡托智分析环境（WaikatoEnvironmentforKnowledgeAnalysis）的英文缩写，官方网址为：，在该网站可以免费下载可运行软件和代码，还可以获得说明文档、常见问题解答、数据集和其他文献等资源。1.1.1Weka的历史团队宣称：我们的目标是要建立最先进的软件开发机器学习技术，并将其应用于解决现实世界的数据挖掘问题。目标：是机器学
Java矩阵运算包ujmp的基本使用余盛朋 java开发机器学习 UJMP
本人最近在用ujmp包写一些程序，ujmp包是针对于超大数据量计算的矩阵的运算包，并且有图形显示的功能且支持多种文件格式的读取和输出，还支持连接数据库，matlab数据类型和weka数据类型，总体来说非常好用，但是有一个很大的缺陷就是基本没有相关的示例和文档，官网上的示例有基本全都过时不能用了，本人总结了一下相关用法，仅供大家参考，代码并不能运行，知识给大家列出了相应的矩阵运算方式和构造方式，希望
centos7上wekan的安装；部署wekan（非docker） c921611946 linux 服务器
一、前置工作（1）端口问题1.查看端口查看已经开放的端口firewall-cmd--list-ports查看所有的端口netstat-ntlp2.开启一个端口，作为Wekan运行的端口（此端口必须是没有被使用的）打开配置文件vi/etc/sysconfig/iptables加入如下语句:-AINPUT-ptcp-mstate--stateNEW-mtcp--dport7000-jACCEPT重启防
大神都在用这5款数据挖掘工作还不速来pick一下！最牛爱码士
在大数据时代，数据意味着金钱，所以在互联网行业，数据的挖掘整理是很重要的一项工作。通过数据的整理挖掘能够很好的分析获取到有用的信息，并将其转化为可理解的和可用的形式。为了更好的帮助大家提高工作效率，巨牛汇外包小助手为大家推荐几款免费且好用的数据挖掘工具。下面不妨跟着巨牛汇外包小助手一起来看看吧！1.WekaWEKA是一个非常复杂的数据挖掘工具。它向您展示了数据集、集群、预测建模、可视化等方面的各种
Weka学习 -- StringToWordVector 源代码学习（1） aoe41606
代码整个运行流程參数设置input数据。设置数据格式batchFinished()，处理数据（Tokenzier。Stemming，Stopwords）determineDictionary();统计计算（TF。IDF）归一化output一些变量和方法的作用m_Dictionary,m_DocsCounts变量与m_OutputCounts变量意义publicTreeMapm_Dictionary
什么是ARFF文件，以.arff结尾子非Yu@Itfuture 数据分析 arff 大数据数据分析
关于arff,主要涉及三个输入类：概念、实例和属性。1.概念简单而言就是需要被处理的东西，2.实例这个词有些陌生，但是可以大致认为其为样本，3.属性就是数据表中的一列。为什么要用arff？（arff介绍）虽然Weka也支持其他一些格式的文件，但是ARFF格式是支持的最好的。是weka数据挖掘开源程序使用的一种文件模式，这是一种ASCII文本文件，因此有必要在数据处理之前把数据集的格式转换成ARFF
可视化数据挖掘开源软件的比较分析 weixin_30568591 大数据 java 人工智能
近年来，随着人脸识别、语音识别等技术的突破性进展，隐藏在它们背后的底层技术也引起工程和研究人员的高度重视，譬如机器学习。然而，机器学习是一个入门门槛相对比较高的技术领域，大部分的工程技术人员和业务人员都聚焦在业务领域的特征提取，算法选择，参数调优和模型验证上，因此一个方便高效的可视化工具，对于降低用户的机器学习学习曲线、提升工作效率显得尤为重要。本报告主要从开源和商业领域选取了WEKA、Rapid
WEKA把分类(Classification)和回归(Regression) Saudade_lh
1简介WEKA把分类(Classification)和回归(Regression)都放在“Classify”选项卡中，我们希望根据一个样本的一组特征，对目标进行预测。为了实现这一目的，我们需要有一个训练数据集，这个数据集中每个实例的输入和输出都是已知的。观察训练集中的实例，可以建立起预测的模型。有了这个模型，我们就可以新的输出未知的实例进行预测了，衡量模型的好坏就在于预测的准确程度。在WEKA中，
好用的研发管理看板工具有哪些？10款主流看板管理软件盘点开发者工具分享团队管理 PingCode更新产品经理必备工具项目管理软件
10大企业看板工具软件：1.软件开发项目看板PingCode；2.通用看板软件Worktile；3.开源看板软件Wekan；4.免费看板软件Trello；5.个人和小团队的看板软件Todoist；6.开源免费看Kanboard；7.面向个人免费的看板Teambition；8.软件开发项目看板Jira；9.开源项目看板LibreBoard；10.开源看板Jitamin。看板（KANBAN）能够很好的
51-60天谨言慎行324
第51天:kNN分类器两种距离度量.数据随机分割方式.间址的灵活使用:trainingSet和testingSet都是整数数组,表示下标.arff文件的读取.需要weka.jar包.求邻居.投票.代码如下：importjava.io.FileReader;importjava.util.Arrays;importjava.util.Random;importweka.core.*;publiccl
Weka----怀卡托智能分析环境（Waikato Environment for Knowledge Analysis） wzbclock 人工智能数据挖掘 java 产品 c
Weka的全名是怀卡托智能分析环境（WaikatoEnvironmentforKnowledgeAnalysis），是一款免费的，非商业化（与之对应的是SPSS公司商业数据挖掘产品--Clementine）的，基于JAVA环境下开源的机器学习（machinelearning）以及数据挖掘（dataminining）软件。它和它的源代码可在其官方网站下载。两个介绍weka的帖子：http://bai
Auto-WEKA(Waikato Environment for Knowledge Analysis) 卢延吉 ML &ME &GPT New Developer 数据挖掘机器学习
SimplyputAuto-WEKAisanautomatedmachinelearningtoolbasedonthepopularWEKA(WaikatoEnvironmentforKnowledgeAnalysis)software.Itstreamlinesthetasksofmodelselectionandhyperparameteroptimizationbycombiningthe
一些好的资料关于weka和数据挖掘 asa13214dsgf134sdf 数据挖掘自然语言处理搜索引擎网络图像处理数据仓库
http://space.itpub.net/7194105/viewspace-429888http://blog.csdn.net/baisung/article/details/7654437http://blog.sciencenet.cn/blog-242887-310994.htmlhttp://huzhyi21.blog.163.com/blog/static/10073962010
开源看板系统WeKan安装教程两句挽联
简介最近由于项目管理需要，找了一些开源相关的软件，有几款大体看下了，从页面、功能都还不错，比如TaigaScrumKanbanEpicsMultiprojectorangescrumorangescrumjitaminjitaminopenprojectopenprojectwekanwekan经过一些简单对比之后，包括需求、流行度、安装难易程度等，暂时选用了wekan来试一把安装过程环境Linu
Java中人工智能的框架永远的12 java 人工智能开发语言
在Java中,常用的人工智能框架有:Deeplearning4j:一个用于深度学习的开源Java框架,可以在多种平台上运行,包括CPU,GPU和ApacheHadoop。Weka:一个用于数据挖掘和机器学习的开源Java框架,包含大量的算法和工具,可以用于数据预处理,分类,回归,聚类和关联分析等。Mallet:一个用于自然语言处理的开源Java框架,包含大量的工具和算法,可以用于文本分类,语言模型
数据分享|WEKA信贷违约预测报告：用决策树、随机森林、支持向量机SVM、朴素贝叶斯、逻辑回归... 拓端研究室TRL 数据挖掘决策树随机森林支持向量机逻辑回归
完整报告链接：http://tecdat.cn/?p=28579作者：NuoLiu数据变得越来越重要，其核心应用“预测”也成为互联网行业以及产业变革的重要力量。近年来网络P2P借贷发展形势迅猛，一方面普通用户可以更加灵活、便快捷地获得中小额度的贷款，另一方面由于相当多数量用户出现违约问题而给P2P信贷平台以及借贷双方带来诸多纠纷，因此根据用户历史款情况准确预测潜在是否还会发生违约就非常有必要（点击
Java实现的基于模板的网页结构化信息精准抽取组件：HtmlExtractor yangshangchuan 信息抽取 HtmlExtractor 精准抽取信息采集
HtmlExtractor是一个Java实现的基于模板的网页结构化信息精准抽取组件，本身并不包含爬虫功能，但可被爬虫或其他程序调用以便更精准地对网页结构化信息进行抽取。 HtmlExtractor是为大规模分布式环境设计的，采用主从架构，主节点负责维护抽取规则，从节点向主节点请求抽取规则，当抽取规则发生变化，主节点主动通知从节点，从而能实现抽取规则变化之后的实时动态生效。如
java编程思想 -- 多态百合不是茶 java 多态详解
一: 向上转型和向下转型面向对象中的转型只会发生在有继承关系的子类和父类中（接口的实现也包括在这里）。父类：人子类：男人向上转型： Person p = new Man() ; //向上转型不需要强制类型转化向下转型： Man man =
[自动数据处理]稳扎稳打,逐步形成自有ADP系统体系 comsci dp
对于国内的IT行业来讲,虽然我们已经有了"两弹一星",在局部领域形成了自己独有的技术特征,并初步摆脱了国外的控制...但是前面的路还很长.... 首先是我们的自动数据处理系统还无法处理很多高级工程...中等规模的拓扑分析系统也没有完成,更加复杂的
storm 自定义日志文件商人shang storm cluster logback
Storm中的日志级级别默认为INFO，并且，日志文件是根据worker号来进行区分的，这样，同一个log文件中的信息不一定是一个业务的，这样就会有以下两个需求出现： 1. 想要进行一些调试信息的输出 2. 调试信息或者业务日志信息想要输出到一些固定的文件中不要怕，不要烦恼，其实Storm已经提供了这样的支持，可以通过自定义logback 下的 cluster.xml 来输
Extjs3 SpringMVC使用 @RequestBody 标签问题记录 21jhf
springMVC使用 @RequestBody(required = false) UserVO userInfo 传递json对象数据，往往会出现http 415，400,500等错误，总结一下需要使用ajax提交json数据才行，ajax提交使用proxy，参数为jsonData，不能为params；另外，需要设置Content-type属性为json，代码如下：（由于使用了父类aaa
一些排错方法文强chu 方法
1、java.lang.IllegalStateException: Class invariant violation at org.apache.log4j.LogManager.getLoggerRepository(LogManager.java:199)at org.apache.log4j.LogManager.getLogger(LogManager.java:228) at o
Swing中文件恢复我觉得很难小桔子 swing
我那个草了！老大怎么回事，怎么做项目评估的？只会说相信你可以做的，试一下，有的是时间！用java开发一个图文处理工具，类似word，任意位置插入、拖动、删除图片以及文本等。文本框、流程图等，数据保存数据库，其余可保存pdf格式。ok,姐姐千辛万苦，
php 文件操作 aichenglong PHP 读取文件写入文件
1 写入文件 @$fp=fopen("$DOCUMENT_ROOT/order.txt", "ab"); if(!$fp){ echo "open file error" ; exit; } $outputstring="date:"." \t tire:".$tire."
MySQL的btree索引和hash索引的区别 AILIKES 数据结构 mysql 算法
Hash 索引结构的特殊性，其检索效率非常高，索引的检索可以一次定位，不像B-Tree 索引需要从根节点到枝节点，最后才能访问到页节点这样多次的IO访问，所以 Hash 索引的查询效率要远高于 B-Tree 索引。可能很多人又有疑问了，既然 Hash 索引的效率要比 B-Tree 高很多，为什么大家不都用 Hash 索引而还要使用 B-Tree 索引呢
JAVA的抽象--- 接口 --实现百合不是茶
抽象接口实现接口 //抽象类 ,方法 //定义一个公共抽象的类 ,并在类中定义一个抽象的方法体抽象的定义使用abstract abstract class A 定义一个抽象类例如： //定义一个基类 public abstract class A{ //抽象类不能用来实例化，只能用来继承 //
JS变量作用域实例 bijian1013 作用域
<script> var scope='hello'; function a(){ console.log(scope); //undefined var scope='world'; console.log(scope); //world console.log(b);
TDD实践（二） bijian1013 java TDD
实践题目：分解质因数 Step1：单元测试： package com.bijian.study.factor.test; import java.util.Arrays; import junit.framework.Assert; import org.junit.Before; import org.junit.Test; import com.bijian.
[MongoDB学习笔记一]MongoDB主从复制 bit1129 mongodb
MongoDB称为分布式数据库，主要原因是1.基于副本集的数据备份， 2.基于切片的数据扩容。副本集解决数据的读写性能问题，切片解决了MongoDB的数据扩容问题。事实上，MongoDB提供了主从复制和副本复制两种备份方式，在MongoDB的主从复制和副本复制集群环境中，只有一台作为主服务器，另外一台或者多台服务器作为从服务器。本文介绍MongoDB的主从复制模式，需要指明
【HBase五】Java API操作HBase bit1129 hbase
import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apache.hadoop.hbase.HColumnDescriptor; import org.apache.ha
python调用zabbix api接口实时展示数据 ronin47
zabbix api接口来进行展示。经过思考之后，计划获取如下内容： 1、获得认证密钥 2、获取zabbix所有的主机组 3、获取单个组下的所有主机 4、获取某个主机下的所有监控项
jsp取得绝对路径 byalias 绝对路径
在JavaWeb开发中，常使用绝对路径的方式来引入JavaScript和CSS文件，这样可以避免因为目录变动导致引入文件找不到的情况，常用的做法如下：一、使用${pageContext.request.contextPath} 　　代码” ${pageContext.request.contextPath}”的作用是取出部署的应用程序名，这样不管如何部署，所用路径都是正确的。
Java定时任务调度：用ExecutorService取代Timer bylijinnan java
《Java并发编程实战》一书提到的用ExecutorService取代Java Timer有几个理由，我认为其中最重要的理由是：如果TimerTask抛出未检查的异常，Timer将会产生无法预料的行为。Timer线程并不捕获异常，所以 TimerTask抛出的未检查的异常会终止timer线程。这种情况下，Timer也不会再重新恢复线程的执行了;它错误的认为整个Timer都被取消了。此时，已经被
SQL 优化原则 chicony sql
一、问题的提出　在应用系统开发初期，由于开发数据库数据比较少，对于查询SQL语句，复杂视图的的编写等体会不出SQL语句各种写法的性能优劣，但是如果将应用系统提交实际应用后，随着数据库中数据的增加，系统的响应速度就成为目前系统需要解决的最主要的问题之一。系统优化中一个很重要的方面就是SQL语句的优化。对于海量数据，劣质SQL语句和优质SQL语句之间的速度差别可以达到上百倍，可见对于一个系统
java 线程弹球小游戏 CrazyMizzz java 游戏
最近java学到线程，于是做了一个线程弹球的小游戏，不过还没完善这里是提纲 1.线程弹球游戏实现 1.实现界面需要使用哪些API类 JFrame JPanel JButton FlowLayout Graphics2D Thread Color ActionListener ActionEvent MouseListener Mouse
hadoop jps出现process information unavailable提示解决办法 daizj hadoop jps
hadoop jps出现process information unavailable提示解决办法 jps时出现如下信息： 3019 -- process information unavailable3053 -- process information unavailable2985 -- process information unavailable2917 --
PHP图片水印缩放类实现 dcj3sjt126com PHP
<?php class Image{ private $path; function __construct($path='./'){ $this->path=rtrim($path,'/').'/'; } //水印函数，参数：背景图，水印图，位置，前缀,TMD透明度 public function water($b,$l,$pos
IOS控件学习：UILabel常用属性与用法 dcj3sjt126com ios UILabel
参考网站： http://shijue.me/show_text/521c396a8ddf876566000007 http://www.tuicool.com/articles/zquENb http://blog.csdn.net/a451493485/article/details/9454695 http://wiki.eoe.cn/page/iOS_pptl_artile_281
完全手动建立maven骨架 eksliang java eclipse Web
建一个 JAVA 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=App [-Dversion=0.0.1-SNAPSHOT] [-Dpackaging=jar] 建一个 web 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=web-a
配置清单 gengzg 配置
1、修改grub启动的内核版本 vi /boot/grub/grub.conf 将default 0改为1 拷贝mt7601Usta.ko到/lib文件夹拷贝RT2870STA.dat到 /etc/Wireless/RT2870STA/文件夹拷贝wifiscan到bin文件夹，chmod 775 /bin/wifiscan 拷贝wifiget.sh到bin文件夹，chm
Windows端口被占用处理方法 huqiji windows
以下文章主要以80端口号为例，如果想知道其他的端口号也可以使用该方法..........................1、在windows下如何查看80端口占用情况?是被哪个进程占用?如何终止等. 这里主要是用到windows下的DOS工具,点击"开始"--"运行",输入&
开源ckplayer 网页播放器，跨平台(html5, mobile)，flv, f4v, mp4, rtmp协议. webm, ogg, m3u8 ！天梯梦 mobile
CKplayer，其全称为超酷flv播放器，它是一款用于网页上播放视频的软件，支持的格式有：http协议上的flv,f4v,mp4格式，同时支持rtmp视频流格式播放，此播放器的特点在于用户可以自己定义播放器的风格，诸如播放/暂停按钮，静音按钮，全屏按钮都是以外部图片接口形式调用，用户根据自己的需要制作出播放器风格所需要使用的各个按钮图片然后替换掉原始风格里相应的图片就可以制作出自己的风格了，
简单工厂设计模式 hm4123660 java 工厂设计模式简单工厂模式
简单工厂模式（Simple Factory Pattern）属于类的创新型模式，又叫静态工厂方法模式。是通过专门定义一个类来负责创建其他类的实例，被创建的实例通常都具有共同的父类。简单工厂模式是由一个工厂对象决定创建出哪一种产品类的实例。简单工厂模式是工厂模式家族中最简单实用的模式，可以理解为是不同工厂模式的一个特殊实现。
maven笔记 zhb8015 maven
跳过测试阶段： mvn package -DskipTests 临时性跳过测试代码的编译： mvn package -Dmaven.test.skip=true maven.test.skip同时控制maven-compiler-plugin和maven-surefire-plugin两个插件的行为，即跳过编译，又跳过测试。指定测试类 mvn test
非mapreduce生成Hfile，然后导入hbase当中 Stark_Summer map hbase reduce Hfile path实例
最近一个群友的boss让研究hbase，让hbase的入库速度达到5w+/s，这可愁死了，4台个人电脑组成的集群，多线程入库调了好久，速度也才1w左右，都没有达到理想的那种速度，然后就想到了这种方式，但是网上多是用mapreduce来实现入库，而现在的需求是实时入库，不生成文件了，所以就只能自己用代码实现了，但是网上查了很多资料都没有查到，最后在一个网友的指引下，看了源码，最后找到了生成Hfile
jsp web tomcat 编码问题王新春 tomcat jsp pageEncode
今天配置jsp项目在tomcat上，windows上正常，而linux上显示乱码，最后定位原因为tomcat 的server.xml 文件的配置，添加 URIEncoding 属性： <Connector port="8080" protocol="HTTP/1.1" connectionTi