mmc2015

用 WEKA 进行数据挖掘，第 2 部分: 分类和群集（聚类）

数据挖掘是很多技术的共同术语，用以表达从数据中一点点地收集信息并将其转变成有实际意义的趋势和规则来提高您对数据的理解。在本系列 “用 WEKA 进行数据挖掘” 的第 2 部分我们将讨论两种最常见的数据挖掘方法 — 分类和群集 — 利用它们可以对您的数据进行更强大的分析。

简介

在用 WEKA 进行数据挖掘，第 1 部分：简介和回归，我介绍了数据挖掘的概念以及免费的开源软件 Waikato Environment for Knowledge Analysis（WEKA），利用它可以挖掘数据来获得趋势和模式。我还谈到了第一种数据挖掘的方法 — 回归 — 使用它可以根据一组给定的输入值预测数字值。这种分析方法非常容易进行，而且也是功能最不强大的一种数据挖掘方法，但是通过它，读者对 WEKA 有了很好的了解，并且它还提供了一个很好的例子，展示了原始数据是如何转换为有意义的信息的。

在本文中，我将带您亲历另外两种数据挖掘的方法，这二者要比回归模型稍微复杂一些，但功能则更为强大。如果回归模型只能为特定输入提供一个数值输出，那么这两种模型则允许您对数据做不同的解析。【其他解释：在这两个任务中，都有一个目标属性（输出变量）。我们希望根据一个样本(WEKA中称作实例)的一组特征（输入变量），对目标进行预测。在WEKA中，待预测的目标（输出）被称作Class属性，这应该是来自分类任务的“类”。一般的，若Class属性是分类型时我们的任务才叫分类，Class属性是数值型时我们的任务叫回归。】正如我在第 1 部分中所说的，数据挖掘的核心就是将正确的模型应用于数据。即便有了有关客户的最佳数据（无论这意味着什么），但是如果没有将正确的模型应用于数据，那么这些数据也没有任何意义。不妨从另一个角度考虑这件事情：如果您只使用能生成数值输出的回归模型，那么 Amazon 如何能告知您“购买了 X 产品的客户还购买了 Y 产品”？这里没有数值型的函数能够告诉您这类信息。所以让我们来深入研究可用在数据中的其他两个模型。

在本文中，我会反复提及称为“最近邻”的数据挖掘方法，但我不会过多地对其进行剖析，详细的介绍会在第 3 部分给出。不过，我在本文中的比较和描述部分将它包括进来以使讨论更为完整。

回页首

分类 vs. 群集 vs. 最近邻

在我深入探讨每种方法的细节并通过 WEKA 使用它们之前，我想我们应该先理解每个模型 — 每个模型适合哪种类型的数据以及每个模型试图实现的目标。我们还会将我们已有的模型 — 回归模型 — 也包括在我们的讨论之中，以便您可以看到这三种新模型与我们已经了解的这个模型的对比。我将通过实际的例子展示每个模型的使用以及各自的不同点。这些实际的例子均围绕着一个本地的 BMW 经销店展开，研究它如何能增加销售。这个经销店已经保存了所有其过去的销售信息及有关购买过 BMW、留意过 BMW 或是来过 BMW 展厅的每个客户的信息。这个经销店想要增加未来的销售并部署了数据挖掘来实现此目标。

回归

问题：“对于新的 BMW M5 车型我们该如何定价？” 回归模型只能给出这个问题的一个数值答案。回归模型会使用 BMW 和 M5 的过去销售数据来基于所售汽车的属性和卖点确定人们过去在这个经销店购买车的价格。然后，回归模型允许 BMW 经销店插入新车的属性来确定其价格。

比如：Selling Price = $25,000 + ($2900 * Liters in Engine) + ($9000 * isSedan) + ($11,000 * isConvertible) + ($100 * inches of car) + ($22,000 * isM)。

分类

问题：“那么客户 X 有多大的可能会购买最新的 BMW M5 呢？” 创建一个分类树（一个决策树），并借此挖掘数据就可以确定这个人购买一辆新的 M5 的可能性有多大。这个树上的节点可以是年龄、收入水平、目前拥有的车的数量、婚姻状况、有无孩子、房主还是租户。对这个决策树使用此人的这些属性就可以确定他购买 M5 的可能性。

群集

问题是：“哪个年龄组最喜欢银色的 BMW M5？”这就需要挖掘数据来对比过去购车者的年龄和过去购买的车的颜色。从这些数据，就能够找到某个年龄组（比如 22-30 岁）具有订购某种颜色的 BMW M5 的更高的倾向性（75% 购买蓝色）。同样地，它也可显示另一个不同的年龄组（比如 55-62）则更倾向于订购银色的 BMW（65 % 购买银色，20 % 购买灰色）。这些数据，当挖掘后，倾向于集中于某些特定年龄组和特定颜色周围，方便用户快速判断该数据内的模式。

分类

分类（也即分类树或决策树）是一种数据挖掘算法，为如何确定一个新的数据实例的输出创建逐步指导。它所创建的这个树上的每个节点都代表一个位置，在这个位置必须基于输入做出决策，并且会从一个节点移到下一个节点直至到达能够得出预测的输出的叶子节点。这虽然听起来有些让人迷惑，但其实它非常直观。让我们看一个例子。

清单 1. 简单的分类树

    [ Will You Read This Section? ]
          /              \
        Yes              No
        /                 \
[Will You Understand It?]  [Won't Learn It]
    /         \
  Yes          No
  /             \
  [Will Learn It]  [Won't Learn It]

这个简单的分类树试图回答这个问题：“您理解分类树么？”在每个节点，您都会回答这个问题并继续沿着分支下移，直到您到达一个回答了是或不是的叶子节点。这个模型可用于任何未知的数据实例，来预测这个未知数据实例是否通过只询问两个简单问题就能理解分类树。这看上去像是分类树的一大优势 — 它无需有关数据的大量信息就能创建一个十分准确且信息丰富的树。

分类树的一个重要概念非常类似于我们在用 WEKA 进行数据挖掘，第 1 部分：简介和回归回归模型中看到的概念：使用一个“训练集”来生成模型。就是拿一组输出值已知的数据集并使用此数据集来创建我们的模型。之后，只要我们有一个输出值未知的新的数据点，我们都可以将其放入这个模型并生成预期的输出。这与我们在回归模型中看到的没有差别。只不过，这个模型更进了一步，通常会把整个训练集分成两个部分：拿数据的约 60-80 % 放入我们的训练集，用来生成模型；然后拿剩下的数据放入一个测试集，在模型生成后，立即用其来测试我们模型的准确性。

那么这个额外的步骤为什么在此模型中如此重要呢？这个问题就是所谓的过拟合：如果我们提供过多数据用于模型创建，我们的模型虽然会被完美创建，但只针对的是该数据。请记住：我们想使用此模型来预测未来的未知数；我们不是想使用此模型来准确地预测我们已经知道的值。这就是为什么我们要创建一个测试集。在创建了模型后，我们要进行检查以确保我们所创建模型的准确性不会在测试集降低。这就保证了我们的模型会准确地预测出未来的未知值。使用 WEKA 会看到它的实际效果。

这还引出了分类树的另一个重要概念：修剪。修剪正如其名字所指，意思是删减分类树的枝条。那么为什么有人会想要将信息从分类树中删除呢？还是因为过拟合的缘故。随着数据集的增大以及属性数量的增长，我们所创建的树就会越来越复杂。理论上讲，一个树可以具有leaves = (rows * attributes)。但那又有何益处呢？就预测未来的未知数而言，它根本帮不到我们，因它只适于我们现有的训练数据。因此我们需要的是一种平衡。我们想要我们的树尽量简单，节点和枝叶尽量少。同时我们还想要它尽量地准确。这就需要进行权衡，我们不久就会看到。

在使用 WEKA 前，有关分类我还想指出最后一点，那就是假正和假负。假正指的是这样的一个数据实例：我们创建的这个模型预测它应该是正的，但事实相反，实际值却是负的。同样地，假负指的是这样一个数据实例：我们创建的这个模型预测它应该是负的，但事实相反，实际值却是正的。

这些错误表明在我们的模型中出了问题，我们的模型正在错误地分类某些数据。虽然可能会出现不正确的分类，但可接受的错误百分比由模型创建者决定。比如，如果是在医院里测试心脏监视器，很显然，将需要极低的错误百分比。而如果您只是在有关数据挖掘的文章中挖掘一些虚构的数据，那么错误率可以更高一些。为了使之更进一步，还需要决定可以接受的假负与假正的百分比率是多少。我立即想到的一个例子就是垃圾邮件模型：一个假正（一个真邮件被标记为了垃圾邮件）要比假负（一个垃圾消息未被标记为垃圾邮件）更具破坏性。在像这样的例子中，就可以判断假负：假正的比率最低为 100:1 才是可以接受的。

好了，对于分类树的背景和技术方面的介绍已经够多了。让我们现在开始获得一些真正的数据并将其带入 WEKA。

WEKA 数据集

我们用于分类示例的数据集所围绕的仍然是我们虚构的 BMW 经销店。这个经销店正在启动一个推销计划，试图向其老客户推销两年延保。这个经销店过去曾做过类似的计划并从过去的销售中收集了 4,500 个数据点。数据集中的属性有：

收入水平 [0=$0-$30k, 1=$31k-$40k, 2=$41k-$60k, 3=$61k-$75k, 4=$76k-$100k, 5=$101k-$150k, 6=$151k-$500k, 7=$501k+]
第一辆 BMW 购买的年/月
最近的 BMW 购买的年/月
是否过去曾响应过延保计划

让我们来看看在这个例子中使用的 Attribute-Relation File Format (ARFF)。

清单 2. 分类 WEKA 数据

@attribute IncomeBracket {0,1,2,3,4,5,6,7}
@attribute FirstPurchase numeric
@attribute LastPurchase numeric
@attribute responded {1,0}

@data

4,200210,200601,0
5,200301,200601,1
...

在 WEKA 内进行分类

使用我们之前使用过的相同步骤来将数据文件 bmw-training.arff （参见下载）载入 WEKA。请注意：这个文件只包含经销店记录内的这 4,500 个记录中的 3,000 个。我们需要分割我们的记录以便某些数据实例被用来创建模型，某些被用来测试模型以确保没有过拟合。在加载了数据后，屏幕应该类似于图 1。

图 1. WEKA 内的 BMW 分类数据

与我们在用 WEKA 进行数据挖掘，第 1 部分：简介和回归中对回归模型所做的类似，我们选择 Classify 选项卡，然后选择trees 节点，然后是J48 叶子（我不知道为何这就是正式的名称，不过还是接受吧）。

图 2. BMW 分类算法

至此，我们已经准备好可以在 WEKA 内创建我们的模型了。请确保 Use training set 被选中以便我们使用刚刚加载的这个数据集来创建模型。单击Start 并让 WEKA 运行。模型的输出应类似于清单 3 内的结果。

清单 3. WEKA 的分类模型的输出

Number of Leaves  : 	28

Size of the tree : 	43


Time taken to build model: 0.18 seconds

=== Evaluation on training set ===
=== Summary ===

Correctly Classified Instances        1774               59.1333 %
Incorrectly Classified Instances      1226               40.8667 %
Kappa statistic                          0.1807
Mean absolute error                      0.4773
Root mean squared error                  0.4885
Relative absolute error                 95.4768 %
Root relative squared error             97.7122 %
Total Number of Instances             3000     

=== Detailed Accuracy By Class ===

               TP Rate   FP Rate   Precision   Recall  F-Measure   ROC Area  Class
                 0.662     0.481      0.587     0.662     0.622      0.616    1
                 0.519     0.338      0.597     0.519     0.555      0.616    0
Weighted Avg.    0.591     0.411      0.592     0.591     0.589      0.616

=== Confusion Matrix ===

    a    b   <-- classified as
 1009  516 |    a = 1
 710  765 |    b = 0

上述这些数字是什么意思？我们怎么才能知道这是一个好的模型？我们应该寻找的这个所谓的“树”在哪里？这些问题问得很好。让我们逐一回答：

这些数字是什么意思？ 这里应该关注的重要数字是“Correctly Classified Instances”（59.1 %）与“Incorrectly Classified Instances”（40.9 %）旁边的这些数字。其他的重要数字还有“ROC Area”列第一行的这个数字（0.616）；我稍候会详细解释这个数字，目前只需记住即可。最后，在“Confusion Matrix”中，显示了假正和假负的数量。在这个矩阵中，假正为 516，假负为 710。
我们怎么才能知道这是一个好的模型？ 由于准确率仅为 59.1 %，我不得不承认经初步分析后，这不是一个非常好的模型。
这个所谓的“树”在哪里？ 要看到这个树，可右键单击刚刚创建的这个模型。在弹出菜单中，选择 Visualize tree。之后，就会看到我们所创建的这个分类树，虽然在本例中，可视树不能提供任何帮助。我们的树如图 3 所示。看到这个树的另一种方式是在 Classifier Output 内往高处看，其中的文本输出显示了具有节点和叶子的整个树。
【其他解释：这里我们解释一下“Confusion Matrix”的含义。】
=== Confusion Matrix ===
  a b <-- classified as
  74 64 | a = YES
  30 132 | b = NO
这个矩阵是说，原本“pep”是“YES”的实例，有74个被正确的预测为“YES”，有64个错误的预测成了“NO”；原本“pep”是“NO”的实例，有30个被错误的预测为“YES”，有132个正确的预测成了“NO”。74+64+30+132 = 300是实例总数，而(74+132)/300 = 0.68667正好是正确分类的实例所占比例。这个矩阵对角线上的数字越大，说明预测得越好。

图 3. 分类树可视化

还有最后一个步骤，就是验证我们的分类树，这需要贯穿模型运行我们的测试集并确保我们模型的准确性在测试集时与在训练集时相差不远。为此，在 Test options 内，选择Supplied test set 单选按钮并单击Set。选择文件 bmw-test.arff，内含 1,500 条记录，而这些记录在我们用来创建模型的训练集中是没有的。当我们这次单击Start 时，WEKA 将会贯穿我们已经创建的这个模型运行测试数据集并会让我们知道模型的情况。让我们现在单击Start。如下是输出。

图 4. 分类树测试

对比这个测试集的“Correctly Classified Instances”（55.7 %）与训练集的“Correctly Classified Instances”（59.1 %），我们看到此模型的准确性非常接近，这表明此模型不会在应用未知数据或未来数据时，发生故障。

不过，由于模型的准确性很差，只能正确地分类 60 % 的数据记录，因此我们可以后退一步说：“哦，这个模型一点都不好。其准确性勉强超过 50 %，我随便猜猜，也能得到这样的准确性。”这完全正确。这也是我想审慎地告诉大家的一点：有时候，将数据挖掘算法应用到数据集有可能会生成一个糟糕的模型。这一点在这里尤其准确，并且它是故意的。

我本想带您亲历用适合于分类模型的数据生成一个分类树的全过程。然而，我们从 WEKA 获得的结果表明我们错了。我们在这里本应选择的并非分类树。我们所创建的这个模型不能告诉我们任何信息，并且如果我们使用它，我们可能会做出错误的决策并浪费钱财。

那么这是不是意味着该数据无法被挖掘呢？当然不是，只不过需要使用另一种数据挖掘方法：最近邻模型，该模型会在本系列的后续文章中讨论，它使用相同的数据集，却能创建一个准确性超过 88 % 的模型。它旨在强调一点：那就是必须为数据选择合适的模型才能得到有意义的信息。

进一步阅读：如果您想更多地了解分类树，有一些关键字可以查找，因篇幅的原因我在这里就不逐一介绍了：ROC curves、AUC、false positives、false negatives、learning curves、Naive Bayes、information gain、overfitting、 pruning、chi-square test。

回页首

【其他解释】：

模型应用
现在我们要用生成的模型对那些待预测的数据集进行预测了。注意待预测数据集和训练用数据集各个属性的设置必须是一致的。即使你没有待预测数据集的Class属性的值，你也要添加这个属性，可以将该属性在各实例上的值均设成缺失值。
在“Test Opion”中选择“Supplied test set”，并且“Set”成你要应用模型的数据集，这里是“bank-new.arff”文件。
现在，右键点击“Result list”中刚产生的那一项，选择“Re-evaluate model on current test set”。右边显示结果的区域中会增加一些内容，告诉你该模型应用在这个数据集上表现将如何。如果你的Class属性都是些缺失值，那这些内容是无意义的，我们关注的是模型在新数据集上的预测值。
现在点击右键菜单中的“Visualize classifier errors”，将弹出一个新窗口显示一些有关预测误差的散点图。点击这个新窗口中的“Save”按钮，保存一个Arff文件。打开这个文件可以看到在倒数第二个位置多了一个属性（predictedpep），这个属性上的值就是模型对每个实例的预测值。

使用命令行（推荐）
虽然使用图形界面查看结果和设置参数很方便，但是最直接最灵活的建模及应用的办法仍是使用命令行。
打开“Simple CLI”模块，像上面那样使用“J48”算法的命令格式为：
java weka.classifiers.trees.J48 -C 0.25 -M 2 -t directory-path\bank.arff -d directory-path \bank.model
其中参数“ -C 0.25”和“-M 2”是和图形界面中所设的一样的。“-t ”后面跟着的是训练数据集的完整路径（包括目录和文件名），“-d ”后面跟着的是保存模型的完整路径。注意！这里我们可以把模型保存下来。
输入上述命令后，所得到树模型和误差分析会在“Simple CLI”上方显示，可以复制下来保存在文本文件里。误差是把模型应用到训练集上给出的。
把这个模型应用到“bank-new.arff”所用命令的格式为：

java weka.classifiers.trees.J48 -p 9 -l directory-path\bank.model -T directory-path \bank-new.arff

其中“-p 9”说的是模型中的待预测属性的真实值存在第9个（也就是“pep”）属性中，这里它们全部未知因此全部用缺失值代替。“-l”后面是模型的完整路径。“-T”后面是待预测数据集的完整路径。
输入上述命令后，在“Simple CLI”上方会有这样一些结果：
0 YES 0.75 ?
1 NO 0.7272727272727273 ?
2 YES 0.95 ?
3 YES 0.8813559322033898 ?
4 NO 0.8421052631578947 ?
...
这里的第一列就是我们提到过的“Instance_number”，第二列就是刚才的“predictedpep”，第四列则是“bank-new.arff”中原来的“pep”值（这里都是“?”缺失值）。第三列对预测结果的置信度（confidence ）。比如说对于实例0，我们有75%的把握说它的“pep”的值会是“YES”，对实例4我们有84.2%的把握说它的“pep”值会是“NO”。
我们看到，使用命令行至少有两个好处。一个是可以把模型保存下来，这样有新的待预测数据出现时，不用每次重新建模，直接应用保存好的模型即可。另一个是对预测结果给出了置信度，我们可以有选择的采纳预测结果，例如，只考虑那些置信度在85%以上的结果。

----整理自 http://maya.cs.depaul.edu/~classes/ect584/WEKA/classify.html

群集（聚类）

群集让用户可以通过数据组来从数据确定模式。当数据集已定义并且需要从此数据确定一个通用的模式时，群集的优势就会比较明显。您可以根据自身业务需要创建一定数量的组。与分类相比，群集的一个好处是数据集内的每个属性都被用来分析该数据。（在分类方法中，只有属性的一个子集用在了模型中。）使用群集的一个主要劣势是用户需要提前知道他想要创建的组的数量。若用户对其数据知之甚少，这可能会很困难。是应该创建三个组？五个组？还是十个组？所以在决定要创建的理想组数之前，可能需要进行几个步骤的尝试和出错。

不过，对于一般的用户，群集有可能是最为有用的一种数据挖掘方法。它可以迅速地将整个数据集分成组，供您快速得出结论。此方法背后的算法多少有些复杂和难懂，这也是我们为何要充分利用 WEKA 的原因。

算法概览

如下是对群集中所用算法的一个简要的快速概览：

数据集内的每个属性都应该是规格化的，因此，每个值均除以该属性在数据集内的最高值与最低值间的差值。例如，如果属性是年龄，且最高值为 72，最低值为 16，那么年龄 32 将被规格化为 0.5714。
理想的群集数量给定后，就可以随机地从数据集选择该数量的样例来充当我们初始测试群集中心。比如，如果想要有三个群集，那么就可以从数据集中随意选择三行数据。
计算从每个数据样例到群集中心（我们随意选中的数据行）的距离，使用距离计算的最小平方法。
基于到每个群集中心的最短距离将每个数据行分配给一个群集。
计算重心，即只使用每个群集的数的每列数据的平均数。
计算每个数据样例与刚刚创建的这些重心之间的距离。如果群集及群集数不变，那么就说明大功告成，群集创建完毕。如果它们变化，那么就需要返回到步骤 3 重新开始并一遍遍重复，直到不再变化为止。

很显然，这看上去不怎么有趣。对于一个具有 10 行和三个群集的数据集，若使用电子数据表，需要花上 30 分钟才能完成。那么想象一下，如果有 100,000 数据行和 10 个群集，若用手工完成那将花费多长时间。所幸的是，计算机在几秒内就可以完成这类计算。

【其他解释】：

原理与实现
聚类分析中的“类”（cluster）和前面分类的“类”（class）是不同的，对cluster更加准确的翻译应该是“簇”。聚类的任务是把所有的实例分配到若干的簇，使得同一个簇的实例聚集在一个簇中心的周围，它们之间距离的比较近；而不同簇实例之间的距离比较远。对于由数值型属性刻画的实例来说，这个距离通常指欧氏距离。
现在我们对前面的“bank data”作聚类分析，使用最常见的K均值（K-means）算法。下面我们简单描述一下K均值聚类的步骤。
K均值算法首先随机的指定K个簇中心。然后：1)将每个实例分配到距它最近的簇中心，得到K个簇；2)计分别计算各簇中所有实例的均值，把它们作为各簇新的簇中心。重复1)和2)，直到K个簇中心的位置都固定，簇的分配也固定。

对于数值型的属性，簇中心就是它的均值（Mean）；分类型的就是它的众数（Mode），也就是说这个属性上取值为众数值的实例最多。对于数值型的属性，还给出了它在各个簇里的标准差（Std Devs）。

WEKA 的数据集

我们为群集示例要使用的这个数据集同样也围绕着我们虚构的 BMW 经销店。这个经销店保留了人们如何在经销店以及展厅行走、他们看了哪些车以及他们最终购车的机率的记录。经销店期望通过寻找数据内的模式挖掘这些数据并使用群集来判断其客户是否有某种行为特点。在这个例子中有 100 行数据，并且每个列都描述了顾客在他们各自的 BMW 体验中所到达的步骤，比如列中的 1 表示到达这一步的顾客看过这辆车，0 表示他们不曾到达看过车的这一步。清单 4 显示了我们在 WEKA 中所使用的 ARFF 数据。

清单 4. 群集 WEKA 数据

@attribute Dealership numeric
@attribute Showroom numeric
@attribute ComputerSearch numeric
@attribute M5 numeric
@attribute 3Series numeric
@attribute Z4 numeric
@attribute Financing numeric
@attribute Purchase numeric

@data

1,0,0,0,0,0,0,0
1,1,1,0,0,0,1,0
...

在 WEKA 内进行群集

采用与将数据加载到 Preprocess 选项卡时的相同步骤来将数据文件 bmw-browsers.arff 加载到 WEKA 内。花上几分钟时间来查看一下这个选项卡内的数据。看看这些列、属性数据以及列的分布等。在加载数据后，屏幕应该类似于图 5。

图 5. WEKA 内的 BMW 群集数据

有了这个数据集，我们就可以开始创建群集了，所以这次不是单击 Classify 选项卡，而是要单击 Cluster 选项卡。单击Choose 并从所出现的各种选项中选择SimpleKMeans（这是本文中我们所期望的进行群集的方法）。这时的 WEKA Explorer 窗口应该如图 6 所示。

图 6. BMW 群集算法

最后，我们想要通过单击 SimpleKMeans 调整我们群集算法的属性（虽然不是最佳的 UI 设计，但还是先接受吧）。这里我们想要调整的这个算法的惟一属性是numClusters 字段，它表明我们想要创建多少群集。（在开始之前，需要知道这一点。）让我们将默认值从 2 更改为 5，若将来想要调整所创建群集的数量，就可以采用这些步骤。此时的 WEKA Explorer 应该类似于图 7。单击OK 以接受这些值。

图 7. 群集属性

至此，我们已经可以运行这个群集算法了。如果使用电子数据表处理 100 行数据和五个数据群集将会花费几个小时的计算时间，但 WEKA 在不到一秒钟的时间内就能给出答案。输出应该类似于清单 5。

清单 5. 群集输出

                               Cluster#
Attribute            Full Data      0          1          2          3          4
                       (100)       (26)       (27)        (5)       (14)       (28)
==================================================================================
Dealership              0.6     0.9615     0.6667          1     0.8571          0
Showroom               0.72     0.6923     0.6667          0     0.5714          1
ComputerSearch         0.43     0.6538          0          1     0.8571     0.3214
M5                     0.53     0.4615      0.963          1     0.7143          0
3Series                0.55     0.3846     0.4444        0.8     0.0714          1
Z4                     0.45     0.5385          0        0.8     0.5714     0.6786
Financing              0.61     0.4615     0.6296        0.8          1        0.5
Purchase               0.39          0     0.5185        0.4          1     0.3214


Clustered Instances

0       26 ( 26%)
1       27 ( 27%)
2        5 (  5%)
3       14 ( 14%)
4       28 ( 28%)

那么这些结果该如何解析呢？这个输出告诉我们每个群集是如何联系在一起的，其中 “1” 表示该群集中的每个人都有相同的值 1，而 “0” 则表示该群集中的每个人的该属性都有一个值 0。其他的数值是群集内的每个人的平均值。每个群集向我们展示了顾客内的一种行为类型，从中我们可以开始得出如下结论：

群集 0— 这个组我们可以称之为 “Dreamers”，因他们围着经销店徘徊，查看在停车场上停着的车，却不步入店面内，且更糟的是，他们没有购买过任何东西。
群集 1— 我们将这一组称为是 “M5 Lovers”，因为他们常常会径直走到 M5 车型区，对 3-系列的车型和 Z4 均视而不见。不过，他们也没有多高的购买率 — 只有 52 %。这表明存在潜在问题，也是经销店今后改进的重点，比如可以派更多的销售人员到 M5 区。
群集 2— 这个组很小，我们可以称之为 “Throw-Aways”，因为他们没有统计意义上的相关性，我们也不能从其行为得出任何好的结论。（这种情况若在群集上发生，可能表明应该减少所创建的群集的数量。）
群集 3— 这个组，我们称之为 “BMW Babies”，因为他们总是会购买一辆车而且还会支付车款。正是在这里，数据向我们显示了一些有趣的事情：他们一般会在停车场内查看各种车型，然后返回到经销店内的计算机处搜索中意的车型是否有货。他们最终会购买 M5 或 Z4 车型（但从不购买 3-系列的）。这个群集告诉经销店它应该考虑让它的搜索计算机在停车场处就能很容易地被看到（或安置一台室外的搜索计算机），并且让 M5 或 Z4 在搜索结果中更为醒目。一旦顾客决定购买汽车，他总是符合购车款的支付条件并能够圆满完成这次购买。
群集 4— 这个组我们将称之为 “Starting Out With BMW”，因为他们总是看 3-系列的车型，从不看贵很多的 M5。他们会径直步入展厅，而不会在停车场处东看西看，而且也不会使用计算机搜索终端。他们中有 50 % 会到达支付车款的阶段，但只有 32 % 会最终成交。经销店可以得出这样的结论：这些初次购买 BMW 车的顾客知道自己想要的车型是哪种（ 3-系列的入门级车型）而且希望能够符合购车款的支付条件以便买得起。经销店可以通过放松购车款的支付条件或是降低 3- 系列车型的价格来提高这一组的销售。

研究这些群集中数据的一种有趣方式是可视地查看它。为此，应该在 Cluster 选项卡上的这个 Result List 区域右键单击（同样地，亦不是最佳设计的 UI）。弹出菜单的一个选项是Visualize Cluster Assignments。弹出的窗口则会让您处理这些结果并可视地查看它们。对于本例，将 X 轴更改为M5(Num)，将 Y 轴更改为Purchase (Num)，将颜色更改为 Cluster (Nom)。结果，有一个图表会向我们显示这些群集是如何按照谁看过 M5 以及谁购买了一辆 M5 分组的。而且，将“Jitter”放大到最高的 3/4 处，这会手动地将这些标绘点分散开以便我们能更容易地看到它们。

那么这些可视结果是否与我们从清单 5 中的结果集中得出的结论相符呢？我们可以从 X=1, Y=1 这一点（即看过 M5 且进行过购买的那些人）看出这里所表示的群集只有是 1 和 3。我们还看到处于点 X=0, Y=0 的群集只有 4 和 0。那么这与我们上述结论是否相符呢？答案是肯定的。群集 1 和 3 是过去购买过 M5 的，而群集 0 则没有购买过任何车型，群集 4 只关注 3-系列。图 8 显示了本例的可视群集布局。您可以随意尝试更改 X 和 Y 轴来辨别出其他的趋势和模式。

图 8. 群集可视查看

进一步阅读：如果您有兴趣进一步钻研，可以按如下术语搜索相关信息： Euclidean distance、Lloyd's algorithm、Manhattan Distance、Chebyshev Distance、sum of squared errors、cluster centroids。

回页首

结束语

本文讨论了两种数据挖掘算法：分类树和群集。这两种算法与用 WEKA 进行数据挖掘，第 1 部分：简介和回归中介绍的回归模型的算法不同之处在于没有从模型只能得到数值输出的限制。这两个模型允许输出更为灵活，是数据挖掘领域的两个功能更为强大的武器。

从字面上理解，分类树就是要创建一个具有分支、节点和枝叶的树，能够让我们拿一个未知的数据点，将此数据点的属性应用到这个树并顺着这个树下移，直到到达一个叶子并且数据点的未知输出可以断定。我们了解了为了创建一个好的分类树模型，我们必须要有一个输出已知的现有数据集，从这个数据集才能构建我们的模型。我们还看到了我们需要将我们的数据集分成两个部分：一个用来创建模型的训练集；一个用来验证模型是否正确且没有过拟合的测试集。作为本部分的最后一个要点，我还指出在某些时候，即便是创建了一个您认为正确的数据模型，它也可能不正确，而您必须要摒弃整个模型和算法以寻找更好的解决方案。

群集算法是对一个数据集中的数据进行分组，以便您可以基于在这些组中看到的趋势得出结论。群集与分类及回归的不同之处在于它不生成单个的输出变量（结论容易得出），因而要求您必需观察输出并尝试得出自己的结论。正如在本例中看到的，这个模型生成了五个群集，但对群集内的这些数据的分析以及从这些信息中得出结论则取决于我们。就此而言，非常难以生成准确的群集模型（想象一下如果我们创建了过多或过少的群集，结果将会如何），而另一方面，我们将能够从这个结果集中挖掘出一些有趣的信息 — 这些信息是使用我们之前讨论过的其他任何模型都无法得到的。

第 3 部分是 “用 WEKA 进行数据挖掘” 系列的结束篇，会以最近邻模型结束我们对模型的讨论。我们还将会将 WEKA 用作第三方 Java™ 库，而不是作为一个独立的应用程序，这样一来，我们就可以将其直接嵌入到我们的服务器端代码。我们也就能够在我们的服务器上直接挖掘数据，而无须将它处理成一个 ARFF 文件后才能手动运行它。

回页首

下载

描述	名字	大小
示例代码	os-weka2-Examples.zip	17KB

参考资料

学习

WEKA 要求所有关于它的出版物都必须提及这篇题为 “The WEKA Data Mining Software: An Update” （作者 Mark Hall、Eibe Frank、Geoffrey Holmes、Bernhard PfahringerPeter Reutemann 和 Ian H. Witten）的论文。
利用 YouTube 上的这个视频了解如何将一个电子数据表用于一个简单的回归模型。
查阅 WEKA Web 站点获得此软件的所有文档和一个 FAQ。
在 Wikipedia 上查阅回归分析，这里可能有比您想象中还要多的技术细节。
阅读有关 ARFF 的详细信息，以便您可以将数据加载入 WEKA。

你可能感兴趣的:(WEKA)

Weka通过10天的内存指标数据计算内存指标动态阈值飞火流星02027 机器学习 #人工智能 #Java 数据挖掘人工智能机器学习 Weka 计算指标动态阈值使用统计方法计算动态阈值
在数据处理和监控系统中，动态阈值的计算是一种常见的方法，用以根据数据的实际分布和变化来调整阈值，从而更有效地监控和预警。在Weka中，虽然它主要是用于机器学习和数据挖掘的工具，但你可以通过一些间接的方法来实现内存指标的动态阈值计算。下面是一些步骤和思路，你可以用来计算内存指标的动态阈值：环境Weka官方网站：Weka3-DataMiningwithOpenSourceMachineLearning
如何从Excel中导入数据集到Weka 漂洋过海cv
如何在Weka中加载CSV机器学习数据从Excel中导入数据集到Weka(.xlsx->.csv->.arff)具体内容参考下述文章：https://cloud.tencent.com/developer/news/122669
weka 决策树 marui1982 机器学习
1.参数说明：Generaloptions:-hor-helpOutputhelpinformation.-synopsisor-infoOutputsynopsisforclassifier(useinconjunctionwith-h)-t（trainfile，训练文件，通常训练时只需要此文件即可，会进行10交叉验证）Setstrainingfile.-T（测试文件，如果设置，则不进行交叉验证
R语言机器学习与临床预测模型77--机器学习预测常用R语言包武昌库里写JAVA 面试题汇总与解析 spring log4j java 开发语言算法
R小盐准备介绍R语言机器学习与预测模型的学习笔记你想要的R语言学习资料都在这里，快来收藏关注【科研私家菜】01预测模型常用R包常见回归分析包:rpart包含有分类回归树的方法;earth包可以实现多元自适应样条回归;mgev包含广义加性模型回归;Rweka包中的MSP函数可用于回归。pls包中的plsr函数实现偏最小二乘和主成分回归。stats包中的ppr函数实现投影寻踪分析，同时包括线性回归的方
Petitjean2016A代码运行配置 sunnyorcloudy
1.新建javaproject，名称DBA2.在projectlayout处，选择“Useprojectfolderasrootforsourcesandclassfiles”3.import-ExistingprojectsintoWorkspace-选择wekaprojectwekaproject是从weka官网下载weka-src.jar，解压后，将其中的main目录下的weka项目导入得来
11.4 看不懂就慢慢看啊反复练习的阿离很笨吧
记得组合数学正交拉丁方从0开始！突然觉得老师说得很有道理，演化计算里活得最好的，不是最优秀的但也不是最差的，是最能适应环境的，别人怎么做，他就怎么做。动态规划，运筹学贝叶斯是生成学习算法，生成一个概率模型判别学习算法高斯判别分析/**NB.java*Copyright2005LiangxiaoJiang*/packageweka.classifiers.gla;importweka.core.*;
2019-04-19 AliceGYY
线性函数Y=0.8567+0.516XX称为自变量，也就是自己会变化的量。Y称作因变量，也就是因为X变化而引起变化的量。线性回归，能够用来探索多个变量与另一个变量之间的线性关系。weka、SPSS软件实现编程。
Weka在数据挖掘中的运用 02 Getting Started with Weka jenye_
Weka的发音不是Weaker安装Weka研究“Explorer”接口研究一些数据集创建一个分类器解释输出使用filters（过滤器）可视化数据集安装Wekajava环境安装包选择适合你电脑系统的版本。Explorer界面对于这门课程指用到Exploer界面。Experimenter界面针对基于不同数据集的不同机器学习方法的大规模性能比较。KnowlegeFlow界面是Weka的图形界面和命令行界
《数据挖掘基础》实验：Weka平台实现聚类算法 lazyn 数据挖掘原理聚类数据挖掘算法机器学习 Weka
实验目的进一步理解聚类算法（K-平均、PAM、层次聚类、密度聚类），利用weka实现数据集的聚类处理，学会调整模型参数，以图或树的形式给出挖掘结果，并解释规则的含义。实验要求（1）随机选取数据集（UCI或data文件夹），需要做预处理的，单独说明处理过程。完成以下内容：（用四种方法：K-means、K-中心法、层次、密度）文件导入与编辑参数设置说明结果截图结果分析与对比（2）以AQI.xls中1-
Weka 分类树输出结果解析 Weighted.avg deer(écho) MachineLearning 分类数据挖掘人工智能
本文是对weka分类树的结果解释，集合了其它的博文我们使用的是weka自带的weather数据库先看左侧，classifier是分类方法，J48是递归分治策略；cross-validation表示交叉验证，使用了10-Foldspercentagesplit表示分割比例，用以分割训练集和测试集（猜的）再看看output，yes(9/3)(5/2)表示训练集里3个no，测试集里2个no(猜的x2)其
日撸java_day66-68 luv_x_c java 算法
文章目录主动学习ALEC代码运行结果主动学习ALEC代码packagemachineLearning.activelearning;importweka.core.Instances;importjava.io.FileReader;importjava.io.IOException;importjava.util.Arrays;/***ClassName:Alec*Package:machine
geemap学习笔记018：非监督分类静观云起 geemap 遥感 Python 学习笔记分类
前言非监督分类是遥感影像中非常常用的一种分类方式，下图是EarthEngine中常用的聚类方法，本节就以landsat8数据为例，采用ee.Clusterer.wekaKMeans()方法进行聚类分类。1导入库并显示地图importeeimportgeemapMap=geemap.Map()Map2添加数据point=ee.Geometry.Point([-87.7719,41.8799])#初始
数据挖掘课程设计——基于关联规则挖掘的美国国会议员投票行为分析（使用weka） Moonee_ 数据挖掘课程设计数据挖掘课程设计 weka 算法
基于关联规则挖掘的美国国会议员投票行为分析一、基本原理二、数据结果处理与分析1.数据预处理与分析（Weka实现/代码实现）①数据集说明②数据预处理（weka）③代码实现Apriori算法④关联规则分析⑤散点图分析⑥修改参数设置三、结论一、基本原理本项目使用了关联规则挖掘这一数据挖掘技术来分析美国国会议员投票行为，揭示出影响议员投票结果的因素和规律。关联规则挖掘是一种发现数据集中频繁项集之间关系的方
数据挖掘与机器学习——weka应用技术与实践 maggie_J 机器学习数据挖掘机器学习
第一章weka介绍1.1weka简介weka是怀卡托智分析环境（WaikatoEnvironmentforKnowledgeAnalysis）的英文缩写，官方网址为：，在该网站可以免费下载可运行软件和代码，还可以获得说明文档、常见问题解答、数据集和其他文献等资源。1.1.1Weka的历史团队宣称：我们的目标是要建立最先进的软件开发机器学习技术，并将其应用于解决现实世界的数据挖掘问题。目标：是机器学
Java矩阵运算包ujmp的基本使用余盛朋 java开发机器学习 UJMP
本人最近在用ujmp包写一些程序，ujmp包是针对于超大数据量计算的矩阵的运算包，并且有图形显示的功能且支持多种文件格式的读取和输出，还支持连接数据库，matlab数据类型和weka数据类型，总体来说非常好用，但是有一个很大的缺陷就是基本没有相关的示例和文档，官网上的示例有基本全都过时不能用了，本人总结了一下相关用法，仅供大家参考，代码并不能运行，知识给大家列出了相应的矩阵运算方式和构造方式，希望
centos7上wekan的安装；部署wekan（非docker） c921611946 linux 服务器
一、前置工作（1）端口问题1.查看端口查看已经开放的端口firewall-cmd--list-ports查看所有的端口netstat-ntlp2.开启一个端口，作为Wekan运行的端口（此端口必须是没有被使用的）打开配置文件vi/etc/sysconfig/iptables加入如下语句:-AINPUT-ptcp-mstate--stateNEW-mtcp--dport7000-jACCEPT重启防
大神都在用这5款数据挖掘工作还不速来pick一下！最牛爱码士
在大数据时代，数据意味着金钱，所以在互联网行业，数据的挖掘整理是很重要的一项工作。通过数据的整理挖掘能够很好的分析获取到有用的信息，并将其转化为可理解的和可用的形式。为了更好的帮助大家提高工作效率，巨牛汇外包小助手为大家推荐几款免费且好用的数据挖掘工具。下面不妨跟着巨牛汇外包小助手一起来看看吧！1.WekaWEKA是一个非常复杂的数据挖掘工具。它向您展示了数据集、集群、预测建模、可视化等方面的各种
Weka学习 -- StringToWordVector 源代码学习（1） aoe41606
代码整个运行流程參数设置input数据。设置数据格式batchFinished()，处理数据（Tokenzier。Stemming，Stopwords）determineDictionary();统计计算（TF。IDF）归一化output一些变量和方法的作用m_Dictionary,m_DocsCounts变量与m_OutputCounts变量意义publicTreeMapm_Dictionary
什么是ARFF文件，以.arff结尾子非Yu@Itfuture 数据分析 arff 大数据数据分析
关于arff,主要涉及三个输入类：概念、实例和属性。1.概念简单而言就是需要被处理的东西，2.实例这个词有些陌生，但是可以大致认为其为样本，3.属性就是数据表中的一列。为什么要用arff？（arff介绍）虽然Weka也支持其他一些格式的文件，但是ARFF格式是支持的最好的。是weka数据挖掘开源程序使用的一种文件模式，这是一种ASCII文本文件，因此有必要在数据处理之前把数据集的格式转换成ARFF
可视化数据挖掘开源软件的比较分析 weixin_30568591 大数据 java 人工智能
近年来，随着人脸识别、语音识别等技术的突破性进展，隐藏在它们背后的底层技术也引起工程和研究人员的高度重视，譬如机器学习。然而，机器学习是一个入门门槛相对比较高的技术领域，大部分的工程技术人员和业务人员都聚焦在业务领域的特征提取，算法选择，参数调优和模型验证上，因此一个方便高效的可视化工具，对于降低用户的机器学习学习曲线、提升工作效率显得尤为重要。本报告主要从开源和商业领域选取了WEKA、Rapid
WEKA把分类(Classification)和回归(Regression) Saudade_lh
1简介WEKA把分类(Classification)和回归(Regression)都放在“Classify”选项卡中，我们希望根据一个样本的一组特征，对目标进行预测。为了实现这一目的，我们需要有一个训练数据集，这个数据集中每个实例的输入和输出都是已知的。观察训练集中的实例，可以建立起预测的模型。有了这个模型，我们就可以新的输出未知的实例进行预测了，衡量模型的好坏就在于预测的准确程度。在WEKA中，
好用的研发管理看板工具有哪些？10款主流看板管理软件盘点开发者工具分享团队管理 PingCode更新产品经理必备工具项目管理软件
10大企业看板工具软件：1.软件开发项目看板PingCode；2.通用看板软件Worktile；3.开源看板软件Wekan；4.免费看板软件Trello；5.个人和小团队的看板软件Todoist；6.开源免费看Kanboard；7.面向个人免费的看板Teambition；8.软件开发项目看板Jira；9.开源项目看板LibreBoard；10.开源看板Jitamin。看板（KANBAN）能够很好的
51-60天谨言慎行324
第51天:kNN分类器两种距离度量.数据随机分割方式.间址的灵活使用:trainingSet和testingSet都是整数数组,表示下标.arff文件的读取.需要weka.jar包.求邻居.投票.代码如下：importjava.io.FileReader;importjava.util.Arrays;importjava.util.Random;importweka.core.*;publiccl
Weka----怀卡托智能分析环境（Waikato Environment for Knowledge Analysis） wzbclock 人工智能数据挖掘 java 产品 c
Weka的全名是怀卡托智能分析环境（WaikatoEnvironmentforKnowledgeAnalysis），是一款免费的，非商业化（与之对应的是SPSS公司商业数据挖掘产品--Clementine）的，基于JAVA环境下开源的机器学习（machinelearning）以及数据挖掘（dataminining）软件。它和它的源代码可在其官方网站下载。两个介绍weka的帖子：http://bai
Auto-WEKA(Waikato Environment for Knowledge Analysis) 卢延吉 ML &ME &GPT New Developer 数据挖掘机器学习
SimplyputAuto-WEKAisanautomatedmachinelearningtoolbasedonthepopularWEKA(WaikatoEnvironmentforKnowledgeAnalysis)software.Itstreamlinesthetasksofmodelselectionandhyperparameteroptimizationbycombiningthe
一些好的资料关于weka和数据挖掘 asa13214dsgf134sdf 数据挖掘自然语言处理搜索引擎网络图像处理数据仓库
http://space.itpub.net/7194105/viewspace-429888http://blog.csdn.net/baisung/article/details/7654437http://blog.sciencenet.cn/blog-242887-310994.htmlhttp://huzhyi21.blog.163.com/blog/static/10073962010
开源看板系统WeKan安装教程两句挽联
简介最近由于项目管理需要，找了一些开源相关的软件，有几款大体看下了，从页面、功能都还不错，比如TaigaScrumKanbanEpicsMultiprojectorangescrumorangescrumjitaminjitaminopenprojectopenprojectwekanwekan经过一些简单对比之后，包括需求、流行度、安装难易程度等，暂时选用了wekan来试一把安装过程环境Linu
Java中人工智能的框架永远的12 java 人工智能开发语言
在Java中,常用的人工智能框架有:Deeplearning4j:一个用于深度学习的开源Java框架,可以在多种平台上运行,包括CPU,GPU和ApacheHadoop。Weka:一个用于数据挖掘和机器学习的开源Java框架,包含大量的算法和工具,可以用于数据预处理,分类,回归,聚类和关联分析等。Mallet:一个用于自然语言处理的开源Java框架,包含大量的工具和算法,可以用于文本分类,语言模型
数据分享|WEKA信贷违约预测报告：用决策树、随机森林、支持向量机SVM、朴素贝叶斯、逻辑回归... 拓端研究室TRL 数据挖掘决策树随机森林支持向量机逻辑回归
完整报告链接：http://tecdat.cn/?p=28579作者：NuoLiu数据变得越来越重要，其核心应用“预测”也成为互联网行业以及产业变革的重要力量。近年来网络P2P借贷发展形势迅猛，一方面普通用户可以更加灵活、便快捷地获得中小额度的贷款，另一方面由于相当多数量用户出现违约问题而给P2P信贷平台以及借贷双方带来诸多纠纷，因此根据用户历史款情况准确预测潜在是否还会发生违约就非常有必要（点击
Wekan 的默认管理员帐号 forks1990
Wekan是开源的看板软件，实现了很多Trello的功能。下面说说如何用docker启动和使用WekanCloneRepositoryhttps://github.com/wekan/wekan.gitdocker-composer.yml文件在项目的根目录中，docker-composeup启动它如果遇到无法mount/etc/localtime和/etc/timezone目录，可以编辑dock
关于旗正规则引擎下载页面需要弹窗保存到本地目录的问题何必如此 jsp 超链接文件下载窗口
生成下载页面是需要选择“录入提交页面”，生成之后默认的下载页面<a>标签超链接为：<a href="<%=root_stimage%>stimage/image.jsp?filename=<%=strfile234%>&attachname=<%=java.net.URLEncoder.encode(file234filesourc
【Spark九十八】Standalone Cluster Mode下的资源调度源代码分析 bit1129 cluster
在分析源代码之前，首先对Standalone Cluster Mode的资源调度有一个基本的认识：首先，运行一个Application需要Driver进程和一组Executor进程。在Standalone Cluster Mode下，Driver和Executor都是在Master的监护下给Worker发消息创建(Driver进程和Executor进程都需要分配内存和CPU，这就需要Maste
linux上独立安装部署spark daizj linux 安装 spark 1.4 部署
下面讲一下linux上安装spark，以 Standalone Mode 安装 1）首先安装JDK 下载JDK：jdk-7u79-linux-x64.tar.gz ，版本是1.7以上都行，解压 tar -zxvf jdk-7u79-linux-x64.tar.gz 然后配置 ~/.bashrc&nb
Java 字节码之解析一周凡杨 java 字节码 javap
一： Java 字节代码的组织形式类文件 { OxCAFEBABE ，小版本号，大版本号，常量池大小，常量池数组，访问控制标记，当前类信息，父类信息，实现的接口个数，实现的接口信息数组，域个数，域信息数组，方法个数，方法信息数组，属性个数，属性信息数组 } &nbs
java各种小工具代码 g21121 java
1.数组转换成List import java.util.Arrays; Arrays.asList(Object[] obj); 2.判断一个String型是否有值 import org.springframework.util.StringUtils; if (StringUtils.hasText(str)) 3.判断一个List是否有值 import org.spring
加快FineReport报表设计的几个心得体会老A不折腾 finereport
一、从远程服务器大批量取数进行表样设计时，最好按“列顺序”取一个“空的SQL语句”，这样可提高设计速度。否则每次设计时模板均要从远程读取数据，速度相当慢！！二、找一个富文本编辑软件（如NOTEPAD+）编辑SQL语句，这样会很好地检查语法。有时候带参数较多检查语法复杂时，结合FineReport中生成的日志，再找一个第三方数据库访问软件（如PL/SQL）进行数据检索，可以很快定位语法错误。
mysql linux启动与停止墙头上一根草
如何启动/停止/重启MySQL一、启动方式1、使用 service 启动：service mysqld start2、使用 mysqld 脚本启动：/etc/inint.d/mysqld start3、使用 safe_mysqld 启动：safe_mysqld&二、停止1、使用 service 启动：service mysqld stop2、使用 mysqld 脚本启动：/etc/inin
Spring中事务管理浅谈 aijuans spring 事务管理
Spring中事务管理浅谈 By Tony Jiang@2012-1-20 Spring中对事务的声明式管理拿一个XML举例 [html] view plain copy print ? <?xml version="1.0" encoding="UTF-8"?>&nb
php中隐形字符65279（utf-8的BOM头）问题 alxw4616
php中隐形字符65279（utf-8的BOM头）问题今天遇到一个问题. php输出JSON 前端在解析时发生问题:parsererror. 调试: 1.仔细对比字符串发现字符串拼写正确.怀疑是非打印字符的问题. 2.逐一将字符串还原为unicode编码. 发现在字符串头的位置出现了一个 65279的非打印字符.
调用对象是否需要传递对象(初学者一定要注意这个问题) 百合不是茶对象的传递与调用技巧
类和对象的简单的复习,在做项目的过程中有时候不知道怎样来调用类创建的对象,简单的几个类可以看清楚,一般在项目中创建十几个类往往就不知道怎么来看为了以后能够看清楚,现在来回顾一下类和对象的创建,对象的调用和传递(前面写过一篇) 类和对象的基础概念: JAVA中万事万物都是类类有字段(属性),方法,嵌套类和嵌套接
JDK1.5 AtomicLong实例 bijian1013 java thread java多线程 AtomicLong
JDK1.5 AtomicLong实例类 AtomicLong 可以用原子方式更新的 long 值。有关原子变量属性的描述，请参阅 java.util.concurrent.atomic 包规范。AtomicLong 可用在应用程序中（如以原子方式增加的序列号），并且不能用于替换 Long。但是，此类确实扩展了 Number，允许那些处理基于数字类的工具和实用工具进行统一访问。
自定义的RPC的Java实现 bijian1013 java rpc
网上看到纯java实现的RPC，很不错。 RPC的全名Remote Process Call，即远程过程调用。使用RPC，可以像使用本地的程序一样使用远程服务器上的程序。下面是一个简单的RPC 调用实例，从中可以看到RPC如何
【RPC框架Hessian一】Hessian RPC Hello World bit1129 Hello world
什么是Hessian The Hessian binary web service protocol makes web services usable without requiring a large framework, and without learning yet another alphabet soup of protocols. Because it is a binary p
【Spark九十五】Spark Shell操作Spark SQL bit1129 shell
在Spark Shell上，通过创建HiveContext可以直接进行Hive操作 1. 操作Hive中已存在的表 [hadoop@hadoop bin]$ ./spark-shell Spark assembly has been built with Hive, including Datanucleus jars on classpath Welcom
F5　往header加入客户端的ip ronin47
when HTTP_RESPONSE {if {[HTTP::is_redirect]}{ HTTP::header replace Location [string map {:port/ /} [HTTP::header value Location]]HTTP::header replace Lo
java-61-在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差. 求所有数对之差的最大值。例如在数组{2, 4, 1, 16, 7, 5, bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/2541117420116135376632/ 写了个java版的 public class GreatestLeftRightDiff { /** * Q61.在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差。 * 求所有数对之差的最大值。例如在数组
mongoDB 索引开窍的石头 mongoDB索引
在这一节中我们讲讲在mongo中如何创建索引得到当前查询的索引信息 db.user.find(_id:12).explain(); cursor: basicCoursor 指的是没有索引 &
[硬件和系统]迎峰度夏 comsci 系统
从这几天的气温来看，今年夏天的高温天气可能会维持在一个比较长的时间内所以，从现在开始准备渡过炎热的夏天。。。。每间房屋要有一个落地电风扇，一个空调(空调的功率和房间的面积有密切的关系) 坐的，躺的地方要有凉垫，床上要有凉席电脑的机箱
基于ThinkPHP开发的公司官网 cuiyadll 行业系统
后端基于ThinkPHP，前端基于jQuery和BootstrapCo.MZ 企业系统轻量级企业网站管理系统运行环境:PHP5.3+, MySQL5.0 系统预览系统下载：http://www.tecmz.com 预览地址：http://co.tecmz.com 各种设备自适应响应式的网站设计能够对用户产生友好度，并且对于
Transaction and redelivery in JMS (JMS的事务和失败消息重发机制) darrenzhu jms 事务承认 MQ acknowledge
JMS Message Delivery Reliability and Acknowledgement Patterns http://wso2.com/library/articles/2013/01/jms-message-delivery-reliability-acknowledgement-patterns/ Transaction and redelivery in
Centos添加硬盘完全教程 dcj3sjt126com linux centos hardware
Linux的硬盘识别: sda 表示第1块SCSI硬盘 hda 表示第1块IDE硬盘 scd0 表示第1个USB光驱一般使用“fdisk -l”命
yii2 restful web服务路由 dcj3sjt126com PHP yii2
路由随着资源和控制器类准备，您可以使用URL如 http://localhost/index.php?r=user/create访问资源，类似于你可以用正常的Web应用程序做法。在实践中，你通常要用美观的URL并采取有优势的HTTP动词。例如，请求POST /users意味着访问user/create动作。这可以很容易地通过配置urlManager应用程序组件来完成如下所示
MongoDB查询(4)——游标和分页[八] eksliang mongodb MongoDB游标 MongoDB深分页
转载请出自出处：http://eksliang.iteye.com/blog/2177567 一、游标数据库使用游标返回find的执行结果。客户端对游标的实现通常能够对最终结果进行有效控制，从shell中定义一个游标非常简单，就是将查询结果分配给一个变量（用var声明的变量就是局部变量），便创建了一个游标，如下所示： > var
Activity的四种启动模式和onNewIntent() gundumw100 android
Android中Activity启动模式详解　　在Android中每个界面都是一个Activity，切换界面操作其实是多个不同Activity之间的实例化操作。在Android中Activity的启动模式决定了Activity的启动运行方式。　　Android总Activity的启动模式分为四种： Activity启动模式设置： <acti
攻城狮送女友的CSS3生日蛋糕 ini html Web html5 css css3
在线预览：http://keleyi.com/keleyi/phtml/html5/29.htm 代码如下： <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title>攻城狮送女友的CSS3生日蛋糕-柯乐义<
读源码学Servlet（1）GenericServlet 源码分析 jzinfo tomcat Web servlet 网络应用网络协议
Servlet API的核心就是javax.servlet.Servlet接口，所有的Servlet 类（抽象的或者自己写的）都必须实现这个接口。在Servlet接口中定义了5个方法，其中有3个方法是由Servlet 容器在Servlet的生命周期的不同阶段来调用的特定方法。先看javax.servlet.servlet接口源码： package
JAVA进阶：VO(DTO)与PO(DAO)之间的转换 snoopy7713 java VO Hibernate po
PO即 Persistence Object　　VO即 Value Object 　VO和PO的主要区别在于：　　VO是独立的Java Object。　　PO是由Hibernate纳入其实体容器（Entity Map）的对象，它代表了与数据库中某条记录对应的Hibernate实体，PO的变化在事务提交时将反应到实际数据库中。　实际上，这个VO被用作Data Transfer
mongodb group by date 聚合查询日期统计每天数据（信息量） qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 1 */ { "_id" : ObjectId("557ac1e2153c43c320393d9d"), "msgType" : "text", "sendTime" : ISODate("2015-06-12T11:26:26.000Z")
java之18天常用的类(一) Luob. Math Date System Runtime Rundom
System类 import java.util.Properties; /** * System: * out:标准输出,默认是控制台 * in:标准输入,默认是键盘 * * 描述系统的一些信息 * 获取系统的属性信息:Properties getProperties(); * * * */ public class Sy
maven wuai maven
1、安装maven：解压缩、添加M2_HOME、添加环境变量path 2、创建maven_home文件夹，创建项目mvn_ch01,在其下面建立src、pom.xml，在src下面简历main、test、main下面建立java文件夹 3、编写类，在java文件夹下面依照类的包逐层创建文件夹，将此类放入最后一级文件夹 4、进入mvn_ch01 4.1、mvn compile ,执行后会在