Handsome_Engineer

用WEKA进行数据挖掘，第3部分：最近邻和服务器端库

简介

在这个 “用 WEKA 进行数据挖掘” 系列之前的两篇文章中，我介绍了数据挖掘的概念。如果您还未曾阅读过用 WEKA 进行数据挖掘，第 1 部分：简介和回归和用 WEKA 进行数据挖掘，第 2 部分：分类和群集，那么请先阅读这两个部分，因为二者涵盖了一些在继续之前必须了解的关键概念。而且更重要的是，在这两个部分中我谈及了数据挖掘中常用的三种技术，它们可以将难以理解的无用数据转变为有意义的规则和趋势。第一种技术是回归，用来基于其他的示例数据预测一个数值输出（比如房屋价值）。第二种技术是分类（即分类树或决策树），用来创建一个实际的分支树来预测某个未知数据点的输出值。（在我们的例子中，我们预测的是对 BMW 促销活动的反应。）我介绍的第三种技术是群集，可用它来创建数据组（群集）并从中识别出趋势和其他规则（在我们的例子中，即 BMW 的销售）。三者的相似点在于它们都能将数据转换成有用信息，但它们各自的实现方法以及使用的数据各不相同，而这正是数据挖掘最为重要的一点：正确的模型必须用于正确的数据。

本文将讨论四种常用的数据挖掘技术中的最后一种：最近邻。您将看到它更像是分类与群集的组合，并为我们消灭数据误导的使命提供了另一种有用的武器。

在我们之前的文章中，我们将 WEKA 用作一种独立的应用程序。那么它在实际中能多有用呢？很显然，它并不完美。由于 WEKA 是一种基于 Java 的应用程序，它有一个可被用在我们自己的服务器端代码中的 Java 库。对于大多数人而言，这可能是最为常见的用法，因为您可以编写代码来不断地分析您的数据并动态地做出调整，而不必依赖他人提取数据、将其转换成 WEKA 格式，然后再在 WEKA Explorer 内运行它。

最近邻

最近邻（也即 Collaborative Filtering 或 Instance-based Learning）是一种非常有用的数据挖掘技术，可用来用输出值已知的以前的数据实例来预测一个新数据实例的未知输出值。从目前的这种描述看来，最近邻非常类似于回归和分类。那么它与这二者究竟有何不同呢？首先，回归只能用于数值输出，这是它与最近邻的最直接的一个不同点。分类，如我们在前一篇文章的例子中看到的，使用每个数据实例 来创建树，我们需要遍历此树才能找到答案。而这一点对于某些数据而言会是一个很严重的问题。举个例子，亚马逊这样的公司常常使用 “购买了 X 的顾客还购买了 Y" 特性，如果亚马逊拟创建一个分类树，那么它将需要多少分支和节点？它的产品多达数十万。这个树将有多巨大呀？如此巨大的一个树能有多精确呢？即便是单个分支，您都将会惊讶地发现它只有三个产品。亚马逊的页面通常会有 12 种产品推荐给您。对于这类数据，分类树是一种极不适合的数据挖掘模型。

而最近邻则可以非常有效地解决所有这些问题，尤其是在上述亚马逊的例子中遇到的这些问题。它不会受限于数量。它的伸缩性对于 20 个顾客的数据库与对于 2000 万个顾客的数据库没有什么差异，并且您可以定义您想要得到的结果数。看起来是一个很棒的技术！它的确很棒 — 并且可能对于那些正在阅读本文的电子商务店铺的店主最为有用。

让我们先来探究一下最近邻背后的数学理论，以便能更好地理解这个过程并了解此技术的某些限制。

最近邻背后的数学理论

最近邻技术背后的数学理论非常类似于群集技术所涉及到的数学理论。对于一个未知的数据点，这个未知数据点与每个已知数据点之间的距离需要被计算出来。如果用电子数据表计算此距离将会非常繁琐，而一个高性能的计算机则可以立即完成这些计算。最容易也是最为常见的一种距离计算方式是 “Normalized Euclidian Distance”。它看起来复杂，实则不然。让我们通过一个例子来弄清楚第 5 个顾客有可能会购买什么产品？

清单 1. 最近邻的数学理论

				
Customer     Age     Income     Purchased Product
1            45       46k       Book
2            39       100k      TV
3            35       38k       DVD
4            69       150k      Car Cover
5            58       51k       ???

Step 1:  Determine Distance Formula
Distance = SQRT( ((58 - Age)/(69-35))^2) + ((51000 - Income)/(150000-38000))^2 )

Step 2:  Calculate the Score
Customer     Score     Purchased Product
1            .385         Book
2            .710         TV
3            .686         DVD
4            .941         Car Cover
5            0.0          ???

如果使用最近邻算法回答我们上面遇到的 “第 5 个顾客最有可能购买什么产品” 这一问题，答案将是一本书。这是因为第 5 个顾客与第 1 个顾客之间的距离要比第 5 个顾客与其他任何顾客之间的距离都短（实际上是短很多）。基于这个模型，可以得出这样的结论：由最像第 5 个顾客的顾客可以预测出第 5 个顾客的行为。

不过，最近邻的好处远不止于此。最近邻算法可被扩展成不仅仅限于一个最近匹配，而是可以包括任意数量的最近匹配。可将这些最近匹配称为是 “N-最近邻”（比如 3-最近邻）。回到上述的例子，如果我们想要知道第 5 个顾客最有可能购买的产品，那么这次的结论是书和 DVD。而对于上述的亚马逊的例子，如果想要知道某个顾客最有可能购买的 12 个产品，就可以运行一个 12-最近邻算法（但亚马逊实际运行的算法要远比一个简单的 12-最近邻算法复杂）。

并且，此算法不只限于预测顾客购买哪个产品。它还可被用来预测一个 Yes/No 的输出值。考虑上述例子，如果我们将最后一列改为（从顾客 1 到顾客 4）“Yes,No,Yes,No,”，那么用 1-最近邻模型可以预测第 5 个顾客会说 “Yes”，如果用一个 2-最近邻算法也会得到预测结果 “Yes”（顾客 1 和 3 均说 “Yes”），若用 3-最近邻模型仍会得到 “Yes”（顾客 1 和 3 说 “Yes”，顾客 2 说 “No”，所以它们的平均值是 “Yes”）。

我们考虑的最后一个问题是 “我们应该在我们的模型中使用多少邻？” 啊哈 — 并不是每件事都这么简单。为了确定所需邻的最佳数量，需要进行试验。并且，如果要预测值为 0 和 1 的列的输出，很显然需要选择奇数个邻，以便打破平局。

针对 WEKA 的数据集

我们将要为我们的最近邻示例使用的数据集应该看起来非常熟悉 — 这个数据集就与我们在上一篇文章的分类示例中所用的相同。该示例关于的是一个虚构的 BMW 经销店及其向老客户销售两年延保的促销活动。为了回顾这个数据集，如下列出了我在上一篇文章中曾介绍过的一些指标。

延保的以往销售记录中有 4,500 个数据点。数据集中的属性有：收入水平 [0=$0-$30k, 1=$31k-$40k, 2=$41k-$60k, 3=$61k-$75k, 4=$76k-$100k, 5=$101k-$150k, 6=$151k-$500k, 7=$501k+]、顾客首辆 BMW 购买的年/月、最近一辆 BMW 购买的年/月、顾客是否在过去对延保的促销有过响应。

清单 2. 最近邻 WEKA 数据

				
@attribute IncomeBracket {0,1,2,3,4,5,6,7}
@attribute FirstPurchase numeric
@attribute LastPurchase numeric
@attribute responded {1,0}

@data

4,200210,200601,0
5,200301,200601,1
...

WEKA 内的最近邻

我们为何要使用与分类例子中相同的数据集呢？这是因为分类模型得到的结果，只有 59 % 的准确率，而这完全不能接受（比猜想好不到哪去）。我们将提高准确率并为这个虚构的经销商提供一些有用的信息。

将数据文件 bmw-training.arff 载入 WEKA，步骤与我们之前在 Preprocess 选项卡中使用的相同。加载数据后，屏幕应该类似于图 1。

图 1. WEKA 内的 BMW 最近邻数据

与我们在之前文章的回归和分类模型中所做的类似，我们接下来应该选择 Classify 选项卡。在这个选项卡上，我们应该选择 lazy，然后选择 IBk（IB 代表的是 Instance-Based，而 k 则允许我们指定要使用的邻的数量）。

图 2. BMW 最近邻算法

现在，我们就准备好可以在 WEKA 内创建我们的模型了。请确保选中 Use training set 以便我们使用刚载入的这个数据集来创建我们的模型。单击 Start，让 WEKA 运行。图 3 显示了一个屏幕快照，清单 3 则包含了此模型的输出。

图 3. BMW 最近邻模型

清单 3. IBk 计算的输出

				
=== Evaluation on training set ===
=== Summary ===

Correctly Classified Instances        2663               88.7667 %
Incorrectly Classified Instances       337               11.2333 %
Kappa statistic                          0.7748
Mean absolute error                      0.1326
Root mean squared error                  0.2573
Relative absolute error                 26.522  %
Root relative squared error             51.462  %
Total Number of Instances             3000     

=== Detailed Accuracy By Class ===

               TP Rate   FP Rate   Precision   Recall  F-Measure   ROC Area  Class
                 0.95      0.177      0.847     0.95      0.896      0.972    1
                 0.823     0.05       0.941     0.823     0.878      0.972    0
Weighted Avg.    0.888     0.114      0.893     0.888     0.887      0.972

=== Confusion Matrix ===

    a    b   <-- classified as
 1449   76 |    a = 1
 261 1214 |    b = 0

上述结果与我们用分类创建模型时的结果有何差异呢？使用最近邻的这个模型的准确率为 89 %，而分类模型的准确率只有 59 %，所以这绝对是一个很好的开始。接近 90 % 的准确率是非常可以接受的。让我们再进一步来分析这些结果的假正和假负的情况，以便深入了解来自 WEKA 的这些结果在实际业务中的适用。

此模型的结果显示我们有 76 个假正（2.5 %），有 261 个假负（8.7 %）。请记住在本例中一个假正意味着我们的模型预测该客户会购买延保而实际上却未购买，而一个假负则意味着我们的模型预测客户不会购买延保而实际却购买了。让我们估测经销商的宣传单的派发成本是每个传单 $3，延保为经销商带来了 $400 的利润。这个模型对经销商的成本/收益的预测应为 $400 - (2.5% * $3) - (8.7% * 400) = $365。所以，从此模型看来，这个经销商相当有利可图。与之相比，使用分类模型预测的成本/收益只有 $400 - (17.2% * $3) - (23.7% * $400) = $304，由此可以看出使用正确的模型可以为此经销商提供 20 % 潜在收入的提高。

您可以自己练习着在这个模型中尝试不同数量的最近邻（您可以右键单击下一个 “IBk -K 1....”，就会看到一列参数）。可以任意更改 "KNN"（K-最近邻）。在本例中您将会看到随着加入更多的邻，模型的准确率实际上却降低了。

此模型的一些不尽人意之处：当我们谈论像亚马逊这样的数据集时，最近邻的强大威力是显而易见的。对于有 2000 万用户的亚马逊，此算法非常准确，因为在亚马逊的数据库中与您有着类似购买习惯的潜在客户很多。您的最近邻会非常相似。因而，所创建的模型会十分准确和高效。相反，如果能比较的数据点相对很少的话，这个模型很快就会损坏，不再准确。在在线电子商务店铺的初期，比如只有 50 个顾客，那么产品推荐特性很可能一点都不准确，因为最近邻实际上与您本身相差甚远。

最近邻技术最后的一个挑战是该算法的计算成本有可能会很高。在亚马逊的例子中，对于它的 2000 万客户，每个客户都必须针对其他的 2000 万客户进行计算以便找到最近邻。首先，如果您的业务也有 2000 万的客户群，那么这便不成问题，因为您会财源广进。其次，这种类型的计算非常适合用云来完成，因为它们能够被分散到许多计算机上同时完成，并最终完成比较。（比如，Google 的 MapReduce。）第三，实际上，如果我只是购买了一本书，那么根本不必针对我对比亚马逊数据库内的每个客户。只需将我与其他的购书者进行对比来寻找最佳匹配，这样一来，就将潜在的邻缩小到整个数据库的一部分。

请记住：数据挖掘模型并不只是简单的输入-输出机制 — 必须先对数据进行检查以决定该选择哪种正确的模型，让输入能够设法减少计算时间，而输出则必须被分析且要确保准确后才能据此做出整体的判断。

进一步的阅读：如果您有兴趣进一步学习最近邻算法，可以按如下术语搜索相关信息：distance weighting、Hamming distance、Mahalanobis distance。

在服务器上使用 WEKA

有关 WEKA 最酷的一件事情是它不仅是一个独立的应用程序，而且还是一个完备的 Java JAR 文件，可以将其投入到您服务器的 lib 文件夹并从您自己的服务器端代码进行调用。这能为您的应用程序带来很多有趣的、和重要的功能。您可以添加充分利用了我们到目前所学的全部数据挖掘技术的报告。您可以为您的电子商务店铺创建一个“产品推荐”小部件，类似于亚马逊站点上的那个（由于根本不可能为每个顾客都按需这么做，因此需要贯彻这个独立的应用程序运行它）。WEKA 独立应用程序本身只调用底层的 WEKA Java API，所以您应该已经看到过这个 API 的运转了。现在，我们应该看看如何将它集成到您的自己代码中。

实际上，您已经下载了这个 WEKA API JAR；它就是您启动 WEKA Explorer 时调用的那个 JAR 文件。为了访问此代码，让您的 Java 环境在此类路径中包含这个 JAR 文件。在您自己的代码中使用第三方 JAR 文件的步骤如常。

正如您所想，WEKA API 内的这个中心构建块就是数据。数据挖掘围绕此数据进行，当然所有我们已经学习过的这些算法也都是围绕此数据的。那么让我们看看如何将我们的数据转换成 WEKA API 可以使用的格式。让我们从简单的开始，先来看看本系列有关房子价值的第一篇文章中的那些数据。

注: 我最好提前告诫您 WEKA API 有时很难导航。首要的是要复核所用的 WEKA 的版本和 API 的版本。此 API 在不同的发布版间变化会很大，以至于代码可能会完全不同。而且，即便此 API 完备，却没有什么非常好的例子可以帮助我们开始（当然了，这也是为什么您在阅读本文的原因）。我使用的是 WEKA V3.6。

清单 4 显示了如何格式化数据以便为 WEKA 所用。

清单 4. 将数据载入 WEKA

				
// Define each attribute (or column), and give it a numerical column number
// Likely, a better design wouldn't require the column number, but
// would instead get it from the index in the container
Attribute a1 = new Attribute("houseSize", 0);
Attribute a2 = new Attribute("lotSize", 1);
Attribute a3 = new Attribute("bedrooms", 2);
Attribute a4 = new Attribute("granite", 3);
Attribute a5 = new Attribute("bathroom", 4);
Attribute a6 = new Attribute("sellingPrice", 5);

// Each element must be added to a FastVector, a custom
// container used in this version of Weka.
// Later versions of Weka corrected this mistake by only
// using an ArrayList
FastVector attrs = new FastVector();
attrs.addElement(a1);
attrs.addElement(a2);
attrs.addElement(a3);
attrs.addElement(a4);
attrs.addElement(a5);
attrs.addElement(a6);

// Each data instance needs to create an Instance class
// The constructor requires the number of columns that
// will be defined.  In this case, this is a good design,
// since you can pass in empty values where they exist.
Instance i1 = new Instance(6);
i1.setValue(a1, 3529);
i1.setValue(a2, 9191);
i1.setValue(a3, 6);
i1.setValue(a4, 0);
i1.setValue(a5, 0);
i1.setValue(a6, 205000);

....

// Each Instance has to be added to a larger container, the
// Instances class.  In the constructor for this class, you
// must give it a name, pass along the Attributes that
// are used in the data set, and the number of
// Instance objects to be added.  Again, probably not ideal design
// to require the number of objects to be added in the constructor,
// especially since you can specify 0 here, and then add Instance
// objects, and it will return the correct value later (so in
// other words, you should just pass in '0' here)
Instances dataset = new Instances("housePrices", attrs, 7);
dataset.add(i1);
dataset.add(i2);
dataset.add(i3);
dataset.add(i4);
dataset.add(i5);
dataset.add(i6);
dataset.add(i7);

// In the Instances class, we need to set the column that is
// the output (aka the dependent variable).  You should remember
// that some data mining methods are used to predict an output
// variable, and regression is one of them.
dataset.setClassIndex(dataset.numAttributes() - 1);

现在我们已经将数据载入了 WEKA。虽然比想象中的要稍微难一点，但您可以看到编写自己的包装器类来快速从数据库提取数据并将其放入一个 WEKA 实例类还是很简单和有益的。实际上，我强烈建议如果打算在服务器上使用 WEKA，那么就不要怕花时间，因为以这种方式处理数据是很繁琐的。一旦将数据放入了这个实例对象，您就可以在数据上进行任何您想要的数据挖掘了，所以您想要这个步骤尽可能地简单。

让我们把我们的数据通过回归模型进行处理并确保输出与我们使用 Weka Explorer 计算得到的输出相匹配。实际上使用 WEKA API 让数据通过回归模型得到处理非常简单，远简单于实际加载数据。

清单 5. 在 WEKA 内创建回归模型

				
// Create the LinearRegression model, which is the data mining
// model we're using in this example
LinearRegression linearRegression = new LinearRegression();

// This method does the "magic", and will compute the regression
// model.  It takes the entire dataset we've defined to this point
// When this method completes, all our "data mining" will be complete
// and it is up to you to get information from the results
linearRegression.buildClassifier(dataset);

// We are most interested in the computed coefficients in our model,
// since those will be used to compute the output values from an
// unknown data instance.
double[] coef = linearRegression.coefficients();

// Using the values from my house (from the first article), we
// plug in the values and multiply them by the coefficients
// that the regression model created.  Note that we skipped
// coefficient[5] as that is 0, because it was the output
// variable from our training data
double myHouseValue = (coef[0] * 3198) +
                      (coef[1] * 9669) +
                      (coef[2] * 5) +
                      (coef[3] * 3) +
                      (coef[4] * 1) +
                      coef[6];

System.out.println(myHouseValue);
// outputs 219328.35717359098
// which matches the output from the earlier article

大功告成！运行分类、群集或最近邻都不如回归模型简单，但它们也没有那么困难。运行数据挖掘模型要比将数据载入模型简单得多。

我们希望这一小节能够让您产生将 WEKA 集成到您自己的服务器端代码的兴趣。不管您是运营一个电子商务的店铺并想为客户提供更好的产品推荐，还是您有一个礼券促销活动需要加以改善，抑或是您想要优化您的 AdWords 活动，又或者是您想要优化您的着陆页，这些数据挖掘技术都能帮助您在这些领域改善您的结果。比如，借助于 WEKA API 的内置特性，您就可以编写服务器端代码来轮换您的着陆页并使用数据挖掘不断地分析结果以找到最为有效的着陆页。通过在 AdWords 上综合它与数据挖掘分析，您就可以快速找到最佳的途径来将客户吸引到您的站点并将客户的到访变为销售。

结束语

本文是由三篇文章组成的系列文章的终结篇，该系列向您介绍了数据挖掘的概念尤其是 WEKA 软件。正如您所见，WEKA 可以完成很多在商业软件包中才能完成的数据挖掘任务。WEKA 功能强大且 100 % 免费。像这样的好事绝无仅有，因为您可以迅速启动 WEKA 并即刻就开始处理您的数据。

本文探究了第四种常见的数据挖掘算法，“最近邻”。这种算法非常适合于寻找接近于一个未知数据点的那些数据点并使用来自这些值的已知输出来预测未知输出。我向您展示了这种数据挖掘为何对在线购物网站上的推荐产品功能非常理想。通过一些数据挖掘，像亚马逊这样的站点可以快速（对于这类站点是最起码的，因为有数千台计算机）告诉您与您类似的其他顾客购买的东西。

本文的最后一节显示了您不应该将自己限制于只使用 WEKA 与 Explorer 窗口作为一个独立的应用程序。WEKA 还能被用作一个独立的 Java 库，您可以将其放入到您服务器端的环境内并像其他 Java 库那样调用它的 API。我向您展示了您如何能将数据载入此 WEKA API（并且建议您花些时间围绕您的数据库编写一个漂亮的包装程序以便让这个过于复杂的过程简单一些）。最后，我向您展示了创建一个回归模型并从获自此独立应用程序的这个 API 获得相同的结果是多么地容易。

我对使用此 API 的最后一点建议是通读相关文档并花些时间来阅读所提供的全部可用函数。我发现这个 API 多少有点难以使用，所以如果事先仔细地研读就能顺利地使用它，而不至于最终将它扔入回收站。

希望，在阅读完本系列后，您能跃跃欲试地下载 WEKA 并尝试从您自己的数据中找到模式和规则。

下载

描述	名字	大小	下载方法
经销商信息和 Java 代码	os-weka3-Examples.zip	17KB	HTTP

关于下载方法的信息

R语言机器学习与临床预测模型77--机器学习预测常用R语言包武昌库里写JAVA 面试题汇总与解析 spring log4j java 开发语言算法
R小盐准备介绍R语言机器学习与预测模型的学习笔记你想要的R语言学习资料都在这里，快来收藏关注【科研私家菜】01预测模型常用R包常见回归分析包:rpart包含有分类回归树的方法;earth包可以实现多元自适应样条回归;mgev包含广义加性模型回归;Rweka包中的MSP函数可用于回归。pls包中的plsr函数实现偏最小二乘和主成分回归。stats包中的ppr函数实现投影寻踪分析，同时包括线性回归的方
Petitjean2016A代码运行配置 sunnyorcloudy
1.新建javaproject，名称DBA2.在projectlayout处，选择“Useprojectfolderasrootforsourcesandclassfiles”3.import-ExistingprojectsintoWorkspace-选择wekaprojectwekaproject是从weka官网下载weka-src.jar，解压后，将其中的main目录下的weka项目导入得来
11.4 看不懂就慢慢看啊反复练习的阿离很笨吧
记得组合数学正交拉丁方从0开始！突然觉得老师说得很有道理，演化计算里活得最好的，不是最优秀的但也不是最差的，是最能适应环境的，别人怎么做，他就怎么做。动态规划，运筹学贝叶斯是生成学习算法，生成一个概率模型判别学习算法高斯判别分析/**NB.java*Copyright2005LiangxiaoJiang*/packageweka.classifiers.gla;importweka.core.*;
2019-04-19 AliceGYY
线性函数Y=0.8567+0.516XX称为自变量，也就是自己会变化的量。Y称作因变量，也就是因为X变化而引起变化的量。线性回归，能够用来探索多个变量与另一个变量之间的线性关系。weka、SPSS软件实现编程。
Weka在数据挖掘中的运用 02 Getting Started with Weka jenye_
Weka的发音不是Weaker安装Weka研究“Explorer”接口研究一些数据集创建一个分类器解释输出使用filters（过滤器）可视化数据集安装Wekajava环境安装包选择适合你电脑系统的版本。Explorer界面对于这门课程指用到Exploer界面。Experimenter界面针对基于不同数据集的不同机器学习方法的大规模性能比较。KnowlegeFlow界面是Weka的图形界面和命令行界
《数据挖掘基础》实验：Weka平台实现聚类算法 lazyn 数据挖掘原理聚类数据挖掘算法机器学习 Weka
实验目的进一步理解聚类算法（K-平均、PAM、层次聚类、密度聚类），利用weka实现数据集的聚类处理，学会调整模型参数，以图或树的形式给出挖掘结果，并解释规则的含义。实验要求（1）随机选取数据集（UCI或data文件夹），需要做预处理的，单独说明处理过程。完成以下内容：（用四种方法：K-means、K-中心法、层次、密度）文件导入与编辑参数设置说明结果截图结果分析与对比（2）以AQI.xls中1-
Weka 分类树输出结果解析 Weighted.avg deer(écho) MachineLearning 分类数据挖掘人工智能
本文是对weka分类树的结果解释，集合了其它的博文我们使用的是weka自带的weather数据库先看左侧，classifier是分类方法，J48是递归分治策略；cross-validation表示交叉验证，使用了10-Foldspercentagesplit表示分割比例，用以分割训练集和测试集（猜的）再看看output，yes(9/3)(5/2)表示训练集里3个no，测试集里2个no(猜的x2)其
日撸java_day66-68 luv_x_c java 算法
文章目录主动学习ALEC代码运行结果主动学习ALEC代码packagemachineLearning.activelearning;importweka.core.Instances;importjava.io.FileReader;importjava.io.IOException;importjava.util.Arrays;/***ClassName:Alec*Package:machine
geemap学习笔记018：非监督分类静观云起 geemap 遥感 Python 学习笔记分类
前言非监督分类是遥感影像中非常常用的一种分类方式，下图是EarthEngine中常用的聚类方法，本节就以landsat8数据为例，采用ee.Clusterer.wekaKMeans()方法进行聚类分类。1导入库并显示地图importeeimportgeemapMap=geemap.Map()Map2添加数据point=ee.Geometry.Point([-87.7719,41.8799])#初始
数据挖掘课程设计——基于关联规则挖掘的美国国会议员投票行为分析（使用weka） Moonee_ 数据挖掘课程设计数据挖掘课程设计 weka 算法
基于关联规则挖掘的美国国会议员投票行为分析一、基本原理二、数据结果处理与分析1.数据预处理与分析（Weka实现/代码实现）①数据集说明②数据预处理（weka）③代码实现Apriori算法④关联规则分析⑤散点图分析⑥修改参数设置三、结论一、基本原理本项目使用了关联规则挖掘这一数据挖掘技术来分析美国国会议员投票行为，揭示出影响议员投票结果的因素和规律。关联规则挖掘是一种发现数据集中频繁项集之间关系的方
数据挖掘与机器学习——weka应用技术与实践 maggie_J 机器学习数据挖掘机器学习
第一章weka介绍1.1weka简介weka是怀卡托智分析环境（WaikatoEnvironmentforKnowledgeAnalysis）的英文缩写，官方网址为：，在该网站可以免费下载可运行软件和代码，还可以获得说明文档、常见问题解答、数据集和其他文献等资源。1.1.1Weka的历史团队宣称：我们的目标是要建立最先进的软件开发机器学习技术，并将其应用于解决现实世界的数据挖掘问题。目标：是机器学
Java矩阵运算包ujmp的基本使用余盛朋 java开发机器学习 UJMP
本人最近在用ujmp包写一些程序，ujmp包是针对于超大数据量计算的矩阵的运算包，并且有图形显示的功能且支持多种文件格式的读取和输出，还支持连接数据库，matlab数据类型和weka数据类型，总体来说非常好用，但是有一个很大的缺陷就是基本没有相关的示例和文档，官网上的示例有基本全都过时不能用了，本人总结了一下相关用法，仅供大家参考，代码并不能运行，知识给大家列出了相应的矩阵运算方式和构造方式，希望
centos7上wekan的安装；部署wekan（非docker） c921611946 linux 服务器
一、前置工作（1）端口问题1.查看端口查看已经开放的端口firewall-cmd--list-ports查看所有的端口netstat-ntlp2.开启一个端口，作为Wekan运行的端口（此端口必须是没有被使用的）打开配置文件vi/etc/sysconfig/iptables加入如下语句:-AINPUT-ptcp-mstate--stateNEW-mtcp--dport7000-jACCEPT重启防
大神都在用这5款数据挖掘工作还不速来pick一下！最牛爱码士
在大数据时代，数据意味着金钱，所以在互联网行业，数据的挖掘整理是很重要的一项工作。通过数据的整理挖掘能够很好的分析获取到有用的信息，并将其转化为可理解的和可用的形式。为了更好的帮助大家提高工作效率，巨牛汇外包小助手为大家推荐几款免费且好用的数据挖掘工具。下面不妨跟着巨牛汇外包小助手一起来看看吧！1.WekaWEKA是一个非常复杂的数据挖掘工具。它向您展示了数据集、集群、预测建模、可视化等方面的各种
Weka学习 -- StringToWordVector 源代码学习（1） aoe41606
代码整个运行流程參数设置input数据。设置数据格式batchFinished()，处理数据（Tokenzier。Stemming，Stopwords）determineDictionary();统计计算（TF。IDF）归一化output一些变量和方法的作用m_Dictionary,m_DocsCounts变量与m_OutputCounts变量意义publicTreeMapm_Dictionary
什么是ARFF文件，以.arff结尾子非Yu@Itfuture 数据分析 arff 大数据数据分析
关于arff,主要涉及三个输入类：概念、实例和属性。1.概念简单而言就是需要被处理的东西，2.实例这个词有些陌生，但是可以大致认为其为样本，3.属性就是数据表中的一列。为什么要用arff？（arff介绍）虽然Weka也支持其他一些格式的文件，但是ARFF格式是支持的最好的。是weka数据挖掘开源程序使用的一种文件模式，这是一种ASCII文本文件，因此有必要在数据处理之前把数据集的格式转换成ARFF
可视化数据挖掘开源软件的比较分析 weixin_30568591 大数据 java 人工智能
近年来，随着人脸识别、语音识别等技术的突破性进展，隐藏在它们背后的底层技术也引起工程和研究人员的高度重视，譬如机器学习。然而，机器学习是一个入门门槛相对比较高的技术领域，大部分的工程技术人员和业务人员都聚焦在业务领域的特征提取，算法选择，参数调优和模型验证上，因此一个方便高效的可视化工具，对于降低用户的机器学习学习曲线、提升工作效率显得尤为重要。本报告主要从开源和商业领域选取了WEKA、Rapid
WEKA把分类(Classification)和回归(Regression) Saudade_lh
1简介WEKA把分类(Classification)和回归(Regression)都放在“Classify”选项卡中，我们希望根据一个样本的一组特征，对目标进行预测。为了实现这一目的，我们需要有一个训练数据集，这个数据集中每个实例的输入和输出都是已知的。观察训练集中的实例，可以建立起预测的模型。有了这个模型，我们就可以新的输出未知的实例进行预测了，衡量模型的好坏就在于预测的准确程度。在WEKA中，
好用的研发管理看板工具有哪些？10款主流看板管理软件盘点开发者工具分享团队管理 PingCode更新产品经理必备工具项目管理软件
10大企业看板工具软件：1.软件开发项目看板PingCode；2.通用看板软件Worktile；3.开源看板软件Wekan；4.免费看板软件Trello；5.个人和小团队的看板软件Todoist；6.开源免费看Kanboard；7.面向个人免费的看板Teambition；8.软件开发项目看板Jira；9.开源项目看板LibreBoard；10.开源看板Jitamin。看板（KANBAN）能够很好的
51-60天谨言慎行324
第51天:kNN分类器两种距离度量.数据随机分割方式.间址的灵活使用:trainingSet和testingSet都是整数数组,表示下标.arff文件的读取.需要weka.jar包.求邻居.投票.代码如下：importjava.io.FileReader;importjava.util.Arrays;importjava.util.Random;importweka.core.*;publiccl
Weka----怀卡托智能分析环境（Waikato Environment for Knowledge Analysis） wzbclock 人工智能数据挖掘 java 产品 c
Weka的全名是怀卡托智能分析环境（WaikatoEnvironmentforKnowledgeAnalysis），是一款免费的，非商业化（与之对应的是SPSS公司商业数据挖掘产品--Clementine）的，基于JAVA环境下开源的机器学习（machinelearning）以及数据挖掘（dataminining）软件。它和它的源代码可在其官方网站下载。两个介绍weka的帖子：http://bai
Auto-WEKA(Waikato Environment for Knowledge Analysis) 卢延吉 ML &ME &GPT New Developer 数据挖掘机器学习
SimplyputAuto-WEKAisanautomatedmachinelearningtoolbasedonthepopularWEKA(WaikatoEnvironmentforKnowledgeAnalysis)software.Itstreamlinesthetasksofmodelselectionandhyperparameteroptimizationbycombiningthe
一些好的资料关于weka和数据挖掘 asa13214dsgf134sdf 数据挖掘自然语言处理搜索引擎网络图像处理数据仓库
http://space.itpub.net/7194105/viewspace-429888http://blog.csdn.net/baisung/article/details/7654437http://blog.sciencenet.cn/blog-242887-310994.htmlhttp://huzhyi21.blog.163.com/blog/static/10073962010
开源看板系统WeKan安装教程两句挽联
简介最近由于项目管理需要，找了一些开源相关的软件，有几款大体看下了，从页面、功能都还不错，比如TaigaScrumKanbanEpicsMultiprojectorangescrumorangescrumjitaminjitaminopenprojectopenprojectwekanwekan经过一些简单对比之后，包括需求、流行度、安装难易程度等，暂时选用了wekan来试一把安装过程环境Linu
Java中人工智能的框架永远的12 java 人工智能开发语言
在Java中,常用的人工智能框架有:Deeplearning4j:一个用于深度学习的开源Java框架,可以在多种平台上运行,包括CPU,GPU和ApacheHadoop。Weka:一个用于数据挖掘和机器学习的开源Java框架,包含大量的算法和工具,可以用于数据预处理,分类,回归,聚类和关联分析等。Mallet:一个用于自然语言处理的开源Java框架,包含大量的工具和算法,可以用于文本分类,语言模型
数据分享|WEKA信贷违约预测报告：用决策树、随机森林、支持向量机SVM、朴素贝叶斯、逻辑回归... 拓端研究室TRL 数据挖掘决策树随机森林支持向量机逻辑回归
完整报告链接：http://tecdat.cn/?p=28579作者：NuoLiu数据变得越来越重要，其核心应用“预测”也成为互联网行业以及产业变革的重要力量。近年来网络P2P借贷发展形势迅猛，一方面普通用户可以更加灵活、便快捷地获得中小额度的贷款，另一方面由于相当多数量用户出现违约问题而给P2P信贷平台以及借贷双方带来诸多纠纷，因此根据用户历史款情况准确预测潜在是否还会发生违约就非常有必要（点击
Wekan 的默认管理员帐号 forks1990
Wekan是开源的看板软件，实现了很多Trello的功能。下面说说如何用docker启动和使用WekanCloneRepositoryhttps://github.com/wekan/wekan.gitdocker-composer.yml文件在项目的根目录中，docker-composeup启动它如果遇到无法mount/etc/localtime和/etc/timezone目录，可以编辑dock
数据挖掘学习笔记(1) sherrymi 学习笔记数据挖掘
数据挖掘相关概念当被存储在本地时的数据称作数据，当把数据经过加工处理，它们转变成了有用的信息。如果信息经过合理的组合能够产生价值，特别是商业价值，此时就可以称其为知识。数据挖掘的过程就是数据加工处理变成信息，最后转化为知识的过程。数据挖掘的一些主要工具：商用的MATLAB、IBMIntelligentMiner、SASEnterpriseMiner、SPSSClementine和开源工具Weka。
数据挖掘学习笔记1-相关拓展学习资料 irony_202 数据挖掘数据仓库人工智能
一、数据挖掘教材：1.数据挖掘概念/技术（黑书）2.模式分类3.美丽数据（实际案例）二、国际会议：ICDMICMEICMLPCKDDACKDD三、期刊：TKDE（数据工程上的技术和知识）NNLS（神经网络和学习系统）四、公共数据集：UCI五、数据挖掘软件：weka（开源）数据挖掘前：数据预处理——数据清洗（填充、剔除无效数据）、数据类型转换、标准化数据挖掘后：数据、结论可视化：利用软件（群友推荐o
如何使用Java进行机器学习? 玥沐春风 java 机器学习开发语言
在Java中进行机器学习，可以使用各种开源机器学习库和框架来实现。以下是一些常用的Java机器学习库：Weka：Weka是一个非常流行的机器学习库，提供了大量的算法和工具，以及用于数据预处理、特征选择和可视化的功能。Deeplearning4j：Deeplearning4j是一个用于深度学习的开源库，支持多种神经网络模型和训练算法，可以用于图像分类、文本分析等任务。ApacheMahout：Apa
VMware Workstation 11 或者 VMware Player 7安装MAC OS X 10.10 Yosemite iwindyforest vmware mac os 10.10 workstation player
最近尝试了下VMware下安装MacOS 系统，安装过程中发现网上可供参考的文章都是VMware Workstation 10以下， MacOS X 10.9以下的文章，只能提供大概的思路，但是实际安装起来由于版本问题，走了不少弯路，所以我尝试写以下总结，希望能给有兴趣安装OSX的人提供一点帮助。写在前面的话：其实安装好后发现，由于我的th
关于《基于模型驱动的B/S在线开发平台》源代码开源的疑虑？ deathwknight JavaScript java 框架
本人从学习Java开发到现在已有10年整，从一个要自学 java买成javascript的小菜鸟，成长为只会java和javascript语言的老菜鸟（个人邮箱：deathwknight@163.com）一路走来，跌跌撞撞。用自己的三年多业余时间，瞎搞一个小东西（基于模型驱动的B/S在线开发平台，非MVC框架、非代码生成）。希望与大家一起分享，同时有许些疑虑，希望有人可以交流下平台
如何把maven项目转成web项目 Kai_Ge maven MyEclipse
创建Web工程，使用eclipse ee创建maven web工程 1.右键项目,选择Project Facets,点击Convert to faceted from 2.更改Dynamic Web Module的Version为2.5.(3.0为Java7的,Tomcat6不支持). 如果提示错误,可能需要在Java Compiler设置Compiler compl
主管？？？ Array_06 工作
转载：http://www.blogjava.net/fastzch/archive/2010/11/25/339054.html 很久以前跟同事参加的培训，同事整理得很详细，必须得转！前段时间，公司有组织中高阶主管及其培养干部进行了为期三天的管理训练培训。三天的课程下来，虽然内容较多，因对老师三天来的课程内容深有感触，故借着整理学习心得的机会，将三天来的培训课程做了一个
python内置函数大全 2002wmj python
最近一直在看python的document，打算在基础方面重点看一下python的keyword、Build-in Function、Build-in Constants、Build-in Types、Build-in Exception这四个方面，其实在看的时候发现整个《The Python Standard Library》章节都是很不错的，其中描述了很多不错的主题。先把Build-in Fu
JSP页面通过JQUERY合并行 357029540 JavaScript jquery
在写程序的过程中我们难免会遇到在页面上合并单元行的情况，如图所示如果对于会的同学可能很简单，但是对没有思路的同学来说还是比较麻烦的，提供一下用JQUERY实现的参考代码 function mergeCell(){ var trs = $("#table tr"); &nb
Java基础冰天百华 java基础
学习函数式编程 package base; import java.text.DecimalFormat; public class Main { public static void main(String[] args) { // Integer a = 4; // Double aa = (double)a / 100000; // Decimal
unix时间戳相互转换 adminjun 转换 unix 时间戳
如何在不同编程语言中获取现在的Unix时间戳(Unix timestamp)？ Java time JavaScript Math.round(new Date().getTime()/1000) getTime()返回数值的单位是毫秒 Microsoft .NET / C# epoch = (DateTime.Now.ToUniversalTime().Ticks - 62135
作为一个合格程序员该做的事 aijuans 程序员
作为一个合格程序员每天该做的事 1、总结自己一天任务的完成情况最好的方式是写工作日志，把自己今天完成了什么事情，遇见了什么问题都记录下来，日后翻看好处多多 2、考虑自己明天应该做的主要工作把明天要做的事情列出来，并按照优先级排列，第二天应该把自己效率最高的时间分配给最重要的工作 3、考虑自己一天工作中失误的地方，并想出避免下一次再犯的方法出错不要紧，最重
由html5视频播放引发的总结 ayaoxinchao html5 视频 video
前言项目中存在视频播放的功能，前期设计是以flash播放器播放视频的。但是现在由于需要兼容苹果的设备，必须采用html5的方式来播放视频。我就出于兴趣对html5播放视频做了简单的了解，不了解不知道，水真是很深。本文所记录的知识一些浅尝辄止的知识，说起来很惭愧。视频结构本该直接介绍html5的<video>的，但鉴于本人对视频
解决httpclient访问自签名https报javax.net.ssl.SSLHandshakeException: sun.security.validat bewithme httpclient
如果你构建了一个https协议的站点，而此站点的安全证书并不是合法的第三方证书颁发机构所签发，那么你用httpclient去访问此站点会报如下错误 javax.net.ssl.SSLHandshakeException: sun.security.validator.ValidatorException: PKIX path bu
Jedis连接池的入门级使用 bijian1013 redis redis数据库 jedis
Jedis连接池操作步骤如下： a.获取Jedis实例需要从JedisPool中获取； b.用完Jedis实例需要返还给JedisPool； c.如果Jedis在使用过程中出错，则也需要还给JedisPool； packag
变与不变 bingyingao 不变变亲情永恒
变与不变周末骑车转到了五年前租住的小区，曾经最爱吃的西北面馆、江西水饺、手工拉面早已不在，各种店铺都换了好几茬，这些是变的。三年前还很流行的一款手机在今天看起来已经落后的不像样子。三年前还运行的好好的一家公司，今天也已经不复存在。一座座高楼拔地而起，
【Scala十】Scala核心四：集合框架之List bit1129 scala
Spark的RDD作为一个分布式不可变的数据集合，它提供的转换操作，很多是借鉴于Scala的集合框架提供的一些函数，因此，有必要对Scala的集合进行详细的了解 1. 泛型集合都是协变的，对于List而言，如果B是A的子类，那么List[B]也是List[A]的子类，即可以把List[B]的实例赋值给List[A]变量 2. 给变量赋值(注意val关键字，a，b
Nested Functions in C bookjovi c closure
Nested Functions 又称closure，属于functional language中的概念，一直以为C中是不支持closure的，现在看来我错了，不过C标准中是不支持的，而GCC支持。既然GCC支持了closure，那么 lexical scoping自然也支持了，同时在C中label也是可以在nested functions中自由跳转的
Java-Collections Framework学习与总结-WeakHashMap BrokenDreams Collections
总结这个类之前，首先看一下Java引用的相关知识。Java的引用分为四种：强引用、软引用、弱引用和虚引用。强引用：就是常见的代码中的引用，如Object o = new Object();存在强引用的对象不会被垃圾收集
读《研磨设计模式》-代码笔记-解释器模式-Interpret bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 解释器（Interpreter）模式的意图是可以按照自己定义的组合规则集合来组合可执行对象 * * 代码示例实现XML里面1.读取单个元素的值 2.读取单个属性的值 * 多
After Effects操作&快捷键 cherishLC After Effects
1、快捷键官方文档中文版：https://helpx.adobe.com/cn/after-effects/using/keyboard-shortcuts-reference.html 英文版：https://helpx.adobe.com/after-effects/using/keyboard-shortcuts-reference.html 2、常用快捷键
Maven 常用命令 crabdave maven
Maven 常用命令 mvn archetype:generate mvn install mvn clean mvn clean complie mvn clean test mvn clean install mvn clean package mvn test mvn package mvn site mvn dependency:res
shell bad substitution daizj shell 脚本
#!/bin/sh /data/script/common/run_cmd.exp 192.168.13.168 "impala-shell -islave4 -q 'insert OVERWRITE table imeis.${tableName} select ${selectFields}, ds, fnv_hash(concat(cast(ds as string), im
Java SE 第二讲（原生数据类型 Primitive Data Type） dcj3sjt126com java
Java SE 第二讲： 1. Windows: notepad, editplus, ultraedit, gvim Linux: vi, vim, gedit 2. Java 中的数据类型分为两大类： 1）原生数据类型（Primitive Data Type） 2）引用类型（对象类型）（R
CGridView中实现批量删除 dcj3sjt126com PHP yii
1，CGridView中的columns添加 array( 'selectableRows' => 2, 'footer' => '<button type="button" onclick="GetCheckbox();" style=&
Java中泛型的各种使用 dyy_gusi java 泛型
Java中的泛型的使用：1.普通的泛型使用在使用类的时候后面的<>中的类型就是我们确定的类型。 public class MyClass1<T> {//此处定义的泛型是T private T var; public T getVar() { return var; } public void setVa
Web开发技术十年发展历程 gcq511120594 Web 浏览器数据挖掘
回顾web开发技术这十年发展历程： Ajax 03年的时候我上六年级，那时候网吧刚在小县城的角落萌生。传奇，大话西游第一代网游一时风靡。我抱着试一试的心态给了网吧老板两块钱想申请个号玩玩，然后接下来的一个小时我一直在，注，册，账，号。彼时网吧用的512k的带宽，注册的时候，填了一堆信息，提交，页面跳转，嘣，”您填写的信息有误，请重填”。然后跳转回注册页面，以此循环。我现在时常想，如果当时a
openSession()与getCurrentSession()区别： hetongfei java DAO Hibernate
来自 http://blog.csdn.net/dy511/article/details/6166134 1.getCurrentSession创建的session会和绑定到当前线程,而openSession不会。 2. getCurrentSession创建的线程会在事务回滚或事物提交后自动关闭,而openSession必须手动关闭。这里getCurrentSession本地事务(本地
第一章安装Nginx+Lua开发环境 jinnianshilongnian nginx lua openresty
首先我们选择使用OpenResty，其是由Nginx核心加很多第三方模块组成，其最大的亮点是默认集成了Lua开发环境，使得Nginx可以作为一个Web Server使用。借助于Nginx的事件驱动模型和非阻塞IO，可以实现高性能的Web应用程序。而且OpenResty提供了大量组件如Mysql、Redis、Memcached等等，使在Nginx上开发Web应用更方便更简单。目前在京东如实时价格、秒
HSQLDB In-Process方式访问内存数据库 liyonghui160com
HSQLDB一大特色就是能够在内存中建立数据库，当然它也能将这些内存数据库保存到文件中以便实现真正的持久化。先睹为快！下面是一个In-Process方式访问内存数据库的代码示例：下面代码需要引入hsqldb.jar包（hsqldb-2.2.8） import java.s
Java线程的5个使用技巧 pda158 java 数据结构
Java线程有哪些不太为人所知的技巧与用法？　　萝卜白菜各有所爱。像我就喜欢Java。学无止境，这也是我喜欢它的一个原因。日常工作中你所用到的工具，通常都有些你从来没有了解过的东西，比方说某个方法或者是一些有趣的用法。比如说线程。没错，就是线程。或者确切说是Thread这个类。当我们在构建高可扩展性系统的时候，通常会面临各种各样的并发编程的问题，不过我们现在所要讲的可能会略有不同。
开发资源大整合：编程语言篇——JavaScript（1） shoothao JavaScript
概述：本系列的资源整合来自于github中各个领域的大牛，来收藏你感兴趣的东西吧。程序包管理器管理javascript库并提供对这些库的快速使用与打包的服务。 Bower - 用于web的程序包管理。 component - 用于客户端的程序包管理，构建更好的web应用程序。 spm - 全新的静态的文件包管
避免使用终结函数 vahoa.ma java jvm C++
终结函数（finalizer）通常是不可预测的，常常也是很危险的，一般情况下不是必要的。使用终结函数会导致不稳定的行为、更差的性能，以及带来移植性问题。不要把终结函数当做C++中的析构函数（destructors）的对应物。我自己总结了一下这一条的综合性结论是这样的： 1）在涉及使用资源，使用完毕后要释放资源的情形下，首先要用一个显示的方

用WEKA进行数据挖掘，第3部分：最近邻和服务器端库

你可能感兴趣的:(Weka)