Weka入门

最近做对比实验要用到weka,于是开始上网找相关的资料,网上大部分博客都在讲WEKA 建议的加载数据的格式 Attribute-Relation File Format (ARFF),看着感觉很高大上的样子。其实在weka中可以直接使用csv文件的,使用也非常方便。下面简单说说我的做法

PS:我的对比实验室是要用WEKA来做一个线性回归(Linear Regression),训练数据和标签都有了,数据格式都是csv。

1 WEKA的下载可以去它的官网:http://www.cs.waikato.ac.nz/ml/weka/,现在新版的weka安装前都不用手动安装JAVA了,我记得以前的版本是需要自己受到转JAVA的,现在新版的WEKA把JAVA的安装都集成进去,下载后直接安装weka就可以了。
2 安装好后就可以直接打开WEKA运行了,运行后如下图
Weka入门_第1张图片
选Experimenter,进去后的界面如下:
Weka入门_第2张图片
点左边的open file,就可以把自己的数据加载进去了。上图就是加载成功后的图,加载好数据后选classify
Weka入门_第3张图片
点classifier下的choose就可选你要用的机器学习算法了,我要的回归在function分支里面,选好算法后就是Test options, 对于我要的对比实验来说当然是选cross-validation(交叉验证),这里需要主要的是start上面那个选项,那个选择是你要回归的模型的标签列,通常是最后一列,如果不是最后一列的话就需要自己手动改了。
设置完成后就可以直接点start开始运行了,运行的时候在坐下角那里的status可以看到训练运行的实时状态,训练完成后在右边summary下面还给出了交叉验证的实验结果,比如我用到的就是correlation coefficient, Mean absolute error, Root mean squared error这三个。

最后需要注意的是,把csv文件导进去后,weka会把文件的第一行认为是属性名称,所以如果你的第一行不是属性名称而是样本数据的话就需要进行处理了,我的方法就是在第一行前插入一行,插入那行的数据为1,2,3,4,……。

reference:
http://www.ibm.com/developerworks/cn/opensource/os-weka1/

你可能感兴趣的:(机器学习,weka)