weka使用教程1--ARFF文件生成和使用

weka的数据格式是ARFF

1 生成ARFF文件

以要不要去沙滩的数据集为例进行说明,该数据集有三列 第一列:天气  第二列:温度  第三列:要不要去沙滩

weka使用教程1--ARFF文件生成和使用_第1张图片

我们把这三列数据复制到 Notepad中,ARFF还需要其他的一些信息:

weka使用教程1--ARFF文件生成和使用_第2张图片

       a) 第1行,是关系名称,这个自己随便起,不过写的最好要有意义。

   b) 第2~3行是特征列表,其中第1列是特征说明,不可缺少,第2列是特征名称,第3列是特征类型或特征取值范围。

   c) @data(第5行)是数据域说明,在它下面的全是数据。其中每一行体表一条数据。

  将文件保存成ARF文件的形式

2 测试

(1)选择Explorer,open file选择上边生成的ARFF文件

weka使用教程1--ARFF文件生成和使用_第3张图片

(2)选择Classifier为NaiveBayes,Test options选择十次交叉验证,点击start

weka使用教程1--ARFF文件生成和使用_第4张图片

3. 十折交叉验证的概念

10-fold cross-validation 就是十折交叉验证,用来测试精度。是常用的精度测试方法.将数据集分成十分,轮流将其中9份做训练1份做测试,10次的结果的均值作为对算法精度的估计,一般还需要进行多次10倍交叉验证 求均值,例如10次10倍交叉验证,更精确一点。

你可能感兴趣的:(机器学习)