ARFF代表Attribute-Relation File Format(属性-关系文件格式)。
该文件是ASCII文本文件,描述共享一组属性结构的实例列表,由独立且无序的实例组成,是Weka表示数据集的标准方法,ARFF不涉及实例之间的关系。
在Weka安装目录下的data子目录中,可以找到名称为weather.numeric.arff的天气数据文件,其内容如下所示。
天气数据的ARFF文件
%This is a toy example, the UCI weather dataset.
@relation weather
@attribute outlook {sunny, overcast, rainy}
@attribute temperature numeric
@attribute humidity numeric
@attribute windy {TRUE, FALSE}
@attribute play {yes, no}
@data
sunny,85,85,FALSE,no
sunny,80,90,TRUE,no
overcast,83,86,FALSE,yes
rainy,70,96,FALSE,yes
rainy,68,80,FALSE,yes
rainy,65,70,TRUE,no
overcast,64,65,TRUE,yes
sunny,72,95,FALSE,no
sunny,69,70,FALSE,yes
rainy,75,80,FALSE,yes
sunny,75,70,TRUE,yes
overcast,72,90,TRUE,yes
overcast,81,75,FALSE,yes
rainy,71,91,TRUE,no
上述代码中,以百分号%开始的行成为注释行。
@relation 行定义内部数据集的名称weather, 名称应简洁明了,易理解。relation也成为关系。
@attribute outlook {sunny, overcast, rainy} 行定义名称为outlook的标称型苏醒,有三个取值。@attribute play {yes, no} 行定义play标称型属性。注意:最后一个属性默认为用于预测的类别变量,或成为目标属性。
@attribute temperature numeric 行定义名称为temperature的数值型属性。
@data 标志后的各行构成数据集。每行为一个实例样本,由采用逗号分隔的值组成,顺序与由@attribute所定义的属性的顺序一致。
属性的数据类型