Weka专用的文件格式—— ARFF

ARFF格式

ARFF代表Attribute-Relation File Format(属性-关系文件格式)。
该文件是ASCII文本文件,描述共享一组属性结构的实例列表,由独立且无序的实例组成,是Weka表示数据集的标准方法,ARFF不涉及实例之间的关系。

在Weka安装目录下的data子目录中,可以找到名称为weather.numeric.arff的天气数据文件,其内容如下所示。

天气数据的ARFF文件

%This is a toy example, the UCI weather dataset.

@relation weather

@attribute outlook {sunny, overcast, rainy}
@attribute temperature numeric
@attribute humidity numeric
@attribute windy {TRUE, FALSE}
@attribute play {yes, no}

@data
sunny,85,85,FALSE,no
sunny,80,90,TRUE,no
overcast,83,86,FALSE,yes
rainy,70,96,FALSE,yes
rainy,68,80,FALSE,yes
rainy,65,70,TRUE,no
overcast,64,65,TRUE,yes
sunny,72,95,FALSE,no
sunny,69,70,FALSE,yes
rainy,75,80,FALSE,yes
sunny,75,70,TRUE,yes
overcast,72,90,TRUE,yes
overcast,81,75,FALSE,yes
rainy,71,91,TRUE,no

上述代码中,以百分号%开始的行成为注释行。
@relation 行定义内部数据集的名称weather, 名称应简洁明了,易理解。relation也成为关系。

@attribute outlook {sunny, overcast, rainy} 行定义名称为outlook的标称型苏醒,有三个取值。@attribute play {yes, no} 行定义play标称型属性。注意:最后一个属性默认为用于预测的类别变量,或成为目标属性。

@attribute temperature numeric 行定义名称为temperature的数值型属性。

@data 标志后的各行构成数据集。每行为一个实例样本,由采用逗号分隔的值组成,顺序与由@attribute所定义的属性的顺序一致。

属性的数据类型

  • 标称型(nominal),只能取预定义值列表中的一个;
  • 数值型(numeric),只能是实数或整数;
  • 字符串型(string),由双引号引用的任意长度的字符列表;
  • 日期型(date);
  • 关系型(relation)。

你可能感兴趣的:(Weka)