weka中的arff格式数据

1.数据格式主要有三个要求,@relation ,@attribute,@data这三个是要有的,文件的名称,实例的属性,以及实例属性的对应值

@relation house

 

@attribute houseSize numeric

@attribute lotSize numeric

@attribute bedrooms numeric

@attribute granite numeric

@attribute bathroom numeric

@attribute sellingPrice numeric

 

@data

3529,9191,6,0,0,205000

3247,10061,5,1,1,224900

4032,10150,5,0,1,197900

2397,14156,4,1,0,189900

2200,9600,4,0,1,195000

3536,19994,6,1,1,325000

2983,9365,5,0,1,230000


2.属性值的数据类型有5类:NORMINAL, NUMBERIC, STRING, DATE, RELATION

 @ATTRIBUTE timestamp DATE "yyyy-MM-dd HH:mm:ss"

 @attribute houseSize numeric

 @attribute outlook {sunny, overcast, rainy} //就是nominal类型的

其它两种还没有使用过


3.其他格式数据转换成arff格式时遇到的问题

    word编辑后直接改后缀名为.arff,weka不能识别。解决方案,用记事本编辑后改后缀名,主要原因是编码问题,需要是utf-8的。

    在word中编辑保存时,可在工具中选择Web选项,在编码项中将编码格式选择为Unicode(UTF-8)




4.用weka打开csv格式文件

   有时候我们获得的是excel文件,直接保存为后缀名为.csv格式的,它是以逗号分隔各属性值的。会遇到以下错误


意思读到了3个属性值,但是每个instance(实体)是有14个attribute(属性)的,就是没有读到数据。有可能是数据里面有逗号或者空格符。我遇到了读到17,期望15的情况,找了浜田页眉找到原因。最后把那行数据删除了,就可以读入数据了。后来将那条数据恢复了,又能导入Weka了。如果不知道数据问题出在哪,可以先用少量的数据验证格式是否正确。


5.获取数据的网站

http://archive.ics.uci.edu/ml/






 

你可能感兴趣的:(csv,weka,ARFF)