Java调用Weka API创建Arff文件

毕业设计是基于Web的数据挖掘系统,其中主框架使用了Spring MVC集成MyBatis,挖掘算法的实现采用了Weka提供的开源jar包。

在参考了:
Weka介绍
某个数据挖掘大牛的Weka总结
之后,完成了该系统的设计开发。

调用Weka算法的时候,需要的元数据格式为.arff文件,Arff文件相关介绍
这里简单介绍下构造arff文件的过程。

Arff(attribute relation file format 关系属性格式)文件是一种由独立、无序实例组成的数据集文件,是一种 ASCII 文本文件。在 Arff 文件中,%开始表示注释;@relation 表示数据之间的关系;@attribute 表示字段名称和字段类型;@data 表示具体的数据,同时数据的顺序要和@attribute 中的属性保持一致。文件内容中,最开始的部分显示文件注释,之后显示关系的名字和属性的具体定义,在属性下是具体的数据集合。

关键代码:
一开始需要实例化一个Vector来保存数据属性:

FastVector atts = new FastVector();// 保存属性

同时需要有保存单条数据

double[] vals;// arff保存单条数据

判断数据格式之后新建数据属性:

atts.addElement(new Attribute(numName));

之后填充数据:

vals[j] = instances.attribute(j).addStringValue("XXXXX");

总共就这么四步,完整代码:

/** * 创建合法格式的Arff文件 * * @param data 该参数为封装好的Data参数,数据类型为 * Map<String, List<Object>> * @return * @throws Exception */
    public String createArffFile(Data data, int userID) throws Exception {
        FastVector atts = new FastVector();// 保存属性
        double[] vals;// arff保存单条数据
        // 创建List作为数据类型flag
        List<Object> indexList = new LinkedList<Object>();
        // 获取data数据
        wekaData = XMLParser.praseXML(data.getData_Content());
        // 获取data中的第0行为title,第一行为判断数据类型
        List<Object> titleList = wekaData.get("0");
        List<Object> firstList = wekaData.get("1");
        // 遍历title中的数据类型,为arff文件创建attribute
        for (int i = 0; i < firstList.size(); i++) {
            Object obj = firstList.get(i);
            String objStr = obj.toString();
            if (isNumeric(objStr)) {
                indexList.add("Numeric");
                String numName = String.valueOf(titleList.get(i));
                atts.addElement(new Attribute(numName));
            } else if (isValidDate(objStr)) {
                indexList.add("Date");
                atts.addElement(new Attribute((String) titleList.get(i), "yyyy-MM-dd"));
            } else {
                indexList.add("String");
                atts.addElement(new Attribute((String) titleList.get(i), (FastVector) null));
            }
        }

        // 必须放在创建attribute之后 否则会报异常
        Instances instances = new Instances(data.getData_Name(), atts, 0); // 创建一个weka
                                                                            // data实例
        System.out.println(indexList);
        // 填充数据
        for (int i = 1; i < wekaData.size(); i++) {
            vals = new double[instances.numAttributes()];
            String index = String.valueOf(i);
            int length = wekaData.get(index).size();
            System.out.println(length);
            // 遍历填充
            for (int j = 0; j < length; j++) {
                if (indexList.get(j).equals("String")) {
                    System.out.println("string");
                    vals[j] = instances.attribute(j).addStringValue((String) wekaData.get(index).get(j));
                } else if (indexList.get(j).equals("Numeric")) {
                    System.out.println("number");
                    System.out.println((String) wekaData.get(index).get(j));
                    double num = Double.valueOf((String) wekaData.get(index).get(j));
                    vals[j] = num;
                }
            }
            instances.add(new Instance(1.0, vals));
            // end
        }
        System.out.println(instances.toString());
        // IP时间戳工具
        IPTimeStamp ipTimeStamp = new IPTimeStamp();
        // 保存文件加时间戳重命名,防止不同文件重名覆盖
        String fileName = ipTimeStamp.getIPTimeRand() + "_" + userID + "_" + data.getData_Name();
        String path = configProperty.getArffPath() + fileName + ".arff";
        File outFile = new File(path);
        FileUtils.writeStringToFile(outFile, instances.toString(), false);
        System.out.println("ArffPath" + configProperty.getArffPath());

        return path;
    }

构建好的格式举例:K-means聚类样本.arff

@relation K-means聚类样本

@attribute X numeric
@attribute Y numeric

@data
0,0
1,0
0,1
1,1
2,1
1,2
2,2
3,2
6,6
7,6
8,6
6,7
7,7
8,7
9,7
7,8
8,8
9,8
8,9
9,9

同时也可以参考该论文:Java编程实现WEKA数据文件的生成

你可能感兴趣的:(Java调用Weka API创建Arff文件)