1. 说明
从数据表中读入数据,用SPSS进行数据处理,然后用WEKA进行数据分析。
2. EXCEL
1) 目的
用java将其它数据写入EXCEL
2) 读写excel的jar包jexcelapi从此处下载
http://www.andykhan.com/jexcelapi/download.html
3) java读写excel例程示例
http://www.javaeye.com/topic/55844
http://mengqingyu.javaeye.com/blog/440358
3. 数据分析软件SPSS(占据90%市场分额)
1) 目的
整理数据,分析数据,结果展示
2) 读入数据
a) 方法一:从excel中复制单元格,粘贴在SPSS中
b) 直接打开excel文件(*.xls),注意因为版本原因,用java写的xls有的需要再用excel转存一下才能供SPSS使用
3) 操作数据
a) 数据处理
i. 修改字段类型
从SPSS左下角的进入Variable View选项卡,可改变字段的类型值
Meature数据量度: Scale(数值), Ordinal(可排序), Nominal(离散)
ii. 计算新变量
菜单Transform->Compute varliable,将根据现有列计算出新列
iii. 排序
菜单Transform->Rank cases生成新列,新列中是排序号
iv. 修改内容
菜单Transform->Record into xxx,根据某列数据通过某种算法产生新数据
v. 文件操作
菜单Data->Merge File
vi. 数据整理:
菜单Data->Select Cases,数据选择
菜单Data->Weight Cases,数据加权
b) 数据分析
i. 生成关系矩阵
菜单Analyze->Correlate->Bivariate,生成矩阵,数越大,相关性越大
ii. 生成K均值聚簇
菜单Analyze->Classify->K-Means cluster,将需计算的数据放入Variables,说明列放入Label Cases by,在Iterate中设置迭代次数,Number of clusters中输入簇数,选中Save中项,以生成列(记录属于哪个簇,与簇心的距离)
c) 数据描述,结果展示:
菜单Graphs
d) 注意:开始使用时,数据最好转成int型,以便于计算
4) 菜单说明
Data菜单:操作行
Transform菜单:操作列
Analyze菜单:数据分析,主要是聚类和分类方法
4. 数据挖掘软件WEKA
1) 目的
数据分析
2) 读入数据
a) 使用SPSS和Excel保存为csv文件(文本格式的数据文件)
b) 在预处理选项卡中用Open file打开csv文件,注意csv中不能含有特殊字符
c) WEKA中默认的文本格式为arff,也是一种文本格式的数据文件
3) 操作数据
a) 分类
选项卡Classify选择Choose->trees->J48或ID3 (ID3只能处理离散值),生成决策树
b) 关联
选项卡Associate选择Choose->apriori,在按钮右侧通过点击设置支持度(lowerBoundMinSuport),可信度(upperBoundMinSupport),apriori需要离散化数据
5. 参考
1) 《spss数据统计分析与实践》pdf文档