数据挖掘:SPSS
数据统计: SPSS(简单易用,常用算法), SAS (入手有点困难,可编程) STATA
SVM(支持向量机)软件
实验室使用,非商用
参考网站: www。chinakdd.com www.wekacn.org
Explorer: 算法可行性(对数据预处理,建立模型(分类、关联、聚类等))
Experimenter:算法评估(使用多个算法对一组数据进行分析),完成分布式任务处理
Knowledge FLow: 对大型数据处理的递增算法,画一个工作流
Simple CLI: 简单的命令行
1. 进入explorer
2. 打开csv文件
3. Save 为 rrdf格式
1. 删除无用属性,如id
2. 离散化: 直接修改 rrdf文件
1. 进入explorer 部分
2. 选择数据源 : 安装目录data下有实例数据
3. 预处理: 删除属性,离散化
4. 分类
选择部分数据作为训练集
通过交叉验证防止过度拟合;
correctly classified instances 代表成功率;
confusion matrix对角线上数字是正确预测的
应用模型
将模型应用到剩下的数据中,在set中选择要应用的数据文件
聚类
选择【cluster】
没有训练数据,所以选择 Use Training Set
参考教程:
http://wenku.baidu.com/view/360d99146edb6f1aff001f40.html
有很多数据挖掘的实例数据
加州大学尔湾分校 www.uci.edu
下载地址: archive.ics.uci.edu/ml
场景: 网络安全, 骚扰短信等, 金融市场,视频流挖掘
特点: 高速到达, 连续不断的 , 计算一个精确结果不可能(时间要求高)
模型: 收银机模型 十字转门模型
算法:VFDT算法; fVFDT UFFT(超快速森林算法)