Python数据分析之数据挖掘简介

数据分析已经越来越被人们所重视,例如在《长安十二时辰》里面徐宾所创的大案牍术,综合文件、案牍中的数据,选择出破案人选,这其实就是现代的大数据分析。由此可见,数据有其巨大的潜力与价值。

一、数据挖掘的基本任务:

  利用 聚类分析、关联规则、智能推荐 等方法,提取数据进行分析建模,得到数据中蕴含的价值,如提取用户关于电影的评论来进行情感分析、基本房价信息来预测房价等。

二、建模过程:

  第一步:定义挖掘目标

  第二步:数据取样

  第三步:数据探索

  第四步:数据预处理

  第五步:挖掘建模

  第六步:模型评价

三、可以使用的工具:

  1、WEKA(怀卡托智能分析环境):公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理,分类,回归、聚类、关联规则以及在新的交互式界面上的可视化。

下载地址:https://sourceforge.net/projects/weka/

  2、Python:个人推荐使用Python,因为它提供很多的扩展库,为Python提供了快速数组处理、数值运算以及绘图能力,还包含了机器学习库,如sklearn类库。

下载地址:https://www.python.org/getit/

你可能感兴趣的:(Python数据分析之数据挖掘简介)