数据挖掘学习笔记(1)

数据挖掘相关概念

当被存储在本地时的数据称作数据,当把数据经过加工处理,它们转变成了有用的信息。如果信息经过合理的组合能够产生价值,特别是商业价值,此时就可以称其为知识。

数据挖掘的过程就是数据加工处理变成信息,最后转化为知识的过程。 

数据挖掘的一些主要工具:商用的MATLAB、IBM Intelligent Miner、SAS Enterprise Miner、SPSS Clementine和开源工具Weka。

主要思路:表述问题和解决过程两个阶段。

分类器效果评价方法的图形化展示方法有:ROC曲线和Lift曲线。

数据挖掘一般分为8个步骤:信息收集,数据集成,数据规约,数据清理,数据变换,数据挖掘过程,模式评估,知识表示。

数据挖掘的九大定律:

数据挖掘通用流程CRISP-DM的缔造者之一Tom Khabaza曾总结了在数据挖掘上的九大定律,如下所示:

1、Business Goals Law:每个数据挖掘解决方案的根源都是有商业目的的。

2、Business Knowledge Law:数据挖掘过程的每一步都需要以商业信息为中心。

3、Data Preparation Law:数据挖掘过程前期的数据准备工作要超过整个过程的一半。

4、NFL Law:NFL(没有免费的午餐,No Free Lunch)。对于数据挖掘者来说没有免费的午餐,数据挖掘的任何一个过程都是来之不易的。

5、Watkins‘s Law:此定律以此命名是因为David Watkins首次提出这个概念。这个定律说的是在数据的世界里,总是有模式可循的。您找不到规律不是因为规律不存在,而是因为您还没有发现它。

6、Insight Law:数据挖掘可以把商业领域的信息放大。

7、Prediction Law:预测可以为我们增加信息。

8、Value Law:数据挖掘模式的精准和稳定并不决定数据挖掘过程的价值,换句话说技术手段再精妙,没有商业意义和合适的商业应用是没有价值的。

9、Law of Change:所有的模式都会变化。 

Google为数据分析和数据挖掘提供了一个开放的作图工具Google Chart   http://developers.google.com/chart/。

Tableau Software 是最近两年最火的数据可视化工具,用以显示最终数据挖掘结果。

2012年最火的视觉可视化社区:http://visual.ly/                   


你可能感兴趣的:(学习笔记,数据挖掘)