Python数据挖掘与机器学习-01 初识数据挖掘

        工欲善其事必先利其器,先了解数据挖掘的相关概念,从而开始系统的学习数据挖掘与机器学习,本文主要整理了数据挖掘的相关概念,若在大学教材,或可称之为绪论。

1 数据挖掘与数据分析简介

数据挖掘(Data Mining,DM):是指从大量有噪声的、不完全的、模糊的和随机的数据中,通过应用聚类、分类、回归和关联规则分析等技术,提取出隐含在其中的事先不知道但具有潜在利用价值的信息的过程。

数据分析(Data Analysis,DA):是数学与计算机科学相结合的产物,根据分析目的(采用对比分析、分组分析、交叉分析和回归分析)用适当的统计分析方法对收集的大量数据进行分析,提取有用信息并形成结论,对数据加以详细研究和概括总结的过程。

以上两者都是基于搜集的数据,应用数学、统计和计算机等技术抽取出数据中的有用信息,进而为决策提供依据和指导方向。广义的数据分析包括狭义数据分析和数据挖掘。狭义的数据分析是通常所说的数据分析。

拗口,晦涩难懂,就像涓栫晫缁忓吀锷ㄧ敾鐭一样! 附数据分析和数据挖掘的对比。

表 1 数据分析与数据挖掘的对比

差异 数据分析 数据挖掘
定义 描述和探索性分析,评估现状和修正不足 技术性的“采矿”过程,发现未知的模式和规律
侧重点 实际的业务知识 挖掘技术的落地,完成“采矿”过程
技能 统计学、数据库、Excel和可视化等 过硬的数学功底和编程技术
结果 结合业务知识解读统计结果 模型或规则

数据挖掘的主要任务:

Python数据挖掘与机器学习-01 初识数据挖掘_第1张图片

关联分析:两个或两个以上变量的取值之间存在的规律成为关联。分为简单关联、时序关联和因果关联。

数据建模预测:用已知数据构建模型,然后对未知量进行预测,包括分类和回归。

聚类分析:把数据按照相似性归纳成若干类别,包括划分方法、层次方法、基于密度的方法和基于网格的方法。

离群点检测:就是偏离点和异常值,包括基于统计的检测方法、基于距离的检测方法、基于密度的检测方法和基于聚类的检测方法。

……


数据挖掘使用的技术:

统计学:多元统计分析,如判别分析、主成分分析、因子分析、相关分析和多元回归分析等。

机器学习:包括监督学习、无监督学习(参考监督分类和非监督分类)、半监督学习、主动学习、强化学习

数据库管理系统:用于事务处理

数据仓库:用于数据分析

……


数据挖掘建模的常用工具:

商用工具:SAS Enterprise Miner   、 IBM SPSS Modeler   、IBM Intelligent Miner

开源工具:R语言、Python、WEKA、RapidMiner


Python数据挖掘常用库:

表 2 Python数据分析与挖掘的常用库
拓展库 简介
NumPy 提供数组支持以及相应的处理函数
SciPy 提供矩阵支持以及矩阵相关的计算模块
Matplotlib 提供强大的可视化工具
Pandas 提供强大灵活的数据分析与探索工具
StatsModels 提供统计建模和计量经济学内容
scikit-learn 支持回归、分类和聚类等强大的机器学习库
Keras 深度学习库,用于建立神经网络和深度学习模型
Gensim 用于从文档中自动提取语义主题

你可能感兴趣的:(python学习,python,数据挖掘)