数据挖掘概述

数据挖掘:是数据库知识发现(KDD)中的一个步骤,一般指大量数据中通过算法自动发现隐藏于其中的信息和知识的过程。

大数据的5V特点:实时性、多样性、价值大、真实性、体量大。

数据挖掘的功能:

    聚类:把数据划分成不同的群组,群组之间差异明显。

    预测:把握分析对象发展趋势,对未来的趋势做出预测。

    分类:构造一个分类器,把数据映射到给定类别的某一个。

    关联分析:寻找数据中值的关联和相关性。

    数据总结:对数据进行压缩,给出它的紧凑描述。

    偏差检测:对分析对象中少数的、极端的特例的描述,揭示内在的原因。

数据分析五原则:

    大数定律:大量重复实验出现的结果的平均值一定接近于某个确定的值。

    丑小鸭定理:世界上不存在分类的客观标准,一切分类的标准都是主观的。

    邦弗朗尼原理:常见的数据挖掘问题涉及在大量数据中发现隐藏的异常事件。

    无免费的午餐定理:没有一个数据分析算法可以在任何领域总是产生最准确的数据分析结果,必须针对具体问题讨论具体适用的数据分析方法。

    奥卡姆剃刀原则:如无必要,勿增实体。简单既有效,有两个功能相近的模型,应该选择更简单的模型。

大数据挖掘处理流程:

    数据采集、数据存储、数据清洗、特征提取、特征选择、模型选择、模型训练、模型评测、数据可视化。

你可能感兴趣的:(数据挖掘,数据分析)