数据分析 —— 数据挖掘是什么、能干嘛、怎么做

数据分析

数据挖掘

  • 什么是数据挖掘

    数据挖掘:用于寻找数据中隐含的知识,并用于产生商业价值的一种手段

  • 为什么要做数据挖掘
    数据分析 —— 数据挖掘是什么、能干嘛、怎么做_第1张图片

    技术和商业就像一对双生子,在互相促进中不断演进发展。随之而来的就是个大公司的业务的突飞猛进,也涌现出很多的新模式,使得数据量激增。面对数以千万甚至上亿以及不同形式的数据。很难再用纯人工、纯统计的方法从成千上万的变量中,找到其隐含的价值。所以我们需要一种规范的解决方案,能够利用并且充分利用这些数据中每一个部分,通过一些自动化的机器学习算法,从数据中自动提取价值。

    数据挖掘提供了一系列的框架、工具和方法可以处理不同类型的大量数据,并且使用复杂的算法部署,去探索数据中的模式

  • 数据挖掘的产生动因

    1. 海量数据
    2. 维度众多
    3. 问题复杂

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-8Od48RVS-1649587377085)(D:\Typora\img\MyBatis-Plus\image-20220410174702234.png)]

  • 数据挖掘的用处

    1. 分类问题 —— 对已知类别的数据进行学习,为新的内容标注一个类别
      数据分析 —— 数据挖掘是什么、能干嘛、怎么做_第2张图片

      新浪导航栏图
    2. 聚类问题 —— 聚类的类别预先是不清楚的比较适合一些不确定的类别场景

    3. 回归问题

      回归问题的最大特点 ―— 生成的结果是连续的使用回归的方法预测北京某个房子的总价 (y)

      假设总价只跟房子的面积 (x) 有关,那么构建的方程式就是 ax+b=y

      回归方法 ―― 通过构建一个模型去拟合已知的数据(自变量),然后预测因变量结果

    4. 关联问题

      关联问题最常见的一个场景 —— 推荐
      数据分析 —— 数据挖掘是什么、能干嘛、怎么做_第3张图片

      京东组合购买推荐图
  • 数据挖掘怎么做

    数据挖掘是有方法论的

    数据挖掘经过了数十年的发展和无数专家学者的研究,有很多人提出了完整的流程框架

    应用最多的方法论︰CRISP-DM (Cross-industry Standard Process for Data Mining,跨行业数据挖掘标准流程)

CRISP-DM 流程
数据分析 —— 数据挖掘是什么、能干嘛、怎么做_第4张图片

CRISP-DM 流程
  1. 业务理解(Business Understanding)

    比如:训练一个模型来预测明年公司的利润
    数据分析 —— 数据挖掘是什么、能干嘛、怎么做_第5张图片

    业务理解 ―― 理解你的数据挖掘要解决什么业务问题

    必须从商业或者从业务的角度去了解项目的要求和最终的目的,去分析整个问题涉及的资源、局限、设想,甚至是风险、意外等情况

    也就是 从业务出发,到业务中去

  2. 数据理解(Data Understanding)
    数据分析 —— 数据挖掘是什么、能干嘛、怎么做_第6张图片

    数据理解阶段始的重点:在业务理解的基础上,对掌握的数据要有一个清晰、明确的认识

    注意:数据理解和业务理解是相辅相成的

  3. 数据准备(Data Preparation)
    数据分析 —— 数据挖掘是什么、能干嘛、怎么做_第7张图片

    数据准备是基于原始数据,去构建数据挖掘模型所需的数据集的所有工作。包括数据收集、数据清洗、数据补全、数据整合、数据转换、特征提取等―系列动作

  4. 构建模型(Modeling)

    构建模型也叫作训练模型,重点解决技术方面的问题

    选用各种各样的算法模型来处理数据,让模型学习数据的规律,并产出模型

    如果有多重技术要使用,在这一任务中,对于每一个要使用的技术要分别对待比如SVM算法只能输入数值型的数据

  5. 评估模型(Evaluation)

    模型的效果如何,能否满足业务需求

    需要使用各种评估手段、评估指标甚至是让业务人员一起参与进来,彻底地评估模型

    在评估之后会有两种情况:

    • 评估通过,进入到上线部署阶段
    • 评估不通过,要反过来再进行迭代更新
  6. 模型部署(Deployment)

    解决一些实际的问题,比如

    长期运行的模型是否有足够的机器来支撑,数据量以及并发程度会不会造成部署的服务出现问题部署是一个挖掘项目的结束,也是一个数据挖掘项目的开始

你可能感兴趣的:(数据分析,python,大数据)