从零开始的《数据挖掘与大数据分析》课堂学习笔记-2 第一章“数据挖掘与大数据分析简介”完结~ 下节课开始新内容——认识数据与数据预处理

本文导读

    • 5.数据挖掘的意义
      • 举个栗子——流感预测
      • 举个栗子——零售商店降低库存成本
      • 举个栗子——银行
        • 市场分析与管理
      • 从事数据挖掘工作一般需完成什么任务
      • 数据挖掘的定义
    • 6.数据挖掘在知识发现这一过程中的作用
      • 知识发现过程
    • 7.数据挖掘的主要任务

接上篇文章
更多本系列文章见专栏~

5.数据挖掘的意义

举个栗子——流感预测

如何预测?——找出流感关键字眼 放进数学模型 预测得到流感的一些相关资料。

比如03-08年的H1N1病毒 09年有几个工程师 用5000w个关键字&4.5亿个数学模型 进行“预测” 结果与真实结果吻合

现有的数据挖掘技术 都是在事后进行“预测”

举个栗子——零售商店降低库存成本

用数据挖掘的方法 预测未来的商品销售量 降低库存成本。

xxx零售商店 库存成本降低3.8%

举个栗子——银行

对不断增长的客户群进行分类 对每种产品找出最有价值的客户。

汇丰银行 营销费用减少了30%

然后——

老师又来社会性发言惹

“在银行 他们都不懂技术 就你懂 你就吊打他们

他们更多是搞营销

当然你要又能搞营销又能搞技术 那肯定更牛~“

“银行不加班呐 轻松 一年拿20w 虽然不多但是轻松啊~”

市场分析与管理

  • 针对营销——找出顾客群

找出具有不同特征的顾客群

  • 风险控制——确定顾客随时间变化的购买模式

看看顾客有什么变化可能导致风险

  • 交叉销售分析

找到产品销售之间的关联、基于关联信息的预测

  • 顾客分类

聚类或者分类 预测什么样的顾客购买什么样的产品

  • 识别顾客需求

对不同的顾客识别最好的产品

使用预测发现是什么因素影响新顾客

  • 提供汇总信息

各种多维汇总报告

统计的汇总信息

综上 老师推荐了一手银行就业

从事数据挖掘工作一般需完成什么任务

并不是像传统印象中的一样 研究算法 更多

而是更多 接触特征工程——更多地去处理数据

数据决定了机器学习的上限 算法只是尽可能逼近这个上限

这里的数据指的就是 经过特征工程得到的数据

数据挖掘的定义

从大量的数据中挖掘那些令人感兴趣的 有用的 隐含的 先前未知的 可能有用的模式或者知识。

并非所有数据分析都是数据挖掘

-查询处理

-专家系统或是小型的数学计算/统计程序

6.数据挖掘在知识发现这一过程中的作用

数据挖掘是“知识发现”这一过程的核心

知识发现过程

从零开始的《数据挖掘与大数据分析》课堂学习笔记-2 第一章“数据挖掘与大数据分析简介”完结~ 下节课开始新内容——认识数据与数据预处理_第1张图片

7.数据挖掘的主要任务

下面简单介绍下数据挖掘的主要任务

这块儿听讲有点走神

从网上找了一下概念

做个简单了解吧

详细了解回头再细查~

  • 关联分析

两个或两个以上变量的取值之间存在的规律性称为关联。

​ 关联分为简单关联、时序关联和因果关联。

​ 关联分析的目的是找出数据库中隐藏的关联网。

一般用支持度可信度两个阈值来度量关联规则的相关性,还不断引入兴趣度、相关性等参数,使得所挖掘的规则更符合需求。

  • 聚类分析

​ 聚类是把数据按照相似性归纳成若干类别分类出来,同一类中的数据彼此相似,不同类中的数据则相异。

  • 分类算法

​ 分类其实就是找出一个类别的概念描述,代表了数据的整体信息,分类的内涵描述,并用描述来构造模型,一般用作于规则或决策树模式表示出来。

​ 分类是利用训练数据集中通过一定的算法而求得分类规则。

​ 分类可被用于规则描述和数据预测。

  • 预测

​ 通过预测利用历史数据找出变化规律,建立模型并由该模型对未来数据的种类及特征进行预测。

​ 预测关心的是精确度和不确定性因素,通常用预测方差来度量较为适合。

  • 时序模式

​ 通过时间序列搜索出的重复发生概率比较高的模式。与回归一样,它也是用己知的数据预测未来的数据值,但这些数据的区别是变量所处时间的不同而已。

  • 偏差分析

​ 在偏差中包括很多有用的知识,数据库中的数据存在很多异常情况,发现数据库中数据存在的异常情况是非常重要的。偏差检验的基本方法就是寻找观察结果与参照之间的差别。

  • 孤立点(离群点)分析

eg:NBA球员数据分析

你可能感兴趣的:(数据挖掘与大数据分析,数据挖掘,大数据,机器学习)