数据分析(1)

1、数据分析

了解:数据往往以表格的形式进行展示

行:每条记录

列:属性

* 字段 经过转化后变成 特征

2、数据处理流程(5步骤)

(1)数据获取
(2)探索分析(有时也可以用在产出中)

作用:加强对数据的了解,通过可视化的手段进行可视化报告的形式展示,例如tableau和kibana(es库)

(3)预处理

涉及:特征工程
其他:支持建模、数据清洗去除杂质

(4)建模分析
(5)模型评估
  • 相关职位:
    前两步 -> 数据分析
    后三步 -> 数据挖掘、数据建模
    重预处理 ->数据开发工程师

3、数据分类(目标不同,有对比过程)

所有的记录 => 数据
包含信息的记录 => 有用的数据

  • 分4个大类
定类数据:表示一些类别,无大小之分
定序数据:有大小之分,但无法衡量之间大小的具体差距
定距数据:有大小之分,有衡量,没有零点(例,10摄氏度),倍数关系无意义
定比数据:有大小之分,有衡量,有零点

4、数据获取(一般方式)

(1)调查数据 / 问卷等 => 抽样
(2)抓取 / 接口(例:高德开放平台)

前端——分布式运行,涉及页面等展示
后端——服务器:应用端 和 数据端
|____________逻辑运算(第5层http协议)

(3)日志 / 埋点

用户行为记录信息

(4)数据仓库

数据:历史上完整记录

引申:数据库 与 数据仓库 的不同点(例:调用信息 -> 从数据库)

①中的数据使用是相对比较高频的,②的数据使用频率较低;
①面向应用的,②面向分析的(Oracle\Hive\MaxCompute;
①的实用性要求较高,②实时性要求较低。

5、数据仓库——>数据集市

  • 分三层

(1)DWD(Data Warehouse Detail)细节数据层
(2)DWB(Data Warehouse Basic)基础数据层
(3)DWS(Data Warehouse Service)服务数据层

目的:希望分析的表越少越好,即存成一张 宽表
提问:为什么不一开始就存成 宽表 呢?
原因:
①不知道宽表什么样,业务需求具体提出时再拿进来用
②冗余存取,成本高

你可能感兴趣的:(数据分析(1))