分享几个概念!(数据接入、数据清洗……)

  由于来实习,领导说了几个概念!故将这些概念进行深入的学习理解!争取融会贯通不断发散继续学习!争取努力把这些词汇整明白!


一、数据接入

定义:
  数据接入就是各种零散的数据(结构化,非结构化,半结构化数据)整合在一起,纳入统一大数据平台。

数据类型:

  • 结构化数据(关系型数据库的数据)——通过ETL完成
  • 日志数据接入——接入工具有Flume、FileBeats、Logstash
  • IOT(internt of thing)数据接入:通常为流数据。通过kafka接入
  • 文件数据接入::通过FTP或者WebDAV协议接入

名词解释:

ETL:Extract-Transform-Load的缩写,将数据从源端经过抽取(extract)、转换(transform)、加载(load)至目标端的过程。ETL以前主要是:用户从数据源抽取所需的数据,清洗转换,加载到定义好的数据仓库模型,而在大数据时代,ETL 过程逐渐被ELT,即提取-加载-转换代替,其中数据转换根据下游使用的需要在大数据平台中进行,而不是在加载阶段期间。
流数据:流数据是一组顺序、大量、快速、连续到达的数据序列,一般情况下,数据流可被视为一个随时间延续而无限增长的动态数据集合(来自百度百科)
FTP:文件传输协议。用于互联网双向传输,控制文件下载空间在服务器复制文件从本地计算机或本地上传文件复制到服务器上的空间


二、数据清洗

定义:
  数据清洗是指发现并纠正数据文件中可识别的错误,检查数据一致性,处理无效值和缺失值等,数据清洗就好比做一道菜之前需要先择菜洗菜一样!个人认为数据清洗更多用python实现!说错了希望大佬可以指正!

类型(并不全面):

  • 删除多列
  • 转换数据类型
  • 检查缺失数据
  • 将分类变量转换为数值变量
  • 删除列中的字符串
  • 删除列中的空格
  • 用字符串连接两列(带条件)
  • 转换时间戳(从字符串到日期时间格式)

 Python代码链接及原文

  清洗同时要保证数据的一致性,是要解决数据分散在各个系统,不同部分重复开发报表,不同报表计算口径不一的问题。建立统一的数据仓库,集中解决数据不一致的问题,并保持严格的定期维护。


三、KPI统计开发

KPI:
  关键绩效指标(KPI:Key Performance Indicator)是通过对组织内部流程的输入端、输出端的关键参数进行设置、取样、计算、分析,衡量流程绩效的一种目标式量化管理指标,是把企业的战略目标分解为可操作的工作目标的工具。针对于人员内部工作的量化

OKR:
  在搜集KPI相关资料时,发现了OKR这个概念,同样也是量化的一种工具,接下来进行简单介绍;OKR就是Objectives and Key Results,即目标与关键结果法。OKR是一种战略目标任务体系,是一套明确目标并跟踪其完成情况的管理工具和方法。这个工具需要有极致聚焦的明确目标和量化该目标的数个关键结果。(这里仅仅是简单说一句,重点还在KPI)
分享几个概念!(数据接入、数据清洗……)_第1张图片

  工具没有好坏,只有是否适合!两种工具都有其适用的环境。


四、业务场景数据分析

  业务场景分析的含义我查找了很多资料没有找到,谈谈自己的理解:在现实的业务场景中,分析业务中的真实数据,发现潜在信息,加以利用。

整体分析思路

  • 明确业务场景(分析处于哪个维度?)
  • 确定分析目标(维度中具体分析哪个事物?)
  • 构建分析体系(包括数据指标和分析框架)
  • 梳理核心指标(针对业务场景,找到核心指标)

在知乎看到的一句话(侵权删):
  作为一名分析师,要构建自己的分析体系,让自己的数据分析结果,成为可以切实推动业务发展的驱动力。需要具备以下综合能力:数据思维(就是定量化的思维方式)、业务理解能力(需要不断学习和积累)、数据分析的工具、分析方法和模型、可视化的技能、报告撰写。有好的分析结论,也要能输出出来。


你可能感兴趣的:(数据分析,大数据)