数据平台建设整体思路阐述和总结

原内容来自:https://www.jianshu.com/p/73717303fd1a
删除了一些多余的话,整理了一些看不懂的格式
……………………………………………………………………

数据处理流程

数据平台建设整体思路阐述和总结_第1张图片

数据收集

数据工作的第一步就是收集数据。

优点 缺点
埋点 和业务能够紧密结合,支持灵活多变的业务需求 有码埋点对业务代码有入侵;无码埋点影响APP性能;有一定维护成本
爬虫 可以抓取应用外数据,丰富数据类型 有一定开发难度;有一定开发和维护成本;需要考虑数据的应用场景
采购 获取数据容易 注意法律红线;需要谨慎考虑数据应用场景
数据库同步 和业务数据高度一致;和业务需求天然具有关联性 对业务数据库有性能消耗,需要考虑数据库性能的极限

数据收集方案选择

数据库同步>埋点>爬虫>采购

数据库同步方案

1,根据DB log 日志。例如Sqlserver 开启CTLog,PG 开启WLlog
2,Sqoop 进行数据同步。Sqoop支持目前市场主流数据库数据和Hdfs的相互同步
3,依赖消息队列开发数据同步工具。

注意:
1,要考虑数据同步的时候 对业务数据库的压力。尽量使用从库,对没有从库的业务一定要考虑让步策略,异常策略,一切以业务正常运行为前提。
2,充分考虑数据安全,在大数据安全不够健全的情况下,一定要对于敏感业务的数据,可以通过脱敏,混淆,隔离等方式处理。

埋点

场景 特点
前端埋点 主要用于用户行为分析,UI分析,优化用户体验场景,非精准类的数据分析,和后端数据做交叉验证 1,埋点变更受发版限制 2,前端数据上报需要在wifi条件下上报数据,数据会有延迟 3,对Key做特殊处理,前端埋点可读性差,需要做好字典 4,前端埋点位置需要注意默认加载位置的埋点,否则会造成埋点数据虚高 5,对前端代码会有入侵
服务端埋点 对数据数据库同步方案的补充,大多用做BI统计,对数据精准度有一定要求的数据分析,和前端数据做交叉验证 1,埋点变更灵活 2,数据准确度介于数据库同步和前端埋点之间 3,埋点时机,需要在数据写入数据库后 4,对服务端代码会有入侵

前后端埋点如何设计

  1. 埋点描述内容:什么主体在什么时间做了什么事情
  2. 埋点通用设计:公共埋点+业务埋点
  3. 埋点格式:JSON结构。因为json具有较好的兼容性,大多数平台都能够比较容易解析。数据传输高效。
  4. 埋点原则:一旦埋点上线,并且被用于数据分析,尽量不要做删除操作,多做追加操作。埋点设计过程中,不可闭门造车,一定要和充分了解业务,充分沟通,自上而下,从全局到局部做设计。
  5. 埋点实施:特别是对于从0到1的平台搭建,各个业务线和团队,一定会遇到很大困难,一定要有极强执行力和耐力,否则埋点在初期会推进的非常缓慢,初期基本上需要手把手去引导
  6. 埋点监控:检查埋点是否错埋; 检查埋点是否漏报; 埋点字段的类型和上报的数据类型是否一致; 非空字段是否有控制;
  7. 异常埋点处理策略
    如果业务理解透彻,埋点明确,需求交付时间充足,校验机制成熟可靠,异常数据肯定不允许进入后面的数据仓库,但是需要标记并作统计。 如果业务理解模糊,需求交付时间不充足,可以收集,具体使用的时候在做兼容或者其它处理。

收集工具:Flume

  1. 需要在各个业务服务器安装agent。
  2. 管道内存和磁盘设置,数据不易丢失。但是在实际工作中出现过Flume进程不工作的情况,需要健全对Flume的监控,防止数据丢失

数据仓库

数据仓库-设计原则

  1. 全面且深入了解业务,需要和业务专家深入沟通
  2. 数据按照最细粒度组织
  3. 基于业务过程
  4. 推荐扁平的大宽表设计,易用,效率高,消耗的存储可以忽略

数据仓库架构

  1. 注意表命名规范。
  2. 需要确定各层,各表的业务边界,尽量做到表复用,防止表膨胀或者爆炸,造成无法过多的维护负担

数据仓库几个需要关注的点

  1. 业务矩阵:是前期调研的方法,我们需要把各个业务过程中的每个环节涉及到哪些维度,尽可能穷举出来。
  2. 事实:为了量化,事实数据通常用于计算
  3. 维度:为了分组和过滤,用于多维度分析
  4. 缓慢变化维:为了历史留痕,分析的主体历史状态可以查询
  5. 分区:为了快速定位需要的数据
  6. 数据仓库需要数据统一,形同含义的业务的命名不要重复

如何制作业务矩阵,如何确定事实表,如何确定维度,如何处理缓慢变化维,如何处理分区,事实和维度如何划分 不做细节描述

数据仓库的地位和重要性

  1. 1,是整个公司的基础数据,一定要保证安全、可靠、平稳、维护简单,上手容易
  2. 是未来走过BI阶段 进行数据挖掘、机器学习、神经网络 的基石头,在数据仓库没有稳定之前 数据挖掘等更上层的数据相关的研究会陷入被动

数据分析

数据分析发展过程

下面数据分析开展的顺序,可以同时进行,但是数据建设的不同阶段重点会不同,整体发展过程如下:
在这里插入图片描述

  1. BI报表:常规的市场,运营分析;抽取指标;经验获取;数据感知能力的培养;数据是二维,更多的是定量分析。
  2. 多维数据分析:数据是三维,多个三维的数据 组成一个数据立方体,最终构成一个完整数据分析矩阵;这里会衍生出更多的指标,和特征;更多的也是定量分析
  3. 数据挖掘:当数据分析更加复杂,无法通过经验进行合理的分类,无法根据经验提取更多的特征,就需要通过算法模型来处理;这部分还是需要一些经验,人工干预还是比较多一些。定量和定性都会有。
  4. 机器学习:脱离人工,通过反复训练的出结论,抽取特征。这里更多的是定性分析
  5. 神经网络、AI

注意:
这里面的任何一个阶段,数据可视化和数据信息化一致都贯穿始终。如何用正确合适的图标展示数据是数据可视化重点考虑的内容。如何提取数据的重点内容,传递一个完整故事是数据信息化要考虑的内容。

数据分析的内容

任何分析,都是基于产品和用户两个主题来进行分析。
问题一:我们的产品被什么样的用户使用
问题二:我们的用户都是在怎么使用产品
这两个问题无法分割,关键看每个分析的需求和场景

数据分析流程

  1. 经验分析:确定问题和论点,通过经验来定
  2. 数据准备:数据收集,准备数据,确认数据是否完整
  3. 数据处理:统一数据格式,去除重复,增补,数据转换,数据分组
  4. 数据分析及展现:确定数据分析方法,以及合适的图标
  5. 专业报告:背景,目的,分析思路,数据展示,结论和建议
  6. 跟踪、反馈:根据需求,确定是否需要跟踪和收取反馈,持续迭代优化分析报告。

数据应用

指标体系建设

目标: 最终的指标体系指标间能够交叉验证,粒度统一,数据一致,数据可解释

  1. 明确分析主体
  2. 确定分析业务过程,找到核心环节,每个环节的维度
  3. 确定分析粒度
  4. 明确收益矩阵,确定优先级

数据应用-产品的增值服务

这个最容易实现,有直接让用户付费,也有提高产品粘性,提高产品趣味性。例如:淘宝数据魔方,头条后台数据统计,微博的对每个客户开放的数据分析,微信热搜。

数据应用-内部支撑系统

2B-用户生命周期管理

数据平台建设整体思路阐述和总结_第2张图片

2B-客户生命周期价值曲线
数据平台建设整体思路阐述和总结_第3张图片
2C-用户生命周期
数据平台建设整体思路阐述和总结_第4张图片
2C用户生命周期价值曲线,没有思考过。

独立的数据产品

大多提供的数据数据分析解决方案。方便用户进行数据分析,更加快速获取数据认知,通过数据支撑自身业务发展。
例如:神策,诸葛,growthingIO 都是抽取通用的分析场景,然后产品化。
最终的数据变现只能通过企业自身去实现。还有咨询类企业 可以直接通过数据变现。

你可能感兴趣的:(数据分析方法)