数据中台(读书笔记)-3-数据开发

数据开发

数据开发涉及到的产品能力主要包括三部分:离线开发、实时开发和算法开发。

离线开发:主要包括离线数据的加工、发布、运维管理,以及数据分析、数据探索、在线查询和即席分析相关的工作。

实时开发:主要涉及到数据的实时接入和实时处理,简化流数据的加工处理过程。

算法开发:提供简单易用的可视化拖拽和Notebook方式来实现数据价值的深度挖掘。


数据计算的四种类型

(1)批计算

用于批量数据高延迟处理场景,如离线数仓的加工、大规模数据的清洗和挖掘。目前大部分采用MapReduce、Hive、Spark等计算框架处理,其特点就是数据吞吐量大、延时高,适合人机交互少的场景。

(2)流计算

也叫实时计算,对数据的加工和应用有较高的实时性要求,常见于监控告警场景,例如实时分析网络时间,当有异常时需要及时接入处理。例如案例双十一可视化大屏实时数据展示。技术栈FLink、Storm、Spark Streaming等。

常用场景:【流式ETL】、【流式报表】实时采集实时监控、【监控预警】、【在线系统】

(3)在线查询

主要用户数据结果的在线查询、过滤和筛选等,如数据检索、条件过滤等。根据不通的场景有多种不通的选择

a.营销场景对相应延时高的,一般采用缓存型的存储计算,如Redis.

b.对相应时间要求正常的可以选择HBase、MySQL

c.需要进行条件过滤和检索的,可以选择ElasticSearch

常用场景:【画像服务】征信查询、【搜索的应用场景】文档搜索、商品搜索、【圈人场景】通过特定的人快速筛选出业务所需要的群体。

(4)即席分析

主要用于分析型场景和经验统计。一般80%的企业需要在线查询和即席分析。争对【不同的维度】进行分析。技术栈Kylin、Impala、Click House、HAWK、AnalyticDB等。

快速的进行数据的多维度交叉分析,大部分时聚合操作,如group by 、sum、avg、count等。

以上区别如下:

数据中台(读书笔记)-3-数据开发_第1张图片


以下的内容有很多看不懂了...............

离线开发

1、作业调度

2、基线控制

3、异构存储

4、代码校验

5、多环境级联

6、推荐依赖


实时开发

1、元数据管理

2、SQL驱动

3、组件化开发


算法开发

1、可视化建模

2、NoteBook建模

3、数据集管理

4、核心算法组件

5、多算法框架

 

你可能感兴趣的:(读书笔记)