数据流程data pipeline, 2022-08-16

(2022.08.16 Tues)
数据流程是一种将数据从不同的原始数据源收集和引入到数据存储(如数据湖、data warehouse)并用于数据分析等工作的方法。在数据进入仓库前，通过会经过一些数据处理工作，包括数据转换(data transformation)，比如数据过滤(filtering)、脱敏(masking)和聚合(aggregation)，该步骤用以保证恰当的数据整合和标准化，如果数据集的目标是关系型数据库则该步骤尤其重要。关系型数据库有着预先定义的schema，新进数据需要与数据schema匹配，比如匹配数据列和类型等。

Data pipeline的数据源头可能有多种，比如APIs，SQL，NoSQL，文件等。考虑到这些数据不能立即使用，数据准备和适配成为数据科学家或工程师的必备工作。数据该如何处理，往往根据EDA和业务需求而定。一旦数据被过滤、融合和统计完成，就可以存储和使用。组织良好的data pipeline是各种数据项目的基础，包括但不限于EDA，数据可视化和机器学习任务。

类型

data pipeline的类型有多种，但主要分为batch processing和streaming data。

Batch processing 批处理

2004年一种批处理算法MapReduce获得专利并整合进开源系统，Hadoop，CouchDB和mongoDB等。批处理的发展成为建立可靠可扩展数据基础设施的重要步骤。

顾名思义，批处理按批加载数据进入仓库，加载的时间往往设定为非业务高峰时段，用以减少批处理对业务的影响。在不需要实时分析数据的情况下，批处理通常是最优data pipeline。批处理往往与数据ETL(extract, transform, load)联合使用。

批处理工作往往形成串行命令流(sequenced command)，前一个命令的输出是后一个命令的输入。比如一个命令开始了数据吸收(ingestion)，下一个命令可能是在吸收数据的基础上对特定列进行过滤，接下去可能是数据整合等等。命令流进行下去直到数据转换的完成和写入数据仓库。

Streaming data流数据

与批处理不同，如果数据需要被连续更新则使用流数据。例如，app或销售系统需要实时库存(inventory)和产品销售历史数据，卖家根据这些数据判断是否仍然有库存等信息。产品销售这样的单一动作，被当做一个事件(event)，而关联事件，如向购物车加一个商品(adding an item to checkout)等被分组为一个话题或流(topic/stream)。事件可通过消息队列工具(messaging system/message brokers)传输，比如Kafka，RabbitMQ等。

数据事件需要在发生之后立即处理，因此流处理系统需要比批处理有更低的延迟，但未必比批处理更可靠，因为消息可能被消息队列工具丢掉或队列处理事件过长。消息代理(message broker)通过通知(acknowledgement)方式处理这个问题，消费者可以向代理确认消息的已经处理完成，从队列中移除。

对比：data pipeline和ETL

data pipeline可以以多种方式处理数据，ETL被认为是data pipeline的一种。ETL代表了对数据的extract，transform和load。在ETL中，数据首先从源头抽取，之后被转换和修改存入临时存储，最后数据被加载进入云数据湖、数据仓库(data warehouse)、应用或其他仓库。

ETL经常被用于批处理大量数据，而现在随着always-on data的成熟，实时ETL、流ETL越来越常见。

ETL和data pipeline的不同体现在如下方面

ETL的工作流程固定，即E、T、L。data pipeline未必跟随这个工作流程。随着原生云工具的出现，ETL越来越常见。数据吸收仍然是ETL pipeline的第一步，对数据的转换应用于数据被加载入云端data warehouse之后。
ETL pipeline往往暗示了批处理模式，但是随着技术进展，ETL开始包括了流处理。
data pipeline并不一定包括ETL中的数据转换，尽管这并不常见。

建立data pipeline的步骤

核心分为三步：

数据吸收(data ingestion)：从不同的数据源吸收数据，包括结构化数据集和非结构化，现场数据(on-premises)和云上数据等。在流数据中，原始数据(raw data)源被称作生产者(producer)、发布者(publisher)或发送者(sender)。业务方在可以处理的时候提取数据，最好首先将原始数据存入云data warehouse供应者(provider)。这样做保证了业务方可以在必要时更新历史数据。
数据转换(data transformation)：将数据处理成目标数据仓库允许的格式和品质。处理过程包括对数据处理的自动化和数据治理(data governance)，比如业务报告(business reporting)，以确保数据在清晰和转换过程中保持一致性。比如，一个数据流可能以嵌入式JSON格式到来，数据转换过程需要展开(unroll)JSON提取关键字段用于数据分析。
数据存储(data storage)：经过转换的数据被保存进入一个数据仓库(repository)，供相关业务方(stakeholder)使用。在流数据中，这些经过转换的数据被称为消费者(consumer)、订阅者(subscriber)或接收者(recipients)。

data pipeline的案例

随着大数据发展，数据管理在很多项目和工作的中的优先级持续提升(ever-increasing)。这里列举data pipeline在业务中的三种应用。

Exploratory data analysis，EDA

探索性数据分析是数据科学家进行数据挖掘等工作的前提工作，用于分析和研究数据集，对数据特点和特征产生基本认识，其中会应用一些可视化方法。EDA一定程度上决定了数据科学项目使用的假设、方法和模型。

Data visualizations

数据可视化通过chart/plot/infographic/动画等方式展示数据。信息的可视化展示向使用展示复杂数据关系和易于理解的对数据的insight。

machine learning机器学习

通过数据挖掘、AI和其他学习方法模拟人类学习的过程。通过统计方法的使用，训练好的算法可用于分类、预测等工作，并揭示数据挖掘项目中的重要信息。

Reference

1 What is a data pipeline? - IBM点com
2 What Is a Data Pipeline? Definition, Best Practices, and Use Cases - Informatica