【Azure Data Platform】ETL工具(5)——使用Azure Data Factory数据流转换数据

本文属于【Azure Data Platform】系列。
接上文:【Azure Data Platform】ETL工具(4)——Azure Data Factory Debug 管道
本文介绍如何 ADF 的数据流转换数据。

前面的几篇文章主要集中在“复制数据”工具的使用上。

数据转换

本次演示把Azure SQL DB中的一个表的值计算后,再写入一个新表中。为此,先在管道中创建一个data flow:
【Azure Data Platform】ETL工具(5)——使用Azure Data Factory数据流转换数据_第1张图片

【Azure Data Platform】ETL工具(5)——使用Azure Data Factory数据流转换数据_第2张图片

新建一个数据流:
【Azure Data Platform】ETL工具(5)——使用Azure Data Factory数据流转换数据_第3张图片

添加源:
【Azure Data Platform】ETL工具(5)——使用Azure Data Factory数据流转换数据_第4张图片

这里新建一个新的源以便与前面的区分开:

【Azure Data Platform】ETL工具(5)——使用Azure Data Factory数据流转换数据_第5张图片
新建链接服务以便ADF能够访问Azure SQL DB:

【Azure Data Platform】ETL工具(5)——使用Azure Data Factory数据流转换数据_第6张图片
打开源,配置具体的源选项:

【Azure Data Platform】ETL工具(5)——使用Azure Data Factory数据流转换数据_第7张图片

选择需要处理的表,可以从“预览数据”中检查是否连通:
【Azure Data Platform】ETL工具(5)——使用Azure Data Factory数据流转换数据_第8张图片

在源选项中,可以定义全表操作,还是使用特定的SQL/存储过程来处理数据, 同时还可以定义批处理的大小及隔离级别。
【Azure Data Platform】ETL工具(5)——使用Azure Data Factory数据流转换数据_第9张图片

在【优化】选项中, 还能对已分区的表进行额外的处理。
【Azure Data Platform】ETL工具(5)——使用Azure Data Factory数据流转换数据_第10张图片

然后点击【检查】选项,查看源表的表定义:
【Azure Data Platform】ETL工具(5)——使用Azure Data Factory数据流转换数据_第11张图片

然后点击图形化界面中右下角的【+】, 如图所示,配置一个数据处理操作,这里选择聚合。
【Azure Data Platform】ETL工具(5)——使用Azure Data Factory数据流转换数据_第12张图片
按下图顺序选择需要处理的列,在最后一步【打开表达式生成器】中我们选择需要处理的列和操作:

【Azure Data Platform】ETL工具(5)——使用Azure Data Factory数据流转换数据_第13张图片
选择ListPrice列,然后使用countAll函数进行计算:
【Azure Data Platform】ETL工具(5)——使用Azure Data Factory数据流转换数据_第14张图片

接下来再加一个流程【接收器】,意味着目标源,为了方便期间,这里选择同一个Azure SQL DB的库,只是使用不同的表:

【Azure Data Platform】ETL工具(5)——使用Azure Data Factory数据流转换数据_第15张图片
为方便期间,这里先创建好目标表:

【Azure Data Platform】ETL工具(5)——使用Azure Data Factory数据流转换数据_第16张图片

在目的地中输入这个表并查看数据,可见目前表是空的。

【Azure Data Platform】ETL工具(5)——使用Azure Data Factory数据流转换数据_第17张图片

当所有东西都配置完毕之后,发布这个管道:
【Azure Data Platform】ETL工具(5)——使用Azure Data Factory数据流转换数据_第18张图片

【Azure Data Platform】ETL工具(5)——使用Azure Data Factory数据流转换数据_第19张图片

发布完毕后,使用调试功能,可以手动触发管道的执行。 从下图中可以看到已经有了计算结果:
【Azure Data Platform】ETL工具(5)——使用Azure Data Factory数据流转换数据_第20张图片
但是前面都还是调试模式,要实际运行,需要跳回Data Flow所在的管道:
【Azure Data Platform】ETL工具(5)——使用Azure Data Factory数据流转换数据_第21张图片
然后点击调试,正如前文提到,调试按钮会实际执行管道,从而数据会真正计算并写入目标:
【Azure Data Platform】ETL工具(5)——使用Azure Data Factory数据流转换数据_第22张图片
在数据表中查看可以看到已经实际运行了:

【Azure Data Platform】ETL工具(5)——使用Azure Data Factory数据流转换数据_第23张图片

总结

目前为止,我们实现了用数据流进行数据转换。在本次演示过程,本人学到了一个“新技能”, 就是单纯在Data flow上调试,数据是不会真正写到目标的,需要在所在的管道上执行才可以。

你可能感兴趣的:(Azure,azure,etl,ADF)