【Azure Data Platform】ETL工具(22)——Azure Databricks与ADF整合

本文属于【Azure Data Platform】系列。
接上文:【Azure Data Platform】ETL工具(21)——Azure Databricks使用(1)——访问Azure Blob
本文演示如何整合ADF和Azure Databricks

环境准备

前面已经演示过如何创建ADF和Azure Databricks,下面来演示如何整合它们。首先对于Azure Databricks,先要创建集群(集群是基础),然后创建一个表。

如下图导航:

【Azure Data Platform】ETL工具(22)——Azure Databricks与ADF整合_第1张图片
会出现一个新界面,提示创建新表的配置。可以通过上传文件,也可以通过其他数据源。这里先用前面用过的文件作为数据源上传,上传完毕后,可以选择集群:
【Azure Data Platform】ETL工具(22)——Azure Databricks与ADF整合_第2张图片
然后点击【preview table】可以看到下图所示,同时因为文件的第一行是表头,所以勾选“First row is header”,点击【create table】创建Databricks的表。

【Azure Data Platform】ETL工具(22)——Azure Databricks与ADF整合_第3张图片
创建成功后会看到如下信息:
【Azure Data Platform】ETL工具(22)——Azure Databricks与ADF整合_第4张图片

配置ADF

配置好Databricks之后,就可以开始配置ADF, 本文主要演示集成,所以不打算花太多功能,这里用copy data来做演示,只打算打通ADF和Databricks的连接即可。

【Azure Data Platform】ETL工具(22)——Azure Databricks与ADF整合_第5张图片
在源中,选择新建数据集,这个数据集来自于Azure Databricks Delta Lake。

【Azure Data Platform】ETL工具(22)——Azure Databricks与ADF整合_第6张图片

创建期间需要输入一些信息,特别注意访问令牌。这个访问令牌需要从Databricks中获取:
【Azure Data Platform】ETL工具(22)——Azure Databricks与ADF整合_第7张图片

回到Databricks工作区,选择settings→User Settings

【Azure Data Platform】ETL工具(22)——Azure Databricks与ADF整合_第8张图片

就可以看到生成Token的地方。

【Azure Data Platform】ETL工具(22)——Azure Databricks与ADF整合_第9张图片

注意下面红字,要确保你的token已经复制成功,否则只能重新生成:

【Azure Data Platform】ETL工具(22)——Azure Databricks与ADF整合_第10张图片

把token贴进去ADF 数据集的配置中,接下来可以配置数据库,这里的数据库是Databricks的数据库:

【Azure Data Platform】ETL工具(22)——Azure Databricks与ADF整合_第11张图片
选择对应的数据库和表:

【Azure Data Platform】ETL工具(22)——Azure Databricks与ADF整合_第12张图片

可成功预览数据。

【Azure Data Platform】ETL工具(22)——Azure Databricks与ADF整合_第13张图片
到此为止,ADF已经可以与Databricks连通。

使用这种方式,可以对数据源的数据先进行定制处理,然后借助ADF抽取数据。这样做的其中一个好处就是借助Databricks的能力和集群的计算力,把ETL过程的T先处理。然后让ADF只负责自己擅长的E和L即可。对于复杂应用,是比较好的方式,毕竟ADF并不擅长复杂的T(转换)工作。

你可能感兴趣的:(Azure,azure,ADF,DataBricks)