阿里中台datawork,任务执行流程解析。

阿里中台,datawork中,执行一个任务,比如说python程序。
会涉及到多个结点的问题。
结点有三类,
列出如下

结点类型 结点作用
odps结点(这一类结点可以称为文件结点) 可以直接分配到计算结点中执行
资源结点(就是datawork中的py之类的文件,不可执行) 可以引用到文件节点中,相当于引入第三方包
计算结点(就是一台执行任务的机器,容器或者主机) 执行中台分配的任务,执行odps结点

任务解析:
datawork 相当于hadoop中的yarn ,分配任务。
当我们要执行一个任务,就会提交odps结点给 任务管理器,提交时,资源文件也被调用了。任务管理器预估执行任务所需的资源配置,生成任务,然后分配机器(计算结点)执行这个任务。

截至20210430的时候,datawork对于sql odps结点的估算还可以,可以自动拆分语句为并行任务,多个机器一起跑,很快!

但是pyodps结点,优化的不够好,很慢。就给你一个结点慢慢跑,比老爷车还慢(往Python文件里,嵌套sql语句,也能够加速)。

你可能感兴趣的:(数据中台)