Airflow调度源码分析

文章目录

    • 主要的调度源码
    • 进程关系

主要的调度源码

主要的调度循环:

  1. jobs/scheduler_jobs.py 里面的 _execute()函数
  2. _execute() 里面的 self.executor.start()函数是主要的executor逻辑,executor里面会启动N个worker(executors/local_executor.py QueuedLocalWorker),这些worker是进程,所有的worker都从同一个公共队列里面取命令来运行,运行的时候会再开一个子进程来执行命令。某个任务运行时,能在日志里面看到:

    这个命令就会走到:
  3. cli/commands/task_command.py里面的task_run函数里面。因为加了–local参数,会初始化LocalTaskJob类出来(主要是里面的_execute函数),_execute会初始化StandardTaskRunner来跑task里面的命令,并且加一些信号处理,再到StandardTaskRunner里面的start函数。
  4. 接下来还是会走一遍cli/commands/task_command.py里面的task_run函数,但是这次命令行参数是–raw,–raw就会执行TaskInstance._run_raw_task函数。
  5. TaskInstance._run_raw_task就是最终执行任务的函数。

进程关系

Airflow调度源码分析_第1张图片
在这里插入图片描述
从流程图和真实的进程查询可以看到一个任务的执行,会有三个进程,以截图来说:
6. 第一个进程是LocalTaskJob进程(包含StandardTaskRunner类实例)
7. 第二个进程是StandardTaskRunner派生出来的子进程,用来运行ti._run_raw_task()
8. 第三个进程是LocalExecutor里面的worker进程,这个进程会派生子进程(这个子进程即是标号1的进程)

scheduler包含N个Worker进程,Worker进程在需要执行任务的时候再会派生出LocalTaskJob进程,LocalTaskJob里的tandardTaskRunner类实例再会派生出真正执行ti._run_raw_task()的进程。

你可能感兴趣的:(工具,python,开发语言,后端)