Airflow学习之路五 Airflow性能优化(airflow.cfg配置)

Airflow2.0版本

    • [core]
    • [logging]
    • [webserver]
    • [celery]
    • [scheduler]

[core]

# dags存放路径
dags_folder = /home/xxx/airflow/dags
# 获取服务器IP的方式
hostname_callable = socket.getfqdn
# 时区,可以是UTC(默认),也可以换成国内Asia/Shanghai
default_timezone = utc
# airflow支持并行性的工作器,有`SequentialExecutor`(默认,顺序执行), `LocalExecutor`(本地执行), `CeleryExecutor`(远程执行), `DaskExecutor`
executor = SequentialExecutor
# 数据库连接设置
sql_alchemy_conn = sqlite:////home/xxx/airflow/airflow.db
# 数据库编码方式
sql_engine_encoding = utf-8
# 是否与SqlAlchemy库进行数据交互
sql_alchemy_pool_enabled = True
# 最大数据库连接数
sql_alchemy_pool_size = 5
# 控制每个Airflow worker可以同时运行task实例的数量
parallelism = 32
# 用来控制每个dag运行过程中最大可同时运行的task实例数,若DAG中没有设置concurrency,则使用默认值
dag_concurrency = 16
# 创建新的DAG时,是否暂停
dags_are_paused_at_creation = True
# 同一时间最大运行dag的数量,默认为16
max_active_runs_per_dag = 16
# 加载示例dags,默认为True
load_examples = True

[logging]

# 日志存放路径
base_log_folder = /home/xxx/airflow/logs

[webserver]

# web ui面使用的时区
default_ui_timezone = UTC
# 设置web端Configuration不显示配置信息
expose_config = False
# 加载Airflow UI界面的时间
default_dag_run_display_number = 15

[celery]

#  配置celery的broker_url(存储要执行的命令然后celery的worker去消费)
broker_url = redis://redis:6379/0
# 配置celery的result_backend(存储任务执行状态)、 也可以用redis存储
result_backend = db+postgresql://postgres:airflow@postgres/airflow

[scheduler]

# 调度程序尝试触发新任务的时间
scheduler_heartbeat_sec = 60
# 检测新dag的时间
min_file_process_interval = 10
# 是否使用catchup功能, 即是否执行自上次execute_date以来所有未执行的DAG Run, 另外定义每个DAG对象可传递catchup参数进行覆盖
catchup_by_default = True

你可能感兴趣的:(工作流调度平台,大数据)