bopbaby1991

Airflow

1 前言
2 概述

2.1 特性
2.2 与OOZIE比较

3 概念

3.1核心概念

3.1.1 DAG(Directed Acyclic Graph有向无环图)
3.1.2 作用域(scope)
3.1.3 默认参数(Default Arguments)
3.1.4 执行器(Operators)
3.1.5 任务(task)

3.2 附加功能

3.2.1 Hooks
3.2.2 Pools
3.2.3 Connections
3.2.4 Xcom
3.2.5 Variables
3.2.6 Branching
3.2.7 SubDAGs
3.2.8 SLAs
3.2.9 Trigger Rules
3.2.10 .airflowignore

4 命令行
5 下载、安装、启动

5.1 Python2.7
5.2 pip
5.3 setuptools
5.4 airflow
5.5 创建元数据库
5.6 配置文件
5.7 初始化
5.8 启动

6 教程

6.1 测试dag

7 调度与触发规则(Scheduling & Triggers)

7.1 DAG Runs
7.2 Backfill and Catchup
7.3 外部触发(External Triggers)
7.4 并行度(parallelism)

8 插件
9 安全性(Security)

9.1 flask-admin
9.2 RBAC

10 时区

10.1 Naive and aware datetime objects
10.2 Interpretation of naive datetime objects

11 operators
12 Celery分布式集群搭建

12.1 airflow安装
12.2 rabbitMQ
12.3 HAProxy
12.4 ASFC
12.5 airflow集群启动顺序

1 前言

本文只是对官网的部分翻译和使用过程中的一些体验，如若有误，还请赐教

2 概述

Airflow是一个描述，执行、调度和监控工作流的平台工具。
使用Airflow定义任务的DAG作为工作流。Airflow调度根据你定义的依赖关系执行你的任务。丰富的命令行可以在DAG上进行一系列复杂的操作，丰富的UI将使工作流pipeline更加可视化，更易监控，更易维护，快速定位问题。

2.1 特性

动态的：airflow pipeline通过python代码配置，允许动态的pipeline生成，这使得airflow可以通过写python代码动态初始化pipeline。
优雅的：airflow简洁明晰，使用jinja模板语言使你的脚本参数化。
可伸缩：可以很容易的自定义operators，executors，扩展代码库来适应你的开发环境。
可扩展：airflow有一个模块化的架构，且可以使用消息队列来扩展任意多个workers。

2.2 与OOZIE比较

优点

option	OOZIE	Airflow
自定义	难	本质作为python的第三方模块，可以根据业务场景修改源码
界面交互	无	有非常友好的WebUI，可以查看，重跑task，Graph和Tree可以直观的展示task的依赖关系等。还有简单的数据分析如Duration，Tries，Grantt。Chart组件支持自定义数据分析的sql
日志	需要点击很多层级才能看到，且日志有丢失现象	日志更直观，基本只需点一次就能看到。不会丢失，且可以选择存储在本地，Amazon，Google cloud
权限管理	针对每个workflow	只针对WebUI，用户有5中角色，对应不同的权限。由于dag文件和业务代码放在本地，所以其权限管理依赖于linux
重启	workflow和coordinate有更新必须重启	只有airflow.cfg配置文件更新需要重启服务
触发规则	时间和数据	时间，目录，文件，hive分区，其他dag的task等，支持自定义
组织形式	workflow层级	dag和subdag
并行度	不清楚	可以通过airflow.cfg设置，默认16(同一时间最多16个task)
sla监控	只有启用开关	可以作为参数传入dag，设置task运行时长，超时会发邮件
数据交互	只负责调度，数据库由业务决定	Connection模块支持大部分主流数据库，且可以自定义hook

缺点与问题

时区：虽然airflow支持配置默认时区，但WebUI的时间是UTC时间(+00:00,上海市+08:00)，无法改变，会给用户造成凌乱的错觉
weekly scheduler：airflow的周调度只能执行周期的开始日期。想要执行周期的结束日期要用必须execution_date+timedelta(7)

3 概念

3.1核心概念

3.1.1 DAG(Directed Acyclic Graph有向无环图)

在airfow里，一个dag表示所有task的集合，这些task之间存在单向依赖关系，不能闭环，如A->B->D，C->D。否则会报错(A->B->D->A)。

3.1.2 作用域(scope)

只有作用域是全局的DAG才能百airflow识别，如下:

dag_1 = DAG('this_dag_will_be_discovered')
def my_function():
    dag_2 = DAG('but_this_dag_will_not')
my_function()

dag_1 可以被识别，dag_2不行

3.1.3 默认参数(Default Arguments)

如果DAG()里传入default_args，那么它将作用域其下所有的operators。如果你对所有operators有一些共通的设置，那么可以用default_args来传入而不用在每个operator里。

3.1.4 执行器(Operators)

用于描述DAG下的task做什么样的操作(如执行hive脚本，导入数据，监控路径)。
大多情况下一个operator执行单个task，是DAG的最小单位，具有原子性，不能喝其他的operator分享信息和资源。它们按照依赖关系依次执行。如果需要分享信息和资源，首先考虑合并operators。如果不行，可以使用XCom，它可以在operator之间分享信息和资源。
Airflow支持自定义operator，需要继承BaseOperator。

3.1.5 任务(task)

一旦operator被实例化，将被视作一个task

3.2 附加功能

Airflow除了上述的核心概念，还提供很多额外的功能，如:资源的连接限制，交叉通信，条件执行等。

3.2.1 Hooks

Hooks是一个用于连接外部平台和数据库(hive,mysql,HDFS等)的接口。所有的连接信息存储在Connection表里。大多数operator与hook是一一对应的关系。

3.2.2 Pools

有时系统可能会被多进程造成的资源短缺等原因搞垮。airflow pools用于设置task执行的并行度

3.2.3 Connections

所有外部平台和数据库的连接信息都存在Connection表里，可以在airflow web的menu-Admin-Connections里查看管理。airlfow init的时候生成了若干默认的连接信息，可以在其基础上增删改查，conn_id是主键。很多hooks都有默认的conn_id值，不需要再明确声明

3.2.4 Xcom

3.2.5 Variables

3.2.6 Branching

3.2.7 SubDAGs

我们可以将相同或相似的task聚成一个dag，作为主dag的子dag。subdagoperator必须包含一个工厂方法来返回dag对象，代表subdag将被主dag当做dag。在webUI里，subdag operator比其它operator多个"Zoom into sub DAG"按钮。目前我对subdag理解，是方便task的组织，理清task的依赖关系，类似于oozie的层级。

subdag的dag_id必须以父dag_id为前缀，且用逗点 . 隔开的。如dmp.dmp_agent_behavior

可以通过subdagoperator将父dag的参数变量传入subdag，如start_date

subdag必须有schedule_interval，如果没有或者设置为@once，subdag将不做任何事情且状态置为success

清除subdag的状态也将清除其包含的task的状态。(根据我的使用，清除subdag时，如果不选Downstream，则只清除subdag自己；如果选择Downstream，则清除其包含的task的状态)

subdag的状态标记为success时不影响其包含的task的状态

subdag里不要使用depends_on_past=True

subdag默认使用SequentialExecutor，task将顺序执行。如果用户传入LocalExecutor则可能出现问题。(根据我的使用，airflow.cfg里配置了LocalExecutor的话，subdag使用LocalExecutor没有问题。官网说可能有问题应该是指配置文件用CeleryExecutor的情况下subdag用LocalExecutor)

官网：https://airflow.apache.org/concepts.html#subdags

3.2.8 SLAs

3.2.9 Trigger Rules

默认情况下根据task的依赖关系，上游task成功执行才会触发下游task。airflow还支持更复杂的触发机制。
所有的operators都有trigger_rule变量，定义了task将在什么样的条件下被触发执行。默认值是all_success。

all_success: 所有父task成功 (默认值)
all_failed: 所有父task失败
all_done: 所有父task执行完成(不管成功与否)
one_failed: 只要有一个父task失败
one_success: 只要有一个父task成功
none_failed: 所有父task不失败(包括all_success和skipped两种)
dummy: 依赖只是为了在webUI上显示，随意触发

3.2.10 .airflowignore

用户可以在DAG_FOLDER(如/home/airflow/airflow/dags)下创建一个.airflowignore文件，该文件可以定义一些正则表达式。如果DAG_FOLDER下的python文件被这些正则表达式匹配到，airflow将不会读取这些python文件。例如：

project_a
tenant_[\d]

这样的话，DAG_FOLDER下诸如“project_a_dag_1.py”, “TESTING_project_a.py”, “tenant_1.py”, “project_a/dag_1.py”, and “tenant_1/dag_1.py” 这样的文件将被忽略。.airflowignore的作用域包含当前DAG_FOLDER及其子目录。

4 命令行

airflow有丰富的命令行来操作dag，启动服务，测试等。
官网链接

5 下载、安装、启动

5.1 Python2.7

如果你的系统环境比较干净，可能需要预装以下rpm包

zlib-devel,readline-devel,sqlite-devel,bzip2-devel.i686,openssl-devel.i686,gdbm-devel.i686,libdbi-devel.i686,ncurses-libs,zlib-devel.i686,mysql-devel,cyrus-sasl-devel

官网下载对应本:https://www.python.org/downloads/
tar -xzvf Python-2.7.7.tgz
cd Python-2.7.7
./configure --prefix=/usr/local/python2.7 --enable-shared -enable-unicode=ucs4 (–prefix表示安装路径)
make
make install
如果出现以下错误:
python: error while loading shared libraries: libpython2.7.so.1.0: cannot open shared object file: No such file or directory
执行 cd /etc/ld.so.conf.d/
echo “/usr/local/python2.7/lib” > python2.7.conf
ldconfig
这是因为python运行需要动态加载相关的库,上述命令的意思是告诉python运行需要的库所在位置.ldconfig用于在默认配置文件目录/etc/ld.so.conf.d下读取用户编辑的配置文件

5.2 pip

wge thttps://pypi.python.org/packages/source/p/pip/pip-1.3.1.tar.gz --no-check-certificate
tar xvf pip-1.3.1.tar.gz
python2.7 pip-1.3.1/setup.py install
pip install --upgrade pip

5.3 setuptools

pip2.7 install setuptools(如果是19版,务必升级到40,否则按照会出错pip install --upgrade setuptools)

5.4 airflow

useradd -m airflow (-m自动创建家目录，创建专门的用户来运行airflow）
passwd airflow(修改密码)
SLUGIFY_USES_TEXT_UNIDECODE=yes pip2.7 install apache-airflow[all]==1.10.1(root用户)
由于airflow将用于生产环境，推荐使用[all]下载所有相关的subpackage

EnvironmentError: mysql_config not found.
可能缺mysql-devel包, yum install mysql-devel

sasl/saslwrapper.h:22:23: error: sasl/sasl.h: No such file or directory.
则执行yum install gcc-c++ python-devel.x86_64 cyrus-sasl-devel.x86_64

/usr/local/python2.7/lib/python2.7/site-packages/pysqlite2/_sqlite.so:undefined symbol: sqlite3_stmt_readonly.
执行以下命令查看问题
nm /usr/local/python2.7/lib/python2.7/site-packages/pysqlite2/_sqlite.so | grep sqlite3_stmt_readonly(查看该文件里是否有次方法)
ldd /usr/local/python2.7/lib/python2.7/site-packages/pysqlite2/_sqlite.so(查看该文件所依赖的库, ldd[list dynamic dependencies])
nm /usr/lib64/libsqlite3.so.0 | grep sqlite3_stmt_readonly 结果[nm: /usr/lib64/libsqlite3.so.0: no symbols]
以上的意思是_sqlite.so所依赖的库(/usr/lib64/libsqlite3.so.0)里没有sqlite3_stmt_readonly方法,下载最新的libsqlite3安装更新

安装完成后,执行airflow命令,HOME目录在执行安装命令的用户的根目录下(如用户是airflow,则/home/airflow/airflow)

5.5 创建元数据库

airflow需要一个数据库进行初始化。如果仅仅是体验学习airflow，则不需要进行配置，使用默认的SQlite即可。

create user airflow；
update user set Password=PASSWORD('airflow') where user = 'airflow'；
create database airflow；
GRANT all privileges on airflow.* TO 'airflow'@'%' IDENTIFIED BY 'airflow' with grant option；(通过airflow验证,将airflow数据库下所有表的所有权限分配给在任何机器上登录的airflow用户)

5.6 配置文件

[core]
executor = LocalExecutor (执行引擎)
sql_alchemy_conn = mysql+mysqldb://airflow:[email protected]/airflow (DB url)
default_timezone = Asia/Shanghai(修改默认时区(UTC->Asia/Shanghai))

以上为必须配置项，如果需要发送邮件等功能，则修改其他配置项
例如增加发送钉钉的功能:

webhook = https://oapi.dingtalk.com/robot/send?access_token=xxxxxxxxxxxx (要发送到钉钉群的唯一标识)
at_mobiles = xxxxxxxxxxx,xxxxxxxxxxx (群里要@的人的手机号)

5.7 初始化

airflow initdb
执行此命令，将在配置文件里指定的数据库创建一系列的表，用于存储airflow的元数据，如log，dag，task_instance
可能出现以下问题：

incorrect date value ‘2018-12-30 09:09:09+00:00’ from column XXX.
如果出现此错误,则实行select @@sql_mode查看是否有STRICT_TRANS_TABLES.若有则去掉.该模式值的意思是:在该模式下，如果一个值不能插入到一个事务表中，则中断当前的操作，对非事务表不做任何限制

show variables like ‘explicit_defaults_for_timestamp’,如果该参数是关闭状态,则打开

5.8 启动

nohup airflow webserver -p 8880 >> /home/airflow/airflow/webserver.log 2>&1 & (启动webserver服务)
nohup airflow scheduler >> /home/airflow/airflow/scheduler.log 2>&1 & (启动scheduler服务)
nohup airflow worker >> /home/airflow/airflow/worker.log 2>&1 & (启动worker，此项只有CeleryExecutor时适用)
ps -ef | grep -Ei 'airflow' | grep -v 'grep' | grep -v 'fix_airflow' | grep -v 'root' | grep -v 'bash' | awk '{print $2}' | xargs -i kill {} (杀死airflow的所有服务)

请求"/health"可以查看airflow实例的运行状态，如:http://hostname:port/health .如果良好会返回"The server is healthy!"

6 教程

下面是一个简单的示例

# tutorial.py
from airflow import DAG #用于初始化DAG对象
from airflow.operators.bash_operator import BashOperator #众多operators的一种，用于执行bash命令
from datetime import datetime, timedelta #日期时间相关的包
#当创建DAG对象或者task时，可以明确地传递一系列的参数来描述它。可以定义一个字典来实现。default_args作用于该DAG下的所有task
default_args = {
    'owner': 'airflow',
    'depends_on_past': False, #task的触发执行是否依赖过去的状态
    'start_date': datetime(2015, 6, 1), #此DAG开始执行的日期
    'email': ['[email protected]'], #任务失败时用于接受邮件
    'email_on_failure': False, #任务失败是是否接收邮件
    'email_on_retry': False, #任务重试时是否接收邮件
    'retries': 1, #重试次数
    'retry_delay': timedelta(minutes=5), #重试间隔
    # 'queue': 'bash_queue',
    # 'pool': 'backfill',
    # 'priority_weight': 10,
    # 'end_date': datetime(2016, 1, 1),
}
#初始化DAG对象
dag = DAG(
    'tutorial', #dag_id唯一标示
    default_args=default_args, 
    schedule_interval=timedelta(days=1) #DAG schedule间隔，支持cron格式(0 7 * * *)
)
#task任务
t1 = BashOperator(
    task_id='print_date', #task_id唯一标示
    bash_command='date', #具体的bash命令
    dag=dag)

t2 = BashOperator(
    task_id='sleep',
    bash_command='sleep 5',
    retries=3, #task里传递的参数值优先于dag(此task的重试次数是3而不是1)
    dag=dag)
#airflow支持jinja模板语言
templated_command = """
    {% for i in range(5) %}
        echo "{{ ds }}"
        echo "{{ macros.ds_add(ds, 7)}}"
        echo "{{ params.my_param }}"
    {% endfor %}
"""

t3 = BashOperator(
    task_id='templated',
    bash_command=templated_command,
    params={'my_param': 'Parameter I passed in'},
    dag=dag)
#设置依赖关系
t2.set_upstream(t1) #等价于 t1.set_downstream(t2)，t2 << t1，t1 >> t2
t3.set_upstream(t1)
#task列表也可以设置依赖关系
t1.set_downstream([t2, t3])
t1 >> [t2, t3]
[t2, t3] << t1

这基本是一个DAG对象的骨架，DAG()除了上述列出之外还有很多的参数可以设置，来提高task的运行效率。operators同理，除了最基本的BashOperator还有诸如Hiveoperator,mysql_to_hiveOperator等等，每种operator都有相应的功能，可以根据业务场景任意挑选

6.1 测试dag

python ~/airflow/dags/tutorial.py (如果脚本不报错表示没有语法错误且你的airflow运行环境正常)
airflow list_dags (输出显示可用的dags)
airflow list_tasks tutorial (输出显示tutorial dag下所有的task)
airflow list_tasks tutorial --tree (以树形结构输出显示tutorial dag下所有的task)
airflow test tutorial print_date 2015-06-01 (测试该task是否可以正确运行)

test命令只是在本地运行task实例，将log输出到标准输出(也就是屏幕)，不会干扰到依赖关系，也不会更新task的状态(running, success, failed…) 到数据库

airflow backfill tutorial -s 2015-06-01 -e 2015-06-07

backfill刚好与test相反，它会检测你设置的依赖关系，log会写入指定的文件，task状态会更新到数据库

如果你设置了depends_on_past=True，那么task实例将依赖于先前的task的执行结果

-s必选，-e可选

7 调度与触发规则(Scheduling & Triggers)

airflow的scheduler监控所有的dag和task，根据其依赖关系触发执行。在后台， scheduler启动了一个linux子进程来监控DAG_FOLDER目录，收集dag的python文件(.py)和检测可用的task是否可以被触发执行。airflow scheduler被设计为持续性的后台服务来运行，可以用airflow scheduler命令来启动，其将读取airflow.cfg配置文件。

airflow的调度模式是在当前的调度周期触发上一个调度周期，举例说明：

对于天调度。一个dag的schedule_interval设置为0 7 * * *，现在是2019-01-02 08:00:00，那么scheduler执行的最后一个task实例是2019-01-01T07:00:00，而不是2019-01-02T07:00:00

对于周调度。举例说明：start_date为2019-02-01，schedule_interval为0 7 * * 1，now是2019-01-11 07:00:00，那么scheduler执行的最后一个task实例是2019-01-04T07:00:00，因为从start_date到2019-01-11期间，只有2019-02-04到2019-02-10是一个完整的周期。如果start_date和now不变，schedule_interval改为0 7 * * 2，则没有实例可执行

7.1 DAG Runs

一个dag run对象代表dag的一个运行实例。
每个dag都可以设置一个schedule_interval，表示其调度的间隔时间。schedule_interval支持cron格式(0 7 * * 0)和datetime.timedelta，或者’preset’

preset	meaning	cron
None	不自动执行调度，用于外部触发的专用
@once	执行一次且只有一次
@hourly	每小时0分0秒执行一次	0 * * * *
@daily	每天00:00:00执行一次	0 0 * * *
@weekly	每周日的00:00:00执行一次	0 0 * * 0
@monthly	每月1号的00:00:00执行一次	0 0 1 * *
@yearly	每年1月1号的00:00:00执行一次	0 0 1 1 *

注意None的使用，是schedule_interval=None而不是schedule_interval='None'

7.2 Backfill and Catchup

7.3 外部触发(External Triggers)

airflow dag除了scheduler在后天自动执行外，还可以在命令行airflow trigger_dag和webUI手动触发执行。命令行执行时需要传入run_id。

7.4 并行度(parallelism)

airflow关于并行度在airflow.cfg里有4个配置项：

parallelism: 指整个Airflow在任何一刻能同时运行的Task Instance的数量,这个数量跟DAG无关
max_active_runs_per_dag: 指同一个Dag能被同时激活的Dag Run的数量
dag_concurrency: 指同一个Dag Run中能同时运行的Task Instance的个数
non_pooled_task_slot_count: 指默认的Pool能同时运行的Task Instance的数量,如果你的Task没有指定Pool选项,那么这个Task就是属于这个默认的Pool的

8 插件

airflow提供了简单的插件功能来集成外部的功能特点，只需要把插件文件放入$AIRFLOW_HOME/plugins目录即可。

9 安全性(Security)

airflow提供了多种针对webUI的安全策略如flask-admin，RBAC，Multi-tenancy，Kerberos，GitHub/Google Authentication等。目前我只是用过前两种，稍作说明。

9.1 flask-admin

这是airflow默认的、也是最简单的安全验证模式，只需要在登录webUI前创建user/password即可(创建的所有用户都拥有最高权限，可CRUD)。在airflow初始化前修改配置文件airflow.cfg

[webserver]
authenticate = True
auth_backend = airflow.contrib.auth.backends.password_auth

创建user/password只能通过在python客户端执行以下代码实现

from airflow import models, settings
from airflow.contrib.auth.backends.password_auth import PasswordUser
user = PasswordUser(models.User())
user.username = 'airflow'
user.password = 'airflow'
session = settings.Session()
session.add(user)
session.commit()
session.close()
exit()

9.2 RBAC

RBAC是一种比flask-admin更加复杂，角色权限更丰富的安全策略。它有五种角色Admin、Op、Public、User、Viewer，每种角色有不同的权限组合，Admin的权限最高，包含所有的权限组合，其他角色只包含部分权限组合，Viewer权限最低，只能查看，不可以进行任何的增删改操作。
在airflow初始化前修改配置文件airflow.cfg

[webserver]
rbac = True

RBAC通过命令行创建用户

airflow create_user -r Admin -u xxxxx -e xxxxxx -f xx -l xx -p xxxxx

登录后可以在如下页面里对用户进行管理

10 时区

airflow从1.9版本开始支持时区，将UTC的日期时间存储到数据库。如果你的项目组要使用airflow，且组员在不同的时区，那么使用UTC时间将非常方便可靠，因为UTC是世界上最标准的时间，不会因为时区而发生改变。即使所有人在同一时区，采用UTC时间也会有很好的体验，最主要的原因是夏令时。很多国家都有夏令时的系统，其时间会在春季调快n小时，在秋季调慢n小时。如果你身处有夏令时的国家，那么有可能每年会出现两次错误(春季和秋季)。这种情况对于普通的业务来说问题不大，但如果业务涉及经济，航空等重要领域时将成为灾难。

我目前使用的是1.10.1版本，其所有时间的计算，存储，WebUI的展示都采用UTC时间，不能转换为本地时间

时区信息配置在airflow.cfg文件里，默认值为UTC，你可以修改为system(自动获取系统所在时区)或者标准时区值，如Asia/Shanghai。

注意： 如果默认时区设置为本地时区，其作用只是在创建dag文件等传入airflow的时间为本地时间，不能控制airflow的时间的计算、存储，更不能改变WebUI展示的时间。例如：设置时区为Asia/Shanghai，创建dag时schedule_interval='0 7 * * *' ，那么airflow认为第一个dag run是2019-01-16 07:00:00+08:00而不是2019-01-16 07:00:00+00:00

10.1 Naive and aware datetime objects

Python的datetime.datetime对象有个tzinfo参数来存储时间的时区信息。当此参数有值时，该datetime对象称为aware，反之称为naive。
由于airflow使用time-zone-aware的datetime对象，所以创建dag是要使用time-zone-aware

10.2 Interpretation of naive datetime objects

尽管airflow的计算使用aware datetime，但它在你创建dag设置start_dates和end_dates时仍然会接受naive datetime，此时将使用airflow.cfg里的默认时区，这主要是为了向后兼容。
不幸的是，在夏令时段，有些datetime不存在或者模棱两可。这种情况下pendulum模块可能会报错。这就是为什么要鼓励使用aware datetime。

咱们国家早已废弃夏令时，所以不存在这个问题

11 operators

我们在使用airflow现有的operators时可能会有这样的问题：给某个operator的某个变量传递了模板变量{{ ds }}，但执行时没有被识别，还是字符串本身。这是因为airflow的每个operator都定义了template_fields变量，其意思是需要渲染的字段，在执行时会自动渲染这些字段里的模板参数。举例：airflow.operators.mysql_to_hive.MySqlToHiveTransfer里template_fields = (‘sql’, ‘partition’, ‘hive_table’)，也就是说执行operator时只有这4个字段里包含的模板参数会被渲染

12 Celery分布式集群搭建

CeleryExecutor支持横向扩展数台worker节点来构建分布式集群。因此我们必须修改airflow.cfg[core]的executor = CeleryExecutor，以及[celery]里各配置项。以下是每个work节点的要求：

每台worker节点都必须安装airflow，且AIRFLOW_HOME下的文件应该一致(可以在一台work节点上配置好后scp到其他节点)
Operators依赖的上下文应该存在于每台work节点上，例如：如果使用HiveOperator，那么该work节点上必须装有hive cli
每台work节点的DAGS_FOLDER应该是同步的。我们可以通过上传git然后同步到集群每个work节点来实现

我们可以通过airflow flower命令行启动一个webUI服务来监控各work几点的运行情况。
假设要搭建的集群服务如下分布：

host	IP	service	comment
airflow01	xx.xx.xx.xx1	webserver/worker/ASFC/Rabbitmq/flower	master
airflow02	xx.xx.xx.xx2	webserver/worker/ASFC/Rabbitmq	slave
airflow03	xx.xx.xx.xx3	worker/Haproxy	slave

ASFC：Airflow Schedule Failover Controller第三方schedule高可用组件
Rabbitmq：消息队列
Haproxy：负载均衡

以下安装步骤均在root用户下运行，启动则各不相同

12.1 airflow安装

上面第5节已经详细讲述了此过程，有一点需要注意，如果是在生产环境，建议使用[all]选项下载所有airflow相关组件。请在每台节点正确安装。

12.2 rabbitMQ

wget https://packages.erlang-solutions.com/erlang/esl-erlang/FLAVOUR_1_general/esl-erlang_18.3-1~centos~6_amd64.rpm 
yum install esl-erlang_18.3-1~centos~6_amd64.rpm 
wget https://github.com/jasonmcintosh/esl-erlang-compat/releases/download/1.1.1/esl-erlang-compat-18.1-1.noarch.rpm 
yum install esl-erlang-compat-18.1-1.noarch.rpm 
wget http://www.rabbitmq.com/releases/rabbitmq-server/v3.6.1/rabbitmq-server-3.6.1-1.noarch.rpm 
yum install rabbitmq-server-3.6.1-1.noarch.rpm

Transaction Check Error:
file /usr/bin/epmd from install of xxx1 conflicts with file from package xxx2
则yum remove xxx2再继续yum install xxx1

将master节点airflow01的/var/lib/rabbitmq/.erlang.cookie复制到slave节点同目录下，即服务器必须具有相同的cookie，如果不相同的话，无法搭建集群.
以下是rabbitMQ的3个主要的命令行工具：

rabbitmq-server：服务器的启动与关闭
rabbitmq-plugins：插件管理
rabbitmqctl：服务器管理(如添加用户，权限，集群等)

rabbitMQ服务端口如下:

client端通信端口 5672
web ui访问端口 15672
server间通信端口 25672
erlang发现端口 4369

在master上执行以下5个command
在安装完rabbitMQ后Management Plugin(提供一个基于HTTP的api，管理和监控rabbitmq服务器)插件已随之安装，我们需要将其打开才可以访问webUI
rabbitmq-plugins enable rabbitmq_management
在两个节点上启动rabbitMQ server
rabbitmq-server -detached
在master上添加用户，为其设置权限

rabbitmqctl add_user airflow airflow(设置用户名和密码)
rabbitmqctl set_user_tags airflow administrator(设置角色)
rabbitmqctl add_vhost airflow(设置虚拟主机，celery_broke_url会用到)
rabbitmqctl set_permissions -p airflow airflow ".*" ".*" ".*"(使airflow用户(后)具有airflow(前)这个vhost所有资源的配置，读，写权限)
rabbitmqctl set_policy -p airflow ha "^" '{"ha-mode":"all","ha-sync-mode":"automatic"}'(为集群设置镜像)

在slave上执行下列command以将slave加入master形成集群

rabbitmqctl stop_app(先停止app)
rabbitmqctl join_cluster rabbit@airflow01(将当前slave加入到master)
rabbitmqctl start_app(重启app)
rabbitmqctl cluster_status(查看集群状态)

登录http://master:15672 查看和监控集群
至此rabbitMQ安装完毕
注意！！！ 请根据rabbitMQ的安装信息更新airflow.cfg配置文件

[celery]
broker_url = amqp://airflow:airflow@master:5672/airflow (连接MQ集群请使用master host)
result_backend = db+mysql://airflow:airflow@airflow01/airflow(MQ的元数据库)
default_queue = airflow(默认队列)

12.3 HAProxy

haproxy是一个高性能的负载均衡服务，应用在airflow集群是为了负载airflow的webserver，rabbitMQ的webserver和后端server
在airflow03 slave节点上安装haproxy：yum install haproxy
然后修改/etc/haproxy/haproxy.cfg，在文件末尾加入下列内容

listen airflow (监控项的名字，随便写)
 bind 0.0.0.0:8880 (要监听的服务的端口，airlfow.cfg的[webserver]的web_server_port)
 balance roundrobin (负载策略，如果在default中设置过，可以忽略)
 server airflow_webserver_1 airflow01:8880 check (server 给监听server起个名字 serverIP check)
 server airflow_webserver_2 airflow02:8880 check
 
listen rabbitmq-webUI
 bind 0.0.0.0:15672
 balance roundrobin
 server rabbitmq_webui_1 airflow01:15672 check
 server rabbitmq_webui_2 airflow02:15672 check
 
listen rabbitmq-ui
 bind 0.0.0.0:5677
 balance roundrobin
 server rabbitmq_server_1 airflow01:5672 check
 server rabbitmq_server_2 airflow02:5672 check

# This sets up the admin page for HA Proxy at port 1936.
listen stats :1936 (haproxy webserver的端口)
 mode http (监听模式)
 stats enable ()
 stats uri / (web页面的访问路径)
 stats hide-version (隐藏haproxy的版本信息)
 stats refresh 30s (web页面多久刷新一次)

其他配置项的含义可以参照详情了解
启动haproxy服务：haproxy -f /etc/haproxy/haproxy.cfg
至此haproxy安装完毕

12.4 ASFC

因为需要执行ssh命令来启动scheduler服务，所以安装ASFC的前提是在airflow01和airflow02上设置ssh免秘钥登录，此处略过。
下载地址：https://github.com/teamclairvoyant/airflow-scheduler-failover-controller
由于ASFC作为python的第三方包使用，所以下载至$PYTHON_HOME/site-packages，

cd {AIRFLOW_FAILOVER_CONTROLLER_HOME}
pip install -e . (注意逗点)
scheduler_failover_controller init （初始化，会向airflow.cfg末尾追加[scheduler_failover]）
scheduler_failover_controller start (启动服务)

注意在start前需要修改两个重要的配置

scheduler_nodes_in_cluster = airflow01,airflow02 (集群的主从node，用逗号隔开)
airflow_scheduler_start_command (启动airflow scheduler服务的命令，注意airflow命令请使用绝对路径，否则无法启动)

其他配置项比较简单，根据自己的需求配置即可
ASFC还提供了简单的命令行工具，执行scheduler_failover_controller -h可以查看

12.5 airflow集群启动顺序

假设rabbitMQ和haproxy已经按照上述启动，首先在所有节点启动work，然后在master上启动flower，webserver、ASFC(就是启动scheduler)，至此集群可以正常运行了。

你可能感兴趣的:(Airflow)

Python任务调度的几种方式唯余木叶下弦声 python python 开发语言
目录1、通过time.sleep(n)2、通过LinuxCrontab3、通过APScheduler4、通过AirFlow框架1、通过time.sleep(n)例如，写个while(True)循环，每次执行完程序休眠1小时：time.sleep(3600)，以间接达到定时调度的效果。这是最简单也是最笨的方式，会阻塞当前线程，而且无法控制任务准确的执行时间，不推荐用于生产环境中的任务调度。2、通过L
Airflow 中文文档：集成布客飞龙
反向代理Azure：MicrosoftAzureAWS：亚马逊网络服务DatabricksGCP：Google云端平台反向代理可以在反向代理后面设置气流，并能够灵活地设置其端点。例如，您可以配置反向代理以获取：https://lab.mycompany.com/myorg/airflow/为此，您需要在airflow.cfg中设置以下设置：base_url=http://my_host/myorg
airflow DAG配置文件小林帮
更多airflow资料，可查看：airflow从入门到精通学习笔记系列DAG概念DAG（有向无环图），在airflow中定义一个有依赖的作业执行集合，包含有一组特定的作业任务，每个任务都是一系列具体的操作命令。Task为DAG中具体的作业任务，任务一般是一个具体的操作，如执行某条shell命令、执行某个python脚本等；DAG中包含有多个任务Task及Task之间的执行依赖关系、调度时间；官方样
Airflow根据执行日期，调用kylin tlp_0190
最近接到一个需求,根据Airflow的执行日期，每次往前推3天重新计算kylin中的指标(1)首先需要拿到Airflow的执行日期，根据官网可以知道jinja中可以拿到执行日期{{ds}}（2）然后需要调用kylin的api，很简单查询官网，拿到API请求方式,这里需要注意的是,时间需要做一个转换为时间戳,另外需要注意的是,jinja中需要注意下字符转义的问题。具体代码如下：exec_kylinR
大数据系列—数据迁移(Sqoop,Flume,DataX)对比学习（stage3）道-闇影 big data 大数据 sqoop flume
Boys，Grils，Friends！MynameisJinsuo.Shi.一个不正经的大数据开发工程师，目前从事在公司主要进行CDP平台的数据接入、数据的ETL、数据的融合与事件的展开工作。个人大数据技术栈：DataX,Sqoop,Hadoop,Hive,Spark,Flink,Hbase,Kafka,Kettle,Azkaban,Airflow,Tableau…个人在学习领域：Python，P
AIRFLOW 安装方式和方法及配置信息详细说明 weixin_41659546 大数据技术类 python 大数据
AIRFLOW安装方式和方法ApacheAirflow可以通过多种方式进行安装，其中常见的方式包括本地安装、使用Docker运行Airflow容器、通过PyPI安装等。以下是其中一些常见的安装方式及其特点：本地安装：安装命令：使用pip命令本地安装Airflow。特点：简单、直观，适合快速搭建本地开发环境。但在生产环境中可能需要更复杂的配置。pipinstallapache-airflowDock
vulhub中 Apache Airflow Celery 消息中间件命令执行漏洞复现（CVE-2020-11981）余生有个小酒馆 vulhub漏洞复现 apache
ApacheAirflow是一款开源的，分布式任务调度框架。在其1.10.10版本及以前，如果攻击者控制了Celery的消息中间件（如Redis/RabbitMQ），将可以通过控制消息，在Worker进程中执行任意命令。1.利用这个漏洞需要控制消息中间件，Vulhub环境中Redis存在未授权访问。通过未授权访问，攻击者可以下发自带的任务`airflow.executors.celery_exec
vulhub中Apache Airflow 默认密钥导致的权限绕过（CVE-2020-17526）余生有个小酒馆 vulhub漏洞复现 apache
ApacheAirflow是一款开源的，分布式任务调度框架。默认情况下，ApacheAirflow无需用户认证，但管理员也可以通过指定`webserver.authenticate=True`来开启认证。在其1.10.13版本及以前，即使开启了认证，攻击者也可以通过一个默认密钥来绕过登录，伪造任意用户。1.访问登录页面，服务器会返回一个签名后的Cookie：curl-vhttp://localho
vulhub中Apache Airflow 示例dag中的命令注入漏洞复现（CVE-2020-11978）余生有个小酒馆 vulhub漏洞复现 spring java 后端
ApacheAirflow是一款开源的，分布式任务调度框架。在其1.10.10版本及以前的示例DAG中存在一处命令注入漏洞，未授权的访问者可以通过这个漏洞在Worker中执行任意命令。参考链接：https://lists.apache.org/thread/cn57zwylxsnzjyjztwqxpmly0x9q5ljxhttps://github.com/pberba/CVE-2020-1197
Airflow原理浅析肥猪猪爸大数据 python 分布式
⭐️airflow基本原理ApacheAirflow是一个开源的工作流自动化工具，它用于调度和管理复杂的数据工作流。Airflow的原理基于有向无环图（DAG）的概念，它通过编写和组织任务的有向图来描述工作流程。以下是ApacheAirflow的一些关键原理：1.有向无环图(DAG)：Airflow使用DAG来表示工作流程，其中每个节点表示一个任务，边表示任务之间的依赖关系。DAG中的任务可以并行
K8S Node NotReady故障 seaskyccl kubernetes java docker
报障：今日上午，值班同学发现airflow无法使用。查看时其部署的Node节点NotReady了。分析：马上查看K8S集群节点的状态，发现这个节点已经是NotReady状态了。第一反应就是ping下节点看是否宕机了？ping正常，于是登录到该节点查看kubelet状态。发现kubelet报runtime不可用，查看containerd的状态，一直在不断的重启，而且启动不成功。为了尽快恢复业务，决定
2018-12-12 离三战考研还有 374 天三战研究生入学考试
flow:riverflowsintosea;bloodflowsfromacut;airflowstolungs;break:platebrokeintopieces;watchhasbroken;itbreakmyskin;hebreaktherule/law;breakthesilence;breathe:hebreathed;重要紧急的事情要赶紧搞定，重要不紧急的要随时关注，不能让他成为重
Rocky8 顺利安装 Airflow 并解决数据库报错问题小杰666 Python Flask 工具 rocky8 airflow python
rocky是替代centos的服务器系统，稳定可靠。rocky8会比centos7新，可以支持更多服务软件的安装，免去升级各种库的麻烦，本文运行airflow服务就用rocky8系统。airflow是一个定时任务管理系统，功能强大，目前是apache旗下的一个开源项目。话不多说，正文开始。准备一个vm虚拟机，在里面安装rocky8，完成后进入系统终端（下文pyenv和airflow都将安装在用户目
Apache Zeppelin结合Apache Airflow使用1 旻璿gg 大数据 apache zeppelin python airflow
ApacheZeppelin结合ApacheAirflow使用1文章目录ApacheZeppelin结合ApacheAirflow使用1前言一、安装Airflow二、使用步骤1.目标2.编写DAG2.加载、执行DAG总结前言之前学了Zeppelin的使用，今天开始结合Airflow串任务。ApacheAirflow和ApacheZeppelin是两个不同的工具，各自用于不同的目的。Airflow用
工作流管理框架airflow-安装部署教程 Trisyp Python日常 python airflow
1概述Airflow是一个以编程方式编写，用于管理和调度工作流的平台。可以帮助你定义复杂的工作流程,然后在集群上执行和监控这些工作流。Airflow计划程序在遵循指定的依赖项，同时在一组工作线程上执行任务。丰富的命令实用程序使在DAG上执行复杂的调度变的轻而易举。Airflow的可扩展Python框架可以让你构建连接几乎任何技术的工作流程。丰富的用户界面可以随时查看生产中正在运行的管道，帮助你管理
Airflow大揭秘：如何让大数据任务调度变得简单高效？知识分享小能手学习心得体会大数据大数据学习流程图
介绍：Airflow是一个开源的、用于创建、调度和监控数据管道的工作流平台。这个平台使用Python编写，并通过有向无环图（DirectedAcyclicGraph,DAG）来管理任务流程，使得用户不需要知道业务数据的具体内容，只需设置任务之间的依赖关系，即可实现任务的自动调度。在具体应用中，例如"吃包子流"，从购买原材料到制作、蒸煮、上盘乃至食用，这一系列的过程就构成了一个“吃包子流”，也就是一
mysql 容器化安装（docker）离线和在线 yunpeng.zhou Linux docker mysql docker 数据库
前言：在部署hive或airflow升级过程中，总需要一个对应的数据库存储元数据，一个轻量级的mysql容器刚刚好。轻量、可快速移植、具有隔离性。文章目录1、查看机器版本2、安装docker3、启动docker服务4、docker常用命令docker5、拉取mysql镜像6、启动MySQL容器7、远程连接测试容器化mysql1、查看机器版本#redhat版>cat/etc/redhat-relea
写点东西《全栈工具箱：Python版》 MR_Bone 写点东西 python python 开发语言个人开发
写点东西《全栈工具箱：Python版》概述1\.[Taipy](https://github.com/Avaiga/taipy)](#2prefect)2.[Prefect3\.[Streamlit](https://github.com/streamlit/streamlit)](#4airflow)4.[Airflow5\.[Brython](https://github.com/brytho
有用的技术分享主题 weixin_30777913 sqlserver 数据库数据仓库 big data etl
SQLServer数据库和AgentJob集成化监控工具Airflow调度工具的安装和使用Tableau报表开发网络爬虫技术开发PythonGUI应用开发基于S3的数据湖架构设计和大数据开发Hive大数据仓库超大数据集去重解决方案Teradata和SQLServer数据库之间大量数据压缩传输解决方案数据治理Concur报销系统的配置和维护ETL开发、优化和运维总结任何与C++、C#、SQL、Pyt
python写入kafka数据时报错解决方案 pekingK kafka python
报错如下：Traceback(mostrecentcalllast):File"/mnt/disk1/cdp/icu/icu_reades2kafka_v4_bigdata_v4_shuashu.py",line23,insend_topic_msgrecord_metadata=result.get(timeout=10)File"/home/airflow/anaconda3/envs/air
Airflow 中文文档：使用操作器布客飞龙
操作器代表一个理想情况下是幂等的任务。操作员确定DAG运行时实际执行的内容。有关更多信息，请参阅OperatorsConcepts文档和OperatorsAPIReference。BashOperator模板故障排除找不到Jinja模板PythonOperator传递参数模板Google云端平台运营商GoogleCloudStorageToBigQueryOperatorBashOperator使
【入门Airflow】使用Docker在本地快速搭建Airflow mkdir700 学习总结 Airflow系列 docker 运维容器 etl
前言本文主要参考官方文档编写。我将顺着官方文档的流程在本地安装Airflow，并且附上安装过程的截图。其实官方文档步骤写得都是比较详细，奈何这英语能力真的拉跨。不过还是建议大家在使用过程中遇到的任何问题，优先去查看官方文档，有奇效。官方文档：https://airflow.apache.org/docs/apache-airflow/stable/start/docker.html生产准备这里Ai
【Python百宝箱】Python自动化之舞：深度解析工作流程与任务调度库 friklogff python 自动化开发语言
数据流管道：Python自动化库全景图前言在当今数据密集型和复杂的计算环境中，自动化流程和工作流的管理变得至关重要。本文将探讨几个领先的Python库，包括ApacheAirflow、Prefect、Luigi、Celery以及DAGster，这些库提供了强大的工具和框架，用于配置、管理和调度各种复杂的工作流。通过深入了解这些库的核心概念、特点和优势，以及实际的使用场景和示例代码，读者将能够更好地
airflow源码精读二 dll007 调度系统 python
Buildingtheimage构建镜像InstallingfromDockerImageshttps://airflow.apache.org/docs/docker-stack/index.html#apt安装包FROMapache/airflow:2.5.1USERrootRUNapt-getupdate\&&apt-getinstall-y--no-install-recommends\v
airflow源码精读三 dll007 调度系统 python
Dockerfile解析#syntax=docker/dockerfile:1.4#LicensedtotheApacheSoftwareFoundation(ASF)underoneormore#contributorlicenseagreements.SeetheNOTICEfiledistributedwith#thisworkforadditionalinformationregardin
airflow源码精读四 dll007 调度系统 python
AirflowCoreAirflow工作流的主要特征是所有工作流都在Python代码中定义。ThemaincharacteristicofAirflowworkflowsisthatallworkflowsaredefinedinPythoncode.代码片段fromdatetimeimportdatetimefromairflowimportDAGfromairflow.decoratorsim
调度工具之dolphinscheduler篇以茉萱大数据运维开发
前言随着开发程序的增多，任务调度以及任务之间的依赖关系管理就成为一个比较头疼的问题，随时少量的任务可以用linux系统自带的crontab加以定时进行，但缺点也很明细，不够直观，以及修改起来比较麻烦，容易出错，这时候就需要调度工具来帮忙，不知道大家都接触过哪些调度工具，我这边接触过airflow、oozie、Kyligence，但今天我想推荐的调度工具是dolphinscheduler，下面就从安
Airflow秃头两天填坑过程：任务假死问题明月AI
既然秃头填坑,那就该让这变得更加有价值,有必要总结出来,减少其他同事踩坑的可能。毫无疑问,所有的踩坑填坑都是很有价值的学习机会。1.基本徒劳的昨天昨天下午，同事报告客户系统上的数据没有入库，Airflow没有跑数据，请求协助。根据同事反馈，问题是下午两三点左右突然就出现了，期间没有上线新代码，也没有对服务器做什么特别的操作,Airflow服务器负载也正常。这也意味着这个问题没法在本地重现，只能在线
Airflow 中文文档：保护连接布客飞龙
默认情况下，Airflow将在元数据数据库中以纯文本格式保存连接的密码。在安装过程中强烈建议使用crypto包。crypto包确实要求您的操作系统安装了libffi-dev。如果最初未安装crypto软件包，您仍可以通过以下步骤为连接启用加密：安装crypto包pipinstallapache-airflow[crypto]使用下面的代码片段生成fernet_key。fernet_key必须是ba
Airflow 中文文档：时区布客飞龙
默认情况下启用对时区的支持。Airflow在内部和数据库中以UTC格式存储日期时间信息。它允许您使用时区相关的计划运行DAG。目前，Airflow不会将其转换为用户界面中的最终用户时区。它始终以UTC显示。此外，操作符中使用的模板也不会被转换。时区信息是暴露出来的，由DAG的作者负责。如果您的用户居住在多个时区，并且您希望根据每个用户的挂钟显示日期时间信息，这将非常方便。即使您只在一个时区运行Ai
Algorithm 香水浓 java Algorithm
冒泡排序 public static void sort(Integer[] param) { for (int i = param.length - 1; i > 0; i--) { for (int j = 0; j < i; j++) { int current = param[j]; int next = param[j + 1];
mongoDB 复杂查询表达式开窍的石头 mongodb
1:count Pg: db.user.find().count(); 统计多少条数据 2:不等于$ne Pg: db.user.find({_id:{$ne:3}},{name:1,sex:1,_id:0}); 查询id不等于3的数据。 3：大于$gt $gte(大于等于) &n
Jboss Java heap space异常解决方法, jboss OutOfMemoryError : PermGen space 0624chenhong jvm jboss
转自 http://blog.csdn.net/zou274/article/details/5552630 解决办法： window->preferences->java->installed jres->edit jre 把default vm arguments 的参数设为-Xms64m -Xmx512m ----------------
文件上传下载解析相对路径不懂事的小屁孩文件上传
有点坑吧，弄这么一个简单的东西弄了一天多，身边还有大神指导着，网上各种百度着。下面总结一下遇到的问题：文件上传，在页面上传的时候，不要想着去操作绝对路径，浏览器会对客户端的信息进行保护，避免用户信息收到攻击。在上传图片，或者文件时，使用form表单来操作。前台通过form表单传输一个流到后台，而不是ajax传递参数到后台，代码如下: <form action=&
怎么实现qq空间批量点赞换个号韩国红果果 qq
纯粹为了好玩！！逻辑很简单 1 打开浏览器console；输入以下代码。先上添加赞的代码 var tools={}; //添加所有赞 function init(){ document.body.scrollTop=10000; setTimeout(function(){document.body.scrollTop=0;},2000);//加
判断是否为中文灵静志远中文
方法一： public class Zhidao { public static void main(String args[]) { String s = "sdf灭礌 kjl d{';\fdsjlk是"; int n=0; for(int i=0; i<s.length(); i++) { n = (int)s.charAt(i); if((
一个电话面试后总结 a-john 面试
今天，接了一个电话面试，对于还是初学者的我来说，紧张了半天。面试的问题分了层次，对于一类问题，由简到难。自己觉得回答不好的地方作了一下总结：在谈到集合类的时候，举几个常用的集合类，想都没想，直接说了list,map。然后对list和map分别举几个类型： list方面：ArrayList,LinkedList。在谈到他们的区别时，愣住了
MSSQL中Escape转义的使用 aijuans MSSQL
IF OBJECT_ID('tempdb..#ABC') is not null drop table tempdb..#ABC create table #ABC ( PATHNAME NVARCHAR(50) ) insert into #ABC SELECT N'/ABCDEFGHI' UNION ALL SELECT N'/ABCDGAFGASASSDFA' UNION ALL
一个简单的存储过程 asialee mysql 存储过程构造数据批量插入
今天要批量的生成一批测试数据，其中中间有部分数据是变化的，本来想写个程序来生成的，后来想到存储过程就可以搞定，所以随手写了一个，记录在此： DELIMITER $$ DROP PROCEDURE IF EXISTS inse
annot convert from HomeFragment_1 to Fragment 百合不是茶 android 导包错误
创建了几个类继承Fragment, 需要将创建的类存储在ArrayList<Fragment>中; 出现不能将new 出来的对象放到队列中,原因很简单; 创建类时引入包是:import android.app.Fragment; 创建队列和对象时使用的包是:import android.support.v4.ap
Weblogic10两种修改端口的方法 bijian1013 weblogic 端口号配置管理 config.xml
一.进入控制台进行修改 1.进入控制台: http://127.0.0.1:7001/console 2.展开左边树菜单域结构->环境->服务器-->点击AdminServer(管理) &
mysql 操作指令征客丶 mysql
一、连接mysql 进入 mysql 的安装目录； $ bin/mysql -p [host IP 如果是登录本地的mysql 可以不写 -p 直接 -u] -u [userName] -p 输入密码，回车，接连；二、权限操作［如果你很了解mysql数据库后，你可以直接去修改系统表，然后用 mysql> flush privileges; 指令让权限生效］ 1、赋权 mys
【Hive一】Hive入门 bit1129 hive
Hive安装与配置 Hive的运行需要依赖于Hadoop，因此需要首先安装Hadoop2.5.2，并且Hive的启动前需要首先启动Hadoop。 Hive安装和配置的步骤 1. 从如下地址下载Hive0.14.0 http://mirror.bit.edu.cn/apache/hive/ 2.解压hive，在系统变
ajax 三种提交请求的方法 BlueSkator Ajax jqery
1、ajax 提交请求 $.ajax({ type:"post", url : "${ctx}/front/Hotel/getAllHotelByAjax.do", dataType : "json", success : function(result) { try { for(v
mongodb开发环境下的搭建入门 braveCS 运维
linux下安装mongodb 1）官网下载mongodb-linux-x86_64-rhel62-3.0.4.gz 2）linux 解压 gzip -d mongodb-linux-x86_64-rhel62-3.0.4.gz; mv mongodb-linux-x86_64-rhel62-3.0.4 mongodb-linux-x86_64-rhel62-
编程之美-最短摘要的生成 bylijinnan java 数据结构算法编程之美
import java.util.HashMap; import java.util.Map; import java.util.Map.Entry; public class ShortestAbstract { /** * 编程之美最短摘要的生成 * 扫描过程始终保持一个[pBegin,pEnd]的range,初始化确保[pBegin,pEnd]的ran
json数据解析及typeof chengxuyuancsdn js typeof json解析
// json格式 var people='{"authors": [{"firstName": "AAA","lastName": "BBB"},' +' {"firstName": "CCC&
流程系统设计的层次和目标 comsci 设计模式数据结构 sql 框架脚本
流程系统设计的层次和目标
RMAN List和report 命令 daizj oracle list report rman
LIST 命令使用RMAN LIST 命令显示有关资料档案库中记录的备份集、代理副本和映像副本的信息。使用此命令可列出： • RMAN 资料档案库中状态不是AVAILABLE 的备份和副本 • 可用的且可以用于还原操作的数据文件备份和副本 • 备份集和副本，其中包含指定数据文件列表或指定表空间的备份 • 包含指定名称或范围的所有归档日志备份的备份集和副本 • 由标记、完成时间、可
二叉树:红黑树 dieslrae 二叉树
红黑树是一种自平衡的二叉树,它的查找,插入,删除操作时间复杂度皆为O(logN),不会出现普通二叉搜索树在最差情况时时间复杂度会变为O(N)的问题. 红黑树必须遵循红黑规则,规则如下 1、每个节点不是红就是黑。 2、根总是黑的 &
C语言homework3，7个小题目的代码 dcj3sjt126com c
1、打印100以内的所有奇数。 # include <stdio.h> int main(void) { int i; for (i=1; i<=100; i++) { if (i%2 != 0) printf("%d ", i); } return 0; } 2、从键盘上输入10个整数，
自定义按钮, 图片在上, 文字在下, 居中显示 dcj3sjt126com 自定义
#import <UIKit/UIKit.h> @interface MyButton : UIButton -(void)setFrame:(CGRect)frame ImageName:(NSString*)imageName Target:(id)target Action:(SEL)action Title:(NSString*)title Font:(CGFloa
MySQL查询语句练习题，测试足够用了 flyvszhb sql mysql
http://blog.sina.com.cn/s/blog_767d65530101861c.html 1.创建student和score表 CREATE TABLE student ( id INT(10) NOT NULL UNIQUE PRIMARY KEY , name VARCHAR
转：MyBatis Generator 详解 happyqing mybatis
MyBatis Generator 详解 http://blog.csdn.net/isea533/article/details/42102297 MyBatis Generator详解 http://git.oschina.net/free/Mybatis_Utils/blob/master/MybatisGeneator/MybatisGeneator.
让程序员少走弯路的14个忠告 jingjing0907 工作计划学习
无论是谁，在刚进入某个领域之时，有再大的雄心壮志也敌不过眼前的迷茫：不知道应该怎么做，不知道应该做什么。下面是一名软件开发人员所学到的经验，希望能对大家有所帮助 1.不要害怕在工作中学习。只要有电脑，就可以通过电子阅读器阅读报纸和大多数书籍。如果你只是做好自己的本职工作以及分配的任务，那是学不到很多东西的。如果你盲目地要求更多的工作，也是不可能提升自己的。放
nginx和NetScaler区别流浪鱼 nginx
NetScaler是一个完整的包含操作系统和应用交付功能的产品，Nginx并不包含操作系统，在处理连接方面，需要依赖于操作系统，所以在并发连接数方面和防DoS攻击方面，Nginx不具备优势。 2.易用性方面差别也比较大。Nginx对管理员的水平要求比较高，参数比较多，不确定性给运营带来隐患。在NetScaler常见的配置如健康检查，HA等，在Nginx上的配置的实现相对复杂。 3.策略灵活度方
第11章动画效果（下） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
FAQ - SAP BW BO roadmap blueoxygen BO BW
http://www.sdn.sap.com/irj/boc/business-objects-for-sap-faq Besides, I care that how to integrate tightly. By the way, for BW consultants, please just focus on Query Designer which i
关于java堆内存溢出的几种情况 tomcat_oracle java jvm jdk thread
【情况一】：　　 java.lang.OutOfMemoryError: Java heap space：这种是java堆内存不够，一个原因是真不够，另一个原因是程序中有死循环；　　如果是java堆内存不够的话，可以通过调整JVM下面的配置来解决：　　<jvm-arg>-Xms3062m</jvm-arg> 　　<jvm-arg>-Xmx
Manifest.permission_group权限组阿尔萨斯 Permission
结构继承关系 public static final class Manifest.permission_group extends Object java.lang.Object android. Manifest.permission_group 常量 ACCOUNTS 直接通过统计管理器访问管理的统计 COST_MONEY可以用来让用户花钱但不需要通过与他们直接牵涉的权限 D