Sajor_

Airflow ETL任务调度工具介绍

Airflow 是 Apache 基金会的一套用于创建、管理和监控工作流程的开源平台，是一套非常优秀的任务调度工具。截至2022年7月，在GitHub上已经拥有近27k的star。

本文主要介绍一下Airflow 2.3.2版本，各个功能模块，以及如何使用。只浅浅提了一下Airflow的功能点，具体内容还是链接到了官方文档。

前言

官网简介

Airflow是一个ETL中的任务调度工具。

ETL Extract-Transform-Load 的缩写，用来描述将数据从来源端经过抽取（extract）、转换（transform）、加载（load）至目的端的过程。

Airflow 是一个可编程、调度和监控的工作流平台。
Airflow 用户可以定义一组有依赖的任务，即有向无环图(DAG)，按照依赖依次执行。
Airflow 提供了丰富的命令行和强大的Web UI，方便的管控调度任务，可以实时监控运行状态。

Linux crontab 不足

在多任务调度执行的情况下，难以理清任务之间的依赖关系
不便于查看当前执行到哪一个任务
任务执行失败时没有自动的重试和报警机制
不便于查看执行日志，即不方便定位报错的任务和错误原因
不便于查看调度流下每个任务执行的起止消耗时间，这对于优化task作业是非常重要的
没有记录历史调度任务的执行情况，而这对于优化作业和错误排查是很重要的

ETL 的常见痛点

日益增加的数据量
快速排查任务失败的原因
每个新工具都要重新学习新的配置规范
重试，监控，报警
敏捷高效的开发以满足业务需求
不均衡的数据峰值

使用场景

监控自动化工作的情况（通过web UI和各个worker上记录的执行历史）
自动处理并传输数据
为机器学习或推荐系统提供一个数据管道和使用框架
做代码部署调度

安装

单机版本地安装

本地安装Airflow非常简单，只需要按照官网的 Running Airflow locally 教程复制相应命令即可。

容器化安装

官网文档Running Airflow in Docker，需要提前将Docker和docker-compose装好。

系统流程图

单机版

基本概念

DAG: 即一个工作流，一个DAG由一系列的TASK组成。

DAG RUN: 即一次DAG工作流的执行。一个DAG在不同时间触发会生成一次 DAG RUN。

TASK: 任务，Airflow中最小的执行单位，一群TASK组成一个DAG，TASK之间有相互依赖的关系。

这里有三种基本的TASK类型

Operator：任务模板
Sensor：传感器
TaskFlow：其他Python代码

具体模块

Scheduler/调度器

调度器通常作为服务运行，是一种使用DAG定义结合元数据中的任务状态来决定哪些任务需要被执行以及任务执行优先级的过程。

调度器监控所有的DAG文件，加载文件中的变化，默认每分钟一次。

WebServer/web服务器 + User Interface/UI页面

提供图形页面，可以监控DAG运行状态，也可以对DAG操作。使用的是Gunicorn框架启动。

Metadata Database/元数据库

存储所有的DAG，任务定义，运行的历史，用户，权限等。
默认使用SQLite，可以支持MySQL、PostgreSQL。

Executor/执行器

Airflow中有多种执行器可选择，例如：

SequentialExecutor: 单进程顺序执行任务，默认执行器，通常用于测试
LocalExecutor: 多进程本地执行任务
CeleryExecutor: 分布式调度，生产常用
DaskExecutor: 动态任务调度，主要用于数据分析
...

Ariflow + Celery 图

Worker/执行者

用来执行Executor接收的任务，这些是实际执行任务逻辑的进程，由正在使用的执行器确定。

Operator/操作员

一个TASK中的具体操作模板，例如

BashOperator-(airflow.operators.bash.BashOperator) 用来执行Bash脚本
PythonOperator-(airflow.operators.python.PythonOperator) 调用Python函数
EmailOperator-(airflow.operators.email_operator.EmailOperator) 发送邮件
MySqlOperator-(airflow.providers.mysql.operators.mysql.MySqlOperator) 在MySQL中执行SQL脚本
...

Sensor/传感器

TASK的一种特殊Operator类型，由时间或事件触发。

例如我们在等待上游服务商处理后，读取服务商生成的文件，再执行后续任务。通常会定时使用Operator去检查上游服务商是否处理完毕，生成对应文件，未处理完毕则停止。

针对此场景，可以使用Sensor监听上游服务商。

UI介绍

GitHub上有UI 页面的介绍。

DAGs: 该页面展示所有的DAG任务

Grid: 网格表示DAG中TASK的执行情况，每一列即是一个DAG RUN

Graph: 每个TASK的依赖关系可视化，以及在一次DAG RUN中的运行状态

Task Duration : 随着时间的推移，在不同任务上花费的总时间。

Gantt: 甘特图

Code: 源码页面

创建DAG

首先需要声明一个DAG，这里有三种方式

通过上下文管理with隐式调用

with DAG(
    "my_dag_name", start_date=pendulum.datetime(2021, 1, 1, tz="UTC"),
    schedule_interval="@daily", catchup=False
) as dag:
    op = EmptyOperator(task_id="task")

标准构造方式

my_dag = DAG("my_dag_name", start_date=pendulum.datetime(2021, 1, 1, tz="UTC"),
             schedule_interval="@daily", catchup=False)
op = EmptyOperator(task_id="task", dag=my_dag)

装饰器方式

@dag(start_date=pendulum.datetime(2021, 1, 1, tz="UTC"),
     schedule_interval="@daily", catchup=False)
def generate_dag():
    op = EmptyOperator(task_id="task")

dag = generate_dag()

参数

dag_id 唯一标识
default_args 默认参数
description 描述
schedule_interval 调度时间
max_active_runs 最大并行执行个数

默认参数default_args

默认配置，通常在DAG中具体的Operator具有同样的配置，它下面有许多配置比如重试次数，邮件等。该参数支持将里面的参数和具体的TASK绑定。

default_args={
        'depends_on_past': False,
        'email': ['[email protected]'],
        'email_on_failure': True,
        'email_on_retry': False,
        'retries': 1,
        'retry_delay': timedelta(minutes=5),
    },

depends_on_past

设置为True时，表示只有当上一个TASK成功时，当前TASK才能启动。

email

可以配置一个邮件列表，触发邮件发送时将往列表中的邮箱发送对应邮件。

email_on_failure

TASK失败时是否触发邮件发送

email_on_retry

TASK重试时是否触发邮件发送

retries

失败重试总次数

retry_delay

失败重试时，之间的时间间隔

重启相关

catchup

DAG执行通常带有时间范围，假如三天该任务都没有启动成功，第四天运行时会将前三天的数据补上，无需启动三次依次补数据，这时该参数配置为False。

max_active_runs

要求并发执行的任务数，例如在数据库操作时，多个任务同时执行可能会引发死锁。

连接

在使用TASK之前，先提一下连接，在使用Airflow时，会经常连接数据库、邮箱、文件服务器等，将连接的账号密码写到代码中不是一个好的习惯。

Airflow提供了统一管理连接凭据的功能。在 Menu -> Admin -> Connections 中可以管理。

然后在代码中可以使用Hook的方式获取

from airflow.hooks.base_hook import BaseHook

conn = BaseHook.get_connection('connection_id')

也可以通过模板变量获取

echo {{ conn..host }}

创建TASK

一个TASK可以使用某个具体的Operator模板，例如上文提到的 BashOperator、PythonOperator，也可以使用自己实现的Operator。

BashOperator

from airflow.operators.bash import BashOperator

bash_task = BashOperator(
    task_id='print_date',
    # 这里也可以写脚本文件路径
    bash_command='date',
)

PythonOperator

from airflow.operators.python import PythonOperator

python_task = PythonOperator(
    task_id="python_task",
    # fun为函数名
    python_callable = fun
)

EmailOperator

from airflow.operators.email_operator import EmailOperator
email_task = EmailOperator(
    task_id = "email_task",
    to = "[email protected]",
    subject = "Email Test",
    html_content = """  Email Test  """,
    dag=dag
)

MySqlOperator

首先需要安装拓展包apache-airflow-providers-mysql

# ubuntu 
apt install libmysqlclient-dev

# centos
yum install mysql-devel

# pypi提到必须使用20.2.4版本的pip安装
python -m pip install pip==20.2.4

# 最后使用pip安装airflow依赖
pip install apache-airflow-providers-mysql

之后

from airflow.providers.mysql.operators.mysql import MySqlOperator

mysql_task = MySqlOperator(
    task_id = "mysql_task",
    # 提前配好连接
    mysql_conn_id = "connection_id",
    # 这里也可以写sql文件路径
    sql = "select * from tb_anchor limit 100",
    dag = dag
)

PostgresOperator

想使用这个模板之前，需要先安装一些库 libpq-dev、gcc、python-dev 见官网和 Python的psycopg2包。

之后需要安装拓展包apache-airflow-providers-postgres

# ubuntu 
apt install libpq-dev

pip install psycopg2

# 最后使用pip安装airflow依赖
pip install apache-airflow-providers-postgres

下图描绘了一个TASK由none开始可能经历的状态

TASK依赖关系

有两种常用方式声明任务依赖

使用 >> 和 <<

bash_task >> python_task >> [mysql_task, email_task]

使用 set_upstream 和 set_downstream方法

bash_task.set_downstream(python_task)
mysql_task.set_upstream(python_task)

还有更简洁的复杂关系

from airflow.models.baseoperator import cross_downstream

# Replaces
# [op1, op2] >> op3
# [op1, op2] >> op4
cross_downstream([op1, op2], [op3, op4])

还有链式

from airflow.models.baseoperator import chain

# Replaces op1 >> op2 >> op3 >> op4
chain(op1, op2, op3, op4)

# You can also do it dynamically
chain(*[EmptyOperator(task_id='op' + i) for i in range(1, 6)])


# Replaces
# op1 >> op2 >> op4 >> op6
# op1 >> op3 >> op5 >> op6
chain(op1, [op2, op3], [op4, op5], op6)

任务传参XComs

任务之间是互相隔离的，甚至可能在不同的机器上执行。

在PythonOperator中，默认函数的返回值，自动加入至XComs中，在其他任务中，可以直接通过Task id 获取返回值。

# Pulls the return_value XCOM from "pushing_task"
value = task_instance.xcom_pull(task_ids='pushing_task')

模板变量

Airflow 集成了Jinja。变量，宏和过滤器可以在模板中使用。

DAG 依赖

这里有两种方法支持一个DAG触发另一个DAG

triggering 主动触发 TriggerDagRunOperator
waiting 传感器触发 ExternalTaskSensor

trigger_next_dag = TriggerDagRunOperator(
    # 触发的DAG ID
    trigger_dag_id = "Sajor_Dag",
    # 任务ID
    task_id = "trigger sajor",
    # 执行时间
    execution_date = "{{ds}}",
    # 是否等待触发的DAG完成
    wait_for_completion = False
)

可以在 Menu -> Browse -> DAG Dependencies 中看到 DAG 之间的依赖关系。

动态DAG

因为使用Python，所以DAG不一定是由声明式创建，也可以使用循环来创建一堆DAG。

有时一个DAG中的业务应该分为多个DAG，但是代码又高度相似。

命令行工具

可以输入 airflow -h 查看命令行支持情况

开放API

Airflow提供了开放的API接口，并提供了Swagger文档。

该功能特性可以支持其他项目，使用网络请求的方式调用Airflow中的功能。

Pools池

可以在 Menu -> Admin -> Pools 定义Pool，来约定在这个Pool中的资源大小，将多个DAG指定使用该Pool时，所有DAG整体资源消耗不会超过该Pool中的设置。

这可以用于生产环境中，限制整体DAG的资源消耗，防止影响生产中正常业务的执行。

*最佳实践

官网提供了一些，DAG编写指南，应当到官网仔细阅读。

尽量使用分布式架构和容器

将Airflow各个组件分开，尤其是Scheduler和Worker要分开。

在内存不足时，Scheduler和Worker抢占资源，有可能会发生两者失联的情况，导致任务被多次重启。

容器化可以使用容器监控工具，监控各个模块的资源占用情况。

任务的幂等性

在设计每一个任务时，尽量做到可以重复多次运行，即使在运行过程中被打断了，下次运行依然不会出现问题。

多实现自己的Operator

在各种不同系统中下载数据时，最好实现自己的Operator，至少是Hook，相当于封装了外来的API。

定期清理元数据库

数据库中有些表会保存每一次任务的信息，日积月累，这些表就变得越来越大，搜索时就会变得很慢，所以定期去数据库清理这些表，可以提升系统的效率。

在确认不需要Xcom功能时，可以禁用掉，因为在PythonOperator中，函数的返回值默认会启动Xcom功能，每一次执行都会新增一条Xcom记录至数据库中，不管是否使用。

注意资源管理

链接数据库可以使用Connection，方便管理和查看。
Variable在官方文档中提到不要滥用，因为Variable是存在元数据库中的，会耗用数据库连接。
在DAG定义文件中，不要调用昂贵的资源，例如调用三方API。因为调度器会频繁扫描DAG文件，在定义DAG外层，均会触发执行，会给服务器带来很大压力。包引用也应尽量放至最内层，如TASK层。

代码DEMO


from datetime import datetime, timedelta
from textwrap import dedent

# The DAG object; we'll need this to instantiate a DAG
from airflow import DAG

# Operators; we need this to operate
from airflow.operators.bash import BashOperator
from airflow.operators.python import PythonOperator
from airflow.operators.email_operator import EmailOperator
from airflow.providers.mysql.operators.mysql import MySqlOperator
from airflow.models.xcom import XCom



with DAG(
    'sajor',
    # [START default_args]
    # These args will get passed on to each operator
    # You can override them on a per-task basis during operator initialization
    default_args={
        'depends_on_past': False,
        'email': ['[email protected]'],
        'email_on_failure': True,
        'email_on_retry': False,
        'retries': 1,
        'retry_delay': timedelta(minutes=5),
        # 'queue': 'bash_queue',
        # 'pool': 'backfill',
        # 'priority_weight': 10,
        # 'end_date': datetime(2016, 1, 1),
        # 'wait_for_downstream': False,
        # 'sla': timedelta(hours=2),
        # 'execution_timeout': timedelta(seconds=300),
        # 'on_failure_callback': some_function,
        # 'on_success_callback': some_other_function,
        # 'on_retry_callback': another_function,
        # 'sla_miss_callback': yet_another_function,
        # 'trigger_rule': 'all_success'
    },
    # [END default_args]
    description='Sajor\' Dags',
    schedule_interval=timedelta(minutes=10),
    start_date=datetime(2021, 1, 1),
    catchup=False,
    tags=['sajor'],
) as dag:
    # [END instantiate_dag]

    
    def get_variable():
        from airflow.models import Variable

        key = Variable.get("juaner")
        print("Hello %s" % key)

    
    def get_args(arg):
        s = "Hello %s" % arg
        print(s)
        return s
        
        
    # python中 *  关键字参数允许你传入0个或任意个参数，这些可变参数在函数调用时自动组装为一个tuple。
    # python中 ** 关键字参数允许你传入0个或任意个含参数名的参数,这些关键字参数在函数内部自动组装为一个dict。
    def get_kwargs(*arg, **kwargs):
        
        print(arg)
        print(kwargs)
        print('-----------------')
        
 

    # 使用公共参数 variable
    python_task = PythonOperator(
        task_id="python_task",
        python_callable = get_variable,
    )
    
    # 函数传参
    python_get_args = PythonOperator(
        task_id="python_get_args",
        python_callable = get_args,
        op_kwargs={"arg": "Sajor"}
    )
    
    # 函数传参
    python_get_kwargs = PythonOperator(
        task_id="python_get_kwargs",
        python_callable = get_kwargs,
        op_kwargs={"id":"1","name":"zs","age":18},
        op_args=[1,2,3,"hello","world"],
        
    )
    
    mysql_task = MySqlOperator(
        task_id = "mysql_task",
        mysql_conn_id = "zmt_185",
        sql = "select * from test limit 100",
        dag = dag
    )
    
    email_task = EmailOperator(
        task_id = "email_task",
        to = "[email protected]",
        subject = "Email Test",
        # Jinja 变量
        html_content = """ 
            Email Test
            {{ ds_nodash }}
            

            {{ dag }}
            

            {{ conf }}
            

            {{ next_ds }}
            

            {{ yesterday_ds }}
            

            {{ tomorrow_ds }}
            

            {{ execution_date }}
            
 
        """,
        dag=dag
    )
    

    bash_task = BashOperator(
        task_id='bash_task',
        do_xcom_push=True,
        # 这里可以写Jinja，获取其他TASK中的xcom数据。return_value这个变量名是固定的
        # 也可以写脚本文件路径
        bash_command='echo "I get: {{ ti.xcom_pull(task_ids="python_get_args", key="return_value") }}"',
    )

    python_task >> python_get_args >> python_get_kwargs >> bash_task

其他

PXL (Pocket Excel File) files 相较于 CSV (Comma Separated Values File) 是压缩过的，导入数仓时间更短，成本更低。csv无法处理二进制数据，无法表示Null值。

DBT 工具

官方视频资料: airflow summit

系统学习Python——并发模型和异步编程：进程、线程和GIL
分类目录：《系统学习Python》总目录在文章《并发模型和异步编程：基础知识》我们简单介绍了Python中的进程、线程和协程。本文就着重介绍Python中的进程、线程和GIL的关系。Python解释器的每个实例都是一个进程。使用multiprocessing或concurrent.futures库可以启动额外的Python进程。Python的subprocess库用于启动运行外部程序（不管使用何种
Flask框架入门：快速搭建轻量级Python网页应用「已注销」 python-AI python基础网站网络 python flask 后端
转载：Flask框架入门：快速搭建轻量级Python网页应用1.Flask基础Flask是一个使用Python编写的轻量级Web应用框架。它的设计目标是让Web开发变得快速简单，同时保持应用的灵活性。Flask依赖于两个外部库：Werkzeug和Jinja2，Werkzeug作为WSGI工具包处理Web服务的底层细节，Jinja2作为模板引擎渲染模板。安装Flask非常简单，可以使用pip安装命令
Python Flask 框架入门：快速搭建 Web 应用的秘诀 Python编程之道 Python人工智能与大数据 Python编程之道 python flask 前端 ai
PythonFlask框架入门：快速搭建Web应用的秘诀关键词Flask、微框架、路由系统、Jinja2模板、请求处理、WSGI、Web开发摘要想快速用Python搭建一个灵活的Web应用？Flask作为“微框架”代表，凭借轻量、可扩展的特性，成为初学者和小型项目的首选。本文将从Flask的核心概念出发，结合生活化比喻、代码示例和实战案例，带你一步步掌握：如何用Flask搭建第一个Web应用？路由
python_虚拟环境阿_焦 python
第一、配置虚拟环境：virtualenv（1）pipvirtualenv>安装虚拟环境包（2）pipinstallvirtualenvwrapper-win>安装虚拟环境依赖包（3）c盘创建虚拟目录>C:\virtualenv>配置环境变量【了解一下】：（1）如何使用virtualenv创建虚拟环境a、cd到C:\virtualenv目录下：b、mkvirtualenvname>创建虚拟环境nam
Python爱心光波
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
Python流星雨 Want595 python 开发语言
文章目录系列文章写在前面技术需求完整代码代码分析1.模块导入2.画布设置3.画笔设置4.颜色列表5.流星类(Star)6.流星对象创建7.主循环8.流星运动逻辑9.视觉效果10.总结写在后面系列文章序号直达链接表白系列1Python制作一个无法拒绝的表白界面2Python满屏飘字表白代码3Python无限弹窗满屏表白代码4Python李峋同款可写字版跳动的爱心5Python流星雨代码6Python
Python之七彩花朵代码实现 PlutoZuo Python python 开发语言
Python之七彩花朵代码实现文章目录Python之七彩花朵代码实现下面是一个简单的使用Python的七彩花朵。这个示例只是一个简单的版本，没有很多高级功能，但它可以作为一个起点，你可以在此基础上添加更多功能。importturtleastuimportrandomasraimportmathtu.setup(1.0,1.0)t=tu.Pen()t.ht()colors=['red','skybl
Python 脚本最佳实践2025版
前文可以直接把这篇文章喂给AI,可以放到AI角色设定里,也可以直接作为提示词.这样,你只管提需求,写脚本就让AI来.概述追求简洁和清晰：脚本应简单明了。使用函数(functions)、常量(constants)和适当的导入(import)实践来有逻辑地组织你的Python脚本。使用枚举(enumerations)和数据类(dataclasses)等数据结构高效管理脚本状态。通过命令行参数增强交互性
（Python基础篇）了解和使用分支结构 EternityArt 基础篇 python
目录一、引言二、Python分支结构的类型与语法（一）if语句（单分支）（二）if-else语句（双分支）（三）if-elif-else语句（多分支）三、分支结构的应用场景（一）提示用户输入用户名，然后再提示输入密码，如果用户名是“admin”并且密码是“88888”则提示正确，否则，如果用户名不是admin还提示用户用户名不存在,（二）提示用户输入用户名，然后再提示输入密码，如果用户名是“adm
（Python基础篇）循环结构 EternityArt 基础篇 python
一、什么是Python循环结构？循环结构是编程中重复执行代码块的机制。在Python中，循环允许你：1.迭代处理数据：遍历列表、字典、文件内容等。2.自动化重复任务：如批量处理数据、生成序列等。3.控制执行流程：根据条件决定是否继续或终止循环。二、为什么需要循环结构？假设你需要打印1到100的所有偶数：没有循环：需手动编写100行print()语句。print(0)print(2)print(4)
（Python基础篇）字典的操作 EternityArt 基础篇 python 开发语言
一、引言在Python编程中，字典（Dictionary）是一种极具灵活性的数据结构，它通过“键-值对”（key-valuepair）的形式存储数据，如同现实生活中的字典——通过“词语（键）”快速查找“释义（值）”。相较于列表和元组的有序索引访问，字典的优势在于基于键的快速查找，这使得它在处理需要频繁通过唯一标识获取数据的场景中极为高效。掌握字典的操作，能让我们更高效地组织和管理复杂数据，是Pyt
Python七彩花朵 Want595 python 开发语言
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
用OpenCV标定相机内参应用示例（C++和Python）
下面是一个完整的使用OpenCV进行相机内参标定（CameraCalibration）的示例，包括C++和Python两个版本，基于棋盘格图案标定。一、目标：相机标定通过拍摄多张带有棋盘格图案的图像，估计相机的内参：相机矩阵（内参）K畸变系数distCoeffs可选外参（R,T）标定精度指标（如重投影误差）二、棋盘格参数设置（根据自己的棋盘格设置）：棋盘格角点数：9x6（内角点，9列×6行）；每个
Anaconda 详细下载与安装教程
Anaconda详细下载与安装教程1.简介Anaconda是一个用于科学计算的开源发行版，包含了Python和R的众多常用库。它还包括了conda包管理器，可以方便地安装、更新和管理各种软件包。2.下载Anaconda2.1访问官方网站首先，打开浏览器，访问Anaconda官方网站。2.2选择适合的版本在页面中，你会看到两个主要的下载选项：AnacondaIndividualEdition：适用于
python中 @注解及内置注解的使用方法总结以及完整示例慧一居士 Python python
在Python中，装饰器（Decorator）使用@符号实现，是一种修改函数/类行为的语法糖。它本质上是一个高阶函数，接受目标函数作为参数并返回包装后的函数。Python也提供了多个内置装饰器，如@property、@staticmethod、@classmethod等。一、核心概念装饰器本质：@decorator等价于func=decorator(func)执行时机：在函数/类定义时立即执行装饰
Python中的静态方法和类方法详解
在Python中，`@staticmethod`和`@classmethod`是两种装饰器，它们用于定义类中的方法，但是它们的行为和用途有所不同。###@staticmethod`@staticmethod`装饰器用于定义一个静态方法。静态方法不接收类或实例的引用作为第一个参数，因此它不能访问类的状态或实例的状态。静态方法可以看作是与类关联的普通函数，但它们可以通过类名直接调用。classMath
Python中类静态方法：@classmethod/@staticmethod详解和实战示例
在Python中，类方法(@classmethod)和静态方法(@staticmethod)是类作用域下的两种特殊方法。它们使用装饰器定义，并且与实例方法(deffunc(self))的行为有所不同。1.三种方法的对比概览方法类型是否访问实例(self)是否访问类(cls)典型用途实例方法✅是❌否访问对象属性类方法@classmethod❌否✅是创建类的替代构造器，访问类变量等静态方法@stati
Python多版本管理与pip升级全攻略：解决冲突与高效实践码界奇点 Python python pip 开发语言 python3.11 源代码管理虚拟现实依赖倒置原则
引言Python作为最流行的编程语言之一，其版本迭代速度与生态碎片化给开发者带来了巨大挑战。据统计，超过60%的Python开发者需要同时维护基于Python3.6+和Python2.7的项目。本文将系统解决以下核心痛点：如何安全地在同一台机器上管理多个Python版本pip依赖冲突的根治方案符合PEP标准的生产环境最佳实践第一部分：Python多版本管理核心方案1.1系统级多版本共存方案Wind
基于Python的健身数据分析工具的搭建流程day1 weixin_45677320 python 开发语言数据挖掘爬虫
基于Python的健身数据分析工具的搭建流程分数据挖掘、数据存储和数据分析三个步骤。本文主要介绍利用Python实现健身数据分析工具的数据挖掘部分。第一步：加载库加载本文需要的库，如下代码所示。若库未安装，请按照python如何安装各种库（保姆级教程）_python安装库-CSDN博客https://blog.csdn.net/aobulaien001/article/details/133298
数字孪生技术为UI前端注入新活力：实现产品设计的沉浸式体验 ui设计前端开发老司机 ui
hello宝子们...我们是艾斯视觉擅长ui设计、前端开发、数字孪生、大数据、三维建模、三维动画10年+经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩!一、引言：从“平面交互”到“沉浸体验”的UI革命当用户在电商APP中翻看3D家具模型却无法感知其与自家客厅的匹配度，当设计师在2D屏幕上绘制汽车内饰却难以预判实际乘坐体验——传统UI设计的“平面化、静态化、割裂感”
seaborn又一个扩展heatmapz qq_21478261 #Python可视化 matplotlib
推荐阅读：Pythonmatplotlib保姆级教程嫌Matplotlib繁琐？试试Seaborn！
NGS测序基础梳理01-文库构建（Library Preparation） qq_21478261 #生物信息生物学
本文介绍Illumina测序平台文库构建（LibraryPreparation）步骤，文库结构。写作时间：2020.05。推荐阅读：10W字《Python可视化教程1.0》来了！一份由公众号「pythonic生物人」精心制作的PythonMatplotlib可视化系统教程，105页PDFhttps://mp.weixin.qq.com/s/QaSmucuVsS_DR-klfpE3-Q10W字《Rg
Python 常用内置函数详解（七）：dir()函数——获取当前本地作用域中的名称列表或对象的有效属性列表
目录一、功能二、语法和示例一、功能dir()函数获取当前本地作用域中的名称列表或对象的有效属性列表。二、语法和示例dir()函数有两种形式，如果没有实参，则返回当前本地作用域中的名称列表。如果有实参，它会尝试返回该对象的有效属性列表。如果对象有一个名为__dir__()的方法，那么该方法将被调用，并且必须返回一个属性列表。dir()函数的语法格式如下：C:\Users\amoxiang>ipyth
pythonjson中list操作_Python json.dumps 特殊数据类型的自定义序列化操作
场景描述：Python标准库中的json模块，集成了将数据序列化处理的功能；在使用json.dumps()方法序列化数据时候，如果目标数据中存在datetime数据类型，执行操作时，会抛出异常：TypeError:datetime.datetime(2016,12,10,11,04,21)isnotJSONserializable那么遇到json.dumps序列化不支持的数据类型，该怎么办！首先，
Python 日期格式转json.dumps的解决方法 douyaoxin python json 开发语言
classDateEncoder(json.JSONEncoder):defdefault(self,obj):ifisinstance(obj,datetime.datetime):returnobj.strftime('%Y-%m-%d%H:%M:%S')elifisinstance(obj,datetime.date):returnobj.strftime("%Y-%m-%d")json.d
Python 爬虫实战：视频平台播放量实时监控（含反爬对抗与数据趋势预测）西攻城狮北 python 爬虫音视频
一、引言在数字内容蓬勃发展的当下，视频平台的播放量数据已成为内容创作者、营销人员以及行业分析师手中极为关键的情报资源。它不仅能够实时反映内容的受欢迎程度，更能在竞争分析、营销策略制定以及内容优化等方面发挥不可估量的作用。然而，视频平台为了保护自身数据和用户隐私，往往会设置一系列反爬虫机制，对数据爬取行为进行限制。这就向我们发起了挑战：如何巧妙地突破这些限制，同时精准地捕捉并预测播放量的动态变化趋势
Python技能手册 - 模块module 金色牛神 Python python windows 开发语言
系列Python常用技能手册-基础语法Python常用技能手册-模块modulePython常用技能手册-包package目录module模块指什么typing数据类型int整数float浮点数str字符串bool布尔值TypeVar类型变量functools高阶函数工具functools.partial()函数偏置functools.lru_cache()函数缓存sorted排序列表排序元组排序
Ubuntu基础（Python虚拟环境和Vue） aaiier ubuntu python linux
Python虚拟环境sudoaptinstallpython3python3-venv进入项目目录cdXXX创建虚拟环境python3-mvenvvenv激活虚拟环境sourcevenv/bin/activate退出虚拟环境deactivateVue安装Node.js和npm#安装Node.js和npm（Ubuntu默认仓库可能版本较旧，适合入门）sudoaptinstallnodejsnpm#验
苦练Python第9天：if-else分支九剑 python后端前端人工智能
苦练Python第9天：if-else分支九剑前言大家好，我是倔强青铜三。是一名热情的软件工程师，我热衷于分享和传播IT技术，致力于通过我的知识和技能推动技术交流与创新，欢迎关注我，微信公众号：倔强青铜三。欢迎点赞、收藏、关注，一键三连！！！欢迎来到100天Python挑战第9天！今天我们不练循环，改磨“分支剑法”——ifelse三式：单分支、双分支、多分支，以及嵌套和三元运算符，全部实战演练，让
苦练Python第8天：while 循环之妙用 python后端前端人工智能
苦练Python第8天：while循环之妙用原文链接：https://dev.to/therahul_gupta/day-9100-while-loops-with-real-world-examples-528f作者：RahulGupta译者：倔强青铜三前言大家好，我是倔强青铜三。是一名热情的软件工程师，我热衷于分享和传播IT技术，致力于通过我的知识和技能推动技术交流与创新，欢迎关注我，微信公众
开发者关心的那些事圣子足道 ios 游戏编程 apple 支付
我要在app里添加IAP，必须要注册自己的产品标识符（product identifiers）。产品标识符是什么？产品标识符（Product Identifiers）是一串字符串，它用来识别你在应用内贩卖的每件商品。App Store用产品标识符来检索产品信息，标识符只能包含大小写字母（A-Z）、数字（0-9）、下划线（-）、以及圆点(.)。你可以任意排列这些元素，但我们建议你创建标识符时使用
负载均衡器技术Nginx和F5的优缺点对比 bijian1013 nginx F5
对于数据流量过大的网络中，往往单一设备无法承担，需要多台设备进行数据分流，而负载均衡器就是用来将数据分流到多台设备的一个转发器。目前有许多不同的负载均衡技术用以满足不同的应用需求，如软/硬件负载均衡、本地/全局负载均衡、更高
LeetCode[Math] - #9 Palindrome Number Cwind java Algorithm 题解 LeetCode Math
原题链接：#9 Palindrome Number 要求：判断一个整数是否是回文数，不要使用额外的存储空间难度：简单分析：题目限制不允许使用额外的存储空间应指不允许使用O(n)的内存空间，O(1)的内存用于存储中间结果是可以接受的。于是考虑将该整型数反转，然后与原数字进行比较。注：没有看到有关负数是否可以是回文数的明确结论，例如
画图板的基本实现 15700786134 画图板
要实现画图板的基本功能，除了在qq登陆界面中用到的组件和方法外，还需要添加鼠标监听器，和接口实现。首先，需要显示一个JFrame界面： public class DrameFrame extends JFrame { //显示
linux的ps命令被触发 linux
Linux中的ps命令是Process Status的缩写。ps命令用来列出系统中当前运行的那些进程。ps命令列出的是当前那些进程的快照，就是执行ps命令的那个时刻的那些进程，如果想要动态的显示进程信息，就可以使用top命令。要对进程进行监测和控制，首先必须要了解当前进程的情况，也就是需要查看当前进程，而 ps 命令就是最基本同时也是非常强大的进程查看命令。使用该命令可以确定有哪些进程正在运行
Android 音乐播放器下一曲连续跳几首歌肆无忌惮_ android
最近在写安卓音乐播放器的时候遇到个问题。在MediaPlayer播放结束时会回调 player.setOnCompletionListener(new OnCompletionListener() { @Override public void onCompletion(MediaPlayer mp) { mp.reset(); Log.i("H
java导出txt文件的例子知了ing java servlet
代码很简单就一个servlet,如下： package com.eastcom.servlet; import java.io.BufferedOutputStream; import java.io.IOException; import java.net.URLEncoder; import java.sql.Connection; import java.sql.Resu
Scala stack试玩, 提高第三方依赖下载速度矮蛋蛋 scala sbt
原文地址： http://segmentfault.com/a/1190000002894524 sbt下载速度实在是惨不忍睹, 需要做些配置优化下载typesafe离线包, 保存为ivy本地库 wget http://downloads.typesafe.com/typesafe-activator/1.3.4/typesafe-activator-1.3.4.zip 解压r
phantomjs安装(linux，附带环境变量设置) ，以及casperjs安装。 alleni123 linux spider
1. 首先从官网 http://phantomjs.org/下载phantomjs压缩包，解压缩到/root/phantomjs文件夹。 2. 安装依赖 sudo yum install fontconfig freetype libfreetype.so.6 libfontconfig.so.1 libstdc++.so.6 3. 配置环境变量 vi /etc/profil
JAVA IO FileInputStream和FileOutputStream，字节流的打包输出百合不是茶 java核心思想 JAVA IO操作字节流
在程序设计语言中，数据的保存是基本，如果某程序语言不能保存数据那么该语言是不可能存在的，JAVA是当今最流行的面向对象设计语言之一，在保存数据中也有自己独特的一面，字节流和字符流 1，字节流是由字节构成的，字符流是由字符构成的字节流和字符流都是继承的InputStream和OutPutStream ,java中两种最基本的就是字节流和字符流类 FileInputStream
Spring基础实例（依赖注入和控制反转） bijian1013 spring
前提条件：在http://www.springsource.org/download网站上下载Spring框架，并将spring.jar、log4j-1.2.15.jar、commons-logging.jar加载至工程1.武器接口 package com.bijian.spring.base3; public interface Weapon { void kil
HR看重的十大技能 bijian1013 提升能力 HR 成长
一个人掌握何种技能取决于他的兴趣、能力和聪明程度，也取决于他所能支配的资源以及制定的事业目标，拥有过硬技能的人有更多的工作机会。但是，由于经济发展前景不确定，掌握对你的事业有所帮助的技能显得尤为重要。以下是最受雇主欢迎的十种技能。　　一、解决问题的能力　　每天，我们都要在生活和工作中解决一些综合性的问题。那些能够发现问题、解决问题并迅速作出有效决
【Thrift一】Thrift编译安装 bit1129 thrift
什么是Thrift The Apache Thrift software framework, for scalable cross-language services development, combines a software stack with a code generation engine to build services that work efficiently and s
【Avro三】Hadoop MapReduce读写Avro文件 bit1129 mapreduce
Avro是Doug Cutting(此人绝对是神一般的存在）牵头开发的。开发之初就是围绕着完善Hadoop生态系统的数据处理而开展的（使用Avro作为Hadoop MapReduce需要处理数据序列化和反序列化的场景）,因此Hadoop MapReduce集成Avro也就是自然而然的事情。这个例子是一个简单的Hadoop MapReduce读取Avro格式的源文件进行计数统计，然后将计算结果
nginx定制500，502，503，504页面 ronin47 nginx　错误显示
server { listen 80; error_page 500/500.html; error_page 502/502.html; error_page 503/503.html; error_page 504/504.html; location /test {return502;}} 配置很简单，和配
java-1.二叉查找树转为双向链表 bylijinnan 二叉查找树
import java.util.ArrayList; import java.util.List; public class BSTreeToLinkedList { /* 把二元查找树转变成排序的双向链表题目：输入一棵二元查找树，将该二元查找树转换成一个排序的双向链表。要求不能创建任何新的结点，只调整指针的指向。 10 / \ 6 14 / \
Netty源码学习-HTTP-tunnel bylijinnan java netty
Netty关于HTTP tunnel的说明： http://docs.jboss.org/netty/3.2/api/org/jboss/netty/channel/socket/http/package-summary.html#package_description 这个说明有点太简略了一个完整的例子在这里： https://github.com/bylijinnan
JSONUtil.serialize(map)和JSON.toJSONString(map)的区别 coder_xpf jquery json map val()
JSONUtil.serialize(map)和JSON.toJSONString(map)的区别数据库查询出来的map有一个字段为空通过System.out.println()输出 JSONUtil.serialize(map)： {"one":"1","two":"nul
Hibernate缓存总结 cuishikuan 开源 ssh javaweb hibernate缓存三大框架
一、为什么要用Hibernate缓存？ Hibernate是一个持久层框架，经常访问物理数据库。为了降低应用程序对物理数据源访问的频次，从而提高应用程序的运行性能。缓存内的数据是对物理数据源中的数据的复制，应用程序在运行时从缓存读写数据，在特定的时刻或事件会同步缓存和物理数据源的数据。二、Hibernate缓存原理是怎样的？ Hibernate缓存包括两大类：Hib
CentOs6 dalan_123 centos
首先su - 切换到root下面1、首先要先安装GCC GCC-C++ Openssl等以来模块：yum -y install make gcc gcc-c++ kernel-devel m4 ncurses-devel openssl-devel2、再安装ncurses模块yum -y install ncurses-develyum install ncurses-devel3、下载Erang
10款用 jquery 实现滚动条至页面底端自动加载数据效果 dcj3sjt126com JavaScript
无限滚动自动翻页可以说是web2.0时代的一项堪称伟大的技术，它让我们在浏览页面的时候只需要把滚动条拉到网页底部就能自动显示下一页的结果，改变了一直以来只能通过点击下一页来翻页这种常规做法。无限滚动自动翻页技术的鼻祖是微博的先驱：推特(twitter)，后来必应图片搜索、谷歌图片搜索、google reader、箱包批发网等纷纷抄袭了这一项技术，于是靠滚动浏览器滚动条
ImageButton去边框&Button或者ImageButton的背景透明 dcj3sjt126com imagebutton
在ImageButton中载入图片后，很多人会觉得有图片周围的白边会影响到美观，其实解决这个问题有两种方法一种方法是将ImageButton的背景改为所需要的图片。如：android:background="@drawable/XXX" 第二种方法就是将ImageButton背景改为透明，这个方法更常用在XML里； <ImageBut
JSP之c:foreach eksliang jsp forearch
原文出自：http://www.cnblogs.com/draem0507/archive/2012/09/24/2699745.html <c:forEach>标签用于通用数据循环，它有以下属性属性描述是否必须缺省值 items 进行循环的项目否无 begin 开始条件否 0 end 结束条件否集合中的最后一个项目 step 步长否 1
Android实现主动连接蓝牙耳机 gqdy365 android
在Android程序中可以实现自动扫描蓝牙、配对蓝牙、建立数据通道。蓝牙分不同类型，这篇文字只讨论如何与蓝牙耳机连接。大致可以分三步：一、扫描蓝牙设备： 1、注册并监听广播： BluetoothAdapter.ACTION_DISCOVERY_STARTED BluetoothDevice.ACTION_FOUND BluetoothAdapter.ACTION_DIS
android学习轨迹之四：org.json.JSONException: No value for hyz301 json
org.json.JSONException: No value for items 在JSON解析中会遇到一种错误，很常见的错误 06-21 12:19:08.714 2098-2127/com.jikexueyuan.secret I/System.out﹕ Result:{"status":1,"page":1,&
干货分享：从零开始学编程系列汇总 justjavac 编程
程序员总爱重新发明轮子，于是做了要给轮子汇总。从零开始写个编译器吧系列 (知乎专栏) 从零开始写一个简单的操作系统 (伯乐在线) 从零开始写JavaScript框架 (图灵社区) 从零开始写jQuery框架 (蓝色理想 ) 从零开始nodejs系列文章 (粉丝日志) 从零开始编写网络游戏
jquery-autocomplete 使用手册 macroli jquery Ajax 脚本
jquery-autocomplete学习一、用前必备官方网站：http://bassistance.de/jquery-plugins/jquery-plugin-autocomplete/ 当前版本：1.1 需要JQuery版本：1.2.6 二、使用 <script src="./jquery-1.3.2.js" type="text/ja
PLSQL-Developer或者Navicat等工具连接远程oracle数据库的详细配置以及数据库编码的修改超声波 oracle plsql
　　在服务器上将Oracle安装好之后接下来要做的就是通过本地机器来远程连接服务器端的oracle数据库，常用的客户端连接工具就是PLSQL-Developer或者Navicat这些工具了。刚开始也是各种报错，什么TNS:no listener;TNS:lost connection;TNS:target hosts...花了一天的时间终于让PLSQL-Developer和Navicat等这些客户
数据仓库数据模型之：极限存储--历史拉链表 superlxw1234 极限存储数据仓库数据模型拉链历史表
在数据仓库的数据模型设计过程中，经常会遇到这样的需求： 1. 数据量比较大; 2. 表中的部分字段会被update,如用户的地址，产品的描述信息，订单的状态等等; 3. 需要查看某一个时间点或者时间段的历史快照信息，比如，查看某一个订单在历史某一个时间点的状态，比如，查看某一个用户在过去某一段时间内，更新过几次等等; 4. 变化的比例和频率不是很大，比如，总共有10
10点睛Spring MVC4.1-全局异常处理 wiselyman spring mvc
10.1 全局异常处理使用@ControllerAdvice注解来实现全局异常处理; 使用@ControllerAdvice的属性缩小处理范围 10.2 演示演示控制器 package com.wisely.web; import org.springframework.stereotype.Controller; import org.spring

Airflow ETL任务调度工具 介绍

前言