生信宝典

Airflow使用入门指南

Airflow能做什么

关注公众号，查看更多 http://mp.weixin.qq.com/s/xPjXMc_6ssHt16J07BC7jA

Airflow是一个工作流分配管理系统，通过有向非循环图的方式管理任务流程，设置任务依赖关系和时间调度。

Airflow独立于我们要运行的任务，只需要把任务的名字和运行方式提供给Airflow作为一个task就可以。

安装和使用

最简单安装

在Linux终端运行如下命令 (需要已安装好python2.x和pip)：

pip install airflow
pip install "airflow[crypto, password]"

安装成功之后，执行下面三步，就可以使用了。默认是使用的SequentialExecutor, 只能顺次执行任务。

初始化数据库 airflow initdb [必须的步骤]
启动web服务器 airflow webserver -p 8080 [方便可视化管理dag]
启动任务 airflow scheduler [scheduler启动后，DAG目录下的dags就会根据设定的时间定时启动]
此外我们还可以直接测试单个DAG，如测试文章末尾的DAG airflow test ct1 print_date 2016-05-14

最新版本的Airflow可从https://github.com/apache/incubator-airflow下载获得，解压缩按照安装python包的方式安装。

配置 `mysql`以启用`LocalExecutor`和`CeleryExecutor`

安装mysql数据库支持

yum install mysql mysql-server
pip install airflow[mysql]

设置mysql根用户的密码

ct@server:~/airflow: mysql -uroot #以root身份登录mysql，默认无密码
mysql> SET PASSWORD=PASSWORD("passwd");
mysql> FLUSH PRIVILEGES; 

# 注意sql语句末尾的分号

新建用户和数据库


# 新建名字为的数据库

mysql> CREATE DATABASE airflow; 

# 新建用户`ct`，密码为`152108`, 该用户对数据库`airflow`有完全操作权限


mysql> GRANT all privileges on airflow.* TO 'ct'@'localhost'  IDENTIFIED BY '152108'; 
mysql> FLUSH PRIVILEGES;

修改airflow配置文件支持mysql

airflow.cfg 文件通常在~/airflow目录下

更改数据库链接

sql_alchemy_conn = mysql://ct:152108@localhost/airflow
对应字段解释如下： dialect+driver://username:password@host:port/database

初始化数据库 airflow initdb

初始化数据库成功后，可进入mysql查看新生成的数据表。

ct@server:~/airflow: mysql -uct -p152108
mysql> USE airflow;
mysql> SHOW TABLES;
+-------------------+
| Tables_in_airflow |
+-------------------+
| alembic_version   |
| chart             |
| connection        |
| dag               |
| dag_pickle        |
| dag_run           |
| import_error      |
| job               |
| known_event       |
| known_event_type  |
| log               |
| sla_miss          |
| slot_pool         |
| task_instance     |
| users             |
| variable          |
| xcom              |
+-------------------+
17 rows in set (0.00 sec)

centos7中使用mariadb取代了mysql, 但所有命令的执行相同

yum install mariadb mariadb-server
systemctl start mariadb ==> 启动mariadb
systemctl enable mariadb ==> 开机自启动
mysql_secure_installation ==> 设置 root密码等相关
mysql -uroot -p123456 ==> 测试登录！

配置LocalExecutor

注：作为测试使用，此步可以跳过, 最后的生产环境用的是CeleryExecutor; 若CeleryExecutor配置不方便，也可使用LocalExecutor。

前面数据库已经配置好了，所以如果想使用LocalExecutor就只需要修改airflow配置文件就可以了。airflow.cfg 文件通常在~/airflow目录下，打开更改executor为 executor = LocalExecutor即完成了配置。

把文后TASK部分的dag文件拷贝几个到~/airflow/dags目录下，顺次执行下面的命令，然后打开网址http://127.0.0.1:8080就可以实时侦测任务动态了：

ct@server:~/airflow: airflow initdb` (若前面执行过，就跳过)
ct@server:~/airflow: airflow webserver --debug &
ct@server:~/airflow: airflow scheduler

配置CeleryExecutor (rabbitmq支持)

安装airflow的celery和rabbitmq组件

pip install airflow[celery]
pip install airflow[rabbitmq]

安装erlang和rabbitmq

如果能直接使用yum或apt-get安装则万事大吉。
我使用的CentOS6则不能，需要如下一番折腾，


# (Centos6,[REF](http://www.rabbitmq.com/install-rpm.html))

wget https://packages.erlang-solutions.com/erlang/esl-erlang/FLAVOUR_1_general/esl-erlang_18.3-1~centos~6_amd64.rpm
yum install esl-erlang_18.3-1~centos~6_amd64.rpm
wget https://github.com/jasonmcintosh/esl-erlang-compat/releases/download/1.1.1/esl-erlang-compat-18.1-1.noarch.rpm
yum install esl-erlang-compat-18.1-1.noarch.rpm
wget http://www.rabbitmq.com/releases/rabbitmq-server/v3.6.1/rabbitmq-server-3.6.1-1.noarch.rpm
yum install rabbitmq-server-3.6.1-1.noarch.rpm

配置rabbitmq

启动rabbitmq: rabbitmq-server -detached
开机启动rabbitmq: chkconfig rabbitmq-server on

配置rabbitmq (REF)

rabbitmqctl add_user ct 152108
rabbitmqctl add_vhost ct_airflow
rabbitmqctl set_user_tags ct airflow
rabbitmqctl set_permissions -p ct_airflow ct ".*" ".*" ".*"
rabbitmq-plugins enable rabbitmq_management # no usage

修改airflow配置文件支持Celery

airflow.cfg 文件通常在~/airflow目录下
更改executor为 executor = CeleryExecutor

更改broker_url

broker_url = amqp://ct:152108@localhost:5672/ct_airflow
Format explanation: transport://userid:password@hostname:port/virtual_host

更改celery_result_backend,


# 可以与broker_url相同

celery_result_backend = amqp://ct:152108@localhost:5672/ct_airflow
Format explanation: transport://userid:password@hostname:port/virtual_host

测试
- 启动服务器：airflow webserver --debug
- 启动celery worker (不能用根用户)：airflow worker
- 启动scheduler: airflow scheduler
- 提示：
  - 测试过程中注意观察运行上面3个命令的3个窗口输出的日志
  - 当遇到不符合常理的情况时考虑清空 airflow backend的数据库, 可使用airflow resetdb清空。
  - 删除dag文件后，webserver中可能还会存在相应信息，这时需要重启webserver并刷新网页。
  - 关闭webserver: ps -ef|grep -Ei '(airflow-webserver)'| grep master | awk '{print $2}'|xargs -i kill {}

一个脚本控制airflow系统的启动和重启

#!/bin/bash

#set -x
#set -e
set -u

usage()
{
cat <${txtcyn}
Usage:

$0 options${txtrst}

${bldblu}Function${txtrst}:

This script is used to start or restart webserver service.

${txtbld}OPTIONS${txtrst}:
    -S  Start airflow system [${bldred}Default FALSE${txtrst}]
    -s  Restart airflow server only [${bldred}Default FALSE${txtrst}]
    -a  Restart all airflow programs including webserver, worker and
        scheduler. [${bldred}Default FALSE${txtrst}]
EOF
}

start_all=
server_only=
all=

while getopts "hs:S:a:" OPTION
do
    case $OPTION in
        h)
            usage
            exit 1
            ;;
        S)
            start_all=$OPTARG
            ;;
        s)
            server_only=$OPTARG
            ;;
        a)
            all=$OPTARG
            ;;
        ?)
            usage
            exit 1
            ;;
    esac
done

if [ -z "$server_only" ] && [ -z "$all" ] && [ -z "${start_all}" ]; then
    usage
    exit 1
fi

if [ "$server_only" == "TRUE" ]; then
    ps -ef | grep -Ei '(airflow-webserver)' | grep master | \
        awk '{print $2}' | xargs -i kill {}
    cd ~/airflow/
    nohup airflow webserver >webserver.log 2>&1 &
fi

if [ "$all" == "TRUE" ]; then
    ps -ef | grep -Ei 'airflow' | grep -v 'grep' | awk '{print $2}' | xargs -i kill {}
    cd ~/airflow/
    nohup airflow webserver >>webserver.log 2>&1 &
    nohup airflow worker >>worker.log 2>&1 &
    nohup airflow scheduler >>scheduler.log 2>&1 &
fi


if [ "${start_all}" == "TRUE" ]; then
    cd ~/airflow/
    nohup airflow webserver >>webserver.log 2>&1 &
    nohup airflow worker >>worker.log 2>&1 &
    nohup airflow scheduler >>scheduler.log 2>&1 &
fi

airflow.cfg 其它配置

dags_folder

dags_folder目录支持子目录和软连接，因此不同的dag可以分门别类的存储起来。

设置邮件发送服务

smtp_host = smtp.163.com
smtp_starttls = True
smtp_ssl = False
smtp_user = username@163.com
smtp_port = 25
smtp_password = userpasswd
smtp_mail_from = username@163.com

多用户登录设置 (似乎只有CeleryExecutor支持)

修改airflow.cfg中的下面3行配置

authenticate = True
auth_backend = airflow.contrib.auth.backends.password_auth
filter_by_owner = True

增加一个用户(在airflow所在服务器的python下运行)

import airflow
from airflow import models,   settings
from airflow.contrib.auth.backends.password_auth import PasswordUser
user = PasswordUser(models.User())
user.username = 'ehbio'
user.email = '[email protected]'
user.password = 'ehbio'
session = settings.Session()
session.add(user)
session.commit()
session.close()
exit()

TASK

参数解释
- depends_on_past
  
  Airflow assumes idempotent tasks that operate on immutable data
  chunks. It also assumes that all task instance (each task for each
  schedule) needs to run.
  
  If your tasks need to be executed sequentially, you need to
  tell Airflow: use the depends_on_past=True flag on the tasks
  that require sequential execution.)
  
  如果在TASK本该运行却没有运行时，或者设置的interval为@once时，推荐使用depends_on_past=False。我在运行dag时，有时会出现，明明上游任务已经运行结束，下游任务却没有启动，整个dag就卡住了。这时设置depends_on_past=False可以解决这类问题。
- timestamp in format like 2016-01-01T00:03:00
- Task中调用的命令出错后需要在网站Graph view中点击run手动重启。
  为了方便任务修改后的顺利运行，有个折衷的方法是：
  - 设置 email_on_retry: True
  - 设置较长的retry_delay，方便在收到邮件后，能有时间做出处理
  - 然后再修改为较短的retry_delay，方便快速启动
写完task DAG后，一定记得先检测下有无语法错误 python dag.py

测试文件1：ct1.py

from airflow import DAG
from airflow.operators import BashOperator, MySqlOperator

from datetime import datetime, timedelta

one_min_ago = datetime.combine(datetime.today() -
timedelta(minutes=1), datetime.min.time())

default_args = {
  'owner': 'airflow',         

  #为了测试方便，起始时间一般为当前时间减去schedule_interval
  'start_date': datatime(2016, 5, 29, 8, 30), 
  'email': ['[email protected]'],
  'email_on_failure': False, 
  'email_on_retry': False, 
  'depends_on_past': False, 
  'retries': 1, 
  'retry_delay': timedelta(minutes=5), 
  #'queue': 'bash_queue',
  #'pool': 'backfill', 
  #'priority_weight': 10, 
  #'end_date': datetime(2016, 5, 29, 11, 30), 
}


# DAG id 'ct1'必须在airflow中是unique的, 一般与文件名相同


# 多个用户时可加用户名做标记

dag = DAG('ct1', default_args=default_args,
  schedule_interval="@once")

t1 = BashOperator(
  task_id='print_date', 
  bash_command='date', 
  dag=dag)


#cmd = "/home/test/test.bash " 注意末尾的空格

t2 = BashOperator(
  task_id='echo', 
  bash_command='echo "test" ', 
  retries=3, 
  dag=dag)

templated_command = """
  {% for i in range(2) %}
      echo "{{ ds }}" 
      echo "{{ macros.ds_add(ds, 7) }}"
      echo "{{ params.my_param }}"
  {% endfor %}
"""
t3 = BashOperator(
  task_id='templated', 
  bash_command=templated_command, 
  params={'my_param': "Parameter I passed in"}, 
  dag=dag)


# This means that t2 will depend on t1 running successfully to run


# It is equivalent to t1.set_downstream(t2)

t2.set_upstream(t1)

t3.set_upstream(t1)


# all of this is equivalent to


# dag.set_dependency('print_date', 'sleep')


# dag.set_dependency('print_date', 'templated')

测试文件2: ct2.py

from airflow import DAG
from airflow.operators import BashOperator

from datetime import datetime, timedelta

one_min_ago = datetime.combine(datetime.today() - timedelta(minutes=1),
                                datetime.min.time())

default_args = {
  'owner': 'airflow',         
  'depends_on_past': True, 
  'start_date': one_min_ago,
  'email': ['[email protected]'],
  'email_on_failure': True, 
  'email_on_retry': True, 
  'retries': 5, 
  'retry_delay': timedelta(hours=30), 
  #'queue': 'bash_queue',
  #'pool': 'backfill', 
  #'priority_weight': 10, 
  #'end_date': datetime(2016, 5, 29, 11, 30), 
}

dag = DAG('ct2', default_args=default_args,
  schedule_interval="@once")

t1 = BashOperator(
  task_id='run1', 
  bash_command='(cd /home/ct/test; bash run1.sh -f ct_t1) ', 
  dag=dag)

t2 = BashOperator(
  task_id='run2', 
  bash_command='(cd /home/ct/test; bash run2.sh -f ct_t1) ', 
  dag=dag)

t2.set_upstream(t1)

run1.sh


#!/bin/bash



#set -x

set -e
set -u

usage()
{
cat <${txtcyn}
Usage:

$0 options${txtrst}

${bldblu}Function${txtrst}:

This script is used to do ********************.

${txtbld}OPTIONS${txtrst}:
-f  Data file ${bldred}[NECESSARY]${txtrst}
-z  Is there a header[${bldred}Default TRUE${txtrst}]
EOF
}

file=
header='TRUE'

while getopts "hf:z:" OPTION
do
case $OPTION in
    h)
        usage
        exit 1
        ;;
    f)
        file=$OPTARG
        ;;
    z)
        header=$OPTARG
        ;;
    ?)
        usage
        exit 1
        ;;
esac
done

if [ -z $file ]; then
usage
exit 1
fi

cat <$file
A
B
C
D
E
F
G
END

sleep 20s

run2.sh


#!/bin/bash



#set -x

set -e
set -u

usage()
{
cat <${txtcyn}
Usage:

$0 options${txtrst}

${bldblu}Function${txtrst}:

This script is used to do ********************.

${txtbld}OPTIONS${txtrst}:
-f  Data file ${bldred}[NECESSARY]${txtrst}
EOF
}

file=
header='TRUE'

while getopts "hf:z:" OPTION
do
case $OPTION in
    h)
        usage
        exit 1
        ;;
    f)
        file=$OPTARG
        ;;
    ?)
        usage
        exit 1
        ;;
esac
done

if [ -z $file ]; then
usage
exit 1
fi

awk 'BEGIN{OFS=FS="\t"}{print $0, "53"}' $file >${file}.out

其它问题

The DagRun object has room for a conf parameter that gets exposed
in the “context” (templates, operators, …). That is the place
where you would associate parameters to a specific run. For now this
is only possible in the context of an externally triggered DAG run.
The way the TriggerDagRunOperator works, you can fill in the conf
param during the execution of the callable that you pass to the
operator.

If you are looking to change the shape of your DAG through parameters,
we recommend doing that using “singleton” DAGs (using a “@once”
schedule_interval), meaning that you would write a
Python program that generates multiple dag_ids, one of each run,
probably based on metadata stored in a config file or elsewhere.

The idea is that if you use parameters to alter the shape of your
DAG, you break some of the assumptions around continuity of the
schedule. Things like visualizing the tree view or how to perform a
backfill becomes unclear and mushy. So if the shape of your DAG
changes radically based on parameters, we consider those to be
different DAGs, and you generate each one in your pipeline file.

完全删掉某个DAG的信息

set @dag_id = 'BAD_DAG';
delete from airflow.xcom where dag_id = @dag_id;
delete from airflow.task_instance where dag_id = @dag_id;
delete from airflow.sla_miss where dag_id = @dag_id;
delete from airflow.log where dag_id = @dag_id;
delete from airflow.job where dag_id = @dag_id;
delete from airflow.dag_run where dag_id = @dag_id;
delete from airflow.dag where dag_id = @dag_id;

supervisord自动管理进程

[program:airflow_webserver]
command=/usr/local/bin/python2.7 /usr/local/bin/airflow webserver
user=airflow
environment=AIRFLOW_HOME="/home/airflow/airflow", PATH="/usr/local/bin:%(ENV_PATH)s"
stderr_logfile=/var/log/airflow-webserver.err.log
stdout_logfile=/var/log/airflow-webserver.out.log

[program:airflow_worker]
command=/usr/local/bin/python2.7 /usr/local/bin/airflow worker
user=airflow
environment=AIRFLOW_HOME="/home/airflow/airflow", PATH="/usr/local/bin:%(ENV_PATH)s"
stderr_logfile=/var/log/airflow-worker.err.log
stdout_logfile=/var/log/airflow-worker.out.log

[program:airflow_scheduler]
command=/usr/local/bin/python2.7 /usr/local/bin/airflow scheduler
user=airflow
environment=AIRFLOW_HOME="/home/airflow/airflow", PATH="/usr/local/bin:%(ENV_PATH)s"
stderr_logfile=/var/log/airflow-scheduler.err.log
stdout_logfile=/var/log/airflow-scheduler.out.log

在特定情况下，修改DAG后，为了避免当前日期之前任务的运行，可以使用backfill填补特定时间段的任务
- airflow backfill -s START -e END --mark_success DAG_ID

端口转发

之前的配置都是在内网服务器进行的，但内网服务器只开放了SSH端口22,因此
我尝试在另外一台电脑上使用相同的配置，然后设置端口转发，把外网服务器
的rabbitmq的5672端口映射到内网服务器的对应端口，然后启动airflow连接
。
- ssh -v -4 -NF -R 5672:127.0.0.1:5672 aliyun
- 上一条命令表示的格式为
  
  ssh -R ::
  
  local port表示hostname的port
  
  Remote connections from LOCALHOST:5672 forwarded to local address 127.0.0.1:5672
- -v: 在测试时打开
- -4: 出现错误”bind: Cannot assign requested address”时，force the
  ssh client to use ipv4
- 若出现”Warning: remote port forwarding failed for listen port 52698”
  ，关掉其它的ssh tunnel。

不同机器使用airflow

在外网服务器（用做任务分发服务器）配置与内网服务器相同的airflow模块
使用前述的端口转发以便外网服务器绕过内网服务器的防火墙访问rabbitmq 5672端口。
在外网服务器启动 airflow webserver scheduler, 在内网服务器启动
airflow worker 发现任务执行状态丢失。继续学习Celery，以解决此问题。

安装redis (最后没用到)

http://download.redis.io/releases/redis-3.2.0.tar.gz
tar xvzf redis-3.2.0.tar.gz and make
redis-server启动redis
使用ps -ef | grep 'redis'检测后台进程是否存在
检测6379端口是否在监听netstat -lntp | grep 6379

任务未按预期运行可能的原因

检查 start_date 和end_date是否在合适的时间范围内
检查 airflow worker, airflow scheduler和
airflow webserver --debug的输出，有没有某个任务运行异常
检查airflow配置路径中logs文件夹下的日志输出
若以上都没有问题，则考虑数据冲突，解决方式包括清空数据库或着给当前
dag一个新的dag_id

References

https://pythonhosted.org/airflow/
http://kintoki.farbox.com/post/ji-chu-zhi-shi/airflow
http://www.jianshu.com/p/59d69981658a
http://bytepawn.com/luigi-airflow-pinball.html
https://github.com/airbnb/airflow
https://media.readthedocs.org/pdf/airflow/latest/airflow.pdf
http://www.csdn.net/article/1970-01-01/2825690
http://www.cnblogs.com/harrychinese/p/airflow.html
https://segmentfault.com/a/1190000005078547

声明

文章原写于http://blog.genesino.com/2016/05/airflow/。转载请注明出处。

你可能感兴趣的:(python,workflow,airflow,airflow)

python程序发钉钉消息乌11111 python
参考：使用python通过接口方式发送钉钉消息分两步：1.在钉钉群---智能群助手里添加机器人，拿到webhook链接，设置关键词。2.写python代码，用requests请求接口的方式。参考代码和实现结果如下。#python发钉钉消息importjson,requestsdefsendDing(msg):dingding_url='https://oapi.dingtalk.com/robot
Python支持向量机（SVM）算法：面向对象的实现与案例详解闲人编程进阶算法案例支持向量机算法 python 深度学习数据分析
目录Python支持向量机（SVM）算法：面向对象的实现与案例详解引言一、支持向量机算法概述1.1支持向量机的基本思想1.2SVM的分类问题1.3SVM的优化目标二、面向对象的SVM实现2.1类的设计2.2Python代码实现2.3代码详解三、案例分析3.1案例一：鸢尾花分类问题描述数据准备模型训练与预测输出结果3.2案例二：手写数字识别问题描述数据准备模型训练与预测输出结果四、SVM的优化与核方
PEX: Python Executable魔力工具箱史艾岭
PEX:PythonExecutable魔力工具箱pexAtoolforgenerating.pex(PythonEXecutable)files,lockfilesandvenvs.项目地址:https://gitcode.com/gh_mirrors/pe/pex项目基础介绍及主要编程语言PEX（PythonEXecutable）是Pantsbuild团队维护的一个强大开源项目，致力于简化Py
U-Net 生物医学图像分割开源项目介绍祝珺月
U-Net生物医学图像分割开源项目介绍unetU-NetBiomedicalImageSegmentation项目地址:https://gitcode.com/gh_mirrors/une/unet1.项目基础介绍及主要编程语言U-Net是由IntelAI开发的一个生物医学图像分割的开源项目。该项目基于TensorFlow和Keras框架，使用Python语言编写，旨在为医学图像分析提供高效的解决
华为OD机试E卷 - 最大相连男生数/学生方阵（Java & Python& JS & C++ & C ）算法大师最新华为OD机试华为od java python c语言 c++华为OD机试E卷 javascript
最新华为OD机试真题目录：点击查看目录华为OD面试真题精选：点击立即查看题目描述学校组织活动，将学生排成一个矩形方阵。请在矩形方阵中找到最大的位置相连的男生数量。这个相连位置在一个直线上，方向可以是水平的，垂直的，成对角线的或者呈反对角线的。注：学生个数不会超过10000输入描述输入的第一行为矩阵的行数和列数，接下来的n行为矩阵元素，元素间用”,”分隔。输出描述输出一个整数，表示矩阵中最长的位置相
Python实现聊天机器人（基于ChatterBot） Lemonlittle python 开发语言
废话不多说，直接上正题。使用Python中的ChatterBot和Spacy库编写的简单聊天机器人：首先，需要安装ChatterBot和Spacy库，可以使用以下命令：复制插入pipinstallchatterbotpipinstallspacypython-mspacydownloaden_core_web_sm复制插入接下来，我们需要导入所需的库：python复制插入fromchatterbo
python发送钉钉消息，发送个人到工作通知夜语醉星辰 Python python 钉钉开发语言
需求，钉钉消息通知不能发到群里，需要发送到个人。一、钉钉企业后台创建应用1、进入钉钉管理后台，创建应用2、记住ID等应用的信息，在后面需要用到3、设置允许对接的IP，需要公网IP4、设置权限，通讯录权限全选申请二、编写代码，通过手机号发送信息importrequestsimporttkinterastk#第一步：获取access_tokendefget_access_token(app_key,a
Python | 基于支持向量机（SVM）的图像分类案例 python收藏家 python 机器学习 python 机器学习
支持向量机（SVM）是一种监督机器学习算法，可用于分类和回归任务。在本文中，我们将重点关注使用SVM进行图像分类。当计算机处理图像时，它将其视为二维像素阵列。数组的大小对应于图像的分辨率，例如，如果图像是200像素宽和200像素高，则数组的尺寸为200x200x3。前两个维度分别表示图像的宽度和高度，而第三个维度表示RGB颜色通道。数组中的值范围为0到255，表示每个点处像素的强度。为了使用SVM
华为OD机试E卷 --学生方阵--24年OD统一考试（Java & JS & Python & C & C++）飞码创造者最新华为OD机试题库2024 华为od java javascript c语言 python
文章目录题目描述输入描述输出描述用例题目解析JS算法源码Java算法源码python算法源码c算法源码c++算法源码题目描述学校组织活动，将学生排成一个矩形方阵。请在矩形方阵中找到最大的位置相连的男生数量。这个相连位置在一个直线上，方向可以是水平的，垂直的，成对角线的或者呈反对角线的。注:学生个数不会超过10000输入描述输入的第一行为矩阵的行数和列数，接下来的n行为矩阵元素，元素间用”,”分隔。
Flask python 开发篇：蓝图的使用 ignativs amor Python flask python flask 后端
蓝图引言一、为什么使用蓝图？二、蓝图的概念三、创建蓝图四、注册蓝图五、分享我的creat_app方法六、写在最后引言falsk是个轻量级的框架，核心实现简单，但同事可以让开发人员自由的扩展功能。开发中，使用模块导入的方式。一、为什么使用蓝图？将一个应用程序分解为一组蓝图。这对于较大的应用程序是理想的；一个项目可以实例化一个应用程序对象，初始化多个扩展，并注册许多蓝图。-在URL前缀和（或）子域的应
Python生成成绩报告单：从理论到实践 Tech Synapse python 开发语言
在教育信息化日益普及的今天，自动化生成和处理学生成绩报告单已成为学校和教育机构的一项重要任务。Python作为一种功能强大且易于学习的编程语言，非常适合用于这种数据处理和报告生成任务。本文将详细介绍如何使用Python生成成绩报告单，包括理论概述和完整的代码示例。一、理论概述1.数据存储与处理生成成绩报告单的第一步是存储和处理学生成绩数据。常见的数据存储方式包括CSV文件、Excel文件和数据库。
深入解析LangChain框架：使用Python开发LLM应用的全生命周期指南 m0_57781768 langchain python 网络
深入解析LangChain框架：使用Python开发LLM应用的全生命周期指南前言在当前的人工智能浪潮中，大型语言模型（LLM）已成为众多应用的核心。LangChain是一个专为开发大型语言模型应用而设计的框架，它简化了LLM应用的整个生命周期，包括开发、生产化和部署。本文将详细介绍LangChain框架的各个方面，涵盖其核心组件、第三方集成、开发教程、API参考等，并通过实际案例展示如何使用La
Python多继承时子类如何调用指定父类 lingllllove python 开发语言
在Python中，多继承是一种强大的特性，允许一个类同时继承多个父类的属性和方法。然而，当多个父类中存在同名方法时，子类需要明确调用哪个父类的方法。本文将详细介绍如何在多继承情况下，子类调用指定父类的方法。一、多继承的基本概念1.1多继承的定义多继承指一个类可以继承多个父类，获取多个父类的属性和方法。classA:defgreet(self):print("HellofromA")classB:d
python flask 蓝图(Blueprint)详解 ldq_sd python
Blueprint模块化随着flask程序越来越复杂,我们需要对程序进行模块化的处理,针对一个简单的flask程序进行模块化处理举例来说:我们在一个py文件中写入了很多路由,fromflaskimportFlaskapp=Flask(__name__)@app.route('/')defindex():return'index'@app.route('/list')deflist():return
【Numpy核心编程攻略：Python数据处理、分析详解与科学计算】1.4 切片大师：高效操作多维数据的23个技巧精通代码大仙 numpy python numpy python android
1.4切片大师：高效操作多维数据的23个技巧基础切片start:end:step省略写法负索引多维切片高级技巧视图机制布尔索引花式索引动态切片对象1.4切片大师：高效操作多维数据的23个技巧1.4.1切片操作符的完整语法表NumPy数组的切片操作符与标准Python列表的切片操作符类似，但更加强大，支持多维数组的操作。以下是一个完整的切片操作符语法表，包括正负索引的示意图。1.4.1.1一维数组切
一键获取每日股票数据，自动更新，尽在掌握舔狼 A股股票数据 python 金融
用Python和Tushare库获取股票日线数据在金融市场分析中，获取股票的历史数据是进行技术分析和量化投资的基础。Tusharetushare官网是一个提供中国股市数据的API接口，它支持获取股票的日线数据、基本面数据等。本文将介绍如何使用Python语言和Tushare库来获取股票的日线数据，并结合多线程技术提高数据获取的效率。1.环境准备首先，确保你的Python环境中安装了以下库：tush
华为OD机试E卷 --响应报文时间 --24年OD统一考试（Java & JS & Python & C & C++）飞码创造者最新华为OD机试题库2024 华为od java javascript c++c语言 python
文章目录题目描述输入描述输出描述用例题目解析JS算法源码Java算法源码python算法源码c算法源码c++算法源码题目描述IGMP协议中，有一个字段称作最大响应时间(MaxResponseTime),HOST收到查询报文，解折出MaxResponsetime字段后，需要在(0，MaXxResponseTime]时间(s)内选取随机时间回应一个响应报文,如果在随机时间内收到一个新的查询报文，则会根
Python之数据库操作初宸 python mysql python 数据库
Python标准数据库接口为PythonDB-API，PythonDB-API为开发人员提供了数据库应用编程接口。PythonDB-API使用流程：引入API模块获取与数据库的连接执行SQL语句和存储过程关闭数据库连接文章目录MySQLdb创建数据库及表创建数据库：创建数据库表：修改数据库的访问权限（1）修改root的登录限制（2）创建新用户pymysql使用导入pymysql模块连接到数
《Spark大数据分析与内存计算》——第三章阿万古课程作业 spark 数据分析大数据
第三章作业及答案快捷查找：Ctrl+F在搜索框中输入题目一.单选题（共17题）1.(单选题)并不是所有企业都能自己产生数据，从而用于决策辅助，而更多的互联网企业如电商等大部分是要靠什么来抓取互联网数据进行分析A.HadoopB.pythonC.SparkD.网路爬虫正确答案:D:网路爬虫;2.(单选题)什么负责即席查询的应用A.MLlibB.SparkStreamingC.GraphXD.Spar
Python - 安装 Python、pip、virtualenv 伊织产研 #Python python pip 源
文章目录一、PythonUbuntu安装Python问题创建虚拟环境一些使用问题Nomodulenamed'_sqlite3'二、pip（管理第三方库）1、查看pip版本2、安装pip3、升级pip4、卸载pip5、查看已安装的pkg6、第三方库site-packages地址：7、更新8、切换源9、根据requirements.txt安装其它三、virtualenv（管理多个env）1、安装2、查
Python国内镜像源修改教程网友阿贵 Python python 青少年编程 pycharm 后端
知名国企：豆瓣https://pypi.doubanio.com/simple/网易https://mirrors.163.com/pypi/simple/阿里云https://mirrors.aliyun.com/pypi/simple/腾讯云https://mirrors.cloud.tencent.com/pypi/simple————————————————知名高校：清华大学（推荐）：ht
Codeforces Round 971 (Div. 4) ABCD题详细题解(C++,Python) 多思考少编码 Codeforces div3 +div4题解算法 c++python 算法竞赛 codeforces
前言:本文为CodeforcesRound971(Div.4)ABCD题的题解，包含C++,Python语言描述，觉得有帮助或者写的不错可以点个赞比赛打了没一半突然unrated了就不是很想继续写了,早起写个题解(之前的div3也没复盘，哎真菜)目录题A:题目大意和解题思路:代码(C++):代码(Python):题B:题目大意和解题思路:代码(C++):代码(Python):题C:题目大意和解题思
Python酷库之旅-第三方库Pandas(049) 神奇夜光杯 python pandas 开发语言标准库及第三方库人工智能 excel 学习与成长
目录一、用法精讲176、pandas.Series.rank方法176-1、语法176-2、参数176-3、功能176-4、返回值176-5、说明176-6、用法176-6-1、数据准备176-6-2、代码示例176-6-3、结果输出177、pandas.Series.sem方法177-1、语法177-2、参数177-3、功能177-4、返回值177-5、说明177-6、用法177-6-1、数据准
Jupyter Notebook 与 PyTorch 配置教程如若123 jupyter pytorch ide
JupyterNotebook与PyTorch配置教程安装build-essential：sudoaptinstallbuild-essential安装编译软件所需的基本工具。安装Python3.8：sudoaptinstallpython3.8如果未安装Python3.8，执行此命令进行安装。下载Miniconda：wgethttps://repo.anaconda.com/miniconda/
fuadmin jcsx 开源学习 django vue.js
fu-admin-web采用VUE3，TS开发。fu-admin-backend采用Python，Django和Django-Ninija开发。数据库支持MySql，SqlServer，Sqlite。‍‍前端采用VbenAdmin、Vue3、AntDesignVue。后端采用Python语言Django框架以及强大的DjangoNinja。支持加载动态权限菜单，多方式轻松权限控制。Vue2项目移步
scikit-learn安装梁伟静 scikit-learn python
问题：importscikit-learn时遇到如下报错：ImportError:DLLloadfailedwhileimporting_arpack:Thespecifiedprocedurecouldnotbefound.可能原因：python、numpy、scipy和scikit-learn之间的版本出现冲突解决方案：1）卸载numpy、scipy、scikit-learncondaunin
python中函数的定义 xuwentao！！ python
python内部中函数一般定义的方式是：deffunc(a,*args,**kwargs):pass所以在外面调用的时候需要小心的，如果有字典对象传进去需要注意func(a,dict)会报错的，函数会把这个dict当作一个元祖来处理了，但是你想传入字典，所以这里需要解包处理，让函数明白你传入的是一个字典：func(a,**dict)所以在调用函数的时候需要想想是否需要解包处理
paddleseg推理预测文件解析predict.py weightOneMillion 图像分割每天一篇PaddleSeg 学习 python 人工智能
1预测命令格式predict.py脚本是专门用来可视化预测案例的，命令格式如下所示：pythonpredict.py\--configconfigs/quick_start/bisenet_optic_disc_512x512_1k.yml\--model_pathoutput/iter_1000/model.pdparams\--ima
python之函数的定义徐jiankang python基础日常总结 python 开发语言
博主简介：原互联网大厂tencent员工，网安巨头Venustech员工，阿里云开发社区专家博主，微信公众号java基础笔记优质创作者，csdn优质创作博主，创业者，知识共享者,欢迎关注，点赞，收藏。目录一、背景二、函数的定义三、参考四、总结一、背景实际开发过程中，经常会遇到很多完全相同或者非常相似的操作，这时，可以将实现类似操作的代码封装为函数，然后在需要的地方调用该函数。这样不仅可以实现代
深入浅出 Python 函数：编写、使用与高级特性详解田猿笔记 python 开发语言函数
引言在Python编程的世界中，函数堪称构建复杂逻辑和模块化程序的基础砖石。它能够帮助程序员组织代码、避免重复，并通过封装逻辑提高代码的可读性和可维护性。本文旨在全方位解析Python函数的核心概念，包括基础定义、文档化、默认参数、可选参数、解包参数、关键字仅参数、注解、可调用性检查、函数名称获取、匿名函数（lambda表达式）、生成器以及装饰器等多种实用特性。一、函数基础与文档化defexamp
tomcat基础与部署发布暗黑小菠萝 Tomcat java web
从51cto搬家了，以后会更新在这里方便自己查看。做项目一直用tomcat，都是配置到eclipse中使用，这几天有时间整理一下使用心得，有一些自己配置遇到的细节问题。 Tomcat：一个Servlets和JSP页面的容器，以提供网站服务。一、Tomcat安装安装方式：①运行.exe安装包 &n
网站架构发展的过程 ayaoxinchao 数据库应用服务器网站架构
1.初始阶段网站架构：应用程序、数据库、文件等资源在同一个服务器上 2.应用服务和数据服务分离：应用服务器、数据库服务器、文件服务器 3.使用缓存改善网站性能：为应用服务器提供本地缓存，但受限于应用服务器的内存容量，可以使用专门的缓存服务器，提供分布式缓存服务器架构 4.使用应用服务器集群改善网站的并发处理能力：使用负载均衡调度服务器，将来自客户端浏览器的访问请求分发到应用服务器集群中的任何
[信息与安全]数据库的备份问题 comsci 数据库
如果你们建设的信息系统是采用中心-分支的模式,那么这里有一个问题如果你的数据来自中心数据库,那么中心数据库如果出现故障,你的分支机构的数据如何保证安全呢? 是否应该在这种信息系统结构的基础上进行改造,容许分支机构的信息系统也备份一个中心数据库的文件呢? &n
使用maven tomcat plugin插件debug关联源代码商人shang maven debug 查看源码 tomcat-plugin
*首先需要配置好'''maven-tomcat7-plugin'''，参见[[Maven开发Web项目]]的'''Tomcat'''部分。 *配置好后，在[[Eclipse]]中打开'''Debug Configurations'''界面，在'''Maven Build'''项下新建当前工程的调试。在'''Main'''选项卡中点击'''Browse Workspace...'''选择需要开发的
大访问量高并发 oloz 大访问量高并发
大访问量高并发的网站主要压力还是在于数据库的操作上，尽量避免频繁的请求数据库。下面简要列出几点解决方案： 01、优化你的代码和查询语句，合理使用索引 02、使用缓存技术例如memcache、ecache将不经常变化的数据放入缓存之中 03、采用服务器集群、负载均衡分担大访问量高并发压力 04、数据读写分离 05、合理选用框架，合理架构(推荐分布式架构)。
cache 服务器小猪猪08 cache
Cache 即高速缓存.那么cache是怎么样提高系统性能与运行速度呢？是不是在任何情况下用cache都能提高性能？是不是cache用的越多就越好呢？我在近期开发的项目中有所体会，写下来当作总结也希望能跟大家一起探讨探讨，有错误的地方希望大家批评指正。　　1.Cache 是怎么样工作的? 　　Cache 是分配在服务器上
mysql存储过程香水浓 mysql
Description:插入大量测试数据 use xmpl; drop procedure if exists mockup_test_data_sp; create procedure mockup_test_data_sp( in number_of_records int ) begin declare cnt int; declare name varch
CSS的class、id、css文件名的常用命名规则 agevs JavaScript UI 框架 Ajax css
CSS的class、id、css文件名的常用命名规则 (一)常用的CSS命名规则　　头：header 　　内容：content/container 　　尾：footer 　　导航：nav 　　侧栏：sidebar 　　栏目：column 　　页面外围控制整体布局宽度：wrapper 　　左右中：left right
全局数据源 AILIKES java tomcat mysql jdbc JNDI
实验目的：为了研究两个项目同时访问一个全局数据源的时候是创建了一个数据源对象，还是创建了两个数据源对象。 1：将diuid和mysql驱动包（druid-1.0.2.jar和mysql-connector-java-5.1.15.jar）copy至%TOMCAT_HOME%/lib下；2：配置数据源，将JNDI在%TOMCAT_HOME%/conf/context.xml中配置好,格式如下：&l
MYSQL的随机查询的实现方法 baalwolf mysql
MYSQL的随机抽取实现方法。举个例子，要从tablename表中随机提取一条记录，大家一般的写法就是：SELECT * FROM tablename ORDER BY RAND() LIMIT 1。但是，后来我查了一下MYSQL的官方手册，里面针对RAND()的提示大概意思就是，在ORDER BY从句里面不能使用RAND()函数，因为这样会导致数据列被多次扫描。但是在MYSQL 3.23版本中，
JAVA的getBytes()方法 bijian1013 java eclipse unix OS
在Java中，String的getBytes()方法是得到一个操作系统默认的编码格式的字节数组。这个表示在不同OS下，返回的东西不一样！ String.getBytes(String decode)方法会根据指定的decode编码返回某字符串在该编码下的byte数组表示，如： byte[] b_gbk = "
AngularJS中操作Cookies bijian1013 JavaScript AngularJS Cookies
如果你的应用足够大、足够复杂，那么你很快就会遇到这样一咱种情况：你需要在客户端存储一些状态信息，这些状态信息是跨session(会话)的。你可能还记得利用document.cookie接口直接操作纯文本cookie的痛苦经历。幸运的是，这种方式已经一去不复返了，在所有现代浏览器中几乎
[Maven学习笔记五]Maven聚合和继承特性 bit1129 maven
Maven聚合在实际的项目中，一个项目通常会划分为多个模块，为了说明问题，以用户登陆这个小web应用为例。通常一个web应用分为三个模块： 1. 模型和数据持久化层user-core, 2. 业务逻辑层user-service以 3. web展现层user-web， user-service依赖于user-core user-web依赖于user-core和use
【JVM七】JVM知识点总结 bit1129 jvm
1. JVM运行模式 1.1 JVM运行时分为-server和-client两种模式，在32位机器上只有client模式的JVM。通常，64位的JVM默认都是使用server模式，因为server模式的JVM虽然启动慢点，但是，在运行过程，JVM会尽可能的进行优化 1.2 JVM分为三种字节码解释执行方式：mixed mode, interpret mode以及compiler
linux下查看nginx、apache、mysql、php的编译参数 ronin47
在linux平台下的应用，最流行的莫过于nginx、apache、mysql、php几个。而这几个常用的应用，在手工编译完以后，在其他一些情况下（如：新增模块），往往想要查看当初都使用了那些参数进行的编译。这时候就可以利用以下方法查看。 1、nginx [root@361way ~]# /App/nginx/sbin/nginx -V nginx: nginx version: nginx/
unity中运用Resources.Load的方法？ brotherlamp unity视频 unity资料 unity自学 unity unity教程
问：unity中运用Resources.Load的方法？答：Resources.Load是unity本地动态加载资本所用的方法,也即是你想动态加载的时分才用到它,比方枪弹,特效,某些实时替换的图像什么的,主张此文件夹不要放太多东西,在打包的时分,它会独自把里边的一切东西都会集打包到一同,不论里边有没有你用的东西,所以大多数资本应该是自个建文件放置 1、unity实时替换的物体即是依据环境条件
线段树-入门 bylijinnan java 算法线段树
/** * 线段树入门 * 问题：已知线段[2,5] [4,6] [0,7]；求点2,4,7分别出现了多少次 * 以下代码建立的线段树用链表来保存，且树的叶子结点类似[i,i] * * 参考链接：http://hi.baidu.com/semluhiigubbqvq/item/be736a33a8864789f4e4ad18 * @author lijinna
全选与反选 chicony 全选
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <html> <head> <title>全选与反选</title>
vim一些简单记录 chenchao051 vim
mac在/usr/share/vim/vimrc linux在/etc/vimrc 1、问：后退键不能删除数据，不能往后退怎么办？答：在vimrc中加入set backspace=2 2、问：如何控制tab键的缩进？答：在vimrc中加入set tabstop=4 (任何
Sublime Text 快捷键 daizj 快捷键 sublime
[size=large][/size]Sublime Text快捷键：Ctrl+Shift+P：打开命令面板Ctrl+P：搜索项目中的文件Ctrl+G：跳转到第几行Ctrl+W：关闭当前打开文件Ctrl+Shift+W：关闭所有打开文件Ctrl+Shift+V：粘贴并格式化Ctrl+D：选择单词，重复可增加选择下一个相同的单词Ctrl+L：选择行，重复可依次增加选择下一行Ctrl+Shift+L：
php 引用(&)详解 dcj3sjt126com PHP
在PHP 中引用的意思是：不同的名字访问同一个变量内容. 与Ｃ语言中的指针是有差别的．Ｃ语言中的指针里面存储的是变量的内容在内存中存放的地址变量的引用 PHP 的引用允许你用两个变量来指向同一个内容复制代码代码如下: <? $a="ABC"; $b =&$a; echo
SVN中trunk,branches,tags用法详解 dcj3sjt126com SVN
Subversion有一个很标准的目录结构，是这样的。比如项目是proj，svn地址为svn://proj/，那么标准的svn布局是svn://proj/|+-trunk+-branches+-tags这是一个标准的布局，trunk为主开发目录，branches为分支开发目录，tags为tag存档目录（不允许修改）。但是具体这几个目录应该如何使用，svn并没有明确的规范，更多的还是用户自己的习惯。
对软件设计的思考 e200702084 设计模式数据结构算法 ssh 活动
软件设计的宏观与微观软件开发是一种高智商的开发活动。一个优秀的软件设计人员不仅要从宏观上把握软件之间的开发，也要从微观上把握软件之间的开发。宏观上，可以应用面向对象设计，采用流行的SSH架构，采用web层，业务逻辑层，持久层分层架构。采用设计模式提供系统的健壮性和可维护性。微观上，对于一个类，甚至方法的调用，从计算机的角度模拟程序的运行情况。了解内存分配，参数传
同步、异步、阻塞、非阻塞 geeksun 非阻塞
同步、异步、阻塞、非阻塞这几个概念有时有点混淆，在此文试图解释一下。同步：发出方法调用后，当没有返回结果，当前线程会一直在等待（阻塞）状态。场景：打电话，营业厅窗口办业务、B/S架构的http请求-响应模式。异步：方法调用后不立即返回结果，调用结果通过状态、通知或回调通知方法调用者或接收者。异步方法调用后，当前线程不会阻塞，会继续执行其他任务。实现：
Reverse SSH Tunnel 反向打洞實錄 hongtoushizi ssh
實際的操作步驟： # 首先，在客戶那理的機器下指令連回我們自己的 Server，並設定自己 Server 上的 12345 port 會對應到幾器上的 SSH port ssh -NfR 12345:localhost:22 [email protected] # 然後在 myhost 的機器上連自己的 12345 port，就可以連回在客戶那的機器 ssh localhost -p 1
Hibernate中的缓存 Josh_Persistence 一级缓存 Hiberante缓存查询缓存二级缓存
Hibernate中的缓存一、Hiberante中常见的三大缓存：一级缓存，二级缓存和查询缓存。 Hibernate中提供了两级Cache，第一级别的缓存是Session级别的缓存，它是属于事务范围的缓存。这一级别的缓存是由hibernate管理的，一般情况下无需进行干预；第二级别的缓存是SessionFactory级别的缓存，它是属于进程范围或群集范围的缓存。这一级别的缓存
对象关系行为模式之延迟加载 home198979 PHP 架构延迟加载
形象化设计模式实战 HELLO!架构一、概念 Lazy Load：一个对象，它虽然不包含所需要的所有数据，但是知道怎么获取这些数据。延迟加载貌似很简单，就是在数据需要时再从数据库获取，减少数据库的消耗。但这其中还是有不少技巧的。二、实现延迟加载实现Lazy Load主要有四种方法：延迟初始化、虚
xml 验证 pengfeicao521 xml xml解析
有些字符，xml不能识别，用jdom或者dom4j解析的时候就报错 public static void testPattern() { // 含有非法字符的串 String str = "Jamey친Ñ&#1282
div设置半透明效果 spjich css 半透明
为div设置如下样式： div{filter:alpha(Opacity=80);-moz-opacity:0.5;opacity: 0.5;} 说明： 1、filter：对win IE设置半透明滤镜效果，filter:alpha(Opacity=80)代表该对象80%半透明，火狐浏览器不认2、-moz-opaci
你真的了解单例模式么？ w574240966 java 单例设计模式 jvm
单例模式，很多初学者认为单例模式很简单，并且认为自己已经掌握了这种设计模式。但事实上，你真的了解单例模式了么。一，单例模式的5中写法。（回字的四种写法，哈哈。） 1，懒汉式（1）线程不安全的懒汉式 public cla