架构

先来看一个官方给的架构图，
简单来说，提供了client和board两种客户端，访问fate的flow server完成了任务flow的调度。整个任务流官网也很中肯的定义为Pipeline。Pipeline有点像开发常用的jenkins，一个任务完成后触发后续任务，直到所有任务结束。

- image.png

FATE-Flow联邦学习Pipeline

FATE-Flow是用于联邦学习的端到端Pipeline系统，它由一系列高度灵活的组件构成,专为高性能的联邦学习任务而设计。其中包括数据处理、建模、训练、验证、发布和在线推理等功能。官方给的一个示例图如下：

- image.png

DSL示例

流的调度抽象来看是一个DAG图的调度，这个DAG是通过DSL描述，下面给出一个DSL的示例：

{
    "components" : {
        "dataio_0": {
            "module": "DataIO",
            "input": {
                "data": {
                    "data": [
                        "args.train_data"
                    ]
                }
            },
            "output": {
                "data": ["train"],
                "model": ["dataio"]
            },
            "need_deploy": true
         },
        "hetero_feature_binning_0": {
            "module": "HeteroFeatureBinning",
            "input": {
                "data": {
                    "data": [
                        "dataio_0.train"
                    ]
                }
            },
            "output": {
                "data": ["train"],
                "model": ["hetero_feature_binning"]
            }
        },
        "hetero_feature_selection_0": {
            "module": "HeteroFeatureSelection",
            "input": {
                "data": {
                    "data": [
                        "hetero_feature_binning_0.train"
                    ]
                },
                "isometric_model": [
                    "hetero_feature_binning_0.hetero_feature_binning"
                ]
            },
            "output": {
                "data": ["train"],
                "model": ["selected"]
            }
        },
        "hetero_lr_0": {
            "module": "HeteroLR",
            "input": {
                "data": {
                    "train_data": ["hetero_feature_selection_0.train"]
                }
            },
            "output": {
                "data": ["train"],
                "model": ["hetero_lr"]
            }
        },
        "evaluation_0": {
            "module": "Evaluation",
            "input": {
                "data": {
                    "data": ["hetero_lr_0.train"]
                }
            },
            "output": {
                "data": ["evaluate"]
            }
        }
    }
}

DSL的抽象

上面的DSL示例子有点庞大，这里可以做如下抽象

- image.png

还是上面的DSL
组件ID，用来标识组件身份，比如"dataio_0"
组件元数据：运行模块，基本属性，比如： "module": "DataIO", "need_deploy": true
运行时数据：输入 + 输出（再进一步抽象就是输出输出类型和值）

fate_flow_server启动分析

过程做的几件事：
1 加载各manager
2 初始化两个信号SIGTERM(软件终止信号), SIGCHLD(当子进程停止或退出时通知父进程)
3 初始化数据库表
4 Job环境初始化：环境变量，队列，权限，ZK等
5 启动轮训线程，用于轮训可调度任务
6 启动rpc服务，用的grpc框架。补充知识，几个rpc方式的对比
7 异常中断后最后延迟1天退出

Fate的代码解析

一般的服务端分成和fate的分层略有差异，这个是编程风格的原因，没有好坏，我这里给出一个对应关心，左边是fate的分层，app->manager->db，很flask的风格，但是Django和阿里出的java开发规范会更建议右边的风格，对应关系如下：

fate的app其实对应的是接口层，java中一般叫做controller层，为什么不用app呢，因为一般我们把app当作一个确定的微服务，在部署上，一个app对应一个port或者一个ip:port
manger其实是核心逻辑，java中一般是service，通用逻辑再抽象出manager
db是数据层，fate中，db下存放的是db_models，一般我们会像右边抽象出DO和DAO层来访问数据库。
- image.png

整个fate的核心逻辑放在以下几个manager中：

model_manger
- 模型管理
data_manager
- 数据库操作，对应DAO
pipeline_manager
- pipeline管理，dag解析主要在这里
- dag的解析在driver层
queue_manager
- 队列管理，事件
tracking_manager
- 相当于全局同步管理期，管理任务，job的持久化和结果同步

安全计算框架FATE-Flow架构解析

架构

FATE-Flow联邦学习Pipeline

DSL示例

DSL的抽象

fate_flow_server启动分析

Fate的代码解析

你可能感兴趣的:(安全计算框架FATE-Flow架构解析)