TensorFlow多机分布执行节点概念

多机自然组成集群Cluster。

Cluster由多个任务task组成,也就是多个server(计算节点)。

Task分组到job,job按任务的角色来定义,同一job的任务具有相同的角色。

按角色常见有参数节点类,parameter server,简称ps,保持追踪模型的参数。另一种即计算节点,perform computation,简称worker。

TF中,类tf.train.ClusterSpec定义集群,格式为job到servers列表对应。 server为暴露tcp端口来提供服务的TS服务实例,可以设定其对应使用的CPU或者GPU(统称device)。

GPU/CPU分配,TF由函数tf.device负责,可自己重定义来动态分配。

图片发自App

你可能感兴趣的:(TensorFlow多机分布执行节点概念)