PaddlePaddle/fluid: 静态图 vs. 动态图

昨天,师兄问我:PaddlePaddle支持动态图吗?我才知道,模型还可以是动态的!孤陋寡闻了呀。调研走起~ 交流也是科研的生产力~

何谓“动静”

在TensorFlow中,模型是完全静态的:定义好一个完整的网络结构(Graph),才能开始执行整个图(调入session开始计算),且运行中不能对图进行修改(比如添加网络节点等操作)。
在我初步试用PaddlePaddle的PARL库中,涉及的也是静态图。定义好模型之后,调用executor,executor会将模型的定义提交给transplier,由其提交至C++后台并返回ProgramDesc,executor据此依次执行。整个过程是编译器式的——静态。

PyTorch提供有动态图机制,PaddlePaddle也是至最新的1.5.x版本开始提供动态图API(目前TF也有Eager Execution提供动态图支持。)。在动态图中,兼用各种逻辑控制语法(如if else等),按照代码顺序执行,变执行边生成本次的计算图,每次都会重新构建。

「 有点类于编译语言和解释性语言的区别。」

  • 静态图:声明式编程。一次构建,多次使用;构建稍繁琐复杂;性能好,速度快。
  • 动态图:命令式编程。图的代码编写很灵活,可使用Python的控制流(简洁之道!);方便debug;操作可立即获得执行结果,无需等待计算图的全部构建完成。
fluid动态图&静态图总览

fluid静态图

fluid内部的静态图执行流程如下:「 图源自官网 」

代码里构建的图为program(类于TensorFlow的graph),executor可理解为TensorFlow的session。过程中经由Transpiler进行了编译,故需事先定义好完整的program,提交至executor后不可修改。
详参见官网的设计思想说明 ,此处不展开啦。https://www.paddlepaddle.org.cn/documentation/docs/zh/advanced_usage/design_idea/fluid_design_idea.html

fluid动态图

动态图的编程和思想就简单些了,build when run. 使用的库:fluid.dygraph 。

simple use

fluid.dygraph.guard() : 创建执行dygraph的上下文,然后在其里随心地灵活使用控制流~
最简单的动态图构建如下。

input0 = np.random.randint(low=1, high=5, size=(2,))
    input1 = np.random.randint(low=1, high=5, size=(2,))
    # print(inp1, inp2)
    with fluid.dygraph.guard():
        if np.sum(input0) < np.sum(input1):
            x = fluid.layers.elementwise_add(input0, input1)
        else:
            x0 = fluid.layers.elementwise_sub(input0, input1)
            x = fluid.layers.elementwise_sub(x0, input1)
        print(x.numpy())

若要反向传播,则在定义loss(Variable)后,直接调用loss.backward(),用loss.gradient()可获得梯度。

advanced

稍复杂些,则使用fluid.dygraph.Layer构建神经网络,代码见下段的下方。策略继承自fluid.dygraph.Layer,初始化以外,还需实现forward前向传播函数。

class Policy(fluid.dygraph.Layer):
    def __init__(self, name_scope):
        super(Policy, self).__init__(name_scope)

        self.affine1 = nn.FC(self.full_name(), size=128)
        self.affine2 = nn.FC(self.full_name(), size=2)
        self.dropout_ratio = 0.6

        self.saved_log_probs = []
        self.rewards = []

    def forward(self, x):
        x = fluid.layers.reshape(x, shape=[1, 4])
        x = self.affine1(x)
        x = fluid.layers.dropout(x, self.dropout_ratio)
        x = fluid.layers.relu(x)
        action_scores = self.affine2(x)

        self._x_for_debug = x

        return fluid.layers.softmax(action_scores, axis=1)

fluid.dygraph.Layer : 本身已实现了train和eval函数,都是通过tracer完成,tracer和engine的详尽(动态图的机制相关)待续。

links:
这篇文给的动态图实例可供参考:https://cloud.tencent.com/developer/article/1493615
官方GitHub也给了些例子:https://github.com/PaddlePaddle/models/tree/develop/dygraph

why is this involved?

因为我们即将的工作中,希望针对当前的优化状态对计算图进行动态执行。
比如:使用两个模型拼接达到更好对效果时,若第一个模型就达到了训练目标,则无需运行第二个模型的网络。即我们希望网络是动态的,层次可选的,可以通过逻辑流来达到控制。虽然静态图也提供有一定的逻辑控制,但编程较为麻烦,且每次运行都是基于第一次构建的完整的计算图,而非当前执行逻辑下的分支图,拼接模型都较大的情况下极为耗费内存。

TODO:

  • 逻辑控制 + fluid.dygraph.Layer,能否?即实现图的层次可选。
  • 此外动态图也提供了参数持久化,但逻辑控制是否涉入其中,还未试验。

你可能感兴趣的:(PaddlePaddle/fluid: 静态图 vs. 动态图)