tensorflow 内存泄漏、内存不足

使用tensorflow的时候有一个问题,训练过程中,每次迭代所需要的时间越来越长,运行一段时间后报错,说内存不足,后来找到了原因,在循环中我使用 tf.convert_to_tensor()函数,一开始不理解这个函数,有时候用着很方便就拿来用了,后来才知道这个函数会一直增加graph中的节点,随着训练进行,挤爆了内存

问题的详细描述和解决可以见下面的链接

https://stackoverflow.com/documentation/tensorflow/3883/how-to-debug-a-memory-leak-in-tensorflow/13426/use-graph-finalize-to-catch-nodes-being-added-to-the-graph#t=201707221208374841351

就是在定义好网络结构之后,使用

sess.graph.finalize() 

把整个图冻住,使图变为只读的形式,这样就避免了问题的发生,但是这个函数不允许增加节点,在之后循环中tf.reshape()、tf.cast()函数等改变图节点的函数也不能用了,也造成了一些不方便,这里吐槽一下tensorflow的不方便性,所以以后使用tensorflow的时候尽量避免使用tf.train.Saver(), tf.convert_to_tensor(),这一类的函数放在循环之中,尽量在外部定义好之后使用sess.run()的方法运行

另外就是 tf.zeros_like(), tf.ones_like() 这类的代码也不要放在循环里了,这样能大大加快训练速度

参考链接:

https://blog.csdn.net/qq_25737169/article/details/78125550

http://m.blog.csdn.net/appleml/article/details/75805797

https://github.com/tensorflow/tensorflow/issues/4151

 

原因:每次迭代计算图中增加了新的节点,导致图内节点越来越多,走向奔溃。

如何判断你运行的session里是否有新增的节点:在session里使用graph.finalize()锁定图,程序报错则说明图有新节点产生。

如何找到新增的节点:检查session里是否有tf的op操作,如果你一下子找不出,可以用一个直观的办法,比较graph的pb文件,在每次迭代前输入tf.train.write_graph(sess.graph_def, "路径", 'graph.pb', as_text=True),迭代3次,生成了3个pb文件,比较每个文件多出的部分,就知道是哪个操作增加节点了,然后在进行修改。

  • https://www.zhihu.com/question/58577743

你可能感兴趣的:(Machine,Learning,tensorflow,python,tensorflow,机器学习,人工智能,深度学习,python)