tensorflow 训练 loss为nan

这个最常见于GradientDescentOptimizer优化中。
原因是loss过大,导致训练困难。


image.png

如图,这里batch_size是1000,reduce_sum则是reduce_mean的1000倍。
导致nan

你可能感兴趣的:(tensorflow 训练 loss为nan)