解决问题:chainer在训练模型的过程中,出现了nan

在用chainer训练模型的过程中,出现了nan

解决问题的过程:

1. 定位问题,一层一层向下看,找到了最先出现nan的地方

2. 发现是embedding突然发生了改变,有一部分变成了nan

3. 在该情况下检查梯度,发现是梯度突然变成nan

4. 寻找解决梯度为nan的解决方法:

https://groups.google.com/forum/#!topic/chainer/Z192erF7NpA

5. 开启chainer中的debug模式:

chainer中的debug模式

6. 报错,发现是词表的大小不对,我的词表大小多了一个。也就是说,我词表的代码写错了。

最后,发现以前面对的问题也就迎刃而解了。

你学会了吗?

这篇攻略最重要的就是chainer中的debug模式。

--------------------------------------------------------------

我们一路奋战,就是想挣点钱吃饭。

2019年10月9日

tip:

在解决这个问题的过程中,我先进行了对比,对比能跑通的数据集和不能跑通的数据集。

这个时候,就应该反映到:是数据集部分的问题。

但很显然我没有做到。

你可能感兴趣的:(解决问题:chainer在训练模型的过程中,出现了nan)