代码问题—IRGAN_baseline

用的版本tensorflow是1.1+,python3.5,
原来的代码有几个mul和sub需要更新一下,另外就是log文件夹是没有的,代码中没有进行判断,不能够生产目录,会报错,所以自己创建了一个log文件夹,运行时,生成了相关的文件,结果程序没正常结束,生成的文件也是空的,所以这个地方的代码最后要注意改下。
代码问题—IRGAN_baseline_第1张图片

代码问题—IRGAN_baseline_第2张图片

本来觉得是时候跑下baseline的代码了(运行看哪里会出问题,没想到数据那么大),所以晚上开着跑了一晚上,现在来看,电脑没有死机,还挺好的,结果看下,竟然不是正常结束的。
以前遇到的问题是GPU内存不够,然后报错,切换成使用cpu之后就没有问题了。
这个呢?是不是也是因为内存溢出之类的。
代码问题—IRGAN_baseline_第3张图片

have sampled 18100 pairs
have sampled 18200 pairs
have sampled 18300 pairs
have sampled 18400 pairs
have sampled 18500 pairs
generate_dns_pair runed 6372.51 seconds


2017-07-11 23:43:52.888271: E c:\tf_jenkins\home\workspace\release-win\m\windows-gpu\py\35\tensorflow\stream_executor\cuda\cuda_driver.cc:1068] failed to synchronize the stop event: CUDA_ERROR_LAUNCH_FAILED
2017-07-11 23:43:52.888575: E c:\tf_jenkins\home\workspace\release-win\m\windows-gpu\py\35\tensorflow\stream_executor\cuda\cuda_timer.cc:54] Internal: error destroying CUDA event in context 000001EFCBA943F0: CUDA_ERROR_LAUNCH_FAILED
2017-07-11 23:43:52.888880: E c:\tf_jenkins\home\workspace\release-win\m\windows-gpu\py\35\tensorflow\stream_executor\cuda\cuda_timer.cc:59] Internal: error destroying CUDA event in context 000001EFCBA943F0: CUDA_ERROR_LAUNCH_FAILED
2017-07-11 23:43:52.889206: F c:\tf_jenkins\home\workspace\release-win\m\windows-gpu\py\35\tensorflow\stream_executor\cuda\cuda_dnn.cc:2479] failed to enqueue convolution on stream: CUDNN_STATUS_EXECUTION_FAILED

Process finished with exit code -1073740791 (0xC0000409)

代码问题—IRGAN_baseline_第4张图片

那只能百度谷歌问题。
cuda_driver.cc:1068] failed to synchronize the stop event: CUDA_ERROR_LAUNCH_FAILED

cuda_timer.cc:54] Internal: error destroying CUDA event in context 000001EFCBA943F0: CUDA_ERROR_LAUNCH_FAILED

cuda_dnn.cc:2479] failed to enqueue convolution on stream: CUDNN_STATUS_EXECUTION_FAILED

Process finished with exit code -1073740791 (0xC0000409)

其他人也有这样完全相同的问题,也有某个报错信息一样。
代码问题—IRGAN_baseline_第5张图片
有说是cuda在windows下限制核运行时间。
代码问题—IRGAN_baseline_第6张图片
有些是提示参数问题。
代码问题—IRGAN_baseline_第7张图片

代码问题—IRGAN_baseline_第8张图片
有些是说cuda版本低的问题(但是我的更新到8了,应该不是这个问题)。

打算用cpu跑下, 结果将gpu换成cpu,发现一开始就会报错。改成小点的epoch之后还是这样的问题,不是吧,程序代码有问题?。
代码问题—IRGAN_baseline_第9张图片

只能重新改回来,发现原来gpu的运行正常,缩小epoch 500000to5000to10数目,再跑一遍,也没有报错。:
代码问题—IRGAN_baseline_第10张图片

呵呵,又没有解决问题。那就只能挂着问题,以后再看吧

你可能感兴趣的:(代码笔记)