做毕设的过程中,需要用到pytorch,并且利用tensorboardX工具对训练过程中必要的地方进行可视化操作。但是在tensorboardX安装完成后,跑通了demo的代码,也声称了event文件,但是在浏览器打开时总是出现空白页面。总结错误原因:其实是版本的问题,import tensorflow报如图所示错误(DLL load failed),解决方法就是降版本,见最后。
操作系统:win10
python:3.7.6
CUDA:10.1
cudnn:与CUDA对应的版本
pytorch-gpu:torch1.4.0以及对应的torchvision(这个安装过程也是个坑,主要要注意cuda版本问题还有就是网络问题,不过相信看到这篇文章的朋友肯定都安装了才会来看的)
按照如下命令直接安装了tensorboardX,我直接安装的版本是2.0版本的
pip install tensorboardX
安装tensorflow(坑来了,此处为挖坑的代码),此时我直接安装的tensorflow是2.1.0的CPU版本(因为本次我并不需要用tensorflow,只是为了使用tensorboardX安装)
pip install tensorflow
然后我运行了如下的demo代码,能够成功运行,日志文件在项目所在文件夹的data子文件夹内。可以从图片中看到成功创建文件夹,并生成了envents.xxx文件
import torch
import torchvision.utils as vutils
import numpy as np
import torchvision.models as models
from torchvision import datasets
from tensorboardX import SummaryWriter
resnet18 = models.resnet18(False)
writer = SummaryWriter(logdir = './data')
sample_rate = 44100
freqs = [262, 294, 330, 349, 392, 440, 440, 440, 440, 440, 440]
for n_iter in range(100):
dummy_s1 = torch.rand(1)
dummy_s2 = torch.rand(1)
# data grouping by `slash`
writer.add_scalar('data/scalar1', dummy_s1[0], n_iter)
writer.add_scalar('data/scalar2', dummy_s2[0], n_iter)
writer.add_scalars('data/scalar_group', {'xsinx': n_iter * np.sin(n_iter),
'xcosx': n_iter * np.cos(n_iter),
'arctanx': np.arctan(n_iter)}, n_iter)
dummy_img = torch.rand(32, 3, 64, 64) # output from network
if n_iter % 10 == 0:
x = vutils.make_grid(dummy_img, normalize=True, scale_each=True)
writer.add_image('Image', x, n_iter)
dummy_audio = torch.zeros(sample_rate * 2)
for i in range(x.size(0)):
# amplitude of sound should in [-1, 1]
dummy_audio[i] = np.cos(freqs[n_iter // 10] * np.pi * float(i) / float(sample_rate))
writer.add_audio('myAudio', dummy_audio, n_iter, sample_rate=sample_rate)
writer.add_text('Text', 'text logged at step:' + str(n_iter), n_iter)
for name, param in resnet18.named_parameters():
writer.add_histogram(name, param.clone().cpu().data.numpy(), n_iter)
# needs tensorboard 0.4RC or later
writer.add_pr_curve('xoxo', np.random.randint(2, size=100), np.random.rand(100), n_iter)
dataset = datasets.MNIST('mnist', train=False, download=True)
images = dataset.test_data[:100].float()
label = dataset.test_labels[:100]
features = images.view(100, 784)
writer.add_embedding(features, metadata=label, label_img=images.unsqueeze(1))
# export scalar data to JSON for external processing
writer.export_scalars_to_json("./all_scalars.json")
writer.close()
接着,复制data文件夹的路径,打开命令行,进入项目工作的虚拟环境中,输入如下的命令,并回车,能够顺利看到会输出一个网址,但是提示TensorFlow installation not found - running with reduced feature set.其实看到这就应该知道有问题了。
tensorboard --logdir 刚刚复制的文件路径
接着将提示的网址http://localhost:6006复制到浏览器打开时,现实给了我重磅一击!空空如也...
后来一步步探索,发现import tensorflow报了DLL Load Failed的错误,就是tensorflow有问题。但是我卸了装装了卸还是一样!突发奇想(其实是正常思路),是不是tensorflow版本的问题。因为我安装的是2.1.0的版本。然后就版本去搜索了一番,在一个解决tensorflow2.1.0版本安装的讨论中找到了答案,如图:
链接:https://github.com/tensorflow/tensorflow/issues/35749
卸载已经安装的tensorflow,再安装指定版本的tensorflow2.0.0,安装时可能会出现网络问题,最后安装成功,如图所示!import tensorflow没报错了!tensorboard在浏览器中也可以打开了!
pip install tensorflow=2.0.0