ubuntu系统下,libtorch环境加载.pt模型失败,一直报c10::Error错误

一、问题概括
ubuntu系统下,libtorch环境使用torch::jit::load(“xxx.pt”)接口加载模型失败,一直报c10::Error错误。

    std::cout<<"cudu support:"<< (torch::cuda::is_available()?"ture":"false")<<std::endl;
   try {
        torch::jit::script::Module module = torch::jit::load("xxx.pt");
	    module.to(torch::kCUDA);
	    module.eval();
    }
    catch (const c10::Error& e) {
        std::cerr << "Error loading the model11111!\n";
        std::exit(EXIT_FAILURE);
    }

二、问题解决
1、问题排查
1)怀疑是libtorch环境问题:
使用libtorch环境加载生成的其他模型,例如vgg、resnet18,均通过。libtorch环境“好像”没有问题。(后来发现此处有坑,虽然调用成功,但是可能是调用的cpu)
2)怀疑是模型转换有问题:
每一步骤挨着去过,没有发现问题。
3)再次怀疑libtorch环境问题:
无意在libtorch工程里打印了一下torch::cuda::is_available(),返回结果竟然是false! 终于发现问题,我的模型使用了gpu,但是现在libtorch环境下,gpu加载失败。
然后网上查找资料,最终定问问题是在cmake版本较低,导致libtorch无法调用gpu。
2、解决方法
1)升级cmake版本3.0.0以上
下载解压cmake压缩包,然后再建立软链接覆盖系统原来的cmake即可

# 下载cmake源码包
wget https://github.com/Kitware/CMake/releases/download/v3.21.4/cmake-3.21.4-linux-x86_64.tar.gz
tar -xzvf cmake-3.21.4-Linux-x86_64.tar.gz
# 将解压出来的包移到 /opt 目录下
sudo mv cmake-3.21.4-Linux-x86_64 /opt/cmake-3.21.4  
# 建立软链接
sudo ln -sf /opt/cmake-3.21.4/bin/* /usr/bin/   
cmake --version

cmake安装成功之后,更新 .bashrc:

# 进入~/.bashrc
sudo gedit ~/.bashrc
# 输入以下内容
export  PATH=$PATH:/opt/cmake-3.21.4/bin
#保存 .bashrc的更改和更新source一下
source ~/.bashrc 

2)cmakeList.txt里明确使用相应版本

#cmake_minimum_required(VERSION 2.6)  #修改前
cmake_minimum_required(VERSION 3.0 FATAL_ERROR)  #修改后

3)编译工程
重新对自己的工程cmke.,make。

又报出新错误NOTFOUND CUDA_cublas_device_LIBRARY,网上搜索,发现还是cmake版本问题,需要把cmake版本更换成 v3.14.3。因此重复步骤1重新安装cmake,然后步骤3),编译通过!!

你可能感兴趣的:(Deep,Learning工程部署,c/c++语言,pytorch,人工智能,python)