从在自定义数据集中训练检测器到使用TensorFlow 1.15在Jetson纳米板或云上进行推理的详细步骤
完整代码可在GitHub上获得
这个清单永无止境……
为克服上述一些问题,我们在Monk Object Detection Toolkit中的Tensorflow 对象检测 API的两个版本上添加了一个低代码的pythonic包装器
使用它,开发人员和研究人员可以轻松地
下面提到的是使用TF训练和部署定制探测器的过程。在描述过程流程的同时,还强调了一个人在使一切正常工作时所面临的问题;还提到了tf1.0和2.0版本的对象检测库的区别
让我们从版本1.0开始,每次使用一个对象检测API模块。
将要安装的库
(确保CUDA 10.0和CUDNN 7随系统一起安装了NVidia驱动程序)
当模型要部署在Jetson Nano板上时,请按照以下说明配置你的开发(训练)机器
安装必备的Python库
$ git clone https://github.com/Tessellate-Imaging/Monk_Object_Detection.git$ cd Monk_Object_Detection/12_tf_obj_1/installation$ chmod +x install_cuda10_tensorrt6_part1.sh && ./install_cuda10_tensorrt6_part1.sh
安装TensorRT 6.0.1
# Go to https://developer.nvidia.com/tensorrt# Download # - nv-tensorrt-repo-ubuntu1804-cuda10.0-trt6.0.1.5-ga-20190913_1-1_amd64.deb (For Ubuntu18.04)# - nv-tensorrt-repo-ubuntu1604-cuda10.0-trt6.0.1.5-ga-20190913_1-1_amd64.deb (For Ubuntu16.04)# Run the following commands to install trt (in a terminal)$ sudo dpkg -i nv-tensorrt-repo-ubuntu1804-cuda10.0-trt6.0.1.5-ga-20190913_1-1_amd64.deb$ sudo apt-key add $ sudo apt-get update$ sudo apt-get install tensorrt$ sudo apt-get install uff-converter-tf$ sudo apt-get install python3-libnvinfer-dev
安装Bazel 0.26.1并从GitHub克隆TensorFlow
# Install bazel version 0.26.1# Download bazel deb package from https://github.com/bazelbuild/bazel/releases/tag/0.26.1$ sudo dpkg -i bazel_0.26.1-linux-x86_64.deb# Clone Tensorflow and switch to tensorflow 1.15.2$ git clone https://github.com/tensorflow/tensorflow.git$ cd tensorflow$ git checkout v1.15.2
配置TensorFlow
# Configure tensorflow$ ./configure - Do you wish to build TensorFlow with XLA JIT support? [Y/n]: Y - Do you wish to build TensorFlow with OpenCL SYCL support? [y/N]: N - Do you wish to build TensorFlow with ROCm support? [y/N]: N - Do you wish to build TensorFlow with CUDA support? [y/N]: Y - Do you wish to build TensorFlow with TensorRT support? [y/N]: Y - And press enter (set default) for all other config questions asked by the setup
构建并安装TensorFlow(在AWS P3.2x实例上大约需要5个小时)
# Build tensorflow using bazel$ bazel build --config=opt --config=cuda //tensorflow/tools/pip_package:build_pip_package# Once built create a wheel file for python installation and run pip installer$ bazel-bin/tensorflow/tools/pip_package/build_pip_package tensorflow_pkg$ cd tensorflow_pkg && pip install tensorflow*.whl
最后构建对象检测API 1.0
# Compile Object Detection API v1$ cd Monk_Object_Detection/12_tf_obj_1/installation$ chmod +x install_cuda10_tensorrt6_part2.sh && ./install_cuda10_tensorrt6_part2.sh
当不打算在Jetson Nano Board上部署模型时,请按照以下说明配置你的开发(训练)机器
安装所有必需的库并编译对象检测API 1.0
$ git clone https://github.com/Tessellate-Imaging/Monk_Object_Detection.git$ cd Monk_Object_Detection/12_tf_obj_1/installation$ chmod +x install_cuda10.sh && ./install_cuda10.sh
安装TensorRT 5.1.5作为预构建的TensorFlow 1.15.0支持
# Go to https://developer.nvidia.com/tensorrt# Download # - nv-tensorrt-repo-ubuntu1804-cuda10.0-trt5.1.5.0-ga-20190427_1-1_amd64.deb (For Ubuntu18.04)# - nv-tensorrt-repo-ubuntu1604-cuda10.0-trt5.1.5.0-ga-20190427_1-1_amd64.deb(For Ubuntu16.04)# Run the following commands to install trt (in a terminal)$ sudo dpkg -i nv-tensorrt-repo-ubuntu1804-cuda10.0-trt5.1.5.0-ga-20190427_1-1_amd64.deb$ sudo apt-key add $ sudo apt-get update$ sudo apt-get install tensorrt$ sudo apt-get install uff-converter-tf$ sudo apt-get install python3-libnvinfer-dev
使用google colab时,请遵循以下说明(TensorRT在colab上可能无法正常运行)
# Switch to TF 1.0 version (Run the following line)$ %tensorflow_version 1.x# Now reset the runetime if prompted by colab# Run the following commands$ git clone https://github.com/Tessellate-Imaging/Monk_Object_Detection.git$ cd Monk_Object_Detection/12_tf_obj_1/installation$ chmod +x install_colab.sh && ./install_colab.sh
Monk对象检测解析器要求数据集采用COCO或Pascal VOC格式。对于本教程,让我们坚持使用Pascal VOC格式
要将数据集从任何格式转换为Pascal VOC,请查看以下详细教程
在这个例子中,船检测数据集取自一个关于使用retinanet进行对象检测的旧博客
在这个jupyter notebook中提到了使用这些数据的步骤
加载训练引擎
from train_detector import Detectorgtf = Detector();
在TF 1.15模型库中加载所有可用模型
目前,它支持24种不同型号的SSD和Faster RCNN
加载训练验证数据集
将注释转换为VOC格式后加载数据集
根据可用的GPU设置批次大小。在本教程中,使用了带v100gpu(16gbvram)的AWS ec2p3.2x计算机,批次大小为24非常适合。
train_img_dir = "ship/images/Train";train_anno_dir = "ship/voc/";class_list_file = "ship/classes.txt";gtf.set_train_dataset(train_img_dir, train_anno_dir, class_list_file, batch_size=24)
运行解析器将数据集转换为tfrecords
Tf Record文件将存储在data_tfrecord文件夹中
gtf.create_tfrecord(data_output_dir="data_tfrecord")
选择并加载模型
下载模型后,Monk会根据所选参数自动更新配置文件
在本教程中,我们使用了SSD MobileNet V1,它可以接收形状为320x320x3 RGB图像的输入图像
gtf.set_model_params(model_name="ssd_mobilenet_v1")
设置其他训练和优化器参数
set_hyper_params(num_train_steps=10000,lr=0.004,lr_decay_rate=0.945,output_dir="output_dir/",sample_1_of_n_eval_examples=1,sample_1_of_n_eval_on_train_examples=5,checkpoint_dir=False,run_once=False,max_eval_retries=0,num_workers=4,checkpoint_after_every=500)
设置存储导出参数的目录
gtf.export_params(output_directory="export_dir");
设置tensorRT优化参数
TensorRT优化器创建一个计划,然后构建它。构建计划是为了优化它正在构建的GPU的模型。
如前所述,在具有不同cuda计算能力的GPU上优化的模型无法在jetson nano上运行,因此Monk库确保该计划在开发机(云或colab)上编译,而该计划则在运行时在部署机(jetson nano)上构建
使用INT8优化时,无法执行此功能,计划的编制和构建都必须在同一台机器上,并且Jetson纳米板与8位整数运算不太兼容
gtf.TensorRT_Optimization_Params(conversion_type="FP16", trt_dir="trt_fp16_dir")
训练探测器
检测器训练运行一个执行sys.exit()函数的会话,因此在其上运行的包装程序将关闭python系统。
为了解决此问题,提供了一个名为train.py的脚本,该脚本可以在jupyter notebook或终端命令上运行
根据参数设置,训练好的模型将保存在名为“ output_dir”的文件夹中。
# Run in a terminal$ python Monk_Object_Detection/12_tf_obj_1/lib/train.py# or run this command on a jupyter notebook%run Monk_Object_Detection/12_tf_obj_1/lib/train.py
导出训练有素的检查点模型
export函数运行一个执行sys.exit()函数的会话,因此在其上运行的包装器将关闭python系统。
为了解决此问题,提供了一个名为export.py的脚本,该脚本可以在jupyter notebook或终端命令上运行
根据参数设置,导出的模型将保存在名为“ export_dir”的文件夹中。
# Run in a terminal$ python Monk_Object_Detection/12_tf_obj_1/lib/export.py# or run this command on a jupyter notebook%run Monk_Object_Detection/12_tf_obj_1/lib/export.py
优化导出模型
优化函数运行一个执行sys.exit()函数的会话,因此在其上运行的包装程序将关闭python系统。
为了解决此问题,提供了一个名为optimize.py的脚本,该脚本可以在jupyter notebook电脑或终端命令上运行
根据参数设置,优化的模型将保存在名为“ trt_fp16_dir”的文件夹中。
# Run in a terminal$ python Monk_Object_Detection/12_tf_obj_1/lib/optimize.py# or run this command on a jupyter notebook%run Monk_Object_Detection/12_tf_obj_1/lib/optimize.py
加载推理机
from infer_detector import Infergtf = Infer();
载入模型
首先加载导出的模型并运行步骤,然后通过加载优化的模型重复相同的步骤(步骤保持不变)
# To load exported modelgtf.set_model_params('export_dir/frozen_inference_graph.pb', "ship/classes.txt")# To load optimized modelgtf.set_model_params('trt_fp16_dir/trt_graph.pb', "ship/classes.txt")
对单个图像进行推断
scores, bboxes, labels = gtf.infer_on_image('ship/test/img1.jpg', thresh=0.1);
使用两个模型运行速度测试分析
gtf.benchmark_for_speed('ship/test/img1.jpg')
在AWS P3.2x V100 GPU上使用导出的模型(未优化)进行分析
Average Image loading time : 0.0091 secAverage Inference time : 0.0103 secResult extraction time : 0.0801 sectotal_repetitions : 100total_time : 1.0321 secimages_per_sec : 96latency_mean : 10.3218 mslatency_median : 10.3234 mslatency_min : 9.4773 ms
在AWS P3.2x V100 GPU上使用优化模型进行分析
处理后优化使速度提高约2.5倍
Average Image loading time : 0.0092 secAverage Inference time : 0.0042 secResult extraction time : 0.0807 sectotal_repetitions : 100total_time : 0.4241 secimages_per_sec : 235latency_mean : 4.2412 mslatency_median : 4.2438 mslatency_min : 4.0156 ms
步骤1:更新Apt
$ sudo apt-get update$ sudo apt-get upgrade
步骤2:安装系统库
$ sudo apt-get install nano git cmake libatlas-base-dev gfortran libhdf5-serial-dev hdf5-tools nano locate libfreetype6-dev python3-setuptools protobuf-compiler libprotobuf-dev openssl libssl-dev libcurl4-openssl-dev cython3 libxml2-dev libxslt1-dev python3-pip$ sudo apt-get install libopenblas-dev libprotobuf-dev libleveldb-dev libsnappy-dev libhdf5-serial-dev protobuf-compiler libgflags-dev libgoogle-glog-dev liblmdb-dev$ sudo pip3 install virtualenv virtualenvwrapper
步骤3:更新bashrc文件
将这些行添加到〜/ .bashrc文件
export VIRTUALENVWRAPPER_PYTHON=/usr/bin/python3export WORKON_HOME=$HOME/.virtualenvsexport VIRTUALENVWRAPPER_VIRTUALENV=/usr/local/bin/virtualenvsource /usr/local/bin/virtualenvwrapper.shexport PATH=/usr/local/cuda-10.0/bin${PATH:+:${PATH}}export LD_LIBRARY_PATH=/usr/local/cuda-10.0/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}
运行以下命令
$ source ~/.bashrc
步骤4:创建虚拟环境并安装所有必需的python库,安装numpy大约需要15分钟
$ mkvirtualenv -p /usr/bin/python3.6 tf2$ pip install numpy==1.19.1
安装scipy大约需要40分钟
$ pip install scipy==1.5.1
安装Jetson Nano TensorFlow-1.15。再花15分钟
$ pip install scikit-build protobuf cython -vvvv$ pip install grpcio absl-py py-cpuinfo psutil portpicker six mock requests gast h5py astor termcolor protobuf keras-applications keras-preprocessing wrapt google-pasta -vvvv$ pip install https://developer.download.nvidia.com/compute/redist/jp/v43/tensorflow-gpu/tensorflow_gpu-1.15.0+nv19.12-cp36-cp36m-linux_aarch64.whl -vvvv
安装OpenCV需要1.5个小时
$ mkdir opencv && cd opencv$ wget -O opencv.zip https://github.com/opencv/opencv/archive/4.1.2.zip$ unzip opencv.zip$ mv opencv-4.1.2 opencv$ cd opencv && mkdir build && cd build$ cmake -D CMAKE_BUILD_TYPE=RELEASE -D WITH_CUDA=OFF -D WITH_CUBLAS=OFF -D WITH_LIBV4L=ON -D BUILD_opencv_python3=ON -D BUILD_opencv_python2=OFF -D BUILD_opencv_java=OFF -D WITH_GSTREAMER=ON -D WITH_GTK=ON -D BUILD_TESTS=OFF -D BUILD_PERF_TESTS=OFF -D BUILD_EXAMPLES=OFF -D OPENCV_ENABLE_NONFREE=OFF ..$ make -j3$ sudo make install$ cd ~/.virtualenvs/tf2/lib/python3.6/site-packages$ ln -s /usr/local/lib/python3.6/site-packages/cv2/python-3.6/cv2.cpython-36m-aarch64-linux-gnu.so cv2.so
最后克隆Monk对象检测库并安装TF对象检测API
$ git clone https://github.com/Tessellate-Imaging/Monk_Object_Detection.git$ cd Monk_Object_Detection/12_tf_obj_1/installation/$ chmod +x install_nano.sh && ./install_nano.sh
将优化的权重文件夹复制/下载到jetson nano工作目录(克隆Monk库)
从Monk_Object_Detection库复制示例图像
$ cp -r Monk_Object_Detection/example_notebooks/sample_dataset/ship .
加载推理引擎和模型(此步骤大约需要4到5分钟)
from infer_detector import Infergtf = Infer();gtf.set_model_params('trt_fp16_dir/trt_graph.pb', "ship/classes.txt")
现在,如前所述,TensorRT负责计划并在运行时构建(优化)计划,因此第一次运行大约需要3-4分钟
scores, bboxes, labels = gtf.infer_on_image('ship/test/img5.jpg', thresh=0.5, img_size=300);
突出显示的区域显示了Jetson Nano的TesnorRT建立(优化)计划(模型)(作者拥有的图像)
再次运行它不会花费太多时间。
Benchmark板基准分析
gtf.benchmark_for_speed('ship/test/img1.jpg')
# With Jetson Nano power mode - 5W ModeAverage Image loading time : 0.0275 secAverage Inference time : 0.0621 sectotal_repetitions : 100total_time : 6.2172secimages_per_sec : 16latency_mean : 67.1722 mslatency_median : 60.7875 mslatency_min : 57.4391 ms
# With Jetson Nano power mode - MAXN ModeAverage Image loading time : 0.0173 secAverage Inference time : 0.0426 sectotal_repetitions : 100total_time : 4.2624 secimages_per_sec : 23latency_mean : 42.6243 mslatency_median : 41.9758 mslatency_min : 40.9001 ms
jupyter notebook提供TensorFlow对象检测API 1.0的完整代码
从谷歌驱动器下载所有预先训练的权重
从在自定义数据集上训练检测器到在Jetson纳米板或云上使用TensorFlow 2.3进行推理的详细步骤
要安装的库
前提条件:numpy,scipy,pandas,pandas,pillow,OpenCV-python
带TensorRT 6.0.1的TensorFlow-GPU V2.3.0
使用Monk Object Detection Toolkit的TF Object Detection API 2.0
将进行TensorRT安装
后续部分(确保CUDA 10.0和CUDNN 7随系统一起安装了NVidia驱动程序)
在开发(训练)机器中运行以下步骤
$ git clone https://github.com/Tessellate-Imaging/Monk_Object_Detection.git#For Cuda 10 systems$ cd Monk_Object_Detection/13_tf_obj_1/installation && chmod +x install_cuda10.sh && ./install_cuda10.sh#For Google colab$ cd Monk_Object_Detection/13_tf_obj_1/installation && chmod +x install_colab.sh && ./install_colab.sh
这与第1部分中的相同。Monk对象检测解析器要求数据集采用COCO或Pascal VOC格式。对于本教程,让我们坚持使用Pascal VOC格式
要将你的数据集从任何格式转换为Pascal VOC,请查看以下详细教程
在此示例中,船检测数据集是从一篇对象检测的旧博客中获取的
此jupyter notebook中提到了使用数据的步骤
加载训练引擎
from train_detector import Detectorgtf = Detector();
在TF 2.0 Model Zoo中加载所有可用的模型
目前,它支持26种SSD,Faster RCNN和EfficientDet不同的型号
即将添加对Centernet模型的支持,原始管道在训练中有错误
加载训练和验证数据集
将注释转换为VOC格式后加载数据集
根据可用的GPU设置批处理大小。在本教程中,使用了具有V100 GPU(16 GB VRAM)的AWS EC2 P3.2x计算机,批次大小为24非常适合。
train_img_dir = "ship/images/Train";train_anno_dir = "ship/voc/";class_list_file = "ship/classes.txt";gtf.set_train_dataset(train_img_dir, train_anno_dir, class_list_file, batch_size=24)
运行解析器将数据集转换为tfrecords
Tf Record文件将存储在data_tfrecord文件夹中
gtf.create_tfrecord(data_output_dir="data_tfrecord")
选择并加载模型
下载模型后,Monk会根据所选参数自动更新配置文件
在本教程中,我们使用了SSD MobileNet V2,它可以接收形状为320x320x3 RGB图像的输入图像
gtf.set_model_params(model_name="ssd_mobilenet_v2_320")
设置其他训练和优化器参数
set_hyper_params(num_train_steps=10000,lr=0.004,lr_decay_rate=0.945,output_dir="output_dir/",sample_1_of_n_eval_examples=1,sample_1_of_n_eval_on_train_examples=5,checkpoint_dir=False,run_once=False,max_eval_retries=0,num_workers=4,checkpoint_after_every=500)
设置目录,将存储导出的参数
gtf.export_params(output_directory="export_dir");
设置tensorRT优化参数
TensorRT优化器创建一个计划,然后构建它。构建计划是为了优化它正在构建的GPU的模型。
如前所述,在具有不同cuda计算能力的GPU上优化的模型无法在jetson nano上运行,因此Monk库确保该计划在开发机(云或colab)上编译,而该计划则在运行时在部署机(jetson nano)上构建
使用INT8优化时,无法执行此功能,计划的编制和构建都必须在同一台机器上,并且Jetson纳米板与8位整数运算不太兼容
gtf.TensorRT_Optimization_Params(conversion_type="FP16", trt_dir="trt_fp16_dir")
训练探测器
检测器训练运行一个执行sys.exit()函数的会话,因此在其上运行的包装程序将关闭python系统。
为了解决此问题,提供了一个名为train.py的脚本,该脚本可以在jupyter notebook或终端命令上运行
根据参数设置,训练好的模型将保存在名为“ output_dir”的文件夹中。
# For terminal users$ python Monk_Object_Detection/13_tf_obj_2/lib/train.py# For jupyter notebook or colab users%run Monk_Object_Detection/13_tf_obj_2/lib/train.py
导出训练有素的检查点模型
export函数运行一个执行sys.exit()函数的会话,因此在其上运行的包装器将关闭python系统。
为了解决此问题,提供了一个名为export.py的脚本,该脚本可以在jupyter notebook或终端命令上运行
根据参数设置,导出的模型将保存在名为“ export_dir”的文件夹中。
# For terminal users$ python Monk_Object_Detection/13_tf_obj_2/lib/export.py# For jupyter notebook and colab users%run Monk_Object_Detection/13_tf_obj_2/lib/export.py
安装TensorRT版本6.0.1
转到Nvidia TensorRT页面并下载基于OS和CUDA的TRT6软件包。
下面提到的是适用于Ubuntu OS和Cuda 10.1的步骤
# Optimizing For TensorRT - Feature Not tested on colab# This requires TensorRT 6.0.1 to be installed# Go to https://developer.nvidia.com/tensorrt# Download # - nv-tensorrt-repo-ubuntu1804-cuda10.1-trt6.0.1.5-ga-20190913_1-1_amd64.deb (For Ubuntu18.04)# - nv-tensorrt-repo-ubuntu1604-cuda10.1-trt6.0.1.5-ga-20190913_1-1_amd64.deb (For Ubuntu16.04)
# Run the following commands to install trt (in a terminal)$ sudo dpkg -i nv-tensorrt-repo-ubuntu1804-cuda10.1-trt6.0.1.5-ga-20190913_1-1_amd64.deb$ sudo apt-key add /var/nv-tensorrt-repo-cuda10.1-trt6.0.1.5-ga-20190913/7fa2af80.pub$ sudo apt-get update$ sudo apt-get install tensorrt$ sudo apt-get install uff-converter-tf$ sudo apt-get install python3-libnvinfer-dev
优化导出模型
优化函数运行一个执行sys.exit()函数的会话,因此在其上运行的包装程序将关闭python系统。
为了解决此问题,提供了一个名为optimize.py的脚本,该脚本可以在jupyter notebook电脑或终端命令上运行
根据参数设置,优化的模型将保存在名为“ trt_fp16_dir”的文件夹中。
# For terminal users$ python Monk_Object_Detection/13_tf_obj_2/lib/optimize.py# For jupyter notebook and colab users%run Monk_Object_Detection/13_tf_obj_2/lib/optimize.py
加载推理机
from infer_detector import Infergtf = Infer();
载入模型
首先加载导出的模型并运行步骤;稍后通过加载优化的模型重复相同的步骤(步骤保持不变)
# To load exported modelgtf.set_model_params(exported_model_dir = 'export_dir')# To load optimized modelgtf.set_model_params(exported_model_dir = 'trt_fp16_dir')
对单个图像进行推断
scores, bboxes, labels = gtf.infer_on_image('ship/test/img1.jpg', thresh=0.1);
样本推断结果
使用两个模型运行速度测试分析
gtf.benchmark_for_speed('ship/test/img1.jpg')
在AWS P3.2x V100 GPU上使用导出的模型(未优化)进行分析
Average Image loading time : 0.0110 secAverage Inference time : 0.0097 secResult extraction time : 0.0352 sectotal_repetitions : 100total_time : 0.9794 secimages_per_sec : 102latency_mean : 9.7949 mslatency_median : 9.7095 mslatency_min : 9.1238 ms
在AWS P3.2x V100 GPU上使用优化模型进行分析
约1.5倍的速度加快处理后期优化
Average Image loading time : 0.0108 secAverage Inference time : 0.0062 secResult extraction time : 0.0350 sectotal_repetitions : 100total_time : 0.6241 secimages_per_sec : 160latency_mean : 6.2422 mslatency_median : 6.2302 mslatency_min : 5.9401 ms
步骤1:下载Jetpack 4.3 SD卡映像 https://developer.nvidia.com/jetpack-43-archive
步骤2:将此图片写入SD卡。你可以使用 https://www.balena.io/etcher/
步骤3:将你的SD卡插入Nano板并启动系统,然后完成安装步骤
获取有关Nvidia的“ Jetson Nano入门”页面的更多详细信息
步骤1:更新Apt
$ sudo apt-get update$ sudo apt-get upgrade
步骤2:安装系统库
$ sudo apt-get install nano git cmake libatlas-base-dev gfortran libhdf5-serial-dev hdf5-tools nano locate libfreetype6-dev python3-setuptools protobuf-compiler libprotobuf-dev openssl libssl-dev libcurl4-openssl-dev cython3 libxml2-dev libxslt1-dev python3-pip$ sudo apt-get install libopenblas-dev libprotobuf-dev libleveldb-dev libsnappy-dev libhdf5-serial-dev protobuf-compiler libgflags-dev libgoogle-glog-dev liblmdb-dev$ sudo pip3 install virtualenv virtualenvwrapper
步骤3:更新bashrc文件
将这些行添加到〜/ .bashrc文件
export VIRTUALENVWRAPPER_PYTHON=/usr/bin/python3export WORKON_HOME=$HOME/.virtualenvsexport VIRTUALENVWRAPPER_VIRTUALENV=/usr/local/bin/virtualenvsource /usr/local/bin/virtualenvwrapper.shexport PATH=/usr/local/cuda-10.0/bin${PATH:+:${PATH}}export LD_LIBRARY_PATH=/usr/local/cuda-10.0/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}
运行以下命令
$ source ~/.bashrc
步骤4:创建虚拟环境并安装所有必需的python库
安装numpy大约需要15分钟
$ mkvirtualenv -p /usr/bin/python3.6 tf2$ pip install numpy==1.19.1
安装scipy大约需要40分钟
$ pip install scipy==1.5.1
安装Jetson Nano TensorFlow-2.0.0需再花费15分钟
$ pip install scikit-build protobuf cython -vvvv$ pip install grpcio absl-py py-cpuinfo psutil portpicker six mock requests gast h5py astor termcolor protobuf keras-applications keras-preprocessing wrapt google-pasta -vvvv$ pip install https://developer.download.nvidia.com/compute/redist/jp/v43/tensorflow-gpu/tensorflow_gpu-2.0.0+nv19.12-cp36-cp36m-linux_aarch64.whl -vvvv
安装OpenCV需要1.5个小时
$ mkdir opencv && cd opencv$ wget -O opencv.zip https://github.com/opencv/opencv/archive/4.1.2.zip$ unzip opencv.zip$ mv opencv-4.1.2 opencv$ cd opencv && mkdir build && cd build$ cmake -D CMAKE_BUILD_TYPE=RELEASE -D WITH_CUDA=OFF -D WITH_CUBLAS=OFF -D WITH_LIBV4L=ON -D BUILD_opencv_python3=ON -D BUILD_opencv_python2=OFF -D BUILD_opencv_java=OFF -D WITH_GSTREAMER=ON -D WITH_GTK=ON -D BUILD_TESTS=OFF -D BUILD_PERF_TESTS=OFF -D BUILD_EXAMPLES=OFF -D OPENCV_ENABLE_NONFREE=OFF ..$ make -j3$ sudo make install$ cd ~/.virtualenvs/tf2/lib/python3.6/site-packages$ ln -s /usr/local/lib/python3.6/site-packages/cv2/python-3.6/cv2.cpython-36m-aarch64-linux-gnu.so cv2.so
最后克隆Monk Object Detection库
注意:不要像在开发机器中那样运行13_tf_obj_2的安装。用tf2.0安装tf对象检测有一些问题。推理代码不需要对象检测API工具。
$ git clone https://github.com/Tessellate-Imaging/Monk_Object_Detection.git
将优化的权重文件夹复制/下载到jetson nano工作目录(Monk库为克隆目录)
从Monk_Object_Detection库复制示例图像
$ cp -r Monk_Object_Detection/example_notebooks/sample_dataset/ship .
加载推理引擎和模型(此步骤大约需要4到5分钟)
from infer_detector_nano import Infergtf = Infer();gtf.set_model_params(exported_model_dir = 'trt_fp16_dir')
现在,如前所述,TensorRT采用计划并在运行时构建(优化)它,因此第一次运行大约需要3-4分钟
scores, bboxes, labels = gtf.infer_on_image('ship/test/img1.jpg', thresh=0.1);# Oputput will be saved as output.jpggtf.draw_on_image(self, bbox_thickness=3, text_size=1, text_thickness=2)
突出显示的区域显示了Jetson Nano的TesnorRT建立(优化)计划(模型)(作者拥有的图像)
再次运行它不会花费太多时间。
Benchmark板基准分析
gtf.benchmark_for_speed('ship/test/img1.jpg')
# With Jetson Nano power mode - 5W ModeAverage Image loading time : 0.0486 secAverage Inference time : 0.1182 sectotal_repetitions : 100total_time : 11.8244 secimages_per_sec : 8latency_mean : 118.2443 mslatency_median : 117.8019 mslatency_min : 111.0002 ms
# With Jetson Nano power mode - MAXN ModeAverage Image loading time : 0.0319 secAverage Inference time : 0.0785 sectotal_repetitions : 100total_time : 7.853 secimages_per_sec : 12latency_mean : 78.5399 mslatency_median : 78.1973 mslatency_min : 76.2658 ms
jupyter notebook提供TensorFlow对象检测API 2.0的完整代码
从谷歌驱动器下载所有预先训练的权重
TensorFlow对象检测API V 2.0的所有工作到此结束