1.预备知识
2.将Tengine安装在x86平台的电脑上
3.将Tengine 安装在 Arm64 平台上
1. 预备知识
Tengine 官方 github
Tengine 是OPEN AI LAB 针对前端智能设备开发的软件开发包,核心部分是一个轻量级,模块化,高性能的AI 推断引擎,并支持用DLA、GPU、xPU作为硬件加速计算资源异构加速。
Tengine特点:
1.对Arm架构进行加速
2.可以直接调用caffe/Tengine等模型
3.只是一个推断引擎,并不支持训练
使用板子:RK3399
RK3399特点:
1.CPU特性:6核
2.内置SRAM
3.含有Mali-T864 GPU
4.支持双MIPI CSI,双ISP
对于我们进行检测,速率足够了。
使用C语言编译器:CLion
由于tengine中的代码提供cmake文件,在Clion中可以很好的支持cmake文件的编写,调试和运行。
2. 将Tengine安装在x86平台的电脑上
参考:官方Installation Guide
目前使用的大部分笔记本电脑是使用x86架构,在x86架构上,无法使用Arm为Arm架构开发的快速计算的包文件,但是还是可以使用通用的BLAS(线性代数)包。
安装过程如下:(Ubuntu 16.04)
1.安装官方的github文件
git clone https://github.com/OAID/tengine/
- 为了能使用caffe模型,我们需要安装一些caffe支持包
sudo apt install libprotobuf-dev \
protobuf-compiler \
libboost-all-dev \
libgoogle-glog-dev \
3.为了做图像处理,安装opencv
sudo apt install libopencv-dev
4.编写 makefile.config文件
cd ~/tengine # 进入到从github中下载的tengine目录
cp makefile.config.example makefile.config # 由备份的makefile文件,进行编写适合x86的makefile
编辑makefile.config文件
1.由于不是arm64,所以要注释该行
# Set the target arch
# CONFIG_ARCH_ARM64=y
2.由于不能使用arm64,所以我们应该使用blas
# Use BLAS as the operator implementation
# 并且需要另外 安装 开源的线性代数库
# sudo apt-get install libopenblas-dev
CONFIG_ARCH_BLAS=y
3.由于我们使用caffe的模型,我们需要使能该行
# Enable other serializers
CONFIG_CAFFE_SERIALIZER=y
编辑完成,请注意保存
5.进行编译
在 tengine 路径下
make -j4 # j4表示4个线程,进行编译,线程过多可能会发生问题,线程过少,编译过慢
将必要的头文件移动到系统文件中
make install
正常显示:
......(省略)
cp -f core/include/tengine_c_api.h /home/lee/Documents/tengine/install/include
cp -f core/include/cpu_device.h /home/lee/Documents/tengine/install/include
cp -f core/include/tengine_test_api.h /home/lee/Documents/tengine/install/include
cp -f /home/lee/Documents/tengine/build/libtengine.so /home/lee/Documents/tengine/install/lib
- 执行测试程序
测试程序位于
tengine路径/build/tests/bin/bench_sqz
执行可执行文件
./build/tests/bin/bench_sqz -r1 # r1 表示重复1次
正常输出
firefly@firefly:~/tengine$ ./build/tests/bin/bench_sqz
run-time library version: 1.0.0-github # 2019年1月1日,Tengine发布1.0 版本
REPEAT COUNT= 100
Repeat [100] time 52883.32 us per RUN. used 5288332 us
0.2763 - "n02123045 tabby, tabby cat"
0.2673 - "n02123159 tiger cat"
0.1766 - "n02119789 kit fox, Vulpes macrotis"
0.0827 - "n02124075 Egyptian cat"
0.0777 - "n02085620 Chihuahua"
--------------------------------------
ALL TEST DONE
3. 将Tengine 安装在 Arm64 平台上
rk3399 和 树莓派 都是使用Arm架构的产品,但是 rk3399 是 64位 产品,树莓派是 32位 的产品。
OAID对Arm64的优化后的计算速度,比BLAS略快。所以建议在RK3399中使用Arm64的优化。
过程如下:
1.安装官方的github文件(同上)
2.为了能使用caffe模型,我们需要安装一些caffe支持包(同上)
3.为了做图像处理,安装opencv(同上)
4.编写 makefile.config文件(同上)
编辑makefile.config文件
1. 使用arm64架构,所以要使能该段
# Set the target arch
CONFIG_ARCH_ARM64=y
2.不使用BLAS进行加速
# Use BLAS as the operator implementation
# CONFIG_ARCH_BLAS=y
3.使用caffe模块
# Enable other serializers
CONFIG_CAFFE_SERIALIZER=y
同样我们可以使用GPU进行加速运算
参考:
ARM Compute Library Driver
使用GPU的example
总结如下:
如果我们需要使用GPU,我们需要安装ACL驱动
1.从github将代码拷下来(位于目录 "/home/firefly/ComputeLibrary")
git clone https://github.com/ARM-software/ComputeLibrary.git
2.进入ComputeLibrary目录
cd ComputeLibrary
3. 版本控制
git checkout v18.05
4.编译
apt-get install scons
scons Werror=1 -j4 debug=0 asserts=1 neon=0 opencl=1 embed_kernels=1 os=linux arch=arm64-v8a
编辑tengine的makefile.config文件,使得支持ACL加速
1. 使用Arm64
# Set the target arch
CONFIG_ARCH_ARM64=y
2.使用GPU加速
# Enable GPU support by Arm Computing Library
CONFIG_ACL_GPU=y
3.不使用BLAS加速
# Use BLAS as the operator implementation
# CONFIG_ARCH_BLAS=y
4. 指定ACL路径
# Set the path of ACL
ACL_ROOT=/home/firefly/ComputeLibrary
5.使用caffe模型
# Enable other serializers
CONFIG_CAFFE_SERIALIZER=y
使用GPU的一些提示:
1.代码提示
...(省略)
while((res=getopt(argc,argv,"d:f:r:"))!=-1)
{
switch(res)
{
case 'd':
device = optarg;
break;
...(省略)
if("" != device)
set_default_device( device.c_str());
...(省略)
2.已经编译过tengine时,请注意删除
rm -r tengine路径/build/driver
测试样例
./build/tests/bin/bench_sqz -d acl_opencl
5.进行编译(同上)
6.执行测试程序(同上)
到此tengine已经安装完成
54恶