基于太赫兹和深度学习的危险品智能识别系统
刘宁宁 (河南中光学集团有限公司 河南 南阳 )
摘 要:基于太赫兹线性扫描成像和深度学习技术,实现包裹危险品的实时智能识别。采用太赫兹线性扫描成像技术,穿透包裹、衣物、信封等物品,探测隐匿的塑胶凶器、塑胶炸弹、流体炸药、易燃易爆液体等危险品,形成太赫兹图像。对太赫兹图像,采用基于深度学习的目标检测方法,实现危险品检测识别。实验结果表明,该系统对危险品成像,能显现X射线扫描仪不易探测的危险品,能自动识别,且精度高、实时性好。该系统是一种成像质量好,识别精度高,实时性好的包裹危险品智能识别系统。
太赫兹(THz)波是一种频率范围为 0.1THz-10THz,波长范围为 0.03-3mm,介于无线电波和光波之间的电磁波。具有高时空相干性、低光子能量、使用安全性高、定向性好、频谱宽等特性,近年来迅速发展,在军事、安全、医疗、生物、农业等科学领域得到广泛应用[1]。传统的X射线扫描仪,对非金融、液态、粉末状物品具有很强的穿透性,不易成像。利用太赫兹成像技术,可以对x射线透过的物品,进行有效的检测。现有的安检系统,主要通过人工识别,耗费巨大人力成本。因此,需要研制一种基于太赫兹成像的危险品智能识别系统。
近年来,由于快速激光技术的发展,太赫兹辐射源、探测器和关键器件的研制取得较大成功[2],太赫兹成像技术得以实现。利用太赫兹成像技术[3]的太赫兹线性扫描仪和太赫兹相机已初步应用于安全、医疗领域。传统的目标识别方法主要基于特征提取和分类器,需要根据特定的待检测目标设计特征,该方法对单类别或少量类别检测效果较好,对多类别目标检测识别能力有限。目前基于深度学习的目标检测方法,可以自动提取出最佳分类特征,对多类别目标检测具有优异的性能。
深度学习是由多伦多大学的Hinton et al.提出的一种新型的多层神经网络学习算法,在计算机视觉[4]、目标检测识别[5]、语音识别[6]等领域已得到较为广泛的应用,是当前的研究、应用热点。目前比较流行的深度学习算法框架有Tensorflow、Daknet以及Caffe等。深度学习相关的目标检测方法大致分为两类:基于区域提名的,如R-CNN[7]、Fast R-CNN[8]、Faster R-CNN[9]、R-FCN[10];端到端(End-to-End)的,如YOLO[11]、SSD[12]。端到端的方法,无需区域提名,把目标判定和目标识别合二为一,所以识别性能有了很大提升。
Darknet深度学习框架是由Joseph Redmon提出的一个用C和CUDA编写的开源神经网络框架。它安装速度快,易于安装,并支持CPU和GPU计算。YOLO是Joseph Redmon针对Daknet这一框架提出的目标检测算法,具有速度快、泛化能力强、识别率高等优点。YOLO有两个缺点,定位不准确,和基于region proposal的方法相比召回率较低。SSD借鉴了Faster R-CNN中的Anchor机制,同时使用了多尺度,在保持YOLO高速的同时效果也提升很多。
YOLO2是对YOLO的改进,在保持原有速度的同时提升了目标检测精度,比SSD更快、更精确。本文采用太赫兹线性扫描成像技术和YOLO2算法,对YOLO2算法的网络结构进行精简,在保证识别精度的前提下,减少计算量,实现了包裹危险品实时的智能识别。
1.1 太赫兹成像设备
系统采用维尔克斯光电代理的Terasense公司的TeraFAST-256,由太赫兹信号发生器,高速线性太赫兹相机组成,两个设备同步且最优化集成。成像速率达到了5000fps,图像尺寸为512x256,采用了高速度传送带,速度最高达到15m/s。图像数据流通过USB接口,传输到计算机,通过上位机软件读取并显示图像。
1.2 危险品太赫兹成像
危险品类别有6类:枪支、粉末状物品、固态非金属物品、乙醇、刀具、可燃油。危险品进行太赫兹成像如图1所示:
(a)枪支 (b)粉末状物品 (c)固态非金属物品
(d)乙醇 (e)刀具 (f)可燃油
图1 危险品太赫兹图像
系统基于深度学习框架Darknet的YOLO2算法[11],为了提高实时性,对模型框架进行了精简,实现危险品实时检测识别。模型训练环境,硬件为高性能计算机和NVIDIA GeForce RTX 1080 Ti显卡,软件为Ubuntu 16.04(64)+CUDA8.0+CUDAA6.0+OPENCV3.4
训练集由6类危险品组成,每个类别分别放入纸质包裹,采集3000张图像,通过不断随意改变包装箱和危险品的位置得到。每个类别取2500张图像用于训练,训练集共有6x2500张图像组成。
针对该训练集,为了使训练和识别速度更快,在保证识别准确率的同时,寻求两者的权衡。对YOLO2网络层进行精简,经过多次尝试,得到精简网络模型结构,如图2所示。
图2 精简网络模型结构
配置文件cfg参数设置为:batch=64,subdivisions=16,max_batches=300000,steps=150000,250000,scales=.1,.1 learning_rate=0.001。
软件采用Python语言编制,界面采用wxPython,运行于电脑端,主要功能为太赫兹线性扫描拼接成像,危险品目标的智能识别告警,太赫兹扫描成像设备的控制等,如下图3所示。软件运行环境为:
硬件:高性能计算机+NVIDIA GeForce RTX 1080 Ti显卡
软件:Windows 10(x86)+Python 2.7.14+Opencv2.4.3
图3 危险品智能识别软件
在相同的硬件平台,分别采用三种模型框架进行训练,然后对相同测试集进行性能测试,结果如表1所示。准确率=tp/(tp+fp),tp是目标被正确识别出来的个数,fp是检测出所有目标的个数。
表1 精简模型性能
model |
accuraccy(%) |
Recognize time(s) |
YOLOv2_416[11] |
96 |
1.2 |
YOLOv3_416[13] |
98 |
1.6 |
本文模型 |
96 |
0.8 |
通过对YOLO2模型框架进行精简,在保证精度的情况下,大大缩短了检测时间,提高了系统的实时性。
对含有危险品的包裹进行太赫兹扫描,通过改变包裹的摆放位置、方向等得到的太赫兹图像(512x256),形成数据集。数据集包含6个类别:刀具、枪支、乙醇、燃油、粉末、非金属固体,每个类别有3000张图像,2500张作为训练集,500张作为测试集。为了检测训练模型的识别能力,采用平均召回率(Recall_Avg)和平均交并比(Iou_Avg)作为评价指标,如下表2所示。Recall_Avg=tp/(tp+fn),tp是目标被正确识别出来的个数,fn是图片中所有目标的个数。Iou_Avg=(DetectionResult⋂GroundTruth)/(DetectionResult⋃GroundTruth),DetectionResult 为系统预测出来的框,GroundTruth为原图的标记框。
表2 模型的识别能力
Class |
Train |
test |
Recall_Avg |
Iou_Avg |
刀具 |
2500 |
500 |
0.98 |
0.92 |
枪支 |
2500 |
500 |
0.97 |
0.94 |
乙醇 |
2500 |
500 |
0.98 |
0.95 |
燃油 |
2500 |
500 |
0.98 |
0.86 |
粉末状物品 |
2500 |
500 |
0.92 |
0.89 |
非金属固体 |
2500 |
500 |
0.96 |
0.91 |
在实验中,采用普通的纸质包装箱,作为隐藏危险品的包裹,分别对包裹外和包裹内的危险品进行测试,如下图4所示。
(a)
(b)
(c)
图4 危险品智能识别报警
其中(a)为包裹外危险品检测,(b)包裹内危险品检测。包裹会对识别精度有稍微的影响,如可燃油的识别准确率由97%降为88%,但已经能够满足实际应用。(c)为包裹外多目标的检测,经过测试,该系统能够同时识别多类危险品。
系统识别准确率高、实时性好,表现出优异的性能。但是,系统采集的图像,存在较大背景噪声,会对识别结果造成一些影响。背景噪声主要由传送带震动引起,应该对传送带的平稳性进行改进,消除背景噪声。太赫兹波是一种电子能量低的电磁波,这意味着太赫兹辐射将不会对人体组织造成伤害,利用太赫兹波对日常衣物材料(棉、麻、化纤等)特殊的穿透性,可以实现人体安检。 将来对太赫兹成像技术进行改进,应用于人体安检,实现人体危险品智能识别告警,将在安全领域具有广阔的前景。
作者简介:刘宁 1988年 就职于河南中光学集团有限公司,从事深度学习,数字图像处理,arm,vs,python,android等工作
联系方式:[email protected]
参考文献:
[ 1 ] 安国雨. 太赫兹技术应用与发展研究[J]. 环境技术, 2018, v.36;No.212(02):29-32.
[ 2 ] 王汉斌. 太赫兹半导体探测器、发射器和功率放大器的制备及性能研究[D]. 2017.
[ 3] 孙建忠, 章乐, 高飞, et al. 太赫兹连续波成像的质量改进与降噪[J]. 光谱学与光谱分析, 2017(11).
[ 4 ] He K , Zhang X , Ren S , et al. Deep Residual Learning for Image Recognition[J]. 2015.
[ 5] Li G , Yu Y . Deep contrast learning for salient object detection[C]// Computer Vision and Pattern Recognition (CVPR), IEEE Conference on. IEEE, 2016.
[ 6] Xiong W , Wu L , Alleva F , et al. THE MICROSOFT 2017 CONVERSATIONAL SPEECH RECOGNITION SYSTEM[J]. 2017.
[ 7] R. Girshick, J. Donahue, T. Darrell, J. Malik. Region-Based Convolutional Networks for Accurate Object Detection and Segmentation. IEEE Transactions on Pattern Analysis and Machine Intelligence, May. 2015.
[ 8 ] Girshick, R. Fast R-CNN. ICCV 2015.
[ 9 ] S. Ren, K. He, R. Girshick, J. Sun. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks. Advances in Neural Information Processing Systems 28 (NIPS), 2015.
[ 10 ] R-FCN: Object Detection via Region-based Fully Convolutional Networks. Jifeng Dai, Yi Li, Kaiming He, and Jian Sun. Conference on Neural Information Processing Systems (NIPS), 2016.
[ 11 ] Redmon, J., Divvala, S., Girshick, R., Farhadi, A.: You only look once: Unified, real-time object detection. In: CVPR. (2016)
[ 12 ] Liu W, Anguelov D, Erhan D, et al. SSD: Single Shot MultiBox Detector[J]. arXiv preprint arXiv:1512.02325, 2015.
[ 13 ] Redmon J , Farhadi A . [IEEE 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) - Honolulu, HI (2017.7.21-2017.7.26)] 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) - YOLO9000: Better, Faster, Stronger[J]. 2017:6517-6525.