前言:
最近参加了2021年电赛的F题,因为诸多原因未能完赛,现将图像识别部分的记录一下,交流学习。
因为只介绍视觉部分,我们就节选相关的部分吧。
设计并制作智能送药小车,模拟完成在医院药房与病房间药品的送取作业。院区结构示意如图 1 所示。院区走廊两侧的墙体由黑实线表示。走廊地面上画有居中的红实线,并放置标识病房号的黑色数字可移动纸张。药房和近端病房号(1、 2 号)如图 1 所示位置固定不变,中部病房和远端病房号(3-8 号)测试时随机设定。
工作过程:参赛者手动将小车摆放在药房处(车头投影在门口区域内,面向病房),手持数字标号纸张由小车识别病房号,将约 200g 药品一次性装载到送药小车上;小车检测到药品装载完成后自动开始运送;小车根据走廊上的标识信息自动识别、寻径将药品送到指定病房(车头投影在门口区域内),点亮红色指示灯,等待卸载药品;病房处人工卸载药品后,小车自动熄灭红色指示灯,开始返回;小车自动返回到药房(车头投影在门口区域内,面向药房)后,点亮绿色指示灯。
由题意可知,图像部分大致可以分为
识别道路有很多方案,我们组前期错误的选择了红外循线的方案。这种方案精度低,而且会受环境影响。
后期转向OpenMV的方案。
识别数字有很多方案,比如OpenMV、K210、树莓派、Jetson nano甚至x86架构的单板计算机都可以用,但是因为前期准备的原因我们只实现了OpenMV的方案。
这里还是要说一下,OpenMV算力有限,实在是难堪重任,并不是本题的最优解法。
这里我们采用的是匿名飞控给无人机写的一套OpenMV代码,略作修改。
核心思想是在图像的上、中、下、左、右各划出一个细长条的区域,在各自区域内检测是否有指定大小的红色色块,再根据五个部分红色色块的有无即可判定是直线还是路口、是何种路口以及直线的倾角和偏移量。
如下图所示,左边只有上、中、下有小方框,是直线;右边上、中、下、左、右都有小方框,是路口。
终点线是黑色虚线,可以视为两厘米见方的黑色小矩形,可以使用OpenMV内置的矩形检测函数检测指定大小范围的矩形,当矩形数量足够多时即视为终点线。
import sensor, image, time, math, struct
from pyb import UART
import json
sensor.reset()
sensor.set_pixformat(sensor.RGB565)
# 要检测颜色,所以使用彩色模式
sensor.set_framesize(sensor.QQVGA)
# 使用QQVGA降低画质提升运行速度
sensor.skip_frames(time=3000)
sensor.set_auto_whitebal(False)
# 颜色检测一定要关闭自动白平衡
clock = time.clock()
uart = UART(1, 115200)
uart.init(115200, bits=8, parity=None, stop=1)
# 上面是串口通信的部分
Red_threshold =[(13, 40, -2, 57, 11, 47),(29, 50, 13, 79, 15, 67),(33, 50, 16, 73, 2, 61)]
# 红色的LAB阈值,在赛场上需要重新进行标定,可使用OpenMV IDE自带的阈值编辑器进行标定
ROIS = {
'down': (0, 105, 160, 15),
'middle': (0, 52, 160, 15),
'up': (0, 0, 160, 15),
'left': (0, 0, 15, 120),
'right': (145,0, 15, 120),
'All': (0, 0, 160,120),
}
# 划分了上中下左右五个部分
class LineFlag(object):
flag = 0
cross_y = 0
delta_x = 0
class EndFlag(object):
endline_type = 0
endline_y = 0
LineFlag=LineFlag()
EndFlag=EndFlag()
# 红色实线部分函数
def find_blobs_in_rois(img):
global ROIS
roi_blobs_result = {
}
for roi_direct in ROIS.keys():
roi_blobs_result[roi_direct] = {
'cx': -1,
'cy': -1,
'blob_flag': False
}
for roi_direct, roi in ROIS.items():
blobs=img.find_blobs(Red_threshold, roi=roi, merge=True, pixels_area=10)
if len(blobs) == 0:
continue
largest_blob = max(blobs, key=lambda b: b.pixels())
x,y,width,height = largest_blob[:4]
if not(width >=3 and width <= 45 and height >= 3 and height <= 45):
continue
roi_blobs_result[roi_direct]['cx'] = largest_blob.cx()
roi_blobs_result[roi_direct]['cy'] = largest_blob.cy()
roi_blobs_result[roi_direct]['blob_flag'] = True
if (roi_blobs_result['down']['blob_flag']):
if (roi_blobs_result['left']['blob_flag']and roi_blobs_result['right']['blob_flag']):
LineFlag.flag = 2 #十字路口或丁字路口
elif (roi_blobs_result['left']['blob_flag']):
LineFlag.flag = 3 # 左转路口
elif (roi_blobs_result['right']['blob_flag']):
LineFlag.flag = 4 # 右转路口
elif (roi_blobs_result['middle']['blob_flag']):
LineFlag.flag = 1 #直线
else:
LineFlag.flag = 0 # 未检测到
else:
if(roi_blobs_result['middle']['blob_flag']and roi_blobs_result['up']['blob_flag']):
if (roi_blobs_result['left']['blob_flag']and roi_blobs_result['right']['blob_flag']):
LineFlag.flag = 5 # 即将跨过十字路口
elif (roi_blobs_result['left']['blob_flag']):
LineFlag.flag = 6 # 即将跨过左拐丁字路口
elif (roi_blobs_result['right']['blob_flag']):
LineFlag.flag = 7 # 即将跨过右拐丁字路口
else:
LineFlag.flag = 8 # 直线(无down块)
else:
LineFlag.flag = 0
# 下面这部分是特例的判断,防止出现
# “本来是直线道路,但是太靠近左侧或者右侧,被识别成了左转或者右转”
# 这样的特殊情况
if (LineFlag.flag == 3 and roi_blobs_result['left']['cy']<10):
LineFlag.flag = 1
if (LineFlag.flag == 4 and roi_blobs_result['right']['cy']<10):
LineFlag.flag = 1
if (LineFlag.flag == 3 and roi_blobs_result['down']['cx']<30):
LineFlag.flag = 1
if (LineFlag.flag == 4 and roi_blobs_result['down']['cy']>130):
LineFlag.flag = 1
# 计算两个输出值,路口交叉点的纵坐标和直线时红线的偏移量
LineFlag.cross_y = 0
LineFlag.delta_x = 0
if (LineFlag.flag == 1 or LineFlag.flag == 2 or LineFlag.flag == 3 or LineFlag.flag == 4) :
LineFlag.delta_x = roi_blobs_result['down']['cx']
elif (LineFlag.flag == 5 or LineFlag.flag == 6 or LineFlag.flag == 7 or LineFlag.flag == 8):
LineFlag.delta_x = roi_blobs_result['middle']['cx']
else:
LineFlag.delta_x = 0
if (LineFlag.flag == 2 or LineFlag.flag == 5):
LineFlag.cross_y = (roi_blobs_result['left']['cy']+roi_blobs_result['right']['cy'])//2
elif (LineFlag.flag == 3 or LineFlag.flag == 6):
LineFlag.cross_y = roi_blobs_result['left']['cy']
elif (LineFlag.flag == 4 or LineFlag.flag == 7):
LineFlag.cross_y = roi_blobs_result['right']['cy']
else:
LineFlag.cross_y = 0
# 终点线黑色虚线部分的函数
def find_endline(img):
endbox_num = 0
for r in img.find_rects(threshold = 10000):
endbox_size = r.magnitude()
endbox_w = r.w()
endbox_h = r.h()
k=1
# 筛选黑色矩形大小
if (endbox_size<24000*k*k and endbox_h<25*k and endbox_w<25*k) :
endbox_num = endbox_num + 1;
# 判断是否是终点线
EndFlag.endline_type = 0
if (endbox_num>2 and endbox_num<6):
EndFlag.endline_type = 1 # 检测到第一条终点线
elif(endbox_num >=6 ):
EndFlag.endline_type = 2 # 检测到两条终点线
else:
EndFlag.endline_type = 0 # 未检测到终点线
while(True):
clock.tick()
global img
img = sensor.snapshot()
# 拍照
img = img.replace(vflip=1,hmirror=1,transpose=0)
# 因为是倒装的做上下颠倒
find_blobs_in_rois(img)
# 巡线函数
find_endline(img)
# 找终点线函数
FH = bytearray([0xc3,0xc3])
uart.write(FH)
# 发送帧头
data = bytearray([LineFlag.flag, LineFlag.delta_x, LineFlag.cross_y, EndFlag.endline_type])
uart.write(data)
# 发送内容
ED = bytearray([0xc4,0xc4])
uart.write(ED)
# 发送帧尾
数值 | 含义 |
---|---|
00 | 未检测到直线 |
01 | 直线 |
02 | 十字路口或丁字路口 |
03 | 左转路口(顶部10像素以下) |
04 | 右转路口(顶部10像素以下) |
05 | 即将跨过十字路口(无down块) |
06 | 即将跨过左拐丁字路口(无down块) |
07 | 即将跨过右拐丁字路口(无down块) |
08 | 直线(无down块) |
数值 | 含义 |
---|---|
0~160 | 赛道红色中心线底部的X轴水平位置,左小右大;无down块时,返回中部的middle块X轴水平位置 |
数值 | 含义 |
---|---|
0~120 | 赛道红色中心线十字路口或丁字路口交叉点的Y轴竖直位置,上小下大 |
数值 | 含义 |
---|---|
00 | 未检测到终点线 |
01 | 检测到第一根终点线 |
02 | 检测到第二根终点线 |
由题目可知,我们要同时识别两个或四个数字,这里有很多办法,我们的办法是让相机尽可能加高、使用广角镜头以便同时能看到四个数字。
如下图所示,小车的高度刚好卡在了25cm的限高,以便同时看到四个数字。
我们再图像内划分出了五个ROI区域,依次检测,即可检测到处于五种不同位置的数字了。
OpenMV可以跑TensorFlow Lite模型,具体如何训练可以参考下面这篇博客。
https://blog.csdn.net/qq_36300069/article/details/118071444
训练模型的网站如下
https://studio.edgeimpulse.com/
这个网站可以把模型打包好导入OpenMV中,数据集是自己拍的照片,一共八十张训练集、二十张测试集。参数上我选择的是160*160像素、灰度图、训练100步,模型选的0.35的V2模型。
数据集如下图所示,左边是训练集,右边是测试集。
仅仅是神经网络模型识别准确率还不高,我们使用了一些方法对图像进行一些处理来提高识别的成功率。
总体流程如下
import sensor, image, time, os, tf
from pyb import UART
import json
sensor.reset()
sensor.set_pixformat(sensor.RGB565)
sensor.set_framesize(sensor.VGA)
sensor.skip_frames(time=2000)
net = "trainedv13.tflite"
# 透视校正用的四个点
TARGET_POINTS = [(143,210),
(495,214),
(640,480),
(0,480)]
# 识别数字的五个区域
ROI0 = (210,170,170,170)
ROI1 = (20,0,170,170)
ROI2 = (150,0,170,170)
ROI3 = (285,0,170,170)
ROI4 = (430,0,170,170)
# 反相后红色阈值
xred_threshold = (51, 84, -31, -3, -26, -2)
# 各区域识别数字准确度门槛
keyline_0 = 0.7
keyline_1 = 0.6
keyline_2 = 0.65
keyline_3 = 0.65
keyline_4 = 0.6
ans_num = 0
clock = time.clock()
uart = UART(3, 115200)
uart.init(115200, bits=8, parity=None, stop=1)
while(True):
clock.tick()
# 拍照并进行一堆预处理
img = sensor.snapshot().lens_corr(strength = 1.7, zoom = 0.55)
img = img.replace(vflip=1,hmirror=1,transpose=0)
img = img.rotation_corr(corners = TARGET_POINTS)
img = img.negate()
img = img.binary([xred_threshold], invert=False, zero=True)
img = img.negate()
# 识别中心数字
for obj in tf.classify(net, img, roi=ROI0, min_scale=1.0, scale_mul=0.8, x_overlap=0.5, y_overlap=0.5):
out = obj.output()
max_idx = out.index(max(out))
if max(out)>keyline_0:
ans_0 = max_idx + 1
else:
ans_0 = 0
# 识别左起第一个数字
for obj in tf.classify(net, img, roi=ROI1, min_scale=1.0, scale_mul=0.8, x_overlap=0.5, y_overlap=0.5):
out = obj.output()
max_idx = out.index(max(out))
if max(out)>keyline_1:
ans_1 = max_idx + 1
else:
ans_1 = 0
# 识别左起第二个数字
for obj in tf.classify(net, img, roi=ROI2, min_scale=1.0, scale_mul=0.8, x_overlap=0.5, y_overlap=0.5):
out = obj.output()
max_idx = out.index(max(out))
if max(out)>keyline_2:
ans_2 = max_idx + 1
else:
ans_2 = 0
# 识别左起第三个数字
for obj in tf.classify(net, img, roi=ROI3, min_scale=1.0, scale_mul=0.8, x_overlap=0.5, y_overlap=0.5):
out = obj.output()
max_idx = out.index(max(out))
if max(out)>keyline_3:
ans_3 = max_idx + 1
else:
ans_3 = 0
# 识别左起第四个数字
for obj in tf.classify(net, img, roi=ROI4, min_scale=1.0, scale_mul=0.8, x_overlap=0.5, y_overlap=0.5):
out = obj.output()
max_idx = out.index(max(out))
if max(out)>keyline_4:
ans_4 = max_idx + 1
else:
ans_4 = 0
# 串口通信模块
FH = bytearray([0xc3,0xc3])
uart.write(FH)
data = bytearray([ans_1, ans_2, ans_3, ans_4, ans_0])
uart.write(data)
ED = bytearray([0xc4,0xc4])
uart.write(ED)
实际识别效果尚可,但是帧率极低,联机状态只有大约0.4fps。