OpenMV:16神经网络

文章目录

  • 导论
  • 利用神经网络进行特征识别(已停用)
  • 神经网络检测函数
  • 检测函数`tf.classify()`返回值
  • 加载神经网络函数`tf.load()返回值`
  • 例程1.图像中央人检测
  • 例程2.整幅图像人脸检测

导论

OpenMV内置了好几个有关神经网络的模型,我们可以利用它们来进行基本物体的识别以及笑脸检测,数字识别等,这一节主要讲解下利用cifar_10进行识别

cifar_10是一个用于普适物体识别的数据集,"10"的意思是它可以分辨十种不同的物体,比如飞机、船、汽车、鸟、猫、狗、青蛙、路、卡车等等…

cifar_10由6万张32*32的RGB彩图构成,共有10个分类,一共有5万张的训练以及1万张的测试用于交叉验证

这个数据集最大的特点在于将数据集迁移到了普适的物体上,而且应用于多分类,他的一个子类数据集cifar_100可以达到100类,同已经成熟的人脸识别相比,普适物体的识别挑战很大,数据中含有大量的噪声、特征以及识别的物体大小不一、角度不一、比例不一等,

因此cifar_10相对于传统的图像识别数据集来说,它的挑战是巨大的,但其应用的效果是非常不错的

在OpenMV的IDE中内置了已经训练好的适用于OpenMV上面的模型网络,我们可以直接在OpenMV IDE工具——机器视觉——CNN网络库里面打开

在我们的OpenMV上推荐用cifar10_fast.network这一个神经网络,这个神经网络的模型稍微小一点,相对于cifar10.network来说,cifar10_fast.network运算速度更快,并且耗费的内存更小,如果我们直接使用cifar10.network,在我们的OpenMV上很可能会超出内存


利用神经网络进行特征识别(已停用)

在这个例程中我们首先获取OpenMV摄像头中的图像,然后对我们的图像进行特征识别,再将其与我们的神经网络模型进行对比,来得到一个相似度,通过这个相似度来判断是否其属于数据集中的某个物体,进而达到物体识别的应用

运行此例程前,请先在OpenMV IDE->工具->机器视觉->CNN网络库中,将相应的神经网络文件保存到OpenMV的SD内存卡中哦。

注意!在对OpenMV进行文件操作后(如保存神经网络文件到OpenMV的U盘中),需要重置OpenMV!OpenMV IDE->工具->重置OpenMV Cam

当前nn模块被删除了!所以没用…当了解吧

# cifar10在图像区域中心识别例程
#
# CIFAR是一个卷积网络,旨在将其视野分类为几种不同的对象类型,并处理RGB视频数据。
#
# 在此示例中,我们将LeNet检测器窗口滑动到图像上,并获取可能存在对象的激活列表。 请注意,使用带有滑动窗口的CNN非常昂贵,因此对于穷举搜索而言,不要期望CNN是实时的。


import sensor, image, time, os, nn # 导入模块 "os系统" 和 "神经网络neural network"

sensor.reset()                         # 复位并初始化传感器。

sensor.set_pixformat(sensor.RGB565)    #设置图像色彩格式,有RGB565色彩图和GRAYSCALE灰度图两种

sensor.set_framesize(sensor.QVGA)      # 将图像大小设置为QVGA (320x240)

sensor.set_windowing((128, 128))       # 设置窗口大小为128 x128窗口。
sensor.skip_frames(time=750)           # 不要让自动增益运行太长时间。
sensor.set_auto_gain(False)            # 关掉自动增益。
sensor.set_auto_exposure(False)        # 关掉自动曝光。


# 在我们OpenMV的IDE中内置了2个cifar_10的神经网络 ——> 稍微大一点的"cifar10.network" + 小一点的"cifar10_fast.network"
# 加载cifar10网络。OpenMV3 M7上使用此网络可能会超出内存。
#net = nn.load('/cifar10.network')

# 更快,更小,更准确。建议OpenMV3 M7上使用此网络。
net = nn.load('/cifar10_fast.network') # nn.load()函数:将神经网络从 .network 二进制文件加载到内存中。 
                            #神经网络的层/权值/偏置/等,存储在MicroPython堆上。 返回一个可以在图像上进行操作的 "Net对象"

# 设置我们检测的标签
labels = ['airplane', 'automobile', 'bird', 'cat', 'deer', 'dog', 'frog', 'horse', 'ship', 'truck']

clock = time.clock()
while(True):
    clock.tick()

    img = sensor.snapshot() # 先截取一张图片

    # net.search(image, roi, threshold=0.6, min_scale=1.0, scale_mul=0.5, x_overlap=0, y_overlap=0, contrast_threshold=1, softmax=False)
    # 以“滑动窗口”方式在图像roi上运行网络。 网络检测器窗口以多种比例滑过图像
    
    # 将在图像中搜索网络中的roi(如果未指定roi,则搜索整个图像)。 
    # 如果其中一个分类器(汽车类、船类、狗类、猫类......)输出大于阈值,说明检测到有相似物体,则在每个位置查看图像,并把符合要求的对象位置和标签将存储在对象列表中并返回。 
    
    # “threshold”-->用于判断当前我们检测的图像块与神经网络模型的匹配相似程度
    # 如果相似程度大于threshold的话,就认为这一幅图像的这一块和我们神经网络中的分类器是相匹配的
    
    # “min_scale”-->设置网络模型(是我们要对照的模板!)的缩放比例,在默认值"1"下,网络不会缩放。但是,值为0.5将允许用于检测图像大小为50%的对象…
    # 在每个 "min_scale" 比例下,使用 "x_overlap(0-1)" 和 "y_overlap(0-1)" 作为指导,在ROI中移动检测窗口。 
    
    # “scale_mul”-->控制滑动窗口的大小比例!
    
    # “x_overlap与y_overlap”-->如果将overlap设置为0.5,则每个检测窗口将与前一个检测窗口重叠50%。 
    # 请注意,计算工作重叠越多,负载越多,但同样也越准确。  
    
    # 最后,对于在x/y维度上滑动网络之后的多尺度匹配,检测窗口将通过 "scale_mul(0-1)" 缩小到 "min_scale*(0-1)"。 
    # 例如,如果scale_mul为0.5,则检测窗口将缩小50%。 
    # 请注意,在较低比例下,如果x_overlap和y_overlap较小,则搜索区域会更多... 
    
    # “contrast_threshold”-->会跳过平坦区域。即OpenMV会自动筛选没有图像的区域

    # 设置x_overlap = -1会强制窗口始终保持在x方向的ROI中心。 
    # 如果y_overlap不为-1,则该方法将搜索所有垂直位置。

    # 设置y_overlap = -1会强制窗口始终在y方向的ROI中居中。 
    # 如果x_overlap不是-1,则该方法将在所有水平位置搜索。

    # 返回神经网络检测结果的 nn_class 对象列表。
    
# net.search()在图像中进行神经网络的匹配查找
    for obj in net.search(img, threshold=0.6, min_scale=0.4, scale_mul=0.8, \
            x_overlap=-1, y_overlap=-1, contrast_threshold=0.5):
            
        print("Detected %s - Confidence %f%%" % (labels[obj.index()], obj.value()))
        img.draw_rectangle(obj.rect(), color=(255, 0, 0))
    print(clock.fps())


对于net.search()方法
以“滑动窗口”方式在图像roi上运行神经网络进行匹配
OpenMV:16神经网络_第1张图片


“x_overlap与y_overlap”–>如果将overlap设置为0.5,则每个检测窗口将与前一个检测窗口重叠50%。

x_overlap = 0.5,y_overlap = 0.5

OpenMV:16神经网络_第2张图片


设置x_overlap = -1会强制窗口始终保持在x方向的ROI中心。
如果y_overlap不为-1,则该方法将搜索所有垂直位置。
OpenMV:16神经网络_第3张图片


神经网络检测函数

模块nn已经被OpenMV停用了,换成了tf
所用到的函数

  • tf.classify()

OpenMV:16神经网络_第4张图片


  • tf.segment(path, img[, roi])

OpenMV:16神经网络_第5张图片


  • tf.load()

OpenMV:16神经网络_第6张图片


  • tf.free_from_fb()

OpenMV:16神经网络_第7张图片


检测函数tf.classify()返回值

for obj in tf.classify(mobilenet, img, min_scale=1.0, scale_mul=0.5, x_overlap=0.0, y_overlap=0.0):
OpenMV:16神经网络_第8张图片
OpenMV:16神经网络_第9张图片


加载神经网络函数tf.load()返回值

net = tf.load('person_detection')
OpenMV:16神经网络_第10张图片
OpenMV:16神经网络_第11张图片

OpenMV:16神经网络_第12张图片

OpenMV:16神经网络_第13张图片


例程1.图像中央人检测

利用了内置的人检测神经网络模型person_detection(该网络位于OpenMV Cam的固件中)

例程tf_person_detection_search_just_center TensorFlow图像中央人检测


# TensorFlow Lite 人检测例程
#
# Google的“人检测模型”会检测到是否有人。
#
# 在此示例中,我们将探测器窗口滑到图像上方,并获取激活列表。
# 请注意,使用带有滑动窗口的CNN计算极为复杂,因此对于详尽搜索,不要期望CNN是实时的。

import sensor, image, time, os, tf

sensor.reset()                         # 复位并初始化传感器。

sensor.set_pixformat(sensor.GRAYSCALE) # Set pixel format to RGB565 (or GRAYSCALE)
#设置图像色彩格式,有RGB565色彩图和GRAYSCALE灰度图两种

sensor.set_framesize(sensor.QVGA)      # 将图像大小设置为QVGA (320x240)

sensor.set_windowing((240, 240))       # 设置240x240窗口。
sensor.skip_frames(time=2000)          # 等待一段时间,让相机设置生效。

# 加载内置的人检测神经网络模型(该网络位于OpenMV Cam的固件中)。
net = tf.load('person_detection')
labels = ['unsure', 'person', 'no_person']

clock = time.clock()
while(True):
    clock.tick()

    img = sensor.snapshot()

    # net.classify()将在图像的roi上运行网络(如果没有指定roi,则在整个图像上运行)
    # 将为每个位置生成一个分类得分输出向量。
    # 在每个比例下,检测窗口都以x_overlap(0-1)和y_overlap(0-1)为指导在ROI中移动。
    # 如果将重叠设置为0.5,那么每个检测窗口将与前一个窗口重叠50%。
    # 请注意,重叠越多,计算工作量就越大。
    # 最后,对于在网络沿x/y方向滑动后的多尺度匹配,检测窗口将由scale_mul(0-1)缩小到min_scale(0-1)。
    # 下降到min_scale(0-1)。例如,如果scale_mul为0.5,则检测窗口将缩小50%。
    # 请注意,如果x_overlap和y_overlap较小,则在较小的比例下可以搜索更多区域...

    # 设置x_overlap=-1可以使窗口始终保持在ROI的中心位置。
    # 如果y_overlap不是-1,该方法将在所有垂直位置进行搜索。

    # 设置y_overlap=-1可以使窗口始终保持在ROI的中心位置。
    # 如果x_overlap不是-1,该方法将在所有水平位置进行搜索。

    # 默认设置只是进行一次检测...更改它们以搜索图像...
    for obj in net.classify(img, min_scale=0.5, scale_mul=0.5, x_overlap=-1, y_overlap=-1):
        print("**********\nDetections at [x=%d,y=%d,w=%d,h=%d]" % obj.rect())
        for i in range(len(obj.output())):
            print("%s = %f" % (labels[i], obj.output()[i]))
        img.draw_rectangle(obj.rect())
        img.draw_string(obj.x()+3, obj.y()-1, labels[obj.output().index(max(obj.output()))], mono_space = False)
    print(clock.fps(), "fps")


例程2.整幅图像人脸检测

利用了内置的人检测神经网络模型person_detection(该网络位于OpenMV Cam的固件中)

例程tf_person_detection_search_whole_window TensorFlow整幅图像人检测

# TensorFlow Lite 人检测例程
#
# Google的“人检测模型”会检测到是否有人。
#
# 在此示例中,我们将探测器窗口滑到图像上方,并获取激活列表。
# 请注意,使用带有滑动窗口的CNN计算极为复杂,因此对于详尽搜索,不要期望CNN是实时的。

import sensor, image, time, os, tf

sensor.reset()                         # 复位并初始化传感器。

sensor.set_pixformat(sensor.GRAYSCALE) # Set pixel format to RGB565 (or GRAYSCALE)
#设置图像色彩格式,有RGB565色彩图和GRAYSCALE灰度图两种

sensor.set_framesize(sensor.QVGA)      # 将图像大小设置为QVGA (320x240)

sensor.set_windowing((240, 240))       # 设置240x240窗口。
sensor.skip_frames(time=2000)          # 等待一段时间,让相机设置生效。

# 加载内置的人检测神经网络模型(该网络位于OpenMV Cam的固件中)。
net = tf.load('person_detection')
labels = ['unsure', 'person', 'no_person']

clock = time.clock()
while(True):
    clock.tick()

    img = sensor.snapshot()

    # net.classify()将在图像的roi上运行网络(如果没有指定roi,则在整个图像上运行)
    # 将为每个位置生成一个分类得分输出向量。
    # 在每个比例下,检测窗口都以x_overlap(0-1)和y_overlap(0-1)为指导在ROI中移动。
    # 如果将重叠设置为0.5,那么每个检测窗口将与前一个窗口重叠50%。
    # 请注意,重叠越多,计算工作量就越大。
    # 最后,对于在网络沿x/y方向滑动后的多尺度匹配,检测窗口将由scale_mul(0-1)缩小到min_scale(0-1)。
    # 下降到min_scale(0-1)。例如,如果scale_mul为0.5,则检测窗口将缩小50%。
    # 请注意,如果x_overlap和y_overlap较小,则在较小的比例下可以搜索更多区域...

    # 默认设置只是进行一次检测...更改它们以搜索图像...
    for obj in net.classify(img, min_scale=1.0, scale_mul=0.5, x_overlap=0.0, y_overlap=0.0):
        print("**********\nDetections at [x=%d,y=%d,w=%d,h=%d]" % obj.rect())
        for i in range(len(obj.output())):
            print("%s = %f" % (labels[i], obj.output()[i]))
        img.draw_rectangle(obj.rect())
        img.draw_string(obj.x()+3, obj.y()-1, labels[obj.output().index(max(obj.output()))], mono_space = False)
    print(clock.fps(), "fps")

你可能感兴趣的:(神经网络,深度学习,计算机视觉)