这边顺利的完成了透视变换,同学高高兴兴的老师汇报问题解决了,然后又从头讲了遍目标识别的思路,问是不是能进行下一步的意图分析了。老师听完后说不急,告诉同学,要是在目标识别的时候就能用上深度学习的话就好了,可以尝试一下,确实这方面对没学过的同学来说有些难度,但趁现在多试试,多踩坑,不行的话也是有了这么一次经验。然后我就踩了一堆坑......
我寻思反正也没做过,找个前辈的研究改改也就能用吧,抱着这个想法,我找到了第一个开源项目,GitHub上代码地址:https://github.com/527515025/My-TensorFlow-tutorials/tree/master/猫狗识别,作者用的是TensorFlow卷积神经网络,这里是作者的博客:https://blog.csdn.net/u012373815/article/details/78768727,不过正如大家所看到的那样,这里只能识别猫和狗两种,显然不符合我们的要求,所以我将代码改了改,将输入处改了一下能输入三种数据流,扩大了卷积层,增加了一个神经元输出,训练代码也做出同样的更改,使之能够识别三种物体状态,训练代码更改如下:
import os
import numpy as np
import tensorflow as tf
import input_data
import model
N_CLASSES = 3 # 增加1个输出神经元
IMG_W = 208 # 重新定义图片的大小,图片如果过大则训练比较慢
IMG_H = 208
BATCH_SIZE = 32 #每批数据的大小
CAPACITY = 256
MAX_STEP = 15000 # 训练的步数,应当 >= 10000
learning_rate = 0.0001 # 学习率,建议刚开始的 learning_rate <= 0.0001
def run_training():
# 数据集
train_dir = 'E:/bishework/lx/all-match/' #My dir--20170727-csq
#logs_train_dir 存放训练模型的过程的数据,在tensorboard 中查看
logs_train_dir = 'E:/bishework/lx/train/'
# 获取图片和标签集
train, train_label = input_data.get_files(train_dir)
# 生成批次
train_batch, train_label_batch = input_data.get_batch(train,
train_label,
IMG_W,
IMG_H,
BATCH_SIZE,
CAPACITY)
# 进入模型
train_logits = model.inference(train_batch, BATCH_SIZE, N_CLASSES)
# 获取 loss
train_loss = model.losses(train_logits, train_label_batch)
# 训练
train_op = model.trainning(train_loss, learning_rate)
# 获取准确率
train__acc = model.evaluation(train_logits, train_label_batch)
# 合并 summary
summary_op = tf.summary.merge_all()
sess = tf.Session()
# 保存summary
train_writer = tf.summary.FileWriter(logs_train_dir, sess.graph)
saver = tf.train.Saver()
sess.run(tf.global_variables_initializer())
coord = tf.train.Coordinator()
threads = tf.train.start_queue_runners(sess=sess, coord=coord)
try:
for step in np.arange(MAX_STEP):
if coord.should_stop():
break
_, tra_loss, tra_acc = sess.run([train_op, train_loss, train__acc])
if step % 50 == 0:
print('Step %d, train loss = %.2f, train accuracy = %.2f%%' %(step, tra_loss, tra_acc*100.0))
summary_str = sess.run(summary_op)
train_writer.add_summary(summary_str, step)
if step % 200 == 0 or (step + 1) == MAX_STEP:
# 每隔200步保存一下模型,模型保存在 checkpoint_path 中
checkpoint_path = os.path.join(logs_train_dir, 'model.ckpt')
saver.save(sess, checkpoint_path, global_step=step)
except tf.errors.OutOfRangeError:
print('Done training -- epoch limit reached')
finally:
coord.request_stop()
coord.join(threads)
sess.close()
# train
run_training()
然后我兴致勃勃的开始了训练,大约训练了大约60张连线图(数据量确实有点小,这里就试试可靠性),结果却是不如人意,有很大的可能性训练错误,然后我又增加图片,训练了大约一天,得到的结果一直在50%左右晃,忽高忽低,极不理想。
我在评论区也看到了很多人和我一样没有得到想要的结果,所以可能是文篇文章里面的神经网络模型model.py还不够成熟。
如果大家需要,这是我改过的可以识别多种物体状态的代码,希望有人能够增加它的可靠性:
这篇不能就这么糊弄过去了,所以接下来还是好好研究一下关于目标检测的深度学习算法。我去找了下有竞赛经验的老师帮我辅导,老师给我的建议是用当前研究正火的深度学习来解决这道题,也就是说:
数据 + 预测 = 规则
同时给了我以下建议,首先为图片里的目标做标签,而后针对具体题目建模,最后通过模型训练数据,用实验数据进行预测。此外,由于我是在unity游戏环境中截图,比较麻烦,老师还推荐了我使用数据增强的办法,扩充我的数据集。对于我的小笔记本,老师也提供了一个办法,我的显卡还不错1070,而且是NVIDIA的,可以部署tensorflow-gpu环境,成倍的加强我的运算能力,用keras-yolo3训练自己的数据集。下一篇文章将介绍我在部署tensorflow-gpu环境时踩的新坑。
代码已上传至GitHub及Gitee,欢迎star,欢迎讨论:
GitHub:https://github.com/wangwei39120157028/Machine_Learning_research_on_simple_target_recognition_and_intention_analysis
Gitee:https://gitee.com/wwy2018/Machine_Learning_research_on_simple_target_recognition_and_intention_analysis/settings