你有没有猜过一个人的年龄? 下面这个简单的神经网络模型可以帮你做这件事。
本文的演示将从网络摄像头中获取实时视频流,并自动标注其中出现人脸的年龄和性别。 在家门口放一个这样的摄像头就可以了解访客的年龄和性别,你可以想象一下这有多酷!
我是在Windows PC使用Python 3.5运行这个模型。 你也可以使用其他操作系统,或者直接使用汇智网的Python机器学习在线运行环境。
让我们先概述一下系统的工作原理:
首先,使用cv2模块从网络摄像头的实时视频流中截取一张照片:
# 0 means the default video capture device in OS
video_capture = cv2.VideoCapture(0)
# infinite loop, break by key ESC
while True:
if not video_capture.isOpened():
sleep(5)
# Capture frame-by-frame
ret, frame = video_capture.read()
然后,我们将图像转换为灰度图,使用cv2模块的CascadeClassifier类来检测图像中的人脸:
gray = cv2.cvtColor(frame, cv2.COLOR_BGR2GRAY)
faces = face_cascade.detectMultiScale(
gray,
scaleFactor=1.2,
minNeighbors=10,
minSize=(self.face_size, self.face_size)
)
detectMultiScale()方法返回的变量face是一个列表,其成员为检测到的人脸位置和尺寸:[x,y,w,h]。
在获取了人脸坐标之后,我们需要在输入神经网络模型之前,先裁剪这些人脸区域,并在面部区域增加40%的边距,以便可以包含整个头部:
# placeholder for cropped faces
face_imgs = np.empty((len(faces), self.face_size, self.face_size, 3))
for i, face in enumerate(faces):
face_img, cropped = self.crop_face(frame, face, margin=40, size=self.face_size)
(x, y, w, h) = cropped
cv2.rectangle(frame, (x, y), (x + w, y + h), (255, 200, 0), 2)
face_imgs[i,:,:,:] = face_img
然后,将这些裁剪过的人脸区域输入模型,很简单,只需要调用一下predict()方法。
对于年龄预测,模型的输出是101个值(年龄范围从0到100)的概率分布,并且所有这101个值的概率加起来为1(softmax)。 因此,我们将每个年龄值与其概率相乘,然后累加起来得出最终的预测年龄:
if len(face_imgs) > 0:
# predict ages and genders of the detected faces
results = self.model.predict(face_imgs)
predicted_genders = results[0]
ages = np.arange(0, 101).reshape(101, 1)
predicted_ages = results[1].dot(ages).flatten()
最后,绘制结果并渲染图像。
性别预测是二分类任务,模型的输出值在0〜1之间,值越高,模型认为脸部是男性的信心越强:
# draw results
for i, face in enumerate(faces):
label = "{}, {}".format(int(predicted_ages[i]),
"F" if predicted_genders[i][0] > 0.5 else "M")
self.draw_label(frame, (face[0], face[1]), label)
cv2.imshow('Keras Faces', frame)
if cv2.waitKey(5) == 27: # ESC key press
break
这个练习的完整源代码和训练好的都放在了我的GitHub仓库 。
如果你对演示效果不满意,并希望更多的了解如何建立和训练模型,这部分内容是特意为你写的。
数据集来自IMDB-WIKI — 50多万张标注了年龄和性别的人脸图像集 。 在把图像数据输入模型之前,我们进行与前述预处理相同的步骤,即检测人脸区域并添加边距。
神经网络的特征提取部分使用宽残差网络(Wide Residual Networks), 它利用卷积神经网络来学习脸部特征,从边、角等基础特征到眼睛、嘴巴等更为抽象的特征。
宽残差网络的特别之处在于,它减少了原始版本的残差网络的深度并增加了网络的宽度,因此训练速度提高了几倍。 宽残差网络的论文链接在这里。
这个模型的可能性是无限的,实际上其用途取决于你输入的数据。 例如,使用标注了魅力值的照片,你就可以预测网络摄像头的另一端是不是一个辣妹。
如果你想继续探索,下面列出了相关的项目和数据集:
如果你喜欢这篇文章,请关注我的头条号:新缸中之脑!
原文:Easy Real time gender age prediction from webcam video with Keras