机器学习实战:用网络摄像头预测年龄和性别

你有没有猜过一个人的年龄? 下面这个简单的神经网络模型可以帮你做这件事。

本文的演示将从网络摄像头中获取实时视频流,并自动标注其中出现人脸的年龄和性别。 在家门口放一个这样的摄像头就可以了解访客的年龄和性别,你可以想象一下这有多酷!

我是在Windows PC使用Python 3.5运行这个模型。 你也可以使用其他操作系统,或者直接使用汇智网的Python机器学习在线运行环境。

工作原理

让我们先概述一下系统的工作原理:

机器学习实战:用网络摄像头预测年龄和性别_第1张图片

首先,使用cv2模块从网络摄像头的实时视频流中截取一张照片:

# 0 means the default video capture device in OS
video_capture = cv2.VideoCapture(0)
# infinite loop, break by key ESC
while True:
    if not video_capture.isOpened():
        sleep(5)
    # Capture frame-by-frame
    ret, frame = video_capture.read()

然后,我们将图像转换为灰度图,使用cv2模块的CascadeClassifier类来检测图像中的人脸:

gray = cv2.cvtColor(frame, cv2.COLOR_BGR2GRAY)
faces = face_cascade.detectMultiScale(
    gray,
    scaleFactor=1.2,
    minNeighbors=10,
    minSize=(self.face_size, self.face_size)
)

detectMultiScale()方法返回的变量face是一个列表,其成员为检测到的人脸位置和尺寸:[x,y,w,h]。

在获取了人脸坐标之后,我们需要在输入神经网络模型之前,先裁剪这些人脸区域,并在面部区域增加40%的边距,以便可以包含整个头部:

# placeholder for cropped faces
face_imgs = np.empty((len(faces), self.face_size, self.face_size, 3))
for i, face in enumerate(faces):
    face_img, cropped = self.crop_face(frame, face, margin=40, size=self.face_size)
    (x, y, w, h) = cropped
    cv2.rectangle(frame, (x, y), (x + w, y + h), (255, 200, 0), 2)
    face_imgs[i,:,:,:] = face_img

然后,将这些裁剪过的人脸区域输入模型,很简单,只需要调用一下predict()方法。

对于年龄预测,模型的输出是101个值(年龄范围从0到100)的概率分布,并且所有这101个值的概率加起来为1(softmax)。 因此,我们将每个年龄值与其概率相乘,然后累加起来得出最终的预测年龄:

if len(face_imgs) > 0:
    # predict ages and genders of the detected faces
    results = self.model.predict(face_imgs)
    predicted_genders = results[0]
    ages = np.arange(0, 101).reshape(101, 1)
    predicted_ages = results[1].dot(ages).flatten()

最后,绘制结果并渲染图像。

性别预测是二分类任务,模型的输出值在0〜1之间,值越高,模型认为脸部是男性的信心越强:

# draw results
for i, face in enumerate(faces):
    label = "{}, {}".format(int(predicted_ages[i]),
                            "F" if predicted_genders[i][0] > 0.5 else "M")
    self.draw_label(frame, (face[0], face[1]), label)
cv2.imshow('Keras Faces', frame)
if cv2.waitKey(5) == 27:  # ESC key press
    break

这个练习的完整源代码和训练好的都放在了我的GitHub仓库 。

进一步深入

如果你对演示效果不满意,并希望更多的了解如何建立和训练模型,这部分内容是特意为你写的。

数据集来自IMDB-WIKI — 50多万张标注了年龄和性别的人脸图像集 。 在把图像数据输入模型之前,我们进行与前述预处理相同的步骤,即检测人脸区域并添加边距。

神经网络的特征提取部分使用宽残差网络(Wide Residual Networks), 它利用卷积神经网络来学习脸部特征,从边、角等基础特征到眼睛、嘴巴等更为抽象的特征。

宽残差网络的特别之处在于,它减少了原始版本的残差网络的深度并增加了网络的宽度,因此训练速度提高了几倍。 宽残差网络的论文链接在这里。

扩展阅读

这个模型的可能性是无限的,实际上其用途取决于你输入的数据。 例如,使用标注了魅力值的照片,你就可以预测网络摄像头的另一端是不是一个辣妹。

如果你想继续探索,下面列出了相关的项目和数据集:

  • 用Tensorflow实现年龄和性别检测
  • IMDB-WIKI - 50万标注了年龄和性别的人脸图像集
  • 用于性别和年龄分类的未过滤人脸数据
  • Github: keras-vggface
  • Selfai:给美女自拍照打分

如果你喜欢这篇文章,请关注我的头条号:新缸中之脑!

原文:Easy Real time gender age prediction from webcam video with Keras

你可能感兴趣的:(深度学习,tensorflow,机器学习)