Google发布MediaPipe,移动设备3D对象检测模型

仅通过在照片上训练模型,机器学习(ML)的最新技术就已经在许多计算机视觉任务中实现了卓越的准确性。基于这些成功和不断发展的3D对象理解,在增强现实,机器人技术,自主性和图像检索等广泛应用方面具有巨大潜力。例如,今年早些时候,Google发布了MediaPipe Objectron(一套针对移动设备设计的实时3D对象检测模型),它们在完全注释的真实3D数据集上进行了训练,可以预测对象的3D边界框。

 3D模型

然而,由于与2D任务(例如ImageNet,COCO和Open Images)相比,缺少大型现实世界的数据集,因此了解3D对象仍然是一项具有挑战性的任务。为了使研究社区能够不断提高对3D对象的理解,迫切需要发布以对象为中心的视频数据集,该数据集可以捕获对象的更多3D结构,同时匹配用于许多视觉任务的数据格式( (例如视频或摄像机流),以帮助训练和确定机器学习模型的基准。

今天,Google发布Objectron数据集,这是一个短的,以对象为中心的视频剪辑的集合,可从不同的角度捕获更大的一组公共对象。每个视频剪辑都随附有AR会话元数据,其中包括相机姿势和稀疏点云。数据还包含每个对象的手动注释3D边界框,它们描述了对象的位置,方向和尺寸。数据集包括15K带注释的视频剪辑,并补充了从不同地理区域的样本中收集的超过4M带注释的图像。

你可能感兴趣的:(mediapipe对象检测算法,3d,人工智能)