OpenScene

paper:OpenScene: 3D Scene Understanding with Open Vocabularies 

code: https://github.com/pengsongyou/openscene

摘要:传统的3D场景理解方法依赖于带标签的3D数据集,在有监督的情况下为单个任务训练模型。我们提出了OpenScene,一种替代性的方法,模型预测CLIP特征空间中与文本和图像像素共同嵌入的三维场景点的稠密特征。这种零样本方法可以实现任务无关性训练和开放词汇表查询。例如,为了执行SOTA零样本3D语义分割,它首先推断每个3D点的CLIP特征,然后根据它们与任意类标签嵌入的相似性进行分类。更有趣的是,它实现了一套以前从未做过的开放词汇场景理解应用。例如,它允许用户输入一个任意的文本查询,然后看到一个热图,表明场景中的哪些部分匹配。我们的方法可以有效地识别复杂三维场景中的物体、材料、可供性、活动和房间类型,所有这些都是使用没有任何标记的三维数据训练的单一模型。开放词汇3D场景理解。我们提出了OpenScene,一种零样本的3D场景理解方法,该方法将稠密的3D点特征与图像像素和文本共同嵌入。上面的例子展示了一个3D场景,其中表面点的颜色由它们与用户指定的查询字符串的匹配程度决定- -黄色最高,绿色居中,蓝色较低。利用基于语言特征的强大功能&

你可能感兴趣的:(计算机视觉)