活动报名丨基于文字图像扩散模型的开放词汇全景分割

活动报名丨基于文字图像扩散模型的开放词汇全景分割_第1张图片

2023年3月17日(星期五)11:00-12:00,由智源社区主办的「智源LIVE 第34期线上活动:加州大学圣地亚哥分校计算机与工程系博士生徐嘉瑞分享《基于文字图像扩散模型的开放词汇全景分割》。本期活动将在线举办,「阅读原文」报名即可参加。

活动报名丨基于文字图像扩散模型的开放词汇全景分割_第2张图片

徐嘉瑞

徐嘉瑞,加州大学圣地亚哥分校计算机与工程系博士生,他在计算机视觉会议CVPR,ICCV 和 ECCV等会议上发表了多篇论文,曾获ICCV 2019 Neural Architects Workshop Best Paper Award。

他是2022 Qualcomm Innovation Fellowship的获得者。曾在MSRA和NVIDIA做研究实习。

个人主页:http://jerryxu.net/

ODISE: 基于文字图像扩散模型的开放词汇全景分割

ODISE: 基于文字图像扩散模型的开放词汇全景分割,它将预训练的文本-图像扩散和判别模型统一起来,以执行开放词汇的全景分割。文本到图像扩散模型基于多样的开放词汇语言,展示了出众的生成高质量图像的能力。这表明它们的内部表征空间与现实世界中的开放概念高度相关。另一方面,像CLIP这样的文本-图像判别模型,擅长将图像分类为开放词汇标签。我们提议利用这些模型的冻结表征来执行任何类别的全景分割。我们的方法在开放词汇全景分割和语义分割任务上都显著优于先前的最先进技术水平。特别是,在仅使用COCO训练的情况下,我们的方法在ADE20K数据集上实现了23.4 PQ和30.0 mIoU,在先前技术水平的基础上分别提高了8.3 PQ和7.9 mIoU。

活动时间3月17日(周五)11:00-12:00

活动形式:线上直播,扫描下方二维码报名或点击阅读原文报名

活动报名丨基于文字图像扩散模型的开放词汇全景分割_第3张图片

你可能感兴趣的:(人工智能,深度学习,计算机视觉)