『2023北京智源大会』视觉与多模态大模型

『2023北京智源大会』视觉与多模态大模型

文章目录

  • 一. Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold | 潘新钢 | 南洋理工大学
    • 1. Image Manipulation(图像编辑)背景
    • 2. Drag Your GAN
  • 二. Machine Learning for 3D Content Creation | 高俊 | NVIDIA 研究科学家
    • 1. 整个背景介绍
    • 2. 通用 3D 生成Pipeine
    • 3. 我们的工作
    • 4. 总结与展望
  • 三. 通用视觉模型初探 | 王鑫龙 | 智源研究院研究员
  • 四. Image, Video, and 3D Content Creation with Diffusion Models | Huan Ling | NVIDIA 研究科学家
  • 参考文章

一. Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold | 潘新钢 | 南洋理工大学

1. Image Manipulation(图像编辑)背景

  • 拖动你的 GAN:生成图像流形上基于关键点的交互式操作(编辑)
  • 图像的拖拽式编辑

  • Image Manipulation(图像编辑)


  • Photoshop - 液化

  • 形状变形


2. Drag Your GAN



  • 初步尝试:光流指导的运动监督

  • 最终的方法

  • 从视频演示上看效果很不错

  • 匹配图像重建

  • 点跟踪



  • 局限:
  • 1) 训练数据分布之外的一些编辑,当分布范围超出过大范围,产生失真的效果
  • 2)关键点的选取有讲究,无纹理手柄点
  • 3)最重要的一点,对真实图像的编辑,如果非常多物体,背景非常复杂效果损坏挺大

  • 总结:

二. Machine Learning for 3D Content Creation | 高俊 | NVIDIA 研究科学家

1. 整个背景介绍

  • 大模型在三维内容生成的场景:

  • 我们可以用 3D 内容创作做什么?元宇宙(Metaverse)、自动驾驶(Autonomous Driving)

  • 3D 内容创建的可扩展性,数量(Quantity)、多样性(Diversity)、质量(Quality)

  • 在工业界的一些常见的三维创建流程,专业人、费时、费力

  • 语言领域,chatgpt和GPT4取得了很大的成功

  • 2D图像生成领域

  • 那么3D图像内容生成呢?

  • 机器学习如何做3D图像内容生成呢?

2. 通用 3D 生成Pipeine

  • 挑战:①如何表示生成的3D物体;②如何搭建1个高效的三维生成模型;③数据有点少相比于2D。




  • 可微等值面遇到可微渲染


3. 我们的工作







  • 关键思想:
  • 从预训练的 2D 图像扩散模型中利用知识!
    评分功能以指导图像生成
  • 使用可微分渲染将 3D 与 2D 连接起来



4. 总结与展望




三. 通用视觉模型初探 | 王鑫龙 | 智源研究院研究员

  • 追求通用视觉智能
  • 视觉表征:抽象视觉信号并学习通用表示
  • 视觉通才:训练在野外解决各种任务的视觉通才模型

  • 这是一个以视觉为中心的基础模型,旨在仅使用可公开访问的数据来探索大规模视觉表示的局限性。EVA 是一种经过预训练的普通 ViT,用于重建以可见图像块为条件的屏蔽掉的图像-文本对齐(image-text aligned)的视觉特征。通过这个前置任务,我们可以有效地将 EVA 扩展到 10 亿个参数,并在图像识别、视频动作识别、目标检测、实例分割和语义分割等广泛的代表性视觉下游任务上创造新记录,而无需大量监督训练。
  • EVA = CLIP (semantic) + Mased modeling (structure) + 1B Param (scaling)
  • 十亿规模的最佳预训练模型
  • 代码EVA: Visual Representation Fantasies from BAAI:https://github.com/baaivision/EVA
  • 【自监督论文阅读笔记】EVA: Exploring the Limits of Masked Visual Representation Learning at Scale:https://blog.csdn.net/YoooooL_/article/details/129044031

四. Image, Video, and 3D Content Creation with Diffusion Models | Huan Ling | NVIDIA 研究科学家

参考文章

  • 北京智源大会:https://2023.baai.ac.cn/schedule

你可能感兴趣的:(Deep,Learning学习笔记,深度学习,大模型,LLM,多模态,计算机视觉)