VALSE2023-内容总结(正在更新)

VALSE2023-内容总结(正在更新)_第1张图片

博文为精选内容,完整ppt请留言索取
一周内更新完毕,敬请期待

2023年度视觉与学习青年学者研讨会 (Vision And Learning SEminar, VALSE)于6月10日至12日在无锡太湖国际博览中心召开,由中国人工智能学会、中国图象图形学学会主办,江南大学、无锡国家高新技术产业开发区管理委员会承办。共呈现了3 个大会主旨报告、4个大会特邀报告、12个年度进展报告 (APR)报告、4场讲习班 (Tutorial)、20场研讨会 (Workshop)。另外,还有186篇顶会顶刊论文墙报展示交流活动

文章目录

  • 大会特邀报告 & 年度进展评述(APR)
    • 1.特征编码与数字视网膜
    • 2.下一代深度学习的思考与若干问题
    • 3.计算机视觉--从孤立到系统性方法
    • 4.基于NeRF的三维视觉年度进展报告
    • 5.扩散概率模型的前沿进展
    • 10.视觉自监督学习
    • 11、遥感目标检测
  • Tutorial1:从 Transformer 到 GPT
  • Tutorial2:扩散模型
  • Workshop 1: 大模型对 CV/PR 的挑战与机会
  • Workshop 4:多模态认知计算
  • Workshop 6: ChatGPT 与计算机视觉
  • Workshop 10:目标检测与分割
  • Workshop 12:多模态大模型与提示学习
    • 4.基于 LLM 的多模态提示学习:框架、提示数据及评测标准
    • 5.模态鸿沟与交互式提示学习
  • Workshop 14:视觉内容生成
  • Workshop 15:自监督视觉表征学习
  • Workshop 19:优秀学生论坛
  • 总结


Valse 2023 于2023年6月9日在无锡 太湖博览中心召开

大会特邀报告 & 年度进展评述(APR)

1.特征编码与数字视网膜

报告人:北大 高文
从认知心理基础,到特征编码方式、数字视网膜
VALSE2023-内容总结(正在更新)_第2张图片

最后还讲了模型压缩、终端部署、大模型等内容

以及鹏程-大圣的视觉模型


2.下一代深度学习的思考与若干问题

焦李成 西安电子科技大学
本报告着重和大家一起探讨深度学习基础理论相关的研究。首先,回顾了深度学习的思想起源与发展历程。紧接着,讨论了对深度学习再认识与再思考,从而引出应突破的基础理论。然后,从类脑启发、物理启发和进化启发等三个方面讨论了深度学习的表征、学习与优化理论。最后,给出了对下一代深度学习的一些思考。

VALSE2023-内容总结(正在更新)_第3张图片
优化理论:
VALSE2023-内容总结(正在更新)_第4张图片
表征理论和学习理论:
VALSE2023-内容总结(正在更新)_第5张图片
其他学科的交叉影响:
VALSE2023-内容总结(正在更新)_第6张图片

起源与启示

当然还有电磁学、统计热力学、光学、能量模型和量子智能等,需要完整PPT请私信。

VALSE2023-内容总结(正在更新)_第7张图片

后面还有元学习、神经网络搜索的综述NAS。最后是总结思考:
VALSE2023-内容总结(正在更新)_第8张图片


3.计算机视觉–从孤立到系统性方法

陈熙霖 中国科学院计算技术研究所

在 AI 领域,很长时间以来的研究范式是以孤立算法为核心的单点研究,同时,现实世界中广泛存在着样本分布不均、任务多样性等问题。对以往的孤立研究范式而言,这些问题显然是难以克服的困难,因此需要从系统化的角度探索融合多模态信息,构建从感到探、从被动到主动的系统性学习体系。本报告将介绍我们近期在这方面的一些思考和尝试,探索从系统性的角度实现连续积累和学习的路径。

CV发展史
VALSE2023-内容总结(正在更新)_第9张图片

计算机视觉的几个趋势:
VALSE2023-内容总结(正在更新)_第10张图片
模型背后的逻辑
1.模型是什么?(不是算法复杂度)
模型 =算法复杂程度 X 养成数据
养成数据的规模与维数灾难
2.模型成熟度 M=算力/模型复杂程度
思考级–例:2000年以前的NN,非常原始的结果,少数人能够认识到
研究级–例:2010年前后的NN,成为学术界的重要手段研究级
产业级–例:今天的大模型产业级
个人用户级

大模型是希望还是终结?
一、IBM 360的启示计算机体系结构
大模型催生AI体系结构:1大模型成为组件(直接拿来用);2.关注更加宏观的智能,分久而合
二、AI体系结构
1.AI基本能力间的界面; 2.AGI的结构支撑; 3.超越传统AI话题的研究领域 ;4.超越单一智能催生综合智能体

Take home messages:
VALSE2023-内容总结(正在更新)_第11张图片

4.基于NeRF的三维视觉年度进展报告

刘烨斌 清华大学

神经辐射场(NeRF)是一种以隐式场和体渲染为基础的三维表征,以其端到端可
微、高质量视点生成等特性
得到广泛关注。自 NeRF 被提出以来,学者对其隐式场本身或体渲染过程进行了诸多改进,以实现加速推理和训练、几何与表观解藕、材质和光照编辑乃至稀疏视点下的动静态和多尺度场景建模。与此同时,通过结合多元表征和生成式模型,NeRF 在三维视觉领域的应用层出不穷。本报告将回顾过去一年神经辐射场的重要研究成果,涵盖其表征基础的优化及代表性应用研究,重点将围绕 NeRF 现存的两大挑战,包括在轻量化采集条件下的高质量三维重建与渲染,以及将 NeRF 拓展到时空动态场景的高效四维表征来进行探讨与展望。首先是基本原理:
VALSE2023-内容总结(正在更新)_第12张图片

重要性:
VALSE2023-内容总结(正在更新)_第13张图片

几个大的研究方向
VALSE2023-内容总结(正在更新)_第14张图片

四大常见场景建模
VALSE2023-内容总结(正在更新)_第15张图片
还有几个具身应用的场景建模

VALSE2023-内容总结(正在更新)_第16张图片


5.扩散概率模型的前沿进展

朱军 清华大学

AIGC 发展迅速,扩散概率模型是 AIGC 的关键技术之一,在文图生成、3D
生成等方面取得显著进展
。该报告介绍扩散概率模型的若干进展,包括扩散概率模型的基础理论和高效算法大规模多模态扩散模型以及 3D 生成等内容。首先是原理:

对比了SDE和ODE两种不同的微分方程

ODE(Ordinary Differential Equation,常微分方程)描述的是确定性变量随时间的变化关系,它是由形如 dt/dy =f(y) 的微分方程组成,其中 y 是一个确定性的变量,f 是它的导数关系。ODE的解是一个确定的函数,对于给定的初始值,其解是唯一的。

SDE(Stochastic Differential Equation,随机微分方程)描述的是随机变量随时间的变化关系,它是由形如 dXt​ =μdt+σdWt 的微分方程组成,其中 μ 和 σ 是确定性的常数,W t​ 是随机过程(通常是布朗运动)。SDE的解也是一个随机过程,它将初始值的不确定性引入到了解中,因此,给定相同的初始值和参数,SDE的解通常不是唯一的。ODE在描述确定性系统中扮演着更为关键的角色,而SDE则更适用于描述随机性系统中的行为

随后是 团队: @ THU TSAIL Group:一些 Diffusion Models进展,

Basic theory and algorithms
1.Score estimate for energy-based LVMs (ICML2021)
2.High-order denoising score matching (ICML 2022
3.Analytic-DPM - optimal variance estimate (ICLR 2022 0utstanding paper.ICML 2022)
4.DPM-Solver - the fastest inference algorithm (NeurlPs Oral, 2022)
5.U_ViT backbone - more scalable (CVPR 2023)

Novel design of diffusion models for various tasks
1.Energy-guided DPM for lmage-2-lmage translation (NeurlPs,2022)
2.Equivariant energy-guided DPM for Molecular design (ICLR 2023)
3.Generative behavior modeling for Offline RL (ICLR 2023)
4.UniDiffuser for Multimodal inference (ICML 2023)
5.ProlificDreamer for Text-2-3D content (arXiv:2305.16213, 2023)
6.ControlVideo for one-shot Text-2-Video editing (arXiv:2305.17098, 2023)

重点介绍了以上最后三个工作

1.多模态预测

2.ProlificDreamer: 高质量的Text-to-3D(改编自dreamFusion)

1.DreamCLIP,单个场景,直接梯度下降优化
2.DreamFusion,单个场景去拟合预训练的分布,方法是score distillation 3.samplingProlificDreamer,场景分布 (一堆场景) 去拟合预训练的分布,方法是variational scoredistillation

VALSE2023-内容总结(正在更新)_第17张图片
3. ControlVideo: One Shot Text-to-Video Editing


最后的总结:


10.视觉自监督学习

胡瀚 微软亚洲研究院

视觉自监督学习的主流范式在过去一年多的时间里经历了从对比学习方法到生
成式方法的迁移。以 BEiT/MAE/SwinV2(SimMIM) 为代表的生成式方法在预训练-微调范式下取得了优异的性能,更重要的是,它们被证明相比此前的方法具备更好的数据和模型可扩展性,也能很好的与多模态方法融合。本次 APR 概述过去一年视觉自监督学习方面的主要进展,包括预训练方法本身及其相关性质的研究。


自监督学习年度进展 (2022-2023):

技术进展趋势一:掩码图像建模的改进
技术进展趋势二:发现掩码图像建模对 大模型 比较友好
技术进展趋势三:针对 小模型 的掩码图像建模训练
技术进展趋势四:挖掘掩码图像建模的好性质
技术进展趋势五:拓展到其它模态

VALSE2023-内容总结(正在更新)_第18张图片

VALSE2023-内容总结(正在更新)_第19张图片
VALSE2023-内容总结(正在更新)_第20张图片

拓展到其他模态
VALSE2023-内容总结(正在更新)_第21张图片

总结:

11、遥感目标检测

程 西北工业大学

本报告首先总结分析遥感目标检测面临的挑战,接下来重点概述近年来遥感目标检测的主要进展,主要包括有向目标检测弱监督目标检测小样本目标检测目标型号识别、以及弱小目标检测

几个挑战

有向目标检测几种算法

VALSE2023-内容总结(正在更新)_第22张图片

弱监督目标检测

细粒度识别
VALSE2023-内容总结(正在更新)_第23张图片

高效目标检测

弱小目标检测
VALSE2023-内容总结(正在更新)_第24张图片


博文为精选内容,完整ppt请留言索取:`

未来几天内将更新完毕


博文为精选内容,完整ppt请留言索取

Tutorial1:从 Transformer 到 GPT

Tutorial2:扩散模型

Workshop 1: 大模型对 CV/PR 的挑战与机会

Workshop 4:多模态认知计算

Workshop 6: ChatGPT 与计算机视觉

Workshop 10:目标检测与分割

Workshop 12:多模态大模型与提示学习

4.基于 LLM 的多模态提示学习:框架、提示数据及评测标准

邵婧 商汤科技

随着语言大模型的迅猛发展,文字成为连接各种模态信息的天然媒介,通过文
字与其他模态信息的交互学习,我们可以在丰富的跨模态领域应用中获得更有泛化性的感知、理解和生成等能力。由于跨模态数据和任务存在巨大鸿沟,如何做好关联对齐并有效融合仍面临巨大挑战。本次报告基于近期大模型进展,从支持从图像、视频及三维数据的理解、认知与生成等多种任务出发,介绍跨模态提示学习的数据和框架构建评测标准设计等方面。并结合应用案例,深入探讨多模态大模型的现状和挑战

5.模态鸿沟与交互式提示学习

朱霖潮 浙江大学

随着多模态数据的增加,多模态分析成为研究的热点。在多模态分析中,迁移对齐技术能够将不同模态的信息对齐并进行多模态的迁移,提高任务的效果和性能。本次报告介绍多模态领域常见的模态鸿沟问题,以及降低模态鸿沟的方法,包括基于提示词的迁移多任务学习零样本学习等。报告还将结合实验和应用案例,深入探讨多模态分析中的应用

  1. 细粒度语义对齐的视觉语言预训练

VALSE2023-内容总结(正在更新)_第25张图片

VALSE2023-内容总结(正在更新)_第26张图片
2. 视觉场景的自动语言描述

VALSE2023-内容总结(正在更新)_第27张图片
VALSE2023-内容总结(正在更新)_第28张图片

数据集与结果
VALSE2023-内容总结(正在更新)_第29张图片

  1. 高效多模态融合

提出一种相互查询的机制:
VALSE2023-内容总结(正在更新)_第30张图片

消融实验与效果:
VALSE2023-内容总结(正在更新)_第31张图片
总结:

模态对齐
模态间对产信息可用于自监督训练;
降低模态鸿沟能明显提升迁移性能,可采用无参数化方法降低模态鸿沟,提升视觉知识与文本知识的对产水平;

模态融合
基于提示的模态融合

Workshop 14:视觉内容生成

Workshop 15:自监督视觉表征学习

Workshop 19:优秀学生论坛

代码如下(示例):


代码如下(示例):



总结

提示:这里对文章进行总结:

例如:以上就是今天要讲的内容,本文仅仅简单介绍了pandas的使用,而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。

你可能感兴趣的:(人工智能,机器学习,python)