讲者:乔宇(上海人工智能实验室)、周奕毅(厦门大学)、王兴刚(华中科技大学)
乔宇、周奕毅和王兴刚三位教授作为本次大会讲习班的主讲人,为参会者介绍了多模态语言大模型的各个方面。他们从不同的角度出发,为我们呈现了一场精彩的演讲。
乔宇老师重点介绍了上海人工智能实验室在多模态语言模型领域的探索。他详细介绍了Meta-Transformer的设计思路,该模型通过统一学习无配对数据,能够理解多达12种模态信息。这项工作在多模态语言模型领域具有重要的意义,并为我们展示了上海人工智能实验室在该领域的前沿研究成果。
接下来,周奕毅老师以自然语言处理的发展史为切入点,介绍了一些新颖的多模态语言大模型,如VisualChatGPT、PaLI和DALL等。这些模型让参会者全面了解了最近多模态语言大模型的发展情况和创新角度。周老师还借助科技创新2023——“新一代人工智能”重大项目的背景,向大家介绍了厦门大学自主研发的多模态基础大模型MindSource。他详细解释了该模型每个部分的研究动机、主要贡献、方法描述和实验结果,让听众对该模型有了更深入的了解。
最后,王兴刚老师以实验室自研的视觉大模型EVA为出发点,讲述了基于掩码学习的自监督模型的发展情况,并详细介绍了构建EVA的细节情况以及后续的EVA-CLIP工作。他的演讲使我们对基于掩码学习的自监督模型有了更清晰的认识,并展示了实验室在视觉大模型领域的研究成果。
这三位教授的演讲涵盖了多模态语言大模型的不同方面,为参会者提供了深入了解和探索该领域的机会。他们的研究成果和创新思路激发了听众的思考,并为未来的研究和应用提供了有益的启示。
图2 多模态语言大模型讲习班
分会场3 —— 视觉大模型
报告题目:大模型时代下的三维视觉
讲者:欧阳万里(上海人工智能实验室)
最近,大模型在图像和自然语言处理中取得了显著的成绩,GPT 和图像生成的工作已经大大提高我们的工作效率。然而大模型在 3D 视觉中的研究还处于比较初步的阶段。欧阳老师首先围绕大模型与 3D 视觉,介绍了上海人工智能实验室在 3D 大模型中的进展;然后结合自身研究探讨如何构建统一的 3D 多模态数据集,如何进行大规模 3D 预训练,以及大模型有关的下游适配和下游任务,最后谈论了 3D 视觉在大模型时代下的机遇与挑战。
图3 大模型时代下的三维视觉
报告题目:视频理解的基础模型与基准数据
讲者:王利民(南京大学)
视频理解是计算机视觉领域研究热点与难点,如何构建通用视频基础模型已经成为其重要性能增长点,具体研究内容涉及到视频主干网络构建、视频模型预训练方法、视频训练和评测数据集构建等等。在本次报告中间,王老师主要介绍了南京大学媒体计算机课题组和上海人工智能实验室通用视频团队在视频理解基础模型与基准数据方面的系列工作。具体包括:1. 面向单模态视频理解任务的预训练模型 VideoMAE v1 & v2;2. 面向多模态视频理解任务的预训练模型UMT 和 VideoChat;3. 面向多模态视频理解的大规模预训练数据集 InternVid; 4. 面向体育运动场景的视频分析评测基准MultiSports和SportsMOT。最后对视频理解基础模型的发展趋势提出展望与思考。
图4 视频理解的基础模型与基准数据
报告题目:基于注意机制的视觉基础模型
讲者:侯淇彬(南开大学)
注意机制在计算机视觉领域扮演重要角色。侯老师的本次报告以视觉基础模型为背景,从空间注意机制、通道注意机制以及自注意机制等多个角度回顾近年来注意机制的发展,并介绍了注意机制中的其他种类,比如Visual Attention Network(VAN)、多尺度卷积注意力(SegNeXt)等。最后对注意机制未来的发展及其在视觉任务中的应用做出展望。
图5 基于注意机制的视觉基础模型
报告题目:文心·CV大模型VIMER:算法和应用
讲者:王井东(北京百度网讯科技有限公司)
王老师站在百度网讯科技开发人员的角度,其报告主要内容包括百度文心 ·CV 大模型 VIMER 以数据为中心的算法和应用。首先,介绍自监督表征学习算法 Context Autoencoder(CAE)算法及其推广。然后,讲述基于 CAE的工业视觉大模型、OCR 文字识别大模型、人体大模型等。最后,分享图文对比预训练大模型在自动驾驶数据挖掘中的应用和基于多任务学习的交通感知大模型。
图6 文心·CV大模型VIMER
分会场4 —— 高质量论文写作与发表
报告题目:论文常见低级错误简析
讲者:张军平(复旦大学计算机科学技术学院)
由于这场报告的听众大部分是在校学生,张老师从科研学者、博士生导师和审稿人的角度,对论文常见低级错误进行了简析并提出解决办法。研究生初次写论文时,常出现大量低级错误,它严重影响了对论文实际质量的评价。张老师在本次报告中,分析了集重常见的低级错误,包括图表、格式、排版、公式、引用等问题,以及相应的解决方案。张老师期望通过此报告,能帮助研究生们提高论文的质量。我们也从中学习到了许多写论文时难以注意到却很重要的小细节,在今后写论文时规避。
图7 论文常见低级错误简析
报告题目:AI论文写作123
讲者:李玺(浙江大学)
李老师在这场报告中分享的是AI方向学术论文的写作方法,在撰写AI领域的学术论文时的基本步骤和需要注意的写作要点。主要分为三个部分:如何想Idea、如何做实验和如何写论文,全面地介绍了一篇AI论文的完整写作流程。
图8 AI论文写作
报告题目:同行评议退稿常见问题
讲者:陈秀妍(《中国图象图形学报》编辑部)
陈老师基于《中国图象图形学报》的真实案例,介绍同行评议退稿中关于创新点、摘要、引言、实验、参考文献等方面最常见的问题和不足,为大家撰写论文提供参考和借鉴。
图9 同行评议退稿常见问题
Panel: 高质量论文写作和发表
讲者:吴小俊(江南大学)、高会军(哈尔滨工业大学)、张军平(复旦大学)、李玺(浙江大学)、程明明(南开大学)、章国锋(浙江大学)
panel环节是所有报告结束的最后一个环节,参与嘉宾除了上述报告提到的嘉宾以外,南开大学的程明明教授也被邀请参与。panel环节主要围绕的主题是补充高质量论文写作与发表过程中容易遇到的问题,比如论文投稿之后,会议论文的rebuttal和期刊论文的response letter该如何写才能更好。在这个问题上,程明明教授指出rebuttal和response letter中的问题意味着作者与审稿人之间的认知偏差,可以分为两类:审稿人的理解错误和审稿人认为贡献不够大,并深入浅出地传授了如何应对这两类问题的rebuttal和response技巧。
图10 panel环节