点击蓝字
关注我们
AI TIME欢迎每一位AI爱好者的加入!
随着计算机处理能力的提升与深度学习的突破,计算机视觉不仅在日常生活中带来了便利,也在各行各业中展现出了无限的可能性。在这个充满创新和发展的时代,视觉感知与智能媒体技术扮演着越来越重要的角色,正促进着图像重建、图像压缩、图像增强、视觉分析与理解、图像生成与设计等关键任务的研究。
2023年7月7日上午,WAIC 2023“智能媒体计算专题论坛”成功举办。本次论坛由北京大学王选计算机研究所数字视频研究室主办,AI TIME承办,东浩兰生(集团)有限公司协办。各位嘉宾多维度、多视角、全方面展示了智慧生活中的智能媒体处理与理解蓝图,与观众共同探索了计算机视觉的奇妙世界,解锁新科技。
刘家瑛老师首先介绍了王选计算机研究所数字视频研究室的基本情况,分享了实验室大量代表性工作,重点介绍了关于艺术化文字生成、图像风格化、图文生成方面的工作。对于艺术化设计,实验室同学利用智能化艺术字效设计方法进行相关字效的生成,在分钟级别进行相关字库的渲染,这能够为当前常用的中文字库提供一套给定艺术风格的所有相关设计。除了艺术字的设计,这类算法也可以用于对应的符号,或者是一些其他相关包含有外包结构下的图标设计、动态图设计,应用效果也非常好。刘老师在本次论坛中报告的主题是《智能感知与媒体计算》,重点分享了面向人机协同编码与重建优化的研究思路,不仅提升了下游检测任务,还提升了图像重建质量,取得了高效压缩性能。
樊泽嘉带来了《真实场景下的自学习超分辨率》的报告。在信息资源非常丰富的时代,随着科技的迅速发展,人们对视觉欣赏的能力越来越强,对于视觉体验的要求也越来越高。但是,真实世界图像捕捉的场景中会引入信息的损失,此时需要超分辨率技术补全纹理、填充信息、进行高清重建,以带来更好的视觉体验。她在报告中分享了视频超分辨率方法在真实图像上的应用,希望从二次降采的图像和原本的图像通过时空自相似性学习超分辨率关系,找到信息规律,实现零样本视频超分辨率的框架,不依赖外部数据。她还进一步结合了外部学习和内部学习的优势,在外部学习的先验基础上,进行权重图引导的内部学习,突出了半监督超分辨率框架,实现了非常好的视觉效果。
黄浩峰分享了《暗光信号解耦与智能成像》的相关工作。在各类软硬件快速发展的时代,拍摄一张高清图片已经成为人们感知、体验生活的重要方式,但是在光源不足时,我们却难以感知身边的内容。针对这一问题,学术界、产业界界都提出了一系列的软硬件解决方案。黄浩峰在报告中提到他的主要研究目标是分析图像增强性能差距的来源,并尽可能地运用RAW图像特性辅助构建一个性能相当的RGB性能增强的框架。他通过构建一个信号特性解耦以及量化框架,进行简单的变换得到中间结果作为比较对象,以此量化中间各个步骤带来的性能损耗对于最终低光照增强任务性能的影响,定性定量的实验结果都显示了该方法的优越性。
汪文靖介绍了《从低质视觉增强到跨域适配理解》的详细研究。计算机视觉技术在近十年来得到了蓬勃的发展,但聚焦到细小领域,仍然存在诸多难题。比如,在低光照场景下,人脸检测的精度会受到影响,还会影响许多下游机器分析任务的性能。汪文靖提到,针对低光照下的视觉分析任务,可以重新标注数据训练模型,然而这种工作是耗时费力的,所以她更关注如何将模型从正常光照到低光照的无监督域迁移任务。她在报告中介绍了一种高层视觉和底层视觉联合的迁移框架,通过多任务机制进行联合的特征迁移以及综合的特征增强,实现了检测准确率的提升。且该框架能够更好地适用于分类、目标检测、街景分割等复杂任务,通用性较强。
林里浪为大家报告了《噪声鲁棒的视频序列行为分析》的相关工作。在当前的大数据时代,图像和视频成为了人类信息交流的重要载体,而人作为主要的视觉目标,对人体的分析和理解也是许多研究的重要议题。林里浪在报告中提及,他的研究目标是设计一个算法使骨架数据从低噪声域适应到高噪声域进行识别。在该工作中,他首先建立一个包含低噪声和高噪声的噪声数据集进行数据特征的提取以及动作类别的分类,其次建立基于生成的噪声适应模型,使得网络从高噪声域生成低噪声域的数据。最终的实验结果显示,该方法较之前的工作有显著提升,可以更好地应用到下游高噪声的噪声上。
马逸扬为大家展示了《跨域语义鸿沟的开放世界图像生成》的相关研究内容。生成式任务的基本工作是合成或伪造符合真实数据结果的伪数据或者数据合成数据,而生成模型在工作的过程中需要理解其中的数据分布并从分布中采样出新的图像。他综合分析了文到图生成、跨模态语义对齐、扩散模型的相关研究工作,并指出他在现有工作中的研究目标是解决文到图模型定制化程度有限、主体图像背景影响生成的问题。他将文本、文本主体对应的图像、整张图片统一编到文到图生成的文本空间,利用现有的生成模型提供监督,同时使用预训练好的模型减小预训练的代价。在生成过程中同时使用文本和图像的联合向量、原始描述文本对应的文本向量进行引导,缓解图像背景与文本对应背景抵触的问题。显示的实验结果证明了所提方法的有效性,生成图像在语义层面可以与文本高度匹配,并且主体图像上的更多视觉细节能够保持到结果图中。他在最后展示了一张将使用AIGC大模型将生成的北大博雅塔放到外滩上的图片,并表示在未来大模型有更多的潜力值得大家去挖掘和利用。
上午报告中您印象深刻的工作
以及您对该方向的一些建议
李泽超老师概括了几位同学汇报的关键词为“真实世界”、“开放世界”,进一步说明了研究该问题的核心动机是增加下游应用的性能,更好地适配下游任务。此外,他重点强调了在生成工作方面所面临的大数据、大算力的问题,因此借助基础模型做一些可控方面的生成是值得考虑的方向。
高盛华老师提到自己印象最深的工作是可控的图像生成,解决图像生成在真实场景中的应用问题是很有意义的。他表示,未来的研究可以聚焦到从单一到多视角图像生成的转换,探索如何收集到更多符合需求的数据等。
严骏驰老师认为五位同学报告的整体性很强,衔接十分流畅自然。五位同学的工作既有区分度,又有一定的相关性,大家相互补充,相互借鉴和启发,体现了实验室优秀的科研风气。
陈智能老师补充道,五位同学的研究工作是具有很强的实践性的,所利用的研究方法是具有前沿性的。
杨文瀚老师与大家讨论了两个目前的研究难点,第一是AIGC的训练机制对广泛的应用场景并不友好;第二是研究者希望利用现有的ISP模块化地解决大部分任务,但是人脑、视网膜机制从自然进化中分化出了专有的细胞,未来对于不同的ISP basic structure的研究是值得探索的问题。
你的小组科研经历?
你的STRUCT“科研预训练”的特性与故事?
汪文靖表示研究方向不同的同学聚在一起开组会,既可以了解同方向同学的研究进展,又能学习不同领域的相关知识,拓展自己的视野,甚至可以从自己研究的角度为其他研究方向的同学提供合理的建议。
李泽超老师提到不同方向的学者可以多交流,观点的碰撞会带来好的灵感。此外,与不同岗位的人交流,能够促进我们回顾解决问题本质的方式,这往往会带来意想不到的结果,正所谓“它山之石可以攻玉”。
樊泽嘉分享了自己在北京大学王选计算机研究所的科研经历。她表示在科研工作中,前期需要对自己感兴趣的问题进行方向的尝试,在积累到一定的程度后,可以将积累的结果沉淀一下。在前期做加法,拓展对领域的认识,在后期做减法,剖析最核心的问题。
高盛华老师认为做科研不应该被ddl驱动,ddl能帮助我们将过去积累的知识沉淀打磨,让自己系统思考从而明确未来更好的出发点,在科研的过程中,学习应该要有规划有目标。对于应对论文ddl的问题,他提到可以先写文章,然后再精细打磨,研究如何讲好一个故事。
马逸扬分享了自己在两个研究方向不同实验室的真实感受,科研“预训练”之后,掌握的是基础知识以及基本的学习能力,这可以帮助我们快速启动一个新的研究方向。他也提到,不同的研究方向之间也有很多相似之处,可以相互借鉴学习,当自己的研究方向遇到瓶颈时,换一个角度思考或许会有新的灵感。
陈智能老师提到跨专业是一种比较普遍的现象,每个学科的专业门槛相比个人的努力没有那么高。我们要像外行一样去思考,像专家一样实践。
林里浪讲述了自己在改论文时的一些体验,他认为写论文与科研有一定的冲突,写论文与科研在某种程度上是不能画等号的。
严骏驰老师提到论文需要想清楚思路再动笔写,尤为重要的两点是精确和简洁,做到论文结构化,在有限的空间内表达精简的信息。他也分享了两个论文写作tips,写作初期可以先写中文再换英文,其次可以列出思维导图,先有提纲再填充内容。
杨文瀚老师则从学生的角度讲述了自己在刘老师实验室的两点感受。首先是刘老师对学生的整体情况了解比较全面,对学生的发展会有一个整体规划,同时也会注重学生的自我督促和驱动能力的培养;其次是STRUCT的预训练,在这里很多任务都是大家共同参与的,参与到他人的任务中对自己的学习也会有帮助,这也是一种积累。
谈谈你觉得最有收获或印象最深的
一次“任务驱动”经历
黄浩峰回忆了自己印象最深的一次“任务驱动”经历,是在疫情期间赶论文迫切需要老师的指导,但是老师无法进校,所有学生在老师家中集体办公。
严骏驰老师分享了自己在ddl前期协同办公的经验,这时大家可以开共享文档,由负责人列出提纲,明确每位团队成员细致的分工,这样可以有效提高效率。
林里浪谈到自己在实验室内集体出游的体验,并提问陈老师如何平衡科研与活动的关系。陈老师认为实验室需要打造轻松良好的氛围,需要有一定的休闲活动,归属感不能靠工作打造,学生的热情和主动性是最重要的。
马逸扬回忆自己印象最深的经历是通宵赶论文,在最后一刻完成工作有紧迫感,会从心理上认为自己是在能力范围内已经做到最好的。
高盛华老师分享了自己对于ddl完成工作的看法,他觉得人的潜力是无限的,在ddl截止时完成工作也是可以的,但是如果能够将任务提前压缩,做任何事情有预案会更好。每个人都有自己的特质,这需要根据各自的情况区分。
陈智能老师补充道,在ddl前提交工作应该是软同步的,在平时将工作分叉成小点,最终收敛到一个点上,这个过程是柔性的,而不应该是硬性的。
樊泽嘉从科研作图的角度提到工作的呈现框架图对论文的呈现也尤为重要,并表示科研画图的审美水平是自己在组内提升较多的一个点。
李泽超老师从审稿的角度表达了自己的观点,他在审稿过程中更关注的是作者开展工作的研究动机及其能解决到的实际问题,这是最重要的一点,在此基础上美化图片才是锦上添花。
汪文靖谈到自己在博士期间帮助低年级学生发文章的焦虑程度会胜于自己,会更关注最终结果的成功与否。
杨文瀚老师也分享了自己帮助低年级学生发表论文的经历,并提到自己在这过程中性格的改变和沟通技巧的提升。此外,他也提到,在帮助他们修改论文时,前期会让学生自己改,积累经验,后期自己亲手改,提升效率。
老师寄语
李泽超:希望每一位同学具备独立从事科研工作的能力。
高盛华:希望学生能做到跨学科交流,在做好自己专业工作的同时更多地探索外面的世界。
严骏驰:希望每位同学在自己的科研生涯上有更好的体验,去国际的顶级会议做汇报。
陈智能:希望与大家各种顶级会议上多见面。
杨文瀚:希望大家在博士期间的生活多姿多味,酸甜苦辣,在未来能有一段很自豪的回忆。
记得关注我们呀!每天都有新知识!
关于AI TIME
AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。
迄今为止,AI TIME已经邀请了1100多位海内外讲者,举办了逾550场活动,超600万人次观看。
我知道你
在看
哦
~
点击 阅读原文 观看回放!