导语:近几年,人工智能在国内的商业落地趋于同质化,以识别与检测为主。当人们谈论AI创业,首先想到的总是以感知技术为代表的“AI四小龙”(商汤、云从、依图、旷视)。除了感知,人工智能还有哪些商用方向?
在上周推送的文章《陈启峰:在适合自己的赛道上追求速度与突破》中,我们探讨了计算机视觉的另一个潜在落地方向:内容生成。不止一位研究者相信,如果能够用AI技术降低大众的艺术创作成本,那么大家参与内容创作的热情也会提高,说不定还能改写《权游》大结局。
在推动内容生成落地的浪潮中,马里千与ZMO的小伙伴首当其冲。
作者 | 陈彩娴
编辑 | 刘冰一
2014年,当远在加拿大的 Ian J. GoodFellow 等人提出生成对抗网络“GAN”时,马里千正在大洋彼岸的北京大学攻读研究生,刚刚入门行人重识别。
GAN的核心理念是让两个神经网络相互竞争,一个神经网络生成接近真实的数据,另一个网络试图区分真实的数据和由生成网络生成的数据。“猫抓老鼠”的游戏不断进行,直到系统达到“平衡”,生成器创建的数据就会看起来足够真实,这时判别器只能无奈随机猜测。
图注:GAN的工作原理
由于能够生成“足够真实”的数据,随后几年,GAN在图像内容生成上的影响力日益增大,继而延伸出了基于GAN技术的30多种生成模型,包括 StyleGAN、Recycle-GAN、GauGAN等等。比如,2018年,Nvidia 开发的 StyleGAN 能够生成“不存在的人”:
GAN的出现,让AI内容生成走入更多人的视线。除了“GAN系家族”,近年来,诸如蚂蚁呀嘿、DALL·E(如下)等生成技术也日趋成熟,昭示着内容自动生成的落地可能性。
文本:穿着芭蕾舞短裙的萝卜宝宝在遛狗。
图注:“DALL·E”能够根据文本提示生成对应的图像
尽管GAN已诞生六年多,但遗憾的是,目前国内计算机视觉技术的商业应用落地仍局限于感知一块。仔细观察,国内知名的人工智能企业(如商汤、云从、旷视、依图等),他们的主要商用技术便是人脸识别。
“除了检测、识别、语义分割等,计算机视觉在中国还有其他可能的落地方向吗?”马里千也一直在思考这个问题。
随着以GAN为代表的内容生成模型队伍日渐壮大,马里千也已从刚刚入门的“AI小白”成长为在图像生成方向小有造诣的博士候选人之一。怀着对未来内容生成发展的好奇与疑问,马里千不甘于成为大厂的一枚螺丝钉,而是选择开创一番属于自己的事业。
加盟人工智能创业公司ZMO,便是马里千在内容生成创业上的第一步。
1 北大:开始人体识别研究
2013年,马里千以优秀的成绩从华南理工大学保研至北京大学,攻读计算机应用技术专业。在北大,他开始了人体感知识别的研究课题。
此前,马里千的本科专业为电子科学与技术(微电子方向),所学课程偏硬件。尽管专业成绩一直名列前茅,但马里千很早便确定“自己更喜欢研究软件应用与开发,尤其是视频与图文的特效制作”。所以,在确定保研北大后,他便毅然选择转专业,加入了刘宏教授的智能机器人开放实验室(HRI Lab),开始研究计算机视觉。
图注:北大未名湖
本科研究编程与数字图像处理的经历,与计算机视觉的基本概念有很大差距。因此,在刚进入计算机视觉领域时,马里千对技术的细分方向并不了解。在选择研究课题时,组里的方向非常多,有研究表情识别的,有研究人脸识别的,有研究动作分析的,也有研究语音和运动规划的……犹如刘姥姥进大观园,一切都觉得新奇,又眼花缭乱。
一开始,马里千跟着实验室的一位博士师兄着手于RGB-D人体跟踪方面的研究。在拟定硕士研究课题时,他与博士师兄讨论,选择了行人重识别方向。他解释道:
“行人重识别这个课题的延展性特别好,‘进可攻、退可守’。往外拓展,你可以把识别拓展到跟踪问题上,包括单摄像头跟踪与跨摄像头跟踪,进而延伸到动作识别、轨迹分析、行为分析等等。退可守就是,你可以将问题简化为学习单纯的相似性度量,比如判别两张人像图片所显示的是不是同一个人。”
行人重识别的英文名为“Person Re-Identification”(缩写为“re-ID”),最早在这个方向上取得卓越成果的研究机构主要是伦敦玛丽女王大学和香港中文大学,而后引入国内。“Person”的意思是“人体”,而国内翻译成“行人”,是因为这项技术最初主要应用于监控与行人观测。
硕士期间,马里千在行人重识别上的研究处于较浅显的阶段,只能算刚刚入门。他原本也没有打算读博深造,而是计划硕士毕业就去工作,也拿到了知名互联网大厂的offer。但是,2015年去腾讯优图实验室实习的经历改变了他的想法。
当时,他在优图实验室担任研究实习生,主要负责调研多摄像头目标跟踪与行人重识别的相关前沿技术调研,以及评估室内 ReID 算法的应用落地。在那里,马里千见识了各路大神,他们中绝大多数是博士毕业,对技术也有十分独到的见解。
相比之下,马里千觉得自己作为硕士生,对技术的理解还不够深入,还有很大的成长空间。于是,他决定申请出国读博,在一个领域潜心修炼,继续提升自己的功力。
2016年4月份,马里千去鲁汶大学(KU Leuven)电子系攻读博士学位,师从 Luc Van Gool 教授。
马里千的导师Van Gool毕业于鲁汶大学,是欧洲计算机视觉研究领域的翘楚之一,功成名就后同时在苏黎世理工学院与鲁汶大学担任教授。Van Gool研究的范围十分广泛,与产业界也有密切的合作。圈内盛传Van Gool组“可能是全世界PhD工资最高的组”,马里千的PhD项目就由丰田Trace实验室资助。
与美国CV研究偏重应用方向相比,欧洲CV学派基础更为扎实,更注重“识别”的机制以及之后的决策与交互。从八十年代末兴起的几何三维重建理论就是起源于欧洲,在这一波浪潮中,马里千的导师Van Gool与学生Mark Pollefeys 等因提出模约束理论(modulus constraint), 解决了分层重建中的仿射重建问题而获得1998年的马尔奖,很自然地,马里千也沿着前辈们的方向进行了扩展性的探索。
图注:Luc Van Gool 教授
Trace实验室的主要研究方向为自动驾驶计算机视觉,因此,针对人体与场景的图像合成与理解也成为了马里千在博士阶段的两大研究方向。读博期间,马里千一共发表了8篇顶会论文,其中一作就占了6篇。
“读博期间,我就喜欢做自己想做的task(任务),这会让我感觉(这些任务)是自己的亲儿子一样。自己从头规划,定技术路线,到最后把它做出来。”马里千说。
刚进入实验室时,马里千做的是人体多目标跟踪与重识别。在做的过程中,他发现了一个问题:在不同场景下,模型的适应能力很差,“换一个场景,模型就废了。”
这时,实验室的师兄恰巧向他介绍了GAN这项技术,他觉得很新奇,就想:“为什么不自己生成一个数据集?这样就可以用仿真的方式解决数据标注成本高昂的问题。”
对GAN的兴趣驱使他转向了人体生成方向的研究。
在这个过程中,他注意到GAN,并希望利用 GAN 技术生成一个人的不同姿势,以此来帮助做人体识别的任务。深入研究后,他发现人体姿势变换也是一个很有意思的研究问题,便开始专注于研究人体姿势变换。
发表于NIPS 2017的工作“Pose Guided Person Image Generation”是马里千在博士期间的代表工作之一。这篇工作主要研究 2D 人体姿势迁移,首次定义了人体姿势变换这一问题。
论文地址:
https://arxiv.org/pdf/1705.09368.pdf
自此,马里千打开了“图像内容生成”的大门。
正式转为博士生后,(非欧盟硕士到欧洲大学读博需要经历预博士时期),马里千在人体生成方向继续发力,又在 CVPR 2018 上发表了一篇通过解耦来进行图像编辑、“无中生有”的工作,即“Disentangled Person Image Generation”。
论文地址:
https://arxiv.org/pdf/1712.02621.pdf
NIPS 2017的工作需要使用同一个人的不同姿势的数据(即“pair data”,配对数据)对模型进行训练,这就造成一个限制:如果从网上爬数据,那么爬到的数据很可能是一个人在一个场景上的单个姿势照片,而无法获取 Ta 在同一个场景的不同姿势照片。针对这种情况,马里千便想到使用“unpair data”(非配对数据)来进行模型训练。
新的训练方式延伸出其他的技术效果。CVPR 2018的文章提出了一种基于自监督的解耦表达人体前景、背景、姿态特征的生成式模型。模型可以将人体的不同要素(五官、手臂、脚等等)进行解耦,然后通过分别控制这些要素来进行图像编辑,而不再局限于修改输入人体的姿势。总的来说,该模型可以用于人体图像生成与编辑,样本插值,人体姿态变换,以及行人重识别。
图注:人体图片样本插值(x1 和 x2 是真实图片)
此外,他们提出一种「高斯噪声-> 特征 ->图像」的映射方式,使得模型可以分别从高斯空间采样得到对应的前景、背景、姿态。学习方法分为一阶段(解耦图像重建)与二阶段(嵌入特征映射),其中,一阶段模型可以完成对人体图像的编辑,例如变换姿态和外观。但二阶段可以从先验分布中进行采样,生成一个完全不存在的人。
除了人体识别生成,马里千的研究工作还包括场景识别生成。
人体的运动更多是动态的、非刚体的,而场景研究则聚焦于静态物体,且更多是刚体运动。比如,一辆车的形变不会太大,但人体的形变非常不规则(这也是人体识别研究的主要难点之一)。
根据场景研究的特点,马里千与团队成员从场景的3D信息入手,以进行场景视野的拓展。比如,最新发表的工作“Field-of-View Extrapolation Using Self-Attention and Uncertainty”(RAL-ICRA 2021,已申请欧洲和美国专利)可以将一个窄视频自动生成宽视频,有望应用于电影特效场景的合成:
马里千认为,人体与场景的结合研究是必然的:场景解读可以促进人体行为理解,人体理解也能促进场景解读。比如,如果一个人的旁边有一张椅子,那么这个人的动作很可能是坐着;又或者,一个正在打篮球的人,很大概率身处在篮球场中。
“我一直想做的是实现影视自动化。”马里千兴奋地说道。
在马里千看来,影视自动化涵盖内容生成的各项技术,是考验AI内容生成水平的最佳平台。如果 AI 技术能够根据脚本自动生成一部影视作品,那一定非常震撼:“对我来说,从技术层面来看,影视自动化方向就代表了内容生成的终极目标。”
马里千对影视自动化的构想始于2017年。当时《权利的游戏》第七季刚结束,距离HBO推出最终季还有至少一年的等待时间,于是,网友便脑洞大开,基于自己的想象力预测了一章最终季剧情走向。
“后来《权游8》烂尾,大家都在说还不如按照当初预测的剧本拍一部呢。”
图注:《权力的游戏》结局
仔细分析,一部影视制品制作的各个环节,包括脚本、场景布置、台词编写、演员拍摄、人物配音等等的生成,横跨NLP、语音、CV等多个领域,每个场景所需要的技术和要求天差地别,要做到影视自动化绝非易事。
但也正是这几年,AI内容生成领域产生了突飞猛进的变化,上述领域也进入了一个“生成式AI”的新时代。
这一切变化可上溯到2014年,被Yan LeCunn(深度学习三巨头之一)称为“近10年机器学习领域最有趣的想法之一”的GAN的诞生。
“如果没有GAN,我不会去做人体生成,其他同行也很可能不会转向内容生成一块,研究热点往生成方向的转移也不会那么迅速。”马里千解释,他是被“GAN”影响的一代人。
GAN是近年来深度合成(Deep synthesis)技术的基石,最早被应用于图像生成模型领域,从图像生成模型开始,延伸出了换脸、人脸合成、语音合成、视频生成、数字虚拟人物等不同应用。它的出现,证明了算法做生成可以取得如此逼真的效果,掀起了图像生成的浪潮。
图注:基于GAN的人脸编辑
其中,2017年由Reddit网站用户“deepfakes”提出并开源的Deepfake是深度图像生成模型的一次“里程碑式”的应用。此前虽然涌现出了不少将GAN用于图像生成模型的论文,但大多数都只能算是缺乏实用价值的Demo,而Deepfake则是首次落地,开启了AI生成+大众娱乐的风口。
随后的两年中,随着GAN算法的发展应用和开源项目的增多,生成式AI也进入了一个新的时代。一方面,“AI生成”成为人工智能研究的新热点,如Faceswap、FakeAPP、face2face、Avatarify等开源方法和工具性的应用不断涌现,各种脑洞大开的场景陆续浮出水面,在社交媒体上引发了一轮又一轮的关注;而开源工具又推动了深度合成工具的开发,不仅Facebook、抖音等一批亿级APP将深度合成应用于自己的应用中,更带动了一批AI初创公司开始试水这一领域。
图注:俄罗斯程序员Ali Aliev用Avatarify软件把自己的头像换成了马斯克
在技术发展的同时,马里千的研究也同样处于这一领域的最前沿:他的研究内容更多是围绕基于条件的生成模型,同时,他的研究应用不仅局限于人脸,还包括人体。人体比人脸的形变更大,也更难驾驭。
比如,在2019年的工作“Exemplar Guided Unsupervised Image-to-Image Translation with Semantic Consistency”(ICLR 2019)中,他利用 GAN 的无监督能力来帮助无配对数据学习;在“Disentangle Person Image Generation”一文中,他提出的二阶段思想,也是为了解决当时 GAN 技术中训练效果不佳的问题,先用第一阶段的模型学习人体构造,第二阶段是采样噪点至特征空间。
“3D合成技术将是下一轮的重点。”马里千说。
此外,马里千还注意到,在学术界,人工智能自动生成多媒体内容(AI-generated Media)的技术渐趋成熟,文字、音乐、图像、语音、视频等均可由 AI 自动完成;而在单一的音频、图像生成外,深度生成技术正在朝着综合性方向发展,他曾设想的“影视自动化”,此时看起来已经不再是遥不可及的目标。
内容自动生成正在通过越来越多的计算机引用程序和服务走向商业化。如果仔细观察,我们会发现,AI 内容生成已经通过网络与我们近距离接触:虚拟主播、数字试穿、影视后期制作、语音合成、换脸、老照片修复……
生逢其时,马里千对层出不穷的 AI 内容生成方式感到震撼。他认为,AI内容自动生成将成为新的内容创作动力,促进高质量的多媒体内容输出。而他,不想错过这个时代。
腾讯研究院与腾讯优图实验室共同发布《AI生成内容发展报告2020——“深度合成”(deep synthesis)商业化元年》指出,深度学习内容合成有发展趋势之一,便是:面部合成之外,全身合成将成为新热点。
目前,基于人脸、人体、场景的图像内容自动生成仍处于起步阶段。尽管国外有以 synthesia.io 等致力于内容自动生成落地的创业代表,但对比国内外的用户市场,马里千认为,国内的大环境更乐观:“我觉得国内的用户市场非常活跃,抖音、淘宝、B站等线上平台比国外发展更好。”
博士即将毕业之际,相比去大厂,马里千更想创业。
这与他“更想引领、而非追随”的性格有关。他回忆,硕博期间,导师对他的指导均是从非常高的层面给予意见,保证他在大方向上不会“走歪”,而做研究时,从定方向、定技术路线,到最后实现,基本都是由他独自完成。因此,进入大厂可能当螺丝钉的状态显然不是他想要的:“人家的整体路线已经非常成熟,进去的话很可能只是做某个环节的改进。”
读博期间,实验室的创业氛围也影响了他。马里千介绍,博导 Luc Van Gool 本人就身兼数职,创业热情非常高,投资了许多创业公司,“老师看问题的主要角度之一也是从‘这项工作有没有用’出发”;实验室里的许多成员也是边读博边在创业公司担任CTO,或者毕业后开一个创业公司,围绕博士期间的研究课题做商业化落地。
2019年在 Adobe Research 实习时,马里千及团队曾提出一种叫做“Unselfie(非自拍)”的图片转换方法,通过识别目标的姿势并生成身体的纹理,在给定的自拍背景中完善与合成人物,“自拍”秒变“他拍”:
对马里千来说,这项工作更大的意义不是技术上的突破,而是他首次将用户需求与研究内容结合。比如,Unselfie 工作不仅可以用于多媒体自拍图片转换,还能用于修改证件照等。马里千一直追求应用型研究,即“格物致知”。
导师的实干精神,以及之前“Unselfie”的经验,促使马里千形成了需求驱动的研究意识。在他看来,创业是一个将研究落地的良好途径,因为依托市场,他可以真正进行应用型研究:“不再是在一个封闭的环境里闭门造车,做一些可能自己认为很酷、但别人根本不买单的产品。”
市场会为了AI内容自动生成而买单吗?马里千也想过这个问题。
除了马里千,实验室里的大部分同事都是研究识别、分割、机器学习或机器人,与他的研究方向最接近的,可能是一位叫贾旭的师兄。贾旭现任大连理工大学人工智能学院副教授,此前曾做过将人的侧脸转为正脸的研究,以及场景预测,马里千与他也一直有在合作。
之前有一次,马里千与一位做模型压缩的同事聊天,他提议可以做生成类模型的压缩,同事反问:“生成模型有什么用?”他说,应用很多呀,可以做图像编辑、数据增广等等,但这个答案没有引起同事的兴趣。
还有一次,在一个学术研讨会上,台上的演讲者正在分享一个从图像到图像的翻译工作,台下的观众问:“这个有什么用?”报告者尴尬地说了一句:“娱乐(Entertainment)。”
在思考研究图像合成的应用意义时,他针对人体合成与场景合成在数据增量的应用进行了探索,希望图像合成的落地能够不仅局限于娱乐与图像编辑。后来,在接触工业界的过程中,马里千了解到,其实图像合成有许多潜在应用,比如Codec Avastar可以用来远程交流,电商、视频网站、VR/AR等技术中的内容生成也会用到图像合成。
想法的落地,需要“天时、地利、人和”。去年3月,在与朋友张诗莹等人深入探讨后,他们一致认为,在多媒体时代,图像/视频内容自动生成是未来的趋势。如果人只是提供一个创意,让 GAN、DALL·E等生成模型自动生成内容,那么不仅可以降低内容的生产门槛,还能提高生成的效率。
“多媒体内容的制作成本非常高,比如一条抖音短视频,要有创意,有后期制作,还有演员、摄影师等等。而当你投入很大的成本去拍一条视频时,你并不能确保你的视频能够吸引到很大的流量。”在这种情况下,AI 自动生成技术无疑能大大降低创作的时间和金钱成本,让创作者只要给出最核心的idea、便能看到 AI 生成的优质内容,减少投入的成本和风险。
一拍即合后,ZMO.AI应运而生,成立不到一个月,就拿到顶级风险投资机构GSR Ventors 金沙江创投和 GGV 纪源资本上千万的融资金额,估值近亿。
ZMO的落地重心是打造世界上最前沿的人工智能的内容生成引擎:从一张简单的衣服照片,或是一句文字的描述,就可以直接生成以假乱真的2D效果图或者视频。他们坚信未来的世界万物皆可生成,这将彻底重塑人类生产内容的方式,颠覆传统互联网内容生成的底层逻辑。
目前,ZMO在发展的第一阶段,便已能利用算法与数据,降低多媒体内容的生产成本,帮助诸多头部电商实现降本增效。
张诗莹谈道:“信息时代,我们缺的不是内容,而是有差异化的高质量内容。从GAN的诞生至今,AI在内容生成方面的技术发展已渐趋成熟,很大希望成为AI商用的下一个风口。”
做内容生成,你“GAN”吗?
当人脸识别、产品瑕疵检测等应用广泛落地时,人们也逐渐将对 AI 感知技术的关注转向其他领域,比如认知智能。但马里千认为,在 AI 的下一个十年里,内容生成应占有一席之地。
相比赋予机器知识与推理能力的漫长道路,让机器执行人类的概念与想法似乎更简单,尤其是在图像与视频的内容编辑上。除了老照片修复、换脸、换装等简单应用,如果计算机视觉的深度合成技术能够用于大脑画面的还原,比如自己写一个《权力的游戏》大结局剧本,合成一部只属于自己的电视剧,那么人人都有成为导演的机会。
这是马里千的梦想,也可能是你的梦想。
在采访的最后,我们问马里千,他如何看待ZMO的未来。对于这个问题,马里千没有正面回答,只给了一句意味深长的感慨:“不要忘了,像视觉四小龙的崛起,也仅仅是这几年的事。”