伴随着视频技术的进步和标准的迭代,视频产业从模拟进入到数字时代,完成了从电影电视到互联网的媒介转换,并且衍生出了超高清、3D、AR/VR 等多种创新形态。特别是在后疫情的当下,我们可以看到音视频技术领域的诸多新变化,云与端的协同互动、算法创新与工程应用的深度交合、场景与需求的渗透促进,在严峻的挑战下,为各行各业带来了新的场景与活力。
在即将举办的 LiveVideoStackCon 2021 北京站,来自阿里云智能视频云的专家将与众多行业伙伴,一同探索与探讨视频云技术在云上的创新探索。为此,我们采访了阿里巴巴研究员 —— 叶琰,以及资深技术专家 —— 何亚明,与两位专家围绕编解码技术及视频云的新场景应用展开了深入对话。
从 2006 年网络视频的兴起,到现在迈入 “视频社会化” 时代,5G、云、AI 已成为社会的发展趋势,视频不再局限于电影、电视、广告等传统媒体领域,视频会议、 互动视频、电商直播等新型应用使产业边界逐渐消融,视频行业需求和技术不断升级。随着技术的发展和基础设施的夯实,视频将会成为新的交互方式和信息承载的形态。
(资料来源:艾瑞咨询 ——2021 年中国视频云场景应用洞察白皮书)
对于竞争激烈、快速迭代的大视频产业而言,视频云已经逐渐发展为一项关键的基础设施。众所周知,当下的视频业务对算力、存储、带宽这些资源的消耗非常高,比如一场流行的直播演唱会,可能会有上百万的人在观看,这不仅需要有强大的端侧实时视频处理能力,还要依托大规模的 CDN 分发网络完成流畅的分发任务,甚至一些 AR/VR 的特殊视觉效果需要通过边缘节点的计算才能得以呈现,所以仅仅把服务器搬到云上已经远远不能满足未来的场景需求,如何利用云的优势进行技术架构和业务的演进成为业界共同面临的课题。
叶琰是阿里巴巴研究员,阿里云智能视频云视频标准与实现负责人。她负责视频云在 ITU-T VCEG、ISO/IEC MPEG 、AVS 等国际和国家视频标准组织的技术开发,涉及视频编解码、AI 视频质量评估、VR/AR 等先进技术的研发工作。她参与了多项视频编解码与流媒体的国际标准制定工作,包括 H.266/VVC,H.265/HEVC,SHVC 等标准。她是 50 多篇学术论文的作者,130 多篇美国授权专利以及 230 多篇美国专利申请的发明人。她还是 IEEE 高级会员。她在中国科技大学获得本科及硕士学位,在加州大学圣地亚哥分校获得博士学位。
视频离不开编解码技术,编解码离不开标准的引导。视频标准一直是视频行业发展的基础设施,视频标准覆盖广泛,从系统标准 MPEG CMAF 到编解码标准 H.266/VVC,视频标准的不断更新迭代对视频生产的效率提升、成本降低和新的体验起到至关重要的作用,也关系着整个行业未来的走向。
叶琰作为阿里巴巴研究员、阿里云视频云视频标准与实现团队的负责人,一直以来是国际视频标准化工作的深度参与者和推动者,在叶琰看来 “视频标准化组织是见证最前沿技术和把握最新行业脉搏的最佳场合之一,正是通过业界专家们开放的技术讨论,同时充分倾听市场的需求,才让我们能一次次迭代出更高效的标准,持续推动行业的进步。”
然而,面对新的发展阶段,业界也对一些视频标准组织提出了不同声音。有一种观点认为,像 MPEG 这样的标准组织已经失去了主导的角色,大家还在为了零点几的性能增益绞尽脑汁,而这带来的是更大的计算成本,这种自嗨式的创新更多是一种刷存在感,并没有带来本质上的技术前进或创新,业界应该找到新的思路解决视频压缩问题。
面对这样的杂音,叶琰表达了自己的判断 ——“我不太认同把传统框架和全新框架当成隔离甚至对立关系这种观点。虽然传统框架下挖掘性能越来越难,但是这个方向是基于大家熟悉的框架,有利于软件硬件实现,而 ECM 也充分展示了这个框架仍然可以提供可观的性能增益,所以不能轻易放弃。另一方面来说,JVET 也在探索什么样的新框架或者新工具可以一蹴而就,拿到大幅的性能增益。同时我们也非常关注这个新框架需要消耗什么水位的计算成本?实话说,我们现在还在摸索,所以必须依靠两条腿走路的方式,才能找到最有潜力并且可实现的下一代编解码技术。”
的确,每制定一代编码标准都是一个非常艰巨的工作,不能一蹴而就。以目前业界的最新标准 VVC 为例,其正式开始之前的预研工作就花了 3 年左右的时间。正是因为如此,在 VVC 标准定稿不到一年, JVET 于今年上半年就设立了 ECM 软件平台,用以进行下一代编码标准的技术预研和开发。叶琰说到:“虽然目前 ECM 的压缩能力已经超过 VVC 大概 14%,但是按照之前的经验,这个预研工作还需要若干年的时间才能达到新一代标准的压缩性能增益要求。在市场和业务变化万千的今天,我预计这几年将会见证很多 5G 视频应用场景的兴起。”
何亚明是阿里云智能事业群视频云资深技术专家,视频云技术研发负责人。加入阿里巴巴之前曾就职于美国 Facebook 和微软,在微软担任 Principal Software Engineer,从事视频编码和视频云的研发,在 Facebook 负责实时音视频和直播技术的研发,短短几年内将 Facebook Messenger 和 Facebook Live 两款产品从零打造成拥有 10 亿级用户的明星产品。
“音视频具有天然的云原生属性,‘云 + 端 + 服务’是未来音视频发展的大趋势。” 这是阿里云智能视频云资深技术专家,视频云技术研发负责人何亚明做出的判断。
在何亚明看来,音视频的发展一直是云原生的最佳实践:云的基础设施 —— 包括中心节点、边缘节点、CDN 网络是保障音视频大规模分发和传输的基础;云的计算能力和随意的弹性能力,给音视频业务带来无限的算力的同时还能有效控制成本,衍生出更多新场景。另外,在音视频端侧设备越来越丰富的今天,“云” 与 “端” 的协同显得愈发重要,2020 年,阿里云提出了 “云端一体 “的战略,在这样的大背景下,其路径优势愈发凸显 —— 依托阿里云强大的云上算力,可以让端变得更智能,更轻便,更灵活,让开发者打造出千人千面的创新应用,其开发效率、运维成本、延展性都得到了极大优化。在 “云端一体,云边一体,软硬一体” 的进击之路上,何亚明特别强调了 AI 在其中的重要作用 ——“我们特别强调 AI 的应用落地,从智能视频编码,图像增强到超分辨率,从智能美颜、虚拟背景、美声变声到视频卡通化,可以说我们是在举全集团的 AI 之力,在推动音视频场景走向更广阔的空间。”
(阿里云智能视频云参与科技冬奥 - 云转播平台国家重点研发项目)
“此次峰会,阿里云视频云带来的专场主题是‘从上云到创新,视频云的新技术与新场景’,在这里我想特别强调‘创新’这个词,上云已经是视频行业的共识,并且基本完成了云原生化的进程,我们真正面临的难题是如何在云上完成下阶段的创新,各家厂商应该从提供资源和工具,向提供服务和生态这个转变作为突破口” 何亚明如是说。
目前,国内头部的云厂商大多拥有强大的技术服务能力和完备的内容消费生态,让视频产品服务化,通过 API 化,PaaS 服务,PaaS+,SaaS 工具,端上 SDK,低代码平台等手段减低视频技术的接入门槛,更好地服务开发者,最终更好的服务视频的生产和消费者。
如今,面对国内头部云厂商在视频云领域的激烈竞争,何亚明看到的更多的是机遇:“这是我们非常愿意看到的趋势,也正是我们不断推动行业前进的结果,阿里云也希望越来越多的有志之士加入到视频云的队伍中来,一起将视听带入新的时代。”
在 2021 年 5 月北京举办的阿里云智能云峰会上,阿里云智能事业群总裁张建锋宣布阿里云将在 “做深基础、做厚中台、做强生态” 基础上,新增 “做好服务” 作为重要战略。视频云技术作为云计算、人工智能、网络等技术与行业场景结合非常紧密的领域,阿里云一直坚持于底层技术的深耕、中台技术的应用和服务场景的创新。
视频编解码是阿里巴巴在业界一直具有优势地位的技术领域,也是集团坚持于音视频基础技术研究的具体行动。阿里云视频标准团队在 2020 年中刚刚结束紧张的新一代国际视频编解码标准 H.266/VVC 的技术开发工作,就第一时间投入人力开始大力推进基于 H.266/VVC 的编解码器开发工作。随后不久阿里云发布了实时高清编解码器 Ali266,有力推动了 H.266/VVC 标准应用的落地,真正开启 H.266/VVC 的商用之路。
在谈到 Ali266 的研发难点时,叶琰说:“一个成熟的商用编码器必须通过算法的深度优化才能满足实时编码速度的要求,为了拿到 H.266/VVC 所提供的强大压缩性能,必须针对输入视频内容从 VVC 所提供的众多编码工具中又快又准地选择最合理的编码工具。所以我们开发 Ali266 也是沿着这个轨迹,深入 VVC 编码工具集,通过对各个编码工具进行定性和定量的研究,来帮助我们进行编码工具的选择。同时,我们在算法优化过程中也格外关注主观质量,遇到与客观质量指标之间的冲突时,我们会更加倾向于保证更高的主观质量,也就是保证最终的用户体验。Ali266 能够第一时间达到实时高清和实时全高清的编码速度,同时和 HEVC 的编码性能拉开足够的差距,和我们采取这样的开发策略有直接的关系,现在兴起的 VR/MR 需要更高分辨率的视频格式作为技术底座支撑,因此 VVC 所提供的带宽节省能力也更加可贵。所以我们会持续投入开发 Ali266,让它能越跑越快,在不久的将来达到超高清 4K 甚至 8K 的实时编码能力。也会为更加高效的编解码标准提供很好的落地场景。”
不仅是在音视频技术领域的深耕,随着阿里云视频云业务与阿里集团整体业务的深入融合以及行业客户的深耕实践,阿里云视频云与人民日报新媒体、淘宝直播、LAZADA、优酷等内外部客户的场景合作也愈发丰富。2018 年,阿里云与奥林匹克广播服务公司联手打造奥林匹克转播云 OBS Cloud。今年,奥林匹克转播云在东京奥运会上首次投入使用,为全球转播机构提供云上转播支持,这是奥运历史上首次采用云计算支撑全球视频转播,让全球观众在云上突破了疫情的阻隔。
(2020 年东京奥运会,阿里云与国际奥委会合作,实现全程 “奥运上云”)
面对还将持续的全球疫情,何亚明预计视频技术的需求还将会在直播、会议、电商、娱乐、协作方面继续保持增长 ——“随着 5G,AR,VR 技术的发展和基础设施的完善,更低的延迟( < 100ms),更高清(8K+),更沉浸式(3D 全息,环绕音效)的交互方式将会改变很多行业,除了人与人,音视频也会让人与物,物与物之间建立更多的联系,人类的交互方式将再一次升级。记得媒体界流行的一句话:最初即最终。意思是人类最早是靠视觉来接受信息,感受这个世界的,从最初的语音到文字到图片再到视频,最终又回到了最初的形态。我认为这个论断不完全对,视频的交互形态还在不断演进,电影 Matrix 和头号玩家,包括最近很火的元宇宙已经给我们描绘了一个未来交流形式的脑洞。”
Topic
⏰ 活动时间:2021/10/30 14:00-18:00
参与方式:坐标北京,线下参与(免费)
「视频云技术」你最值得关注的音视频技术公众号,每周推送来自阿里云一线的实践技术文章,在这里与音视频领域一流工程师交流切磋。公众号后台回复【技术】可加入阿里云视频云产品技术交流群,和业内大咖一起探讨音视频技术,获取更多行业最新信息。