MPEG本年度输出三项标准:
(1) Versatile Video Coding (VVC, H.266);
(2) Essential Video Coding (EVC, MPEG-5 Part 1);
(3) Low Complexity Enhancement Video Coding (LCEVC, MPEG-5 Part 2)
参考:
【1】https://ottverse.com/vvc-evc-lcevc-mpeg-video-codecs/
深度学习端到端压缩的研究和讨论在学术界和工业界得到充分重视,MPAI社区的建立,JPEGAI工作组的技术征集,CVPR CLIC大赛的火热,SMPTE-VC6的制定都充分说明。
参考:
【1】Moving Picture, Audio and Data Coding by Artificial Intelligence (MPAI):https://mpai.community/
【2】CVPR CLIC workshop: https://www.compression.cc/
【3】VCIP2020: http://renyang-home.github.io/papers/VCIP_Tutorial.pdf
【4】JPEG AI: https://jpeg.org/jpegai/index.html
【5】SMPTE VC6:
https://www.rapidtvnews.com/2020100559155/smpte-vc-6-video-production-codec-standard-published.html
英伟达率先发力,Facebook紧跟其后,核心技术在于GAN人脸生成技术的进展,将其应用在视频会议特定领域,也是顺利成章。
参考:
【1】NV方案:Ting-Chun Wang, etc., One-shot free-view neural talking-head synthesis for video conferencing, arXiv:2011.15126,2020
【2】FB 方案:Maxime Oquab et., Low bandwidth video-chat compression using deep generative models, arXiv:2012.00328, 2020.
流媒体直播进入低延迟时代,端到端延迟下降到小秒级(~3s),互联网上广泛使用的还是HLS和DASH,这两大阵营今年都对技术规范做了更新和发布:DASH IF: Guidelines on Low Latency, 2020/3/27,Apple: Protocol Extension for Low-Latency HLS., 2020/05/04。
此外,DVB推出的DVB-I和Multicast ABR 给OTT服务发现和互联网IP多播定义了新的技术规范;SRT联盟继续扩大,SRT协议在上行侧广泛部署,与之竞争的是VSF联盟的RIST协议,也给了开源参考实现,大有赶超势头。IETF QUIC和HTTP/3继续演进,在Chrome和Facebook得到广泛部署, 目前全球4.1%的网站开始支持HTTP/3.
参考:
【1】
https://developer.apple.com/documentation/http_live_streaming/enabling_low-latency_hls
【2】https://dash-industry-forum.github.io/docs/CR-Low-Latency-Live-r8.pdf
【3】https://dvb.org/news/etsi-publishes-dvb-dash-with-low-latency-and-hdr-dm/
【4】https://dvb.org/news/dvb-i-and-dvb-mabr-published-as-etsi-standards/
【5】https://www.srtalliance.org/
【6】https://www.rist.tv/
【7】https://tools.ietf.org/html/draft-ietf-quic-http-33
【8】https://w3techs.com/technologies/details/ce-http3
【9】https://engineering.fb.com/2020/10/21/networking-traffic/how-facebook-is-bringing-quic-to-billions/
【10】https://blog.chromium.org/2020/10/chrome-is-deploying-http3-and-ietf-quic.html
Puffer是斯坦福大学的一项开源研究项目。NSDI20会议发表基于机器学习的新ABR算法Fugu,获得community reward paper,提供开源平台供研究人员进行拥塞控制及ABR算法测试。Puffer考虑应用层ABR和传输层TCP拥塞控制的联合优化,将之前较为独立的两个研究领域结合起来,具有非常好研究前景。
参考:
【1】项目:https://github.com/StanfordSNR/puffer
【2】论文:https://www.usenix.org/conference/nsdi20/presentation/yan
1秒及以下的大规模视频互动直播架构,WebRTC方案是不二选择。中国两大互联网巨头腾讯云和阿里云均选择对标准WebRTC进行改造和升级,满足直播场景需求。腾讯推出快直播解决方案;阿里推出GTNR(global realtime transport network)方案,且集成基于强化学习新型拥塞控制算法OnRL (发表于MobiCom)。
参考:
【1】https://blog.csdn.net/vn9plgzvnps1522s82g/article/details/109348627
【2】https://blog.csdn.net/Taobaojishu/article/details/111189128
【3】OnRL:https://dl.acm.org/doi/abs/10.1145/3372224.3419186
7、视频流媒体QoE评价规范更新及应用
VMAF作为Netflix开发的新兴视频质量评估工具,已被广泛用于动态影像内容的质量评估以及编码优化当中。目前VMAF已推出HDTV、Phone、4K三种使用模式,满足不同播放场景下的画质评测需求,近期还将扩充针对HDR的VMAF模型。
此外,ITU-T今年也推出了新一代流媒体无参考视频质量评估模型P.1204,适用于H.264、H.265和VP9编码的UHD/4K、60fps、10bit视频序列,该模型可以部署在分发系统中的任何位置,性能可以与全参考模型媲美。
参考
【1】VMAF: https://github.com/Netflix/vmaf
【2】P.1204: Video quality assessment of streaming services over reliable transport for resolutions up to 4K , https://www.itu.int/rec/T-REC-P/recommendation.asp?lang=en&parent=T-REC-P.1204
【3】P.1204.3: Video quality assessment of streaming services over reliable transport for resolutions up to 4K with access to full bitstream information https://www.itu.int/rec/T-REC-P/recommendation.asp?lang=en&parent=T-REC-P.1204.3
【4】P.1204.4: Video quality assessment of streaming services over reliable transport for resolutions up to 4K with access to full and reduced reference pixel information https://www.itu.int/rec/T-REC-P/recommendation.asp?lang=en&parent=T-REC-P.1204.4
【5】P.1204.5: Video quality assessment of streaming services over reliable transport for resolutions up to 4K with access to transport and received pixel information https://www.itu.int/rec/T-REC-P/recommendation.asp?lang=en&parent=T-REC-P.1204.5
超分方面,代表性的是AIM-2020 efficient SR 的冠军 RFDN;超帧方面,代表性的是实时性很好的RIFE;增强方面,代表是香港理工的Adaptive 3DLUT;上色方面,代表性的是微软的DLST。
将Transformer扩展应用到low-level问题上,也有不错的进展。北大的预训练IPT占领多个图像恢复任务的榜首;东南的ConvTransformer率先用于视频帧合成。
低层任务方面,时间域的光流估计是基础性技术,ECCV的Best paper, RAFT值得关注。
参考:
【1】https://github.com/hzwer/arXiv2020-RIFE
【2】https://rife-vfi.github.io/
【3】https://github.com/HuiZeng/Image-Adaptive-3DLUT
【4】https://github.com/microsoft/Bringing-Old-Photos-Back-to-Life
【5】Pre-Trained IPT,https://arxiv.org/abs/2012.00364
【6】ConvTransformer, https://arxiv.org/abs/2011.10185
【7】https://github.com/princeton-vl/RAFT
英伟达的新版StyleGAN,解决之前生成图像中经常存在伪影的问题,生成非常逼真的图像,此外图像部分属性(style)实现解耦的能力催生了大量利用其进行图像编辑的工作,例如非常火爆的图像创作工具 artbreeder (https://www.artbreeder.com)
香港科大的InterFaceGAN,提出潜在空间结构GAN生成空间的方法,可泛化迁移到所有GAN生成的各种人脸样本空间,包括属性编辑、风格转换等。
上海科大的Impersonator++,设计了人体合成框架,结合3D mesh重建和GAN,可以同时实现动作迁移、新视角合成以及外观转换。
与此相关的是生成图像的检测和安全问题。这方面,微软的Face X-ray技术,提出通用的检测不同模型生成的合成图的方法,核心是去学习换脸的边界,方法泛化性能优良;芝加哥大学的Fawkes技术,可为私人照片提供人眼不可见的像素级保护,避免用户被未知第三方人脸识别模型检测并追踪。
参考:
【1】https://github.com/NVlabs/stylegan2
【2】https://github.com/genforce/interfacegan
【3】https://github.com/iPERDance/iPERCore
【4】Face X-ray,https://arxiv.org/pdf/1912.13458.pdf
【5】Fawkes,https://www.shawnshan.com/files/publication/fawkes.pdf
代表性的工作是 ECCV'20 的NeRF ,获得Best Paper Mention, 发表9个月来已经被收藏2.8k次,基于NeRF也出现了NeRF++,NeRF-W等改进,已经成为新的baseline. NeRF网络特点轻量,主要方法是基于辐射场的体素渲染(Volume Rendering with Radiance Fields)。输入3D物体的一系列稀疏帧和对应的相机参数,NeRF能得到该物体其他角度的图像,相比于之前的方法,虚拟视角的细节有较大改善,PSNR等定量指标也有较大提高。
参考:
【1】NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
【2】https://github.com/bmild/nerf