音视频技术开发周刊(第125期)

每周一期,纵览音视频技术领域的干货和新闻投稿:[email protected]

架构

基于WebRTC的云游戏解决方案和技术优化
本次演讲主要内容将包括云游戏整体方案的架构介绍、使用开Open WebRTC ToolKit (OWT)实现流和控制命令的传输,以及为实现云游戏所需的超低延迟所做的优化。

传输网络

灵魂一问:一个TCP连接可以发多少个HTTP请求? 
一道经典的面试题是从 URL 在浏览器被输入到页面展现的过程中发生了什么,大多数回答都是说请求响应之后 DOM 怎么被构建,被绘制出来。

Demuxed 2019 演讲视频选

基于苹果低延迟HLS的技术实践/视频指标分析/无状态音频处理系统

  • 第一场演讲的演讲者是来自M2A Media的Marina Kalkanis,演讲者介绍了M2A 实时系统的工作流程组件,并给出了每个组件带来的延迟。

  • 第二场演讲的演讲者是来自Snap的Bendodson,演讲主题是视频指标分析。演讲者从Richard Feynman算法引入,说明了解指标固有属性的重要性,然后阐述了视频启动延时对用户的影响,最后讲述了解决棘手问题的方式。

  • 第三场演讲的演讲者是来自Twitter的Michael Hill,演讲主题是无状态音频处理系统。演讲者首先对比了有状态系统和无状态系统的特点,接着说明了无状态系统在Twitter实时系统中的应用,具体讲述了音频处理器的工作流程,然后详细介绍了客户端和服务器端的工作,最后介绍了下一步的工作。

netflix公司在AV1上做的一些工作/强化学习在ABR中的应用

  • 第一场演讲的演讲者是来自Netflix的Guo LiWei和Andrey Norkin,首先LiWei介绍了Neiflix公司在编码优化方面做的一系列工作,包括07年的"One-size-fits-all",15年的"Per-title",16年的"Per-chunk"和17年的"Per-shot"编码。然后介绍了他们对于AV1的关注点,包括根据内容的优化和基于"Per-shot"的压缩。

  • 第二场演讲的演讲者是来自Hotstar的Sahil Budhiraja,演讲者首先介绍了ABR(Adaptive Bitrate Switching),以及其最优化QOE的目标。然后介绍了最近的ABR算法,包括吞吐量估计、基于buffer的和混合的算法,这些算法都是启发式的。

编解码

关于VMAF,内容感知编码和无参指标的思考
独立于所使用的编码器,内容感知编码(Content-Aware Encoding, CAE)和内容感知传输(Context-Aware Delivery,  CAD)代表了目前视频流的最先进技术。

用Elevator优化AV1视频播放
AOM会员Vimeo通过Elevator改善AV1解码过程中的丢帧和质量下降问题。感谢Google软件工程师姜健对本文做的技术审校。

新型试验编码工具简述
本文是来自AOMedia 2019研讨会上的演讲,演讲者是来自谷歌编解码团队的Sarah Parker。本文主要介绍了在现行AV1标准的基础上,为下一代编码器性能的优化而提出的一些新型编码工具和做出的一些尝试,这些工具尚处于实验阶段。

使用基于分层深度学习的分块预测加速VP9帧内编码
本文是来自AOMedia 2019 Research Symposium的演讲,演讲者是来自得克萨斯大学奥斯汀分校的Somdyuti Paul,题目是”Speeding up VP9 IntraEncoder with Hierarchical Deep Learning Based Partition Prediction”,主题是使用基于分层深度学习的分块预测加速VP9帧内编码。

哔哩哔哩H.265编码器在直播和点播的实践和应用
作为一个视频网站,随着B站的视频种类的增多,网站的成本压力增加,考虑到降低成本,就要选择一个超低码率的编码器。本文来自B站视频云技术部的技术专家叶天晓在LiveVideoStackCon2019北京站上的精彩分享,文章中详细介绍了B站自研的H.265软件编码器(yhevc)研发历程, 以及针对实际的点播和直播业务做的一些优化与实践。

音视频封装小总结(PS TS 和FLV)
PS、TS、FLV这三种简单封装格式,里面包含了对国标流的PS流处理方法,同时解析了HLS的TS文件格式以及常用的FLV文件,更详细内容可参考文内链接的往期文章。

感知优化深度图像压缩
本文是来自alliance for open media research symposium2019的演讲,作者是来自于UT Austin的PhD,Li-Heng Chen。本次演讲主要讲述如何在感知上优化深度图像压缩。

视频技术

视频监控摄像头的互联网化实践思路

本文介绍了视频监控摄像头的互联网化实践思路,本篇就抛砖引玉说下视频监控设备上云的一些实践和思考。文章核心内容大致分为下面几个部分,为什么监控摄像头要上云?互联网化?要上云怎么实践?有哪些大坑需要填?未来这块还有哪些改进空间和期待?

视频体验质量指标的标准

本文是来自MHV(Mile High Video)2019的演讲,演讲者是来自于Mux的Steve Heffernan。本次演讲主要接受了CTA标准工作组R04 WG20 在视频体验质量指标标准上的近期工作。

Hangouts Meet 中的语音识别

关于谷歌 Meet 中语音识别工作原理的有趣分析 (涉及 data channel)

人物专访

Beamr构建的工具VISTA/内容聚合和衡量OTT成功与否

  • 第一段音频的访谈者Tamar Shoham是Beamr技术和算法VP,他们讨论了Beamr构建的一个工具VISTA,该工具使用众包资源进行大规模ITU BT.500风格的主观质量评价测试。

  • 第二段音频的访谈者Dan Rayburn是流媒体专家,他们讨论了Disney+、Quibi、HBO Max、Hulu、ViacomCBS以及即将推出的D2C对包括Netflix和付费电视运营商在内的现任者意味着什么。

UHD的现状/HEVC虚拟现实编码的最新进展/P2P内容分发

  • 第一段音频的访谈者Thierry Fautier是UHD论坛主席,他们讨论了UHD的现状以及UHD论坛为确保尽可能多的用户获得UHD体验所做的工作。

  • 第二段音频的访谈者Rob Koenen是TileMedia的联合创始人,他们讨论了HEVC虚拟现实编码的最新进展,探讨了HEVC tile编码、8K、高分辨率视频的MP4元数据优化等内容。

  • 第三段音频的访谈者Hadar Weiss是Peer5的CEO兼联合创始人,他们讨论了P2P内容分发,以及他们的多CDN解决方案为何能够成为全球最快的交付网络之一。

如何确保交付的HDR视频能提供最佳的消费者体验/IP-Only如何在北欧建立领先的CDN业务/云游戏

  • 第一段音频的访谈者是来自Mystery Box的Sam Bilodeau,他是一个HDR以及色彩专家,它同时具有HDR分发中的视频采集,视频处理和视频编码经验。

  • 第二段音频的访谈者Johan Danckwardt是IP-Only的CDN负责人,他讲述了IP-Only如何在北欧建立领先的CDN业务,为一些全球最大、最成熟的媒体公司和OTT服务商分发内容。

  • 第三段音频的访谈者Sharon Carmel是Beamr创始人兼CEO,他谈到了云游戏,以及为什么他认为云游戏是推动视频编码技术发展的一个令人兴奋的前沿领域。

VVC的新特点/主观质量评价对于视频评估的重要性/从事视频业务要了解标准

  • 第一段音频的访谈者是来自微软的Gary Sullivan,他也是MPEG和ITU多媒体研究小组创建VVC的共同主席。VVC计划于2020年发布,是继HEVC之后的下一代标准,Gary Sullivan解释了VVC的新特点和令人兴奋之处。

  • 第二段音频的访谈者是来自Bitmovin的Richard Fliam,他解释了除了客观质量评价,主观质量评价也是视频评估的一个重要部分。

  • 第三段音频的访谈者Bruce Devlin是SMPTE VP。技术标准如MXF、ST-2110、IMF等快速发展,随着视频技术和标准的不断发展,有些标准是在传统框架之外开发的。

AI智能

NeurIPS 2019丨是呆头伯劳鸟还是南灰伯劳鸟?深度双线性转换帮AI准确区分
双线性特征在学习细粒度图像表达上效果很好,但计算量极大,无法在深层的神经网络中被多次使用。因此,微软亚洲研究院设计了一种深度双线性转换模块,能够深层地将双线性表达应用在卷积神经网络中,来学习细粒度图像特征。这项工作发表在了 NeurIPS 2019 上。

显著提升图像识别网络效率,Facebook提出IdleBlock混合组成方法
Facebook AI 近日一项研究提出了一种新的卷积模块 IdleBlock 以及使用该模块的混合组成(HC)方法。实验表明这种简洁的新方法不仅能显著提升网络效率,而且还超过绝大多数神经网络结构搜索的工作,在同等计算成本下取得了 SOTA 表现,相信这项研究能给图像识别网络的开发、神经网络结构搜索甚至其他领域网络设计思路带来一些新的启迪。

图像

全面梳理:图像配准综述
图像配准与相关是图像处理研究领域中的一个典型问题和技术难点,其目的在于比较或融合针对同一对象在不同条件下获取的图像,例如图像会来自不同的采集设备,取自不同的时间,不同的拍摄视角等等,有时也需要用到针对不同对象的图像配准问题。

资源推荐

使用自己的数据集训练MobileNet、ResNet实现图像分类
对MobileNet的图像分类模型的训练。

点击“阅读原文”可查看更多详细信息,请大家科学上网。

你可能感兴趣的:(音视频技术开发周刊(第125期))