每周一期,纵览音视频技术领域的干货。
新闻投稿:[email protected]。
推荐阅读
互动场景下的低延迟编码技术
本文由上海交通大学教授宋利在LiveVideoStackCon2020线上峰会的演讲内容整理而成,从分析视频传输系统延迟入手,详细介绍视频编码延迟的产生机制,总结优化编码延迟的技术手段和业界典型的低延迟编码方案,讨论不同场景的延迟要求,并对后续技术演进发展方向进行展望。
https://mp.weixin.qq.com/s/Yp9Vkzp1Sy-jgGZJjjn5iw
声网Agora发布实时互动云行业首个体验质量标准XLA
7 月 30 日,全球领先的实时互动云服务商声网Agora 举办了线上媒体分享会,发布了 RTE(实时互动云)行业首个体验质量标准 XLA(Experience Level Agreement),声网 XLA 产品经理曹跃在会上表示,声网希望通过 XLA 质量标准的发布有效解决 RTE行业的实时互动体验质量无章可循、不可衡量、无保障的痛点,进一步推动 RTE 行业建立标准化、透明化的体验质量标准。
https://mp.weixin.qq.com/s/YuU5mIgvMydK3Fp8YDeaXw
架构
互动场景下的低延迟编码技术
本文由上海交通大学教授宋利在LiveVideoStackCon2020线上峰会的演讲内容整理而成,从分析视频传输系统延迟入手,详细介绍视频编码延迟的产生机制,总结优化编码延迟的技术手段和业界典型的低延迟编码方案,讨论不同场景的延迟要求,并对后续技术演进发展方向进行展望。
https://mp.weixin.qq.com/s/Yp9Vkzp1Sy-jgGZJjjn5iw
传输网络
你不知道的 WebSocket
WebSocket 是一种网络传输协议,可在单个 TCP 连接上进行全双工通信,位于 OSI 模型的应用层。WebSocket 协议在 2011 年由 IETF 标准化为 RFC 6455,后由 RFC 7936 补充规范。
https://juejin.im/post/5f1ef215e51d453473206df6
揭开传输协议的神秘面纱
本文来自Stream Video Alliance 2020年7月16日的网络研讨会,主题是揭开传输协议的神秘面纱。
https://mp.weixin.qq.com/s/nQNGCc6dj-RX4iqqHpqMGw
使用结构化的标头字段改善HTTP
在过去的十年中,HTTP社区一直忙于对Web协议现代化,对核心规范进行了多次修订与扩展,从HTTP/2以及现在的 HTTP/3。不幸的是,从最初到现在我们定义和使用HTTP header的方式并没有什么大的改变,由于未指定的Headers(以及处理方式的多样性)引起的互通性问题,为开发人员带来很多痛苦,甚至引发安全问题。
https://mp.weixin.qq.com/s/ebH5AKhBy1P4pRNObK5G0w
编解码
Safari 技术预览版 110 发布说明
第一次看到 Apple 提到 VP9。不知道何时将在 WebRTC 中正式支持此功能。
https://webkit.org/blog/10929/release-notes-for-safari-technology-preview-110/
LCEVC(MPEG-5 Part 2)综合指南
LCEVC(MPEG-5 Part 2)和VVC(Versatile Video Coding)、EVC(EssentialVideo Coding)是MPEG最新提出的三种编码器,LCEVC全称是“Low Complexity Enhancement VideoCoding”,旨在使用基本码流和增强码流提高现有编码器的压缩效率,同时几乎不增加编码复杂度。
https://mp.weixin.qq.com/s/NwnSLEmrbk7ecKV4AbFiQQ
VVC专利池最新进展:MC-IF正在召集专利拥有者
7月22日,在VVC第一版定稿两周后,MC-IF(Media-Coding Industry Forum)通过其官方网站宣布了工业界第一个VVC专利池,MC-IF正在召集VVC专利成员,第一次成员会议将在9月1日通过线上方式举行。
https://mp.weixin.qq.com/s/L12Ac13bf2lOB3WQ5ZNZxw
AV1解码器模型
这篇文章可以作为AV1规范中与解码器型号和级别有关的部分的简介,本文的其余部分描述了一些AV1基本概念,AV1解码器模型,并提供了开发它时做出决策的原因。有关解码器模型的更多详细信息,请阅读AV1规范。
https://mp.weixin.qq.com/s/5qlRwjxVO707FSBy4xH9tg
一场由FPGA触发的芯片战争
本文是作者于2019年9月在斯坦福大学进行的三个小时讨论的摘要。这篇文章结合了Zilog、Altera、Xilinx、Achronix、Intel、IBM、斯坦福、麻省理工、伯克利大学、威斯康星大学、Technion、Fairchild、贝尔实验室、Bigstream、谷歌、DEC、SUN、诺基亚、SRI、日立、Silicom、Maxeler技术、VMware、施乐PARC、思科等组织在FPGA领域的经验。这些组织不负责内容,但可能在某种程度启发了作者们的兴趣,以使他们在FPGA领域经历了丰富多彩的旅程。
https://mp.weixin.qq.com/s/c1g8FjEYhT9IUixc7Ufp0g
音视频技术
一帧图像的Android之旅 :应用的首个绘制请求
Android 框架提供了各种用 2D 和 3D 图形渲染的 API 与制造商的图形驱动程序实现方法交互,在Android平台上应用开发者可通过三种方式将图像绘制到屏幕上:Canvas、OpenGLES、Vulkan 无论使用什么方式进行内容的生产,这个离用户最近的图形系统都扮演者一个非常重要的角色,在此系统一系列关键组件的协同帮助下,最终按照我们的预期将画面展示给用户。
https://mp.weixin.qq.com/s/QsG3zvaG9njmbmYaBssKng
AI智能
港中文周博磊团队最新研究:无监督条件下GAN潜在语义识别指南
无监督条件下,GAN 模型潜在语义的识别似乎是一件非常具有挑战性的任务。最近,香港中文大学周博磊等人提出了一种名为「SeFa」的方法,为该问题提供了更优解。
https://mp.weixin.qq.com/s/T9dHgqZO4HWUS1fgPpk-HQ
知识图谱上推荐推理的模仿学习框架
尽管知识图谱推理的发展前景广阔,但在收敛性和可解释性上仍存在一定的问题。微软亚洲研究院的研究员利用一个基于元启发式方法的示例路径抽取方法来以较低的标记代价提取示例路径集合,进而提出了一个对抗的 Actor-Critic 模型来进行示例路径指导下的路径搜索。实验结果表明,这一方法在推荐准确性和可解释性方面均优于最新的基线方法。
https://mp.weixin.qq.com/s/K5QoH8mRqGtcaMsyLarvQw
图像
Python 图像处理 OpenCV :图像轮廓
本篇文章是关于图像处理轮廓方面的内容。
https://juejin.im/post/5f1f768b6fb9a07e753cb2a5
关于使用LSTM迭代去雨的论文的介绍
这篇汇报包含了同一个作者(天津大学)的先后两篇论文:《Progressive Image Deraining Networks: A Better and Simpler Baseline》和《Single Image Deraining Using Bilateral Recurrent Network》,其中前者发表于2019年6月,后者发表于2020年6月。
https://juejin.im/post/5f1e8cca6fb9a07eb65a8051
资源推荐
StreamerHelper
一款自动保存直播录像并上传 B 站的脚本
https://juejin.im/post/5f1bf74b6fb9a07e5c1862be
YOLOv4
YOLOv4的PyTorch实现,它基于ultralytics/yolov3。
https://github.com/WongKinYiu/PyTorch_YOLOv4