每周一期,纵览音视频技术领域的干货和新闻投稿:[email protected]。
架构
实验性的体验:WebRTC 可插入流
这将在使用 SFU 时实现端到端的隐私。
https://groups.google.com/a/chromium.org/forum/?utm_medium=email&utm_source=footer#!msg/blink-dev/Oy84pXDhajI/lu-Z0p3QAAAJ
传输网络
Twitch的直播流
本篇是来自Video @Scale 2019的演讲,演讲者是来自Twitch的首席软件工程师 Yueshi Shen,演讲主题是:“Twitch的直播流”。
https://mp.weixin.qq.com/s/6WzTzZ4zvcuxajc9pIJYVg
视频负载测试
本篇是来自Video @Scale 2019的演讲,演讲者是来自亚马逊Resilience Engineering部门的Olga Hall,演讲题目为“Video load testing”,演讲介绍了亚马逊的视频服务的演进过程,以及如何进行负载测试。
https://mp.weixin.qq.com/s/4i06ho3D78Yi38iPfHpAUA
新一代直播传输协议SRT
SRT协议是基于UDT的传输协议,保留了UDT的核心思想和机制,抗丢包能力强,适用于复杂的网络。在LiveVideoStack线上分享中,新浪音视频架构师 施维对SRT协议的原理、优缺点特性以及在流媒体中的应用进行了详细解析。
https://mp.weixin.qq.com/s/P4cbRxJnXlkQOtXNkdDL4w
编解码
权力的游戏 —— 5G多媒体的全球标准(附部分视频)
本文来自中国移动咪咕公司总监 徐嵩在LiveVideoStackCon2019深圳站上的精彩分享,其中将重点介绍超高清的全球标准、未来趋势及落地关键因素。
https://mp.weixin.qq.com/s/z-ppsEAQ-COuhlgj_e-Aag
视频编码中编码和计算效率对比
本文是来自video@scale 2019的演讲,演讲者是Ioannis Katsavounidis,是Facebook的研究科学家。演讲主题是视频编码中编码和计算效率对比。
https://mp.weixin.qq.com/s/_iEiFtDBytOHpVwuVWX4jg
中国AVS超高清编码标准体系与生态建设(附部分视频)
随着5G时代的到来,视频压缩方面面临更大的挑战,另外用户对于视频需求的提高使得在视频压缩方面需要做更多的提升。本文来自北京大学的王荣刚在LiveVideoStackCon 2019深圳站上的精彩分享,主题是中国AVS超高清编码标准体系与生态建设。
https://mp.weixin.qq.com/s/UNhJ_taAj7JMDWBXGKV-cw
视频技术
Hey Siri唤醒原理
唤醒现在用在各个方便,这篇翻译的文章之前语音杂谈也转载过部分内容,希望大家学习愉快。hey siri唤醒跟目前一些主流方案不太一样,但也有值得借鉴的地方。
https://mp.weixin.qq.com/s/idXP4Y-B4pYYfM2egg6KYQ
什么是声学?
声学是声音的科学。也就是说,一切和声音有关的事物,都在声学研究的范围内。从各种东西发出声音,经过不同的东西传播,被能听见声音的器官,比如耳朵,接收并感知到,这一系列过程的每一个环节都和声学相关。
https://zhuanlan.zhihu.com/p/104660783?utm_source=wechat_session&from=timeline&utm_medium=social&s_s_i=Xj%2BRn907XYOJcBsU0CLMrBX1o%2BE4U%2FB8%2FZD3VwU%2FSCE%3D&s_r=0
HDR视频介绍
本文是来自video@scale 2019的演讲,演讲者是Rich Gerber,是Netflix的软件工程师。演讲主题是介绍HDR视频,HDR指的是High Dynamic Range,是亮暗像素的比例。
https://mp.weixin.qq.com/s/Ro7HetIrkOnWHRbWs1nECA
视频会议未来趋势不完全预测
“是什么推动了视频会议的迅猛增长,以及我们在未来几年内有望看到什么?” 考虑到将来投入远程视频会议的资金多少,科技媒体UC Today提出了这样的疑问。
我们对此也同样好奇,所以在新年伊始开展了视频会议的专题策划,与Cisco WebEx、声网Agora、亿联网络等探讨了视频会议2020年的机遇与挑战,并描画了平台未来的图景。
https://mp.weixin.qq.com/s/Ook7nu93oxOG-cG7ZdfYeA
大规模高效视频分析系统
新兴的视觉计算应用程序需要对大量可视数据存储库进行有效的分析和挖掘。在这些数据集上运行需要有效的系统来进行像素级数据访问以及跨大量机器的并行处理。演讲者创建了大规模高效视频分析系统Scanner,将抽象表示的视频分析应用程序调度到多核CPU、GPU和媒体处理ASIC上来进行高吞吐量的像素处理。这些应用程序可以用数千个云CPU或数百个GPU的规模查询、分析和挖掘视频集合。
https://mp.weixin.qq.com/s/Rfytx6bVVbScJ-yieajKjg
ATSC 3.0简介
从ATSC1.0出发,Jason指出ATSC1.0标准发起了传统模拟电视像数字电视的转变,是强制性的;而ATSC3.0在1.0的基础上增强了很多功能,它结合OTA信号和家用宽带信号支持电视4K UHD播放,集成了HDR,WCG和HFR,IP组播等多种特征。
https://mp.weixin.qq.com/s/bfdQBwFockOQNrMENgACbg
Shaka Streamer:直播/点播内容准备工具
本文是来自Seattle Video Tech的演讲,讲者是来自于Google公司的Joey Parrish。使用ffmpeg来准备视频内容需要写出冗长的难以理解的脚本,本次演讲介绍了Shaka Streamer这一开源工具来简化配置。
https://mp.weixin.qq.com/s/cMLU24tSf_G7rjND72xYJQ
Android | 音视频方向进阶路线及资源合集
本文将从Android系统API的角度,逐层深入。
https://juejin.im/post/5e61e19be51d4526db751082
人物专访
范醒哲:敬畏自然 渴望技术 —— 新冠肺炎后对网络数据传输能力的思考
时隔近一年的时间,我们再次有幸采访到了Cascade Range Network的联合创始人兼CEO范醒哲,这次我们和他聊了聊数据传输技术在视频会议中的应用。本文由LiveVideoStack与范醒哲的邮件采访整理而成。
https://mp.weixin.qq.com/s/cKaT6QqduOlDgFZxGT1H2g
这次疫情给我带来了一些思考,就是不要总想着说将来要去干些什么。我们受到的教育告诉我们要准备充分再去做一件事,但我想说你要是想做就去做。活在当下可能更重要一些是吧?你想要去看世界,你就看好了。
https://mp.weixin.qq.com/s/d7-QzSyNzOpCuy3tIWmEWg
AI智能
腾讯多媒体实验室开源国内首个视频质量评估算法DVQA
近日,腾讯多媒体实验室设计的基于深度学习的全参考视频质量评估算法DVQA在Github上正式开源,该算法模型的性能目前在公开测试数据集上取得业界领先成绩。
https://mp.weixin.qq.com/s/BiJ3Dy8pNBEOWnIIdzfQjg
腾讯推出超强少样本目标检测算法,公开千类少样本检测训练集FSOD | CVPR 2020
论文提出了新的少样本目标检测算法,创新点包括Attention-RPN、多关系检测器以及对比训练策略,另外还构建了包含1000类的少样本检测数据集FSOD,在FSOD上训练得到的论文模型能够直接迁移到新类别的检测中,不需要fine-tune。
https://mp.weixin.qq.com/s/eOJi8Aeg-39FojtuCnpjQQ
Facebook研究开放三个新的深度学习框架
Facebook人工智能研究(FAIR)开源的三个新版本。
https://mp.weixin.qq.com/s/0EsiK7Ck3Hmuzre_QxMNHw
图像
图像处理中常见的形态学方法
形态学图像处理(简称形态学)是指一系列处理图像形状特征的图像处理技术。
https://zhuanlan.zhihu.com/p/110787009
理解卷积神经网络的局限
早期的计算机视觉利用符号人工智能(symbolic artificial intelligence),但需要人类制定每条规则,该方式难以成功。另一种方法是使用机器学习,与符号AI相反,机器学习算法具有一般结构,并通过训练样本学到它们自身的行为。但早期的机器学习算法仍然需要大量的人工设计来检测图像中的相关特征。
https://mp.weixin.qq.com/s/A4r1BzkMny_rsgZf8uTYOQ
随着手机图像传感器的像素数越来越高, 单像素尺寸变得越来越小,现在的亿像素sensor pixel pitch已经到了0.8um。Pixel size变小所带来的full well capacity 与SNR 性能的变差,也很大地影响了sensor的动态范围,所以手机sensor厂需要采用新的技术手段解决改善这个问题。
DCG(dual conversion gain)是一项广泛使用在车载与监控这种HDR imaging领域的技术,现在手机sensor厂商也把这项技术使用在mobile image sensor中。
https://mp.weixin.qq.com/s/qd0DdIgpVWzLEFJkAT31oA
资源推荐
Media for Mobile
Media for Mobile是一组易于使用的组件和API,适用于各种媒体场景,例如视频编辑和捕获。它包含几个用于最流行用例的完整管道,并提供了将用户开发的组件添加到这些管道的可能性。
https://github.com/INDExOS/media-for-mobile
FaceMaskDetection
开源人脸口罩检测模型和数据,检测人脸并判断是否佩戴了口罩,并开源近8000张人脸口罩标注数据。
https://github.com/AIZOOTech/FaceMaskDetection
点击“阅读原文”可查看更多详细信息,请大家科学上网。