音视频技术开发周刊 | 209

每周一期,纵览音视频技术领域的干货。

新闻投稿:[email protected]

音视频技术开发周刊 | 209_第1张图片

低延迟流媒体协议SRT、WebRTC、LL-HLS、UDP、TCP、RTMP详解

低广播延迟已经成为任何关于建设源端站和CDN的招标和竞争中的必要特性。以前这种标准只适用于体育广播,但现在运营商要求每个领域的广播设备供应商提供低延迟,比如:广播新闻、音乐会、表演、采访、谈话节目、辩论、电子竞技等等。

Apple LL-HLS和community-driven LHLS的延迟评估
在低延迟直播视频流领域有一场持久战。基本上,有3种技术(MPEG LL-CMAF, Apple LL-HLS和community-driven的LHLS)正在竞争最快的直播头衔。LL-CMAF 是在现有低延迟 MPEG-DASH 技术之上由 MPEG 主导的成果。苹果的LL-HLS是另一个低延迟标准,它扩展了苹果的HTTP Live Streaming (HLS)标准。

https://bozhang-26963.medium.com/a-quick-latency-comparison-of-apple-ll-hls-and-the-community-driven-lhls-e3eb3e7447ee

基于TypeScript的RTSP客户端实现
RTSP(Real Time Streaming Protocol)协议可以实现音视频的实时传输。安防摄像机标配之一就是支持RTSP协议。本文主要从几个方面对RTSP协议进行了介绍。

音视频技术开发周刊 | 209_第2张图片

MPEG诞生记
纯从逻辑上来讲,MPEG本不应该存在。20世纪80年代,媒体标准化这个“银河帝国”被牢牢掌握在ITU(视频通信和语音)、IEC(音频和电视)和ISO(摄影摄像)手中,更不用说其下属的数十个地区和国家标准委员会。那么MPEG这个小小的专家组(当时甚至不被ISO认可)是如何脱颖而出成为媒体行业的参考标准组的?正如科幻小说《基地》中的人物Mule一样,MPEG成为不可阻挡的力量走到了台前。在本篇文章中,我将向大家讲述这个看似“不可能”的故事是如何发生的。

下一代多媒体编解码器在5G网络下的使用
虽然3GPP 关于5G标准已于2018年中完成, 但是现有的多媒体格式是根据4G无线网络的框架下创建并继续在5G网络下被实现。这就意味着目前的5G无线网络将只支持移动设备对MPEG-4 AVC和H.265 / HEVC编解码器以及相关的网络传输协议。随着5G无线网络对高带宽和低延迟服务的不断优化, 大众对超高清视频业务需求包括视频会议和云游戏的迅猛增加,这无疑对5G无线网络供应商和多媒体内容服务商提出了更高的要求。

音视频技术开发周刊 | 209_第3张图片

PPIO创始人王闻宇:从PPTV到PPIO,创业路上的挑战与思考
PPIO成立于2018年5月,由PPTV创始人姚欣、PPTV联合创始人王闻宇共同创立。PPIO致力于打造去中心化的分布式云服务,经过几年的发展,目前已成为国内外多家一线音视频互联网巨头、云计算公司、独角兽创业企业的分布式云服务的主要提供商,并在近期获得了千万级的融资。LiveVideoStack近期采访了PPIO的创始人王闻宇,和他一起讨论了传统云计算与边缘云计算的差异、边缘云所面临的挑战以及创业之路等话题。

音视频技术开发周刊 | 209_第4张图片

WebRTC 视频质量调校
本文主要介绍了 WebRTC 中的一些限制,并深入介绍了比特率,分辨率和帧率对服务质量的影响,以及如何对这三者进行抉择。

同样是RTC,互联网厂商与运营商有什么区别
本文主要介绍了互联网厂商与运营商在RTC领域的异同,重点包括运营商IMS网络、互联网厂商音视频网络(重点围绕WebRTC协议)等内容。后续将探讨运营商与互联网厂商在RTC领域如何互惠互利。


从 FFmpeg 性能加速到端云一体媒体系统优化
音视频开发者当前主要面临的挑战之一是对计算量的高需求,它不只是单任务算法优化,还涉及到很多硬件、软件、调度、业务层,以及不同业务场景的挑战。其次端、云、不同设备、不同网络,这些综合的复杂性现状,要求开发者要做系统性的架构开发与优化。

如何利用 SEI 实现音画同步?
本文从 SEI 的基础概念出发,结合数据流录制回放的需求和应用场景,带大家了解ZEGO 即构科技 是如何利用 SEI 去解决音画不同步的问题,以及开发过程中可能踩到的坑。

云游戏技术的过去、现在和未来
本文总结了云游戏技术的发展历史,现状和未来的优化方向。云游戏在所有的云计算相关应用中,可能是对延时和网络要求最为苛刻,最具有挑战性的应用。攻克云游戏这个难关,不只是方便用户去玩高质量的游戏,更能帮助拓展云计算应用场景,让云计算深入到未来社会的方方面面。而云游戏技术的进一步发展,需要更多开放创新的思维,和包括游戏开发、图形渲染、网络传输、视频编码等各方面的一起协助和努力!

网易云信神经网络音频降噪算法:提升瞬态噪声抑制效果,适合移动端设备
网易云信音频实验室自主研发了一个针对瞬态噪声的轻量级网络音频降噪算法(网易云信 AI 音频降噪),对于 Non-stationary Noise 和 Transient Noise 都有很好的降噪量,并且控制了语音信号的损伤程度,保证了语音的质量和理解度。

音视频技术开发周刊 | 209_第5张图片

继Swin Transformer之后,MSRA开源Video Swin Transformer,在视频数据集上SOTA
在本文中,作者提出了video Transformer中的局部性假设偏置,这能使Transformer在速度和精度上达到更好的trade-off,这在以前的那些基于捕获时空域上全局关系的Transformer上是做不到的。在本文中,视频结构中的局部性是通过Swin Transformer实现的。另外,由于视频和图片本身就存在很大的联系,而且本文也在用了Swin Transformer结构,所以作者采用了在图片数据集上预训练好的模型模型来初始化,以提高视频模型的泛化能力。本文提出的方法在广泛的视频识别基准数据集上实现了SOTA的准确性,包括动作识别(action recognition)和时间建模(temporal modeling)。

音视频技术开发周刊 | 209_第6张图片

如何给5岁孩子解释DCT?

DCT(离散余弦变换)是现代图像和视频压缩最基本的工具。它将图像中的数据转换到频域,这样做是为了揭示像素中所包含的信息。本文将以一种通俗易懂的方式解释DCT。

用扩散模型生成高保真度图像

本文介绍了两种相互联系的方法。它们将推动扩散模型的图像合成质量界限,即通过重复优化获得的超级分辨率 (SR3) 和用于类条件合成的模型,此模型又名为级联扩散模型 (CDM)。经证明,通过扩大扩散模型的规模以及精心选择的数据增强技术,我们可以取得比现有方法更出色的结果。具体来说,SR3 可以实现强大的图像超分辨率结果,在人工评估方面的表现优于 GAN。CDM 生成的高保真 ImageNet 样本在 FID 得分 (Fréchet inception distance) 和分类准确率得分上都大大超过了 BigGAN-deep 和 VQ-VAE2。

 

图神经网络,如何变深?

鉴于CV/NLP中的相关经验,浅层网络对数据的拟合能力会弱一些,因此对如何构建深层图神经网络的探索从未停止,例如深层图神经网络GCNII在Cora/PPI等数据集,RevGEN在ogbn-proteins数据集上都取得了state-of-art的结果,我们仍然希望看到深层图神经网络未来的潜力。深层的图神经网络一方面增加了每个节点的感受野,使得节点可以感知到更大邻域的拓扑和节点特征信息;另一方面,深层网络增大了模型的复杂度和模型容量,使得网络的拟合能力更强。

音视频技术开发周刊 | 209_第7张图片

头戴式AR/VR 光学标定

增强现实(AR)是一种交互式的、实时的技术,它让用户感觉到虚拟增强现实(AR)是一种交互式的、实时的、存在于现实世界中的物体。AR的一个主要目标是使虚拟的玻璃杯的位置看起来与真实的玻璃杯一样真实、可靠和可信。本文将这一概念称为 locational realism。

音视频技术开发周刊 | 209_第8张图片

LiveVideoStack主编观察回归 05/

在编辑部同事的“威逼利诱”下,主编观察回归,目标仍然是做到99期。我的邮箱是[email protected],欢迎大家提供新闻线索。


活动推荐

音视频技术开发周刊 | 209_第9张图片

【免费报名】与阿里云一同探索视频云的新技术与新场景

10月30日 | 北京 LiveVideoStack将携手阿里云共邀4位技术大咖,一同探讨从上云到创新,视频云的新技术与新场景。阿里云视频云依托阿里云服务数百万开发者的卓越服务能力与实践,在本专场演讲中,将从云计算服务、网络调度到端侧呈现等视频生产与消费的全流程角度出发,分享下一代技术趋势和判断,并从实践角度分享算法、架构、AI等多个具有实践指导意义的话题。

⏰ 活动时间:2021/10/30 14:00-18:00

???? 参与方式:线下参与 

???? 报名方式:点击链接 

http://livevideostack.mikecrm.com/aFYceBT


【公开课预告】六款开源LL-HLS/LL-DASH播放器评测

此次分享将对苹果的AVPlayer、Shaka player、HLS.js、Dash.js等几款播放器进行评测,评测采用同样的视频素材、编码器(及编码参数)、网络设置,监测的数据包括平均码率、总下载数据量、时延、缓存和流切换等。

音视频技术开发周刊 | 209_第10张图片

讲师信息:

张博 Brightcove视频研究工程师。现供职于美国波士顿的Brightcove公司,从事视频传输技术的研发工作。主要研究方向包括video content delivery, low-latency and real-time streaming, video playback, IP networking, 并代表Brightcove公司参与CMAF, DASH等视频标准的制定工作。他还是多个视频标准委员会的成员,包括ISO/IEC SC29 working groups (MPEG), INCITS L3.1, DASH Industry Forum, CTA-WAVE。

曾在video streaming及wireless communications领域发表多篇论文,其中一篇曾获得ACM MSWiM 2011年最佳论文。

⏰ 活动时间:2021. 08. 24 | 19:30

???? 观看方式:
1. 扫描上图二维码加LiveVideoStack小秘书,进群与嘉宾交流
2. 关注LiveVideoStack视频号,记得预约:)


插图源自Pexels

你可能感兴趣的:(网络,游戏,算法,神经网络,大数据)