『音视频技术开发周刊』由LiveVideoStack团队出品,专注在音视频技术领域,纵览相关技术领域的干货和新闻投稿,每周一期。点击『阅读原文』,浏览第58期内容,祝您阅读愉快。
架构
WebRTC服务器架构
WebRTC在构建浏览器视频会话的时候,肯定少不了服务器的支持。目前,WebRTC主要有三种网络架构:Mesh(P2P)、MCU(Multi-point Control Unit)、SFU(Selective Forwarding Unit)。
时永方:做到这三点,你就是多媒体内行了
腾讯多媒体内核中心高级研究员时永方接受了LiveVideoStack的邮件采访,谈及了个人成长中的关键时刻,学习多媒体开发的三点核心,以及在5G和高清时代下,微信多媒体团队面临的挑战。
演进中视频流媒体容器格式与传输协议
本文将介绍视频封装打包(Format, Packaging)和分发协议(delivery protocol)方面近期的标准化技术,并讨论如何将新技术整合到视频流服务系统中,同时尽量保持与现有技术的兼容性。
网易工业级WebRTC应用实践深度解析
本文来自网易云信CTO赵加雨在LiveVideoStackCon2017上的分享,并由LiveVideoStack整理而成。赵加雨阐述了网易在WebRTC上的探索和改进,以及如何与WebRTC进行互通。
AV1:下一代视频标准—约束定向增强滤波器
本文来自Xiph.org的创始人Christopher Montgomery在Mozilla博客上的分享,他也是Mozilla Daala的贡献者。Christopher Montgomery是多媒体圈的传奇人物,Xiph.org于2000年推出Ogg Vorbis,2013年加入Mozilla,有兴趣的同学可以去Google他的Wiki页面。本文由LiveVideoStack摘译,并由专业的多媒体工程师进行审校。
音频/视频技术
Android音视频开发之-WebRTC技术实践 何俊林
Android应用也可以植入WebRTC。好处是什么?简单来说就是你可以用很简洁的代码,在手机上实现点对点的音视频通话或者数据传输,点对点,也就是P2P。
多长的企业视频最受欢迎?小于60秒
资深多媒体技术咨询师Jan Ozer撰文,对企业视频托管服务商Vidyard的视频报告进行了解读,报告涉及用户喜欢观看视频的类型、喜欢视频的长度等。LiveVideoStack对文章进行摘译。
洞察 video 超能力系列——玩转 mp4
点播领域里 Mp4 是最普遍、兼容性最好的视频容器,不过 Mp4 也有它的局限性,比如常见的清晰度切换,我们是无法像YouTube那样做到无缝切换的。
PCS2018:360度全景视频流媒体传输系统
PCS2018:纽约大学工学院的Yao Wang教授做了关于360度全景视频流媒体传输系统:Two-Tier Streaming(TTS)的主题报告,介绍了360度全景视频流媒体的特点,TTS方案的技术要点,目前的实验结果以及研究展望。
编解码
WebRTC中的Opus编码揭秘 老衲不出家
WebRTC中默认是采用Opus编码,Opus编码是由silk编码和celt编码合并在一起,silk编码是由skype公司开源的一种语音编码,特别适合人声,适合于Voip语音通信。celt和mp3,aac类似,适合于传输音乐。
RealNetworks CTO:我们追求低复杂度的软解码
上个世纪末,家庭宽带还处在“KB”量级,RealNetworks通过其高压缩比的Real格式在国内曾经获得了大量终端用户。光阴荏苒,RealNetworks在国内的研发团队带来了面向高清画质的Codec,并获得了CIBN这样的用户的认可。在NAB大会上,资深多媒体技术咨询师Jan Ozer对RealNetworks CTO Reza Rassool进行了访谈,谈及了与HEVC的竞争以及国内的市场格局。
RDO (率失真优化): 可用于mode选择等 FlyingPenguin
RDO用于视频压缩时提供视频质量。通过名称就可以看出,它涉及了以下两方面的优化:失真(视频质量损失)的大小和编码视频(码率)的大小。
PCS2018:下一代视频编码标准——Versatile Video Coding (VVC)
PCS2018:本次会议旨在为视觉压缩领域提供一些突破性的先进技术以及提供高水平的学术报告。在会上,JVET的两位联合主席Jens-Rainer Ohm和Gary J. Sullivan做了关于下一代视频编码标准VVC的主题报告,介绍了上一轮提案征集结束后的测试结果、当前VVC测试软件的情况以及后续的工作计划。
AI智能
超实用的图像超分辨率重建技术原理和介绍
本文简单介绍了图像超分辨率重建技术的概念与实践,以及传统和基于深度学习的图像超分辨率重建技术的原理和应用方案。
解密美图大规模多媒体数据检索技术DeepHash
美图是一家拥有海量多媒体数据的公司,如何有效分析理解这些数据内容并从中挖掘出有效信息,对我们提出了重大挑战。本文以美拍业务为例,介绍我们在海量短视频数据的内容分析理解和大规模检索技术方向的探索和实践。
下一个GAN?OpenAI提出可逆生成模型Glow
目前,生成对抗网络 GAN 被认为是在图像生成等任务上最为有效的方法,越来越多的学者正朝着这一方向努力:在计算机视觉顶会 CVPR 2018 上甚至有 8% 的论文标题中包含 GAN。近日来自 OpenAI 的研究科学家 Diederik Kingma 与 Prafulla Dhariwal 却另辟蹊径,提出了基于流的生成模型 Glow。据介绍,该模型不同于 GAN 与 VAE,而在生成图像任务上也达到了令人惊艳的效果。
普通视频转高清:10个基于深度学习的超分辨率神经网络
本文主要分享用于超分辨率的深度学习基本框架,以及衍生出的各种网络模型,其中有些网络在满足实时性方面也有不错的表现。
IRGAN Tutorial:上交张伟楠老师-GAN在信息检索的应用
生成对抗网络(GAN)已经在深度学习和无监督学习中有广泛的应用。利用对抗训练机制,GAN的生成模型生成以适应潜在的未知实际数据分布,判别模型估计数据实例是真实的还是生成的。在本教程中,作者将重点讨论GAN技术以及各种信息检索场景中离散数据拟合的变体。
图像
HDR关键技术:色调映射(一)
HDR关键技术:色调映射(二)
HDR技术近年来发展迅猛,在未来将会成为图像与视频领域的主流。如何让HDR图像与视频也能够同时兼容地在现有的SDR显示设备上显示,是非常重要的技术挑战。本系列将会详细地总结色调映射技术的相关问题,并介绍经典的色调映射算法。将分为三个部分:(一)是色调映射技术的综合介绍;(二)是图像色调映射算法的总结与经典算法介绍;(三)将介绍视频色调映射算法。
终端图像处理实践-实时唇彩效果优化
使用常规的三角贴合的方式给唇部上色,在大多数情况下都表现良好。但是在唇部形态较之正常形态发生较大变化时,比如在嘟嘴,张嘴与抿嘴的场景下唇彩的贴合程度就会降低许多。于是我们尝试使用LUT+唇部mask的滤镜技术对唇部区域进行色彩变换来实现各种唇彩的效果。根据这样的实现思路,我们设计实现了MCLipFilter来尝试解决所遇到的唇彩贴合不准的问题。