每周一期,纵览音视频技术领域的干货和新闻投稿:[email protected]。
活动推荐
一切为了高清——金山云魔镜平台助推5G高清应用
5G时代是超高清的时代,然而,冰冻三尺非一日之寒,在超高清视频直播点播等业务研发过程中,总会遇到很多令人抓狂的难题。本次LiveVideoStackCon 2020线上峰会我们邀请到了金山云高级技术总监蔡媛,她将从金山云魔镜平台本身出发,讲解平台如何帮助使用者提升画质评测效率,保障评测质量,一站式解决用户画质评测的难点。
https://mp.weixin.qq.com/s/Dq7SihY4CA6Oq0MAZvXH-g
架构
Kurento 6.14.0 发布
修复 bugs 为主。
https://www.kurento.org/blog/kurento-6140-june-2020
WebRTC系列之音频的那些事
WebRTC由语音引擎,视频引擎和网络传输三大模块组成,其中语音引擎是WebRTC中最具价值的技术之一,实现了音频数据的采集、前处理、编码、发送、接受、解码、混音、后处理、播放等一系列处理流程。
https://juejin.im/post/5efafe405188252e7a1c5819
传输网络
如何使用开源SFU构建RTC云服务
本文由百度智能云RTC产品技术负责人 李永兴LiveVideoStack线上分享的内容整理而成,从系统架构角度,分析了常见的开源SFU在分布式部署以及高可用、高并发方面的不足,并提出相应的解决方案。
https://mp.weixin.qq.com/s/1ttedzc7VTO2hVg2s0qZIw
使用 Rust 实现:3K,60fps,130ms
如今几乎所有视频通话服务,最终结果似乎都是以一种或另一种方式使用了 WebRTC 库。
https://blog.tonari.no/why-we-love-rust
关于传输层协议UDP、TCP
在本系列课程我会为大家讲述传输层协议UDP、TCP和应用层协议HTTP、HTTPS以及Android中优秀的网络框架的基本使用和源码解析。
https://www.jianshu.com/p/271b1c57bb0b
编解码
视频编解码器 2020-比赛开始!
目前已有不少可应用于视频流媒体服务的视频编解码器,而且今年还将发布更多。诸多的方案给视频服务商带来了选择困难症,因为他们需要为自己选择合适的编解码器,以确保为用户传送的音画内容能具备尽可能好的质量和最低的比特率,同时还要考虑到编码器对计算资源的要求。
https://mp.weixin.qq.com/s/ODOIv72pZxDEWDGOEZBWYA
音视频前沿:新一代 AV1 视频标准究竟是怎样一种存在?
AV1是开放媒体联盟Alliance for Open Media (AOM) 开发的第一代视频编码标准,自推出以来获得了产业界巨大关注和支持。腾讯多媒体实验室也加入进来和其他公司团队一同积极推动AV1编码器的优化和落地,为客户提供高性能和高效率的云端编码服务。
https://mp.weixin.qq.com/s/9QvF_qjdKPswH4YdizKKow
编码器对决:VP9 vs HEVC
本文是来自Bitmovin’s Tech Talks的演讲,讲者是Bitmovin的编码团队领导Christian Feldmann。主要内容是对比VP9和HEVC这两个编码器。
https://mp.weixin.qq.com/s/p6kDAzSoxkLVp4VQTSBaMA
MPEG新标准介绍及视频启播优化讨论
本文是来自于Bitmovin Vienna Video Tech Meetup的演讲,讲者是来自于Bitmovin的编码团队领导Christian Feldmann和产品经理Christoph Prager。主要内容是即将发布的三个MPEG标准以及流媒体启动时间优化。
https://mp.weixin.qq.com/s/T4pcNaBYshg9ILSsXXcyjw
对未来编解码器前景的深入探讨
本文来自Bitmovin APAC EDITION 2020的一篇演讲,演讲者是来自bitmovin视频编码团队的Christian Feldmann,他主要探讨了现有的和即将到来的视频编解码器。
https://mp.weixin.qq.com/s/u-JugYdCijLbHuWq6COVqQ
音视频技术
腾讯天籁:基于上下文的语音丢包补偿算法
腾讯天籁,“天籁之音,沟通无界”,作为腾讯多媒体实验室提供的端到端实时音频解决方案,专注于持续提升人们的沟通体验,给用户提供高音质,低延时,强抗性的音频通信服务。
https://mp.weixin.qq.com/s/POv_lN4V8OUTLY67F0BLpQ
通过新的 Twilio 会议抖动缓冲区控制技术(Jitter Buffer Controls)改善通话体验
Twilio 现在支持开发人员确定其通道的抖动大小。
https://www.twilio.com/blog/improve-call-experience-new-twilio-conference-jitter-buffer-controls
Android 音视频学习:MediaCodec录制MP4文件
在Android 4.1版本提供了MediaCodec来访问设备的编解码器,它采用的是硬件编解码,所以在速度上比软解码更有优势。
https://juejin.im/post/5ef982e45188252e5f37b50d
AI智能
高文、张钹、杨强隔空论道:AI精度与隐私的博弈
AI时代,如何保护大众的隐私?以联邦学习为代表的AI技术能否实现AI协作,提升模型精度的同时,实现数据隐私的保护?中国如何抢占人工智能安全发展的制高点?下一个十年,人工智能又将何去何从?
https://mp.weixin.qq.com/s/hAioNIGNAom70f5Zmik9eQ
清华大学计算机系教授胡事民:自研深度学习框架“计图”2大创新、6大特性详解
演讲中,胡事民谈到了深度学习框架“计图”研发的初衷。他表示,回溯深度学习框架在过去十年间的演进,国外的 TensorFlow 、PyTorch 、caffe 等主流深度学习框架发展迅速,国产深度学习框架的发展相对慢一些。
https://mp.weixin.qq.com/s/luEC1JpITPKUY1C31kxUxg
SimulSpeech: 端到端同声传译系统(论文)
同声传译是指在不打断讲话者的情况下,同步地将源语言的语音翻译成目标语言的文字或语音,这种翻译方式被广泛应用于大型国际会议等场景。随着机器翻译技术的发展,基于机器的同声传译准确率有了极大的提高,并逐渐投入到实际使用中。
https://www.aclweb.org/anthology/2020.acl-main.350.pdf
图像
牛!Python 也能实现图像姿态识别溺水行为了!
众所周知随着人工智能智能的发展,人工智能的落地项目也在变得越来越多,尤其是计算机视觉方面。
所以今天我们也是做一个计算机视觉方面的训练,用python来判断用户溺水行为,结合姿态识别和图像识别得到结果。其中包括姿态识别和图像分类。
https://mp.weixin.qq.com/s/x1S0Mlx1pk3t7c848LOsTA
资源推荐
启用 WebRTC simulcast 以提高使用 Amazon Chime SDK 构建的应用程序的视频性能
AWS 将 simulcast 功能添加到其 Chime SDK 中了。
https://aws.amazon.com/about-aws/whats-new/2020/06/enable-webrtc-simulcast-to-improve-video-performance-for-applications-built-with-amazon-chime-sdk/