每周一期,纵览音视频技术领域的干货和新闻投稿:[email protected]。
架构
手把手搭建WebRTC测试环境,实现1对1视频通话
本文就是帮助大家一步步搭建一个DEMO的运行环境,只要严格按照教程,基本都能搭建出来,后续再讲解接口调用和WebRTC一些源码编译和内部情况。
https://mp.weixin.qq.com/s/uj-_WktICjGIKx5seM6QPw
传输网络
CDN管理/大规模运营:编排和运营
本文来自Content Delivery Summit Autumn 2020,主要讨论CDN管理方面的问题。主持人是来自Axello的CEO,Mark de Jong。
https://mp.weixin.qq.com/s/lBh8IKijE7r39qALcLe-tQ
携程移动直播探索
本文从直播流的选择、交互优化、快速迭代等方面介绍携程直播技术。
https://mp.weixin.qq.com/s/fZOpnikrrWZYDHc9nIRjWQ
数据监测
简单的流式遥测
本文介绍了gnmi-gateway项目的一些背景知识,我们为什么创建它以及如何使用它来监视自己的网络。
https://netflixtechblog.com/simple-streaming-telemetry-27447416e68f
编解码
MediaCodec编码OpenGL速度和清晰度均衡
在安卓平台为了实现h264视频编码,我们通常可以使用libx264, ffmpeg等第三方视频编码库,但是如果对编码的速度有一定的要求,要实现实时甚至超实时的高速视频编码,我们并没有太多选项,只能使用Android提供的MediaCodec硬编码模块。
https://mp.weixin.qq.com/s/HnHNCyvt1Ob8h84cUpDBNA
LCEVC编解码器介绍&per-title编码基本原理
本次演讲来自IndVideoTech Meetup,演讲者分别是来自Bitmovin的解决方案架构师Saravanan Silvarajoo,以及来自V-Nova的产品副总裁Fabio Murra。本次演讲主要包括了per-title编码的基础知识和LCEVC(MPEG5 Part2)编解码器的介绍。
https://mp.weixin.qq.com/s/rIZ-x6YJT8-5BhzKJyu5Hw
音视频技术
关于主动降噪耳机,你想知道的一切
本文主要介绍反馈降噪(FB ANC) 的原理。
https://mp.weixin.qq.com/s/2tq8tMnMGbNfe_javn07Eg
构建支持音频研究的基础架构
声音是一种看不见的力量,以我们看不见但可以感觉到的方式到达我们。这也是音频难以被机器解析的原因:人类可以分辨出发呆的人声,可跳舞的节拍和嗡嗡的蜂声之间的区别。我们也可以教机器听那些差异吗?
https://engineering.atspotify.com/2020/11/04/its-all-just-wiggly-air-building-infrastructure-to-support-audio-research/
帧率:实时流媒体入门指南
本文将探讨选择实时流或流fps的帧速率时要考虑的因素。
https://www.wowza.com/blog/frame-rate-beginners-guide-live-streaming
超强屏幕录制和注释工具:Screenity
Screenity 是一个强大的屏幕记录和注释工具,你可以在录制画面标注事项,添加人脸视频窗口。
https://github.com/alyssaxuu/screenity
活动推荐
LiveVideoStackCon SFO 2020 圆桌论坛
QUIC HTTP/3, HLS/DASH, CMAF, WebRTC, RTMP/FLV......
OTT/短视频/线上教育/远程协作/云游戏...
云剪辑/线上视频制作/AI视频制作......
当新的标准被应用到新领域、新的应用配备了新的标准、新的领域衍生了新的应用......音视频技术人会带来怎样的技术革新,多媒体行业的后疫情时代又会催生出怎样的新创?
湾区最原汁原味的技术,全球最前沿的应用实践。
无需漂洋过海,我们在线上等您!
https://sfo2020.livevideostack.com/schedule
AI智能
AI视觉,腾讯云视频云新挑战的解决之道
AI就像一个加速器,正在渗透在多媒体应用的方方面面,改进甚至颠覆传统的图像视频处理方法。本文整理自腾讯云高级研发工程师刘兆瑞在LiveVideoStackCon 2020北京站上的演讲,将从超低码率压缩场景下AI技术在前置处理中的优化、AI技术的画质修复探索以及智能编辑场景的落地实践三个方面展开。
https://mp.weixin.qq.com/s/NJkLx5lQDENh7mDe-yF5wQ
微软开源的 AI 工具,让旧照片焕发新生
在 GitHub 热点趋势 Vol.046 中,HG 介绍过一个微软开源的 AI 工具——Bringing-Old-Photos-Back-to-Life,它可以让破损、残旧的图片焕发新生,在本周更是获得近 3k star。而本文则是项目团队成员 Ziyu Wan 发布于 Hacker News 的项目介绍。
https://juejin.cn/post/6898862569226764302
U^2-Net跨界肖像画,完美复刻人物细节,GitHub标星2.5K+
今年提出的 U^2-Net 显著性检测算法,刷爆了 reddit 和 twitter,号称是 2020 年「地表最强」的静态背景分割算法。
https://mp.weixin.qq.com/s/BsOtHbhC3xXUYrDt_GqWeg
日均5亿字符翻译量,百毫秒内响应,携程机器翻译平台实践
随着国际化进程的开展,携程正加速第三次创业,各部门及业务场景对多语种的需求日益增长,依靠译员或精通多语种的客服难以支撑持续扩大的自然文本翻译流量。机器翻译技术作为近年来人工智能领域在自然语言处理任务上探索的先驱,逐渐走出学术的象牙塔,开始为普通用户提供实时便捷的翻译服务,并已取得了显著的成效。在这样的形势下,针对旅游服务场景提供更高质量低成本的机器翻译服务成为了一个重要课题。
https://mp.weixin.qq.com/s/XE56cWASFcq8r-p1OBvKng
图像
Ukiyo-e faces dataset 浮世绘面孔数据集
作为我的论文《基于分辨率的GAN插值用于域间的可控图像合成》的一部分,我使用浮世绘人脸图像的数据集来训练StyleGAN模型,本文包含该数据集的链接和该数据集的详细信息。
https://mp.weixin.qq.com/s/uV-OOY5eMGol1cjC0H055g
资讯速览
一颗芯片引发的投资狂潮
5 年前投芯片的人只够坐一桌,“现在能装下一个足球场,肯定有几千人。”
https://mp.weixin.qq.com/s/3zy0h0fcYwxDFqD9W9KLBg
Google计划首次通过沙特阿拉伯和以色列建立光纤网络连接
新的光纤网络将连接历史上的敌人,并为互联网流量打开新的走廊。
https://www.wsj.com/articles/google-plans-fiber-optic-network-to-connect-via-saudi-arabia-and-israel-for-first-time-11606143590?mod=djemalertNEWS
YouTube和Netflix宣布提供适用于Xbox One平台的参考AV1解码器
YouTube和Netflix对这种参考解码器可能为业界带来的AV1增长机会感到兴奋。
https://aomedia.org/in%20the%20news/youtube-and-netflix-announce-availability-reference-av1-decoder-for-xbox/
云计算不仅可以助力数字化,还能促进碳减排?
不过,云计算不仅可以助力企业数字化,如今的云计算,还可以使全球企业的生产标准在环境上可持续发展,从而创造出可以减少二氧化碳排放的新商业模式。
https://www.leiphone.com/news/202011/MerYkHXUoAJ4aVxy.html
活动推荐
【线上分享】云原生时代,华为云音视频质量监控与优化实践
云时代,视频直播、实时音视频通信等在线音视频服务面临各种复杂的网络环境和流量爆发式的增长,对音视频质量监控和成本优化提出新的严峻挑战。
12月3日19:30,我们邀请到华为云音视频大数据研发负责人康永红,本次分享将介绍基于大数据的音视频全流程质量监控评估体系和各个环节的优化实践,面向不同的业务和场景,通过不同的关键数据指标改进音视频服务的体验质量和产品成本。
http://livevideostack.mikecrm.com/3Kn1c3a
访问上方链接或点击【阅读原文】了解详情