每周一期,纵览音视频技术领域的干货和新闻投稿:[email protected]。
架构
花椒敏感词系统架构详细
直播系统主要是以内容为主,好的内容可以吸引用户来欣赏,也能为公司带来可观的收益,既然有传播的入口,那么必然有负面内容的出现,随着平台用户量不断扩大,内容的监管也是必不可少的一个环节,比如国家监管部门要求拦截词语包括涉政、非法、宗教、暴恐、版权等,以及平台自身需要拦截的词语包括竞品挖人、低俗、广告等垃圾词,那么我们本章就从文本内容的管控角度介绍下花椒敏感词服务的定制和应用。
https://mp.weixin.qq.com/s/GXVlcyGd9WsPGw0oSGmxgw
使用 serverless 技术构建 Raspberry Pi 远传机器人
如何使用 AWS Kinesis 视频流与 WebRTC 。第一个关于这个技术话题的帖子。
https://idk.dev/building-a-raspberry-pi-telepresence-robot-using-serverless-part-2/
传输网络
广播的新概念:SRT——远程家庭工作流程的简单解决方案
本视频演讲来自Haivision SRT Tuesday Webinar系列,由Haivision产品营销副总裁Marcus Schioler、技术销售Selwyn Jansl和Live X的制片人兼联合创始人Corey Behnke共同完成。演讲的主题是“SRT——远程家庭工作流程的简单解决方案”。
https://mp.weixin.qq.com/s/9mVvq2vHRxS6ALNPQyTOGw
QUIC能否代替TCP/IP
本文是来自SNIA on Networking Storage的演讲,演讲者是Tim Lustig和Lars Eggert,前者是Mellanox Technologies企业以太网营销总监,后者是NetApp网络技术总监。演讲主题是QUIC能否代替TCP/IP。
https://mp.weixin.qq.com/s/eivw3r67_XNjFCzmKQIh3g
低延迟直播流技术
本文来自Bitmovin NAB 2020 Tech Talk,演讲者是来自Bitmovin的软件工程师Jameson Steiner,演讲的主题是低延迟直播流技术。
https://mp.weixin.qq.com/s/UMthlPancMBLFfrGlqYZsg
RIST和开放广播系统
RIST是一种流协议,它允许诸如互联网之类的有损网络用于关键的流应用。它称为可靠的Internet流传输,它使用ARQ(自适应重复请求)重传技术来请求网络丢失的任何数据,从而为视频分发创建可靠的路径。
https://mp.weixin.qq.com/s/RZJF8nqYFXfl6I9-l4k4zw
视频技术
Firefox中带有AudioWorklet的高性能Web音频
AudioWorklet于2018年首次引入网络。从那以后,Mozilla一直在研究如何在WebAudio API中“不妥协”地实现这个特性。本周,Firefox 76发布了音频工作包。我们已经准备好开始弥合原生应用程序中的音频功能与web上的可用功能之间的差距。
https://hacks.mozilla.org/2020/05/high-performance-web-audio-with-audioworklet-in-firefox/
视频图像处理中的错帧同步是怎么实现的?
错帧同步,简单来说就是把当前的几帧缓冲到子线程中处理,主线程直接返回子线程之前的处理结果,属于典型的以空间换时间策略。
https://mp.weixin.qq.com/s/h0QWgAOX_a6tXGi871BMXA
构建音视频直播应用需要考虑的12件事(翻译)
打造一个流媒体平台除了像一般后端服务要求那样,比如性能、扩展性、可维护性以及可测试性,还有其它音视频技术方面的考虑。
https://mp.weixin.qq.com/s/HabAKIpW0ARM57ShSyh-SQ
构建iOS Live Streaming App时要考虑的11件事
构建iOS实时流应用程序可能很繁琐。在任何Web应用程序所需的所有后端系统基础结构之上,还有本机应用程序集成的其他注意事项。因此,一些实时流软件公司提供了移动SDK,以帮助简化此过程。
https://www.red5pro.com/blog/11-things-to-consider-when-building-an-ios-live-streaming-app/
视频通话的发展方向是什么?
Google Meet 与 Zero 竞争
https://www.nojitter.com/unified-communications-collaboration/google-meet-race-zero
如何在网络视频聊天中添加覆盖层 overlay
收藏起来,以便日后使用。
https://www.twilio.com/blog/add-an-overlay-to-web-video-chat
人物专访
云游戏之大冒险:5G,等还是不等 | 专访云格致力陈浩
Global Market Insights预测全球云游戏市场将从2018年的10亿美元增长到2025年的80亿美元,复合年增长率达到30%(不同的市场报告预测数据略有不同,但都肯定了云游戏市场迅速增长的趋势)。
https://mp.weixin.qq.com/s/bcxwiOY0DuxOpZyvN3qYBQ
云游戏之真心话:一切才刚刚开始 | 对话南京大学副教授马展
在此前的报道中,腾讯云高管也曾表示,腾讯将更多地依靠游戏内广告以及向游戏设计方出售数据等其他收入来源,而不会采用国外的订阅制模式来获利。腾讯当然可以选择这样一条发展路径,那么那些拥有有限IP的游戏制造商和小公司呢?
https://mp.weixin.qq.com/s/fHkfEwiPlb7dr-PNJCn7AA
端侧AI:高隐私、高可靠的智能个性化服务
相较于云端AI需要用户将数据发送到云端进行处理,存在网络稳定性、隐私安全等问题。随着终端算力的提升,端侧AI本地处理数据的高隐私性以及对用户使用习惯的智能感知,将为用户带来更可靠的个性化优质服务。
https://mp.weixin.qq.com/s/eqdLwaj_TSnBgB3In2Aj1Q
AI智能
深度学习落地移动端
Q音探歌是QQ音乐孵化的一款全新APP,主打高效、准确的“听歌识曲”,“扫描识别MV”功能,这些服务的实现离不开深度学习能力。把深度学习推断带到边缘设备( inference on the edge ),可以减少计算时间,改善用户体验,但是也面临着种种挑战。
https://mp.weixin.qq.com/s/vzDybxT20XDxDq-kWZhZuQ
CVPR 2020 Oral | 旷视研究院提出对抗攻击新方法DaST:无需真实数据训练替身模型
旷视研究院提出一个无需数据训练替身模型实现黑盒对抗攻击的方法,称之为DaST(Data-free Substitute Training),它利用生成对抗网络GAN生成合成样本,以训练替身模型,而合成样本的标签来自目标模型。
https://mp.weixin.qq.com/s/wLctKCYHgNqHKXQgLIBKfA
AI修复100年前晚清影像喜提热搜,这两大算法立功了
为了实现高清修复,Shiryaev 使用了两种神经网络:Google 的 DAIN(深度感知视频帧插值,Depth-Aware Video Frame Interpolation)和 Topaz Labs的 Gigapixel AI。其中,Gigapixel AI 用于将微弱分辨率的视频一直扩展到 4K,而 DAIN 用于创建和插入之前不存在的帧,从而将视频的 FPS 增加到 60。
https://mp.weixin.qq.com/s/KE69qTH2ft9rltAGIk_dbA
图像
抠图专家要失业了?CV技术加持下的AR,实现隔空抠图复制粘贴
利用这个技术只用一部手机就能将书上的图片直接复制到电脑上,全程用不到10秒钟。
https://www.leiphone.com/news/202005/uZrdIAgE0kMhcsgB.html
资源推荐
插帧算法 DAIN
我们提出了深度感知视频帧插值(DAIN)模型,通过挖掘深度线索来显式地检测遮挡。我们开发了一个深度感知的流投影层来合成中间流,该中间流最好是对距离较近的对象进行采样,而不是对距离较远的对象进行采样。我们的方法在Middlebury数据集上实现了最先进的性能。
https://github.com/baowenbo/DAIN
点击“阅读原文”可查看更多详细信息,请大家科学上网。