音视频技术开发周刊 | 207

每周一期,纵览音视频技术领域的干货。

新闻投稿:[email protected]

小提示:链接跳转仅支持公众号相关链接

音视频技术开发周刊 | 207_第1张图片

OWT在企业远程智能视频服务场景中的应用

本文来自峰畅科技联合创始人&CTO 段先德在LiveVideoStack2021上海站的演讲内容,以峰畅科技采用OWT开源媒体服务器在金融行业的应用为实际案例,详细解析如何用平台化方法破解场景碎片化、定制化的难题,达到图形化编辑工作流的方式支持业务流程创新的目的。

音视频技术开发周刊 | 207_第2张图片

美摄智能生产平台,轻松搞定视频制作——对话美摄科技研发总监黄裔

如今,视频已经逐渐成为人与人之间的一种交流方式,大家越来越爱用视频表达自己的想法,分享自己的心情,所以如何更轻松地制作出画面精美、吸引眼球的视频,成为视频制作者们迫切想要解决的问题。美摄科技是一家智能视音频整体解决方案服务商,专注于视音频领域开发超过20年。LiveVideoStack近期采访了美摄科技的研发总监黄裔,和他一起讨论了如何降低视频制作难度、提升视频制作质量,以及应对客户需求变化等问题。

音视频技术开发周刊 | 207_第3张图片

万人连麦的幕后技术详解

7月29日-7月30日,由青云科技举办的 CIC2021 云计算峰会在北京成功举办,拍乐云服务端专家沈伟锋受邀出席峰会,并在音视频技术论坛上以《大规模实时音视频技术架构的实践和演进》为演讲主题,分享了实时音视频通讯的几种常见架构和网络拓扑,构建实时音视频实际场景的复杂性和多样性,以及拍乐云在超大规模实时音视频系统的一些实践。

音视频技术开发周刊 | 207_第4张图片

8K VVC 编解码演示 Demo

在德国 Fraunhofer HHI 旗下的 3IT 沉浸式成像技术创新中心进行的一次演示中,Spin Digital 与 Fraunhofer HHI 合作,展示了 8K 内容可以使用 MPEG/ITU 的 VVC 标准进行高效编码和解码。VVC 是 HEVC 的下一代编解码器,在类似的质量下,最终应实现比 HEVC 降低 50% 的比特率。VVC 能支持的不仅仅是 8K 内容,它被设计成也可以对 360 度内容进行编码,并提供空间可扩展性(即增加层次以建立高分辨率帧)。

NETINT的商用硬件AV1视频编码器

本文来自thevideoinsiders,NETINT技术公司的联合创始人兼首席运营官Alex Liu谈到在数据中心使用ASIC进行视频编码的优势,并独家预览了他们支持AV1编码和AI加速的第二代芯片。

ICME2021:基于机器视觉的RD模型

本文针对VVC帧内编码提出了一个面向视觉分析的RD模型,该模型包括码率控制策略和失真度量模型。

音视频技术开发周刊 | 207_第5张图片

音视频、AI和5G等技术在东京奥运会中的应用

OBS(奥林匹克广播服务公司)一直不断尝试将新的数字科技应用到奥运赛事中。今年的东京奥运会,它将展示大部分科技。OBS承诺为全球观众呈现一场拥有丰富数据的视觉盛宴,其中IP、云、5G和人工智能都打破了广播制作的传统框架,改变了内容交付和观众体验的基础,让观众即使不亲临现场观看比赛也能获得最逼真的体验。

漫聊快直播

随着直播行业的快速发展,直播带货秒杀和在线教育答题等应用场景对直播延时的需求越来越苛刻,为了应对这种需求,腾讯云推出了快直播。

直播时各种背景是怎么实现的?聊一聊虚拟背景背后的技术

2020 年一场突如其来的疫情闯进了我们的生活,上网课、在家办公逐渐成为了一种常态,为了更好地保护用户隐私、提升用户体验,各大在线办公软件相继推出了虚拟背景功能,营造学习、办公氛围的同时,又能避免家中环境不够正式的窘境。那么今天我们就来说道说道虚拟背景的相关技术。

网易云信变声技术之变调不变速算法

本文先介绍了常用的变声技术,让读者对变声技术的原理和效果有一定的了解,进而引入了网易云信在变声技术上的创新与实践,如机器人声、男声变女声和保护隐私方面的音效;最后着重介绍了网易云信如何结合变调不变速算法的实践成果。

论文推介:Glow-WaveGAN—学习一种用于高质量语音合成的语音表征

论文提出了使用 VAE (Variational Auto-Encoder)结合 GAN(Generative Adversarial Network) 直接从语音中学习中间表示,然后利用基于Flow 的声学模型对潜在中间表示的分布进行建模。

音视频技术开发周刊 | 207_第6张图片

OSA 3D图像获取和显示 技术分享两则

本文展示来自 OSA Publishing 的 “3D 图像    获取    和    显示    :技术、感知和应用”的两则技术分享,主题分别是“针对基于学习的图像修复任务进行孔径设计”和“探索减少 ToF 深度相机中运动误差的机器学习方案”。

CVPR 2021 | 这3D人脸追踪的稳定性、贴合度、真实程度,简直了

本文作者来自 Facebook 和美国罗彻斯特大学,作者提出了一个基于深度学习的光照模型 (Lighting Model),改进当前 3D 人脸追踪对光照条件不够鲁棒的问题,从而捕捉更加细微的面部表情,提高 3D 人脸捕捉的稳定性、贴合度和真实感。

如何入门多视角3D目标识别?超详细最新综述来袭!

本文将重点对近年来基于深度学习的多视角3D目标识别方法的主要进展和部分具有代表性的研究成果进行介绍,通过详细的对比分析,以及汇总现有的绝大多数方法的实验性能,总结了多视角3D目标识别研究中的难点和热点,以及可能的发展趋势。

音视频技术开发周刊 | 207_第7张图片

Facebook全息超短焦AR/VR光学突破,或可实现量产

去年6月,Facebook曾重磅公布一款基于全息光学的超短焦VR眼镜方案,其特点是体积轻便、外观小巧,而且支持激光光源,具备视网膜级分辨率效果。据悉,利用该方案开发的VR眼镜原型看起来如墨镜大小,让我们仿佛看到了未来理想的VR形态。近期,Facebook Reality Labs再次公布关于该技术的更多细节,并重点解释该光学方案所采用的LCPH显示技术(全名为液晶偏振全息),以及相关的量产方案。

【测评】有了这款腰部VR触觉反馈设备,皮肤都可以“听音乐”了?

你可曾体验过在皮肤上直接感受来自四面八方的音乐节拍,或游戏效果带来的震动反馈?德国技术公司Feelbelt的首席执行官兼联合创始人Benjamin Heath表示:“我们开发了独特的脉冲发生器系统,创造你从未体验过的感觉。这为游戏增加了一个提高性能和体验的全新维度。”MIXED的记者对其产品进行了简单测试。

音视频技术开发周刊 | 207_第8张图片

F-LOAM:基于激光雷达的快速里程计和建图

同时定位与建图(SLAM)在机器人领域有着广泛的应用,如自动驾驶和无人驾驶等领域。一个好的SLAM系统其计算效率和定位精度是至关重要。现有的基于激光雷达的SLAM研究通常将问题描述为两个模块:点云帧到点云帧匹配和点云帧到地图匹配。这两个模块都是通过迭代计算来解决的,计算量很大。


插图源自Pexels

活动推荐

音视频技术开发周刊 | 207_第9张图片

详情请扫描图中二维码或点击阅读原文了解大会更多信息。

你可能感兴趣的:(大数据,编程语言,计算机视觉,机器学习,人工智能)