每周一期,纵览音视频技术领域的干货。
新闻投稿:[email protected]。
QoS和QoE初学者指南
本篇文章从宏观角度向大家介绍QoS和QoE。我会先从它们的定义开始,然后讨论它们之间的关联。接着,我们再来简单了解公司如何衡量和使用QoS和QoE。
视频修复:无监督流对齐的序列对序列学习方法S2SVR(ICML 2022)
本文将 Seq2Seq 的架构引入到了视频超分中,其次针对光流不准的问题,之前的文章选择使用DCN进行替代,本篇论文『Unsupervised Flow-Aligned Sequence-to-Sequence Learning for Video Restoration 』从另一个角度出发,通过知识蒸馏的方法来训练更准的光流,想法很好但是相比于DCN的效果还有待进一步的优化。
音视频开发之旅(十) GLSurfaceView源码解析&EGL环境
通过本篇的学习实践,了解GLSurfaceView内部是如何工作、了解EGThread的实现和EGL上下文的意义。在TextureView的基础上创建EGL上文和GLThread来实现OpenGL的绘制。
视频中的自定义面部表情分析
本文是对 Dominic Rüfenacht 的《Customized Facial Expression Analysis in Video》文章的介绍,主要围绕视频中的自定义面部表情分析,从当前研究现状、主要技术以及应用方面进行了介绍。
使用 VMAF 的改进版本进行视频质量评价
本文研究了基于 VMAF 的视频质量评估算法。作者将 VMAF 扩展到 NR 的情况下,使用一些不同的特征,以开发一个统一的 VQA 框架。在 VMAF 的基础上,作者使用了改进的运动特征和更好的回归器,使得其比 VMAF 的性能超出7-9%。
作业帮实时音视频ZRTC演进之路
作业帮实时音视频ZRTC经过流媒体技术团队的持续打磨和优化,已在大规模复杂的生产环境稳定运行3年以上,不仅有力地支持了作业帮丰富多彩的互动课程类型,同时也积累了丰富和宝贵的实践经验,今天我们一起来回顾并总结其中的关键技术要点。
如何基于 ZEGO SDK 实现 Android 一对一音视频聊天应用
疫情期间,很多线下活动转为线上举行,实时音视频的需求剧增,在视频会议,在线教育,电商购物等众多场景成了“生活新常态”。本文将教你如何通过即构ZEGO sdk在Android端搭建视频通话能力。
实时人脸识别系统
本文提出了一种用于直播的的人脸识别系统——人脸检测器。演讲首先介绍了人脸检测器及其用途,然后概述了系统的工作原理,如何与广播业务的其它设备相结合,最后展示了一些用例。
面试题 | 什么是秒开视频? 如何去秒开视频?
给大家带来一些音视频的面试题,或者说是一些开发思路吧,不希望它成为以后你面试的八股文。这次主要是视频秒开方面。秒开是指用户点击播放到看到画面的时间非常短,在 1 秒之内。
Android AVDemo(5):音频解码,免费获得源码丨音视频工程示例
在音视频工程示例这个栏目,我们将通过拆解采集 → 编码 → 封装 → 解封装 → 解码 → 渲染流程并实现 Demo 来向大家介绍如何在 iOS/Android 平台上手音视频开发。这里是 Android 第五篇:Android 音频解码 Demo。
检索速度提高八倍,字节跳动发布最新音乐检索系统ByteCover2
近期,字节跳动火山语音团队的最新音乐检索系统 ByteCover2 入选了 ICASSP 2022。这一系统主要面向翻唱识别(CSI)这一音乐信息检索(MIR)领域的一项重要任务,通过表征学习方法让其具备提取音乐核心特征的能力。
国外最新研究表明,人类在水下拥有更高的听力阈值
自20世纪50年代以来,已经进行了几次不同的尝试来测量人类水下的听力。“但所有这些科学研究的共同点是,他们都发现听力阈值高于我们在新研究中发现的阈值,”Christensen-Dalsgaard说。
声学黑洞为木质天花板带来更好的降噪体验
Empa目前正在完成对木质建筑隔音的研究。利用20世纪90年代的物理理论和数字化工具,一个研究小组开发了由实木面板制成的新地板材料,这些面板具有所谓的声学黑洞。
拓扑缺陷为声学系统对称性提供了保护
一项国际研究合作发现如何利用某些缺陷来保护声学系统中的密闭能量。他们的实验方法提供了一个通用的平台,可以创建随意的缺陷,以进行进一步的理论验证,并改善对其他系统(如,光)中波的控制,根据宾夕法尼亚州立大学声学和生物医学工程副教授Yun Jing的说法。
你学废了吗?如何把文本转化为语音
随着人机交互技术的发展,语音合成技术逐渐进入了我们的视野。语音合成即文本转语音(text-to-speech,TTS),是一种将文本转化为自然流畅的语音的技术。
视频编解码芯片设计原理----15 虚拟现实与视频编码传输
本文首先介绍360°全景视频系统的架构,包括视频获取、动态传输和渲染显示的部分,简单介绍了几种现有的全景视频投影方案。接着本章提出了一种新型的基于立方体模型和像素渐变分布策略的球形投影方案ARcube投影。最后在实验分析中,ARcube表现优异,在均匀性,运行效率和比特率占用方面均优于现有的方案。
视频编码中的自适应拉格朗日乘数
速率控制压缩中,特定的拉格朗日乘数可能会在一定的比特率范围内提高 BD 速率,但不是在整个范围内。在整个范围内使用不同的参数将提高整体增益。本文提出了一个框架,用于在一系列比特率中以每个操作点为基础选择最佳拉格朗日乘数。
降低开发门槛,打造基于WebRTC的开源低延时播放器
多媒体开源项目一直是我们所关注的话题,许多优秀的开源项目不仅打通了行业壁垒,还为全局优化业务提供了广阔的空间。本次,我们邀请到了来自网易云信的资深研发工程师,毕伟老师来聊一聊网易云信在开源低延时直播项目上所做的一些工作。
【即将开源】脸书&MPI新研究:2D图像合成高清3D风格化图
我们提出了StyleNeRF,这是一种三维感知的生成模型,用于具有高多视图一致性的照片真实感高分辨率图像合成。
FFmpeg命令分析-re
-re 参数控制读取 AVpacket 的速度,按照帧率速度读取文件 AVpacket。如果有多个流,以最慢的帧率为准。
https://juejin.cn/post/7085016850685394980
业界首个流式语音合成系统开源!
飞桨语音模型库 PaddleSpeech ,为开发者提供了语音识别、语音合成、声纹识别、声音分类等多种语音处理能力,代码全部开源,各类服务一键部署,并附带保姆级教学文档,让开发者轻松搞定产业级应用!
RTMP的工作原理
本篇文章将深入了解:RTMP的历史、RTMP的工作原理、如何建立RTMP连接、RTMP的替代方案、RTMP的优点和缺点。
SRS:流媒体服务器如何实现负载均衡
当业务超过单台流服务器的承受能力,就需要负载均衡,它包括复杂的策略、工具和结构,和集群有一定关系但还不是完全等价。好吧,让我们详细聊聊负载和负载均衡。
中国医学影像人工智能20年回顾和展望
为了记录和总结国内同行的科研成果,中国医学影像人工智能20年回顾和展望(发表于《中国图象图形学报》2022年第3期“医学影像及临床应用”专刊)一文对中国医学影像人工智能过去20年的发展历程进行回顾和展望。
从感知机到Transformer,一文概述深度学习简史
深度学习是一个非常有活力、非常宽广的领域,很难概括其中所发生的一切。这篇文章从感知机开始,按照时间顺序回顾了深度学习的历史。
AI作画新高度!谷歌发布imagen,效果惊艳全场
在让AI搞创作这件事上,谷歌和OpenAI正面刚起来了。这不,震惊全网的DALL·E 2才新鲜出炉一个月,谷歌就派出名为Imagen的选手来打擂台。
字节用4大准则教你设计一个拥有CNN的速度,Transformer精度的模型!
本文作者从实际应用的角度重新审视现有的Transformer。它们中的大多数甚至不如基本的ResNets系列高效,并且偏离了现实的部署场景。这可能是由于当前衡量计算效率的标准,例如FLOP或参数是片面的、次优的同时对硬件也不敏感的。
一文彻底掌握自动机器学习AutoML:AutoGluon
本文主要分为两个部分。第一部分介绍 AutoML 的背景信息,并比较下近期较为流行的AutoML框架,第二部分介绍 AutoGluon(AutoML 框架之一)的端到端示例用例。
神经网络与傅立叶变换到底有没有关系?
机器学习和深度学习中的模型都是遵循数学函数的方式创建的。从数据分析到预测建模,一般情况下都会有数学原理的支撑,傅里叶变换是一种众所周知的将函数从一个域转换到另一个域的数学方法,它也可以应用于深度学习。本文将讨论傅里叶变换,以及如何将其用于深度学习领域。
如何利用Transformer建立时间序列预测模型(附代码)
今天给大家分享一篇非常有趣的论文:Deep Transformer Models for Time Series Forecasting: The Influenza Prevalence Case。这是一篇有关时间序列入门级论文,他从头开始实现一个有趣的时间序列项目,可以帮助我们了解更多关于时间序列预测。
AI|经典简读--知识蒸馏
知识蒸馏是一种模型压缩方法,是一种基于“教师-学生网络思想”的训练方法,由于其简单,有效,在工业界被广泛应用。
盘点那些专注于细分领域的AR眼镜
正当所有AR眼镜都在追求性能卓越、功能全面,以满足消费者在不同场景下的所有需求时,这3款AR眼镜却另辟蹊径,在细分场景中找到了自己独特的产品定位,成功打入消费者市场。接下来,小编将为大家一一介绍这3款与众不同的AR眼镜究竟有着怎样的独到之处。
XR市场的“救星”还是“过客”?苹果有望在年底发布AR/VR头显
对于苹果AR/VR头显有望最快年底发布的消息,让整个XR市场(含VR/AR/MR)振奋起来了,等了很久终于等来了苹果这个“大明星”。有人说苹果的AR/VR头显发布之日,就是XR市场的春天来临之时。可事实真的是如此吗?
AR+音乐节 | Snap为音乐节推出4款增强现实滤镜应用
Snap先进的AR技术可以给EDC电音节现场观众带来全新的体验。在Snap推出的四款滤镜中,有两个能够帮助Snapchat用户找到不同舞台,并通过Snapchat的位置分享功能寻找他们在人群中的朋友。
库克:AR是极少数将会彻底改变人们生活的技术之一
如果说扎克伯格是元宇宙的头号代言人,那么库克就是AR的头号粉丝。近年来,苹果CEO蒂姆·库克已经不止一次在公开场合表达他对AR技术的喜爱,以及对AR未来的美好期望,并且认为AR是极少数将会彻底改变人们生活的技术之一。
【AR专家测评】Karl Guttag测评微软HoloLens 2——光学显示
大家好,本期《AR专家测评》将为大家解读近眼显示专家Karl Guttag(卡尔·古塔格)对微软HoloLens 2的光学显示部分所做的深入测评。
使用 3 个 Python 库的图像增强
尽管一些Python库支持多种增强技术,但并不是所有的技术都适合训练模型。用户需要知道哪些增强技术可以帮助生成用于训练模型的实际附加数据。本文中探索三个流行的 Python 图像增强库。
W3C: 开发专业媒体制作应用 (4)
本文介绍了两则来自W3C的演讲。第一篇Oleg Sidorkin讲述了如何在现代化远程办公大流行的趋势下,使得几乎任何网站或启用网络的工具都可以获得额外的功能,以便进行团队协作。第二篇Max Grosse他们开发的网页端深度学习结果查看工具,可以在网页端方便地查看高动态范围高质量的深度学习图像结果。
图像信号处理芯片设计原理----08 色彩矫正
本系列主要介绍图像信号处理器中各核心算法模块的设计以及相关的前沿研究,以典型的相机成像系统为基础,涉及的内容包括各类缺陷校正,去马赛克,去噪,3A算法,超分,HDR,风格迁移等主题。本文将首先简单介绍色彩校正的用途,以及色彩相关知识,再对色彩校正的相关方法进行简单介绍。
手机中的计算摄影1——人像模式(双摄虚化)
手机上的人像模式,也被人们称作“背景虚化”或 ”双摄虚化“ 模式,也称为Bokeh模式,能够在保持画面中指定的人或物体清晰的同时,将其他的背景模糊掉。这样,画面的主体部分会显得突出,主观上美感更强烈。
屏幕内容压缩失真的多假设超分
这篇论文将多假设的原理引入压缩失真屏幕内容图像的超分辨率任务。训练时,输入多个 LR 低分辨率图像块,包括当前块和五个相邻块,为高分辨率图像的学习提供更多信息。
科普:多传感器融合基础知识
多传感器信息融合(Multi-sensor Information Fusion,MSIF),就是利用计算机技术将来自多传感器或多源的信息和数据,在一定的准则下加以自动分析和综合,以完成所需要的决策和估计而进行的信息处理过程。
一文读懂3D目标检测原理及应用
目标检测与目标识别不同,不仅要识别图像中目标的类别,同时还要确定目标位置。与2D目标检测不同,3D目标检测是使用RGB图像、RGB-D深度图像和激光点云,输出物体类别及在三维空间中的长宽高、旋转角等信息的检测。
计算机视觉方向简介 | 深度学习3D重建
最经典的计算机视觉问题是3-D重建。基本上可以分成两种路径:一是多视角重建,二是运动重建。前者有一个经典的方法是多视角立体视觉,后者在机器人领域成为同步定位和制图(SLAM)技术,有滤波法和关键帧法两种。
阅读推荐
两年经验妹子的面试总结
分享一位妹子的面试总结,从业经验 2 年,在目前这个充满裁员的环境下面了这么多公司,并且拿到了心仪的 offer ,实属不易。目前的这份面经也算是给当下焦虑的候选人一定的参考,希望有一些帮助。
Rust 和 OpenCV
我们都知道为什么 Rust 如此出色。然而,与 C/C++ 等老巨头相比,它有点过于新颖和闪亮,我们经常需要在没有适当文档的情况下使用 C++ 绑定。现在,让我们首先回答这个问题,我们为什么要关心在 Rust 中运行 OpenCV?为什么不直接使用 C++、Java 或 Python?
ICASSP 2022 | 89.46%检出率,网易云信音频实验室提出全球首个AI啸叫检测方案
网易云信音频实验室持续在实时通信音频领域进行创新,基于 AI 的啸叫检测方法的研究方案被 ICASSP 2022 接收,并受邀于会议面向学术界和工业界进行研究报告。
端侧 AI 开发难?揭秘 HUAWEI HiAI Foundation 助力快速部署 AI 应用的「超能力」
作为 HMS Core 中的 AI 技术能力的平台,HUAWEI HiAI Foundation 在 2018 年 3 月上线发布 1.0 版本,短短几年的时间,第三方 APP 的调用量已经从 1.0 的日调用量 100 万+,增长到了 2021 年每日 145 亿的调用量,总调用量更是达到了每日 600 亿次。
具有随机突触的神经采样机,允许类脑学习和推理
诺特丹大学(University of Notre Dame)的研究人员介绍了一种新的硬件结构,它可以通过利用突触连接中的随机性进行近似贝叶斯推理,来实现一种称为神经采样机 (NSM) 的新型随机神经网络。
超大模型出现后,AI的游戏结束了?Gary Marcus:路走窄了
在很多人看来,我们距离通用人工智能已经近了,不过知名学者、纽约大学教授 Gary Marcus 不是这样想的。他的文章《The New Science of Alt Intelligence》对 DeepMind 研究主任 Nando de Freitas 「规模致胜」的观点进行了反驳,让我们看看他是怎么说的。
电影配乐行业危险了? 中央音乐学院用AI生成交响乐
中央音乐学院、牛津大学和清华大学研究者提出首个无规则约束的基于深度学习的交响乐生成模型,探究了多轨道多乐器复杂音乐的自动创作与交互。
活动推荐
【城市沙龙】LiveVideoStack Meet青岛:岛城音视频生态初探
2022年6月11日,LiveVideoStack Meet将落地青岛,初次来到岛城,希望能与大家共同探讨青岛音视频生态环境,给更多技术人创造轻松愉悦的交流机会。本次分享我们邀请到了多位音视频领域嘉宾,内容丰富,诚意满满!
活动时间:2022年6月11日 14:00-16:30
活动地点:山东省青岛市崂山区松岭路399号海信研发中心学术报告厅
防疫要求:凭入园申请及48小时内核酸证明参会(入园申请二维码在会前三天发送至邮箱)
报名方式:点击「阅读原文」立即报名。