每周一期,纵览音视频技术领域的干货。
新闻投稿:[email protected]。
使用体积视频创建数字人
本文介绍了如何使用体积视频创建数字人,体积视频的后处理方法和传输方式等。
iOS AVDemo(7):视频采集,视频系列来了丨音视频工程示例
在音视频工程示例这个栏目,我们将通过拆解采集 → 编码 → 封装 → 解封装 → 解码 → 渲染流程并实现 Demo 来向大家介绍如何在 iOS/Android 平台上手音视频开发。这里是第七篇:iOS 视频采集 Demo。
音视频开发之旅(四)Camera视频采集
音视频开发之旅系列之四,本期主要介绍Camera视频采集,包括Camera基础知识,视频采集的流程,以及采集中遇到的问题等。
W3C/SMPTE 专业媒体制作 Web 技术联合研讨会总结报告
W3C 和 SMPTE 举办的专业媒体制作 Web 技术研讨会于2021年10-11月举行。该研讨会旨在连接 Web 平台社区和专业媒体制作社区,探索 Web 平台技术变革以满足专业媒体制作的需求。本报告总结线上主题讨论的话题,回顾因时间关系而没有进行线上讨论的话题,并提出下一步计划。
https://www.w3.org/2021/03/media-production-workshop/zh.report.html
Smell-O-Vision: 将嗅觉体验加入视频中
本文讲述了将嗅觉体验加入视频中的技术发展历史,从早期的人们在电影院安装复杂的气味发生装置,到简易便携的气味卡片,再到利用流媒体视频数据控制气味释放的装置,演讲者介绍了不同时期装置的特点和对应的视频作品。
Arcturus on Volumetric Videos
在这篇采访中,主讲人主要介绍了 Arcturus 公司所开发的集成平台 HoloSuite。该工具可以对捕获后的三维模型进行缩放、编辑和处理以满足实际的艺术或生产需求。此外,主讲人还表达了自己对体积视频未来发展的看法。
短视频中解决音视频混音出现杂音的问题
现在抖音快手各种短视频也算是深入人心了,短视频剪辑中有一个非常重要的功能,就是音视频合成,选择一段视频和一段音频,然后将它们合成一个新的视频,新生成的视频中会有两个音频的混音。
使用FFmpeg添加、删除、替换和提取视频中的音频
FFmpeg是一个超级强大的工具,它可以在视频文件中添加、删除、提取或者替换音频。如果你的电脑上已经安装了FFmpeg,那么你就拥有了可以给电影添加或删除音频的工具!我们一起来看看FFmpeg是如何做到的。
房间均衡 | 如何给房间调音?
在过去的40年中,许多学者对房间均衡进行了深入的研究,提出了许多有效的技术来应对不同均衡问题。这篇文章旨在介绍一些常用的均衡方法,并讨论每种方法的利弊。
汽车声学
汽车声学作为人车交互核心载体,有望成为下一类车灯属性赛道,至少可看10年以上长期发展,空间巨大。构成上看,汽车声学硬件主要包含车载扬声器、功放及行人警示器AVAS,软件主要包括整车调音技术、声学信号处理技术。
机器学习助力实现更准确的语音识别能力
研究人员开发了一个机器学习模型,该模型确定听众所经历的声学条件,然后估计听众在该环境中识别单词的能力。为了进行此估计,该模型使用基于机器学习的自动语音识别系统。
苹果又出空间音频新专利,适用于FaceTime等应用
在iOS和iPadOS 14中,苹果首次引入了空间音频,现应用于Apple TV、Mac和 HomePod中。现在,一项新的专利申请显示,苹果正在为FaceTime开发空间音频。
VVC怎么了?
VVC作为国际标准于2020年7月首次发布,现在时间已经过去了18个月,让我们来看看VVC迄今为止的进展(包括许可、性能、芯片开发和测试等)。
编码VS转码:有什么区别?
如果您正在尝试流式传输视频,那么您无疑已经听说过“编码”和“转码”这两个术语——但它们有什么区别,又有什么关系呢?
https://www.wowza.com/blog/encoding-vs-transcoding
视频编解码芯片设计原理----08 环路滤波
本系列主要介绍视频编解码芯片的设计,以HEVC视频编码标准为基础,简要介绍编解码芯片的整体硬件架构设计以及各核心模块的算法优化与硬件流水线设计。本文将首先介绍环路滤波的基础知识,对H.265/HEVC标准的两种滤波器进行概述。然后分别给出两种滤波器的硬件实现方案,并与已有的硬件实现工作进行对比。
FFmpeg 源码分析-转码总结
本系列 以 FFmpeg4.2 源码为准,FFmpeg 源码分析系列以一条简单的命令开始,ffmpeg -i a.mp4 b.flv,分析其内部逻辑。本文主要分析 process_input_packet() 的内部逻辑。
https://juejin.cn/post/7052339186958860296
査勇:华为云在视频AI转码领域的技术实践
华为云媒体处理服务研发负责人查勇 结合华为云在超高清视频转码领域的实践经验,详细介绍了云上使用AI技术提升视频视听体验的关键技术,以及如何助力行业实现音视频体验升级。
CVPR2022:局部和全局知识蒸馏用于目标检测(源代码开源)
在今天分享中,研究者进一步探讨了前景和背景的知识蒸馏对目标检测的影响。通过分离蒸馏过程中的前景背景来设计实验。
玩转HLS
HLS是由苹果公司提出基于HTTP的流媒体网络传输协议。是苹果公司QuickTime X和iPhone软件系统的一部分。它的工作原理是把整个流分成一个个小的基于HTTP的文件来下载,每次只下载一些。
面向未来的移动宽带音视频传输协议
本报告从视频制作域和传输域的需求入手,分别总结了不同场景下传输协议的需求和关键指标,并给予技术分析。最后在此基础上,本报告对面向未来移动通信技术的新型视频制作和分发给予了展望。
1024x1024 分辨率,效果惊人!InsetGAN:全身图像生成 (CVPR 2022)
作者提出了一种组合多个预训练的GAN的新方法,其中一个GAN生成一个全局人体图像和一组专门生成特定人体部分的GAN,然后将部分人体图像无缝插入到全体人体图像中。论文中大量的实验结果也表明该方法的有效性。
GNN落地不再难,一文总结高效GNN和可扩展图表示学习最新进展
本文旨在概述关于高效图神经网络和可扩展图表示学习的关键思想,并将介绍数据准备、GNN 架构和学习范式方面的关键进展,这些最新进展让图神经网络能够扩展到现实世界,并应用于实时场景。
OpenAI的DALL·E迎来升级,不止文本生成图像,还可二次创作
去年 1 月 6 日,OpenAI 发布了新模型 DALL·E,不用跨界也能从文本生成图像,打破了自然语言与视觉次元壁,引起了 AI 圈的一阵欢呼。时隔一年多后,DALL·E 迎来了升级版本——DALL·E 2。
保姆级教程:深度学习环境配置指南!(Windows、Mac、Ubuntu全讲解)
如果你正在面临配置环境的痛苦,不管你是Windows用户、Ubuntu用户还是苹果死忠粉,这篇文章都是为你量身定制的。接下来就依次讲下Windows、Mac和Ubuntu的深度学习环境配置问题。
VR行业数据&&VR未来发展路线分析
近期给大家带来了「VR领域」分享,主要大纲如下:VR发展史 - VR技术介绍 - VR行业数据 - VR未来发展路线 - 更全面了解VR。今天我们带来的是VR行业数据&&VR未来发展路线分析,欢迎关注,留言交流学习。
【唠唠】VR技术介绍
今天我们带来的是VR技术介绍,欢迎关注,留言交流学习。其实VR眼镜的概念很简单:把一个显示器罩在人的眼睛上,人向哪里看,就在显示器里显示对应方向的景物,从而让人感觉自己身处一个无限大的虚拟空间中。
未来已来!汽车AR导航正式上路(视频)
今天早些时候,全息AR公司WayRay发布了一段新视频,展示了其True AR HUD在真实道路上的应用,为AR技术在驾驶引导和安全领域的应用开启全新的时代。
使 Android 相机上传功能更快、更可靠
相机上传是我们的 Android 和 iOS 应用程序中的一项功能,可自动将用户的照片和视频从他们的移动设备备份到 Dropbox。这篇文章是关于在为 Android 构建新的相机上传功能时做出的一些设计、验证和发布决定。该项目成功交付,没有中断或重大问题;错误率下降,上传性能大大提高。
https://dropbox.tech/mobile/making-camera-uploads-for-android-faster-and-more-reliable
图像信号处理芯片设计原理----01 概论
本系列主要介绍图像信号处理器 (ISP, Image Signal Processor) 中各核心算法模块的设计以及相关的前沿研究,以典型的相机成像系统为基础,涉及的内容包括各类缺陷校正,去马赛克,去噪,3A算法(自动对焦,自动曝光,自动白平衡),超分,HDR,风格迁移等主题。
超级干货 | 用万字文章总结25种正则化方法(值得收藏)
一些图像处理任务,如图像分类和目标检测,已经通过使用卷积神经网络(CNN)性能得到了显著的改进。训练中的一个关键因素是网络的正则化,它可以防止模型在训练的过程中出现过拟合的现象。
工业相机参数之帧率相关知识详解
工业相机已经被广泛应用于工业生产线在线检测、智能交通,机器视觉,科研,军事科学,航天航空等众多领域。工业相机的主要参数包括:分辨率、帧率、像素、像元尺寸、光谱响应特性等。下面我们来对工业相机帧率的相关知识进行讲解。
无人驾驶时代指日可待?2035年将取代传统汽车
无人驾驶技术的“美梦”始于20世纪80年代,近年来,无人驾驶技术突飞猛进,各大整车企业、无人驾驶系统解决方案提供商(如百度阿波罗、景驰)也在不断推动无人驾驶商业化。如今,无人驾驶已经不再是遥不可及的“未来科技”。
自动驾驶前沿综述:基于深度强化学习的自动驾驶算法
这是 21 年的一篇综述文章,可以算得上是最前沿的自动驾驶技术综述。这几年随着深度表征学习的发展,强化学习领域也得到了加强。本文会对目前最先进的自动驾驶 DRL 算法进行汇总和分类。
一文了解车载摄像头创新应用
摄像头作为汽车感知的核心传感器,主要是获取图像信息为ADAS各种功能所服务。下面,智驾最前沿就带大家一起来了解下车载摄像头的一大革命性应用:电子后视镜CMS。
阅读推荐
IEEE INFOCOM2022权威论文|PPIO边缘云“EdgeMatrix”云边资源优化框架
PPIO云边资源优化框架“EdgeMatrix”可以解决资源异构、资源竞争和网络系统动态等诸多挑战,使边缘云系统在复杂网络环境下为用户服务提供强有力的SLA(服务等级协议Service Level Agreement)保证,所需求解时间降低了数十倍。
Meta 的 AI 顶尖人才都不干了?
大公司人员的流失并不是什么新鲜事,但是扎堆离职事件还是较为罕见。据外媒CNBC报道,这几个月来,Meta(前身Facebook) AI部门失去了至少四位顶尖科学家。
CVPR 2022 论文/代码分类汇总!持续更新中!
CVPR 2022 的论文官方还没有完全公布,但有作者陆续公布出来一些。为方便大家跟进论文,了解最新技术,CV君在Github建了一个仓库,对已经出来的论文(目前是340多篇)进行了按类别汇总。对于Oral或有公布代码的论文也链接了代码,方便大家查找。
深度学习深陷困境!
AI 领域充满了炒作和虚张声势。在过去的几十年间,AI一次又一次掀起热浪,虽然给出了各种承诺,但能够兑现的承诺却非常罕见。
CVPR2022 | 京东探索研究院CVPR再突破,34篇入选论文合集解读
近日,CVPR 2022官方公布了接收论文列表,本届大会大约 2067 篇论文被接收,其中京东探索研究院共34篇论文被CVPR收录,论文涵盖包括目标检测与识别、表征学习、知识蒸馏、图像生成、文本语义识别等领域。以下为京东探索研究院本次入选论文的亮点介绍。
活动推荐
【城市沙龙】LiveVideoStack Meet深圳:元宇宙与音视频
去年底,元宇宙一词入选了《柯林斯词典》2021年度热词,虽然外界对于元宇宙概念和属性的看法仍在变化,但对其未来的良好前景已基本达成共识。元宇宙又会给音视频互动带来哪些新玩法与新场景?4月23日LiveVideoStack Meet将在深圳与大家见面,共聊元宇宙与音视频发展!
活动时间:2022年4月23日 14:00-17:00
活动地点:深圳市南山区卓越前海壹号T3写字楼38层培训室
报名方式:点击「阅读原文」立即报名。
腾讯云音视频专业能力认证火热上线
腾讯云音视频与腾讯云产业互联网学堂携手打造“腾讯云音视频从业者认证”以及“腾讯云音视频开发工程师认证”两大认证能力,助力全方位的音视频行业人才培养,主为音视频行业打造知原理,擅推广、懂技术、会操作的专业人才,一起提升音视频产品和解决方案能力。