音视频技术开发周刊 | 254

每周一期,纵览音视频技术领域的干货。

新闻投稿:[email protected]


音视频技术开发周刊 | 254_第1张图片


2022四大视频技术趋势分析
视频时代已经到来,并且在未来很长时间都会存在。根据我们今年最新的视频开发者报告,我们看到对于后端技术改进的重新关注,让我们一起深入了解Bitmovin的2022四大视频技术趋势。

视频CMS是什么?你为什么需要它?
视频内容管理系统,即视频CMS,是用于管理视频资产的应用平台,与任何优秀的内容管理工具一样,视频CMS充当了数据库的角色,简化了数字资产存储、查找和传播的过程。

跨平台播放器开发 (四) 开发一个播放器需要用到哪些 FFmpeg 知识
咱们前面三篇文章主要介绍了如何在各个主流平台下配置开发环境,那么从该篇开始就真正进入编码了。由于该系列定义为「从 0 到 1 「写一个跨平台播放器,所以我打算」从浅到深」,从「基础到进阶」的路线来进行。

音视频开发之旅(17) JNI与NDK的学习和使用
通过本文对JNI和NDK的学习实践,我们将了解JNI和NDK是什么,以及两者之间的关系;Android如何配置进行NDK的开发、JNI基本知识介绍、实现Android中Java和Native的相互调用。

如何让VSR又稳又快——高效视频超分中的残差稀疏连接学习
在资源受限的设备上运行VSR需要更轻和更快的方法。本文提出一个结构化剪枝方案——残差稀疏连接学习(RSCL)以减少卷积核的冗余从而获得紧致的VSR模型。

Android neon 加速优化
neon 是一种SIMD(单指令多数据)指令集,其效率相当于汇编,用于arm cpu平台的优化,在音视频、图形图像处理领域性能提升较大。

音视频技术开发周刊 | 254_第2张图片

对话Robin Marx:HTTP/3和QUIC将带来重大机遇和挑战
历时五年,HTTP/3终于被标准化为RFC 9114,为了更好地理解这一新发布的标准,LiveVideoStack邀请了Robin Marx加入我们的访谈,请他来跟大家详细聊聊HTTP/3。

2021.07.13 我们是这样崩的
2021年7月13日22:52,SRE收到大量服务和域名的接入层不可用报警,客服侧开始收到大量用户反馈B站无法使用,同时内部同学也反馈B站无法打开,甚至APP首页也无法打开。

音视频技术开发周刊 | 254_第3张图片

360度视频中的空间音频:它会影响视觉注意力吗?
该研究旨在了解空间音频如何影响 360° 视频中的视觉注意力,通过捕获隐式、显式和客观指标来评估空间音频对用户体验质量 (QoE) 的影响。

AI+音频创业公司汇总
偶然在GitHub上看到有人总结了一下人工智能和音频的startup合集,觉得很有意思,放在这里供大家分享。

声学发展史之——智能声学
声学作为重要的信息交互渠道,无论是语音交互/识别,还是各种提升听音体验的音频技术,都在智能家庭中起到了越来越重要的角色。那今天咱就唠唠,智能声学的发展和涉及到的声学技术。

论文推介:语音指令识别中的最小序列混淆错误准则
本文受语音识别中区分性训练(discriminative training)的启发,结合语音指令识别的特点,提出了一种新的最小化序列混淆错误(MSCE)的训练准则,旨在解决指令词的混淆识别问题。

网络热门视频中的频散现象
如果在南极冰川上钻一个很深的圆孔,然后往这个冰窟窿里丢东西,会发生什么事情?

音视频技术开发周刊 | 254_第4张图片

码率估计
本文介绍几种快速的码率估计的方法,这些方法减少了码率估计过程中的依赖,而且还能在视频编码质量损失不大的情况下,大大提升硬件的性能。

Android AVDemo(12):视频解码,MP4 → H.264/H.265 → YUV 的源码丨音视频工程示例
在音视频工程示例这个栏目,我们将通过拆解采集 → 编码 → 封装 → 解封装 → 解码 → 渲染流程并实现 Demo 来向大家介绍如何在 iOS/Android 平台上手音视频开发。这里是 Android 第十二篇:Android 视频解码 Demo。

音视频问题汇总--VLC硬解
最近有技术支持反馈客户在使用监控过程中发现监控画面卡顿, 通过客户提供的抓包和日志文件分析,发现监控的是高分辨率的 H.265 摄像头。但目前室内机监控功能还不支持 H.265 硬解, 简单分析了下室内机 VLC 硬解的可行性。

音视频学习--X264码率控制--前瞻
本文主要讲解Lookahead的功能,为了和之前的文章标题保持一致,暂时翻译为“前瞻”,虽然表达不准确,但是内容绝对靠谱。

音视频技术开发周刊 | 254_第5张图片


图像信号处理芯片设计原理——15 风格迁移
本系列主要介绍图像信号处理器中各核心算法模块的设计以及相关的前沿研究,以典型的相机成像系统为基础,涉及的内容包括各类缺陷校正,去马赛克,去噪,3A算法,超分,HDR,风格迁移等主题。本文将介绍一种生活中常见的计算机视觉话题,风格迁移。

扩散+超分辨率模型强强联合,谷歌图像生成器Imagen背后的技术
本文详细解读了 Imagen 的工作原理,分析并理解其高级组件以及它们之间的关联。

不同色彩空间紫边检测
本文介绍去紫边算法中,不同色彩空间中紫边检测算法。主要介绍RGB域,CIE域,以及YUV域的紫边检测。

Android 图形架构之一 ——概述
本系列的文章,可以让你明白,一个View最终是如何显示到屏幕上的,从应用层到硬件抽象层。对分析app的卡顿,掉帧等 有很大帮助。

Android 如何将一帧图像渲染到屏幕?
本文将介绍 Android 的渲染机制。了解 Android 的渲染机制不论是对日常的开发,还是渲染问题排查都会有帮助。本文希望能带你了解 Android 是如何绘制并显示一帧图像的,同时会涉及 Perfetto UI 的使用,以及带来一些延伸的思考问题,感兴趣的可以在阅读的同时同步使用 Perfetto UI 进行尝试。

音视频技术开发周刊 | 254_第6张图片

FFmpeg命令分析-tee输出多路流
本文主要讲解 tee 方式 输出多路流 在 ffmpeg.c 里面的逻辑实现,本文 以 FFmpeg4.4 源码为准。

https://juejin.cn/post/7087748267613618207


YOLOv7速度精度超越其他变体,大神AB发推,网友:还得是你!|开源
前脚美团刚发布YOLOv6, YOLO官方团队又放出新版本。在论文中,团队详细对比了YOLOv7和其他变体的性能对比,并介绍v7版本的新变化。话不多说,YOLOv7有多强一起来看实验结果。

开源!ECCV2022|多帧插值,清晰又丝滑!KAIST工作
DeMFI-Net联合执行去模糊和MFI,其中其基线版本使用faci - fb模块执行基于特征流的扭曲,以获得一个锐插值帧以及去模糊的两个中心输入帧。

精度提升方法:自适应Tokens的高效视觉Transformer框架(已开源)
今天介绍的,是研究者新提出了A-ViT,一种针对不同复杂度的图像自适应调整vision transformers (ViT) 的推理成本的方法。A-ViT通过在推理进行时自动减少在网络中处理的视觉转换器中的tokens数量来实现这一点。

音视频技术开发周刊 | 254_第7张图片

吴恩达:机器学习的六个核心算法
最近,吴恩达在其创办的人工智能周讯《The Batch》上更新了一篇博文,总结了机器学习领域多个基础算法的历史溯源。

基于卷积神经网络的图像分类
现在是学习卷积神经网络及其在图像分类中的应用了。卷积运算是使用具有恒定大小的“窗口”移动图像,并将图像像素与卷积窗口相乘以获得输出图像的过程。

TensorRT傻瓜式部署流程详解
模型部署作为人工智能的落地的“最后一步”,也是算法能够转换为生产力的重要环节。本文作者分享了TensorRT 的部署流程,希望能对各位读者有所帮助。

马毅沈向洋曹颖最新AI综述火了!耗时3月打造
千呼万唤始出来,马毅教授的AI综述论文终于出炉!耗时三个多月,联合神经科学家曹颖、计算机大牛沈向洋,协作完成。一起来看看这是篇怎样的论文?

Python 机器学习最常打交道的37款工具包
大家好,为了大家能够对人工智能常用的 Python 库有一个初步的了解,以选择能够满足自己需求的库进行学习,对目前较为常见的人工智能库进行简要全面的介绍。

详解OpenCV卷积滤波之边缘处理与锚定输出
OpenCV在使用卷积进行图像处理过程种,如何处理边缘像素与锚定输出两个技术细节一直是很多人求而不得的疑惑。其实OpenCV在做卷积滤波时会对图像进行边界填充,实现对边缘像素的卷积计算的支持,不同填充方式与不同锚定点会得到图像卷积输出不同的结果。

特征提取:传统算法 vs 深度学习
特征提取是计算机视觉中的一个重要主题。不论是SLAM、SFM、三维重建等重要应用的底层都是建立在特征点跨图像可靠地提取和匹配之上。

音视频技术开发周刊 | 254_第8张图片

一文聊聊自动驾驶2D和3D视觉感知算法
我们将围绕着环境感知中关键的视觉感知算法进行介绍,我们在下文分别梳理了2D和3D视觉感知算法的脉络和方向。

SE-ProPillars | 一个具备鲁棒性的实时3D目标检测方法
这项工作旨在通过专注于使用路边激光雷达对环境的 3D 感知来应对自动驾驶的挑战。作者设计了一个 3D 目标检测模型,可以实时检测路边 LiDAR 中的交通参与者。本文的模型使用现有的 3D 检测器作为基线并提高了其准确性。

为自动驾驶汽车创造「记忆」,上交校友、康奈尔大学博士生两篇论文被CVPR 2022收录
来自康奈尔大学 Ann S. Bowers 计算机与信息科学学院和工程学院的研究人员在 CVPR 2022 上发表了两篇研究论文,在ICLR 22上发表了一篇论文,其核心思想是为自动驾驶汽车创造「记忆」,并在后续的行驶中使用这些记忆。

基于NDT的图优化SLAM的 无人车在香港不同驾驶场景下的性能分析
本文定性分析了基于NDT的图模型的SLAM性能与交通条件、城市化程度的关系。基于激光雷达的定位的评估结果作为将来减轻城市化和交通对定位算法影响的基础工作。

采用仿真技术生成数据改进自动驾驶的感知机制
本文从真实世界收集的数据与在模拟世界中生成的数据相结合来训练感知系统进行目标检测和定位任务。提出一个多层深度学习感知框架,旨在模拟人类的学习体验,在特定领域学习一系列从简单到更困难的任务。

自动驾驶系统的接管定义
目前自动驾驶系统开发中还没有成熟的接管定义,各家都是自己定义的接管。但无规矩不成方圆,下面本人以实际工作中总结的知识,抛砖引玉,浅略谈谈。

音视频技术开发周刊 | 254_第9张图片

谈谈汽车抬头显示应用火热的AR-HUD
本文通过对HUD中技术相对高阶的AR-HUD的相关技术以及产业信息做一些分享,希望能给关注行业以及行业内人士一些信息和启发。

揭秘AR眼镜主流显示技术——AR衍射光波导
今天,小编将从衍射光波导的核心功能和优化方向等方面,为大家进一步讲解为什么基于表面浮雕光栅的衍射光波导能够成为AR眼镜的主流显示技术路线。

AR+维修 | 电脑制造商戴尔推出全新AR助手,电脑维修智能化
美国大型电脑制造商戴尔科技公司最近推出了一款全新应用程序,利用AR技术维修戴尔系统。

锐评 | 无奈的商业化,Nreal将在AR眼镜中引入视频广告
近日,有媒体报道称国内厂商Nreal正在为AR眼镜开发视频广告方案,并计划在今年内发布。其形式大概是在AR界面中加入一个额外的广告窗口/UI。

无奇不有!全球58项VR吉尼斯世界纪录大盘点
在“虚拟现实”(Virtual Reality)领域,同样有不少产品、事件、人物被收录进了吉尼斯世界纪录,其中也有来自中国的项目。VR陀螺就将这些资料汇总,带您纵览VR领域迄今为止的各项纪录。


阅读推荐

人工智能的发展,是不是走错了方向?
人工智能走到现在,我们在CV、NLP等各个领域都取得一些不错的成绩,目前很多技术也落地运用到了工业中,自监督无监督等新的方向的探索也在持续。但是回头看看我们走过来的成长道路,我们的人工智能走的方向是正确的吗?我们目前的成就是否有意义?

让AI像婴儿一样思考!DeepMind「柏拉图」模型登Nature子刊
普林斯顿大学的Luis Piloto和他的同事开发了一个深度学习AI系统,这个系统可以理解一些物理学世界的常识性规律。通过这种方式,未来的计算机模型就可以更好的模仿人类思维,用一个有着和婴儿相同认知的模型来解决问题。

624名专家学者眼中2040年的元宇宙
该调查中的受采访者多为业界大咖,其中包括Meta、IBM等企业的技术骨干,作家、智库成员、创业家、经济学者、大学教师、政府职员等等。

技术的未来是什么?(深度总结)
好久没有学习充电,最近刚好看了一些大佬的文章(如文末参考文献),在此总结关于技术、事业的一些看法。


活动推荐

音视频技术开发周刊 | 254_第10张图片

LiveVideoStackCon 2022 上海站 | 腾讯云专场火热报名中,内含千元大礼!

本次腾讯云专场将为大家带来:实时音视频5G远程操控技术、腾讯云流媒体技术、编解码技术、出海实践、对等网络实时音视频通信技术,讲师们将与大家共话音视频通信领域发展趋势,合力谱写音视频通信新时代的蓝图。

除了技术干货分享,您还将在现场参与更多有趣和充实的互动环节,我们也准备了精美礼品等着你:

  • 问答有礼:您可以就技术困惑现场向专家提问,提问即可获得精美礼品。

  • 产品体验:您可以前往活动现场腾讯云展台亲身体验技术落地实践。

  • 专场抽奖:参与专场活动,更有机会抽取千元大礼

点击「阅读原文」立即报名!


音视频技术开发周刊 | 254_第11张图片

极狐江狐会第十期 | 走进十三朝古都西安,畅聊开源敏捷与安全

极狐(GitLab) 以“核心开放”为原则,面向中国市场,提供开箱即用的开放式一体化安全DevOps平台——极狐GitLab。通过业界领先的优先级管理、安全、风险和合规性功能,实现产品、开发、QA、安全和运维团队间的高效协同,加速和优化企业软件开发生命周期。

  • 时间:2022年7月24日(周日) 14:00-17:00

  • 地点:西安市雁塔区威斯汀大酒店-会议厅

→点此「立即报名

你可能感兴趣的:(算法,人工智能,大数据,编程语言,python)