每周一期,纵览音视频技术领域的干货。
新闻投稿:[email protected]。
什么是前贴片、中贴片和后贴片广告?它们分别在哪里使用?
插入到视频中的广告根据它们在视频中的位置(视频播放的前、中、后)可以被分类为前贴片(Pre-Roll)、中贴片(Mid-Roll)和后贴片(Post-Roll)广告。在本文中,我们将了解这些广告类型,以及一些常见的处理建议和遇到的问题。
音视频开发之旅(13) OpenGL ES 滤镜 (篇一)
本文是音视频开发之旅第13篇,主要内容有颜色和滤镜的基本知识、实践:通过ColorFilter实现颜色颜色调节、实践:图片滤镜(黑白、冷暖色),以及遇到的问题和资料、收获等。
如何针对海外不同地区进行音视频自动化测试?
不同国家和地区由于经济发展、国家政策等原因,网络环境有很大不同,如果要做好音视频体验,就需要分地域进行音视频指标测试。本文将介绍在当前新冠疫情下,声网是如何对海外不同地区进行音视频自动化测试,并获得可靠的指标结果。
解析 MP4 文件读取信息
平常一看到后缀是 .mp4 的文件,脑海里一想到的就是视频,但其实不管后缀如何,它也还是一个二进制文件,可以按照二进制的方式进行读取和写入。
AI助力社会安全,最新视频异常行为检测方法框架
今天我们来说说视频实时行为异常检测的一些事,研究者解决了异常检测的问题,即检测视频序列中的异常事件。
如何正确的评测视频画质
本文从影响画质的因素是什么、为什么要不断提升视频画质等问题开始,进而介绍了画质评测的重要性、影响视频画质评测置信度的因素,最后介绍了自研的画质评测系统灵镜及其业务落地情况。
FFmpeg命令分析-vn
本系列主要分析各种 FFmpeg 命令 在代码里是如何实现的。以 FFmpeg4.2 源码为准。
https://juejin.cn/post/7086183745757118500
关于端到端语音翻译的思考和尝试
随着互联网的发展,人们日常能获取到的信息也不再局限于文本,音视频形式如今同样成为信息传递的主要手段。因此,如何将语音信息翻译成不同语言的文本也是一个要攻克的难题。
智能手机的Audio Zoom音频变焦功能简介
我们的大脑能在注意力集中于某种确切的听觉元素时,同时过滤掉其他所有的声音,这种现象称为「鸡尾酒会效应」。而如此实用的能力终究被智能手机行业所仿效,运用在我们触手可及的手机上,正式称为「音频变焦技术」。
智能蓝牙音频 SoC 芯片是 TWS 耳机的核心
TWS 耳机的核心是智能蓝牙音频 SoC 芯片,其承担了无线连接、音频处理和其他辅助功能。TWS耳机对智能蓝牙音频 SoC 芯片的芯片算力、工艺制程、集成度和功耗提出了更高要求。
视频编解码技术概览
本文视频将详细介绍视频编解码技术的背景和基本原理,主要包含以下内容:视频相关的基本概念、视频压缩的常用方法、视频编解码器的通用架构等。
Android AVDemo(8):视频编码,H.264 和 H.265 都支持丨音视频工程示例
在音视频工程示例这个栏目,我们将通过拆解采集 → 编码 → 封装 → 解封装 → 解码 → 渲染流程并实现 Demo 来向大家介绍如何在 iOS/Android 平台上手音视频开发。这里是 Android 第八篇:Android 视频编码 Demo。
基于误差曲面的快速FME搜索
本文将介绍基于误差曲面的快速分像素运动估计 (FME) 搜索算法,是一种常见的视频编码帧间快速搜索策略。
视频编解码器的许可情况
本次分享的主讲人为来自 Gridmetrics 的 Judson Cary,他向我们分享了目前不同视频编解码器的专利池和许可情况,分别介绍了 VVC、AVS3、AV1 以及 EVC 和 LCEVC 专利池的基本情况。
H.265编码原理入门
由于 H.264 出色的数据压缩比率和视频质量,成为当前市场上最为流行的编解码标准。而 H.265 是在 H.264 的基础上,保证相同视频质量的同时,视频流的码率还可以减少50%。随着H.265编码格式越来越流行,本文将主要介绍 H.265 的编码原理。
历时五年,HTTP/3终于标准化了!
上周,IETF HTTP/3和QUIC工作组成员Robin Marx在推特上宣布:经过五年的努力,HTTP/3终于被标准化为RFC 9114。Robin近日接受了我们的采访邀请,这是一次与HTTP/3标准制定参与者对话的宝贵机会,欢迎大家向Robin Marx提问。
WebRTC的工作原理
如果你了解WebRTC内部的工作原理,你就会知道那里发生了很多事。我将从不同角度向大家解释WebRTC的工作原理。最后,它们将向你呈现出WebRTC的完整面貌。
Meet vs. Duo —— 谷歌 WebRTC 的 两面
谷歌最近宣布打算将 Google Duo 和 Google Meet 合并到一个应用程序中。我们想知道这对WebRTC 意味着什么,因此,我们对这两个应用程序进行背靠背比较,虽然它们有一些共同点,但正如我们将看到的,这两个应用程序的 WebRTC 用法有着惊人的不同。
https://webrtchacks.com/meet-vs-duo-2-faces-of-googles-webrtc/
从linux内核源码着手分析BBR
首先看看初始化窗口size初始化的时候是10个mss,要不然就是通过min rtt和探测到的bw计算出来的。bw 为带宽横截面积,gain为增益系数。探测RTT上面代码是探测数据回调,如果探测到的最新RTT小于之前记录的,就更新一下,并且更新下min rtt得到的时间戳。
https://blog.csdn.net/fantasy_ARM9/article/details/124875187
Docker: SRS支持x86/armv7/aarch64镜像
最近我发现有个趋势哈,就是ARM server越来越多,但是ARM好像不像x64平台那么好识别,总是有各种各样的arm识别不了。如果SRS能出ARM的docker镜像,那会比较容易跑起来。
OpenCalib: 自动驾驶多传感器的一个开源标定工具箱
本文介绍该toolbox的各种特点和标定方法。估计这是第一个开源的自动驾驶标定代码库,其中包含相关的全套标定方法。
我手撸了一个乞丐版深度学习框架,已开源!
在这篇文章里笔者将设计和实现一个、轻量级的(约 200 行)、易于扩展的深度学习框架 tinynn(基于 Python 和 Numpy 实现),希望对大家了解深度学习的基本组件、框架的设计和实现有一定的帮助。
人、车、OCR等9大超轻量图像识别模型全开源
今天小编要给大家推荐的是一个完全开源免费的、覆盖人、车、OCR等9大经典识别场景、在CPU上可3毫秒实现急速识别、一行代码就可实现迭代训练的项目!
23个机器学习最佳入门项目(附源代码)
我们都知道,教科书上所学与实际操作还是有出入的,那关于机器学习有什么好的项目可以实操吗?本文为你介绍23种机器学习项目创意,以获取有关该增长技术的真实经验。
【深度学习】熬了一晚上,我从零实现了Transformer模型,把代码讲给你听
自从彻底搞懂Self_Attention机制之后,笔者对Transformer模型的理解直接从地下一层上升到大气层,任督二脉呼之欲出。夜夜入睡之前,那句柔情百转的"Attention is all you need"时常在耳畔环绕,情到深处不禁拍床叫好。于是在肾上腺素的驱使下,笔者熬了一个晚上,终于实现了Transformer模型。
这10个Python机器学习库,你用过哪些?
对于机器学习,Python可以说是最为锋利的武器,以至于一提到机器学习,人们自然而然地就想到了 Python,今天小编就整理了10个Python机器学习库,看看你用过哪些?
超强图解Pandas
Pandas是数据挖掘常见的工具,掌握使用过程中的函数是非常重要的。本文将借助可视化的过程,讲解Pandas的各种操作。
机器人技术中的人工智能:问题和解决方案
基于其硬件和软件能力,机器人领域面临着许多问题。大多数挑战围绕着人工智能 (AI)、感知、电源等促进技术。从制造程序到人机协作,有几个因素正在减缓机器人行业的发展步伐。
光速图像识别了解一下:低于1纳秒的那种 | Nature
美国研究者开发的一个光子神经网络 (photonic deep neural network,PDNN),让图像识别仅需1纳秒。这项研究成果的相关论文在6月1日登上了Nature杂志。
图像信号处理芯片设计原理----11 RGB转YUV及YUV格式
本系列主要介绍图像信号处理器中各核心算法模块的设计以及相关的前沿研究,以典型的相机成像系统为基础,涉及的内容包括各类缺陷校正,去马赛克,去噪,3A算法,超分,HDR,风格迁移等主题。本文主要介绍RGB色彩空间和YUV色域之间的转换关系以及目前常用的YUV存储格式。
图像错误白平衡的后期处理
本文将介绍Mahmoud Afifi在2019-2020年期间对图像错误白平衡问题的研究,这里的图像是指已经完成冲印 (photo-finishing) 的彩色图像。
用Python制作可视化GUI界面,一键实现将头像转成动漫风!
最近在Github上面有看到将头像转化成动漫风的项目,但是对于不少没有技术背景的同学来说可能就不知道该怎么使用了,小编今天制作了一个UI界面,大家可以通过一键点击就实现头像照片转化成动漫风格的功能。
官方披露全美自动驾驶事故报告,特斯拉占70%
6 月 16 日,美国联邦政府发布了两份新报告,首次披露了涉及自动驾驶汽车 (AV) 和配备先进驾驶辅助系统 (ADAS) 的汽车碰撞和死亡事故的统计情况。其中,特斯拉涉及驾驶辅助技术的事故最多,占据统计结果中的 70%,而 Waymo 披露的涉及其自动驾驶汽车的事故最多。
在单目3D目标检测和跟踪中目标深度估计很重要
每个目标的深度估计精度是影响单目3D感知方法性能的主要因素,基于这一观察结果,提出一种多层融合方法,该方法将目标不同的表征(RGB和伪激光雷达)和时域多帧信息(tracklet)相结合,以增强每个目标的深度估计。
谷歌WayMo提出R4D: 采用参考目标做远程距离估计
估计目标的距离是自动驾驶的一项安全关键任务。现有的方法和数据集侧重于短程目标,而忽视同样重要的长程目标。本文介绍远程距离估计的新方法,采用两个数据集验证。然后,提出R4D,通过场景中已知距离的参考目标来准确估计远程目标距离的框架。
一文解析无人驾驶汽车感知系统的架构与关键技术
Perception(感知)系统是以多种传感器的数据与高精度地图的信息作为输入,经过一系列的计算及处理,对自动驾驶车的周围环境精确感知的系统。
一文解析“深度学习方法”与自动驾驶传感器多数据融合
这里主要介绍一下激光雷达和摄像头的数据融合,实际是激光雷达点云投影在摄像头图像平面形成的深度和图像估计的深度进行结合,理论上可以将图像估计的深度反投到3-D空间形成点云和激光雷达的点云融合。
关于AR眼镜你了解多少?
说起AR眼镜,相信大家并不陌生,然而可能大家对AR眼镜的构造以及背后的技术原理还并不了解。今天小编就从显示原理、硬件模块、核心功能、应用场景等方面来介绍一下AR眼镜的相关知识。
元宇宙大厂酝酿了3年的AR眼镜不卖了?Meta:第一代仅面向开发者
Meta最近宣布,初版AR眼镜Orion不对公众进行销售,仅仅面向开发者,背后原因可能是出于整个公司产品战略层面考虑。
Lumus二维波导AR眼镜原型Maximus深度体验
Lumus的最新波导被称为Maximus,现在由于2D图像扩展而变得更加紧凑小巧。凭借令人印象深刻的图像质量和更紧凑的光学引擎,该公司准备为真正的眼镜大小的AR头显提供领先的显示解决方案。
阅读推荐
Keras之父:人脑耗能低于灯泡,为何「吊打」所有AI?
近日,谷歌著名研究员、Keras框架创始人Francois Chollet在推特上发表了关于人脑运行效率不高的看法,引发网友和研究人员的热烈讨论。他表示,人脑的运行功率大概只有15w,还比不上普通的灯泡。虽然有900亿个神经元,但同时激活的不超过10亿个,不到2%。
AI 界著名“嘴炮”发声:鬼扯,LaMDA 不可能觉醒!
因谷歌工程师 Blake Lemoine 坚称谷歌语言模型 LaMDA 已觉醒,这几天 LaMDA 已频繁登上国内外科技网站首页,其相关热门话题无一不是围绕“LaMDA 是否真的觉醒?”、“LaMDA 已具备人格?”等争议,一时之间吸引了无数人对于 AI 领域的关注。
中国医学影像人工智能20年回顾和展望
为了记录和总结国内同行的科研成果,中国医学影像人工智能20年回顾和展望(发表于《中国图象图形学报》2022年第3期“医学影像及临床应用”专刊)一文对中国医学影像人工智能过去20年的发展历程进行回顾和展望。
被PyTorch打爆!谷歌抛弃TensorFlow,押宝JAX
谷歌Meta之争看来还没完!TensorFlow干不过还有JAX,二番战能否战胜PyTorch?
AI 助力观众更好发现媒体内容
本文介绍了关于媒体内容“蒸馏”的技术。为了让视频观众能够快速地寻找到感兴趣的视频内容,完善视频观看过程中快速定位到感兴趣的章节的体验,他们设计了一个媒体“蒸馏”平台,可以从视频内容分析出合适的封面、概括出准确的关键词、对长视频进行准确的片段划分。
世界主要国家自动驾驶立法盘点和比较
在本文中,我们将对中美德日四国在企业可生产、车辆可上路、大众可接受这三个方面的立法内容进行分析和对比,从中了解中美德日四国在自动驾驶立法方面的立法态度和实施细则上的异同点,为从业者的设计开发和产品管理工作提供对照和参考。
飞蛾为下一代吸声材料研发提供灵感
研究人员最近发现,飞蛾的翅膀可以帮助它们躲避蝙蝠的回声定位。科研人员一直在研究:当不在自由空间移动时,飞蛾的翅膀结构是否可以提供更好的吸声板。
活动推荐
LiveVideoStackCon 2022 上海站
“音视频+无限可能”是一扇 LiveVideoStackCon 面向新兴领域开启的大门,在移动互联网红利消失、内卷的局面下,智能车、制造、金融、医疗、出海等新兴领域还在迫切追寻新技术带来的增值。在“音视频+无限可能”,提前看到新机会、新案例、新实践。
8月5日-6日,LiveVideoStackCon 2022 上海站,和您一同开启通向未来的大门,点击「阅读原文」立即报名。