音视频技术开发周刊 | 266

每周一期,纵览音视频技术领域的干货。

新闻投稿:[email protected]


音视频技术开发周刊 | 266_第1张图片

9折最后一天,不要错过!LiveVideoStackCon 2022 北京站

LiveVideoStackCon 2022 音视频技术大会 北京站即将在11月4日至5日召开,本次大会将延续「音视频+无限可能」的主题,除了保证传统专题《视频编解码的新突破》、《媒体服务质量保障与QoE》、《声声入耳:音频新体验》等内容质量过关以外,我们加强探索音视频技术对不同行业、场景、业务的赋能能力。从学术界到工业界,我们邀请了众多新的技术大咖来分享在他们心中音视频技术能力的价值体现,以及在实际应用、落地时的情况及解决方案。点击「阅读原文」立即9折购票!

⏰ 活动时间:2022年11月4-5日

活动地点:北京丽亭华苑酒店

音视频技术开发周刊 | 266_第2张图片

B站画质评测实践-生产端
音视频质量评估偏主观,复杂功能场景的组合爆炸,使得评测效能提升与传统的人工评测形成了巨大矛盾,因此需要与时俱进,搭建手段丰富且高效的质量评估体系。

一看就懂的 OpenGL 基础概念丨音视频基础
这篇文章是音视频基础专栏系列关于渲染的第一篇文章,我们来聊一聊 OpenGL,希望能做到让没接触过 OpenGL 的同学能比较容易的建立起一个初步的印象。

Android FFmpeg系列09--抽帧与快速抽帧
视频抽帧的实现方式是seek+解码的结合,在剪辑软件和播放器中都存在不少应用场景,比如剪辑软件导入视频后展示的封面图、视频时间轴等。本篇文章基于之前的Demo工程实现一个抽帧的utils并仿照系统相册展示一个视频缩略图轨道。

音视频开发之旅(31) -FFmpeg常用命令
FFMPEG是一个跨平台的音视频音视频处理的开源套件,本篇,我们先来熟悉ffmpeg的常用命令,先从直观上了解FFmpeg能做什么。

VToonify:可控的高分辨率肖像视频风格变换
该任务是基于参考图像的样式对输入图像进行风格化处理,使用 DualStyleGAN 作为 backbone,它给 StyleGAN 添加了外部样式路径,并以内在样式编码、外部样式编码、风格化程度作为条件。

谷歌AI生成视频两连发:720p高清+长镜头,网友:对短视频行业冲击太大
内容生成AI进入视频时代!Meta发布「用嘴做视频」仅一周,谷歌CEO劈柴哥接连派出两名选手上场竞争。第一位Imagen Video与Meta的Make-A-Video相比突出一个高清,能生成1280*768分辨率、每秒24帧的视频片段。另一位选手Phenaki,则能根据200个词左右的提示语生成2分钟以上的长镜头,讲述一个完整的故事。

音视频技术开发周刊 | 266_第3张图片

论文推介:ParaTTS — 面向段落语音合成的跨句语言和韵律信息学习
语音合成 (Text-to-speech, TTS) ,又称文语转换技术,是将文本转换为自然语音的一类技术。在深度学习的推动下句级语音合成的自然度和音质得到了极大的提升。

火山引擎 RTC 自研音频编码器 NICO 实践之路
在通话过程中,我们时常会遇到因为网络波动而导致的音频卡顿、掉字或者杂音等问题,影响工作效率。要解决此类音频弱网问题,提升音频编码器的编码效率和抗丢包能力、提高带宽利用效率,是解决音频弱网问题更为高效的一种方法。

声学技术为无线水下摄像机供能,能源效率提高十万倍
麻省理工学院的研究人员开发了一种无需电池的无线水下相机,由声音提供动力。它将声波中的机械能转化为电能,为成像和通信设备提供动力。在捕获和编码图像数据后,相机还使用声波将数据传输到接收器,接收器可以重建图像。

发声设备简介
本期将从SPK单体、耳机设备、音箱设备等几个方面为大家带来一些关于发声设备的介绍,下一期还有收声设备相关介绍,欢迎关注了解。

音视频技术开发周刊 | 266_第4张图片

重磅:SRS 5.0正式支持GB28181
支持GB28181是正确的事情,可能也是困难的事情,因为困难所以有趣。在非常多朋友的贡献和帮助的基础上,SRS 5.0快速合并了GB的部分功能。

关键点检测开源数据集汇总
本文汇总了关键点检测相关的开源数据集,均附有下载链接。

最新发布!SMOKE 单目3D目标检测,代码开源!
SMOKE是一个one-stage的单目视觉障碍物检测模型,它认为2D检测对于单目3D检测任务来说是冗余的,且会引入噪声影响3D检测性能,所以直接用关键点预测和3D框回归的方式。

这个深度学习库能执行10多种图像文本任务,有20多个数据集,还统一接口|已开源
支持10余种图像文本任务,囊括20多种数据集,还提供SOTA模型性能和可复现预训练及微调实验配置。没错,这是一个视觉语言深度学习框架就可以拥有的。

音视频技术开发周刊 | 266_第5张图片


使用 Google Colab 训练的图像分类模型
图像分类是按照预先确定的原则对图像内的像素组进行分类和识别的过程。在创建分类规则时使用一种或多种光谱或文本质量是可行的。两种流行的分类技术是“有监督的”和“无监督的”。

Android ImageView圆角几种方案实现!
在我们实际开发应用的过程中,我想大家或多或少都遇到过需要加载圆角图片的场景,还有一些图片是四周圆角不对称,异性圆角等等情况。Android ImageView到底怎么设置圆角图片?背景圆角?控件圆角?图片圆角?占位图圆角?

如何自学 GLSL 编程?
今天的重点不在于 WebGL 的各项API介绍,我们的重点会在于 WebGL 中使用的着色器语言 GLSL —— OpenGL Shading Language。我们在片元着色器中编写代码来完成这幅画。

【综述】16种图像二值化方法汇总介绍
本文介绍超过十种以上的基于全局阈值的图像二值化方法,其中最大值为255表示白色, 0 表示黑色,H表示图像直方图。imageJ重要开源分支Fiji中已经实现了全局自动阈值16种方法。

Android 最详细的图片压缩攻略(建议收藏)
最近在研究图片压缩原理,看了大量资料,从上层尺寸压缩、质量压缩原理到下层的哈夫曼压缩,走成华大道,然后去二仙桥,全看了个遍,今天就来总结总结,做个技术分享,下面的内容可能会颠覆你对图片压缩的认知。


音视频技术开发周刊 | 266_第6张图片

轻松掌握WebAssembly视频播放器——LiveVideoStack与李超联合打造

  1. 紧抓多媒体生态趋势,将浏览器、WebAssembly和Rust等热点结合

  2. 熟知播放器工作原理,为实现商业化H.264/H.265播放器打下坚实基础

  3. 课程包含图文、代码、视频,降低学习门槛

  4. 李超精准讲解,及时详细解答

识别上图二维码点击上图立即订阅


音视频技术开发周刊 | 266_第7张图片

国庆堵车 | AI“高速”车辆检测轻而易举监测大家安全
国庆节不管是离开小城镇还是进入大城市,每个高速路口都是堵车,现在人工智能愈来愈发达,不再用通过交警得知高速公路上的案发事件,现在都是摄像机覆盖,AI可以通过镜头&算法检测到行驶的车辆,如果有交通事故都是第一时间传达交警来处理。

超详细!一文讲透机器视觉常用的 3 种“目标识别”方法
视觉常用的目标识别方法有三种:Blob分析法(BlobAnalysis)、模板匹配法、深度学习法。下面就三种常用的目标识别方法进行对比。

关于AI视觉自动化,这里有你需要了解的所有知识...
今天讲一下机器视觉和深度学习如何改变制造业中自动检查的领域。本文旨在简要介绍自动视觉评估以及深度学习方法如何节省大量时间和精力。

【CV知识点汇总与解析】|损失函数篇
系列文章包含了深度学习、机器学习、计算机视觉、特征工程等。相信能够帮助初学者快速入门深度学习,帮助求职者全面了解算法知识点。

音视频技术开发周刊 | 266_第8张图片

深度学习领域最常用的10个激活函数,一文详解数学原理及优缺点
激活函数是神经网络模型重要的组成部分,本文作者Sukanya Bag从激活函数的数学原理出发,详解了十种激活函数的优缺点。

机器学习资源列表(AwesomeList)汇总
推荐一个超赞的github库,作者用一个多月时间整理了一份几乎涉及机器学习/深度学习一切主题 (学习范式/任务/应用/模型/道德/交叉学科/数据集/框架/教程) 的分类资源列表汇总。

训练好的深度学习模型原来这样部署的!(干货满满,收藏慢慢看)
当我们辛苦收集数据、数据清洗、搭建环境、训练模型、模型评估测试后,终于可以应用到具体场景,但是,突然发现不知道怎么调用自己的模型,更不清楚怎么去部署模型!今天就和大家分享部署模型需要考虑哪些问题,考虑哪些步骤及现在常用的部署方法!

十分钟掌握Pytorch搭建神经网络的流程
最近发现身边的一些初学者朋友捧着各种pytorch指南一边看一边敲代码,到最后反而变成了打字员。如果你刚好是这种情况,这篇文章应该能给你一些帮助。

深度学习图像分类任务中那些不得不看的11个tricks总结
计算机视觉主要问题有图像分类、目标检测和图像分割等。针对图像分类任务,提升准确率的方法路线有两条,一个是模型的修改,另一个是各种数据处理和训练的tricks。本文在精读论文的基础上,总结了图像分类任务的各种tricks。

3D图解神经网络
卷积、池化、Softmax……究竟长啥样,是怎样相互连接在一起的?对着代码凭空想象,多少让人有点头皮微凉。于是,有人干脆用Unity给它完整3D可视化了出来。

音视频技术开发周刊 | 266_第9张图片

最全自动驾驶数据集分享系列一|目标检测数据集(1/3)
目前关于自动驾驶数据集你想知道的,应该都在这里了,这是「整数智能」自动驾驶数据集八大系列分享之系列一,本文是<系列一目标检测数据集>的第一篇,一共分为三篇来介绍。

自动驾驶中的多种卡尔曼滤波算法及推导详解,值得一读!
鉴于卡尔曼滤波算在多传感器融合系统中使用的普遍性,本文将单独就卡尔曼滤波算法及自动驾驶中常用的改进卡尔曼滤波算法进行详细介绍。

自动驾驶的子模块:感知
在自动驾驶赛道中,感知的目的是为了模仿人眼采集相关信息,为后续做决策提供必要的信息。根据所做决策的任务不同,感知可以包括很多子任务:如车道线检测、3D目标检测、障碍物检测、红绿灯检测等等。

一文解析基于环视相机的端到端自动驾驶框架
考虑到成本问题以及视觉方面的优势(交通灯、远距离检测等),基于纯视觉的框架也具有较大的研究潜力。如果每个模块都设计精巧,那么每个任务在感知、预测和规划方面的性能应该提高到什么程度,如何提高视觉的时空特征性能实现端到端训练?

自动驾驶|多激光雷达外参⾃动化标定算法及代码实例
采⽤了多激光雷达以弥补lidar+camera的不⾜,使⽤多激光雷达进⾏环境感知的前提是对各雷达的外参进⾏精准的标定,本⽂介绍⼀种基于NDT算法的⾃动多激光雷达标定技术,并且给出了代码实例以及测试数据(rosbag)供读者实践。

从AVP的实际表现看“L3”自动驾驶商业化的可能性
在“L3级别”自动驾驶功能大规模推广之前,AVP的功能场景可以作为一个较为安全的场景来验证迭代各个公司的自动驾驶算法。

音视频技术开发周刊 | 266_第10张图片

基于 VR 的空间数据战术资源规划
本节介绍了我们与军事地理测量专家的磋商以及我们在实地研究中的观察,以确定基于 VR 的规划的要求。

元宇宙场景技术实践|虚拟直播间搭建教程
虚拟直播场景为元宇宙社交娱乐模式下的全新直播方式,由虚拟形象替代真人出镜,可以给用户打造不一样的直播体验。

一块GPU,每秒20个模型!英伟达新玩具用GET3D造元宇宙
近日,英伟达发布了最新的GET3D模型,能快速生成虚拟世界的对象,而且只需要一块GPU每秒就能产出大约20个模型。

华硕官宣进军元宇宙,跨界建立NFT平台
近日华硕官方正式宣布进军元宇宙领域,成立华硕元宇宙股份有限公司,整合集团云端运算、人工智能、区块链等各方面的资源,推出跨界应用 NFT 平台。一家硬件能力突出的科技企业进军虚拟世界元宇宙,的确引发一波业内关注。

最新研究:手术中佩戴VR头显可减少局部麻醉剂用量
波士顿 Beth Israel Deaconess 医疗中心研究人员领导了一项小型研究,观察了34名接受无需全身麻醉的手部手术的患者。通过该研究发现:通过VR虚拟现实技术,有望减少手术中局部麻醉剂用量。


阅读推荐

用A4纸当屏幕「播放」宫崎骏动画,随意抖动都毫无破绽
用神经网络实现在纸上放视频?要弄清楚怎么在纸上放连续动画,不妨先从简单点儿的一张图说起:如何将抖动纸张上的一幅画换成另一幅画,并且让人基本看不出P图痕迹?

2022年AI 技术成熟度曲线发布!
近日,Gartner发布了最新的《2022年人工智能技术成熟度曲线》报告,报告称尽早采用复合型人工智能(AI)、决策智能等AI技术将给企业机构带来明显的竞争优势,缓解AI模型脆弱性引发的问题,有助于捕捉业务背景信息,推动价值实现。

手机摄影三年超越单反?高通副总裁预测:想进步还得靠AI算法
手机摄影近几年的发展神速,未来该走向何方?高通副总裁给出了他的预测:人工智能算法和专用芯片。

从NVIDIA自动驾驶芯片Thor,看大芯片的发展趋势
大芯片的发展趋势已经越来越明显的从GPU、DSA的分离趋势走向DPU、超级终端的再融合,未来会进一步融合成超异构计算宏系统芯片(Macro-SOC)。


活动推荐

音视频技术开发周刊 | 266_第11张图片

证书+实践|LiveVideoStackCon 2022 北京站志愿者火热招募中

LiveVideoStackCon 音视频技术大会是多媒体技术领域的盛会,分享技术创新与最佳实践,至今已在北京、上海等多地成功举办十届大会。即将在11月4日至5日召开的LiveVideoStackCon 2022 音视频技术大会 北京站正在火热招募志愿者,点此「快来报名」吧。

⏰ 活动时间:2022年11月4-5日
活动地点:北京丽亭华苑酒店

你可能感兴趣的:(算法,神经网络,大数据,编程语言,计算机视觉)