音视频技术开发周刊 76期

音视频技术开发周刊 76期_第1张图片


音视频技术开发周刊』由LiveVideoStack团队出品,专注在音视频技术领域,纵览相关技术领域的干货和新闻投稿,每周一期。点击『阅读原文』,浏览第76期内容,祝您阅读愉快。


架构


基于WebRTC、Kurento的一种低延迟架构实现

在音视频领域,低延迟交互一直是一个非常重要的需求。而直播大多基于RTMP协议,其存在1到3秒左右的延迟,基本无法胜任低延迟交互的需求;另外在游戏领域、语音聊天、教育领域,低延迟也是一个非常重要的议题。本文以直播的连麦架构的设计来简单介绍下整个架构设计的演进流程。


使用级联SFU改善媒体质量和规模

在多用户视频会议媒体服务器的部署中采用级联结构可有效降低端到端的媒体延迟,改善媒体质量。来自Jitsi团队的Boris Grozev深入描述了级联SFU问题,并展示了他们的方法以及他们遇到.LiveVideoStack对文章进行了翻译,感谢的WebRTC专家刘连响的技术审校。


深入刨析网络流媒体协议之——RTSP协议

RTSP(Real-Time Stream Protocol)协议是一个基于文本的多媒体播放控制协议,属于应用层。 是由Real Network和Netscape共同提出的如何有效地在IP网络上传输流媒体数据的应用层协议。


雷辉:让视频会议conferencing like TV

伴随视频会议技术不断成熟,其功能已不局限于早期仅仅满足异地会议的需求,打破硬件的桎梏,提供白板、多媒体播放、文档协同等更多功能,如何为视频会议赋予更强大功能、实现更好体验、满足更多办公需求成为一个新的课题。LiveVideoStack邀请到以色列视频会议专家TeeVid CEO雷辉,一同分享他在实践中遇到的技术难题与解决思路以及对未来技术趋势的展望。


Demuxed:编解码器和压缩的未来

Demuxed视频工程师年会生产了来自Akamai、YouTube、Mux和其它许多人必看的演讲内容,资深多媒体技术咨询师Jan Ozer对会议中感兴趣的部分内容进行了回顾与总结。LiveVideoStack对文章进行了翻译。


Android音频开发之OpenSL ES

OpenSL ES 全称是Open Sound Library for Embedded Systems , 即嵌入式音频加速标准。OpenSL ES 是开源免费、跨平台、针对嵌入式系统优化的硬件音频加速API。它为开发者提供了标准化、高性能、低响应时间的音频功能实现方法。


如何搭建WebRTC服务器系列之一:Janus WebRTC Server

WebRTC服务器有很多,janus/kurento/licode/mediasoup/jitsi,各有优缺。评价较好是janus。


音频/视频技术


封装bilibili播放器 , 仿抖音视频播放效果

本文中的项目使用的播放器是ijkplay, 并且进行封装和修改。主要功能包括:1.重新编辑ijkplay的so库, 使其更精简和支持https协议;2.自定义MediaDataSource, 使用okhttp重写网络框架, 网络播放更流畅3.实现视频缓存, 并且自定义LRUCache算法管理缓存文件;4.全局使用一个播放器, 实现视频在多个Activity之前无缝切换, 流畅播放;5.加入更多兼容性判断, 适配绝大数机型。


RTP解析音视频帧

RTSP中音视频是通过RTP传输的,本文记录从RTP解析出H264、AAC的过程。协议介绍可参考 https://blog.csdn.net/lostyears/article/details/51374997拿到RTP数据后,先去除12字节RTP头部,然后进行下面处理。


4K视频在WebRTC中的实时传输

人们对音视频体验的追求是不断在增长的,当1080P已经逐渐成为主流分辨率的情况下,追求更高品质的画面,将会是音视频工作者需要提前去研究的。最近对4K视频(分辨率 4096x2160 / 3840x2160)在WebRTC中的采/编/解/渲染进行了一次尝试,总的来说还不错。


一步步实现windows版ijkplayer系列文章之三——Ijkplayer播放器源码分析之音视频输出——音频篇

这篇文章的ijkplayer音频源码研究我们还是选择Android平台,它的音频解码是不支持硬解的,音频播放使用的API是OpenSL ES或AudioTrack。


编解码


iOS FFmpeg+x264 编码

本文介绍iOS下使用FFmpeg+x264进行软编码。x264是一个开源的H.264/MPEG-4 AVC视频编码函数库,我们可以直接使用x264的API进行编码,也可以将x264编译到FFmpeg中,使用FFmpeg提供的API进行编码。


使用GPAC封装MP4

在我的另一篇博客《使用mp4v2封装MP4》中,发现mp4v2只支持H264封装成MP4,这里使用gpac完成对H265的封装。


Netty 源码深度解析(八) - 解码

Netty 提供了多种组件,简化了为了支持广泛 的协议而创建自定义的编解码器的过程

例如,如果你正在构建一个基于 Netty 的邮件服务器,那 么你将会发现 Netty 对于编解码器的支持对于实现 POP3、IMAP 和 SMTP 协议来说是多么的宝贵


ijkplayer如何使用FFmpeg 4.0内核?

ijkplayer是基于FFmpeg作为内核。上层ijkplayer封装的东西,改动性没有那么大,出问题,也都是在底层FFmpeg修改。如Demux,Codec等,还有各种协议。


AI智能


Android:Camera2开发详解(下):实现人脸检测功能并实时显示人脸框

本篇文章是在上篇文章的基础之上,在预览的时使用Camera2自带的人脸检测功能实时检测人脸位置,并通过一个自定义view显示在预览画面上


MSRA视觉组可变形卷积网络升级!更高性能,更强建模能力

微软亚洲研究院视觉计算组又一个令人拍案叫绝的操作:可变形卷积网络v2版!DCNv2方法简单,结果更好,在COCO基准测试中比上个版本提升了5个点。


3D实时换脸又有新进展!中科院博士生提出改进版本,每张图推理只需0.27毫秒

此前,中科院自动化所的一篇论文《所有姿态范围内的面部替换:3D解决方案》引起广泛关注。近日,中科院的一位博士生对“3D实时换脸”论文PyTorch实现改进版,使得每张图的推理时间只需0.27毫秒,同时还增加了实时培训等功能。


MIT研究人员提出新方法,可从单张图片实现未知物体的三维外形重建

对于具有丰富的日常经验的人类来说,我们可以通过单一的图像推断出物体的三维形貌,甚至对从未见过的物体也能够通过单一视角的图像对其形状有八九不离十的感官认知,但这对计算机来说却是一个巨大的挑战。目前从单一视图重物体的三维形貌极大地受到了训练数据的影响,对于未知物体的重建依然存在着一系列问题。


图像


OpenCV 实践——人脸检测与人脸图像提取

人脸对比是现在比较常用的功能,比如出租车司机人脸与司机驾照照片对比,门禁系统中进入者的人脸与人脸库中的人脸进行对比。要实现人脸对比,首先要实现的是人脸检测,在摄像头拍摄到的一张图片中,正确的检测到人脸的位置,并且将人脸提取出来。考虑到免费开源,OpenCV 就可以很好的实现这个功能。

你可能感兴趣的:(音视频技术开发周刊)