音视频技术开发周刊 83期

音视频技术开发周刊 83期_第1张图片


音视频技术开发周刊』由LiveVideoStack团队出品,专注在音视频技术领域,纵览相关技术领域的干货和新闻投稿,每周一期。点击『阅读原文』,浏览第83期内容,祝您阅读愉快。


架构


基于视频流传输 — 在线教育白板技术

在线教育不同于线下教育, 内容需要经过电子白板展现给用户,如何做出优秀的在线教育白板成为研究的重点。本文来自学而思网校客户端架构负责人赵文杰在LiveVideoStackCon 2018大会上的分享,并由LiveVideoStack整理而成。


基于WebRTC的互动直播实践

互动直播已经逐渐成为直播的主要形式。映客直播资深音视频工程师叶峰峰在LiveVideoStackCon 2018大会的演讲中详细介绍了INKE自研连麦整体设计思路、如何基于WebRTC搭建互动直播SDK以及针对用户体验进行优化。本文由LiveVideoStack整理而成。


熊谢刚:AI和5G让容联·云通讯弯道超车

经过5年多的发展,容联·云通讯已经从通讯PaaS服务,演变成为融合通信运营商与互联网音视频能力的通讯云平台。未来,容联·云通讯还要在5G、AI和物联网方面突破。日前,LiveVideoStack对容联·云通讯CPO熊谢刚进行了专访,畅谈了多媒体云服务的未来。


LinkedIn:用数据提高视频性能

LinkedIn通过在视频播放过程中收集的大量数据,对多种视频指标进行实验以提高视频性能,改善用户体验。本文来自LinkedIn工程博客,LiveVideoStack对文章进行了翻译。


QUIC的那些事 | 帧类型及格式

QUIC的帧包是基于帧的。帧有1个字节的帧类型字段,类型字段后是与类型相关的帧头信息。所有的帧都被包含在单个的QUIC包中,没有帧可以跨越QUIC包的边界。


移动端IM/推送系统的协议选型:UDP还是TCP?

从PC时代的IM开始,IM开发者就在为数据传输协议的选型争论不休(比如:《为什么QQ用的是UDP协议而不是TCP协议?》这样的问题,隔一段时间就能在社区里看到)。到了移动互联网时代,鉴于移动网络的不可靠性等特点,再加上手机的省电策略、流量压缩等,为这个问题的回答增了更多的不确定因素。


音频/视频技术


安卓音视频播放-总体架构

安卓上我们经常会使用MediaPlayer这个类去播放音频和视频,这篇笔记便从MediaPlayer着手,一层层分析安卓的音视频播放框架。


Stanford CS224n 第十二讲:语音处理的端对端模型

本文是对端到端的语音处理方法的概述,主要内容包括 1.传统的语音识别系统;2. 使用端到端(end-to-end)系统的原因;3. Connectionist Temporal Classification(CTC);4. Listen Attend and Spell(LAS);5. LAS的一些改进方法...


自适应流媒体传输(五)——正确认识码率切换

在这篇文章中,我们来探讨几个问题:什么时候需要进行码率切换,码率切换的幅度应该怎么设计,以及码率切换会对观众的感知有什么影响。相信大家看完之后会对码率切换有一个更加正确的认识。


利用MediaMuxer从视频中提取视频音频文件和合并视频,音频文件

前面利用MediaExtractor提取的AAC和H264文件不经过处理没办法播放,这次利用MediaExtractor和MediaMuxer配合提取合并生成可以播放的文件,PS:AAC文件和.H264需要首先利用MediaMuxer生成MP4文件,才能进行合并。


编解码


Android音视频学习: MediaCodec 硬编解码

MediaCodec 是做硬件(GPU,充分利用GPU 的并行处理能力)编解码的。(通常结合 MediaExtractor、MediaSync、MediaMuxer、MediaCrypto、MediaDrm、Image、Surface、AudioTrack 使用)


FFmpeg视频解码,保存原始YUV数据(使用最新FFmpeg4.1)

本文基于FFmpeg4.1,FFmpeg视频解码,保存原始YUV数据,没有使用任何弃用的API。


自适应流媒体传输(四)——深入理解MPD

在这篇文章中,我们从更细节的角度,深入来看一下DASH系统中的MPD结构。


AI智能


6D目标姿态估计,李飞飞夫妇等提出DenseFusion

根据 RGB-D 图像进行 6D 目标姿态估计的一个主要技术挑战是如何充分利用两个互补数据源——颜色和深度。为此,李飞飞夫妇等研究者提出了 DenseFusion——一种可单独处理两个数据源的异质架构。


Mars 算法实践——人脸识别

Mars 是一个基于矩阵的统一分布式计算框架,在之前的文章中已经介绍了 Mars 是什么, 以及 Mars 分布式执行 ,而且 Mars 已经在 GitHub 中开源。当你看完 Mars 的介绍可能会问它能做什么,这几乎取决于你想做什么,因为 Mars 作为底层运算库,实现了 numpy 70% 的常用接口。这篇文章将会介绍如何使用 Mars 完成你想做的事情。


一文带你读懂 WaveNet:谷歌助手的声音合成器

机器合成拟人化语音(文语转换)的想法已经存在很长时间了。在深度学习出现之前,存在两种主流的建立语音合成系统的方式,即波音拼接合成和参数合成。


FaceBoxes—官方开源CPU实时高精度人脸检测器

FaceBoxes是中科院自动化所在IJCB2017上提出的面向CPU实时的高精度人脸检测算法,论文中指出其比大家所熟知的MTCNN在速度和精度上都更优秀。


图像


旷视等提出GIF2Video:首个深度学习GIF质量提升方法

本文提出了 GIF2Video,首个基于深度学习提升自然场景下 GIF 成像质量的方法,其主要任务有两个:颜色反量化和帧插值。针对第一个任务,本文给出一个组合性网络架构 CCDNet,并通过综合损失函数训练它,颜色反量化被嵌入于 CCDNet 以指导网络学习和推理。对于第二个任务,本文采用 SuperSlomo 进行变长多帧插值以提升输入 GIF 的时序分辨率。

你可能感兴趣的:(音视频技术开发周刊)