『音视频技术开发周刊』由LiveVideoStack团队出品,专注在音视频技术领域,纵览相关技术领域的干货和新闻投稿,每周一期。点击『阅读原文』,浏览第85期内容,祝您阅读愉快。
架构
开源声码器WORLD在语音合成中的应用
语音合成(TTS)是语音AI平台的基础设施,而声码器则决定着其中的声学模型以及合成质量。喜马拉雅FM音视频高级工程师 马力在LiveVideoStack线上交流分享中详细介绍了新一代合成音质更高,速度更快的开源免费WORLD声码器的原理架构,并结合Tacotron模型,演示中文语音合成的应用。本文由LiveVideoStack整理而成。
高孟平:深度学习是视频技术与人眼视觉连结的重要桥梁
LiveVideoStack通过邮件专访了腾讯音视频实验室专家高孟平,他聊起了自己的成长与从业经历,并畅谈了带领AI、视频处理、编解码、质量等团队打造人眼视觉为标准的视频服务平台——丽影平台的前前后后。
WebRTC-Android 探索 - 创建音视频通话程序的基本姿势
若要在 Android 上实现一个 WebRTC 通话应用,需要通过 采集 - 渲染本地预览画面 - 创建连接 - 信令交换相关信息 - 渲染远端画面 这五步的工作。WebRTC 中为开发者做了一系列的封装,减轻了开发者开发一个通话应用的压力。本篇文章将通过介绍这五步的实现简单介绍一下基本的使用姿势。
传输网络
B站QUIC实践之路
QUIC协议快速建立连接、拥塞控制灵活、多路复用等特性为网络传输带来了不少收益,也更好的提升了用户的体验。哔哩哔哩高级工程师 王盛在LiveVideoStack线上交流分享中介绍了B站在QIUC研发与部署中的实践经验,LiveVideoStack对分享内容进行了整理。
HTTP/3的前世今生
在去年年底进行的IETF 103会议中,QUIC 工作组会议上大家对“HTTP over QUIC”更名为“HTTP/3”达成了共识。一直以来,由于命名的混乱,人们对不同版本的QUIC,以及其与HTTP各版本之间的关系存在疑问。本文通过梳理各个标准发布的时间线,帮助读者理解HTTP/3的前世今生,以及其改名背后的动机。本文译自来自Cloudflare的Lucas Pardue写的博客“HTTP/3: From root to tip”。
音频/视频技术
WebRTC QOS方法六(花屏问题解决方法)
做过视频会议都清楚,当网络出现丢包异常后,经常会导致视频出现长时间花屏问题。严重降低用户体验。测试WebRTC发现,视频无论在什么环境,都没有出现花屏现象。若出现丢包,通过掉帧方式解决该问题。最坏的情况就是视频出现卡顿,但是也不会出现花屏。
视频质量评价——从裁判到教练
视频质量评价(VQA)是视频服务系统中的重要技术要素,贯穿成像、编辑、处理、编/转/解码、渲染、显示等整个视频技术链条。上海交通大学教授宋利在LiveVideoStackCon 2018大会上对VQA的工业标准,服务流程管理技术等相关内容进行了详细的介绍。LiveVideStack对演讲内容进行了整理。
Android音视频开发入门(四)
本篇的任务目标是使用Camera API进行视频的采集,分别用SurfaceView和TextureView预览Camera数据,并获取到NV21数据回调。
爱奇艺短视频质量评估模型
短视频信息流产品是目前最炙手可热的互联网产品,完全占领了用户的碎片时间,据艾瑞统计2018年短视频产品月独立设备数有6亿+台。爱奇艺也有自己的视频信息流产品矩阵,如爱奇艺热点、小视频、爱奇艺PPS、 纳逗、姜饼等。每天有大量新的UGC视频被生产出来,短视频质量变得参差不齐,批量化的准确识别视频质量有助于提升用户体验,优化推荐算法对于高质量视频的露出
编解码
构建轻量级H.264 WebRTC堆栈
|pipe|联合创始人/CTO Tim Panton希望构建一个轻量级的H.264 WebRTC堆栈。本文展示了Tim一步步努力实现视频播放的过程,以及从中取得的收获。LiveVideoStack对文章进行了翻译。
iOS直播(四)对视频进行压缩编码
不经过压缩编码的原视频,所占空间大,不便于保存和网络传输,所以视频录制完后,需要先编码,再传输,解码后再播放。
Android多媒体框架(1)——MediaCodec.java源代码分析
MediaCodec勇于访问底层的编解码器,是Android底层多媒体支持框架的一部分。它可以操作三种数据:压缩后的,原始的音频数据,以及原始的视频数据。MediaCodec以异步的方式处理数据,会用到一组输入和输出缓冲区,后文会详细介绍。MediaCodec有内部类BufferInfo来描述缓冲区。
AI智能
图像超分辨率进ASC19超算大赛,PyTorch+GAN受关注
图像超分辨率(Super-Resolution,简称SR)技术是近几十年来广受关注的一项视觉计算技术,其目标是将低分辨率图像恢复或重建为高分辨率图像。来自全球200余所高校的300多支大学生队伍,将在长达两个月的初赛阶段,尝试挑战一项当前热门的人工智能技术——单张图像超分辨率(Single Image Super-Resolution,简称SISR)赛题。
SAE:基于仿真的自动驾驶汽车关键场景识别
关键场景(Critical Scenario)识别对自动驾驶测试具有重大意义。过往的关键场景识别主要是考虑安全因素。而本文则综合考虑了安全影响和交通质量影响。除了安全指标,定义了四个覆盖宏观与微观的交通质量指标,并对这些指标进行了归一化和权重分配,在此基础上应用仿真工具链进行分析。
超详综述:GAN在图像生成上的应用
GAN 在图像生成上取得了巨大的成功,这无疑取决于 GAN 在博弈下不断提高建模能力,最终实现以假乱真的图像生成。本文围绕 An Introduction to Image Synthesis with Generative Adversarial Nets 一文对 GAN 在图像生成应用做个综述。
去噪、去水印、超分辨率,这款不用学习的神经网络无所不能
不同的神经网络可以实现给图像去噪、去水印、消除马赛克等等功能,但我们能否让一个模型完成上述所有事?事实证明 AI 确实有这样的能力。来自 Skoltech、Yandex 和牛津大学的学者们提出了一种可以满足所有大胆想法的神经网络。
图像
一种基于SGNN和IHS的图像融合新方法
针对图像的融合,本文提出了一种基于SGNN(自生成神经网络)和IHS变换的模糊图像融合方法。新方法首先对图像作IHS变换,得到亮度I、色度H、饱和度S三个分量;然后,利用SGNN模糊聚类方法融合图像的亮度分量,并用融合后的图像替代原图像的亮度分量;最后,作IHS反变换得到新的图像。通过试验结果和数据显示,可以看到新方法在性能方面有优越性,优于简单的IHS变换和SGNN图像融合方法。
DxOMark自拍评测之景深,自动对焦和美颜
2019年1月22日,DxOMark Image Labs宣布推出DxOMark Selfie新评测体系,用以评测智能手机前置摄像头的图像质量。与此同时,领先的图像质量评测网站dxomark.com 也发布了首批DxOMark Selfie评分。