『音视频技术开发周刊』由LiveVideoStack团队出品,专注在音视频技术领域,纵览相关技术领域的干货和新闻投稿,每周一期。点击『阅读原文』,浏览第79期内容,祝您阅读愉快。
原文
https://us15.campaign-archive.com/?u=6bc354bfad4aafd1d8660b97f&id=1fa0c45585
架构
利用JPEG制作更快,更准确的神经网络
Uber AI Labs介绍了一种制作神经网络的方法,该方法通过破解libjpeg并利用JPEG表示来更快,更准确的完成图像处理的任务。本文来自Uber Engineering博客,LiveVideoStack进行了翻译。
CEV模型与质量甜点算法设计
本文来自 Juphoon CTO/VP 钱晓炯在LiveVideoStack 线上交流分享,并由LiveVideoStack整理而成。分享中钱老师介绍了实时视频通信质量评价相关探索实践以及如何根据质量模型设计质量甜点。
浏览器实验中的故障排除
NewVoiceMedia 全球电信与服务经理Alfred Brooks 遇到了客户联络中心代理报告的严重降级音频的问题,本文将介绍他是如何一步步分析问题并最终确定错误是由Chrome实验中对AEC3功能测试引起的。LiveVideoStack对文章进行了摘译。
在线教育音视频技术探索与应用
随着实时音视频通信技术的发展,1对1,1对多直播等在线教育形式不断的满足个人定制化的学习需求。掌门1对1音视频负责人 曾小伟在LiveVideoStack 线上交流分享中介绍了在线教育中音视频技术的应用现状、挑战以及未来的发展。本文由LiveVideoStack整理而成。
[Netty]——TCP粘包和拆包的解决之道(第四章)
TCP底层并不了解上层业务数据的具体含义,它会根据TCP缓冲区的实际情况进行包的划分,所以业务上认为,一个完整的包可能被TCP拆分成多个包发送,也能多个小包封装成一个大的数据包发送。
Licode—基于WebRTC的SFU/MCU实现
本文先介绍了自己对WebRTC的概念理解与使用参考,接下来从系统架构、交互流程、系统组成与模块划分几个角度对Licode进行概要设计级别的分析,最后对自己觉得Licode比较有特色的三大技术,即网络收发流水线架构技术、分布式保活技术与资源管理技术进行了浅层次的解释。
音频/视频技术
Audio Bandwidth Extension
音频带宽扩展是一种利用各种音频编解码器提高有限频带音频感知质量的技术。本文提出了几种音频带宽扩展的方法,并通过听力测试对其进行了评估。比较了半波校正和全波校正,以及子带滤波的应用。结果表明,采用子带滤波的半波校正是测试算法中的最佳技术。
AVFoundation实现HLS音频播放
AVFoundation框架是iOS中的框架,所有与视频音频相关的软硬件控制都在这个框架里面,这个框架真心的厉害, 苹果还是够贴心, 音视频播放只是这个框架里的一小部分而已。
短视频宝贝=慢?阿里巴巴工程师这样秒开短视频。
随着短视频兴起,各大APP中短视频随处可见,feeds流、详情页等等。怎样让用户有一个好的视频观看体验显得越来越重要了。大部分feeds里面滑动观看视频的时候,有明显的等待感,体验不是很好。针对这个问题我们展开了一波优化,目标是:视频播放秒开,视频播放体验良好。
6DoF才是全景视频的未来
自从2015年开始,VR就逐渐被跟多人开始所认知,尤其是在2016年性价比很高的VR盒子变得普及,越来越多的人开始熟悉360°全景视频这种新的观影形式。与此同时,YouTube等在线视频平台开始支持360°视频,你可以直接在网页浏览,也可以用VR设备来观看。
36款顶级的开源音频/视频应用程序
本文介绍的这些音频/视频应用程序有望大大节省用户的成本。下列开源应用程序可取代价格昂贵的商用音频/视频应用程序,并与他们有着非常相似的功能。
爱奇艺 Flutter 跨平台 Hybrid 实践
爱奇艺开播助手项目,又称"直播机",该项目目标是通过一个移动平台为主播提供多样化的直播内容。现阶段所涵盖的直播内容包括:游戏直播,美女摄像直播,小剧场直播,其中游戏直播相对主播数量最多,3种推流模式所涉及的推流SDK基本一致,推流逻辑存在部分差异。
编解码
编码压缩新思路:面向QoE的感知视频编码
面向用户体验的感知视频编码即通过机器学习检测用户感兴趣的视觉感知区域,并重新分配以更多的码率与复杂度。本文来自北京航空航天大学副教授、博士生导师 徐迈在LiveVideoStack 线上交流分享,并由LiveVideoStack整理而成。
FFmpeg视频的编码Encode---YUV编码为H264
视频编码的过程就是将YUV的像素格式编码成H264的压缩格式——YUV:视频像素格式;H264:视频压缩数据格式。
gRPC-go编解码器使用说明
gRPC 是一个高性能、开源和通用的 RPC 框架,面向移动和 HTTP/2 设计。目前提供 C、Java 和 Go 语言版本,分别是:grpc, grpc-java, grpc-go. 其中 C 版本支持 C, C++, Node.js, Python, Ruby, Objective-C, PHP 和 C# 支持。
MP3-编解码大致流程以及原理
编码器通过混合滤波器组将原始声音变换到频率域,利用心理声学模型,估算刚好能被察觉到的噪声水平,再经过量化,转换成Huffman编码,形成MP3位流。
AI智能
语音识别大杀器:详解Seq2Seq模型在语音识别中的应用
语音识别问题本质上也是两个变长序列直接转换的问题,Seq2Seq模型的提出为解决语音识别问题开辟了另一条道路,其优雅的模型结构和强大的性能使得语音识别问题有希望彻底摆脱语言模型和发音词典,真正的进行端到端的联合优化。
Facebook开源DeepFocus,实现逼真散焦效果,推动下一代VR头显技术
Oculus正式向我们分享了DeepFocus。这一基于AI的渲染系统能够协助Half Dome实现模拟人类感知世界的散焦效果。它是第一款能够实现如此效果的系统,可以模糊用户当下无法聚焦的场景部分,并且是以一种逼真、实时的注视跟随方式实现。
SIGGRAPH ASIA 2018:腾讯“AI画师YUI”的背后技术
腾讯AI Lab在SIGGRAPH ASIA 2018上展出了自主研发的“AI画师YUI”demo。访客可以直接用手机拍摄一张自己的照片,然后利用AI画师YUI的微信小程序自动将真人头像转换成萌萌的日系二次元头像。转换结果可以现场打印成照片,供访客带回家留念。
2018热点总结:BERT最热,GANs最活跃,每20分钟就有一篇论文...
本文的作者 Ross Taylor 和 Robert Stojnic 在今年一起启动了一个名为“Paper with Code”的项目,将 AI 领域的一些研究论文和论文开源代码结合展示,方便大家学习与研究。在推进这个项目的同时,通过分析网站的数据他们也有一些意外和有趣的收获,用更综合、全面的视野总结了下半年的发展现状与热点,哪些正在成为流行趋势、哪些被广泛使用。
图像
一行命令对你的图像视频进行风格迁移
图像风格迁移就是把一种图像风格转变为另一种图像风格。本文介绍了如何通过简单的操作改变整体图像视频的风格。