『音视频技术开发周刊』由LiveVideoStack团队出品,专注在音视频技术领域,纵览相关技术领域的干货和新闻投稿,每周一期。点击『阅读原文』,浏览第55期内容,祝您阅读愉快。
策划 / LiveVideoStack
架构
展晓凯:“零经验”的我与唱吧从零到四亿
正如展晓凯总结的那样,一个技术人或团队的成功离不开业务打下的基础,业务高层的高瞻远瞩以及对技术的敬畏,以及技术人的学习与探索精神。LiveVideoStack对全民快乐研发高级总监展晓凯进行了邮件采访,他总结了在与唱吧从零成长的历程。作为一个“零”多媒体基础的技术人,展晓凯的经验也许是你成长路上的参考。
低延迟音视频传输技术在直播领域的应用
本文来自陌陌视频流媒体技术负责人吴涛在WebRTCon 2018上的分享,他详解了陌陌从传统直播过渡到1对1到多人互动模式的演进,架构的优化保证了用户体验与业务需求。
与高清卡顿说拜拜 一招根治视频云顽疾
本文介绍了英特尔新至强平台的新技术及其对媒体云计算性能提升,阐释了新型 SIMD(单一指令多数据流)AVX-512 指令集如何帮助视频、图像处理以及视频深度学习的应用提升性能。
支付宝如何优化移动端深度学习引擎?
移动端深度学习在增强体验实时性、降低云端计算负载、保护用户隐私等方面具有天然的优势,在图像、语音、安全等领域具有越来越广泛的业务场景。考虑到移动端资源的限制,深度学习引擎的落地面临着性能、机型覆盖、SDK尺寸、内存使用、模型尺寸等多个方面的严峻挑战。本文介绍如何从模型压缩和引擎实现两个方面的联合优化,应对上述挑战,最终实现技术落地。
测量和优化HLS性能 Measuring and Optimizing HLS Performance
本文详细介绍了确定HLS性能的几种关键性指标以及如何正确使用HLS的Master Playlists提高用户观看体验。
音频/视频技术
高清视频点播-AI让你看片更丝滑
本文简要介绍了基于强化学习的码率自适应算法,在实践预研验证和分析的基础上,将该AI算法模型应用于实际项目。
Android 音频录制 的三种方式
对于录制音频,Android系统就都自带了一个小小的应用,可是使用起来可能不是特别的灵活。所以有提供了另外的两种。
MacOS、iOS的Metal 2开发爬坑记录:摄像头、Capture GPU Frame、Shader调试与GPUImage存在的问题
本文章记录Metal 2配合Xcode 9在macOS High Serria、iOS 8+开发过程遇到的摄像头、Capture GPU Frame与Shader编译调试问题及解决办法。
编解码
视频编码末日将至?
Netflix的视频算法主管Anne Aaron撰文对视频编解码的未来发展方向,基于块的混合编码,画质评定新方法,以及创新思维。LiveVideoStack对本文进行了摘译。
基于MCMC的X265编码参数优化方法
X265是当今最广泛使用的HEVC视频编码器,它由于自己并行的编码模式和一些提前终止算法的使用能够在家用计算机上实现720P 30FPS的实时编码,十分具有实用价值。
IEEE ISCAS 2018 相关研究进展
ISCAS 2018于2018年5月26日到5月30日在意大利佛罗伦萨举行,会议主题为Art of Circuits and Systems。本文主要介绍了会议中提出的两个与视频编码耦合更紧的基于机器学习的视频编码方法:基于CNN的运动补偿优化、基于强化学习的码率控制。
H.264的去块滤波算法
去块滤波器(Deblocking Filter)是视频编解码器中的重要组成部分,其核心作用在于消除编码过程中产生的图像块效应。图像中的块效应主要因为以宏块为基本单元的编码结构而产生。
AI智能
目标检测算法之YOLO
YOLO作为基于深度学习的第一个one-stage的方法做快可以在TitanX GPU上做到45帧每秒的检测速度,轻量版的可以做到155帧每秒,相比于R-CNN精确度也有非常大的提升。
图鸭科技TNGcnn4P压缩算法在CVPR图像压缩挑战赛获得优胜
据图鸭科技图片压缩团队介绍:Tucodec TNGcnn4p 算法是基于端到端深度学习的算法,在该算法中使用了层次特征融合的网络结构,并结合新的量化方法、码字估计等技术对整体网络进行设计。
OpenAI NLP最新进展:通过无监督学习提升语言理解
近日,OpenAI 在其官方博客发文介绍了他们最新的自然语言处理(NLP)系统。这个系统是可扩展的、与任务无关的,并且在一系列不同的 NLP 任务中都取得了亮眼的成绩。但该方法在计算需求等方面仍存在改进的空间。
AI从入门到放弃:CNN的导火索,用MLP做图像分类识别?
在没有CNN以及更先进的神经网络的时代,朴素的想法是用多层感知机(MLP)做图片分类的识别;但残酷的现实是,MLP做这事的效果并不理想。
图像
在WebRTC上实现ML Kit笑容检测
本文来自Houseparty的WebRTC视频专家Gustavo Garcia Bernardo和TokBox的WebRTC移动端专家Roberto Perez,他们通过Google的ML Kit在WebRTC通话中实现了简单的笑容检测,期间考虑到了检测准确率、延时以及检测频度与CPU占用率的平衡等,实际结果表明ML Kit的检测结果令人满意。
TensorFlow Lite+OpenCV实现移动端水印的检测与去除
本篇文章介绍了TensorFlow Lite与OpenCV配合使用的一个应用场景,并详细介绍了其中用到的SSD模型从训练到端上使用的整个链路流程。在APP中的使用场景为,用户在发布图片时,在端上实现水印的检测和定位,并提供去水印的功能。