『音视频技术开发周刊』由LiveVideoStack团队出品,专注在音视频技术领域,纵览相关技术领域的干货和新闻投稿,每周一期。点击『阅读原文』,浏览第66期内容,祝您阅读愉快。
架构
使用WebRTC和WebVR进行VR视频通话
本文来自Google的开发专家Dan Jenkins,他喜欢将最新的Web API与RTC应用程序混合在一起。他还在Nimble Ape经营自己的咨询和开发公司。本文中,他给出了一个代码实现——通过使用WebVR将FreeSWITCH Verto WebRTC视频会议转换为虚拟现实会议的。LiveVideoStack对原文进行了摘译。
吉长江:基于学习的视频植入技术是未来趋势
本文来自影谱科技创新研发中心负责人吉长江在8月举行的LiveVideoStack Meet武汉站的分享,并由LiveVideoStack整理而成。吉长江详细介绍了视频植入的流程、典型方法、难点及技术趋势,他认为,基于学习的视频植入将是未来的发展趋势。
从CV到ML 直播场景下新技术的应用
本文来自花椒直播海外技术负责人唐赓在LiveVideoStackCon 2017上的分享,并由LiveVideoStack整理而成,在分享中唐赓详细介绍了直播的基本组成部分以及ARKit、3D引擎、深度学习等技术在直播场景下的应用。
邓滨:信号处理+深度学习才能实现语音交互
本文来自小鱼在家首席音频科学家邓滨在LiveVideoStackCon 2018讲师热身分享,并由LiveVideoStack整理而成。邓滨认为,传统的信号处理与前沿的深度学习技术结合,才能实现准确的语音交互,缺一不可。
见良:学习多媒体主要靠实践
LiveVideoStack邮件采访了北京美摄网络科技有限公司CTO 见良,作为十多年的多媒体老兵,他认为学习多媒体技术主要通过实践,必须在实际的项目中锻炼自己。对于未来,机器学习结合计算机图形学可以实现智能剪辑,制作出更有趣的视频。
音视频 —— RTSP协议
RTSP(Real-Time Stream Protocol)是一种基于文本的应用层协议,在语法及一些消息参数等方面,RTSP协议与HTTP协议类似。 是TCP/IP协议体系中的一个应用层协议,由哥伦比亚大学, 网景和RealNetworks公司提交的IETF RFC标准.
WebRTC网关服务器单端口方案实现
标准WebRTC连接建立流程 这里描述的是Trickle ICE过程,并且省略了通话发起与接受的信令部分。流程如下: 1) WebRTC A通过Signal Server转发SDP OFFER到WebRTC B。WebRTC B做完本地处理以后,通过 Signal Server转发...
2017图灵奖得主:通用芯片每年仅提升3%,神经专用架构才是未来
2017 年图灵奖获得者、《计算机体系结构:量化研究方法》一书的作者、谷歌杰出工程师 David Patterson 等人近日在 ACM Communications 上撰文介绍了对于计算芯片架构未来的展望。作者认为深度神经网络加速的特定领域架构将成为未来主流,而随着制程提升的困难,通用计算芯片现在每年的提升仅有 3%,或许在 2038 年以前性能都无法翻倍。
音频/视频技术
RTMP直播应用与延时分析
直播应用中,RTMP和HLS基本上可以覆盖所有客户端观看,HLS主要是延时比较大,RTMP主要优势在于延时低。一、应用场景 低延时应用场景包括:互动式直播:譬如2013年大行其道的美女主播,游戏直播等等各种主播,流媒体分发给用户观看。用户可以文字聊天和主播互动...
5G时代的媒体远程生产
媒体应用需要巨大的网络容量来实现高带宽的流传输,对资源要求苛刻。5G的出现激发了新的解决方案和工具的研究和开发,可以满足媒体行业对网络链路的需求,随时随地提供特定的质量和安全性的服务。本文介绍5G时代媒体远程生产与分发的应用场景,并结合H2020 5G PPP第2阶段项目5G-MEDIA 介绍相关系统需求与架构。
音频采集:Android基于OpenSL ES的实现
OpenSL ES全称为Open Sound Library for Embedded Systems,即嵌入式音频加速标准。OpenSL ES是无授权费、跨平台、针对嵌入式系统精心优化的硬件音频加速 API。它为嵌入式移动多媒体设备上的本地 应用程序开发者提供了标准化、高性能、低响应时间的音频功能实现方法,同时还实现了软/硬件音频性能的直接跨平台部署,不仅降低了执行难度,而且促进了高级音频市场的发展。
一种全景视频的主观质量评价方法
与传统的2D视频不同,在头戴式设备的帮助下,全景视频提供一个球面的观察方向,这样提高了沉浸式和交互式的视觉体验。但就我们所知,针对全景视频的主观质量评价方法很少。因此,我们在这篇文章中提出了一个评估失真全景视频质量的主观方法。
编解码
FFmpeg 的介绍与使用
FFmpeg 是强大的媒体文件转换工具,常用于转码,可选命令非常多,编码器、视频时长、帧率、分辨率、像素格式、采样格式、码率、裁剪选项、声道数等等都可以自由选择。
基于编码应用的主观全景视频质量评价数据库
随着虚拟现实技术的发展,需要更高质量的全景视频来保证沉浸式的观看体验。因此,质量评价对于相关技术非常重要。考虑到投影时的几何变化以及头戴式设备(HMD)分辨率的限制,我们提出了一个针对主观测试的高质量序列的播放策略,即基于屏幕和人眼之间几何约束找出最佳播放分辨率。
利用FFmpeg进行MP4视频转YUV格式
YUV主要用于优化彩色视频信号的传输,相比RGBA色彩来说,YUV格式占用更少的内存。现在绝大多数视频解码后播放的格式都是YUV ,本文介绍如何利用FFmpeg将MP4视频转换为YUV格式。
FFmpeg对采集到摄像头视频和麦克风音频裸码封装
FFmpeg中对文件的输入和输出用一个结构体AVFormatContext来指定,其中AVInputFormat指定的是输入,AVOutputFormat指定的是输出,输出格式用函数av_guess_format来查找指定格式。
AI智能
深入浅出聚类算法
聚类问题是机器学习中无监督学习的典型代表,在数据分析、模式识别的很多实际问题 中得到了应用。在本文中,SIGAI 将为大家深入浅出的介绍聚类问题的定义以及各种典型的 聚类算法,帮助大家建立对聚类算法最直观、本质的概念。
OCR大突破:Facebook推出大规模图像文字检测识别系统——Rosetta
OCR(Optical Character Recognition),也称光学字符识别,是通过扫描等光学输入方式将各种票据、报刊、书籍、文稿及其它印刷品的文字转化为图像信息,再利用文字识别技术将图像信息转化为可以使用的计算机输入的一种技术。
ECCV 2018 | 旷视科技提出GridFace:通过学习局部单应变换实现人脸校正
全球计算机视觉三大顶会之一 ECCV 2018(European Conference on Computer Vision)即将于 9 月 8 -14 日在德国慕尼黑拉开帷幕,旷视科技有多篇论文被此大会接收。在这篇论文中,旷视科技提出的一种通过学习局部单应变换实现人脸校正的全新方法——GridFace。
ECCV 2018 | 建模任务相关注视点转移,实现第一人称视频注视点的准确估计
准确估计第一人称视频中人的注视点能够帮助计算机更好地预测人的关注区域,对于计算机自动理解人的动作和人与人之间的交互行为具有重要意义。近日,来自东京大学和湖南大学的研究者们提出了一个全新的视角和方法对这一问题进行建模,新的方法在第一人称视频的注视点估计任务上大大超出了已有方法的性能。
ECCV 2018 | 给Cycle-GAN加上时间约束,CMU等提出新型视频转换方法Recycle-GAN
CMU 和 Facebook 的研究者联合进行的一项研究提出了一种新型无监督视频重定向方法 Recycle-GAN,该方法结合了时间信息和空间信息,可实现跨域转换,同时保留目标域的风格。相较于只关注空间信息的Cycle-GAN,在视频转换中Recycle-GAN的过渡效果更加自然。
图像
美颜重磅技术之GPUImage源码分析
说到基于GPU的图像处理和实时滤镜,大家肯定会想到鼎鼎大名的GPUImage,这个项目确实为后续开发提供了很多方便,基本的图像处理工具一应俱全。但是学习借鉴GPUImage的项目结构,可以为我们提供不小的帮助。
Metal图像处理——直方图均衡化
本文用Compute Shader对图像的颜色值进行统计,然后计算得出映射关系,由Fragment Shader进行颜色映射处理。
用AI给黑白照片上色,复现记忆中的旧时光
深度学习几乎已经应用在每一个领域,但如果我们能够构建一个基于深度学习的模型,让它能够给老照片着色,重现我们童年的旧回忆,这该多么令人激动啊!那么我们要怎么做呢?本文的作者将为大家介绍一个教程,通过深度学习方法为黑白老照片自动上色,带我们重新忆起那段老时光!