每周一期,纵览音视频技术领域的干货。
新闻投稿:[email protected]。
GNNear:基于近内存处理的大规模图神经网络训练加速器
图神经网络(GNNs)已经成为分析非欧几里得图数据的最新算法。然而,实现高效的GNN训练是一项挑战,特别是在大规模图上。本文基于一篇于2022年发表在PACT上的论文,主要介绍基于近内存NMP的大规模图神经网络训练加速器GNNear。
BiSeNet V2:用于实时语义分割的带引导聚合的双边网络
本文提出了一种能有效权衡速度和准确度的高效框架 BiSeNet V2,它包括一个细节分支和语义分支。由于减少了通道数并采取了快速下采样策略,语义分支是一个轻量分支。此外,设计了一个引导聚合层(GAL)来增强相互连接并融合两种类型的特征表示;还设计了一种新的助推器训练策略来在不增加额外推理成本的基础上提高语义分割性能。定量实验和定性评估表明,所提出的体系结构优于最先进的实时语义分割方法。
物体自转对声音散射的影响
一个由KAUST(阿卜杜拉国王科技大学,King Abdullah University of Science and Technology)领导的国际团队建议,旋转物体和声波之间的相互作用可以帮助开发高精度工具,例如通过操纵声波来控制亚毫米物体的运动和位置的镊子。
空间音频在视频会议场景中的应用
空间音频(Spatial Audio)在影院、游戏、虚拟现实、舞台录音等场景中得到了广泛的应用,它提供给用户更加接近于真实的听觉感受。空间音频的实现方式有多种,常见的有基于心理声学原理、基于物理声场的重构、和基于双耳音频的精确重放。
风会不会影响声音传播的速度?
声音是一种波,是空气的振动,当空气流动起来之后,声波的传播可以分解成两种运动的叠加,空气的流动和声波相对于空气的运动。
即时互动、跨全平台,如何实现一场高难度元宇宙演唱会?
上周,首届全球数字贸易博览会在浙江省杭州市圆满落下帷幕,展会汇聚境内外800余家数字贸易头部企业,在这之中,「大有」元宇宙开放平台亮相同时摘得DT先锋奖铜奖,并首次对外展示了一场重新定义的“元宇宙演唱会”,该演唱会引来数十家媒体关注报道,吸足眼球。
播放器成功率优化
视频播放器是视频消费链路最核心的组件,针对播放器我们通常最关心的体验有:视频播放是否会出错、视频起播速度是否够快、视频播放过程中是否会出现卡顿;对于直播场景,我们还会关心:直播的延时是否比较低。
Hi, SRS 5.0!
随着志宏大神合并完DASH的功能,SRS 5.0正式完成功能,进入一年左右的稳定性提升阶段,预计在2023年底正式发布,现在已经可以开始体验SRS 5.0的Alpha版本了。
卡塔尔世界杯科技系列:算力网络为赛事直播保驾护航
咪咕在这次世界杯中打造的“内容+科技”的融合创新,背后离不开中国移动“5G+算力网络”的重要支撑。其保证了多元场景的连接,海量数据的传送,为广大球迷开启了“元宇宙世界杯”,不仅有4K/8K超高清电视转播,还有AI复刻赛场、在孪生赛场上还原精彩进球的数实融合黑科技体验。这一期我们就了解一下算力网络的核心技术和应用。
B站公网架构实践及演进
根据2022年Q3财报数据,B站的MAU已经稳定增长至3.3亿。用户在闲暇之余刷刷视频、看看直播,给自己喜爱的UP主一键三连,已经成为了生活中不可缺少的一部分。B站基础网络团队本着社区优先的理念,持续优化互联网接入网络架构,近2年内根据IDC规模发展和业务需求,对公网架构进行了有序升级改造,从稳定性、经济性等方面为B站业务提供了坚实保障。
非局部图像去噪
本文介绍一篇2016年发表于CVPR的去雾论文。
基于VMAF的感知率失真优化
随着机器学习的发展,机器学习也被引入到改进的客观评估中。视频多方法评估融合(VMAF) 是最具代表性的基于学习的度量,它由Netflix开发,通过支持向量机(SVM)回归将多个基本度量组合在一起。结果表明,VMAF比常规指标具有更高的精度,对行业具有较好的实用性。现在基于学习的度量优于传统的度量,人们也非常希望将它们应用到编码中。
视频质量评价中美学因素和技术因素的影响
在传统的视频质量评价中,美学质量和技术质量一直是独立研究的。在美学质量评价中,照片一般是由专业的技术设备拍摄的,因此其质量很大程度上取决于照片中对象的语义,以及拍摄手法是否专业。
色差:连牛顿都在它上面犯了错
17世纪中叶,科学界开始了光的本质的论战——光的波动学说与光的微粒学说的论战,这场论战一直持续进行到19世纪中叶。荷兰物理学家惠更斯是光的波动学说的创立者;英国伟大的科学家牛顿是光的微粒学说的倡导者。光学发展史上这场长达200多年的论战,将光学引上了发展之路,使人类在论战中揭开了光学的层层面纱,认清了它的本质。
如何使用AV1码流分析工具AOM Analyzer?
我自己平时的工作中会经常用到码流分析软件,之前我也分享过一些开源的视频码流分析软件,此类工具都有一个共同的特点:它们都是"视频解码器+GUI界面"。
基于人眼视觉模型,实现码率、质量、成本的最优均衡
「窄带高清」便可以利用人眼视觉的掩蔽效应,从人眼视觉模型出发,将编码器的优化目标从经典的“保真度最高”调整为“主观体验最好”,从而实现码率、质量、成本的最优均衡。
推荐资源
Web3将如何影响社交网络?|万字研讨实录(上)
Web2的世界里,社交被誉为是互联网皇冠上的明珠,大家也非常期待在社交赛道以后会出现一个千亿级的大公司。这次推特的收购是否拉开了社交领域的Web3序幕?本次研讨也请到了数位Web3社交领域的创始人还有资深专家,来和我们共同研讨,到底怎么样来理解Web3社交,怎么样向Web3社交平台转型。
书单 | 比尔盖茨:到目前为止我最喜欢的5本书
节假日是享受一年一度传统的好时机。像许多人一样,我喜欢在年底与家人一起庆祝节日(我们通常会在圣诞节穿着家庭睡衣)。我也喜欢坐下来写我的年度假日书单——这是我过去十年中每到这会儿都会做的事。它一直是个令我开心的机会来回顾我最近读过的书。
活动推荐
对话即构科技李凯——聊聊流媒体互动新趋势
线上交流目前已经成为了许多人生活与工作中的一部分,随着流媒体技术与能力的不断进步,基于互联网的线上互动交流不再局限于简单的语音、视频通信等,越来越多的人开始关注使用线上交流时的体验和感受,更多全新的互动形式、玩法,场景应用值得我们期待和探索。
时间:12月27日 晚7点
报名:扫描图中二维码,预约观看精彩内容。