LiveVideoStack_

音视频技术开发周刊 | 309

每周一期，纵览音视频技术领域的干货。

新闻投稿：[email protected]。

腾讯云音视频及边缘平台专场邀你一起见证“连接”的力量

9月7日，腾讯全球数字生态大会之腾讯云音视频及边缘平台专场即将开启！本次专场将重点分享腾讯云音视频及边缘平台最新的战略布局、技术趋势、产品突破以及最佳实践,带领大家共同探索数字技术的无限可能，一起见证数实“连接”的无限可能。
LiveVideoStack创始人包研将出席并进行主题分享，针对“多媒体技术生态”当下的发展现状和未来趋势展开探讨。
️时间：2023.9.7 14:00-16:30
形式：线上直播
报名：扫面下方二维码预约观看

沉浸新视界·「听」你所想，「见」所欲见

深圳站八折购票倒计时1天，限时优惠截止至今天！同时，我们为在校学生争取了购票的特别福利（购买学生票，请联系小秘书，微信号：LVSgogo）。准备好了吗？和诸多资深的音视频技术者一起，去见未来。

如何用AI大模型「读脑」并重建所见图像？中国科学院学者在线分享

人类视觉神经系统能够高效地感知和理解现实世界中的复杂视觉刺激，这种突出的能力是当下的人工智能系统无法比拟的。通过神经编码和解码模型来研究不同脑区的功能可以使我们更加深入地理解人类视觉感知系统。

硅谷研思录(二)：Code Llama发布，软件开发迎来智能化范式转换拐点

受Meta的资深AI专家朋友邀请到位于Meno Park的One Hacker Way总部拜访，畅谈Llama的种种。今天就看到Meta又放出大招：Code Llama，将业界一直期待的大模型的代码能力开源，软件开发迎来智能化范式转换的拐点。这正是实实在在的 Hacker精神——在使用大模型改变世界的同时，Hacker们从来没有忘记首先来变革自己。

Nature最新封面：AI战胜了人类世界冠军，创下最快无人机竞速记录

人工智能（AI）再次战胜了人类冠军。这一次，是在无人机竞速领域。来自苏黎世大学机器人与感知研究组（Robotics and Perception Group）的 Elia Kaufmann 博士团队及其英特尔团队联合设计了一种自动驾驶系统——Swift，该系统驾驶无人机的能力可在一对一冠军赛中战胜人类对手。

RetNet或成Transformer继承者？通向更快、更强、更经济的基础架构

2023 年 7 月 25 日，来自微软研究院、清华大学的学者在 Arxiv 上发布了论文「Retentive Network: A Successor to Transformer for Large Language Models」，旨在同时实现低成本推理、并行训练、较强的长序列建模能力，使 CNN、RNN、Transformer 等时代传统意义上的「不可能三角」成为了可能，可谓「质效皆优」。正如论文名所称，RetNet 有望成为 Transformer 的「继承者」，成为 LLM 时代新的支柱性基础架构。

重磅！OpenAI发布最强ChatGPT——企业版ChatGPT

8月29日凌晨，OpenAI在官网宣布，推出企业版ChatGPT（ChatGPT Enterprise）。申请地址：https://openai.com/enterprise。OpenAI表示，企业版ChatGPT提供企业级安全和数据隐私保护，提供无限速的GPT-4访问权限，支持32K上下文输入，高级数据分析功能，自定义选项等所有高级功能。这是目前OpenAI最强版本ChatGPT。

免费使用，媲美Midjourney！文本可直接生成10多种类型图片

8月29日，文本生成图片平台ideogram宣布，消除申请试用制度，免费向所有人开放ideogram v0.1。（地址：https://ideogram.ai/）。根据「AIGC开放社区」的使用体验，ideogram支持文本生成10多种类型图片，包括3D、电影、肖像摄影、插图、海报、绘画、动漫、涂鸦等，可深度理解文本提示并生成媲美Midjourney的效果图片。

LVS2023 | 从 AIGC 到多模态媒体大模型

AIGC大模型的发展正逐渐为音视频、游戏等产业赋能，而多模态大模型作为它的下一个重要发展方向，正被业界高度关注。LiveVideoStackCon 2023 上海站邀请了来自上海交通大学的宋利教授，为大家从多模态媒体生成、多模态媒体编码和多模态媒体交互三个方面展望新一代多模态媒体的特点以及未来基于大模型的智能跨模态编码的新趋势。

最新迭代｜FunASR离线文件转写软件包2.0

FunASR是由达摩院语音实验室开源的一款语音识别工具包，集成了语音端点检测、语音识别、标点预测等领域的工业级模型的训练和部署，吸引了众多开发者参与体验和开发。在7月初，FunASR社区发布了离线文件转写软件包，实现了高精度、高效率、高并发的长音频离线文件转写，并在8月份发布了支持流式语音识别软件包。

语音深度伪造技术

深度伪造（Deepfake）是深度学习（deep learning）与伪造（fake）二者的组合词，可实现图像、音频、视频的伪造生成。近年来人工智能技术发展迅速，语音深度伪造技术也日趋成熟，与之有关的一些网络安全问题也随之出现。例如2019年，有诈骗分子利用AI语音合成软件冒充英国某公司CEO的声音，通过电话诈骗了24.3万多美元，至今仍未找到幕后的罪犯。针对Deepfake语音检测的研究正在引起研究人员的广泛关注，ASVspoofing系列挑战赛也持续引领了伪造语音检测领域的发展。

一种基于压缩感知的音频同步检测方法

在本文中，作者提出了一种新的、准确的、有效的方法来检测配音音轨和相应的非配音原语音轨之间的时间同步。利用非配音音轨的可用性和现有的对口型方法，可以将“配音音频到视频”的同步检测问题简化为“配音音频到原声”的同步检测问题。作者的方法找到并比较压缩音频签名中的匹配帧，在每小时音频不到1分钟的处理时间内实现了接近完美的分类，F1得分为99.4，与未压缩的完整音频频谱图相比，内存占用相对减少约99.6%。作者认为这是第一个解决配音媒体中时间同步检测的工作。

https://ieeexplore.ieee.org/document/10031209

支持AI视频处理的高容量流媒体加速卡方案

实况直播业务随着流媒体市场的发展增长迅速。与传统流媒体“一对多”的模式不同，直播流媒体高交互的特性和 “多对多”的架构对时延的要求越来越高，传统基础设施部署和硬件已经不能高效处理这类需求。在此背景下，AMD专为直播互动流媒体处理打造的新一代Alveo™ MA35D加速卡应运而生。LiveVideoStackCon 2023 上海站邀请了来自AMD AECG的谢旻，为大家分享关于MA35D的基本架构和功能，以及该卡在各个领域视频解决方案中的应用。

金山云直播架构演进及边缘计算场景探索

在视频云升级、直播行业走向成熟的大背景下，金山云如何通过整合边缘云和相关计算能力，保持在行业的重要位置？LiveVideoStack 2023上海站邀请到金山云的朱岩老师，和大家分享金山云在直播架构方面的演进以及在边缘计算场景下的探索。

基于伪时空融合网络的高质量实时视频去噪

随着高分辨率视频录制和流媒体的可用性不断增加，需要能够处理高分辨率视频的快速和高质量的视频降噪方法。然而，许多现有方法无法同时实现高质量的去噪性能和计算效率。该文提出一种视频去噪网络，即伪时间融合网络（PTFN），以满足这些要求。PTFN采用新的伪时间融合（PTF）模块，结合时间偏移模块捕获视频帧之间的伪时间关系。PTFN还采用了现代的ConvBlock范式，摆脱了经典的ConvBlock范式，有助于降低性能和计算效率。PTFN在视频质量和计算效率方面实现了比现有视频去噪方法更好的性能。具体来说，PTFN的计算成本只有现有轻量级方法的16.7%左右，同时提高了去噪性能。PTFN在内存消耗方面也更胜一筹。它可以使用具有 1080 GB RAM 的 GPU 处理 24p 视频。此外，更轻的版本（PTFN Half）可以在相同条件下高速处理2K视频。

https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10197370

音视频问题汇总--H264标准中u和ue的差别

App和第三方客户IPC进行通信时候出现崩溃了。在此记录一下该问题的排查过程。拿到客户的IPC时候，进行本地验证，也是常用的三段论逐一排查：如果是生产端或发送端的问题，则在发送端送数据之时抓包；如果是消费端或接收端的问题，则在接收端收数据之时抓包；如果是传输段问题，则通过PC或者更换设备验证；所以从发送端，接收端分别抓包，依次验证SPS，PPS参数，视频流分析，最后发现和抓包没有关系，属于App兼容性问题。

不可察觉扰动下学习图像压缩的重构畸变

学习图像压缩(LIC)以其显著的性能成为近年来图像传输技术的发展趋势。尽管它很受欢迎，但LIC在图像重建质量方面的稳健性仍未得到充分探索。在本文中，引入了一种难以察觉的攻击方法，旨在有效降低LIC的重建质量，导致重建图像被噪声严重破坏，重建图像中的任何物体几乎都不可能。更具体地说，通过引入基于Frobenius范数的损失函数来生成对抗示例，以最大化原始图像与重建对抗示例之间的差异。此外，利用高频成分对人类视觉的不敏感性，引入了不可感知约束(IC)来确保扰动保持不明显。使用各种LIC模型在柯达数据集上进行的实验证明了有效性。此外，提供了一些研究结果和建议，以设计未来的防御。

一种基于超分辨率的特征图压缩，用于面向机器的视频编码

使用神经网络的视频和图像压缩方法受到广泛关注。在MPEG标准化中，机器视频编码（VCM）是一个新出现的话题，它试图压缩特征/图像以用于机器视觉任务。特别是压缩功能在隐私保护和计算卸载方面具有优势。在本文中，提出了一种配备超分辨率（SR）模块的有效特征压缩方法。主要动机来自观察，即特征对空间失真（例如AWGN，模糊，量化失真，编码伪影）具有一定的鲁棒性，这导致我们将SR模块集成到压缩框架中。进一步探索了所提方法的最佳训练策略，即找到各种损失和适当输入特征形状的最佳组合。综合实验表明，采用通用视频编码（VVC）的方法在各种QP值上优于原始VCM锚定场景的基线。具体而言，与传统的P层特征图压缩方法相比，该框架在OpenImage数据集上的目标检测任务中实现了高达50%的BD率降低。

https://ieeexplore.ieee.org/document/10078247

树莓派的自动白平衡算法

本文介绍了树莓派的自动白平衡算法。树莓派的3A都是放在linux的userspace，并且开源。相机驱动则是放在kernel层，所有ISP的相关驱动都是由博通负责，与GPU代码被一起封装成库，不开放给用户。camera sensor的驱动文件是开放的，但是因为调用sensor驱动的代码不开放，所以用户也没法自己添加新的image sensor驱动。AWB代码文件是awb.cpp，这部分是完全开源的。

单目车道建图突破：港科大Catmull-Rom样条引领潮流

在这项研究中，引入了一种在线单目车道测绘方法，该方法仅依赖于单个摄像头和里程计来生成基于样条的地图。提出的技术将车道关联过程建模为利用二分图的分配问题，并通过结合倒角距离、姿态不确定性和横向序列一致性来为边缘分配权重。此外，精心设计控制点初始化、样条参数化和优化，以逐步创建、扩展和细化样条。与之前使用自行构建的数据集评估性能的研究相比，实验是在可公开访问的 OpenLane 数据集上进行的。实验结果表明，此建议的方法提高了车道关联和里程计精度，以及整体车道地图质量。

开源固态LiDAR-IMU导航：FF-LINS技术揭秘

现有的LiDAR惯导系统大多基于帧到地图的配准，导致状态估计中的不一致性。最新的非重复扫描模式的固态激光雷达使得通过帧到帧的数据关联实现激光雷达-惯性估计器的一致性成为可能。本文提出了一种适用于固态激光雷达的健壮一致的帧间激光雷达惯性导航系统( FF-LINS )。在以INS为中心的LiDAR框架处理下，利用积累的点云构建关键帧点云地图，构建帧间数据关联。利用因子图优化将LiDAR帧间和惯性测量单元( Inertial Measurement Unit，IMU )预积分测量紧密集成，并对LiDAR - IMU外参和时延参数进行在线标定。在公共数据集和私有数据集上的实验表明，提出的FF - LINS比现有的系统具有更好的准确性和鲁棒性。此外，LiDAR - IMU外参数和时间延迟参数得到有效估计，在线标定显著提高了位姿精度。

Meta专利为AR眼镜无线网络环境提出弹性渲染技术

长期以来，AR技术一直面临着渲染虚拟对象的延迟问题。轻量级AR眼镜具有较低的处理能力、低分辨率摄像头和/或相对简单的追踪光学器件，这在提供高质量AR内容和在较差的无线网络条件下传输图像数据方面存在问题，所以，Meta在名为“Resilient rendering for augmented-reality devices”的专利申请中提出可以通过多种弹性渲染技术来应对挑战。

学习在远程渲染的虚拟现实中预测头部姿势

虚拟场景中头戴式显示器(HMD)姿态的准确表征对于扩展现实(XR)中沉浸式图形的渲染至关重要。远程渲染使用云中或网络边缘的服务器来克服独立或捆绑HMD的计算限制。但是，它增加了用户体验的延迟;因此，只要达到较高的精度，提前预测头戴式是非常有益的。这项工作通过考虑六个自由度，提供了远程渲染虚拟现实(VR)中预测HMD姿势的解决方案的全面表征。具体来说，它提供了姿态表示、预测方法、机器学习模型的广泛评估，以及多种模式的使用，以及联合和单独的训练。特别提出了一种新的姿态三点表示方法和一种用于长短期记忆(LSTM)神经网络的数据融合方案。研究结果表明，机器学习模型受益于使用多种模式，即使简单的统计模型表现得非常好。此外，联合训练可与精心选择姿态表示和数据融合策略的单独训练相媲美。

https://dl.acm.org/doi/10.1145/3587819.3590972

苹果AR/VR专利针对物理环境光干扰提出颜色校正解决方案

对于AR，来自物理环境的光的亮度或色度会干扰计算机生成内容，从而减损用户体验。苹果认为，传统的颜色校正方法不能有效地解释来自物理环境的光。所以在名为“Color correction pipeline”的专利申请中，这家公司提出了一种颜色校正管道。

芯片集成度飙升，物理验证成为关键

在这个技术日新月异的时代，一个不争的事实是，我们已经迈入了芯片集成度迅速提升的阶段。随着5G、自动驾驶、人工智能等领域的飞速发展，对芯片性能的需求也急剧增加。这种挑战驱动芯片制造商走向更高的集成度，增加更多的晶体管，引入先进的光刻技术，并不断探索尖端的芯片工艺和封装方式。一颗表面微小的芯片内部蕴藏着千丝万缕的设计细节。因此，对芯片设计的电路布局、连线以及物理特性进行及时的验证和确认至关重要。哪怕是一小步的差错，都有可能导致整体失效，这凸显了物理验证在芯片设计中的关键地位。

详解四大芯片互连技术

英特尔联合创始人戈登摩尔曾预言，芯片上的晶体管数量每隔一到两年就会增加一倍。由于图案微型化技术的发展，这一预测被称为摩尔定律，直到最近才得以实现。然而，摩尔定律可能不再有效，因为技术进步已达到极限，并且由于使用极紫外 (EUV) 光刻系统等昂贵设备而导致成本上升。与此同时，市场对不断完善的半导体技术的需求仍然很大。为了弥补技术进步方面的差距并满足半导体市场的需求，出现了一种解决方案：先进的半导体封装技术。尽管先进封装非常复杂并且涉及多种技术，但互连技术仍然是其核心。本文将介绍封装技术的发展历程以及 SK 海力士最近在帮助推动该领域发展方面所做的努力和取得的成就。

倒装芯片技术—Flip Chip Bonding

从事半导体行业，尤其是半导体封装行业的人，总绕不开几种封装工艺，那就是芯片粘接、引线键合、倒装连接技术。尤其以引线键合(Wire Bonding)及倒装连接(Flip Chip Bonding)最为常见，因为载带连接技术(TAB)有一定的局限性，封装上逐渐淘汰了这种技术。倒装芯片技术是通过芯片上的凸点直接将元器件朝下互连到基板、载体或者电路板上。引线键合的连接方式是将芯片的正面朝上，通过引线(通常是金线)将芯片与线路板连接。

挑战英伟达H100霸权！IBM模拟人脑造神经网络芯片，效率提升14倍，破解AI模型耗电难题

最近，IBM推出一款14nm模拟AI芯片，能效已达最先进GPU的14倍。英伟达的芯片垄断，或许有望被打破了？

火山引擎首次发布自研视频芯片，“抖音同款”走向千行百业

火山引擎作为字节跳动旗下云服务平台，最初主要服务于字节跳动内部产品，而随着内部产品覆盖面、影响力的扩大，火山引擎的技术也愈发成熟，近两年技术逐步外溢到B端市场，惠及千行百业。

对话火山引擎侯爽：字节原生的边缘云

相对于集中式的数据中心，建设边缘节点要面临的基础设施更加多样复杂，而边缘云承载的业务需求也更加离散，找到一条健康可持续的边缘云业务发展路径将会是个巨大挑战。作为火山引擎边缘云负责人，侯爽详细分享了如何利用字节跳动的业务优势，数据驱动，联合众多的合作伙伴实现这个高难度的任务。

视频化时代，如何把握增长密码？

视频时代下，增长的压力扑面而来。视频业务该如何找到新的增长途径，解决当下业务要突破的问题，带来新的增长？本次火山引擎「视象新生」圆桌围绕主题与行业大咖们开展了一次深入浅出的讨论，希望对你有所帮助。要相信，越是艰难的情况下，越有新的机会出现。

▲点击“阅读原文” ▲

跳转LiveVideoStackCon 2023 深圳站官网，了解更多信息

pyhon+ffmpeg 常用音视频处理命令不再游移 ffmpeg 音视频 python
FFmpeg是多媒体领域的万能工具。只要涉及音视频领域的处理，基本上没有它做不了的事情！通俗点讲，从视频录制、视频编辑再到播放，它都能做！前段时间做了个短视频自动化脚本项目，需要自动处理音视频（包括一些合成、拼接、转场、调色等等），当时做的时候找各种命令还是很痛苦的，因此对用到的所有处理命令做了个汇总，方便以后使用。目录一、获取音频时长二、获取视频信息三、获取视频时长四、多个视频合并五、视频提取视
音视频知识图谱 2022.04 关键帧Keyframe
前些时间，我在知识星球上创建了一个音视频技术社群：关键帧的音视频开发圈，在这里群友们会一起做一些打卡任务。比如：周期性地整理音视频相关的面试题，汇集一份音视频面试题集锦，你可以看看《音视频面试题集锦2022.04》。再比如：循序渐进地归纳总结音视频技术知识，绘制一幅音视频知识图谱。下面是2022.04月知识图谱新增的内容节选：1）图谱路径：**采集/音频采集/声音三要素/响度******主观计量响
【物联网技术大作业】设计一个智能家居的应用场景 Dream_Chaser～期末复习智能家居物联网技术期末大作业
前言：本人的物联网技术的期末大作业，希望对你有帮助。目录大作业设计题（1）智能家居的概述。（2）介绍智能家居应用。要求至少5个方面的应用，包括每个应用所采用的设备，性能，功能。（3）画出智能家居应用图，并设计使用。大作业设计题设计一个智能家居的应用场景。要求：（1）智能家居的概述。答：智能家居，又称为智能住宅或家庭自动化，是指运用综合布线、网络通信、安全防范、自动控制及音视频等技术，将家居设施集成
抖音视频搬运如何才能不违规？抖音搬运视频违规有什么后果？氧惠导师
在抖音平台中搬运短视频的人非常多，经常能看到一些视频，别的平台中也会出现，但是又会有所不一样，其实是进行了二次编辑，那么抖音搬运视频怎么做才不会违规呢?➤推荐网购薅羊毛app“氧惠”，一个领隐藏优惠券+现金返利的平台。氧惠只提供领券返利链接，下单全程都在淘宝、京东、拼多多等原平台，更支持抖音、快手电商、外卖红包返利等。（应用市场搜“氧惠”下载，邀请码:521521，全网优惠上氧惠！）➤由于信息差的
WebRTC之LiveKit的基础入门使用（入门必看） tabzzz 前端 webrtc web3 typescript
LiveKit本文主要是讲解在Next13+中如何使用LiveKit来实现简单的音视频通话，想了解更多的还是要去官方文档去掌握更复杂、高级的使用方法。什么是LiveKitLiveKit是一个开源的实时通信平台，基于WebRTC，主要用于构建高质量的音视频通话、实时数据传输和互动应用。LiveKit除了方便以外的大优势就是它提供了丰富的API和SDK，支持多种平台，包括Web、iOS、Android
FFmpeg安装与使用教程 vvvae1234 ffmpeg
FFmpeg是一个强大且灵活的命令行工具，用于处理音频和视频文件。无论是视频格式转换、音频提取还是视频编辑，FFmpeg都能够轻松完成。掌握FFmpeg，将为你的视频处理工作提供极大的便利。在本教程中，我们将详细介绍FFmpeg的安装和使用，包括一些实用的操作案例，帮助你更好地理解如何使用这个强大的工具。2.FFmpeg简介2.1什么是FFmpegFFmpeg是一个开源的音视频处理库，提供了丰富的
Android平台轻量级RTSP服务模块技术接入说明音视频牛哥大牛直播SDK 轻量级RTSP服务 android 音视频轻量级RTSP服务 Android RTSP服务 Android RTSP服务器安卓RTSP服务器大牛直播SDK
技术背景为满足内网无纸化/电子教室等内网超低延迟需求，避免让用户配置单独的服务器，大牛直播SDK在推送端发布了轻量级RTSP服务SDK。轻量级RTSP服务解决的核心痛点是避免用户或者开发者单独部署RTSP或者RTMP服务，实现本地的音视频数据（如摄像头、麦克风），编码后，汇聚到内置RTSP服务，对外提供可供拉流的RTSPURL，轻量级RTSP服务，适用于内网环境下，对并发要求不高的场景，支持H.2
音视频入门基础：WAV专题（11）——FFmpeg源码中计算WAV音频文件每个packet的pts_time、dts_time的实现 cuijiecheng2018 FFmpeg源码分析音视频技术音视频 ffmpeg
=================================================================音视频入门基础：WAV专题系列文章：音视频入门基础：WAV专题（1）——使用FFmpeg命令生成WAV音频文件音视频入门基础：WAV专题（2）——WAV格式简介音视频入门基础：WAV专题（3）——FFmpeg源码中，判断某文件是否为WAV音频文件的实现音视频入门基础：W
移动应用-音视频播放绚烂的萤火移动开发 android 音视频
一.音频1.Mediaplayer设置数据源的三种方式:应用自带的音频,SD卡中的音频、网络音频MediaPlayerplayer＝newMediaPlayer();player=Mediaplayer.create(this,R.raw.XX);player＝MediaPlayer.setDatasource("SD卡路径/网络路径");设置按钮并添加监听事件,实现音乐的播放、暂停2.Sound
2023-06-02《青楼文学与中国文化》陶慕宁64 每天坚持
20230602四点三十一《青楼文学与中国文化》陶慕宁64今天早上起床的闹钟我并没有听见，是我老婆把我叫醒了，昨天晚上睡得挺好，很快就睡觉了，早上有点不想起床，被老婆叫起来了。按说昨天我应该是听完了陶慕宁老师讲的课，但是我的听课记录上显示我没有听完，还是感觉喜马拉雅手机版记录的比较详细，但是喜马拉雅电脑版上的记录没有那么详细，感觉这些音视频软件应该更精准的记录一个人的听课位置，对于我们这些学习的人
神奇酷炫的下拉菜单紫藤11
下拉菜单目前公司的销售报表上，用有这个功能，真心方便，感谢小哈录制的抖音视频，但操作更简单。一、基本用法直接按住Alt+↓即可快速生成,注意：想要实现这样的功能前提是已经输入部分内容二、进阶用法1.提示信息2.出错警告3.圈释无效信息第一次作用圈释无效信息的功能三、动态下拉列表选取数据→定义名称→数据验证→序列→输入=名称四、快速录入当前时间=now（）数据验证设置单元格格式五、借贷只能一方输入选
01-Flink安装部署及入门案例（仅供学习），音视频时代你还不会NDK开发小猪佩琪962 2024年程序员学习 flink 学习大数据
先自我介绍一下，小编浙江大学毕业，去过华为、字节跳动等大厂，目前阿里P7深知大多数程序员，想要提升技能，往往是自己摸索成长，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！因此收集整理了一份《2024年最新大数据全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵
千万级规模高性能、高并发的网络架构经验分享搬砖养女人网络架构经验分享
主题：INTO100沙龙时间：2015年11月21日下午地点：梦想加联合办公空间分享人：卫向军（毕业于北京邮电大学，现任微博平台架构师，先后在微软、金山云、新浪微博从事技术研发工作，专注于系统架构设计、音视频通讯系统、分布式文件系统和数据挖掘等领域。）架构以及我理解中架构的本质在开始谈我对架构本质的理解之前，先谈谈对今天技术沙龙主题的个人见解，千万级规模的网站感觉数量级是非常大的，对这个数量级我们
2023-07-25《优势教养》127 每天坚持
20230725四点三十五星期二《优势教养》127昨天晚上睡得早，我八点五十多就到家了，催着孩子们睡觉，孩子们睡的就早，我在水里边洗了一会，拉了几下单杠，顺着老路回来了，昨天温度比较低，感觉能听进去音视频。昨天下午没有怎么睡着，晚上也感觉没有精神。昨天下午老婆带着儿女去收拾牙，我在家没事，也没有写文章，昨天上午去姐家看她家修水，耽误昨天的两千字的电子日记也没有完成，昨天的作业打卡还没有设计好，昨天
音视频编解码技术（二）：AAC 音频编码技术音视频开发老马音视频开发流媒体服务器 Android音视频开发视频编解码音视频网络协议实时音视频网络
一、AAC编码概述AAC是高级音频编码（AdvancedAudioCoding）的缩写，出现于1997年，最初是基于MPEG-2的音频编码技术，目的是取代MP3格式。2000年，MPEG-4标准出台，AAC重新集成了其它技术包括SBR或PS特性，目前AAC可以定义为⼀种由MPEG-4标准定义的有损音频压缩格式二、AAC编码规格简述AAC共有9种规格，以适应不同的场合的需要：MPEG-2AACLC低
ffplay音视频同步分析攻城狮百里音视频音视频 C++ffplay
ffplay默认也是采用的这种同步策略。主流程ffplay中将视频同步到音频的主要方案是，如果视频播放过快，则重复播放上一帧，以等待音频；如果视频播放过慢，则丢帧追赶音频。这一部分的逻辑实现在视频输出函数video_refresh中，分析代码前，我们先来回顾下这个函数的流程图：在这个流程中，“计算上一帧显示时长”这一步骤至关重要。先来看下代码：staticvoidvideo_refresh(voi
音视频入门基础：WAV专题（5）——FFmpeg源码中解码WAV Header的实现 cuijiecheng2018 FFmpeg源码分析音视频技术音视频 ffmpeg
=================================================================音视频入门基础：WAV专题系列文章：音视频入门基础：WAV专题（1）——使用FFmpeg命令生成WAV音频文件音视频入门基础：WAV专题（2）——WAV格式简介音视频入门基础：WAV专题（3）——FFmpeg源码中，判断某文件是否为WAV音频文件的实现音视频入门基础：W
OpenHarmony 5.0 纯血鸿蒙系统 ejinxian harmonyos 华为
OpenHarmony-v5.0-Beta1版本已于2024-06-20发布。OpenHarmony5.0Beta1版本标准系统能力持续完善，ArkUI完善了组件通过CAPI调用的能力；应用框架细化了生命周期管理能力，完善了应用拉起、跳转的能力；分布式软总线连接能力和规格进一步增强；媒体完善了框架能力、视频编解码能力、音视频的应用能力，媒体库丰富了使用场景，提供更好的使用体验。OpenHarmon
即时通讯项目 NingDream816 即时通讯项目网络 redis 数据库服务器缓存设计模式
即时通讯项目需求分析功能约束可行解更优解高性能接入层优化存储层优化消息时序一致性高可用需求分析功能添加好友聊天会话列表单聊AB群聊多设备登录消息漫游消息已读，查看已读/未读列表视频通话(学音视频技术时补上)语音通话约束DAU(DailyActiveUsers，日活跃用户数量)10亿假设每人平均每天发100条消息，1000Mli*100/86400=12MliQPS(Queriespersecond
MediaStream 的媒体流对象 (stream) 和流媒体轨道 (track) 详解 Wu Youlu 前端
navigator.mediaDevices.getUserMedia和MediaStream是实时音视频处理的重要API。通过这些API，可以从摄像头、麦克风或其他设备捕获音视频流，应用于视频通话、录制等场景。本文将介绍navigator.mediaDevices.getUserMedia的参数配置、MediaStream的传参、属性和方法，配合详细的代码示例，特别是如何动态添加和移除音视频轨道
ffmpeg一些基本用法 980205 ffmpeg 流媒体
来源：ffmpeg一些基本用法|王石头的博客(iwangsen.com)音视频操作，几乎绕不开ffmpeg，因为市面上绝大多数音视频播放软件、转码软件，内核都是它。它非常的强大，轻松几条命令就可以顺利完成你想做的工作我来汇总一些经常使用的命令首先在cmd窗口进入到ffmpeg目录里面最简单的视频格式转换ffmpeg-iD:\Media\IMG_0873.MOV-ccopyD:\Media\outp
走自己的路，随自己的心减读
“走自己的路，让别人去说吧”，就是一种人生态度。别人去说，是在浪费他自己的时间，而你只管活好自己的生活。被大家熟知的超级演说家总冠军刘媛媛曾经在她的抖音视频中说：“不喜欢我的人，为啥不是你改是我改，你让别人改，别人不改，然后你就会很痛苦。”最后一句“你不喜欢我，你自己改吧。”未尝不是一种只随我心的人生态度。还记得那位今年在《脱口秀大会》上爆火的北大女生李雪琴吗？她看起一脸“丧”劲儿，凭着自己的智慧
抖音视频去水印，获取无水印原视频的方法及过程分析。附上代码截图，很简单，主要是分析过程废了些时间。 liqizheng_ 笔记 php
抖音视频去水印获取原视频地址的方法及过程分析。附上代码截图，很简单，主要是分析过程废了些时间.前言：抖音视频自己保存的都带有抖音的logo和视频片尾，让一些做自媒体和搬运工的朋友感到不爽，想要搬运还有水印，于是网上出现好多视频无水印解析的网站，包括微信小程序和公众号都在做，引流也确实可以，但是大部分都是调用的其它网站提供的解析接口，往往一些还要付费，或者不稳定各种问题。，因为他们都不是从最原始的代
抖音视频怎么去水印保存到手机上 Java搬砖组长音视频
抖音已经成为人们日常消遣的主要平台之一。无论是搞笑的视频、感人的短片，还是充满创意的短视频，抖音总能给人带来无限的欢乐与惊喜。有时候我们可能会想要将喜欢的视频保存到手机上，方便离线观看或与朋友分享，但这些视频通常会带有抖音的水印。这篇文章将向大家介绍如何去除抖音视频的水印并保存到手机上。1.使用第三方工具网站去水印许多第三方应用程序和网站可以帮助用户去除抖音视频的水印。例如，“视频解析器（www.
FFmpeg任意文件读取漏洞分析音视频开发老马 ffmpeg
背景介绍FFmpeg是一套目前非常流行的可以用来记录、转换数字音频、视频，并能将其转化为流的开源计算机程序。它提供了录制、转换以及流化音视频的完整解决方案。目前有非常多的视音频软件或是视频网站、手机APP都采用了这个库，但是这个库历史上曝出的漏洞也非常之多。这次的漏洞是利用了ffmpeg可以处理HLS播放列表的功能，在AVI文件中的GAB2字幕块中嵌入了一个HLS文件，然后提供给ffmpeg进行转
rk3588音视频硬件编解码介绍三十度角阳光的问候音视频
目录ffmpegrk3588系列芯片编程方法最终的输出结果ffmpeg示例程序ffmpeg音视频处理中通常是用ffmpeg进行软件音视频编解码aac/h264编码，但其运行速度过慢消耗cpu占用率。因此需要寻找音视频硬件编解码方法。rk3588系列芯片自带音视频硬件编解码框架ffmedia或者mpp，其内部原理是配合内部硬件rga内存，把音视频数据读入内部rga内存中进行Mpp硬件编解码计算，包括
OpenglEs之EGL环境搭建 FlyerGo Opengl 音视频 c++opengl
前言前面我们发布了一系列的入门教程，例如C++系列的指针扫盲、多线程的使用等，JNI入门系列，ffmpeg入门系列等，有感兴趣的童鞋们可以关注往回自行查阅。今天我们的主题依然是音视频开发的范畴，做过音视频开发的都知道Opengl也是音视频开发中的一项重要技能，特别是涉及到视频录制、特效处理、画质渲染细分功能。因此后续笔者打算再出一系列的OpenglES的学习笔记，希望能与大家共同温故知新。因为前面
FFmpeg的入门实践系列七(滤镜) 星海逐愿 ffmpeg ffmpeg
欢迎诸位来阅读在下的博文~在这里，在下会不定期发表一些浅薄的知识和经验，望诸位能与在下多多交流，共同努力文章目录前期博客一、滤镜过滤器filter的简介FFmpeg编程的四大结构体1.滤镜AVFilter2.滤镜图AVFilterGraph3.滤镜实例AVFilterContext4.滤镜输入输出参数AVFilterInOut二、使用滤镜加工音视频前期博客FFmpeg的入门实践系列一(环境搭建)F
Linux 编译 qtav,QtAV 1.3.3 发布，跨平台音视频播放库丶本心灬 Linux 编译 qtav
QtAV1.3.3发布-支持调用NVIDIA的cuvid库进行CUDA硬解。支持平台：windows,linux。(是linux上第一个支持cuda硬解的么？)。有些视频播放会抖动，目前原因还不清楚。4k硬解画面貌似有点花，效果不如lavfilters好。-OpenGL和OpenGLES2支持16-bit的YUV渲染，包括9,10,12,14,16bit的little/bigendian的yuv。
ffmpeg命令详解 weixin_42178492 java 基础工作相关经验集锦
ffmpeg命令详解(转)FFmpeg是一套可以用来记录、转换数字音频、视频，并能将其转化为流的开源计算机程序。采用LGPL或GPL许可证。它提供了录制、转换以及流化音视频的完整解决方案。它包含了非常先进的音频/视频编解码库libavcodec，为了保证高可移植性和编解码质量，libavcodec里很多code都是从头开发的。[百度百科]ffmpeg使用语法ffmpeg使用语法：ffmpeg[[o
插入表主键冲突做更新 a-john
有以下场景：用户下了一个订单，订单内的内容较多，且来自多表，首次下单的时候，内容可能会不全（部分内容不是必须，出现有些表根本就没有没有该订单的值）。在以后更改订单时，有些内容会更改，有些内容会新增。问题：如果在sql语句中执行update操作，在没有数据的表中会出错。如果在逻辑代码中先做查询，查询结果有做更新，没有做插入，这样会将代码复杂化。解决： mysql中提供了一个sql语
Android xml资源文件中@、@android:type、@*、？、@+含义和区别 Cb123456 @+@?@*
一.@代表引用资源 1.引用自定义资源。格式：@[package:]type/name android：text="@string/hello" 2.引用系统资源。格式：@android:type/name android:textColor="@android:color/opaque_red"
数据结构的基本介绍天子之骄数据结构散列表树、图线性结构价格标签
数据结构的基本介绍数据结构就是数据的组织形式，用一种提前设计好的框架去存取数据，以便更方便，高效的对数据进行增删查改。正确选择合适的数据结构，对软件程序的高效执行的影响作用不亚于算法的设计。此外，在计算机系统中数据结构的作用也是非同小可。例如常常在编程语言中听到的栈，堆等，就是经典的数据结构。经典的数据结构大致如下：一：线性数据结构 (1)：列表 a
通过二维码开放平台的API快速生成二维码一炮送你回车库 api
现在很多网站都有通过扫二维码用手机连接的功能，联图网(http://www.liantu.com/pingtai/)的二维码开放平台开放了一个生成二维码图片的Api,挺方便使用的。闲着无聊，写了个前台快速生成二维码的方法。 html代码如下:(二维码将生成在这div下) ? 1 &nbs
ImageIO读取一张图片改变大小 3213213333332132 java IO image BufferedImage
package com.demo; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imageio.ImageIO; /** * @Description 读取一张图片改变大小 * @author FuJianyon
myeclipse集成svn（一针见血） 7454103 eclipse SVN MyEclipse
&n
装箱与拆箱----autoboxing和unboxing darkranger J2SE
4.2　自动装箱和拆箱基本数据(Primitive)类型的自动装箱(autoboxing)、拆箱(unboxing)是自J2SE 5.0开始提供的功能。虽然为您打包基本数据类型提供了方便，但提供方便的同时表示隐藏了细节，建议在能够区分基本数据类型与对象的差别时再使用。 4.2.1　autoboxing和unboxing 在Java中，所有要处理的东西几乎都是对象(Object)
ajax传统的方式制作ajax aijuans Ajax
//这是前台的代码 <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <% String path = request.getContextPath(); String basePath = request.getScheme()+
只用jre的eclipse是怎么编译java源文件的？ avords java eclipse jdk tomcat
eclipse只需要jre就可以运行开发java程序了，也能自动编译java源代码，但是jre不是java的运行环境么，难道jre中也带有编译工具？还是eclipse自己实现的？谁能给解释一下呢问题补充：假设系统中没有安装jdk or jre，只在eclipse的目录中有一个jre，那么eclipse会采用该jre，问题是eclipse照样可以编译java源文件，为什么呢？ &nb
前端模块化 bee1314 模块化
背景：前端JavaScript模块化，其实已经不是什么新鲜事了。但是很多的项目还没有真正的使用起来，还处于刀耕火种的野蛮生长阶段。 JavaScript一直缺乏有效的包管理机制，造成了大量的全局变量，大量的方法冲突。我们多么渴望有天能像Java（import），Python (import)，Ruby(require)那样写代码。在没有包管理机制的年代，我们是怎么避免所
处理百万级以上的数据处理 bijian1013 oracle sql 数据库大数据查询
一.处理百万级以上的数据提高查询速度的方法： 1.应尽量避免在 where 子句中使用!=或<>操作符，否则将引擎放弃使用索引而进行全表扫描。 2.对查询进行优化，应尽量避免全表扫描，首先应考虑在 where 及 o
mac 卸载 java 1.7 或更高版本征客丶 java OS
卸载 java 1.7 或更高 sudo rm -rf /Library/Internet\ Plug-Ins/JavaAppletPlugin.plugin 成功执行此命令后，还可以执行 java 与 javac 命令 sudo rm -rf /Library/PreferencePanes/JavaControlPanel.prefPane 成功执行此命令后，还可以执行 java
【Spark六十一】Spark Streaming结合Flume、Kafka进行日志分析 bit1129 Stream
第一步，Flume和Kakfa对接，Flume抓取日志，写到Kafka中第二部，Spark Streaming读取Kafka中的数据，进行实时分析本文首先使用Kakfa自带的消息处理（脚本）来获取消息，走通Flume和Kafka的对接 1. Flume配置 1. 下载Flume和Kafka集成的插件，下载地址：https://github.com/beyondj2ee/f
Erlang vs TNSDL bookjovi erlang
TNSDL是Nokia内部用于开发电信交换软件的私有语言，是在SDL语言的基础上加以修改而成，TNSDL需翻译成C语言得以编译执行，TNSDL语言中实现了异步并行的特点，当然要完整实现异步并行还需要运行时动态库的支持，异步并行类似于Erlang的process（轻量级进程），TNSDL中则称之为hand，Erlang是基于vm(beam)开发，
非常希望有一个预防疲劳的java软件, 预防过劳死和眼睛疲劳,大家一起努力搞一个 ljy325 企业应用
　非常希望有一个预防疲劳的java软件，我看新闻和网站，国防科技大学的科学家累死了，太疲劳，老是加班，不休息，经常吃药，吃药根本就没用，根本原因是疲劳过度。我以前做java,那会公司垃圾，老想赶快学习到东西跳槽离开，搞得超负荷，不明理。深圳做软件开发经常累死人，总有不明理的人，有个软件提醒限制很好，可以挽救很多人的生命。相关新闻：（1）IT行业成五大疾病重灾区：过劳死平均37.9岁
读《研磨设计模式》-代码笔记-原型模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * Effective Java 建议使用copy constructor or copy factory来代替clone()方法： * 1.public Product copy(Product p){} * 2.publi
配置管理---svn工具之权限配置 chenyu19891124 SVN
今天花了大半天的功夫，终于弄懂svn权限配置。下面是今天收获的战绩。安装完svn后就是在svn中建立版本库，比如我本地的是版本库路径是C:\Repositories\pepos。pepos是我的版本库。在pepos的目录结构 pepos component webapps 在conf里面的auth里赋予的权限配置为 [groups]
浅谈程序员的数学修养 comsci 设计模式编程算法面试招聘
浅谈程序员的数学修养
批量执行 bulk collect与forall用法 daizj oracle sql bulk collect forall
BULK COLLECT 子句会批量检索结果，即一次性将结果集绑定到一个集合变量中，并从SQL引擎发送到PL/SQL引擎。通常可以在SELECT INTO、 FETCH INTO以及RETURNING INTO子句中使用BULK COLLECT。本文将逐一描述BULK COLLECT在这几种情形下的用法。有关FORALL语句的用法请参考：批量SQL之 F
Linux下使用rsync最快速删除海量文件的方法 dongwei_6688 OS
1、先安装rsync：yum install rsync 2、建立一个空的文件夹：mkdir /tmp/test 3、用rsync删除目标目录：rsync --delete-before -a -H -v --progress --stats /tmp/test/ log/这样我们要删除的log目录就会被清空了，删除的速度会非常快。rsync实际上用的是替换原理，处理数十万个文件也是秒删。
Yii CModel中rules验证规格 dcj3sjt126com rules yii validate
Yii cValidator主要用法分析： yii验证rulesit 分类： Yii yii的rules验证 cValidator主要属性 attributes ,builtInValidators,enableClientValidation,message,on,safe,skipOnError
基于vagrant的redis主从实验 dcj3sjt126com vagrant
平台: Mac 工具: Vagrant 系统: Centos6.5 实验目的: Redis主从实现思路制作一个基于sentos6.5, 已经安装好reids的box, 添加一个脚本配置从机, 然后作为后面主机从机的基础box 制作sentos6.5+redis的box mkdir vagrant_redis cd vagrant_
Memcached(二)、Centos安装Memcached服务器 frank1234 centos memcached
一、安装gcc rpm和yum安装memcached服务器连接没有找到，所以我使用的是make的方式安装，由于make依赖于gcc，所以要先安装gcc 开始安装，命令如下，[color=red][b]顺序一定不能出错[/b][/color]：建议可以先切换到root用户，不然可能会遇到权限问题：su root 输入密码...... rpm -ivh kernel-head
Remove Duplicates from Sorted List hcx2013 remove
Given a sorted linked list, delete all duplicates such that each element appear only once. For example,Given 1->1->2, return 1->2.Given 1->1->2->3->3, return&
Spring4新特性——JSR310日期时间API的支持 jinnianshilongnian spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
浅谈enum与单例设计模式 247687009 java 单例
在JDK1.5之前的单例实现方式有两种(懒汉式和饿汉式并无设计上的区别故看做一种)，两者同是私有构造器，导出静态成员变量，以便调用者访问。第一种 package singleton; public class Singleton { //导出全局成员 public final static Singleton INSTANCE = new S
使用switch条件语句需要注意的几点 openwrt c break switch
1. 当满足条件的case中没有break，程序将依次执行其后的每种条件（包括default）直到遇到break跳出 int main() { int n = 1; switch(n) { case 1: printf("--1--\n"); default: printf("defa
配置Spring Mybatis JUnit测试环境的应用上下文 schnell18 spring mybatis JUnit
Spring-test模块中的应用上下文和web及spring boot的有很大差异。主要试下来差异有：单元测试的app context不支持从外部properties文件注入属性 @Value注解不能解析带通配符的路径字符串解决第一个问题可以配置一个PropertyPlaceholderConfigurer的bean。第二个问题的具体实例是：
Java 定时任务总结一 tuoni java spring timer quartz timertask
Java定时任务总结一.从技术上分类大概分为以下三种方式： 1.Java自带的java.util.Timer类，这个类允许你调度一个java.util.TimerTask任务; 说明： java.util.Timer定时器，实际上是个线程，定时执行TimerTask类 &
一种防止用户生成内容站点出现商业广告以及非法有害等垃圾信息的方法 yangshangchuan rank 相似度计算文本相似度词袋模型余弦相似度
本文描述了一种在ITEYE博客频道上面出现的新型的商业广告形式及其应对方法，对于其他的用户生成内容站点类型也具有同样的适用性。最近在ITEYE博客频道上面出现了一种新型的商业广告形式，方法如下： 1、注册多个账号（一般10个以上）。 2、从多个账号中选择一个账号，发表1-2篇博文

音视频技术开发周刊 | 309

你可能感兴趣的:(音视频)