迷路国王

即时通讯音视频开发（十八）：详解音频编解码的原理、演进和应用选型

1、引言

大家好，我是刘华平，从毕业到现在我一直在从事音视频领域相关工作，也有一些自己的创业项目，曾为早期Google Android SDK多媒体架构的构建作出贡献。

就音频而言，无论是算法多样性，Codec种类还是音频编解码复杂程度都远远比视频要高。视频的Codec目前还主要是以宏块为处理单元，预测加变换的混合编码框架，例如H.264和H.265都是在这一框架下。而音频则相当复杂，且不同的场景必须要选择不同的音频编解码器。以下就是本次为大家分享的主要内容，希望通过此次分享可以使大家对音频编解码有一个整体的认识，并在实际应用中有参考的依据。

本次分享的内容提纲：

1）语音／音频编码总表；
2）数字语音基本要素；
3）为什么要压缩；
4）编码器考虑的因素；
5）语音经典编码模型；
6）ISO；
7）编码模型；
8）USAC；
9）编码；
10）使用选型考虑的因素。

2、分享者

刘华平：

现为网易云音乐音视频实验室负责人，上海大学通信学院在职博士；

曾任掌门集团（WIFI万能钥匙）音视频技术研发总监，资深研究员；

行者悟空声学技术有限公司首席技术官(联合创始人)；

阿里巴巴前高级技术专家(P8)，阿里音乐音视频部门总监；

Visualon音频部门经理、盛大创新院研究员、Freescale 上海研发中心多媒体部门；

早期 Google Android SDK多媒体架构的贡献者，开源 AMR_WB 编码器工程开发者。

刘华平拥有5项技术发明专利、二十余篇专业论文和多项软件著作权，参与过浙江省杭州重大专项项目，浙江省金华科委项目，上海市科委项目(球谐域全景音频关键技术研究)。

3.系列文章

《即时通讯音视频开发（一）：视频编解码之理论概述》

《即时通讯音视频开发（二）：视频编解码之数字视频介绍》

《即时通讯音视频开发（三）：视频编解码之编码基础》

《即时通讯音视频开发（四）：视频编解码之预测技术介绍》

《即时通讯音视频开发（五）：认识主流视频编码技术H.264》

《即时通讯音视频开发（六）：如何开始音频编解码技术的学习》

《即时通讯音视频开发（七）：音频基础及编码原理入门》

《即时通讯音视频开发（八）：常见的实时语音通讯编码标准》

《即时通讯音视频开发（九）：实时语音通讯的回音及回音消除概述》

《即时通讯音视频开发（十）：实时语音通讯的回音消除技术详解》

《即时通讯音视频开发（十一）：实时语音通讯丢包补偿技术详解》

《即时通讯音视频开发（十二）：多人实时音视频聊天架构探讨》

《即时通讯音视频开发（十三）：实时视频编码H.264的特点与优势》

《即时通讯音视频开发（十四）：实时音视频数据传输协议介绍》

《即时通讯音视频开发（十五）：聊聊P2P与实时音视频的应用情况》

《即时通讯音视频开发（十六）：移动端实时音视频开发的几个建议》

《即时通讯音视频开发（十七）：视频编码H.264、V8的前世今生》

《即时通讯音视频开发（十八）：详解音频编解码的原理、演进和应用选型》

《即时通讯音视频开发（十九）：零基础，史上最通俗视频编码技术入门》

4、语言/音频编码总表

上图展示的是语言/音频编码总表，可以看到其比视频编码要复杂得多，单纯的算法也远远比视频要更加复杂。

5、数字语言基本要素

数字声音具有三个要素：

1）采样率；
2）通道数；
3）量化位数。

如上图所示，声音数字化的过程为：

1）采样：在时间轴上对信号数字化；
2）量化：在幅度轴上对信号数字化；
3）编码：按一定格式记录采样和量化后的数字数据。

6、为什么要压缩

压缩音频，主要是为了在降低带宽负担的同时为视频腾出更多带宽空间。
存储和带宽二大因素决定了语音压缩的必要性。

我们看看下面的例子。

长度为4分钟，采样频率为44100Hz,采样深度为16bits,双声音Wav文件大小：

44100Hz16bits4minutes2=(44100/1second)16bits(4minutes(60seconds/1minutes)2=705600bits/second240seconds=169344000bits=169344000/(8bits/1byte)*2=42336000bytes=42336000/(1048576/1M)bytes=40.37MB

MP3，128kbps压缩后文件大小：

128kbps4minutes=(128kbits/1second)(4minutes*(60seconds/1minutes))=(128kbits/1second)*240seconds=30720kbits=30720kbits/(8bits/1byte)=3840kbytes=3840k/(1024k/1M)bytes=3.75Mbytes=3.75MB

正如上面的例子，声音压缩后，存储大小为原大小的十分之一，压缩率十分可观！

7、编码器考虑因素

7.1基本概念

编码器考虑的因素：

1）最佳压缩比；
2）算法的复杂度；
3）算法延时；
4）针对特殊场景下的特定设计；
5）兼容性。

通过一些特定的压缩算法，可以压缩音频文件至原来的1/10，同时人耳也无法分辨压缩前后的声音质量差异，需要满足多种条件才能实现这种效果；而对于编码器，无论是设计阶段还是使用阶段，我们都需要考虑最佳压缩效果、算法的复杂度与算法的延时，结合特殊场景进行特定的设计；而兼容性也是我们不能不考虑的重点。

7.2语音经典编码模型：发音模型

我们的很多编解码器都是基于综合人的发音模型与一些和听觉相关的理论支持研究提出的特定编解码算法。初期我们通过研究人的发音原理来设计音频编解码的算法，包括端到端的滤波或轻浊音等，只有充分理解人的发声原理我们才能在编解码端做出有价值的优化。

【7.2.1】语音编码模型——LPC：

LPC作为经典语音编码模式，其本质是一个线性预测的过程。早期的G.7系列编码模型便是通过此模型对整个语音进行编码，上图展示的过程可与之前的人发声过程进行匹配，每个环节都有一个相应的模块用来支撑人发声的过程。其中使用了AR数学模型进行线性预测，此算法也是现在很多语音编码的重要组成模块。

【7.2.2】语音编码模型——G.729：

G.729同样是经典的语音编码模型之一，也是我们学习语音编码的一个入门级Codec。G.729的文档十分完善，包括每个模块的源代码在内都可直接下载。G.729可以说是在早期发声模型基础上的改进，需要关注的性能指标是帧长与算法上的延时，包括语音质量的MOS分。G.729也有很多变种，由于语音需要考虑系统兼容性，不同的系统指定携带的Codec也不同，音频编码的复杂程度要远高于视频编码。

G.729 建议了共轭结构的算术码本激励线性预测(CS-ACELP)编码方案。G.729算法的帧长为10ms, 编码器含5ms 前瞻，算法时延15ms，语音质量MOS分可达4.0。

7.3语音经典编码模型——听觉模型

除了研究人发声的原理，我们还需要研究人听声的原理，从而更好实现声音的收集与处理。一个声音信号是否能被人耳听见主要取决于声音信号的频率、强度与其他音的干扰。心理声学模型便是用来找出音频信号中存在的冗余信息从而实现在压缩声音信号的同时不影响听觉的目的。心理声学理论的成熟为感知编码系统奠定了理论基础，这里的感知编码主要是ISO编码模型，主要覆盖的声学原理有临界频带、绝对听觉阈值、频域掩蔽、时域掩蔽等。

无论是MP3还是AAC以至于到后面的杜比音效都是基于听觉模型进行的探索与创新。

【7.3.1】临界频带：

由于声音频率与掩蔽曲线不是线性关系，为从感知上来统一度量声音频率，引入了“临界频带”的概念。通常认为，在20Hz到16kHz范围内有24个监界频带。临界频带的单位叫Bark(巴克)。

临界频带主要用于心理声学模型。由于声音频率与掩蔽曲线并非线性关系，为从感知上来统一度量声音频率，我们引入了“临界频带”的概念。人耳对每段的某个频率的灵敏度不同，二者关系是非线性的。通常我们会将人可以听到的整个频率也就是从20Hz到16KHz分为24个频带，可在其中进行时域或频域类的掩蔽，将一些冗余信息从编码中去除从而有效提升压缩率。

【7.3.2】绝对听觉阈值：

绝对听觉阈值也可有效提升压缩率，基于心理声学模型，可去除编码中的冗余部分。

7.4经典音频编码：ISO

▲ 经典音频编码：ISO

我们可将最早的MP3 Layer1理解为第一代的ISO感知编码，随后的一些纯量化内容更多的是在压缩上进行改进而核心一直未改变。从MP3 Layer1到Layer2与Layer3，主要的改变是心理声学模型的迭代。

▲ MPEG1 LayerI Codec

▲ MPEG1 LayerIII Codec

上图展示的是Encode与Decode的回路。输入的PCM首先会经过多子带分析与频域中的心理声学模型冗余处理，而后进行量化编码；Layer III中的是我们现在常说的MP3的Codec：Encode与Decode之间的整体回路，相比于Layer1多了几个处理环节以及霍夫曼编码。

7.5AAC协议族

▲ AAC家族

AAC与G.719一样包括很多系列，但AAC的巧妙之处在于向下兼容的特性。开始时我们就强调，所有Codec在设计时都需要考虑兼容性，瑞典的Coding Technology公司曾提出在兼容性上特别优化的方案。AAC Plus V1包括AAC与SBR，AAC Plus V2包括AAC+SBR+PS，现在常见的很多音乐类或直播音频编码都是基于AAC Plus协议族进行的。

德国的霍朗浦学院曾在AAC低延时协议扩展方面做出一些探索并得到了AAC LD协议族，其原理仍基于传统的AAC模块，但在后端会对处理长度进行调整，例如之前是以1024bit为一个处理单位，那改进后则以960bit为一个处理单位。除此之外AAC LD加入了LD-SBR与LD-MPS等，从而形成一个规模较大的AAC-ELD V2模块，可以说是十分巧妙。

【7.5.1】AACPlus核心模块——SBR（Spectral Band Replication）：

▲ SBR(Spectral Band Replication)

我们可以看到，AAC可以说充分利用了频域扩展，用很小的代价实现诸多功能优化。AAC的核心之一是SBR，这是一种使用极少位数就可描述高频部分并在解码时进行特殊优化从而实现频域扩展的模块。上图展示的是不同压缩率模块所覆盖的频率取值范围，而使用AAC时需要注意一个被称为“甜点码率”的指标。无论是采样率还是码率都是变化的，在应用时选择何种码率十分关键。例如直播时采用64Kbps即可在覆盖整个频段的同时保持良好音质。

【7.5.2】AACPlus核心模块——PS（Parametric Stereo）：

▲ ：PS(Parametric Stereo)
PS 描述参数：IID(Inter-channel Intensity Difference),，ICC(Inter-channel Cross-Correlation)，IPD(Inter-channel Phase Difference)。

▲ AACPlus v2编码框图

▲ AACPlus v2解码框图

PS模块也是AAC的核心模块之一，主要用于分析左右声道属性并使用非常少的位数表示左右声道相关性，而后在解码端将左右声道分离。这里比较巧妙的是PS的向下兼容特性，整体数据打包是分开进行的。如果获取到AAC、SBR、PS三者的基本数据包后，在解码阶段我们就只需AAC—LC。上图展示的就是AAC的解码框架，如果大家读过3GPP的代码就可发现其每一个模块都相当清楚。我们可根据文档读取代码并对应到每一个环节。

【7.5.3】甜点码率：

▲ AAC 甜点码率

甜点码率是一项很关键的指标。例如在手机直播应用场景中，一般的视频分辨率为640×360，音频码率大约在800K左右。如果音频码率过大则会直接影响视频质量，因而我们需要控制音频码率在一个较为合适的范围内从而实现最佳的音画效果。在很多应用场景中可能需要系统根据不同的网络环境下载不同音质的文件，例如在2G环境中下载较小的文件，这样做主要是为了节省带宽并提高音频文件的播放流畅程度。

7.6AAC-ELD家族

**AAC-ELD家族产生背景：**aacplus v2 已经在压缩和音质方面做到了近似于极致，但由于算法实现上的长达100ms左右的延时极大的阻碍aacplus v2在实时通讯领域的应用。Fraunhofer IIS 为了解决这个问题，对AAC进行相关改进，形成了AAC-ELD协议族。

▲ AAC-ELD家族

AAC-ELD家族带来的主要改进是低延迟。如果Codec的延迟太长便无法在一些特定场景中被使用。例如早期AAC Plus V2的整体延迟可达100ms，如此高的延迟肯定无法被应用于语音通话等对实时性要求极高的应用场景。霍朗普学院推出的AAC-ELD可在保持音质的前提下将延迟降低至15ms，相对于MP3最高长达200ms的延迟而言提升巨大。

7.7应用中端到端的延迟

▲ 端到端的延时

编解码过程也存在延时问题，这也是我们选择编解码器时需要考虑的最主要因素之一，编解码的延时主要由处理延时与算法延时组成，例如G.729的算法延时为15ms，而AAC-LC可达到一百毫秒以上。另外，播放端或采集端的长帧数量太多，播放时缓存太多等也会直接影响延时，我们在选择编解码器时需要考虑延时带来的影响。

编解码器已经历了两个发展方向：

1）一个是以G.7（G.729）为例，根据发声模型设计的一套主要集中于语音方面的编解码算法；
2）另一个是以ISO的MP3和AAC为例，根据心理声学模型设计的一套感知编码。

**最近的趋势是编码的统一：**原来在语音场景下我们使用8K或16K进行采样，音乐场景下则需使用覆盖到全频带的44.1K进行采样，每个Codec都有一个频域覆盖的范围。在之前的开发中，如果应用场景仅针对压缩语音那么需要选择语音编码方案，如果应用场景针对压缩音乐则需要选择音乐编码方案，而现在的发展方向是通过一套编码从容应对语音与音乐两个应用场景，这就是接下来将要被提到的USAC。

这里介绍两个比较典型的Codec：

1）一个是Opus，通过其中集成的模块可实现根据传入音频文件的采样率等属性自动选择语音编码或音乐编码；
2）另一个是EVS这也是霍朗普等组织推行的方案，已经尝试用于4G或5G之中。

**EVS (Enhanced Voice Services)：**主要是VoiceAge, Dolby, Fraunhofer, 华为联合开发的USAC编码器，低速率音乐编码质量很好。

▲ USAC

由框图我们可以了解到USAC向下兼容的特性。

编解码器可总结为经历了三个时代：

1）发声模型；
2）听觉感知；
3）融合方案。

接下来我将展示目前所有的Codec情况并整理为表格以方便大家检索查阅。

8、解码器（Codec）总结

8.1IETF系列

IETF作为标准协议联盟组织之一推出了以上Codec：Opus包括采样率为8kHz、甜点码率为11kbps的窄带单声语音（SILK），采样率为16kHz、甜点码率为20kbps的宽带单声语音与采样率为48kHz、甜点码率为32kbps的全带单声语音（CELT），采用甜点码率意味着将压缩率和音质保持在一个良好的平衡状态。在一些窄带单声语音应用场景例如常见的微信语音聊天，其压缩率可达到原来的8.5%。Opus没有技术专利和源代码的门槛，使得其受到现在很多流媒体厂商的欢迎，Opus支持更广的码率范围，具备丰富采样率选择，可实现极低延迟与可变帧大小，也具备以往一些Codec的许多特性如CBR、VBR、动态调整等，支持的通道数量也更多。除此之外，Opus同样具备许多从SILK移植而来的特性或功能。如在VUIB传输上集成了扛丢包模式等。

iLBC早在SILK未出现时就被提出同样具备抗丢包。的特性，高达15.2kbps的甜点码率与4.14的Mos使其音质较为良好，超过G.729的相关指标；GSM就是最早手机网络仍停留在2G时代时流行的编码形式，主要用于蜂窝电话的编码任务。

8.2AMR系列

AMR早在3G时期就被广泛应用，AMR-NB是最流行的语音编码器，具有压缩效果好，支持多种码率形式的特点；与此同时，这也是GSM与3G时期Android平台最早支持的窄带语音编码方案。AMR-WB作为AMR-NB向宽带的扩展版，主要用于3G和4G通话标准协议中，其甜点码率为12.65kbps。在实践中我们将码率参数调整为此值即可实现压缩率与质量的平衡。AMR-WB+则是上述两者的融合，三者共同构成AMR系列。

8.3ITU-T G系列

ITU-T G系列包括最早的波形编码G711到现在大家熟悉的G.729这里我想强调的是G722.1 Siren7、G722.1c Siren14与G719 Siren22，例如G.719可覆盖整个前频带且支持立体声。即使都属于老协议，但由于其优秀的兼容性，不应被我们忽略。

将Opus与其他一些Codec进行对比我们可以看到，无论是质量还是延时控制，Opus的优势十分明显；加之Opus作为开源的免费方案，不存在专利限制，受到业界追捧也不足为奇。

8.4ISO系列

ISO里我想强调的是MP3与AAC，二者同样支持很多码率。MP3的甜点码率为128kbps，MP3 Pro的码率可达到MP3的一半；AAC支持8～96khz的采样率，AAC-LC的甜点码率为96kbps，HE-AAC的甜点码率为32kbps，AAC-LD与ELD做到了AAC的低延时，实现了延时与压缩比的最佳平衡。

8.53GPP系列：EVRC

EVRC 是CDMA 中使用的语音编解码器，由高通公司1995年提出目标是取代QCELP。

高通公司主推的3GPP是CDMA中使用的语音编解码器，在未来选择编解码器类型时我们需要特别考虑延时与帧长。由于语音编码种类很多，帧长也是复杂多变的，其背后的算法复杂程度，RAM、ROM占用等都是在实践当中需要着重考虑的。

8.6极低码率

极低码率主要的应用场景是对讲机、卫星通讯、军工等。

上图图表中的MELP最早由美国军方开发，现在绝大多数的对讲机都基于此模型进行扩展开发，压缩后的码率可达到2.4kbps而目前最极端的极低码率可实现300bps，相当于压缩为原数据的0.2%，此时的音频文件仅能被用于传达语音内容而丢失了很多声色。

8.7全频带

全频带中的组合也是多种多样。

9、编解码使用注意

9.1License

▲ 开源项目常用的Lisence

国内大部分企业在开发时容易忽视包括专利安全性在内的与License相关的内容。如果企业计划得比较长远，需要长期使用某项技术或企业规模不断扩大时则不能不考虑专利问题。专利费用包括Open Source与算法专利，二者完全独立互不干涉，如果我们从某家专利公司购买了AAC的专利算法，并不能获得此AAC专利的源代码，仅能获得与此技术相关的专利使用授权。专利公司会给予需要下载的文件列表，通过这种方式实现技术的授权使用。

▲ 一张图看懂Lisence（来自：阮一峰的博客）

上面的二叉树图比较清晰地展示了代码授权的具体流程，随着企业的规模化发展日趋成熟，企业应当规范自身的技术使用行为，尽可能避免专利纠纷带来的不利影响。

9.2专利

▲ 2个著名的多媒体技术专利池

主流语音编解码技术拥有两个专利池：

1）MPEG-LA；
2）Via Licensing。

很多非常复杂的Codec涉及高达上千个专利，与之相关的企业或组织多达几十个，为专利授权而与每一个企业或组织进行洽谈显然是不现实的，因而专利池的出现使得技术授权更加规范清晰，方便企业统一处理技术授权问题。

9.3常见Codec Patent License

希望大家在使用技术的同时尊重知识产权，助力技术创新可持续发展。

【RTSP】客户端（一）：RTSP协议实现 gma999 网络
概述RTSP主要功能总结RTSP本质是一个应用层协议，主要用于控制实时数据的传递，例如音视频流。RTSP的传输方式与HTTP类似，与HTTP不同在于RTSP主要用于控制传输媒体服务器上的流媒体会话。所以其是一个客户端-服务器模型，客户端需要发送请求给服务器，然后服务器返回响应主要功能建立和终止流媒体会话：客户端可以使用RTSP来请求服务器建立或者终止流媒体会话控制媒体流的播放：客户端实现控制媒体流
工程化与框架系列（27）--前端音视频处理一进制ᅟᅠ ‌‍‎‏ 前端工程化与框架前端音视频状态模式
前端音视频处理引言前端音视频处理是现代Web应用中的重要组成部分，涉及音频播放、视频处理、流媒体传输等多个方面。本文将深入探讨前端音视频处理的关键技术和最佳实践，帮助开发者构建高质量的多媒体应用。音视频技术概述前端音视频处理主要包括以下技术方向：音频处理：音频播放、录制、分析视频处理：视频播放、录制、编辑流媒体：实时音视频、直播推流WebRTC：点对点通信媒体格式：编解码、转换音频处理实现音频播放
Html5学习教程，从入门到精通， HTML5超链接应用的详细语法知识点和案例代码（18）知识分享小能手网页开发前端开发编程语言如门 html5 学习前端 html java 后端 css3
HTML5超链接应用的详细语法知识点和案例代码超链接（Hyperlink），也称为跃点链接，是互联网和文档编辑中的一种重要概念。超链接的定义超链接是指从一个网页指向一个目标的连接关系，这个目标可以是另一个网页，也可以是相同网页上的不同位置，还可以是一个图片、动画、程序、电子邮件地址、文件，甚至是一个音视频文件。如果点击了这个链接，当前页面的位置就会跳转到被链接的目标位置。在文档编辑中，超链接可以链
HarmonyNext实战：基于ArkTS的高性能音视频播放器开发 harmonyos-next
HarmonyNext实战：基于ArkTS的高性能音视频播放器开发引言在HarmonyNext生态系统中，音视频播放是一个复杂且具有挑战性的领域。本文将深入探讨如何利用ArkTS语言开发一个高性能的音视频播放器，涵盖从基础播放功能到高级控制与优化的完整流程。我们将通过一个实战案例，详细讲解如何实现一个支持多种格式、流畅播放的音视频播放器，并确保其性能优化。1.环境准备与项目初始化首先，确保你的开发
HarmonyNext实战案例：基于ArkTS的高性能音视频处理应用开发 harmonyos-next
HarmonyNext实战案例：基于ArkTS的高性能音视频处理应用开发引言在HarmonyNext生态系统中，ArkTS作为新一代的编程语言，为开发者提供了强大的工具来构建高性能、跨平台的应用。本文将深入探讨如何使用ArkTS12+语法开发一个高性能的音视频处理应用，涵盖从基础概念到高级技巧的全面讲解。通过本案例，您将学习到如何利用HarmonyNext的特性，结合ArkTS的强大功能，实现复杂
HarmonyNext实战：基于ArkTS的跨平台音视频流媒体应用开发 harmonyos-next
HarmonyNext实战：基于ArkTS的跨平台音视频流媒体应用开发引言在HarmonyNext生态系统中，音视频流媒体应用是一个复杂且技术含量较高的领域。本文将深入探讨如何使用ArkTS构建一个高性能的跨平台音视频流媒体应用，涵盖从音视频采集、编码、传输到播放的完整开发流程。我们将通过一个实际的案例——实现一个实时音视频直播应用，来展示ArkTS在HarmonyNext平台上的强大能力。环境准
openharmony 富对富 WiFi投屏设计月上柳青 openharmony harmonyos
castengine_wifi_display部件别名Sharing，媒体分享之意。拥有流媒体协议接入、媒体预览、媒体转分发能力，受投播管理服务管理和调用，是音视频投播子系统重要的流媒体能力部件。提供一套简单的NativeC++的接口，主要业务是Miracast投屏，提供以下常用功能：主投端（WFDSource）：主投端发送器，用于投屏Source端业务，可发送多路屏幕镜像流到不同设备。被投端（W
解析：婚恋交友系统APP源码开发攻略,语音视频聊天功能实现步骤核心功能前端后端小程序数据库程序员
系统功能特点1.自定义小程序管理：本系统提供完整的后台管理功能，开发者可以根据自己的需求进行定制和修改，包括但不限于论坛版块管理、帖子管理、用户管理等功能。后台管理界面简洁明了，操作方便，大大降低了开发门槛。2.完整的安装代码包：本系统提供完整的安装代码包，包括小程序前端代码、后端服务代码以及数据库结构等。开发者只需按照说明进行安装和配置，即可快速搭建起一个功能完备的社区论坛小程序。3.丰富的功能
优化UDP在实时传输中的可靠性白总Server udp 网络安全 ide stm32 单片机 proteus
虽然UDP（用户数据报协议）本身是无连接的、不可靠的传输协议，但在实时音视频传输等需要低延迟的应用中，可以通过一些机制来优化其可靠性。是几种常见的优化方法：1.应用层重传机制（Application-LevelRetransmission）原理:在应用层实现数据包的确认和重传机制。当接收方发现数据包丢失时，发送方可以在超时后重新发送丢失的数据包。实现方法:选择性重传:仅重传丢失的数据包，而不是整个
C语言基础系列【20】内存管理程序喵大人 C语言基础系列 c语言开发语言 c++后端面试
博主介绍：程序喵大人35-资深C/C++/Rust/Android/iOS客户端开发10年大厂工作经验嵌入式/人工智能/自动驾驶/音视频/游戏开发入门级选手《C++20高级编程》《C++23高级编程》等多本书籍著译者更多原创精品文章，首发gzh，见文末记得订阅专栏，以防走丢C++基础系列专栏C语言基础系列C++大佬养成攻略在C++编程中，内存管理是一个至关重要的概念。要深入理解内存管理，我们肯定要
WebRTC简介及实战应用 — 从0到1实现实时音视频聊天等功能不怕麻烦的鹿丸 HTML5 JavaScript WebRTC webrtc 实时音视频前端音视频 javascript html5 html
一、WebRTC简介WebRTC是由一家名为GobalIPSolutions，简称GIPS的瑞典公司开发的。Google在2011年收购了GIPS，并将其源代码开源。然后又与IETF和W3C的相关标准机构合作，以确保行业达成共识。其中：WebReal-TimeCommunications(WEBRTC)W3C组织：定义浏览器API。Real-TimeCommunicationinWeb-brows
EasyRTC嵌入式音视频通话SDK：基于ICE与STUN/TURN的实时音视频通信解决方案 EasyCVR RTC 音视频实时音视频 h.265 人工智能 webrtc
在当今数字化时代，实时音视频通信技术已成为人们生活和工作中不可或缺的一部分。无论是家庭中的远程看护、办公场景中的远程协作，还是工业领域的远程巡检和智能设备的互联互通，高效、稳定的通信技术都是实现这些功能的核心。EasyRTC嵌入式音视频通话SDK支持多种类型的网络环境，能够适应不同的网络条件，确保在各种场景下都能实现高效、稳定的实时音视频通信。以下是EasyRTC支持的主要网络环境类型：1、有线网
WebRTC简介小柒的博客 5.linux webrtc
WebRTC简介WebRTC（WebReal-TimeCommunication）是一种支持浏览器之间进行实时音视频通信和数据传输的开放标准和技术。它由Google发起，现已成为W3C和IETF的标准。WebRTC允许开发者在不依赖第三方插件或软件的情况下，直接在网页中实现点对点（P2P）的实时通信。直接在浏览器中运行，无需安装额外的插件或软件。WebRTC是开源技术，并且是W3C和IETF的标准
抖音采集工具Gui版：高效无水印下载抖音视频的神器东风西巷音视频软件需求
抖音采集工具Gui版是一款由52pojie论坛的@biqiang大神自制的功能强大的采集工具。它专为抖音视频下载设计，能够帮助用户轻松获取抖音平台上的各种视频资源，支持批量下载，极大地提升了下载效率。全面的资源采集支持采集抖音作品、Webp动态封面、短剧、喜欢、话题、音乐等多种内容。无论是热门视频还是小众作品，都能轻松下载。批量下载与高效管理用户可以批量下载指定作者的所有作品、单个视频、某话题下的
颜永红:大模型时代的智能音频处理 | 演讲嘉宾公布声光界人工智能音视频
一、GAS20242024中国国际音频产业大会(GAS)将于2024年3.27-28日在上海张江科学会堂举办。大会将以“音无界，@未来（Audio，@Future）”为主题。大会由中国电子音响行业协会、上海市浦东新区先进音视频技术协会共同主办，上海国展展览中心有限公司承办。GAS2024作为中国最大的音频产业盛会之一，不仅展示了音频技术的最新成果，还为业界人士提供了一个交流和合作的平台。大会始终致
FFmpeg 4.3 音视频-多路H265监控录放C++开发十三：将AVFrame转换成AVPacket。视频编码原理.编码相关api，H264特殊参数说明 hunandede FFmpeg4.3 ffmpeg 音视频 c++
前提：从前面的学习我们知道AVFrame中是最原始的视频数据，这一节开始我们需要将这个最原始的视频数据压缩成AVPacket数据，我们前面，将YUV数据或者RGBA数据装进入了AVFrame里面，并且在SDL中显示。也就是说：对于安防项目来说，我们将原始从摄像头数据(YUV,RGB)转换成AVFrame后，可以直接显示出来。但是如果我们将要数据存储，则要将AVFrame转成AVPacket.视频编
音视频入门基础：RTP专题（13）——SDP的packetization-mode 崔杰城音视频技术音视频
一、引言由《音视频入门基础：RTP专题（3）——SDP简介》可以知道，SDP中的packetization-mode表示RTP有效载荷类型的属性或接收器实现的功能。只能指示一个配置点；因此，当声明支持一种以上数据包化模式的功能时，必须使用多个配置点（RTP有效载荷类型）。当packetization-mode值等于0或不存在packetization-mode时，表示必须使用SingleNALun
B站自研的第二代视频连麦系统（上）哔哩哔哩技术 webrtc 直播
导读本系列文章将从客户端、服务器以及音视频编码优化三个层面，介绍如何基于WebRTC构建视频连麦系统。希望通过这一系列的讲解，帮助开发者更全面地了解WebRTC的核心技术与实践应用。背景在文章《B站在实时音视频技术领域的探索与实践》中，提到了直播行业从传统娱乐直播发展到教育、电商等新形式，用户对实时互动直播的需求增加。B站基于WebRTC的开发了一套视频连麦系统：这套系统优先选择UDP协议以保证低
FFmpeg 6.0实现视频硬解码大王算法 ffmpeg 音视频 c++1024程序员节
目录一、背景二、FFmpeg6.0实现视频硬解码的操作步骤2.1、安装FFmpeg6.02.2、配置FFmpeg解码器2.3、转换视频流格式2.4、在Surface设备上显示视频三、总结一、背景随着计算机技术的不断发展，视频编解码技术也在不断进步。FFmpeg作为一款强大的开源音视频处理工具，广泛应用于音视频处理的各种场景。而在实际的应用中，我们常常需要将解码后的视频流输出到特定的显示设备，如Mi
音视频处理中的基本概念码农飞飞音视频处理基本概念音视频编码解码
文章目录编码(encode)解码(decode)转码(transcode)视频编码音频编码视频编码参数解析音频编码参数解析各种音视频流介绍流媒体传输部署结构实时流式传输工作流程直播过程的几种工作模式要想入门并学好音视频处理，明白理解音视频处理中的各种基本概念是第一步。这是音视频处理工作中的基石。掌握了解这些概念，对于在音视频领域的发展大有裨益。这里总结了音视频处理中常涉及到的一些概念，希望对想从事
Linux音视频学习--音视频编解码相关基本概念介绍文艺小少年 IPC项目实践之音视频相关整理音视频 linux dsp isp
一、引言二、ISP、DSP------>1、ISP------------>内置isp------>2、DSP三、编解码------>1、视频编码------------>各个格式(H264/H265)的编码------------>码率调节------>2、音频编码------>3、码流、采样率、比特率、采样点数概念介绍------>4、采样点数一、引言入职的事终于告一段落，现在要慢慢开始熟悉新
【音视频】ffplay播放控制浅慕Antonio 音视频
一、ffplay播放控制1.1、ffplay打开视频比如我当前目录下现在有一个1.mp4的视频，可以使用下面的命令用ffplay打开并播放它ffplay1.mp4输入后回车即可打开相应的视频1.2ffplay播放控制使用q、ESC退出播放按f、双击切换全屏状态按m切换为静音按9减少音量，按0添加音量按a循环切换音频流按v循环切换视频流按t循环切换字幕流按c循环切换节目按w循环切换过滤器或显示模式按
【音视频】视频基本概念浅慕Antonio 音视频
一、视频的基本概念1.1视频码率（kb/s）视频码率是指视频文件在单位时间内使用的数据流量，也叫码流率。码率越大，说明单位时间内取样率越大，数据流进度也就越高1.2视频帧率（fps）视频帧率是指一秒钟的视频帧数量，如果一个视频是25帧的，那么就说明这个视频在1s内有25个视频帧。帧率越高，给人的视觉就越流畅1.3视频分辨率视频分辨率指的是视频帧中的的像素个数，比如640*480分辨率，指的就是在视
HarmonyNext实战：基于ArkTS的跨平台音视频播放器开发 harmonyos-next
HarmonyNext实战：基于ArkTS的跨平台音视频播放器开发引言在HarmonyNext生态系统中，音视频处理是一个重要且复杂的领域。本文将深入探讨如何使用ArkTS语言开发一个跨平台的音视频播放器，涵盖从音视频解码到播放控制的完整流程。我们将通过一个实战案例，详细讲解如何利用HarmonyNext的多媒体能力，结合ArkTS的现代语法，构建一个高效、灵活的音视频播放器。1.项目概述1.1目
HarmonyNext实战：基于ArkTS的高性能实时音视频通信应用开发 harmonyos-next
HarmonyNext实战：基于ArkTS的高性能实时音视频通信应用开发引言实时音视频通信是现代应用中不可或缺的功能，尤其是在远程会议、在线教育、社交互动等场景中。HarmonyNext作为华为最新的操作系统，提供了强大的多媒体处理能力和高效的网络通信支持。本文将深入探讨如何在HarmonyNext平台上使用ArkTS开发一个高性能的实时音视频通信应用，涵盖从基础理论到实战案例的完整流程。1.实时
基于 FFmpeg 实现 H.264 转 MP4 视频转码码农新猿类 FFMPEG ffmpeg
引言FFmpeg是强大的开源音视频处理库，能实现多种音视频操作。本文将分享如何用FFmpeg把H.264视频文件转码为MP4格式。代码整体思路代码把转码功能封装在TranceVideo类中，通过一系列步骤完成H.264到MP4的转码，包括初始化、打开输入文件、获取视频流信息、确定输出格式、创建输出文件、转码并写入帧数据，最后清理资源。详细步骤1.初始化在类的构造函数里，进行基础的初始化操作：cpp
ASL CS5261：高性能Type-C转HDMI转换芯片自动驾驶人工智能
CS5261是集睿致远ASL推出的一款高度集成的USBType-C转HDMI音视频转换芯片，专为4K@30Hz高清投屏设计，广泛应用于转接线、扩展坞、投影仪等设备。其核心功能包括支持USBType-C显示端口替代模式（DPAltMode），实现音视频信号与5V慢充功能同步传输，满足多场景需求。ASLCS5261关键特性高清输出与兼容性：支持HDMI2.0b标准，最大分辨率达4K@30Hz（3840
音视频开发——基础知识篇真的不会重复的昵称我的音视频服务器开发学习之路音视频
1、视频传输原理视频是利用人眼短暂停留的原理，通过连续播放一系列的图片使人产生画面里的人物在运动的感觉。但是视频里面通常会有大量的重复信息。例如早期拍电影用胶卷，一个演员坐在房间内的椅子上抽烟，一秒钟如果用25张胶卷，那么不同胶卷拍下来的内容有相同也有不同，不同的是演员的动作，神态；相同的是房间内的一切布局。在数字化的今天，为了方便视频的传输，肯定是不喜欢重复传输视频中每一张照片的同样的信息。因此
国内实时音视频技术哪家更强？核心功能对比揭晓答案
当前实时音视频开发领域呈现出多样化竞争态势，其中声网（Agora）、即构（ZEGO）等云通讯企业占据了市场的主导地位。随着技术的持续进步和用户需求的日益多样化，选择音视频服务提供商的标准也越来越个性化，这不仅促进了音视频服务商之间的竞争更加激烈，也让用户在选择时更加注重产品的性能、质量以及成本效益。不论是对于规模较大的企业还是小型公司而言，这两个因素都是决定合作伙伴选择的关键点。本文接下来将对比那
2025版 RTC、直播、点播技术对比｜腾讯云/即构/声网如何选型 rtc音视频直播腾讯云声网
前言作为一个有多年实战经验的开发者，在音视频技术领域我深刻体会到RTC（实时通信）、直播和点播三者的不同。虽然它们的核心都涉及音视频内容的传输，但在实际应用中，它们的技术实现、使用场景以及所面临的挑战各不相同。在这篇文章中，我将从多个维度为大家剖析这三者的技术区别，帮助大家在选择技术栈时做出更明智的决策。一、RTC（实时通信）：实时互动，低延迟至关重要应用场景RTC技术常常应用于需要低延迟和双向互
解线性方程组 qiuwanchi
package gaodai.matrix; import java.util.ArrayList; import java.util.List; import java.util.Scanner; public class Test { public static void main(String[] args) { Scanner scanner = new Sc
在mysql内部存储代码 annan211 性能 mysql 存储过程触发器
在mysql内部存储代码在mysql内部存储代码，既有优点也有缺点，而且有人倡导有人反对。先看优点： 1 她在服务器内部执行，离数据最近，另外在服务器上执行还可以节省带宽和网络延迟。 2 这是一种代码重用。可以方便的统一业务规则，保证某些行为的一致性，所以也可以提供一定的安全性。 3 可以简化代码的维护和版本更新。 4 可以帮助提升安全，比如提供更细
Android使用Asynchronous Http Client完成登录保存cookie的问题 hotsunshine android
Asynchronous Http Client是android中非常好的异步请求工具除了异步之外还有很多封装比如json的处理，cookie的处理引用 Persistent Cookie Storage with PersistentCookieStore This library also includes a PersistentCookieStore whi
java面试题 Array_06 java 面试
java面试题第一，谈谈final, finally, finalize的区别。 final-修饰符（关键字）如果一个类被声明为final，意味着它不能再派生出新的子类，不能作为父类被继承。因此一个类不能既被声明为 abstract的，又被声明为final的。将变量或方法声明为final，可以保证它们在使用中不被改变。被声明为final的变量必须在声明时给定初值，而在以后的引用中只能
网站加速 oloz 网站加速
前序:本人菜鸟，此文研究总结来源于互联网上的资料，大牛请勿喷！本人虚心学习，多指教. 1、减小网页体积的大小，尽量采用div+css模式，尽量避免复杂的页面结构，能简约就简约。 2、采用Gzip对网页进行压缩； GZIP最早由Jean-loup Gailly和Mark Adler创建，用于UNⅨ系统的文件压缩。我们在Linux中经常会用到后缀为.gz
正确书写单例模式随意而生 java 设计模式单例
　　单例模式算是设计模式中最容易理解，也是最容易手写代码的模式了吧。但是其中的坑却不少，所以也常作为面试题来考。本文主要对几种单例写法的整理，并分析其优缺点。很多都是一些老生常谈的问题，但如果你不知道如何创建一个线程安全的单例，不知道什么是双检锁，那这篇文章可能会帮助到你。　　懒汉式，线程不安全　　当被问到要实现一个单例模式时，很多人的第一反应是写出如下的代码，包括教科书上也是这样
单例模式香水浓 java
懒汉调用getInstance方法时实例化 public class Singleton { private static Singleton instance; private Singleton() {} public static synchronized Singleton getInstance() { if(null == ins
安装Apache问题：系统找不到指定的文件 No installed service named "Apache2" AdyZhang apache http server
安装Apache问题：系统找不到指定的文件 No installed service named "Apache2" 每次到这一步都很小心防它的端口冲突问题，结果，特意留出来的80端口就是不能用，烦。解决方法确保几处： 1、停止IIS启动 2、把端口80改成其它（譬如90，800，，，什么数字都好） 3、防火墙(关掉试试) 在运行处输入 cmd 回车，转到apa
如何在android 文件选择器中选择多个图片或者视频？ aijuans android
我的android app有这样的需求，在进行照片和视频上传的时候，需要一次性的从照片/视频库选择多条进行上传但是android原生态的sdk中，只能一个一个的进行选择和上传。我想知道是否有其他的android上传库可以解决这个问题，提供一个多选的功能，可以使checkbox之类的，一次选择多个处理方法官方的图片选择器(但是不支持所有版本的androi，只支持API Level
mysql中查询生日提醒的日期相关的sql baalwolf mysql
SELECT sysid,user_name,birthday,listid,userhead_50,CONCAT(YEAR(CURDATE()),DATE_FORMAT(birthday,'-%m-%d')),CURDATE(), dayofyear( CONCAT(YEAR(CURDATE()),DATE_FORMAT(birthday,'-%m-%d')))-dayofyear(
MongoDB索引文件破坏后导致查询错误的问题 BigBird2012 mongodb
问题描述： MongoDB在非正常情况下关闭时，可能会导致索引文件破坏，造成数据在更新时没有反映到索引上。解决方案：使用脚本，重建MongoDB所有表的索引。 var names = db.getCollectionNames(); for( var i in names ){ var name = names[i]; print(name);
Javascript Promise bijian1013 JavaScript Promise
Parse JavaScript SDK现在提供了支持大多数异步方法的兼容jquery的Promises模式，那么这意味着什么呢，读完下文你就了解了。一.认识Promises “Promises”代表着在javascript程序里下一个伟大的范式，但是理解他们为什么如此伟大不是件简
[Zookeeper学习笔记九]Zookeeper源代码分析之Zookeeper构造过程 bit1129 zookeeper
Zookeeper重载了几个构造函数，其中构造者可以提供参数最多，可定制性最多的构造函数是 public ZooKeeper(String connectString, int sessionTimeout, Watcher watcher, long sessionId, byte[] sessionPasswd, boolea
【Java命令三】jstack bit1129 jstack
jstack是用于获得当前运行的Java程序所有的线程的运行情况(thread dump），不同于jmap用于获得memory dump [hadoop@hadoop sbin]$ jstack Usage: jstack [-l] <pid> (to connect to running process) jstack -F
jboss 5.1启停脚本　动静分离部署 ronin47
以前启动jboss，往各种xml配置文件，现只要运行一句脚本即可。start nohup sh /**/run.sh -c servicename -b ip -g clustername -u broatcast jboss.messaging.ServerPeerID=int -Djboss.service.binding.set=p
UI之如何打磨设计能力? brotherlamp UI ui教程 ui自学 ui资料 ui视频
在越来越拥挤的初创企业世界里，视觉设计的重要性往往可以与杀手级用户体验比肩。在许多情况下，尤其对于 Web 初创企业而言，这两者都是不可或缺的。前不久我们在《右脑革命：别学编程了，学艺术吧》中也曾发出过重视设计的呼吁。如何才能提高初创企业的设计能力呢?以下是 9 位创始人的体会。 1.找到自己的方式如果你是设计师，要想提高技能可以去设计博客和展示好设计的网站如D-lists或
三色旗算法 bylijinnan java 算法
import java.util.Arrays; /** 问题：假设有一条绳子，上面有红、白、蓝三种颜色的旗子，起初绳子上的旗子颜色并没有顺序，您希望将之分类，并排列为蓝、白、红的顺序，要如何移动次数才会最少，注意您只能在绳子上进行这个动作，而且一次只能调换两个旗子。网上的解法大多类似：在一条绳子上移动，在程式中也就意味只能使用一个阵列，而不使用其它的阵列来
警告:No configuration found for the specified action: \'s chiangfai configuration
1.index.jsp页面form标签未指定namespace属性。  <%@taglib prefix="s" uri="/struts-tags"%> ... <s:form action="submit" method="post"&g
redis -- hash_max_zipmap_entries设置过大有问题 chenchao051 redis hash
使用redis时为了使用hash追求更高的内存使用率，我们一般都用hash结构，并且有时候会把hash_max_zipmap_entries这个值设置的很大，很多资料也推荐设置到1000，默认设置为了512，但是这里有个坑 #define ZIPMAP_BIGLEN 254 #define ZIPMAP_END 255 /* Return th
select into outfile access deny问题 daizj mysql txt 导出数据到文件
本文转自：http://hatemysql.com/2010/06/29/select-into-outfile-access-deny%E9%97%AE%E9%A2%98/ 为应用建立了rnd的帐号，专门为他们查询线上数据库用的，当然，只有他们上了生产网络以后才能连上数据库，安全方面我们还是很注意的，呵呵。授权的语句如下： grant select on armory.* to rn
phpexcel导出excel表简单入门示例 dcj3sjt126com PHP Excel phpexcel
<?php error_reporting(E_ALL); ini_set('display_errors', TRUE); ini_set('display_startup_errors', TRUE); if (PHP_SAPI == 'cli') die('This example should only be run from a Web Brows
美国电影超短200句 dcj3sjt126com 电影
1. I see．我明白了。2. I quit! 我不干了!3. Let go! 放手!4. Me too．我也是。5. My god! 天哪!6. No way! 不行!7. Come on．来吧(赶快)8. Hold on．等一等。9. I agree。我同意。10. Not bad．还不错。11. Not yet．还没。12. See you．再见。13. Shut up!
Java访问远程服务 dyy_gusi httpclient webservice get post
随着webService的崛起，我们开始中会越来越多的使用到访问远程webService服务。当然对于不同的webService框架一般都有自己的client包供使用，但是如果使用webService框架自己的client包，那么必然需要在自己的代码中引入它的包，如果同时调运了多个不同框架的webService，那么就需要同时引入多个不同的clien
Maven的settings.xml配置 geeksun settings.xml
settings.xml是Maven的配置文件，下面解释一下其中的配置含义： settings.xml存在于两个地方： 1.安装的地方：$M2_HOME/conf/settings.xml 2.用户的目录：${user.home}/.m2/settings.xml 前者又被叫做全局配置，后者被称为用户配置。如果两者都存在，它们的内容将被合并，并且用户范围的settings.xml优先。
ubuntu的init与系统服务设置 hongtoushizi ubuntu
转载自： http://iysm.net/?p=178 init Init是位于/sbin/init的一个程序，它是在linux下，在系统启动过程中，初始化所有的设备驱动程序和数据结构等之后，由内核启动的一个用户级程序，并由此init程序进而完成系统的启动过程。 ubuntu与传统的linux略有不同，使用upstart完成系统的启动，但表面上仍维持init程序的形式。运行
跟我学Nginx+Lua开发目录贴 jinnianshilongnian nginx lua
使用Nginx+Lua开发近一年的时间，学习和实践了一些Nginx+Lua开发的架构，为了让更多人使用Nginx+Lua架构开发，利用春节期间总结了一份基本的学习教程，希望对大家有用。也欢迎谈探讨学习一些经验。目录第一章安装Nginx+Lua开发环境第二章 Nginx+Lua开发入门第三章 Redis/SSDB+Twemproxy安装与使用第四章 L
php位运算符注意事项 home198979 位运算 PHP &
$a = $b = $c = 0; $a & $b = 1; $b | $c = 1 问a,b,c最终为多少? 当看到这题时，我犯了一个低级错误，误以为位运算符会改变变量的值。所以得出结果是1 1 0 但是位运算符是不会改变变量的值的，例如： $a=1;$b=2; $a&$b; 这样a,b的值不会有任何改变
Linux shell数组建立和使用技巧 pda158 linux
1.数组定义　　[chengmo@centos5 ~]$ a=(1 2 3 4 5) 　　[chengmo@centos5 ~]$ echo $a 　　1 　　一对括号表示是数组，数组元素用“空格”符号分割开。　　 2.数组读取与赋值　　得到长度：　　[chengmo@centos5 ~]$ echo ${#a[@]} 　　5 　　用${#数组名[@或
hotspot源码(JDK7) ol_beta java HotSpot jvm
源码结构图，方便理解： ├─agent Serviceab
Oracle基本事务和ForAll执行批量DML练习 vipbooks oracle sql
基本事务的使用：从账户一的余额中转100到账户二的余额中去，如果账户二不存在或账户一中的余额不足100则整笔交易回滚 select * from account; -- 创建一张账户表 create table account( -- 账户ID id number(3) not null, -- 账户名称 nam