[原创]桓泽学音频编解码（3）：AAC 系统算法分析

wikipeida链接

http://zh.wikipedia.org/wiki/AAC

摘录：

进阶音讯编码（英语：Advanced Audio Coding，AAC），出现于1997年，基于 MPEG-2的音讯编码技术。由Fraunhofer IIS、杜比实验室、AT&T、Sony（新力）等公司共同开发，目的是取代MP3格式。

背景

1997年制订不兼容MPEG-1的音频标准MPEG-2 NBC，即MPEG-2 AAC

1999年MPEG-2 AAC增加LTP和PNS工具，形成MPEG-4 AAC v1

2002年MPEG-4 AAC v1增加了SBR和错误鲁棒性工具，形成MPEG-4 HE-AAC

2004年MPEG-4 HE-AAC引入PS模块，提升低码率性能，形成EAAC+

技术指标

采样率：8kHz - 96kHz

码率： 8kbps - 576kbps

声道：最多支持48个主声道，16个低频增强声道

1.1 系统框图

编码框图

解码框图

1.2 编码概述

其整体AAC 编解码系统，如图所示，其编码流程概述如下：为当一音频信号送至编码端时，会分别送至听觉心里模型(Psychoacoustic Model)以求得编码所需之相关参数及增益控制(gain control)模块中，将信号做某个程度的衰减，以降低其峰值大小，如此可减少Pre-echo 的发生。之后，再以MDCT 将时域信号转换至频率域，而送入至TNS(Temporal Noise Shaping Module)模块中，来判断是否需要启动TNS，此模块系利用开回路预测(open-loop prediction) 来修饰其量化噪声，如此可将其量化噪声的分布，修饰到原始信号能量所能含盖的范围之下，进一步的减少Pre-echo 的发生，若TNS 被启动，则传出其预测差值；反之，则传出原始频谱值。AAC 为了提升其压缩效率，则使用了Joint Stereo Coding与预测(Prediction)模块来进一步消除信号间的冗余成份。在Joint Stereo Coding中又可分为Intensity Stereo Coding 与M/S Stereo Coding。在Intensity Stereo Coding模块中，是利用信号在高频时，人耳只对能量较敏感，对于其相位不敏感之特性，将其左右声道之频谱系数合并，以节省使用之位；在M/S Stereo Coding 模块中，利用左右声道之和与差，做进一步地压缩，若其差值能量很小，如此便可以用较少之位编码此一声道，将剩余之位应用于另一声道上的编码，如此来提升其压缩率。而预测模块的主要架构是使用Backward Adaptive Predictors，利用前两个音频帧来预测现在的音频帧，若决定启动此模块，则传出其预测差值，如此一来可以减少其数据量，达数据压缩之目的。经过上述处理频谱信号上的压缩tools程序后，则将其数据予以量化与编码，为了达到量化编码的最佳化，AAC 使用了双巢状式循环(two nested loop)的量化编码结构，以得最佳的压缩质量，最后则将其位串送至解码端，而完成整个编码程序。

为了允许其系统可对音频质量与内存/处理功率要求之间做一舍取，因此AAC 系统提供了三种profiles：Main profile、Low Complexity(LC) profile、Scaleable Sampling Rate(SSR) profile。且每一种profile所使用的tools皆不同，下表表示其三种不同profile所需使用的tools。

Took Name	Main	LC	SSR
Noiseless	coding	Used	Used
Quantizer	Used	Used	Used
M/S	Used	Used	Used
Prediction	Used	Not	Use
Intersity/Coupling	Used	Not	Use
TNS	Used	Limited	Limited
Filter	Bank	Used	Used
Gain	Control	Not	Use

2. MPEG2 AAC码流格式与解析

MPEG2 AAC规定了2种码流格式ADIF和ADTS，前者用于属于文件格式用于存储，后者属于流格式，用于传输。如图

其中Raw_data_block为基本码流组件，其他部分为格式信息。Raw_data_block格式如下，id_syn_ele:3位标志位，指示后面所跟着的数据流的类型。

id_syn_ele	数据流
ID_SCE(0x0)	single_channel_element()
ID_CPE(0x1)	channel_pair_element()
ID_CCE(0x2)	coupling_channel_element()
ID_LFE(0x3)	lfe_channel_element()
ID_DSE(0x4)	data_stream_element()
ID_PCE(0x5)	program_config_element()
ID_FIL(0x6)	fill_element()

ID_DSE，ID_PCE，ID_FIL所指示的流为扩展流或用户数据流，非核心算法区，故暂不提及。而single_channel_element()，channel_pair_element()，coupling_channel_element()

lfe_channel_element()有如下类似的结构，

individual_channel_stream的核心数据格式如下：

2.3 MPEG2 AAC 码流数据结构层次图

注1：虚线表示可能存在。

注2：section层只在huffman解码时存在。

注3：短窗时windows和scalefactor band 有交织

注4：长窗（含开始窗和结束窗）windows个数和windows_group的个数都是1。

MPEG2 AAC规定1024个sample数据为一个frame，一个frame的sample从时域通过MDCT映射到频域时由于引入50％交叠，所以变成2048个谱线。如果是长块变换则一个frame只有一个window group，每个window group有一个window，每个window 有2048个谱线。如果是短块变换则可能有若个window group，每个window group可能有若干个window，但是所有window group的window个数加一起一定为8个，此时每个windows 有256个谱线。注意分window group的意义在于同一个window group的谱线数据使用一个scalefactor。而每个windows又可以分为n个section（1≤n≤max_sfb(一个frame内最多的scalefactor band的个数)），每个section有若干个谱线数据(spectral data)，但注意，section的边界必须和scalefactor band的边界重合，所以也可以说每个section有若干个scalefactor band。提出section的意义在于统一个section的谱线数据(spectral data)使用同一个huffman table编码。

MPEG2 AAC提出的window group和section的个数都是不定的，所以编码端要在比特流中加入相关的side info用来指示window group和section分割方法。在isc_info()中的scale_factor_grouping和section_data()中的sect_len_incr就是起到这样的作用.

2.2 码流解析

码流可以分为side info的解析和压缩数据的解析，side info解析出的状态信息和控制信息。都使用定长码。解码只要按照格式解析出来即可。由于解码简单和篇幅限制这里就不予提及，请查阅13818-7标准语法部分。其次是对压缩数据的解析，压缩数据属于无损编码，主要是变长码。使用熵编码算法，后面会直接在无损编码部分提及。查阅本文档主要技术中无损编码部分。

3 主要技术

3.1 Filter Bank and Block Switching

滤波器组(Filter Bank)是MPEG-2 AAC 中一个基本的组件，扮演着将音频信号从时间域转换至频谱域之表示，其在解码端则反向处理。对Filter bank而言，它必需具备对音频编码有着完美的重建的特性，然而，有时其音频还原似乎不是如此完美，其主要因素在于，处理时间域转换至频谱域时的音频信号，是以frame by frame 的方式送至Filter bank，也就是将目前的音频信号切割成多个音频帧来处理，因而会造成音频帧间的边缘信号，给予不同精确度的编码，并造成信号的不连续性，都将造成日后还原时，所发生的质量影响，其这种效应，称之为块效应(Blocking effect)，为了解决此一问题，其块间的信号在送入filter bank 之前，一个overlapping windowing 的方式将被采用来减少其信号不连续性。

3.1.1MDCT and IMDCT

在AAC 或是其它音频信号的编解码器上，最普遍解决上述问题的filter bank设计，即为在编码端上的MDCT(Modified Discrete Cosine Transform)及解码端上的IMDCT (Inverse Modified Discrete Cosine Transform)。MDCT/IMDCT 使用了一种技术，称为TDAC(Time Domain Aliasing Cancellation)，它是使用了一种winow-overlape-add 的处理方式来消除时间域上的交迭(aliasing )，如图2.10所示为AAC Filter bank 的框图表示，对一个输入音频信号的目前音频帧，是取前一个音频帧的后面50%与目前输入的音频帧音频值前50%做为此次处理的音频。

MDCT 与IMDCT 的数学式子可分别表示如(2.20)、(2.21)式：

MDCT公式

IMDCT公式

3.1.2Windowing and Block Switching

对一个MDCT filter bank 的频率响应的分辨率改善，进来的音频信号在经MDCT 转换前，需经过一个window function相乘后才送至MDCT。AAC 支持两种window shapes，即sin window 及KBD(Kaiser-Bessel Derived) window，KBD window 可以比sine window 更准确的重建出原始的时间域的信号。在MPEG-2 AAC 系统中，可以允许其KBD 及sin window 的切换，来达到最好的来接受输入信号的状态，而得到更好的音质重建结果。

另外，MPEG-AAC 编码器中，为了在声音特性、编码效率与声音压缩质量上取得适合的块长度，总共提供N=256(短块)与N=2048(长块)两种块长度作为选择。其块的选择，是根据听觉心理模型(Psychoacoustic Model)的PE值来决定。通常，长块的使用可以被选择来减少其信号的冗余部份，并得到较高的频率分辨率，来改善编码质量，但是也可能对某些瞬时信号而产生问题。一般当音频信号在时间域上有变化较大的瞬时信号(Transient signal)时，则以连续的8个短块来处理，可以提升在音频压缩时的精确度并减少pre-echo的发生；相对的，当音乐数据属于稳态的信号(Stationary signal)，则使用长块来处理。而在长短块转换中，还存在着两种缓冲块，长块切换到短块必须经过起始块(start block)才切换到短块，从短块切换到长块也必须经过停止块(stop block)才切换到长块。下图则显示其块切换方式。

3.2 Temporal Noise Shaping

由于MPEG-2 AAC 的块大小比MPEG-1 layer3的还要大，因此，一般在处理单一长块信号时，假如在时间上有一急遽的信号变化时，经由在时间域与频率域上的信号转换，再经量化后，转回其时间域时，有可能会增加造成 pre-echo的现象发生。而pre-echo的发生，从时间域上的遮蔽效应可发现，若一较高的能量是在转换长块的前半部时，其经由量化所产生的噪声，可能被postmasking 所遮蔽，但是若较高的能量是在长块的后半部时，则散布到前半部的噪声将无法被 premasking 所遮蔽，这就是由于对长块而言，其在时间域上的分辨率较低，因此噪声分布范围超过 premasking 的遮蔽范围，而造成量化的噪声将被人耳所听到，此一现象，就是称为 pre-echo。下图所示为pre-echo现象发生所造成时间域上信号的失真。减少 Pre-echo 现象有许多种方式，如经由动态地切换块大小可解决此一问题，另外，在MPEG-2 AAC 中加入了TNS，也是用来减少pre-echo的现象。而TNS 概念是使每个单一块再经过TNS编解码后，将量化噪声的分布能被原信号所遮蔽。

在编码端，首先将经过 MDCT 模块的频域信号送入，利用 Levinson- Durbin recursion 方法取得此音频块的反射系数(reflection coefficients)与预测增益(prediction gain)，当求得的预测增益大于MPEG2-AAC 标准中所设定的常数值，则使用TNS模块，首先为了减少反射系数传送所需的bit rate，将反射系数作量化，然后再经过Truncate coefficients 来调整TNS 系数的阶数，开始会根据不同profile所定义的系数阶数，将后面系数小于0.1的系数值舍去，来调整系数阶数，使得产生的 LPC 预测系数阶数少于 profile 定义的阶数，最后将反射系数经过计算求出TNS 的预测系数，送入TNS filter (MA)中。如果没有启动TNS，则将原始的频域谱线送出。在编码端只需要传送量化后所需要的反射系数阶数以及整数的索引值，而不必传出所有反射系数的信息。给Index 及TNS order的信息将使用在解码端，用来还原量化后的反射系数。当解码端所接收到的反射系数阶数大于 0，代表有使用TNS 编码，在解码端就会启动 TNS 解码模块，求得编码时的预测系数送入 TNS filter(AR)中，解码出频率域上信号的数据。加入TNS 模块后，其也有一些side information的项目需加入至位串(bitstream)里，以提供解码端使用，如表所示。由于 TNS 预测级数对LONG window 而言，最多为20，对SHORT window，最多为7，因此，TNS 在编码中对side information，最多增加的位数目为：

LONG window：1+1*(2+1+6+5+1+1+4) = 97 bits

SHORT window：1+8*(1+1+4+3+1+1+7*4) = 313 bits

Side information	位宽	注释
TNS Present or not	1
Number of filters	2/1	长/短窗
TNS coefficients resolution	1
TNS filter length in band	6/4	长/短窗
TNS filter order	5/3	长/短窗
TNS filter direction	1
Coefficient compress or not	1
Bit per coefficient	4

3.3 Joint Stereo Coding

MPEG AAC 的系统为了提升其编码效率及压缩质量，Joint Stereo Coding 利用了左右声道的特性，对立体音编码引进了两种技术，即M/S Stereo与Intensity Stereo。

3.3.1 M/S Stereo

在MPEG-2 AAC 系统中，M/S(Mid/Side) Stereo coding被提供在多声道信号中，每个声道对(channel pair)的组合，也就是每个通道对，是对称地排列在人耳听觉的左右两边，其方式简单，且对位串不会引起较显著的负担。一般其在左右声道数据相似度大时常被用到，并需记载每一频带的四种能量临界组合，分别为左、右、左右声道音频合并(L+R)及相减(L-R)的两种新的能量，其表示式如(2.34)式所示。然后再利用上面章节所提到听觉心理学模型与滤波器来处理。一般，若所转换的Sid声道的能量较小时，M/S Stereo coding 可以节省此通道的位数，而将多余的位应用于另一个所转换的声道，即Mid 声道，进而可提高此编码效率。对M/S Stereo coding，可以选择性地切换其在时间域上块与块间是否使用

的时机，其切换的旗标(ms_used)将被设定与否而传送至解码端上。

3.3.2 Intensity Stereo

人类听觉系统一般对低频信号而言，其对信号的能量与相位皆较敏感，相对于在高频信号，人耳只对其能量较为敏感，而相位较不敏感。Intensity Stereo coding就是利用此一人耳的特性，被使用在高频区域里，声道对之间的不相关性条件下，这个方式，在过去对立体声或多声道编码中已广范地被使用，又可被称为dynamic crosstalk 或是channel coupling 等等。其编码是利用一因素来完成，也就是在高频声音组件的接收感觉，主要是依赖在他们的能量分析上，即时间封包(time envelopes)，因此，它对某些型式的信号就有可能仅需传送单一频谱值来达到，其它音频的声道在不遗失质量下，可以虚拟地由此一频谱值被表示出来。而原始编码声道的能量，即time envelopes，对每一个scalefactor band，经由一个调整(scaling)大小的运算因子，近似地被表示而储存，使得在解码端，对每一个声道的信号，可藉由此一因子来重建。

如(2.35)式所示，经由相加通道对(channel pair)的频谱信号，再乘上一个能量调整因子，来求得其每一个scalefactor band 的Intensity Stereo 信号的频谱系数

在AAC 中，因为左右声道只传出一组合并后的频谱系数，其位置放置于左声道，右声道中频谱系数将会被设成零，以此来降低编码所需之位数。

3.4 量化编码

在完成之前的频谱处理的工具后，实际位率减少是在量化处理中来达到，这个模块主要的目的是量化频谱上的数据，使得量化噪声能够满足声音心理模式的要求。迭代循环(Iteration loop)模块被用来决定量化的step size，并保证其允许的失真不会超过，并在满足迭代循环后，非线性的量化函数被执行。另外，对每一个音频帧被量化的有效位数，也需在某个临界之下，一般其值与取样率及所要求的位率有关，依据(2.36)式，来定义每个音频帧可以使用的位数。在每个音频帧开始计算时，先将一些所需的变量初始化，如果此音频帧里所有的频域数据皆为0，则可以跳过此音频帧不作处理，如果有频域数据则将进入outer iteration loop，开始进行频域数据的量化与位计算，最后将未使用的位数，保留到下一个音频帧时继续使用。

非均匀量化器被用在 AAC 里，其量化方式如下式所示。

在公式中，MAGIC_NUM被定义为0.4054，且common_scalfac 是对所有的scalefactor bands 的通用量化步阶大小(global quantizer step size)。因此量化器可能被改变1.5dB 的步长大小，且量化范围被限制在±8191 。

3.5 无损解码

3.5.1解码ics_info()

位宽

作用

ics_reserved_bit

一定为‘0’

window_sequence

窗类型

00：长窗	01：起始窗
10：短窗	11：结束窗

window_shape

决定使用正弦窗还是KBD窗

0：正弦窗 1：KBD窗

max_sfb

4/6

短窗下4位，其他时6位，表示每个窗组内的scalefactor band的个数

scale_factor_grouping

在短窗时有效。指明window group的分割方式。7个bit表示8个窗中的1－7窗的分组情况。

即bit(8-n)表示window(n)的分组属性，当bit(8-n)＝‘1’表示window(n)和window(n-1)是同一个组，若bit(8-n)＝‘0’表示window(n)和window(n-1)是不是同一个组。

如下图

predictor_data_present

指示码流中是否出现预测数据

predictor_reset

指示预测器是否全部复位

predictor_reset_group_number

指示预测器组是否复位

prediction_used

指示每个scalefactor band是否是由预测器

3.5.2huffman解码算法

AAC使用huffman编码算法对scalefactor和量化谱线数据进行编码，AAC标准一共有12个有效码本,一个码本专用于scalefactor解码.11个码本用于谱线系数的解码.有4个无效码本，其中1个码本表示传输的系数全位零,是0码本,不需解码.2个码本是intensity码本,也是0码本.在为谱线系数解码的11个码本中,每个码本有自己可以编码的最大系数值LAV表示.如表2, 用于谱线系数的解码的11个码本中最后一个码本可以解码出谱线系数的最大值是16.但当解码出谱线系数的值大于0小于16的时候.解码出的值就是实际的谱线系数的绝对值,当解码锄地谱线系数是16时,表示退出huffman解码,使用其他方式解码.所以在该码本中解码出的值16被定义成ESC_FLAG.表2中的unsigned_cb[i]标志位表示该码本是有符号码本还是无符号码本, unsigned_cb[i]=0时表示该码本是有符号码本, unsigned_cb[i]=1时表示该码本是无符号码本.解码有符号数时,先按照无符号解码再从输入的解码比特流中提取符号位,若解码出的谱线系数非零,则其符号位紧跟在被该谱线系数的码字的后面.

Codebook Number, i	unsigned_cb[i]	Dimension of Codebook	LAV for codebook	Codebook listed in
0	-	-	0	-
1	0	4	1	Table A.2
2	0	4	1	Table A.3
3	1	4	2	Table A.4
4	1	4	2	Table A.5
5	0	2	4	Table A.6
6	0	2	4	Table A.7
7	1	2	7	Table A.8
8	1	2	7	Table A.9
9	1	2	12	Table A.10
10	1	2	12	Table A.11
11	1	2	(16) ESC	Table A.12
12	-	-	(reserved)	-
13	-	-	(reserved)	-
14	-	-	intensity out-of-phase	-
15	-	-	intensity in-phase	-

3.5.3解码section_data()

Section data部分的内容是每个section的分割方式和每个section选择的码本。

3.5.4解码scale_factor_data()

scale_factor_data的内容是解码每个scalefactor band中的差分scale factor值。

3.5.5解码spectral_data()

这部分内容主要解码量化谱线信息spectral_data(). AAC的huffman编码算法对量化谱线有两步分组处理.如上所述，第一步分组是分出scalefactor band中的谱线个数是4的倍数.目的是进行4个谱线一起编码.第二步分割是标准中把1个或几个scalefactor band合并成一个section.同一个section内的所有scalefactor band的谱线使用同一个huffman码表.所以,如果要进行huffman解码,section的宽度信息和码本号作为side information附加在section data中传输.解码端要先解出这些信息才能进行huffman解码.而section的长度小于scalefactor band的个数而大于scalefactor windows band的个数. 为了最大限度的匹配量化谱线的统计特性,Huffman为了使量化谱线的统计特性最大化的匹配huffman码本,section的数量允许和scalefactor band的数量一样大. Section个数的最大值是max_sfb.但注意section的边界要与scalefactor band的边界重合. 用huffman编码的量化解码系数的Four-tuple 或2-tuples的传送顺序是从低频系数到高频系数. 对于每个块有多个windows的情况,要注意有分组和交织情况,系数的集合需要解交织,系数存储在数组x_quant[g][win][sfb][bin]。

你可能感兴趣的:(算法)

AES 加密介绍 stevenzqzq android AES加密
AES加密简介AES（AdvancedEncryptionStandard，高级加密标准）是一种对称加密算法，具有高安全性、速度快、适用于大数据量加密的特点。AES使用128、192或256位密钥进行加密和解密，常用于存储敏感数据（如用户设置、设备配置、通信数据等）。为什么车载空调软件需要AES加密？在车载座舱空调软件中，可能涉及用户隐私数据（如用户的空调温度设定、座椅加热偏好等），以及车载控制数
SVD 算法 G_Water_ 算法
SVD算法1.基本概念与背景2.SVD的数学基础3.SVD的步骤4.SVD的应用场景5.SVD的优点6.SVD的局限7.实现SVD的步骤1.导入必要的库：2.读取数据并计算协方差矩阵：3.求解特征值和奇异向量：4.构造U、Σ和VTV^{T}VT矩阵：5.应用SVD进行降维或去噪：8.示例：文本降维01.计算协方差矩阵：02.求解SVD03.构造U和VTV^{T}VT：04.矩阵分解与重建：05.应
数据结构每日一题day8（顺序表）★★★★★ Phoebe鑫数据结构
题目描述：从有序顺序表中删除所有其值重复的元素，使其中所有元素的值均不同算法思想：输入检查：若顺序表为空或指针为空，返回false。双指针覆盖法：使用指针k标记保留元素的末尾，初始位置为0。遍历顺序表（从i=1开始），若当前元素data[i]不等于data[k]，则将其保留到k+1位置，并更新k。更新表长：遍历结束后，表长设为k+1，直接截断后续元素。复杂度分析：时间复杂度O(n)空间复杂度O(1
Java Jvm运行机制原理_JVM 运行机制及其原理绿萝123 Java Jvm运行机制原理
JVM运行机制及其原理发布时间：2018-05-2222:15,浏览次数：1074,标签：JVM最近出去面试，总被问到JavaJVM相关的东西，什么JVM的内存模型、JVM的内存分配、内存回收、内存回收算法…搞得我一头雾水，早些年还看过一些，蹭着有时间给大家也给自己总结下JVM相关的知识。JVMJVM是JavaVirtualMachine(Java虚拟机)的缩写，是一个虚构出来的计算机，是通过在实
代码随想录算法训练营第七天写个博客算法
LeetCode/卡码网题目344.反转字符串541.反转字符串II2873.有序三元组中的最大值I(LeetCode每日一题)54.替换数字（第八期模拟笔试）总结往期打卡344.反转字符串跳转:344.反转字符串问题:编写一个函数，其作用是将输入的字符串反转过来。输入字符串以字符数组s的形式给出。不要给另外的数组分配额外的空间，你必须原地修改输入数组、使用O(1)的额外空间解决这一问题。思路:左
如何学好c++(萌新小白速入) 卫枝枝 c++开发语言
一、基础阶段（1-2个月）目标：建立C++核心语法体系关键知识点变量/常量、基础数据类型（int,double,char等）运算符与表达式（算术/逻辑/位运算）控制流（if-else,switch,for,while,do-while）函数定义与调用（参数传递、返回值、作用域）数组与字符串操作（C风格字符串与std::string）实践建议用代码实现斐波那契数列、素数判断等基础算法尝试LeetCo
基于OpenCV的Haar级联人脸检测：实现与优化建议铠哥不喝粥 opencv 人工智能计算机视觉
引言人脸识别技术是计算机视觉领域的重要分支，广泛应用于安防、支付、社交网络等领域。本文基于OpenCV库中的Haar级联分类器实现了一个简单的人脸检测系统，并对其性能进行了分析。虽然Haar级联算法是一种经典的入门级人脸检测方法，但其在实际应用中存在一些局限性。本文将从代码实现、算法优缺点以及推荐更高效的算法等方面进行探讨。代码实现详解功能概述上述代码实现了以下功能：实时摄像头人脸检测：通过笔记本
K-均值聚类算法的深入分析与实践 Unreal丶
本文还有配套的精品资源，点击获取简介：K-均值聚类算法是一种用于数据聚类分析的无监督学习方法，通过迭代过程将数据点分组到最近的聚类中心。该算法包括初始化聚类中心、分配数据点、更新聚类中心等步骤，通常使用欧几里得距离作为距离度量。选择适当的K值至关重要，肘部法则常被用于此目的。算法的局限性包括对初始中心选择的敏感性、假设数据分布为凸形、对异常值的敏感性以及需要预先设定K值。优化算法和变种如快速K-均
[项目源码]2024年11月YOLO相关项目精选项目源码代码终究输给规则技术杂谈 YOLO
序号项目名称文件大小1基于YOLO模型实现足球运动实时分析项目源码252.47M2基于YOLO的食物卡路里检测系统(源码＆部署教程＆数据集).zip21.13M3基于Ascend310AI处理器+深度学习算法的变电站电力巡检系统源码+说明（基于YOLOv4对电力巡检目标检测）....10.28M4基于YOLO与Deepsort的实时多目标跟踪，旨在利用C++实现多目标跟踪系统138.48M5基于Y
基于yolov11的水下目标检测系统python源码+onnx模型+评估指标曲线+精美GUI界面 FL1623863129 深度学习 YOLO 目标检测 python
【算法介绍】基于YOLOv11的水下目标检测系统是一种利用深度学习技术实现的高效系统，特别适用于识别水下环境中的多种目标。该系统支持识别的目标种类包括fish（鱼）、jellyfish（水母）、penguin（企鹅）、puffin（海雀）、shark（鲨鱼）、starfish（海星）以及stingray（魟鱼）等。YOLOv11作为YOLO系列的最新版本，具有强大的特征提取能力和高效的推理速度。这
基于yolov8的鱼病害检测系统python源码+onnx模型+评估指标曲线+精美GUI界面萌萌哒240 深度学习 YOLO python 人工智能
【算法介绍】基于YOLOv8的鱼病害检测系统是一种先进的解决方案，利用深度学习算法实现高效准确的目标检测。该系统采用YOLOv8目标检测算法训练数据集，专门用于检测与识别鱼类病害。YOLOv8作为Ultralytics公司开发的最新一代算法模型，具有速度更快、准确率更高的优势。其全新的网络结构，包括优化的骨干网络、Anchor-Free检测头和新的损失函数，使得模型在各种硬件平台上都能表现出色。在
剑指Offer（数据结构与算法面试题精讲）C++版——day1 Jerry说前后端每天三道算法题 c++开发语言
剑指Offer（数据结构与算法面试题精讲）C++版题目一：整数除法题目二：二进制加法题目三：前n个数字二进制形式中1的个数题目一：整数除法解法1：暴力法，直接连减：#includeusingnamespacestd;intdevide(intdividend,intdivisor){intresult=0;//注意这里的存在溢出，整数范围：-2^31-2^31-1if(dividend==
【每日算法】Day 11-1：分治算法精讲——从归并排序到最近点对问题（C++实现） longlong int 算法 c++数据结构
掌握“分而治之”的算法哲学！今日系统解析分治算法的核心思想与实战应用，覆盖排序优化、数学计算、几何问题等高频场景，彻底理解“分解-解决-合并”的算法范式。一、分治算法核心思想分治算法（DivideandConquer）是一种将复杂问题分解为相似子问题的算法范式，核心步骤：分解（Divide）：将原问题划分为多个子问题解决（Conquer）：递归解决子问题（若子问题足够小则直接求解）合并（Combi
每日算法----2278. 字母在字符串中的百分比----2025/03/31 Srwici 算法 leetcode
目录1.题目描述2.示例3.思路4.遇上的问题5.具体实现代码6.官方题解7题目来源1.题目描述给你一个字符串s和一个字符letter，返回在s中等于letter字符所占的百分比，向下取整到最接近的百分比。2.示例示例1：输入：s=“foobar”,letter=“o”输出：33解释：等于字母‘o’的字符在s中占到的百分比是2/6*100%=33%，向下取整，所以返回33。示例2：输入：s=“jj
【C++游戏引擎开发】《几何算法》（1）：数学基础与射线相交检测 JuicyActiveGilbert C++游戏引擎开发知识点 c++游戏引擎算法
引言：为什么需要射线相交检测？在计算机图形学、游戏开发和三维建模领域，射线相交检测（RayIntersectionTesting）是实现诸多核心功能的基础。无论是玩家的子弹命中判定、3D建模软件的物体选取，还是光线追踪中的光线路径计算，都需要快速判断射线与几何体是否相交。本文将深入浅出地解析其数学基础，并探讨常见几何体的相交检测方法。一、数学基础概念1.1射线的数学表示射线由起点（Origin）和
干货 | 广告系统架构解密武哥漫谈IT 广告大数据分布式编程语言数据库
广告、增值服务、佣金，是互联网企业最常见的三种盈利手段。在这3大经典中，又以广告所占的市场份额最大，几乎是绝大部分互联网平台最主要的营收途径，业务的重要性不言而喻。从技术角度来说，广告业务涉及到AI算法、大数据处理、检索引擎、高性能和高可用的工程架构等多个方向，同样有着不错的技术吸引力。我从去年开始接触广告业务，到现在差不多一年时间了。这篇文章将结合我的个人经验，同时参考业界的优秀案例，阐述下广告
OpenCV 图形API（或称G-API）(1) 村北头的码农 OpenCV opencv 人工智能计算机视觉
操作系统：ubuntu22.04OpenCV版本：OpenCV4.9IDE:VisualStudioCode编程语言：C++11引言OpenCV图形API（或称G-API）是一个新的OpenCV模块，旨在使常规图像处理更快且更便携。通过引入一种新的基于图的执行模型来实现这两个目标。G-API是OpenCV中的一个特殊模块——与其他大多数主要模块不同，其他模块专注于提供具体的计算机视觉算法，而这个模
BIOMOD2物种分布建模：从算法原理到气候变化响应预测-解析生物地理格局、预测生态响应的重要工具 KY_chenzhao R语言 BIOMOD2 物种分布模拟
在全球气候变化与生物多样性保护的交叉领域，物种分布模型（SDM）已成为解析生物地理格局、预测生态响应的重要工具。‌BIOMOD2‌作为R语言生态建模的旗舰级工具包，凭借其‌多算法集成建模、不确定性量化与空间显式预测‌三大核心优势，在《NatureEcology&Evolution》等顶刊研究中被广泛采用。其独特价值在于：‌集成学习框架‌：支持GLM、GAM、MaxEnt、随机森林等10+算法并行计
智能声学算法在MEMS硅麦传感器中的应用华芯邦科技
从智能音箱的语音唤醒到TWS耳机的降噪革命，MEMS硅麦传感器已成为消费电子与物联网的核心组件。面对庞大市场，技术壁垒高企的MEMS硅麦领域长期被国际巨头垄断。华芯邦作为国内首家实现全自主MEMS-IDM模式的企业，以独创的“晶圆级封装+AI声学算法”技术打破行业格局。本文深度解析全球十大MEMS硅麦厂家竞争力，并揭秘华芯邦如何通过三大技术突破改写国产传感器产业版图。一、MEMS硅麦技术全景：从声
基于R语言与MaxEnt的物种分布建模全流程解析：从算法优化到科研制图实战 KY_chenzhao MaxEnt R语言物种分布气候变化
随着全球气候变化与生物多样性保护需求的加剧，物种分布模型（SpeciesDistributionModel,SDM）已成为生态学、保护生物学研究的核心工具。MaxEnt模型凭借其‌对小样本数据的强适应性‌和‌环境变量非线性关系的解析能力‌，成为SDM领域的主流选择。然而，传统MaxEnt建模常面临‌参数调优效率低‌、‌数据预处理繁琐‌、‌结果可视化粗糙‌三大痛点。本文以‌R语言与MaxEnt的深度
【Algorithm】优选算法: 二分查找 binary search 核心思想与例题总结玉米本人【Algorithm】算法算法 java
二分查找算法是利用数组的二段性进行求解的算法。只要有二段性的数组，都能使用该方法进行求解。目录>>一、核心思想二、例题总结1.704.二分查找search2.34.在排序数组中查找元素的第一个和最后一个位置searchRange3.35.搜索插入位置searchInsert4.69.×的平方根mySqrt5.852.山脉数组的峰顶索引peakIndexInMountainArray6.162.寻找
Java 并行快速排序：Fork/Join 框架的高效应用与性能对比你被录用了 java 算法排序算法
1.引言2.快速排序算法回顾3.并行快速排序3.1为什么需要并行？3.2Fork/Join框架3.3并行快速排序实现继承RecursiveAction，实现任务分解分区（partition）递归拆分任务3.4启动并行快速排序4.单线程vs.多线程性能对比4.1测试代码4.2测试结果5.结论5.1何时使用并行快速排序？5.2并行排序的限制5.3总结1.引言排序算法是计算机科学中的基础问题，在大规模数
200多种算法应用于二维和三维无线传感器网络（WSN）覆盖场景算法小狂人算法网络 php
2.4无线传感器网络感知模型无线传感器网络是以数据为中心，在保证数据的准确、及时的采集和处理的同时，对网络节点的物理位置以及特性并不是十分关注。节点的感知能力决定了网络的检测范围和能力。目前无线传感器网络中的节点感知模型主要有以下两种：二元感知模型以及概率感知模型[9]。1)二元感知模型二元感知模型的优点主要是比较简单，在模型中，传感器节点的感知范围是一个以节点SSS为圆心，以RsR_sRs为半径
LeetCode算法题(Go语言实现)_08 LuckyLay LeetCode 算法 leetcode 职场和发展 golang
题目给你一个整数数组nums，判断这个数组中是否存在长度为3的递增子序列。如果存在这样的三元组下标(i,j,k)且满足ifirst但≤second，更新second。•若当前数>second，直接返回true。3.复杂度•时间复杂度：O(n)，仅需一次遍历。•空间复杂度：O(1)，仅使用两个变量。三、图解四、边界条件与扩展1.边界条件•数组长度❤️：直接返回false。•全递减数组：如[5,4,3
《JVM考古现场（十五）：熵火燎原——从量子递归到热寂晶壁的代码涅槃》程序猿chen 「JVM考古现场」jvm 量子计算 java java-ee git 后端区块链
目录开篇：熵海翻涌·量子江湖的终极对决第一章：熵海沉沙——热力学编译器的量子突围第二章：晶壁融蚀——时空曲率指令集重写术第三章：永劫轮回——ZGC熵障突破的十二维拓扑第四章：归墟涅槃——意识编译器的量子永生契约第五章：熵火明灯——技术哲学的降维打击终章：热寂黎明——技术年表与未来之劫下集预告&超维阅读推荐开篇：熵海翻涌·量子江湖的终极对决"当《诛仙剑阵》的时空冻结算法在JDK42的量子递归中暴走，
参与辅助服务的用户侧储能优化配置及经济分析（Matlab代码实现）宇哥预测优化代码学习 matlab 开发语言
‍个人主页欢迎来到本博客❤️❤️博主优势：博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。⛳️座右铭：行百里者，半于九十。本文目录如下：目录1概述参与辅助服务的用户侧储能优化配置及经济分析研究一、用户侧储能的核心功能与技术适配性二、辅助服务类型与用户侧储能的参与模式三、优化配置数学模型与算法四、经济性分析框架五、典型应用场景与政策激励六、未来发展趋势与建议2运行结果3参考文献4Matlab代码实
计算机视觉算法实战——基于YOLOv8的自动驾驶障碍物实时感知系统喵了个AI 计算机视觉实战项目 YOLO 自动驾驶人工智能
✨个人主页欢迎您的访问✨期待您的三连✨✨个人主页欢迎您的访问✨期待您的三连✨✨个人主页欢迎您的访问✨期待您的三连✨引言：自动驾驶感知系统的关键挑战自动驾驶技术正以前所未有的速度重塑交通出行方式，而环境感知作为自动驾驶系统的"眼睛"，其性能直接决定了车辆的安全性和可靠性。在众多感知任务中，障碍物实时检测是最基础也是最具挑战性的环节。本文将深入探讨如何利用当前最先进的YOLOv8目标检测算法，构建一套
C++多线程的性能优化写代码写到手抽筋 C/C++编码学习 linux进程和线程 c++性能优化 java
高效线程池设计与工作窃取算法实现解析1.引言现代多核处理器环境下，线程池技术是提高程序并发性能的重要手段。本文解析一个采用工作窃取(WorkStealing)算法的高效线程池实现，通过详细代码分析和性能测试展示其优势。2.线程池核心设计2.1类结构概览classThreadPool{public:usingTask=std::function;private:structWorkerData{st
2025年计算机毕业设计springboot电子商务网站的设计与实现 zhihao508 课程设计 spring boot 后端
本系统（程序+源码）带文档lw万字以上文末可获取一份本项目的java源码和数据库参考。系统程序文件列表开题报告内容选题背景关于电子商务网站设计的研究，现有研究多聚焦于技术架构优化（如微服务、分布式系统）或单一功能模块化开发，但针对用户行为动态适配与商业逻辑深度耦合的研究较少。国内研究侧重技术实现（如阿里云、京东等企业的架构实践），而国外研究更关注用户体验层（如亚马逊的个性化推荐算法）。当前争议焦点
LLM（大语言模型）和AIGC入门学习路线图程序猿李巡天语言模型 AIGC 学习 llama gpt langchain 人工智能
大模型是指网络规模庞大的深度学习模型，其参数量通常在千亿级别。学习大模型需要具备计算机基础，这一点非常重要！要系统地入门大模型，首先需要学习深度学习的基础知识，包括神经网络（NN）、卷积神经网络（CNN）和循环神经网络（RNN）等。在学习完基础知识后，你可以借助开源算法来学习如何使用大模型进行自然语言处理任务。目前有很多大模型开源算法可供学习和使用。你可以选择一些经典的大模型算法，如BERT、GP
Enum用法不懂事的小屁孩 enum
以前的时候知道enum，但是真心不怎么用，在实际开发中，经常会用到以下代码: protected final static String XJ = "XJ"; protected final static String YHK = "YHK"; protected final static String PQ = "PQ";
【Spark九十七】RDD API之aggregateByKey bit1129 spark
1. aggregateByKey的运行机制 /** * Aggregate the values of each key, using given combine functions and a neutral "zero value". * This function can return a different result type
hive创建表是报错： Specified key was too long; max key length is 767 bytes daizj hive
今天在hive客户端创建表时报错，具体操作如下 hive> create table test2(id string); FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:javax.jdo.JDODataSto
Map 与 JavaBean之间的转换周凡杨 java 自省转换反射
最近项目里需要一个工具类，它的功能是传入一个Map后可以返回一个JavaBean对象。很喜欢写这样的Java服务，首先我想到的是要通过Java 的反射去实现匿名类的方法调用，这样才可以把Map里的值set 到JavaBean里。其实这里用Java的自省会更方便，下面两个方法就是一个通过反射，一个通过自省来实现本功能。 1：JavaBean类 1 &nb
java连接ftp下载 g21121 java
有的时候需要用到java连接ftp服务器下载，上传一些操作，下面写了一个小例子。 /** ftp服务器地址 */ private String ftpHost; /** ftp服务器用户名 */ private String ftpName; /** ftp服务器密码 */ private String ftpPass; /** ftp根目录 */ private String f
web报表工具FineReport使用中遇到的常见报错及解决办法（二）老A不折腾 finereport web报表 java报表总结
抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、没有返回数据集：在存储过程中的操作语句之前加上set nocount on 或者在数据集exec调用存储过程的前面加上这句。当S
linux 系统cpu 内存等信息查看墙头上一根草 cpu 内存 liunx
1 查看CPU 　　1.1 查看CPU个数　　# cat /proc/cpuinfo | grep "physical id" | uniq | wc -l 　　2 　　**uniq命令：删除重复行;wc –l命令：统计行数** 　　1.2 查看CPU核数　　# cat /proc/cpuinfo | grep "cpu cores" | u
Spring中的AOP aijuans spring AOP
Spring中的AOP Written by Tony Jiang @ 2012-1-18 （转）何为AOP AOP，面向切面编程。在不改动代码的前提下，灵活的在现有代码的执行顺序前后，添加进新规机能。来一个简单的Sample: 目标类： [java] view plain copy print ? package&nb
placeholder(HTML 5) IE 兼容插件 alxw4616 JavaScript jquery jQuery插件
placeholder 这个属性被越来越频繁的使用. 但为做HTML 5 特性IE没能实现这东西. 以下的jQuery插件就是用来在IE上实现该属性的. /** * [placeholder(HTML 5) IE 实现.IE9以下通过测试.] * v 1.0 by oTwo 2014年7月31日 11:45:29 */ $.fn.placeholder = function
Object类,值域,泛型等总结(适合有基础的人看) 百合不是茶泛型的继承和通配符变量的值域 Object类转换
java的作用域在编程的时候经常会遇到,而我经常会搞不清楚这个问题,所以在家的这几天回忆一下过去不知道的每个小知识点变量的值域; package 基础; /** * 作用域的范围 * * @author Administrator * */ public class zuoyongyu { public static vo
JDK1.5 Condition接口 bijian1013 java thread Condition java多线程
Condition 将 Object 监视器方法（wait、notify和 notifyAll）分解成截然不同的对象，以便通过将这些对象与任意 Lock 实现组合使用，为每个对象提供多个等待 set （wait-set）。其中，Lock 替代了 synchronized 方法和语句的使用，Condition 替代了 Object 监视器方法的使用。条件（也称为条件队列或条件变量）为线程提供了一
开源中国OSC源创会记录 bijian1013 hadoop spark MemSQL
一.Strata+Hadoop World（SHW）大会是全世界最大的大数据大会之一。SHW大会为各种技术提供了深度交流的机会，还会看到最领先的大数据技术、最广泛的应用场景、最有趣的用例教学以及最全面的大数据行业和趋势探讨。二.Hadoop &nbs
【Java范型七】范型消除 bit1129 java
范型是Java1.5引入的语言特性，它是编译时的一个语法现象，也就是说，对于一个类，不管是范型类还是非范型类，编译得到的字节码是一样的，差别仅在于通过范型这种语法来进行编译时的类型检查，在运行时是没有范型或者类型参数这个说法的。范型跟反射刚好相反，反射是一种运行时行为，所以编译时不能访问的变量或者方法(比如private)，在运行时通过反射是可以访问的，也就是说，可见性也是一种编译时的行为，在
【Spark九十四】spark-sql工具的使用 bit1129 spark
spark-sql是Spark bin目录下的一个可执行脚本，它的目的是通过这个脚本执行Hive的命令，即原来通过 hive>输入的指令可以通过spark-sql>输入的指令来完成。 spark-sql可以使用内置的Hive metadata-store，也可以使用已经独立安装的Hive的metadata store 关于Hive build into Spark
js做的各种倒计时 ronin47 js 倒计时
第一种：精确到秒的javascript倒计时代码 HTML代码: <form name="form1"> <div align="center" align="middle"
java-37.有n 个长为m+1 的字符串，如果某个字符串的最后m 个字符与某个字符串的前m 个字符匹配，则两个字符串可以联接 bylijinnan java
public class MaxCatenate { /* * Q.37 有n 个长为m+1 的字符串，如果某个字符串的最后m 个字符与某个字符串的前m 个字符匹配，则两个字符串可以联接， * 问这n 个字符串最多可以连成一个多长的字符串，如果出现循环，则返回错误。 */ public static void main(String[] args){
mongoDB安装开窍的石头 mongodb安装基本操作
mongoDB的安装 1:mongoDB下载 https://www.mongodb.org/downloads 2:下载mongoDB下载后解压
[开源项目]引擎的关键意义 comsci 开源项目
一个系统，最核心的东西就是引擎。。。。。而要设计和制造出引擎，最关键的是要坚持。。。。。。现在最先进的引擎技术，也是从莱特兄弟那里出现的，但是中间一直没有断过研发的
软件度量的一些方法 cuiyadll 方法
软件度量的一些方法http://cuiyingfeng.blog.51cto.com/43841/6775/在前面我们已介绍了组成软件度量的几个方面。在这里我们将先给出关于这几个方面的一个纲要介绍。在后面我们还会作进一步具体的阐述。当我们不从高层次的概念级来看软件度量及其目标的时候，我们很容易把这些活动看成是不同而且毫不相干的。我们现在希望表明他们是怎样恰如其分地嵌入我们的框架的。也就是我们度量的
XSD中的targetNameSpace解释 darrenzhu xml namespace xsd targetnamespace
参考链接: http://blog.csdn.net/colin1014/article/details/357694 xsd文件中定义了一个targetNameSpace后，其内部定义的元素，属性，类型等都属于该targetNameSpace,其自身或外部xsd文件使用这些元素，属性等都必须从定义的targetNameSpace中找：例如：以下xsd文件，就出现了该错误，即便是在一
什么是RAID0、RAID1、RAID0+1、RAID5，等磁盘阵列模式? dcj3sjt126com raid
RAID 1又称为Mirror或Mirroring，它的宗旨是最大限度的保证用户数据的可用性和可修复性。 RAID 1的操作方式是把用户写入硬盘的数据百分之百地自动复制到另外一个硬盘上。由于对存储的数据进行百分之百的备份，在所有RAID级别中，RAID 1提供最高的数据安全保障。同样，由于数据的百分之百备份，备份数据占了总存储空间的一半，因而，Mirror的磁盘空间利用率低，存储成本高。 Mir
yii2 restful web服务快速入门 dcj3sjt126com PHP yii2
快速入门 Yii 提供了一整套用来简化实现 RESTful 风格的 Web Service 服务的 API。特别是，Yii 支持以下关于 RESTful 风格的 API：支持 Active Record 类的通用API的快速原型涉及的响应格式（在默认情况下支持 JSON 和 XML) 支持可选输出字段的定制对象序列化适当的格式的数据采集和验证错误
MongoDB查询(3)——内嵌文档查询（七） eksliang MongoDB查询内嵌文档 MongoDB查询内嵌数组
MongoDB查询内嵌文档转载请出自出处：http://eksliang.iteye.com/blog/2177301 一、概述有两种方法可以查询内嵌文档：查询整个文档；针对键值对进行查询。这两种方式是不同的，下面我通过例子进行分别说明。二、查询整个文档例如:有如下文档 db.emp.insert({ &qu
android4.4从系统图库无法加载图片的问题 gundumw100 android
典型的使用场景就是要设置一个头像，头像需要从系统图库或者拍照获得，在android4.4之前，我用的代码没问题，但是今天使用android4.4的时候突然发现不灵了。baidu了一圈，终于解决了。下面是解决方案： private String[] items = new String[] { "图库","拍照" }; /* 头像名称 */
网页特效大全 jQuery等 ini JavaScript jquery css html5 ini
HTML5和CSS3知识和特效 asp.net ajax jquery实例分享一个下雪的特效 jQuery倾斜的动画导航菜单选美大赛示例你会选谁 jQuery实现HTML5时钟功能强大的滚动播放插件JQ-Slide 万圣节快乐！！！向上弹出菜单jQuery插件 htm5视差动画 jquery将列表倒转顺序推荐一个jQuery分页插件 jquery animate
swift objc_setAssociatedObject block(version1.2 xcode6.4) 啸笑天 version
import UIKit class LSObjectWrapper: NSObject { let value: ((barButton: UIButton?) -> Void)? init(value: (barButton: UIButton?) -> Void) { self.value = value
Aegis 默认的 Xfire 绑定方式，将 XML 映射为 POJO MagicMa_007 java POJO xml Aegis xfire
Aegis 是一个默认的 Xfire 绑定方式，它将 XML 映射为 POJO, 支持代码先行的开发.你开发服务类与 POJO,它为你生成 XML schema/wsdl XML 和注解映射概览默认情况下，你的 POJO 类被是基于他们的名字与命名空间被序列化。如果
js get max value in (json) Array qiaolevip 每天进步一点点学习永无止境 max 纵观千象
// Max value in Array var arr = [1,2,3,5,3,2];Math.max.apply(null, arr); // 5 // Max value in Jaon Array var arr = [{"x":"8/11/2009","y":0.026572007},{"x"
XMLhttpRequest 请求 XML,JSON ,POJO 数据 Luob. POJO json Ajax xml XMLhttpREquest
在使用XMlhttpRequest对象发送请求和响应之前，必须首先使用javaScript对象创建一个XMLHttpRquest对象。 var xmlhttp； function getXMLHttpRequest(){ if(window.ActiveXObject){ xmlhttp:new ActiveXObject("Microsoft.XMLHTTP
jquery wuai jquery
以下防止文档在完全加载之前运行Jquery代码，否则会出现试图隐藏一个不存在的元素、获得未完全加载的图像的大小等等 $(document).ready(function(){ jquery代码; }); <script type="text/javascript" src="c:/scripts/jquery-1.4.2.min.js&quo