bxgj

faac的使用与内存优化

版本

初次发布文章时的版本为faac-1.29.9.2

本文所提及的优化方法已经在gitee创建相应工程，此工程中使用的版本为faac-1.30，链接如下
gitee.com/dma/faac-memory-optimization

使用方法

详细使用方法参见例程 frontend\main.c

简易demo如下

// 常用PCM都是 int16_t 类型，这里使用 sizeof(int16_t) 申请采样点的内存
channel = 2; // 声道数

hEncoder = faacEncOpen(44100, channel, &inputSamples, &maxOutputBytes);

in_buf16 = malloc(inputSamples * sizeof(int16_t));
out_buf = malloc(maxOutputBytes);

faacEncConfigurationPtr config = faacEncGetCurrentConfiguration(hEncoder);

config->mpegVersion = MPEG4;
config->aacObjectType = LOW;
// config->jointmode = JOINT_NONE;
// config->useLfe = 0;
// config->useTns = 0;
config->bitRate = 64000;
config->bandWidth = 32000;
// config->quantqual = 0;
config->outputFormat = ADTS_STREAM;
config->inputFormat = FAAC_INPUT_16BIT;
// config->pnslevel = 0;

if (!faacEncSetConfiguration(hEncoder, config))
{
    fprintf(stderr, "Unsupported output format!\n");
    return 1;
}

i = 0;
while (i++ < 1000)
{
    fread(in_buf16, sizeof(int16_t), inputSamples * channel, fpr);
    enc_out_len = faacEncEncode(hEncoder, in_buf16, inputSamples, out_buf, maxOutputBytes);
    fwrite(out_buf, 1, enc_out_len, fpw);
}

faacEncClose(hEncoder);

cmake 编译

因windows下编译需要，使用cmake重新编写
脚本如下

cmake_minimum_required(VERSION 2.6)
project (faac_static LANGUAGES C)

add_compile_options(-Wall -O2 -g)
set(CMAKE_BUILD_TYPE "Debug")

add_compile_definitions(
    # HAVE_IMMINTRIN_H
    # HAVE_INTTYPES_H
    # HAVE_STDINT_H
    # HAVE_SYS_TYPES_H
    )

list(APPEND FAAC_SOURCE
    libfaac/bitstream.c
    libfaac/blockswitch.c
    libfaac/channels.c
    libfaac/fft.c
    libfaac/filtbank.c
    libfaac/frame.c
    libfaac/huff2.c
    libfaac/huffdata.c
    libfaac/quantize.c
    libfaac/stereo.c
    libfaac/tns.c
    libfaac/util.c
    libfaac/kiss_fft/kiss_fft.c
    libfaac/kiss_fft/kiss_fftr.c
)

include_directories(./include)
include_directories(./libfaac)
include_directories(./libfaac/kiss_fft)

add_library(faac STATIC ${FAAC_SOURCE})

使用官方脚本编译会生成一个 config.h 其中有一些宏定义，大部分都没用，主要注意一下几个，可以根据需要新建一个config.h之类的手动配一下，或者加到CMAKE的宏里面。
都没什么特殊的，唯一注意的是如果不使用 DRM，可以把这个宏去掉，同时cmake里面源文件把kiss_fft.c、kiss_fftr.c去掉，编译出来的体积会稍微小一点

/* Define if you want to encode for DRM */
/* #undef DRM */

/* Define to 1 if you have the  header file. */
#define HAVE_IMMINTRIN_H 1

/* Define to 1 if you have the  header file. */
#define HAVE_INTTYPES_H 1

/* Define to 1 if you have the  header file. */
#define HAVE_STDINT_H 1

/* Define to 1 if you have the  header file. */
#define HAVE_SYS_TYPES_H 1

/* Define to the version of this package. */
#define PACKAGE_VERSION "1.29.9.2"

编译过程中报错，提示
error: unknown type name ‘__m128’
两种解决办法：

x86平台添加 HAVE_IMMINTRIN_H 宏，即# include
如果没有immintrin.h（比如ARM架构），按理说不会有这个错，可以用笨办法把 quantize.c 中 __SSE2__ 宏之间的相关代码都删掉

裁剪与优化

libfaac\coder.h 中有一处宏定义 #define MAX_CHANNELS 64，一般来说最常用的是立体声，对于我来说这里配置为2就够用了。
默认64会申请11MB多的内存，开销非常大！设置为2只有360KB多的内存。
以下结构 faacEncStruct.coderInfo->bwpInfo 中 bwpInfo 成员代码中没有用到，不知道作者为什么没有删除，意义不明，这个去掉每声道可以节约将近 157 KB 内存，非常可观。
faacEncEncode() 的代码中有这样一段

if (!hEncoder->sampleBuff[channel])
    hEncoder->sampleBuff[channel] = (double*)AllocMemory(FRAME_LEN*sizeof(double));

tmp = hEncoder->sampleBuff[channel];

hEncoder->sampleBuff[channel]		= hEncoder->nextSampleBuff[channel];
hEncoder->nextSampleBuff[channel]	= hEncoder->next2SampleBuff[channel];
hEncoder->next2SampleBuff[channel]	= hEncoder->next3SampleBuff[channel];
hEncoder->next3SampleBuff[channel]	= tmp;

申请了4个sampleBuff，这个函数每调用一次会依次交换这4个buffer，实际代码中只用到了 sampleBuff 和 next3SampleBuff，不明白作者为什么这样写，也可能是忘了删，这里可以修改为

hEncoder->sampleBuff[channel]		= hEncoder->next3SampleBuff[channel];
hEncoder->next3SampleBuff[channel]	= tmp;

这样每声道可以节约16KB内存

CoderInfo 中有这样一个成员

struct {
    int data;
    int len;
} s[DATASIZE];

它用来进行哈夫曼编码，查看源码可知里面的数据来自于哈夫曼编码表，哈夫曼编码表的成员原型如下

typedef struct {
    const uint16_t len;
    const uint16_t data;
} hcode16_t;

因此可以把int改成short，每声道可以节约6KB内存

如果不使用 TNS，可以把 CoderInfo.tnsInfo 成员也去掉，并删除 faacEncEncode() 中 TnsEncode() 的调用以及两处 TnsInit() 调用。
bitstream.c 中的 WriteTNSData() 也要做相关修改，使用以下代码替换，同时删除 return bits; 语句后的所有代码

    // TnsInfo* tnsInfoPtr = &coderInfo->tnsInfo;

#ifndef DRM
    if (writeFlag) {
        // PutBit(bitStream,tnsInfoPtr->tnsDataPresent,LEN_TNS_PRES);
        PutBit(bitStream,0,LEN_TNS_PRES);
    }
    bits += LEN_TNS_PRES;
#endif

    return bits;

    // 这之后的部分可以全部删除

初始化时每声道可以节约大概14KB内存。

查找代码中的所有double替换为float，内存开销可以从160KB优化至100KB左右

经过以上优化魔改，faac的内存开销已经从最初的接近12MB降到了100KB左右！

到此为止，基本上已经没有什么优化空间了，100KB左右的内存开销即使放到stm32的部分中高端型号上都能运行，还要啥自行车？

当然，大家如果有更好的优化方法欢迎留言，或者开源分享你的代码。

以下无关紧要，能优化一点点
faacEncConfiguration 中 int channel_map[64]; 可以改为 int channel_map[MAX_CHANNELS];
faacEncStruct 去掉 double *msSpectrum[MAX_CHANNELS];

关于《1.5 优化数据结构》章节的优化问题

最近比较闲，所以专门抽时间来看了一下两位网友留言的问题，并进行详细分析。
这确实是一个不合理，但碰巧能够正常运行的优化，下面来详细解释一下这个问题。

来看一下 asd451006071 和 weixin_43957341 这两位网友的留言

asd451006071
2022.10.04
并不是，音频会卡顿，不连续，通过QQ音乐等软件都能听得出来。这是因为huff编码哪里出了问题。我也是查了源码确实huffcode是16位的。但是就是这样。把uint16_t改成int16_t就行了。至于为什么这样就行了。我也感到很好奇。很惊讶。。

weixin_43957341
2021.11.06
第六点，所有 double 转 float 这个有点小坑，虽然看起来能播，单独放在 苹果设备 上也能播，但是封装到 MP4 里，在 苹果设备 上就会播放异常，出现如卡视频，音频只有前几秒声音的情况，搞得我一度怀疑是时间戳或者 MP4 库本身的兼容问题

asd451006071
2022.10.04
huffcode那个s数组，uint16_t改int16_t就好了。你试试看。。

不知道这两位网友是不是看错了，我前文写的很清楚，把这个结构体中的int改成short，结果他俩都改成unsigned short

struct {
    int data;
    int len;
} s[DATASIZE];

于是就会出现音频卡顿的问题，这个和播放器无关，因为就是编码出错了。这份代码我自己也一直再在用，没有任何异常，最近闲下来了，正好研究一下这个问题。

下文都用uint16代替unsigned short，其他数据类似
首先我要承认，这是我的错，这个结构体确实只在 huffcode() 函数中赋值，里面的数据来也确实来自于哈夫曼编码表 book01 到 book11，我最初在做优化时大概看了一眼这几个编码表，以为数值都在 int16 范围内不会溢出，所以大胆地将 int 改成 short 而且也没出问题。但不巧遗漏了 book03 的倒数第7项 {16,65534}，这是唯一一个超出 int16 范围的数据，这也是我在重新研究这个问题时才发现的。但这并不是唯一会导致bug的值，但为什么改成int16正常，改成uint16反而异常？下面会结合代码进行分析。

先以 uint16 的情况为例，来看实际在 huffcode() 函数中用到 book03 的这段代码

    case 3:
    case 4:
        for(ofs = 0; ofs < len; ofs += 4)
        {
            // 此处省略若干代码
            else
            {
                data = book[idx].data;
                // add sign bits
                for(cnt = 0; cnt < 4; cnt++)
                {
                    if(qp[cnt])
                    {
                        blen++;
                        data <<= 1;
                        if (qp[cnt] < 0)
                            data |= 1;
                    }
                }
                coder->s[datacnt].data = data;
                coder->s[datacnt++].len = blen;
                DRMDATA;
            }
            bits += blen;
        }
        break;

假设在 data = book[idx].data; 这里读取的是 {16,65534}，此时 data 为 65534
假设4次循环中只有一次 if(qp[cnt]) 条件成立，执行 blen++; data <<= 1 这两句以后，此时 data 为 131068(0x0001 fffc)，blen 为 17，这里暂不考虑 if (qp[cnt] < 0)
因为 uint16 溢出，这时 coder->s[datacnt].data = data; 使 s[datacnt].data 被赋值为 65532(0xfffc)

最终编码时在 WriteSpectralData() 函数中

static int WriteSpectralData(CoderInfo *coderInfo,
                             BitStream *bitStream,
                             int writeFlag)
{
    int i, bits = 0;

    if (writeFlag) {
        for(i = 0; i < coderInfo->datacnt; i++) {
            int data = coderInfo->s[i].data;
            int len = coderInfo->s[i].len;
            if (len > 0) {
                PutBit(bitStream, data, len);
                bits += len;
            }
        }
    } else {
        for(i = 0; i < coderInfo->datacnt; i++) {
            bits += coderInfo->s[i].len;
        }
    }

    return bits;
}

int data = coderInfo->s[i].data; 读取的 data 为 65532(0x0000 fffc)，len 为17
PutBit(bitStream, data, len); 将 17 位数据写入文件，即写入的二进制数据为 0 1111 1111 1111 1100，注意这里写入的最高位是0
而实际上应该写入的二进制数据为 1 1111 1111 1111 1100，即131068(0x1fffc)，也就是由于溢出的原因是的最高位从1变成了0，进而导致音频播放出错

接下来以 int16 的情况再看一遍这些代码的执行结果

假设在 data = book[idx].data; 这里读取的是 {16,65534}，此时 data 为 65534
假设4次循环中只有一次 if(qp[cnt]) 条件成立，执行 blen++; data <<= 1 这两句以后，此时 data 为 131068(0x0001 fffc)，blen 为 17，这里暂不考虑 if (qp[cnt] < 0)
因为 int16 溢出，这时 coder->s[datacnt].data = data; 使 s[datacnt].data 被赋值为 -4(0xfffc)。
在 WriteSpectralData() 函数中
int data = coderInfo->s[i].data; 读取的 data 为 -4(0xffff fffc)，len 为17。注意！这里是重点！因为它是有符号数，高位全部被置为1
PutBit(bitStream, data, len); 将 17 位数据写入文件，即写入的二进制数据为 1 1111 1111 1111 1100，正好将正确的数值写了进去！

所以，真正会出问题的哈夫曼编码不止 {16,65534}，假设循环执行了4次，也就是放大了16倍，那么凡是大于4096的像 {13,8188} 这样的编码都会出错。另外一个可以使它正常工作的巧合在于查看 huffdata.c 中的编码表会发现，所有数值都是接近2的n次方的数值，对于大于4096的数来说这些数的高4位都是1，使得它即使左移4位，超出16位以上的部分仍然是1，进而在之后转换为有符号数时不会出现该是0的位被补为1，保证了数值的正确。例如8188(0x1ffc)，左移4位得131068(0x1fffc)，int16溢出后为-4(0xfffc)，再赋值给int32为-4(0xffff fffc)，丝毫不影响。假设出现 4097(0x1001)这样的数，左移4位得65552(0x10010)，int16溢出后为16(0x0010)，再赋值给int32为16(0x0000 0010)，数据又会出现错误！

到此为止整个问题分析完毕。一个不合理的优化在两种巧合的共同作用下让它完美运行。

最后再次感谢 asd451006071 和 weixin_43957341 这两位网友的留言！

使用 Deepseek Zero Coding Experience 创建类似飞扬的小鸟游戏知识大胖 NVIDIA GPU和大语言模型开发教程游戏 deepseek ollama janus pro
简介Flappybird在苹果商店推出后，每天大约能赚5000美元，但后来被苹果故意下架。现在我正尝试使用Deepseek制作这样一款游戏。技术在不断变化，编码知识也在不断变化，只需修改代码即可获得结果。让我们在Deepseek上试试这款游戏：推荐文章《如何在本地电脑上安装和使用DeepSeekR-1》权重1，DeepSeek《Nvidia系列之使用NVIDIAIsaacSim和ROS2的命令行控
NVIDIA 系列之使用生成式 AI 增强 ROS2 机器人技术：使用 BLIP 和 Isaac Sim 进行实时图像字幕制作知识大胖 NVIDIA GPU和大语言模型开发教程人工智能机器人
简介在快速发展的机器人领域，集成先进的AI模型可以显著增强机器人系统的功能。在本博客中，我们将探讨如何在ROS2（机器人操作系统2）环境中利用BLIP（引导语言图像预训练）模型进行实时图像字幕制作，并使用NVIDIAIsaacSim进行模拟。我们将介绍如何实现一个ROS2节点，该节点订阅摄像头源、应用BLIP模型进行图像字幕制作，并实时显示结果。这种集成展示了生成式AI在增强人机交互方面的强大功能
异常处理：@ControllerAdvice, @ExceptionHandler, @ResponseStatus, @Valid, @DataAccessException 张紫娃注解 java
注解名称来源框架/规范典型使用场景版本（引入年份）是否推荐使用@DataAccessExceptionSpringFramework封装JDBC/MyBatis等数据访问异常Spring1.0（2004）✅@TransactionalSpringFramework声明数据库事务（如Service层操作）Spring2.0（2007）✅@ExceptionHandlerSpringMVC方法内捕获并
Spring MVC bjun2012 spring
1.关于SpringMVCSpringMVC是基础spring框架基础之上,主要解决了后端服务器接收客户端提交的请求,并给予响应的相关问题.MVC=Model+View+ControllerModel:数据模型,通常由业务逻辑层(ServiceLayer)和数据访问层(DataAccessObjectLayer)构成View:视图Controller:控制器MVC只关心V-C之间的交互2.创建Sp
英伟达 Isaac ROS产品体验芝麻香儿 Roads to deep learning.AI 英伟达 Isaac ROS
这里写自定义目录标题英伟达IsaacROS产品体验运行的商品名称运行过程记录GPU加速仿真总结英伟达IsaacROS产品体验NVIDIAIsaacROS是一套为自主移动机器人（AMR）开发的硬件加速软件包，专为在NVIDIAGPU和Jetson平台上优化ROS（RobotOperatingSystem）应用程序而设计。它通过提供一系列模块化的ROS包和完整的处理管道，帮助开发者加速AI感知、图像处
用Python的Chartify库，商业数据可视化效率提升13倍！忆愿 Python编程的脉动之声 python opencv 人工智能计算机视觉深度学习神经网络机器学习
文章目录为啥要用Chartify？安装那些事儿从零开始画图基础柱状图进阶折线图散点图与气泡图专业数据分析必备技能多维度分析时间序列分析高级可视化技巧自定义主题交互式特性批量图表生成性能优化技巧大数据集处理内存优化实战案例：销售数据分析系统数据可视化这事儿，搞过的都知道有多费劲。用matplotlib画个图要调半天参数，才能让图表看起来稍微顺眼一点；seaborn虽然画出来的图确实好看，但是配置项太
idea 性能优化
1、cpu占用很高，导致经常卡顿排查：通过IDEAActivityMonitor，可以发现是JITcompiler占用的cpu较高。解决：help->EditCustomVMOptions，增加如下参数。重启IDEA。-XX:TieredStopAtLevel=1或者-XX:Tier4MinInvocationThreshold=100000-XX:Tier4InvocationThreshold
maven运行javafx报错：ԭ��: java.lang.ClassNotFoundException: ��jump 楚门留香 java maven 开发语言
之前学了maven后来上课用javafx，只会用maven运行给我害惨了，针对小白。先说结果，不能用maven运行，直接上方功能栏-运行-运行（那个绿色的运行）即可如果运行是黑的，我这边的解决办法是下载插件并且重新创建项目，我一开始创建新项目给我显示：`JavaFX为模块生成源时出错：D:\AAACodeJava\javaf,mvn\wrapper\maven-wrapper.properties
【vue】用conda配置nodejs，一键开通模版使用权温择之 conda
特此鸣谢我的好同学@重中之重的特级教学，非常之好用一、conda环境下载安装二、创建包含nodejs的conda环境创建一个新环境：condacreate-n【自定义环境名字】python=3.9condacreate-nmy_nodejs_envpython=3.9激活新环境：condaactivate【环境名字】condaactivatemy_nodejs_env下载安装nodejs：cond
牛客_重建二叉树
重建二叉树https://www.nowcoder.com/practice/8a19cbe657394eeaac2f6ea9b0f6fcf6importjava.util.*;/**publicclassTreeNode{*intval=0;*TreeNodeleft=null;*TreeNoderight=null;*publicTreeNode(intval){*this.val=val;*
深入探索视频格式标准及其应用 D哥有个初二君
本文还有配套的精品资源，点击获取简介：视频格式标准对于数字媒体的编码、存储、传输和播放至关重要，它涵盖了容器格式、视频编码、音频编码等多个方面。本简介详细介绍了容器格式如MP4、AVI、MKV和TS；常见的视频编码标准包括H.264/AVC、H.265/HEVC、VP9和AV1；音频编码标准有AAC、FLAC和Opus；格式转换和流媒体协议如RTMP、HLS和DASH的重要性；以及分辨率和帧率对视
Tika（文本提取）代码的代文件文本识别提取 java maven
ApacheTika是一个用于提取文本和元数据的开源Java库。它支持提取各种类型的文本，包括但不限于以下几种：文档文件：如PDF、MicrosoftWord、MicrosoftExcel、MicrosoftPowerPoint、OpenDocument、RTF、HTML、XML等。（亲测可以）归档文件：如ZIP、RAR、TAR、GZIP、7z等。（不成功）音频文件：如MP3、WAV、AAC、FL
深度学习Pytorch(一) Bgemini 深度学习 pytorch 深度学习 python
深度学习Pytorch(一)前言：必须使用英伟达显卡才能使用cuda（显卡加速）！移除环境：condaremove-npytorch--all一、安装Pytorch下载Anaconda打开AnacondaPrompt创建一个Pytorch环境：condacreate-npytorchpython=3.9激活Pytorch环境：condaactivatepytorch查看当前包：piplist安装P
FAAC 在海思平台使用得到aac实时音频流张海森_168820 aac 音视频
FAAC在海思平台使用得到aac实时音频流使用FAAC将音频pcm转为aac主要参见这篇博客FAAC在君正平台使用得到aac实时音频流_君正x2600音频-CSDN博客
PPOCRLabel 环境配置教程 ysh9888 人工智能算法计算机视觉 opencv
PPOCRLabel环境配置教程_哔哩哔哩_bilibili1安装conda2新建环境condacreate--nameppocrpython=3.8--channelhttps://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/condaactivateppocrpipinstall-rrequirements.txt-ihttps://pypi
下载第三方库后手动配置到conda虚拟环境中
第一步，在网页或者github等平台下载开发者开发的第三方库，该库的文件格式可能是".whl"，“.tar.gz”，“.zip”等等；找到`anaconda/pkgs`文件夹地址，将上述第三方库移动到`pkgs`文件夹下；如果是.whl文件直接运行condaactivateyour_envpipinstall***.whl如果是压缩包，先解压缩，使用指令如`tar-xzvf`解压缩`.tar.gz
移动conda虚拟环境的安装目录
方法1：重新创建环境（推荐）(1)导出环境配置（生成environment.yml）：condaactivateold_env#激活原环境condaenvexport>environment.yml#导出配置(llmtuner):~$condaenvexport>environment.yml(llmtuner):~$tail-fenvironment.yml-websockets==15.0.1
Redis性能优化指南
Redis的性能优化需要从内存管理、配置参数调优、客户端行为优化三个核心层面入手，结合业务场景平衡吞吐量、延迟和资源消耗。以下是具体优化策略：一、内存管理与压缩技术1.内存优化策略选择高效数据结构：优先使用Hash（存储对象）替代多个String（减少Key数量）。每一份对立的数据都有一个对应的key需要存储一份元数据(如类型、过期时间、指针等)。使用Ziplist编码的小型数据（如hash-ma
从零开始写一个RTSP服务器（五）RTP传输AAC
从零开始写一个RTSP服务器系列★我的开源项目-RtspServer从零开始写一个RTSP服务器（一）RTSP协议讲解从零开始写一个RTSP服务器（二）RTSP协议的实现从零开始写一个RTSP服务器（三）RTP传输H.264从零开始写一个RTSP服务器（四）一个传输H.264的RTSP服务器从零开始写一个RTSP服务器（五）RTP传输AAC从零开始写一个RTSP服务器（六）一个传输AAC的RTSP
【RTSP从零实践】4、使用RTP协议封装并传输AAC
博客主页：https://blog.csdn.net/wkd_007博客内容：嵌入式开发、Linux、C语言、C++、数据结构、音视频本文内容：介绍怎么使用RTP协议封装并传输AAC金句分享：你不能选择最好的，但最好的会来选择你——泰戈尔⏰发布时间⏰：2025-07-0118:43:18本文未经允许，不得转发！！！目录一、概述二、实现步骤、实现细节✨2.1、实现AAC文件读取器✨2.2、实现AAC
【TensorRT】TensorRT及加速原理浩瀚之水_csdn tensorrt
一、TensorRT架构概览TensorRT是NVIDIA推出的高性能推理优化器，专为GPU加速设计。其核心架构分为三层：前端解析器支持ONNX/UFF/Caffe等格式的模型解析执行格式验证和初步结构优化优化引擎核心优化层（层融合、精度校准、内存优化等）生成优化后的计算图（OptimizedGraph）运行时环境管理GPU内存分配执行优化后的计算图二、核心加速原理（8大关键技术）1.层融合（La
yolov5/v7/v8/v9/v10环境详细配置教程（Windows+conda+pycharm）视觉算法er 深度学习环境配置 YOLO 目标检测人工智能深度学习 conda pycharm
一、所需环境配置1.1.虚拟环境创建首先，打开AnacondaPrompt命令窗口，创建一个新的虚拟环境，后面的包都在这个环境中安装。创建命令是：我的习惯是使用3.8版本的python，你也可以换成更高版本；condacreate-nyolopython=3.8输入命令后，运行结果如下：输入y即可；1.2.激活虚拟环境安装完成后，即可激活虚拟环境，输入以下命令即可；condaactivateyol
HTML5里video标签支持哪些格式的视频文件 Lucky_chengzi
video标签支持的视频格式：Ogg、MPEG4、WebMMP4=MPEG4文件使用H264视频编解码器和AAC音频编解码器WebM=WebM文件使用VP8视频编解码器和Vorbis音频编解码器Ogg=Ogg文件使用Theora视频编解码器和Vorbis音频编解码器
Kimi Audio一个通用的音频基础模型处理各种任务如自动语音识别（ASR）、音频问答（AQA）、自动音频字幕（AAC）、语音情感识别（SER）、声音事件/场景分类（SEC/ASC）和端到端语音对话 skywalk8163 人工智能 xcode ide kaggle Kimi Audio
KimiAudio被设计为一个通用的音频基础模型，能够在一个统一的框架内处理各种音频处理任务。主要功能包括：通用功能：处理各种任务，如自动语音识别（ASR）、音频问答（AQA）、自动音频字幕（AAC）、语音情感识别（SER）、声音事件/场景分类（SEC/ASC）和端到端语音对话。最先进的性能：在众多音频基准测试中取得SOTA结果（见评估和技术报告）。大规模预训练：对超过1300万小时的各种音频数据
NVIDIA Isaac GR00T N1.5 人形机器人强化学习入门教程（五）强化学习与机器人控制仿真机器人与具身智能人工智能机器人深度学习神经网络强化学习模仿学习具身智能
系列文章目录目录系列文章目录前言一、更深入的理解1.1实体化动作头微调1.1.1实体标签1.1.2工作原理1.1.3支持的实现1.2高级调优参数1.2.1模型组件1.2.1.1视觉编码器（tune_visual）1.2.1.2语言模型（tune_llm）1.2.1.3投影器（tune_projector）1.2.1.4扩散模型（tune_diffusion_model）1.2.2理解数据转换1.2
DeepSpeed zero1，zero2，zero3和FSDP区别详解 ALGORITHM LOL python 分布式
1.基本概念DeepSpeedZeROZeRO是由MicrosoftDeepSpeed团队开发的一种内存优化技术，旨在通过分片模型状态来训练超大模型，减少每个GPU的内存占用，同时避免传统模型并行（如张量并行或流水线并行）所需的代码修改。ZeRO分为三个阶段（Stage1、Stage2、Stage3），每阶段逐步增加分片的范围，从而进一步降低内存需求。FSDP(FullyShardedDataPa
创建Django项目小叶萝 Openlayers开发 django sqlite 数据库
我这里利用conda+Pycharm创建Django项目1、打开condaPrompt激活python的conda环境（创建了多个环境可以考虑切换一下python环境）condaactivatebase2、安装DjangocondainstallDjango查看安装成功了没有？django-admin--help出现常用的命令：checkcompilemessagescreatecachetabl
ReBEL模型的本地部署与运行，用于三元组抽取任务（事件抽取、知识抽取）
1.服务器CUDA11.72.依赖condacreate-nrebel_envpython=3.10-ycondaactivaterebel_env#安装PyTorch（建议与CUDA11.7配合）pipinstalltorchtorchvisiontorchaudio--index-urlhttps://download.pytorch.org/whl/cu117#安装Transformers和
将实时流的 H.264（视频）与 G.711A（音频）封装成 MP4 文件张海森_168820 将 h264+AAC存为 mp4格式记录音视频
将实时流的H.264（视频）与G.711A（音频）封装成MP4文件✅一、明确的问题目标你有：实时接收到的H.264码流实时接收到的G.711A音频流你想要：把它们同步封装成MP4文件问题挑战MP4不直接支持G.711A编码（PCMA），需要转码为AAC。MP4v2只支持对**已编码的帧（H.264/AAC）**进行封装，不做编码或转码。你需要处理**音视频同步（PTS/DTS）**问题。✅方案一：
Vue3 中 Excel 导出的性能优化与实战指南
文章目录Vue3中Excel导出的性能优化与实战指南引言：为什么你的导出功能会卡死浏览器？一、前端导出方案深度剖析1.1xlsx(SheetJS)-轻量级冠军1.2exceljs-功能强大的重量级选手二、后端导出方案：大数据处理的救星2.1为什么大数据需要后端处理？2.2Node.js流式导出实战三、生产环境性能优化全攻略3.1内存优化技巧对比3.2用户体验优化方案四、决策流程图：帮你选择最佳方案
怎么样才能成为专业的程序员？ cocos2d-x小菜编程 PHP
如何要想成为一名专业的程序员？仅仅会写代码是不够的。从团队合作去解决问题到版本控制，你还得具备其他关键技能的工具包。当我们询问相关的专业开发人员，那些必备的关键技能都是什么的时候，下面是我们了解到的情况。关于如何学习代码，各种声音很多，然后很多人就被误导为成为专业开发人员懂得一门编程语言就够了？！呵呵，就像其他工作一样，光会一个技能那是远远不够的。如果你想要成为
java web开发高并发处理 BreakingBad java Web 并发开发处理高
java处理高并发高负载类网站中数据库的设计方法（java教程,java处理大量数据，java高负载数据）一：高并发高负载类网站关注点之数据库没错,首先是数据库,这是大多数应用所面临的首个SPOF。尤其是Web2.0的应用，数据库的响应是首先要解决的。一般来说MySQL是最常用的，可能最初是一个mysql主机，当数据增加到100万以上，那么，MySQL的效能急剧下降。常用的优化措施是M-S（
mysql批量更新 ekian mysql
mysql更新优化：一版的更新的话都是采用update set的方式，但是如果需要批量更新的话，只能for循环的执行更新。或者采用executeBatch的方式，执行更新。无论哪种方式，性能都不见得多好。三千多条的更新，需要3分多钟。查询了批量更新的优化，有说replace into的方式，即： replace into tableName(id,status) values
微软BI（3） 18289753290 微软BI SSIS
1) Q：该列违反了完整性约束错误；已获得 OLE DB 记录。源:“Microsoft SQL Server Native Client 11.0” Hresult: 0x80004005 说明:“不能将值 NULL 插入列 'FZCHID'，表 'JRB_EnterpriseCredit.dbo.QYFZCH'；列不允许有 Null 值。INSERT 失败。”。 A：一般这类问题的存在是
Java中的List g21121 java
List是一个有序的 collection（也称为序列）。此接口的用户可以对列表中每个元素的插入位置进行精确地控制。用户可以根据元素的整数索引（在列表中的位置）访问元素，并搜索列表中的元素。与 set 不同，列表通常允许重复
读书笔记永夜-极光读书笔记
1. K是一家加工厂,需要采购原材料,有A,B,C,D 4家供应商,其中A给出的价格最低,性价比最高,那么假如你是这家企业的采购经理,你会如何决策? 传统决策: A:100%订单 B,C,D:0% &nbs
centos 安装 Codeblocks 随便小屋 codeblocks
1.安装gcc,需要c和c++两部分,默认安装下,CentOS不安装编译器的,在终端输入以下命令即可yum install gccyum install gcc-c++ 2.安装gtk2-devel,因为默认已经安装了正式产品需要的支持库,但是没有安装开发所需要的文档.yum install gtk2* 3. 安装wxGTK yum search w
23种设计模式的形象比喻 aijuans 设计模式
1、ABSTRACT FACTORY—追MM少不了请吃饭了，麦当劳的鸡翅和肯德基的鸡翅都是MM爱吃的东西，虽然口味有所不同，但不管你带MM去麦当劳或肯德基，只管向服务员说“来四个鸡翅”就行了。麦当劳和肯德基就是生产鸡翅的Factory 　　工厂模式：客户类和工厂类分开。消费者任何时候需要某种产品，只需向工厂请求即可。消费者无须修改就可以接纳新产品。缺点是当产品修改时，工厂类也要做相应的修改。如：
开发管理 CheckLists aoyouzi 开发管理 CheckLists
开发管理 CheckLists(23) -使项目组度过完整的生命周期开发管理 CheckLists(22) -组织项目资源开发管理 CheckLists(21) -控制项目的范围开发管理 CheckLists(20) -项目利益相关者责任开发管理 CheckLists(19) -选择合适的团队成员开发管理 CheckLists(18) -敏捷开发 Scrum Master 工作开发管理 C
js实现切换百合不是茶 JavaScript 栏目切换
js主要功能之一就是实现页面的特效,窗体的切换可以减少页面的大小,被门户网站大量应用思路: 1,先将要显示的设置为display:bisible 否则设为none 2,设置栏目的id ,js获取栏目的id,如果id为Null就设置为显示 3,判断js获取的id名字;再设置是否显示代码实现: html代码: <di
周鸿祎在360新员工入职培训上的讲话 bijian1013 感悟项目管理人生职场
这篇文章也是最近偶尔看到的，考虑到原博客发布者可能将其删除等原因，也更方便个人查找，特将原文拷贝再发布的。“学东西是为自己的，不要整天以混的姿态来跟公司博弈，就算是混，我觉得你要是能在混的时间里，收获一些别的有利于人生发展的东西，也是不错的，看你怎么把握了”，看了之后，对这句话记忆犹新。 &
前端Web开发的页面效果 Bill_chen html Web Microsoft
1.IE6下png图片的透明显示： <img src="图片地址" border="0" style="Filter.Alpha(Opacity)=数值(100),style=数值(3)"/> 或在<head></head>间加一段JS代码让透明png图片正常显示。 2.<li>标
【JVM五】老年代垃圾回收：并发标记清理GC(CMS GC) bit1129 垃圾回收
CMS概述并发标记清理垃圾回收(Concurrent Mark and Sweep GC）算法的主要目标是在GC过程中，减少暂停用户线程的次数以及在不得不暂停用户线程的请夸功能，尽可能短的暂停用户线程的时间。这对于交互式应用，比如web应用来说，是非常重要的。 CMS垃圾回收针对新生代和老年代采用不同的策略。相比同吞吐量垃圾回收，它要复杂的多。吞吐量垃圾回收在执
Struts2技术总结白糖_ struts2
必备jar文件早在struts2.0.*的时候，struts2的必备jar包需要如下几个： commons-logging-*.jar Apache旗下commons项目的log日志包 freemarker-*.jar
Jquery easyui layout应用注意事项 bozch jquery 浏览器 easyui layout
在jquery easyui中提供了easyui-layout布局，他的布局比较局限，类似java中GUI的border布局。下面对其使用注意事项作简要介绍：如果在现有的工程中前台界面均应用了jquery easyui，那么在布局的时候最好应用jquery eaysui的layout布局，否则在表单页面（编辑、查看、添加等等）在不同的浏览器会出
java-拷贝特殊链表：有一个特殊的链表，其中每个节点不但有指向下一个节点的指针pNext，还有一个指向链表中任意节点的指针pRand，如何拷贝这个特殊链表？ bylijinnan java
public class CopySpecialLinkedList { /** * 题目：有一个特殊的链表，其中每个节点不但有指向下一个节点的指针pNext，还有一个指向链表中任意节点的指针pRand，如何拷贝这个特殊链表？拷贝pNext指针非常容易，所以题目的难点是如何拷贝pRand指针。假设原来链表为A1 -> A2 ->... -> An，新拷贝
color Chen.H JavaScript html css
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <HTML> <HEAD>&nbs
[信息与战争]移动通讯与网络 comsci 网络
两个坚持:手机的电池必须可以取下来光纤不能够入户,只能够到楼宇建议大家找这本书看看:<&
oracle flashback query(闪回查询) daizj oracle flashback query flashback table
在Oracle 10g中，Flash back家族分为以下成员： Flashback Database Flashback Drop Flashback Table Flashback Query(分Flashback Query,Flashback Version Query，Flashback Transaction Query) 下面介绍一下Flashback Drop 和Flas
zeus持久层DAO单元测试 deng520159 单元测试
zeus代码测试正紧张进行中,但由于工作比较忙,但速度比较慢.现在已经完成读写分离单元测试了,现在把几种情况单元测试的例子发出来,希望有人能进出意见,让它走下去. 本文是zeus的dao单元测试: 1.单元测试直接上代码 package com.dengliang.zeus.webdemo.test; import org.junit.Test; import o
C语言学习三printf函数和scanf函数学习 dcj3sjt126com c printf scanf language
printf函数 /* 2013年3月10日20:42:32 地点：北京潘家园功能：目的：测试%x %X %#x %#X的用法 */ # include <stdio.h> int main(void) { printf("哈哈！\n"); // \n表示换行 int i = 10; printf
那你为什么小时候不好好读书? dcj3sjt126com life
dady, 我今天捡到了十块钱, 不过我还给那个人了 good girl! 那个人有没有和你讲thank you啊没有啦....他拉我的耳朵我才把钱还给他的, 他哪里会和我讲thank you 爸爸, 如果地上有一张5块一张10块你拿哪一张呢.... 当然是拿十块的咯... 爸爸你很笨的, 你不会两张都拿爸爸为什么上个月那个人来跟你讨钱, 你告诉他没
iptables开放端口 Fanyucai linux iptables 端口
1，找到配置文件 vi /etc/sysconfig/iptables 2，添加端口开放，增加一行，开放18081端口 -A INPUT -m state --state NEW -m tcp -p tcp --dport 18081 -j ACCEPT 3，保存 ESC :wq! 4，重启服务 service iptables
Ehcache（05）——缓存的查询 234390216 排序 ehcache 统计 query
缓存的查询目录 1. 使Cache可查询 1.1 基于Xml配置 1.2 基于代码的配置 2 指定可搜索的属性 2.1 可查询属性类型 2.2 &
通过hashset找到数组中重复的元素 jackyrong hashset
如何在hashset中快速找到重复的元素呢?方法很多，下面是其中一个办法： int[] array = {1,1,2,3,4,5,6,7,8,8}; Set<Integer> set = new HashSet<Integer>(); for(int i = 0
使用ajax和window.history.pushState无刷新改变页面内容和地址栏URL lanrikey history
后退时关闭当前页面 <script type="text/javascript"> jQuery(document).ready(function ($) { if (window.history && window.history.pushState) {
应用程序的通信成本 netkiller.github.com 虚拟机应用服务器陈景峰 netkiller neo
应用程序的通信成本什么是通信一个程序中两个以上功能相互传递信号或数据叫做通信。什么是成本这是是指时间成本与空间成本。时间就是传递数据所花费的时间。空间是指传递过程耗费容量大小。都有哪些通信方式全局变量线程间通信共享内存共享文件管道 Socket 硬件（串口，USB）等等全局变量全局变量是成本最低通信方法，通过设置
一维数组与二维数组的声明与定义恋洁e生二维数组一维数组定义声明初始化
/** * */ package test20111005; /** * @author FlyingFire * @date:2011-11-18 上午04:33:36 * @author ：代码整理 * @introduce :一维数组与二维数组的初始化 *summary： */ public c
Spring Mybatis独立事务配置 toknowme mybatis
在项目中有很多地方会使用到独立事务，下面以获取主键为例（1）修改配置文件spring-mybatis.xml  <tx:annotation-driven transaction-manager="transactionManager" /> &n
更新Anadroid SDK Tooks之后，Eclipse提示No update were found xp9802 eclipse
使用Android SDK Manager 更新了Anadroid SDK Tooks 之后，打开eclipse提示 This Android SDK requires Android Developer Toolkit version 23.0.0 or above, 点击Check for Updates 检测一会后提示 No update were found

faac的使用与内存优化

版本

使用方法

cmake 编译

裁剪与优化

关于《1.5 优化数据结构》章节的优化问题

你可能感兴趣的:(音频编码解码,aac,内存优化)