Linux赖猫

音视频学习 AudioTrack、OpenSL ES 音频渲染

前言

在讲解音频渲染之前，需要对音频的基础知识有所了解，所以该篇分为基础概念和AudioTrack 以及 OpenSL ES Demo 实例讲解，这样有助于更好的理解 Android 中音频渲染。

音频的基础概念涉及的知识点比较多，该篇文章的上半部分会详细的介绍，后续文章基本上都会涉及音频的开发，有了基础对于后面的内容就更容易上手了。

音频的基础知识

播放器入门到提高
快速掌握音视频开发基础知识

声音的物理性质

声音是波

说到声音我相信只要听力正常的人都听见过声音，那么声音是如何产生的呢？记得初中物理课本上的描述 - 声音是由物体的振动而产生的。其实声音是一种压力波，当敲打某个物体或演奏某个乐器时，它们的振动都会引起空气有节奏的振动，使周围的空气产生疏密变化，形成疏密相间的纵波，由此就产生了声波，这种现象会一直延续到振动消失为止。

声波的三要素

声波的三要素是频率、振幅、和波形，频率代表音阶的高低，振幅代表响度，波形代表音色。

声音的传播介质

声音的传播介质很广，它可以通过空气、液体和固体进行传播；而且介质不同，传播的速度也不同，比如声音在空气中的传播速度为 340m/s , 在蒸馏水中的传播速度为 1497 m/s , 而在铁棒中的传播速度则可以高达 5200 m/s ；不过，声音在真空中时无法传播的。

回声

当我们在高山或者空旷地带高声大喊的时候，经常会听到回声，之所以会有回声是因为声音在传播过程中遇到障碍物会反弹回来，再次被我们听到。

但是，若两种声音传到我们的耳朵里的时差小于 80 毫秒，我们就无法区分开这两种声音了，其实在日常生活中，人耳也在收集回声，只不过由于嘈杂的外接环境以及回声的分贝比较低，所以我们的耳朵分辨不出这样的声音，或者说是大脑能接收到但分辨不出。

共鸣

自然界中有光能，水能，生活中有机械能，电能，其实声音也可以产生能量，例如两个频率相同的物体，敲打其中一个物体时另一个物体也会振动发生。这种现象称为共鸣，共鸣证明了声音传播可以带动另一个物体振动，也就是说，声音的传播过程也是一种能量的传播过程。

数字音频

上一小节我们主要介绍了声音的物理现象以及声音中常见的概念，也会后续的讲解统一了术语，本节主要介绍数字音频概念。

为了将模拟信号数字化，本节将分为 3 个概念对数字音频进行讲解，分别是采样、量化和编码。首先要对模拟信号进行采样，所谓采样就是在时间轴上对信号进行数字化。根据奈奎斯特定理（也称采样定理），按比声音最高频率高 2 倍以上的频率对声音进行采样，对于高质量的音频信号，其频率范围在 20Hz ~ 20kHz ，所以采样频率一般为 44.1kHz ,这样就保证采样声音达到 20kHz 也能被数字化，从而使得经过数字化处理之后，人耳听到的声音质量不会被降低。而所谓的 44.1 kHz 就是代表 1 s 会采样 44100 次。

那么，具体的每个采样又该如何表示呢？这就涉及到将要讲解的第二个概念: 量化。量化是指在幅度轴上对信号进行数字化，比如用 16 bit 的二进制信号来表示声音的一个采样，而 16 bit 所表示的范围是 [-32768 , 32767] , 共有 65536 个可能取值，因此最终模拟的音频信号在幅度上也分为了 65536 层。

既然每一个分量都是一个采样，那么这么多的采样该如何进行存储呢？这就涉及将要讲解的第三个概念: 编码。所谓编码，就是按照一定的格式记录采样和量化后的数字数据，比如顺序存储或压缩存储等等。

这里涉及了很多中格式，通常所说的音频的裸数据就是 PCM (Pulse Code Modulation) 数据。描述一段 PCM 数据一般需要以下几个概念：量化格式(sampleFormat)、采样率（sampleRate）、声道数 (channel) 。以 CD 的音质为例：量化格式为 16 bit （2 byte）,采样率 44100 ，声道数为 2 ，这些信息就描述了 CD 的音质。而对于声音的格式，还有一个概念用来描述它的大小，称为数据比特率，即 1s 时间内的比特数目，它用于衡量音频数据单位时间内的容量大小。而对于 CD 音质的数据，比特率为多少呢？计算如下:

44100 * 16 * 2 = 1378.125 kbps

那么在一分钟里，这类 CD 音质的数据需要占据多大的存储空间呢？计算如下:

1378.125 * 60 / 8 / 1024 = 10.09 MB

当然，如果 sampleFormat 更加精确 (比如用 4 个字节来描述一个采样)，或者 sampleRate 更加密集 (比如 48kHz 的采样率)，那么所占的存储空间就会更大，同时能够描述的声音细节就会越精确。存储的这段二进制数据即表示将模拟信号转为数字信号了，以后就可以对这段二进制数据进行存储，播放，复制，或者进行其它操作。

音频编码

上面提到了 CD 音质的数据采样格式，曾计算出每分钟需要的存储空间约为 10.1MB ,如果仅仅是将其存储在光盘或者硬盘中，可能是可以接受的，但是若要在网络中实时在线传输的话，那么这个数据量可能就太大了，所以必须对其进行压缩编码。压缩编码的基本指标之一就是压缩比，压缩比通常小于 1 。压缩算法包括有损压缩和无损压缩。无所压缩是指解压后的数据不能完全复原，会丢失一部分信息，压缩比较小，丢失的信息就比较多，信号还原后的失真就会越大。根据不同的应用场景 (包括存储设备、传输网络环境、播放设备等)，可以选用不同的压缩编码算法，如 PCM 、WAV、AAC 、MP3 、Ogg 等。

WAV 编码

WAV 编码就是在 PCM 数据格式的前面加了 44 个字节，分别用来存储 PCM 的采样率、声道数、数据格式等信息。

特点: 音质好，大量软件支持。

场景: 多媒体开发的中间文件、保存音乐和音效素材。

MP3 编码

MP3 具有不错的压缩比，使用 LAME 编码（MP3 编码格式的一种实现）的中高码率的 MP3 文件，听感上非常接近源 WAV 文件，当然在不同的应用场景下，应该调整合适的参数以达到最好的效果。

特点: 音质在 128 Kbit/s 以上表现还不错，压缩比比较高，大量软件和硬件都支持，兼容性好。

场景: 高比特率下对兼容性有要求的音乐欣赏。

AAC 编码

AAC 是新一代的音频有损压缩技术，它通过一些附加的编码技术(比如 PS 、SBR) 等，衍生出了 LC-AAC 、HE-AAC 、HE-AAC v2 三种主要的编码格式。LC-AAC 是比较传统的 AAC ,相对而言，其主要应用于中高码率场景的编码 (>=80Kbit/s) ; HE-AAC 相当于 AAC + SBR 主要应用于中低码率的编码（<= 80Kbit/s）; 而新推出的 HE-AAC v2 相当于 AAC + SBR + PS 主要用于低码率场景的编码 (<= 48Kbit/s) 。事实上大部分编码器都设置为 <= 48Kbit/s 自动启用 PS 技术，而 > 48Kbit/s 则不加 PS ，相当于普通的 HE-AAC。

特点: 在小于 128Kbit/s 的码率下表现优异，并且多用于视频中的音频编码。

场景: 128 Kbit/s 以下的音频编码，多用于视频中音频轨的编码。

Ogg 编码

Ogg 是一种非常有潜力的编码，在各种码率下都有比较优秀的表现，尤其是在中低码率场景下。Ogg 除了音质好之外，还是完全免费的，这为 Ogg 获得更多的支持打好了基础，Ogg 有着非常出色的算法，可以用更小的码率达到更好的音质，128 Kbit/s 的 Ogg 比 192kbit/s 甚至更高码率的 MP3 还要出色。但是目前因为还没有媒体服务软件的支持，因此基于 Ogg 的数字广播还无法实现。Ogg 目前受支持的情况还不够好，无论是软件上的还是硬件上的支持，都无法和 MP3 相提并论。

特点: 可以用比 MP3 更小的码率实现比 MP3 更好的音质，高中低码率下均有良好的表现，兼容性不够好，流媒体特性不支持。

场景: 语言聊天的音频消息场景。

音视频开发学习资料添加小编的C/C++交流群：960994558
学习资料已经共享在群里了，期待你的加入

Android 平台下的音频渲染

AudioTrack 的使用

由于 AudioTrack 是 Android SDK 层提供的最底层的音频播放 API,因此只允许输入裸数据 PCM 。和 MediaPlayer 相比，对于一个压缩的音频文件(比如 MP3 、AAC 等文件)，它只需要自行实现解码操作和缓冲区控制。因为这里只涉及 AudioTrack 的音频渲染端，编解码我们后面在讲解，所以本小节只介绍如何使用 AudioTrack 渲染音频 PCM 裸数据。

配置 AudioTrack

public AudioTrack(int streamType, int sampleRateInHz, int channelConfig, int audioFormat,
            int bufferSizeInBytes, int mode)

streamType：Android 手机提供了多重音频管理策略，当系统又多个进程需要播放音频的时候，管理策略会决定最终的呈现效果，该参数的可选值将以常量的形式定义在类 AudioManager 中，主要包括以下内容:

/**电话铃声 */
    public static final int STREAM_VOICE_CALL = AudioSystem.STREAM_VOICE_CALL;
    /** 系统铃声 */
    public static final int STREAM_SYSTEM = AudioSystem.STREAM_SYSTEM;
    /** 铃声*/
    public static final int STREAM_RING = AudioSystem.STREAM_RING;
    /** 音乐声 */
    public static final int STREAM_MUSIC = AudioSystem.STREAM_MUSIC;
    /** 警告声 */
    public static final int STREAM_ALARM = AudioSystem.STREAM_ALARM;
    /** 通知声 */
    public static final int STREAM_NOTIFICATION = AudioSystem.STREAM_NOTIFICATION;

sampleRateInHz：采样率，即播放的音频每秒钟会有没少次采样，可选用的采样频率列表为: 8000 , 16000 , 22050 , 24000 ,32000 , 44100 , 48000 等，大家可以根据自己的应用场景进行合理的选择。

channelConfig: 声道数的配置，可选值以常量的形式配置在类 AudioFormat 中，常用的是 CHANNEL_IN_MONO (单声道)、CHANNEL_IN_STEREO (双声道) ，因为现在大多数手机的麦克风都是伪立体声采集，为了性能考虑，建议使用单声道进行采集。

audioFormat: 该参数是用来配置 “数据位宽” 的，即采样格式，可选值以常量的形式定义在类 AudioFormat 中，分别为 ENCODING_PCM_16BIT (兼容所有手机)、ENCODING_PCM_8BIT ，

bufferSizeInBytes: 配置内部的音频缓冲区的大小， AudioTrack 类提供了一个帮助开发者确定的 bufferSizeInBytes 的函数，其原型具体如下:

static public int getMinBufferSize(int sampleRateInHz, int channelConfig, int audioFormat)

在实际开发中，强烈建议由该函数计算出需要传入的缓冲区大小，而不是手动计算。

mode: AudioTrack 提供了两种播放模式，可选的值以常量的形式定义在类 AudioTrack 中，一个是 MODE_STATIC , 需要一次性将所有的数据都写入播放缓冲区中，简单高效，通常用于播放铃声、系统提醒的音频片段；另一个是 MODE_STREAM ，需要按照一定的时间间隔不断地写入音频数据，理论上它可以应用于任何音频播放的场景。

Play

//当前播放实例是否初始化成功，如果处于初始化成功的状态并且未播放的状态，那么就调用 play
if (null != mAudioTrack && mAudioTrack.getState() != AudioTrack.STATE_UNINITIALIZED && mAudioTrack.getPlayState() != PLAYSTATE_PLAYING)
   mAudioTrack.play();

销毁资源

public void release() {
     
        Log.d(TAG, "==release===");
        mStatus = Status.STATUS_NO_READY;
        if (mAudioTrack != null) {
     
            mAudioTrack.release();
            mAudioTrack = null;
        }
    }

具体实例请移步 AudioPlay 项目的 AudioTracker 部分，需要把项目中 raw 目录下的 pcm 文件放入 sdcard 跟目录中。

OpenSL ES 的使用

OpenSL ES 官方文档

OpenSL ES 全称(Open Sound Library for Embedded System) ,即嵌入式音频加速标准。OpenSL ES 是无授权费、跨平台、针对嵌入式系统精心优化的硬件音频加速 API ，它能为嵌入式移动多媒体设备上的本地应用程序开发者提供了标准化、高性能、低响应时间的音频功能实现方法，同时还实现了软/硬音频性能的直接跨平台部署，不仅降低了执行难度，而且还促进了高级音频市场的发展。
上图描述了 OpenSL ES 的架构，在 Android 中，High Level Audio Libs 是音频 Java 层 API 输入输出，属于高级 API , 相对来说，OpenSL ES 则是比价低层级的 API, 属于 C 语言 API 。在开发中，一般会直接使用高级 API , 除非遇到性能瓶颈，如语音实时聊天、3D Audio 、某些 Effects 等，开发者可以直接通过 C/C++ 开发基于 OpenSL ES 音频的应用。

在使用 OpenSL ES 的 API 之前，需要引入 OpenSL ES 的头文件，代码如下:

// 这是标准的OpenSL ES库
#include 
// 这里是针对安卓的扩展，如果要垮平台则需要注意
#include

创建引擎并获取引擎接口

void createEngine() {
     
        // 音频的播放，就涉及到了，OpenLSES
        // TODO 第一大步：创建引擎并获取引擎接口
        // 1.1创建引擎对象：SLObjectItf engineObject
        SLresult result = slCreateEngine(&engineObj, 0, NULL, 0, NULL, NULL);
        if (SL_RESULT_SUCCESS != result) {
     
            return;
        }
 
        // 1.2 初始化引擎
        result = (*engineObj) ->Realize(engineObj, SL_BOOLEAN_FALSE);
        if (SL_BOOLEAN_FALSE != result) {
     
            return;
        }
 
        // 1.3 获取引擎接口 SLEngineItf engineInterface
        result = (*engineObj) ->GetInterface(engineObj, SL_IID_ENGINE, &engine);
        if (SL_RESULT_SUCCESS != result) {
     
            return;
        }
 
         
    }

设置混音器

// TODO 第二大步 设置混音器
        // 2.1 创建混音器：SLObjectItf outputMixObject
        result = (*engine)->CreateOutputMix(engine, &outputMixObj, 0, 0, 0);
 
        if (SL_RESULT_SUCCESS != result) {
     
            return;
        }
 
        // 2.2 初始化 混音器
        result = (*outputMixObj)->Realize(outputMixObj, SL_BOOLEAN_FALSE);
        if (SL_BOOLEAN_FALSE != result) {
     
            return;
        }

创建播放器

// TODO 第三大步 创建播放器
    // 3.1 配置输入声音信息
    // 创建buffer缓冲类型的队列 2个队列
    SLDataLocator_AndroidSimpleBufferQueue locBufq = {
     SL_DATALOCATOR_ANDROIDSIMPLEBUFFERQUEUE, 2};
    // pcm数据格式
    // SL_DATAFORMAT_PCM：数据格式为pcm格式
    // 2：双声道
    // SL_SAMPLINGRATE_44_1：采样率为44100（44.1赫兹 应用最广的，兼容性最好的）
    // SL_PCMSAMPLEFORMAT_FIXED_16：采样格式为16bit （16位）(2个字节)
    // SL_PCMSAMPLEFORMAT_FIXED_16：数据大小为16bit （16位）（2个字节）
    // SL_SPEAKER_FRONT_LEFT | SL_SPEAKER_FRONT_RIGHT：左右声道（双声道）  （双声道 立体声的效果）
    // SL_BYTEORDER_LITTLEENDIAN：小端模式
    SLDataFormat_PCM formatPcm = {
     SL_DATAFORMAT_PCM, (SLuint32) mChannels, mSampleRate,
                                  (SLuint32) mSampleFormat, (SLuint32) mSampleFormat,
                                  mChannels == 2 ? 0 : SL_SPEAKER_FRONT_CENTER,
                                  SL_BYTEORDER_LITTLEENDIAN};
    /*
     * Enable Fast Audio when possible:  once we set the same rate to be the native, fast audio path
     * will be triggered
     */
    if (mSampleRate) {
     
        formatPcm.samplesPerSec = mSampleRate;
    }
 
    // 数据源 将上述配置信息放到这个数据源中
    SLDataSource audioSrc = {
     &locBufq, &formatPcm};
 
    // 3.2 配置音轨（输出）
    // 设置混音器
    SLDataLocator_OutputMix locOutpuMix = {
     SL_DATALOCATOR_OUTPUTMIX, mAudioEngine->outputMixObj};
    SLDataSink audioSink = {
     &locOutpuMix, nullptr};
 
    /*
     * create audio player:
     *     fast audio does not support when SL_IID_EFFECTSEND is required, skip it
     *     for fast audio case
     */
    //  需要的接口 操作队列的接口
    const SLInterfaceID ids[3] = {
     SL_IID_BUFFERQUEUE, SL_IID_VOLUME, SL_IID_EFFECTSEND};
    const SLboolean req[3] = {
     SL_BOOLEAN_TRUE, SL_BOOLEAN_TRUE, SL_BOOLEAN_TRUE};
 
    //  3.3 创建播放器
    result = (*mAudioEngine->engine)->CreateAudioPlayer(mAudioEngine->engine, &mPlayerObj,
                                                        &audioSrc, &audioSink,
                                                        mSampleRate ? 2 : 3, ids, req);
    if (result != SL_RESULT_SUCCESS) {
     
        LOGE("CreateAudioPlayer failed: %d", result);
        return false;
    }
 
    //  3.4 初始化播放器：mPlayerObj
    result = (*mPlayerObj)->Realize(mPlayerObj, SL_BOOLEAN_FALSE);
    if (result != SL_RESULT_SUCCESS) {
     
        LOGE("mPlayerObj Realize failed: %d", result);
        return false;
    }
//  3.5 获取播放器接口：SLPlayItf mPlayerObj
    result = (*mPlayerObj)->GetInterface(mPlayerObj, SL_IID_PLAY, &mPlayer);
    if (result != SL_RESULT_SUCCESS) {
     
        LOGE("mPlayerObj GetInterface failed: %d", result);
        return false;
    }

设置播放回调函数

// TODO 第四大步：设置播放回调函数
    // 4.1 获取播放器队列接口：SLAndroidSimpleBufferQueueItf mBufferQueue
    result = (*mPlayerObj)->GetInterface(mPlayerObj, SL_IID_BUFFERQUEUE, &mBufferQueue);
    if (result != SL_RESULT_SUCCESS) {
     
        LOGE("mPlayerObj GetInterface failed: %d", result);
        return false;
    }
// 4.2 设置回调 void playerCallback(SLAndroidSimpleBufferQueueItf bq, void *context)
    result = (*mBufferQueue)->RegisterCallback(mBufferQueue, playerCallback, this);
    if (result != SL_RESULT_SUCCESS) {
     
        LOGE("mPlayerObj RegisterCallback failed: %d", result);
        return false;
    }
 
    mEffectSend = nullptr;
    if (mSampleRate == 0) {
     
        result = (*mPlayerObj)->GetInterface(mPlayerObj, SL_IID_EFFECTSEND, &mEffectSend);
        if (result != SL_RESULT_SUCCESS) {
     
            LOGE("mPlayerObj GetInterface failed: %d", result);
            return false;
        }
    }
 
    result = (*mPlayerObj)->GetInterface(mPlayerObj, SL_IID_VOLUME, &mVolume);
    if (result != SL_RESULT_SUCCESS) {
     
        LOGE("mPlayerObj GetInterface failed: %d", result);
        return false;
    }

设置播放器状态

  // TODO 第五大步：设置播放器状态为播放状态
    result = (*mPlayer)->SetPlayState(mPlayer, SL_PLAYSTATE_PLAYING);
    if (result != SL_RESULT_SUCCESS) {
     
        LOGE("mPlayerObj SetPlayState failed: %d", result);
        return false;
    }

手动激活回调函数

void OpenSLAudioPlay::enqueueSample(void *data, size_t length) {
     
    // 必须等待一帧音频播放完毕后才可以 Enqueue 第二帧音频
    pthread_mutex_lock(&mMutex);
    if (mBufSize < length) {
     
        mBufSize = length;
        if (mBuffers[0]) {
     
            delete[] mBuffers[0];
        }
        if (mBuffers[1]) {
     
            delete[] mBuffers[1];
        }
        mBuffers[0] = new uint8_t[mBufSize];
        mBuffers[1] = new uint8_t[mBufSize];
    }
    memcpy(mBuffers[mIndex], data, length);
    // TODO 第六步：手动激活回调函数
    (*mBufferQueue)->Enqueue(mBufferQueue, mBuffers[mIndex], length);
    mIndex = 1 - mIndex;
}

释放资源

extern "C"
JNIEXPORT void JNICALL
Java_com_devyk_audioplay_AudioPlayActivity_nativeStopPcm(JNIEnv *env, jclass type) {
     
    isPlaying = false;
    if (slAudioPlayer) {
     
        slAudioPlayer->release();
        delete slAudioPlayer;
        slAudioPlayer = nullptr;
    }
    if (pcmFile) {
     
        fclose(pcmFile);
        pcmFile = nullptr;
    }
}

完整的代码请参考仓库中 OpenSL ES 部分。注意：需要把 raw 中的 pcm 文件放入 sdcard 根目录下。

总结

该篇文章主要介绍了音频的一些基础知识和使用 AudioTrack 以及 OpenSL ES 来渲染裸流音频数据。大家可以根据我的源代码中在加深理解。

最后的页面效果:

当前最好的0样本文本转语音是哪个模型？ skywalk8163 多媒体人工智能人工智能 MegaTTS3
综合排名前三模型‌MegaTTS3（字节跳动&浙江大学）‌‌核心优势‌：仅需‌3-10秒‌参考音频即可精准克隆音色，支持中英混合语音自然切换1112轻量化设计（0.45B参数），实时生成延迟低于400ms11采用‌DiffusionTransformer+WaveVAE‌架构，在韵律自然度榜单SpeechArena排名第一11‌开源地址‌：GitHub官方仓库（免费商用）‌MiniMaxSpeec
Leap Motion开发（一）下载安装以及环境配置 voidvoidnini leap motion visual studio 手势识别
本开发同样适用于UltraleapStereoIR1701、官网下载SDKSDKAPI值得说明的是，IR170这块开发板提供的API是基于C语言的，与LeapMotion提供的基于C++的API不同，但配置过程基本相同。2、配置环境添加附加依赖项项目-属性-连接器-输入-附加依赖项添加LeapC.lib添加包含目录和库目录包含目录:D:\CODING\LeapCEnv\LeapCEnv\LeapS
C++从入门到精通专栏简介 xiaoheshang_123 C++从入门到精通专栏开发语言 c++
目录C++从入门到精通专栏简介专栏概述专栏特色适用人群学习目标专栏结构第1章：C++语言基础第2章：面向过程编程第3章：面向对象编程(OOP)入门第4章：标准模板库(STL)初探第5章：高级特性第6章：现代C++第7章：实践项目第8章：性能优化与调试第9章：职业发展专栏优势期待与收获C++从入门到精通专栏简介专栏概述本专栏旨在为C++编程语言的学习者提供一个全面而系统的指南，帮助他们从零基础逐步成
现代 C++ 智能指针与内存管理
一、裸指针的风险与智能指针的诞生1.传统内存管理的痛点在C++98时代，手动内存管理存在三大核心问题：内存泄漏：new分配的内存未被delete释放双重释放：多个指针指向同一内存，多次delete导致崩溃悬空指针：对象已被释放，但仍有指针引用它典型案例：voidprocess(){int*ptr=newint(42);//业务逻辑...if(condition)return;//直接返回导致内存泄
探索GHC Filesystem：跨平台的C++文件系统库陆欣瑶
探索GHCFilesystem：跨平台的C++文件系统库项目地址:https://gitcode.com/gh_mirrors/fil/filesystem在现代软件开发中，文件系统操作是不可或缺的一部分。无论是处理用户数据、配置文件还是日志记录，一个强大且兼容性好的文件系统库都是开发者的得力助手。今天，我们要介绍的是一个开源的C++文件系统库——GHCFilesystem，它不仅支持多种操作系统
现代C++ 文件系统库 mxpan c++c++
一、std::filesystem的前世今生C++11之前，文件系统操作依赖于平台特定的API（如Windows的CreateFile或POSIX的open），缺乏统一接口。C++17正式将std::filesystem纳入标准库，该库最初由Boost.Filesystem演化而来，提供了跨平台的文件系统操作能力。核心优势：跨平台兼容性：一次编写，支持Windows、Linux、macOS等主流平
iOS开发-进阶:音频播放、录音、视频播放、拍照、视频录制 nikoLiLol
转自:http://www.cnblogs.com/kenshincui/p/4186022.html#audioRecord文章太长了,如果我这里写的质量不好,请参考原文;概览随着移动互联网的发展，如今的手机早已不是打电话、发短信那么简单了，播放音乐、视频、录音、拍照等都是很常用的功能。在iOS中对于多媒体的支持是非常强大的，无论是音视频播放、录制，还是对麦克风、摄像头的操作都提供了多套API。
C/C++联合体(union)完全指南：从内存共享到高级用法
1.联合体基础概念联合体(union)是一种特殊的数据类型，允许在相同内存位置存储不同的数据类型，但同一时间只能使用一个成员。unionData{inti;floatf;charstr[20];};核心特性所有成员共享同一块内存大小由最大成员决定同一时间只有一个成员有效常用于节省内存或类型转换场景2.C语言中的联合体2.1基本用法unionNumber{intinteger;floatreal;}
源分离：开启音频处理新纪元魏侃纯Zoe
源分离：开启音频处理新纪元source_separation项目地址:https://gitcode.com/gh_mirrors/so/source_separation在音频处理的浩瀚领域中，源分离项目宛如一颗璀璨的明星。今天，我们要探索的不仅是技术的前沿，更是音频编辑和增强的一个革命性工具。源分离旨在从复杂的声音记录中提取出清晰的语音，它不仅仅是一个代码库，而是通往更真实声音世界的大门。项目
FFmpeg：播放音频奋斗的IT青年 FFmpeg FFmpeg 音频解码播放
现在我们要来播放声音。SDL也为我们准备了输出声音的方法。函数SDL_OpenAudio()本身就是用来打开声音设备的。它使用一个叫做SDL_AudioSpec结构体作为参数，这个结构体中包含了我们将要输出的音频的所有信息。在我们展示如何建立之前，让我们先解释一下电脑是如何处理音频的。数字音频是由一长串的样本流组成的。每个样本表示声音波形中的一个值。声音按照一个特定的采样率来进行录制，采样率表示以
【Cherno的C++视频】Type punning in C++ NDWET Cherno的《C++教程》c++
#includestructEntity{intx,y;int*GetPositions(){return&x;}};intmain(void){inta=50;//implicitconversion.doublevalue0=a;//explicitconversion,thememoryofatobetreatedasadouble,abadideaactually!doublevalue1
《解锁AudioSet：开启音频分析的无限可能》
音频新时代的“密钥”：AudioSet登场在科技飞速发展的今天，音频作为信息传播与交互的关键媒介，早已渗透到现代科技的各个角落。从智能手机中的语音助手，让我们通过简单的语音指令就能查询信息、发送消息，到智能家居系统，凭借音频识别技术实现设备的智能控制，如智能音箱可根据我们的声音命令播放音乐、查询天气；从沉浸式的虚拟现实（VR）和增强现实（AR）体验中，逼真的音效让人身临其境，到智能驾驶领域，通过对
音频单声道跟立体声道的区别张海森_168820 音视频
音频单声道跟立体声道的区别摘自chatgpt单声道（Mono）和立体声（Stereo）的区别，主要在于声道数与空间感的不同：1.定义对比：项目单声道（Mono）立体声（Stereo）声道数1个2个（左声道+右声道）声音来源所有声音都从一个声道发出声音分布在两个声道，模拟空间感空间效果无空间感有方向、空间定位感（左右差异）文件大小相对较小文件更大（多一倍音频数据）常见应用电话、对讲机、语音识别等音乐
g711a/g711u音频播放器和原始音频参考文件 sunflavor g711 音视频
g711ag711u测试数据，g711播放器下载,调试声音时很不方便，下载附件包后，你要的都有了。下载地址：https://download.csdn.net/download/sunflavor/88603724
g711a音频编码记录
写了个安卓wavpcmhttp直播流的程序。客户端采用sdl2直接播放pcm.工作的很好，但是，非常耗费带宽差不多100kb/s的网速。非常不利于外网的音频传输。尝试用zlib压缩，效果不尽理想。只压缩成90%。节约了1/10带宽遂放弃。尝试了安卓端mp3直播，效果不错，差不多带宽30kb/s。但是mp3有个很大的问题，就是延迟增大了几秒。研究了下wav压缩音频格式，发觉还有g711a，这个算法比
AAC / G711A / PCM 音频格式解析孤独冰刃音频编码解码
Android利用AudioTrack录制和播放PCM格式音频：publicclassPCMTalk{privateAudioRecordaudioRecord;privateintsampleRate;privateintchannel;privateByteBufferrecordBuf;privateAudioTracktrack;publicPCMTalk(intsampleRate,in
什么叫精通C++ diaoqu4574
常用的面向对象复用模型设计、常用的数据结构设计、常用的操作系统知识、内存管理、多线程互斥，然后能够很轻松的应用现有的软件模块和开发库，比如用开源的库(例如log4cpp)，购买的其他公司的接口模块等，能够和容易上手应用一个你从未涉足的开发平台(比如从vc转到symbian,转到qt)，开发令老板比较满意的程序模块.十足的自信心+强烈的求知欲+对Programming&&CPP的执着+百折不挠的钻研
c++数据类型元学习研究生小白 c++基础编程语言
数据类型在创建变量或者常量时，必须指定相应的类型，否则无法给变量分配内存整型作用：表示的是整数类型的数据根据占用内存空间大小不同分为四种类型：1.short(短整型)2字节-2^15----2^15-12.int(整型)4字节-2^31----2^31-13.long(长整型)4字节-2^31----2^31-14.longlong(长长整型)8字节-2^63----2^63-1sizeof关键字
PaddleOCR不同模型和Paddle版本推理性能对比 dotNET跨平台 paddle
飞桨PaddleOCR这几年发布了从V2到V5的中英文OCR模型，Paddle推理框架也从2.X升级到3.0.0版本。本次对不同模型和推理框架的性能做些对比。测试条件：操作系统：win10X64CPU:13thGenIntel(R)Core(TM)i9-13900HF3.0GHz24核32线程CPU指令集：AVX,AVX2测试基于PaddleOCRSharp的C++版本SDK：https://gi
C# 讯飞语音唤醒 jones.s c#
publicpartialclassMainWindow:Window{//导入C/C++的库文件[DllImport("msc_x64.dll",CallingConvention=CallingConvention.Winapi)]publicstaticexternintMSPLogin(stringusername,stringpassword,stringloginParams);[Dl
音频采样数据格式 melonbo 百问 -音视频音视频
音频信号在模拟到数字转换时，会涉及到多个关键参数，如采样率、位深度、通道数等。下面是常见的音频采样数据格式及其相关概念：1.采样率(SampleRate)采样率指的是每秒钟对音频信号进行采样的次数，单位为赫兹(Hz)。常见的值如下：44.1kHz：常用于音频CD和大多数音乐文件格式（如WAV、MP3）。48kHz：常用于专业音频录制、电影和视频音频处理。96kHz、192kHz：常用于高保真音频（
从汇编指令看函数调用堆栈的详细过程 melonbo 编译汇编开发语言
1、C++代码这个C++源码实现了一个简单的加法函数，并在主函数中调用该函数来计算两个整数的和。intsum(inta,intb){inttemp=0;temp=a+b;returntemp;}intmain(){inta=10;intb=20;intret=sum(a,b);return0;}2、汇编代码在ARMCortex-A9平台上，编译后的C++源代码的汇编代码如下：.cpucortex-
C++基础（FreeRDP编译）
安装先安装openssl保姆级OpenSSL下载及安装教程,OpenSSL下载及安装教程-CSDN博客vcpkgintegrateinstall安装vcpkginstallzlibvcpkginstallffmpeg:x64-windows编译指令PSD:\freerdp\FreeRDP\build>cmake..-G"VisualStudio172022"-Ax64-DCMAKE_TOOLCHA
从零开始：Python实现语音识别的完整教程_副本 AIGC应用创新大全 AI大模型与大数据技术 AI人工智能与大数据应用开发 MCP&Agent 云算力网络 python 语音识别开发语言 ai
从零开始：Python实现语音识别的完整教程关键词：Python、语音识别、语音转文本、音频处理、机器学习、深度学习、自然语言处理摘要：本文将带你从零开始学习如何使用Python实现语音识别功能。我们将从基础概念讲起，逐步深入到实际代码实现，涵盖音频处理、特征提取、模型训练等关键环节，最终构建一个完整的语音识别系统。无论你是初学者还是有一定经验的开发者，都能从本教程中获得实用的知识和技能。背景介绍
从零开始：用Python构建AI语音识别应用的完整指南 AI大模型应用之禅人工智能 python 语音识别 ai
从零开始：用Python构建AI语音识别应用的完整指南关键词：Python语音识别、AI语音处理、语音转文本、SpeechRecognition库、端到端模型摘要：本文从0到1带您掌握用Python构建AI语音识别应用的全流程。我们将用“给小学生讲故事”的方式，拆解语音识别的核心概念（如音频采集、特征提取、模型解码），结合代码实战（从调用API到自定义模型），并覆盖环境搭建、常见问题和未来趋势。无
C++ STL常用二分查找算法 basketball616 C++基础算法 c++数据结构
lower_boundlower_bound是C++标准库算法，通常用于有序序列中查找第一个不小于给定值的元素。它属于头文件，并且是基于二分查找实现的，因此要求输入序列必须是有序的。基本语法#include//引入算法库Iteratorlower_bound(Iteratorfirst,Iteratorlast,constT&value);first和last是迭代器，分别表示容器的起始位置和结束
GDB调试程序：使用方法和编程技巧程序员拓荒编程
在软件开发过程中，调试是一个至关重要的环节。GDB（GNU调试器）是一个功能强大的调试工具，可以帮助开发人员诊断和修复程序中的错误。本文将介绍GDB的基本用法和一些编程技巧，并提供一些示例源代码供参考。什么是GDB？GDB是一个用于调试程序的命令行工具。它可以帮助开发人员在程序执行过程中定位错误、追踪程序状态以及查看变量的值。GDB支持多种编程语言，包括C、C++、Objective-C、Fort
编程c++ 洛谷P1001 A+B Problem zcc_qwq c++java 算法
hello大家好，我又来了。A+B问题c++初学者都会，很很很很……（此处省略1000000个）简单带马：#include//万能头文件usingnamespacestd;inta,b;//两个整型变量intmain(){cin>>a>>b;//输入cout<<a+b;//输出return0;}简单简单简单简单鸡蛋，我用小脚趾都做得出来，呵呵……大家下会见
算法竞赛备考冲刺必刷题（C++） | 洛谷 P1001 A+B Problem 热爱编程的通信人 c++算法
本文分享的必刷题目是从蓝桥云课、洛谷、AcWing等知名刷题平台精心挑选而来，并结合各平台提供的算法标签和难度等级进行了系统分类。题目涵盖了从基础到进阶的多种算法和数据结构，旨在为不同阶段的编程学习者提供一条清晰、平稳的学习提升路径。欢迎大家订阅我的专栏：算法题解：C++与Python实现！附上汇总贴：算法竞赛备考冲刺
C++“outFile”介绍 Tan_Zhixia c++
基础操作介绍outFile和inFile一样，需要导入一个叫做fstream的库outFile和cout没有一丁点区别！代码#include#includeusingnamespacestd;intmain(){ofstreamoutFile("文件名.out");//变量outFile<<"HelloWorld!"<
apache 安装linux windows 墙头上一根草 apache inux windows
linux安装Apache 有两种方式一种是手动安装通过二进制的文件进行安装，另外一种就是通过yum 安装，此中安装方式，需要物理机联网。以下分别介绍两种的安装方式通过二进制文件安装Apache需要的软件有apr,apr-util,pcre 1，安装 apr 下载地址：htt
fill_parent、wrap_content和match_parent的区别 Cb123456 match_parent fill_parent
fill_parent、wrap_content和match_parent的区别: 1）fill_parent 设置一个构件的布局为fill_parent将强制性地使构件扩展，以填充布局单元内尽可能多的空间。这跟Windows控件的dockstyle属性大体一致。设置一个顶部布局或控件为fill_parent将强制性让它布满整个屏幕。 2） wrap_conte
网页自适应设计天子之骄 html css 响应式设计页面自适应
网页自适应设计网页对浏览器窗口的自适应支持变得越来越重要了。自适应响应设计更是异常火爆。再加上移动端的崛起，更是如日中天。以前为了适应不同屏幕分布率和浏览器窗口的扩大和缩小，需要设计几套css样式，用js脚本判断窗口大小，选择加载。结构臃肿，加载负担较大。现笔者经过一定时间的学习，有所心得，故分享于此，加强交流，共同进步。同时希望对大家有所
[sql server] 分组取最大最小常用sql 一炮送你回车库 SQL Server
--分组取最大最小常用sql--测试环境if OBJECT_ID('tb') is not null drop table tb;gocreate table tb( col1 int, col2 int, Fcount int)insert into tbselect 11,20,1 union allselect 11,22,1 union allselect 1
ImageIO写图片输出到硬盘 3213213333332132 java image
package awt; import java.awt.Color; import java.awt.Font; import java.awt.Graphics; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imagei
自己的String动态数组宝剑锋梅花香 java 动态数组数组
数组还是好说，学过一两门编程语言的就知道，需要注意的是数组声明时需要把大小给它定下来，比如声明一个字符串类型的数组：String str[]=new String[10]; 但是问题就来了，每次都是大小确定的数组，我需要数组大小不固定随时变化怎么办呢？动态数组就这样应运而生，龙哥给我们讲的是自己用代码写动态数组，并非用的ArrayList 看看字符
pinyin4j工具类 darkranger .net
pinyin4j工具类Java工具类 2010-04-24 00:47:00 阅读69 评论0 字号：大中小引入pinyin4j-2.5.0.jar包: pinyin4j是一个功能强悍的汉语拼音工具包，主要是从汉语获取各种格式和需求的拼音，功能强悍，下面看看如何使用pinyin4j。本人以前用AscII编码提取工具，效果不理想，现在用pinyin4j简单实现了一个。功能还不是很完美，
StarUML学习笔记----基本概念 aijuans UML建模
介绍StarUML的基本概念，这些都是有效运用StarUML?所需要的。包括对模型、视图、图、项目、单元、方法、框架、模型块及其差异以及UML轮廓。模型、视与图（Model, View and Diagram） &
Activiti最终总结 avords Activiti id 工作流
1、流程定义ID：ProcessDefinitionId，当定义一个流程就会产生。 2、流程实例ID：ProcessInstanceId，当开始一个具体的流程时就会产生，也就是不同的流程实例ID可能有相同的流程定义ID。 3、TaskId，每一个userTask都会有一个Id这个是存在于流程实例上的。 4、TaskDefinitionKey和（ActivityImpl activityId
从省市区多重级联想到的，react和jquery的差别 bee1314 jquery UI react
在我们的前端项目里经常会用到级联的select，比如省市区这样。通常这种级联大多是动态的。比如先加载了省，点击省加载市，点击市加载区。然后数据通常ajax返回。如果没有数据则说明到了叶子节点。针对这种场景，如果我们使用jquery来实现，要考虑很多的问题，数据部分，以及大量的dom操作。比如这个页面上显示了某个区，这时候我切换省，要把市重新初始化数据，然后区域的部分要从页面
Eclipse快捷键大全 bijian1013 java eclipse 快捷键
Ctrl+1 快速修复(最经典的快捷键,就不用多说了)Ctrl+D: 删除当前行 Ctrl+Alt+↓ 复制当前行到下一行(复制增加)Ctrl+Alt+↑ 复制当前行到上一行(复制增加)Alt+↓ 当前行和下面一行交互位置(特别实用,可以省去先剪切,再粘贴了)Alt+↑ 当前行和上面一行交互位置(同上)Alt+← 前一个编辑的页面Alt+→ 下一个编辑的页面(当然是针对上面那条来说了)Alt+En
js 笔记函数征客丶 JavaScript
一、函数的使用 1.1、定义函数变量 var vName = funcation(params){ } 1.2、函数的调用函数变量的调用： vName(params); 函数定义时自发调用：(function(params){})(params); 1.3、函数中变量赋值 var a = 'a'; var ff
【Scala四】分析Spark源代码总结的Scala语法二 bit1129 scala
1. Some操作在下面的代码中，使用了Some操作：if (self.partitioner == Some(partitioner))，那么Some(partitioner)表示什么含义？首先partitioner是方法combineByKey传入的变量， Some的文档说明： /** Class `Some[A]` represents existin
java 匿名内部类 BlueSkator java匿名内部类
组合优先于继承 Java的匿名类，就是提供了一个快捷方便的手段，令继承关系可以方便地变成组合关系继承只有一个时候才能用，当你要求子类的实例可以替代父类实例的位置时才可以用继承。在Java中内部类主要分为成员内部类、局部内部类、匿名内部类、静态内部类。内部类不是很好理解，但说白了其实也就是一个类中还包含着另外一个类如同一个人是由大脑、肢体、器官等身体结果组成，而内部类相
盗版win装在MAC有害发热，苹果的东西不值得买，win应该不用 ljy325 游戏 apple windows XP OS
Mac mini 型号: MC270CH-A RMB:5,688 Apple 对windows的产品支持不好,有以下问题: 1.装完了xp,发现机身很热虽然没有运行任何程序！貌似显卡跑游戏发热一样，按照那样的发热量,那部机子损耗很大,使用寿命受到严重的影响! 2.反观安装了Mac os的展示机，发热量很小，运行了1天温度也没有那么高 &nbs
读《研磨设计模式》-代码笔记-生成器模式-Builder bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 生成器模式的意图在于将一个复杂的构建与其表示相分离，使得同样的构建过程可以创建不同的表示（GoF） * 个人理解： * 构建一个复杂的对象，对于创建者（Builder）来说，一是要有数据来源(rawData)，二是要返回构
JIRA与SVN插件安装 chenyu19891124 SVN jira
JIRA安装好后提交代码并要显示在JIRA上，这得需要用SVN的插件才能看见开发人员提交的代码。 1.下载svn与jira插件安装包，解压后在安装包(atlassian-jira-subversion-plugin-0.10.1) 2.解压出来的包里下的lib文件夹下的jar拷贝到(C:\Program Files\Atlassian\JIRA 4.3.4\atlassian-jira\WEB
常用数学思想方法 comsci 工作
对于搞工程和技术的朋友来讲，在工作中常常遇到一些实际问题，而采用常规的思维方式无法很好的解决这些问题，那么这个时候我们就需要用数学语言和数学工具，而使用数学工具的前提却是用数学思想的方法来描述问题。。下面转帖几种常用的数学思想方法，仅供学习和参考函数思想　　把某一数学问题用函数表示出来，并且利用函数探究这个问题的一般规律。这是最基本、最常用的数学方法
pl/sql集合类型 daizj oracle 集合 type pl/sql
--集合类型 /* 单行单列的数据，使用标量变量单行多列数据，使用记录单列多行数据，使用集合（。。。） *集合：类似于数组也就是。pl/sql集合类型包括索引表（pl/sql table）、嵌套表（Nested Table）、变长数组（VARRAY）等 */ /* --集合方法 &n
[Ofbiz]ofbiz初用 dinguangx 电商 ofbiz
从github下载最新的ofbiz（截止2015-7-13），从源码进行ofbiz的试用 1. 加载测试库 ofbiz内置derby，通过下面的命令初始化测试库 ./ant load-demo (与load-seed有一些区别) 2. 启动内置tomcat ./ant start 或 ./startofbiz.sh 或 java -jar ofbiz.jar &
结构体中最后一个元素是长度为0的数组 dcj3sjt126com c gcc
在Linux源代码中，有很多的结构体最后都定义了一个元素个数为0个的数组，如/usr/include/linux/if_pppox.h中有这样一个结构体： struct pppoe_tag { __u16 tag_type; __u16 tag_len; &n
Linux cp 实现强行覆盖 dcj3sjt126com linux
发现在Fedora 10 /ubutun 里面用cp -fr src dest，即使加了-f也是不能强行覆盖的，这时怎么回事的呢？一两个文件还好说，就输几个yes吧，但是要是n多文件怎么办，那还不输死人呢？下面提供三种解决办法。方法一我们输入alias命令，看看系统给cp起了一个什么别名。 [root@localhost ~]# aliasalias cp=’cp -i’a
Memcached(一)、HelloWorld frank1234 memcached
一、简介高性能的架构离不开缓存，分布式缓存中的佼佼者当属memcached，它通过客户端将不同的key hash到不同的memcached服务器中，而获取的时候也到相同的服务器中获取，由于不需要做集群同步，也就省去了集群间同步的开销和延迟，所以它相对于ehcache等缓存来说能更好的支持分布式应用，具有更强的横向伸缩能力。二、客户端选择一个memcached客户端，我这里用的是memc
Search in Rotated Sorted Array II hcx2013 search
Follow up for "Search in Rotated Sorted Array":What if duplicates are allowed? Would this affect the run-time complexity? How and why? Write a function to determine if a given ta
Spring4新特性——更好的Java泛型操作API jinnianshilongnian spring4 generic type
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装JDK liuxingguome centos
1、行卸载原来的： [root@localhost opt]# rpm -qa | grep java tzdata-java-2014g-1.el6.noarch java-1.7.0-openjdk-1.7.0.65-2.5.1.2.el6_5.x86_64 java-1.6.0-openjdk-1.6.0.0-11.1.13.4.el6.x86_64 [root@localhost
二分搜索专题2-在有序二维数组中搜索一个元素 OpenMind 二维数组算法二分搜索
1,设二维数组p的每行每列都按照下标递增的顺序递增。用数学语言描述如下：p满足 (1),对任意的x1，x2，y，如果x1<x2,则p(x1,y)<p(x2,y); (2),对任意的x，y1,y2, 如果y1<y2,则p(x,y1)<p(x,y2); 2,问题：给定满足1的数组p和一个整数k，求是否存在x0,y0使得p(x0,y0)=k? 3,算法分析： (
java 随机数 Math与Random SaraWon java Math Random
今天需要在程序中产生随机数，知道有两种方法可以使用，但是使用Math和Random的区别还不是特别清楚，看到一篇文章是关于的，觉得写的还挺不错的，原文地址是 http://www.oschina.net/question/157182_45274?sort=default&p=1#answers 产生1到10之间的随机数的两种实现方式： //Math Math.roun
oracle创建表空间 tugn oracle
create temporary tablespace TXSJ_TEMP tempfile 'E:\Oracle\oradata\TXSJ_TEMP.dbf' size 32m autoextend on next 32m maxsize 2048m extent m
使用Java8实现自己的个性化搜索引擎 yangshangchuan java superword 搜索引擎 java8 全文检索
需要对249本软件著作实现句子级别全文检索，这些著作均为PDF文件，不使用现有的框架如lucene，自己实现的方法如下： 1、从PDF文件中提取文本，这里的重点是如何最大可能地还原文本。提取之后的文本，一个句子一行保存为文本文件。 2、将所有文本文件合并为一个单一的文本文件，这样，每一个句子就有一个唯一行号。 3、对每一行文本进行分词，建立倒排表，倒排表的格式为：词=包含该词的总行数N=行号