bo_2018

Opus介绍及编译

opus是一个有损声音编码的格式,由IETF开发,没有任何专利或限制,适用于网络上的实时声音传输,标准格式为RFC 6716,其技术来源于Skype的SILK及Xiph.Org的CELT编码

主要特性如下:

6 kb /秒到510 kb / s的比特率
采样率从8 kHz（窄带）到48 kHz（全频）
帧大小从2.5毫秒到60毫秒
支持恒定比特率（CBR）和可变比特率（VBR）
从窄带到全频段的音频带宽
支持语音和音乐
支持单声道和立体声
支持多达255个频道（多数据流的帧）
可动态调节比特率，音频带宽和帧大小
良好的鲁棒性丢失率和数据包丢失隐藏（PLC）
浮点和定点实现

基于OPUS强大的PLC能力以及良好的VOIP音质, 我们决定在我们的视频会议中引入OPUS编码,用于Android/iOS/Windows视频会议客户端,以及视频会议媒体服务器中.

首先需要在opus官网上下载opus相关的源码资料

http://www.opus-codec.org/

在downloads里面可以看到全部的源码下载

这里我们需要下载

opus-tools-0.2.1.tar.gz和opus-1.3.1.tar.gz

下载后可以在ubuntu里解压

然后

./configure

（如果是其余平台如Mips或Arm，需要添加 --host=（交叉编译链），在ARM和mips平台推荐使用--enable-fixed-point命令关闭浮点运算）

然后 make && make install

之后，会出现一堆供测试用的可执行文件

之前笔者犯了一个错误，就是直接用opus_demo文件对MP3和wav格式的音频进行编码，结果导致出错

= Compiling libopus ==

To build from a distribution tarball, you only need to do the following:

    % ./configure
    % make

To build from the git repository, the following steps are necessary:

0) Set up a development environment:

On an Ubuntu or Debian family Linux distribution:

    % sudo apt-get install git autoconf automake libtool gcc make

On a Fedora/Redhat based Linux:

    % sudo dnf install git autoconf automake libtool gcc make

Or for older Redhat/Centos Linux releases:

    % sudo yum install git autoconf automake libtool gcc make

On Apple macOS, install Xcode and brew.sh, then in the Terminal enter:

    % brew install autoconf automake libtool

在README里面我们可以看到

input and output are little-endian signed 16-bit PCM files or opus
bitstreams with simple opus_demo proprietary framing.

所以更换了pcm格式的文件，我们便可以进行编码

编码的命令为：

./opus_demo -e voip 48000 2 128000 xxx.pcm xxx.opus

之后便生成你参数指定的opus文件

其中-e指的事编码，voip是编码格式，还有audio和restricted-lowdelay两种格式，48000是采样率，2是指双通道，128000是比特率，随后是输入文件和输出文件

这些输入./opus_demo --help都会有提示

随后我们可以对生成的opus文件解码

./opus_demo -d 48000 2 xxx.opus xxx.pcm

之后会解码生成pcm文件

当然，如果想直接将wav，flac格式的音频文件，编码成可播放的opus文件

需要使用opus_tools

同样是./configure make && install之后

然后使用

./opus_enc xxx.wav xxx.opus命令

生成的opus文件便可以播放啦

使用步骤：

1.创建opus解码器：

OPUS_EXPORT OPUS_WARN_UNUSED_RESULT OpusDecoder *opus_decoder_create(
  opus_int32 Fs,//采样率，可以设置的大小为8000, 12000, 16000, 24000, 48000.
  int channels,//声道数，网络中实时音频一般为单声道
  int *error//是否创建失败,返回0表示创建成功
  );

2.解码：

OPUS_EXPORT OPUS_WARN_UNUSED_RESULT int opus_decode(
    OpusDecoder *st,          //上一步的返回值
    const unsigned char *data,//要解码的数据
    opus_int32 len,           //数据长度
    opus_int16 *pcm,          //解码后的数据,注意是一个以16位长度为基本单位的数组
    int frame_size,           //每个声道给pcm数组的长度
    int decode_fec            //是否需要fec,设置0为不需要，1为需要
) OPUS_ARG_NONNULL(1) OPUS_ARG_NONNULL(4);

3.把解码数据放入字符数组中

//注意是大端传入，所以应该转为小端
//注：frameSize是上一步的返回值，即每个声道返回的以2字节为单位的数组长度
//pcm是解码后的数据，即上一步的参数4

char *pcmData = new char[frameSize * channels * sizeof(opus_int16)];
for (int i = 0; i < channels * frameSize; ++i)
{
  pcmData[i * 2] = pcm[i] & 0xFF;
  pcmData[i * 2 + 1] = (pcm[i] >> 8) & 0xFF;
}

4.释放解码器

OPUS_EXPORT void opus_decoder_destroy(OpusDecoder *st);

注意事项：

1.对于连续的一段声音，一定只能用一个解码器（不能创建之后释放再去创建解码器）

2.如果使用fec，那么记得要自己检查seq确认丢失再使用fec，如果每一个包都使用fec，每一个都会给你解码出来数据的

接口应用实例：

#include 
#include  
#include 
#include 

#include 
#define DR_WAV_IMPLEMENTATION
// https://github.com/mackron/dr_libs/blob/master/dr_wav.h
#include "dr_wav.h"
／／需要dr_wav库

#define FRAME_SIZE 480
#define MAX_FRAME_SIZE (6*FRAME_SIZE)

#define MAX_CHANNELS 1
#define MAX_PACKET_SIZE (3*1276)

#pragma pack(push)
#pragma pack(1)

struct WavInfo {
    uint16_t channels;
    uint32_t sampleRate;
    uint32_t bitsPerSample;
};

#pragma pack(pop)

#ifndef  nullptr
#define  nullptr NULL
#endif

class FileStream {
public:
    FileStream() {
        cur_pos = 0;
    }

    void Append(const char *data, size_t size) {
        if (cur_pos + size > Size()) {
            vec.resize(cur_pos + size);
        }
        memcpy(vec.data() + cur_pos, data, size);
        cur_pos += size;
    }

    void AppendU32(uint32_t val) {
        Append((char *) (&val), sizeof(val));
    }

    char *Data() {
        return vec.data();
    }

    size_t Size() {
        return vec.size();
    }

    size_t Read(void *buff, size_t elemSize, size_t elemCount) {
        size_t readed = std::min((vec.size() - cur_pos), (elemCount * elemSize)) / elemSize;
        if (readed > 0) {
            memcpy(buff, vec.data() + cur_pos, readed * elemSize);
            cur_pos += readed * elemSize;
        }
        return readed;
    }

    bool SeekCur(int offset) {
        if (cur_pos + offset > vec.size()) {
            cur_pos = !vec.empty() ? (vec.size() - 1) : 0;
            return false;
        } else {
            cur_pos += offset;
            return true;
        }
    }

    bool SeekBeg(int offset = 0) {
        cur_pos = 0;
        return SeekCur(offset);
    }

    bool WriteToFile(const char *filename) {
        FILE *fin = fopen(filename, "wb");
        if (!fin) {
            return false;
        }
        fseek(fin, 0, SEEK_SET);
        fwrite(vec.data(), sizeof(char), vec.size(), fin);
        fclose(fin);
        return true;
    }

    bool ReadFromFile(const char *filename) {
        FILE *fin = fopen(filename, "rb");
        if (!fin) {
            return false;
        }
        fseek(fin, 0, SEEK_END);
        long fileSize = ftell(fin);
        vec.resize(static_cast(fileSize));
        fseek(fin, 0, SEEK_SET);
        fread(vec.data(), sizeof(char), vec.size(), fin);
        fclose(fin);
        return true;
    }

private:
    std::vector vec;
    size_t cur_pos;
};

bool Wav2Opus(FileStream *input, FileStream *output);

bool Opus2Wav(FileStream *input, FileStream *output);

bool wav2stream(char *input, FileStream *output);

bool stream2wav(FileStream *input, char *output);


bool wavWrite_int16(char *filename, int16_t *buffer, int sampleRate, uint32_t totalSampleCount) {
    drwav_data_format format = {};
    format.container = drwav_container_riff;     // <-- drwav_container_riff = normal WAV files, drwav_container_w64 = Sony Wave64.
    format.format = DR_WAVE_FORMAT_PCM;          // <-- Any of the DR_WAVE_FORMAT_* codes.
    format.channels = 1;
    format.sampleRate = (drwav_uint32) sampleRate;
    format.bitsPerSample = 16;
    drwav *pWav = drwav_open_file_write(filename, &format);
    if (pWav) {
        drwav_uint64 samplesWritten = drwav_write(pWav, totalSampleCount, buffer);
        drwav_uninit(pWav);
        if (samplesWritten != totalSampleCount) {
            fprintf(stderr, "ERROR\n");
            return false;
        }
        return true;
    }
    return false;
}

int16_t *wavRead_int16(char *filename, uint32_t *sampleRate, uint64_t *totalSampleCount) {
    unsigned int channels;
    int16_t *buffer = drwav_open_and_read_file_s16(filename, &channels, sampleRate, totalSampleCount);
    if (buffer == nullptr) {
        fprintf(stderr, "ERROR\n");
        return nullptr;
    }
    if (channels != 1) {
        drwav_free(buffer);
        buffer = nullptr;
        *sampleRate = 0;
        *totalSampleCount = 0;
    }
    return buffer;
}

bool wav2stream(char *input, FileStream *output) {
    uint32_t sampleRate = 0;
    uint64_t totalSampleCount = 0;
    int16_t *wavBuffer = wavRead_int16(input, &sampleRate, &totalSampleCount);
    if (wavBuffer == nullptr) return false;
    WavInfo info = {};
    info.bitsPerSample = 16;
    info.sampleRate = sampleRate;
    info.channels = 1;
    output->SeekBeg();
    output->Append((char *) &info, sizeof(info));
    output->Append((char *) wavBuffer, totalSampleCount * sizeof(int16_t));
    free(wavBuffer);
    return true;
}

bool stream2wav(FileStream *input, char *output) {
    WavInfo info = {};
    input->SeekBeg();
    size_t read = input->Read(&info, sizeof(info), 1);
    if (read != 1) {
        return false;
    }
    size_t totalSampleCount = (input->Size() - sizeof(info)) / 2;
    return wavWrite_int16(output, (int16_t *) (input->Data() + sizeof(info)), info.sampleRate,
                          static_cast(totalSampleCount));
}

bool Wav2Opus(FileStream *input, FileStream *output) {
    WavInfo in_info = {};
    input->SeekBeg();
    size_t read = input->Read(&in_info, sizeof(in_info), 1);
    if (read != 1) {
        return false;
    }
    uint32_t bitsPerSample = in_info.bitsPerSample;
    uint32_t sampleRate = in_info.sampleRate;
    uint16_t channels = in_info.channels;
    int err = 0;
    if (channels > MAX_CHANNELS) {
        return false;
    }
    OpusEncoder *encoder = opus_encoder_create(sampleRate, channels, OPUS_APPLICATION_AUDIO, &err);
    if (!encoder || err < 0) {
        fprintf(stderr, "failed to create an encoder: %s\n", opus_strerror(err));
        if (!encoder) {
            opus_encoder_destroy(encoder);
        }
        return false;
    }
    const uint16_t *data = (uint16_t *) (input->Data() + sizeof(in_info));
    size_t size = (input->Size() - sizeof(in_info)) / 2;
    opus_int16 pcm_bytes[FRAME_SIZE * MAX_CHANNELS];
    size_t index = 0;
    size_t step = static_cast(FRAME_SIZE * channels);
    FileStream encodedData;
    unsigned char cbits[MAX_PACKET_SIZE];
    size_t frameCount = 0;
    size_t readCount = 0;
    while (index < size) {
        memset(&pcm_bytes, 0, sizeof(pcm_bytes));
        if (index + step <= size) {
            memcpy(pcm_bytes, data + index, step * sizeof(uint16_t));
            index += step;
        } else {
            readCount = size - index;
            memcpy(pcm_bytes, data + index, (readCount) * sizeof(uint16_t));
            index += readCount;
        }
        int nbBytes = opus_encode(encoder, pcm_bytes, channels * FRAME_SIZE, cbits, MAX_PACKET_SIZE);
        if (nbBytes < 0) {
            fprintf(stderr, "encode failed: %s\n", opus_strerror(nbBytes));
            break;
        }
        ++frameCount;
        encodedData.AppendU32(static_cast(nbBytes));
        encodedData.Append((char *) cbits, static_cast(nbBytes));
    }
    WavInfo info = {};
    info.bitsPerSample = bitsPerSample;
    info.sampleRate = sampleRate;
    info.channels = channels;
    output->SeekBeg();
    output->Append((char *) &info, sizeof(info));
    output->Append(encodedData.Data(), encodedData.Size());
    opus_encoder_destroy(encoder);
    return true;
}

bool Opus2Wav(FileStream *input, FileStream *output) {
    WavInfo info = {};
    input->SeekBeg();
    size_t read = input->Read(&info, sizeof(info), 1);
    if (read != 1) {
        return false;
    }
    int channels = info.channels;
    if (channels > MAX_CHANNELS) {
        return false;
    }
    output->SeekBeg();
    output->Append((char *) &info, sizeof(info));
    int err = 0;
    OpusDecoder *decoder = opus_decoder_create(info.sampleRate, channels, &err);
    if (!decoder || err < 0) {
        fprintf(stderr, "failed to create decoder: %s\n", opus_strerror(err));
        if (!decoder) {
            opus_decoder_destroy(decoder);
        }
        return false;
    }
    unsigned char cbits[MAX_PACKET_SIZE];
    opus_int16 out[MAX_FRAME_SIZE * MAX_CHANNELS];
    int frameCount = 0;
    while (true) {
        uint32_t nbBytes;
        size_t readed = input->Read(&nbBytes, sizeof(uint32_t), 1);
        if (readed == 0) {
            break;
        }

        if (nbBytes > sizeof(cbits)) {
            fprintf(stderr, "nbBytes > sizeof(cbits)\n");
            break;
        }
        readed = input->Read(cbits, sizeof(char), nbBytes);
        if (readed != nbBytes) {
            fprintf(stderr, "readed != nbBytes\n");
            break;
        }
        int frame_size = opus_decode(decoder, cbits, nbBytes, out, MAX_FRAME_SIZE, 0);
        if (frame_size < 0) {
            fprintf(stderr, "decoder failed: %s\n", opus_strerror(frame_size));
            break;
        }
        ++frameCount;
        output->Append((char *) out, channels * frame_size * sizeof(out[0]));
    }
    opus_decoder_destroy(decoder);
    return true;
}


void splitpath(const char *path, char *drv, char *dir, char *name, char *ext) {
    const char *end;
    const char *p;
    const char *s;
    if (path[0] && path[1] == ':') {
        if (drv) {
            *drv++ = *path++;
            *drv++ = *path++;
            *drv = '\0';
        }
    } else if (drv)
        *drv = '\0';
    for (end = path; *end && *end != ':';)
        end++;
    for (p = end; p > path && *--p != '\\' && *p != '/';)
        if (*p == '.') {
            end = p;
            break;
        }
    if (ext)
        for (s = end; (*ext = *s++);)
            ext++;
    for (p = end; p > path;)
        if (*--p == '\\' || *p == '/') {
            p++;
            break;
        }
    if (name) {
        for (s = p; s < end;)
            *name++ = *s++;
        *name = '\0';
    }
    if (dir) {
        for (s = path; s < p;)
            *dir++ = *s++;
        *dir = '\0';
    }
}

void opus2wav(const char *in_file, char *out_file) {
    FileStream input;
    FileStream output;
    input.ReadFromFile(in_file);
    Opus2Wav(&input, &output);
    stream2wav(&output, out_file);
}

void wav2opus(char *in_file, char *out_file) {
    FileStream input;
    FileStream output;
    wav2stream(in_file, &input);
    Wav2Opus(&input, &output);
    output.WriteToFile(out_file);
}

int main(int argc, char *argv[]) {
    printf("Opus Demo\n");

    if (argc < 2)
        return -1;
    char *in_file = argv[1];
    char drive[3];
    char dir[256];
    char fname[256];
    char ext[256];
    char out_file[1024];
    splitpath(in_file, drive, dir, fname, ext);
    if (memcmp(".wav", ext, strlen(ext)) == 0) {
        sprintf(out_file, "%s%s%s.out", drive, dir, fname);
        wav2opus(in_file, out_file);
    } else if (memcmp(".out", ext, strlen(ext)) == 0) {
        sprintf(out_file, "%s%s%s_out.wav", drive, dir, fname);
        opus2wav(in_file, out_file);
    }
    printf("done.\n");
    printf("press any key to exit.\n");
    getchar();
    return 0;
}

另附C++封装接口示例：

class HandlerOpusImpl
{
  public:
  //在构造函数中创建解码器
    HandlerOpusImpl() : _perSecNum(0)
    {
      int sampleRate = 48000;
      int channels = 1;
      int err;
      _decoder = opus_decoder_create(sampleRate, channels, &err);
    }
    //传入要解码的数据srcData, 以string类型返回解码后的数据result
    bool DecodeData(std::string srcData, std::string &result)
    {
         int frameSize;
         int channels = CHANNELS;
         int sampleRate = SAMPLE_RATE;
         opus_int16 *out;
         char *pcmData;

       out = new opus_int16[SAMPLE_RATE / 50 * CHANNELS];
       //解码，如果frameSize小于0，那么说明解码失败
       frameSize = opus_decode(_decoder, (const unsigned char *)srcData.data(), srcData.size(), out, SAMPLE_RATE / 50 * CHANNELS, 0);
       if (frameSize <= 0)
       {
          return false;
       }
         pcmData = new char[frameSize * channels * sizeof(opus_int16)];

         ++_perSecNum;
         for (int i = 0; i < channels * frameSize; ++i)
         {
              pcmData[i * 2] = out[i] & 0xFF;
            pcmData[i * 2 + 1] = (out[i] >> 8) & 0xFF;
         }
       //把数据赋值给result
         std::string(pcmData, sizeof(opus_int16) * channels * frameSize).swap(result);

         delete[]out;
         delete[]pcmData;
         return true;
    }

    //使用fec找回丢失的包，函数内容获取解码数据函数内容类似，不过fec标记位需要设置为1
    bool HandleLosePack(std::string srcData, std::string &result)
    {
        int frameSize;
        int channels = CHANNELS;
        int sampleRate = SAMPLE_RATE;
        opus_int16 *out;
        char *pcmData;

        out = new opus_int16[SAMPLE_RATE / 50 * CHANNELS];
        frameSize = opus_decode(_decoder, NULL, 0, out, SAMPLE_RATE / 50 * CHANNELS, 1);
        if (frameSize <= 0)
        {
              return false;
        }
        pcmData = new char[frameSize * channels * sizeof(opus_int16)];

        ++_perSecNum;
        for (int i = 0; i < channels * frameSize; ++i)
        {
              pcmData[i * 2] = out[i] & 0xFF;
              pcmData[i * 2 + 1] = (out[i] >> 8) & 0xFF;
        }

        std::string(pcmData, sizeof(opus_int16) * channels * frameSize).swap(result);

        delete[]out;
        delete[]pcmData;
        return true;
    }
    void DeleteCodec()
    {
      opus_decoder_destroy(_decoder);
      _decoder = NULL;
    }
  private:
    int _perSecNum;
    OpusDecoder *_decoder;
};

2025代码块种类以及作用 2501_92758067 intellij-idea phpstorm idea jupyter
https://www.bilibili.com/opus/1088624478422827030https://www.bilibili.com/opus/1088624529930977287https://t.bilibili.com/1088633635294150662https://www.bilibili.com/opus/1088633635294150662https://t.b
使用ceph-ansible部署分布式存储Ceph-octopus版本降世神童云计算技术专栏分布式 ceph ansible
使用ceph-ansible部署分布式存储Ceph-octopus版本1.Ceph基础概念及部署方式1.1.Ceph基本概念1.2.Ceph部署方式2.系统初始化配置3.Ceph集群部署3.1.Ansible安装与配置3.2.ceph-ansible安装与配置3.2.1.下载ceph-ansible3.2.2.安装ceph-ansible依赖3.2.3.修改ceph配置文件3.3.开始部署ceph
jetson orin nano安装GPU版本的pytorch过程小鲈鱼- pytorch 人工智能 python
一、安装jetpack组件和安装CUDA/cuDNN可以参考下面这个博客「解析」JetsonOrinNX安装CUDA/cuDNN_jetsoncuda-CSDN博客二、安装Pytorch和torchaudio可以直接看官方给的步骤https://pytorch.org/audio/main/build.jetson.html
【AI大模型前沿】OmniAudio：阿里通义实验室的空间音频生成模型，开启沉浸式体验新时代寻道AI小兵 AI大模型 -前沿技术追踪人工智能音视频开源 AIGC 语言模型
系列篇章No.文章1【AI大模型前沿】深度剖析瑞智病理大模型RuiPath：如何革新癌症病理诊断技术2【AI大模型前沿】清华大学CLAMP-3：多模态技术引领音乐检索新潮流3【AI大模型前沿】浙大携手阿里推出HealthGPT：医学视觉语言大模型助力智能医疗新突破4【AI大模型前沿】阿里QwQ-32B：320亿参数推理大模型，性能比肩DeepSeek-R1，免费开源5【AI大模型前沿】TRELLI
RBDMuteSwitch：一键静音控制工具使用指南幸生朋Margot
RBDMuteSwitch：一键静音控制工具使用指南RBDMuteSwitchPriortoiOS5itwasrelativelystraightforwardtodetectwhetheradevicewasmutedbyusinganaudioroutetodetectplaybacktype.项目地址:https://gitcode.com/gh_mirrors/rb/RBDMuteSwit
SAiD：基于扩散的音频驱动语音动画
SAiD：基于扩散的音频驱动语音动画SAiDSAiD:Blendshape-basedAudio-DrivenSpeechAnimationwithDiffusion项目地址:https://gitcode.com/gh_mirrors/said/SAiDSAiD是一个基于扩散的音频驱动语音动画的开源项目，它通过音频信号控制面部表情，实现逼真的语音动画效果。项目介绍SAiD（Speech-driv
【亲测免费】探索AudioSlicer：智能音频分割工具秦贝仁Lincoln
探索AudioSlicer：智能音频分割工具去发现同类优质开源项目:https://gitcode.com/项目介绍AudioSlicer是一个基于Python的轻量级工具，专门用于切割.wav音频文件。它通过检测静音段将音频拆分成多个独立样本，并生成一个.json文件，详细记录了每个切片的时间范围。该项目灵感源自AndrewPhillipDoss的工作，现在正向着人工智能适应的方向发展，有望实现
ESP32播放网络音乐与麦克风接收魔法少女郭德纲* 单片机 iot 物联网
本文使用esp32结合MAX98357音频放大器模块播放网络音乐,同时用INMP441模块作为语音输入进行测试第一部分：播放网络音乐需要用到esp32开发板、MAX98357模块、喇叭、连接线一、准备工作库安装1，首先到GITHUB下载「ESP32-audioI2S」https://github.com/schreibfaul1/ESP32-audioI2S/2，解压。3，把解压的文件放进Ardu
CosyVoice升级版 - 阿里最新开源语音克隆、文本转语音项目支持音色保存本地一键整合包下载昨日之日2006 ai语音人工智能音视频语音识别
近日，阿里通义实验室发布开源语音大模型项目FunAudioLLM，而且一次包含两个模型：SenseVoice和CosyVoice。今天分享的这个是v3ucn大佬优化过的升级版，新增自定义音色保存，优化长文本生成以及修复上个版本错误提示的bug。一键包更新地址：CosyVoice升级版-阿里最新开源语音克隆、文本转语音项目
【unity游戏开发入门到精通——通用篇】在 Unity 6 中轻松实现播放随机游戏音效——AudioRandomContainer音频随机容器的使用向宇it ##推荐100个unity插件 unity 游戏音视频游戏引擎 c#
考虑到每个人基础可能不一样，且并不是所有人都有同时做2D、3D开发的需求，所以我把【零基础入门unity游戏开发】分为成了C#篇、unity通用篇、unity3D篇、unity2D篇。【C#篇】：主要讲解C#的基础语法，包括变量、数据类型、运算符、流程控制、面向对象等，适合没有编程基础的同学入门。【unity通用篇】：主要讲解unity的基础通用的知识，包括unity界面、unity脚本、unit
Flutter编译安卓应用时遇到的compileDebugJavaWithJavac和compileDebugKotlin版本不匹配的问题悠等生2018 前端 flutter android
记一次flutter应用，编译安卓时，报的一个compileDebugJavaWithJavac和compileDebugKotlin版本本匹配的问题。最终定位的原因是项目一来了audioplayers组件。audioplayers组件有依赖了audioplayers_android，它使用1.8编译的。版本过低。后来更新了audioplayers:^6.5.0(默认以来的audioplayers
深入探索视频格式标准及其应用 D哥有个初二君
本文还有配套的精品资源，点击获取简介：视频格式标准对于数字媒体的编码、存储、传输和播放至关重要，它涵盖了容器格式、视频编码、音频编码等多个方面。本简介详细介绍了容器格式如MP4、AVI、MKV和TS；常见的视频编码标准包括H.264/AVC、H.265/HEVC、VP9和AV1；音频编码标准有AAC、FLAC和Opus；格式转换和流媒体协议如RTMP、HLS和DASH的重要性；以及分辨率和帧率对视
Android15音频进阶之高通Adsp触发ramdump(一百二十六) Android系统攻城狮 Android Audio工程师进阶系列 Android15 音频进阶高通平台
简介：CSDN博客专家、《Android系统多媒体进阶实战》一书作者博主新书推荐：《Android系统多媒体进阶实战》AndroidAudio工程师专栏：Audio工程师进阶系列【原创干货持续更新中……】Android多媒体专栏：多媒体系统工程师系列【原创干货持续更新中……】推荐1：车载系统实战课：
AI技术通过多模态应用（即融合文本、图像、语音、视频、传感器数据等多维度信息）正在深刻重塑工作模式、行业生态和人类创造力边界。 zzywxc787 人工智能音视频大数据 java spring 开发语言
AI技术通过多模态应用（即融合文本、图像、语音、视频、传感器数据等多维度信息）正在深刻重塑工作模式、行业生态和人类创造力边界。以下从技术融合、行业变革、职业重构三个维度展开分析，并附具体案例：一、技术融合：多模态AI的核心突破跨模态理解引擎案例：Meta的AudiovisualNeuralNetwork（AV-Wav2Vec）实现语音-唇形-场景的联合建模，语音识别错误率降低40%技术指标：跨模态
使用 C++/Faiss 加速海量 MFCC 特征的相似性搜索 whoarethenext c++faiss 开发语言
使用C++/Faiss加速海量MFCC特征的相似性搜索引言在现代音频处理应用中，例如大规模声纹识别(SpeakerRecognition)、音乐信息检索(MusicInformationRetrieval)或音频事件检测(AudioEventDetection)，我们通常需要从海量的音频库中快速找到与给定查询音频最相似的样本。这个过程的核心技术是对音频内容进行特征提取和高效的相似性搜索。MFCC(
Android 音频降噪 webrtc 去回声
Android音频降噪webrtc去回声集成AECM模块集成NS模块需要源码请留言集成AECM模块1.通过webrtc官网下载需要模块\modules\audio_processing\aecm2.新建eclipse工程,新建jni文件夹将webrtcaecm模块拷贝到jni文件夹下3.编写本地接口packagecom.wrtcmy.webrtc.aecm;/***Thisclasssupport
《声音的变形记：Web Audio API的实时特效法则》程序猿阿伟前端 php 开发语言
用户期待更丰富、更具沉浸感的听觉体验时，基于WebAudioAPI实现的实时音频特效，就像是为这片森林注入了灵动的精灵，让简单的声音蜕变为震撼人心的听觉盛宴。回声特效带来空间的深邃回响，变声效果赋予声音全新的个性面貌。接下来，我们将深入探索WebAudioAPI如何实现这些神奇的实时音频特效。WebAudioAPI是浏览器中用于处理音频的强大工具，它构建了一个完整的音频处理体系。不同于传统的HTM
安卓audio之Remote_Submix 盼雨落，等风起安卓 audio 安卓
参考文档：Audio-内录实现原理（上）Audio-内录实现原理（下）一、实现原理REMOTE_SUBMIX是Android系统提供的内录（InternalAudioCapture）方案，用于捕获设备音频输出（如扬声器播放的声音）而非麦克风输入。其核心机制如下：HAL层数据流转音频数据不写入物理设备，而是由HAL层（audio.r_submix.default.so）开辟独立缓冲区，实现软件级混音
android 音量调整盼雨落，等风起安卓 audio 音视频
1流程图2audio_policy_volumes.xml阐述了流跟device的音量范围【AndroidAudio】5、EngineBase加载音量曲线和策略【基于AndroidQ】1.按键处理1.1从输入子系统到音频子系统的处理按键会从inputReader的getEvent到inputDisptacher最后到ViewRootimpl中的ViewPostImeInputStage::proc
audio的Framework层到hal 如何调用（以setparameters为例）盼雨落，等风起 audio 安卓
首先查看AudioManager之setParameters从应用到hal流程分析android6.0看到最后两个格：audio_hw_device_t->set_parameters()是上层调用hal层的接口导致下层***audio_hw->adev_set_parameters()***执行。他们之间的联系，通过legacy_adev_open建立联系。legacy_adev_open是干什
【SCI+EI+Scopus+CPCI+CNKI检索】2025年8-9月探索未来：可持续发展与能源资源、微电子与纳米技术、环境保护与污染控制以及教育研究与培训技术等多个领域的交汇点努力毕业的小土博^_^ 学术会议推荐能源深度学习环境保护
【SCI+EI+Scopus+CPCI+CNKI检索】2025年8-9月探索未来：可持续发展与能源资源、微电子与纳米技术、环境保护与污染控制以及教育研究与培训技术等多个领域的交汇点【SCI+EI+Scopus+CPCI+CNKI检索】2025年8-9月探索未来：可持续发展与能源资源、微电子与纳米技术、环境保护与污染控制以及教育研究与培训技术等多个领域的交汇点文章目录【SCI+EI+Scopus+C
【Cocos TypeScript 零基础 16.1】 adminwxs Cocos TypeScript 零基础 typescript javascript 前端 cocos2d
目录FlappyBird背景其他心得_刚体audio部分FlappyBird本人没有按照老师的做法去做,大体差不多,当然老师做的更精细,有些不会的还是参考老师的方法参考部分小鸟如何像真实物体一样的重力效果点击如何使小鸟飞翔省略部分3.小鸟多动画(飞机大战其实有做,单纯偷懒)4.小鸟死亡滚动(猜想是给一个边缘力使其旋转,或代码直接使其旋转)5.中间区域碰撞(我用的是计时的方法,老师用碰撞方法,碰撞不
写一个ununtu C++ 程序，调用ffmpeg ，来判断一个数字电影的音频文件mxf 的采样率（频率），通道数，采样位数 m0_68739984 c++ffmpeg 开发语言
以下是一个UbuntuC++程序，使用FFmpegAPI来检测数字电影音频MXF文件的采样率（频率）、通道数、采样位数：1.安装FFmpeg开发库bashsudoaptupdatesudoaptinstalllibavformat-devlibavcodec-devlibavutil-dev2.C++程序代码(check_mxf_audio.cpp)cpp#include#includeexter
在html中主要支持的音频格式,html5中audio支持音频格式
HTML5Audio标签能够支持wav,mp3,ogg,acc,webm等格式，但有个很重要的音乐文件格式midi(扩展名mid)却在各大浏览器中都没有内置的支持。不是所有的浏览器都支持MP3OGG之类的，每个浏览器因为版权的问题支持的格式都是不一样的。浏览器和音频兼容性浏览器制造商并非都同意使用某种音频文件格式。对于图像，PNG、JPEG或GIF格式的文件在任何浏览器上都能加载到您的网页里。遗憾
【EI+Scopus+Google Scholar三平台护航】2025年8-9月智能融合：计算建模、人工智能与物联网、机械制造与智能控制以及人工智能与数字化管理等领域的创新之旅
【EI+Scopus+GoogleScholar三平台护航】2025年8-9月智能融合：计算建模、人工智能与物联网、机械制造与智能控制以及人工智能与数字化管理等领域的创新之旅【EI+Scopus+GoogleScholar三平台护航】2025年8-9月智能融合：计算建模、人工智能与物联网、机械制造与智能控制以及人工智能与数字化管理等领域的创新之旅文章目录【EI+Scopus+GoogleSchol
Kimi Audio一个通用的音频基础模型处理各种任务如自动语音识别（ASR）、音频问答（AQA）、自动音频字幕（AAC）、语音情感识别（SER）、声音事件/场景分类（SEC/ASC）和端到端语音对话 skywalk8163 人工智能 xcode ide kaggle Kimi Audio
KimiAudio被设计为一个通用的音频基础模型，能够在一个统一的框架内处理各种音频处理任务。主要功能包括：通用功能：处理各种任务，如自动语音识别（ASR）、音频问答（AQA）、自动音频字幕（AAC）、语音情感识别（SER）、声音事件/场景分类（SEC/ASC）和端到端语音对话。最先进的性能：在众多音频基准测试中取得SOTA结果（见评估和技术报告）。大规模预训练：对超过1300万小时的各种音频数据
《深度学习》—— PyTorch的介绍及PyTorch的CPU版本安装张小生180 人工智能深度学习 pytorch
文章目录一、PyTorch的简单介绍二、pytorch的CPU版本安装三、torch、torchvision、torchaudio三个库的介绍一、PyTorch的简单介绍PyTorch是一个由FacebookAI实验室开发的深度学习框架，它基于Python，并提供了高效的GPU加速和灵活的模型定义能力。1.PyTorch的基本特点动态计算图：PyTorch采用动态计算图的方式，这意味着计算图是在运
Python脚本，音频格式转换和视频格式转换
一、音频格式转换完整代码frompydubimportAudioSegmentimportosdefconvert_audio(input_dir,output_dir,target_format):ifnotos.path.exists(output_dir):os.makedirs(output_dir)forfilenameinos.listdir(input_dir):iffilename
Python音频库龅牙内马尔
Python音频库Python有一些很棒的音频处理库，比如Librosa和PyAudio。还有一些内置的模块（内置库wave）用于一些基本的音频功能。我们将主要使用两个库进行音频采集和分析：1.LibrosaLibrosa是一个用于音频、音乐分析、处理的python工具包，一些常见的时频处理、特征提取、绘制声音图形等功能应有尽有，功能十分强大。功能实现：读取音频提取特征提取Log-MelSpect
极客时间-《搞定音频技术》-学习笔记 Mark White 音视频学习笔记
极客时间-《搞定音频技术》-学习笔记语音基础知识https://www.zhangzhenhu.com/audio/feature.html序章-0作者说这个语音技术啊，未来肯定前景大好啊，大家都来学习，然后给出了课程的脑图音频基础什么是声音声音的三要素是指响度、音调和音色，它们都是声音的主观属性，用来描述声音的特征。响度指声音的强弱，音调指声音的高低，音色指声音的质量或特征。响度（Loudnes
矩阵求逆（JAVA）初等行变换 qiuwanchi 矩阵求逆（JAVA）
package gaodai.matrix; import gaodai.determinant.DeterminantCalculation; import java.util.ArrayList; import java.util.List; import java.util.Scanner; /** * 矩阵求逆(初等行变换) * @author 邱万迟 *
JDK timer antlove java jdk schedule code timer
1.java.util.Timer.schedule(TimerTask task, long delay)：多长时间（毫秒）后执行任务 2.java.util.Timer.schedule(TimerTask task, Date time)：设定某个时间执行任务 3.java.util.Timer.schedule(TimerTask task, long delay,longperiod
JVM调优总结 -Xms -Xmx -Xmn -Xss coder_xpf jvm 应用服务器
堆大小设置JVM 中最大堆大小有三方面限制：相关操作系统的数据模型（32-bt还是64-bit）限制；系统的可用虚拟内存限制；系统的可用物理内存限制。32位系统下，一般限制在1.5G~2G；64为操作系统对内存无限制。我在Windows Server 2003 系统，3.5G物理内存，JDK5.0下测试，最大可设置为1478m。典型设置： java -Xmx
JDBC连接数据库 Array_06 jdbc
package Util; import java.sql.Connection; import java.sql.DriverManager; import java.sql.ResultSet; import java.sql.SQLException; import java.sql.Statement; public class JDBCUtil { //完
Unsupported major.minor version 51.0（jdk版本错误） oloz java
java.lang.UnsupportedClassVersionError: cn/support/cache/CacheType : Unsupported major.minor version 51.0 (unable to load class cn.support.cache.CacheType) at org.apache.catalina.loader.WebappClassL
用多个线程处理1个List集合 362217990 多线程 thread list 集合
昨天发了一个提问，启动5个线程将一个List中的内容，然后将5个线程的内容拼接起来，由于时间比较急迫，自己就写了一个Demo，希望对菜鸟有参考意义。。 import java.util.ArrayList; import java.util.List; import java.util.concurrent.CountDownLatch; public c
JSP简单访问数据库香水浓 sql mysql jsp
学习使用javaBean，代码很烂，仅为留个脚印 public class DBHelper { private String driverName; private String url; private String user; private String password; private Connection connection; privat
Flex4中使用组件添加柱状图、饼状图等图表 AdyZhang Flex
1.添加一个最简单的柱状图 ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 <?xml version= "1.0"&n
Android 5.0 - ProgressBar 进度条无法展示到按钮的前面 aijuans android
在低于SDK < 21 的版本中，ProgressBar 可以展示到按钮前面，并且为之在按钮的中间，但是切换到android 5.0后进度条ProgressBar 展示顺序变化了，按钮再前面，ProgressBar 在后面了我的xml配置文件如下： [html] view plain copy <RelativeLa
查询汇总的sql baalwolf sql
select list.listname, list.createtime,listcount from dream_list as list , (select listid,count(listid) as listcount from dream_list_user group by listid order by count(
Linux du命令和df命令区别 BigBird2012 linux
1，两者区别 du，disk usage,是通过搜索文件来计算每个文件的大小然后累加，du能看到的文件只是一些当前存在的，没有被删除的。他计算的大小就是当前他认为存在的所有文件大小的累加和。
AngularJS中的$apply，用还是不用？ bijian1013 JavaScript AngularJS $apply
在AngularJS开发中，何时应该调用$scope.$apply()，何时不应该调用。下面我们透彻地解释这个问题。但是首先，让我们把$apply转换成一种简化的形式。 scope.$apply就像一个懒惰的工人。它需要按照命
[Zookeeper学习笔记十]Zookeeper源代码分析之ClientCnxn数据序列化和反序列化 bit1129 zookeeper
ClientCnxn是Zookeeper客户端和Zookeeper服务器端进行通信和事件通知处理的主要类，它内部包含两个类，1. SendThread 2. EventThread， SendThread负责客户端和服务器端的数据通信，也包括事件信息的传输，EventThread主要在客户端回调注册的Watchers进行通知处理 ClientCnxn构造方法 &
【Java命令一】jmap bit1129 Java命令
jmap命令的用法： [hadoop@hadoop sbin]$ jmap Usage: jmap [option] <pid> (to connect to running process) jmap [option] <executable <core> (to connect to a
Apache 服务器安全防护及实战 ronin47
此文转自IBM. Apache 服务简介 Web 服务器也称为 WWW 服务器或 HTTP 服务器 (HTTP Server)，它是 Internet 上最常见也是使用最频繁的服务器之一，Web 服务器能够为用户提供网页浏览、论坛访问等等服务。由于用户在通过 Web 浏览器访问信息资源的过程中，无须再关心一些技术性的细节，而且界面非常友好，因而 Web 在 Internet 上一推出就得到
unity 3d实例化位置出现布置？ brotherlamp unity教程 unity unity资料 unity视频 unity自学
问：unity 3d实例化位置出现布置？答：实例化的同时就可以指定被实例化的物体的位置,即 position Instantiate (original : Object, position : Vector3, rotation : Quaternion) : Object 这样你不需要再用Transform.Position了, 如果你省略了第二个参数(
《重构，改善现有代码的设计》第八章 Duplicate Observed Data bylijinnan java 重构
import java.awt.Color; import java.awt.Container; import java.awt.FlowLayout; import java.awt.Label; import java.awt.TextField; import java.awt.event.FocusAdapter; import java.awt.event.FocusE
struts2更改struts.xml配置目录 chiangfai struts.xml
struts2默认是读取classes目录下的配置文件，要更改配置文件目录，比如放在WEB-INF下，路径应该写成../struts.xml(非/WEB-INF/struts.xml) web.xml文件修改如下： <filter> <filter-name>struts2</filter-name> <filter-class&g
redis做缓存时的一点优化 chenchao051 redis hadoop pipeline
最近集群上有个job，其中需要短时间内频繁访问缓存，大概7亿多次。我这边的缓存是使用redis来做的，问题就来了。首先，redis中存的是普通kv，没有考虑使用hash等解结构，那么以为着这个job需要访问7亿多次redis，导致效率低，且出现很多redi
mysql导出数据不输出标题行 daizj mysql 数据导出去掉第一行去掉标题
当想使用数据库中的某些数据，想将其导入到文件中，而想去掉第一行的标题是可以加上-N参数如通过下面命令导出数据： mysql -uuserName -ppasswd -hhost -Pport -Ddatabase -e " select * from tableName" > exportResult.txt 结果为： studentid
phpexcel导出excel表简单入门示例 dcj3sjt126com PHP Excel phpexcel
先下载PHPEXCEL类文件，放在class目录下面，然后新建一个index.php文件，内容如下 <?php error_reporting(E_ALL); ini_set('display_errors', TRUE); ini_set('display_startup_errors', TRUE); if (PHP_SAPI == 'cli') die('
爱情格言 dcj3sjt126com 格言
1) I love you not because of who you are, but because of who I am when I am with you. 　　我爱你，不是因为你是一个怎样的人，而是因为我喜欢与你在一起时的感觉。 　　2) No man or woman is worth your tears, and the one who is, won‘t
转 Activity 详解——Activity文档翻译 e200702084 android UI sqlite 配置管理网络应用
activity 展现在用户面前的经常是全屏窗口，你也可以将 activity 作为浮动窗口来使用（使用设置了 windowIsFloating 的主题），或者嵌入到其他的 activity （使用 ActivityGroup ）中。当用户离开 activity 时你可以在 onPause() 进行相应的操作。更重要的是，用户做的任何改变都应该在该点上提交 ( 经常提交到 ContentPro
win7安装MongoDB服务 geeksun mongodb
1. 下载MongoDB的windows版本：mongodb-win32-x86_64-2008plus-ssl-3.0.4.zip，Linux版本也在这里下载，下载地址： http://www.mongodb.org/downloads 2. 解压MongoDB在D:\server\mongodb, 在D:\server\mongodb下创建d
Javascript魔法方法:__defineGetter__,__defineSetter__ hongtoushizi js
转载自： http://www.blackglory.me/javascript-magic-method-definegetter-definesetter/ 在javascript的类中,可以用defineGetter和defineSetter_控制成员变量的Get和Set行为例如,在一个图书类中,我们自动为Book加上书名符号: function Book(name){
错误的日期格式可能导致走nginx proxy cache时不能进行304响应 jinnianshilongnian cache
昨天在整合某些系统的nginx配置时，出现了当使用nginx cache时无法返回304响应的情况，出问题的响应头： Content-Type:text/html; charset=gb2312 Date:Mon, 05 Jan 2015 01:58:05 GMT Expires:Mon , 05 Jan 15 02:03:00 GMT Last-Modified:Mon, 05
数据源架构模式之行数据入口 home198979 PHP 架构行数据入口
注：看不懂的请勿踩，此文章非针对java，java爱好者可直接略过。一、概念行数据入口（Row Data Gateway）：充当数据源中单条记录入口的对象，每行一个实例。二、简单实现行数据入口为了方便理解，还是先简单实现： <?php /** * 行数据入口类 */ class OrderGateway { /*定义元数
Linux各个目录的作用及内容 pda158 linux 脚本
1）根目录“/” 　　根目录位于目录结构的最顶层，用斜线（/）表示，类似于 Windows 操作系统的“C:\“，包含Fedora操作系统中所有的目录和文件。　　2）/bin 　　/bin 　　目录又称为二进制目录，包含了那些供系统管理员和普通用户使用的重要 linux命令的二进制映像。该目录存放的内容包括各种可执行文件，还有某些可执行文件的符号连接。常用的命令有：cp、d
ubuntu12.04上编译openjdk7 ol_beta HotSpot jvm jdk OpenJDK
获取源码从openjdk代码仓库获取(比较慢) 安装mercurial Mercurial是一个版本管理工具。 sudo apt-get install mercurial 将以下内容添加到$HOME/.hgrc文件中，如果没有则自己创建一个： [extensions] forest=/home/lichengwu/hgforest-crew/forest.py fe
将数据库字段转换成设计文档所需的字段 vipbooks 设计模式工作正则表达式
哈哈，出差这么久终于回来了，回家的感觉真好！ PowerDesigner的物理数据库一出来，设计文档中要改的字段就多得不计其数，如果要把PowerDesigner中的字段一个个Copy到设计文档中，那将会是一件非常痛苦的事情。