YEGE学AI算法

音频格式及转换代码

音频信号的读写、播放及录音

python已经支持WAV格式的书写，而实时的声音输入输出需要安装pyAudio(http://people.csail.mit.edu/hubert/pyaudio)。最后我们还将使用pyMedia(http://pymedia.org)进行Mp3的解码和播放。

音频信号是模拟信号，我们需要将其保存为数字信号，才能对语音进行算法操作，WAV是Microsoft开发的一种声音文件格式，通常被用来保存未压缩的声音数据。

语音信号有四个重要的参数：声道数、采样频率、量化位数(位深)和比特率。

声道数：可以是单声道、双声道 …
采样频率（Sample rate）：每秒内对声音信号采样样本的总数目，44100Hz采样频率意味着每秒钟信号被分解成44100份。换句话说，每隔144100144100秒就会存储一次，如果采样率高，那么媒体播放音频时会感觉信号是连续的。
量化位数（Bit depth）：也称为“位深”，每个采样点中信息的比特(bit)数。1 byte等于8 bit。通常有8bit、16bit、24bit、32bit…
比特率（Bit rate）:每秒处理多少个Bit。比如一个单声道，用44.1KHz/16Bit的配置来说，它的比特率就为44100161=705600，单位是bit/s(或者bps)，因为通常计算出来的数字都比较大，大家就用kbit/s了，也就是705.6kbit/s。在对音频进行压缩时，比特率就成为了我们的一个要选的选项了，越高的比特率，其音质也就越好。一些常用的比特率有：
- 32kbit/s：一般只适用于语音
- 96kbit/s：一般用于语音或低质量流媒体
- 128或160kbit/s：中等比特率质量
- 192kbit/s：中等质量比特率
- 256kbit/s：常用的高质量比特率
- 320kbit/s： MP3标准支持的最高水平
  如果你需要自己录制和编辑声音文件，推荐使用Audacity，它是一款开源的、跨平台、多声道的录音编辑软件。在我的工作中经常使用Audacity进行声音信号的录制，然后再输出成WAV文件供Python程序处理。

如果想要快速看语音波形和语谱图，推荐使用Adobe Audition，他是Adobe公司开发专门处理音频的专业软件，微博关注vposy，下载地址见置顶。他破解了很多adobe公司的软件，包括PS、PR…

音频格式

WAV

WAV格式是微软公司开发的一种无损声音文件格式，也称为波形声音文件，WAV格式支持多种压缩算法、音频位数、采样频率和声道。

WAV 符合 RIFF(Resource Interchange File Format) 规范，所有的WAV都由 44字节头文件和 PCM文件组成，这个文件头包含语音信号的所有参数信息(声道数、采样率、量化位数、比特率…)

44个字节的头文件由 3个区块组成：

RIFF chunk：WAV文件标识
Format chunk：声道数、采样率、量化位数、等信息
Data chunk：存放数据
相反的，在PCM文件头部添加44个字节的WAV文件头，就可以生成WAV格式文件

RIFF区块

规范的WAVE格式遵循RIFF头

名称	字节数	内容
ChunkID	4	“RIFF” 标识符
ChunkSize	4	表示从下个地址开始到文件尾的总字节数更准确的说：等于整个wav文件大小-8更准确的说：等于整个wav文件大小-8
Format	4	“WAVE” 标识符

FORMAT区块

描述声音数据的格式

名称	字节数	内容
Subchunk1ID	4	"fmt " 标识符，最后一位是空格
Subchunk1Size	4	该区块数据的长度（不包含该区块ID和Size的长度）
AudioFormat	2	音频格式，PCM音频数据的值为1
NumChannels	2	通道数
SampleRate	4	采样率
ByteRate	4	每秒数据字节数 = SampleRate * NumChannels * BitsPerSample / 8
BlockAlign	2	每个采样点所需的字节数 = NumChannels * BitsPerSample / 8
BitsPerSample	2	量化位数(bit)

DATA区块

包含数据的大小和实际声音

名称	字节数	内容
Subchunk2ID	4	“data” 标识符
Subchunk2Size	4	该区块数据的长度，（不包含该区块ID和Size的长度），也就是PCM字节数
Data	*	音频数据

文件实例：

RIFF区块

ChunkID(4字节 52 49 46 46)：对应ASCII中的 RIFF，这里是ASCII码对照表。
ChunkSize(4字节 76 01 03 00)：表示WAV文件的大小，不包含了前面8个字节，所以真正的大小等于文件总字节减去8。76 01 03 00 对应的正序16进制为 00 03 01 76大小为196982
Format(4字节 57 41 56 45)：对应ASCII中的WAVE

FORMAT区块

Subchunkl ID(4字节 66 6d 74 20)：对应ASCII中的fmt
Subchunkl Size(4字节 10 00 00 00)：正序16进制 00 00 00 10 对应16
AudioFormat(2字节 01 00)：正序16进制 00 01，对应数字1，表示编码格式“WAVE_FORMAT_PCM”
NumChannels(2字节 01 00)：正序16进制 00 01，对应数字1，表示声道数为1
SampleRate(4字节 80 bb 00 00)：正序16进制 00 00 bb 80，表示采样率为48000
ByteRate(4字节 00 77 01 00)：正序16进制 00 01 77 00，表示传输速率为96000
BlockAlign(2字节 02 00)：正序16进制 00 02，每个采样所需的2字节数
BitsPerSample(2字节 10 00)：正序16进制 00 10，采样大小为16 Bits

DATA区块

Subchunk2ID(4字节 64 61 74 61)：表示为ASCII的data，开始数据区
Subchunk2 Size(4字节 52 01 03 00)：正序16进制 00 03 01 52，PCM字节数，大小为196946
wav文件(wav字节-44字节)：pcm音频数据

WAV转PCM

因为wav比pcm多44个字节的文件头，也就是说44字节后的信息，就是pcm数据

版本1：C语言实现wave to pcm

#include 

/**
 * wav2pcm ***.wav **.pcm
 * @param argc 命令行参数的长度
 * @param argv 命令行参数，argv[0]是程序名称
 * @return
 */
int main(int argc, char *argv[]) {
    FILE *wavfile;
    FILE *pcmfile;
    char buf[1024];
    int read_len;

    if (argc != 3) {
        printf("usage:\n"
               "\t wav2pcm ***.wav **.pcm\n");
    }
    wavfile = fopen(argv[1], "rb");
    if (wavfile == NULL) {
        printf("!Error: Can't open wavfile.\n");
        return 1;
    }
    pcmfile = fopen(argv[2], "wb");
    if (pcmfile == NULL) {
        printf("!Error: Can't open pcmfile.\n");
        return 1;
    }

    fseek(wavfile, 44, SEEK_SET);        // 将文件指针移动到文件开头，后移44字节

    while ((read_len = fread(buf, 1, sizeof(buf), wavfile)) != 0) {
        fwrite(buf, 1, read_len, pcmfile);
    }

    fclose(pcmfile);
    fclose(wavfile);

    return 0;
}

版本2：shell实现 wave to pcm

dd if=1.wav of=1.pcm bs=1 skip=44

版本3：使用python的

def wav2pcm(wavfile, pcmfile, data_type=np.int16):
    f = open(wavfile, "rb")
    f.seek(0)  # 移动文件读取指针到指定位置
    data = np.fromfile(f, dtype=data_type, offset=44)  # 从文本或二进制文件中的数据构造一个数组
    data.tofile(pcmfile)
    f.close()

还有一个github开源代码：https://github.com/smallmuou/wavutils

当我们读取pcm数据的时候，我们需要弄清楚语音每个采样点的位深是多少bit，一般来说是16bit，那么我们去pcm数据的时候就应该2个字节的去取，应该创建short的buf。

#include 

int main() {
    FILE *pcmfile;
    int frame_len = 480;     // 帧长
    short buf[frame_len];   // 每个采样点2字节
    int read_len;
    char pcmpath[]="../p225_001.pcm";

    pcmfile = fopen(pcmpath, "rb");
    if (pcmfile == NULL) {
        printf("!Error: Can't open wavfile.\n");
        return 1;
    }

    while (feof(pcmfile)==0){
        read_len = fread(buf, sizeof(short), frame_len, pcmfile);
        for (int i = 0; i < read_len; i++) {
            printf("%d ", buf[i]);
        }
    }

    fclose(pcmfile);
    return 0;
}

PCM、RAW、SAM

RAW、PCM(Pulse Code Modulation)、SAM 都是一种存储原始数据的音频文件格式，未经过任何编码和压缩处理，他们的本质一样，只是文件扩展名不同，也可以没有扩展名。与WAV或AIFF的大小相比，这音频文件不包含任何标题信息（采样率、位深度、通道数）。

如果在PCM文件的前面添加WAV文件头，就可以生成WAV格式文件。

如果是16位的话，pcm每个采样点的值在0_{$2^{15}-1$，因为第一位是符号位。所以我们有时候用librosa读取的音频每个采样点都是0}1之间的，如果该音频是16bit的，如果想将他换成short型应该乘以 $2^{15}$ 。

pcm转wav
版本一：代码参考自：https://github.com/pliu6/pcm2wav

/**
 * https://github.com/pliu6/pcm2wav
 */
#include 
#include 
#include 


typedef struct {
    unsigned char chunk_id[4];     /*{'R', 'I', 'F', 'F'}*/
    unsigned int chunk_size;
    unsigned char format[4];
} FIFFChunk;

typedef struct {
    unsigned char chunk_id[4];  /* {'f', 'm', 't', ' '} */
    unsigned int chunk_size;
    unsigned short audio_format;            // 2字节
    unsigned short channels;             // 4字节
    unsigned int sample_rate;       // 4字节
    unsigned int byte_rate;      // 4字节
    unsigned short block_align;           // 2字节
    unsigned short bits_per_sample;        // 2字节
} FormatChunk;

typedef struct {
    unsigned char chunk_id[4];  /* {'d', 'a', 't', 'a'}  */
    unsigned int chunk_size;
} DataChunk;


// pcm2wav ***.pcm ***.wav 通道 采样率 量化位数
int main(int argc, char *argv[]) {
    FILE *pcmfile, *wavfile;
    long pcmfile_size;
    FIFFChunk fiffchunk;
    FormatChunk formatchunk;
    DataChunk datachunk;
    int read_len;
    char buf[1024];

    if (argc != 6) {
        printf("usage:\n"
               "\t%s pcmfile wavfile channel samplerate bitspersample\n", argv[0]);
        return 1;
    }

    pcmfile = fopen(argv[1], "rb");
    if (pcmfile == NULL) {
        printf("!Error: Can't open pcmfile.\n");
        return 1;
    }
    fseek(pcmfile, 0, SEEK_END);        // 将文件指针移动到文件最后
    pcmfile_size = ftell(pcmfile);          // 返回给定流 stream 的当前文件位置(字节)
    fseek(pcmfile, 0, SEEK_SET);        // 将文件指针移动到文件开头

    wavfile = fopen(argv[2], "wb");
    if (wavfile == NULL) {
        printf("!Error: Can't create wavfile.\n");
        return 1;
    }
    /* *********** RIFF区块  ********************* */
    strncpy(fiffchunk.chunk_id,"RIFF", 4);
    fiffchunk.chunk_size = pcmfile_size+36;
    strncpy(fiffchunk.format,"WAVE",4);
    fwrite(&fiffchunk, sizeof(fiffchunk), 1, wavfile);

    /* *********** FORMAT区块  ********************* */
    strncpy(formatchunk.chunk_id,"fmt ", 4);
    formatchunk.chunk_size = sizeof(FormatChunk) - 8;       // 不包含该区块ID和Size的长度
    formatchunk.audio_format = 1;   /* 未压缩的 */
    formatchunk.channels = atoi(argv[3]);          // 通道数，字符串转换成整型
    formatchunk.sample_rate = atoi(argv[4]);    // 采样率
    formatchunk.bits_per_sample = atoi(argv[5]);     // 量化位数
    formatchunk.byte_rate = formatchunk.sample_rate * formatchunk.channels * (formatchunk.bits_per_sample >> 3);   // 每秒数据字节数=SampleRate * NumChannels * BitsPerSample/8
    formatchunk.block_align = formatchunk.channels * (formatchunk.bits_per_sample >> 3);    // 每个样本需要的字节数
    fwrite(&formatchunk, 1, sizeof(formatchunk), wavfile);

    /* *********** DATA区块  ********************* */
    strncpy(datachunk.chunk_id, "data",4);
    datachunk.chunk_size = pcmfile_size;
    fwrite(&datachunk, 1, sizeof(datachunk.chunk_id) + sizeof(datachunk.chunk_size), wavfile);

    while ((read_len = fread(buf, 1, sizeof(buf), pcmfile)) != 0) {
        fwrite(buf, 1, read_len, wavfile);
    }

    fclose(pcmfile);
    fclose(wavfile);
}

版本二：代码参考自：https://github.com/jwhu1024/pcm-to-wav

/**
* https://github.com/jwhu1024/pcm-to-wav
*/

#include 
#include 
#include 

typedef struct {
    unsigned char chunk_id[4];        // RIFF string
    unsigned int chunk_size;         // overall size of file in bytes (36 + data_size)
    unsigned char sub_chunk1_id[8];   // WAVEfmt string with trailing null char
    unsigned int sub_chunk1_size;    // 16 for PCM.  This is the size of the rest of the Subchunk which follows this number.
    unsigned short audio_format;       // format type. 1-PCM, 3- IEEE float, 6 - 8bit A law, 7 - 8bit mu law
    unsigned short num_channels;       // Mono = 1, Stereo = 2
    unsigned int sample_rate;        // 8000, 16000, 44100, etc. (blocks per second)
    unsigned int byte_rate;          // SampleRate * NumChannels * BitsPerSample/8
    unsigned short block_align;        // NumChannels * BitsPerSample/8
    unsigned short bits_per_sample;    // bits per sample, 8- 8bits, 16- 16 bits etc
    unsigned char sub_chunk2_id[4];   // Contains the letters "data"
    unsigned int sub_chunk2_size;    // NumSamples * NumChannels * BitsPerSample/8 - size of the next chunk that will be read
} wav_header_t;

char *dummy_get_raw_pcm(char *p, int *bytes_read) {
    long lSize;
    char *pcm_buf;
    size_t result;
    FILE *fp_pcm;

    fp_pcm = fopen(p, "rb");
    if (fp_pcm == NULL) {
        printf("File error");
        exit(1);
    }

    // obtain file size:
    fseek(fp_pcm, 0, SEEK_END);     // 将文件指针移动到文件最后
    lSize = ftell(fp_pcm);              // 返回给定流 stream 的当前文件位置(字节)
    rewind(fp_pcm);                     // 将文件指针移动到文件开头

    // 分配内存来包含整个文件
    pcm_buf = (char *) malloc(sizeof(char) * lSize);
    if (pcm_buf == NULL) {
        printf("Memory error");
        exit(2);
    }

    // 将文件复制到pcm_buf中:
    result = fread(pcm_buf, 1, lSize, fp_pcm);
    if (result != lSize) {
        printf("Reading error");
        exit(3);
    }

    *bytes_read = (int) lSize;
    return pcm_buf;
}

void get_wav_header(int raw_sz, wav_header_t *wh) {
    // RIFF chunk
    strcpy(wh->chunk_id, "RIFF");
    wh->chunk_size = 36 + raw_sz;

    // fmt sub-chunk (to be optimized)
    strncpy(wh->sub_chunk1_id, "WAVEfmt ", strlen("WAVEfmt "));
    wh->sub_chunk1_size = 16;
    wh->audio_format = 1;
    wh->num_channels = 1;
    wh->sample_rate = 16000;
    wh->bits_per_sample = 16;
    wh->block_align = wh->num_channels * wh->bits_per_sample / 8;
    wh->byte_rate = wh->sample_rate * wh->num_channels * wh->bits_per_sample / 8;

    // data sub-chunk
    strncpy(wh->sub_chunk2_id, "data", strlen("data"));
    wh->sub_chunk2_size = raw_sz;
}

void dump_wav_header(wav_header_t *wh) {
    printf("=========================================\n");
    printf("chunk_id:\t\t\t%s\n", wh->chunk_id);
    printf("chunk_size:\t\t\t%d\n", wh->chunk_size);
    printf("sub_chunk1_id:\t\t\t%s\n", wh->sub_chunk1_id);
    printf("sub_chunk1_size:\t\t%d\n", wh->sub_chunk1_size);
    printf("audio_format:\t\t\t%d\n", wh->audio_format);
    printf("num_channels:\t\t\t%d\n", wh->num_channels);
    printf("sample_rate:\t\t\t%d\n", wh->sample_rate);
    printf("bits_per_sample:\t\t%d\n", wh->bits_per_sample);
    printf("block_align:\t\t\t%d\n", wh->block_align);
    printf("byte_rate:\t\t\t%d\n", wh->byte_rate);
    printf("sub_chunk2_id:\t\t\t%s\n", wh->sub_chunk2_id);
    printf("sub_chunk2_size:\t\t%d\n", wh->sub_chunk2_size);
    printf("=========================================\n");
}

// pcm-to-wav ./time.pcm ./***.wav
int main(int argc, char *argv[]) {
    int raw_sz = 0;
    FILE *fwav;
    wav_header_t wheader;           // 文件头 结构体变量声明

    memset(&wheader, '\0', sizeof(wav_header_t));       // 清除内存位置

    // check argument
    if (argc != 2)
        return -1;

    // dummy raw pcm data
    char *pcm_buf = dummy_get_raw_pcm("./time.pcm", &raw_sz);

    // construct wav header
    get_wav_header(raw_sz, &wheader);       // 给文件头赋 初值
    dump_wav_header(&wheader);              // 打印文件头 信息

    // write out the .wav file
    fwav = fopen(argv[1], "wb");
    fwrite(&wheader, 1, sizeof(wheader), fwav);
    fwrite(pcm_buf, 1, raw_sz, fwav);
    fclose(fwav);

    if (pcm_buf)
        free(pcm_buf);

    return 0;
}

版本三：使用python的wave库

def pcm2wav(pcm_file, wav_file, channels=1, bits=16, sample_rate=16000):
    f = open(pcm_file, 'rb')
    pcmdata = f.read()
    f.close()

    if bits % 8 != 0:
        raise ValueError("bits % 8 must == 0. now bits:" + str(bits))

    wavfile = wave.open(wav_file, 'wb')
    wavfile.setnchannels(channels)  # 通道数
    wavfile.setsampwidth(bits // 8)  # 位深
    wavfile.setframerate(sample_rate)  # 采样率
    wavfile.writeframes(pcmdata)  # 数据
    wavfile.close()

其他音频格式

MP3

MP3利用MPEG Audio Layer3 压缩方式进行压缩，所以简称为MP3，是一种有损压缩格式。 MPEG Audio Layer 3 压缩技术可以将音乐以1:10 甚至 1:12 的压缩率，能够在音质丢失很小的情况下把文件压缩到更小的程度。由于MP3体积小，音质高互联网上音乐几乎都是这种格式。但Mp3最高比特率320K，高频部分一刀切是他的缺点，对音质要求高的话还是建议wav格式。

ARM格式全称Adaptive Multi-Rate 和 Adaptive Multi-Rate Wideband，主要用于移动设备的音频，压缩比比较大，但相对其他的压缩格式质量比较差，多用于人声，通话，是一种有损压缩格式。

Ogg全称应该是OGG Vobis(ogg Vorbis) 是一种新的音频压缩格式，类似于MP3等现有的音乐格式。相对于MP3压缩技术它是完全免费、开放和没有专利限制的，是一种有损压缩格式。

AAC（Advanced Audio Coding），中文称为“高级音频编码”，出现于1997年，基于 MPEG-2的音频编码技术，是一种有损压缩技术。

LAC即是Free Lossless Audio Codec的缩写，为无损音频压缩编码，由于不会丢失任何音频信息可以利用算法恢复原始编码，前景广阔。

本文转载自：凌逆战，博客地址：https://www.cnblogs.com/LXP-Never/p/15234298.html

云原生周刊：基于 KubeSphere LuBan 架构打造DeepSeek 插件云计算
开源项目推荐KubeAIKubeAI是一个K8s上的AI推理操作器，旨在简化在生产环境中部署和管理大型语言模型（LLM）、向量嵌入和语音处理等机器学习模型。它提供与OpenAI兼容的API，支持在CPU和GPU上运行，并具备按需自动扩缩容的能力。KubeAI无需依赖Istio、Knative等其他系统，能够在几乎任何K8s集群中开箱即用。此外，它内置了模型代理，优化了键值缓存利用率，从而显著提升系
Meta 计划在 Llama 4 中引入改进的语音功能，接近双向自然对话 timer_017 llama
据英国《金融时报》3月7日报道，Meta首席产品官ChrisCox透露，Llama4将是一个“全能模型”，语音功能将是原生的1。关于Meta计划在Llama4中引入改进语音功能并接近双向自然对话，具体情况如下1：功能特点原生语音处理：Llama4能够直接处理语音信息，无需先将语音转换为文本再输入模型处理，最后又将文本转换回语音，可极大提升语音交互的效率和流畅度。双向自然对话：Meta一直特别注重使
【深度学习】Hopfield网络：模拟联想记忆 T-I-M 深度学习人工智能
Transformer优化，什么是稀疏注意力？Transformer模型自2017年被提出以来，已经成为自然语言处理（NLP）领域的核心架构，并在计算机视觉、语音处理等其他领域也取得了显著的成功。然而，随着模型规模的不断增大和任务复杂性的提升，Transformer的计算成本和内存需求也随之激增。为了解决这一问题，研究者们提出了多种优化方法，其中稀疏注意力（SparseAttention）是一种备
Transformer模型详解 Yuki-^_^ Transformer模型详解人工智能 transformer 深度学习人工智能
导读Transformer在许多的人工智能领域，如自然语言处理(NaturalLanguageProcessing,NLP)、计算机视觉(ComputerVision,CV)和语音处理(SpeechProcessing,SP)取得了巨大的成功。因此，自然而然的也吸引了许多工业界和学术界的研究人员的兴趣。到目前为止，已经提出了大量基于Transformer的相关工作和综述。本文基于邱锡鹏[1]老师近
数字人源头厂商-源码出售源码交付-OEM系统贴牌余~~18538162800 音视频线性代数网络人工智能
引言在数字化浪潮中，数字人正成为创新应用的焦点。从虚拟偶像活跃于舞台，到虚拟客服在各行业的普及，数字人展现出巨大的潜力。搭建数字人源码系统，是融合多领域前沿技术的复杂工程，涵盖图形学、人工智能、语音处理等。本文将深入剖析数字人源码搭建的技术开发细节，为开发者提供全面且深入的技术指南。技术体系架构感知层语音识别：技术选型：采用Kaldi语音识别框架，它是一个开源且灵活的工具包，支持多种语言和声学模型
数字人源码源头搭建技术全攻略，支持OEM 余18538162800） python
引言在人工智能与多媒体技术迅猛发展的当下，数字人已从概念构想逐步走进现实应用，广泛渗透于娱乐、教育、医疗、金融等多个领域。搭建数字人源码系统是一项综合性的技术工程，融合了计算机图形学、人工智能、语音处理等多学科前沿技术。本文将深入剖析数字人源码搭建的技术细节，为开发者提供详尽的技术开发指南。技术选型与架构设计图形渲染技术实时渲染引擎：Unity：作为一款跨平台的实时渲染引擎，Unity在数字人开发
RealtimeSTT：实时语音转文本的开源神器，轻松实现高效语音处理 AI云极【开源系列】语音识别开源
在语音技术飞速发展的时代，实时语音转文本（Speech-to-Text，简称STT）技术已逐渐成为语音助手、在线会议记录、字幕生成等应用的核心功能。今天要为大家推荐的是一款开源的实时语音转文本工具——RealtimeSTT，它功能强大且易于集成，为开发者提供了快速构建实时语音处理应用的能力。项目地址：GitHub-RealtimeSTT一、什么是RealtimeSTT？RealtimeSTT是一款
【电力负荷预测】时间卷积双向门控循环单元融合注意力机制TCN-BiGRU-Attention负荷多变量时间序列预测【含Matlab源码 4752期】 Matlab领域 matlab
✅博主简介：热爱科研的Matlab仿真开发者，修心和技术同步精进，Matlab项目合作可私信。个人主页：海神之光代码获取方式：海神之光Matlab王者学习之路—代码获取方式⛳️座右铭：行百里者，半于九十。更多Matlab仿真内容点击Matlab图像处理（进阶版）路径规划（Matlab）神经网络预测与分类（Matlab）优化求解（Matlab）语音处理（Matlab）信号处理（Matlab）车间调度
基于能量检测的语音信号端点检测 FPGA 实现鱼弦人工智能时代 fpga开发
基于能量检测的语音信号端点检测FPGA实现介绍语音信号端点检测（VoiceActivityDetection,VAD）是语音处理中的一个重要步骤，用于确定语音信号的起始和结束点。基于能量检测的方法通过计算语音信号的能量来识别活跃语音段。FPGA的并行处理能力使其非常适合用于实时的语音信号处理。应用使用场景语音识别系统：提高识别准确性，减少处理非语音片段。通信设备：降低带宽需求，通过仅传输语音部分节
深入了解卷积神经网络（CNN）：图像处理与深度学习的革命性技术 wit_@ cnn python 机器学习深度学习 scikit-learn
深入了解卷积神经网络（CNN）：图像处理与深度学习的革命性技术导语卷积神经网络（CNN）是现代深度学习领域中最重要的模型之一，特别在计算机视觉（CV）领域具有革命性的影响。无论是图像分类、目标检测，还是人脸识别、语音处理，CNN都发挥了举足轻重的作用。随着技术的不断发展，CNN已经成为了解决众多实际问题的核心工具。但对于许多人来说，CNN仍然是一个相对复杂的概念，尤其是初学者可能会被其背后的数学原
【图像压缩】奇异值分解SVD灰色图像压缩（可设置压缩比）【含Matlab源码 4358期】 Matlab武动乾坤 Matlab图像处理（进阶版）matlab
✅博主简介：热爱科研的Matlab仿真开发者，修心和技术同步精进，Matlab项目合作可私信。个人主页：海神之光代码获取方式：海神之光Matlab王者学习之路—代码获取方式⛳️座右铭：行百里者，半于九十。更多Matlab仿真内容点击Matlab图像处理（进阶版）路径规划（Matlab）神经网络预测与分类（Matlab）优化求解（Matlab）语音处理（Matlab）信号处理（Matlab）车间调度
【机器学习】Whisper：开源语音转文本（speech-to-text）大模型实战 LDG_AGI AI智能体研发之路-模型篇机器学习 whisper 人工智能语音识别实时音视频 python transformer
目录一、引言二、Whisper模型原理2.1模型架构2.2语音处理2.3文本处理三、Whisper模型实战3.1环境安装3.2模型下载3.3模型推理3.4完整代码3.5模型部署四、总结一、引言上一篇对ChatTTS文本转语音模型原理和实战进行了讲解，第6次拿到了热榜第一。今天，分享其对称功能（语音转文本）模型：Whisper。Whisper由OpenAI研发并开源，参数量最小39M，最大1550M
【GRU回归预测】麻雀算法优化注意力机制卷积神经网络结合双向门控循环单元SSA-Attention-CNN-BiGRU数据预测（多输入多输出）【含Matlab源码 3905期】 Matlab领域 matlab
✅博主简介：热爱科研的Matlab仿真开发者，修心和技术同步精进，Matlab项目合作可私信。个人主页：海神之光代码获取方式：海神之光Matlab王者学习之路—代码获取方式⛳️座右铭：行百里者，半于九十。更多Matlab仿真内容点击Matlab图像处理（进阶版）路径规划（Matlab）神经网络预测与分类（Matlab）优化求解（Matlab）语音处理（Matlab）信号处理（Matlab）车间调度
如何使用Hugging Face：对Transformer和pipelines的介绍第欧根尼的酒桶 transformer 深度学习人工智能
一、transformer介绍众所周知，transformer模型（如GPT-3、LLaMa和ChatGPT）已经彻底改变了人工智能领域。它们不仅被用于自然语言处理，还被应用于计算机视觉、语音处理和其他任务中。HuggingFace是一个以变换器为核心的Python深度学习库。因此，在我们深入了解其工作原理之前，我们将探讨什么是transformer，以及为什么它们能够支持如此强大的模型。1.递归
【GRU回归预测】开普勒算法优化多头注意力机制卷积神经网络结合门控循环单元KOA-MultiAttention-CNN-GRU数据预测（多输入单输出）【含Matlab源码 3772期】 Matlab领域 matlab
✅博主简介：热爱科研的Matlab仿真开发者，修心和技术同步精进，Matlab项目合作可私信。个人主页：海神之光代码获取方式：海神之光Matlab王者学习之路—代码获取方式⛳️座右铭：行百里者，半于九十。更多Matlab仿真内容点击Matlab图像处理（进阶版）路径规划（Matlab）神经网络预测与分类（Matlab）优化求解（Matlab）语音处理（Matlab）信号处理（Matlab）车间调度
工信部颁发的《自然语言与语音处理设计开发工程师》中级证书的培训通知人工智能技术与咨询人工智能计算机视觉自然语言处理
国家发展大势所趋，促进各行各业智能化、数字化转型，而计算机自然语言处理是一个快速发展的领域，随着人工智能技术的不断发展和应用，对自然语言处理的需求也越来越大。因此，计算机自然语言处理的就业前景非常好。在就业方面，计算机自然语言处理领域主要涉及人工智能、自然语言处理、机器学习、语音识别、信息检索等方面的工作，包括算法工程师、数据分析师、自然语言处理工程师、语音处理工程师、信息检索工程师等职位。在科技
机器学习简要概述 @Duang~ 机器学习机器学习人工智能算法
一、基本概念及应用传统机器学习算法首先需要对数据进行特征提取，采用分类器（如决策树、人工神经网络、贝叶斯、集成学习、支持向量机等）进行分类。机器学习：特征提取+分类器分类特征提取难，制约发展。深度学习出现，一定程度解决了特征提取的难题，机器学习繁荣起来。机器学习+数据库=数据挖掘+工业应用=模式识别+图像处理=机器视觉+语音处理=语音识别+文本处理=自然语言处理二、数据集及模型数据集的划分：方法：
PyTorch（超详细）部署与激活举起Python火炬，点亮智慧人生【Windows版】心安成长 PyTorch python pytorch windows
AI时代，我们不仅要学习Python，同时机器学习，深度学习利器也要逐步掌握，再次开始Pytorch学习教程记录。PyTorch是一个流行的开源深度学习框架，它可以用于构建、训练和部署各种机器学习和深度学习模型。PyTorch可以用于以下领域：计算机视觉：图像分类、目标检测、图像分割、人脸识别等。自然语言处理：机器翻译、文本分类、情感分析、问答系统等。语音处理：语音识别、语音合成、说话人识别等。生
AI智能作词软件-AI智能写歌词app-真的可以吗科技新事物
经常写歌词的朋友，都曾遇到过被卡住，没有灵感的进行不下去的情况，这个时候要是能有AI智能作词软件给我们提供歌词就好了。AI智能作词软件它来了，AI机器人小芝，运用了最新的AI人工智能科技，可以帮我们自动写原创歌词。它模仿人类的思维，深度学习海量歌词的创作技巧，采用自然语音处理技术，练成了自己独特的创作能力。AI智能写歌词app在软件上，选择歌词风格，再选择韵脚，接着输入关键词语句，作为引导语告诉它
深度学习有何新进展小狗蛋ing 鸿蒙开源软件
深度学习的进展深度学习是人工智能领域的一个重要分支，它基于人工神经网络进行模型构建和训练，模拟人类大脑对数据特征的学习过程。随着计算能力的提升和大数据的积累，深度学习技术在图像识别、语音处理、自然语言理解等多个方面取得了显著进展。近年来，深度学习的新进展主要集中在以下几个方面：网络结构的创新：为了提高模型的性能和效率，研究者们不断探索新的网络结构。例如，卷积神经网络（CNN）在图像处理领域取得了巨
深度学习：人工智能的新篇章 GIS遥感数据处理应用人工智能深度学习
深度学习是人工智能领域的一项重要技术，通过模拟人脑神经网络的工作原理，实现了对大规模数据的学习和模式识别。深度学习在图像识别、语音处理、自然语言处理等领域取得了突破性的成果，为人工智能的发展开辟了新的篇章。本文将介绍深度学习的基本原理、应用领域以及对社会的影响。第一部分：深度学习的基本原理深度学习的核心是人工神经网络，它由多个神经元层组成，每一层的神经元通过学习权重和激活函数的方式，将输入数据转化
《自然语言与语音处理设计开发工程师》中级人工智能技术与咨询人工智能计算机视觉自然语言处理
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。它并不是一般地研究自然语言，而在于研制能有效地实现自然语言的通信的计算机系统，特别是其中的软件系统。因而它是计算机科学的一部分。2024年最新报考的有权威的就是由工业与信息化部电子工业标准化研究院颁发的证书：《自然语
自然语言处理的就业前景人工智能技术与咨询自然语言处理人工智能计算机视觉
国家发展大势所趋，促进各行各业智能化、数字化转型，而计算机自然语言处理是一个快速发展的领域，随着人工智能技术的不断发展和应用，对自然语言处理的需求也越来越大。因此，计算机自然语言处理的就业前景非常好。在就业方面，计算机自然语言处理领域主要涉及人工智能、自然语言处理、机器学习、语音识别、信息检索等方面的工作，包括算法工程师、数据分析师、自然语言处理工程师、语音处理工程师、信息检索工程师等职位。在科技
【CTWVRP】遗传算法求解带软时间窗+容量约束+成本(固定+运输+制冷+惩罚)车辆路径规划【含Matlab源码 3836期】 Matlab领域 Matlab路径规划（高阶版）matlab
✅博主简介：热爱科研的Matlab仿真开发者，修心和技术同步精进，Matlab项目合作可私信。个人主页：海神之光代码获取方式：海神之光Matlab王者学习之路—代码获取方式⛳️座右铭：行百里者，半于九十。更多Matlab仿真内容点击Matlab图像处理（进阶版）路径规划（Matlab）神经网络预测与分类（Matlab）优化求解（Matlab）语音处理（Matlab）信号处理（Matlab）车间调度
自然语言处理的就业前景人工智能技术与咨询自然语言处理人工智能
国家发展大势所趋，促进各行各业智能化、数字化转型，而计算机自然语言处理是一个快速发展的领域，随着人工智能技术的不断发展和应用，对自然语言处理的需求也越来越大。因此，计算机自然语言处理的就业前景非常好。在就业方面，计算机自然语言处理领域主要涉及人工智能、自然语言处理、机器学习、语音识别、信息检索等方面的工作，包括算法工程师、数据分析师、自然语言处理工程师、语音处理工程师、信息检索工程师等职位。在科技
【KOA MTSP】开普勒算法KOA求解单仓库多旅行商问题【含Matlab源码 3809期】 Matlab领域 Matlab路径规划（高阶版）matlab
✅博主简介：热爱科研的Matlab仿真开发者，修心和技术同步精进，Matlab项目合作可私信。个人主页：海神之光代码获取方式：海神之光Matlab王者学习之路—代码获取方式⛳️座右铭：行百里者，半于九十。更多Matlab仿真内容点击Matlab图像处理（进阶版）路径规划（Matlab）神经网络预测与分类（Matlab）优化求解（Matlab）语音处理（Matlab）信号处理（Matlab）车间调度
人工智能知识奥利奥利奥利奥人工智能
11语音处理语音识别系统框架：特征提取（mfcc、傅立叶）->声学模型（高斯混合）->语言模型->解码搜索特征提取：梅尔频率倒谱系数、傅里叶变换声学模型：高斯混合模型-隐马尔可夫模型14多智能体系统自主性、主动性、反应能力、社会能力产生式表示：规则：IFATHEMB（置信度默认100）事实：（Li，Age，40，默认0.1）框架表示法：框架（事物）-槽（各个方面）-侧面-值框架表示法是一种适应性强
Go语言在语音处理中的优势咕噜签名分发 golang 开发语言后端
随着现在人工智能和语音技术的快速发展，语音处理成为了现代应用程序开发中不可或缺的一部分。而Go语言作为一门现代化的编程语言，具备了许多的优势让他成为了语音处理领域的理想选择。下面简单的介绍一下Go语言在语音处理方面的优势，说明他为什么成为了众多开发者的选择。并发性能Go语言内置了轻量级的协程（goroutine）和通信机制（channel），使得并发编程变得比较简单而高效。在语音处理中能够利用go
工信部颁发的人工智能证书《自然语言与语音处理设计开发工程师》证书到手啦！人工智能培训人工智能计算机视觉自然语言处理 python
工信部颁发的人工智能证书《自然语言与语音处理设计开发工程师》证书拿到手啦！近期正在报考的工信部颁发的人工智能证书还有：《计算机视觉处理设计开发工程师》中级2024年1月24日至28日-北京《自然语言与语音处理设计开发工程师》中级第二期2024年2月29日-3月4日-上海由国家工信部权威认证的人工智能证书是跨入人工智能行业的敲门砖，随着人工智能技术的发展越来越成熟，相关的从业人员也会剧增，证书的考取
conda环境下FutureWarning: Pass sr=16000, n_fft=800 as keyword args问题解决智慧医疗探索者 AI运行环境 conda librosa
1问题描述在训练语音处理模型过程中，出现如下错误：audio.py:100:FutureWarning:Passsr=16000,n_fft=800askeywordargs.Fromversion0.10passingtheseaspositionalargumentswillresultinanerrorreturnlibrosa.filters.mel(hp.sample_rate,hp.n
sql统计相同项个数并按名次显示朱辉辉33 java oracle
现在有如下这样一个表： A表 ID Name time ------------------------------ 0001 aaa 2006-11-18 0002 ccc 2006-11-18 0003 eee 2006-11-18 0004 aaa 2006-11-18 0005 eee 2006-11-18 0004 aaa 2006-11-18 0002 ccc 20
Android+Jquery Mobile学习系列-目录白糖_ JQuery Mobile
最近在研究学习基于Android的移动应用开发，准备给家里人做一个应用程序用用。向公司手机移动团队咨询了下，觉得使用Android的WebView上手最快，因为WebView等于是一个内置浏览器，可以基于html页面开发，不用去学习Android自带的七七八八的控件。然后加上Jquery mobile的样式渲染和事件等，就能非常方便的做动态应用了。从现在起，往后一段时间，我打算
如何给线程池命名 daysinsun 线程池
在系统运行后，在线程快照里总是看到线程池的名字为pool-xx，这样导致很不好定位，怎么给线程池一个有意义的名字呢。参照ThreadPoolExecutor类的ThreadFactory，自己实现ThreadFactory接口，重写newThread方法即可。参考代码如下： public class Named
IE 中"HTML Parsing Error:Unable to modify the parent container element before the 周凡杨 html 解析 error readyState
错误： IE 中"HTML Parsing Error:Unable to modify the parent container element before the child element is closed" 现象：同事之间几个IE 测试情况下，有的报这个错，有的不报。经查询资料后，可归纳以下原因。
java上传 g21121 java
我们在做web项目中通常会遇到上传文件的情况，用struts等框架的会直接用的自带的标签和组件，今天说的是利用servlet来完成上传。我们这里利用到commons-fileupload组件，相关jar包可以取apache官网下载：http://commons.apache.org/ 下面是servlet的代码： //定义一个磁盘文件工厂 DiskFileItemFactory fact
SpringMVC配置学习 510888780 spring mvc
spring MVC配置详解现在主流的Web MVC框架除了Struts这个主力外，其次就是Spring MVC了，因此这也是作为一名程序员需要掌握的主流框架，框架选择多了，应对多变的需求和业务时，可实行的方案自然就多了。不过要想灵活运用Spring MVC来应对大多数的Web开发，就必须要掌握它的配置及原理。　　一、Spring MVC环境搭建：（Spring 2.5.6 + Hi
spring mvc-jfreeChart 柱图(1) 布衣凌宇 jfreechart
第一步：下载jfreeChart包，注意是jfreeChart文件lib目录下的，jcommon-1.0.23.jar和jfreechart-1.0.19.jar两个包即可；第二步：配置web.xml; web.xml代码如下 <servlet> <servlet-name>jfreechart</servlet-nam
我的spring学习笔记13-容器扩展点之PropertyPlaceholderConfigurer aijuans Spring3
PropertyPlaceholderConfigurer是个bean工厂后置处理器的实现，也就是BeanFactoryPostProcessor接口的一个实现。关于BeanFactoryPostProcessor和BeanPostProcessor类似。我会在其他地方介绍。PropertyPlaceholderConfigurer可以将上下文（配置文件）中的属性值放在另一个单独的标准java P
java 线程池使用 Runnable&Callable&Future antlove java thread Runnable callable future
1. 创建线程池 ExecutorService executorService = Executors.newCachedThreadPool(); 2. 执行一次线程，调用Runnable接口实现 Future<?> future = executorService.submit(new DefaultRunnable()); System.out.prin
XML语法元素结构的总结百合不是茶 xml 树结构
1.XML介绍1969年 gml (主要目的是要在不同的机器进行通信的数据规范)1985年 sgml standard generralized markup language1993年 html(www网)1998年 xml extensible markup language
改变eclipse编码格式 bijian1013 eclipse 编码格式
1.改变整个工作空间的编码格式改变整个工作空间的编码格式，这样以后新建的文件也是新设置的编码格式。 Eclipse->window->preferences->General->workspace-
javascript中return的设计缺陷 bijian1013 JavaScript AngularJS
代码1： <script> var gisService = (function(window) { return { name:function () { alert(1); } }; })(this); gisService.name(); &l
【持久化框架MyBatis3八】Spring集成MyBatis3 bit1129 Mybatis3
pom.xml配置 Maven的pom中主要包括： MyBatis MyBatis-Spring Spring MySQL-Connector-Java Druid applicationContext.xml配置 <?xml version="1.0" encoding="UTF-8"?> &
java web项目启动时自动加载自定义properties文件 bitray java Web 监听器相对路径
创建一个类 public class ContextInitListener implements ServletContextListener 使得该类成为一个监听器。用于监听整个容器生命周期的，主要是初始化和销毁的。类创建后要在web.xml配置文件中增加一个简单的监听器配置，即刚才我们定义的类。 <listener> <des
用nginx区分文件大小做出不同响应 ronin47
昨晚和前21v的同事聊天，说到我离职后一些技术上的更新。其中有个给某大客户(游戏下载类)的特殊需求设计，因为文件大小差距很大——估计是大版本和补丁的区别——又走的是同一个域名，而squid在响应比较大的文件时，尤其是初次下载的时候，性能比较差，所以拆成两组服务器，squid服务于较小的文件，通过pull方式从peer层获取，nginx服务于较大的文件，通过push方式由peer层分发同步。外部发布
java-67-扑克牌的顺子.从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的.2-10为数字本身，A为1，J为11，Q为12，K为13，而大 bylijinnan java
package com.ljn.base; import java.util.Arrays; import java.util.Random; public class ContinuousPoker { /** * Q67 扑克牌的顺子从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的。 * 2-10为数字本身，A为1，J为1
翟鸿燊老师语录 ccii 翟鸿燊
一、国学应用智慧TAT之亮剑精神A 1. 角色就是人格就像你一回家的时候，你一进屋里面，你已经是儿子，是姑娘啦，给老爸老妈倒怀水吧，你还觉得你是老总呢？还拿派呢？就像今天一样，你们往这儿一坐，你们之间是什么，同学，是朋友。还有下属最忌讳的就是领导向他询问情况的时候，什么我不知道，我不清楚，该你知道的你凭什么不知道
[光速与宇宙]进行光速飞行的一些问题 comsci 问题
在人类整体进入宇宙时代，即将开展深空宇宙探索之前，我有几个猜想想告诉大家仅仅是猜想。。。未经官方证实 1：要在宇宙中进行光速飞行，必须首先获得宇宙中的航行通行证，而这个航行通行证并不是我们平常认为的那种带钢印的证书，是什么呢？下面我来告诉
oracle undo解析 cwqcwqmax9 oracle
oracle undo解析2012-09-24 09:02:01 我来说两句作者：虫师收藏我要投稿 Undo是干嘛用的？ &nb
java中各种集合的详细介绍 dashuaifu java 集合
一，java中各种集合的关系图 Collection 接口的接口对象的集合 ├ List 子接口 &n
卸载windows服务的方法 dcj3sjt126com windows service
卸载Windows服务的方法在Windows中，有一类程序称为服务，在操作系统内核加载完成后就开始加载。这里程序往往运行在操作系统的底层，因此资源占用比较大、执行效率比较高，比较有代表性的就是杀毒软件。但是一旦因为特殊原因不能正确卸载这些程序了，其加载在Windows内的服务就不容易删除了。即便是删除注册表中的相应项目，虽然不启动了，但是系统中仍然存在此项服务，只是没有加载而已。如果安装其他
Warning: The Copy Bundle Resources build phase contains this target's Info.plist dcj3sjt126com ios xcode
http://developer.apple.com/iphone/library/qa/qa2009/qa1649.html Excerpt: You are getting this warning because you probably added your Info.plist file to your Copy Bundle
2014之C++学习笔记（一） Etwo C++Etwo Etwo iterator 迭代器
已经有很长一段时间没有写博客了，可能大家已经淡忘了Etwo这个人的存在，这一年多以来，本人从事了AS的相关开发工作，但最近一段时间，AS在天朝的没落，相信有很多码农也都清楚，现在的页游基本上达到饱和，手机上的游戏基本被unity3D与cocos占据，AS基本没有容身之处。so。。。最近我并不打算直接转型
js跨越获取数据问题记录 haifengwuch jsonp json Ajax
js的跨越问题，普通的ajax无法获取服务器返回的值。第一种解决方案，通过getson，后台配合方式，实现。 Java后台代码： protected void doPost(HttpServletRequest req, HttpServletResponse resp) throws ServletException, IOException { String ca
蓝色jQuery导航条 ini JavaScript html jquery Web html5
效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/39.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery鼠标悬停上下滑动导航条 - 柯乐义<
linux部署jdk,tomcat,mysql kerryg jdk tomcat linux mysql
1、安装java环境jdk: 一般系统都会默认自带的JDK,但是不太好用，都会卸载了，然后重新安装。 1.1）、卸载：（rpm -qa :查询已经安装哪些软件包； rmp -q 软件包：查询指定包是否已
DOMContentLoaded VS onload VS onreadystatechange mutongwu jquery js
1. DOMContentLoaded 在页面html、script、style加载完毕即可触发，无需等待所有资源（image/iframe）加载完毕。（IE9+） 2. onload是最早支持的事件，要求所有资源加载完毕触发。 3. onreadystatechange 开始在IE引入，后来其它浏览器也有一定的实现。涉及以下 document , applet, embed, fra
sql批量插入数据 qifeifei 批量插入
hi，自己在做工程的时候，遇到批量插入数据的数据修复场景。我的思路是在插入前准备一个临时表，临时表的整理就看当时的选择条件了，临时表就是要插入的数据集，最后再批量插入到数据库中。 WITH tempT AS ( SELECT item_id AS combo_id, item_id, now() AS create_date FROM a
log4j打印日志文件如何实现相对路径到项目工程下 thinkfreer Web log4j 应用服务器日志
最近为了实现统计一个网站的访问量，记录用户的登录信息，以方便站长实时了解自己网站的访问情况，选择了Apache 的log4j,但是在选择相对路径那块卡主了，X度了好多方法(其实大多都是一样的内用，还一个字都不差的)，都没有能解决问题，无奈搞了2天终于解决了，与大家分享一下需求：用户登录该网站时，把用户的登录名,ip,时间。统计到一个txt文档里，以方便其他系统调用此txt。项目名
linux下mysql-5.6.23.tar.gz安装与配置笑我痴狂 mysql linux unix
1.卸载系统默认的mysql [root@localhost ~]# rpm -qa | grep mysql mysql-libs-5.1.66-2.el6_3.x86_64 mysql-devel-5.1.66-2.el6_3.x86_64 mysql-5.1.66-2.el6_3.x86_64 [root@localhost ~]# rpm -e mysql-libs-5.1