RK3568笔记七十八:PCM转WAV

若该文为原创文章,转载请注明原文出处。

一、简介

最近看到Deepseek大模型,网上也有很多使用ESP32的小智智能语音功能,所以想在RK3568上实现类型的功能。

大概功能是:采用MIC录制5-10秒音频,转成WAV格式,通过RK的Whisper转成文本,把文本传给豆包API,结果通过火山TTS转化在通过喇叭播放。

此篇记录下,两个功能:

1、录制5秒PCM保存成WAV格式,为后续做准备。

2、使用alsa播放WAV文件,为TTS播放做准备。

二、WAV格式介绍

RK3568笔记七十八:PCM转WAV_第1张图片

文件头包括三个部分

  • 第一部分通过“ChunkID”来表示这是一个 “RIFF”格式的文件,通过“Format”填入“WAVE”来标识这是一个 wav 文件。而“ChunkSize”则记录了整个 wav 文件的字节数。
  • 第二部分属于“fmt”信息块,主要记录了本 wav 音频文件的详细音频参数信息,例如:通道数、采样率、位宽等等。
  • 第三部分属于“data”信息块,由“Subchunk2Size”这个字段来

你可能感兴趣的:(RK3568学习笔记,笔记,pcm)