声音数字化及调音基本原理-学习资料汇总

声音数字化及调音基本原理-学习资料汇总

理论知识储备

人体发声原理

人体发声器官

发声原理

  • 简而言之,人体通过吸气增加肺气压,呼气时肺气压上升冲击声带,造成声门的闭合,成为素音,而素音经过了共鸣腔体,最终发出声音

音色的构成

  • 人的声音由基音和泛音构成,基因决定音调的高低,泛音则决定了人的音色

语言的形成

  • 语言的形成,主要取决于口腔共鸣区(包括口腔、口咽腔和喉腔)各个器官的协作(舌头位置与形状、上下颚的空间大小、喉头的升降、两唇的形状和长短),选择合适的共鸣频率,这个过程叫做“语言的格式化”,而不同的语言的频段也会有所区别:

<参考文档> 发声器官及发声原理 语言的声音频谱 如何训练腔体共鸣 开口音和闭口音 声音的三要素跟声波的幅度、频率和频谱的对应关系 图解泛音及形成原理 声频率范围及各频段音色效果

声音的物理及数学模型

声波的组成

  • 如上图所示,声音可以量化成许多振幅和相位各异的正弦波,

频域与时域

  • 频域上的各个正弦波,通过傅立叶变换,在时域上投影成一个二维的周期性非正弦波,也就是音频数字化采样的模拟波形

混响原理

  • 声源产生的声波会向四面八方传播,声波遇到障碍物会反射,导致接收方会收到不同延迟的声波,这些不同延时的声波混合叫做“混响”
  • 在特定的延迟范围之内,混响可以形成有立体感的声音,但大于延迟阀值,则可能导致声音模糊不清

<参考文档> 深入浅出讲解傅立叶变换 基波和谐波 混响音效原理和解析

音频数字化

  • 数字化的主要步骤:采样->量化->编码
  • 对模拟音源的声波进行抽样,通常选取的采样率是人耳听觉频率上限(20kHz)的2倍,44.1kHz,采样率越大,声音质量越高,数据量也越大
  • 对采样数据进行量化,选取合适的采样单位(以比特为单位,又称比特率),决定了声音响度变化的精确度
  • 对量化后的数据进行编码,转换数字信号

<参考文档> 视频公开课:声音与数字技术

调音原理

环境降噪(//TODO)

EQ均衡器调音

  • 数字化的声波是时域上的二维波,通过傅立叶分解之后,可以得到基波和谐波,基波决定了音调,而谐波则决定了音色,EQ通过调整不同频段的谐波的振幅(增益或衰减),达到调节音色的效果

EQ均衡器原理

调音操作实践

pc端专业调音软件

  • logic pro x2均衡器调音 录制一段音频,通过手动调节20~20kHz频段范围的分贝值,可以很大程度地改变整体的音色,比如:对中低频进行增益,可以有效突出人声

手机端音乐播放器

  • 网易云音乐-云鲸音效
  • QQ音乐-super sound

除了通过eq调节音效,同时还可以通过混响营造不同的声场(譬如:客厅,歌剧院,演唱会)

技术方案调研

android系统解决方案

  • 系统api支持回声消除,自动增强,噪音压制,重低音调节,均衡器控制以及内置的均衡器模版,但选取的几部测试机只支持均衡器调节,并且调节的幅度范围偏小,音效的变化不明显

自定义算法实现(//TODO)

转载于:https://juejin.im/post/5cd6795de51d456e55623bed

你可能感兴趣的:(移动开发,人工智能)