语音特征提取工具——opensmile

语音特征提取工具——opensmile

  • 1. opensmile概览
    • 1.1 opensmile特点
    • 1.2 opensmile 功能一览
      • 1.2.1 数据输入
      • 1.2.2 信号处理
      • 1.2.3 数据处理
      • 1.2.4 低维语音特征
      • 1.2.5 低维视频特征
      • 1.2.6 相关函数
      • 1.2.7 分类器
      • 1.2.8 输出数据
  • 2.
  • 参考文献


1. opensmile概览

工作后一直浑浑噩噩,深知自己不能再如此沉沦下去;痛定思痛,决定重拾老本行——AI语音,学习语音不得不提高这款开源软件——opensmile,从语音采集到AI语音的整个流程,它均已实现,为了提高自己能力,决定将该款开源软件进行学习。

1.1 opensmile特点

  • 支持声音的采集、特征提取、识别等一系列的声音处理方案
  • 同时支持在线语音处理与离线处理,在线语音处理时使用增量处理的方式
  • 支持开源画图软件 gnuplot
  • 支持开源声音录入软件openAudio
  • 支持opencv处理视频流

1.2 opensmile 功能一览

1.2.1 数据输入

  • PCM (RIFF-WAVE)
  • HTK 参数文件
  • csv文件(comma separated value)
  • WEAK’s ARFF文件(维基百科文件)
  • openCV 的视屏流
  • openAudio的语音流
  • 白噪声
  • 正弦波
  • 常量信号

1.2.2 信号处理

  • 窗函数:矩形窗、汉明窗、汉宁窗、Gauss、sineTriangular,
    Bartlett, Bartlett-Hann, Blackmann, Blackmann-Harris, Lanczos
  • 预加重/去预加重:一阶高通/低通滤波器
  • 重采样(频域算法)
  • FFT
  • 通过样条插值进行频谱轴的缩放 Scaling of spectral axis via spline interpolation
  • 幅度谱加权
  • 自相关函数
  • 平均幅值差分函数

1.2.3 数据处理

  • 幅度标准化
  • 均值方差标准化
  • Delta 回归系数和简易的微分
  • 加权微分)
  • 各种各样的向量运算
  • Moving average filter for smoothing of contour over time

1.2.4 低维语音特征

  • 帧能量
  • 响度
  • Mel/Bark/Octave尺度
  • MFCC
  • PLP
  • PLP-CC
  • LPC
  • LSF
  • 听觉谱
  • 听觉谱响度估计
  • 基频
  • Probability of Voicing from ACF and SHS spectrum peak
  • 语音质量
  • 带宽
  • 过零率
  • 谱特征
  • F0
  • CHROMA-derived Features for Chord and Key recognition
  • Psychoacoustic sharpness, spectral harmonicity
  • CHROMA

1.2.5 低维视频特征

  • HSV colour histograms
  • Local binary patterns (LBP)
  • LBP histograms
  • Optical flow and optical flow histograms
  • Face detection:

1.2.6 相关函数

  • 极值及位置
  • 均值
  • 标准差
  • 百分位
  • 回归系数
  • 峰值
  • LPC
  • 过零率
  • DTC
  • 质心
  • 采样率
  • 迭代
  • 开端/终端

1.2.7 分类器

  • 基于Fuzzy Logic的语音激活检测
  • 基于LSTM-RENN的语音激活检测
  • Turn-/Speech-segment detector
  • libsvm
  • svm sink
  • GMM
  • LSTM-RNN
  • 语音情感检测

1.2.8 输出数据

  • PCM (RIFF-WAVE)
  • HTK 参数文件
  • csv文件(comma separated value)
  • WEAK’s ARFF文件(维基百科文件)
  • libsvm特征文件
  • 二进制float类型矩阵
  • 在线语音播放

2.

参考文献

[1]: 《opensmile book》https://www.audeering.com/opensmile/

你可能感兴趣的:(语音)