凌逆战

python做语音信号处理

作者：凌逆战

时间：2019年11月1日

博客园地址：https://www.cnblogs.com/LXP-Never/p/10078200.html

音频信号的读写、播放及录音

标准的python已经支持WAV格式的书写，而实时的声音输入输出需要安装pyAudiio(http://people.csail.mit.edu/hubert/pyaudio)。最后我们还将使用pyMedia(http://pymedia.org)进行Mp3的解码和播放。

　　音频信号是模拟信号，我们需要将其保存为数字信号，才能对语音进行算法操作，WAV是Microsoft开发的一种声音文件格式，通常被用来保存未压缩的声音数据。

语音信号有三个重要的参数：声道数、取样频率和量化位数。

声道数：可以是单声道或者是双声道
采样频率：一秒内对声音信号的采集次数，44100Hz采样频率意味着每秒钟信号被分解成44100份。换句话说，每隔$\frac{1}{44100}Hz$就会存储一次，如果采样率高，那么媒体播放音频时会感觉信号是连续的。
量化位数：用多少bit表达一次采样所采集的数据，通常有8bit、16bit、24bit和32bit等几种

例如CD中所储存的声音信号是双声道、44.1kHz、16bit。

如果你需要自己录制和编辑声音文件，推荐使用Audacity(http://audacity.sourceforge.net)，它是一款开源的、跨平台、多声道的录音编辑软件。在我的工作中经常使用Audacity进行声音信号的录制，然后再输出成WAV文件供Python程序处理。

wave-读wav文件

wava模块为WAV声音格式提供了方面的界面，他不支持压缩/解压，但支持单声道/立体声。

Wave_read = wave.open(file,mode="rb")

file通常为是字符串格式的文件名或者文件路径

　　　　例如voice.wav文件的路径C:\Users\Never\Desktop\code for the speech

　　则file有以下三种填写格式：

　　　　r"C:\Users\Never\Desktop\code for the speech\voice.wav"

　　　　"C:/Users/Never/Desktop/code for the speech/voice.wav"

　　　　"C:\\Users\\Never\\Desktop\\code for the speech\\voice.wav"

　　三者等价，右划线\为转意字符，如果要表达\则需要\\，引号前面加r表示原始字符串。

mode是缺省参数，可以不填，也可以是"rb":只读模式；"wb":只写模式。注意不支持读/写格式。

该open()函数可用于with声明中。当with块完成时，Wave_read.close()或Wave_write.close()方法被调用。Wave_read是读取的文件流。

Wave_read.getparams（）　　　　

一次性返回所有的音频参数，返回的是一个元组(声道数，量化位数(byte单位)，采样频率，采样点数，压缩类型，压缩类型的描述)。(nchannels, sampwidth, framerate, nframes, comptype, compname)wave模块只支持非压缩的数据，因此可以忽略最后两个信息。

str_data = Wave_read.readframes（nframes）　　

指定需要读取的长度(以取样点为单位)，返回的是字符串类型的数据

wave_data = np.fromstring(str_data, dtype=np.short)

将读取的字符串数据转换为一维short类型的数组。

通过np.fromstring函数将字符串转换为数组，通过其参数dtype指定转换后的数据格式(由于我们的声音格式是以两个字节表示一个取样值，因此采用short数据类型转换)

现在的wave_data是一个一维的short类型的数组，但是因为我们的声音文件是双声道的，因此它由左右两个声道的取样交替构成：LR

wave_data.shape = (-1, 2)　　# -1的意思就是没有指定,根据另一个维度的数量进行分割，得到n行2列的数组。

getnchannels, getsampwidth, getframerate, getnframes等方法可以单独返回WAV文件的特定的信息。

Wave_read.close（）　　关闭文件流wave

Wave_read.getnchannels（）　　返回音频通道的数量（1对于单声道，2对于立体声）。

Wave_read.getsampwidth（）　　以字节为单位返回样本宽度

Wave_read.getframerate（）　　返回采样频率。

Wave_read.getnframes（）　　　返回音频帧数。

Wave_read.rewind（）　　　　　　将文件指针倒回到音频流的开头。

Wave_read.tell（）　　　　　　返回当前文件指针位置。

读取通道数为2的音频信号

# -*- coding: utf-8 -*-
# 读Wave文件并且绘制波形
import wave
import matplotlib.pyplot as plt
import numpy as np

# 打开WAV音频
f = wave.open(r"C:\Windows\media\Windows Background.wav", "rb")

# 读取格式信息
# (声道数、量化位数、采样频率、采样点数、压缩类型、压缩类型的描述)
# (nchannels, sampwidth, framerate, nframes, comptype, compname)
params = f.getparams()
nchannels, sampwidth, framerate, nframes = params[:4]
# nchannels通道数 = 2
# sampwidth量化位数 = 2
# framerate采样频率 = 22050
# nframes采样点数 = 53395

# 读取nframes个数据，返回字符串格式
str_data = f.readframes(nframes)

f.close()

#将字符串转换为数组，得到一维的short类型的数组
wave_data = np.fromstring(str_data, dtype=np.short)

# 赋值的归一化
wave_data = wave_data*1.0/(max(abs(wave_data)))

# 整合左声道和右声道的数据
wave_data = np.reshape(wave_data,[nframes,nchannels])
# wave_data.shape = (-1, 2)   # -1的意思就是没有指定,根据另一个维度的数量进行分割

# 最后通过采样点数和取样频率计算出每个取样的时间
time = np.arange(0, nframes) * (1.0 / framerate)

plt.figure()
# 左声道波形
plt.subplot(3,1,1)
plt.plot(time, wave_data[:,0])
plt.xlabel("time (seconds)")
plt.ylabel("Amplitude")
plt.title("Left channel")
plt.grid()  # 标尺

plt.subplot(3,1,3)
# 右声道波形
plt.plot(time, wave_data[:,1], c="g")
plt.xlabel("time (seconds)")
plt.ylabel("Amplitude")
plt.title("Left channel")
plt.title("right channel")
plt.grid()

plt.show()

读取双通道波形并绘制波形图

效果图：

第二种读取文件的方式：

from scipy.io import wavfile

sampling_freq, audio = wavfile.read("***.wav")

这里读取的audio直接是数组，不用像上面经过np.fromstring(str_data,dtype=np.short)类型转换。

音频信号的短时频域处理

　　在语音信号处理中，在语音信号处理中，信号在频域或其他变换域上的分析处理占重要的位置，在频域上研究语音可以使信号在时域上无法表现出来的某些特征变得十分明显，一个音频信号的本质是由其频率内容决定的，

将时域信号转换为频域信号一般对语音进行短时傅里叶变换。

fft_audio = np.fft.fft(audio)

import numpy as np
from scipy.io import wavfile
import matplotlib.pyplot as plt

sampling_freq, audio = wavfile.read(r"C:\Windows\media\Windows Background.wav")   # 读取文件

audio = audio / np.max(audio)   # 归一化，标准化

# 应用傅里叶变换
fft_signal = np.fft.fft(audio)
print(fft_signal)
# [-0.04022912+0.j         -0.04068997-0.00052721j -0.03933007-0.00448355j
#  ... -0.03947908+0.00298096j -0.03933007+0.00448355j -0.04068997+0.00052721j]

fft_signal = abs(fft_signal)
print(fft_signal)
# [0.04022912 0.04069339 0.0395848  ... 0.08001755 0.09203427 0.12889393]

# 建立时间轴
Freq = np.arange(0, len(fft_signal))

# 绘制语音信号的
plt.figure()
plt.plot(Freq, fft_signal, color='blue')
plt.xlabel('Freq (in kHz)')
plt.ylabel('Amplitude')
plt.show()

绘制语音信号的频谱图

wave-写wav音频

在写入第一帧数据时，先通过调用setnframes()设置好帧数，setnchannels()设置好声道数，setsampwidth()设置量化位数，setframerate()设置好采样频率，然后writeframes(wave.tostring())用于写入帧数据。

Wave_write = wave.open(file,mode="wb")

Wave_write是写文件流，

Wave_write.setnchannels（n）　　设置通道数。

Wave_write.setsampwidth（n）　　将样本宽度设置为n个字节，量化位数

Wave_write.setframerate（n）　　将采样频率设置为n。

Wave_write.setnframes（n）　　将帧数设置为n

Wave_write.setparams（tuple）　　以元组形式设置所有参数(nchannels, sampwidth, framerate, nframes,comptype, compname)

Wave_write.writeframes（data）　　写入data个长度的音频，以采样点为单位

Wave_write.tell（）　　返回文件中的当前位置

# -*- coding: utf-8 -*-
import wave
import numpy as np
import scipy.signal as signal

framerate = 44100   # 采样频率
time = 10           # 持续时间

t = np.arange(0, time, 1.0/framerate)

# 调用scipy.signal库中的chrip函数，
# 产生长度为10秒、取样频率为44.1kHz、100Hz到1kHz的频率扫描波
wave_data = signal.chirp(t, 100, time, 1000, method='linear') * 10000

# 由于chrip函数返回的数组为float64型，
# 需要调用数组的astype方法将其转换为short型。
wave_data = wave_data.astype(np.short)

# 打开WAV音频用来写操作
f = wave.open(r"sweep.wav", "wb")

f.setnchannels(1)           # 配置声道数
f.setsampwidth(2)           # 配置量化位数
f.setframerate(framerate)   # 配置取样频率
comptype = "NONE"
compname = "not compressed"

# 也可以用setparams一次性配置所有参数
# outwave.setparams((1, 2, framerate, nframes,comptype, compname))

# 将wav_data转换为二进制数据写入文件
f.writeframes(wave_data.tostring())
f.close()

写wav文件

import wave
import numpy as np
import struct

f = wave.open(r"C:\Windows\media\Windows Background.wav", "rb")
params = f.getparams()
nchannels, sampwidth, framerate, nframes = params[:4]
strData = f.readframes(nframes)
waveData = np.fromstring(strData,dtype=np.int16)
f.close()
waveData = waveData*1.0/(max(abs(waveData)))

# wav文件写入
# 待写入wav的数据，这里仍然取waveData数据
outData = waveData
outwave = wave.open("write.wav", 'wb')
nchannels = 1   # 通道数设置为1
sampwidth = 2   # 量化位数设置为2
framerate = 8000    # 采样频率8000
nframes = len(outData)    # 采样点数

comptype = "NONE"
compname = "not compressed"
outwave.setparams((nchannels, sampwidth, framerate, nframes,
    comptype, compname))

for i in outData:
        outwave.writeframes(struct.pack('h', int(i * 64000 / 2)))

        # struct.pack(FMT, V1)将V1的值转换为FMT格式字符串
outwave.close()

写WAV文件方法2

第三种写文件的方法

from scipy.io.wavfile import write

write(output_filename, freq, audio)

import numpy as np
import matplotlib.pyplot as plt
from scipy.io.wavfile import write

# 定义存储音频的输出文件
output_file = 'output_generated.wav'

# 指定音频生成的参数
duration = 3            # 单位秒
sampling_freq = 44100   # 单位Hz
tone_freq = 587         # 音调的频率
min_val = -2 * np.pi
max_val = 2 * np.pi

# 生成音频信号
t = np.linspace(min_val, max_val, duration * sampling_freq)
audio = np.sin(2 * np.pi * tone_freq * t)

# 添加噪声(duration * sampling_freq个(0,1]之间的随机值)
noise = 0.4 * np.random.rand(duration * sampling_freq)
audio += noise

scaling_factor = pow(2,15) - 1  # 转换为16位整型数
audio_normalized = audio / np.max(np.abs(audio))    # 归一化
audio_scaled = np.int16(audio_normalized * scaling_factor)  # 这句话什么意思

write(output_file, sampling_freq, audio_scaled) # 写入输出文件

audio = audio[:300] # 取前300个音频信号

x_values = np.arange(0, len(audio), 1) / float(sampling_freq)
x_values *= 1000    # 将时间轴单位转换为秒

plt.plot(x_values, audio, color='blue')
plt.xlabel('Time (ms)')
plt.ylabel('Amplitude')
plt.title('Audio signal')
plt.show()

写WAV文件

合成有音调的音乐

import json
import numpy as np
from scipy.io.wavfile import write
import matplotlib.pyplot as plt

# 定义合成音调
def Synthetic_tone(freq, duration, amp=1.0, sampling_freq=44100):
    # 建立时间轴
    t = np.linspace(0, duration, duration * sampling_freq)
    # 构建音频信号
    audio = amp * np.sin(2 * np.pi * freq * t)
    return audio.astype(np.int16)


# json文件中包含一些音阶以及他们的频率
tone_map_file = 'tone_freq_map.json'

# 读取频率映射文件
with open(tone_map_file, 'r') as f:
    tone_freq_map = json.loads(f.read())
    print(tone_freq_map)
# {'A': 440, 'Asharp': 466, 'B': 494, 'C': 523, 'Csharp': 554, 'D': 587, 'Dsharp': 622, 'E': 659, 'F': 698, 'Fsharp': 740, 'G': 784, 'Gsharp': 831}

# 设置生成G调的输入参数
input_tone = 'G'
duration = 2             # seconds
amplitude = 10000        # 振幅
sampling_freq = 44100    # Hz
# 生成音阶
synthesized_tone = Synthetic_tone(tone_freq_map[input_tone], duration, amplitude, sampling_freq)

# 写入输出文件
write('output_tone.wav', sampling_freq, synthesized_tone)

# 音阶及其连续时间
tone_seq = [('D', 0.3), ('G', 0.6), ('C', 0.5), ('A', 0.3), ('Asharp', 0.7)]

# 构建基于和弦序列的音频信号
output = np.array([])
for item in tone_seq:
    input_tone = item[0]
    duration = item[1]
    synthesized_tone = Synthetic_tone(tone_freq_map[input_tone], duration, amplitude, sampling_freq)
    output = np.append(output, synthesized_tone, axis=0)

# 写入输出文件
write('output_tone_seq.wav', sampling_freq, output)

合成音调

{
    "A": 440,
    "Asharp": 466,
    "B": 494,
    "C": 523,
    "Csharp": 554,
    "D": 587,
    "Dsharp": 622,
    "E": 659,
    "F": 698,
    "Fsharp": 740,
    "G": 784,
    "Gsharp": 831
}

tone_freq_map

音频播放

wav文件的播放用到的是pyaudio库

p = pyaudio.PyAudio()

stream = p.open(format = p.get_format_from_width(sampwidth),channels,rate,output = True)

stream.write(data)　　# 播放data数据

以下列出pyaudio对象的open()方法的主要参数：

rate - 取样频率

channels - 声道数

format - 取样值的量化格式 (paFloat32, paInt32, paInt24, paInt16, paInt8 ...)。在上面的例子中，使用get_format_from_width方法将wf.sampwidth()的返回值2转换为paInt16

input - 输入流标志，如果为True的话则开启输入流

output - 输出流标志，如果为True的话则开启输出流

input_device_index - 输入流所使用的设备的编号，如果不指定的话，则使用系统的缺省设备

output_device_index - 输出流所使用的设备的编号，如果不指定的话，则使用系统的缺省设备

frames_per_buffer - 底层的缓存的块的大小，底层的缓存由N个同样大小的块组成

start - 指定是否立即开启输入输出流，缺省值为True

# -*- coding: utf-8 -*-
import pyaudio
import wave

chunk = 1024

wf = wave.open(r"c:\WINDOWS\Media\Windows Background.wav", 'rb')

p = pyaudio.PyAudio()

# 打开声音输出流
stream = p.open(format = p.get_format_from_width(wf.getsampwidth()),
                channels = wf.getnchannels(),
                rate = wf.getframerate(),
                output = True)

# 写声音输出流到声卡进行播放
while True:
    data = wf.readframes(chunk)
    if data == "":
        break
    stream.write(data)

stream.stop_stream()
stream.close()
p.terminate()   # 关闭PyAudio

播放WAV音频

录音

以SAMPLING_RATE为采样频率，每次读入一块有NUM_SAMPLES个采样的数据块，当读入的采样数据中有COUNT_NUM个值大于LEVEL的取样的时候，将数据保存进WAV文件，一旦开始保存数据，所保存的数据长度最短为SAVE_LENGTH个块。WAV文件以保存时的时刻作为文件名。

从声卡读入的数据和从WAV文件读入的类似，都是二进制数据，由于我们用paInt16格式(16bit的short类型)保存采样值，因此将它自己转换为dtype为np.short的数组。

录音

'''
以SAMPLING_RATE为采样频率，
每次读入一块有NUM_SAMPLES个采样点的数据块，
当读入的采样数据中有COUNT_NUM个值大于LEVEL的取样的时候，
将采样数据保存进WAV文件，
一旦开始保存数据，所保存的数据长度最短为SAVE_LENGTH个数据块。

从声卡读入的数据和从WAV文件读入的类似，都是二进制数据，
由于我们用paInt16格式(16bit的short类型)保存采样值，
因此将它自己转换为dtype为np.short的数组。
'''


from pyaudio import PyAudio, paInt16
import numpy as np
import wave

# 将data中的数据保存到名为filename的WAV文件中
def save_wave_file(filename, data):
    wf = wave.open(filename, 'wb')
    wf.setnchannels(1)          # 单通道
    wf.setsampwidth(2)          # 量化位数
    wf.setframerate(SAMPLING_RATE)  # 设置采样频率
    wf.writeframes(b"".join(data))  # 写入语音帧
    wf.close()


NUM_SAMPLES = 2000      # pyAudio内部缓存块的大小
SAMPLING_RATE = 8000    # 取样频率
LEVEL = 1500           # 声音保存的阈值，小于这个阈值不录
COUNT_NUM = 20 # 缓存快类如果有20个大于阈值的取样则记录声音
SAVE_LENGTH = 8 # 声音记录的最小长度：SAVE_LENGTH * NUM_SAMPLES 个取样

# 开启声音输入
pa = PyAudio()
stream = pa.open(format=paInt16, channels=1, rate=SAMPLING_RATE, input=True,
                frames_per_buffer=NUM_SAMPLES)

save_count = 0  # 用来计数
save_buffer = []    #

while True:
    # 读入NUM_SAMPLES个取样
    string_audio_data = stream.read(NUM_SAMPLES)
    # 将读入的数据转换为数组
    audio_data = np.fromstring(string_audio_data, dtype=np.short)
    # 计算大于LEVEL的取样的个数
    large_sample_count = np.sum( audio_data > LEVEL )
    print(np.max(audio_data))
    # 如果个数大于COUNT_NUM，则至少保存SAVE_LENGTH个块
    if large_sample_count > COUNT_NUM:
        save_count = SAVE_LENGTH
    else:
        save_count -= 1

    if save_count < 0:
        save_count = 0

    if save_count > 0:
        # 将要保存的数据存放到save_buffer中
        save_buffer.append( string_audio_data )
    else:
        # 将save_buffer中的数据写入WAV文件，WAV文件的文件名是保存的时刻
        if len(save_buffer) > 0:
            filename = "recorde" + ".wav"
            save_wave_file(filename, save_buffer)
            print(filename, "saved")
            break

View Code

语音信号处理

语音信号的产生和感知

　　我们要对语音进行分析，首先要提取能够表示该语音的特征参数，有了特征参数才可能利用这些参数进行有效的处理，在对语音信号处理的过程中，语音信号的质量不仅取决于处理方法，同时取决于时候选对了合适的特征参数。

　　语音信号是一个非平稳的时变信号，但语音信号是由声门的激励脉冲通过声道形成的，而声道(人的口腔、鼻腔)的肌肉运动是缓慢的，所以“短时间”(10~30ms)内可以认为语音信号是平稳时不变的。由此构成了语音信号的“短时分析技术”。

　　在短时分析中，将语音信号分为一段一段的语音帧，每一帧一般取10~30ms，我们的研究就建立在每一帧的语音特征分析上。

　　提取的不同的语音特征参数对应着不同的语音信号分析方法：时域分析、频域分析、倒谱域分析...由于语音信号最重要的感知特性反映在功率谱上，而相位变化只起到很小的作用，所有语音频域分析更加重要。

信号加窗

1、矩形窗

$$w(n)=\left\{\begin{matrix} 1&&0\leq n\leq L-1\\ 0&&其他 \end{matrix}\right.$$

2、汉明窗(Hamming)

$$w(n)=\left\{\begin{matrix} \frac{1}{2}(1-cos(\frac{2\pi n}{L-1}))&&0\leq n\leq L-1\\ 0&&其他 \end{matrix}\right.$$

3、海宁窗(Hanning)

$$w(n)=\left\{\begin{matrix} 0.54-0.46cos(\frac{2\pi n}{L-1})&&0\leq n\leq L-1\\ 0&&其他 \end{matrix}\right.$$

通常对信号截断、分帧需要加窗，因为截断都有频域能量泄露，而窗函数可以减少截断带来的影响。

窗函数在scipy.signal信号处理工具箱中，如hanning窗：

import matplotlib.pyplot as plt
import scipy.signal as signal
plt.figure(figsize=(6,2))
plt.plot(signal.hanning(512))
plt.show()

signal.hanning(winl)

信号分帧

在分帧中，相邻两帧之间会有一部分重叠，帧长(wlen) = 重叠(overlap)+帧移(inc)，如果相邻两帧之间不重叠，那么由于窗函数的形状，截取到的语音帧边缘会出现损失，所以要设置重叠部分。inc为帧移，表示后一帧第前一帧的偏移量，fs表示采样率，fn表示一段语音信号的分帧数。

$$\frac{N-overlap}{inc}=\frac{N-wlen+inc}{inc}$$

信号分帧的理论依据，其中x是语音信号，w是窗函数：

加窗截断类似采样，为了保证相邻帧不至于差别过大，通常帧与帧之间有帧移，其实就是插值平滑的作用。

给出示意图：

这里主要用到numpy工具包，涉及的指令有：

np.repeat：主要是直接重复

np.tile：主要是周期性重复

对比一下：

向量情况：

矩阵情况：

对于数据：

repeat操作：

tile操作：

对应结果：

对应分帧的代码实现：

这是没有加窗的示例：

import numpy as np
import wave
import os
#import math
 
def enframe(signal, nw, inc):
    '''将音频信号转化为帧。
    参数含义：
    signal:原始音频型号
    nw:每一帧的长度(这里指采样点的长度，即采样频率乘以时间间隔)
    inc:相邻帧的间隔（同上定义）
    '''
    signal_length=len(signal) #信号总长度
    if signal_length<=nw: #若信号长度小于一个帧的长度，则帧数定义为1
        nf=1
    else: #否则，计算帧的总长度
        nf=int(np.ceil((1.0*signal_length-nw+inc)/inc))
    pad_length=int((nf-1)*inc+nw) #所有帧加起来总的铺平后的长度
    zeros=np.zeros((pad_length-signal_length,)) #不够的长度使用0填补，类似于FFT中的扩充数组操作
    pad_signal=np.concatenate((signal,zeros)) #填补后的信号记为pad_signal
    indices=np.tile(np.arange(0,nw),(nf,1))+np.tile(np.arange(0,nf*inc,inc),(nw,1)).T  #相当于对所有帧的时间点进行抽取，得到nf*nw长度的矩阵
    indices=np.array(indices,dtype=np.int32) #将indices转化为矩阵
    frames=pad_signal[indices] #得到帧信号
#    win=np.tile(winfunc(nw),(nf,1))  #window窗函数，这里默认取1
#    return frames*win   #返回帧信号矩阵
    return frames
def wavread(filename):
    f = wave.open(filename,'rb')
    params = f.getparams()
    nchannels, sampwidth, framerate, nframes = params[:4]
    strData = f.readframes(nframes)#读取音频，字符串格式
    waveData = np.fromstring(strData,dtype=np.int16)#将字符串转化为int
    f.close()
    waveData = waveData*1.0/(max(abs(waveData)))#wave幅值归一化
    waveData = np.reshape(waveData,[nframes,nchannels]).T
    return waveData
 
filepath = "./data/" #添加路径
dirname= os.listdir(filepath) #得到文件夹下的所有文件名称 
filename = filepath+dirname[0]
data = wavread(filename)
nw = 512
inc = 128
Frame = enframe(data[0], nw, inc)

没有加窗的语音分帧

def enframe(signal, nw, inc, winfunc):
    '''将音频信号转化为帧。
    参数含义：
    signal:原始音频型号
    nw:每一帧的长度(这里指采样点的长度，即采样频率乘以时间间隔)
    inc:相邻帧的间隔（同上定义）
    '''
    signal_length=len(signal) #信号总长度
    if signal_length<=nw: #若信号长度小于一个帧的长度，则帧数定义为1
        nf=1
    else: #否则，计算帧的总长度
        nf=int(np.ceil((1.0*signal_length-nw+inc)/inc))
    pad_length=int((nf-1)*inc+nw) #所有帧加起来总的铺平后的长度
    zeros=np.zeros((pad_length-signal_length,)) #不够的长度使用0填补，类似于FFT中的扩充数组操作
    pad_signal=np.concatenate((signal,zeros)) #填补后的信号记为pad_signal
    indices=np.tile(np.arange(0,nw),(nf,1))+np.tile(np.arange(0,nf*inc,inc),(nw,1)).T  #相当于对所有帧的时间点进行抽取，得到nf*nw长度的矩阵
    indices=np.array(indices,dtype=np.int32) #将indices转化为矩阵
    frames=pad_signal[indices] #得到帧信号
    win=np.tile(winfunc,(nf,1))  #window窗函数，这里默认取1
    return frames*win   #返回帧信号矩阵

加窗的语音分帧

语音信号的短时时域处理

短时能量和短时平均幅度

　　短时能量和短时平均幅度的主要用途：

区分浊音和清音段，因为浊音的短时能量$E(i)$比清音大很多；
区分声母和韵母的分界和无话段和有话段的分界

短时平均过零率

　　对于连续语音信号，过零率意味着时域波形通过时间轴，对于离散信号，如果相邻的取样值改变符号，则称为过零。

作用：

发浊音时由于声门波引起谱的高频跌落，所以语音信号能量约集中在3kHz以下

发清音时多数能量集中在较高的频率上，

因为高频意味着高的短时平均过零率，低频意味着低的短时平均过零率，所以浊音时具有较低的过零率，而清音时具有较高的过零率。

利用短时平均过零率可以从背景噪声中找出语音信号，

2、可以用于判断寂静无话段与有话段的起点和终止位置。

3、在背景噪声较小的时候，用平均能量识别较为有效，在背景噪声较大的时候，用短时平均过零率识别较为有效。

短时自相关函数

短时自相关函数主要应用于端点检测和基音的提取，在韵母基因频率整数倍处将出现峰值特性，通常根据除R(0)外的第一峰值来估计基音，而在声母的短时自相关函数中看不到明显的峰值。

短时平均幅度差函数

用于检测基音周期，而且在计算上比短时自相关函数更加简单。

提取频域特征

将信号转换为频域之后，还需要将其转换为有用的形式，梅尔频率倒谱系数(MFCC)，MFCC首先计算信号的功率谱，然后用滤波器组和离散余弦变换的组合来提取特征。

import numpy as np
import matplotlib.pyplot as plt
from scipy.io import wavfile
from python_speech_features import mfcc, logfbank

# 读取输入音频文件
sampling_freq, audio = wavfile.read("input_freq.wav")

# 提取MFCC和滤波器组特征
mfcc_features = mfcc(audio, sampling_freq)
filterbank_features = logfbank(audio, sampling_freq)

print('\nMFCC:\n窗口数 =', mfcc_features.shape[0])
print('每个特征的长度 =', mfcc_features.shape[1])
print('\nFilter bank:\n窗口数 =', filterbank_features.shape[0])
print('每个特征的长度 =', filterbank_features.shape[1])

# 画出特征图，将MFCC可视化。转置矩阵，使得时域是水平的
mfcc_features = mfcc_features.T
plt.matshow(mfcc_features)
plt.title('MFCC')
# 将滤波器组特征可视化。转置矩阵，使得时域是水平的
filterbank_features = filterbank_features.T
plt.matshow(filterbank_features)
plt.title('Filter bank')

plt.show()

提取MFCC特征

语谱图

　　语谱图综合了时域和频域的特点，明显的显示出来了语音频率随时间的变化情况，语谱图的横轴为时间，纵轴为频率任意给定频率成分在给定时刻的强弱用颜色深浅表示。颜色深表示频谱值大，颜色浅表示频谱值小，语谱图上不同的黑白程度形成不同的纹路，称为声纹，不用讲话者的声纹是不一样的，可以用做声纹识别。

其实得到了分帧信号，频域变换取幅值，就可以得到语谱图，如果仅仅是观察，matplotlib.pyplot有specgram指令：

import wave
import matplotlib.pyplot as plt
import numpy as np

f = wave.open(r"C:\Windows\media\Windows Background.wav", "rb")
params = f.getparams()
nchannels, sampwidth, framerate, nframes = params[:4]
strData = f.readframes(nframes)#读取音频，字符串格式
waveData = np.fromstring(strData,dtype=np.int16)#将字符串转化为int
waveData = waveData*1.0/(max(abs(waveData)))#wave幅值归一化
waveData = np.reshape(waveData,[nframes,nchannels]).T
f.close()

plt.specgram(waveData[0],Fs = framerate, scale_by_freq = True, sides = 'default')
plt.ylabel('Frequency(Hz)')
plt.xlabel('Time(s)')
plt.show()

语谱图

语音识别

import os
import argparse

import numpy as np
from scipy.io import wavfile
from hmmlearn import hmm
from python_speech_features import mfcc

# 解析命令行的输入参数
def build_arg_parser():
    parser = argparse.ArgumentParser(description='Trains the HMM classifier')
    parser.add_argument("--input-folder", dest="input_folder", required=True,
            help="Input folder containing the audio files in subfolders")
    return parser

# 创建类，处理HMM相关过程
class HMMTrainer(object):
    '''用到高斯隐马尔科夫模型
    n_components：定义了隐藏状态的个数
    cov_type：定义了转移矩阵的协方差类型
    n_iter:定义了训练的迭代次数
    '''
    def __init__(self, model_name='GaussianHMM', n_components=4, cov_type='diag', n_iter=1000):
        self.model_name = model_name
        self.n_components = n_components
        self.cov_type = cov_type
        self.n_iter = n_iter
        self.models = []

        if self.model_name == 'GaussianHMM':
            self.model = hmm.GaussianHMM(n_components=self.n_components,
                    covariance_type=self.cov_type, n_iter=self.n_iter)
        else:
            raise TypeError('Invalid model type')

    # X是二维数组，其中每一行有13个数
    def train(self, X):
        np.seterr(all='ignore')
        self.models.append(self.model.fit(X))

    # 对输入数据运行模型
    def get_score(self, input_data):
        return self.model.score(input_data)

if __name__=='__main__':
    # 解析输入参数
    args = build_arg_parser().parse_args()
    input_folder = args.input_folder

    hmm_models = [] # 初始化隐马尔科夫模型的变量

    # 解析输入路径
    for dirname in os.listdir(input_folder):
        # 获取子文件夹名称
        subfolder = os.path.join(input_folder, dirname)
        if not os.path.isdir(subfolder):
            continue
        # 子文件夹名称即为该类的标记
        # 提取特征
        label = subfolder[subfolder.rfind('/') + 1:]

        # 初始化变量
        X = np.array([])
        y_words = []

        # 迭代所有音频文件(分别保留一个进行测试)
        for filename in [x for x in os.listdir(subfolder) if x.endswith('.wav')][:-1]:
            # 读取每个音频文件
            filepath = os.path.join(subfolder, filename)
            sampling_freq, audio = wavfile.read(filepath)

            # 提取MFCC特征
            mfcc_features = mfcc(audio, sampling_freq)

            # 将MFCC特征添加到X变量
            if len(X) == 0:
                X = mfcc_features
            else:
                X = np.append(X, mfcc_features, axis=0)

            # 添加标记
            y_words.append(label)

        print('X.shape =', X.shape)
        # 训练并且保存HMM模型
        hmm_trainer = HMMTrainer()
        hmm_trainer.train(X)
        hmm_models.append((hmm_trainer, label))
        hmm_trainer = None

    # 测试文件
    input_files = [
            'data/pineapple/pineapple15.wav',
            'data/orange/orange15.wav',
            'data/apple/apple15.wav',
            'data/kiwi/kiwi15.wav'
            ]

    # 为输入数据分类
    for input_file in input_files:
        # 读取每个音频文件
        sampling_freq, audio = wavfile.read(input_file)

        # 提取MFCC特征
        mfcc_features = mfcc(audio, sampling_freq)

        # 定义变量
        max_score = None
        output_label = None

        # 迭代HMM模型并选取得分最高的模型
        for item in hmm_models:
            hmm_model, label = item
            score = hmm_model.get_score(mfcc_features)
            if score > max_score:
                max_score = score
                output_label = label

        # 打印结果
        print("\nTrue:", input_file[input_file.find('/')+1:input_file.rfind('/')])
        print("Predicted:", output_label)

View Code

最后一个代码没有跑通，有很多原因，skearn-learn的库中minture库改动了。我看考下面的连接做了一些修改，但是还是跑不起来，应该就差一点点，后续我会把代码再调试。语音数据集在这里。

参考文献：

网址：用python做科学计算 http://old.sebug.net/paper/books/scipydoc/index.html#

python标准库wave模块https://docs.python.org/3.6/library/wave.html

《python机器学习经典案例》美Prateek Joshi著

傅里叶变换的介绍：http://www.thefouriertransform.com/

各种音阶及其对应的频率 http://pages.mtu.edu/~suits/notefreqs.html

这篇博客的代码https://github.com/LXP-Neve/Speech-signal-processing

你可能感兴趣的:(语音信号处理)

Python librosa模块介绍骚火棍人生苦短我用Python librosa
librosa语音信号处理模块参考链接：https://www.cnblogs.com/LXP-Never/p/11561355.html
嵌入式人工智能实验方向周南音频科技教育学院(AI湖湘学派) AI深度学习理论与实践研究音频算法设计研究开发音频算法人工智能神经网络
加我微信hezkz17进嵌入式人工智能研究开发交流答疑群。1可在stm32，esp32，NXP，arduino，树莓派上部署人工智能模型，图像理解，图像分类。2采用BESSOC部署深度学习语音信号处理算法，降噪算法3根据公式用C语言实现卷积CNN，或者采用开源的嵌入式机器学习，嵌入式深度学习，嵌入式神经网络开源sdk，移植，部署到MCU或者SOC，
操作系统复习总结——文件管理是dream 操作系统操作系统文件管理
博客主页：是dream系列专栏：深度学习环境搭建、环境配置问题解决、自然语言处理、语音信号处理、项目开发每日语录：但愿每次回忆，对生活都不感到负疚。感谢大家点赞收藏⭐指正✍️目录一、文件管理概述1、文件基本概念（1）定义（2）基本调度单位（3）文件结构2、文件控制块与索引节点（1）文件属性（2）文件控制块(FCB)（3）索引结点3、文件的操作（操作系统向上提供哪些功能？）4、文件保护（1）加以控制
频谱细化-----CZT算法介绍及MATLAB实现 YHCANDOU 频谱细化 matlab 算法开发语言
CZT变换采用FFT算法可以很快算出全部N点DFT值，即Z变换X(z)X\left(z\right)X(z)在Z平面单位圆上的全部等间隔取样值。实际中，也许不需要计算整个单位圆上Z变换的取样，如对于窄带信号，只需要对信号所在的一段频带进行分析，这时希望频谱的采样集中在这一频带内，以获得较高的分辨率，而频带以外的部分可不考虑，或者对其他围线上的Z变换取样感兴趣，例如语音信号处理中，需要知道Z变换的极
MATLAB环境下一种音频降噪优化方法—基于时频正则化重叠群收缩哥廷根数学学派信号处理小波分析图像处理语音识别人工智能
语音增强是语音信号处理领域中的一个重大分支，这一分支已经得到国内外学者的广泛研究。当今时代，随着近六十年来的不断发展，己经产生了许多有效的语音增强算法。根据语音增强过程中是否利用语音和噪声的先验信息，语音增强算法一般被归类为两类，一类是无先验信息的语音增强算法，另外一类则是具有先验信息的语音增强算法。在第一类无先验信息语音增强算法中，比较常用的语音增强算法有谱减算法、基于统计模型的算法、基于信号子
深度学习环境搭建——利用anaconda+pytorch搭建自己的深度学习环境（以YOLOv5环境搭建为例）2023.9.26最新是dream 深度学习环境搭建深度学习 pytorch YOLO
博客主页：是dream系列专栏：深度学习环境搭建、环境配置问题解决、自然语言处理、语音信号处理、项目开发每日语录：要有最朴素的生活和最遥远的梦想，即使明天天寒地冻，山高水远，路远马亡。感谢大家点赞收藏⭐指正✍️前言相信大家在搭建自己的深度学习环境时总会遇到各种问题，特别是小白。记得第一次配置自己的深度学习环境时，什么anaconda、pytorch，我都不知道这些东西是干嘛的，就知道一个YOLO，
音视频开发成长之路与音视频知识总结徐福记456 音视频开发音视频开发基础音视频进阶成长音视频工作方向音视频开源库流媒体协议与音视频书籍
音视频涉及语音信号处理、数字图像处理、信息论、封装格式、编解码、流媒体协议、网络传输、渲染、算法等。在现实生活中，音视频扮演着越来越重要的角色，比如视频会议、直播、短视频、播放器、语音聊天等。因此，从事音视频是一件比较有意义的事情，机遇与挑战并存。本文将从几个维度进行介绍：音视频开发基础、音视频进阶成长、音视频工作方向、音视频开源库、流媒体协议与书籍。目录一、音视频开发基础1、音频基础2、通用基础
音频筑基：巴克谱和梅尔谱辨析来知晓语音处理音视频
音频筑基：巴克谱和梅尔谱辨析是什么深入了解相关参考在音频信号处理中，巴克谱和梅尔谱是我们经常遇到的概念，也是语音处理中常用到的频域特征，这里谈谈自己对它们的理解。是什么巴克谱又称BarkSpectrum，梅尔谱又称MelSpectrum，其中异同梳理如下：相同点：Bark谱和Mel谱都是将线性频谱映射到非线性谱上的表征，根据不同频带的感知能力来划分，但它们的核心思想不同。这两种谱都是语音信号处理中
基于sy3130光感入耳检测功能成功实现周南音频科技教育学院(AI湖湘学派) 音频算法设计研究开发算法
基于sy3130光感入耳检测功能成功实现是否需要申请加入数字音频系统研究开发交流答疑群(课题组)？可加我微信hezkz17,本群提供音频技术答疑服务，+群赠送语音信号处理降噪算法，蓝牙耳机音频，DSP音频项目核心开发资料,1芯片介绍2电路实现3寄存器列表
低信噪比环境下的语音端点检测 jUicE_g2R 经验模态分解EMD 语音识别语言信号处理低信噪比 matlab
端点检测技术是语音信号处理的关键技术之一为提高低信噪比环境下端点检测的准确率和稳健性，提出了一种非平稳噪声抑制和调制域谱减结合功率归一化倒谱距离的端点检测算法1端点检测1-1定义定义：在存在背景噪声的情况下检测出语音的起始点和结束点（这里的重点是噪声环境下语音信号的处理）1-2应用需求应用于语音信号处理：语音增强、语音识别、编码和传输需求是：人们希望在远场或者嘈杂的环境中也能用语音控制智能设备，因
【Matlab语音加密】语音信号加密解密（带面板）【含GUI源码 181期】 Matlab佛怒唐莲 Matlab完整代码 Matlab语音处理 matlab 语音识别开发语言
一、代码运行视频（哔哩哔哩）【Matlab语音加密】语音信号加密解密（带面板）【含GUI源码181期】二、matlab版本及参考文献1matlab版本2014a2参考文献[1]韩纪庆,张磊,郑铁然.语音信号处理（第3版）[M].清华大学出版社，2019.[2]柳若边.深度学习:语音识别技术实践[M].清华大学出版社，2019.[3]李波,张晓力,石旭.基于Matlab的语音信号加密处理[J].信息
【Matlab语音处理】汉宁窗FIR陷波滤波器语音信号加噪去噪【含GUI源码 1711期】 Matlab佛怒唐莲 Matlab完整代码 Matlab语音处理 matlab 语音识别开发语言
一、代码运行视频（哔哩哔哩）【Matlab语音处理】汉宁窗FIR陷波滤波器语音信号加噪去噪【含GUI源码1711期】二、matlab版本及参考文献1matlab版本2014a2参考文献[1]韩纪庆,张磊,郑铁然.语音信号处理（第3版）[M].清华大学出版社，2019.[2]柳若边.深度学习:语音识别技术实践[M].清华大学出版社，2019.[3]尹学爱,马国利,冯伟伟.基于MATLAB的声音信号频
语音信号处理共振峰 H_uer 语音信号处理基础
窄带语谱图和宽带语谱图首先，什么是语谱图。最通常的，就是语音短时傅里叶变换的幅度画出的2D图。之所以是通常的，是因为可以不是傅里叶变换。“窄带”，顾名思义，带宽小，则时宽大，则短时窗长，窄带语谱图就是长窗条件下画出的语谱图。“宽带”，正好相反。至于“横竖条纹”，窄带语谱图的带宽窄，那么在频率上就“分得开”，即能将语音各次谐波“看得很清楚”，即表现为“横线”。“横”就体现出了频率分辨率高。分辨率可以
语音信号处理-基本概念（二）：音频通道数、采样频率、采样位数、采样个数(样本数)、一帧音频的大小、每秒播放的音频字节大小、一帧的播放时长、音频重采样 u013250861 Audio 音视频语音识别人工智能
对于下面data和linesize的解释(参考下面3.4中的av_samples_alloc_array_and_samples函数说明)：data是通道的意思，例如双通道，data[0]代表左声道，data[1]代表右声道。linesize为采样个数的最大大小字节空间。例如aac，64位，双通道，则对于交错模式最大为：linesize=2x1024x8=16384。此时也是一个音频帧的大小。对于
用Matlab进行语音信号处理后端架构小白 matlab 信号处理语音识别
用Matlab进行语音信号处理语音信号处理是数字信号处理中的一个重要分支，主要涉及语音信号的采集、压缩、去噪、降噪等处理。Matlab是一个强大的数学计算工具，也是语音信号处理中常用的工具之一。本文将介绍如何使用Matlab对语音信号进行采集、去噪和压缩处理。语音信号采集语音信号采集需要使用麦克风或其他音频输入设备。在Matlab中，可以使用audiorecorder函数进行音频采集。下面的代码演
语音信号处理——噪声抑制 DEDSEC_Roger 信号处理音频
简介噪声抑制技术用于消除背景噪声，改善语音信号的信噪比和可懂度，让人和机器听的更清楚常见的噪声种类：人声噪声、街道噪声、汽车噪声噪声抑制方法的分类：按照输入通道数分：单通道降噪、多通道降噪按照噪声统计特性分：平稳噪声抑制、非平稳噪声抑制按照降噪方法分：被动降噪、主动降噪下面介绍的方法用于单通道的、被动的、平稳噪声抑制MinimaControlledRecursiveAveraging（MCRA）传
语音信号处理：librosa 智慧医疗探索者 AI数字人技术音视频处理信号处理语音识别 librosa
1librosa介绍Librosa是一个用于音频和音乐分析的Python库，专为音乐信息检索（MusicInformationRetrieval，MIR）社区设计。自从2015年首次发布以来，Librosa已成为音频分析和处理领域中最受欢迎的工具之一。它提供了一套清晰、高效的函数来处理音频信号，并提取音乐和音频中的信息。Librosa在音乐和音频分析方面提供了强大而灵活的工具，适用于从基础研究到实
如何理解短时傅里叶变换(Short Time Fourier Transform, STFT) 林深迷了鹿语音信号处理语音识别机器学习人工智能
因为最近一直在学习语音信号的处理，看了HaythamFayek的一篇博客后关于什么是傅里叶变换感到很迷惑，所以就专门写下一篇文章，整理一下我从网页上搜集的内容。短时傅里叶变换(ShortTimeFourierTransform,STFT)是一个用于语音信号处理的通用工具.它定义了一个非常有用的时间和频率分布类,其指定了任意信号随时间和频率变化的复数幅度.实际上,计算短时傅里叶变换的过程是把一个较长
HMM（Hidden Markov Model）详解——语音信号处理学习（三）（选修一） LotusCL 声音信号处理学习信号处理学习语音识别人工智能
参考文献：SpeechRecognition(Option)-HMM哔哩哔哩bilibili2020年3月新番李宏毅人类语言处理独家笔记HMM-6-知乎(zhihu.com)隐马尔可夫（HMM)的解码问题+维特比算法-知乎(zhihu.com)本次省略所有引用论文目录一、介绍二、建模单位StatesState由来转移概率与发射概率三、Alignment四、深度学习下的HMM方法一：Tandem方法
RNN-T Training，RNN-T模型训练详解——语音信号处理学习（三）（选修三） LotusCL 声音信号处理学习 rnn 信号处理学习人工智能语音识别
参考文献：SpeechRecognition(option)-RNN-TTraining哔哩哔哩bilibili2020年3月新番李宏毅人类语言处理独家笔记AlignmentTrain-8-知乎(zhihu.com)本次省略所有引用论文目录一、如何将Alignment概率加和对齐方式概率如何计算概率加和计算原理概率加和计算方式二、RNN-T的模型训练模型训练思路偏微分计算-1-展开变形偏微分计算-
Alignment of HMM, CTC and RNN-T，对齐方式详解——语音信号处理学习（三）（选修二） LotusCL 声音信号处理学习 rnn 信号处理学习人工智能语音识别
参考文献：SpeechRecognition(option)-AlignmentofHMM,CTCandRNN-T哔哩哔哩bilibili2020年3月新番李宏毅人类语言处理独家笔记Alignment-7-知乎(zhihu.com)本次省略所有引用论文目录一、E2E模型和CTC、RNN-T的区别E2E模型的思路CTC、RNN-T模型的思路二、待解决的问题三、对齐方式介绍四、穷举方式穷举HMM穷举C
数字图像处理（1）：灰度直方图、直方图均衡化处理（入门必看）是dream 数字图像处理图像处理
博客主页：真的睡不醒系列专栏：深度学习环境搭建、环境配置问题解决、自然语言处理、语音信号处理、项目开发每日语录：闲看花开，静待花落，冷暖自知，干净如始。感谢大家点赞收藏⭐指正✍️前言：本文详细介绍了如何使用python对图像进行基本的操作，包括对图像的读取、显示、修改和保存，通过Matplotlib对图像进行绘制、显示和保存，最后详细讲解了如何绘制直方图，并对直方图进行均衡化处理。欢迎大家参考和学
快速调用百度AI开放平台的API，以OCR通用文字识别为例（封装函数进行连续调用）是dream 项目开发百度人工智能百度云 python
博客主页：真的睡不醒系列专栏：深度学习环境搭建、环境配置问题解决、自然语言处理、语音信号处理、项目开发每日语录：眼里有不朽的光芒心里有永恒的希望。感谢大家点赞收藏⭐指正✍️前言百度开放平台允许开发者访问和利用百度的各种服务和功能，包括语音识别、人脸识别、文字识别、自然语言处理等等。这些API能够满足我们绝大部分需求，来供我们学习和使用。本文就OCR文字识别为例，详细介绍新手小白如何调用百度开放平台
NLP自然语言处理——关键词提取之 TF-IDF 算法（五分钟带你深刻领悟TF-IDF算法的精髓）是dream 自然语言处理 tf-idf 人工智能
博客主页：真的睡不醒系列专栏：深度学习环境搭建、环境配置问题解决、自然语言处理、语音信号处理、项目开发每日语录：要有最朴素的生活和最遥远的梦想，即使明天天寒地冻，山高水远，路远马亡。感谢大家点赞收藏⭐指证✍️前言关键词提取是将文本中的关键信息、核心概念或重要主题抽取出来的过程。这些关键词可以帮助人们快速理解文本的主题，构建文本摘要，提高搜索引擎的效率，甚至用于文本分类和信息检索等应用领域。因此，关
NLP自然语言处理——关键词提取之 TextRank 算法（五分钟带你深刻领悟TextRank算法的精髓）保姆级教程是dream 自然语言处理人工智能 nlp
博客主页：真的睡不醒系列专栏：深度学习环境搭建、环境配置问题解决、自然语言处理、语音信号处理、项目开发每日语录：你要做冲出的黑马而不是坠落的星星。感谢大家点赞收藏⭐指正✍️前言关键词提取是将文本中的关键信息、核心概念或重要主题抽取出来的过程。这些关键词可以帮助人们快速理解文本的主题，构建文本摘要，提高搜索引擎的效率，甚至用于文本分类和信息检索等应用领域。因此，关键词提取在文本分析和自然语言处理中具
操作系统之经典同步问题（司机售票员、文件打印、多个生产者消费者、放水果吃水果、读者优先、写者优先、哲学家死锁问题）是dream 操作系统算法
博客主页：真的睡不醒系列专栏：深度学习环境搭建、环境配置问题解决、自然语言处理、语音信号处理、项目开发每日语录：闲看花开，静待花落，冷暖自知，干净如始。感谢大家点赞收藏⭐指正✍️目录一、司机与售票员进程同步问题二、PA、PB、PC合作解决文件打印问题三、多个生产者和多个消费者问题四、放水果吃水果问题五、读者写者问题六、哲学家吃饭问题一、司机与售票员进程同步问题问题描述：在公共汽车上，司机和售票员的
如何快速搭建一个大模型？简单的UI实现是dream 项目开发星火大模型对话框UI设计
博客主页：真的睡不醒系列专栏：深度学习环境搭建、环境配置问题解决、自然语言处理、语音信号处理、项目开发每日语录：相信自己，一路风景一路歌，人生之美，正在于此。感谢大家点赞收藏⭐指正✍️前言：本文章纯属是自己无聊，调用了星火认知大模型的接口，并封装成一个脚本。但测试感觉星火认知大模型也不算太智能，但奈何人家提供了免费的token，当然，也可以根据自己的需要，去调用国内的一些大模型。目录一、申请免费的
A2B master配置32通道传输数据超带宽了,如何解决？周南音频科技教育学院(AI湖湘学派) 车载DSP音频系统研究开发网络服务器运维
是否需要申请加入数字音频系统研究开发交流答疑群(课题组)？可加我微信hezkz17,本群提供音频技术答疑服务，+群赠送语音信号处理降噪算法，蓝牙耳机音频，DSP音频项目核心开发资料,A2Bmaster配置32通道，超带宽了,如何解决？如果A2BMaster配置了32个通道，并且超过了带宽限制，你可以尝试以下几种解决方案：减少通道数量：将通道数量从32个减少到适当的数量，以确保不超过系统的带宽限制。
基于DSP/SOC音乐灯效系统设计方法周南音频科技教育学院(AI湖湘学派) 音频算法设计研究开发信号处理音频人工智能算法
音乐灯效系统设计方法是否需要申请加入数字音频系统研究开发交流答疑群(课题组)？可加我微信hezkz17,本群提供音频技术答疑服务，+群赠送语音信号处理降噪算法，蓝牙耳机音频，DSP音频项目核心开发资料,三种方法：（1）MIC采集音乐信号变化，（2）直接获取SPK模拟音频信号处理
基于低通滤波器的语音信号加噪与去噪（附带Matlab源码）代码创造之旅 matlab 语音识别人工智能 Matlab
基于低通滤波器的语音信号加噪与去噪（附带Matlab源码）在语音信号处理中，噪声是一个常见的问题，它会降低语音信号的质量和可理解性。为了提高语音信号的清晰度和减少噪声的影响，可以使用低通滤波器进行信号的加噪与去噪处理。本文将介绍基于低通滤波器的语音信号加噪与去噪的原理，并提供相应的Matlab源码。加噪处理在语音信号加噪处理中，我们可以使用低通滤波器来滤除高频噪声成分，从而提高信号的质量。以下是基
ASM系列五利用TreeApi 解析生成Class lijingyao8206 ASM 字节码动态生成 ClassNode TreeAPI
前面CoreApi的介绍部分基本涵盖了ASMCore包下面的主要API及功能，其中还有一部分关于MetaData的解析和生成就不再赘述。这篇开始介绍ASM另一部分主要的Api。TreeApi。这一部分源码是关联的asm-tree-5.0.4的版本。在介绍前，先要知道一点， Tree工程的接口基本可以完
链表树——复合数据结构应用实例 bardo 数据结构树型结构表结构设计链表菜单排序
我们清楚：数据库设计中，表结构设计的好坏，直接影响程序的复杂度。所以，本文就无限级分类（目录）树与链表的复合在表设计中的应用进行探讨。当然，什么是树，什么是链表，这里不作介绍。有兴趣可以去看相关的教材。需求简介：经常遇到这样的需求，我们希望能将保存在数据库中的树结构能够按确定的顺序读出来。比如，多级菜单、组织结构、商品分类。更具体的，我们希望某个二级菜单在这一级别中就是第一个。虽然它是最后
为啥要用位运算代替取模呢 chenchao051 位运算哈希汇编
在hash中查找key的时候，经常会发现用&取代%，先看两段代码吧， JDK6中的HashMap中的indexFor方法： /** * Returns index for hash code h. */ static int indexFor(int h, int length) {
最近的情况麦田的设计者生活感悟计划软考想
今天是2015年4月27号整理一下最近的思绪以及要完成的任务 1、最近在驾校科目二练车，每周四天，练三周。其实做什么都要用心，追求合理的途径解决。为
PHP去掉字符串中最后一个字符的方法 IT独行者 PHP 字符串
今天在PHP项目开发中遇到一个需求，去掉字符串中的最后一个字符原字符串1,2,3,4,5,6, 去掉最后一个字符","，最终结果为1,2,3,4,5,6 代码如下： $str = "1,2,3,4,5,6,"; $newstr = substr($str,0,strlen($str)-1); echo $newstr;
hadoop在linux上单机安装过程 _wy_ linux hadoop
1、安装JDK jdk版本最好是1.6以上，可以使用执行命令java -version查看当前JAVA版本号，如果报命令不存在或版本比较低，则需要安装一个高版本的JDK，并在/etc/profile的文件末尾，根据本机JDK实际的安装位置加上以下几行： export JAVA_HOME=/usr/java/jdk1.7.0_25
JAVA进阶----分布式事务的一种简单处理方法无量多系统交互分布式事务
每个方法都是原子操作：提供第三方服务的系统，要同时提供执行方法和对应的回滚方法 A系统调用B,C,D系统完成分布式事务 =========执行开始======== A.aa(); try { B.bb(); } catch(Exception e) { A.rollbackAa(); } try { C.cc(); } catch(Excep
安墨移动广告：移动DSP厚积薄发引领未来广告业发展命脉矮蛋蛋 hadoop 互联网
　　“谁掌握了强大的DSP技术，谁将引领未来的广告行业发展命脉。”2014年，移动广告行业的热点非移动DSP莫属。各个圈子都在纷纷谈论，认为移动DSP是行业突破点，一时间许多移动广告联盟风起云涌，竞相推出专属移动DSP产品。　　到底什么是移动DSP呢? 　　DSP(Demand-SidePlatform)，就是需求方平台，为解决广告主投放的各种需求，真正实现人群定位的精准广
myelipse设置 alafqq IP
在一个项目的完整的生命周期中，其维护费用，往往是其开发费用的数倍。因此项目的可维护性、可复用性是衡量一个项目好坏的关键。而注释则是可维护性中必不可少的一环。注释模板导入步骤安装方法：打开eclipse/myeclipse 选择 window-->Preferences-->JAVA-->Code-->Code
java数组百合不是茶 java数组
java数组的声明创建初始化； java支持C语言数组中的每个数都有唯一的一个下标一维数组的定义声明： int[] a = new int[3];声明数组中有三个数int[3] int[] a 中有三个数，下标从0开始，可以同过for来遍历数组中的数
javascript读取表单数据 bijian1013 JavaScript
利用javascript读取表单数据，可以利用以下三种方法获取： 1、通过表单ID属性：var a = document.getElementByIdx_x_x("id"); 2、通过表单名称属性：var b = document.getElementsByName("name"); 3、直接通过表单名字获取：var c = form.content.
探索JUnit4扩展：使用Theory bijian1013 java JUnit Theory
理论机制（Theory）一.为什么要引用理论机制（Theory）当今软件开发中，测试驱动开发（TDD — Test-driven development）越发流行。为什么 TDD 会如此流行呢？因为它确实拥有很多优点，它允许开发人员通过简单的例子来指定和表明他们代码的行为意图。 TDD 的优点： &nb
[Spring Data Mongo一]Spring Mongo Template操作MongoDB bit1129 template
什么是Spring Data Mongo Spring Data MongoDB项目对访问MongoDB的Java客户端API进行了封装，这种封装类似于Spring封装Hibernate和JDBC而提供的HibernateTemplate和JDBCTemplate，主要能力包括 1. 封装客户端跟MongoDB的链接管理 2. 文档-对象映射，通过注解:@Document(collectio
【Kafka八】Zookeeper上关于Kafka的配置信息 bit1129 zookeeper
问题： 1. Kafka的哪些信息记录在Zookeeper中 2. Consumer Group消费的每个Partition的Offset信息存放在什么位置 3. Topic的每个Partition存放在哪个Broker上的信息存放在哪里 4. Producer跟Zookeeper究竟有没有关系？没有关系！！！ //consumers、config、brokers、cont
java OOM内存异常的四种类型及异常与解决方案 ronin47 java OOM 内存异常
　OOM异常的四种类型：　　　　　一：　StackOverflowError ：通常因为递归函数引起（死递归，递归太深）。-Xss 128k 一般够用。　二：　out Of memory: PermGen Space：通常是动态类大多，比如web 服务器自动更新部署时引起。-Xmx
java-实现链表反转-递归和非递归实现 bylijinnan java
20120422更新：对链表中部分节点进行反转操作，这些节点相隔k个： 0->1->2->3->4->5->6->7->8->9 k=2 8->1->6->3->4->5->2->7->0->9 注意1 3 5 7 9 位置是不变的。解法：将链表拆成两部分： a.0-&
Netty源码学习-DelimiterBasedFrameDecoder bylijinnan java netty
看DelimiterBasedFrameDecoder的API，有举例：接收到的ChannelBuffer如下： +--------------+ | ABC\nDEF\r\n | +--------------+ 经过DelimiterBasedFrameDecoder(Delimiters.lineDelimiter())之后，得到： +-----+----
linux的一些命令 -查看cc攻击-网口ip统计等 hotsunshine linux
Linux判断CC攻击命令详解 2011年12月23日 ⁄ 安全 ⁄ 暂无评论查看所有80端口的连接数 netstat -nat|grep -i '80'|wc -l 对连接的IP按连接数量进行排序 netstat -ntu | awk '{print $5}' | cut -d: -f1 | sort | uniq -c | sort -n 查看TCP连接状态 n
Spring获取SessionFactory ctrain sessionFactory
String sql = "select sysdate from dual"; WebApplicationContext wac = ContextLoader.getCurrentWebApplicationContext(); String[] names = wac.getBeanDefinitionNames(); for(int i=0; i&
Hive几种导出数据方式 daizj hive 数据导出
Hive几种导出数据方式 1.拷贝文件如果数据文件恰好是用户需要的格式，那么只需要拷贝文件或文件夹就可以。 hadoop fs –cp source_path target_path 2.导出到本地文件系统 --不能使用insert into local directory来导出数据，会报错 --只能使用
编程之美 dcj3sjt126com 编程 PHP 重构
我个人的 PHP 编程经验中，递归调用常常与静态变量使用。静态变量的含义可以参考 PHP 手册。希望下面的代码，会更有利于对递归以及静态变量的理解 header("Content-type: text/plain"); function static_function () { static $i = 0; if ($i++ < 1
Android保存用户名和密码 dcj3sjt126com android
转自：http://www.2cto.com/kf/201401/272336.html 我们不管在开发一个项目或者使用别人的项目，都有用户登录功能，为了让用户的体验效果更好，我们通常会做一个功能，叫做保存用户，这样做的目地就是为了让用户下一次再使用该程序不会重新输入用户名和密码，这里我使用3种方式来存储用户名和密码 1、通过普通的txt文本存储 2、通过properties属性文件进行存
Oracle 复习笔记之同义词 eksliang Oracle 同义词 Oracle synonym
转载请出自出处：http://eksliang.iteye.com/blog/2098861 1.什么是同义词同义词是现有模式对象的一个别名。概念性的东西，什么是模式呢？创建一个用户，就相应的创建了一个模式。模式是指数据库对象，是对用户所创建的数据对象的总称。模式对象包括表、视图、索引、同义词、序列、过
Ajax案例 gongmeitao Ajax jsp
数据库采用Sql Server2005 项目名称为:Ajax_Demo 1.com.demo.conn包 package com.demo.conn; import java.sql.Connection;import java.sql.DriverManager;import java.sql.SQLException; //获取数据库连接的类public class DBConnec
ASP.NET中Request.RawUrl、Request.Url的区别 hvt .net Web C#asp.net hovertree
如果访问的地址是：http://h.keleyi.com/guestbook/addmessage.aspx?key=hovertree%3C&n=myslider#zonemenu那么Request.Url.ToString() 的值是：http://h.keleyi.com/guestbook/addmessage.aspx?key=hovertree<&
SVG 教程（七）SVG 实例，SVG 参考手册天梯梦 svg
SVG 实例在线实例下面的例子是把SVG代码直接嵌入到HTML代码中。谷歌Chrome，火狐，Internet Explorer9，和Safari都支持。注意：下面的例子将不会在Opera运行，即使Opera支持SVG - 它也不支持SVG在HTML代码中直接使用。 SVG 实例 SVG基本形状一个圆矩形不透明矩形一个矩形不透明2 一个带圆角矩
事务管理 luyulong java spring 编程事务
事物管理 spring事物的好处为不同的事物API提供了一致的编程模型支持声明式事务管理提供比大多数事务API更简单更易于使用的编程式事务管理API 整合spring的各种数据访问抽象 TransactionDefinition 定义了事务策略 int getIsolationLevel()得到当前事务的隔离级别 READ_COMMITTED
基础数据结构和算法十一：Red-black binary search tree sunwinner Algorithm Red-black
The insertion algorithm for 2-3 trees just described is not difficult to understand; now, we will see that it is also not difficult to implement. We will consider a simple representation known
centos同步时间 stunizhengjia linux 集群同步时间
做了集群，时间的同步就显得非常必要了。以下是查到的如何做时间同步。在CentOS 5不再区分客户端和服务器，只要配置了NTP，它就会提供NTP服务。 1)确认已经ntp程序包： # yum install ntp 2)配置时间源（默认就行，不需要修改） # vi /etc/ntp.conf server pool.ntp.o
ITeye 9月技术图书有奖试读获奖名单公布 ITeye管理员 ITeye
ITeye携手博文视点举办的9月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 9月试读活动回顾：http://webmaster.iteye.com/blog/2118112本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《NFC：Arduino、Andro