rookie_wei

TensorFlow入门教程(18)语音识别(中)

#
#作者：韦访
#博客：https://blog.csdn.net/rookie_wei
#微信：1007895847
#添加微信的备注一下是CSDN的
#欢迎大家一起学习
#

6、提取音频数据的MFCC特征

上一讲花了很大的篇幅来将这个MFCC特征，现在我们就来提取它。Python牛逼之处就是有非常多的工具支持各种操作，很完善，所以这里也不需要我们从头开始写，可以借助python_speech_features工具来实现。

首先来安装python_speech_features工具，执行以下命令行即可，

pip install python_speech_features

我们将语音数据转换为需要计算的13位或26位不同的倒谱特征的MFCC，将它作为模型的输入。经过转换，数据将会被存储在一个频率特征系数（行）和时间（列）的矩阵中。

因为声音不会孤立的产生，并且没有一对一映射到字符，所以，我们可以通过在当前时间索引之前和之后捕获声音的重叠窗口上训练网络，从而捕获共同作用的影响（即通过影响一个声音影响另一个发音）。

这里先插讲一下语音中的“分帧”和“加窗”的概念，

分帧：

如上图所示，傅里叶变换要求输入的信号是平稳的，但是语音信号在宏观上是不平稳的，在微观上却有短时平稳性（10-30ms内可以认为语音信号近似不变）。所以要把语音信号分为一些小段处理，每一个小段称为一帧。

加窗：

取出一帧信号以后，在进行傅里叶变换前，还有先进行“加窗”操作，“加窗”其实就是乘以一个“窗函数”，如下图所示，

加窗的目的是让一帧信号的幅度在两端渐变到0，这样就可以提供变换结果的分辨率。但是加窗也是有代价的，一帧信号的两端被削弱了，弥补的办法就是，邻近的帧直接要有重叠，而不是直接截取，如下图所示，

如上图所示，两帧之间有重叠部分，帧长为25ms，两帧起点位置的时间差叫帧移，一般取10ms或者帧长的一半。

对于RNN，我们使用之前的9个时间片段和后面的9个时间片段，加上当前时间片段，每个加载窗口总共包括19个时间片段。当梅尔倒谱系数为26时，每个时间片段总共就有494个MFCC特征数。下图是以倒谱系数为13为例的加载窗口实例图，

而当当前序列前或后不够9个序列时，比如第2个序列，这时就需要进行补0操作，将它凑够9个。最后，再进行标准化处理，减去均值，然后除以方差。下面来看代码，

# 将音频信息转成MFCC特征
# 参数说明---audio_filename：音频文件   numcep：梅尔倒谱系数个数
#       numcontext：对于每个时间段，要包含的上下文样本个数
def audiofile_to_mfcc_vector(audio_filename, numcep, numcontext):
    # 加载音频文件
    fs, audio = wav.read(audio_filename)
    # 获取MFCC系数
    orig_inputs = mfcc(audio, samplerate=fs, numcep=numcep)
    # 打印MFCC系数的形状，得到比如(955, 26)的形状
    # 955表示时间序列，26表示每个序列的MFCC的特征值为26个
    # 这个形状因文件而异，不同文件可能有不同长度的时间序列，但是，每个序列的特征值数量都是一样的
    # print(np.shape(orig_inputs))
 
    # 因为我们使用双向循环神经网络来训练,它的输出包含正、反向的结
    # 果,相当于每一个时间序列都扩大了一倍,所以
    # 为了保证总时序不变,使用orig_inputs =
    # orig_inputs[::2]对orig_inputs每隔一行进行一次
    # 取样。这样被忽略的那个序列可以用后文中反向
    # RNN生成的输出来代替,维持了总的序列长度。
    orig_inputs = orig_inputs[::2]  # (478, 26)
    # print(np.shape(orig_inputs))
    # 因为我们讲解和实际使用的numcontext=9，所以下面的备注我都以numcontext=9来讲解
    # 这里装的就是我们要返回的数据，因为同时要考虑前9个和后9个时间序列，
    # 所以每个时间序列组合了19*26=494个MFCC特征数
    train_inputs = np.array([], np.float32)
    train_inputs.resize((orig_inputs.shape[0], numcep + 2 * numcep * numcontext))
    # print(np.shape(train_inputs))#)(478, 494)
 
    # Prepare pre-fix post fix context
    empty_mfcc = np.array([])
    empty_mfcc.resize((numcep))
 
    # Prepare train_inputs with past and future contexts
    # time_slices保存的是时间切片，也就是有多少个时间序列
    time_slices = range(train_inputs.shape[0])
 
    # context_past_min和context_future_max用来计算哪些序列需要补零
    context_past_min = time_slices[0] + numcontext
    context_future_max = time_slices[-1] - numcontext
 
    # 开始遍历所有序列
    for time_slice in time_slices:
        # 对前9个时间序列的MFCC特征补0，不需要补零的，则直接获取前9个时间序列的特征
        need_empty_past = max(0, (context_past_min - time_slice))
        empty_source_past = list(empty_mfcc for empty_slots in range(need_empty_past))
        data_source_past = orig_inputs[max(0, time_slice - numcontext):time_slice]
        assert (len(empty_source_past) + len(data_source_past) == numcontext)
 
        # 对后9个时间序列的MFCC特征补0，不需要补零的，则直接获取后9个时间序列的特征
        need_empty_future = max(0, (time_slice - context_future_max))
        empty_source_future = list(empty_mfcc for empty_slots in range(need_empty_future))
        data_source_future = orig_inputs[time_slice + 1:time_slice + numcontext + 1]
        assert (len(empty_source_future) + len(data_source_future) == numcontext)
 
        # 前9个时间序列的特征
        if need_empty_past:
            past = np.concatenate((empty_source_past, data_source_past))
        else:
            past = data_source_past
 
        # 后9个时间序列的特征
        if need_empty_future:
            future = np.concatenate((data_source_future, empty_source_future))
        else:
            future = data_source_future
 
        # 将前9个时间序列和当前时间序列以及后9个时间序列组合
        past = np.reshape(past, numcontext * numcep)
        now = orig_inputs[time_slice]
        future = np.reshape(future, numcontext * numcep)
 
        train_inputs[time_slice] = np.concatenate((past, now, future))
        assert (len(train_inputs[time_slice]) == numcep + 2 * numcep * numcontext)
 
    # 将数据使用正太分布标准化，减去均值然后再除以方差
    train_inputs = (train_inputs - np.mean(train_inputs)) / np.std(train_inputs)
 
    return train_inputs

7、文字样本转化成字典和数组

对于文字样本，我们需要将文字转换成向量，这样才方便计算机计算。上一讲中，我们调用get_wavs_and_tran_texts函数获取了所有的WAV文件和其对应的文字。现在，我们先来处理一下文字。先将所有文字提出来，然后，调用collections和Counter方法，统计一下每个字符出现的次数，然后，把它们放到字典里面去，代码如下，

def create_words_table(self):
        # 字表 
        all_words = []  
        for label in self.labels:  
            #print(label)    
            all_words += [word for word in label]
        
        #Counter，返回一个Counter对象集合，以元素为key，元素出现的个数为value
        counter = Counter(all_words)                
        #排序
        self.words = sorted(counter)
        
        self.words_size= len(self.words)

        with open(charactersfile, 'w', encoding='utf-8') as fd:
            for w in self.words:
                fd.write(w)
                fd.write('\n')

        self.words_map = dict(zip(self.words, range(self.words_size)))            
        print("words_map====>>>>", self.words_map)

为了方便，我们将获取音频相关操作封装成AudioProcessor类，该类的初始化函数如下，

def __init__(self, wav_path, tran_path, features, contexts):        
        self.features = features
        self.contexts = contexts
        self.wavs, self.labels = get_wavs_and_tran_texts(wav_path, tran_path)
        self.create_words_table()

features 和contexts 我们暂时先不管，先全部设置成0，然后，调用该类看看效果，代码如下，

if __name__ == "__main__":
    wav_path = 'dataset/data_thchs30/train'
    tran_path = 'dataset/data_thchs30/data'
 
    processor = AudioProcessor(wav_path, tran_path, 0, 0)

运行结果，

可以看到，words_map就是一个字典，我们可以根据字找到其对应的值，这个值我们可以理解为下标。我们再将words打印出来看看，如下，

可以看到，words是一个列表，并且与words_map是一一对应的。即，可以根据words_map找到字的下标，也可以根据words和字的下标找到对应的字。我们将words保存到txt文件，这样我们以后只要加载这个文件就可以了，而不用这么麻烦，应用的时候，也都是只有一个文件就可以了。导入代码如下，

def load_words_table(self):
        self.words = []
        
        with open(charactersfile, 'r', encoding='utf-8') as fd:
            while True:
                c = fd.readline().replace('\n', '')
                if c:
                    self.words += [c]
                else:
                    break

        # print("words====>>>>", self.words)
        self.words_size = len(self.words)
        self.words_map = dict(zip(self.words, range(self.words_size)))    
        # print("words_map====>>>>", self.words_map)

8、将文字转成向量

上面，我们将文字样本转成了字典，现在，我们要将文字转成向量，也就是将类似“绿是阳春烟景大块文章的底色四月的林峦更是绿得鲜活秀媚诗意盎然”的话用向量来表达。代码如下，

# 将字符转成向量，其实就是根据字找到字在words_map中所应对的下标
def get_labels_vector(words_map, txt_label=None):
    words_size = len(words_map)
 
    to_num = lambda word: words_map.get(word, words_size)

    labels_vector = list(map(to_num, txt_label))

    return labels_vector

然后，我们在load_words_table函数中调用它，代码如下，

def load_words_table(self):
        self.words = []
        
        with open(charactersfile, 'r', encoding='utf-8') as fd:
            while True:
                c = fd.readline().replace('\n', '')
                if c:
                    self.words += [c]
                else:
                    break

        # print("words====>>>>", self.words)
        self.words_size = len(self.words)
        self.words_map = dict(zip(self.words, range(self.words_size)))    
        # print("words_map====>>>>", self.words_map)
        # 将文字转成向量     
        vector = get_labels_vector(self.words_map, self.labels[0])
        print("labels[0]:", self.labels[0])
        print("vector:", vector)

运行结果，

dataset/data_thchs30/train\A11_0.wav 绿是阳春烟景大块文章的底色四月的林峦更是绿得鲜活秀媚诗意盎然

labels[0]: 绿是阳春烟景大块文章的底色四月的林峦更是绿得鲜活秀媚诗意盎然

vector: [1901, 0, 1159, 0, 2506, 1156, 0, 1523, 0, 1172, 0, 579, 524, 0, 1113, 1800, 0, 1664, 0, 812, 2039, 0, 501, 1187, 0, 1664, 0, 1230, 0, 747, 0, 1183, 1159, 0, 1901, 0, 866, 0, 2633, 1414, 0, 1758, 644, 0, 2222, 936, 0, 1672, 1530]

然后，我们看一下1901是不是对应“绿”字，

这样，我们就将文字转成了向量。

9、将音频数据转为MFCC，将译文转为向量

现在，整合上面的audiofile_to_mfcc_vector函数和get_labels_vector函数，将音频数据转为时间序列（列）和MFCC（行）的矩阵，且将对应的译文转成字向量，代码如下，

# 将音频数据转为时间序列（列）和MFCC（行）的矩阵，将对应的译文转成字向量
def get_mfcc_and_transcriptch(wavs, labels, features, contexts, words_map):
    audio = []
    audio_len = []
    transcript = []
    transcript_len = []
 
    for wav, label in zip(wavs, labels):
        # load audio and convert to features
        audio_data = audiofile_to_mfcc_vector(wav, features, contexts)
        audio_data = audio_data.astype('float32')
        # print(words_map)
        audio.append(audio_data)
        audio_len.append(len(audio_data))
 
        # load text transcription and convert to numerical array        
        target = get_labels_vector(words_map, label)  # txt_obj是labels
        # target = text_to_char_array(target)
        transcript.append(target)
        transcript_len.append(len(target))
 
    audio = np.asarray(audio)
    audio_len = np.asarray(audio_len)
    transcript = np.asarray(transcript)
    transcript_len = np.asarray(transcript_len)
    return audio, audio_len, transcript, transcript_len

10、批次音频数据对齐

上面是对单个音频文件的特征补0，在训练中，文件是一批一批的获取并进行训练的，这就要求每一批音频的时序要统一，所以，下面要做对齐处理。

#对齐处理
def pad_sequences(sequences, maxlen=None, dtype=np.float32, value=0.):
    #[478 512 503 406 481 509 422 465]
    lengths = np.asarray([len(s) for s in sequences], dtype=np.int64)
 
    seqlen = len(sequences)
 
    #maxlen，该批次中，最长的序列长度
    if maxlen is None:
        maxlen = np.max(lengths)
 
    # 在下面的主循环中，从第一个非空序列中获取样本形状,以获取每个时序的mfcc特征数    
    sample_shape = tuple()
    for s in sequences:        
        if len(s) > 0:
            # (568, 494)
            sample_shape = np.asarray(s).shape[1:]
            break
    
    # (seqlen, maxlen, mfcclen)
    x = (np.ones((seqlen, maxlen) + sample_shape) * value).astype(dtype)
    
    for i, s in enumerate(sequences):
        if len(s) == 0:
            continue  # 序列为空，跳过
        
        if s.shape[1:] != sample_shape:
            raise ValueError('Shape of sample %s of sequence at position %s is different from expected shape %s' %
                             (s.shape[1:], i, sample_shape))
 
        x[i, :len(s)] = s

    return x, lengths

11、创建序列的稀疏表示

因为TensorFlow中，计算ctc loss的函数需要我们提供标签的系数矩阵表示，这个在我们设计网络模型的时候就知道了。所以，我们需要将已经向量化的标签转成稀疏矩阵的形式。

稀疏矩阵是什么呢？稀疏矩阵是相对稠密矩阵而言的，稠密矩阵就是我们常见的矩阵，如果稠密矩阵大部分数都是0，那么就没有必要浪费空间来存这些为0的数据，我们只要将那些不为0的索引、值和形状记录下来，就可以大大节省内存空间，这个就是稀疏矩阵。而稀疏矩阵的稀疏表示，则是用3个数组来表示一个矩阵，其中，indices表示非零元素的下标，values表示indices中下标对应的非零值，shape表示形状。

# 创建序列的稀疏表示，这个才是真的稀疏矩阵
def sparse_tuple_(sequences, dtype=np.int32):
    indices = []
    values = []
 
    for i, seq in enumerate(sequences):
        for j, value in enumerate(seq):
            if value != 0:  
                indices.extend([[i, j]])
                values.extend([value])
 
    indices = np.asarray(indices, dtype=np.int64)
    values = np.asarray(values, dtype=dtype)
    shape = np.asarray([len(sequences), indices.max(0)[1] + 1], dtype=np.int64)

    return indices, values, shape

我们来测试一下上面的代码看看，测试代码如下，

if __name__ == "__main__":
    wav_path = 'dataset/data_thchs30/train'
    tran_path = 'dataset/data_thchs30/data'

    words, words_map = load_words_table_()    
    _, labels = get_wavs_and_tran_texts(wav_path, tran_path)
    ch_lable = get_labels_vector(words_map, labels[0])
    stuple = sparse_tuple_([ch_lable])
    print("indices:", stuple[0])
    print("values:", stuple[1])
    print("shape:", stuple[2])

运行结果如下，

12、将稀疏表示转成文字

上面我们将文字转成了稀疏表示，现在我们需要将稀疏表示还原为文字，

13、将字向量转成文字

上面有将文字转成字向量的函数，那么，也应该有将字向量转成文字的函数，代码如下，代码如下，

# 将稀疏矩阵的字向量转成文字
# tuple是sparse_tuple函数的返回值
def sparse_tuple_to_text_(tuple, words):
    # 索引
    indices = tuple[0]
    # 字向量
    values = tuple[1]
    
    dense = np.zeros(tuple[2]).astype(np.int32)

    for i in range(len(indices)):
        dense[indices[i][0]][indices[i][1]] = values[i]
    
    results = [''] * tuple[2][0]
    for i in range(dense.shape[0]):
        for j in range(dense.shape[1]):            
            c = dense[i][j]
            c = ' ' if c == SPACE_INDEX else words[c]
            results[i] = results[i] + c
 
    return results

我们来测试一下。测试代码如下，

if __name__ == "__main__":
    wav_path = 'dataset/data_thchs30/train'
    tran_path = 'dataset/data_thchs30/data'

    words, words_map = load_words_table_()    
    _, labels = get_wavs_and_tran_texts(wav_path, tran_path)
    ch_lable = get_labels_vector(words_map, labels[0])
    stuple = sparse_tuple_([ch_lable])
    print("indices:", stuple[0])
    print("values:", stuple[1])
    print("shape:", stuple[2])
    texts = sparse_tuple_to_text_(stuple, words)
    print("texts:", texts)

运行结果，

14、“假”的稀疏矩阵表示

上面我们测试的是单个的句子的稀疏表示和将稀疏表示转成文字，但是我们在训练中一般都是批量的，所以，我们还是使用上面的测试代码，但是我们使用批量的数据，代码如下，

if __name__ == "__main__":
    wav_path = 'dataset/data_thchs30/train'
    tran_path = 'dataset/data_thchs30/data'

    words, words_map = load_words_table_()    
    _, labels = get_wavs_and_tran_texts(wav_path, tran_path)
    ch_lable = get_labels_vector(words_map, labels[0])
    ch_lable1 = get_labels_vector(words_map, labels[1]) 
    stuple = sparse_tuple([ch_lable, ch_lable1])
    print("indices:", stuple[0])
    print("values:", stuple[1])
    print("shape:", stuple[2])
    texts = sparse_tuple_to_text_(stuple, words)
    print("texts:", texts)

运行结果，

可以看到，在稀疏表示还原成文字的时候，“盎然”后面多了几个空格，这是因为批量处理时，矩阵的shape是统一大小的，所以对于比较短的句子，就会在句子后面“补零”了。

为了避免这个问题，我们在将文字转成稀疏表示的时候，不管元素是否为0，都包含进来，这样我们在还原的时候就可以清楚的知道矩阵的真实长度，就不会出现上面这种现象，所以，我们修改一下上面的sparse_tuple_ 和 sparse_tuple_to_text_函数，为了不混淆，将函数名字改成sparse_tuple 和 sparse_tuple_to_text（就是去掉了函数名末尾的下划线），代码如下，

# 创建序列的稀疏表示，为了方便，我们这里只是做假的稀疏矩阵，我们只是需要稀疏矩阵的形式，因为ctc计算需要这种形式
def sparse_tuple(sequences, dtype=np.int32):
    indices = []
    values = []
 
    for n, seq in enumerate(sequences):
        indices.extend(zip([n] * len(seq), range(len(seq))))
        values.extend(seq)
 
    indices = np.asarray(indices, dtype=np.int64)
    values = np.asarray(values, dtype=dtype)
    shape = np.asarray([len(sequences), indices.max(0)[1] + 1], dtype=np.int64)
 
    # return tf.SparseTensor(indices=indices, values=values, shape=shape)
    return indices, values, shape

# 将稀疏矩阵的字向量转成文字，我们这里的稀疏矩阵也是假的
# tuple是sparse_tuple函数的返回值
def sparse_tuple_to_text(tuple, words):
    # 索引
    indices = tuple[0]
    # 字向量
    values = tuple[1]
    results = [''] * tuple[2][0]
    for i in range(len(indices)):
        index = indices[i][0]
        c = values[i]
        c = ' ' if c == SPACE_INDEX else words[c]
        results[index] = results[index] + c
 
    return results

然后，我们再来测试一下，测试代码如下，

if __name__ == "__main__":
    wav_path = 'dataset/data_thchs30/train'
    tran_path = 'dataset/data_thchs30/data'

    words, words_map = load_words_table_()    
    _, labels = get_wavs_and_tran_texts(wav_path, tran_path)

    ch_lable = get_labels_vector(words_map, labels[0])
    ch_lable1 = get_labels_vector(words_map, labels[1])
    stuple = sparse_tuple([ch_lable, ch_lable1])
    
    print("indices:", stuple[0])
    print("values:", stuple[1])
    print("shape:", stuple[2])
    texts = sparse_tuple_to_text(stuple, words)
    print("texts:", texts)

运行结果，

15、next_batch函数

接下来，我们来实现AudioProcessor类的next_batch函数，代码如下，

def next_batch(self, start_index=0, batch_size=1):
        filesize = len(self.labels)
        # 计算要获取的序列的开始和结束下标
        end_index = min(filesize, start_index + batch_size)
        index_list = range(start_index, end_index)
        # 获取要训练的音频文件路径和对于的译文
        labels = [self.labels[i] for i in index_list]
        wavs = [self.wavs[i] for i in index_list]
        # 将音频文件转成要训练的数据
        (source, _, target, _) = get_mfcc_and_transcriptch(wavs, labels, self.features,
                                                                self.contexts, self.words_map)
    
        start_index += batch_size
        # Verify that the start_index is not largVerify that the start_index is not ler than total available sample size
        if start_index >= filesize:
            start_index = -1
    
        # Pad input to max_time_step of this batch
        # 对齐处理，如果是多个文件，将长度统一，支持按最大截断或补0
        source, source_lengths = pad_sequences(source)
        # 返回序列的稀疏表示
        sparse_labels = sparse_tuple(target)
    
        return start_index, source, source_lengths, sparse_labels

为了验证我们上面所有写的的代码是否达到预期，同样写一个测试代码来测试，代码如下，

if __name__ == "__main__":
    wav_path = 'dataset/data_thchs30/train'
    tran_path = 'dataset/data_thchs30/data'
  

    # 梅尔倒谱系数的个数
    features = 26
    # 对于每个时间序列，要包含上下文样本的个数
    contexts = 9
    # batch大小
    batch_size = 8

    processor = AudioProcessor(wav_path, tran_path, features, contexts)
    next_index = 0
    for batch in range(5):  # 一次batch_size，取多少次
        next_index, source, source_lengths, sparse_labels = processor.next_batch(next_index, batch_size)        
        print("source_lengths:", source_lengths)
        print("sparse_labels:", sparse_labels)

运行结果，

你可能感兴趣的:(tensorflow,tensorflow,语音识别)

Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
语音识别技术有哪些应用场景？不想秃头的程序语音识别人工智能
语音识别技术，作为人工智能领域的重要分支，已经深入到我们日常生活的方方面面。以下是一些常见的应用场景：智能助理智能助理如Siri、GoogleAssistant以及Alexa等，都基于语音识别技术来实现用户交互。用户可以通过语音命令来拨打电话、查询信息、设置提醒等。这些助理软件能够理解多种语言和方言，并能够在复杂的环境噪声中准确识别用户的指令。智能家居在智能家居领域，语音识别被用于控制各种智能设备
微软 Azure AI 服务免费试用及申请：语音识别、文本转语音、基于视觉、语言处理、文档分析等10大场景全云在线allcloudonline microsoft azure 人工智能
为方便企业认识和快速上手AzureAI服务，我们总结了一套包括语音识别、文本转语音、基于视觉、语言处理场景、文档分析场景等全面的预构建模型和演示，旨在解决各种用例。这些模型易于访问，可帮助企业无缝实施AI驱动的解决方案，如下是已整理并编录的AzureAI服务中提供的预构建演示，希望这可以帮助您将AI无缝融入您的产品和服务中。微软AzureAI服务可以合规、稳定地提供企业用户使用ChatGPT的可能
关于python版本与TensorFlow安装的版本问题 iiimharrygGc. python tensorflow 开发语言
实测在conda环境下，python3.12的版本无法安装TensorFlow2.14.0（截至2024.5.21）最新版本在python3.7版本下正常安装ps：上述安装均在anacondanavigator软件内安装
Vue + Django的人脸识别系统 DXSsssss python DRF tensorflow 人脸识别
最近在研究机器学习，刚好最近看了vue+Djangodrf的一些课程，学以致用，做了一个人脸识别系统。项目前端使用Vue框架，用到了elementui组件，写起来真是方便。比之前传统的dtl方便了太多。后端使用了drf，识别知识刚开始打算使用opencv+tensorflow,但是发现吧识别以后的结果返回到浏览器当中时使用opencv比较麻烦（主要是我太菜，想不到比较好的方法），因此最终使用了tf
基于人工智能的智能语音助手人工智能发烧友人工智能
语音助手的自然语言处理模块是语音助手系统的关键组成部分。通过这个模块，系统能够识别用户的意图并做出相应的回应。我们可以使用NLP技术来解析文本输入，并将其转换为系统可以理解的命令或指令。在本项目中，我们将结合语音识别、自然语言处理和语音合成技术，构建一个功能简化的语音助手。一、项目背景与需求分析1.1项目目标本项目旨在创建一个语音助手系统，它可以：1.语音识别：从用户的语音输入中提取文本信息。2.
Awesome TensorFlow weixin_30594001 人工智能移动开发大数据
AwesomeTensorFlowAcuratedlistofawesomeTensorFlowexperiments,libraries,andprojects.Inspiredbyawesome-machine-learning.WhatisTensorFlow?TensorFlowisanopensourcesoftwarelibraryfornumericalcomputationusin
【ShuQiHere】小白也能懂的 TensorFlow 和 PyTorch GPU 配置教程 ShuQiHere tensorflow pytorch 人工智能
【ShuQiHere】在深度学习中，GPU的使用对于加速模型训练至关重要。然而，对于许多刚刚入门的小白来说，如何在TensorFlow和PyTorch中指定使用GPU进行训练可能会感到困惑。在本文中，我将详细介绍如何在这两个主流的深度学习框架中指定使用GPU进行训练，并确保每一个步骤都简单易懂，跟着我的步骤来，你也能轻松上手！1.安装所需库首先，确保你已经安装了TensorFlow或PyTorch
TensorFlow的基本概念以及使用场景张柏慈决策树
TensorFlow是一个机器学习平台，用于构建和训练机器学习模型。它使用图形表示计算任务，其中节点表示数学操作，边表示计算之间的数据流动。TensorFlow的主要特点包括：1.多平台支持：TensorFlow可以运行在多种硬件和操作系统上，包括CPU、GPU和移动设备。2.自动求导：TensorFlow可以自动计算模型参数的梯度，通过优化算法更新参数，以提高模型的准确性。3.分布式计算：Ten
【ShuQiHere】探索人工智能核心：机器学习的奥秘 ShuQiHere 人工智能机器学习
【ShuQiHere】什么是机器学习？机器学习（MachineLearning,ML）是人工智能（ArtificialIntelligence,AI）中最关键的组成部分之一。它使得计算机不仅能够处理数据，还能从数据中学习，从而做出预测和决策。无论是语音识别、自动驾驶还是推荐系统，背后都依赖于机器学习模型。机器学习与传统的编程不同，它不再依赖于人类编写的固定规则，而是通过数据自我改进模型，从而更灵活
基于VGG的猫狗识别卑微小鹿 tensorflow tensorflow
由于猫和狗的数据在这里，所以就做了一下分类的神经网络1、首先进行图像处理：importcsvimportglobimportosimportrandomos.environ['TF_CPP_MIN_LOG_LEVEL']='2'importtensorflowastffromtensorflowimportkerasfromtensorflow.kerasimportlayersimportnum
轻松升级：Ollama + OpenWebUI 安装与配置【AIStarter】 ai_xiaogui AI作画 AI软件人工智能 AI写作 AIStarter
Ollama是一个开源项目，用于构建和训练大规模语言模型，而OpenWebUI则提供了一个方便的前端界面来管理和监控这些模型。本文将指导你如何更新这两个工具，并顺利完成配置。准备工作确保你的系统已安装Git和Python环境。安装必要的依赖库，如TensorFlow或PyTorch等。更新步骤克隆项目：使用Git命令行工具克隆最新的Ollama和OpenWebUI仓库到本地。更新代码：确保你正在使
深度学习之基于Tensorflow卷积神经网络水果蔬菜分类识别系统 qq1744828575 python python plotly
欢迎大家点赞、收藏、关注、评论啦，由于篇幅有限，只展示了部分核心代码。文章目录一项目简介二、功能三、系统四.总结一项目简介一、项目背景与目标背景：在现代农业、智能零售等领域，自动化分类与识别技术对于提高效率、优化供应链管理具有重要意义。为了响应这一需求，本项目旨在构建一个基于深度学习技术的水果蔬菜分类识别系统。目标：构建一个准确率高、性能稳定的水果蔬菜分类识别模型，利用Tensorflow框架
机器学习，深度学习，AGI，AI的概念和区别我就是全世界人工智能机器学习深度学习
1.人工智能（AI）的定义与范围1.1AI的基本概念人工智能（AI）是指通过计算机系统模拟人类智能的技术和科学。AI的目标是创建能够执行通常需要人类智能的任务的系统，如视觉识别、语音识别、决策制定和语言翻译。AI的核心在于其能够处理和分析大量数据，从中提取有用的信息，并根据这些信息做出决策或预测。AI的发展可以追溯到20世纪50年代，当时科学家们开始探索如何使机器能够执行复杂的任务。随着计算能力的
Python 实时语音识别 TEDxPY python学习 python资源语音识别 Python人工智能实时语音识别百度语音API
Python实时语音识别语音识别语音识别API语音识别步骤效果展示代码下载最近自己想接触下语音识别，经过一番了解和摸索，实现了对语音识别API的简单调用，正好写文章记录下。目前搜到的帖子里，有现成的调用百度语音API来对音频文件进行识别的；也有通过谷歌语音服务来实现了实时语音识别的。由于我这谷歌语音一直调用不成功，就将二者结合，简单实现了通过百度语音API来进行实时语音识别。语音识别语音识别技术就
深度神经网络详解：原理、架构与应用阿达C 活动 dnn 计算机网络人工智能神经网络机器学习深度学习
深度神经网络（DeepNeuralNetwork，DNN）是机器学习领域中最为重要和广泛应用的技术之一。它模仿人脑神经元的结构，通过多层神经元的连接和训练，能够处理复杂的非线性问题。在图像识别、自然语言处理、语音识别等领域，深度神经网络展示了强大的性能。本文将深入解析深度神经网络的基本原理、常见架构及其实际应用。一、深度神经网络的基本原理1.1神经元和感知器神经元是深度神经网络的基本组成单元。一个
ImportError: cannot import name ‘conv_utils‘ from ‘keras.utils‘ CheCacao keras 深度学习 python tensorflow tensorflow2 人工智能
将fromkeras.utilsimportconv_utils改为fromtensorflow.python.keras.utilsimportconv_utilsImportError:nomodulenamed'tensorflow.keras.engine将fromkeras.engine.topologyimportLayer改为fromtensorflow.python.keras.l
jupyter出错ImportError: cannot import name ‘np_utils‘ from ‘keras.utils‘ ，怎么解决？七月初七淮水竹亭～人工智能 python jupyter keras 深度学习
文章前言此篇文章主要是记录一下我遇到的问题以及我是如何解决的，希望下次遇到类似问题可以很快解决。此外，也希望能帮助到大家。遇到的问题出错：ImportError:cannotimportname'np_utils'from'keras.utils'，如图：如何解决首先我根据网上文章的一些提示，将fromkeras.utilsimportnp_utils换成了fromtensorflow.keras
tensorflow和python不兼容_tensorflow与numpy的版本兼容性问题的解决 weixin_39727934
在Python交互式窗口导入tensorflow出现了下面的错误：ox8免费资源网root@ubuntu:~#python3Python3.6.8(default,Oct72019,12:59:55)[GCC8.3.0]onlinuxType"help","copyright","credits"or"license"formoreinformation.>>>importtensorflowas
numpy python 兼容_tensorflow与numpy的版本兼容性问题 weixin_39761822 numpy python 兼容
在Python交互式窗口导入tensorflow出现了下面的错误：root@ubuntu:~#python3Python3.6.8(default,Oct72019,12:59:55)[GCC8.3.0]onlinuxType"help","copyright","credits"or"license"formoreinformation.>>>importtensorflowastf;/usr/
安装tensorflow2.5.0 发现 tensorflow 和 numba 两者对应Numpy版本冲突 GJK_ tensorflow numpy 人工智能
问题：python3.8安装tensorflow2.5.0发现tensorflow和numba两者对应Numpy版本冲突tensorflow-gpu2.5.0requiresnumpy~=1.19.2numba0.58.1requiresnumpy=1.22解决方法：将numba降低版本为0.53pipinstallnumba==0.53再将numpy版本改为1.19.2pipinstallnum
python3.7安装keras教程_python 3.7 安装 sklearn keras(tf.keras) weixin_39641103
#1sklearn一般方法网上有很多教程，不再赘述。注意顺序是numpy+mkl，然后scipy的环境，scipy，然后sklearn#2anocondaanaconda原始的环境已经自带了sklearn，这里说一下新建环境（比如创建了一个tensorflow的环境），activatetensorflow2.0，然后condainstallsklearn即可，会帮你把各种需要的库都安装。#kera
Python高层神经网络 API库之Keras使用详解 Rocky006 python keras 开发语言
概要随着深度学习在各个领域的广泛应用，许多开发者开始使用各种框架来构建和训练神经网络模型。Keras是一个高层神经网络API，使用Python编写，并能够运行在TensorFlow、CNTK和Theano之上。Keras旨在简化深度学习模型的构建过程，使得开发者能够更加专注于实验和研究。本文将详细介绍Keras库，包括其安装方法、主要特性、基本和高级功能，以及实际应用场景，帮助全面了解并掌握该库的
本地搭建 Whisper 语音识别模型实现实时语音识别研究一只老虎人工智能编程开发算法研究 whisper 语音识别人工智能
目录摘要关键词1.引言2.Whisper模型简介3.环境准备4.系统架构与实现4.1模型加载4.2实时音频输入处理4.3实时转录处理4.4程序实现的框架4.5代码实现5.实验与结果6.讨论7.结论参考文献摘要语音识别技术近年来发展迅速，广泛应用于智能家居、智能客服、语音助手等领域。Whisper是由OpenAI开发的一种开源语音识别模型，具有高效的转录能力。本研究旨在探讨如何在本地环境中搭建Whi
如何从0到1本地搭建whisper语音识别模型 MaxCode-1 搭建本地gpt whisper
文章目录环境准备1.系统要求2.安装依赖项1：安装Python和虚拟环境2：安装Whisper3：下载Whisper模型4：进行语音识别5：提高效率和精度6：开发和集成Whisper是OpenAI发布的一个强大的语音识别模型，它可以将语音转换为文本，支持多语言输入，并且可以处理各种音频类型。以下是一个从0到1的本地搭建Whisper模型进行语音识别教程环境准备1.系统要求操作系统：Linux、Ma
将本地已有的项目上传到新建的git仓库的方法 10676
将本地已有的一个非git项目上传到新建的git仓库的方法一共有两种。一、克隆+拷贝第一种方法比较简单，直接用把远程仓库拉到本地，然后再把自己本地的项目拷贝到仓库中去。然后push到远程仓库上去即可。此方法适用于本地项目不是一个git仓库的情况。1、首先克隆[email protected]:yuanmingchen/tensorflow_study.git2、然后复制自己项目的所有文件到
FunASR 语音识别系统概述瑞雪兆我心语音识别人工智能
FunASR（AFundamentalEnd-to-EndSpeechRecognitionToolkit）是一个基础的语音识别工具包，提供多种功能，包括语音识别（ASR）、语音端点检测（VAD）、标点恢复（PR）、语言模型（LM）、说话人分离等。项目源地址1语音识别（ASR）参考语音交互：聊聊语音识别-ASR（万字长文）语音识别技术（AutomaticSpeechRecognition,ASR）
使用PyTorch实现的DeepSpeech模型: 强大的语音识别利器毕艾琳
使用PyTorch实现的DeepSpeech模型:强大的语音识别利器deepspeech.pytorchSpeechRecognitionusingDeepSpeech2.项目地址:https://gitcode.com/gh_mirrors/de/deepspeech.pytorch在今天的数字化世界中，语音识别技术已成为人机交互的关键组成部分。deepspeech.pytorch是一个由Sea
使用matlab的热门问题七十二五值得关注 matlab 开发语言青少年编程算法经验分享
MATLAB广泛应用于科学计算、数据分析、信号处理、图像处理、机器学习等多个领域，因此热门问题也涵盖了这些方面。以下是一些可能被认为当前最热门的MATLAB问题：深度学习与神经网络：如何使用MATLAB的深度学习工具箱（DeepLearningToolbox）来构建和训练神经网络？如何利用MATLAB进行图像识别、语音识别或自然语言处理等深度学习应用？数据分析与可视化：如何使用MATLAB进行大数
Python(PyTorch和TensorFlow)图像分割卷积网络导图(生物医学) 亚图跨际交叉知识 Python 生物医学脑肿瘤图像皮肤病变多模态医学图像多尺度特征生物医学腹部胰腺图像病灶边界气胸图像
要点语义分割图像三层分割椭圆图像脑肿瘤图像分割动物图像分割皮肤病变分割多模态医学图像多尺度特征生物医学肖像多类和医学分割通用图像分割模板腹部胰腺图像分割分类注意力网络病灶边界分割气胸图像分割Python生物医学图像卷积网络该网络由收缩路径和扩展路径组成，收缩路径是一种典型的卷积网络，由重复应用卷积组成，每个卷积后跟一个整流线性单元(ReLU)和一个最大池化操作。在收缩过程中，空间信息减少，而特征信
java封装继承多态等麦田的设计者 java eclipse jvm c encapsulatopn
最近一段时间看了很多的视频却忘记总结了，现在只能想到什么写什么了，希望能起到一个回忆巩固的作用。 1、final关键字译为：最终的 &
F5与集群的区别 bijian1013 weblogic 集群 F5
http请求配置不是通过集群，而是F5；集群是weblogic容器的，如果是ejb接口是通过集群。 F5同集群的差别，主要还是会话复制的问题，F5一把是分发http请求用的，因为http都是无状态的服务，无需关注会话问题，类似
LeetCode[Math] - #7 Reverse Integer Cwind java 题解 Math LeetCode Algorithm
原题链接：#7 Reverse Integer 要求：按位反转输入的数字例1：输入 x = 123, 返回 321 例2：输入 x = -123, 返回 -321 难度：简单分析：对于一般情况，首先保存输入数字的符号，然后每次取输入的末位（x%10）作为输出的高位（result = result*10 + x%10）即可。但
BufferedOutputStream 周凡杨
首先说一下这个大批量，是指有上千万的数据量。例子：有一张短信历史表，其数据有上千万条数据，要进行数据备份到文本文件，就是执行如下SQL然后将结果集写入到文件中！ select t.msisd
linux下模拟按键输入和鼠标被触发 linux
查看/dev/input/eventX是什么类型的事件， cat /proc/bus/input/devices 设备有着自己特殊的按键键码，我需要将一些标准的按键，比如0－9，X－Z等模拟成标准按键，比如KEY_0,KEY-Z等，所以需要用到按键模拟，具体方法就是操作/dev/input/event1文件，向它写入个input_event结构体就可以模拟按键的输入了。 linux/in
ContentProvider初体验肆无忌惮_ ContentProvider
ContentProvider在安卓开发中非常重要。与Activity，Service，BroadcastReceiver并称安卓组件四大天王。在android中的作用是用来对外共享数据。因为安卓程序的数据库文件存放在data/data/packagename里面，这里面的文件默认都是私有的，别的程序无法访问。如果QQ游戏想访问手机QQ的帐号信息一键登录，那么就需要使用内容提供者COnte
关于Spring MVC项目（maven）中通过fileupload上传文件 843977358 mybatis spring mvc 修改头像上传文件 upload
Spring MVC 中通过fileupload上传文件，其中项目使用maven管理。 1.上传文件首先需要的是导入相关支持jar包：commons-fileupload.jar,commons-io.jar 因为我是用的maven管理项目，所以要在pom文件中配置（每个人的jar包位置根据实际情况定） <!-- 文件上传 start by zhangyd-c --&g
使用svnkit api，纯java操作svn，实现svn提交，更新等操作 aigo svnkit
原文：http://blog.csdn.net/hardwin/article/details/7963318 import java.io.File; import org.apache.log4j.Logger; import org.tmatesoft.svn.core.SVNCommitInfo; import org.tmateso
对比浏览器，casperjs，httpclient的Header信息 alleni123 爬虫 crawler header
@Override protected void doGet(HttpServletRequest req, HttpServletResponse res) throws ServletException, IOException { String type=req.getParameter("type"); Enumeration es=re
java.io操作 DataInputStream和DataOutputStream基本数据流百合不是茶 java 流
1，java中如果不保存整个对象，只保存类中的属性，那么我们可以使用本篇文章中的方法，如果要保存整个对象先将类实例化后面的文章将详细写到 2，DataInputStream 是java.io包中一个数据输入流允许应用程序以与机器无关方式从底层输入流中读取基本 Java 数据类型。应用程序可以使用数据输出流写入稍后由数据输入流读取的数据。
车辆保险理赔案例 bijian1013 车险
理赔案例：一货运车，运输公司为车辆购买了机动车商业险和交强险，也买了安全生产责任险，运输一车烟花爆竹，在行驶途中发生爆炸，出现车毁、货损、司机亡、炸死一路人、炸毁一间民宅等惨剧，针对这几种情况，该如何赔付。赔付建议和方案：客户所买交强险在这里不起作用，因为交强险的赔付前提是：“机动车发生道路交通意外事故”；如果是交通意外事故引发的爆炸，则优先适用交强险条款进行赔付，不足的部分由商业
学习Spring必学的Java基础知识(5)—注解 bijian1013 java spring
文章来源：http://www.iteye.com/topic/1123823，整理在我的博客有两个目的：一个是原文确实很不错，通俗易懂，督促自已将博主的这一系列关于Spring文章都学完；另一个原因是为免原文被博主删除，在此记录，方便以后查找阅读。有必要对
【Struts2一】Struts2 Hello World bit1129 Hello world
Struts2 Hello World应用的基本步骤创建Struts2的Hello World应用，包括如下几步： 1.配置web.xml 2.创建Action 3.创建struts.xml，配置Action 4.启动web server，通过浏览器访问配置web.xml <?xml version="1.0" encoding="
【Avro二】Avro RPC框架 bit1129 rpc
1. Avro RPC简介 1.1. RPC RPC逻辑上分为二层，一是传输层，负责网络通信；二是协议层，将数据按照一定协议格式打包和解包从序列化方式来看，Apache Thrift 和Google的Protocol Buffers和Avro应该是属于同一个级别的框架，都能跨语言，性能优秀，数据精简，但是Avro的动态模式（不用生成代码，而且性能很好）这个特点让人非常喜欢，比较适合R
lua　set get cookie ronin47 lua cookie
lua: local access_token = ngx.var.cookie_SGAccessToken if access_token then ngx.header["Set-Cookie"] = "SGAccessToken="..access_token.."; path=/;Max-Age=3000" end
java-打印不大于N的质数 bylijinnan java
public class PrimeNumber { /** * 寻找不大于N的质数 */ public static void main(String[] args) { int n=100; PrimeNumber pn=new PrimeNumber(); pn.printPrimeNumber(n); System.out.print
Spring源码学习-PropertyPlaceholderHelper bylijinnan java spring
今天在看Spring 3.0.0.RELEASE的源码，发现PropertyPlaceholderHelper的一个bug 当时觉得奇怪，上网一搜，果然是个bug，不过早就有人发现了，且已经修复：详见： http://forum.spring.io/forum/spring-projects/container/88107-propertyplaceholderhelper-bug
[逻辑与拓扑]布尔逻辑与拓扑结构的结合会产生什么? comsci 拓扑
如果我们已经在一个工作流的节点中嵌入了可以进行逻辑推理的代码,那么成百上千个这样的节点如果组成一个拓扑网络,而这个网络是可以自动遍历的,非线性的拓扑计算模型和节点内部的布尔逻辑处理的结合,会产生什么样的结果呢? 是否可以形成一种新的模糊语言识别和处理模型呢? 大家有兴趣可以试试,用软件搞这些有个好处,就是花钱比较少,就算不成
ITEYE 都换百度推广了 cuisuqiang Google AdSense 百度推广广告外快
以前ITEYE的广告都是谷歌的Google AdSense，现在都换成百度推广了。为什么个人博客设置里面还是Google AdSense呢？都知道Google AdSense不好申请，这在ITEYE上也不是讨论了一两天了，强烈建议ITEYE换掉Google AdSense。至少，用一个好申请的吧。什么时候能从ITEYE上来点外快，哪怕少点
新浪微博技术架构分析 dalan_123 新浪微博架构
新浪微博在短短一年时间内从零发展到五千万用户，我们的基层架构也发展了几个版本。第一版就是是非常快的，我们可以非常快的实现我们的模块。我们看一下技术特点，微博这个产品从架构上来分析，它需要解决的是发表和订阅的问题。我们第一版采用的是推的消息模式，假如说我们一个明星用户他有10万个粉丝，那就是说用户发表一条微博的时候，我们把这个微博消息攒成10万份，这样就是很简单了，第一版的架构实际上就是这两行字。第
玩转ARP攻击 dcj3sjt126com r
我写这片文章只是想让你明白深刻理解某一协议的好处。高手免看。如果有人利用这片文章所做的一切事情，盖不负责。网上关于ARP的资料已经很多了，就不用我都说了。用某一位高手的话来说，“我们能做的事情很多，唯一受限制的是我们的创造力和想象力”。 ARP也是如此。以下讨论的机子有一个要攻击的机子：10.5.4.178 硬件地址：52:54:4C:98
PHP编码规范 dcj3sjt126com 编码规范
一、文件格式 1. 对于只含有 php 代码的文件，我们将在文件结尾处忽略掉 "?>" 。这是为了防止多余的空格或者其它字符影响到代码。例如：<?php$foo = 'foo';2. 缩进应该能够反映出代码的逻辑结果，尽量使用四个空格，禁止使用制表符TAB，因为这样能够保证有跨客户端编程器软件的灵活性。例
linux 脱机管理（nohup） eksliang linux nohup nohup
脱机管理 nohup 转载请出自出处：http://eksliang.iteye.com/blog/2166699 nohup可以让你在脱机或者注销系统后，还能够让工作继续进行。他的语法如下 nohup [命令与参数] --在终端机前台工作 nohup [命令与参数] & --在终端机后台工作但是这个命令需要注意的是，nohup并不支持bash的内置命令，所
BusinessObjects Enterprise Java SDK greemranqq java BO SAP Crystal Reports
最近项目用到oracle_ADF 从SAP/BO 上调用水晶报表，资料比较少，我做一个简单的分享，给和我一样的新手提供更多的便利。首先，我是尝试用JAVA JSP 去访问的。官方API：http://devlibrary.businessobjects.com/BusinessObjectsxi/en/en/BOE_SDK/boesdk_ja
系统负载剧变下的管控策略 iamzhongyong 高并发
假如目前的系统有100台机器，能够支撑每天1亿的点击量（这个就简单比喻一下），然后系统流量剧变了要，我如何应对，系统有那些策略可以处理，这里总结了一下之前的一些做法。 1、水平扩展这个最容易理解，加机器，这样的话对于系统刚刚开始的伸缩性设计要求比较高，能够非常灵活的添加机器，来应对流量的变化。 2、系统分组假如系统服务的业务不同，有优先级高的，有优先级低的，那就让不同的业务调用提前分组
BitTorrent DHT 协议中文翻译 justjavac bit
前言做了一个磁力链接和BT种子的搜索引擎 {Magnet & Torrent}，因此把 DHT 协议重新看了一遍。 BEP: 5Title: DHT ProtocolVersion: 3dec52cb3ae103ce22358e3894b31cad47a6f22bLast-Modified: Tue Apr 2 16:51:45 2013 -070
Ubuntu下Java环境的搭建 macroli java 工作 ubuntu
配置命令：　　$sudo apt-get install ubuntu-restricted-extras 　　再运行如下命令：　　$sudo apt-get install sun-java6-jdk 　　待安装完毕后选择默认Java. 　　$sudo update- alternatives --config java 　　安装过程提示选择，输入“2”即可，然后按回车键确定。
js字符串转日期（兼容IE所有版本） qiaolevip TO Date String IE
/** * 字符串转时间（yyyy-MM-dd HH:mm:ss） * result （分钟） */ stringToDate : function(fDate){ var fullDate = fDate.split(" ")[0].split("-"); var fullTime = fDate.split("
【数据挖掘学习】关联规则算法Apriori的学习与SQL简单实现购物篮分析 superlxw1234 sql 数据挖掘关联规则
关联规则挖掘用于寻找给定数据集中项之间的有趣的关联或相关关系。关联规则揭示了数据项间的未知的依赖关系，根据所挖掘的关联关系，可以从一个数据对象的信息来推断另一个数据对象的信息。例如购物篮分析。牛奶 ⇒ 面包 [支持度：3%，置信度：40%] 支持度3%：意味3%顾客同时购买牛奶和面包。置信度40%：意味购买牛奶的顾客40%也购买面包。规则的支持度和置信度是两个规则兴
Spring 5.0 的系统需求，期待你的反馈 wiselyman spring
Spring 5.0将在2016年发布。Spring5.0将支持JDK 9。 Spring 5.0的特性计划还在工作中，请保持关注，所以作者希望从使用者得到关于Spring 5.0系统需求方面的反馈。