Puzzle harvester

Python吴恩达深度学习作业24 -- 语音识别关键字

关键字语音识别

在本周的视频中，你学习了如何将深度学习应用于语音识别。在此作业中，你将构建语音数据集并实现用于关键词检测（有时也称为唤醒词或触发词检测）的算法。关键词识别是一项技术，可让诸如Amazon Alexa，Google Home，Apple Siri和Baidu DuerOS之类的设备在听到某个特定单词时回应。

对于本练习，我们的触发词将是"Activate."。每次听到你说“激活”时，它都会发出“蜂鸣声”。作业完成后，你将可以录制自己的讲话片段，并在算法检测到你说"Activate"时触发提示音。

完成此任务后，也许你还可以将其扩展为在笔记本电脑上运行，以便每次你说“Activate”时，它就会启动你喜欢的应用程序，或者打开房屋中的网络连接灯，或触发其他事件？

在本作业中，你将学习：

构建语言识别项目
合成和处理音频记录以创建训练/开发数据集
训练关键词检测模型并做出预测

import numpy as np
from pydub import AudioSegment
import random
import sys
import io
import os
import glob
import IPython
from td_utils import *
%matplotlib inline

d:\vr\virtual_environment\lib\site-packages\pydub\utils.py:165: RuntimeWarning: Couldn't find ffmpeg or avconv - defaulting to ffmpeg, but may not work
  warn("Couldn't find ffmpeg or avconv - defaulting to ffmpeg, but may not work", RuntimeWarning)

1 合成数据：创建语音数据集

让我们从为触发词检测算法构建数据集开始。语音数据集在理想情况下应尽可能接近要在其上运行它的应用程序。在这种情况下，你想在工作环境（图书馆，家庭，办公室，开放空间…）中检测到"activate"一词。因此，你需要在不同的背景声音上混合使用positive词(“activate”)和negative词（除activate以外的随机词）来创建录音。让我们看看如何创建这样的数据集。

1.1 试听数据

你的一位朋友正在帮助你完成这个项目，他们去了该地区各地的图书馆，咖啡馆，餐馆，家庭和办公室，以记录背景噪音以及人们说positive/negative词的音频片段。该数据集包括以各种口音讲话的人。

在raw_data目录中，你可以找到原始音频文件的子集，包括正词，负词和背景噪音。你将使用这些音频文件来合成数据集以训练模型。"activate"目录包含人们说"activate"一词的正面示例。"negatives"目录包含人们说"activate"以外的随机单词的否定示例。每个音频记录只有一个字。"backgrounds"目录包含10秒的不同环境下的背景噪音片段。

运行下面的单元格以试听一些示例。

IPython.display.Audio("./raw_data/activates/1.wav")

CSDN不支持播放音频

IPython.display.Audio("./raw_data/negatives/4.wav")

CSDN不支持播放音频

IPython.display.Audio("./raw_data/backgrounds/1.wav")

CSDN不支持播放音频

你将使用这三种类型的记录(positives/negatives/backgrounds)来创建标记的数据集。

1.2 从录音到频谱图

录音到底是什么？麦克风记录随时间变化很小的气压，而这些气压的微小变化也会使你的耳朵感觉到声音。你可以认为录音是一长串数字，用于测量麦克风检测到的气压变化很小。我们将使用以44100Hz（或44100赫兹）采样的音频。这意味着麦克风每秒可以为我们提供44100个号码。因此，一个10秒的音频剪辑由441000个数字表示(= $10 \times 44100$ )。

从音频的这种“原始”表示中很难弄清是否说了"activate"这个词。为了帮助你的序列模型更轻松地学习检测触发词，我们将计算音频的spectrogram。频谱图告诉我们音频片段在某个时刻存在多少不同的频率。

（如果你曾经在信号处理或傅立叶变换方面上过高级课程，则可以通过在原始音频信号上滑动一个窗口来计算频谱图，并使用傅立叶变换来计算每个窗口中最活跃的频率。如果你不理解前面的句子，也不用担心。）

让我们来看一个例子。

IPython.display.Audio("audio_examples/example_train.wav")

CSDN不支持播放音频

x = graph_spectrogram("audio_examples/example_train.wav")

上图表示在多个时间步长（x轴）上每个频率（y轴）的活跃程度。

图1：录音的频谱图，其中的颜色表示在不同的时间点音频中不同频率出现（响亮）的程度。绿色方块表示某个频率在音频剪辑（扬声器）中更活跃或更活跃。蓝色方块表示较不活跃的频率。

输出频谱图的尺寸取决于频谱图软件的超参数和输入的长度。在此笔记本中，我们将使用10秒的音频剪辑作为训练示例的“标准长度”。频谱图的时间步数为5511。稍后你将看到频谱图将是网络中的输入 $x$ ，因此 $T_x=5511$ 。

_, data = wavfile.read("audio_examples/example_train.wav")
print("Time steps in audio recording before spectrogram", data[:,0].shape)
print("Time steps in input after spectrogram", x.shape)

Time steps in audio recording before spectrogram (441000,)
Time steps in input after spectrogram (101, 5511)

现在，你可以定义：

Tx = 5511 # 从频谱图输入到模型的时间步数
n_freq = 101 # 在频谱图的每个时间步输入模型的频率数

请注意，即使将10秒作为我们的默认训练示例长度，也可以将10秒的时间离散化为不同数量的值。你已经看到441000（原始音频）和5511（频谱图）。在前一种情况下，每个步骤代表 $\approx 0.000023$ 秒。在第二种情况下，每个步骤代表 $\approx 0.0018$ 秒。

对于10秒的音频，你将在此作业中看到的关键值为：

$441000$ （原始音频）
$5511 = T_x$ （频谱图输出，以及神经网络的输入维数）。
$10000$ （用pydub模块来合成音频）
$1375=T_y$ （要构建的GRU输出中的步骤数）。

请注意，这些表示中的每个表示都恰好对应10秒的时间。只是他们在不同程度上离散化了他们。所有这些都是超参数，可以更改（441000除外，这是麦克风函数）。我们选择的值在语音系统使用的标准范围内。

上面的 $T_y=1375$ 数字意味着对于模型的输出，我们将10s离散为1375个时间间隔（每个时间间隔的长度为 $\approx 0.0072$ 秒)，并尝试针对每个时间间隔预测是否有人最近说完“activate”。

上面的10000对应于将10秒剪辑离散化为10/10000 = 0.001秒迭代。0.001秒也称为1毫秒或1ms。因此，当我们说要按照1ms的间隔离散时，这意味着我们正在使用10,000个步长。

Ty = 1375 # 我们模型输出中的时间步数

1.3 生成单个训练示例

由于语音数据很难获取和标记，因此你将使用激活，否定和背景的音频片段来合成训练数据。录制很多带有随机"activates"内容的10秒音频剪辑非常慢。取而代之的是，录制许多肯定词和否定词以及分别记录背景噪音（或从免费的在线资源下载背景噪音）会变得更加容易。

要合成一个训练示例，你将：

随机选择10秒钟的背景音频剪辑
将"activates"的0-4个音频片段随机插入此10秒的片段中
将10个否定词的音频剪辑随机插入此10秒剪辑中

因为你已经将"activates"一词合成到了背景剪辑中，所以你确切知道"activates"在10秒剪辑中何时出现。稍后你将看到，这也使得生成标签 $y^{\langle t \rangle}$ 更加容易。

你将使用pydub包来处理音频。Pydub将原始音频文件转换为Pydub数据结构的列表（在此处了解详细信息并不重要）。Pydub使用1毫秒作为离散时间间隔（1毫秒等于1毫秒= 1/1000秒），这也是为什么始终以10,000步表示10秒剪辑的原因。

# 使用pydub加载音频片段 
activates, negatives, backgrounds = load_raw_audio()

print("background len: " + str(len(backgrounds[0])))    # 应该是10,000，因为它是一个10秒的剪辑
print("activate[0] len: " + str(len(activates[0])))     # 也许大约1000，因为 "activate" 音频剪辑通常大约1秒（但变化很大） 
print("activate[1] len: " + str(len(activates[1])))     # 不同的 "activate" 剪辑可以具有不同的长度

background len: 10000
activate[0] len: 721
activate[1] len: 731

在背景上叠加正/负词：

给定一个10秒的背景剪辑和一个简短的音频剪辑(positive or negative word)，你需要能够将单词的简短音频剪辑“添加”或“插入”到背景上。为确保插入背景的音频片段不重叠，你将跟踪以前插入的音频片段的时间。你将在背景中插入多个正/负词剪辑，而又不想在与先前添加的另一个剪辑重叠的位置插入"activate"或随机词。

为了清楚起见，当你在10秒的咖啡馆噪音片段中插入1秒的 “activate” 时，你最终会得到一个10秒的片段，听起来像有人在咖啡馆中说 “activate”，背景咖啡馆噪音中叠加了 “activate” 。注意你没有以11秒的剪辑结尾。稍后你将看到pydub如何帮助你执行此操作。

在叠加的同时创建标签：

还记得标签 $y^{\langle t \rangle}$ 代表某人是否刚刚说完"activate.“。给定一个背景剪辑，我们可以为所有 $t$ 初始化 $y^{\langle t \rangle}=0$ ，因为该剪辑不包含任何"activates.”。

当插入或覆盖"activate"剪辑时，还将更新 $y^{\langle t \rangle}$ 的标签，以便输出的50个步骤现在具有目标标签1。你将训练GRU来检测何时某人完成说"activate"。例如，假设合成的"activate"剪辑在10秒音频中的5秒标记处结束-恰好在剪辑的一半处。回想一下 $T_y=1375$ ，因此时间步长$687 = $ int(1375*0.5)对应于进入音频5秒的时刻。因此，你将设置 $y^{\langle 688 \rangle} = 1$ 。此外，如果GRU在此刻之后的短时间内（在内部）在任何地方检测到"activate"，你将非常满意，因此我们实际上将标签 $y^{\langle t \rangle}$ 的50个连续值设置为1。我们有 $y^{\langle 688 \rangle} = y^{\langle 689 \rangle} = \cdots = y^{\langle 737 \rangle} = 1$ 。

这是合成训练数据的另一个原因：如上所述，生成这些标签 $y^{\langle t \rangle}$ 相对简单。相反，如果你在麦克风上录制了10秒的音频，那么一个人收听它并在 “activate” 完成时准确手动进行标记会非常耗时。

下图显示了标签 $y^{\langle t \rangle}$ ，对于我们插入了"activate", “innocent”,activate", "baby"的剪辑，请注意，正标签“1”是关联的只用positive的词。

图2

要实现合成训练集过程，你将使用以下帮助函数。所有这些函数将使用1ms的离散时间间隔，因此将10秒的音频离散化为10,000步。

get_random_time_segment（segment_ms）在我们的背景音频中获得随机的时间段
is_overlapping（segment_time，existing_segments）检查时间段是否与现有时间段重叠
insert_audio_clip（background，audio_clip，existing_times）使用get_random_time_segment和is_overlapping在我们的背景音频中随机插入一个音频片段。
insert_ones（y，segment_end_ms）在我们的标签向量y的"activate"词之后插入1。

函数get_random_time_segment(segment_ms)返回一个随机的时间段，我们可以在其中插入持续时间为segment_ms的音频片段。通读代码以确保你了解它在做什么。

def get_random_time_segment(segment_ms):
    """
    获取 10,000 ms音频剪辑中时间长为 segment_ms 的随机时间段。
    
    参数：
    segment_ms -- 音频片段的持续时间，以毫秒为单位("ms" 代表 "毫秒")
    
    返回：
    segment_time -- 以ms为单位的元组（segment_start，segment_end）
    """
    
    segment_start = np.random.randint(low=0, high=10000-segment_ms)   # 确保段不会超过10秒背景 
    segment_end = segment_start + segment_ms - 1
    
    return (segment_start, segment_end)

接下来，假设你在（1000,1800）和（3400,4500）段插入了音频剪辑。即第一个片段开始于1000步，结束于1800步。现在，如果我们考虑在（3000,3600）插入新的音频剪辑，这是否与先前插入的片段之一重叠？在这种情况下，（3000,3600）和（3400,4500）重叠，因此我们应该决定不要在此处插入片段。

出于此函数的目的，将（100,200）和（200,250）定义为重叠，因为它们在时间步200处重叠。但是，（100,199）和（200,250）是不重叠的。

练习：实现is_overlapping（segment_time，existing_segments）来检查新的时间段是否与之前的任何时间段重叠。你需要执行2个步骤：

创建一个“False”标志，如果发现有重叠，以后将其设置为“True”。
循环遍历previous_segments的开始和结束时间。将这些时间与细分的开始时间和结束时间进行比较。如果存在重叠，请将（1）中定义的标志设置为True。你可以使用：

for ....:  
     if ... <= ... and ... >= ...:  
         ...

提示：如果该段在上一个段结束之前开始，并且该段在上一个段开始之后结束，则存在重叠。

# GRADED FUNCTION: is_overlapping

def is_overlapping(segment_time, previous_segments):
    """
    检查段的时间是否与现有段的时间重叠。 
    
    参数：
    segment_time -- 新段的元组（segment_start，segment_end）
    previous_segments -- 现有段的元组列表（segment_start，segment_end） 
    
    返回：
    如果时间段与任何现有段重叠，则为True，否则为False
    """
    
    segment_start, segment_end = segment_time
    
    # 第一步：将重叠标识 overlap 初始化为“False”标志 (≈ 1 line)
    overlap = False
    
    # 第二步：循环遍历 previous_segments 的开始和结束时间。
    # 比较开始/结束时间，如果存在重叠，则将标志 overlap 设置为True (≈ 3 lines)
    for previous_start, previous_end in previous_segments:
        if segment_start <= previous_end and segment_end >= previous_start:
            overlap = True
            
    return overlap

overlap1 = is_overlapping((950, 1430), [(2000, 2550), (260, 949)])
overlap2 = is_overlapping((2305, 2950), [(824, 1532), (1900, 2305), (3424, 3656)])
print("Overlap 1 = ", overlap1)
print("Overlap 2 = ", overlap2)

Overlap 1 =  False
Overlap 2 =  True

现在，让我们使用以前的辅助函数在10秒钟的随机时间将新的音频片段插入到背景中，但是要确保任何新插入的片段都不会与之前的片段重叠。

练习：实现insert_audio_clip()以将音频片段叠加到背景10秒片段上。你将需要执行4个步骤：

以ms为单位获取正确持续时间的随机时间段。
确保该时间段与之前的任何时间段均不重叠。如果重叠，则返回步骤1并选择一个新的时间段。
将新时间段添加到现有时间段列表中，以便跟踪你插入的所有时间段。
使用pydub在背景上覆盖音频片段。我们已经为你实现了这一点。

# GRADED FUNCTION: insert_audio_clip

def insert_audio_clip(background, audio_clip, previous_segments):
    """
    在随机时间步骤中在背景噪声上插入新的音频片段，确保音频片段与现有片段不重叠。
    
    参数：
    background -- 10秒背景录音。 
    audio_clip -- 要插入/叠加的音频剪辑。 
    previous_segments -- 已放置的音频片段的时间
    
    返回：
    new_background -- 更新的背景音频
    """
    
    # 以ms为单位获取音频片段的持续时间
    segment_ms = len(audio_clip)
    
    # 第一步：使用其中一个辅助函数来选择要插入的随机时间段
    # 新的音频剪辑。 (≈ 1 line)
    segment_time = get_random_time_segment(segment_ms)
    
    # 第二步：检查新的segment_time是否与previous_segments之一重叠。  
    # 如果重叠如果是这样，请继续随机选择新的 segment_time 直到它不重叠。(≈ 2 lines)
    while is_overlapping(segment_time, previous_segments):
        segment_time = get_random_time_segment(segment_ms)

    # 第三步： 将新的 segment_time 添加到 previous_segments 列表中 (≈ 1 line)
    previous_segments.append(segment_time)
    
    # 第四步： 叠加音频片段和背景
    new_background = background.overlay(audio_clip, position = segment_time[0])
    
    return new_background, segment_time

np.random.seed(5)
audio_clip, segment_time = insert_audio_clip(backgrounds[0], activates[0], [(3790, 4400)])
audio_clip.export("insert_test.wav", format="wav")
print("Segment Time: ", segment_time)
IPython.display.Audio("insert_test.wav")

Segment Time:  (2915, 3635)
 
CSDN不支持播放音频

# 预期的音频
IPython.display.Audio("audio_examples/insert_reference.wav")

CSDN不支持播放音频

最后，假设你刚刚插入了"activate." ，则执行代码以更新标签 $y^{\langle t \rangle}$ 。在下面的代码中，由于 $T_y=1375$ ，所以y是一个 (1,1375)维向量。

如果"activate"在时间步骤 $t$ 结束，则设置 $y^{\langle t+1 \rangle} = 1$ 以及最多49个其他连续值。但是，请确保你没有用完数组的末尾并尝试更新y[0][1375]，由于 $T_y=1375$ ，所以有效索引是y[0][0]至y[0][1374]。因此，如果"activate" 在1370步结束，则只会得到y[0][1371] = y[0][1372] = y[0][1373] = y[0][1374] = 1

练习：实现insert_ones()。你可以使用for循环。（如果你是python的slice运算的专家，请随时使用切片对此向量化。）如果段以segment_end_ms结尾（使用10000步离散化），请将其转换为输出 $y$ 的索引（使用 $1375$ 步离散化），我们将使用以下公式：

    segment_end_y = int(segment_end_ms * Ty / 10000.0)

# GRADED FUNCTION: insert_ones

def insert_ones(y, segment_end_ms):
    """
    更新标签向量y。段结尾的后面50个输出的标签应设为 1。
    严格来说，我们的意思是 segment_end_y 的标签应该是 0，而随后的50个标签应该是1。
    
    参数：
    y -- numpy数组的维度 (1, Ty), 训练样例的标签
    segment_end_ms -- 以ms为单位的段的结束时间
    
    返回：
    y -- 更新标签
    """
    
    # 背景持续时间（以频谱图时间步长表示）
    segment_end_y = int(segment_end_ms * Ty / 10000.0)
    
    # 将1添加到背景标签（y）中的正确索引
    for i in range(segment_end_y + 1, segment_end_y + 51):
        if i < Ty:
            y[0, i] = 1
    
    return y

arr1 = insert_ones(np.zeros((1, Ty)), 9700)
plt.plot(insert_ones(arr1, 4251)[0,:])
print("sanity checks:", arr1[0][1333], arr1[0][634], arr1[0][635])

sanity checks: 0.0 1.0 0.0

最后，你可以使用insert_audio_clip和insert_ones来创建一个新的训练示例。

练习：实现create_training_example()。你需要执行以下步骤：

将标签向量 $y$ 初始化为维度为 $1,T_y)$ 的零numpy数组
将现有段的集合初始化为一个空列表
随机选择0到4个"activate"音频剪辑，并将其插入10秒剪辑中。还要在标签向量 $y$ 的正确位置插入标签。
随机选择0到2个负音频片段，并将其插入10秒片段中。

# GRADED FUNCTION: create_training_example

def create_training_example(background, activates, negatives):
    """
    创建具有给定背景，正例和负例的训练示例。
    
    参数：
    background -- 10秒背景录音
    activates --  "activate" 一词的音频片段列表
    negatives -- 不是 "activate" 一词的音频片段列表
    
    返回：
    x -- 训练样例的频谱图
    y -- 频谱图的每个时间步的标签
    """
    
    # 设置随机种子
    np.random.seed(18)
    
    # 让背景更安静
    background = background - 20

    # 第一步：初始化 y （标签向量）为0 (≈ 1 line)
    y = np.zeros((1, Ty))

    # 第二步：将段时间初始化为空列表 (≈ 1 line)
    previous_segments = []
    
    # 从整个 "activate" 录音列表中选择0-4随机 "activate" 音频片段
    number_of_activates = np.random.randint(0, 5)
    random_indices = np.random.randint(len(activates), size=number_of_activates)
    random_activates = [activates[i] for i in random_indices]
    
    # 第三步： 循环随机选择 "activate" 剪辑插入背景
    for random_activate in random_activates:
        # 插入音频剪辑到背景
        background, segment_time = insert_audio_clip(background, random_activate, previous_segments)
        # 从 segment_time 中取 segment_start 和 segment_end 
        segment_start, segment_end = segment_time
        # 在 "y" 中插入标签
        y = insert_ones(y, segment_end_ms=segment_end)
 
    # 从整个负例录音列表中随机选择0-2个负例录音
    number_of_negatives = np.random.randint(0, 3)
    random_indices = np.random.randint(len(negatives), size=number_of_negatives)
    random_negatives = [negatives[i] for i in random_indices]

     # 第四步： 循环随机选择负例片段并插入背景中
    for random_negative in random_negatives:
        # 插入音频剪辑到背景
        background, _ = insert_audio_clip(background, random_negative, previous_segments)
     
    # 标准化音频剪辑的音量 
    background = match_target_amplitude(background, -20.0)

    # 导出新的训练样例 
    file_handle = background.export("train" + ".wav", format="wav")
    print("文件 (train.wav) 已保存在您的目录中。")
    
    # 获取并绘制新录音的频谱图（正例和负例叠加的背景）
    x = graph_spectrogram("train.wav")
    
    return x, y

x, y = create_training_example(backgrounds[0], activates, negatives)

文件 (train.wav) 已保存在您的目录中。

现在，您可以聆听您创建的训练示例，并将其与上面生成的频谱图进行比较。

IPython.display.Audio("train.wav")

CSDN不支持播放音频

IPython.display.Audio("audio_examples/train_reference.wav")

CSDN不支持播放音频

最后，你可以为生成的训练示例绘制关联的标签。

plt.plot(y[0])

1.4 完整训练集

现在，你已经实现了生成单个训练示例所需的代码。我们使用此过程生成了大量的训练集。为了节省时间，我们已经生成了一组训练示例。

# 加载预处理的训练样例
X = np.load("./XY_train/X.npy")
Y = np.load("./XY_train/Y.npy")

1.5 开发集

为了测试我们的模型，我们记录了包含25个示例的开发集。在合成训练数据的同时，我们希望使用与实际输入相同的分布来创建开发集。因此，我们录制了25个10秒钟的人们说"activate"和其他随机单词的音频剪辑，并手动标记了它们。这遵循课程3中描述的原则，即我们应该将开发集创建为与测试集尽可能相似。这就是为什么我们的开发人员使用真实音频而非合成音频的原因。

# 加载预处理开发集示例
X_dev = np.load("./XY_dev/X_dev.npy")
Y_dev = np.load("./XY_dev/Y_dev.npy")

2 模型

现在，你已经建立了数据集，让我们编写和训练关键字识别模型！

该模型将使用一维卷积层，GRU层和密集层。让我们加载在Keras中使用这些层的软件包。加载可能需要一分钟。

from keras.callbacks import ModelCheckpoint
from keras.models import Model, load_model, Sequential
from keras.layers import Dense, Activation, Dropout, Input, Masking, TimeDistributed, LSTM, Conv1D
from keras.layers import GRU, Bidirectional, BatchNormalization, Reshape
from keras.optimizers import Adam

Using TensorFlow backend.

2.1 建立模型

这是我们将使用的模型架构。花一些时间查看模型，看看它是否合理。

图3

该模型的一个关键步骤是一维卷积步骤（图3的底部附近）。它输入5511步频谱图，并输出1375步，然后由多层进一步处理以获得最终的 $T_y=1375$ 步输出。该层的作用类似于你在课程4中看到的2D卷积，其作用是提取低级特征，然后生成较小尺寸的输出。

通过计算，一维转换层还有助于加快模型的速度，因为现在GRU只需要处理1375个时间步，而不是5511个时间步。这两个GRU层从左到右读取输入序列，然后最终使用dense+sigmoid层对 $y^{\langle t \rangle}$ 进行预测。因为 $y$ 是二进制值（0或1），所以我们在最后一层使用Sigmoid输出来估计输出为1的机率，对应用户刚刚说过"activate"。

请注意，我们使用的是单向RNN，而不是双向RNN。这对于关键字检测确实非常重要，因为我们希望能够在说出触发字后立即检测到触发字。如果我们使用双向RNN，则必须等待记录整个10秒的音频，然后才能知道在音频剪辑的第一秒中是否说了"activate"。

可以通过四个步骤来实现模型：

步骤1：CONV层。使用Conv1D()和196个滤波器来实现，
滤波器大小为15（kernel_size = 15），步幅为4。[See documentation.]

步骤2：第一个GRU层。要生成GRU层，请使用：

X = GRU(units = 128, return_sequences = True)(X)

设置return_sequences = True可以确保所有GRU的隐藏状态都被feed到下一层。请记住，在Dropout和BatchNorm层之后进行此操作。

步骤3：第二个GRU层。这类似于先前的GRU层（请记住使用return_sequences = True），但是有一个额外的dropout层。

步骤4：按以下步骤创建一个时间分布的密集层：

X = TimeDistributed(Dense(1, activation = "sigmoid"))(X)

这将创建一个紧随其后的Sigmoid密集层，因此用于密集层的参数对于每个时间步都是相同的。[See documentation.]

练习：实现model()，其架构如图3所示。

# GRADED FUNCTION: model

def model(input_shape):
    """
    用 Keras 创建模型的图 Function creating the model's graph in Keras.
    
    参数：
    input_shape -- 模型输入数据的维度（使用Keras约定）
    
    返回：
    model -- Keras 模型实例
    """
    
    X_input = Input(shape = input_shape)
    
    # 第一步：卷积层 (≈4 lines)
    X = Conv1D(196, 15, strides=4)(X_input)             # CONV1D
    X = BatchNormalization()(X)                         # Batch normalization 批量标准化
    X = Activation('relu')(X)                           # ReLu activation ReLu 激活
    X = Dropout(0.8)(X)                                 # dropout (use 0.8)

    # 第二步：第一个 GRU 层 (≈4 lines)
    X = GRU(units = 128, return_sequences=True)(X)      # GRU (使用128个单元并返回序列)
    X = Dropout(0.8)(X)                                 # dropout (use 0.8)
    X = BatchNormalization()(X)                         # Batch normalization 批量标准化

    # 第三步: 第二个 GRU 层  (≈4 lines)
    X = GRU(units = 128, return_sequences=True)(X)      # GRU (使用128个单元并返回序列)
    X = Dropout(0.8)(X)                                 # dropout (use 0.8)
    X = BatchNormalization()(X)                         # Batch normalization 批量标准化
    X = Dropout(0.8)(X)                                 # dropout (use 0.8)

    # 第四步： 时间分布全连接层 (≈1 line)
    X = TimeDistributed(Dense(1, activation = "sigmoid"))(X) # time distributed  (sigmoid)

    model = Model(inputs = X_input, outputs = X)
    
    return model

model = model(input_shape = (Tx, n_freq))

让我们输出模型总结以查看维度。

model.summary()

Model: "model_1"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
=================================================================
input_1 (InputLayer)         (None, 5511, 101)         0         
_________________________________________________________________
conv1d_1 (Conv1D)            (None, 1375, 196)         297136    
_________________________________________________________________
batch_normalization_1 (Batch (None, 1375, 196)         784       
_________________________________________________________________
activation_1 (Activation)    (None, 1375, 196)         0         
_________________________________________________________________
dropout_1 (Dropout)          (None, 1375, 196)         0         
_________________________________________________________________
gru_1 (GRU)                  (None, 1375, 128)         124800    
_________________________________________________________________
dropout_2 (Dropout)          (None, 1375, 128)         0         
_________________________________________________________________
batch_normalization_2 (Batch (None, 1375, 128)         512       
_________________________________________________________________
gru_2 (GRU)                  (None, 1375, 128)         98688     
_________________________________________________________________
dropout_3 (Dropout)          (None, 1375, 128)         0         
_________________________________________________________________
batch_normalization_3 (Batch (None, 1375, 128)         512       
_________________________________________________________________
dropout_4 (Dropout)          (None, 1375, 128)         0         
_________________________________________________________________
time_distributed_1 (TimeDist (None, 1375, 1)           129       
=================================================================
Total params: 522,561
Trainable params: 521,657
Non-trainable params: 904
_________________________________________________________________

网络的输出为（None，1375，1），输入为（None，5511，101）。Conv1D将步数从频谱图上的5511减少到1375。

2.2 拟合模型

关键词检测需要很长时间来训练。为了节省时间，我们已经使用你上面构建的架构在GPU上训练了大约3个小时的模型，并提供了大约4000个示例的大型训练集。让我们加载模型吧。

model = load_model('./models/tr_model.h5')

你可以使用Adam优化器和二进制交叉熵损失进一步训练模型，如下所示。这将很快运行，因为我们只训练一个epoch，并提供26个例子的小训练集。

opt = Adam(lr=0.0001, beta_1=0.9, beta_2=0.999, decay=0.01)
model.compile(loss='binary_crossentropy', optimizer=opt, metrics=["accuracy"])

model.fit(X, Y, batch_size = 5, epochs=1)

Epoch 1/1
26/26 [==============================] - 10s 381ms/step - loss: 0.0893 - accuracy: 0.9717

2.3 测试模型

最后，让我们看看你的模型在开发集上的表现。

loss, acc = model.evaluate(X_dev, Y_dev)
print("Dev set accuracy = ", acc)

25/25 [==============================] - 1s 37ms/step
Dev set accuracy =  0.9507200121879578

看起来不错！但是，精度并不是这项任务的重要指标，因为标签严重偏斜到0，因此仅输出0的神经网络的精度将略高于90％。我们可以定义更有用的指标，例如F1得分或“精确度/召回率”。但是，我们不要在这里使用它，而只是凭经验看看模型是如何工作的。

3 预测

现在，你已经建立了用于触发词检测的工作模型，让我们使用它来进行预测吧。此代码段通过网络运行音频（保存在wav文件中）。

可以使用你的模型对新的音频片段进行预测。

你首先需要计算输入音频剪辑的预测。

练习：实现predict_activates（）。你需要执行以下操作：

计算音频文件的频谱图
使用np.swap和np.expand_dims将输入调整为（1，Tx，n_freqs）大小
在模型上使用正向传播来计算每个输出步骤的预测

def detect_triggerword(filename):
    plt.subplot(2, 1, 1)

    x = graph_spectrogram(filename)
    # 频谱图输出（freqs，Tx），我们想要（Tx，freqs）输入到模型中
    x  = x.swapaxes(0,1)
    x = np.expand_dims(x, axis=0)
    predictions = model.predict(x)
    
    plt.subplot(2, 1, 2)
    plt.plot(predictions[0,:,0])
    plt.ylabel('probability')
    plt.show()
    return predictions

一旦估计了在每个输出步骤中检测到"activate"一词的可能性，就可以在该可能性高于某个阈值时触发出"chiming（蜂鸣）"声。此外，在说出"activate"之后，对于许多连续值， $y^{\langle t \rangle}$ 可能接近1，但我们只希望发出一次提示音。因此，每75个输出步骤最多将插入一次铃声。这将有助于防止我们为"activate"的单个实例插入两个提示音。（该作用类似于计算机视觉中的非极大值抑制）

练习：实现chime_on_activate（）。你需要执行以下操作：

遍历每个输出步骤的预测概率
当预测大于阈值并且经过了连续75个以上的时间步长时，在原始音频剪辑中插入"chime"

使用以下代码将1375步离散化转换为10000步离散化，并使用pydub插入“chime”：

audio_clip = audio_clip.overlay(chime, position = ((i / Ty) * audio.duration_seconds)*1000)

chime_file = "audio_examples/chime.wav"
def chime_on_activate(filename, predictions, threshold):
    audio_clip = AudioSegment.from_wav(filename)
    chime = AudioSegment.from_wav(chime_file)
    Ty = predictions.shape[1]
    # 第一步：将连续输出步初始化为0
    consecutive_timesteps = 0
    # 第二步： 循环y中的输出步
    for i in range(Ty):
        # 第三步： 增加连续输出步
        consecutive_timesteps += 1
        # 第四步： 如果预测高于阈值并且已经过了超过75个连续输出步
        if predictions[0,i,0] > threshold and consecutive_timesteps > 75:
            # 第五步：使用pydub叠加音频和背景
            audio_clip = audio_clip.overlay(chime, position = ((i / Ty) * audio_clip.duration_seconds)*1000)
            # 第六步： 将连续输出步重置为0
            consecutive_timesteps = 0
        
    audio_clip.export("chime_output.wav", format='wav')

3.1 测试开发集

让我们探讨一下我们的模型在开发集中的两个未知的音频剪辑上表现如何。首先让我们听听两个开发集剪辑。

IPython.display.Audio("./raw_data/dev/1.wav")

CSDN不支持播放音频

IPython.display.Audio("./raw_data/dev/2.wav")

CSDN不支持播放音频

现在，让我们在这些音频剪辑上运行模型，看看在"activate"之后它是否添加了提示音！

filename = "./raw_data/dev/1.wav"
prediction = detect_triggerword(filename)
chime_on_activate(filename, prediction, 0.5)
IPython.display.Audio("./chime_output.wav")

CSDN不支持播放音频

filename  = "./raw_data/dev/2.wav"
prediction = detect_triggerword(filename)
chime_on_activate(filename, prediction, 0.5)
IPython.display.Audio("./chime_output.wav")

CSDN不支持播放音频

这是你应该记住的：

数据合成是创建针对语音问题（尤其是触发词检测）大型训练集的有效方法。
在将音频数据传递到RNN，GRU或LSTM之前，使用频谱图和可选的1D转换层是常见的预处理步骤。
可以使用端到端的深度学习方法来构建非常有效的触发词检测系统。

4 试试你自己的例子！

在此笔记本的此可选练习中，你可以在自己的音频剪辑上尝试使用你的模型！

录制一个10秒钟的音频片段，说"activate"和其他随机单词，然后将其作为myaudio.wav上传到Coursera hub。确保将音频作为WAV文件上传。如果你的音频以其他格式（例如mp3）录制，则可以在线找到免费软件以将其转换为wav。如果你的录音时间不是10秒，则下面的代码将根据需要修剪或填充该声音，以使其达到10秒。

# 将音频预处理为正确的格式
def preprocess_audio(filename):
    # 将音频片段修剪或填充到 10000ms
    padding = AudioSegment.silent(duration=10000)
    segment = AudioSegment.from_wav(filename)[:10000]
    segment = padding.overlay(segment)
    # 将帧速率设置为 44100
    segment = segment.set_frame_rate(44100)
    # 导出为wav
    segment.export(filename, format='wav')

将音频文件上传到Coursera后，将文件路径放在下面的变量中。

your_filename = "audio_examples/my_audio.wav"

preprocess_audio(your_filename)
IPython.display.Audio(your_filename) # 听你上传的音频

CSDN不支持播放音频

最后，使用该模型预测在10秒的音频剪辑中何时说了"activate"并触发提示音。如果没有适当添加哔声，请尝试调整chime_threshold。

chime_threshold = 0.5
prediction = detect_triggerword(your_filename)
chime_on_activate(your_filename, prediction, chime_threshold)
IPython.display.Audio("./chime_output.wav")

CSDN不支持播放音频

你可能感兴趣的:(深度学习,python,深度学习,语音识别)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
python os.environ 江湖偌大 python 深度学习
os.environ['TF_CPP_MIN_LOG_LEVEL']='0'#默认值，输出所有信息os.environ['TF_CPP_MIN_LOG_LEVEL']='1'#屏蔽通知信息（INFO）os.environ['TF_CPP_MIN_LOG_LEVEL']='2'#屏蔽通知信息和警告信息（INFO\WARNING）os.environ['TF_CPP_MIN_LOG_LEVEL']='
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
python是什么意思中文-在python中%是什么意思编程大乐趣
Python中%有两种：1、数值运算：%代表取模，返回除法的余数。如：>>>7%212、%操作符（字符串格式化，stringformatting），说明如下：%[(name)][flags][width].[precision]typecode(name)为命名flags可以有+，-，''或0。+表示右对齐。-表示左对齐。''为一个空格，表示在正数的左侧填充一个空格，从而与负数对齐。0表示使用0填
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
python八股文面试题分享及解析(1) Shawn________ python
#1.'''a=1b=2不用中间变量交换a和b'''#1.a=1b=2a,b=b,aprint(a)print(b)结果：21#2.ll=[]foriinrange(3):ll.append({'num':i})print(11)结果:#[{'num':0},{'num':1},{'num':2}]#3.kk=[]a={'num':0}foriinrange(3):#0,12#可变类型，不仅仅改变
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
Python快速入门 —— 第三节：类与对象孤华暗香 Python快速入门 python 开发语言
第三节：类与对象目标：了解面向对象编程的基础概念，并学会如何定义类和创建对象。内容：类与对象：定义类：class关键字。类的构造函数：__init__()。类的属性和方法。对象的创建与使用。示例：classStudent:def__init__(self,name,age,major):self.name&#
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
Python 实现图片裁剪（附代码） | Python工具剑客阿良_ALiang
前言本文提供将图片按照自定义尺寸进行裁剪的工具方法，一如既往的实用主义。环境依赖ffmpeg环境安装，可以参考我的另一篇文章：windowsffmpeg安装部署_阿良的博客-CSDN博客本文主要使用到的不是ffmpeg，而是ffprobe也在上面这篇文章中的zip包中。ffmpy安装：pipinstallffmpy-ihttps://pypi.douban.com/simple代码不废话了，上代码
【华为OD技术面试真题 - 技术面】- python八股文真题题库（4) 算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选**1.Python中的`with`**用途和功能自动资源管理示例：文件操作上下文管理协议示例代码工作流程解析优点2.\_\_new\_\_和**\_\_init\_\_**区别__new____init__区别总结3.**切片（Slicing）操作**基本切片语法
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
Python中深拷贝与浅拷贝的区别 yuxiaoyu.
转自：http://blog.csdn.net/u014745194/article/details/70271868定义：在Python中对象的赋值其实就是对象的引用。当创建一个对象，把它赋值给另一个变量的时候，python并没有拷贝这个对象，只是拷贝了这个对象的引用而已。浅拷贝：拷贝了最外围的对象本身，内部的元素都只是拷贝了一个引用而已。也就是，把对象复制一遍，但是该对象中引用的其他对象我不复
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python编译器鹿鹿~ Python编译器 Python python 开发语言后端
嘿嘿嘿我又来了啊有些小盆友可能不知道Python其实是有编译器的，也就是PyCharm。你们可能会问到这个是干嘛的又不可以吃也不可以穿好像没有什么用，其实你还说对了这个还真的不可以吃也不可以穿，但是它用来干嘛的呢。用来编译你所打出的代码进行运行（可能这里说的有点不对但是只是个人认为）现在我们来说说PyCharm是用来干嘛的。PyCharm是一种PythonIDE，带有一整套可以帮助用户在使用Pyt
一文掌握python面向对象魔术方法（二）程序员neil python python 开发语言
接上篇：一文掌握python面向对象魔术方法（一）-CSDN博客目录六、迭代和序列化：1、__iter__(self):定义迭代器，使得类可以被for循环迭代。2、__getitem__(self,key):定义索引操作，如obj[key]。3、__setitem__(self,key,value):定义赋值操作，如obj[key]=value。4、__delitem__(self,key):定义
一文掌握python常用的list（列表）操作程序员neil python python 开发语言
目录一、创建列表1.直接创建列表：2.使用list()构造器3.使用列表推导式4.创建空列表二、访问列表元素1.列表支持通过索引访问元素，索引从0开始：2.还可以使用切片操作访问列表的一部分：三、修改列表元素四、添加元素1.append()：在末尾添加元素2.insert()：在指定位置插入元素五、删除元素1.del：删除指定位置的元素2.remove()：删除指定值的第一个匹配项3.pop()：
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
python中的深拷贝与浅拷贝 anshejd70787 python
深拷贝和浅拷贝浅拷贝的时候，修改原来的对象，浅拷贝的对象不会发生改变。1、对象的赋值对象的赋值实际上是对象之间的引用：当创建一个对象，然后将这个对象赋值给另外一个变量的时候，python并没有拷贝这个对象，而只是拷贝了这个对象的引用。当对对象做赋值或者是参数传递或者作为返回值的时候，总是传递原始对象的引用，而不是一个副本。如下所示：>>>aList=["kel","abc",123]>>>bLis
JAVA中的Enum 周凡杨 java enum 枚举
Enum是计算机编程语言中的一种数据类型---枚举类型。在实际问题中，有些变量的取值被限定在一个有限的范围内。例如，一个星期内只有七天我们通常这样实现上面的定义： public String monday; public String tuesday; public String wensday; public String thursday
赶集网mysql开发36条军规 Bill_chen mysql 业务架构设计 mysql调优 mysql性能优化
(一)核心军规 (1)不在数据库做运算 cpu计算务必移至业务层； (2)控制单表数据量 int型不超过1000w，含char则不超过500w；合理分表；限制单库表数量在300以内； (3)控制列数量字段少而精，字段数建议在20以内
Shell test命令 daizj shell 字符串 test 数字文件比较
Shell test命令 Shell中的 test 命令用于检查某个条件是否成立，它可以进行数值、字符和文件三个方面的测试。数值测试参数说明 -eq 等于则为真 -ne 不等于则为真 -gt 大于则为真 -ge 大于等于则为真 -lt 小于则为真 -le 小于等于则为真实例演示： num1=100 num2=100if test $[num1]
XFire框架实现WebService(二) 周凡杨 java webservice
有了XFire框架实现WebService(一)，就可以继续开发WebService的简单应用。 Webservice的服务端(WEB工程)：两个java bean类： Course.java package cn.com.bean; public class Course { private
重绘之画图板朱辉辉33 画图板
上次博客讲的五子棋重绘比较简单，因为只要在重写系统重绘方法paint（）时加入棋盘和棋子的绘制。这次我想说说画图板的重绘。画图板重绘难在需要重绘的类型很多，比如说里面有矩形，园，直线之类的，所以我们要想办法将里面的图形加入一个队列中，这样在重绘时就
Java的IO流西蜀石兰 java
刚学Java的IO流时，被各种inputStream流弄的很迷糊，看老罗视频时说想象成插在文件上的一根管道，当初听时觉得自己很明白，可到自己用时，有不知道怎么代码了。。。每当遇到这种问题时，我习惯性的从头开始理逻辑，会问自己一些很简单的问题，把这些简单的问题想明白了，再看代码时才不会迷糊。 IO流作用是什么？答：实现对文件的读写，这里的文件是广义的； Java如何实现程序到文件
No matching PlatformTransactionManager bean found for qualifier 'add' - neither 林鹤霄
java.lang.IllegalStateException: No matching PlatformTransactionManager bean found for qualifier 'add' - neither qualifier match nor bean name match! 网上找了好多的资料没能解决，后来发现：项目中使用的是xml配置的方式配置事务，但是
Row size too large (> 8126). Changing some columns to TEXT or BLOB aigo column
原文：http://stackoverflow.com/questions/15585602/change-limit-for-mysql-row-size-too-large 异常信息： Row size too large (> 8126). Changing some columns to TEXT or BLOB or using ROW_FORMAT=DYNAM
JS 格式化时间 alxw4616 JavaScript
/** * 格式化时间 2013/6/13 by 半仙 [email protected] * 需要 pad 函数 * 接收可用的时间值. * 返回替换时间占位符后的字符串 * * 时间占位符:年 Y 月 M 日 D 小时 h 分 m 秒 s 重复次数表示占位数 * 如 YYYY 4占4位 YY 占2位<p></p> * MM DD hh mm
队列中数据的移除问题百合不是茶队列移除
队列的移除一般都是使用的remov();都可以移除的,但是在昨天做线程移除的时候出现了点问题,没有将遍历出来的全部移除, 代码如下; // package com.Thread0715.com; import java.util.ArrayList; public class Threa
Runnable接口使用实例 bijian1013 java thread Runnable java多线程
Runnable接口 a. 该接口只有一个方法：public void run(); b. 实现该接口的类必须覆盖该run方法 c. 实现了Runnable接口的类并不具有任何天
oracle里的extend详解 bijian1013 oracle 数据库 extend
扩展已知的数组空间，例： DECLARE TYPE CourseList IS TABLE OF VARCHAR2(10); courses CourseList; BEGIN -- 初始化数组元素，大小为3 courses := CourseList('Biol 4412 ', 'Psyc 3112 ', 'Anth 3001 '); --
【httpclient】httpclient发送表单POST请求 bit1129 httpclient
浏览器Form Post请求浏览器可以通过提交表单的方式向服务器发起POST请求，这种形式的POST请求不同于一般的POST请求 1. 一般的POST请求，将请求数据放置于请求体中，服务器端以二进制流的方式读取数据，HttpServletRequest.getInputStream()。这种方式的请求可以处理任意数据形式的POST请求，比如请求数据是字符串或者是二进制数据 2. Form
【Hive十三】Hive读写Avro格式的数据 bit1129 hive
1. 原始数据 hive> select * from word; OK 1 MSN 10 QQ 100 Gtalk 1000 Skype 2. 创建avro格式的数据表 hive> CREATE TABLE avro_table(age INT, name STRING)STORE
nginx+lua+redis自动识别封解禁频繁访问IP ronin47
在站点遇到攻击且无明显攻击特征，造成站点访问慢，nginx不断返回502等错误时，可利用nginx+lua+redis实现在指定的时间段内，若单IP的请求量达到指定的数量后对该IP进行封禁，nginx返回403禁止访问。利用redis的expire命令设置封禁IP的过期时间达到在指定的封禁时间后实行自动解封的目的。一、安装环境： CentOS x64 release 6.4(Fin
java-二叉树的遍历-先序、中序、后序（递归和非递归）、层次遍历 bylijinnan java
import java.util.LinkedList; import java.util.List; import java.util.Stack; public class BinTreeTraverse { //private int[] array={ 1, 2, 3, 4, 5, 6, 7, 8, 9 }; private int[] array={ 10,6,
Spring源码学习-XML 配置方式的IoC容器启动过程分析 bylijinnan java spring IOC
以FileSystemXmlApplicationContext为例，把Spring IoC容器的初始化流程走一遍： ApplicationContext context = new FileSystemXmlApplicationContext ("C:/Users/ZARA/workspace/HelloSpring/src/Beans.xml&q
[科研与项目]民营企业请慎重参与军事科技工程 comsci 企业
军事科研工程和项目并非要用最先进，最时髦的技术，而是要做到“万无一失” 而民营科技企业在搞科技创新工程的时候，往往考虑的是技术的先进性，而对先进技术带来的风险考虑得不够，在今天提倡军民融合发展的大环境下，这种“万无一失”和“时髦性”的矛盾会日益凸显。。。。。。所以请大家在参与任何重大的军事和政府项目之前，对
spring 定时器-两种方式 cuityang spring quartz 定时器
方式一：间隔一定时间运行 <bean id="updateSessionIdTask" class="com.yang.iprms.common.UpdateSessionTask" autowire="byName" /> <bean id="updateSessionIdSchedule
简述一下关于BroadView站点的相关设计 damoqiongqiu view
终于弄上线了，累趴，戳这里http://www.broadview.com.cn 简述一下相关的技术点前端：jQuery+BootStrap3.2+HandleBars，全站Ajax（貌似对SEO的影响很大啊！怎么破？），用Grunt对全部JS做了压缩处理，对部分JS和CSS做了合并（模块间存在很多依赖，全部合并比较繁琐，待完善）。后端：U
运维 PHP问题汇总 dcj3sjt126com windows2003
1、Dede(织梦)发表文章时,内容自动添加关键字显示空白页解决方法：后台>系统>系统基本参数>核心设置>关键字替换（是/否），这里选择“是”。后台>系统>系统基本参数>其他选项>自动提取关键字，这里选择“是”。 2、解决PHP168超级管理员上传图片提示你的空间不足网站是用PHP168做的，反映使用管理员在后台无法
mac 下安装php扩展 - mcrypt dcj3sjt126com PHP
MCrypt是一个功能强大的加密算法扩展库，它包括有22种算法，phpMyAdmin依赖这个PHP扩展，具体如下：下载并解压libmcrypt-2.5.8.tar.gz。在终端执行如下命令： tar zxvf libmcrypt-2.5.8.tar.gz cd libmcrypt-2.5.8/ ./configure --disable-posix-threads --
MongoDB更新文档 [四] eksliang mongodb Mongodb更新文档
MongoDB更新文档转载请出自出处：http://eksliang.iteye.com/blog/2174104 MongoDB对文档的CURD，前面的博客简单介绍了，但是对文档更新篇幅比较大，所以这里单独拿出来。语法结构如下： db.collection.update( criteria, objNew, upsert, multi) 参数含义参数
Linux下的解压，移除，复制，查看tomcat命令 y806839048 tomcat
重复myeclipse生成webservice有问题删除以前的，干净 1、先切换到：cd usr/local/tomcat5/logs 2、tail -f catalina.out 3、这样运行时就可以实时查看运行日志了 Ctrl+c 是退出tail命令。有问题不明的先注掉 cp /opt/tomcat-6.0.44/webapps/g
Spring之使用事务缘由(3-XML实现) ihuning spring
用事务通知声明式地管理事务事务管理是一种横切关注点。为了在 Spring 2.x 中启用声明式事务管理，可以通过 tx Schema 中定义的 <tx:advice> 元素声明事务通知，为此必须事先将这个 Schema 定义添加到 <beans> 根元素中去。声明了事务通知后，就需要将它与切入点关联起来。由于事务通知是在 <aop:
GCD使用经验与技巧浅谈啸笑天 GC
前言 GCD(Grand Central Dispatch)可以说是Mac、iOS开发中的一大“利器”，本文就总结一些有关使用GCD的经验与技巧。 dispatch_once_t必须是全局或static变量这一条算是“老生常谈”了，但我认为还是有必要强调一次，毕竟非全局或非static的dispatch_once_t变量在使用时会导致非常不好排查的bug，正确的如下： 1
linux（Ubuntu）下常用命令备忘录1 macroli linux 工作 ubuntu
在使用下面的命令是可以通过--help来获取更多的信息1,查询当前目录文件列表：ls ls命令默认状态下将按首字母升序列出你当前文件夹下面的所有内容，但这样直接运行所得到的信息也是比较少的，通常它可以结合以下这些参数运行以查询更多的信息： ls / 显示/.下的所有文件和目录 ls -l 给出文件或者文件夹的详细信息 ls -a 显示所有文件，包括隐藏文
nodejs同步操作mysql qiaolevip 学习永无止境每天进步一点点 mysql nodejs
// db-util.js var mysql = require('mysql'); var pool = mysql.createPool({ connectionLimit : 10, host: 'localhost', user: 'root', password: '', database: 'test', port: 3306 });
一起学Hive系列文章 superlxw1234 hive Hive入门
[一起学Hive]系列文章目录贴，入门Hive，持续更新中。 [一起学Hive]之一—Hive概述，Hive是什么 [一起学Hive]之二—Hive函数大全-完整版 [一起学Hive]之三—Hive中的数据库(Database)和表(Table) [一起学Hive]之四-Hive的安装配置 [一起学Hive]之五-Hive的视图和分区 [一起学Hive
Spring开发利器：Spring Tool Suite 3.7.0 发布 wiselyman spring
Spring Tool Suite(简称STS)是基于Eclipse，专门针对Spring开发者提供大量的便捷功能的优秀开发工具。在3.7.0版本主要做了如下的更新：将eclipse版本更新至Eclipse Mars 4.5 GA Spring Boot(JavaEE开发的颠覆者集大成者，推荐大家学习)的配置语言YAML编辑器的支持(包含自动提示，