凌逆战

语音和噪声相关数据集(持续更新)

博客地址：博客园（转载请注明出处）

博客作者：凌逆战

语音数据集

TIMIT

官方提供的下载地址：TIMIT Acoustic-Phonetic Continuous Speech Corpus - Linguistic Data Consortium

免费下载地址：https://goo.gl/l0sPwz(420M)

　　TIMIT 共包含 6300 个句子，10 个句子由来自美国 8 个主要方言区的 630 位说话人。

Timit原始数据虽然是以wav结尾的但是格式却不是wav，而是sphere格式，用python中的sphfile库把他转换成wav：

from sphfile import SPHFile
import glob
import os
 
if __name__ == "__main__":
    path = 'D:/pycharm_proj/corpus/data/lisa/data/timit/raw/TIMIT/TRAIN/*/*/*.WAV'
    sph_files = glob.glob(path)
    print(len(sph_files),"train utterences")
    for i in sph_files:
        sph = SPHFile(i)
        sph.write_wav(filename=i.replace(".WAV","_.wav"))
        os.remove(i)
    path = 'D:/pycharm_proj/corpus/data/lisa/data/timit/raw/TIMIT/TEST/*/*/*.WAV'
    sph_files_test = glob.glob(path)
    print(len(sph_files_test),"test utterences")
    for i in sph_files_test:
        sph = SPHFile(i)
        sph.write_wav(filename=i.replace(".WAV","_.wav"))
        os.remove(i)
    print("Completed")

VCTK

下载地址：传送门（10.94Gb）

　　CSTR VCTK 语料库包括 110 位具有各种口音的英语使用者的语音数据。每个发言者读出大约 400 个句子，所有语音数据都是使用相同的录音设置录制的：全向麦克风 (DPA 4035)和一个小振膜电容麦克风，具有非常宽的带宽（Sennheiser MKH 800），96kHz 采样频率，24 位，在爱丁堡大学的半消声室中。所有录音都转换为 16 位，下采样到 48 kHz，并手动设置终点。

AISHELL-ASR0009-OS1 开源中文语音数据库

下载地址：传送门（14.51Gb）

　　时长178小时，录音文本涉及智能家居、无人驾驶、工业生产等11个领域。录制过程在安静室内环境中，同时使用3种不同设备：高保真麦克风（44.1kHz，16-bit）；Android系统手机（16kHz，16-bit）；iOS系统手机（16kHz，16-bit）。高保真麦克风录制的音频降采样为16kHz。400名来自中国不同口音区域的发言人参与录制。

AISHELL-2 中文语音数据库

　　时长为1000小时，其中718小时来自AISHELL-ASR0009，282小时来自AISHELL-ASR0010。录音文本涉及唤醒词、语音控制词、智能家居、无人驾驶、工业生产等12个领域。录制过程在安静室内环境中，同时使用3种不同设备：高保真麦克风（44.1kHz，16bit）；Android系统手机（16kHz，16bit）；iOS系统手机（16kHz，16bit）。AISHELL-2采用iOS系统手机录制的语音数据。1991名来自中国不同口音区域的发言人参与录制。

AISHELL-3 高保真中文语音数据库

　　时长为85小时88035句，可做为多说话人合成系统。录制过程在安静室内环境中，使用高保真麦克风（44.1kHz，16bit）。218名来自中国不同口音区域的发言人参与录制。

AISHELL-WakeUp-1 中英文唤醒词语音数据库

AISHELL-DMASH 中文普通话麦克风阵列家居场景语音数据库

AISHELL-4 多通道中文会议语音数据库

Mozilla Common Voice

下载地址：Common Voice

时长：1965小时（目前为止）

最早2017年发布，持续更新，该基金会表示，通过 Common Voice 网站和移动应用，他们正在积极开展 70 种语言的数据收集工作。

Mozilla 宣称其拥有可供使用的最大的人类语音数据集，当前数据集有包括 29 种不同的语言,其中包括汉语，从 4万多名贡献者那里收集了近 2454 小时（其中1965小时已验证）的录音语音数据。并且做出了开放的承诺：向初创公司、研究人员以及对语音技术感兴趣的任何人公开我们收集到的高质量语音数据。

Tatoeba

下载地址：传送门

　　项目始于2006年tatoeba是一个用于语言学习的句子、翻译和口语音频的大型数据库。收集面向外语学习者的例句的网站，用户无须注册便可以搜索任何单词的例句。如果例句含有对应的真人发音，也可以点击收听。注册用户可以添加、翻译、接管、改进、讨论句子。还可以在留言板上和其他注册用户讨论。在留言板上，所有的语言都是平等的，注册用户可以使用自己喜欢的语言与其他用户交流。

噪声数据集

noise-92

下载地址：传送门（250M）

音频参数：19980Hz；单通道，16位深

以mat格式存储，可以通过下面的脚本转换到wav格式，所有噪声的持续时间为 235 秒，19.98 KHz 的采样率、具有 16 位的模数转换器 (A/D)、抗混叠滤波器和无预加重级获得。包含15种噪声类型：White Noise、Pink Noise、Speech Babble、Factory Floor Noise 1、Factory Floor Noise 2、Cockpit Noise 1 (Buccaneer Jet Traveling at 190 knots)、Cockpit Noise 2 (Buccaneer Jet Traveling at 450 knots)、Cockpit Noise 3 (F-16)、Engine Room Noise (Destroyer)、Operations Room Background Noise (Destroyer)、Military Vehicle Noise (Leopard)、Military Vehicle Noise (M109)、Machine Gun Noise、Vehicle Interior Noise (Volvo 340)、HF Channel Noise

将mat格式的音频转成wav

mat_file=dir('./*.mat');
sr=19980;

for n=1:length(mat_file)
    disp(mat_file(n).name);
    load(mat_file(n).name);
    name = eval(mat_file(n).name(1:end-4));
    % 为了避免写入被截断，需要归一化到(-1,1)
    % 方法1
%     max_val = max(name);
%     min_val = min(name);
%     name = ((name-min_val)./(max_val-min_val) - 0.5 ) *2;
    % 方法2
    name = rescale(name, -1, 1);
    
    audiowrite(strrep(mat_file(n).name,'mat','wav'),name,sr);
end

NOIZEUS数据集

下载地址：NOIZEUS：用于评估语音增强算法的嘈杂语音语料库（噪声和纯净语音对）

包含30个IEEE 句子（由三名男性和三名女性发言者产生），被不同 SNR 下的八种不同的真实世界噪声破坏。噪音包括郊区火车噪音、杂音、汽车、展览厅、餐厅、街道、机场和火车站噪音。

DEMAND

下载地址：传送门（7.4Gb）

音频参数：48 kHz 和 16 kHz 采样率在一个目录中以 16 个单通道 WAV 文件的形式提供

16 通道环境噪声记录数据库

　　麦克风阵列是几个麦克风的（通常规则的）排列，允许使用许多有趣的信号处理技术。例如，来自彼此相距很近的麦克风的音频信号的相关性可以用于确定声源相对于阵列的空间位置，或基于声音到达阵列的方向隔离或增强信号。

　　通常，考虑声学背景噪声的麦克风阵列实验使用受控环境或模拟环境。这种人工设置在噪声源方面通常是稀疏的。其他已经存在的真实世界噪声数据库(例如AURORA-2语料库、CHiME背景噪声数据或NOISEX-92数据库)往往只提供非常有限的环境多样性，最多只能提供2个通道。

　　这里介绍的DEMAND(多元环境多通道声学噪声数据库)提供了一组录音，允许在各种设置下使用真实环境的噪声测试算法。这个版本提供了15个录音。所有录音都使用16通道阵列，麦克风之间的最小距离为5厘米，最大距离为21.8厘米。

PNL 100 Nonspeech Sounds

下载地址：传送门（~10M）

音频格式：20kHz采样率，单声道，16位深

这些非语音、环境声音可以用作评估语音分离系统等的非语音噪声

Crowd 人群噪音：N1-N17
Machine 机器噪音：N18-N29
Alarms 警报和警报器：N30-N43
Traffic 交通和汽车噪音: N44-N46 
Animal 动物声音：N47-N55
water 水声：N56-N69
Wind 风：N70-N78
Bell 铃：N79-N82
Cough 咳嗽：N83-N85
clap hands 拍手：N86
Snoring 打鼾：N87
Click 点击：N88
lol 笑：N88-N90
Yawn 打哈欠：N91-N92
cry 哭：N93
Shower 淋浴：N94
Brush your teeth 刷牙：N95
Footsteps 脚步声：N96-N97
Door Movement 门移动：N98
Telephone dialing 电话拨号：N99-N100

rnnoise_ontributions

RNNoise提供的捐赠数据集，大部分是一些办公室噪声，下载地址：传送门（6.41G）。

ESC-50：环境声音分类数据集

下载地址：https://github.com/karolpiczak/ESC-50（~600MB）

国内镜像：工作台 - Heywhale.com

音频参数：44.1kHz；单通道，16位深

　　ESC-50数据集是从Freesound.org中剪辑得到的2000份环境音频的标记集合，适用于环境声音分类。该数据集由5秒长的录音组成，组织成5大类，每个大类有10小类(每个小·类有40个示例)，

动物：狗、公鸡、猪、奶牛、青蛙、猫、母鸡、昆虫（飞行）、羊、乌鸦
自然声音和水声：雨、海浪、噼啪作响的火、蟋蟀、鸟鸣、水滴、风、倒水、冲水马桶、雷雨
人类的非语音声音：婴儿啼哭、打喷嚏、鼓掌、呼吸、咳嗽、脚步声、笑、刷牙、打鼾、喝酒，啜饮
室内/家庭声音：敲门声、鼠标点击、键盘打字、门，木头吱吱作响、开罐头、洗衣机、吸尘器、时钟闹钟、时钟滴答声、玻璃破碎
外部/城市噪声：直升机、电锯、警笛、汽车喇叭、引擎、火车、教堂的钟声、飞机、烟花、手锯

# -*- coding:utf-8 -*-
# Author:凌逆战 | Never.Ling
# Date: 2022/8/8
"""
对ESC-50数据集，根据噪声类别分类
"""
import os
import librosa
import pandas as pd
import soundfile

csv_path = "./esc50.csv"
dataset_path = "G:/dataset/noise_dataset/ESC-50"
class_basepath = "G:/dataset/noise_dataset/ESC-50/class"

sr = 16000
trainData = pd.read_csv(csv_path)

for filename, category in zip(trainData["filename"], trainData["category"]):
    noise_path = os.path.join(dataset_path, "audio", filename)
    class_path = os.path.join(class_basepath, category)
    if not os.path.exists(class_path):
        os.makedirs(class_path)

    new_path = os.path.join(class_path, "ESC50_" + filename)
    print("new_path", new_path)
    y = librosa.load(noise_path, sr, mono=True)[0]
    soundfile.write(new_path, data=y, samplerate=sr)

分类脚本

ESC环境噪音分类数据集

下载地址：传送门（26.8GB）

音频参数：44.1kHz，单通道，5 秒长剪辑

ESC 数据集是一组以统一格式提供的短期环境记录。所有剪辑都从通过项目项目获得的公共Freesound.org中提取。

数据集由三部分组成：

ESC-50：一组有 2000 个环境记录（50 个类，每类 40 个剪辑），
ESC-10：一组有 400 个环境记录（每类 10 个类，40 个剪辑）（这是 ESC-50 的子集 - 创建初始化，作为概念验证/简单录制的标准化选择），
ESC-US：一个未标记的数据集，包含 25 万个环境记录（5 秒长的剪辑），适合无监督的预培训。

婴儿啼哭数据集

https://github.com/giulbia/baby_cry_detection（310M）

https://github.com/gveres/donateacry-corpus（48.2M）

科大讯飞婴儿啼哭声识别挑战赛（810M）

链接：百度网盘请输入提取码
提取码：wh47

MS-SNSD

下载地址：传送门

音频格式：16kHz，单声道，16位深

冷气机、机场公告、Babble、复印机、咀嚼、邻居、关门、打字、吸尘器

QUT-NOISE

下载地址：传送门（7.70Gb）

音频格式：采样率48kHz；双声道；16位深

音频参数：街道、咖啡厅、汽车、家庭、混响、

freesound-datasets

下载地址：传送门

STARSS22：Sony-TAu Realistic Spatial Soundscapes 2022

下载地址：传送门

VOICe Dataset

下载地址：传送门（3.23GB）

音频格式：44.1kHz；单声道；32位(浮点)位深

用于开发和评估通用声音事件检测域适应方法的新数据集！

婴儿哭声
玻璃破碎
枪声

VOICe 由三种不同声音事件的 1449 种不同混合组成：

1242 个混合了三种不同类别的声学场景（“车辆”、“户外”和“室内”）的背景噪声，在 2 个 SNR 值（-3，-9 dB）下混合，即 207 个混合 x 3 个声学场景 x 2 个信噪比 = 1242
207 种没有任何背景噪音的混合物。

In-Vehicle Noise Dataset

下载地址：传送门（~2.47GB）

音频参数：44.1 kHz，16 位，2通道

　　这个开源数据集包含来自多个来源的 5.08 小时车内噪声，其中包含 7 条噪声。噪声源可能包括

轮胎噪声
发动机噪声
收音机
人声

Vehicle Interior Sound Dataset

下载地址：传送门VISC Dataset SON（1.2GB）

音频参数：44.1kHz；双声道；16位深

　　使用的数据集是从 YouTube 的不同车辆类型的驾驶视点 (PoV) 收集的。这些只是车内声音。没有司机，也没有人声。5980个声音被记录了8个类。这些车辆在露天的柏油路上行驶。我们不喜欢在雨天在未铺砌的道路上收集车内声音。

这些数据的文件格式是 wav。使用声音的长度在 3-5 秒的范围内，频率为 48 kHz。选择的车辆类型是公共汽车、小巴、皮卡、跑车、吉普车、卡车、跨界车和轿车（汽车）。收集的车辆内部声音 (VIS) 数据集的属性总结在表中。

Bus（公交车）：850个样本
Minibus（面包车）：850个样本
Pickup（小卡车）：850个样本
Sports Car（跑车）：850个样本
Jeep（吉普车）：850个样本
Truck（卡车）：850个样本
Crossover（转线路）：850个样本
Car (C级 – 4K)：850个样本
total:5980

MAVD交通数据集

下载地址：传送门（~1.3G）

音频参数：44.1kHz，单声道，32位浮点

　　MAVD：城市环境中声音事件检测的数据集，该版本主要关注马路边收集交通噪声，因此得名MAVD-traffic，除了音频记录，它还包括同步视频文件。声音事件注释遵循一个交通声音本体，该本体是一组两种分类的组合：车辆类型(如汽车、公共汽车)和车辆组件(如发动机、刹车)，以及一组与之相关的动作(如空转、加速)。

Dataset-AOB：城市声音事件分类

下载地址：Dataset-AOB: urban sounds events classification | Zenodo（~2G）

音频参数：采样率：22KHz - 44KHz，< 4 秒

数据集 Dataset-AOB 是使用卷积神经网络为硕士论文收集和手动编辑的城市声音事件分类的音频数据集：

警报器
儿童玩耍
狗吠
引擎
脚步声
玻璃破碎
枪声
地铁列车
下雨和尖叫声

CHiME-Home

任务描述：DCASE 2016 Domestic audio tagging

下载地址：传送门（3.9GB）

音频格式：音频数据以两个采样率（48kHz 和 16kHz）的 4 秒块提供，其中 48kHz 数据为立体声，16kHz 数据为单声道。16kHz 录音是通过对 48kHz 录音的右手通道进行下采样获得的。

　　声学环境中的主要声源是两个成人和两个儿童、电视和电子产品、厨房用具、人类活动产生的脚步声和敲击声，以及来自屋外的声音[Christensen2010]。音频数据以两个采样率（48kHz 和 16kHz）的 4 秒块提供，其中 48kHz 数据为立体声，16kHz 数据为单声道。16kHz 录音是通过对 48kHz 录音的右手通道进行下采样获得的。每个音频文件对应一个块。

所有可用的音频数据都可用于系统开发，但将使用以 16kHz 采样的单声道音频数据进行评估，目的是接近商用硬件的典型录音能力。

UrbanSound

下载地址：传送门（17.9 GB）

音频格式：44.1kHz；双声道；16位深

该数据集包含 1302 条带标签的录音。每个录音都标有 10 个类别的声音事件的开始和结束时间。每个录音可能包含多个声音事件，但对于每个文件，仅标记来自单个类的事件。这些类来自城市声音分类。

空调设备 air_conditioner
汽车喇叭 car_horn
小孩玩耍 children_playing
狗吠 dog_bark
钻孔 drilling
发动机 enginge_idling
枪射击 gun_shot
手提 jackhammer
汽笛，警报器 siren
街头音乐 street_music

UrbanSound8K

下载地址：传送门（6.60GB）

音频格式：44.1kHz；双声道；16位深

该数据集包含来自 10 个类别的城市声音的 8732 个标记声音摘录 (<=4s)。这些类来自城市声音分类。

空调设备 air_conditioner
汽车喇叭 car_horn
小孩玩耍 children_playing
狗吠 dog_bark
钻孔 drilling
发动机 enginge_idling
枪射击 gun_shot
手提 jackhammer
汽笛，警报器 siren
街头音乐 street_music

Isolated urban sound database

下载地址：传送门（2.3G）

音频格式：44.1kHz；双声道；16位深

数据集包含两个文件夹：

事件：包括 231 个被视为突出的简短声音样本，持续时间为 1 到 20 秒，分为 21 个声音类别（铃声、哨声、汽车喇叭、过往汽车、锤子、吠狗、警笛、脚步声、金属噪音、声音……）
背景：包括 162 个持续时间较长的声音（~1mn30），其声学特性不会随时间变化。此类别包括鸣叫的鸟鸣、人群噪音、下雨、在校园里玩耍的孩子、持续的交通噪音......

Acoustic Event Dataset

下载地址：传送门（1.2GB）

acoustic guitar：原声吉他
airplane：飞机
applause：掌声
bird：鸟
car：车
cat：猫
child：小孩
church bell：教堂钟声
crowd：人群
dog_barking：狗吠
engine：发送机
fireworks：烟火
footstep：脚步
glass_breaking：玻璃破碎
hammer：敲击
helicopter：直升机
knock：敲，击；碰撞
laughter：笑
mouse click：鼠标点击
ocean surf：海浪
rustle：沙沙声
scream：尖叫
speech：演说，发言，谈话
squeak：吱吱叫，嘎吱作响
tone：声调，音调
violin：小提琴
water tap：水龙头
whistle：口哨声

BBC音效

下载地址：BBC Rewind - Sound Effects

可能需要爬虫才能把数据下载下来

飞机、动物、掌声、气氛、钟声、鸟类、时钟、喜剧、人群、日常生活、破坏、电子产品、活动、火、脚步声、工业、机器、医疗、军事、自然、运动、玩具、交通、

NAR 数据集

下载地址：传送门（35MB）

在多个真实的家庭环境中录制

厨房：吃东西、窒息、餐具、装满杯子、打开水龙头、打开/关闭抽屉、移动椅子、打开微波炉、关闭微波炉、微波炉、冰箱、烤面包机
办公室：关门、开门、钥匙、敲门、撕纸、拉链、（另一个）拉链
非语言：拍手、拍手、拍舌
语音：1,2,3,4,5,6,7,8,9,10, Hello, Left, Right, Turn, Move, Stop, Nao, Yes, No, What

asr-noises

下载地址：传送门（4.7GB）

这个数据集下载不来了，不知道咋回事

DCASE

dataset、mobile dataset、openset 的区别：

使用四个同时捕获音频的设备进行录音。

主要录音设备包括Soundman OKM II Klassik/studio A3、驻极体双耳麦克风和使用 48kHz 采样率和 24 位分辨率的Zoom F8录音机。麦克风经过专门设计，看起来像耳机，戴在耳朵里。因此，录制的音频与到达佩戴设备的人的人类听觉系统的声音非常相似。该设备进一步称为设备 A。

其他设备是常见的客户设备：设备 B 是三星 Galaxy S7，设备 C 是 iPhone SE，设备 D 是 GoPro Hero5 Session。所有同时录制的内容都是时间同步的。

TAU Urban Acoustic Scenes 2019 开发数据集：仅包含使用设备 A 录制的材料，包含 40 小时的音频，在课程之间保持平衡。数据来自12个城市中的10个。TAU Urban Acoustic Scenes 2019 评估数据集包含来自所有 12 个城市的数据。

TAU Urban Acoustic Scenes 2019 移动开发数据集：包含使用设备 A、B 和 C 录制的材料。它由使用设备 A 录制的 TAU Urban Acoustic Scenes 2019 数据和使用设备 B 和 C 录制的一些并行音频组成。来自设备的数据A 被重新采样并平均到单个通道中，以与设备 B 和 C 记录的数据的属性保持一致。数据集总共包含 46 小时的音频（40h + 3h + 3h）。TAU Urban Acoustic Scenes 2019 移动评估数据集还包含来自设备 D 的数据。

TAU Urban Acoustic Scenes 2019 开放集开发数据集：仅包含使用设备 A 记录的材料，由 TAU Urban Acoustic Scenes 2019 和开放分类问题的其他音频示例组成。“开放”数据由TUT Acoustic Scenes 2017 数据集的“海滩”和“办公室”类以及 2019 年记录的其他材料组成。数据集总共包含 46 小时的音频（40 小时 + 6 小时）。TAU Urban Acoustic Scenes 2019 开放集评估数据集包含来自 10 个已知类别和其他未知类别的数据。

TUT Sound events 2016

下载地址：

Development dataset（1.0GB）

Evaluation dataset（471.2MB）

音频参数：44.1kHz，双声道，24位深

包含来自两个声学场景的 22 段录音：

家庭（室内），10 个录音，共 36:16
住宅区（室外），12个录音，共42:00

TUT Acoustic scenes 2016

下载地址：

Development dataset (8.0 GB)

Evaluation dataset (2.7 GB)

音频参数：44.1kHz，双声道，24位深

由来自 15 个声学场景的 30 秒音频片段组成，每个声学场景有 78 个片段，总共 39 分钟的音频。

Bus 公共汽车-在城市乘坐公共汽车（车辆）
Cafe / Restaurant 咖啡厅/餐厅 - 小咖啡厅/餐厅（室内）
Car 汽车 - 在城市中驾驶或作为乘客旅行（车辆）
City center 市中心（室外）
Forest path 林间小径（室外）
Grocery store 杂货店 - 中型杂货店（室内）
Home  家（室内）
Lakeside beach 湖滨海滩（室外）
Library  图书馆（室内）
Metro station 地铁站（室内）
Office 办公室 - 多人，典型工作日（室内）
Residential area 住宅区（室外）
Train 火车里面（旅行，车辆）
Tram 有轨电车（旅行，车辆）
Urban park 城市公园（室外）

smart cars 2017 test4

任务描述：DCASE 2017 Large-scale weakly supervised sound event detection for smart cars

Development: Training (Psswd Training file: DCASE_2017_training_set)

Development: Testing (Psswd Testing file: DCASE_2017_testing_set)

Evaluation dataset (863 MB) password "DCASE_2017_evaluation_set"

音频参数：44.1kHz，单声道，16位深

鸣笛：
- 火车喇叭 (441)
- 气喇叭、卡车喇叭 (407)
- 汽车防盗器 (273)
- 倒车提示音 (337)
- 救护车（警笛） (624)
- 警车（警笛） (2,399)
- 消防车、消防车（警笛） (2,399)
- 民防警报器 (1,506)
- 尖叫 (744)

车辆声音：
- 自行车 (2,020)
- 滑板 (1,617)
- 汽车 (25,744)
- 路过的汽车 (3,724)
- 公共汽车 (3,745)
- 卡车 (7,090)
- 摩托车 (3,291)
- 火车 (2,301)

TUT Rare sound events 2017

下载地址：开发数据集 (17.5 GB) | 评估数据集 (7.4 GB)

音频参数：44.1kHz，单声道，16位深

包含用于创建稀有声音事件（婴儿哭声、枪声、玻璃破碎等）与背景音频的混合的源文件，以及一组易于生成的mixtures 和用于生成它们的配方。

数据集的“source”部分由两个子集组成：

来自 15 个不同声学场景的背景录音

- Bus 公共汽车-在城市乘坐公共汽车（车辆vehicle）
- Cafe / Restaurant 咖啡厅/餐厅 - 小咖啡厅/餐厅（室内indoor）
- Car 汽车 - 在城市中驾驶或作为乘客旅行（车辆vehicle）
- City center 市中心（室外outdoor）
- Forest path 林间小径（室外outdoor）
- Grocery store 杂货店 - 中型杂货店（室内indoor）
- Home 家（室内）
- Lakeside beach 湖滨海滩（室外outdoor）
- Library 图书馆（室内indoor）
- Metro station 地铁站（室内indoor）
- Office 办公室 - 多人，典型工作日（室内indoor）
- Residential area住宅区（室外outdoor）
- Train 火车（旅行，车辆）
- Tram 有轨电车（旅行，车辆）
- Urban park 城市公园（室外outdoor）

来自三类目标罕见声音事件的录音，并附有它们的时间发生的注释，
一组提供交叉验证设置的元文件：背景和目标事件记录列表分为训练和测试子集（分别称为“devtrain”和“devtest”，表示它们作为开发数据集提供，而不是评估数据集单独发布）。

mixture set 由两个子集（训练和测试）组成，每个子集包含约 1500 个混合（每个子集中每个目标类约 500 个，其中一半的混合不包含任何目标类事件）。

TUT Acoustic Scenes 2017

下载地址：

开发数据集 (10GB) 每个声学场景有312个片段，总计52分钟的音频。

验证数据集 (3.6 GB) 每个声音场景有108段，总共18分钟的音频。

音频参数：44.1kHz，双声道，24位深

TUT Acoustic Scenes 2017，开发数据集由来自 15 个声学场景的 10 秒音频片段组成：

- Bus 公共汽车-在城市乘坐公共汽车（车辆vehicle）
- Cafe / Restaurant 咖啡厅/餐厅 - 小咖啡厅/餐厅（室内indoor）
- Car 汽车 - 在城市中驾驶或作为乘客旅行（车辆vehicle）
- City center 市中心（室外outdoor）
- Forest path 林间小径（室外outdoor）
- Grocery store 杂货店 - 中型杂货店（室内indoor）
- Home 家（室内）
- Lakeside beach 湖滨海滩（室外outdoor）
- Library 图书馆（室内indoor）
- Metro station 地铁站（室内indoor）
- Office 办公室 - 多人，典型工作日（室内indoor）
- Residential area住宅区（室外outdoor）
- Train 火车（旅行，车辆）
- Tram 有轨电车（旅行，车辆）
- Urban park 城市公园（室外outdoor）

TUT Sound events 2017

描述 DACSE 2017 test3

下载地址：

Development dataset (1.3 GB)

Evaluation dataset (388.2 MB)

音频参数：44.1kHz，双声道，24位深

这些录音是在不同的街道上拍摄的。对于每个录制位置，都会捕获 3-5 分钟长的录音。用于录音的设备包括双耳Soundman OKM II Klassik/studio A3驻极体入耳式麦克风和使用 44.1 kHz 采样率和 24 位分辨率的Roland Edirol R-09波形记录器。

街道，包含了(刹车吱吱作响、车、孩子们、大型车辆、说话的人、行走的人）

没有纯净噪声，只有噪声起止点。

TUT Urban Acoustic Scenes 2018

下载地址：

Development dataset (21.4 GB)

Evaluation dataset (8.9 GB)

Leaderboard dataset (3.0 GB)

音频参数：48kHz，双声道，24位深

TUT Urban Acoustic Scenes 2018，排行榜数据集由来自 10 个声学场景的 10 秒音频片段组成：

机场 - airport
室内购物中心-shopping_mall
地铁站 - metro_station
步行街 - street_pedestrian
公共广场 - public_square
街道交通 - street_traffic
乘坐有轨电车 - tram
公交车上- bus
乘地铁旅行 - metro
城市公园- park

TAU Urban Acoustic Scenes 2019

下载地址：

Development dataset (35.6 GB)

Evaluation dataset (17.9 GB)

Leaderboard dataset (3.0 GB)

音频参数：48kHz，双声道，24位深

包含来自 10 个声学场景的 10 秒音频片段，每个声学场景有 1440 个片段（240 分钟的音频）。该数据集总共包含 40 小时的音频。

- 机场 -airport
- 室内购物中心 - shopping_mall
- 地铁站 - metro_station
- 步行街 - street_pedestrian
- 公共广场 - public_square
- 街道交通 - street_traffic
- 乘坐有轨电车 - tram
- 公交车上- bus
- 乘地铁旅行 - metro
- 城市公园- park

TAU Urban Acoustic Scenes 2020 Mobile

下载地址：

Development dataset (27.4 GB)

Evaluation dataset (13.1 GB)

音频参数：48kHz，双声道，24位深

TUT城市声学场景2020移动开发数据集由10个声学场景中的10秒音频片段组成

机场 - airport
室内购物中心-shopping_mall
地铁站 - metro_station
步行街 - street_pedestrian
公共广场 - public_square
街道交通 - street_traffic
乘坐有轨电车 - tram
公交车上 - bus
乘地铁旅行 - metro
城市公园- park

TAU Urban Acoustic Scenes 2020 3Class

下载地址：

Development dataset (35.5 GB)

Evaluation dataset (20.9 GB)

音频参数：48kHz，双声道，24位深

TAU Urban Acoustic Scenes 2020 3Class 数据集由来自 10 个声学场景的 10 秒音频片段组成，分为以下三大类：

- 室内场景——*室内*：
    机场：airport
    室内商场：indoor shopping mall
    地铁站：metro station
- 户外场景-*户外*：
    步行街：pedestrian street
    公共广场：public square
    中等交通街道：street with medium level of traffic
    城市公园：urban park
- 交通相关场景-*交通*：
    乘坐公共汽车：travelling by a bus
    乘坐电车：travelling by a tram
    乘坐地铁：travelling by an underground metro

TAU Urban Audio-Visual Scenes 2021

下载地址：

Development dataset (107.7 GB)

Evaluation dataset (61.2 GB)

音频参数：

机场 - airport
室内购物中心-shopping_mall
地铁站 - metro_station
步行街 - street_pedestrian
公共广场 - public_square
街道交通 - street_traffic
乘坐有轨电车 -tram
公交上 -bus
乘地铁旅行 -metro
城市公园-park

TAU Urban Acoustic Scenes 2021 Mobile

下载地址：Evaluation dataset (8.8 GB)

音频参数：44.1kHz；单声道；24位深

机场 - airport
室内购物中心-shopping_mall
地铁站 - metro_station
步行街 - street_pedestrian
公共广场 - public_square
街道交通 - street_traffic
乘坐有轨电车 -tram
公交车上 -bus
乘地铁旅行 -metro
城市公园-park

TAU Urban Acoustic Scenes 2022 Mobile

下载地址：

Development dataset (27.5 GB)
Evaluation dataset (13.2 GB)

音频参数：44.1kHz；单声道；24位深

机场 - airport
室内购物中心 - shopping_mall
地铁站 - metro_station
步行街 - street_pedestrian
公共广场 - public_square
街道交通 - street_traffic
乘坐有轨电车 - tram
公交车上- bus
地铁 - metro
城市公园- park

综合数据集

综合数据集是既有语音又有噪声的数据集

MUSAN

地址：传送门（11G）

音乐、语音和噪音的语料库

FSDnoisy18k

下载地址：传送门 (9.5 GB)

FSDnoisy18k 是一个音频数据集，旨在促进对声音事件分类中标签噪声的调查。它包含 20 个声音类别的 42.5 小时音频，包括少量手动标记的数据和大量真实世界的嘈杂数据。

DS_10283_2791

用于训练语音增强算法和 TTS 模型的嘈杂语音数据库

干净和嘈杂的并行语音数据库。该数据库旨在训练和测试以 48kHz 运行的语音增强方法。更详细的描述可以在与数据库相关的论文中找到。对于 28 个说话人数据集，详细信息可参见：C. Valentini-Botinhao、X. Wang、S. Takaki 和 J. Yamagishi，“使用深度循环神经网络的噪声鲁棒文本到语音合成系统的语音增强” “，在过程中。Interspeech 2016。对于 56 位说话者数据集：C. Valentini-Botinhao、X. Wang、S. Takaki 和 J. Yamagishi，“研究基于 RNN 的语音增强方法以实现抗噪文本到语音”，In Proc. SSW 2016. 用于创建嘈杂语音的一些噪音来自需求数据库，可在此处获得：http://parole.loria.fr/DEMAND/。语音数据库来自 CSTR VCTK 语料库，可在此处获取：https://doi.org/10.7488/ds/1994。用于创建此数据集的语音和 babble 噪声文件可在此处获得：http://homepages.inf.ed.ac.uk/cvbotinh/se/noises/。

CSTR NAM TIMIT Plus

下载地址：传送门（1.342G）

综合数据集就是啥也有

DNS-Challenge：https://github.com/microsoft/DNS-Challenge/tree/master/datasets

Noisy speech database for training speech enhancement algorithms and TTS models

OpenSLR：openslr.org

12：LibriSpeech ASR 语料库
17：A corpus of music, speech, and noise
18：THCHS-30清华大学发布的免费中文语音语料库
28：OpenSLR 房间脉冲响应和噪声数据库
38：冲浪科技的免费中文普通话语料库，包含855个说话者的话语，102600个话语；
60：LibriTTS语料库，自LibriSpeech语料库原始资料的大规模英语语音语料库
62：aidatatang_200zh，北京数据堂科技有限公司的中文普通话语音语料库，包含来自600位说话者的200小时语音数据。每个句子的转录准确率大于 98%
68：MAGICDATA 汉语普通话朗读语料库，魔数据科技有限公司的语料库，包含 755 小时的脚本阅读语音数据，来自中国大陆的 1080 位母语为普通话的人。句子转录准确率高于98%。

参考

【知乎】语音数据集整理

【github】open-speech-corpora

你可能感兴趣的:(语音信号处理,语音识别,数据库,纯净噪声数据集,数据集,语音数据集)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
Google earth studio 简介陟彼高冈yu 旅游
GoogleEarthStudio是一个基于Web的动画工具，专为创作使用GoogleEarth数据的动画和视频而设计。它利用了GoogleEarth强大的三维地图和卫星影像数据库，使用户能够轻松地创建逼真的地球动画、航拍视频和动态地图可视化。网址为https://www.google.com/earth/studio/。GoogleEarthStudio是一个基于Web的动画工具，专为创作使用G
LLM 词汇表落难Coder LLMs NLP 大语言模型大模型 llama 人工智能
Contextwindow“上下文窗口”是指语言模型在生成新文本时能够回溯和参考的文本量。这不同于语言模型训练时所使用的大量数据集，而是代表了模型的“工作记忆”。较大的上下文窗口可以让模型理解和响应更复杂和更长的提示，而较小的上下文窗口可能会限制模型处理较长提示或在长时间对话中保持连贯性的能力。Fine-tuning微调是使用额外的数据进一步训练预训练语言模型的过程。这使得模型开始表示和模仿微调数
关于提高复杂业务逻辑代码可读性的思考编程经验分享开发经验 java 数据库开发语言
目录前言需求场景常规写法拆分方法领域对象总结前言实际工作中大部分时间都是在写业务逻辑，一般都是三层架构，表示层（Controller）接收客户端请求，并对入参做检验，业务逻辑层（Service）负责处理业务逻辑，一般开发都是在这一层中写具体的业务逻辑。数据访问层（Dao）是直接和数据库交互的，用于查数据给业务逻辑层，或者是将业务逻辑层处理后的数据写入数据库。简单的增删改查接口不用多说，基本上写好一
SQL Server_查询某一数据库中的所有表的内容 qq_42772833 SQL Server 数据库 sqlserver
1.查看所有表的表名要列出CrabFarmDB数据库中的所有表（名），可以使用以下SQL语句：USECrabFarmDB;--切换到目标数据库GOSELECTTABLE_NAMEFROMINFORMATION_SCHEMA.TABLESWHERETABLE_TYPE='BASETABLE';对这段SQL脚本的解释：SELECTTABLE_NAME：这个语句的作用是从查询结果中选择TABLE_NAM
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
【目标检测数据集】卡车数据集1073张VOC+YOLO格式熬夜写代码的平头哥∰ 目标检测 YOLO 人工智能
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：1073标注数量(xml文件个数)：1073标注数量(txt文件个数)：1073标注类别数：1标注类别名称:["truck"]每个类别标注的框数：truck框数=1120总框数：1120使用标注工具：labelImg标注
MongoDB Oplog 窗口喝醉酒的小白 MongoDB 运维
在MongoDB中，oplog（操作日志）是一个特殊的日志系统，用于记录对数据库的所有写操作。oplog允许副本集成员（通常是从节点）应用主节点上已经执行的操作，从而保持数据的一致性。它是MongoDB副本集实现数据复制的基础。MongoDBOplog窗口oplog窗口是指在MongoDB副本集中，从节点可以用来同步数据的时间范围。这个窗口通常由以下因素决定：Oplog大小：oplog的大小是有限
Faiss Tips：高效向量搜索与聚类的利器焦习娜Samantha
FaissTips：高效向量搜索与聚类的利器faiss_tipsSomeusefultipsforfaiss项目地址:https://gitcode.com/gh_mirrors/fa/faiss_tips项目介绍Faiss是由FacebookAIResearch开发的一个用于高效相似性搜索和密集向量聚类的库。它支持多种硬件平台，包括CPU和GPU，能够在海量数据集上实现快速的近似最近邻搜索（AN
番茄西红柿叶子病害分类数据集12882张11类别 futureflsl 数据集分类数据挖掘人工智能
数据集类型：图像分类用，不可用于目标检测无标注文件数据集格式：仅仅包含jpg图片，每个类别文件夹下面存放着对应图片图片数量(jpg文件个数)：12882分类类别数：11类别名称:["Bacterial_Spot_Bacteria","Early_Blight_Fungus","Healthy","Late_Blight_Water_Mold","Leaf_Mold_Fungus","Powdery
钢筋长度超限检测检数据集VOC+YOLO格式215张1类别 futureflsl 数据集 YOLO 深度学习机器学习
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：215标注数量(xml文件个数)：215标注数量(txt文件个数)：215标注类别数：1标注类别名称:["iron"]每个类别标注的框数：iron框数=215总框数：215使用标注工具：labelImg标注规则：对类别进
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
【PG】常见数据库、表属性设置江无羡数据库
PG的常见属性配置方法数据库复制、备份相关表的复制标识单表操作批量表操作链接数据库复制、备份相关表的复制标识单表操作通过ALTER语句单独更改一张表的复制标识。ALTERTABLE[tablename]REPLICAIDENTITYFULL;批量表操作通过代码块的方式，对某个schema中的所有表一起更新其复制标识。SELECTtablename,CASErelreplidentWHEN'd'TH
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
insert into select 主键自增_mybatis拦截器实现主键自动生成 weixin_39521651 insert into select 主键自增 mybatis delete返回值 mybatis insert返回主键 mybatis insert返回对象 mybatis plus insert返回主键 mybatis plus 插入生成id
前言前阵子和朋友聊天，他说他们项目有个需求，要实现主键自动生成，不想每次新增的时候，都手动设置主键。于是我就问他，那你们数据库表设置主键自动递增不就得了。他的回答是他们项目目前的id都是采用雪花算法来生成，因此为了项目稳定性，不会切换id的生成方式。朋友问我有没有什么实现思路，他们公司的orm框架是mybatis，我就建议他说，不然让你老大把mybatis切换成mybatis-plus。mybat
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
关于Mysql 中 Row size too large (＞ 8126) 错误的解决和理解秋刀prince mysql mysql 数据库
提示：啰嗦一嘴，数据库的任何操作和验证前，一定要记得先备份！！！不会有错；文章目录问题发现一、问题导致的可能原因1、页大小2、行格式2.1compact格式2.2Redundant格式2.3Dynamic格式2.4Compressed格式3、BLOB和TEXT列二、解决办法1、修改页大小（不推荐）2、修改行格式3、修改数据类型为BLOB和TEXT列4、其他优化方式（可以参考使用）4.1合理设置数据
K近邻算法_分类鸢尾花数据集 _feivirus_ 算法机器学习和数学分类机器学习 K近邻
importnumpyasnpimportpandasaspdfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportaccuracy_score1.数据预处理iris=load_iris()df=pd.DataFrame(data=ir
Java爬虫框架（一）--架构设计狼图腾-狼之传说 java 框架 java 任务 html解析器存储电子商务
一、架构图那里搜网络爬虫框架主要针对电子商务网站进行数据爬取，分析，存储，索引。爬虫：爬虫负责爬取，解析，处理电子商务网站的网页的内容数据库：存储商品信息索引：商品的全文搜索索引Task队列：需要爬取的网页列表Visited表：已经爬取过的网页列表爬虫监控平台：web平台可以启动，停止爬虫，管理爬虫，task队列，visited表。二、爬虫1.流程1)Scheduler启动爬虫器，TaskMast
MongoDB知识概括 GeorgeLin98 持久层 mongodb
MongoDB知识概括MongoDB相关概念单机部署基本常用命令索引-IndexSpirngDataMongoDB集成副本集分片集群安全认证MongoDB相关概念业务应用场景：传统的关系型数据库（如MySQL），在数据操作的“三高”需求以及应对Web2.0的网站需求面前，显得力不从心。解释：“三高”需求：①Highperformance-对数据库高并发读写的需求。②HugeStorage-对海量数
Mongodb Error: queryTxt ETIMEOUT xxxx.wwwdz.mongodb.net 佛一脚 error react mongodb 数据库
背景每天都能遇到奇怪的问题，做个记录，以便有缘人能得到帮助！换了一台电脑开发nextjs程序。需要连接mongodb数据，对数据进行增删改查。上一台电脑好好的程序，新电脑死活连不上mongodb数据库。同一套代码，没任何修改，搞得我怀疑人生了，打开浏览器进入mongodb官网毫无问题，也能进入线上系统查看数据，网络应该是没问题。于是我尝试了一下手机热点，这次代码能正常跑起来，连接数据库了！！！是不
Python多线程实现大规模数据集高效转移 sand&wich 网络 python 服务器
背景在处理大规模数据集时，通常需要在不同存储设备、不同服务器或文件夹之间高效地传输数据。如果采用单线程传输方式，当数据量非常大时，整个过程会非常耗时。因此，通过多线程并行处理可以大幅提升数据传输效率。本文将分享一个基于Python多线程实现的高效数据传输工具，通过遍历源文件夹中的所有文件，将它们移动到目标文件夹。工具和库这个数据集转移工具主要依赖于以下Python标准库：os：用于文件系统操作，如
入门MySQL——查询语法练习 K_un
前言：前面几篇文章为大家介绍了DML以及DDL语句的使用方法，本篇文章将主要讲述常用的查询语法。其实MySQL官网给出了多个示例数据库供大家实用查询，下面我们以最常用的员工示例数据库为准，详细介绍各自常用的查询语法。1.员工示例数据库导入官方文档员工示例数据库介绍及下载链接：https://dev.mysql.com/doc/employee/en/employees-installation.h
博客网站制作教程 2401_85194651 java maven
首先就是技术框架：后端：Java+SpringBoot数据库：MySQL前端：Vue.js数据库连接：JPA(JavaPersistenceAPI)1.项目结构blog-app/├──backend/│├──src/main/java/com/example/blogapp/││├──BlogApplication.java││├──config/│││└──DatabaseConfig.java
ubuntu安装wordpress lissettecarlr
1安装nginx网上安装方式很多，这就就直接用apt-get了apt-getinstallnginx不用启动啥，然后直接在浏览器里面输入IP:80就能看到nginx的主页了。如果修改了一些配置可以使用下列命令重启一下systemctlrestartnginx.service2安装mysql输入安装前也可以更新一下软件源，在安装过程中将会让你输入数据库的密码。sudoapt-getinstallmy
深入浅出 -- 系统架构之负载均衡Nginx的性能优化 xiaoli8748_软件开发系统架构系统架构负载均衡 nginx
一、Nginx性能优化到这里文章的篇幅较长了，最后再来聊一下关于Nginx的性能优化，主要就简单说说收益最高的几个优化项，在这块就不再展开叙述了，毕竟影响性能都有多方面原因导致的，比如网络、服务器硬件、操作系统、后端服务、程序自身、数据库服务等，对于性能调优比较感兴趣的可以参考之前《JVM性能调优》中的调优思想。优化一：打开长连接配置通常Nginx作为代理服务，负责分发客户端的请求，那么建议开启H
【RabbitMQ 项目】服务端：数据管理模块之绑定管理月夜星辉雪 rabbitmq 分布式
文章目录一.编写思路二.代码实践一.编写思路定义绑定信息类交换机名称队列名称绑定关键字：交换机的路由交换算法中会用到没有是否持久化的标志，因为绑定是否持久化取决于交换机和队列是否持久化，只有它们都持久化时绑定才需要持久化。绑定就好像一根绳子，两端连接着交换机和队列，当一方不存在，它就没有存在的必要了定义绑定持久化类构造函数：如果数据库文件不存在则创建，打开数据库，创建binding_table插入
COCO 格式的数据集转化为 YOLO 格式的数据集 QYQY77 YOLO python
"""--json_path输入的json文件路径--save_path保存的文件夹名字，默认为当前目录下的labels。"""importosimportjsonfromtqdmimporttqdmimportargparseparser=argparse.ArgumentParser()parser.add_argument('--json_path',default='./instances
计算机毕业设计PHP仓储综合管理系统（源码+程序+VUE+lw+部署） java毕设程序源码王哥 php 课程设计 vue.js
该项目含有源码、文档、程序、数据库、配套开发软件、软件安装教程。欢迎交流项目运行环境配置：phpStudy+Vscode+Mysql5.7+HBuilderX+Navicat11+Vue+Express。项目技术：原生PHP++Vue等等组成，B/S模式+Vscode管理+前后端分离等等。环境需要1.运行环境：最好是小皮phpstudy最新版，我们在这个版本上开发的。其他版本理论上也可以。2.开发
分享100个最新免费的高匿HTTP代理IP mcj8089 代理IP 代理服务器匿名代理免费代理IP 最新代理IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ 120.198.243.130:80,中国/广东省 58.251.78.71:8088,中国/广东省 183.207.228.22:83,中国/
mysql高级特性之数据分区 annan211 java 数据结构 mongodb 分区 mysql
mysql高级特性 1 以存储引擎的角度分析，分区表和物理表没有区别。是按照一定的规则将数据分别存储的逻辑设计。器底层是由多个物理字表组成。 2 分区的原理分区表由多个相关的底层表实现，这些底层表也是由句柄对象表示，所以我们可以直接访问各个分区。存储引擎管理分区的各个底层表和管理普通表一样(所有底层表都必须使用相同的存储引擎)，分区表的索引只是
JS采用正则表达式简单获取URL地址栏参数 chiangfai js 地址栏参数获取
GetUrlParam:function GetUrlParam(param){ var reg = new RegExp("(^|&)"+ param +"=([^&]*)(&|$)"); var r = window.location.search.substr(1).match(reg); if(r!=null
怎样将数据表拷贝到powerdesigner (本地数据库表) Array_06 powerDesigner
================================================== 1、打开PowerDesigner12，在菜单中按照如下方式进行操作 file->Reverse Engineer->DataBase 点击后，弹出 New Physical Data Model 的对话框 2、在General选项卡中 Model name:模板名字，自
logbackのhelloworld 飞翔的马甲日志 logback
一、概述 1.日志是啥？当我是个逗比的时候我是这么理解的：log.debug()代替了system.out.print(); 当我项目工作时，以为是一堆得.log文件。这两天项目发布新版本，比较轻松，决定好好地研究下日志以及logback。传送门1：日志的作用与方法： http://www.infoq.com/cn/articles/why-and-how-log 上面的作
新浪微博爬虫模拟登陆随意而生新浪微博
转载自：http://hi.baidu.com/erliang20088/item/251db4b040b8ce58ba0e1235 近来由于毕设需要，重新修改了新浪微博爬虫废了不少劲，希望下边的总结能够帮助后来的同学们。现行版的模拟登陆与以前相比，最大的改动在于cookie获取时候的模拟url的请求
synchronized 香水浓 java thread
Java语言的关键字，可用来给对象和方法或者代码块加锁，当它锁定一个方法或者一个代码块的时候，同一时刻最多只有一个线程执行这段代码。当两个并发线程访问同一个对象object中的这个加锁同步代码块时，一个时间内只能有一个线程得到执行。另一个线程必须等待当前线程执行完这个代码块以后才能执行该代码块。然而，当一个线程访问object的一个加锁代码块时，另一个线程仍然
maven 简单实用教程 AdyZhang maven
1. Maven介绍 1.1. 简介 java编写的用于构建系统的自动化工具。目前版本是2.0.9，注意maven2和maven1有很大区别，阅读第三方文档时需要区分版本。 1.2. Maven资源见官方网站；The 5 minute test，官方简易入门文档；Getting Started Tutorial，官方入门文档；Build Coo
Android 通过 intent传值获得null aijuans android
我在通过intent 获得传递兑现过的时候报错，空指针,我是getMap方法进行传值，代码如下 1 2 3 4 5 6 7 8 9 public void getMap(View view){ Intent i =
apache 做代理报如下错误：The proxy server received an invalid response from an upstream baalwolf response
网站配置是apache＋tomcat,tomcat没有报错，apache报错是： The proxy server received an invalid response from an upstream server. The proxy server could not handle the request GET /. Reason: Error reading fr
Tomcat6 内存和线程配置 BigBird2012 tomcat6
1、修改启动时内存参数、并指定JVM时区（在windows server 2008 下时间少了8个小时）在Tomcat上运行j2ee项目代码时，经常会出现内存溢出的情况，解决办法是在系统参数中增加系统参数： window下，在catalina.bat最前面 set JAVA_OPTS=-XX:PermSize=64M -XX:MaxPermSize=128m -Xms5
Karam与TDD bijian1013 Karam TDD
一.TDD 测试驱动开发（Test-Driven Development,TDD）是一种敏捷（AGILE）开发方法论，它把开发流程倒转了过来，在进行代码实现之前，首先保证编写测试用例，从而用测试来驱动开发（而不是把测试作为一项验证工具来使用）。 TDD的原则很简单： a.只有当某个
[Zookeeper学习笔记之七]Zookeeper源代码分析之Zookeeper.States bit1129 zookeeper
public enum States { CONNECTING, //Zookeeper服务器不可用，客户端处于尝试链接状态 ASSOCIATING, //？？？ CONNECTED, //链接建立，可以与Zookeeper服务器正常通信 CONNECTEDREADONLY, //处于只读状态的链接状态，只读模式可以在
【Scala十四】Scala核心八：闭包 bit1129 scala
Free variable A free variable of an expression is a variable that’s used inside the expression but not defined inside the expression. For instance, in the function literal expression (x: Int) => (x
android发送json并解析返回json ronin47 android
package com.http.test; import org.apache.http.HttpResponse; import org.apache.http.HttpStatus; import org.apache.http.client.HttpClient; import org.apache.http.client.methods.HttpGet; import
一份IT实习生的总结 brotherlamp PHP php资料 php教程 php培训 php视频
今天突然发现在不知不觉中自己已经实习了 3 个月了，现在可能不算是真正意义上的实习吧，因为现在自己才大三，在这边撸代码的同时还要考虑到学校的功课跟期末考试。让我震惊的是，我完全想不到在这 3 个月里我到底学到了什么，这是一件多么悲催的事情啊。同时我对我应该 get 到什么新技能也很迷茫。所以今晚还是总结下把，让自己在接下来的实习生活有更加明确的方向。最后感谢工作室给我们几个人这个机会让我们提前出来
据说是2012年10月人人网校招的一道笔试题-给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。将重物放到天平左侧，问在两边如何添加砝码 bylijinnan java
public class ScalesBalance { /** * 题目： * 给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。（假设N无限大，但一种重量的砝码只有一个） * 将重物放到天平左侧，问在两边如何添加砝码使两边平衡 * * 分析： * 三进制 * 我们约定括号表示里面的数是三进制，例如 47=(1202
dom4j最常用最简单的方法 chiangfai dom4j
要使用dom4j读写XML文档,需要先下载dom4j包,dom4j官方网站在 http://www.dom4j.org/目前最新dom4j包下载地址:http://nchc.dl.sourceforge.net/sourceforge/dom4j/dom4j-1.6.1.zip 解开后有两个包,仅操作XML文档的话把dom4j-1.6.1.jar加入工程就可以了,如果需要使用XPath的话还需要
简单HBase笔记 chenchao051 hbase
一、Client-side write buffer 客户端缓存请求描述：可以缓存客户端的请求，以此来减少RPC的次数，但是缓存只是被存在一个ArrayList中，所以多线程访问时不安全的。可以使用getWriteBuffer()方法来取得客户端缓存中的数据。默认关闭。二、Scan的Caching 描述： next( )方法请求一行就要使用一次RPC,即使
mysqldump导出时出现when doing LOCK TABLES daizj mysql mysqdump 导数据
　　执行　mysqldump -uxxx -pxxx -hxxx -Pxxxx database tablename > tablename.sql　导出表时，会报 mysqldump: Got error: 1044: Access denied for user 'xxx'@'xxx' to database 'xxx' when doing LOCK TABLES 解决
CSS渲染原理 dcj3sjt126com Web
从事Web前端开发的人都与CSS打交道很多，有的人也许不知道css是怎么去工作的，写出来的css浏览器是怎么样去解析的呢？当这个成为我们提高css水平的一个瓶颈时，是否应该多了解一下呢？一、浏览器的发展与CSS
《阿甘正传》台词 dcj3sjt126com
Part Ⅰ: 《阿甘正传》Forrest Gump经典中英文对白 Forrest: Hello! My names Forrest. Forrest Gump. You wanna Chocolate? I could eat about a million and a half othese. My momma always said life was like a box ochocol
Java处理JSON dyy_gusi json
Json在数据传输中很好用，原因是JSON 比 XML 更小、更快，更易解析。在Java程序中，如何使用处理JSON，现在有很多工具可以处理，比较流行常用的是google的gson和alibaba的fastjson，具体使用如下： 1、读取json然后处理 class ReadJSON { public static void main(String[] args)
win7下nginx和php的配置 geeksun nginx
1. 安装包准备 nginx : 从nginx.org下载nginx-1.8.0.zip php：从php.net下载php-5.6.10-Win32-VC11-x64.zip， php是免安装文件。 RunHiddenConsole: 用于隐藏命令行窗口 2. 配置 # java用8080端口做应用服务器，nginx反向代理到这个端口即可 p
基于2.8版本redis配置文件中文解释 hongtoushizi redis
转载自： http://wangwei007.blog.51cto.com/68019/1548167 在Redis中直接启动redis-server服务时, 采用的是默认的配置文件。采用redis-server xxx.conf 这样的方式可以按照指定的配置文件来运行Redis服务。下面是Redis2.8.9的配置文
第五章常用Lua开发库3-模板渲染 jinnianshilongnian nginx lua
动态web网页开发是Web开发中一个常见的场景，比如像京东商品详情页，其页面逻辑是非常复杂的，需要使用模板技术来实现。而Lua中也有许多模板引擎，如目前我在使用的lua-resty-template，可以渲染很复杂的页面，借助LuaJIT其性能也是可以接受的。如果学习过JavaEE中的servlet和JSP的话，应该知道JSP模板最终会被翻译成Servlet来执行；而lua-r
JZSearch大数据搜索引擎颠覆者 JavaScript
系统简介：大数据的特点有四个层面：第一，数据体量巨大。从TB级别，跃升到PB级别；第二，数据类型繁多。网络日志、视频、图片、地理位置信息等等。第三，价值密度低。以视频为例，连续不间断监控过程中，可能有用的数据仅仅有一两秒。第四，处理速度快。最后这一点也是和传统的数据挖掘技术有着本质的不同。业界将其归纳为4个“V”——Volume，Variety，Value，Velocity。大数据搜索引
10招让你成为杰出的Java程序员 pda158 java 编程框架
如果你是一个热衷于技术的 Java 程序员，那么下面的 10 个要点可以让你在众多 Java 开发人员中脱颖而出。　　 1. 拥有扎实的基础和深刻理解 OO 原则　　对于 Java 程序员，深刻理解 Object Oriented Programming（面向对象编程）这一概念是必须的。没有 OOPS 的坚实基础，就领会不了像 Java 这些面向对象编程语言
tomcat之oracle连接池配置小网客 oracle
tomcat版本7.0 配置oracle连接池方式：修改tomcat的server.xml配置文件： <GlobalNamingResources> <Resource name="utermdatasource" auth="Container" type="javax.sql.DataSou
Oracle 分页算法汇总 vipbooks oracle sql 算法 .net
这是我找到的一些关于Oracle分页的算法，大家那里还有没有其他好的算法没？我们大家一起分享一下！ -- Oracle 分页算法一 select * from ( select page.*,rownum rn from (select * from help) page -- 20 = (currentPag