梅逊雪

中文数据下载

研究AI离不开数据，数据库可以说是AI的半壁天下。有链接的数据库下载是很nice的。

语音数据集整理

1.Mozilla Common Voice. 2

2.翻译和口语音频的大型数据库Tatoeba. 2

3.VOiCES Dataset 3

4. LibriSpeech. 4

5.2000 HUB5 English：... 4

6.VoxForge：... 4

7.人类语音的大规模视听数据集（VoxCeleb）... 5

7.1 VoxCeleb1. 5

7.2 VoxCeleb2. 5

8.TIMIT：英语语音识别数据集... 6

9.CHIME：... 9

10.TED-LIUM：... 10

10.1 TED-LIUM 2. 10

10.2 TED-LIUM 3. 10

11.Google AudioSet 11

12.CCPE数据集... 12

13.Free ST American English Corpus. 13

14.CSTR VCTK. 13

15.LibriTTS corpus. 13

16. The AMI Corpus. 14

17.Free ST Chinese Mandarin Corpus. 14

18.Primewords Chinese Corpus Set 1. 15

19.爱数智慧中文手机录音音频语料库（Mandarin Chinese Read Speech ）... 15

20.THCHS30. 16

21.ST-CMDS. 16

22.MAGICDATA Mandarin Chinese Read Speech Corpus. 17

23 AISHELL数据集... 17

23.1AISHELL开源版1. 17

23.2 AISHELL-2 开源中文语音数据库... 18

23.3 AISHELL-翻译机录制语音数据库... 18

23.4 AISHELL-家居环境近远讲同步语音数据库... 18

23.5 AISHELL-语音唤醒词数据库... 19

24.Aidatatang. 19

24.1 aidatatang_1505zh（完整的1505小时中文普通话语音数据集）... 19

24.2 Aidatatang_200zh. 20

25.其他... 21

【多种语言】

1.Mozilla Common Voice

1）基本信息

时长：1965小时（暂时）

最早2017年发布，持续更新，该基金会表示，通过 Common Voice 网站和移动应用，他们正在积极开展 70 种语言的数据收集工作。

Mozilla 宣称其拥有可供使用的最大的人类语音数据集，当前数据集有包括 29 种不同的语言,其中包括汉语，从 4万多名贡献者那里收集了近 2454 小时（其中1965小时已验证）的录音语音数据。并且做出了开放的承诺：向初创公司、研究人员以及对语音技术感兴趣的任何人公开我们收集到的高质量语音数据。

2）数据集特点

Common Voice数据集不仅在其大小和许可模型（https://github.com/JRMeyer/open-speech-corpora）方面是独一无二的，而且在其多样性上也是独一无二的。它代表了一个由语音贡献者组成的全球社区。贡献者可以选择提供诸如他们的年龄、性别和口音等统计元数据，这样他们的语音片段就会被标记上在训练语音引擎中有用的信息。这是一种不同于其他可公开获取的数据集的方法，这些数据集要么是手工制作的多样性数据集(即男性和女性数量相等)，要么是语料库与“已发现”的数据集一样的多样性数据集(例如，TED演讲中的TEDLIUM语料库是男性和女性的3倍)。

3）链接

下载地址：https://voice.mozilla.org/data

参考：https://blog.csdn.net/vn9PLgZvnPs1522s82g/article/details/88266146

2.翻译和口语音频的大型数据库Tatoeba

1）基本信息

项目始于2006年

tatoeba是一个用于语言学习的句子、翻译和口语音频的大型数据库。，收集面向外语学习者的例句的网站，用户无须注册便可以搜索任何单词的例句。如果例句含有对应的真人发音，也可以点击收听。注册用户可以添加、翻译、接管、改进、讨论句子。还可以在留言板上和其他注册用户讨论。在留言板上，所有的语言都是平等的，注册用户可以使用自己喜欢的语言与其他用户交流。

3）链接

下载地址：

https://tatoeba.org/eng/downloads

【英语】

3.VOiCES Dataset

1）基本信息

发布时间：2018年

时长：总共15小时（3903个音频文件）

参与人数：300人

这个数据集是在复杂的环境设置（声音）语料库掩盖的声音呈现在声学挑战性条件下的音频记录。录音发生在不同大小的真实房间中，捕捉每个房间的不同背景和混响轮廓。各种类型的干扰器噪声（电视，音乐，或潺潺声）同时播放干净的讲话。在房间内精心布置的12个麦克风在远处录制音频，每个麦克风产生120小时的音频。为了模仿谈话中的人类行为，前景扬声器使用电动平台，在记录期间旋转一系列角度。

三百个不同的扬声器从LibriSpeech的“干净”的数据子集被选择作为源音频，确保50-50女性男性分组。在准备即将到来的数据挑战时，语音语料库的第一次发布将只包括200个发言者。剩下的100个发言者将被保留用于模型验证；一旦数据挑战赛被关闭，完整的语料库（300个发言者）将被释放。除了完整的数据集之外，我们还提供了一个DEV集合和一个迷你DEV集合。两者都保持了语音语料库的数据结构，但都包含了一小部分数据。DEV集包括四个随机选择的扬声器（50-50个女性男性分组）的音频文件，用于ROM-1中记录的数据。这包括所有12个麦克风的数据。迷你开发套件仅包括一个扬声器、一个房间（1号房间）和录音棚话筒。

2）语料库特点

本语料库的目的是促进声学研究，包括但不限于：

说话人识别，语音识别，说话人检测。
事件和背景分类，语音/非语音。
源分离和定位，降噪，一般增强，声学质量度量

其中音频包含：

男女声阅读的英语。
模拟的头部运动：使用电动旋转平台上的扬声器来模拟前景旋转。
杂散噪声包含大量的电视、音乐、噪音。
包括大、中、小多个房间的各种混响。

语料库包含源音频、重传音频、正字法转录和说话人标签，有转录和模拟记录的真实世界的噪音。该语料库的最终目标是通过提供对复杂声学数据的访问来推进声学研究。语料库将以开源的形式发布，免费供商业、学术和政府使用。

3）链接

下载地址：

https://voices18.github.io/downloads/

文献：

https://arxiv.org/abs/1804.05053

See more：

https://voices18.github.io/reading/

4. LibriSpeech

1）基本信息

发布时间：2015年

大小：60GB

时长：1000小时

采样：16Hz

LibriSpeech该数据集为包含文本和语音的有声读物数据集，由Vassil Panayotov编写的大约1000小时的16kHz读取英语演讲的语料库。数据来源于LibriVox项目的阅读有声读物，并经过细致的细分和一致。经过切割和整理成每条10秒左右的、经过文本标注的音频文件，非常适合入门使用。

2）数据集特点

推荐应用方向：自然语音理解和分析挖掘

3）链接

（内含镜像）地址：http://www.openslr.org/12/

5.2000 HUB5 English：

1）基本信息

发布时间：2002年

该数据集由NIST（国家标准与技术研究院）2000年发起的HUB5评估中使用的40个英语电话对话的成绩单组成，其仅包含英语的语音数据集。HUB5评估系列集中在电话上的会话语音，将会话语音转录成文本的特定任务。其目标是探索会话语音识别的新领域，开发融合这些思想的先进技术，并测量新技术的性能。

此版本包含评估中用到的40个源语音数据文件的.txt格式的脚本，即20个未发布的电话交谈，是招募的志愿者根据机器人操作员的每日主题进行对话，和20个来自CALLHOME美国英语演讲中的母语交流者之间的对话。

2）数据集特点

推荐应用方向：音乐、人声、车辆、乐器、室内等自然和人物声音识别

3）链接

地址：https://catalog.ldc.upenn.edu/LDC2002T43

6.VoxForge：

1）基本信息

带口音的清晰英语语音数据集。适用于提升不同口音或语调鲁棒性的案例。VoxForge创建的初衷是为免费和开源的语音识别引擎收集标注录音（在Linux／Unix，Windows以及Mac平台上）

2）特点

以GPL协议开放所有提交的录音文件，并且制作声学模型。以供开源语音识别引擎使用，如CMUSphinx，ISIP，Julias（github）和HTK（注意：HTK有分发限制）。

推荐应用方向：语音识别

3）链接

下载地址：

http://www.voxforge.org/home/downloads

7.人类语音的大规模视听数据集（VoxCeleb）

1）基本信息

VoxCeleb是一个大型人声识别数据集。它包含来自 YouTube 视频的 1251 位名人的约 10 万段语音。数据基本上是性别平衡的（男性占 55％）。这些名人有不同的口音、职业和年龄。开发集和测试集之间没有重叠。

该数据集有2个子集：VoxCeleb1和VoxCeleb2

7.1 VoxCeleb1

VoxCeleb1包含超过10万个针对1,251个名人的话语，这些话语是从上传到YouTube的视频短片中提取的。

发音人数：1251

视频数量：21245

音频数量：145265

下载地址：

http://www.robots.ox.ac.uk/~vgg/data/voxceleb/vox1.html

7.2 VoxCeleb2

说话人深度识别数据集 VoxCeleb2包含超过100万个6,112个名人的话语，从上传到YouTube的视频中提取，VoxCeleb2已经与VoxCeleb1或SITW数据集没有重叠的说话人身份。

发音人数量：训练集：5994，测试集：118

视频数量：训练集：145569，测试集：4911

音频数量：训练集：1092009，测试集：36237

内容时长：2000小时以上

发布时间：2018年

下载地址：

http://www.robots.ox.ac.uk/~vgg/data/voxceleb/vox2.html

2）数据集特点

1、音频全部采自YouTube，是从网上视频切除出对应的音轨，再再根据说话人进行切分；

2、属于完全真实的英文语音；

3、数据集是文本无关的；

4、说话人范围广泛，具有多样的种族，口音，职业和年龄；

5、每句平均时长8.2s，最大时长145s，最短时长4s，短语音较多；

6、每人平均持有句子116句，最大持有250句，最小持有45句；

7、数据集男女性别较均衡，男性有690人（55%），女性有561人；

8、采样率16kHz，16bit，单声道，PCM-WAV音频格式；

9、语音带有一定真实噪声，非人造白噪声，噪声出现时间点无规律，人声有大有小；

10、噪声包括：环境突发噪声、背景人声、笑声、回声、室内噪音、录音设备噪音；

11、视频场景包括：明星红地毯、名人讲台演讲、真人节目访谈、大型体育场解说；

12、音频无静音段，但不是VAD的效果，而是截取了一个人的完整无静音音频片段；

13、数据集自身以划分了开发集Dev和测试集Test，可直接用于Speaker Verification(V)

参考：

https://www.zhihu.com/question/265820133/answer/356203615

8.TIMIT：英语语音识别数据集

1）基本信息

发布时间：1993年

采样：16kHz 16bit

参与人数：630人

TIMIT（英语：The DARPA TIMIT Acoustic-Phonetic Continuous Speech Corpus），是由德州仪器、麻省理工学院和坦福研究院SRI International合作构建的声学－音素连续语音语料库。TIMIT数据集的语音采样频率为16kHz，一共包含6300个句子，由来自美国八个主要方言地区的630个人每人说出给定的10个句子，所有的句子都在音素级别（phone level）上进行了手动分割，标记。TIMIT语料库包括时间对齐的正字法，语音和单词转录以及每个话语的16位，16kHz语音波形文件。

在给定的10个句子，包括：

2个方言句子(SA, dialect sentences)，对于每个人这2个方言句子都是相同的；
5个音素紧凑句子(SX, phonetically compact sentences)，这5个是从MIT所给的450

个因素分布平衡的句子中选出，目的是为了尽可能的包含所有的音素对。

3个音素发散句子(SI, phonetically diverse sentences)，这3个是由TI从已有的

Brown 语料库(the Brown Coupus)和剧作家对话集(the Playwrights Dialog)中随机选择的，目的是为了增加句子类型和音素文本的多样性，使之尽可能的包括所有的音位变体(allophonic contexts)。

TIMIT官方文档建议按照7:3的比例将数据集划分为训练集(70%)和测试集(30%) ，TIMIT的原始录音是基于61个音素的，如下所示：

由于在实际中61个音素考虑的情况太多，因而在训练时有些研究者整合为48个音素，当评估模型时，李开复在他的成名作(Lee & Hon, 1989)所提出的将61个音素合并为39个音素方法被广为使用。

2）特点

推荐应用方向：语音识别

70%的说话人是男性；大多数说话者是成年白人。

TIMIT语料库多年来已经成为语音识别社区的一个标准数据库，在今天仍被广为使用。其原因主要有两个方面：

1数据集中的每一个句子都在音素级别上进行了手动标记，同时提供了说话人的编号，性别，方言种类等多种信息；

2数据集相对来说比较小，可以在较短的时间内完成整个实验；同时又足以展现系统的性能。

3）细节

1目录组织形式如下：

/<语料库>/<用处>/<方言种类>/<性别><说话者ID>/<句子ID>.<文件类型>

在这里：

语料库：timit
用法：train | test
方言种类：dr1 | dr2 | dr3 | dr4 | dr5 | dr6 | dr7 | dr8
性别：m | f
说话者ID：<说话者缩写><0-9任意数字>
句子ID：<文本类型><句子编号>，其中，文本类型：sa | si | sx
文件类型：wav | txt | wrd | phn

举例：
(1) /timit/train/dr1/fcjf0/sa1.wav
(2) /timit/test/df5/mbpm0/sx407.phn

2文件类型

TIMIT语料库包括一些与话语句子相关的文件，除了语音波形文件(.wav)外，还包括对应的句子内容(.txt)，经过时间对齐(time-aligned)的单词内容(.wrd)，经过时间对齐(time-aligned)的音素内容(.phn)三种类型的文件。这些文件的格式如下：

<采样起始点> <采样结束点> <文本内容>
… … …
… … …
… … …
<采样起始点> <采样结束点> <文本内容>

在这里：

采样起始点：语音段的开始位置（整数）。对于每一个文件，第一个起始位置总是0。
采样结束点：语音段的结束位置（整数）。由于翻译方法(transcription method)的使用，最后一个采样结束位置的值可能比对应的.wav文件。
文本内容：<完整句子> | <单词标签> | <音素标签>

举例：（/timit/test/dr5/fnlp0/sa1.wav）：

.txt:

0 61748 She had your dark suit in greasy wash water all year.

.wrd:

7470 11362 she
11362 16000 had
15420 17503 your
17503 23360 dark
23360 28360 suit
28360 30960 in
30960 36971 greasy
36971 42290 wash
43120 47480 water
49021 52184 all
52184 58840 year

.phn:(开始和结束的静音区以h#标记，展示部分内容)

0 7470 h#
7470 9840 sh
9840 11362 iy
11362 12908 hv
12908 14760 ae
14760 15420 dcl
15420 16000 jh
16000 17503 axr
17503 18540 dcl
18540 18950 d
18950 21053 aa
21053 22200 r
22200 22740 kcl
22740 23360 k

参考：

https://catalog.ldc.upenn.edu/docs/LDC93S1/

https://blog.csdn.net/qfire/article/details/78711673

3）链接

下载地址：

https://catalog.ldc.upenn.edu/LDC93S1

9.CHIME：

1)基本信息

包含环境噪音的用于语音识别挑战赛（CHiME Speech Separation and Recognition Challenge）数据集。数据集包含真实、仿真和干净的录音。真实录音由 4 个speaker在 4 个嘈杂位置的近 9000 个录音构成，仿真录音由多个语音环境和清晰的无噪声录音结合而成。该数据集包含了训练集、验证集、测试集三部分，每份里面包括了多个speaker在不同噪音环境下的数据。

2）特点

推荐应用方向：语音识别

双麦克风录制的立体WAV文件包括左右声道，而阵列麦克风的录音被分解为每个单声通道的WAV文件。

转录以JSON格式提供。

3）链接

地址：

http://spandh.dcs.shef.ac.uk/chime_challenge/CHiME5/

10.TED-LIUM：

1）基本信息

采样：16Hz

时长：118小时

TED-LIUM 语料库由音频讲座及其转录本组成，可在 TED 网站上查阅。

下载地址：

http://www.openslr.org/resources/7/TEDLIUM_release1.tar.gz

国内镜像：

http://cn-mirror.openslr.org/resources/7/TEDLIUM_release1.tar.gz

10.1 TED-LIUM 2

通道：1

采样：16Hz 16bit

比特率：256k

TED Talk 的音频数据集，包含1495个录音和音频会议、159848条发音词典和部分WMT12公开的语料库以及这些录音的文字转录。

下载：

http://www.openslr.org/resources/19/TEDLIUM_release2.tar.gz

国内镜像：

http://cn-mirror.openslr.org/resources/19/TEDLIUM_release2.tar.gz

10.2 TED-LIUM 3

通道：1

采样：16Hz 16bit

比特率：256k

新的TED-LIUM版本是由Ubiqus公司与LIUM（法国勒芒大学）合作制作的。包含2351条录音与对齐脚本，452小时的音频，159848条发音词典，从 WMT12 公开可用的 Corpora 中选择语言建模的单语言数据：这些文件来自 TED-LIUM 2 版本，但已修改以获得与英语更相关的标记化

下载：

http://www.openslr.org/resources/51/TEDLIUM_release-3.tgz

国内镜像：

http://cn-mirror.openslr.org/resources/51/TEDLIUM_release-3.tgz

11.Google AudioSet

1）基本信息

AudioSet是谷歌17年开放的大规模的音频数据集。该数据集包含了 632 类的音频类别以及 2084320 条人工标记的每段 10 秒长度的声音剪辑片段（包括 527 个标签，片段来自YouTube视频）。音频本体 (ontology) 被确定为事件类别的一张层级图，覆盖大范围的人类与动物声音、乐器与音乐流派声音、日常的环境声音。此项研究论文已发表于IEEE ICASSP 2017 大会上。音频本体类别如下图

2）特点

AudioSet提供了两种格式：

1csv文件，包括音频所在的YouTube视频的ID，开始时间，结束时间以及标签(可能是多标签)

2128维的特征，采样率为1Hz，也就是把音频按秒提取为128维特征。特征是使用VGGish模型来提取的，VGGish下载地址为

https://github.com/tensorflow/models/tree/master/research/audioset 可以使用该模型提取我们自己的数据。VGGish也是用来提取YouTube-8M的。这些数据被存储为.tfrecord格式。

128维特征的下载地址(基于所在地)

storage.googleapis.com/us_audioset/youtube_corpus/v1/features/features.tar.gz

storage.googleapis.com/eu_audioset/youtube_corpus/v1/features/features.tar.gz

storage.googleapis.com/asia_audioset/youtube_corpus/v1/features/features.tar.gz

3）链接

下载地址：

https://github.com/audioset/ontology

参考：

https://baijiahao.baidu.com/s?id=1561283095072201&wfr=spider&for=pc

https://blog.csdn.net/qq_39437746/article/details/80793476（含国内镜像链接）

https://cloud.tencent.com/developer/article/1451556

12.CCPE数据集

1）基本信息

发布时间：2019年

CCPE 全称为 Coached Conversational Preference Elicitation，它是我们提出的一种在对话中获得用户偏好的新方法，即它允许收集自然但结构化的会话偏好。通过研究一个领域的对话，我们对人们如何描述电影偏好进行了简要的定量分析；并且向社区发布了 CCPE-M 数据集，该数据集中有超过 500 个电影偏好对话，表达了 10,000 多个偏好。具体而言，它由 502 个对话框组成的数据集，在用户和助理之间用自然语言讨论电影首选项时有 12,000 个带注释的发音。它通过两个付费人群工作者之间的对话收集，其中一个工作人员扮演「助手」的角色，而另一个工作人员扮演「用户」的角色。「助手」按照 CCPE 方法引出关于电影的「用户」偏好。助理提出的问题旨在尽量减少「用户」用来尽可能多地传达他或她的偏好的术语中的偏见，并以自然语言获得这些偏好。每个对话框都使用实体提及、关于实体表达的首选项、提供的实体描述以及实体的其他语句进行注释。

在面向电影的 CCPE 数据集中，冒充用户的个人对着麦克风讲话，并且音频直接播放给冒充数字助理的人。「助手」则输出他们的响应，然后通过文本到语音向用户播放。这些双人自然对话包括在使用合成对话难以复制的双方之间自发发生的不流畅和错误。这创建了一系列关于人们电影偏好的自然且有条理的对话。在对这个数据集的观察中，我们发现人们描述他们的偏好的方式非常丰富。该数据集是第一个大规模表征该丰富度的数据集。我们还发现，偏好也称为选项的特征，并不总是与智能助理的方式相匹配，或者与推荐网站的方式相匹配。换言之，你最喜爱的电影网站或服务上的过滤器，可能与你在寻求个人推荐时描述各种电影时使用的语言并不匹配。

有关 CCPE 数据集的详细信息，参阅具体研究论文https://ai.google/research/pubs/pub48414，该论文将在 2019 年话语与对话特别兴趣小组（https://www.aclweb.org/portal/content/sigdial-2019-annual-meeting-special-interest-group-discourse-and-dialogue-call-special）年会上发布。

2）链接

下载相关：

https://storage.googleapis.com/dialog-data-corpus/CCPE-M-2019/data.json

13.Free ST American English Corpus

1）基本信息：

参与人数：10人

该数据集源自(www.Surfay.ai)的一个自由的美式英语语料库，包含十个发言者的话语，每个说话者有350个左右的词句。该语料库是在室内环境下用手机录制的，每个词句都由专人仔细抄写与核对，保证转录的准确性。

2）链接

下载地址：

http://www.openslr.org/45/

国内镜像：

http://cn-mirror.openslr.org/resources/45/ST-AEDS-20180100_1-OS.tgz

14.CSTR VCTK

1）基本信息

参与人数：109人

这个数据集包括109个以英语为母语、带有不同口音的英语使用者说出的语音数据。每位发言者宣读约400句词句，其中大部分来自报纸，加上rainbow passage和旨在识别说话者口音的引语段落。报纸文章取自《先驱报》（格拉斯哥），并经《先驱报》和《时代》集团许可。每位演讲者阅读一组不同的报纸句子，其中每组句子都是使用贪婪算法选择的，该算法旨在最大化上下文和语音覆盖。rainbow passage和引语段落对所有发言者都是一样的。

彩虹通道可以在英语档案国际方言中找到：http://web.ku.edu/~idea/readings/rainbow.htm

引出段落与用于语音重音存档 http://accent.gmu.edu的段落相同。语音重音存档的详细信息可查看http://www.ualberta.ca/~aacl2009/PDFs/WeinbergerKunath2009AACL.pdf

2）特点

Google Wavenet用到的数据库。

See more: http://homepages.inf.ed.ac.uk/jyamagis/page3/page58/page58.html

下载：

https://datashare.is.ed.ac.uk/handle/10283/2651

15.LibriTTS corpus

1）基本信息

采样：24Hz

时长：585小时

LibriTTS 是一种多语言英语语种，以 24kHz 采样率阅读英语语音约 585 小时，由 Heiga Zen 在 Google 语音和 Google 大脑团队成员的协助下编写。LibriTTS 语料库专为 TTS 研究而设计。它派生自LibriSpeech语料库的原始材料（来自LibriVox的MP3音频文件和古腾堡项目的文本文件）。

2）特点

以下是 LibriSpeech 语料库的主要区别：

1音频文件的采样速率为 24kHz。

2演讲在句子中断时被分割。

3包含原始文本和规范化文本。

4可以提取上下文信息（例如相邻的句子）。

5排除了具有显著背景噪声的透口。

3)链接（镜像）

http://www.openslr.org/60/

16. The AMI Corpus

这是最初托管在http://groups.inf.ed.ac.uk/ami/corpus/上的 AMI Corpus 声学数据的镜像。AMI 会议会议记录包含 100 小时的会议录音。录像使用与公共时间线同步的信号范围。其中包括近距离麦克风和远场麦克风、独立和房间视图摄像机，以及从幻灯机和电子白板输出。在会议期间，与会者还可以使用不同步的笔来记录所写内容。会议以英语录制，使用三个不同的房间，具有不同的声学属性，并且包括大多数非母语人士。

下载：

http://www.openslr.org/16/

【中文】

17.Free ST Chinese Mandarin Corpus

1）基本信息：

参与者：855人

这个语料库是用手机在室内安静的环境中录制的。它有855个speakers。每个演讲者有120个话语。所有的话语都经过人仔细的转录和核对。保证转录精度

语料库包含：

1音频文件；

2转录；

3元数据；

2）链接

下载：（8.2G）

http://www.openslr.org/resources/38/ST-CMDS-20170001_1-OS.tar.gz

国内镜像：

http://cn-mirror.openslr.org/resources/38/ST-CMDS-20170001_1-OS.tar.gz

18.Primewords Chinese Corpus Set 1

1）基本信息

参与人数：296人

时长：178小时

这个免费的中文普通话语料库由上海普力信息技术有限公司发布。(www.primewords.cn)包含178个小时的数据。该语料由296名以中文为母语的人的智能手机录制。转录精度大于 98%，置信度为 95%。免费用于学术用途。转述和词句之间的映射以 JSON 格式提供。

2）链接

下载：（9.0G）

http://www.openslr.org/resources/47/primewords_md_2018_set1.tar.gz

国内镜像：

http://cn-mirror.openslr.org/resources/47/primewords_md_2018_set1.tar.gz

19.爱数智慧中文手机录音音频语料库（Mandarin Chinese Read Speech ）

1）基本信息

时长：755小时

参与人数：1000人

音频格式：PCM

MagicData中文手机录音音频语料库包含755小时的中文普通话朗读语音数据，其中分为训练集712.09小时、开发集14.84小时和测试集28.08小时。本语料库的录制文本覆盖多样化的使用场景，包括互动问答、音乐搜索、口语短信信息、家居命令控制等。采集方式为手机录音，涵盖多种类型的安卓手机；录音输出为PCM格式。1000名来自中国不同口音区域的发言人参与采集。MagicData中文手机录音音频语料库由MagicData有限公司开发，免费发布供非商业使用。

2）链接

数据包：

https://freedata.oss-cn-beijing.aliyuncs.com/MAGICDATA_Mandarin_Chinese_Speech.zip

下载地址

http://www.imagicdatatech.com/index.php/home/dataopensource/data_info/id/101

20.THCHS30

1）基本信息

时长:40余小时

THCHS30是一个经典的中文语音数据集，包含了1万余条语音文件，通过单个碳粒麦克风录取，大约40小时的中文语音数据，内容以文章诗句为主，全部为女声。它是由清华大学语音与语言技术中心（CSLT）出版的开放式中文语音数据库。原创录音于2002年由朱晓燕教授在清华大学计算机科学系智能与系统重点实验室监督下进行，原名“TCMSD”，代表“清华连续”普通话语音数据库’。13年后的出版由王东博士发起，并得到了朱晓燕教授的支持。他们希望为语音识别领域的新入门的研究人员提供玩具级别的数据库，因此，数据库对学术用户完全免费。

2）链接

国内镜像：

https://link.ailemon.me/?target=http://cn-mirror.openslr.org/resources/18/data_thchs30.tgz

国外镜像：

https://link.ailemon.me/?target=http://www.openslr.org/resources/18/data_thchs30.tgz

21.ST-CMDS

1）基本信息：

时长:100余小时

参与人数：855人

ST-CMDS是由一个AI数据公司发布的中文语音数据集，包含10万余条语音文件，大约100余小时的语音数据。数据内容以平时的网上语音聊天和智能语音控制语句为主，855个不同说话者，同时有男声和女声，适合多种场景下使用。

2）链接

下载地址：

国内镜像：

https://link.ailemon.me/?target=http://cn-mirror.openslr.org/resources/38/ST-CMDS-20170001_1-OS.tar.gz

国外镜像：

https://link.ailemon.me/?target=http://www.openslr.org/resources/38/ST-CMDS-20170001_1-OS.tar.gz

22.MAGICDATA Mandarin Chinese Read Speech Corpus

1）基本信息

时长：755小时

参与人数：1080人

应用：语音识别，机器翻译，说话人识别和其他语音相关领域

Magic Data技术有限公司的语料库，语料库包含755小时的语音数据，其主要是移动终端的录音数据。邀请来自中国不同重点区域的1080名演讲者参与录制。句子转录准确率高于98％。录音在安静的室内环境中进行。数据库分为训练集，验证集和测试集，比例为51：1：2。诸如语音数据编码和说话者信息的细节信息被保存在元数据文件中。录音文本领域多样化，包括互动问答，音乐搜索，SNS信息，家庭指挥和控制等。还提供了分段的成绩单。该语料库旨在支持语音识别，机器翻译，说话人识别和其他语音相关领域的研究人员。因此，语料库完全免费用于学术用途。

2）链接

下载地址见参考：

https://blog.ailemon.me/2018/11/21/free-open-source-chinese-speech-datasets/

镜像：

http://www.openslr.org/68/

23 AISHELL数据集

23.1AISHELL开源版1

1）基本信息

时长：178小时

参与人数：400人

采样：44.1kHz & 16kHz 16bit

AISHELL是由北京希尔公司发布的一个中文语音数据集，其中包含约178小时的开源版数据。该数据集包含400个来自中国不同地区、具有不同的口音的人的声音。录音是在安静的室内环境中同时使用3种不同设备：高保真麦克风（44.1kHz，16-bit）；Android系统手机（16kHz，16-bit）；iOS系统手机（16kHz，16-bit）。进行录音，并采样降至16kHz，用于制作AISHELL-ASR0009-OS1。通过专业的语音注释和严格的质量检查，手动转录准确率达到95％以上。该数据免费供学术使用。他们希望为语音识别领域的新研究人员提供适量的数据。

2）链接

下载地址：

http://www.aishelltech.com/kysjcp

23.2 AISHELL-2 开源中文语音数据库

1）基本信息

时长：1000小时

参与人数：1991人

希尔贝壳中文普通话语音数据库AISHELL-2的语音时长为1000小时，其中718小时来自AISHELL-ASR0009-[ZH-CN]，282小时来自AISHELL-ASR0010-[ZH-CN]。录音文本涉及唤醒词、语音控制词、智能家居、无人驾驶、工业生产等12个领域。录制过程在安静室内环境中，同时使用3种不同设备：高保真麦克风（44.1kHz，16bit）；Android系统手机（16kHz，16bit）；iOS系统手机（16kHz，16bit）。AISHELL-2采用iOS系统手机录制的语音数据。1991名来自中国不同口音区域的发言人参与录制。经过专业语音校对人员转写标注，并通过严格质量检验，此数据库文本正确率在96%以上。（支持学术研究，未经允许禁止商用。）

2）链接

下载地址：

http://www.aishelltech.com/aishell_2

23.3 AISHELL-翻译机录制语音数据库

1）基本信息

时长：31.2小时

参与人数：12人

采样： 44.1kHz & 16kHz 16bit

文件：wav

来自AISHELL的开源语音数据产品：翻译机录制语音数据库

2）链接

下载地址：

http://www.aishelltech.com/aishell_2019C_eval

23.4 AISHELL-家居环境近远讲同步语音数据库

1）基本信息

时长：24.3小时

参与人数：50人

采样： 44.1kHz & 16kHz 16bit

文件：wav

AISHELL-2019A-EVAL 随机抽取 50 个发音人。每人从位置 A(高保真 44.1kHz，16bit)与位置 F(Android 系统手机 16kHz，16bit)中，各选取 232 句到 237 句。
此数据库经过专业语音校对人员转写标注，并通过严格质量检验，文本正确率 100%。

AISHELL-2019A-EVAL 是 AISHELL-ASR0010 的子库，共 24.3 小时。

2）链接

下载地址：

http://www.aishelltech.com/aishell_2019A_eval

23.5 AISHELL-语音唤醒词数据库

1）基本信息

时长：437．67小时

参与人数：86人

采样： 44.1kHz & 16kHz 16bit

文件：wav

来自希尔贝壳的语音唤醒词数据库

2)链接

下载地址：

http://www.aishelltech.com/aishell_2019B_eval

24.Aidatatang

24.1 aidatatang_1505zh（完整的1505小时中文普通话语音数据集）

1）基本信息

参与人数：6408人

时长：1505小时

包含6408位来自中国不同地区的说话人、总计1505小时时长共3万条语音、经过人工精心标注的中文普通话语料集可以对中文语音识别研究提供良好的数据支持。采集区域覆盖全国34个省级行政区域。经过专业语音校对人员转写标注，并通过严格质量检验，句标注准确率达98%以上，是行业内句准确率的最高标准。

2）使用效果：

3）链接

数据申请：

https://www.datatang.com/webfront/opensource.html

24.2 Aidatatang_200zh（基于完整数据集精选的200小时中文普通话语音数据集）

时长：200小时

参与人数：600人

采样： 16kHz 16bit

Aidatatang_200zh是由北京数据科技有限公司（数据堂）提供的开放式中文普通话电话语音库。语料库长达200小时，由Android系统手机（16kHz，16位）和iOS系统手机（16kHz，16位）记录。邀请来自中国不同重点区域的600名演讲者参加录音，录音是在安静的室内环境或环境中进行，其中包含不影响语音识别的背景噪音。参与者的性别和年龄均匀分布。语料库的语言材料是设计为音素均衡的口语句子。每个句子的手动转录准确率大于98％。数据库按7:1:2的比例分为训练集、验证集和测试集。在元数据文件中保存诸如语音数据编码和扬声器信息等详细信息。还提供分段转录本。

2）特点

该语料库旨在为语音识别、机器翻译、声纹识别等语音相关领域的研究人员提供支持。因此，该语料库完全免费供学术使用。

数据堂精选了200小时中文普通话语音数据在OpenSLR发布，并在Kaldi平台提供了训练代码，对应的训练方法也在github平台发布。

3）链接

训练：

https://github.com/datatang-ailab/aidatatang_200zh/blob/master/README.md

国内镜像：

https://link.ailemon.me/?target=http://cn-mirror.openslr.org/resources/62/aidatatang_200zh.tgz

国外镜像：https://link.ailemon.me/?target=http://www.openslr.org/resources/62/aidatatang_200zh.tgz

【其他语言】

25.其他

Vystadial

这些数据是转录的以英语和捷克语交流的电话数据。

地址：

http://www.openslr.org/resources/6/data_voip_cs.tgz( Czech speech and transcripts )

http://www.openslr.org/resources/6/data_voip_en.tgz( English speech and transcripts )

ALFFA (African Languages in the Field: speech Fundamentals and Automation)

这些数据是转录的以阿姆哈拉语和斯瓦希里语和沃洛夫语交流的语音数据。

地址：

http://www.openslr.org/resources/25/data_readspeech_am.tar.bz2( Amharic speech and transcripts )

http://www.openslr.org/resources/25/data_broadcastnews_sw.tar.bz2( Swahili speech and transcripts )

http://www.openslr.org/resources/25/data_readspeech_wo.tar.bz2 ( Wolof speech and transcripts )

Heroico

Heroico 语料库（LDC2006S37）最初是为了训练西班牙语学习应用中的发音建模声学模型而收集的。

链接

http://www.openslr.org/39/

Tunisian_MSA

突尼斯语-MSA 语料库最初是为训练阿拉伯语学习应用中的发音建模声学模型而收集的。数据收集工作于2003年在突尼斯共和国首都突尼斯附近进行。突尼斯语-MSA语料库分为背诵和提示语音子库。背诵的语音存储在录音目录下。提示语音存储在答案目录下。118名线人中的每一个都通过背诵句子和回答提示的问题，为两个子公司做出了贡献。突尼斯语-MSA语种有11.2小时的演讲时间。2017 年收集了一个小语料库进行测试。演讲由4名speaker：3名利比亚男性和1名来自突尼斯的女性组成。

链接：

http://www.openslr.org/46/

African Accented French

此语料库包含大约 22 小时的非洲口音法语的语音录音。为所有录音提供成绩单。

链接：

http://www.openslr.org/57/

Pansori-TEDxKR

基本信息

是一种韩语语音识别（ASR）语种，由 2010 年至 2014 年在韩国举行的韩语 TEDx 会谈产生。它包含来自 41 个扬声器的大约 3 小时的语音音频脚本对。此语料库是使用称为 Pansori 的新语料库数据引入和处理系统生成的。语料库中包括的语音音频是 16 位 FLAC 文件，采样率为 16 KHz。

特点

只包括由社区翻译人员转录的TEDx讲座。

语种片段在字幕边界处被分割。

通过手动（工具辅助）语音文本对齐微调分段。

由最先进的语音识别器（Google 云语音到文本）进行最终验证。

链接

https://github.com/yc9701/pansori-tedxkr-corpus

下载：

http://www.openslr.org/58/

ParlamentParla

这是加泰罗尼亚语的演讲文，由工人合作社Col_lectivaT出版。音频片段摘自加泰罗尼亚议会加泰罗尼亚议会全体会议的录音。录音与他们的记录一致，并提取了320小时最干净的片段。内容属于加泰罗尼亚议会，发布的数据符合其使用条款。音频文件是PCM 16位单声道，小尾音与采样率16 kHz。自版本 1.0 起，语料库分为 90 小时清洁和 230 小时的其他质量段加泰罗尼亚自治政府文化部支持编写这一语料库。

下载：

http://www.openslr.org/59/

TEDx Spanish Corpus

这是一个性别不平衡的西班牙语语料库，期限为 24 小时。它包含 TEDx 事件中多个讲解者的自发语音;他们大多数是男性。转录以小写字母显示，没有标点符号.

地址：

http://www.openslr.org/resources/67/tedx_spanish_corpus.tgz

以下数据集包含相关语言的转录音频数据，由波形文件和 TSV 文件（line_index.tsv）组成。文件行_index.tsv 包含匿名的 FileID 和文件中的音频转录。数据集已手动检查质量，但可能仍有错误。

High quality TTS data for Bengali languages

http://www.openslr.org/37/孟加拉国孟加拉语和印度孟加拉语

High quality TTS data for Javanese

http://www.openslr.org/41/爪哇

High quality TTS data for Khmer.

http://www.openslr.org/42/高棉

High quality TTS data for Nepali.

http://www.openslr.org/43/尼泊尔

High quality TTS data for Sundanese.

http://www.openslr.org/44/桑达尼斯

Large Sinhala ASR training data set

http://www.openslr.org/52/僧伽罗

Large Bengali ASR training data set

http://www.openslr.org/53/孟加拉语

Large Nepali ASR training data set

http://www.openslr.org/54/尼泊尔文

Crowdsourced high-quality Argentinian Spanish speech data set.

http://www.openslr.org/61/西班牙语（阿根廷布宜诺斯艾利斯）

Crowdsourced high-quality Malayalam multi-speaker speech data set.

http://www.openslr.org/63/马拉雅拉姆语（母语）

Crowdsourced high-quality Marathi multi-speaker speech data set.

http://www.openslr.org/64/马拉地语（母语）

Crowdsourced high-quality Tamil multi-speaker speech data set.

http://www.openslr.org/65/泰米尔语（母语）

Crowdsourced high-quality Telugu multi-speaker speech data set.

http://www.openslr.org/66/泰卢固语（母语）

Crowdsourced high-quality Catalan speech data set.

http://www.openslr.org/69/ 加泰隆语。

Crowdsourced high-quality Nigerian English speech data set.

http://www.openslr.org/70/尼日利亚英语

Crowdsourced high-quality Chilean Spanish speech data set.

http://www.openslr.org/71/智利西班牙语

Crowdsourced high-quality Columbian Spanish speech data set.

http://www.openslr.org/72/哥伦比亚西班牙语

Crowdsourced high-quality Peruvian Spanish speech data set.

http://www.openslr.org/73/秘鲁西班牙语

Crowdsourced high-quality Puerto Rico Spanish speech data set.

http://www.openslr.org/74/波多黎各西班牙语

Crowdsourced high-quality Venezuelan Spanish speech data set.

http://www.openslr.org/75/委内瑞拉西班牙语

Crowdsourced high-quality Basque speech data set.

http://www.openslr.org/76/巴士克语

Crowdsourced high-quality Galician speech data set.

http://www.openslr.org/77/加利西亚语

Crowdsourced high-quality Gujarati multi-speaker speech data set.

http://www.openslr.org/78/古吉拉特语（母语）

Crowdsourced high-quality Kannada multi-speaker speech data set.

http://www.openslr.org/79/缅甸

Crowdsourced high-quality Burmese speech data set.

http://www.openslr.org/80/卡纳达

你可能感兴趣的:(训练数据库)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
绘本讲师训练营【24期】8/21阅读原创《独生小孩》 1784e22615e0
24016-孟娟《独生小孩》图片发自App今天我想分享一个蛮特别的绘本，讲的是一个特殊的群体，我也是属于这个群体，80后的独生小孩。这是一本中国绘本，作者郭婧，也是一个80厚。全书一百多页，均为铅笔绘制，虽然为黑白色调，但并不显得沉闷。全书没有文字，犹如“默片”，但并不影响读者对该作品的理解，反而显得神秘，梦幻，給读者留下想象的空间。作者在前蝴蝶页这样写到：“我更希望父母和孩子一起分享这本书，使他
Google earth studio 简介陟彼高冈yu 旅游
GoogleEarthStudio是一个基于Web的动画工具，专为创作使用GoogleEarth数据的动画和视频而设计。它利用了GoogleEarth强大的三维地图和卫星影像数据库，使用户能够轻松地创建逼真的地球动画、航拍视频和动态地图可视化。网址为https://www.google.com/earth/studio/。GoogleEarthStudio是一个基于Web的动画工具，专为创作使用G
LLM 词汇表落难Coder LLMs NLP 大语言模型大模型 llama 人工智能
Contextwindow“上下文窗口”是指语言模型在生成新文本时能够回溯和参考的文本量。这不同于语言模型训练时所使用的大量数据集，而是代表了模型的“工作记忆”。较大的上下文窗口可以让模型理解和响应更复杂和更长的提示，而较小的上下文窗口可能会限制模型处理较长提示或在长时间对话中保持连贯性的能力。Fine-tuning微调是使用额外的数据进一步训练预训练语言模型的过程。这使得模型开始表示和模仿微调数
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
关于提高复杂业务逻辑代码可读性的思考编程经验分享开发经验 java 数据库开发语言
目录前言需求场景常规写法拆分方法领域对象总结前言实际工作中大部分时间都是在写业务逻辑，一般都是三层架构，表示层（Controller）接收客户端请求，并对入参做检验，业务逻辑层（Service）负责处理业务逻辑，一般开发都是在这一层中写具体的业务逻辑。数据访问层（Dao）是直接和数据库交互的，用于查数据给业务逻辑层，或者是将业务逻辑层处理后的数据写入数据库。简单的增删改查接口不用多说，基本上写好一
SQL Server_查询某一数据库中的所有表的内容 qq_42772833 SQL Server 数据库 sqlserver
1.查看所有表的表名要列出CrabFarmDB数据库中的所有表（名），可以使用以下SQL语句：USECrabFarmDB;--切换到目标数据库GOSELECTTABLE_NAMEFROMINFORMATION_SCHEMA.TABLESWHERETABLE_TYPE='BASETABLE';对这段SQL脚本的解释：SELECTTABLE_NAME：这个语句的作用是从查询结果中选择TABLE_NAM
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
MongoDB Oplog 窗口喝醉酒的小白 MongoDB 运维
在MongoDB中，oplog（操作日志）是一个特殊的日志系统，用于记录对数据库的所有写操作。oplog允许副本集成员（通常是从节点）应用主节点上已经执行的操作，从而保持数据的一致性。它是MongoDB副本集实现数据复制的基础。MongoDBOplog窗口oplog窗口是指在MongoDB副本集中，从节点可以用来同步数据的时间范围。这个窗口通常由以下因素决定：Oplog大小：oplog的大小是有限
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
展现思维导图魅力，不断挖掘人生宝藏思维导图讲师Mandy
第13期最强思维导图训练营已经结束一周了，但是我依旧是感觉所有学员还在努力的学习，这些学员中有教师、学生、白领、公务员、宝妈等等，只要你努力，只要你想改变自己，任何行业，任何岗位都可以参与进来，28天足以让你见成效，在这28天中，我们的学员不仅仅是收获了一枚毕业证，最重要的是让自己的思维方式得到升级，今天的你为自己投资，明天的你就会感谢你今天的付出，我们来听一听来自13期最强思维导图训练营优秀学员
【PG】常见数据库、表属性设置江无羡数据库
PG的常见属性配置方法数据库复制、备份相关表的复制标识单表操作批量表操作链接数据库复制、备份相关表的复制标识单表操作通过ALTER语句单独更改一张表的复制标识。ALTERTABLE[tablename]REPLICAIDENTITYFULL;批量表操作通过代码块的方式，对某个schema中的所有表一起更新其复制标识。SELECTtablename,CASErelreplidentWHEN'd'TH
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
渝婧感恩日记第68天梁渝婧lydia
1.哇！我真是太幸福啦！感恩奇迹感恩训练营毕业典礼，让我能共振到同学们的喜悦和能量，感谢！感谢！感谢！2.哇！我真是太幸福啦！感恩每天早起，运动3公里！这个星期又做到连续三天，不间断！感谢亲爱的渝婧！你真的是非常的棒！加油，继续坚持！感谢！感谢！感谢！3.哇！我真是太幸福啦！感恩曾正波班主任给我们分享的艾宾浩斯的记忆曲线255学习法，让我蠢蠢欲试，感谢！感谢！感谢！4.哇！我真是太幸福啦！感恩胜利
insert into select 主键自增_mybatis拦截器实现主键自动生成 weixin_39521651 insert into select 主键自增 mybatis delete返回值 mybatis insert返回主键 mybatis insert返回对象 mybatis plus insert返回主键 mybatis plus 插入生成id
前言前阵子和朋友聊天，他说他们项目有个需求，要实现主键自动生成，不想每次新增的时候，都手动设置主键。于是我就问他，那你们数据库表设置主键自动递增不就得了。他的回答是他们项目目前的id都是采用雪花算法来生成，因此为了项目稳定性，不会切换id的生成方式。朋友问我有没有什么实现思路，他们公司的orm框架是mybatis，我就建议他说，不然让你老大把mybatis切换成mybatis-plus。mybat
关于Mysql 中 Row size too large (＞ 8126) 错误的解决和理解秋刀prince mysql mysql 数据库
提示：啰嗦一嘴，数据库的任何操作和验证前，一定要记得先备份！！！不会有错；文章目录问题发现一、问题导致的可能原因1、页大小2、行格式2.1compact格式2.2Redundant格式2.3Dynamic格式2.4Compressed格式3、BLOB和TEXT列二、解决办法1、修改页大小（不推荐）2、修改行格式3、修改数据类型为BLOB和TEXT列4、其他优化方式（可以参考使用）4.1合理设置数据
BART&BERT Ambition_LAO 深度学习
BART和BERT都是基于Transformer架构的预训练语言模型。模型架构：BERT(BidirectionalEncoderRepresentationsfromTransformers)主要是一个编码器（Encoder）模型，它使用了Transformer的编码器部分来处理输入的文本，并生成文本的表示。BERT特别擅长理解语言的上下文，因为它在预训练阶段使用了掩码语言模型（MLM）任务，即
Java爬虫框架（一）--架构设计狼图腾-狼之传说 java 框架 java 任务 html解析器存储电子商务
一、架构图那里搜网络爬虫框架主要针对电子商务网站进行数据爬取，分析，存储，索引。爬虫：爬虫负责爬取，解析，处理电子商务网站的网页的内容数据库：存储商品信息索引：商品的全文搜索索引Task队列：需要爬取的网页列表Visited表：已经爬取过的网页列表爬虫监控平台：web平台可以启动，停止爬虫，管理爬虫，task队列，visited表。二、爬虫1.流程1)Scheduler启动爬虫器，TaskMast
MongoDB知识概括 GeorgeLin98 持久层 mongodb
MongoDB知识概括MongoDB相关概念单机部署基本常用命令索引-IndexSpirngDataMongoDB集成副本集分片集群安全认证MongoDB相关概念业务应用场景：传统的关系型数据库（如MySQL），在数据操作的“三高”需求以及应对Web2.0的网站需求面前，显得力不从心。解释：“三高”需求：①Highperformance-对数据库高并发读写的需求。②HugeStorage-对海量数
Mongodb Error: queryTxt ETIMEOUT xxxx.wwwdz.mongodb.net 佛一脚 error react mongodb 数据库
背景每天都能遇到奇怪的问题，做个记录，以便有缘人能得到帮助！换了一台电脑开发nextjs程序。需要连接mongodb数据，对数据进行增删改查。上一台电脑好好的程序，新电脑死活连不上mongodb数据库。同一套代码，没任何修改，搞得我怀疑人生了，打开浏览器进入mongodb官网毫无问题，也能进入线上系统查看数据，网络应该是没问题。于是我尝试了一下手机热点，这次代码能正常跑起来，连接数据库了！！！是不
入门MySQL——查询语法练习 K_un
前言：前面几篇文章为大家介绍了DML以及DDL语句的使用方法，本篇文章将主要讲述常用的查询语法。其实MySQL官网给出了多个示例数据库供大家实用查询，下面我们以最常用的员工示例数据库为准，详细介绍各自常用的查询语法。1.员工示例数据库导入官方文档员工示例数据库介绍及下载链接：https://dev.mysql.com/doc/employee/en/employees-installation.h
放松的一天 4da9b7687fa0
20190325总结起床07:20图片发自App睡觉:23:00天气:晴今日任务清单学习·信息·阅读•水滴阅读Day40Alice’sAdventuresinWonderlandChapter6.2图片发自App•BBC跟读训练营Day24图片发自App图片发自App图片发自App•潘多拉口语训练营Day6Wow.Whatabigboy!•文化知识学习今日无•阅读时间地狱健康·饮食·锻炼•饮食目标
博客网站制作教程 2401_85194651 java maven
首先就是技术框架：后端：Java+SpringBoot数据库：MySQL前端：Vue.js数据库连接：JPA(JavaPersistenceAPI)1.项目结构blog-app/├──backend/│├──src/main/java/com/example/blogapp/││├──BlogApplication.java││├──config/│││└──DatabaseConfig.java
人到中年的5大恐惧不想独白的独白
这一段时间闭关在家，心里越来越没有底。全球疫情，全国疫情，一直在关心和自我调试中。但是，好像还是对自己的未来充满了无所适从。不想去做什么，也没有激情和兴趣去开始什么。人生过半，还有什么可以逆袭或改变的机会呢。不知道做什么的时候，去追剧，做美食，教育孩子，锻炼，花钱进什么什么读书训练营，打卡训练营，微信群，各种分享和共同体的群。但是还是没有任何的起色。就这样了吗。中午并不困，但是到了12点，还是习惯
ubuntu安装wordpress lissettecarlr
1安装nginx网上安装方式很多，这就就直接用apt-get了apt-getinstallnginx不用启动啥，然后直接在浏览器里面输入IP:80就能看到nginx的主页了。如果修改了一些配置可以使用下列命令重启一下systemctlrestartnginx.service2安装mysql输入安装前也可以更新一下软件源，在安装过程中将会让你输入数据库的密码。sudoapt-getinstallmy
深入浅出 -- 系统架构之负载均衡Nginx的性能优化 xiaoli8748_软件开发系统架构系统架构负载均衡 nginx
一、Nginx性能优化到这里文章的篇幅较长了，最后再来聊一下关于Nginx的性能优化，主要就简单说说收益最高的几个优化项，在这块就不再展开叙述了，毕竟影响性能都有多方面原因导致的，比如网络、服务器硬件、操作系统、后端服务、程序自身、数据库服务等，对于性能调优比较感兴趣的可以参考之前《JVM性能调优》中的调优思想。优化一：打开长连接配置通常Nginx作为代理服务，负责分发客户端的请求，那么建议开启H
【RabbitMQ 项目】服务端：数据管理模块之绑定管理月夜星辉雪 rabbitmq 分布式
文章目录一.编写思路二.代码实践一.编写思路定义绑定信息类交换机名称队列名称绑定关键字：交换机的路由交换算法中会用到没有是否持久化的标志，因为绑定是否持久化取决于交换机和队列是否持久化，只有它们都持久化时绑定才需要持久化。绑定就好像一根绳子，两端连接着交换机和队列，当一方不存在，它就没有存在的必要了定义绑定持久化类构造函数：如果数据库文件不存在则创建，打开数据库，创建binding_table插入
我的一个小心愿，减肥20斤，有人一起吗张晓晓ZXX
我现在体重141斤，163cm，想减到120以内，不想吃减肥药，不喝奶昔，也不想买健身卡，就是希望通过一些运动的aPP进行训练和适当的节食，有人一起的吗？3月12号，我73公斤，现在70.9公斤，是通过咕咚app训练来的，但一个人太孤单，有一起的吗？我想知道除了小时候坚持一个月练习写字帖把字写好了，还能做什么锻炼一下自己的毅力，我也想知道100天之后，我能不能也达到理想的体重。接下来100天，愿意
今天是总结薛帅
今天来个最后一天的总结。为什么要学习写作技巧呢？就如同建房子，如果想要住的安全、舒服，我们要先打地基，建房子的框架，这样才能随意的装修。那么我们要怎么建好才能建好写作的地基呢？1走直路，少弯路01利他：能够给别人带来价值。02吸引：吸住读者的眼球。03打动：打动人心，引起共鸣。04说服：用数据说话。05刻意：通过有意识的训练。06修改：好的文章至上修改10遍。07模仿：10万+的文章必有成功的道理
计算机毕业设计PHP仓储综合管理系统（源码+程序+VUE+lw+部署） java毕设程序源码王哥 php 课程设计 vue.js
该项目含有源码、文档、程序、数据库、配套开发软件、软件安装教程。欢迎交流项目运行环境配置：phpStudy+Vscode+Mysql5.7+HBuilderX+Navicat11+Vue+Express。项目技术：原生PHP++Vue等等组成，B/S模式+Vscode管理+前后端分离等等。环境需要1.运行环境：最好是小皮phpstudy最新版，我们在这个版本上开发的。其他版本理论上也可以。2.开发
开发者关心的那些事圣子足道 ios 游戏编程 apple 支付
我要在app里添加IAP，必须要注册自己的产品标识符（product identifiers）。产品标识符是什么？产品标识符（Product Identifiers）是一串字符串，它用来识别你在应用内贩卖的每件商品。App Store用产品标识符来检索产品信息，标识符只能包含大小写字母（A-Z）、数字（0-9）、下划线（-）、以及圆点(.)。你可以任意排列这些元素，但我们建议你创建标识符时使用
负载均衡器技术Nginx和F5的优缺点对比 bijian1013 nginx F5
对于数据流量过大的网络中，往往单一设备无法承担，需要多台设备进行数据分流，而负载均衡器就是用来将数据分流到多台设备的一个转发器。目前有许多不同的负载均衡技术用以满足不同的应用需求，如软/硬件负载均衡、本地/全局负载均衡、更高
LeetCode[Math] - #9 Palindrome Number Cwind java Algorithm 题解 LeetCode Math
原题链接：#9 Palindrome Number 要求：判断一个整数是否是回文数，不要使用额外的存储空间难度：简单分析：题目限制不允许使用额外的存储空间应指不允许使用O(n)的内存空间，O(1)的内存用于存储中间结果是可以接受的。于是考虑将该整型数反转，然后与原数字进行比较。注：没有看到有关负数是否可以是回文数的明确结论，例如
画图板的基本实现 15700786134 画图板
要实现画图板的基本功能，除了在qq登陆界面中用到的组件和方法外，还需要添加鼠标监听器，和接口实现。首先，需要显示一个JFrame界面： public class DrameFrame extends JFrame { //显示
linux的ps命令被触发 linux
Linux中的ps命令是Process Status的缩写。ps命令用来列出系统中当前运行的那些进程。ps命令列出的是当前那些进程的快照，就是执行ps命令的那个时刻的那些进程，如果想要动态的显示进程信息，就可以使用top命令。要对进程进行监测和控制，首先必须要了解当前进程的情况，也就是需要查看当前进程，而 ps 命令就是最基本同时也是非常强大的进程查看命令。使用该命令可以确定有哪些进程正在运行
Android 音乐播放器下一曲连续跳几首歌肆无忌惮_ android
最近在写安卓音乐播放器的时候遇到个问题。在MediaPlayer播放结束时会回调 player.setOnCompletionListener(new OnCompletionListener() { @Override public void onCompletion(MediaPlayer mp) { mp.reset(); Log.i("H
java导出txt文件的例子知了ing java servlet
代码很简单就一个servlet,如下： package com.eastcom.servlet; import java.io.BufferedOutputStream; import java.io.IOException; import java.net.URLEncoder; import java.sql.Connection; import java.sql.Resu
Scala stack试玩, 提高第三方依赖下载速度矮蛋蛋 scala sbt
原文地址： http://segmentfault.com/a/1190000002894524 sbt下载速度实在是惨不忍睹, 需要做些配置优化下载typesafe离线包, 保存为ivy本地库 wget http://downloads.typesafe.com/typesafe-activator/1.3.4/typesafe-activator-1.3.4.zip 解压r
phantomjs安装(linux，附带环境变量设置) ，以及casperjs安装。 alleni123 linux spider
1. 首先从官网 http://phantomjs.org/下载phantomjs压缩包，解压缩到/root/phantomjs文件夹。 2. 安装依赖 sudo yum install fontconfig freetype libfreetype.so.6 libfontconfig.so.1 libstdc++.so.6 3. 配置环境变量 vi /etc/profil
JAVA IO FileInputStream和FileOutputStream，字节流的打包输出百合不是茶 java核心思想 JAVA IO操作字节流
在程序设计语言中，数据的保存是基本，如果某程序语言不能保存数据那么该语言是不可能存在的，JAVA是当今最流行的面向对象设计语言之一，在保存数据中也有自己独特的一面，字节流和字符流 1，字节流是由字节构成的，字符流是由字符构成的字节流和字符流都是继承的InputStream和OutPutStream ,java中两种最基本的就是字节流和字符流类 FileInputStream
Spring基础实例（依赖注入和控制反转） bijian1013 spring
前提条件：在http://www.springsource.org/download网站上下载Spring框架，并将spring.jar、log4j-1.2.15.jar、commons-logging.jar加载至工程1.武器接口 package com.bijian.spring.base3; public interface Weapon { void kil
HR看重的十大技能 bijian1013 提升能力 HR 成长
一个人掌握何种技能取决于他的兴趣、能力和聪明程度，也取决于他所能支配的资源以及制定的事业目标，拥有过硬技能的人有更多的工作机会。但是，由于经济发展前景不确定，掌握对你的事业有所帮助的技能显得尤为重要。以下是最受雇主欢迎的十种技能。　　一、解决问题的能力　　每天，我们都要在生活和工作中解决一些综合性的问题。那些能够发现问题、解决问题并迅速作出有效决
【Thrift一】Thrift编译安装 bit1129 thrift
什么是Thrift The Apache Thrift software framework, for scalable cross-language services development, combines a software stack with a code generation engine to build services that work efficiently and s
【Avro三】Hadoop MapReduce读写Avro文件 bit1129 mapreduce
Avro是Doug Cutting(此人绝对是神一般的存在）牵头开发的。开发之初就是围绕着完善Hadoop生态系统的数据处理而开展的（使用Avro作为Hadoop MapReduce需要处理数据序列化和反序列化的场景）,因此Hadoop MapReduce集成Avro也就是自然而然的事情。这个例子是一个简单的Hadoop MapReduce读取Avro格式的源文件进行计数统计，然后将计算结果
nginx定制500，502，503，504页面 ronin47 nginx　错误显示
server { listen 80; error_page 500/500.html; error_page 502/502.html; error_page 503/503.html; error_page 504/504.html; location /test {return502;}} 配置很简单，和配
java-1.二叉查找树转为双向链表 bylijinnan 二叉查找树
import java.util.ArrayList; import java.util.List; public class BSTreeToLinkedList { /* 把二元查找树转变成排序的双向链表题目：输入一棵二元查找树，将该二元查找树转换成一个排序的双向链表。要求不能创建任何新的结点，只调整指针的指向。 10 / \ 6 14 / \
Netty源码学习-HTTP-tunnel bylijinnan java netty
Netty关于HTTP tunnel的说明： http://docs.jboss.org/netty/3.2/api/org/jboss/netty/channel/socket/http/package-summary.html#package_description 这个说明有点太简略了一个完整的例子在这里： https://github.com/bylijinnan
JSONUtil.serialize(map)和JSON.toJSONString(map)的区别 coder_xpf jquery json map val()
JSONUtil.serialize(map)和JSON.toJSONString(map)的区别数据库查询出来的map有一个字段为空通过System.out.println()输出 JSONUtil.serialize(map)： {"one":"1","two":"nul
Hibernate缓存总结 cuishikuan 开源 ssh javaweb hibernate缓存三大框架
一、为什么要用Hibernate缓存？ Hibernate是一个持久层框架，经常访问物理数据库。为了降低应用程序对物理数据源访问的频次，从而提高应用程序的运行性能。缓存内的数据是对物理数据源中的数据的复制，应用程序在运行时从缓存读写数据，在特定的时刻或事件会同步缓存和物理数据源的数据。二、Hibernate缓存原理是怎样的？ Hibernate缓存包括两大类：Hib
CentOs6 dalan_123 centos
首先su - 切换到root下面1、首先要先安装GCC GCC-C++ Openssl等以来模块：yum -y install make gcc gcc-c++ kernel-devel m4 ncurses-devel openssl-devel2、再安装ncurses模块yum -y install ncurses-develyum install ncurses-devel3、下载Erang
10款用 jquery 实现滚动条至页面底端自动加载数据效果 dcj3sjt126com JavaScript
无限滚动自动翻页可以说是web2.0时代的一项堪称伟大的技术，它让我们在浏览页面的时候只需要把滚动条拉到网页底部就能自动显示下一页的结果，改变了一直以来只能通过点击下一页来翻页这种常规做法。无限滚动自动翻页技术的鼻祖是微博的先驱：推特(twitter)，后来必应图片搜索、谷歌图片搜索、google reader、箱包批发网等纷纷抄袭了这一项技术，于是靠滚动浏览器滚动条
ImageButton去边框&Button或者ImageButton的背景透明 dcj3sjt126com imagebutton
在ImageButton中载入图片后，很多人会觉得有图片周围的白边会影响到美观，其实解决这个问题有两种方法一种方法是将ImageButton的背景改为所需要的图片。如：android:background="@drawable/XXX" 第二种方法就是将ImageButton背景改为透明，这个方法更常用在XML里； <ImageBut
JSP之c:foreach eksliang jsp forearch
原文出自：http://www.cnblogs.com/draem0507/archive/2012/09/24/2699745.html <c:forEach>标签用于通用数据循环，它有以下属性属性描述是否必须缺省值 items 进行循环的项目否无 begin 开始条件否 0 end 结束条件否集合中的最后一个项目 step 步长否 1
Android实现主动连接蓝牙耳机 gqdy365 android
在Android程序中可以实现自动扫描蓝牙、配对蓝牙、建立数据通道。蓝牙分不同类型，这篇文字只讨论如何与蓝牙耳机连接。大致可以分三步：一、扫描蓝牙设备： 1、注册并监听广播： BluetoothAdapter.ACTION_DISCOVERY_STARTED BluetoothDevice.ACTION_FOUND BluetoothAdapter.ACTION_DIS
android学习轨迹之四：org.json.JSONException: No value for hyz301 json
org.json.JSONException: No value for items 在JSON解析中会遇到一种错误，很常见的错误 06-21 12:19:08.714 2098-2127/com.jikexueyuan.secret I/System.out﹕ Result:{"status":1,"page":1,&
干货分享：从零开始学编程系列汇总 justjavac 编程
程序员总爱重新发明轮子，于是做了要给轮子汇总。从零开始写个编译器吧系列 (知乎专栏) 从零开始写一个简单的操作系统 (伯乐在线) 从零开始写JavaScript框架 (图灵社区) 从零开始写jQuery框架 (蓝色理想 ) 从零开始nodejs系列文章 (粉丝日志) 从零开始编写网络游戏
jquery-autocomplete 使用手册 macroli jquery Ajax 脚本
jquery-autocomplete学习一、用前必备官方网站：http://bassistance.de/jquery-plugins/jquery-plugin-autocomplete/ 当前版本：1.1 需要JQuery版本：1.2.6 二、使用 <script src="./jquery-1.3.2.js" type="text/ja
PLSQL-Developer或者Navicat等工具连接远程oracle数据库的详细配置以及数据库编码的修改超声波 oracle plsql
　　在服务器上将Oracle安装好之后接下来要做的就是通过本地机器来远程连接服务器端的oracle数据库，常用的客户端连接工具就是PLSQL-Developer或者Navicat这些工具了。刚开始也是各种报错，什么TNS:no listener;TNS:lost connection;TNS:target hosts...花了一天的时间终于让PLSQL-Developer和Navicat等这些客户
数据仓库数据模型之：极限存储--历史拉链表 superlxw1234 极限存储数据仓库数据模型拉链历史表
在数据仓库的数据模型设计过程中，经常会遇到这样的需求： 1. 数据量比较大; 2. 表中的部分字段会被update,如用户的地址，产品的描述信息，订单的状态等等; 3. 需要查看某一个时间点或者时间段的历史快照信息，比如，查看某一个订单在历史某一个时间点的状态，比如，查看某一个用户在过去某一段时间内，更新过几次等等; 4. 变化的比例和频率不是很大，比如，总共有10
10点睛Spring MVC4.1-全局异常处理 wiselyman spring mvc
10.1 全局异常处理使用@ControllerAdvice注解来实现全局异常处理; 使用@ControllerAdvice的属性缩小处理范围 10.2 演示演示控制器 package com.wisely.web; import org.springframework.stereotype.Controller; import org.spring

中文数据下载

1.Mozilla Common Voice

2.翻译和口语音频的大型数据库Tatoeba

3.VOiCES Dataset

4. LibriSpeech

5.2000 HUB5 English：

6.VoxForge：

7.人类语音的大规模视听数据集 （VoxCeleb）

7.1 VoxCeleb1

8.TIMIT：英语语音识别数据集

9.CHIME：

10.TED-LIUM：

10.1 TED-LIUM 2

10.2 TED-LIUM 3

11.Google AudioSet

12.CCPE数据集

13.Free ST American English Corpus

14.CSTR VCTK

15.LibriTTS corpus

16. The AMI Corpus

17.Free ST Chinese Mandarin Corpus

18.Primewords Chinese Corpus Set 1

19.爱数智慧中文手机录音音频语料库（Mandarin Chinese Read Speech ）

20.THCHS30

21.ST-CMDS

22.MAGICDATA Mandarin Chinese Read Speech Corpus

23 AISHELL数据集

23.1AISHELL开源版1

23.2 AISHELL-2 开源中文语音数据库

23.3 AISHELL-翻译机录制语音数据库

23.4 AISHELL-家居环境近远讲同步语音数据库

23.5 AISHELL-语音唤醒词数据库

24.Aidatatang

24.1 aidatatang_1505zh（完整的1505小时中文普通话语音数据集）

25.其他

你可能感兴趣的:(训练数据库)

7.人类语音的大规模视听数据集（VoxCeleb）