更新:VIPL官网网页格式更改,导致旧的LRW1000链接无法访问,现已更新LRW1000数据集链接,内部包含申请需要的文件
推荐一个大佬的综述,关于实现唇语识别的多种途径。
唇读(Lip Reading),也称视觉语音识别(Visual Speech Recognition),通过说话者口
型变化信息推断其所说的内容,旨在利用视觉信道信息补充听觉信道信息,在现实生活中有重要应用。例如,应用在医疗领域辅助听力受损的病人提高沟通交流能力,在军事领域提高情报获取和处理能力,在多媒体领域提高人机交互的多样性和鲁棒性等。随着深度学习技术的发展,以及数据集规模的不断完善,基于深度学习的框架方法已经逐渐取代传统方法,成为唇读的主流方法。本文对构建自动唇读系统过程中常用到的数据集进行总结介绍。根据自动唇读系统解决的目标任务不同,可将现有数据集分为字母、数字数据集,单词、短语数据集和语句数据集三大类。
目录:
AVLetters 数据集由英国东英吉利大学、曼彻斯特大学团队于 1998 年创建,是第一个视听
语音数据集。数据集初始包含 10 个说话人,每个人分别 3 次独立的陈述 26 个英文字母,总计780 个话语实例。由于提出年份较早,拍摄条件有限,视频分辨率较低,仅为 376 像素288 像素,每秒 25 帧。在手动定位每张图像中嘴唇的位置之后,将整个图像裁剪至 80 像素60 像素,形成最终的数据集。
数据集地址
############################ start ###########################
这是XM2VTSDB多模式面部数据库项目的主页。在这个项目中,一个大型多模式数据库被捕获到高质量的数字视频。XM2VTSDB包含了四个月的295个受试者的四段录音。每一段录音包括一个讲话头部射击和一个旋转头部射击。从这个数据库获得的数据包括高质量的彩色图像,32 KHz 16位的声音文件,视频序列和一个3d模型。有关该数据库的更多信息以及如何对其进行排序,请点击本页旁边的链接。
该数据库是M2VTS项目(远程服务和安全应用的多模式验证)所需的,该项目是欧盟法令计划的一部分,通过使用人脸的多模式识别来处理访问控制。使用多模态识别方案的目的是通过结合单一模式,即人脸和语音特征来提高识别效率。
XM2VTSDB是按成本价格提供的——不期望从发行版获得任何好处——我们要求终端用户在使用该数据库时承认M2VTS项目(参见用户协议)。
########################### end ##############################
XM2VTS 数据集是从 M2VTS 项目(Multi ModalVerification for Teleservices and Securi
ty applications)中获得,由英国萨里大学、瑞士 IDIAP 研究所团队于 1999 年提出,该数据集创建的初衷是为研究团队提供高质量数据来测试多模态人脸验证算法。共 295 名志愿者参加了该数据集的记录,每个志愿者以正常语速读两个数字序列和一个语音平衡的句子(10 个数字、7个单词),这个过程进行两次。此外,考虑到志愿者自然变化的影响,在五个月时间内平均进行4 次记录,总计 7080 个话语实例。值得一提的是,该数据集考虑了头部姿态变化因素,并记录了志愿者在不同角度的头部图像(头部姿态变化的过程中未说话)。
数据集地址
###################### start #####################
BANCA数据库是一个新的大型、现实和具有挑战性的多模态数据库,旨在培训和测试多模态验证系统。BANCA数据库以四种欧洲语言的两种模式(面部和声音)被捕获。为了记录,使用了高质量和低质量的麦克风和照相机。研究对象被记录在三个月内的12个不同阶段的三种不同情景中,分别为受控、降级和不良反应。总共有208人被捕,一半是男人,一半是女人。
与数据库相关联的是BANCA协议。协议规定了用于培训、评估和测试的数据集。根据该协议进行实验可以使各机构轻松地将其结果与其他机构进行比较。2004年将举行两场针对BANCA数据库和相关协议的图像的人脸验证比赛。第一次会议与ICBA联合举行,第二次会议与ICPR 2004联合举行。
通过这个网站,BANCA数据库的一部分可以提供给研究社区。随着更多的数据可用,它将在这里发布。目前,已提供了完整的英文图像。
BANCA数据库为研究社区提供了在一个大型、现实且具有挑战性的数据库上测试其多模态验证算法的机会。希望这个数据库和协议能够成为一个标准,就像XM2VTS数据库一样,这样机构就可以轻松地将自己的算法的性能与其他算法进行比较。
##################### end ######################
BANCA 数据集是由瑞士 IDIAP 研究所、西班牙卡洛斯三世大学、英国萨里大学团队于2003年创建,旨在训练和测试多模态身份验证系统。该数据集由四种不同的语言(英语、法语、意大利语、西班牙语)进行记录,并且在三个环境条件下(controlled, degraded and adverse)进行拍摄。数据量也有了一个大的提升,总共有 208个参与者,将近 30000 个话语实例。参与者除了读一个数字序列之外,还需要说出自己的姓名、住址、生日等信息。BANCA 数据集为不仅研究团体提供了在具有挑战性的数据集上测试多模式身份验证算法的机会,也同时推动了唇读研究的发展。
数据集地址
##########################start#########################
网格是一个支持语音感知联合计算-行为研究的大型多语言视听句子语料库。简而言之,该语料库由34名说话者(18名男性,16名女性)每人说出1000句话的高质量音频和视频(面部)录音组成。句子的形式是“put red at G9 now”。语料库和抄写本可免费供研究使用。
##########################end#########################
GRID 数据集是由美国谢菲尔德大学团队于2006 年提出,旨在为语音感知和自动语音识别研究提供实验数据。该数据集在实验室环境下录制,只有 34 个志愿者,这在大型数据集中人数算比较少的,但每个志愿者说 1000 个短语,共 34000个话语实例。该数据集短语构成符合一定的规律,每个短语包含 6 个单词,不是常见的短语,而是在 6 类单词中每类随机挑选一个组成随机短语。这 6 类单词分别是“命令”、“颜色”、“介词”、“字母”、“数字”和“副词”,例如:Bin blueat A 1 again。每类单词规定了数量,单词总数共 51 个。数据集是完全公开的,不需要与发布者联系,也不需要填写保密协议即可在网上下载使用。
数据集地址
##################start#################
OuluVS数据库包括20个受试者说出10个短语的视频和音频数据:Hello, Excuse me, I am sorry, Thank you, Good bye, See you, Nice to meet you, you are welcome, How are you, Have a Good time。每个人把每个短语说五遍。还有一些视频是头部从前到左,从前到右,不说话,每个人五次。
这里是数据库收集信息的文档。有关视觉语音识别的详细资料及基线结果,请参阅:
赵,Barnard M & Pietikainen M(2009)利用本地时空描述符进行语音阅读。IEEE多媒体学报11(7):1254-1265。
例如,可以使用该数据库来研究视觉语音识别(lipreading)。如果您想获取该数据库,请与赵国英联系。
###################end#################
OuluVS 数据集是由芬兰奥卢大学团队于 2009 年发布,旨在为视听语音识别系统进行性能评估提供一个统一的标准。该数据集包含 20 个参与者,每名参与者陈述 10 个日常问候短语 5 次,一共 1000 个话语实例。OuluVS 数据集是最早几个针对短语任务而构建的数据集之一,将唇读(自动语音识别)系统的发展推向了一个新的起点。
数据集地址
#################start####################
该数据集由多达1000个包含500个不同单词的话语组成,由数百个不同的说话者说出。所有视频长度为29帧(1.16秒),单词出现在视频的中间。元数据中给出了单词duration,从中可以确定开始和结束帧。数据集统计信息如下表所示。
包含视频和元数据的软件包可供非商业学术研究使用。您需要与BBC研发部门签署一份数据共享协议才能访问。下载协议副本请到BBC野外唇读和野外数据集页唇读句子。一旦批准,您将被提供一个密码,然后包可以下载下面。如果您使用数据集,请在下面引用[1]。
##################end####################
LRW 数据集是由牛津大学视觉几何团队于2016 年提出。因深度学习的兴起,大规模数据集的需求越来越大,LRW 数据集应运而生。不同于以往数据集,LRW 数据集数据来源于 BBC 广播电视节目而不是由志愿者或实验人员录制,使得该数据集数据量有了质的飞跃。数据集选择了 500最常出现的单词,截取说话人说这些单词的镜头,因此说话人超过 1000 个,话语实例超过 550000万个,一定程度上满足了深度学习对于数据量的需求。
数据集地址-已更新
##################start####################
1000000汉字的实例
718,018个样本,平均每个类有718个样本
1000个类,每个类对应一个普通话单词的音节
2000多名不同的说话人,覆盖说话方式,包括语速、视点、年龄、性别、化妆等
3.评估协议
我们为实验提供了两个评价指标。A).由于这是一个分类任务,因此对所有1000个类的识别精度自然被视为基本度量。B).由于数据在许多方面表现出很大的多样性,例如每个类的样本数量,我们也提供了Kappa系数作为第二个评价指标。
################## end ##################
################## 数据集发布公告 start ##################
实验室近日发布目前最大规模的中文词级唇读数据集LRW-1000(链接:http://vipl.ict.ac.cn/view_database.php?id=14)。该数据集总计包含1000个中文词汇,总计大约718,018个样本。据我们所知,这是目前唇语识别领域规模最大的词级公开数据集,也是唯一公开的大规模中文唇语识别数据集。该数据集中视频序列均来源于电视节目,因此包含了复杂的变化条件,包括光照、说话人姿态、语速、视频分辨率等,是分布自然而极具挑战的唇读数据集。具体来说,LRW-1000具有以下特点:
考虑到数据集的难度,为方便进行唇语识别技术的对比与测试,我们分别依照说话人的姿态、唇部区域分辨率的大小以及每个中文词汇的长短,将数据划分为了不同难度的三个等级,如下:
综合来说,LRW-1000是目前最大的词级唇语识别数据集,也是目前唯一公开的大规模中文唇语识别数据集,欢迎各位同行申请使用。(联系邮箱:[email protected]; [email protected])
################## 数据集发布公告 end ##################
LRW-1000 数据集是由中科院计算所、中国科学院大学和华中科技大学团队于 2018 年提出,旨在建立一个在室外环境下并且图像尺寸不一的大规模基准。该数据集涵盖了不同语音模式和成像条件下的自然变化,以应对实际应用中遇到的挑战。该数据集来源于中文电视节目,包含 1000 个类,每一个类对应由一个或几个汉字组成的汉语单词。该数据集是规模最大的中文单词唇读数据集,截取的镜头包括超过2000个说话人,将近 720000 个话语实例。该数据集数据的丰富性保证了深度学习模型得到充分的训练。同时,该数据集也是唯一一个公开的中文普通话唇读数据集。
数据集地址
######################start#####################
AVICAR语料库是由伊利诺斯大学的研究人员收集和转录的资金从摩托罗拉在2003-2004年。有关数据库的更多信息,你可以观看AVI或Quicktime格式的视频,阅读Interspeech论文,或阅读数据库自读文件。AVICAR12版本(2013年3月)中的所有数据都是同步的视听语音数据,正字法转录为ELAN格式,并具有以下特点:
在仪表盘上横向排列的4个摄像头
在遮阳板上横向排列的7个麦克风
5噪音状况发动机空转(IDL),打开车窗时35英里/小时(35U),关闭车窗时35英里/小时(35D),打开车窗时55英里/小时(55U),关闭车窗时55英里/小时(55D)
4种读语音类型:孤立数字(D),孤立字母(L),十位数电话号码§, TIMIT句子(S)
10脚本:脚本A |脚本B |脚本C |脚本D |脚本E |脚本F |脚本G |脚本H |脚本I |脚本J,加上一个用于孤立数字和孤立字母的通用脚本。
包括46名男性和40名女性在内的86名演讲者
参与本研究的受试者同意将他们的数据通过安全http免费分发给任何语音或语言研究者,但不同意将他们的视频发布在网络上。如果您是一位演讲或语言研究者,对下载数据感兴趣,请发送一个通知给Mark hasegwa - johnson教授(jhasegaw at illinois.edu),说明您的姓名、所在机构的名称,以及(简要)您对数据感兴趣的原因。
许多人要求数据集的有限版本:孤立的数字或孤立的字母,只有一个麦克风的录音。由于有这么多人感兴趣,这些录音现在可以在这里下载:avicar_somedigits。邮政,avicar_someletters.zip。
######################end#####################
AVICAR 数据集是由美国伊利诺伊大学的研究团队于 2004 年提出,该数据集全部在汽车中进行拍摄,旨在创建一个带有环境噪声的数据集,为噪声条件下的唇读系统提供数据支持。AVICAR数据集包括 100 名参与者,数据包括独立字母、独立数字、数字序列(10 个)和语音平衡的句子,一共 59000 个话语实例。为了模拟在车内的实际噪声情况,该数据集在5中不同条件下进行拍摄,分别是:时速 35 公里(开、关窗)、时速 55 公25里(开、关窗)和静止(引擎空转)。
数据集地址
##################start##################
MOBIO数据库由来自152人的双模态(音频和视频)数据组成。该数据库的男女比例接近1:2(100名男性和52名女性),从2008年8月到2010年7月在5个不同国家的6个不同地点收集。这导致了一个包含母语为英语和非母语为英语的人的多样化双模式数据库。
总共为每个客户捕获了12个会议:为第一阶段捕获6个会议,为第二阶段捕获6个会议。第一阶段数据由21个问题组成,问题类型包括:短回答问题、短回答自由言论、固定言论、自由言论。第二阶段的数据由11个问题组成,问题类型包括:简短回答问题、固定演讲问题和自由演讲问题。下面提供了客户询问的问题的更详细的描述。
数据库是用两种移动设备记录的:一部手机和一台笔记本电脑。用于捕获数据库的手机是诺基亚N93i手机,而笔记本电脑是标准的2008年MacBook。笔记本只用于捕获第一次会话的一部分,第一次会话由在笔记本和移动电话上捕获的数据组成。
确认
所有报告使用该语料库的研究的出版物都将参考以下出版物以确认MOBIO数据库:
克里斯•迈克尔Sebastien Marcel Abdenour哈迪德,马蒂·Pietikainen,帕维尔垫ějka, JanČernocky,诺曼Poh,约瑟夫难应付的,安东尼落叶松,克利斯朵夫Levy Driss Matrouf,让Bonastre,菲尔-特雷萨登说道,和提摩太笨蛋,“双模人在手机上识别:利用手机数据”,在IEEE ICME车间在移动Mutlimedia热门话题,2012。
问题的详细描述
请注意,简短回答言论自由和言论自由问题的答案不一定与问题有关,因为唯一的目的是让主体言论自由,因此,所有这些问题的答案都被假定为错误的。
MOBIO 数据集由瑞士 IDIAP 研究所、芬兰奥卢大学、捷克布尔诺理工大学、英国萨里大学和法国阿维尼翁大学团队于 2012 年发布,该数据集基本上全部由记录者手持手机进行拍摄记录,旨在对手机上人脸语音自动识别系统进行评估,改进在移动设备上应用于生物识别技术的研究。该数据集是在不受控的条件下拍摄的,因为拍摄设备在记录人自己手中而不是固定在某一个特定的位置,记录者头部位置、背景、光照等因素都在发生变化。有 150 人参加了数据集构建,得到将近 31000 个话语实例,其语料可以分为三大类:五个提前定义好的问题的答案、对一个随机问题的长约5秒的回答以及提前定义好的一段文本。
############################# 原文开始 ###########################
Author: Ziheng Zhou
This is the README document for the OuluVS2 database, a multi-view audiovisual database designed mainly for visual speech recognition (VSR). For details of the database, please read our paper
Anina I, Zhou Z, Zhao G and Pietikainen M (2015) OuluVS2: A multi-view audiovisual database for non-rigid mouth motion analysis. Proc. IEEE International Conference on Automatic Face and Gesture Recognition (FG 2015), Ljubljana, Slovenia, 1-5.
File List
|
|- README
|
|- transcript_digit_phrase
|
|- transcript_sentence.zip
|
|- cropped_audio.zip
|
|- cropped_mouth_mp4_digit.zip
|
|- cropped_mouth_mp4_phrase.zip
|
|- orig_s{SID}.zip
Basic information of the OuluVS2 database:
During each recording session, a subject was asked to utter
10 fixed 10-digit strings each repeated three times (30 utterances)
10 short phrases each repeated three times (30 utterances)
10 randomly-selected TIMIT sentences each spoken once (10 utterances)
Since most participants were not native English speakers, we intentionally excluded sentences with words that were too difficult for them to pronounce.
Videos in the database are named as
sSID_vVID_uUID.mp4
where letters ‘s’, ‘v’, ‘u’ stand for ‘Subject’, ‘View’ and ‘Utterance’ respectively. Variables SID, VID and UID are the subject, camera-view and utterance indices.
You can find all the original videos in folder ‘orig’. NOTE THAT CURRENT RELEASE ONLY INCLUDES ORIGINAL VIDEOS OF DIGITS AND PHRASES.
In addition, we have, so far, preprocessed videos of DIGITS and PHRASES to remove the head movement which is irrelevant to VSR and cropped off the mouth region. Cropped mouth videos can be found in folders ‘cropped_mouth_mp4_digit’ and ‘cropped_mouth_mp4_digit’, and they are named in the same way as the orginal video files.
Notes:
Video data of Subject 29 turned out to be unusable since his mouth was not seen most of the time.
Subject 3 repeated the 7th digit string only twice which means there are no videos of the 21st utterance for him.
Due to image orientation, cropped mouth images could include some artificial black area. Moreover, lower part of the talking mouth could be outside image in the original videos. See both the original and preprocessed versions of ‘s32_v2_u15.mp4’ for example.
############################# 原文结束 ###########################
#############################翻译开始##############################
作者:子恒周
这是OuluVS2数据库的README文档,这是一个主要为视觉语音识别(VSR)而设计的多视图视听数据库。有关数据库的详情,请参阅我们的论文
Anina I, Zhou Z, Zhao G和Pietikainen M (2015) OuluVS2:一种用于非刚性嘴部运动分析的多视图视听数据库。IEEE自动人脸与手势识别国际会议(FG 2015),卢布尔雅那,斯洛文尼亚,1-5。
文件列表
|
| -自述
|
| - transcript_digit_phrase
|
| - transcript_sentence.zip
|
| - cropped_audio.zip
|
| - cropped_mouth_mp4_digit.zip
|
| - cropped_mouth_mp4_phrase.zip
|
- orig_s {SID} . zip |
---|
OuluVS2数据库基本信息: |
1)受试者人数:53人 |
2)摄像头视图数量:5个(从正面开始,30度、45度、60度到侧面视图) |
每个主语使用的话语数量:70 |
在每次录音过程中,都有一名受试者被要求发言
10个固定的10位字符串,每个重复3次(30个话语)
10个短句,每个重复3次(30个话语)
随机选择每说一次TIMIT句子(10个句子)
由于大多数参与者的母语不是英语,所以我们有意地排除了那些对他们来说太难发音的句子。
数据库中的视频命名为
sSID_vVID_uUID.mp4
字母“s”,“v”,“u”分别代表“Subject”,“View”和“Utterance”。变量SID、VID和UID是subject、camera-view和话语索引。
你可以在文件夹“orig”中找到所有的原始视频。注意,当前的版本只包括数字和短语的原始视频。
此外,到目前为止,我们已经对数字和短语的视频进行了预处理,去除了与VSR无关的头部运动,并对嘴部区域进行了裁剪。剪切后的口部视频可以在文件夹“cropped_mouth_mp4_digit”和“cropped_mouth_mp4_digit”中找到,其命名方式与原始视频文件相同。
注:
1)受试者29的视频数据无法使用,因为他的嘴大部分时间都没有被看到。
2)被试3只重复了第7个数字串两次,这意味着没有第21个单词的视频。
3)由于图像方向的原因,被裁剪的嘴部图像可能会包含一些人工黑色区域。此外,在原始视频中,说话嘴的下半部分可以是外部图像。查看’s32_v2_u15的原始版本和预处理版本。mp4”为例。
#############################翻译结束##############################
申请先通过邮件与负责人联系,取得登录账号,填写授权文件,即可下载
OuluVS2 数据集是由芬兰奥卢大学团队于2015 年发布,是继 2009 年提出的短语数据集
OuluVS 之后在语句识别领域中的又一高质量数据集,旨在促进唇读的进一步研究。该数据集包含 53 名参与者,记录了将近 4000 个话语实例。同样包括三大类语料:连续数字序列、日常短语和 TIMIT 语句。值得一提的是,OuluVS2 是为数不多的多视角唇读数据集之一,采用 5 个高清摄像头同时拍摄,分别位于说话人的 0、30、45、60、90 度方向,分辨率也达到了很高的 1920 像素*1080 像素。
数据集地址
########################start########################
该数据集由数千个来自英国广播公司电视的口语句子组成。每个句子的长度不超过100个字符。训练集、验证集和测试集按照播出日期进行划分。数据集统计信息如下表所示。
预训练集中的话语既对应部分句子,也对应多个句子,而训练集只包含单个完整的句子或短语。在训练前集和训练集之间有一些重叠。
虽然在预训练和训练集中可能存在一些标签噪声,但测试集经过了额外的验证;所以,就我们所知,测试集中没有错误。
########################end########################
LRS 数据集是由牛津大学视觉几何团队于2017 年提出,是继大规模单词数据集 LRW 发布之后,针对句子任务构建的另一大规模唇读数据集。和 LRW 类似,该数据集也来源于 BBC 广播电视节目,同样处理开放世界(句子无任何限制)的问题。数据集包含超过 1000 个说话人,截取将近150000 个话语实例,由于截取时对句子无限制,不同的单词数有将近63000个,数据丰富性极高,更好的适用于基于深度学习进行唇读模型的研究。随后于同年,为了研究侧面图像数据对唇读系统的影响,基于 LRS 的多视角数据集 MV-LRS被提出,在 LRS 的基础上加入了 0~90 度所有角度的镜头,同时数据量也有所保证,达到将近75000 个话语实例。
CMU的Multi-PIE face数据库包含了337人在5个月内4个时间段内的75万多张图像。研究对象在15个观察点和19个光照条件下拍摄了一系列面部表情的照片。此外,还获得了高分辨率的额叶图像。该数据库总共包含超过305 GB的人脸数据。内容页更详细地描述了数据库。
MultiPie Dataset 是一个多视点人脸图像数据集,其主要用于身份鉴定,是 PIE 数据库的替代品,其包含在 15 个视点下捕获的 337 个主题,其中涵盖共计超过 750,000 个图像,该数据集由卡耐基·梅隆大学于 2009 年发布。
PIE 数据库由卡耐基·梅隆大学于 2000 年收集,其在推动姿势和光照的人脸识别研究具有很大的影响力,尽管 PIE 数据库取得成功,但它有如下缺点:主题数量有限、单个记录会话和捕获的表达式较少。