DAIC-WOZ数据集

该数据库是更大的语料库(遇险分析访谈语料库(DAIC))的一部分(Gratch等2014年),其中包含旨在支持诊断心理困扰的临床访谈焦虑,抑郁和创伤后应激障碍等疾病。 这些采访是收集作为更大的努力的一部分,以创建一个可以采访人并识别人的计算机代理精神疾病的言语和非言语指标(DeVault等,2014)。 收集的数据包括音频和录像和广泛的问卷答复; 语料库的这一部分包括“绿野仙踪”采访,该采访由动画化的虚拟采访者Ellie进行,由人控制面试官在另一个房间里。 数据已被转录和标注为多种语言和非语言特征。

数据集介绍

该软件包包括会话300-492的189个文件夹。 某些会议因技术原因已被排除在外原因(请参见下文)。 数据按会话分组。
DAIC-WOZ数据集_第1张图片
排除的会议:342,394,398,460
包括的会议有特别说明:
• 373 –在5:52-7:00左右有一个中断,协助人员进入房间修理未成年人
技术问题,会议持续进行并完成。
• 444 – 4:46-6:27左右中断,参与者的电话响了,协助人员进入房间以帮助他们将其关闭。 会议持续进行并完成。
•451,458,480 –会话在技术上已经完成,但是缺少了Ellie(虚拟人)的部分成绩单。 参与者的笔录仍然包括在内,但没有面试官的问题。
•402 –在对话结束之前,视频记录被剪切约2分钟。

train_split_Depression_AVEC2017.csv:此文件包含参与者ID ,PHQ8(Kroenke等人,20009)二进制标签(PHQ8分数> = 10),PHQ8分数和参与者性别,并对每个正式训练分割的PHQ8问卷的问题 。
PHQ8指患者的健康问卷。 详细信息在文档文件夹文件中提供:scherer_etal2015_VowelSpace.pdf
dev_split_Depression_AVEC2017.csv:此文件包含参与者ID,PHQ8二进制标签,PHQ8问卷中每个问题的分数,参与者性别和PHQ8为问卷中对与正式进行分割有利的每个问题的回答。

test_split_Depression_AVEC2017.csv:此文件包含参与者ID和参与者性别官方测试分组。
每个会话文件夹都包含以下文件(其中XXX是会话号,例如XXX = 301 in
文件夹301_P)。
DAIC-WOZ数据集_第2张图片
Utility files shared(提供共享的函数文件):
在这里插入图片描述

########################################################

文件说明和功能文档

本节介绍了每个会话共享的特定文件。 来自同一文件软件按软件分组。

1. CLNF框架输出

T. Baltrušaitis, P. Robinson, L-P. Morency. OpenFace:开源的面部行为分析。2016年IEEE冬季计算机视觉应用会议(WACV)
http://ieeexplore.ieee.org/abstract/document/7477553/
Link: https://github.com/TadasBaltrusaitis/OpenFace

Files:
1、XXX.CLNF_features.txt:
脸上有68个2D点。 文件格式如下:
“frame, timestamp(seconds), confidence, detection_success, x0, x1,…, x67, y0, y1,…,
y67”. 点以像素坐标表示。
2、XXX_CLNF_AUs.csv :
“frame, timestamp, confidence, success, AU01_r, AU02_r, AU04_r, AU05_r, AU06_r, AU09_r, AU10_r, AU12_r, AU14_r, AU15_r, AU17_r, AU20_r, AU25_r, AU26_r, AU04_c, AU12_c, AU15_c, AU23_c, AU28_c, AU45_c”用“ _r”表示的值是每个动作单元的回归输出和“ _c”是反映一个动作单元的二进制标签存在或不存在0。 行动单位:
https://en.wikipedia.org/wiki/Facial_Action_Coding_System
3、XXX.CLNF_features3D.txt:
脸上有68个3D点。 文件格式如下:
“frame, timestamp(seconds), confidence, detection_success, X0, X1,…, X67, Y0, Y1,…, Y67, Z0, Z1,…, Z67”. 这些点在世界坐标空间中以毫米为单位,摄像头位于(0,0,0)且轴与摄像头对齐。
4、XXX.CLNF_gaze.txt:
“frame, timestamp(seconds), confidence, detection_success, x_0, y_0, z_0, x_1, y_1, z_1, x_h0, y_h0, z_h0, x_h1, y_h1, z_h1”
聚焦输出为4个向量,前两个向量在世界坐标空间中描述两只眼睛的聚焦方向,后两个向量描述头部坐标空间(因此,如果眼睛向上滚动,即使
头部转动或倾斜)

5、XXX.CLNF_hog.bin:
使用Felzenswalb的HoG在对齐的112x112区域上以二进制文件格式显示HOG脸 这导致每帧4464矢量。 它的存储方式是字节流每帧都是:
“num_cols, num_rows, num_channels, valid_frame, 4464d
vector”. In the util folder there is a function。来自CLM的“Read_HOG_files.m”框架将HOG二进制格式读取到matlab矩阵中。
6、XXX.CLNF_pose.txt:
“frame_number, timestamp(seconds), confidence, detection_success, X, Y, Z, Rx, Ry, Rz”。姿势是6个数字的输出,X,Y,Z是位置坐标,Rx,Ry,Rz是头部旋转坐标。 位置在世界坐标中以毫米为单位,旋转为以弧度和欧拉角约定(为得到适当的旋转矩阵,使用R = Rx * Ry * Rz)。
所有.txt文件都包含适当的标题。 每行代表一帧的结果。
“置信度”是[0,1]中的度量,代表跟踪的置信度。

2、音频文件

Audio file: XXX_AUDIO.wav (scrubbed)
头戴式麦克风(Sennheiser HSP 4-EW-3)的音频记录频率为16kHz。 音频文件可能包含少量的虚拟面试官(暂停); 使用成绩单文件缓解
处理时出现此问题。 从音频记录中擦除可识别的语音,即在各时间波形归零; 使用成绩单文件和关键字**“ scrubbed_entry”**以发现这些实例。 清理后的条目也会在功能文件中清零。

3、成绩单文件

XXX_TRANSCRIPT.csv (scrubbed)
转录约定:
•语料库中的大写单词,但很少见。 如果存在,则大写没有意义,除了它是位置名称。
•不完整的单词应标注如下:
如果语音被截断,请写下完整的预期词,然后加上在尖括号中实际发音的部 分:人。;
评论只供人类读者使用;
抄写整个单词的原因是为了避免混淆。
通过在非单词上训练处理模块。
无法识别的单词表示为“ xxx”

语音重叠由重叠的时间戳指示。
•成绩单文件是 “tab separated” 文件。
•参与者ID 363上方的虚拟采访者的笔录会自动生成,并且在方括号中提供语音内容之前包含语音的唯一标识符。
例如: 165.854 166.324 Ellie yeah3 (yeah)

4、音频特征

音频功能是使用COVAREP工具箱(v.1.3.2)提取的,该工具箱位于:
https://github.com/covarep/covarep
文件:
•XXX_COVAREP.csv (scrubbed): 提取了以下功能:
1、所有音频功能(包括共振峰;请参见下文)均为10毫秒。 因此,
音频功能以100Hz采样。
2、F0, VUV, NAQ, QOQ, H1H2, PSP, MDQ, peakSlope, Rd, Rd_conf, MCEP_0-24、HMPDM_0-24, HMPDD_0-12
3、可以在COVAREP网站上找到每个功能的说明,以及提供的COVAREP出版物中。 此外,有关特征提取的确切步骤的信息,详细信息请参见
通过github提供的COVAREP脚本中引用的出版物。
4、一个重要方面是,如果VUV(发声/发声)提供了标记({0,1}),
当前段已浊或清浊。 在清音的情况下,即VUV = 0,人声褶皱没有振动,因此值例如F0,NAQ,QOQ,不应使用H1H2,PSP,MDQ,peakSlope和Rd。
5、清理后的条目设置为零。

** XXX_FORMANT.csv (scrubbed) **

*包含前5个共振峰,即声道
共振频率,这些频率在整个采访中都会被追踪。
清理后的条目设置为零。

参考文献

Jonathan Gratch, Ron Artstein, Gale Lucas, Giota Stratou, Stefan Scherer, Angela Nazarian,
Rachel Wood, Jill Boberg, David DeVault, Stacy Marsella, David Traum, Skip Rizzo, Louis-Philippe
Morency, “The Distress Analysis Interview Corpus of human and computer interviews”,
Proceedings of Language Resources and Evaluation Conference (LREC), 2014
DeVault, D., Artstein, R., Benn, G., Dey, T., Fast, E., Gainer, A., Georgila, K., Gratch, J., Hartholt,
A., Lhommet, M., Lucas, G., Marsella, S., Morbini, F., Nazarian, A., Scherer, S., Stratou, G., Suri,
A., Traum, D., Wood, R., Xu, Y., Rizzo, A., and Morency, L.-P. (2014). “SimSensei kiosk: A virtual
human interviewer for healthcare decision support”. In Proceedings of the 13th International
Conference on Autonomous Agents and Multiagent Systems (AAMAS’14), Paris
Degottex, G.; Kane, J.; Drugman, T.; Raitio, T.; and Scherer, S., COVAREP - A collaborative voice
analysis repository for speech technologies. In Proceedings of IEEE International Conference on
Acoustics, Speech and Signal Processing (ICASSP 2014), pages 960-964, 2014.
Kroenke K, Strine TW, Spitzer RL, Williams JB, Berry JT, Mokdad AH. The PHQ-8 as a measure of
current depression in the general population. Journal of affective disorders. 2009 Apr
30;114(1):163-73.

你可能感兴趣的:(DAIC-WOZ数据集)