CHI论文阅读(1)EmoGlass: an End-to-End AI-Enabled Wearable Platform for Enhancing Self-Awareness of Emoti

文章目录

  • abstract
  • introduction
  • Related Work
    • 用于健康感知的智能眼镜
    • 情绪感知和检测
    • 通过可穿戴设备进行面部表情识别
  • Hardware Design
    • Form Factor(外形因素)
      • Iterative Design of Form Factor(外形的迭代设计)
      • The Choice of Camera(摄像机选择)
    • Fabrication and Hardware Assembly(建造和硬件装配)
  • Facial Expression Recognition(核心算法部分)
    • Data Collection(数据收集)
      • Experiment 1: Controlled environment with uniformed light
      • Experiment 2: Controlled environment with varying directional light
      • Experiment 3: Semi-controlled emotion-triggering environment.
    • Ground Truth Acquisition
    • Image Pre-processing and Data Augmentation
    • Deep Learning pipeline
      • model selection
      • Network Architecture
    • Training & Validation
  • MOBILE APP DESIGN: ITERATION #1
  • OUT-OF-LAB STUDY
  • RESULTS & FINDINGS
    • Facial Expression Recognition: Technical Performance
    • Mobile App Design: Initial Feedback and Iteration #2
      • The need for educating users about emotional health
      • Visualizing emotion is not enough
      • Reminding/suggesting positive activities to regulate emotions
      • The trust of emotion detection
      • Connecting emotional awareness and emotional health.
    • Feedback to Mobile App Redesign, Overall Findings, and Design Recommendations
      • How did participants respond to using wearables for emotion detection?
      • How was participants’ concern of privacy?
      • How was participants’ emotional awareness?
      • Would participants use EmoGlass in their daily lives?
  • Discussion, Limitation, Future Work
  • Conclusion

abstract

  • 通常,情绪障碍由于缺乏意识而被忽视,导致潜在的精神问题。近年来,传感和推理技术的发展为基于表情的穿戴式情绪识别提供了一条可行的途径。

介绍背景和可穿戴式的情绪识别是一种可行的方式(合理性)

  • 然而,大多数之前的工作只探索了实验室环境,很少有平台面向终端用户的日常生活或提供个性化的情感建议来促进自我调节。

介绍当前一些方法的不足

  • 我们提出了一种端到端的可穿戴平台,包括情绪检测眼镜和相应的移动应用程序。我们的单摄像头眼镜可以根据部分面部图像检测七种面部表情。

针对那些补足,本文发明了什么东西,有什么功能和作用

  • 我们进行了为期三天的实验室外研究(N=15),以评估EmoGlass的性能。

如何进行的实验、如何评估

  • 我们反复设计了emglass应用程序,以有效地自我监控和了解用户的日常情绪状态。我们报告了定量和定性的研究结果,并在此基础上讨论了未来感知和增强情绪健康意识的设计建议。

迭代的过程以及最终起到了什么效果

原文:

Often, emotional disorders are overlooked due to their lack of aware- ness, resulting in potential mental issues. Recent advances in sens-
ing and inference technology provide a viable path to wearable facial-expression-based emotion recognition. However, most prior work has explored only laboratory settings and few platforms are geared towards end-users in everyday lives or provide personalized emotional suggestions to promote self-regulation. We present Emo- Glass, an end-to-end wearable platform that consists of emotion detection glasses and an accompanying mobile application. Our single-camera-mounted glasses can detect seven facial expressions based on partial face images. We conducted a three-day out-of- lab study (N=15) to evaluate the performance of EmoGlass. We iterated on the design of the EmoGlass application for efective self-monitoring and awareness of users’ daily emotional states. We report quantitative and qualitative fndings, based on which we discuss design recommendations for future work on sensing and enhancing awareness of emotional health.

introduction

健康心理学,特别是心身/行为医学,高度重视情绪健康。长期经历的负面情绪可能会产生严重的后果[34,59],许多情绪问题得不到治疗,直到变成精神障碍,影响全球近10亿人。[46]。情绪障碍的早期发现和干预可能会对人们的健康和福祉产生重大影响[27]。

首先强调情绪问题对人的影响

然而,人们却不太重视他们的情绪,大多数人很少寻求帮助[67]。此外,许多人不能准确地感知和报告自己的情绪[10],没有带宽来全天候跟踪自己的情绪。

阐明个人不够重视或者没有条件实时检测自己的情绪问题,为后面的产品介绍埋伏笔

如此缺乏有效的情绪检测和跟踪机制提供了丰富的研究机会。

承上启下,引出解决此问题的的相关方法

一个潜在的解决方案是利用越来越低成本、无处不在、安全且被广泛接受的可穿戴传感技术,从而为检测、跟踪和干预各种健康问题(从身体健康到包括情绪健康在内的心理健康)提供了一个有希望的解决方案。

先提出目前的解决方法

情绪的检测有五个通道[29]:语音[33]、文本[49]、面部表情[1]、肢体语言/动作[6]和生理状态[68]。

从行业的角度写一下当前使用传感器解决方案的基本任务分支:语音,文本,表情,肢体动作,生理状态

本文关注并利用面部表情作为与情绪具有显著相关性的直接指标,并广泛应用于情绪相关诊断[23,56,96]。之前的工作已经探索了各种可穿戴设备对面部表情检测的支持,包括眼镜[57]、耳机[18]和项链[17]。

本文关注的是基本类别中的哪个具体分支:表情,并这个具体的分支中有哪些已经成熟的工作

然而,现有的大多数系统都局限于实验室,对于它们在现实环境中工作的效果知之甚少[75]。此外,这些系统没有探索界面来为最终用户提供解释情绪检测结果的指导和反馈。最后,以往的研究主要集中在面部表情识别的技术问题上,对基于可穿戴面部表情感知促进情绪健康的研究较少

娓娓道来这个 “表情” 分支存在的当前工作的缺点,将改进的方向明确出来,而且由于切口放在一个具体的分支工作上,所以切口很小,可以为后面文章的写作留足空间

为了填补这些研究空白,我们推出了EmoGlass(图1),这是一个端到端的人工智能可穿戴平台,由定制设计的配有摄像头的眼镜和一个可以检测七种面部表情的移动应用组成,旨在提高人们的情绪健康意识,使他们能够监测自己的情绪,并为自我调节提供个性化指导。

从小切口进入,介绍了本文提出的设备,对其设计和功能非常粗略的解释,并叙述其具备吸引力的特色功能

具体来说,我们首先构建了一个可穿戴设备,以一双的形式 装有摄像头的眼镜及其配套的嵌入式系统。为了提高我们的系统在实验室环境内外的鲁棒性,我们构建了来自15名参与者的三个数据集,包括眼镜重新安装、各种照明条件,以及增强面部表情的自然度。基于这些数据集,我们开发了带有注意力机制(ACNN)的每用户深度CNN模型,用于面部表情识别。然后我们开发了一个移动应用程序,允许用户自我监控他们的情绪状态

更加详细地描述这个设备,如何收集的数据,以及使用了什么模型,最终开发了移动程序,实现了什么样的目的和功能

为了验证EmoGlass设备的性能和EmoGlass应用程序的第一次设计迭代,我们招募了同样的15名参与者(因为目前emglass的AI模型是依赖用户的)参加了为期三天的实验室外研究,每个参与者每天至少在实验室外佩戴3个小时的emglass。参与者被要求每15分钟报告一次他们的情绪,我们用这些情绪作为基本事实标签。七种面部表情的整体检测准确率为73.0%

粗略介绍实验设计,如何验证模型的有效性的整个过程

在研究过程中,我们回顾了来自前7名参与者的反馈,并设计了Emo- Glass应用程序的第二次迭代,以解决5个关键问题:1)教育用户关于情绪健康;2)追踪触发情绪和行为的事件;3)提醒/建议调节情绪的积极因素;4)建立用户对情感检测的信任;5)将情感意识和情感健康联系起来。然后,我们将最终设计的EmoGlass应用程序部署给剩下的8名参与者,并报告定性研究结果,包括用户对可穿戴情感感知的看法、隐私问题、情感意识和其他关键观察结果。

如何从第一次迭代过渡到第二次迭代,一共解决了哪些关键性的问题

总体而言,系统包括:

  • EmoGlass系统是一个端到端的人工智能可穿戴平台,结合了面部表情检测眼镜和移动应用程序,能够自我监测情绪,促进情绪意识;
  • 三个数据集迭代扩展实验室控制的面部表情数据,具有健壮性,可用于外部控制环境,包括添加各种光照条件、设备重新安装和自然发生的面部表情;
  • EmoGlass应用程序的迭代设计,不仅是将检测到的情绪可视化,还具有互动功能,如记录与情绪相关的活动,并推荐过去的活动,以帮助用户调节情绪;
  • 一项为期三天、有15名参与者参与的实验室外研究,旨在验证EmoGlass系统的技术性能及其使终端用户能够自我监测和调节情绪的可行性。

再从总体上概括这篇文章的主要工作

  • 设计了一个可穿戴设备平台,功能
  • 收集了数据集
  • 迭代升级了平台对应的应用程序
  • 验证模型的可行性

剩下的论文组织如下(如图2所示)。第1章和第2章提供了我们的研究和相关工作的概述。第三章介绍了我们的硬件平台。第四章描述了我们使用的面部表情识别(FER)模型,描述了数据收集、模型训练和评估的方法,以及我们的模型的性能。第5章描述了第一次迭代中的应用程序,而第6章说明了我们进行的实验室外研究。第7章介绍了第一轮用户研究的初步反馈和相应的设计变化,以及总体发现和设计建议。第8章包括讨论、局限性和我们研究的潜在未来工作,第9章总结了我们的工作

介绍整个论文的组织结构

Related Work

EmoGlass处于三个相关领域的交叉点:用于健康感知的智能眼镜、用于情绪感知和检测的智能眼镜,以及用于可穿戴设备的面部表情识别。

总体介绍了 EmoGlass 设计到的技术

用于健康感知的智能眼镜

可穿戴设备和传感技术的出现已经将传统的电子健康挤出了临床环境,并已演变为无处不在的移动健康[36]。眼镜有两种主要形式:眼罩和眼镜

智能眼镜对传统的电子健康行业的冲击,智能眼镜的类别

健康眼罩常用于监测睡眠[54]或危重病人。例如,一种名为HealthSOS[37]的中风预后工具。然而,由于眼罩会阻挡用户的视线,眼镜在日常健康感知方面具有更大的潜力。

因为本文不主要研究健康眼罩,因此就是稍微提一下

眼镜由于其独特的佩戴位置,可以很容易地捕捉人的面部和头部信息[83],以及在野外的可行性,引发了广泛的兴趣。智能眼镜已经应用于计算机科学、医疗保健、教育、工业、服务、社会科学和农业等多个领域,其中最受关注的是医疗保健[45]。除了疾病监测,由于它能够捕捉瞳孔和神经信号的图像,它还可以用于监测神经系统状况。例如,Munusamy等人证明,通过智能眼镜进行远程医疗对于神经危重症患者来说是可行且有效的,可以替代查房[62]。Neuroglasses[80]也被用于监测神经退行性帕金森病[7]。一些研究人员使用眼镜来检测眼病,如mems (micro-机电系统)可穿戴眼镜,其对视网膜动脉和视盘的观察具有足够的敏感性,可用于检测眼病[42,43]

眼镜的优势,在哪些领域已经广泛应用,过渡到智能眼镜在医疗保健行业的应用

除了疾病监测,许多研究也关注日常健康,其中大多数与饮食和锻炼有关。例如,Fitbyte多模态传感眼镜可以在不受限制的情况下[13]跟踪饮食,其他两款智能眼镜也可以使用该功能[35,93]。另一方面,运动监测是一个开发良好的领域,有许多成熟的商业产品[86]。例如,SOLOS[81]可以让骑手获得实时数据,包括速度、节奏、心率和动力区域。同样,“视力猛禽”[26]可以显示心率等信息。然而,据我们所知,关于基于智能眼镜的日常情绪健康追踪的研究很少[57]

智能眼镜在日常健康生活中扮演的角色:跟踪饮食,运动监测;同时,智能眼镜用于情绪健康的应用很少

有一些眼镜设备支持心理健康相关生物标志物的测量,例如,测量额头和鼻梁温度的变化,以评估认知负荷[94]。EOG眼镜提供实验室外认知评估功能[19],基于眼镜设备实现对单眼图像的实时情绪检测[88]。EmotiGo眼镜系统使用了基于生理学的不显眼的情绪检测[74]。然而,它们大多针对情绪感知,没有进一步分析已识别的情绪,如时间和统计特征,这可能是重要的情绪健康应用

有些眼镜设备可以提供一些指标的测量,从而帮助进行情绪方面的检测和分析

情绪感知和检测

准确地报告情绪功能对情绪健康至关重要,因为心理学家发现,识别和标记情绪是情绪调节的起点[41]。了解我们正在经历的感受可以帮助我们找到合适的身体和行为反应的目标情绪[12]。然而,准确理解自己的情绪对许多人来说是一个挑战[84],这为可穿戴传感技术创造了机会

情绪功能对健康的重要意义,情绪要先被准确识别出来才能提供依据从而进行改善,但是准确理解情绪是一个挑战,这也为技术的发展提供了机会

为了检测人的情绪,在人机交互和情感计算领域中,各种感知方法被广泛采用[77]。按信息来源分类,主要有基于面部表情[4]、语音[87]、生理信号[30]、文本[2]和肢体运动[90]的五种基本方法。

在人机交互领域进行情绪检测的主流基本方法

情感感知的一个特殊挑战是获得 groundtruth [75]。虽然像AFEW[22]和AfdexNet[60]这样的大型数据库采用了人类标签,但研究人员经常要求参与者自我评估情绪,并将他们的报告作为基本事实[31]。为了解决缺乏细节的问题[32,65],研究人员还使用了开放式问题[55]、封闭式问题[64,79]和量表[31]

情感问题的 groundtruth 是个挑战

另外,还有一些公司采用了实时 groundtruth
用于基于面部表情[18]的情绪检测,如基于全脸的检测API[58]。然而,这种方法限制了人们的活动,不适合在实验室外进行研究,因为他们需要确保用户的脸可以被摄像头捕捉到。对于实验室内引发的情绪,一些研究人员同时使用多种方法来生成基本事实,并在多种方法之间找到共识,以提高准确性。例如,Rattanyu等人报告称,当与其他来源的标签相匹配时,他们采用了地面真实刺激的评级[71]。研究人员

目前情绪研究的另一个限制:不适合在实验室以外的场地

研究人员希望检测人们在日常生活中的情绪, 而不是在受控的环境中(实验室设置),因为情绪在人们的日常生活中有着特殊的作用,例如驱使大多数决定[75],影响社会情境[70],以及身体健康[47]。在这种情况下,配备了无处不在的传感器、几乎可以在任何地方使用而不影响正常活动的可穿戴设备受到了广泛的关注。我们打算填补这一空白,因为我们可以通过面部表情识别眼镜来监测情绪,同时减轻在中感知人们情绪的挑战

进一步阐述了为什么在实验室以外的环境下采集数据是必要的;我们打算替补空白——做了一件很有意义的事情

通过可穿戴设备进行面部表情识别

由于面部表情的重要性,自动面部表情识别(FER)是目前计算机视觉的基本任务和研究热点之一,在实验室控制条件下,在经典数据集上的准确率高达99.8%[4]。

面部表情识别是一个有发展基础的任务

然而,可穿戴设备很难在不挡住视线的情况下捕捉佩戴者的正面脸。

目前可穿戴设备面部识别的局限性

此外,研究人员还在眼镜[3,25]、耳机[18]和颈片[17]上安装了摄像头,通过捕捉用户面部的一部分甚至只是面部轮廓来跟踪面部表情。除了普通的RGB相机,研究人员还使用近红外相机[17]来检测面部表情。基于相机的传感器需要克服几个挑战来实现FER,包括阴影、光照、头部姿势和个体面部表情的变化[76]。其他非rgb相机,包括热感相机[48],深度相机[85]和RGB-D相机[51],也用于FER,但没有研究将这些相机仪器化到可穿戴设备上用于面部表情识别。

针对存在的局限性,进行的其他一些尝试来进行可穿戴设备的面部表情识别

为了对面部表情进行分类,或者从面部图像或视频中测量每个面部表情的强度,研究人员使用了各种计算模型。虽然有些人选择使用传统的方法,如字典学习[53],但许多最近的方法是基于卷积神经网络(CNN)。研究人员还使用时间卷积(TCN)[95]或循环层,如长短期记忆(LSTM)[89]和门控循环单元(GRU)[40]学习视频片段中的时间信息。值得注意的是,Li et al.[52]使用带有注意力机制的CNN来突出区域特征。为了理解CNN模型检测面部表情的方式,Mousavi等人[61]使用去卷积来可视化CNN,并讨论了深度网络的不变性、冗余和飘移,并将学习到的表示与面部动作编码系统(FACS)进行了比较。

一些常用的面部表情分类的算法

之前的研究也利用了低维多通道传感技术来检测面部变形。例如,Ira- vantchi等人[38]使用基于声学干涉的面具来感知9类面部手势,准确率为89.0%。光反射传感器[57]和压力传感器[50,57]也被用于FER,用于跟踪皮肤变形。然而,当设备被取下并重新安装时,这些方法的准确性就大打折扣。马赛[57]报告说,他们基于安装在智能眼镜上的照片反射传感器的准确性从一次性使用到在不同的日子使用下降了14.7%。其他可穿戴设备利用生物电来感知面部表情,比如肌电图(EMG)[30],尽管这种方法很容易受到其他因素的干扰,比如眨眼,而且传感器需要与皮肤近距离接触。考虑到鲁棒性和舒适性(作为可穿戴组件),我们选择相机作为传感器。

检测面部变形的一些常用方案和问题

此外,正如后面详细介绍的,我们超越了之前的工作,提出了一种系统的方法(基于CNN模型的特征分析)来找到最佳的摄像机角度

本文提出的一种方法解决存在的问题

Hardware Design

具体来说,CNN中的卷积层和池化层在提取特征时发挥作用,从而代表特征的有效性。对于CNN来说,经过重建的图像代表了学习到的特征,这些特征通常用于选择学习性能最优和overftting最小的配置。

Form Factor(外形因素)

Iterative Design of Form Factor(外形的迭代设计)

我们进行了一次设计迭代,最终产生了三个原型。第一次迭代(图3a)看起来像带有完整框架的普通眼镜,但我们发现这些框架很容易模糊相机捕捉到的图像。因此,我们设计了第二个版本(图3b),它允许用户取下镜片。然而,我们发现重量主要集中在眼镜的右侧,佩戴起来不舒服,也不平衡。为了解决这个问题,我们将电池和控制板分别放在眼镜的两侧,从而得到了我们最终的原型

设计和迭代形状的过程和原因

The Choice of Camera(摄像机选择)

对相机有几个要求:1)广角,在一张照片中包含尽可能多的面部特征;2) CSI接口,兼容树莓派零相机接口;3)自动对焦,即使相机位置发生变化也能保持图像质量;4)要小,以免显得突兀。目前市面上大多数的IR、RGB-IR、RGB- D相机和内窥镜都难以满足所有的要求,因此我们选择了RGB相机,具体来说就是基于OV5647的120度广角RGB相机模块[66]

对相机的要求

Fabrication and Hardware Assembly(建造和硬件装配)

设计完成后,我们使用Ultimaker S5和PLA 3D打印了我们的相机安装系统的眼镜支架。为了捕捉用户面部肌肉运动引起的可见变形,我们将摄像头(图3c)放置在眼镜的右前角,指向佩戴者的脸。这款相机安装在一个可调节的座椅上,可以上下和左右旋转。这种具有两个自由度的连接结构,可以方便地调整相机的角度和所捕获的图像。摄像头由树莓派Zero W控制,内存512mb(图3c),可通过Wi-Fi或蓝牙传输检测结果,并加载32gb Micro SD卡保存记录。树莓派零W拥有一个BCM2835 SoC,加载了一个ARM11核和Broadcom VideoCore IV GPU,提供足够的计算能力来运行深度学习模型并实现实时推理
电池安装在我们眼镜的左侧(图3c),用两根电线连接到右侧的设备,如图3c所示。整个设备由一个500 mAh 3.7 V可更换锂聚合物电池供电,由一个独立的微型DC-DC模块调节,为树莓派提供5 V电源。此外,为了使佩戴更安全、更舒适,所有电子设备(除了镜头下方的部分)都封装在眼镜框架内,这也保护了脆弱的组件不被暴露。为了在我们的手机应用上实现数据的实时显示,我们的眼镜在连接建立的时候,特别是在网络可达和新数据可用的时候,会随机地将数据上传到服务器。模型预测的后期处理步骤包括softmax、去噪等,在手机上进行。

由于相机的安装角度是可调的,我们需要确定哪个角度最适合检测面部表情。一种常见的方法是比较各个角度的图像训练出的模型的准确性。然而,这种方法可能是依赖于模型的,需要相对较长的时间来收集每个可能的摄像机角度的数据。为了实现一个时间和成本效益的角度选择,我们进行了一个基于卷积网络可视化的特征分析。具体来说,CNN中的卷积层和池化层在提取特征时发挥作用,从而代表特征的有效性

对于CNN,重建图像表明学习到的特征,这些特征被用于选择能够产生最优学习性能和最小overftting的构型[61]。我们在这个实验中应用了这种方法。由于评估网络中的层也是我们最终模型的前几层,因此特征提取的有效性是相同的,允许我们在较小的数据集上训练较小的模型,并预测较大模型在较大数据集上的有效性。我们构建了一个简单的CNN,它由5次卷积组成,经过修正的线性单元激活和池化层,就像一个只有两个块且没有跳过连接的ResNet一样,然后用FC和softmax使其成为分类模型,并对捕获的帧进行训练,然后用前面提到的反卷积方法进行可视化[61,82,91]。这使我们能够看到表明最佳摄像机角度的特征提取的质量(图4)。我们进行了一项试点研究,让三名参与者测试五个角度,为我们提供了一系列不同的面部特征(即眼睛、鼻子和嘴巴)。完成每个角度的数据收集大约需要3分钟,因此研究总时长为15分钟。为了节省时间,参与者只表现出三种面部表情:自然、快乐和悲伤。重建图像突出了对CNN重要的面部特征,这表明眼睛和嘴巴周围的区域特征丰富。因此,我们选择了特征轮廓与人脸不同区域轮廓最相似的第三幅图像对应的角度(图4c)。

摄像机角度的选择(使用深度学习的方式来帮忙选出更好的安装角度)

Facial Expression Recognition(核心算法部分)

Data Collection(数据收集)

为了连接低成本的实验室数据和多变的野外条件,我们的数据收集包括三个迭代实验:E1)在一个有充足环境和均匀光线的受控环境中;E2)在可控环境下,6个方向、2个距离、2种颜色的光照;和E3)在半控制的情绪触发环境中使用视频作为刺激。在这样的三重过程中依次构建数据集,可以定量了解EmoGlass面部情绪识别模型如何适应光照(E1 E2)和表情的自然度(E1 &E2 E3)。

对数据构成的基本要求

我们通过本地大学的内部网通知服务招募了15名(7M/8F)参与者,平均年龄 = 21.1, 年龄方差 = 1.6。参加者来自不同的专业背景,包括计算机科学、设计、行政管理、英语、遥感、药学、医学和农学。因为我们的emglass和普通眼镜不能同时佩戴,所以我们要求参与者视力正常或可以佩戴隐形眼镜。所有参与者在实验前都签署了同意书,并以亚马逊礼品卡的形式支付每人50美元。所有参与者都经历了所有三个实验,并对每个参与者进行了用户特定模型的训练和验证。

每个数据样本的来源以及数据收集过程中的规范

Experiment 1: Controlled environment with uniformed light

基于类似于[69]的方法,我们使用一系列预先录制的描绘面部表情的视频(以下简称情绪卡片)让参与者模仿。我们使用了6张情绪卡,每张持续5分钟,总共花了30分钟进行这个实验。在开始数据收集之前,我们首先介绍并描述了情绪卡片,并提供了一个练习环节来帮助参与者熟悉每个面部表情和实验的节奏。

具体来说,我们考虑了六种基本情绪(快乐、悲伤、厌恶、愤怒、惊讶和恐惧)和中立状态。鸟叔心理学家保罗·埃克曼指出,这六种基本情绪在所有文化中都是普遍存在的,而且大多数时候,人们都处于中性、无表情的状态。在实验中,情绪卡片的排列顺序是随机的。参与者被要求跟随屏幕上显示的面部表情。屏幕上显示了两个进度条:一个是当前的情绪模仿进度(5秒),另一个跟踪当前会话的进度。

在现实世界中,人们可能会戴上眼镜 他们需要的时候会频繁地改变相机和脸部的相对位置。因此,为了捕捉这种行为,参与者被要求在每次测试后重新戴上眼镜。参与者可以自由休息。

我们删除了面部表情受到咳嗽、吞咽或舔嘴唇等活动干扰的数据点

Experiment 2: Controlled environment with varying directional light

在人脸表情识别[39]中,灯光效果会影响阴影位置、图像颜色和亮度、信噪比等对图像分类的影响。为了解决这个问题,我们用各种照明效果[44]扩展了之前的数据集,这是相对可靠和低成本的,因为CNN已经被证明有能力处理光照变化,使用更多的训练样本[44]。这个实验和之前的实验一样,只是在实验过程中实验者需要开灯。在每个阶段,我们通过在12个预先设定的位置上重新定位便携式光源来调整光线角度和光线强度(图5),并通过切换光线设置来改变光线的颜色。请注意,在12个位置上,有6个独特的角度(或光的方向),沿着每个角度,光或靠近或远离参与者(因此根据距离改变光的强度)。我们总共有12个阶段,每个阶段都有一个独特的光线位置和两种颜色。

Experiment 3: Semi-controlled emotion-triggering environment.

最初,我们以情绪作为关键词,从YouTube上选取了60个视频作为刺激,每个非中性表情包含10个视频,中性表情不需要触发,所以没有一个视频。接下来,四名实验者观看了视频,并得分(1-10)
视频对某些面部表情的影响有多大。根据分数,我们选择了每个情感类别评分最高的前5个视频,并将它们串联起来,生成一个30分钟的刺激视频。我们要求参与者观看视频,并使用Afectiva API记录他们的情绪。

上述描述的都是采集数据的细节,还有对采集到的数据进行的一些详细的处理

Ground Truth Acquisition

为了获得参与者面部表情的真实情况,我们使用单独的摄像机录制了全脸视频。我们没有直接使用视频的标签,因为视频片段可能无法从开始到结束引起相应的情绪。然后,我们利用68个特征点进行时间分割[21]。如果连续两帧的特征点下降到预先设定的阈值,则认为两帧对应的人脸表现出相同的表情。通过这种方式,我们通过不同的表达式分割摄像机流,并减少了需要标记的数据量。获取面部表情真实度的常用方法有三种:1)使用情绪卡片标签;2)使用基于计算机视觉的面部表情检测API[18], 3)由实验人员手工标注。我们在早期的初步研究中尝试了所有三种方法。首先,我们发现情感卡片和API方法的结果存在一些差异。此外,我们的参与者报告说,他们很难模仿表情卡中显示的标准面部表情。此外,API本身的性能也很有限(有时甚至无法检测人脸)。因此,我们最终使用情感卡片和API方法作为筛选过程。这两个“ground truth”被称为“ground truth”,只有当它们彼此同意时才会被使用;剩下的实例被手工标记(即第三种方法)

如何标记 groundtruth 标签

Image Pre-processing and Data Augmentation

由于眼镜在使用过程中可能会发生变化,用户在日常生活中可能会经常重新安装眼镜,我们预先设置了每个图像,以纳入这些差异。具体来说,我们首先对灰度图像(图6b)进行阈值和形态学计算,提取图像中较暗的部分,包括瞳孔、头发和阴影(图6c)。我们计算了图像中连接的分量,并使用位置和面积相关的权重函数-来选择最合适的分量(图6d)。我们使用另一个加权函数来计算两个关键点的位置(眼角处,图6e,图6f)。然后根据两个关键点的位置对图像进行定位(图6g)。我们使用矩形遮罩来去除边缘区域的影响,并使用直方图缩放来减少光源环境的影响(图6h)。我们还将图像的大小调整为224x224(图6i)。
我们的数据增强增强了鲁棒性对摄像机角度变化由于运动。在不增加实验时间的前提下,对数据集进行afne变换,使数据集本身具有足够的Zihan Yan、Yufei Wu、Yang Zhang和Xiang Anthony Chen噪声。我们应用的仿射变换由60%概率的缩放(缩放因子范围从0.8到1.2,均匀分布)、60%概率的旋转(在两个方向上最多6度,均匀分布)和60%概率的平移(在两个轴上最多30个像素,均匀分布)构成。通过初步研究,我们发现环境光的颜色会在图像周围形成一个光色调的颜色晕。由于光线颜色的复杂性,我们选择使用一些虚拟的光效果叠加来增加数据集,包括随机(线性)颜色校正和随机伽马校正。

图像增强处理细节

Deep Learning pipeline

model selection

由于图像的主要部分是脸颊,不能提供太多有用的信息,因此对不同的区域分配不同的权重对于突出区域特征是很重要的。我们在[52]工作的基础上,加入带有注意网的区域性cnn,计算注意(权重),使其成为一个ACNN,并使其具有突出区域特征的能力。

Network Architecture

我们使用的模型是基于[52]的工作,它在全局特征嵌入的基础上加入了区域CNN,通过使用预定义的确定性方法(在这种情况下,人脸网格中特定关键点周围的区域)生成区域特征嵌入。我们将[52]模型中的VGG-16骨干替换为ResNet-18以减少参数计数,由于我们使用的摄像头安装在参与者头部并保持恒定的相对位置,我们采用固定位置窗口来捕捉区域特征。我们重用了ResNet-18的前几个块,包括初始卷积层和池化层,以及4个基本剩余块,将一幅三通道224x224图像编码为128x28x28大小的特征向量。为了更好地关注嘴和眼睛等区域特征,我们在特征空间中创建了8个大小为128x12x12的不同窗口(见图7b),并使用两个两层残差块(块的参数在不同窗口中是独立的)提取区域内的区域特征。利用由池化和卷积组成的注意力网来学习区域内的注意力。我们使用sigmoid对计算出的注意值进行归一化,并使用该值对特征进行加权(相乘)。我们还使用了另一个单元包括剩余块和另一个注意网来使用全局特征。将全局单元和8个区域单元的结果进行级联,使用线性层将特征编码为1024值向量。最后使用线性层和Sof tmax算子进行分类。我们在网络中每次卷积后使用批处理归一化来帮助训练。模型的初始参数是随机给定的。4.5

Training & Validation

我们在多个数据集上训练和评估模型,并测试了迁移学习技术的有效性,以提高基于控制和半控制设置的模型的鲁棒性。对于验证集,我们选择了实验1和实验2最后一个session的数据,以及实验3中17%的尾部数据(分别称为V1、V2和V3)。我们为这个网络使用的优化器是Adam,用余弦逼近学习率调度器。我们使用交叉熵来表示分类损失。我们首先用实验1 (T1)收集的数据集上的随机初始参数独立地训练了所有15名参与者的每个用户模型(称为M1),并在所有三个验证集(V1, V2, V3)上验证结果。结果显示在和表1(每个参与者的详细准确性数据在附录中提供)。在所有15名参与者中,M1在实验1 (V1)的验证集上达到85.0%的准确率(SD=7.9%)。最高精度为97.1%(来自P11)。P9的准确率为68.1%,P10为73.9%,P5为76.0%,P8为79.4%。平均准确率为88.1。
然后将M1转移到实验2 s数据集(T2)上,训练出一个新的模型M2。我们在第二个验证集(V2)上验证M2。在15名参与者中,V2的准确率达到了80.6%,都显著低于V2上的M1(注意T2和V2来自实验2,而M1来自实验1的T1)。这表明,当灯光不相同时,区分情绪变得更加困难。这一结果表明,通过迁移学习,我们可以通过添加一定数量的额外数据(即使这些额外数据不能从头训练一个新模型),将受控实验室环境中的有效性转移到不受控环境中的有效性。

在第三步中,我们将M2转移到第三个实验的数据集(T3)上,并在第三个验证集(V3)上进行验证。平均准确率达到80.9%,接近第二次实验的平均准确率。然而,最差的准确率只有57.0% (P15),而最高的准确率达到98.0% (P4)。精度标准差为9.1%,高于实验1(7.9%)和实验2(8.1%)。一种解释是,这部分的准确性受到以下因素的影响:1)受控的(跟随情绪卡片)面部表情和自然发生的(由YouTube视频触发)面部表情之间的差异;2)不同表情类别的样本数量不平衡,因为即使观看相同的视频片段,每个参与者的面部表情数量也可能大不相同。

我们还在V2 + V3上验证了M1,并在V3上验证了M2作为迁移学习的基线。从理论上讲,迁移学习可以帮助模型在不需要太多样本和训练成本的情况下适应新的数据集,并在相同的验证数据集上提高准确性。然而,我们惊讶地发现,尽管所有参与者的平均准确率从71.6%提高到80.6%,但在T2上转移学习后,P4和P11的第二验证集的准确率下降了(86.8%到84.6%)和(73.3%到64.3%)。一种可能的解释是,在实验2中,由于疲劳或其他因素,一些参与者对情绪卡的跟随有所不同。在V3上,M1和M2的平均准确率分别达到62.2%和64.5%。相比之下,经过迁移学习后,M3在V3上的平均准确率达到80.8%。这样的增加表明,在转移最初在T1和T2上训练的模型时,T3发挥了重要作用。值得注意的是,包含更自然面部表情的第三个数据集T3的准确率分布与仅在情绪卡片上训练的准确率显著相关(Pearson相关,R=0.6288, p=0.012<0.05),表明我们收集的数据集在提高人类日常生活中面部表情感知的准确性方面发挥了重要作用。

MOBILE APP DESIGN: ITERATION #1

我们描述了我们对EmoGlass移动应用程序的初始设计和实现(图9),我们将其用于后续的实验室外研究,并随后与前七个参与者进行迭代。如图9所示,第一个版本的EmoGlass应用程序包含以下功能:

  • 在首页和录音页面均可对设备进行启停控制。主页(图9a)允许用户通过按下start按钮来开始录制,或者通过在日历中选择日期来查看录制的数据。当用户主动录制表情时,会显示录制页面。用户可以按结束键停止录音。
  • 情绪统计以不同的呈现方式和尺度呈现。周报表页面(图9b)提供了周数据的折线图可视化,同时以纵轴表示每种情绪在每天的平均出现比例。
  • 日报表页面(图9c、图9d)以多角形、折线图、定性评价报告等多种可视化方式展示一天内的情绪数据,对情绪进行综合描述。底部的“查看更多”按钮允许用户查看日期的特定小时内的详细信息。特定时间页面(图9e)将特定时间内每种情绪的强度以1分钟为粒度用折线图表示。
  • 提示和日记探针页面(图9f)要求用户选择一种最能代表他们当时情绪的情绪,我们用它来评估实验室外研究的准确性,也用来撰写日记页面(图9g),该页面呈现所记录的情绪日记供以后查看。在实验室外的研究中,每隔15分钟就会弹出一次调查页面
  • 帮助和建议页面(图9h)为用户提供了一般性的指导和建议,以进一步了解和调整自己的情绪健康

当每个用户第一次打开应用程序时,我们使用用户的唯一ID在应用程序上注册。该应用程序使用React Native和Expo构建,可以在iOS和Android平台上运行。为了提高我们的应用程序的性能,我们缓存了最新的统计数据,并向用户提供了他们的连接历史和状态信息,例如,最近一次看到是1.5小时前

OUT-OF-LAB STUDY

为了研究EmoGlass的可行性,我们进行了一项实验室外的研究,首先在实验室外的场景下评估了EmoGlass的面部表情识别性能。接下来,我们CHI 22, 2022年4月29日- 5月5日,在美国洛杉矶新奥尔良,利用7名参与者的反馈来迭代我们的移动应用程序设计。最后,我们部署了重新设计的应用程序,并收集了更多的反馈,以总体发现和设计建议的形式报告

通过实际的使用获得反馈并调整设计

我们从数据收集实验中招募了同样的15名参与者。我们为每位参与者提供了一个emglass设备和两个可充电锂电池。我们帮助他们在手机上安装了EmoGlass移动应用。值得一提的是,我们将15名参与者分成两组,其中7人使用移动应用程序迭代#1,另外8人使用移动应用程序迭代#2

实验室外研究包括几个关键步骤:介绍。我们通过向每个参与者介绍emglass的背景和动机开始了研究。然后,参与者拿出一份调查问卷来收集他们的演示图表和一般的情感健康信息。然后我们向他们介绍了如何使用emglass设备和移动应用程序。此外,我们告诉他们尽可能保持相机的位置一致,并确保在使用期间有Wi-Fi连接。通过观察应用后端服务器上的用户记录,监控参与者的应用使用情况。Out-of-lab会话。在介绍之后,我们要求每个参与者在接下来的三天里每天至少使用emglass三个小时。他们可以选择在哪里佩戴emglass眼镜。在此期间,他们还可以自由地重新安装emglass。我们提醒他们在电池用完之前(大约用了一个小时)更换电池。按照体验抽样的方法,每15分钟就会在我们的应用程序中弹出一个菜单,提示用户标记他们当前的情绪。并且面试。三天结束后,我们再次与参与者见面,进行半结构式访谈,询问他们的体验和反馈。访谈围绕五个高水平话题展开:1)情绪健康的概念,2)情绪波动的自我感知,3)可穿戴传感器,4)移动应用,5)整体端到端平台

RESULTS & FINDINGS

Facial Expression Recognition: Technical Performance

在为期三天的实验室外研究中,当每个参与者佩戴该设备时,他们会得到36条提示。请注意,当参与者戴眼镜时,我们暂停了体验抽样。我们使用参与者提供的标签作为地面真实数据点,用于计算面部表情识别精度(图11a)。15名参与者的平均准确率为73.0% (SD=18.0%,中位数=80.6%)。

值得注意的是,三个参与者的准确率低于50%,即P4 (47.2%), P11(44.4%)和P15(30.6%)。根据他们的自我报告,P4在夜间较暗的道路上行走了近20分钟,P11戴眼镜感到不舒服,并多次调整眼镜的位置,P15报告他戴着眼镜参加了一些电话会议。因为我们的设备无法为他们提供准确的情绪检测反馈,避免引入感知不准确引起的偏差,我们在之后的定性分析中排除了这三个参与者。共收集样本224份,其中中性标记、 69个快乐的样本,19个悲伤的样本。图11b显示了我们收集的样本中表达的百分比。图10给出了每个类(所有参与者)的F1分数

准确度如此之低可能有几个原因。在P4 和P15,第三个数据集的验证集的准确性要么显著过高(P4的98.0%,Z-score=1.87, p=0.031<0.05),要么显著过低(P15的57.0%,Z score=-2.62, p=0.004<0.05),表明模型可能对该数据集(P4)过覆盖或未能学习足够的特征(P15)。对于P11,在验证集上的准确率为84.3% (Z得分=0.37,p=0.710935,在总体中不显著)。对于P11,在T3-V3中,中性的准确率为67.1%,非常低 与快乐相比(98.0%)

Mobile App Design: Initial Feedback and Iteration #2

在实验室之外的研究中,我们收集并分析了7名参与者的反馈,并设计了手机应用的第二次迭代。以下是我们在采访中了解到的情况以及我们是如何调整我们的移动应用程序的

The need for educating users about emotional health

我们发现大多数被试对情绪健康的认识并不全面。首先,参与者倾向于只关注情绪的表现。比如P2说:“能够表达各种情绪就是情绪健康”。第二,参与者有时会过分强调情绪的稳定性。P6说,“情绪健康主要是情绪稳定,没有太大的波动性”。此外, 我们发现参与者倾向于忽视作为情绪健康一部分的调节情绪的能力。只有P5、P7和P3提到了情绪健康包括允许自己调整,不要长时间地沉浸在负面情绪中。此外,被试忽视了对行为的控制。只有P7报告称,情绪健康是指不要沉浸在消极情绪中太久,不要发展成消极行为。此外,我们发现,参与者缺乏对一个人的情绪意识如何在评估和改善一个人的情绪健康方面发挥重要作用的认识,而解决办法总是与心理学家进行评估或进行调查。

设计变更#1:介绍什么是情绪健康,什么不是情绪健康(图12a),展示了情绪健康的定义,澄清了参与者回答中常见的误解。

根据反馈和观察总结,对设计进行了调整

Visualizing emotion is not enough

用户需要被触发和身体反应的情境化。一些参与者倾向于将自己的情绪与触发情绪的原因联系起来。例如,P5报告说,我的情绪很容易受到生活压力和学业压力的影响。如果我今天有很多截止日期,我今天会感觉不舒服。大多数参与者提到,为了意识到过去的情绪,他们需要回忆那段时间发生的事情。P2说:“我认为我一年中最糟糕的月份是考试月。”其他一些参与者提到,只有当负面情绪积聚到足以影响他们的行为时,他们才会注意到自己的情绪。例如,P7说,我倾向于根据我的身体反应来分析情绪。如果我整天一动也不动,感觉无精打采,我就知道自己很忧郁。P8和P9表示他们在情绪低落的时候不想和任何人聊天。然而,没有一个参与者能够完全回忆和连接事件,形成一个清晰和完整的映射的情绪触发情绪身体反应。

设计更改#2:“情绪日记”,用于在检查每日报告时记录情绪触发点(图12b)。

具体来说,用户可以在情绪功能图上选择特定的时间段来标记特定的情绪。提示符将引导用户编写该事件的描述,并在需要时上传相应的图片。与基于提示的活动记录相比,这种设计更方便,不会造成干扰,因为用户不需要全天响应提示。除此之外,这个功能还可以帮助用户跟踪发生时不被注意到的小事情。例如,P12说:“当我看到每日报道的时候,尤其是一些与我预期相符的情绪。”我绞尽脑汁回想那段时间发生了什么。在这个过程中,我发现了一些我曾经忽略的幸福

Reminding/suggesting positive activities to regulate emotions

参与者注意到有反复出现的情绪触发点。P7表示:“每次遇到同样的事情,我的感觉都是一样的。然而,我无法及时意识到这一点。如果Emo- Glass可以记录类似的事件,并建议我改变我的反应,我的整体情绪状况可能会得到改善。然而,参与者很少利用这种反复出现的事件,例如,采取之前已经显示出的行动导致积极的情绪。不像身体健康可以在一些一般性的建议下得到改善,使人们快乐的方法在某种程度上因人而异,但一些参与者会寻求一般性的指导,而不是个人历史的帮助。p某表示:“虽然在网上搜索过,但除了我,其他人似乎都很适合。”P6说:“我不记得什么事情能让我再开心了,什么都不记得了,什么都不记得了。”当一个人处于低情绪中时,很难重新触发幸福感,因此记录和重复使用与积极情绪相关的事件可能是有帮助的。
设计改变#3:帮助提醒(图12c)通过提醒用户在之前的积极情绪中发生的活动来支持用户。为了获得关于如何促进积极情绪的建议,用户可以通过关键词(例如,幸福)搜索过去记录的行为

The trust of emotion detection

一些有技术背景的参与者(例如P9)提到他们理解emglass是如何工作的。然而,也有参与者表示怀疑,因为他们不认为面部表情总是可以代表潜在的情绪,尤其是在公共场景中,而六种情绪并不能覆盖所有的人类情绪。例如,P3说:“情绪是一件复杂的事情。我觉得面部表情反映的是人们想要表达的情绪,而不是真实的情绪。我们还询问了有疑虑的参与者,他们是否信任其他健康感应可穿戴设备。P5说:“一开始也不相信运动手环。我只是为了好玩。然而,一天晚上12点,老师突然把作业的截止日期提前了,我发现我的运动手环显示我的血压瞬间升高。这个案子,和我的预期一致,让我相信了运动手环。其他一些参与者也提到,他们对结果的信任取决于设备的反馈是否符合他们的预期,当他们确切地知道自己的状态时

此外,P1表示一些反馈和互动可以改善 用户的信任,“我信任Apple Watch,因为当我点击按钮测量心率时,一分钟后手表会震动,给我一种手表确实在仔细测量我的心率的感觉

设计变化#4:实时检测(图12d)允许用户检查emglass认为他们此刻的情绪是什么

Connecting emotional awareness and emotional health.

Emo- Glass旨在提高人们对自己情绪的意识,这对保持情绪健康至关重要。但也有部分参与者不确定这两个概念的区别,即如何根据EmoGlass情绪检测和定量报告来判断情绪健康。例如,P14提出“手机是否能告诉我情绪的起伏”、“能告诉我很久以来情绪的变化情况”等问题,但我认为这更像是“情绪管理”。P10要求更详细的描述:“如果我过得不好,就会生气……”这可能是情绪健康的标志,因为我正在克服我的负面情绪。P2, P7, P8也提出了类似的关于如何识别情绪健康问题的问题。
设计改变#5:self- reflection功能(图12e)引导用户进一步对自己的情绪健康状况进行自我诊断,这不仅仅是通过提供更多关于情绪不健康迹象的信息来显示情绪检测结果。

Feedback to Mobile App Redesign, Overall Findings, and Design Recommendations

当我们将重新设计的应用程序部署到剩下的8个参与者之后,当我们报告发现时,我们用圆括号中的粗体文本强调了在第二次迭代中添加的设计更改的具体见解。总体而言,参与者对emglass的想法反应积极,包括系统地接触情绪健康的概念(情绪健康导论&自我反省)、将情感感知整合到可穿戴设备、丰富的反馈、可视化和交互功能(帮助-提醒&情感日记-记录),超越了传统的测量方法(如调查)。

重新设计了之后效果变好,体现了重新设计的意义

How did participants respond to using wearables for emotion detection?

所有参与者都认识到使用可穿戴设备检测情绪的价值。他们觉得这种检测机制更加透明,就像P2说的,我可以理解可穿戴设备的工作机制和产生结果的方式,所以我比传统天平更愿意相信它。然而,在我们添加实时功能之前,非技术人员很难理解这个系统。P9、P14和P13提到,实时预测功能让他们清楚地了解每个数据点是如何生成的(real-time prediction)。超过一半的参与者提到了可穿戴设备的便利性。P3说:“填写表格和看医生都很麻烦。”然而,如果我有可穿戴设备,我唯一需要做的就是戴上它们。P8表示:“之前用过情绪管理软件,但所有的情绪都是手动输入的。”

通过使用者的反馈来证明这个系统是有效的,合理的

Emo- Glass非常方便(情感日记-记录)。P6表示:“可穿戴设备的报告有精确的数字,比scale或其他方法更微妙。”P7提到了及早发现问题的价值。很多人在情绪问题严重到意识到的时候,才会主动去评估。但可穿戴设备是一个及时的提醒。部分参与者还对可穿戴设备表示了担忧:1)可穿戴设备的出现可能会改变人们的行为。P1表示:“如果用户理解产品的逻辑,并希望保持健康,就会下意识地通过抑制表情来隐藏真实的情绪。”2)可穿戴设备之间的竞争关系。P14表示:“不同的可穿戴设备,外形相似,但功能却很少。但通常只有一种类型的可穿戴设备用户愿意使用。3)社会恰当。超过一半的受访者表示,他们不愿意在社交场合戴这种眼镜,比如在工作中与人会面。
设计建议。可穿戴式情感传感器可以随时提供丰富的行为数据,但其外形需要尽可能轻,以尽量减少用户注意到设备的数量。一种想法是让它模块化,例如,EmoGlass设备可以迭代作为普通眼镜或其他智能眼镜的附件。最后,由于情感感知的敏感性,穿戴设备应该在特定的社交场合容易和快速地打开。

对于可穿戴设备的一些担忧和存在的问题

How was participants’ concern of privacy?

在设计硬件时,我们考虑了隐私问题:1)我们将摄像头的位置设置为主要捕捉人脸,而不是环境。在实验开始之前,研究人员向参与者展示了摄像机拍摄的图像,以确保不会捕捉到敏感信息。2)为了解决连接问题而使用的服务器没有对数据进行解析,通过树莓派模型计算出的结果直接发送到用户的手机上进行分析。然而,三名参与者仍然有顾虑,即使他们知道摄像头只能捕捉到部分人脸。P1说:“戴着相机眼镜,连上厕所都害怕。”如果他们滑倒了,镜头改变了方向怎么办?P7和P13也对长期使用过程中相机角度的变化表示了同样的担忧,建议也许可以在手机应用中增加一个功能,让用户随时查看相机拍摄的照片。13名参与者提到了他们对数据泄露的担忧——他们担心的不是面部图像,而是情绪数据。例如,P5问“不经过服务器也能传输数据吗?”P12建议:也许你可以让眼镜正常工作。在这种情况下,我会更愿意使用它。

设计建议。除了采用保护用户隐私的最佳实践(这一点emglass已经做到了),向用户展示和解释这些隐私保护机制是如何工作的也很重要,例如,允许用户看到已经或已经被记录的内容,以及显示数据是如何在眼镜和手机之间直接传输的

用户针对隐私问题的担忧,以及如何解决的设计建议

How was participants’ emotional awareness?

首先,emglass让参与者定期反思自己的情绪。P2, P8, P10提到当他们看到每天的报告时,他们会分析为什么当天的情绪是这样的,发生了什么。一些参与者说,在实验的后期,他们会主动将自己的情绪与前几天的情绪进行比较,看看是否有异常。比如P3说,我很喜欢周报,我可以对比前后的数据。也许你可以提供一份月报,那会很有趣的。**其次,大多数参与者认为emglass的检测和可视化很有帮助,而且信息量很大。例如,自述过度敏感的P1和P14提到,在看了自己的每日情绪报告后,他们会回忆每个情绪转折点发生的事情,以反思与情绪相关的事件。通过这种方式,emglass让他们更加注意自己的情感敏感性。**三名参与者报告说,应用程序记录了他们的一些无意情绪功能。P3说:“本以为自己喜欢独处,但在独自加班的时候,突然有同事来找我。”虽然不太了解对方,但我笑了很久。也许这家公司让我很开心(情感日记-记录)。

设计建议。最后,参与者还确定了可以添加到EmoGlass的新情感感知功能的需求。P13发现,emglass可以提供非常直接的情绪反馈,然而,目前还没有支持感知无聊和激动的混合情绪,以及隐藏的情绪,这些情绪是不显示在脸上的。一些用户也对EmoGlass抱有更高的期望。P12说,我觉得EmoGlass可以进一步加强引导功能…也许,EmoGlass的最终目标不一定是让人们依赖于EmoGlass,而是引导行为,让用户有自我意识。未来的设计可以包括其他设备活动,例如,富有表现力的写作,以帮助用户获得独立性,保持对自己情绪的意识。

如何帮助患者关注自己的情绪

Would participants use EmoGlass in their daily lives?

六名参与者报告说,他们在日常生活中会习惯性地使用emglass作为一种参考,随着时间的推移来跟踪自己的情绪,并作为一种预防工具,因为他们不知道自己未来什么时候可能会出现情绪问题。其他参与者提到,他们更倾向于只在特定场景下使用emglass。例如,P7报告说他只会在私人场合使用Emo- Glass,因为在这种情况下,他会更放松地释放自己的情绪,而不是因为社会的考虑而压抑自己的情绪。P1会在社交场合使用我们的系统

有时我告诉他我很生气,但他不相信我。如果我有这个应用程序,我会把我的情绪截图发给他 2022年4月29日- 5月5日,美国洛杉矶新奥尔良 当我生气的时候要报告。”另外两名参与者也表达了他们希望通过使用我们的系统分享情感来促进同理心的愿望。
设计建议。考虑到使用EmoGlass的各种首选方式,未来的设计可以融入个性化的模式,比如“私人”模式,只在私人场所打开设备,“社交”模式,实时显示用户的面部表情

Discussion, Limitation, Future Work

在实验室外的研究中,我们选择了一个体验采样频率,每15分钟一个提示,以表示不想打断婴儿的日常活动。然而,这种抽样是相对稀疏的,它产生的数据点比在控制环境中收集的数据点要少得多。实现统计意义所需的数据量需要增加,我们希望在未来通过更大用户群的EmoGlass的长期部署研究来探索这一点我们也没有为实验室外的研究设置详细的场景。我们让参与者按照他们的正常行为和日常设置行事。然而,这种方法很容易出错。例如,在黑暗中或者长时间聊天会显著降低我们平台的检测精度。此外,它使我们错过了一个机会来获得更多的洞察其他因素,如社会规范。在未来,我们可以给更详细的任务,包括在公共场所工作或独自在家等。
此外,我们的面部表情检测是基于对用户面部局部区域的感知。相比之下,另一种主流的面部轮廓检测方法有几个先天的缺陷。首先,要巧妙地调整相机的角度,使使用者的脸和背景都能看到。在捕获的视频源中同时拥有人脸和背景可能会导致前景背景分离的技术困难和用户的隐私问题。然而,人脸感知区域有自己的一组缺陷,由于相对较小的感知区域,精度不那么高,我们希望通过探索未来的工作来缓解,可以在人脸感知方面天生更稳健,如使用深度相机。虽然目前的精度似乎还不够高,在现实世界的应用中,只有一小部分参与者会继续使用系统,但大多数用户喜欢我们的概念。我们相信,通过对硬件和算法的改进,EmoGlass平台可以变得更加人性化。虽然这只是一个初步的尝试,但我们的结果可以支持我们提出的方法比只可视化数据更好,并且可以真正触发人们的情感意识,而不是仅仅告知结果。我们的设计发现也为进一步在情感相关领域(如情感计算)进行感知系统设计奠定了基础。此外,我们运用端到端的概念[92],我们的工作超越了监控和可视化,试图引导感知的改变,从而导致行为的改变[28,63]。在这种情况下,我们的平台可能是一个解决方案,克服人们对AI[16]的过度依赖,这可能会导致监控可穿戴设备的长期使用。

此外,我们的系统还可以为其他主题做出贡献,如颜子涵、吴雨菲、张杨和Xiang Anthony Chen,如表情符号输入、无声讲话、基于眼球追踪的注意力测量和移动健康监测。众所周知,深度学习需要大量的训练数据,我们通过我们的三部分迭代数据收集研究实现了这一点。我们发现用户依赖模型是最有效的,因为不同个体的面部表情可能会有显著差异。然而,这一过程需要用户付出努力进行校准。为了缓解这一问题,我们希望探索利用来自虚拟相机和用户面部纹理3D模型的合成数据,这可以很容易地用深度传感技术(如苹果面部ID和激光雷达)建立。我们设想,在一个简单的初始校准过程中,使用从终端用户面部模型合成的数据,EmoGlass可以轻松地微调其模型参数。此外,我们计划建立与用户无关的模型,可以跨用户工作,而无需校准使用场景,需要随时可用的情感检测和日志记录。

我们承认,EmoGlass硬件平台还有很大的提升空间。首先,可以通过实施能量感知调度来优化功率概念(例如,在没有环境刺激被检测到时进入睡眠模式)。利用太阳能电池从环境光中收集能量也是可能的。此外,在未来,除了摄像头之外,更多的传感器可以被利用,从而产生一个多感官系统,可以产生更准确的结果。此外,emglass还可以被改造成一个可扣的设备,可以改造现有的珠宝或服装(例如,如图13所示的帽子)。最后,我们可以在我们的嵌入式系统和带有蓝牙的智能手机上实现所有的计算,而无需将数据传输到服务器,减少用户对隐私的担忧。目前,我们仅仅把面部表情作为情绪的唯一指示器。在未来,我们可以更好地利用所捕捉到的图像,例如,利用瞳孔的图像来推断其他情况下很难从面部表情中读出的情绪[8,9]。此外,如何综合多个指标来更全面地感知情感也是一个值得进一步探讨的问题。虽然我们做了这样的假设,但我们承认面部表情和情绪不一定一致。社会心理学的一些研究认为,从面部表情到情绪的映射并不一定是普遍的,因为人们表达愤怒、厌恶等的方式在不同的文化、不同的情境、甚至在同一种情境下不同的人之间有很大的差异。

然而,尽管这种关联可能因文化而有所不同,但EmoGlass:一种增强情绪健康自我意识的端到端人工智能可穿戴平台CHI 22, 2022年4月29日- 5月5日,美国洛杉矶新奥尔良,足够放松,包括许多替代账号,面部表情和情绪标签是相关联的[73]。一些作品[20]也声称社会和人际场景确实会影响情绪的抑制和表达。然而,人们不会一直处于这些情况下。在未来,我们可以改变数据集和算法来解决这个问题,因为连续的面部表情跟踪可以区分“真正的微笑”。和“假smile"[5]。总而言之,有大量的证据支持情绪和面部表情之间的一致性[72]。虽然面部表情并不等同于情绪,但用它们来代表情绪仍然是一个合适的选择。此外,我们在相关工作中引入的其他情感检测方法,涉及到复杂的设备,如生理感知,容易被环境中的噪声和用户的运动所干扰。相比之下,通过计算机视觉可以轻松完成的面部表情感知在现实世界中更实用。最后,我们想研究能够处理复杂情绪的传感和记录方法,即包含多种基本情绪的方法。事实上,我们的研究参与者报告了复杂的情绪。在开始研究之前,我们要求参与者描述他们今天的总体感受,我们收到了两种主要的回应。一种是清晰的基本情绪,如快乐和不快乐,而另一种则更加模糊,如不堪重负、超负荷、沮丧等等。这些结果表明,复杂的情绪是人们日常生活的重要组成部分,因此监测是重要的,我们计划在未来的工作中探索。

Conclusion

在本文中,我们提出了首个端到端的人工智能可穿戴平台EmoGlass,该平台由一对面部表情检测眼镜和一个移动应用程序组成,使情绪自我监测,以促进情绪意识。为了提高emglass在实验室外环境中的鲁棒性,我们收集了三个数据集,这些数据集具有由于重新安装、不同的灯光条件和自然表情而不是在受控的实验室空间中摆姿势的脸而导致的相机角度的轻微变化。我们进行了为期三天的实验室外研究(N=15),以评估EmoGlass的性能。在这项研究中,我们还根据用户反馈迭代了我们的应用程序设计。我们在应用程序中加入了一些独特的功能,以帮助人们更好地理解和调节基于个人积极因素的情绪。基于参与者的反馈,我们对我们的平台性能和定性研究成果进行了定量分析。最后,我们讨论设计建议,为未来的工作感知和提高意识的情绪健康。总之,我们相信,EmoGlass提供了一个强大的工具,通过它,我们可以为研究界提供丰富的见解,利用可穿戴传感技术解决情感健康挑战

你可能感兴趣的:(论文阅读与代码复现,人工智能,深度学习,计算机视觉)