[yzhpdh多读paper]AcouDigits: Enabling Users to Input Digits in the Air

abstrcat:

  • 使用传统方法进行用户交互的可穿戴设备不方便 text entry
  • 这篇文章提出一种可以在air中使用fingers进行输入的系统,且不需要其他硬件
  • 在两种商用设备上进行实验并且评估识别10个基本数字的性能,结果表明识别数字的准确率能达到91.7%,识别英文字母的准确率为87.4%

Keywords:

Text entry ,acoustic signals, wearable devices

introduction:

传统的软键盘输入方式存在很多问题,如小屏幕、交互方式

研究者虽然提出语音识别的交互方式,但存在公共场所隐私泄露、嘈杂环境性能下降、特定场合不方便使用(会议、图书馆)的缺陷

RF-based technique需要特别的设备

综上,文章提出一个叫AcouDigits的系统,使得用户可以输入数字,且不需要触摸屏幕或穿上额外的设备,嵌入在移动设备中的声学传感器中的充分用于接受高频信号

那么文章提出的系统好在:

  • 对比过去工作中预定义的粗略手势,该工作可以识别更细粒度、更大的对象集
  • 以不依赖其他设备的方式工作

文章如何抽取、辨别极小时间每个写下的数字的信号模式:

设计1个完整的数据处理模块,采用2层特征工程模式去抽取隐藏在信号内的模式

文章如何检验系统的效果:

将系统应用在安卓平台上,并在不同设置下进行综合实验

文章的主要贡献:

  • 设计了为小型设备输入的嵌入式传感器,融合物理知识与机器学习
  • 将系统应用在安卓平台上,并在不同设置下进行综合实验

system description

[yzhpdh多读paper]AcouDigits: Enabling Users to Input Digits in the Air_第1张图片

一些我看到的关键部分

  • 文章从原始数据的光谱图中监测书写活动,之所以选择光谱图是因为这一决定的关键原因是手指的运动引起频域的频移,then ...... (不是很懂其中一些专业名词或过滤器,也不是我关注的重点,就略读过去了...) (才知道是多普勒效应...
  • 文章的特征工程分为特征抽取与特征筛选。
  • 在特征抽取方面,文章主要选择了一些在时间与频域中广泛使用的声学特征
  • 在特征筛选方面,文章使用十折交叉验证技术,将AAR( average accuracy rate)作为指标对不同组合的特征进行评估。
  • 在模型训练方面,文章使用了KNN、SVM、ANN,并通过使用找到它们的最佳参数。文章还找到了最佳预测准确率的函数(tan-sigmoid),以及softmax函数
  • 在实验环节,文章从识别表现、安全距离、训练开销( Training Overhead)、用户交叉性能(将用户a的数据作为训练集、用户b的数据作为验证集)、用户多样性(评估不同用户书写习惯的使用效果)、延伸到英文字母

discussion:

  • 健壮性(robustness) 由于AcouDigits是建立在高频声信号之上的,它在本质上是通过过滤掉不必要的频率来抵抗噪声干扰的组件。
  • 未来工作:识别词语或句子,考虑融入语言模型,语言模型可以作为一种辅助工具来进行词语的预测或校正,从而提高识别性能。

conclusion:

该系统能以高准确率来基本数字,也论证了未来基于空气的使用声学信号的文字输入界面的潜力

你可能感兴趣的:(嵌入式硬件)