【论文阅读笔记】UNSUPERVISED REPRESENTATION LEARNING FOR TIME SERIES WITH TEMPORAL NEIGHBORHOOD CODING

UNSUPERVISED REPRESENTATION LEARNING FOR TIME SERIES WITH TEMPORAL NEIGHBORHOOD CODING

ABSTRACT

 本文提出了一种自监督框架,名为“时间邻域编码”(Temporal Neighborhood Coding,TNC),用于学习非平稳时间序列的可泛化表示。该方法利用信号生成过程的局部平滑性来定义具有平稳性质的时间邻域。通过使用去偏差对比目标,该框架通过确保在编码空间中,来自邻域内的信号的分布与非邻域信号的分布可区分来学习时间序列表示。作者的动机源于医学领域,那里对于模拟时间序列数据的动态特性的能力特别有价值,用于在实际上无法标记数据的情况下识别、跟踪和预测患者潜在状态。作者将该方法与最近开发的无监督表示学习方法进行了比较,并在多个数据集上展示了在聚类和分类任务上的优越性能。

Introduction

 实际世界中的时间序列数据具有高维、复杂的特性,且具有独特的属性,这给数据建模带来了许多挑战(Yang & Wu, 2006)。此外,这些信号通常标记稀疏,这使得监督学习任务变得更加具有挑战性。无监督表示学习可以通过利用数据的固有结构,从原始时间序列中提取具有信息的低维表示,而无需显式监督。这些表示更具泛化性和鲁棒性,因为它们不太专门用于解决单个监督任务。无监督表示学习在诸如视觉(Donahue & Simonyan, 2019; Denton et al., 2017; Radford et al., 2015)和自然语言处理(Radford et al., 2017; Young et al., 2018; Mikolov et al., 2013)等领域得到了深入研究,但在时间序列设置中尚未得到充分探索。为时间序列设计的框架需要高效可扩展,因为实践中遇到的信号可能又长、高维且高频。此外,它应考虑并能够建模样本内发生的动态变化,即信号的非平稳性。

 在医学领域,模拟时间序列数据的动态特性尤其具有价值。医疗保健数据通常组织为时间序列,涵盖多种数据类型,从不同来源以不同的采样频率收集而来,并充斥着伪影和缺失值。在患者住院期间或疾病进展期间,患者会逐渐在不同的临床状态之间过渡,其中有相对稳定、改善或意外恶化的时期,需要加强治疗以改变患者的轨迹。医学时间序列数据中的一个特殊挑战是缺乏用于识别个体的潜在临床状态或用于训练旨在提取这些状态的低维表示的明确定义或可用标签。例如,在危重病护理的背景下,患者在危重病监护室(CCU)中的停留通过床边监护仪持续捕获生理信号。长时间内获取这些信号的患者状态标签几乎是不可能的,因为即使对于临床医生来说,患者的潜在生理状态也可能是未知的。这进一步促使在这些背景下使用无监督表示学习。学习丰富的表示对于促进疾病进展的跟踪、预测患者的未来轨迹以及根据这些潜在状态量身定制治疗方案至关重要。

 在本文中,我们提出了一种自监督框架,用于学习复杂的多变量非平稳时间序列的表示。这种方法称为“时间邻域编码”(Temporal Neighborhood Coding,TNC),它专为时间设置而设计,在这些设置中,信号的潜在分布随时间变化,并旨在捕捉潜在时间动态的进展。TNC高效、易于扩展到高维,并可用于不同的时间序列设置。我们评估了所学表示的质量,并展示了这些表示对于许多下游任务(如分类和聚类)的泛化性和可转移性。我们进一步证明了我们的方法在无监督表示学习方面优于现有方法,并且在分类任务中甚至与监督技术表现接近。这项工作的贡献有三个方面:

  • 我们提出了一种新颖的基于邻域的非平稳多变量时间序列数据的无监督学习框架。
  • 我们引入了一个具有平稳性质的时间邻域的概念,作为时间中相似窗口的分布。通过利用信号和统计检验的特性,自动确定邻域边界。
  • 我们结合了正例未标记学习中的概念,特别是样本权重调整,以解决对比损失中负例抽样引入的潜在偏差。

METHOD

 我们引入了一个框架,用于学习编码多变量、非平稳时间序列的潜在状态。我们的自监督方法TNC利用信号生成过程的局部平滑性来学习时间序列窗口的可泛化表示。这是通过确保在表示空间中,接近时间的信号分布与远离时间的信号分布可区分来实现的,即在编码空间中可以识别时间的接近性。我们将多变量时间序列信号表示为 X ∈ RD×T,其中 D 是特征数量,T 是随时间变化的测量次数。

 我们将窗口 Wt 的时间邻域(Nt)定义为所有以 t 为中心的窗口集合,其中 t∗ 从正态分布 t∗ ∼ N (t, η · δ) 中采样得到。这里 N 是以 t 为中心的高斯分布,δ 是窗口的大小,η 是定义邻域范围的参数。依赖于信号生成过程的局部平滑性,邻域分布被建模为高斯分布,以模拟时间数据中的渐进转变,并直观地近似于与 Wt 相似的样本的分布。η 参数确定了邻域的范围,取决于信号的特征以及随时间变化的时间序列的统计特性的渐变程度。这可以由领域专家根据对信号行为的先验知识进行设定,或者为了更稳健的估计,可以通过分析每个 Wt 的信号的平稳性属性来确定。由于邻域代表着相似的样本,范围应该确定信号保持平稳的近似时间跨度,生成过程不发生变化。为此,我们使用了增广的迪基-富勒(ADF)统计检验来确定每个窗口的这个区域。正确估计邻域范围是 TNC 框架的一个重要部分。如果 η 太小,邻域内的许多样本将重叠,因此编码器只会学习编码重叠信息。另一方面,如果 η 太大,邻域将跨越多个潜在状态,因此编码器将无法区分这些状态之间的变化。通过使用 ADF 检验,我们可以根据信号行为自动调整每个窗口的邻域。有关该测试及其如何用于估计 η 的更多细节,请参见第 2 节。

 现在,假设邻域内的窗口具有相似的属性,那么邻域之外的信号,表示为 ¯Nt,被视为非邻域窗口。来自 ¯Nt 的样本可能与 Wt 不同,并且可以在对比学习框架的上下文中被视为负样本。然而,这个假设可能存在采样偏差的问题,这在大多数对比学习方法中很常见 (Chuang et al., 2020; Saunshi et al., 2019)。这种偏差是由于从数据分布中随机抽取负例可能导致实际上与参考样本相似的负样本。这可能会严重影响学习框架的性能,但是在解决这个问题方面做的工作很少 (Chuang et al., 2020)。在我们的上下文中,当存在来自 ¯Nt 的窗口远离 Wt,但具有相同的潜在状态时,就会发生这种情况。为了减轻 TNC 框架中的这种偏差,我们将 ¯Nt 中的样本视为未标记样本,而不是负样本,并使用 Positive-Unlabeled (PU) 学习的思想来准确地度量损失函数。实际上,即使在邻域内的样本都是相似的,我们也不能假设在这个区域之外的样本一定是不同的。例如,在存在长期季节性的情况下,信号在远处的时间可能会表现出相似的特性。在医疗保健环境中,这可能像是一个稳定的患者经历了一次危急情况,但之后又回到了稳定状态。

 在定义了邻域分布之后,我们训练一个目标函数,鼓励在编码空间中对同一邻域的样本表示与来自外部样本的表示进行区分。理想的编码器在编码空间中保留邻域的特性。因此,邻域 Wl ∈ Nt 中样本的表示 Zl = Enc(Wl) 可以与邻域外的样本 Wk ∈ ¯Nt 的表示 Zk = Enc(Wk) 区分开来。TNC 主要由两个组件组成:

 TNC是一个通用的框架,因此对于时间序列的性质和编码器的架构是不可知的。编码器可以是任何适合信号特性的参数模型 (Oord et al., 2016; Bai et al., 2018; Fawaz et al., 2019)。对于鉴别器D(Zt, Z),我们使用一个简单的多头二元分类器,如果Z和Zt是时间上邻近的表示,则输出1,否则输出0。在实验部分,我们会更深入地描述我们实验中使用的模型的架构细节

 我们在方程式1中形式化了我们无监督学习框架的目标函数。实质上,我们希望鉴别器的概率似然估计准确,即对于邻近样本的表示接近1,对于远离的窗口接近0。非邻域(¯N)中的样本使用权重参数w进行权重调整,以考虑该分布中的正样本。

 我们通过优化这个目标函数同时训练编码器和鉴别器。需要注意的是,鉴别器只是训练过程中的一部分,在推断过程中不会被使用。类似于编码器,鉴别器可以使用任何参数模型来近似。然而,鉴别器越复杂,就越难以解释潜在空间的决策边界,因为它允许将相似性映射到复杂的非线性关系上。

你可能感兴趣的:(#,论文阅读笔记,论文阅读,笔记)