2017HPCS-The Parallel and Distributed Future of Data Series Mining

标题:时间序列挖掘到的并行化和分布式的未来

本文是时间序列大佬Themis Palpanas在2017年HPCS上做的一篇tech report。2017年发布了DPiSAX,之后2018-2020三年,涌现了近十篇time series similarity search的分布式并行算法。除了Palpanas的实验室以外,还有伍斯特理工学院的课题组提供的TARDIS方案2019、Chainlink方案2020等。

ABSTARCT

时间序列大数据集两个瓶颈,一个是索引构建time,另一个是query answer time。我们的方案是边建索引边查询(correct answer),证明了不这样做在大数据集上是不可行的。实验中首次(?)用了1G个序列。同时阐明未来应该聚焦于分布式环境和并行算法。

I. INTRODUCTION

数据序列:一个数据向量,每个元素由一个时间点+一个值来构成。如果某个维度可以证实序列是以时间为排序手段的话,这就是时间序列。类似的,角度、质量、位置都可以成为那个特定的维度。
数据序列通常被作为一个个体进行分析,而不是一组点。然而传统高维处理手段不太可用,原因主要是维度太高和严格的顺序性。
数据序列的query分成两种类型,一种是SPT(selection-projection-trasformation),select一些序列出来,做简单列选择(比如前10个,或者某些属性,点位置等),最后做一些数学变换(平均值等)。
另一种是DM(data-mining),会将整个序列当做一个单一的对象。会根据内容查询(范围搜索,相似性搜索,KNN),聚类,分类,异常模式,频繁子序列。这些是现有的DBMS无法满足的。
这其中最重要的就是similarity search,现有的技术就是summarization和index。
作者认为,目前的技术对于单机节点的计算能力已接近极限,而数据量和需求还在不断加大,所以应转向研究分布式和并行算法,以实现扩展能力。SIMD,多核,多线程,GPU也为数据序列的某些操作提供并行化的机会。

II. THE STATE OF THE ART

  • Using Existing Data Management Systems.
    关系型,列式,数组数据库,都不可以满足ds的分析需求,它们对于ds的描述能力太弱,基于这些DB的解决方案最终可用性和性能不会太好。

  • Scaling Up.
    UCR Suite只能支持单个长序列时效果最好。
    目前仍存在的一些问题:

  1. ADS+如何支持精确查询?
  2. 精确查找的时延动荡太大了
  3. isax2+ ads+ 如何并行化?
    作者对精确查找做了个对比,效果显示,ADS+效果是最好的。


    image.png
  • Scaling Out.
    用map reduce的研究很少,gorilla是最近的一个不错的分布式时序数据库,有各种优良的性质,但是尚不支持DM查询。

III. RESEARCH DIRECTIONS

时序数据的访问方法无非是scan or index。
压缩,多核,SIMD,GPU,都可以成为二者的优化手段。
压缩:数据可以被精巧的压缩成轻量级的,而且距离计算可以直接在压缩后的数据上进行,这样就节省了大量的IO传输开销,或许还会有压缩-解压缩的计算开销。

目前scan方向的并行化只考虑并行扫描,index方向的只考虑只读操作。
一个显著的问题就是多个计算节点如何能够及时通信以达到剪枝的效果。


image.png

最后还有一个问题,假设我们有了并行化scan,index,SIMD等等手段,如何根据查询和当下机器的配置,进行选择,以达到最佳效果,也是一个问题。

除此之外,benchmark也是急需的,压力测试,query难度分级。

你可能感兴趣的:(2017HPCS-The Parallel and Distributed Future of Data Series Mining)