Apache Arrow优点

优点

  • 采用连续的内存布局,在单机计算的时候,对操作系统友好,增加了缓存命中率以及读取数据的效率
  • 采用列式存储,在单机计算的时候,可以利用SMID向量化处理,并且增加了查询效率(一般查询的时候只是查询几列)
  • 采用列式存储,IPC进程间通信传输的时候,提高了压缩率
  • 采用零拷贝,IPC进程间通信传输的时候,减少了数据传输的开销
  • 跨语言的标准化规范,消除了各个格式之间转换所需要的序列化和反序列化的时间

以上优点实现了高速的数据传输和处理能力,使得它在大数据场景下有很好的优化价值

参考

  • Apache Arrow: 数据工程的未来
  • Arrow协议及简介

你可能感兴趣的:(大数据,Arrow,大数据,Arrow,apache)