spark sql快速入门

常用的sql查询引擎

hive,impala,hive on spark,presto(京东),drill(支持hdfs,hive),phoenix(hbase)

存储格式
  • orc(列式存储,Zlib压缩,侧重压缩率,和hive关系比较紧密)
  • rc(列式存储)
  • parquest(列式存储,spark默认的存储格式,采用Snappy压缩,侧重计算的性能)

总体可以认为,在我们当前的数据集和hive版本环境下,在文件写入方面,ORC相比RC文件的优势不显著,一些场合RC文件还要更优,在查询检索方面,ORC则基本是更优的,性能差距大小取决于具体数据集和检索模式。如果Hive能集成ORC更新的版本,支持LZ4,并修复一些Bug,那应该就没有任何再使用RC的理由了。

至于Parquet,可以考虑在需要支持深度嵌套的数据结构的应用场合中去使用

你可能感兴趣的:(spark sql快速入门)