hive常见的几种文件存储格式与压缩方式的结合-------Parquet格式+snappy压缩 以及ORC格式+snappy压缩文件的方式
一.使用Parquet存储数据数据使用列存储之前是普通的行存储,下面是行存储的的文件大小,这个HDFS上的数据使用parquet列存储,可以将文件的大小减小化。下面具体讲parquet存储数据的代码以及加载数据的格式。数据库代码:createtableifnotexistsdb_yhd.track_log_parquet(idSTRING,urlSTRING,refererSTRING,keywo