Spark-SQL与hive整合【版本spark1.6.0+hive0.14】--Standalone模式
在进行离线大数据处理工程中,使用hive进行运算出现了瓶颈,由于文件太大,集群的block块采用的是默认128M没有进行调整,而且集群规模比较小,只有4个节点,机器配置:2台32core,内存14.5G 1台32core,内存30.3G 1台32core,内存46.1G 在进行分析过程中,有大量的leftjion和groupby 以及sumcountHQL各种嵌套[主要是当初设计的不合理,下边的没