大数据Spark “蘑菇云”行动第48课程 Spark 2.0内幕深度解密和学习最佳实践

大数据Spark “蘑菇云”行动第48课程 Spark 2.0内幕深度解密和学习最佳实践

 

观点1:从Spark 2.0开始,Spark本身成为了编译器

 

90%左右都是在基于Hive做SQL多维度数据分析,现在的主要的潮流是Spark SQL+Hive;

 

Structured Streaming是Spark 2.x功能上最让人兴奋的变化

 

CPU更加有效的利用:第48课程 Spark 2.0内幕深度解密和学习最佳实践

 

 CPU更加有效的利用: a new technique called whole stage code generation.

 

CPU浪费时间的地方主要有两处:第一:Virtual function call的调用;第二:CPU要基于内存读写数据也会花费大量的时间消耗;
 
 

Loop Unrolling  for循环  SIMD

 

你可能感兴趣的:(大数据蘑菇云行动)