SparkSQL多次检索大表

业务需要检索一个大表的几个字段。方法一:一次性检索出需要的字段,然后cache。方法二:多次检索,每次只检索一个字段。(推荐)

先过滤再计算

并且在处理中,应该用最小数据量计算,不要携带多余数据。数据处理完再和需要join的表进行join。不要在计算之前就join。

join也分为三种方式。详情百度

你可能感兴趣的:(SparkSQL多次检索大表)