大数据学习之路84-SparkSQL基本使用与RDD对比(涉及自定义排序)

我们使用spark-sql,会加快我们的开发效率,在spark底层会把我们所写的sql转换成RDD去执行。得到我们想要的结果。

接下来我们会用RDD和spark-sql两种方式来分析数据,感受一下两者的差异。

首先我们先造数据并上传到hdfs中:

大数据学习之路84-SparkSQL基本使用与RDD对比(涉及自定义排序)_第1张图片

我们想要做的是,将这些数据按照年龄升序,颜值倒序排列。

首先我们用RDD的方式来做(这里会涉及到自定义排序):

这里的自定义排序的思想是,定义一个case class实现Comparable接口,然后重写比较方法。

大数据学习之路84-SparkSQL基本使用与RDD对比(涉及自定义排序)_第2张图片

以下是RDD的代码:

package com.test.FaceValueText

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

object FVTopN {
  /**
    * 2,laoduan,20,99
    * 3,laoyang,20,100
    * 4,laozhan

你可能感兴趣的:(大数据生态圈从入门到精通)