大数据课程K22——Spark的SparkSQL的API调用

文章作者邮箱:[email protected]              地址:广东惠州

 ▲ 本章节目的

⚪ 掌握Spark的通过api使用SparkSQL;

一、通过api使用SparkSQL

1. 实现步骤

1. 打开scala IDE开发环境,创建一个scala工程。

2. 导入spark相关依赖jar包。

大数据课程K22——Spark的SparkSQL的API调用_第1张图片

3. 创建包路径以object类。

4. 写代码。

5)打jar包,并上传到linux虚拟机上

6)在spark的bin目录下

执行:sh spark-submit --class cn.tedu.sparksql.Demo01 ./sqlDemo01.jar

7)最后检验

2. 代码示例

package cn.tedu.sparksql

import org.apache.spark.SparkConf

import org.apache.spark.SparkContext

import org.apache.spark.sql.SQLContext

object Demo01 { 

  def main(args: Array[String]): Unit = {

    val conf=new SparkConf().setMaster("spark://hadoop01:7077").setAppName("sqlDemo01");

    val sc=new SparkContext(conf)

    val sqlContext=new SQLContext(sc)   

    val rdd=sc.makeRDD(List((1,"zhang"),(2,"li"),(3,"wang")))   

    import sqlContext.implicits._

    val df=rdd.toDF("id","name")

    df.registerTempTable("tabx")   

    val df2=sqlContext.sql("select * from tabx order by name");

    val rdd2=df2.toJavaRDD;

    //将结果输出到linux的本地目录下,当然,也可以输出到HDFS上

    rdd2.saveAsTextFile("file:///home/software/result");

  }

}

你可能感兴趣的:(大数据,spark,分布式)