Spark2 sparkSession使用

package com.jdjr.city.demo
 
import org.apache.spark.sql.SparkSession
 /**
  * @Auther: hongwei     * @Date: 2018/11/9 16:31       * @Description: SparkSession使用
  */
object Test4 {
  def main(args: Array[String]): Unit = {
    val spark = SparkSession
      .builder()
      .appName("ActionOperation")
      .master("local")
      .getOrCreate()
    spark.sparkContext.setLogLevel("WARN")
    import spark.implicits._
 
    val employee = spark.read.json("D:\\jdWork\\code\\MySpark\\src\\main\\resources\\1.txt")
 
    // collect:将分布式存储在集群上的分布式数据集(比如dataset)中的所有数据都获取到driver端来
    employee.collect().foreach {
      println(_)
    }
    // count:对dataset中的记录数进行统计个数的操作
    println(employee.count())
    // first:获取数据集中的第一条数据
    println(employee.first())
    // foreach:遍历数据集中的每一条数据,对数据进行操作,这个跟collect不同,collect是将数据获取到driver端进行操作
    // foreach是将计算操作推到集群上去分布式执行
    // foreach(println(_))这种,真正在集群中执行的时候,是没用的,因为输出的结果是在分布式的集群中的,我们是看不到的
    employee.foreach {
      println(_)
    }
    // reduce:对数据集中的所有数据进行归约的操作,多条变成一条
    // 用reduce来实现数据集的个数的统计
    //println(employee.map(employee => 1).reduce(_ + _))
    // show,默认将dataset数据打印前20条
    employee.show()
    // take,从数据集中获取指定条数
    employee.take(3).foreach {
      println(_)
    }
  }
}

pom.xml


         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    4.0.0
 
    com.jdjr.city
    MySpark
    1.0-SNAPSHOT
 
   
       
            cloudera
            https://repository.cloudera.com/artifactory/cloudera-repos/
       

   

 
   
        1.8
        1.8
        UTF-8
        2.11.8
        2.2.0
        2.6.4
   

 
   
       
       
            com.alibaba
            fastjson
            1.2.8
       

       
            commons-io
            commons-io
            2.5
       

 
       
            org.jsoup
            jsoup
            1.8.3
       

 
       
            org.ansj
            ansj_seg
            5.0.4
       

 
       
            com.geccocrawler
            gecco
            1.0.8
       

 
       
            org.apache.spark
            spark-core_2.11
            ${spark.version}
       

 
       
            org.apache.spark
            spark-sql_2.11
            ${spark.version}
       

 
       
            org.apache.hadoop
            hadoop-client
            ${hadoop.version}
       

   

 
   
        src/main/scala
        src/test/scala
       
           
                net.alchim31.maven
                scala-maven-plugin
                3.2.2
               
                   
                       
                            compile
                            testCompile
                       

                       
                           
                               
                               
                                -dependencyfile
                                ${project.build.directory}/.scala_dependencies
                           

                       

                   

               

           

 
           
                org.apache.maven.plugins
                maven-shade-plugin
                2.4.3
               
                   
                        package
                       
                            shade
                       

                       
                           
                               
                                    *:*
                                   
                                        META-INF/*.SF
                                        META-INF/*.DSA
                                        META-INF/*.RSA
                                   

                               

                           

                           
                                                                        implementation="org.apache.maven.plugins.shade.resource.ManifestResourceTransformer">
                                    com.jdjr.city.demo.SearchPoi2
                               
                           

                       

                   

               

           

       

   

 


原文:https://blog.csdn.net/qq_22253209/article/details/83900319 

 

你可能感兴趣的:(spark,hive)