【Spark】简单入门——HelloWorld

环境

  • IntelliJ IDEA + Maven + Spark_2.1.1
  • JDK_1.8.0_131
  • Scala_2.11.0

语言

  • Java
  • Scala

目的

  • 读取README.md文件并显示文件内容

过程

  • 新建工程: File->New Project,选择Maven
【Spark】简单入门——HelloWorld_第1张图片
New Project 1
  • Next进入下一步
  • 输入GroupIdArtifactId
【Spark】简单入门——HelloWorld_第2张图片
New Project 2
  • Next进入下一步
【Spark】简单入门——HelloWorld_第3张图片
New Project 3
  • Finish
  • 新建的工程结构如下
【Spark】简单入门——HelloWorld_第4张图片
Project Structure
  • 其中pom.xml里面需要添加我们的maven仓库
  • spark依赖的代码如下:

    org.apache.spark
    spark-core_2.11
    2.1.1

  • 修改后的pom.xml内容如下


    4.0.0

    com.helloworld
    HelloWorld
    1.0-SNAPSHOT

    
        
            org.apache.spark
            spark-core_2.11
            2.1.1
        
    

  • 右键pom.xml文件,选择Maven->Reimport,开始下载依赖
  • 下载依赖的时间可能会很长_(:з」∠)_

  • 新建README.md文件,我的文件放在工程目录HelloWorld里,文件内容如下:
READEME.md
  • 下面正式开始啦=v=

Java版本的HelloWorld

  • 右键点击src/main/java目录,选择New->Java Class
【Spark】简单入门——HelloWorld_第5张图片
New Class 1
  • 输入类名
【Spark】简单入门——HelloWorld_第6张图片
New Class 2
  • OK
  • 在新建的HelloWorld.java里添加如下代码
import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.VoidFunction;

public class HelloWorld {
    public static void main(String[] args) {
        SparkConf conf = new SparkConf().setAppName("HelloWorld").setMaster("local").setSparkHome("/usr/lib/spark/spark-2.1.1-bin-hadoop2.7");
        // setMaster指定Master
        // setSparkHome指向安装spark的地址,视环境而定
        JavaSparkContext sc = new JavaSparkContext(conf);

        JavaRDD data = sc.textFile("README.md");
        // 加载README.md文件并创建RDD
        data.foreach(new VoidFunction() {
            public void call(String s) throws Exception {
                System.out.println(s);
            }
        });
        // 输出RDD中的每个分区的内容
    }
}
  • 输出结果
Output

Scala版本的HelloWorld

  • 先要下载Scala,已经下载的可以忽略这个部分
  • 点击File->Setting,找到Plugins,在右边搜索Scala
【Spark】简单入门——HelloWorld_第7张图片
Install Scala
  • 上面是已经安装完成的情况,要是没有安装的话应该会显示:
【Spark】简单入门——HelloWorld_第8张图片
Uninstall
  • 点击Search in repositories,找到Scala,然后点击Install就可以了
  • 安装完Scala后,进入下面的步骤

  • 点击File->Project Structure
【Spark】简单入门——HelloWorld_第9张图片
Add Scala SDK
  • 选择Libraries,点击左上角的+,选择Scala SDK
【Spark】简单入门——HelloWorld_第10张图片
Choose Scala
  • 一直点OK就可以了

  • 删除src/main/java目录,然后添加新目录scala,完成后工程结构如下
【Spark】简单入门——HelloWorld_第11张图片
Project Structure
  • 右键scala,点击Mark Directory as -> Sources Rootscala会变蓝色
  • 右键scala,选择New -> Scala Class
  • 输入类名,并注意选择KindObject
【Spark】简单入门——HelloWorld_第12张图片
New Scala Class
  • 在新建的HelloWorld.scala里添加如下代码
import org.apache.spark.{SparkConf, SparkContext}

object HelloWorld {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setAppName("HelloWorld").setMaster("local").setSparkHome("/usr/lib/spark/spark-2.1.1-bin-hadoop2.7");
    val sc = new SparkContext(conf)
    // setMaster指定Master
    // setSparkHome指向安装spark的地址,视环境而定

    val data = sc.textFile("README.md")
    // 加载README.md文件并创建RDD
    data.foreach(println)
    // 输出RDD中的每个分区的内容
  }
}
  • 输出结果
Output

  • 成功啦( ̄︶ ̄)
  • 感觉自己罗里吧嗦的(/ω\)

你可能感兴趣的:(【Spark】简单入门——HelloWorld)