史上最快! 10小时大数据入门实战(九)- 前沿技术拓展Spark,Flink,Beam

史上最快! 10小时大数据入门实战(九)- 前沿技术拓展Spark,Flink,Beam_第1张图片

史上最快! 10小时大数据入门实战(九)- 前沿技术拓展Spark,Flink,Beam_第2张图片

spark

史上最快! 10小时大数据入门实战(九)- 前沿技术拓展Spark,Flink,Beam_第3张图片

史上最快! 10小时大数据入门实战(九)- 前沿技术拓展Spark,Flink,Beam_第4张图片





Spark 开发语言及运行模式介绍

史上最快! 10小时大数据入门实战(九)- 前沿技术拓展Spark,Flink,Beam_第5张图片

Scala安装

史上最快! 10小时大数据入门实战(九)- 前沿技术拓展Spark,Flink,Beam_第6张图片
下载 Scala

img_4032393bd9339350606f71d2da1c6cc7.png
配置到系统环境变量

img_8522936af61ad949dbf00997440ab3d9.png
配置成功

Spark环境搭建及 wordCount 案例实现

史上最快! 10小时大数据入门实战(九)- 前沿技术拓展Spark,Flink,Beam_第7张图片
下载 spark

解压编译

史上最快! 10小时大数据入门实战(九)- 前沿技术拓展Spark,Flink,Beam_第8张图片
spark-shell可执行程序

如何提交应用程序


史上最快! 10小时大数据入门实战(九)- 前沿技术拓展Spark,Flink,Beam_第9张图片

开启2个即可
史上最快! 10小时大数据入门实战(九)- 前沿技术拓展Spark,Flink,Beam_第10张图片

史上最快! 10小时大数据入门实战(九)- 前沿技术拓展Spark,Flink,Beam_第11张图片
./spark-shell --master local[2]

读取输出文件内容


史上最快! 10小时大数据入门实战(九)- 前沿技术拓展Spark,Flink,Beam_第12张图片

img_a5d790c7565b5d37dbdf32d3419a4c43.png

img_e34279f3ade4c35c6f1b7c04ba2dad77.png
3行数据

按空格拆分
img_2e4afc545cc0beca8024367fc20b8fd5.png

为每个单词赋1,表出现频率
img_043619d1f1e3cddecbefd0ccb449426c.png
a.map(word => (word,1))

统计
img_bfd72d5c31e592e72b9018aa5a5e59c7.png

以上操作其实通过一条方法链即可完成!!!


img_e5d3e2c95c83a379609f47d441a0e8a4.png
sc.textFile("file:///Volumes/doc/data/hello.txt").flatMap(line => line.split(" ")).map(word => (word,1)).reduceByKey(_+_).collect

GUI 管理界面
史上最快! 10小时大数据入门实战(九)- 前沿技术拓展Spark,Flink,Beam_第13张图片
访问该地址即可

史上最快! 10小时大数据入门实战(九)- 前沿技术拓展Spark,Flink,Beam_第14张图片
http://localhost:4040

Flink 概述

  • https://flink.apache.org/
    史上最快! 10小时大数据入门实战(九)- 前沿技术拓展Spark,Flink,Beam_第15张图片
    官网首页

使用 Flink 完成 wordcount 统计

Flink 环境部署

史上最快! 10小时大数据入门实战(九)- 前沿技术拓展Spark,Flink,Beam_第16张图片
下载

史上最快! 10小时大数据入门实战(九)- 前沿技术拓展Spark,Flink,Beam_第17张图片
下载镜像到本地

史上最快! 10小时大数据入门实战(九)- 前沿技术拓展Spark,Flink,Beam_第18张图片
解压

查看官网指南


史上最快! 10小时大数据入门实战(九)- 前沿技术拓展Spark,Flink,Beam_第19张图片

启动本地的一个 flink
史上最快! 10小时大数据入门实战(九)- 前沿技术拓展Spark,Flink,Beam_第20张图片

史上最快! 10小时大数据入门实战(九)- 前沿技术拓展Spark,Flink,Beam_第21张图片

史上最快! 10小时大数据入门实战(九)- 前沿技术拓展Spark,Flink,Beam_第22张图片
浏览器访问:http://localhost:8081/

使用方法


史上最快! 10小时大数据入门实战(九)- 前沿技术拓展Spark,Flink,Beam_第23张图片

Beam 概述

  • https://beam.apache.org/
    史上最快! 10小时大数据入门实战(九)- 前沿技术拓展Spark,Flink,Beam_第24张图片

    官网

    史上最快! 10小时大数据入门实战(九)- 前沿技术拓展Spark,Flink,Beam_第25张图片

将 wordCount的 Beam 程序以多种不同 Runner运行

Java 版本快速入门指南


史上最快! 10小时大数据入门实战(九)- 前沿技术拓展Spark,Flink,Beam_第26张图片

史上最快! 10小时大数据入门实战(九)- 前沿技术拓展Spark,Flink,Beam_第27张图片

maven 命令执行成功

史上最快! 10小时大数据入门实战(九)- 前沿技术拓展Spark,Flink,Beam_第28张图片
运行命令


img_950c8f4512164662647a9ec80213ddb8.png
生成文件

史上最快! 10小时大数据入门实战(九)- 前沿技术拓展Spark,Flink,Beam_第29张图片
查询结果

你可能感兴趣的:(大数据,scala,java)