Flink编程入门案例

实时处理代码开发
开发flink代码,实现统计socket当中的单词数量
第一步:创建maven工程,导入jar包



org.apache.flink
flink-streaming-scala_2.11
1.8.1


    org.apache.flink
    flink-scala_2.11
    1.8.1






org.apache.maven.plugins
maven-compiler-plugin
3.0

1.8
1.8
UTF-8




net.alchim31.maven
scala-maven-plugin
3.2.2



compile
testCompile






maven-assembly-plugin


jar-with-dependencies









make-assembly
package

single





第二步:开发flink代码统计socket当中的单词数量
开发flink代码实现接受socket单词数据,然后对数据进行统计
import org.apache.flink.streaming.api.scala.{DataStream, StreamExecutionEnvironment}
import org.apache.flink.streaming.api.windowing.time.Time

case class CountWord(word:String,count:Long)

object FlinkCount {

def main(args: Array[String]): Unit = {
//获取程序入口类
val environment: StreamExecutionEnvironment = StreamExecutionEnvironment.getExecutionEnvironment
//从socket当中获取数据
val result: DataStream[String] = environment.socketTextStream("node01",9000)
//导入隐式转换的包,否则时间不能使用
import org.apache.flink.api.scala._
//将数据进行切割,封装到样例类当中,然后进行统计
val resultValue: DataStream[CountWord] = result
.flatMap(x => x.split(" "))
.map(x => CountWord(x,1))
.keyBy("word")
// .timeWindow(Time.seconds(1),Time.milliseconds(1)) 按照每秒钟时间窗口,以及每秒钟滑动间隔来进行数据统计
.sum("count")
//打印最终输出结果
resultValue.print().setParallelism(1)
//启动服务
environment.execute()
}
}

第三步:打包上传到服务器运行
将我们的程序打包,然后上传到服务器进行运行,将我们打包好的程序上传到node01服务器,然后体验在各种模式下进行运行我们的程序
1、standAlone模式运行程序
第一步:启动flink集群
node01执行以下命令启动flink集群
cd /kkb/install/flink-1.8.1
bin/start-cluster.sh

第二步:启动node01的socket服务,并提交flink任务
node01执行以下命令启动node01的socket服务
nc -lk 9000
提交任务
将我们打包好的jar包上传到node01服务器的/kkb路径下,然后提交任务,注意,在pom.xml当中需要添加我们的打包插件,然后将任务代码进行打包,且集群已有的代码需要将打包scope设置为provided,在pom.xml将我们关于flink的jar包scope设置为provided

打包,并将我们的jar-with-dependencies的jar包上传到node01服务器的/kkb路径下

node01执行以下命令提交任务
cd /kkb/install/flink-1.8.1/
bin/flink run --class com.kkb.flink.demo1.FlinkCount /kkb/flink_day01-1.0-SNAPSHOT-jar-with-dependencies.jar
第三步:查询运行结果
node01查看运行结果
cd /kkb/install/flink-1.8.1/log
tail -200f flink-hadoop-taskexecutor-1-node01.kaikeba.com.out

注意:结果保存在以.out结尾的文件当中,哪个文件当中有数据,就查看哪个文件即可

离线批量处理代码开发
flink也可以通过批量处理代码来实现批量数据处理
需求:处理附件中的count.txt文件,实现单词计数统计

import org.apache.flink.api.scala.{AggregateDataSet, DataSet, ExecutionEnvironment}

object BatchOperate {
def main(args: Array[String]): Unit = {

val inputPath = "D:\\count.txt"
val outPut = "D:\\data\\result2"

//获取程序入口类ExecutionEnvironment
val env = ExecutionEnvironment.getExecutionEnvironment
val text = env.readTextFile(inputPath)

//引入隐式转换
import org.apache.flink.api.scala._

val value: AggregateDataSet[(String, Int)] = text.flatMap(x => x.split(" ")).map(x =>(x,1)).groupBy(0).sum(1)
value.writeAsText("d:\\datas\\result.txt").setParallelism(1)

env.execute("batch word count")

}

}

你可能感兴趣的:(Flink编程入门案例)