【Flink】Flink的wordCount——批处理和流处理

一、批处理

public class wordCount {
    public static void main(String[] args) throws Exception {
        // 创建执行环境
        ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment();
        // 从文件中读取数据
        String inputPath = "data//hello.txt";
//        String inputPath = "D:\\Projects\\BigData\\FlinkTutorial\\src\\main\\resources\\hello.txt";
        DataSet inputDataSet = env.readTextFile(inputPath);
        // 对数据集进行处理,按空格分词处理,转换成(word,1)二元组进行统计
        DataSet> result = inputDataSet.flatMap(new MyFlatMapper())
                .groupBy(0)
                .sum(1);
        result.print();

    }

    // 自定义类,实现FlatMapFunction接口
    public static class MyFlatMapper implements FlatMapFunction> {
        @Override
        public void flatMap(String s, Collector> out) throws Exception {
            String[] words = s.split(" ");
            for (String word : words) {
                out.collect(new Tuple2<>(word,1));
            }
        }
    }
}

二、流处理

public class StreamWordCount {
    public static void main(String[] args) throws Exception {
        // 1. 创建流式执行环境
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        
        // 2. 读取文本流
        DataStreamSource lineDSS = env.socketTextStream("hadoop102", 7777);
        
        // 3. 转换数据格式
        SingleOutputStreamOperator> wordAndOne = lineDSS
                .flatMap((String line, Collector words) -> {
                    Arrays.stream(line.split(" ")).forEach(words::collect);
                })
                .returns(Types.STRING)
                .map(word -> Tuple2.of(word, 1L))
                // 当 Lambda 表达式使用 Java 泛型的时候, 由于泛型擦除的存在, 需要显示的声明类型信息
                .returns(Types.TUPLE(Types.STRING, Types.LONG));
        
        // 4. 分组
        KeyedStream, String> wordAndOneKS = wordAndOne
                .keyBy(t -> t.f0);
        
        // 5. 求和
        SingleOutputStreamOperator> result = wordAndOneKS
                .sum(1);
        
        // 6. 打印
        result.print();
        // 7. 执行
        env.execute();
    }
}
与批处理程序 BatchWordCount 的不同:
1、创建执行环境的不同,流处理程序使用的是 StreamExecutionEnvironment
2、每一步处理转换之后,得到的数据对象类型不同。
3、分组操作调用的是 keyBy 方法,可以传入一个匿名函数作为键选择器(KeySelector ),指定当前分组的 key 是什么。
4、代码末尾需要调用 env execute 方法,开始执行任务。

你可能感兴趣的:(Flink,分布式,大数据,flink)