依旧ฅ=ฅ

【Flink】批式处理--DataSet API 开发

一、统计单词个数

Flink 批处理程序的一般流程

统计单词个数

将程序打包，提交到 yarn

二、输入数据集 Data Sources

1 基于本地集合的 source（Collection-based-source）

2 基于文件的 source（File-based-source）

2.1、读取本地文件

2.2 读取 HDFS 数据

2.3 读取 CSV 数据

2.4 读取压缩文件

2.5 基于文件的 source（遍历目录）

三、DateSet 的 Transformation

1 map 函数

2 flatMap 函数

3 mapPartition 函数

4 filter

5 reduce

6 reduceGroup

7 Aggregate

8 minBy 和 maxBy

9 distinct 去重

10 Join

11 LeftOuterJoin

12 RightOuterJoin

13 fullOuterJoin

14 cross 交叉操作

15 Union

16 Rebalance

17 First

四、数据输出 Data Sinks

1 基于本地集合的 sink

2 基于文件的 sink

五、广播变量

六、Flink 的分布式缓存

七、Flink Accumulators & Counters

谢谢你长得这么好看还给我点赞

一、统计单词个数

pom文件


        1.8
        1.8
        UTF-8
        2.11.2
        2.11
        2.6.0
        1.7.2
        2.11
        1.4.3
        1.2.7
    

    
        
        
            org.scala-lang
            scala-library
            ${scala.version}
        
        
        
            org.apache.flink
            flink-streaming-scala_2.11
            ${flink.version}
        
        
        
            org.apache.flink
            flink-scala_2.11
            ${flink.version}
        
        
        
            org.apache.flink
            flink-clients_2.11
            ${flink.version}
        
        
        
            org.apache.flink
            flink-table_2.11
            ${flink.version}
        
        
        
            org.apache.hadoop
            hadoop-client
            ${hadoop.version}
            
                
                    xml-apis
                    xml-apis
                
            
        
        
        
            mysql
            mysql-connector-java
            5.1.38
        
        
        
            com.alibaba
            fastjson
            1.2.60
        
        
            com.jayway.jsonpath
            json-path
            2.3.0
        
        
        
            org.apache.flink
            flink-connector-kafka-0.11_2.11
            ${flink.version}
        

        
        
            com.fasterxml.jackson.core
            jackson-core
            2.9.9
        
        
            com.fasterxml.jackson.core
            jackson-databind
            2.9.9.3
        
        
            com.fasterxml.jackson.module
            jackson-module-scala_2.11
            2.9.9
        
        
        
            redis.clients
            jedis
            2.7.1

Flink 批处理程序的一般流程

1) 获取 Flink 批处理执行环境

2) 构建 source

3) 数据处理

4) 构建 sink

统计单词个数

步骤

1) IDEA 创建项目

2) 导入 Flink 所需的 Maven 依赖

3) 创建 scala 单例对象，添加 main 方法

4) 获取 Flink 批处理运行环境

5) 构建一个 collection 源

6) 使用 flink 操作进行单词统计

7) 输出（保存打印）

import org.apache.flink.api.scala.ExecutionEnvironment
import org.apache.flink.api.scala._

object test01 {
  def main(args: Array[String]): Unit = {
    //1、创建执行环境
    val environment: ExecutionEnvironment = ExecutionEnvironment.getExecutionEnvironment
    //2、接入数据源
    val textDataSet: DataSet[String] = environment.fromCollection (
      List("hadoop hive spark", "flink mapreduce hadoop hive", "flume spark spark hive")
    )
    //3、进行数据处理
    //切分
    val wordDataSet: DataSet[String] = textDataSet.flatMap(_.split(" "))
    //每个单词标记1
    val wordAndOneDataSet: DataSet[(String, Int)] = wordDataSet.map(_ -> 1)
    //按照单词进行分组
    val groupDataSet: GroupedDataSet[(String, Int)] = wordAndOneDataSet.groupBy(0)
    //对单词进行聚合
    val sumDataSet: AggregateDataSet[(String, Int)] = groupDataSet.sum(1)
    //4、数据保存或输出
    sumDataSet.writeAsText("./ResultData/BatchWordCount")
    sumDataSet.print()
    // sumDataSet.writeAsText("hdfs://node01:8020/test/output/BatchWordCount ")
    // environment.execute("BatchWordCount")
  }
}

将程序打包，提交到 yarn

添加 maven 打包插件


        src/main/scala
        src/test/scala
        

            
                org.apache.maven.plugins
                maven-compiler-plugin
                2.5.1
                
                    ${maven.compiler.source}
                    ${maven.compiler.target}
                    
                
            

            
                net.alchim31.maven
                scala-maven-plugin
                3.2.0
                
                    
                        
                            compile
                            testCompile
                        
                        
                            
                                
                                -dependencyfile
                                ${project.build.directory}/.scala_dependencies
                            

                        
                    
                
            
            
                org.apache.maven.plugins
                maven-surefire-plugin
                2.18.1
                
                    false
                    true
                    
                        **/*Test.*
                        **/*Suite.*
                    
                
            

            
                org.apache.maven.plugins
                maven-shade-plugin
                2.3
                
                    
                        package
                        
                            shade
                        
                        
                            
                                
                                    *:*
                                    
                                        
                                        META-INF/*.SF
                                        META-INF/*.DSA
                                        META-INF/*.RSA
                                    
                                
                            
                            
                                
                                    cn.czxy.batch.BatchWordCount

上传 jar 包到服务器上，然后执行程序

/export/servers/flink-1.7.2/bin/flink run -m yarn-cluster -yn 2 /export/servers/flink-1.7.2/jar/flink_0901.jar batch.test01

在 yarn 的 8088 页面可以观察到提交的程序

二、输入数据集 Data Sources

Flink 做为一款流式计算框架，它可用来做批处理，即处理静态的数据集、历史的数据

集；也可以用来做流处理，即实时的处理些实时数据流，实时的产生数据流结果，只要数据

源源不断的过来，Flink 就能够一直计算下去，这个 Data Sources 就是数据的来源地。

flink 在批处理中常见的 source 主要有两大类。

1) 基于本地集合的 source（Collection-based-source）

2) 基于文件的 source（File-based-source）

1 基于本地集合的 source（Collection-based-source）

在 flink 最常见的创建 DataSet 方式有三种。

1) 使用 env.fromElements()，这种方式也支持 Tuple，自定义对象等复合形式。

2) 使用 env.fromCollection(),这种方式支持多种 Collection 的具体类型

3) 使用 env.generateSequence()方法创建基于 Sequence 的 DataSet

import org.apache.flink.api.scala.ExecutionEnvironment

import scala.collection.mutable
import scala.collection.mutable.{ArrayBuffer, ListBuffer}

object BatchFromCollection {
  def main(args: Array[String]): Unit = {
    //获取flink执行环境
    val env: ExecutionEnvironment = ExecutionEnvironment.getExecutionEnvironment
    //导入隐式转换
    import org.apache.flink.api.scala._
    //0.用element创建DataSet(fromElements)
    val ds0: DataSet[String] = env.fromElements("spark", "flink")
    ds0.print()
    //1.用Tuple创建DataSet(fromElements)
    val ds1: DataSet[(Int, String)] = env.fromElements((1, "spark"), (2, "flink"))
    ds1.print()
    //2.用Array创建DataSet
    val ds2: DataSet[String] = env.fromCollection(Array("spark", "flink"))
    ds2.print()
    //3.用ArrayBuffer创建DataSet
    val ds3: DataSet[String] = env.fromCollection(ArrayBuffer("spark", "flink"))
    ds3.print()
    //4.用List创建DataSet
    val ds4: DataSet[String] = env.fromCollection(List("spark", "flink"))
    ds4.print()
    //5.用List创建DataSet
    val ds5: DataSet[String] = env.fromCollection(ListBuffer("spark", "flink"))
    ds5.print()
    //6.用Vector创建DataSet
    val ds6: DataSet[String] = env.fromCollection(Vector("spark", "flink"))
    ds6.print()
    //7.用用Queue创建DataSet
    val ds7: DataSet[String] = env.fromCollection(mutable.Queue("spark", "flink"))
    ds7.print()
    //8.用Stack创建DataSet
    val ds8: DataSet[String] = env.fromCollection(mutable.Stack("spark", "flink"))
    ds8.print()
    //9.用Stream创建DataSet(Stream相当于lazy List,避免在中间过程中生成不必要的集合
    val ds9: DataSet[String] = env.fromCollection(Stream("spark", "flink"))
    ds9.print()
    //10.用Seq创建DataSet
    val ds10: DataSet[String] = env.fromCollection(Seq("spark", "flink"))
    ds10.print()
    //11.用Set创建DataSet
    val ds11: DataSet[String] = env.fromCollection(Set("spark", "flink"))
    ds11.print()
    //12.用Iterable创建DataSet
    val ds12: DataSet[String] = env.fromCollection(Iterable("spark", "flink"))
    ds12.print()
    //13.用ArraySeq创建DataSet
    val ds13: DataSet[String] = env.fromCollection(mutable.ArraySeq("spark", "flink"))
    ds13.print()
    //14.用ArrayStack创建DataSet
    val ds14: DataSet[String] = env.fromCollection(mutable.ArrayStack("spark", "flink"))
    ds14.print()
    //15.用Map创建DataSet
    val ds15: DataSet[(Int, String)] = env.fromCollection(Map(1 -> "spark", 2 -> "flink"))
    ds15.print()
    //16.用Range创建DataSet
    val ds16: DataSet[Int] = env.fromCollection(Range(1, 9))
    ds16.print()
    //17.用formElements创建DataSet
    val ds17: DataSet[Long] = env.generateSequence(1, 9)
    ds17.print()
  }
}

2 基于文件的 source（File-based-source）

2.1、读取本地文件

object BatchFromLocalFileSource {
  def main(args: Array[String]): Unit = {
    //1.创建执行环境
    val env: ExecutionEnvironment = ExecutionEnvironment.getExecutionEnvironment
    //2.从本地文件构建数据集
    val localFileSource: DataSet[String] = env.readTextFile("day02/data/input/wordcount.txt")
    //3.打印输出
    localFileSource.print()
  }
}

2.2 读取 HDFS 数据

object BatchFromHDFSFileSource {
  def main(args: Array[String]): Unit = {
    //1.创建执行环境
    val env = ExecutionEnvironment.getExecutionEnvironment
    //2.从HDFS文件构建数据集
    val hdfsFileSource: DataSet[String] = env.readTextFile("hdfs://node01:8020/test/input/wordcount.txt")
    //3.输出打印
    hdfsFileSource.print()
  }
}

2.3 读取 CSV 数据

object BatchFromCSVFileSource {
  case class Subject(id:Int,name:String)
  def main(args: Array[String]): Unit = {
    //1.创建执行环境
    val env: ExecutionEnvironment = ExecutionEnvironment.getExecutionEnvironment
    //2.从csv文件构建数据集
    import org.apache.flink.api.scala._
    val csvDataSet: DataSet[Subject] = env.readCsvFile[Subject]("day02/data/input/subject.csv")
    //3.输出打印
    csvDataSet.print()
  }
}

2.4 读取压缩文件

object BatchFromCompressFileSource {
  def main(args: Array[String]): Unit = {
    //1.创建执行环境
    val env: ExecutionEnvironment = ExecutionEnvironment.getExecutionEnvironment
    //2.从压缩文件中构建数据集
    val compressFileSource: DataSet[String] = env.readTextFile("day02/data/input/wordcount.txt.gz")
    //3.输出打印
    compressFileSource.print()
  }
}

2.5 基于文件的 source（遍历目录）

object BatchFromFolderSource {
  def main(args: Array[String]): Unit = {
    //1.创建执行环境
    val env: ExecutionEnvironment = ExecutionEnvironment.getExecutionEnvironment
    //2.开启recursive.file.enumeration
    val configuration: Configuration = new Configuration()
    configuration.setBoolean("recursive.file.enumeration", true)
    //3.根据遍历多级目录来构建数据集
    val result: DataSet[String] = env.readTextFile("day02/data/input/a").withParameters(configuration)
    result.print()
  }
}

三、DateSet 的 Transformation

1 map 函数

import org.apache.flink.api.scala.ExecutionEnvironment

/**
 * 需求：
 * 使用 map 操作， 将以下数据
 * "1,张三", "2,李四", "3,王五", "4,赵六"
 * 转换为一个 scala 的样例类。
 */
object BatchMapDemo {
  //3.创建样例类
  case class user(id:Int,name:String)
  def main(args: Array[String]): Unit = {
    //1.创建执行环境
    val env = ExecutionEnvironment.getExecutionEnvironment
    //2.构建数据集
    import org.apache.flink.api.scala._
    val sourceDataSet: DataSet[String] = env.fromElements("1,张三", "2,李四", "3,王五", "4,赵六")
    //4.数据转换处理
    val userDataSet: DataSet[user] = sourceDataSet.map(item => {
      val itemsArr: Array[String] = item.split(",")
      user(itemsArr(0).toInt, itemsArr(1))
    })
    //5.打印输出
    userDataSet.print()
  }
}

2 flatMap 函数

import org.apache.flink.api.scala.ExecutionEnvironment

import scala.collection.mutable

/**
 * 需求：
 * 分别将以下数据， 转换成 国家 、 省份 、 城市 三个维度的数据。
 * 将以下数据
 * 张三,中国,江西省,南昌市
 * 李四,中国,河北省,石家庄市
 * Tom,America,NewYork,Manhattan
 * 转换为
 * 张三,中国
 * 张三,中国江西省
 * 张三,中国江西省南昌市
 */
object BatchFlatMapDemo {
  def main(args: Array[String]): Unit = {
    /**
     * 1) 构建批处理运行环境
     * 2) 构建本地集合数据源
     * 3) 使用 flatMap 将一条数据转换为三条数据
     * a. 使用逗号分隔字段
     * b. 分别构建国家、 国家省份、 国家省份城市三个元组
     * 4) 打印输出
     */
    val env: ExecutionEnvironment = ExecutionEnvironment.getExecutionEnvironment
    import org.apache.flink.api.scala._
    val sourceDatSet: DataSet[String] = env.fromCollection(List(
      "张三,中国,江西省,南昌市",
      "李四,中国,河北省,石家庄市",
      "Tom,America,NewYork,Manhattan"
    ))
    val resultDataSet: DataSet[(String, String)] = sourceDatSet.flatMap(item => {
      val itemsArr: mutable.ArrayOps[String] = item.split(",")
      List(
        (itemsArr(0), itemsArr(1)),
        (itemsArr(0), itemsArr(1) + itemsArr(2)),
        (itemsArr(0), itemsArr(1) + itemsArr(2) + itemsArr(3))
      )
    })

    resultDataSet.print()
  }
}

3 mapPartition 函数

import org.apache.flink.api.scala.ExecutionEnvironment

/**
 * 需求：
 * 使用 mapPartition 操作， 将以下数据
 * "1,张三", "2,李四", "3,王五", "4,赵六"
 * 转换为一个 scala 的样例类。
 */
object BatchMapPartitionDemo {

  case class user(id:Int,name:String)
  def main(args: Array[String]): Unit = {
    //1.创建执行环境
    val env: ExecutionEnvironment = ExecutionEnvironment.getExecutionEnvironment
    //2.构建数据集
    import org.apache.flink.api.scala._
    val sourceDataSet: DataSet[String] = env.fromElements("1,张三", "2,李四", "3,王五", "4,赵六")

    //3数据处理
    val userDataSet: DataSet[user] = sourceDataSet.mapPartition(itemPartition => {
      itemPartition.map(item => {
        val itemsArr: Array[String] = item.split(",")
        user(itemsArr(0).toInt, itemsArr(1))
      })
    })
    //4.打印数据
    userDataSet.print()
  }
}

4 filter

import org.apache.flink.api.scala.ExecutionEnvironment
import org.apache.flink.api.scala._

/** 
* 过滤出来以下以 h 开头的单词。 
* "hadoop", "hive", "spark", "flink" 
*/
object BatchFilterDemo {
  def main(args: Array[String]): Unit = {
    val env = ExecutionEnvironment.getExecutionEnvironment
    val textDataSet: DataSet[String] = env.fromElements("hadoop",
      "hive", "spark", "flink")
    val filterDataSet: DataSet[String] = textDataSet.filter(x => x.startsWith("h")) filterDataSet
    .print()
  }
}

5 reduce

import org.apache.flink.api.scala.ExecutionEnvironment
import org.apache.flink.api.scala._

/** 
 * 请将以下元组数据， 
 * 使用 reduce 操作聚合成一个最终结果 ("java" , 1) , ("java", 1) ,("java" , 1)
 * 将上传元素数据转换为 ("java",3) 
 */
object BatchReduceDemo {
  def main(args: Array[String]): Unit = {
    val env = ExecutionEnvironment.getExecutionEnvironment
    val textDataSet: DataSet[(String, Int)] = env.fromCollection(List(("java", 1), ("java", 1), ("java", 1)))
    val groupedDataSet: GroupedDataSet[(String, Int)] = textDataSet.groupBy(0)
    val reduceDataSet: DataSet[(String, Int)] = groupedDataSet.reduce((v1, v2) => (v1._1, v1._2 + v2._2)) reduceDataSet
    .print()
  }
}

6 reduceGroup

import org.apache.flink.api.scala.{DataSet, ExecutionEnvironment}
import org.apache.flink.api.scala._

/** 
* 请将以下元组数据，先按照单词使用 groupBy 进行分组， 
* 再使用 reduceGroup 操作进行单词计数 
* ("java" , 1) , ("java", 1) ,("scala" , 1) 
*/
object BatchReduceGroupDemo {
  def main(args: Array[String]): Unit = {
    val env: ExecutionEnvironment = ExecutionEnvironment.getExecutionEnvironment
    val textDataSet: DataSet[(String, Int)] = env.fromCollection(List(("java", 1), ("java", 1), ("scala", 1)))
    val groupedDataSet: GroupedDataSet[(String, Int)] = textDataSet.groupBy(0)
    val reduceGroupDataSet: DataSet[(String, Int)] = groupedDataSet.reduceGroup(group => {
      group.reduce((v1, v2) => {
        (v1._1, v1._2 + v2._2)
      })
    })
    reduceGroupDataSet.print()
  }
}

7 Aggregate

import org.apache.flink.api.java.aggregation.Aggregations
import org.apache.flink.api.scala._

/** 
* 请将以下元组数据，使用 aggregate 操作进行单词统计 
* ("java" , 1) , ("java", 1) ,("scala" , 1) 
*/
object BatchAggregateDemo {
  def main(args: Array[String]): Unit = {
    val env = ExecutionEnvironment.getExecutionEnvironment
    val textDataSet = env.fromCollection(List(("java", 1), ("java", 1), ("scala", 1)))
    val grouped = textDataSet.groupBy(0)
    val aggDataSet: AggregateDataSet[(String, Int)] = grouped.aggregate(Aggregations.MAX, 1) aggDataSet
    .print()
  }
}

8 minBy 和 maxBy

import org.apache.flink.api.java.aggregation.Aggregations
import org.apache.flink.api.scala.ExecutionEnvironment

import scala.collection.mutable
import scala.util.Random

object BatchMinByAndMaxBy {
  def main(args: Array[String]): Unit = {
    val env = ExecutionEnvironment.getExecutionEnvironment
    val data = new mutable.MutableList[(Int, String, Double)]
    data.+=((1, "yuwen", 89.0))
    data.+=((2, "shuxue", 92.2))
    data.+=((3, "yingyu", 89.99))
    data.+=((4, "wuli", 98.9))
    data.+=((1, "yuwen", 88.88))
    data.+=((1, "wuli", 93.00))
    data.+=((1, "yuwen", 94.3))
      //导入隐式转换
      import org.apache.flink.api.scala._
    //fromCollection将数据转化成DataSet
    val input: DataSet[(Int, String, Double)] = env.fromCollection(Random.shuffle(data))
    input.print()
    println("===========获取指定字段分组后，某个字段的最大值 ==================")
    val output = input.groupBy(1).aggregate(Aggregations.MAX, 2)
    output.print()
    println("===========使用【MinBy】获取指定字段分组后，某个字段的最小值 ==================")
      // val input: DataSet[(Int, String, Double)]= env.fromCollection(Random.shuffle(data))
    val output2: DataSet[(Int, String, Double)] = input.groupBy(1)
      //求每个学科下的最小分数
      // minBy的参数代表要求哪个字段的最小值
      .minBy(2)
    output2.print()
    println ("===========使用【maxBy】获取指定字段分组后，某个字段的最大值 ==================")
    // val input: DataSet[(Int, String, Double)] = env.fromCollection(Random.shuffle(data))
    val output3: DataSet[(Int, String, Double)] = input.groupBy(1)
      //求每个学科下的最小分数
      // minBy的参数代表要求哪个字段的最小值
      .maxBy(2)
    output3.print()
  }
}

9 distinct 去重

import org.apache.flink.api.scala._

/**
 ** 请将以下元组数据，使用 distinct 操作去除重复的单词
 ** ("java" , 1) , ("java", 1) ,("scala" , 1)
 ** 去重得到 ** ("java", 1), ("scala", 1)
 * */
object BatchDistinctDemo {
  def main(args: Array[String]): Unit = {
    val env = ExecutionEnvironment.getExecutionEnvironment
    val textDataSet: DataSet[(String, Int)] = env.fromCollection(List(("java", 1), ("java", 1), ("scala", 1)))
    textDataSet.distinct(1).print()
  }
}

10 Join

import org.apache.flink.api.scala._

/**
 ** 使用join可以将两个DataSet连接起来
 **/
object BatchJoinDemo {

  case class Subject(id: Int, name: String)

  case class Score(id: Int, stuName: String, subId: Int, score: Double)

  def main(args: Array[String]): Unit = {
    val env = ExecutionEnvironment.getExecutionEnvironment
    val subjectDataSet: DataSet[Subject] = env.readCsvFile[Subject]("day01/data/input/subject.csv")
    val scoreDataSet: DataSet[Score] = env.readCsvFile[Score]("day01/data/input/score.csv")
    //join的替代方案：broadcast
    val joinDataSet: JoinDataSet[Score, Subject] = scoreDataSet.join(subjectDataSet).where(_.subId).equalTo(_.id)
    joinDataSet.print()
  }
}

优化 join
通过给Flink一些提示，可以使得你的 join 更快，但是首先我们要简单了解一下Flink如何执行join的。
当 Flink 处理批量数据的时候，每台机器只是存储了集群的部分数据。为了执行 join，Flink 需要找到两个数据集的所有满足 join 条件的数据。为了实现这个目标，Flink 需要将两个数据集有相同 key 的数据发送到同一台机器上。
有两种策略：
1. repartition-repartition strategy
在该情况下，两个数据集都会使用key进行重分区并使用通过网络传输。这就意味着假如数据集太大的话，网络传输数据集将耗费大量的时间。
2. broadcast-forward strategy 在该情况下，一个数据集不动，另一个数据集会 copy 到有第一个数据集部分数据的所有机器上。如果使用小数据集与大数据集进行 join，可以选择 broadcast-forward 策略，将小数据集广播，避免代价高的重分区。 ds1.join(ds2, JoinHint.BROADCAST_HASH_FIRST) 第二个参数就是提示，第一个数据集比第二个小。也可以使用下面几个提示：
BROADCAST_HASH_SECOND: 第二个数据集是较小的数据集
REPARTITION_HASH_FIRST: 第一个书记集是较小的数据集
REPARTITION_HASH_SECOND: 第二个数据集是较小的数据集。
REPARTITION_SORT_MERGE: 对数据集进行重分区，同时使用 sort 和 merge 策略。
OPTIMIZER_CHOOSES: （默认的）Flink 的优化器决定两个数据集如何 join。

11 LeftOuterJoin

import org.apache.flink.api.scala.ExecutionEnvironment
import scala.collection.mutable.ListBuffer

/**
 * 左外连接,左边的Dataset中的每一个元素，去连接右边的元素 
 */
object BatchLeftOuterJoinDemo {
  def main(args: Array[String]): Unit = {
    val env = ExecutionEnvironment.getExecutionEnvironment
    import org.apache.flink.api.scala._
    val data1 = ListBuffer[Tuple2[Int, String]]()
    data1.append((1, "zhangsan")) 
    data1.append((2, "lisi")) 
    data1.append((3, "wangwu")) 
    data1.append((4, "zhaoliu"))
    val data2 = ListBuffer[Tuple2[Int, String]]() 
    data2.append((1, "beijing")) 
    data2.append((2, "shanghai")) 
    data2.append((4, "guangzhou"))
    val text1 = env.fromCollection(data1)
    val text2 = env.fromCollection(data2) 
    text1.leftOuterJoin(text2).where(0).equalTo(0).apply((first, second) => {
      if (second == null) {
        (first._1, first._2, "null")
      } else {
        (first._1, first._2, second._2)
      }
    }).print()
  }
}

12 RightOuterJoin

import org.apache.flink.api.scala.ExecutionEnvironment
import scala.collection.mutable.ListBuffer

/** 
 * 左外连接,左边的Dataset中的每一个元素，去连接右边的元素 
 */
object BatchLeftOuterJoinDemo {
  def main(args: Array[String]): Unit = {
    val env = ExecutionEnvironment.getExecutionEnvironment
    import org.apache.flink.api.scala._
    val data1 = ListBuffer[Tuple2[Int, String]]() 
    data1
    .append((1, "zhangsan")) 
    data1
    .append((2, "lisi"))
    data1.append((3, "wangwu")) 
    data1.append((4, "zhaoliu"))
    val data2 = ListBuffer[Tuple2[Int, String]]() 
    data2.append((1, "beijing")) 
    data2.append((2, "shanghai")) 
    data2.append((4, "guangzhou"))
    val text1 = env.fromCollection(data1)
    val text2 = env.fromCollection(data2) 
    text1.rightOuterJoin(text2).where(0).equalTo(0).apply((first, second) => {
      if (second == null) {
        (first._1, first._2, "null")
      } else {
        (first._1, first._2, second._2)
      }
    }).print()
  }
}

13 fullOuterJoin

import org.apache.flink.api.common.operators.base.JoinOperatorBase.JoinHint
import org.apache.flink.api.scala.{ExecutionEnvironment, _}
import scala.collection.mutable.ListBuffer

/** ** 左外连接,左边的Dataset中的每一个元素，去连接右边的元素 * */
object BatchFullOuterJoinDemo {
  def main(args: Array[String]): Unit = {
    val env = ExecutionEnvironment.getExecutionEnvironment
    val data1 = ListBuffer[Tuple2[Int, String]]()
    data1.append((1, "zhangsan"))
    data1.append((2, "lisi"))
    data1.append((3, "wangwu"))
    data1.append((4, "zhaoliu"))
    val data2 = ListBuffer[Tuple2[Int, String]]()
    data2.append((1, "beijing"))
    data2.append((2, "shanghai"))
    data2.append((4, "guangzhou"))
    val text1 = env.fromCollection(data1)
    val text2 = env.fromCollection(data2)

      /**
       * OPTIMIZER_CHOOSES：将选择权交予Flink优化器，相当于没有给提示；
       * BROADCAST_HASH_FIRST：广播第一个输入端，同时基于它构建一个哈希表，而第 二个输入端作为探索端，选择这种策略的场景是第一个输入端规模很小；
       * BROADCAST_HASH_SECOND：广播第二个输入端并基于它构建哈希表，第一个输入端 作为探索端，选择这种策略的场景是第二个输入端的规模很小；
       * REPARTITION_HASH_FIRST：该策略会导致两个输入端都会被重分区，但会基于第 一个输入端构建哈希表。该策略适用于第一个输入端数据量小于第二个输入端的数据量，但这 两个输入端的规模仍然很大，优化器也是当没有办法估算大小，没有已 存在的分区以及排序 顺序可被使用时系统默认采用的策略；
       * REPARTITION_HASH_SECOND：该策略会导致两个输入端都会被重分区，但会基于 第二个输入端构建哈希表。该策略适用于两个输入端的规模都很大，但第二个输入端的数据量 小于第一个输入端的情况；
       * REPARTITION_SORT_MERGE：输入端被以流的形式进行连接并合并成排过序的输入。 该策略适用于一个或两个输入端都已 排过序的情况；
       */
      text1.fullOuterJoin(text2, JoinHint.REPARTITION_SORT_MERGE).where(0).equalTo(0).apply((first, second) => {
      if (first == null) {
        (second._1, "null", second._2)
      } else if (second == null) {
        (first._1, first._2, "null")
      } else {
        (first._1, first._2, second._2)
      }
    }).print()
  }
}

14 cross 交叉操作

import org.apache.flink.api.scala.{DataSet, ExecutionEnvironment}
import org.apache.flink.api.scala._

/**
 ** 通过形成这个数据集和其他数据集的笛卡尔积，创建一个新的数据集。
 **/
object BatchCrossDemo {
  def main(args: Array[String]): Unit = {
    val env = ExecutionEnvironment.getExecutionEnvironment
    println ("============cross==================")
    cross (env)
    println ("============cross2==================")
    cross2 (env)
    println ("============cross3==================")
    cross3 (env)
    println ("============crossWithTiny==================")
    crossWithTiny (env)
    println ("============crossWithHuge==================")
    crossWithHuge (env)
  }

  /**
   * @param benv
   * 交叉。拿第一个输入的每一个元素和第二个输入的每一个元素进行交叉操作。
   * res71: Seq[((Int, Int, Int), (Int, Int, Int))] = Buffer(
   * ((1,4,7),(10,40,70)), ((2,5,8),(10,40,70)), ((3,6,9),(10,40,70)),
   * ((1,4,7),(20,50,80)), ((2,5,8),(20,50,80)), ((3,6,9),(20,50,80)),
   * ((1,4,7),(30,60,90)), ((2,5,8),(30,60,90)), ((3,6,9),(30,60,90)))
   */
  def cross(benv: ExecutionEnvironment): Unit = {
    //1.定义两个DataSet
    val coords1 = benv.fromElements((1, 4, 7), (2, 5, 8), (3, 6, 9))
    val coords2 = benv.fromElements((10, 40, 70), (20, 50, 80), (30, 60, 90))
    //2.交叉两个DataSet[Coord]
    val result1 = coords1.cross(coords2)
    // 3.显示结果
    println(result1.collect)
  }
     /**
      *@param benv
      * res69: Seq[(Coord, Coord)] = Buffer(
      * (Coord(1,4,7),Coord(10,40,70)), (Coord(2,5,8),Coord(10,40,70)), (Coord(3,6,9),Coord(10,40,70)),
      * (Coord(1,4,7),Coord(20,50,80)), (Coord(2,5,8),Coord(20,50,80)), (Coord(3,6,9),Coord(20,50,80)),
      * (Coord(1,4,7),Coord(30,60,90)), (Coord(2,5,8),Coord(30,60,90)), (Coord(3,6,9),Coord(30,60,90)))
      */
     def cross2(benv: ExecutionEnvironment): Unit = {
       //1.定义 case class
       case class Coord(id: Int, x: Int, y: Int)
       // 2.定义两个DataSet[Coord]
       val coords1: DataSet[Coord] = benv.fromElements(
         Coord(1, 4, 7),
         Coord(2, 5, 8),
         Coord(3, 6, 9))
       val coords2: DataSet[Coord] = benv.fromElements(
         Coord(10, 40, 70),
         Coord(20, 50, 80),
         Coord(30, 60, 90))
       //3.交叉两个DataSet[Coord]
       val result1 = coords1.cross(coords2)
       //4.显示结果
       println(result1.collect)
     }
      /**
       * @param benv
       * res65: Seq[(Int, Int, Int)] = Buffer(
       * (1,1,22), (2,1,24), (3,1,26),
       * (1,2,24), (2,2,26), (3,2,28),
       *(1,3,26), (2,3,28), (3,3,30)
       * )
       */

    def cross3(benv: ExecutionEnvironment): Unit = {
      //1.定义 case class
       case class Coord(id: Int, x: Int, y: Int)
      //2.定义两个DataSet[Coord]
      val coords1: DataSet[Coord] = benv.fromElements(
        Coord(1, 4, 7),
        Coord(2, 5, 8),
        Coord(3, 6, 9))
      val coords2: DataSet[Coord] = benv.fromElements(
        Coord(1, 4, 7),
        Coord(2, 5, 8),
        Coord(3, 6, 9))
      //3.交叉两个DataSet[Coord]，使用自定义方法
       val r = coords1.cross(coords2) { (c1, c2) => {
         val dist = (c1.x + c2.x) + (c1.y + c2.y)
         (c1.id, c2.id, dist)
       }
       }
      //4.显示结果
      println(r.collect)
    }

  /**
   * 暗示第二个输入较小的交叉。
   * 拿第一个输入的每一个元素和第二个输入的每一个元素进行交叉操作。
   *@param benv
   * res67: Seq[(Coord, Coord)] = Buffer(
   * (Coord(1,4,7),Coord(10,40,70)), (Coord(1,4,7),Coord(20,50,80)), (Coord(1,4,7),Coord(30,60,90)),
   * (Coord(2,5,8),Coord(10,40,70)), (Coord(2,5,8),Coord(20,50,80)), (Coord(2,5,8),Coord(30,60,90)),
   * (Coord(3,6,9),Coord(10,40,70)), (Coord(3,6,9),Coord(20,50,80)), (Coord(3,6,9),Coord(30,60,90)))
   */
  def crossWithTiny(benv: ExecutionEnvironment): Unit = {
    //1.定义 case class
    case class Coord(id: Int, x: Int, y: Int)
    //2.定义两个DataSet[Coord]
    val coords1: DataSet[Coord] = benv.fromElements(
      Coord(1, 4, 7),
      Coord(2, 5, 8),
      Coord(3, 6, 9))
    val coords2: DataSet[Coord] = benv.fromElements(
      Coord(10, 40, 70),
      Coord(20, 50, 80),
      Coord(30, 60, 90))
    //3.交叉两个DataSet[Coord]，暗示第二个输入较小
    val result1 = coords1.crossWithTiny(coords2)
    //4.显示结果
    println(result1.collect)
    }

  /**
   * @param benv
   * 暗示第二个输入较大的交叉。
   * 拿第一个输入的每一个元素和第二个输入的每一个元素进行交叉操作。
   * res68: Seq[(Coord, Coord)] = Buffer((Coord(1,4,7),Coord(10,40,70)), (Coord(2,5,8),Coord(10,40,70)), (Coord(3,6,9),Coord(10,40,70)),
   * (Coord(1,4,7),Coord(20,50,80)), (Coord(2,5,8),Coord(20,50,80)), (Coord(3,6,9),Coord(20,50,80)),
   * (Coord(1,4,7),Coord(30,60,90)), (Coord(2,5,8),Coord(30,60,90)), (Coord(3,6,9),Coord(30,60,90)))
   *
   */
  def crossWithHuge(benv: ExecutionEnvironment): Unit = {
    //1.定义 case class
    case class Coord(id: Int, x: Int, y: Int)
    //2.定义两个DataSet[Coord]
    val coords1: DataSet[Coord] = benv.fromElements(
      Coord(1, 4, 7),
      Coord(2, 5, 8),
      Coord(3, 6, 9))
    val coords2: DataSet[Coord] = benv.fromElements(
      Coord(10, 40, 70),
      Coord(20, 50, 80),
      Coord(30, 60, 90))
    //3.交叉两个DataSet[Coord]，暗示第二个输入较大
    val result1 = coords1.crossWithHuge(coords2)
    //4.显示结果
    println(result1.collect)
  }
}

15 Union

import org.apache.flink.api.scala._

/** * 将两个DataSet取并集，并不会进行去重。 */
object BatchUnionDemo {
  def main(args: Array[String]): Unit = {
    val env = ExecutionEnvironment.getExecutionEnvironment
    // 使用`fromCollection`创建两个数据源
    val wordDataSet1 = env.fromCollection(List("hadoop", "hive", "flume"))
    val wordDataSet2 = env.fromCollection(List("hadoop", "hive", "spark"))
    val wordDataSet3 = env.fromElements("hadoop")
    val wordDataSet4 = env.fromElements("hadoop")
    wordDataSet1.union(wordDataSet2).print()
    wordDataSet3.union(wordDataSet4).print()
 }
}

16 Rebalance

import org.apache.flink.api.common.functions.RichMapFunction
import org.apache.flink.api.scala.{DataSet, ExecutionEnvironment}

/**
 * 实现步骤：
 * 1) 构建批处理运行环境
 * 2) 使用 env.generateSequence 创建 0-100 的并行数据
 * 3) 使用 fiter 过滤出来 大于 8 的数字
 * 4) 使用 map 操作传入 RichMapFunction ， 将当前子任务的 ID 和数字构建成一个元组
 * 5) 在 RichMapFunction 中可以使用 getRuntimeContext.getIndexOfThisSubtask 获取子
 * 任务序号
 * 6) 打印测试
 */
object BatchRebalanceDemo {
  def main(args: Array[String]): Unit = {
    //1) 构建批处理运行环境
    val env: ExecutionEnvironment = ExecutionEnvironment.getExecutionEnvironment
    //2) 使用 env.generateSequence 创建 0-100 的并行数据
    val source: DataSet[Long] = env.generateSequence(0,100)
    //3) 使用 fiter 过滤出来 大于 8 的数字
    val filter: DataSet[Long] = source.filter(_>8)
    //使用rebalance进行处理数据
    val rebalance: DataSet[Long] = filter.rebalance()
    //4) 使用 map 操作传入 RichMapFunction ， 将当前子任务的 ID 和数字构建成一个元组
    import org.apache.flink.api.scala._
    val result: DataSet[(Int, Long)] = rebalance.map(new RichMapFunction[Long, (Int, Long)] {
      override def map(value: Long): (Int, Long) = {
        (getRuntimeContext.getIndexOfThisSubtask, value)
      }
    })
    result.print()
  }
}

17 First

import org.apache.flink.api.common.operators.Order
import org.apache.flink.api.scala.ExecutionEnvironment
import scala.collection.mutable.ListBuffer
object BatchFirstNDemo {
  def main(args: Array[String]): Unit = {
    val env=ExecutionEnvironment.getExecutionEnvironment
    import org.apache.flink.api.scala._
    val data = ListBuffer[Tuple2[Int,String]]()
    data.append((2,"zs"))
    data.append((4,"ls"))
    data.append((3,"ww"))
    data.append((1,"xw"))
    data.append((1,"aw"))
    data.append((1,"mw"))
    val text = env.fromCollection(data)
    //获取前3条数据，按照数据插入的顺序
     text.first(3).print()
    println("==============================")
    //根据数据中的第一列进行分组，获取每组的前2个元素
     text.groupBy(0).first(2).print()
    println("==============================")
    //根据数据中的第一列分组，再根据第二列进行组内排序[升序]，获取每组的前2个元素
    text.groupBy(0).sortGroup(1,Order.ASCENDING).first(2).print()
    println("==============================")
    //不分组，全局排序获取集合中的前3个元素，
    text.sortPartition(0,Order.ASCENDING).sortPartition(1,Order.DESCENDING).first(3).print()
  }
}

四、数据输出 Data Sinks

1 基于本地集合的 sink

import org.apache.flink.api.scala.ExecutionEnvironment

//基于本地集合的sink
object BatchSinkCollection {
  def main(args: Array[String]): Unit = {
    //1.创建执行环境
    val env: ExecutionEnvironment = ExecutionEnvironment.getExecutionEnvironment
    //2.构建数据集
    import org.apache.flink.api.scala._
    val source: DataSet[(Int, String, Double)] = env.fromElements(
      (19, "zhangsan", 178.8),
      (17, "lisi", 168.8),
      (18, "wangwu", 184.8),
      (21, "zhaoliu", 164.8)
    )
    //3.数据打印
    source.print()
    println(source.collect())
    source.printToErr()
  }
}

2 基于文件的 sink

import org.apache.flink.api.scala.ExecutionEnvironment
import org.apache.flink.core.fs.FileSystem.WriteMode

//基于文件的 sink
object BatchSinkFile {
  def main(args: Array[String]): Unit = {
    //1.创建执行环境
    val env: ExecutionEnvironment = ExecutionEnvironment.getExecutionEnvironment
    //2.构建数据集
    import org.apache.flink.api.scala._
    val source: DataSet[(Int, String, Double)] = env.fromElements(
      (19, "zhangsan", 178.8),
      (17, "lisi", 168.8),
      (18, "wangwu", 184.8),
      (21, "zhaoliu", 164.8)
    )
    //保存到本地文件
//    source.writeAsText("day02/data/output/sinkLocalFile").setParallelism(1)
    //保存到HDFS文件中
    source.writeAsText("hdfs://node01:8020/test/output/sinkHDFSFile0708",WriteMode.OVERWRITE).setParallelism(1)
    env.execute(this.getClass.getSimpleName)
  }
}

五、广播变量

Flink 支持广播变量，就是将数据广播到具体的 taskmanager 上，数据存储在内存中，这样可以减缓大量的 shuffle 操作；比如在数据 join 阶段，不可避免的就是大量的 shuffle 操作，我们可以把其中一个 dataSet 广播出去，一直加载到 taskManager 的内存中，可以直接在内存中拿数据，避免了大量的 shuffle，导致集群性能下降；广播变量创建后，它可以运行在集群中的任何 function 上，而不需要多次传递给集群节点。另外需要记住，不应该修改广播变量，这样才能确保每个节点获取到的值都是一致的。

一句话解释，可以理解为是一个公共的共享变量，我们可以把一个 dataset 数据集广播出去，然后不同的 task 在节点上都能够获取到，这个数据在每个节点上只会存在一份。如果不使用 broadcast，则在每个节点中的每个 task 中都需要拷贝一份 dataset 数据集，比较浪费内存(也就是一个节点中可能会存在多份 dataset 数据)。

因为广播变量是要把 dataset 广播到内存中，所以广播的数据量不能太大，否则会出现OOM 这样的问题。

Broadcast：Broadcast 是通过 withBroadcastSet(dataset，string)来注册的

Access：通过 getRuntimeContext().getBroadcastVariable(String)访问广播变量

可以理解广播就是一个公共的共享变量
将一个数据集广播后，不同的 Task 都可以在节点上获取到
每个节点只存一份
如果不使用广播，每一个 Task 都会拷贝一份数据集，造成内存资源浪费

用法

在需要使用广播的操作后，使用 withBroadcastSet 创建广播

在操作中，使用 getRuntimeContext.getBroadcastVariable [广播数据类型] ( 广播名 )

获取广播变量

import java.util
import org.apache.flink.api.common.functions.RichMapFunction
import org.apache.flink.api.scala._
import org.apache.flink.configuration.Configuration
/**
 * 需求：
 *创建一个 学生数据集，包含以下数据
 *|学生ID | 姓名|
 * |------|------|
 * List((1, "张三"), (2, "李四"), (3, "王五"))
 *再创建一个 成绩数据集，
 *|学生ID | 学科| 成绩|
 * |------|------|-----|
 * List( (1, "语文", 50),(2, "数学", 70), (3, "英文", 86))
 *请通过广播获取到学生姓名，将数据转换为
 * List( ("张三", "语文", 50),("李四", "数学", 70), ("王五", "英文", 86))
 */
object BatchBroadcastDemo {
  def main(args: Array[String]): Unit = {
    /**
     *1. 获取批处理运行环境
     *2. 分别创建两个数据集
     *3. 使用RichMapFunction 对成绩数据集进行map转换
     *4. 在数据集调用map 方法后，调用withBroadcastSet 将学生数据集创建广播
     *5. 实现RichMapFunction
     *将成绩数据(学生ID，学科，成绩) -> (学生姓名，学科，成绩)
     *重写 open 方法中，获取广播数据
     *导入 scala.collection.JavaConverters._ 隐式转换
     *将广播数据使用asScala 转换为Scala集合，再使用toList转换为scala List集合
     *在map 方法中使用广播进行转换
     *6. 打印测试
     */
    //1. 获取批处理运行环境
    val env: ExecutionEnvironment = ExecutionEnvironment.getExecutionEnvironment
    //2. 分别创建两个数据集
    // 创建学生数据集
    val stuDataSet: DataSet[(Int, String)] = env.fromCollection( List((1, "张三"), (2, "李四"), (3, "王五")))
    //创建成绩数据集
    val socreDataSet: DataSet[(Int, String, Int)] = env.fromCollection(List((1, "语文", 50),(2, "数学", 70), (3, "英文", 86)))
    //3. 使用RichMapFunction 对成绩数据集进行map转换
    // 返回值类型(学生名字，学科成名，成绩)
    val result: DataSet[(String, String, Int)] = socreDataSet.map( new RichMapFunction[(Int, String, Int), (String, String, Int)] {
      //定义获取学生数据集的集合
      var studentMap:Map[Int, String] = null
      //初始化的时候被执行一次，在对象的生命周期中只被执行一次
      override def open(parameters: Configuration): Unit = {
        //因为获取到的广播变量中的数据类型是java的集合类型，但是我们的代码是 scala因此需要将java的集合转换成scala的集合
        //我们这里将list转换成了map对象，之所以能够转换是因为list中的元素是对偶 元祖，因此可以转换成kv键值对类型
        //之所以要转换，是因为后面好用，传递一个学生id，可以直接获取到学生的名字
        import scala.collection.JavaConversions._
        val studentList: util.List[(Int, String)] = getRuntimeContext.getBroadcastVariable[(Int, String)]("student")
        studentMap = studentList.toMap
      }
      //要对集合中的每个元素执行map操作，也就是说集合中有多少元素，就被执行多少次
      override def map(value: (Int, String, Int)): (String, String, Int) = {
        //(Int, String, Int)=》（学生id，学科名字，学生成绩）
        //返回值类型(学生名字，学科成名，成绩)
        val stuId = value._1
        val stuName = studentMap.getOrElse(stuId, "")
        //(学生名字，学科成名，成绩)
        (stuName, value._2, value._3)
      }
    }).withBroadcastSet(stuDataSet, "student")
    result.print()
  }
}

六、Flink 的分布式缓存

缓存的使用流程：

使用 ExecutionEnvironment 实例对本地的或者远程的文件（例如：HDFS 上的文件）,为缓

存文件指定一个名字注册该缓存文件！当程序执行时候，Flink 会自动将复制文件或者目

录到所有 worker 节点的本地文件系统中，函数可以根据名字去该节点的本地文件系统中检

索该文件！

广播是将变量分发到各个 worker 节点的内存上，分布式缓存是将文件缓存到各个 worker 节点上；

package batch

import java.io.File

import org.apache.flink.api.common.functions.RichMapFunction
import org.apache.flink.api.scala.{DataSet, ExecutionEnvironment}
import org.apache.flink.configuration.Configuration
import org.apache.flink.api.scala._

import scala.io.Source

/**
 * 需求：
 * 创建一个 成绩 数据集
 * List( (1, "语文", 50),(2, "数学", 70), (3, "英文", 86))
 * 请通过分布式缓存获取到学生姓名，将数据转换为
 * List( ("张三", "语文", 50),("李四", "数学", 70), ("王五", "英文", 86))
 * 注： distribute_cache_student 测试文件保存了学生 ID 以及学生姓名
 */
object BatchDisCachedFile {
  def main(args: Array[String]): Unit = {
    /**
     * 实现步骤：
     * 1) 将 distribute_cache_student 文件上传到 HDFS /test/input/ 目录下
     * 2) 获取批处理运行环境
     * 3) 创建成绩数据集
     * 4) 对成绩 数据集进行 map 转换，将（学生 ID, 学科, 分数）转换为（学生姓名， 学科，分数）
     * a. RichMapFunction 的 open 方法中，获取分布式缓存数据
     * b. 在 map 方法中进行转换
     * 5) 实现 open 方法
     * a. 使用 getRuntimeContext.getDistributedCache.getFile 获取分布式缓存文件
     * b. 使用 Scala.fromFile 读取文件，并获取行
     * c. 将文本转换为元组（学生 ID，学生姓名），再转换为 List
     * 6) 实现 map 方法
     * a. 从分布式缓存中根据学生 ID 过滤出来学生
     * b. 获取学生姓名
     * c. 构建最终结果元组
     * 7) 打印测试
     */
    //获取批处理运行环境
    val env: ExecutionEnvironment = ExecutionEnvironment.getExecutionEnvironment
    //注册一个分布式缓存
    env.registerCachedFile("hdfs://node01:8020/test/input/distribute_cache_student", "student")
    //创建成绩数据集
    val scoreDataSet: DataSet[(Int, String, Int)] = env.fromCollection(List((1, "语文", 50), (2, "数学", 70), (3, "英文", 86)))
    val resultDataSet: DataSet[(String, String, Int)] = scoreDataSet.map(
      new RichMapFunction[(Int, String, Int), (String, String, Int)] {
        var studentMap: Map[Int, String] = null

        //初始化的时候之被调用一次
        override def open(parameters: Configuration): Unit = {
          //获取分布式缓存的文件
          val studentFile: File = getRuntimeContext.getDistributedCache.getFile("student")
          val linesIter: Iterator[String] = Source.fromFile(studentFile).getLines()
          studentMap = linesIter.map(lines => {
            val words: Array[String] = lines.split(",")
            (words(0).toInt, words(1))
          }).toMap
        }

        override def map(value: (Int, String, Int)): (String, String, Int) = {
          val stuName: String = studentMap.getOrElse(value._1, "")
          (stuName, value._2, value._3)
        }
      })
    //输出打印测试
    resultDataSet.print()
  }
}

七、Flink Accumulators & Counters

与 Mapreduce counter 的应用场景差不多，都能很好地观察 task 在运行期间的数据变化可以在 Flink job 任务中的算子函数中操作累加器，但是只能在任务执行结束之后才能获得累加器的最终结果。

Counter 是一个具体的累加器 (Accumulator) 实现 IntCounter, LongCounter 和DoubleCounter

package batch.transformation

import org.apache.flink.api.common.JobExecutionResult
import org.apache.flink.api.common.accumulators.IntCounter
import org.apache.flink.api.common.functions.RichMapFunction
import org.apache.flink.api.java.ExecutionEnvironment
import org.apache.flink.api.java.operators.{DataSource, MapOperator}
import org.apache.flink.configuration.Configuration
import org.apache.flink.core.fs.FileSystem.WriteMode

/**
 * 需求：
 * 给定一个数据源
 * "a","b","c","d"
 * 通过累加器打印出多少个元素
 */
object BatchAccumulator {
  def main(args: Array[String]): Unit = {
    //1.创建执行环境
    val env: ExecutionEnvironment = ExecutionEnvironment.getExecutionEnvironment
    //2.创建数据源
    val sourceDataSet: DataSource[String] = env.fromElements("a", "b", "c", "d")
    //3.对sourceDataSet 进行map操作
    val resultDataSet: MapOperator[String, String] = sourceDataSet.map(new RichMapFunction[String, String] {
      //创建累加器
      val counter: IntCounter = new IntCounter
      //初始化的时候被执行一次
      override def open(parameters: Configuration): Unit = {
        //注册累加器
        getRuntimeContext.addAccumulator("MyAccumulator", this.counter)
      }
      //每条数据都会被执行一次
      override def map(value: String): String = {
        counter.add(1)
        value
      }
    })
    resultDataSet.print()
    resultDataSet.writeAsText("./data/output/Accumulators",WriteMode.OVERWRITE)
    val result: JobExecutionResult = env.execute("BatchAccumulator")
    val MyAccumulatorValue: Int = result.getAccumulatorResult[Int]("MyAccumulator")
    print("累加的值："+MyAccumulatorValue)
  }
}

谢谢你长得这么好看还给我点赞

你可能感兴趣的:(flink)

Flink 通过 Chunjun Oracle LogMiner 实时读取 Oracle 变更日志并写入 Doris 的方案 roman_日积跬步-终至千里 #flink 实战 flink oracle 大数据
文章目录一、技术背景二、关键技术1、OracleLogMiner2、Chunjun的LogMiner关键流程3、修复ChunjunOracleLogMiner问题一、技术背景在大数据实时同步场景中，需要将Oracle数据库的变更数据（CDC）采集并写入ApacheDoris，以支持数据分析、BI报表、实时数据仓库等应用。本方案基于Flink+Chunjun，通过OracleLogMiner解析Re
数据中台（二）数据中台相关技术栈 Yuan_CSDF #数据中台
1.平台搭建1.1.Amabari+HDP1.2.CM+CDH2.相关的技术栈数据存储：HDFS，HBase，Kudu等数据计算：MapReduce,Spark,Flink交互式查询：Impala,Presto在线实时分析：ClickHouse，Kylin，Doris，Druid，Kudu等资源调度：YARN，Mesos，Kubernetes任务调度：Oozie，Azakaban，AirFlow，
Apache Doris整合Iceberg + Flink CDC构建实时湖仓体的联邦查询分析架构 MfvShell apache flink 架构 Flink
随着大数据技术的迅猛发展，构建实时湖仓体并进行联邦查询分析成为了许多企业的迫切需求。在这篇文章中，我们将探讨如何利用ApacheDoris整合Iceberg和FlinkCDC来构建这样一个架构，并提供相应的源代码示例。简介实时湖仓体是一种灵活、可扩展的数据架构，结合了数据湖和数据仓库的优势。ApacheDoris是一款开源的分布式SQL引擎，专注于实时分析和查询。Iceberg是一种开放式表格格式
flink从kafka读取数据写入clickhouse本地表的实现 Breatrice_li kafka flink 分布式大数据
实现功能因为直接写clickhouse的分布式表在数据量比较大的时候会有各种问题，所以做了一个flink读取kafka数据然后路由写入到相应的本地表节点，并且关于不同的表的配置信息可以随时更改并设置生效时间。实现流程首先从kafka将数据读取过来然后进行相应的处理及逻辑判断写入到对应的clickhouse表格中最后根据CDC读取来的配置信息进行相应节点的hash路由，直接写入本地表读取kafka数
demo flink写入kafka_Flink 写入数据到 Kafka ONES Piece demo flink写入kafka
Flink写入数据到Kafka前言通过Flink官网可以看到Flink里面就默认支持了不少sink，比如也支持Kafkasinkconnector(FlinkKafkaProducer)，那么这篇文章我们就来看看如何将数据写入到Kafka。准备Flink里面支持Kafka0.8、0.9、0.10、0.11.这里我们需要安装下Kafka，请对应添加对应的FlinkKafkaconnector依赖的版
Flink读取kafka数据并写入HDFS 王知无(import_bigdata) Flink系统性学习专栏 hdfs kafka flink
硬刚大数据系列文章链接：2021年从零到大数据专家的学习指南(全面升级版)2021年从零到大数据专家面试篇之Hadoop/HDFS/Yarn篇2021年从零到大数据专家面试篇之SparkSQL篇2021年从零到大数据专家面试篇之消息队列篇2021年从零到大数据专家面试篇之Spark篇2021年从零到大数据专家面试篇之Hbase篇
中电金信25/3/18面前笔试（需求分析岗+数据开发岗）苍曦需求分析前端 javascript
部分相同题目在第二次数据开发岗中不做解析，本次解析来源于豆包AI，正确与否有待商榷，本文只提供一个速查与知识点的补充。一、需求分析第1题，单选题,Hadoop的核心组件包括HDFS和以下哪个？MapReduceSparkStormFlink解析：Hadoop的核心组件是HDFS（分布式文件系统）和MapReduce（分布式计算框架）。Spark、Storm、Flink虽然也是大数据处理相关技术，但
Flink实践：通过Flink SQL进行SFTP文件的读写操作 kkk1622245 flink sql 大数据
在大数据处理领域，ApacheFlink出类拔萃，它是一个高性能、易扩展、用于处理有界和无界数据流的分布式处理引擎。FlinkSQL是ApacheFlink提供的一种声明式API，允许开发者以SQL的形式，轻松实现复杂的数据流和批处理分析。本文将重点探讨如何通过FlinkSQL来实现对SFTP文件的读写操作，这是在实际应用中经常遇到的一种场景。Flink与SFTP文件的读写在很多实际应用场景中，数
Flink流式计算系统 xyzkenan Flink 大数据大数据开发
本文将以这些概念为基础，逐一介绍Flink的发展背景、核心概念、时间推理与正确性工具、安装部署、客户端操作、编程API等内容，让开发人员对Flink有较为全面的认识并拥有一些基础操作与编程能力。一、发展背景1.1数据处理架构在流处理器出现之前，数据处理架构主要由批处理器组成，其是对无限数据的有限切分，具有吞吐量大、数据较为准确的特点。然而我们知道，批处理器在时间切分点附近仍然无法保证数据结果的真实
Flink 初体验：从 Hello World 到实时数据流处理小诸葛IT课堂 flink 大数据
在大数据处理领域，ApacheFlink以其卓越的流批一体化处理能力脱颖而出，成为众多企业构建实时数据应用的首选框架。本文将带领你迈出Flink学习的第一步，从基础概念入手，逐步引导你编写并运行第一个Flink程序——经典的WordCount，让你亲身感受Flink在实时数据流处理方面的强大魅力。一、Flink基础概念速览1.1什么是FlinkFlink是一个分布式流批一体化开源平台，旨在对无界和
时间语义与窗口操作：Flink 流式计算的核心逻辑小诸葛IT课堂 flink 大数据
在实时数据流处理中，时间是最为关键的维度之一。Flink通过灵活的时间语义和丰富的窗口类型，为开发者提供了强大的时间窗口分析能力。本文将深入解析Flink的时间语义机制，并通过实战案例演示如何利用窗口操作实现实时数据聚合。一、Flink时间语义详解1.1三种时间概念1.1.1EventTime（事件时间）定义：事件实际发生的时间，由事件本身携带的时间戳决定应用场景：需要准确反映事件真实顺序的场景（
Dinky × Jiron：打造高效智能的数据处理平台 jiron开源平台开发 flink 大数据 hive 数据仓库 kafka etl工程师 clickhouse
Dinky×Jiron：打造高效智能的数据处理平台JironGitHub地址https://github.com/642933588/jiron-cloudhttps://gitee.com/642933588/jiron-cloud将基于ApacheFlink的实时计算平台Dinky成功集成至Jiron数据开发平台，以进一步增强平台的数据处理能力，提升数据处理效率与灵活性，同时优化用户体验并降低
数据分析大数据面试题大杂烩01 爱学习的菜鸟罢了大数据 flink 大数据面试 hive hadoop kafka
互联网:通过埋点实时计算用户浏览频次用优惠券等措施吸引用户,通过历史信息用非智能学习的title方式构造用户画像(抖音,京东)电信,银行统计营收和针对用户的个人画像:处理大量非实时数据政府:健康码,扫码之后确诊,找出与确诊对象有关联的人订单订单表(除商品以外所有信息),商品详情表,通过搜集用户title进行定制化推荐点击流数据通过埋点进行用户点击行为分析FLINK一般用来做实时SPARK一般用来做
Different number of columns sunyaox flink flink异常
org.apache.flink.client.program.ProgramInvocationException:Themainmethodcausedanerror:Columntypesofqueryresultandsinkforregisteredtable‘photoTradeInfoHive.db_audit.ods_photo_trade’donotmatch.Cause:Dif
基于 Flink 的海量日志实时处理系统的实践 zhisheng_blog 大数据实时计算引擎 Flink 实战与性能优化
海量日志实时处理需求分析在11.5节中讲解了Flink如何实时处理异常的日志，在那节中对比分析了几种常用的日志采集工具。我们也知道通常在排查线上异常故障的时候，查询日志总是必不可缺的一部分，但是现在微服务架构下日志都被分散到不同的机器上，日志查询就会比较困难，所以统一的日志收集几乎也是每家公司必不可少的。据笔者调研，不少公司现在是有日志统一的收集，也会去做日志的实时ETL，利用一些主流的技术比如E
Java_实例变量和局部变量及this关键字详解 Matrix70 Java java 开发语言
最近得看看Java,想学一学Flink实时的东西了，当然Scala语法也有这样的规定，简单看一下这两个吧，都比较容易忽视实例变量和局部变量实例变量和局部变量是常见的两种变量类型，区别作用域：实例变量：实例变量属于类的实例，可以在整个类中被访问和使用。每个类的实例（对象）都有一份自己的实例变量副本。局部变量：局部变量只在声明它的方法或代码块中可见，超出该范围就无法访问。生存周期：实例变量：实例变量的
Flink架构组件JobManager和TaskManager m0_37651941 flink 架构大数据
JobManager和TaskManager交互通过Task对象ActorSystem是Akka最重要的一个组件。JobDispatcher负责接收Client提交的JobGraph对象，然后拆分成不同的作业，提交到TaskManager.这个过程会涉及到Job的分发。standlone模式和yarn模式的ResourceManager是不同的实现。TaskManager启动后会主动向JobMan
flink读kafka写入mysql_Flink 1.9 实战：使用 SQL 读取 Kafka 并写入 MySQL 苏远岫
上周六在深圳分享了《FlinkSQL1.9.0技术内幕和最佳实践》，会后许多小伙伴对最后演示环节的Demo代码非常感兴趣，迫不及待地想尝试下，所以写了这篇文章分享下这份代码。希望对于FlinkSQL的初学者能有所帮助。完整分享可以观看Meetup视频回顾：https://developer.aliyun.com/live/1416这份代码主要由两部分组成：1)能用来提交SQL文件的SqlSubmi
Flink 1.17.2 版本用 java 读取 starrocks 小强签名设计 flink java python
文章目录方法一：使用FlinkJDBC连接器（兼容MySQL协议）方法二：使用StarRocksFlinkConnector（推荐）在Flink1.17.2中使用Java读取StarRocks数据，可以通过JDBC连接器或StarRocks官方提供的FlinkConnector实现。以下是两种方法的详细步骤：方法一：使用FlinkJDBC连接器（兼容MySQL协议） StarRocks兼容M
Flink SQL 读取 Kafka 数据到 Mysql 实战小技工丨大数据技术学习 flink sql kafka
Flink1.9.2SQL读取Kafka数据到Mysql实战案例需求通过Flinksql使用DDL的方式，实现读取kafka用户行为数据，对数据进行实时处理，根据时间分组，求PV和UV，然后输出到mysql中。1、kafka中的消息的格式数据以JSON格式编码，格式如下：{"user_id":1101,"item_id":1875,"category_id":456876,"behavior":"
本地docker安装zookeeper,kafka,flink a724952091 flink kafka docker
首先安装zookeeper这里zookeeper的安装是为了去使用kafka这里我们安装的是wurstmeister的kafka和zookeeper镜像也是在hub.docker.com网站上，Star最多的kafka镜像直接在cmd执行run命令（前提是有本地docker。。。）第一次使用因为本地没有此镜像会去下载dockerrun-d--namezookeeper-p2181-twurstme
使用flinkCDC监听 mysql 数据到mysql报错从零开始· mysql apache 数据库 flink flinkcdc
报错：java.lang.NoClassDefFoundError:org/apache/flink/table/api/TableException解决：完整依赖1.12.02.0.0org.apache.flinkflink-java${flink-version}org.apache.flinkflink-streaming-java_2.11${flink-version}org.apac
flink（十一）：Table&Sql实现窗口水印计算羽落风起大数据 flink flink
文章目录分享说明实现讲解代码总结分享大数据博客列表说明本博客每周五更新一次。本文属于实战，讲解Flink1.12版本java代码使用时间窗口加水印实现，具体需求为5秒内用户订单总数、订单最大金额、最小金额实现讲解代码结构分为5部分，准备环境env数据输入source模拟数据生成数据处理transformation创建水印、窗口执行任务基于sql和table风格实现对应功能数据输出sink启动任务e
FlinkCDC3.3 使用 Mysql 8.4 报错 _lizhiqiang mysql 数据库 flink flinkcdc seatunnel
一、报错日志Causedby:io.debezium.DebeziumException:org.apache.flink.util.FlinkRuntimeException:Cannotreadthebinlogfilenameandpositionvia'SHOWMASTERSTATUS'.Makesureyourserveriscorrectlyconfiguredatorg.apache
Flink-DataStreamAPI-生成水印隔着天花板看星星 flink 大数据分布式
下面我们将学习Flink提供的用于处理事件时间戳和水印的API，也会介绍有关事件时间、流转时长和摄取时间，下面就让我们跟着官网来学习吧一、水印策略介绍为了处理事件时间，Flink需要知道事件时间戳，这意味着流中的每个元素都需要分配其事件时间戳。这通常是通过使用TimestampAssigner从元素中的某个字段访问/提取时间戳来完成的。时间戳分配与生成水印密切相关，水印告诉系统事件时间的进度。我们
flink-cdc实时增量同步mysql数据到elasticsearch 大数据技术派 #Flink elasticsearch flink mysql
什么是CDC？CDC是（ChangeDataCapture变更数据获取）的简称。核心思想是，监测并捕获数据库的变动（包括数据或数据表的插入INSERT、更新UPDATE、删除DELETE等），将这些变更按发生的顺序完整记录下来，写入到消息中间件中以供其他服务进行订阅及消费。1.环境准备mysqlelasticsearchflinkonyarn说明：如果没有安装hadoop，那么可以不用yarn，直
flink+kafka实现流数据处理学习上海研博数据 java
在应用系统的建设过程中，通常都会遇到需要实时处理数据的场景，处理实时数据的框架有很多，本文将以一个示例来介绍flink+kafka在流数据处理中的应用。1、概念介绍flink：是一个分布式、高可用、高可靠的大数据处理引擎，提供了一种高效、可靠、可扩展的方式来处理和分析实时数据。kafka：是用于构建实时数据管道和流应用程序并具有横向扩展，容错，wickedfast（变态快）等优点的一种消息中间件。
Flink实时流处理入门与实践随风九天 spring java Flink 实时流
一、引言1.1实时流处理的重要性在当今数据驱动的时代，实时数据处理变得越来越重要。企业需要从不断产生的大量数据中快速提取有价值的信息，以支持决策制定和业务优化。实时流处理技术能够实时处理数据流，提供即时的洞察和响应，从而提高业务效率和竞争力。1.2Flink简介ApacheFlink是一个开源的分布式流处理框架，支持批处理和流处理。Flink提供了高吞吐量、低延迟和精确一次（exactly-onc
kafka + flink +mysql 案例 angen2018 java kafka flink
假设你有两个Kafka主题：user_activities_topic和product_views_topic，并且你希望将user_activities_topic中的数据写入到user_activities表，而将product_views_topic中的数据写入到product_views表。mavenorg.apache.flinkflink-streaming-java_2.121.14
数据湖架构与实时数仓实践：Hudi、Iceberg、Kafka + Flink + Spark 晴天彩虹雨架构 kafka flink 数据仓库
1.引言：数据湖与数据仓库的融合趋势在大数据时代，传统的数据仓库（DataWarehouse,DW）因其强一致性和高效查询能力，一直是企业数据分析的核心。然而，随着数据量和数据类型的爆炸式增长，传统数据仓库的存储成本和数据管理难度逐渐增加。为了解决这些问题，数据湖（DataLake）概念应运而生。数据湖能够存储原始数据，支持半结构化和非结构化数据，提供更灵活的计算框架，但其缺乏事务管理和数据一致性
tomcat基础与部署发布暗黑小菠萝 Tomcat java web
从51cto搬家了，以后会更新在这里方便自己查看。做项目一直用tomcat，都是配置到eclipse中使用，这几天有时间整理一下使用心得，有一些自己配置遇到的细节问题。 Tomcat：一个Servlets和JSP页面的容器，以提供网站服务。一、Tomcat安装安装方式：①运行.exe安装包 &n
网站架构发展的过程 ayaoxinchao 数据库应用服务器网站架构
1.初始阶段网站架构：应用程序、数据库、文件等资源在同一个服务器上 2.应用服务和数据服务分离：应用服务器、数据库服务器、文件服务器 3.使用缓存改善网站性能：为应用服务器提供本地缓存，但受限于应用服务器的内存容量，可以使用专门的缓存服务器，提供分布式缓存服务器架构 4.使用应用服务器集群改善网站的并发处理能力：使用负载均衡调度服务器，将来自客户端浏览器的访问请求分发到应用服务器集群中的任何
[信息与安全]数据库的备份问题 comsci 数据库
如果你们建设的信息系统是采用中心-分支的模式,那么这里有一个问题如果你的数据来自中心数据库,那么中心数据库如果出现故障,你的分支机构的数据如何保证安全呢? 是否应该在这种信息系统结构的基础上进行改造,容许分支机构的信息系统也备份一个中心数据库的文件呢? &n
使用maven tomcat plugin插件debug关联源代码商人shang maven debug 查看源码 tomcat-plugin
*首先需要配置好'''maven-tomcat7-plugin'''，参见[[Maven开发Web项目]]的'''Tomcat'''部分。 *配置好后，在[[Eclipse]]中打开'''Debug Configurations'''界面，在'''Maven Build'''项下新建当前工程的调试。在'''Main'''选项卡中点击'''Browse Workspace...'''选择需要开发的
大访问量高并发 oloz 大访问量高并发
大访问量高并发的网站主要压力还是在于数据库的操作上，尽量避免频繁的请求数据库。下面简要列出几点解决方案： 01、优化你的代码和查询语句，合理使用索引 02、使用缓存技术例如memcache、ecache将不经常变化的数据放入缓存之中 03、采用服务器集群、负载均衡分担大访问量高并发压力 04、数据读写分离 05、合理选用框架，合理架构(推荐分布式架构)。
cache 服务器小猪猪08 cache
Cache 即高速缓存.那么cache是怎么样提高系统性能与运行速度呢？是不是在任何情况下用cache都能提高性能？是不是cache用的越多就越好呢？我在近期开发的项目中有所体会，写下来当作总结也希望能跟大家一起探讨探讨，有错误的地方希望大家批评指正。　　1.Cache 是怎么样工作的? 　　Cache 是分配在服务器上
mysql存储过程香水浓 mysql
Description:插入大量测试数据 use xmpl; drop procedure if exists mockup_test_data_sp; create procedure mockup_test_data_sp( in number_of_records int ) begin declare cnt int; declare name varch
CSS的class、id、css文件名的常用命名规则 agevs JavaScript UI 框架 Ajax css
CSS的class、id、css文件名的常用命名规则 (一)常用的CSS命名规则　　头：header 　　内容：content/container 　　尾：footer 　　导航：nav 　　侧栏：sidebar 　　栏目：column 　　页面外围控制整体布局宽度：wrapper 　　左右中：left right
全局数据源 AILIKES java tomcat mysql jdbc JNDI
实验目的：为了研究两个项目同时访问一个全局数据源的时候是创建了一个数据源对象，还是创建了两个数据源对象。 1：将diuid和mysql驱动包（druid-1.0.2.jar和mysql-connector-java-5.1.15.jar）copy至%TOMCAT_HOME%/lib下；2：配置数据源，将JNDI在%TOMCAT_HOME%/conf/context.xml中配置好,格式如下：&l
MYSQL的随机查询的实现方法 baalwolf mysql
MYSQL的随机抽取实现方法。举个例子，要从tablename表中随机提取一条记录，大家一般的写法就是：SELECT * FROM tablename ORDER BY RAND() LIMIT 1。但是，后来我查了一下MYSQL的官方手册，里面针对RAND()的提示大概意思就是，在ORDER BY从句里面不能使用RAND()函数，因为这样会导致数据列被多次扫描。但是在MYSQL 3.23版本中，
JAVA的getBytes()方法 bijian1013 java eclipse unix OS
在Java中，String的getBytes()方法是得到一个操作系统默认的编码格式的字节数组。这个表示在不同OS下，返回的东西不一样！ String.getBytes(String decode)方法会根据指定的decode编码返回某字符串在该编码下的byte数组表示，如： byte[] b_gbk = "
AngularJS中操作Cookies bijian1013 JavaScript AngularJS Cookies
如果你的应用足够大、足够复杂，那么你很快就会遇到这样一咱种情况：你需要在客户端存储一些状态信息，这些状态信息是跨session(会话)的。你可能还记得利用document.cookie接口直接操作纯文本cookie的痛苦经历。幸运的是，这种方式已经一去不复返了，在所有现代浏览器中几乎
[Maven学习笔记五]Maven聚合和继承特性 bit1129 maven
Maven聚合在实际的项目中，一个项目通常会划分为多个模块，为了说明问题，以用户登陆这个小web应用为例。通常一个web应用分为三个模块： 1. 模型和数据持久化层user-core, 2. 业务逻辑层user-service以 3. web展现层user-web， user-service依赖于user-core user-web依赖于user-core和use
【JVM七】JVM知识点总结 bit1129 jvm
1. JVM运行模式 1.1 JVM运行时分为-server和-client两种模式，在32位机器上只有client模式的JVM。通常，64位的JVM默认都是使用server模式，因为server模式的JVM虽然启动慢点，但是，在运行过程，JVM会尽可能的进行优化 1.2 JVM分为三种字节码解释执行方式：mixed mode, interpret mode以及compiler
linux下查看nginx、apache、mysql、php的编译参数 ronin47
在linux平台下的应用，最流行的莫过于nginx、apache、mysql、php几个。而这几个常用的应用，在手工编译完以后，在其他一些情况下（如：新增模块），往往想要查看当初都使用了那些参数进行的编译。这时候就可以利用以下方法查看。 1、nginx [root@361way ~]# /App/nginx/sbin/nginx -V nginx: nginx version: nginx/
unity中运用Resources.Load的方法？ brotherlamp unity视频 unity资料 unity自学 unity unity教程
问：unity中运用Resources.Load的方法？答：Resources.Load是unity本地动态加载资本所用的方法,也即是你想动态加载的时分才用到它,比方枪弹,特效,某些实时替换的图像什么的,主张此文件夹不要放太多东西,在打包的时分,它会独自把里边的一切东西都会集打包到一同,不论里边有没有你用的东西,所以大多数资本应该是自个建文件放置 1、unity实时替换的物体即是依据环境条件
线段树-入门 bylijinnan java 算法线段树
/** * 线段树入门 * 问题：已知线段[2,5] [4,6] [0,7]；求点2,4,7分别出现了多少次 * 以下代码建立的线段树用链表来保存，且树的叶子结点类似[i,i] * * 参考链接：http://hi.baidu.com/semluhiigubbqvq/item/be736a33a8864789f4e4ad18 * @author lijinna
全选与反选 chicony 全选
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <html> <head> <title>全选与反选</title>
vim一些简单记录 chenchao051 vim
mac在/usr/share/vim/vimrc linux在/etc/vimrc 1、问：后退键不能删除数据，不能往后退怎么办？答：在vimrc中加入set backspace=2 2、问：如何控制tab键的缩进？答：在vimrc中加入set tabstop=4 (任何
Sublime Text 快捷键 daizj 快捷键 sublime
[size=large][/size]Sublime Text快捷键：Ctrl+Shift+P：打开命令面板Ctrl+P：搜索项目中的文件Ctrl+G：跳转到第几行Ctrl+W：关闭当前打开文件Ctrl+Shift+W：关闭所有打开文件Ctrl+Shift+V：粘贴并格式化Ctrl+D：选择单词，重复可增加选择下一个相同的单词Ctrl+L：选择行，重复可依次增加选择下一行Ctrl+Shift+L：
php 引用(&)详解 dcj3sjt126com PHP
在PHP 中引用的意思是：不同的名字访问同一个变量内容. 与Ｃ语言中的指针是有差别的．Ｃ语言中的指针里面存储的是变量的内容在内存中存放的地址变量的引用 PHP 的引用允许你用两个变量来指向同一个内容复制代码代码如下: <? $a="ABC"; $b =&$a; echo
SVN中trunk,branches,tags用法详解 dcj3sjt126com SVN
Subversion有一个很标准的目录结构，是这样的。比如项目是proj，svn地址为svn://proj/，那么标准的svn布局是svn://proj/|+-trunk+-branches+-tags这是一个标准的布局，trunk为主开发目录，branches为分支开发目录，tags为tag存档目录（不允许修改）。但是具体这几个目录应该如何使用，svn并没有明确的规范，更多的还是用户自己的习惯。
对软件设计的思考 e200702084 设计模式数据结构算法 ssh 活动
软件设计的宏观与微观软件开发是一种高智商的开发活动。一个优秀的软件设计人员不仅要从宏观上把握软件之间的开发，也要从微观上把握软件之间的开发。宏观上，可以应用面向对象设计，采用流行的SSH架构，采用web层，业务逻辑层，持久层分层架构。采用设计模式提供系统的健壮性和可维护性。微观上，对于一个类，甚至方法的调用，从计算机的角度模拟程序的运行情况。了解内存分配，参数传
同步、异步、阻塞、非阻塞 geeksun 非阻塞
同步、异步、阻塞、非阻塞这几个概念有时有点混淆，在此文试图解释一下。同步：发出方法调用后，当没有返回结果，当前线程会一直在等待（阻塞）状态。场景：打电话，营业厅窗口办业务、B/S架构的http请求-响应模式。异步：方法调用后不立即返回结果，调用结果通过状态、通知或回调通知方法调用者或接收者。异步方法调用后，当前线程不会阻塞，会继续执行其他任务。实现：
Reverse SSH Tunnel 反向打洞實錄 hongtoushizi ssh
實際的操作步驟： # 首先，在客戶那理的機器下指令連回我們自己的 Server，並設定自己 Server 上的 12345 port 會對應到幾器上的 SSH port ssh -NfR 12345:localhost:22 [email protected] # 然後在 myhost 的機器上連自己的 12345 port，就可以連回在客戶那的機器 ssh localhost -p 1
Hibernate中的缓存 Josh_Persistence 一级缓存 Hiberante缓存查询缓存二级缓存
Hibernate中的缓存一、Hiberante中常见的三大缓存：一级缓存，二级缓存和查询缓存。 Hibernate中提供了两级Cache，第一级别的缓存是Session级别的缓存，它是属于事务范围的缓存。这一级别的缓存是由hibernate管理的，一般情况下无需进行干预；第二级别的缓存是SessionFactory级别的缓存，它是属于进程范围或群集范围的缓存。这一级别的缓存
对象关系行为模式之延迟加载 home198979 PHP 架构延迟加载
形象化设计模式实战 HELLO!架构一、概念 Lazy Load：一个对象，它虽然不包含所需要的所有数据，但是知道怎么获取这些数据。延迟加载貌似很简单，就是在数据需要时再从数据库获取，减少数据库的消耗。但这其中还是有不少技巧的。二、实现延迟加载实现Lazy Load主要有四种方法：延迟初始化、虚
xml 验证 pengfeicao521 xml xml解析
有些字符，xml不能识别，用jdom或者dom4j解析的时候就报错 public static void testPattern() { // 含有非法字符的串 String str = "Jamey친Ñ&#1282
div设置半透明效果 spjich css 半透明
为div设置如下样式： div{filter:alpha(Opacity=80);-moz-opacity:0.5;opacity: 0.5;} 说明： 1、filter：对win IE设置半透明滤镜效果，filter:alpha(Opacity=80)代表该对象80%半透明，火狐浏览器不认2、-moz-opaci
你真的了解单例模式么？ w574240966 java 单例设计模式 jvm
单例模式，很多初学者认为单例模式很简单，并且认为自己已经掌握了这种设计模式。但事实上，你真的了解单例模式了么。一，单例模式的5中写法。（回字的四种写法，哈哈。） 1，懒汉式（1）线程不安全的懒汉式 public cla