黄连福

3.DataSet API

DataSet API

文章目录

DataSet API
- 一.DataSet API介绍
- 二.DataSet API
- - 1.DataSources数据接入
  - - 1）文件类数据
    - 2）集合类数据
    - 3）通用数据接口
    - 4）第三方文件系统
  - 2.DataSet 转换操作
  - - 1）数据处理
    - 2）聚合操作
    - 3）多表关联
    - 4）集合操作
    - 5）排序操作
  - 3.DataSinks数据输出
  - - 1）基于文件输出接口
    - 2）通用输出接口
- 三.迭代计算
- - 1.全量迭代
  - 2.增量迭代
- 四.广播变量与分布式缓存
- - 1.广播变量
  - 2.分布式缓存
- 五.语义注解
- - 1.Forwarded Fields注解
  - - 1）函数注解方式
    - 2）算子参数方式
  - 2.Non-Forwarded Fields
  - 3.Read Fields注解

一.DataSet API介绍

DataSet API用来处理批量数据。Flink将接入数据转换成DataSet数据集，并行分布在集群中的每个节点上，基于DataSet数据集完成各种转换操作（map、filter等），并通过DataSink操作将结果输出到外部系统中。

开发环境配置

在使用Flink DataSet API进行批量应用程序开发之前，需要在工程中引入Flink批量计算相关依赖库，可以在项目工程中的pom.xml文件中添加flink-java对应的Dependency配置，引入DataSet API所需要的依赖库，用户可以根据需要选择Java版本或者Scala版本，也可以将两个依赖库同时引入工程。
```
//基于java版本的批量计算依赖库
<dependency>
	<groupId>org.apache.flinkgroupId>
    <artifactId>flink-javaartifactId>
    <version>1.7.0version>
dependency>

//引入Scala版本的批量计算依赖库
<dependency>
	<groupId>org.apache.flinkgroupId>
	<artifactId>flink-scala_2.11artifactId>
    <version>1.7.0version>
dependency>
```

Flink DataSet API wordcount 实例

import org.apache.flink.api.scala._

//批处理的WordCount
object WordCount {
  def main(args:Array[String]): Unit={
    //创建一个批处理的执行环境
    val env:ExecutionEnvironment = ExecutionEnvironment.getExecutionEnvironment

    //定义转换操作
    //1.从文件中读取数据
    val inputPath:String = "D:\\software\\IDEA\\work_space\\src\\main\\resources\\hello.txt"
    val inputDataSet:DataSet[String] = env.readTextFile(inputPath)//scala具有自动类型推断,类型可写可不写

    //2.对数据进行转换处理统计，先分词，再按照word进行分组，最后进行聚合统计
    val resultDataSet:DataSet[(String,Int)] = inputDataSet.
      flatMap(_.split(" "))
      .map((_,1))//第一个元素为word，第二个为1
      .groupBy(0)
      .sum(1) //按照第一个元素作为Key进行分组，针对第二个元素进行求和统计

    //打印输出
    resultDataSet.print()
  }
}
//如果使用Scala语言编写DataSet API程序，需要引入相应隐式的方法

DataSet API需要创建ExecutionEnvironment环境，然后使用ExecutionEnvironment提供的方法读取外部数据，将外部数据转换成DataSet数据集，最后在创建好的数据集上应用DataSet API提供的Transformation操作，对数据进行转换，处理成最终的结果，并对结果进行输出。

二.DataSet API

1.DataSources数据接入

DataSet API数据接入接口共有三种类型：文件系统类型、Java Collection类型，以及通用类数据源。同时在DataSetAPI中可以自定义实现InputFormat/RichInputFormat接口，以接入不同数据格式类型的数据源，常见的数据格式有CsvInputFormat、TextInputFormat、SequenceFileInputFormat等。

1）文件类数据

readTextFile(path)/TextInputFormat

//读取本地文件
val textFiles:DataSet[String] = env.readTextFile("file:///path/textfile")
//读取HDFS文件
val hdfsFiles = env.readTextFile("hdfs://nnHost:nnPort/path/textfile")

readTextFileWithValue(path)/TextValueInputFormat

读取文本文件内容，将文件内容转换成DataSet[StringValue]类型数据集。StringValue是一种可变的String类型，通过StringValue存储文本数据可以有效降低String对象创建数量，从而降低系统性能上的开销。
```
//读取本地文件，指定读取字符格式类型为UTF-8
val ds = env.readTextFileWithValue("file:///path/textfile","UTF-8")
```

readCsvFile(path)/CsvInputFormat

//读取指定分隔符切割的CSV文件，且可以直接转换成Tuple类型、Case Class对象或者POJOs类。在方法中可以指定行切割符、列切割、字段等信息
val csvInput = env.readCsvFile[(String,Double)](
	"hdfs://nnHost:nnPort/path/to/csvfile",
	 includedFields = Array(0,3))

readSequenceFile(Key_Class,Value_Class,path)/SequenceFileInputFormat

//读取SequenceFileInputFormat类型的文件，在参数中指定Key Class和Value Class类型，放回结果为Tuple2[Key,Value]类型。
val tuples = env.readSequenceFile(classof[IntWritable],classof[Text],"hdfs://nnHost:bbPort/path/to/file")

2）集合类数据

fromCollection(Seq)

从给定集合中创建DataSet数据集，集合类型可以是数组、List等，也可以从非空Iterable中创建，需要指定数据集的Class类型。

//从Seq中创建DataSet数据集
val dataSet:DataSet[String] = env.fromCollection(Seq("flink","hadoop","spark"))
//从Iterable中创建DataSet数据集
val dataSet:DataSet[String] = env.fromCollection(Iterable("flink","hadoop","spark"))

fromElements(elements:_*)

//从给定数据元素序列中创建DataSet数据集，且所有的数据对象类型必须一致
val dataSet:DataSet[String] = env.fromElements("flink","spark","hadoop")

generateSequence(from,to)

//指定from到to范围区间，然后在区间内部生成数字序列数据集
val numbers:DataSet[Long] = env.generateSequence(1,10000000)

3）通用数据接口

DataSet API中提供了Inputformat通用的数据接口，以接入不同数据源和格式类型的数据。InputFormat接口主要分为两种类型：一种是基于文件类型，在DataSet API对应readFile()方法；另外一种是基于通用数据类型的接口，例如读取RDBMS或NoSQL数据库等，在DataSet API中对应 creatInput() 方法。

readFile(inputFormat,path)/FileInputFormat

//自定义文件类型输入源，将指定格式文件读取并转换成DataSet数据集。
env.readFile(new PointInFormat(),"file:///path/file")

createInput(inputFormat)/InputFormat

自定义通用型数据源，将读取的数据转换为DataSet数据集。如以下实例使用Flink内置的JDBCInputFormat，创建读取mysql数据源的JDBCInputFormat，完成从mysql中读取Person表，并转换成DataSet[Row]数据集

//通过创建JDBCInputFormat读取JDBC数据源
val jdbcDataSet:DataSet[Row] = 
env.createInput(
	JDBCInputFormat.buildJDBCInputFormat()
    .setDrivername("com.mysql.jdbc.Driver")
    .setDBUr1("jdbc:mysql://localhost:3306/test")
    .setQuery("select id,name from person")
    .setRowTypeInfo(new RowTypeInfo(BasicTypeInfo.LONG_TYPE_INFO,BsaicTypeInfo.STRING_TYPE_INFO))
    .finish()
)

4）第三方文件系统

为简化用户和其他第三方文件系统之间的交互，Flink针对常见类型数据源提出通用的FileSystem抽象类，每种数据源分别继承和实现FileSystem抽象类，将数据从各个系统中读取到Flink中。DataSet API中内置了HDFS数据源、Amazon S3、MapR file system，Alluxio等文件系统的连接器。可以参考官方文档说明进行使用。

2.DataSet 转换操作

转换操作的实质是将DataSet转换成另外一个新的DataSet，然后将各个DataSet的转换连接成有向无环图，并基于Dag完成对批量数据的处理。

1）数据处理

Map

完成对数据集Map端的转换，并行将每一条数据转换成一条新的数据，数据分区不发生变化。

val dataSet:DataSet[String] = env.fromElements("flink","hadoop","spark")
val transformDS:DataSet[String] = dataSet.map(x => x.toUpperCase)

FlatMap

将接入的每一条数据转换成0条、1条或者多条输出。例如以下实例将文件中的每一行文本切割成单词集合。
```
val dataSet:DataSet[String] = env.fromElements("flink,hadoop,spark")
val words = dataSet.flatMap{_.split(",")}
```
MapPartition

功能和Map函数类似，只是MapPartiion操作时在DataSet中基于分区对数据进行处理，函数调用中会按照分区将数据通过Iterator的形式传入，并返回任意数量的结果值。
```
val dataSet:DataSet[String] = env.fromElements("flink","hadoop","spark")
dataSet.MapPartition{in => in.map{(_,1)}}
```
Filter

根据条件对传入数据进行过滤，当条件为True后，数据元素才会传输到下游的DataSet数据集中。
```
val dataSet:DataSet[Long] = env.fromElements(222,12,34,323)
val resultDs = dataSet.filter(x => x>100)
```

2）聚合操作

Reduce

通过两两合并，将数据集中的多个元素合并成一个元素，可以在整个数据集上使用，也可以和Group Data Set结合使用。
```
val dataSet: DataSet[Long] = env.fromElements(222,12,34,323)
val result = dataSet.reduce((x,y) => x+y)
```
ReduceGroup

将一组元素合并成一个或者多个元素，可以在整个数据集上使用，也可以和Group Data Set结合使用。
```
val dataSet:DataSet[Long] = env.fromElements(22,1,321,231)
dataSet.reduceGroup{collector => collector.sum}
```

Aggregate

通过Aggregate Function将一组元素值合并成单个值，可以在整个DataSet数据集上使用，也可以和Group Data Set结合使用。如下代码是，在DataSet数据集中根据第一字段求和，根据第三个字段求最小值。

val dataSet:DataSet[(Int,String,Long)] = env.fromElements((12,"Alice",34),(12,"Alice",34),(12,"Alice",34))
val result:DataSet[(Int,String,Long)] = dataSet.aggregate(Aggregations.SUM,0).aggregate(Agregations.Min,2)
//也可以使用Aggregation函数的缩写方法，sum()、min()、max()等
val result2:DataSet[(Int,String,Long)] = dataSet.sum(0).min(2)

Distinct

求取DataSet数据集中的不同记录，去除所有重复的记录。

val dataSet:DataSet[Long] = env.fromElements(22,123,532,51)
val distinct:DataSet[Long] = dataSet.distinct

3）多表关联

Join

根据指定的条件关联两个数据集，然后根据选择的字段形成一个数据集。关联的key可以通过key表达式、Key-selector函数、字段位置以及Case Class字段指定。

对于两个Tuple类型的数据集可以通过字段位置进行关联，左边数据集的字段通过where方式指定，右边数据集字段通过equalTo()方式指定。

val dataSet1:DataSet[(Int,String)] = ……
val dataSet2:DataSet[(Double,Int)] = ……
val result = dataSet1.join(dataSet2).where(0).equalTo(1)

对于Case Class类型的数据集可以直接使用字段名称作为关联Key。

val dataSet1:DataSet[Person] = env.fromElements(Person(1,"Peter"),Person(2,"Alice"))
val dataSet2:DataSet[(Double,Int)] = env.fromElements((12.3,1),(23.3,3))
val result = dataSet1.join(dataSet2).where("id").equalTo(1)

可以在关联的过程中指定自定义Join Function，Function的入参为左边数据集中的数据元素和右边数据集中的数据元素所组成的元组，并返回一个经过计算处理后的数据，其中Left和right的Key相同。

val result = dataSet1.join(dataSet2).where("id").equalTo(1){
    (left,right) => (left.id,left.name,right_1+1)
}

Join Function中同时提供了FlatJoin Function用来关联两个数据集，FlatJoin函数返回可以是一个或者多个元素，也可以不返回任何结果。

	val result = dataSet1.join(dataSet2).where("id").equalTo(1){
        (left,right),collecotr: Collector[(String,Double)] =>
        collector.collect(left.name,right._1+1)
        collector.collect("prefix_"+ left.name , right._1+2)
    }

为了能够更好地引导Flink底层去正确地处理数据集，可以在DataSet数据集关联中，通过Size Hint标记数据集的大小，Flink可以根据用户给定的线索调整计算策略，例如可以使用joinWithTiny或joinWithHuge提示第二个数据集的大小。

val dataSet1:DataSet[Person] = env.fromElements(Person(1,"Peter"),Person(2,"Alice"))
val dataSet2:DataSet[(Double,Int)] = env.fromElements((12.3,1),(22.3,3))
//提示Flink第二个数据集是小数据集
val　result = dataSet1.joinWithTiny(dataSet2).where("id").equalTo(1)
//提示Flink第二个数据集是大数据集
val result = dataSet1.joinWithHuge(dataSet2).where("id").equalTo(1)

除了能够使用joinWithTiny或joinWithHuge方法来提示关联数据集的大小之外，Flink还提供了Join算法提示，可以让Flink更加灵活且高效地执行Join操作。

//将第一个数据集广播出去，并转换成HashTable存储，该策略适用于第一个数据集非常小的情况
ds1.join(ds2,JoinHint.BROADCAST_HASH_FIRST).where("id").equalTo(1)
//将第二个数据集广播出去，并转换成HashTable存储，该策略适用于第二个数据集非常小的情况
ds1.join(ds2,JoinHint.BROADCAST_HASH_SECOND)。where("id").equalTo(1)
//和不设定Hint相同，将优化的工作交给系统处理
ds1.join(ds2,joinHint.OPTIMIZER_CHOOSES).where("id").equalTo(1)
//将两个数据集重新分区，并将第一个数据集转换成HashTable存储，该策略适用于第一个数据集比第二个数据集小，但两个数据集相对比较大的情况
ds1.join(ds2,JoinHint.REPARTITION_HASH_FIRST).where("id").equalTo(1)
//将两个数据集重新分区，并将第二个数据集转换成HashTable存储，该策略适用于第二个数据集比第一个数据集小，但两个数据集相对都比较大的情况
ds1.join(ds2,JoinHint.REPARTITION_HASH_SECOND).where("id").equalTo(1)
//将两个数据重新分区，并将每个分区排序，该策略适用于两个数据集已经排好顺序的情况
ds1.join(ds2,JoinHint.REPARTITION_SORT_MERGE).where("id").equalTo(1)

OuterJoin

OuterJoin对两个数据集进行外关联，包含left，right，full outer join三种关联方式，分别对应DataSet API中的leftOuterJoin、rightOuterJoin以及fullOuterJoin方法。

//左外关联两个数据集，按照相同的key进行关联，如果右边数据集中没有数据则会填充空值
dataSet1.leftOuterJoin(dataSet2).where("id").equalTo(1)
//右外关联两个数据集，按照相同的key进行关联，如果左边数据集中没有数据则会填充空值
dataSet1.rightOuterJoin(dataSet2).where("id").equalTo(1)

和JoinFunction一样，OuterJoin也可以指定用户自定义的JoinFunction。

dataSet1.leftOuterJoin(dataSet2).where("id").equalTo(1){
	(left,right) =>
	if(right == null){(left.id,1)}
	else {(left.id,right._1)}
}

对于大数据集，Flink也在OuterJoin操作中提供相应的关联算法提示，可以针对左右数据集的分布情况选择合适的优化策略，以提升整体作业的处理效率。

//将第二个数据集广播出去，并转换成HashTable存储，该策略适用于第一个数据集非常小的情况
ds1.leftOuterJoin(ds2,JoinHint.BROADCAST_HASH_SECOND).where("id").equalTo(1)
//将两个数据集重新分区，并将第二个数据集转换成HashTable存储，该策略适用于第一个数据集比第二个数据集小，但两个数据集都相对比较大的情况
ds1.leftOuterJoin(ds2.JoinHint.REPARTITION_HASH_SECOND).where("id").equalTo(1)

和Join操作不同，OuterJoin的操作只能适用于部分关联算法提示。其中leftOuterJoin仅支持OPTIMIZER_CHOOSES、BROADCAST_HASH_SECOND、REPARTITION_HASH_SECOND以及REPARTITION_SORT_MERGE四种策略。rightOuterJoin仅支持OPTIMIZER_CHOOSES、BROADCAST_HASH_FIRST、REPARTITION_HASH_FIRST以及REPARTITION_SORT_MERGE四种策略。fullOuterJoin仅支持OPTIMIZER_CHOOSES、REPARTITION_SORT_MERGE两种策略。

Cogroup

将两个数据集根据相同的Key记录组合在一起，相同Key的记录会存放在一个Group中，如果指定key仅在一个数据集中有记录，则co-group Function会将这个Group与空的Group关联
```
val dataSet = dataSet1.coGroup(dataSet2).where("id").equalTo(1)
```
cross

将两个数据集合并成一个数据集，返回被连接的两个数据集所有数据行的笛卡尔积，返回的数据行数等于第一个数据集中符合查询条件的数据行数乘以第二个数据集中符合查询条件的数据行数。Cross操作可以通过应用Cross Function将关联的数据集合合并成目标格式的数据集，如果不指定Cross Function则返回Tuple2类型的数据集。
```
val dataSet1:DataSet[(Int,String)] = env.fromElements((12),"flink"),(22,"spark"))
val dataSet2:DataSet[String] = env.fromElements("flink")
//不指定Cross Function，则返回Tuple[T,V],其中T为左边数据集数据类型，V为右边数据集
val crossDataSet:DataSet[((Int,String),String)] = dataSet1.cross(dataSet2)
```

4）集合操作

union

合并两个DataSet数据集，两个数据集的数据元素格式必须相同，多个数据集可以连续合并。

val dataSet1:DataSet[(Long,Int)] = ...
val dataSet2:DataSet[(Long,Int)] = ...
//合并两个数据集
val unioned = dataSet1.union(dataSet2)

Rebalance

对数据集中的数据进行平均分布，使得每个分区上的数据量相同。

val dataSet:DataSet[String] = env.fromElements("flink","spark")
//将DataSet数据集进行重平衡，然后执行map操作
val result = dataSet.rebalance().map{_.toUpperCase}

Hash-Partition

根据给定的Key进行Hash分区，key相同的数据会被放入同一个分区内。

val dataSet:DataSet[(String,Int)] = ...
//根据第一个字段进行数据重分区，然后再执行MapPartition操作处理每个分区的数据
val result = dataSet.partitionByHash(0).mapPartition{...}

Range-Partition

根据给定的Key进行Range分区，key相同的数据会被放入同一个分区内。

val dataSet:DataSet[(String,Int)] = ...
//根据第一个字段进行数据重分区，然后再执行MapPartition操作处理每个分区的数据
val result = dataSet.partitionByRange(0).mapPartition{....}

Sort Partition

在本地对DataSet数据集中的所有分区根据指定字段进行重排序，排序方式通过Order.ASCENDING以及Order.DESCENDING关键字指定。

val dataSet:DataSet[(String,Int)] = ...
//本地对根据第二个字段对分区数据进行逆序排序,
val result = dataSet.sortPartition(1,Order.DESCENDING)
			//根据第一个字段对分区进行升序排序
			.sortPartition(0,order.ASCENDING)
			//然后在排序的分区上执行MapPartition转换操作
			.mapPartition{...}

5）排序操作

First-n

返回数据集的n条随机结果，可以应用于常规类型数据集、Grouped类型数据集以及排序数据集上。

val dataSet:DataSet[(Int,String)] = ...
//普通数据集上返回五条记录
val result1 = dataSet.first(5)
//聚合数据集上返回五条记录
val result2 = dataSet.groupBy(0).first(5)
//Group排序数据集上返回五条记录
val result3 = dataSet.groupBy(0).sortGroup(1,Order.ASCENDING).first(5)

Minby/Maxby

从数据集中返回指定字段或组合对应最小或最大的记录，如果选择的字段具有多个相同值，则在集合中随机选择一条记录返回。

val dataSet:DataSet[(Int,Double,String)] = ...
//返回数据集中第一个字段和第三个字段最小的记录，并产生新的数据集 
val result1:DataSet[(Int,Double,String)] = dataSet.minBy(0,2)
//根据第一个字段对数据集进行聚合，并返回每个Group内第二个字段最小对应的记录
val result2:DataSet[(Int,Double,String)] = dataSet.groupBy(1).minBy(1)

3.DataSinks数据输出

通过对批量数据的读取以及转换之后得到结果数据集，还需要将其写入不同的外部介质进行存储，从而完成整个批处理过程。Flink中对应数据输出功能被称为DataSinks操作，和DataSource Operator操作类似。Flink批量数据输出全部实现于OutputFormat接口，例如文本文件（TextOutputFormat）、CSV文件格式（CSVOutputFormat）。Flink内置了常用数据存储介质对应的OutputFormat，如HadoopOutputFormat、JDBCOutputFormat等。用户也可以自定实现OutputFormat接口，对接其他第三方接口。

Flink在DataSet API中的数据输出共分为三种类型。

第一种是基于文件实现，对应DataSet的write()方法，实现将DataSet数据输出到文件系统中。

第二种是基于通用存储介质实现，对应DataSet的output()方法，例如使用JDBCOutputFormat将数据输出到关系型数据库中。

第三种是客户端输出，直接将DataSet数据从不同的节点收集到Client，并在客户端中输出，例如DataSet的print()方法。

1）基于文件输出接口

在DataSet API中，基于文件的输出接口直接在DataSet中完成封装和定义，例如目前支持的writeAsText直接将DataSet数据输出到指定文件中。在使用write相关方法输出文件的过程中，用户也可以指定写入文件的模式，分为OVERWRITE模式和NOT_OVERWRITE模式，前者代表将对文件内容进行覆盖写入，后者代表输出的数据将追加到文件尾端。

writeAsText/TextOutputFormat

将DataSet数据以TextOutputFormat文本格式写入文件系统，其中文件系统可以是本地文件系统，也可以是HDFS文件系统，根据用户指定的路径的前缀进行识别，例如< file >前缀表示本地文件系统，< hdfs >前缀表示HDFS分布式文件系统。TextOutputFormat是FileOutputFormat的子类，而FileOutputFormat则是OutputFormat的实现类。
```
//DataSet文本格式文件输出实例
val dataSet:DataSet[(String,Int,Double)] = ...
//将DataSet数据输出到本地文件系统
dataSet.writeAsText("file:///my/result/on/localFPS")
//将DataSet数据输出到HDFS文件系统
dataSet.writeAsText("hdfs://nnHost:nnPort/my/result/on/localFPS")
```
writeAsCsv(…)/CSVOutputFormat

该方法将数据集以CSV文件格式输出到指定的文件系统中，并且可以在输出方法中指定行切割符、列切割符等基本CSV文件配置。
```
val dataSet:DataSet[(String,Int,Double)] = ...
//将DataSet数据输出到CSV文件，指定行切割夫为\n，列切割符为，
dataSet.writeAsCsv("file://path/file","\n",",")
```

2）通用输出接口

在DataSet API中，除了已经定义在DataSet中的输出方式，也可以使用自定义OutputFormat方法来定义介质对应的OutputFormat，例如JDBCOutputFormat、HadoopOutputFormat等。

//读取数据集并转换为（word，count）类型数据
val dataSet:DataSet[(String,Long)] = ...
//将数据集的格式转换成[Text，LongWritable]类型
val words = dataSet.map( t  =>  (new Text(t._1),new LongWritable(t._2)) )
//定义HadoopOutputFormat
val hadoopOutputFormat = new HadoopOutputFormat[Text,LongWritable](
						new TextOutputFormat[Text,LongWritable],
						new JobConf)
//指定输出路径
FileOutputFormat.setOutputPath(hadoopOutputFormat.getJobconf, new Path(resultPath))
//调用Output方法将数据写入Hadoop文件系统
words.output(hadoopOutputFormat)

三.迭代计算

目前Flink中的迭代计算种类有两种模式，分别是Bulk Iteration（全量迭代计算）和Delt Iteration（增量迭代计算）。

1.全量迭代

全量迭代如图所示，在数据接入迭代算子过程中，Step Function每次都会处理全量的数据，然后计算下一次迭代的输入（Next Partial Solution），最后根据触发条件输出迭代计算的结果。Flink中迭代的数据和其他计算框架比，并不是通过在迭代计算过程中不断生成新的数据集完成，而是基于同一份数据集上完成迭代计算操作，因此不需要对数据集进行大量拷贝复制操作，避免了性能下降。

全量迭代步骤

首先初始化数据，可以通过DataSource算子中获取，也可以通过其他转换Operator中接入。
其次定义Step Function，并在每一步迭代过程使用Step Function，结合数据集以及上一次迭代计算的Solution数据集，进行本次迭代计算。
每一次迭代过程中Step Function输出的结果，被称为Next Partial Solution数据集，该结果会作为下一次迭代计算的输入数据集。
最后一次迭代计算的结果输出，可通过DataSink输出，或接入到下一个Opreators中。迭代终止的条件有两种，分别为达到最大迭代次数或者符合自定义聚合器收敛条件：
- 最大迭代次数：指定迭代的最大次数。
- 自定义收敛条件：用户自定义的聚合器和收敛条件。

全量迭代计算通过DataSet的iterate()方法调用，具体实例如代码所示。

val env = ExecutionEnvironment.getExecutionEnvironment
//创建初始化数据集
val initial = env.fromElements(0)
//调用迭代方法，并设定迭代次数为10000次
val count = initial.iterate(10000){ iterationInput:DataSet[Int] =>
	val result = iterationInput.map {i =>
    	val x = Math.random()
    	val y = Math.random()
    	i+(if(x*x + y*y <1 ) 1 else 0) 
    }
	result
}
//输出迭代结果
val result = count.map{ c => c/10000.0 * 4}
result.print()
env.execute("Iterative Pi Example")

2.增量迭代

如图所示，增量迭代是通过部分计算取代全量计算，在计算过程中会将数据集分为热点数据和非热点数据集，每次迭代计算会针对热点数据展开，这种模式适合用于数据量比较大的计算场景，不需要对全部的输入数据集进行计算，所以在性能和速度上都会有很大的提升。

增量迭代步骤

Initial Workset： 初始化数据，可以是DataSource生成，也可以是计算算子生成；
Step Function： 在每一步迭代过程中使用的计算方法，可以是类似于map、reduce、join等方法；
Next Workset： 在每一次迭代过程中，当前Step Function输出的结果，该结果会作为下一次迭代计算的输入；
Iteration Result： 最后一次迭代计算的输出，可以通过指定DataSink输出，或者接入下一个Operators中。
增量迭代的终止条件可以指定为：
- Workset为空；
- 最大迭代次数；

//增量迭代计算示例
//读取初始化数据集Workset
val initialSolutionSet:DataSet[(Long,Double)] = ...
//读取初始化Workset数据集
val initialWorkset:DataSet[(Long,Double)] = ...
//设定迭代参数
val maxIterations = 100
val keyPosition = 0
//通过IterateDelta应用增量迭代方法
val result = initialSolutionSet.iterateDelta(initialWorkset, maxIterations, Array(keyPosition)){
    					(solution , workset) =>
    					val candidateUpdates = workset.groupBy(1).reduceGroup(new ComputeCandidateChanges())
    					val deltas = candidateUpdates.join(solution).where(0).equalTo(0)(new CompareChangesTocurrent())
    					val nextWorkset = deltas.filter(new FilterByThreshold())
    					(deltas,nextWorkset)
						}
//输出迭代结果
result.writeAsCsv(outputPaht)
env.execute()

四.广播变量与分布式缓存

1.广播变量

广播变量是采用网络传输的方式将小数据集存储在每个并行的计算节点的实例内存中。避免节点多次远程调用，提高计算性能。

//将broadcastData数据集广播在data数据集所在的每个实例中
//创建所需要的广播数据集
val broadcastData = env.fromElements(1,2,3)
//广播broadcastData数据集，指定广播变量名称为broadcastSetName（要唯一）
data.map(...).withBroadcastSet(broadcastData,"broadcastSetName")

DataSet API 支持在RichFunction接口中通过RuntimeContext读取到广播变量。首先在RichFunction中实现Open()方法，然后调用getRuntimeContext()方法获取应用的RuntimeContext，接着调用getBroadcastVariable()方法通过广播名称获取广播变量。同时Flink直接通过collect操作将数据集转换为本地Collection。

如下代码所示，在dataSet2的Map转换中通过withBroadcastSet方法指定dataSet1为广播变量，然后通过实现RichMapFunction接口，在open()方法中调用RuntimeContext对象的getBroadcastVariable()方法，将dataSet1数据集获取到本地并转换成Collection。最后在map方法中访问dataSet1的数据，完成后续操作。

//创建需要广播的数据集
val dataSet1:DataSet[Int] = ...
//创建输入数据集
val dataSet2:DataSet[Int] = ...
dataSet2.map(new RichMapFunction[String,String](){
    			var broadcastSet: Traversable[Int] = null
    			override def open(config:Configuration):Unit = {
                    //获取广播变量数据集，并且转换为Collection对象
                    broadcastSet = getRuntimeContext().getBroadcastVariable[Int]("broadcastSet-1").asScala
                }
    			def map(input:String):String = {
                    input + broadcastSet.toList //获取broadcastSet元素信息
                }
//广播DataSet数据集，指定广播变量名称为broadcastSetName
}).withBroadcastSet(dataSet1,"broadcastSet-1")

2.分布式缓存

Flink不像MapReduce计算向数据靠拢，因此会频繁复制文件，所以需要使用分布式缓存的方式，将高频文件放置在每台计算节点实例的本地task内存中，从而提高任务执行效率。

分布式缓存在ExecutionEinvironment中直接注册文件或文件夹，Flink在启动任务的过程中将会把指定的文件同步到task所在计算节点的本地文件系统中，目前支持本地文集、HDFS、S3等文件系统，另外可以通过Boolean参数来指定文件是否可执行，具体使用方式如下：

val env = ExecutionEnvironment.getExecutionEnvironment
//通过HDFS文件读取并转换成分布式缓存
env.registerCacheFile("hdfs:///path/file","hdfsFile")

//通过本地文件中读取并注册为分布式缓存，并将可执行设定为true
env.registerCacheFile("file:///path/file","localFile",true)

获取缓存文件的方式和广播变量相似，也是实现RichFunciton接口，并通过RichFunction接口获得RuntimeContext对象，然后通过RuntimeContext提供的接口获取对应的本地缓存文件，使用方式如以下代码所示：

//定义RichMapFunction获取分布式缓存文件
class FileMapper extends RichMapFunction[String,Int]{
    var myFile:File = null
    override def open(config:Configuration): Unit = {
        //通过RuntimeContext和DistributedCache获取缓存文件
        myFile = getRuntimeContext.getDistributedCache.getFile("hdfsFile")
    }
    override def map(value:String): Int={
        //使用读取到的文件内容
        val inputFile = new FileInputStream(myFile)
        ...//定义数据处理逻辑
    }
}

通过RuntimeContext和DistributedCache获取缓存文件，且文件为java.io.File类型，然后将文件定义成静态对象中，就可以直接在map方法中读取文件中的内容，进行后续的算子操作，同时使用完缓存文件后Flink会自动将文件从本地文件系统中清除。

五.语义注解

在Flink批处理过程中，传入的数据可能包含很多字段，有的字段计算会用到，有些字段没有参与到计算过程中。针对这种情况，Flink提出了语义注解的功能：将这些字段在Function中通过注解的形式标记出来，区分出哪些是需要参与函数计算的字段，哪些是直接输出的字段。Flink Runtime在执行算子过程中，会对注解的字段进行判别，对于不需要处理的数据直接转发到Output对象，减少网络IO或者不必要的排序，提高效率。

在DataSet API中将语义注解支持的字段分为三种类型，分别为Forwarded Fields、Non-Forward Fields以及Read Fields，下面详细介绍每种语义注解的使用方式。

1.Forwarded Fields注解

转发字段（Forwaded Fields）代表数据从Function进入后，对指定为Forwaded的Fields不进行修改，且不参与函数的计算逻辑，而是根据设定的规则表达式，将Fields直接推送到Output对象中的相同位置或指定位置上。

转发字段的规则通过表达式进行指定，表达式中可以指定转发字段的源位置和目标位置。例如“f0 -> f2"代表将Input的Tuple对象中的第一个字段转发到Output的Tuple对象中的第三个字段上。单个”f2“，表示转发到相同位置上。”f1->*"表示转发到Output的全部字段上。

多个表达式可以同时使用，表达式中间通过分号分隔，例如“f1->f2;f3->f1;f0"。

转发字段定义方式有两种，首先可以通过在函数类上添加Java注解的方式指定，其次也可以通过在Operator算子对应的Function后调用ForwardedFieldsFirst的方法来指定。

1）函数注解方式

ForwadedFields注解主要用于但输入的Function进行字段转发，例如Map、Reduce等。如下代码所示，定义实现MapFunction接口的MyMap Function Class，完成map方法的定义，最后在MyMap Class上添加ForwadedFields注解。

//通过函数注解方式配置转发字段，将输入数据集中的第一个字段转发到输出数据集中的第二个字段中
@ForwardedFields("_1->_2")
class MyMapper extends MapFunction[(Int,Double),(Double,Int)]{
    def map(t:(Int,Double)):(Double,Int) = {
        //map函数中也定义为将t._1输出到output对象的t._2字段中
        return (t._2 / 2 , t._1)
    }
}

对于多输入函数，如Cogroup、Join等函数，可以使用@ForwadedFieldsFirst以及@ForwadedFieldsSecond注解分别对输入的数据集进行转发配置，而且@Forwaded-FieldsFirst 和 @ForwadedFieldsSecond也可以在函数定义的过程中使用。

2）算子参数方式

在单输入Operator算子中，可以调用withForwardedFields完成函数的转发字段的定义。例如data.map(myMapFnc).withForwadedFields(“f0->f2”)。针对多输入算子的转发字段第一，例如CoGroup、Join等算子，可以通过withForwardedFieldsFirst()方法或withForwadedFieldsSecond方法分别对第一个和第二个输入数据集中的字段进行转发，两个方法也可以同时使用。

//创建数据集
val dataSet1:DataSet[Person] = ...
val dataSet2:DataSet[(Double,Int)] = ...
//指定Join函数，并且在算子尾部通过withForwadedFieldsSecond方法指定字段转发逻辑
val result = dataSet1.join(dataSet2).where("id").equalTo(1){
    (left,right,collector:Collector[(String,Double,Int)]) =>
    	collector.collect(left.name,right._1+1,right._2)
    	collector.collect("prefix_" + left.name, right._1+2,right._2)
}.withForwardedFieldsSecond("_2->_3")//定义转发逻辑

2.Non-Forwarded Fields

与Forwarded Fields相反，Non-Forwarded Fields用于指定不转发字段。

//不转发第二个，其余字段转发到输出对象相同位置上
@NonForwardedFields("_2")
class MyMapper extends MapFunction[(String, Long, Int),(String, Long, Int)]{
    def map(input: (String, Long, Int)):(String, Long, Int) = {
        //第一个和第三个字段不参与函数计算，第二个字段参与到函数计算过程中，并产生新结果
        reurn(input._1,input._2/2,input._3)
    }
}

3.Read Fields注解

读取字段（Read Fields）注解用来指定Function中需要读取以及参与函数计算的字段，在注解中被指定的字段将参与当前函数结果的运算过程，如条件判断、数值计算等。

对于但输入类型函数，使用@ReadFields完成注解定义，表达式可以是”f0;f2"，表示Input中Tuple的第一个字段和第三个字段参与函数的运算过程。如下代码所示，其中f0和f3参与了函数计算过程，f0参与了条件判断，f3参与了数值运算，指定在@ReadFields("_1; _2")函数注解指明，f1虽然也在函数中引用过，但没有涉及运算，无需指明。

@ReadFields("_1; _2")
	class MyMapper extends MapFunction[(Int, Int, Double, Int),(Int, Long)]{
        def map(value:(Int, Int, Double, Int)):(Int, Double) = {
            if(value._1 == 42){
                return (value._1, value._3)
            }
            else{
                return (value._2 +10, value._3)
            }
        }
    }

针对多输入的函数，例如Join、Cogroup等函数，可以使用ReadFieldsFirst和ReadFieldsSecond注解来完成对第一个和第二个输入对象读取字段的定义。

你可能感兴趣的:(#,Flink学习笔记,大数据,flink)

【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
四章-32-点要素的聚合彩云飘过
本文基于腾讯课堂老胡的课《跟我学Openlayers--基础实例详解》做的学习笔记，使用的openlayers5.3.xapi。源码见1032.html，对应的官网示例https://openlayers.org/en/latest/examples/cluster.htmlhttps://openlayers.org/en/latest/examples/earthquake-clusters.
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
语文主题教学学习笔记之87 东哥杂谈
“语文主题教学”学习笔记之八十七（0125）今天继续学习小学语文主题教学的实践样态。板块三：教学中体现“书艺”味道。作为四大名著之一的《水浒传》，堪称我国文学宝库之经典。对从《水浒传》中摘选的单元，教师就要了解其原生态，即评书体特点。这也要求教师要了解一些常用的评书行话术语，然后在教学时适时地加入一些，让学生体味其文本中原有的特色。学生也要尽可能地通过朗读的方式，而不单是分析讲解的方式进行学习。细
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
《转介绍方法论》学习笔记小可乐的妈妈
一、高效转介绍的流程：价值观---执行----方案一）转介绍发生的背景：1、对象：谁向谁转介绍？全员营销，人人参与。①员工的激励政策、客户的转介绍诱因制作客户画像：a信任；支付能力；意愿度；便利度（根据家长具备四个特征的个数分为四类）B性格分类C职业分类D年龄性别②执行：套路，策略，方法，流程2、诱因：为什么要转介绍？认同信任；多方共赢；传递美好；零风险承诺打动人心，超越期待。选择做教育，就是选择
JAVA学习笔记之23种设计模式学习 victorfreedom Java技术设计模式 android java 常用设计模式
博主最近买了《设计模式》这本书来学习，无奈这本书是以C++语言为基础进行说明，整个学习流程下来效率不是很高，虽然有的设计模式通俗易懂，但感觉还是没有充分的掌握了所有的设计模式。于是博主百度了一番，发现有大神写过了这方面的问题，于是博主迅速拿来学习。一、设计模式的分类总体来说设计模式分为三大类：创建型模式，共五种：工厂方法模式、抽象工厂模式、单例模式、建造者模式、原型模式。结构型模式，共七种：适配器
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
新能源汽车 BMS 学习笔记篇—BMS 基本定义及分类 WPG大大通其他笔记汽车 BMS 经验分享新能源电池
一、BMS定义1、概念：BMS（BatteryManagementSystem）即电池管理系统，其管理对象是二次电池（充电电池或蓄电池），其主要目的是电池的利用率，防止电池出现过度充电和过度放电，可应用于电动汽车、电瓶车、机器人、无人机等图片来源：腾讯网https://new.qq.com《标准普尔警告，电动汽车电池生产面临供应链和地缘政治风险》2、四大功能①感知和测量：检测电池的电压、电流、温度
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
[转载] NoSQL简介 weixin_30325793 大数据数据库运维
摘自“百度百科”。NoSQL，泛指非关系型的数据库。随着互联网web2.0网站的兴起，传统的关系数据库在应付web2.0网站，特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不从心，暴露了很多难以克服的问题，而非关系型的数据库则由于其本身的特点得到了非常迅速的发展。NoSQL数据库的产生就是为了解决大规模数据集合多重数据种类带来的挑战，尤其是大数据应用难题。虽然NoSQL流行语
golang学习笔记--MPG模型 xxzed golang #学习笔记学习笔记 golang
MPG模式：M（Machine）：操作系统的主线程P（Processor）：协程执行需要的资源（上下文context），可以看作一个局部的调度器，使go代码在一个线程上跑，他是实现从N：1到N：M映射的关键G（Goroutine）：协程，有自己的栈。包含指令指针（instructionpointer）和其它信息（正在等待的channel等等），用于调度。一个P下面可以有多个G1、当前程序有三个M,
碎片化学习笔记分享剑客写作
现在生活节奏很快，学习力成为了我们拥有的最大财富。碎片化学习是最好的。首先，不要太过自信，学会虚心学习，是我们面对现实的好方法，才能够常保新鲜。平时我们要拥有什么工具呢？1.思维导图2.写在印象笔记里3.听书，消燥耳机4.教学输出5.录音笔里面最好的方式就是教学输出法，记忆里最好。当输出时我们集中精力记忆里最好。有人认为缩短睡眠时间来学习，其实最好的方式是保持最好的睡眠，记忆力会更好。剥夺睡眠，会
Kafka详细解析与应用分析芊言芊语 kafka 分布式
Kafka是一个开源的分布式事件流平台（EventStreamingPlatform），由LinkedIn公司最初采用Scala语言开发，并基于ZooKeeper协调管理。如今，Kafka已经被Apache基金会纳入其项目体系，广泛应用于大数据实时处理领域。Kafka凭借其高吞吐量、持久化、分布式和可靠性的特点，成为构建实时流数据管道和流处理应用程序的重要工具。Kafka架构Kafka的架构主要由
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
疫情，疫情东山草
2020年，疫情爆发，至今已近三年，反反复复，此起彼伏。不但没被消灭，还自我发展，从德尔塔到奥密克戎，与时俱进的变异着。去年11月，疫情之下，大数据800米范围内，都成为时空伴随者。“你的码儿有没有变颜色”“你绿码还是黄码”成为那段时间的流行语，当然少不了的还有全员核酸。段子手整出来一首歌：我走过你走过的路,这算不算相逢？我吹过你吹过的风，这算不算相拥？800米内我们不曾擦肩而过，你却要我14天相
在服务器计算节点中使用 jupyter Lab ranshan567 程序人生
JupyterLab是一个基于网页的交互式开发环境,用于科学计算、数据分析和机器学.jupyterlab是jupyternotebook的下一代产品,集成了更多功能,使用起来更方便.在进行数据分析及可视化时，个人电脑不能满足大数据的分析需求，就需要用到高性能计算机集群资源，然而计算机集群的计算节点往往没有联网功能，所以在计算机集群中使用jupyterLab需要进行一些配置。具体的步骤如下：
《随园诗话》学习笔记三百零六飞鸿雪舞
卷五凡诗之传者，都在灵性五、五斗米与诗【原文】丁丑，余觅一抄书人，或荐黄生，名之纪，号星岩者，人甚朴野。偶过其案头，得句云；“破庵僧卖临街瓦，独井人争向晚泉。”余大奇之，即饷米五斗。自此欣然大用力于诗。五言句云：“云开日脚直，雨落水纹圆。竹锐穿泥壁，蝇酣落酒尊。钓久知鱼性，樵多识树名。笔残芦并用，墨尽指同磨。＂七言云：＂小窗近水寒偏觉，古木遮天曙不知。旧生萍处泥犹绿，新落花时水亦香。旧甓恐闲都贮水
D15 论语学习笔记许小兔Angelina
悟：上级对下级的宽容：凡事成定局，就不你说了；已接近完结的事，也没必要匡正和挽回了；既然是过去的事，也没必要追究得失和责任了。对待孩子教育也是，不用“问责制”，这样容易让孩子因为害怕担责而说谎。应当循循善诱，避免再犯错才是最重要的。3.16：【原文】子曰：“射不主皮，为力不同科，古之道也。”【译文】孔子说：“射箭比赛不以射透为主，而主要看是否射得准确，因为人的力量不同，自古如此。”3.17：【原文
大数据真实面试题---SQL The博宇大数据面试题——SQL 大数据 mysql sql 数据库 big data
视频号数据分析组外包招聘笔试题时间限时45分钟完成。题目根据3张表表结构，写出具体求解的SQL代码（搞笑品类定义：视频分类或者视频创建者分类为“搞笑”）1、表创建语句：createtablet_user_video_action_d(dsint,user_idstring,video_idstring,action_typeint,`timestamp`bigint)rowformatdelimi
Flume：大规模日志收集与数据传输的利器傲雪凌霜，松柏长青后端大数据 flume 大数据
Flume：大规模日志收集与数据传输的利器在大数据时代，随着各类应用的不断增长，产生了海量的日志和数据。这些数据不仅对业务的健康监控至关重要，还可以通过深入分析，帮助企业做出更好的决策。那么，如何高效地收集、传输和存储这些海量数据，成为了一项重要的挑战。今天我们将深入探讨ApacheFlume，它是如何帮助我们应对这些挑战的。一、Flume概述ApacheFlume是一个分布式、可靠、可扩展的日志
云服务业界动态简报-20180128 Captain7
一、青云青云QingCloud推出深度学习平台DeepLearningonQingCloud，包含了主流的深度学习框架及数据科学工具包，通过QingCloudAppCenter一键部署交付，可以让算法工程师和数据科学家快速构建深度学习开发环境，将更多的精力放在模型和算法调优。二、腾讯云1.腾讯云正式发布腾讯专有云TCE(TencentCloudEnterprise)矩阵，涵盖企业版、大数据版、AI
全面指南：用户行为从前端数据采集到实时处理的最佳实践数字沉思营销流量运营系统架构前端内容运营大数据
引言在当今的数据驱动世界，实时数据采集和处理已经成为企业做出及时决策的重要手段。本文将详细介绍如何通过前端JavaScript代码采集用户行为数据、利用API和Kafka进行数据传输、通过Flink实时处理数据的完整流程。无论你是想提升产品体验还是做用户行为分析，这篇文章都将为你提供全面的解决方案。设计一个通用的ClickHouse表来存储用户事件时，需要考虑多种因素，包括事件类型、时间戳、用户信
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
架构评审的自动化与人工智能: 如何提高效率光剑书架上的书架构自动化人工智能运维
1.背景介绍架构评审是软件开发过程中的一个关键环节，它旨在确保软件架构的质量、可维护性和可扩展性。传统的架构评审通常是由人工进行，需要大量的时间和精力。随着大数据技术和人工智能的发展，自动化和人工智能技术已经开始应用于架构评审，从而提高评审的效率和准确性。在本文中，我们将讨论如何通过自动化和人工智能技术来提高架构评审的效率。我们将从以下几个方面进行讨论：背景介绍核心概念与联系核心算法原理和具体操作
安装数据库首次应用 Array_06 java oracle sql
可是为什么再一次失败之后就变成直接跳过那个要求 enter full pathname of java.exe的界面这个java.exe是你的Oracle 11g安装目录中例如：【F:\app\chen\product\11.2.0\dbhome_1\jdk\jre\bin】下的java.exe 。不是你的电脑安装的java jdk下的java.exe！注意第一次，使用SQL D
Weblogic Server Console密码修改和遗忘解决方法 bijian1013 Welogic
在工作中一同事将Weblogic的console的密码忘记了，通过网上查询资料解决，实践整理了一下。一.修改Console密码打开weblogic控制台，安全领域 --> myrealm -->&n
IllegalStateException: Cannot forward a response that is already committed Cwind java Servlets
对于初学者来说，一个常见的误解是：当调用 forward() 或者 sendRedirect() 时控制流将会自动跳出原函数。标题所示错误通常是基于此误解而引起的。示例代码： protected void doPost() { if (someCondition) { sendRedirect(); } forward(); // Thi
基于流的装饰设计模式木zi_鸣设计模式
当想要对已有类的对象进行功能增强时，可以定义一个类，将已有对象传入，基于已有的功能，并提供加强功能。自定义的类成为装饰类模仿BufferedReader，对Reader进行包装，体现装饰设计模式装饰类通常会通过构造方法接受被装饰的对象，并基于被装饰的对象功能，提供更强的功能。装饰模式比继承灵活，避免继承臃肿，降低了类与类之间的关系装饰类因为增强已有对象，具备的功能该
Linux中的uniq命令被触发 linux
Linux命令uniq的作用是过滤重复部分显示文件内容，这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个及以后更多个重复行将被删去，行比较是根据所用字符集的排序序列进行的。该命令加工后的结果写到输出文件中。输入文件和输出文件必须不同。如果输入文件用“- ”表示，则从标准输入读取。 AD： uniq [选项] 文件说明：这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个
正则表达式Pattern 肆无忌惮_ Pattern
正则表达式是符合一定规则的表达式，用来专门操作字符串，对字符创进行匹配，切割，替换，获取。例如，我们需要对QQ号码格式进行检验规则是长度6~12位不能0开头只能是数字，我们可以一位一位进行比较，利用parseLong进行判断，或者是用正则表达式来匹配[1-9][0-9]{4,14} 或者 [1-9]\d{4,14} &nbs
Oracle高级查询之OVER (PARTITION BY ..) 知了ing oracle sql
一、rank()/dense_rank() over(partition by ...order by ...) 现在客户有这样一个需求，查询每个部门工资最高的雇员的信息，相信有一定oracle应用知识的同学都能写出下面的SQL语句： select e.ename, e.job, e.sal, e.deptno from scott.emp e, (se
Python调试矮蛋蛋 python pdb
原文地址： http://blog.csdn.net/xuyuefei1988/article/details/19399137 1、下面网上收罗的资料初学者应该够用了，但对比IBM的Python 代码调试技巧： IBM：包括 pdb 模块、利用 PyDev 和 Eclipse 集成进行调试、PyCharm 以及 Debug 日志进行调试： http://www.ibm.com/d
webservice传递自定义对象时函数为空，以及boolean不对应的问题 alleni123 webservice
今天在客户端调用方法 NodeStatus status=iservice.getNodeStatus(). 结果NodeStatus的属性都是null。进行debug之后，发现服务器端返回的确实是有值的对象。后来发现原来是因为在客户端，NodeStatus的setter全部被我删除了。本来是因为逻辑上不需要在客户端使用setter，结果改了之后竟然不能获取带属性值的
java如何干掉指针，又如何巧妙的通过引用来操作指针————>说的就是java指针百合不是茶
C语言的强大在于可以直接操作指针的地址，通过改变指针的地址指向来达到更改地址的目的,又是由于c语言的指针过于强大，初学者很难掌握， java的出现解决了c，c++中指针的问题 java将指针封装在底层，开发人员是不能够去操作指针的地址，但是可以通过引用来间接的操作：定义一个指针p来指向a的地址（&是地址符号）：
Eclipse打不开，提示“An error has occurred.See the log file ***/.log” bijian1013 eclipse
打开eclipse工作目录的\.metadata\.log文件，发现如下错误： !ENTRY org.eclipse.osgi 4 0 2012-09-10 09:28:57.139 !MESSAGE Application error !STACK 1 java.lang.NoClassDefFoundError: org/eclipse/core/resources/IContai
spring aop实例annotation方法实现 bijian1013 java spring AOP annotation
在spring aop实例中我们通过配置xml文件来实现AOP，这里学习使用annotation来实现，使用annotation其实就是指明具体的aspect,pointcut和advice。1.申明一个切面(用一个类来实现)在这个切面里,包括了advice和pointcut AdviceMethods.jav
[Velocity一]Velocity语法基础入门 bit1129 velocity
用户和开发人员参考文档 http://velocity.apache.org/engine/releases/velocity-1.7/developer-guide.html 注释 1.行级注释## 2.多行注释#* *# 变量定义使用$开头的字符串是变量定义，例如$var1, $var2, 赋值使用#set为变量赋值，例
【Kafka十一】关于Kafka的副本管理 bit1129 kafka
1. 关于request.required.acks request.required.acks控制者Producer写请求的什么时候可以确认写成功，默认是0， 0表示即不进行确认即返回。 1表示Leader写成功即返回，此时还没有进行写数据同步到其它Follower Partition中 -1表示根据指定的最少Partition确认后才返回，这个在 Th
lua统计nginx内部变量数据 ronin47 lua nginx　统计
server { listen 80; server_name photo.domain.com; location /{set $str $uri; content_by_lua ' local url = ngx.var.uri local res = ngx.location.capture(
java-11.二叉树中节点的最大距离 bylijinnan java
import java.util.ArrayList; import java.util.List; public class MaxLenInBinTree { /* a. 1 / \ 2 3 / \ / \ 4 5 6 7 max=4 pass "root"
Netty源码学习-ReadTimeoutHandler bylijinnan java netty
ReadTimeoutHandler的实现思路：开启一个定时任务，如果在指定时间内没有接收到消息，则抛出ReadTimeoutException 这个异常的捕获，在开发中，交给跟在ReadTimeoutHandler后面的ChannelHandler，例如 private final ChannelHandler timeoutHandler = new ReadTim
jquery验证上传文件样式及大小(好用) cngolon 文件上传 jquery验证
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> <script src="jquery1.8/jquery-1.8.0.
浏览器兼容【转】 cuishikuan css 浏览器 IE
浏览器兼容问题一：不同浏览器的标签默认的外补丁和内补丁不同问题症状：随便写几个标签，不加样式控制的情况下，各自的margin 和padding差异较大。碰到频率:100% 解决方案：CSS里 *{margin:0;padding:0;} 备注：这个是最常见的也是最易解决的一个浏览器兼容性问题，几乎所有的CSS文件开头都会用通配符*来设
Shell特殊变量：Shell $0, $#, $*, $@, $?, $$和命令行参数 daizj shell $#$?特殊变量
前面已经讲到，变量名只能包含数字、字母和下划线，因为某些包含其他字符的变量有特殊含义，这样的变量被称为特殊变量。例如，$ 表示当前Shell进程的ID，即pid，看下面的代码： $echo $$ 运行结果 29949 特殊变量列表变量含义 $0 当前脚本的文件名 $n 传递给脚本或函数的参数。n 是一个数字，表示第几个参数。例如，第一个
程序设计KISS 原则-------KEEP IT SIMPLE, STUPID! dcj3sjt126com unix
翻到一本书，讲到编程一般原则是kiss：Keep It Simple, Stupid.对这个原则深有体会，其实不仅编程如此，而且系统架构也是如此。 KEEP IT SIMPLE, STUPID! 编写只做一件事情，并且要做好的程序；编写可以在一起工作的程序，编写处理文本流的程序，因为这是通用的接口。这就是UNIX哲学.所有的哲学真正的浓缩为一个铁一样的定律，高明的工程师的神圣的“KISS 原
android Activity间List传值 dcj3sjt126com Activity
第一个Activity： import java.util.ArrayList;import java.util.HashMap;import java.util.List;import java.util.Map;import android.app.Activity;import android.content.Intent;import android.os.Bundle;import a
tomcat 设置java虚拟机内存 eksliang tomcat 内存设置
转载请出自出处：http://eksliang.iteye.com/blog/2117772 http://eksliang.iteye.com/ 常见的内存溢出有以下两种: java.lang.OutOfMemoryError: PermGen space java.lang.OutOfMemoryError: Java heap space ------------
Android 数据库事务处理 gqdy365 android
使用SQLiteDatabase的beginTransaction()方法可以开启一个事务，程序执行到endTransaction() 方法时会检查事务的标志是否为成功，如果程序执行到endTransaction()之前调用了setTransactionSuccessful() 方法设置事务的标志为成功则提交事务，如果没有调用setTransactionSuccessful() 方法则回滚事务。事
Java 打开浏览器 hw1287789687 打开网址 open浏览器 open browser 打开url 打开浏览器
使用java 语言如何打开浏览器呢? 我们先研究下在cmd窗口中,如何打开网址使用IE 打开 D:\software\bin>cmd /c start iexplore http://hw1287789687.iteye.com/blog/2153709 使用火狐打开 D:\software\bin>cmd /c start firefox http://hw1287789
ReplaceGoogleCDN：将 Google CDN 替换为国内的 Chrome 插件 justjavac chrome Google google api chrome插件
Chrome Web Store 安装地址： https://chrome.google.com/webstore/detail/replace-google-cdn/kpampjmfiopfpkkepbllemkibefkiice 由于众所周知的原因，只需替换一个域名就可以继续使用Google提供的前端公共库了。同样，通过script标记引用这些资源，让网站访问速度瞬间提速吧
进程VS.线程 m635674608 线程
资料来源： http://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000/001397567993007df355a3394da48f0bf14960f0c78753f000 1、Apache最早就是采用多进程模式 2、IIS服务器默认采用多线程模式 3、多进程优缺点优点：多进程模式最大
Linux下安装MemCached 字符串 memcached
前提准备：1. MemCached目前最新版本为：1.4.22，可以从官网下载到。2. MemCached依赖libevent，因此在安装MemCached之前需要先安装libevent。2.1 运行下面命令，查看系统是否已安装libevent。[root@SecurityCheck ~]# rpm -qa|grep libevent libevent-headers-1.4.13-4.el6.n
java设计模式之--jdk动态代理（实现aop编程） Supanccy2013 java DAO 设计模式 AOP
与静态代理类对照的是动态代理类，动态代理类的字节码在程序运行时由Java反射机制动态生成，无需程序员手工编写它的源代码。动态代理类不仅简化了编程工作，而且提高了软件系统的可扩展性，因为Java 反射机制可以生成任意类型的动态代理类。java.lang.reflect 包中的Proxy类和InvocationHandler 接口提供了生成动态代理类的能力。 &
Spring 4.2新特性-对java8默认方法(default method)定义Bean的支持 wiselyman spring 4
2.1 默认方法(default method) java8引入了一个default medthod; 用来扩展已有的接口,在对已有接口的使用不产生任何影响的情况下,添加扩展使用default关键字 Spring 4.2支持加载在默认方法里声明的bean 2.2 将要被声明成bean的类 public class DemoService {