莫噶

算子：详细篇

一、执行环境

1.1 创建执行环境

1.2 执行模式

二、源算子

2.1 从集合中读取数据

2.2 从文件读取数据

2.3 从socket读取数据

2.4 从kafka读取数据

三、转换算子

3.1 基本转换算子

（1）映射(map)

（2）过滤(filter)

（3）扁平映射(flatMap)

3.2 聚合转换算子（Aggregation）

(1) 按键分区（keyBy）

(2) 简单聚合（sum/min/max/minBy/maxBy）

(3) 归约聚合（reduce）

3.3 用户自定义函数

3.4 物理分区算子

1.自定义分区：

2.随机分区:

四、输出算子

4.1 连接到外部系统

4.2 传输到文件

4.3 传输到kafka

4.4 传输到MySQL

4.5 自定义Sink输出

一、执行环境

1.1 创建执行环境

我们要获取的执行环境，是StreamExecutionEnvironment类的对象，这是所有Flink程序的基础。在代码中创建执行环境的方式，就是调用这个类的静态方法，具体有以下三种。

（1）getExecutionEnvironment

最简单的方式，就是直接调用getExecutionEnvironment方法。它会根据当前运行的上下文直接得到正确的结果：如果程序是独立运行的，就返回一个本地执行环境；如果是创建了jar包，然后从命令行调用它并提交到集群执行，那么就返回集群的执行环境。也就是说，这个方法会根据当前运行的方式，自行决定该返回什么样的运行环境。

（2）createLocalEnvironment

这个方法返回一个本地执行环境。可以在调用时传入一个参数，指定默认的并行度；如果不传入，则默认并行度就是本地的CPU核心数。

（3）createRemoteEnvironment

这个方法返回集群执行环境。需要在调用时指定JobManager的主机名和端口号，并指定要在集群中运行的Jar包。

1.2 执行模式

1）流执行模式（Streaming）

默认情况下，程序使用的就是Streaming执行模式。

2）批执行模式（Batch）

专门用于批处理的执行模式。

3）自动模式（AutoMatic）

在这种模式下，将由程序根据输入数据源是否有界，来自动选择执行模式。

二、源算子

一般将数据的输入来源称为数据源（data source），而读取数据的算子就是源算子（source operator）。

2.1 从集合中读取数据

fromCollection方法进行读取

java：

public class FlinkFromCollectionExample {  
  
    public static void main(String[] args) throws Exception {  
  
        // 创建流处理环境  
        final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();  
  
        // 从集合中读取数据  
        List data = Arrays.asList("element1", "element2", "element3");  
        DataStream stream = env.fromCollection(data);  
  
        // 使用 MapFunction 对每个元素进行处理，这里我们简单地将其转换为大写  
        DataStream upperCaseStream = stream.map(new MapFunction() {  
            @Override  
            public String map(String value) {  
                return value.toUpperCase();  
            }  
        });  
  
        // 打印结果到控制台  
        upperCaseStream.print();  
  
        // 执行作业  
        env.execute("Flink from collection example");  
    }  
}
/**这个示例中，我们首先创建了一个流处理环境，然后使用 fromCollection 方法从 Java 的 List 中读取数据。接下来，我们使用 map 操作对读取的数据进行处理（这里简单地将每个元素转换为大写）。最后，我们打印结果到控制台并执行作业。*/

scala:

object SimpleFlinkApp {  
  def main(args: Array[String]): Unit = {  
    // 创建执行环境  
    val env = StreamExecutionEnvironment.getExecutionEnvironment  
  
    // 创建数据源，这里我们使用集合作为数据源  
    val data = env.fromElements(1, 2, 3, 4, 5)  
  
    // 定义一个简单的转换操作  
    val transformedData = data.map(x => x * 2)  
  
    // 定义一个简单的打印操作  
    transformedData.print()  
  
    // 开始执行作业  
    env.execute("Flink Scala WordCount Example")  
  }  
}
/**这个示例展示了如何使用 Flink 的 DataStream API 从一个集合中读取数据，然后通过 map 转换操作将每个元素乘以2，最后使用 print 操作将结果打印到控制台。

注意：在实际应用中，你可能需要从外部系统（如数据库、消息队列等）读取数据，而不是从一个集合中读取。*/

2.2 从文件读取数据

readTextFile方法进行读取

java:

public class FileReadingExample {  
    public static void main(String[] args) throws Exception {  
        // 创建执行环境  
        final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();  
  
        // 从文件中读取数据  
        DataStream text = env.readTextFile(new Path("file:///path/to/your/file"));  
  
        // 定义一个简单的转换操作，将每行文本转换为单词元组  
        DataStream> counts = text  
            .flatMap(new Tokenizer())  
            .keyBy(0)  
            .sum(1);  
  
        // 打印结果到控制台  
        counts.print();  
  
        // 开始执行作业  
        env.execute("Flink Java File Reading Example");  
    }  
  
    public static final class Tokenizer implements FlatMapFunction> {  
        @Override  
        public void flatMap(String value, Collector> out) {  
            // 按空格拆分每行文本，并将每个单词元组发送到下游操作符  
            String[] words = value.toLowerCase().split("\\W+");  
            for (String word : words) {  
                if (word.length() > 0) {  
                    out.collect(new Tuple2<>(word, 1));  
                }  
            }  
        }  
    }  
}
/**这个示例展示了如何使用 Flink 的 DataStream API 从文件中读取数据，并使用自定义的 Tokenizer 类将每行文本转换为单词元组。然后，使用 keyBy 和 sum 操作符对单词进行计数，并将结果打印到控制台。*/

scala:

object FileReadingExample {  
  def main(args: Array[String]): Unit = {  
    // 创建执行环境  
    val env = StreamExecutionEnvironment.getExecutionEnvironment  
  
    // 使用 TextInputFormat 从文件中读取数据  
    val text = env.readTextFile("path/to/your/file")  
  
    // 定义一个简单的转换操作  
    val transformedData = text.map(line => line.split(" ") match {  
      case Array(word, _*) => (word, 1)  
    })  
  
    // 定义一个简单的计数操作  
    val counts = transformedData.keyBy(_._1).sum(1)  
  
    // 定义一个简单的打印操作  
    counts.print()  
  
    // 开始执行作业  
    env.execute("Flink Scala File Reading Example")  
  }  
}
/**在这个示例中，我们首先创建了一个 StreamExecutionEnvironment 对象，然后使用 readTextFile 方法从指定的文件路径读取数据。读取的数据是一个 DataStream[String]，然后我们通过 map 转换操作将每一行数据拆分成单词并计数，最后通过 keyBy 和 sum 操作计算每个单词的出现次数。最后，我们使用 print 操作将结果打印到控制台。*/

2.3 从socket读取数据

socketTextStream方法进行读取 一般是用于测试

java:

DataStream stream = env.socketTextStream("localhost", 7777);

scala:

val strem=env.socketTextStream("localhost",777)

2.4 从kafka读取数据

fromSource方法进行读取

java:

public class SourceKafka {
    public static void main(String[] args) throws Exception {

        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

        KafkaSource kafkaSource = KafkaSource.builder()
            .setBootstrapServers("hadoop102:9092")
            .setTopics("topic_1")
            .setGroupId("iii")
            .setStartingOffsets(OffsetsInitializer.latest())
            .setValueOnlyDeserializer(new SimpleStringSchema()) 
            .build();

        DataStreamSource stream = env.fromSource(kafkaSource, WatermarkStrategy.noWatermarks(), "kafka-source");

        stream.print("Kafka");

        env.execute();
    }
}

scala:

object SourceKafka {
  def main(args: Array[String]): Unit = {
    val env=StreamExecutionEnvironment.getExecutionEnvironment
    val sourceKafka=KafkaSource.builder()
      .setTopics("topic_1")
      .setBootstrapServers("bigdata1:9092")
      .setGroupId("iii")
      .setStartingOffsets(OffsetsInitializer.latest())
      .setValueOnlyDeserializer(new SimpleStringSchema())
      .build()
    env.setParallelism(1)
    val stream=env.fromSource(sourceKafka,WatermarkStrategy.noWatermarks(),"kafka_source")
    
    stream.print("kafka")
    env.execute()
  }
}

三、转换算子

数据源读入数据之后，我们就可以使用各种转换算子，将一个或多个DataStream转换为新的DataStream。

3.1 基本转换算子

（1）映射(map)

map是大家非常熟悉的大数据操作算子，主要用于将数据流中的数据进行转换，形成新的数据流。简单来说，就是一个“一一映射”，消费一个元素就产出一个元素。

java:

public class TransMap {
    public static void main(String[] args) throws Exception {

        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

        DataStreamSource stream = env.fromElements(
                new WaterSensor("sensor_1", 1, 1),
                new WaterSensor("sensor_2", 2, 2)
        );

        // 方式一：传入匿名类，实现MapFunction
        stream.map(new MapFunction() {
            @Override
            public String map(WaterSensor e) throws Exception {
                return e.id;
            }
        }).print();

        // 方式二：传入MapFunction的实现类
        // stream.map(new UserMap()).print();

        env.execute();
    }

    public static class UserMap implements MapFunction {
        @Override
        public String map(WaterSensor e) throws Exception {
            return e.id;
        }
    }
}

scala:

object SimpleMapExample {  
  def main(args: Array[String]): Unit = {  
    // 创建执行环境  
    val env = StreamExecutionEnvironment.getExecutionEnvironment  
  
    // 创建数据源  
    val text = env.fromElements("Hello, Flink", "Flink is powerful", "Stream processing at scale")  
  
    // 使用 map 操作转换数据  
    val mapped = text.map(word => word.toUpperCase)  
  
    // 打印结果到控制台  
    mapped.print()  
  
    // 执行任务  
    env.execute("Flink Scala Map Example")  
  }  
}

（2）过滤(filter)

filter转换操作，顾名思义是对数据流执行一个过滤，通过一个布尔条件表达式设置过滤条件，对于每一个流内元素进行判断，若为true则元素正常输出，若为false则元素被过滤掉。

java：

public class TransFilter {
    public static void main(String[] args) throws Exception {

        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

        DataStreamSource stream = env.fromElements(
                
new WaterSensor("sensor_1", 1, 1),
new WaterSensor("sensor_1", 2, 2),
new WaterSensor("sensor_2", 2, 2),
new WaterSensor("sensor_3", 3, 3)
        );

        // 方式一：传入匿名类实现FilterFunction
        stream.filter(new FilterFunction() {
            @Override
            public boolean filter(WaterSensor e) throws Exception {
                return e.id.equals("sensor_1");
            }
        }).print();

        // 方式二：传入FilterFunction实现类
        // stream.filter(new UserFilter()).print();
        
        env.execute();
    }
    public static class UserFilter implements FilterFunction {
        @Override
        public boolean filter(WaterSensor e) throws Exception {
            return e.id.equals("sensor_1");
        }
    }
}

scala：

object FilterExample {  
  def main(args: Array[String]): Unit = {  
    // 创建执行环境  
    val env = StreamExecutionEnvironment.getExecutionEnvironment  
  
    // 创建数据源  
    val text = env.fromElements("Alice", "Bob", "Charlie", "David", "Eve")  
  
    // 定义过滤条件  
    def filterNameLength(name: String): Boolean = name.length > 3  
  
    // 使用 filter 函数进行过滤  
    val filtered = text.filter(filterNameLength)  
  
    // 打印过滤后的结果  
    filtered.print()  
  
    // 执行任务  
    env.execute("Flink Filter Example")  
  }  
}

（3）扁平映射(flatMap)

将数据流中的整体（一般是集合类型）拆分成一个一个的个体使用。消费一个元素，可以产生0到多个元素。flatMap可以认为是“扁平化”（flatten）和“映射”（map）两步操作的结合，也就是先按照某种规则对数据进行打散拆分，再对拆分后的元素做转换处理。

java:

public class TransFlatmap {
    public static void main(String[] args) throws Exception {

        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

        DataStreamSource stream = env.fromElements(
                
new WaterSensor("sensor_1", 1, 1),
new WaterSensor("sensor_1", 2, 2),
new WaterSensor("sensor_2", 2, 2),
new WaterSensor("sensor_3", 3, 3)

        );

        stream.flatMap(new MyFlatMap()).print();

        env.execute();
    }

    public static class MyFlatMap implements FlatMapFunction {

        @Override
        public void flatMap(WaterSensor value, Collector out) throws Exception {

            if (value.id.equals("sensor_1")) {
                out.collect(String.valueOf(value.vc));
            } else if (value.id.equals("sensor_2")) {
                out.collect(String.valueOf(value.ts));
                out.collect(String.valueOf(value.vc));
            }
        }
    }
}

scala:

object FlatMapExample {  
  def main(args: Array[String]): Unit = {  
    val env = StreamExecutionEnvironment.getExecutionEnvironment  
    val text = env.fromElements("Hello, world!", "Flink flatMap example")  
  
    val flatMapped = text.flatMap { line =>  
      line.split("\\s+")  // 将每行文本按空格拆分成单词  
    }  
  
    flatMapped.print()  // 打印结果到控制台  
  
    env.execute("Flink flatMap example")  
  }  
}

3.2 聚合转换算子（Aggregation）

计算的结果不仅依赖当前数据，还跟之前的数据有关，相当于要把所有数据聚在一起进行汇总合并——这就是所谓的“聚合”（Aggregation），类似于MapReduce中的reduce操作。

(1) 按键分区（keyBy）

keyBy是聚合前必须要用到的一个算子。keyBy通过指定键（key），可以将一条流从逻辑上划分成不同的分区（partitions）。这里所说的分区，其实就是并行处理的子任务。

基于不同的key，流中的数据将被分配到不同的分区中去；这样一来，所有具有相同的key的数据，都将被发往同一个分区。

public class TransKeyBy {
    public static void main(String[] args) throws Exception {

        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

        DataStreamSource stream = env.fromElements(
                new WaterSensor("sensor_1", 1, 1),
                new WaterSensor("sensor_1", 2, 2),
                new WaterSensor("sensor_2", 2, 2),
                new WaterSensor("sensor_3", 3, 3)
        );

        // 方式一：使用Lambda表达式
        KeyedStream keyedStream = stream.keyBy(e -> e.id);

        // 方式二：使用匿名类实现KeySelector
        KeyedStream keyedStream1 = stream.keyBy(new KeySelector() {
            @Override
            public String getKey(WaterSensor e) throws Exception {
                return e.id;
            }
        });

        env.execute();
    }
}

scala：

object KeyByExample {  
  def main(args: Array[String]): Unit = {  
    // 创建执行环境  
    val env = StreamExecutionEnvironment.getExecutionEnvironment  
  
    // 创建数据流  
    val dataStream = env.fromElements(  
      ("apple", 3),  
      ("banana", 2),  
      ("orange", 5),  
      ("apple", 1),  
      ("banana", 3),  
      ("orange", 2)  
    )  
  
    // 使用 keyBy 对数据进行分组，这里按照水果名称进行分组  
    val keyedStream = dataStream.keyBy(0)  
  
    // 打印结果  
    keyedStream.print()  
  
    // 执行作业  
    env.execute("KeyBy Example")  
  }  
}

(2) 简单聚合（sum/min/max/minBy/maxBy）

sum()：在输入流上，对指定的字段做叠加求和的操作。

min()：在输入流上，对指定的字段求最小值。

max()：在输入流上，对指定的字段求最大值。

minBy()：与min()类似，在输入流上针对指定字段求最小值。不同的是，min()只计算指定字段的最小值，其他字段会保留最初第一个数据的值；而minBy()则会返回包含字段最小值的整条数据。

maxBy()：与max()类似，在输入流上针对指定字段求最大值。两者区别与min()/minBy()完全一致。

java：

public class SumMinMaxExample {  
    public static void main(String[] args) throws Exception {  
        // 创建流处理环境  
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();  
        DataStream> stream = env.fromElements(  
            new Tuple2<>(1, "a"), new Tuple2<>(2, "b"), new Tuple2<>(3, "c"), new Tuple2<>(4, "d"), new Tuple2<>(5, "e")  
        ); // 输入数据流  
  
        // 求和  
        DataStream> sum = stream.map(new MapFunction, Tuple2>() {  
            @Override  
            public Tuple2 map(Tuple2 value) throws Exception {  
                return new Tuple2<>(value.f0, value.f1, value.f0); // 将每个元素转换为三元组 (value, _, sum)  
            }  
        }); // 计算每个元素的和  
        sum.print(); // 打印结果  
  
        // 求最小值  
        DataStream> min = stream.map(new MapFunction, Tuple2>() {  
            @Override  
            public Tuple2 map(Tuple2 value) throws Exception {  
                return new Tuple2<>(value.f0, value.f1, value.f0); // 将每个元素转换为三元组 (value, _, min)  
            }  
        }); // 计算每个元素的最小值  
        min.print(); // 打印结果  
  
        // 求最大值  
        DataStream> max = stream.map(new MapFunction, Tuple2>() {  
            @Override  
            public Tuple2 map(Tuple2 value) throws Exception {  
                return new Tuple2<>(value.f0, value.f1, value.f0); // 将每个元素转换为三元组 (value, _, max)  
            }  
        }); // 计算每个元素的最大值  
        max.print(); // 打印结果  
  
        // 按某个字段求最小值（例如按第二个字段）  
        DataStream> minBySecondField = stream.map(new MapFunction, Tuple2>() {  
            @Override  
            public Tuple2 map(Tuple2 value) throws Exception {  
                return new Tuple2<>(value.f1, value.f0); // 将每个元素转换为二元组 (_, value)  
            }  
        }); // 按第二个字段求最小值（由于是二元组，此处不需进一步处理）  
        minBySecondField.print(); // 打印结果  
  
        // 按某个字段求最大值（例如按第二个字段）  
        DataStream> maxBySecondField = stream.map(new MapFunction, Tuple2>() {  
            @Override  
            public Tuple2 map(Tuple2 value) throws Exception {  
                return new Tuple2<>(value.f1, value.f0); // 将每个元素转换为二元组 (_, value)  
            }  
        }); // 按第二个字段求最大值（由于是二元组，此处不需

scala：

object SumMinMaxExample {  
  def main(args: Array[String]): Unit = {  
    // 创建流处理环境  
    val env = StreamExecutionEnvironment.getExecutionEnvironment  
    val stream = env.fromElements(  
      (1, "a"), (2, "b"), (3, "c"), (4, "d"), (5, "e")  
    ) // 输入数据流  
  
    // 求和  
    val sum = stream.map(x => (x._1, x._2, x._1)) // 将每个元素转换为三元组 (value, _, sum)  
    sum.print() // 打印结果  
  
    // 求最小值  
    val min = stream.map(x => (x._1, x._2, x._1)) // 将每个元素转换为三元组 (value, _, min)  
    min.print() // 打印结果  
  
    // 求最大值  
    val max = stream.map(x => (x._1, x._2, x._1)) // 将每个元素转换为三元组 (value, _, max)  
    max.print() // 打印结果  
  
    // 按某个字段求最小值（例如按第二个字段）  
    val minBySecondField = stream.map(x => (x._2, x._1)) // 将每个元素转换为二元组 (_, value)  
    minBySecondField.keyBy(0).minBy(1).print() // 按第二个字段求最小值并打印结果  
  
    // 按某个字段求最大值（例如按第二个字段）  
    val maxBySecondField = stream.map(x => (x._2, x._1)) // 将每个元素转换为二元组 (_, value)  
    maxBySecondField.keyBy(0).maxBy(1).print() // 按第二个字段求最大值并打印结果  
  
    // 启动流处理作业  
    env.execute("Sum, Min, Max and MinBy/MaxBy example")  
  }  
}

(3) 归约聚合（reduce）

reduce可以对已有的数据进行归约处理，把每一个新输入的数据和当前已经归约出来的值，再做一个聚合计算。

reduce操作也会将KeyedStream转换为DataStream。它不会改变流的元素数据类型，所以输出类型和输入类型是一样的。

java：

public class ReduceExample {  
    public static void main(String[] args) throws Exception {  
        // 创建流处理环境  
        final ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment();  
  
        // 创建一个整数数据集  
        DataSet numbers = env.fromElements(1, 2, 3, 4, 5);  
  
        // 使用reduce()函数对数据集进行求和  
        DataSet sum = numbers.reduce(new ReduceFunction() {  
            @Override  
            public Integer reduce(Integer value1, Integer value2) throws Exception {  
                return value1 + value2;  
            }  
        });  
  
        // 打印结果  
        sum.print();  
  
        // 执行流处理作业  
        env.execute("Reduce example");  
    }  
}

scala:

object ReduceExample {  
  def main(args: Array[String]): Unit = {  
    // 创建流处理环境  
    val env = StreamExecutionEnvironment.getExecutionEnvironment  
    val stream = env.fromElements(1, 2, 3, 4, 5) // 输入数据流  
  
    // 求和  
    val sum = stream.reduce(_ + _) // 使用 reduce 操作进行求和  
    sum.print() // 打印结果  
  
    // 启动流处理作业  
    env.execute("Reduce example")  
  }  
}

3.3 用户自定义函数

3.4 物理分区算子

1.自定义分区：

使用用户定义的 Partitioner 为每个元素选择目标任务。

Java：

dataStream.partitionCustom(partitioner, "someKey");
dataStream.partitionCustom(partitioner, 0);

Scala

dataStream.partitionCustom(partitioner, "someKey")
dataStream.partitionCustom(partitioner, 0)

2.随机分区:

将元素随机地均匀划分到分区。

Java：

dataStream.shuffle();

Scala：

dataStream.shuffle()

四、输出算子

4.1 连接到外部系统

Flink1.12以前，Sink算子的创建是通过调用DataStream的.addSink()方法实现的。

stream.addSink(new SinkFunction(…));

addSink方法同样需要传入一个参数，实现的是SinkFunction接口。在这个接口中只需要重写一个方法invoke()，用来将指定的值写入到外部系统中。这个方法在每条数据记录到来时都会调用。

Flink1.12开始，同样重构了Sink架构，

stream.sinkTo(…)

当然，Sink多数情况下同样并不需要我们自己实现。之前我们一直在使用的print方法其实就是一种Sink，它表示将数据流写入标准控制台打印输出。Flink官方为我们提供了一部分的框架的Sink连接器。

4.2 传输到文件

FileSink，为批处理和流处理提供了一个统一的Sink，它可以将分区文件写入Flink支持的文件系统。

FileSink支持行编码（Row-encoded）和批量编码（Bulk-encoded）格式。这两种不同的方式都有各自的构建器（builder），可以直接调用FileSink的静态方法：

行编码： FileSink.forRowFormat（basePath，rowEncoder）。

批量编码： FileSink.forBulkFormat（basePath，bulkWriterFactory）。

public class FileSinkExample {  
    public static void main(String[] args) throws Exception {  
        // 创建流执行环境  
        final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();  
  
        // 创建数据源数据流，这里简单起见，我们直接创建一个包含字符串的流  
        DataStream text = env.fromElements("Hello", "World", "Flink", "Streaming");  
  
        // 使用RichSinkFunction创建一个将数据写入文件的Sink  
        text.addSink(new RichSinkFunction() {  
            private FileWriter fileWriter;  
            private BufferedWriter bufferedWriter;  
  
            @Override  
            public void open(Configuration parameters) throws IOException {  
                super.open(parameters);  
                fileWriter = new FileWriter("output.txt", true); // 第二个参数表示是否追加到文件末尾  
                bufferedWriter = new BufferedWriter(fileWriter);  
            }  
  
            @Override  
            public void invoke(String value, RuntimeContext runtimeContext) throws IOException {  
                bufferedWriter.write(value); // 将元素写入文件  
                bufferedWriter.newLine(); // 换行  
            }  
  
            @Override  
            public void close() throws IOException {  
                super.close();  
                bufferedWriter.close(); // 关闭写入器  
                fileWriter.close(); // 关闭文件写入器  
            }  
        });  
  
        // 执行任务  
        env.execute("File Sink Example");  
    }  
}

scala：

object FileSinkExample {  
  def main(args: Array[String]): Unit = {  
    // 创建执行环境  
    val env = ExecutionEnvironment.getExecutionEnvironment  
  
    // 创建数据源  
    val data = env.fromElements("Hello, Flink!", "Goodbye, Flink!")  
  
    // 创建文件输出流  
    val output = data.writeAsText("/path/to/output/file")  
  
    // 执行任务  
    env.execute("File Sink Example")  
  }  
}

4.3 传输到kafka

addSink 方法实现

java:


public class ProducerKafkaFlink {
    public static void main(String[] args) throws Exception {
 
        final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
 
        //从kafka读取数据
        Properties properties = new Properties();
        properties.setProperty("bootstrap.servers", "localhost:9092");
        properties.setProperty("group.id", "test-consumer-group");
        FlinkKafkaConsumer myConsumer = new FlinkKafkaConsumer<>("tuzisir", new SimpleStringSchema(), properties);
        DataStream stream = env.addSource(myConsumer);
        stream.print();
 
        //将结果写到kafka
        stream.addSink(new FlinkKafkaProducer<>(
                "localhost:9092",
                "student-write",
                new SimpleStringSchema()
        )).name("flink-connectors-kafka");
 
        env.execute("write to kafka");
 
    }
}

scala：

object KafkaExample {  
  def main(args: Array[String]): Unit = {  
    // 创建流处理环境  
    val env = StreamExecutionEnvironment.getExecutionEnvironment  
  
    // 创建数据源  
    val input = env.fromElements("Hello", "World")  
  
    // 定义Kafka生产者配置  
    val kafkaProps = new Properties()  
    kafkaProps.setProperty("bootstrap.servers", "localhost:9092")  
    kafkaProps.setProperty("group.id", "test")  
  
    // 创建Kafka序列化器  
    val schema = new KafkaSerializationSchema[String](new SimpleStringSchema()) {  
      override def serialize(element: String, partitioner: Int): Array[Byte] = {  
        element.getBytes(StandardCharsets.UTF_8)  
      }  
    }  
  
    // 创建Kafka生产者并输出数据到Kafka主题  
    val kafkaProducer = new FlinkKafkaProducer[String]("my-topic", schema, kafkaProps)  
    input.addSink(kafkaProducer)  
  
    // 执行流处理任务  
    env.execute("Flink Kafka Example")  
  }  
}

4.4 传输到MySQL

toAppendStream 方法实现

java：

public class FlinkToMySQLExample {  
    public static void main(String[] args) throws Exception {  
        // 设置执行环境  
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();  
        StreamTableEnvironment tableEnv = StreamTableEnvironment.create(env);  
        tableEnv.enableCatalogs(); // 启用 catalogs 支持  
        tableEnv.useCatalog("kafka"); // 使用名为 "kafka" 的 catalog  
        tableEnv.getCatalog("kafka").get().open(); // 打开 catalog 连接  
        tableEnv.executeSql("CREATE TABLE kafka_table (name STRING, age INT) WITH (...)"); // 创建 Kafka 表并指定连接参数（这里需要指定 Kafka 的连接参数）  
        tableEnv.executeSql("CREATE TABLE mysql_table (name STRING, age INT) WITH ('connector' = 'mysql', 'hostname' = 'localhost', 'database-name' = 'mydb', 'username' = 'root', 'password' = 'password')"); // 创建 MySQL 表并指定连接参数（这里需要指定 MySQL 的连接参数）  
        // 读取 Kafka 中的数据并插入到 MySQL 中  
        Table kafkaTable = tableEnv.sqlQuery("SELECT * FROM kafka_table"); // 从 Kafka 表中选择数据  
        tableEnv.toAppendStream(kafkaTable, Row.class).map(row -> row).addSink(Sinks.jdbc("INSERT INTO mysql_table VALUES (?, ?)", "name, age", new JdbcAppendStreamSinkFunction<>(new JdbcConnectionOptions("jdbc:mysql://localhost:3306/mydb", "root", "password")))); // 将数据插入到 MySQL 表中  
        env.execute(); // 执行 Flink 作业  
    }  
}

scala：

object WriteToMySQL {  
  def main(args: Array[String]): Unit = {  
    // 设置执行环境  
    val env = StreamExecutionEnvironment.getExecutionEnvironment  
    val tEnv = StreamTableEnvironment.create(env)  
  
    // 创建输入数据流  
    val inputStream = env.fromElements("John", "Anna", "Peter", "Linda")  
      // 使用简单的字符串格式化器  
      .map(new MapFunction[String, Row]() {  
        override def map(value: String): Row = {  
          val row = new Row(1)  
          row.setField(0, value)  
          row  
        }  
      })  
      // 注册为表进行查询操作  
      val table = tEnv.fromDataStream(inputStream, $"name")  
    tEnv.toAppendStream[Row](table, $"name") // 将表转换为流并输出名字字段，流中的每条记录都是一个名字。  
      // 写入 MySQL 数据库，此处以 localhost:3306/dbname 为例，请根据实际情况修改。  
      // 注意：MySQL JDBC URL 的格式为 jdbc:mysql://hostname:port/databaseName?characterEncoding=UTF-8&useSSL=false&allowPublicKeyRetrieval=true&serverTimezone=UTC&allowMultiQueries=true&useUnicode=true&autoReconnect=true&serverTimezone=UTC&allowMultiQueries=true&useUnicode=true&autoReconnect=true&allowPublicKeyRetrieval=true&allowMultiQueries=true&useUnicode=true&autoReconnect=true。其中hostname:port/databaseName为你实际的MySQL地址和数据库名。此处的例子只是为了演示。  
      // 注意：在生产环境中，需要配置好合适的异常处理和重试机制。本示例中未包含。  
      // 注意：此处的代码示例是简化的，只包含基本的写入操作，并未包含所有可能的错误处理和优化。在生产环境中，需要更全面的错误处理和优化策略。此处的代码仅供参考。  
      // 注意：在生产环境中，需要配置好合适的序列化和反序列化机制。本示例中未包含。  
      // 注意：在使用 JDBC 连接器时，需要考虑连接池的使用和资源的管理。本示例中未包含。  
      // 注意：在使用 JDBC 连接器时，需要考虑 SQL 注入攻击的风险。本示例中未包含。本示例中未包含。本示例中未包含。本示例中未包含。本示例中未包含。本示例中未包含。本示例中未包含。本示例中未包含。本示例中未包含。本示例中未包含。本示例中未包含。本示例中未包含。本示例中未包含。本示例中未包含。本示例中未包含。本示例中未包含。本示例中未包含。本示例中未包含。本示例中未包含。本示例中未包含。本示例中未包含

4.5 自定义Sink输出

如果我们想将数据存储到我们自己的存储设备中，而Flink并没有提供可以直接使用的连接器，就只能自定义Sink进行输出了。与Source类似，Flink为我们提供了通用的SinkFunction接口和对应的RichSinkDunction抽象类，只要实现它，通过简单地调用DataStream的.addSink()方法就可以自定义写入任何外部存储。

stream.addSink(new MySinkFunction());

在实现SinkFunction的时候，需要重写的一个关键方法invoke()，在这个方法中我们就可以实现将流里的数据发送出去的逻辑。

这种方式比较通用，对于任何外部存储系统都有效；不过自定义Sink想要实现状态一致性并不容易，所以一般只在没有其它选择时使用。实际项目中用到的外部连接器Flink官方基本都已实现，而且在不断地扩充，因此自定义的场景并不常见。

你可能感兴趣的:(flink)

Flink 源码笔记03—StreamGraph到JobGraph 董嘻嘻 Flink源码笔记 flink java big data
文章目录简介入口函数traverseStreamGraphAndGenerateHashesgenerateDeterministicHashgenerateUserSpecifiedHashsetChainingisChainable简介JobGraph可以认为是StreamGraph的优化图，它将一些符合特定条件的operators合并成一个operatorchain，以减少数据在节点之间序列
flink核心特性 24k小善 flink 大数据 java 架构
ApacheFlink核心特性详解一、流处理与批处理的统一Flink的核心设计理念之一是将流处理和批处理统一在一个框架中。这种统一性使得Flink在处理实时数据和批量数据时具有高度的灵活性和一致性。1.流处理与批处理的统一计算引擎流处理作为批处理的特例：Flink将批处理视为有限流（FiniteStream），从而实现了流处理和批处理的统一。统一API：Flink提供了DataStream和Dat
flink反压详解 24k小善 flink 架构大数据 AI编程
Flink背压/反压（Backpressure）详解在ApacheFlink中，背压（Backpressure）是一个常见的性能问题，通常表现为数据流在某些节点处积压，导致整体处理速度下降甚至停滞。背压的发生可能源于硬件资源限制、任务逻辑复杂性、数据分布不均或外部系统瓶颈等因素。本文将从多个角度详细讲解Flink的背压问题，包括其成因、影响以及解决方案。一、什么是Flink背压？背压是指在数据流处
十四、Flink源码阅读--JobGraph生成过程灰二和杉菜 Apache Flink Flink JobGraph生成源码分析
上篇分析了client整个提交任务过程，最终提交的是一个JobGraph对象，那么是如何从jar或sql任务转为JobGraph的呢，这篇我们仔细研究一下,版本为1.6.3源码分析上篇我们介绍client端提交任务最终会到到ClusterClient.run()方法，就在这个方法中封装了JobGraph的步骤。publicJobSubmissionResultrun(FlinkPlancompil
最新Apache Hudi 1.0.1源码编译详细教程以及常见问题处理 Toroidals 大数据组件安装部署教程 hudi1.0.1 源码编译教程最新
1.最新ApacheHudi1.0.1源码编译2.Flink、Spark、Hive集成Hudi1.0.13.flinkstreaming写入hudi目录1.版本介绍2.安装maven2.1.下载maven2.2.设置环境变量2.3.添加Maven镜像3.编译hudi3.1.下载hudi源码3.2.修改hudi源码3.3.修改hudi-1.0.1/pom.xml，注释或去掉410行内容3.4.安装c
Flink提交pyflink任务 Leo_Hu666 flink 大数据 python pyflink
1.官方文档：flink1.14:https://nightlies.apache.org/flink/flink-docs-release-1.14/docs/deployment/cli/#submitting-pyflink-jobsflink1.18:https://nightlies.apache.org/flink/flink-docs-release-1.18/docs/deploy
Flink在指定时间窗口内统计均值，超过阈值后报警小的~~ flink 均值算法大数据
1、需求统计物联网设备收集上来的温湿度数据，如果5分钟内的均值超过阈值(30摄氏度)则发出告警消息，要求时间窗口和阈值可在管理后台随时修改，实时生效(完成当前窗口后下一个窗口使用最新配置)。物联网设备的数据从kafka中读取，配置数据从mysql中读取，有个管理后台可以调整窗口和阈值大小。2、思路使用flink的双流join，配置数据使用广播流，设备数据使用普通流。3、实现代码packagecu.
Flink SQL 优化实战 - 维表 JOIN 优化腾讯云大数据大数据数据库 flink sql
作者：龙逸尘，腾讯CSIG高级工程师背景介绍维表（DimensionTable）是来自数仓建模的概念。在数仓模型中，事实表（FactTable）是指存储有事实记录的表，如系统日志、销售记录等，而维表是与事实表相对应的一种表，它保存了事实表中指定属性的相关详细信息，可以跟事实表做关联；相当于将事实表上经常重复出现的属性抽取、规范出来用一张表进行管理。在实际生产中，我们经常会有这样的需求，以原始数据流
阿里云RDS到亚马逊云RDS的实时数据同步方案详解 ivwdcwso 运维阿里云云计算 aws kda 数据同步
1.需求背景在当今的多云环境中,企业经常需要在不同云平台之间同步数据。本文将详细介绍如何实现从阿里云RDSMySQL数据库到亚马逊云RDSMySQL数据库的实时数据同步。这种同步对于数据备份、跨区域数据访问、数据分析等场景都非常有用。2.方案概述我们将使用AWSKinesisDataAnalytics(KDA)作为核心组件来实现这个实时同步方案。KDA基于ApacheFlink,支持使用SQL或J
Flink 安装阿里云docker compose部署及相关组件 vellerzheng 部署运维 flink docker 大数据
Flink安装脚本文件version:"2.2"services:jobmanager:image:flink:1.15.2-java11expose:-"6123"ports:-"8081:8081"command:jobmanagervolumes:-/home:/homeenvironment:-JOB_MANAGER_RPC_ADDRESS=jobmanagerprivileged:tru
使用Docker搭建Flink集群 O_1CxH Flink大数据 Kafka大数据 docker flink 容器
目录使用Docker搭建Flink集群docker-compose一键搭建步骤附录参考资料使用Docker搭建Flink集群在学习大数据框架的时候，需要一个真实的环境。我们知道，像spark、flink这些计算框架都有多种运行模式：在本地使用多线程模拟集群真正的分布式集群如果直接在IDE（Intellj）里面编译和运行写好的程序，实际上是用的前一种运行模式；如果想尝试真正的生产环境中任务的提交和管
Spark 和 Flink 信徒_ spark flink 大数据
Spark和Flink都是目前流行的大数据处理引擎，但它们在架构设计、应用场景、性能和生态方面有较大区别。以下是详细对比：1.架构与核心概念方面ApacheSparkApacheFlink计算模型微批（Micro-Batch）为主，但支持结构化流（StructuredStreaming）原生流（TrueStreaming），基于事件驱动处理方式以RDD、DataFrame/Dataset作为核心抽
Flink-k8s弹性扩缩容原理和部署步骤 spring208208 flink kubernetes 贪心算法
背景和现状目前行内提交flink作业采用Nativekubernetes模式，提交作业时会指定并行度和taskmanager使用的内存及cpu数量。这种情况下会导致在作业运行高峰可能存在资源不足问题运行低峰又会造成资源浪费，这种粗放的使用资源的模式在实时计算业务量不多的时候还可以勉强接受，而随着实时计算业务的增多，则会造成大量的资源浪费和性能瓶颈。为了使存储和计算资源得到更加合理有效的使用，能跟据
20250124 Flink 增量聚合 vs 全量聚合靈臺清明 Flink flink
1.增量聚合vs全量聚合(1)增量聚合（ReduceFunction/AggregateFunction）工作方式：逐步计算：每一条数据到达窗口时，立即与当前聚合结果结合，生成新的中间结果。仅保存中间状态：内存中只保留当前的聚合值（如累加和、最大值等），不保存原始数据。触发窗口计算时：直接输出最终的聚合结果，无需遍历所有数据。示例：计算窗口内数字的和DataStreamnumbers=...;nu
Flink CDC 在阿里云 DataWorks 数据集成入湖场景的应用实践大数据flink阿里云数据分析
摘要：本文整理自FlinkForwardAsia2024大会中阿里云DataWorks数据集成团队陈吉通的分享，主要分享FlinkCDC在阿里云DataWorks数据集成入湖场景的应用实践。内容分为以下四个部分：1.阿里云DataWorks数据集成介绍2.DataWorks数据集成入湖解决方案的架构和原理3.DataWorks数据集成入湖场景的产品化案例分享4.未来规划一、阿里云DataWorks
Flink-提交job 笨鸟先-森大数据 flink
目录一、Flink流处理扩展及说明二、Flink部署三、Standalone模式四、在命令行提交job：五、在网页中提交flinkjob一、Flink流处理扩展及说明涉及：自定义线程优先级=socket流中读取数据并行度只能是11、特定的算子设定了并行度最优先2、算子没有设定并行度就是用整体运行环境设置的并行度3、环境的并行度没有设置就使用提交时候提交参数设置的并行度4、都没有设置就遵循flink
Flink 实践教程-入门（10）：Python作业的使用腾讯云大数据数据库大数据 java python 数据分析
作者：腾讯云流计算Oceanus团队流计算Oceanus简介流计算Oceanus是大数据产品生态体系的实时化分析利器，是基于ApacheFlink构建的具备一站开发、无缝连接、亚秒延时、低廉成本、安全稳定等特点的企业级实时大数据分析平台。流计算Oceanus以实现企业数据价值最大化为目标，加速企业实时化数字化的建设进程。教程链接：Flink实践教程-入门（10）：Python作业的使用-云+社区-
pyflink作业提交的踩坑过程，看完少走两个星期弯路 Li_yi_chao 大数据
flink在努力地将Python生态和大数据生态融合，但目前的版本还不够成熟，尤其是在官方对python现有资料有限的情况下，用户想要使用python完成一个flinkjob并提交到flink平台上，还是有很多雷需要踩的。以下对pyflink环节问题，pythonjob编写到提交做了总结，可减少不必要的弯路。一、部署环境JDK1.8+&Python3.5+(3.7.6)&apache-flink1
Paimon实战 -- paimon原理解析阿华田512 Paimon学习必读系列 paimon 数据湖 paimon介绍 flink写入
一.简介ApachePaimon原名FlinkTableStore，2022年1月在ApacheFlink社区从零开始研发，Flink社区希望能够将Flink的Streaming实时计算能力和Lakehouse新架构优势进一步结合，促进数据在数据湖上真正实时流动起来，并为用户提供实时离线一体化的开发体验。二.基本概念1、快照（Snapshot）快照捕获表在某个时间点的状态。用户可以通过最新的快照访
paimon实战 --核心原理和Flink应用进阶阿华田512 Paimon学习必读系列 Flink学习必读系列 flink 大数据 flink读写 paimon 数据湖
简介Flink社区希望能够将Flink的Streaming实时计算能力和Lakehouse新架构优势进一步结合，推出新一代的StreamingLakehouse技术，促进数据在数据湖上真正实时流动起来，并为用户提供实时离线一体化的开发体验。Flink社区内部孵化了FlinkTableStore（简称FTS）子项目，一个真正面向Streaming以及Realtime的数据湖存储项目。2023年3月1
【Apache Paimon】-- 16 -- 利用 paimon-flink-action 同步 kafka 数据到 hive paimon 表中 oo寻梦in记 Apache Paimon apache flink kafka apache paimon paimon
目录引言CDC技术概述2.1什么是CDC2.2CDC的应用场景Kafka作为CDC数据源的原理与优势3.1Kafka的基本架构3.2Kafka在CDC中的角色
flink实时集成利器 - apache seatunnel - 核心架构详解 24k小善 flink apache 架构
SeaTunnel（原名Waterdrop）是一个分布式、高性能、易扩展的数据集成平台，专注于大数据领域的数据同步、数据迁移和数据转换。它支持多种数据源和数据目标，并可以与ApacheFlink、Spark等计算引擎集成。以下是SeaTunnel的核心架构详解：SeaTunnel核心架构SeaTunnel的架构设计分为以下几个核心模块：1.数据源（Source）功能：负责从外部系统读取数据。支持的
Flink怎么保证Exactly - Once 语义我明天再来学Web渗透后端技术总结 flink 大数据开源开发语言
Exactly-Once语义是消息处理领域中的一种严格数据处理语义，指每条数据都只会被精确消费和处理一次，既不会丢失，也不会重复。以下从消息传递语义对比、实现方式、应用场景等方面详细介绍：与其他消息传递语义对比在消息传递中，常见三种语义：最多一次（at-most-once）：消息可能丢失，但绝不会重复。至少一次（at-least-once）：消息不会丢失，但可能重复。精确一次（exactly-on
Flink内存配置和优化 Leo_Hu666 flink 大数据
在ApacheFlink1.18的Standalone集群中，内存设置是一个关键配置，它直接影响集群的性能和稳定性。Flink的内存配置主要包括JobManager和TaskManager的内存分配。以下是如何在Standalone模式下配置内存的详细说明。JobManager内存配置JobManager是Flink集群的主节点，负责协调任务调度和资源管理。它的内存配置可以通过以下参数进行调整：配
Flink入门-通过DataStream Api实现消费欺诈检测似水_逆行 Flink flink 大数据
1信用卡消费欺诈信用卡消费欺诈是指在信用卡的使用过程中，通过不正当手段获取或使用信用卡资金，侵犯他人或银行的财产权益的行为。这种行为可能包括但不限于盗刷、伪造信用卡、冒用他人信用卡、恶意透支等2模拟场景我们模拟不同账户的信用卡消费记录，通过分析实时的消费记录，针对常见的消费欺诈进行检测，检测出来的欺诈行为进行告警。3核心流程与代码1）通过TransactionSource构建消费记录，主要包含ac
Flink-DataStream快速上手 code@fzk 大数据 flink 大数据 java
文章目录1.安装部署安装2.执行任务Standalone模式启动/停止执行任务Yarn模式Session-cluster模式启动yarn-session执行任务Per-Job-Cluster模式3.执行环境EnvironmentgetExecutionEnvironment（常用）createLocalEnvironmentcreateRemoteEnvironmentSource、SinkTra
Flink之DataStream API 概述小虎牙_43437171 flink flink 大数据 java
DataStreamAPI概述前言一、DataStreamAPI应用实例DataStream程序主要包含3部分：1、StreamExecutionEnvironment初始化：该部分主要创建和初始化StreamExecutionEnvironment，提供通过DataStreamAPI构建Flink作业需要的执行环境，包括设定ExecutionConfig、CheckpointConfig等配置信
Flink KafkaConsumer offset是如何提交的红烛暗盗梦 flink 大数据
一、fllink内部配置client.id.prefix，指定用于KafkaConsumer的客户端ID前缀partition.discovery.interval.ms，定义KafkaSource检查新分区的时间间隔。请参阅下面的动态分区检查一节register.consumer.metrics指定是否在Flink中注册KafkaConsumer的指标commit.offsets.on.chec
Java分布式流处理，flink+kafka实现电商网站个性化商品推荐系统图苑分布式 java flink
文章目录戳底部名片，一起变现技术栈选择设计实现思路实现步骤及示例代码1.数据采集2.数据预处理3.特征工程4.模型训练5.结果输出6.前端展示戳底部名片，一起变现在现代电商环境中，用户每天都会浏览大量商品页面，而这些行为数据中蕴藏着丰富的信息。通过分析用户的浏览历史、购买记录以及对特定商品的兴趣程度，我们可以为用户提供更加个性化的商品推荐，从而提升用户体验和转化率。为了实现实时的个性化推荐，我们需
Flink 内存模型各部分大小计算公式 bluedraam_pp flink 大数据
Flink的运行平台如果Flink是运行在yarn或者standalone模式的话，其实都是运行在JVM的基础上的，所以首先Flink组件运行所需要给JVM本身要耗费的内存大小。无论是JobManager或者TaskManager，他们JVM内存的大小都是一样的，都是由JVMmetaspace和JVMoverhead组成的。metaspace元空间的部分，保存JVM中class类等区域，然后JVM
java线程Thread和Runnable区别和联系 zx_code java jvm thread 多线程 Runnable
我们都晓得java实现线程2种方式，一个是继承Thread，另一个是实现Runnable。模拟窗口买票，第一例子继承thread，代码如下 package thread; public class ThreadTest { public static void main(String[] args) { Thread1 t1 = new Thread1(
【转】JSON与XML的区别比较丁_新 json xml
1.定义介绍 (1).XML定义扩展标记语言 (Extensible Markup Language, XML) ，用于标记电子文件使其具有结构性的标记语言，可以用来标记数据、定义数据类型，是一种允许用户对自己的标记语言进行定义的源语言。 XML使用DTD(document type definition)文档类型定义来组织数据;格式统一，跨平台和语言，早已成为业界公认的标准。 XML是标
c++ 实现五种基础的排序算法 CrazyMizzz C++c 算法
#include<iostream> using namespace std; //辅助函数，交换两数之值 template<class T> void mySwap(T &x, T &y){ T temp = x; x = y; y = temp; } const int size = 10; //一、用直接插入排
我的软件麦田的设计者我的软件音乐类娱乐放松
这是我写的一款app软件，耗时三个月，是一个根据央视节目开门大吉改变的，提供音调，猜歌曲名。1、手机拥有者在android手机市场下载本APP，同意权限，安装到手机上。2、游客初次进入时会有引导页面提醒用户注册。（同时软件自动播放背景音乐）。3、用户登录到主页后，会有五个模块。a、点击不胫而走，用户得到开门大吉首页部分新闻，点击进入有新闻详情。b、
linux awk命令详解被触发 linux awk
awk是行处理器: 相比较屏幕处理的优点，在处理庞大文件时不会出现内存溢出或是处理缓慢的问题，通常用来格式化文本信息 awk处理过程: 依次对每一行进行处理，然后输出 awk命令形式: awk [-F|-f|-v] ‘BEGIN{} //{command1; command2} END{}’ file [-F|-f|-v]大参数，-F指定分隔符，-f调用脚本，-v定义变量 var=val
各种语言比较 _wy_ 编程语言
Java Ruby PHP 擅长领域
oracle 中数据类型为clob的编辑知了ing oracle clob
public void updateKpiStatus(String kpiStatus,String taskId){ Connection dbc=null; Statement stmt=null; PreparedStatement ps=null; try { dbc = new DBConn().getNewConnection(); //stmt = db
分布式服务框架 Zookeeper -- 管理分布式环境中的数据矮蛋蛋 zookeeper
原文地址： http://www.ibm.com/developerworks/cn/opensource/os-cn-zookeeper/ 安装和配置详解本文介绍的 Zookeeper 是以 3.2.2 这个稳定版本为基础，最新的版本可以通过官网 http://hadoop.apache.org/zookeeper/来获取，Zookeeper 的安装非常简单，下面将从单机模式和集群模式两
tomcat数据源 alafqq tomcat
数据库 JNDI(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。没有使用JNDI时我用要这样连接数据库： 03. Class.forName("com.mysql.jdbc.Driver"); 04. conn
遍历的方法百合不是茶遍历
遍历在java的泛
linux查看硬件信息的命令 bijian1013 linux
linux查看硬件信息的命令一.查看CPU： cat /proc/cpuinfo 二.查看内存： free 三.查看硬盘： df linux下查看硬件信息 1、lspci 列出所有PCI 设备； lspci - list all PCI devices:列出机器中的PCI设备（声卡、显卡、Modem、网卡、USB、主板集成设备也能
java常见的ClassNotFoundException bijian1013 java
1.java.lang.ClassNotFoundException: org.apache.commons.logging.LogFactory 添加包common-logging.jar2.java.lang.ClassNotFoundException: javax.transaction.Synchronization
【Gson五】日期对象的序列化和反序列化 bit1129 反序列化
对日期类型的数据进行序列化和反序列化时，需要考虑如下问题： 1. 序列化时，Date对象序列化的字符串日期格式如何 2. 反序列化时，把日期字符串序列化为Date对象，也需要考虑日期格式问题 3. Date A -> str -> Date B,A和B对象是否equals 默认序列化和反序列化 import com
【Spark八十六】Spark Streaming之DStream vs. InputDStream bit1129 Stream
1. DStream的类说明文档： /** * A Discretized Stream (DStream), the basic abstraction in Spark Streaming, is a continuous * sequence of RDDs (of the same type) representing a continuous st
通过nginx获取header信息 ronin47 nginx header
1. 提取整个的Cookies内容到一个变量，然后可以在需要时引用，比如记录到日志里面， if ( $http_cookie ~* "(.*)$") { set $all_cookie $1; } 变量$all_cookie就获得了cookie的值，可以用于运算了
java-65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 bylijinnan java
参考了网上的http://blog.csdn.net/peasking_dd/article/details/6342984 写了个java版的： public class Print_1_To_NDigit { /** * Q65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 * 1.使用字符串
Netty源码学习-ReplayingDecoder bylijinnan java netty
ReplayingDecoder是FrameDecoder的子类，不熟悉FrameDecoder的，可以先看看 http://bylijinnan.iteye.com/blog/1982618 API说，ReplayingDecoder简化了操作，比如： FrameDecoder在decode时，需要判断数据是否接收完全： public class IntegerH
js特殊字符过滤 cngolon js特殊字符 js特殊字符过滤
1.js中用正则表达式过滤特殊字符, 校验所有输入域是否含有特殊符号function stripscript(s) { var pattern = new RegExp("[`~!@#$^&*()=|{}':;',\\[\\].<>/?~！@#￥……&*（）——|{}【】‘；：”“'。，、？]"
hibernate使用sql查询 ctrain Hibernate
import java.util.Iterator; import java.util.List; import java.util.Map; import org.hibernate.Hibernate; import org.hibernate.SQLQuery; import org.hibernate.Session; import org.hibernate.Transa
linux shell脚本中切换用户执行命令方法 daizj linux shell 命令切换用户
经常在写shell脚本时，会碰到要以另外一个用户来执行相关命令，其方法简单记下： 1、执行单个命令：su - user -c "command" 如：下面命令是以test用户在/data目录下创建test123目录 [root@slave19 /data]# su - test -c "mkdir /data/test123"
好的代码里只要一个 return 语句 dcj3sjt126com return
别再这样写了：public boolean foo() { if (true) { return true; } else { return false;
Android动画效果学习 dcj3sjt126com android
1、透明动画效果方法一：代码实现 public View onCreateView(LayoutInflater inflater, ViewGroup container, Bundle savedInstanceState) { View rootView = inflater.inflate(R.layout.fragment_main, container, fals
linux复习笔记之bash shell (4)管道命令 eksliang linux管道命令汇总 linux管道命令 linux常用管道命令
转载请出自出处： http://eksliang.iteye.com/blog/2105461 bash命令执行的完毕以后，通常这个命令都会有返回结果，怎么对这个返回的结果做一些操作呢？那就得用管道命令‘|’。上面那段话，简单说了下管道命令的作用，那什么事管道命令呢？答：非常的经典的一句话，记住了，何为管
Android系统中自定义按键的短按、双击、长按事件 gqdy365 android
在项目中碰到这样的问题：由于系统中的按键在底层做了重新定义或者新增了按键，此时需要在APP层对按键事件（keyevent）做分解处理，模拟Android系统做法，把keyevent分解成： 1、单击事件：就是普通key的单击； 2、双击事件：500ms内同一按键单击两次； 3、长按事件：同一按键长按超过1000ms（系统中长按事件为500ms）； 4、组合按键：两个以上按键同时按住；
asp.net获取站点根目录下子目录的名称 hvt .net C#asp.net hovertree Web Forms
使用Visual Studio建立一个.aspx文件(Web Forms)，例如hovertree.aspx,在页面上加入一个ListBox代码如下： <asp:ListBox runat="server" ID="lbKeleyiFolder" /> 那么在页面上显示根目录子文件夹的代码如下： string[] m_sub
Eclipse程序员要掌握的常用快捷键 justjavac java eclipse 快捷键 ide
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。写道程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可
c++编程随记 lx.asymmetric C++笔记
为了字体更好看，改变了格式…… &&运算符： #include<iostream> using namespace std; int main(){ int a=-1,b=4,k; k=(++a<0)&&!(b--
linux标准IO缓冲机制研究音频数据 linux
一、什么是缓存I/O(Buffered I/O)缓存I/O又被称作标准I/O,大多数文件系统默认I/O操作都是缓存I/O。在Linux的缓存I/O机制中，操作系统会将I/O的数据缓存在文件系统的页缓存(page cache)中，也就是说，数据会先被拷贝到操作系统内核的缓冲区中，然后才会从操作系统内核的缓冲区拷贝到应用程序的地址空间。1.缓存I/O有以下优点:A.缓存I/O使用了操作系统内核缓冲区，
随想生活暗黑小菠萝生活
其实账户之前就申请了，但是决定要自己更新一些东西看也是最近。从毕业到现在已经一年了。没有进步是假的，但是有多大的进步可能只有我自己知道。毕业的时候班里12个女生，真正最后做到软件开发的只要两个包括我，PS：我不是说测试不好。当时因为考研完全放弃找工作，考研失败，我想这只是我的借口。那个时候才想到为什么大学的时候不能好好的学习技术，增强自己的实战能力，以至于后来找工作比较费劲。我
我认为POJO是一个错误的概念 windshome java POJO 编程 J2EE 设计
这篇内容其实没有经过太多的深思熟虑，只是个人一时的感觉。从个人风格上来讲，我倾向简单质朴的设计开发理念；从方法论上，我更加倾向自顶向下的设计；从做事情的目标上来看，我追求质量优先，更愿意使用较为保守和稳妥的理念和方法。 &