小鱼干换酒钱

Flink-CDC增量数据同步

1、介绍

1.1 什么是CDC

CDC是Change Data Capture(变更数据获取)的简称。核心思想是，监测并捕获数据库的变动（包括数据或数据表的插入、更新以及删除等），将这些变更按发生的顺序完整记录下来，写入到消息中间件中以供其他服务进行订阅及消费。

1.2 CDC的种类

CDC主要分为基于查询和基于Binlog两种方式，我们主要了解一下这两种之间的区别：

	基于查询的CDC	基于Binlog的CDC
开源产品	Sqoop、Kafka JDBC Source	Canal、Maxwell、Debezium
执行模式	Batch	Streaming
是否可以捕获所有数据变化	否	是
延迟性	高延迟	低延迟
是否增加数据库压力	是	否

1.3 Flink-CDC

Flink社区开发了 flink-cdc-connectors 组件，这是一个可以直接从 MySQL、PostgreSQL 等数据库直接读取全量数据和增量变更数据的 source 组件。目前也已开源，

基于 Flink SQL CDC的实时数据同步方案

开源地址：GitHub - ververica/flink-cdc-connectors: CDC Connectors for Apache Flink®

2、Flink-CDC部署

2.1、开启MySQL Binlog

vim /etc/my.cnf

[mysqld]
# 数据库id
server-id = 1

# 启动 binlog
log-bin=mysql-bin

# binlog 类型
binlog_format=row

# 启动binlog的数据库
binlog-do-db=tms01

这里是利用MySQL的主从复制原理，将自身伪装成MySQL的一个从节点，从主节点中获取得到数据的增删改查的信息，做到对MySQL数据的增量同步。

2.2、DataStream方式的应用

写Flink代码，其中引入了CDC的依赖，然后打成jar包提交到服务器的Flink上运行。

2.2.1、导入依赖



    4.0.0

    com.admin
    tms-realtime
    1.0-SNAPSHOT


    
        8
        8
        UTF-8
        1.8
        1.16.1
        2.12
        3.3.4
        2.3.0
    

    
        
            org.apache.flink
            flink-java
            ${flink.version}
        

        
            org.apache.flink
            flink-streaming-java
            ${flink.version}
        

        
            org.apache.flink
            flink-connector-kafka
            ${flink.version}
        

        
            com.alibaba
            fastjson
            1.2.68
        

        
            org.apache.hadoop
            hadoop-client
            3.3.4
        
        
            org.apache.flink
            flink-clients
            ${flink.version}
        

        
            org.apache.flink
            flink-table-api-java-bridge
            ${flink.version}
        

        
            org.apache.flink
            flink-connector-jdbc
            ${flink.version}
        

        
            com.ververica
            flink-connector-mysql-cdc
            ${flink-cdc.version}
        

        
            org.apache.flink
            flink-statebackend-rocksdb
            ${flink.version}
        

        
            org.apache.flink
            flink-table-planner_2.12
            ${flink.version}
        

    

    
        
            
                org.apache.maven.plugins
                maven-assembly-plugin
                3.0.0
                
                    
                        jar-with-dependencies
                    
                
                
                    
                        make-assembly
                        package
                        
                            single

2.2.2、编写代码

package com.admin.flink;

import com.ververica.cdc.connectors.mysql.source.MySqlSource;
import com.ververica.cdc.connectors.mysql.table.StartupOptions;
import com.ververica.cdc.debezium.JsonDebeziumDeserializationSchema;
import org.apache.flink.api.common.eventtime.WatermarkStrategy;
import org.apache.flink.api.common.restartstrategy.RestartStrategies;
import org.apache.flink.api.common.time.Time;
import org.apache.flink.runtime.state.hashmap.HashMapStateBackend;
import org.apache.flink.streaming.api.CheckpointingMode;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.environment.CheckpointConfig;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;

public class FlinkCDC_Stream {

    public static void main(String[] args) throws Exception {
        // TODO 1. 准备流处理环境
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setParallelism(1);


        // TODO 2. 开启检查点   Flink-CDC将读取binlog的位置信息以状态的方式保存在CK,如果想要做到断点续传,
        // 需要从Checkpoint或者Savepoint启动程序
        // 2.1 开启Checkpoint,每隔5秒钟做一次CK  ,并指定CK的一致性语义
        env.enableCheckpointing(3000L, CheckpointingMode.EXACTLY_ONCE);
        // 2.2 设置超时时间为 1 分钟
        env.getCheckpointConfig().setCheckpointTimeout(60 * 1000L);
        // 2.3 设置两次重启的最小时间间隔
        env.getCheckpointConfig().setMinPauseBetweenCheckpoints(3000L);
        // 2.4 设置任务关闭的时候保留最后一次 CK 数据
        env.getCheckpointConfig().enableExternalizedCheckpoints(
                CheckpointConfig.ExternalizedCheckpointCleanup.RETAIN_ON_CANCELLATION);
        // 2.5 指定从 CK 自动重启策略
        env.setRestartStrategy(RestartStrategies.failureRateRestart(
                3, Time.days(1L), Time.minutes(1L)
        ));
        // 2.6 设置状态后端
        env.setStateBackend(new HashMapStateBackend());
        env.getCheckpointConfig().setCheckpointStorage(
                "hdfs://mycluster/flinkCDC"
        );

        // 2.7 设置访问HDFS的用户名
        System.setProperty("HADOOP_USER_NAME", "admin");

// TODO 3. 创建 Flink-MySQL-CDC 的 Source
        // initial:Performs an initial snapshot on the monitored database tables upon first startup, and continue to read the latest binlog.
// earliest:Never to perform snapshot on the monitored database tables upon first startup, just read from the beginning of the binlog. This should be used with care, as it is only valid when the binlog is guaranteed to contain the entire history of the database.
// latest:Never to perform snapshot on the monitored database tables upon first startup, just read from the end of the binlog which means only have the changes since the connector was started.
// specificOffset:Never to perform snapshot on the monitored database tables upon first startup, and directly read binlog from the specified offset.
// timestamp:Never to perform snapshot on the monitored database tables upon first startup, and directly read binlog from the specified timestamp.The consumer will traverse the binlog from the beginning and ignore change events whose timestamp is smaller than the specified timestamp.

        MySqlSource mySqlSource = MySqlSource.builder()
                .hostname("hadoop102")
                .port(3306)
                .databaseList("tms01") // set captured database
                .tableList("tms01.user_info") // set captured table
                .username("root")
                .password("123456")
                .deserializer(new JsonDebeziumDeserializationSchema()) // converts SourceRecord to JSON String
                .startupOptions(StartupOptions.initial())
                .build();

        // TODO 4.使用CDC Source从MySQL读取数据
        DataStreamSource mysqlDS =
                env.fromSource(
                        mySqlSource,
                        WatermarkStrategy.noWatermarks(),
                        "MysqlSource");

        // TODO 5.打印输出
        mysqlDS.print();

        // TODO 6.执行任务
        env.execute();
    }

}

2.2.3、将hadoop配置文件放入resource文件

因为代码中Flink开启了检查点的功能，并将检查点保存在HDFS，所以需要将Hadoop的相关配置文件放入resource文件夹，用于连接配置HDFS集群。

2.2.4、案例测试

1）打包并上传至Linux

2）启动HDFS集群

[admin@hadoop102 flink-local]$ start-dfs.sh

3）启动Flink集群

[admin@hadoop102 flink-local]$ bin/start-cluster.sh

4）启动程序

[admin@hadoop102 flink-local]$ bin/flink run -m hadoop102:8081 -c com.admin.flink.FlinkCDC_Stream ./tms-flink-cdc.jar

5）观察taskManager日志，会从头读取表数据

6）给当前的Flink程序创建Savepoint

[admin@hadoop102 flink-local]$ bin/flink savepoint JobId hdfs://hadoop102:8020/flinkCDC/save

在WebUI中cancelJob

在MySQL的tms01.user_info表中添加、修改或者删除数据

从Savepoint重启程序

[admin@hadoop102 flink-standalone]$ bin/flink run -s hdfs://hadoop102:8020/flink/save/... -c com.admin.flink.FlinkCDC_Stream ./gmall-flink-cdc.jar

观察taskManager日志，会从检查点读取表数据

2.3、FlinkSQL方式的应用

2.3.1、添加依赖


    org.apache.flink
    flink-table-planner_2.12
    1.16.1

2.3.2、代码实现

package com.admin.flink;

import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.table.api.bridge.java.StreamTableEnvironment;

public class FlinkCDC_SQL {

    public static void main(String[] args) throws Exception {
        // TODO 1. 准备环境
        // 1.1 流处理环境
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setParallelism(1);
        // 1.2 表执行环境
        StreamTableEnvironment tableEnv = StreamTableEnvironment.create(env);

        // TODO 2. 创建动态表
        tableEnv.executeSql("CREATE TABLE user_info (\n" +
                "id INT,\n" +
                "login_name STRING,\n" +
                "nick_name STRING,\n" +
                "primary key(id) not enforced\n" +
                ") WITH (" +
                "'connector' = 'mysql-cdc'," +
                "'hostname' = 'hadoop102'," +
                "'port' = '3306'," +
                "'username' = 'root'," +
                "'password' = '123456'," +
                "'database-name' = 'tms01'," +
                "'table-name' = 'user_info'" +
                ")");

        tableEnv.executeSql("select * from user_info").print();

        // TODO 3. 执行任务
        env.execute();
    }

}

2.3.3、测试

直接运行查看控制台输出。

3、生产环境中Flink-CDC配置

3.1、环境搭建

（1）创建tms-realtime模块

（2）创建如下包结构

目录	作用
app	Flink任务应用程序
util	工具类

（3）修改配置文件

在pom.xml的添加如下配置。


    8
    8
    UTF-8
    1.8
    1.16.1
    2.12
    3.3.4
    2.3.0

 

    
        org.apache.flink
        flink-java
        ${flink.version}
    
 
    
        org.apache.flink
        flink-streaming-java
        ${flink.version}
    
 
    
        org.apache.flink
        flink-connector-kafka
        ${flink.version}
    
 
    
        com.alibaba
        fastjson
        1.2.68
    
 
    
        org.apache.hadoop
        hadoop-client
        3.3.4
    
    
        org.apache.flink
        flink-clients
        ${flink.version}
    
 
    
        org.apache.flink
        flink-table-api-java-bridge
        ${flink.version}
    
 
    
        org.apache.flink
        flink-connector-jdbc
        ${flink.version}
    
 
    
        com.ververica
        flink-connector-mysql-cdc
        ${flink-cdc.version}
    
 
    
        org.apache.flink
        flink-statebackend-rocksdb
        ${flink.version}
    
 

 

    
        
            org.apache.maven.plugins
            maven-assembly-plugin
            3.0.0
            
                
                    jar-with-dependencies
                
            
            
                
                    make-assembly
                    package
                    
                        single

3.2、思路分析

（1）流处理环境准备

撰写Flink程序首先要初始化流处理环境，配套的实时项目会有很多Flink程序，为了避免重复书写大量代码，将环境准备抽取为工具类CreateEnvUtil 中的方法getStreamEnv(String[] args)。思路如下。

① 初始化流处理环境

② 获取命令行参数

生产环境下Flink Job通常采用Flink on Yarn模式部署，所有程序会打包部署到服务器，然后提交给Yarn。Flink Job的配置信息可以通过flink-conf.yaml文件指定、可以在命令行提交Job时指定、可以在代码中指定，三者的优先级依次升高。如果所有配置项都在代码中指定，要更改就必须修改代码，重新打包部署，然后提交Job。而一个Flink Job涉及的配置信息多达十几甚至几十个，当业务场景发生变化如数据洪峰到来时可能需要频繁修改，无疑会极大增加工作量。为了提升效率，配置项通常不再代码中写死，而是通过命令行与配置文件flink-conf.yaml指定。通常在flink-conf.yaml中配置默认值，如果Job的配置与默认值不同，在提交Job时显式指定以覆盖默认值。当然，用到的所有配置项全部在提交Job时指定也是可以的。

配置项可以分为两类：

    a）可以通过官方配置项指定。Flink官方提供可以通过-Dkey=value在提交Job时指定，此类无须赘述
    b）只能通过args指定。某些配置官方没有提供对应的配置项，只能通过main方法的参数，字符串数组args传递，然后用ParameterTool解析。ParameterTool会遍历args数组的元素，将--或-开头的字符串识别为配置项的key，其后紧邻的非key元素识别为对应的value，然后将所有键值对封装到HashMap中，保存在ParameterTool类对象Map类型的属性data中，然后将该对象返回。因此，通过b方式传递配置信息时需要注意：
        i）配置项的key必须以--或-开头，
        ii）与key对应的value必须与key紧邻，位于其后。

③ 对流处理环境进行配置

对于②中的a）类配置项，代码中无须改动，对于b）类配置，将命令行传入的参数传递给流处理对象。

（2）Mysql数据源准备

① 命令行传参

Flink-CDC可以监控Mysql的binlog，将采集到的数据封装为MySqlSource类型的对象。该类型对象初始化时需要指定Mysql的IP、端口、用户名、密码、数据库名称、原始表等，这些参数只能通过args传递。

② 启动模式

离线数仓需要对历史业务数据做分析处理，因此StartupMode应为initial()，即首次启动Job时执行一次全表扫描。

③ 原始表列表

增量表分为两类：与事实相关的表、与维度相关的表，这两类表的配置相同，但考虑到实时数仓测试环境下可能要对这两类表做不同的配置，我们将它们的名称封装到不同的String数组中。

④ 数据序列化

通过Flink-CDC提供的JsonDebeziumDeserializationSchema类对象做序列化，采集到的数据会被封装为JSON字符串。特殊地，decimal类型数据默认会被序列化为base-64编码的字符串，如'10.2345'会输出为'D3J5'，显然与我们的需求不符，需要将默认的序列化格式更换为NUMERIC。

⑤ serverId

Flink-CDC监控binlog是基于主从复制实现的，Flink的每个并行度会被伪装为一台从机，每台从机要有唯一的serverId。

（3）Kafka工具类

对数据处理后需要将数据写出到Kafka，编写KafkaUtil工具类及Kafka生产者初始化方法。

① 命令行传参

Kafka主题、URL等配置信息通过args传递。

② 初始化FlinkKafkaProducer对象

语义设置为精准一次，Flink对接Kafka的精准一次是基于Kafka事务通过两阶段提交实现的，未提交的数据仍然会进入Kafka，只是被标记为未提交状态。Kafka的隔离机制决定了是否可以读取这部分数据，该配置项为isolation.level，取值如下。

read_committed：读已提交，下游只能读取状态为已提交的事务数据和所有非事务数据。
read_uncommitted：读未提交，下游可以读取所有状态的事务数据和非事务数据。该值为默认值。

如果要真正保证精准一次，我们需要将isolation.level修改为read_comitted，但写入Kafka的数据只有在检查点完成时才会被提交，因而数据延迟会在原先的基础上大大增加。相邻两次检查点完成的时间间隔越大，延迟越高。因此，企业通常不愿承担这样的代价，仍使用默认的隔离级别，通过下游去重保证统计结果的准确。但是，对于某些无法去重或严格要求精准一次的场景只能接受延迟的增加。生产环境应根据实际情况在延迟和精准一次之间作取舍。

（4）时间戳处理工具类

提供两个方法，分别提供将yyyy-MM-dd HH:mm:ss的格式化时间字符串转换为毫秒时时间戳的功能和将后者转换为前者的功能。用途下文说明。

（5）主程序

① 初始化流处理环境

调用工具类CreateEnvUtil的对应方法即可。

② 全局并行度设置

Flink应用的并行度可以在4处指定：算子并行度、全局并行度、Job提交时、flink-conf.yaml配置文件中，优先级依次降低。配置文件中的并行度通常作为默认值存在，即其它三处均不指定时此处生效。对于广播算子等并行度不会更改的算子设置算子并行度，生产环境一般通常不会在代码中设置全局并行度，而是通过命令行调整。

Kafka分区数为4，Flink并行度应与之相同，全局并行度设置为4，调试程序时可以在代码中指定，打包部署之前应删除对应语句。

③ 定义source算子

a）指定读取类型（dim/dwd），监控不同的表。维度相关的表和事实相关的表各自生成数据源。

b）指定算子并行度，当source算子并行度大于1时，同一主键的数据可能会进入不同的并行度，可能因此导致数据乱序。如JSON格式为{"id":1, "name":"小红"}的数据先被修改为{"id":1, "name":"小花"}，又被修改为{"id":1, "name":"小黄"}，若两次修改进入了不同并行度，下游可能先接收到第二次修改，那么最终保留的name为“小花”而非“小黄”，从而导致统计结果出错。因此source算子并行度设置为1，保证数据严格有序。

c）ETL及数据结构转换。舍弃两种数据：i）格式不完整的JSON数据；ii）操作类型为删除的数据。通过filter算子实现。要注意，我们设置了全局并行度为4，若不显式声明则filter算子并行度为4而source并行度为1，会发生rebalance，相同主键数据可能进入不同并行度从而导致数据乱序使得计算结果出错，因此，显式声明filter算子并行度为1。

常用的时间戳字段名均为ts，为避免不必要的麻烦，将时间戳字段名由ts_ms替换为ts。此外，Flink-CDC采集到的数据中，与before、after同级的时间戳ts_ms对应的时间为数据进入Flink-CDC Job的时间，生产环境下分为两种情况：如果是snapshot采集到的历史数据该时间戳为采集时间，Flume的HDFSSink会按照它将数据写入HDFS对应日期的目录（下文详述）；如果是实时监控binlog采集到的数据，该时间戳与业务数据变更时间相差无几，可以直接将其作为业务数据变更时间，同样会被作为HDFS分区的时间戳，这两种情况改时间戳都不需要更改。但是，教学环境下我们需要模拟生成指定日期的数据，指定的日期可能与ts_ms的日期不同，此时就需要将其yyyy-MM-dd部分替换为指定的日期。使用上文提到的时间戳工具类中的对应方法完成此操作。

d）按照主键分区，相同主键数据进入相同分区，严格有序。

e）写入Kafka指定主题

3.3、代码实现

（1）FlinkCDC采集到的原始数据示例

{
    // 变更前的数据（一行）
    "before":null,
    // 变更后的数据（一行）
    "after":{
        "id":232232,
        "shift_id":1794,
        "line_id":833,
        "start_org_id":25,
        "start_org_name":"重庆市市辖区转运中心",
        "end_org_id":26,
        "end_org_name":"四川省成都市转运中心",
        "status":"67004",
        "order_num":0,
        "driver1_emp_id":1620,
        "driver1_name":"袁永",
        "driver2_emp_id":1621,
        "driver2_name":"邬晶",
        "truck_id":897,
        "truck_no":"渝A6N61K",
        "actual_start_time":1659808843000,
        "actual_end_time":1659824732000,
        "actual_distance":314,
        "create_time":"2022-08-06T16:50:32Z",
        "update_time":"2022-08-06T22:25:32Z",
        "is_deleted":"0"
    },
    // 元数据信息
    "source":{
        "version":"1.5.4.Final",
        "connector":"mysql",
        "name":"mysql_binlog_source",
        "ts_ms":0,
        "snapshot":"false",
        "db":"tms",
        "sequence":null,
        "table":"transport_task",
        "server_id":0,
        "gtid":null,
        "file":"",
        "pos":0,
        "row":0,
        "thread":null,
        "query":null
    },
    // 对当前行数据进行的操作
    // "c":create;新增
    // "r":read;读取，只有首日新增才会是r
    // "u":update;修改
    // "d":delete;删除
    "op":"r",
    "ts_ms":1672128012567,
    "transaction":null
}

（2）CreateEnvUtil工具类

① 导入配置文件

本项目对接HDFS高可用集群，为了解析集群名称，需要将core-site.xml和hdfs-site.xml文件置于项目resources目录下。

② 主程序如下。

package com.admin.tms.realtime.util;
 
import com.esotericsoftware.minlog.Log;
import com.ververica.cdc.connectors.mysql.source.MySqlSource;
import com.ververica.cdc.connectors.mysql.source.MySqlSourceBuilder;
import com.ververica.cdc.connectors.mysql.table.StartupOptions;
import com.ververica.cdc.debezium.JsonDebeziumDeserializationSchema;
import org.apache.flink.api.java.utils.ParameterTool;
import org.apache.flink.runtime.state.hashmap.HashMapStateBackend;
import org.apache.flink.streaming.api.CheckpointingMode;
import org.apache.flink.streaming.api.environment.CheckpointConfig;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.kafka.connect.json.DecimalFormat;
import org.apache.kafka.connect.json.JsonConverterConfig;
 
import java.util.HashMap;
 
public class CreateEnvUtil {
 
    /**
     * 初始化流处理环境
     *
     * @param args 命令行参数数组
     * @return 流处理环境
     */
    public static StreamExecutionEnvironment getStreamEnv(String[] args) {
        // TODO 1. 初始化流处理环境
        StreamExecutionEnvironment env = StreamExecutionEnvironment
                .getExecutionEnvironment();
        
 
        return env;
    }
 
    /**
     * 生成 Flink-CDC 的 MysqlSource 对象
     * @param option 选项，dim|dwd，对应不同的原始表列表
     * @param serverId  MySQL 从机的 serverId
     * @param args 命令行参数数组
     * @return MySqlSource 对象
     */
    public static MySqlSource getJSONSchemaMysqlSource(String option, String serverId, String[] args) {
        ParameterTool parameterTool = ParameterTool.fromArgs(args);
        String mysqlHostname = parameterTool.get("mysql-hostname", "hadoop102");
        int mysqlPort = Integer.parseInt(parameterTool.get("mysql-port", "3306"));
        String mysqlUsername = parameterTool.get("mysql-username", "root");
        String mysqlPasswd = parameterTool.get("mysql-passwd", "000000");
        serverId = parameterTool.get("server-id", serverId);
        option = parameterTool.get("start-up-options", option);
 
        // 将 Decimal 类型数据的解析格式由 BASE64 更改为 NUMERIC，否则解析报错
        // 创建配置信息 Map 集合，将 Decimal 数据类型的解析格式配置 k-v 置于其中
        HashMap config = new HashMap<>();
        config.put(JsonConverterConfig.DECIMAL_FORMAT_CONFIG, DecimalFormat.NUMERIC.name());
        // 将前述 Map 集合中的配置信息传递给 JSON 解析 Schema，该 Schema 将用于 MysqlSource 的初始化
        JsonDebeziumDeserializationSchema jsonDebeziumDeserializationSchema =
                new JsonDebeziumDeserializationSchema(false, config);
 
        // 创建 MysqlSourceBuilder 对象
        MySqlSourceBuilder builder = MySqlSource.builder()
                .hostname(mysqlHostname)
                .port(mysqlPort)
                .username(mysqlUsername)
                .password(mysqlPasswd)
                .deserializer(jsonDebeziumDeserializationSchema);
 
        // 根据方法的 option 参数做不同的初始化操作，返回不同的 MysqlSource 对象
        switch (option) {
            case "dim":
                String[] dimTables = new String[]{"tms.user_info",
                        "tms.user_address"};
                return builder
                        .databaseList("tms")
                        .tableList(dimTables)
                        .startupOptions(StartupOptions.initial())
                        .serverId(serverId)
                        .build();
            case "dwd":
                String[] dwdTables = new String[]{"tms.order_info",
                        "tms.order_cargo",
                        "tms.transport_task",
                        "tms.order_org_bound"};
                return builder
                        .databaseList("tms")
                        .tableList(dwdTables)
                        .startupOptions(StartupOptions.initial())
                        .serverId(serverId)
                        .build();
        }
        Log.error("不支持的操作类型!");
        return null;
    }
}

（3）KafkaUtil 工具类

package com.admin.tms.realtime.util;
 
import org.apache.flink.api.java.utils.ParameterTool;
import org.apache.flink.streaming.connectors.kafka.FlinkKafkaProducer;
import org.apache.flink.streaming.connectors.kafka.KafkaSerializationSchema;
import org.apache.kafka.clients.producer.ProducerConfig;
import org.apache.kafka.clients.producer.ProducerRecord;
 
import javax.annotation.Nullable;
import java.util.Properties;
 
import static org.apache.flink.streaming.connectors.kafka.FlinkKafkaProducer.Semantic.EXACTLY_ONCE;
 
public class KafkaUtil {
 
    private static final String DEFAULT_TOPIC = "default_topic";
 
    /**
     * 指定 topic 获取 FlinkKafkaProducer 实例
     *
     * @param topic 主题
     * @param args  命令行参数数组
     * @return FlinkKafkaProducer 实例
     */
    public static FlinkKafkaProducer getKafkaProducer(String topic, String[] args) {
        // 创建配置对象
        Properties producerProp = new Properties();
        // 将命令行参数对象封装为 ParameterTool 类对象
        ParameterTool parameterTool = ParameterTool.fromArgs(args);
 
        // 提取命令行传入的 key 为 topic 的配置信息，并将默认值指定为方法参数 topic
        // 当命令行没有指定 topic 时，会采用默认值
        topic = parameterTool.get("topic", topic);
        // 如果命令行没有指定主题名称且默认值为 null 则抛出异常
        if (topic == null) {
            throw new IllegalArgumentException("主题名不可为空：命令行传参为空且没有默认值!");
        }
 
        // 获取命令行传入的 key 为 bootstrap-servers 的配置信息，并指定默认值
        String bootstrapServers = parameterTool.get(
                "bootstrap-severs", "hadoop102:9092, hadoop103:9092, hadoop104:9092");
        // 获取命令行传入的 key 为 transaction-timeout 的配置信息，并指定默认值
        String transactionTimeout = parameterTool.get(
                "transaction-timeout", 15 * 60 * 1000 + "");
        // 设置 Kafka 连接的 URL
        producerProp.setProperty(ProducerConfig.BOOTSTRAP_SERVERS_CONFIG, bootstrapServers);
        // 设置 Kafka 事务超时时间
        producerProp.setProperty(ProducerConfig.TRANSACTION_TIMEOUT_CONFIG, transactionTimeout);
 
        // 内部类中使用但未声明的局部变量必须在内部类代码段之前明确分配
        String finalTopic = topic;
        return new FlinkKafkaProducer(
                DEFAULT_TOPIC,
                new KafkaSerializationSchema() {
                    @Override
                    public ProducerRecord serialize(String jsonStr, @Nullable Long timestamp) {
                        return new ProducerRecord(finalTopic, jsonStr.getBytes());
                    }
                },
                producerProp,
                EXACTLY_ONCE);
    }
}

（4）日期格式化工具类DateFormatUtil

package com.admin.tms.realtime.util;
 
import java.time.LocalDateTime;
import java.time.ZoneId;
import java.time.ZoneOffset;
import java.time.format.DateTimeFormatter;
import java.util.Date;
 
public class DateFormatUtil {
    // yyyy-MM-dd HH:mm:ss 日期格式化对象
    private static final DateTimeFormatter dtf = DateTimeFormatter.ofPattern("yyyy-MM-dd HH:mm:ss");
 
    /**
     * 将 yyyy-MM-dd HH:mm:ss 格式化日期字符串转换为毫秒时间戳
     * @param dtStr yyyy-MM-dd HH:mm:ss 格式化日期字符串
     * @return 毫秒时间戳
     */
    public static Long toTs(String dtStr) {
        LocalDateTime localDateTime = LocalDateTime.parse(dtStr, dtf);
        return localDateTime.toInstant(ZoneOffset.of("+8")).toEpochMilli();
    }
 
    /**
     * 将毫秒时间戳转换为 yyyy-MM-dd HH:mm:ss 格式化日期字符串
     * @param ts 毫秒时间戳
     * @return  yyyy-MM-dd HH:mm:ss 格式化日期字符串
     */
    public static String toYmdHms(Long ts) {
        Date dt = new Date(ts);
        LocalDateTime localDateTime = LocalDateTime.ofInstant(dt.toInstant(), ZoneId.systemDefault());
        return dtf.format(localDateTime);
    }
}

（5）编写主程序，监控MySQL变化数据并写入Kafka

package com.admin.tms.realtime.app.ods;
 
import com.alibaba.fastjson.JSON;
import com.alibaba.fastjson.JSONException;
import com.alibaba.fastjson.JSONObject;
import com.admin.tms.realtime.util.CreateEnvUtil;
import com.admin.tms.realtime.util.DateFormatUtil;
import com.admin.tms.realtime.util.KafkaUtil;
import com.esotericsoftware.minlog.Log;
import com.ververica.cdc.connectors.mysql.source.MySqlSource;
import org.apache.flink.api.common.eventtime.WatermarkStrategy;
import org.apache.flink.api.common.functions.FlatMapFunction;
import org.apache.flink.api.java.functions.KeySelector;
import org.apache.flink.api.java.utils.ParameterTool;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.datastream.KeyedStream;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.connectors.kafka.FlinkKafkaProducer;
import org.apache.flink.util.Collector;
 
public class OdsApp {
    public static void main(String[] args) throws Exception {
 
        // TODO 1. 初始化流处理环境
        StreamExecutionEnvironment env = CreateEnvUtil.getStreamEnv(args);
 
        // 并行度设置，部署时应注释，通过 args 指定全局并行度
        env.setParallelism(4);
 
        // TODO 2. 处理维度数据
        String dimOption = "dim";
        String dimServerId = "6020";
        String dimSourceName = "ods_dim_source";
        sinkToKafka(dimOption, dimServerId, dimSourceName, env, args);
 
        // TODO 3. 处理事实数据
        String dwdOption = "dwd";
        String dwdServerId = "6030";
        String dwdSourceName = "ods_dwd_source";
        sinkToKafka(dwdOption, dwdServerId, dwdSourceName, env, args);
 
        env.execute();
    }
 
    public static void sinkToKafka(
            String option, String serverId, String sourceName, StreamExecutionEnvironment env, String[] args) {
        // 1. 读取数据
        MySqlSource mysqlSource = CreateEnvUtil.getJSONSchemaMysqlSource(option, serverId, args);
        DataStreamSource source = env
                .fromSource(mysqlSource, WatermarkStrategy.noWatermarks(), sourceName)
                .setParallelism(1);
 
        // 2. ETL
        // 获取统计日期
        ParameterTool parameterTool = ParameterTool.fromArgs(args);
        String mockDate = parameterTool.get("mock_date");
        SingleOutputStreamOperator flatMappedStream =
                source.flatMap(new FlatMapFunction() {
            @Override
            public void flatMap(String jsonStr, Collector out) throws Exception {
                try {
                    JSONObject jsonObj = JSON.parseObject(jsonStr);
                    if (jsonObj.getJSONObject("after") != null
                            && !jsonObj.getString("op").equals("d")) {
                        Long ts = jsonObj.getLong("ts_ms");
                        if (mockDate != null) {
                            String curDate = DateFormatUtil.toYmdHms(ts);
                            String fixedDate = mockDate + curDate.substring(10);
                            Long fixedTs = DateFormatUtil.toTs(fixedDate);
                            jsonObj.put("ts", fixedTs);
                        } else {
                            jsonObj.put("ts", ts);
                        }
                        jsonObj.remove("ts_ms");
                        out.collect(jsonObj.toJSONString());
                    }
                } catch (JSONException jsonException) {
                    jsonException.printStackTrace();
                    Log.error("从Flink-CDC读取的数据解析异常" + jsonException.getMessage());
                }
            }
        }).setParallelism(1);
 
        // 3. 按照主键分组，避免数据倾斜
        KeyedStream keyedStream = flatMappedStream.keyBy(
                new KeySelector() {
                    @Override
                    public String getKey(String jsonStr) {
                        JSONObject jsonObj = JSON.parseObject(jsonStr);
                        return jsonObj.getJSONObject("after").getString("id");
                    }
                }
        );
 
        // 4. 写入 Kafka 对应主题
        String topic = "tms_ods";
        FlinkKafkaProducer kafkaProducer = KafkaUtil.getKafkaProducer(topic, args);
        keyedStream
                .addSink(kafkaProducer);
    }
}

3.4、Flink部署

注意：这里使用的是yarn模式提交Flink代码，使用的是yarn的容器来启动Flink，所以并不需要启动Flink的集群，所以也并不需要多台机器部署Flink集群。

（1）上传安装包

将Flink-1.16.1安装包上传至hadoop102的/opt/software目录下。

[admin@hadoop102 software]$ ls | grep flink-1.16.1
 
flink-1.16.1-bin-scala_2.12.tgz

（2）解压

[admin@hadoop102 software]$ tar -zxvf flink-1.16.1-bin-scala_2.12.tgz -C ../module
[admin@hadoop102 software]$ cd ../module/
[admin@hadoop102 module]$ ls | grep flink-1.16.1
flink-1.16.1

（3）配置环境变量

[admin@hadoop103 module]$ sudo vim /etc/profile.d/my_env.sh

在文件末尾添加以下内容。

# FLINK_HOME
export FLINK_HOME=/opt/module/flink-1.16.1
export PATH=$PATH:$FLINK_HOME/bin

保存退出，刷新环境变量。

[admin@hadoop102 module]$ source /etc/profile.d/my_env.sh

（4）Flink Job日志类型

Flink的Yarn per Job模式下一共有三类日志，如下。

① Flink客户端日志，默认会保存在Flink家目录lib下的flink-${username}-client-${hostname}.log文件中，username为执行提交命令所用的Linux系统用户名，hostname为Flink客户端所在节点主机名。部分客户端日志会被同时打印在控制台。

② JobManager容器日志，需要配置Yarn日志聚集（Hadoop基础课已有介绍，不再赘述）。如果开启了历史服务器可以在Yarn界面查看日志，否则须在对应的本地路径查看。

启动历史服务器

[admin@hadoop102 log]$ mapred --daemon start historyserver

点击Logs。

红框选中的即为JM日志。

（5）解决日志冲突

/opt/module/flink-1.16.1/lib目录下的log4j-slf4j-impl-2.17.1.jar文件会与Hadoop家目录share/hadoop/common/lib目录下的slf4j-log4j12-1.7.25.jar文件发生冲突，日志无法正常打印。修改Flink家目录lib下对应文件的后缀即可，如下。

[admin@hadoop102 log]$ cd /opt/module/flink-1.16.1/lib/
[admin@hadoop102 lib]$ mv log4j-slf4j-impl-2.17.1.jar log4j-slf4j-impl-2.17.1.jar.bak

（6）禁用类加载器检查

提交Job时控制台会抛出如下异常。

java.lang.IllegalStateException: Trying to access closed classloader. Please check if you store classloaders directly or indirectly in static fields. If the stacktrace suggests that the leak occurs in a third party library and cannot be fixed immediately, you can disable this check with the configuration 'classloader.check-leaked-classloader'.

原因是Hadoop3.x版本会启动异步线程来执行一些终止方法。这些方法在任务执行之后运行，而此时类加载器已经被释放，就抛出以上异常。这个异常并不会影响任务的运行，只会在控制台打印堆栈信息。详见Flink Jira：[FLINK-19916] Hadoop3 ShutdownHookManager visit closed ClassLoader - ASF JIRA

我们可以通过在flink-conf.yaml文件中增加以下配置项禁用类加载器检查来避免报错。

[admin@hadoop103 lib]$ cd /opt/module/flink-1.16.1/conf/
[admin@hadoop103 conf]$ vim flink-conf.yaml

在文件中添加如下内容，而后保存退出即可。

classloader.check-leaked-classloader: false

3.5、打包部署

（1）将pom文件中服务器已有依赖的scope修改为provided，修改后的pom文件如下


    8
    8
    UTF-8
    1.8
    1.16.1
    2.12
    3.1.3
    2.3.0

 

    
        org.apache.flink
        flink-java
        ${flink.version}
    
 
    
        org.apache.flink
        flink-streaming-java
        ${flink.version}
    
 
    
        org.apache.flink
        flink-connector-kafka
        ${flink.version}
    
 
    
        com.alibaba
        fastjson
        1.2.68
    
 
    
        org.apache.hadoop
        hadoop-client
        3.1.3
        provided
    
 
    
        org.apache.flink
        flink-clients
        ${flink.version}
    
 
    
        org.apache.flink
        flink-table-api-java-bridge
        ${flink.version}
        provided
    
 
    
        org.slf4j
        slf4j-api
        1.7.25
        provided
    
 
    
        org.slf4j
        slf4j-log4j12
        1.7.25
        provided
    
 
    
        org.apache.logging.log4j
        log4j-to-slf4j
        2.14.0
        provided
    
 
    
        org.apache.flink
        flink-connector-jdbc
        ${flink.version}
    
 
    
        com.ververica
        flink-connector-mysql-cdc
        ${flink-cdc.version}
    
 
    
        org.apache.flink
        flink-statebackend-rocksdb
        ${flink.version}
    
 

 

    
        
            org.apache.maven.plugins
            maven-assembly-plugin
            3.0.0
            
                
                    jar-with-dependencies
                
            
            
                
                    make-assembly
                    package
                    
                        single

（2）注释检查点相关配置及并行度设置，如下

// 3.1 启用检查点
// env.enableCheckpointing(60 * 1000L, CheckpointingMode.EXACTLY_ONCE);
// 3.2 设置相邻两次检查点最小间隔
// env.getCheckpointConfig().setMinPauseBetweenCheckpoints(30 * 1000L);
// 3.3 设置取消 Job 时检查点的清理模式
// env.getCheckpointConfig().setExternalizedCheckpointCleanup(
//        CheckpointConfig.ExternalizedCheckpointCleanup.RETAIN_ON_CANCELLATION
// );
// 3.4 设置状态后端类型
// env.setStateBackend(new HashMapStateBackend());
// 3.5 设置检查点存储路径
// env.getCheckpointConfig().setCheckpointStorage("hdfs://mycluster/tms/ck/test");
 
 
// 并行度设置，部署时应注释，通过 args 指定全局并行度
// env.setParallelism(4);

（3）打包上传带有依赖的jar包

[admin@hadoop102 job]$ cd /opt/module/flink-1.16.1/
[admin@hadoop102 flink-1.16.1]$ mkdir job
[admin@hadoop102 flink-1.16.1]$ cd job/
[admin@hadoop102 job]$ ll
总用量 96984
 
-rw-r--r-- 1 admin admin 99309838 12月 28 15:51 tms-realtime-1.0-SNAPSHOT-jar-with-dependencies.jar

（4）首次提交job

命令如下。

flink run \
# 指定 Job 提交模式为 yarn-per-job
-t yarn-per-job \
# 并行度为4
-p 4 \
# 以守护进程的方式提交 Job，提交过程不会阻塞页面
-d \
# 指定 Job 名称
-Dyarn.application.name=OdsApp \
# 指定 Job 所处的 Yarn 队列
-Dyarn.application.queue=default \
# 指定 JobManager 所占用的内存大小
-Djobmanager.memory.process.size=1g \
# 指定 TaskManager 所占用的内存大小
-Dtaskmanager.memory.process.size=1536mb \
# 指定每个 TaskManager 的 Slot 数量
-Dtaskmanager.numberOfTaskSlots=2 \
# 指定管理内存大小，如果不适用 RocksDB 状态后端且没有排序等复杂操作可以设置为0
-Dtaskmanager.memory.managed.size=0 \
# 相邻两次检查点触发的时间间隔
-Dexecution.checkpointing.interval='30 s' \
# 语义（精准一次、至少一次），此处为精准一次，当上游多个并行度进入下游一个并行度时，若某个并行度的 barrier 先到达则会阻塞该并行度的后续处理，直至其余并行度 barrier 到达，完成检查点同步后方可继续处理。如果不阻塞则语义为至少一次
-Dexecution.checkpointing.mode=EXACTLY_ONCE \
# 单次检查点完成的超时时间（最长时间）
-Dexecution.checkpointing.timeout='1 min' \
# 相邻检查点的最小时间间隔（从上一个检查点结束到下一个检查点触发的最小时间间隔
-Dexecution.checkpointing.min-pause='20 s' \
# 取消 Job 时检查点的保存策略，此处表示取消 Job 时保留检查点
-Dexecution.checkpointing.externalized-checkpoint-retention=RETAIN_ON_CANCELLATION \
# Job 失败时的重启策略，此处为失败率重启，即声明指定时间间隔内重启最大次数的策略
-Drestart-strategy=failure-rate \
# 相邻两次 Job 重启的最小时间间隔
-Drestart-strategy.failure-rate.delay='3 min' \
# 重启次数重置的时间间隔
-Drestart-strategy.failure-rate.failure-rate-interval='1 d' \
# 声明指定时间内的最大重启次数
-Drestart-strategy.failure-rate.max-failures-per-interval=10 \
# 状态后端类型，可选项：hashmap，rockdb，分别对应全部基于内存哈希表的状态后端和基于内嵌 RocksDB 数据库的状态后端
-Dstate.backend=hashmap \
# 检查点存储介质，可选项：jobmanager、filesystem，分别对应 JobManager 堆内存和文件系统
-Dstate.checkpoint-storage=filesystem \
# 指定检查点在文件系统的存储路径，要求上一配置项取值为 filesystem
-Dstate.checkpoints.dir=hdfs://mycluster/tms/ck/ods_app \
# 指定 Job 中数据的编码方式为 UTF-8，如果不指定，则中文乱码
-Denv.java.opts="-Dfile.encoding=UTF-8 -Dsun.jnu.encoding=UTF-8" \
# 指定主类名
-c com.admin.tms.realtime.app.ods.OdsApp \
# 指定 Jar 包路径
/opt/module/flink-1.16.1/job/tms-realtime-1.0-SNAPSHOT-jar-with-dependencies.jar \
# 指定访问 Hadoop 的用户名为其超级用户 admin，与代码中指定的默认值相同，此处可以省略
--HADOOP_USER_NAME admin \
# 指定模拟数据的日期，生产环境不需要
--mock_date 2023-01-10

（5）停止Job

第二次及之后启动Job应从上次记录的位置继续读取数据，因此需要有检查点或保存点，二者的区别在于前者是Flink自动生成的，后者是手动触发的。生产环境下Flink Job应常驻，仅在需要新增功能或调整配置信息时才需要重启。Job的重启应由两个步骤组成，如下。

① 手动触发保存点

② 修改完成后从手动触发的保存点重启

此处对步骤①进行说明，保存点手动触发命令如下。

flink stop \
# 手动触发的保存点存储路径
--savepointPath hdfs://mycluster/tms/sp/ods_app \
# Flink JobId
a22d74cae0db7db9c206ed8cb0d1ecaa \
# Flink Job在 Yarn 的 application ID
-yid application_1672211800662_0002

JobId可以通过Flink WebUI查看，如下。

Flink Job在Yarn的application ID可以通过其WebUI页面查看，如下。

（6）从检查点或保存点重启

重启需要指定到_metadata目录的上级路径。当Job故障达到最大重启次数最终失败时没有最新状态的保存点，此时应从检查点重启。

① 从检查点重启

如果不需要调整配置，则与首次提交命令唯一的区别在于需要指定历史检查点路径，如下。

flink run -t yarn-per-job -p 4 -d \
# 指定检查点存储路径，需要指定到 _metadata 目录的上级路径
-s hdfs://mycluster/tms/ck/ods_app/1cad146250d7a4f564efe0307bce479a/chk-221 \
-Dyarn.application.name=OdsApp \
-Dyarn.application.queue=default \
-Djobmanager.memory.process.size=1g \
-Dtaskmanager.memory.process.size=1536mb \
-Dtaskmanager.numberOfTaskSlots=2 \
-Dtaskmanager.memory.managed.size=0 \
-Dexecution.checkpointing.interval='30 s' \
-Dexecution.checkpointing.mode=EXACTLY_ONCE \
-Dexecution.checkpointing.timeout='1 min' \
-Dexecution.checkpointing.min-pause='20 s' \
-Dexecution.checkpointing.externalized-checkpoint-retention=RETAIN_ON_CANCELLATION \
-Drestart-strategy=failure-rate \
-Drestart-strategy.failure-rate.delay='3 min' \
-Drestart-strategy.failure-rate.failure-rate-interval='1 d' \
-Drestart-strategy.failure-rate.max-failures-per-interval=10 \
-Dstate.backend=hashmap \
-Dstate.checkpoint-storage=filesystem \
-Dstate.checkpoints.dir=hdfs://mycluster/tms/ck/ods_app \
-Denv.java.opts="-Dfile.encoding=UTF-8 -Dsun.jnu.encoding=UTF-8" \
-c com.admin.tms.realtime.app.ods.OdsApp \
/opt/module/flink-1.16.1/job/tms-realtime-1.0-SNAPSHOT-jar-with-dependencies.jar \
--HADOOP_USER_NAME admin \
--mock_date 2023-01-10

② 从保存点重启

如果不需要调整配置，将①中的检查点路径更换为保存点路径即可，如下。

flink run -t yarn-per-job -p 4 -d \
# 指定保存点存储路径，需要指定到 _metadata 目录的上级路径
-s hdfs://mycluster/tms/sp/ods_app/savepoint-a22d74-42e58a5e8420 \
-Dyarn.application.name=OdsApp \
-Dyarn.application.queue=default \
-Djobmanager.memory.process.size=1g \
-Dtaskmanager.memory.process.size=1536mb \
-Dtaskmanager.numberOfTaskSlots=2 \
-Dtaskmanager.memory.managed.size=0 \
-Dexecution.checkpointing.interval='30 s' \
-Dexecution.checkpointing.mode=EXACTLY_ONCE \
-Dexecution.checkpointing.timeout='1 min' \
-Dexecution.checkpointing.min-pause='20 s' \
-Dexecution.checkpointing.externalized-checkpoint-retention=RETAIN_ON_CANCELLATION \
-Drestart-strategy=failure-rate \
-Drestart-strategy.failure-rate.delay='3 min' \
-Drestart-strategy.failure-rate.failure-rate-interval='1 d' \
-Drestart-strategy.failure-rate.max-failures-per-interval=10 \
-Dstate.backend=hashmap \
-Dstate.checkpoint-storage=filesystem \
-Dstate.checkpoints.dir=hdfs://mycluster/tms/ck/ods_app \
-Denv.java.opts="-Dfile.encoding=UTF-8 -Dsun.jnu.encoding=UTF-8" \
-c com.admin.tms.realtime.app.ods.OdsApp \
/opt/module/flink-1.16.1/job/tms-realtime-1.0-SNAPSHOT-jar-with-dependencies.jar \
--HADOOP_USER_NAME admin \
--mock_date 2023-01-10

（7）测试

启动Kafka命令行消费者，命令如下

[admin@hadoop103 ~]$ kafka-console-consumer.sh --bootstrap-server hadoop102:9092 --topic tms_ods

消费到的部分数据如下

{"op":"r","after":{"end_org_name":"湖北省武汉市转运中心","truck_id":454,"create_time":"2023-01-09T16:50:42Z","driver1_emp_id":1103,"start_org_id":259,"line_id":453,"start_org_name":"湖北省武汉市汉南区转运站","driver1_name":"俞珊莎","update_time":"2023-01-09T19:10:57Z","is_deleted":"0","shift_id":908,"actual_distance":69.00,"actual_end_time":1673291457000,"id":100312,"order_num":0,"truck_no":"鄂B2CMQ0","actual_start_time":1673287247000,"end_org_id":19,"status":"67004"},"source":{"server_id":0,"version":"1.5.4.Final","file":"","connector":"mysql","pos":0,"name":"mysql_binlog_source","row":0,"ts_ms":0,"snapshot":"false","db":"tms","table":"transport_task"},"ts":1672214547625}

（8）编写FlinkCDC启停脚本flink-cdc.sh

[admin@hadoop102 bin]$ cd
[admin@hadoop102 ~]$ cd bin
[admin@hadoop102 bin]$ vim flink-cdc.sh

在脚本中写入以下内容，而后保存退出。

#!/bin/bash
 
# 将昨日格式化为 yyyy-MM-dd 字符串，作为 mock_date 的默认值
yesterday=`date -d "-1 day" +%F`
 
# 校验参数，不合法警告并退出
if [ $1 = "initial" ]
then 
	# 首次启动 Job 时判断是否有第二个参数，若没有则使用昨天日期，否则将其传递给 mock_date
	if [ q$2 = q ]
	then
		mock_date=$yesterday
	else
		mock_date=$2
	fi
elif [ $1 = "start" ]
then
	# 从检查点或保存点启动需要传入存储路径，若没有则退出
    if [ q$2 = q ]
    then 
        echo "请传入检查点或保存点存储路径"
        exit
    elif [ q$3 = q ]
    then
    	mock_date=$yesterday
    else
    	mock_date=$3
    fi
elif [ $1 = "stop" ]
then
	# 停止 Job 需要传入 JobID 和 application ID，第二个参数为 JobID，没有则退出
    if [ q$2 = q ]
    then 
        echo "请传入Flink-CDC JobID"
        exit
    # 若没有第三个参数则退出
    elif [ q$3 = q ]
    then 
        echo "请传入Flink-CDC 在 Yarn 的 application ID"
        exit
    fi
fi
 
case $1 in
"initial")
    flink run -t yarn-per-job -p 4 -d \
    -Dyarn.application.name=OdsApp \
    -Dyarn.application.queue=default \
    -Djobmanager.memory.process.size=1g \
    -Dtaskmanager.memory.process.size=1536mb \
    -Dtaskmanager.numberOfTaskSlots=2 \
    -Dtaskmanager.memory.managed.size=0 \
    -Dexecution.checkpointing.interval='30 s' \
    -Dexecution.checkpointing.mode=EXACTLY_ONCE \
    -Dexecution.checkpointing.timeout='1 min' \
    -Dexecution.checkpointing.min-pause='20 s' \
    -Dexecution.checkpointing.externalized-checkpoint-retention=RETAIN_ON_CANCELLATION \
    -Drestart-strategy=failure-rate \
    -Drestart-strategy.failure-rate.delay='3 min' \
    -Drestart-strategy.failure-rate.failure-rate-interval='1 d' \
    -Drestart-strategy.failure-rate.max-failures-per-interval=10 \
    -Dstate.backend=hashmap \
    -Dstate.checkpoint-storage=filesystem \
    -Dstate.checkpoints.dir=hdfs://mycluster/tms/ck/ods_app \
    -Denv.java.opts="-Dfile.encoding=UTF-8 -Dsun.jnu.encoding=UTF-8" \
    -c com.admin.tms.realtime.app.ods.OdsApp \
    /opt/module/flink-1.16.1/job/tms-realtime-1.0-SNAPSHOT-jar-with-dependencies.jar \
    --HADOOP_USER_NAME admin \
    --mock_date $mock_date
    ;;
"start")
    flink run -t yarn-per-job -p 4 -d \
    -s $2 \
    -Dyarn.application.name=OdsApp \
    -Dyarn.application.queue=default \
    -Djobmanager.memory.process.size=1g \
    -Dtaskmanager.memory.process.size=1536mb \
    -Dtaskmanager.numberOfTaskSlots=2 \
    -Dtaskmanager.memory.managed.size=0 \
    -Dexecution.checkpointing.interval='30 s' \
    -Dexecution.checkpointing.mode=EXACTLY_ONCE \
    -Dexecution.checkpointing.timeout='1 min' \
    -Dexecution.checkpointing.min-pause='20 s' \
    -Dexecution.checkpointing.externalized-checkpoint-retention=RETAIN_ON_CANCELLATION \
    -Drestart-strategy=failure-rate \
    -Drestart-strategy.failure-rate.delay='3 min' \
    -Drestart-strategy.failure-rate.failure-rate-interval='1 d' \
    -Drestart-strategy.failure-rate.max-failures-per-interval=10 \
    -Dstate.backend=hashmap \
    -Dstate.checkpoint-storage=filesystem \
    -Dstate.checkpoints.dir=hdfs://mycluster/tms/ck/ods_app \
    -Denv.java.opts="-Dfile.encoding=UTF-8 -Dsun.jnu.encoding=UTF-8" \
    -c com.admin.tms.realtime.app.ods.OdsApp \
    /opt/module/flink-1.16.1/job/tms-realtime-1.0-SNAPSHOT-jar-with-dependencies.jar \
    --HADOOP_USER_NAME admin \
    --mock_date $mock_date
    ;;
"stop")
    flink stop \
    --savepointPath hdfs://mycluster/tms/sp/ods_app \
    $2 \
    -yid $3
    ;;
"*")
    echo "参数不合法，第一个参数必须为 initial | start | stop"
    ;;
esac

脚本用法如下。

① 初次启动

[admin@hadoop102 bin]$ flink-cdc.sh initial \
# 日期可省略
2023-01-10

部分日志如下

$ echo "stop" | ./bin/yarn-session.sh -id application_1672211800662_0011

If this should not be possible, then you can also kill Flink via YARN's web interface or via:

$ yarn application -kill application_1672211800662_0011

Note that killing Flink might not clean up all job artifacts and temporary files.

2022-12-28 19:43:23,873 INFO org.apache.flink.yarn.YarnClusterDescriptor [] - Found Web Interface hadoop103:42536 of application 'application_1672211800662_0011'.

Job has been submitted with JobID be0b720d9982d10a4fdca66b60637aff

② 停止

部分参数需要用户依据实际情况修改，下文同理。

[admin@hadoop102 bin]$ flink-cdc.sh stop be0b720d9982d10a4fdca66b60637aff application_1672211800662_0011

部分日志如下

Suspending job "434405fe813ea29eb152c0d93b6b1792" with a savepoint.

2022-12-28 19:47:30,341 INFO org.apache.hadoop.yarn.client.RMProxy                        [] - Connecting to ResourceManager at hadoop103/192.168.10.103:8032

2022-12-28 19:47:30,636 INFO org.apache.flink.yarn.YarnClusterDescriptor                  [] - No path for the flink jar passed. Using the location of class org.apache.flink.yarn.YarnClusterDescriptor to locate the jar

2022-12-28 19:47:30,723 INFO org.apache.flink.yarn.YarnClusterDescriptor                  [] - Found Web Interface hadoop102:43407 of application 'application_1672211800662_0012'.

Savepoint completed. Path: hdfs://mycluster/tms/sp/ods_app/savepoint-434405-ca9094d9fa45

③ 从检查点或保存点重启

[admin@hadoop102 bin]$ flink-cdc.sh start hdfs://mycluster/tms/sp/ods_app/savepoint-434405-ca9094d9fa45 \
# 日期可省略
2023-01-10

部分日志如下

$ echo "stop" | ./bin/yarn-session.sh -id application_1672211800662_0013

If this should not be possible, then you can also kill Flink via YARN's web interface or via:

$ yarn application -kill application_1672211800662_0013

Note that killing Flink might not clean up all job artifacts and temporary files.

2022-12-28 19:48:15,676 INFO org.apache.flink.yarn.YarnClusterDescriptor [] - Found Web Interface hadoop102:38301 of application 'application_1672211800662_0013'.

Job has been submitted with JobID a39e9b72a89c75c27216a149c6bae0ca

4、总结

对增量同步工具Flink-CDC的介绍和使用。还有保存点和检查点在实际生产环境上的使用。

有帮助的话请点个赞吧！

你可能感兴趣的:(#,Flink,flink,大数据)

利用已有的 PostgreSQL 和 ZooKeeper 服务，启动dolphinscheduler-standalone-server3.1.9 镜像云游大数据平台 zookeeper docker postgresql 工作流任务调度
ApacheDolphinScheduler是一个分布式易扩展的可视化DAG工作流任务调度开源系统。适用于企业级场景，提供了一个可视化操作任务、工作流和全生命周期数据处理过程的解决方案。ApacheDolphinScheduler旨在解决复杂的大数据任务依赖关系，并为应用程序提供数据和各种OPS编排中的关系。解决数据研发ETL依赖错综复杂，无法监控任务健康状态的问题。DolphinSchedule
Alpha系统联结大数据、GPT两大功能，助力律所管理降本增效资讯分享周大数据 gpt
如何通过AI工具实现法律服务的提质增效,是每一位法律人都积极关注和学习的课题。但从AI技术火爆一下,法律人一直缺乏系统、实用的学习资料,来掌握在法律场景下AI的使用技巧。今年5月,iCourt携手贵阳律协大数据与人工智能专业委员会,联合举办了《人工智能助力律师行业高质量发展巡回讲座》,超过100家律所的律师参与活动。讲座上,iCourtAIGC研究员、AlphaGPT产品研发负责人兰洋,为贵州律协
电商API性能优化：策略体系与实施要点 Joe13265449558 性能优化电商返回值淘宝 API 接口京东
电商API性能优化策略介绍在电商领域，API（应用程序编程接口）作为连接电商平台与外部系统、服务或应用的关键桥梁，其性能直接关系到用户体验、业务效率以及系统的整体稳定性。随着电商业务的快速发展，API接口面临着高并发、大数据量处理等挑战，因此，对电商API进行性能优化显得尤为重要。本文将从多个维度探讨电商API性能优化的策略。一、数据库优化策略数据库是电商API接口的核心组件之一，其性能直接影响A
ECharts 智慧医疗大屏制作实例详解
在大数据时代，数据可视化已成为信息传递和决策支持的重要手段。ECharts作为一款功能强大、易于上手的开源可视化库，凭借其丰富的图表类型、灵活的配置项和良好的跨平台兼容性，广泛应用于企业级数据大屏、BI报表、实时监控等场景。本教程以“智慧医疗大屏”为例，完整演示了从页面搭建、图表配置到动态交互与响应式适配的全过程。通过循序渐进的讲解，读者将掌握如何使用ECharts构建专业、美观、可交互的数据可视
大数据 ETL 工具 Sqoop 深度解析与实战指南
一、Sqoop核心理论与应用场景1.1设计思想与技术定位Sqoop是Apache旗下的开源数据传输工具，核心设计基于MapReduce分布式计算框架，通过并行化的Map任务实现高效的数据批量迁移。其特点包括：批处理特性：基于MapReduce作业实现导入/导出，适合大规模离线数据迁移，不支持实时数据同步。异构数据源连接：支持关系型数据库（如MySQL、Oracle）与Hadoop生态（HDFS、H
Python（28）Python循环语句指南：从语法糖到CPython字节码的底层探秘一个天蝎座白勺程序猿 Python爬虫入门到高阶实战 python 开发语言
目录引言一、推导式家族全解析1.1基础语法对比1.2性能对比测试二、CPython实现揭秘2.1字节码层面的秘密2.2临时变量机制三、高级特性实现3.1嵌套推导式优化3.2条件表达式处理四、性能优化指南4.1内存使用对比4.2执行时间优化技巧五、最佳实践建议六、总结Python爬虫相关文章（推荐）引言在Python编程中，循环语句是控制流程的核心工具。传统for循环虽然直观，但在处理大数据时往往面
大数据分析技术的学习路径，不是绝对的，仅供参考水云桐程序员学习大数据数据分析学习方法
阶段一：基础筑基（1-3个月）1.编程语言：Python：掌握基础语法、数据结构、流程控制、函数、面向对象编程、常用库（NumPy,Pandas）。SQL：精通SELECT语句（过滤、排序、分组、聚合、连接）、DDL/DML基础。理解关系型数据库概念（表、主键、外键、索引）。MySQL或PostgreSQL是很好的起点。Java/Scala：深入理解Hadoop/Spark等框架会更有优势。初学者
React金融数据分析应用性能优化实战：借助AI辅助解决18万数据量栈溢出Bug 马特说 REACT react.js 金融数据分析
React金融数据分析应用性能优化实战：借助AI辅助解决18万数据量栈溢出Bug前言在现代前端开发中，处理大数据量的实时金融应用已成为常态。最近我在开发一个React-based金融数据分析应用时，遇到了典型的"Maximumcallstacksizeexceeded"错误。通过AI辅助分析和系统性优化，最终成功解决了这个复杂的性能问题。这篇文章将分享从问题发现到最终解决的完整过程。项目背景这是一
python模拟内置函数reversed_Python内置函数reversed weixin_39594895
{"moduleinfo":{"card_count":[{"count_phone":1,"count":1}],"search_count":[{"count_phone":4,"count":4}]},"card":[{"des":"阿里技术人对外发布原创技术内容的最大平台；社区覆盖了云计算、大数据、人工智能、IoT、云原生、数据库、微服务、安全、开发与运维9大技术领域。","link1":
flink数据同步mysql到hive_基于Canal与Flink实现数据实时增量同步(二)
背景在数据仓库建模中，未经任何加工处理的原始业务层数据，我们称之为ODS(OperationalDataStore)数据。在互联网企业中，常见的ODS数据有业务日志数据(Log)和业务DB数据(DB)两类。对于业务DB数据来说，从MySQL等关系型数据库的业务数据进行采集，然后导入到Hive中，是进行数据仓库生产的重要环节。如何准确、高效地把MySQL数据同步到Hive中？一般常用的解决方案是批量
RabbitMQ消息队列在大数据系统中的实战应用案例 AI天才研究院 AI大模型企业级应用开发实战 Agentic AI 实战 AI人工智能与大数据 rabbitmq 分布式 ai
RabbitMQ消息队列在大数据系统中的实战应用案例关键词：RabbitMQ、消息队列、大数据系统、实战案例、高并发处理、分布式架构、数据管道摘要：本文深入探讨RabbitMQ消息队列在大数据系统中的核心应用场景，结合具体技术实现和实战案例，详细解析其在数据采集、实时处理、异步解耦等关键环节的技术优势。通过架构设计原理、核心算法实现、数学模型分析和项目实战，展示如何利用RabbitMQ构建高可靠、
大数据开发高频面试题：Spark与MapReduce解析
被招网约司机的盯上了好几天实习了六个月，到期被通知不能转正。外包裁员让我去友商我该去吗？offer比较华为状态码浏览器插件嵌入式项目推荐2019秋招总结+云从语音算法面经+银行群面面经科大讯飞语音算法面经语音算法美团一面已挂科大讯飞智能语音方向值得去吗？语音算法oc科大讯飞语音算法二面荣耀一面语音算法面经，已挂荣耀_语音算法工程一面科大讯飞语音一面凉经8.18携程机器学习（语音方向）一面【vivo
Flink OceanBase CDC 环境配置与验证 Edingbrugh.南空运维大数据 flink flink oceanbase 大数据
一、OceanBase数据库核心配置1.环境准备与版本要求版本要求：OceanBaseCE4.0+或OceanBaseEE2.2+组件依赖：需部署LogProxy服务（社区版/企业版部署方式不同）兼容模式：支持MySQL模式（默认）和Oracle模式2.创建用户与权限配置在sys租户创建管理用户（社区版示例）：--连接sys租户（默认端口2881）mysql-h127.0.0.1-P2881-ur
Flink MongoDB CDC 环境配置与验证 Edingbrugh.南空运维大数据 flink flink mongodb 大数据
一、MongoDB数据库核心配置1.环境准备与集群要求MongoDBCDC依赖ChangeStreams特性，需满足以下条件：版本要求：MongoDB≥3.6集群模式：副本集（ReplicaSet）或分片集群（ShardedCluster）存储引擎：WiredTiger（默认自3.2版本起）副本集协议：pv1（MongoDB4.0+默认）验证集群配置：#连接MongoDBshellmongo--h
HTML表格导出为Excel文件的实现方案 ~风清扬~ 前端技术 html excel 前端
1、前端javascript可通过mime类型、blob对象或专业库（如sheetjs）实现html表格导出excel，适用于中小型数据量；2、服务器端方案利用后端语言（如python的openpyxl、java的apachepoi）处理复杂报表和大数据，确保安全性与格式控制；3、常见问题包括数据类型识别错误、样式丢失、大文件卡顿、浏览器兼容性及乱码，需通过设置单元格类型、使用后端样式api、分页
数据库锁等待时间过长问题的深度解析与大数据解决方案百态老人数据库大数据
一、锁等待问题的核心原因与日志特征锁等待超时是数据库高并发场景下的典型瓶颈问题，其根本原因与日志特征可归纳为以下维度：事务管理缺陷原因：未提交的长事务（如代码分支遗漏提交）、隐式事务（自动提交关闭）导致锁持有时间过长。日志特征：information_schema.innodb_trx表中存在trx_started时间早于当前时间数分钟的事务。错误日志中频繁出现Lockwaittimeoutexc
科学的第五范式：人工智能如何重塑发现之疆田园Coder 人工智能科普人工智能科普
在人类探索未知的壮阔史诗中，科学方法的演进如同照亮迷雾的灯塔。从基于经验的第一范式（描述自然现象），到以理论推演为核心的第二范式（牛顿定律、麦克斯韦方程），再到以计算机模拟为标志的第三范式（气候模型、分子动力学），直至以大数据挖掘为驱动的第四范式（基因组学、高能物理），每一次范式跃迁都极大地拓展了认知的疆界。如今，我们正站在一个更恢弘转折的门槛上——第五范式：人工智能驱动的科学（AIforScie
Flink将数据流写入Kafka,Redis,ES,Mysql 浅唱战无双 flink mysql es redis kafka
Flink写入不同的数据源写入到Mysql写入到ES向Redis写入向kafka写入导入公共依赖org.slf4jslf4j-simple1.7.25compileorg.apache.flinkflink-java1.10.1org.apache.flinkflink-streaming-java_2.121.10.1写入到Mysql导入依赖mysqlmysql-connector-java5.
Flink TiDB CDC 环境配置与验证
一、TiDB数据库核心配置1.启用TiCDC服务确保TiDB集群已部署TiCDC组件（版本需兼容FlinkCDC3.0.1），并启动同步服务：#示例：启动TiCDC捕获changefeedcdcclichangefeedcreate\--pd="localhost:2379"\--sink-uri="blackhole://"\--changefeed-id="flink-cdc-demo"2.验
Flink CDC支持Oracle RAC架构CDB+PDB模式的实时数据同步吗，可以上生产环境吗智海观潮 Flink flink cdc oracle flink 数据同步大数据
众所周知，FlinkCDC是一个流数据集成工具，支持多种数据源的实时数据同步，包括大家所熟知的MySQL，MongoDB等。原本是作为Flink的子项目运行，后来捐献给Apache基金会，底层实现比较依赖于Flink生态。具体到数据同步底层实现则相对比较依赖于Debezium。对于Oracle实时数据同步有需求的用户来说，经常会有疑问，比如FlinkCDC支持Oracle实时数据同步吗，可以应用到
Flink Oracle CDC 环境配置与验证
一、Oracle数据库核心配置详解1.启用归档日志（ArchivingLog）OracleCDC依赖归档日志获取增量变更数据，需按以下步骤启用：非CDB数据库配置：--以DBA身份连接数据库CONNECTsys/passwordASSYSDBA;--配置归档目标路径和大小ALTERSYSTEMSETdb_recovery_file_dest_size=10G;ALTERSYSTEMSETdb_re
flink读取kafka的数据处理完毕写入redis JinVijay flink kafka redis flink
/**从Kafka读取数据处理完毕写入Redis*/publicclassKafkaToRedis{publicstaticvoidmain(String[]args)throwsException{StreamExecutionEnvironmentenv=StreamExecutionEnvironment.getExecutionEnvironment();//开启checkpointing
数据结构与算法中外部排序的详细剖析数据结构与算法学习网络 ai
数据结构与算法中外部排序的详细剖析关键词：外部排序、归并排序、多路归并、置换选择排序、败者树、磁盘I/O优化、大数据处理摘要：本文将深入探讨外部排序技术，这是处理大规模数据时不可或缺的算法。我们将从基本概念出发，逐步解析多路归并、置换选择排序等核心技术，并通过实际代码示例展示如何实现高效的外部排序。文章还将分析外部排序在现代大数据处理中的应用场景和优化策略。背景介绍目的和范围本文旨在全面介绍外部排
阿里云Flink：开启大数据实时处理新时代云资源服务商阿里云大数据云计算
走进阿里云Flink在大数据处理的广袤领域中，阿里云Flink犹如一颗璀璨的明星，占据着举足轻重的地位。随着数据量呈指数级增长，企业对数据处理的实时性、高效性和准确性提出了前所未有的挑战。传统的数据处理方式逐渐难以满足这些严苛的需求，而阿里云Flink凭借其卓越的特性和强大的功能，成为众多企业实现数据价值挖掘与业务创新的关键技术。它不仅继承了开源Flink的优秀基因，还融入了阿里云自主研发的创新技
java毕业设计-基于java的电商网购平台，网购商城管理系统(源码+LW+部署文档+全bao+远程调试+代码讲解等) 程序猿八哥 spring boot vue jave java 课程设计开发语言
博主介绍：✌️码农一枚，专注于大学生项目实战开发、讲解和毕业文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌️技术范围：：小程序、SpringBoot、SSM、JSP、Vue、PHP、Java、python、爬虫、数据可视化、大数据、物联网、机器学习等设计与开发。主要内容：免费功能设计，开题报告、任务书、全b
Python机器学习实战——逻辑回归（附完整代码和结果）小白熊XBX 机器学习机器学习 python 逻辑回归
Python机器学习实战——逻辑回归（附完整代码和结果）关于作者作者：小白熊作者简介：精通c#、Halcon、Python、Matlab，擅长机器视觉、机器学习、深度学习、数字图像处理、工业检测识别定位、用户界面设计、目标检测、图像分类、姿态识别、人脸识别、语义分割、路径规划、智能优化算法、大数据分析、各类算法融合创新等等。联系邮箱：[email protected]科研辅导、知识付费答疑、个性化定制
计算机毕业设计Python知识图谱中华古诗词可视化古诗词情感分析古诗词智能问答系统 AI大模型自动写诗大数据毕业设计(源码+LW文档+PPT+讲解) B站计算机毕业设计大学大数据毕业设计人工智能课程设计知识图谱 python 大数据深度学习爬虫
温馨提示：文末有CSDN平台官方提供的学长联系方式的名片！温馨提示：文末有CSDN平台官方提供的学长联系方式的名片！温馨提示：文末有CSDN平台官方提供的学长联系方式的名片！信息安全/网络安全大模型、大数据、深度学习领域中科院硕士在读，所有源码均一手开发！感兴趣的可以先收藏起来，还有大家在毕设选题，项目以及论文编写等相关问题都可以给我留言咨询，希望帮助更多的人介绍资料《Python知识图谱中华古诗
计算机毕业设计Python知识图谱中华古诗词可视化古诗词情感分析古诗词智能问答系统 AI大模型自动写诗大数据毕业设计(源码+LW文档+PPT+讲解)
温馨提示：文末有CSDN平台官方提供的学长联系方式的名片！温馨提示：文末有CSDN平台官方提供的学长联系方式的名片！温馨提示：文末有CSDN平台官方提供的学长联系方式的名片！信息安全/网络安全大模型、大数据、深度学习领域中科院硕士在读，所有源码均一手开发！感兴趣的可以先收藏起来，还有大家在毕设选题，项目以及论文编写等相关问题都可以给我留言咨询，希望帮助更多的人介绍资料Python知识图谱中华古诗词
自动驾驶技术研发适用Infortrend普安存储IEC平台
Infortrend普安存储IEC私有云平台，轻松高效应用无人驾驶技术自动驾驶汽车（例如自动驾驶出租车、无人驾驶公交）和无人驾驶飞行器（UAV）依靠摄像头、物联网传感器、雷达、GPS采集的实时数据瞬间做出决策。自动驾驶系统作为核心部分，不间断分析环境条件，应对潜在风险，确保乘客和货物运输安全。Autopilot应用程序在开发和模拟中，大数据、AI（人工智能）、ML（机器学习）等技术能否高速发挥作用
大数据系列 | 日志数据采集工具Filebeat的架构分析及应用降世神童大数据技术专栏大数据架构
大数据系列|日志数据采集工具Filebeat的架构分析及应用1.Filebeat的由来2.Filebeat原理架构分析3.Filebeat的应用3.1.安装Filebeat3.2.实战采集应用程序日志1.Filebeat的由来在介绍Filebeat之前，先介绍一下Beats。Beats是一个家族的统称，Beats家族有8个成员，早期的ELK架构中使用Logstash收集、解析日志，但是Logs
HQL之投影查询归来朝歌 HQL Hibernate 查询语句投影查询
在HQL查询中，常常面临这样一个场景，对于多表查询，是要将一个表的对象查出来还是要只需要每个表中的几个字段，最后放在一起显示？针对上面的场景，如果需要将一个对象查出来： HQL语句写“from 对象”即可 Session session = HibernateUtil.openSession();
Spring整合redis bylijinnan redis
pom.xml <dependencies>  <dependency> <groupId>org.springframework.data</groupId> <artifactId>spring-data-redi
org.hibernate.NonUniqueResultException: query did not return a unique result: 2 0624chenhong Hibernate
参考：http://blog.csdn.net/qingfeilee/article/details/7052736 org.hibernate.NonUniqueResultException: query did not return a unique result: 2 在项目中出现了org.hiber
android动画效果不懂事的小屁孩 android动画
前几天弄alertdialog和popupwindow的时候，用到了android的动画效果，今天专门研究了一下关于android的动画效果，列出来，方便以后使用。 Android 平台提供了两类动画。一类是Tween动画，就是对场景里的对象不断的进行图像变化来产生动画效果（旋转、平移、放缩和渐变）。第二类就是 Frame动画，即顺序的播放事先做好的图像，与gif图片原理类似。
js delete 删除机理以及它的内存泄露问题的解决方案换个号韩国红果果 JavaScript
delete删除属性时只是解除了属性与对象的绑定，故当属性值为一个对象时，删除时会造成内存泄露（其实还未删除）举例： var person={name:{firstname:'bob'}} var p=person.name delete person.name p.firstname -->'bob' // 依然可以访问p.firstname，存在内存泄露
Oracle将零干预分析加入网络即服务计划蓝儿唯美 oracle
由Oracle通信技术部门主导的演示项目并没有在本月较早前法国南斯举行的行业集团TM论坛大会中获得嘉奖。但是，Oracle通信官员解雇致力于打造一个支持零干预分配和编制功能的网络即服务（NaaS）平台，帮助企业以更灵活和更适合云的方式实现通信服务提供商（CSP）的连接产品。这个Oracle主导的项目属于TM Forum Live!活动上展示的Catalyst计划的19个项目之一。Catalyst计
spring学习——springmvc（二） a-john springMVC
Spring MVC提供了非常方便的文件上传功能。 1，配置Spring支持文件上传： DispatcherServlet本身并不知道如何处理multipart的表单数据，需要一个multipart解析器把POST请求的multipart数据中抽取出来，这样DispatcherServlet就能将其传递给我们的控制器了。为了在Spring中注册multipart解析器，需要声明一个实现了Mul
POJ-2828-Buy Tickets aijuans ACM_POJ
POJ-2828-Buy Tickets http://poj.org/problem?id=2828 线段树，逆序插入 #include<iostream>#include<cstdio>#include<cstring>#include<cstdlib>using namespace std;#define N 200010struct
Java Ant build.xml详解 asia007 build.xml
1,什么是antant是构建工具2,什么是构建概念到处可查到，形象来说，你要把代码从某个地方拿来，编译，再拷贝到某个地方去等等操作，当然不仅与此，但是主要用来干这个3,ant的好处跨平台 --因为ant是使用java实现的，所以它跨平台使用简单--与ant的兄弟make比起来语法清晰--同样是和make相比功能强大--ant能做的事情很多，可能你用了很久，你仍然不知道它能有
android按钮监听器的四种技术百合不是茶 android xml配置监听器实现接口
android开发中经常会用到各种各样的监听器,android监听器的写法与java又有不同的地方; 1,activity中使用内部类实现接口 ,创建内部类实例使用add方法与java类似创建监听器的实例 myLis lis = new myLis(); 使用add方法给按钮添加监听器
软件架构师不等同于资深程序员 bijian1013 程序员架构师架构设计
本文的作者Armel Nene是ETAPIX Global公司的首席架构师，他居住在伦敦，他参与过的开源项目包括 Apache Lucene,，Apache Nutch， Liferay 和 Pentaho等。如今很多的公司
TeamForge Wiki Syntax & CollabNet User Information Center sunjing TeamForge How do Attachement Anchor Wiki Syntax
the CollabNet user information center http://help.collab.net/ How do I create a new Wiki page? A CollabNet TeamForge project can have any number of Wiki pages. All Wiki pages are linked, and
【Redis四】Redis数据类型 bit1129 redis
概述 Redis是一个高性能的数据结构服务器，称之为数据结构服务器的原因是，它提供了丰富的数据类型以满足不同的应用场景，本文对Redis的数据类型以及对这些类型可能的操作进行总结。 Redis常用的数据类型包括string、set、list、hash以及sorted set.Redis本身是K/V系统，这里的数据类型指的是value的类型，而不是key的类型，key的类型只有一种即string
SSH2整合-附源码白糖_ eclipse spring tomcat Hibernate Google
今天用eclipse终于整合出了struts2+hibernate+spring框架。我创建的是tomcat项目，需要有tomcat插件。导入项目以后，鼠标右键选择属性，然后再找到“tomcat”项，勾选一下“Is a tomcat project”即可。具体方法见源码里的jsp图片，sql也在源码里。补充1：项目中部分jar包不是最新版的，可能导
[转]开源项目代码的学习方法 braveCS 学习方法
转自： http://blog.sina.com.cn/s/blog_693458530100lk5m.html http://www.cnblogs.com/west-link/archive/2011/06/07/2074466.html 1）阅读features。以此来搞清楚该项目有哪些特性2）思考。想想如果自己来做有这些features的项目该如何构架3）下载并安装d
编程之美-子数组的最大和（二维） bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; import java.util.Random; public class MaxSubArraySum2 { /** * 编程之美子数组之和的最大值（二维） */ private static final int ROW = 5; private stat
读书笔记-3 chengxuyuancsdn jquery笔记 resultMap配置 ibatis一对多配置
1、resultMap配置 2、ibatis一对多配置 3、jquery笔记 1、resultMap配置当<select resultMap="topic_data"> <resultMap id="topic_data">必须一一对应。 (1)<resultMap class="tblTopic&q
[物理与天文]物理学新进展 comsci
如果我们必须获得某种地球上没有的矿石,才能够进行某些能量输出装置的设计和建造,而要获得这种矿石,又必须首先进行深空探测,而要进行深空探测,又必须获得这种能量输出装置,这个矛盾的循环,会导致地球联盟在与宇宙文明建立关系的时候,陷入困境怎么办呢?
Oracle 11g新特性:Automatic Diagnostic Repository daizj oracle ADR
Oracle Database 11g的FDI（Fault Diagnosability Infrastructure）是自动化诊断方面的又一增强。 FDI的一个关键组件是自动诊断库（Automatic Diagnostic Repository-ADR）。在oracle 11g中，alert文件的信息是以xml的文件格式存在的，另外提供了普通文本格式的alert文件。这两份log文
简单排序:选择排序 dieslrae 选择排序
public void selectSort(int[] array){ int select; for(int i=0;i<array.length;i++){ select = i; for(int k=i+1;k<array.leng
C语言学习六指针的经典程序，互换两个数字 dcj3sjt126com c
示例程序，swap_1和swap_2都是错误的，推理从1开始推到2，2没完成，推到3就完成了 # include <stdio.h> void swap_1(int, int); void swap_2(int *, int *); void swap_3(int *, int *); int main(void) { int a = 3; int b =
php 5.4中php-fpm 的重启、终止操作命令 dcj3sjt126com PHP
php 5.4中php-fpm 的重启、终止操作命令: 查看php运行目录命令：which php/usr/bin/php 查看php-fpm进程数：ps aux | grep -c php-fpm 查看运行内存/usr/bin/php -i|grep mem 重启php-fpm/etc/init.d/php-fpm restart 在phpinfo()输出内容可以看到php
线程同步工具类 shuizhaosi888 同步工具类
同步工具类包括信号量（Semaphore）、栅栏（barrier）、闭锁（CountDownLatch）闭锁（CountDownLatch） public class RunMain { public long timeTasks(int nThreads, final Runnable task) throws InterruptedException { fin
bleeding edge是什么意思 haojinghua DI
不止一次，看到很多讲技术的文章里面出现过这个词语。今天终于弄懂了——通过朋友给的浏览软件，上了wiki。我再一次感到，没有辞典能像WiKi一样，给出这样体贴人心、一清二楚的解释了。为了表达我对WiKi的喜爱，只好在此一一中英对照，给大家上次课。 In computer science, bleeding edge is a term that
c中实现utf8和gbk的互转 jimmee c iconv utf8&gbk编码
#include <iconv.h> #include <stdlib.h> #include <stdio.h> #include <unistd.h> #include <fcntl.h> #include <string.h> #include <sys/stat.h> int code_c
大型分布式网站架构设计与实践 lilin530 应用服务器搜索引擎
1.大型网站软件系统的特点？ a.高并发，大流量。 b.高可用。 c.海量数据。 d.用户分布广泛，网络情况复杂。 e.安全环境恶劣。 f.需求快速变更，发布频繁。 g.渐进式发展。 2.大型网站架构演化发展历程？ a.初始阶段的网站架构。应用程序，数据库，文件等所有的资源都在一台服务器上。 b.应用服务器和数据服务器分离。 c.使用缓存改善网站性能。 d.使用应用
在代码中获取Android theme中的attr属性值 OliveExcel android theme
Android的Theme是由各种attr组合而成, 每个attr对应了这个属性的一个引用, 这个引用又可以是各种东西. 在某些情况下, 我们需要获取非自定义的主题下某个属性的内容 (比如拿到系统默认的配色colorAccent), 操作方式举例一则: int defaultColor = 0xFF000000; int[] attrsArray = { andorid.r.
基于Zookeeper的分布式共享锁 roadrunners zookeeper 分布式共享锁
首先，说说我们的场景，订单服务是做成集群的，当两个以上结点同时收到一个相同订单的创建指令，这时并发就产生了，系统就会重复创建订单。等等......场景。这时，分布式共享锁就闪亮登场了。共享锁在同一个进程中是很容易实现的，但在跨进程或者在不同Server之间就不好实现了。Zookeeper就很容易实现。具体的实现原理官网和其它网站也有翻译，这里就不在赘述了。官
两个容易被忽略的MySQL知识 tomcat_oracle mysql
1、varchar(5)可以存储多少个汉字，多少个字母数字？　　相信有好多人应该跟我一样，对这个已经很熟悉了，根据经验我们能很快的做出决定，比如说用varchar(200)去存储url等等，但是，即使你用了很多次也很熟悉了，也有可能对上面的问题做出错误的回答。　　这个问题我查了好多资料，有的人说是可以存储5个字符，2.5个汉字（每个汉字占用两个字节的话），有的人说这个要区分版本，5.0
zoj 3827 Information Entropy(水题) 阿尔萨斯 format
题目链接：zoj 3827 Information Entropy 题目大意：三种底，计算和。解题思路：调用库函数就可以直接算了，不过要注意Pi = 0的时候，不过它题目里居然也讲了。。。limp→0+plogb(p)=0，因为p是logp的高阶。 #include <cstdio> #include <cstring> #include <cmath&