实时数据平台-Mysql到Mysql(Flink CDC和Debezium)

实时数据平台中经常需要跨级群间做数据的同步，这个同步不仅包括数据的实时同步，还包括表结构的实时同步。这里我们经常用到的组件是Flink CDC，从下图我们看到对于Flink CDC和Debezium的几个功能项都是支持的，区别为Flink CDC可以做分布式，Debezium只能做单机。

使用Flink CDC + Flink做实时数据同步的思路：

1.利用Flink CDC监控mysql的某个库下面的某张表或者多个表

2.将Flink CDC读取到mysql的binlog变更数据发送到kafka中

3.如果目的集群没有该表需要创建表时，或者源集群监控表表结构变动时如何做到实时感知感知表结构的变化呢？

创建表时：读取源表的schema构建建表语句，在目标集群创建该表

监控表结构变动：将每次获取的数据字段名存储在状态中，根据状态中的字段数据来确定源表的表结构是否发生变动

例如：现在有一个user表，有id,name,age三个字段，第一个数据来的时候里面三个字段都有，我们会将这三个字段存储在状态中，第二次数据来的时候，只有id,name两个字段，那我们就认为上游删除了一个age字段，下游也应该构建sql，删掉age字段；第三次数据来的时候有id,name,desc三个字段，我们就认为上游新增了一个字段，下游对应也新增字段；这样就可以通过状态实现表结构的动态同步，但这里有一个问题，就是Flink CDC同步数据时，如果某列的值为null时，同步数据的时候就不会出现该字段，这样就会导致我们schema实时同步出现问题：

解决方案1：可以通过规范表结构的数据，但我们不可能保证所有的数据都很规范

解决方案2：利用Debezium等其他数据同步工具去实现

使用debezium同步数据相比CDC优势：

1.不需要使用状态编程，作业可以更快地重启或者迁移

2.不需要频繁从mysql数据schema，可以加快job的运行

3.数据为null时也不影响表结构同步

1.Flink CDC实现数据库同步方案

1.Flink CDC代码

这里我们使用了自定义的DebeziumDeserializationSchema,根据上游数据库的操作方式不同，判断属于那种操作(插入，更新，删除)，将对应的数据二次处理封装之后写入kafka

import com.alibaba.fastjson.JSONObject;

import com.ververica.cdc.connectors.mysql.MySqlSource;
import com.ververica.cdc.connectors.mysql.table.StartupOptions;
import com.ververica.cdc.debezium.DebeziumDeserializationSchema;
import com.ververica.cdc.debezium.DebeziumSourceFunction;
import com.ververica.cdc.debezium.StringDebeziumDeserializationSchema;
import io.debezium.data.Envelope;
import org.apache.flink.api.common.restartstrategy.RestartStrategies;
import org.apache.flink.api.common.serialization.SimpleStringSchema;
import org.apache.flink.api.common.time.Time;
import org.apache.flink.api.common.typeinfo.TypeInformation;
import org.apache.flink.runtime.state.hashmap.HashMapStateBackend;
import org.apache.flink.streaming.api.CheckpointingMode;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.environment.CheckpointConfig;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.connectors.kafka.FlinkKafkaProducer;
import org.apache.flink.util.Collector;
import org.apache.kafka.connect.data.Field;
import org.apache.kafka.connect.data.Struct;
import org.apache.kafka.connect.source.SourceRecord;

import java.sql.Connection;
import java.sql.DriverManager;
import java.sql.ResultSet;
import java.sql.Statement;
import java.util.ArrayList;
import java.util.HashMap;
import java.util.concurrent.TimeUnit;

public class FlinkCdc {
    public static void main(String[] args) throws Exception {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setParallelism(1);

        // TODO 2. 状态后端设置
      /*  env.enableCheckpointing(3000L, CheckpointingMode.EXACTLY_ONCE);
        env.getCheckpointConfig().setCheckpointTimeout(60 * 1000L);
        env.getCheckpointConfig().setMinPauseBetweenCheckpoints(3000L);
        env.getCheckpointConfig().enableExternalizedCheckpoints(
                CheckpointConfig.ExternalizedCheckpointCleanup.RETAIN_ON_CANCELLATION
        );
        env.setRestartStrategy(RestartStrategies.failureRateRestart(
                10, Time.of(1L, TimeUnit.DAYS), Time.of(3L, TimeUnit.MINUTES)
        ));
        env.setStateBackend(new HashMapStateBackend());
        env.getCheckpointConfig().setCheckpointStorage("hdfs://test1:8020/gmall/ck");
        System.setProperty("HADOOP_USER_NAME", "root");*/


        //2.创建Flink-MySQL-CDC的Source


        DebeziumSourceFunction mysqlSource = MySqlSource.builder()
                .hostname("hadoop100")
                .port(3306)
                .username("root")
                .password("123456")
                .databaseList("gmall")
                //.tableList("test.*")
                .tableList("gmall.activity_info")        //可选配置项,如果不指定该参数,则会读取上一个配置下的所有表的数据,注意：指定的时候需要使用"db.table"的方式
                .startupOptions(StartupOptions.initial())
                //.deserializer(new StringDebeziumDeserializationSchema())
                .deserializer(new DebeziumDeserializationSchema() {  //自定义数据解析器
                    @Override
                    public void deserialize(SourceRecord sourceRecord, Collector collector) throws Exception {

                        //获取主题信息,包含着数据库和表名  mysql_binlog_source.gmall-flink.z_user_info
                        String topic = sourceRecord.topic();
                        String[] arr = topic.split("\\.");
                        String db = arr[1];
                        String tableName = arr[2];




                        //获取操作类型 READ DELETE UPDATE CREATE
                        Envelope.Operation operation = Envelope.operationFor(sourceRecord);

                        //获取值信息并转换为Struct类型
                        Struct value = (Struct) sourceRecord.value();

                        //获取变化后的数据
                        Struct after = value.getStruct("after");

                        Struct before = value.getStruct("before");
                        //创建JSON对象用于存储数据信息
                        JSONObject data = new JSONObject();
                        //创建JSON对象用于封装最终返回值数据信息
                        JSONObject result = new JSONObject();
                        if(after != null && before == null) {
                            for (Field field : after.schema().fields()) {
                                Object o = after.get(field);
                                data.put(field.name(), o);
                            }


                            result.put("operation", operation.toString().toLowerCase());
                            result.put("data", data);
                            result.put("database", db);
                            result.put("table", tableName);

                        }else if(after != null && before != null){
                            for (Field field : after.schema().fields()) {
                                Object o = after.get(field);
                                data.put(field.name(), o);
                                }

                            result.put("operation", operation.toString().toLowerCase());
                            result.put("data", data);
                            result.put("database", db);
                            result.put("table", tableName);

                        }else {

                            for (Field field : before.schema().fields()) {
                                Object o = before.get(field);
                                data.put(field.name(), o);
                            }
                            result.put("operation", operation.toString().toLowerCase());
                            result.put("data", data);
                            result.put("database", db);
                            result.put("table", tableName);
                        }




                        //发送数据至下游
                        collector.collect(result.toJSONString());
                    }

                    @Override
                    public TypeInformation getProducedType() {
                        return TypeInformation.of(String.class);
                    }
                })
                .build();



        //3.使用CDC Source从MySQL读取数据
        DataStreamSource mysqlDS = env.addSource(mysqlSource);

        //4.打印数据
        //mysqlDS.print();
        mysqlDS.addSink(new FlinkKafkaProducer("hadoop100:9092","db_sync",new SimpleStringSchema()));

        //5.执行任务
        env.execute();


    }
}

2.Flink Mysql同步代码

代码思路：

1.通过查询源表mysql schema获取字段名称和数据类型封装到map中

2.第一条数据来时，判断状态是否为空，为空的话更新状态并检查表是否存在，存在的话插入数据

3.如果状态数据和处理数据字段不一样的话，获取schema差异字段，判断是更新列，删除列，新增列，更新状态，最后插入数据

package com.longi.sync;

import com.alibaba.fastjson.JSON;
import com.alibaba.fastjson.JSONObject;
import org.apache.flink.api.common.restartstrategy.RestartStrategies;
import org.apache.flink.api.common.serialization.SimpleStringSchema;
import org.apache.flink.api.common.state.ListState;
import org.apache.flink.api.common.state.ListStateDescriptor;
import org.apache.flink.api.common.state.ValueState;
import org.apache.flink.api.common.state.ValueStateDescriptor;
import org.apache.flink.api.common.time.Time;
import org.apache.flink.api.java.functions.KeySelector;
import org.apache.flink.configuration.Configuration;
import org.apache.flink.runtime.state.hashmap.HashMapStateBackend;
import org.apache.flink.streaming.api.CheckpointingMode;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.datastream.KeyedStream;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.environment.CheckpointConfig;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.functions.KeyedProcessFunction;
import org.apache.flink.streaming.api.functions.sink.RichSinkFunction;
import org.apache.flink.streaming.connectors.kafka.FlinkKafkaConsumer;
import org.apache.kafka.clients.consumer.ConsumerConfig;

import java.sql.*;
import java.util.*;

public class MysqlToMysql {
    public static void main(String[] args) throws Exception {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setParallelism(1);

        /*env.enableCheckpointing(3000L, CheckpointingMode.EXACTLY_ONCE);
        env.getCheckpointConfig().setCheckpointTimeout(60 * 1000L);
        env.getCheckpointConfig().setMinPauseBetweenCheckpoints(3000L);
        env.getCheckpointConfig().enableExternalizedCheckpoints(
                CheckpointConfig.ExternalizedCheckpointCleanup.RETAIN_ON_CANCELLATION
        );
        env.setRestartStrategy(
                RestartStrategies.failureRateRestart(
                        3, Time.days(1), Time.minutes(1)
                )
        );
        env.setStateBackend(new HashMapStateBackend());
        env.getCheckpointConfig().setCheckpointStorage("hdfs://hadoop100:8020/ck");*/

        //System.setProperty("HADOOP_USER_NAME", "root");
        Properties pro = new Properties();
        pro.setProperty(ConsumerConfig.BOOTSTRAP_SERVERS_CONFIG, "hadoop100:9092");
        pro.setProperty(ConsumerConfig.GROUP_ID_CONFIG, "mysql_sync1");
        DataStreamSource sourceDS = env.addSource(new FlinkKafkaConsumer("db_sync2", new SimpleStringSchema(), pro));

        SingleOutputStreamOperator mapDS = sourceDS.map(JSON::parseObject);

        KeyedStream keyByDS = mapDS.keyBy(new KeySelector() {
            @Override
            public String getKey(JSONObject value) throws Exception {
                String database = value.getString("database");
                String table = value.getString("table");

                return database + "-" + table;
            }
        });

        //keyByDS.print();

        keyByDS.addSink(new RichSinkFunction() {
            private ValueState valueState;
            private Connection conn;
            private Statement statement;
            private PreparedStatement pst;


            @Override
            public void open(Configuration parameters) throws Exception {
                super.open(parameters);
                valueState = getRuntimeContext().getState(
                        new ValueStateDescriptor("schema", String.class)
                );

                Class.forName("com.mysql.jdbc.Driver");
                String url = "jdbc:mysql://hadoop100:3306/test1";  //JDBC的URL

                conn = DriverManager.getConnection(url, "root", "123456");
                statement = conn.createStatement();

            }

            @Override
            public void close() throws Exception {
                super.close();

                if (statement != null) {
                    statement.close();
                }

                if (conn != null) {
                    statement.close();
                }
            }

            @Override
            public void invoke(JSONObject value, Context context) throws Exception {
                JSONObject data = value.getJSONObject("data");
                String table = value.getString("table");
                String operation = value.getString("operation");
                Set keySet = data.keySet();
                String stateValue = valueState.value();
                StringBuffer buffer = new StringBuffer();
                for (String s : keySet) {
                    buffer.append(s).append(",");
                }
                String substring = buffer.toString();
                System.out.println(substring);

                //元数据库查询该表所有字段的数据类型
                HashMap map = new HashMap();
                String dataTypeSql = "select DISTINCT DATA_TYPE,COLUMN_NAME from \n" +
                        "INFORMATION_SCHEMA.Columns \n" +
                        "where table_name= '" + table + "' and TABLE_SCHEMA = 'test'";
                ResultSet resultSet = statement.executeQuery(dataTypeSql);
                while (resultSet.next()) {
                    String dataType = resultSet.getString(1);
                    String columnName = resultSet.getString(2);
                    map.put(columnName, dataType);
                }


                if (stateValue == null) {
                    //状态为空,更新状态
                    valueState.update(substring);

                    //判断表是否存在，不存在则建表
                    checkTable(table, conn, map, statement);
                    //插入数据
                    insertData(table, substring, data, conn, pst, map, operation, statement);

                } else {
                    //如果状态数据不包含数据schema，更新状态,修改目标数据库

                    //获取两个schema的差异字段
                    StringBuffer addBuffer = new StringBuffer();
                    HashMap updateMap = new HashMap<>();
                    StringBuffer deleteBuffer = new StringBuffer();

                    List keyList = Arrays.asList(substring.split(","));

                    List stateList = Arrays.asList(stateValue.split(","));
                    ArrayList stateList2 = new ArrayList<>();
                    for (String s : stateList) {
                        stateList2.add(s.trim());
                    }

                    ArrayList keyList2 = new ArrayList<>();
                    for (String s : keyList) {
                        keyList2.add(s.trim());
                    }

                    for (int i = 0; i < keyList.size(); i++) {
                        String item = keyList.get(i).trim();

                        //新增column
                        if (!stateList2.contains(item) && stateList2.size() < keyList.size()) {

                            addBuffer.append(item);

                            // 如果当前字段不是最后一个字段，则追加","
                            if (i < keyList.size() - 1) {
                                addBuffer.append(",");
                            }
                            //update column
                        } else if (stateList2.size() == keyList.size() && !stateList2.contains(item)) {

                            for (String oldCol : stateList2) {
                                if (!keyList.contains(oldCol)) {
                                    updateMap.put(oldCol, item);
                                }
                            }


                        }


                    }

                    //删除 col
                    if (keyList2.size() < stateList2.size()) {
                        stateList2.removeAll(keyList2);
                        System.out.println(stateList2);
                        for (int i = 0; i < stateList2.size(); i++) {
                            deleteBuffer.append(stateList2.get(i));
                            // 如果当前字段不是最后一个字段，则追加","
                            if (i < stateList2.size() - 1) {
                                deleteBuffer.append(",");
                            }
                        }
                    }


                    if (!"".equals(addBuffer.toString())) {
                        String sql = addColumn(table, addBuffer.toString(), "test1", map);

                        statement.execute(sql);

                        //插入数据
                        insertData(table, substring, data, conn, pst, map, operation, statement);
                    }

                    else if (!"".equals(updateMap.toString()) && updateMap.size() > 0) {

                        String sql = updateColumn(table, updateMap, "test1", map);
                        System.out.println(sql);
                        statement.execute(sql);

                        //插入数据
                        insertData(table, substring, data, conn, pst, map, operation, statement);
                    }

                    else if (!"".equals(deleteBuffer.toString())) {
                        String sql = deleteColumn(table, deleteBuffer.toString(), "test1");
                        System.out.println(sql);
                        statement.execute(sql);
                        //插入数据
                        insertData(table, substring, data, conn, pst, map, operation, statement);
                    }else {
                        //列没有变化，插入数据即可
                        insertData(table, substring, data, conn, pst, map, operation, statement);
                    }


                    valueState.update(substring);
                }


            }
        });


        env.execute();

    }

    public static void insertData(String table, String substring,
                                  JSONObject data,
                                  Connection conn,
                                  PreparedStatement pst,
                                  HashMap map,
                                  String operation,
                                  Statement statement) throws SQLException {

        if ("read".equals(operation) || "create".equals(operation)) {
            StringBuffer insertSql = new StringBuffer("insert into test1." + table
                    + "(" + substring.substring(0, substring.length() - 1) + ")" + " values(");
            for (int i = 0; i < data.keySet().size(); i++) {
                insertSql.append("?");
                // 如果当前字段不是最后一个字段，则追加","
                if (i < data.keySet().size() - 1) {
                    insertSql.append(",");
                } else {
                    insertSql.append(")");
                }
            }
            System.out.println(insertSql.toString());
            pst = conn.prepareStatement(insertSql.toString());

            String[] field = substring.split(",");

            for (int i = 1; i <= field.length; i++) {
                String dataType = map.get(field[i - 1]);
                if ("int".equals(dataType)) {
                    pst.setInt(i, data.getInteger(field[i - 1]));
                } else if ("varchar".equals(dataType)) {
                    pst.setString(i, data.getString(field[i - 1]));
                }

            }

            pst.addBatch();
            pst.execute();
        } else if ("update".equals(operation)) {
            //update person set name = 'hehe',age = 233 where id = 1
            StringBuffer updateSql = new StringBuffer("update test1." + table + " set ");
            int i = 1;
            for (String s : data.keySet()) {
                updateSql.append(s);
                if (map.get(s).equals("int")) {
                    updateSql.append("=" + data.getInteger(s));
                } else if (map.get(s).equals("varchar")) {
                    updateSql.append("='" + data.getString(s) + "'");
                }

                // 如果当前字段不是最后一个字段，则追加","
                if (i < data.keySet().size()) {
                    updateSql.append(",");
                }



                i++;
            }
            updateSql.append(" where id =" + data.getInteger("id"));
            System.out.println(updateSql.toString());
            statement.execute(updateSql.toString());
        }else if ("delete".equals(operation)){
                //delete from person where id = 1
                StringBuffer deleteSql = new StringBuffer("delete from test1." + table + " where id = ");
                Integer id = data.getInteger("id");
                deleteSql.append(id);
                statement.execute(deleteSql.toString());

            }


        }



        public static String addColumn (String sinkTable, String sinkColumns, String
        database, HashMap < String, String > map){
            // 封装建表 SQL
            StringBuilder sql = new StringBuilder();
            sql.append("ALTER TABLE " + database
                    + "." + sinkTable + " ADD (\n");
            String[] columnArr = sinkColumns.split(",");

            // 遍历添加字段信息
            for (int i = 0; i < columnArr.length; i++) {
                sql.append(columnArr[i]);
                if ("int".equals(map.get(columnArr[i]))) {
                    sql.append(" int");
                } else if ("varchar".equals(map.get(columnArr[i]))) {
                    sql.append(" varchar(255)");
                }
                // 如果当前字段不是最后一个字段，则追加","
                if (i < columnArr.length - 1) {
                    sql.append(",\n");
                }
            }
            sql.append(")");
            String createStatement = sql.toString();

            return createStatement;
        }

        //alter table stdent change name name1 varchar(255);
        public static String updateColumn (String sinkTable, HashMap < String, String > updateMap, String
        database, HashMap < String, String > schemaMap){
            // 封装建表 SQL
            StringBuilder sql = new StringBuilder();
            sql.append("ALTER TABLE " + database
                    + "." + sinkTable);
            int i = 1;
            for (String key : updateMap.keySet()) {
                sql.append(" change column " + key + " ").append(updateMap.get(key));
                if ("int".equals(schemaMap.get(key))) {
                    sql.append(" int");
                } else if ("varchar".equals(schemaMap.get(updateMap.get(key)))) {
                    sql.append(" varchar(255)");
                }
                if (updateMap.size() > 1 && i < updateMap.size()) {
                    sql.append(",");
                }
                i++;
            }


            String createStatement = sql.toString();

            return createStatement;
        }

        //alter table stdent drop column name;
        public static String deleteColumn (String sinkTable, String sinkColumns, String database){
            // 封装建表 SQL
            StringBuilder sql = new StringBuilder();
            sql.append("ALTER TABLE " + database
                    + "." + sinkTable);
            String[] columnArr = sinkColumns.split(",");

            // 遍历添加字段信息
            for (int i = 0; i < columnArr.length; i++) {
                sql.append(" drop column " + columnArr[i]);
                // 如果当前字段不是最后一个字段，则追加","
                if (i < columnArr.length - 1) {
                    sql.append(",\n");
                }
            }
            String deleteSql = sql.toString();

            return deleteSql;
        }

        public static void checkTable (String tableName, Connection
        connection, HashMap < String, String > schemaMap, Statement statement) throws SQLException {
            //判断表是否存在
            String sql = "select 1 from information_schema.tables where table_schema='test1' and table_name ='" + tableName + "'";

            PreparedStatement prepareStatement = connection.prepareStatement(sql);

            ResultSet resultSet = prepareStatement.executeQuery();
            int flag = 0;
            if (resultSet.next()) {
                flag = resultSet.getInt(1);
            }
            if (flag == 1) {
                System.out.println("table already exists");
            } else {
                //建表

                StringBuffer createTableSql = new StringBuffer("create table if not exists test1." + tableName + "(");

                for (String key : schemaMap.keySet()) {
                    if ("id".equals(key)) {
                        createTableSql.append("id int primary key");
                    }
                }
                int i = 1;
                for (String key : schemaMap.keySet()) {
                    createTableSql.append(key);
                    if ("int".equals(schemaMap.get(key))) {
                        createTableSql.append(" int");
                    } else if ("varchar".equals(schemaMap.get(key))) {
                        createTableSql.append(" varchar(255)");
                    }

                    if (schemaMap.size() > 1 && i < schemaMap.size()) {
                        createTableSql.append(",");
                    }
                    i++;
                }
                createTableSql.append(")");

                statement.execute(createTableSql.toString());


            }

        }

    }

2.Debezium实现数据库同步方案

1.Debezium代码

构建debezium代码监控mysql，并将读取到的Binlog数据发送到kafka

package com.xxx.com.xxx;

import com.alibaba.fastjson.JSON;
import com.alibaba.fastjson.JSONObject;
import io.debezium.engine.ChangeEvent;
import io.debezium.engine.DebeziumEngine;
import io.debezium.engine.format.Json;
import org.apache.kafka.clients.producer.KafkaProducer;
import org.apache.kafka.clients.producer.ProducerConfig;
import org.apache.kafka.clients.producer.ProducerRecord;


import java.io.IOException;
import java.util.Properties;
import java.util.concurrent.ExecutorService;
import java.util.concurrent.Executors;
import java.util.concurrent.TimeUnit;

public class DebeziumTest {

    private static DebeziumEngine> engine;

    public static void main(String[] args) throws Exception {
        final Properties props = new Properties();
        props.setProperty("name", "dbz-engine");
        props.setProperty("connector.class", "io.debezium.connector.mysql.MySqlConnector");

        //offset config begin - 使用文件来存储已处理的binlog偏移量
        props.setProperty("offset.storage", "org.apache.kafka.connect.storage.FileOffsetBackingStore");
        props.setProperty("offset.storage.file.filename", "/tmp/dbz/storage/mysql_offsets.dat");
        props.setProperty("offset.flush.interval.ms", "0");
        //offset config end

        props.setProperty("database.server.name", "mysql-connector5");
        props.setProperty("database.history", "io.debezium.relational.history.FileDatabaseHistory");
        props.setProperty("database.history.file.filename", "/tmp/dbz/storage/mysql_dbhistory.txt");

        props.setProperty("database.server.id", "1");	//需要与MySQL的server-id不同
        props.setProperty("database.hostname", "hadoop100");
        props.setProperty("database.port", "3306");
        props.setProperty("database.user", "root");
        props.setProperty("database.password", "123456");
        props.setProperty("database.include.list", "gmall");//要捕获的数据库名
        props.setProperty("table.include.list", "gmall.activity_rule");//要捕获的数据表

        props.setProperty("snapshot.mode", "initial");//全量+增量

        //kafka代码
        Properties kafkaPro = new Properties();
        kafkaPro.put(ProducerConfig.BOOTSTRAP_SERVERS_CONFIG, "hadoop100:9092");
        kafkaPro.put(ProducerConfig.KEY_SERIALIZER_CLASS_CONFIG,
                "org.apache.kafka.common.serialization.StringSerializer");

        kafkaPro.put(ProducerConfig.VALUE_SERIALIZER_CLASS_CONFIG,
                "org.apache.kafka.common.serialization.StringSerializer");

        // 3. 创建 kafka 生产者对象
        KafkaProducer kafkaProducer = new KafkaProducer(kafkaPro);


        // 使用上述配置创建Debezium引擎，输出样式为Json字符串格式
        engine = DebeziumEngine.create(Json.class)
                .using(props)
                .notifying(record -> {
                    System.out.println(record.toString());
                    kafkaProducer.send(new ProducerRecord<>("debezium_cdc2",record.toString()));

    })
                .using((success, message, error) -> {
                    if (error != null) {
                        // 报错回调
                        System.out.println("------------error, message:" + message + "exception:" + error);
                    }
                    closeEngine(engine);
                })
                .build();

        ExecutorService executor = Executors.newSingleThreadExecutor();
        executor.execute(engine);
        addShutdownHook(engine);
        awaitTermination(executor);

    // 5. 关闭资源
        kafkaProducer.close();
    }

    private static void closeEngine(DebeziumEngine> engine) {
        try {
            engine.close();
        } catch (IOException ignored) {
        }
    }

    private static void addShutdownHook(DebeziumEngine> engine) {
        Runtime.getRuntime().addShutdownHook(new Thread(() -> closeEngine(engine)));
    }

    private static void awaitTermination(ExecutorService executor) {
        if (executor != null) {
            try {
                executor.shutdown();
                while (!executor.awaitTermination(5, TimeUnit.SECONDS)) {
                }
            } catch (InterruptedException e) {
                Thread.currentThread().interrupt();
            }
        }
    }
}

2.Flink Mysql同步代码

这个代码实现就比用cdc那个简单多了，不需要用状态编程，数据类型也在消息体内，不需要去数据库获取schema，唯一的不好就是debezium的消息体过于复杂

package com.longi.debezium;

import com.alibaba.fastjson.JSON;
import com.alibaba.fastjson.JSONArray;
import com.alibaba.fastjson.JSONObject;
import org.apache.commons.lang.StringUtils;
import org.apache.flink.api.common.functions.MapFunction;
import org.apache.flink.api.common.serialization.SimpleStringSchema;
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.configuration.Configuration;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.functions.sink.RichSinkFunction;
import org.apache.flink.streaming.connectors.kafka.FlinkKafkaConsumer;
import java.math.BigDecimal;
import java.sql.*;
import java.util.HashMap;
import java.util.Map;
import java.util.Properties;
import java.util.Set;

public class MysqlToMysql {

    public static void main(String[] args) throws Exception {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setParallelism(1);


        // TODO 3. 从 Kafka debezium_cdc 主题读取数据
        String topic = "debezium_cdc2";
        String groupId = "debezium_cdc_49";

        Properties properties = new Properties();
        properties.setProperty("bootstrap.servers", "hadoop100:9092");
        properties.setProperty("group.id", groupId);
        properties.setProperty("key.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
        properties.setProperty("value.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
        properties.setProperty("auto.offset.reset", "earliest");

        DataStreamSource kafkaDS = env.addSource(new FlinkKafkaConsumer(topic, new SimpleStringSchema(), properties));


        SingleOutputStreamOperator, JSONObject>> mapDS = kafkaDS.map(
                new MapFunction, JSONObject>>() {
                    @Override
                    public Tuple2, JSONObject> map(String value) throws Exception {
                        String str = value.replace("EmbeddedEngineChangeEvent [key=", "");
                        //System.out.println(str);
                        String[] split = str.split(", value=");
                        String key = split[0];
                        String[] split1 = split[1].split(", sourceRecord=SourceRecord");
                        String val = split1[0];

                        HashMap map = new HashMap<>();
                        JSONObject valueJson = JSONObject.parseObject(val);
                        JSONObject payload = null;
                        String ddl = "";
                        if(valueJson !=null){
                            payload = valueJson.getJSONObject("payload");
                            ddl = payload.getString("ddl");
                        }

                        if(ddl != "" && null != ddl){
                            map.put("ddl",ddl);
                        }else if(valueJson != null){
                            JSONObject schema = valueJson.getJSONObject("schema");
                            JSONArray fields = schema.getJSONArray("fields");
                            String s = fields.get(0).toString();
                            JSONObject array = JSON.parseObject(s);
                            JSONArray fields1 = array.getJSONArray("fields");


                            for (int i = 0; i < fields1.size(); i++) {
                                JSONObject jsonObject = JSON.parseObject(fields1.getString(i));
                                //System.out.println(jsonObject.toString());
                                String field = jsonObject.getString("field");
                                String name = jsonObject.getString("name");
                                if (name != null && name.equals("io.debezium.time.Timestamp")) {
                                    map.put(field, "datetime");
                                } else {
                                    String type = jsonObject.getString("type");
                                    if (type.equals("int64")){
                                        map.put(field, "bigint");
                                    }else if(type.equals("string")){
                                        map.put(field, "varchar");

                                    }else if(type.equals("int32")){
                                        map.put(field, "int");

                                    }else if(type.equals("bytes")){
                                        map.put(field, "bigdecimal");

                                    }

                                }


                            }
                        }

                        JSONObject jsonObj = new JSONObject();
                        String[] source = split[2].replace("Struct{after=Struct", "").split(",source=Struct");
                        System.out.println(source[0]);

                        //针对更新数据做处理
                        if(!source[0].startsWith("Struct{source=") && !source[0].startsWith("null")  ){
                            if(source[0].startsWith("Struct{before") && source[0].contains("after")){
                                String[] split2 = source[0].replace("Struct{after=Struct", "").split(",after=Struct");
                                String replace = split2[1].replace("=", ":").replace("{","").replace("}","");
                                String[] dataKv = replace.split(",");
                                JSONObject data = new JSONObject();
                                for (String s : dataKv) {
                                    String[] split3 = s.split(":");
                                    data.put(split3[0],split3[1]);

                                }
                                jsonObj.put("data",data);
                            }else if(source[0].startsWith("{")){
                                JSONObject data = JSON.parseObject(source[0].replace("=", ":"));
                                jsonObj.put("data",data);
                            }

                        }



                        jsonObj.put("key", key);
                        jsonObj.put("sch", val);



                        return new Tuple2<>(map, jsonObj);
                    }
                }
        );

        //mapDS.print();

        mapDS.addSink(new RichSinkFunction, JSONObject>>() {
            private Connection conn;

            private Statement statement;

            private PreparedStatement pst;

            @Override
            public void open(Configuration parameters) throws Exception {
                super.open(parameters);
                Class.forName("com.mysql.jdbc.Driver");
                String url = "jdbc:mysql://test3:3306/gmall";
                conn = DriverManager.getConnection(url,"root","123456");
                statement = conn.createStatement();
            }




            @Override
            public void invoke(Tuple2, JSONObject> value, Context context) throws Exception {


                String ddl = value.f0.get("ddl");
                JSONObject value1 = value.f1.getJSONObject("sch");
                if(ddl != "" && null != ddl){

                    String table = "activity_rule";

                    if(ddl.contains(table)){
                        statement.execute(ddl);
                    }


                }else if(value1 != null){
                    HashMap map = value.f0;

                    //System.out.println(value1.toString());
                    JSONObject payload = value1.getJSONObject("payload");



                    JSONObject before = payload.getJSONObject("before");
                    JSONObject after = payload.getJSONObject("after");
                    String operate = payload.getString("op");
                    JSONObject fields = value1.getJSONObject("fields");
                    //System.out.println(fields);

                    JSONObject key = value.f1.getJSONObject("key");
                    JSONObject schema = key.getJSONObject("schema");
                    String name = schema.getString("name");
                    String[] split = name.split("\\.");
                    String database = split[1];
                    String table1 = split[2];

                    JSONObject data = value.f1.getJSONObject("data");

                    //1. 新增数据拼接sql，直接插入
                    if((operate.equals("r") || operate.equals("c")) && data != null ){
                        insertData(database,table1,data,conn,pst,map);
                    }else if(operate.equals("u")){

                        //更新数据，根据主键删除之前的数据，再插入新的数据
                        JSONArray fields1 = schema.getJSONArray("fields");
                        String primaryKey = JSON.parseObject(fields1.get(0).toString()).getString("field");
                        String keyData = key.getJSONObject("payload").getString(primaryKey);



                        deleteData(database,table1,primaryKey,conn,pst,keyData);
                        insertData(database,table1,data,conn,pst,map);

                    }else if(operate.equals("d")){

                        JSONArray fields1 = schema.getJSONArray("fields");
                        String primaryKey = JSON.parseObject(fields1.get(0).toString()).getString("field");

                        String keyData = key.getJSONObject("payload").getString(primaryKey);
                        deleteData(database,table1,primaryKey,conn,pst,keyData);
                    }





                }



            }

            @Override
            public void close() throws Exception {
                super.close();
                if(statement != null){
                    statement.close();
                }

                if(conn != null){
                    conn.close();
                }

            }
        });


        env.execute();

    }

    /**
     * 根据id删除对应的数据
     * @param database
     * @param table1
     * @param primaryKey
     * @param conn
     * @param pst
     * @param data
     */
    private static void deleteData(String database, String table1, String primaryKey, Connection conn, PreparedStatement pst, String data) throws SQLException {
        StringBuffer deleteSql = new StringBuffer("delete from "+ database + "." + table1);



        deleteSql.append(" where "+primaryKey + " = " + data );

        pst = conn.prepareStatement(deleteSql.toString());

        pst.execute();


    }

    /**
     * 插入数据
     * @param database 插入的数据库
     * @param table  插入的表
     * @param data   插入的数据
     * @param conn  jdbc连接对象
     * @param pst   jdbc 执行对象
     * @param map   数据对应的类型map
     * @throws SQLException
     */
    public static void insertData(  String database,
                                    String table,
                                  JSONObject data,
                                  Connection conn,
                                  PreparedStatement pst,
                                  HashMap map) throws SQLException {

        Map dataMap = JSONObject.toJavaObject(data, Map.class);
        Set keySet = null;
        if(dataMap != null){
            keySet = dataMap.keySet();
        }

        Set mapKey = map.keySet();


        StringBuffer insertSql = new StringBuffer("insert into "+ database + "." + table
                + "(" + StringUtils.join(mapKey,",")+ ")" + " values(");
        for (int i = 0; i < mapKey.size(); i++) {
            insertSql.append("?");
            // 如果当前字段不是最后一个字段，则追加","
            if (i < mapKey.size() - 1) {
                insertSql.append(",");
            } else {
                insertSql.append(")");
            }
        }
        System.out.println(insertSql.toString());
        pst = conn.prepareStatement(insertSql.toString());

        String join = StringUtils.join(map.keySet(), ",");
        String[] field = join.split(",");

        String dataKeys = StringUtils.join(keySet, ",");


        for (int i = 1; i <=field.length ; i++) {
            String fieldName = field[i - 1];
            String dataType = map.get(fieldName);
            if("bigint".equals(dataType)){
                if(dataKeys.contains(fieldName)){
                    pst.setInt(i, data.getIntValue(fieldName));
                }else{
                    pst.setInt(i, 0);
                }

            }else if("varchar".equals(dataType)){

                if(dataKeys.contains(fieldName)){
                    pst.setString(i, data.getString(fieldName));
                }else{
                    pst.setString(i, "");
                }


            }else if("datetime".equals(dataType)){
                if(dataKeys.contains(fieldName)){
                    pst.setTimestamp(i, data.getTimestamp(fieldName));
                }else{
                    pst.setTimestamp(i,null);
                }


            }
            else if("int".equals(dataType)){
                if(dataKeys.contains(fieldName)){
                    pst.setInt(i, data.getIntValue(fieldName));
                }else{
                    pst.setInt(i, 0);
                }


            }else if("bigdecimal".equals(dataType)){
                if(dataKeys.contains(fieldName)){
                    pst.setBigDecimal(i, data.getBigDecimal(fieldName));
                }else{
                    pst.setBigDecimal(i, BigDecimal.valueOf(0));
                }


            }

        }

        pst.addBatch();
        pst.execute();
    }

}

3.Flink CDC和Debezium消息体

1.Flink CDC消息体

整个消息体分为两部分sourceRecord和ConnectRecord，sourceRecord中主要存放的binlog偏移信息，connectRecord中keySchema中存放的database和table名，value中存放的数据信息

SourceRecord{
	sourcePartition={server=mysql_binlog_source}, 
	sourceOffset={ts_sec=1694764944, file=mysql-bin.000016, pos=8017, snapshot=true}} 
ConnectRecord{topic='mysql_binlog_source.gmall.activity_info', kafkaPartition=null, key=Struct{id=1}, 
	keySchema=Schema{mysql_binlog_source.gmall.activity_info.Key:STRUCT}, 
	value=Struct{after=Struct{id=1,activity_name=assss,activity_type=1001},
		source=Struct{version=1.5.4.Final,connector=mysql,name=mysql_binlog_source,
		ts_ms=1694764944151,snapshot=true,db=gmall,table=activity_info,server_id=0,
		file=mysql-bin.000016,pos=8017,row=0},
		op=r,ts_ms=1694764944157}, 
	valueSchema=Schema{mysql_binlog_source.gmall.activity_info.Envelope:STRUCT}, timestamp=null, headers=ConnectHeaders(headers=)}

2. Debezium消息体

debezium消息体比较复杂，有好几层。

第一层：key和value,sourceRecord和ConnectRecord

这里的sourceRecord和ConnectRecord就是CDC中的消息体结构

第二层：

key--> schema 可从此结构中分解出数据库名和表名

key--> payload 可以提取出主键和对应的主键数据

value-->schema 这个fields中就存放的变更前后的数据类型

value-->payload 这里存放的就是变更前后的数据

最后附上完整的消息体

EmbeddedEngineChangeEvent[key = {
		"schema": {
			"type": "struct",
			"fields": [{
				"type": "int64",
				"optional": false,
				"field": "id"
			}],
			"optional": false,
			"name": "mysql_connector.gmall.activity_info.Key"
		},
		"payload": {
			"id": 3
		}
	}, value = {
		"schema": {
			"type": "struct",
			"fields": [{
				"type": "struct",
				"fields": [{
					"type": "int64",
					"optional": false,
					"field": "id"
				}, {
					"type": "string",
					"optional": true,
					"field": "activity_name"
				}, {
					"type": "string",
					"optional": true,
					"field": "activity_type"
				}, {
					"type": "string",
					"optional": true,
					"field": "activity_desc"
				}, {
					"type": "int64",
					"optional": true,
					"name": "io.debezium.time.Timestamp",
					"version": 1,
					"field": "start_time"
				}, {
					"type": "int64",
					"optional": true,
					"name": "io.debezium.time.Timestamp",
					"version": 1,
					"field": "end_time"
				}, {
					"type": "int64",
					"optional": true,
					"name": "io.debezium.time.Timestamp",
					"version": 1,
					"field": "create_time"
				}],
				"optional": true,
				"name": "mysql_connector.gmall.activity_info.Value",
				"field": "before"
			}, {
				"type": "struct",
				"fields": [{
					"type": "int64",
					"optional": false,
					"field": "id"
				}, {
					"type": "string",
					"optional": true,
					"field": "activity_name"
				}, {
					"type": "string",
					"optional": true,
					"field": "activity_type"
				}, {
					"type": "string",
					"optional": true,
					"field": "activity_desc"
				}, {
					"type": "int64",
					"optional": true,
					"name": "io.debezium.time.Timestamp",
					"version": 1,
					"field": "start_time"
				}, {
					"type": "int64",
					"optional": true,
					"name": "io.debezium.time.Timestamp",
					"version": 1,
					"field": "end_time"
				}, {
					"type": "int64",
					"optional": true,
					"name": "io.debezium.time.Timestamp",
					"version": 1,
					"field": "create_time"
				}],
				"optional": true,
				"name": "mysql_connector.gmall.activity_info.Value",
				"field": "after"
			}, {
				"type": "struct",
				"fields": [{
					"type": "string",
					"optional": false,
					"field": "version"
				}, {
					"type": "string",
					"optional": false,
					"field": "connector"
				}, {
					"type": "string",
					"optional": false,
					"field": "name"
				}, {
					"type": "int64",
					"optional": false,
					"field": "ts_ms"
				}, {
					"type": "string",
					"optional": true,
					"name": "io.debezium.data.Enum",
					"version": 1,
					"parameters": {
						"allowed": "true,last,false,incremental"
					},
					"default": "false",
					"field": "snapshot"
				}, {
					"type": "string",
					"optional": false,
					"field": "db"
				}, {
					"type": "string",
					"optional": true,
					"field": "sequence"
				}, {
					"type": "string",
					"optional": true,
					"field": "table"
				}, {
					"type": "int64",
					"optional": false,
					"field": "server_id"
				}, {
					"type": "string",
					"optional": true,
					"field": "gtid"
				}, {
					"type": "string",
					"optional": false,
					"field": "file"
				}, {
					"type": "int64",
					"optional": false,
					"field": "pos"
				}, {
					"type": "int32",
					"optional": false,
					"field": "row"
				}, {
					"type": "int64",
					"optional": true,
					"field": "thread"
				}, {
					"type": "string",
					"optional": true,
					"field": "query"
				}],
				"optional": false,
				"name": "io.debezium.connector.mysql.Source",
				"field": "source"
			}, {
				"type": "string",
				"optional": false,
				"field": "op"
			}, {
				"type": "int64",
				"optional": true,
				"field": "ts_ms"
			}, {
				"type": "struct",
				"fields": [{
					"type": "string",
					"optional": false,
					"field": "id"
				}, {
					"type": "int64",
					"optional": false,
					"field": "total_order"
				}, {
					"type": "int64",
					"optional": false,
					"field": "data_collection_order"
				}],
				"optional": true,
				"field": "transaction"
			}],
			"optional": false,
			"name": "mysql_connector.gmall.activity_info.Envelope"
		},
		"payload": {
			"before": null,
			"after": {
				"id": 3,
				"activity_name": "ccccc",
				"activity_type": "1003",
				"activity_desc": "fffff",
				"start_time": null,
				"end_time": null,
				"create_time": null
			},
			"source": {
				"version": "1.9.5.Final",
				"connector": "mysql",
				"name": "mysql-connector",
				"ts_ms": 1694568910248,
				"snapshot": "true",
				"db": "gmall",
				"sequence": null,
				"table": "activity_info",
				"server_id": 0,
				"gtid": null,
				"file": "mysql-bin.000015",
				"pos": 154,
				"row": 0,
				"thread": null,
				"query": null
			},
			"op": "r",
			"ts_ms": 1694568910248,
			"transaction": null
		}
	}, sourceRecord = SourceRecord {
		sourcePartition = {
			server = mysql - connector
		}, sourceOffset = {
			ts_sec = 1694568910,
			file = mysql - bin .000015,
			pos = 154,
			snapshot = true
		}
	}
	ConnectRecord {
		topic = 'mysql-connector.gmall.activity_info', kafkaPartition = null, key = Struct {
			id = 3
		}, keySchema = Schema {
			mysql_connector.gmall.activity_info.Key: STRUCT
		}, value = Struct {
			after = Struct {
				id = 3, activity_name = ccccc, activity_type = 1003, activity_desc = fffff
			}, source = Struct {
				version = 1.9 .5.Final, connector = mysql, name = mysql - connector, ts_ms = 1694568910248, snapshot = true, db = gmall, table = activity_info, server_id = 0, file = mysql - bin .000015, pos = 154, row = 0
			}, op = r, ts_ms = 1694568910248
		}, valueSchema = Schema {
			mysql_connector.gmall.activity_info.Envelope: STRUCT
		}, timestamp = null, headers = ConnectHeaders(headers = )
	}]

你可能感兴趣的:(flink,flink,大数据)

hutool获取大数据量的excel内容及sheet名称问题 liu_qixiang excel
读取大数据量的excel时代码如下privatestaticRowHandlercreateRowHandler(){returnnewRowHandler(){@Overridepublicvoidhandle(inti,longl,Listlist){System.out.println(i+""+l+""+list);}};}publicstaticvoidmain(String[]args
惊喜！万博智云亮相2024数博会和第三届828 B2B企业节万博智云OneProCloud 新闻资讯公司新闻华为云 HyperBDR云容灾数博会
摘要万博智云作为2024828B2B企业节铂金合作伙伴，在2024中国国际大数据产业博览会的828B2B企业节开幕式上亮相，并参加了本次828企业节的一系列活动，包括在华为展台现场开展的“‘云上大咖团’直面数博会现场”的直播上发表了主题分享。8月28日，由国家数据局主办、贵州省人民政府承办的2024中国国际大数据产业博览会（简称“2024数博会”）在贵州省贵阳市开幕。本届数博会以“数智共生：开创数
020 现代数据中心的路由与交换架构 Network_Engineer RS 网络网络安全计算机网络网络协议网络安全
引言现代数据中心的设计必须兼顾高性能、高可用性和灵活性，以满足云计算、大数据、人工智能等应用的需求。在这样的背景下，数据中心的路由与交换架构设计显得尤为重要。Spine-Leaf架构、BGP路由优化以及高密度虚拟化环境中的交换技术，成为了现代数据中心的关键组成部分。本篇博文将探讨这些技术的实际应用，并提供华为设备的配置示例。1.Spine-Leaf架构的设计与实施Spine-Leaf架构是一种扁平
flink独立集群部署嘎子吱吱吱吱 flink hadoop linux
#flink独立集群部署说明安装环境三台服务器47.106.23.1（master）47.112.173.2（worker1）47.115.162.3（worker1）提前装好jdk和ssh,以下操作最好不要用root账号提前下载好flink的包并解压设置三台服务器之间ssh免密登录生成本机秘钥以47.106.23.1为例（其他两台参考本服务器）#生成本机秘钥cd;ssh-keygen-trsa-
IAAS: IT公司去IOE-Alibaba系统构架解读 wishchin 心理学/职业 BigDataMini Spark PaaS
从Hadoop到自主研发，技术解读阿里去IOE后的系统架构原地址：......................云计算阿里飞天摘要：从IOE时代，到Hadoop与飞天并行，再到飞天单集群5000节点的实现，阿里一直摸索在技术衍变的前沿。这里，我们将从架构、性能、运维等多个方面深入了解阿里基础设施。【导读】互联网的普及，智能终端的增加，大数据时代悄然而至。在这个数据为王的时代，数十倍、数百倍的数据给各
开源项目的认识理解禁默话题探讨开源程序人生
目录开源项目有哪些机遇与挑战？1.开源项目的发展趋势2.开源的经验分享（向大佬请教与上网查询）3.开源项目的挑战开源项目有哪些机遇与挑战？1.开源项目的发展趋势1.持续增长与普及-开源项目将继续增长，特别是在云计算、大数据、人工智能等领域。-开源软件在企业中的应用将更加普及，成为企业IT战略的一部分。2.企业的参与-企业将继续增加对开源项目的投资，通过赞助、捐赠或直接参与开发来推动开源项目的发展。
未完待续大数据工程学院19计本1班
分院:大数据工程学院班级:19计本1班姓名:李思雪不知不觉，我们送走了活力四射的春天，迎来了烈日炎炎夏天。对于夏天的的印象，不仅有火红的太阳，湛蓝的天空，茂盛的枝叶……还有的是那让人不得不说的毕业季。不是毕业季的主角，作为毕业季看客，我们却也能感受到离别到来是的不舍。我们对学长学姐的祝福是前程似锦，原来是分别的意思。都知道天下无不散的宴席，但那四年的同窗之情，记忆里点点滴滴，不是一时就能放下，毕竟
理性拥抱机器学习热潮：ML祖师爷Tom Mitchell最新洞见「已注销」
来源：雷锋网作者：杨晓凡本文共3484字，建议阅读7分钟。本文与你分享TomMitchell教授的最新洞见。编者按：上个月，全球移动互联网大会GMIC2018在北京开幕。此次主题为"AI生万物，谐音爱生万物，科学技术要有人文的温度，机器有爱，真芯英雄"的大会上，全球人工智能领袖汇聚全球业界顶尖领袖，探讨在基础硬件、大数据与开源平台、深度学习为代表的算法等人工智能领域的最新洞见，是年度行业发展的风向
Yarn介绍 - 大数据框架 why do not 大数据 hadoop
YARN的概述YARN是一个资源调度平台，负责为运算程序提供服务器运算资源，相当于一个分布式的操作系统平台，而MapReduce等运算程序则相当于运行于操作系统之上的应用程序YARN是Hadoop2.x版本中的一个新特性。它的出现其实是为了解决第一代MapReduce编程框架的不足，提高集群环境下的资源利用率，这些资源包括内存，磁盘，网络，IO等。Hadoop2.X版本中重新设计的这个YARN集群
浅析大数据Hadoop之YARN架构 haotian1685 python 数据清洗人工智能大数据大数据学习深度学习大数据大数据学习 YARN hadoop
1.YARN本质上是资源管理系统。YARN提供了资源管理和资源调度等机制1.1原HadoopMapReduce框架对于业界的大数据存储及分布式处理系统来说，Hadoop是耳熟能详的卓越开源分布式文件存储及处理框架，对于Hadoop框架的介绍在此不再累述，读者可参考Hadoop官方简介。使用和学习过老Hadoop框架（0.20.0及之前版本）的同仁应该很熟悉如下的原MapReduce框架图：1.2H
大数据知识总结（三）：Hadoop之Yarn重点架构原理 Lansonli 大数据大数据 hadoop 架构 Yarn
文章目录Hadoop之Yarn重点架构原理一、Yarn介绍二、Yarn架构三、Yarn任务运行流程四、Yarn三种资源调度器特点及使用场景Hadoop之Yarn重点架构原理一、Yarn介绍ApacheHadoopYarn(YetAnotherReasourceNegotiator，另一种资源协调者)是Hadoop2.x版本后使用的资源管理器，可以为上层应用提供统一的资源管理平台。二、Yarn架构Y
Flink的时间与watermarks详解大数据技术与数仓
当我们在使用Flink的时候，避免不了要和时间(time)、水位线(watermarks)打交道，理解这些概念是开发分布式流处理应用的基础。那么Flink支持哪些时间语义？Flink是如何处理乱序事件的？什么是水位线？水位线是如何生成的？水位线的传播方式是什么？让我们带着这些问题来开始本文的内容。时间语义基本概念时间是Flink等流处理中最重要的概念之一，在Flink中Time可以分为三种：Eve
弹性搜索引擎Elasticsearch：本地部署与远程访问指南猴哥是肖鸿人工智能技术指导专升本 jenkins 运维
在大数据时代，数据搜索和分析成为企业核心竞争力的关键因素。弹性搜索引擎Elasticsearch作为一种分布式、可扩展的搜索和分析引擎，受到广泛欢迎。本文将介绍Elasticsearch的本地部署与远程访问，帮助读者更好地利用这一强大的工具。一、本地部署环境准备在开始部署Elasticsearch之前，需要准备以下环境：操作系统：Elasticsearch支持多种操作系统，如Linux、Windo
深度学习思考夜雪朝歌
神经网络如果能了解每一层输出的意义，就可以避免end－to－end的黑箱理论，对理论话深度学习很有意义，一个思路是经验值，将每一层在特定任务下都有输出，对结果作经验总结，比方说浅层输出低层次的几何轮廓特征，高层输出语意特征，我曾经在objecttracking用过这样的方法,在大数据集测试，每一层都输出结果，并且和handcraftfeature做比较，发现浅层的效果不如handcraftfeat
实时数仓之实时数仓架构(Hudi)(1) 2401_84164527 程序员架构
目前比较流行的实时数仓架构有两类，其中一类是以Flink+Doris为核心的实时数仓架构方案；另一类是以湖仓一体架构为核心的实时数仓架构方案。本文针对Flink+Hudi湖仓一体架构进行介绍，这套架构的特点是可以基于一套数据完全实现Lambda架构。实时数仓架构图如下：技术框架Kafka：用于接入数据源；FlinkCDC：如果直接接入业务数据源可以考虑CDC方式，如果通过Kafka缓冲接入业务数据
2024年大数据最新实时数仓之实时数仓架构(Hudi) 2401_84185556 程序员大数据架构
技术框架Kafka：用于接入数据源；FlinkCDC：如果直接接入业务数据源可以考虑CDC方式，如果通过Kafka缓冲接入业务数据可以忽略;Flink：用于数据ETL，包括接入数据、处理数据及输出数据全链路数据计算任务；Spark：用于数据ETL，包括处理数据及输出数据全链路数据计算任务；Hudi：湖仓一体数据管理框架，用来管理模型数据，包括ODS/DWD/DWS/DIM/ADS等；Doris：O
实时数仓之实时数仓架构(Hudi)(1)，2024年最新熬夜整理华为最新大数据开发笔试题 2401_84181221 程序员架构大数据
+Hudi：湖仓一体数据管理框架，用来管理模型数据，包括ODS/DWD/DWS/DIM/ADS等；+Doris：OLAP引擎，同步数仓结果模型，对外提供数据服务支持；+Hbase：用来存储维表信息，维表数据来源一部分有Flink加工实时写入，另一部分是从Spark任务生产，其主要作用用来支持FlinkETL处理过程中的LookupJoin功能。这里选用Hbase原因主要因为Table的HbaseC
基于实时深度学习的推荐系统架构设计和技术演进阿里云云栖号云栖号技术分享架构阿里巴巴
简介：整理自5月29日阿里云开发者大会，秦江杰和刘童璇的分享，内容包括实时推荐系统的原理以及什么是实时推荐系统、整体系统的架构及如何在阿里云上面实现，以及关于深度学习的细节介绍本文整理自5月29日阿里云开发者大会，大数据与AI一体化平台分论坛，秦江杰和刘童璇带来的《基于实时深度学习的推荐系统架构设计和技术演进》。分享内容如下：实时推荐系统的原理以及什么是实时推荐系统整体系统的架构及如何在阿里云上面
《钝感力》| 钝感是一种沉默但有力的回击力夏小半的江湖
2018年浙江省离婚大数据显示，有35%的离婚原因都是生活琐事。其实婚姻的破裂并没有那么多狗血剧情，最多的都是生活中的小摩擦。其实对于婚姻来说，最需要的就是钝感力，面对另一半的一些小缺点和小错误，不要太敏感，不要过分在意，生活就会变得开心许多。不光是婚姻，在我们生活的方方面面，都需要一些钝感力，来帮助我们和这个复杂的世界友好相处。360的周鸿祎也曾经说过,人在年轻的时候，还是应该迟钝一点，让自己的
大数据新视界--大数据大厂之MySQL数据库课程设计：MySQL集群架构负载均衡故障排除与解决方案青云交大数据新视界 Java技术栈 Java性能优化数据库 MySQL 集群架构负载均衡故障排除算法监控备份恢复负载均衡的常见故障及排除方法
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：Ja
大数据新视界--大数据大厂之MySQL 数据库课程设计：MySQL 数据库 SQL 语句调优的进阶策略与实际案例（2-2）青云交大数据新视界 Java Java技术栈数据库 SQL 调优进阶索引优化数据库参数分区表垂直拆分课程设计性能优化 MySQL
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：Ja
大数据新视界--大数据大厂之MySQL 数据库课程设计：开启数据宇宙的传奇之旅青云交大数据新视界 Java技术栈数据库 MySQL 数据库课程设计实践项目案例备份恢复 Java Mysql备份恢复
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：Ja
大数据新视界--大数据大厂之MySQL数据库课程设计：揭秘 MySQL 集群架构负载均衡核心算法：从理论到 Java 代码实战，让你的数据库性能飙升！青云交大数据新视界 Java技术栈数据库 MySQL 集群架构负载均衡算法加权轮询最少连接加权最少连接轮询随机源地址哈希
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：Ja
starrocks和clickhouse数据库比较 CodeMaster_37714848 clickhouse 数据库
Starrocks和ClickHouse都是用于数据分析的数据库，但它们的设计理念和用途有所不同。下面是这两者的一些主要比较点：1.基础架构与设计目标Starrocks:Starrocks是一个专注于实时数据分析的平台，常用于大数据处理和商业智能应用。它设计用于高效处理大规模数据集，并且支持复杂查询和数据处理。支持多种数据源的集成，并且可以与其他大数据技术（如Hadoop、Spark）协同工作。C
tyut数据分析考试资料 study NH 数据分析 python 数据挖掘
1、关于数据分析的说法，下列描述错误的是（）。CA.数据分析可以通过计算机工具和数学知识处理数据｜B.可以做出具有针对性的决策｜C.数据分析没有实际的使用意义｜D.在大数据环境下，数据分析能够挖掘出更有价值的信息2、下列关于数据分析概念的描述错误的是（）。DA.使用适当的统计分析方法对收集来的大量数据进行分析｜B.数据分析可以从数据中提炼出有用的信息并形成结论｜C.数据分析可以对数据进行更深层的研
大数据量查询：流式查询与游标查询不识愁滋味. sql 数据库 spring cloud spring boot 微服务
最近在做一个计算相关的功能，大体就是有很多条SQL，每条SQL都涉及复杂地运算，最后要将所有计算结果进行合并分析。经初步测试，每个SQL起码会查出几十万条记录，我们现在有毛毛多的这种SQL。最大的问题不在于速度，毕竟涉及运算的功能，想要从速度入手就得靠中间件和算法了。内存占用才是我们最需要注意的，一旦数据量很大且一次性冲入Java堆内存，程序会直接OOM然后离开人世。比如使用非分页的普通查询，这张
大数据（Hbase简单示例） BL小二 hbase 大数据 hadoop
importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.hbase.HBaseConfiguration;importorg.apache.hadoop.hbase.TableName;importorg.apache.hadoop.hbase.client.*;importorg.apache.hadoop.hbase
最新【JAVA问题解决方案】02，字节跳动大数据开发高级工程师 2401_84586779 大数据面试学习
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化资料的朋友，可以戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！publicvoidexcelTest(){Lists
数据仓库系列篇之基本概述小学僧来啦数据仓库数据仓库数据库大数据
@Author:Spinach|GHB@Link:http://blog.csdn.net/bocai8058文章目录前言什么是数据仓库数据仓库与数据库的区别为什么要建立数据仓库及数仓平台的优势为什么要建立数据仓库大数据数仓平台的特点或优势数据仓库和数据集市的关系前言通过收集资料、个人经验总结整理了【数据仓库系列篇】，有不足之处多多包涵，可参考如下：《数据仓库系列篇之基本概述》《数据仓库系列篇之分
深智城基于超融合数据库MatrixOne的一站式交通大数据平台改造 MatrixOrigin 数据库云原生大数据
在智慧交通应用中，数据处理需求极为复杂，涉及人、车辆、道路和环境等多个方面，产生了大量异构数据。交通管理人员需要对这些数据进行实时分析和决策，以应对各种交通事件。然而，在实际生产中会发现数据处理缺陷、管理复杂度高、云原生基础设施兼容性不足等问题。实践证明，MatrixOne可完整、稳定支撑深智城集团的交通数字实时仿真项目，实现秒级的业务及分析实时性，并在技术、管理和成本方面均得到了显著提升，大幅降
JAVA中的Enum 周凡杨 java enum 枚举
Enum是计算机编程语言中的一种数据类型---枚举类型。在实际问题中，有些变量的取值被限定在一个有限的范围内。例如，一个星期内只有七天我们通常这样实现上面的定义： public String monday; public String tuesday; public String wensday; public String thursday
赶集网mysql开发36条军规 Bill_chen mysql 业务架构设计 mysql调优 mysql性能优化
(一)核心军规 (1)不在数据库做运算 cpu计算务必移至业务层； (2)控制单表数据量 int型不超过1000w，含char则不超过500w；合理分表；限制单库表数量在300以内； (3)控制列数量字段少而精，字段数建议在20以内
Shell test命令 daizj shell 字符串 test 数字文件比较
Shell test命令 Shell中的 test 命令用于检查某个条件是否成立，它可以进行数值、字符和文件三个方面的测试。数值测试参数说明 -eq 等于则为真 -ne 不等于则为真 -gt 大于则为真 -ge 大于等于则为真 -lt 小于则为真 -le 小于等于则为真实例演示： num1=100 num2=100if test $[num1]
XFire框架实现WebService(二) 周凡杨 java webservice
有了XFire框架实现WebService(一)，就可以继续开发WebService的简单应用。 Webservice的服务端(WEB工程)：两个java bean类： Course.java package cn.com.bean; public class Course { private
重绘之画图板朱辉辉33 画图板
上次博客讲的五子棋重绘比较简单，因为只要在重写系统重绘方法paint（）时加入棋盘和棋子的绘制。这次我想说说画图板的重绘。画图板重绘难在需要重绘的类型很多，比如说里面有矩形，园，直线之类的，所以我们要想办法将里面的图形加入一个队列中，这样在重绘时就
Java的IO流西蜀石兰 java
刚学Java的IO流时，被各种inputStream流弄的很迷糊，看老罗视频时说想象成插在文件上的一根管道，当初听时觉得自己很明白，可到自己用时，有不知道怎么代码了。。。每当遇到这种问题时，我习惯性的从头开始理逻辑，会问自己一些很简单的问题，把这些简单的问题想明白了，再看代码时才不会迷糊。 IO流作用是什么？答：实现对文件的读写，这里的文件是广义的； Java如何实现程序到文件
No matching PlatformTransactionManager bean found for qualifier 'add' - neither 林鹤霄
java.lang.IllegalStateException: No matching PlatformTransactionManager bean found for qualifier 'add' - neither qualifier match nor bean name match! 网上找了好多的资料没能解决，后来发现：项目中使用的是xml配置的方式配置事务，但是
Row size too large (> 8126). Changing some columns to TEXT or BLOB aigo column
原文：http://stackoverflow.com/questions/15585602/change-limit-for-mysql-row-size-too-large 异常信息： Row size too large (> 8126). Changing some columns to TEXT or BLOB or using ROW_FORMAT=DYNAM
JS 格式化时间 alxw4616 JavaScript
/** * 格式化时间 2013/6/13 by 半仙 [email protected] * 需要 pad 函数 * 接收可用的时间值. * 返回替换时间占位符后的字符串 * * 时间占位符:年 Y 月 M 日 D 小时 h 分 m 秒 s 重复次数表示占位数 * 如 YYYY 4占4位 YY 占2位<p></p> * MM DD hh mm
队列中数据的移除问题百合不是茶队列移除
队列的移除一般都是使用的remov();都可以移除的,但是在昨天做线程移除的时候出现了点问题,没有将遍历出来的全部移除, 代码如下; // package com.Thread0715.com; import java.util.ArrayList; public class Threa
Runnable接口使用实例 bijian1013 java thread Runnable java多线程
Runnable接口 a. 该接口只有一个方法：public void run(); b. 实现该接口的类必须覆盖该run方法 c. 实现了Runnable接口的类并不具有任何天
oracle里的extend详解 bijian1013 oracle 数据库 extend
扩展已知的数组空间，例： DECLARE TYPE CourseList IS TABLE OF VARCHAR2(10); courses CourseList; BEGIN -- 初始化数组元素，大小为3 courses := CourseList('Biol 4412 ', 'Psyc 3112 ', 'Anth 3001 '); --
【httpclient】httpclient发送表单POST请求 bit1129 httpclient
浏览器Form Post请求浏览器可以通过提交表单的方式向服务器发起POST请求，这种形式的POST请求不同于一般的POST请求 1. 一般的POST请求，将请求数据放置于请求体中，服务器端以二进制流的方式读取数据，HttpServletRequest.getInputStream()。这种方式的请求可以处理任意数据形式的POST请求，比如请求数据是字符串或者是二进制数据 2. Form
【Hive十三】Hive读写Avro格式的数据 bit1129 hive
1. 原始数据 hive> select * from word; OK 1 MSN 10 QQ 100 Gtalk 1000 Skype 2. 创建avro格式的数据表 hive> CREATE TABLE avro_table(age INT, name STRING)STORE
nginx+lua+redis自动识别封解禁频繁访问IP ronin47
在站点遇到攻击且无明显攻击特征，造成站点访问慢，nginx不断返回502等错误时，可利用nginx+lua+redis实现在指定的时间段内，若单IP的请求量达到指定的数量后对该IP进行封禁，nginx返回403禁止访问。利用redis的expire命令设置封禁IP的过期时间达到在指定的封禁时间后实行自动解封的目的。一、安装环境： CentOS x64 release 6.4(Fin
java-二叉树的遍历-先序、中序、后序（递归和非递归）、层次遍历 bylijinnan java
import java.util.LinkedList; import java.util.List; import java.util.Stack; public class BinTreeTraverse { //private int[] array={ 1, 2, 3, 4, 5, 6, 7, 8, 9 }; private int[] array={ 10,6,
Spring源码学习-XML 配置方式的IoC容器启动过程分析 bylijinnan java spring IOC
以FileSystemXmlApplicationContext为例，把Spring IoC容器的初始化流程走一遍： ApplicationContext context = new FileSystemXmlApplicationContext ("C:/Users/ZARA/workspace/HelloSpring/src/Beans.xml&q
[科研与项目]民营企业请慎重参与军事科技工程 comsci 企业
军事科研工程和项目并非要用最先进，最时髦的技术，而是要做到“万无一失” 而民营科技企业在搞科技创新工程的时候，往往考虑的是技术的先进性，而对先进技术带来的风险考虑得不够，在今天提倡军民融合发展的大环境下，这种“万无一失”和“时髦性”的矛盾会日益凸显。。。。。。所以请大家在参与任何重大的军事和政府项目之前，对
spring 定时器-两种方式 cuityang spring quartz 定时器
方式一：间隔一定时间运行 <bean id="updateSessionIdTask" class="com.yang.iprms.common.UpdateSessionTask" autowire="byName" /> <bean id="updateSessionIdSchedule
简述一下关于BroadView站点的相关设计 damoqiongqiu view
终于弄上线了，累趴，戳这里http://www.broadview.com.cn 简述一下相关的技术点前端：jQuery+BootStrap3.2+HandleBars，全站Ajax（貌似对SEO的影响很大啊！怎么破？），用Grunt对全部JS做了压缩处理，对部分JS和CSS做了合并（模块间存在很多依赖，全部合并比较繁琐，待完善）。后端：U
运维 PHP问题汇总 dcj3sjt126com windows2003
1、Dede(织梦)发表文章时,内容自动添加关键字显示空白页解决方法：后台>系统>系统基本参数>核心设置>关键字替换（是/否），这里选择“是”。后台>系统>系统基本参数>其他选项>自动提取关键字，这里选择“是”。 2、解决PHP168超级管理员上传图片提示你的空间不足网站是用PHP168做的，反映使用管理员在后台无法
mac 下安装php扩展 - mcrypt dcj3sjt126com PHP
MCrypt是一个功能强大的加密算法扩展库，它包括有22种算法，phpMyAdmin依赖这个PHP扩展，具体如下：下载并解压libmcrypt-2.5.8.tar.gz。在终端执行如下命令： tar zxvf libmcrypt-2.5.8.tar.gz cd libmcrypt-2.5.8/ ./configure --disable-posix-threads --
MongoDB更新文档 [四] eksliang mongodb Mongodb更新文档
MongoDB更新文档转载请出自出处：http://eksliang.iteye.com/blog/2174104 MongoDB对文档的CURD，前面的博客简单介绍了，但是对文档更新篇幅比较大，所以这里单独拿出来。语法结构如下： db.collection.update( criteria, objNew, upsert, multi) 参数含义参数
Linux下的解压，移除，复制，查看tomcat命令 y806839048 tomcat
重复myeclipse生成webservice有问题删除以前的，干净 1、先切换到：cd usr/local/tomcat5/logs 2、tail -f catalina.out 3、这样运行时就可以实时查看运行日志了 Ctrl+c 是退出tail命令。有问题不明的先注掉 cp /opt/tomcat-6.0.44/webapps/g
Spring之使用事务缘由(3-XML实现) ihuning spring
用事务通知声明式地管理事务事务管理是一种横切关注点。为了在 Spring 2.x 中启用声明式事务管理，可以通过 tx Schema 中定义的 <tx:advice> 元素声明事务通知，为此必须事先将这个 Schema 定义添加到 <beans> 根元素中去。声明了事务通知后，就需要将它与切入点关联起来。由于事务通知是在 <aop:
GCD使用经验与技巧浅谈啸笑天 GC
前言 GCD(Grand Central Dispatch)可以说是Mac、iOS开发中的一大“利器”，本文就总结一些有关使用GCD的经验与技巧。 dispatch_once_t必须是全局或static变量这一条算是“老生常谈”了，但我认为还是有必要强调一次，毕竟非全局或非static的dispatch_once_t变量在使用时会导致非常不好排查的bug，正确的如下： 1
linux（Ubuntu）下常用命令备忘录1 macroli linux 工作 ubuntu
在使用下面的命令是可以通过--help来获取更多的信息1,查询当前目录文件列表：ls ls命令默认状态下将按首字母升序列出你当前文件夹下面的所有内容，但这样直接运行所得到的信息也是比较少的，通常它可以结合以下这些参数运行以查询更多的信息： ls / 显示/.下的所有文件和目录 ls -l 给出文件或者文件夹的详细信息 ls -a 显示所有文件，包括隐藏文
nodejs同步操作mysql qiaolevip 学习永无止境每天进步一点点 mysql nodejs
// db-util.js var mysql = require('mysql'); var pool = mysql.createPool({ connectionLimit : 10, host: 'localhost', user: 'root', password: '', database: 'test', port: 3306 });
一起学Hive系列文章 superlxw1234 hive Hive入门
[一起学Hive]系列文章目录贴，入门Hive，持续更新中。 [一起学Hive]之一—Hive概述，Hive是什么 [一起学Hive]之二—Hive函数大全-完整版 [一起学Hive]之三—Hive中的数据库(Database)和表(Table) [一起学Hive]之四-Hive的安装配置 [一起学Hive]之五-Hive的视图和分区 [一起学Hive
Spring开发利器：Spring Tool Suite 3.7.0 发布 wiselyman spring
Spring Tool Suite(简称STS)是基于Eclipse，专门针对Spring开发者提供大量的便捷功能的优秀开发工具。在3.7.0版本主要做了如下的更新：将eclipse版本更新至Eclipse Mars 4.5 GA Spring Boot(JavaEE开发的颠覆者集大成者，推荐大家学习)的配置语言YAML编辑器的支持(包含自动提示，