天涯到处跑

flink 自定义多并发度 elasticsearch source连接器

前言

目前flink 是没有es source flink 通过sql方式读取es中的数据需要自定义es source

参考

1.官网:User-defined Sources & Sinks | Apache Flink

2.博客：Flink自定义实现ElasticSearch Table Source_不会心跳的博客-CSDN博客

flink1.13 elasticsearch 7.5.1

步骤

1.自定义Dynamic Table Factories ESSqlFactory 继承DynamicTableSourceFactory类

自定义source 名字为：elasticsearch-source factoryIdentifier 方法中定义

package com.tang.elasticsearch.source;

/**
 * @Description: 工厂类
 * @author tang
 * @date 2021/11/14 22:05
 */
public class ESSqlFactory implements DynamicTableSourceFactory {

    public static final ConfigOption HOSTS= ConfigOptions.key("hosts").stringType().noDefaultValue();
    public static final ConfigOption USERNAME = ConfigOptions.key("username").stringType().noDefaultValue();
    public static final ConfigOption PASSWORD = ConfigOptions.key("password").stringType().noDefaultValue();
    public static final ConfigOption INDEX = ConfigOptions.key("index").stringType().noDefaultValue();
    public static final ConfigOption DOCUMENT_TYPE = ConfigOptions.key("document-type").stringType().noDefaultValue();
    public static final ConfigOption FORMAT = ConfigOptions.key("format").stringType().noDefaultValue();
    public static final ConfigOption FETCH_SIZE = ConfigOptions.key("fetch_size").intType().noDefaultValue();

    /**
     * @Description: 连接器名称
     * @author tang
     * @date 2021/11/1 23:15
     */
    @Override
    public String factoryIdentifier() {
        return "elasticsearch-source";
    }

    /**
     * @Description: 必须参数
     * @author tang
     * @date 2021/11/14 22:05
     */
    @Override
    public Set> requiredOptions() {
        final Set> options = new HashSet<>();
        options.add(HOSTS);
        options.add(INDEX);
        options.add(USERNAME);
        options.add(PASSWORD);
        options.add(FactoryUtil.FORMAT);
        // use pre-defined option for format
        return options;
    }

    /**
     * @Description: 可选参数
     * @author tang
     * @date 2021/11/14 22:04
     */
    @Override
    public Set> optionalOptions() {
        final Set> options = new HashSet<>();
        options.add(FORMAT);
        options.add(FETCH_SIZE);
        options.add(DOCUMENT_TYPE);
        return options;
    }

    public DynamicTableSource createDynamicTableSource(Context context) {
        final FactoryUtil.TableFactoryHelper helper = FactoryUtil.createTableFactoryHelper(this, context);
        // 获取解码器
        final DecodingFormat> valueFormat =
                (DecodingFormat)helper.discoverOptionalDecodingFormat(
                        DeserializationFormatFactory.class, FactoryUtil.FORMAT).orElseGet(() -> {
                    return helper.discoverDecodingFormat(DeserializationFormatFactory.class, KafkaOptions.VALUE_FORMAT);
                });

        final DecodingFormat> decodingFormat = helper.discoverDecodingFormat(
                DeserializationFormatFactory.class, FactoryUtil.FORMAT);

        helper.validate();

        final ReadableConfig options = helper.getOptions();
        final String hosts = options.get(HOSTS);
        final String username = options.get(USERNAME);
        final String password = options.get(PASSWORD);
        final String index = options.get(INDEX);
        final String document_type = options.get(DOCUMENT_TYPE);
        Integer fetch_size = options.get(FETCH_SIZE);
        //...

        final DataType producedDataType = context.getCatalogTable().getSchema().toPersistedRowDataType();

        return new ESDynamicTableSource(hosts, username, password,index,document_type,fetch_size,valueFormat, producedDataType);
    }
}

2.自定义Dynamic Table Source ESDynamicTableSource 继承 ScanTableSource类

根据Scan Table Source 和 Lookup Table Source 特点选择需要继承的类

代码：

package com.tang.elasticsearch.source;

/**
 * @Description: 动态table source
 * @author tang
 * @date 2021/11/14 22:06
 */
public class ESDynamicTableSource implements ScanTableSource {

    private final String hosts;
    private final String username;
    private final String password;
    private final String index;
    private final String document_type;
    private Integer fetch_size;
    //...
    private final DecodingFormat> decodingFormat;
    private final DataType producedDataType;

    public ESDynamicTableSource(String hosts,
                                String username,
                                String password,
                                String index,
                                String document_type,
                                Integer fetch_size,
                                DecodingFormat> decodingFormat,
                                DataType producedDataType) {
        this.hosts = hosts;
        this.username = username;
        this.password = password;
        this.index = index;
        this.document_type = document_type;
        //...
        this.decodingFormat = decodingFormat;
        this.producedDataType = producedDataType;
        this.fetch_size = fetch_size;
    }

    @Override
    public ChangelogMode getChangelogMode() {
        return decodingFormat.getChangelogMode();
    }

    @Override
    public ScanRuntimeProvider getScanRuntimeProvider(ScanContext runtimeProviderContext) {
        final DeserializationSchema deserializer = decodingFormat.createRuntimeDecoder(
                runtimeProviderContext,
                producedDataType);

        final SourceFunction sourceFunction = new ESSourceFunction(
                hosts, username, password,index,document_type,fetch_size,deserializer);

        return SourceFunctionProvider.of(sourceFunction, false);
    }

    @Override
    public DynamicTableSource copy() {
        return new ESDynamicTableSource(hosts, username, password,index,document_type,fetch_size,decodingFormat,producedDataType);
    }

    @Override
    public String asSummaryString() {
        return "elastic Table Source";
    }
}

3.自定义SourceFunction 继承 RichSourceFunction 或RichParallelSourceFunction 函数

注意 RichSourceFunction 函数是单并行度的，RichParallelSourceFunction 是多并行度的

这里选择继承 RichParallelSourceFunction 并实现 run open close 方法

实现多并行度的原理是获取当前任务的并行度和当前subTask的编号，如并行度为18 则subTaskIndex 为 0-17

RuntimeContext runtimeContext = getRuntimeContext();
subTaskIndex = runtimeContext.getIndexOfThisSubtask();
parallelNum = runtimeContext.getNumberOfParallelSubtasks();

page % parallelNum != subTaskIndex
遍历每页 每个subTask 只读取除以并行度 余数等于自身subTaskIndex 的页数  需要查询时无数据写入

我的需求是查询60天前某个索引的数据，故满足需求，更好多并行度下切分数据可以参考cdc连接器

完整代码如下：

package com.tang.elasticsearch.source;


/**
 * @Description: 查询函数
 * @author tang
 * @date 2021/11/14 22:11
 */
public class ESSourceFunction extends RichParallelSourceFunction implements ResultTypeQueryable {
    Logger logger = LoggerFactory.getLogger(ESSourceFunction.class);
    private final String hosts;
    private final String username;
    private final String password;
    private final String index;
    private final String document_type;
    private Integer fetch_size;
    //...
    private final DeserializationSchema deserializer;
    private volatile boolean isRunning = true;
    private RestClient client;
    private int subTaskIndex = 0;
    private int parallelNum = 0;
    private Long total;
    private Long totalPage;
    private int retryTime = 3;

    public ESSourceFunction(String hosts, String username, String password, String index, String document_type, Integer fetch_size, DeserializationSchema deserializer) {
        this.hosts = hosts;
        this.username = username;
        this.password = password;
        this.index = index;
        this.document_type = document_type;
        this.fetch_size = fetch_size;
        //...
        this.deserializer = deserializer;
    }

    /**
     * @Description: 支持多并行度，多并行度的核心是
     * @author tang
     * @date 2021/11/1 23:16
     */
    @Override
    public TypeInformation getProducedType() {
        return deserializer.getProducedType();
    }

    @Override
    public void run(SourceContext ctx) throws Exception {
        if (fetch_size == null) {
            fetch_size = 1000;
        }
        logger.info("subTask:{} es source function current task index:{} parallelNum:{}", subTaskIndex, subTaskIndex, parallelNum);
        // 数据源获取
        try {
            logger.info("subTask:{} step1:es source function start execute hosts:{} index:{} document_type:{} fetch_size:{}",
                    subTaskIndex, hosts, index, document_type, fetch_size);
            // 修改索引配置 可以查询超10000
            Request settingRequest = new Request("PUT", "/" + index + "/_settings");
            String json = "{\"max_result_window\":\"2147483647\"}";
            settingRequest.setJsonEntity(json);
            client.performRequest(settingRequest);
            logger.info("subTask:{} step2:es source function put settings set max_result_window success ", subTaskIndex);

            // 初始化分页
            initPage();
            logger.info("subTask:{} step3:es source function get total:{} totalPage:{}", subTaskIndex, total, totalPage);
            int from = 0;
            int size = fetch_size;
            SimpleDateFormat format = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss");
            String startTime = format.format(new Date());
            logger.info("subTask:{} step4:es source function execute query start from:{} size:{} ", subTaskIndex, from, size);
            SearchHit[] searchHits = null;
            Request request = new Request("GET", "/" + index + "/_search");
            for (int page = 0; page < totalPage; page++) {
                from = (page + 1) * size;
                if (!isRunning) {
                    logger.info("subTask:{} es source function query now is not running break while", subTaskIndex);
                    cancel();
                    break;
                }
                if (page % parallelNum != subTaskIndex) {
                    continue;
                }
                logger.info("subTask:{} es source function query current page:{} from:{} size:{}", subTaskIndex, page,from, size);
                String queryJson = "{\n" +
                        "  \"query\": {\n" +
                        "    \"match_all\": {}\n" +
                        "  },\n" +
                        "  \"from\":" + from + ",\n" +
                        "  \"size\":" + size + ",\n" +
                        "  \"track_total_hits\":true\n" +
                        "}";
                request.setJsonEntity(queryJson);
                Response response = null;
                try{
                    response = client.performRequest(request);
                }catch (Exception e){
                    // 请求报错 间隔3秒重试
                    logger.error("subTask:{} es source function query request param:{} have error:{}",subTaskIndex,queryJson,e);
                    Thread.sleep(3000);
                    logger.error("subTask:{} es source function query sleep 3 s again request param:{}",subTaskIndex,queryJson);
                    response = client.performRequest(request);
                }
                String responseBody = EntityUtils.toString(response.getEntity());
                Map map = JSONObject.parseObject(responseBody, Map.class);
                JSONObject jsonObject = map.get("hits");
                if (null == jsonObject) {
                    continue;
                }
                JSONArray array = jsonObject.getJSONArray("hits");
                List searchList = array.toJavaList(String.class);
                if(searchList.size()<=0){
                    logger.info("subTask:{} es source function query result size less than 0 exit query current from:{} page:{}", subTaskIndex,from,page);
                }
                searchList.stream().forEach(sourceAsString -> {
                    if (StringUtils.isBlank(sourceAsString)) {
                        logger.info("subTask:{} es source function query row is empty:{}", subTaskIndex);
                    }
                    Map resultMap = JSONObject.parseObject(sourceAsString, Map.class);
                    String source = JSONObject.toJSONString(resultMap.get("_source"));
                    try {
                        ctx.collect(deserializer.deserialize(source.getBytes()));
                    } catch (IOException e) {
                        logger.error("subTask:{} error s source function query ctx collect data:{} have error:{}", subTaskIndex, sourceAsString, ExceptionUtils.getStackTrace(e));
                        throw new RuntimeException(ExceptionUtils.getStackTrace(e));
                    }
                });
            }
            String endTime = format.format(new Date());
            logger.info("subTask:{} step5:es source function execute query end startTime:{} endTime:{}", subTaskIndex, startTime, endTime);
        } catch (Exception e) {
            logger.error("subTask:{} error es source function query have error:{}", subTaskIndex, ExceptionUtils.getStackTrace(e));
            throw new RuntimeException(ExceptionUtils.getStackTrace(e));
        } finally {
            logger.info("subTask:{} step6:es source function query end read cancel client:{}..... ", subTaskIndex, client);
            cancel();
            logger.info("subTask:{} step6:es source function query cancel client success.", subTaskIndex);
        }
    }

    @Override
    public void cancel() {
        isRunning = false;
        try {
            logger.info("subTask:{} step6:es source function query end read cancel client:{}..... ", subTaskIndex, client);
            if (client != null) {
                client.close();
            } else {
                logger.info("subTask:{} es source function query cancel client but client is null.", subTaskIndex);
            }
            logger.info("subTask:{} step6:es source function query cancel client success.", subTaskIndex);
        } catch (Throwable t) {
            logger.error("subTask:{} error es source function cancel client have error:{}", ExceptionUtils.getStackTrace(t), subTaskIndex);
        }
    }

    /**
     * @Description: 获取总数
     * @author tang
     * @date 2021/10/31 16:09
     */
    public void initPage() throws IOException {
        Request request = new Request("GET", "/" + index + "/_search");
        String queryJson = "{\n" +
                "  \"query\": {\n" +
                "    \"match_all\": {}\n" +
                "  },\n" +
                "  \"track_total_hits\":true\n" +
                "}";
        request.setJsonEntity(queryJson);
        Response response = client.performRequest(request);
        String responseBody = EntityUtils.toString(response.getEntity());
        Map map = JSONObject.parseObject(responseBody, Map.class);
        JSONObject jsonObject = map.get("hits");
        if (null == jsonObject) {
            total = 0L;
            return;
        }
        total = jsonObject.getJSONObject("total").getLong("value");
        totalPage = total % fetch_size == 0 ? total / fetch_size : (total / fetch_size) + 1;
    }

    /**
     * @Description: 初始化客户端
     * @author tang
     * @date 2021/10/31 16:08
     */
    public void initClient() throws Exception {
        String[] split = hosts.split(";");
        HttpHost[] hosts = new HttpHost[split.length];
        for (int i = 0; i < split.length; i++) {
            String url = split[i];
            String[] s = url.split(":");
            String host = s[1].replaceAll("/", "");
            int port = Integer.parseInt(s[2]);
            String scheme = s[0];
            HttpHost httpHost = new HttpHost(host, port, scheme);
            hosts[i] = httpHost;
        }
        //设置密码
        final CredentialsProvider credentialsProvider = new BasicCredentialsProvider();
        credentialsProvider.setCredentials(AuthScope.ANY, new UsernamePasswordCredentials(username, password));
        //设置超时
        RestClientBuilder builder = RestClient.builder(hosts).setRequestConfigCallback(new RestClientBuilder.RequestConfigCallback() {
            @Override
            public RequestConfig.Builder customizeRequestConfig(RequestConfig.Builder requestConfigBuilder) {
                requestConfigBuilder.setConnectTimeout(-1);
                requestConfigBuilder.setSocketTimeout(-1);
                requestConfigBuilder.setConnectionRequestTimeout(-1);
                return requestConfigBuilder;
            }
        }).setHttpClientConfigCallback(new RestClientBuilder.HttpClientConfigCallback() {
            @Override
            public HttpAsyncClientBuilder customizeHttpClient(HttpAsyncClientBuilder httpClientBuilder) {
                httpClientBuilder.disableAuthCaching();
                return httpClientBuilder.setDefaultCredentialsProvider(credentialsProvider);
            }
        });
        client = builder.build();
        if (client == null) {
            logger.error("subTask:{} es source function init client fail");
            throw new Exception("subTask:{} es source function init client fail");
        }
        logger.info("subTask:" + subTaskIndex + " step2:es source function init client success ", subTaskIndex);
    }

    @Override
    public void open(Configuration parameters) throws Exception {
        super.open(parameters);
        RuntimeContext runtimeContext = getRuntimeContext();
        subTaskIndex = runtimeContext.getIndexOfThisSubtask();
        parallelNum = runtimeContext.getNumberOfParallelSubtasks();
        // 初始化生成客户端
        initClient();
    }

    @Override
    public void close() throws Exception {
        logger.info("subTask:{} step6:es source function query close client start.", subTaskIndex);
        if (client != null) {
            client.close();
        }
        logger.info("subTask:{} step6:es source function query close client success.", subTaskIndex);
    }
}

4.配置META-INF 信息

官网中有说要添加META-INF信息

具体怎么加参考源码中hbase的META-INF信息复制过来修改即可

5.自定义elasticsearch source 使用方式

'connector' = 'elasticsearch-source', elasticsearch-source 为

创建表 connector 为 elasticsearch-source

CREATE TABLE IF NOT EXISTS flink_es_source_test (
id BIGINT comment 'id',
name STRING comment '',
age BIGINT comment '',
sex STRING comment ''
) WITH (
  'connector' = 'elasticsearch-source',
  'hosts' = 'http://host1:9200;http://host2:9200;http://host3:9200',
  'index' = 'test_20211111',
  'username' = 'test',
  'password' = '123456',
  'format' = 'json'
);

在flink sqlClinet 中执行 select * from flink_es_source_test; 则可以查询es中数据改变并行度可通过

SET parallelism.default = 18;

6.部署，把代码打成jar包放到lib下即可

Elasticsearch 中的节点（比如共 20 个），其中的10 个选了一个 master，另外 10 个选了另一个 master，怎么办？思维导图代码示例（java 架构) 用心去追梦 elasticsearch java 架构
在Elasticsearch中，如果出现集群分裂（Split-brain）的情况，即一部分节点选举了一个Master节点，而另一部分节点选举了另一个Master节点，这会导致数据不一致和集群不可用。Elasticsearch通过配置discovery.seed_hosts和cluster.initial_master_nodes参数来避免这种情况，并确保有足够的节点参与选举以达成共识。为了防止Sp
FFA 2024 「流批一体」专场：探索在不同场景的流批一体 Apache Flink
FlinkForwardAsia2024即将盛大开幕！作为ApacheFlink社区备受期待的年度盛会之一，本届大会将于11月29至30日在上海隆重举行。FlinkForwardAsia（简称FFA）是由Apache官方授权的社区技术大会，旨在汇聚领先的行业实践与技术动态。在众多合作伙伴和技术开发者的支持下，FFA已成功举办六届。适逢ApacheFlink诞生10周年，今年的FFA将与广大开发者分
ElasticSearch索引别名的应用 elasticsearch
个人博客：无奈何杨（wnhyang）个人语雀：wnhyang共享语雀：在线知识共享Github：wnhyang-OverviewElasticsearch索引别名是一种极为灵活且强大的功能，它允许用户为一个或多个索引创建逻辑上的别名。这些别名用途广泛，涵盖查询、索引操作以及索引管理等多个方面。以下为一些常见的索引别名应用场景：简化查询通过创建别名，用户能够以更简洁的名称访问一个或多个索引。例如，若
试试 Elasticsearch 的 unsigned_long（qbit） elasticsearch整数
前言本文在Elasticsearch7.17下测试Elasticsearch自7.10引入了64位无符号整数unsigned_long，之前只有long已知long的数据范围[-2^63,2^63-1]即[-9223372036854775808,9223372036854775807]已知unsigned_long的数据范围[0,2^64-1]即[0,18446744073709551615]试
Elasticsearch 8.x 重要变化（qbit）
前言本文记录的重要变化重要与否为qbit个人判断官方Releasenotes：https://www.elastic.co/guide/en/elasticsearch/reference/curre...收费功能查看：ElasticStacksubscriptions回顾：向量搜索创新的时间线8.0(2022-02-11)What’snewin8.0默认启用安全特性（Securityfeatur
学英语学技术：Elasticsearch 线程池学会了没 elasticsearch 大数据搜索引擎
单词汉语意思音标allocate分配/ˈæləˌkeɪt/coordination协调/koʊˌɔːrdɪˈneɪʃn/deprecated废弃的/ˈdɛprəˌkeɪtɪd/elasticsearch弹性搜索（专有名词）/ˌɛlɪkˈsɜːrtʃ/execute执行/ˈɛksɪˌkjuːt/generic通用的/dʒəˈnɛrɪk/initial初始的/ɪˈnɪʃəl/metadata元数据/ˈ
Scaleph：基于Kubernetes的开放式数据平台尤淞渊
Scaleph：基于Kubernetes的开放式数据平台scalephOpendataplatformbasedonFlinkandKubernetes,supportsweb-uiclick-and-dropdataintegrationwithSeaTunnelbackendedbyFlinkengine,flinkonlinesqldevelopmentbackendedbyFlinkSql
深入Flink : 源码解读数据倾斜代码落地 java
大家好，我是大圣，很高兴又和大家见面。上篇文章，我们详细说了通过使得Flink每个并行子任务上面都有对应的key来解决数据倾斜。但是我们只说了这个方案的思想和设计理解，还没有把这种方案真正应用到我们的Flink任务当中。这篇文章我们就重点把这种方案实践到我们写的Flink任务当中。什么是数据倾斜解决方案回顾代码如下：publicclassRebalanceKeyCreator{privateint
芝法酱学习笔记（2.5）——elastic-search 8.x初探（自用）芝法酱 elasticsearch spring boot
一、elastic-search的下载官网的下载地址在这里。官网文档地址在这里访问路径是doc/search让人惊呆了，新版的elastic-search竟然需要JDK23。ThelocaledatabaseusedbyElasticsearch,usedtomapfromvariousdateformatstotheunderlyingdatestorageformat,dependsonthe
Flink（十）：DataStream API (七) 状态 Leven199527 Flink flink 大数据
1.状态的定义在ApacheFlink中，状态（State）是指在数据流处理过程中需要持久化和追踪的中间数据，它允许Flink在处理事件时保持上下文信息，从而支持复杂的流式计算任务，如聚合、窗口计算、联接等。状态是Flink处理有状态操作（如窗口、时间戳操作、聚合等）的核心组成部分。2.状态的类型Flink提供了强大的状态管理机制，允许应用程序在分布式环境中处理状态，保证高可用性和容错性。Flin
Nacos 监控全攻略：从 Prometheus 数据采集到核心指标解读磐基Stack专业服务团队 Nacos Nacos
文章目录第1章Prometheus采集Nacosmetrics数据第2章Nacosmetrics含义2.1jvmmetrics2.2Nacos监控指标2.3nacos异常指标2.4clientmetricsNacos2.X版本已有完善的监控体系，支持通过暴露metrics数据接入第三方监控系统监控Nacos运行状态，目前支持prometheus、elasticsearch和influxdb。下面重
Apache Flink morcake flink 大数据
"ApacheFlinkistheopensourcestreamprocessingframeworkfordistributed,high-performance,ready-to-use,andaccuratestreamprocessingapplications."ApacheFlinkisaframeworkanddistributedprocessingengineforstatef
一文帮你搞懂flink中窗口的分类（一）知否&知否 flink中窗口及其函数分类 flink 大数据
Window可以分成两类：CountWindow：按照指定的数据条数生成一个Window，与时间无关。滚动计数窗口，每隔N条数据，统计前N条数据滑动计数窗口，每隔N条数据，统计前M条数据TimeWindow：按照时间生成Window。（重点）滚动时间窗口，每隔N时间，统计前N时间范围内的数据，窗口长度N，滑动距离N滑动时间窗口，每隔N时间，统计前M时间范围内的数据，窗口长度M，滑动距离N还有一种特
Java 大视界 -- Java 驱动大数据流处理：Storm 与 Flink 入门（六）青云交大数据新视界 Java 大视界 Flink Storm 大数据流处理实时数据处理架构实时监控数据分析 java
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：大数
docker部署ELK日志系统+kafka weixin_50837690 docker kafka elk elasticsearch
docker部署ELK日志系统+kafka1.部署elasticsearch#拉取镜像dockerpullelasticsearch:7.6.2#创建文件夹mkdir-p/data/elk/es/config#创建elasticsearch.yml文件vi/data/elk/es/config/elasticsearch.yml------------------------写入---------
基于docker微服务日志ELK+Kafka搭建我是奶龙！我是奶龙！我是奶龙！ docker 微服务 elk spring cloud spring boot kafka
ELK是Elasticsearch、Logstash、Kibana的简称Elasticsearch是实时全文搜索和分析引擎，提供搜集、分析、存储数据三大功能；是一套开放REST和JAVAAPI等结构提供高效搜索功能，可扩展的分布式系统。它构建于ApacheLucene搜索引擎库之上。Logstash是一个用来搜集、分析、过滤日志的工具。它支持几乎任何类型的日志，包括系统日志、错误日志和自定义应用程
【大数据】Flink CDC 实时同步mysql数据小码农叔叔 springboot 入门到精通大数据 Flink CDC Flink CDC同步数据 Flink CDC数据同步
目录一、前言二、FlinkCDC介绍2.1什么是FlinkCDC2.2FlinkCDC特点2.3FlinkCDC核心工作原理2.4FlinkCDC使用场景三、常用的数据同步方案对比3.1数据同步概述3.1.1数据同步来源3.2常用的数据同步方案汇总3.3为什么推荐FlinkCDC3.4FlinkCDC适用范围3.5FlinkCDC不同版本对比3.5.1FlinkCDC1.x3.5.2FlinkCD
Elasticsearch二次开发：实现实时定时同步同义词、近义词与停用词 codeBrute elasticsearch 中文分词
Elasticsearch二次开发：实现实时定时同步同义词、近义词与停用词引言Elasticsearch（ES）作为开源搜索引擎的典范，以其强大的全文搜索、结构化搜索以及分析能力，在各个领域得到了广泛应用。在复杂的搜索场景中，同义词、近义词和停用词的处理对于提升搜索的准确性和用户体验至关重要。为了满足动态变化的业务需求，实现同义词、近义词与停用词的定时同步成为了一项关键任务。本文将详细介绍如何在E
Flink 使用 Kafka 作为数据源时遇到了偏移量提交失败的问题 java我跟你拼了异常笔记 flink kafka 大数据
具体的错误日志21:43:57.069[KafkaFetcherforSource:CustomSource->Map->Filter(1/1)#2]ERRORorg.apache.kafka.clients.consumer.internals.ConsumerCoordinator-[ConsumerclientId=consumer-my-group-6,groupId=my-group]O
2、Flink 在 DataStream 和 Table 之间进行转换猫猫爱吃小鱼粮 Flink SQL flink 大数据
1.概述TableAPI和DataStreamAPI都可以处理有界流和无界流。DataStreamAPI提供了流处理的基础（时间、状态和数据流管理）；TableAPI抽象了许多内部内容，并提供了一个结构化和声明性的API；在处理历史数据时，需要管理有边界的流；无边界流出现在实时处理场景中，这些场景可能需要先使用历史数据进行初始化。为了高效执行，这两个API都以优化的批处理执行模式处理有界流。由于批
ElasticSearch10-性能优化李宥小哥常用中间件性能优化 jenkins 运维
零、文章目录ElasticSearch10-性能优化1、硬件优化（1）存储配置ElasticSearch是基于Lucene的，Lucene将数据存储在磁盘上，磁盘的IO就是ElasticSearch的瓶颈所在。Elasticsearch默认的数据存储路径是在Elasticsearch安装目录下的data子目录中。不过，这个路径是可以配置的，具体的默认路径可能因操作系统和安装方式的不同而有所差异。对
ElasticSearch11-8.x 新特性李宥小哥常用中间件中间件
零、文章目录ElasticSearch11-8.x新特性1、API变更（1）类型（_type）移除在Elasticsearch8.x中，索引中的_type已经被完全移除。这意味着所有文档在同一个索引中将不再区分类型，简化了索引结构，但同时也要求开发者调整应用程序逻辑以适应这一变化。（2）客户端库更新Elasticsearch8.x不再支持rest-high-level-client，而是推荐使用新
elasticsearch8.0+ 创建APIkey petunsecn devops 运维 elasticsearch
客户端连接ES,除了“用户名+密码”外，Elasticsearch也提供了APIkeys的访问方式。使用APIkey,也可方便的配置其不同的访问权限，用户，过期等。创建APIkey的方式：1.登录kibana,在Management--APIKey，点击【CrateAPIkey】具体参考：APIKeys|KibanaGuide[8.11]|Elastic2使用RESTAPIs创建POST/_sec
es java match_ElasticSearch查询第四篇：匹配查询（Match）哈哈哈哈哈哈哈哈鸽 es java match
《ElasticSearch查询》目录导航：匹配(Match)查询属于全文(Fulltext)查询，不同于词条查询，ElasticSearch引擎在处理全文搜索时，首先分析(analyze)查询字符串，然后根据分词构建查询，最终返回查询结果。匹配查询共有三种类型，分别是布尔(boolean)、短语(phrase)和短语前缀(phrase_prefix)，默认的匹配查询是布尔类型，这意味着，Elas
CaigouSearch 基于ngram分词的轻量PHP全文检索插件 php全文检索模糊搜索
简单易用最关键，菜狗搜索：https://github.com/rock365/caigou这是一个基于ngram分词的PHP模糊搜索插件，且完全免费，对博客等中小型网站来说，绰绰有余，因为它是用PHP开发的，所以能跟PHP项目完美融合。如果你对elasticsearch的语法比较了解，那么你很快就会上手，不了解也没关系，照着文档复制填写就行了，没有任何难度。注意：id字段必须为整型递增安装导入在
Flink 常见面试题知否&知否 flink 大数据 kafka
1、Flink的四大特征（基石）checkpoint:基于Chandy-Lamport算法，实现了分布式一致性快照，提供了一致性的语义。State:丰富的StateAPI。ValueState,ListState,MapState,BroadcastState.Time:实现了Watemark机制，乱序数据处理，迟到数据容忍。Window：开箱即用的滚动、滑动、会话窗口。以及灵活的自定义窗口。2、
Elasticsearch 实战应用周盛欢搜索引擎 elasticsearch jenkins
一、啥是Elasticsearch嘿，小伙伴们，今天给大家唠唠Elasticsearch。简单来说，它就是一个超厉害的搜索引擎，就像我们平时用的百度、谷歌一样，但它是专门给开发者用的，能帮你在海量数据里快速找到想要的东西。二、为啥要用Elasticsearch想象一下，你有个电商网站，商品信息多得跟天上的星星似的。要是没有Elasticsearch，用户想搜个商品，得等半天才能出结果，那多糟心啊。
大数据-257 离线数仓 - 数据质量监控监控方法 Griffin架构武子康大数据离线数仓大数据数据仓库 java 后端 hadoop hive
点一下关注吧！！！非常感谢！！持续更新！！！Java篇开始了！目前开始更新MyBatis，一起深入浅出！目前已经更新到了：Hadoop（已更完）HDFS（已更完）MapReduce（已更完）Hive（已更完）Flume（已更完）Sqoop（已更完）Zookeeper（已更完）HBase（已更完）Redis（已更完）Kafka（已更完）Spark（已更完）Flink（已更完）ClickHouse（已
SpringBoot 使用ElasticsearchRestTemplate hbzslb spring boot java mybatis
1.pom.xml添加org.springframework.bootspring-boot-starter-data-elasticsearch2.6.22.配置文件配置地址spring:data:elasticsearch:cluster-name:elasticsearchcluster-nodes:localhost:92003.开始使用3.0.创建实体类@Data@AllArgsCons
Apache Flink 2.0-preview released flink大数据
ApacheFlink社区正在积极准备Flink2.0，这是自Flink1.0发布8年以来的首次大版本发布。作为一个重要的里程碑，Flink2.0将引入许多激动人心的功能和改进，以及一些不兼容的破坏性变更。为了促进用户和上下游项目（例如，连接器）尽早适配这些变更，提前尝试这些令人兴奋的新功能同时收集反馈，我们现在提供了Flink2.0的预览版本。注意:Flink2.0预览版不是稳定版本，请不要应用
java Illegal overloaded getter method with ambiguous type for propert的解决 zwllxs java jdk
好久不来iteye,今天又来看看，哈哈,今天碰到在编码时，反射中会抛出 Illegal overloaded getter method with ambiguous type for propert这么个东东，从字面意思看，是反射在获取getter时迷惑了，然后回想起java在boolean值在生成getter时，分别有is和getter，也许我们的反射对象中就有is开头的方法迷惑了jdk，
IT人应当知道的10个行业小内幕 beijingjava 工作互联网
10. 虽然IT业的薪酬比其他很多行业要好，但有公司因此视你为其“佣人”。　　尽管IT人士的薪水没有互联网泡沫之前要好，但和其他行业人士比较，IT人的薪资还算好点。在接下的几十年中，科技在商业和社会发展中所占分量会一直增加，所以我们完全有理由相信，IT专业人才的需求量也不会减少。　　然而，正因为IT人士的薪水普遍较高，所以有些公司认为给了你这么多钱，就把你看成是公司的“佣人”，拥有你的支配
java 实现自定义链表 CrazyMizzz java 数据结构
1.链表结构链表是链式的结构 2.链表的组成链表是由头节点，中间节点和尾节点组成节点是由两个部分组成： 1.数据域 2.引用域 3.链表的实现 &nbs
web项目发布到服务器后图片过一会儿消失麦田的设计者 struts2 上传图片永久保存
作为一名学习了android和j2ee的程序员，我们必须要意识到，客服端和服务器端的交互是很有必要的，比如你用eclipse写了一个web工程，并且发布到了服务器（tomcat）上，这时你在webapps目录下看到了你发布的web工程，你可以打开电脑的浏览器输入http://localhost:8080/工程/路径访问里面的资源。但是，有时你会突然的发现之前用struts2上传的图片
CodeIgniter框架Cart类 name 不能设置中文的解决方法 IT独行者 CodeIgniter Cart 框架　
今天试用了一下CodeIgniter的Cart类时遇到了个小问题，发现当name的值为中文时，就写入不了session。在这里特别提醒一下。在CI手册里也有说明，如下： $data = array( 'id' => 'sku_123ABC', 'qty' => 1, '
linux回收站 _wy_ linux 回收站
今天一不小心在ubuntu下把一个文件移动到了回收站，我并不想删，手误了。我急忙到Nautilus下的回收站中准备恢复它，但是里面居然什么都没有。后来我发现这是由于我删文件的地方不在HOME所在的分区，而是在另一个独立的Linux分区下，这是我专门用于开发的分区。而我删除的东东在分区根目录下的.Trash-1000/file目录下，相关的删除信息（删除时间和文件所在
jquery回到页面顶端知了ing html jquery css
html代码： <h1 id="anchor">页面标题</h1> <div id="container">页面内容</div> <p><a href="#anchor" class="topLink">回到顶端</a><
B树、B-树、B+树、B*树矮蛋蛋 B树
原文地址： http://www.cnblogs.com/oldhorse/archive/2009/11/16/1604009.html B树即二叉搜索树： 1.所有非叶子结点至多拥有两个儿子（Left和Right）； &nb
数据库连接池 alafqq 数据库连接池
http://www.cnblogs.com/xdp-gacl/p/4002804.html @Anthor:孤傲苍狼数据库连接池用MySQLv5版本的数据库驱动没有问题，使用MySQLv6和Oracle的数据库驱动时候报如下错误： java.lang.ClassCastException: $Proxy0 cannot be cast to java.sql.Connec
java泛型百合不是茶 java泛型
泛型在Java SE 1.5之前，没有泛型的情况的下，通过对类型Object的引用来实现参数的“任意化”，任意化的缺点就是要实行强制转换，这种强制转换可能会带来不安全的隐患泛型的特点：消除强制转换确保类型安全向后兼容简单泛型的定义：泛型：就是在类中将其模糊化，在创建对象的时候再具体定义 class fan
javascript闭包[两个小测试例子] bijian1013 JavaScript JavaScript
一.程序一 <script> var name = "The Window"; var Object_a = { 　　name : "My Object", 　　getNameFunc : function(){ var that = this; 　　　　return function(){ 　　　　
探索JUnit4扩展：假设机制（Assumption） bijian1013 java Assumption JUnit 单元测试
一.假设机制（Assumption）概述理想情况下，写测试用例的开发人员可以明确的知道所有导致他们所写的测试用例不通过的地方，但是有的时候，这些导致测试用例不通过的地方并不是很容易的被发现，可能隐藏得很深，从而导致开发人员在写测试用例时很难预测到这些因素，而且往往这些因素并不是开发人员当初设计测试用例时真正目的，
【Gson四】范型POJO的反序列化 bit1129 POJO
在下面这个例子中，POJO(Data类)是一个范型类，在Tests中，指定范型类为PieceData，POJO初始化完成后，通过 String str = new Gson().toJson(data); 得到范型化的POJO序列化得到的JSON串，然后将这个JSON串反序列化为POJO import com.google.gson.Gson; import java.
【Spark八十五】Spark Streaming分析结果落地到MySQL bit1129 Stream
几点总结： 1. DStream.foreachRDD是一个Output Operation，类似于RDD的action，会触发Job的提交。DStream.foreachRDD是数据落地很常用的方法 2. 获取MySQL Connection的操作应该放在foreachRDD的参数（是一个RDD[T]=>Unit的函数类型)，这样，当foreachRDD方法在每个Worker上执行时，
NGINX + LUA实现复杂的控制 ronin47 nginx lua
安装lua_nginx_module 模块 lua_nginx_module 可以一步步的安装，也可以直接用淘宝的OpenResty Centos和debian的安装就简单了。。这里说下freebsd的安装： fetch http://www.lua.org/ftp/lua-5.1.4.tar.gz tar zxvf lua-5.1.4.tar.gz cd lua-5.1.4 ma
java-递归判断数组是否升序 bylijinnan java
public class IsAccendListRecursive { /*递归判断数组是否升序 * if a Integer array is ascending,return true * use recursion */ public static void main(String[] args){ IsAccendListRecursiv
Netty源码学习-DefaultChannelPipeline2 bylijinnan java netty
Netty3的API http://docs.jboss.org/netty/3.2/api/org/jboss/netty/channel/ChannelPipeline.html 里面提到ChannelPipeline的一个“pitfall”：如果ChannelPipeline只有一个handler（假设为handlerA）且希望用另一handler（假设为handlerB）来
Java工具之JPS chinrui java
JPS使用熟悉Linux的朋友们都知道，Linux下有一个常用的命令叫做ps（Process Status)，是用来查看Linux环境下进程信息的。同样的，在Java Virtual Machine里面也提供了类似的工具供广大Java开发人员使用，它就是jps（Java Process Status)，它可以用来
window.print分页打印 ctrain window
function init() { var tt = document.getElementById("tt"); var childNodes = tt.childNodes[0].childNodes; var level = 0; for (var i = 0; i < childNodes.length; i++) {
安装hadoop时执行jps命令Error occurred during initialization of VM daizj jdk hadoop jps
在安装hadoop时，执行JPS出现下面错误 [slave16][email protected]:/tmp/hsperfdata_hdfs# jps Error occurred during initialization of VM java.lang.Error: Properties init: Could not determine current working
PHP开发大型项目的一点经验 dcj3sjt126com PHP 重构
一、变量最好是把所有的变量存储在一个数组中，这样在程序的开发中可以带来很多的方便，特别是当程序很大的时候。变量的命名就当适合自己的习惯，不管是用拼音还是英语，至少应当有一定的意义，以便适合记忆。变量的命名尽量规范化，不要与PHP中的关键字相冲突。二、函数 PHP自带了很多函数，这给我们程序的编写带来了很多的方便。当然，在大型程序中我们往往自己要定义许多个函数，几十
android笔记之--向网络发送GET/POST请求参数 dcj3sjt126com android
使用GET方法发送请求 private static boolean sendGETRequest (String path, Map<String, String> params) throws Exception{ //发送地http://192.168.100.91:8080/videoServi
linux复习笔记之bash shell (3) 通配符 eksliang linux 通配符 linux通配符
转载请出自出处： http://eksliang.iteye.com/blog/2104387 在bash的操作环境中有一个非常有用的功能，那就是通配符。下面列出一些常用的通配符，如下表所示符号意义 * 万用字符，代表0个到无穷个任意字符 ? 万用字符，代表一定有一个任意字符 [] 代表一定有一个在中括号内的字符。例如：[abcd]代表一定有一个字符，可能是a、b、c
Android关于短信加密 gqdy365 android
关于Android短信加密功能，我初步了解的如下（只在Android应用层试验）： 1、因为Android有短信收发接口，可以调用接口完成短信收发；发送过程：APP（基于短信应用修改）接受用户输入号码、内容——>APP对短信内容加密——>调用短信发送方法Sm
asp.net在网站根目录下创建文件夹 hvt .net C#hovertree asp.net Web Forms
假设要在asp.net网站的根目录下建立文件夹hovertree,C#代码如下： string m_keleyiFolderName = Server.MapPath("/hovertree"); if (Directory.Exists(m_keleyiFolderName)) { //文件夹已经存在 return; } else { try { D
一个合格的程序员应该读过哪些书 justjavac 程序员书籍
编者按：2008年8月4日，StackOverflow 网友 Bert F 发帖提问：哪本最具影响力的书，是每个程序员都应该读的？ “如果能时光倒流，回到过去，作为一个开发人员，你可以告诉自己在职业生涯初期应该读一本，你会选择哪本书呢？我希望这个书单列表内容丰富，可以涵盖很多东西。” 很多程序员响应，他们在推荐时也写下自己的评语。以前就有国内网友介绍这个程序员书单，不过都是推荐数
单实例实践跑龙套_az 单例
1、内部类 public class Singleton { private static class SingletonHolder { public static Singleton singleton = new Singleton(); } public Singleton getRes
PO VO BEAN 理解 q137681467 VO DTO po
PO：全称是 persistant object持久对象最形象的理解就是一个PO就是数据库中的一条记录。好处是可以把一条记录作为一个对象处理，可以方便的转为其它对象。 BO：全称是 business object:业务对象主要作用是把业务逻辑封装为一个对象。这个对
战胜惰性，暗自努力金笛子努力
偶然看到一句很贴近生活的话：“别人都在你看不到的地方暗自努力，在你看得到的地方，他们也和你一样显得吊儿郎当，和你一样会抱怨，而只有你自己相信这些都是真的，最后也只有你一人继续不思进取。”很多句子总在不经意中就会戳中一部分人的软肋，我想我们每个人的周围总是有那么些表现得“吊儿郎当”的存在，是否你就真的相信他们如此不思进取，而开始放松了对自己的要求随波逐流呢？我有个朋友是搞技术的，平时嘻嘻哈哈，以
NDK/JNI二维数组多维数组传递 wenzongliang 二维数组 jni NDK
多维数组和对象数组一样处理，例如二维数组里的每个元素还是一个数组用jArray表示，直到数组变为一维的，且里面元素为基本类型，去获得一维数组指针。给大家提供个例子。已经测试通过。 Java_cn_wzl_FiveChessView_checkWin( JNIEnv* env,jobject thiz,jobjectArray qizidata) { jint i,j; int s