Leonardo_KY

新一代数据湖存储技术Apache Paimon入门Demo

前言

1. 什么是 Apache Paimon

一、本地环境快速上手

1、本地Flink伪集群

2、IDEA中跑Paimon Demo

2.1 代码

2.2 IDEA中成功运行

3、IDEA中Stream读写

3.1 流写

3.2 流读（toChangeLogStream）

二、进阶：本地（IDEA）多流拼接测试

要解决的问题：

note：

1、'changelog-producer' = 'full-compaction'

（1）multiWrite代码

（2）读延迟

2、'changelog-producer' = 'lookup'

三、可能遇到的问题

前言

1. 什么是 Apache Paimon

Apache Paimon (incubating) 是一项流式数据湖存储技术，可以为用户提供高吞吐、低延迟的数据摄入、流式订阅以及实时查询能力。

Paimon 采用开放的数据格式和技术理念，可以与 Apache Flink / Spark / Trino 等诸多业界主流计算引擎进行对接，共同推进 Streaming Lakehouse 架构的普及和发展。

Paimon 以湖存储的方式基于分布式文件系统管理元数据，并采用开放的 ORC、Parquet、Avro 文件格式，支持各大主流计算引擎，包括 Flink、Spark、Hive、Trino、Presto。未来会对接更多引擎，包括 Doris 和 Starrocks。

官网：https://paimon.apache.org/

Github：https://github.com/apache/incubator-paimon

以下为快速入门上手Paimon的example：

一、本地环境快速上手

基于paimon 0.4-SNAPSHOT （Flink 1.14.4），Flink版本太低是不支持的，paimon基于最低版本1.14.6，经尝试在Flink1.14.0是不可以的！

paimon-flink-1.14-0.4-20230504.002229-50.jar

1、本地Flink伪集群

0. 需要先下载jar包，并添加至flink的lib中；

1. 根据官网demo，启动flinksql-client，创建catalog，创建表，创建数据源（视图），insert数据到表中。

2. 通过 localhost:8081 查看 Flink UI

3. 查看filesystem数据、元数据文件

2、IDEA中跑Paimon Demo

pom依赖：

        
            org.apache.paimon
            paimon-flink-1.14
            0.4-SNAPSHOT

拉取不到的可以手动添加到本地maven仓库：

mvn install:install-file -DgroupId=org.apache.paimon -DartifactId=paimon-flink-1.14 -Dversion=0.4-SNAPSHOT -Dpackaging=jar -Dfile=D:\software\paimon-flink-1.14-0.4-20230504.002229-50.jar

2.1 代码

import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.table.api.TableEnvironment;
import org.apache.flink.table.api.bridge.java.StreamTableEnvironment;

/**
 * @Author: YK.Leo
 * @Date: 2023-05-14 15:12
 * @Version: 1.0
 */

// Succeed at local ！！！
public class OfficeDemoV1 {
    public static void main(String[] args) throws Exception {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

        env.setParallelism(1);
        env.enableCheckpointing(10000l);
        env.getCheckpointConfig().setCheckpointStorage("file:/D:/tmp/paimon/");

        TableEnvironment tableEnv = StreamTableEnvironment.create(env);

        // 0. Create a Catalog and a Table
        tableEnv.executeSql("CREATE CATALOG my_catalog_api WITH (\n" +
                "    'type'='paimon',\n" +                           // todo: !!!
                "    'warehouse'='file:///D:/tmp/paimon'\n" +
                ")");

        tableEnv.executeSql("USE CATALOG my_catalog_api");

        tableEnv.executeSql("CREATE TABLE IF NOT EXISTS word_count_api (\n" +
                "    word STRING PRIMARY KEY NOT ENFORCED,\n" +
                "    cnt BIGINT\n" +
                ")");

        // 1. Write Data
        tableEnv.executeSql("CREATE TEMPORARY TABLE IF NOT EXISTS word_table_api (\n" +
                "    word STRING\n" +
                ") WITH (\n" +
                "    'connector' = 'datagen',\n" +
                "    'fields.word.length' = '1'\n" +
                ")");

        // tableEnv.executeSql("SET 'execution.checkpointing.interval' = '10 s'");

        tableEnv.executeSql("INSERT INTO word_count_api SELECT word, COUNT(*) FROM word_table_api GROUP BY word");

        env.execute();
    }
}

2.2 IDEA中成功运行

3、IDEA中Stream读写

3.1 流写

代码：

package com.study.flink.table.paimon.demo;

import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.table.api.StatementSet;
import org.apache.flink.table.api.TableEnvironment;
import org.apache.flink.table.api.bridge.java.StreamTableEnvironment;

/**
 * @Author: YK.Leo
 * @Date: 2023-05-17 11:11
 * @Version: 1.0
 */

// succeed at local ！！！
public class OfficeStreamsWriteV2 {
    public static void main(String[] args) throws Exception {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

        env.setParallelism(1);
        env.enableCheckpointing(10000L);
        env.getCheckpointConfig().setCheckpointStorage("file:/D:/tmp/paimon/");

        TableEnvironment tableEnv = StreamTableEnvironment.create(env);


        // 0. Create a Catalog and a Table
        tableEnv.executeSql("CREATE CATALOG my_catalog_local WITH (\n" +
                "    'type'='paimon',\n" +                           // todo: !!!
                "    'warehouse'='file:///D:/tmp/paimon'\n" +
                ")");

        tableEnv.executeSql("USE CATALOG my_catalog_local");

        tableEnv.executeSql("CREATE DATABASE IF NOT EXISTS my_catalog_local.local_db");
        tableEnv.executeSql("USE local_db");

        // drop tbl
        tableEnv.executeSql("DROP TABLE IF EXISTS paimon_tbl_streams");
        tableEnv.executeSql("CREATE TABLE IF NOT EXISTS paimon_tbl_streams(\n"
                + " uuid bigint,\n"
                + " name VARCHAR(3),\n"
                + " age int,\n"
                + " ts TIMESTAMP(3),\n"
                + " dt VARCHAR(10), \n"
                + " PRIMARY KEY (dt, uuid) NOT ENFORCED \n"
                + ") PARTITIONED BY (dt) \n"
                + " WITH (\n" +
                "    'merge-engine' = 'partial-update',\n" +
                "    'changelog-producer' = 'full-compaction', \n" +
                "    'file.format' = 'orc', \n" +
                "    'scan.mode' = 'compacted-full', \n" +
                "    'bucket' = '5', \n" +
                "    'sink.parallelism' = '5', \n" +
                "    'sequence.field' = 'ts' \n" +   // todo, to check
                ")"
        );

        // datagen ====================================================================
        tableEnv.executeSql("CREATE TEMPORARY TABLE IF NOT EXISTS source_A (\n" +
                " uuid bigint PRIMARY KEY NOT ENFORCED,\n" +
                " `name` VARCHAR(3)," +
                " _ts1 TIMESTAMP(3)\n" +
                ") WITH (\n" +
                " 'connector' = 'datagen', \n" +
                " 'fields.uuid.kind'='sequence',\n" +
                " 'fields.uuid.start'='0', \n" +
                " 'fields.uuid.end'='1000000', \n" +
                " 'rows-per-second' = '1' \n" +
                ")");
        tableEnv.executeSql("CREATE TEMPORARY TABLE IF NOT EXISTS source_B (\n" +
                " uuid bigint PRIMARY KEY NOT ENFORCED,\n" +
                " `age` int," +
                " _ts2 TIMESTAMP(3)\n" +
                ") WITH (\n" +
                " 'connector' = 'datagen', \n" +
                " 'fields.uuid.kind'='sequence',\n" +
                " 'fields.uuid.start'='0', \n" +
                " 'fields.uuid.end'='1000000', \n" +
                " 'rows-per-second' = '1' \n" +
                ")");

        //
        //tableEnv.executeSql("insert into paimon_tbl_streams(uuid, name, _ts1) select uuid, concat(name,'_A') as name, _ts1 from source_A");
        //tableEnv.executeSql("insert into paimon_tbl_streams(uuid, age, _ts1) select uuid, concat(age,'_B') as age, _ts1 from source_B");
        StatementSet statementSet = tableEnv.createStatementSet();
        statementSet
                .addInsertSql("insert into paimon_tbl_streams(uuid, name, ts, dt) select uuid, name, _ts1 as ts, date_format(_ts1,'yyyy-MM-dd') as dt from source_A")
                .addInsertSql("insert into paimon_tbl_streams(uuid, age, dt) select uuid, age, date_format(_ts2,'yyyy-MM-dd') as dt from source_B")
                ;

        statementSet.execute();
        // env.execute();
    }
}

结果：

3.2 流读（toChangeLogStream）

代码：

package com.study.flink.table.paimon.demo;

import org.apache.flink.api.common.functions.FilterFunction;
import org.apache.flink.streaming.api.datastream.DataStream;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.table.api.Schema;
import org.apache.flink.table.api.Table;
import org.apache.flink.table.api.TableEnvironment;
import org.apache.flink.table.api.bridge.java.StreamTableEnvironment;
import org.apache.flink.table.connector.ChangelogMode;
import org.apache.flink.types.Row;
import org.apache.flink.types.RowKind;
import org.apache.logging.log4j.LogManager;
import org.apache.logging.log4j.Logger;

/**
 * @Author: YK.Leo
 * @Date: 2023-05-15 18:50
 * @Version: 1.0
 */

// 流读单表OK！
public class OfficeStreamReadV1  {

    public static final Logger LOGGER = LogManager.getLogger(OfficeStreamReadV1.class);

    public static void main(String[] args) throws Exception {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

        env.setParallelism(1);
        env.enableCheckpointing(10000L);
        env.getCheckpointConfig().setCheckpointStorage("file:/D:/tmp/paimon/");

        TableEnvironment tableEnv = StreamTableEnvironment.create(env);


        // 0. Create a Catalog and a Table
        tableEnv.executeSql("CREATE CATALOG my_catalog_local WITH (\n" +
                "    'type'='paimon',\n" +                           // todo: !!!
                "    'warehouse'='file:///D:/tmp/paimon'\n" +
                ")");

        tableEnv.executeSql("USE CATALOG my_catalog_local");

        tableEnv.executeSql("CREATE DATABASE IF NOT EXISTS my_catalog_local.local_db");
        tableEnv.executeSql("USE local_db");

        // 不需要再次创建表

        // convert to DataStream
        // Table table = tableEnv.sqlQuery("SELECT * FROM paimon_tbl_streams");
        Table table = tableEnv.sqlQuery("SELECT * FROM paimon_tbl_streams WHERE name is not null and age is not null");
        // DataStream dataStream = ((StreamTableEnvironment) tableEnv).toChangelogStream(table);
        // todo : doesn't support consuming update and delete changes which is produced by node TableSourceScan
        // DataStream dataStream = ((StreamTableEnvironment) tableEnv).toDataStream(table);
        // 剔除 -U 数据（即：更新前的数据不需要重新发送，剔除）！！！
        DataStream dataStream = ((StreamTableEnvironment) tableEnv)
                .toChangelogStream(table, Schema.newBuilder().primaryKey("dt","uuid").build(), ChangelogMode.upsert())
                .filter(new FilterFunction() {
                    @Override
                    public boolean filter(Row row) throws Exception {
                        boolean isNoteUpdateBefore = !(row.getKind().equals(RowKind.UPDATE_BEFORE));
                        if (!isNoteUpdateBefore) {
                            LOGGER.info("UPDATE_BEFORE: " + row.toString());
                        }
                        return isNoteUpdateBefore;
                    }
                })
                ;

        // use this datastream
        dataStream.executeAndCollect().forEachRemaining(System.out::println);

        env.execute();
    }
}

结果：

二、进阶：本地（IDEA）多流拼接测试

要解决的问题：

多个流拥有相同的主键，每个流更新除主键外的部分字段，通过主键完成多流拼接。

note：

如果是两个Flink Job 或者两个 pipeline 写同一个paimon表，则直接会产生conflict，其中一条流不断exception、重启；

可以使用 “UNION ALL” 将多个流合并为一个流，最终一个Flink job写paimon表；

使用主键表，'merge-engine' = 'partial-update' ；

1、'changelog-producer' = 'full-compaction'

（1）multiWrite代码

package com.study.flink.table.paimon.multi;

import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.table.api.StatementSet;
import org.apache.flink.table.api.TableEnvironment;
import org.apache.flink.table.api.bridge.java.StreamTableEnvironment;

/**
 * @Author: YK.Leo
 * @Date: 2023-05-18 10:17
 * @Version: 1.0
 */

// Succeed as local ！！！
// 而且不会产生conflict，跑5分钟没有任何异常(公司跑几天无异常)！ 数据也可以在另一个job流读！
public class MultiStreamsUnionWriteV1 {
    public static void main(String[] args) throws Exception {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setParallelism(1);
        env.enableCheckpointing(10*1000L);
        env.getCheckpointConfig().setCheckpointStorage("file:/D:/tmp/paimon/");
        TableEnvironment tableEnv = StreamTableEnvironment.create(env);

        // 0. Create a Catalog and a Table
        tableEnv.executeSql("CREATE CATALOG my_catalog_local WITH (\n" +
                "    'type'='paimon',\n" +                           // todo: !!!
                "    'warehouse'='file:///D:/tmp/paimon'\n" +
                ")");
        tableEnv.executeSql("USE CATALOG my_catalog_local");

        tableEnv.executeSql("CREATE DATABASE IF NOT EXISTS my_catalog_local.local_db");
        tableEnv.executeSql("USE local_db");

        // drop & create tbl
        tableEnv.executeSql("DROP TABLE IF EXISTS paimon_tbl_streams");
        tableEnv.executeSql("CREATE TABLE IF NOT EXISTS paimon_tbl_streams(\n"
                + " uuid bigint,\n"
                + " name VARCHAR(3),\n"
                + " age int,\n"
                + " ts TIMESTAMP(3),\n"
                + " dt VARCHAR(10), \n"
                + " PRIMARY KEY (dt, uuid) NOT ENFORCED \n"
                + ") PARTITIONED BY (dt) \n"
                + " WITH (\n" +
                "    'merge-engine' = 'partial-update',\n" +
                "    'changelog-producer' = 'full-compaction', \n" +
                "    'file.format' = 'orc', \n" +
                "    'scan.mode' = 'compacted-full', \n" +
                "    'bucket' = '5', \n" +
                "    'sink.parallelism' = '5', \n" +
                // "    'write_only' = 'true', \n" +
                "    'sequence.field' = 'ts' \n" +   // todo, to check
                ")"
        );

        // datagen ====================================================================
        tableEnv.executeSql("CREATE TEMPORARY TABLE IF NOT EXISTS source_A (\n" +
                " uuid bigint PRIMARY KEY NOT ENFORCED,\n" +
                " `name` VARCHAR(3)," +
                " _ts1 TIMESTAMP(3)\n" +
                ") WITH (\n" +
                " 'connector' = 'datagen', \n" +
                " 'fields.uuid.kind'='sequence',\n" +
                " 'fields.uuid.start'='0', \n" +
                " 'fields.uuid.end'='1000000', \n" +
                " 'rows-per-second' = '1' \n" +
                ")");
        tableEnv.executeSql("CREATE TEMPORARY TABLE IF NOT EXISTS source_B (\n" +
                " uuid bigint PRIMARY KEY NOT ENFORCED,\n" +
                " `age` int," +
                " _ts2 TIMESTAMP(3)\n" +
                ") WITH (\n" +
                " 'connector' = 'datagen', \n" +
                " 'fields.uuid.kind'='sequence',\n" +
                " 'fields.uuid.start'='0', \n" +
                " 'fields.uuid.end'='1000000', \n" +
                " 'rows-per-second' = '1' \n" +
                ")");

        //
        StatementSet statementSet = tableEnv.createStatementSet();
        String sqlText = "INSERT INTO paimon_tbl_streams(uuid, name, age, ts, dt) \n" +
                "select uuid, name, cast(null as int) as age, _ts1 as ts, date_format(_ts1,'yyyy-MM-dd') as dt from source_A \n" +
                "UNION ALL \n" +
                "select uuid, cast(null as string) as name, age, _ts2 as ts, date_format(_ts2,'yyyy-MM-dd') as dt from source_B"
                ;
        statementSet.addInsertSql(sqlText);

        statementSet.execute();
    }
}

读代码同上。

（2）读延迟

即：从client数据落到paimon，完成与server的join，再到被Flink-paimon流读到的时间延迟；

分钟级别延迟！

2、'changelog-producer' = 'lookup'

读写同上，建表时修改参数即可： changelog-producer='lookup'，与此匹配的scan-mode需要分别配置为 'latest' ；

lookup延迟性可能会更低，但是数据质量有待验证。

note：

经测试，在企业生产环境中full-compaction模式目前一切稳定（两条join的流QPS约3K左右，延迟2-3分钟）。

99.9%的数据延迟在2-3分钟；

（multiWrite的checkpoint间隔为60s时）

三、可能遇到的问题

1. Caused by: java.lang.ClassCastException: org.codehaus.janino.CompilerFactory cannot be cast to org.codehaus.commons.compiler.ICompilerFactory

原因：org.codehaus.janino 依赖冲突,

办法：全部exclude掉

org.codehaus.janino:*

2. Caused by: java.lang.ClassNotFoundException: org.apache.flink.util.function.SerializableFunction

原因：Flink steaming版本与Flink table版本不一致或确实相关依赖（这里是paimon依赖的flink版本最低为1.14.6，与1.14.0的flink不兼容）

办法：升级Flink版本到1.14.4以上

参考Flink配置：Configuration | Apache Flink

3. Caused by: java.util.ServiceConfigurationError: org.apache.flink.table.factories.Factory: Provider org.apache.flink.table.store.connector.TableStoreManagedFactory not found

在项目的META-INF/services路径下添加 Factory 文件（这样才能匹配Flink的CatalogFactory，才能创建catalog）

4. Caused by: org.apache.flink.client.program.ProgramInvocationException: The main method caused an error: No operators defined in streaming topology. Cannot execute.

已经存在tableEnv.executeSql 或者 statementSet.execute() 时就不需要再 env.execute() 了！

5. Flink SQL不能直接使用null as，需要写成 cast(null as data_type)，如 cast(null as string)；

6. 如果创建paimon分区表，必须要把分区字段放在主键中！，否则建表报错：

【未完待续...】

探索高效办公新境界：OASys 开源 OA 系统邬楠满Seaman
探索高效办公新境界：OASys开源OA系统项目地址:https://gitcode.com/gh_mirrors/oa/OASys在数字化转型的浪潮中，高效的办公自动化系统（OA）成为了企业提升管理效率、优化工作流程的关键。今天，我们将深入介绍一款基于SpringCloud和Vue3的开源OA系统——OASys，它不仅集成了先进的技术框架，还提供了丰富的功能模块，旨在为各类企业提供一个全面、灵活的
Robot Framework 测试总结 Change is good 测试框架和工具 robotframework
在2014年结识robotframework，缘于一个偶然的机会。一个测试前辈推荐了robotframework。Robotframework是python语言的测试框架。简单的看了一下介绍，觉得不错，很适合新手入门。而且测试部门的领导也很支持引入开源的自动化测试工具。RobotFramework是一个开源的测试自动化框架，用于验收测试和验收测试驱动开发。它遵循不同的测试用例样式——关键字驱动、行
Hugging Face挑战DeepSeek，AI开源竞赛升级！新加坡内哥谈技术人工智能深度学习语言模型学习
每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/DeepSeek的R1推理模型刚刚引发全球轰动，开源AI界的“顶流”HuggingFac
python 分布式集群_Python搭建Spark分布式集群环境小国阁下 python 分布式集群
前言ApacheSpark是一个新兴的大数据处理通用引擎，提供了分布式的内存抽象。Spark最大的特点就是快，可比HadoopMapReduce的处理速度快100倍。本文没有使用一台电脑上构建多个虚拟机的方法来模拟集群，而是使用三台电脑来搭建一个小型分布式集群环境安装。本教程采用Spark2.0以上版本(比如Spark2.0.2、Spark2.1.0等)搭建集群，同样适用于搭建Spark1.6.2
conda从本地安装包幽殇默 pytorch conda
第一步：先下载需要的包。常用的网址1：https://mirrors.tuna.tsinghua.edu.cn/清华大学开源软件镜像站官网常用的网址2：https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/pytorch/win-64/?C=M&O=D清华大学开源软件镜像站pytorh下载网址常用的网址3：https://anaconda.org/
【Python】RocketMQ 基础使用 Encarta1993 Python rocketmq
目录1.介绍2.实践2.1.启动消费者2.2.启动生产者1.介绍RocketMQ是一个开源的分布式消息传递系统，最初由阿里巴巴集团开发并于2012年开源。它旨在解决高可靠性、高吞吐量、低延迟和可伸缩性等大规模分布式系统下的消息通信需求。RocketMQ的设计目标是提供一种灵活、可靠、高性能的消息传递解决方案，适用于各种场景，包括在线消息通信、日志处理、流式处理、事件驱动架构等。下面是对Rocket
疯狂的 Web 应用开源项目一个生命 Web 开发 Cookie web 开源项目应用
原文作者：陈皓原文链接：http://coolshell.cn/articles/5132.html#more-5132文章来源：Best“mustknow”opensourcestobuildthenewWeb。个人感觉这个收集贴收集成相当的全。学习HTML5编程和设计★HTML5Rocks:MajorFeatureGroups的学习HTML5的资源(HTML5演示,教程).源码很不错的HTML
【yolo目标检测】交通标志检测鱼弦【HOT】技术热谈 YOLO 目标检测人工智能
鱼弦：CSDN内容合伙人、CSDN新星导师、51CTO(Top红人+专家博主)、github开源爱好者（go-zero源码二次开发、游戏后端架构https://github.com/Peakchen）YOLO（YouOnlyLookOnce）是一种流行的实时目标检测算法，可用于交通标志检测。以下是关于YOLO目标检测的原理详细解释、使用场景解释以及相关文献材料的链接：原理详细解释：YOLO目标检测
Spring Boot与MongoDB集成指南行动π技术博客 spring boot mongodb 后端
1.引言在当今快速发展的软件开发领域，选择合适的技术栈对于构建高效、可扩展的应用程序至关重要。随着微服务架构和云原生应用的兴起，开发人员需要更灵活、更快速的解决方案来满足不断变化的业务需求。SpringBoot和MongoDB的结合正是这一需求的完美答案。1.1为什么选择SpringBoot和MongoDB？SpringBoot是一个开源的Java框架，它基于Spring框架，提供了快速开发和简化
kettle常用的数据库连接示例星月情缘02 ETL技术 kettle sql连接
kettle是一款强大的数据抽取转换工具，在数据仓库，ETL任务处理中使用的非常频繁的开源工具。它也支持众多的数据库连接类型。下面是支持的数据库连接对比图。请参考学习。就介绍这么多。
如何评价deepseek上线的deepseek-V3模型？怎么使用？百态老人学习
DeepSeek-V3模型是深度求索公司最新推出的自研MoE（混合专家）模型，具有6710亿参数，激活参数为370亿，经过14.8万亿token的预训练。该模型在多项评测中表现出色，超越了Qwen2.5-72B和Llama-3.1-405B等开源模型，并与世界顶尖的闭源模型如GPT-4o和Claude-3.5-Sonnet相媲美。性能评价性能表现：DeepSeek-V3在知识类任务、长文本处理、代
【硬刚大数据】2021年从零到大数据专家之Hbase八股文王知无(import_bigdata)
欢迎关注博客主页：https://blog.csdn.net/u013411339欢迎点赞、收藏、留言，欢迎留言交流！本文由【王知无】原创，首发于CSDN博客！本文首发CSDN论坛，未经过官方和本人允许，严禁转载！本文是对《【硬刚大数据之学习路线篇】2021年从零到大数据专家的学习指南(全面升级版)》的面试部分补充。硬刚大数据系列文章链接：2021年从零到大数据专家的学习指南(全面升级版)
CentOS 7的下载与安装 Neil Parker 大数据 centos linux 运维
一、CentOS7的下载与安装1、下载由于centos7已经停止维护，部分镜像网站移除了对centos7的支持，这里找到了部分现在还可以使用的镜像网站阿里云开源镜像站：https://mirrors.aliyun.com/centos/7/isos/x86_64/北京大学开源镜像站：https://mirrors.pku.edu.cn/centos/7/isos/x86_64/这篇博客中，使用阿里
vim的介绍 silver687 vim
Vim简介Vim（全称ViIMproved）是一款功能强大的文本编辑器，最初由BramMoolenaar在1991年基于Vi编辑器开发而成。它是一款开源软件，广泛应用于各种操作系统（如Linux、Unix、Windows等），尤其在程序员和系统管理员中非常受欢迎。1.主要特点•高度可定制化：Vim支持通过配置文件（.vimrc）和插件来扩展功能，用户可以根据自己的需求调整编辑器的行为。•多模式编辑
史上最强！Spring Boot 3.3 高效批量插入万级数据的多种方案 m0_74825074 面试学习路线阿里巴巴 spring boot 后端 java
SpringBoot3.3多种方式实现高效批量插入万级数据，史上最强！在大数据处理场景下，如何高效地将大量数据插入数据库是一个重要课题。本文基于SpringBoot3.3及MyBatis-Plus，介绍几种高效的批量插入数据的方法，包括：使用JDBC批处理使用自定义SQL批处理单条插入（for循环）拼接SQL语句插入MyBatis-Plus的saveBatch方法循环插入+开启批处理模式每种方式都
推荐开源神器：video-srt — 自动识别视频语音并生成字幕赵鹰伟Meadow
推荐开源神器：video-srt—自动识别视频语音并生成字幕去发现同类优质开源项目:https://gitcode.com/在数字媒体制作和在线教育领域，自动字幕生成是一个巨大的需求。今天，我们有幸向您推荐一款强大的开源命令行工具——video-srt。它能够智能地识别视频中的语音并自动生成准确的SRT字幕文件，极大地提高了工作效率。1、项目介绍video-srt是一个基于Go语言开发的工具，利用
推荐开源神器：Autosub——自动字幕生成器任轶眉Tracy
推荐开源神器：Autosub——自动字幕生成器项目地址:https://gitcode.com/gh_mirrors/au/autosub在多媒体内容日益丰富的今天，字幕已经成为观看视频的重要辅助工具。然而，手动创建字幕是一项耗时且繁琐的工作。幸运的是，有一个名为Autosub的开源项目，它能自动识别并生成视频的字幕，大大简化了这一过程。项目介绍Autosub是一个高效实用的工具，专门用于自动语音
Quartz 架构和单体应用介绍小马不敲代码 SpringBoot 架构定时任务
一、摘要Quartz架构介绍SpringBootQuartz应用整合二、关于QuartzQuartz是OpenSymphony开源组织在Jobscheduling领域开源的一个作业调度框架项目，完全由Java编写，主要是为了实现在Java应用程序中进行作业调度并提供了简单却强大的机制！Quartz不仅可以单独使用，还可以与J2EE与J2SE应用程序相结合使用！同时，Quartz允许程序开发人员根据
Spring Boot 整合 Apollo 配置中心实战疯狂的键盘侠 spring boot java apollo spring boot java
SpringBoot整合Apollo配置中心实战一、Apollo简介二、环境准备三、项目整合步骤四、配置使用示例五、常见问题及解决在分布式系统开发中，配置管理至关重要。Apollo作为携程开源的一款可靠的配置中心，能高效地集中管理应用配置，实现实时更新推送，助力开发者轻松应对复杂多变的配置场景。本文将带你一步步完成SpringBoot项目与Apollo配置中心的整合，让你的应用配置管理如鱼得水。一
Umi-OCR：开源、免费的离线OCR软件庞沛兴Philippa
Umi-OCR：开源、免费的离线OCR软件Umi-OCRUmi-OCR:这是一个免费、开源、可批量处理的离线OCR软件，适用于Windows系统，支持截图OCR、批量OCR、二维码识别等功能。项目地址:https://gitcode.com/gh_mirrors/um/Umi-OCR项目基础介绍和主要编程语言Umi-OCR是一个开源、免费的离线OCR（光学字符识别）软件，适用于Windows和Li
DeepSeek 模型：架构创新与实际应用详解汪子熙人工智能架构语言模型人工智能
DeepSeek模型是近年来在自然语言处理（NLP）领域备受瞩目的开源大规模语言模型系列。其最新版本DeepSeek-V3采用了混合专家（Mixture-of-Experts，MoE）架构，拥有6710亿个参数，每个词元（token）激活370亿个参数。该模型在多项基准测试中表现出色，性能媲美GPT-4和Claude等领先的闭源模型。以下将详细介绍DeepSeek模型的架构、用途，并通过具体案例和
多租户架构未提供足够的租户安全培训和教育图幻未来网络安全
多租户架构下租户安全培训与教育的需求分析与解决方案引言随着云计算和大数据技术的飞速发展，多租户架构已成为企业数字化转型的重要基石。多租户架构允许一个应用程序实例为多个租户提供服务，从而降低了企业的运营成本。然而，这种架构也带来了一系列的安全挑战。为了解决这些问题，企业需要加强对租户的安全培训和教育，确保租户了解如何在使用多租户架构时保护自己的数据和应用程序。本文将探讨多租户架构下的租户安全培训和教
HarmonyOS NEXT边学边玩：从零实现一个影视App（七、今日票房页面的设计与实现）特立独行的猫a HarmonyOS NEXT应用开发实战 harmonyos 华为
在本篇博客中，我们将介绍如何使用HarmonyOSNEXT框架从零开始构建一个简单的影视App，并重点实现“今日票房”页面的功能。我们将使用ArkUI组件库来搭建用户界面，并通过网络请求获取电影票房数据。开源项目地址：https://atomgit.com/csdn-qq8864/hmmovie项目准备首先，我们需要创建一个新的HarmonyOSNEXT项目，并配置好必要的依赖。确保你已经安装了D
JAVA开源免费项目基于Vue和SpringBoot的医院后台管理系统（附源码）胡晗靓 java vue.js spring boot 开源前端开发语言
本文项目编号T170，文末自助获取源码\color{red}{T170，文末自助获取源码}T170，文末自助获取源码目录一、系统介绍二、数据库设计三、配套教程3.1启动教程3.2讲解视频3.3二次开发教程四、功能截图五、文案资料5.1选题背景5.2国内外研究现状六、核心代码6.1查询数据6.2新增数据6.3删除数据一、系统介绍在管理员功能模块确定下来的基础上，对管理员各个功能进行设计，确定管理员功
一文了解大数据概论程序员
一.大数据概论1.1大数据概念大数据（bigdata）：指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。主要解决，海量数据的存储和海量数据的分析计算问题。按顺序给出数据存储单位：bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。1Byte=8bit
UE4的导航系统：基于Tile的导航你一身傲骨怎能输 UE4虚幻引擎 ue4
前言UE4的导航使用的是RecastDetour组件，这是一个开源组件，主要支持3D场景的导航网格导出和寻路，或者有一个更流行的名字叫做NavMesh。不管是Unity还是UE都使用了这一套组件。Github上有更为详细的源码、Demo和说明：https://github.com/recastnavigation/recastnavigation这一篇会阐述UE4是如何划分Tile，并基于Tile
cocos开发代码案例 chengxuyuan66666 cocos2d
Cocos是一个流行的开源游戏引擎，支持2D和3D游戏开发。以下是一些使用Cocos开发的代码案例，涵盖了不同方面的游戏开发功能：案例一：刮刮乐效果实现实现原理：借助Mask遮罩组件和Graphics自定义图形组件。资源准备：准备一张目标图片（如美女图）。准备一张盖在目标图片上面的遮罩图。核心代码：typescript复制代码import{_decorator,Component,Graphics
NR_shell运行流程简析小黑屋关门了 linux nr_shell
nr_shell是一套开源shell框架，基于框架可创建终端交互功能。为了记录终端输入指令，以及进行解析处理，nr_shell提供了一套cmd结构体，具体如下：typedefstructstatic_cmd_function_struct{charcmd[NR_SHELL_CMD_NAME_MAX_LENGTH]；void(*fp)(charargc,char*argv);char*descrip
开源模型应用落地-qwen模型小试-Qwen2.5-7B-Instruct-LangGraph-链式处理（一）开源技术探险家开源模型-实际应用落地 #深度学习自然语言处理语言模型 langchain
一、前言在当今人工智能快速发展的时代，大语言模型不断迭代升级，为各种复杂任务的处理提供了强大的支持。LangGraph作为一种创新的架构，其链式处理机制为充分发挥LLMs的潜力提供了新的途径。Qwen2.5模型是一款备受瞩目的大语言模型，它具备出色的语言理解和生成能力，在广泛的自然语言处理任务中都展现出了卓越的性能。其在语言的准确性、逻辑性以及对复杂语义的把握上都有着突出的表现，为基于它进行的各类
工作总结：压测篇小雨凉如水压力测试
前言压测是测试需要会的一项技能，作为开发，有点时候也要会一点压测。也是被逼着现学现卖的。一、压测是什么，以及压测工具的选择压测，即压力测试，是一种性能测试手段，通过模拟大量用户同时访问系统，来测试系统在高负载情况下的性能表现，如响应时间、吞吐量、资源利用率等，以发现系统的性能瓶颈和潜在问题。压测工具有很多，目前测试的业界开源主流是JMeter，商用版比较有名的是LoadRunner。但这两个不是学
Java常用排序算法/程序员必须掌握的8大排序算法 cugfy java
分类： 1）插入排序（直接插入排序、希尔排序） 2）交换排序（冒泡排序、快速排序） 3）选择排序（直接选择排序、堆排序） 4）归并排序 5）分配排序（基数排序）所需辅助空间最多：归并排序所需辅助空间最少：堆排序平均速度最快：快速排序不稳定：快速排序，希尔排序，堆排序。先来看看8种排序之间的关系： 1.直接插入排序（1
【Spark102】Spark存储模块BlockManager剖析 bit1129 manager
Spark围绕着BlockManager构建了存储模块，包括RDD，Shuffle，Broadcast的存储都使用了BlockManager。而BlockManager在实现上是一个针对每个应用的Master/Executor结构，即Driver上BlockManager充当了Master角色，而各个Slave上(具体到应用范围，就是Executor)的BlockManager充当了Slave角色
linux 查看端口被占用情况详解 daizj linux 端口占用 netstat lsof
经常在启动一个程序会碰到端口被占用，这里讲一下怎么查看端口是否被占用，及哪个程序占用，怎么Kill掉已占用端口的程序 1、lsof -i:port port为端口号 [root@slave /data/spark-1.4.0-bin-cdh4]# lsof -i:8080 COMMAND PID USER FD TY
Hosts文件使用周凡杨 hosts locahost
一切都要从localhost说起，经常在tomcat容器起动后，访问页面时输入http://localhost:8088/index.jsp，大家都知道localhost代表本机地址，如果本机IP是10.10.134.21，那就相当于http://10.10.134.21:8088/index.jsp，有时候也会看到http: 127.0.0.1:
java excel工具 g21121 Java excel
直接上代码，一看就懂，利用的是jxl： import java.io.File; import java.io.IOException; import jxl.Cell; import jxl.Sheet; import jxl.Workbook; import jxl.read.biff.BiffException; import jxl.write.Label; import
web报表工具finereport常用函数的用法总结（数组函数）老A不折腾 finereport web报表函数总结
ADD2ARRAY ADDARRAY(array,insertArray, start):在数组第start个位置插入insertArray中的所有元素，再返回该数组。示例： ADDARRAY([3,4, 1, 5, 7], [23, 43, 22], 3)返回[3, 4, 23, 43, 22, 1, 5, 7]. ADDARRAY([3,4, 1, 5, 7], "测试&q
游戏服务器网络带宽负载计算墙头上一根草服务器
家庭所安装的4M，8M宽带。其中M是指，Mbits/S 其中要提前说明的是： 8bits = 1Byte 即8位等于1字节。我们硬盘大小50G。意思是50*1024M字节，约为 50000多字节。但是网宽是以“位”为单位的，所以，8Mbits就是1M字节。是容积体积的单位。 8Mbits/s后面的S是秒。8Mbits/s意思是每秒8M位，即每秒1M字节。我是在计算我们网络流量时想到的
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans Spring 3 系列
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
高性能mysql 之选择存储引擎(一) annan211 mysql InnoDB MySQL引擎存储引擎
1 没有特殊情况，应尽可能使用InnoDB存储引擎。原因：InnoDB 和 MYIsAM 是mysql 最常用、使用最普遍的存储引擎。其中InnoDB是最重要、最广泛的存储引擎。她被设计用来处理大量的短期事务。短期事务大部分情况下是正常提交的，很少有回滚的情况。InnoDB的性能和自动崩溃恢复特性使得她在非事务型存储的需求中也非常流行，除非有非常
UDP网络编程百合不是茶 UDP编程局域网组播
UDP是基于无连接的,不可靠的传输与TCP/IP相反 UDP实现私聊,发送方式客户端,接受方式服务器 package netUDP_sc; import java.net.DatagramPacket; import java.net.DatagramSocket; import java.net.Ine
JQuery对象的val()方法执行结果分析 bijian1013 JavaScript js jquery
JavaScript中，如果id对应的标签不存在（同理JAVA中，如果对象不存在），则调用它的方法会报错或抛异常。在实际开发中，发现JQuery在id对应的标签不存在时，调其val()方法不会报错，结果是undefined。
http请求测试实例（采用json-lib解析） bijian1013 json http
由于fastjson只支持JDK1.5版本，因些对于JDK1.4的项目，可以采用json-lib来解析JSON数据。如下是http请求的另外一种写法，仅供参考。 package com; import java.util.HashMap; import java.util.Map; import
【RPC框架Hessian四】Hessian与Spring集成 bit1129 hessian
在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中介绍了基于Hessian的RPC服务的实现步骤，在那里使用Hessian提供的API完成基于Hessian的RPC服务开发和客户端调用，本文使用Spring对Hessian的集成来实现Hessian的RPC调用。定义模型、接口和服务器端代码 |---Model &nb
【Mahout三】基于Mahout CBayes算法的20newsgroup流程分析 bit1129 Mahout
1.Mahout环境搭建 1.下载Mahout http://mirror.bit.edu.cn/apache/mahout/0.10.0/mahout-distribution-0.10.0.tar.gz 2.解压Mahout 3. 配置环境变量 vim /etc/profile export HADOOP_HOME=/home
nginx负载tomcat遇非80时的转发问题 ronin47
　　nginx负载后端容器是tomcat（其它容器如WAS,JBOSS暂没发现这个问题）非８０端口，遇到跳转异常问题。解决的思路是：$host:port 详细如下：　　该问题是最先发现的，由于之前对nginx不是特别的熟悉所以该问题是个入门级别的： ? 1 2 3 4 5
java-17-在一个字符串中找到第一个只出现一次的字符 bylijinnan java
public class FirstShowOnlyOnceElement { /**Q17.在一个字符串中找到第一个只出现一次的字符。如输入abaccdeff，则输出b * 1.int[] count:count[i]表示i对应字符出现的次数 * 2.将26个英文字母映射：a-z <--> 0-25 * 3.假设全部字母都是小写 */ pu
mongoDB 复制集开窍的石头 mongodb
mongo的复制集就像mysql的主从数据库，当你往其中的主复制集(primary)写数据的时候，副复制集(secondary)会自动同步主复制集(Primary)的数据,当主复制集挂掉以后其中的一个副复制集会自动成为主复制集。提供服务器的可用性。和防止当机问题 mo
[宇宙与天文]宇宙时代的经济学 comsci 经济
宇宙尺度的交通工具一般都体型巨大，造价高昂。。。。。在宇宙中进行航行，近程采用反作用力类型的发动机，需要消耗少量矿石燃料，中远程航行要采用量子或者聚变反应堆发动机，进行超空间跳跃，要消耗大量高纯度水晶体能源以目前地球上国家的经济发展水平来讲，
Git忽略文件 Cwind git
有很多文件不必使用git管理。例如Eclipse或其他IDE生成的项目文件，编译生成的各种目标或临时文件等。使用git status时，会在Untracked files里面看到这些文件列表，在一次需要添加的文件比较多时（使用git add . / git add -u），会把这些所有的未跟踪文件添加进索引。 ==== ==== ==== 一些牢骚
MySQL连接数据库的必须配置 dashuaifu mysql 连接数据库配置
MySQL连接数据库的必须配置 1.driverClass：com.mysql.jdbc.Driver 2.jdbcUrl：jdbc:mysql://localhost:3306/dbname 3.user：username 4.password：password 其中1是驱动名；2是url，这里的‘dbna
一生要养成的60个习惯 dcj3sjt126com 习惯
一生要养成的60个习惯第1篇让你更受大家欢迎的习惯 1 守时，不准时赴约,让别人等,会失去很多机会。如何做到： ①该起床时就起床， ②养成任何事情都提前15分钟的习惯。 ③带本可以随时阅读的书，如果早了就拿出来读读。 ④有条理，生活没条理最容易耽误时间。 ⑤提前计划：将重要和不重要的事情岔开。 ⑥今天就准备好明天要穿的衣服。 ⑦按时睡觉，这会让按时起床更容易。 2 注重
[介绍]Yii 是什么 dcj3sjt126com PHP yii2
Yii 是一个高性能，基于组件的 PHP 框架，用于快速开发现代 Web 应用程序。名字 Yii （读作易）在中文里有“极致简单与不断演变”两重含义，也可看作 Yes It Is! 的缩写。 Yii 最适合做什么？ Yii 是一个通用的 Web 编程框架，即可以用于开发各种用 PHP 构建的 Web 应用。因为基于组件的框架结构和设计精巧的缓存支持，它特别适合开发大型应
Linux SSH常用总结 eksliang linux ssh SSHD
转载请出自出处：http://eksliang.iteye.com/blog/2186931 一、连接到远程主机格式： ssh name@remoteserver 例如： ssh [email protected] 二、连接到远程主机指定的端口格式： ssh name@remoteserver -p 22 例如： ssh i
快速上传头像到服务端工具类FaceUtil gundumw100 android
快速迭代用 import java.io.DataOutputStream; import java.io.File; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.FileOutputStream; import java.io.IOExceptio
jQuery入门之怎么使用 ini JavaScript html jquery Web css
jQuery的强大我何问起（个人主页：hovertree.com）就不用多说了，那么怎么使用jQuery呢？首先，下载jquery。下载地址：http://hovertree.com/hvtart/bjae/b8627323101a4994.htm，一个是压缩版本，一个是未压缩版本，如果在开发测试阶段，可以使用未压缩版本，实际应用一般使用压缩版本(min)。然后就在页面上引用。
带filter的hbase查询优化 kane_xie 查询优化 hbase RandomRowFilter
问题描述 hbase scan数据缓慢，server端出现LeaseException。hbase写入缓慢。问题原因直接原因是： hbase client端每次和regionserver交互的时候，都会在服务器端生成一个Lease,Lease的有效期由参数hbase.regionserver.lease.period确定。如果hbase scan需
java设计模式-单例模式 men4661273 java 单例枚举反射 IOC
单例模式1，饿汉模式 //饿汉式单例类.在类初始化时，已经自行实例化 public class Singleton1 { //私有的默认构造函数 private Singleton1() {} //已经自行实例化 private static final Singleton1 singl
mongodb 查询某一天所有信息的3种方法，根据日期查询 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
// mongodb的查询真让人难以琢磨，就查询单天信息，都需要花费一番功夫才行。 // 第一种方式： coll.aggregate([ {$project:{sendDate: {$substr: ['$sendTime', 0, 10]}, sendTime: 1, content:1}}, {$match:{sendDate: '2015-
二维数组转换成JSON tangqi609567707 java 二维数组 json
原文出处：http://blog.csdn.net/springsen/article/details/7833596 public class Demo { public static void main(String[] args) { String[][] blogL
erlang supervisor wudixiaotie erlang
定义supervisor时，如果是监控celuesimple_one_for_one则删除children的时候就用supervisor:terminate_child (SupModuleName, ChildPid)，如果shutdown策略选择的是brutal_kill，那么supervisor会调用exit(ChildPid, kill)，这样的话如果Child的behavior是gen_

新一代数据湖存储技术Apache Paimon入门Demo

前言

1. 什么是 Apache Paimon

一、本地环境快速上手

1、本地Flink伪集群

2、IDEA中跑Paimon Demo

2.1 代码

2.2 IDEA中成功运行

3、IDEA中Stream读写

3.1 流写

3.2 流读（toChangeLogStream）

二、进阶：本地（IDEA）多流拼接测试

要解决的问题：

note：

1、'changelog-producer' = 'full-compaction'

（1）multiWrite代码

（2）读延迟

2、'changelog-producer' = 'lookup'

三、可能遇到的问题

你可能感兴趣的:(数据湖,flink,大数据,开源)