docsz

StarRocks数据导入

1、相关环境

Flink作为当前流行的流式计算框架，在对接StarRocks时，若直接使用JDBC的方式"流式"写入数据，对StarRocks是不友好的，StarRocks作为一款MVCC的数据库，其导入的核心思想还是"攒微批+降频率"。为此，StarRocks单独开发了flink-connector-starrocks，其内部实现仍是通过对数据缓存攒批后执行Stream Load导入。

1.1、StarRocks相关下载

https://www.mirrorship.cn/zh-CN/download/community

1.2、Flink CDC连接器

参考地址：
https://ververica.github.io/flink-cdc-connectors/release-2.0/content/about.html#supported-flink-versions

https://github.com/StarRocks/starrocks-connector-for-apache-flink

https://docs.starrocks.io/zh-cn/main/loading/Flink-connector-starrocks

1.3、搭建环境

StarRocks
Flink
Kafka
Zookeeper
MySQL

2、Flink读取Kafka数据写入StarRocks

Routine Load是StarRocks自带的可以消费Kafka数据的导入方式，其特点是简单易用，不依赖外部组件，但若需要对Kafka中的数据进行复杂的ETL，Routine Load可能就不能胜任了，这时就可以考虑使用Flink去消费Kafka中的数据，进行清洗转换后，再sink至StarRocks。

常见的实时报表的例子，使用Flink对Kafka中追加写入的数据进行实时处理，然后将数据源源不断的同步入库StarRocks。

2.1、数据准备

2.1.1、在Kafka中创建主题behavior和province

kafka-topics.sh --zookeeper 192.168.110.101:2181 --create --replication-factor 1 --partitions 1 --topic behavior

kafka-topics.sh --zookeeper 192.168.110.101:2181 --create --replication-factor 1 --partitions 1 --topic province

2.1.2、向主题behavior生产数据

kafka-console-producer.sh  --broker-list  192.168.110.101:9092  --topic behavior

2.1.3、生产数据

10001,zs,18,11,shopping
10002,ls,19, 11,add
10003,ww,19,61,star

2.1.4、向主题province生产数据

kafka-console-producer.sh  --broker-list  192.168.110.101:9092  --topic province

2.1.5、生产数据

11,北京
61,陕西

2.2、StarRocks准备

2.2.1、创建主键模型表s_province

create database starrocks;
use starrocks;
CREATE TABLE IF NOT EXISTS starrocks.`s_province` (
  `uid` int(10) NOT NULL COMMENT "",
  `p_id` int(2) NOT NULL COMMENT "",
  `p_name` varchar(30) NULL COMMENT ""
)
PRIMARY KEY(`uid`)
DISTRIBUTED BY HASH(`uid`) BUCKETS 1
PROPERTIES (
"replication_num" = "1",
-- 限主键模型
"enable_persistent_index" = "true"
);

2.3、Flink准备

2.3.1、启动Flink

 ./start-cluster.sh

2.3.2、启动sql-client

/sql-client.sh embedded

2.3.3、执行Flink SQL，创建上下游的映射表

1、Source部分，创建Flink向Kafka的映射表kafka_source_behavior

CREATE TABLE kafka_source_behavior (
    uuid int,
    name string,
    age int,
    province_id int,
    behavior string
) WITH (
    'connector' = 'kafka',
    'topic' = 'behavior',
    'properties.bootstrap.servers' = '192.168.110.101:9092',
    'properties.group.id' = 'source_behavior',
    'scan.startup.mode' = 'earliest-offset',
    'format' = 'csv'
);

2、创建映射表kafka_source_province

CREATE TABLE kafka_source_province (
    pid int,
    p_name string
) WITH (
    'connector' = 'kafka',
    'topic' = 'province',
    'properties.bootstrap.servers' = '192.168.110.101:9092',
    'properties.group.id' = 'source_province',
    'scan.startup.mode' = 'earliest-offset',
    'format' = 'csv'
);

3、Sink部分，创建Flink向StarRocks的映射表sink_province

CREATE TABLE sink_province (
   uid INT,
   p_id INT,
   p_name STRING,
   PRIMARY KEY (uid) NOT ENFORCED
)WITH (
   'connector' = 'starrocks',
   'jdbc-url'='jdbc:mysql://192.168.110.101:9030',
   'load-url'='192.168.110.101:8030',
   'database-name' = 'starrocks',
   'table-name' = 's_province',
   'username' = 'root',
   'password' = 'root',
   'sink.buffer-flush.interval-ms' = '5000',
   'sink.properties.column_separator' = '\x01',
   'sink.properties.row_delimiter' = '\x02'
);

2.3.4、执行同步任务

执行Flink SQL，开始同步任务

insert into sink_province select b.uuid as uid, b.province_id as p_id, p.p_name from kafka_source_behavior b join kafka_source_province p on b.province_id = p.pid;

2.4、StarRocks查看数据

mysql -h192.168.110.101 -P9030 -uroot –proot

use starrocks;
select * from s_province;

3、Flink JDBC读取MySQL数据写入StarRocks

使用Flink JDBC方式读取MySQL数据的实时场景不多，因为JDBC下Flink只能获取执行命令时MySQL表的数据，所以更适合离线场景。假设有复杂的MySQL数据，就可以在Flink中跑定时任务，来获取清洗后的数据，完成后写入StarRocks。

3.1、MySQL准备

3.1.1、MySQL中创建表s_user

use ODS;
CREATE TABLE `s_user` (
   `id` INT(11) NOT NULL,
   `name` VARCHAR(32) DEFAULT NULL,
   `p_id` INT(2) DEFAULT NULL,
   PRIMARY KEY (`id`)
);

3.1.2、插入数据

insert into s_user values(10086,'lm',61),(10010, 'ls',11), (10000,'ll',61);

3.2、StarRocks准备

3.2.1、StarRocks创建表s_user

use starrocks;
CREATE TABLE IF NOT EXISTS starrocks.`s_user` (
   `id` int(10) NOT NULL COMMENT "",
   `name` varchar(20) NOT NULL COMMENT "",
   `p_id` INT(2) NULL COMMENT ""
)
PRIMARY KEY(`id`)
DISTRIBUTED BY HASH(`id`) BUCKETS 1
PROPERTIES (
"replication_num" = "1",
-- 限主键模型
"enable_persistent_index" = "true"
);

3.3、Flink创建映射表

3.3.1、启动Flink（服务未停止，可以跳过）

 ./start-cluster.sh

3.3.2、启动sql-client

./sql-client.sh embedded

3.3.3、Source部分，创建映射至MySQL的映射表source_mysql_suser

CREATE TABLE source_mysql_suser (
   id INT,
   name STRING,
   p_id INT,
   PRIMARY KEY (id) NOT ENFORCED
)WITH (
   'connector' = 'jdbc',
   'url' = 'jdbc:mysql://192.168.110.102:3306/ODS',
   'table-name' = 's_user',
   'username' = 'root',
   'password' = 'root'
);

3.3.4、Sink部分，创建至StarRocks的映射表sink_starrocks_suser

CREATE TABLE sink_starrocks_suser (
   id INT,
   name STRING,
   p_id INT,
   PRIMARY KEY (id) NOT ENFORCED
)WITH (
   'connector' = 'starrocks',
   'jdbc-url'='jdbc:mysql://192.168.110.101:9030',
   'load-url'='192.168.110.101:8030',
   'database-name' = 'starrocks',
   'table-name' = 's_user',
   'username' = 'root',
   'password' = 'root',
   'sink.buffer-flush.interval-ms' = '5000',
   'sink.properties.column_separator' = '\x01',
   'sink.properties.row_delimiter' = '\x02'
);

3.3.5、Flink清洗数据并写入StarRocks

只是简单做一个where筛选，实际业务可能是多表join的复杂场景

insert into sink_starrocks_suser select id,name,p_id from source_mysql_suser where p_id = 61;

数据写入StarRocks后，Flink任务完成并结束。此时若再对MySQL中s_user表的数据进行增删或修改操作，Flink亦不会感知。

4、Flink读取StarRocks数据写入MySQL

还使用MySQL 中的s_user表和StarRocks的s_user表，将业务流程反转一下，读取StarRocks中的数据写入其他业务库，例如MySQL。

4.1、Flink创建映射表

4.1.1、启动Flink（服务未停止，可以跳过）

./start-cluster.sh

4.1.2、启动sql-client

./sql-client.sh embedded

4.1.3、Source部分，创建StarRocks映射表source_starrocks_suser

CREATE TABLE source_starrocks_suser (
   id INT,
   name STRING,
   p_id INT
)WITH (
   'connector' = 'starrocks',
   'scan-url'='192.168.110.101:8030',
   'jdbc-url'='jdbc:mysql://192.168.110.101:9030',
   'database-name' = 'starrocks',
   'table-name' = 's_user',
   'username' = 'root',
   'password' = 'root'
);

4.1.4、Sink部分，创建向MySQL的映射表sink_mysql_suser

CREATE TABLE sink_mysql_suser (
   id INT,
   name STRING,
   p_id INT,
   PRIMARY KEY (id) NOT ENFORCED
)WITH (
   'connector' = 'jdbc',
   'url' = 'jdbc:mysql://192.168.110.102:3306/ODS',
   'table-name' = 's_user',
   'username' = 'root',
   'password' = 'root'
);

4.2、MySQL准备

4.2.1、清空MySQL s_user表数据，为一会儿导入新数据做准备

 use ODS;
truncate table s_user;

4.3、Flink执行导入任务

简单梳理操作，实际业务可能会对StarRocks中多个表的数据进行分组或者join等处理然后再导入。

 insert into sink_mysql_suser select id,name,p_id from source_starrocks_suser;

4.4、查看MySQL数据

 select * from s_user;

5、Flink CDC同步MySQL数据至StarRocks

使用FlinkJDBC来读取MySQL数据时，JDBC的方式是“一次性”的导入，若希望让Flink感知MySQL数据源的数据变化，并近实时的实现据同步，就需要使用Flink CDC。
CDC是变更数据捕获（Change Data Capture）技术的缩写，它可以将源数据库（Source）的数据变动记录，同步到一个或多个数据目的地中（Sink）。直观的说就是当数据源的数据变化时，通过CDC可以让目标库中的数据同步发生变化（仅限于DML操作）。
还使用前面MySQL的s_user表以及StarRocks的s_user表来演示。

5.1、MySQL准备

5.1.1、MySQL开启binlog（格式为ROW模式）

vi /etc/my.cnf

log-bin=mysql-bin  # 开启binlog
binlog-format=ROW # 选择ROW模式
server_id=1       # 配置MySQL replaction

5.1.2、重启MySQL服务：

systemctl restart mysqld

5.2、StarRocks准备

5.2.1、StarRocks中清空s_user表中的数据

mysql -h192.168.110.101 -P9030 -uroot –proot

use starrocks;
truncate table s_user;

5.3、Flink准备

5.3.1、启动Flink（服务未停止，可以跳过）

./start-cluster.sh

5.3.2、启动sql-client

./sql-client.sh embedded

5.3.3、Source部分，创建MySQL映射表cdc_mysql_suser

CREATE TABLE cdc_mysql_suser (
   id INT,
   name STRING,
   p_id INT
) WITH (
   'connector' = 'mysql-cdc',
   'hostname' = '192.168.110.102',
   'port' = '3306',
   'username' = 'root',
   'password' = 'root',
   'database-name' = 'ODS',
   'scan.incremental.snapshot.enabled'='false',
   'table-name' = 's_user'
);

5.3.4、Sink部分，创建向StarRocks的cdc_starrocks_suser

CREATE TABLE cdc_starrocks_suser (
   id INT,
   name STRING,
   p_id INT,
   PRIMARY KEY (id) NOT ENFORCED
)WITH (
   'connector' = 'starrocks',
   'jdbc-url'='jdbc:mysql://192.168.110.101:9030',
   'load-url'='192.168.110.101:8030',
   'database-name' = 'starrocks',
   'table-name' = 's_user',
   'username' = 'root',
   'password' = 'root',
   'sink.buffer-flush.interval-ms' = '5000',
   'sink.properties.column_separator' = '\x01',
   'sink.properties.row_delimiter' = '\x02'
);

5.4、执行同步任务

insert into cdc_starrocks_suser select id,name,p_id from cdc_mysql_suser;

在CDC场景下，Flink SQL执行后同步任务将会持续进行，当MySQL中数据出现变化，Flink会快速感知，并将变化同步至StarRocks中。

5.5、数据观察

5.5.1、MySQL库中观察数据

mysql -uroot –proot

use ODS;
select * from s_user;

5.5.2、StarRocks库中观察数据

mysql -h192.168.110.101 -P9030 -uroot –proot

use starrocks;
select * from s_user;

5.5.3、MySQL中，对数据进行增删改操作

 INSERT INTO s_user VALUES(12345,'SR',61);

DELETE FROM s_user WHERE id = 10010;

UPDATE s_user SET `name`='No.1' WHERE id = 10086;

5.5.4、查看StarRocks中表的数据

 select * from s_user;

可以确认对MySQL源表数据的增加、修改和删除操作引起的数据变化，都能同步至StarRocks目标表中。

6、通过CDC+SMT实现MySQL多表数据的秒级同步

StarRocks Migration Tool：为了友好的解决多表同步时的问题，StarRocks发布了StarRocks-migrate-tools（简称smt）工具，来快捷生成StarRocks表结构和Flink-SQL映射表及同步语句。Smt目前可用于MySQL、PostgreSQL、Oracle和hive，后面三个数据库的同步还在公测中，先以MySQL来进行演示。

6.1 MySQL准备

已开启binlog的MySQL中创建数据库CDC，并在其中创建表departments和jobs，创建完成后再导入少量数据。

6.1.1、创建表departments

CREATE DATABASE CDC;
USE CDC;
 CREATE TABLE `departments` (
   `department_id` int(4) NOT NULL AUTO_INCREMENT,
   `department_name` varchar(3) DEFAULT NULL,
   `manager_id` int(6) DEFAULT NULL,
   `location_id` int(4) DEFAULT NULL,
   PRIMARY KEY (`department_id`)
);

6.1.2、为表departments插入数据

insert  into `departments`(`department_id`,`department_name`,`manager_id`,`location_id`) 
values (10,'Adm',200,1700),(20,'Mar',201,1800),(30,'Pur',114,1700),(40,'Hum',203,2400),(50,'Shi',121,1500),(60,'IT',103,1400),(70,'Pub',204,2700),(80,'Sal',145,2500),(90,'Exe',100,1700),(100,'Fin',108,1700),(110,'Acc',205,1700),(120,'Tre',NULL,1700),(130,'Cor',NULL,1700),(140,'Con',NULL,1700),(150,'Sha',NULL,1700),(160,'Ben',NULL,1700),(170,'Man',NULL,1700),(180,'Con',NULL,1700),(190,'Con',NULL,1700),(200,'Ope',NULL,1700),(210,'IT ',NULL,1700),(220,'NOC',NULL,1700),(230,'IT ',NULL,1700),(240,'Gov',NULL,1700),(250,'Ret',NULL,1700),(260,'Rec',NULL,1700),(270,'Pay',NULL,1700);

6.1.3、创建表jobs

CREATE TABLE `jobs` (
   `job_id` varchar(10) NOT NULL,
   `job_title` varchar(35) DEFAULT NULL,
   `min_salary` int(6) DEFAULT NULL,
   `max_salary` int(6) DEFAULT NULL,
   PRIMARY KEY (`job_id`)
);

6.1.4、为表jobs插入数据

insert  into `jobs`(`job_id`,`job_title`,`min_salary`,`max_salary`) 
values ('AC_ACCOUNT','Public Accountant',4200,9000),('AC_MGR','Accounting Manager',8200,16000),('AD_ASST','Administration Assistant',3000,6000),('AD_PRES','President',20000,40000),('AD_VP','Administration Vice President',15000,30000),('FI_ACCOUNT','Accountant',4200,9000),('FI_MGR','Finance Manager',8200,16000),('HR_REP','Human Resources Representative',4000,9000),('IT_PROG','Programmer',4000,10000),('MK_MAN','Marketing Manager',9000,15000),('MK_REP','Marketing Representative',4000,9000),('PR_REP','Public Relations Representative',4500,10500),('PU_CLERK','Purchasing Clerk',2500,5500),('PU_MAN','Purchasing Manager',8000,15000),('SA_MAN','Sales Manager',10000,20000),('SA_REP','Sales Representative',6000,12000),('SH_CLERK','Shipping Clerk',2500,5500),('ST_CLERK','Stock Clerk',2000,5000),('ST_MAN','Stock Manager',5500,8500);

6.2 配置SMT工具

6.2.1 下载smt工具，解压后修改配置文件

vi conf/config_prod.conf

1、配置MySQL部分

[db]

host = 192.168.110.102  #MySQL所在服务器IP
port = 3306  #MySQL服务端口
user = root  #用户名
password = root  #密码
# currently available types: `mysql`, `pgsql`, `oracle`, `hive`
type = mysql  #类型选择MySQL，目前PostgreSQL、Oracle和Hive正在公测中
# # only takes effect on `type == hive`.
# # Available values: kerberos, none, nosasl, kerberos_http, none_http, zk, ldap
# authentication = kerberos
[other]
# number of backends in StarRocks
be_num = 1  #配置StarRocks BE的节点数，以便生成更合理bucket数量的建表语句
# `decimal_v3` is supported since StarRocks-1.18.1
use_decimal_v3 = true  #使用更高精度的Decimal类型，1.18后的版本都支持
# file to save the converted DDL SQL
output_dir = ./result  #后续生成sql文件的保存目录
# !!!`database` `table` `schema` are case sensitive in `oracle`!!!
[table-rule.1]
# pattern to match databases for setting properties
# !!! database should be a `whole instance(or pdb) name` but not a regex when it comes with an `oracle db` !!!
database = CDC  #配置需要同步的数据库，需使用正则表达式的写法
# pattern to match tables for setting properties
table = departments|jobs  #配置需要同步的表，需使用正则表达式的写法
# `schema` only takes effect on `postgresql` and `oracle`
schema = ^public$  #同步MySQL时不需要管这个

2、配置StarRocks集群信息

############################################
### flink sink configurations  #这部分与Flink Sink部分写法相似
### DO NOT set `connector`, `table-name`, `database-name`, they are auto-generated
############################################
flink.starrocks.jdbc-url=jdbc:mysql://192.168.110.101:9030
flink.starrocks.load-url=192.168.110.101:8030
flink.starrocks.username=root
flink.starrocks.password=root
flink.starrocks.sink.properties.format=json  #以json格式攒批
flink.starrocks.sink.properties.strip_outer_array=true  #展开为数组
flink.starrocks.sink.buffer-flush.interval-ms=10000  #攒批10秒导入一次
# # used to set the server-id for mysql-cdc jobs instead of using a random server-id
# flink.cdc.server-id = 5000

6.3 SMT工具使用

参考地址：
https://docs.starrocks.io/zh-cn/latest/loading/Flink_cdc_load#%E4%BB%8E-mysql-%E5%AE%9E%E6%97%B6%E5%90%8C%E6%AD%A5

6.3.1 执行smt工具

./starrocks-migrate-tool

6.3.2 在配置的./result路径下生成sql语句文件

flink-create.1.sql
flink-create.all.sql
starrocks-create.1.sql
starrocks-create.all.sql
starrocks-external-create.1.sql
starrocks-external-create.all.sql

6.4 生成Flink 任务

6.4.1 同步库表结构

如果数据需要经过 Flink 处理后写入目标表，目标表与源表的结构不一样，则您需要修改 SQL 文件 starrocks-create.all.sql 中的建表语句。

mysql -h192.168.110.101 -P9030 -uroot -proot < /opt/module/smt/result/starrocks-create.all.sql

6.4.2、同步数据

进入 Flink 目录，执行如下命令

./bin/sql-client.sh -f /opt/module/smt/result/flink-create.all.sql

6.4.3、处理同步数据

在同步过程中，如果您需要对数据进行一定的处理，例如 GROUP BY、JOIN 等，则可以修改 SQL 文件 flink-create.all.sql。可以通过执行 count(*) 和 GROUP BY 计算。

INSERT INTO `default_catalog`.`demo`.`orders_sink` SELECT product_id,product_name, COUNT(*) AS cnt FROM `default_catalog`.`demo`.`orders_src` WHERE order_date >'2021-01-01 00:00:01' GROUP BY product_id,product_name;

执行同步数据命令（5.4.2），如果返回如下结果，则表示 Flink job 已经提交，开始同步全量和增量数据。

[INFO] Submitting SQL update statement to the cluster...
[INFO] SQL update statement has been successfully submitted to the cluster:
Job ID: 5ae005c4b3425d8bb13fe660260a35da

6.5 观察任务状况

 ./flink list

Waiting for response...

------------------ Running/Restarting Jobs -------------------

19.01.2022 21:55:30 : 80c4e81de2d0d7e34c8f1aac1c22a8c4 : insert-into_default_catalog.CDC.departments_sink (RUNNING)

19.01.2022 21:55:34 : b2b76afe7d33196a09a274142d9128cf : insert-into_default_catalog.CDC.jobs_sink (RUNNING)

6.6 数据观察

就不再演示改变数据了，与场景四中的情况相同，当数据源中的数据变化时，StarRocks中的数据也会同步变化，实现数据的近实时同步。

这个场景特别适合维度表的数据同步，因为当前StarRocks还不支持update语法，就可以将数据需要频繁更新的维度表放在MySQL中，使用Flink CDC+SMT实时的在StarRocks中同步数据，实现灵活的多表关联查询。

你可能感兴趣的:(大数据,starrocks,flink)

Apache Flink 2.0-preview released flink大数据
ApacheFlink社区正在积极准备Flink2.0，这是自Flink1.0发布8年以来的首次大版本发布。作为一个重要的里程碑，Flink2.0将引入许多激动人心的功能和改进，以及一些不兼容的破坏性变更。为了促进用户和上下游项目（例如，连接器）尽早适配这些变更，提前尝试这些令人兴奋的新功能同时收集反馈，我们现在提供了Flink2.0的预览版本。注意:Flink2.0预览版不是稳定版本，请不要应用
推荐文章：libpopcnt——高效位计数的神器胡蓓怡
推荐文章：libpopcnt——高效位计数的神器libpopcntFastC/C++bitpopulationcountlibrary项目地址:https://gitcode.com/gh_mirrors/li/libpopcnt在数字处理和大数据分析的世界里，每毫秒的性能提升都是宝贵的。今天，我们要向大家隆重介绍一个名为libpopcnt的开源库，它专为快速计算数组中“1”比特的数量而生，是优化
什么是数据仓库？狮歌~资深攻城狮数据仓库
什么是数据仓库？数据仓库（DataWarehouse，简称DW）是一种面向分析和决策的数据存储系统，它将企业中分散的、异构的数据按照一定的主题和模型进行集成和存储，为数据分析、报表生成以及商业智能（BI）提供支持。数据仓库是大数据体系的重要组成部分，主要用于对大量历史数据的存储、处理和分析。简单来说，数据仓库是一个为数据分析和业务决策服务的系统，通过整合来自不同来源的数据，形成面向主题的、可查询的
如何实现集群部署 DaXiongJoker 持续部署 nginx java
集群部署是指将多个计算节点（通常是服务器）组合在一起，形成一个协同工作的系统，以提供更高的性能、可用性和可靠性。集群部署广泛应用于各种场景，如Web服务、数据库、大数据处理等。以下是关于集群部署的详细解释：1.基本概念集群（Cluster）:一组相互连接的计算机，它们协同工作以提供单一的计算资源。节点（Node）:集群中的每个计算机或服务器，负责执行特定的任务。2.主要目的高性能:通过并行处理任务
MongoDB深度解析与实践案例我的运维人生 mongodb 数据库运维开发技术共享
MongoDB深度解析与实践案例在当今大数据与云计算盛行的时代，NoSQL数据库以其灵活的数据模型、水平扩展能力和高性能，成为处理海量数据的重要工具之一。MongoDB，作为NoSQL数据库的杰出代表，凭借其面向文档的存储结构、强大的查询语言以及丰富的生态系统，赢得了众多开发者和企业的青睐。本文将深入探讨MongoDB的核心特性、架构设计原则，并通过一个实际案例展示其在实际项目中的应用。一、Mon
MongoDB深度解析与实践案例我的运维人生 mongodb 数据库运维开发技术共享
MongoDB深度解析与实践案例在当今大数据与云计算蓬勃发展的时代，NoSQL数据库以其灵活的数据模型、水平扩展能力和高性能，成为处理海量数据的重要工具。其中，MongoDB作为NoSQL数据库的佼佼者，凭借其面向文档的存储方式、强大的查询语言以及丰富的生态系统，在各类应用场景中大放异彩。本文将深入探讨MongoDB的核心特性、架构设计原则，并通过实际代码案例展示其在数据处理中的应用。一、Mong
2024年最新Python：Page Object设计模式_python page object，BTAJ大厂最新面试题汇集 m0_60707708 程序员 python 设计模式开发语言
最后硬核资料：关注即可领取PPT模板、简历模板、行业经典书籍PDF。技术互助：技术群大佬指点迷津，你的问题可能不是问题，求资源在群里喊一声。面试题库：由技术群里的小伙伴们共同投稿，热乎的大厂面试真题，持续更新中。知识体系：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是
PolarDB for MySQL 三大核心之一POLARFS 今天扒开它--- 嘛是火星人 Austindatabases mysql 数据库
开头还是介绍一下群，如果感兴趣PolarDB,MongoDB,MySQL,PostgreSQL,Redis,OceanBase,SqlServer等有问题，有需求都可以加群群内有各大数据库行业大咖，可以解决你的问题。加群请联系liuaustin3，（共2600人左右1+2+3+4+5+6+7+8）(123456群均已爆满，新人进7群，8群，准备9群)PoalrDB这块，目前国内的博客在用户这个序列
Linux内核性能调优：让系统飞起来的秘籍
在当今数字化时代，Linux系统凭借其强大的稳定性、开放性和灵活性，广泛应用于服务器、云计算、大数据等诸多领域。然而，随着业务量的不断增长和应用场景的日益复杂，Linux内核的性能面临着巨大挑战。哪怕是微小的性能瓶颈，都可能像滚雪球一样，在高负载运行时被无限放大，进而引发一系列严重问题。想象一下，一个电商网站在购物高峰期，由于Linux内核性能不佳，导致服务器响应迟缓。用户点击商品详情，页面却迟迟
AI Agent：一场智能革命的开始 TechubNews 人工智能
在当今科技日新月异的时代，AI（人工智能）技术正以前所未有的速度改变着我们的生活和工作方式。其中，AIAgent作为AI领域的一个新兴分支，正逐渐展现出其巨大的潜力和价值。本文将深入探讨AIAgent的发展现状、核心优势以及未来的发展方向，带您领略这一前沿技术的无限魅力。一、AIAgent的发展现状：技术突破与广泛应用近年来，随着大数据、云计算和机器学习等技术的飞速发展，AIAgent的技术水平得
2024年总结：大转向年度总结
本文于2025年1月2号首发于公众号“狗哥琐话”。2024年是个打工人苦命年，我看到几乎每个人都比以往辛苦。这让我想起了六字真言，钱难赚屎难吃。职业转向今年我在职业上尝试做了一个转向，具体的结果可能需要比较长的时间来检验我选择是否正确，所以转向的细节我就不全部展开了，可以确定是我依然会专注在Infra和BigData，比如今年我发布了SparkSQL和FlinkSQL的IDEA提效插件。那么我为什
三个案例，快速了解星环科技如何助力医疗数字化转型科技医疗it
星环科技基于自身的技术优势和产品体系，为医疗行业提供湖仓集一体化医院数据中心、云原生架构的区域医疗中台、医疗数据要素运营流通等解决方案，并在业务应用领域与生态伙伴联合打造端到端的整体解决方案，满足医疗行业专业领域、复杂场景下的数字化转型需求。星环科技助力某三甲医院打造湖仓集一体大数据底座某大型综合三甲医院为解决全院各业务系统数据统一采集、存储、实时共享问题，联合星环科技打造“湖仓集”一体的技术底座
案例分享｜某港口集团企业级数据管理及分析应用体系构建数据分析
平台工具体系｜数据治理某港口集团已建成多个信息化系统，充分满足集团职能管理方面的需求，但垂直化的职能管理使各职能领域的指标体系、业务流程和业务系统呈现出条状划分的鲜明特点，数据共享存在“壁垒”，缺少横向的业务流程梳理和贯通，导致港口数据标准不统一、各业务系统数据“孤岛化”明显，特别是随着对数据增值利用和精细化管理要求的逐步提高，已难以应对日趋复杂的业务需求。通过运用大数据基础平台TDH、大数据开发
Flink 批作业如何在 Master 节点出错重启后恢复执行进度？ flink大数据
摘要：本文撰写自阿里云研发工程师李俊睿（昕程），主要介绍Flink1.20版本中引入了批作业在JMfailover后的进度恢复功能。主要分为以下四个内容：背景解决思路使用效果如何启用一、背景在Flink1.20版本之前，如果Flink的JobMaster（JM）发生故障导致被终止，将会发生如下两种情况：如果作业未启用高可用性（HA），作业将失败。如果作业启用了HA，JM会被自动重新拉起（JMfai
读Flink源码谈设计：Metric javaflink
版本日期备注1.02021.10.8文章首发1.12022.3.9fixtypo1.22022.7.3fixtypo0.前言前阵子笔者涉及了些许监控相关的开发工作，在开发过程中也碰到过些许问题，便翻读了Flink相关部分的代码，在读代码的过程中发现了一些好的设计，因此也是写成文章整理上来。本文的源码基于Flink1.13.2。1.扩展插件化在官网中，Flink社区自己提供了一些已接入的Report
【武汉东湖学院主办 | ACM出版 | 高录用 | 快检索】第六届计算机信息和大数据应用国际学术会议（CIBDA 2025）艾思科蓝 AiScholar 学术会议计算机科学计算机技术工程大数据信息可视化软件工程人工智能分布式深度学习算法
大会官网：www.ic-cibda.org【参会投稿】大会时间：2025年3月14-16日大会地点：中国-武汉论文出版：会议投稿经过2-3位组委会专家严格审核后，最终所录用的论文将被ACMICPS(ACMInternationalConferenceProceedingSeries)出版论文集，并提交至ACMDigitallibrary，EICompendex,Scopus检索。目前该会议论文检索
“大数据+技校”：VR虚拟仿真实训室的发展前景武汉唯众智创大数据 vr 大数据实训室大数据实验室大数据VR实训室
在技术教育的新时代，大数据与虚拟现实技术的融合正在重塑技校的教学模式。"大数据+技校"模式下的VR虚拟仿真实训室，为技校学生提供了一个创新的学习平台，预示着教育方式的深刻变革。一、大数据与技校教育的深度融合大数据技术的应用为技校教育带来了前所未有的机遇。通过收集和分析学生的学习数据、行为数据以及就业数据等，技校能够更准确地了解学生的学习情况、技能掌握程度和就业需求，从而为学生提供更加个性化的学习方
大数据分层存储架构：ODS、DWD、DWM与DWS详解从零开始学习人工智能大数据 spark 分布式
在大数据领域中，ODS、DWD、DWM和DWS代表了数据仓库的不同层次，它们共同构成了大数据的分层存储结构。这种结构的设计有助于提高数据查询效率，降低成本，并满足不同的业务需求。ODS（OperationalDataStore）：操作数据存储层，主要存放原始的业务数据，是数据仓库的源头。它负责收集、存储和管理从各种业务系统中抽取的原始数据，为后续的数据处理和分析提供基础。DWD（DataWareh
数仓分层ODS、DWD、DWM、DWS、DIM、DM、ADS 青秋. 数据仓库大数据数据仓库
往期推荐数仓入门：数据分析模型、数仓建模、离线实时数仓、Lambda、Kappa、湖仓一体-CSDN博客数仓常见名词解析和名词之间的关系-CSDN博客数据仓库及数仓架构概述-CSDN博客大数据HBase图文简介-CSDN博客目录1.数仓分层1.1数据源层：ODS（OperationalDataStore）1.2数据仓库层：DW（DataWarehouse）1.2.1数据明细层：DWD（DataWa
Flink CDC 在阿里云实时计算Flink版的云上实践 flink大数据实时计算
摘要：本文整理自阿里云高级开发工程师，ApacheFlinkCommitter阮航老师在FlinkForwardAsia2024生产实践（三）专场中的分享，主要分为以下四个方面：一、FlinkCDC&实时计算Flink二、CDCYAML核心功能三、CDCYAML典型应用场景四、Demo&未来规划一、FlinkCDC&实时计算Flink1.1FlinkCDC简介FlinkCDC在经过多个版本的发布后
区块链领域新进展：技术创新与应用拓展齐头并进
近期，区块链领域不断涌现出新的消息，展现出这一技术在多个方面的持续发展和创新应用。在技术创新方面，我国自主可控、性能良好的区块链软硬件技术体系长安链启动链通全国社保数据。据中国日报1月3日消息，在国家重点研发计划的牵引下，长安链高性能融合隐私计算，在确保原始数据不被泄露的前提下，支持社保大数据服务信息在企业、金融机构可信安全流通和共享，助力实体经济高质量发展。长安链自2021年初问世以来，凭借核心
Java 大视界 -- Java 开发 Spark 应用：RDD 操作与数据转换一只蜗牛儿 java spark 开发语言
ApacheSpark是一个强大的分布式计算框架，提供了高效的数据处理能力，广泛应用于大数据分析与机器学习。Spark提供了多种高级API，支持批处理和流处理。Spark提供了两种主要的数据抽象：RDD（弹性分布式数据集）和DataFrame。本文将重点介绍如何使用Java开发Spark应用，并深入探讨RDD的操作与数据转换。一、Spark环境搭建首先，确保您的环境中安装了Java和Spark。您
推荐文章：揭开贝壳网房价数据的神秘面纱 —— BeikeSpider 深度探索郎纪洋
推荐文章：揭开贝壳网房价数据的神秘面纱——BeikeSpider深度探索BeikeSpider贝壳网房价爬虫,基于Scrapy,采集北京上海广州深圳等21个中国主要城市的房价数据（小区,二手房），稳定可靠快速！支持csv存储，注释丰富，链家网爬虫见我另一个项目项目地址:https://gitcode.com/gh_mirrors/be/BeikeSpider项目介绍在房地产大数据的时代背景下，获取
编码必看！智能代码助手帮你快速解释代码、解释函数
文心快码(BaiduComate)是基于百度文心大模型，在研发全流程全场景下为开发者提供辅助建议的智能代码助手。结合百度积累多年的编程现场大数据、外部优秀开源数据，可为开发者生成更符合实际研发场景的优秀代码，提升编码效率，释放“十倍”软件生产力。如果您对【文心快码企业版】感兴趣，希望获取更多详细信息，点击进入企业服务咨询我们会尽快安排专业人员与您取得联系！我们期待与您建立联系，为您的企业带来更高效
Spring Boot 和微服务：快速入门指南王子良. Java 经验分享 spring boot 微服务后端
欢迎来到我的博客！非常高兴能在这里与您相遇。在这里，您不仅能获得有趣的技术分享，还能感受到轻松愉快的氛围。无论您是编程新手，还是资深开发者，都能在这里找到属于您的知识宝藏，学习和成长。博客内容包括：Java核心技术与微服务：涵盖Java基础、JVM、并发编程、Redis、Kafka、Spring等，帮助您全面掌握企业级开发技术。大数据技术：涵盖Hadoop（HDFS）、Hive、Spark、Fli
大数据框架之kafka详解 xingchensuiyue 大数据 zookeeper kafka kafka
目录1kafka介绍1.1kalka是什么？1.2Kafka内部原理1.3为什么需要消息队列？2Kafka的消息系统语义3Kafka生产过程分析3.1写入方式3.2分区（Partition）3.3副本（Replication）3.4Producer写入流程3.5消费者组3.6消费方式扩展：纠删码技术1kafka介绍1.1kalka是什么？可以简单的将kafka看做是一种消息队列，启动生产者与消费者
内部知识库的未来展望：技术融合与用户体验的双重升级
在当今数字化飞速发展的时代，企业内部知识库作为知识管理的关键载体，正站在变革的十字路口，即将迎来技术融合与用户体验双重升级的崭新时代，这一系列变化将深度重塑企业知识管理的格局。一、技术融合：开启知识管理新篇（一）大数据+内部知识库：知识挖掘的深度拓展大数据技术的蓬勃发展为内部知识库注入了强大动力。企业积累的海量业务数据、员工行为数据等，犹如一座未经深度开采的金矿。未来，借助大数据分析工具，内部知识
Bitmap 和布隆过滤器傻傻分不清？你这不应该啊
大家好，我是小富～有个兄弟私下跟我说，他在面试狗东时，有一道面试题没回答上来：Redis的Bitmap和布隆过滤器啥区别与关系？其实就是考小老弟对这两种工具的底层数据结构是否了解，不算太难的题。不过，bitmap和布隆过滤器在大数据量和高并发业务的使用频率不低，知识点应该掌握下，既然问了那咱们简单的梳理下它们的底层原理、应用场景以及它们之间的关联。BitmapRedis中的Bitmap（位图）是一
Hive 窗口函数与分析函数深度解析：开启大数据分析的新维度自节码大数据 hive 数据分析 hadoop
Hive窗口函数与分析函数深度解析：开启大数据分析的新维度在当今大数据蓬勃发展的时代，Hive作为一款强大的数据仓库工具，其窗口函数和分析函数犹如一把把精巧的手术刀，助力数据分析师们精准地剖析海量数据，挖掘出深藏其中的价值宝藏。本文将带领大家深入探索HiveQL中这些神奇函数的奥秘，从版本演进、功能特性到丰富多样的实际应用示例，全方位地呈现它们在大数据处理领域的卓越魅力。一、版本回溯与知识宝库指引
大数据新视界 -- 大数据大厂之 Hive 数据压缩算法对比与选择（下）（20 / 30）青云交大数据新视界 #Hive 之道大数据 Hive 数据压缩压缩算法对比选择因素案例分析实时数据处理数据存储优化 sql
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：大数
SQL的各种连接查询 xieke90 UNION ALL UNION 外连接内连接 JOIN
一、内连接概念：内连接就是使用比较运算符根据每个表共有的列的值匹配两个表中的行。内连接（join 或者inner join ） SQL语法： select * fron
java编程思想--复用类百合不是茶 java 继承代理组合 final类
复用类看着标题都不知道是什么,再加上java编程思想翻译的比价难懂,所以知道现在才看这本软件界的奇书一:组合语法:就是将对象的引用放到新类中即可代码: package com.wj.reuse; /** * * @author Administrator 组
[开源与生态系统]国产CPU的生态系统 comsci cpu
计算机要从娃娃抓起...而孩子最喜欢玩游戏.... 要让国产CPU在国内市场形成自己的生态系统和产业链,国家和企业就不能够忘记游戏这个非常关键的环节.... 投入一些资金和资源,人力和政策,让游
JVM内存区域划分Eden Space、Survivor Space、Tenured Gen，Perm Gen解释商人shang jvm内存
jvm区域总体分两类，heap区和非heap区。heap区又分：Eden Space（伊甸园）、Survivor Space(幸存者区)、Tenured Gen（老年代-养老区）。非heap区又分：Code Cache(代码缓存区)、Perm Gen（永久代）、Jvm Stack(java虚拟机栈)、Local Method Statck(本地方法栈)。 HotSpot虚拟机GC算法采用分代收
页面上调用 QQ oloz qq
<A href="tencent://message/?uin=707321921&Site=有事Q我&Menu=yes"> <img style="border:0px;" src=http://wpa.qq.com/pa?p=1:707321921:1></a>
一些问题文强chu 问题
1.eclipse 导出 doc 出现“The Javadoc command does not exist.” javadoc command 选择 jdk/bin/javadoc.exe 2.tomcate 配置 web 项目 ..... SQL:3.mysql * 必须得放前面否则 select&nbs
生活没有安全感小桔子生活孤独安全感
圈子好小，身边朋友没几个，交心的更是少之又少。在深圳，除了男朋友，没几个亲密的人。不知不觉男朋友成了唯一的依靠，毫不夸张的说，业余生活的全部。现在感情好，也很幸福的。但是说不准难免人心会变嘛，不发生什么大家都乐融融，发生什么很难处理。我想说如果不幸被分手(无论原因如何)，生活难免变化很大，在深圳，我没交心的朋友。明
php 基础语法 aichenglong php 基本语法
1 .1 php变量必须以$开头 <?php $a=” b”; echo ?> 1 .2 php基本数据库类型 Integer float/double Boolean string 1 .3 复合数据类型数组array和对象 object 1 .4 特殊数据类型 null 资源类型(resource) $co
mybatis tools 配置详解 AILIKES mybatis
MyBatis Generator中文文档 MyBatis Generator中文文档地址： http://generator.sturgeon.mopaas.com/ 该中文文档由于尽可能和原文内容一致，所以有些地方如果不熟悉，看中文版的文档的也会有一定的障碍，所以本章根据该中文文档以及实际应用，使用通俗的语言来讲解详细的配置。本文使用Markdown进行编辑，但是博客显示效
继承与多态的探讨百合不是茶 JAVA面向对象继承对象
继承 extends 多态继承是面向对象最经常使用的特征之一：继承语法是通过继承发、基类的域和方法 //继承就是从现有的类中生成一个新的类，这个新类拥有现有类的所有extends是使用继承的关键字：在A类中定义属性和方法； class A{ //定义属性 int age； //定义方法 public void go
JS的undefined与null的实例 bijian1013 JavaScript JavaScript
<form name="theform" id="theform"> </form> <script language="javascript"> var a alert(typeof(b)); //这里提示undefined if(theform.datas
TDD实践（一） bijian1013 java 敏捷 TDD
一.TDD概述 TDD：测试驱动开发，它的基本思想就是在开发功能代码之前，先编写测试代码。也就是说在明确要开发某个功能后，首先思考如何对这个功能进行测试，并完成测试代码的编写，然后编写相关的代码满足这些测试用例。然后循环进行添加其他功能，直到完全部功能的开发。
[Maven学习笔记十]Maven Profile与资源文件过滤器 bit1129 maven
什么是Maven Profile Maven Profile的含义是针对编译打包环境和编译打包目的配置定制，可以在不同的环境上选择相应的配置，例如DB信息，可以根据是为开发环境编译打包，还是为生产环境编译打包，动态的选择正确的DB配置信息 Profile的激活机制 1.Profile可以手工激活，比如在Intellij Idea的Maven Project视图中可以选择一个P
【Hive八】Hive用户自定义生成表函数(UDTF) bit1129 hive
1. 什么是UDTF UDTF，是User Defined Table-Generating Functions，一眼看上去，貌似是用户自定义生成表函数，这个生成表不应该理解为生成了一个HQL Table，貌似更应该理解为生成了类似关系表的二维行数据集 2. 如何实现UDTF 继承org.apache.hadoop.hive.ql.udf.generic
tfs restful api 加auth 2.0认计 ronin47
　　目前思考如何给tfs的ngx-tfs api增加安全性。有如下两点：　　一是基于客户端的ip设置。这个比较容易实现。　　二是基于OAuth2.0认证，这个需要lua，实现起来相对于一来说，有些难度。　　现在重点介绍第二种方法实现思路。　　前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGe
jdk环境变量配置 byalias java jdk
进行java开发，首先要安装jdk，安装了jdk后还要进行环境变量配置： 1、下载jdk（http://java.sun.com/javase/downloads/index.jsp），我下载的版本是：jdk-7u79-windows-x64.exe 2、安装jdk-7u79-windows-x64.exe 3、配置环境变量：右击"计算机"-->&quo
《代码大全》表驱动法-Table Driven Approach-2 bylijinnan java
package com.ljn.base; import java.io.BufferedReader; import java.io.FileInputStream; import java.io.InputStreamReader; import java.util.ArrayList; import java.util.Collections; import java.uti
SQL 数值四舍五入小数点后保留2位 chicony 四舍五入
1.round() 函数是四舍五入用，第一个参数是我们要被操作的数据，第二个参数是设置我们四舍五入之后小数点后显示几位。 2.numeric 函数的2个参数，第一个表示数据长度，第二个参数表示小数点后位数。例如：　　select cast(round(12.5,2) as numeric(5,2))
c++运算符重载 CrazyMizzz C++
一、加+，减-，乘*，除/ 的运算符重载 Rational operator*(const Rational &x) const{ return Rational(x.a * this->a); } 在这里只写乘法的，加减除的写法类似二、<<输出,>>输入的运算符重载 &nb
hive DDL语法汇总 daizj hive 修改列 DDL 修改表
hive DDL语法汇总１、对表重命名 hive> ALTER TABLE table_name RENAME TO new_table_name; 2、修改表备注 hive> ALTER TABLE table_name SET TBLPROPERTIES ('comment' = new_comm
jbox使用说明 dcj3sjt126com Web
参考网址：http://www.kudystudio.com/jbox/jbox-demo.html jBox v2.3 beta [ 点击下载] 技术交流QQGroup：172543951 100521167 [2011-11-11] jBox v2.3 正式版 - [调整&修复] IE6下有iframe或页面有active、applet控件
UISegmentedControl 开发笔记 dcj3sjt126com
// typedef NS_ENUM(NSInteger, UISegmentedControlStyle) { // UISegmentedControlStylePlain, // large plain &
Slick生成表映射文件 ekian scala
Scala添加SLICK进行数据库操作，需在sbt文件上添加slick-codegen包 "com.typesafe.slick" %% "slick-codegen" % slickVersion 因为我是连接SQL Server数据库，还需添加slick-extensions，jtds包 "com.typesa
ES-TEST gengzg test
package com.MarkNum; import java.io.IOException; import java.util.Date; import java.util.HashMap; import java.util.Map; import javax.servlet.ServletException; import javax.servlet.annotation
为何外键不再推荐使用 hugh.wang mysql DB
表的关联，是一种逻辑关系，并不需要进行物理上的“硬关联”，而且你所期望的关联，其实只是其数据上存在一定的联系而已，而这种联系实际上是在设计之初就定义好的固有逻辑。在业务代码中实现的时候，只要按照设计之初的这种固有关联逻辑来处理数据即可，并不需要在数据库层面进行“硬关联”，因为在数据库层面通过使用外键的方式进行“硬关联”，会带来很多额外的资源消耗来进行一致性和完整性校验，即使很多时候我们并不
领域驱动设计 julyflame VO DAO 设计模式 DTO po
概念： VO（View Object）：视图对象，用于展示层，它的作用是把某个指定页面（或组件）的所有数据封装起来。 DTO（Data Transfer Object）：数据传输对象，这个概念来源于J2EE的设计模式，原来的目的是为了EJB的分布式应用提供粗粒度的数据实体，以减少分布式调用的次数，从而提高分布式调用的性能和降低网络负载，但在这里，我泛指用于展示层与服务层之间的数据传输对
单例设计模式 hm4123660 java Singleton 单例设计模式懒汉式饿汉式
单例模式是一种常用的软件设计模式。在它的核心结构中只包含一个被称为单例类的特殊类。通过单例模式可以保证系统中一个类只有一个实例而且该实例易于外界访问，从而方便对实例个数的控制并节约系统源。如果希望在系统中某个类的对象只能存在一个，单例模式是最好的解决方案。 &nb
logback zhb8015 log logback
一、logback的介绍 Logback是由log4j创始人设计的又一个开源日志组件。logback当前分成三个模块：logback-core,logback- classic和logback-access。logback-core是其它两个模块的基础模块。logback-classic是log4j的一个改良版本。此外logback-class
整合Kafka到Spark Streaming——代码示例和挑战 Stark_Summer spark storm zookeeper PARALLELISM processing
作者Michael G. Noll是瑞士的一位工程师和研究员，效力于Verisign，是Verisign实验室的大规模数据分析基础设施（基础Hadoop）的技术主管。本文，Michael详细的演示了如何将Kafka整合到Spark Streaming中。期间， Michael还提到了将Kafka整合到 Spark Streaming中的一些现状，非常值得阅读，虽然有一些信息在Spark 1.2版
spring-master-slave-commondao 王新春 DAO spring dataSource slave master
互联网的web项目，都有个特点：请求的并发量高，其中请求最耗时的db操作，又是系统优化的重中之重。为此，往往搭建 db的一主多从库的数据库架构。作为web的DAO层，要保证针对主库进行写操作，对多个从库进行读操作。当然在一些请求中，为了避免主从复制的延迟导致的数据不一致性，部分的读操作也要到主库上。（这种需求一般通过业务垂直分开，比如下单业务的代码所部署的机器，读去应该也要从主库读取数