大数据点灯人

FlinkCDC-Hudi:Mysql数据实时入湖全攻略四：两种FlinkSql kafka connector的特征与应用

前序：FlinkCDC-Hudi系列文章：

FlinkCDC-Hudi:Mysql数据实时入湖全攻略一：初试风云
FlinkCDC-Hudi:Mysql数据实时入湖全攻略二：Hudi与Spark整合时所遇异常与解决方案
FlinkCDC-Hudi:Mysql数据实时入湖全攻略三：探索实现FlinkCDC mysql 主从库同步高可用

一、背景

在生产实践中，通过FlinkCDC读取数据，除了落地hadoop入湖供下游离线使用外，也会存在写入kafka供实时程序消费使用。

那么flink里，kafka connector有哪些？各有什么特征？使用时要注意什么呢？且让我们开始flink kafka connector探索之旅。

二、测试环境准备

2.1 基础运行环境搭建

在开始实操探索之前，至少确保你已经搭建好了FlinkCDC-Hudi的运行环境。本文的测试环境基于FlinkCDC-Hudi:Mysql数据实时入湖全攻略一：初试风云。如果仅对flinkcdc写入kafka感兴趣，至少准备flink环境和flinkcdc依赖。

2.2 kafka sql connector环境搭建

测试flink sql写kafka，需要添加运行依赖flink-sql-connector-kafka。笔者使用的版本是flink-sql-connector-kafka_2.11-1.13.5.jar。


    org.apache.flink
    flink-sql-connector-kafka_2.11
    1.13.5
    provided

读者可以根据自己的运行环境下载对应的依赖包。maven依赖下载: flink-connector-kafka

2.3 Kafka 集群环境

笔者kafka使用kafka-2.7.0版本。读者如未配置kafka，可参见官方文档Kafka快速入门

2.4 mysql 环境准备

笔者在FlinkCDC-Hudi:Mysql数据实时入湖全攻略三：探索实现FlinkCDC mysql 主从库同步高可用搭建了一主二从的Mysql环境，笔者的运行环境依赖使用这个环境。读者可以依此搭建。
读者如果使用自己的环境，需要确认mysql开启binlog并授以flinkcdc测试账号相应权限。

三、前置运行代码

本文相关测试在flink sql上运行。在搭建好上述环境后，执行以下后置代码，然后进入flink sql kafka connector测试环境。

3.1 mysql ddl

mysql> CREATE TABLE `test_1` (
  `id` bigint(20) NOT NULL AUTO_INCREMENT,
  `data` varchar(10) DEFAULT NULL,
  `create_time` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP,
  PRIMARY KEY (`id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4;

3.2 启动flink sql client

cd FLINK_HOME
./bin/yarn-session.sh -s 4 -jm 1024 -tm 2048 -nm flink-hudi -d 
./bin/sql-client.sh embedded -s yarn-session -j /home/zhangsirun/flink-1.13.5/lib/hudi-flink-bundle_2.11-0.11.0-SNAPSHOT.jar shell

3.3 设置Flink sql 运行变量

Flink SQL> set execution.checkpointing.interval=30sec;
Flink SQL> set pipeline.name = flinkcdc_test_1;

3.4 flink sql mysqlcdc ddl:

Flink SQL> create table mysql_test_1(
id bigint primary key not enforced,
data String,
create_time Timestamp(3)
) with (
'connector'='mysql-cdc',
'hostname'='192.168.2.101',
'port'='3306',
'server-id'='5800-5804',
'username'='user_test',
'password'='user_test_password',
'server-time-zone'='Asia/Shanghai',
'debezium.snapshot.mode'='initial',
'database-name'='flink_cdc',
'table-name'='test_1'
);

四、FlinkSQL Kafka connector的两种实现

通过查阅Flink官方文档Connector/Table API Connectors，我们知道Flink kafka connector有两种实现：kafka和upsert kafka。这两种connector有什么特点呢？下面一一揭晓。

五、Kafka sql connector

Kafka sql connector是基础的kafka应用封装，用于生产/消费指写topic的数据。

5.1 元数据

这个connector提供了额外的元数据可用于表定义，topic，partittion,headers,leader-epoch,offset,timestamp,timestamp-type，这些都是与生产/消费相关的kafka基础信息。官方提供的应用样例：

CREATE TABLE KafkaTable (
  `event_time` TIMESTAMP(3) METADATA FROM 'timestamp',
  `partition` BIGINT METADATA VIRTUAL,
  `offset` BIGINT METADATA VIRTUAL,
  `user_id` BIGINT,
  `item_id` BIGINT,
  `behavior` STRING
) WITH (
  'connector' = 'kafka',
  'topic' = 'user_behavior',
  'properties.bootstrap.servers' = 'localhost:9092',
  'properties.group.id' = 'testGroup',
  'scan.startup.mode' = 'earliest-offset',
  'format' = 'csv'
);

5.2 配置与特征

使用这个connector时相关配置有很多，详情可见Flink/table/kafka connector。这里结合配置项做一些关键特征介绍。

5.2.1 connector类型

connector=kafka，必选，指定为使用kafka sql connector。

5.2.2 kafka相关基础配置

必选项，properties.bootstrap.servers，指定集群
必选项，topic/topic-pattern，二选一。topic-pattern可指定多个topic，用分号分隔。
可选项，properties.group.id，消费组信息，不配置会按格式“KafkaSource-{tableIdentifier}”生成。
更多的kafka原生配置通过 properties.*配置。如properties.security.protocol。

5.2.3 序列化相关

必选项，format,value.format，二选一，指定消息体序列与反序列格式。
可选项，key.format，指定消息key的序列化与反序列化格式。
可选项，key.fields，指定主键字段，多个字段使用分号分隔。key.fields在生产消息时会使用key.format格式，根据分区函数发到相应分区。
可选项，key.fields-prefix，如果key里的字段与value里的字段冲突时，可以配置Key前缀来解决冲突。

常用格式有csv,json,debezium-json,avro,raw。格式配置错误的话，会导致解析异常，进行导致作业失败。

更多格式与信息参看connetors/table/format

5.2.4 kafka sourse配置

scan.*，定义消费相关的配置。可以配置消费模式，起始offset，起始timestamp，分区发现时间间隔。

scan.startup.mode，消费启动模式。支持以下值配置：

值	说明
group-offsets	从zk/kafka上记录的消费者组offset开始消费，默认
earliest-offset	从最早的offset开始
latest-offset	从最新的offset开始
timestamp	每个分区从对应时间戳开始消费。时间戳通过scan.startup.timestamp-millis指定
specific-offsets	从用户指定的offset开始消费。offset通过配置scan.startup.specific-offsets指定，示例为：partition:0,offset:42;partition:1,offset:300

scan.topic-partition-discovery.interval，配置动态发现扫描时间间隔。定期扫描更新元数据，用于动态topic、动态分区发现。

5.2.5 kafka sink配置

sink.*，定义生产相关的配置。可配置key partitionner，生产一致性语义，生产并发。

sink.partitioner，分区函数。
sink.delivery-guarantee，消息传递一致性保证。支持以下值:

值	说明
none	不提供任何保证，可能丢数，可能重复
at-least-once	至少一次，保证不丢数，可能会重复
exactly-once	精确一次。使用kafka事务保证。下游消费者需要配置隔离等级。isolation.level (read_committed 或 read_uncommitted

sink.parallelism，生产并发度。默认使用与flink算子链相同的并发度。

5.3 Kafka sql connector应用

5.3.1 Kafka sql table ddl

Flink SQL> create table kafka_test_1(
  table_name String,
  id bigint primary key not enforced,
  data String,
  create_time Timestamp(3)
  ) with (
  'connector'='kafka',
  'topic'='test',
  'properties.bootstrap.servers' = 'broker:9092',
  'key.format'='json',
  'key.fields'='table_name;id',
  'value.format'='debezium-json'
  );

由于我们使用FlinkCDC mysql connector作为数据源，使用的value.format是debezium-json，同时定义了两个主键table_name;id，主键格式为json格式。

5.3.2 启动flink kafka sql connector作业

5.3.2.1 启动sink kafka作业

Flink SQL> set execution.checkpointing.interval=30sec;
Flink SQL> set pipeline.name = flinkcdc_test_1;
Flink SQL> insert into kafka_test_1 select * from mysql_test_1;

在flink session集群中顺利启动flink作业。

5.3.2.2 启动source kafka作业

在FlinkSql client中启动表查询：

Flink SQL> select * from kafka_test_1;

FlinkSql source kafka表视图：

5.3.3 Kafka消息验证

开启Kafka消费者，用于读取kafka消息，验证sink kafka。

KAFKA_HOME/bin/kafka-console-consumer.sh --bootstrap-server broker:9092 --topic test1  --property print.partition=true --property print.offset=true --property print.key=true  --from-beginning

5.3.3.1 insert语句验证

在mysql中插入数据：

mysql> insert into test_1 values(149,'data','2022-02-18 20:31:55');

消费到的数据：

Partition:3	Offset:11	{"table_name":"test_1","id":149}	{"before":null,"after":{"table_name":"test_1","id":149,"data":"d1","create_time":"2022-02-18 20:31:55"},"op":"c"}

消息按table_name,id以json格式生成key: {“table_name”:“test_1”,“id”:149}。
消息体为debezium-json格式。内容如下。其中

before字段为修改前内容
after有修改后的内容
op为操作类型，有两种值：c - create, d - delete。

{
	"before": null,
	"after": {
		"table_name": "test_1",
		"id": 149,
		"data": "d1",
		"create_time": "2022-02-18 20:1:55"
	},
	"op": "c"
}

对应flinkSql视图查询到一条新增数据：

5.3.3.2 update语句验证

通过mysql更新上述记录:

mysql> update test_1 set data='bigdata' where id=149;

一条mysyl update语句产生了两条kakfa消息。第一条代表delete旧值，旧值放在before字段。第二条代表创建新值，新值放在after字段。由于key相同，数据都发到了相同的分区。

Partition:3	Offset:12	{"table_name":"test_1","id":149}	{"before":{"table_name":"test_1","id":149,"data":"d1","create_time":"2022-02-18 20:31:55"},"after":null,"op":"d"}
Partition:3	Offset:13	{"table_name":"test_1","id":149}	{"before":null,"after":{"table_name":"test_1","id":149,"data":"bigdata","create_time":"2022-02-18 20:38:46"},"op":"c"}

对应FlinkSQL视图查询到update后的数据：

5.3.3.3 delete语句验证

在mysql中delete该记录：

mysql> delete from test_1 where id=149;

一条delete语句对应产生一条kafka消息。

Partition:3	Offset:14	{"table_name":"test_1","id":149}	{"before":{"table_name":"test_1","id":149,"data":"bigdata","create_time":"2022-02-18 20:38:46"},"after":null,"op":"d"}

FlinkSQL视图中数据被删除。

5.3.4 Kafka sql connector应用总结

行为	create	update	delete
source	读取c记录	读取到2条记录，合并为最新镜像	删除1条记录
sink	产生1条c记录	产生2条记录，c-d	产生1条d记录

六、Upsert Kafka connector

6.1 使用特点

Upsert Kafka connector 允许以 upsert 方式从 Kafka topic中读取或写入数据。

在upsert模式中，变量日志流中，所有的insert、update、delete事件都可以理解为update事件，任一事件发生时，对应记录的所有字段值都会更新为最新的值，delete视为将值更新为null。将数据写入kafka的时候，数据会按key进行分区，确保相同的key都会以相同的顺序进入到相同的分区。

6.2 配置

Upsert kafka connector配置与kafka connector的大致相同，两个关键的新增的配置如下：

sink.buffer-flush.max-rows，每次发送前最大的缓存记录数。缓存时，相同的key将会保留最新的记录。这样可以减少发送给kafka的数据，减少io shuffle。默认值为0，即不开启。配置时应与sink.buffer-flush.interval一起配置，配置值不可为负数。
sink.buffer-flush.interval，缓存刷新的时间间隔，超过配置的时间间隔后，将会发送一次数据。

6.3 Upsert kafka connector应用

6.3.1 Upsert kafka sql table ddl

  Flink SQL> create table upsert_kafka_test_2(
  table_name String,
  id bigint,
  data String,
  create_time Timestamp(3),
  PRIMARY KEY (`table_name`,`id`) NOT ENFORCED
  ) with (
  'connector'='upsert-kafka',
   'properties.bootstrap.servers' = 'broker:9092',
  'topic'='test2',
  'key.format'='json',
  'value.format'='json'
  );

6.3.2 启动Flink upsert kafka connector作业

6.3.2.1启动sink kafka作业

Flink SQL> set execution.checkpointing.interval=30sec;
Flink SQL> set pipeline.name = flinkcdc_upsert_kafka_test_1;
Flink SQL> insert into upsert_kafka_test_2 select * from mysql_test_1;

6.3.2.1 启动source kafka作业

Flink SQL>select * from upsert_kafka_test_2;

6.3.3 Kafka消息验证

6.3.3.1 insert语句验证

执行一条insert语句：

mysql> insert into test_1 values(151,'data','2022-02-21 10:31:55');

kafka consumer查看消息，收到的消息体就是按表ddl字段组织成的json。

Partition:1	Offset:152	{"table_name":"test_1","id":151}	{"table_name":"test_1","id":151,"data":"data","create_time":"2022-02-21 10:31:55"}

在FlinkSql client中直接新增数据：

6.3.3.2 update语句验证

在mysql中执行一条update：

mysql> update test_1 set data='bigdata' where id=151;

在kafka中收到一条更新数据，一条json里包含所有字段的最新值：

Partition:1	Offset:153	{"table_name":"test_1","id":151}	{"table_name":"test_1","id":151,"data":"bigdata","create_time":"2022-02-21 10:48:36"}

FlinkSQL client展示了更新后的数据：

6.3.3.3 delete语句验证

在mysql中执行一条delete语句：

mysql> delete from test_1 where id=151;

在kafka consumer中收到一条delete消息，消息的key为定义的主键，消息体为“null”。

Partition:1	Offset:154	{"table_name":"test_1","id":151}	null

在FlinkSQL client中对应的记录被删除：

6.3.4 Upsert kafka connector应用总结

Upsert kafka的增改时，消息体是表定义的ddl字段，以value.format定义的格式组织。删除时，消息体是null字符串。与Kafka connector不同的是，update只生产了一条记录。

行为	create	update	delete
source	读到key+数据json	读到key+数据json	读到key+null字符
sink	产生key+数据json	产生key+数据json	产生key+null字符

七、总结

至此，我们详细介绍了flink sql kafka的两个connector，对其配置、特征与应用。就我们观察到的现象而言，这两种connector适用于哪种场景吗？

Kafka sql connector提供常规的kafka生产与消费行为，适用于大部分应用场景。对于日志变更流，如果关心数据是如何变化的，可以选择Kafka sql connector。
Upsert Kafka sql connector提供的是upsert模式的生产与消费，适用于有数据更新合并，但只关心结果状态，不关心过程变化的应用。Upsert kafka开启buff后还能进一步减少数据量，减轻shuffle的压力。

至此，我们完成Flink kafka connector的学习，相信读者已经可以根据自己的业务场景灵活进行应用。下一节我们讲如何在FlinkSql中实现多路输出，敬请期待！

docker创建的mysql没有配置文件_使用docker安装mysql, redis, kafka等各类服务 Gyrolt
前言大致说来,docker的作用如下绝大部分应用，开发者都可以通过dockerbuild创建镜像，通过dockerpush上传镜像，用户通过dockerpull下载镜像，用dockerrun运行应用。用户不需要再去关心如何搭建环境，如何安装，如何解决不同发行版的库冲突——而且通常不会需要消耗更多的硬件资源，不会明显降低性能。也就是实现了标准化、集装箱如果想要简单使用,可以看答主的这一片文章:番茄番
Orange 单体架构 - 快速启动 mmd0308 Orange 开源项目架构开源
1后端服务1.1基础设施组件说明版本MySQLMySQL数据库服务5.7/8+JavaJava17redis-stackRedis向量数据库最新版本Node安装Node22.11.0+1.2orange-dependencies-parent项目Maven依赖版本管理1.2.1项目克隆GitHubgitclonehttps://github.com/hengzq/orange-dependenci
深夜惊魂：当监控告警“撒谎”时，SRE 如何逆风翻盘？ YAMLMaster kubernetes 运维开发 devops 容器云原生
Yorkshire,England引言我们这一篇也是含金量十足，如果面试官让你说个你处理过的比较有意思的案例，可以跟他讲讲，让他也见见世面。好吧，我们直接开始，最后有相关的群，有兴趣可以加入。开始一、故障场景深度还原时间：2025年1月3日02:00（GMT+8）环境：•数据库集群：MySQL8.0.35，通过KubeBlocks部署（3节点，跨AZ）•监控架构：•Prometheus-Opera
Linux------Redis(软件安装，Linux下和Windows下)，NoSQL（简单了解） .墨迹. Linux redis 大数据 java
文章目录NoSql1.历史1.单机MySql2.Memcached(缓存)+MySql+垂直拆分(读写分离)3.分库分表+水平拆分+MySql集群4.如今最近的年代5.为什么要使用NoSQL2.什么是NoSQL1.NOSQL2.特点3.3v+3高3.NoSQL的四大分类1.kv键值对：2.文档型数据库（bson和json一样）：3.列存储数据库：4.图关系型数据库Redis1.初始redis1.简
MySQL密码修改的全部方式一篇详解 1加1等于 MySQL mysql 数据库
本文将详细介绍多种修改MySQL密码的方式。本文目录一、alteruser语句操作步骤二、setpassword操作步骤三、直接修改mysql.user表操作步骤一、alteruser语句当你以root用户或者拥有足够权限的用户登录MySQL时，可以使用ALTERUSER语句来修改密码。这种方式适用于MySQL5.7及以上版本，简单直接，且符合MySQL的标准操作规范。操作步骤首先，使用以下命令登
mysql的数据如何进kafka_MySQL数据实时增量同步到Kafka IT巫师
一、go-mysql-transfergo-mysql-transfer是一款MySQL实时、增量数据同步工具。能够实时解析MySQL二进制日志binlog，并生成指定格式的消息，同步到接收端。go-mysql-transfer具有如下特点：1、不依赖其它组件，一键部署2、集成多种接收端，如：Redis、MongoDB、Elasticsearch、RabbitMQ、Kafka、RocketMQ，不
StarRocks中优雅处理JSON与列表字段的初步示例 t.y.Tang 数据库 mysql json
StarRocks是一种兼容MySQL语法,自带对JSON,ARRAY等格式支持的数据库.文章目录一StarRocks是什么？与MySQL有何关系？二JSON格式的好处三JSON数组字段的应用和缺点四实例:StarRocks处理JSON数组的方法示例表结构场景1:筛选包含特定事件的用户场景2:提取数组中的嵌套字段场景3:展开数组为多行(UNNEST)场景4:复杂条件过滤(结合`$`索引)五,性能优
微服务即时通信系统---（五）框架学习 YangZ123123 微服务即时通信系统学习微服务算法
目录ODB介绍安装build2安装odb-compiler安装ODB运行时库安装mysql和客户端开发包安装boostprofile库安装总体打包安装总体卸载总体升级头文件包含和编译时指明库ODB常见操作介绍类型映射ODB编程类与接口介绍mysql连接池对象类mysql客户端操作句柄类mysql事务操作类针对可能为空的字段封装的类似于智能指针的类型针对查询结果所封装的容器类和条件类mysql操作句
debian(ubuntu) 系统 vsftpd 配置虚拟帐号 eli960 LINUX vsftpd ftp
首先说明帐号的认证通过pam认证方式,采用pam的mysql插件.安装libpam-mysql和vsftpdapt-getinstalllibpam-mysqlapt-getinstallvsftpdmysql的库,表,字段,假设如下:库名DBV表名TB字段USER和PASSWORD数据库的帐号密码DBUSERDBPASSWROD/etc/pam.d/vsftpd的内容如下authrequired
序列器自增ID跳跃问题南天神杵孟猛数据库
在MySQL中，使用表作为序列器，通过执行`INSERTINTOtable(id)VALUES(null)`后，再调用`SELECTLAST_INSERT_ID()`来获取自动生成的ID，通常情况下，ID会从1开始递增。但如果出现从1,2,3,4直接跳到100000001这样的情况，可能的原因包括：####表被重建或导入数据-如果表被删除后重建，或者从备份中导入了数据，自增计数器可能会被重置为导入
PHP框架为基础的购物平台设计思路分步骤说明星糖曙光后端语言（node javascript vue等等）学习课程设计 vue.js python php
以下是以PHP框架为基础的购物平台设计思路分步骤说明：一、技术选型阶段技术栈={后端框架：Laravel/Yii2（提供ORM、路由、中间件支持）前端框架：Vue.js/React（可选SPA方案）数据库：MySQL8.0+（事务型数据存储）缓存：Redis（会话/商品缓存）队列：RabbitMQ（异步处理订单）\text{技术栈}=\begin{cases}后端框架：Laravel/Yii2（提
C++在线OJ负载均衡项目平凡的小y c++开发语言
1.演示项目项目源码链接：2.项目所用技术和开发环境所用技术C++STL标准库Boost准标准库(字符串切割)cpp-httplib第三方开源网络库ctemplate第三方开源前端网页渲染库jsoncpp第三方开源序列化、反序列化库负载均衡设计MySQLCconnectAce前端在线编辑器html/css/js/jquery/ajax开发环境Ubuntu云服务器vscodeMysqlWorkben
夜莺[n9e] v6 中心机房部署 DuanHao_ prometheus
文章目录夜莺v6中心机房部署n9e监控服务VictoriaMetrics时序数据库Categraf采集器夜莺v6中心机房部署n9e监控服务项目介绍-快猫星云(flashcat.cloud)IP：192.168.*.*端口：17000安装部署安装路径192.168.*.*/opt/n9eMysql:存放配置类别信息，如用户，监控大盘，告警规则等Redis:存放访问令牌(JWTToken)，心跳信息，
基于JAVA中的spring框架和jsp实现自然灾害论坛平台项目【附项目源码+论文说明】大雄是个程序员项目实践自然灾害论坛平台 java 项目源码 spring 毕业设计课程设计网页设计
摘要在上个世纪末期，也就是20世纪末，随着计算机技术的发展与进步和数据库方面的知识在互联网的大力运用，互联网技术以及网站技术在网上的大力推广，网上论坛（自然灾害论坛）也逐渐在网兴起，它的出现帮助了网上各种特定的群体进行一个在线的知识传递与信息的交流。本计算机自然灾害论坛设计，采用了JSP（JAVA）技术和MYSQL数据库开发，尝试实现了自然灾害论坛的基本功能以及帮助我们掌握了论坛技术的核心特点。该
Java架构师成长之路 hweiyu00 分享 spring 微服务 spring cloud java
概述本教程主要从6个方面，全面讲解Java技术栈的知识。1.性能调优深入理解MySQL底层原理、索引逻辑，数据结构与算法。使用Explain进行优化分析MVCC原理剖析日志机制解析2.框架源码掌握Spring底层原理带你手写一个Spring解析IOC、AOP源码、以及事务原理3.并发编程剖析Java底层锁机制CAS、JUC工具使用、AQS源码分析以及并发的集合类的讲解4.分布式开发剖析分布式中使用
binlog和redolog 重生之我在成电转码 java mysql 日志
好的！这两个是MySQL面试核心知识点，下面详细解释：✅一、概念区分内容binlog（归档日志）redolog（重做日志）属于MySQL层（Server层）InnoDB存储引擎层作用记录所有修改数据库的数据操作（逻辑日志）保障事务的持久性（崩溃后可恢复数据）存储内容SQL语句或事件（INSERT、UPDATE、DELETE）物理页修改（物理日志）写入时机执行完SQL后写入执行SQL时先写入落盘时机
spark explain如何使用 fzip Spark spark 执行计划
在Spark中，explain是分析SQL或DataFrame执行计划的核心工具，通过不同模式可展示查询优化和执行的详细信息，默认情况下，这个语句只提供关于物理计划的信息。以下是具体使用方法及不同模式的作用：1.explain的基本语法在Spark3.0及以上版本，explain支持多种模式参数，通过mode指定输出格式：#DataFrame调用方式df.explain(mode="simple"
Flink sql-clinet 查询报错 lhfmqc sql-clinet 运行问题查询报错 flink
Flinksql-clinet查询报错运行后进行select'helloworld’报以下错误，couldnotexecutesqlstatementjava.net.NoRouteToHostException:Noroutetohost在关闭防火墙之后仍无法解决这个时候你需要进入flinkconf配置中查看flink-conf.yaml文件，查看jobmanager.rpc.address该地
【Spark】查询优化中分区（Partitioning）和分桶（Bucketing）是什么关系？什么时候应当分区，什么时候应当分桶？ petrel2015 spark 大数据分布式数据库
在学习Spark的过程中，分区和分桶乍一看很像，都能为了计算加速，但是仔细一想，一查还是有些差异的，甚至说差异很大。那么具体有什么差异点，有什么相同点。我做出了如下的整理，供大家参考，欢迎指正。相同点分区（Partitioning）和分桶（Bucketing）在很多方面具有相似性，它们都是用于优化大数据查询性能的技术数据划分的目的：优化查询性能分区和分桶的核心目标是通过将数据分割成更小的逻辑单元来
不神话大模型，不做技术乌托邦，用"传统IT+AI积木"实现企业智能转型人工智能
一、开篇：AI革命的务实辩证法在技术狂热与落地鸿沟并存的AI时代，灵燕智能体开发平台提出"三轮驱动法则"：•不颠覆的智慧：MySQL、知识图谱库、MQ等传统中间件构成数字地基•不空想的创新：大模型仅承担"认知苦力"，在人类设计的思考链中定向发力•不取巧的工程：通过D2R映射、低代码工具、元数据治理实现可落地的智能装配二、核心价值：智能开发的工业流水线技术要素原子化拆解将复杂需求分解为可执行的"技术
pyspark学习rdd处理数据方法——学习记录亭午学习
python黑马程序员"""文件，按JSON字符串存储1.城市按销售额排名2.全部城市有哪些商品类别在售卖3.上海市有哪些商品类别在售卖"""frompysparkimportSparkConf,SparkContextimportosimportjsonos.environ['PYSPARK_PYTHON']=r"D:\anaconda\envs\py10\python.exe"#创建Spark
基于 MySQL 和 Spring Boot 的在线论坛管理系统设计与实现城南|阿洋-计算机从小白到大神 mysql spring boot 数据库
markdownCopy✌全网粉丝20W+,csdn特邀作者、博客专家、CSDN[新星计划]导师、java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、pyhton、机器学习技术领域和毕业项目实战✌哈喽兄弟们，好久不见哦～最近整理了一下之前写过的一些小项目/毕业设计。发现还是有很多存货的，想一想既然放在电脑里面也吃灰，那么还不如分享出去，没准还可以帮助到
SQL自学：怎么创建视图 m0_74823471 面试学习路线阿里巴巴 sql 数据库
在SQL中，视图是一种虚拟表，它是基于一个或多个表的查询结果集。视图并不实际存储数据，而是在每次查询时动态生成结果。一、创建视图的语法（以MySQL为例）CREATEVIEWview_nameASSELECTcolumn1,column2,...FROMtable_nameWHEREcondition;view_name：是要创建的视图的名称。column1,column2,...：要在视图中显示
pythontype函数使用_Python astype(np.float)函数使用方法解析 weixin_39870238 pythontype函数使用
Pythonastype(np.float)函数使用方法解析我的数据库如图结构我取了其中的nameagenr，做成array，只要所取数据存在str型，那么取出的数据，全部转化为str型，也就是array阵列的元素全是str，不管数据库定义的是不是int型。那么问题来了，取出的数据代入公式进行计算的时候，就会类型不符，这是就用到astype(np.float)代码如下importpymysqlim
如何安全删除MySQL字段？从原理到实战的保姆级指南！小丁学Java 产品资质管理系统安全 mysql 数据库
从MyISAM到InnoDB：解锁MySQL在线删除字段的终极指南真实案例：一次失败的DDL操作引发的思考场景复现：某业务表invite_codes需要删除invitor字段，执行以下命令时触发报错：ALTERTABLEinvite_codesDROPCOLUMNinvitor,ALGORITHM=INPLACE;--报错信息：ALGORITHM=INPLACEisnotsupportedfort
数据湖Iceberg、Hudi和Paimon比较_数据湖框架对比(1) 2301_79098963 程序员知识图谱人工智能
4.Schema变更支持对比项ApacheIcebergApacheHudiApachePaimonSchemaEvolutionALLback-compatibleback-compatibleSelf-definedschemaobjectYESNO(spark-schema)NO（我理解，不准确）SchemaEvolution：指schema变更的支持情况，我的理解是hudi仅支持添加可选列
mysql与mariadb版本对应_MySQL与MariaDB及各种版本杂谈 weixin_39616416
MySQL1.MySQLCommunityServer社区版本，开源免费，但不提供官方技术支持。(我们通常使用的MySQL版本)2.MySQLEnterpriseEdition企业版本，需付费，可以试用30天。3.MySQLCluster集群版，开源免费。可将几个MySQLServer封装成一个Server。4.MySQLClusterCGE高级集群版，需付费。5.MySQLWorkbench(G
【Docker系列四】Docker 网络 Kwan的解忧杂货铺@新空间代码工作室 s4 Docker系列 docker 网络容器
欢迎来到我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。推荐:kwan的首页,持续学习,不断总结,共同进步,活到老学到老导航檀越剑指大厂系列:全面总结java核心技术,jvm,并发编程redis,kafka,Spring,微服务等常用开发工具系列:常用的开发工具,IDEA,Mac,Alfred,Git,
MariaDB 和 MySQL 版本关联 java我跟你拼了数据库笔记 mariadb mysql 数据库数据库篇版本关联
MariaDB和MySQL是两个常用的关系型数据库管理系统（RDBMS），它们在很多方面非常相似，因为MariaDB是MySQL的一个分支。MariaDB和MySQL之间的版本关联可以通过以下几个方面来理解：1.历史背景MySQL:MySQL是一个开源的数据库管理系统，由MySQLAB开发，后来被SunMicrosystems收购，再之后被Oracle收购。MariaDB:MariaDB是MySQ
因为mysql 8新的认证插件导致主从复制的IO线程失败库海无涯 mysql
1、错误信息Last_IO_Error:errorconnectingtomaster'[email protected]:3306'-retry-time:60retries:1message:Authenticationplugin'caching_sha2_password'reportederror:Authenticationrequiressecureconnection.2、
JVM StackMapTable 属性的作用及理解 lijingyao8206 jvm 字节码 Class文件 StackMapTable
在Java 6版本之后JVM引入了栈图(Stack Map Table)概念。为了提高验证过程的效率，在字节码规范中添加了Stack Map Table属性，以下简称栈图，其方法的code属性中存储了局部变量和操作数的类型验证以及字节码的偏移量。也就是一个method需要且仅对应一个Stack Map Table。在Java 7版
回调函数调用方法百合不是茶 java
最近在看大神写的代码时,.发现其中使用了很多的回调 ,以前只是在学习的时候经常用到 ,现在写个笔记记录一下代码很简单: MainDemo :调用方法得到方法的返回结果
[时间机器]制造时间机器需要一些材料 comsci 制造
根据我的计算和推测,要完全实现制造一台时间机器,需要某些我们这个世界不存在的物质和材料... 甚至可以这样说,这种材料和物质,我们在反应堆中也无法获得......
开口埋怨不如闭口做事邓集海邓集海做人做事工作
“开口埋怨，不如闭口做事。”不是名人名言，而是一个普通父亲对儿子的训导。但是，因为这句训导，这位普通父亲却造就了一个名人儿子。这位普通父亲造就的名人儿子，叫张明正。　　　　张明正出身贫寒，读书时成绩差，常挨老师批评。高中毕业，张明正连普通大学的分数线都没上。高考成绩出来后，平时开口怨这怨那的张明正，不从自身找原因，而是不停地埋怨自己家庭条件不好、埋怨父母没有给他创造良好的学习环境。　　　　
jQuery插件开发全解析，类级别与对象级别开发 IT独行者 jquery 开发插件　函数
jQuery插件的开发包括两种：一种是类级别的插件开发，即给 jQuery添加新的全局函数，相当于给 jQuery类本身添加方法。 jQuery的全局函数就是属于 jQuery命名空间的函数，另一种是对象级别的插件开发，即给 jQuery对象添加方法。下面就两种函数的开发做详细的说明。 1 、类级别的插件开发类级别的插件开发最直接的理解就是给jQuer
Rome解析Rss 413277409 Rome解析Rss
import java.net.URL; import java.util.List; import org.junit.Test; import com.sun.syndication.feed.synd.SyndCategory; import com.sun.syndication.feed.synd.S
RSA加密解密无量加密解密 rsa
RSA加密解密代码代码有待整理 package com.tongbanjie.commons.util; import java.security.Key; import java.security.KeyFactory; import java.security.KeyPair; import java.security.KeyPairGenerat
linux 软件安装遇到的问题 aichenglong linux 遇到的问题 ftp
1 ftp配置中遇到的问题 500 OOPS: cannot change directory 出现该问题的原因:是SELinux安装机制的问题.只要disable SELinux就可以了修改方法:1 修改/etc/selinux/config 中SELINUX=disabled 2 source /etc
面试心得 alafqq 面试
最近面试了好几家公司。记录下；支付宝，面试我的人胖胖的，看着人挺好的；博彦外包的职位，面试失败；阿里金融，面试官人也挺和善，只不过我让他吐血了。。。由于印象比较深，记录下； 1，自我介绍 2，说下八种基本类型；（算上string。楼主才答了3种，哈哈，string其实不是基本类型，是引用类型） 3，什么是包装类，包装类的优点； 4，平时看过什么书？NND，什么书都没看过。。照样
java的多态性探讨百合不是茶 java
java的多态性是指main方法在调用属性的时候类可以对这一属性做出反应的情况 //package 1; class A{ public void test(){ System.out.println("A"); } } class D extends A{ public void test(){ S
网络编程基础篇之JavaScript-学习笔记 bijian1013 JavaScript
1.documentWrite <html> <head> <script language="JavaScript"> document.write("这是电脑网络学校"); document.close(); </script> </h
探索JUnit4扩展：深入Rule bijian1013 JUnit Rule 单元测试
本文将进一步探究Rule的应用，展示如何使用Rule来替代@BeforeClass，@AfterClass，@Before和@After的功能。在上一篇中提到，可以使用Rule替代现有的大部分Runner扩展，而且也不提倡对Runner中的withBefores()，withAfte
[CSS]CSS浮动十五条规则 bit1129 css
这些浮动规则，主要是参考CSS权威指南关于浮动规则的总结，然后添加一些简单的例子以验证和理解这些规则。 1. 所有的页面元素都可以浮动 2. 一个元素浮动后，会成为块级元素，比如<span>,a, strong等都会变成块级元素 3.一个元素左浮动，会向最近的块级父元素的左上角移动，直到浮动元素的左外边界碰到块级父元素的左内边界；如果这个块级父元素已经有浮动元素停靠了
【Kafka六】Kafka Producer和Consumer多Broker、多Partition场景 bit1129 partition
0.Kafka服务器配置 3个broker 1个topic，6个partition，副本因子是2 2个consumer，每个consumer三个线程并发读取 1. Producer package kafka.examples.multibrokers.producers; import java.util.Properties; import java.util.
zabbix_agentd.conf配置文件详解 ronin47 zabbix 配置文件
Aliaskey的别名，例如 Alias=ttlsa.userid:vfs.file.regexp[/etc/passwd,^ttlsa:.:([0-9]+),,,,\1]，或者ttlsa的用户ID。你可以使用key：vfs.file.regexp[/etc/passwd,^ttlsa:.: ([0-9]+),,,,\1]，也可以使用ttlsa.userid。备注: 别名不能重复，但是可以有多个
java--19.用矩阵求Fibonacci数列的第N项 bylijinnan fibonacci
参考了网上的思路，写了个Java版的： public class Fibonacci { final static int[] A={1,1,1,0}; public static void main(String[] args) { int n=7; for(int i=0;i<=n;i++){ int f=fibonac
Netty源码学习-LengthFieldBasedFrameDecoder bylijinnan java netty
先看看LengthFieldBasedFrameDecoder的官方API http://docs.jboss.org/netty/3.1/api/org/jboss/netty/handler/codec/frame/LengthFieldBasedFrameDecoder.html API举例说明了LengthFieldBasedFrameDecoder的解析机制，如下：实
AES加密解密 chicony 加密解密
AES加解密算法，使用Base64做转码以及辅助加密： package com.wintv.common; import javax.crypto.Cipher; import javax.crypto.spec.IvParameterSpec; import javax.crypto.spec.SecretKeySpec; import sun.misc.BASE64Decod
文件编码格式转换 ctrain 编码格式
package com.test; import java.io.File; import java.io.FileInputStream; import java.io.FileOutputStream; import java.io.IOException; import java.io.InputStream; import java.io.OutputStream;
mysql 在linux客户端插入数据中文乱码 daizj mysql 中文乱码
1、查看系统客户端，数据库，连接层的编码查看方法： http://daizj.iteye.com/blog/2174993 进入mysql，通过如下命令查看数据库编码方式： mysql> show variables like 'character_set_%'; +--------------------------+------
好代码是廉价的代码 dcj3sjt126com 程序员读书
长久以来我一直主张：好代码是廉价的代码。当我跟做开发的同事说出这话时，他们的第一反应是一种惊愕，然后是将近一个星期的嘲笑，把它当作一个笑话来讲。当他们走近看我的表情、知道我是认真的时，才收敛一点。当最初的惊愕消退后，他们会用一些这样的话来反驳： “好代码不廉价，好代码是采用经过数十年计算机科学研究和积累得出的最佳实践设计模式和方法论建立起来的精心制作的程序代码。” 我只
Android网络请求库——android-async-http dcj3sjt126com android
在iOS开发中有大名鼎鼎的ASIHttpRequest库，用来处理网络请求操作，今天要介绍的是一个在Android上同样强大的网络请求库android-async-http，目前非常火的应用Instagram和Pinterest的Android版就是用的这个网络请求库。这个网络请求库是基于Apache HttpClient库之上的一个异步网络请求处理库，网络处理均基于Android的非UI线程，通
ORACLE 复习笔记之SQL语句的优化 eksliang SQL优化 Oracle sql语句优化 SQL语句的优化
转载请出自出处：http://eksliang.iteye.com/blog/2097999 SQL语句的优化总结如下 sql语句的优化可以按照如下六个步骤进行：合理使用索引避免或者简化排序消除对大表的扫描避免复杂的通配符匹配调整子查询的性能 EXISTS和IN运算符下面我就按照上面这六个步骤分别进行总结：
浅析：Android 嵌套滑动机制（NestedScrolling） gg163 android 移动开发滑动机制嵌套
谷歌在发布安卓 Lollipop版本之后，为了更好的用户体验，Google为Android的滑动机制提供了NestedScrolling特性 NestedScrolling的特性可以体现在哪里呢？ 比如你使用了Toolbar，下面一个ScrollView，向上滚
使用hovertree菜单作为后台导航 hvt JavaScript jquery .net hovertree asp.net
hovertree是一个jquery菜单插件，官方网址：http://keleyi.com/jq/hovertree/ ，可以登录该网址体验效果。 0.1.3版本：http://keleyi.com/jq/hovertree/demo/demo.0.1.3.htm hovertree插件包含文件： http://keleyi.com/jq/hovertree/css
SVG 教程（二）矩形天梯梦 svg
SVG <rect> SVG Shapes SVG有一些预定义的形状元素，可被开发者使用和操作：矩形 <rect> 圆形 <circle> 椭圆 <ellipse> 线 <line> 折线 <polyline> 多边形 <polygon> 路径 <path>
一个简单的队列 luyulong java 数据结构队列
public class MyQueue { private long[] arr; private int front; private int end; // 有效数据的大小 private int elements; public MyQueue() { arr = new long[10]; elements = 0; front
基础数据结构和算法九：Binary Search Tree sunwinner Algorithm
A binary search tree (BST) is a binary tree where each node has a Comparable key (and an associated value) and satisfies the restriction that the key in any node is larger than the keys in all
项目出现的一些问题和体会 Steven-Walker DAO Web servlet
第一篇博客不知道要写点什么，就先来点近阶段的感悟吧。这几天学了servlet和数据库等知识，就参照老方的视频写了一个简单的增删改查的，完成了最简单的一些功能，使用了三层架构。 dao层完成的是对数据库具体的功能实现，service层调用了dao层的实现方法，具体对servlet提供支持。 &
高手问答：Java老A带你全面提升Java单兵作战能力！ ITeye管理员 java
本期特邀《Java特种兵》作者：谢宇，CSDN论坛ID: xieyuooo 针对JAVA问题给予大家解答，欢迎网友积极提问，与专家一起讨论! 作者简介：淘宝网资深Java工程师，CSDN超人气博主，人称“胖哥”。 CSDN博客地址： http://blog.csdn.net/xieyuooo 作者在进入大学前是一个不折不扣的计算机白痴，曾经被人笑话过不懂鼠标是什么，