浪尖聊大数据-浪尖

基于Apache Hudi构建智能湖仓实践（附亚马逊工程师代码）

本文来源于网络，如有侵权，联系浪尖删除：langjianliaodashuju

转自：hudi

数据仓库的数据体系严格、治理容易，业务规模越大，ROI 越高；数据湖的数据种类丰富，治理困难，业务规模越大，ROI 越低，但胜在灵活。

现在，鱼和熊掌我都想要，应该怎么办？湖仓一体架构就在这种情况下，快速在产业内普及。

要构建湖仓一体架构并不容易，需要解决非常多的数据问题。比如，计算层、存储层、异构集群层都要打通，对元数据要进行统一的管理和治理。对于很多业内技术团队而言，已经是个比较大的挑战。

可即便如此，在亚马逊云科技技术专家潘超看来，也未必最能贴合企业级大数据处理的最新理念。在 11 月 18 日晚上 20：00 的直播中，潘超详细分享了亚马逊云科技眼中的智能湖仓架构，以及以流式数据接入为主的最佳实践。

1现代化数据平台架构的关键指标

传统湖仓一体架构的不足之处是，着重解决点的问题，也就是“湖”和“仓”的打通，而忽视了面的问题：数据在整个数据平台的自由流转。

潘超认为，现代数据平台架构应该具有几个关键特征：

以任何规模来存储数据；
在整套架构涉及的所有产品体系中，获得最佳性价比；
实现无缝的数据访问，实现数据的自由流动；
实现数据的统一治理；
用 AI/ML 解决业务难题；

在构建企业级现代数据平台架构时，这五个关键特征，实质上覆盖了三方视角 ——

对于架构师而言，第一点和第二点值得引起注意。前者是迁移上云的一大核心诉求，后者是架构评审一定会过问的核心事项；

对于开发者而言，第三点和第四点尤为重要，对元数据的管理最重要实现的是数据在整个系统内的自由流动和访问，而不仅仅是打通数据湖和数据仓库；

对于产品经理而言，第五点点明了当下大数据平台的价值导向，即数据的收集和治理，应以解决业务问题为目标。

为了方便理解，也方便通过 Demo 演示，潘超将这套架构体系，同等替换为了亚马逊云科技现有产品体系，包括：Amazon Athena、Amazon Aurora 、Amazon MSK、Amazon EMR 等，而流式数据入湖，重点涉及 Amazon MSK、Amazon EMR，以及另一个核心服务：Apache Hudi。

2Amazon MSK 的扩展能力与最佳实践

Amazon MSK 是亚马逊托管的高可用、强安全的 Kafka 服务，是数据分析领域，负责消息传递的基础，也因此在流式数据入湖部分举足轻重。

之所以以 Amazon MSK 举例，而不是修改 Kafka 代码直接构建这套系统，是为了最大程度将开发者的注意力聚焦于流式应用本身，而不是管理和维护基础设施。况且，一旦你决定从头构建 PaaS 层基础设施，涉及到的工作就不仅仅是拉起一套 Kafka 集群了。一张图可以很形象地反映这个问题：

这张图从左至右，依次为不使用任何云服务的工作列表，使用 EC2 的工作列表，以及使用 MSK 的工作列表，工作量和 ROI 高下立现。

而对于 MSK 来说，扩展能力是其重要特性。MSK 可以自动扩容，也可以手动 API 扩容。但如果对自己的“动手能力”没有充足的信心，建议选择自动扩容。

Amazon MSK 的自动扩容可以根据存储利用率来设定阈值，建议设定 50%-60%。自动扩容每次扩展 Max(10GB,10%* 集群存储空间)，同时自动扩展每次有6 个小时的冷却时间。一次如果一次需要扩容更大的容量，可以使用手动扩容。

这种扩容既包括横向扩容 —— 通过 API 或者控制台向集群添加新的 Brokers，期间不会影响集群的可用性，也包括纵向扩容 —— 调整集群 Broker 节点的 EC2 实例类型。

但无论是自动还是手动，是横向还是纵向，前提都是你已经做好了磁盘监控，可以使用 CloudWatch 云监控集成的监控服务，也可以在 MSK 里勾选其他的监控服务 (Prometheus)，最终监控结果都能可视化显示。

需要注意的是，MSK 集群增加 Broker，每个旧 Topic 的分区如果想重分配，需要手动执行。重分配的时候，会带来额外的带宽，有可能会影响业务，所以可以通过一些参数控制 Broker 间流量带宽，防止过程当中对业务造成太大的影响。当然像 Cruise 一样的开源工具，也可以多多用起来。Cruise 是做大规模集群的管理的 MSK 工具，它可以帮你做 Broker 间负载的 Re-balance 。

关于 MSK 集群的高可用，有三点需要注意：

对于两 AZ 部署的集群，副本因子至少保证为 3。如果只有 1，那么当集群滚动升级的时候，就不能对外提供服务了；
最小的 ISR（in-sync replicas）最多设置为 RF - 1，不然也会影响集群的滚动升级；
当客户端连接 Broker 节点时，虽然配置一个 Broker 节点的连接地址就可以，但还是建议配置多个。MSK 故障节点自动替换以及在滚动升级的过程中，如果客户端只配备了一个 Broker 节点，可能会链接超时。如果配置了多个，还可以重试连接。

在 CPU 层面，CloudWatch 里有两个关于 MSK 的指标值得注意，一个是 CpuSystem，另一个是 CpuUser，推荐保持在 60% 以下，这样在 MSK 升级维护时，都有足够的 CPU 资源可用。

如果 CPU 利用率过高，触发报警，则可以通过以下几种方式来扩展 MSK 集群：

垂直扩展，通过滚动升级进行替换。每个 Broker 的替换大概需要 10-15 分钟的时间。当然，是否替换集群内所有机器，要根据实际情况做选择，以免造成资源浪费；
横向拓展，Topic 增加分区数；
添加 Broker 到集群，之前创建的 Topic 进行 reassign Partitions，重分配会消耗集群资源，当然这是可控的。

最后，关于 ACK 参数的设置也值得注意，ACK = 2 意味着在生产者发送消息后，等到所有副本都接收到消息，才返回成功。这虽然保证了消息的可靠性，但吞吐率最低。比如日志类数据，参考业务具体情况，就可以酌情设置 ACK = 1，容忍数据丢失的可能，但大幅提高了吞吐率。

3Amazon EMR 存算分离及资源动态扩缩

Amazon EMR 是托管的 Hadoop 生态，常用的 Hadoop 组件在 EMR 上都会有，但是 EMR 核心特征有两点，一是存算分离，二是资源动态扩缩。

在大数据领域，存算分离概念的热度，不下于流批一体、湖仓一体。以亚马逊云科技产品栈为例，实现存算分离后，数据是在 S3 上存储，EMR 只是一个计算集群，是一个无状态的数据。而数据与元数据都在外部，集群简化为无状态的计算资源，用的时候打开，不用的时候关闭就可以。

举个例子，凌晨 1 点到 5 点，大批 ETL 作业，开启集群。其他时间则完全不用开启集群。用时开启，不用关闭，对于上云企业而言，交服务费就像交电费，格外节省。

而资源的动态扩缩主要是指根据不同的工作负载，动态扩充节点，按使用量计费。但如果数据是在 HDFS 上做存算分离与动态扩缩，就不太容易操作了，扩缩容如果附带 DataNote 数据，就会引发数据的 Re-balance，非常影响效率。如果单独扩展 NodeManager，在云下的场景，资源不再是弹性的，集群也一般是预制好的，与云上有本质区别。

EMR 有三类节点，第一类是 Master 主节点，部署着 Resource Manager 等服务；Core 核心节点，有 DataNote，NodeManager, 依然可以选用 HDFS；第三类是任务节点，运行着 EMR 的 NodeManager 服务，是一个计算节点。所以，EMR 的扩缩，在于核心节点与任务节点的扩缩，可以根据 YARN 上 Application 的个数、CPU 的利用率等指标配置扩缩策略。也可以使用 EMR 提供 Managed Scaling 策略其内置了智能算法来实现自动扩缩，也是推荐的方式，对开发者而言是无感的。

4EMR Flink Hudi 构建数据湖及 CDC 同步方案

那么应该如何利用 MSK 和 EMR 做数据湖的入湖呢？其详细架构图如下，分作六步详解：

图中标号 1：日志数据和业务数据发送⾄MSK(Kafka)，通过 Flink(TableAPI) 建立Kafka 表，消费 Kafka 数据，Hive Metastore 存储 Schema；

图中标号 2：RDS(MySQL) 中的数据通过 Flink CDC(flink-cdc-connector) 直接消费 Binlog 数据，⽆需搭建其他消费 Binlog 的服务 (⽐如 Canal,Debezium)。注意使⽤flink-cdc-connector 的 2.x 版本，⽀持parallel reading, lock-free and checkpoint feature；

图中标号 3：使用Flink Hudi Connector, 将数据写⼊Hudi(S3) 表, 对于⽆需 Update 的数据使⽤Insert 模式写⼊，对于需要 Update 的数据 (业务数据和 CDC 数据) 使用Upsert 模式写⼊；

图中标号 4：使用Presto 作为查询引擎，对外提供查询服务。此条数据链路的延迟取决于入Hudi 的延迟及 Presto 查询的延迟，总体在分钟级别；

图中标号 5：对于需要秒级别延迟的指标，直接在 Flink 引擎中做计算，计算结果输出到 RDS 或者 KV 数据库，对外提供 API 查询服务；

图中标号 6：使用QuickSight 做数据可视化，支持多种数据源接入。

当然，在具体的实践过程中，仍需要开发者对数据湖方案有足够的了解，才能切合场景选择合适的调参配置。

Q/A 问答

1. 如何从 Apache Kafka 迁移至 Amazon MSK？

MSK 托管的是 Apache Kafka，其 API 是完全兼容的，业务应用代码不需要调整，更换为 MSK 的链接地址即可。如果已有的 Kafka 集群数据要迁移到 MSK，可以使用 MirrorMaker2 做数据同步，然后切换应用链接地址即可。

参考文档：

https://docs.aws.amazon.com/msk/latest/developerguide/migration.htmlhttps://d1.awsstatic.com/whitepapers/amazon-msk-migration-guide.pdf?did=wp_card&trk=wp_card

2. MSK 支持 schema registry 吗？

MSK 支持 Schema Registry, 不仅支持使用 AWS Glue 作为 Schema Registry, 还支持第三方的比如 confluent-schema-registry

3.MySQL cdc 到 hudi 的延迟如何？

总体来讲是分钟级别延迟。和数据量，选择的 Hudi 表类型，计算资源都有关系。

4. Amazon EMR 比标准 Apache Spark 快多少？

Amazon EMR 比标准 Apache Spark 快 3 倍以上。

Amazon EMR 在 Spark3.0 上比开源 Spark 快 1.7 倍，在 TPC-DS 3TB 数据的测试。
参见：
https://aws.amazon.com/cn/blogs/big-data/run-apache-spark-3-0-workloads-1-7-times-faster-with-amazon-emr-runtime-for-apache-spark/
Amazon EMR 在 Spark 2.x 上比开源 Spark 快 2~3 倍以上
Amazon Presto 比开源的 PrestoDB 快 2.6 倍。
参见：
https://aws.amazon.com/cn/blogs/big-data/amazon-emr-introduces-emr-runtime-for-prestodb-which-provides-a-2-6-times-speedup/

5. 智能湖仓和湖仓一体的区别是什么？

这在本次分享中的现代化数据平台建设和 Amazon 的智能湖仓架构图中都有所体现，Amazon 的智能湖仓架构灵活扩展，安全可靠 ; 专门构建，极致性能 ; 数据融合，统一治理 ; 敏捷分析，深度智能 ; 拥抱开源，开发共赢。湖仓一体只是开始，智能湖仓才是终极。

5附录：操作代码实施

1. 创建 EMR 集群

log_uri="s3://*****/emr/log/"
key_name="****"
jdbc="jdbc:mysql:\/\/*****.ap-southeast-1.rds.amazonaws.com:3306\/hive_metadata_01?
createDatabaseIfNotExist=true"
cluster_name="tech-talk-001"


aws emr create-cluster \
--termination-protected \
--region ap-southeast-1 \
--applications Name=Hadoop Name=Hive Name=Flink Name=Tez Name=Spark
Name=JupyterEnterpriseGateway Name=Presto Name=HCatalog \
--scale-down-behavior TERMINATE_AT_TASK_COMPLETION \
--release-label emr-6.4.0 \
--ebs-root-volume-size 50 \
--service-role EMR_DefaultRole \
--enable-debugging \
--instance-groups InstanceGroupType=MASTER,InstanceCount=1,InstanceType=m5.xlarge
InstanceGroupType=CORE,InstanceCount=2,InstanceType=m5.xlarge \
--managed-scaling-policy
ComputeLimits='{MinimumCapacityUnits=2,MaximumCapacityUnits=5,MaximumOnDemandCapacityUnits=2,Ma
ximumCoreCapacityUnits=2,UnitType=Instances}' \
--name "${cluster_name}" \
--log-uri "${log_uri}" \
--ec2-attributes '{"KeyName":"'${key_name}'","SubnetId":"subnet-
0f79e4471cfa74ced","InstanceProfile":"EMR_EC2_DefaultRole"}' \
--configurations '[{"Classification": "hive-site","Properties":
{"javax.jdo.option.ConnectionURL": "'${jdbc}'","javax.jdo.option.ConnectionDriverName":
"org.mariadb.jdbc.Driver","javax.jdo.option.ConnectionUserName":
"admin","javax.jdo.option.ConnectionPassword": "xxxxxx"}}]'

2. 创建 MSK 集群

# MSK集群创建可以通过CLI, 也可以通过Console创建
# 下载kafka,创建topic写⼊数据
wget https://dlcdn.apache.org/kafka/2.6.2/kafka_2.12-2.6.2.tgz
# msk zk地址，broker 地址
zk_servers=*****.c3.kafka.ap-southeast-1.amazonaws.com:2181
bootstrap_server=******.5ybaio.c3.kafka.ap-southeast-1.amazonaws.com:9092
topic=tech-talk-001
# 创建tech-talk-001 topic
./bin/kafka-topics.sh --create --zookeeper ${zk_servers} --replication-factor 2 --partitions 4
--topic ${topic}
# 写⼊消息
./bin/kafka-console-producer.sh --bootstrap-server ${bootstrap_server} --topic ${topic}
{"id":"1","name":"customer"}
{"id":"2","name":"aws"}
# 消费消息
./bin/kafka-console-consumer.sh --bootstrap-server ${bootstrap_server} --topic ${topic}

3.EMR 启动 Flink

# 启动flink on yarn session cluster
# 下载kafka connector
sudo wget -P /usr/lib/flink/lib/ https://repo1.maven.org/maven2/org/apache/flink/flink-sql?
connector-kafka_2.12/1.13.1/flink-sql-connector-kafka_2.12-1.13.1.jar && sudo chown flink:flink
/usr/lib/flink/lib/flink-sql-connector-kafka_2.12-1.13.1.jar
# hudi-flink-bundle 0.10.0
sudo wget -P /usr/lib/flink/lib/ https://dxs9dnjebzm6y.cloudfront.net/tmp/hudi-flink?
bundle_2.12-0.10.0-SNAPSHOT.jar && sudo chown flink:flink /usr/lib/flink/lib/hudi-flink?
bundle_2.12-0.10.0-SNAPSHOT.jar
# 下载 cdc connector
sudo wget -P /usr/lib/flink/lib/ https://repo1.maven.org/maven2/com/ververica/flink-sql?
connector-mysql-cdc/2.0.0/flink-sql-connector-mysql-cdc-2.0.0.jar && sudo chown flink:flink
/usr/lib/flink/lib/flink-sql-connector-mysql-cdc-2.0.0.jar
# flink session
flink-yarn-session -jm 1024 -tm 4096 -s 2 \
-D state.checkpoints.dir=s3://*****/flink/checkpoints \
-D state.backend=rocksdb \
-D state.checkpoint-storage=filesystem \
-D execution.checkpointing.interval=60000 \
-D state.checkpoints.num-retained=5 \
-D execution.checkpointing.mode=EXACTLY_ONCE \
-D execution.checkpointing.externalized-checkpoint-retention=RETAIN_ON_CANCELLATION \
-D state.backend.incremental=true \
-D execution.checkpointing.max-concurrent-checkpoints=1 \
-D rest.flamegraph.enabled=true \
-d

4.Flink SQL 客户端

# 这是使⽤flink sql client写SQL提交作业
# 启动client
/usr/lib/flink/bin/sql-client.sh -s application_*****
# result-mode
set sql-client.execution.result-mode=tableau;
# set default parallesim
set 'parallelism.default' = '1';

5. 消费 Kafka 写⼊Hudi

# 创建kafka表
CREATE TABLE kafka_tb_001 (
id string,
name string,
`ts` TIMESTAMP(3) METADATA FROM 'timestamp'
) WITH (
'connector' = 'kafka',
'topic' = 'tech-talk-001',
'properties.bootstrap.servers' = '****:9092',
'properties.group.id' = 'test-group-001',
'scan.startup.mode' = 'latest-offset',
'format' = 'json',
'json.ignore-parse-errors' = 'true',
'json.fail-on-missing-field' = 'false',
'sink.parallelism' = '2'
);
# 创建flink hudi表
CREATE TABLE flink_hudi_tb_106(
uuid string,
name string,
ts TIMESTAMP(3),
logday VARCHAR(255),
hh VARCHAR(255)
)PARTITIONED BY (`logday`,`hh`)
WITH (
'connector' = 'hudi',
'path' = 's3://*****/teck-talk/flink_hudi_tb_106/',
'table.type' = 'COPY_ON_WRITE',
'write.precombine.field' = 'ts',
'write.operation' = 'upsert',
'hoodie.datasource.write.recordkey.field' = 'uuid',
'hive_sync.enable' = 'true',
'hive_sync.metastore.uris' = 'thrift://******:9083',
'hive_sync.table' = 'flink_hudi_tb_106',
'hive_sync.mode' = 'HMS',
'hive_sync.username' = 'hadoop',
'hive_sync.partition_fields' = 'logday,hh',
'hive_sync.partition_extractor_class' = 'org.apache.hudi.hive.MultiPartKeysValueExtractor'
);
# 插⼊数据
insert into flink_hudi_tb_106 select id as uuid,name,ts,DATE_FORMAT(CURRENT_TIMESTAMP, 'yyyy?
MM-dd') as logday, DATE_FORMAT(CURRENT_TIMESTAMP, 'hh') as hh from kafka_tb_001;
# 除了在创建表是指定同步数据的⽅式，也可以通过cli同步hudi表元数据到hive,但要注意分区格式
./run_sync_tool.sh --jdbc-url jdbc:hive2:\/\/*****:10000 --user hadop --pass hadoop --
partitioned-by logday --base-path s3://****/ --database default --table *****
# presto 查询数据
presto-cli --server *****:8889 --catalog hive --schema default

6.mysql cdc 同步到 hudi

# 创建mysql CDC表
CREATE TABLE mysql_cdc_002 (
id INT NOT NULL,
name STRING,
create_time TIMESTAMP(3),
modify_time TIMESTAMP(3),
PRIMARY KEY(id) NOT ENFORCED
) WITH (
'connector' = 'mysql-cdc',
'hostname' = '*******',
'port' = '3306',
'username' = 'admin',
'password' = '*****',
'database-name' = 'cdc_test_db',
'table-name' = 'test_tb_01',
'scan.startup.mode' = 'initial'
);
# 创建hudi表
CREATE TABLE hudi_cdc_002 (
id INT ,
name STRING,
create_time TIMESTAMP(3),
modify_time TIMESTAMP(3)
) WITH (
'connector' = 'hudi',
'path' = 's3://******/hudi_cdc_002/',
'table.type' = 'COPY_ON_WRITE',
'write.precombine.field' = 'modify_time',
'hoodie.datasource.write.recordkey.field' = 'id',
'write.operation' = 'upsert',
'write.tasks' = '2',
'hive_sync.enable' = 'true',
'hive_sync.metastore.uris' = 'thrift://*******:9083',
'hive_sync.table' = 'hudi_cdc_002',
'hive_sync.db' = 'default',
'hive_sync.mode' = 'HMS',
'hive_sync.username' = 'hadoop'
);
# 写⼊数据
insert into hudi_cdc_002 select * from mysql_cdc_002;

7. sysbench

# sysbench 写⼊mysql数据
# 下载sysbench
curl -s https://packagecloud.io/install/repositories/akopytov/sysbench/script.rpm.sh | sudo
bash
sudo yum -y install sysbench
# 注意当前使用的“lua”并未提供构建，请根据自身情况定义,上述⽤到表结构如下
CREATE TABLE if not exists `test_tb_01` (
`id` int NOT NULL AUTO_INCREMENT,
`name` varchar(155) DEFAULT NULL,
`create_time` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP,
`modify_time` timestamp NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE
CURRENT_TIMESTAMP,
PRIMARY KEY (`id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4;
# 创建表
sysbench creates.lua --mysql-user=admin --mysql-password=admin123456 --mysql?
host=****.rds.amazonaws.com --mysql-db=cdc_test_db --report-interval=1 --events=1 run
# 插⼊数据
sysbench insert.lua --mysql-user=admin --mysql-password=admin123456 --mysql?
host=****.rds.amazonaws.com --mysql-db=cdc_test_db --report-interval=1 --events=500 --
time=0 --threads=1 --skip_trx=true run
# 更新数据
sysbench update.lua --mysql-user=admin --mysql-password=admin123456 --mysql?
host=****.rds.amazonaws.com --mysql-db=cdc_test_db --report-interval=1 --events=1000 --
time=0 --threads=10 --skip_trx=true --update_id_min=3 --update_id_max=500 run
# 删除表
sysbench drop.lua --mysql-user=admin --mysql-password=admin123456 --mysql?
host=****.rds.amazonaws.com --mysql-db=cdc_test_db --report-interval=1 --events=1 run

ZooKeeper学习专栏（三）：ACL权限控制与Zab协议核心原理
文章目录前言一、ACL访问控制列表二、原子广播协议（Zab协议）总结前言在分布式系统中，安全访问控制和一致性保证是两大核心需求。本文将深入探讨Zookeeper的ACL权限控制机制和Zab协议的核心原理，帮助读者理解Zookeeper如何保障数据安全性和系统一致性。一、ACL访问控制列表ACL(AccessControlLists)是Zookeeper保护ZNode数据安全的关键机制，它定义了哪些
【laravel+redis】分布式锁的实现起灵人 php laravel redis laravel redis php
laravel官方支持“原子锁”，并且说“要使用这个功能，应用必须使用memcached、dynamodb、redis、database或array缓存驱动作为应用默认的缓存驱动，此外，所有服务器必须和同一台中央缓存服务器进行通信”。前半句不多解释，后半句也强调了laravel的原子锁不负责在集群架构中保障故障转移期间的数据安全性。我贴一下laravel的源码看一下它是怎样用redis实现的分布式
计算机毕业设计Python+uniapp校园兼职系统小程序(小程序+源码+LW) Python毕设源码程序高学长 python 课程设计 uni-app
计算机毕业设计Python+uniapp校园兼职系统小程序(小程序+源码+LW)该项目含有源码、文档、程序、数据库、配套开发软件、软件安装教程项目运行环境配置：Pychram社区版+python3.7.7+Mysql5.7+uni+HBuilderX+listpip+Navicat11+Django+nodejs。项目技术：django+python+UNI等等组成，B/S模式+pychram管理
Python-Django毕业设计养老院老人日常生活管理系统（程序+Lw) Python计算机毕设程序源码_ python django 课程设计
该项目含有源码、文档、程序、数据库、配套开发软件、软件安装教程项目运行环境配置：Pychram社区版+python3.7.7+Mysql5.7+HBuilderX+listpip+Navicat11+Django+nodejs。项目技术：django+python+Vue等等组成，B/S模式+pychram管理等等。环境需要1.运行环境：最好是python3.7.7，我们在这个版本上开发的。其他版
Java程序设计笔记是程序蜂啊 java 笔记开发语言
Java程序设计目录Java程序设计第一章java语言开发环境1.1工具篇1.2Eclipse调整字体第三章Java基础3.1java基本数据类型3.2关键字与标识符3.3常数3.4变量3.5.数据类型转换3.6由键盘输入数据4.1顺序结构4.2分支语句5.1什么是数组5.2数组赋值：5.3一维数组5.4二维数组6.1类的基本概念6.2定义类6.3对象的创建与使用6.4参数的传递第七章java语言
Javascript 平行四边形周长计算程序(Program for Circumference of a Parallelogram)
给定平行四边形的边，计算周长。示例：输入：a=10，b=8输出：36.00输入：a=25.12，b=20.4输出：91.04平行四边形的对边长度相等且平行。两角相等，但不一定为90度。平行四边形的周长可以计算为两条相邻边之和，每条边乘以2。计算平行四边形周长的公式：（2*a）+（2*b）//JavascriptProgramtocalculatethe//CircumferenceofaParal
什么是Java？想学习却不知道从哪开始？不熬夜不是好程序员
谈起Java，相信有很多小伙伴们也跟我刚开始一样，对他的了解只有难，学成之后工资高，从入门学到入土，但当你真正开始系统的学习之后才发现其实哪些程序猿们也不过尔尔（刚学习完刚入职那种。。。）什么是Java?Java是一门编程语言，Java是一门掌握了技术就可以拿到高薪的工作岗位。Java这个语言在我国发展的很完善，相当于你掌握了Java技术出来，具备一定的开发经验，既可以在一线城市找到合适的岗位工作
绝佳组合 SpringBoot + Lua + Redis = 王炸！
Java精选面试题（微信小程序）：5000+道面试题和选择题，真实面经，简历模版，包含Java基础、并发、JVM、线程、MQ系列、Redis、Spring系列、Elasticsearch、Docker、K8s、Flink、Spark、架构设计、大厂真题等，在线随时刷题！前言曾经有一位魔术师，他擅长将SpringBoot和Redis这两个强大的工具结合成一种令人惊叹的组合。他的魔法武器是Redis的
聊聊flink的RpcService go4it
序本文主要研究一下flink的RpcServiceRpcServiceflink-release-1.7.2/flink-runtime/src/main/java/org/apache/flink/runtime/rpc/RpcService.javapublicinterfaceRpcService{StringgetAddress();intgetPort();CompletableFutu
java--单元测试、内省
junit(单元测试框架)junit要注意的细节：1.如果使用junit测试一个方法的时候，在junit窗口上显示绿条那么代表测试正确，如果是出现了红条，则代表该方法测试出现了异常不通过。2.如果点击方法名、类名、包名、工程名运行junit分别测试的是对应的方法，类、包中的所有类的test方法，工程中的所有test方法。3.@Test测试的方法不能是static修饰与不能带有形参（可以写一个测试方
mysql 清除事物_mysql事物处理
mysql事物主要用于处理操作量大，复杂度高的数据。比如说，在人员管理系统中，你删除一个人员，你既要删除人员的基本资料，也要删除和该人员相关的信息，如信箱，文章等。这样，这些数据库操作语句就构成一个事物。注意一下几点：在MySQL中只有使用了Innodb数据库引擎的数据库或表才支持事务。事物处理可以用来维护数据库的完整性，保证成批的sql语句要么全部执行，要么全部不执行。事物用来管理insert，
智慧水库信息化系统建设产品需求文档V2.0 小赖同学啊 test Technology Precious 物联网
智慧水库信息化系统建设产品需求文档1.引言1.1文档目的本文档旨在明确智慧水库信息化系统的建设需求，为系统设计、开发和实施提供全面依据，确保系统功能满足水库管理业务需求，提升水库管理的智能化水平和决策效率。1.2背景介绍传统水库管理面临数据采集不及时、分析手段有限、决策依赖经验等问题，难以应对复杂多变的水文情势和日益增长的管理需求。随着物联网、大数据、人工智能等技术的发展，智慧水库建设成为必然趋势
MySQL(149)如何进行数据清洗？辞暮尔尔-烟火年年 MySQL mysql python 数据库
数据清洗在数据处理和分析过程中至关重要，确保数据质量和一致性。以下是一个详细的指南，展示如何使用Java进行数据清洗，包括处理缺失值、重复值、异常值、数据类型转换以及标准化等步骤。一、准备工作确保安装有Java开发环境（JDK）和Maven或Gradle等依赖管理工具。我们将使用ApacheCommonsCSV库来处理CSV文件，并使用Java标准库进行数据清洗操作。二、加载数据首先，我们加载数据
MySQL(147)如何进行跨平台迁移？辞暮尔尔-烟火年年 mysql adb 数据库
跨平台迁移涉及将数据库从一个操作系统或平台迁移到另一个，例如从Windows迁移到Linux，或从不同架构的硬件之间进行迁移。这个过程比同平台迁移更加复杂，需要特别注意数据库的兼容性、数据编码、文件路径等问题。以下是一步一步的指导，详细介绍如何进行跨平台数据库迁移。一、准备工作1.确认源与目标平台源平台：当前运行数据库的操作系统和硬件平台。目标平台：新的操作系统和硬件平台。2.安装数据库软件在目标
MySQL(141)如何处理重复数据问题？辞暮尔尔-烟火年年 MySQL mysql 数据库
处理重复数据问题是数据管理中的一个常见挑战。重复数据会影响数据库的性能、占用资源，并且可能导致数据分析结果的偏差。以下是处理重复数据问题的详细步骤以及结合代码的示例。一、识别重复数据首先，需要识别数据库中的重复数据。可以使用SQL查询来查找重复的数据。示例：假设我们有一个名为employees的表，其中包含以下字段：id、name和email。CREATETABLEemployees(idINTP
IM即时通讯源码/im源码基于uniapp框架从0开始设计搭建在线聊天系统宠友信息 uni-app mysql spring boot java 小程序
文章目录前言一、确定技术栈二、数据库设计：1.引入库2.使用SpringBoot创建后端项目3.实现WebSocket通信：3.1创建WebSocket配置类：3.2创建ChatWebSocketHandler类：3.3前端WebSocket连接与通信：总结前言随着人社交产品的不断发展，即时通讯聊天这门技术也越来越重要，很多人都开启了学习通讯技术，本文就介绍了即时通讯的基础内容。一、确定技术栈在开
（详细！！）2024最新Neo4j详细使用指南熊猫发电机：miniqq207 neo4j neo4j
Neo4j详细使用指南一、介绍Neo4j是什么Neo4j是一个高性能的,NOSQL图形数据库，它将结构化数据存储在网络上而不是表中。它是一个嵌入式的、基于磁盘的、具备完全的事务特性的Java持久化引擎，但是它将结构化数据存储在网络(从数学角度叫做图)上而不是表中。Neo4j也可以被看作是一个高性能的图引擎，该引擎具有成熟数据库的所有特性。程序员工作在一个面向对象的、灵活的网络结构下而不是严格、静态
（详细文档）java web在线商城系统（jsp + servlet）熊猫发电机：miniqq207 实训项目数据仓库大数据
目录一、设计任务......................................................................................41.1设计意义................................................................................41.2设计目的..........
9.20其二道左无人
做一家服务公司，为下面的公司提供一些事务性的管理、财务管理、风险管理的服务，粘住一个大圈子的HR，通过下面的公司做掉项目，为HR提供一个稳定的资源变现的渠道；做一家科技公司，提供线上的平台运营，大数据采集，以及基于这个基础上的卖货、信贷等服务做一家连锁企业，每一家门店都是独立的企业，提供招聘、引流以及终端服务所以外部通过众筹绑定大批量的HR，就会有稳定的订单，通过服务公司提供服务，通过终端门店保证
mysql事物详解
前言：事物是什么？作为一个java程序员，也许我们仅仅只是停留在会使用的程度上，会通过在类上或者方法上使用@Transactional注解的方式来使用事物，但是背后的原理，为什么使用这个注解就能使事物生效可能并不是很清楚。下面本文详细一一介绍事物是什么，事物的特性，怎么使用等等。1.事物是什么所谓事物，在我的理解中就是一系列操作的一个集合，一旦其中一个操作失败，那么整个操作集合必须全部失败，回滚到
JAVAWeb2 DanB24 oracle 数据库
1.数据库设计1.软件的研发步骤数据库设计概念数据库设计就是根据业务系统的具体需求，结合我们所选用的DBMS，为这个业务系统构造出最优的数据存储模型。建立数据库中的表结构以及表与表之间的关联关系的过程。有哪些表？表里有哪些字段？表和表之间有什么关系？数据库设计的步骤需求分析（数据是什么?数据具有哪些属性?数据与属性的特点是什么）逻辑分析（通过ER图对数据库进行逻辑建模，不需要考虑我们所选用的数据库
白帽必备技术栏目一（javascript基础）
直接进入主题正好也在带学生会把笔记同步发送到csdn上后期不管是去就业还是在家里挖洞都都行javascript基础注意事项局部作用域里面给到的变量不加var就会变成全局变量数据类型boolean布尔类型boolean除了0和空字符串以及nullundefined其他的都是truevarbool=true;varbool=false;number类型varnum=10;//10varnum=0x23
C#程序唯一性守护：用互斥锁（Mutex）实现进程级安全控制的实战指南
为什么程序重复启动是个"毒瘤"？在软件开发中，程序重复启动可能导致以下灾难性后果：资源冲突：多个实例争夺数据库连接、文件句柄等有限资源数据污染：并发写入配置文件导致内容错乱界面混乱：多个窗口同时弹出，用户体验崩坏安全漏洞：恶意程序通过伪造实例窃取数据而互斥锁（Mutex）是Windows/Linux系统提供的原生机制，能完美解决这些问题。相比文件锁、注册表标记等传统方案，Mutex具有以下不可替代
只靠可视化大屏，做不了数字化，数据总监总结3点，你做到了几个大数据的那些事
企业数字化是很多企业热衷的话题。本文的数字化指各行业头的头部企业的端到端数字化解决方案，常见部署于华为专有云、阿里私有云、亚马逊云，项目金额一般百万起步，上不封顶。很多企业投人、投钱数字化，都希望有个酷炫的数据大脑，政府、合作伙伴来参观时，用酷炫的数据大脑让来宾们啧啧称赞。热闹散去后，企业内部的各部门，天天围着数据挖宝，大数据快告诉我，下个月能卖多少，哪几个渠道卖得不好，哪条生产线有问题，哪些货压
从零开发推客小程序系统：完整技术方案与实战经验 wx_ywyy6798 小程序推客小程序开发推客系统开发微信小程序推客小程序推客系统推客分销系统开发
一、推客小程序的市场价值社交电商爆发式增长背景推客模式的优势：低成本获客、用户裂变小程序作为推客系统载体的天然优势二、技术架构设计text1.前端技术栈：-微信小程序原生开发/uni-app跨平台方案-自定义分享组件开发-可视化数据看板实现2.后端技术选型：-Node.js/PHP/JavaSpringBoot等后端框架对比-高性能分销关系链存储方案-佣金结算系统的设计要点3.数据库设计：-用户层
linux如何使用jstack分析线程状态 ycllycll linux
在高并发，多线程环境下的java程序经常需要分析线程状态，本本是一个分析步骤无具体讲解（具体命令可自行google学习）一般流程：1.使用jps-l查看有哪些java程序在运行2.使用top查看步骤1中进程号（pid或者vmid）所占用cpu以及内存情况（或者省略步骤1）3.使用top-Hppid查看具体该pid下各个线程所占用的cpu情况（进程下的线程有一个nid，后面需要用到）4.使用jsta
混合开发Hybrid，JSBridge原理简述永恒即是最美
混合开发（Hybrid），是一种开发模式，指使用多种开发模型开发App。一般有两大模式：原生Native、WebH5。混合开发时，原生、Web相互通信都离不开JSBridge。JSBridge：以JavaScript引擎或Webview容器作为媒介，通过协定协议进行通信，实现Native端和Web端双向通信的一种机制。（webView是移动端提供的运行JavaScript的环境，是系统渲染Web网
hive底层原理 sql执行过程_Hive原理总结（完整版）
目录课程大纲(HIVE增强)31.Hive基本概念41.1Hive简介41.1.1什么是Hive41.1.2为什么使用Hive41.1.3Hive的特点41.2Hive架构51.2.1架构图51.2.2基本组成51.2.3各组件的基本功能51.3Hive与Hadoop的关系61.4Hive与传统数据库对比61.5Hive的数据存储62.Hive基本操作72.1DDL操作72.1.1创建表72.1.
数字图像处理（三：图像如果当作矩阵，那加减乘除处理了矩阵，那图像咋变）：从LED冬奥会、奥运会及春晚等等大屏，到手机小屏，快来挖一挖里面都有什么
数字图像处理（三）一、（准备工作：咋玩，用什么玩具）图像以矩阵形式存储，那矩阵一变、图像立刻跟着变？1.Python+JupyterNotebook/Lab+库(NumPy,OpenCV,Matplotlib,scikit-image)2.MATLAB+ImageProcessingToolbox3.JavaScript+HTML5Canvas+浏览器4.专业的图像处理软件(带脚本/插件功能)二、
Android图书借阅系统完整App开发教程(源码+数据库)
本文还有配套的精品资源，点击获取简介：本教程深入介绍了基于Android平台的图书借阅系统App开发过程，涵盖了从UI设计、网络通信到数据库操作的全面实践。项目包含源码和数据库文件，让学生能够通过实际案例学习并掌握Android应用开发的核心技术。本App具有预约借书、书籍评论、图书推荐和逾期提醒等功能，要求开发者熟悉Java语言和Android系统，以及实现后端逻辑和数据存储。此项目是一个宝贵的
JAVA基础灵静志远位运算加载 Date 字符串池覆盖
一、类的初始化顺序 1 （静态变量，静态代码块）-->（变量，初始化块）--> 构造器同一括号里的，根据它们在程序中的顺序来决定。上面所述是同一类中。如果是继承的情况，那就在父类到子类交替初始化。二、String 1 String a = "abc"; JAVA虚拟机首先在字符串池中查找是否已经存在了值为"abc"的对象，根
keepalived实现redis主从高可用 bylijinnan redis
方案说明两台机器（称为A和B），以统一的VIP对外提供服务 1.正常情况下，A和B都启动，B会把A的数据同步过来（B is slave of A） 2.当A挂了后，VIP漂移到B；B的keepalived 通知redis 执行：slaveof no one，由B提供服务 3.当A起来后，VIP不切换，仍在B上面；而A的keepalived 通知redis 执行slaveof B，开始
java文件操作大全 0624chenhong java
最近在博客园看到一篇比较全面的文件操作文章，转过来留着。 http://www.cnblogs.com/zhuocheng/archive/2011/12/12/2285290.html 转自http://blog.sina.com.cn/s/blog_4a9f789a0100ik3p.html 一.获得控制台用户输入的信息 &nbs
android学习任务不懂事的小屁孩工作
任务完成情况搞清楚带箭头的pupupwindows和不带的使用已完成熟练使用pupupwindows和alertdialog，并搞清楚两者的区别已完成熟练使用android的线程handler,并敲示例代码进行中了解游戏2048的流程，并完成其代码工作进行中-差几个actionbar 研究一下android的动画效果，写一个实例已完成复习fragem
zoom.js 换个号韩国红果果 oom
它的基于bootstrap 的 https://raw.github.com/twbs/bootstrap/master/js/transition.js transition.js模块引用顺序 <link rel="stylesheet" href="style/zoom.css"> <script src=&q
详解Oracle云操作系统Solaris 11.2 蓝儿唯美 Solaris
当Oracle发布Solaris 11时，它将自己的操作系统称为第一个面向云的操作系统。Oracle在发布Solaris 11.2时继续它以云为中心的基调。但是，这些说法没有告诉我们为什么Solaris是配得上云的。幸好，我们不需要等太久。Solaris11.2有4个重要的技术可以在一个有效的云实现中发挥重要作用：OpenStack、内核域、统一存档（UA）和弹性虚拟交换（EVS）。
spring学习——springmvc（一） a-john springMVC
Spring MVC基于模型-视图-控制器（Model-View-Controller，MVC）实现，能够帮助我们构建像Spring框架那样灵活和松耦合的Web应用程序。 1，跟踪Spring MVC的请求请求的第一站是Spring的DispatcherServlet。与大多数基于Java的Web框架一样，Spring MVC所有的请求都会通过一个前端控制器Servlet。前
hdu4342 History repeat itself-------多校联合五 aijuans 数论
水题就不多说什么了。 #include<iostream>#include<cstdlib>#include<stdio.h>#define ll __int64using namespace std;int main(){ int t; ll n; scanf("%d",&t); while(t--)
EJB和javabean的区别 asia007 bean ejb
EJB不是一般的JavaBean,EJB是企业级JavaBean,EJB一共分为3种,实体Bean,消息Bean,会话Bean,书写EJB是需要遵循一定的规范的,具体规范你可以参考相关的资料.另外,要运行EJB,你需要相应的EJB容器,比如Weblogic,Jboss等,而JavaBean不需要,只需要安装Tomcat就可以了 1.EJB用于服务端应用开发, 而JavaBeans
Struts的action和Result总结百合不是茶 struts Action配置 Result配置
一:Action的配置详解: 下面是一个Struts中一个空的Struts.xml的配置文件 <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC &quo
如何带好自已的团队 bijian1013 项目管理团队管理团队
在网上看到博客" 怎么才能让团队成员好好干活"的评论，觉得写的比较好。原文如下：我做团队管理有几年了吧，我和你分享一下我认为带好团队的几点： 1.诚信对团队内成员，无论是技术研究、交流、问题探讨，要尽可能的保持一种诚信的态度，用心去做好，你的团队会感觉得到。 2.努力提
Java代码混淆工具 sunjing ProGuard
Open Source Obfuscators ProGuard http://java-source.net/open-source/obfuscators/proguardProGuard is a free Java class file shrinker and obfuscator. It can detect and remove unused classes, fields, m
【Redis三】基于Redis sentinel的自动failover主从复制 bit1129 redis
在第二篇中使用2.8.17搭建了主从复制，但是它存在Master单点问题，为了解决这个问题，Redis从2.6开始引入sentinel，用于监控和管理Redis的主从复制环境，进行自动failover，即Master挂了后，sentinel自动从从服务器选出一个Master使主从复制集群仍然可以工作，如果Master醒来再次加入集群，只能以从服务器的形式工作。什么是Sentine
使用代理实现Hibernate Dao层自动事务白糖_ DAO spring AOP 框架 Hibernate
都说spring利用AOP实现自动事务处理机制非常好，但在只有hibernate这个框架情况下，我们开启session、管理事务就往往很麻烦。 public void save(Object obj){ Session session = this.getSession(); Transaction tran = session.beginTransaction(); try
maven3实战读书笔记 braveCS maven3
Maven简介是什么？ Is a software project management and comprehension tool.项目管理工具是基于POM概念(工程对象模型) [设计重复、编码重复、文档重复、构建重复，maven最大化消除了构建的重复] [与XP：简单、交流与反馈；测试驱动开发、十分钟构建、持续集成、富有信息的工作区] 功能：
编程之美-子数组的最大乘积 bylijinnan 编程之美
public class MaxProduct { /** * 编程之美子数组的最大乘积 * 题目: 给定一个长度为N的整数数组，只允许使用乘法，不能用除法，计算任意N-1个数的组合中乘积中最大的一组，并写出算法的时间复杂度。 * 以下程序对应书上两种方法，求得“乘积中最大的一组”的乘积——都是有溢出的可能的。 * 但按题目的意思，是要求得这个子数组，而不
读书笔记-2 chengxuyuancsdn 读书笔记
1、反射 2、oracle年-月-日时-分-秒 3、oracle创建有参、无参函数 4、oracle行转列 5、Struts2拦截器 6、Filter过滤器(web.xml) 1、反射 (1)检查类的结构在java.lang.reflect包里有3个类Field,Method,Constructor分别用于描述类的域、方法和构造器。 2、oracle年月日时分秒 s
[求学与房地产]慎重选择IT培训学校 comsci it
关于培训学校的教学和教师的问题,我们就不讨论了,我主要关心的是这个问题培训学校的教学楼和宿舍的环境和稳定性问题我们大家都知道，房子是一个比较昂贵的东西，特别是那种能够当教室的房子... &nb
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系 daizj oracle rman filesperset PARALLELISM
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系转 PARALLELISM --- 我们还可以通过parallelism参数来指定同时"自动"创建多少个通道： RMAN > configure device type disk parallelism 3 ; 表示启动三个通道，可以加快备份恢复的速度。
简单排序:冒泡排序 dieslrae 冒泡排序
public void bubbleSort(int[] array){ for(int i=1;i<array.length;i++){ for(int k=0;k<array.length-i;k++){ if(array[k] > array[k+1]){
初二上学期难记单词三 dcj3sjt126com sciet
concert 音乐会 tonight 今晚 famous 有名的；著名的 song 歌曲 thousand 千 accident 事故；灾难 careless 粗心的，大意的 break 折断；断裂；破碎 heart 心（脏） happen 偶尔发生，碰巧 tourist 旅游者；观光者 science （自然）科学 marry 结婚 subject 题目；
I.安装Memcahce 1. 安装依赖包libevent Memcache需要安装libevent,所以安装前可能需要执行 Shell代码收藏代码 dcj3sjt126com redis
wget http://download.redis.io/redis-stable.tar.gz tar xvzf redis-stable.tar.gz cd redis-stable make 前面3步应该没有问题，主要的问题是执行make的时候，出现了异常。异常一： make[2]: cc: Command not found 异常原因：没有安装g
并发容器 shuizhaosi888 并发容器
通过并发容器来改善同步容器的性能，同步容器将所有对容器状态的访问都串行化，来实现线程安全，这种方式严重降低并发性，当多个线程访问时，吞吐量严重降低。并发容器ConcurrentHashMap 替代同步基于散列的Map，通过Lock控制。 &nb
Spring Security（12）——Remember-Me功能 234390216 Spring Security Remember Me 记住我
Remember-Me功能目录 1.1 概述 1.2 基于简单加密token的方法 1.3 基于持久化token的方法 1.4 Remember-Me相关接口和实现
位运算焦志广位运算
一、位运算符Ｃ语言提供了六种位运算符： & 按位与 | 按位或 ^ 按位异或 ~ 取反 << 左移 >> 右移 1. 按位与运算按位与运算符"&"是双目运算符。其功能是参与运算的两数各对应的二进位相与。只有对应的两个二进位均为1时，结果位才为1 ，否则为0。参与运算的数以补码方式出现。例如：9&am
nodejs 数据库连接 mongodb mysql liguangsong mongodb mysql node 数据库连接
1.mysql 连接 package.json中dependencies加入 "mysql":"~2.7.0" 执行 npm install 在config 下创建文件 database.js
java动态编译 olive6615 java HotSpot jvm 动态编译
在HotSpot虚拟机中，有两个技术是至关重要的，即动态编译(Dynamic compilation)和Profiling。 HotSpot是如何动态编译Javad的bytecode呢？Java bytecode是以解释方式被load到虚拟机的。HotSpot里有一个运行监视器，即Profile Monitor,专门监视
Storm0.9.5的集群部署配置优化 roadrunners 优化 storm.yaml
nimbus结点配置（storm.yaml）信息： # Licensed to the Apache Software Foundation (ASF) under one # or more contributor license agreements. See the NOTICE file # distributed with this work for additional inf
101个MySQL 的调节和优化的提示 tomcat_oracle mysql
　1. 拥有足够的物理内存来把整个InnoDB文件加载到内存中——在内存中访问文件时的速度要比在硬盘中访问时快的多。　　2. 不惜一切代价避免使用Swap交换分区 – 交换时是从硬盘读取的，它的速度很慢。　　3. 使用电池供电的RAM（注：RAM即随机存储器）。　　4. 使用高级的RAID（注：Redundant Arrays of Inexpensive Disks，即磁盘阵列
zoj 3829 Known Notation(贪心) 阿尔萨斯 ZOJ
题目链接：zoj 3829 Known Notation 题目大意：给定一个不完整的后缀表达式，要求有2种不同操作，用尽量少的操作使得表达式完整。解题思路：贪心，数字的个数要要保证比∗的个数多1，不够的话优先补在开头是最优的。然后遍历一遍字符串，碰到数字+1，碰到∗-1,保证数字的个数大于等1，如果不够减的话，可以和最后面的一个数字交换位置（用栈维护十分方便），因为添加和交换代价都是1

基于Apache Hudi构建智能湖仓实践（附亚马逊工程师代码）

你可能感兴趣的:(大数据,hadoop,数据库,java,分布式)