亚马逊云开发者

使用 Alluxio 优化 EMR 上 Flink Join

业务背景&痛点

流式处理的业务场景，经常会遇到实时消息数据需要与历史存量数据关联查询或者聚合，比如电商常见的订单场景，订单表做为实时事实表，是典型的流式消息数据，通常会在 kafka 中，而客户信息，商品 SKU 表是维度表，通常存在业务数据库或者数仓中，是典型的离线数据。实时订单数据在实时处理时通常需要事实表与维度表 join 做 reference 补全，以便拿到订单详情并实时统计当天或截至当天的所有订单的商品分布详情。

亚马逊云科技开发者社区为开发者们提供全球的开发技术资源。这里有技术文档、开发案例、技术专栏、培训视频、活动与竞赛等。帮助中国开发者对接世界最前沿技术，观点，和项目，并将中国优秀开发者或技术推荐给全球云社区。如果你还没有关注/收藏，看到这里请一定不要匆匆划过，点这里（https://dev.amazoncloud.cn/user/register?show=tab1&sc_channel=CSDN）让它成为你的技术宝库！

流式计算通常采用 Flink 做为数据处理平台，上文中提到的实时和离线数据join 的场景，Flink 提供了 Hive/ jdbc/Hudi/ filesystem 各种 connector 实现与离线数据的提取和读写，这样一来在 Flink 应用程序中，即可使用 Table，Sql API 来 join 关联流态表和离线表数据，实现聚合计算等操作

使用 Flink Sql 离线表 Join 流态表的常规 lookup join，是通过 Flink hive sql connector 或者 filesystem connector，对离线 hive 库表或者 S3上离线数据建 Flink Table，然后对 kafka 消息流中的数据建流态表，然后直接做量表做 join 操作

该方式架构如下图所示：

该方式主要面临的问题是：

lookup 维度表数据只会在首次拉起 Flink 应用的时候，保存在 task manager state 中，后续持续查询或者开窗聚合等操作时，是不会再次拉取维度表数据，业务需要定期重启 Flink 应用，或者刷新维度表数据到临时表，以便 join 聚合时和最新的维度数据关联:

每次需要重新全量拉取维度表数据，存在冷启动问题，且维度表数据量大的时候（如上千万注册用户信息表，上万的商品 SKU 属性字段），造成很大 IO 开销，存在性能瓶颈
Flink 的 checkpoint 机制在持续查询或者开窗聚合时，需要保存 state 状态及处理数据到检查点快照中，造成 state 快照数据膨胀

解决方案思路

基于以上业务难点，本文提出一种解决方案思路，即通过 Alluxio 缓存层，将 hive 维度表数据自动加载至 Alluxio UFS 缓存中，同时通过 Flink 时态表 join，把维度表数据做成持续变化表上某一时刻的视图

同时使用 Flink 的 Temporal table function 表函数，传递一个时间参数，返回 Temporal table 这一指定时刻的视图，这样实时动态表主表与这个 Temporal table 表关联的时候，可以关联到某一个版本（历史上某一个时刻）的维度数据

优化后的整体架构如下图所示：

方案实施落地Detail

本文以 Kafka 中用户行为日志数据做为实时流态的事实表数据，hive 上用户信息数据做为离线维度表数据，采用 Alluxio+Flink temproal 的 demo，来验证其 flink join 优化的解决方案

实时事实表

本实例中我们使用 json-data-generator 开源组件模拟的用户行为 json 数据，实时写入 kafka 中，通过 Flink kafka connector 转换为持续查询的 Flink 流态表，从而做为实时 join 的时候的 Fact 事实表数据

用户行为 json 模拟数据如下格式：

[{          "timestamp": "nowTimestamp()",
                    "system": "BADGE",
                    "actor": "Agnew",
                    "action": "EXIT",
                    "objects": ["Building 1"],
                    "location": "45.5,44.3",
                    "message": "Exited Building 1"
                }]

包含用户行为的业务时间，登录系统，用户署名，行为 activity 动作，操作涉及对象，位置信息，及相关文本消息字段。我们在

Flink Sql 中建选择主要字段建事实表如下

CREATE TABLE logevent_source (`timestamp`  string, 
`system` string,
 actor STRING,
 action STRING
) WITH (
'connector' = 'kafka',
'topic' = 'logevent',
'properties.bootstrap.servers' = 'b-6.msk06.dr04w4.c3.kafka.ap-southeast-1.amazonaws.com:9092,b-5.msk06.dr04w4.c3.kafka.ap-southeast-1.amazonaws.com:9092,b-1.msk06.dr04w4.c3.kafka.ap-southeast-1.amazonaws.com:9092 (http://b-6.msk06.dr04w4.c3.kafka.ap-southeast-1.amazonaws.com:9092%2Cb-5.msk06.dr04w4.c3.kafka.ap-southeast-1.amazonaws.com:9092%2Cb-1.msk06.dr04w4.c3.kafka.ap-southeast-1.amazonaws.com:9092/)',
'properties.group.id' = 'testGroup6',
'scan.startup.mode'='latest-offset',
'format' = 'json'
);

Alluxio 缓存维度表

Alluxio 是大数据技术堆栈的分布式缓存，它提供了一个统一的 UFS 文件系统可以对接底层 S3，hdfs 数据，在读写 Alluxio UFS 的时候，可以针对 S3，HDFS 分布式存储层实现 warm up，显著提升吞吐量和减少网络开销，且与上层计算引擎如 Hive，spark，Trino 都有深度的集成，很适合做为离线维度数据的缓存加速器

Amazon EMR 对 Alluxio 提供了良好的集成，可以通过 boostrap 启动脚本方式，在 EMR 创建时自动部署 Alluxio 组件并启动 Alluxio master、worker 进程，详细 EMR 安装和部署 Alluxio 步骤可以参考另一篇文章 Alluxio EMR 集成实践

在集成 Alluxio 的 Amazon EMR 集群中，使用 Alluxio 中创建 hive 离线维表数据的缓存表方法如下：

hive-env.sh中设置设置client jar包：
$ export HIVE_AUX_JARS_PATH=//client/alluxio-2.2.0-client.jar:${HIVE_AU

确保安装部署alluxio的EMR集群上ufs已配置，并且表或者db路径已创建
alluxio fs mkdir alluxio://ip-xxx-xxx-xxx-xxx.ap-southeast-1.compute.internal:19998/s3/customer
alluxio fs chown hadoop:hadoop alluxio://ip-xxx-xxx-xxx-xxx.ap-southeast-1.compute.internal:19998/s3/customer

在AWS EMR集群上，创建hive表路径指向alluxio namespace uri：
!connect jdbc:hive2://xxx.xxx.xxx.xxx:10000/default;
hive> CREATE TABLE customer(
    c_customer_sk             bigint,
    c_customer_id             string,
    c_current_cdemo_sk        bigint,
    c_current_hdemo_sk        bigint,
    c_current_addr_sk         bigint,
    c_first_shipto_date_sk    bigint,
    c_first_sales_date_sk     bigint,
    c_salutation              string,
    c_first_name              string,
    c_last_name               string,
    c_preferred_cust_flag     string,
    c_birth_day               int,
    c_birth_month             int,
    c_birth_year              int,
    c_birth_country           string,
    c_login                   string,
    c_email_address           string
)
    ROW FORMAT DELIMITED
    FIELDS TERMINATED BY '|'
    STORED AS TEXTFILE
    LOCATION 'alluxio://ip-xxx-xxx-xxx-xxx.ap-southeast-1.compute.internal:19998/s3/customer';
OK
Time taken: 3.485 seconds

如上所示，该 Alluxio 表 location 指向的路径即为 hive 维度表所在 S3路径，因此对 Customer 用户维度信息表的写入操作会自动同步到 alluxio 缓存中。

创建好 Alluxio hive 离线维度表后，在 flink sql中，可以通过 hive 的 catalog，连接到 hive 元数据，即可以查看到 alluxio 缓存表的详细信息：

CREATE CATALOG hiveCatalog WITH (  'type' = 'hive',
    'default-database' = 'default',
    'hive-conf-dir' = '/etc/hive/conf/',
    'hive-version' = '3.1.2',
    'hadoop-conf-dir'='/etc/hadoop/conf/'
);
-- set the HiveCatalog as the current catalog of the session
USE CATALOG hiveCatalog;
show create table customer;
create external table customer(
    c_customer_sk             bigint,
    c_customer_id             string,
    c_current_cdemo_sk        bigint,
    c_current_hdemo_sk        bigint,
    c_current_addr_sk         bigint,
    c_first_shipto_date_sk    bigint,
    c_first_sales_date_sk     bigint,
    c_salutation              string,
    c_first_name              string,
    c_last_name               string,
    c_preferred_cust_flag     string,
    c_birth_day               int,
    c_birth_month             int,
    c_birth_year              int,
    c_birth_country           string,
    c_login                   string,
    c_email_address           string
) 
row format delimited fields terminated by '|'
location 'alluxio://ip-xxx-xxx-xxx-xxx.ap-southeast-1.compute.internal:19998/s3/30/customer' 
TBLPROPERTIES (
  'streaming-source.enable' = 'false',  
  'lookup.join.cache.ttl' = '12 h'
)

如上图所示，可以看到该维度表 location 路径是 alluxio 缓存 ufs 路径的 uri，业务程序读写该维度表时，alluxio 会自动更新缓存中的 customer 维度表数据，并异步写入到 alluxio的backend storage 的 S3表路径，实现数据湖的表数据同步更新。

Flink Temporal 时态表 join

Flink 时态表(Temporal table)也是动态表的一种，时态表的每条记录都会有一个或多个时间字段相关联，当我们事实表 join 维度表的时候，通常需要获取实时的维度表数据做 lookup，所以通常需要在事实表 create table 或者 join 时，通过 proctime()函数指定事实表的时间字段，同时在 join 时，通过 FOR SYSTEM_TIME AS OF 语法，指定维度表 lookup 时对应的事实表时间版本的数据

在本 Demo 示例中，客户信息在 hive 离线表作为一个变化的维度表的角色，客户行为在 kafka 中作为事实表的角色，因此在 flink kafka source table 中，通过 proctime()指定时间字段，然后在 flink hive table 做 join 时，使用 FOR SYSTEM_TIME AS OF 指定 lookup 的 kafka source table 的时间字段，从而实现 Flink temporal 时态表 join 业务处理

如下所示，Flink Sql 中通过 Kafka connector 创建用户行为的事实表，其中 ts 字段即为时态表 join 时的时间戳：

CREATE TABLE logevent_source (`timestamp`  string, 
`system` string,
 actor STRING,
 action STRING,
 ts as PROCTIME()
) WITH (
'connector' = 'kafka',
'topic' = 'logevent',
'properties.bootstrap.servers' = 'b-6.msk06.dr04w4.c3.kafka.ap-southeast-1.amazonaws.com:9092,b-5.msk06.dr04w4.c3.kafka.ap-southeast-1.amazonaws.com:9092,b-1.msk06.dr04w4.c3.kafka.ap-southeast-1.amazonaws.com:9092 (http://b-6.msk06.dr04w4.c3.kafka.ap-southeast-1.amazonaws.com:9092%2Cb-5.msk06.dr04w4.c3.kafka.ap-southeast-1.amazonaws.com:9092%2Cb-1.msk06.dr04w4.c3.kafka.ap-southeast-1.amazonaws.com:9092/)',
'properties.group.id' = 'testGroup-01',
'scan.startup.mode'='latest-offset',
'format' = 'json'
);

Flink 离线维度表与流式实时表具体 join 方法如下：

select a.`timestamp`,a.`system`,a.actor,a.action,b.c_login from 
      (select *, proctime() as proctime from user_logevent_source) as a 
left join customer  FOR SYSTEM_TIME AS OF a.proctime as b on a.actor=b.c_last_name;

如上代码示例，在事实表 logevent_source join lookup 维度表时，通过 proctime 函数获取到维度表的瞬时最新的版本数据，保障 join 时的一致性和实时性

同时，该维度表数据已经在 alluxio cache，因此读取时性能远高于离线读取 s3上的表数据

通过 hive 切换 S3和 alluxio 路径的 customer 信息维度表，对比测试 flink join 可以看出 alluxio 缓存后性能明显优势

通过 alter table 方便切换本地和 cache 的 location路径：

alter table customer set location "s3://xxxxxx/data/s3/30/customer";
alter table customer  set location "alluxio://ip-xxx-xxx-xxx-xxx.ap-southeast-1.compute.internal:19998/s3/30/customer";

选取某一 split 数据分片的 TaskManager 日志：

cache 前（S3路径读取): 5s 加载

2022-06-29 02:54:34,791 INFO  com.amazon.ws.emr.hadoop.fs.s3n.S3NativeFileSystem           [] - Opening 's3://salunchbucket/data/s3/30/customer/data-m-00029' for reading
2022-06-29 02:54:39,971 INFO  org.apache.flink.table.filesystem.FileSystemLookupFunction   [] - Loaded 433000 row(s) into lookup join cache

cache 后（alluxio 读取): 2s 加载

2022-06-29 03:25:14,476 INFO  com.amazon.ws.emr.hadoop.fs.s3n.S3NativeFileSystem           [] - Opening 's3://salunchbucket/data/s3/30/customer/data-m-00029' for reading
2022-06-29 03:25:16,397 INFO  org.apache.flink.table.filesystem.FileSystemLookupFunction   [] - Loaded 433000 row(s) into lookup join cache

在 JobManager 上查看 Timeline，对比 alluxio 和 s3路径下 job 的执行时间可以看到更加清楚

可以看到，单个 task 查询提升1倍以上，整体 job 性能提升更加明显

其他需要考虑的问题

持续 Join 每次都需要拉取维度数据做 join，Flink 的 checkpoint state 是否一直膨胀导致 TM 的 RockDB 撑爆或者内存溢出？

state 自带有 ttl 机制，可以设置 ttl 过期策略，触发 Flink 清理过期 state 数据，Flink Sql 可以通过 Hint 方式设置

insert into logevent_sink
select a.`timestamp`,a.`system`,a.actor,a.action,b.c_login from 
(select *, proctime() as proctime from logevent_source) as a 
  left join 
customer/*+ OPTIONS('lookup.join.cache.ttl' = '5 min')*/  FOR SYSTEM_TIME AS OF a.proctime as b 
on a.actor=b.c_last_name;

Flink Table/Streaming API 类似:

StateTtlConfig ttlConfig = StateTtlConfig
    .newBuilder(Time.days(7))
    .setUpdateType(StateTtlConfig.UpdateType.OnCreateAndWrite)
    .setStateVisibility(StateTtlConfig.StateVisibility.NeverReturnExpired)
    .cleanupInRocksdbCompactFilter() 
    .build();
ValueStateDescriptor lastUserLogin = 
    new ValueStateDescriptor<>("lastUserLogin", Long.class);
lastUserLogin.enableTimeToLive(ttlConfig);
StreamTableEnvironment.getConfig().setIdleStateRetentionTime(min, max);

设置后重新启动 lookup join，从 Flink TM 日志中可以看到，ttl 到期后，会触发清理并重新拉取 hive 维表数据：

2022-06-29 04:17:09,161 INFO  org.apache.flink.table.filesystem.FileSystemLookupFunction   
[] - Lookup join cache has expired after 5 minute(s), reloading

此外，可以通过配置 flink state retain，减少 checkpoint 时候快照数量，从而减少快照时候 state 的占用空间

Flink job中配置：
-D state.checkpoints.num-retained=5

设置后，可以看到 s3 checkpoint 路径上，Flink Job 会自动清理历史快照，只保留最近的5次快照数据，从而确保 checkpoint 快照数据不会堆积

[hadoop@ip-172-31-41-131 ~]$ aws s3 ls s3://salunchbucket/data/checkpoints/7b9f2f9becbf3c879cd1e5f38c6239f8/
                           PRE chk-3/
                           PRE chk-4/
                           PRE chk-5/
                           PRE chk-6/
                           PRE chk-7/

附录

Alluxio整体架构

Alluxio on EMR 快速部署

在 Amazon EMR 中利用 Alluxio 的分层存储架构

EMR Alluxio集成detail

Flink Temporal Join 详细

本篇作者

唐清原

Amazon 数据分析解决方案架构师，负责 Amazon Data Analytic 服务方案架构设计以及性能优化，迁移，治理等 Deep Dive 支持。10+数据领域研发及架构设计经验，历任 Oracle 高级咨询顾问，咪咕文化数据集市高级架构师，澳新银行数据分析领域架构师职务。在大数据，数据湖，智能湖仓，及相关推荐系统 /MLOps 平台等项目有丰富实战经验

陈昊

Amazon 合作伙伴解决方案架构师，有将近 20 年的 IT 从业经验，在企业应用开发、架构设计及建设方面具有丰富的实践经验。目前主要负责 Amazon (中国)合作伙伴的方案架构咨询和设计工作，致力于 Amazon 云服务在国内的应用推广以及帮助合作伙伴构建更高效的 Amazon 云服务解决方案。

文章来源：https://dev.amazoncloud.cn/column/article/6309af45d4155422a4610a40?sc_channel=CSDN

全新4.2版本多功能社交兴趣爱好圈子系统涵盖APP、小程序和H5三个端口，圈子系统小程序成品源码前端后端小程序数据库
圈子系统通常指的是社交平台或论坛中的一种功能模块，用于创建和管理兴趣小组或讨论群组。这种系统的源码会涉及到后端数据库设计、用户认证授权、消息传递、群组管理等多个模块。适用于多种场景语音匹配：（主要是匹配当前在线的异性，会主动发送弹窗，对方同意后，进入1v1双方语聊，默认6分钟，如果双方点喜欢按钮，可延长到30分钟。时间到了后，双方私聊即可）每次话费虚拟币。灵魂匹配：是根据采集的用户更多数据和心理测
MySQL 搭建MHA架构部署 m0_50854537 mysql manager
文章目录MAH一：MAH架构介绍二：适用场景三：MHA工作原理四：MHA的组成1：Manager工具包2：Node工具包五：MHA特点MHA架构部署一：拓扑图二：数据库安装三：数据库配置主从同步四：安装MHA软件五：配置无密码认证六：配置MHA七：健康检查八：查看master1的VIP地址九：启动MHA并查看状态故障模拟与修复一：故障模拟二：故障修复MAH一：MAH架构介绍MHA(MasterHi
MySQL 核心知识全面解析：从事务到索引的深度探索 guihong004 java面试题 mysql 数据库
1.事务隔离级别有哪些?MySQL的默认隔离级别是?事务隔离级别是数据库系统中用于控制不同事务之间的交互和可见性的机制。SQL标准定义了四个隔离级别，按照从低到高的顺序分别是：读未提交（ReadUncommitted）：在这个级别，一个事务可以读取另一个尚未提交的事务的数据更改。这会导致脏读（DirtyRead），即读取到未提交的数据。读已提交（ReadCommitted）：这个级别确保一个事务只
流量分析利器arkime的学习之路（二）---API接口胖哥王老师流量分析学习笔记网络协议学习 arkime API
前文回忆《流量分析利器arkime的学习之路（一）---安装部署》概述注意点Arkime对所有API调用都使用摘要身份验证，因此请确保在库或curl命令中启用摘要身份验证。学习如何进行API调用的最简单方法是打开浏览器的javascript控制台，观察ArkimeUI正在进行的调用，它使用所有相同的API。注意：许多API端点都需要一个数据库字段名称，这与您在搜索表达式中使用的名称不同。查看数据库
Mysql8 MHA(1) 秒变学霸的18岁码农服务器数据库 mysql
简介：1、MHA简介MHA介绍MHA（MasterHighAvailability）目前在MySQL高可用方面是一个相对成熟的解决方案，它由日本DeNA公司youshimaton（现就职于Facebook公司）开发，是一套优秀的作为MySQL高可用性环境下故障切换和主从提升的高可用软件。在MySQL故障切换过程中，MHA能做到在0~30秒之内自动完成数据库的故障切换操作，并且在进行故障切换的过程中
学生作业-学生选课系统，后端SpringBoot + maven，前端vue。涉及管理员、学生和教师三个角色。教师可设置课程信息以及学生成绩录入；学生可选课和查看成绩。源码中包含MySQ数据表sql。程序员WANG vue.js 前端 spring boot
1、学生作业-学生选课系统，后端SpringBoot+maven，前端vue。涉及管理员、学生和教师三个角色。教师可设置课程信息以及学生成绩录入；学生可选课和查看成绩。2、源码中包含数据表，sql文件，mysql数据库，可一键导入。3、管理员账号和密码root、root；学生和教师的账号请查看数据表，密码均为123456。4、Management是后端代码，vue是前端vue代码，按照正常启动（v
minio免费文件管理器（windows版本），若依RuoYi-Vue-Plus框架使用，有需要的可以下载，因为官网下载特别慢程序员WANG 工具 windows vue.js 容器
MinIO是一款开源的对象存储系统，它提供类似AmazonS3的云存储服务，适用于各种规模的企业。MinIO设计为高性能、安全且易于使用，适合存储大量的非结构化数据，如图片、文档、视频以及大数据分析中的日志文件等。在本案例中，我们关注的是Windows版本的MinIO，它被集成到了若依RuoYi-Vue-Plus框架中，以实现文件管理功能。若依RuoYi-Vue-Plus是一个基于Vue.js的现
分布式系统理论基础二-CAP 王知无(import_bigdata)
GitHub：https://github.com/wangzhiwubigdata/God-Of-BigData关注公众号,内推,面试,资源下载,关注更多大数据技术~大数据成神之路~预计更新500+篇文章，已经更新50+篇~引言CAP是分布式系统、特别是分布式存储领域中被讨论最多的理论，“什么是CAP定理？”在Quora分布式系统分类下排名FAQ的No.1。CAP在程序员中也有较广的普及，它不仅
一个.NET开源、性能优异的Excel数据读取库 dotNET跨平台 excel
项目介绍Sylvan.Data.Excel是一个开源、免费、跨平台的.NET库，专注于读取和写入Excel数据文件。支持多种文件格式，并提供高效的数据访问和数据绑定功能。该库在.NET生态系统中是读取Excel数据文件的最快且内存分配最低的库之一。使用场景适用于需要从Excel文件中读取数据并进行进一步处理（如数据分析、报告生成等）的应用程序。适用于需要将数据从数据库或其他数据源导出到Excel文
MySQL：报错1130-host ... is not allowed to connect to this MySql server m0_74824823 mysql adb android
报错:1130-host…isnotallowedtoconnecttothisMySqlserver1、改表法可能是你的帐号不允许从远程登陆，只能在localhost。这个时候只要在localhost的那台电脑，登入mysql后，更改“mysql”数据库里的“user”表里的“host”项，从"localhost"改称"%"mysql-uroot-pvmwaremysql>usemysql;my
大数据湖仓一体架构未来思考王知无(import_bigdata) 架构
湖仓一体架构是最近1-2年时间开始频繁出现在数据开发领域的新名词。也是各大公司竞相投入的对象。网络上关于湖仓一体架构的实践文章很多，看得也很眼花缭乱。我们今天站在一个「接地气」的角度，来说一说湖仓一体架构中未来需要关注的核心框架有哪些。文章内容也没有经过仔细的斟酌，完全是一点不成熟的想法，而且站的角度不是高屋建瓴的而是从下往上的。一个基本判断是湖仓一体架构在形式上不止一种大家可以从网上看到很多关于
SQL数据分析（简单版）编程星空扩展知识 sql 数据库
一、常见数据库分类（1）关系型数据库采用关系模型组织数据的数据库，以行和列的形式存储数据，形成数据表，一组数据表组成了数据库（2）非关系型数据库非关系型数据库在严格意义上不是一种数据库，应该是一种数据结构化存储方法的集合，可以是文档或者键值对等。二、数据库常用功能（1）表数据表是数据库中存储数据的基本组成单位，例如用户信息表、订单表、采购表等。（2）查询查询是数据库中应用最多的对象之一，最常用的功
大数据是什么？用浅显的语言揭开神秘面纱 Echo_Wish 大数据大数据单例模式
大数据是什么？用浅显的语言揭开神秘面纱在我们生活的时代，“大数据”已经从一个技术术语，成为了街头巷尾时常听到的词汇。然而，究竟什么是大数据？它离我们有多远？我们该如何理解这个复杂又常用的概念？作为一名深耕大数据领域的创作者，我希望用通俗易懂的语言，结合生活实例和代码，为大家揭开大数据的神秘面纱。一、大数据的定义：比“大”更重要的是“复杂性”从广义上讲，大数据指的是无法通过传统手段高效处理的数据集合
《深入理解Mybatis原理》MyBatis的sqlSession执行流程后端javamybatis
sqlSessionFactory与SqlSession正如其名，Sqlsession对应着一次数据库会话。由于数据库会话不是永久的，因此Sqlsession的生命周期也不应该是永久的，相反，在你每次访问数据库时都需要创建它（当然并不是说在Sqlsession里只能执行一次sql，你可以执行多次，当一旦关闭了Sqlsession就需要重新创建它）。那么咱们就先看看是怎么获取SqlSession的吧
【GaussDB】数据库日常维护戒掉贪嗔痴(薛双奇) 国产数据库-GaussDB gaussdb
1.检查实例状态[omm@gauss001~]$cm_ctlquery-Cv[CMServerState]nodeinstancestate---------------------------------1192.168.0.1421Primary[ClusterState]cluster_state:Normalredistributing:Nobalanced:Yescurrent_az:A
PyMySQL 详解一只猪皮怪5 SQL 数据库 mysql python
PyMySQL是一个纯Python实现的MySQL客户端操作库，支持事务、存储过程、批量执行等。PyMySQL遵循Python数据库APIv2.0规范，并包含了pure-PythonMySQL客户端库。安装pipinstallPyMySQL创建数据库连接importpymysqlconnection=pymysql.connect(host='localhost',port=3306,user='
python与mysql交互_Python和Mysql交互 weixin_39703561 python与mysql交互
安装引入模块~安装mysql模块sudoapt-getinstallpython-mysqldb~在文件中引入模块importMySQLdbConnection对象用于建立与数据库的连接，创建对象：调用connect()方法conn=MySQLdb.connect(参数列表)其中参数列表有：host:连接的mysql主机，如果本机是'localhost'；port:连接的mysql主机的端口，默认
方舟生存进化mysql_基于MySQL 的 SQL 优化总结_卡盟,辅助 weixin_36307344 方舟生存进化mysql
SonarQube搭建手记dnf辅助基于MySQL的SQL优化总结在数据库运维过程中，优化SQL是DBA团队的一样平常义务。例行SQL优化，不仅可以提高程序性能，还能减低线上故障的概率。现在常用的SQL优化方式包罗但不限于：营业层优化、SQL逻辑优化、索引优化等。其中索引优化通常通过调整索引或新增索引从而到达SQL优化的目的。索引优化往往可以在短时间内发生异常伟大的效果。---来自美团手艺团队SQ
Hibernate中文版教程：快速入门与实践焦虑中
本文还有配套的精品资源，点击获取简介：Hibernate是一个高效的JavaORM框架，它通过对象关系映射简化数据库操作，使得开发人员能以面向对象的方式处理数据。本教程旨在为初学者提供一份详尽的Hibernate指南，涵盖了实体管理、会话管理、查询语言HQL、缓存机制等核心功能。教程还介绍了配置文件、映射文件、CriteriaAPI、CascadeType和FetchType、事务处理、关联映射、
HarmonyOS 应用开发之ArkData OpenHarmony_小贾 OpenHarmony HarmonyOS 移动开发 harmonyos 华为移动开发鸿蒙开发 ui
功能介绍ArkData（方舟数据管理）为开发者提供数据存储、数据管理和数据同步能力，比如联系人应用数据可以保存到数据库中，提供数据库的安全、可靠以及共享访问等管理机制，也支持与手表同步联系人信息。标准化数据定义：提供OpenHarmony跨应用、跨设备的统一数据类型标准，包含标准化数据类型和标准化数据结构。数据存储：提供通用数据持久化能力，根据数据特点，分为用户首选项、键值型数据库和关系型数据库。
GaussDB lanlingxueyu 数据库 gaussdb
HCIA-GaussDB思维导图https://download.csdn.net/download/lanlingxueyu/88797517数据库介绍数据库技术概述数据库技术数据Data记录Record数据库DatabaseDB数据库是存放数据的仓库，是大量数据的集合。存放在数据库中数据的特点永久存储有组织可共享数据库管理系统DBMS数据库管理系统是一个能够科学地组织和存储数据，高效地获
探索SQL数据库架构比较工具：详解及应用焦虑中
本文还有配套的精品资源，点击获取简介：随着信息化的发展，SQL数据库在企业数据管理中扮演核心角色。面对不断更新的数据库架构，比较和管理不同数据库之间的差异变得至关重要。本文介绍了一种开源的SQL数据库架构比较工具，详述了其功能和应用价值。该工具可比较SQL数据库架构中的表结构、索引、触发器等元素，支持数据库迁移、版本控制和同步等任务。工具的源代码文件、架构设计图、使用文档和流程图等组件，为开发者提
在 Python 中使用 Ollama API 一路追寻大模型 Python Ollama LLM linux python
在Python中使用OllamaAPI在本文中，我们将简单介绍如何在Python中使用OllamaAPI。无论你是想进行简单的聊天对话、使用流式响应处理大数据、还是希望在本地进行模型的创建、复制、删除等操作，本文都可以为你提供指导。此外，我们还展示了如何使用自定义客户端和异步编程来优化你的应用程序性能，环境准备在开始使用Python与OllamaAPI交互之前，请确保您的开发环境满足以下条件：Py
【数据库】PyMySQL详解：轻松实现Python与MySQL的高效交互易辰君数据库 mysql python 数据库
目录前言一、PyMySQL的特点二、安装三、基本用法（一）连接MySQL数据库（二）数据查询（三）插入数据（四）更新和删除数据（五）事务管理四、游标类型五、安全性六、常见错误处理七、性能优化八、总结前言PyMySQL是一个纯Python的库，用于连接MySQL数据库，并执行SQL语句。它是MySQLdb的替代品，但不同于后者，PyMySQL不需要C语言的依赖，因此更加轻量且易于安装和使用。该库的主
FFA 2024 「流批一体」专场：探索在不同场景的流批一体 Apache Flink
FlinkForwardAsia2024即将盛大开幕！作为ApacheFlink社区备受期待的年度盛会之一，本届大会将于11月29至30日在上海隆重举行。FlinkForwardAsia（简称FFA）是由Apache官方授权的社区技术大会，旨在汇聚领先的行业实践与技术动态。在众多合作伙伴和技术开发者的支持下，FFA已成功举办六届。适逢ApacheFlink诞生10周年，今年的FFA将与广大开发者分
17-7 向量数据库之野望7 - PostgreSQL 和pgvector 拉达曼迪斯II AIGC学习数据库管理工具 AI创业数据库 postgresql 人工智能机器学习 AIGC 搜索引擎
PostgreSQL是一款功能强大的开源对象关系数据库系统，它已将其功能扩展到传统数据管理之外，通过pgvector扩展支持矢量数据。这一新增功能满足了对高效处理高维矢量数据日益增长的需求，这些数据通常用于机器学习、自然语言处理(NLP)和推荐系统等应用。https://github.com/mazzasaverio/find-your-opensource-project什么是pgvector？
《数据关联的艺术：揭开MySQL与图数据库结合的高级可视化探索》墨夶数据库学习资料2 数据库 mysql
在这个信息爆炸的时代，企业和研究者们面临着从海量数据中挖掘有价值信息的巨大挑战。传统的关系型数据库如MySQL虽然擅长处理结构化数据，但在面对复杂的关系网络时显得力不从心。而图数据库以其独特的架构优势，能够高效地表示和查询实体之间的多层关系。当我们将这两种技术结合起来，并辅以强大的可视化工具时，便开启了一扇通往更深层次数据分析的大门。本文将深入探讨如何通过MySQL与图数据库的结合来实现高级可视化
AI与API的融合：构建智能互联技术世界的基石 IT数据V+I7809804594 人工智能数据分析 python 爬虫大数据
在当今科技飞速发展的时代，人工智能（AI）与应用程序接口（API）的融合正在开启智能应用的新纪元。AI以其强大的数据处理和分析能力，正在改变各行各业的工作方式，而API则作为连接技术与应用的桥梁，为AI技术的普及和应用提供了无限可能。本文将深入探讨AI与API的融合如何推动智能应用的创新和发展，以及其在各个领域的应用和前景。一、AI与API融合的背景随着大数据、云计算、物联网等技术的快速发展，人工
如何在Java服务中实现多租户架构：数据库与代码层的实现策略 wx_tangjinjinwx java 架构数据库
如何在Java服务中实现多租户架构：数据库与代码层的实现策略大家好，我是微赚淘客返利系统3.0的小编，是个冬天不穿秋裤，天冷也要风度的程序猿！在如今的SaaS应用开发中，多租户架构已经成为了一个常见的需求。多租户架构允许多个租户（客户）共享同一个应用程序，但数据隔离。本文将详细讲解如何在Java服务中实现多租户架构，包括数据库层和代码层的实现策略。我们将以cn.juwatech包为例展示具体的代码
两万字探讨时间轮算法 Damon_0411 算法 java spring
1.引言1.1背景介绍随着分布式系统、微服务架构的流行以及高并发场景的广泛应用，系统中处理延时任务的需求变得愈发重要。延时任务的常见场景包括：任务调度：某些任务需要按照预定时间执行，比如每天的定时数据备份。超时控制：网络连接的超时检测、数据库锁的释放延迟等。缓存管理：缓存数据的过期清理策略。事件驱动场景：如日志系统中，只有当所有日志接收完毕并经过一定延迟后才能触发归档。延时任务的本质是系统需要管理
springmvc 下 freemarker页面枚举的遍历输出杨白白 enum freemarker
spring mvc freemarker 中遍历枚举 1枚举类型有一个本地方法叫values（），这个方法可以直接返回枚举数组。所以可以利用这个遍历。 enum public enum BooleanEnum { TRUE(Boolean.TRUE, "是"), FALSE(Boolean.FALSE, "否");
实习简要总结 byalias 工作
来白虹不知不觉中已经一个多月了，因为项目还在需求分析及项目架构阶段，自己在这段时间都是在学习相关技术知识，现在对这段时间的工作及学习情况做一个总结：（1）工作技能方面大体分为两个阶段，Java Web 基础阶段和Java EE阶段 1）Java Web阶段在这个阶段，自己主要着重学习了 JSP, Servlet, JDBC, MySQL，这些知识的核心点都过了一遍，也
Quartz——DateIntervalTrigger触发器 eksliang quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208559 一.概述 simpleTrigger 内部实现机制是通过计算间隔时间来计算下次的执行时间，这就导致他有不适合调度的定时任务。例如我们想每天的 1：00AM 执行任务，如果使用 SimpleTrigger，间隔时间就是一天。注意这里就会有一个问题，即当有 misfired 的任务并且恢复执行时，该执行时间
Unix快捷键 18289753290 unix Unix；快捷键;
复制，删除，粘贴： dd:删除光标所在的行 &nbs
获取Android设备屏幕的相关参数酷的飞上天空 android
包含屏幕的分辨率以及屏幕宽度的最大dp 高度最大dp TextView text = (TextView)findViewById(R.id.text); DisplayMetrics dm = new DisplayMetrics(); text.append("getResources().ge
要做物联网？先保护好你的数据蓝儿唯美数据
根据Beecham Research的说法，那些在行业中希望利用物联网的关键领域需要提供更好的安全性。在Beecham的物联网安全威胁图谱上，展示了那些可能产生内外部攻击并且需要通过快速发展的物联网行业加以解决的关键领域。 Beecham Research的技术主管Jon Howes说：“之所以我们目前还没有看到与物联网相关的严重安全事件，是因为目前还没有在大型客户和企业应用中进行部署，也就
Java取模（求余）运算随便小屋 java
整数之间的取模求余运算很好求，但几乎没有遇到过对负数进行取模求余，直接看下面代码： /** * * @author Logic * */ public class Test { public static void main(String[] args) { // TODO A
SQL注入介绍 aijuans sql注入
二、SQL注入范例这里我们根据用户登录页面 <form action="" > 用户名：<input type="text" name="username"><br/> 密码：<input type="password" name="passwor
优雅代码风格 aoyouzi 代码
总结了几点关于优雅代码风格的描述：代码简单：不隐藏设计者的意图，抽象干净利落，控制语句直截了当。接口清晰：类型接口表现力直白，字面表达含义，API 相互呼应以增强可测试性。依赖项少：依赖关系越少越好，依赖少证明内聚程度高，低耦合利于自动测试，便于重构。没有重复：重复代码意味着某些概念或想法没有在代码中良好的体现，及时重构消除重复。战术分层：代码分层清晰，隔离明确，
布尔数组百合不是茶 java 布尔数组
androi中提到了布尔数组; 布尔数组默认的是false, 并且只会打印false或者是true 布尔数组的例子; 根据字符数组创建布尔数组 char[] c = {'p','u','b','l','i','c'}; //根据字符数组的长度创建布尔数组的个数 boolean[] b = new bool
web.xml之welcome-file-list、error-page bijian1013 java web.xml servlet error-page
welcome-file-list 1.定义： <welcome-file-list> <welcome-file>login.jsp</welcome> </welcome-file-list> 2.作用：用来指定WEB应用首页名称。 error-page1.定义： <error-page&g
richfaces 4 fileUpload组件删除上传的文件 sunjing clear Richfaces 4 fileupload
页面代码 <h:form id="fileForm"> <rich:
技术文章备忘 bit1129 技术文章
Zookeeper http://wenku.baidu.com/view/bab171ffaef8941ea76e05b8.html http://wenku.baidu.com/link?url=8thAIwFTnPh2KL2b0p1V7XSgmF9ZEFgw4V_MkIpA9j8BX2rDQMPgK5l3wcs9oBTxeekOnm5P3BK8c6K2DWynq9nfUCkRlTt9uV
org.hibernate.hql.ast.QuerySyntaxException: unexpected token: on near line 1解决方案白糖_ Hibernate
文章摘自：http://blog.csdn.net/yangwawa19870921/article/details/7553181 在编写HQL时，可能会出现这种代码： select a.name,b.age from TableA a left join TableB b on a.id=b.id 如果这是HQL，那么这段代码就是错误的，因为HQL不支持
sqlserver按照字段内容进行排序 bozch 按照内容排序
在做项目的时候，遇到了这样的一个需求：从数据库中取出的数据集，首先要将某个数据或者多个数据按照地段内容放到前面显示，例如:从学生表中取出姓李的放到数据集的前面； select * fro
编程珠玑-第一章-位图排序 bylijinnan java 编程珠玑
import java.io.BufferedWriter; import java.io.File; import java.io.FileWriter; import java.io.IOException; import java.io.Writer; import java.util.Random; public class BitMapSearch {
Java关于==和equals chenbowen00 java
关于==和equals概念其实很简单，一个是比较内存地址是否相同，一个比较的是值内容是否相同。虽然理解上不难，但是有时存在一些理解误区，如下情况： 1、 String a = "aaa"; a=="aaa"; ==> true 2、 new String("aaa")==new String("aaa
[IT与资本]软件行业需对外界投资热情保持警惕 comsci it
我还是那个看法,软件行业需要增强内生动力,尽量依靠自有资金和营业收入来进行经营,避免在资本市场上经受各种不同类型的风险,为企业自主研发核心技术和产品提供稳定,温和的外部环境... 如果我们在自己尚未掌握核心技术之前,企图依靠上市来筹集资金,然后使劲往某个领域砸钱,然
oracle 数据块结构 daizj oracle 块数据块块结构行目录
oracle 数据块是数据库存储的最小单位，一般为操作系统块的N倍。其结构为：块头－－〉空行－－〉数据，其实际为纵行结构。块的标准大小由初始化参数DB_BLOCK_SIZE指定。具有标准大小的块称为标准块（Standard Block）。块的大小和标准块的大小不同的块叫非标准块（Nonstandard Block）。同一数据库中，Oracle9i及以上版本支持同一数据库中同时使用标
github上一些觉得对自己工作有用的项目收集 dengkane github
github上一些觉得对自己工作有用的项目收集技能类 markdown语法中文说明回到顶部全文检索 elasticsearch bigdesk elasticsearch管理插件回到顶部 nosql mapdb 支持亿级别map, list, 支持事务. 可考虑做为缓存使用 C
初二上学期难记单词二 dcj3sjt126com english word
dangerous 危险的 panda 熊猫 lion 狮子 elephant 象 monkey 猴子 tiger 老虎 deer 鹿 snake 蛇 rabbit 兔子 duck 鸭 horse 马 forest 森林 fall 跌倒；落下 climb 爬；攀登 finish 完成；结束 cinema 电影院；电影 seafood 海鲜；海产食品 bank 银行
8、mysql外键(FOREIGN KEY)的简单使用 dcj3sjt126com mysql
一、基本概念 1、MySQL中“键”和“索引”的定义相同，所以外键和主键一样也是索引的一种。不同的是MySQL会自动为所有表的主键进行索引，但是外键字段必须由用户进行明确的索引。用于外键关系的字段必须在所有的参照表中进行明确地索引，InnoDB不能自动地创建索引。 2、外键可以是一对一的，一个表的记录只能与另一个表的一条记录连接，或者是一对多的，一个表的记录与另一个表的多条记录连接。 3、如
java循环标签 Foreach shuizhaosi888 标签 java循环 foreach
1. 简单的for循环 public static void main(String[] args) { for (int i = 1, y = i + 10; i < 5 && y < 12; i++, y = i * 2) { System.err.println("i=" + i + " y="
Spring Security（05）——异常信息本地化 234390216 exception Spring Security 异常信息本地化
异常信息本地化 Spring Security支持将展现给终端用户看的异常信息本地化，这些信息包括认证失败、访问被拒绝等。而对于展现给开发者看的异常信息和日志信息（如配置错误）则是不能够进行本地化的，它们是以英文硬编码在Spring Security的代码中的。在Spring-Security-core-x
DUBBO架构服务端告警Failed to send message Response javamingtingzhao 架构 DUBBO
废话不多说，警告日志如下，不知道有哪位遇到过，此异常在服务端抛出(服务器启动第一次运行会有这个警告)，后续运行没问题，找了好久真心不知道哪里错了。 WARN 2015-07-18 22:31:15,272 com.alibaba.dubbo.remoting.transport.dispatcher.ChannelEventRunnable.run(84)
JS中Date对象中几个用法 leeqq JavaScript Date 最后一天
近来工作中遇到这样的两个需求 1. 给个Date对象，找出该时间所在月的第一天和最后一天 2. 给个Date对象，找出该时间所在周的第一天和最后一天需求1中的找月第一天很简单，我记得api中有setDate方法可以使用使用setDate方法前，先看看getDate var date = new Date(); console.log(date); // Sat J
MFC中使用ado技术操作数据库你不认识的休道人 sql mfc
1.在stdafx.h中导入ado动态链接库 #import"C:\Program Files\Common Files\System\ado\msado15.dll" no_namespace rename("EOF","end")2.在CTestApp文件的InitInstance()函数中domodal之前写::CoIniti
Android Studio加速 rensanning android studio
Android Studio慢、吃内存！启动时后会立即通过Gradle来sync & build工程。（1）设置Android Studio a) 禁用插件 File -> Settings... Plugins 去掉一些没有用的插件。比如：Git Integration、GitHub、Google Cloud Testing、Google Cloud
各数据库的批量Update操作 tomcat_oracle java oracle sql mysql sqlite
MyBatis的update元素的用法与insert元素基本相同，因此本篇不打算重复了。本篇仅记录批量update操作的 sql语句，懂得SQL语句，那么MyBatis部分的操作就简单了。　　注意：下列批量更新语句都是作为一个事务整体执行，要不全部成功，要不全部回滚。 MSSQL的SQL语句　WITH R AS（　　SELECT 'John' as name, 18 as
html禁止清除input文本输入缓存 xp9802 input
多数浏览器默认会缓存input的值，只有使用ctl+F5强制刷新的才可以清除缓存记录。如果不想让浏览器缓存input的值，有2种方法：方法一：在不想使用缓存的input中添加 autocomplete="off"; eg: <input type="text" autocomplete="off" name

使用 Alluxio 优化 EMR 上 Flink Join

你可能感兴趣的:(flink,大数据,数据库)