学一次

说说构建流批一体准实时数仓

分析&回答

基于 Hive 的离线数仓往往是企业大数据生产系统中不可缺少的一环。Hive 数仓有很高的成熟度和稳定性，但由于它是离线的，延时很大。在一些对延时要求比较高的场景，需要另外搭建基于 Flink 的实时数仓，将链路延时降低到秒级。但是一套离线数仓加一套实时数仓的架构会带来超过两倍的资源消耗，甚至导致重复开发。

想要搭建流式链路就必须得抛弃现有的 Hive 数仓吗？并不是，借助 Flink 可以实现已有的 Hive 离线数仓准实时化。本文整理自 Apache Flink Committer、阿里巴巴技术专家李劲松的分享，文章将分析当前离线数仓实时化的难点，详解 Flink 如何解决 Hive 流批一体准实时数仓的难题，实现更高效、合理的资源配置。文章大纲如下：

离线数仓实时化的难点
Flink 在流批一体的探索
构建流批一体准实时数仓应用实践

离线数仓实时化的难点

离线数仓

上图是一个典型的离线数仓，假设现在公司有一个需求，目前公司的数据量很大，需要每天出一个报表且输出到业务数据库中。首先是刚入库的业务数据，大致分为两种，一种是 MySQL 的 binlog，另外一种是业务系统中的业务打点，这个日志打点信息可以通过 Flume 等工具去采集，再离线入库到数仓中。然后随着业务越来越多，业务中的各个表可以做一些抽象，抽象的好处是更好的管理和更高效的数据复用和计算复用。所以数仓就分成了多层 (明细层、中间层、服务层等等)，每一层存的是数据表，数据表之间通过 HiveSQL 的计算来实现 ETL 转换。
不止是 HiveSQL ，Hive 只是静态的批计算，而业务每天都要出报表，这意味着每天都要进行计算，这种情况下会依赖于调度工具和血缘管理：

调度工具：按照某个策略把批计算调度起来。
血缘管理：一个任务是由许多个作业组合而成，可能有非常复杂的表结构层次，整个计算是一个非常复杂的拓扑，作业间的依赖关系非常复杂 (减少冗余存储和计算，也可以有较好的容错)，只有当一级结束后才能进行下一级的计算。

当任务十分庞大的时候，我们得出结果往往需要很长的一段时间，也就是我们常说的 T+1，H+1 ，这就是离线数仓的问题。
第三方工具

上面说过，离线数仓不仅仅是简单的 Hive 计算，它还依赖了其它的第三方工具，比如：\

使用 Flume 来入库，但存在一定的问题，首先，它的容错可能无法保证 Exactly-Once 效果，需要下游再次进行去重操作。其次，自定义逻辑需要通过一些手段，比如脚本来控制。第三，离线数仓并不具备良好的扩展能力，当数据剧增时，增加原本的并发数就比较困难了。
基于调度工具的作业调度会带来级联的计算延迟，比如凌晨 1 点开始计算昨天的数据，可能需要到早上 6、7 点才能做完，并且无法保证在设置的调度时间内数据可以完全 ready 。此外，级联的计算还会带来复杂的血缘管理问题，大任务的 Batch 计算可能会突然打满集群的资源，所以也要求我们对于负载管理进行考量，这些都会给业务增加负担。

无论是离线数仓还是第三方工具，其实主要的问题还是“慢”，如何解决慢的问题，此时就该实时数仓出场了。

实时数仓

实时数仓其实是从 Hive+HDFS 的组合换成了 Kafka，ETL 的功能通过 Flink 的流式处理解决。此时就不存在调度和血缘管理的问题了，通过实时不断的增量更新，最终输出到业务的 DB 中。

虽然延时降低了，但此时我们会面临另外一些问题：

历史数据丢失，因为 Kafka 只是临时的存储介质，数据会有一个超时的时间 (比如只保存 7 天的数据)，这会导致我们的历史数据丢失。
成本相对较高，实时计算的成本要大于离线计算。

Lambda 架构

所以此时很多人就会选择一套实时一套离线的做法，互不干扰，根据任务是否需要走实时的需求来对需求进行分离。
这套架构看似解决了所有问题，但实际带来的问题也是非常多。首先，Lambda 架构造成了离线和实时的割裂问题，它们解决的业务问题都是一样的，但是两套方案让同样的数据源产生了不同的计算结果。不同层级的表结构可能不一致，并且当数据产生不一致的问题时，还需要去进行比对排查。
随着这套 Lambda 架构越走越远，开发团队、表结构表依赖、计算模型等都可能会被割裂开，越到后面越会发现，成本越来越高，而统一的代价越来越大。

那么问题来了，实时数仓会耗费如此大的资源，且还不能保留历史数据，Lambda 架构存在如此多的问题，有什么方案可以解决呢？

数据湖

数据湖拥有不少的优点，原子性可以让我们做到准实时的批流一体，并且支持已有数据的修改操作。但是毕竟数据湖是新一代数仓存储架构，各方面都还不是很完美，目前已有的数据湖都强依赖于 Spark(当然 Flink 也正在拥抱数据湖)，将数据迁移到数据湖需要团队对迁移成本和人员学习成本进行考量。
如果没有这么大的决心迁移数据湖，那有没有一个稍微缓和一些的方案加速已有的离线数仓呢？\

Flink 在批流一体上的探索

统一元数据

Flink 一直持续致力于离线和实时的统一，首先是统一元数据。简单来说就是把 Kafka 表的元数据信息存储到 HiveMetaStore 中，做到离线和实时的表 Meta 的统一。（目前开源的实时计算并没有一个较为完善的持久化 MetaStore，Hive MetaStore 不仅能保存离线表，也可以承担实时计算的 MetaStore 能力）。
统一计算引擎
**

同样的元数据之后，实时和离线的表结构和层次可以设计成一样，接下来就是可以共用：\

同一套 SQL，Flink 自身提供批流一体的 ANSI-SQL 语法，可以大大减小用户 SQL 开发者和运维者的负担，让用户专注于业务逻辑。
同一个引擎，Flink 的流和批复用一套优化和 Runtime 框架，现阶段的大数据引擎还远远达不到完全稳定的情况，所以仍然有很多时候需要我们去深入的分析和优化，一套引擎可以让开发者专注单个技术栈，避免需要接触多个技术栈，而只有技术广度，没有技术深度。

统一数据

分析了元数据和计算引擎的统一，更进一步，是否能统一实时和离线的数据，避免数据的不一致，避免数据的重复存储和重复计算。ETL 计算是否能统一呢？既然实时表设计上可以和离线表一模一样，是否可以干脆只有实时表的 ETL 计算，离线表从实时表里获取数据？
并且，通过实时链路可以加速离线链路的数据准备，批计算可以把调度换成流输入。

Flink Hive/File Streaming Sink 即为解决这个问题，实时 Kafka 表可以实时的同步到对于的离线表中：

离线表作为实时的历史数据，填补了实时数仓不存在历史数据的空缺。
数据批量准实时摄入为 Ad-hoc 查询离线表提供了准实时输入。

此时离线的批计算也可以交由实时调度，在实时任务处理中某个契机 (Partition Commit 见后续) 自行调度离线那块的任务进行数据同步操作。
此时实时和离线的表已经基本统一，那么问题来了，Kafka 中的表和 Hive 中的表能否就共用一张表呢？我的想法是之后可能会出现以下情况，在数仓中定义一张表，分别对应着 Kafka 和 Hive+HDFS 两种物理存储：

用户在进行 insert 操作时，就自然插入到了 Kafka 的实时 table 当中，同时生成另外一条链路，自动同步到 Hive Table 当中。这样这一张表就非常的完整，不仅满足实时的需求，而且拥有历史的数据。
一个 SQL 读取这样的一个 Hybrid Source ，根据你的查询语句后面的 where 条件，自动路由到 Hive 的历史数据，或者是 Kafka 的实时数据。根据一定的规则先读 Hive 历史数据，再读 Kafka 实时数据，当然这里有一个问题，它们之间通过什么标识来切换呢？一个想法是数据中或者 Kafka 的 Timestamp。

Hive Streaming Sink 的实现

Flink 1.11 前已经有了 StreamingFileSink，在 1.11 中不但把它集成到 SQL 中，让这个 Hive Streaming Sink 可以像离线的 Hive SQL 那样，所有的业务逻辑都由 SQL 去处理，而且带来了进一步的增量。
接下来介绍下 Hive/File Streaming Sink，分为两个组件，FileWriter 和 PartitionCommitter：\

FileWriter 组件可以做到分区感知，通过 checkpoint 机制可以保证 Exactly-Once(分布式场景是不可靠的，需要通过两阶段提交 + 文件 Rename 的幂等性)，FileWriter 也提供了 Rolling 相关的参数，这个 Rolling 指的是我们的流式处理过程，它可以通过两个参数来控制执行频率，file-size 就是每个数据流的大小，rollover-interval 就是时长间隔。但是需要注意，checkpoint 不宜设置太频繁，以免产生过多的小文件。
Partition Committer，通过一系列的业务逻辑处理后得到的 Finished Flies 就直接可用了吗？因为我们典型的 Hive 表都是分区表，当一个分区就绪后，还需要通知下游，Partition 已经处理完成，可以同步到 Hive metastore 中了。我们需要在合适的时机来有效的 trigger 特定的 Partition commit。Partition committer 总的来说，就是完成了 Hive 分区表的数据及元数据的写入，甚至可以完成通知调度系统开始执行之后的 Batch 作业。

因为流式作业是不间断的在运行的，如何设置分区提交的时间，某个分区什么时候提交它呢？\

第一种是默认策略 Process time ，也就是我们所说的事件被处理时的当前系统时间，但是缺点也比较明显，可能出现各种各样的数据不完整。
推荐策略就是 partition-time，这种策略可以做到提交时的语义明确且数据完整，partition 字段就是由 event time ，也就是事件产生的时间所得到的。

如果当前时间 Current time > 分区产生的时间 + commitDelay 延时，即是可以开始进行分区提交的时间。一个简单的例子是小时分区，比如当前已经 12 点过 1 分了，已经过了 11 点的分区 + 一个小时，所以我们可以说不会再有 11 点分区的数据过来了，就可以提交 11 点的分区。（要是有 LateEvent 怎么办？所以也要求分区的提交是幂等的。）

接下来介绍分区的提交具体作用，最直接的就是写 SuccessFile 和 Add partition 到 Hive metastore。
Flink 内置支持了 Hive-MetaStore 和 SuccessFile，只要配置"sink.partition-commit.policy.kind" 为 "metastore,success-file"，即可做到在 commit 分区的时候自动 add 分区到 Hive 中，而且写 SuccessFile，当 add 操作完成的时候，这个 partition 才真正的对 Hive 可见。
Custom 机制允许自定义一个 Partition Commit Policy 的类，实现这个类可以做到在这个分区的任务处理完成后：比如触发下游的调度、Statistic Analysis、又或者触发 Hive 的小文件合并。(当然触发 Hive 的小文件合并不但需要启动另一个作业，而且做不到一致性保证，后续 Flink 也会有进一步的探索，在 Flink 作业中，主动完成小文件的合并)。
实时消费
不止是准实时的数据摄入，Flink 也带来了维表关联 Hive 表和流实时消费 Hive 表。
我们知道 Flink 是支持维表关联查询 MySQL 和 HBase 的，在计算中维护一个 LRU 的缓存，未命中查询 MySQL 或 HBase。但是没有 Lookup 的能力怎么办呢？数据一般是放在离线数仓中的，所以业务上我们一般采用 Hive Table 定期同步到 HBase 或者 MySQL。Flink 也可以允许直接维表关联 Hive 表，目前的实现很简单，需要在每个并发中全量 Load Hive 表的所有数据，只能针对小表的关联。
传统的 Hive Table 只支持按照批的方式进行读取计算，但是我们现在可以使用流的方式来监控 Hive 里面的分区 / 文件生成，也就是每一条数据过来，都可以实时的进行消费计算，它也是完全复用 Flink Streaming SQL 的方式，可以和 HBase、MySQL、Hive Table 进行 Join 操作，最后再通过 FileWriter 实时写入到 Hive Table 中。\

构建流批一体准实时数仓应用实践

案例如下：通过 Flume 采集日志打点 Logs，计算各年龄层的 PV，此时我们存在两条链路：\

一条是实时链路，通过输入访问日志，关联 Hive 的 User 表来计算出所需要的结果到业务 DB 中。
而另一条则是离线链路，我们需要 Hive 提供小时分区表，来实现对历史数据的 Ad-hoc 查询。

这里就是我们刚刚提到的，虽然是对应两个 database：realtime_db 和 offline_db，但是它们共用一份元数据。
对于 Hive 表我们可以通过 Flink SQL 提供的 Hive dialect 语法，然后通过 Hive 的 DDL 语法来在 Flink 中创建 Hive 表，这里设置 PARTITION BY 天和小时，是与实时链路的不同之处，因为实时链路是没有分区概念的。
如何在表结构里避免分区引起的 Schema 差异？一个可以解决的方案是考虑引入 Hidden Partition 的定义，Partition 的字段可以是某个字段的 Computed Column，这也可以与实际常见的情况做对比，如天或小时是由时间字段计算出的，之后是下面的三个参数：\

sink.partition-commit.trigger，指定什么时候进行 partition 的 commit，这里设置了 partition-time，用于保证 exactly-once；
partition.time-extractor.timestamp-pattern，怎样从 partition 中提取时间，相当于设置了一个提取格式；
sink.partition-commit.policy.kind，既 partition commit 所要进行的操作，也就是刚刚提到的 metastore，success-file。

之后设置回默认的 Flink dialect，创建 Kafka 的实时表，通过 insert into 将 Kafka 中的数据同步到 Hive 之中。

这部分是关于 Kafka 中的表如何通过 Dim join 的方式，拿到 User 表的年龄字段。图中需要关心的是 lookup.join.cache.ttl 这个参数，我们会将 user 这张表用类似于 broadcast 的方式，广播到每一个 task 中，但是这个过程中可能出现 Hive 中的 table 存在更新操作，这里的 1h 就说明，数据有效期仅为 1 小时。创建 view 的目的是将 Dim join 所需要的 process time 加上（Dim Join 需要定义 Process time 是个不太自然的过程，后续也在考虑如何在不破坏 SQL 语义的同时，简化 DimJoin 的语法。）

通过实时 Pipeline 的手段消费 Hive Table，而不是通过调度或者以往手动触发的 batch 作业，第一个参数 streaming-source.enable，打开流处理机制，然后使用 start-offset 参数指定从哪个分区 / 文件开始消费。此时，整个流批一体准实时数仓应用基本算是完成啦。\

未来规划

Hive 作为分区级别管理的 Table Format 在一些方便有比较大的限制，如果是新型的 Table Format 比如 Iceberg 会有更好的支持，未来 Flink 会在下面几个方面加强：\

Flink Hive/File Streaming Sink 的 Auto Compaction(Merging) 能力，小文件是实时的最大阻碍之一。
Flink 拥抱 Iceberg，目前在社区中已经开发完毕 Iceberg Sink，Iceberg Source 正在推进中，可以看见在不远的将来，可以直接将 Iceberg 当做一个消息队列，且，它保存了所有的历史数据，达到真正的流批统一。
增强 Flink Batch 的 Shuffle，目前完全的 Hash Shuffle 带来了很多问题，比如小文件、随机 IO、Buffer 管理带来的 OOM，后续开源 Flink (1.12) 会加强力量引入 SortedShuffle 以及 ShuffleService。
Flink Batch BoundedStream 支持，旧的 Dataset API 已经不能满足流批统一的架构，社区 (1.12) 会在 DataStream 上提供 Batch 计算的能力。

反思&扩展

真正做到实时批流一体的路还很长……

喵呜面试助手：一站式解决面试问题，你可以搜索微信小程序 [喵呜面试助手] 或关注 [喵呜刷题] -> 面试助手 免费刷题。如有好的面试知识或技巧期待您的共享！

稳定运行的以Microsoft Azure SQL database数据库为数据源和目标的ETL性能变差时提高性能方法和步骤 weixin_30777913 etl azure etl 云计算数据库
在以MicrosoftAzureSQLDatabase为数据源和目标的ETL（Extract,Transform,Load）过程中，性能问题可能会随着数据量的增加、查询复杂度的提升或系统负载的加重而逐渐变差。提高以MicrosoftAzureSQLDatabase为数据源和目标的ETL性能需要综合考虑数据库查询优化、数据加载策略、并行处理、资源管理等方面。通过合适的索引、查询优化、批量处理、增量加
springboot poi 后端手撕excel自定义表格。包括插入列表、跨行跨列合并 uutale java应用 spring boot excel 后端
文章目录前言一、成品展示二、引入二、RestTemplateConfig三、接收实体ReturnResponse四、WriteExcelTableController总结前言这个程序是因为我需要根据数据库返回的数据生成excel，涉及到跨行跨列合并，表格list填充。填充后调用另一个项目的上传接口，把文件转成字节流传输过去，你们在自己进行使用的时候可以把字节流转成file存到本地。这里的代码有很多
MySQL基本语句冉冉柟 mysql 数据库 oracle
一、DDL（数据定义语言）DDL主要用于定义数据库、表、视图、索引等数据库对象的结构1.1创建数据库CREATEDATABASEdatabase_name;1.2删除数据库DROPDATABASEdatabase_name;1.3选择数据库USEdatabase_name;1.4创建表CREATETABLEtable_name( column1datatypeconstraint, column2
linux grep命令蓝菱 linux linux grep 正则表达式
转自http://www.cnblogs.com/end/archive/2012/02/21/2360965.htm1.作用Linux系统中grep命令是一种强大的文本搜索工具，它能使用正则表达式搜索文本，并把匹配的行打印出来。grep全称是GlobalRegularExpressionPrint，表示全局正则表达式版本，它的使用权限是所有用户。2.格式grep[options]3.主要参数[o
【已解决】将CentOS7系统安装至U盘（四）：安装Qt5.14.2（解决#error qt requires c++11 support问题） pyengine qt c++开发语言 centos
目录1下载安装文件2安装Qt5.14.2和QtCreator3解决编译问题1下载安装文件从Qt官网或清华大学镜像站https://mirrors.tuna.tsinghua.edu.cn/gnu/gcchttps://mirrors.tuna.tsinghua.edu.cn/qt/archive/qt/5.14/5.14.2/下载Qt安装文件。以清华大学镜像站为例，下载如下：wgethttps:/
使用 Milvus 进行向量数据库管理与实践 qahaj milvus 数据库 python
技术背景介绍在当今的AI与机器学习应用中，处理和管理大量的嵌入向量是一个常见的需求。Milvus是一个开源向量数据库，专门用于存储、索引和管理深度神经网络以及其他机器学习模型生成的大规模嵌入向量。它的高性能和易用性使其成为处理向量数据的理想选择。核心原理解析Milvus的核心功能体现在其强大的向量索引和搜索能力。它支持多种索引算法，包括IVF、HNSW等，使其能够高效地进行大规模向量的相似性搜索操
服务器监控 Prometheus、AlertManager、Grafana、钉钉机器人通知懒熊猫运维
监控系统简介Prometheus是一套开源的系统监控报警框架。需要指出的是，由于数据采集可能会有丢失，所以Prometheus不适用对采集数据要100%准确的情形。但如果用于记录时间序列数据，Prometheus具有很大的查询优势，此外，Prometheus适用于微服务的体系架构。prometheus可以理解为一个数据库+数据抓取工具，工具从各处抓来统一的数据，放入prometheus这一个时间序
B+树深入解析：为什么数据库索引都爱用这个结构？程序猿小白菜数据库后端java生态圈数据库数据结构 B+树
一、从图书馆索引理解B+树想象一个超大型图书馆存放着500万册图书，管理员需要设计一个高效的检索系统。传统目录柜（类似二叉树）的问题：目录卡片过多导致柜子太高，查找时需要频繁上下梯子（磁盘IO）热门书籍的目录卡片被翻烂（节点频繁修改）找某个范围的书籍（如TP311.1到TP311.9）需要反复开柜门B+树就是为这类场景设计的完美解决方案，它像一本智能目录：目录本很厚但每页记录很多条目（多路平衡）所
JAVA————十五万字汇总 MeyrlNotFound java 开发语言
JAVA语言概述JAVA语句结构JAVA面向对象程序设计（一）JAVA面向对象程序设计（二）JAVA面向对象程序设计（三）工具类的实现JAVA面向对象程序设计（四）录入异常处理JAVA图形用户界面设计JAVA系统主界面设计JAVA图形绘制JAVA电子相册JAVA数据库技术（一）JAVA数据库技术（二）JAVA数据库技术（三）拓展：JAVA导入/导出——输入/输出JAVA网络通信JAVA多线程编程技
解锁区块链智能合约的未来：构建支持仿真测试的MySQL环境墨夶数据库学习资料1 区块链智能合约 mysql
在区块链技术快速发展的今天，智能合约作为其核心组件之一，正在改变我们处理交易、管理资产乃至构建商业逻辑的方式。然而，对于许多开发者而言，在正式部署之前如何有效地测试和验证智能合约的行为仍然是一个不小的挑战。本文将详细介绍如何设计并实现一个基于MySQL的支持智能合约仿真执行的环境，使您能够在传统的关系型数据库中体验到智能合约的强大功能。一、为什么选择MySQL？尽管以太坊等平台提供了专门用于编写和
解锁区块链智能合约版本管理的新纪元——MySQL架构下的革新之道墨夶数据库学习资料1 区块链智能合约 mysql
在区块链技术蓬勃发展的今天，智能合约作为去中心化应用（DApps）的核心组件，其版本管理和升级机制的重要性日益凸显。然而，传统的智能合约一旦部署便难以更改的特性给开发者带来了不小的挑战。面对这一难题，如何构建一个既能够保障数据安全又便于维护和更新的智能合约管理系统成为了业界关注的焦点。本文将深入探讨基于MySQL数据库设计支持智能合约版本控制的解决方案，旨在为读者提供一套完整的、易于实施的技术框架
Spring Boot 外部化配置 (Externalized Configuration) 超详解：灵活管理应用配置，打造可移植、可扩展的应用无眠_ spring boot 数据库 oracle
引言在SpringBoot应用开发中，配置管理是至关重要的环节。不同的环境(开发、测试、生产)通常需要不同的配置参数，例如数据库连接、端口号、日志级别、第三方API密钥等等。SpringBoot外部化配置(ExternalizedConfiguration)提供了一套强大的机制，允许我们将应用的配置从代码中解耦出来，并通过多种外部来源进行灵活管理，从而打造出可移植、可扩展、易于维护的SpringB
本地部署deepseek-r1:14b 批量调用 Python调用本地deepseek-r1:14b实现对本地数据库的AI管理朴拙Python交易猿 python 数据库开发语言
这篇文章主要为大家详细介绍了Python如何基于DeepSeek模型，调用本地deepseek-r1:14b实现对本地数据库的AI管理场景描述基于DeepSeek模型，实现对本地数据库的AI管理。实现思路1、本地python+flask搭建个WEB，配置数据源。2、通过DeepSeek模型根据用户输入的文字需求，自动生成SQL语句。3、通过SQL执行按钮，实现对数据库的增删改查。模型服务方法1启动
探索Astra DB与LangChain的集成：从向量存储到对话历史 eahba 数据库 langchain python
技术背景介绍AstraDB是DataStax推出的一款无服务器的向量数据库，基于ApacheCassandra®构建，并通过易于使用的JSONAPI提供服务。AstraDB的独特之处在于其强大的向量存储能力，这在处理自然语言处理任务时尤为突出。LangChain与AstraDB的集成为开发者提供了强大的工具链，从数据存储到语义缓存，再到自查询检索，帮助简化复杂的数据操作。核心原理解析LangCha
硅谷企业的大数据平台架构什么样？看看Twitter、Airbnb、Uber的实践大数据v 分布式数据库大数据编程语言 hadoop
导读：本文分析一下典型硅谷互联网企业的大数据平台架构。作者：彭锋宋文欣孙浩峰来源：大数据DT（ID：hzdashuju）01Twitter的大数据平台架构Twitter是最早一批推进数字化运营的硅谷企业之一，其公司运营和产品迭代的很多功能是由其底层的大数据平台提供的。图7-2所示为Twitter大数据平台的基本示意图。▲图7-2Twitter大数据平台架构Twitter的大数据平台开发比较早，很多
每日一题--内存池秋凉づᐇ java 开发语言
内存池（MemoryPool）是一种高效的内存管理技术，通过预先分配并自主管理内存块，减少频繁申请/释放内存的系统开销，提升程序性能。它是高性能编程（如游戏引擎、数据库、网络服务器）中的核心优化手段。内存池的核心原理预先分配：初始化时一次性申请一大块内存（称为“池”），避免程序运行时频繁调用malloc/new。自主管理：将大块内存划分为多个固定或可变大小的内存单元，由程序自行分配和回收。复用机制
【PTA-数据库】《数据库原理与应用B》第二章选择题 .Phoenix. 《数据库原理与应用B》第二章数据库
1.关系模型的数据结构非常简单，只包含单一的数据结构——____C____。A.元组B.属性C.关系D.分量2____A____是一组具有相同数据类型的值的集合。A.域B.属性C.分量D.元组3.一个域允许的不同取值个数称为这个域的___D_____。A.分量B.目C.度D.基数4.若D1域的基数为2，D2域的基数为3，D3域的基数为4，则D1、D2、D3的笛卡尔积的基数为___C_____。A.
安装Qt 5.15.2 noodleboy qt
安装Qt5.15.2自Qt5.15开始，Qt不提供离线安装包了，需要使用在线安装器安装，但是Qt5.15版本不直接显示。需要勾选Archive选项，且很有可能需要梯子工具。
【图像预处理】瞬间记忆深度学习 python
(4条消息)图像预处理方法总结_AI强仔的博客-CSDN博客对图像进行预处理的一些常见方法包括：调整图像大小和分辨率，以便适应模型的输入要求。对图像进行裁剪或填充，以使其大小和比例符合要求。调整图像的亮度、对比度和饱和度等图像属性。进行图像平滑或锐化操作，以去除噪声或增强图像特征。进行图像归一化或标准化，以确保各个特征在相同的尺度上。应用数据增强技术，如旋转、平移、缩放、翻转等，以扩大数据集，提高
使用SQL-PGVector进行PostgreSQL与语义搜索/RAG的结合 fgayif sql postgresql 数据库 python
在现代数据密集型应用中，语义搜索和检索增强生成（RAG）技术越来越受欢迎。通过结合PostgreSQL和pgvector扩展，我们可以实现高效的语义搜索。本文将深入探讨如何配置和使用SQL-PGVector，实现强大的数据查询能力。技术背景介绍PostgreSQL是一个功能强大的开源关系数据库，在处理结构化数据方面具备优势。为了增强其在非结构化数据处理中的能力，我们可以使用pgvector扩展，该
在.Net Core（.Net5）中使用开源组件SqlTableDependency来监听ms sqlserver的数据库数据变化 Lingbug 数据库 .netcore .net
文章目录1、本文主要说明在.NetCore（Demo为.Net5）中使用开源组件SqlTableDependency来监听mssqlserver的数据库数据变化2、github地址：https://github.com/IsNemoEqualTrue/monitor-table-change-with-sqltabledependency3、安装nuget包：install-packageSqlT
如何通过 SQLyog 连接远程 MySQL 数据库？（附工具下载）心灵宝贝 oracle 数据库
MySQL数据库管理工具，提供了图形化界面（GUI），方便用户进行数据库的管理、查询和优化。下载安装SQLyog：https://pan.quark.cn/s/28f872a50972SQLyog的主要功能：用户友好界面：简洁直观的界面，适合数据库管理员和开发人员使用。查询浏览器：支持编写和执行SQL查询，提供语法高亮和自动补全功能。数据导入/导出：支持多种格式（如CSV、XML、SQL等）的数据
河南大学数据库实验4 凡巾数据库 oracle
创建一个名为TEST数据库，要求如下：（下面三个表中属性的数据类型需要自己设计合适的数据类型）1、建立专业表speciality，它由专业号specno、专业名specname组成，其中专业号为主键，采用列级定义主键，专业名不能为空。2、建立院系表department，它由院名dname、院长dean、院职工人数dnum组成。其中院名为主属性，采用表级定义主键。3、建立一个“学生”表Student
oceanbase与mysql性能对比_金融业分布式数据库:TDSQL、HotDB、OceanBase等原理、POC性能对比及选择是...... 高中物理宋老师
本帖最后由Amygo于2020-3-1501:33编辑1、分布式的实现，是通过中间件实现分布式，还是源码级别引入分布式算法实现的？解答：(1)分布式数据库是至少由计算节点、存储节点、管理平台、备份还原程序四个部分组成，从数据库系统理论知识上说分成：全局自治和场地自治，也粗略认为：全局可理解为计算节点、场地可理解为存储节点(2)这个问题的标题“中间件实现分布式还是源码级别引入分布式算法”这个说法存在
oceanbase 是不是架构比较复杂和mysql对比分析 hxsln11 金融数据库 oceanbase 架构 mysql
我先来分析用户的需求。用户的问题是关于OceanBase和MySQL的架构复杂度对比，并希望了解两者在架构上的具体差异。这是一个技术性较强的问题，用户可能是数据库开发者、架构师或者对分布式数据库感兴趣的学习者。结合上下文，用户之前已经提到过OceanBase的学习曲线较陡峭，可能是因为其分布式架构的复杂性，所以这次的问题很可能是想进一步明确OceanBase和MySQL在架构上的具体差异，以及为什
Mariadb5.5.68升级10.5 熊博主 Linux云计算架构工程师 mysql mariadb 运维 linux 服务器
Mariadb5.5.68升级10.5#提前备份好数据库[root@master~]#mysqldump-uroot-p--all-databases>alldb.sqlEnterpassword:[root@master~]#llalldb.sql-rw-r--r--.1rootroot51523011月1818:59alldb.sql#移除原来的mariadb数据库[root@master~]
CentOS7 平滑升级 MariaDB 5.5 到 10.x 新版本实践 weixin_34318272 运维数据库
前言自从CentOS7开始，自带的数据库就变成MariaDB了，yum安装之后的默认版本是5.5，但是这个数据版本已经比较老了，无论是安装全新的Percona还是升级MariaDB第一步始终是不要忘记备份。CentOS7平滑升级MariaDB5.5到10.x新版本实践更新历史2018年11月14日-初稿阅读原文-https://wsgzao.github.io/post...扩展阅读MariaDB
数据库4（数据库指令） songx_99 数据库数据库 sql
聚合函数SELECTCOUNT(*)FROMtitles--统计表titles的总行数SELECTSUM(ytd_sales)FROMtitles--求titles表的ytd_sales这一列数值总和SELECTAVG(ytd_sales)FROMtitles--求titles表ytd_sales这一列数值的平均值SELECTMAX(ytd_sales)FROMtitles--求titles表yt
50个常见的python毕业设计/课程设计（源码+文档）冷琴1996 Python系统设计 python 课程设计开发语言
计算机课程设计/毕业设计指南，为计算机相关专业毕业生提供源码、数据库安装、远程调试等相关服务，提供功能讲解视频。下面是50个基于python/django/vue的毕业设计/课程设计。1.网上商城系统这是一个基于python+vue开发的商城网站，平台采用B/S结构，后端采用主流的Python语言进行开发，前端采用主流的Vue.js进行开发。整个平台包括前台和后台两个部分。前台功能包括：首页、商品
大数据学习（75）-大数据组件总结 viperrrrrrr 大数据 impala yarn hdfs hive CDH mapreduce
大数据学习系列专栏：哲学语录:用力所能及，改变世界。如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦一、CDHCDH（ClouderaDistributionIncludingApacheHadoop)是由Cloudera公司提供的一个集成了ApacheHadoop以及相关生态系统的发行版本。CDH是一个大数据平台，简化和加速了大数据处理分析的部署和管理。CDH提供Hadoop的
JAVA基础灵静志远位运算加载 Date 字符串池覆盖
一、类的初始化顺序 1 （静态变量，静态代码块）-->（变量，初始化块）--> 构造器同一括号里的，根据它们在程序中的顺序来决定。上面所述是同一类中。如果是继承的情况，那就在父类到子类交替初始化。二、String 1 String a = "abc"; JAVA虚拟机首先在字符串池中查找是否已经存在了值为"abc"的对象，根
keepalived实现redis主从高可用 bylijinnan redis
方案说明两台机器（称为A和B），以统一的VIP对外提供服务 1.正常情况下，A和B都启动，B会把A的数据同步过来（B is slave of A） 2.当A挂了后，VIP漂移到B；B的keepalived 通知redis 执行：slaveof no one，由B提供服务 3.当A起来后，VIP不切换，仍在B上面；而A的keepalived 通知redis 执行slaveof B，开始
java文件操作大全 0624chenhong java
最近在博客园看到一篇比较全面的文件操作文章，转过来留着。 http://www.cnblogs.com/zhuocheng/archive/2011/12/12/2285290.html 转自http://blog.sina.com.cn/s/blog_4a9f789a0100ik3p.html 一.获得控制台用户输入的信息 &nbs
android学习任务不懂事的小屁孩工作
任务完成情况搞清楚带箭头的pupupwindows和不带的使用已完成熟练使用pupupwindows和alertdialog，并搞清楚两者的区别已完成熟练使用android的线程handler,并敲示例代码进行中了解游戏2048的流程，并完成其代码工作进行中-差几个actionbar 研究一下android的动画效果，写一个实例已完成复习fragem
zoom.js 换个号韩国红果果 oom
它的基于bootstrap 的 https://raw.github.com/twbs/bootstrap/master/js/transition.js transition.js模块引用顺序 <link rel="stylesheet" href="style/zoom.css"> <script src=&q
详解Oracle云操作系统Solaris 11.2 蓝儿唯美 Solaris
当Oracle发布Solaris 11时，它将自己的操作系统称为第一个面向云的操作系统。Oracle在发布Solaris 11.2时继续它以云为中心的基调。但是，这些说法没有告诉我们为什么Solaris是配得上云的。幸好，我们不需要等太久。Solaris11.2有4个重要的技术可以在一个有效的云实现中发挥重要作用：OpenStack、内核域、统一存档（UA）和弹性虚拟交换（EVS）。
spring学习——springmvc（一） a-john springMVC
Spring MVC基于模型-视图-控制器（Model-View-Controller，MVC）实现，能够帮助我们构建像Spring框架那样灵活和松耦合的Web应用程序。 1，跟踪Spring MVC的请求请求的第一站是Spring的DispatcherServlet。与大多数基于Java的Web框架一样，Spring MVC所有的请求都会通过一个前端控制器Servlet。前
hdu4342 History repeat itself-------多校联合五 aijuans 数论
水题就不多说什么了。 #include<iostream>#include<cstdlib>#include<stdio.h>#define ll __int64using namespace std;int main(){ int t; ll n; scanf("%d",&t); while(t--)
EJB和javabean的区别 asia007 bean ejb
EJB不是一般的JavaBean,EJB是企业级JavaBean,EJB一共分为3种,实体Bean,消息Bean,会话Bean,书写EJB是需要遵循一定的规范的,具体规范你可以参考相关的资料.另外,要运行EJB,你需要相应的EJB容器,比如Weblogic,Jboss等,而JavaBean不需要,只需要安装Tomcat就可以了 1.EJB用于服务端应用开发, 而JavaBeans
Struts的action和Result总结百合不是茶 struts Action配置 Result配置
一:Action的配置详解: 下面是一个Struts中一个空的Struts.xml的配置文件 <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC &quo
如何带好自已的团队 bijian1013 项目管理团队管理团队
在网上看到博客" 怎么才能让团队成员好好干活"的评论，觉得写的比较好。原文如下：我做团队管理有几年了吧，我和你分享一下我认为带好团队的几点： 1.诚信对团队内成员，无论是技术研究、交流、问题探讨，要尽可能的保持一种诚信的态度，用心去做好，你的团队会感觉得到。 2.努力提
Java代码混淆工具 sunjing ProGuard
Open Source Obfuscators ProGuard http://java-source.net/open-source/obfuscators/proguardProGuard is a free Java class file shrinker and obfuscator. It can detect and remove unused classes, fields, m
【Redis三】基于Redis sentinel的自动failover主从复制 bit1129 redis
在第二篇中使用2.8.17搭建了主从复制，但是它存在Master单点问题，为了解决这个问题，Redis从2.6开始引入sentinel，用于监控和管理Redis的主从复制环境，进行自动failover，即Master挂了后，sentinel自动从从服务器选出一个Master使主从复制集群仍然可以工作，如果Master醒来再次加入集群，只能以从服务器的形式工作。什么是Sentine
使用代理实现Hibernate Dao层自动事务白糖_ DAO spring AOP 框架 Hibernate
都说spring利用AOP实现自动事务处理机制非常好，但在只有hibernate这个框架情况下，我们开启session、管理事务就往往很麻烦。 public void save(Object obj){ Session session = this.getSession(); Transaction tran = session.beginTransaction(); try
maven3实战读书笔记 braveCS maven3
Maven简介是什么？ Is a software project management and comprehension tool.项目管理工具是基于POM概念(工程对象模型) [设计重复、编码重复、文档重复、构建重复，maven最大化消除了构建的重复] [与XP：简单、交流与反馈；测试驱动开发、十分钟构建、持续集成、富有信息的工作区] 功能：
编程之美-子数组的最大乘积 bylijinnan 编程之美
public class MaxProduct { /** * 编程之美子数组的最大乘积 * 题目: 给定一个长度为N的整数数组，只允许使用乘法，不能用除法，计算任意N-1个数的组合中乘积中最大的一组，并写出算法的时间复杂度。 * 以下程序对应书上两种方法，求得“乘积中最大的一组”的乘积——都是有溢出的可能的。 * 但按题目的意思，是要求得这个子数组，而不
读书笔记-2 chengxuyuancsdn 读书笔记
1、反射 2、oracle年-月-日时-分-秒 3、oracle创建有参、无参函数 4、oracle行转列 5、Struts2拦截器 6、Filter过滤器(web.xml) 1、反射 (1)检查类的结构在java.lang.reflect包里有3个类Field,Method,Constructor分别用于描述类的域、方法和构造器。 2、oracle年月日时分秒 s
[求学与房地产]慎重选择IT培训学校 comsci it
关于培训学校的教学和教师的问题,我们就不讨论了,我主要关心的是这个问题培训学校的教学楼和宿舍的环境和稳定性问题我们大家都知道，房子是一个比较昂贵的东西，特别是那种能够当教室的房子... &nb
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系 daizj oracle rman filesperset PARALLELISM
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系转 PARALLELISM --- 我们还可以通过parallelism参数来指定同时"自动"创建多少个通道： RMAN > configure device type disk parallelism 3 ; 表示启动三个通道，可以加快备份恢复的速度。
简单排序:冒泡排序 dieslrae 冒泡排序
public void bubbleSort(int[] array){ for(int i=1;i<array.length;i++){ for(int k=0;k<array.length-i;k++){ if(array[k] > array[k+1]){
初二上学期难记单词三 dcj3sjt126com sciet
concert 音乐会 tonight 今晚 famous 有名的；著名的 song 歌曲 thousand 千 accident 事故；灾难 careless 粗心的，大意的 break 折断；断裂；破碎 heart 心（脏） happen 偶尔发生，碰巧 tourist 旅游者；观光者 science （自然）科学 marry 结婚 subject 题目；
I.安装Memcahce 1. 安装依赖包libevent Memcache需要安装libevent,所以安装前可能需要执行 Shell代码收藏代码 dcj3sjt126com redis
wget http://download.redis.io/redis-stable.tar.gz tar xvzf redis-stable.tar.gz cd redis-stable make 前面3步应该没有问题，主要的问题是执行make的时候，出现了异常。异常一： make[2]: cc: Command not found 异常原因：没有安装g
并发容器 shuizhaosi888 并发容器
通过并发容器来改善同步容器的性能，同步容器将所有对容器状态的访问都串行化，来实现线程安全，这种方式严重降低并发性，当多个线程访问时，吞吐量严重降低。并发容器ConcurrentHashMap 替代同步基于散列的Map，通过Lock控制。 &nb
Spring Security（12）——Remember-Me功能 234390216 Spring Security Remember Me 记住我
Remember-Me功能目录 1.1 概述 1.2 基于简单加密token的方法 1.3 基于持久化token的方法 1.4 Remember-Me相关接口和实现
位运算焦志广位运算
一、位运算符Ｃ语言提供了六种位运算符： & 按位与 | 按位或 ^ 按位异或 ~ 取反 << 左移 >> 右移 1. 按位与运算按位与运算符"&"是双目运算符。其功能是参与运算的两数各对应的二进位相与。只有对应的两个二进位均为1时，结果位才为1 ，否则为0。参与运算的数以补码方式出现。例如：9&am
nodejs 数据库连接 mongodb mysql liguangsong mongodb mysql node 数据库连接
1.mysql 连接 package.json中dependencies加入 "mysql":"~2.7.0" 执行 npm install 在config 下创建文件 database.js
java动态编译 olive6615 java HotSpot jvm 动态编译
在HotSpot虚拟机中，有两个技术是至关重要的，即动态编译(Dynamic compilation)和Profiling。 HotSpot是如何动态编译Javad的bytecode呢？Java bytecode是以解释方式被load到虚拟机的。HotSpot里有一个运行监视器，即Profile Monitor,专门监视
Storm0.9.5的集群部署配置优化 roadrunners 优化 storm.yaml
nimbus结点配置（storm.yaml）信息： # Licensed to the Apache Software Foundation (ASF) under one # or more contributor license agreements. See the NOTICE file # distributed with this work for additional inf
101个MySQL 的调节和优化的提示 tomcat_oracle mysql
　1. 拥有足够的物理内存来把整个InnoDB文件加载到内存中——在内存中访问文件时的速度要比在硬盘中访问时快的多。　　2. 不惜一切代价避免使用Swap交换分区 – 交换时是从硬盘读取的，它的速度很慢。　　3. 使用电池供电的RAM（注：RAM即随机存储器）。　　4. 使用高级的RAID（注：Redundant Arrays of Inexpensive Disks，即磁盘阵列
zoj 3829 Known Notation(贪心) 阿尔萨斯 ZOJ
题目链接：zoj 3829 Known Notation 题目大意：给定一个不完整的后缀表达式，要求有2种不同操作，用尽量少的操作使得表达式完整。解题思路：贪心，数字的个数要要保证比∗的个数多1，不够的话优先补在开头是最优的。然后遍历一遍字符串，碰到数字+1，碰到∗-1,保证数字的个数大于等1，如果不够减的话，可以和最后面的一个数字交换位置（用栈维护十分方便），因为添加和交换代价都是1

说说构建流批一体准实时数仓

分析&回答

反思&扩展

你可能感兴趣的:(大数据,hive,数据库)