SelectDB技术团队

查询性能较 Trino/Presto 3-10 倍提升！Apache Doris 极速数据湖分析深度解读

从上世纪 90 年代初 Bill Inmon 在《building the Data Warehouse》一书中正式提出数据仓库这一概念，至今已有超过三十年的时间。在最初的概念里，数据仓库被定义为「一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合，用于支持管理决策」，而数据湖最初是为了解决数仓无法存储海量且异构的数据而构建的集中式存储系统。

时代的发展与用户数据应用诉求的演进，催生了数据架构的不断革新，也衍生了更复杂的技术形态。可以清晰看到现代数据架构从计算到存储都在向着融合统一的方向发展，新的数据湖范式被提出，这也是 Lakehouse 诞生的背景。作为一种全新的、开放式的数据管理架构，Lakehouse 提供了更强的数据分析能力与更好的数据治理能力，也保留了数据湖的灵活性与开放式存储，为用户带来更多价值：

从存储的角度：统一数据集成，避免冗余存储以及跨系统间 ETL 带来的繁重工程和失败风险；

从治理的角度：支持 ACID、Schema Evolution 与 Snapshot，数据与元数据皆可治理；

从应用的角度：多引擎访问支持、可插拔，通过统一接口进行数据访问，同时适用于多种工作负载 Workload；

……

如果我们把 Lakehouse 从系统层面进行解构，会发现除了需要 Apache Iceberg、Apache Hudi 以及 Delta Lake 等数据湖表格式（Table Format）以外，高性能分析引擎更是充分发挥湖上数据价值的关键。

作为一款极速易用的开源实时 OLAP 数据库，Apache Doris 自 0.15 版本即开始尝试在 Apache Iceberg 之上探索与数据湖的能力结合。而经过多个版本的优化迭代，Apache Doris 在数据湖分析已经取得了长足的进展，一方面在数据读取、查询执行以及优化器方面做了诸多优化，另一方面则是重构了整体的元数据连接框架并支持了更多外部存储系统。因此 Apache Doris 已经完全具备了构建极速易用的 Lakehouse 架构的能力，并且也已在多个用户的真实业务场景中得到验证和推广，我们希望通过 Apache Doris 能为用户在更多场景中带来价值：

湖仓查询加速

利用 Apache Doris 优秀的分布式执行引擎以及本地文件缓存，结合数据湖开放格式提供的多种索引能力，对湖上数据及文件提供优秀的查询加速能力，相比 Hive、Presto、Spark 等查询引擎实现数倍的性能提升。

统一数据分析网关

利用 Apache Doris 构建完善可扩展的数据源连接框架，便于快速接入多类数据源，包括各种主流关系型数据库、数据仓库以及数据湖引擎（例如 Hive、Iceberg、Hudi、Delta Lake、Flink Table Store 等），提供基于各种异构数据源的快速查询和写入能力，将 Apache Doris 打造成统一的数据分析网关。

统一数据集成

基于可扩展的连接框架，增强 Doris 在数据集成方面的能力，让数据更便捷的被消费和处理。用户可以通过 Doris 对上游的多种数据源进行统一的增量、全量同步，并利用 Doris 的数据处理能力对数据进行加工和展示，也可以将加工后的数据写回到数据源，或提供给下游系统进行消费。该能力使得 Apache Doris 能够成为业务的统一数据枢纽，降低数据流转成本。

更加开放的数据生态

通过对 Parquet/ORC 等数据格式以及开放的元数据管理机制的支持，用户不用再担心数据被特定数据库引擎锁定，无法被其他引擎访问，也不用再为数据的迁移和格式转换付出高昂的时间和算力成本，降低用户的数据迁移成本和对数据流通性的顾虑，更便捷、放心地享受 Apache Doris 带来的极速数据分析体验。

基于以上的场景定位，我们需要进一步去思考在构建 Lakehouse 过程中需要如何去设计和改造系统，具体包括：

如何支持更丰富的数据源访问以及更便捷的元数据获取方式；

如何提升湖上数据的查询执行性能；

如何实现更灵活的资源调度与负载管理；

因此本文将重点介绍 Apache Doris 在 Lakehouse 上的设计思路和技术细节，同时会为大家介绍后续的发展规划。

元数据连接与数据访问

截至最新的 1.2.2 版本，Apache Doris 已经提供了十余种的数据湖格式和外部数据源的访问支持。同时也支持通过 Table Value Function 直接对文件进行分析。

查询性能较 Trino/Presto 3-10 倍提升！Apache Doris 极速数据湖分析深度解读_第1张图片

为了支持这些数据源，Apache Doris 分别在元数据连接和数据访问两方面做了大量的架构调整和性能优化。

元数据连接

元数据包括数据源的库、表信息、分区信息、索引信息、文件信息等。不同数据源的元信息格式、组织方式各有不同，对于元数据的连接需要解决以下问题：

统一的元数据结构：屏蔽不同数据源的元数据差异。

可扩展的元数据连接框架：低成本、快速地接入数据源。

高效的元数据访问能力：提供可靠、高效的元数据访问性能，并支持实时同步元数据变更。

自定义鉴权服务：能够灵活对接外部的权限管理系统，降低业务迁移成本。

统一的元数据结构

在过去 Apache Doris 的元数据只有 Database（数据库）和 Table（表）两个层级，当外部数据目录 Schema 发生变化或者外部数据目录的 Database 或 Table 非常多时，需要用户手工进行一一映射，维护量非常大。因此在 Apache Doris 1.2.0 版本中新增了 Catalog（数据目录）层级，提供了快速接入外部数据源的能力。

查询性能较 Trino/Presto 3-10 倍提升！Apache Doris 极速数据湖分析深度解读_第2张图片

Catalog 层级的引入解决以下问题：

数据源层级的映射：用户不再需要在 Database、Table 层级进行一一映射，可以通过 Catalog 直接映射整个数据源，自动同步其中的所有元信息，简化元数据映射逻辑

数据源统一信息管理：在 Catalog 层级统一维护指定数据源的属性，如连接信息、权限信息、同步方式等，更方便的管理多个数据源。

引入 Catalog 层级后，我们也对 Doris 的元数据进行调整和划分：

Internal Catalog：原有的自管理的 Table 和 Database 都归属于 Internal Catalog。

External Catalog：用于对接其他非自管理的外部数据源。比如 HMS External Catalog 可以连接到一个 Hive Metastore 管理的集群、Iceberg External Cataog 可以连接到 Iceberg 集群等。

用户可以使用 SWITCH语句切换不同的 Catalog，也可以通过全限定名方便的进行跨数据源的联邦查询，如：

SELECT * FROM hive.db1.tbl1 a JOIN iceberg.db2.tbl2 b
ON a.k1 = b.k1;

相关文档：https://doris.apache.org/zh-CN/docs/dev/lakehouse/multi-catalog

可扩展的元数据连接框架

基于新的元数据层级，用户可以通过 CREATE CATALOG语句方便的添加新的数据源：

CREATE CATALOG hive PROPERTIES (
    'type'='hms',
    'hive.metastore.uris' = 'thrift://172.21.0.1:7004',
);

在数据湖场景下，目前 Doris 支持的元数据服务包括：

Hive Metastore 兼容的元数据服务

Aliyun Data Lake Formation

AWS Glue

同时，开发者也可以自行扩展 External Catalog，只需要实现对应的访问接口，即可在 Doris 中快速接入新的元数据服务。

高效的元数据访问

元数据存储在外部数据源中，而对外部数据源的访问受到网络、数据源资源等限制，性能和可靠性是不可控的。所以 Doris 需要提供高效、可靠的元数据服务以保证线上服务的稳定运行，同时 Doris 也需要实时感知元数据的变更，提升数据访问的实时性。

查询性能较 Trino/Presto 3-10 倍提升！Apache Doris 极速数据湖分析深度解读_第3张图片

Doris 通过内存中的元数据缓存提供高效的元数据服务。元数据缓存包括列信息缓存，分区缓存，文件缓存。通过元信息缓存，可以显著提升元数据访问性能并降低对外部元数据服务的请求压力，使得 ****Doris 可以应对数千张表，数十万分区场景下，毫秒级别的元数据查询响应。

Doris 支持在 Catalog/Database/Table 级别，对元数据缓存进行手动刷新。同时，针对 Hive Metastore，Doris还支持通过监听 Hive Metastore Event 自动同步元数据，提供元数据秒级实时更新能力。

自定义鉴权服务

外部数据源通常拥有自己的权限管理服务，而很多企业也会使用统一的权限管理系统（例如 Apache Ranger）来管理多套数据系统。Doris ****支持通过自定义鉴权插件对接企业内部已有的权限管理系统，从而可以低成本的接入现有业务，完成授权、审计、数据加密等操作。

查询性能较 Trino/Presto 3-10 倍提升！Apache Doris 极速数据湖分析深度解读_第4张图片

具体实现上，用户可以基于 Doris 的 AccessController 接口实现插件对接相应的权限管理系统，并在创建 Catalog 时，指定对应的鉴权插件。通过这种机制，所有通过 Doris 对外部数据源的访问，都将统一使用自定义的插件完成鉴权、审计等操作。

数据访问

外部数据源的数据访问，主要集中在对存储系统的访问支持上。在数据湖场景下，主要是对 HDFS 以及各种 S3 兼容的对象存储的支持。目前 Apache Doris 支持的存储系统如下，并且仍在不断增加中：

查询性能较 Trino/Presto 3-10 倍提升！Apache Doris 极速数据湖分析深度解读_第5张图片

性能优化

在实现数据源的连接和访问后，下一个问题是我们如何结合 Apache Doris 自身优异的查询性能以及各类存储系统的特性，进行针对性的查询性能优化，这也是在构建 Lakehouse 过程中最需要解决的问题和权衡的因素。在具体实现过程中，Apache Doris 分别在数据读取、执行引擎、优化器方面进行了诸多优化。

数据读取

湖上数据通常存储在远端存储系统上，相较于本地存储，在数据的访问延迟、并发能力、IO 带宽上天然存在一定劣势。因此，在数据读取上，Apache Doris 从减少远端读取频率，降低读取量等方面出发进行了细致的优化。

Native File Format Reader

Parquet 和 ORC 是最常见的开放数据格式，这些数据格式本身提供了包括索引、编码、统计信息在内的多种特性，如何针对格式特性来提升文件读取效率是性能优化的关键一步。在早期的实现中，Apache Doris 是通过 Apache Arrow 来读取 Parquet/ORC 数据文件的，但这种方式存在以下问题：

数据格式转换的开销：Arrow Reader 需要先将文件读取成 Arrow 的内存格式，再转换到 Doris 自己的内存格式，两次数据转换带来额外的开销。

无法支持高级文件格式特性。如不支持 Parquet 的 Page Index，不支持 Bloom Fitler，无法实现谓词下推、延迟物化等功能。

基于以上问题，我们对 Flile reader 进行了重构，实现了全新的 Native File Format Reader。这里我们以 Parquet Reader 为例，介绍 Doris 的文件格式读取方面所做的优化：

减少格式转换。新的 File Reader 直接将文件格式转换成 Doris 的内存格式，并可以直接利用字典编码等功能转换到对应的更高性能的内存格式，以提升数据转换和处理的效率。

细粒度的智能索引。支持了 Parquet 的 Page Index，可以利用 Page 级别的智能索引对 Page 进行过滤。相比之前只能在 Row Group 级别过滤，Page Index 过滤粒度更细、过滤效果更好。

谓词下推和延迟物化。延迟物化的基本逻辑是先读取有过滤条件的列，再使用过滤后的行号读取其他列。这种方式能显著降低文件的读取量。这一点在远程文件读取场景下尤为重要，可以最大限度减少不必要的数据读取。

数据预读。将多次文件读取合并成一次，充分利用远端存储高吞吐、低并发的特性，提高数据的总体吞吐效率。

查询性能较 Trino/Presto 3-10 倍提升！Apache Doris 极速数据湖分析深度解读_第6张图片

File Cache

利用本地高性能磁盘对远端存储系统中的文件进行本地缓存，能最大限度的减少远程数据读取的开销，同时可以提供接近 Doris 内部表数据的访问性能。在本地文件缓存方面 Doris 进行了如下优化：

文件块缓存（Block Cache）。支持对远端文件进行 Block 级别的缓存。Block 的大小会根据读取请求自动调整，从 4KB 到 4MB 不等。Block 级别的缓存能有效减少缓存导致的读写放大问题，优化缓存冷启动场景下的数据读取延迟。

缓存一致性哈希。通过一致性哈希算法对缓存位置和数据扫描任务进行管理和调度，充分利用已缓存的数据提供服务，并避免节点上下线导致缓存大面积失效的问题，提升缓存命中率和查询服务的稳定性。

查询性能较 Trino/Presto 3-10 倍提升！Apache Doris 极速数据湖分析深度解读_第7张图片

通过 Flie Cache，在命中缓存的情况下，Apache Doris 可以提供和本地表一致的查询性能。

执行引擎

在执行引擎层面，我们希望能够完全复用 Apache Doris 的向量化执行引擎以及各类执行层面的算子优化，为数据湖提供极速的查询体验。因此，Apache Doris 对数据扫描（Scan）节点进行了重构，使得每一种新的数据源的接入，开发者只需要关注数据源本身的访问逻辑，无需重复地开发通用功能。

通用查询能力的分层

包括内表在内的所有数据查询，都会使用相同的 Join、Sort、Agg 等算子。唯一不同在于数据源的访问方式上，例如对本地内部格式数据的读取，或存储在 S3 上的 Parquet 格式数据的读取。因此 Doris 将不同数据源的查询逻辑差异下推到最底层的 Scan 节点上。Scan 节点之上，所有查询逻辑统一，Scan 节点之下，由具体的实现类负责不同数据源的访问逻辑。

Scan 算子的通用框架

对于 Scan 节点，不同数据源也有很多共性的方面，如子任务的拆分逻辑、子任务的调度、IO 的调度、谓词下推以及 Runtime Filter 的处理等。因此我们也对这一部分架构进行了重构。首先，将共性部分都以接口的形式对外暴露，如子任务的拆分、下推谓词的处理等；其次，对子任务实现了统一的调度管理逻辑，可以由统一的调度器管理整个节点 Scan 任务的执行。调度器拥有节点全局的信息，可以方便的实现更细粒度的Scan 任务调度策略。在这样的统一的数据查询框架下，大约 1 人周就可以完成一种新数据源接入。

查询性能较 Trino/Presto 3-10 倍提升！Apache Doris 极速数据湖分析深度解读_第8张图片

查询优化器

查询优化器层面的优化集中在统计信息收集和代价模型的推导方面。

Apache Doris 支持对不同数据源的统计信息收集，如 Hive Metastore、Iceberg Metafile、Hudi MetaTable 中存储的统计信息等。同时在代价模型推导方面，我们也针对外部数据源的特性做了细致的调整。基于这些优化，Doris 可以为复杂的外表查询提供更优的查询规划。

性能对比

以上优先项，我们分别在宽表场景（Clickbench）和多表关联场景（TPC-H）下与 Presto/Trino 进行了 Hive 数据集的查询性能对比。

查询性能较 Trino/Presto 3-10 倍提升！Apache Doris 极速数据湖分析深度解读_第9张图片

查询性能较 Trino/Presto 3-10 倍提升！Apache Doris 极速数据湖分析深度解读_第10张图片

可以看到，在相同计算资源和数据集下，无论是宽表场景或多表关联场景，绝大多数 SQL Apache Doris 的查询耗时都是大幅低于 Presto/Trino ，整体性能相比 Presto/ Trino 有 3-10 倍的提升。

负载管理与弹性计算

对外部数据源的查询并不依赖 Doris 的数据存储能力，这也为 Doris 实现弹性的无状态计算节点成为可能。在即将发布的 2.0 版本中，Apache Doris 还实现了弹性计算节点功能（Elastic Compute Node），可以专门用于支持外部数据源的查询负载。

查询性能较 Trino/Presto 3-10 倍提升！Apache Doris 极速数据湖分析深度解读_第11张图片

由于计算节点是无状态的，因此我们可以对这类节点进行快速扩缩容，以灵活地应对峰谷期的查询负载，在查询性能与成本消耗之间取得更好的平衡。

同时，Doris 也针对 k8s 场景下的集群管理和节点调度进行了优化，Master 节点可以自动管理弹性计算节点的上下线，方便业务在云原生场景、混合云场景下都能便捷的管理集群负载。

案例实践

随着以上功能的完善与性能的提升，Apache Doris 已经被多家社区用户应用于数据湖分析，在真实业务中发挥着重要的作用，在此以某金融企业的风控场景为例。

金融风控场景往往对数据的实时性有着更高的要求，早期基于 Greenplum 和 CDH 搭建的风控数据集市已经无法满足其高时效性的需求，T+1 的数据生产模式成为业务迅速发展的掣肘，因此该企业于 2022 年引入 Apache Doris 并改造了整个数据生产和应用流程，实现对 Elasticsearch、Greenplum 以及 Hive 的联邦分析，整体效果包括：

只需创建一个 Hive Catalog 即可对现存的数万张 Hive 表进行查询分析，查询性能得到极大幅度提升；

利用 Elasticsearch Catalog 实现对 ES 实时数据的联邦分析，数据时效性从过去的分钟级提升至秒级甚至毫秒级，满足了风控策略的实时性要求；

将日常跑批与统计分析进行解耦，降低资源消耗的同时使系统稳定性得到进一步增强。

查询性能较 Trino/Presto 3-10 倍提升！Apache Doris 极速数据湖分析深度解读_第12张图片

未来规划

后续 Apache Doris 将持续在 Lakehouse 方向进行迭代和升级，下一步的工作将围绕在更丰富的数据源支持、数据集成和资源隔离与调度等方面：

更丰富的数据源支持

随着数据湖在各种业务场景中的不断落地，数据湖本身的功能也在不断迭代以满足越来越多样的业务需求。Doris也将和各个开源社区紧密合作，提供更完善的数据湖分析支持。

Hudi Merge-On-Read 表的 Incremental Query 支持

利用 Iceberg/Hudi 丰富的索引功能，结合查询优化器提供更低延迟的分析性能。

支持包括 Delta Lake、Flink Table Store 等更多数据湖格式。

数据集成

具体到功能层面，数据集成可以分为数据的读取和写回两部分。

数据读取方面，Doris 将进一步整合数据湖的数据访问特性，包括：

数据湖 CDC 的接入以及增量物化视图的支持，为用户提供近实时的数据视图。

支持 Git-Like 的数据访问模式，通过多版本、Branch 等机制，在数据安全、数据质量等方面为用户提供更便捷的数据管理模式。

数据写回功能的支持，帮助 Doris 进一步完善统一数据分析网关的生态闭环。用户可以使用 Doris 作为统一数据管理入口，管理各个数据源中的数据，包括加工后数据的写回、数据导出等，对业务提供统一的数据视图。

资源隔离与调度

随着越来越多数据源的接入，Doris 也在逐步承接不同的工作负载，比如在提供低延迟的在线服务的同时，对 Hive 中 T-1 的数据进行批量处理。所以同集群内的资源隔离会愈发重要。

Doris 会持续优化弹性计算节点在不同场景下的调度管理逻辑，同时会支持更细粒度的节点内资源隔离，如 CPU、IO、内存等，帮助 Doris 支持多样且稳定的工作负载。

加入我们

目前社区已成立 Lakehouse SIG（湖仓兴趣小组），汇集了来自多家企业的开发者，旨在共同打造 Apache Doris 的 Lakehouse 场景支持，欢迎感兴趣的同学加入我们。

说下 Oracle 中有哪几种文件？思维导图代码示例（java 架构) 用心去追梦 oracle java 架构
在Oracle数据库中，存在多种类型的文件来支持其正常运作和数据管理。这些文件对于确保数据库的性能、安全性和可靠性至关重要。以下是Oracle数据库中常见的几种文件类型及其用途。Oracle数据库中的文件类型数据文件(DataFiles)用于存储表空间中的实际用户数据。重做日志文件(RedoLogFiles)记录所有对数据库所做的更改，以确保在故障发生时可以恢复数据。控制文件(ControlFil
【毕业程序设】52-基于微信小程序游泳馆管理系统 AXiaoFighting 毕业设计（微信小程序系统）微信小程序小程序开发语言学习 spring boot java-ee maven
系列文章【毕业程序设】52-基于微信小程序游泳馆管理系统文章目录系列文章【毕业程序设】一、系统简介二、运行环境三、内容包括四、主要功能五、视频展示六、获取源码一、系统简介游泳池管理系统是基于微信小程序开发，其后端采用java编程语言，mysql数据库，ssm框架和idea开发工具开发；本系统主要分为用户和管理员两个角色，其中用户的主要功能有：注册和登陆系统，查看游泳馆，泳池信息，在线预约泳池信息，
静态测试方法测试-东方不败之鸭梨测试基础测试静态测试
本文讨论人工静态测试方法和自动静态测试方法，来帮你理解研发流程上是如何保证代码质量的，以及如何搭建自己的自动静态代码扫描方案，并且应用到项目的日常开发工作中去。静态测试静态测试更容易和/或更经济地发现的典型缺陷包括：需求缺陷（例如，不一致、含糊不清、矛盾、遗漏、不准确、重复）。设计缺陷（例如，低效的数据库结构、模块化程度低）。特定类型的代码缺陷（例如，未定义值的变量、未声明的变量、无法访问或重复的
前端所谓的全栈和大前端有什么区别？ yuxingwu9872 前端
在当今的软件开发领域，前端技术不断发展和演进，产生了许多新的概念和术语。其中，“全栈”和“大前端”是两个经常被提及的词汇，它们各自代表着不同的开发理念和技术范畴。在本文中，我们将深入探讨前端所谓的全栈和大前端之间的区别。首先，我们来了解一下全栈的概念。全栈工程师是指具备前端开发、后端开发、数据库管理等多方面技能的开发人员。他们能够独立完成整个项目的开发和维护，从需求分析、设计、编码到测试、部署等各
HTML5 本地数据库及应用天涯学馆大前端&移动端全栈架构 html5 数据库前端
HTML5本地数据库及应用目录WebSQL数据库创建与打开执行SQL插入、查询、更新、删除数据事务处理限制与弃用IndexDB打开数据库创建/修改对象插入数据查询数据更新和删除数据索引优化查询WebSQLWebSQL是HTML5规范中提出的一种基于SQL的客户端数据库存储技术，允许在浏览器端创建和操作关系型数据库。尽管WebSQL曾被纳入HTML5草案，但由于种种原因（如标准化进程停滞、缺乏跨浏览
【Oracle11g SQL详解】创建与管理视图：`CREATE VIEW`、`ALTER VIEW` 和 `DROP VIEW` 爱技术的小伙子 Oracle 11g sql 数据库
创建与管理视图：CREATEVIEW、ALTERVIEW和DROPVIEW视图（View）是SQL中的一种虚拟表，是从数据库中一个或多个表的查询结果创建的。它不存储实际数据，而是存储查询的定义，用户可以像使用表一样使用视图。在实际业务中，视图被广泛用于数据抽象、权限管理、简化复杂查询等场景。一、CREATEVIEW：创建视图1.语法CREATEVIEWview_nameASSELECTcolumn
【实用技能】如何在 Navicat 17 中创建自定义 PostgreSQL 聚合 CodeCraft Studio 数据库开发开发工具数据库 postgresql
PostgreSQL的突出特点之一是广泛支持用户定义的函数和数据类型。这允许开发人员创建自定义转换、运算符和聚合函数。聚合函数是对数据执行复杂计算和转换的有效方式，超越了SUM、AVG和COUNT等标准SQL聚合函数。NavicatforPostgreSQL（最新版下载试用）和NavicatPremium（最新版下载试用）都有专门的图形用户界面（GUI），可以轻松编写与数据库无缝集成的自定义函数和
python操作mysql 码农~明哥 python python android
前言在Python3中，我们可以使用mysqlclient或者pymysql三方库来接入MySQL数据库并实现数据持久化操作。二者的用法完全相同，只是导入的模块名不一样。我们推荐大家使用纯Python的三方库pymysql，因为它更容易安装成功。下面我们仍然以之前创建的名为hrs的数据库为例，为大家演示如何通过Python程序操作MySQL数据库实现数据持久化操作。接入MySQL首先，我们可以在命
【实用技能】如何借助Excel处理控件Aspose.Cells，使用 C# 锁定 Excel 中的单元格 CodeCraft Studio 文档管理控件 excel c#开发语言
锁定Excel中的单元格对于数据完整性至关重要。它可以防止用户更改重要信息。此功能广泛用于财务、项目管理和数据分析。通过锁定单元格，您可以确保关键数据保持不变。这可以增强协作并减少错误。在这篇博文中，我们将探讨如何使用C#锁定Excel中的单元格。C#Excel库用于锁定或解锁单元格Aspose.Cellsfor.NET是一个功能强大的Excel文件处理库。它简化了Excel中锁定单元格等任务。使
Kafka 之详解(Detailed Explanation of Kafka） Linux运维老纪奋力拼搏让企业网站更好 kafka 分布式
一、Kafka简介ApacheKafka是一款分布式发布-订阅消息系统，由LinkedIn公司在2010年贡献给Apache基金会，并成为顶级开源项目。它有着独特的定位与特点，是一种快速、可扩展，且内在设计就是分布式、分区的以及可复制的提交日志服务。需要注意的是，Kafka并未遵循JMS规范，仅提供发布和订阅这一通讯方式。其官方中文网站为http://kafka.apachecn.org/quic
Caused by: java.io.NotSerializableException: org.apache.kafka.common.metrics.MetricConfig Slient-猿 flink flink kafka
flink自定义数据源的开发过程中遇到这样一个错误。错误原因：在于KafkaConsumer的初始化放在了定义处。解决：应该放在open方法内初始化。DataStreamSourcedataStreamSource=env.addSource(newKafkaSourceFunction());//获取数据kafka消费数据获取DataStreamSourcedata=env.addSource(
Flink的DataSource三部曲之一：直接API 字节全栈_rJF flink 大数据
mvn\archetype:generate\-DarchetypeGroupId=org.apache.flink\-DarchetypeArtifactId=flink-quickstart-java\-DarchetypeVersion=1.9.2现在maven工程已生成，用IDEA导入这个工程，如下图：以maven的类型导入：导入成功的样子：项目创建成功，可以开始写代码实战了；辅助类Spl
ElasticSearch view 稚辉君.MCA_P8_Java CentOS7.6 Kubernetes Cluster 高可用Kubernetes集群 elasticsearch linux 全文检索搜索引擎大数据
基础知识类elasticsearch和数据库之间区别？elasticsearch：面向文档，数据以文档的形式存储，即JSON格式的对象。更强调数据的搜索、索引和分析。数据库：更侧重于事务处理、数据的严格结构化和完整性，适用于关系复杂、数据一致性要求高的业务场景。elasticsearch和核心组件包含哪些？节点（Node）：elasticsearch集群中一个服务器实例，负责存储数据、处理请求等，
大语言模型丨ChatGPT-4o深度科研应用、论文与项目撰写、数据分析、机器学习、深度学习及AI绘图（BP神经网络、支持向量机、决策树、随机森林、变量降维与特征选择、群优化算法等）赵钰老师 ChatGPT python 人工智能语言模型深度学习数据分析 chatgpt 机器学习随机森林
目录第一章、2024大语言模型最新进展与ChatGPT各模型第二章、ChatGPT-4o提示词使用方法与高级技巧（最新加入思维链及逆向工程及GPTs）第三章、ChatGPT4-4o助力日常生活、学习与工作第四章、基于ChatGPT-4o课题申报、论文选题及实验方案设计第五章、基于ChatGPT-4o信息检索、总结分析、论文写作与投稿、专利idea构思与交底书的撰写第六章、ChatGPT-4o编程入
Django 模型 wjs2024 开发语言
Django模型Django模型是Django框架的核心组件之一，它用于定义应用程序的数据结构。在Django中，模型是Python类，通常继承自django.db.models.Model。每个模型类代表数据库中的一个表，模型类的属性对应表中的字段。1.创建模型创建Django模型非常简单。首先，你需要定义一个继承自django.db.models.Model的类，然后在类中定义模型字段。例如，
如何使用Spark Streaming 会探索的小学生 spark 大数据分布式
一、什么叫SparkStreaming基于SparkCore，大规模、高吞吐量、容错的实时数据流的处理二、SparkStreaming依赖org.apache.sparkspark-streaming_2.112.1.2三、什么叫DStreamDStream：DiscretizedStream离散流，这是SparkStreaming对内部持续的实时数据流的抽象描述，即我们处理的一个实时数据流，在S
数据库--oracle--如何在Ubuntu上安装Oracle cuijr_leaf oracle 数据库
写在前面：下面的内容是国外的一篇教程，我跟着做了一遍，没有什么问题，所以翻译过来供大家参考。环境：oracle12cubuntu18.04（我是在Ubuntu16.04上装的，也没什么问题）正文：欢迎你！这篇教程会教你如何一步步地在Ubuntu18.04服务器上安装Oracle12cR2数据库。这篇教程中包含所有你必须要执行的命令以及部分截图。整个过程可能有点儿难，所以需要你对shell命令有一定
MVC 模式与javaEE三层架构剥包谷 java javaWeb-mvc 三层架构
MVC设计模式mvc这种设计模式，不光运用于Web领域，而且也能用于非Web领域；可以特指一种表现层设计模式，不限于Java语言；JavaWeb应用中应用的最广泛的设计模式便是MVC模式，目前的主流Web框架大多也是基于MVC设计模式所编写的。MVC模式主要分为以下三个基础模块：Model模型：主要负责、javaBean封装数据、业务逻辑以及数据库的交互View视图：主要用于显示数据和提交数据Co
python封装sql脚本_Python数据库封装实现代码示例解析 weixin_39647412 python封装sql脚本
Django中(原生mysql封装)1.函数封装importpymysql#查所数据defget_all(sql):conn=pymysql.connect(host="localhost",user="root",password="root",database="db6")cur=conn.cursor(cursor=pymysql.cursors.DictCursor)cur.execute
MYSQL8+CENTOS7.6 主从+keepalived搭建总结 CRMEB定制开发数据库 centos linux mysql java
一、环境准备总共3个IP地址：2个物理机IP，1个VIPMASTER：10.18.96.15SLAVE:10.18.96.16VIP：10.18.96.17操作系统：CENTOS7.6数据库：MYSQL8.0.20我的硬件资源是8核16GMYSQL8下载地址：依赖下载地址：（CMAKE如果使用YUM源安装了CMAKE3，也可以不下载了）二、依赖安装在安装MYSQL8之前，得先有前置准备，否则就是各
Python连接Oracle数据库：cx_Oracle与oracledb库的比较与选择码上富贵数据库 python oracle
文章目录一、概述cx_Oracleoracledb二、安装OracleInstantclient三、Python测试cx_Oracle：oracledb：一、概述Python访问Oracle可以通过两种Oracle官方库：旧驱动：cx_Oracle（需要安装OracleInstantclient）新驱动：oracledb（Oracle数据库12.1或更高版本不需要安装OracleInstantcl
数据库管理-第287期 Oracle DB 23.7新特性一览（20250124）胖头鱼的鱼缸（尹海文） Oracle 数据库 oracle
数据库管理287期2025-01-24数据库管理-第287期OracleDB23.7新特性一览（20250124）1AI向量搜索：算术和聚合运算2更改Compatible至23.6.0，以使用23.6或更高版本中的新AI向量搜索功能3CloudDeveloper包4DBMS_DEVELOPER.GET_METADATA：用于检索数据库对象元数据的API5PL/SQL中的维度算法支持6二元性视图放宽
【python】在【机器学习】与【数据挖掘】中的应用：从基础到【AI大模型】小李很执着杂乱无章机器学习数据挖掘 python 人工智能语言模型
目录一、Python在数据挖掘中的应用1.1数据预处理数据清洗数据变换数据归一化高级预处理技术1.2特征工程特征选择特征提取特征构造二、Python在机器学习中的应用2.1监督学习分类回归2.2非监督学习聚类降维三、Python在深度学习中的应用3.1深度学习框架TensorFlowPyTorch四、Python在AI大模型中的应用4.1大模型简介4.2GPT-4o实例五、实例验证5.1数据集介绍
最新性能测试:Kafka、Pulsar 和 Pravega 哪个最强? 起码有故事程序员软件测试 IT 程序人生测试工程师单元测试软件测试 python
本文会对Pravega进行性能评估，重点关注读写性能。1简介为了对比不同的设计选择，我们还额外展示了来自其它系统的性能结果：ApacheKafka和ApachePulsar。Pulsar和Kafka最初都被作为优秀的消息系统而为人熟知，但它们最近都做出了很大努力向存储系统方向发展，这两个系统最近都新增了分层存储的特性。然而，它们的设计选择具有根本性的不同，并导致了不同的行为以及性能特点。我们将会在
MySQLDBA修炼之道-开发篇（一）滔_GY MySQL DBA修炼之道-读书笔记数据库 oracle mysql
三、开发基础1.数据模型1.1关系数据模型介绍关于NULL如果某个字段的值是未知的或未定义的，数据库会提供一个特殊的值NULL来表示。NULL值很特殊，在关系数据库中应该小心处理。例如查询语句“select*fromemployeewhere绩效得分绩效得分>85；”就不能查询出绩效得分是未知的（NULL）的数据。关于key和索引key常指表中能唯一标识一笔记录的字段（属性）或多个字段的组合。现实
开源的Text-to-SQL工具WrenAI rkmhr_sef 面试学习路线阿里巴巴开源 sql 数据库
WrenAI是一个开源的Text-to-SQL工具，旨在通过自然语言交互界面，帮助用户更便捷地查询数据库。以下是对WrenAI的详细介绍：一、主要功能自然语言交互：用户可以通过对话方式提出问题，WrenAI能够理解和解析复杂的查询需求，并生成定制化的SQL查询结果。语义引擎：WrenAI配备了强大的语义引擎，能够映射业务术语到数据源，定义关系，并整合预定义的计算和聚合，从而提高查询精度。支持多种模
Python与MySQL数据库操作教程咱家阿星 python mysql 数据库 python mysql
Python与MySQL数据库操作教程MySQL是一种常用的存储系统，内容仅为基础知识.本文包含:第一部分介绍如何通过mysql-connector-python进行基础数据库操作，第二部分包括SQL语法、事务、锁的基础知识。本文不包括:Mysql的安装过程.Python基础请看:Python基础语法一、Python操作Mysql1.Python-Mysql模块下载先确保已安装mysql-conn
【全网最详细】MySQL教程(1)-数据库类型 star010- 网络攻防实战指北 mysql
前言概念比较枯燥，了解一下即可数据库基本概念数据定义：所谓数据（Data）是指对客观事物进行描述并可以鉴别的符号，这些符号是可识别的、抽象的。它不仅仅指狭义上的数字，而是有多种表现形式：字母、文字、文本、图形、音频、视频等。现在计算机存储和处理的数据范围十分广泛，而描述这些数据的符号也变得越来越复杂了。数据库（Database）定义：按照一定格式存放数据的集合。特点：数据以结构化方式存储，便于管理
python web开发（完） HIST-柒月初柒 python 前端开发语言
本篇就把代码都放出来上面就是文件夹格式app.py#pipinstallFlaskimportatexitimportjsonfromflaskimportFlask,render_template,request,redirect,url_forapp=Flask(__name__)ls=[]#使用列表模拟数据库，所有学生信息存储在ls里面#假设的用户信息定义了一个字典users，包含了一些假设
从MySQL到NoSQL：分析传统关系型数据库与NoSQL数据库的协同哎你看数据库 mysql nosql
引言数据库是一个系统，用来管理和存储数据的地方。数据在数据库中以一种结构化的方式组织，这样能更容易地查询和处理数据。关系型数据库是基于关系模型的数据库，它将数据存储在不同的表中，每个表都有各自的独一无二的主键。表与表之间通过共享的数据项相互关联。像MySQL,Oracle,SQLServer,PostgreSQL等都是关系型数据库。关系型数据库非常适合存储结构化的数据。结构化的数据是按照预定义的模
深入浅出Java Annotation(元注解和自定义注解） Josh_Persistence Java Annotation 元注解自定义注解
一、基本概述　　 Annontation是Java5开始引入的新特征。中文名称一般叫注解。它提供了一种安全的类似注释的机制，用来将任何的信息或元数据（metadata）与程序元素（类、方法、成员变量等）进行关联。　　更通俗的意思是为程序的元素（类、方法、成员变量）加上更直观更明了的说明，这些说明信息是与程序的业务逻辑无关，并且是供指定的工具或
mysql优化特定类型的查询 annan211 java 工作 mysql
本节所介绍的查询优化的技巧都是和特定版本相关的，所以对于未来mysql的版本未必适用。 1 优化count查询对于count这个函数的网上的大部分资料都是错误的或者是理解的都是一知半解的。在做优化之前我们先来看看真正的count()函数的作用到底是什么。 count()是一个特殊的函数，有两种非常不同的作用，他可以统计某个列值的数量，也可以统计行数。在统
MAC下安装多版本JDK和切换几种方式棋子chessman jdk
环境： MAC AIR,OS X 10.10,64位历史：过去 Mac 上的 Java 都是由 Apple 自己提供，只支持到 Java 6，并且OS X 10.7 开始系统并不自带（而是可选安装）（原自带的是1.6）。后来 Apple 加入 OpenJDK 继续支持 Java 6，而 Java 7 将由 Oracle 负责提供。在终端中输入jav
javaScript （1） Array_06 JavaScript java 浏览器
JavaScript 1、运算符　　运算符就是完成操作的一系列符号，它有七类：　　赋值运算符（=,+=,-=,*=,/=,%=,<<=,>>=,|=,&=）、算术运算符(+,-,*,/,++,--,%)、比较运算符(>,<,<=,>=,==,===,!=,!==)、逻辑运算符(||,&&,!)、条件运算(?:)、位
国内顶级代码分享网站袁潇含 java jdk oracle .net PHP
现在国内很多开源网站感觉都是为了利益而做的当然利益是肯定的,否则谁也不会免费的去做网站 &
Elasticsearch、MongoDB和Hadoop比较随意而生 mongodb hadoop 搜索引擎
IT界在过去几年中出现了一个有趣的现象。很多新的技术出现并立即拥抱了“大数据”。稍微老一点的技术也会将大数据添进自己的特性，避免落大部队太远，我们看到了不同技术之间的边际的模糊化。假如你有诸如Elasticsearch或者Solr这样的搜索引擎，它们存储着JSON文档，MongoDB存着JSON文档，或者一堆JSON文档存放在一个Hadoop集群的HDFS中。你可以使用这三种配
mac os 系统科研软件总结张亚雄 mac os
1.1 Microsoft Office for Mac 2011 大客户版，自行搜索。 1.2 Latex （MacTex）: 系统环境：https://tug.org/mactex/ &nb
Maven实战（四）生命周期 AdyZhang maven
1. 三套生命周期 Maven拥有三套相互独立的生命周期，它们分别为clean，default和site。每个生命周期包含一些阶段，这些阶段是有顺序的，并且后面的阶段依赖于前面的阶段，用户和Maven最直接的交互方式就是调用这些生命周期阶段。以clean生命周期为例，它包含的阶段有pre-clean, clean 和 post
Linux下Jenkins迁移 aijuans Jenkins
1. 将Jenkins程序目录copy过去源程序在/export/data/tomcatRoot/ofctest-jenkins.jd.com下面 tar -cvzf jenkins.tar.gz ofctest-jenkins.jd.com &
request.getInputStream()只能获取一次的问题 ayaoxinchao request Inputstream
问题：在使用HTTP协议实现应用间接口通信时，服务端读取客户端请求过来的数据，会用到request.getInputStream()，第一次读取的时候可以读取到数据，但是接下来的读取操作都读取不到数据原因： 1. 一个InputStream对象在被读取完成后，将无法被再次读取，始终返回-1； 2. InputStream并没有实现reset方法（可以重
数据库SQL优化大总结之百万级数据库优化方案 BigBird2012 SQL优化
网上关于SQL优化的教程很多，但是比较杂乱。近日有空整理了一下，写出来跟大家分享一下，其中有错误和不足的地方，还请大家纠正补充。这篇文章我花费了大量的时间查找资料、修改、排版，希望大家阅读之后，感觉好的话推荐给更多的人，让更多的人看到、纠正以及补充。 1.对查询进行优化，要尽量避免全表扫描，首先应考虑在 where 及 order by 涉及的列上建立索引。 2.应尽量避免在 where
jsonObject的使用 bijian1013 java json
在项目中难免会用java处理json格式的数据，因此封装了一个JSONUtil工具类。 JSONUtil.java package com.bijian.json.study; import java.util.ArrayList; import java.util.Date; import java.util.HashMap;
[Zookeeper学习笔记之六]Zookeeper源代码分析之Zookeeper.WatchRegistration bit1129 zookeeper
Zookeeper类是Zookeeper提供给用户访问Zookeeper service的主要API，它包含了如下几个内部类首先分析它的内部类，从WatchRegistration开始，为指定的znode path注册一个Watcher， /** * Register a watcher for a particular p
【Scala十三】Scala核心七：部分应用函数 bit1129 scala
何为部分应用函数？ Partially applied function: A function that’s used in an expression and that misses some of its arguments.For instance, if function f has type Int => Int => Int, then f and f(1) are p
Tomcat Error listenerStart 终极大法 ronin47 tomcat
Tomcat报的错太含糊了，什么错都没报出来，只提示了Error listenerStart。为了调试，我们要获得更详细的日志。可以在WEB-INF/classes目录下新建一个文件叫logging.properties，内容如下 Java代码 handlers = org.apache.juli.FileHandler, java.util.logging.ConsoleHa
不用加减符号实现加减法 BrokenDreams 实现
今天有群友发了一个问题，要求不用加减符号(包括负号)来实现加减法。分析一下，先看最简单的情况，假设1+1，按二进制算的话结果是10，可以看到从右往左的第一位变为0，第二位由于进位变为1。
读《研磨设计模式》-代码笔记-状态模式-State bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* 当一个对象的内在状态改变时允许改变其行为，这个对象看起来像是改变了其类状态模式主要解决的是当控制一个对象状态的条件表达式过于复杂时的情况把状态的判断逻辑转移到表示不同状态的一系列类中，可以把复杂的判断逻辑简化如果在
CUDA程序block和thread超出硬件允许值时的异常 cherishLC CUDA
调用CUDA的核函数时指定block 和 thread大小，该大小可以是dim3类型的（三维数组），只用一维时可以是usigned int型的。以下程序验证了当block或thread大小超出硬件允许值时会产生异常！！！GPU根本不会执行运算！！！所以验证结果的正确性很重要！！！在VS中创建CUDA项目会有一个模板，里面有更详细的状态验证。以下程序在K5000GPU上跑的。
诡异的超长时间GC问题定位 chenchao051 jvm cms GC hbase swap
HBase的GC策略采用PawNew+CMS, 这是大众化的配置，ParNew经常会出现停顿时间特别长的情况，有时候甚至长到令人发指的地步，例如请看如下日志： 2012-10-17T05:54:54.293+0800: 739594.224: [GC 739606.508: [ParNew: 996800K->110720K(996800K), 178.8826900 secs] 3700
maven环境快速搭建 daizj 安装 mavne 环境配置
一下载maven 安装maven之前，要先安装jdk及配置JAVA_HOME环境变量。这个安装和配置java环境不用多说。 maven下载地址：http://maven.apache.org/download.html，目前最新的是这个apache-maven-3.2.5-bin.zip，然后解压在任意位置，最好地址中不要带中文字符，这个做java 的都知道，地址中出现中文会出现很多
PHP网站安全，避免PHP网站受到攻击的方法 dcj3sjt126com PHP
对于PHP网站安全主要存在这样几种攻击方式:1、命令注入(Command Injection)2、eval注入(Eval Injection)3、客户端脚本攻击(Script Insertion)4、跨网站脚本攻击(Cross Site Scripting, XSS)5、SQL注入攻击(SQL injection)6、跨网站请求伪造攻击(Cross Site Request Forgerie
yii中给CGridView设置默认的排序根据时间倒序的方法 dcj3sjt126com GridView
public function searchWithRelated() { $criteria = new CDbCriteria; $criteria->together = true; //without th
Java集合对象和数组对象的转换 dyy_gusi java集合
在开发中，我们经常需要将集合对象（List，Set）转换为数组对象，或者将数组对象转换为集合对象。Java提供了相互转换的工具，但是我们使用的时候需要注意，不能乱用滥用。 1、数组对象转换为集合对象最暴力的方式是new一个集合对象，然后遍历数组，依次将数组中的元素放入到新的集合中，但是这样做显然过
nginx同一主机部署多个应用 geeksun nginx
近日有一需求，需要在一台主机上用nginx部署2个php应用，分别是wordpress和wiki，探索了半天，终于部署好了，下面把过程记录下来。 1. 在nginx下创建vhosts目录，用以放置vhost文件。 mkdir vhosts 2. 修改nginx.conf的配置，在http节点增加下面内容设置，用来包含vhosts里的配置文件 #
ubuntu添加admin权限的用户账号 hongtoushizi ubuntu useradd
ubuntu创建账号的方式通常用到两种：useradd 和adduser . 本人尝试了useradd方法，步骤如下： 1:useradd 使用useradd时，如果后面不加任何参数的话，如：sudo useradd sysadm 创建出来的用户将是默认的三无用户：无home directory ,无密码,无系统shell。顾应该如下操作：
第五章常用Lua开发库2-JSON库、编码转换、字符串处理 jinnianshilongnian nginx lua
JSON库在进行数据传输时JSON格式目前应用广泛，因此从Lua对象与JSON字符串之间相互转换是一个非常常见的功能；目前Lua也有几个JSON库，本人用过cjson、dkjson。其中cjson的语法严格（比如unicode \u0020\u7eaf），要求符合规范否则会解析失败（如\u002），而dkjson相对宽松，当然也可以通过修改cjson的源码来完成
Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解 yaerfeng1989 timer quartz 定时器
原创整理不易，转载请注明出处：Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解代码下载地址：http://www.zuidaima.com/share/1772648445103104.htm 有两种流行Spring定时器配置：Java的Timer类和OpenSymphony的Quartz。 1.Java Timer定时首先继承jav
Linux下df与du两个命令的差别？ pda158 linux
　一、df显示文件系统的使用情况，与du比較，就是更全盘化。　　最经常使用的就是 df -T，显示文件系统的使用情况并显示文件系统的类型。　　举比例如以下：　　[root@localhost ~]# df -T 　　Filesystem Type &n
[转]SQLite的工具类 ---- 通过反射把Cursor封装到VO对象 ctfzh VO android sqlite 反射 Cursor
在写DAO层时，觉得从Cursor里一个一个的取出字段值再装到VO(值对象)里太麻烦了，就写了一个工具类，用到了反射，可以把查询记录的值装到对应的VO里，也可以生成该VO的List。使用时需要注意：考虑到Android的性能问题，VO没有使用Setter和Getter，而是直接用public的属性。表中的字段名需要和VO的属性名一样，要是不一样就得在查询的SQL中
该学习笔记用到的Employee表 vipbooks oracle sql 工作
这是我在学习Oracle是用到的Employee表，在该笔记中用到的就是这张表，大家可以用它来学习和练习。 drop table Employee; -- 员工信息表 create table Employee( -- 员工编号 EmpNo number(3) primary key, -- 姓