xu-ning

Hudi

数据湖技术选型 - Hudi ；Iceberg ；Data Lake

Hudi

Hudi 的前世今生：

1.1.1 什么是Apache Hudi

1.1.2 Hudi 支持的文件格式

1.1.3 表格式

1.1.2 使用Hudi的优点

1.1.3 Hoodie 的基本概念梳理

1.1.4 Hudi的设计动机

1.1.5 Hudi可以避免小文件问题

1.1.6 Hudi 典型应用场景 --- 近实时摄取 / 分析、增量处理管道、DFS上数据分发

2. Hive和Presto与hudi的集成

2.1 hive

2.2 Presto

3. DeltaStreamer工具写数据到Hudi

4. Hudi可以避免小文件问题

4.1.1 Hudi 避免小文件问题

4.1.2 Clustering架构

5. Hudi代码源码

5.1 CopyonWrite 模式操作(默认模式)

5.2 Hudi 源码

5.3.1 删除hudi中的数据

6. 使用Spark操作hudi

7. 问题整理

1. Merge on Read问题

2. spark pom依赖问题

3. hive视图同步问题

数据湖技术选型 - Hudi ；Iceberg ；Data Lake

点卡这个链接，你就清晰明了了。source ：深度对比Delta、Iceberg和Hudi三大开源数据湖方案-InfoQ

Data Lake 支持的文件格式单一，基本被Pass了。

Hudi： Apache Hudi 是由 Uber 的工程师为满足其内部数据分析的需求而设计的数据湖项目，它提供的 fast upsert/delete 以及 compaction 等功能可以说是精准命中广大人民群众的痛点，加上项目各成员积极地社区建设，包括技术细节分享、国内社区推广等等，也在逐步地吸引潜在用户的目光。

Apache Iceberg ：目前看则会显得相对平庸一些，简单说社区关注度暂时比不上 Delta，功能也不如 Hudi 丰富，但却是一个野心勃勃的项目，因为它具有高度抽象和非常优雅的设计，为成为一个通用的数据湖方案奠定了良好基础。但是因为 Iceberg 是一个统一的数据组织格式，想要全面使用的话必须使所有的上层引擎能够对接适配，因此这一块环节的补足是当前最为重要的。

Delta 和 Hudi 两个项目在开源社区的建设和推动方面，做的比较好。

Hudi

source ： Apache Hudi入门指南（含代码示例）

source ： Apache Hudi 介绍与应用 - ZacksTang - 博客园 (cnblogs.com)

源码git 下载： https://github.com/apache/hudi/releases/tag/release-0.9.0

Hudi 的前世今生：

Uber 的业务场景主要为：将线上产生的行程订单数据，同步到一个统一的数据中心，然后供上层各个城市运营同事用来做分析和处理。在 2014 年的时候，Uber 的数据湖架构相对比较简单，业务日志经由 Kafka 同步到 S3 上，上层用 EMR 做数据分析；线上的关系型数据库以及 NoSQL 则会通过 ETL（ETL 任务也会拉去一些 Kakfa 同步到 S3 的数据）任务同步到闭源的 Vertica 分析型数据库，城市运营同学主要通过 Vertica SQL 实现数据聚合。当时也碰到数据格式混乱、系统扩展成本高（依赖收 Vertica 商业收费软件）、数据回填麻烦等问题。后续迁移到开源的 Hadoop 生态，解决了扩展性问题等问题，但依然碰到 Databricks 上述的一些问题，其中最核心的问题是无法快速 upsert 存量数据。

ETL 任务每隔 30 分钟定期地把增量更新数据同步到分析表中，全部改写已存在的全量旧数据文件，导致数据延迟和资源消耗都很高。此外，在数据湖的下游，还存在流式作业会增量地消费新写入的数据，数据湖的流式消费对他们来说也是必备的功能。所以，他们就希望设计一种合适的数据湖方案，在解决通用数据湖需求的前提下，还能实现快速的 upsert 以及流式增量消费。

Uber 团队在 Hudi 上同时实现了 Copy On Write 和 Merge On Read 的两种数据格式，其中 Merge On Read 就是为了解决他们的（快插） fast upsert 而设计的。简单来说，就是每次把增量更新数据都写入到一批独立的 delta 文件集，定期地通过 compaction 合并 delta 文件和存量的 data 文件。同时给上层分析引擎提供三种不同的读取视角：仅读取 delta 增量文件、仅读取 data 文件、合并读取 delta 和 data 文件。

1.1.1 什么是Apache Hudi

source ：Apache Hudi - 数据湖平台|阿帕奇胡迪！

source ： Apache Hudi入门指南（含代码示例） - 云+社区 - 腾讯云 (tencent.com)

一个spark 库大数据更新解决方案，大数据中没有传统意义的更新，只有 append和重写(Hudi就是采用重写方式)

Hudi 充分利用了像 HDFS 之类的存储模式所支持的“append"特性。这有助于 Hudi 提供流式写入，而不会导致文件计数 / 表元数据激增。不幸的是，目前大多数云 / 对象存储都不提供“append”功能（Azure 除外）。未来我们计划利用主流云对象存储的低级 API，在流式摄取延迟时提供对文件计数的类似控制。

XN：现在还是用的重写模式。将来有望使用类似append的的方式写入。

格式转化： Hudi 并非设计为通用表格格式( 表格格式知识表格元数据的表示 )，用于跟踪文件、文件夹以进行批处理。相反hudi 致力于构建自己的原生表格，着眼于增量处理。用户可以从hudi转换为其他格式。

状态存储：若想构建一个支持高校更新和提取数据流的数据库，同时保持针对大批量的查询的优化。可以使用hudi 作为状态存储和可更新接收器来构建增量管道。

数据湖用户将数据写入开放的文件格式（如 Apache Parquet / ORC），这些文件格式存储在高度可扩展的云存储或分布式文件系统之上。Hudi 提供了一个自管理的数据平面来摄取、转换和管理这些数据并解锁了对它们进行增量处理的方式。

1.1.2 Hudi 支持的文件格式

2021-08-19source：Apache Hudi - 数据湖平台|阿帕奇胡迪！

2021-08-19日前支持的基本文件格式包括parquet(列访问)和HFile(索引访问)。

Hudi 是围绕基本文件和增量日志文件的概念设计的，它们将更新 / 增量数据存储到给定的基本文件（称为文件片，file slice）。它们的格式是可插拔的，目前支持的基本文件格式包括 Parquet（列访问）和 HFile（索引访问）。增量日志以 Avro（面向行）格式对数据进行编码，以实现更快的日志记录（就像 Kafka topic 一样）。

展望未来，我们计划在即将发布的版本中将每种基本文件格式内联到日志块中，根据块大小提供对增量日志的列式访问。未来的计划还包括支持 ORC 基础 / 日志文件格式、非结构化数据格式（自由的 json 格式、图像），甚至使用事件流系统 /OLAP 引擎 / 数仓的分层存储层的原生文件格式。

1.1.3 表格式

表格式仅包括：表的文件布局、表的 schema 和对表更改的元数据跟踪。Hudi 使用 Avro 模式来存储、管理和演进表的 schema。目前 Hudi 强制执行 schema-on-write，虽然比 schema-on-read 更严格，但在流处理领域被广泛采用，以确保管道不会因无法向后兼容的变更而中断。

1.1.2 使用Hudi的优点

使用Bloomfilter机制+二次查找，可快速确定记录是更新还是新增
更新范围小，是文件级别，不是表级别
文件大小与hdfs的Blocksize保持一致
数据文件使用parquet格式，充分利用列存的优势（dremal论文实现）
提供了可扩展的大数据更新框架
并发度由spark控制

Hadoop生态系统有潜力作为面向分钟级延时场景的通用统一服务层。然而，为了实现这一点，这需要在 HDFS 中实现高效且低延迟的数据摄取及数据准备。

Hudi项目，这是一个增量处理框架。我们首先讨论一下为什么将Hadoop作为统一的服务层是一个不错的想法。

1.1.3 Hoodie 的基本概念梳理

source : 数据湖 | Apache Hudi 设计与架构最强解读 - 云+社区 - 腾讯云

键-值数据模型:

在写方面，Hudi表被建模为键值对数据集，其中每条记录都有一个唯一的记录键。此外，一个记录键还可以包括分区路径，在该路径下，可以对记录进行分区和存储。这通常有助于减少索引查询的搜索空间。

Hudi表的三个主要组件：

1）有序的时间轴元数据。类似于数据库事务日志。

2）分层布局的数据文件：实际写入表中的数据。

3）索引（多种实现方式）：映射包含指定记录的数据集。

1.1.4 Hudi的设计动机

Lambda架构，它的数据的处理依赖流式计算层（Streaming Layer）和批处理计算层（Batch Layer）的双重计算。-------> 每隔几个小时，批处理过程被启动以计算精确的业务状态，并将批量更新加载到服务层。流式计算层对这个业务数据进行实时的状态更新。 -------> 这个流计算的状态只是一个最终结果的近似值，最终需要被批处理的计算结果所覆盖。

由于两种模式提供的状态差异，我们需要为批处理和流处理提供不同的服务层，并在这个上面再做合并抽象，或者设计应用一个相当复杂的服务系统（如Druid），用于同时在行级更新和批量加载中提供优异表现。Kappa架构认为不需要一个额外单独的批处理层，一个单独的流式计算层足以成为数据处理的通用解决方案

火山模型（Volcano Iterator model）：火山模型是数据库界已经很成熟的解释计算模型，该计算模型将关系代数中每一种操作抽象为一个 Operator，将整个 SQL 构建成一个 Operator 树，从根节点到叶子结点自上而下地递归调用 next() 函数。

这就意味着流式计算层可以依靠堆资源以增加并行能力的方式来对业务状态进行重算更新。这类系统可以依靠有效的检查点（checkpoint)和大量的状态管理来让流式处理的结果不再只是一个近似值。

1.1.5 Hudi可以避免小文件问题

source : 干货！Apache Hudi如何智能处理小文件问题 - leesf - 博客园

引入: 在数据湖/仓库中，需要在摄取速度和查询性能之间进行权衡，数据摄取通常更喜欢小文件以改善并行性并使数据尽快可用于查询，但很多小文件会导致查询性能下降。

大量的小文件将会导致很差的查询分析性能，因为查询引擎执行查询时需要进行太多次文件的打开/读取/关闭。在流式场景中不断摄取数据，如果不进行处理，会产生很多小文件。

通常情况下，Hive或Spark计算时会生成大量小文件，然后再通过一些手段将它们合并在一起，这样只能解决由小文件引起的系统可伸缩性问题，但是无法解决未合并前，对小文件进行查询时效率低下的问题。而在Hudi中，一个关键的设计是避免创建小文件，并且总是生成大小合适的文件。Hudi在 ingest/writing 上花费更多的时间，以保持查询时始终高效。与常规解决方法不同，Hudi直接在生成端避免小文件问题，使小文件无法暴露给计算引擎，也就解决了小文件的低效查询问题。

1.1.6 Hudi 典型应用场景 --- 近实时摄取 / 分析、增量处理管道、DFS上数据分发

source ：基于Apache Hudi构建数据湖的典型应用场景介绍 - leesf - 博客园

1.近实时摄取

将数据从外部源如事件日志、数据库提取到Hadoop数据湖中是一个很常见的问题。在大多数Hadoop部署中，一般使用混合提取工具并以零散的方式解决该问题，尽管这些数据对组织是非常有价值的。

对于RDBMS摄取，Hudi通过Upserts提供了更快的负载，而非昂贵且低效的批量负载。例如你可以读取MySQL binlog日志或Sqoop增量导入，并将它们应用在DFS上的Hudi表，这比批量合并作业或复杂的手工合并工作流更快/更高效。对于像Cassandra / Voldemort / HBase这样的NoSQL数据库，即使规模集群不大也可以存储数十亿行数据，此时进行批量加载则完全不可行，需要采用更有效的方法使得摄取速度与较频繁的更新数据量相匹配。

即使对于像Kafka这样的不可变数据源，Hudi也会强制在DFS上保持最小文件大小，从而解决Hadoop领域中的古老问题以便改善NameNode的运行状况。这对于事件流尤为重要，因为事件流（例如单击流）通常较大，如果管理不善，可能会严重损害Hadoop集群性能。

（什么叫不可变数据源呀？Kafka 是不可变数据源嘛？hudi 是有合并文件的能力，那有为什么会在DFS上保持最小文件大小呢？这和hudi 的设计不冲突嘛？）

对于所有数据源，Hudi都提供了通过提交将新数据原子化地发布给消费者，从而避免部分提取失败。

2. 近实时分析

通常实时数据集是由专门的分析存储，如Druid、Memsql甚至OpenTSDB提供支持。这对于需要亚秒级查询响应（例如系统监视或交互式实时分析）的较小规模（相对于安装Hadoop）数据而言是非常完美的选择。但由于Hadoop上的数据令人难以忍受，因此这些系统通常最终会被较少的交互查询所滥用，从而导致利用率不足和硬件/许可证成本的浪费。

另一方面，Hadoop上的交互式SQL解决方案（如Presto和SparkSQL），能在几秒钟内完成的查询。通过将数据的更新时间缩短至几分钟，Hudi提供了一种高效的替代方案，并且还可以对存储在DFS上多个更大的表进行实时分析。此外，Hudi没有外部依赖项（例如专用于实时分析的专用HBase群集），因此可以在不增加运营成本的情况下，对更实时的数据进行更快的分析。

3. 增量处理管道

Hadoop提供的一项基本功能是构建基于表的派生链，并通过DAG表示整个工作流。工作流通常取决于多个上游工作流输出的新数据，传统上新生成的DFS文件夹/Hive分区表示新数据可用。例如上游工作流 U可以每小时创建一个Hive分区，并在每小时的末尾（ processing_time）包含该小时（ event_time）的数据，从而提供1小时的数据新鲜度。然后下游工作流 D在 U完成后立即开始，并在接下来的一个小时进行处理，从而将延迟增加到2个小时。

上述示例忽略了延迟到达的数据，即 processing_time和 event_time分开的情况。不幸的是在后移动和物联网前的时代，数据延迟到达是非常常见的情况。在这种情况下，保证正确性的唯一方法是每小时重复处理最后几个小时的数据，这会严重损害整个生态系统的效率。想象下在数百个工作流中每小时重新处理TB级别的数据。

Hudi可以很好的解决上述问题，其通过记录粒度（而非文件夹或分区）来消费上游Hudi表 HU 中的新数据，下游的Hudi表 HD 应用处理逻辑并更新/协调延迟数据，这里 HU 和 HD 可以以更频繁的时间（例如15分钟）连续进行调度，并在 HD上提供30分钟的端到端延迟。

为了实现这一目标，Hudi从流处理框架如Spark Streaming、发布/订阅系统如Kafka或数据库复制技术如Oracle XStream中引入了类似概念。若感兴趣可以在此处找到有关增量处理（与流处理和批处理相比）更多优势的更详细说明。

4. DFS上数据分发

Hadoop的经典应用是处理数据，然后将其分发到在线存储以供应用程序使用。例如使用Spark Pipeline将Hadoop的数据导入到ElasticSearch供Uber应用程序使用。一种典型的架构是在Hadoop和服务存储之间使用队列进行解耦，以防止压垮目标服务存储，一般会选择Kafka作为队列，该架构会导致相同数据冗余存储在DFS（用于对计算结果进行离线分析）和Kafka（用于分发）上。

Hudi可以通过以下方式再次有效地解决此问题：将Spark Pipeline 插入更新输出到Hudi表，然后对表进行增量读取（就像Kafka主题一样）以获取新数据并写入服务存储中，即使用Hudi统一存储。

2. Hive和Presto与hudi的集成

source ：Apache Hudi入门指南（含代码示例） (qq.com)

2.1 hive

hive 查询hudi 数据主要是在hive中建立外部表数据路径指向hdfs 路径，同时hudi 重写了inputformat 和outpurtformat。因为hudi 在读的数据的时候会读元数据来决定我要加载那些parquet文件，而在写的时候会写入新的元数据信息到hdfs路径下。所以hive 要集成hudi 查询要把编译的jar 包放到HIVE-HOME/lib 下面。否则查询时找不到inputformat和outputformat的类。hive 外表数据结构

hive集成hudi方法：将hudi jar复制到hive lib下

cp ./packaging/hudi-hadoop-mr-bundle/target/hudi-hadoop-mr-bundle-0.5.2-SNAPSHOT.jar $HIVE_HOME/lib

2.2 Presto

presto 集成hudi 是基于hive catalog 同样是访问hive 外表进行查询，如果要集成需要把hudi 包copy 到presto hive-hadoop2插件下面。

presto集成hudi方法: 将hudi jar复制到 presto hive-hadoop2下

cp ./packaging/hudi-hadoop-mr-bundle/target/hudi-hadoop-mr-bundle-0.5.2-SNAPSHOT.jar $PRESTO_HOME/plugin/hive-hadoop2/

3. DeltaStreamer工具写数据到Hudi

source ： https://segmentfault.com/a/1190000040440572

Hudi 维护诸如提交时间线和索引之类的元数据来管理表。

提交时间表有助于了解表上发生的操作以及表的当前状态。Hudi 使用索引来维护记录键到文件 id 的映射，以有效地定位记录。目前，Hudi 仅支持写入 parquet 柱状格式。为了能够开始对现有表使用 Hudi，您需要将现有表迁移到 Hudi 托管表。有几种方法可以实现这一点。

3.1.1 Hudi机制 ---- 存储机制

hudi维护了一个时间轴，记录了在不同时刻对数据集进行的所有操作。
hudi拥有2种存储优化。
读优化（Copy On Write）：在每次commit后都将最新的数据compaction成列式存储（parquet）；
写优化（Merge On Read）：对增量数据使用行式存储（avro），后台定期将它compaction成列式存储。

读数据

hudi维护着一个索引，以支持在记录key存在情况下，将新记录的key快速映射到对应的fileId。索引的实现是插件式的，默认是bloomFilter，也可以使用HBase。
hudi提供3种查询视图。
读优化视图：仅提供compaction后的列式存储的数据；
增量视图：仅提供一次compaction/commit前的增量数据；
实时视图：包括读优化的列式存储数据和写优化的行式存储数据。

更新数据

hudi写数据的时候需要指定PRECOMBINE_FIELD_OPT_KEY、RECORDKEY_FIELD_OPT_KEY和PARTITIONPATH_FIELD_OPT_KEY。
RECORDKEY_FIELD_OPT_KEY：每条记录的唯一id，支持多个字段；
PRECOMBINE_FIELD_OPT_KEY：在数据合并的时候使用到，当 RECORDKEY_FIELD_OPT_KEY 相同时，默认取 PRECOMBINE_FIELD_OPT_KEY 属性配置的字段最大值所对应的行；
PARTITIONPATH_FIELD_OPT_KEY：用于存放数据的分区字段。
hudi更新数据和插入数据很相似（写法几乎一样），更新数据时，会根据 RECORDKEY_FIELD_OPT_KEY、PRECOMBINE_FIELD_OPT_KEY 以及 PARTITIONPATH_FIELD_OPT_KEY三个字段对数据进行Merge。

4. Hudi可以避免小文件问题

4.1.1 Hudi 避免小文件问题

source : 干货！Apache Hudi如何智能处理小文件问题 - leesf - 博客园

写入时 vs 写入后:

一种常见的处理方法先写入很多小文件，然后再合并成大文件以解决由小文件引起的系统扩展性问题，但由于暴露太多小文件可能导致不能保证查询的SLA。实际上对于Hudi表，通过Hudi提供的Clustering功能可以非常轻松的做到这一点. [至本文4.1.2]

本篇文章将介绍Hudi的文件大小优化策略，即在写入时处理。Hudi会自管理文件大小，避免向查询引擎暴露小文件，其中自动处理文件大小起很大作用。在进行 insert/upsert 操作时，Hudi可以将文件大小维护在一个指定文件大小（注意：bulk_insert操作暂无此特性，其主要用于替换spark.write.parquet 方式将数据快速写入Hudi）。

配置

source : Configurations | Apache Hudi!

我们使用COPY_ON_WRITE表来演示Hudi如何自动处理文件大小特性。

关键配置项如下：

hoodie.parquet.max.file.size：数据文件最大大小，Hudi将试着维护文件大小到该指定值；
hoodie.parquet.small.file.limit：小于该大小的文件均被视为小文件；
hoodie.copyonwrite.insert.split.size：单文件中插入记录条数，此值应与单个文件中的记录数匹配（可以根据最大文件大小和每个记录大小来确定）

例如如果你第一个配置值设置为120MB，第二个配置值设置为100MB，则任何大小小于100MB的文件都将被视为一个小文件，如果要关闭此功能，可将 hoodie.parquet.small.file.limit 配置值设置为0。

小于100MB 的会执行合并操作, 大于120MB的会才拆解开,分散到新的file中.

(eg.假设hoodie.parquet.max.file.size = 120MB,现有一个130MB 的文件大小, 则会分成12k(每个记录数是1k )记录数+10k 记录数的两个文件. 后续如需继续添加, 会在10k记录数上进行添加补充.

4.1.2 Clustering架构

source : 查询时间降低60%！Apache Hudi数据布局黑科技了解下

Hudi通过其写入客户端API提供了不同的操作，如insert/upsert/bulk_insert来将数据写入Hudi表。为了能够在文件大小和摄取速度之间进行权衡，Hudi提供了一个 hoodie.parquet.small.file.limit 配置来设置最小文件大小。用户可以将该配置设置为0以强制新数据写入新的文件组，或设置为更高的值以确保新数据被"填充"到现有小的文件组中，直到达到指定大小为止，但其会增加摄取延迟。

Clustering服务可以异步或同步运行，Clustering会添加了一种新的REPLACE操作类型，该操作类型将在Hudi元数据时间轴中标记Clustering操作。

总体而言Clustering分为两个部分：

•调度Clustering：使用可插拔的Clustering策略创建Clustering计划。

•执行Clustering：使用执行策略处理计划以创建新文件并替换旧文件。

调度Clustering

识别符合Clustering条件的文件：根据所选的Clustering策略，调度逻辑将识别符合Clustering条件的文件。
根据特定条件对符合Clustering条件的文件进行分组。每个组的数据大小应为 targetFileSize的倍数。分组是计划中定义的"策略"的一部分。此外还有一个选项可以限制组大小，以改善并行性并避免混排大量数据。
最后将Clustering计划以avro元数据格式保存到时间线。

运行Clustering

读取Clustering计划，并获得 clusteringGroups，其标记了需要进行Clustering的文件组。•对于每个组使用strategyParams实例化适当的策略类（例如：sortColumns），然后应用该策略重写数据。•创建一个REPLACE提交，并更新HoodieReplaceCommitMetadata中的元数据。
Clustering服务基于Hudi的MVCC设计，允许继续插入新数据，而Clustering操作在后台运行以重新格式化数据布局，从而确保并发读写者之间的快照隔离。
注意：现在对表进行Clustering时还不支持更新，将来会支持并发更新。

Clustering配置 使用Spark可以轻松设置内联Clustering

import org.apache.hudi.QuickstartUtils._
import scala.collection.JavaConversions._
import org.apache.spark.sql.SaveMode._
import org.apache.hudi.DataSourceReadOptions._
import org.apache.hudi.DataSourceWriteOptions._
import org.apache.hudi.config.HoodieWriteConfig._
val df =  //generate data frame
df.write.format("org.apache.hudi").
        options(getQuickstartWriteConfigs).
        option(PRECOMBINE_FIELD_OPT_KEY, "ts").
        option(RECORDKEY_FIELD_OPT_KEY, "uuid").
        option(PARTITIONPATH_FIELD_OPT_KEY, "partitionpath").
        option(TABLE_NAME, "tableName").
        option("hoodie.parquet.small.file.limit", "0").
        option("hoodie.clustering.inline", "true").
        option("hoodie.clustering.inline.max.commits", "4").
        option("hoodie.clustering.plan.strategy.target.file.max.bytes", "1073741824").
        option("hoodie.clustering.plan.strategy.small.file.limit", "629145600").
        option("hoodie.clustering.plan.strategy.sort.columns", "column1,column2"). //optional, if sorting is needed as part of rewriting data
        mode(Append).
        save("dfs://location");

使用Clustering，我们可以通过以下方式提高查询性能：

•利用空间填充曲线之类的概念来适应数据湖布局并减少查询读取的数据量。

•将小文件合并成较大的文件以减少查询引擎需要扫描的文件总数。

5. Hudi代码源码

5.1 CopyonWrite 模式操作(默认模式)

source ：Apache Hudi入门指南（含代码示例）

5.2 Hudi 源码

source ： Spark Guide | Apache Hudi!

// Insert data 插入数据
// spark-shell

val inserts = convertToStringList(dataGen.generateInserts(10))
// 通过自带的类生成10个随机数，然后转成集合
val df = spark.read.json(spark.sparkContext.parallelize(inserts, 2))
// 读集合， 然后把读出来的东西通过json的形式插入(写入)到对应的路径中去
df.write.format("hudi").   // format("hudi")是输出格式
  options(getQuickstartWriteConfigs).
  option(PRECOMBINE_FIELD_OPT_KEY, "ts").    //时间戳
  option(RECORDKEY_FIELD_OPT_KEY, "uuid").   //主键
  option(PARTITIONPATH_FIELD_OPT_KEY, "partitionpath").   //分区
  option(TABLE_NAME, tableName).             //表名
  mode(Overwrite).                           //操作模式
  save(basePath)                             //输出路径

5.3.1 删除hudi中的数据

source ： Hudi 实践 | Apache Hudi 删除数据的多种姿势-技术圈

6. 使用Spark操作hudi

以下是整合spark结构化流+hudi的示意代码，由于Hudi OutputFormat目前只支持在spark rdd对象中调用，因此写入HDFS操作采用了spark structured streaming的forEachBatch算子。具体说明见注释。【task ：代码现在运行正确，但需要就需要逐一解析】

source ：实战|使用Spark结构化流写入Hudi - 知乎

这个没完全弄完哦source ： Hudi 系列（四）- 使用 Spark 操作 Hudi - 寂寞黄沙一杯酒

import java.time.LocalDateTime

import org.apache.hudi.DataSourceWriteOptions.{HIVE_STYLE_PARTITIONING_OPT_KEY, PARTITIONPATH_FIELD_OPT_KEY, PRECOMBINE_FIELD_OPT_KEY, RECORDKEY_FIELD_OPT_KEY, TABLE_TYPE_OPT_KEY}
import org.apache.spark.sql.{DataFrame, SaveMode, SparkSession}
import org.apache.spark.sql.streaming.StreamingQueryListener
import org.apache.spark.sql.streaming.StreamingQueryListener.{QueryProgressEvent, QueryStartedEvent, QueryTerminatedEvent}
import org.apache.log4j.Logger
import org.apache.spark.sql.catalyst.encoders.RowEncoder
import org.apache.spark.sql.{DataFrame, Row, SaveMode}
import org.apache.spark.sql.functions._
import org.apache.spark.sql.types.{LongType, StringType, StructField, StructType}

object SparkHudi {
  val logger = Logger.getLogger(SparkHudi.getClass)

  def main(args: Array[String]): Unit = {

    val spark = SparkSession.builder
      .appName("SparkHudi")
      .master("local[*]")
      .config("spark.serializer", "org.apache.spark.serializer.KryoSerializer")
      .config("spark.default.parallelism", 9)
      .config("spark.sql.shuffle.partitions", 9)
      .enableHiveSupport()
      .getOrCreate()

    // 添加监听器，每一批次处理完成，将该批次的相关信息，如起始offset，抓取记录数量，处理时间打印到控制台
    spark.streams.addListener(new StreamingQueryListener() {
      override def onQueryStarted(queryStarted: QueryStartedEvent): Unit = {
        println("Query started: " + queryStarted.id)
      }
      override def onQueryTerminated(queryTerminated: QueryTerminatedEvent): Unit = {
        println("Query terminated: " + queryTerminated.id)
      }
      override def onQueryProgress(queryProgress: QueryProgressEvent): Unit = {
        println("Query made progress: " + queryProgress.progress)
      }
    })

    // 定义kafka流
    val dataStreamReader = spark.readStream.format("kafka")
      .option("kafka.bootstrap.servers", "172.16.2.120:9092")
      .option("subscribe", "kk")
      .option("startingOffsets", "earliest")
      .option("maxOffsetsPerTrigger", 100000)
      .option("failOnDataLoss", false)
      .load()

    // 加载流数据，这里因为只是测试使用，直接读取kafka消息而不做其他处理，是spark结构化流会自动生成每一套消息对应的kafka元数据，如消息所在主题，分区，消息对应offset等。
    val df = dataStreamReader.selectExpr(
        "topic as kafka_topic",
    "CAST(partition AS STRING) kafka_partition",
    "cast(timestamp as String) kafka_timestamp",
    "CAST(offset AS STRING) kafka_offset",
    "CAST(key AS STRING) kafka_key",
    "CAST(value AS STRING) kafka_value",
    "current_timestamp() current_time",
    )
    .selectExpr(
      "kafka_topic",
    "concat(kafka_partition,'-',kafka_offset) kafka_partition_offset",    // concat 拼接。 用”-“将kafka_partition和kafka_offset拼接完，然后改名为kafka_partition_offset
    "kafka_offset",
    "kafka_timestamp",
    "kafka_key",
    "kafka_value",
    "substr(current_time,1,10) partition_date")     // substr 截取。 截取当前时间第一到第十位的东西。
/*    df.show()*/

    // 创建并启动query
    val query = df.writeStream.queryName("kk").foreachBatch{(batchDF: DataFrame, _: Long) => {        // 这个queryName 不知道显示在哪里了，始终没显示出来。
      batchDF.persist()
      println(LocalDateTime.now() + "start writing cow table")
      batchDF.write.format("org.apache.hudi")
        .option(TABLE_TYPE_OPT_KEY,"COPY_ON_WRITE")
        .option(PRECOMBINE_FIELD_OPT_KEY, "kafka_timestamp")
        .option(RECORDKEY_FIELD_OPT_KEY, "kafka_partition_offset") // 以kafka分区和偏移量作为组合主键
        .option(PARTITIONPATH_FIELD_OPT_KEY, "partition_date")  // 以当前日期作为分区
        .option("hoodie.table.name", "table")
        .option(HIVE_STYLE_PARTITIONING_OPT_KEY, true)
        .mode(SaveMode.Append)
        .save("/tmp/sparkHudi/COPY_ON_WRITE")

      println(LocalDateTime.now() + "start writing mor table")
      batchDF.write.format("org.apache.hudi")
        .option(TABLE_TYPE_OPT_KEY, "MERGE_ON_READ")
        .option(TABLE_TYPE_OPT_KEY, "COPY_ON_WRITE")
        .option(PRECOMBINE_FIELD_OPT_KEY, "kafka_timestamp")
        .option(RECORDKEY_FIELD_OPT_KEY, "kafka_partition_offset")
        .option(PARTITIONPATH_FIELD_OPT_KEY, "partition_date")
        .option("hoodie.table.name", "merge_on_read_table")
        .option(HIVE_STYLE_PARTITIONING_OPT_KEY, true)
        .mode(SaveMode.Append)
        .save("/tmp/sparkHudi/MERGE_ON_READ")
      batchDF.unpersist()        // 这句话不能放在最后，会报foreachBatch的错。在Question Accumulate中有记录
      println(LocalDateTime.now() + "finish")
     
    }
    }
      .option("checkpointLocation", "/tmp/sparkHudi/checkpoint/")
      .start()
    query.awaitTermination()
  }
}

source ：Hudi 系列（四）- 使用 Spark 操作 Hudi - 寂寞黄沙一杯酒

7. 问题整理

1. Merge on Read问题

merge on read 要配置option(DataSourceWriteOptions.TABLETYPEOPTKEY, DataSourceWriteOptions.MORTABLETYPEOPTVAL)才会生效，配置为option(HoodieTableConfig.HOODIETABLETYPEPROPNAME, HoodieTableType.MERGEON_READ.name())将不会生效。

2. spark pom依赖问题

不要引入spark-hive 的依赖里面包含了hive 1.2.1的相关jar包，而hudi 要求的版本是2.x版本。如果一定要使用请排除相关依赖。

3. hive视图同步问题

代码与hive视图同步时resources要加入hive-site.xml 配置文件,不然同步hive metastore 会报错。

你可能感兴趣的:(笔试面试储备,大数据,学习笔记,big,data,hadoop,java)

简述web3.0前端开发的最简单三个步骤飞机号Mrsfu223 web3 区块链 python java 开发语言
Web3.0是互联网的下一代前沿技术，包括人工智能，大数据和区块链都是这项技术的核心，Web3.0为用户提供了更为智能的互联网服务体验，该技术的核心要素为去中心化，也就是摆脱中心化的权力控制，能够让数据和各项交易通过网络里的各项节点来维护和验证，并不是通过中心化的机构或服务器控制各项节点，Web3有车有中心化，有户权益性，去信任化，互操作性这些特点，可以拥有更大的操作空间和可能性。去中心化是基于区
22章2节：如何在 R Markdown 和 R Notebook 中创建使用 DAT｜R科学用R探索医药数据科学 r语言开发语言
RMarkdown是一种广泛使用的工具，可以帮助数据科学家、统计学家和研究人员创建动态和交互式的报告。它结合了R语言的强大数据处理和分析能力，以及Markdown的简洁易用的文本格式，使得创建专业和美观的报告变得更加简单和高效。同时，RNotebook是一种交互式文档格式，它将叙述性文本、数据可视化以及其他多媒体组件与用R语言编写的代码结合在一起。RNotebook使用户能够创建和分享包含数据分析
Java与Kafka：消息队列使用指南墨瑾轩一起学学Java【一】java kafka linq
关注墨瑾轩，带你探索编程的奥秘！超萌技术攻略，轻松晋级编程高手技术宝库已备好，就等你来挖掘订阅墨瑾轩，智趣学习不孤单即刻启航，编程之旅更有趣大家好呀！今天我们要来聊聊如何使用Java语言与ApacheKafka搭建消息队列系统。Kafka是一款分布式流处理平台，它能够高效地处理大量实时数据。无论是构建实时数据分析系统还是简单的消息队列应用，Kafka都能胜任。那么，我们就开始吧！什么是Kafka？
Vue生命周期钩子是如何实现的 youhebuke225 vue面试题 vue.js javascript 前端
Vue的生命周期钩子是在Vue组件创建、挂载、更新、销毁等过程中自动调用的特殊函数。这些钩子允许开发者在组件的不同阶段执行特定的逻辑。Vue2和Vue3在生命周期钩子上有一些差异，主要是因为Vue3引入了CompositionAPI和更现代的JavaScript特性。Vue2的生命周期钩子在Vue2中，生命周期钩子通过选项对象中的特定键来定义，如created、mounted、updated、de
JavaSE笔记总结火车驶向云外.11 java 开发语言
一、Java简介1、三大平台JavaSE：Java标准版，用于桌面应用开发，为今后从事JavaEE开发打基础（C语言和C++语言占有优势）。JavaME：小型版的Java语言，用于嵌入式电子设备或者小型移动设备。JavaEE：企业版，web方向的网站开发和服务器开发，这个领域Java第一。2、Java能做什么？桌面应用开发企业级应用开发移动应用开发科学计算大数据开发游戏开发3、Java的特性面向对
计数排序算法及优化（java）爱吃土豆的程序员数据结构与算法（JAVA）算法 java 计数排序
1.1引言计数排序是一种非比较排序算法，它适用于一定范围内的整数排序。计数排序的核心思想是通过统计每个元素出现的次数来确定它们的位置，而不是通过比较来决定元素的顺序。本文将详细介绍计数排序的历史背景、工作原理，并通过具体案例来阐述其应用。此外，还将探讨计数排序的不同优化方案，并给出相应的Java代码示例。1.2计数排序的历史计数排序的思想可以追溯到20世纪初，最早是由HaroldH.Seward在
超过80%大厂都在用，Jetpack Compose现代Android界面开发的未来 Calvin880828 现代Android开发 jetpack compose android
超过80%大厂都在用，JetpackCompose现代Android界面开发的未来1.引言JetpackCompose是一款用于构建Android界面的现代化工具包。目前该框架已经相对成熟，大厂包括Google、字节、阿里等大厂都在使用。根据反馈，普遍认为开发效率提高了很多，语法简单直观，受到普遍好评！相较于传统的XML布局文件和Java代码，JetpackCompose采用了声明式的方式来描述U
Java实现计数排序算法详解及优化捕风捉你从0开始学算法 java 排序算法算法
引言计数排序（CountingSort）是一种线性时间复杂度的排序算法，特别适用于数据范围有限的情况。它通过统计每个元素出现的次数，然后按照次数排序，从而实现排序。本文将详细讲解如何使用Java实现计数排序算法，并结合图解和实例代码，帮助您全面理解这一高级排序算法。同时，我们还将探讨计数排序的优化方法，以进一步提高其性能。计数排序算法的原理计数排序通过统计每个元素出现的次数，然后利用这些计数值将元
hbase无法建表：org.apache.hadoop.hbase.PleaseHoldException: Master is initializing magicchu CDH HBASE 大数据
1.环境：cdh6.2.12.现象：hbaseshell进去后，list命令执行正常，执行建表语句后报错：ERROR:org.apache.hadoop.hbase.PleaseHoldException:Masterisinitializing提示master正在初始化中，查看master日志：WARNorg.apache.hadoop.hbase.master.HMaster:hbase:na
jetpack compose 开发架构选择探讨（一），这是一份用心整理的Android面试总结 m0_66264630 程序员架构移动开发 android
然后我们分析下这个例子只有一个count状态和add操作，因此这样来实现viewModel,这里基于jetpackviewmodel和livedata组件来实现classMvvmViewModel:ViewModel(){valcountState=MutableLiveData(1)funadd(num:Int){countState.postValue(countState.valueasIn
jetpack compose 开发架构选择探讨（一），移动架构师成长路线 AI设计大师程序员架构移动开发 android
classMvvmViewModel:ViewModel(){valcountState=MutableLiveData(1)funadd(num:Int){countState.postValue(countState.valueasInt+num)}funreduce(num:Int){countState.postValue(countState.valueasInt-num)}}接下来我们
jetpack compose 开发架构选择探讨（二） iffly-csdn jetpack compose android jetpack redux
jetpackcompose开发架构选择探讨（二）本文所有代码均在compose_architecture中，需要的可以自取上篇我们讲解了如何在compose中使用MVVM和MVI架构，并且在最后解决了如何解决多page的通信问题，本篇文章主要来讲解redux架构在compose的实现，不过由于上篇的MVI实现有点不是特别"优雅"，没有充分发挥Flow和livedata之间的转换，因此本篇开始之前
CF 371A.K-Periodic Array(Java实现) Dr_Si java 开发语言
题目分析这里的意思是一共n个值每k个一组循环，最少改变多少个值就能让循环相同思路分析我在这里首先想的是二维数组方便观察循环，依据题目即为每一竖列比较，哪一个值出现的最少那么那就是需要更改的次数，(此题在这儿不考虑需要更改多类值，例[1,2][1,2][2,2][3,2],即每一竖列最多有两种值)，再把每一数列需要更改的次数加起来即为答案代码importjava.util.*;importjava.
CF 230A.Dragons(Java实现) Dr_Si java 开发语言
题目分析（桐老爷，泪目）题目讲很多字，其实就是打怪升级，初始战斗力>龙的战斗力就能击败龙并炼化经验增加战斗力，然后打下一条龙，如果打不过了就寄思路分析首先我还是想到键值对，分别存储龙的战斗力和给的经验，一个n条龙，然后循环判断战斗力胜负，如果胜则+战斗力，并挑战下一条，负则结束战斗。但是这里忽略了一个点，题目说的是不限顺序所以需要从小到大的战斗力依次去挑战，因此我在外面套了一个list，用sort
CF 761A.Dasha and Stairs(Java实现) Dr_Si java 开发语言
题目分析大概意思是输入偶数值+奇数值，判断是否能够凑成一连串数字思路分析能够连成一串数字的条件考虑：1.偶数与奇数差为1；2.偶数与奇数相等，且不为0代码importjava.util.*;publicclassMain{publicstaticvoidmain(String[]args){Scannersc=newScanner(System.in);inta=sc.nextInt();//偶数
光纤通信系统架构柠檬芭乐绿网络信息与通信
#学习笔记系统架构光纤通信系统是一种利用光作为载波，通过光纤作为传输媒介来传输信息的通信系统。传输系统基本组成：信号发射端、传输光纤、光纤放大器、接收端信号解调一、信号发射端信号发射端是光纤通信系统的起点，主要负责将电信号转换为光信号，以便在光纤中传输。其主要组成部分包括：光源：光源是光纤通信系统的起点，负责产生光信号。常用的光源有激光器（如半导体激光器LD、垂直腔面发射激光器VCSELs、光纤激
Android Jetpack 之 Paging3的一些踩坑记录全栈_HhM android jetpack android
主要配置一些基本的分页信息，其中部分信息例如页码、需要加载size等信息会在PagingSource的load方法中通过LoadParams传递过来。PagingSource继承该类并实现load方法来加载数据，根据加载情况返回LoadResult.Page或LoadResult.Error。在加载上一页、下一页或刷新都通过这个方法，同时注意suspend修饰。加载状态可通过PagingDataA
【论文投稿-第八届智能制造与自动化学术会议（IMA 2025）】HTML, CSS, JavaScript：三者的联系与区别禁默学术会议前端 html css javascript 自动化制造
大会官网：www.icamima.org目录前言一、HTML（超文本标记语言）：网页的骨架HTML的作用：例子：总结：二、CSS（层叠样式表）：网页的外观设计CSS的作用：例子：总结：三、JavaScript：网页的行为和互动JavaScript的作用：例子：总结：四、HTML、CSS和JavaScript的联系与区别1.联系2.区别五、总结前言在现代Web开发中，HTML、CSS和JavaScr
Web性能优化-详细讲解与实用方法-MDN文档学习笔记 LoveEmiliaForever MDN前端入门文档前端性能优化学习笔记
Web性能优化查看更多学习笔记：GitHub：LoveEmiliaForeverMDN中文官网性能优良的网站能够提高访问者留存和用户满意度，减少客户端和服务器之间传输的数据量可降低各方的成本不同的业务目标和用户需求需要不同的性能度量，要提高网站性能，你需要了解用户体验、加载和渲染性能，以及如何将性能度量与业务指标结合起来什么是Web性能减少总体负载时间一般策略是使文件尽可能小，尽可能减少HTTP请
Spring Boot 中的 AOP，到底是 JDK 动态代理还是 Cglib 动态代理？肥肥技术宅 java java spring boot spring
大家都知道，AOP底层是动态代理，而Java中的动态代理有两种实现方式：基于JDK的动态代理基于Cglib的动态代理这两者最大的区别在于基于JDK的动态代理需要被代理的对象有接口，而基于Cglib的动态代理并不需要被代理对象有接口。那么小伙伴们不禁要问，Spring中的AOP是怎么实现的？是基于JDK的动态代理还是基于Cglib的动态代理？1.Spring先来说结论，Spring中的动态代理，具体
【JavaP6大纲】Dubbo篇：如何自己设计一个类似 Dubbo 的 RPC 框架？(1) 2401_84103344 程序员 dubbo rpc 网络协议
上来你的服务就得去注册中心注册吧，你是不是得有个注册中心，保留各个服务的信息，可以用zookeeper来做，对吧。然后你的消费者需要去注册中心拿对应的服务信息吧，对吧，而且每个服务可能会存在于多台机器上。接着你就该发起一次请求了，咋发起？当然是基于动态代理了，你面向接口获取到一个动态代理，这个动态代理就是接口在本地的一个代理，然后这个代理会找到服务对应的机器地址。然后找哪个机器发送请求？那肯定得有
我的名字叫大数据：第1~4章大数据张老师我的名字叫大数据大数据大数据认知大数据启蒙什么是大数据数据库 python
第1章大家好，我叫大数据1.1我的家族传统：从我小小的祖先到壮大的我1.1.1最初的我：原始部落里的计数石头大家好，我是你们人类文明的“老朋友”——大数据。你们知道吗？在我还没有变成你们手机、电脑里飞速跑动的那些数字前，我最初的模样可是一块块“计数石头”。没错，就是普通的小石头！想象一下，很久很久以前，当原始部落里的人们想要知道他的羊群有多少只时，他就会找一块石头代表一只羊。如果他有三只羊，他就会
JVM详细介绍——运行时数据区 Yinb jvm java 开发语言
目录1.Java内存管理机制2.运行时数据区2.1方法区(MethodArea)—线程共享2.2Java堆(JavaHeap)—线程共享2.2.1新生代2.2.2老生代2.3程序计数器（ProgramCounterRegister)—线程私有2.3.1线程并发执行2.4本地方法栈（NativeMethodStack）—线程私有2.4.1为什么要使用本地方法2.5虚拟机栈（VirtualMachin
JVM - 运行时数据区详细篇星辰与晨曦 JVM java 后端 jvm
文章目录运行时数据区的组成概述程序计数器（ProgramCounterRegister）概念计数器是线程私有的作用Java虚拟机栈（JavaVirtualMachine）虚拟机栈出现的背景栈和堆的区别什么是Java虚拟机栈本地方法栈（NativeMethodStack）Java堆概述堆内存区域的划分对象创建内存分配的过程新生代和老年代的配置比例JVM调优不同代的回收思想TLAB机制为什么会有TLA
如何使用 HTML5 的 Canvas 实现动画效果？破碎的天堂鸟学习教程 html5 前端 html
要使用HTML5的Canvas实现动画效果，可以遵循以下步骤和方法：1：创建Canvas元素：首先，在HTML文档中创建一个元素，用于显示动画。2：获取Canvas上下文：使用JavaScript获取Canvas的2D渲染上下文，以便进行绘图操作。varcanvas=document.getElementById("myCanvas");varctx=canvas.getContext("2d")
React18+Redux+antd 项目实战 JS Alexeigirl javascript 开发语言前端框架 react.js
React18+Redux+antd项目实战jsAntDesign插件官网Axios官网(可配置请求拦截器和响应拦截器)JavaScript官网Echarts官网一、项目前期准备1.创建新项目hotel-managernpxcreate-react-apphotel-manager2.安装依赖//安装路由npmireact-router-domnpmiaixos//安装组件库npmiantdnpm
群晖web文件服务器docker,群晖docker搭建数据库服务器 Kuchiki Touko
群晖docker搭建数据库服务器内容精选换一换本手册基于华为云关系型数据库实践所编写，用于指导您完成相关设置，购买更符合业务的数据库实例。创建一个外部服务器。外部服务器是存储OBS服务器信息或其他同构集群信息的载体。默认只有系统管理员才可以创建外部服务器，否则需要对所使用的FOREIGNDATAWRAPPER授权才可以创建，授权语法为：其中fdw_name为FOREIGNDATAWRAPPER的名
Java中的`final`、`static`和`abstract`关键字的含义是什么？计算机学长大白 java java 开发语言
在Java编程语言中，final、static和abstract是三个非常重要的关键字，它们分别用于不同的场景，帮助开发者更好地控制代码的结构和行为。本文将详细解释这三个关键字的含义、用法以及示例，并结合实际案例进行说明。一、final关键字1.final关键字的基本含义final关键字用于修饰类、方法和变量，其核心特性是“不可改变性”。具体来说：「修饰类」：当一个类被声明为final时，该类不能
python难学吗？python的就业前景到底怎么样？荆州克莱面试题汇总与解析 spring cloud spring boot spring 技术 css3
明确的说，python不难，入门很快，对于几乎是零基础的人是完全可以学会的。个人主要总结一下3点。第一，Python最大的功劳就是直接拉低了编程门槛和使用难度相比于C,C#,JAVA这些早轮子语言学习Python完全就是直接开车的节奏稍微努力一下，一周就能写出像样的东西第二，Python学习越来越普及目前Python课程已发展到儿童编程领域很多中小学开设Python教学，统一考试很多国外学校，比如
002 mapper代理开发方式-xml方式简洁冬冬 mybatis mybatis
文章目录代理xml方式UserMapper.javaUser.javadb.propertiesSqlMapConfig.xmlUserMapper.xmlUserMapperTest.javapom.xml代理此处使用的是JDK的动态代理方式，延迟加载使用的cglib动态代理方式代理分为静态代理和动态代理。此处先不说静态代理，因为Mybatis中使用的代理方式是动态代理。动态代理分为两种方式：基
Spring的注解积累 yijiesuifeng spring 注解
用注解来向Spring容器注册Bean。需要在applicationContext.xml中注册： <context:component-scan base-package=”pagkage1[,pagkage2,…,pagkageN]”/>。如：在base-package指明一个包 <context:component-sc
传感器百合不是茶 android 传感器
android传感器的作用主要就是来获取数据,根据得到的数据来触发某种事件下面就以重力传感器为例; 1,在onCreate中获得传感器服务 private SensorManager sm;// 获得系统的服务 private Sensor sensor;// 创建传感器实例 @Override protected void
[光磁与探测]金吕玉衣的意义 comsci
这是一个古代人的秘密:现在告诉大家信不信由你们: 穿上金律玉衣的人,如果处于灵魂出窍的状态,可以飞到宇宙中去看星星这就是为什么古代
精简的反序打印某个数沐刃青蛟打印
以前看到一些让求反序打印某个数的程序。比如：输入123，输出321。记得以前是告诉你是几位数的，当时就抓耳挠腮，完全没有思路。似乎最后是用到%和/方法解决的。而今突然想到一个简短的方法，就可以实现任意位数的反序打印（但是如果是首位数或者尾位数为0时就没有打印出来了）代码如下： long num, num1=0;
PHP：6种方法获取文件的扩展名 IT独行者 PHP 扩展名
PHP：6种方法获取文件的扩展名 1、字符串查找和截取的方法 1 $extension = substr ( strrchr ( $file , '.' ), 1); 2、字符串查找和截取的方法二 1 $extension = substr
面试111 文强chu 面试
1事务隔离级别有那些，事务特性是什么（问到一次） 2 spring aop 如何管理事务的，如何实现的。动态代理如何实现，jdk怎么实现动态代理的，ioc是怎么实现的，spring是单例还是多例，有那些初始化bean的方式，各有什么区别（经常问） 3 struts默认提供了那些拦截器（一次） 4 过滤器和拦截器的区别（频率也挺高） 5 final，finally final
XML的四种解析方式小桔子 dom jdom dom4j sax
在平时工作中，难免会遇到把 XML 作为数据存储格式。面对目前种类繁多的解决方案，哪个最适合我们呢？在这篇文章中，我对这四种主流方案做一个不完全评测，仅仅针对遍历 XML 这块来测试，因为遍历 XML 是工作中使用最多的（至少我认为）。　　预备　　测试环境：　　AMD 毒龙1.4G OC 1.5G、256M DDR333、Windows2000 Server
wordpress中常见的操作 aichenglong 中文注册 wordpress 移除菜单
1 wordpress中使用中文名注册解决办法 1)使用插件 2)修改wp源代码进入到wp-include/formatting.php文件中找到 function sanitize_user( $username, $strict = false
小飞飞学管理-1 alafqq 管理
项目管理的下午题，其实就在提出问题（挑刺），分析问题，解决问题。今天我随意看下10年上半年的第一题。主要就是项目经理的提拨和培养。结合我自己经历写下心得对于公司选拔和培养项目经理的制度有什么毛病呢？ 1，公司考察，选拔项目经理，只关注技术能力，而很少或没有关注管理方面的经验，能力。 2，公司对项目经理缺乏必要的项目管理知识和技能方面的培训。 3，公司对项目经理的工作缺乏进行指
IO输入输出部分探讨百合不是茶 IO
//文件处理在处理文件输入输出时要引入java.IO这个包； /* 1，运用File类对文件目录和属性进行操作 2，理解流，理解输入输出流的概念 3，使用字节/符流对文件进行读/写操作 4，了解标准的I/O 5，了解对象序列化 */ //1，运用File类对文件目录和属性进行操作 //在工程中线创建一个text.txt
getElementById的用法 bijian1013 element
getElementById是通过Id来设置/返回HTML标签的属性及调用其事件与方法。用这个方法基本上可以控制页面所有标签，条件很简单，就是给每个标签分配一个ID号。返回具有指定ID属性值的第一个对象的一个引用。语法： &n
励志经典语录 bijian1013 励志人生
经典语录1: 哈佛有一个著名的理论：人的差别在于业余时间，而一个人的命运决定于晚上8点到10点之间。每晚抽出2个小时的时间用来阅读、进修、思考或参加有意的演讲、讨论，你会发现，你的人生正在发生改变，坚持数年之后，成功会向你招手。不要每天抱着QQ/MSN/游戏/电影/肥皂剧……奋斗到12点都舍不得休息，看就看一些励志的影视或者文章，不要当作消遣；学会思考人生，学会感悟人生
[MongoDB学习笔记三]MongoDB分片 bit1129 mongodb
MongoDB的副本集(Replica Set)一方面解决了数据的备份和数据的可靠性问题，另一方面也提升了数据的读写性能。MongoDB分片(Sharding)则解决了数据的扩容问题，MongoDB作为云计算时代的分布式数据库，大容量数据存储，高效并发的数据存取，自动容错等是MongoDB的关键指标。本篇介绍MongoDB的切片(Sharding) 1.何时需要分片 &nbs
【Spark八十三】BlockManager在Spark中的使用场景 bit1129 manager
1. Broadcast变量的存储，在HttpBroadcast类中可以知道 2. RDD通过CacheManager存储RDD中的数据，CacheManager也是通过BlockManager进行存储的 3. ShuffleMapTask得到的结果数据，是通过FileShuffleBlockManager进行管理的，而FileShuffleBlockManager最终也是使用BlockMan
yum方式部署zabbix ronin47 yum方式部署zabbix
安装网络yum库#rpm -ivh http://repo.zabbix.com/zabbix/2.4/rhel/6/x86_64/zabbix-release-2.4-1.el6.noarch.rpm 通过yum装mysql和zabbix调用的插件还有agent代理#yum install zabbix-server-mysql zabbix-web-mysql mysql-
Hibernate4和MySQL5.5自动创建表失败问题解决方法 byalias J2EE Hibernate4
今天初学Hibernate4，了解了使用Hibernate的过程。大体分为4个步骤： ①创建hibernate.cfg.xml文件 ②创建持久化对象 ③创建*.hbm.xml映射文件 ④编写hibernate相应代码在第四步中，进行了单元测试，测试预期结果是hibernate自动帮助在数据库中创建数据表，结果JUnit单元测试没有问题，在控制台打印了创建数据表的SQL语句，但在数据库中
Netty源码学习-FrameDecoder bylijinnan java netty
Netty 3.x的user guide里FrameDecoder的例子，有几个疑问： 1.文档说：FrameDecoder calls decode method with an internally maintained cumulative buffer whenever new data is received. 为什么每次有新数据到达时，都会调用decode方法？ 2.Dec
SQL行列转换方法 chicony 行列转换
create table tb(终端名称 varchar(10) , CEI分值 varchar(10) , 终端数量 int) insert into tb values('三星' , '0-5' , 74) insert into tb values('三星' , '10-15' , 83) insert into tb values('苹果' , '0-5' , 93)
中文编码测试 ctrain 编码
循环打印转换编码 String[] codes = { "iso-8859-1", "utf-8", "gbk", "unicode" }; for (int i = 0; i < codes.length; i++) { for (int j
hive 客户端查询报堆内存溢出解决方法 daizj hive 堆内存溢出
hive> select * from t_test where ds=20150323 limit 2; OK Exception in thread "main" java.lang.OutOfMemoryError: Java heap space 问题原因： hive堆内存默认为256M 这个问题的解决方法为：修改/us
人有多大懒，才有多大闲 (评论『卓有成效的程序员』) dcj3sjt126com 程序员
卓有成效的程序员给我的震撼很大，程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可以那么勤奋，每天都孜孜不倦得做着重复单调的工作。在看这本书之前，我属于勤奋的人，而看完这本书以后，我要努力变成懒惰的人。不要在去庞大的开始菜单里面一项一项搜索自己的应用程序，也不要在自己的桌面上放置眼花缭乱的快捷图标
Eclipse简单有用的配置 dcj3sjt126com eclipse
1、显示行号 Window -- Prefences -- General -- Editors -- Text Editors -- show line numbers 2、代码提示字符 Window ->Perferences，并依次展开 Java -> Editor -> Content Assist，最下面一栏 auto-Activation
在tomcat上面安装solr4.8.0全过程 eksliang Solr solr4.0后的版本安装 solr4.8.0安装
转载请出自出处： http://eksliang.iteye.com/blog/2096478 首先solr是一个基于java的web的应用，所以安装solr之前必须先安装JDK和tomcat，我这里就先省略安装tomcat和jdk了第一步：当然是下载去官网上下载最新的solr版本，下载地址
Android APP通用型拒绝服务、漏洞分析报告 gg163 漏洞 android APP 分析
点评：记得曾经有段时间很多SRC平台被刷了大量APP本地拒绝服务漏洞，移动安全团队爱内测（ineice.com）发现了一个安卓客户端的通用型拒绝服务漏洞，来看看他们的详细分析吧。 0xr0ot和Xbalien交流所有可能导致应用拒绝服务的异常类型时，发现了一处通用的本地拒绝服务漏洞。该通用型本地拒绝服务可以造成大面积的app拒绝服务。针对序列化对象而出现的拒绝服务主要
HoverTree项目已经实现分层 hvt 编程 .net Web C#ASP.ENT
HoverTree项目已经初步实现分层，源代码已经上传到 http://hovertree.codeplex.com请到SOURCE CODE查看。在本地用SQL Server 2008 数据库测试成功。数据库和表请参考：http://keleyi.com/a/bjae/ue6stb42.htmHoverTree是一个ASP.NET 开源项目，希望对你学习ASP.NET或者C#语言有帮助，如果你对
Google Maps API v3: Remove Markers 移除标记天梯梦 google maps api
Simply do the following: I. Declare a global variable: var markersArray = []; II. Define a function: function clearOverlays() { for (var i = 0; i < markersArray.length; i++ )
jQuery选择器总结 lq38366 jquery 选择器
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
基础数据结构和算法六：Quick sort sunwinner Algorithm Quicksort
Quick sort is probably used more widely than any other. It is popular because it is not difficult to implement, works well for a variety of different kinds of input data, and is substantially faster t
如何让Flash不遮挡HTML div元素的技巧_HTML/Xhtml_网页制作刘星宇 html Web
今天在写一个flash广告代码的时候，因为flash自带的链接，容易被当成弹出广告，所以做了一个div层放到flash上面，这样链接都是a触发的不会被拦截，但发现flash一直处于div层上面，原来flash需要加个参数才可以。让flash置于DIV层之下的方法，让flash不挡住飘浮层或下拉菜单，让Flash不档住浮动对象或层的关键参数：wmode=opaque。方法如下：
Mybatis实用Mapper SQL汇总示例 wdmcygah sql mysql mybatis 实用
Mybatis作为一个非常好用的持久层框架，相关资料真的是少得可怜，所幸的是官方文档还算详细。本博文主要列举一些个人感觉比较常用的场景及相应的Mapper SQL写法，希望能够对大家有所帮助。不少持久层框架对动态SQL的支持不足，在SQL需要动态拼接时非常苦恼，而Mybatis很好地解决了这个问题，算是框架的一大亮点。对于常见的场景，例如：批量插入/更新/删除，模糊查询，多条件查询，联表查询，