王知无(import_bigdata)

Apache Paimon核心原理和Flink应用进阶

这是一篇较为完整的介绍Apache Paimon和Flink进阶应用的文章，你最好收藏一波。

1.1 简介

Flink 社区希望能够将 Flink 的 Streaming 实时计算能力和 Lakehouse 新架构优势进一步结合，推出新一代的 Streaming Lakehouse 技术，促进数据在数据湖上真正实时流动起来，并为用户提供实时离线一体化的开发体验。Flink 社区内部孵化了 Flink Table Store （简称 FTS ）子项目，一个真正面向 Streaming 以及 Realtime的数据湖存储项目。2023年3月12日，FTS进入 Apache 软件基金会 (ASF) 的孵化器，改名为 Apache Paimon (incubating)。

Apache Paimon是一个流数据湖平台，具有高速数据摄取、变更日志跟踪和高效的实时分析的能力。

读/写：Paimon 支持多种读/写数据和执行 OLAP 查询的方式。

（1）对于读取，它支持以下方式消费数据

从历史快照（批处理模式）、从最新的偏移量（在流模式下），或以混合方式读取增量快照。

（2）对于写入，它支持来自数据库变更日志（CDC）的流式同步或来自离线数据的批量插入/覆盖。

生态系统

除了Apache Flink之外，Paimon还支持Apache Hive、Apache Spark、Trino等其他计算引擎的读取。

内部

在底层，Paimon 将列式文件存储在文件系统/对象存储上，并使用 LSM 树结构来支持大量数据更新和高性能查询。

统一存储

对于 Apache Flink 这样的流引擎，通常有三种类型的连接器：

消息队列：例如 Apache Kafka，在源阶段和中间阶段都使用它，以保证延迟保持在秒级
OLAP系统：例如Clickhouse，它以流方式接收处理后的数据并为用户的即席查询提供服务
批量存储：例如Apache Hive，它支持传统批处理的各种操作，包括INSERT OVERWRITE

Paimon 提供表抽象。它的使用方式与传统数据库没有什么区别：

在批处理执行模式下，它就像一个Hive表，支持Batch SQL的各种操作。查询它以查看最新的快照。
在流执行模式下，它的作用就像一个消息队列。查询它的行为就像从历史数据永不过期的消息队列中查询流更改日志。

1.2 核心特性

1）统一批处理和流处理

批量写入和读取、流式更新、变更日志生成，全部支持。

2）数据湖能力

低成本、高可靠性、可扩展的元数据。Apache Paimon 具有作为数据湖存储的所有优势。

3）各种合并引擎

按照您喜欢的方式更新记录。保留最后一条记录、进行部分更新或将记录聚合在一起，由您决定。

4）变更日志生成

Apache Paimon 可以从任何数据源生成正确且完整的变更日志，从而简化您的流分析。

5）丰富的表类型

除了主键表之外，Apache Paimon还支持append-only表，提供有序的流式读取来替代消息队列。

6）模式演化

Apache Paimon 支持完整的模式演化。您可以重命名列并重新排序。

1.3 基本概念

1.3.1 Snapshot

快照捕获表在某个时间点的状态。用户可以通过最新的快照来访问表的最新数据。通过时间旅行，用户还可以通过较早的快照访问表的先前状态。

1.3.2 Partition

Paimon 采用与 Apache Hive 相同的分区概念来分离数据。

分区是一种可选方法，可根据日期、城市和部门等特定列的值将表划分为相关部分。每个表可以有一个或多个分区键来标识特定分区。

通过分区，用户可以高效地操作表中的一片记录。

如果定义了主键，则分区键必须是主键的子集。

1.3.3 Bucket

未分区表或分区表中的分区被细分为存储桶，以便为可用于更有效查询的数据提供额外的结构。

桶的范围由记录中的一列或多列的哈希值确定。用户可以通过提供bucket-key选项来指定分桶列。如果未指定bucket-key选项，则主键（如果已定义）或完整记录将用作存储桶键。

桶是读写的最小存储单元，因此桶的数量限制了最大处理并行度。不过这个数字不应该太大，因为它会导致大量小文件和低读取性能。一般来说，建议每个桶的数据大小为1GB左右。

1.3.4 Consistency Guarantees一致性保证

Paimon writer使用两阶段提交协议以原子方式将一批记录提交到表中。每次提交在提交时最多生成两个快照。

对于任意两个同时修改表的writer，只要他们不修改同一个存储桶，他们的提交都是可序列化的。如果他们修改同一个存储桶，则仅保证快照隔离。也就是说，最终表状态可能是两次提交的混合，但不会丢失任何更改。

1.4 文件布局

一张表的所有文件都存储在一个基本目录下。Paimon 文件以分层方式组织。下图说明了文件布局。从快照文件开始，Paimon 读者可以递归地访问表中的所有记录。

下面简单介绍文件布局。

1.4.1 Snapshot Files

所有快照文件都存储在快照目录中。

快照文件是一个 JSON 文件，包含有关此快照的信息，包括：

正在使用的Schema文件

包含此快照的所有更改的清单列表（manifest list）

1.4.2 Manifest Files

所有清单列表（manifest list）和清单文件（manifest file）都存储在清单（manifest）目录中。

清单列表（manifest list）是清单文件名（manifest file）的列表。

清单文件（manifest file）是包含有关 LSM 数据文件和更改日志文件的文件信息。例如对应快照中创建了哪个LSM数据文件、删除了哪个文件。

1.4.3 Data Files

数据文件按分区和存储桶分组。每个存储桶目录都包含一个 LSM 树及其变更日志文件。目前，Paimon 支持使用 orc（默认）、parquet 和 avro 作为数据文件格式。

1.4.4 LSM Trees

Paimon 采用 LSM 树（日志结构合并树）作为文件存储的数据结构。

Sorted Runs

LSM 树将文件组织成多个Sorted Run。Sorted Run由一个或多个数据文件组成，并且每个数据文件恰好属于一个Sorted Run。

数据文件中的记录按其主键排序。在Sorted Run中，数据文件的主键范围永远不会重叠。

正如您所看到的，不同的Sorted Run可能具有重叠的主键范围，甚至可能包含相同的主键。查询LSM树时，必须合并所有Sorted Run，并且必须根据用户指定的合并引擎和每条记录的时间戳来合并具有相同主键的所有记录。

写入LSM树的新记录将首先缓存在内存中。当内存缓冲区满时，内存中的所有记录将被排序并刷新到磁盘。

Compaction

当越来越多的记录写入LSM树时，Sorted Run的数量将会增加。由于查询LSM树需要将所有Sorted Run合并起来，太多Sorted Run将导致查询性能较差，甚至内存不足。

为了限制Sorted Run的数量，我们必须偶尔将多个Sorted Run合并为一个大的Sorted Run。这个过程称为Compaction。

然而，Compaction是一个资源密集型过程，会消耗一定的CPU时间和磁盘IO，因此过于频繁的Compaction可能会导致写入速度变慢。这是查询和写入性能之间的权衡。Paimon 目前采用了类似于 Rocksdb 通用压缩的Compaction策略。

默认情况下，当Paimon将记录追加到LSM树时，它也会根据需要执行Compaction。用户还可以选择在“专用Compaction作业”中独立执行所有Compaction。

2.1 集成Flink进阶

2.1.1 写入性能

Paimon的写入性能与检查点密切相关，因此需要更大的写入吞吐量：

增加检查点间隔，或者仅使用批处理模式。
增加写入缓冲区大小。
启用写缓冲区溢出。
如果您使用固定存储桶模式，请重新调整存储桶数量。

并行度

建议sink的并行度小于等于bucket的数量，最好相等。

Compaction

当Sorted Run数量较少时，Paimon writer 将在单独的线程中异步执行压缩，因此记录可以连续写入表中。然而，为了避免Sorted Runs的无限增长，当Sorted Run的数量达到阈值时，writer将不得不暂停写入。下表属性确定阈值。

当 num-sorted-run.stop-trigger 变大时，写入停顿将变得不那么频繁，从而提高写入性能。但是，如果该值变得太大，则查询表时将需要更多内存和 CPU 时间。如果您担心内存 OOM，请配置sort-spill-threshold。它的值取决于你的内存大小。

优先考虑写入吞吐量

如果希望某种模式具有最大写入吞吐量，则可以缓慢而不是匆忙地进行Compaction。可以对表使用以下策略

num-sorted-run.stop-trigger = 2147483647
sort-spill-threshold = 10

此配置将在写入高峰期生成更多文件，并在写入低谷期逐渐合并到最佳读取性能。

触发Compaction的Sorted Run数

Paimon使用LSM树，支持大量更新。LSM 在多次Sorted Runs中组织文件。从 LSM 树查询记录时，必须组合所有Sorted Runs以生成所有记录的完整视图。

过多的Sorted Run会导致查询性能不佳。为了将Sorted Run的数量保持在合理的范围内，Paimon writers 将自动执行Compaction。下表属性确定触发Compaction的最小Sorted Run数。

写入初始化

在write初始化时，bucket的writer需要读取所有历史文件。如果这里出现瓶颈（例如同时写入大量分区），可以使用write-manifest-cache缓存读取的manifest数据，以加速初始化。

内存

Paimon writer中主要占用内存的地方有3个：

Writer的内存缓冲区，由单个任务的所有Writer共享和抢占。该内存值可以通过 write-buffer-size 表属性进行调整。

合并多个Sorted Run以进行Compaction时会消耗内存。可以通过 num-sorted-run.compaction-trigger 选项进行调整，以更改要合并的Sorted Run的数量。

如果行非常大，在进行Compaction时一次读取太多行数据可能会消耗大量内存。减少 read.batch-size 选项可以减轻这种情况的影响。

写入列式（ORC、Parquet等）文件所消耗的内存，不可调。

2.2.2 读取性能

Full Compaction

配置full-compaction.delta-commits在Flink写入中定期执行full-compaction。并且可以确保在写入结束之前分区被完全Compaction。

注意：Paimon 默认处理小文件并提供良好的读取性能。请不要在没有任何要求的情况下配置此Full Compaction选项，因为它会对性能产生重大影响。

主键表

对于主键表来说，这是一种MergeOnRead技术。读取数据时，会合并多层LSM数据，并行数会受到桶数的限制。虽然Paimon的merge会高效，但是还是赶不上普通的AppendOnly表。

如果你想在某些场景下查询得足够快，但只能找到较旧的数据，你可以：

配置full-compaction.delta-commits，写入数据时（目前只有Flink）会定期进行full Compaction。

配置`scan.mode`为`compacted-full`，读取数据时，选择full-compaction的快照。读取性能良好。

仅追加表

小文件会降低读取速度并影响 DFS 稳定性。默认情况下，当单个存储桶中的小文件超过“compaction.max.file-num”（默认50个）时，就会触发compaction。但是当有多个桶时，就会产生很多小文件。

您可以使用full-compaction来减少小文件。full-compaction将消除大多数小文件。

格式

Paimon 对 parquet 读取进行了一些查询优化，因此 parquet 会比 orc 稍快一些。

2.2.3 多Writer并发写入

Paimon的快照管理支持向多个writer写入。

默认情况下，Paimon支持对不同分区的并发写入。推荐的方式是streaming job将记录写入Paimon的最新分区；同时批处理作业（覆盖）将记录写入历史分区。

如果需要多个Writer写到同一个分区，事情就会变得有点复杂。例如，不想使用 UNION ALL，那就需要有多个流作业来写入"partial-update"表。参考如下的"Dedicated Compaction Job"。

Dedicated Compaction Job

默认情况下，Paimon writer 在写入记录时会根据需要执行Compaction。这对于大多数用例来说已经足够了，但有两个缺点：

这可能会导致写入吞吐量不稳定，因为执行压缩时吞吐量可能会暂时下降。

Compaction会将某些数据文件标记为“已删除”（并未真正删除）。如果多个writer标记同一个文件，则在提交更改时会发生冲突。Paimon 会自动解决冲突，但这可能会导致作业重新启动。

为了避免这些缺点，用户还可以选择在writer中跳过Compaction，并仅运行专门的作业来进行Compaction。由于Compaction仅由专用作业执行，因此writer可以连续写入记录而无需暂停，并且不会发生冲突。

Flink SQL目前不支持compaction相关的语句，所以我们必须通过flink run来提交compaction作业。

/bin/flink run \
/path/to/paimon-flink-action-0.5-SNAPSHOT.jar \
compact \
–warehouse \
–database \
–table \
[–partition ] \
[–catalog-conf [–catalog-conf …]] \

如果提交一个批处理作业（execution.runtime-mode:batch），当前所有的表文件都会被Compaction。如果您提交一个流作业（execution.runtime-mode: Streaming），该作业将持续监视表的新更改并根据需要执行Compaction。

2.2.4 表管理

管理快照

1）快照过期

Paimon Writer每次提交都会生成一个或两个快照。每个快照可能会添加一些新的数据文件或将一些旧的数据文件标记为已删除。然而，标记的数据文件并没有真正被删除，因为Paimon还支持时间旅行到更早的快照。它们仅在快照过期时被删除。

目前，Paimon Writer在提交新更改时会自动执行过期操作。通过使旧快照过期，可以删除不再使用的旧数据文件和元数据文件，以释放磁盘空间。

设置以下表属性：

注意，保留时间太短或保留数量太少可能会导致如下问题：

批量查询找不到该文件。例如，表比较大，批量查询需要10分钟才能读取，但是10分钟前的快照过期了，此时批量查询会读取到已删除的快照。

表文件上的流式读取作业（没有外部日志系统）无法重新启动。当作业重新启动时，它记录的快照可能已过期。（可以使用Consumer Id来保护快照过期的小保留时间内的流式读取）。

2）回滚快照

/bin/flink run \
/path/to/paimon-flink-action-0.5-SNAPSHOT.jar \
rollback-to \
–warehouse \
–database \
–table \
–snapshot \
[–catalog-conf [–catalog-conf …]]

管理分区

创建分区表时可以设置partition.expiration-time。Paimon会定期检查分区的状态，并根据时间删除过期的分区。

判断分区是否过期：将分区中提取的时间与当前时间进行比较，看生存时间是否超过partition.expiration-time。比如：

CREATE TABLE T (…) PARTITIONED BY (dt) WITH (
'partition.expiration-time' = '7 d',
'partition.expiration-check-interval' = '1 d',
'partition.timestamp-formatter' = 'yyyyMMdd'
);

管理小文件

小文件可能会导致：

稳定性问题：HDFS中小文件过多，NameNode会承受过大的压力。
成本问题：HDFS中的小文件会暂时使用最小1个Block的大小，例如128MB。
查询效率：小文件过多查询效率会受到影响。

1）Flink Checkpoint的影响

使用Flink Writer，每个checkpoint会生成 1-2 个快照，并且checkpoint会强制在 DFS 上生成文件，因此checkpoint间隔越小，会生成越多的小文件。

默认情况下，不仅checkpoint会导致文件生成，writer的内存（write-buffer-size）耗尽也会将数据flush到DFS并生成相应的文件。可以启用 write-buffer-spillable 在 writer 中生成溢出文件，从而在 DFS 中生成更大的文件。

所以，可以设置如下：

增大checkpoint间隔
增加 write-buffer-size 或启用 write-buffer-spillable

2）快照的影响

Paimon维护文件的多个版本，文件的Compaction和删除是逻辑上的，并没有真正删除文件。文件只有在 Snapshot 过期后才会被真正删除，因此减少文件的第一个方法就是减少 Snapshot 过期的时间。Flink writer 会自动使快照过期。

分区和分桶的影响

表数据会被物理分片到不同的分区，里面有不同的桶，所以如果整体数据量太小，单个桶中至少有一个文件，建议你配置较少的桶数，否则会出现也有很多小文件。

3）主键表LSM的影响

LSM 树将文件组织成Sorted Runs的运行。Sorted Runs由一个或多个数据文件组成，并且每个数据文件恰好属于一个Sorted Runs。

默认情况下，Sorted Runs数取决于 num-sorted-run.compaction-trigger，这意味着一个桶中至少有 5 个文件。如果要减少此数量，可以保留更少的文件，但写入性能可能会受到影响。

4）仅追加表的文件的影响

默认情况下，Append-Only 还会进行自动Compaction以减少小文件的数量

对于分桶的 Append-only 表，为了排序会对bucket内的文件行Compaction，可能会保留更多的小文件。

5）Full-Compaction的影响

主键表是5个文件，但是Append-Only表（桶）可能单个桶里有50个小文件，这是很难接受的。更糟糕的是，不再活动的分区还保留了如此多的小文件。

建议配置Full-Compaction，在Flink写入时配置‘full-compaction.delta-commits’定期进行full-compaction。并且可以确保在写入结束之前分区被full-compaction。

缩放Bucket

1）说明

由于总桶数对性能影响很大，Paimon 允许用户通过 ALTER TABLE 命令调整桶数，并通过 INSERT OVERWRITE 重新组织数据布局，而无需重新创建表/分区。当执行覆盖作业时，框架会自动扫描旧桶号的数据，并根据当前桶号对记录进行哈希处理。

– rescale number of total buckets

ALTER TABLE table_identifier SET (‘bucket’ = ‘…’)

– reorganize data layout of table/partition

INSERT OVERWRITE table_identifier [PARTITION (part_spec)]
SELECT …
FROM table_identifier
[WHERE part_spec]

注意：

ALTER TABLE 仅修改表的元数据，不会重新组织或重新格式化现有数据。重新组织现有数据必须通过INSERT OVERWRITE来实现。

重新缩放桶数不会影响读取和正在运行的写入作业。

一旦存储桶编号更改，任何新安排的 INSERT INTO 作业写入未重新组织的现有表/分区将抛出 TableException ，并显示如下类似异常：

Try to write table/partition … with a new bucket num …,
but the previous bucket num is … Please switch to batch mode,
and perform INSERT OVERWRITE to rescale current data layout first.

对于分区表，不同的分区可以有不同的桶号。例如：

ALTER TABLE my_table SET ('bucket' = '4');
INSERT OVERWRITE my_table PARTITION (dt = '2022-01-01')
SELECT * FROM …;
ALTER TABLE my_table SET ('bucket' = '8');
INSERT OVERWRITE my_table PARTITION (dt = '2022-01-02')
SELECT * FROM …;

在覆盖期间，确保没有其他作业写入同一表/分区。

注意：对于启用日志系统的表（例如Kafka），请重新调整主题的分区以保持一致性。

重新缩放存储桶有助于处理吞吐量的突然峰值。假设有一个每日流式ETL任务来同步交易数据。该表的DDL和管道如下所示。

2）官方示例：

如下是正在跑的一个作业：

– 建表

CREATE TABLE verified_orders (
    trade_order_id BIGINT,
    item_id BIGINT,
    item_price DOUBLE,
    dt STRING,
PRIMARY KEY (dt, trade_order_id, item_id) NOT ENFORCED
) PARTITIONED BY (dt)
WITH (
'bucket' = '16'
);

– kafka表

CREATE temporary TABLE raw_orders(
    trade_order_id BIGINT,
    item_id BIGINT,
    item_price BIGINT,
    gmt_create STRING,
    order_status STRING
) WITH (
'connector' = 'kafka',
'topic' = '…',
'properties.bootstrap.servers' = '…',
'format' = 'csv'
…
);

– 流式插入16个分桶

INSERT INTO verified_orders
SELECT trade_order_id,
  item_id,
  item_price,
  DATE_FORMAT(gmt_create, 'yyyy-MM-dd') AS dt
FROM raw_orders
WHERE order_status = 'verified';

过去几周运行良好。然而，最近数据量增长很快，作业的延迟不断增加。为了提高数据新鲜度，用户可以执行如下操作缩放分桶：

（1）使用保存点暂停流作业

$ ./bin/flink stop \
–savepointPath /tmp/flink-savepoints \
$JOB_ID

（2）增加桶数

ALTER TABLE verified_orders SET ('bucket' = '32');

（3）切换到批处理模式并覆盖流作业正在写入的当前分区

SET 'execution.runtime-mode' = 'batch';

– 假设今天是2022-06-22

– 情况1：没有更新历史分区的延迟事件，因此覆盖今天的分区就足够了

INSERT OVERWRITE verified_orders PARTITION (dt = '2022-06-22')
SELECT trade_order_id,
  item_id,
  item_price
FROM verified_orders
WHERE dt = '2022-06-22';

情况2：有更新历史分区的延迟事件，但范围不超过3天

INSERT OVERWRITE verified_orders
SELECT trade_order_id,
  item_id,
  item_price,
  dt
FROM verified_orders
WHERE dt IN ('2022-06-20', '2022-06-21', '2022-06-22');

（4）覆盖作业完成后，切换回流模式，从保存点恢复（可以增加并行度=新bucket数量）。

SET 'execution.runtime-mode' = 'streaming';
SET 'execution.savepoint.path' = ;
INSERT INTO verified_orders
SELECT trade_order_id,
      item_id,
      item_price,
      DATE_FORMAT(gmt_create, 'yyyy-MM-dd') AS dt
FROM raw_orders
WHERE order_status = 'verified';

以上就是本次分享的内容，谢谢大家。

300万字！全网最全大数据学习面试社区等你来！

如果这个文章对你有帮助，不要忘记 「在看」 「点赞」 「收藏」 三连啊喂！

2022年全网首发|大数据专家级技能模型与学习指南(胜天半子篇)

互联网最坏的时代可能真的来了

我在B站读大学，大数据专业

我们在学习Flink的时候，到底在学习什么？

193篇文章暴揍Flink，这个合集你需要关注一下

Flink生产环境TOP难题与优化，阿里巴巴藏经阁YYDS

Flink CDC我吃定了耶稣也留不住他！| Flink CDC线上问题小盘点

我们在学习Spark的时候，到底在学习什么？

在所有Spark模块中，我愿称SparkSQL为最强！

硬刚Hive | 4万字基础调优面试小总结

数据治理方法论和实践小百科全书

标签体系下的用户画像建设小指南

4万字长文 | ClickHouse基础&实践&调优全视角解析

【面试&个人成长】2021年过半，社招和校招的经验之谈

大数据方向另一个十年开启 |《硬刚系列》第一版完结

我写过的关于成长/面试/职场进阶的文章

当我们在学习Hive的时候在学习什么？「硬刚Hive续集」

你可能感兴趣的:(apache,flink,大数据)

史上最强！Spring Boot 3.3 高效批量插入万级数据的多种方案 m0_74825074 面试学习路线阿里巴巴 spring boot 后端 java
SpringBoot3.3多种方式实现高效批量插入万级数据，史上最强！在大数据处理场景下，如何高效地将大量数据插入数据库是一个重要课题。本文基于SpringBoot3.3及MyBatis-Plus，介绍几种高效的批量插入数据的方法，包括：使用JDBC批处理使用自定义SQL批处理单条插入（for循环）拼接SQL语句插入MyBatis-Plus的saveBatch方法循环插入+开启批处理模式每种方式都
多租户架构未提供足够的租户安全培训和教育图幻未来网络安全
多租户架构下租户安全培训与教育的需求分析与解决方案引言随着云计算和大数据技术的飞速发展，多租户架构已成为企业数字化转型的重要基石。多租户架构允许一个应用程序实例为多个租户提供服务，从而降低了企业的运营成本。然而，这种架构也带来了一系列的安全挑战。为了解决这些问题，企业需要加强对租户的安全培训和教育，确保租户了解如何在使用多租户架构时保护自己的数据和应用程序。本文将探讨多租户架构下的租户安全培训和教
一文了解大数据概论程序员
一.大数据概论1.1大数据概念大数据（bigdata）：指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。主要解决，海量数据的存储和海量数据的分析计算问题。按顺序给出数据存储单位：bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。1Byte=8bit
python网页填表教程_PythonSpot 中文系列教程 · 翻译完成 weixin_39633917 python网页填表教程
原文：PythonSpotPythonTutorials协议：CCBY-NC-SA4.0欢迎任何人参与和完善：一个人可以走的很快，但是一群人却可以走的更远。在线阅读ApacheCN学习资源目录PythonSpot中文系列教程初学者介绍Python字符串字符串（第2部分）Python变量Python列表href="https://github.com/apachecn/pythonspot-zh/b
【详解】CentOS6.5下搭建LAMP环境牛肉胡辣汤 php
CentOS6.5下搭建LAMP环境在Linux系统上搭建LAMP（Linux、Apache、MySQL、PHP）环境是许多Web开发者的基本技能之一。本文将详细介绍如何在CentOS6.5系统上搭建一个完整的LAMP环境。环境准备操作系统：CentOS6.5软件版本：Apache:2.2.xMySQL:5.1.xPHP:5.3.x确保你的CentOS6.5已经安装并可以正常访问互联网。安装Apa
报错——使用cxf时报错：org.apache.cxf.interceptor.Fault: Marshalling Error: XXX is not known to this context JAVA小摩托不堵车报错 java webservice 接口
文章目录1、场景：2、报错内容：3、解决1、场景：使用定时任务定时调用多个webservice接口，应用cxf框架。2、报错内容：org.apache.cxf.interceptor.Fault:MarshallingError:com.admin.bag.webservice.server.Messageisnotknowntothiscontextatorg.apache.cxf.jaxb.J
判断字符串能否转json qq_26517369 json
packagecom.jlit.msgPush.utils;importorg.apache.commons.lang.StringUtils;importorg.json.JSONArray;importorg.json.JSONException;importorg.json.JSONObject;/*importcom.alibaba.fastjson.JSON;importcom.alib
中国BI步入增长大周期，腾讯云ChatBI加速AI+BI融合大数据在线 AI 云静思园人工智能腾讯云大数据 ChatBI AI+BI
过去十年，大数据技术的快速发展，让数据消费前进一大步，数据价值得到一定程度的挖掘与释放，真正开启了“用数”的大时代。但数据分析繁杂的技术栈、复杂的处理过程以及程式化的交互方式，让“数据消费”的门槛始终降不下来，一定程度制约着企业迈向“用好数”的新阶段。如今，随着大模型和生成式AI的迅猛发展，数据消费正迎来一场巨大变革。大模型与数据分析天然的融合属性，使得商业智能（以下简称：BI）迎来全面重塑，BI
hive部署关关呀 hive hadoop hdfs
1.在/opt/softwares上传hive的安装包，并解压到/opt/module中2.将apache-hive-3.1.2-bin改名为hive3.修改/etc/profile.d/my_env.sh4.source/etc/profile.d/my_env.sh让它生效5.在lib解决日志jar包冲突
乐学智伴：基于人工智能与大数据的学生个性化学习辅助平台 IT源码大师人工智能大数据学习
详细描述：1.引言：教育科技的时代背景在信息化和数字化的浪潮下，教育领域正经历着深刻的变革。传统的教学模式以教师为中心，难以满足学生个性化学习的需求。随着人工智能、大数据和云计算等技术的快速发展，教育科技（EdTech）为个性化学习提供了全新的解决方案。通过智能化工具和数据分析，学生可以根据自身的学习特点和进度，制定个性化的学习计划，从而提高学习效率和效果。“乐学智伴”是一款基于人工智能与大数据技
Hive存储系统全面测试报告蚂蚁质量软件测试测试用例功能测试
引言在大数据时代，数据存储和处理技术的重要性日益凸显。ApacheHive作为一个基于Hadoop的数据仓库工具，因其能够提供类SQL查询功能（HiveQL）而广受欢迎。Hive的设计初衷是为了简化大数据集的查询和管理，它允许用户通过简单的SQL语句来操作存储在Hadoop分布式文件系统（HDFS）上的大规模数据集。然而，随着数据量的激增和业务需求的多样化，Hive存储系统的功能、性能和安全性面临
企业数字化转型AI能力中台（总体架构、系统功能）建设方案公众号：优享智库数字化转型数据治理主数据数据仓库人工智能架构
**企业数字化转型AI能力中台建设方案**一、建设背景与目标随着大数据、云计算、人工智能等技术的快速发展，企业正面临着数字化转型的重要机遇。为了提升企业的智能化水平，加快业务创新，建设AI能力中台成为企业的迫切需求。本方案旨在为企业打造一套功能完善的AI能力中台，实现数据采集与整合、算法模型管理、智能分析与可视化等核心功能，推动企业在各个业务领域实现智能化升级和创新。二、总体架构设计AI能力中台采
数据挖掘的常用算法北柠陌寒0207 笔记
在大数据时代,数据挖掘是最关键的工作。大数据的挖掘是从海量、不完全的、有噪声的、模糊的、随机的大型数据库中发现隐含在其中有价值的、潜在有用的信息和知识的过程,也是一种决策支持过程。其主要基于人工智能,机器学习,模式学习,统计学等。通过对大数据高度自动化地分析,做出归纳性的推理,从中挖掘出潜在的模式,可以帮助企业、商家、用户调整市场政策、减少风险、理性面对市场,并做出正确的决策。目前,在很多领域尤其
大数据生态的Apache RocketMQ5.0 Apache RocketMQ java 开发语言
本文作者：李伟-ApacheRocketMQCommitter，RocketMQPython客户端项目Owner，ApacheDorisContributor，腾讯云消息队列资深开发工程师，著有《RocketMQ分布式消息中间件(核心原理与最佳实践)》。一、RocketMqueue101RocketMQ拥有诸多出色的特性：比如多副本机制，RocketMQ支持存储层的多副本Dledger，它是基于R
Spring Boot 打包报错Failed to execute goal org.apache.maven.plugins:maven-resources-plugin:3.2.0 旭东怪 Spring Boot spring boot apache maven
问题描述：[ERROR]Failedtoexecutegoalorg.apache.maven.plugins:maven-resources-plugin:3.2.0:resources(default-resources)onprojecthelloworld:Inputlength=1->[Help1]问题分析：1、plugins标签里面缺少maven-resources-plugin依赖。
第三章：实时流数据处理与分析深度学习客大数据技术进阶 linq c#数据分析
目录3.1流处理框架深入解析与实战Flink与KafkaStreams的性能对比：事件驱动架构的代码实现1.ApacheFlink：流处理的“性能怪兽”2.KafkaStreams：轻量级、低延迟的流式处理框架实时异常检测与报警系统：结合FlinkCEP（ComplexEventProcessing）进行实现3.2低延迟流处理优化数据流式计算中的状态管理与容错机制：FlinkCheckpointi
Linux: Apache 安全设定 iteye_5904 Ubuntu /Mac /Github /Aptana /Nginx /Shell /Linux 数据库操作系统系统安全
1.AutoIndex预设安装好Apache之后，其预设目录是在/var/www/html/，如果没有设定index.html的话，那么就会印出目前目录里的所有档案和目录，基於安全理由，希望把AutoIndex这个取消，如此在别人打入网址后，就会出现403的存取权限不足，只有在很“明确”的指出档案时才可以浏览。关闭/var/www/html里（含子目录）的自动印出首页功能[root@rhelcon
ZooKeeper数据模型和节点类型代码指四方 zookeeper 分布式云原生大数据
ZooKeeper数据模型和节点类型ZooKeeper是一个开源的分布式协调服务，用于管理和协调分布式系统中的大数据。在ZooKeeper中，数据被组织成一个层次化的命名空间（Namespace），类似于一个标准的文件系统。每个节点（Node）都可以存储数据，并且可以设置监视器（Watcher）来监听节点的变化。ZooKeeper数据模型是基于树形结构的，每个节点都可以包含数据和子节点。数据存储在
Lucene常用的字段类型&lucene检索打分原理学会了没全文检索 lucene 打分字段
在ApacheLucene中，Field类是文档中存储数据的基础。不同类型的Field用于存储不同类型的数据（如文本、数字、二进制数据等）。以下是一些常用的Field类型及其底层存储结构：TextField：用途：用于存储文本数据，并对其进行分词和索引。底层存储结构：文本数据会被分词器（Analyzer）处理，将文本分割成词项（terms）。每个词项会被存储在倒排索引（invertedindex）
linux lamp环境源码搭建教程,Linux_Lamp环境(源码包)搭建详细教程林文曦 linux lamp环境源码搭建教程
LinuxLamp环境源码包搭建详细教程一：软件准备篇Apache:httpd-2.4.7.tar.gzMySql:mysql-5.5.35.tar.gzPHP:php-5.5.7.tar.gzApr:apr-1.5.0.tar.gzApr-Util:apr-util-1.5.3.tar.gzPcre:pcre-8.32.tar.gz其他软件请apt-getinstall安装：autoconf、c
DeepSeek：突破传统的AI算法与下载排行分析 smart_ljh 行业搜索人工智能 AI
DeepSeek的AI算法突破DeepSeek相较于OpenAI以及其它平台的性能对比DeepSeek的下载排行分析（截止2025/1/28AI人工智能相关DeepSeek甚至一度被推上了搜索）未来发展趋势总结在人工智能技术飞速发展的当下，搜索引擎市场也迎来了新的变革。DeepSeek，作为一款基于深度学习技术和大数据算法的搜索引擎，以其独特的优势在国内外市场上引起了广泛关注。下面介绍一下针对De
linux-LAMP搭建 Theshaye linux系统服务器 linux apache
LAMP1.架构描述LAMP是一个C/S架构的平台：web客户端基于tcp/ip协议，发出http请求，服务端进行回应，用户的请求可能是动态的也可能是静态的。web服务器通过用户发送的url后缀判断动静态请求：静态请求web服务器直接处理静态请求web服务器转发给后台应用服务器去处理：(CGI)php运行的后台程序apache与php所处环境不同决定其通讯方式不同：安装在同一台服务器，就默认使用系
2000-2021年上市公司数字化转型数据（MD&A报告词频、文本统计） m0_71334485 数据 #上市公司上市公司数字化转型数字化转型上市公司
2000-2021年上市公司数字化转型数据（MD&A报告词频、文本统计）1、时间：2000-2021年2、来源：上市公司NB3、范围：上市公司4、指标：包括人工智能技术、大数据技术、云计算技术、区块链技术、数字技术运用和数字技术应用、互联网商业模式、智能制造、现代信息系统等9个维度175个词频类别、股票代码、股票简称、年报标题、年份、MD&A文本-文本总长度、MD&A文本仅中英文-文本总长度、人工
【高级篇】第7章 Elasticsearch 索引生命周期管理(ILM) JAVA和人工智能 elasticsearch 大数据搜索引擎
引言在大数据时代，有效地管理数据的生命周期是确保系统性能、成本控制和合规性的关键。Elasticsearch的索引生命周期管理（ILM）为此提供了强大的解决方案。本章将深入探讨ILM的概念、策略设计与实施、以及监控与维护的实践，帮助读者掌握这一重要领域的精髓。7.1ILM概念：数据管理的智慧策略索引生命周期管理（ILM）是Elasticsearch中的一项高级功能，它代表了一种前瞻性的数据管理哲学
Elasticsearch 索引生命周期管理：优化大数据存储静谧星光c 大数据 elasticsearch jenkins
Elasticsearch索引生命周期管理：优化大数据存储在处理大规模数据时，存储和检索效率是至关重要的。Elasticsearch是一款功能强大的搜索和分析引擎，它的索引生命周期管理功能可以帮助我们优化大数据的存储和查询性能。本文将介绍Elasticsearch索引生命周期管理的概念，并提供相应的源代码示例。索引生命周期管理（IndexLifecycleManagement，简称ILM）是Ela
运维面试常问的100道题（大数据统计） m0_67403143 面试学习路线阿里巴巴运维面试大数据
一、基础知识类1、请解释什么是运维？运维是指对企业的IT系统进行运行维护，包括硬件设备、软件系统、网络等的监控、管理、优化和故障处理，以确保系统的稳定、高效运行，满足业务需求。2、简述运维的主要职责有哪些？服务器的安装、配置、维护和监控。网络设备的管理和维护。数据库的管理和维护。应用系统的部署、升级和维护。故障处理和应急响应。性能优化和容量规划。安全管理和漏洞修复。3、什么是服务器？有哪些类型？服
window10下编译hadoop报错：Failed to execute goal org.apache.maven.plugins:maven-antrun-plugin:1.7: huangxgc hadoop hadoop windows
Windows10下buildhadoop2.7.3报错：Failedtoexecutegoalorg.apache.maven.plugins:maven-antrun-plugin:1.7:[ERROR]Failedtoexecutegoalorg.apache.maven.plugins:maven-antrun-plugin:1.7:run(dist)onprojecthadoop-hdf
java集成kafka案例沉墨的夜 java kafka 开发语言
要在Java项目中集成ApacheKafka以实现消息的生产和消费，步骤如下：1.引入Maven依赖在您的pom.xml文件中添加以下依赖，以包含Kafka客户端库：org.apache.kafkakafka-clients2.8.0org.springframework.kafkaspring-kafka2.7.02.配置Kafka生产者首先，设置生产者的配置属性：importorg.apach
基于centos6.5安装ElasticSearch 小码农叔叔 ElasticSearch linux与容器实战 ElasticSearch ES安装
前面我们讲述了solr的安装搭建过程，今天讲讲ElasticSearch，ElasticSearch是另一款作为分词和搜索的服务器，相比solr，ElasticSearch在做大数据方面更有优势，因为其天然支持分布式，而且其强大的分词技术使得其在众多需要处理大数据量的业务中低位逐渐拔高，像大数据中做日志的提取和分析，使用ElasticSearch很适合，实际工作中，ElasticSearch主要是
linux lamp 山客泛舟游Y linux php apache
linuxlamp1.lamp简介有了前面学习的知识的铺垫，今天可以来学习下第一个常用的web架构了。所谓lamp，其实就是由Linux+Apache+Mysql/MariaDB+Php/Perl/Python的一组动态网站或者服务器的开源软件，除Linux外其它各部件本身都是各自独立的程序，但是因为经常被放在一起使用，拥有了越来越高的兼容度，共同组成了一个强大的Web应用程序平台。LAMP指的是
桌面上有多个球在同时运动，怎么实现球之间不交叉，即碰撞？换个号韩国红果果 html 小球碰撞
稍微想了一下，然后解决了很多bug，最后终于把它实现了。其实原理很简单。在每改变一个小球的x y坐标后，遍历整个在dom树中的其他小球，看一下它们与当前小球的距离是否小于球半径的两倍？若小于说明下一次绘制该小球（设为a）前要把他的方向变为原来相反方向（与a要碰撞的小球设为b），即假如当前小球的距离小于球半径的两倍的话，马上改变当前小球方向。那么下一次绘制也是先绘制b，再绘制a，由于a的方向已经改变
《高性能HTML5》读后整理的Web性能优化内容白糖_ html5
读后感先说说《高性能HTML5》这本书的读后感吧，个人觉得这本书前两章跟书的标题完全搭不上关系，或者说只能算是讲解了“高性能”这三个字，HTML5完全不见踪影。个人觉得作者应该首先把HTML5的大菜拿出来讲一讲，再去分析性能优化的内容，这样才会有吸引力。因为只是在线试读，没有机会看后面的内容，所以不胡乱评价了。
[JShop]Spring MVC的RequestContextHolder使用误区 dinguangx jeeshop 商城系统 jshop 电商系统
在spring mvc中，为了随时都能取到当前请求的request对象，可以通过RequestContextHolder的静态方法getRequestAttributes()获取Request相关的变量，如request, response等。在jshop中，对RequestContextHolder的
算法之时间复杂度周凡杨 java 算法时间复杂度效率
在计算机科学中，算法的时间复杂度是一个函数，它定量描述了该算法的运行时间。这是一个关于代表算法输入值的字符串的长度的函数。时间复杂度常用大O符号表述，不包括这个函数的低阶项和首项系数。使用这种方式时，时间复杂度可被称为是渐近的，它考察当输入值大小趋近无穷时的情况。这样用大写O()来体现算法时间复杂度的记法，
Java事务处理 g21121 java
一、什么是Java事务通常的观念认为，事务仅与数据库相关。事务必须服从ISO/IEC所制定的ACID原则。ACID是原子性（atomicity）、一致性（consistency）、隔离性（isolation）和持久性（durability）的缩写。事务的原子性表示事务执行过程中的任何失败都将导致事务所做的任何修改失效。一致性表示当事务执行失败时，所有被该事务影响的数据都应该恢复到事务执行前的状
Linux awk命令详解 510888780 linux
一. AWK 说明 awk是一种编程语言，用于在linux/unix下对文本和数据进行处理。数据可以来自标准输入、一个或多个文件，或其它命令的输出。它支持用户自定义函数和动态正则表达式等先进功能，是linux/unix下的一个强大编程工具。它在命令行中使用，但更多是作为脚本来使用。 awk的处理文本和数据的方式：它逐行扫描文件，从第一行到
android permission 布衣凌宇 Permission
<uses-permission android:name="android.permission.ACCESS_CHECKIN_PROPERTIES" ></uses-permission>允许读写访问"properties"表在checkin数据库中，改值可以修改上传 <uses-permission android:na
Oracle和谷歌Java Android官司将推迟 aijuans java oracle
北京时间 10 月 7 日，据国外媒体报道，Oracle 和谷歌之间一场等待已久的官司可能会推迟至 10 月 17 日以后进行，这场官司的内容是 Android 操作系统所谓的 Java 专利权之争。本案法官 William Alsup 称根据专利权专家 Florian Mueller 的预测，谷歌 Oracle 案很可能会被推迟。　　该案中的第二波辩护被安排在 10 月 17 日出庭，从目前看来
linux shell 常用命令 antlove linux shell command
grep [options] [regex] [files] /var/root # grep -n "o" * hello.c:1:/* This C source can be compiled with:
Java解析XML配置数据库连接(DOM技术连接 SAX技术连接) 百合不是茶 sax技术 Java解析xml文档 dom技术 XML配置数据库连接
XML配置数据库文件的连接其实是个很简单的问题,为什么到现在才写出来主要是昨天在网上看了别人写的,然后一直陷入其中,最后发现不能自拔所以今天决定自己完成 ,,,,现将代码与思路贴出来供大家一起学习 XML配置数据库的连接主要技术点的博客; JDBC编程 : JDBC连接数据库 DOM解析XML: DOM解析XML文件 SA
underscore.js 学习（二） bijian1013 JavaScript underscore
Array Functions 所有数组函数对参数对象一样适用。1.first _.first(array, [n]) 别名: head, take 返回array的第一个元素，设置了参数n，就
plSql介绍 bijian1013 oracle 数据库 plsql
/* * PL/SQL 程序设计学习笔记 * 学习plSql介绍.pdf * 时间：2010-10-05 */ --创建DEPT表 create table DEPT ( DEPTNO NUMBER(10), DNAME NVARCHAR2(255), LOC NVARCHAR2(255) ) delete dept; select
【Nginx一】Nginx安装与总体介绍 bit1129 nginx
启动、停止、重新加载Nginx nginx 启动Nginx服务器，不需要任何参数u nginx -s stop 快速(强制)关系Nginx服务器 nginx -s quit 优雅的关闭Nginx服务器 nginx -s reload 重新加载Nginx服务器的配置文件 nginx -s reopen 重新打开Nginx日志文件
spring mvc开发中浏览器兼容的奇怪问题 bitray jquery Ajax springMVC 浏览器上传文件
最近个人开发一个小的OA项目,属于复习阶段.使用的技术主要是spring mvc作为前端框架,mybatis作为数据库持久化技术.前台使用jquery和一些jquery的插件. 在开发到中间阶段时候发现自己好像忽略了一个小问题,整个项目一直在firefox下测试,没有在IE下测试,不确定是否会出现兼容问题.由于jquer
Lua的io库函数列表 ronin47 lua io
1、io表调用方式：使用io表，io.open将返回指定文件的描述，并且所有的操作将围绕这个文件描述　　io表同样提供三种预定义的文件描述io.stdin,io.stdout,io.stderr 　　2、文件句柄直接调用方式,即使用file:XXX()函数方式进行操作,其中file为io.open()返回的文件句柄　　多数I/O函数调用失败时返回nil加错误信息,有些函数成功时返回nil
java-26-左旋转字符串 bylijinnan java
public class LeftRotateString { /** * Q 26 左旋转字符串 * 题目：定义字符串的左旋转操作：把字符串前面的若干个字符移动到字符串的尾部。 * 如把字符串abcdef左旋转2位得到字符串cdefab。 * 请实现字符串左旋转的函数。要求时间对长度为n的字符串操作的复杂度为O(n)，辅助内存为O(1)。 */ pu
《vi中的替换艺术》-linux命令五分钟系列之十一 cfyme linux命令
vi方面的内容不知道分类到哪里好，就放到《Linux命令五分钟系列》里吧！今天编程，关于栈的一个小例子，其间我需要把”S.”替换为”S->”(替换不包括双引号)。其实这个不难，不过我觉得应该总结一下vi里的替换技术了，以备以后查阅。 1 所有替换方案都要在冒号“:”状态下书写。 2 如果想将abc替换为xyz，那么就这样 :s/abc/xyz/ 不过要特别
[轨道与计算]新的并行计算架构 comsci 并行计算
我在进行流程引擎循环反馈试验的过程中，发现一个有趣的事情。。。如果我们在流程图的每个节点中嵌入一个双向循环代码段，而整个流程中又充满着很多并行路由，每个并行路由中又包含着一些并行节点，那么当整个流程图开始循环反馈过程的时候，这个流程图的运行过程是否变成一个并行计算的架构呢？
重复执行某段代码 dai_lm android
用handler就可以了 private Handler handler = new Handler(); private Runnable runnable = new Runnable() { public void run() { update(); handler.postDelayed(this, 5000); } }; 开始计时 h
Java实现堆栈（list实现） datageek 数据结构——堆栈
public interface IStack<T> { //元素出栈，并返回出栈元素 public T pop(); //元素入栈 public void push(T element); //获取栈顶元素 public T peek(); //判断栈是否为空 public boolean isEmpty
四大备份MySql数据库方法及可能遇到的问题 dcj3sjt126com DB backup
一：通过备份王等软件进行备份前台进不去？用备份王等软件进行备份是大多老站长的选择，这种方法方便快捷，只要上传备份软件到空间一步步操作就可以，但是许多刚接触备份王软件的客用户来说还原后会出现一个问题：因为新老空间数据库用户名和密码不统一，网站文件打包过来后因没有修改连接文件，还原数据库是好了，可是前台会提示数据库连接错误，网站从而出现打不开的情况。解决方法：学会修改网站配置文件，大多是由co
github做webhooks：[1]钩子触发是否成功测试 dcj3sjt126com github git webhook
转自: http://jingyan.baidu.com/article/5d6edee228c88899ebdeec47.html github和svn一样有钩子的功能，而且更加强大。例如我做的是最常见的push操作触发的钩子操作，则每次更新之后的钩子操作记录都会在github的控制板可以看到！工具/原料 github 方法/步骤
">的作用" target="_blank">JSP中的作用蕃薯耀
JSP中<base href="<%=basePath%>">的作用 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
linux下SAMBA服务安装与配置 hanqunfeng linux
局域网使用的文件共享服务。一.安装包： rpm -qa | grep samba samba-3.6.9-151.el6.x86_64 samba-common-3.6.9-151.el6.x86_64 samba-winbind-3.6.9-151.el6.x86_64 samba-client-3.6.9-151.el6.x86_64 samba-winbind-clients
guava cache IXHONG cache
缓存，在我们日常开发中是必不可少的一种解决性能问题的方法。简单的说，cache 就是为了提升系统性能而开辟的一块内存空间。　　缓存的主要作用是暂时在内存中保存业务系统的数据处理结果，并且等待下次访问使用。在日常开发的很多场合，由于受限于硬盘IO的性能或者我们自身业务系统的数据处理和获取可能非常费时，当我们发现我们的系统这个数据请求量很大的时候，频繁的IO和频繁的逻辑处理会导致硬盘和CPU资源的
Query的开始--全局变量,noconflict和兼容各种js的初始化方法 kvhur JavaScript jquery css
这个是整个jQuery代码的开始，里面包含了对不同环境的js进行的处理，例如普通环境，Nodejs，和requiredJs的处理方法。还有jQuery生成$, jQuery全局变量的代码和noConflict代码详解完整资源： http://www.gbtags.com/gb/share/5640.htm jQuery 源码： (
美国人的福利和中国人的储蓄 nannan408
今天看了篇文章，震动很大，说的是美国的福利。美国医院的无偿入院真的是个好措施。小小的改善，对于社会是大大的信心。小孩，税费等，政府不收反补，真的体现了人文主义。美国这么高的社会保障会不会使人变懒？答案是否定的。正因为政府解决了后顾之忧，人们才得以倾尽精力去做一些有创造力，更造福社会的事情，这竟成了美国社会思想、人
N阶行列式计算(JAVA) qiuwanchi N阶行列式计算
package gaodai; import java.util.List; /** * N阶行列式计算 * @author 邱万迟 * */ public class DeterminantCalculation { public DeterminantCalculation(List<List<Double>> determina
C语言算法之打渔晒网问题 qiufeihu c 算法
如果一个渔夫从2011年1月1日开始每三天打一次渔，两天晒一次网，编程实现当输入2011年1月1日以后任意一天，输出该渔夫是在打渔还是在晒网。代码如下： #include <stdio.h> int leap(int a) /*自定义函数leap()用来指定输入的年份是否为闰年*/ { if((a%4 == 0 && a%100 != 0
XML中DOCTYPE字段的解析 wyzuomumu xml
DTD声明始终以!DOCTYPE开头,空一格后跟着文档根元素的名称,如果是内部DTD,则再空一格出现[],在中括号中是文档类型定义的内容. 而对于外部DTD,则又分为私有DTD与公共DTD,私有DTD使用SYSTEM表示,接着是外部DTD的URL. 而公共DTD则使用PUBLIC,接着是DTD公共名称,接着是DTD的URL. 私有DTD <!DOCTYPErootSYST