Juicedata

万字长文 | Hadoop 上云：存算分离架构设计与迁移实践

一面数据原有的技术架构是在线下机房中使用 CDH 构建的大数据集群。自公司成立以来，每年都保持着高速增长，业务的增长带来了数据量的剧增。

在过去几年中，我们按照每 1 到 2 年的规划扩容硬件，但往往在半年之后就不得不再次扩容。而每次扩容都需要花费大量精力。

为了解决包括扩容周期长、计算存储资源不匹配以及高昂的运维成本等这些问题，我们决定对数据架构进行改造，并将数据迁移到云端，采用存算分离的结构。在这个案例中，我们将为大家介绍 Hadoop 上云的架构设计、选型的思考、组件评估以及数据迁移的整个过程。

目前，基于JuiceFS 我们实现了计算和存储分离的架构，总存储量增加了2倍；性能方面的变化无明显感知，运维成本大幅降低。在案例的末尾还附上了针对阿里云 EMR 以及 JuiceFS 的一手运维经验，希望这个案例能为其他面临类似问题的同行提供有价值的参考

01 旧架构及挑战

为了满足业务需求，一面数据抓取了国内外数百个大型网站的数据，目前数量已经超过 500 个，并积累了大量的原始数据、中间数据和结果数据。随着我们不断增加抓取的网站数量和服务的客户群，数据量也在快速增长。因此，我们着手开始进行扩容以满足需求的增长。

原有的架构是在一个线下机房使用 CDH 构建了一个大数据集群。如下图所示，我们主要使用了 Hive、Spark 和 HDFS 等组件。在 CDH 的上游有多种数据生产系统，在这里只列出了Kafka，因为与 JuiceFS 相关；除了Kafka之外，还有其他一些存储方式，包括 TiDB、HBase、MySQL 等等。

数据流向方面，我们有一个上游的业务系统和数据采集系统，数据会被采集下来后写入 Kafka。然后我们使用一个 Kafka Connect 集群，将数据同步到 HDFS。

在这个架构上方，我们使用了一个自研的数据开发平台，称为 OneWork，用于开发和管理各种任务。这些任务会通过 Airflow 下发到任务队列进行调度。

挑战

业务/数据会增长比较快，业务扩容周期长。公司在 2016 年线下机房部署了 CDH 集群，到 2021 年已存储和处理 PB 级的数据。公司自创立以来一直保持每年翻一番的高增长，而比业务量增长更快的是 Hadoop 集群的数据量。在这几年间，按 1 到 2 年规划的硬件，往往因数据增长超出预期而在半年后不得不再次扩容。每次扩容周期可达到一个月，除了花费大量精力跟进行政和技术流程，业务端也不得不安排较多人日控制数据量。如果选择购买硬盘和服务器来进行扩容，实施周期会相对较长。

存储计算耦合，容量规划难，容易错配。传统的 Hadoop 架构中，存储和计算是紧密耦合的，难以根据存储或计算的需求独立进行扩容和规划。举个例子，假设我们需要扩容存储，于是首先需要购买一批新的硬盘，同时连带着需要购买计算资源。在最初时，计算资源可能会变得过剩，因为可能实际不需要那么多的计算资源，从而一定程度上导致了超前投资。

CDH 版本比较老，不敢升级。我们因为集群也建的比较早了，为了稳定，也就不敢升级了。

运维成本较高（全公司仅1个全职运维）公司当时有200多个人，只有一个运维，这意味着运维工作的工作量很大。因此，我们希望能够采用更稳定、更简单的架构来提供支持。

机房存在单点风险。考虑到长远的因素，所有的数据都存储在同一个机房中，这存在一定的风险。例如，如果光缆被挖断，这种情况经常发生，那么我们仅有一个机房仍然会面临单点故障的风险。

02 新架构与选型

选型考量

考虑到这些因素和挑战，我们决定进行一些新的改变。以下是我们考虑架构升级的一些主要维度。

上云，弹性伸缩，灵活运维。利用云上的服务可以简化运维工作。例如，在存储方面，尽管 HDFS 本身是一个稳定且成熟的解决方案，但我们更愿意将时间投入到业务层面上，而不是底层的运维工作。因此，使用云服务可能更加简单。此外，通过利用云上的资源，我们可以实现弹性伸缩，无需等待长时间的硬件部署和系统配置周期。
存储计算分离。我们希望将存储和计算解耦，以实现更好的灵活性和性能。
尽量使用开源组件，避免云厂商绑定。尽管我们选择上云，但我们不希望过于依赖云服务本身。我们在为客户提供服务时会使用云原生的解决方案，例如使用 AWS Redshift 等，但我们在自身业务方面更倾向于使用开源组件。
尽可能与现有方案兼容，控制改动成本和风险。我们希望新架构与现有解决方案兼容，以避免引入额外的开发成本，并对我们的业务产生影响。

新架构：阿里云 EMR + OSS + JuiceFS

最终选择的方案是使用“阿里云 EMR + JuiceFS + 阿里云 OSS” 来搭建存算分离的大数据平台，将云下数据中心的业务逐步迁移上云。

这个架构使用对象存储来替代 HDFS，并选择了 JuiceFS 作为协议层，因为JuiceFS 兼容 POSIX 和 HDFS 协议。在顶部，我们使用了云上半托管的 Hadoop 解决方案 EMR。它包含了很多 Hadoop 相关的组件，例如 Hive、Impala、Spark、Presto/Trino 等等。

阿里云 vs 其他公有云

首先是决定使用哪家云厂商。由于业务需求，AWS、Azure 和阿里云都有在用，综合考虑后认为阿里云最适合，有这些因素：

物理距离：阿里云在我们线下机房同城有可用区，网络专线的延迟小，成本低
开源组件齐全：阿里云 EMR 上包含的开源组件很多很全，除了我们重度使用的 Hive、Impala、Spark、Hue，也能方便集成 Presto、Hudi、Iceberg 等。我们在调研时发现只有阿里云 EMR 自带了 Impala，AWS 和 Azure 要么版本低，要么要自己安装部署。

JuiceFS vs JindoFS

阿里云的 EMR 本身也有使用 JindoFS 的存算分离方案，但基于以下考虑，我们最终选择了JuiceFS：

JuiceFS 使用 Redis 和对象存储为底层存储，客户端完全是无状态的，可以在不同环境访问同一个文件系统，提高了方案的灵活性。而 JindoFS 元数据存储在 EMR 集群的本地硬盘，不便于维护、升级和迁移。

JuiceFS 的存储方案丰富，而且支持不同方案的在线迁移，提高了方案的可移植性。JindoFS 块数据只支持 OSS.
JuiceFS 以开源社区为基础，支持所有公有云环境，方便后期扩展到多云架构。

关于 JuiceFS

直接截取官方文档的介绍：

JuiceFS 是一款面向云原生设计的高性能共享文件系统，在 Apache 2.0 开源协议下发布。提供完备的 POSIX 兼容性，可将几乎所有对象存储接入本地作为海量本地磁盘使用，亦可同时在跨平台、跨地区的不同主机上挂载读写。

JuiceFS 采用「数据」与「元数据」分离存储的架构，从而实现文件系统的分布式设计。使用 JuiceFS 存储数据，数据本身会被持久化在对象存储（例如，Amazon S3），相对应的元数据可以按需持久化在 Redis、MySQL、TiKV、SQLite 等多种数据库中。

除了 POSIX 之外，JuiceFS 完整兼容 HDFS SDK，与对象存储结合使用可以完美替换 HDFS，实现存储和计算分离。

Hadoop 迁移云上 PoC 设计

PoC 的目的是快速验证方案的可行性，有几个具体目标：

验证 EMR + JuiceFS + OSS 整体方案的可行性
检查 Hive、Impala、Spark、Ranger 等组件版本的兼容性
评估对比性能表现，用了 TPC-DS 的测试用例和部分内部真实业务场景，没有非常精确的对比，但能满足业务需求
评估生产环境所需的节点实例类型和数量（算成本）
探索数据同步方案
探索验证集群与自研 ETL 平台、Kafka Connect 等的集成方案

期间做了大量测试、文档调研、内外部（阿里云 + JuiceFS 团队）讨论、源码理解、工具适配等工作，最终决定继续推进。

03 实施

我们在 2021 年 10 月开始探索 Hadoop 的上云方案；11 月做了大量调研和讨论，基本确定方案内容；12 月和 2022 年 1 月春节前做了 PoC 测试，在春节后 3 月份开始搭建正式环境并安排迁移。为了避免导致业务中断，整个迁移过程以相对较慢的节奏分阶段执行，迁移完后，云上的 EMR 集群数据量预计会超过单副本 1 PB.

架构设计

做完技术选型之后，架构设计也能很快确定下来。考虑到除了部分业务仍然会保留在数据中心的 Hadoop 集群，所以整体实际上是个混合云的架构。

整体架构大致如上图所示：左侧是的线下机房，使用了传统的 CDH 架构和一些 Kafka 集群。右侧是部署在阿里云上的 EMR 集群。这两部分通过一条高速专线进行连接。顶部是 Airflow 和 OneWork，由于都支持支持分布式部署，因此可以轻松进行水平扩展。

数据迁移的挑战

挑战1： Hadoop 2 升到 Hadoop 3

我们 CDH 版本比较老，也不敢升级，但我们既然做了迁移，肯定还是希望新集群能够升级到新版本。在迁移过程中，需要注意 HDFS 2 和 3 之间的差异，接口协议和文件格式有可能会发生变化。JuiceFS 完美兼容 HDFS 2 & 3，很好地应对了这个挑战。

挑战2： Spark 2 升级到 Spark 3

Spark 的一个升级对我们影响是比较大的，因为有不少不兼容的更新。这就意味着原来在 Spark 2 上面写的代码需要完成修改才能适配到新的版本里面去。

**挑战3： Hive on Spark 不支持 Spark 3 **

在机房环境中，默认使用的是 CDH 自带的 Hive on Spark，但当时 CDH 中的 Spark 版本只有 1.6。我们在云上使用的是 Spark 3，而 Hive on Spark 并不支持 Spark 3，这导致我们无法继续使用 Hive on Spark 引擎。

经过调研和测试，我们将 Hive on Spark 改为了 Hive on Tez。这个改动相对来说还比较容易，因为 Hive 本身对于不同的计算引擎提供了抽象和适配，所以对于我们的上层代码改动较小。Hive on Tez 在性能上可能略慢于 Spark。此外，我们也关注国内网易开源的一个新计算引擎 Kyuubi，它兼容 Hive，并提供了一些新特性。

挑战4： Hive 1 升级到 Hive 3，元数据结构有变化

对于 Hive 升级来说，最主要的影响之一是元数据结构的变化，因此在迁移过程中，我们需要进行数据结构的转换。因为无法直接使用Hive来处理这种迁移，所以我们需要开发相应的程序来进行数据结构的转换。

挑战5：权限管理由 Sentry 替换为 Ranger

这是一个比较小的问题，就是我们之前使用 Sentry 做权限管理，这个社区不怎么活跃了，EMR 也没有集成，所以就替换为 Ranger。

除了技术挑战外，更大的挑战来自与业务端。

业务挑战1：涉及的业务多，不能影响交付

我们拥有多个业务，涉及不同的网站、客户和项目。由于业务交付不能中断，迁移过程必须进行分业务处理，采用渐进式迁移的方式。
迁移过程中，数据的变动会对公司的多个环节产生影响，例如 ETL 数据仓库、数据分析师、测试和产品开发等。因此，我们需要进行良好的沟通和协调，制定项目管理计划和排期。

业务挑战2：数据表、元数据、文件、代码多

除了数据，我们在上层还有许多业务代码，包括数据仓库的代码、ETL 的代码以及一些应用程序的代码，如 BI 应用需要查询这些数据。

数据迁移：存量文件 & 增量文件

要迁移的数据包括两部分：Hive Metastore 元数据以及 HDFS 上的文件。由于不能中断业务，采用存量同步 + 增量同步（双写）的方式进行迁移；数据同步完后需要进行一致性校验。

存量同步

对于存量文件同步，可以使用 JuiceFS 提供的功能完整的数据同步工具 sync 子命令来实现高效迁移。JuiceFS sync 命令支持单节点和多机并发同步，实际使用时发现单节点开多线程即可打满专线带宽，CPU 和内存占用低，性能表现非常不错。需要注意的是，同步过程中 sync 命令会在本地文件系统写缓存，因此最好挂载到 SSD 盘来提升性能。

Hive Metastore 的数据同步则相对麻烦些：

两个 Hive 版本不一致，Metastore 的表结构有差异，因此无法直接使用 MySQL 的导出导入功能
迁移后需要修改库、表、分区存储路径（即 dbs 表的 DB_LOCATION_URI和 sds 表的 LOCATION）

因此我们开发了一套脚本工具，支持表和分区粒度的数据同步，使用起来很方便。

增量同步

增量数据主要来自两个场景：Kafka Connect HDFS Sink 和 ETL 程序，我们采用了双写机制。

Kafka Connect 的 Sink 任务都复制一份即可，配置方式上文有介绍。ETL 任务统一在 OneWork 上开发，底层使用 Airflow 进行调度。通常只需要把相关的 DAG 复制一份，修改集群地址即可。实际迁移过程中，这一步遇到的问题最多，花了大量时间来解决。主要原因是 Spark、Impala、Hive 组件版本的差异导致任务出错或数据不一致，需要修改业务代码。这些问题在 PoC 和早期的迁移中没有覆盖到，算是个教训。

数据校验

为了能让业务放心的使用新的架构，数据校验必不可少。数据同步完后需要进行一致性校验，分三层：

文件一致。在存量同步阶段做校验，通常的方式是用 checksum. 最初的 JuiceFS sync 命令不支持 checksum 机制，我们建议和讨论后，JuiceFS 团队很快就加上了该功能（issue，pull request）。除了 checksum，也可考虑使用文件属性对比的方式：确保两个文件系统里所有文件的数量、修改时间、属性一致。比 checksum 的可靠性稍弱，但更轻量快捷。
元数据一致。有两种思路：对比 Metastore 数据库的数据，或对比 Hive 的 DDL 命令的结果。
计算结果一致。即使用 Hive/Impala/Spark 跑一些查询，对比两边的结果是否一致。一些可以参考的查询：表/分区的行数、基于某个字段的排序结果、数值字段的最大/最小/平均值、业务中经常使用的统计聚合等。

数据校验的功能也封装到了脚本里，方便快速发现数据问题。

分级存储

迁移完业务稳定运行后，我们开始考虑分级存储。分级存储在各种数据库或存储系统中都是一个常见问题，数据存在冷热区别，而存储介质的价格也存在差异，因此我们希望将冷数据存储在更便宜的存储介质上以控制成本。

在之前的 HDFS 中，我们已经实施了分级存储策略，购买了两种类型的硬盘，将热数据存储在高速硬盘中，将冷数据存储在低速硬盘中。

然而，JuiceFS 为了优化性能采取的数据分块模式，会对分级存储带来限制。按照 JuiceFS 的处理，当文件存储在对象存储上时，它被逻辑上拆分为许多 chunks、slices 和 blocks，最终以 block 的形式存储在对象存储中。

因此，如果我们观察对象存储中的文件，实际上无法直接找到文件本身，而只能看到被分割成的小块。即使 OSS 提供了声明周期管理功能，但我们也无法基于表、分区或文件级别进行生命周期的配置。

后续我们通过以下这种方式来解决。

两个 bucket：标准（ JuiceFS ） + 低频（OSS）：创建两个存储桶，一个存储桶用于JuiceFS，并将所有数据存储在标准存储层中。另外，我们额外创建一个低频的OSS存储桶。
基于业务逻辑，对表/分区/文件，配置存储策略表。我们可以根据表、分区或文件来设置存储策略，并编写定时任务来扫描并执行这些策略。
用Juicesync 将低频文件从 JuiceFS 导出到 OSS 并修改 Hive 元数据。文件从 JuiceFS 转移到 OSS 之后会从 JuiceFS 删除，并且在 OSS 上能看到完整的文件内容，我们就可以对其设置生命周期规则。转移完文件后需要及时修改 Hive 元数据，，将 Hive 表或分区的位置更改为新的OSS地址。EMR 的 Hive/Impala/Spark 等组件原生支持 OSS，因此应用层基本无感（需注意访问低频文件会带来额外开销）。

完成这个操作后，除了实现分级存储以降低成本外，还有一个额外的好处是我们可以减少JuiceFS元数据的数量。因为这些文件不再属于 JuiceFS，而是由 OSS 直接管理，这意味着JuiceFS 中的 inode 数量会减少，元数据的管理压力就会减轻，Redis请求的数量和容量也会降低。从稳定性的角度来看，这对系统会更有利。

04 架构升级的收益 & 后续计划

存算分离的收益
总的存储量增长了两倍，计算资源不动，偶尔开启临时的任务节点。在我们的场景中，数据量增长非常快，但查询需求相对稳定。从 2021 年至今，数据量已增长两倍。计算资源在初始阶段至今基本没有做过太多的改动，除非出于某些业务需求需要更快的计算速度，我们会开启弹性资源和临时任务节点来加速。

性能变化

总体无明显感知，PoC 期间做过简单的 TPCDS 测试显示差异不大，ad-hoc 的 Impala 查询响应变快了
影响因素多：HDFS -> JuiceFS、组件版本升级、Hive 计算引擎变化、集群负载等

在我们的业务场景中，主要是进行大数据的批处理离线计算，总体而言对于性能的延迟并不敏感。在 PoC 期间，我们进行了一些简单的测试。然而，这些测试很难准确说明问题，因为测试过程受到了许多影响因素的影响。我们首先更换了存储系统，从 HDFS 切换到了 JuiceFS，同时进行了组件版本升级，Hive 引擎也发生了变化。此外，集群负载也无法完全一致。在我们的场景中，与之前在物理服务器上部署的 CDH 相比，集群架构的性能差异并不明显。

用性 & 稳定性

JuiceFS 本身没出过问题
EMR 的使用有遇到些小问题，总体上 CDH 更稳定易用

**实施复杂度 **

我们的场景里，增量双写 & 数据校验过程花的时间最多（回过头看校验的投入过大，可以精简）；
影响因素多：跟业务场景（离线/实时、表/任务数量、上层应用）、组件版本、配套工具和储备。

当评估类似架构或方案的复杂度时，有许多影响因素需要考虑。其中包括业务场景的差异，以及对延迟要求的敏感程度不同。此外，表数据量的规模也会产生影响。在我们的场景中，我们有大量的表和数据库，文件数量相对较多。此外，上层应用程序的特性、使用业务的数量以及相关程序等也会对复杂度产生影响。另一个重要的影响因素是版本迁移的逐渐差异。如果只进行平移而保持版本不变，那么组件的影响基本上可以消除。

配套工具和储备是一个重要的影响因素。在进行数仓或 ETL 任务时，有多种实现方式可供选择，例如手动编写 Hive SQL 文件、Python 或 Java 程序，或者使用常见的调度工具。但无论采用哪种方式，我们都需要复制和修改这些程序，因为双写是必要的。

我们使用自研的开发平台 OneWork，在任务配置方面非常完善。通过 OneWork 平台，用户可以在 Web 界面上配置这些任务，从而实现统一管理。Spark 任务的部署也无需登录到服务器上操作，OneWork 会自动提交到 Yarn 集群。这个平台大大简化了代码配置和修改的过程。我们编写了一个脚本将任务配置复制出来，进行一些修改，就可以实现高度的自动化程度，几乎达到百分之八九十，从而顺利运行这些任务。

后续计划大致有几个方向：

继续完成剩余业务的上云迁移
探索 JuiceFS + OSS 的冷热分级存储策略。JuiceFS 的文件在 OSS 上完全被打散，无法基于文件级别做分级。目前的思路是将冷数据从 JuiceFS 迁移到 OSS 上，设置为归档存储，修改 Hive 表或分区的 LOCATION，不影响使用。
目前 JuiceFS 使用 Redis 作为元数据引擎，假如将来数据量增加，使用 Redis 有压力的话可能考虑切换为 TiKV 或其他引擎。
探索 EMR 的弹性计算实例，争取能在满足业务 SLA 的前提下降低使用成本

05 附录

部署和配置

关于 IDC-阿里云专线：

能提供专线服务的供应商很多，包括 IDC、阿里云、运营商等，选择的时候主要考虑线路质量、成本、施工周期等因素，最终我们选择了IDC的方案。IDC 跟阿里云有合作，很快就完成了专线的开通。这方面如果遇到问题，可以找 IDC 和阿里云的支持。除专线租用成本，阿里云也会收取下行（从阿里云到 IDC）方向传输费用。专线两端的内网 IP 完全互通，阿里云和 IDC 两侧都需要一些路由配置。

关于 EMR Core/Task 节点类型的选择：

JuiceFS 可以使用本地硬盘做缓存，能进一步减少 OSS 带宽需求并提高 EMR 性能。更大的本地存储空间，可以提供更高的缓存命中率。

阿里云本地 SSD 实例是较高性价比的 SSD 存储方案（相对于云盘），用作缓存正合适。
JuiceFS 社区版未支持分布式缓存，意味着每一个节点都需要一个缓存池，所以应该选用尽量大的节点。

基于以上考虑和配置对比，我们决定选用 ecs.i2.16xlarge，每个节点 64 vCore、512GiB Memory、1.8T*8 SSD。

关于 EMR 版本：

软件方面，主要包括确定组件版本、开启集群、修改配置。我们机房使用的是 CDH 5.14，其中 Hadoop 版本是 2.6，阿里云上最接近的版本是 EMR 3.38. 但调研时发现该版本的 Impala 和 Ranger 不兼容（实际上我们机房使用的是 Sentry 做权限管理，但 EMR 上没有），最终经过评估对比，决定直接使用 EMR 5 的最新版，几乎所有组件的大版本都做了升级（包含 Hadoop 3、Spark 3 和 Impala 3.4）。此外，使用外部 MySQL 作为 Hive Metastore、Hue、Ranger 的数据库。

关于 JuiceFS 配置：

基本参考JuiceFS官方文档《在 Hadoop 中通过 Java 客户端访问 JuiceFS》即可完成配置。另外我们也配置了这些参数：

缓存相关：其中最重要的是 juicefs.cache-dir 缓存目录。这个参数支持通配符，对多个硬盘的实例环境很友好，如设置为/mnt/disk*/juicefs-cache（需要手动创建目录，或在EMR节点初始脚本中创建），即用全部本地 SSD 作为缓存。另外也要关注 juicefs.cache-size、juicefs.free-space 两个参数。
juicefs.push-gateway：设置一个 Prometheus Push Gateway，用于采集 JuiceFS Java 客户端的指标。
juicefs.users、juicefs.groups：分别设置为 JuiceFS 中的一个文件（如 jfs://emr/etc/users、jfs://emr/etc/groups），解决多个节点 uid 和 gid 可能不统一的问题。

关于 Kafka Connect 使用 JuiceFS：

经过一些测试，确认 JuiceFS 可以完美应用于 Kafka Connect 的 HDFS Sink 插件（我们把配置方式也补充到了官方文档）。相比使用 HDFS Sink 写入HDFS，写入 JuiceFS 需要增加或修改以下配置项：

将 JuiceFS Java SDK 的 JAR 包发布到 Kafka Connect 每一个节点的 HDFS Sink 插件目录。Confluent 平台的插件路径是：/usr/share/java/confluentinc-kafka-connect-hdfs/lib
编写包含 JuiceFS 配置的 core-site.xml，发布到 Kafka Connect 每一个节点的任意目录。包括这些必须配置的项目：

fs.jfs.impl = io.juicefs.JuiceFileSystem

fs.AbstractFileSystem.jfs.impl = io.juicefs.JuiceFS

juicefs.meta = redis://:[email protected]:6379/1

请参见 JuiceFS Java SDK 的配置文档。

Kafka Connector 任务设置：

hadoop.conf.dir=

store.url=jfs:///<路径>

一手运维经验

在整个实施过程中陆陆续续踩了一些坑，积累了一些经验，分享给大家做参考。

阿里云 EMR 和组件相关

兼容性

EMR 5 的 Hive 和 Spark 版本不兼容，无法使用 Hive on Spark，可以把默认的引擎改成 Hive on Tez.
Impala 的 stats 数据从旧版同步到新版后，可能因为 IMPALA-10230 导致表无法查询。解决方案是在同步元数据时，将 num_nulls=-1 的改成 num_nulls=0. 可能需要用到 CatalogObjects.thrift 文件。
原集群有少量 Textfile 格式的文件用了 snappy 压缩，新版 Impala 无法读取，报错 Snappy: RawUncompress failed，可能是 IMPALA-10005 导致的。规避方案是不要对 Textfile 文件使用 snappy 压缩。
Impala 3.4 相比 2.11 的 CONCAT_WS 函数行为有差异，老版本 CONCAT_WS('_', 'abc', NULL) 会返回 NULL，而新版本返回 'abc'.
Impala 3.4 对 SQL 中的保留关键字引用更严格，必须加上 “‘’”. 其实一个好习惯是业务代码不要使用保留关键字。
PoC 或前期测试的覆盖度尽可能完整，用真实的业务代码去跑。我们在 PoC 和早期迁移的业务中用到的组件特性比较少，基本都是最常用、保持兼容的功能，因此比较顺利。但在第二批迁移过程中就暴露出了很多问题，虽然最终都有解决，但花了很多额外的时间去做诊断和定位，打乱了节奏。

性能

EMR 5 的 Impala 3.4 打了 IMPALA-10695 这个补丁，支持对 oss:// 和 jfs://（本意是支持 JindoFS，但 JuiceFS 也默认使用 jfs 这个 scheme）设置独立的 IO 线程数。在 EMR 控制台上增加或修改 Impala 的配置项 num_oss_io_threads.
阿里云 OSS 有账号级别的带宽限制，默认 10Gbps，随着业务规模上升容易成为瓶颈。可以与阿里云沟通调整。

运维

EMR 可以关联一个 Gateway 集群，通常用来部署业务程序。如果要在 Gateway 上用 client 模式提交 Spark 任务，需要先将 Gateway 机器的 IP 加到 EMR 节点的 hosts 文件。默认可以使用 cluster 模式。
EMR 5 会开启一个 Spark ThriftServer，在 Hue 上可以直接写 Spark SQL，用起来很方便。但默认配置有个坑，会写大量日志（路径大概是 /mnt/disk1/log/spark/spark-hadoop-org.apache.spark.sql.hive.thriftserver.HiveThriftServer2-1-emr-header-1.cluster-xxxxxx.out），导致硬盘写满。解决方案有两个：配置 log rotate 或把 spark.driver.extraJavaOptions 配置清空（阿里云技术支持的建议）。

JuiceFS 相关

JuiceFS 需要每个节点上具有相同的 UID 和 GID，否则很容易出现权限问题。有两种实现方式：修改操作系统的用户（比较适合新机器，没有历史包袱），或者在 JuiceFS 上维护一个用户映射表。我们之前也分享过一篇 JuiceFS + HDFS 权限问题定位，有详细讨论。通常需要维护映射的用户有 impala, hive, hadoop 等。如果使用 Confluent Platform 搭建 Kafka Connect，也需要配置 cp-kafka-connect 用户。
使用默认的 JuiceFS IO 配置时，相同的写查询，Hive on Tez 和 Spark 都比 Impala 快很多（但在机房里 Impala 更快）。最终发现将 juicefs.memory-size 从默认的 300 (MiB) 改成 1024 之后 Impala 的写入性能有成倍的提升。
在做 JuiceFS 的问题诊断和分析时，客户端日志很有用，需要注意 POSIX 和 Java SDK 的日志是不一样的，详见 JuiceFS 故障诊断和分析 | JuiceFS Document Center
注意监控 Redis 的空间用量，Redis 如果满了，整个 JuiceFS 集群无法写入。（这点需要特别注意）
使用 JuiceFS sync 把机房数据往云上同步时，选择在有 SSD 的机器上跑，获得更好的性能。

如有帮助的话欢迎关注我们项目 Juicedata/JuiceFS 哟！ (0ᴗ0✿)

你可能感兴趣的:(hadoop,大数据,分布式)

数据并表技术全面指南：从基础JOIN到分布式数据融合熊猫钓鱼>_> 分布式
引言在现代数据处理和分析领域，数据并表（TableJoin）技术是连接不同数据源、整合分散信息的核心技术。随着企业数据规模的爆炸式增长和数据源的日益多样化，传统的数据并表方法面临着前所未有的挑战：性能瓶颈、内存限制、数据倾斜、一致性问题等。如何高效、准确地进行大规模数据并表，已成为数据工程师和架构师必须掌握的关键技能。数据并表不仅仅是简单的SQLJOIN操作，它涉及数据建模、算法优化、分布式计算、
Apache Kafka 学习笔记
一、Kafka简介1.1Kafka是什么？Kafka是一个高吞吐、可扩展、分布式的消息发布-订阅系统，主要用于：日志收集与处理流式数据处理事件驱动架构实时分析管道最初由LinkedIn开发，后捐赠给Apache基金会。1.2Kafka的核心特性特性描述高吞吐每秒百万级消息处理能力，依赖顺序写磁盘、批量处理分布式支持水平扩展，多个Broker组成集群持久化消息写入磁盘（通过segmentfiles+
Linux教程（4）----[hive数据仓库工具] .房东的猫 Linux教程（完善中~~）linux
Hive基本概念Hive简介什么是HiveHive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。为什么使用Hive直接使用hadoop所面临的问题人员学习成本太高
Git remote 远程仓库链接管理迹忆客 Linux 服务端 git
SVN使用单个集中仓库作为开发人员的通信枢纽，通过在开发人员的工作副本和中央仓库之间传递变更集来进行协作。这与Git的分布式协作模型不同，后者为每个开发人员提供了自己的仓库副本，并具有自己的本地历史记录和分支结构。用户通常需要共享一系列提交而不是单个变更集。Git允许我们在仓库之间共享整个分支，而不是将变更集从工作副本提交到中央仓库。gitremote命令是负责同步更改的更广泛系统的一部分。通过g
【im】如何解决消息的实时到达问题？ Bogon
TCP长连接的方式是怎么实现“当有消息需要发送给某个用户时，能够准确找到这个用户对应的网络连接”？首先用户有一个登陆的过程：(1)tcp客户端与服务端通过三次握手建立tcp连接；(2)基于该连接客户端发送登陆请求；(3)服务端对登陆请求进行解析和判断，如果合法，就将当前用户的uid和标识当前tcp连接的socket描述符(也就是fd)建立映射关系；(4)这个映射关系一般是保存在本地缓存或分布式缓存
大模型算法工程师技术路线全解析：从基础到资深的能力跃迁 Mr.小海大模型算法数据挖掘人工智能机器学习深度学习机器翻译 web3
文章目录大模型算法工程师技术路线全解析：从基础到资深的能力跃迁一、基础阶段（0-2年经验）：构建核心知识体系与工程入门数学与机器学习基础编程与深度学习框架NLP与Transformer入门二、进阶阶段（2-4年经验）：深化模型技术与工程落地能力大模型预训练与微调技术预训练原理：数据与任务的协同设计微调工具：参数高效适配与工程优化对齐实践：价值观优化与实证效果分布式训练与框架工具并行策略：多维度协同
AI 智能运维，重塑大型企业软件运维：从自动化到智能化的进阶实践 AI、少年郎人工智能运维自动化
一、引言：企业软件运维的智能化转型浪潮在数字化转型加速的背景下，大型企业软件架构日益复杂，微服务、多云环境、分布式系统的普及导致传统运维模式面临效率瓶颈。AI技术的渗透催生了智能运维（AIOps）的落地，通过机器学习、大模型、智能Agent等技术，实现从"人工救火"到"智能预防"的范式转变。本文结合头部企业实践，解析AI在运维领域的核心应用场景、技术架构及未来趋势，特别针对基础运维中流程重构、技术
基于用户画像的商品推荐系统 Dush32 机器学习人工智能 python 推荐算法
随着人工智能和大数据技术的进步，产品推荐系统成为了现代广告与电商平台中不可或缺的部分。通过深度挖掘用户的行为数据，能够为广告主提供精准的用户画像，从而更高效地推荐相关产品，提升购买转化率。本项目基于科大讯飞AI营销云大赛的赛题，目的是利用用户画像进行产品推荐，预测用户是否会购买相应商品。我们使用了机器学习的二分类模型，通过分析用户的性别、年龄、常驻地、机型等信息，来判断用户的付费行为。项目目标：本
前端面试专栏-工程化：28.团队协作与版本控制（Git）爱分享的程序员前端面试通关指南 node.js 前端 javascript
欢迎来到前端面试通关指南专栏！从js精讲到框架到实战，渐进系统化学习，坚持解锁新技能，祝你轻松拿下心仪offer。前端面试通关指南专栏主页前端面试专栏规划详情项目实战与工程化模块-团队协作与版本控制（Git）在多人协作的项目中，代码的版本管理是保障开发效率与代码质量的核心环节。Git作为目前最流行的分布式版本控制系统，不仅能追踪代码变更历史，更能通过分支策略、协作流程规范团队工作方式。本文从实战角
Windows平台下的Git版本控制实践：msysGit安装与使用
本文还有配套的精品资源，点击获取简介：msysGit是为Windows系统打造的Git版本控制系统，它允许用户在本地环境中方便地使用Git进行源代码管理和版本控制。Git是一个分布式版本控制系统，以其快速、高效和灵活性著称。msysGit通过模拟Unix-like环境来兼容Git命令，并提供图形界面工具和与Windows集成的特性，极大地提升了Windows用户的操作体验。本文将详细介绍msysG
InfluxDB 数据模型：桶、测量、标签与字段详解（一）计算机毕设定制辅导-无忧 #InfluxDB db
一、引言**在大数据和物联网蓬勃发展的当下，时间序列数据的处理需求呈爆发式增长。InfluxDB作为一款高性能的开源时序数据库，凭借其卓越的特性，在时序数据库领域占据了重要地位，被广泛应用于各种场景。InfluxDB专为时间序列数据设计，拥有高效的存储和查询性能。它采用独特的存储引擎，能够快速写入大量带有时间戳的数据，并支持灵活的查询操作。其核心设计针对时间序列数据的特点进行了优化，包括时间索引、
Kafka 集群架构与高可用方案设计（一）计算机毕设定制辅导-无忧 #Kafka kafka 架构分布式
Kafka集群架构与高可用方案设计的重要性在大数据和分布式系统的广阔领域中，Kafka已然成为了一个中流砥柱般的存在。它最初由LinkedIn开发，后捐赠给Apache软件基金会并成为顶级项目，凭借其卓越的高吞吐量、可扩展性以及持久性，被广泛应用于日志收集、实时数据处理、流计算、数据集成等诸多关键领域。在日志收集场景下，以大型互联网公司为例，每天都会产生海量的日志数据，如用户的访问记录、系统操作日
2024 年度分布式电力推进（DEP）系统发展探究北京航通天下科技有限公司无人机测试教学培训分布式电推进(DEP)动力系统无人机动力测试系统分布式电推进技术分布式动力系统测试平台 DEP
分布式电力推进（DEP）的发明是为了尝试和改进现代飞机：我们如何提高飞机的效率？提高它的机动性？缩短它的起飞和着陆距离？DEP概念有望在提高性能的同时减少燃料消耗，在我们孜孜不倦地努力使航空业更具可持续性的时代，这是一个有吸引力的前景。在本文中，我们将介绍DEP的工作原理、优缺点以及值得关注的DEP飞机。此外，我们还提供用于测试DEP系统的解决方案。所有内容都包括在下面。目录什么是分布式电力推进（
大数据集成方案对比：Kafka vs Flume vs Sqoop AI天才研究院计算 AI大模型应用入门实战与进阶 Agentic AI 实战大数据 kafka flume ai
大数据集成方案对比：KafkavsFlumevsSqoop关键词：大数据集成、Kafka、Flume、Sqoop、流处理、批量迁移、日志收集摘要：在大数据生态中，数据集成是连接数据源与数据处理平台的关键环节。本文深度对比Kafka、Flume、Sqoop三大主流集成工具，从核心架构、技术原理、适用场景到实战案例展开系统性分析。通过数学模型量化性能差异，结合实际项目经验总结选型策略，帮助开发者根据业
【Hadoop】onekey_install脚本菜萝卜子 Linux hadoop 大数据分布式
hosts[root@kafka01hadoop-script]#cat/etc/hosts127.0.0.1localhostlocalhost.localdomainlocalhost4localhost4.localdomain4::1localhostlocalhost.localdomainlocalhost6localhost6.localdomain6192.168.100.150k
eVTOL分布式电推进(DEP)适航审定探究北京航通天下科技有限公司低空经济 eVTOL测试配套分布式
从适航认证的角度来看，eVTOL动力系统采用分布式电推进(DEP)技术进行测试具有以下显著优势：一、提升系统冗余性与故障容限分布式电推进系统通过多个独立电机协同工作，即使部分电机失效，剩余电机仍能维持推力，保障飞行安全。这种冗余设计是适航认证中对关键系统可靠性要求的核心指标之一。例如，测试平台可模拟单个或多个电机故障场景，验证系统能否通过动态推力分配维持稳定飞行，从而满足适航对“故障安全”原则的要
灰度发布实战：在生产环境中安全迭代功能荣华富贵8 程序员的知识储备2 程序员的知识储备3 consul 服务发现算法网络 wpf
摘要随着互联网服务规模的不断扩大，如何在保证系统稳定性和用户体验的前提下快速迭代新功能，已经成为大型分布式系统运维和开发团队面临的核心挑战。灰度发布（GreyRelease或CanaryRelease）作为一种渐进式发布策略，通过对少量用户或流量进行新版本试运行，实时监控关键指标、收集用户反馈，从而在生产环境中实现安全的功能迭代和风险管控。本文以某大型电商平台灰度发布实战为例，深入探讨技术原理、系
飞算科技：以创新科技引领数字化变革，旗下飞算 JavaAI 成开发利器飞算JavaAI开发助手科技
作为国家级高新技术企业，飞算科技专注于自主创新，在数字科技领域持续深耕，用前沿技术为各行业客户赋能，助力其实现数字化转型升级的飞跃。飞算科技凭借深厚的技术积累，将互联网科技、大数据、人工智能等技术与实际应用紧密融合。公司组建了一支由行业资深专家和技术精英构成的团队，他们在相关领域积累了多年实践经验，深刻理解不同行业客户在数字化进程中面临的痛点与挑战。基于这些洞察，飞算科技推出了一系列具有创新性和实
《[系统底层攻坚] 张冬〈大话存储终极版〉精读计划启动——存储架构原理深度拆解之旅》-系统性学习笔记（适合小白与IT工作人员）谢郎Kobe 大活存储学习架构云计算硬件架构大数据
致所有存储技术探索者笔者近期将系统攻克存储领域经典巨作——张冬老师编著的《大话存储终极版》。这部近千页的存储系统圣经，以庖丁解牛的方式剖析了：存储硬件底层架构、分布式存储核心算法、超融合系统设计哲学等等。喜欢研究数据存储或者工作应用到存储的小伙伴，可以学习这本书。如果想利用碎片时间学习，也可以持续关注一下笔者不定期的章节解析。现在本人将此书的目录结构整理如下，未来笔者将按照顺序不定期更新【学习笔记
Java 大视界 -- Java 大数据机器学习模型在金融市场情绪分析与投资策略制定中的应用青云交大数据新视界 Java 大视界 java 大数据机器学习情绪分析智能投资多源数据
Java大视界--Java大数据机器学习模型在金融市场情绪分析与投资策略制定中的应用）引言：正文：一、金融情绪数据的立体化采集与治理1.1多模态数据采集架构1.2数据治理与特征工程二、Java机器学习模型的工程化实践2.1情感分析模型的深度优化2.2强化学习驱动的动态投资策略三、顶级机构实战：Java系统的金融炼金术四、技术前沿：Java与金融科技的未来融合4.1量子机器学习集成4.2联邦学习在合
Java 大视界 -- Java 大数据在影视内容推荐与用户兴趣挖掘中的深度实践（183）青云交大数据新视界 Java 大视界 Java+Python 双剑合璧：AI 大数据实战通关秘籍大数据影视内容推荐用户兴趣挖掘协同过滤基于内容推荐数据可视化个性化推荐系统
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！全网（微信公众号/CSDN/抖音/华为/支付宝/微博）：青云交一、欢迎加入【福利社群】点击快速加入1：青云交技术圈福利社群（NEW)点击快速加入2：2025CS
Java 大视界 -- 基于 Java 的大数据分布式文件系统在科研数据存储与共享中的应用优化（187）青云交大数据新视界 Java 大视界 Java+Python 双剑合璧：AI 大数据实战通关秘籍大数据大数据分布式文件系统科研数据存储科研数据共享应用优化 HDFS 数据分区
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！全网（微信公众号/CSDN/抖音/华为/支付宝/微博）：青云交一、欢迎加入【福利社群】点击快速加入1：青云交技术圈福利社群（NEW)点击快速加入2：CSDN博客
Python爬虫【二十四章】分布式爬虫架构实战：Scrapy-Redis亿级数据抓取方案设计程序员_CLUB Python入门到进阶 python 爬虫分布式
目录一、背景：单机爬虫的五大瓶颈二、Scrapy-Redis架构深度解析1.架构拓扑图2.核心组件对比三、环境搭建与核心配置1.基础环境部署2.Scrapy项目配置四、分布式爬虫核心实现1.改造原生Spider2.布隆过滤器集成五、五大性能优化策略1.动态优先级调整2.智能限速策略3.连接池优化4.数据分片存储5.心跳监控系统六、实战：新闻聚合平台数据抓取1.集群架构2.性能指标七、总结1.核心收
分布式爬虫：设计一个分布式爬虫架构来抓取大规模数据 Python爬虫项目 2025年爬虫实战项目分布式爬虫架构开发语言 redis 测试工具 python
✨引言随着互联网信息的爆炸式增长，单机爬虫面对大规模网站数据抓取显得力不从心。特别是爬取新闻、商品、社交平台等网站时，经常遇到响应慢、IP被封等问题。为了解决这些问题，分布式爬虫系统应运而生。在本文中，我们将手把手带你打造一个基于Scrapy+Redis+Celery+FastAPI+Docker的现代分布式爬虫架构，实现任务调度、去重控制、分布式抓取与结果存储。本文代码均基于Python3.10
Python医疗大数据实战：基于Scrapy-Redis的医院评价数据分布式爬虫设计与实现 Python爬虫项目 python 开发语言爬虫 selenium scrapy
摘要本文将详细介绍如何使用Python构建一个高效的医院评价数据爬虫系统。我们将从爬虫基础讲起，逐步深入到分布式爬虫架构设计，使用Scrapy框架结合Redis实现分布式爬取，并采用最新的反反爬技术确保数据采集的稳定性。文章包含完整的代码实现、性能优化方案以及数据处理方法，帮助读者掌握医疗大数据采集的核心技术。关键词：Python爬虫、Scrapy-Redis、分布式爬虫、医疗大数据、反反爬技术1
互联网架构“高并发” 极课编程
一、什么是高并发高并发（HighConcurrency）是互联网分布式系统架构设计中必须考虑的因素之一，它通常是指，通过设计保证系统能够同时并行处理很多请求。高并发相关常用的一些指标有响应时间（ResponseTime），吞吐量（Throughput），每秒查询率QPS（QueryPerSecond），并发用户数等。响应时间：系统对请求做出响应的时间。例如系统处理一个HTTP请求需要200ms，这
分布式爬虫架构：Scrapy-Redis+Redis集群实现百万级数据采集傻啦嘿哟分布式爬虫架构
目录当单机爬虫遇到百万数据量架构设计核心原理分布式任务调度弹性去重机制Redis集群部署实践集群规模计算高可用配置Scrapy项目改造分布式爬虫编写百万级数据优化策略流量控制机制动态IP代理数据存储优化实战案例分析监控与维护集群健康检查日志分析架构演进方向当单机爬虫遇到百万数据量想象你正在搭建一个电商价格监控系统，需要每天抓取十万条商品数据。使用传统Scrapy框架时，单台服务器每天最多只能处理3
Kafka面试问题1 小小少年Boy
1请说明什么是ApacheKafka?Kafka是分布式发布-订阅消息系统。Kafka是一个分布式的，可划分的，冗余备份的持久性的日志服务。它主要用于处理活跃的流式数据。它可以同时用于在线消息数据处理，和离线的数据文件处理。2、请说明什么是传统的消息传递方法?传统的消息传递方法包括两种：排队：在队列中，一组用户可以从服务器中读取消息，每条消息都发送给其中一个人。发布-订阅：在这个模型中，消息被广播
flink-sql读写hive-1.13 第一片心意 flink flink sql hive
1.版本说明本文档内容基于flink-1.13.x，其他版本的整理，请查看本人博客的flink专栏其他文章。1.1.概述ApacheHive已经成为了数据仓库生态系统中的核心。它不仅仅是一个用于大数据分析和ETL场景的SQL引擎，同样也是一个数据管理平台，可用于发现，定义，和演化数据。Flink与Hive的集成包含两个层面。一是利用了Hive的MetaStore作为持久化的Catalog，用户可通
组件分享之后端组件——基于Java的分布式系统的延迟和容错组件(熔断组件)Hystrix cn華少
组件分享之后端组件——基于Java的分布式系统的延迟和容错组件(熔断组件)Hystrix背景近期正在探索前端、后端、系统端各类常用组件与工具，对其一些常见的组件进行再次整理一下，形成标准化组件专题，后续该专题将包含各类语言中的一些常用组件。欢迎大家进行持续关注。组件基本信息组件：Hystrix开源协议：LICENSE内容本节我们分享一个基于Java的分布式系统的延迟和容错组件(熔断组件)Hystr
PHP如何实现二维数组排序？ IT独行者二维数组 PHP 排序　
二维数组在PHP开发中经常遇到，但是他的排序就不如一维数组那样用内置函数来的方便了，（一维数组排序可以参考本站另一篇文章【PHP中数组排序函数详解汇总】）。二维数组的排序需要我们自己写函数处理了，这里UncleToo给大家分享一个PHP二维数组排序的函数：代码： functionarray_sort($arr,$keys,$type='asc'){ $keysvalue= $new_arr
【Hadoop十七】HDFS HA配置 bit1129 hadoop
基于Zookeeper的HDFS HA配置主要涉及两个文件,core-site和hdfs-site.xml。测试环境有三台 hadoop.master hadoop.slave1 hadoop.slave2 hadoop.master包含的组件NameNode, JournalNode, Zookeeper，DFSZKFailoverController
由wsdl生成的java vo类不适合做普通java vo darrenzhu VO wsdl webservice rpc
开发java webservice项目时，如果我们通过SOAP协议来输入输出，我们会利用工具从wsdl文件生成webservice的client端类，但是这里面生成的java data model类却不适合做为项目中的普通java vo类来使用，当然有一中情况例外，如果这个自动生成的类里面的properties都是基本数据类型，就没问题，但是如果有集合类，就不行。原因如下： 1)使用了集合如Li
JAVA海量数据处理之二（BitMap）周凡杨 java 算法 bitmap bitset 数据
路漫漫其修远兮，吾将上下而求索。想要更快，就要深入挖掘 JAVA 基础的数据结构，从来分析出所编写的 JAVA 代码为什么把内存耗尽，思考有什么办法可以节省内存呢？啊哈！算法。这里采用了 BitMap 思想。首先来看一个实验：指定 VM 参数大小： -Xms256m -Xmx540m
java类型与数据库类型 g21121 java
很多时候我们用hibernate的时候往往并不是十分关心数据库类型和java类型的对应关心，因为大多数hbm文件是自动生成的，但有些时候诸如：数据库设计、没有生成工具、使用原始JDBC、使用mybatis(ibatIS)等等情况，就会手动的去对应数据库与java的数据类型关心，当然比较简单的数据类型即使配置错了也会很快发现问题，但有些数据类型却并不是十分常见，这就给程序员带来了很多麻烦。 &nb
Linux命令 510888780 linux命令
系统信息 arch 显示机器的处理器架构(1) uname -m 显示机器的处理器架构(2) uname -r 显示正在使用的内核版本 dmidecode -q 显示硬件系统部件 - (SMBIOS / DMI) hdparm -i /dev/hda 罗列一个磁盘的架构特性 hdparm -tT /dev/sda 在磁盘上执行测试性读取操作 cat /proc/cpuinfo 显示C
java常用JVM参数墙头上一根草 java jvm参数
-Xms：初始堆大小，默认为物理内存的1/64(<1GB)；默认(MinHeapFreeRatio参数可以调整)空余堆内存小于40%时，JVM就会增大堆直到-Xmx的最大限制 -Xmx：最大堆大小，默认(MaxHeapFreeRatio参数可以调整)空余堆内存大于70%时，JVM会减少堆直到 -Xms的最小限制 -Xmn：新生代的内存空间大小，注意：此处的大小是（eden+ 2
我的spring学习笔记9-Spring使用工厂方法实例化Bean的注意点 aijuans Spring 3
方法一： <bean id="musicBox" class="onlyfun.caterpillar.factory.MusicBoxFactory" factory-method="createMusicBoxStatic"></bean> 方法二：
mysql查询性能优化之二 annan211 UNION mysql 查询优化索引优化
1 union的限制有时mysql无法将限制条件从外层下推到内层，这使得原本能够限制部分返回结果的条件无法应用到内层查询的优化上。如果希望union的各个子句能够根据limit只取部分结果集，或者希望能够先排好序在合并结果集的话，就需要在union的各个子句中分别使用这些子句。例如想将两个子查询结果联合起来，然后再取前20条记录，那么mys
数据的备份与恢复百合不是茶 oracle sql 数据恢复数据备份
数据的备份与恢复的方式有: 表,方案 ,数据库; 数据的备份: 导出到的常见命令; 参数说明 USERID 确定执行导出实用程序的用户名和口令 BUFFER 确定导出数据时所使用的缓冲区大小，其大小用字节表示 FILE 指定导出的二进制文
线程组 bijian1013 java 多线程 thread java多线程线程组
有些程序包含了相当数量的线程。这时，如果按照线程的功能将他们分成不同的类别将很有用。线程组可以用来同时对一组线程进行操作。创建线程组：ThreadGroup g = new ThreadGroup(groupName); &nbs
top命令找到占用CPU最高的java线程 bijian1013 java linux top
上次分析系统中占用CPU高的问题，得到一些使用Java自身调试工具的经验，与大家分享。 (1)使用top命令找出占用cpu最高的JAVA进程PID:28174 (2)如下命令找出占用cpu最高的线程 top -Hp 28174 -d 1 -n 1 32694 root 20 0 3249m 2.0g 11m S 2 6.4 3:31.12 java
【持久化框架MyBatis3四】MyBatis3一对一关联查询 bit1129 Mybatis3
当两个实体具有1对1的对应关系时，可以使用One-To-One的进行映射关联查询 One-To-One示例数据以学生表Student和地址信息表为例，每个学生都有都有1个唯一的地址(现实中，这种对应关系是不合适的，因为人和地址是多对一的关系)，这里只是演示目的学生表 CREATE TABLE STUDENTS (
C/C++图片或文件的读写 bitcarter 写图片
先看代码： /*strTmpResult是文件或图片字符串 * filePath文件需要写入的地址或路径 */ int writeFile(std::string &strTmpResult,std::string &filePath) { int i,len = strTmpResult.length(); unsigned cha
nginx自定义指定加载配置 ronin47
进入 /usr/local/nginx/conf/include 目录，创建 nginx.node.conf 文件，在里面输入如下代码： upstream nodejs { server 127.0.0.1:3000; #server 127.0.0.1:3001; keepalive 64; } server { liste
java-71-数值的整数次方.实现函数double Power(double base, int exponent)，求base的exponent次方 bylijinnan double
public class Power { /** *Q71-数值的整数次方 *实现函数double Power(double base, int exponent)，求base的exponent次方。不需要考虑溢出。 */ private static boolean InvalidInput=false; public static void main(
Android四大组件的理解 Cb123456 android 四大组件的理解
分享一下，今天在Android开发文档-开发者指南中看到的: App components are the essential building blocks of an Android
[宇宙与计算]涡旋场计算与拓扑分析 comsci 计算
怎么阐述我这个理论呢？。。。。。。。。。首先：宇宙是一个非线性的拓扑结构与涡旋轨道时空的统一体。。。。我们要在宇宙中寻找到一个适合人类居住的行星，时间非常重要，早一个刻度和晚一个刻度，这颗行星的
同一个Tomcat不同Web应用之间共享会话Session cwqcwqmax9 session
实现两个WEB之间通过session 共享数据查看tomcat 关于 HTTP Connector 中有个emptySessionPath 其解释如下： If set to true, all paths for session cookies will be set to /. This can be useful for portlet specification impleme
springmvc Spring3 MVC，ajax，乱码 dashuaifu spring jquery mvc Ajax
springmvc Spring3 MVC @ResponseBody返回，jquery ajax调用中文乱码问题解决 Spring3.0 MVC @ResponseBody 的作用是把返回值直接写到HTTP response body里。具体实现AnnotationMethodHandlerAdapter类handleResponseBody方法，具体实
搭建WAMP环境 dcj3sjt126com wamp
这里先解释一下WAMP是什么意思。W:windows，A：Apache，M：MYSQL，P：PHP。也就是说本文说明的是在windows系统下搭建以apache做服务器、MYSQL为数据库的PHP开发环境。工欲善其事，必须先利其器。因为笔者的系统是WinXP，所以下文指的系统均为此系统。笔者所使用的Apache版本为apache_2.2.11-
yii2 使用raw http request dcj3sjt126com http
Parses a raw HTTP request using yii\helpers\Json::decode() To enable parsing for JSON requests you can configure yii\web\Request::$parsers using this class: 'request' =&g
Quartz-1.8.6 理论部分 eksliang quartz
转载请出自出处：http://eksliang.iteye.com/blog/2207691 一.概述基于Quartz-1.8.6进行学习，因为Quartz2.0以后的API发生的非常大的变化，统一采用了build模式进行构建；什么是quartz? 答：简单的说他是一个开源的java作业调度框架，为在 Java 应用程序中进行作业调度提供了简单却强大的机制。并且还能和Sp
什么是POJO？ gupeng_ie java POJO 框架 Hibernate
POJO--Plain Old Java Objects(简单的java对象) POJO是一个简单的、正规Java对象，它不包含业务逻辑处理或持久化逻辑等，也不是JavaBean、EntityBean等，不具有任何特殊角色和不继承或不实现任何其它Java框架的类或接口。 POJO对象有时也被称为Data对象，大量应用于表现现实中的对象。如果项目中使用了Hiber
jQuery网站顶部定时折叠广告 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/4.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>网页顶部定时收起广告jQuery特效 - HoverTree<
Spring boot内嵌的tomcat启动失败 kane_xie spring boot
根据这篇guide创建了一个简单的spring boot应用，能运行且成功的访问。但移植到现有项目（基于hbase）中的时候，却报出以下错误： SEVERE: A child container failed during start java.util.concurrent.ExecutionException: org.apache.catalina.Lif
leetcode: sort list michelle_0916 Algorithm linked list sort
Sort a linked list in O(n log n) time using constant space complexity. ====analysis======= mergeSort for singly-linked list ====code======= /** * Definition for sin
nginx的安装与配置,中途遇到问题的解决 qifeifei nginx
我使用的是ubuntu13.04系统，在安装nginx的时候遇到如下几个问题，然后找思路解决的，nginx 的下载与安装 wget http://nginx.org/download/nginx-1.0.11.tar.gz tar zxvf nginx-1.0.11.tar.gz ./configure make make install 安装的时候出现
用枚举来处理java自定义异常 tcrct java enum exception
在系统开发过程中，总少不免要自己处理一些异常信息，然后将异常信息变成友好的提示返回到客户端的这样一个过程，之前都是new一个自定义的异常，当然这个所谓的自定义异常也是继承RuntimeException的，但这样往往会造成异常信息说明不一致的情况，所以就想到了用枚举来解决的办法。 1，先创建一个接口，里面有两个方法，一个是getCode, 一个是getMessage public
erlang supervisor分析 wudixiaotie erlang
当我们给supervisor指定需要创建的子进程的时候，会指定M,F,A,如果是simple_one_for_one的策略的话，启动子进程的方式是supervisor:start_child(SupName, OtherArgs),这种方式可以根据调用者的需求传不同的参数给需要启动的子进程的方法。和最初的参数合并成一个数组，A ++ OtherArgs。那么这个时候就有个问题了，既然参数不一致，那

万字长文 | Hadoop 上云： 存算分离架构设计与迁移实践