Juicedata

存算分离实践：构建轻量、云中立的大数据平台

今天我们将分享社区用户多点 DMALL 的案例。多点 DMALL 是亚洲领先的全渠道数字零售解决方案服务商，目前已与 380 家零售企业达成合作，覆盖 6 个国家和地区。

面对 B 端客户日益增长的企业数据，存算一体的架构显得力不从心。计算资源冗余浪费、所依靠的CDH发行版技术栈复杂、部署运维困难及计算资源潮汐现象严重等问题，迫使多点启动架构升级的进程。同时，为满足 B 端客户多样化的需求，多点需要构建一个可以在多云环境下更具性价比、可复用的大数据底层基座和平台工具链。基于此，多点的大数据团队开始搭建存算分离的云原生大数据架构。

本文深入剖析这次改造的架构设计与演进过程，分享多点 DMALL 在此过程中的经验和挑战。值得一提的是，他们利用 JuiceFS 社区版实现了与 Ranger 组件进行权限的对接，希望此经验能为其他使用 JuiceFS 的企业提供参考。

一、存算一体架构下的痛点和挑战

1.1 架构原生存在的痛点

存算一体架构带来的成本和运维挑战，是大部分企业在大数据发展中一定会面对的问题。

传统的 Hadoop 生态体系中，数据存储角色与计算角色通常会部署在相同的机器上，一个占据硬盘提供存储，一个利用 CPU 和内存做计算。为此，MapReduce 和 Spark 也适应性的设计了多层级的数据本地化策略，即任务尽可能被分配到存储所需数据的对应节点上做计算，以减少中间数据交互产生的网络开销和额外的存储压力，提升整体的大数据应用效率。

可是，随着企业业务的发展，大数据存储量的增长速率与计算所需节点数量的增长速率很难保持一致。尤其是在“数据就是企业核心资产”的思想下，大量历史数据、冷数据的积累，导致企业数据存储量的增长诉求远远高于计算资源。最后企业只好不断新增机器存储更多数据，但大量计算资源得不到充分利用造成了闲置与浪费。

同样是增加存储资源，存算一体架构下会闲置部分计算资源，存算分离则不会有这个问题。

此外，数据量的不断增长还带来了 HDFS NameNode 元数据压力、集群节点规模扩张受限等问题。这些问题也时时刻刻牵动着各个大数据团队紧绷的神经。

1.2 多点DMALL 面临的挑战

多点DMALL 的大数据体系在构建之初，也是采用传统 Hadoop 存算一体的技术栈。除了上述企业发展中架构原生带来的困境外，面对 To B 多样化的业务场景，多点DMALL 大数据团队面临更多场景化的挑战：

组件多技术栈复杂：之前主要依赖 CDH 发行版本，该套架构组件繁多，架构复杂，共包括11类服务（存储、计算、运维、监控、安全等），22 种角色类型。并且随着时间推移，很多新技术引入异常麻烦，需要考虑非常多兼容性问题。
部署复杂 & 运维困难：私有化部署、SaaS 服务模式一度给大数据团队带来了巨大的工作量，交付效率不高，包括网络规划、容量规划、公有云机型选择、漏洞修复和多环境日常维护等。
计算资源潮汐现象严重：存算一体的架构下大数据集群和业务集群是相互独立的，资源使用有着不同的特点。大数据集群资源使用的高峰在凌晨，白天只有零散的即席查询占资源不多；业务集群的峰值在白天，晚上流量很少，这也是领域内老生常谈的“潮汐现象”，因此计算资源浪费和闲置一直没有彻底解决。

二、存算分离的架构设计

随着多点DMALL 全面 To B 转型，为越来越多的 B 端客户提供零售全渠道解决方案，需要具备在多云环境下提供更具性价比、可复用的大数据底层基座和平台工具链。多点DMALL 大数据团队结合已有经验和后续业务需求，设计搭建存算分离、轻量级、可扩展、云中立大数据集群架构。

而存算分离的第一步，便是要解决数据如何从 HDFS 集群上快速切换到云服务商存储服务的问题。

2.1 小试牛刀：直接对接对象存储

在架构升级探索期，能想到最直接的方案就是通过 API 对接云厂商的对象存储。

从架构图上看这逻辑非常简洁清晰。考虑到各大云厂商都提供了稳定的对象存储服务以及完善的API，直接加以利用应该会降低架构升级的难度。为了快速检验这一思路的可行性，我们首先选择了大数据平台上，与 HDFS 会产生交互的部分功能做切换，将其换成与对象存储进行交互的方式。

快速检验的结果是，这样的设计不仅没有达到预期，反而使大数据平台开发的复杂度成倍增加。

出现问题的核心点在于：

部分 B 端客户可能会选择自己信任/合作的云服务商，而选择的结果不可控。
虽然底层都是 S3 的协议，为了构建技术壁垒，各大云服务商的对象存储 API 仍然存在一定差异。
为了满足不同客户的不同云服务商需求，大数据平台工具链将需要适配开发多套代码，开发工作量巨大。

经过验证，上述探索方案只能进行小型试点，无法支撑整个大数据架构的规模化调整，还需探寻新的解决方案。于是，JuiceFS 进入了我们的视线。

2.2 JuiceFS：平滑过渡利器

多点大数据团队很早便开始关注 JuiceFS了。在直接使用对象存储的方案宣告不可行之后，我们就一直在寻找能帮助大数据应用及引擎平滑切换到对象存储的方式。幸运的是，我们注意到了 JuiceFS 合伙人苏锐的一篇分享：从 Hadoop 到云原生，大数据平台如何做存算分离。而后经过不断探索与验证，我们意识到这就是一直在寻找的问题解决之道。

采用 JuiceFS 的优势如下：

已对接市面主流公有云对象存储：为了将存储和计算剥离，对象存储是最佳选择，其本身是公有云最基础服务之一。JuiceFS 底层存储对接了市场上绝大部分云服务厂商提供的对象存储服务，可以帮助我们彻底剥离存储和计算资源，做到存算分离的效果。
完美兼容 HDFS 协议，大数据引擎平滑切换：JuiceFS 提供了 Hadoop Java SDK，帮助所有使用传统的 HDFS API 的计算引擎和应用平滑切换，基本可以做到只需要修改相应的配置便可以直接执行，大大降低了新架构下引擎间调试适配的复杂性。
独立元数据引擎，解决 NameNode 瓶颈问题：JuiceFS 的元数据存储在独立的存储引擎中，彻底解决了 NameNode 内存限制及单点问题。元数据引擎独立部署，对其单独的调优和运维也更加便利。没有元数据扩展的压力，集群扩张的限制也不再存在。
提供 CSI 方式，支持云原生设计：在构建云原生架构的道路上，JuiceFS 提供的 Kubernetes CSI 驱动，让这个架构设计实现更加完善，在 K8s 上使用 JuiceFS 更加方便。

2.3 最终架构设计

以下是多点大数据最终的存算分离架构设计：

我们将整体架构逻辑分为以下几层：

工具层：最上层是多点大数据团队自研的 UniData 大数据平台工具链，提供完善的大数据开发治理能力，包括数据集成、数据开发、任务调度、数据资产等，实现了“用”。
计算层：接下来是由 Kubernetes 管理的数据计算层，提供 Spark、Flink 等计算组件。这一层就是“存算分离”中的“算”。
管控层：再下一层中，提供了除了数据计算外，元数据的存储、权限的管控、查询代理等功能，负责了架构中的“管”这一层。
存储层：最后就是 JuiceFS 和各个云服务提供的对象存储，提供协议适配和加速能力，实现了“存”。

在不断探索和尝试中，我们最终确定 JuiceFS 的引入和使用。JuiceFS 作为存储中间层，对下屏蔽了底层实际存储介质，隔离了不同的云环境，对上提供了统一的 HDFS API，保证了引擎执行和应用功能的一致性和稳定性，从而保障了集群整体对外服务的质量。

三、JuiceFS 的深入运用实践

新技术的引入总是伴随着折腾的过程。在探索和使用 JuiceFS 的过程中，多点DMALL 大数据团队不出意外地踩了一些坑，幸而最终都找到了较为合理的解决方案。在此将遇到的部分典型问题整理分享出来，希望给所有计划和正在使用 JuiceFS 的同学一些启发和帮助。

3.1 添加基于 Ranger 的安全管控

开源的 JuiceFS 项目中，Hadoop Java SDK 没有安全管控的功能。因此在选择使用 JuiceFS 时，安全成为我们最关注的问题。

通过对该模块代码的细致研究，参考 HDFS 的鉴权逻辑方案，我们在 JuiceFS 的 FileSystem 的实现类中，对每个API 的实现实际操作触发前都添加了权限拦截的处理。

“权限”一词的计算机语言内涵就是“实体+动作”，Ranger 的权限设计本质也是一样的。我们将拦截的对应操作（例如创建）和相关路径转化为Ranger HDFS模块所需鉴权的动作和实体，并与操作用户组合成RangerAccessRequest与 Ranger HDFS 模块打通进行鉴权。这个改动解决了 JuiceFS 在系统中“裸奔”的情况，为数据的安全做了一道防护。

当然，从整体的权限体系设计来讲，考虑到 Ranger一直被人所诟病的 Ranger Admin 连接风暴和策略本地化等问题，我们设计增加了权限鉴权的代理层，来进行鉴权的分流、权限映射和缓存等。但这些架构上的优化不影响 JuiceFS 接入 Ranger 的权限管控的本质目标。

除了正常的权限管控，对于可能存在的恶意使用我们也做了准备。考虑到 JuiceFS 开源代码的公开性，为了避免部分用户在了解到底层架构和引擎选择后，恶意破解调用以非法获取数据，我们对 JuiceFS 还做了额外的代码调整，包括修改核心参数的取值方式等。在保留和充分利用 JuiceFS 的核心功能前提下添加防护墙，提升整体的安全水平。

3.2 Spark 的 Shuffle 数据处理

在 Spark on K8s 的云原生设计中，Shuffle 数据的处理是需要重点关注的。相比于通过机器堆出来的 YARN 集群可以直接利用超大的本地磁盘存储 Shuffle 数据而言，试图避免依赖底层机器、存算分离设计下 K8s 上的任务只能另谋他路。

在看到 JuiceFS 提供的的 K8s CSI 驱动时，我们最初以此作为突破点。在设想中，可以利用 JuiceFS K8s CSI 驱动的 writeback 模式，Shuffle 数据先放置临时存储目录，超过阈值后载入远端对象存储中。这样的逻辑下，Spark 的Shuffle 数据就无需依赖本地机器磁盘大小，有海量对象存储作为最终存储介质，理论上不再担心执行压力和数据临时存储压力。

但经过实际验证，在进行on YARN 和 on K8s 的性能测试对比时发现，使用这个方案的实际效果是：慢得不止一点点。

以下为测试中最典型的一个 Query 结果：

在深入分析研究后，我们发现 Shuffle 场景本身会存在大量小文件及随机读操作，JuiceFS K8s CSI 并不适合这种场景，会产生较大的性能瓶颈。在与 JuiceFS 社区沟通探讨后，我们开始调研开源的 Remote Shuffle Service，将 CSI 的方式切换为利用独立的 Shuffle 服务，并根据测试最终选用了 Apache Celeborn（后简称Celeborn）支持这一场景，其整体性能表现跟 on YARN 差异不大。Apache Celeborn 自身支持分级存储能力，极大提升了各类实际负载适配能力，我们将 JuiceFS 作为内存/磁盘容量不足情况下最后的兜底 Shuffle 数据存储。

3.3 Alpine 镜像问题

上文提到，我们有一些大数据平台应用是直接通过 Hadoop Java SDK 与 HDFS 进行交互的。这些应用都是 Java 应用，在云原生的转换过程中发现以下报错：

`initial-exec TLS resolves to dynamic definition in /tmp/libjfs-amd64.7.so`

经过探索，并与 JuiceFS 社区沟通后，我们发现这个问题，是由于使用的基础镜像 openjdk-Alpine 本身的 bug，后来我们换成了eclipse-temurin 解决了问题。

3.4 root 不会被设置为 Owner

在 Celeborn 的使用中发现一个漏洞。Celeborn 会自动创建其存储 Shuffle 数据的 HDFS 目录，当该服务的启动用户是 root 时，自动创建的 HDFS 目录并没有被自动设置 Owner 为 root。在上面提到的我们模仿 HDFS 鉴权思路中，对于一些目录的操作会去校验是否是这个目录的 Owner。root 没有被设置，自然后续 Celeborn 很多针对这个 HDFS 目录的操作都会被权限拦截。

虽然我们可以通过切换 Celeborn 的启动用户，或者给他单独设置权限等方式绕过这个拦截。考虑到创建后设置Owner 是合理行为，而且除了 root 外的其他用户都会被正常设置，我们还是将这个疑问向 JuiceFS 社区提出来。感谢 JuiceFS 社区第一时间的响应和支持，很快就修复了这个小漏洞。

3.5 数据缓存运用与 OOM 问题

将 CSI 驱动切换成 Celeborn 后，我们又一次开始做 Spark on YARN 和 on K8s 的性能测试。对比中发现，相同的任务和资源，on K8s 的任务总是会报错 OOM。通过细致的 Spark 内存分析，并不断对比多个环境任务和差异点后，团队内一位同学发现了 JuiceFS 的数据缓存参数设置区别，深入挖掘，最终找到答案。

Spark 任务执行时，需要特别配置juicefs.cache-dir，不然 JuiceFS 就会默认将数据缓存放进内存中，从而对每一个 executor 多出好几百兆的额外内存占用。如果不做特殊配置，那就需要在 Spark 任务切换到on K8s的环境时，多配一些 off-heap 堆外内存，用以支持 JuiceFS 的额外数据缓存。

3.6 数据缓存目录的权限

在使用数据缓存目录（后简称 cache 目录）的应用中，我们还遇到了另一个问题。Spark on K8s 的 Jupyter 应用中我们使用 JuiceFS K8s CSI 驱动建立的 PVC，与使用 JuiceFS Hadoop Java SDK 挂载 cache 目录，当二者使用同一个目录，会产生权限冲突的问题，在 Spark 运行日志中出现 warn 日志无法落地/获取缓存数据。仔细跟踪后发现，是因为两条链路生成的缓存文件目录默认权限不同，相互修改权限最终导致了文件写入失败，这样相当于根本没利用上 JuiceFS 客户端缓存，每次都直接与对象存储交互，这样对 Spark 任务性能而言影响很大。

该问题在反馈给 JuiceFS 社区后，社区通过对 JuiceFS K8s CSI 驱动增加参数“cache-mode”进行了修复。

3.7 TiKV & Write Conflict

在做容量规划的时候考虑到线上集群规模，TiKV 一开始就被我们选择为 JuiceFS 的元数据存储引擎。在我们对云原生架构开发测试的大部分时间内，TiKV 的表现一直很稳定，直到我们选择 Celeborn 作为独立 Shuffle 服务。

根据 Celeborn 的功能设计，在当本地磁盘存储 Shuffle 数据满时，将把数据下推到 HDFS 中（当然我们在这里利用 JuiceFS 让其实际下推到了对象存储）。但在具体测试时发现，多个 Celeborn 的 Worker 同时写一个 JuiceFS 的目录会出现 Write Conflict 问题并触发重试操作。重试操作会有次数极限，而且不断重试很明显降低了整体Shuffle 效率延长了任务执行时长，在很长一段时间内这个问题也困扰着我们。

最终，社区的另一位 JuiceFS 用户给出了方案。Write Conflict 的根本原因是所有的写文件都要修改父目录的更新时间，这个报错并非是因为写文件，而是修改同一个目录属性产生的异常。再进一步，产生 Write Conflict 的不是JuiceFS 管理的数据，而是元数据，也就是 TiKV 的锁问题。最终，考虑到除了 Shuffle 场景，这样高并发的修改同一个目录的属性并不常见，我们决定为 Celeborn 部署提供单独的 JuiceFS 的 Hadoop Java SDK，这个 SDK 是单独处理的，写数据不再更新父目录的属性。

3.8 TiKV 垃圾回收机制

加入 JuiceFS 社区群后，我们也时常关注群内其他企业使用的问题反馈，可以帮助我们在正式上线前覆盖更多的测试案例。TiKV 的垃圾回收机制问题就是其中一个。当看到群里有其他同学反馈后，我们快速分析了该问题发生的原因，并检查补充了部署策略。TiKV 的独立服务并不会自动触发垃圾回收机制，只有同步安装 TiDB 这个组件才会正常运转。而我们在元信息服务 TiKV 部署策略中会同步安装 TiDB，不会遇到这个问题。另外，JuiceFS 1.0.4 版本开始已经新增 TiKV gc worker 后台线程适时触发垃圾回收动作。

3.9 HDFS 回收站文件无法清理

当 HDFS 配置文件中开启了 HDFS 回收站功能（fs.trash.interval 和 fs.trash.checkpoint.interval），只要存活的客户端实例都会检查并触发回收站中文件清理工作。但是最开始我们测试发现，清理线程总是报错提示没有文件操作权限。跟 JuiceFS 社区沟通后发现，的确存在 bug 导致过期文件没法清理，并迅速提供了 PR 修复。

四、最终测试结果

正如上文中提到的，我们在架构升级过程中多次在公司开发环境进行了 Spark on YARN 和 on K8s 的性能测试对比，分别执行多次 TPC-DS SQL。以下为最终的对比结果：

上述测试是通过大数据平台 UniData 配置任务进行数据计算对比，变量包含平台调度策略的调整、Spark 版本升级等。排除其他变量，深入分析时间差异后，我们得出以下结论：

Spark 任务基于 HDFS 的on YARN 执行时长与基于 JuiceFS 的 on K8s 执行时长基本持平，性能差异较小。
JuiceFS 的数据缓存设计对数据查询存在明显的加速作用，同样的 SQL 在多次执行后，执行速度明显提升。
JuiceFS 会占用部分内存，总体而言比基于 HDFS 的任务所需内存更多。

从上述测试结果来看，已经达到了我们新架构正式上线的要求。目前这套架构已在多个公有云环境中平稳运转，接下来我们会启动现有历史 CDH 存算一体集群下线，并升级为新的存算分离新架构的动作。另外，为进一步提升Spark 执行性能，我们也在积极开展引入向量化执行引擎框架 Gluten 的测试验证工作。

五、小结

在多点DMALL 从传统 Hadoop 存算一体到存算分离的升级过程中，JuiceFS 的出现填补了存储设计的空缺，推动了升级闭环。它对上保持了同样的 HDFS 协议，降低各个应用和引擎适配复杂度，对下完美对接各个云服务厂商提供的对象存储服务，提升了整体架构的升级效率。

经过整体向云原生的存算分离架构的升级，我们获得了多方面的收益：

节约成本：存算分离可以为企业客户节约大量硬件或云服务商的成本，从而提升客户满意度，这也推动了我们服务续约率的提升。
技术扩展性好：我们之前使用 CDH 发行版进行组件的管理，因为引擎间版本限制，和重要组件升级带来的风险高等问题，客户有些技术升级诉求无法响应。存算分离后我们也摆脱了这个限制。现在，我们可以针对性地升级和调试单一组件，甚至在同一集群内进行AB测试，大大降低了升级风险。
部署和运维效率提升：升级前我们的交付最快只能达到天级，这还不算前期的集群设计和准备工作。现在可以达到小时级，资源是按需使用的，随用随取，没有之前那些复杂的预投入，大数据平台一键拉起，释放了大量人力成本。
我们很幸运在整体架构升级的过程中遇到了 JuiceFS 这个项目，也希望通过这篇实践分享能帮助到更多的企业更好的运用 JuiceFS。未来我们也会持续关注 JuiceFS 社区，持续为社区建设做出更多的贡献。

希望这篇内容能够对你有一些帮助，如果有其他疑问欢迎加入 JuiceFS 社区与大家共同交流。

凌晨の3点，线程池竟在服务器里偷偷···· 山海上的风 Java 服务器 java-ee 线程池
凌晨の3点，线程池の竟在服务器里偷偷榨干CPU····⚡️CPU：JAVAKing为窝发声,HELPME⚡️JAVAKING今天将揭露线程池的罪恶行为⚡️《线程池：OH,YES》线程池到底对项目做了什么想象一下：每次点外卖都新雇一个厨师‍，吃完就开除——这就是裸奔线程的日常！在高并发三巨头（电商秒杀、金融交易、大数据处理）中：1️⃣CPU哭诉：90%时间在面试线程，10%干活（线程切换开销）2️⃣
探索Kafka监控新维度：Burrow深度解析孙爽知Kody
探索Kafka监控新维度：Burrow深度解析BurrowKafkaConsumerLagChecking项目地址:https://gitcode.com/gh_mirrors/bu/Burrow项目介绍在大数据领域，ApacheKafka作为实时数据流处理的领军者，其稳定性和性能备受赞誉。然而，对于消费者端的监控始终是一个挑战。这时，LinkedIn开源的Burrow应运而生，它是一款专为Kaf
说说自己Python 代码优化实践 chilavert318 大数据 linux 运维 python
今年上半年在外省做一个大数据相关的项目，在review项目组成员的代码时，发现一段处理大数据集的模块存在明显性能瓶颈：10万条数据的清洗流程耗时近20分钟，CPU占用率却始终在30%以下。深入分析后发现，看似简洁的Python代码背后，隐藏着诸多可以优化的细节——这并非个例，我们的程序在追求代码可读性时，往往忽略了Python特有的性能陷阱。今天抽点时间，从我实践中的代码就python开发，从内存
基于python的公众号文章爬取思路（总结版）大数据小学僧 python 开发语言爬虫微信公众平台
目录一、技术方案分类1.接口直连模式（推荐）2.网页解析模式3.第三方API模式二、核心技术栈三、爬虫实现步骤1.接口直连模式（微信公众平台API）2.网页解析模式（搜狗微信搜索）3.第三方API模式（如清博大数据）四、可视化界面实现五、数据存储方案六、高级技巧七、注意事项八、推荐工具链一、技术方案分类1.接口直连模式（推荐）2.网页解析模式3.第三方API模式二、核心技术栈三、爬虫实现步骤1.接
TDengine 运维全攻略：五种备份与恢复方法深度解析（2025 最新版） TDengine （老段） TDengine 运维 tdengine 运维大数据涛思数据物联网时序数据库数据库
备份与还原是数据库运维的核心环节，TDengine提供了五种主流数据备份方法，覆盖不同场景需求。本文将详细解析各方法的特性与操作要点。1.taosdump介绍taosdump是TDengine社区版首选的数据备份工具（企业版同样支持），其核心特点是操作简便、支持多线程处理，且备份文件采用ApacheAvro格式（大数据领域通用数据交换格式），便于向其他系统共享数据。工具支持跨平台连接远程服务器执行
Flink项目基础配置指南 Edingbrugh.南空 flink 大数据 flink 大数据
在大数据处理领域，ApacheFlink凭借强大的实时流处理和批处理能力，成为众多开发者的首选工具。在日常工作中，开发FlinkJar任务是常见需求，但每次都需重复配置日志、梳理pom依赖、设置打包插件等，流程繁琐且易出错。为提升开发效率，减少重复劳动，将这些基础配置进行整理归纳十分必要。本文将围绕Flink项目的本地日志配置、pom依赖及插件配置展开详细介绍，为开发者提供一套可直接复用的基础配置
大数据智能风控核心：模型 johnny233 读书笔记大数据
概述模型线性判别分析方法，SirRonaldFisher最早提出模型评分的概念。个人FICO模型信用分。巴塞尔委员会发布巴塞尔Ⅱ协议，推出内部评级法（InternalRatingBasedApproach，IRB）。IRB综合考虑客户评级和债项评级，通过违约概率(ProbabilityofDefault,PD)、违约损失率(LossGivenDefault,LGD)、违约风险暴露(Exposure
Python爬虫实战：研究Bleach库相关技术 ylfhpy 爬虫项目实战 python 爬虫 php 开发语言 Bleach
1.引言在大数据时代，网络内容采集已成为信息获取的重要手段。Python凭借其丰富的爬虫库（如Requests、Scrapy）和灵活的数据处理能力，成为网页爬虫开发的首选语言。然而，从互联网获取的内容往往包含恶意脚本、不安全标签等安全隐患，直接使用可能导致XSS(跨站脚本攻击)、数据泄露等风险。Bleach作为专业的HTML净化库，通过白名单机制提供了可靠的内容安全过滤方案。本文将结合实际案例，详
Python爬虫实战：研究untangle库相关技术 ylfhpy 爬虫项目实战 python 爬虫 php 开发语言 untangle
1.引言在大数据时代，网络数据已成为重要的信息资源。XML和HTML作为互联网上最常用的数据表示格式，广泛应用于API接口、网站结构和数据交换等场景。Python凭借其丰富的爬虫库（如Requests、Scrapy）和灵活的数据处理能力，成为网络数据采集的首选语言。然而，从复杂的XML/HTML文档中提取结构化数据仍然面临诸多挑战，如文档结构多样性、动态内容渲染和数据格式转换等问题。Untangl
【头歌】MapReduce基础实战答案 Seven_Two2 头歌大数据实验答案 c#开发语言
本专栏已收集大数据所有答案第1关：成绩统计编程要求使用MapReduce计算班级每个学生的最好成绩，输入文件路径为/user/test/input，请将计算后的结果输出到/user/test/output/目录下。答案：需要先在命令行启动HDFS#命令行start-dfs.sh再在代码文件中写入以下代码#代码文件importjava.io.IOException;importjava.util.S
电力行业 | 抽水蓄能场景下，百万测点数据如何统一采集与接入？ DolphinDB智臾科技物联网 dolphindb 数据库抽水蓄能电力数据采集数据接入
在电力行业，抽水蓄能是目前最成熟、已经大规模化应用、兼顾发电和储能的一项技术。为了保障电站的平稳运行，借助物联网、大数据等技术，对电站各类运行设备进行实时采集，如机组振动、油压波动、瓦温变化等生产监测数据，已成为电站稳定运维的重要技术手段。在之前的文章储能业|低成本部署！DolphinDB打造抽水蓄能一体化解决方案-CSDN博客中，我们介绍了DolphinDB在抽水蓄能场景中的全链路解决方案。今天
SQLite 数据库在大数据分析中的应用潜力数据库管理艺术数据库 sqlite 数据分析 ai
SQLite数据库在大数据分析中的应用潜力关键词：SQLite、大数据分析、轻量级数据库、嵌入式数据库、数据仓库、OLAP、性能优化摘要：本文深入探讨了SQLite这一轻量级嵌入式数据库在大数据分析领域的应用潜力。我们将从SQLite的核心架构出发，分析其在大数据场景下的优势和限制，并通过实际案例展示如何通过优化策略和扩展技术使SQLite能够处理大规模数据集。文章包含性能对比测试、优化技巧和实际
利用大数据领域Doris提升企业数据决策效率大数据洞察大数据网络 ai
利用大数据领域Doris提升企业数据决策效率关键词：大数据、Doris、企业数据决策、数据处理、效率提升摘要：本文围绕利用大数据领域的Doris来提升企业数据决策效率展开。首先介绍了背景，包括目的、预期读者、文档结构和相关术语。接着阐述了Doris的核心概念、架构以及与其他系统的联系。详细讲解了Doris的核心算法原理和具体操作步骤，并给出Python代码示例。同时介绍了相关的数学模型和公式。通过
Tair向量数据库：阿里云原生内存数据库服务的高性能向量检索解决方案 mmlihaio 数据库云原生 python
Tair向量数据库：阿里云原生内存数据库服务的高性能向量检索解决方案1.引言在当今的人工智能和大数据时代，高效的向量检索已成为许多应用场景的关键需求。Tair作为阿里云开发的云原生内存数据库服务，不仅提供了丰富的数据模型和企业级能力，还引入了基于非易失性内存(NVM)存储介质的持久内存优化实例。本文将深入探讨如何利用Tair向量数据库功能，实现高性能的向量存储和检索。2.Tair向量数据库概述Ta
解锁阿里云E-MapReduce：大数据处理的超能力秘籍云资源服务商阿里云云计算人工智能云原生
一、引言在数字化浪潮汹涌澎湃的当下，大数据已然成为推动各行业创新发展的核心驱动力。从电商平台精准的个性化推荐，到金融机构严密的风险评估，再到医疗领域高效的疾病预测，大数据的应用场景无处不在，深刻地改变着我们的生活与工作方式。在这片充满机遇与挑战的大数据领域中，阿里云E-MapReduce宛如一颗璀璨的明星，占据着举足轻重的地位。它凭借强大的大数据处理能力、卓越的性能表现以及丰富的功能特性，为企业和
大数据面试必备：Kafka性能优化 Producer与Consumer配置指南
Kafka面试题-在Kafka中，如何通过配置优化Producer和Consumer的性能?回答重点在Kafka中，通过优化Producer和Consumer的配置，可以显著提高性能。以下是一些关键配置项和策略：1、Producer端优化:batch.size：批处理大小。增大batch.size可以使Producer每次发送更多的消息，但要注意不能无限制增大，否则会导致内存占用过多。linger
图扑软件智慧云展厅，开启数字化展馆新模式智慧园区可视化 5g 人工智能大数据安全云计算
随着疫情的影响以及新兴技术的不断发展，展会的发展形式也逐渐从线下转向线上。通过“云”上启动、云端互动、双线共频的形式开展。通过应用大数据、人工智能、沉浸式交互等多重技术手段，构建数据共享、信息互通、精准匹配的高精度“云展厅”，突破时空壁垒限制。图扑软件运用HT强大的渲染功能，数字孪生“云展位”，1:1复现实际展厅内部独特的结构造型和建筑特色。也可以第一人称视角漫游，模拟用户在展厅内的参观场景，在保
vue大数据量列表渲染性能优化：虚拟滚动原理 Java小卷 Vue3开源组件实战 vue3 自定义Tree 虚拟滚动
前面咱完成了自定义JuanTree组件各种功能的实现。在数据量很大的情况下，我们讲了两种实现方式来提高渲染性能：前端分页和节点数据懒加载。前端分页小节：Vue3扁平化Tree组件的前端分页实现节点数据懒加载小节：ElementTreePlus版功能演示：数据懒加载关于扁平化结构Tree和嵌套结构Tree组件的渲染嵌套结构的Tree组件是一种递归渲染，性能上比起列表结构的v-for渲染比较一般。对于
redis的scan使用详解，结合spring使用详解黑皮爱学习 redis自学笔记 redis spring 数据库
Redis的SCAN命令是一种非阻塞的迭代器，用于逐步遍历数据库中的键，特别适合处理大数据库。下面详细介绍其使用方法及在Spring框架中的集成方式。SCAN命令基础SCAN命令的基本语法：SCANcursor[MATCHpattern][COUNTcount]cursor：迭代游标，初始为0，每次迭代返回新的游标值。MATCHpattern：可选，用于过滤键的模式（如user:*）。COUNTc
MongoDB 高性能应用场景与实践 AI自闭实验者 mongodb 数据库
```htmlMongoDB高性能应用场景与实践MongoDB高性能应用场景与实践随着大数据时代的到来，数据库作为数据存储和管理的核心工具，其性能和可扩展性显得尤为重要。在众多的数据库解决方案中，MongoDB凭借其灵活的数据模型、高性能和易于扩展的特点，在许多场景下成为开发者的首选。什么是MongoDB？MongoDB是一个开源的、面向文档的NoSQL数据库管理系统。它以JSON样式的文档存储数
缓存与加速技术实践-MongoDB数据库应用曼汐 . 数据库缓存 mongodb
一.什么是MongoDBMongoDB是一个文档型数据库，数据以类似JSON的文档形式存储。MongoDB的设计理念是为了应对大数据量、高性能和灵活性需求。MongoDB使用集合（Collections）来组织文档（Documents），每个文档都是由键值对组成的。数据库（Database）：存储数据的容器，类似于关系型数据库中的数据库。集合（Collection）：数据库中的一个集合，类似于关系
自学Java怎么入门 Java鼠鼠吖 java 开发语言
自学Java其实没有想象中那么难，只要找对方法，循序渐进地学习，很快就能上手。下面我结合自己的经验，给你整理一条清晰的学习路径，咱们一步步来。一、先了解Java能做什么在开始之前，建议你先看看Java都能用在哪些地方。比如开发企业级系统、Android应用、大数据处理等等。这样你就能明白为什么要学它，也更有动力。Java最大的特点就是"一次编写，到处运行"，这要归功于JVM虚拟机。二、准备好学习环
计算机毕业设计项目、管理系统、可视化大屏、大数据分析、协同过滤、推荐系统、SSM、SpringBoot、Spring、Mybatis、小程序项目编号1000-1499 lonzgzhouzhou spring 课程设计 spring boot
大家好，我是DeBug，很高兴你能来阅读！作为一名热爱编程的程序员，我希望通过这些教学笔记与大家分享我的编程经验和知识。在这里，我将会结合实际项目经验，分享编程技巧、最佳实践以及解决问题的方法。无论你是初学者还是有一定经验的程序员，我都希望能够为你提供有价值的内容，帮助你更好地理解编程世界。让我们一起探索编程的乐趣，一起成长，一起学习，谢谢你们的支持与关注！【源码咨询】可接Java程序设计，Bug
智能汽车图像及视频处理方案，支持视频智能包装创作能力美摄科技汽车
在这个日新月异的智能时代，每一帧画面都承载着超越想象的力量。随着自动驾驶技术的飞速发展，智能汽车不仅成为了未来出行的代名词，更是技术与艺术完美融合的典范。在这场变革的浪潮中，美摄科技以创新为翼，推出了领先的智能汽车图像及视频处理方案，为智能汽车行业带来了前所未有的视觉盛宴，重新定义了智能出行的视觉体验。一、智能重塑，视觉新境界美摄科技的智能汽车图像及视频处理方案，是基于深度学习、人工智能及大数据处
蜂鸟云平台大更新：地图空间定价重塑与功能全面升级蜂鸟视图fengmap 信息可视化蜂鸟云地图编辑器地图绘制工具室内外地图一体化智慧园区蜂鸟视图
1.引言随着云计算、大数据以及人工智能技术的快速发展，企业对云平台的需求日益增长。蜂鸟云平台作为一款创新性的地图服务平台，已逐渐成为众多企业、政府及科研机构的核心依赖。为了更好地满足用户需求，提高平台的市场竞争力，蜂鸟云平台定期进行功能更新与优化。2024年9月21日，蜂鸟云平台将在晚上20:00至24:00进行一轮重要的系统更新。本次更新的核心内容包括地图空间的重新定价与功能优化，涉及制图、微程
【笔记-软考】大数据架构-Lambda与Kappa架构对比我叫白小猿软考软考架构大数据 Kappa Lambda
Author：赵志乾Date：2024-07-28Declaration：AllRightReserved！！！1.简介大数据系统架构的设计思想很大程度受技术条件和思维模式的限制；Lambda架构在提出初期面向小范围业务，直接将成熟离线处理技术(Hadoop)和实时处理技术(Storm)相结合，用View模型将二者处理后得到的输出结果结合起来，在服务层进行统一后，再开放给上层服务，是相当可行且高效
大数据领域数据工程的消息中间件选型大数据洞察大数据与AI人工智能大数据 ai
大数据领域数据工程的消息中间件选型关键词：消息中间件、数据工程、大数据处理、选型标准、分布式系统、实时数据流、可靠性保障摘要：在大数据领域的数据工程实践中，消息中间件是构建高可靠、高可扩展数据管道的核心组件。本文从技术架构、功能需求、应用场景等维度，系统解析消息中间件选型的关键要素。通过对比Kafka、Pulsar、RabbitMQ、RocketMQ等主流中间件的技术特性，结合数学模型分析吞吐量、
合规视角下银行智能客服风险防控 AI 智能服务智能客服人工智能 AIGC 数据库 chatgpt
1.AI驱动金融变革的政策与技术背景政策导向：我国《新一代人工智能发展规划》明确提出发展智能金融，要求：构建金融大数据平台，提升多媒体数据处理能力；创新智能金融产品与服务形态；推广智能客服、监控等技术应用；建立智能风控预警体系。技术支撑：云计算、大数据技术成熟为AI发展奠定了基础。深度学习算法的突破则引爆了本轮AI浪潮，显著提升了复杂任务处理精度，进而推动了计算机视觉、机器学习、自然语言处理（NL
存得快查得准，但就是算不动？试试时序数据库 TDengine × Spark 的组合拳
每个工程师可能都遇到过类似场景：时序数据沉淀在数据库中，格式规范、查询快捷，但当任务升级——比如滑窗聚合、多源拼接、机器学习训练——一些业务可能就需要更强的计算能力和更灵活的分析工具。TDengine专注于高效存储与极速查询，而在数据“算力”层面，我们选择了更强的伙伴。现在，TDengine正式开放与ApacheSpark的无缝集成通道。一个是高性能、低成本的时序数据库，一个是横扫大数据世界的分析
微算法科技融合Grover算法与统一哈希函数的混合经典-量子算法技术，可在多领域高效提升文本处理效率 MicroTech2025 量子计算哈希算法
随着数据规模的不断扩大，尤其是在大数据和人工智能驱动的应用中，这些经典算法的线性复杂度逐渐成为瓶颈。面对数十亿级别的文本数据，线性时间的算法仍然难以满足实时性的要求。此外，经典算法在处理无序或随机文本时，性能往往会显著下降，进一步限制了其在特定场景中的适用性。量子计算是一种基于量子力学原理的新型计算范式。它与经典计算的根本区别在于量子叠加和量子纠缠的特性，使得量子计算能够并行处理大量状态，从而在某
微信开发者验证接口开发 362217990 微信开发者 token 验证
微信开发者接口验证。 Token，自己随便定义，与微信填写一致就可以了。根据微信接入指南描述 http://mp.weixin.qq.com/wiki/17/2d4265491f12608cd170a95559800f2d.html 第一步：填写服务器配置第二步：验证服务器地址的有效性第三步：依据接口文档实现业务逻辑这里主要讲第二步验证服务器有效性。建一个
一个小编程题-类似约瑟夫环问题 BrokenDreams 编程
今天群友出了一题：一个数列,把第一个元素删除,然后把第二个元素放到数列的最后,依次操作下去,直到把数列中所有的数都删除,要求依次打印出这个过程中删除的数。 &
linux复习笔记之bash shell (5) 关于减号-的作用 eksliang linux关于减号“-”的含义 linux关于减号“-”的用途 linux关于“-”的含义 linux关于减号的含义
转载请出自出处： http://eksliang.iteye.com/blog/2105677 管道命令在bash的连续处理程序中是相当重要的，尤其在使用到前一个命令的studout（标准输出）作为这次的stdin（标准输入）时，就显得太重要了，某些命令需要用到文件名，例如上篇文档的的切割命令（split）、还有
Unix(3) 18289753290 unix ksh
1)若该变量需要在其他子进程执行，则可用"$变量名称"或${变量}累加内容什么是子进程？在我目前这个shell情况下，去打开一个新的shell，新的那个shell就是子进程。一般状态下，父进程的自定义变量是无法在子进程内使用的，但通过export将变量变成环境变量后就能够在子进程里面应用了。 2)条件判断： &&代表and ||代表or&nbs
关于ListView中性能优化中图片加载问题酷的飞上天空 ListView
ListView的性能优化网上很多信息，但是涉及到异步加载图片问题就会出现问题。具体参看上篇文章http://314858770.iteye.com/admin/blogs/1217594 如果每次都重新inflate一个新的View出来肯定会造成性能损失严重，可能会出现listview滚动是很卡的情况，还会出现内存溢出。现在想出一个方法就是每次都添加一个标识，然后设置图
德国总理默多克：给国人的一堂“震撼教育”课永夜-极光教育
http://bbs.voc.com.cn/topic-2443617-1-1.html德国总理默多克：给国人的一堂“震撼教育”课　安吉拉—默克尔，一位经历过社会主义的东德人，她利用自己的博客，发表一番来华前的谈话，该说的话，都在上面说了，全世界想看想传播——去看看默克尔总理的博客吧！　　德国总理默克尔以她的低调、朴素、谦和、平易近人等品格给国人留下了深刻印象。她以实际行动为中国人上了一堂
关于Java继承的一个小问题。。。随便小屋 java
今天看Java 编程思想的时候遇见一个问题，运行的结果和自己想想的完全不一样。先把代码贴出来！ //CanFight接口 interface Canfight { void fight(); } //ActionCharacter类 class ActionCharacter { public void fight() { System.out.pr
23种基本的设计模式 aijuans 设计模式
Abstract Factory：提供一个创建一系列相关或相互依赖对象的接口，而无需指定它们具体的类。　　Adapter：将一个类的接口转换成客户希望的另外一个接口。A d a p t e r模式使得原本由于接口不兼容而不能一起工作的那些类可以一起工作。　　Bridge：将抽象部分与它的实现部分分离，使它们都可以独立地变化。　　Builder：将一个复杂对象的构建与它的表示分离，使得同
《周鸿祎自述：我的互联网方法论》读书笔记 aoyouzi 读书笔记
从用户的角度来看,能解决问题的产品才是好产品,能方便/快速地解决问题的产品,就是一流产品. 商业模式不是赚钱模式一款产品免费获得海量用户后,它的边际成本趋于0,然后再通过广告或者增值服务的方式赚钱,实际上就是创造了新的价值链. 商业模式的基础是用户,木有用户,任何商业模式都是浮云.商业模式的核心是产品,本质是通过产品为用户创造价值. 商业模式还包括寻找需求
JavaScript动态改变样式访问技术百合不是茶 JavaScript style属性 ClassName属性
一:style属性格式: HTML元素.style.样式属性="值"; 创建菜单:在html标签中创建或者在head标签中用数组创建 <html> <head> <title>style改变样式</title> </head> &l
jQuery的deferred对象详解 bijian1013 jquery deferred对象
jQuery的开发速度很快，几乎每半年一个大版本，每两个月一个小版本。每个版本都会引入一些新功能，从jQuery 1.5.0版本开始引入的一个新功能----deferred对象。 &nb
淘宝开放平台TOP Bill_chen C++c 物流 C#
淘宝网开放平台首页：http://open.taobao.com/ 淘宝开放平台是淘宝TOP团队的产品，TOP即TaoBao Open Platform，是淘宝合作伙伴开发、发布、交易其服务的平台。支撑TOP的三条主线为： 1.开放数据和业务流程 * 以API数据形式开放商品、交易、物流等业务； &
【大型网站架构一】大型网站架构概述 bit1129 网站架构
大型互联网特点面对海量用户、海量数据大型互联网架构的关键指标高并发高性能高可用高可扩展性线性伸缩性安全性大型互联网技术要点前端优化 CDN缓存反向代理 KV缓存消息系统分布式存储 NoSQL数据库搜索监控安全想到的问题： 1.对于订单系统这种事务型系统，如
eclipse插件hibernate tools安装白糖_ Hibernate
eclipse helios(3.6)版 1.启动eclipse 2.选择 Help > Install New Software...> 3.添加如下地址： http://download.jboss.org/jbosstools/updates/stable/helios/ 4.选择性安装：hibernate tools在All Jboss tool
Jquery easyui Form表单提交注意事项 bozch jquery easyui
jquery easyui对表单的提交进行了封装，提交的方式采用的是ajax的方式，在开发的时候应该注意的事项如下： 1、在定义form标签的时候，要将method属性设置成post或者get，特别是进行大字段的文本信息提交的时候，要将method设置成post方式提交，否则页面会抛出跨域访问等异常。所以这个要
Trie tree(字典树)的Java实现及其应用-统计以某字符串为前缀的单词的数量 bylijinnan java实现
import java.util.LinkedList; public class CaseInsensitiveTrie { /** 字典树的Java实现。实现了插入、查询以及深度优先遍历。 Trie tree's java implementation.(Insert,Search,DFS) Problem Description Igna
html css 鼠标形状样式汇总 chenbowen00 html css
css鼠标手型cursor中hand与pointer Example：CSS鼠标手型效果 <a href="#" style="cursor:hand">CSS鼠标手型效果</a><br/> Example：CSS鼠标手型效果 <a href="#" style=&qu
[IT与投资]IT投资的几个原则 comsci it
无论是想在电商,软件,硬件还是互联网领域投资,都需要大量资金,虽然各个国家政府在媒体上都给予大家承诺,既要让市场的流动性宽松,又要保持经济的高速增长....但是,事实上,整个市场和社会对于真正的资金投入是非常渴望的,也就是说,表面上看起来,市场很活跃,但是投入的资金并不是很充足的......
oracle with语句详解 daizj oracle with with as
oracle with语句详解转在oracle中，select 查询语句，可以使用with,就是一个子查询，oracle 会把子查询的结果放到临时表中，可以反复使用例子:注意，这是sql语句，不是pl/sql语句，可以直接放到jdbc执行的 ----------------------------------------------------------------
hbase的简单操作 deng520159 数据库 hbase
近期公司用hbase来存储日志,然后再来分析 ,把hbase开发经常要用的命令找了出来. 用ssh登陆安装hbase那台linux后用hbase shell进行hbase命令控制台! 表的管理 1）查看有哪些表 hbase(main)> list 2）创建表 # 语法：create <table>, {NAME => <family&g
C语言scanf继续学习、算术运算符学习和逻辑运算符 dcj3sjt126com c
/* 2013年3月11日20:37:32 地点：北京潘家园功能：完成用户格式化输入多个值目的：学习scanf函数的使用 */ # include <stdio.h> int main(void) { int i, j, k; printf("please input three number:\n"); //提示用
2015越来越好 dcj3sjt126com 歌曲
越来越好房子大了电话小了感觉越来越好假期多了收入高了工作越来越好商品精了价格活了心情越来越好天更蓝了水更清了环境越来越好活得有奔头人会步步高想做到你要努力去做到幸福的笑容天天挂眉梢越来越好婆媳和了家庭暖了生活越来越好孩子高了懂事多了学习越来越好朋友多了心相通了大家越来越好道路宽了心气顺了日子越来越好活的有精神人就不显
java.sql.SQLException: Value '0000-00-00' can not be represented as java.sql.Tim feiteyizu mysql
数据表中有记录的time字段（属性为timestamp）其值为：“0000-00-00 00:00:00” 程序使用select 语句从中取数据时出现以下异常： java.sql.SQLException:Value '0000-00-00' can not be represented as java.sql.Date java.sql.SQLException: Valu
Ehcache（07）——Ehcache对并发的支持 234390216 并发 ehcache 锁 ReadLock WriteLock
Ehcache对并发的支持在高并发的情况下，使用Ehcache缓存时，由于并发的读与写，我们读的数据有可能是错误的，我们写的数据也有可能意外的被覆盖。所幸的是Ehcache为我们提供了针对于缓存元素Key的Read（读）、Write（写）锁。当一个线程获取了某一Key的Read锁之后，其它线程获取针对于同
mysql中blob,text字段的合成索引 jackyrong mysql
在mysql中，原来有一个叫合成索引的，可以提高blob,text字段的效率性能，但只能用在精确查询，核心是增加一个列，然后可以用md5进行散列，用散列值查找则速度快比如： create table abc(id varchar(10),context blog,hash_value varchar(40)); insert into abc(1,rep
逻辑运算与移位运算 latty 位运算逻辑运算
源码：正数的补码与原码相同例+7 源码：00000111 补码：00000111 （用8位二进制表示一个数）负数的补码：符号位为1，其余位为该数绝对值的原码按位取反；然后整个数加1。 -7 源码： 10000111 ，其绝对值为00000111 取反加一：11111001 为-7补码已知一个数的补码，求原码的操作分两种情况：
利用XSD 验证XML文件 newerdragon java xml xsd
XSD文件（XML Schema 语言也称作 XML Schema 定义（XML Schema Definition，XSD）。具体使用方法和定义请参看： http://www.w3school.com.cn/schema/index.asp java自jdk1.5以上新增了SchemaFactory类可以实现对XSD验证的支持，使用起来也很方便。以下代码可用在J
搭建 CentOS 6 服务器(12) - Samba rensanning centos
（1）安装 # yum -y install samba Installed: samba.i686 0:3.6.9-169.el6_5 # pdbedit -a rensn new password:123456 retype new password:123456 …… （2）Home文件夹 # mkdir /etc
Learn Nodejs 01 toknowme nodejs
（1）下载nodejs https://nodejs.org/download/ 选择相应的版本进行下载（2）安装nodejs 安装的方式比较多，请baidu下我这边下载的是“node-v0.12.7-linux-x64.tar.gz”这个版本（1）上传服务器（2）解压 tar -zxvf node-v0.12.
jquery控制自动刷新的代码举例 xp9802 jquery
1、html内容部分复制代码代码示例: <div id='log_reload'> <select name="id_s" size="1"> <option value='2'>-2s-</option> <option value='3'>-3s-</option