Juicedata

网易互娱出海之旅：大数据平台上云架构设计与实践

2020 年初，随着网易互娱的海外业务增长与海外数据合规的需求，我们开始了网易互娱大数据离线计算平台迁移出海的工作。前期，我们采取了云主机裸机加上高性能 EBS 块存储的方案。但是，这个方案存储费用高昂，成本是国内自建机房的数十倍。

于是，我们决定在公有云上构建一个平台，这个平台不仅需要更加适应当前业务场景、与历史业务更为兼容，还要比公有云的 EMR 托管方案更为经济。我们主要从存储、计算和数据分层生命周期管理三方面进行了成本优化，具体的优化方案将在下文为大家详细介绍。

最终，这个项目给下游数据业务和分析部门提供了完整 Hadoop 的兼容性，避免了所有业务逻辑推倒重来；给游戏数据业务出海节省了大量成本，存储成本为优化前的 50%，算力总成本为优化前的 40%，冷数据成本为优化后线上存储成本的 33%。未来随着业务量的增加，成本节约按 10 倍比例节约相应的费用，为出海后的数据化运营等提供有力支持。

01. 大数据平台海外上云方案设计

在 2020 年，我们开始了一项紧急的出海任务。在国内，我们的业务一直以自建集群的方式进行部署和运行。为了在海外能够快速上线，我们紧急上线了一个与国内集群完全相同的解决方案，采用了物理节点构建的一套存算一体的系统。我们选用了裸金属服务器 M5.metal，并使用 EBS gp3 作为存储。

这套方案的缺点是成本非常高昂，但是它的好处是解决了一个非常痛苦的问题，即我们需要兼容所有历史业务，确保所有历史业务能够快速、立即地在海外运行。我们的上下游业务可以无缝迁移到海外，并支持每天接近30万个作业的调度。

但是，成本一直是一个不能忽视的问题。因此，我们需要重新选择方案，以获得性能更优、成本更低的解决方案，并确保兼容性。根据业务需求和大数据场景的特点，我们从以下几个方向评估如何进行方案选择：

以时间/空间换性能；
基于业务场景的实现部署优化；
加入中间件实现兼容性的整合；
充分利用云资源的特性优化成本。

Hadoop 上云

一般 Hadoop 上云有下面两种方案，EMR+EMRFS、Dataproc+GCS。这两种方案就是一个正常出海的姿势。或者使用一些云原生的平台，例如 BigQuery、Snowflake，Redshift 等做数据查询方案，但是我们没有去用这些方案。

为什么没有使用 EMR

因为我们所有的业务都非常依赖 Hadoop，我们目前使用的 Hadoop 版本是根据业务需求定制的内部版本，并实现了各种新版本功能向下兼容，有很多内部的需求和优化在 EMR 的 Hadoop 版本未能覆盖。至于云原生的 BigQuery 等方案对业务来说，是一个改动更大更遥远的方向。

为什么没有直接使用 S3 存储

由于对数据业务安全的高需求导致我们有复杂的业务权限设计，远超亚马逊 IAM（Identity and Access Management）ROLE 能够实现的上限。
S3 的性能受限，需要分桶和随机目录等优化措施，对业务使用不透明，调整目录 prefix 去适配 S3 分区或使用更多的桶的方案都需要业务调整已有的使用方法，无法适配我们目前的目录设计。另外，作为对象存储实现的文件系统，直接对 S3 的目录进行 list 和 du 等操作在超大文件数据情况下，基本上是不可用的，但是这又恰好是大数据场景下大量使用的操作。

存储选型：HDFS vs 对象存储 vs JuiceFS

我们主要从以下这些维度来评估存储组件。

业务兼容性：对于我们这种拥有大量存量业务需要出海的情况，兼容性是一个非常关键的考虑因素。其次，降本增效不仅仅指降低存储成本，还包括资源成本和人力成本的考虑。兼容性方面，JuiceFS 社区版兼容 Hadoop 生态，但需要在用户端部署 JuiceFS Hadoop SDK。

一致性：在当时，我们对 S3 进行了调研，但在 2020 年第一季度之前，并没有实现强一致性，而目前也并非所有平台都能做到强一致性。

容量管理：对于我们当前自建的集群，有一个重要的问题是需要预留资源。也就是说，我们不可能使用到 100% 的资源，因此按需使用是一个非常节省成本的方向。

性能：基于 HDFS 可以达到我们国内自建的 HDFS 的性能水平。我们国内提供给业务的 SLA 是在单集群下 4 万 QPS 的情况下，能够实现 p90 在 10 毫秒以内的 RPC 性能。但是对于类似 S3 的情况，实现这样的性能非常困难。

权限认证：在自建集群中，使用 Kerberos 和 Ranger 做认证和权限管理。但 S3 当时并不支持。JuiceFS 社区版本同样也不支持。

数据可靠性：HDFS 使用三副本来确保数据可靠性。当时我们测试时 JuiceFS 元数据引擎使用的是 Redis。我们发现，在高可用模式下，如果发生主节点切换，存储会出现卡顿，这对我们来说是很难接受的。所以我们采用在每台机器上独立部署 Redis 元数据服务的方式，细节将在下文展开。

成本：块设备这样的方案成本很高。我们的目标是要使用 S3，如果每个人都只使用 S3，成本当然是最低的。如果使用 JuiceFS，后面的架构会有一定的额外成本，因此我们后面会解释为什么它的成本不是最低的。

02. Hadoop 海外多云迁移方案

存储层存算分离: Hadoop+JuiceFS+S3

JuiceFS 与 Hadoop 的结合可以降低业务的兼容的成本，快速实现已有的业务出海。许多用户在使用 JuiceFS 方案时，是通过 SDK 加上 Hadoop 开源版本来实现的。但这样使用会有一个权限认证的问题，JuiceFS 社区版不支持 Ranger 和 Kerberos 的权限认证。因此，我们还是使用了 Hadoop 的整个框架。维护成本看上去很高，但在国内我们有一套自建的组件在维护着，所以对我们来说差不多没有成本。如下图所示，我们使用 Fuse 将 JuiceFS 挂载到 Hadoop，再使用 S3 存储。

先简单对比我们与基于 EBS 自建单集群的性能。

在 4 万 QPS 的情况下可以达到 p90 10ms；
单节点能够承受 30000 IOPS。

一开始我们上云时采用了 HDD 模式，具体来说就是 st1 存储类型。但很快我们发现，当节点数量较少时，实际的 IOPS 远远不能满足我们的要求。因此，我们决定将所有的st1存储类型全部升级到 gp3。

每块 gp3 默认提供大约 3000 个 IOPS。为了提升性能，我们挂载了 10 块 gp3 存储卷，总共实现了 30000 IOPS 的性能。这个改进让我们的系统可以更好地满足 IOPS 的需求，不再受限于节点数量较少时的性能瓶颈。gp3 的高性能和灵活性使得它成为我们解决 IOPS 问题的理想选择。

每个节点目前的默认带宽是 10Gb。但是不同的机型带宽也有所不同。我们取了一个基准，即 30000 个 IOPS 单节点，带宽为 10Gb。我们的目标是要能够整合我们的 S3 存储，即在高性能的同时也要考虑存储的成本，数据最终会落在 S3 上面。

而最重要的是要兼容 Hadoop 访问，也就是所有的业务其实都不需要做任何修改，可以直接上云解决兼容性问题。对于一些历史业务来说，它可能有一定的业务价值，但是我们要评估业务的改造成本和平台兼容的成本，在我们场景业务中重构所有历史业务的人力成本当前是大于平台兼容成本，而且不可能短时间完成。

我们对 JuiceFS 的挂载方式与官网可能有所不同。我们在每台机器上都部署了本地的 JuiceFS 和 Redis（如下图所示）。这样做是为了最大化 JuiceFS 的性能，并将本地元数据的损耗降到最低。我们曾尝试过使用 Redis 集群和 TiDB 集群，但发现元数据性能差了好几个数量级。因此，我们一开始就决定采用本地的部署方式。

另一个好处是我们的系统与 DNO（Data Node Object）绑定。我们可以控制每个 DNO 的文件数量，即单个节点的文件数量，使其稳定在一个合理的水平范围内。例如，我们一个 DNO 大约有 3 百万到 8 百万个元数据文件的上限，所以元数据单节点大约为 20GB。这样，我们不需要过于关注其膨胀情况，将一个大规模的分布式 Redis 需求转化为单节点元数据可控的 Redis 需求。但稳定性也是一个问题，如果单节点出现稳定性问题，我们就会面临丢失的风险。

为了解决单节点的宕机问题，我们与 DNO 进行了绑定，并利用了 HDFS 多副本机制，在我们集群有两种副本模式，一种是三副本，一种是 EC（Erasure Coding）副本。不同模式下，都通过副本的机制实现数据的高可靠性：在多副本的部署方案下，即使某个节点完全挂掉，我们也可以直接剔除它，而不影响整体运行和数据的可靠性。

在实践中，将单节点部署在本地，同时使用 JuiceFS 和单节点 Redis，是能够获得最佳性能的方式。因为我们需要与 HDFS 和 EBS 方案的性能进行对标。

我们通过基于 HDFS 的分布式水平扩展和 JuiceFS 的缓存与读写策略优化，实现了高性能的 HDFS。优化部分如下：

使用 JuiceFS 替换 gp3 的目录，以一块小的 gp3 存储作为 JuiceFS 的缓存目录，实现了 IOPS 对齐 gp3 的水平；
通过优化 JuiceFS 缓存机制，定制的异步删除，异步合并上传，S3 目录 TPS 预置等优化减少落到 S3 的情况，低成本存储的 S3 替换 gp3；
基于 HDFS 集群的分布式实现节点水平扩展；
利用 Hadoop 异构存储的特性，根据业务特性拆解 IO，以优化性能和成本。我们将 HDFS 存储拆分为两个部分，“DISK” 和 “SSD”。“SSD” 存储类型对应的是使用 JuiceFS 的 EBS 缓存与 S3 整合的混合存储。“DISK” 存储类型被配置为写入 DN 的 EBS 存储的目录。在那些会频繁覆写的目录，例如 Stage 目录，我们会将这些目录设置成使用 DISK 进行存储。EBS 存储更适合频繁擦写，对比 S3 的少了额外 OP 费用，而且这些目录对存储的总量要求是可控的，因此这个场景我们保留了一小部分 EBS 存储。

计算层：Spot 节点与按需节点混合部署方案

首先，当我们将国内自建的 YARN 集群迁移到云上时，它无法适应云上的资源特性以实现成本优化。因此，我们基于 YARN 的智能动态伸缩方案与标签调度相结合，同时采用 Spot 节点与按需节点混合部署方案，来优化计算资源的使用。

调整调度器策略为容量调度 (CapacityScheduler)；
划分按需节点分区和 Spot 节点分区；
调整有状态的节点到按需节点的分区，让不同状态的任务跑在不同的区域；
使用按需节点兜底；
回收通知与 GracefulStop，当抢占节点在回收之前会提前收到回收的通知，调用与 6. GracefulStop 停止业务，避免与用户作业直接失败；

Spark+RSS，减少当节点回收的时候，数据本来在动态节点上面从而去导致要重算作业的概率。

基于我们的业务需求去做了一些动态智能伸缩的方案。和原生方案对比，我们更关注的方向是：基于业务的状态去做动态伸缩，因为云厂商不可能知道业务的热点时间。
基于内部运维工具 Smarttool 的周期性预测，实现智能伸缩。我们取前三周的一个历史数据，去做一次简单的拟合，然后通过 Smarttool 预置的算法得到拟合残差序列 resid，以及预测值 ymean。通过这个工具预测某一天某个时间点它的资源使用应该是什么样子，然后去实现动态伸缩容。
基于时间规则的定时伸缩，例如针对特定时间做预伸缩：每月 1 号的月报表生成时间、大促等特定的时间做提前的容量预置。
基于使用率的动态伸缩，使用容量在一定时间内大于阈值上限，或小于阈值的下限，会触发自动扩容和缩容，实现非预期的用量需求兜底。尽量保障我们的业务在云上面是能够得到一个稳定的，但是成本相对比较低的，计算资源的方案。

生命周期管理：数据分层，实现存储成本优化

我们实际上是基于副本机制将 JuiceFS 和 S3 整合的数据可靠性。不论是三副本还是 1.5 副本的 EC，都会有额外的存储支出成本，但是我们考虑到一些数据热度的情况，一旦数据过了一定的生命周期，其对 IO 的需求可能不再那么高。因此，我们引入了一层 Alluxio+S3 的单副本层，来处理这些数据。但是需要注意，如果不改变目录架构，这一层的性能其实比使用 JuiceFS 要差很多。尽管如此，在冷数据的场景下我们仍然可以接受这样的性能。

因此，我们自主开发了一个数据治理和组织分层的服务，通过对数据进行异步处理，实现了对不同生命周期数据的管理和成本优化。我们称这个服务为数据生命周期管理工具 BTS。

BTS 的设计基于我们的文件数据库、元数据以及审计日志数据，通过对表格及其热度的管理，来实现数据生命周期管理。用户可以使用上层的 DAYU Rulemanager 自定义规则以及使用数据的热度来生成规则。这些规则指定哪些数据被视为冷数据，哪些数据被视为热数据。

根据这些规则，我们会对数据执行压缩、合并、转换、归档、或删除等不同的生命周期管理操作，并将它们分发到调度器去执行。数据生命周期管理工具 BTS 提供了以下能力:

数据重组织，将小文件合并为大文件，优化 EC 存储的效率和 namenode 压力；
表存储和压缩方式的转换：异步将表从 Text 存储格式转换为 ORC 或 Parquet 存储格式，并将压缩方式从 None 或 Snappy 转换为 ZSTD，可以提高存储和性能效率。BTS 支持按分区进行异步表转换；
异构数据迁移，将数据异步在不同架构的存储之间迁移，为数据分层提供组织能力。

存储分层架构我们简单地分为三层：

性能最好的是 HDFS on JuiceFS（热)，3 副本；
其次是 HDFS on JuiceFS EC 的模式（温热）1.5 副本；
再次是 Alluxio on S3（低频冷数据）1 副本；
在所有数据消亡之前，它们都会被归档到 Alluxio on S3 并变为单副本。

目前，数据生命周期治理效果如下：

60%冷, 30%温热， 10%热；
平均的副本数 (70% * 1 + 20% * 1.5 + 10% * 3) = 1.3 在归档这样对性能要求不高的场景，我们能够实现约 70%的数据。使用 EC 副本时，大约 20% 的数据，而使用三副本时约为 10%的。我们整体上控制了副本的数量，平均副本数维持在约 1.3 个。

03. 出海新架构的上线效果：性能与成本

在测试中，JuiceFS 在大文件的读写方面能够达到相当高的带宽。特别是在多线程模型下，大文件读取的带宽接近客户端的网卡带宽上限。

在小文件场景下，随机写入的 IOPS 性能较好（得益于 gp3 磁盘作为缓存），而随机读的 IOPS 性能相比之下较低，大约差了 5 倍。

EBS 方案与 JuiceFS+S3 方案在业务实测的对比，测试用例为我们生产环境下的业务 SQL，可以看出 JuiceFS + S3 基本与 EBS 差别不大，部分 SQL 甚至更优。所以 JuiceFS + S3 能够替换掉全量 EBS 。

使用基于JuiceFS 的 S3+EBS 混合分层的存算分离方案替换原来的 EBS 方案，通过数据治理和数据分层，从原来的 Hadoop 三副本的机制下降到平均 1.3 个副本，节省 55% 的多副本成本，整体存储成本下降 72.5%。

通过智能动态伸缩实现了 85% 集群使用率和使用 95% 的 Spot 实例替换了按需节点，总体计算成本对比优化前优化超过 80%

04. 总结与展望：迈向云原生

相比原生的 JuiceFS 方案，Hadoop+JuiceFS 使用额外的副本实现了储性能优化和实现兼容性与高可用的支持。DN 只写一个副本的方案，依赖 JuiceFS 在可靠性上的迭代优化。

虽然已经在不同云上实现一套多云兼容、对比 EMR 更好的方案，但是对于混合多云和云原生的方案还需要更多的迭代。

对于未来大数据云原生场景的展望，目前我们采取的解决方案并非终极版本，而是一个过渡性方案，旨在解决兼容性和成本问题。未来，我们计划采取以下措施：

推进业务向更云原生的方案迁移，实现 Hadoop 环境的解耦，并将数据湖和云上计算紧密结合在一体。
推动更高层次的混合多云计算和混合存储方案，实现真正的整合，而不仅仅是现在的兼容性。这将为上层业务部门带来更多的价值和灵活性。

希望这篇内容能够对你有一些帮助，如果有其他疑问欢迎加入 JuiceFS 社区与大家共同交流。

基于django+Spark+大数据+爬虫技术的国漫推荐与可视化平台设计和实现(源码+论文+部署讲解等) 阿勇学长大数据项目实战案例 Java精品毕业设计实例 Python数据可视化项目案例大数据 django spark 国漫推荐与可视化平台毕业设计 Java
博主介绍：✌全网粉丝50W+,csdn特邀作者、博客专家、CSDN新星计划导师、Java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和学生毕业项目实战,高校老师/讲师/同行前辈交流✌技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习等
机器学习在智能供应链中的应用：需求预测与库存优化 Blossom.118 机器学习与人工智能机器学习人工智能机器人深度学习 python 神经网络 sklearn
在当今全球化的商业环境中，供应链管理的效率和灵活性对于企业的竞争力至关重要。智能供应链通过整合先进的信息技术，如物联网（IoT）、大数据和机器学习，能够实现从原材料采购到产品交付的全流程优化。机器学习技术在智能供应链中的应用尤为突出，尤其是在需求预测和库存优化方面。本文将探讨机器学习在智能供应链中的应用，并分析其带来的机遇和挑战。一、智能供应链中的需求预测准确的需求预测是供应链管理的核心。需求预测
基于SpringBoot律师事务所案件管理系统的设计与实现一点教程 Java项目 spring boot 后端 java spring 律师事务所案件管理系统
博主主页：一点教程博主简介：专注Java技术领域和毕业设计项目实战、Java微信小程序、安卓等技术开发，远程调试部署、代码讲解、文档指导、ppt制作等技术指导。主要内容：毕业设计，SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Python、Nodejs、小程序、安卓app、大数据等设计与开发感兴趣的可以先收藏起来，还有大家在毕设选题，项目以及论文编写等相关问题都可以和博主沟通，希
人脸识别常用数据集和Loss JL_Jessie 人脸识别深度学习
人脸识别数据集数据集的noise对训练效果的影响很大！很长一段时间MegaFace的效果都上不去，就是因为数据集噪声的原因。而且自己在训练人脸的时候，如果不对数据集的噪声和属性有一点了解，对训练结果可能会有误判，甚至越训练越差…在选择数据集的时候不要一味求大，有的时候选择一个noise比例极高的大数据集，效果还不如选择一个clean的小数据集呢，可以参见这篇论文TheDevilofFaceReco
凌晨の3点，线程池竟在服务器里偷偷···· 山海上的风 Java 服务器 java-ee 线程池
凌晨の3点，线程池の竟在服务器里偷偷榨干CPU····⚡️CPU：JAVAKing为窝发声,HELPME⚡️JAVAKING今天将揭露线程池的罪恶行为⚡️《线程池：OH,YES》线程池到底对项目做了什么想象一下：每次点外卖都新雇一个厨师‍，吃完就开除——这就是裸奔线程的日常！在高并发三巨头（电商秒杀、金融交易、大数据处理）中：1️⃣CPU哭诉：90%时间在面试线程，10%干活（线程切换开销）2️⃣
探索Kafka监控新维度：Burrow深度解析孙爽知Kody
探索Kafka监控新维度：Burrow深度解析BurrowKafkaConsumerLagChecking项目地址:https://gitcode.com/gh_mirrors/bu/Burrow项目介绍在大数据领域，ApacheKafka作为实时数据流处理的领军者，其稳定性和性能备受赞誉。然而，对于消费者端的监控始终是一个挑战。这时，LinkedIn开源的Burrow应运而生，它是一款专为Kaf
说说自己Python 代码优化实践 chilavert318 大数据 linux 运维 python
今年上半年在外省做一个大数据相关的项目，在review项目组成员的代码时，发现一段处理大数据集的模块存在明显性能瓶颈：10万条数据的清洗流程耗时近20分钟，CPU占用率却始终在30%以下。深入分析后发现，看似简洁的Python代码背后，隐藏着诸多可以优化的细节——这并非个例，我们的程序在追求代码可读性时，往往忽略了Python特有的性能陷阱。今天抽点时间，从我实践中的代码就python开发，从内存
基于python的公众号文章爬取思路（总结版）大数据小学僧 python 开发语言爬虫微信公众平台
目录一、技术方案分类1.接口直连模式（推荐）2.网页解析模式3.第三方API模式二、核心技术栈三、爬虫实现步骤1.接口直连模式（微信公众平台API）2.网页解析模式（搜狗微信搜索）3.第三方API模式（如清博大数据）四、可视化界面实现五、数据存储方案六、高级技巧七、注意事项八、推荐工具链一、技术方案分类1.接口直连模式（推荐）2.网页解析模式3.第三方API模式二、核心技术栈三、爬虫实现步骤1.接
TDengine 运维全攻略：五种备份与恢复方法深度解析（2025 最新版） TDengine （老段） TDengine 运维 tdengine 运维大数据涛思数据物联网时序数据库数据库
备份与还原是数据库运维的核心环节，TDengine提供了五种主流数据备份方法，覆盖不同场景需求。本文将详细解析各方法的特性与操作要点。1.taosdump介绍taosdump是TDengine社区版首选的数据备份工具（企业版同样支持），其核心特点是操作简便、支持多线程处理，且备份文件采用ApacheAvro格式（大数据领域通用数据交换格式），便于向其他系统共享数据。工具支持跨平台连接远程服务器执行
Flink项目基础配置指南 Edingbrugh.南空 flink 大数据 flink 大数据
在大数据处理领域，ApacheFlink凭借强大的实时流处理和批处理能力，成为众多开发者的首选工具。在日常工作中，开发FlinkJar任务是常见需求，但每次都需重复配置日志、梳理pom依赖、设置打包插件等，流程繁琐且易出错。为提升开发效率，减少重复劳动，将这些基础配置进行整理归纳十分必要。本文将围绕Flink项目的本地日志配置、pom依赖及插件配置展开详细介绍，为开发者提供一套可直接复用的基础配置
大数据智能风控核心：模型 johnny233 读书笔记大数据
概述模型线性判别分析方法，SirRonaldFisher最早提出模型评分的概念。个人FICO模型信用分。巴塞尔委员会发布巴塞尔Ⅱ协议，推出内部评级法（InternalRatingBasedApproach，IRB）。IRB综合考虑客户评级和债项评级，通过违约概率(ProbabilityofDefault,PD)、违约损失率(LossGivenDefault,LGD)、违约风险暴露(Exposure
Python爬虫实战：研究Bleach库相关技术 ylfhpy 爬虫项目实战 python 爬虫 php 开发语言 Bleach
1.引言在大数据时代，网络内容采集已成为信息获取的重要手段。Python凭借其丰富的爬虫库（如Requests、Scrapy）和灵活的数据处理能力，成为网页爬虫开发的首选语言。然而，从互联网获取的内容往往包含恶意脚本、不安全标签等安全隐患，直接使用可能导致XSS(跨站脚本攻击)、数据泄露等风险。Bleach作为专业的HTML净化库，通过白名单机制提供了可靠的内容安全过滤方案。本文将结合实际案例，详
Python爬虫实战：研究untangle库相关技术 ylfhpy 爬虫项目实战 python 爬虫 php 开发语言 untangle
1.引言在大数据时代，网络数据已成为重要的信息资源。XML和HTML作为互联网上最常用的数据表示格式，广泛应用于API接口、网站结构和数据交换等场景。Python凭借其丰富的爬虫库（如Requests、Scrapy）和灵活的数据处理能力，成为网络数据采集的首选语言。然而，从复杂的XML/HTML文档中提取结构化数据仍然面临诸多挑战，如文档结构多样性、动态内容渲染和数据格式转换等问题。Untangl
【头歌】MapReduce基础实战答案 Seven_Two2 头歌大数据实验答案 c#开发语言
本专栏已收集大数据所有答案第1关：成绩统计编程要求使用MapReduce计算班级每个学生的最好成绩，输入文件路径为/user/test/input，请将计算后的结果输出到/user/test/output/目录下。答案：需要先在命令行启动HDFS#命令行start-dfs.sh再在代码文件中写入以下代码#代码文件importjava.io.IOException;importjava.util.S
电力行业 | 抽水蓄能场景下，百万测点数据如何统一采集与接入？ DolphinDB智臾科技物联网 dolphindb 数据库抽水蓄能电力数据采集数据接入
在电力行业，抽水蓄能是目前最成熟、已经大规模化应用、兼顾发电和储能的一项技术。为了保障电站的平稳运行，借助物联网、大数据等技术，对电站各类运行设备进行实时采集，如机组振动、油压波动、瓦温变化等生产监测数据，已成为电站稳定运维的重要技术手段。在之前的文章储能业|低成本部署！DolphinDB打造抽水蓄能一体化解决方案-CSDN博客中，我们介绍了DolphinDB在抽水蓄能场景中的全链路解决方案。今天
SQLite 数据库在大数据分析中的应用潜力数据库管理艺术数据库 sqlite 数据分析 ai
SQLite数据库在大数据分析中的应用潜力关键词：SQLite、大数据分析、轻量级数据库、嵌入式数据库、数据仓库、OLAP、性能优化摘要：本文深入探讨了SQLite这一轻量级嵌入式数据库在大数据分析领域的应用潜力。我们将从SQLite的核心架构出发，分析其在大数据场景下的优势和限制，并通过实际案例展示如何通过优化策略和扩展技术使SQLite能够处理大规模数据集。文章包含性能对比测试、优化技巧和实际
利用大数据领域Doris提升企业数据决策效率大数据洞察大数据网络 ai
利用大数据领域Doris提升企业数据决策效率关键词：大数据、Doris、企业数据决策、数据处理、效率提升摘要：本文围绕利用大数据领域的Doris来提升企业数据决策效率展开。首先介绍了背景，包括目的、预期读者、文档结构和相关术语。接着阐述了Doris的核心概念、架构以及与其他系统的联系。详细讲解了Doris的核心算法原理和具体操作步骤，并给出Python代码示例。同时介绍了相关的数学模型和公式。通过
Tair向量数据库：阿里云原生内存数据库服务的高性能向量检索解决方案 mmlihaio 数据库云原生 python
Tair向量数据库：阿里云原生内存数据库服务的高性能向量检索解决方案1.引言在当今的人工智能和大数据时代，高效的向量检索已成为许多应用场景的关键需求。Tair作为阿里云开发的云原生内存数据库服务，不仅提供了丰富的数据模型和企业级能力，还引入了基于非易失性内存(NVM)存储介质的持久内存优化实例。本文将深入探讨如何利用Tair向量数据库功能，实现高性能的向量存储和检索。2.Tair向量数据库概述Ta
解锁阿里云E-MapReduce：大数据处理的超能力秘籍云资源服务商阿里云云计算人工智能云原生
一、引言在数字化浪潮汹涌澎湃的当下，大数据已然成为推动各行业创新发展的核心驱动力。从电商平台精准的个性化推荐，到金融机构严密的风险评估，再到医疗领域高效的疾病预测，大数据的应用场景无处不在，深刻地改变着我们的生活与工作方式。在这片充满机遇与挑战的大数据领域中，阿里云E-MapReduce宛如一颗璀璨的明星，占据着举足轻重的地位。它凭借强大的大数据处理能力、卓越的性能表现以及丰富的功能特性，为企业和
大数据面试必备：Kafka性能优化 Producer与Consumer配置指南
Kafka面试题-在Kafka中，如何通过配置优化Producer和Consumer的性能?回答重点在Kafka中，通过优化Producer和Consumer的配置，可以显著提高性能。以下是一些关键配置项和策略：1、Producer端优化:batch.size：批处理大小。增大batch.size可以使Producer每次发送更多的消息，但要注意不能无限制增大，否则会导致内存占用过多。linger
图扑软件智慧云展厅，开启数字化展馆新模式智慧园区可视化 5g 人工智能大数据安全云计算
随着疫情的影响以及新兴技术的不断发展，展会的发展形式也逐渐从线下转向线上。通过“云”上启动、云端互动、双线共频的形式开展。通过应用大数据、人工智能、沉浸式交互等多重技术手段，构建数据共享、信息互通、精准匹配的高精度“云展厅”，突破时空壁垒限制。图扑软件运用HT强大的渲染功能，数字孪生“云展位”，1:1复现实际展厅内部独特的结构造型和建筑特色。也可以第一人称视角漫游，模拟用户在展厅内的参观场景，在保
vue大数据量列表渲染性能优化：虚拟滚动原理 Java小卷 Vue3开源组件实战 vue3 自定义Tree 虚拟滚动
前面咱完成了自定义JuanTree组件各种功能的实现。在数据量很大的情况下，我们讲了两种实现方式来提高渲染性能：前端分页和节点数据懒加载。前端分页小节：Vue3扁平化Tree组件的前端分页实现节点数据懒加载小节：ElementTreePlus版功能演示：数据懒加载关于扁平化结构Tree和嵌套结构Tree组件的渲染嵌套结构的Tree组件是一种递归渲染，性能上比起列表结构的v-for渲染比较一般。对于
redis的scan使用详解，结合spring使用详解黑皮爱学习 redis自学笔记 redis spring 数据库
Redis的SCAN命令是一种非阻塞的迭代器，用于逐步遍历数据库中的键，特别适合处理大数据库。下面详细介绍其使用方法及在Spring框架中的集成方式。SCAN命令基础SCAN命令的基本语法：SCANcursor[MATCHpattern][COUNTcount]cursor：迭代游标，初始为0，每次迭代返回新的游标值。MATCHpattern：可选，用于过滤键的模式（如user:*）。COUNTc
MongoDB 高性能应用场景与实践 AI自闭实验者 mongodb 数据库
```htmlMongoDB高性能应用场景与实践MongoDB高性能应用场景与实践随着大数据时代的到来，数据库作为数据存储和管理的核心工具，其性能和可扩展性显得尤为重要。在众多的数据库解决方案中，MongoDB凭借其灵活的数据模型、高性能和易于扩展的特点，在许多场景下成为开发者的首选。什么是MongoDB？MongoDB是一个开源的、面向文档的NoSQL数据库管理系统。它以JSON样式的文档存储数
缓存与加速技术实践-MongoDB数据库应用曼汐 . 数据库缓存 mongodb
一.什么是MongoDBMongoDB是一个文档型数据库，数据以类似JSON的文档形式存储。MongoDB的设计理念是为了应对大数据量、高性能和灵活性需求。MongoDB使用集合（Collections）来组织文档（Documents），每个文档都是由键值对组成的。数据库（Database）：存储数据的容器，类似于关系型数据库中的数据库。集合（Collection）：数据库中的一个集合，类似于关系
自学Java怎么入门 Java鼠鼠吖 java 开发语言
自学Java其实没有想象中那么难，只要找对方法，循序渐进地学习，很快就能上手。下面我结合自己的经验，给你整理一条清晰的学习路径，咱们一步步来。一、先了解Java能做什么在开始之前，建议你先看看Java都能用在哪些地方。比如开发企业级系统、Android应用、大数据处理等等。这样你就能明白为什么要学它，也更有动力。Java最大的特点就是"一次编写，到处运行"，这要归功于JVM虚拟机。二、准备好学习环
计算机毕业设计项目、管理系统、可视化大屏、大数据分析、协同过滤、推荐系统、SSM、SpringBoot、Spring、Mybatis、小程序项目编号1000-1499 lonzgzhouzhou spring 课程设计 spring boot
大家好，我是DeBug，很高兴你能来阅读！作为一名热爱编程的程序员，我希望通过这些教学笔记与大家分享我的编程经验和知识。在这里，我将会结合实际项目经验，分享编程技巧、最佳实践以及解决问题的方法。无论你是初学者还是有一定经验的程序员，我都希望能够为你提供有价值的内容，帮助你更好地理解编程世界。让我们一起探索编程的乐趣，一起成长，一起学习，谢谢你们的支持与关注！【源码咨询】可接Java程序设计，Bug
智能汽车图像及视频处理方案，支持视频智能包装创作能力美摄科技汽车
在这个日新月异的智能时代，每一帧画面都承载着超越想象的力量。随着自动驾驶技术的飞速发展，智能汽车不仅成为了未来出行的代名词，更是技术与艺术完美融合的典范。在这场变革的浪潮中，美摄科技以创新为翼，推出了领先的智能汽车图像及视频处理方案，为智能汽车行业带来了前所未有的视觉盛宴，重新定义了智能出行的视觉体验。一、智能重塑，视觉新境界美摄科技的智能汽车图像及视频处理方案，是基于深度学习、人工智能及大数据处
蜂鸟云平台大更新：地图空间定价重塑与功能全面升级蜂鸟视图fengmap 信息可视化蜂鸟云地图编辑器地图绘制工具室内外地图一体化智慧园区蜂鸟视图
1.引言随着云计算、大数据以及人工智能技术的快速发展，企业对云平台的需求日益增长。蜂鸟云平台作为一款创新性的地图服务平台，已逐渐成为众多企业、政府及科研机构的核心依赖。为了更好地满足用户需求，提高平台的市场竞争力，蜂鸟云平台定期进行功能更新与优化。2024年9月21日，蜂鸟云平台将在晚上20:00至24:00进行一轮重要的系统更新。本次更新的核心内容包括地图空间的重新定价与功能优化，涉及制图、微程
【笔记-软考】大数据架构-Lambda与Kappa架构对比我叫白小猿软考软考架构大数据 Kappa Lambda
Author：赵志乾Date：2024-07-28Declaration：AllRightReserved！！！1.简介大数据系统架构的设计思想很大程度受技术条件和思维模式的限制；Lambda架构在提出初期面向小范围业务，直接将成熟离线处理技术(Hadoop)和实时处理技术(Storm)相结合，用View模型将二者处理后得到的输出结果结合起来，在服务层进行统一后，再开放给上层服务，是相当可行且高效
[黑洞与暗粒子]没有光的世界 comsci
无论是相对论还是其它现代物理学,都显然有个缺陷,那就是必须有光才能够计算但是,我相信,在我们的世界和宇宙平面中,肯定存在没有光的世界.... 那么,在没有光的世界,光子和其它粒子的规律无法被应用和考察,那么以光速为核心的 &nbs
jQuery Lazy Load 图片延迟加载 aijuans jquery
基于 jQuery 的图片延迟加载插件，在用户滚动页面到图片之后才进行加载。对于有较多的图片的网页，使用图片延迟加载，能有效的提高页面加载速度。版本： jQuery v1.4.4+ jQuery Lazy Load v1.7.2 注意事项：需要真正实现图片延迟加载，必须将真实图片地址写在 data-original 属性中。若 src
使用Jodd的优点 Kai_Ge jodd
1. 简化和统一 controller ，抛弃 extends SimpleFormController ，统一使用 implements Controller 的方式。 2. 简化 JSP 页面的 bind, 不需要一个字段一个字段的绑定。 3. 对 bean 没有任何要求，可以使用任意的 bean 做为 formBean。使用方法简介
jpa Query转hibernate Query 120153216 Hibernate
public List<Map> getMapList(String hql, Map map) { org.hibernate.Query jpaQuery = entityManager.createQuery(hql); if (null != map) { for (String parameter : map.keySet()) { jp
Django_Python3添加MySQL/MariaDB支持 2002wmj mariaDB
现状首先，[email protected] 中默认的引擎为 django.db.backends.mysql 。但是在Python3中如果这样写的话，会发现 django.db.backends.mysql 依赖 MySQLdb[5] ，而 MySQLdb 又不兼容 Python3 于是要找一种新的方式来继续使用MySQL。 MySQL官方的方案首先据MySQL文档[3]说，自从MySQL
在SQLSERVER中查找消耗IO最多的SQL 357029540 SQL Server
返回做IO数目最多的50条语句以及它们的执行计划。 select top 50 (total_logical_reads/execution_count) as avg_logical_reads, (total_logical_writes/execution_count) as avg_logical_writes, (tot
spring UnChecked 异常官方定义！ 7454103 spring
如果你接触过spring的事物管理！那么你必须明白 spring的非捕获异常！即 unchecked 异常！因为 spring 默认这类异常事物自动回滚！！ public static boolean isCheckedException(Throwable ex) { return !(ex instanceof RuntimeExcep
mongoDB 入门指南、示例 adminjun java mongodb 操作
一、准备工作 1、下载mongoDB 下载地址：http://www.mongodb.org/downloads 选择合适你的版本相关文档：http://www.mongodb.org/display/DOCS/Tutorial 2、安装mongoDB A、不解压模式：将下载下来的mongoDB-xxx.zip打开，找到bin目录，运行mongod.exe就可以启动服务，默
CUDA 5 Release Candidate Now Available aijuans CUDA
The CUDA 5 Release Candidate is now available at http://developer.nvidia.com/<wbr></wbr>cuda/cuda-pre-production. Now applicable to a broader set of algorithms, CUDA 5 has advanced fe
Essential Studio for WinRT网格控件测评 Axiba JavaScript html5
Essential Studio for WinRT界面控件包含了商业平板应用程序开发中所需的所有控件，如市场上运行速度最快的grid 和chart、地图、RDL报表查看器、丰富的文本查看器及图表等等。同时，该控件还包含了一组独特的库，用于从WinRT应用程序中生成Excel、Word以及PDF格式的文件。此文将对其另外一个强大的控件——网格控件进行专门的测评详述。网格控件功能 1、
java 获取windows系统安装的证书或证书链 bewithme windows
有时需要获取windows系统安装的证书或证书链，比如说你要通过证书来创建java的密钥库。有关证书链的解释可以查看此处。 public static void main(String[] args) { SunMSCAPI providerMSCAPI = new SunMSCAPI(); S
NoSQL数据库之Redis数据库管理(set类型和zset类型) bijian1013 redis 数据库 NoSQL
4.sets类型 Set是集合，它是string类型的无序集合。set是通过hash table实现的，添加、删除和查找的复杂度都是O(1)。对集合我们可以取并集、交集、差集。通过这些操作我们可以实现sns中的好友推荐和blog的tag功能。 sadd：向名称为key的set中添加元
异常捕获何时用Exception，何时用Throwable bingyingao
用Exception的情况 try { //可能发生空指针、数组溢出等异常 } catch (Exception e) {
【Kafka四】Kakfa伪分布式安装 bit1129 kafka
在http://bit1129.iteye.com/blog/2174791一文中，实现了单Kafka服务器的安装，在Kafka中，每个Kafka服务器称为一个broker。本文简单介绍下，在单机环境下Kafka的伪分布式安装和测试验证 1. 安装步骤 Kafka伪分布式安装的思路跟Zookeeper的伪分布式安装思路完全一样，不过比Zookeeper稍微简单些(不
Project Euler bookjovi haskell
Project Euler是个数学问题求解网站，网站设计的很有意思，有很多problem，在未提交正确答案前不能查看problem的overview，也不能查看关于problem的discussion thread，只能看到现在problem已经被多少人解决了，人数越多往往代表问题越容易。看看problem 1吧： Add all the natural num
Java-Collections Framework学习与总结-ArrayDeque BrokenDreams Collections
表、栈和队列是三种基本的数据结构，前面总结的ArrayList和LinkedList可以作为任意一种数据结构来使用，当然由于实现方式的不同，操作的效率也会不同。这篇要看一下java.util.ArrayDeque。从命名上看
读《研磨设计模式》-代码笔记-装饰模式-Decorator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.io.BufferedOutputStream; import java.io.DataOutputStream; import java.io.FileOutputStream; import java.io.Fi
Maven学习(一) chenyu19891124 Maven私服
学习一门技术和工具总得花费一段时间，5月底6月初自己学习了一些工具，maven+Hudson+nexus的搭建，对于maven以前只是听说，顺便再自己的电脑上搭建了一个maven环境，但是完全不了解maven这一强大的构建工具，还有ant也是一个构建工具，但ant就没有maven那么的简单方便，其实简单点说maven是一个运用命令行就能完成构建，测试，打包，发布一系列功
[原创]JWFD工作流引擎设计----节点匹配搜索算法(用于初步解决条件异步汇聚问题) 补充 comsci 算法工作 PHP 搜索引擎嵌入式
本文主要介绍在JWFD工作流引擎设计中遇到的一个实际问题的解决方案，请参考我的博文"带条件选择的并行汇聚路由问题"中图例A2描述的情况(http://comsci.iteye.com/blog/339756),我现在把我对图例A2的一个解决方案公布出来，请大家多指点节点匹配搜索算法(用于解决标准对称流程图条件汇聚点运行控制参数的算法) 需要解决的问题：已知分支
Linux中用shell获取昨天、明天或多天前的日期 daizj linux shell 上几年昨天获取上几个月
在Linux中可以通过date命令获取昨天、明天、上个月、下个月、上一年和下一年 # 获取昨天 date -d 'yesterday' # 或 date -d 'last day' # 获取明天 date -d 'tomorrow' # 或 date -d 'next day' # 获取上个月 date -d 'last month' #
我所理解的云计算 dongwei_6688 云计算
在刚开始接触到一个概念时，人们往往都会去探寻这个概念的含义，以达到对其有一个感性的认知，在Wikipedia上关于“云计算”是这么定义的，它说： Cloud computing is a phrase used to describe a variety of computing co
YII CMenu配置 dcj3sjt126com yii
Adding id and class names to CMenu We use the id and htmlOptions to accomplish this. Watch. //in your view $this->widget('zii.widgets.CMenu', array( 'id'=>'myMenu', 'items'=>$this-&g
设计模式之静态代理与动态代理 come_for_dream 设计模式
静态代理与动态代理代理模式是java开发中用到的相对比较多的设计模式，其中的思想就是主业务和相关业务分离。所谓的代理设计就是指由一个代理主题来操作真实主题，真实主题执行具体的业务操作，而代理主题负责其他相关业务的处理。比如我们在进行删除操作的时候需要检验一下用户是否登陆，我们可以删除看成主业务，而把检验用户是否登陆看成其相关业务
【转】理解Javascript 系列 gcc2ge JavaScript
理解Javascript_13_执行模型详解摘要: 在《理解Javascript_12_执行模型浅析》一文中,我们初步的了解了执行上下文与作用域的概念，那么这一篇将深入分析执行上下文的构建过程，了解执行上下文、函数对象、作用域三者之间的关系。函数执行环境简单的代码:当调用say方法时，第一步是创建其执行环境，在创建执行环境的过程中，会按照定义的先后顺序完成一系列操作:1.首先会创建一个
Subsets II hcx2013 set
Given a collection of integers that might contain duplicates, nums, return all possible subsets. Note: Elements in a subset must be in non-descending order. The solution set must not conta
Spring4.1新特性——Spring缓存框架增强 jinnianshilongnian spring4
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
shell嵌套expect执行命令 liyonghui160com
一直都想把expect的操作写到bash脚本里,这样就不用我再写两个脚本来执行了,搞了一下午终于有点小成就,给大家看看吧. 系统:centos 5.x 1.先安装expect yum -y install expect 2.脚本内容: cat auto_svn.sh #!/bin/bash
Linux实用命令整理 pda158 linux
0. 基本命令　　linux 基本命令整理　　1. 压缩解压　　tar -zcvf a.tar.gz a #把a压缩成a.tar.gz 　　tar -zxvf a.tar.gz #把a.tar.gz解压成a 　　2. vim小结　　2.1 vim替换　　:m,ns/word_1/word_2/gc
独立开发人员通向成功的29个小贴士 shoothao 独立开发
概述：本文收集了关于独立开发人员通向成功需要注意的一些东西,对于具体的每个贴士的注解有兴趣的朋友可以查看下面标注的原文地址。明白你从事独立开发的原因和目的。保持坚持制定计划的好习惯。万事开头难，第一份订单是关键。培养多元化业务技能。提供卓越的服务和品质。谨小慎微。营销是必备技能。学会组织，有条理的工作才是最有效率的。 “独立
JAVA中堆栈和内存分配原理 uule java
1、栈、堆 1.寄存器：最快的存储区, 由编译器根据需求进行分配,我们在程序中无法控制.2. 栈：存放基本类型的变量数据和对象的引用，但对象本身不存放在栈中，而是存放在堆（new 出来的对象）或者常量池中（字符串常量对象存放在常量池中。）3. 堆：存放所有new出来的对象。4. 静态域：存放静态成员（static定义的）5. 常量池：存放字符串常量和基本类型常量（public static f