么么惠

记一次超万亿规模的hadoop NameNode性能故障排查过程

近日客户反馈录信数据库LSQL突然性能变差，之前秒级响应的数据查询与检索，现在却总是在“转圈”，卡住不动了。因为是突然发生的现象，现场先排除了业务变动，并未发现问题。作为数据库厂家，我立马奔赴现场，万亿级别大项目不敢小觑。

先来介绍一下该平台架构，底层采用hadoop进行分布式存储，中间数据库采用的录信lsql，数据实时导入采用kafka进行。每天的数据规模是500亿，数据存储周期为90天，一共有4000多张数据表，其中最大的单表数据规模近2万亿条记录，总数据规模将近5万亿，存储空间占8PB。

数据平台支撑的基本使用主要包括数据的全文检索、多维查询，以及地理位置检索、数据碰撞等操作。也会有部分业务会进行数据的统计和分析，会有极少量的数据导出与多表关联操作。

去之前信心满满

创业之前在腾讯做Hermes系统，每日接入的实时数据量就已经达到了3600亿/天，之后更是达到了每日近万亿条数据的实时导入。因为有了处理超大集群的经历，难免有些自负。面对当前每日500-1000亿规模的系统，完全没觉得自己会搞不定。

去之前跟现场要了一些日志和jstack，初步定位是hadoop NameNode的瓶颈，而NN的优化我们此前也做了很多次。所以自信满满出发，扬言一天搞定问题，两天必回，决不拖3.0版本开发日程的后腿。

下图为当时堆栈的分析情况，估计在座诸位看了都会信心满满，这很明显就是hadoop卡顿。

第一天：调整log4j---有效果但依然卡

我到现场后第一件事情就是不断的抓 hadoop Namenode的堆栈Jstack。从中得到的结论是问题确实是卡顿在NN上。此处NN是一个全局锁，所有的读写操作都在排序等待，详情如下图所示：

1.卡在哪里

这个锁的等待个数竟然长达1000多个，不卡才怪呢，我们再细看一下，当前拥有这个锁的线程在做什么？

2.问题分析

很明显，在记录log上存在瓶颈，阻塞的时间太久。

记录的log4j不应该加【%L】，它会创建Throwable对象，而这个在java里是一个重对象。
日志记录太频繁，刷盘刷不动。
log4j有全局锁，会影响吞吐量。

3.调整方案

客户的hadoop版本采用的是2.6.0版本，该版本的hadoop，在日志处理上存在诸多问题，故我们将官方明确表示存在问题的patch打了进来

https://issues.apache.org/jira/browse/HDFS-8245 因日志原因导致nn慢

https://issues.apache.org/jira/browse/HDFS-7503 将日志记录到锁外，避免卡锁

https://issues.apache.org/jira/browse/HDFS-7213 processIncrementalBlockReport 导致的记录日志问题，严重影响NN性能

禁用namenode所有info级别的日志

观察发现当有大量日志输出的时候，全局锁会阻塞NN。

目前修改方式是屏蔽到log4j的日志输出，禁用namenode所有info级别的日志。

log4j 的日志输出去掉【%L】参数

这个参数会为了得到行号而创建new Throwable对象，这个对象对性能影响很大，大量创建会影响吞吐量。

启用异步审计日志

dfs.namenode.audit.log.async 设置为true，将审计日志改为异步。

4.优化效果

优化之后，确实因log4j导致的卡顿问题不存在了，但hadoop的吞吐量依然卡，仍旧卡在lock上

第二天上午：优化du

1.在解决了log4j的问题后，继续抓jstack，抓到如下位置：

2.通过代码进行分析，发现确实此处有锁，证实此处会引起所有访问阻塞：

3.继续深入研读代码，发现受如下参数控制：

（2.6.5版本这个默认值是5000，已经不存在这个问题了）

这个参数的核心逻辑是，如果配置上大于零的值，它会间隔一定文件数量，释放锁，让别的程序得以继续执行，该问题只会在hadoop2.6.0的版本里存在，之后的版本里已经对此做了修复。

4.解决办法

打上官方patch https://issues.apache.org/jira/browse/HDFS-8046
lsql内部移除所有关于hadoop du的使用

5.为什么要打patch

2.6.5版本中，可以自己定义休眠时间，默认休眠时间为500ms，而2.6.0休眠时间为1ms,我担心太短，会出现问题。

第二天下午：解决所有能抓到的卡顿

继续按照原先思路，排查所有的jstack 。将所有涉及卡顿的地方都一一解决掉，至此hadoop通过jstack已经抓不到任何的活动线程，但是依然卡顿在读写锁的切换上，这说明：

1：namenode内部的每个函数已经最优，jstack基本抓不到了。

2：堆栈调用只能看到近1000个读写锁在不断切换，说明nn的请求并发非常高，多线程之间锁的上下文切换已经成为了主要瓶颈。

所以当下主要思路应该落在如何减少nn的调用频率上面。

第三天：想尽一切办法，减少nn的请求频率，熬到凌晨5点，黔驴技穷

1.启用录信数据库lsql的不同表不同分片功能

考虑到现场有4000多张表，每张表有1000多个并发写入分片，有可能是同时写入的文件数太多，导致的nn请求频率太高，故考虑将那些小表，进行分片合并，写入的文件数量少了，请求频率自然而然就降低了。

2.与现场人员配合，清理不必要的数据，减少hadoop集群的压力。清理后hadoop集群的文件块数由将近2亿，降低到1.3亿，清理力度足够大。

3.调整一系列与nn有关交互的心跳的频率：如blockmanager等相关参数。

4.调整nn内部锁的类型：由公平锁调整为非公平锁。

本次调整涉及的参数有：

1) dfs.blockreport.intervalMsec 由21600000L调整为259200000L (3天)，全量心跳

2) dfs.blockreport.incremental.intervalMsec 增量数据心跳由0改为300，尽量批量一次上报（老版本无该参数）

3) dfs.namenode.replication.interval 由3秒调整为60秒，减少心跳频率

4) dfs.heartbeat.interval 心跳时间由默认3秒调整为60秒，减少心跳频率

5) dfs.namenode.invalidate.work.pct.per.iteration 由0.32调整为0.15 (15%个节点)，减少扫描节点数量

本次调整涉及的堆栈：

最终结果卡顿问题依然存在。本人已经黔驴技穷，人已经懵了，不知道该如何处理。

第四天白天：差一点就放弃

第二天早上，跟公司和客户汇报排查具体情况，也直接说了没有任何的思路。希望启用B方案：

1：启用hadoop联邦方案，靠多个namenode解决当下问题。

2：立即修改录信lsql数据库，在一个lsql数据库内适配hadoop多集群方案，也就是搭建两个完全一样的集群，录信数据库启动600个进程，300个进程请求旧集群，300个进程分流到新集群，以达到减轻压力的目的。

家里（公司）的意见是先回去睡觉，头脑清醒时再做决定。

客户这边也建议继续排查，因为系统已经稳定运行一年多了，没道理突然就不行了，还是希望深入研究一下。

回酒店睡觉~~~~~

睡醒给老同事hadoop大牛高高打了个电话，高高是我们组专门负责hdfs的(腾讯内部分工很明确，不像我出来创业啥都要搞)，他对hadoop可谓精通，而且上万台大集群的优化经验，可遇而不可求，我想如果他也不能点播一二，恐怕就没人搞得定了，我也不必白费力气。

高高首先询问了集群的基本情况，并给我多项有效建议。最让我振奋的是根据高高的分析，我们的集群绝对没有达到性能的上限。

第四天晚上：对调用nn的锁的每个函数进行调用次数和调用时间分析

这次没有直接看jmx信息，担心不准确。采用的是btrace这个工具，排查具体是哪个线程频繁给nn加锁，导致nn负载如此之高。

花费了三个小时分析，最终令人惊喜的是发现processIncrementalBlockReport这个线程请求频率非常高，远远高于其他线程。而这个线程不是datanode （dn）节点增量心跳的逻辑吗？为什么频率如此之高？心跳频率我不是都改掉了吗？难道都没生效么？

仔细查看hadoop代码，发现这个逻辑确实有问题，每次写数据和删数据都会立即调用，而我设置的那些心跳参数在客户的这个版本的hadoop集群里并没有这方面优化，设置了也没用，于是紧急在网上寻找patch的方法，最终找到了这个，它不仅仅解决了心跳频率的问题，还解决了加锁频率问题，通过减少锁的使用次数，从而减少上下文切换的次数，进而提升nn的吞吐量。

迅速打上此patch, 明显发现nn吞吐量上来了，而且不仅仅是访问nn不卡了，实时kafka的消费速度也一下子由原先的每小时处理40亿，上升至每小时处理100亿，入库性能也跟着翻倍。打上patch后，此问题得到了根本的解决。

究其根本原因在于HDFS NameNode内部的单一锁设计，使得这个锁显得极为的“重”。持有这个锁需要付出的代价很高。每个请求需要拿到这个锁，然后让NN 去处理这个请求，这里面就包含了很激烈的锁竞争。因此一旦NN的这个锁被一些大规模的导入/删除操作,容易使NameNode一下子处理大量请求，其它用户的任务会马上受到影响。这次patch的主要作用就是增量汇报的锁修改为异步的锁——让删除、上报等操作不影响查询。

具体详细描述与改法参考这里：

https://blog.csdn.net/androidlushangderen/article/details/101643921

最后的总结

1：不要轻言放弃

如果这次不是客户与家里的坚持，要排查出具体原因，可能我就采用备选方案了。

2：最最重要的建议，千万不要使用hadoop2.6.0这个版本！！！

用hadoop官方的话来讲，别的版本都是存在a few of bug ，而这个版本存在a lot of bug ，所以回去后第一件事要督促客户尽快升级换版本。

3：为什么最近才出现这个状况，之前没事

涉及的具体原因：

删除了大量文件，造成hadoop压力增大

近期硬盘快要满了，集中清理了一批数据
最近hadoop不稳定，集中释放了一大批文件。

近期明显的日常数据量暴增

对hadoop调优后，重入数据，按日志进行数据条数统计，最近的数据规模增加很多。

此前消费没有积压，这次积压了很多条

本次调优过程中，由于数据积压了很多天，导致kafka一直在满速消费数据。而在满速消费的情况下，会对nn造成较大的冲击。

为什么快照和mover会对hadoop造成冲击

清理快照的时候，会释放大量的数据块，造成数据的删除。
mover会新增大量的数据块，也会删除大量的ssd上的文件块。且因节点数很多，心跳频繁，瞬时都进行processIncrementalBlockReport对NN造成较大的压力导致。

一定要了解的hadoop原理，这也是本次hadoop调优的关键点：

当我们在HDFS中删除文件时：namenode只是把目录入口删掉，然后把需要删除的数据块记录到pending deletion blocks列表。当下一次datanode向namenode发送心跳时，namenode再把删除命令和这个列表发送到datanode端，所以这个pending deletion blocks列表很长很长，导致了timeout。
当我们导入数据时：客户端会将数据写入到datanode里，而datanode在接到数据块后，会立即调用processIncrementalBlockReport给NN汇报，写入数据量越多，越频繁，机器数量越多，进程越多，调用NN就会越频繁。所以本次的异步锁patch，在这里才会有效果。

你可能感兴趣的:(分布式存储)

哈希表的前沿演进：从经典实现到未来潜力大富大贵7 程序员知识储备1 程序员知识储备2 程序员知识储备3 经验分享
摘要：哈希表（HashTable）作为一种基本且高效的数据结构，已广泛应用于计算机科学的各个领域。从数据库的索引、缓存系统到密码学、分布式系统中，哈希表都发挥着至关重要的作用。随着计算需求的不断增长，哈希表的性能优化及其新型变种已成为当前研究的热点。本文将探讨哈希表的经典实现方式及其优化技术，并展望未来在量子计算、分布式存储等领域的潜在应用。1.引言：哈希表作为一种具有常数时间复杂度（O(1)）的
Ceph数据恢复方案–分布式文件系统删除数据的恢复 San结构数据恢复数据恢复相关 ceph
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、Ceph的三种存储结构二、Ceph中删除数据的恢复提取1.本次案例情况简介：2.数据分析：2.1：BlueStore架构2.2分布式存储中元数据概述2.3提取元数据2.3.2：获取meta_data2.3.4.元数据整理2.3.5.计算数据地址3.数据恢复提取总结前言什么是分布式文件系统分布式文件系统（Distribu
【服务器数据恢复】数据中心存储服务器VMware vSAN分布式存储架构数据恢复解析海境超备服务器分布式架构网络安全系统安全运维
随着企业数据中心的数据量的不断增加，数据存储和恢复成为了企业必须面对的重要问题。vSAN（VirtualStorageAreaNetwork）分布式存储架构是一种新型的存储技术，它可以有效地解决企业数据存储和管理方面的问题。本文将详细介绍vSAN分布式存储架构的原理和特点，并解析其数据恢复的原理和方法。分布式文件系统（DistributedFileSystem，DFS）是一种能够在多台计算机之间共
云原生分布式存储：数据洪流中的时空折叠艺术桂月二二云原生分布式
引言：数据维度战争的新防线蚂蚁集团存储集群达500EB规模，Netflix每日处理3PB视频数据。AWSS3支持每秒1.5亿次请求，字节跳动对象存储延迟低至12ms。IDC预测2026年全球存储开销达亿，沃尔玛每秒处理万笔交易日志，沙特阿美地震勘探数据集超。微软冷存单价降至0.00099/GB·月，中国天眼FAST每秒生成160GB射电数据，Twitter使用Ambry实现250万IOPS。Gar
从“笨重大象”到“敏捷火花”：Hadoop与Spark的大数据技术进化之路 Echo_Wish 大数据大数据 hadoop spark
从“笨重大象”到“敏捷火花”：Hadoop与Spark的大数据技术进化之路说起大数据技术，Hadoop和Spark可以说是这个领域的两座里程碑。Hadoop曾是大数据的开山之作，而Spark则带领我们迈入了一个高效、灵活的大数据处理新时代。那么，它们的演变过程到底有何深意？背后技术上的取舍和选择，又意味着什么？一、Hadoop：分布式存储与计算的奠基者Hadoop诞生于互联网流量爆发式增长的时代，
英伟达系列显卡大解析B100、H200、L40S、A100 2301_78234743 java
家里有了变故。。。快手数分秋招一面面经我发现算法岗也不很难进啊(深度学习)算法想转数开…Java零基础校招学习路线突击版（吐血整理）等的花都谢了的华子最后给开了22k，武汉，应该是14a。不过在这几个月里我坚定了搞几年快钱回家和np朋友因骂了hr，boos被封了哈哈哈在央企想被开除需要做什么？2024小米分布式存储研发急招华为2012被毁意向我发现算法岗也不很难进啊(深度学习)在央企想被开除需要做
Hive高级SQL技巧及实际应用场景小技工丨大数据随笔 sql hive 数据仓库大数据
Hive高级SQL技巧及实际应用场景引言ApacheHive是一个建立在Hadoop之上的数据仓库基础设施，它提供了一个用于查询和管理分布式存储中的大型数据集的机制。通过使用类似于SQL（称为HiveQL）的语言，Hive使得数据分析变得更加简单和高效。本文将详细探讨一些Hive高级SQL技巧，并结合实际的应用场景进行说明。HiveSQL的高级使用技巧1.窗口函数描述：窗口函数允许我们在不使用GR
分布式存储—— HBase数据模型详解 Future_yzx 分布式 hbase 数据库
目录1.3HBase数据模型1.3.1两类数据模型1.3.2数据模型的重要概念1.3.3数据模型的操作1.3.4数据模型的特殊属性1.3.5CAP原理与最终一致性1.3.6小结本文章参考、总结于学校教材课本《HBase开发与应用》1.3HBase数据模型在开始学习HBase之前非常有必要先学习HBase的特性，因此本节将介绍HBase的逻辑模型、物理模型和访问HBase的方法等。和传统的关系型数据
分布式存储学习——HBase表结构设计 Future_yzx oracle 数据库
目录1.4.1模式创建1.4.2Rowkey设计1.4.3列族定义1.4.3.1可配置的数据块大小1.4.3.2数据块缓存1.4.3.3布隆过滤器1.4.3.4数据压缩1.4.3.5单元时间版本1.4.3.6生存时间1.4.4模式设计实例1.4.4.1实例1：动物分类1.4.4.2实例2：店铺与商品1.4.4.3实例3：网上商城用户消费记录1.4.4.4实例4：微博用户与粉丝1.4.4.5小结本文
Hive-4.0.1版本部署文档 CXH728 hive hadoop 数据仓库
1.前置要求操作系统：建议使用CentOS7或Ubuntu20.04（本试验使用的是CentOSLinuxrelease7.9.2009(Core)）Java环境：建议安装Java8或更高版本。Hadoop：Hive需要依赖Hadoop进行分布式存储，建议安装Hadoop3.x版本（本实验采用的是hadoop3.3.6）。数据库：HiveMetastore需要数据库支持，建议使用MySQL、Pos
Hadoop、Spark和 Hive 的详细关系夜行容忍 hadoop spark hive
Hadoop、Spark和Hive的详细关系1.ApacheHadoopHadoop是一个开源框架，用于分布式存储和处理大规模数据集。核心组件：HDFS(HadoopDistributedFileSystem)：分布式文件系统，提供高吞吐量的数据访问。YARN(YetAnotherResourceNegotiator)：集群资源管理和作业调度系统。MapReduce：基于YARN的并行处理框架，用
大数据技术生态圈：Hadoop、Hive、Spark的区别和关系雨中徜徉的思绪漫溢大数据 hadoop hive
大数据技术生态圈：Hadoop、Hive、Spark的区别和关系在大数据领域中，Hadoop、Hive和Spark是三个常用的开源技术，它们在大数据处理和分析方面发挥着重要作用。虽然它们都是为了处理大规模数据集而设计的，但它们在功能和使用方式上存在一些区别。本文将详细介绍Hadoop、Hive和Spark的区别和关系，并提供相应的源代码示例。Hadoop：Hadoop是一个用于分布式存储和处理大规
内容中台的核心架构是什么？清风徐徐de来其他
模块化架构设计解析内容中台的模块化架构通过分层解耦实现灵活扩展，其核心由基础资源层、能力服务层与业务应用层构成。基础层以统一数据治理体系为支撑，通过标准化接口实现结构化与非结构化数据的统一存储，例如Baklib采用分布式存储架构保障数据安全性与访问效率。服务层整合智能分发引擎与API协同策略，支持动态编排内容处理流程，如自动标签生成与多版本管理。应用层通过可配置化组件对接多终端场景，确保知识库构建
Hadoop：全面深入解析 CloudJourney hadoop 大数据分布式
Hadoop是一个用于大规模数据处理的开源框架，其设计旨在通过集群的方式进行分布式存储和计算。本篇博文将从Hadoop的定义、架构、原理、应用场景以及常见命令等多个方面进行详细探讨，帮助读者全面深入地了解Hadoop。1.Hadoop的定义1.1什么是HadoopHadoop是由Apache软件基金会开发的开源软件框架，用于存储和处理大规模数据。其核心组件包括Hadoop分布式文件系统（HDFS）
Hadoop介绍：什么是Hadoop？了解Hadoop的应用 Zzzxt007 hadoop 大数据分布式
一、认识Hadoop框架Hadoop是一个提供分布式存储和计算的开源软件框架，使用Java语言编写，具有高扩展性、高容错性、无共享和高可用（HA）等特点，非常适合处理海量数据。它基于Google发布的MapReduce论文实现，并且应用了函数式编程的思想。Hadoop框架主要包括HDFS（HadoopDistributedFileSystem，Hadoop分布式文件系统）、MapReduce、YA
HDFS的设计架构 F_0125 Hadoop hdfs hbase hadoop
HDFS是Hadoop生态系统中的分布式文件系统，设计用于存储和处理超大规模数据集。它具有高可靠性、高扩展性和高吞吐量的特点，适合运行在廉价硬件上。1.HDFS的设计思想HDFS的设计目标是解决大规模数据存储和处理的问题，其核心设计思想包括：（1）分布式存储-数据被分割成多个块（Block），并分布存储在集群中的多个节点上。-每个数据块默认大小为128MB或256MB，可以根据需求配置。（2）高容
一致性哈希HashRing 留白1108 哈希算法算法一致性哈希
一致性哈希HashRing一致性哈希算法是一种高效的分布式存储和负载均衡技术，广泛应用于分布式系统中，如缓存集群、分布式数据库等。它通过将数据和节点映射到一个环形的哈希空间，实现了数据的均匀分布和节点的动态扩展。本文将详细介绍一致性哈希算法的原理，并通过一个完整的Java实现来展示其应用。一、一致性哈希算法原理一致性哈希算法的核心思想是将数据和节点映射到一个环形的哈希空间中。具体步骤如下：1.哈希
基于一致性哈希的分布式Top-K 留白1108 哈希算法分布式算法 TopK
基于一致性哈希的分布式Top-K在分布式系统中，数据的高效存储和快速查询是一个常见的挑战。一致性哈希（ConsistentHashing）是一种常用于分布式存储和负载均衡的技术，而Top-K查询则是数据分析中的经典问题。本文将通过一个Java实现的案例，展示如何结合一致性哈希和多线程技术，高效地完成分布式环境下的Top-K计算。实现思路一致性哈希分片：将数据通过一致性哈希算法分配到不同节点。局部T
大数据运维实战指南：零基础入门与核心技术解析（第一篇） emmm形成中大数据运维
大数据运维实战指南：零基础入门与核心技术解析（第一篇）系列文章目录第一篇：大数据运维概述与核心技能体系第二篇：Hadoop生态体系与集群部署实战第三篇：分布式存储系统运维与优化第四篇：资源调度框架YARN/K8s深度解析第五篇：实时计算框架Flink/Spark运维指南第六篇：大数据监控体系与自动化运维第七篇：云原生时代的大数据运维实践第八篇：数据安全与合规性管理第九篇：性能调优与故障排查案例集第
论分布式存储系统架构设计一休哥助手架构软考系统架构师分布式
一、引言随着大数据、人工智能和物联网等技术的快速发展，数据存储需求呈现爆发式增长。传统集中式的存储系统架构逐渐暴露出性能瓶颈、可靠性差、扩展性不足等问题，无法满足日益增长的数据存储需求。在这种背景下，分布式存储系统（DistributedStorageSystem）应运而生。分布式存储系统通过将数据分散在多台设备上，实现了负载均衡、可靠性提升以及高效的数据访问，成为现代大规模数据存储的主流方案。本
Elasticsearch 分布式架构解析 Mr' 郑 elasticsearch 分布式架构
Elasticsearch是一个分布式的搜索和分析引擎，以其高可扩展性和实时性著称。它基于Lucene开发，但提供了更高级别的抽象，使得开发者能够轻松地构建复杂的搜索应用。本文将深入探讨Elasticsearch的分布式存储和检索机制，解释其背后的原理及其优势。一、Elasticsearch的基本概念在开始之前，我们先了解几个Elasticsearch的基础概念：索引(Index):相当于关系型数
Ceph实战（一）-分布式存储介绍与原理架构概述深度视觉机器 Centos7 Ceph 分布式存储介绍与原理架构概述
最近工作中有涉及到CEPH相关的内容，所以打算开一个CEPH专栏来进行总结，学习CEPH还有一个重要原因就是我同时要补充kubernetes、rancher专栏必定会涉及到有状态的存储资源抽象（StatefulSet、PV、PVC、StorageClass等），首先绕不开的就是高可用的分布式存储系统，虽然有很多人反对将持久化数据以容器的方式来部署，说容器化部署不是银弹，但未来发展方向就是容器化，并
算力网驱动数字经济多场景融合创新智能计算研究中心其他
内容概要算力网作为数字经济的核心基础设施，正通过技术融合与架构创新重塑多行业应用场景。其核心架构整合了异构计算、分布式存储和智能调度系统，形成覆盖云端、边缘端及终端的协同网络。从技术要素看，光子芯片将计算密度提升3-5个数量级，而量子计算在密码学、分子模拟等领域的突破性进展，为算力网的演进提供了全新可能性。技术要素应用场景关键指标提升异构计算架构工业互联网任务响应速度提升40%边缘云协同智能安防系
大数据面试系列之——Hadoop 潜心_守道大数据面经面试大数据 Hadoop
Hadoop的三个核心：HDFS（分布式存储系统）MapReduce（分布式计算系统）YARN(分布式资源调度)1.Hadoop集群的几种搭建模式1.单机模式：直接解压安装，不存在分布式存储系统2.伪分布式：NameNode和DataNode安装于同一个节点，无法体现分布式处理的优势。3.完全分布式：一个主节点，多个从节点，存在如果主节点宕机，集群就无法使用的缺点。4.高可用模式：多个主节点，多个
十二、Redis Cluster（集群）详解：原理、搭建、数据分片与读写分离伯牙碎琴 #Redis redis 数据库缓存
RedisCluster（集群）详解：原理、搭建、数据分片与读写分离RedisCluster是Redis官方提供的分布式存储方案，通过数据分片（Sharding）实现水平扩展（scalability），并提供高可用性（HA）和故障自动转移（failover）能力，解决了单机Redis内存受限、主从复制故障恢复较慢等问题。本教程将全面讲解RedisCluster的核心原理、搭建步骤、数据分片策略、读
阿里云MaxCompute面试题汇总及参考答案大模型大数据攻城狮阿里云 odps 云计算机器学习大数据面试大数据面经增量数据
目录简述MaxCompute的核心功能及适用场景，与传统数据仓库的区别解释MaxCompute分层架构设计原则，与传统数仓分层有何异同MaxCompute的存储架构如何实现高可用与扩展性解析伏羲（Fuxi）分布式调度系统工作原理盘古（Pangu）分布式存储系统数据分片策略计算与存储分离架构的资源弹性扩展方案解释MaxCompute多租户资源隔离实现机制容错机制设计：Worker节点故障时的数据恢复
hadoop 百里自来卷 hadoop 大数据分布式
Hadoop是一个用于分布式存储和处理大规模数据的开源框架，它的架构主要由以下几个核心组件组成：1.Hadoop生态系统核心组件Hadoop的核心架构主要包括HDFS（HadoopDistributedFileSystem）和YARN（YetAnotherResourceNegotiator），以及MapReduce计算框架：1.1HDFS（分布式文件系统）HDFS负责存储大规模数据，采用主从架构
Ceph Cookbook: 掌握分布式存储技术的实践指南云山雾村
本文还有配套的精品资源，点击获取简介：《CephCookbook》是一本面向希望深入学习Ceph分布式存储系统的读者的实用指南。本书通过实际案例和操作指导，全面介绍Ceph的核心概念和关键技术。介绍了Ceph的三个主要组件：RADOS、RBD和RGW，以及它们如何协同工作以提供高可用性和数据冗余。读者将学习Ceph的安装、配置、管理和优化，以及如何利用其高级特性，如CRUSH算法和多租户管理。本书
深入探讨Ceph：分布式存储架构的未来深度Linux ceph 分布式架构 C/C++
在数字化浪潮汹涌澎湃的当下，数据量呈爆发式增长，传统存储系统在应对海量数据存储、高并发访问以及灵活扩展等方面，逐渐显得力不从心。分布式存储技术应运而生，成为解决现代数据存储难题的关键方案，而Ceph作为分布式存储领域的佼佼者，正日益受到广泛关注和应用。Ceph以其卓越的性能、高可靠性、强大的扩展性以及开源的特性，在众多分布式存储系统中脱颖而出，被广泛应用于云计算、大数据、人工智能等前沿领域。无论是
Redis分布式存储案例面试题哎呀哎呀诶 Redis redis 分布式数据库
问：1~2亿条数据需要缓存，请问如何设计这个存储案例？答：单机单台肯定是不可能的，肯定是分布式存储。问：用redis如何落地？答：1、哈希取余分区（小厂回答）2、一致性哈希算法分区（中厂回答）3、哈希槽分区（大厂回答，推荐回答）1、哈希取余分区2亿条记录就是2亿个(k,v)，我们单机不行必须要分布式多机，假设有3台机器构成一个集群，用户每次读写操作都是根据公式：hash(key)%N个机器台数，计
PHP如何实现二维数组排序？ IT独行者二维数组 PHP 排序　
二维数组在PHP开发中经常遇到，但是他的排序就不如一维数组那样用内置函数来的方便了，（一维数组排序可以参考本站另一篇文章【PHP中数组排序函数详解汇总】）。二维数组的排序需要我们自己写函数处理了，这里UncleToo给大家分享一个PHP二维数组排序的函数：代码： functionarray_sort($arr,$keys,$type='asc'){ $keysvalue= $new_arr
【Hadoop十七】HDFS HA配置 bit1129 hadoop
基于Zookeeper的HDFS HA配置主要涉及两个文件,core-site和hdfs-site.xml。测试环境有三台 hadoop.master hadoop.slave1 hadoop.slave2 hadoop.master包含的组件NameNode, JournalNode, Zookeeper，DFSZKFailoverController
由wsdl生成的java vo类不适合做普通java vo darrenzhu VO wsdl webservice rpc
开发java webservice项目时，如果我们通过SOAP协议来输入输出，我们会利用工具从wsdl文件生成webservice的client端类，但是这里面生成的java data model类却不适合做为项目中的普通java vo类来使用，当然有一中情况例外，如果这个自动生成的类里面的properties都是基本数据类型，就没问题，但是如果有集合类，就不行。原因如下： 1)使用了集合如Li
JAVA海量数据处理之二（BitMap）周凡杨 java 算法 bitmap bitset 数据
路漫漫其修远兮，吾将上下而求索。想要更快，就要深入挖掘 JAVA 基础的数据结构，从来分析出所编写的 JAVA 代码为什么把内存耗尽，思考有什么办法可以节省内存呢？啊哈！算法。这里采用了 BitMap 思想。首先来看一个实验：指定 VM 参数大小： -Xms256m -Xmx540m
java类型与数据库类型 g21121 java
很多时候我们用hibernate的时候往往并不是十分关心数据库类型和java类型的对应关心，因为大多数hbm文件是自动生成的，但有些时候诸如：数据库设计、没有生成工具、使用原始JDBC、使用mybatis(ibatIS)等等情况，就会手动的去对应数据库与java的数据类型关心，当然比较简单的数据类型即使配置错了也会很快发现问题，但有些数据类型却并不是十分常见，这就给程序员带来了很多麻烦。 &nb
Linux命令 510888780 linux命令
系统信息 arch 显示机器的处理器架构(1) uname -m 显示机器的处理器架构(2) uname -r 显示正在使用的内核版本 dmidecode -q 显示硬件系统部件 - (SMBIOS / DMI) hdparm -i /dev/hda 罗列一个磁盘的架构特性 hdparm -tT /dev/sda 在磁盘上执行测试性读取操作 cat /proc/cpuinfo 显示C
java常用JVM参数墙头上一根草 java jvm参数
-Xms：初始堆大小，默认为物理内存的1/64(<1GB)；默认(MinHeapFreeRatio参数可以调整)空余堆内存小于40%时，JVM就会增大堆直到-Xmx的最大限制 -Xmx：最大堆大小，默认(MaxHeapFreeRatio参数可以调整)空余堆内存大于70%时，JVM会减少堆直到 -Xms的最小限制 -Xmn：新生代的内存空间大小，注意：此处的大小是（eden+ 2
我的spring学习笔记9-Spring使用工厂方法实例化Bean的注意点 aijuans Spring 3
方法一： <bean id="musicBox" class="onlyfun.caterpillar.factory.MusicBoxFactory" factory-method="createMusicBoxStatic"></bean> 方法二：
mysql查询性能优化之二 annan211 UNION mysql 查询优化索引优化
1 union的限制有时mysql无法将限制条件从外层下推到内层，这使得原本能够限制部分返回结果的条件无法应用到内层查询的优化上。如果希望union的各个子句能够根据limit只取部分结果集，或者希望能够先排好序在合并结果集的话，就需要在union的各个子句中分别使用这些子句。例如想将两个子查询结果联合起来，然后再取前20条记录，那么mys
数据的备份与恢复百合不是茶 oracle sql 数据恢复数据备份
数据的备份与恢复的方式有: 表,方案 ,数据库; 数据的备份: 导出到的常见命令; 参数说明 USERID 确定执行导出实用程序的用户名和口令 BUFFER 确定导出数据时所使用的缓冲区大小，其大小用字节表示 FILE 指定导出的二进制文
线程组 bijian1013 java 多线程 thread java多线程线程组
有些程序包含了相当数量的线程。这时，如果按照线程的功能将他们分成不同的类别将很有用。线程组可以用来同时对一组线程进行操作。创建线程组：ThreadGroup g = new ThreadGroup(groupName); &nbs
top命令找到占用CPU最高的java线程 bijian1013 java linux top
上次分析系统中占用CPU高的问题，得到一些使用Java自身调试工具的经验，与大家分享。 (1)使用top命令找出占用cpu最高的JAVA进程PID:28174 (2)如下命令找出占用cpu最高的线程 top -Hp 28174 -d 1 -n 1 32694 root 20 0 3249m 2.0g 11m S 2 6.4 3:31.12 java
【持久化框架MyBatis3四】MyBatis3一对一关联查询 bit1129 Mybatis3
当两个实体具有1对1的对应关系时，可以使用One-To-One的进行映射关联查询 One-To-One示例数据以学生表Student和地址信息表为例，每个学生都有都有1个唯一的地址(现实中，这种对应关系是不合适的，因为人和地址是多对一的关系)，这里只是演示目的学生表 CREATE TABLE STUDENTS (
C/C++图片或文件的读写 bitcarter 写图片
先看代码： /*strTmpResult是文件或图片字符串 * filePath文件需要写入的地址或路径 */ int writeFile(std::string &strTmpResult,std::string &filePath) { int i,len = strTmpResult.length(); unsigned cha
nginx自定义指定加载配置 ronin47
进入 /usr/local/nginx/conf/include 目录，创建 nginx.node.conf 文件，在里面输入如下代码： upstream nodejs { server 127.0.0.1:3000; #server 127.0.0.1:3001; keepalive 64; } server { liste
java-71-数值的整数次方.实现函数double Power(double base, int exponent)，求base的exponent次方 bylijinnan double
public class Power { /** *Q71-数值的整数次方 *实现函数double Power(double base, int exponent)，求base的exponent次方。不需要考虑溢出。 */ private static boolean InvalidInput=false; public static void main(
Android四大组件的理解 Cb123456 android 四大组件的理解
分享一下，今天在Android开发文档-开发者指南中看到的: App components are the essential building blocks of an Android
[宇宙与计算]涡旋场计算与拓扑分析 comsci 计算
怎么阐述我这个理论呢？。。。。。。。。。首先：宇宙是一个非线性的拓扑结构与涡旋轨道时空的统一体。。。。我们要在宇宙中寻找到一个适合人类居住的行星，时间非常重要，早一个刻度和晚一个刻度，这颗行星的
同一个Tomcat不同Web应用之间共享会话Session cwqcwqmax9 session
实现两个WEB之间通过session 共享数据查看tomcat 关于 HTTP Connector 中有个emptySessionPath 其解释如下： If set to true, all paths for session cookies will be set to /. This can be useful for portlet specification impleme
springmvc Spring3 MVC，ajax，乱码 dashuaifu spring jquery mvc Ajax
springmvc Spring3 MVC @ResponseBody返回，jquery ajax调用中文乱码问题解决 Spring3.0 MVC @ResponseBody 的作用是把返回值直接写到HTTP response body里。具体实现AnnotationMethodHandlerAdapter类handleResponseBody方法，具体实
搭建WAMP环境 dcj3sjt126com wamp
这里先解释一下WAMP是什么意思。W:windows，A：Apache，M：MYSQL，P：PHP。也就是说本文说明的是在windows系统下搭建以apache做服务器、MYSQL为数据库的PHP开发环境。工欲善其事，必须先利其器。因为笔者的系统是WinXP，所以下文指的系统均为此系统。笔者所使用的Apache版本为apache_2.2.11-
yii2 使用raw http request dcj3sjt126com http
Parses a raw HTTP request using yii\helpers\Json::decode() To enable parsing for JSON requests you can configure yii\web\Request::$parsers using this class: 'request' =&g
Quartz-1.8.6 理论部分 eksliang quartz
转载请出自出处：http://eksliang.iteye.com/blog/2207691 一.概述基于Quartz-1.8.6进行学习，因为Quartz2.0以后的API发生的非常大的变化，统一采用了build模式进行构建；什么是quartz? 答：简单的说他是一个开源的java作业调度框架，为在 Java 应用程序中进行作业调度提供了简单却强大的机制。并且还能和Sp
什么是POJO？ gupeng_ie java POJO 框架 Hibernate
POJO--Plain Old Java Objects(简单的java对象) POJO是一个简单的、正规Java对象，它不包含业务逻辑处理或持久化逻辑等，也不是JavaBean、EntityBean等，不具有任何特殊角色和不继承或不实现任何其它Java框架的类或接口。 POJO对象有时也被称为Data对象，大量应用于表现现实中的对象。如果项目中使用了Hiber
jQuery网站顶部定时折叠广告 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/4.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>网页顶部定时收起广告jQuery特效 - HoverTree<
Spring boot内嵌的tomcat启动失败 kane_xie spring boot
根据这篇guide创建了一个简单的spring boot应用，能运行且成功的访问。但移植到现有项目（基于hbase）中的时候，却报出以下错误： SEVERE: A child container failed during start java.util.concurrent.ExecutionException: org.apache.catalina.Lif
leetcode: sort list michelle_0916 Algorithm linked list sort
Sort a linked list in O(n log n) time using constant space complexity. ====analysis======= mergeSort for singly-linked list ====code======= /** * Definition for sin
nginx的安装与配置,中途遇到问题的解决 qifeifei nginx
我使用的是ubuntu13.04系统，在安装nginx的时候遇到如下几个问题，然后找思路解决的，nginx 的下载与安装 wget http://nginx.org/download/nginx-1.0.11.tar.gz tar zxvf nginx-1.0.11.tar.gz ./configure make make install 安装的时候出现
用枚举来处理java自定义异常 tcrct java enum exception
在系统开发过程中，总少不免要自己处理一些异常信息，然后将异常信息变成友好的提示返回到客户端的这样一个过程，之前都是new一个自定义的异常，当然这个所谓的自定义异常也是继承RuntimeException的，但这样往往会造成异常信息说明不一致的情况，所以就想到了用枚举来解决的办法。 1，先创建一个接口，里面有两个方法，一个是getCode, 一个是getMessage public
erlang supervisor分析 wudixiaotie erlang
当我们给supervisor指定需要创建的子进程的时候，会指定M,F,A,如果是simple_one_for_one的策略的话，启动子进程的方式是supervisor:start_child(SupName, OtherArgs),这种方式可以根据调用者的需求传不同的参数给需要启动的子进程的方法。和最初的参数合并成一个数组，A ++ OtherArgs。那么这个时候就有个问题了，既然参数不一致，那

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他