读程序的手艺人

HDFS的副本存放策略——ReplicationTargetChooser

HDFS作为Hadoop中的一个分布式文件系统，而且是专门为它的MapReduce设计，所以HDFS除了必须满足自己作为分布式文件系统的高可靠性外，还必须为MapReduce提供高效的读写性能，那么HDFS是如何做到这些的呢？首先，HDFS将每一个文件的数据进行分块存储，同时每一个数据块又保存有多个副本，这些数据块副本分布在不同的机器节点上，这种数据分块存储+副本的策略是HDFS保证可靠性和性能的关键，这是因为：一.文件分块存储之后按照数据块来读，提高了文件随机读的效率和并发读的效率；二.保存数据块若干副本到不同的机器节点实现可靠性的同时也提高了同一数据块的并发读效率；三.数据分块是非常切合MapReduce中任务切分的思想。在这里，副本的存放策略又是HDFS实现高可靠性和搞性能的关键。

HDFS采用一种称为机架感知的策略来改进数据的可靠性、可用性和网络带宽的利用率。通过一个机架感知的过程，NameNode可以确定每一个DataNode所属的机架id(这也是NameNode采用NetworkTopology数据结构来存储数据节点的原因，也是我在前面详细介绍NetworkTopology类的原因)。一个简单但没有优化的策略就是将副本存放在不同的机架上，这样可以防止当整个机架失效时数据的丢失，并且允许读数据的时候充分利用多个机架的带宽。这种策略设置可以将副本均匀分布在集群中，有利于当组件失效的情况下的均匀负载，但是，因为这种策略的一个写操作需要传输到多个机架，这增加了写的代价。

在大多数情况下，副本系数是3，HDFS的存放策略是将一个副本存放在本地机架节点上，一个副本存放在同一个机架的另一个节点上，最后一个副本放在不同机架的节点上。这种策略减少了机架间的数据传输，提高了写操作的效率。机架的错误远远比节点的错误少，所以这种策略不会影响到数据的可靠性和可用性。与此同时，因为数据块只存放在两个不同的机架上，所以此策略减少了读取数据时需要的网络传输总带宽。在这种策略下，副本并不是均匀的分布在不同的机架上：三分之一的副本在一个节点上，三分之二的副本在一个机架上，其它副本均匀分布在剩下的机架中，这种策略在不损害数据可靠性和读取性能的情况下改进了写的性能。下面就来看看HDFS是如何来具体实现这一策略的。

NameNode是通过类来为每一分数据块选择副本的存放位置的，这个ReplicationTargetChooser的一般处理过程如下：

     上面的流程图详细的描述了Hadoop-0.2.0版本中副本的存放位置的选择策略，当然，这当中还有一些细节问题，如：如何选择一个本地数据节点，如何选择一个本地机架数据节点等，所以下面我还将继续展开讨论。

1.选择一个本地节点
    这里所说的本地节点是相对于客户端来说的，也就是说某一个用户正在用一个客户端来向HDFS中写数据，如果该客户端上有数据节点，那么就应该最优先考虑把正在写入的数据的一个副本保存在这个客户端的数据节点上，它即被看做是本地节点，但是如果这个客户端上的数据节点空间不足或者是当前负载过重，则应该从该数据节点所在的机架中选择一个合适的数据节点作为此时这个数据块的本地节点。另外，如果客户端上没有一个数据节点的话，则从整个集群中随机选择一个合适的数据节点作为此时这个数据块的本地节点。那么，如何判定一个数据节点合不合适呢，它是通过isGoodTarget方法来确定的：

/**
* 为一个Block的副本选择本地存放位置
*/
private DatanodeDescriptor chooseLocalNode(DatanodeDescriptor localMachine, List excludedNodes, long blocksize, int maxNodesPerRack, List results) throws NotEnoughReplicasException {
    // if no local machine, randomly choose one node
    if (localMachine == null)
      return chooseRandom(NodeBase.ROOT, excludedNodes, blocksize, maxNodesPerRack, results);
      
    // otherwise try local machine first
    if (!excludedNodes.contains(localMachine)) {
      excludedNodes.add(localMachine);
      if (isGoodTarget(localMachine, blocksize, maxNodesPerRack, false, results)) {
        results.add(localMachine);
        return localMachine;
      }
    } 
      
    // try a node on local rack
    return chooseLocalRack(localMachine, excludedNodes, blocksize, maxNodesPerRack, results);
  }

private boolean isGoodTarget(DatanodeDescriptor node, long blockSize, int maxTargetPerLoc, boolean considerLoad, List results) {
      
    Log logr = FSNamesystem.LOG;
    // 节点不可用了
    if (node.isDecommissionInProgress() || node.isDecommissioned()) {
      logr.debug("Node "+NodeBase.getPath(node)+ " is not chosen because the node is (being) decommissioned");
      return false;
    }

    long remaining = node.getRemaining() - (node.getBlocksScheduled() * blockSize);
    // 节点剩余的容量够不够
    if (blockSize* FSConstants.MIN_BLOCKS_FOR_WRITE>remaining) {
      logr.debug("Node "+NodeBase.getPath(node)+ " is not chosen because the node does not have enough space");
      return false;
    }
      
    // 节点当前的负载情况
    if (considerLoad) {
      double avgLoad = 0;
      int size = clusterMap.getNumOfLeaves();
      if (size != 0) {
        avgLoad = (double)fs.getTotalLoad()/size;
      }
      if (node.getXceiverCount() > (2.0 * avgLoad)) {
        logr.debug("Node "+NodeBase.getPath(node)+ " is not chosen because the node is too busy");
        return false;
      }
    }
      
    // 该节点坐在的机架被选择存放当前数据块副本的数据节点过多
    String rackname = node.getNetworkLocation();
    int counter=1;
    for(Iterator iter = results.iterator(); iter.hasNext();) {
      Node result = iter.next();
      if (rackname.equals(result.getNetworkLocation())) {
        counter++;
      }
    }
    if (counter>maxTargetPerLoc) {
      logr.debug("Node "+NodeBase.getPath(node)+ " is not chosen because the rack has too many chosen nodes");
      return false;
    }
    
    return true;
  }

2.选择一个本地机架节点
实际上，选择本地节假节点和远程机架节点都需要以一个节点为参考，这样才是有意义，所以在上面的流程图中，我用红色字体标出了参考点。那么，ReplicationTargetChooser是如何根据一个节点选择它的一个本地机架节点呢？
这个过程很简单，如果参考点为空，则从整个集群中随机选择一个合适的数据节点作为此时的本地机架节点；否则就从参考节点所在的机架中随机选择一个合适的数据节点作为此时的本地机架节点，若这个集群中没有合适的数据节点的话，则从已选择的数据节点中找出一个作为新的参考点，如果找到了一个新的参考点，则从这个新的参考点在的机架中随机选择一个合适的数据节点作为此时的本地机架节点；否则从整个集群中随机选择一个合适的数据节点作为此时的本地机架节点。如果新的参考点所在的机架中仍然没有合适的数据节点，则只能从整个集群中随机选择一个合适的数据节点作为此时的本地机架节点了。

private DatanodeDescriptor chooseLocalRack(DatanodeDescriptor localMachine, List excludedNodes, long blocksize, int maxNodesPerRack, List results)throws NotEnoughReplicasException {
    // 如果参考点为空，则从整个集群中随机选择一个合适的数据节点作为此时的本地机架节点
    if (localMachine == null) {
      return chooseRandom(NodeBase.ROOT, excludedNodes, blocksize, maxNodesPerRack, results);
    }
      
    //从参考节点所在的机架中随机选择一个合适的数据节点作为此时的本地机架节点
    try {
      return chooseRandom(localMachine.getNetworkLocation(), excludedNodes, blocksize, maxNodesPerRack, results);
    } catch (NotEnoughReplicasException e1) {
      //若这个集群中没有合适的数据节点的话，则从已选择的数据节点中找出一个作为新的参考点
      DatanodeDescriptor newLocal=null;
      for(Iterator iter=results.iterator(); iter.hasNext();) {
        DatanodeDescriptor nextNode = iter.next();
        if (nextNode != localMachine) {
          newLocal = nextNode;
          break;
        }
      }
      
      if (newLocal != null) {//找到了一个新的参考点
        try {
          //从这个新的参考点在的机架中随机选择一个合适的数据节点作为此时的本地机架节点
          return chooseRandom(newLocal.getNetworkLocation(), excludedNodes, blocksize, maxNodesPerRack, results);
        } catch(NotEnoughReplicasException e2) {
          //新的参考点所在的机架中仍然没有合适的数据节点，从整个集群中随机选择一个合适的数据节点作为此时的本地机架节点
          return chooseRandom(NodeBase.ROOT, excludedNodes, blocksize, maxNodesPerRack, results);
        }
      } else {
        //从整个集群中随机选择一个合适的数据节点作为此时的本地机架节点
        return chooseRandom(NodeBase.ROOT, excludedNodes, blocksize, maxNodesPerRack, results);
      }
    }
  }

3.选择一个远程机架节点
选择一个远程机架节点就是随机的选择一个合适的不在参考点坐在的机架中的数据节点，如果没有找到这个合适的数据节点的话，就只能从参考点所在的机架中选择一个合适的数据节点作为此时的远程机架节点了。

private void chooseRemoteRack(int numOfReplicas, DatanodeDescriptor localMachine, List excludedNodes, long blocksize, int maxReplicasPerRack, List results)
    throws NotEnoughReplicasException {
    int oldNumOfReplicas = results.size();
    // randomly choose one node from remote racks
    try {
      chooseRandom(numOfReplicas, "~"+localMachine.getNetworkLocation(), excludedNodes, blocksize, maxReplicasPerRack, results);
    } catch (NotEnoughReplicasException e) {
      chooseRandom(numOfReplicas-(results.size()-oldNumOfReplicas), localMachine.getNetworkLocation(), excludedNodes, blocksize, maxReplicasPerRack, results);
    }
  }

private void chooseRandom(int numOfReplicas, String nodes, List excludedNodes, long blocksize, int maxNodesPerRack, List results) throws NotEnoughReplicasException {
    boolean toContinue = true;
    do {
      DatanodeDescriptor[] selectedNodes = chooseRandom(numOfReplicas, nodes, excludedNodes);
      if (selectedNodes.length < numOfReplicas) {
        toContinue = false;
      }
      for(int i=0; i0 && toContinue);
      
    if (numOfReplicas>0) {
      throw new NotEnoughReplicasException( "Not able to place enough replicas");
    }
  }

4.随机选择若干数据节点
这里的随机随机选择若干个数据节点实际上指的是从某一个范围内随机的选择若干个节点，它的实现需要利用前面提到过的 NetworkTopology数据结构。随机选择所使用的范围本质上指的是一个路径，这个路径表示的是NetworkTopology所表示的树状网络拓扑图中的一个非叶子节点，随机选择针对的就是这个节点的所有叶子子节点，因为所有的数据节点都被表示成了这个树状网络拓扑图中的叶子节点。

private DatanodeDescriptor[] chooseRandom(int numOfReplicas, String nodes, List excludedNodes) {
    List results = new ArrayList();
    int numOfAvailableNodes = clusterMap.countNumOfAvailableNodes(nodes, excludedNodes);
    numOfReplicas = (numOfAvailableNodes 0) {
      DatanodeDescriptor choosenNode = (DatanodeDescriptor)(clusterMap.chooseRandom(nodes));
      if (!excludedNodes.contains(choosenNode)) {
        results.add(choosenNode);
        excludedNodes.add(choosenNode);
        numOfReplicas--;
      }
    }
    return (DatanodeDescriptor[])results.toArray(new DatanodeDescriptor[results.size()]);    
  }

5.优化数据传输的路径
以前说过， HDFS对于Block的副本copy采用的是流水线作业的方式：client把数据Block只传给一个DataNode，这个DataNode收到Block之后，传给下一个DataNode，依次类推，...，最后一个DataNode就不需要下传数据Block了。所以，在为一个数据块确定了所有的副本存放的位置之后，就需要确定这种数据节点之间流水复制的顺序，这种顺序应该使得数据传输时花费的网络延时最小。ReplicationTargetChooser用了非常简单的方法来考量的，大家一看便知：

private DatanodeDescriptor[] getPipeline( DatanodeDescriptor writer, DatanodeDescriptor[] nodes) {
    if (nodes.length==0) return nodes;
      
    synchronized(clusterMap) {
      int index=0;
      if (writer == null || !clusterMap.contains(writer)) {
        writer = nodes[0];
      }
      
      for(;indexcurrentDistance) {
            shortestDistance = currentDistance;
            shortestNode = currentNode;
            shortestIndex = i;
          }
        }
        //switch position index & shortestIndex
        if (index != shortestIndex) {
          nodes[shortestIndex] = nodes[index];
          nodes[index] = shortestNode;
        }
        writer = shortestNode;
      }
    }
    return nodes;
  }

6.ReplicationTargetChooser的选择策略
   1).本机DataNode节点(如果客户端存在一个DataNode节点的话，就是该DataNode节点;否则，随机选择一个DataNode节点);
   2).远程DataNode节点(与“本机DataNode节点”);
   3).本rack下的另一个DataNode节点(与“本机DataNode节点”);
   4).随机选择其它的DataNode节点。
其具体实现的源代码如下：

private DatanodeDescriptor chooseTarget(int numOfReplicas, DatanodeDescriptor writer, List excludedNodes, long blocksize, int maxNodesPerRack, List results) {
      
    if (numOfReplicas == 0 || clusterMap.getNumOfLeaves()==0) {
      return writer;
    }
      
    int numOfResults = results.size();
    boolean newBlock = (numOfResults==0);
    if (writer == null && !newBlock) {
      writer = (DatanodeDescriptor)results.get(0);
    }
      
    try {
      switch(numOfResults) {
      case 0:
    	 LOG.debug("Try to choose a local DataNode for a replication of block..");
        writer = chooseLocalNode(writer, excludedNodes, blocksize, maxNodesPerRack, results);
        if (--numOfReplicas == 0) {
          break;
        }
      case 1:
    	 LOG.debug("Try to choose a remote DataNode for a replication of block..");
        chooseRemoteRack(1, results.get(0), excludedNodes, blocksize, maxNodesPerRack, results);
        if (--numOfReplicas == 0) {
          break;
        }
      case 2:
    	 LOG.debug("Try to choose a local rack DataNode for a replication of block..");
        if (clusterMap.isOnSameRack(results.get(0), results.get(1))) {
          chooseRemoteRack(1, results.get(0), excludedNodes, blocksize, maxNodesPerRack, results);
        } else if (newBlock){
          chooseLocalRack(results.get(1), excludedNodes, blocksize, maxNodesPerRack, results);
        } else {
          chooseLocalRack(writer, excludedNodes, blocksize, maxNodesPerRack, results);
        }
        if (--numOfReplicas == 0) {
          break;
        }
      default:
    	 LOG.debug("Try to randomly choose a local DataNode for a replication of block..");
        chooseRandom(numOfReplicas, NodeBase.ROOT, excludedNodes, blocksize, maxNodesPerRack, results);
      }
    } catch (NotEnoughReplicasException e) {
      FSNamesystem.LOG.warn("Not able to place enough replicas, still in need of " + numOfReplicas);
    }
    
    return writer;
  }

可惜的是，HDFS目前并没有把副本存放策略的实现开放给用户，也就是用户无法根据自己的实际需求来指定文件的数据块存放的具体位置。例如：我们可以将有关系的两个文件放到相同的数据节点上，这样在进行map-reduce的时候，其工作效率会大大的提高。但是，又考虑到副本存放策略是与集群负载均衡休戚相关的，所以要是真的把负载存放策略交给用户来实现的话，对用户来说是相当负载的，所以我只能说Hadoop目前还不算成熟，尚需大踏步发展。

Garfish 源码解析 —— 一个微应用是如何被挂载的 moonrailgun 前端工程化 javascript 前端前端框架
背景Garfish是字节跳动webinfra团队推出的一款微前端框架包含构建微前端系统时所需要的基本能力，任意前端框架均可使用。接入简单，可轻松将多个前端应用组合成内聚的单个产品因为当前对Garfish的解读极少，而微前端又是现代前端领域相当重要的一环，因此写下本文，同时也是对学习源码的一个总结本文基于garfish#0d4cc0c82269bce8422b0e9105b7fe88c2efe42a
历史文章汇总 Nuan_Feng java
仿照实现项目Nettygit地址VPNgit地址TCP、HTTP、WebSocket、SOCKS5、DNS协议实现git地址实现DNS协议java版java实现socks5Txlcn手写分布式id生成器git地址手写分布式id生成器手写可视化逆向工程git地址手写可视化逆向工程源码解析1.xxljob，阅读3.2w收藏318点赞数124xxljob源码解析2.netty源码解析netty源码解析一
ClickHouse Keeper 源码解析阿里云云栖号云栖号技术分享 java 开发语言后端
简介：ClickHouse社区在21.8版本中引入了ClickHouseKeeper。ClickHouseKeeper是完全兼容Zookeeper协议的分布式协调服务。本文对开源版本ClickHousev21.8.10.19-lts源码进行了解析。作者简介：范振（花名辰繁），阿里云开源大数据-OLAP方向负责人。内容框架背景架构图核心流程图梳理内部代码流程梳理Nuraft关键配置排坑结论关于我们R
FastExcel/EasyExcel简介以及源码解析舌尖上的五香 java
简介官网地址GitHub地址基于MIT协议发展历史由EasyExcel发展而来2018/02/07：发布1.0.02019/09/17：发布2.0.02021/10/21：发布3.0.12024/06/18：发布4.0.02024/11/06：进入维护模式2024/12/05：发布FastExcel1.0.0主要特性高性能读写简单易用流式操作读取执行行数技术原理内存优化：基于流式读取技术，不需要一
DeepSeek源码解析（1）白鹭凡 deepseek ai
下载github的DeepSeek-V3-main源码，目录如下文章适合入门小白学习，因为我也是小白，本来作为一名前端开发，因为行业不好混所以跑来学ai的。初步看它的代码并不多，主要是inference目录，convert.py#1.导入标准库importos#os是Python的标准库之一，提供了与操作系统交互的功能，比如文件路径操作、环境变量管理等。importshutil#shutil也是P
DeepSeek源码解析（2）白鹭凡 deepseek ai
Tensor（张量）的介绍在计算机科学和机器学习领域，“张量”（Tensor）是一个数学概念，它被用来表示多维数组。在大模型（如深度学习模型）中，张量扮演着核心角色，具体来说：数据表示：张量用于表示输入数据、模型参数和中间计算结果。例如，在图像处理中，一张图片可以被表示为一个三维张量（高度、宽度、颜色通道数），而在自然语言处理中，一段文本可以被编码为一系列词向量组成的二维张量（句子长度、词向量维度
Kotlin：Flow 全面详细指南，附带源码解析。 2401_84520377 程序员 kotlin 开发语言 android
Flow需要在协程里面使用，因为collect是挂起函数，另外基于冷流的特性，不调用collect构建器的代码压根不会走。所以只能是协程。那我取消协程不就行了吗？。好像之前有看到过有开发者提出过，是否要给flow单独加一个取消的函数，被Jetbrains无情的拒绝了，哈哈哈哈很搞笑。下面引用Kotlin官方的一段话。Flowadherestothegeneralcooperativecancell
大数据与hdfs创建文件夹猫猫头有亿点炸大数据 hdfs hadoop
注意事项:在hdfs上操作的文件,创建文件的时候注意他与linux是不一样的(模式如下:)hdfsdfs-mkdir/test1错误示例:否则,无论如何hdfsdfs-ls/test1/都没有文件的
doris：分析 S3/HDFS 上的文件向阳1218 大数据 doris
通过TableValueFunction功能，Doris可以直接将对象存储或HDFS上的文件作为Table进行查询分析。并且支持自动的列类型推断。提示使用方式更多使用方式可参阅TableValueFunction文档：S3：支持S3兼容的对象存储上的文件分析。HDFS：支持HDFS上的文件分析。这里我们通过S3TableValueFunction举例说明如何进行文件分析。自动推断文件列类型>DES
Vue 框架深度解析：源码分析与实现原理详解北辰alk vue 前端 vue.js 前端 javascript
文章目录一、Vue核心架构设计1.1整体架构流程图1.2模块职责划分二、响应式系统源码解析2.1核心类关系图2.2核心源码分析2.2.1数据劫持实现2.2.2依赖收集过程三、虚拟DOM与Diff算法实现3.1Diff算法流程图3.2核心Diff源码四、模板编译全流程剖析4.1编译流程图4.2编译阶段源码五、组件系统与生命周期5.1组件初始化流程5.2生命周期源码触发点六、异步更新队列与性能优化6.
FreeRTOS内存管理之heap_4.c源码解析星辰&流星网络嵌入式 c语言驱动开发硬件工程
heap_1——最简单，，具有确定性，从静态数组中分配内存，不允许释放内存，不会导致内存碎片化，一锤子买卖，不算真正的动态内存分配；heap_2——非确定性，允许释放内存，但不会合并相邻的空闲块，也就是说没有内存碎片优化措施；heap_3——简单包装了标准malloc()和free()，以保证线程安全，借壳上市，需要连接器设置堆空间分布，且需要编译器库提供malloc和free函数的实现，可能回增
Hadoop：分布式计算平台初探 dccrtbn6261333 大数据运维 java
Hadoop是一个开发和运行处理大规模数据的软件平台，是Apache的一个用java语言实现开源软件框架，实现在大量计算机组成的集群中对海量数据进行分布式计算。Hadoop框架中最核心设计就是：MapReduce和HDFS。MapReduce提供了对数据的计算，HDFS提供了海量数据的存储。MapReduceMapReduce的思想是由Google的一篇论文所提及而被广为流传的，简单的一句话解释M
Hadoop：全面深入解析 CloudJourney hadoop 大数据分布式
Hadoop是一个用于大规模数据处理的开源框架，其设计旨在通过集群的方式进行分布式存储和计算。本篇博文将从Hadoop的定义、架构、原理、应用场景以及常见命令等多个方面进行详细探讨，帮助读者全面深入地了解Hadoop。1.Hadoop的定义1.1什么是HadoopHadoop是由Apache软件基金会开发的开源软件框架，用于存储和处理大规模数据。其核心组件包括Hadoop分布式文件系统（HDFS）
Hadoop介绍：什么是Hadoop？了解Hadoop的应用 Zzzxt007 hadoop 大数据分布式
一、认识Hadoop框架Hadoop是一个提供分布式存储和计算的开源软件框架，使用Java语言编写，具有高扩展性、高容错性、无共享和高可用（HA）等特点，非常适合处理海量数据。它基于Google发布的MapReduce论文实现，并且应用了函数式编程的思想。Hadoop框架主要包括HDFS（HadoopDistributedFileSystem，Hadoop分布式文件系统）、MapReduce、YA
hbase 默认目录_[HBase] HBase数据存储目录解析 weixin_39577422 hbase 默认目录
Hbase在hdfs上的存储位置，根目录是由配置项hbase.rootdir决定，默认就是"/hbase"/hbase/WALs在该目录下，对于每个RegionServer，都会对应1~n个子目录/hbase/oldWALs当/hbase/WALs中的HLog文件被持久化到存储文件时，它们就会被移动到/hbase/oldWALs/hbase/hbase.id集群的唯一ID/hbase/hbase.
Hbase在hdfs上的archive目录占用空间过大宝罗Paul 大数据 hbase
hbase版本：1.1.2hadoop版本：2.7.3Hbase在hdfs上的目录/apps/hbase/data/archive占用空间过大，导致不停地发出hdfs空间使用率告警。【问题】告警信息alert:datanode_storageistriggered告警信息表明某个或某些datanode的HDFS存储空间使用率已超过阈值(我们设置的是80%)，需要清理。[hdfs@master-2r
Hadoop、Spark、Flink Shuffle对比逆袭的小学生 hadoop spark flink
一、Hadoop的shuffle前置知识：Map任务的数量由Hadoop框架自动计算，等于分片数量，等于输入文件总大小/分片大小，分片大小为HDFS默认值128M，可调Reduce任务数由用户在作业提交时通过Job.setNumReduceTasks(int)设置数据分配到Reduce任务的时间点，在Map任务执行期间，通过Partitioner（分区器）确定每个键值对的目标Reduce分区。默认
【Hadoop】详解HDFS 2302_79952574 hadoop hdfs 大数据
Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件上的分布式文件系统，它是一个高度容错性的系统，适合部署在廉价的机器上，能够提供高吞吐量的数据访问，非常适合大规模数据集上的应用。为了做到可靠性，HDFS创建了多份数据块的副本，并将它们放置在服务器群的计算节点中，MapReduce可以在它们所在的节点上处理这些数据。1.HDFS的设计目标存储大规模数据：HDFS可以存储并管理PB级甚至
HDFS的设计架构 F_0125 Hadoop hdfs hbase hadoop
HDFS是Hadoop生态系统中的分布式文件系统，设计用于存储和处理超大规模数据集。它具有高可靠性、高扩展性和高吞吐量的特点，适合运行在廉价硬件上。1.HDFS的设计思想HDFS的设计目标是解决大规模数据存储和处理的问题，其核心设计思想包括：（1）分布式存储-数据被分割成多个块（Block），并分布存储在集群中的多个节点上。-每个数据块默认大小为128MB或256MB，可以根据需求配置。（2）高容
面试基础---高并发高可用架构下读写分离与数据分片如何设计 WeiLai1112 后端面试架构职场和发展 java 后端分布式
高并发高可用架构深度实践：读写分离与数据分片设计及ShardingSphere源码解析引言：应对双十一洪峰的架构挑战在2023年阿里双十一购物节中，核心交易系统成功支撑了每秒58.3万笔的订单创建峰值。在这背后，读写分离与数据分片技术发挥了关键作用。本文将深入探讨这两种核心架构设计模式，结合ShardingSphere5.x源码解析，揭示高并发场景下的架构实现细节。一、读写分离架构设计与实现1.1
Android热更新方案之阿里AndFix-原理以及源码解析 2401_87254973 android 前端数据库
mLoaders=newConcurrentHashMap();}new了个AndFixmanager，看一下publicAndFixManager(Contextcontext){mContext=context;mSupport=Compat.*isSupport*();if(mSupport){mSecurityChecker=newSecurityChecker(mContext);mOp
c#视觉应用开发中如何在C#中处理多光谱图像？ openwin_top C#视觉应用开发问题系列 c#开发语言计算机视觉视觉检测
microPythonPython最小内核源码解析NI-motion运动控制c语言示例代码解析python编程示例系列python编程示例系列二python的Web神器Streamlit如何应聘高薪职位在C#中处理多光谱图像（MultispectralImaging,MSI）通常涉及多个步骤，包括图像读取、处理和显示。多光谱图像包含多个频带（通常超过人类视觉的RGB频带），需要特殊处理才能进行分析
【ESP32接入国产大模型之豆包】 2345VOR arduino学习 esp32国产大模型接入 #Arduino小项目开发 ESP32 豆包大模型
【ESP32接入国产大模型之豆包】1.豆包大模型1.1了解豆包api1.2Http接口鉴权1.3.接口参数说明1.3.1请求体(request)参数1.3.2返回(response)参数1.3.3错误响应2.先决条件2.1环境配置2.2所需零件3.核心代码3.1源码分享3.2源码解析4.上传验证4.1对话测试4.2报错5.总结1.豆包大模型视频地址：https://www.bilibili.com
大数据面试系列之——Hadoop 潜心_守道大数据面经面试大数据 Hadoop
Hadoop的三个核心：HDFS（分布式存储系统）MapReduce（分布式计算系统）YARN(分布式资源调度)1.Hadoop集群的几种搭建模式1.单机模式：直接解压安装，不存在分布式存储系统2.伪分布式：NameNode和DataNode安装于同一个节点，无法体现分布式处理的优势。3.完全分布式：一个主节点，多个从节点，存在如果主节点宕机，集群就无法使用的缺点。4.高可用模式：多个主节点，多个
# React源码解析之Reconciler运行循环与scheduler调度 Bug程序员枯港后端
React源码之看完吊打面试官系列经历一个月的学习整理，站在前人的肩膀上，对React有了一些浅薄的理解，希望记录自己的学习过程的同时也可以给大家带来一点小帮助。如果此系列文章对您有些帮助，还望在座各位义夫义母不吝点赞关注支持，也希望各位大佬拍砖探讨本系列行文思路如下,本篇属于React中的React的管理员(reconciler与scheduler)[X]React启动过程[X]React的两大
视觉定位完整软件：C# + Halcon，流程可配置、多品牌相机支持、模板匹配与实时播放，【教程】使用C# + Halcon实现可配置的视觉定位软件，支持多品牌相机采图和模板匹配，实时播放输出结果， QhVRjZTKJ 数码相机 c#开发语言
视觉定位完整软件。开发语言：C#+Halcon。1.流程可配置；2.海康威视相机采图，可定制成其它品牌相机（Basler，映美精等）；3.模板匹配；4.定位指针，拟合圆，拟合矩形；跟随模板匹配跑；5.实时播放；输出结果对列；6.代码结构使用共同接口，方便工具扩展。ID:8499727635025643L_买卖不成仁义在【标题】视觉定位软件源码解析与定制化服务【摘要】本文基于C#+Halcon开发语
Azkaban其一，介绍、体系架构和安装出发行进 #Azkaban Azkaban linux
目录一、简介二、Azkaban的体系结构三、Azkaban的安装步骤1、上传，解压2、生成mysql的元数据3、配置web-server4、配置exec-server5、修改所有的.sh的执行权限一、简介遇到了什么问题才会使用Azkaban?比如：想启动hadoop集群先启动zk集群，再启动hdfs,再启动yarn，再启动日志系统工作过程中总会遇到多个脚本执行的时候有顺序。任务可以有一个编排的工具
嵌入式linux bootloader,嵌入式系统启动之bootloader 源码解析三月十六嵌入式linux bootloader
要探讨bootloader，我们首先从全局来看看，嵌入式系统启动流程是怎么样的。大体上一个嵌入式Linux系统从软件角度分析可以分为四个部分：引导加载程序(bootloader),Linux内核，文件系统，应用程序。当系统首次引导时，或系统被重置时，bootloader首先被执行(位于Flash/ROM中的已知位置处)的代码。它主要用来初始化处理器及外设，然后调用Linux内核。Linux内核在完
hdfs HA 机制，一台 namenode 宕机了， joualnode ， namenode ， edit.log fsimage 的变化？思维导图代码示例（java 架构) 用心去追梦 hdfs java 架构
HDFS（HadoopDistributedFileSystem）的高可用性（HA,HighAvailability）机制旨在解决单点故障问题，确保即使在NameNode出现故障的情况下，文件系统仍然可以继续正常工作。在HA配置中，有两个或多个NameNode：一个处于活动状态（Active），另一个作为备用（Standby）。JournalNodes用于同步编辑日志（EditLog），以确保两个
聊聊Netty那些事儿之Reactor在Netty中的实现(创建篇) Java小海. java 开发语言后端程序人生 spring boot
本系列Netty源码解析文章基于4.1.56.Final版本在上篇文章《聊聊Netty那些事儿之从内核角度看IO模型》中我们花了大量的篇幅来从内核角度详细讲述了五种IO模型的演进过程以及ReactorIO线程模型的底层基石IO多路复用技术在内核中的实现原理。最后我们引出了netty中使用的主从ReactorIO线程模型。通过上篇文章的介绍，我们已经清楚了在IO调用的过程中内核帮我们搞了哪些事情，那
Java序列化进阶篇 g21121 java序列化
1.transient 类一旦实现了Serializable 接口即被声明为可序列化，然而某些情况下并不是所有的属性都需要序列化，想要人为的去阻止这些属性被序列化，就需要用到transient 关键字。
escape()、encodeURI()、encodeURIComponent()区别详解 aigo JavaScript Web
原文：http://blog.sina.com.cn/s/blog_4586764e0101khi0.html JavaScript中有三个可以对字符串编码的函数，分别是： escape,encodeURI,encodeURIComponent，相应3个解码函数：,decodeURI,decodeURIComponent 。下面简单介绍一下它们的区别 1 escape()函
ArcgisEngine实现对地图的放大、缩小和平移 Cb123456 添加矢量数据对地图的放大、缩小和平移 Engine
ArcgisEngine实现对地图的放大、缩小和平移: 个人觉得是平移，不过网上的都是漫游，通俗的说就是把一个地图对象从一边拉到另一边而已。就看人说话吧. 具体实现: 一、引入命名空间 using ESRI.ArcGIS.Geometry; using ESRI.ArcGIS.Controls; 二、代码实现.
Java集合框架概述天子之骄 Java集合框架概述
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
旗正4.0页面跳转传值问题何必如此 java jsp
跳转和成功提示 a) 成功字段非空forward 成功字段非空forward，不会弹出成功字段，为jsp转发，页面能超链接传值,传输变量时需要拼接。接拼接方式list.jsp?test="+strweightUnit+"或list.jsp?test="+weightUnit+&qu
全网唯一:移动互联网服务器端开发课程 cocos2d-x小菜 web开发移动开发移动端开发移动互联程序员
移动互联网时代来了！ App市场爆发式增长为Web开发程序员带来新一轮机遇，近两年新增创业者，几乎全部选择了移动互联网项目！传统互联网企业中超过98%的门户网站已经或者正在从单一的网站入口转向PC、手机、Pad、智能电视等多端全平台兼容体系。据统计，AppStore中超过85%的App项目都选择了PHP作为后端程
Log4J通用配置|注意问题笔记 7454103 DAO apache tomcat log4j Web
关于日志的等级那些去百度就知道了！这几天要搭个新框架配置了日志记下来！做个备忘！ #这里定义能显示到的最低级别,若定义到INFO级别,则看不到DEBUG级别的信息了~! log4j.rootLogger=INFO,allLog # DAO层 log记录到dao.log 控制台和总日志文件 log4j.logger.DAO=INFO,dao,C
SQLServer TCP/IP 连接失败问题 ---SQL Server Configuration Manager darkranger sql c windows SQL Server XP
当你安装完之后,连接数据库的时候可能会发现你的TCP/IP 没有启动.. 发现需要启动客户端协议 : TCP/IP 需要打开 SQL Server Configuration Manager... 却发现无法打开 SQL Server Configuration Manager..?? 解决方法: C:\WINDOWS\system32目录搜索framedyn.
[置顶] 做有中国特色的程序员 aijuans 程序员
从出版业说起网络作品排到靠前的，都不会太难看，一般人不爱看某部作品也是因为不喜欢这个类型，而此人也不会全不喜欢这些网络作品。究其原因，是因为网络作品都是让人先白看的，看的好了才出了头。而纸质作品就不一定了，排行榜靠前的，有好作品，也有垃圾。许多大牛都是写了博客，后来出了书。这些书也都不次，可能有人让为不好，是因为技术书不像小说，小说在读故事，技术书是在学知识或温习知识，有些技术书读得可
document.domain 跨域问题 avords document
document.domain用来得到当前网页的域名。比如在地址栏里输入：javascript:alert(document.domain); //www.315ta.com我们也可以给document.domain属性赋值，不过是有限制的，你只能赋成当前的域名或者基础域名。比如：javascript:alert(document.domain = "315ta.com");
关于管理软件的一些思考 houxinyou 管理
工作好多看年了,一直在做管理软件,不知道是我最开始做的时候产生了一些惯性的思维,还是现在接触的管理软件水平有所下降.换过好多年公司,越来越感觉现在的管理软件做的越来越乱. 在我看来,管理软件不论是以前的结构化编程,还是现在的面向对象编程,不管是CS模式,还是BS模式.模块的划分是很重要的.当然,模块的划分有很多种方式.我只是以我自己的划分方式来说一下. 做为管理软件,就像现在讲究MVC这
NoSQL数据库之Redis数据库管理(String类型和hash类型) bijian1013 redis 数据库 NoSQL
一.Redis的数据类型 1.String类型及操作 String是最简单的类型，一个key对应一个value，string类型是二进制安全的。Redis的string可以包含任何数据，比如jpg图片或者序列化的对象。 Set方法：设置key对应的值为string类型的value
Tomcat 一些技巧征客丶 java tomcat dos
以下操作都是在windows 环境下一、Tomcat 启动时配置 JAVA_HOME 在 tomcat 安装目录，bin 文件夹下的 catalina.bat 或 setclasspath.bat 中添加 set JAVA_HOME=JAVA 安装目录 set JRE_HOME=JAVA 安装目录/jre 即可；二、查看Tomcat 版本在 tomcat 安装目
【Spark七十二】Spark的日志配置 bit1129 spark
在测试Spark Streaming时，大量的日志显示到控制台，影响了Spark Streaming程序代码的输出结果的查看(代码中通过println将输出打印到控制台上)，可以通过修改Spark的日志配置的方式，不让Spark Streaming把它的日志显示在console 在Spark的conf目录下，把log4j.properties.template修改为log4j.p
Haskell版冒泡排序 bookjovi 冒泡排序 haskell
面试的时候问的比较多的算法题要么是binary search，要么是冒泡排序，真的不想用写C写冒泡排序了，贴上个Haskell版的，思维简单，代码简单，下次谁要是再要我用C写冒泡排序，直接上个haskell版的，让他自己去理解吧。 sort [] = [] sort [x] = [x] sort (x:x1:xs) | x>x1 = x1:so
java 路径配置文件读取 bro_feng java
这几天做一个项目，关于路径做如下笔记，有需要供参考。取工程内的文件，一般都要用相对路径，这个自然不用多说。在src统计目录建配置文件目录res,在res中放入配置文件。读取文件使用方式： 1. MyTest.class.getResourceAsStream("/res/xx.properties") 2. properties.load(MyTest.
读《研磨设计模式》-代码笔记-简单工厂模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 个人理解：简单工厂模式就是IOC; * 客户端要用到某一对象，本来是由客户创建的，现在改成由工厂创建，客户直接取就好了 */ interface IProduct {
SVN与JIRA的关联 chenyu19891124 SVN
SVN与JIRA的关联一直都没能装成功，今天凝聚心思花了一天时间整合好了。下面是自己整理的步骤：一、搭建好SVN环境，尤其是要把SVN的服务注册成系统服务二、装好JIRA，自己用是jira-4.3.4破解版三、下载SVN与JIRA的插件并解压，然后拷贝插件包下lib包里的三个jar，放到Atlassian\JIRA 4.3.4\atlassian-jira\WEB-INF\lib下，再
JWFDv0.96 最新设计思路 comsci 数据结构算法工作企业应用公告
随着工作流技术的发展，工作流产品的应用范围也不断的在扩展，开始进入了像金融行业(我已经看到国有四大商业银行的工作流产品招标公告了)，实时生产控制和其它比较重要的工程领域，而
vi 保存复制内容格式粘贴 daizj vi 粘贴复制保存原格式不变形
vi是linux中非常好用的文本编辑工具，功能强大无比，但对于复制带有缩进格式的内容时，粘贴的时候内容错位很严重，不会按照复制时的格式排版，vi能不能在粘贴时，按复制进的格式进行粘贴呢？答案是肯定的，vi有一个很强大的命令可以实现此功能。在命令模式输入:set paste，则进入paste模式，这样再进行粘贴时
shell脚本运行时报错误：/bin/bash^M: bad interpreter 的解决办法 dongwei_6688 shell脚本
出现原因：windows上写的脚本，直接拷贝到linux系统上运行由于格式不兼容导致解决办法： 1. 比如文件名为myshell.sh，vim myshell.sh 2. 执行vim中的命令 : set ff?查看文件格式，如果显示fileformat=dos，证明文件格式有问题 3. 执行vim中的命令 :set fileformat=unix 将文件格式改过来就可以了，然后:w
高一上学期难记忆单词 dcj3sjt126com word english
honest 诚实的；正直的 argue 争论 classical 古典的 hammer 锤子 share 分享；共有 sorrow 悲哀；悲痛 adventure 冒险 error 错误；差错 closet 壁橱；储藏室 pronounce 发音；宣告 repeat 重做；重复 majority 大多数；大半 native 本国的，本地的，本国
hibernate查询返回DTO对象，DTO封装了多个pojo对象的属性 frankco POJO hibernate查询 DTO
DTO-数据传输对象；pojo-最纯粹的java对象与数据库中的表一一对应。简单讲：DTO起到业务数据的传递作用，pojo则与持久层数据库打交道。有时候我们需要查询返回DTO对象，因为DTO
Partition List hcx2013 partition
Given a linked list and a value x, partition it such that all nodes less than x come before nodes greater than or equal to x. You should preserve the original relative order of th
Spring MVC测试框架详解——客户端测试 jinnianshilongnian
上一篇《Spring MVC测试框架详解——服务端测试》已经介绍了服务端测试，接下来再看看如果测试Rest客户端，对于客户端测试以前经常使用的方法是启动一个内嵌的jetty/tomcat容器，然后发送真实的请求到相应的控制器；这种方式的缺点就是速度慢；自Spring 3.2开始提供了对RestTemplate的模拟服务器测试方式，也就是说使用RestTemplate测试时无须启动服务器，而是模拟一
关于推荐个人观点 liyonghui160com 推荐系统关于推荐个人观点
回想起来，我也做推荐了3年多了，最近公司做了调整招聘了很多算法工程师，以为需要多么高大上的算法才能搭建起来的，从实践中走过来，我只想说【不是这样的】第一次接触推荐系统是在四年前入职的时候，那时候，机器学习和大数据都是没有的概念，什么大数据处理开源软件根本不存在，我们用多台计算机web程序记录用户行为，用.net的w
不间断旋转的动画 pangyulei 动画
CABasicAnimation* rotationAnimation; rotationAnimation = [CABasicAnimation animationWithKeyPath:@"transform.rotation.z"]; rotationAnimation.toValue = [NSNumber numberWithFloat: M
自定义annotation sha1064616837 java enum annotation reflect
对象有的属性在页面上可编辑，有的属性在页面只可读，以前都是我们在页面上写死的，时间一久有时候会混乱，此处通过自定义annotation在类属性中定义。越来越发现Java的Annotation真心很强大，可以帮我们省去很多代码，让代码看上去简洁。下面这个例子主要用到了 1.自定义annotation：@interface，以及几个配合着自定义注解使用的几个注解 2.简单的反射 3.枚举
Spring 源码 up2pu spring
1.Spring源代码 https://github.com/SpringSource/spring-framework/branches/3.2.x 注：兼容svn检出 2.运行脚本 import-into-eclipse.bat 注：需要设置JAVA_HOME为jdk 1.7 build.gradle compileJava { sourceCompatibilit
利用word分词来计算文本相似度 yangshangchuan word word分词文本相似度余弦相似度简单共有词
word分词提供了多种文本相似度计算方式：方式一：余弦相似度，通过计算两个向量的夹角余弦值来评估他们的相似度实现类：org.apdplat.word.analysis.CosineTextSimilarity 用法如下： String text1 = "我爱购物"; String text2 = "我爱读书"; String text3 =

HDFS的副本存放策略——ReplicationTargetChooser

你可能感兴趣的:(HDFS源码解析)