huashuizhuhui

第七章：小朱笔记hadoop之源码分析-hdfs分析第六节：SecondaryNameNode分析

第七章：小朱笔记hadoop之源码分析-hdfs分析

第六节：SecondaryNameNode分析

6.1 架构分析

6.2 SecondaryNameNode启动过程分析

6.3 Checkpoint分析

6.4 Import Checkpoint恢复数据

6.1 架构分析

SecondaryNameNode(snn)不是NameNode(nn)的热备进程。snn是HDFS架构中的一个组成部分，但是经常由于名字而被人误解它真正的用途，其实它真正的用途，是用来保存namenode中对HDFS metadata的信息的备份，并减少namenode重启的时间。对于hadoop进程中，要配置好并正确的使用 snn，还是需要做一些工作的。

hadoop的默认配置中让snn进程默认运行在了namenode的那台机器上，但是这样的话，如果这台机器出错，宕机，对恢复HDFS文件系统是很大的灾难，更好的方式是：将snn的进程配置在另外一台机器上运行。

在hadoop中，namenode负责对HDFS的metadata的持久化存储，并且处理来自客户端的对HDFS的各种操作的交互反馈。为了保证交互速度，HDFS文件系统的metadata是被load到namenode机器的内存中的，并且会将内存中的这些数据保存到磁盘进行持久化存储。为了保证这个持久化过程不会成为HDFS操作的瓶颈，hadoop采取的方式是：没有对任何一次的当前文件系统的snapshot进行持久化，对 HDFS最近一段时间的操作list会被保存到namenode中的一个叫Editlog的文件中去。当重启namenode时，除了load fsImage意外，还会对这个EditLog文件中记录的HDFS操作进行replay，以恢复HDFS重启之前的最终状态。

SecondaryNameNode，会周期性的从NameNode节点上下载元数据信息（元数据镜像fsimage 和元数据库操作日志edits），然后将fsimage和edits进行合并，生成新的fsimage（该fsimage就是Secondary NameNode下载时刻的元数据的Checkpoint），在本地保存，并将其推送到NameNode，同时重置NameNode上的edits。所以namenode的重启就会Load最新的一个checkpoint，并replay EditLog中记录的hdfs操作，由于EditLog中记录的是从上一次checkpoint以后到现在的操作列表，所以就会比较小。如果没有snn的这个周期性的合并过程，那么当每次重启namenode的时候，就会花费很长的时间。而这样周期性的合并就能减少重启的时间。同时也能保证HDFS系统的完整性。在namenode发生故障无法启动时，可以使用snn准备的checkpoint文件，在namenode启动时带上-importCheckpoint参数来进行恢复。

这就是SecondaryNameNode所做的事情。所以snn并不能分担namenode上对HDFS交互性操作的压力。尽管如此，当 namenode机器宕机或者namenode进程出问题时，namenode的daemon进程可以通过人工的方式从snn上拷贝一份metadata 来恢复HDFS文件系统。

至于为什么要将SNN进程运行在一台非NameNode的机器上，这主要出于两点考虑：

可扩展性：创建一个新的HDFS的snapshot需要将namenode中load到内存的metadata信息全部拷贝一遍，这样的操作需要的内存就需要和namenode占用的内存一样，由于分配给namenode进程的内存其实是对HDFS文件系统的限制，如果分布式文件系统非常的大，那么 namenode那台机器的内存就可能会被namenode进程全部占据。

容错性：当snn创建一个checkpoint的时候，它会将checkpoint拷贝成metadata的几个拷贝。将这个操作运行到另外一台机器，还可以提供分布式文件系统的容错性。

优点

Hadoop自带机制，成熟可靠，使用简单方便，无需开发，配置即可。

Secondaryary NameNode定期做Checkpoint，可保证各个Checkpoint阶段的元数据的可靠性，同时，进行fsimage与edits的合并，可以有效限制edits的大小，防止其无限制增长。

缺点

没有做到热备，当NameNode无法提供服务时，需要重启NameNode，服务恢复时间与文件系统规模大小成正比。

Secondary NameNode保存的只是Checkpoint时刻的元数据，因此，一旦NameNode上的元数据损坏，通过Checkpoint恢复的元数据并不是HDFS此刻的最新数据，存在一致性问题。

NameNode 上实现了接口NamenodeProtocol就是用亍 NameNode 和 Secondary NameNode 间的命令通信。 NameNode 和 Secondary NameNode 间数据的通信,使用的是 HTTP 协议,HTTP 的容器用的是 jetty,TransferFsImage 是文件传输的辅劣类。

GetImageServlet的doGet方法目前支持FSImage(getimage),日志(getedit)和存 FSImage(putimage)。

例如:

http://×××××:50070/getimage?getimage 可以获取 FSImage。

http://×××××:50070/getimage?getedit 可以获取日志文件。

Secondary NameNode 发送一个 HTTP 请求到 NameNode,NameNode 上一个 HTTP 客户端到 Secondary NameNode 上去下载 FSImage。

6.2 SecondaryNameNode启动过程分析

（1）main方法

  public static void main(String[] argv) throws Exception {
    StringUtils.startupShutdownMessage(SecondaryNameNode.class, argv, LOG);
    Configuration tconf = new Configuration();
    if (argv.length >= 1) {
      SecondaryNameNode secondary = new SecondaryNameNode(tconf);
      int ret = secondary.processArgs(argv);
      System.exit(ret);
    }

    // Create a never ending deamon
    // 不带参数启动的时候，会启动一个不结束的进程，用于执行定时checkpoint  
    Daemon checkpointThread = new Daemon(new SecondaryNameNode(tconf)); 
    //线程方式运行SecondaryNameNode.run  
    checkpointThread.start();
  }

（2）使用nn之前建立的RpcServer(dfs.namenode.servicerpc-address),建立同namenode之间的连接进行通信

    //使用nn之前建立的RpcServer(dfs.namenode.servicerpc-address),建立同namenode之间的连接进行通信
    nameNodeAddr = NameNode.getServiceAddress(conf, true);
    this.namenode =(NamenodeProtocol) RPC.waitForProxy(NamenodeProtocol.class,NamenodeProtocol.versionID, nameNodeAddr, conf);

（3）初始化checkpoint的目录以及进行checkpoint的频率(fs.checkpoint.period和fs.checkpoint.size

    fsName = getInfoServer();
    
    //初始化checkpoint的目录以及进行checkpoint的频率(fs.checkpoint.period和fs.checkpoint.size)
    
    
    // initialize checkpoint directories
    ////读取fs.checkpoint.dir配置项作为ckp目录，默认为/tmp/hadoop/dfs/namesecondary 
    checkpointDirs = FSImage.getCheckpointDirs(conf, "/tmp/hadoop/dfs/namesecondary");
    //读取fs.checkpoint.edits.dir配置项作为ckp edit目录，默认为/tmp/hadoop/dfs/namesecondary  
    checkpointEditsDirs = FSImage.getCheckpointEditsDirs(conf, "/tmp/hadoop/dfs/namesecondary");    
    
    //初始化checkpoint和checkpoint.edits目录，如果不存在就创造相应目录 
    checkpointImage = new CheckpointStorage();
    checkpointImage.recoverCreate(checkpointDirs, checkpointEditsDirs);

    //默认执行checkpoint时间间隔为1小时，edit文件大小为4M  
    // Initialize other scheduling parameters from the configuration
    checkpointPeriod = conf.getLong("fs.checkpoint.period", 3600);
    checkpointSize = conf.getLong("fs.checkpoint.size", 4194304);

（4）启动Http服务

 //启动Http服务
    try {
      infoServer = httpUGI.doAs(new PrivilegedExceptionAction() {

        @Override
        public HttpServer run() throws IOException, InterruptedException {
          LOG.info("Starting web server as: " +
              UserGroupInformation.getCurrentUser().getUserName());

          int tmpInfoPort = infoSocAddr.getPort();
          infoServer = new HttpServer("secondary", infoBindAddress, tmpInfoPort,
              tmpInfoPort == 0, conf, 
              SecurityUtil.getAdminAcls(conf, DFSConfigKeys.DFS_ADMIN));
          
          if(UserGroupInformation.isSecurityEnabled()) {
            System.setProperty("https.cipherSuites", 
                Krb5AndCertsSslSocketConnector.KRB5_CIPHER_SUITES.get(0));
            InetSocketAddress secInfoSocAddr = 
              NetUtils.createSocketAddr(infoBindAddress + ":"+ conf.get(
                "dfs.secondary.https.port", infoBindAddress + ":" + 0));
            imagePort = secInfoSocAddr.getPort();
            infoServer.addSslListener(secInfoSocAddr, conf, false, true);
          }
          
          infoServer.setAttribute("name.system.image", checkpointImage);
          infoServer.setAttribute(JspHelper.CURRENT_CONF, conf);
          
          infoServer.addInternalServlet("getimage", "/getimage",GetImageServlet.class, true);
          infoServer.start();
          return infoServer;
        }
      });
    } catch (InterruptedException e) {
      throw new RuntimeException(e);
    }

完成初始化操作后，会单独启动线程，循环执行SecondaryNameNode.run，run()调用了SecondaryNameNode.doWork()方法。doWork默认每5分钟会进行一次检查，如果editlog的大小超过checkpointSize大小或者距离上一次checkpoint时间超出checkpointPeriod时间，则执行SecondaryNameNode.doCheckpoint:

6.3 Checkpoint分析

SecondaryNameNode节点启动之后会不断的对NameNode节点保存的元数据进行备份(定时备份)，具体的说来就是：SecondaryNameNode的run方法每隔一段时间就会执行doCheckpoint()方法，SecondaryNameNode的主要工作都在这个方法里。这个方法会从NameNode上取下FSImage和操作日志(当然也包括版本文件和fstime)，然后在本地合并，然后再把合并后的FSImage传回NameNode。这样既可以保存一个NameNode上的数据备份，又可以为NameNode节点分担一部分压力。

具体的流程如下：

（1）调用startCheckpoint，为接下来的工作准备空间。首先存放FSImage和EditsLog的目录分别由配置文件中的fs.checkpoint.dir项和fs.checkpoint.edits.dir项来设置，然后会分别对这两类目录进行检查和恢复，对于已经存在的chechpoint要将它们设置成为lastCheckpoint;

（2）创建RPC客户端，用于和NameNode节点通信;

（3）在SecondaryNameNode节点上开启Http服务，主要用来向NameNode节点传输合并好的元数据文件FSImage;

（4）远程调用NameNode的rollEditLog方法，让NameNode停止向edits上写操作日志，而是将新产生的日志转写到临时日志文件 edits.new上。同时，NameNode端的FSImage检查点状态要设置为ROLLED_EDITS。最后会返回一个检查点签名 CheckpointSignature;

（5）通过NameNode开启的Http服务从NameNode上下载FSImage和对应的操作日志，之后设置本地的检查点状态设置为UPLOAD_DONE;

（6）加载下载的FSImage和操作日志，从而合并成一个新的FSImage;

（7）通知NameNode新的FSImage文件已经合并好了，然后NameNode节点通过SecondaryNameNode节点的http服务来下载新的FSImage;

（8）远程调用NameNode的rollFsImage，来根据下载的最新FSImage替换原来的FSImage，临时日志文件edits.new重命名为edits;

（9）调用本地endCheckpoint方法，结束一次doCheckpoint流程。

void doCheckpoint() throws IOException {

    // Do the required initialization of the merge work area.
    // 开始Checkpoint前的初始化工作主要包括：  
    // 1.unlock所有的checkpoint目录  
    // 2.关闭checkpoint的editlog文件  
    // 3.检查checkpoint目录和checkpoint edit目录是否正常  
    // 4.腾出checkpoint目录下的current目录，原current目录更名为lastcheckpoint.tmp  
    startCheckpoint();//初始化

    // Tell the namenode to start logging transactions in a new edit file
    // Retuns a token that would be used to upload the merged image.
    
    //通知namenode开始checkpoint，拿到namenode上的checkpoint标记，打开edits.new的文件流  
    CheckpointSignature sig = (CheckpointSignature)namenode.rollEditLog();

    // error simulation code for junit test
    if (ErrorSimulator.getErrorSimulation(0)) {
      throw new IOException("Simulating error0 " +
                            "after creating edits.new");
    }

    //从namenode上下载fsimage文件与editlog文件  
    downloadCheckpointFiles(sig);   // Fetch fsimage and edits
    
    //合并fsimage与editlog文件(将image和Editlog都加载到内存合并后再savenamespace)  
    doMerge(sig);                   // Do the merge
  
    //
    // Upload the new image into the NameNode. Then tell the Namenode
    // to make this new uploaded image as the most current image.
    //
    // 将合并好的checkpoint image上传给namenode
    putFSImage(sig);

    // error simulation code for junit test
    if (ErrorSimulator.getErrorSimulation(1)) {
      throw new IOException("Simulating error1 " +
                            "after uploading new image to NameNode");
    }

    //将合并后的数据文件恢复为工作状态  
    //1.fsImage.ckpt重命名为fsImage，原fsImage删除  
    //2.edits.new重命名为edits,原edits删除  
    //3.打开editlog文件  
    namenode.rollFsImage();
    
    //删除原有的previous.checkpoint  
    //将lastcheckpoint.tmp更名为previous.checkpoint  
    checkpointImage.endCheckpoint();

    LOG.info("Checkpoint done. New Image Size: "
              + checkpointImage.getFsImageName().length());
  }

6.4 Import Checkpoint恢复数据

如果主节点挂掉了，硬盘数据需要时间恢复或者不能恢复了，现在又想立刻恢复HDFS，这个时候就可以import checkpoint。步骤如下：

拿一台和原来机器一样的机器，包括配置和文件，一般来说最快的是拿你节点机器中的一台，立马能用（部分配置要改成NameNode的配置）

创建一个空的文件夹，该文件夹就是配置文件中dfs.name.dir所指向的文件夹。

拷贝你的secondary NameNode checkpoint出来的文件，到某个文件夹，该文件夹为fs.checkpoint.dir指向的文件夹

执行命令bin/hadoop namenode -importCheckpoint

这样NameNode会读取checkpoint文件，保存到dfs.name.dir。但是如果你的dfs.name.dir包含合法的 fsimage，是会执行失败的。因为NameNode会检查fs.checkpoint.dir目录下镜像的一致性，但是不会去改动它。

Hive简介
文章目录Hive简介Hive特点Hive和RDBMS的对比Hive的架构Hive的数据组织Hive数据类型Hive简介1、Hive由Facebook实现并开源2、是基于Hadoop的一个数据仓库工具3、可以将结构化的数据映射为一张数据库表4、并提供HQL(HiveSQL)查询功能5、底层数据是存储在HDFS上6、Hive的本质是将SQL语句转换为MapReduce任务运行7、使不熟悉MapRedu
python基于Hadoop的NBA球员大数据分析与可视化系统
目录技术栈介绍具体实现截图系统设计研究方法：设计步骤设计流程核心代码部分展示研究方法详细视频演示试验方案论文大纲源码获取/详细视频演示技术栈介绍Django-SpringBoot-php-Node.js-flask本课题的研究方法和研究步骤基本合理，难度适中，本选题是学生所学专业知识的延续，符合学生专业发展方向，对于提高学生的基本知识和技能以及钻研能力有益。该学生能够在预定时间内完成该课题的设计。
大数据技术之集群数据迁移
dfs.namenode.rpc-address.nameservice1.namenode30hadoop104:8020dfs.namenode.rpc-address.nameservice1.namenode37hadoop106:8020dfs.namenode.http-address.nameservice1.namenode30hadoop104:9870dfs.namenode.
HIVE（二） 2301_78012738 hive 数据仓库
目录访问HIVE的三种方式DDLDML数据操作向表中装载数据数据导出常用函数Like和RLike分组Join排序分区表和分桶表访问HIVE的三种方式启动Hive命令，CtrlC退出客户端，执行测试语句，与sql一致[wyc@hadoop102hive]$bin/hive经验小结：在hive中执行语句报错：ExecutionError,returncode2fromorg.apache.hadoop
安全运维的 “五层防护”：构建全方位安全体系 KKKlucifer 安全运维
在数字化运维场景中，异构系统复杂、攻击手段隐蔽等挑战日益突出。保旺达基于“全域纳管-身份认证-行为监测-自动响应-审计溯源”的五层防护架构，融合AI、零信任等技术，构建全链路安全运维体系，以下从技术逻辑与实践落地展开解析：第一层：全域资产纳管——筑牢安全根基挑战云网基础设施包含分布式计算（Hadoop/Spark）、数据流处理（Storm/Flink）等异构组件，通信协议繁杂，传统方案难以全面纳管
深入浅出：C语言中static函数的使用与跨文件调用 Jay_515 C语言 C语言 static
在C语言编程中，static关键字是初学者经常感到困惑的概念之一。本文将彻底解决"如何在一个文件中定义static函数并在另一个文件中使用"的问题，并深入探讨static关键字的正确用法。一、理解static函数的本质首先必须明确一个核心原则：static函数只能在定义它的源文件中使用，不能在其他文件中直接调用。这是static关键字在函数定义中的本质特性。什么是static函数？//file:u
深入浅出 Python Asynchronous I/O：从 asyncio 入门到实战
在现代软件开发中，性能是一个永恒的话题。特别是在处理网络请求、文件读写等I/O密集型任务时，传统的同步编程模型可能会因为等待而浪费大量时间。为了解决这个问题，异步编程应运而生。Python通过内置的asyncio库，为开发者提供了强大而优雅的异步编程能力。[1][2]本文将带你从零开始，逐步深入asyncio的世界，理解其核心概念，并最终通过实战案例掌握其用法。1.什么是异步编程？为什么要用它？想
大模型学习应用 6: Vercel 部署自动获取微信公众号文章获取项目大地之灯大模型应用与学习学习微信大模型应用开发 python github flask
大模型落地开发实战指南！请关注微信公众号：「AGI启程号」深入浅出，助你轻松入门！数据分析、深度学习、大模型与算法的综合进阶，尽在CSDN博客主页本文将详细介绍如何在Vercel平台上部署自动微信公众号文章获取项目，包括项目结构、代码实现、部署流程以及常见问题的解决方案。注意：本项目源代码github链接，可自行克隆到自己的代码仓库完成vercel部署，注意需要稳定ip输出（微信白名单需求），免费
ChatGPTNextChat项目重构计划（九）：NextChat 解析API路由处理逻辑 stream.ts
大模型落地开发实战指南！请关注微信公众号：「AGI启程号」深入浅出，助你轻松入门！数据分析、深度学习、大模型与算法的综合进阶，尽在CSDN博客主页目录一、文件作用概述二、导入模块与类型定义三、核心函数详细解析`fetch(url,options)`四、`fetch`函数详细步骤解析步骤1:检测Tauri环境并准备请求参数步骤2:创建数据流(`TransformStream`)步骤3:定义关闭数据流
Rust 智能指针深入浅出
在Rust中，智能指针是管理内存的高级工具，它们不仅提供指针功能，还包含额外的元数据和能力（如所有权管理、引用计数等）。以下是Rust主要智能指针的全面解析：一、智能指针vs普通引用特性普通引用(&T)智能指针所有权只借用数据通常拥有数据所有权功能简单的内存访问附加管理逻辑内存位置可指向栈或堆通常管理堆内存元数据无包含额外元数据二、核心智能指针类型1.Box：堆分配的最简指针作用：在堆上分配值，栈
Hive 事务表(ACID)问题梳理
文章目录问题描述分析原因什么是事务表概念事务表和普通内部表的区别相关配置事务表的适用场景注意事项设计原理与实现文件管理格式参考博客问题描述工作中需要使用pyspark读取Hive中的数据，但是发现可以获取metastore，外部表的数据可以读取，内部表数据有些表报错信息是：AnalysisException:org.apache.hadoop.hive.ql.metadata.HiveExcept
FPGA电子系统设计项目实战VHDL语言第2版王振红：深入掌握FPGA设计姜奇惟Sparkling
FPGA电子系统设计项目实战VHDL语言第2版王振红：深入掌握FPGA设计【下载地址】FPGA电子系统设计项目实战VHDL语言第2版王振红这是一本专注于FPGA电子系统设计的实战指南，适合初学者和进阶开发者。全书共11章，从FPGA设计基础到VHDL语言应用，再到综合电子系统设计实例，内容全面且实用。通过深入浅出的讲解，读者不仅能掌握FPGA设计方法，还能具备实际应用能力。书中详细介绍了Quart
《数字集成电路——课程设计报告》资源介绍幸刚磊Thomas
《数字集成电路——课程设计报告》资源介绍【下载地址】数字集成电路课程设计报告资源介绍该开源项目提供了《数字集成电路——课程设计报告》的完整资源，专为电子工程及相关专业的学生和研究人员设计。报告详细介绍了与非门、或非门、反相器、主从JK触发器以及二-四译码器等基础逻辑电路的搭建与仿真过程。通过使用Cadence和LTspice软件，学习者可以掌握数字集成电路的实际设计技能。报告内容深入浅出，适合具备
FPGA电子系统设计项目实战 VHDL语言第2版王振红幸刚磊Thomas
FPGA电子系统设计项目实战VHDL语言第2版王振红【下载地址】FPGA电子系统设计项目实战VHDL语言第2版王振红这是一本专注于FPGA电子系统设计的实战指南，适合初学者和进阶开发者。全书共11章，从FPGA设计基础到VHDL语言应用，再到综合电子系统设计实例，内容全面且实用。通过深入浅出的讲解，读者不仅能掌握FPGA设计方法，还能具备实际应用能力。书中详细介绍了QuartusⅡ工具的使用、VH
前端面试专栏-算法篇：20. 贪心算法与动态规划入门
欢迎来到前端面试通关指南专栏！从js精讲到框架到实战，渐进系统化学习，坚持解锁新技能，祝你轻松拿下心仪offer。前端面试通关指南专栏主页前端面试专栏规划详情贪心算法与动态规划入门在计算机科学领域，算法是解决问题的核心工具。而贪心算法与动态规划作为两种重要的算法设计策略，广泛应用于优化问题中。本文将深入浅出地介绍这两种算法的基本概念、适用场景、实现方法，并通过经典案例帮助读者理解和掌握它们的核心思
深入浅出二分法：从实际问题看“最小化最大值”问题的求解之道余厌厌厌算法数据结构 go
在算法学习中，二分法是一种高效且应用广泛的查找策略。它不仅能用于有序数组的元素查找，更在“最小化最大值”“最大化最小值”等优化问题中发挥着关键作用。本文将结合两道典型例题，从问题分析、思路推导到代码实现，带你深入理解二分法在这类问题中的应用，并总结常见错误与避坑指南。一、二分法的核心思想：利用单调性高效收缩范围二分法的本质是通过不断将搜索范围减半，快速定位目标值。在“最小化最大值”问题中，其核心逻
Flask 框架：深入浅出理解其工作原理与机制 chilavert318 熬之滴水穿石 flask python 后端
今天写不发相关连载了，而是将我近段时间接触到的内容做次分享。这几天，使用了开源的DashGO框架，了解到了这个开源的底层是Flask框架。所以花了点时间了解一下，现在Web开发领域，各种框架层出不穷，看了一下Flask的源码，作为一款轻量级的PythonWeb框架，还是凸显了简洁、灵活的特点。今天就深入浅出地将我理解的Flask讲解出来。一、Flask是什么简单来说，Flask是一个使用Pytho
游戏开发需要的知识 benchi0852 游戏编程网络游戏程序开发 windows 网络
网络游戏程序开发学习流程，这是最少要看的书了：1、C++primer中文版第4版2、C++标准程序库自修教程与参考手册3、Windows程序设计第5版4、MFCwindows程序设计第2版中文版5、VC++深入详解6、MFC深入浅出7、EffictiveSTL8、Windows核心编程学好以上几本，也可以去游戏公司一试VC++软件工程师职位了。9、WINDOWS游戏编程大师技巧第2版10、3D游戏
Docker快速构建Hive测试环境静谧星光 docker hive 容器编程
Docker是一种流行的容器化平台，可以帮助我们快速构建和管理应用程序的环境。在本文中，我们将学习如何使用Docker快速构建Hive测试环境。Hive是一个基于Hadoop的数据仓库基础设施，它提供了一种类似于SQL的查询语言，用于分析和处理大规模数据集。步骤1：安装Docker和DockerCompose首先，我们需要安装Docker和DockerCompose。您可以根据您的操作系统类型，从
HDFS 伪分布模式搭建与使用全攻略（适合初学者 & 开发测试环境） huihui450 hdfs hadoop 大数据
HDFS（HadoopDistributedFileSystem）作为Hadoop生态系统的核心组件，广泛应用于海量数据的分布式存储场景。对于开发者而言，伪分布模式提供了一种低成本、高还原度的学习与测试方式。本文将详细介绍如何在本地搭建并使用HDFS的伪分布模式，包括环境准备、配置过程、常用命令及常见问题排查，帮助你快速入门Hadoop分布式文件系统的实践操作。一、什么是伪分布模式？Hadoop有
深入浅出JavaScript定时器：掌握异步编程的核心工具 coding随想 JavaScript javascript 开发语言 ecmascript
深入浅出JavaScript定时器：掌握异步编程的核心工具在前端开发中，JavaScript定时器是一个看似简单却功能强大的工具。它不仅是实现延时操作和周期性任务的基础，更是理解JavaScript事件循环机制的关键。本文将带你全面了解JavaScript定时器的原理、用法以及最佳实践。一、什么是JavaScript定时器？JavaScript定时器是通过setTimeout和setInterva
为什么在 macOS 中运行 Python 项目必须使用虚拟环境？ coding随想 Python macos python 开发语言
为什么在macOS中运行Python项目必须使用虚拟环境？在macOS上开发Python项目时，虚拟环境（VirtualEnvironment）是一个不可或缺的工具。无论你是初学者还是资深开发者，理解虚拟环境的意义和使用方法，都是提升开发效率和项目稳定性的关键。本文将从macOS的特殊性出发，深入浅出地解释为什么在macOS中运行Python项目必须使用虚拟环境。一、macOS系统Python的局
深入详解 AI 与深度学习：从零开始掌握 BERT 模型架构拉不拉斯AICoding 技术探索人工智能深度学习 bert
深入详解AI与深度学习：从零开始掌握BERT模型架构引言在自然语言处理（NLP）领域，BERT（BidirectionalEncoderRepresentationsfromTransformers）是近年来最具影响力的模型之一。它通过双向上下文理解彻底改变了NLP任务的处理方式。本文将从基础概念到核心原理、应用场景和实践技巧，深入浅出地讲解BERT，帮助初学者快速掌握这一技术。一、BERT的核心
深入浅出之CMake工具及CMakefile文件浩瀚之水_csdn #Pytorch框架深度学习目标检测 YOLO 目标检测深度学习
一、CMake工具CMake是一个跨平台的安装（编译）工具，它可以用简单的语句来描述所有平台的安装（编译）过程。以下是对CMake的详细解析：1.1、CMake的基本概念定义：CMake是一个跨平台的自动化建构系统，它使用一种名为CMakeLists.txt的配置文件来控制软件编译过程。功能：CMake可以编译源代码、制作程序库、产生适配器（wrapper），还可以用任意的顺序建构执行档。它支持i
《深入浅出 React 19：AI 视角下的源码解析与进阶》- JSX 与 React Element
如果你对React源码解析感兴趣，欢迎访问我的个人博客：深入浅出React19：AI视角下的源码解析与进阶或者我的微信公众号-前端小卒在我的博客和公众号中，你可以找到：完整的React源码解析电子书-从基础概念到高级实现，全面覆盖React18的核心机制系统化的学习路径-按照React的执行流程，循序渐进地深入每个模块实战案例分析-结合真实场景，理解React设计思想和最佳实践最新技术动态-持续更
YARN container cpu超核如何解决 fzip YARN 超核
在ApacheHadoopYARN中，ContainerCPU超核（即Container使用的CPU资源超过分配量）是一个常见问题，可能导致集群性能下降或不稳定。以下是解决该问题的详细步骤：1.问题诊断1.1确认超核现象查看YARNWebUI：访问http://:8088，检查Container的CPU使用率是否持续超过分配的vCore数。检查NodeManager日志：查看/var/log/ha
Hadoop-Mapreduce入门
Hadoop-Mapreduce入门MapReduce介绍mapreduce设计MapReduce编程规范入门案例WordCountMapReduce介绍MapReduce的思想核心是“分而治之”，适用于大量复杂的任务处理场景（大规模数据处理场景）。知识。Map负责“分”，把复杂的任务分解为若干个“简单的任务”来并行处理。可以进行拆分的前提是这些小任务可以并行计算，彼此间几乎没有依赖关系。Redu
Hadoop MapReduce入门且行且安~ 数据分析进阶之路 Linux命令 hadoop MapReduce入门
入门简介计算过程分为两个阶段Map和ReduceMap阶段并行处理输入数据Reduce阶段对Map结果进行汇总针对python语言来说：map函数或者reduce函数来说，输出的数据格式为元组tuple一个简单的MapReduce程序只需要指定map()reduce()input()output()剩下的由框架完成。Linux常见命令：-读取文件（文本文件，在Windows下使用记事本打开的文件）
Hadoop MapReduce 入门
一、Hadoop3.0.4环境准备1.环境要求Java8（Hadoop3.0.4不支持Java11+）单节点或多节点Linux系统（推荐Ubuntu18.04+）至少4GB内存（建议8GB+）50GB以上磁盘空间2.安装Java#安装Java8sudoapt-getinstallopenjdk-8-jdk#验证安装java-version3.下载与安装Hadoop3.0.4#下载Hadoop3.0
管理大数据存储的十大技巧 weixin_34238633 大数据数据库运维
在1990年，每一台应用服务器都倾向拥有直连式系统(DAS)。SAN的构建则是为了更大的规模和更高的效率提供共享的池存储。Hadoop已经逆转了这一趋势回归DAS。每一个Hadoop集群都拥有自身的——虽然是横向扩展型——直连式存储，这有助于Hadoop管理数据本地化，但也放弃了共享存储的规模和效率。如果你拥有多个实例或Hadoop发行版，那么你就将得到多个横向扩展的存储集群。而我们所遇到的最大挑
算法单链的创建与删除换个号韩国红果果 c 算法
先创建结构体 struct student { int data; //int tag;//标记这是第几个 struct student *next; }; // addone 用于将一个数插入已从小到大排好序的链中 struct student *addone(struct student *h,int x){ if(h==NULL) //??????
《大型网站系统与Java中间件实践》第2章读后感白糖_ java中间件
断断续续花了两天时间试读了《大型网站系统与Java中间件实践》的第2章，这章总述了从一个小型单机构建的网站发展到大型网站的演化过程---整个过程会遇到很多困难，但每一个屏障都会有解决方案，最终就是依靠这些个解决方案汇聚到一起组成了一个健壮稳定高效的大型系统。看完整章内容，
zeus持久层spring事务单元测试 deng520159 java DAO spring jdbc
今天把zeus事务单元测试放出来,让大家指出他的毛病, 1.ZeusTransactionTest.java 单元测试 package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Test; import
Rss 订阅开发周凡杨 html xml 订阅 rss 规范
RSS是 Really Simple Syndication的缩写（对rss2.0而言，是这三个词的缩写，对rss1.0而言则是RDF Site Summary的缩写，1.0与2.0走的是两个体系）。 RSS
分页查询实现 g21121 分页查询
在查询列表时我们常常会用到分页，分页的好处就是减少数据交换，每次查询一定数量减少数据库压力等等。按实现形式分前台分页和服务器分页：前台分页就是一次查询出所有记录，在页面中用js进行虚拟分页，这种形式在数据量较小时优势比较明显，一次加载就不必再访问服务器了，但当数据量较大时会对页面造成压力，传输速度也会大幅下降。服务器分页就是每次请求相同数量记录，按一定规则排序，每次取一定序号直接的数据
spring jms异步消息处理 510888780 jms
spring JMS对于异步消息处理基本上只需配置下就能进行高效的处理。其核心就是消息侦听器容器，常用的类就是DefaultMessageListenerContainer。该容器可配置侦听器的并发数量，以及配合MessageListenerAdapter使用消息驱动POJO进行消息处理。且消息驱动POJO是放入TaskExecutor中进行处理，进一步提高性能，减少侦听器的阻塞。具体配置如下：
highCharts柱状图布衣凌宇 hightCharts 柱图
第一步：导入 exporting.js,grid.js,highcharts.js;第二步：写controller @Controller@RequestMapping(value="${adminPath}/statistick")public class StatistickController { private UserServi
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans spring mvc Spring 教程 spring3 教程 Spring 入门
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
TLS java简单实现 antlove java ssl keystore tls secure
1. SSLServer.java package ssl; import java.io.FileInputStream; import java.io.InputStream; import java.net.ServerSocket; import java.net.Socket; import java.security.KeyStore; import
Zip解压压缩文件百合不是茶 Zip格式解压 Zip流的使用文件解压
ZIP文件的解压缩实质上就是从输入流中读取数据。Java.util.zip包提供了类ZipInputStream来读取ZIP文件,下面的代码段创建了一个输入流来读取ZIP格式的文件; ZipInputStream in = new ZipInputStream(new FileInputStream(zipFileName)); &n
underscore.js 学习（一） bijian1013 JavaScript underscore
工作中需要用到underscore.js，发现这是一个包括了很多基本功能函数的js库，里面有很多实用的函数。而且它没有扩展 javascript的原生对象。主要涉及对Collection、Object、Array、Function的操作。学
java jvm常用命令工具——jstatd命令(Java Statistics Monitoring Daemon) bijian1013 java jvm jstatd
1.介绍 jstatd是一个基于RMI（Remove Method Invocation）的服务程序，它用于监控基于HotSpot的JVM中资源的创建及销毁，并且提供了一个远程接口允许远程的监控工具连接到本地的JVM执行命令。 jstatd是基于RMI的，所以在运行jstatd的服务
【Spring框架三】Spring常用注解之Transactional bit1129 transactional
Spring可以通过注解@Transactional来为业务逻辑层的方法(调用DAO完成持久化动作)添加事务能力，如下是@Transactional注解的定义： /* * Copyright 2002-2010 the original author or authors. * * Licensed under the Apache License, Version
我(程序员)的前进方向 bitray 程序员
作为一个普通的程序员,我一直游走在java语言中,java也确实让我有了很多的体会.不过随着学习的深入,java语言的新技术产生的越来越多,从最初期的javase,我逐渐开始转变到ssh,ssi,这种主流的码农,.过了几天为了解决新问题,webservice的大旗也被我祭出来了,又过了些日子jms架构的activemq也开始必须学习了.再后来开始了一系列技术学习,osgi,restful.....
nginx lua开发经验总结 ronin47
使用nginx lua已经两三个月了，项目接开发完毕了，这几天准备上线并且跟高德地图对接。回顾下来lua在项目中占得必中还是比较大的，跟PHP的占比差不多持平了，因此在开发中遇到一些问题备忘一下 1：content_by_lua中代码容量有限制，一般不要写太多代码，正常编写代码一般在100行左右（具体容量没有细心测哈哈，在4kb左右），如果超出了则重启nginx的时候会报 too long pa
java-66-用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。颠倒之后的栈为{5,4,3,2,1}，5处在栈顶 bylijinnan java
import java.util.Stack; public class ReverseStackRecursive { /** * Q 66.颠倒栈。 * 题目：用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。 * 颠倒之后的栈为{5,4,3,2,1}，5处在栈顶。 *1. Pop the top element *2. Revers
正确理解Linux内存占用过高的问题 cfyme linux
Linux开机后，使用top命令查看，4G物理内存发现已使用的多大3.2G，占用率高达80%以上： Mem: 3889836k total, 3341868k used, 547968k free, 286044k buffers Swap: 6127608k total,&nb
[JWFD开源工作流]当前流程引擎设计的一个急需解决的问题 comsci 工作流
当我们的流程引擎进入IRC阶段的时候，当循环反馈模型出现之后，每次循环都会导致一大堆节点内存数据残留在系统内存中，循环的次数越多，这些残留数据将导致系统内存溢出，并使得引擎崩溃。。。。。。而解决办法就是利用汇编语言或者其它系统编程语言，在引擎运行时，把这些残留数据清除掉。
自定义类的equals函数 dai_lm equals
仅作笔记使用 public class VectorQueue { private final Vector<VectorItem> queue; private class VectorItem { private final Object item; private final int quantity; public VectorI
Linux下安装R语言 datageek R语言 linux
命令如下：sudo gedit /etc/apt/sources.list1、deb http://mirrors.ustc.edu.cn/CRAN/bin/linux/ubuntu/ precise/ 2、deb http://dk.archive.ubuntu.com/ubuntu hardy universesudo apt-key adv --keyserver ke
如何修改mysql 并发数(连接数)最大值 dcj3sjt126com mysql
MySQL的连接数最大值跟MySQL没关系，主要看系统和业务逻辑了方法一：进入MYSQL安装目录打开MYSQL配置文件 my.ini 或 my.cnf查找 max_connections=100 修改为 max_connections=1000 服务里重起MYSQL即可　　方法二：MySQL的最大连接数默认是100客户端登录：mysql -uusername -ppass
单一功能原则 dcj3sjt126com 面向对象的程序设计软件设计编程原则
单一功能原则[ 编辑] SOLID 原则单一功能原则开闭原则 Liskov代换原则接口隔离原则依赖反转原则查论编在面向对象编程领域中，单一功能原则（Single responsibility principle）规定每个类都应该有
POJO、VO和JavaBean区别和联系 fanmingxing VO POJO javabean
POJO和JavaBean是我们常见的两个关键字，一般容易混淆，POJO全称是Plain Ordinary Java Object / Plain Old Java Object，中文可以翻译成：普通Java类，具有一部分getter/setter方法的那种类就可以称作POJO，但是JavaBean则比POJO复杂很多，JavaBean是一种组件技术，就好像你做了一个扳子，而这个扳子会在很多地方被
SpringSecurity3.X--LDAP：AD配置 hanqunfeng SpringSecurity
前面介绍过基于本地数据库验证的方式，参考http://hanqunfeng.iteye.com/blog/1155226，这里说一下如何修改为使用AD进行身份验证【只对用户名和密码进行验证，权限依旧存储在本地数据库中】。将配置文件中的如下部分删除：
mac mysql 修改密码 IXHONG mysql
$ sudo /usr/local/mysql/bin/mysqld_safe –user=root & //启动MySQL(也可以通过偏好设置面板来启动)$ sudo /usr/local/mysql/bin/mysqladmin -uroot password yourpassword //设置MySQL密码（注意，这是第一次MySQL密码为空的时候的设置命令，如果是修改密码，还需在-
设计模式--抽象工厂模式 kerryg 设计模式
抽象工厂模式：工厂模式有一个问题就是，类的创建依赖于工厂类，也就是说，如果想要拓展程序，必须对工厂类进行修改，这违背了闭包原则。我们采用抽象工厂模式，创建多个工厂类，这样一旦需要增加新的功能，直接增加新的工厂类就可以了，不需要修改之前的代码。总结：这个模式的好处就是，如果想增加一个功能，就需要做一个实现类，
评"高中女生军训期跳楼” nannan408
首先，先抛出我的观点，各位看官少点砖头。那就是，中国的差异化教育必须做起来。孔圣人有云：有教无类。不同类型的人，都应该有对应的教育方法。目前中国的一体化教育，不知道已经扼杀了多少创造性人才。我们出不了爱迪生，出不了爱因斯坦，很大原因，是我们的培养思路错了，我们是第一要“顺从”。如果不顺从，我们的学校，就会用各种方法，罚站，罚写作业，各种罚。军
scala如何读取和写入文件内容？ qindongliang1922 java jvm scala
直接看如下代码： package file import java.io.RandomAccessFile import java.nio.charset.Charset import scala.io.Source import scala.reflect.io.{File, Path} /** * Created by qindongliang on 2015/
C语言算法之百元买百鸡 qiufeihu c 算法
中国古代数学家张丘建在他的《算经》中提出了一个著名的“百钱买百鸡问题”，鸡翁一，值钱五，鸡母一，值钱三，鸡雏三，值钱一，百钱买百鸡，问翁，母，雏各几何？代码如下： #include <stdio.h> int main() { int cock,hen,chick; /*定义变量为基本整型*/ for(coc
Hadoop集群安全性：Hadoop中Namenode单点故障的解决方案及详细介绍AvatarNode wyz2009107220 NameNode
正如大家所知，NameNode在Hadoop系统中存在单点故障问题，这个对于标榜高可用性的Hadoop来说一直是个软肋。本文讨论一下为了解决这个问题而存在的几个solution。 1. Secondary NameNode 原理：Secondary NN会定期的从NN中读取editlog，与自己存储的Image进行合并形成新的metadata image 优点：Hadoop较早的版本都自带，

第七章：小朱笔记hadoop之源码分析-hdfs分析 第六节：SecondaryNameNode分析

第七章：小朱笔记hadoop之源码分析-hdfs分析

第六节：SecondaryNameNode分析

6.1 架构分析

6.2 SecondaryNameNode启动过程分析

6.3 Checkpoint分析

6.4 Import Checkpoint恢复数据

6.1 架构分析

6.2 SecondaryNameNode启动过程分析

6.3 Checkpoint分析

6.4 Import Checkpoint恢复数据

你可能感兴趣的:(Hadoop深入浅出)

第七章：小朱笔记hadoop之源码分析-hdfs分析第六节：SecondaryNameNode分析