黄雪超

深入HDFS——NameNode启动源码

引入

前面我们已经对HDFS有了很多了解，但是光说不练假把式，今天开启深入源码的纯享模式，先来看看NameNode启动流程，在代码层面，到底是如何实现的。

首先还是得从我们的前一篇提到过的NameNode类（org.apache.hadoop.hdfs.server.namenode.NameNode）开始，既然是看启动流程，那自然是先找类里面的main方法啦。

当我们启动NameNode的时候，它就会执行NameNode类的main方法，在main方法中会创建NameNode对象，代码如下：

public static void main(String argv[]) throws Exception {
    ... ...
    // createNameNode返回NameNode对象
    NameNode namenode = createNameNode(argv, null);
    ... ...
}

在main方法里面还有个小细节，代码如下：
if (namenode != null) {
  namenode.join();
}
这个会让线程阻塞在这儿。这也就是为什么我们敲 jps 命令的时候，能一直看到 namenode的原因。

从上面源码可以看到， createNameNode 这个方法会返回NameNode对象，那我们看看它是怎么做的，代码如下：

public static NameNode createNameNode(String argv[], Configuration conf) throws 
IOException {
  LOG.info("createNameNode " + Arrays.asList(argv));
  if (conf == null)
    conf = new HdfsConfiguration();
  ... ...
  switch (startOpt) {
    // 我们如果是通过 hdfs namenode -format 命令格式化的话，就会进入这里
    case FORMAT: {
      boolean aborted = format(conf, startOpt.getForceFormat(),
          startOpt.getInteractiveFormat());
      terminate(aborted ? 1 : 0);
      return null; // avoid javac warning
    }
    // 正常启动会直接到这里
    default: {
      DefaultMetricsSystem.initialize("NameNode");
      return new NameNode(conf);
    }
  }
}

可以看到在createNameNode方法中，实际上最终返回 new NameNode(conf) 对象，NameNode构建方法如下：

public NameNode(Configuration conf) throws IOException {
    //这里第二个参数为 "NameNode"
    // NamenodeRole 枚举类里面记录着 NAMENODE  ("NameNode")
    this(conf, NamenodeRole.NAMENODE);
}

protected NameNode(Configuration conf, NamenodeRole role) throws IOException { 
    this.conf = conf;
    this.role = role;
    setClientNamenodeAddress(conf);
    String nsId = getNameServiceId(conf);
    String namenodeId = HAUtil.getNameNodeId(conf, nsId);
    this.haEnabled = HAUtil.isHAEnabled(conf, nsId);
    state = createHAState(getStartupOption(conf));
    this.allowStaleStandbyReads = HAUtil.shouldAllowStandbyReads(conf);
    this.haContext = createHAContext();
    ... ...
    initializeGenericKeys(conf, nsId, namenodeId);
    //我们去分析源码的时候，这样的关键的方法我们一定要留意。
    initialize(conf);
    ... ...
    this.started.set(true);
  }

通过上面源码可以看到，NameNode的构造方法中，会执行 initialize(conf)方法，来进行NameNode启动流程。

启动过程

下面我们重点来看下这个启动流程，进入initialize方法，可以看到其源码的主要实现如下：

protected void initialize(Configuration conf) throws IOException {
    ... ...
    //判断是NameNode角色
    if (NamenodeRole.NAMENODE == role) {
      //1.启动 NameNode  httpserver ，用户可以通过http访问WebUI
      startHttpServer(conf);
    }
    //2.加载本地文件中的镜像文件和editslog到内存中
    loadNamesystem(conf);
    ... ... 
    //3.createRpcServer 创建 NameNodeRpc服务端
    rpcServer = createRpcServer(conf);
    ... ...
    //4.启动CommoneService 进行 NameNode资源检查和安全模式检查
    startCommonServices(conf);
    ... ... 
}

给大家简单总结一下，在initialize方法中NameNode启动时，主要经过的4个过程：

启动NameNode HttpServer （方便用户通过http访问HDFS WebUI）
加载本地元数据（Fsimage和Editslog）
创建NameNodeRpcServer并启动（ClientRPCServer和ServiceRPCServer）
启动公共的服务（资源检查和安全模式检查）

是不是看到很多熟悉的关键词？别激动，我们接着分别深入这4个过程看看。

1.启动HttpServer

首先是第1个过程，startHttpServer方法主要创建HttpServer ，这样用户就可以通过WebUI来访问NameNode。

startHttpServer代码如下：

private void startHttpServer(final Configuration conf) throws IOException {
  //getHttpServerBindAddress 中绑定了NameNode的IP和端口
  httpServer = new NameNodeHttpServer(conf, this, getHttpServerBindAddress(conf));
  //启动Http server
  httpServer.start();
  httpServer.setStartupProgress(startupProgress);
}

getHttpServerBindAddress(conf)中进行了NameNode节点IP和端口绑定，并返回InetSocketAddress对象，getHttpServerBindAddress(conf)源码如下:

protected InetSocketAddress getHttpServerBindAddress(Configuration conf) {
  //getHttpServerAddress 绑定NameNode IP及端口
  InetSocketAddress bindAddress = getHttpServerAddress(conf);

  // If DFS_NAMENODE_HTTP_BIND_HOST_KEY exists then it overrides the
  // host name portion of DFS_NAMENODE_HTTP_ADDRESS_KEY.
  //获取 NameNode host主机
  final String bindHost = conf.getTrimmed(DFS_NAMENODE_HTTP_BIND_HOST_KEY);
  if (bindHost != null && !bindHost.isEmpty()) {
    bindAddress = new InetSocketAddress(bindHost, bindAddress.getPort());
  }

  return bindAddress;
}

以上源码中getHttpServerAddress会绑定节点IP和端口。

接着往下看，httpServer.start()具体源码如下：

void  start() throws IOException {
    ... ...
    //Hadoop中封装了自己的Httpserver，形成自己的Httpserver2
    HttpServer2.Builder builder = DFSUtil.httpServerTemplateForNNAndJN(conf,
        httpAddr, httpsAddr, "hdfs",
        DFSConfigKeys.DFS_NAMENODE_KERBEROS_INTERNAL_SPNEGO_PRINCIPAL_KEY,
        DFSConfigKeys.DFS_NAMENODE_KEYTAB_FILE_KEY);
    ... ...
    //servlet越多，支持的功能就越多
    setupServlets(httpServer, conf);
    //启动 httpServer 服务，对外开放绑定的端口
    httpServer.start();
    ... ...
}

在startHttpServer方法中的httpServer.start()方法中，HDFS进行了HttpServer2封装，Hadoop中使用了自己的Httpserver进行Kerberos认证，最后通过HttpServer2.Builder.build()方法创建了hdfs自己的httpserver并调用start方法进行启动。

2.加载元数据

再看第2个过程，loadNamesystem(conf) 中会加载本地Fsimage和Editslog,具体源码如下：

protected void loadNamesystem(Configuration conf) throws IOException {
  //从磁盘中加载editslog和fsimage
  this.namesystem = FSNamesystem.loadFromDisk(conf);
}

loadFromDisk源码如下：

static FSNamesystem loadFromDisk(Configuration conf) throws IOException {
    ... ...
    // 封装FSImage对象
    FSImage fsImage = new FSImage(conf,
        FSNamesystem.getNamespaceDirs(conf),
        FSNamesystem.getNamespaceEditsDirs(conf));
    // 创建 FSNamesystem 对象，并对该对象中fsimage 属性赋值fsimage
    FSNamesystem namesystem = new FSNamesystem(conf, fsImage, false);
    ... ...
    // HDFS这命名挺清晰的，这个代码看名字就知道去加载元数据的
    namesystem.loadFSImage(startOpt);
    .... ...
}

继续往里走，loadFSImage 源码如下：

private void loadFSImage(StartupOption startOpt) throws IOException {
    final FSImage fsImage = getFSImage();

    // format before starting up if requested
    // 参数配置里有格式化的要求，就会在这进行格式化元数据
    if (startOpt == StartupOption.FORMAT) {
      fsImage.format(this, fsImage.getStorage().determineClusterId());// reuse current id
      startOpt = StartupOption.REGULAR;
    }
    ... ...
    final boolean staleImage
                //fsimage + editLog = new FSimage
                //这里会合并元数据
          = fsImage.recoverTransitionRead(startOpt, this, recovery);
    // 打印日志
    LOG.info("Need to save fs image? " + needToSave
          + " (staleImage=" + staleImage + ", haEnabled=" + haEnabled
          + ", isRollingUpgrade=" + isRollingUpgrade() + ")");
    //（2）把合并出来的新的fsimage写到我们的磁盘上面。
    fsImage.saveNamespace(this);
    ... ...
    //（3）打开一个新的editLog开始写日志
    fsImage.openEditLogForWrite();
    ... ...
    imageLoadComplete();
}

可以从源码看到，当HDFS重启时，会将FsImage内容映射到内存中，然后再一条条执行Editslog文件中的操作，从而恢复到NameNode重启前的状态。

这也进一步验证了我们之前所说的内容。

3.创建NameNodeRpcServer并启动

接着是第3个过程，也就是我们很熟悉的RPC啦。

NameNodeRPCserver里面有两个主要的RPC服务：

ClientRPCServer：hdfs的客户端（用户）去操作HDFS的方法
ServiceRPCServer：服务之间互相进行的方法的调用（注册，心跳等）

创建NameNodeRpcServer的代码如下：

//3.createRpcServer 创建 NameNodeRpc服务端和客户端
rpcServer = createRpcServer(conf);

createRpcServer源码如下：

protected NameNodeRpcServer createRpcServer(Configuration conf) throws IOException {
  return new NameNodeRpcServer(conf, this);
}

可以看到， new NameNodeRpcServer(conf, this) 方法会创建并返回一个nameNodeRpcServer对象，而这个对象里面，又会创建前面我们提到的，Rpc服务端和客户端的RpcServer。

具体实现源码如下：

public NameNodeRpcServer(Configuration conf, NameNode nn) throws IOException {
    ... ...
    // 这个服务起来是用来监听DataNode发送过来的请求的
    serviceRpcServer = new RPC.Builder(conf)
        .setProtocol(
            org.apache.hadoop.hdfs.protocolPB.ClientNamenodeProtocolPB.class)
        .setInstance(clientNNPbService)
        .setBindAddress(bindHost)
        .setPort(serviceRpcAddr.getPort())
        .setNumHandlers(serviceHandlerCount)
        .setVerbose(false)
        .setSecretManager(namesystem.getDelegationTokenSecretManager())
        .build();
    ... ...
    // 这个服务是主要服务于客户端发送过来的请求的
    clientRpcServer = new RPC.Builder(conf)
        .setProtocol(
            org.apache.hadoop.hdfs.protocolPB.ClientNamenodeProtocolPB.class)
        .setInstance(clientNNPbService)
        .setBindAddress(bindHost)
        .setPort(rpcAddr.getPort())
        .setNumHandlers(handlerCount)
        .setVerbose(false)
        .setSecretManager(namesystem.getDelegationTokenSecretManager())
        .setAlignmentContext(stateIdContext)
        .build();
    ... ...
}

这里只是创建，NameNode serviceRpcServer和clientRpcServer，会在下一个过程启动。

4.启动公共的服务

经过前面3个过程后，就会开始启动一些公共的服务，比如上面刚刚提到的，NameNode的RPC服务，不过在启动前还会进行两个检查：

资源检查，检查是否有磁盘足够存储元数据
安全模式检查，检查是否可以退出安全模式。

下面我们来看看源码怎么实现的：

//4.启动CommoneService 进行 NameNode资源检查和安全模式检查
startCommonServices(conf);

startCommonServices方法实现如下：

private void startCommonServices(Configuration conf) throws IOException {
    ... ...
    // 启动服务 检测磁盘空间和安全模式
    namesystem.startCommonServices(conf, haContext);
    ... ...
    // RPC服务端启动起来了
    rpcServer.start();
    ... ...
}

以上代码中

startCommonServices(conf, haContext) 主要负责磁盘空间和安全模式检测；
rpcServer.start() 则主要进行NameNode serviceRpcServer和clientRpcServer的启动。

startCommonServices(conf, haContext)方法的具体源码如下：

void startCommonServices(Configuration conf, HAContext haContext) throws IOException {
    ... ...
    //nnResourceChecker 对象用于后续检查editslog 目录空间是否足够
    nnResourceChecker = new NameNodeResourceChecker(conf);
    //检查是否有足够磁盘空间存储数据
    checkAvailableResources();
    assert !blockManager.isPopulatingReplQueues();
    StartupProgress prog = NameNode.getStartupProgress();
    //开始进入安全模式
    prog.beginPhase(Phase.SAFEMODE);
    //获取所有可用的block
    long completeBlocksTotal = getCompleteBlocksTotal();
    //设置安全模式
    prog.setTotal(Phase.SAFEMODE, STEP_AWAITING_REPORTED_BLOCKS,completeBlocksTotal);
    //启动块服务并对DataNode 心跳超时进行判断
    blockManager.activate(conf, completeBlocksTotal);
    ... ...
}

以上代码中 nnResourceChecker = new NameNodeResourceChecker(conf); 中会设置磁盘空间最小阈值100M，然后执行 checkAvailableResources(); 方法进行检查节点磁盘空间是充足。

new NameNodeResourceChecker(conf) 源码如下:

public NameNodeResourceChecker(Configuration conf) throws IOException {
    ... ...
    // duReserved 默认为100M
    duReserved = conf.getLongBytes(DFSConfigKeys.DFS_NAMENODE_DU_RESERVED_KEY,
        DFSConfigKeys.DFS_NAMENODE_DU_RESERVED_DEFAULT);
    ... ...
}

checkAvailableResources()源码如下：

void checkAvailableResources() {
    ... ...
    //判断磁盘资源是否够用
    hasResourcesAvailable = nnResourceChecker.hasAvailableDiskSpace();
    ... ...
}

其中 hasAvailableDiskSpace() 方法实现如下：

public boolean hasAvailableDiskSpace() {
  return NameNodeResourcePolicy.areResourcesAvailable(volumes.values(),
      minimumRedundantVolumes);
}

这个方法如果返回true，表示至少有一个配置的磁盘空间满足使用。

方法中的 areResourcesAvailable 实现源码如下：

static boolean areResourcesAvailable(
    Collection resources,
    int minimumRedundantResources) {
    ... ...
    //检查资源是否充足
    for (CheckableNameNodeResource resource : resources) {
      if (!resource.isRequired()) {
        redundantResourceCount++;
        // isResourceAvailable 实现类为 NameNodeResourceChecker.CheckedVolume中的isResourceAvailable 方法
        if (!resource.isResourceAvailable()) {
          disabledRedundantResourceCount++;
        }
      } else {
        requiredResourceCount++;
        if (!resource.isResourceAvailable()) {
          // Short circuit - a required resource is not available.
          return false;
        }
      }
    }
    ... ...
}

其中resource.isResourceAvailable()中判断磁盘是否满足最低的100M，返回true表示满足，返回false表示不满足。

具体判断源码如下：

public boolean isResourceAvailable() {
... ...
//如果磁盘空间小于100M 返回fasle
if (availableSpace < duReserved) {
  LOG.warn("Space available on volume '" + volume + "' is "
      + availableSpace +
      ", which is below the configured reserved amount " + duReserved);
  return false;
} else {
  return true;
}
... ...
}

检测完磁盘可用空间后，进入安全模式，并进行可用block的检测,进而判断是否退出NameNode安全模式，具体源码在FSNmaesystem.startCommonServices中，如下：

... ...
//开始进入安全模式
prog.beginPhase(Phase.SAFEMODE);
//获取所有可用的block
long completeBlocksTotal = getCompleteBlocksTotal();
//设置安全模式
prog.setTotal(Phase.SAFEMODE, STEP_AWAITING_REPORTED_BLOCKS,
    completeBlocksTotal);
//检测DataNode状态及是否退出安全模式
blockManager.activate(conf, completeBlocksTotal);
... ...

以上代码中blockManager.activate(conf, completeBlocksTotal)会进行block块检测，查看正常可用block数是否满足总block的99.9% 可用。

active(conf,completeBlocksTotal)具体源码如下：

public void activate(Configuration conf, long blockTotal) {
    ... ...
    //datanodeManager对象对周期检查DataNode连接情况
    datanodeManager.activate(conf);

    ... ...
    //检测 正常 block 情况
    bmSafeMode.activate(blockTotal);
    ... ...
}

datanodeManager.activate(conf)主要进行DataNode节点是否宕机，默认经过10分钟+30s一个DataNode没有向NameNode汇报心跳信息，则认为该DataNode宕机。（还记得核心设计里面提到的计算公式吗？）

datanodeManager.activate(conf)实现源码如下：

void activate(final Configuration conf) {
  datanodeAdminManager.activate(conf);
  //与DataNode心跳检测
  heartbeatManager.activate();
}

heartbeatManager.activate()方法最终调用到Monitor线程的run方法进行DataNode状态监测。

bmSafeMode.activate(blockTotal)进行是否退出安全模式检查，实现源码如下：

void activate(long total) {
... ...
//设置正常可用block，并设置正常退出安全模式阈值为0.999f
setBlockTotal(total);
if (areThresholdsMet()) {//判断是否可以退出安全模式，block和datanode阈值都满足退出
  boolean exitResult = leaveSafeMode(false);
  Preconditions.checkState(exitResult, "Failed to leave safe mode.");
} else {//进入安全模式
  // enter safe mode
  status = BMSafeModeStatus.PENDING_THRESHOLD;
  initializeReplQueuesIfNecessary();
  reportStatus("STATE* Safe mode ON.", true);
  lastStatusReport = monotonicNow();
}
... ...
}

以上代码中：

setBlockTotal(total) 设置正常可用block的阈值
areThresholdsMet() 进行可用block是否满足阈值

areThresholdsMet()实现如下：

private boolean areThresholdsMet() {
//如果block和datanode阈值都满足，则为True，否则返回false
... ...
synchronized (this) {
  boolean isBlockThresholdMet = (blockSafe ]]>= blockThreshold);
  boolean isDatanodeThresholdMet = true;
  if (isBlockThresholdMet && datanodeThreshold ]]> 0) {
    int datanodeNum = blockManager.getDatanodeManager().
            getNumLiveDataNodes();
    isDatanodeThresholdMet = (datanodeNum ]]>= datanodeThreshold);
  }
  return isBlockThresholdMet && isDatanodeThresholdMet;
}

总结

今天通过一步步梳理NameNode启动的源码细节，进一步深入理解NameNode的设计与实现思路，同时还串联了前面我们提到的知识点。

感兴趣的小伙伴可以跟着文章的思路，再捋一遍源码，会更有收获！

大数据领域 Kafka 入门指南：从安装到基础使用大数据洞察大数据与AI人工智能大数据 kafka linq ai
大数据领域Kafka入门指南：从安装到基础使用关键词：Kafka、消息队列、分布式系统、大数据处理、实时数据流、生产者消费者模型、ZooKeeper摘要：本文是一篇全面介绍ApacheKafka的入门指南，从基本概念到实际应用。我们将详细讲解Kafka的核心架构、工作原理，并提供从安装配置到基础使用的完整实践指导。文章包含Kafka的生产者-消费者模型实现、集群部署策略、性能优化技巧，以及在大数据
谈谈JVM内存泄漏与内存溢出的区别 cyc&阿灿 Java jvm
一、前言在Java开发中，内存管理是一个永恒的话题。JVM虽然提供了自动内存管理机制，但内存相关的问题依然困扰着许多开发者。其中，内存泄漏(MemoryLeak)和内存溢出(OutOfMemory,OOM)是两个最容易混淆的概念。本文将深入剖析两者的本质区别，并通过图示和代码示例帮助大家彻底理解。二、核心概念解析1.JVM内存模型回顾在讨论内存泄漏和溢出前，我们先回顾下JVM的内存结构：┌────
JavaScript进阶：探索模块化、ES6+与前端框架 WayneYalejk javascript es6 前端框架
随着Web技术的快速发展，JavaScript也在不断演进。ES6（ECMAScript2015）及更高版本的发布为JavaScript带来了许多新特性和改进，使得JavaScript更加强大和易用。同时，模块化编程和前端框架的兴起也极大地推动了前端开发的现代化进程。本文将带您深入探索JavaScript的进阶话题，包括模块化、ES6+新特性以及前端框架的应用。1.模块化编程模块化的重要性：解释模
python如何抓取网页里面的文字_如何利用python抓取网页文字、图片内容？ weixin_39917437
想必新老python学习者，对爬虫这一概念并不陌生，在如今大数据时代，很多场景都需要利用爬虫去爬取数据，而这刚好时python领域，如何实现？怎么做？一起来看下吧~获取图片：1、当我们浏览这个网站时，会发现，每一个页面的URL都是以网站的域名+page+页数组成，这样我们就可以逐一的访问该网站的网页了。2、当我们看图片列表时中，把鼠标放到图片，右击检查，我们发现，图片的内容由ul包裹的li组成，箭
2019-3-26晨间日记春之风铃
今天是2019年03月26号起床：7:30就寝：12:30天气：晴心情：很好纪念日：开始规划自己的生活。任务清单昨日完成的任务，最重要的三件事：日更，薄世宁医学通识，古典超级个体。改进：决定行动起来，选择一门深入。习惯养成：日更学习·信息·阅读学习了超级个体的职业定位，开始考虑自己的位置。健康·饮食·锻炼吃水煮蔬菜，味道还不错。人际·家人·朋友接孩子放学，一起去超市，吃晚饭。最美好的三件事1.去很
AI原生应用中的用户画像构建：从理论到实践全解析
AI原生应用中的用户画像构建：从理论到实践全解析关键词：用户画像、AI原生应用、特征工程、机器学习、个性化推荐、数据隐私、模型优化摘要：本文全面解析AI原生应用中用户画像构建的全过程，从基础概念到核心技术，再到实际应用和未来趋势。我们将用通俗易懂的方式讲解用户画像如何像"数字身份证"一样工作，深入探讨特征提取、模型构建等关键技术，并通过实际案例展示用户画像在推荐系统、精准营销等场景中的应用。文章还
从繁琐到高效：固定资产管理软件带给企业的变革 Moriyu_elk_ 数字化资产企业管理固定资产管理高效运维企业数字化转型资产盘点资产管理
随着企业规模的扩大和数字化转型的深入，固定资产的管理越来越复杂。传统的表格管理方式已经难以满足资产盘点、流转、报废、折旧等全生命周期管理需求。此时，像公贝固定资产管理软件这样的专业工具应运而生，为企业资产管理带来了极大便利。本文将结合公贝固定资产管理软件，分功能、管理员便利、企业价值三个方面，为大家详细解析数字化资产管理的实际体验。一、公贝固定资产管理软件的核心功能1、资产信息统一管理公贝系统集中
《注解驱动的秘密：@Configuration 到 @EnableXXX》没有bug.的程序员 Spring全家桶实战精通系列 python 数据库开发语言 Spring注解原理 SPI机制 Starter开发源码解析
注解驱动的秘密：从@Configuration到@EnableXXX引言：Spring注解驱动的演进之路从XML配置到注解驱动，Spring框架经历了革命性的转变。这种转变不仅简化了开发，更带来了模块化、可扩展性的巨大提升。本文将深入剖析@Configuration到@EnableXXX的底层机制，揭示注解驱动背后的精妙设计。XML配置ConfigurationImportEnableXXXSpr
深入理解 synchronized 锁与你久处不厌 Java java
文章目录一、实现原理对象头Monitor二、synchronized优化1.锁的状态2.锁的升级一、实现原理Java中的每一个对象都可以作为锁。具体表现为以下3种形式。对于普通同步方法，锁是当前实例对象。对于静态同步方法，锁是当前类的Class对象。对于同步方法块，锁是Synchonized括号里配置的对象。代码块同步：使用monitorenter和monitorexit指令实现。方法同步：使用另
内心驱动力淑语说
陆游在《冬夜读书示子聿》中写道：“纸上得来终觉浅，绝知此事要躬行。”如果想要深入理解其中的道理，必须要亲自实践才行。其次，学习要有目的性。这比盲目学习和坚持更有意义。很多人都说，学习很痛苦，得咬牙坚持。通常，持有这种观点的人都学不好。因为学习是快乐！你不妨回忆一下，如果做一些很有意义的事时，坚持起来更简单，你也更能做好？而那些让你觉得痛苦的事，往往都坚持不下去？成年人的学习，要赋予它一个意义。也就
深入理解synchronized背后的原理陈亦康多线程面试总结 java jvm synchronized
目录一、对synchronized的基本了解二、深入了解synchronized背后原理2.1锁升级/锁碰撞2.2锁消除2.3锁粗化一、对synchronized的基本了解synchronized产生的效果实际上就是加锁，并且当两个线程对相同对象加锁的时候，就会出现锁竞争，拿到锁的线程就会对其进行加锁，没拿到锁的对象就会进行阻塞等待，直到拿到锁的线程释放锁；二、深入了解synchronized背后
从 C# 到 Python：项目实战第五天的飞跃 AI、少年郎数据库 c#开发语言
在前面三天的学习中，我们已经掌握了Python的基础语法、数据结构以及一些核心库的使用。今天，我们将通过三个实战项目，深入对比C#和Python在命令行工具开发、Web应用开发以及数据处理方面的差异，感受Python在实际项目中的强大魅力。一、命令行工具开发：文件批量处理命令行工具是开发者日常工作中经常用到的工具，无论是文件处理、数据转换还是系统管理，都离不开命令行工具的身影。下面我们就来对比一下
HDFS文件系统
HDFS文件系统是hadoop生态系统的核心，主要用于分布式文件存储，它具备高可用，流式读取，文件结构简单，跨平台的特点，它的集群采用的是主从结构，分为命名节点和数据节点，命名节点主要用于元数据管理（例如对目录，文件的创建，数据块与数据节点的关系维护管理）及数据节点管理（例如数据节点之间数据的复制，节点状态的维护，节点间数据的均衡），该文件系统最基本的存储单位是block即数据块，默认大小是64M
Redis面试精讲 Day 4：Redis事务与原子性保证在未来等你 Redis面试专栏 Redis 面试数据库缓存
【Redis面试精讲Day4】Redis事务与原子性保证开篇欢迎来到"Redis面试精讲"系列的第4天！今天我们将深入探讨Redis的事务机制与原子性保证，这是Redis面试中出现频率极高的核心知识点。掌握Redis事务不仅能帮助你在面试中脱颖而出，更能让你在实际开发中合理利用事务特性构建可靠的分布式系统。在面试中，面试官通常会通过以下方式考察候选人对Redis事务的理解：解释Redis事务的基本
精通日志管理：掌握SLF4J与Logback的最佳实践杨小扩 Spring Boot 从入门到精通 logback spring spring boot java
摘要:在前面的章节中，我们已经构建了能够灵活配置的WebAPI。然而，一个应用在运行时，其内部发生了什么？收到了哪些请求？执行了哪些业务逻辑？出现了什么错误？要回答这些问题，我们必须依赖日志。本章，我们将深入探讨SpringBoot中默认且强大的日志体系：SLF4J作为日志门面，Logback作为日志实现。我们将学会如何优雅地在代码中打印日志、如何通过配置文件控制日志的级别和输出格式，以及如何将日
Spring Boot 3.0新特性全面解析与实战应用天天进步2015 Java spring boot
SpringBoot3.0新特性全面解析与实战应用引言SpringBoot3.0作为Spring生态系统的一个重要里程碑，带来了众多令人兴奋的新特性和改进。本文将深入解析SpringBoot3.0的核心变化，并通过实战示例展示如何在项目中应用这些新特性。核心变化概览Java版本要求提升SpringBoot3.0最显著的变化是Java版本要求提升至Java17。这一变化不仅仅是版本号的更新，更是对现
Vite：下一代前端构建工具的革命布兰妮甜 vite javascript 前端构建工具
Hi，我是布兰妮甜！在现代前端开发领域，构建工具的选择对开发体验和项目效率有着决定性影响。从早期的Grunt、Gulp到Webpack、Rollup，前端构建工具不断演进。而Vite的出现，则彻底改变了传统构建工具的工作模式，为开发者带来了前所未有的开发体验。本文将深入探讨Vite的设计哲学、核心特性、工作原理以及实际应用场景。文章目录一、什么是Vite？二、Vite的核心设计理念2.1利用浏览器
Flink-Hadoop实战项目 Dylan_muc hadoop hdfs flink
项目说明文档1.项目概述1.1项目简介本项目是一个基于ApacheFlink的大数据流处理平台，专门用于处理铁路系统的票务和车次信息数据。系统包含两个核心流处理作业：文件处理作业和数据合并作业，采用定时调度机制，支持Kerberos安全认证，实现从文件读取到数据仓库存储的完整数据处理链路。1.2技术栈流处理引擎:ApacheFlink1.18.1存储系统:HDFS(Hadoop分布式文件系统)数据
飞算科技：以原创技术为翼，赋能产业数字化转型
在数字经济浪潮席卷全球的当下，一批专注于技术创新的中国企业正加速崛起，飞算数智科技（深圳）有限公司（简称“飞算科技”）便是其中的佼佼者。作为一家国家级高新技术企业，飞算科技以自主创新为核心驱动力，凭借互联网科技、大数据、人工智能等前沿技术，为各行业客户插上数字化转型的翅膀。飞算科技的定位清晰而坚定——自主创新型数字科技公司。这一定位不仅体现在其技术研发的方向上，更融入到为客户服务的每一个环节。无论
2018-03-19新零售是未来的商业模式吗？马云对新零售到底什么看法? 拼自己想要的梦想
马云对新零售到底什么不雅观不雅观点?其实，在此之前，新零售一词就已经在业界出现过，而马云此次的提出，使其作为一个正式的名词传布开来。马云认为互联网时代，传统零售行业受到了电商互联网的打击。将来，线下与线上零售将深度连系，再加当代物流，办事商把持大数据、云计较等立异手艺，构成将来新零售的概念。纯电商的时代很快将竣事，纯零售的情势也将被冲破，新零售将引领将来全新的商业形式。新零售是从哪里来的?新零售是
大数据集群运维常见的一些问题以及处理方式
态）；若为YARN节点，重启NodeManager后手动将其加入集群。若为节点整体宕机：排查电源和网络，重启节点后，依次启动HDFS、YARN等服务进程，确认数据块完整性（避免因节点宕机导致副本不足）。2.网络问题现象：节点间通信超时（如HDFS心跳超时、YARN任务调度延迟）、数据传输卡顿。可能原因：交换机故障、网线松动、网络带宽过载、防火墙规则拦截。处理方式：用ping、traceroute检
深入探究众小二 - 微易购：从界面功能到销售策略的全方位解析浮沉导师
在当今数字化与平台化交相辉映的时代画卷中，内容电商如同一股澎湃的洪流，深度融入千行百业，为社会民生注入了强大的动力与活力。三只羊，作为优质内容的生产者，始终怀揣着“有家的地方有工作”的崇高使命，砥砺前行。众小二-微易购小程序的应运而生，便是这一使命的生动实践。众小二-微易购的出现，绝非偶然，而是对社会就业需求的精准回应。它致力于在五年内帮助四万人实现年收入显著增长的目标，为人们提供了一种全新的、灵
学习人工智能开发的详细指南 Ws＿学习人工智能 python
一、引言人工智能（AI）开发是一个充满挑战与机遇的领域，它融合了数学、计算机科学、统计学、认知科学等多个学科的知识。随着大数据、云计算和深度学习技术的快速发展，AI已经成为推动社会进步和产业升级的关键力量。本文将为初学者提供一份详细的学习指南，帮助大家逐步掌握AI开发的核心技能。二、基础知识准备数学基础：线性代数：理解向量、矩阵、线性变换等基本概念，掌握矩阵运算和特征值分解等技巧。概率论与统计学：
大数据技术是解决什么问题的？ @佳瑞大数据
基础知识1TB（太字节）=1024GB1PB（拍字节）=1024TB大数据核心框架HadoopHadoop作为大数据技术生态的核心框架，主要解决了海量数据（TB/PB级）的存储、处理和分析难题，尤其是在传统数据库（如MySQL）和单机计算无法应对的场景下，提供了低成本、高可靠、可扩展的解决方案。其核心解决的问题可归纳为以下几点：海量数据的存储问题传统痛点：单机存储容量有限（如单服务器硬盘通常在TB
黑猫带你学UFS协议第1篇：全网最全UFS协议中文详讲，这份学习框架图，你值得拥有！！！（持续更新中...）黑猫学长呀黑猫带你学：UFS协议详解网络 ufs 存储芯片嵌入式手机
文/黑猫学长1作者想说笔者本人从事于存储芯片行业多年，对eMMC/UFS/SD等芯片有深入研究，协议尤甚。而今看来，UFS协议在整个存储产品中（包括U盘、SPI、SD卡，NM卡、emmc、SSD、flash颗粒等），属于最难梯队。对于嵌入式存储芯片来说，从最初大家熟悉的SD/TF卡，发展到emmc，再到如今的UFS，速率越来越快，性能越来越稳定。即使是最新的UFS产品，从问世到笔者写这篇文章（20
深入解析与实战应用：利用Python和Amazon Product Advertising API实战分析不进则退i python 开发语言
在电商平台的运营中，关键词搜索接口是不可或缺的一部分，特别是在亚马逊这样的全球电商平台。通过关键词搜索接口，商家可以高效地获取商品信息，优化选品策略，提升销售业绩。本文将详细介绍如何接入亚马逊的关键字搜索接口，并提供一个Python代码示例。点击获取key和secret1.注册开发者账号并获取API权限首先，你需要访问亚马逊开发者中心，注册一个开发者账号，并获取相应的API权限。在注册过程中，你将
Python爬虫【四十五章】爬虫攻防战：异步并发+AI反爬识别的技术解密程序员_CLUB Python入门到进阶 python 爬虫人工智能
目录引言：当爬虫工程师遇上AI反爬官一、异步并发基础设施层1.1混合调度框架设计1.2智能连接池管理二、机器学习反爬识别层2.1特征工程体系2.2轻量级在线推理三、智能决策系统3.1动态策略引擎3.2实时对抗案例四、性能优化实战4.1全链路压测数据4.2典型故障处理案例五、总结：构建智能化的爬虫生态系统Python爬虫相关文章（推荐）引言：当爬虫工程师遇上AI反爬官在大数据采集领域，我们正经历着技
如何通过视频进度条打点守护视频安全？菜包eo 教育视频 polyv 视频安全音视频安全
文章目录前言一、什么是视频进度条打点？二、实现视频进度条打点的技术原理三、如何实现视频进度条打点？总结前言人们对视频内容的获取越来越追求效率，尤其是在教育培训、企业直播、知识付费等场景中，用户希望能够快速定位重点内容。视频进度条打点功能应运而生，不仅提升了用户体验，更成为视频安全管理的重要一环。本文将带你深入了解打点技术的原理与应用，一起看看它如何为视频安全加上一道“智能防线”。一、什么是视频进度
Python处理MySQL大数据量：分页查询与性能优化 AI天才研究院 AI人工智能与大数据 python mysql 性能优化 ai
Python处理MySQL大数据量：分页查询与性能优化关键词：Python分页查询、MySQL性能优化、大数据量处理、LIMITOFFSET、索引优化摘要：当数据库表数据量达到百万级时，传统的LIMITOFFSET分页查询会出现明显性能瓶颈。本文从实际场景出发，用“图书馆找书”的通俗比喻拆解分页原理，结合Python代码示例和MySQL执行计划分析，详细讲解传统分页的痛点、优化思路（索引分页/覆盖
Flutter瀑布流布局深度实践：打造高性能动态图片墙
本文将深入探讨如何在Flutter中实现高性能瀑布流布局，解决动态高度内容展示的核心难题，并带来卓越的用户体验。引言：瀑布流布局的魅力瀑布流布局(Pinterest-stylelayout)已成为现代应用展示图片和内容的黄金标准。它通过错落有致的排列方式，自适应内容高度的特点，以及无限滚动的交互体验，为用户创造了流畅自然的浏览感受。在Flutter中实现高性能瀑布流需要解决几个核心挑战：动态高度计
SAX解析xml文件小猪猪08 xml
1.创建SAXParserFactory实例 2.通过SAXParserFactory对象获取SAXParser实例 3.创建一个类SAXParserHander继续DefaultHandler，并且实例化这个类 4.SAXParser实例的parse来获取文件 public static void main(String[] args) { //
为什么mysql里的ibdata1文件不断的增长？ brotherlamp linux linux运维 linux资料 linux视频 linux运维自学
我们在 Percona 支持栏目经常收到关于 MySQL 的 ibdata1 文件的这个问题。当监控服务器发送一个关于 MySQL 服务器存储的报警时，恐慌就开始了 —— 就是说磁盘快要满了。一番调查后你意识到大多数地盘空间被 InnoDB 的共享表空间 ibdata1 使用。而你已经启用了 innodbfileper_table，所以问题是： ibdata1存了什么？当你启用了 i
Quartz-quartz.properties配置 eksliang quartz
其实Quartz JAR文件的org.quartz包下就包含了一个quartz.properties属性配置文件并提供了默认设置。如果需要调整默认配置，可以在类路径下建立一个新的quartz.properties，它将自动被Quartz加载并覆盖默认的设置。下面是这些默认值的解释 #-----集群的配置 org.quartz.scheduler.instanceName =
informatica session的使用 18289753290 workflow session log Informatica
如果希望workflow存储最近20次的log，在session里的Config Object设置，log options做配置，save session log :sessions run ;savesessio log for these runs:20 session下面的source 里面有个tracing
Scrapy抓取网页时出现CRC check failed 0x471e6e9a != 0x7c07b839L的错误酷的飞上天空 scrapy
Scrapy版本0.14.4 出现问题现象： ERROR: Error downloading <GET http://xxxxx CRC check failed 解决方法 1.设置网络请求时的header中的属性'Accept-Encoding': '*;q=0' 明确表示不支持任何形式的压缩格式，避免程序的解压
java Swing小集锦永夜-极光 java swing
1.关闭窗体弹出确认对话框 1.1 this.setDefaultCloseOperation (JFrame.DO_NOTHING_ON_CLOSE); 1.2 this.addWindowListener ( new WindowAdapter () { public void windo
强制删除.svn文件夹随便小屋 java
在windows上，从别处复制的项目中可能带有.svn文件夹，手动删除太麻烦，并且每个文件夹下都有。所以写了个程序进行删除。因为.svn文件夹在windows上是只读的，所以用File中的delete()和deleteOnExist()方法都不能将其删除，所以只能采用windows命令方式进行删除
GET和POST有什么区别？及为什么网上的多数答案都是错的。 aijuans get post
如果有人问你，GET和POST，有什么区别？你会如何回答？我的经历前几天有人问我这个问题。我说GET是用于获取数据的，POST，一般用于将数据发给服务器之用。这个答案好像并不是他想要的。于是他继续追问有没有别的区别？我说这就是个名字而已，如果服务器支持，他完全可以把G
谈谈新浪微博背后的那些算法 aoyouzi 谈谈新浪微博背后的那些算法
本文对微博中常见的问题的对应算法进行了简单的介绍，在实际应用中的算法比介绍的要复杂的多。当然，本文覆盖的主题并不全，比如好友推荐、热点跟踪等就没有涉及到。但古人云“窥一斑而见全豹”，希望本文的介绍能帮助大家更好的理解微博这样的社交网络应用。微博是一个很多人都在用的社交应用。天天刷微博的人每天都会进行着这样几个操作：原创、转发、回复、阅读、关注、@等。其中，前四个是针对短博文，最后的关注和@则针
Connection reset 连接被重置的解决方法百合不是茶 java 字符流连接被重置
流是java的核心部分,,昨天在做android服务器连接服务器的时候出了问题,就将代码放到java中执行,结果还是一样连接被重置被重置的代码如下; 客户端代码; package 通信软件服务器; import java.io.BufferedWriter; import java.io.OutputStream; import java.io.O
web.xml配置详解之filter bijian1013 java web.xml filter
一.定义 <filter> <filter-name>encodingfilter</filter-name> <filter-class>com.my.app.EncodingFilter</filter-class> <init-param> <param-name>encoding<
Heritrix Bill_chen 多线程 xml 算法制造配置管理
作为纯Java语言开发的、功能强大的网络爬虫Heritrix，其功能极其强大，且扩展性良好，深受热爱搜索技术的盆友们的喜爱，但它配置较为复杂，且源码不好理解，最近又使劲看了下，结合自己的学习和理解，跟大家分享Heritrix的点点滴滴。 Heritrix的下载（http://sourceforge.net/projects/archive-crawler/）安装、配置，就不罗嗦了，可以自己找找资
【Zookeeper】FAQ bit1129 zookeeper
1.脱离IDE，运行简单的Java客户端程序 #ZkClient是简单的Zookeeper~$ java -cp "./:zookeeper-3.4.6.jar:./lib/*" ZKClient 1. Zookeeper是的Watcher回调是同步操作，需要添加异步处理的代码 2. 如果Zookeeper集群跨越多个机房，那么Leader/
The user specified as a definer ('aaa'@'localhost') does not exist 白糖_ localhost
今天遇到一个客户BUG，当前的jdbc连接用户是root，然后部分删除操作都会报下面这个错误：The user specified as a definer ('aaa'@'localhost') does not exist 最后找原因发现删除操作做了触发器，而触发器里面有这样一句 /*!50017 DEFINER = ''aaa@'localhost' */ 原来最初
javascript中showModelDialog刷新父页面 bozch JavaScript 刷新父页面 showModalDialog
在页面中使用showModalDialog打开模式子页面窗口的时候，如果想在子页面中操作父页面中的某个节点，可以通过如下的进行： window.showModalDialog('url',self,‘status...’); // 首先中间参数使用self 在子页面使用w
编程之美-买书折扣 bylijinnan 编程之美
import java.util.Arrays; public class BookDiscount { /**编程之美买书折扣书上的贪心算法的分析很有意思，我看了半天看不懂，结果作者说，贪心算法在这个问题上是不适用的。。下面用动态规划实现。哈利波特这本书一共有五卷，每卷都是8欧元，如果读者一次购买不同的两卷可扣除5%的折扣，三卷10%，四卷20%，五卷
关于struts2.3.4项目跨站执行脚本以及远程执行漏洞修复概要 chenbowen00 struts WEB安全
因为近期负责的几个银行系统软件，需要交付客户，因此客户专门请了安全公司对系统进行了安全评测，结果发现了诸如跨站执行脚本，远程执行漏洞以及弱口令等问题。下面记录下本次解决的过程以便后续 1、首先从最简单的开始处理，服务器的弱口令问题，首先根据安全工具提供的测试描述中发现应用服务器中存在一个匿名用户，默认是不需要密码的，经过分析发现服务器使用了FTP协议，而使用ftp协议默认会产生一个匿名用
[电力与暖气]煤炭燃烧与电力加温 comsci
在宇宙中,用贝塔射线观测地球某个部分,看上去,好像一个个马蜂窝,又像珊瑚礁一样,原来是某个国家的采煤区..... 不过,这个采煤区的煤炭看来是要用完了.....那么依赖将起燃烧并取暖的城市,在极度严寒的季节中...该怎么办呢? &nbs
oracle O7_DICTIONARY_ACCESSIBILITY参数 daizj oracle
O7_DICTIONARY_ACCESSIBILITY参数控制对数据字典的访问.设置为true,如果用户被授予了如select any table等any table权限,用户即使不是dba或sysdba用户也可以访问数据字典.在9i及以上版本默认为false,8i及以前版本默认为true.如果设置为true就可能会带来安全上的一些问题.这也就为什么O7_DICTIONARY_ACCESSIBIL
比较全面的MySQL优化参考 dengkane mysql
本文整理了一些MySQL的通用优化方法，做个简单的总结分享，旨在帮助那些没有专职MySQL DBA的企业做好基本的优化工作，至于具体的SQL优化，大部分通过加适当的索引即可达到效果，更复杂的就需要具体分析了，可以参考本站的一些优化案例或者联系我，下方有我的联系方式。这是上篇。 1、硬件层相关优化 1.1、CPU相关在服务器的BIOS设置中，可
C语言homework2，有一个逆序打印数字的小算法 dcj3sjt126com c
#h1# 0、完成课堂例子 1、将一个四位数逆序打印 1234 ==> 4321 实现方法一： # include <stdio.h> int main(void) { int i = 1234; int one = i%10; int two = i / 10 % 10; int three = i / 100 % 10;
apacheBench对网站进行压力测试 dcj3sjt126com apachebench
ab 的全称是 ApacheBench ，是 Apache 附带的一个小工具，专门用于 HTTP Server 的 benchmark testing ，可以同时模拟多个并发请求。前段时间看到公司的开发人员也在用它作一些测试，看起来也不错，很简单，也很容易使用，所以今天花一点时间看了一下。通过下面的一个简单的例子和注释，相信大家可以更容易理解这个工具的使用。
2种办法让HashMap线程安全 flyfoxs java jdk jni
多线程之--2种办法让HashMap线程安全多线程之--synchronized 和reentrantlock的优缺点多线程之--2种JAVA乐观锁的比较( NonfairSync VS. FairSync) HashMap不是线程安全的,往往在写程序时需要通过一些方法来回避.其实JDK原生的提供了2种方法让HashMap支持线程安全.
Spring Security（04）——认证简介 234390216 Spring Security 认证过程
认证简介目录 1.1 认证过程 1.2 Web应用的认证过程 1.2.1 ExceptionTranslationFilter 1.2.2 在request之间共享SecurityContext 1
Java 位运算 Javahuhui java 位运算
// 左移( << ) 低位补0 // 0000 0000 0000 0000 0000 0000 0000 0110 然后左移2位后，低位补0： // 0000 0000 0000 0000 0000 0000 0001 1000 System.out.println(6 << 2);// 运行结果是24 // 右移( >> ) 高位补"
mysql免安装版配置 ldzyz007 mysql
1、my-small.ini是为了小型数据库而设计的。不应该把这个模型用于含有一些常用项目的数据库。 2、my-medium.ini是为中等规模的数据库而设计的。如果你正在企业中使用RHEL,可能会比这个操作系统的最小RAM需求(256MB)明显多得多的物理内存。由此可见，如果有那么多RAM内存可以使用，自然可以在同一台机器上运行其它服务。 3、my-large.ini是为专用于一个SQL数据
MFC和ado数据库使用时遇到的问题你不认识的休道人 sql C++mfc
=================================================================== 第一个 =================================================================== try{ CString sql; sql.Format("select * from p
表单重复提交Double Submits rensanning double
可能发生的场景： *多次点击提交按钮 *刷新页面 *点击浏览器回退按钮 *直接访问收藏夹中的地址 *重复发送HTTP请求（Ajax）（1）点击按钮后disable该按钮一会儿，这样能避免急躁的用户频繁点击按钮。这种方法确实有些粗暴，友好一点的可以把按钮的文字变一下做个提示，比如Bootstrap的做法： http://getbootstrap.co
Java String 十大常见问题 tomcat_oracle java 正则表达式
　1.字符串比较，使用“==”还是equals()? 　　"=="判断两个引用的是不是同一个内存地址(同一个物理对象)。　　equals()判断两个字符串的值是否相等。　　除非你想判断两个string引用是否同一个对象，否则应该总是使用equals()方法。　　如果你了解字符串的驻留(String Interning)则会更好地理解这个问题。　　
SpringMVC 登陆拦截器实现登陆控制 xp9802 springMVC
思路，先登陆后，将登陆信息存储在session中，然后通过拦截器，对系统中的页面和资源进行访问拦截，同时对于登陆本身相关的页面和资源不拦截。实现方法： 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23