年轻的海员

【HDFS】存储balancer到底咋回事

最近集群存储倾斜，个别节点存储超过85%，启动balancer之后效果明显，但是有时候balancer启动也不能解决问题。从运维阶段就知道有这么一个balancer，今天终于憋了一口气看看balancer到底咋回事。版本还是1.0.3

首先balancer在org.apache.hadoop.hdfs.server.balancer，balancer作为一个独立程序启动，听说之前是在namenode内部，这个还真没见过。

  public static void main(String[] args) {
    try {
      System.exit( ToolRunner.run(null, new Balancer(), args) );
    } catch (Throwable e) {
      LOG.error(StringUtils.stringifyException(e));
      System.exit(-1);
    }

  }

我擦，一看，是熟悉的ToolRunner，不用说Balancer就是个tool，重写run方法。

进去balancer的run看看吧。

run代码相对比较长，不全部贴出来了，一步步看一下吧。

 init(parseArgs(args));

首先是解析程序传递参数，然后执行init方法。什么程序参数？很简单，因为balancer是这么用的bin/start-balancer.sh -threshold 5，看到了吗，有个阈值，需要管理员指定。

这个阈值是啥下面再说，这个解析参数，就是拿到咱们threshold的值，这里是5，那就把5传给init。

    this.threshold = threshold;
    this.namenode = createNamenode(conf);//得到集群namenode对象
    this.client = DFSClient.createNamenode(conf);//弄一个客户端对象
    this.fs = FileSystem.get(conf);//文件系统对象

这就是init主要的方法，剩下的安全认证的这里就不说了，这里主要是弄个namenode的代理，弄个hdfs的客户端，然后弄个hdfs文件系统的对象。好了，继续：

      out = checkAndMarkRunningBalancer();
      /*任意时刻只能有一个balancer存在，如何判断？就是往集群写一个文件/system/balancer.id，写的时候本身会有已存在的报错返回null
       * 往里写的应该是byte类型的数据，即balancer所在的机器信息。
       * */
      if (out == null) {
        System.out.println("Another balancer is running. Exiting...");
        return ALREADY_RUNNING;
      }

这里一看，就是检查一下有木有balancer进程已经在工作了，这个方法很简单，程序写死了要往hdfs的/system/balancer.id这个文件写进去点东西，写的东西是balancer所在机器的信息：

  private OutputStream checkAndMarkRunningBalancer() throws IOException {
    try {
      DataOutputStream out = fs.create(BALANCER_ID_PATH);
      out. writeBytes(InetAddress.getLocalHost().getHostName());
      out.flush();
      return out;

看到了吗。然后写的过程中判断这个文件是不是存在，如果存在说明有其它的balancer在运行，因为balancer在启动的时候创建，在退出的时候删除。这是一个办法，但是如果运行的时候咱手动给它删了，还是可以启动balancer的，这样就有多个balancer，这是有危害的，后面再说。

这样一个简单地判断后，balancer就可耻地启动了，进入一个大循环。直到集群“平衡”了，进程就退出了。

ok，进去看看吧。

 while (true ) {
        /* get all live datanodes of a cluster and their disk usage
         * decide the number of bytes need to be moved
         */
        long bytesLeftToMove = initNodes();
        if (bytesLeftToMove == 0) {
          System.out.println("The cluster is balanced. Exiting...");
          return SUCCESS;
        } else {
          LOG.info( "Need to move "+ StringUtils.byteDesc(bytesLeftToMove)
              +" bytes to make the cluster balanced." );
        }
        
        /* Decide all the nodes that will participate in the block move and
         * the number of bytes that need to be moved from one node to another
         * in this iteration. Maximum bytes to be moved per node is
         * Min(1 Band worth of bytes,  MAX_SIZE_TO_MOVE).
         */
        long bytesToMove = chooseNodes();
        //到这一步源和端的对应关系即传输计划全部建立完毕
        if (bytesToMove == 0) {
          System.out.println("No block can be moved. Exiting...");
          return NO_MOVE_BLOCK;
        } else {
          LOG.info( "Will move " + StringUtils.byteDesc(bytesToMove) +
              "bytes in this iteration");
        }
   
        formatter.format("%-24s %10d  %19s  %18s  %17s\n", 
            DateFormat.getDateTimeInstance().format(new Date()),
            iterations,
            StringUtils.byteDesc(bytesMoved.get()),
            StringUtils.byteDesc(bytesLeftToMove),
            StringUtils.byteDesc(bytesToMove)
            );
        
        /* For each pair of , start a thread that repeatedly 
         * decide a block to be moved and its proxy source, 
         * then initiates the move until all bytes are moved or no more block
         * available to move.
         * Exit no byte has been moved for 5 consecutive iterations.
         */
        if (dispatchBlockMoves() > 0) {
          notChangedIterations = 0;
        } else {
          notChangedIterations++;
          if (notChangedIterations >= 5) {
            System.out.println(
                "No block has been moved for 5 iterations. Exiting...");
            return NO_MOVE_PROGRESS;
          }
        }

        // clean all lists
        resetData();
        
        try {
          Thread.sleep(2*conf.getLong("dfs.heartbeat.interval", 3));
        } catch (InterruptedException ignored) {
        }
        
        iterations++;
      }

我擦，先计算有多少数据要balance，这部分在initNodes方法中完成，然后chooseNodes，建立传输方案。

看上面这个图，0-100代表集群的存储率。avg是集群的平均存储值（所有活dn），balancer通过客户端请求跟namenode要块汇报数据，namenode返回datanodeInfo给balancer，balancer我日就那这计算集群的平均存储率，所有活dn的DfsUsed加和除以所有dn的capacity（所有dn配置的data.dir的容量之和），这样得出图上的avg，threshold是启动的时候传递进来的，就是指集群平均存储率的上下浮动值，比如threshold=5，就是上下5%，很好理解是吧。ok,看上面的图，threshold给出之后，不同存储使用率的dn就被分为四种，非别为ABCD，啥意思就不用说了吧，D区域的dn就是存储比较高的，例如平均70，阈值5，D区域就是高于75%的dn，对吧；A就是低于65%的dn.

initNodes方法就是要把dn分成ABCD四等，前面看了，initNodes方法返回一个数值，叫做待move的数据总量，什么叫待move的数据？

还是看上面的图，处在D区域的dn，可以说都有需要move的数据，比如前面的例子，平均70，阈值为5，如果一个dn存储是85%，需要挪的数据，就是85-（70+5）=10,10%就是指那台机器自己总量的10%。ok，D区里边这样的量都要加和，总值叫做overLoadedBytes——过载数据。

到这里，initNodes方法还没完事，还要计算一下underLoadedBytes——空载，我擦，名字自己起的，凑合着理解哈。什么是underLoadedBytes？这个东西跟过载数据是对应的，就是在A区域，这个地方的dn单机存储率低于集群平均水平，还是前面的例子，如果A区域有个dn存储率是50%，那么70-5-50=15，就是说这个dn有15%的空间是空载，还可以往里填东西。underLoadedBytes就是A区所有dn这样的数据量的总和。

现在有了过载数据量和空载数据量，好了，那待挪数据总量咋取，balancer取的是其中的较大值，无论过载大还是空载大，都多挪一点，集群更均衡，呵呵，大概是这个意思，并且balancer不是一回合就结束，后面会看到，它是一个迭代的过程。

ok,初始化完毕之后，我们知道集群有多少数据需要挪动，但是到底咋挪？这一步等于知道了需求，下一步就要制定可行的方案。

chooseNodes方法完成这个功能。

前面在initnodes的时候，需要统计出来四个集合，这时候需要一个类来描述这种需要转移数据的节点，BalancerDatanode，这个类创建的时候传进去三个参数，一个就是datanodeInfo对象，是dn的完整信息，然后把集群平均使用率和阈值告诉它，这个BalancerDatanode我擦就开始计算了，按照上面那个图，计算最大可移动数据。

private BalancerDatanode(
        DatanodeInfo node, double avgUtil, double threshold) {
      datanode = node;
      utilization = Balancer.getUtilization(node);
       /*哦，这个threshold就是集群平均使用率上下浮动值，前面传进来的avgUtil是百分比乘以100了，说以threshold就是百分比*/
      if (utilization >= avgUtil+threshold//假如当前集群70%，threshold是10，那么这个dn大于80或者小于60的
          || utilization <= avgUtil-threshold) { 
        maxSizeToMove = (long)(threshold*datanode.getCapacity()/100);
        //需要挪的数据大小就是其配置容量的10%，即等于阈值
      } else {//否则如果在60和80之间，那么需要挪的是x-70的绝对值，比如65，那么需要挪的是5%的数据量，这个数据量小于阈值
        maxSizeToMove = 
          (long)(Math.abs(avgUtil-utilization)*datanode.getCapacity()/100);
      }
      if (utilization < avgUtil ) {//如果集群整体很高，但是单机比集群轻，
        maxSizeToMove = Math.min(datanode.getRemaining(), maxSizeToMove);
      }
      maxSizeToMove = Math.min(MAX_SIZE_TO_MOVE, maxSizeToMove);
      /*一台机器要挪的数据量最大不能超过10G*/
    }

对于D区或A区的节点，最大可移动数据就是阈值大小，如果在BC区，就取其和平均值的差值的绝对值作为最大可移动数据，这个数据明显不超过阈值大小。

假如dn的capacity是20T,10%是多少？2T，我擦这么大的数据是不允许一次挪完的，系统给了限制，一次最大可移动数量不能超过10G。

还有这个最大可移动大小，对于AB区的节点就是最大能接收的数据，在CD区就是最大可送走的数据量。

ok，BalancerDatanode知道了，从构造函数来看，四个区域的节点都适用，那现在不够，现在想构建具体的执行计划，什么叫执行计划，就是明确的源端对

从src往target发送数据，发多少，这些需要建立。基于这个需求，让Source类继承BalancerDatanode就好了，在initNode的过程中，把所有的dn归类，处于CD去的节点都封装成Source对象，分别放进aboveAvgUtilizedDatanodes，overUtilizedDatanodes集合中。AB区的则直接就封装成BalancerDatanode对象，分别扔到underUtilizedDatanodes，belowAvgUtilizedDatanodes集合中。

这样，CD区域的的Source们都准备好了，该给他们找target：

private void chooseTargets(  
      Iterator targetCandidates, boolean onRackTarget ) {
    for (Iterator srcIterator = overUtilizedDatanodes.iterator();
        srcIterator.hasNext();) {//拿最大限的作为要挪的对象src，往存储低的里挪
      Source source = srcIterator.next();
      while (chooseTarget(source, targetCandidates, onRackTarget)) {
      }//找到一轮的所有可以接收数据的节点
      if (!source.isMoveQuotaFull()) {
        srcIterator.remove();
      }
    }
    return;
  }

先为D区的Source们在A区找target，因为A区最宽裕，D区最贫瘠，这样更容易均衡。继续往下说之前不得不补充一点，就是BalancerDatanode这种描述需要转移或者接收数据的节点的对象还必须有个数据控制其已转移量，因为前面说到假如D区有2T要送走，那得多次，所以下次要送走的量就变少了，这个事都有个成员记录下来，它就是scheduledSize代表了接收或者送走的数据总量。好了，继续：

找target的具体过程是这样的，从source们遍历，拿出一个，然后从target候选集合中挨个检查能不能作为这个source的target，也就是一个source可以对应多个target，两个集合能怎么匹配，只能双循环去挨个匹配！咋匹配？

比如拿到一个D区的节点了，然后拿到一个A区的节点，先要看看两个节点能移动的数据还有多大，什么叫还能移动的数据，D的就是能送走的，A的就是能接收的，怎么算这个？前边说了scheduledSize，用最大可移动值减去这个就是了，然后比较src和target，哪个小，就按哪个来，要不然能送走的多，能接收的小，按大的来，不就破坏规则了吗！

这时候把这个target和它本次迭代要送走的数据量数值绑定成NodeTask对象，加到source的派送队列里。source回头就按这个派送队列派送数据。凡是被source加到派送队列的target，都要增加已接收量，source相应增加以派送量。这个东西尽管现在还是计划，只是执行计划，派送并未成功，但是在一次迭代里还是要记录。然后把这些所有的建立好派送计划的source们和target们分别添加到balancer管理的sources和targets集合里。

派送方向，源端选择都在图上的箭头标明了。

需要注意的是，先在同机架建立派送关系，再往机架之间建立派送关系，因为倾斜严重的时候机架之前派送基本上会破坏机架放置策略，这样对于数据安全不利。

前面initNodes的时候，计算出了一个CD区节点需要送走的数据总量，那是个毛量，就是你想挪，但是不一定能全部派送完的量，chooseNodes方法则返回了派送计划要派送的所有数据量。这个量是一次迭代实际要传输的数据总量。前边那个叫need to move,这个执行计划做好后的叫做will to move。

好了到这里一轮迭代计划完成了，下面就要执行派送了。

斤斤计较的婚姻到底有多难？白心之岂必有为
很多人私聊我会问到在哪个人群当中斤斤计较的人最多？我都会回答他，一般婚姻出现问题的斤斤计较的人士会非常多，以我多年经验，在婚姻落的一塌糊涂的人当中，斤斤计较的人数占比在20～30%以上，也就是说10个婚姻出现问题的斤斤计较的人有2-3个有多不减。在婚姻出问题当中，有大量的心理不平衡的、尖酸刻薄的怨妇。在婚姻中仅斤斤计较有两种类型：第一种是物质上的，另一种是精神上的。在物质与精神上抠门已经严重的影响
底层逆袭到底有多难，不甘平凡的你准备好了吗？让吴起给你说说造命者说
底层逆袭到底有多难，不甘平凡的你准备好了吗？让吴起给你说说我叫吴起，生于公元前440年的战国初期，正是群雄并起、天下纷争不断的时候。后人说我是军事家、政治家、改革家，是兵家代表人物。评价我一生历仕鲁、魏、楚三国，通晓兵家、法家、儒家三家思想，在内政军事上都有极高的成就。周安王二十一年（公元前381年），因变法得罪守旧贵族，被人乱箭射死。我出生在卫国一个“家累万金”的富有家庭，从年轻时候起就不甘平凡
C语言如何定义宏函数？小九格物 c语言
在C语言中，宏函数是通过预处理器定义的，它在编译之前替换代码中的宏调用。宏函数可以模拟函数的行为，但它们不是真正的函数，因为它们在编译时不会进行类型检查，也不会分配存储空间。宏函数的定义通常使用#define指令，后面跟着宏的名称和参数列表，以及宏展开后的代码。宏函数的定义方式：1.基本宏函数：这是最简单的宏函数形式，它直接定义一个表达式。#defineSQUARE(x)((x)*(x))2.带参
linux中sdl的使用教程,sdl使用入门 Melissa Corvinus linux中sdl的使用教程
本文通过一个简单示例讲解SDL的基本使用流程。示例中展示一个窗口，窗口里面有个随机颜色快随机移动。当我们鼠标点击关闭按钮时间窗口关闭。基本步骤如下：1.初始化SDL并创建一个窗口。SDL_Init()初始化SDL_CreateWindow()创建窗口2.纹理渲染存储RGB和存储纹理的区别：比如一个从左到右由红色渐变到蓝色的矩形，用存储RGB的话就需要把矩形中每个点的具体颜色值存储下来；而纹理只是一
18-115 一切思考不能有效转化为行动，都TM是扯淡！成长时间线
7月25号写了一篇关于为什么会断更如此严重的反思，然而，之后日更仅仅维持了一周，又出现了这次更严重的现象。从8月2号到昨天8月6号，5天！又是5天没有更文！虽然这次断更时间和上次一样，那为什么说这次更严重？因为上次之后就分析了问题的原因，以及应该如何解决，按理说应该会好转，然而，没过几天严重断更的现象再次出现，想想，经过反思，问题依然没有解决与改变，这让我有些担忧。到底是哪里出了问题，难道我就真的
少了生活气息我爱大草莓
最近啊，总觉得自己日更的内容缺了点什么。我仔细地想，大概是少了些生活气息。这两三个月减少了许多与别人相处的时间，独自生活，偶尔只是出去买菜，总觉得生活好像变空了许多。买菜的时候会跟档口的阿姨聊一两句话，让自己感觉在真实地生活着。幸好我也不是一宅到底，偶尔周末也会约着跟好朋友见面，面对面交流跟隔着屏幕交流，效果还是不一样的，至少有更为真实的生活感。写作不仅需要有阅读量，有文笔，生活阅历也是非常重要的
【加密社】Solidity 中的事件机制及其应用加密社闲侃区块链智能合约区块链
加密社引言在Solidity合约开发过程中，事件（Events）是一种非常重要的机制。它们不仅能够让开发者记录智能合约的重要状态变更，还能够让外部系统（如前端应用）监听这些状态的变化。本文将详细介绍Solidity中的事件机制以及如何利用不同的手段来触发、监听和获取这些事件。事件存储的地方当我们在Solidity合约中使用emit关键字触发事件时，该事件会被记录在区块链的交易收据中。具体而言，事件
烟花美，但瞬间即逝的样子像极了爱情。胡萝卜很甜
我见过烟花在天上绽放时绚烂的模样也目睹过爱情消逝曾经相爱的两人变冷漠的样子其实我特别喜欢烟花绽放的艳丽大年初一凌晨的烟花手机拍的没有眼睛看到的美但是烟花虽美，稍纵即逝，眼睛刚记录下它的美好，就转眼消失不见。天空又恢复一片黑。烟花的样子像极了爱情啊……不论曾经多么山盟海誓，海枯石烂。只要吵架或者分手。就变得那么冷漠，那么陌生。你甚至开始怀疑你有过爱情么？真正的爱情到底是什么样子。来的快去的也快么？对
直返的东西正品吗?直返APP安全吗?直返是正规平台吗? 氧惠购物达人
亲们，你们是不是经常在直返APP上买东西呀？但是，你们有没有想过，里面的东西到底是不是正品呢？这个APP安全吗？它是不是一个正规的平台呀？别着急，今天我就来给大家揭秘一下！氧惠APP（带货领导者）——是与以往完全不同的抖客+淘客app！2023全新模式，我的直推也会放到你下面。主打：带货高补贴，深受各位带货团队长喜爱（每天出单带货几十万单）。注册即可享受高补贴+0撸+捡漏等带货新体验。送万元推广大
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
厉国刚：新闻学与传播学到底有何区别微观大道
厉国刚：新闻学与传播学到底有何区别头几天，有人在知乎上问我：新闻学与传播学到底有何区别。他是一位想要跨专业考研的学生，对新闻传播学学科可谓了解甚少，甚至一头雾水，想要让我帮他解释解释。在研究生学硕层面，新闻传播学是一级学科，分成新闻学、传播学这两个二级学科。有些高校，还自设了广告学、出版发行学等其他二级学科，但从官方角度，新闻传播学一级学科下，正统的就是那两个二级学科。招生时，一般会按一级学科招，
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
在一起的日子少些期待
在一起已经三年多了，我是一个97年的摩羯座女生，他是一个89年的同样的摩羯座男生，刚开始是他追的我，我开始对他也挺有好感的，他从他朋友哪里，要到我的电话号，给我发信息，我没理他。然后我们的故事就这样开始了·····我不记得到底是什么，让我对他特别喜欢，想一心一意跟着他过日子，说白了我也就是个他的小跟班，又或者是个小跟屁虫，或者是个保姆，反正就是他在那里，我就得陪他到哪里，谈了半年多对象的时候，他因
安徽省这个湖,比西湖大8倍,称是安徽的北戴河, 合肥的后花园旅游小号角
旅游爱好者都知道，安徽省是一个旅游资源十分丰富的省份，且不说黄山、九华山、天柱山这三大名山，单说湖泊就不比其它省份少，今天我们一起走遍世界将为大家说说一个号称安徽北戴河，合肥后花园的湖泊，看看到底是哪个湖泊？话说，这个湖泊位于安徽省六安市舒城县境内，东距合肥50千米，大约一个小时左右的车程，它号称是合肥的后花园，安徽的北戴河。相传，湖畔石壁之上有一奇石神似观音临湖，湖中漂动众多小岛栩栩如佛子，宛若
二婚到底是领证好还是不领证好？孟妃青
伟人讲过，不以结婚为目的的谈恋爱，都是耍流氓！离婚了，再找对象，感情到了一定程度，领证结婚是水到渠成的事，再说我中华泱泱大国，有礼仪之邦的称谓，领证更是体现了尊重男女双方的行为。如果认为二婚就没必要领证了，只能说明，男女之间都暗藏心思，心不往一处走，日子过不好的。即便他们感情再深，都不是合法夫妻，只是名不正言不顺的同居关系。假如不要二人共同的孩子还好，就怕有了孩子，没领证，到时给孩子上户口都成问题
读书笔记|《遇见孩子，遇见更好的自己》5 抹茶社长
为人父母意味着放弃自己的过去，不要对以往没有实现的心愿耿耿于怀，只有这样，孩子们才能做回自己。985909803.jpg孩子在与父母保持亲密的同时更需要独立，唯有这样，孩子才会成为孩子，父母才会成其为父母。有耐心的人生往往更幸福，给孩子留点余地。认识到养儿育女是对耐心的考验。为失败做好心理准备，教会孩子控制情绪。了解自己的底线，说到底线，有一点很重要，父母之所以发脾气，真正的原因往往在于他们自己，
Java面试题精选：消息队列(二) 芒果不是芒 Java面试题精选 java kafka
一、Kafka的特性1.消息持久化：消息存储在磁盘，所以消息不会丢失2.高吞吐量：可以轻松实现单机百万级别的并发3.扩展性：扩展性强，还是动态扩展4.多客户端支持：支持多种语言（Java、C、C++、GO、）5.KafkaStreams（一个天生的流处理）:在双十一或者销售大屏就会用到这种流处理。使用KafkaStreams可以快速的把销售额统计出来6.安全机制：Kafka进行生产或者消费的时候会
数据结构 | 栈和队列 TT-Kun 数据结构与算法数据结构栈队列 C语言
文章目录栈和队列1.栈：后进先出（LIFO）的数据结构1.1概念与结构1.2栈的实现2.队列：先进先出（FIFO）的数据结构2.1概念与结构2.2队列的实现3.栈和队列算法题3.1有效的括号3.2用队列实现栈3.3用栈实现队列3.4设计循环队列结论栈和队列在计算机科学中，栈和队列是两种基本且重要的数据结构，它们在处理数据存储和访问顺序方面有着独特的规则和应用。本文将详细介绍栈和队列的概念、结构、实
[Python] 数据结构详解及代码 AIAdvocate 算法 python 数据结构链表
今日内容大纲介绍数据结构介绍列表链表1.数据结构和算法简介程序大白话翻译,程序=数据结构+算法数据结构指的是存储,组织数据的方式.算法指的是为了解决实际业务问题而思考思路和方法,就叫:算法.2.算法的5大特性介绍算法具有独立性算法是解决问题的思路和方式,最重要的是思维,而不是语言,其(算法)可以通过多种语言进行演绎.5大特性有输入,需要传入1或者多个参数有输出,需要返回1个或者多个结果有穷性,执行
ArrayList 源码解析程序猿进阶 Java基础 ArrayList List java 面试性能优化架构设计 idea
ArrayList是Java集合框架中的一个动态数组实现，提供了可变大小的数组功能。它继承自AbstractList并实现了List接口，是顺序容器，即元素存放的数据与放进去的顺序相同，允许放入null元素，底层通过数组实现。除该类未实现同步外，其余跟Vector大致相同。每个ArrayList都有一个容量capacity，表示底层数组的实际大小，容器内存储元素的个数不能多于当前容量。当向容器中添
Java爬虫框架（一）--架构设计狼图腾-狼之传说 java 框架 java 任务 html解析器存储电子商务
一、架构图那里搜网络爬虫框架主要针对电子商务网站进行数据爬取，分析，存储，索引。爬虫：爬虫负责爬取，解析，处理电子商务网站的网页的内容数据库：存储商品信息索引：商品的全文搜索索引Task队列：需要爬取的网页列表Visited表：已经爬取过的网页列表爬虫监控平台：web平台可以启动，停止爬虫，管理爬虫，task队列，visited表。二、爬虫1.流程1)Scheduler启动爬虫器，TaskMast
如何用matlab灵活控制feko的求解 NingrLi matlab 开发语言
https://bbs.rfeda.cn/read.php?tid=3778Feko中的模型和求解设置等都可以通过editfeko进行设置，其文件存储为.pre文件，该文件可以用文本打开，因此，我们可以通过VB、VC、matlab等工具对.pre文件进行读写操作，以达到更灵活的使用feko。同样，对于.out文件，我们也可以进行读操作。熟练使用对.pre文件和.out文件的操作后，我们可以方便的计
曼妙的盛景掩藏于岁月深处，用一颗清净心寻觅更加温馨的归宿佳依我心
《大鱼·海棠》中曾这样说道：“只要你的心是善良的，对错都是别人的事。无论你经历过什么，都要活成自己喜欢的模样。对于不喜欢的人和事，要勇敢地拒绝，去追求自己所爱，永远不要丢失本心，永远要保持善良。”小的时候，不懂得什么是好与坏，善与恶，只是觉得拥有笑脸的人应该都是对自己好的，却并不知道那张笑脸的背后到底隐藏着怎样的阴暗与肮脏。不过我依旧相信：人的眼睛不会骗人，每当我看到亮晶晶的双眸，总是会想到它如同
离奇的投毒案（七）蜗居山人
（接上文）庭审很快开始了，李妹坐在旁听席的第一排，她想看看丈夫到底是不是害死儿女的凶手。公诉人宣读起诉书后，审判长询问张春对起诉书指控的犯罪事实是否承认，张春矢口否认，当庭翻供。李妹心中一阵得意：“我早就判断丈夫不是凶手！刑警队弄错了，这下看武队长如何收场！这可是公开审理。”审判长问：“你怎么在公安机关承认犯罪事实呢？”“他们刑讯逼供，没有办法我只能承认。”李妹心里嘟囔：“俺丈夫爱我和孩子胜过爱他
利用python实现图片格式之间的相互转换难得北窗高卧 python 开发语言
一、概要图片一般有多种格式，常见的图片格式包括：JPEG（.jpg或.jpeg）：一种广泛使用的有损压缩格式，适用于摄影图像和网页上的图片。PNG（.png）：一种无损压缩格式，支持透明度和更好的图像质量，常用于图标、图形和需要透明背景的图片。该图片是4通道的，外加一个透明通道。如截屏GIF（.gif）：一种支持动画和透明度的格式，常用于简单的动画和图标。BMP（.bmp）：一种无损格式，存储图像
Python多线程实现大规模数据集高效转移 sand&wich 网络 python 服务器
背景在处理大规模数据集时，通常需要在不同存储设备、不同服务器或文件夹之间高效地传输数据。如果采用单线程传输方式，当数据量非常大时，整个过程会非常耗时。因此，通过多线程并行处理可以大幅提升数据传输效率。本文将分享一个基于Python多线程实现的高效数据传输工具，通过遍历源文件夹中的所有文件，将它们移动到目标文件夹。工具和库这个数据集转移工具主要依赖于以下Python标准库：os：用于文件系统操作，如
屠龙决战沙城怎么才能当托屠龙决战沙城如何可以申请内部福利号诸葛村夫123
我2015年从事游戏行业，曾担任某游戏平台的运营负责人。很多朋友玩了一辈子手游可能都还不知道手游托这事儿。你们经常在游戏中遇到那些土豪玩家，进服就充几百，几千的玩家，十有八九都是托，也就是我们常说的内部号。每个人的钱都不是大风刮来的，并不是每个人都舍得在游戏里充这么多钱。那这些内部号的充值到底是哪儿来的呢？其实内部号由于运营商扶持，这种账号一开始就领先普通账号十倍不止。内部号进服运营商会给300-
iPhone怎么删除重复照片，可以尝试这几种方法 2401_85240355 iphone ios
在数字化时代，智能手机尤其是iPhone成为我们日常生活中不可或缺的一部分。随着我们不断使用iPhone拍照，重复照片的积累逐渐成为一个普遍问题。这不仅占用了大量的存储空间，也使得照片库变得杂乱无章。本文将介绍几种有效的iPhone怎么删除重复照片方法，并介绍如何利用CleanMyPhone来简化这一过程。iPhone怎么删除重复照片方法一：人工筛查人工筛查是最直接的方法，尽管它可能比较耗时。这种
生存还是生活子非鱼2015
每个人都在忙忙碌碌，像小时候一看就是半天的在墙角来来往往的蚂蚁，每天疲于奔命。上班下班，吃饭睡觉。想做的事未必能做得到，不想做的事却时时刻刻非做不可。我们到底在忙些什么？想要什么？为了什么？生存还是生活？
SAX解析xml文件小猪猪08 xml
1.创建SAXParserFactory实例 2.通过SAXParserFactory对象获取SAXParser实例 3.创建一个类SAXParserHander继续DefaultHandler，并且实例化这个类 4.SAXParser实例的parse来获取文件 public static void main(String[] args) { //
为什么mysql里的ibdata1文件不断的增长？ brotherlamp linux linux运维 linux资料 linux视频 linux运维自学
我们在 Percona 支持栏目经常收到关于 MySQL 的 ibdata1 文件的这个问题。当监控服务器发送一个关于 MySQL 服务器存储的报警时，恐慌就开始了 —— 就是说磁盘快要满了。一番调查后你意识到大多数地盘空间被 InnoDB 的共享表空间 ibdata1 使用。而你已经启用了 innodbfileper_table，所以问题是： ibdata1存了什么？当你启用了 i
Quartz-quartz.properties配置 eksliang quartz
其实Quartz JAR文件的org.quartz包下就包含了一个quartz.properties属性配置文件并提供了默认设置。如果需要调整默认配置，可以在类路径下建立一个新的quartz.properties，它将自动被Quartz加载并覆盖默认的设置。下面是这些默认值的解释 #-----集群的配置 org.quartz.scheduler.instanceName =
informatica session的使用 18289753290 workflow session log Informatica
如果希望workflow存储最近20次的log，在session里的Config Object设置，log options做配置，save session log :sessions run ;savesessio log for these runs:20 session下面的source 里面有个tracing
Scrapy抓取网页时出现CRC check failed 0x471e6e9a != 0x7c07b839L的错误酷的飞上天空 scrapy
Scrapy版本0.14.4 出现问题现象： ERROR: Error downloading <GET http://xxxxx CRC check failed 解决方法 1.设置网络请求时的header中的属性'Accept-Encoding': '*;q=0' 明确表示不支持任何形式的压缩格式，避免程序的解压
java Swing小集锦永夜-极光 java swing
1.关闭窗体弹出确认对话框 1.1 this.setDefaultCloseOperation (JFrame.DO_NOTHING_ON_CLOSE); 1.2 this.addWindowListener ( new WindowAdapter () { public void windo
强制删除.svn文件夹随便小屋 java
在windows上，从别处复制的项目中可能带有.svn文件夹，手动删除太麻烦，并且每个文件夹下都有。所以写了个程序进行删除。因为.svn文件夹在windows上是只读的，所以用File中的delete()和deleteOnExist()方法都不能将其删除，所以只能采用windows命令方式进行删除
GET和POST有什么区别？及为什么网上的多数答案都是错的。 aijuans get post
如果有人问你，GET和POST，有什么区别？你会如何回答？我的经历前几天有人问我这个问题。我说GET是用于获取数据的，POST，一般用于将数据发给服务器之用。这个答案好像并不是他想要的。于是他继续追问有没有别的区别？我说这就是个名字而已，如果服务器支持，他完全可以把G
谈谈新浪微博背后的那些算法 aoyouzi 谈谈新浪微博背后的那些算法
本文对微博中常见的问题的对应算法进行了简单的介绍，在实际应用中的算法比介绍的要复杂的多。当然，本文覆盖的主题并不全，比如好友推荐、热点跟踪等就没有涉及到。但古人云“窥一斑而见全豹”，希望本文的介绍能帮助大家更好的理解微博这样的社交网络应用。微博是一个很多人都在用的社交应用。天天刷微博的人每天都会进行着这样几个操作：原创、转发、回复、阅读、关注、@等。其中，前四个是针对短博文，最后的关注和@则针
Connection reset 连接被重置的解决方法百合不是茶 java 字符流连接被重置
流是java的核心部分,,昨天在做android服务器连接服务器的时候出了问题,就将代码放到java中执行,结果还是一样连接被重置被重置的代码如下; 客户端代码; package 通信软件服务器; import java.io.BufferedWriter; import java.io.OutputStream; import java.io.O
web.xml配置详解之filter bijian1013 java web.xml filter
一.定义 <filter> <filter-name>encodingfilter</filter-name> <filter-class>com.my.app.EncodingFilter</filter-class> <init-param> <param-name>encoding<
Heritrix Bill_chen 多线程 xml 算法制造配置管理
作为纯Java语言开发的、功能强大的网络爬虫Heritrix，其功能极其强大，且扩展性良好，深受热爱搜索技术的盆友们的喜爱，但它配置较为复杂，且源码不好理解，最近又使劲看了下，结合自己的学习和理解，跟大家分享Heritrix的点点滴滴。 Heritrix的下载（http://sourceforge.net/projects/archive-crawler/）安装、配置，就不罗嗦了，可以自己找找资
【Zookeeper】FAQ bit1129 zookeeper
1.脱离IDE，运行简单的Java客户端程序 #ZkClient是简单的Zookeeper~$ java -cp "./:zookeeper-3.4.6.jar:./lib/*" ZKClient 1. Zookeeper是的Watcher回调是同步操作，需要添加异步处理的代码 2. 如果Zookeeper集群跨越多个机房，那么Leader/
The user specified as a definer ('aaa'@'localhost') does not exist 白糖_ localhost
今天遇到一个客户BUG，当前的jdbc连接用户是root，然后部分删除操作都会报下面这个错误：The user specified as a definer ('aaa'@'localhost') does not exist 最后找原因发现删除操作做了触发器，而触发器里面有这样一句 /*!50017 DEFINER = ''aaa@'localhost' */ 原来最初
javascript中showModelDialog刷新父页面 bozch JavaScript 刷新父页面 showModalDialog
在页面中使用showModalDialog打开模式子页面窗口的时候，如果想在子页面中操作父页面中的某个节点，可以通过如下的进行： window.showModalDialog('url',self,‘status...’); // 首先中间参数使用self 在子页面使用w
编程之美-买书折扣 bylijinnan 编程之美
import java.util.Arrays; public class BookDiscount { /**编程之美买书折扣书上的贪心算法的分析很有意思，我看了半天看不懂，结果作者说，贪心算法在这个问题上是不适用的。。下面用动态规划实现。哈利波特这本书一共有五卷，每卷都是8欧元，如果读者一次购买不同的两卷可扣除5%的折扣，三卷10%，四卷20%，五卷
关于struts2.3.4项目跨站执行脚本以及远程执行漏洞修复概要 chenbowen00 struts WEB安全
因为近期负责的几个银行系统软件，需要交付客户，因此客户专门请了安全公司对系统进行了安全评测，结果发现了诸如跨站执行脚本，远程执行漏洞以及弱口令等问题。下面记录下本次解决的过程以便后续 1、首先从最简单的开始处理，服务器的弱口令问题，首先根据安全工具提供的测试描述中发现应用服务器中存在一个匿名用户，默认是不需要密码的，经过分析发现服务器使用了FTP协议，而使用ftp协议默认会产生一个匿名用
[电力与暖气]煤炭燃烧与电力加温 comsci
在宇宙中,用贝塔射线观测地球某个部分,看上去,好像一个个马蜂窝,又像珊瑚礁一样,原来是某个国家的采煤区..... 不过,这个采煤区的煤炭看来是要用完了.....那么依赖将起燃烧并取暖的城市,在极度严寒的季节中...该怎么办呢? &nbs
oracle O7_DICTIONARY_ACCESSIBILITY参数 daizj oracle
O7_DICTIONARY_ACCESSIBILITY参数控制对数据字典的访问.设置为true,如果用户被授予了如select any table等any table权限,用户即使不是dba或sysdba用户也可以访问数据字典.在9i及以上版本默认为false,8i及以前版本默认为true.如果设置为true就可能会带来安全上的一些问题.这也就为什么O7_DICTIONARY_ACCESSIBIL
比较全面的MySQL优化参考 dengkane mysql
本文整理了一些MySQL的通用优化方法，做个简单的总结分享，旨在帮助那些没有专职MySQL DBA的企业做好基本的优化工作，至于具体的SQL优化，大部分通过加适当的索引即可达到效果，更复杂的就需要具体分析了，可以参考本站的一些优化案例或者联系我，下方有我的联系方式。这是上篇。 1、硬件层相关优化 1.1、CPU相关在服务器的BIOS设置中，可
C语言homework2，有一个逆序打印数字的小算法 dcj3sjt126com c
#h1# 0、完成课堂例子 1、将一个四位数逆序打印 1234 ==> 4321 实现方法一： # include <stdio.h> int main(void) { int i = 1234; int one = i%10; int two = i / 10 % 10; int three = i / 100 % 10;
apacheBench对网站进行压力测试 dcj3sjt126com apachebench
ab 的全称是 ApacheBench ，是 Apache 附带的一个小工具，专门用于 HTTP Server 的 benchmark testing ，可以同时模拟多个并发请求。前段时间看到公司的开发人员也在用它作一些测试，看起来也不错，很简单，也很容易使用，所以今天花一点时间看了一下。通过下面的一个简单的例子和注释，相信大家可以更容易理解这个工具的使用。
2种办法让HashMap线程安全 flyfoxs java jdk jni
多线程之--2种办法让HashMap线程安全多线程之--synchronized 和reentrantlock的优缺点多线程之--2种JAVA乐观锁的比较( NonfairSync VS. FairSync) HashMap不是线程安全的,往往在写程序时需要通过一些方法来回避.其实JDK原生的提供了2种方法让HashMap支持线程安全.
Spring Security（04）——认证简介 234390216 Spring Security 认证过程
认证简介目录 1.1 认证过程 1.2 Web应用的认证过程 1.2.1 ExceptionTranslationFilter 1.2.2 在request之间共享SecurityContext 1
Java 位运算 Javahuhui java 位运算
// 左移( << ) 低位补0 // 0000 0000 0000 0000 0000 0000 0000 0110 然后左移2位后，低位补0： // 0000 0000 0000 0000 0000 0000 0001 1000 System.out.println(6 << 2);// 运行结果是24 // 右移( >> ) 高位补"
mysql免安装版配置 ldzyz007 mysql
1、my-small.ini是为了小型数据库而设计的。不应该把这个模型用于含有一些常用项目的数据库。 2、my-medium.ini是为中等规模的数据库而设计的。如果你正在企业中使用RHEL,可能会比这个操作系统的最小RAM需求(256MB)明显多得多的物理内存。由此可见，如果有那么多RAM内存可以使用，自然可以在同一台机器上运行其它服务。 3、my-large.ini是为专用于一个SQL数据
MFC和ado数据库使用时遇到的问题你不认识的休道人 sql C++mfc
=================================================================== 第一个 =================================================================== try{ CString sql; sql.Format("select * from p
表单重复提交Double Submits rensanning double
可能发生的场景： *多次点击提交按钮 *刷新页面 *点击浏览器回退按钮 *直接访问收藏夹中的地址 *重复发送HTTP请求（Ajax）（1）点击按钮后disable该按钮一会儿，这样能避免急躁的用户频繁点击按钮。这种方法确实有些粗暴，友好一点的可以把按钮的文字变一下做个提示，比如Bootstrap的做法： http://getbootstrap.co
Java String 十大常见问题 tomcat_oracle java 正则表达式
　1.字符串比较，使用“==”还是equals()? 　　"=="判断两个引用的是不是同一个内存地址(同一个物理对象)。　　equals()判断两个字符串的值是否相等。　　除非你想判断两个string引用是否同一个对象，否则应该总是使用equals()方法。　　如果你了解字符串的驻留(String Interning)则会更好地理解这个问题。　　
SpringMVC 登陆拦截器实现登陆控制 xp9802 springMVC
思路，先登陆后，将登陆信息存储在session中，然后通过拦截器，对系统中的页面和资源进行访问拦截，同时对于登陆本身相关的页面和资源不拦截。实现方法： 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23

【HDFS】存储balancer到底咋回事

你可能感兴趣的:(【HDFS】存储balancer到底咋回事)