农村外出务工男

HBase1.2.3版本HRegion的负载均衡实现源码分析

一、HRegion的负载均衡

负载均衡主要用来解决热点问题，使请求更均匀的发送给不同的应用服务器，Hbase是一个典型的主从架构，HMaster负载整个集群的资源调度，任务分配，而数据的IO操作是在HRegionServer上，每个HRegionServer会有N个HRegion，存的是每张表的一部分数据，而HRegionServer里的HRegion之间的负载影响着整个Hbase集群的读写性能。

二、负载均衡实现

HRegion的负载调度由HMaster负责，所以负载的实现类在HMaster类里面。先看HMaster里面用到的涉及负载的几个变量

 /**触发balacer的线程 */
private BalancerChore balancerChore;
// Tracker for load balancer state
//负载均衡的追踪类
LoadBalancerTracker loadBalancerTracker;
//负载均衡实现类
LoadBalancer balancer;

用来实现HRegion在各个HReginServer之间的迁移的相关操作类在HMaster构造函数中进行了相关初始化工作。

 public HMaster(final Configuration conf, CoordinatedStateManager csm)
      throws IOException, KeeperException, InterruptedException {
    super(conf, csm);
    this.rsFatals = new MemoryBoundedLogMessageBuffer(
      conf.getLong("hbase.master.buffer.for.rs.fatals", 1*1024*1024));

    LOG.info("hbase.rootdir=" + FSUtils.getRootDir(this.conf) +
      ", hbase.cluster.distributed=" + this.conf.getBoolean(HConstants.CLUSTER_DISTRIBUTED, false));
    // Disable usage of meta replicas in the master
    this.conf.setBoolean(HConstants.USE_META_REPLICAS, false);
    Replication.decorateMasterConfiguration(this.conf);
    // Hack! Maps DFSClient => Master for logs.  HDFS made this
    // config param for task trackers, but we can piggyback off of it.
    if (this.conf.get("mapreduce.task.attempt.id") == null) {
      this.conf.set("mapreduce.task.attempt.id", "hb_m_" + this.serverName.toString());
    }
    // should we check the compression codec type at master side, default true, HBASE-6370
    this.masterCheckCompression = conf.getBoolean("hbase.master.check.compression", true);
    // should we check encryption settings at master side, default true
    this.masterCheckEncryption = conf.getBoolean("hbase.master.check.encryption", true);
    this.metricsMaster = new MetricsMaster(new MetricsMasterWrapperImpl(this));
    // preload table descriptor at startup
    this.preLoadTableDescriptors = conf.getBoolean("hbase.master.preload.tabledescriptors", true);
    // Do we publish the status?
    boolean shouldPublish = conf.getBoolean(HConstants.STATUS_PUBLISHED,
        HConstants.STATUS_PUBLISHED_DEFAULT);
    Class publisherClass =
        conf.getClass(ClusterStatusPublisher.STATUS_PUBLISHER_CLASS,
            ClusterStatusPublisher.DEFAULT_STATUS_PUBLISHER_CLASS,
            ClusterStatusPublisher.Publisher.class);

    if (shouldPublish) {
      if (publisherClass == null) {
        LOG.warn(HConstants.STATUS_PUBLISHED + " is true, but " +
            ClusterStatusPublisher.DEFAULT_STATUS_PUBLISHER_CLASS +
            " is not set - not publishing status");
      } else {
        clusterStatusPublisherChore = new ClusterStatusPublisher(this, conf, publisherClass);
        getChoreService().scheduleChore(clusterStatusPublisherChore);
      }
    }
    // Some unit tests don't need a cluster, so no zookeeper at all
    if (!conf.getBoolean("hbase.testing.nocluster", false)) {
      activeMasterManager = new ActiveMasterManager(zooKeeper, this.serverName, this);
      int infoPort = putUpJettyServer();
      /** 开启状态为Active的master的各种管理器 */
      startActiveMasterManager(infoPort);
    } else {
      activeMasterManager = null;
    }
  }

然后会调到 finishActiveMasterInitialization，这里面最重要的是对后台负责触发负载执行的线程的初始化(其它分支挺多，我们只看主干)

 this.balancerChore = new BalancerChore(this);

BalancerChore类继承了ScheduledChore，ScheduledChore类里面的run方法调用了chore()，然后会调到真正的balance方法，也就是说会周期性的去判断是否需要执行HRegion在HRegionServer间的负载迁移操作。

public class BalancerChore extends ScheduledChore {
  private static final Log LOG = LogFactory.getLog(BalancerChore.class);
  private final HMaster master;
//默认每隔5分钟触发一次balance方法，去判断此时集群是否需要进行HRegion的负载
  public BalancerChore(HMaster master) {
    super(master.getServerName() + "-BalancerChore", master, master.getConfiguration().getInt(
      "hbase.balancer.period", 300000));
    this.master = master;
  }

  @Override
  protected void chore() {
    try {
      master.balance();
    } catch (IOException e) {
      LOG.error("Failed to balance.", e);
    }
  }
}

HMaster类的balance方法

public boolean balance() throws IOException {
    // if master not initialized, don't run balancer.
    /** HMaster如果还没有初始化，不执行负载均衡*/
    if (!isInitialized()) {
      LOG.debug("Master has not been initialized, don't run balancer.");
      return false;
    }
    // Do this call outside of synchronized block.
    int maximumBalanceTime = getBalancerCutoffTime();
    synchronized (this.balancer) {
      // If balance not true, don't run balancer.
      /** 如果当前已经在执行HRegion的负载,这个地方主要是考虑到5分钟调一次balance,有可能上一次balance还没执行完，需要需等上一次执行完后再判断是否需要执行负载(也就是上次执行HRegion迁移的时候超过了这个定时周期)*/
      if (!this.loadBalancerTracker.isBalancerOn()) return false;
      // Only allow one balance run at at time.
      /**如果当前有HRegion处于spilt状态也不进行负载(处于spilt的HRegion会在zk上有节点标识) */
      if (this.assignmentManager.getRegionStates().isRegionsInTransition()) {
        Map regionsInTransition =
          this.assignmentManager.getRegionStates().getRegionsInTransition();
        LOG.debug("Not running balancer because " + regionsInTransition.size() +
          " region(s) in transition: " + org.apache.commons.lang.StringUtils.
            abbreviate(regionsInTransition.toString(), 256));
        return false;
      } 
      /**如果当前集群有HRegionServer挂了也不执行负载 */
      if (this.serverManager.areDeadServersInProgress()) {
        LOG.debug("Not running balancer because processing dead regionserver(s): " +
          this.serverManager.getDeadServers());
        return false;
      }
      if (this.cpHost != null) {
        try {
          if (this.cpHost.preBalance()) {
            LOG.debug("Coprocessor bypassing balancer request");
            return false;
          }
        } catch (IOException ioe) {
          LOG.error("Error invoking master coprocessor preBalance()", ioe);
          return false;
        }
      }
      /** 找到表名--服务名--HRegion列表的映射关系(这里也可以看到,它是以表为单位的)*/
      Map>> assignmentsByTable =
        this.assignmentManager.getRegionStates().getAssignmentsByTable();
      List plans = new ArrayList();
      //Give the balancer the current cluster state.
     
      this.balancer.setClusterStatus(getClusterStatus());
      for (Map> assignments : assignmentsByTable.values()) {
        /**循环的value为每个HRegionServer和该HRegionServer上所有的HRegion的映射关系，这一步才是去真正判断是否需要执行HRegion的负载 */
        List partialPlans = this.balancer.balanceCluster(assignments);
        if (partialPlans != null) plans.addAll(partialPlans);
      }
      long cutoffTime = System.currentTimeMillis() + maximumBalanceTime;
      int rpCount = 0;  // number of RegionPlans balanced so far
      long totalRegPlanExecTime = 0;
      if (plans != null && !plans.isEmpty()) {
       /** 循环执行迁移计划*/
        for (RegionPlan plan: plans) {
          LOG.info("balance " + plan);
          long balStartTime = System.currentTimeMillis();
          //TODO: bulk assign
         //执行HRegion的迁移,大概过程是首先先卸载原HRegionServer上的这个HRegion,然后目的HRegionServer上打开一个新的HRegion
          this.assignmentManager.balance(plan);
          totalRegPlanExecTime += System.currentTimeMillis()-balStartTime;
          rpCount++;
          if (rpCount < plans.size() &&
              // if performing next balance exceeds cutoff time, exit the loop
              (System.currentTimeMillis() + (totalRegPlanExecTime / rpCount)) > cutoffTime) {
            //TODO: After balance, there should not be a cutoff time (keeping it as a security net for now)
            LOG.debug("No more balancing till next balance run; maximumBalanceTime=" +
              maximumBalanceTime);
            break;
          }
        }
      }
      if (this.cpHost != null) {
        try {
          this.cpHost.postBalance(rpCount < plans.size() ? plans.subList(0, rpCount) : plans);
        } catch (IOException ioe) {
          // balancing already succeeded so don't change the result
          LOG.error("Error invoking master coprocessor postBalance()", ioe);
        }
      }
    }
    // If LoadBalancer did not generate any plans, it means the cluster is already balanced.
    // Return true indicating a success.
    return true;
  }

上面的balaceCluster会调到下面这些方法

 @Override
  public synchronized List balanceCluster(Map> clusterState) {
    List plans = balanceMasterRegions(clusterState);
    if (plans != null || clusterState == null || clusterState.size() <= 1) {
      return plans;
    }
    if (masterServerName != null && clusterState.containsKey(masterServerName)) {
      if (clusterState.size() <= 2) {
        return null;
      }
      clusterState = new HashMap>(clusterState);
      clusterState.remove(masterServerName);
    }

    // On clusters with lots of HFileLinks or lots of reference files,
    // instantiating the storefile infos can be quite expensive.
    // Allow turning this feature off if the locality cost is not going to
    // be used in any computations.
    RegionLocationFinder finder = null;
    if (this.localityCost != null && this.localityCost.getMultiplier() > 0) {
      finder = this.regionFinder;
    }

    //The clusterState that is given to this method contains the state
    //of all the regions in the table(s) (that's true today)
    // Keep track of servers to iterate through them.
  Cluster cluster = new Cluster(clusterState, loads, finder, rackManager);
  /**判断当前集群是否需要进行负载 */
    if (!needsBalance(cluster)) {
      return null;
    }

  /**下面的处理是真正执行HRegion的负载迁移，大概思路就是根据不同的维度来计算迁移开销 */
    long startTime = EnvironmentEdgeManager.currentTime();
      initCosts(cluster);
    /**计算当前集群的开销*/
    double currentCost = computeCost(cluster, Double.MAX_VALUE);
    double initCost = currentCost;
    double newCost = currentCost;
   /** 完成HRegion迁移的最大的步骤数*/
    long computedMaxSteps = Math.min(this.maxSteps,
        ((long)cluster.numRegions * (long)this.stepsPerRegion * (long)cluster.numServers));
    // Perform a stochastic walk to see if we can get a good fit.
    long step;
/** 可以看到,每次循环，选择的迁移策略都不一样,都是随机的然后再计算迁移成本*/
for (step = 0; step < computedMaxSteps; step++) {
  /** 随机选择一个’选号器’,类似于不同的迁移策略随机使用*/
      int generatorIdx = RANDOM.nextInt(candidateGenerators.length);
/**从candidateGenerators数组里面选择一个迁移策略,HBase在这个版本默认有好几种,后面我们单独分析

有4种

  CandidateGenerator p = candidateGenerators[generatorIdx];
/**执行选择出来的迁移策略的generate,在执行正在的迁移之前,做一些判断操作，比如2个HRegionServer之间的HRegion是将A-Server里的HRegion迁移到B-Server还是B-A,还是二者交互HRegion等操作,说白了就是告诉HBase我要执行什么操作,是HRegion的迁移？交换？ */
/**移步到下面的RandomCandidateGenerator,我们以随机策略为例子进行讲解 */
      Cluster.Action action = p.generate(cluster); 
      if (action.type == Type.NULL) {
        continue;
      }
      /**执行真正的HRegion的负载操作 */
      cluster.doAction(action);
       /**待HRegion负载后,将当前操作所产生的开销更新到集群 */
      updateCostsWithAction(cluster, action);
//移动或者交换完之后，看看新的开销是否要继续
      newCost = computeCost(cluster, currentCost);

      // Should this be kept?
/**如果新的开销 < 移动之前的开销,说明还不错，可以这样执行HRegion的迁移  */
      if (newCost < currentCost) {
        currentCost = newCost;
     /** 回退刚刚的移动操作*/
      } else {
        // Put things back the way they were before.
        // TODO: undo by remembering old values
        Action undoAction = action.undoAction();
        cluster.doAction(undoAction);
        updateCostsWithAction(cluster, undoAction);
      }

      if (EnvironmentEdgeManager.currentTime() - startTime >
          maxRunningTime) {
        break;
      }
    }
    long endTime = EnvironmentEdgeManager.currentTime();

    metricsBalancer.balanceCluster(endTime - startTime);
   /** 迁移后开销比一开始的小*/
if (initCost > currentCost) {
  /** 构建一系列的迁移计划*/
      plans = createRegionPlans(cluster);
      if (LOG.isDebugEnabled()) {
        LOG.debug("Finished computing new load balance plan.  Computation took "
            + (endTime - startTime) + "ms to try " + step
            + " different iterations.  Found a solution that moves "
            + plans.size() + " regions; Going from a computed cost of "
            + initCost + " to a new cost of " + currentCost);
      }
      return plans;
    }
    if (LOG.isDebugEnabled()) {
      LOG.debug("Could not find a better load balance plan.  Tried "
          + step + " different configurations in " + (endTime - startTime)
          + "ms, and did not find anything with a computed cost less than " + initCost);
    }
    return null;
  }

needsBalance:判断是否需要进行负载迁移

protected boolean needsBalance(Cluster c) {
    ClusterLoadState cs = new ClusterLoadState(c.clusterState);
   //如果当前集群存活的HRegionServer的个数小于2,则不进行HRegion的迁移(因为小于2个的Server怎么迁移呢?)
    if (cs.getNumServers() < MIN_SERVER_BALANCE) {
      if (LOG.isDebugEnabled()) {
        LOG.debug("Not running balancer because only " + cs.getNumServers()
            + " active regionserver(s)");
      }
      return false;
    }
    if(areSomeRegionReplicasColocated(c)) return true;
    // Check if we even need to do any load balancing
// HBASE-3681 check sloppiness first
/** 获取当前集群的HRegionServer的平均的HRegion数*/
float average = cs.getLoadAverage(); // for logging
/**当前集群能够接受HRegion分配比例的最小值 */
int floor = (int) Math.floor(average * (1 - slop));
/**当前集群能够接受HRegion分配比例的最大值 */
int ceiling = (int) Math.ceil(average * (1 + slop));
/**如果当前集群的佣有最多HRegion的Server比最大值大或者拥有最少HRegion的Server比最小值小，说明整个集群的HRegion的分配不是很平衡，需要进行负载迁移 */
    if (!(cs.getMaxLoad() > ceiling || cs.getMinLoad() < floor)) {
      NavigableMap> serversByLoad = cs.getServersByLoad();
      if (LOG.isTraceEnabled()) {
        // If nothing to balance, then don't say anything unless trace-level logging.
        LOG.trace("Skipping load balancing because balanced cluster; " +
          "servers=" + cs.getNumServers() +
          " regions=" + cs.getNumRegions() + " average=" + average +
          " mostloaded=" + serversByLoad.lastKey().getLoad() +
          " leastloaded=" + serversByLoad.firstKey().getLoad());
      }
      return false;
    }
    return true;
  }

computeCost:计算开销

protected double computeCost(Cluster cluster, double previousCost) {
    double total = 0;
   /**costFunctions在initCost方法里面进行了初始化 */
    for (CostFunction c:costFunctions) {
      if (c.getMultiplier() <= 0) {
        continue;
      }
      /** 权重 * 不同维度的开销评分*/
      total += c.getMultiplier() * c.cost();

      if (total > previousCost) {
        return total;
      }
    }
    return total;
  }

本文以随机策略举例

static class RandomCandidateGenerator extends CandidateGenerator {

    @Override
    Cluster.Action generate(Cluster cluster) {
      /**随机选择集群中的某一个HRegionServer*/
      int thisServer = pickRandomServer(cluster);

      // Pick the other server
/**随机选择集群中的另一个HRegionServer,和上一个不一样*/
      int otherServer = pickOtherRandomServer(cluster, thisServer);

      return pickRandomRegions(cluster, thisServer, otherServer);
    }
  }

pickRandomRegions方法：

protected Cluster.Action pickRandomRegions(Cluster cluster,
                                                       int thisServer,
                                                       int otherServer) {
      if (thisServer < 0 || otherServer < 0) {
        return Cluster.NullAction;
      }
      // Decide who is most likely to need another region
/**获取选择出来的第一个server的HRegion的个数 */
      int thisRegionCount = cluster.getNumRegions(thisServer);
/**获取选择出来的第二个server的HRegion的个数 */
      int otherRegionCount = cluster.getNumRegions(otherServer);
      // Assign the chance based upon the above
//根据上面计算的情况分配机会,意思就是说A-B还是B-A还是A-B互换,这几种操作哪一种被选中的几率大一些
      double thisChance = (thisRegionCount > otherRegionCount) ? 0 : 0.5;
      double otherChance = (thisRegionCount <= otherRegionCount) ? 0 : 0.5;
      /** 随机获取第一个Server里面的某个HRegion的index*/
      int thisRegion = pickRandomRegion(cluster, thisServer, thisChance);
/** 随机获取第二个Server里面的某个HRegion的index*/
      int otherRegion = pickRandomRegion(cluster, otherServer, otherChance);
      return getAction(thisServer, thisRegion, otherServer, otherRegion);
}

getAction方法

protected Cluster.Action getAction (int fromServer, int fromRegion,
        int toServer, int toRegion) {
      if (fromServer < 0 || toServer < 0) {
        return Cluster.NullAction;
      }
/**A-Server和B-Server的被选的HRegion进行交换 */
      if (fromRegion > 0 && toRegion > 0) {
        return new Cluster.SwapRegionsAction(fromServer, fromRegion,
          toServer, toRegion);
/**A-Server的HRegion迁移到B-Server */
      } else if (fromRegion > 0) {
        return new Cluster.MoveRegionAction(fromRegion, fromServer, toServer);
/**B-Server的HRegion迁移到A-Server */

      } else if (toRegion > 0) {
        return new Cluster.MoveRegionAction(toRegion, toServer, fromServer);
      } else {
        return Cluster.NullAction;
      }
    }

pickRandomRegion方法

protected int pickRandomRegion(Cluster cluster, int server, double chanceOfNoSwap) {
      // Check to see if this is just a move.
      if (cluster.regionsPerServer[server].length == 0 || RANDOM.nextFloat() < chanceOfNoSwap) {
        // signal a move only.
        return -1;
      }
      int rand = RANDOM.nextInt(cluster.regionsPerServer[server].length);
/**二维数组( int[][]regionsPerServer;//serverIndex -> region list),数组第一项是当前的HRegionServer，第二项这个Server上的HRegion  */
      return cluster.regionsPerServer[server][rand];

    }
doAction 执行真正的HRegion的交换或者迁移操作
 public void doAction(Action action) {
      switch (action.type) {
      case NULL: break;
      case ASSIGN_REGION:
        // FindBugs: Having the assert quietens FB BC_UNCONFIRMED_CAST warnings
        assert action instanceof AssignRegionAction: action.getClass();
        AssignRegionAction ar = (AssignRegionAction) action;
        regionsPerServer[ar.server] = addRegion(regionsPerServer[ar.server], ar.region);
        regionMoved(ar.region, -1, ar.server);
        break;
      case MOVE_REGION:
        assert action instanceof MoveRegionAction: action.getClass();
        MoveRegionAction mra = (MoveRegionAction) action;
        regionsPerServer[mra.fromServer] = removeRegion(regionsPerServer[mra.fromServer], mra.region);
        regionsPerServer[mra.toServer] = addRegion(regionsPerServer[mra.toServer], mra.region);
        regionMoved(mra.region, mra.fromServer, mra.toServer);
        break;
      case SWAP_REGIONS:
        assert action instanceof SwapRegionsAction: action.getClass();
        SwapRegionsAction a = (SwapRegionsAction) action;
        regionsPerServer[a.fromServer] = replaceRegion(regionsPerServer[a.fromServer], a.fromRegion, a.toRegion);
        regionsPerServer[a.toServer] = replaceRegion(regionsPerServer[a.toServer], a.toRegion, a.fromRegion);
        regionMoved(a.fromRegion, a.fromServer, a.toServer);
        regionMoved(a.toRegion, a.toServer, a.fromServer);
        break;
      default:
        throw new RuntimeException("Uknown action:" + action.type);
      }
    }

三、总结

HMaster在初始化的时候会创建一个用来触发HRegion执行负载迁移(迁移的概念不仅仅是A-Server到B-Server,也包含了2个Server的HRegion的交换操作)的工作线程。默认情况下，这个线程每隔5分钟执行一次balance方法，判断是否需要执行balance操作，如果需要，则首先计算当前cluster的cost花销，cost花销默认有几个维度，包括Region的数量、Region move的花销、数据的本地性(底层是HDFS)、表的负载等。然后根据不同的迁移策略(随机选择策略、数据本地性策略、当前HRegionServer的HRegion数量等)每次循环选择不同的策略执行迁移操作后再计算当前集群状态对应的cost，如果迁移后cost < 迁移前的，说明迁移效果很好,保留当前的cost留做下次判断依据，否则回退到迁移之前的状态。最后生成一个迁移计划列表供执行真正的HRegion的负载迁移，在迁移的时候大概的过程是首先将原HRegionServer对应的需要迁移的HRegion标记为closing(在zk上记录节点)，然后给目的HRegionServer发送Open指令打开一个HRegion，当操作成功后，删除zk上的处于正在Closing状态的HRegion。

HBase2.6.1部署文档 CXH728 zookeeper hbase
1、HBase概述ApacheHBase是基于Hadoop分布式文件系统（HDFS）之上的分布式、列存储、NoSQL数据库。它适合处理结构化和半结构化数据，能够存储数十亿行和数百万列的数据，并支持实时读写操作。HBase通常应用于需要快速随机读写、低延迟访问以及高吞吐量的场景，例如大规模日志处理、社交网络数据存储等。HBase特性列存储模型：HBase的数据是按列族存储的，适合高稀疏数据。行键分区
使用Couchbase中的向量搜索进行智能查询 eahba python
技术背景介绍Couchbase是一种强大的分布式NoSQL数据库，广泛应用于云、移动、AI和边缘计算应用中。其向量搜索功能，作为全文搜索服务的一部分，支持在应用中进行高效的语义查询。这为开发者在实现AI驱动的应用时提供了极大的便利。核心原理解析Couchbase的向量搜索利用向量嵌入技术对文本进行处理，可以实现基于语义相似度的查询。这与传统的关键词匹配有根本的不同，更适合AI应用场景中模糊或语义相
Zookeeper与Kafka学习笔记上海研博数据 zookeeper kafka 学习
一、Zookeeper核心要点1.核心特性分布式协调服务，用于维护配置/命名/同步等元数据采用层次化数据模型（Znode树结构），每个节点可存储<1MB数据典型应用场景：HadoopNameNode高可用HBase元数据管理Kafka集群选举与状态管理2.设计限制内存型存储，不适合大数据量场景数据变更通过版本号（Version）控制，实现乐观锁机制采用ZAB协议保证数据一致性二、Kafka核心架构
phoenix无法连接hbase shell创建表失败_报错_PleaseHoldException: Master is initializing---记录020_大数据工作笔记0180 添柴程序猿 hbase连接报错 phoenix连接hbase phoenix PleaseHoldExcep
今天发现,我的phoenix,去连接hbase集群,怎么也连不上了,奇怪了...弄了一晚上org.apache.hadoop.hbase.PleaseHoldException:Masterisinitializing[root@hadoop120bin]#ll总用量184-rwxr-xr-x.1rootroot36371月222020chaos-daemon.sh-rwxr-xr-x.1root
regionserver实例僵住问题分析 spring208208 hbase hbase
问题现象：应用提交超时，发现regionserver实例异常。hbase原生页面这个实例dead，业务连接到这个rs的进程超时8个regionserver实例。D08在18：30分后显示warning，应用提交任务到这个rs节点超时，hbase控制台不显示d08的rs信息了。19：30在页面停止rs实例失败，然后kill进程。18：30统计图等就不刷新了，但是机器里rs进程在。d08节点还有dn，
hbase 默认目录_[HBase] HBase数据存储目录解析 weixin_39577422 hbase 默认目录
Hbase在hdfs上的存储位置，根目录是由配置项hbase.rootdir决定，默认就是"/hbase"/hbase/WALs在该目录下，对于每个RegionServer，都会对应1~n个子目录/hbase/oldWALs当/hbase/WALs中的HLog文件被持久化到存储文件时，它们就会被移动到/hbase/oldWALs/hbase/hbase.id集群的唯一ID/hbase/hbase.
hbase-05 namespace、数据的确界&TTL 小技工丨大数据技术学习 hbase 数据库大数据
要点掌握HBase的命名空间namespace概念掌握HBase数据版本确界掌握HBase数据TTL1.HBase的namespace1.1namespace基本介绍在HBase中，namespace命名空间指对一组表的逻辑分组，类似RDBMS中的database，方便对表在业务上划分。ApacheHBase从0.98.0,0.95.2两个版本号开始支持namespace级别的授权操作，HBase
Hbase在hdfs上的archive目录占用空间过大宝罗Paul 大数据 hbase
hbase版本：1.1.2hadoop版本：2.7.3Hbase在hdfs上的目录/apps/hbase/data/archive占用空间过大，导致不停地发出hdfs空间使用率告警。【问题】告警信息alert:datanode_storageistriggered告警信息表明某个或某些datanode的HDFS存储空间使用率已超过阈值(我们设置的是80%)，需要清理。[hdfs@master-2r
hbase集群archive目录过大问题处理 spring208208 大数据组件线上问题分析 hbase 数据库大数据
1.问题现象现场反馈hbase集群/hbase/archive目录过大，大小约为1.52PB现场集群已经清理掉2个月以前的snapshot文件，当前archive目录文件仍不能释放现场发现1T以上的archive子目录有211个查看集群hbase配置，hmaster堆栈大小20GB，hmaster清理周期5分钟查看hmaster进程分配内存占用6G上下问题分析HMaster内存估算，假如/hbas
Flume-HBase-Kafka 正在緩沖҉99% kafka Flume HBase 大数据
Flume-HBase-Kafka一、各自介绍1.Flume简介和特征2.HBase简介和特征3.Kafka简介和特征二、通过Flume读取日志文件写入到Kafka中在写入HBase各自作用一、各自介绍1.Flume简介和特征一、简介Flume是一个分布式、可靠、和高可用的海量日志聚合的系统，支持在系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方
大数据面试临阵磨枪不知看什么？看这份心理就有底了-大数据常用技术栈常见面试100道题大模型大数据攻城狮大数据面试职场和发展面试题数据仓库算法
目录1描述Hadoop的架构和它的主要组件。2MapReduce的工作原理是什么？3什么是YARN，它在Hadoop中扮演什么角色？4Spark和HadoopMapReduce的区别是什么？5如何在Spark中实现数据的持久化？6SparkStreaming的工作原理是什么？7如何优化Spark作业的性能？8描述HBase的架构和它的主要组件。9HBase的读写流程是怎样的？10HBase如何处理
value error wqq奋斗的小鸟 pyspark
ValueError:invalidliteralforint()withbase10:''int()函数只能转化数字组成的字符串
如何使用Spark Streaming将数据写入HBase Java资深爱好者 spark hbase 大数据
在SparkStreaming中将数据写入HBase涉及到几个步骤。以下是一个基本的指南，帮助你理解如何使用SparkStreaming将数据写入HBase。1.环境准备HBase：确保HBase集群已经安装并运行。Spark：确保Spark已经安装，并且Spark版本与HBase的Hadoop版本兼容。HBaseConnectorforSpark：你需要使用HBase的SparkConnecto
华为MRS产品组件 QianJin_zixuan hadoop hive 大数据数据库架构 gaussdb
MRS：MRS是一个在华为云上部署和管理Hadoop系统的服务，一键即可部署Hadoop集群。MRS提供租户完全可控的一站式企业级大数据集群云服务（全栈大数据平台），轻松运行Hadoop、Spark、HBase、Kafka、Storm等大数据组件。集群管理：使用MRS的首要操作就是购买集群，MRS的扩容不论在存储还是计算能力上，都可以简单地通过增加Core节点或者Task节点来完成。集群Core节
HBase：大数据时代的“超级数据库” 狮歌~资深攻城狮 hbase 大数据
HBase：大数据时代的“超级数据库”你是不是也被数据淹没过？大家有没有这样的经历，手机里存了成千上万张照片，每次想找某一张特定的照片时，都得翻半天？或者在工作中面对堆积如山的数据报表，感觉像是在大海捞针。今天我们要聊的HBase，就是为了解决这种“数据洪流”的问题。什么是HBase？HBase是一个分布式的、面向列的开源数据库，它基于Google的Bigtable论文设计而成。简单来说，HBas
HBase常用的Filter过滤器操作梵高的夏天 python 算法机器学习
HBase常用的Filter过滤器操作_hbasefilter-CSDN博客HBase过滤器种类很多，我们选择8种常用的过滤器进行介绍。为了获得更好的示例效果，先利用HBaseShell新建students表格，并往表格中进行写入多行数据。一、数据准备工作（1）在默认命名空间中新建表格students，设置列族info、score。hbase:002:0>create'students','inf
Pinpoint应用性能管理工具Docker化安装小苏少 Docker Linux 软件测试 docker pinpoint linux JVM监控
目录Pinpoint应用性能管理工具Docker化安装Pinpoint是什么为什么用Pinpoint下载hbase-create.hbase编写Dockerfile编写run.sh构建Dockerfile启动Pinpoint其他Pinpoint应用性能管理工具Docker化安装本文主要介绍Pinpoint应用性能管理工具Docker化安装，以及在后期Pinpoint进行版本升级时，如何同步升级Do
hbase put 写入数据慢_HBase 马斯克·贾 hbase put 写入数据慢
HBase是一种分布式、可扩展、支持海量数据存储的NoSQL数据库。逻辑结构物理存储结构数据模型逻辑上，HBase的数据模型同关系型数据库很类似，数据存储在一张表中，有行有列。HBase的底层物理存储结构(K-V)。NameSpace命名空间，类似于关系型数据库的DatabBase概念，每个命名空间下有多个表。HBase有两个自带的命名空间，分别是hbase和default，hbase中存放的是H
如何用HBase轻松管理海量数据？狮歌~资深攻城狮 hbase 大数据
如何用HBase轻松管理海量数据？小白也能学会的入门指南数据太多，头都大了？你有没有过这样的经历：面对堆积如山的数据文件，感觉像是被淹没在信息的海洋里？别担心，今天我们要聊的HBase，就是来帮你解决这个问题的神器。不管你是技术小白还是有一定经验的开发者，这篇文章都能让你轻松上手HBase。什么是HBase？HBase是一个分布式的、面向列的开源数据库，专门用来处理大规模数据。它基于Google的
Zookeeper（67） Zookeeper在HBase中的应用是什么？辞暮尔尔-烟火年年微服务 zookeeper hbase python
Zookeeper在HBase中起到了至关重要的作用，主要用于协调和管理HBase集群中的多个组件。具体来说，Zookeeper在HBase中的应用包括以下几个方面：Master选举：HBase集群中可以有多个Master节点，但只有一个处于Active状态，其余为Standby状态。Zookeeper用于进行Master节点的选举。RegionServer协调：Zookeeper用于管理和协调R
深入HBase——核心组件黄雪超大数据基础 #深入HBase hbase 数据库数据结构
引入通过上一篇对HBase核心算法和数据结构的梳理，我们对于其底层设计有了更多理解。现在我们从引入篇里面提到的HBase架构出发，去看看其中不同组件是如何设计与实现。核心组件首先，需要提到的就是HBase架构中会依赖到的Zookeeper和HDFS。对于HDFS看过深入HDFS的小伙伴，应该都不陌生，它提供了高可靠的海量数据存储和读写能力；而对于Zookeeper，它是一个分布式协调存储服务，主要
大数据-257 离线数仓 - 数据质量监控监控方法 Griffin架构 m0_74823705 面试学习路线阿里巴巴大数据架构
点一下关注吧！！！非常感谢！！持续更新！！！Java篇开始了！目前开始更新MyBatis，一起深入浅出！目前已经更新到了：Hadoop（已更完）HDFS（已更完）MapReduce（已更完）Hive（已更完）Flume（已更完）Sqoop（已更完）Zookeeper（已更完）HBase（已更完）Redis（已更完）Kafka（已更完）Spark（已更完）Flink（已更完）ClickHouse（已
Trae 项目常见问题解决方案强和毓Hadley
Trae项目常见问题解决方案trae:postbox:MinimalisticFetchbasedHTTPclient项目地址:https://gitcode.com/gh_mirrors/tr/trae项目基础介绍Trae是一个基于FetchAPI的极简HTTP客户端，旨在提供一个简单、轻量级的HTTP请求工具。该项目的主要编程语言是TypeScript和JavaScript。Trae的设计理念
Hbase深入浅出天才之上数据存储 Hbase 大数据存储
目录HBase在大数据生态圈中的位置HBase与传统关系数据库的区别HBase相关的模块以及HBase表格的特性HBase的使用建议Phoenix的使用总结HBase在大数据生态圈中的位置提到大数据的存储，大多数人首先联想到的是Hadoop和Hadoop中的HDFS模块。大家熟知的Spark、以及Hadoop的MapReduce，可以理解为一种计算框架。而HDFS，我们可以认为是为计算框架服务的存
深入浅出了解HBase及RDD编程山海王子大数据 hbase
深入浅出了解HBaseHBase简介架构HBase是什么样的数据库？关键是数据模型关键要素：什么是单元格时间戳的功能是什么？HBase为什么能存储海量数据创建一个HBase表配置Spark编写程序读取HBase数据编写程序向HBase写入数据关于搭建HBase高可用集群的图文教程，可参考我的另一篇博文——安装并配置HBase集群（5个节点）。HBase简介HBase是GoogleBigTable的
HBase简介：高效分布式数据存储和处理代码指四方分布式 hbase 数据库大数据
HBase简介：高效分布式数据存储和处理HBase是一个高效的、可扩展的分布式数据库，它是构建在ApacheHadoop之上的开源项目。HBase的设计目标是为大规模数据存储和处理提供高吞吐量和低延迟的解决方案。它可以在成百上千台服务器上运行，并能够处理海量的结构化和半结构化数据。HBase的核心特点包括：分布式存储：HBase使用Hadoop分布式文件系统（HDFS）作为底层存储，数据被分布在集
HBase简介梦醒沉醉 Hadoop hbase 数据库大数据
目录1.HBase概述2.HBase核心概念2.1行关键字2.2列关键字2.3时间戳2.4单元2.4.1HBase和RDBMS的差异2.4.2HBase组成3.HBase流程3.1Region的分配3.2RegionServer上线3.3RegionServer下线3.4Master上线3.5Master下线3.6写请求处理参考1.HBase概述 HBase是NoSQL(NotOnlySQL，泛
MongoDB面试题答案解析 HappyAcmen java面试题集 mongodb 数据库
文章目录一、概念理解类1.什么是MongoDB？2.NoSQL数据库是什么意思？NoSQL与RDBMS有什么区别？为什么要使用和不使用NoSQL数据库？3.MySQL与MongoDB之间最基本的差别是什么？4.你怎么比较MongoDB、CouchDB及CouchBase？5.MongoDB成为最好的NoSQL数据库的原因是什么？6.journal回放在条目(entry)不完整时会遇到问题吗？7.分
HBase基本技巧：掌握高效数据管理的秘诀狮歌~资深攻城狮 java android 数据库
HBase基本技巧：掌握高效数据管理的秘诀嘿，小伙伴们！现在你已经对HBase有了初步的了解，接下来让我们深入探讨一些HBase的基本技巧。这些技巧不仅能帮助你更高效地管理和操作数据，还能让你在面对复杂场景时游刃有余。1.行键设计的艺术什么是行键？行键（RowKey）是HBase表中每一行的唯一标识符。它的设计直接影响到查询性能和数据分布。因此，合理设计行键是非常重要的。设计原则•避免热点问题：如
【动态路由】系统Web URL资源整合系列（后端技术实现）【apisix实现】飞火流星02027 URL整合 apisix反向代理 apisix网关 apisix实现web资源整合系统URL资源整合 apisix基于请求参数的路由 apisix基于请求头的路由 APISIXDashboard
需求说明软件功能需求：反向代理功能（描述：apollo、eureka控、apisix、sentinel、普米、kibana、timetask、grafana、hbase、skywalking-ui、pinpoint、cmak界面、kafka-map、nacos、gateway、elasticsearch、oa-portal业务应用等多个web资源等只能通过有限个代理地址访问），不考虑SSO。软件质
windows下源码安装golang 616050468 golang安装 golang环境 windows
系统： 64位win7，开发环境：sublime text 2， go版本： 1.4.1 1. 安装前准备(gcc, gdb, git) golang在64位系
redis批量删除带空格的key bylijinnan redis
redis批量删除的通常做法： redis-cli keys "blacklist*" | xargs redis-cli del 上面的命令在key的前后没有空格时是可以的，但有空格就不行了： $redis-cli keys "blacklist*" 1) "blacklist:12: 361942420@qq.com
oracle正则表达式的用法 0624chenhong oracle 正则表达式
方括号表达示方括号表达式描述 [[:alnum:]] 字母和数字混合的字符 [[:alpha:]] 字母字符 [[:cntrl:]] 控制字符 [[:digit:]] 数字字符 [[:graph:]] 图像字符 [[:lower:]] 小写字母字符 [[:print:]] 打印字符 [[:punct：]] 标点符号字符 [[:space:]]
2048源码(核心算法有，缺少几个anctionbar，以后补上) 不懂事的小屁孩 2048
2048游戏基本上有四部分组成， 1：主activity，包含游戏块的16个方格，上面统计分数的模块 2：底下的gridview，监听上下左右的滑动，进行事件处理， 3：每一个卡片，里面的内容很简单，只有一个text，记录显示的数字 4：Actionbar，是游戏用重新开始，设置等功能(这个在底下可以下载的代码里面还没有实现) 写代码的流程 1：设计游戏的布局，基本是两块，上面是分
jquery内部链式调用机理换个号韩国红果果 JavaScript jquery
只需要在调用该对象合适(比如下列的setStyles)的方法后让该方法返回该对象（通过this 因为一旦一个函数称为一个对象方法的话那么在这个方法内部this（结合下面的setStyles）指向这个对象） function create(type){ var element=document.createElement(type); //this=element;
你订酒店时的每一次点击背后都是NoSQL和云计算蓝儿唯美 NoSQL
全球最大的在线旅游公司Expedia旗下的酒店预订公司，它运营着89个网站，跨越68个国家，三年前开始实验公有云，以求让客户在预订网站上查询假期酒店时得到更快的信息获取体验。云端本身是用于驱动网站的部分小功能的，如搜索框的自动推荐功能，还能保证处理Hotels.com服务的季节性需求高峰整体储能。 Hotels.com的首席技术官Thierry Bedos上个月在伦敦参加“2015 Clou
java笔记1 a-john java
1，面向对象程序设计（Object-oriented Propramming，OOP）：java就是一种面向对象程序设计。 2，对象：我们将问题空间中的元素及其在解空间中的表示称为“对象”。简单来说，对象是某个类型的实例。比如狗是一个类型，哈士奇可以是狗的一个实例，也就是对象。 3，面向对象程序设计方式的特性： 3.1 万物皆为对象。
C语言 sizeof和strlen之间的那些事 C/C++软件开发求职面试题必备考点（一） aijuans C/C++求职面试必备考点
找工作在即，以后决定每天至少写一个知识点，主要是记录，逼迫自己动手、总结加深印象。当然如果能有一言半语让他人收益，后学幸运之至也。如有错误，还希望大家帮忙指出来。感激不尽。后学保证每个写出来的结果都是自己在电脑上亲自跑过的，咱人笨，以前学的也半吊子。很多时候只能靠运行出来的结果再反过来
程序员写代码时就不要管需求了吗？ asia007 程序员不能一味跟需求走
编程也有2年了，刚开始不懂的什么都跟需求走，需求是怎样就用代码实现就行，也不管这个需求是否合理，是否为较好的用户体验。当然刚开始编程都会这样，但是如果有了2年以上的工作经验的程序员只知道一味写代码，而不在写的过程中思考一下这个需求是否合理，那么，我想这个程序员就只能一辈写敲敲代码了。我的技术不是很好，但是就不代
Activity的四种启动模式百合不是茶 android 栈模式启动 Activity的标准模式启动栈顶模式启动单例模式启动
android界面的操作就是很多个activity之间的切换,启动模式决定启动的activity的生命周期 ; 启动模式xml中配置 <activity android:name=".MainActivity" android:launchMode="standard&quo
Spring中@Autowired标签与@Resource标签的区别 bijian1013 java spring @Resource @Autowired @Qualifier
Spring不但支持自己定义的@Autowired注解，还支持由JSR-250规范定义的几个注解，如：@Resource、 @PostConstruct及@PreDestroy。 1. @Autowired @Autowired是Spring 提供的，需导入 Package:org.springframewo
Changes Between SOAP 1.1 and SOAP 1.2 sunjing Changes Enable SOAP 1.1 SOAP 1.2
JAX-WS SOAP Version 1.2 Part 0: Primer (Second Edition) SOAP Version 1.2 Part 1: Messaging Framework (Second Edition) SOAP Version 1.2 Part 2: Adjuncts (Second Edition) Which style of WSDL
【Hadoop二】Hadoop常用命令 bit1129 hadoop
以Hadoop运行Hadoop自带的wordcount为例， hadoop脚本位于/home/hadoop/hadoop-2.5.2/bin/hadoop，需要说明的是，这些命令的使用必须在Hadoop已经运行的情况下才能执行 Hadoop HDFS相关命令 hadoop fs -ls 列出HDFS文件系统的第一级文件和第一级
java异常处理（初级）白糖_ java DAO spring 虚拟机 Ajax
从学习到现在从事java开发一年多了，个人觉得对java只了解皮毛，很多东西都是用到再去慢慢学习，编程真的是一项艺术，要完成一段好的代码，需要懂得很多。最近项目经理让我负责一个组件开发，框架都由自己搭建，最让我头疼的是异常处理，我看了一些网上的源码，发现他们对异常的处理不是很重视，研究了很久都没有找到很好的解决方案。后来有幸看到一个200W美元的项目部分源码，通过他们对异常处理的解决方案，我终
记录整理-工作问题 braveCS 工作
1）那位同学还是CSV文件默认Excel打开看不到全部结果。以为是没写进去。同学甲说文件应该不分大小。后来log一下原来是有写进去。只是Excel有行数限制。那位同学进步好快啊。 2）今天同学说写文件的时候提示jvm的内存溢出。我马上反应说那就改一下jvm的内存大小。同学说改用分批处理了。果然想问题还是有局限性。改jvm内存大小只能暂时地解决问题，以后要是写更大的文件还是得改内存。想问题要长远啊
org.apache.tools.zip实现文件的压缩和解压，支持中文 bylijinnan apache
刚开始用java.util.Zip，发现不支持中文（网上有修改的方法，但比较麻烦）后改用org.apache.tools.zip org.apache.tools.zip的使用网上有更简单的例子下面的程序根据实际需求，实现了压缩指定目录下指定文件的方法 import java.io.BufferedReader; import java.io.BufferedWrit
读书笔记-4 chengxuyuancsdn 读书笔记
1、JSTL 核心标签库标签 2、避免SQL注入 3、字符串逆转方法 4、字符串比较compareTo 5、字符串替换replace 6、分拆字符串 1、JSTL 核心标签库标签共有13个，学习资料：http://www.cnblogs.com/lihuiyy/archive/2012/02/24/2366806.html 功能上分为4类： (1)表达式控制标签：out
[物理与电子]半导体教材的一个小问题 comsci 问题
各种模拟电子和数字电子教材中都有这个词汇-空穴书中对这个词汇的解释是; 当电子脱离共价键的束缚成为自由电子之后,共价键中就留下一个空位,这个空位叫做空穴我现在回过头翻大学时候的教材,觉得这个
Flashback Database --闪回数据库 daizj oracle 闪回数据库
Flashback 技术是以Undo segment中的内容为基础的，因此受限于UNDO_RETENTON参数。要使用flashback 的特性，必须启用自动撤销管理表空间。在Oracle 10g中， Flash back家族分为以下成员： Flashback Database， Flashback Drop，Flashback Query(分Flashback Query,Flashbac
简单排序:插入排序 dieslrae 插入排序
public void insertSort(int[] array){ int temp; for(int i=1;i<array.length;i++){ temp = array[i]; for(int k=i-1;k>=0;k--)
C语言学习六指针小示例、一维数组名含义，定义一个函数输出数组的内容 dcj3sjt126com c
# include <stdio.h> int main(void) { int * p; //等价于 int *p 也等价于 int* p; int i = 5; char ch = 'A'; //p = 5; //error //p = &ch; //error //p = ch; //error p = &i; //
centos下php redis扩展的安装配置3种方法 dcj3sjt126com redis
方法一 1.下载php redis扩展包代码如下复制代码 #wget http://redis.googlecode.com/files/redis-2.4.4.tar.gz 2 tar -zxvf 解压压缩包，cd /扩展包（进入扩展包然后运行phpize 一下是我环境中phpize的目录，/usr/local/php/bin/phpize (一定要
线程池(Executors) shuizhaosi888 线程池
在java类库中，任务执行的主要抽象不是Thread，而是Executor，将任务的提交过程和执行过程解耦 public interface Executor { void execute(Runnable command); } public class RunMain implements Executor{ @Override pub
openstack 快速安装笔记 haoningabc openstack
前提是要配置好yum源版本icehouse，操作系统redhat6.5 最简化安装，不要cinder和swift 三个节点 172 control节点keystone glance horizon 173 compute节点nova 173 network节点neutron control /etc/sysctl.conf net.ipv4.ip_forward =
从c面向对象的实现理解c++的对象（二） jimmee C++面向对象虚函数
1. 类就可以看作一个struct，类的方法，可以理解为通过函数指针的方式实现的，类对象分配内存时，只分配成员变量的，函数指针并不需要分配额外的内存保存地址。 2. c++中类的构造函数，就是进行内存分配(malloc)，调用构造函数 3. c++中类的析构函数，就时回收内存(free) 4. c++是基于栈和全局数据分配内存的，如果是一个方法内创建的对象，就直接在栈上分配内存了。专门在
如何让那个一个div可以拖动 lingfeng520240 html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml
第10章高级事件（中） onestopweb 事件
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
计算两个经纬度之间的距离 roadrunners 计算纬度 LBS 经度距离
要解决这个问题的时候，到网上查了很多方案，最后计算出来的都与百度计算出来的有出入。下面这个公式计算出来的距离和百度计算出来的距离是一致的。 /** * * @param longitudeA * 经度A点 * @param latitudeA * 纬度A点 * @param longitudeB *
最具争议的10个Java话题 tomcat_oracle java
1、Java8已经到来。什么！？ Java8 支持lambda。哇哦，RIP Scala！　　随着Java8 的发布，出现很多关于新发布的Java8是否有潜力干掉Scala的争论，最终的结论是远远没有那么简单。Java8可能已经在Scala的lambda的包围中突围，但Java并非是函数式编程王位的真正觊觎者。　　2、Java 9 即将到来　　 Oracle早在8月份就发布
zoj 3826 Hierarchical Notation(模拟) 阿尔萨斯 rar
题目链接：zoj 3826 Hierarchical Notation 题目大意：给定一些结构体，结构体有value值和key值，Q次询问，输出每个key值对应的value值。解题思路：思路很简单，写个类词法的递归函数，每次将key值映射成一个hash值，用map映射每个key的value起始终止位置，预处理完了查询就很简单了。这题是最后10分钟出的，因为没有考虑value为{}的情

HBase1.2.3版本HRegion的负载均衡实现源码分析

一、HRegion的负载均衡

二、负载均衡实现

三、总结

你可能感兴趣的:(hbase)