yulin_H

Spark 生成HFile过程详解

前言

直接生成hfile的目的是跨过使用hbase客户端，减小客户端，服务器压力。面对每天要往hbase写大量数据的情况的时候非常有优势。

因为 hfile的生成这一步可以完全不跟HBase打交道，不像使用put请求，我们要不断地向hbase服务器发送RPC请求，然后需经过WAL预写，再刷新。

这不仅会造成写入速度慢，也会增加hbase的压力，从而对客户的读请求造成压力

当生成hfile文件之后，我们再把hfile load进hbase中。这一步是非常快的。

本文将会描述HFile生成这一过程，对涉及到的相关知识点也会做简要阐述。

生成hfile流程

Spark有直接保存textFile，Parquet，sequenceFile等方法。但是hfile是一个特定格式的输出，我们调用RDD.saveAsNewAPIHadoopFile方法。同时我们需要指定outPutFormat。

outPutFormat是一个对map_reduce job输出格式的描述，主要是三个方法：

checkOutputSpecs:用于job验证指定的输出（例如保证job输出前文件路径不存在）
getRecordWriter：得到writer。
getOutputCommiter：根据任务成功完成的状态来提交任务的状态（如成功），并且可以有些逻辑操作

关键的应是getWriter这个方法了，他返回一个RecordWriter的类，这个类可以自己去实现。当然这个writer是针对K V类型，也就是说这个writer写的是一个键值对（mapreduce是需要指定KV的）。这个writer有两个方法需要实现：

write写一个键值对。我们可以往文件里面写。也可以往mySQL,HBASE里面写，完全由自己控制。
close方法：处理完键值对时调用（例如可以释放文件句柄，连接等等）

这里我们采用HBase提供的HFileOutputFormat。

key=ImmutableBytesWritable 一个byte的序列。
value=KeyValue
getWriter返回的是

 public RecordWriter getRecordWriter(
  final TaskAttemptContext context) throws IOException, InterruptedException {
  return HFileOutputFormat2.createRecordWriter(context);
}

其实用的也是HFileOutputFormat2的writer，HFileOutputFormat已经不推荐使用了。
在HFileOutputFormat2.createRecordWriter方法中：

// 维护了一个  map  key是列族，value是WriterLength  有两个属性 long written ；StoreFile.Writer
//  就是说每一个列族都会有一个writer
 private final Map writers =
    new TreeMap(Bytes.BYTES_COMPARATOR

//每一个KeyValue都会包含列族  列 值 等信息

    byte [] rowKey = CellUtil.cloneRow(kv);
    long length = kv.getLength();
    byte [] family = CellUtil.cloneFamily(kv);
    WriterLength wl = this.writers.get(family);

     if (wl == null) {
      fs.mkdirs(new Path(outputdir, Bytes.toString(family)));
    }
    // 可以发现  每一个列族对应的writer 都对应了一个文件目录
    // 这也符合我们的理解  因为不同列族对应不同的Store 存在不同的目录下  同时在bulkLoad的时候，我们也会说到多列族的问题  
    // 在这里也可以看出  要同时生成多列族的hfile是可行的

      kv.updateLatestStamp(this.now);  // 每一个KeyValue 会在这里附带一个timeStamp


     // 接下来再来看：  hbase在建表的时候  会指定压缩 和  布隆过滤器
     //  比如：
     //create 'table', { NAME => '0', DATA_BLOCK_ENCODING => 'PREFIX', BLOOMFILTER => 'ROWCOL', COMPRESSION => 'SNAPPY'}, {NUMREGIONS => 1000, SPLITALGO => 'HexStringSplit'}

     //  我们还需要考虑  使用这种hfile的方式  是不是 也能保持上面的格式

        // HFileOutputFormat维护了三个map  如下
        final Map compressionMap = createFamilyCompressionMap(conf);
        final Map bloomTypeMap = createFamilyBloomTypeMap(conf);
        final Map blockSizeMap = createFamilyBlockSizeMap(conf);

     // 这些都是从conf中去获取 压缩算法  布隆过滤器类型  

     // 这个conf  是在getWriter方法传入的一个 TaskAttemptContext context

     这个conf是可以传的  如果不传的话  默认是取 self.context.hadoopConfiguration
     我们也是可以传conf进去的
     conf里面是一个map：map的key是属性名，例如压缩算法，value是一个字符串，字符串的内容应该是：列族名=值&列族名=值......
     解析的代码是这样的：
      Map confValMap = new TreeMap(Bytes.BYTES_COMPARATOR);
        String confVal = conf.get(confName, "");
        for (String familyConf : confVal.split("&")) {
        String[] familySplit = familyConf.split("=");
        if (familySplit.length != 2) {
            continue;
        }
        try {
            confValMap.put(URLDecoder.decode(familySplit[0], "UTF-8").getBytes(),
                URLDecoder.decode(familySplit[1], "UTF-8"));
        } catch (UnsupportedEncodingException e) {
            // will not happen with UTF-8 encoding
            throw new AssertionError(e);
        }
        }
        return confValMap;

     //  所以我们可以通过以上的方式进行赋值 
     // 或者我们可以显示调用  HFileOutPutFormat.configureIncrementalLoad 方法
     // HFileOutputFormat.configureIncrementalLoad(job,hTable)  
     // 这个方法会根据table去获取布隆过滤器，压缩算法等等
     // 并将其添加到conf里面
     // 添加方式  和  上面提到的 方式一样  列族名=值&列族名=值
    //  configureIncrementalLoad这个方法会更新job的Configuration 所以我们需要把这个job的con传入，如下：
    saveAsNewAPIHadoopFile(outputPath.toString, classOf[ImmutableBytesWritable], classOf[KeyValue], classOf[HFileOutputFormat], job.getConfiguration)

至此，我们完全阐述了HFileOutPutFormat

saveAsNewAPIHadoopFile

在上文已经阐述了调用saveAsNewAPIHadoopFile方法，并传入HFileOutputFormat，会生成我们指定格式的文件。而这个方法是一个mapReduce任务，严格来说它是一个没有reduce的map任务。在写MapReduce任务的时候，我们需要给一个InputFormat。这个InputFormat其实和上文讲的OutputFormat的功能相似。它描述的是任务输入的格式。

在InputFormat方法中，关键两个方法：getSplits和createRecordReader。
1. getSplits方法是对数据进行拆分，返回的是List，这里将InputSplit称之为一个分片，它包含当前分片的位置和长度。而一个InputSplit将会将给一个map任务进行处理。
2. createRecordReader则是读一个给定的分片。
一个分片的任务交给一个map任务，传统的一个map任务一个输出（这也完全取决于map任务的outPutFormat,例如上面我们提到的HFileOutputFormat,也可参考https://blog.csdn.net/searcher_recommeder/article/details/53035788一个map输出多个文件）.

但是对于saveAsNewAPIHadoopFile这给方法，他不需要指定inputFormat,为什么呢？这里我认为是调用这个方法的是一个RDD，这里一个RDD的partition将会作为一个map任务的输入。

分区器

在(2)中提到了，saveAsNewAPIHadoopFile方法，一个partition可以理解为一个map的输入，同时，我们传入的是HFileOutputFormat,在（1）中我们提到了HFileOutputFormt的write是列族不同则会有不同的writer，对应不同的输出。

那么也就是一个partition的数据，将会有多少个列族，就会有多少个文件。

那么这就对分区有要求了。

我们知道，hbase建表的时候，是有预分区的。rowkey在一个给的区间里的数据将会在一个region里面。一个region对应多个HStore（一个列族一个HStore），每个HStore下有多个hfile文件（这也可以理解HFileOutputFormt中为什么一个列族的数据要写到一个目录下了）。

基于这个原因，如果我们的RDD的partition中的rowkey是乱的，也就是说本应该在一个region的数据却分散在了不同的partition里面，最终导致生成的一个hfile文件却要属于不同的region。

这也不是说不可以，但是这会增加bulk load时的计算压力（后面会阐述bulk load的原理）。bulk load的时候需要保证一个hfile文件只属于一个region，否则就要进行拆分。

所以为了减小bulk load时的压力（因为load的时候，就需要调用habse了）我们在save之前就对RDD进行分区，使得属于同一个region的数据在一个partition里面。以下这种方式一般只对具有预分区的表有效。

// 要保证处于同一个region的数据在同一个partition里面，那么首先我们需要得到table的startkeys
// 再根据startKey建立一个分区器
// 分区器有两个关键的方法需要去实现
// 1. numPartitions 多少个分区
// 2. getPartition给一个key，返回其应该在的分区  分区器如下：

private class HFilePartitioner(conf: Configuration, splits: Array[Array[Byte]], numFilesPerRegion: Int) extends Partitioner {
val fraction = 1 max numFilesPerRegion min 128

override def getPartition(key: Any): Int = {
  def bytes(n: Any) = n match {
    case s: String => Bytes.toBytes(s)
    case s: Long => Bytes.toBytes(s)
    case s:Int=>Bytes.toBytes(s)
  }

  val h = (key.hashCode() & Int.MaxValue) % fraction
  for (i <- 1 until splits.length)
    if (Bytes.compareTo(bytes(key), splits(i)) < 0) return (i - 1) * fraction + h

  (splits.length - 1) * fraction + h
}

override def numPartitions: Int = splits.length * fraction
}
// 参数splits为table的startKeys
// 参数numFilesPerRegion为一个region想要生成多少个hfile，便于理解  先将其设置为1 即一个region生成一个hfile
// h可以理解为它在这个region中的第几个hfile（当需要一个region有多个hfile的时候）
// 因为startKeys是递增的，所以找到第一个大于key的region，那么其上一个region，这是这个key所在的region

进行分区

利用所写的分区器进行分区。

根据上面的分区器，我们可以实现位于同一个region的数据都划分到一起。但是还有一个问题。hfile中的数据都是有序的（参见 hfile解析）。排序方式应该是：rowkey，列族，列名。

这里我们使用一个算子repartitionAndSortWithinPartitions。他会按照给定的分区器进行分区，并且在一个分区内数据是按key有序的。同时我们应该还需要一个比较器，如下：

implicit val bytesOrdering = new Ordering[Int] {
  override def compare(a: Int, b: Int) = {
    val ord = Bytes.compareTo(Bytes.toBytes(a), Bytes.toBytes(b))
    // if (ord == 0) throw KeyDuplicatedException(a.toString)
    ord
  }
} // 是按bytes比较

// 模拟一个rdd生成  map是列名和列值  还没有指定列族
  val rdd=sc.parallelize((1 to 500).map(rowkey=>{
  rowkey->Map("column1"->(rowkey.toString+"column"),"column2"->(rowkey+"column2"))
}),50)

 rdd.repartitionAndSortWithinPartitions(new HFilePartitioner(hbaseconf, hTable.getStartKeys, 1)

 // 但是这里是按照在一个partition里面按照key，也就是数据的rowkey进行了排序。如果我们一个rowkey有多列，或是有多个列族，还需要进行如下操作。

 rdd.repartitionAndSortWithinPartitions(new HFilePartitioner(hbaseconf, hTable.getStartKeys, 1))
  .flatMap{
    case (key,columns)=>
      val rowkey= new ImmutableBytesWritable()
      rowkey.set( Bytes.toBytes(key)) //设置rowkey
      val kvs = new TreeSet[KeyValue](KeyValue.COMPARATOR)
      columns.foreach(ele=>{
        val (column,value)=ele  // 每一条数据两个列族  对应map里面的两列
        kvs.add(new KeyValue(rowkey.get(),Bytes.toBytes("family1"),Bytes.toBytes(column), Bytes.toBytes(value)))
        kvs.add(new KeyValue(rowkey.get(),Bytes.toBytes("family2"),Bytes.toBytes(column), Bytes.toBytes(value)))
      })
      kvs.toSeq.map(kv => (rowkey, kv))
  }.saveAsNewAPIHadoopFile(outPut, classOf[ImmutableBytesWritable], classOf[KeyValue], classOf[HFileOutputFormat])

  //在上述我们TreeSet[KeyValue](KeyValue.COMPARATOR)再次进行排序
  // 现在每一个分区是严格有序的了

以上的代码会生成两个目录：family1，family2.

bulk load

bulk load 见 https://blog.csdn.net/yulin_Hu/article/details/82314503

Flume-HBase-Kafka 正在緩沖҉99% kafka Flume HBase 大数据
Flume-HBase-Kafka一、各自介绍1.Flume简介和特征2.HBase简介和特征3.Kafka简介和特征二、通过Flume读取日志文件写入到Kafka中在写入HBase各自作用一、各自介绍1.Flume简介和特征一、简介Flume是一个分布式、可靠、和高可用的海量日志聚合的系统，支持在系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方
大数据面试临阵磨枪不知看什么？看这份心理就有底了-大数据常用技术栈常见面试100道题大模型大数据攻城狮大数据面试职场和发展面试题数据仓库算法
目录1描述Hadoop的架构和它的主要组件。2MapReduce的工作原理是什么？3什么是YARN，它在Hadoop中扮演什么角色？4Spark和HadoopMapReduce的区别是什么？5如何在Spark中实现数据的持久化？6SparkStreaming的工作原理是什么？7如何优化Spark作业的性能？8描述HBase的架构和它的主要组件。9HBase的读写流程是怎样的？10HBase如何处理
value error wqq奋斗的小鸟 pyspark
ValueError:invalidliteralforint()withbase10:''int()函数只能转化数字组成的字符串
如何使用Spark Streaming将数据写入HBase Java资深爱好者 spark hbase 大数据
在SparkStreaming中将数据写入HBase涉及到几个步骤。以下是一个基本的指南，帮助你理解如何使用SparkStreaming将数据写入HBase。1.环境准备HBase：确保HBase集群已经安装并运行。Spark：确保Spark已经安装，并且Spark版本与HBase的Hadoop版本兼容。HBaseConnectorforSpark：你需要使用HBase的SparkConnecto
华为MRS产品组件 QianJin_zixuan hadoop hive 大数据数据库架构 gaussdb
MRS：MRS是一个在华为云上部署和管理Hadoop系统的服务，一键即可部署Hadoop集群。MRS提供租户完全可控的一站式企业级大数据集群云服务（全栈大数据平台），轻松运行Hadoop、Spark、HBase、Kafka、Storm等大数据组件。集群管理：使用MRS的首要操作就是购买集群，MRS的扩容不论在存储还是计算能力上，都可以简单地通过增加Core节点或者Task节点来完成。集群Core节
HBase：大数据时代的“超级数据库” 狮歌~资深攻城狮 hbase 大数据
HBase：大数据时代的“超级数据库”你是不是也被数据淹没过？大家有没有这样的经历，手机里存了成千上万张照片，每次想找某一张特定的照片时，都得翻半天？或者在工作中面对堆积如山的数据报表，感觉像是在大海捞针。今天我们要聊的HBase，就是为了解决这种“数据洪流”的问题。什么是HBase？HBase是一个分布式的、面向列的开源数据库，它基于Google的Bigtable论文设计而成。简单来说，HBas
HBase常用的Filter过滤器操作梵高的夏天 python 算法机器学习
HBase常用的Filter过滤器操作_hbasefilter-CSDN博客HBase过滤器种类很多，我们选择8种常用的过滤器进行介绍。为了获得更好的示例效果，先利用HBaseShell新建students表格，并往表格中进行写入多行数据。一、数据准备工作（1）在默认命名空间中新建表格students，设置列族info、score。hbase:002:0>create'students','inf
Pinpoint应用性能管理工具Docker化安装小苏少 Docker Linux 软件测试 docker pinpoint linux JVM监控
目录Pinpoint应用性能管理工具Docker化安装Pinpoint是什么为什么用Pinpoint下载hbase-create.hbase编写Dockerfile编写run.sh构建Dockerfile启动Pinpoint其他Pinpoint应用性能管理工具Docker化安装本文主要介绍Pinpoint应用性能管理工具Docker化安装，以及在后期Pinpoint进行版本升级时，如何同步升级Do
hbase put 写入数据慢_HBase 马斯克·贾 hbase put 写入数据慢
HBase是一种分布式、可扩展、支持海量数据存储的NoSQL数据库。逻辑结构物理存储结构数据模型逻辑上，HBase的数据模型同关系型数据库很类似，数据存储在一张表中，有行有列。HBase的底层物理存储结构(K-V)。NameSpace命名空间，类似于关系型数据库的DatabBase概念，每个命名空间下有多个表。HBase有两个自带的命名空间，分别是hbase和default，hbase中存放的是H
如何用HBase轻松管理海量数据？狮歌~资深攻城狮 hbase 大数据
如何用HBase轻松管理海量数据？小白也能学会的入门指南数据太多，头都大了？你有没有过这样的经历：面对堆积如山的数据文件，感觉像是被淹没在信息的海洋里？别担心，今天我们要聊的HBase，就是来帮你解决这个问题的神器。不管你是技术小白还是有一定经验的开发者，这篇文章都能让你轻松上手HBase。什么是HBase？HBase是一个分布式的、面向列的开源数据库，专门用来处理大规模数据。它基于Google的
Zookeeper（67） Zookeeper在HBase中的应用是什么？辞暮尔尔-烟火年年微服务 zookeeper hbase python
Zookeeper在HBase中起到了至关重要的作用，主要用于协调和管理HBase集群中的多个组件。具体来说，Zookeeper在HBase中的应用包括以下几个方面：Master选举：HBase集群中可以有多个Master节点，但只有一个处于Active状态，其余为Standby状态。Zookeeper用于进行Master节点的选举。RegionServer协调：Zookeeper用于管理和协调R
深入HBase——核心组件黄雪超大数据基础 #深入HBase hbase 数据库数据结构
引入通过上一篇对HBase核心算法和数据结构的梳理，我们对于其底层设计有了更多理解。现在我们从引入篇里面提到的HBase架构出发，去看看其中不同组件是如何设计与实现。核心组件首先，需要提到的就是HBase架构中会依赖到的Zookeeper和HDFS。对于HDFS看过深入HDFS的小伙伴，应该都不陌生，它提供了高可靠的海量数据存储和读写能力；而对于Zookeeper，它是一个分布式协调存储服务，主要
大数据-257 离线数仓 - 数据质量监控监控方法 Griffin架构 m0_74823705 面试学习路线阿里巴巴大数据架构
点一下关注吧！！！非常感谢！！持续更新！！！Java篇开始了！目前开始更新MyBatis，一起深入浅出！目前已经更新到了：Hadoop（已更完）HDFS（已更完）MapReduce（已更完）Hive（已更完）Flume（已更完）Sqoop（已更完）Zookeeper（已更完）HBase（已更完）Redis（已更完）Kafka（已更完）Spark（已更完）Flink（已更完）ClickHouse（已
Trae 项目常见问题解决方案强和毓Hadley
Trae项目常见问题解决方案trae:postbox:MinimalisticFetchbasedHTTPclient项目地址:https://gitcode.com/gh_mirrors/tr/trae项目基础介绍Trae是一个基于FetchAPI的极简HTTP客户端，旨在提供一个简单、轻量级的HTTP请求工具。该项目的主要编程语言是TypeScript和JavaScript。Trae的设计理念
Hbase深入浅出天才之上数据存储 Hbase 大数据存储
目录HBase在大数据生态圈中的位置HBase与传统关系数据库的区别HBase相关的模块以及HBase表格的特性HBase的使用建议Phoenix的使用总结HBase在大数据生态圈中的位置提到大数据的存储，大多数人首先联想到的是Hadoop和Hadoop中的HDFS模块。大家熟知的Spark、以及Hadoop的MapReduce，可以理解为一种计算框架。而HDFS，我们可以认为是为计算框架服务的存
深入浅出了解HBase及RDD编程山海王子大数据 hbase
深入浅出了解HBaseHBase简介架构HBase是什么样的数据库？关键是数据模型关键要素：什么是单元格时间戳的功能是什么？HBase为什么能存储海量数据创建一个HBase表配置Spark编写程序读取HBase数据编写程序向HBase写入数据关于搭建HBase高可用集群的图文教程，可参考我的另一篇博文——安装并配置HBase集群（5个节点）。HBase简介HBase是GoogleBigTable的
HBase简介：高效分布式数据存储和处理代码指四方分布式 hbase 数据库大数据
HBase简介：高效分布式数据存储和处理HBase是一个高效的、可扩展的分布式数据库，它是构建在ApacheHadoop之上的开源项目。HBase的设计目标是为大规模数据存储和处理提供高吞吐量和低延迟的解决方案。它可以在成百上千台服务器上运行，并能够处理海量的结构化和半结构化数据。HBase的核心特点包括：分布式存储：HBase使用Hadoop分布式文件系统（HDFS）作为底层存储，数据被分布在集
HBase简介梦醒沉醉 Hadoop hbase 数据库大数据
目录1.HBase概述2.HBase核心概念2.1行关键字2.2列关键字2.3时间戳2.4单元2.4.1HBase和RDBMS的差异2.4.2HBase组成3.HBase流程3.1Region的分配3.2RegionServer上线3.3RegionServer下线3.4Master上线3.5Master下线3.6写请求处理参考1.HBase概述 HBase是NoSQL(NotOnlySQL，泛
MongoDB面试题答案解析 HappyAcmen java面试题集 mongodb 数据库
文章目录一、概念理解类1.什么是MongoDB？2.NoSQL数据库是什么意思？NoSQL与RDBMS有什么区别？为什么要使用和不使用NoSQL数据库？3.MySQL与MongoDB之间最基本的差别是什么？4.你怎么比较MongoDB、CouchDB及CouchBase？5.MongoDB成为最好的NoSQL数据库的原因是什么？6.journal回放在条目(entry)不完整时会遇到问题吗？7.分
HBase基本技巧：掌握高效数据管理的秘诀狮歌~资深攻城狮 java android 数据库
HBase基本技巧：掌握高效数据管理的秘诀嘿，小伙伴们！现在你已经对HBase有了初步的了解，接下来让我们深入探讨一些HBase的基本技巧。这些技巧不仅能帮助你更高效地管理和操作数据，还能让你在面对复杂场景时游刃有余。1.行键设计的艺术什么是行键？行键（RowKey）是HBase表中每一行的唯一标识符。它的设计直接影响到查询性能和数据分布。因此，合理设计行键是非常重要的。设计原则•避免热点问题：如
【动态路由】系统Web URL资源整合系列（后端技术实现）【apisix实现】飞火流星02027 URL整合 apisix反向代理 apisix网关 apisix实现web资源整合系统URL资源整合 apisix基于请求参数的路由 apisix基于请求头的路由 APISIXDashboard
需求说明软件功能需求：反向代理功能（描述：apollo、eureka控、apisix、sentinel、普米、kibana、timetask、grafana、hbase、skywalking-ui、pinpoint、cmak界面、kafka-map、nacos、gateway、elasticsearch、oa-portal业务应用等多个web资源等只能通过有限个代理地址访问），不考虑SSO。软件质
大数据之-hdfs+hive+hbase+kudu+presto集群(6节点) 管哥的运维私房菜大数据 hdfs hive kudu presto hbase
几个主要软件的下载地址：prestohttps://prestosql.io/docs/current/index.htmlkudurpm包地址https://github.com/MartinWeindel/kudu-rpm/releaseshivehttp://mirror.bit.edu.cn/apache/hive/hdfshttp://archive.apache.org/dist/ha
hbase快照同步到目标集群出现ERROR Multiple regions have the same startkey问题分析 spring208208 hbase hbase python 前端
问题现象源集群表split/merge过程中创建快照，该快照同步到目标集群，目标集群恢复快照后，进行hbck检查，就会出现异常报错：ERRORMultipleregionshavethesamestartkey;问题分析首先，出现上述问题可能有如下两种原因：源集群中snapshot表本身就存在这种问题，没有修复就执行snapshot，导出快照到目标集群，然后恢复表也会存在这种问题。在执行split
hive spark读取hive hbase外表报错分析和解决 spring208208 hive hive spark hbase
问题现象使用Sparkshell操作hive关联Hbase的外表导致报错；hive使用tez引擎操作关联Hbase的外表时报错。问题1：使用tez或spark引擎，在hive查询时只要关联hbase的hive表就会有问题其他表正常。“org.apache.hadoop.hbase.client.RetriesExhaustedException:Can’tgetthelocations”问题2：s
HBase的合并操作 b1gx HBase
compact的作用flush操作会将memstore的数据落地为一个个StoreFile（HFile），那么随着时间的增长在HDFS上面就会有很多的HFile文件，这样对读操作会产生比较大的影响（读操作会对HFile进行归并查询），并且对DataNode的压力也会比较大。为了降低对读操作的影响，可以对这些HFile进行compact操作，但是compact操作会产生大量的IO，所以可以看出com
hbase 刷新队列和文件描述符过高告警 battybaby hbase 数据库 database
5节点的hbase配置为虚机，8c16g，时常出现刷新队列和文件描述符过高告警，如下图，文件描述符的告警不会自动恢复基本上每周重启一次RegionServer，重启后刷新队列会降下来。1：刷新队列高是因为小文件比较多2：文件描述符高是因为打开的文件比较多处理方法：拟合并hbase文件，后面合并了再更新看看HBASE手动触发major_compact_刘本龙的专栏-CSDN博客_hbasemajor
HBASE面试技巧狮歌~资深攻城狮 hbase 大数据
准备HBase面试时，除了熟悉常见的面试题及其答案外，还需要掌握一些面试技巧，以更好地展示你的技能和知识。以下是一些有效的HBase面试技巧和策略：1.深入理解核心概念技术深度•倒排索引：虽然HBase本身不使用倒排索引（这是搜索引擎如Elasticsearch使用的），但理解这一概念有助于对比不同存储系统的特性。•列族设计：列族的设计对性能有很大影响，确保你能够解释如何选择合适的列族数量、块大小
如何学习HBase：从入门到精通的完整指南狮歌~资深攻城狮 hbase 大数据
如何学习HBase：从入门到精通的完整指南嘿，小伙伴们！如果你对大数据存储感兴趣，并且想要掌握HBase这一强大的分布式数据库，那么你来对地方了！本文将为你提供一个系统的学习路径，帮助你从零开始逐步深入理解HBase。1.基础知识准备1.1理解NoSQL数据库在开始学习HBase之前，建议先了解一下NoSQL数据库的基本概念和分类。NoSQL数据库与传统的关系型数据库（如MySQL）有很大的不同，
深入HBase——引入黄雪超大数据基础 #深入HBase 大数据数据库 hbase
引入前面我们通过深入HDFS到深入MapReduce，从设计和落地，去深入了解了大数据最底层的基石——存储与计算是如何实现的。这个专栏则开始来看大数据的三驾马车中最后一个。通过前面我们对于GFS和MapReduce论文实现的了解，我们知道GFS在数据写入时，只对顺序写入有比较弱的一致性保障，而对于数据读取，虽然GFS支持随机读取，但在当时的硬件条件下，实际上也是支撑不了真正的高并发读取的；此外，M
时序数据库技术体系 – 初识InfluxDB（原理） weixin_30622181 数据库大数据系统架构
原贴地址：http://hbasefly.com/2017/12/08/influxdb-1/?qytefg=c4ft23在上篇文章《时序数据库体系技术–时序数据存储模型设计》中笔者分别介绍了多种时序数据库在存储模型设计上的一些考虑，其中OpenTSDB基于HBase对维度值进行了全局字典编码优化，Druid采用列式存储并实现了Bitmap索引以及局部字典编码优化，InfluxDB和Beringe
java线程的无限循环和退出 3213213333332132 java
最近想写一个游戏，然后碰到有关线程的问题，网上查了好多资料都没满足。突然想起了前段时间看的有关线程的视频，于是信手拈来写了一个线程的代码片段。希望帮助刚学java线程的童鞋 package thread; import java.text.SimpleDateFormat; import java.util.Calendar; import java.util.Date
tomcat 容器 BlueSkator tomcat Web servlet
Tomcat的组成部分 1、server A Server element represents the entire Catalina servlet container. (Singleton) 2、service service包括多个connector以及一个engine，其职责为处理由connector获得的客户请求。 3、connector 一个connector
php递归,静态变量,匿名函数使用 dcj3sjt126com PHP 递归函数匿名函数静态变量引用传参
<!doctype html> <html lang="en"> <head> <meta charset="utf-8"> <title>Current To-Do List</title> </head> <body>
属性颜色字体变化周华华 JavaScript
function changSize(className){ var diva=byId("fot") diva.className=className; } </script> <style type="text/css"> .max{ background: #900; color:#039;
将properties内容放置到map中 g21121 properties
代码比较简单： private static Map<Object, Object> map; private static Properties p; static { //读取properties文件 InputStream is = XXX.class.getClassLoader().getResourceAsStream("xxx.properti
[简单]拼接字符串 53873039oycg 字符串
工作中遇到需要从Map里面取值拼接字符串的情况，自己写了个，不是很好，欢迎提出更优雅的写法，代码如下： import java.util.HashMap; import java.uti
Struts2学习云端月影
最近开始关注struts2的新特性，从这个版本开始，Struts开始使用convention-plugin代替codebehind-plugin来实现struts的零配置。配置文件精简了，的确是简便了开发过程，但是，我们熟悉的配置突然disappear了，真是一下很不适应。跟着潮流走吧，看看该怎样来搞定convention-plugin。使用Convention插件，你需要将其JAR文件放
Java新手入门的30个基本概念二 aijuans java 新手 java 入门
基本概念:　　1.OOP中唯一关系的是对象的接口是什么,就像计算机的销售商她不管电源内部结构是怎样的,他只关系能否给你提供电就行了,也就是只要知道can or not而不是how and why.所有的程序是由一定的属性和行为对象组成的,不同的对象的访问通过函数调用来完成,对象间所有的交流都是通过方法调用,通过对封装对象数据,很大限度上提高复用率。　　2.OOP中最重要的思想是类,类是模板是蓝图,
jedis 简单使用 antlove java redis cache command jedis
jedis.RedisOperationCollection.java package jedis; import org.apache.log4j.Logger; import redis.clients.jedis.Jedis; import java.util.List; import java.util.Map; import java.util.Set; pub
PL/SQL的函数和包体的基础百合不是茶 PL/SQL编程函数包体显示包的具体数据包
由于明天举要上课,所以刚刚将代码敲了一遍PL/SQL的函数和包体的实现(单例模式过几天好好的总结下再发出来);以便明天能更好的学习PL/SQL的循环,今天太累了,所以早点睡觉,明天继续PL/SQL总有一天我会将你永远的记载在心里,,, 函数; 函数:PL/SQL中的函数相当于java中的方法;函数有返回值定义函数的 --输入姓名找到该姓名的年薪 create or re
Mockito(二)--实例篇 bijian1013 持续集成 mockito 单元测试
学习了基本知识后，就可以实战了，Mockito的实际使用还是比较麻烦的。因为在实际使用中，最常遇到的就是需要模拟第三方类库的行为。比如现在有一个类FTPFileTransfer，实现了向FTP传输文件的功能。这个类中使用了a
精通Oracle10编程SQL(7)编写控制结构 bijian1013 oracle 数据库 plsql
/* *编写控制结构 */ --条件分支语句 --简单条件判断 DECLARE v_sal NUMBER(6,2); BEGIN select sal into v_sal from emp where lower(ename)=lower('&name'); if v_sal<2000 then update emp set
【Log4j二】Log4j属性文件配置详解 bit1129 log4j
如下是一个log4j.properties的配置 log4j.rootCategory=INFO, stdout , R log4j.appender.stdout=org.apache.log4j.ConsoleAppender log4j.appender.stdout.layout=org.apache.log4j.PatternLayout log4j.appe
java集合排序笔记白糖_ java
public class CollectionDemo implements Serializable,Comparable<CollectionDemo>{ private static final long serialVersionUID = -2958090810811192128L; private int id; private String nam
java导致linux负载过高的定位方法 ronin47
定位java进程ID 可以使用top或ps -ef |grep java ![图片描述][1] 根据进程ID找到最消耗资源的java pid 比如第一步找到的进程ID为5431 执行 top -p 5431 -H ![图片描述][2] 打印java栈信息 $ jstack -l 5431 > 5431.log 在栈信息中定位具体问题将消耗资源的Java PID转
给定能随机生成整数1到5的函数，写出能随机生成整数1到7的函数 bylijinnan 函数
import java.util.ArrayList; import java.util.List; import java.util.Random; public class RandNFromRand5 { /** 题目：给定能随机生成整数1到5的函数，写出能随机生成整数1到7的函数。解法1： f(k) = (x0-1)*5^0+(x1-
PL/SQL Developer保存布局 Kai_Ge
近日由于项目需要，数据库从DB2迁移到ORCAL，因此数据库连接客户端选择了PL/SQL Developer。由于软件运用不熟悉，造成了很多麻烦，最主要的就是进入后，左边列表有很多选项，自己删除了一些选项卡，布局很满意了，下次进入后又恢复了以前的布局，很是苦恼。在众多PL/SQL Developer使用技巧中找到如下这段： &n
[未来战士计划]超能查派[剧透,慎入] comsci 计划
非常好看,超能查派,这部电影......为我们这些热爱人工智能的工程技术人员提供一些参考意见和思想........ 虽然电影里面的人物形象不是非常的可爱....但是非常的贴近现实生活.... &nbs
Google Map API V2 dai_lm google map
以后如果要开发包含google map的程序就更麻烦咯 http://www.cnblogs.com/mengdd/archive/2013/01/01/2841390.html 找到篇不错的文章，大家可以参考一下 http://blog.sina.com.cn/s/blog_c2839d410101jahv.html 1. 创建Android工程由于v2的key需要G
java数据计算层的几种解决方法2 datamachine java sql 集算器
2、SQL SQL/SP/JDBC在这里属于一类，这是老牌的数据计算层，性能和灵活性是它的优势。但随着新情况的不断出现，单纯用SQL已经难以满足需求，比如： JAVA开发规模的扩大，数据量的剧增，复杂计算问题的涌现。虽然SQL得高分的指标不多，但都是权重最高的。成熟度：5星。最成熟的。
Linux下Telnet的安装与运行 dcj3sjt126com linux telnet
Linux下Telnet的安装与运行 linux默认是使用SSH服务的而不安装telnet服务如果要使用telnet 就必须先安装相应的软件包即使安装了软件包默认的设置telnet 服务也是不运行的需要手工进行设置如果是redhat9，则在第三张光盘中找到 telnet-server-0.17-25.i386.rpm
PHP中钩子函数的实现与认识 dcj3sjt126com PHP
假如有这么一段程序： function fun(){ fun1(); fun2(); } 首先程序执行完fun1()之后执行fun2()然后fun()结束。但是，假如我们想对函数做一些变化。比如说，fun是一个解析函数，我们希望后期可以提供丰富的解析函数，而究竟用哪个函数解析，我们希望在配置文件中配置。这个时候就可以发挥钩子的力量了。我们可以在fu
EOS中的WorkSpace密码修改蕃薯耀修改WorkSpace密码
EOS中BPS的WorkSpace密码修改 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 201
SpringMVC4零配置--SpringSecurity相关配置【SpringSecurityConfig】 hanqunfeng SpringSecurity
SpringSecurity的配置相对来说有些复杂，如果是完整的bean配置，则需要配置大量的bean，所以xml配置时使用了命名空间来简化配置，同样，spring为我们提供了一个抽象类WebSecurityConfigurerAdapter和一个注解@EnableWebMvcSecurity，达到同样减少bean配置的目的，如下： applicationContex
ie 9 kendo ui中ajax跨域的问题 jackyrong AJAX跨域
这两天遇到个问题，kendo ui的datagrid，根据json去读取数据，然后前端通过kendo ui的datagrid去渲染，但很奇怪的是，在ie 10,ie 11,chrome,firefox等浏览器中，同样的程序，浏览起来是没问题的，但把应用放到公网上的一台服务器，却发现如下情况： 1） ie 9下，不能出现任何数据，但用IE 9浏览器浏览本机的应用，却没任何问题
不要让别人笑你不能成为程序员 lampcy 编程程序员
在经历六个月的编程集训之后，我刚刚完成了我的第一次一对一的编码评估。但是事情并没有如我所想的那般顺利。说实话，我感觉我的脑细胞像被轰炸过一样。手慢慢地离开键盘，心里很压抑。不禁默默祈祷：一切都会进展顺利的，对吧？至少有些地方我的回答应该是没有遗漏的，是不是？难道我选择编程真的是一个巨大的错误吗——我真的永远也成不了程序员吗？我需要一点点安慰。在自我怀疑，不安全感和脆弱等等像龙卷风一
马皇后的贤德 nannan408
马皇后不怕朱元璋的坏脾气，并敢理直气壮地吹耳边风。众所周知，朱元璋不喜欢女人干政，他认为“后妃虽母仪天下，然不可使干政事”，因为“宠之太过，则骄恣犯分，上下失序”，因此还特地命人纂述《女诫》，以示警诫。但马皇后是个例外。　　有一次，马皇后问朱元璋道：“如今天下老百姓安居乐业了吗？”朱元璋不高兴地回答：“这不是你应该问的。”马皇后振振有词地回敬道：“陛下是天下之父，
选择某个属性值最大的那条记录（不仅仅包含指定属性，而是想要什么属性都可以） Rainbow702 sql group by 最大值 max 最大的那条记录
好久好久不写SQL了，技能退化严重啊！！！直入主题：比如我有一张表，file_info，它有两个属性（但实际不只，我这里只是作说明用）： file_code, file_version 同一个code可能对应多个version 现在，我想针对每一个code，取得它相关的记录中，version 值最大的那条记录， SQL如下： select *
VBScript脚本语言 tntxia VBScript
VBScript 是基于VB的脚本语言。主要用于Asp和Excel的编程。 VB家族语言简介 Visual Basic 6.0 源于BASIC语言。由微软公司开发的包含协助开发环境的事
java中枚举类型的使用 xiao1zhao2 java enum 枚举 1.5新特性
枚举类型是j2se在1.5引入的新的类型,通过关键字enum来定义,常用来存储一些常量. 1.定义一个简单的枚举类型 public enum Sex { MAN, WOMAN } 枚举类型本质是类,编译此段代码会生成.class文件.通过Sex.MAN来访问Sex中的成员,其返回值是Sex类型. 2.常用方法静态的values()方

Spark 生成HFile过程详解

Spark 生成HFile过程详解

前言

生成hfile流程

bulk load

你可能感兴趣的:(HBase)