VanasWang

HBase命令行客户端+架构笔记

文章目录

数据类型
安装集群

配置文件
配置环境变量
HBase远程发送到其他集群
启动
查看HBase页面

命令行客户端

建表
查看表详情
修改列族
删除表

put
scan
get
删除
清空表

命名空间操作
查看底层数据

查看删除的版本信息
删除策略（3种）

查看hbase:meta

RegionServer架构

写流程
MemStore Flush

刷写时机
手动flush

读流程
StoreFile Compaction
Region Split

Region Split时机

数据类型

传统：数据库->表->行->

hbase：命名空间（namespce）->table ->列族 ->行 ->列

逻辑结构

官方不建议列族超过2个

列族里可以创建无限个列

列族：列名

安装集群

准备工作

zookeeper ，hdfs

配置文件

hbase-env.sh

125行
:set num
export HBASE_MANAGES_ZK=false

hbase-site.xml

<configuration>
    <property>
        <name>hbase.rootdirname>
        <value>hdfs://hadoop130:9820/hbasevalue>
    property>

    <property>
        <name>hbase.cluster.distributedname>
        <value>truevalue>
    property>

    <property>
        <name>hbase.zookeeper.quorumname>
        <value>hadoop130,hadoop133,hadoop134value>
    property>

    <property>
        <name>hbase.unsafe.stream.capability.enforcename>
        <value>falsevalue>
    property>

    <property>
        <name>hbase.wal.providername>  //预写日志
        <value>filesystemvalue>
    property>
configuration>

regionservers

hadoop130
hadoop133
hadoop134

配置环境变量

/etc/profile.d/my_env.sh

export HBASE_HOME=/opt/module/hbase-2.0.5
export PATH=$PATH:$HBASE_HOME/bin

HBase远程发送到其他集群

xsync hbase/

启动

1.先启动hdfs

2.启动zookeeper

3.hbase集群有两种角色

master，rigonsever

单启

群起

start-hbase.sh
1.在当前节点起一个master
2.在所有节点（reginservers）起regionserver

查看HBase页面

master: http://hadoop130:16010

Region:16030

系统表里有2个表

Zk->meta->region

meta：原数据确定在哪个region

namespace

命令行客户端

DDL

进入客户端

[vanas@hadoop130 conf]$ hbase shell
hbase(main):001:0> help
hbase(main):002:0> list   //列出所有用户表

建表

help ‘create’

create 'student','info'

查看表详情

desc 'student'

hbase(main):002:0> desc 'user'
Table user is ENABLED                                                                                                              
user                                                                                                                               
COLUMN FAMILIES DESCRIPTION                                                                                                        
{NAME => 'info', VERSIONS => '1', EVICT_BLOCKS_ON_CLOSE => 'false', NEW_VERSION_BEHAVIOR => 'false', KEEP_DELETED_CELLS => 'FALSE',
 CACHE_DATA_ON_WRITE => 'false', DATA_BLOCK_ENCODING => 'NONE', TTL => 'FOREVER', MIN_VERSIONS => '0', REPLICATION_SCOPE => '0', BL
OOMFILTER => 'ROW', CACHE_INDEX_ON_WRITE => 'false', IN_MEMORY => 'false', CACHE_BLOOMS_ON_WRITE => 'false', PREFETCH_BLOCKS_ON_OPE
N => 'false', COMPRESSION => 'NONE', BLOCKCACHE => 'true', BLOCKSIZE => '65536'}                                                   
1 row(s)

修改列族

修改版本

alter 'student',{NAME=>'info',VSRSIONS=>3}

添加列族

alter 'student',{NAME=>'msg'}

删除列族

alter 'student','delete'=>'msg'

删除表

enable表示可以往里写也可以读

disable表示不可写不可读表还在

disable 'student'
enable 'student'

disable 后再drop

hbase(main):004:0> drop 'user'  //表里有内容需要disable
ERROR: Table user is enabled. Disable it first.
Drop the named table. Table must first be disabled:
  hbase> drop 't1'
  hbase> drop 'ns1:t1'
Took 0.0195 seconds    
hbase(main):005:0> disable 'user'
Took 0.4406 seconds          
hbase(main):019:0> drop 'user'
Took 0.2415 seconds                                                                                                                
hbase(main):020:0> list
TABLE                                                                                                                              
0 row(s)
Took 0.0078 seconds                                                                                                                
=> []

DML

put

加和修改都用put

put 'student','1001','info:name','zhangsan'
put 'student','1001','info:name','lisi'

scan

全表扫描，使用慎重

最好加一些范围

hbase(main):003:0> create 'user','cf1','cf2'
hbase(main):005:0> scan 'user' //全表扫描
ROW                               COLUMN+CELL                                                                                     
0 row(s)  
hbase(main):006:0> put 'user','1001','cf1:name','zs'
hbase(main):007:0> scan 'user'
ROW                               COLUMN+CELL                                                                                     
 1001                             column=cf1:name, timestamp=1592882972801, value=zs                                              
1 row(s)

hbase(main):008:0> put 'user','1001','cf1:age',10 //都是字节 ‘10’
hbase(main):009:0> scan 'user'  //字母序升序
ROW                               COLUMN+CELL                                                                                     
 1001                             column=cf1:age, timestamp=1592883069488, value=10                                               
 1001                             column=cf1:name, timestamp=1592882972801, value=zs                                              
1 row(s)

hbase(main):010:0> put 'user','1002','cf1:name','lisi'
Took 0.0136 seconds                                                                                                               
hbase(main):011:0> scan 'user'
ROW                               COLUMN+CELL                                                                                     
 1001                             column=cf1:age, timestamp=1592883069488, value=10                                               
 1001                             column=cf1:name, timestamp=1592882972801, value=zs                                              
 1002                             column=cf1:name, timestamp=1592883223340, value=lisi                                            
2 row(s)

hbase(main):012:0> put 'user','1002','cf2:sex','male'
Took 0.0107 seconds                                                                                                               
hbase(main):013:0> scan 'user'
ROW                               COLUMN+CELL                                                                                     
 1001                             column=cf1:age, timestamp=1592883069488, value=10                                               
 1001                             column=cf1:name, timestamp=1592882972801, value=zs                                              
 1002                             column=cf1:name, timestamp=1592883223340, value=lisi                                            
 1002                             column=cf2:sex, timestamp=1592883280626, value=male                                             
2 row(s)

带范围

scan 'student',{STARTROW=>'1002',STOPROW=>'1004'}

hbase(main):002:0> scan 'user',{ STARTROW => '1001',STOPROW => '1002_'}
ROW                               COLUMN+CELL                                                                                     
 1001                             column=cf1:age, timestamp=1592883069488, value=10                                               
 1001                             column=cf1:name, timestamp=1592882972801, value=zs                                              
 1002                             column=cf1:name, timestamp=1592883223340, value=lisi                                            
 1002                             column=cf2:sex, timestamp=1592883280626, value=male                                             
2 row(s)
Took 0.0265 seconds   
hbase(main):003:0> count 'user'
2 row(s)
Took 0.0309 seconds                                                                                                               
=> 2

要考虑字典序的问题

取范围后面加个！(!靠前的字符)

scan 'student',{STARTROW=>'1002',STOPROW=>'1003!'}

get

查找一行

hbase(main):014:0> get 'user','1001'  
COLUMN                            CELL                                                                                            
 cf1:age                          timestamp=1592883069488, value=10                                                               
 cf1:name                         timestamp=1592882972801, value=zs    

hbase(main):001:0> get 'user','1001','cf1:name'
COLUMN                            CELL                                                                                            
 cf1:name                         timestamp=1592882972801, value=zs                                                               
1 row(s)
Took 0.4030 seconds

删除

delete

deleteall

hbase(main):005:0> delete 'user','1000','cf1:name'
Took 0.0431 seconds                                                                                                                
hbase(main):006:0> scan 'user'
ROW                               COLUMN+CELL                                                                                      
 1001                             column=cf1:age, timestamp=1592883069488, value=10                                                
 1001                             column=cf1:name, timestamp=1592882972801, value=zs                                               
 1002                             column=cf1:name, timestamp=1592883223340, value=lisi                                             
 1002                             column=cf2:sex, timestamp=1592883280626, value=male                                              
2 row(s)

hbase(main):001:0> deleteall 'user','1001'
Took 0.3408 seconds

清空表

truncate 没法挽救的

hbase(main):002:0> truncate 'user'
Truncating 'user' table (it may take a while):
Disabling table...
Truncating table...
Took 2.1492 seconds                                                                                                                
hbase(main):003:0> scan 'user'
ROW                               COLUMN+CELL                                                                                      
0 row(s)
Took 0.5192 seconds

命名空间操作

hbase(main):003:0> create_namespace 'test'
Took 0.3113 seconds                                                                                                                
hbase(main):004:0> create 'test:user','info'
Created table test:user
Took 0.7611 seconds                                                                                                                
=> Hbase::Table - test:user

Took 0.1234 seconds                                                                                                                
hbase(main):010:0> list
TABLE                                                                                                                              
test:user                                                                                                                          
user                                                                                                                               
2 row(s)
Took 0.0123 seconds                                                                                                                
=> ["test:user", "user"]

hbase(main):012:0> disable 'test:user'
Took 0.4602 seconds                                                                                                                
hbase(main):013:0> drop 'test:user'
Took 0.2643 seconds                                                                                                                
hbase(main):014:0> drop_namespace 'test'
Took 0.2292 seconds              

hbase(main):016:0> list_namespace
NAMESPACE                                                                                                                          
default                                                                                                                            
hbase                                                                                                                              
2 row(s)
Took 0.0187 seconds

查看底层数据

查看删除的版本信息

create 'user1',{NAME=> 'f1',VERSIONS => 2}

scan 'user1',{RAW =>TRUE,VERSIONS=>10}

删除最新的版本话返回老版本

删除策略（3种）

hbase(main):001:0> help 'delete'
Put a delete cell value at specified table/row/column and optionally
timestamp coordinates.  Deletes must match the deleted cell's
coordinates exactly.  When scanning, a delete cell suppresses older
versions. To delete a cell from  't1' at row 'r1' under column 'c1'
marked with the time 'ts1', do:

  hbase> delete 'ns1:t1', 'r1', 'c1', ts1
  hbase> delete 't1', 'r1', 'c1', ts1
  hbase> delete 't1', 'r1', 'c1', ts1, {VISIBILITY=>'PRIVATE|SECRET'}

The same command can also be run on a table reference. Suppose you had a reference
t to table 't1', the corresponding command would be:

  hbase> t.delete 'r1', 'c1',  ts1
  hbase> t.delete 'r1', 'c1',  ts1, {VISIBILITY=>'PRIVATE|SECRET'}

**删除最新版本:**delete

标记为：delete

**删除列的所有版本:**deleteall

标记type 变为deleteColumn

deleteall 'student','1001','info:sex'

删除整个列族的所有版本：deleteall

未标明列族

type变为DeleteFamily

deleteall 'student','1001'

查看hbase:meta

可以看到原数据信息

hbase(main):021:0> create 'staff1','info','partition1',SPLITS => ['1000','2000','3000','4000']
Created table staff1
Took 1.3110 seconds                                                                                                                
=> Hbase::Table - staff1

hbase(main):022:0> scan 'hbase:meta'
ROW                               COLUMN+CELL                                                                                      
 hbase:namespace                  column=table:state, timestamp=1592879043543, value=\x08\x00                                      
 hbase:namespace,,1592879042424.8 column=info:regioninfo, timestamp=1592882943466, value={ENCODED => 8cf40d6315c5a0717e8dd66d08916f
 cf40d6315c5a0717e8dd66d08916f51. 51, NAME => 'hbase:namespace,,1592879042424.8cf40d6315c5a0717e8dd66d08916f51.', STARTKEY => '', E
                                  NDKEY => ''}                                                                                     
 hbase:namespace,,1592879042424.8 column=info:seqnumDuringOpen, timestamp=1592882943466, value=\x00\x00\x00\x00\x00\x00\x00\x0A    
 cf40d6315c5a0717e8dd66d08916f51.                                                                                                  
 hbase:namespace,,1592879042424.8 column=info:server, timestamp=1592882943466, value=hadoop133:16020                               
 cf40d6315c5a0717e8dd66d08916f51.                                                                                                  
 hbase:namespace,,1592879042424.8 column=info:serverstartcode, timestamp=1592882943466, value=1592879017171                        
 cf40d6315c5a0717e8dd66d08916f51.                                                                                                  
 hbase:namespace,,1592879042424.8 column=info:sn, timestamp=1592882942925, value=hadoop133,16020,1592879017171                     
 cf40d6315c5a0717e8dd66d08916f51.                                                                                                  
 hbase:namespace,,1592879042424.8 column=info:state, timestamp=1592882943466, value=OPEN                                           
 cf40d6315c5a0717e8dd66d08916f51.                                                                                                  
 staff1                           column=table:state, timestamp=1592897196760, value=\x08\x00                                      
 staff1,,1592897195898.820d19df08 column=info:regioninfo, timestamp=1592897196684, value={ENCODED => 820d19df08d143327dd824397590fa
 d143327dd824397590fa57.          57, NAME => 'staff1,,1592897195898.820d19df08d143327dd824397590fa57.', STARTKEY => '', ENDKEY => 
                                  '1000'}                                                                                          
 staff1,,1592897195898.820d19df08 column=info:seqnumDuringOpen, timestamp=1592897196684, value=\x00\x00\x00\x00\x00\x00\x00\x02    
 d143327dd824397590fa57.                                                                                                           
 staff1,,1592897195898.820d19df08 column=info:server, timestamp=1592897196684, value=hadoop133:16020                               
 d143327dd824397590fa57.                                                                                                           
 staff1,,1592897195898.820d19df08 column=info:serverstartcode, timestamp=1592897196684, value=1592879017171                        
 d143327dd824397590fa57.                                                                                                           
 staff1,,1592897195898.820d19df08 column=info:sn, timestamp=1592897196403, value=hadoop133,16020,1592879017171                     
 d143327dd824397590fa57.                                                                                                           
 staff1,,1592897195898.820d19df08 column=info:state, timestamp=1592897196684, value=OPEN                                           
 d143327dd824397590fa57.                                                                                                           
 staff1,1000,1592897195898.fa98b7 column=info:regioninfo, timestamp=1592897196735, value={ENCODED => fa98b703cadb3c14560d016d6c05ea
 03cadb3c14560d016d6c05eafa.      fa, NAME => 'staff1,1000,1592897195898.fa98b703cadb3c14560d016d6c05eafa.', STARTKEY => '1000', EN
                                  DKEY => '2000'}                                                                                  
 staff1,1000,1592897195898.fa98b7 column=info:seqnumDuringOpen, timestamp=1592897196735, value=\x00\x00\x00\x00\x00\x00\x00\x02    
 03cadb3c14560d016d6c05eafa.                                                                                                       
 staff1,1000,1592897195898.fa98b7 column=info:server, timestamp=1592897196735, value=hadoop134:16020                               
 03cadb3c14560d016d6c05eafa.                                                                                                       
 staff1,1000,1592897195898.fa98b7 column=info:serverstartcode, timestamp=1592897196735, value=1592879017250                        
 03cadb3c14560d016d6c05eafa.                                                                                                       
 staff1,1000,1592897195898.fa98b7 column=info:sn, timestamp=1592897196403, value=hadoop134,16020,1592879017250                     
 03cadb3c14560d016d6c05eafa.                                                                                                       
 staff1,1000,1592897195898.fa98b7 column=info:state, timestamp=1592897196735, value=OPEN                                           
 03cadb3c14560d016d6c05eafa.                                                                                                       
 staff1,2000,1592897195898.7073fc column=info:regioninfo, timestamp=1592897196677, value={ENCODED => 7073fcf3b2d6c16a92ae70aff275c3
 f3b2d6c16a92ae70aff275c329.      29, NAME => 'staff1,2000,1592897195898.7073fcf3b2d6c16a92ae70aff275c329.', STARTKEY => '2000', EN
                                  DKEY => '3000'}                                                                                  
 staff1,2000,1592897195898.7073fc column=info:seqnumDuringOpen, timestamp=1592897196677, value=\x00\x00\x00\x00\x00\x00\x00\x02    
 f3b2d6c16a92ae70aff275c329.                                                                                                       
 staff1,2000,1592897195898.7073fc column=info:server, timestamp=1592897196677, value=hadoop130:16020                               
 f3b2d6c16a92ae70aff275c329.                                                                                                       
 staff1,2000,1592897195898.7073fc column=info:serverstartcode, timestamp=1592897196677, value=1592879017365                        
 f3b2d6c16a92ae70aff275c329.                                                                                                       
 staff1,2000,1592897195898.7073fc column=info:sn, timestamp=1592897196404, value=hadoop130,16020,1592879017365                     
 f3b2d6c16a92ae70aff275c329.                                                                                                       
 staff1,2000,1592897195898.7073fc column=info:state, timestamp=1592897196677, value=OPEN                                           
 f3b2d6c16a92ae70aff275c329.                                                                                                       
 staff1,3000,1592897195898.e8249c column=info:regioninfo, timestamp=1592897196734, value={ENCODED => e8249c723dc95217610046edf5184d
 723dc95217610046edf5184dd6.      d6, NAME => 'staff1,3000,1592897195898.e8249c723dc95217610046edf5184dd6.', STARTKEY => '3000', EN
                                  DKEY => '4000'}                                                                                  
 staff1,3000,1592897195898.e8249c column=info:seqnumDuringOpen, timestamp=1592897196734, value=\x00\x00\x00\x00\x00\x00\x00\x02    
 723dc95217610046edf5184dd6.                                                                                                       
 staff1,3000,1592897195898.e8249c column=info:server, timestamp=1592897196734, value=hadoop134:16020                               
 723dc95217610046edf5184dd6.                                                                                                       
 staff1,3000,1592897195898.e8249c column=info:serverstartcode, timestamp=1592897196734, value=1592879017250                        
 723dc95217610046edf5184dd6.                                                                                                       
 staff1,3000,1592897195898.e8249c column=info:sn, timestamp=1592897196403, value=hadoop134,16020,1592879017250                     
 723dc95217610046edf5184dd6.                                                                                                       
 staff1,3000,1592897195898.e8249c column=info:state, timestamp=1592897196734, value=OPEN                                           
 723dc95217610046edf5184dd6.                                                                                                       
 staff1,4000,1592897195898.439111 column=info:regioninfo, timestamp=1592897196678, value={ENCODED => 439111241cca898505c24f241c6d93
 241cca898505c24f241c6d93e7.      e7, NAME => 'staff1,4000,1592897195898.439111241cca898505c24f241c6d93e7.', STARTKEY => '4000', EN
                                  DKEY => ''}                                                                                      
 staff1,4000,1592897195898.439111 column=info:seqnumDuringOpen, timestamp=1592897196678, value=\x00\x00\x00\x00\x00\x00\x00\x02    
 241cca898505c24f241c6d93e7.                                                                                                       
 staff1,4000,1592897195898.439111 column=info:server, timestamp=1592897196678, value=hadoop130:16020                               
 241cca898505c24f241c6d93e7.                                                                                                       
 staff1,4000,1592897195898.439111 column=info:serverstartcode, timestamp=1592897196678, value=1592879017365                        
 241cca898505c24f241c6d93e7.                                                                                                       
 staff1,4000,1592897195898.439111 column=info:sn, timestamp=1592897196404, value=hadoop130,16020,1592879017365                     
 241cca898505c24f241c6d93e7.                                                                                                       
 staff1,4000,1592897195898.439111 column=info:state, timestamp=1592897196678, value=OPEN                                           
 241cca898505c24f241c6d93e7.                                                                                                       
8 row(s)

RegionServer架构

Memstore 写缓存

操作记录写到WAL中，追加写（wal一般在hdfs上）

然后再往memstore写当memestore到达一定时机再刷写到hdfs

每次刷写会生成新的StoreFile

block Cache 读缓存

LRU（Least Resent use）策略会把最早的访问最少的清除掉

写流程

MemStore Flush

以Region为单位刷写

尽可能减少列族，最好不要超过3个，不然小文件过多

刷写时机

1.当某个memstroe的大小达到了hbase.hregion.memstore.flush.size（默认值128M），其所在region的所有memstore都会刷写。
当memstore的大小达到了
hbase.hregion.memstore.flush.size（默认值128M）* hbase.hregion.memstore.block.multiplier（默认值4）时，会阻止继续往该memstore写数据。

2.当region server中memstore的总大小达到
java_heapsize * hbase.regionserver.global.memstore.size（默认值0.4）
*hbase.regionserver.global.memstore.size.lower.limit（默认值0.95），
region会按照其所有memstore的大小顺序（由大到小）依次进行刷写。直到region server中所有memstore的总大小减小到上述值以下。
当region server中memstore的总大小达到
java_heapsize * hbase.regionserver.global.memstore.size（默认值0.4）
时，会阻止继续往所有的memstore写数据。

3. 到达自动刷写的时间，也会触发memstore flush。自动刷新的时间间隔由该属性进行配置hbase.regionserver.optionalcacheflushinterval（默认1小时）。

4.当WAL文件的数量超过hbase.regionserver.max.logs，region会按照时间顺序依次进行刷写，直到WAL文件数量减小到hbase.regionserver.max.log以下（该属性名已经废弃，现无需手动设置，最大值为32）。

wal工作的文件就一个当memstore flush到storeFile中 wal 才会删除预写日志

手动flush

第5种

flush 可以以region、表为单位

读流程

细节

过滤的作用：减少一部分HFile，扫描的范围变小

Block Cache作用：加快读的流程

每一个HFile都有索引，在flush时生成的索引，位于HFile中

每个HFile都有自己的布隆过滤器

第一次读HFile加载到block cache后也会存HFile的索引和布隆过滤器

第二次读从block cache 读索引根据索引定位block，Block cache有直接读取，没有再去读HFile

布隆过滤器：

存在每个HFile中，刷写的过程中索引和布隆过滤器同时生成，也换缓存在BlockCache中

数据结构数组存放0/1 rowkey根据不同的hash判断放入数组中

布隆过滤器可以100%否定这个文件没有rowkey的，不能100%肯定某个文件有rowkey

有无一定误差数组越长误差越小

布隆过滤器数组长度可以设定

StoreFile Compaction

1.归并排序

2.删除过期数据

Compaction分为两种，分别是Minor Compaction和Major Compaction。Minor Compaction会将临近的若干个较小的HFile合并成一个较大的HFile，并清理掉部分过期和删除的数据。Major Compaction会将一个Store下的所有的HFile合并成一个大HFile，并且会清理掉所有过期和删除的数据。

Minor Compaction （自动执行）

归并排序，部分物理删除，删除标记不能删

Major Compaction （周期进行，7天一次大合并）

可以把该删的都删了

合并是比较耗费性能，通常自动大合并需要关闭，手动进行

Region Split

细节：

region对应一个hdfs一个路径

分裂过程中会产生新路径，引用文件引用老文件中的rowkey范围，写的时候会写在新路径下

当新region进行Major Compaction 时会把老region的文件拿过来合并在一起，排序清理过期数据

当2个新region都进行完Major Compaction 后，老region才会删除掉

Region Split时机

分裂策略

1.当1个region中的某个Store下所有StoreFile的总大小超过hbase.hregion.max.filesize (默认10G)，该Region就会进行拆分（0.94版本之前）。

2.当1个region中的某个Store下所有StoreFile的总大小超过Min(initialSize*R^3 ,hbase.hregion.max.filesize")，该Region就会进行拆分。其中initialSize的默认值为2*hbase.hregion.memstore.flush.size，R为当前Region Server中属于该Table的Region个数（0.94版本之后）。
具体的切分策略为：
第一次split：1^3 * 256 = 256MB 
第二次split：2^3 * 256 = 2048MB 
第三次split：3^3 * 256 = 6912MB 
第四次split：4^3 * 256 = 16384MB > 10GB，因此取较小的值10GB 
后面每次split的size都是10GB了。

3.Hbase 2.0引入了新的split策略：如果当前RegionServer上该表只有一个Region，按照2 * hbase.hregion.memstore.flush.size分裂，否则按照hbase.hregion.max.filesize分裂。

在建表的时候指明分裂策略hbase.regionserver.region.split.policy

你可能感兴趣的:(hbase)

关于HDP的20道高级运维面试题编织幻境的妖运维
1.描述HDP的主要组件及其作用。HDP（HortonworksDataPlatform）的主要组件包括Hadoop框架、HDFS、MapReduce、YARN以及Hadoop生态系统中的其他关键工具，如Spark、Flink、Hive、HBase等。以下是对这些组件及其作用的具体描述：Hadoop框架:Hadoop是一个开源的分布式计算框架，用Java语言编写，用于存储和处理大规模数据集。它广义
HBase入门教程 xmvip01
1.1Hbase概念术语1、行键RowKey：主键是用来检索记录的主键，访问hbasetable中的行。2、列族ColumnFamily：Table在水平方向有一个或者多个ColumnFamily组成，一个ColumnFamily中可以由任意多个Column组成，即ColumnFamily支持动态扩展，无需预先定义Column的数量以及类型，所有Column均以二进制格式存储，用户需要自行进行类型
HBase常用命令叶域大数据 HBase hbase 数据库大数据
简介：HBaseShell是一种操作HBase的交互模式，支持完整的HBase命令集。hbaseshell#打开HbaseShell目录:命令类别常用命令Generalversion，status，whoami，helpDDLalter，creater，describe，disable，drop，enable，exists，is_disabled，is_enabled，list，DMLcount，
Flink异步io关联Hbase //承续缘_纪录片 #Flink flink hbase 大数据
主程序publicstaticvoidmain(String[]args)throwsException{//1.获取流执行环境StreamExecutionEnvironmentenv=StreamExecutionEnvironment.getExecutionEnvironment();env.setParallelism(1);SimpleDateFormatformatter=newSi
Hbase集群搭建超详细教程笑看风云路集群搭建系列 hbase hbase hadoop 大数据
Hbase集群搭建前言详细步骤1、下载安装包2、解压3、修改配置文件3.1修改hbase-env.sh文件3.2修改hbase-site.xml3.3修改regionservers文件4、分发hbase目录5、启动HBase集群6、查看HBaseWebUI大家好，我是风云，欢迎大家关注我的博客，在未来的日子里我们一起来学习大数据相关的技术，一起努力奋斗，遇见更好的自己！前言HBase是一个开源的、
基于HBase和Spark构建企业级数据处理平台 weixin_34071713 大数据数据库爬虫
摘要：在中国HBase技术社区第十届Meetup杭州站上，阿里云数据库技术专家李伟为大家分享了如何基于当下流行的HBase和Spark体系构建企业级数据处理平台，并且针对于一些具体落地场景进行了介绍。演讲嘉宾简介：李伟（花名：沐远），阿里云数据库技术专家。专注于大数据分布式计算和数据库领域，具有6年分布式开发经验，先后研发Spark及自主研发内存计算，目前为广大公有云用户提供专业的云HBase数据
大数据开发（Hadoop面试真题-卷九） Key-Key 大数据 hadoop 面试
大数据开发（Hadoop面试真题）1、Hivecount(distinct)有几个reduce，海量数据会有什么问题？2、既然HBase底层数据是存储在HDFS上，为什么不直接使用HDFS，而还要用HBase?3、Sparkmapjoin的实现原理？4、Spark的stage如何划分？在源码中是怎么判断属于ShuffleMapStage或ResultStage的？5、SparkreduceByKe
hbase、hive、clickhouse对比 freshrookie hbase hive hadoop
概念架构hbasemaster存储元数据、regionServer实际控制表数据，存储单位是Region，底层数据存储使用HDFShive通过driver将sql分解成mapreduce任务元数据需要单独存储到一个关系型数据库，一般是mysql实际数据存储可以是外表，也可以是内表clickhouse单体架构分层类似mysql，集群状态下是多主，通过zookeeper通信数据存储看引擎，最重要的引擎
openeuler20.03在线安装docker最新版 openeulerdocker
更新系统软件包列表：sudoyumupdate-y添加Docker的官方仓库源：sudotee/etc/yum.repos.d/docker-ce.repo<
Kafka痛点与Puslar介绍 weidajiangjiang kafka痛点 Puslar
ApacheKafka作为一款成熟的消费队列得到了很广泛地运用.但以2019年的角度来看,存在一些痛点.存储计算没有分离,难以扩容和缩容没有IO隔离,写高了读不动,读高了写不动没有多租户IO模型过于简单,面对大量topic时性能下降严重消费模型有限,无法利用部分业务可以接受消息无序的特点Puslar是一个非常优秀的开源系统，它的整体框架偏向于HBase的设计，在其上实现了流数据的处理和服务。从与K
Hadoop生态圈陈超Terry的技术屋
生态圈1.HBase的数据存储在HDFS里2.MapReduce可以计算HBase里的数据，也可以计算HDFS里的数据3.Hive是数据分析数据引擎，也是MapReduce模型，支持SQL4.Pig也是一个数据分析引擎，不支持SQL，有自己的PigLatin数据5.Sqoop是数据采集工具，针对关系数据库6.Flume是针对文件等数据的采集7.Hadoop的HA通过Zookeeper来实现8.HU
HBase 进阶魅美笔记大数据基础 hbase 数据库大数据
参考来源:B站尚硅谷HBase2.x目录Master架构RegionServer架构写流程MemStoreFlush读流程HFile结构读流程合并读取数据优化StoreFileCompactionRegionSplit预分区（自定义分区）系统拆分Master架构Master详细架构1）Meta表格介绍：（警告：不要去改这个表）全称hbase：meta，只是在list命令中被过滤掉了，本质上和HBa
HbaseAPI astudybear hbase 数据库 database
hbaseAPI方法：API本质就是调用对象的方法去实现的。ddl的概念是对表的操作和对外面的大的操作，ddl都是去调用admin对象的方法实现的admin对象通过连接.getAdmin获取。dml的概念是对数据的操作和查询什么的，dml都是去调用Table对象的方法实现的，Table对象通过连接.getTable获取。步骤：①获取hbase的配置对象②创建连接对象将配置对象传参③如果是ddl的话
HBase API 魅美大数据基础笔记 hbase 数据库大数据
参考来源:B站尚硅谷HBase2.x环境准备新建Maven项目后在pom.xml中添加依赖：注意：会报错javax.el包不存在，是一个测试用的依赖，不影响使用org.apache.hbasehbase-server2.4.11org.glassfishjavax.elorg.glassfishjavax.el3.0.1-b06创建连接根据官方API介绍，HBase的客户端连接由Connectio
Hbase - 自定义Rowkey规则 kikiki5
>在Flink中我们有时候需要分析数据1点到2点的范围,可是经过Region又比较慢，这时候我们就可以定制`TableInputFormat`来实现我们的需求了，我们还可以采用Flink的`DataSet`的方式读取,另外下面还有`Spark`读取的例子。##使用教程Md5Util.java```importorg.apache.commons.codec.binary.Hex;importjav
HBase——基础概念介绍 zhanglf1016 #HBase hbase 数据库大数据
一、初识HBaseHBase是一个面向列式存储的分布式数据库，其设计思想来源于Google的BigTable论文。HBase底层存储基于HDFS实现，集群的管理基于ZooKeeper实现。HBase良好的分布式架构设计为海量数据的快速存储、随机访问提供了可能，基于数据副本机制和分区机制可以轻松实现在线扩容、缩容和数据容灾，是大数据领域中Key-Value数据结构存储最常用的数据库方案。HBase特
Hbase - 自定义Rowkey规则 kikiki2
在Flink中我们有时候需要分析数据1点到2点的范围,可是经过Region又比较慢，这时候我们就可以定制TableInputFormat来实现我们的需求了，我们还可以采用Flink的DataSet的方式读取,另外下面还有Spark读取的例子。使用教程Md5Util.javaimportorg.apache.commons.codec.binary.Hex;importjava.security.M
大数据开发之Sqoop详细介绍只是甲
备注:测试环境CDH6.3.1Sqoop1.4.7一.Sqoop概述ApacheSqoop（SQL-to-Hadoop）项目旨在协助RDBMS与Hadoop之间进行高效的大数据交流。用户可以在Sqoop的帮助下，轻松地把关系型数据库的数据导入到Hadoop与其相关的系统(如HBase和Hive)中；同时也可以把数据从Hadoop系统里抽取并导出到关系型数据库里。Sqoop是一个在结构化数据和Had
Ubuntu16.04下HBase安装笔记 bluexiii
基础准备JDKHadoopSSHServer下载HBasehttps://hbase.apache.org/tar-zxvfhbase-1.4.2-bin.tar.gzsudomvhbase-1.4.2/opt/hbase系统环境变量exportHBASE_MANAGES_ZK=trueexportHBASE_HOME=/opt/hbaseexportPATH=$PATH:/opt/hbase/b
HBase过滤器橙汁啤酒厂大数据 hbase python 数据库
HBase过滤器Get和Scan都支持过滤器，这些类提供的接口不能对行键、列名和列值进行过滤，但过滤器可以实现。过滤器的接口为Filter。所有的过滤器都在服务器端生效，防止过滤掉的数据被传到客户端；用户可以在客户端代码实现过滤的功能，但会影响系统性能。1.表的数据hbase(main):022:0>scan'scores'ROWCOLUMN+CELL1column=courses:java,ti
HBase Shell操作命令橙汁啤酒厂大数据 hbase 数据库大数据 zookeeper hadoop
一、general操作1.1获取帮助#引号不能省略help'status'1.2查询服务器状态1.statushbase(main):002:0>status1activemaster,0backupmasters,3servers,0dead,1.0000averageload1.3查询HBase版本versionhbase(main):003:0>version1.3.1,r930b9a555
学习笔记12-zookeeper 在知识的海洋里遨游
什么是zookeeper简介:ApacheZookeeper是一种用于分布式应用程序的高性能协调服务,提供一种集中式信息存储服务特点:数据存在内存中,类似文件系统的树形结构(文件和目录),高吞吐和低延迟,集群高可靠作用:基于zookeeper可以实现分布式统一配置中心,服务注册中心,分布式锁等功能1.zookeeper的应用案例Hbase:使用zookeeper进行master选举,服务间协调So
Hbase - 迁移数据[导出,导入] kikiki5
>有没有这样一样情况，把一个集群中的某个表导到另一个群集中，或者hbase的表结构发生了更改，但是数据还要，比如预分区没做，导致某台RegionServer很吃紧，Hbase的导出导出都可以很快的完成这些操作。![](https://upload-images.jianshu.io/upload_images/9028759-4fb9aa8ca3777969.png?imageMogr2/auto
Hbase - 自定义Rowkey规则大猪大猪
在Flink中我们有时候需要分析数据1点到2点的范围,可是经过Region又比较慢，这时候我们就可以定制TableInputFormat来实现我们的需求了，我们还可以采用Flink的DataSet的方式读取,另外下面还有Spark读取的例子。使用教程Md5Util.javaimportorg.apache.commons.codec.binary.Hex;importjava.security.M
zk01 矮肥
zookeeper基础ZooKeeper是一个分布式的，开放源码的分布式应用程序协调服务，是Hadoop和Hbase的重要组件。提供的功能包括：命名服务、配置管理、集群管理、分布式锁、队列管理。zookeeper是由文件系统和通知机制组成官网提供的集群图Zookeeper由2n+1台servers组成，每个server都知道彼此的存在。每个server都维护的内存状态镜像以及持久化存储的事务日志和
Python爬虫之非关系型数据库存储#5 仲君Johnny python爬虫逆向教程 python 爬虫 nosql 数据库网络爬虫
NoSQL，全称NotOnlySQL，意为不仅仅是SQL，泛指非关系型数据库。NoSQL是基于键值对的，而且不需要经过SQL层的解析，数据之间没有耦合性，性能非常高。非关系型数据库又可细分如下。键值存储数据库：代表有Redis、Voldemort和OracleBDB等。列存储数据库：代表有Cassandra、HBase和Riak等。文档型数据库：代表有CouchDB和MongoDB等。图形数据库：
-bash: export: =‘: 不是有效的标识符 -bash: export: 橙汁啤酒厂 linux操作时遇到的相关问题 bash 开发语言
问题：Xshell连接linux时出现以下错误：Lastlogin:SunFeb1114:45:022024-bash:export:`=':不是有效的标识符-bash:export:`/opt/hbase-1.3.1':不是有效的标识符-bash:export:`=':不是有效的标识符-bash:export:`.:/opt/hadoop-2.7.3//bin:/opt/jdk1.8.0_131
在运行hbase操作时出现错误：ERROR: Can‘t get master address from ZooKeeper； znode data == null 橙汁啤酒厂大数据 hbase zookeeper 数据库
在运行hbase操作时出现错误：ERROR:Can’tgetmasteraddressfromZooKeeper;znodedata==null，可能是ZooKeeper不稳定导致的hbase(main):003:0>statusERROR:Can'tgetmasteraddressfromZooKeeper;znodedata==nullHereissomehelpforthiscommand:
HBase集群部署橙汁啤酒厂大数据 hbase 数据库大数据 hadoop
1.HBase安装相关版本：Hadoop：2.7.3hbase：1.3.1hbase相关版本下载安装HBase需要安装hbase-1.3.1-bin.tar.gz软件包，下载并解压到/opt目录下2.HBase参数配置2.1修改Master节点和Slave节点的/etc/hosts文件#vi/etc/hosts添加以下内容:172.30.0.10master172.30.0.11slave1172
clickhouse 21.x生产实践优化架构师老狼
clickhouse1时间字段类型建表时能用数值型或日期时间型表示的字段就不要用字符串，全String类型在以Hive(hbase)为中心的数仓建设中常见，但ClickHouse环境不应受此影响。虽然ClickHouse底层将DateTime存储为时间戳Long类型，但不建议存储Long类型，因为DateTime不需要经过函数转换处理，执行效率高、可读性好。2Nullable类型官方已经指出Nul
PHP，安卓，UI，java，linux视频教程合集 cocos2d-x小菜 java UI PHP android linux
╔-----------------------------------╗┆
各表中的列名必须唯一。在表 'dbo.XXX' 中多次指定了列名 'XXX'。 bozch .net .net mvc
在.net mvc5中，在执行某一操作的时候，出现了如下错误：各表中的列名必须唯一。在表 'dbo.XXX' 中多次指定了列名 'XXX'。经查询当前的操作与错误内容无关，经过对错误信息的排查发现，事故出现在数据库迁移上。回想过去：在迁移之前已经对数据库进行了添加字段操作，再次进行迁移插入XXX字段的时候，就会提示如上错误。 &
Java 对象大小的计算 e200702084 java
Java对象的大小如何计算一个对象的大小呢？
Mybatis Spring 171815164 mybatis
ApplicationContext ac = new ClassPathXmlApplicationContext("applicationContext.xml"); CustomerService userService = (CustomerService) ac.getBean("customerService"); Customer cust
JVM 不稳定参数 g21121 jvm
-XX 参数被称为不稳定参数，之所以这么叫是因为此类参数的设置很容易引起JVM 性能上的差异，使JVM 存在极大的不稳定性。当然这是在非合理设置的前提下，如果此类参数设置合理讲大大提高JVM 的性能及稳定性。可以说“不稳定参数”
用户自动登录网站永夜-极光用户
1.目标:实现用户登录后,再次登录就自动登录,无需用户名和密码 2.思路:将用户的信息保存为cookie 每次用户访问网站,通过filter拦截所有请求,在filter中读取所有的cookie,如果找到了保存登录信息的cookie,那么在cookie中读取登录信息,然后直接
centos7 安装后失去win7的引导记录程序员是怎么炼成的操作系统
1.使用root身份(必须)打开 /boot/grub2/grub.cfg 2.找到 ### BEGIN /etc/grub.d/30_os-prober ### 在后面添加 menuentry "Windows 7 (loader) (on /dev/sda1)" {
Oracle 10g 官方中文安装帮助文档以及Oracle官方中文教程文档下载 aijuans oracle
Oracle 10g 官方中文安装帮助文档下载：http://download.csdn.net/tag/Oracle%E4%B8%AD%E6%96%87API%EF%BC%8COracle%E4%B8%AD%E6%96%87%E6%96%87%E6%A1%A3%EF%BC%8Coracle%E5%AD%A6%E4%B9%A0%E6%96%87%E6%A1%A3 Oracle 10g 官方中文教程
JavaEE开源快速开发平台G4Studio_V3.2发布了無為子 AOP oracle mysql javaee G4Studio
我非常高兴地宣布,今天我们最新的JavaEE开源快速开发平台G4Studio_V3.2版本已经正式发布。大家可以通过如下地址下载。访问G4Studio网站 http://www.g4it.org G4Studio_V3.2版本变更日志功能新增 (1).新增了系统右下角滑出提示窗口功能。 (2).新增了文件资源的Zip压缩和解压缩
Oracle常用的单行函数应用技巧总结百合不是茶日期函数转换函数(核心)数字函数通用函数(核心)字符函数
单行函数; 字符函数,数字函数,日期函数,转换函数(核心),通用函数(核心) 一:字符函数: .UPPER(字符串) 将字符串转为大写 .LOWER (字符串) 将字符串转为小写 .INITCAP(字符串) 将首字母大写 .LENGTH (字符串) 字符串的长度 .REPLACE(字符串,'A','_') 将字符串字符A转换成_
Mockito异常测试实例 bijian1013 java 单元测试 mockito
Mockito异常测试实例： package com.bijian.study; import static org.mockito.Mockito.mock; import static org.mockito.Mockito.when; import org.junit.Assert; import org.junit.Test; import org.mockito.
GA与量子恒道统计 Bill_chen JavaScript 浏览器百度 Google 防火墙
前一阵子，统计**网址时，Google Analytics（GA）和量子恒道统计（也称量子统计），数据有较大的偏差，仔细找相关资料研究了下，总结如下：为何GA和量子网站统计（量子统计前身为雅虎统计）结果不同？首先：没有一种网站统计工具能保证百分之百的准确出现该问题可能有以下几个原因：（1）不同的统计分析系统的算法机制不同；（2）统计代码放置的位置和前后
【Linux命令三】Top命令 bit1129 linux命令
Linux的Top命令类似于Windows的任务管理器，可以查看当前系统的运行情况，包括CPU、内存的使用情况等。如下是一个Top命令的执行结果： top - 21:22:04 up 1 day, 23:49, 1 user, load average: 1.10, 1.66, 1.99 Tasks: 202 total, 4 running, 198 sl
spring四种依赖注入方式白糖_ spring
平常的java开发中，程序员在某个类中需要依赖其它类的方法，则通常是new一个依赖类再调用类实例的方法，这种开发存在的问题是new的类实例不好统一管理，spring提出了依赖注入的思想，即依赖类不由程序员实例化，而是通过spring容器帮我们new指定实例并且将实例注入到需要该对象的类中。依赖注入的另一种说法是“控制反转”，通俗的理解是：平常我们new一个实例，这个实例的控制权是我
angular.injector boyitech AngularJS AngularJS API
angular.injector 描述: 创建一个injector对象, 调用injector对象的方法可以获得angular的service, 或者用来做依赖注入. 使用方法: angular.injector(modules, [strictDi]) 参数详解: Param Type Details mod
java-同步访问一个数组Integer[10]，生产者不断地往数组放入整数1000，数组满时等待；消费者不断地将数组里面的数置零，数组空时等待 bylijinnan Integer
public class PC { /** * 题目：生产者-消费者。 * 同步访问一个数组Integer[10]，生产者不断地往数组放入整数1000，数组满时等待；消费者不断地将数组里面的数置零，数组空时等待。 */ private static final Integer[] val=new Integer[10]; private static
使用Struts2.2.1配置 Chen.H apache spring Web xml struts
Struts2.2.1 需要如下 jar包: commons-fileupload-1.2.1.jar commons-io-1.3.2.jar commons-logging-1.0.4.jar freemarker-2.3.16.jar javassist-3.7.ga.jar ognl-3.0.jar spring.jar struts2-core-2.2.1.jar struts2-sp
[职业与教育]青春之歌 comsci 教育
每个人都有自己的青春之歌............但是我要说的却不是青春... 大家如果在自己的职业生涯没有给自己以后创业留一点点机会,仅仅凭学历和人脉关系,是难以在竞争激烈的市场中生存下去的.... &nbs
oracle连接(join)中使用using关键字 daizj JOIN oracle sql using
在oracle连接(join)中使用using关键字 34. View the Exhibit and examine the structure of the ORDERS and ORDER_ITEMS tables. Evaluate the following SQL statement: SELECT oi.order_id, product_id, order_date FRO
NIO示例 daysinsun nio
NIO服务端代码： public class NIOServer { private Selector selector; public void startServer(int port) throws IOException { ServerSocketChannel serverChannel = ServerSocketChannel.open(
C语言学习homework1 dcj3sjt126com c homework
0、课堂练习做完 1、使用sizeof计算出你所知道的所有的类型占用的空间。 int x; sizeof(x); sizeof(int); # include <stdio.h> int main(void) { int x1; char x2; double x3; float x4; printf(&quo
select in order by , mysql排序 dcj3sjt126com mysql
If i select like this: SELECT id FROM users WHERE id IN(3,4,8,1); This by default will select users in this order 1,3,4,8, I would like to select them in the same order that i put IN() values so:
页面校验-新建项目 fanxiaolong 页面校验
$(document).ready( function() { var flag = true; $('#changeform').submit(function() { var projectScValNull = true; var s =""; var parent_id = $("#parent_id").v
Ehcache（02）——ehcache.xml简介 234390216 ehcache ehcache.xml 简介
ehcache.xml简介 ehcache.xml文件是用来定义Ehcache的配置信息的，更准确的来说它是定义CacheManager的配置信息的。根据之前我们在《Ehcache简介》一文中对CacheManager的介绍我们知道一切Ehcache的应用都是从CacheManager开始的。在不指定配置信
junit 4.11中三个新功能 jackyrong java
junit 4.11中两个新增的功能，首先是注解中可以参数化，比如 import static org.junit.Assert.assertEquals; import java.util.Arrays; import org.junit.Test; import org.junit.runner.RunWith; import org.junit.runn
国外程序员爱用苹果Mac电脑的10大理由 php教程分享 windows PHP unix Microsoft perl
Mac 在国外很受欢迎，尤其是在设计/web开发/IT 人员圈子里。普通用户喜欢 Mac 可以理解，毕竟 Mac 设计美观，简单好用，没有病毒。那么为什么专业人士也对 Mac 情有独钟呢？从个人使用经验来看我想有下面几个原因： 1、Mac OS X 是基于 Unix 的这一点太重要了，尤其是对开发人员，至少对于我来说很重要，这意味着Unix 下一堆好用的工具都可以随手捡到。如果你是个 wi
位运算、异或的实际应用 wenjinglian 位运算
一．位操作基础，用一张表描述位操作符的应用规则并详细解释。二．常用位操作小技巧，有判断奇偶、交换两数、变换符号、求绝对值。三．位操作与空间压缩，针对筛素数进行空间压缩。 &n
weblogic部署项目出现的一些问题（持续补充中……） Everyday都不同 weblogic部署失败
好吧，weblogic的问题确实…… 问题一： org.springframework.beans.factory.BeanDefinitionStoreException: Failed to read candidate component class: URL [zip:E:/weblogic/user_projects/domains/base_domain/serve
tomcat7性能调优（01） toknowme tomcat7
Tomcat优化： 1、最大连接数最大线程等设置 <Connector port="8082" protocol="HTTP/1.1" useBodyEncodingForURI="t
PO VO DAO DTO BO TO概念与区别 xp9802 java DAO 设计模式 bean 领域模型
O/R Mapping 是 Object Relational Mapping（对象关系映射）的缩写。通俗点讲，就是将对象与关系数据库绑定，用对象来表示关系数据。在O/R Mapping的世界里，有两个基本的也是重要的东东需要了解，即VO，PO。它们的关系应该是相互独立的，一个VO可以只是PO的部分，也可以是多个PO构成，同样也可以等同于一个PO（指的是他们的属性）。这样，PO独立出来，数据持

HBase命令行客户端+架构 笔记