鸣宇淳

【十八掌●武功篇】第八掌：HBase之Shell

这一篇博文是【大数据技术●降龙十八掌】系列文章的其中一篇，点击查看目录：大数据技术●降龙十八掌

系列文章：
:【十八掌●武功篇】第八掌：HBase之基本概念
【十八掌●武功篇】第八掌：HBase之Shell
【十八掌●武功篇】第八掌：HBase之基本操作Java API
【十八掌●武功篇】第八掌：HBase之过滤器总结
【十八掌●武功篇】第八掌：HBase之性能调优
【十八掌●武功篇】第八掌：HBase之安装与集成 [草稿]

HBase Shell 是基于JRuby的程序，启动HBase Shell命令行程序是在HBase客户端的bin目录下执行：

[centos@hadoop1 ~]$ hbase shell

一、 HBase Shell命令概览

进入Hbase Shell命令行后，输入help可以显示HBase Shell的帮助信息，命令概览如下表所示：

命令组	命令	描述
general	status	查看当前HBase集群的信息 status ‘deatiled’ 查看详细信息
	table_help	表操作的帮助文档
	version	显示HBase的版本信息
	whoami	当前客户端用户信息
ddl	list	列出当前HBase里所有的表
	create	创建表
	disable	禁用表，删除表前要先禁用表
	enable	启用表
	drop	删除表
	describe	查看表的详细信息
	alter	修改表结构，给表添加列族
	exists	exists ‘test’ 判断表是否存在
namespace	create_namespace	创建一个新的命名空间
	list_namespace	查看有哪些命名空间
	describe_namespace
	alter_namespace
	drop_namespace
dml	put	添加数据
	get	获取数据。get ‘test’,’rowkey001’
	scan	扫描数据。scan ‘test’
	delete	删除数据
	deleteall	删除一个rowkey对应的所有的数据
	count	计数，Rowkey个数
	truncate
tools	balance_switch
	flush	刷写数据，把数据从memstore刷写到stroefile里。
	major_compact	合并

二、 HBase Shell详解

1、 General一般命令组

(1) status
显示Hbase集群的状态信息，可以选择summary、simple、detailed三种显示模式，分别是显示概要、显示简单信息、显示详细信息。
举例：

hbase(main):009:0> status
hbase(main):009:0> status 'summary'
hbase(main):009:0> status 'simple'
hbase(main):009:0> status 'detailed'

(2) version
查询HBase版本信息

(3) whoami
显示当前用户信息。

hbase(main):010:0> whoami
centos (auth:SIMPLE)
    groups: centos, adm, wheel, systemd-journal

2、表管理命令组

(1) alter
alter命令是修改表的列族结构。
举例：

--在表table1中添加一个列族f1，版本为2
hbase(main):013:0> alter 'table1',NAME=>'f1',VERSIONS=>2
--添加f2、f3两个列族，f1列族不变
alter 'table1','f1',{NAME=>'f2',VERSIONS=>1},{NAME=>'f3',VERSIONS=>3}
--删除列族
alter 'table1','delete'=>'f2'
--修改表的参数
alter 'table1',MAX_FILESIZE=>'134217728'
--添加一个协处理器，
--格式为：[coprocessor jar file location] | class name | [priority] | [arguments]
alter 'table1','coprocessor'=>'hdfs:///foo.jar|com.foo.FooRegionObserver|1001|arg1=1,arg2=2'
--移除表的参数
hbase> alter 't1’, METHOD => 'table_att_unset’, NAME => 'MAX_FILESIZE’
--移除一个协处理器
hbase> alter 't1’, METHOD => 'table_att_unset’, NAME => 'coprocessor$1'

(2) create
创建表的语句。
举例：

hbase> create 't1', {NAME => 'f1', VERSIONS => 5}
hbase> create 't1', {NAME => 'f1'}, {NAME => 'f2'}, {NAME => 'f3'} 
hbase> create 't1', 'f1', 'f2', 'f3'
hbase> create 't1', {NAME => 'f1', VERSIONS => 1, TTL => 2592000, BLOCKCACHE => true}
hbase> create 't1', {NAME => 'f1', CONFIGURATION => {'hbase.hstore.blockingStoreFiles' => '10'}}

(3) describe
查看表信息。
(4) disable
停用表
(5) disable_all
停用正则表达式所匹配的表
举例：

disable_all 't.*'

(6) is_disabled
判断一个表是否是停用状状态，如果是停用的，就返回true
举例：

is_disabled 'table1'

(7) drop
删除表

(8) drop_all
删除正则表达式说匹配的表。

(9) enable
启用表

(10) enable_all
启用正则表达式所匹配的表。

(11) is_enabled
判断表是否是启用状态，如果是启用状态，返回true

(12) exists
判断表是否存在

(13) list
如果list后面没有参数，就是列出所有的表。
如果list后面带了正则表达式，就只是列出所匹配的表。

(14) show_filters
显示HBase中所有的过滤器。
示例：

hbase(main):015:0> show_filters
ColumnPrefixFilter                                                                                                                                                          
TimestampsFilter                                                                                                                                                            
PageFilter                                                                                                                                                                  
MultipleColumnPrefixFilter                                                                                                                                                  
FamilyFilter                                                                                                                                                                
ColumnPaginationFilter                                                                                                                                                      
SingleColumnValueFilter                                                                                                                                                     
RowFilter                                                                                                                                                                   
QualifierFilter                                                                                                                                                             
ColumnRangeFilter                                                                                                                                                           
ValueFilter                                                                                                                                                                 
PrefixFilter                                                                                                                                                                
SingleColumnValueExcludeFilter                                                                                                                                              
ColumnCountGetFilter                                                                                                                                                        
InclusiveStopFilter                                                                                                                                                         
DependentColumnFilter                                                                                                                                                       
FirstKeyOnlyFilter                                                                                                                                                          
KeyOnlyFilter

(15) alter_status
协同前一个命令，可以查看alter进度，有几个region收到schema更改通知。

(16) alter_async
异步执行修改表结构命令。

3、数据操纵命令

(17) count
通过MapReduce job来统计HBase表的行数，执行的是$HADOOP_HOME/bin/hadoop jar hbase.jar rowcount命令，INTERVAL参数是每隔多少行统计一次，默认是1000行，CACHE参数是缓存多少行，默认是10行。
举例：

hbase(main):002:0> count 'dealer:news',INTERVAL=>10000,CACHE=>100

(18) delete
根据确定的坐标，删除一行里的某一列数据或者删除某一列的小于指定版本的数据。
举例：

--删除表table1，RowKey为row1的行，列族为f3的c1列中的所有版本的值
hbase(main):022:0> delete 'table1','row1','f3:c1'
--删除单元格里，小于版本1499677619379的值
hbase(main):022:0> delete 'table1','row1','f3:c1',1499677619379

(19) deleteall
指定一个rowkey，删除这个rowkey里符合条件的值，可以删除所有列、某一列、某一个版本。
举例：

--删除某一个单元格的某一个版本
hbase(main):045:0> deleteall 'table1','row1','f3:c1',1499683038687
--删除某一列
hbase(main):051:0> deleteall 'table1','row1','f3:c1'
--删除某一行
hbase(main):060:0> deleteall 'table1','row1'

(20) get
获取一行后者一个单元格的内容，参数可以指定一个或多个列、时间戳、时间段、或者版本号。
举例：

--或者一个rowkey对应的数据，取一个版本
hbase(main):008:0> get 'table1','row1'
--或者一个rowkey下，一列的数据，取一个版本
hbase(main):009:0> get 'table1','row1','f3:c1'
hbase(main):011:0> get 'table1','row1',{COLUMNS=>'f3:c1'}
--获取两个列的数据
hbase(main):012:0> get 'table1','row1',{COLUMNS=>['f3:c1','f3:c2']}
--获取指定版本的数据
hbase(main):014:0> get 'table1','row1',{COLUMNS=>'f3:c1',TIMESTAMP=>1400552547}
--获取某一版本段内的数据，取最新的一个版本
hbase(main):017:0> get 'table1','row1',{COLUMNS=>'f3:c1',TIMERANGE=>[1400552545,1400552548]}
--根据版本段获取数据，取3个版本
hbase(main):018:0>get 'table1','row1',{COLUMNS=>'f3:c1',TIMERANGE=>[1400552545,1400552548],VERSIONS=>3}
--通过值过滤器查找row1行内的数据
hbase(main):020:0> get 'table1','row1',{FILTER=>"ValueFilter(=,'binary:v1')"}

(21) get_counter

hbase(main):026:0> get_counter 'table1','row1','f3:c2'

(22) incr

hbase(main):032:0> incr 'table1','row2','f3:c3',1

(23) put
向某一个单元格中插入一个值，可以指定时间戳

--向表table1的f3列族下的c1列，插入一个rowkey为row1，值为v2的单元格，版本时间戳为1400552546
hbase(main):032:0> put 'table1','row1','f3:c1','v2',1400552546

(24) scan
扫描显示表的数据，可以指定的参数有：TIMERANGE、FILTER、LIMIT、STARTROW、STOPROW、TIMESTAMP、MAXLENGTH、COLUMNS。

--查询表所有数据，默认是最新版本的
hbase(main):032:0> scan 'table1'
--查询表所有数据，显示三个版本的
hbase(main):033:0> scan 'table1',{VERSIONS=>3}
--查询时间戳段内的数据，区间段是前开后闭
hbase(main):034:0> scan 'table1',{TIMERANGE=>[1400552546,1499735688749]}
--指定返回Rowkey的个数
hbase(main):038:0> scan 'table1',{LIMIT=>1}
--指定StartRow和StopRow查询，区间段是前开后闭的
hbase(main):039:0> scan 'table1',{STARTROW=>'row1',STOPROW=>'row2'}
--查询指定时间戳的数据
hbase(main):040:0> scan 'table1',{TIMESTAMP=>1400552546}
--查询指定列的数据
hbase(main):042:0> scan 'table1',{COLUMNS=>'f3:c1'}

scan可以使用筛选器，两种方式使用筛选器：
1、使用筛选字符串
2、使用完整的filter的pageage名称来指定筛选器

--RAW为true时就是显示所有的值，包括删除了的。
hbase(main):048:0> scan 'table1',{VERSIONS=>5,RAW=>true}

(25) truncate
截断表，先Disable表然后drop表，再recreates表。

4、 HBase管理命令

(26) assign
分配Region，这个命令要小心使用，如果一个Region已经被分配了，如果执行assign命令，会强制分配Region。
举例：

hbase(main):002:0> assign 'weibo:demo2,\x00\x00\x00\x00\x00\x00\x00\x0D,1488330832597.c4a52b55c3d856e2fd666c304371edb9.'

(27) balancer
均衡Region命令。如果是返回true，说明已经成功通知了所有的region server去开始均衡region，region server均衡region的过程是异步的。

hbase(main):003:0> balancer
true

(28) balancer_switch
平衡器开关

hbase(main):004:0> balance_switch true
hbase(main):006:0> balance_switch false

(29) close_region
关闭region

(30) compact
合并Region。可以合并指定的表，也可以合并指定的列族。

hbase(main):007:0> compact 'table1'
hbase(main):008:0> compact 'table1','f3'

(31) major_compact

hbase(main):007:0> major_compact 'table1'
hbase(main):008:0> major_compact 'table1','f3'

(32) flush
刷写一个表的所有Region，或者刷写某一个Region。

--刷写一个表的所有Region
hbase(main):009:0> flush 'table1'
--刷写某一个Region
hbase(main):012:0> flush 'table1,,1499415496111.c4277ecd02d9de386264a82f7bcb2bd2.'

(33) move
移动一个Region。可以指定移动到哪个RegionServer上，如果不指定就会随机选择一个。
命令为：hbase> move ‘ENCODED_REGIONNAME’, ‘SERVER_NAME’
其中RegionName是编码后的，这一点要注意。Server_name是RegionServer的名称，通常是host,端口号,一个code。
(34) split
拆分整个表或者一个Region为两个Region。

--拆分某一个表
hbase(main):013:0> split 'table1'
--根据一个rowkey拆分表
hbase(main):014:0> split 'table1','key1'
--根据一个rowkey拆分Region
hbase(main):015:0> split 'regionName','splitKey'

(35) unassign
(36) hlog_roll
(37) zk_dump

5、集群复制命令

(38) add_peer
(39) remove_peer
(40) list_peers
(41) enable_peer
(42) disable_peer
(43) start_replication
(44) stop_replication

6、安全工具

(45) grant
给用户授权。
权限有：RWXCA。read、write、exec、create、admin。

(46) revoke
取消权限。

(47) user_permission
显示用户的授权许可状态。
hbase(main):016:0> user_permission ‘centos’

三、执行Ruby脚本

可以用HBase Shell工具执行Ruby脚本文件，因为Hbase Shell工具就是Ruby语言写的，所有对Ruby脚本的支持很好。
Ruby脚本文件一般以.rb结束，执行语句为：

[centos@hadoop1 bin]$ ./hbase org.jruby.Main get-active-master.rb

四、根据命令文件执行

可以将命令写入一个文件中，一行是一个命令，然后使用hbase shell来读取这个文件中的命令进行依次执行。
例如创一个文件：

[centos@hadoop1 bin]$ vi ~/com.txt
内容为：
list
desc ‘DLR:spring_data_test’

执行命令：

[centos@hadoop1 bin]$ hbase shell ~/com.txt

则会读取com.txt中的一行行的命令进行依次执行。

五、指定VM参数

在启动HBase Shell时可以指定VM参数，指定的参数只是当次Shell有效，指定HBASE_SHELL_OPTS参数，并将参数放在hbase shell之前。
例如：

$ HBASE_SHELL_OPTS="-verbose:gc -XX:+PrintGCApplicationStoppedTime -XX:+PrintGCDateStamps \
  -XX:+PrintGCDetails -Xloggc:$HBASE_HOME/logs/gc-hbase.log" ./bin/hbase shell

六、 HBase Shell技巧

1、表变量

在HBase Shell操作过程中，可以定一个变量，将一个或者多个表赋值给这个变量，在之后的对表的操作时，可以使用这个表变量来操作。

(1) 创建表时就给表变量赋值

--创建表，并将新建的表赋值给表变量，变量名为tab
hbase(main):021:0> tab=create 'table1','cf'
0 row(s) in 4.3040 seconds

=> Hbase::Table - table1
--使用tab变量，给表table1 put数据
hbase(main):022:0> tab.put 'rowkey1', 'cf:c1','v1'
0 row(s) in 0.0160 seconds
--使用表变量scan数据
hbase(main):023:0> tab.scan
ROW                           COLUMN+CELL                                                                        
 rowkey1                      column=cf:c1, timestamp=1499363918563, value=v1                                    
1 row(s) in 0.0180 seconds
--是用表变量get数据
hbase(main):024:0> tab.get 'rowkey1'
COLUMN                        CELL                                                                               
 cf:c1                        timestamp=1499363918563, value=v1                                                  
1 row(s) in 0.0300 seconds

(2) 已经存在的表赋值给表变量

--通过get_table来获取表，赋值给表变量t
hbase(main):025:0> t=get_table('table1')
0 row(s) in 0.0050 seconds
=> Hbase::Table - table1
--通过表变量操作
hbase(main):026:0> t.scan
ROW                           COLUMN+CELL                                                                        
 rowkey1                      column=cf:c1, timestamp=1499363918563, value=v1                                    
1 row(s) in 0.0170 seconds

(3) 表数组变量

--定义个变量tabs
hbase(main):005:0> tabs=list('tab.*')
TABLE                                                                                                            
table1                                                                                                           
1 row(s) in 0.0040 seconds

=> ["table1"]

--用map函数循环
hbase(main):007:0> tabs.map{|t| desc t;}
Table table1 is ENABLED                                                                                          
table1                                                                                                           
COLUMN FAMILIES DESCRIPTION                                                                                      
{NAME => 'cf', DATA_BLOCK_ENCODING => 'NONE', BLOOMFILTER => 'ROW', REPLICATION_SCOPE => '0', VERSIONS => '1', CO
MPRESSION => 'NONE', MIN_VERSIONS => '0', TTL => 'FOREVER', KEEP_DELETED_CELLS => 'FALSE', BLOCKSIZE => '65536', 
IN_MEMORY => 'false', BLOCKCACHE => 'true'}                                                                      
1 row(s) in 0.1090 seconds
=> [nil]

2、预分区

(1) 用数组指定分区点

可以在用HBase Shell创建表是进行预分区，最简单的预分区方式是在创建表的时候指定一个数组，数组里每一个字符串值是一个RowKey分割点，创建表时会根据字符串对应的二进制值来设立分割点。
举个栗子：

hbase(main):002:0> create 'table1','cf',SPLITS=>['10','20','30']

这个命令是创建了一个表table1，列族为cf，预分区为4个Region，三个分割点为\x31\x30、\x32\x30、\x33\x30，第一个Region里的rowkey从比10小的值到10，但是不包括10，第二个Region是从10（包括10）到20（不包括20），第三个Region是从20（包括10）到30（不包括30）,第四个Region是从30（包括30）到更大的值。

(2) 用文件指定分区点

create 't14','f',SPLITS_FILE=>'~/splits.txt'

将分割点存入文件中，创建表时指定分割点文件来进行预分区。

(3) 指定分区算法


# create table with four regions based on random bytes keys
#用随机的分割点来预分区为4个Region
hbase>create 't2','f1', { NUMREGIONS => 4 , SPLITALGO => 'UniformSplit' }

# create table with five regions based on hex keys
#用十六进制字符串算法预分区分割为5个Region，适合rowkey为十六进制字符串的情况
hbase>create 't3','f1', { NUMREGIONS => 5, SPLITALGO => 'HexStringSplit' }

另外也可以自定义分区算法。
当truncate表时会丢失表的预分区信息，需要drop表后再显式地再创建预分区表。

3、 Debug模式

(1) 启动时指定Debug模式

$ ./bin/hbase shell -d

(2) 在Shell命令行内打开Debug开关

hbase(main):001:0> debug
Debug mode is ON

这一篇博文是【大数据技术●降龙十八掌】系列文章的其中一篇，点击查看目录：大数据技术●降龙十八掌

如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
架构评审的自动化与人工智能: 如何提高效率光剑书架上的书架构自动化人工智能运维
1.背景介绍架构评审是软件开发过程中的一个关键环节，它旨在确保软件架构的质量、可维护性和可扩展性。传统的架构评审通常是由人工进行，需要大量的时间和精力。随着大数据技术和人工智能的发展，自动化和人工智能技术已经开始应用于架构评审，从而提高评审的效率和准确性。在本文中，我们将讨论如何通过自动化和人工智能技术来提高架构评审的效率。我们将从以下几个方面进行讨论：背景介绍核心概念与联系核心算法原理和具体操作
使用python实现微信小程序自动签到光头哥不光头 python
学校：重庆财经职业学院学院：应用技术学院专业班级：大数据技术与应用05班名字：吴雨璇指导老师：张彤老师一：使用python实现微信小程序自动签到意义1.首先对于咱们的APP有很大的作用,那就是当用户点击签到以后,平台就有那么多用户在使用,签到的人越多,产品的活跃度就越高。2.还有一点就是大家应该能够想到,那就是用户点击签到是在首页,有些点开就需要进行签到,点击较多,对于产品销售是非常重要的。3.微
starrocks和clickhouse数据库比较 CodeMaster_37714848 clickhouse 数据库
Starrocks和ClickHouse都是用于数据分析的数据库，但它们的设计理念和用途有所不同。下面是这两者的一些主要比较点：1.基础架构与设计目标Starrocks:Starrocks是一个专注于实时数据分析的平台，常用于大数据处理和商业智能应用。它设计用于高效处理大规模数据集，并且支持复杂查询和数据处理。支持多种数据源的集成，并且可以与其他大数据技术（如Hadoop、Spark）协同工作。C
大数据技术之Hadoop（一） pauls
Hadoop概述1.1Hadoop是什么Hadoop是什么1）Hadoop是一个由Apache基金会所开发的分布式系统基础架构。2）主要解决，海量数据的存储和海量数据的分析计算问题。3）广义上来说，Hadoop通常是指一个更广泛的概念——Hadoop生态圈。Hadoop生态1.2Hadoop发展历史（了解）Hadoop发展历史1）Hadoop创始人DougCutting，为了实现与Google类似
Hive 的 SerDe 是什么？ Shockang 大数据技术体系大数据 hive
前言本文隶属于专栏《1000个问题搞定大数据技术体系》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！本专栏目录结构和参考文献请见1000个问题搞定大数据技术体系正文hive的SerDe是什么SerDe是Serializer/Deserializer的简写。hive使用SerDe进行行对象的序列与反序列化。最后实现把文件内容映射到hive表中的字段数据类型。为了更好的阐
【大数据Big DATA】大数据解决方案，提供完整的大数据采集，大数据存储，大数据处理，具体业务应用解决方案 _晓夏_ JAVA大数据大数据解决方案大数据BIG DATA 大数据采集大数据存储大数据处理大数据分析
大数据解决方案是指利用大数据技术，结合企业实际业务需求，为企业提供数据采集、存储、处理、分析和报告等一站式服务，以帮助企业更好地利用大数据提高运营效率、优化决策制定。以下是一些常见的大数据解决方案：一、数据采集数据采集是大数据解决方案的起点，涉及从各种数据源中抓取和收集数据。常见的大数据采集工具包括Flume、Scribd等，这些工具可以帮助企业快速、高效地采集各类数据。二、数据存储大数据存储解决
Spark一些个人总结易逑实战数据大数据 spark big data scala
文章目录前言一、Spark是什么二、Spark用来做什么三、Spark的优势是什么四、为什么用Spark五、Spark解决了什么问题总结前言随着大数据技术的发展，一些更加优秀的组件被提了出来，比如现在最常用的Spark组件，基于RDD原理在大数据处理中占据了越来越重要的作用。在此我们探索了Spark的原理，以及其在大数据开发中的重要作用。一、Spark是什么Spark是一个用来实现快速，通用的集群
系统架构师考试学习笔记第三篇——架构设计高级知识（13）未来信息综合技术 SheldonK 软件架构师学习分享学习笔记
本课时考点：第13课时主要学习信息物理系统技术、人工智能技术、机器人技术、边缘计算、数字孪生体技术以及云计算和大数据技术等内容。根据考试大纲，本课时知识点会涉及单项选择题（约占3~5分）和下午案例题（25分），论文也会有覆盖。本课时知识架构如图13.1所示。一、信息物理系统技术概述1.信息物理系统的概念信息物理系统（Cyber-PhysicalSystem,CPS),最早由美国国家航空航天局于19
Mac 安装Hadoop教程（HomeBrew安装）追光天使 macos hadoop 大数据
1.引言本教程旨在介绍在Mac电脑上安装Hadoop，便于编程开发人员对大数据技术的熟悉和掌握。2.前提条件2.1安装JDK想要在你的Mac电脑上安装Hadoop，你必须首先安装JDK。具体安装步骤这里就不详细描述了。你可参考Mac安装JDK8。2.2配置ssh环境在Mac下配置ssh环境，防止后面启动hadoop时出现Connectionrefused连接被拒绝的错误。sshlocalhost执
2024年（第7届）“泰迪杯”数据分析技能赛通知泰迪智能科技01 泰迪杯大数据人工智能
由泰迪杯数据分析技能赛组织委员会、广东泰迪智能科技股份有限公司主办，广东省工业与应用数学学会、人民邮电出版社和北京泰迪云智信息技术研究院协办的“泰迪杯”数据分析技能赛（以下简称竞赛）即将开展。竞赛目的在于以赛促学、以赛促教、以赛促改、以赛促创，实现大数据技术技能人才培养的“岗课赛证”融通，深化教学标准与岗位标准、教学过程与生产过程的对接，培养更多升级版的高层次高素质技术技能人才。竞赛时间安排报名起
大数据技术之Flume 企业开发案例——自定义 Interceptor（8）大数据深度洞察 Flume flume 大数据
目录自定义Interceptor1）案例需求2）需求分析3）实现步骤创建一个Maven项目，并引入以下依赖。定义CustomInterceptor类并实现Interceptor接口。编辑flume配置文件分别在hadoop12，hadoop13，hadoop14上启动flume进程，注意先后顺序。在hadoop12使用netcat向localhost:44444发送字母和数字。观察hadoop13
大数据技术之HBase 与 Hive 集成(7) 大数据深度洞察 Hbase 大数据 hbase hive
目录使用场景HBase与Hive集成使用1）案例一2）案例二使用场景如果大量的数据已经存放在HBase上面，并且需要对已经存在的数据进行数据分析处理，那么Phoenix并不适合做特别复杂的SQL处理。此时，可以使用Hive映射HBase的表格，之后通过编写HQL进行分析处理。HBase与Hive集成使用Hive安装https://blog.csdn.net/qq_45115959/article/
大数据技术之Flume 数据流监控——Ganglia 的安装与部署（11）大数据深度洞察 Flume 大数据 flume
目录Flume数据流监控Ganglia的安装与部署Ganglia组件介绍1）安装Ganglia2）在hadoop12修改配置文件/etc/httpd/conf.d/ganglia.conf3）在hadoop12修改配置文件/etc/ganglia/gmetad.conf4）在hadoop12,hadoop13,hadoop14修改配置文件/etc/ganglia/gmond.conf5）在hado
Hadoop 中的大数据技术：调优篇（3）大数据深度洞察大数据 hadoop 分布式
HDFS—故障排除NameNode故障处理需求NameNode进程崩溃且存储的数据丢失，如何恢复NameNode？故障模拟终止NameNode进程[lzl@hadoop12current]$kill-919886删除NameNode存储的数据[[email protected]]$rm-rf/opt/module/hadoop-3.1.3/data/dfs/name/*问题解决从Se
大数据技术之Flume okbin1991 大数据 flume java hadoop 开发语言
第1章Flume概述1.1Flume定义Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构，灵活简单。1.2Flume基础架构Flume组成架构如下图所示。1.2.1AgentAgent是一个JVM进程，它以事件的形式将数据从源头送至目的。Agent主要有3个部分组成，Source、Channel、Sink。1.2.2Sourc
大数据技术之HBase API(3) 大数据深度洞察 Hbase 大数据 hbase 数据库
目录HBaseAPI环境准备创建连接单线程创建连接多线程创建连接DDLDMLHBaseAPI环境准备新建项目后，在pom.xml中添加如下依赖：org.apache.hbasehbase-server2.4.11org.glassfishjavax.elorg.glassfishjavax.el3.0.1-b06注意：javax.el包虽然会报错不存在，但这仅是一个测试用的依赖，不会影响实际使用。
大数据技术之HBase整合 Phoenix(6) 大数据深度洞察 Hbase 大数据 hbase 数据库
目录HBase整合PhoenixPhoenix简介Phoenix定义为什么使用PhoenixPhoenix快速入门安装1）官网地址2）Phoenix部署PhoenixShell操作Table表的映射数字类型说明PhoenixJDBC操作Phoenix二级索引二级索引配置文件全局索引（globalindex）包含索引（coveredindex）本地索引（localindex）HBase整合Phoen
大数据技术之Zookeeper概述（1）大数据深度洞察 Zookeeper 大数据 zookeeper 分布式云原生
目录Zookeeper入门概述Zookeeper的主要特点包括：Zookeeper的应用场景：Zookeeper的基本概念：架构：Zookeeper工作机制Zookeeper数据结构Znode（ZookeeperNode）Znode的类型Znode路径Znode属性Watcher监听器使用示例总结Zookeeper入门概述Zookeeper是一个分布式的、开放源码的协调服务，用于大型应用中管理和协
综合治税的发展前景 alankuo 人工智能人工智能
综合治税的发展前景较为广阔，主要体现在以下几个方面：-技术应用持续深化：-大数据与人工智能助力精准治税：随着大数据技术的不断发展，税务部门能够整合来自多部门、多渠道的海量数据，包括企业的财务数据、交易数据、银行流水等，通过对这些数据的深度分析和挖掘，可以精准识别税收风险点和潜在的偷逃税行为。例如，利用大数据分析企业的销售数据与申报纳税数据的匹配度，发现异常及时预警和查处。人工智能技术则可以辅助税务
Kylin的工作原理及使用分享操作指南 vvvae1234 kylin
ApacheKylin是一个分布式的分析引擎，专为大数据环境中的快速分析和查询而设计。它通过构建OLAP（联机分析处理）立方体，使得对海量数据的实时分析成为可能，极大地提升了数据查询的效率。本文将详细介绍Kylin的工作原理，结合实际操作案例，分享如何有效使用Kylin进行大数据分析。1.Kylin概述Kylin是一个开源项目，支持SQL查询，兼容与Hive和MapReduce等大数据技术的集成。
《未来二十年，AI、区块链、云与大数据技术引领全球变革》久绊A 文献/论文人工智能区块链云计算大数据
摘要在未来二十年，全球社会与经济将深刻受到人工智能（AI）、区块链（Blockchain）、云计算（Cloud）和大数据（Data）四大核心技术的驱动。这些技术不仅从宏观上重塑产业结构，更在微观层面显著提升生活品质与效率。本文通过详尽的案例分析，结合国内外最新研究成果，深入剖析这四大技术如何在教育、智能家居、农业、金融等多个关键领域产生深远影响。关键字人工智能（AI）、区块链（Blockchain
向量数据库 Faiss 的搭建与使用 eqa11 数据库
向量数据库Faiss的搭建与使用一、引言在人工智能和大数据技术飞速发展的今天，向量数据库作为处理高维数据检索的关键技术，越来越受到重视。Faiss，作为由MetaAI（原FacebookAIResearch）开源的高效相似性搜索库，以其卓越的性能和灵活性，成为众多技术选型中的佼佼者。本文将深入探讨Faiss的搭建和使用，旨在为读者提供一个全面而详细的指南。二、Faiss简介与环境搭建1、Faiss
知识分享系列三：大数据技术（上） jinruimeng 知识分享大数据
本文系统地介绍了大数据技术的相关知识，由于篇幅比较长，分为上下两部分，其中上半部分先介绍基本概念、核心领域，下半部分介绍主要技术、平台架构，以及相关企业案例。目录一、基本概念1.1从数据资源到大数据1.2从大数据到数据要素二、核心领域2.1概述2.2数据存储与计算2.2.1发展历程2.2.2发展特点2.2.2.1云化改造全面加速2.2.2.2融合一体化持续加深2.2.2.3安全能力快速补强2.2.
Distrii办伴：空间+科技+服务解决企业办公全生命周期需求娱扒小公主
ToC市场风口之后，ToB的春天眼看来临。在消费级市场，中国BAT力抗欧美的谷歌、脸书、亚马逊。然而拥有相当体量企业市场的中国，却没有一个知名的企业服务巨头。随着人工智能、大数据技术的应用场景逐步扩大，更丰富、更落地的企业服务场景将在不远的未来不断涌现。作为一家自创立之初就专注于提供智慧办公解决方案的科技公司，Distrii办伴始终坚持以科技为内核，为企业带来更便捷高效的服务。三年来，办伴率旗下三
大数据技术之Flume 企业开发案例——负载均衡和故障转移（6）大数据深度洞察 Flume 大数据 flume 负载均衡
目录负载均衡和故障转移1）案例需求2）需求分析3）实现步骤负载均衡和故障转移1）案例需求使用Flume1监控一个端口，其sink组中的sink分别对接Flume2和Flume3，采用FailoverSinkProcessor，实现故障转移的功能。2）需求分析故障转移案例3）实现步骤准备工作在/opt/module/flume/job目录下创建group2文件夹[lzl@hadoop12job]$c
Spring Boot实战：使用Spring Cloud Stream处理实时交易数据潘多编程 spring boot 后端 java
随着金融市场的快速发展以及大数据技术的广泛应用，实时处理交易数据变得越来越重要。SpringBoot和SpringCloudStream为开发者提供了一个强大的工具组合来构建这样的系统。本文将介绍如何使用这些工具来创建一个能够接收、处理并转发实时交易数据的应用程序。1.引言在金融市场中，交易数据通常需要快速地被采集、处理和分析。例如，股票价格的变动、订单的执行情况等都需要及时地被记录下来，并且根据
大数据技术之Zookeeper安装（2）大数据深度洞察 Zookeeper 大数据 hadoop zookeeper
目录下载地址本地模式安装1）安装前准备2）配置修改3）操作Zookeeper配置参数解读Zookeeper集群操作集群规划解压安装配置服务器编号配置zoo.cfg文件集群操作Zookeeper集群启动停止脚本创建脚本增加脚本执行权限Zookeeper集群启动脚本Zookeeper集群停止脚本Zookeeper选举机制（面试重点）首次启动选举非首次启动选举关键术语解释下载地址官网首页：ApacheZ
大数据技术之Flume事务及内部原理（3）大数据深度洞察 Flume flume 大数据
目录FlumeAgent架构概述FlumeAgent内部工作流程FlumeAgent的配置FlumeAgent内部重要组件ChannelSelectorSinkProcessorApacheFlume是一个分布式的、可靠的、可用的服务，用于有效地收集、聚合和移动大量日志数据。它具有简单灵活的架构，基于流式数据流动模型。Flume主要由三个核心组件组成：Source（源）、Channel（通道）和S
SQL的各种连接查询 xieke90 UNION ALL UNION 外连接内连接 JOIN
一、内连接概念：内连接就是使用比较运算符根据每个表共有的列的值匹配两个表中的行。内连接（join 或者inner join ） SQL语法： select * fron
java编程思想--复用类百合不是茶 java 继承代理组合 final类
复用类看着标题都不知道是什么,再加上java编程思想翻译的比价难懂,所以知道现在才看这本软件界的奇书一:组合语法:就是将对象的引用放到新类中即可代码: package com.wj.reuse; /** * * @author Administrator 组
[开源与生态系统]国产CPU的生态系统 comsci cpu
计算机要从娃娃抓起...而孩子最喜欢玩游戏.... 要让国产CPU在国内市场形成自己的生态系统和产业链,国家和企业就不能够忘记游戏这个非常关键的环节.... 投入一些资金和资源,人力和政策,让游
JVM内存区域划分Eden Space、Survivor Space、Tenured Gen，Perm Gen解释商人shang jvm内存
jvm区域总体分两类，heap区和非heap区。heap区又分：Eden Space（伊甸园）、Survivor Space(幸存者区)、Tenured Gen（老年代-养老区）。非heap区又分：Code Cache(代码缓存区)、Perm Gen（永久代）、Jvm Stack(java虚拟机栈)、Local Method Statck(本地方法栈)。 HotSpot虚拟机GC算法采用分代收
页面上调用 QQ oloz qq
<A href="tencent://message/?uin=707321921&Site=有事Q我&Menu=yes"> <img style="border:0px;" src=http://wpa.qq.com/pa?p=1:707321921:1></a>
一些问题文强chu 问题
1.eclipse 导出 doc 出现“The Javadoc command does not exist.” javadoc command 选择 jdk/bin/javadoc.exe 2.tomcate 配置 web 项目 ..... SQL:3.mysql * 必须得放前面否则 select&nbs
生活没有安全感小桔子生活孤独安全感
圈子好小，身边朋友没几个，交心的更是少之又少。在深圳，除了男朋友，没几个亲密的人。不知不觉男朋友成了唯一的依靠，毫不夸张的说，业余生活的全部。现在感情好，也很幸福的。但是说不准难免人心会变嘛，不发生什么大家都乐融融，发生什么很难处理。我想说如果不幸被分手(无论原因如何)，生活难免变化很大，在深圳，我没交心的朋友。明
php 基础语法 aichenglong php 基本语法
1 .1 php变量必须以$开头 <?php $a=” b”; echo ?> 1 .2 php基本数据库类型 Integer float/double Boolean string 1 .3 复合数据类型数组array和对象 object 1 .4 特殊数据类型 null 资源类型(resource) $co
mybatis tools 配置详解 AILIKES mybatis
MyBatis Generator中文文档 MyBatis Generator中文文档地址： http://generator.sturgeon.mopaas.com/ 该中文文档由于尽可能和原文内容一致，所以有些地方如果不熟悉，看中文版的文档的也会有一定的障碍，所以本章根据该中文文档以及实际应用，使用通俗的语言来讲解详细的配置。本文使用Markdown进行编辑，但是博客显示效
继承与多态的探讨百合不是茶 JAVA面向对象继承对象
继承 extends 多态继承是面向对象最经常使用的特征之一：继承语法是通过继承发、基类的域和方法 //继承就是从现有的类中生成一个新的类，这个新类拥有现有类的所有extends是使用继承的关键字：在A类中定义属性和方法； class A{ //定义属性 int age； //定义方法 public void go
JS的undefined与null的实例 bijian1013 JavaScript JavaScript
<form name="theform" id="theform"> </form> <script language="javascript"> var a alert(typeof(b)); //这里提示undefined if(theform.datas
TDD实践（一） bijian1013 java 敏捷 TDD
一.TDD概述 TDD：测试驱动开发，它的基本思想就是在开发功能代码之前，先编写测试代码。也就是说在明确要开发某个功能后，首先思考如何对这个功能进行测试，并完成测试代码的编写，然后编写相关的代码满足这些测试用例。然后循环进行添加其他功能，直到完全部功能的开发。
[Maven学习笔记十]Maven Profile与资源文件过滤器 bit1129 maven
什么是Maven Profile Maven Profile的含义是针对编译打包环境和编译打包目的配置定制，可以在不同的环境上选择相应的配置，例如DB信息，可以根据是为开发环境编译打包，还是为生产环境编译打包，动态的选择正确的DB配置信息 Profile的激活机制 1.Profile可以手工激活，比如在Intellij Idea的Maven Project视图中可以选择一个P
【Hive八】Hive用户自定义生成表函数(UDTF) bit1129 hive
1. 什么是UDTF UDTF，是User Defined Table-Generating Functions，一眼看上去，貌似是用户自定义生成表函数，这个生成表不应该理解为生成了一个HQL Table，貌似更应该理解为生成了类似关系表的二维行数据集 2. 如何实现UDTF 继承org.apache.hadoop.hive.ql.udf.generic
tfs restful api 加auth 2.0认计 ronin47
　　目前思考如何给tfs的ngx-tfs api增加安全性。有如下两点：　　一是基于客户端的ip设置。这个比较容易实现。　　二是基于OAuth2.0认证，这个需要lua，实现起来相对于一来说，有些难度。　　现在重点介绍第二种方法实现思路。　　前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGe
jdk环境变量配置 byalias java jdk
进行java开发，首先要安装jdk，安装了jdk后还要进行环境变量配置： 1、下载jdk（http://java.sun.com/javase/downloads/index.jsp），我下载的版本是：jdk-7u79-windows-x64.exe 2、安装jdk-7u79-windows-x64.exe 3、配置环境变量：右击"计算机"-->&quo
《代码大全》表驱动法-Table Driven Approach-2 bylijinnan java
package com.ljn.base; import java.io.BufferedReader; import java.io.FileInputStream; import java.io.InputStreamReader; import java.util.ArrayList; import java.util.Collections; import java.uti
SQL 数值四舍五入小数点后保留2位 chicony 四舍五入
1.round() 函数是四舍五入用，第一个参数是我们要被操作的数据，第二个参数是设置我们四舍五入之后小数点后显示几位。 2.numeric 函数的2个参数，第一个表示数据长度，第二个参数表示小数点后位数。例如：　　select cast(round(12.5,2) as numeric(5,2))
c++运算符重载 CrazyMizzz C++
一、加+，减-，乘*，除/ 的运算符重载 Rational operator*(const Rational &x) const{ return Rational(x.a * this->a); } 在这里只写乘法的，加减除的写法类似二、<<输出,>>输入的运算符重载 &nb
hive DDL语法汇总 daizj hive 修改列 DDL 修改表
hive DDL语法汇总１、对表重命名 hive> ALTER TABLE table_name RENAME TO new_table_name; 2、修改表备注 hive> ALTER TABLE table_name SET TBLPROPERTIES ('comment' = new_comm
jbox使用说明 dcj3sjt126com Web
参考网址：http://www.kudystudio.com/jbox/jbox-demo.html jBox v2.3 beta [ 点击下载] 技术交流QQGroup：172543951 100521167 [2011-11-11] jBox v2.3 正式版 - [调整&修复] IE6下有iframe或页面有active、applet控件
UISegmentedControl 开发笔记 dcj3sjt126com
// typedef NS_ENUM(NSInteger, UISegmentedControlStyle) { // UISegmentedControlStylePlain, // large plain &
Slick生成表映射文件 ekian scala
Scala添加SLICK进行数据库操作，需在sbt文件上添加slick-codegen包 "com.typesafe.slick" %% "slick-codegen" % slickVersion 因为我是连接SQL Server数据库，还需添加slick-extensions，jtds包 "com.typesa
ES-TEST gengzg test
package com.MarkNum; import java.io.IOException; import java.util.Date; import java.util.HashMap; import java.util.Map; import javax.servlet.ServletException; import javax.servlet.annotation
为何外键不再推荐使用 hugh.wang mysql DB
表的关联，是一种逻辑关系，并不需要进行物理上的“硬关联”，而且你所期望的关联，其实只是其数据上存在一定的联系而已，而这种联系实际上是在设计之初就定义好的固有逻辑。在业务代码中实现的时候，只要按照设计之初的这种固有关联逻辑来处理数据即可，并不需要在数据库层面进行“硬关联”，因为在数据库层面通过使用外键的方式进行“硬关联”，会带来很多额外的资源消耗来进行一致性和完整性校验，即使很多时候我们并不
领域驱动设计 julyflame VO DAO 设计模式 DTO po
概念： VO（View Object）：视图对象，用于展示层，它的作用是把某个指定页面（或组件）的所有数据封装起来。 DTO（Data Transfer Object）：数据传输对象，这个概念来源于J2EE的设计模式，原来的目的是为了EJB的分布式应用提供粗粒度的数据实体，以减少分布式调用的次数，从而提高分布式调用的性能和降低网络负载，但在这里，我泛指用于展示层与服务层之间的数据传输对
单例设计模式 hm4123660 java Singleton 单例设计模式懒汉式饿汉式
单例模式是一种常用的软件设计模式。在它的核心结构中只包含一个被称为单例类的特殊类。通过单例模式可以保证系统中一个类只有一个实例而且该实例易于外界访问，从而方便对实例个数的控制并节约系统源。如果希望在系统中某个类的对象只能存在一个，单例模式是最好的解决方案。 &nb
logback zhb8015 log logback
一、logback的介绍 Logback是由log4j创始人设计的又一个开源日志组件。logback当前分成三个模块：logback-core,logback- classic和logback-access。logback-core是其它两个模块的基础模块。logback-classic是log4j的一个改良版本。此外logback-class
整合Kafka到Spark Streaming——代码示例和挑战 Stark_Summer spark storm zookeeper PARALLELISM processing
作者Michael G. Noll是瑞士的一位工程师和研究员，效力于Verisign，是Verisign实验室的大规模数据分析基础设施（基础Hadoop）的技术主管。本文，Michael详细的演示了如何将Kafka整合到Spark Streaming中。期间， Michael还提到了将Kafka整合到 Spark Streaming中的一些现状，非常值得阅读，虽然有一些信息在Spark 1.2版
spring-master-slave-commondao 王新春 DAO spring dataSource slave master
互联网的web项目，都有个特点：请求的并发量高，其中请求最耗时的db操作，又是系统优化的重中之重。为此，往往搭建 db的一主多从库的数据库架构。作为web的DAO层，要保证针对主库进行写操作，对多个从库进行读操作。当然在一些请求中，为了避免主从复制的延迟导致的数据不一致性，部分的读操作也要到主库上。（这种需求一般通过业务垂直分开，比如下单业务的代码所部署的机器，读去应该也要从主库读取数

【十八掌●武功篇】第八掌：HBase之Shell

一、 HBase Shell命令概览

二、 HBase Shell详解

1、 General一般命令组

2、 表管理命令组

3、 数据操纵命令

4、 HBase管理命令

5、 集群复制命令

6、 安全工具

三、 执行Ruby脚本

四、 根据命令文件执行

五、 指定VM参数