a2011480169

Hbase入门笔记----架构以及应用介绍

Hbase全称为Hadoop Database，即Hbase是Hadoop的数据库，是一个分布式的存储系统。Hbase利用Hadoop的HDFS作为其文件存储系统，利用Hadoop的MapReduce来处理Hbase中的海量数据。利用zookeeper作为其协调工具。
本篇文章将重点介绍Hbase三个方面的内容：Hbase体系结构（架构）的介绍、Hbase shell的操作、Hbase的Java api的客户端操作。
(一)Hbase的架构介绍

Hbase的体系结构是一个主从式的结构，主节点Hmaster在整个集群当中只有一个在运行，从节点HRegionServer有很多个在运行，主节点Hmaster与从节点HRegionServer实际上指的是不同的物理机器，即有一个机器上面跑的进程是Hmaster，很多机器上面跑的进程是HRegionServer，Hmaster没有单点问题，Hbase集群当中可以启动多个Hmaster，但是通过zookeeper的事件处理机制保证整个集群当中只有一个Hmaster在运行。
既然Hbase是数据库，那么数据库从根本上来说就是存储表table的，但是我们在这里必须注意一下，Hbase并非是传统的关系型数据库(例如：Mysql、Oracle)，而是非关系型数据库，因为Hbase是一个面向列的分布式存储系统。下面我们有必要介绍一下Hbase中表table的数据模型，先给大家呈现一个hbase数据库的表users：

(注意：我在下面举例子的过程中用的也是这张users表)
上面这个表就是一个典型的hbase table，与传统的关系型数据库具有很大的差别，下面我们详细介绍有关table的相关概念：
RowKey(行健)：table的主键，table中的记录默认按照RowKey升序排序。
列族(Column Family):即表中的address、info。table在水平方向上有一个或者多个Column Family组成，一个Column Family中可以由任意多个Column(例如address中的province、city、country、town)组成，即列族支持动态扩展，无需预先定义Column的数量以及类型，所有Column均已二进制格式进行存储，用户需要自行进行类型转换。
TimeStamp(时间戳)：每次用户对数据进行操作对应的时间，可以看做是数据的Version number。例如在上面的表中，xiaoming所对应的company有两个数据信息(alibaba、baidu)，而这两个单元格信息实际上是对应操作时间的，如下图所示：

既然Hbase可以将表中的数据进行分布式存储，那么它到底是以怎样的形式进行分布式存储的呢？我们自然而然想到了HDFS这个分布式文件管理系统是将海量数据切分成若干个block块进行存储的，同理Hbase也采取了类似的存储机制，将一个table切分成若干个region进行存储，下面我们就介绍Region的相关概念：
当Table随着记录数不断增加而变大后，Table在行的方向上会被切分成多个Region，一个Region由[startkey,endkey) 表示，每个Region会被Master分散到不同的HRegionServer上面进行存储，类似于我的block块会被分散到不同的DataNode节点上面进行存储。下面是Hbase表中的数据与HRegionServer的分布关系，如图所示：

接下来介绍在Hbase的体系结构中，Hmaster、HRegionServer、Zookeeper集群这三个角色的作用：

Hmaster节点的作用：
①不负责存储表数据，负责管理RegionServer的负载均衡（即防止某些RegionServer存储数据量大，有些
RegionServer存储数据量小），调整RegionServer上面Region的分布
②管理RegionServer的状态，例如在HRegionServer宕机后，负责失效HRegionServer上Regions的迁移
③在Region Split后，负责新Region的分配
HRegionServer节点的作用：
HRegionServer主要负责响应用户的I/O请求，即负责响应用户向表中的读写操作，是Hbase体系结构中最核心的模块。HRegionServer内部存储了很多的HRegion，就像DataNode节点中存储了很多的Block块一样，从上图Hbase完整的体系结构中我们可以看到，HRegion实际上是由很多个HStore组成的，所谓HStore就是表中的一个Column Family，可以看出每个Column Family其实就是一个集中的存储单元，这恰恰也帮助我们理解了为什么Hbase是NoSql系列的数据库，为什么是面向列的数据库，在Hbase的表设计中，我们最好将具备共同I/O特性的Column放在同一个列族中，这样读写才最高效，为了让大家更好的理解HRegionServer、HRegion、HStore、ColumnFamily四者之间的关系，我结合之前提到的users表画了一个四者关系的示意图：

简单来说：就是HRegionServer服务器中存储了很多的HRegion，每个HRegion是由很过个HStore组成的，每个ColumnFamily就是一个HSore。
在此还要简单介绍一下HLog与MemStore这两个角色的作用：
Hlog：Hlog中存储了用户对表数据的最新的一些操作日志记录。
MemSore：HRegion会将大量的热数据、访问频次最高的数据存储到MemStore中，这样用户在读写数据的时候不需要从磁盘中进行操作，直接在内存中既可以读取到数据，正因为MemStore这个重要角色的存在，Hbase才能支持随机，高速读取的功能。
Zookeeper集群的作用：
①通过zk集群的事件处理机制，可以保证集群中只有一个运行的Hmater
②Zookeeper集群中记录了-ROOT-表的位置
在这里顺便介绍一下Hbase中两张特殊的表：-ROOT-表与.META.表
-ROOT-表：记录了所有.META.表的元数据信息，-ROOT-表只有一个Region
.META.表：记录了Hbase中所有用户表的HRegion的元数据信息，.META.表可以有多个Region
③Zookeeper集群实时监控着HRegionServer这些服务器的状态，将HRegionServer的上线和下线信息实时通知给Hmaster节点，使得Hmaster节点可以随时感知各个HRegionServer的健康状态。
在上面我们依次介绍了HMaster、HRegionServer、zookeeper集群的作用，Client使用Hbase的RPC机制与Hmaster与HRegionServer进行通信，对于管理类操作，Client与Hmaster进行RPC进行通信，对于数据(表)的读写类操作，Client与HRegionServer进行通信。注意：在用户对数据表的读写过程中，与Hmaster是没有任何关系的，Hmaster在这一点上不同于我们的NameNode节点，可以看出由于zookeeper集群的存在，Hmaster节点的作用被大大弱化了。
在Hbase的架构介绍中在介绍最后一点：Hbase的寻址机制，即Hbase在海量的表数据中，是如何找到用户所需要的表数据的呢？——Hbase是通过索引的机制解决了这个问题。

Client访问用户数据之前需要首先访问zookeeper集群，通过zookeeper集群首先确定-ROOT-表在的位置，然后在通过访问-ROOT- 表确定相应.META.表的位置，最后根据.META.中存储的相应元数据信息找到用户数据的位置去访问。通过这种索引机制解决了复杂了寻址问题。
(二)Hbase中shell的相关操作
前面讲的都是Hbase的理论知识，对于Hbase的操作分为两种方式：shell与Java api的方式，既然是对数据库的操作，无非就是增删改查四中操作，下面我列出里几个常用的Hbase Shell操作，如下：

以之前的users表为例，我现在用shell命令进行相应操作：
①创建users表
create ‘users’, ‘address’,’info’
②向表中用put进行插入操作
put ‘users’,’xiaoming’,’address:province’,’zhejiang’
put ‘users’,’xiaoming’,’address:city’,’hangzhou’
put ‘users’,’xiaoming’,’address:country’,’china’
put ‘users’,’xiaoming’,’info:age’,’24’
put ‘users’,’xiaoming’,’info:age’,’25’
put ‘users’,’xiaoming’,’info:birthday’,’1987/06/17’
put ‘users’,’xiaoming’,’info:company’,’alibaba’
put ‘users’,’xiaoming’,’info:company’,’baidu’
………………
③通过get命令获取表中的信息，例如：
1、获取xiaoming的country单元格信息
get ‘users’,’xiaoming’,’address:country’
2、获取小明两个版本的年龄信息
get ‘users’,’xiaoming’,{COLUMN=>’info:age’,VERSIONS=>2}
3、获取zhangyifei全部的信息
get ‘users’,’zhangyifei’
4、获取zhangyifei的address列族的全部信息
get ‘users’,’zhangyifei’,’address’
5、遍历表中的全部信息
scan ‘users’
④用shell命令删除users表
disable ‘users’
drop ‘users’
综上：Hbase的shell命令操作整体来说还是非常简单的，获取信息的方法主要是按照下面的主线进行：
tablename———》rowkey———》Column Family:Colum———->Version信息——》获取信息！
(三)Hbase中Java api的相关操作
Hbase中，可以通过shell命令进行增删改查四种操作，但是shell命令用起来比较麻烦，比如说用put一次只能查询一个单元格的信息等等。因此我们在日常工作中总是用Java api的方式对Hbase进行相应操作，在这里还是以上面的users举例，下面是完整的代码操作：

package IT01;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.hbase.HBaseConfiguration;
import org.apache.hadoop.hbase.HColumnDescriptor;
import org.apache.hadoop.hbase.HTableDescriptor;
import org.apache.hadoop.hbase.KeyValue;
import org.apache.hadoop.hbase.client.Get;
import org.apache.hadoop.hbase.client.HBaseAdmin;
import org.apache.hadoop.hbase.client.HTable;
import org.apache.hadoop.hbase.client.Put;
import org.apache.hadoop.hbase.client.Result;
import org.apache.hadoop.hbase.client.ResultScanner;
import org.apache.hadoop.hbase.client.Scan;

public class HbaseJavaapi
{
       public static String tablename = "users";
       public static void main(String[]  args) throws Exception
       {
             Configuration conf = HBaseConfiguration.create();
             /**下面这行代码必须有，指定Hbase所用的zookeeper集群信息****/
             conf.set("hbase.zookeeper.quorum","hadoop80");

             /*创建表-----用的Java api是HbaseAdmin**/
            @SuppressWarnings("resource")
            HBaseAdmin hBaseAdmin = new HBaseAdmin(conf);
            if(hBaseAdmin.tableExists(tablename))
            {
                hBaseAdmin.disableTable(tablename);
                hBaseAdmin.deleteTable(tablename);
            }
            HTableDescriptor desc = new HTableDescriptor(tablename);//指定创建表的名字users
            HColumnDescriptor family1 = new HColumnDescriptor("address");
            desc.addFamily(family1 );
            HColumnDescriptor family2 = new HColumnDescriptor("info");//指定列族的名称
            desc.addFamily(family2 );
            hBaseAdmin.createTable(desc);

            /*****插入记录------用的Java api是HTable****/
            @SuppressWarnings("resource")
            HTable hTable = new HTable(conf,tablename);
            Put put1 = new Put("xiaoming".getBytes());//插入记录时要指定行健
            put1.add("address".getBytes(), "province".getBytes(), "zhejiang".getBytes());
            put1.add("address".getBytes(), "city".getBytes(), "hangzhou".getBytes());
            put1.add("address".getBytes(), "country".getBytes(), "china".getBytes());
            put1.add("info".getBytes(),"age".getBytes(),"24".getBytes());
            put1.add("info".getBytes(),"age".getBytes(),"25".getBytes());
            put1.add("info".getBytes(),"birthday".getBytes(),"1987/06/17".getBytes());
            put1.add("info".getBytes(),"company".getBytes(),"baidu".getBytes());
            put1.add("info".getBytes(),"company".getBytes(),"alibaba".getBytes());
            hTable.put(put1 );
            Put put2 = new Put("zhangyifei".getBytes());//插入记录时要指定行健
            put2.add("address".getBytes(), "province".getBytes(), "guangdong".getBytes());
            put2.add("address".getBytes(), "city".getBytes(), "shenzhen".getBytes());
            put2.add("address".getBytes(), "city".getBytes(), "nansha".getBytes());
            put2.add("address".getBytes(), "country".getBytes(), "china".getBytes());
            put2.add("address".getBytes(), "town".getBytes(), "xianqiao".getBytes());
            put2.add("info".getBytes(),"age".getBytes(),"45".getBytes());
            put2.add("info".getBytes(),"birthday".getBytes(),"1987/02/12".getBytes());
            put2.add("info".getBytes(),"company".getBytes(),"tengxun".getBytes());
            put2.add("address".getBytes(), "favorite".getBytes(), "movie".getBytes());
            hTable.put(put2 );


            /****查询记录--------------用的Java api是Htable***/
            /**1------>获取小明的country单元格信息****/
            Get get = new Get("xiaoming".getBytes());
            Result result = hTable.get(get);
            byte[] value = result.getValue("address".getBytes(), "country".getBytes());
            System.out.println(new String(value));

            System.out.println("**************************");

            /**2------>获取zhangyifei的一行的记录****/
            Get get2 = new Get("zhangyifei".getBytes());
            Result result2 = hTable.get(get2);
            for(KeyValue key  : result2.list())//一行的记录当中包含很多的键值对信息，依次遍历即可
            {
                 System.out.println(key.toString());
                 System.out.println(new String(key.getValue())); 
            }

            System.out.println("**************************");

            /**3------>遍历所有的记录****/
            Scan scan = new Scan();
            ResultScanner scanner = hTable.getScanner(scan);//scanner中包含很多条行记录
            for (Result result3 : scanner)
            {
                for(KeyValue key  : result3.list())//一行的记录当中包含很多的键值对信息，依次遍历即可
                {
                     System.out.println(key.toString());
                     System.out.println(new String(key.getValue())); 
                }
            }

            System.out.println("**************************");

            /**4------>仅仅获取每行的city信息****/
            Scan scan1 =new Scan();
            ResultScanner scanner1 = hTable.getScanner(scan1 );
            for (Result result4 : scanner1)
            {
                  System.out.println(new String(result4.getRow()));
                  System.out.println(new String(result4.getValue("address".getBytes(), "city".getBytes())));
            }
       }
}

代码的运行结果如下：

对于Hbase的Java api操作就简单的介绍到这里！
另外对于上面Hbase的介绍，也就介绍到这里，如有问题，欢迎指正！

nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
浅谈MapReduce Android路上的人 Hadoop 分布式计算 mapreduce 分布式框架 hadoop
从今天开始，本人将会开始对另一项技术的学习，就是当下炙手可热的Hadoop分布式就算技术。目前国内外的诸多公司因为业务发展的需要，都纷纷用了此平台。国内的比如BAT啦，国外的在这方面走的更加的前面，就不一一列举了。但是Hadoop作为Apache的一个开源项目，在下面有非常多的子项目，比如HDFS，HBase,Hive，Pig,等等，要先彻底学习整个Hadoop，仅仅凭借一个的力量，是远远不够的。
hbase介绍 CrazyL- 云计算+大数据 hbase
hbase是一个分布式的、多版本的、面向列的开源数据库hbase利用hadoophdfs作为其文件存储系统，提供高可靠性、高性能、列存储、可伸缩、实时读写、适用于非结构化数据存储的数据库系统hbase利用hadoopmapreduce来处理hbase、中的海量数据hbase利用zookeeper作为分布式系统服务特点：数据量大：一个表可以有上亿行，上百万列（列多时，插入变慢）面向列：面向列（族）的
Apache HBase基础（基本概述，物理架构，逻辑架构，数据管理，架构特点，HBase Shell） May--J--Oldhu HBase HBase shell hbase物理架构 hbase逻辑架构 hbase
NoSQL综述及ApacheHBase基础一.HBase1.HBase概述2.HBase发展历史3.HBase应用场景3.1增量数据-时间序列数据3.2信息交换-消息传递3.3内容服务-Web后端应用程序3.4HBase应用场景示例4.ApacheHBase生态圈5.HBase物理架构5.1HMaster5.2RegionServer5.3Region和Table6.HBase逻辑架构-Row7.
HBase（一）——HBase介绍 weixin_30595035 大数据数据库数据结构与算法
HBase介绍1、关系型数据库与非关系型数据库（1）关系型数据库关系型数据库最典型的数据机构是表，由二维表及其之间的联系所组成的一个数据组织优点：1、易于维护：都是使用表结构，格式一致2、使用方便：SQL语言通用，可用于复杂查询3、复杂操作：支持SQL，可用于一个表以及多个表之间非常复杂的查询缺点：1、读写性能比较差，尤其是海量数据的高效率读写2、固定的表结构，灵活度稍欠3、高并发读写需求，传统关
HBase介绍 mingyu1016 数据库
概述HBase是一个分布式的、面向列的开源数据库,源于google的一篇论文《bigtable：一个结构化数据的分布式存储系统》。HBase是GoogleBigtable的开源实现，它利用HadoopHDFS作为其文件存储系统，利用HadoopMapReduce来处理HBase中的海量数据，利用Zookeeper作为协同服务。HBase的表结构HBase以表的形式存储数据。表有行和列组成。列划分为
Hbase - 迁移数据[导出,导入] kikiki5
>有没有这样一样情况，把一个集群中的某个表导到另一个群集中，或者hbase的表结构发生了更改，但是数据还要，比如预分区没做，导致某台RegionServer很吃紧，Hbase的导出导出都可以很快的完成这些操作。![](https://upload-images.jianshu.io/upload_images/9028759-4fb9aa8ca3777969.png?imageMogr2/auto
通过DBeaver连接Phoenix操作hbase 不想做咸鱼的王富贵
通过DBeaver连接Phoenix操作hbase前言本文介绍常用一种通用数据库工具Dbeaver，DBeaver可通过JDBC连接到数据库，可以支持几乎所有的数据库产品，包括：MySQL、PostgreSQL、MariaDB、SQLite、Oracle、Db2、SQLServer、Sybase、MSAccess、Teradata、Firebird、Derby等等。商业版本更是可以支持各种NoSQ
Hbase - kerberos认证异常 kikiki2
之前怎么认证都认证不上，问题找了好了，发现它的异常跟实际操作根本就对不上，死马当活马医，当时也是瞎改才好的，给大家伙记录记录。KrbException:ServernotfoundinKerberosdatabase(7)-LOOKING_UP_SERVER>>>KdcAccessibility:removestorm1.starsriver.cnatsun.security.krb5.KrbTg
kvm 虚拟机命令行虚拟机操作、制作快照和恢复快照以及工作常用总结西京刀客云原生(Cloud Native)云计算虚拟化 Linux C/C++服务器 linux kvm
文章目录kvm虚拟机命令行虚拟机操作、制作快照和恢复快照一、kvm虚拟机命令行虚拟机操作(创建和删除)查看虚拟机virt-install创建一个虚拟机关闭虚拟机重启虚拟机销毁虚拟机二、kvm制作快照和恢复快照**创建快照**工作常见问题创建快照报错：：internalsnapshotsofaVMwithpflashbasedfirmwarearenotsupported检查虚拟机是否包含pflas
hadoop 0.22.0 部署笔记 weixin_33701564 大数据 java 运维
为什么80%的码农都做不了架构师？>>>因为需要使用hbase，所以开始对hbase进行学习。hbase是部署在hadoop平台上的NOSql数据库，因此在部署hbase之前需要先部署hadoop。环境：redhat5、hadoop-0.22.0.tar.gz、jdk-6u13-linux-i586.zipip192.168.1.128hostname：localhost.localdomain（
实时数仓之实时数仓架构(Hudi)(1)，2024年最新熬夜整理华为最新大数据开发笔试题 2401_84181221 程序员架构大数据
+Hudi：湖仓一体数据管理框架，用来管理模型数据，包括ODS/DWD/DWS/DIM/ADS等；+Doris：OLAP引擎，同步数仓结果模型，对外提供数据服务支持；+Hbase：用来存储维表信息，维表数据来源一部分有Flink加工实时写入，另一部分是从Spark任务生产，其主要作用用来支持FlinkETL处理过程中的LookupJoin功能。这里选用Hbase原因主要因为Table的HbaseC
HBase 源码阅读（一） Such Devotion hbase 数据库大数据
1.HMastermain方法在上文中MacosM1IDEA本地调试HBase2.2.2，我们使用HMaster的主函数使用"start"作为入参，启动了HMaster进程这里我们再深入了解下HMaster的运行机理publicstaticvoidmain(String[]args){LOG.info("STARTINGservice"+HMaster.class.getSimpleName())
HBase 源码阅读（四）HBase 关于LSM Tree的实现- MemStore Such Devotion hbase lsm-tree 数据库
4.MemStore接口Memstore的函数不能并行的被调用。调用者需要持有读写锁，这个的实现在HStore中我们放弃对MemStore中的诸多函数进行查看直接看MemStore的实现类AbstractMemStoreCompactingMemStoreDefaultMemStore4.1三个实现类的使用场景1.AbstractMemStore角色:基础抽象类作用:AbstractMemStor
大数据（Hbase简单示例） BL小二 hbase 大数据 hadoop
importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.hbase.HBaseConfiguration;importorg.apache.hadoop.hbase.TableName;importorg.apache.hadoop.hbase.client.*;importorg.apache.hadoop.hbase
Hbase的简单使用示例傲雪凌霜，松柏长青后端大数据 hbase 数据库大数据
HBase是基于HadoopHDFS构建的分布式、列式存储的NoSQL数据库，适用于存储和检索超大规模的非结构化数据。它支持随机读写，并且能够处理PB级数据。HBase通常用于实时数据存取场景，与Hadoop生态紧密集成。使用HBase的Java示例前置条件HBase集群：确保HBase集群已经安装并启动。如果没有，你可以通过本地伪分布模式或Docker来运行HBase。Hadoop配置：HBas
快手HBase在千亿级用户特征数据分析中的应用与实践王知无
声明：本文的原文是来自Hbase技术社区的一个PPT分享，个人做了整理和提炼。大家注意哈，这种会议PPT类的东西能学习到的更多的是技术方案和他人在实践过程中的经验。希望对大家有帮助。背景快手每天产生数百亿用户特征数据，分析师需要在跨30-90天的数千亿特征数据中，任意选择多维度组合(如:城市=北京&性别=男)，秒级分析用户行为。针对这一需求,快手基于HBase自主研发了支持bitmap转化、存储、
ClickHouse与其他数据库的对比九州Pro ClickHouse 数据库 clickhouse 数据仓库大数据 sql
目录1与传统关系型数据库的对比1.1性能差异1.2数据模型差异1.3适用场景差异2与其他列式存储数据库的对比2.1ApacheCassandra2.2HBase3与分布式数据库的对比3.1GoogleBigQuery3.2AmazonRedshift3.3Snowflake4ClickHouse的缺点5ClickHouse的其他优点1与传统关系型数据库的对比1.1性能差异ClickHouse是一种
Hbase、hive以及ClickHouse的介绍和区别？ damokelisijian866 hbase hive clickhouse
一、Hbase介绍：HBase是一个分布式的、面向列的开源数据库，由ApacheSoftwareFoundation开发，是Hadoop生态系统中的一个重要组件。HBase的设计灵感来源于Google的Bigtable论文，它通过提供类似于Bigtable的能力，在Hadoop之上构建了一个高可靠性、高性能、面向列、可伸缩的分布式存储系统。HBase主要用于存储大量结构化数据，并支持随机读写访问，
Hive和Hbase的区别傲雪凌霜，松柏长青大数据后端 hive hbase hadoop
Hive和HBase都是Hadoop生态系统中的重要组件，它们都能处理大规模数据，但各自有不同的适用场景和设计理念。以下是两者的主要区别：1.数据模型Hive：Hive类似于传统的关系型数据库(RDBMS)，以表格形式存储数据。它使用SQL-like语言HiveQL来查询和处理数据，数据通常是结构化或半结构化的。HBase：HBase是一个NoSQL数据库，基于Google的BigTable模型。
HBase 傲雪凌霜，松柏长青大数据后端 hbase 数据库大数据
ApacheHBase是一个基于Hadoop分布式文件系统（HDFS）构建的分布式、面向列的NoSQL数据库，主要用于处理大规模、稀疏的表结构数据。HBase的设计灵感来自Google的Bigtable，能够在海量数据中提供快速的随机读写操作，适合需要低延迟和高吞吐量的应用场景。HBase核心概念表（Table）：HBase的数据存储在表中，与传统的关系型数据库不同，HBase的表是面向列族（Co
大数据面试题：说下为什么要使用Hive？Hive的优缺点？Hive的作用是什么？蓦然_ 大数据面试题 hive 大数据开发面试题大数据面试
1、为什么要使用Hive？Hive是Hadoop生态系统中比不可少的一个工具，它提供了一种SQL(结构化查询语言)方言，可以查询存储在Hadoop分布式文件系统（HDFS）中的数据或其他和Hadoop集成的文件系统，如MapR-FS、Amazon的S3和像HBase（Hadoop数据仓库）和Cassandra这样的数据库中的数据。大多数数据仓库应用程序都是使用关系数据库进行实现的，并使用SQL作为
Hadoop组件静听山水 Hadoop hadoop
这张图片展示了Hadoop生态系统的一些主要组件。Hadoop是一个开源的大数据处理框架，由Apache基金会维护。以下是每个组件的简短介绍：HBase：一个分布式、面向列的NoSQL数据库，基于GoogleBigTable的设计理念构建。HBase提供了实时读写访问大量结构化和半结构化数据的能力，非常适合大规模数据存储。Pig：一种高级数据流语言和执行引擎，用于编写MapReduce任务。Pig
Hbase BulkLoad用法 kikiki2
要导入大量数据，Hbase的BulkLoad是必不可少的，在导入历史数据的时候，我们一般会选择使用BulkLoad方式，我们还可以借助Spark的计算能力将数据快速地导入。使用方法导入依赖包compilegroup:'org.apache.spark',name:'spark-sql_2.11',version:'2.3.1.3.0.0.0-1634'compilegroup:'org.apach
EMR组件部署指南 ivwdcwso 运维 EMR 大数据开源运维
EMR(ElasticMapReduce)是一个大数据处理和分析平台,包含了多个开源组件。本文将详细介绍如何部署EMR的主要组件,包括:JDK1.8ElasticsearchKafkaFlinkZookeeperHBaseHadoopPhoenixScalaSparkHive准备工作所有操作都在/data目录下进行。首先安装JDK1.8:yuminstalljava-1.8.0-openjdk部署
Sublime text3+python3配置及插件安装 raysonfang
作者：方雷个人博客：http://blog.chargingbunk.cn/微信公众号：rayson_666(Rayson开发分享)个人专研技术方向：微服务方向：springboot,springCloud,Dubbo分布式/高并发：分布式锁，消息队列RabbitMQ大数据处理：Hadoop,spark,HBase等python方向：pythonweb开发一，前言在网上搜索了一些Python开发的
Spring Data：JPA与Querydsl 光图强 java
JPAJPA是java的一个规范，用于在java对象和数据库之间保存数据，充当面向对象领域模型和数据库之间的桥梁。它使用Hibernate、TopLink、IBatis等ORM框架实现持久性规范。SpringDataSpringData是Spring的一个子项目，用于简化数据库访问，支持NoSql数据和关系数据库。支持的NoSql数据库包括：Mongodb、redis、Hbase、Neo4j。Sp
HBase 源码阅读（二） Such Devotion hbase 数据库大数据
衔接在上一篇文章中，HMasterCommandLine类中在startMaster();方法中//这里除了启动HMaster之外，还启动一个HRegionServerLocalHBaseClustercluster=newLocalHBaseCluster(conf,mastersCount,regionServersCount,LocalHMaster.class,HRegionServer.
大数据技术之HBase 与 Hive 集成(7) 大数据深度洞察 Hbase 大数据 hbase hive
目录使用场景HBase与Hive集成使用1）案例一2）案例二使用场景如果大量的数据已经存放在HBase上面，并且需要对已经存在的数据进行数据分析处理，那么Phoenix并不适合做特别复杂的SQL处理。此时，可以使用Hive映射HBase的表格，之后通过编写HQL进行分析处理。HBase与Hive集成使用Hive安装https://blog.csdn.net/qq_45115959/article/
【HBase之轨迹】（1）使用 Docker 搭建 HBase 集群寒冰小澈IceClean 【大数据之轨迹】【Docker之轨迹】笔记 hbase docker hadoop
——目录——0.前置准备1.下载安装2.配置（重）3.启动与关闭4.搭建高可用HBase前言（贫穷使我见多识广）前边经历了Hadoop，Zookeeper，Kafka，他们的集群，全都是使用Docker搭建的一开始的我认为，把容器看成是一台台独立的服务器就好啦也确实是这样，但端口映射问题，让我一路以来磕碰了太多太多，直到现在的HBase，更是将Docker集群所附带的挑战性，放大到了极致（目前是如
二分查找排序算法周凡杨 java 二分查找排序算法折半
一：概念二分查找又称折半查找（折半搜索/ 二分搜索），优点是比较次数少，查找速度快，平均性能好；其缺点是要求待查表为有序表，且插入删除困难。因此，折半查找方法适用于不经常变动而查找频繁的有序列表。首先，假设表中元素是按升序排列，将表中间位置记录的关键字与查找关键字比较，如果两者相等，则查找成功；否则利用中间位置记录将表分成前、后两个子表，如果中间位置记录的关键字大于查找关键字，则进一步
java中的BigDecimal bijian1013 java BigDecimal
在项目开发过程中出现精度丢失问题，查资料用BigDecimal解决，并发现如下这篇BigDecimal的解决问题的思路和方法很值得学习，特转载。原文地址：http://blog.csdn.net/ugg/article/de
Shell echo命令详解 daizj echo shell
Shell echo命令 Shell 的 echo 指令与 PHP 的 echo 指令类似，都是用于字符串的输出。命令格式： echo string 您可以使用echo实现更复杂的输出格式控制。 1.显示普通字符串: echo "It is a test" 这里的双引号完全可以省略，以下命令与上面实例效果一致： echo Itis a test 2.显示转义
Oracle DBA 简单操作周凡杨 oracle dba sql
--执行次数多的SQL select sql_text,executions from ( select sql_text,executions from v$sqlarea order by executions desc ) where rownum<81; &nb
画图重绘朱辉辉33 游戏
我第一次接触重绘是编写五子棋小游戏的时候，因为游戏里的棋盘是用线绘制的，而这些东西并不在系统自带的重绘里，所以在移动窗体时，棋盘并不会重绘出来。所以我们要重写系统的重绘方法。在重写系统重绘方法时，我们要注意一定要调用父类的重绘方法，即加上super.paint(g)，因为如果不调用父类的重绘方式，重写后会把父类的重绘覆盖掉，而父类的重绘方法是绘制画布，这样就导致我们
线程之初体验西蜀石兰线程
一直觉得多线程是学Java的一个分水岭，懂多线程才算入门。之前看《编程思想》的多线程章节，看的云里雾里，知道线程类有哪几个方法，却依旧不知道线程到底是什么？书上都写线程是进程的模块，共享线程的资源，可是这跟多线程编程有毛线的关系，呜呜。。。线程其实也是用户自定义的任务，不要过多的强调线程的属性，而忽略了线程最基本的属性。你可以在线程类的run()方法中定义自己的任务，就跟正常的Ja
linux集群互相免登陆配置林鹤霄 linux
配置ssh免登陆 1、生成秘钥和公钥 ssh-keygen -t rsa 2、提示让你输入，什么都不输，三次回车之后会在~下面的.ssh文件夹中多出两个文件id_rsa 和 id_rsa.pub 其中id_rsa为秘钥，id_rsa.pub为公钥，使用公钥加密的数据只有私钥才能对这些数据解密 c
mysql : Lock wait timeout exceeded; try restarting transaction aigo mysql
原文：http://www.cnblogs.com/freeliver54/archive/2010/09/30/1839042.html 原因是你使用的InnoDB 表类型的时候, 默认参数:innodb_lock_wait_timeout设置锁等待的时间是50s, 因为有的锁等待超过了这个时间,所以抱错. 你可以把这个时间加长,或者优化存储
Socket编程基本的聊天实现。 alleni123 socket
public class Server { //用来存储所有连接上来的客户 private List<ServerThread> clients; public static void main(String[] args) { Server s = new Server(); s.startServer(9988); } publi
多线程监听器事件模式(一个简单的例子) 百合不是茶线程监听模式
多线程的事件监听器模式监听器时间模式经常与多线程使用,在多线程中如何知道我的线程正在执行那什么内容,可以通过时间监听器模式得到创建多线程的事件监听器模式思路: 1, 创建线程并启动,在创建线程的位置设置一个标记 2,创建队
spring InitializingBean接口 bijian1013 java spring
spring的事务的TransactionTemplate，其源码如下： public class TransactionTemplate extends DefaultTransactionDefinition implements TransactionOperations, InitializingBean{ ... } TransactionTemplate继承了DefaultT
Oracle中询表的权限被授予给了哪些用户 bijian1013 oracle 数据库权限
Oracle查询表将权限赋给了哪些用户的SQL，以备查用。 select t.table_name as "表名", t.grantee as "被授权的属组", t.owner as "对象所在的属组"
【Struts2五】Struts2 参数传值 bit1129 struts2
Struts2中参数传值的3种情况 1.请求参数绑定到Action的实例字段上 2.Action将值传递到转发的视图上 3.Action将值传递到重定向的视图上一、请求参数绑定到Action的实例字段上以及Action将值传递到转发的视图上 Struts可以自动将请求URL中的请求参数或者表单提交的参数绑定到Action定义的实例字段上，绑定的规则使用ognl表达式语言
【Kafka十四】关于auto.offset.reset[Q/A] bit1129 kafka
I got serveral questions about auto.offset.reset. This configuration parameter governs how consumer read the message from Kafka when there is no initial offset in ZooKeeper or
nginx gzip压缩配置 ronin47 nginx gzip 压缩范例
nginx gzip压缩配置更多 0 nginx gzip 配置随着nginx的发展，越来越多的网站使用nginx，因此nginx的优化变得越来越重要，今天我们来看看nginx的gzip压缩到底是怎么压缩的呢？ gzip(GNU-ZIP)是一种压缩技术。经过gzip压缩后页面大小可以变为原来的30%甚至更小，这样，用
java-13.输入一个单向链表，输出该链表中倒数第 k 个节点 bylijinnan java
two cursors. Make the first cursor go K steps first. /* * 第 13 题：题目：输入一个单向链表，输出该链表中倒数第 k 个节点 */ public void displayKthItemsBackWard(ListNode head,int k){ ListNode p1=head,p2=head;
Spring源码学习-JdbcTemplate queryForObject bylijinnan java spring
JdbcTemplate中有两个可能会混淆的queryForObject方法： 1. Object queryForObject(String sql, Object[] args, Class requiredType) 2. Object queryForObject(String sql, Object[] args, RowMapper rowMapper) 第1个方法是只查
[冰川时代]在冰川时代,我们需要什么样的技术? comsci 技术
看美国那边的气候情况....我有个感觉...是不是要进入小冰期了? 那么在小冰期里面...我们的户外活动肯定会出现很多问题...在室内呆着的情况会非常多...怎么在室内呆着而不发闷...怎么用最低的电力保证室内的温度.....这都需要技术手段... &nb
js 获取浏览器型号 cuityang js 浏览器
根据浏览器获取iphone和apk的下载地址 <!DOCTYPE html> <html> <head> <meta charset="utf-8" content="text/html"/> <meta name=
C# socks5详解转 dalan_123 socket C#
http://www.cnblogs.com/zhujiechang/archive/2008/10/21/1316308.html 这里主要讲的是用.NET实现基于Socket5下面的代理协议进行客户端的通讯，Socket4的实现是类似的，注意的事，这里不是讲用C#实现一个代理服务器，因为实现一个代理服务器需要实现很多协议，头大，而且现在市面上有很多现成的代理服务器用，性能又好，
运维 Centos问题汇总 dcj3sjt126com 云主机
一、sh 脚本不执行的原因 sh脚本不执行的原因只有2个 1.权限不够 2.sh脚本里路径没写完整。二、解决You have new mail in /var/spool/mail/root 修改/usr/share/logwatch/default.conf/logwatch.conf配置文件 MailTo = MailFrom 三、查询连接数
Yii防注入攻击笔记 dcj3sjt126com sql WEB安全 yii
网站表单有注入漏洞须对所有用户输入的内容进行个过滤和检查，可以使用正则表达式或者直接输入字符判断，大部分是只允许输入字母和数字的，其它字符度不允许；对于内容复杂表单的内容，应该对html和script的符号进行转义替换：尤其是<,>,',"",&这几个符号这里有个转义对照表： http://blog.csdn.net/xinzhu1990/articl
MongoDB简介[一] eksliang mongodb MongoDB简介
MongoDB简介转载请出自出处：http://eksliang.iteye.com/blog/2173288 1.1易于使用 MongoDB是一个面向文档的数据库，而不是关系型数据库。与关系型数据库相比，面向文档的数据库不再有行的概念，取而代之的是更为灵活的“文档”模型。另外，不
zookeeper windows 入门安装和测试 greemranqq zookeeper 安装分布式
一、序言以下是我对zookeeper 的一些理解： zookeeper 作为一个服务注册信息存储的管理工具，好吧，这样说得很抽象，我们举个“栗子”。栗子1号：假设我是一家KTV的老板，我同时拥有5家KTV，我肯定得时刻监视
Spring之使用事务缘由(2-注解实现) ihuning spring
Spring事务注解实现 1. 依赖包： 1.1 spring包： spring-beans-4.0.0.RELEASE.jar spring-context-4.0.0.
iOS App Launch Option 啸笑天 option
iOS 程序启动时总会调用application:didFinishLaunchingWithOptions:，其中第二个参数launchOptions为NSDictionary类型的对象，里面存储有此程序启动的原因。 launchOptions中的可能键值见UIApplication Class Reference的Launch Options Keys节。 1、若用户直接
jdk与jre的区别（_） macroli java jvm jdk
简单的说JDK是面向开发人员使用的SDK，它提供了Java的开发环境和运行环境。SDK是Software Development Kit 一般指软件开发包，可以包括函数库、编译程序等。 JDK就是Java Development Kit JRE是Java Runtime Enviroment是指Java的运行环境，是面向Java程序的使用者，而不是开发者。如果安装了JDK，会发同你
Updates were rejected because the tip of your current branch is behind qiaolevip 学习永无止境每天进步一点点众观千象 git
$ git push joe prod-2295-1 To [email protected]:joe.le/dr-frontend.git ! [rejected] prod-2295-1 -> prod-2295-1 (non-fast-forward) error: failed to push some refs to '[email protected]
[一起学Hive]之十四-Hive的元数据表结构详解 superlxw1234 hive hive元数据结构
关键字：Hive元数据、Hive元数据表结构之前在 “[一起学Hive]之一–Hive概述，Hive是什么”中介绍过，Hive自己维护了一套元数据，用户通过HQL查询时候，Hive首先需要结合元数据，将HQL翻译成MapReduce去执行。本文介绍一下Hive元数据中重要的一些表结构及用途，以Hive0.13为例。文章最后面，会以一个示例来全面了解一下，
Spring 3.2.14，4.1.7，4.2.RC2发布 wiselyman Spring 3
Spring 3.2.14、4.1.7及4.2.RC2于6月30日发布。其中Spring 3.2.1是一个维护版本(维护周期到2016-12-31截止)，后续会继续根据需求和bug发布维护版本。此时，Spring官方强烈建议升级Spring框架至4.1.7 或者将要发布的4.2 。其中Spring 4.1.7主要包含这些更新内容。

Hbase入门笔记----架构以及应用介绍

你可能感兴趣的:(hbase)