张小凡vip

hadoop组件---hbase--海量数据使用importtsv和Bulk load导入hbase最详细实践

我们本章来探索海量数据使用importtsv和Bulk load导入hbase最详细实践。

我们之前已经尝试了使用kettle把mongodb的数据导入hbase，但是发现速度比较慢。

单机kettle导入hbase，6700万条数据使用了27个小时，4亿多条数据需要的时间就更多了。

情况介绍

HBase本身提供了很多种数据导入的方式，目前常用的有三种常用方式：
1、使用HBase原生Client API
2、使用HBase提供的TableOutputFormat，原理是通过一个Mapreduce作业将数据导入HBase
3、使用Bulk Load方式直接生成HFile，分别分发到regionServer中

方式对比

第一第二种方式由于需要频繁的与数据所存储的RegionServer通信，一次性入库大量数据时，可能占用大量Regionserver资源，影响存储在该Regionserver上其他表的查询。
了解过HBase底层原理的应该都知道，HBase在HDFS中是以HFile文件结构存储的，一个比较高效便捷的方法就是使用 Bulk Load方式直接生成HFile，即使用HBase提供的HFileOutputFormat类(目前已经有改良版本的HFileOutputFormat2类)或者ImportTSV工具。

Bulk Load介绍

BulkLoad是一种高效写入HBase的方式，适用于将数据批量迁移到HBase。
BulkLoad使用MapReduce作业直接生成HBase的StoreFile，并将生成的StoreFile直接装载入正在运行的HBase集群。较之使用HBase的API，使用BulkLoad耗费的CPU和网络资源都相对较少。
因为BulkLoad绕过了正常写数据的路径（WAL、MemStore、flush），尤其是WAL，通过WAL进行的Cluster Replication就不会处理BulkLoad装载的数据。

我们在第一次建立Hbase表的时候，我们可能需要往里面一次性导入大量的初始化数据。我们很自然地想到将数据一条条插入到Hbase中，或者通过MR方式等。但是这些方式不是慢就是在导入的过程的占用Region资源导致效率低下，所以很不适合一次性导入大量数据。我们将针对这个问题介绍如何通过Hbase的BulkLoad方法来快速将海量数据导入到Hbase中。

总的来说，使用 Bulk Load 方式由于利用了 HBase 的数据信息是按照特定格式存储在 HDFS 里的这一特性，直接在 HDFS 中生成持久化的 HFile 数据格式文件，然后完成巨量数据快速入库的操作，配合 MapReduce 完成这样的操作，不占用 Region 资源，不会产生巨量的写入 I/O，所以需要较少的 CPU 和网络资源。Bulk Load 的实现原理是通过一个 MapReduce Job 来实现的，通过 Job 直接生成一个 HBase 的内部 HFile 格式文件，用来形成一个特殊的 HBase 数据表，然后直接将数据文件加载到运行的集群中。与使用HBase API相比，使用Bulkload导入数据占用更少的CPU和网络资源。

步骤

要完成Bulk Load分成三步操作。

准备数据

从数据源(通常是文本文件或其他的数据库)提取数据并上传到HDFS。抽取数据到HDFS和Hbase以及Bulk Load并没有关系，所以大家可以选用自己擅长的方式进行，本文就不介绍了。一般使用sqoop或者kettle抽取数据保存到HDFS中。

把数据转化为HFile

BulkLoad的第一步是利用MapReduce作业处理准备好的数据转化为HFile 。

这个步骤也有两种操作方式

一、使用HFileOutputFormat2类生成HBase数据文件（StoreFile）。
这需要一个MapReduce作业，可以自己来实现Map方法来，HBase来完成后面的Reducer操作。最后，每一个region的HFile将会在输出目录被创建出来。

该Map作业需要使用rowkey(行键)作为输出Key；KeyValue、Put或者Delete作为输出Value。MapReduce作业需要使用HFileOutputFormat2来生成HBase数据文件。为了有效的导入数据，需要配置HFileOutputFormat2使得每一个输出文件都在一个合适的区域中。为了达到这个目的，MapReduce作业会使用Hadoop的TotalOrderPartitioner类根据表的key值将输出分割开来。HFileOutputFormat2的方法configureIncrementalLoad()会自动的完成上面的工作。

为了使最终生成的每个HFile都能对应一个Region，需要在MapReduce作业中使用TotalOrderPartitioner类对map的输出结果进行partition，使之与Region的RowKey范围达到一致。幸运的是HFileOutputFormat2类的configureIncrementalLoad()已经做了这个工作，它会根据HBase表中现有的Region边界自动配置TotalOrderPartitioner。

生成HFile程序说明：

1、最终输出结果，无论是map还是reduce，输出部分key和value的类型必须是： < ImmutableBytesWritable, KeyValue>或者< ImmutableBytesWritable, Put>。
2、最终输出部分，Value类型是KeyValue 或Put，对应的Sorter分别是KeyValueSortReducer或PutSortReducer。
3、MR例子中job.setOutputFormatClass(HFileOutputFormat.class); HFileOutputFormat只适合一次对单列族组织成HFile文件。
4、MR例子中HFileOutputFormat.configureIncrementalLoad(job, table);自动对job进行配置。SimpleTotalOrderPartitioner是需要先对key进行整体排序，然后划分到每个reduce中，保证每一个reducer中的的key最小最大值区间范围，是不会有交集的。因为入库到HBase的时候，作为一个整体的Region，key是绝对有序的。
5、MR例子中最后生成HFile存储在HDFS上，输出路径下的子目录是各个列族。如果对HFile进行入库HBase，相当于move HFile到HBase的Region中，HFile子目录的列族内容没有了

二、使用importtsv命令生成HBase数据文件HFile
ImportTsv是Hbase提供的一个命令行工具，可以将存储在HDFS上的自定义分隔符（默认\t）的数据文件(TSV，CSV等等)，通过一条命令方便的导入到HBase表的工具。它的原理跟HFileOutputFormat2类方式是类似的，只是有相应的封装。
ImportTsv相关源码
ImportTsv.java
TsvImporterMapper.java

两种方式的选择
importtsv工具可以满足大多数场景，用户有时希望自己编程生成数据，或以其他格式导入数据，比如importtsv需要在导入前确定每条数据column维度，一旦我们的数据的维度是根据数据内容本身的，importtsv就无法满足需求，这时就需要对工具改造，可以查看ImportTsv.java和HFileOutputFormat的javaDoc。
修改源码进行实现。

载入数据到HBase集群

将生成的HFile加载到HBase中，并在所有的regionserver上注册它们，即完成Complete Bulkload阶段。
在准备好数据文件后，可以在命令行中使用completebulkload工具或者LoadIncrementalHFiles完成Complete BulkLoad。
告诉RegionServers数据的位置并导入数据。这一步是最简单的，通常需要使用LoadIncrementalHFiles(更为人所熟知是completebulkload工具)，将文件在HDFS上的位置传递给它，它就会利用RegionServer将数据导入到相应的区域。

importtsv命令说明

importtsv其实也支持两种方式的导入。
第一种是使用TableOutputformat在reduce中插入数据；
第二种是先生成HFile格式的文件，再执行一个叫做CompleteBulkLoad的命令，将文件move到HBase表空间目录下，同时提供给client查询。

查看ImportTsv的入口类是org.apache.hadoop.hbase.mapreduce.ImportTsv源码如下:

String hfileOutPath = conf.get(BULK_OUTPUT_CONF_KEY);  
String columns[] = conf.getStrings(COLUMNS_CONF_KEY);  
if (hfileOutPath != null) {  
  if (!admin.tableExists(tableName)) {  
    LOG.warn(format("Table '%s' does not exist.", tableName));  
    // TODO: this is backwards. Instead of depending on the existence of a table,  
    // create a sane splits file for HFileOutputFormat based on data sampling.  
    createTable(admin, tableName, columns);  
  }  
  HTable table = new HTable(conf, tableName);  
  job.setReducerClass(PutSortReducer.class);  
  Path outputDir = new Path(hfileOutPath);  
  FileOutputFormat.setOutputPath(job, outputDir);  
  job.setMapOutputKeyClass(ImmutableBytesWritable.class);  
  if (mapperClass.equals(TsvImporterTextMapper.class)) {  
    job.setMapOutputValueClass(Text.class);  
    job.setReducerClass(TextSortReducer.class);  
  } else {  
    job.setMapOutputValueClass(Put.class);  
    job.setCombinerClass(PutCombiner.class);  
  }  
  HFileOutputFormat.configureIncrementalLoad(job, table);  
} else {  
  if (mapperClass.equals(TsvImporterTextMapper.class)) {  
    usage(TsvImporterTextMapper.class.toString()  
        + " should not be used for non bulkloading case. use "  
        + TsvImporterMapper.class.toString()  
        + " or custom mapper whose value type is Put.");  
    System.exit(-1);  
  }  
  // No reducers. Just write straight to table. Call initTableReducerJob  
  // to set up the TableOutputFormat.  
  TableMapReduceUtil.initTableReducerJob(tableName, null, job);  
  job.setNumReduceTasks(0);  
}

可以看到ImportTsv.createSubmittableJob方法中判断参数BULK_OUTPUT_CONF_KEY直接影响ImportTsv的Mapreduce作业最终以哪种方式入HBase库

如果不为空并且用户没有自定义Mapper实现类（参数importtsv.mapper.class）时，则使用PutSortReducer，其中会对Put排序，如果每行记录有很多column，则会占用Reducer大量的内存资源进行排序。

Configuration conf = job.getConfiguration();  
HBaseConfiguration.merge(conf, HBaseConfiguration.create(conf));  
job.setOutputFormatClass(TableOutputFormat.class);

如果为空，调用TableMapReduceUtil.initTableReducerJob初始化TableOutputformat的Reducer输出，此方式不需要使用Reducer，因为直接在mapper的Outputformat中会批量的调用Put API将数据提交到Regionserver上（相当于并行的执行HBase Put API）。

我们知道TableOutputformat方式会直接往hbase中写数据，的是比较耗费资源的。

所以需要注意的是在使用ImportTsv时，一定要注意参数importtsv.bulk.output的配置，通常来说使用Bulk output的方式对Regionserver来说更加友好一些，这种方式加载数据几乎不占用Regionserver的计算资源，因为只是在HDFS上移动了HFile文件。

两种方式的命令区别如下:
TableOutputformat

hbase org.apache.hadoop.hbase.mapreduce.ImportTsv -Dimporttsv.columns=a,b,c

bulkoutput方式

hbase org.apache.hadoop.hbase.mapreduce.ImportTsv -Dimporttsv.columns=a,b,c -Dimporttsv.bulk.output=hdfs://storefile-outputdir

ImportTsv参数
-Dimporttsv.columns=HBASE_ROW_KEY,temp:in,temp:out,vibration,pressure:in,pressure:out 输入行的格式,注意顺序temp 和vibration，pressure都是列族，in和out是列名，我们根据自己的表格进行修改。
-Dimporttsv.skip.bad.lines=false - 若遇到无效行则失败
-Dimporttsv.separator=, - 使用特定分隔符,默认是tab也就是\t
-Dimporttsv.timestamp=currentTimeAsLong - 使用导入时的时间戳
-Dimporttsv.mapper.class=my.Mapper - 使用用户自定义Mapper类替换TsvImporterMapper
-Dmapreduce.job.name=jobName - 对导入使用特定mapreduce作业名
-Dcreate.table=no - 避免创建表，注：如设为为no，目标表必须存在于HBase中
-Dno.strict=true - 忽略HBase表列族检查。默认为false
-Dimporttsv.bulk.output=/user/yarn/output 作业的输出目录

先创建出输出目录,再上传数据

importtsv和Bulk load实际操作示例

我们使用importtsv和Bulk load来进行详细的操作示例。

创建表格准备数据

首先需要确定我们的表格需要什么格式的数据。

在服务器上进入hbase shell中创建表格如下:

create 'posFrequency', 'info'

新建实验数据集
使用命令

vim test.txt

输入内容如下
86743654:2,rs123,2,86743654
312312:3,rs4543,3,312312
7666554:5,rs655,5,7666554
9787778:6,rs988,6,9787778

创建目录上传文件到HDFS使用命令

hdfs dfs -mkdir -p /user/hbase/test
hadoop fs -put test.txt /user/hbase/test
hadoop fs -ls  /user/hbase/test
hadoop fs -chmod -R 777 /user/hbase/test

使用importtsv生成HFile

使用命令如下:

hbase org.apache.hadoop.hbase.mapreduce.ImportTsv '-Dimporttsv.separator=,' -Dimporttsv.columns='HBASE_ROW_KEY,info:rs,info:chr,info:pos' -Dimporttsv.bulk.output=/user/hbase/test/output posFrequency /user/hbase/test

作业执行完成后，我们查看一下输出目录，相应列簇的HFile已经创建。

hdfs dfs -ls /user/hbase/test

HFile文件已生成如下图:

把HFile注册到hbase中

LoadIncrementalHFiles方式
使用命令

hbase org.apache.hadoop.hbase.mapreduce.LoadIncrementalHFiles /user/hbase/test/output posFrequency

执行时，如果卡死在提示“INFO mapreduce.LoadIncrementalHFiles: Trying to load hfile=hdfs”处

例如执行：hbase org.apache.hadoop.hbase.mapreduce.LoadIncrementalHFiles /tmp/output tab1，出现上述卡死现象。查看Region Server日志时，发现提示权限拒绝之类的异常。所以修改命令为：sudo -u hbase hbase org.apache.hadoop.hbase.mapreduce.LoadIncrementalHFiles /tmp/output tab1 即可解决此问题。

如果原因不一样则需要根据Region Server日志排查。

如图

如果是目录权限问题
Caused by: org.apache.hadoop.security.AccessControlException: Permission denied: user=hbase, access=WRITE, inode=”/user/hbase/test/output/info”:zzq:supergroup:drwxr-xr-x
则使用命令

hadoop fs -chmod -R 777 /user/hbase/test/output/info

导入完成后如图

completebulkload方式
使用命令

hadoop jar lib/hbase-server-0.96.0.jar completebulkload hfile_tmp3 hbase-tbl-003

注意：执行该命令时，hadoop很可能会找不到相关的hbase依赖包，出现ClassNotFoundException的异常。一个简单的解决方法是将hbase相关的jar包都放到${HADOOP_HOME}/share/hadoop/common/lib下面，这样hadoop就能在运行前加载相关的hbase jar files。

zookeeperException
解决办法：zookeeper没有找到，尝试：1、关闭防火墙；2、hadoop的hadoop-env.sh 里面配置HADOOP_CLASSPATH包含hbase的一些jar，core-site.xml里面配置好zookeeper的几个server。重启hadoop、hbase、zookeeper。

查看数据

进入hbase shell，检查posFrequency表格的数据
使用命令

scan 'posFrequency'

耗费时间

数据量文件大小27G

使用命令查看

hdfs dfs -ls -h /user/hbase/frequency

3亿条数据抽取到hdfs花费了13小时

importTsv命令执行花费了2小时

LoadIncrementalHFiles命令花费了2秒，把HFile文件注册到hbase速度还是很快的

scan查询数据已经成功导入了如图:

自己编写Mapreduce把数据转化为HFile示例

import org.apache.hadoop.conf.Configuration;  
import org.apache.hadoop.fs.FsShell;  
import org.apache.hadoop.fs.Path;  
import org.apache.hadoop.hbase.HBaseConfiguration;  
import org.apache.hadoop.hbase.client.HTable;  
import org.apache.hadoop.hbase.client.Put;  
import org.apache.hadoop.hbase.io.ImmutableBytesWritable;  
import org.apache.hadoop.hbase.mapreduce.HFileOutputFormat2;  
import org.apache.hadoop.hbase.mapreduce.LoadIncrementalHFiles;  
import org.apache.hadoop.hbase.util.Bytes;  
import org.apache.hadoop.io.LongWritable;  
import org.apache.hadoop.io.Text;  
import org.apache.hadoop.mapreduce.Job;  
import org.apache.hadoop.mapreduce.Mapper;  
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;  
import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;  
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;  
import org.slf4j.Logger;  
import org.slf4j.LoggerFactory;  

import java.io.IOException;  

public class BulkLoadJob {  
    static Logger logger = LoggerFactory.getLogger(BulkLoadJob.class);  

    public static class BulkLoadMap extends  
            Mapper {  

        public void map(LongWritable key, Text value, Context context)  
                throws IOException, InterruptedException {  

            String[] valueStrSplit = value.toString().split("\t");  
            String hkey = valueStrSplit[0];  
            String family = valueStrSplit[1].split(":")[0];  
            String column = valueStrSplit[1].split(":")[1];  
            String hvalue = valueStrSplit[2];  
            final byte[] rowKey = Bytes.toBytes(hkey);  
            final ImmutableBytesWritable HKey = new ImmutableBytesWritable(rowKey);  
            Put HPut = new Put(rowKey);  
            byte[] cell = Bytes.toBytes(hvalue);  
            HPut.add(Bytes.toBytes(family), Bytes.toBytes(column), cell);  
            context.write(HKey, HPut);  

        }  
    }  

    public static void main(String[] args) throws Exception {  
        Configuration conf = HBaseConfiguration.create();  
        String inputPath = args[0];  
        String outputPath = args[1];  
        HTable hTable = null;  
        try {  
            Job job = Job.getInstance(conf, "ExampleRead");  
            job.setJarByClass(BulkLoadJob.class);  
            job.setMapperClass(BulkLoadJob.BulkLoadMap.class);  
            job.setMapOutputKeyClass(ImmutableBytesWritable.class);  
            job.setMapOutputValueClass(Put.class);  
            // speculation  
            job.setSpeculativeExecution(false);  
            job.setReduceSpeculativeExecution(false);  
            // in/out format  
            job.setInputFormatClass(TextInputFormat.class);  
            job.setOutputFormatClass(HFileOutputFormat2.class);  

            FileInputFormat.setInputPaths(job, inputPath);  
            FileOutputFormat.setOutputPath(job, new Path(outputPath));  

            hTable = new HTable(conf, args[2]);  
            HFileOutputFormat2.configureIncrementalLoad(job, hTable);  

            if (job.waitForCompletion(true)) {  
                FsShell shell = new FsShell(conf);  
                try {  
                    shell.run(new String[]{"-chmod", "-R", "777", args[1]});  
                } catch (Exception e) {  
                    logger.error("Couldnt change the file permissions ", e);  
                    throw new IOException(e);  
                }  
                //加载到hbase表  
                LoadIncrementalHFiles loader = new LoadIncrementalHFiles(conf);  
                loader.doBulkLoad(new Path(outputPath), hTable);  
            } else {  
                logger.error("loading failed.");  
                System.exit(1);  
            }  

        } catch (IllegalArgumentException e) {  
            e.printStackTrace();  
        } finally {  
            if (hTable != null) {  
                hTable.close();  
            }  
        }  
    }  
}

参考文献

ImportTsv－HBase数据导入工具
http://blog.csdn.net/opensure/article/details/47111705

[HBase] 使用ImportTsv命令导入数
http://blog.sina.com.cn/s/blog_72ef7bea0102vlvd.html

使用importtsv命令加载数据
http://debugo.com/importtsv-load-data/

Import CSV data into HBase using importtsv
https://community.hortonworks.com/articles/4942/import-csv-data-into-hbase-using-importtsv.html

ImportTSV Data from HDFS into HBase
https://acadgild.com/blog/importtsv-data-from-hdfs-into-hbase/

通过BulkLoad快速将海量数据导入到Hbase[Hadoop篇]
https://www.iteblog.com/archives/1889.html

Bulk Loading
http://hbase.apache.org/0.94/book/arch.bulk.load.html

HBase Bulk Load
http://www.zhyea.com/2017/02/09/hbase-bulk-load.html

使用 Bulk Load 快速向 HBase 中导入数据
http://blog.jrwang.me/2015/import-data-to-hbase-using-bulk-loding/

How-to: Use HBase Bulk Loading, and Why
https://blog.cloudera.com/blog/2013/09/how-to-use-hbase-bulk-loading-and-why/

Bulk Loading Data to HBase
http://milinda.pathirage.org/2016/12/11/hbase-bulk-load.html

HBase BulkLoad
http://zqhxuyuan.github.io/2015/12/19/2015-12-19-HBase-BulkLoad/

Bulk Load－HBase数据导入最佳实践
http://blog.csdn.net/opensure/article/details/47054861

阿里巴巴大数据系统体系架构大连赵哥大数据架构
数据应用层：这是最顶层，面向不同的用户群体提供服务，包括对内（公司内部使用）、对平台（平台用户）、对商家（商家使用）、对公众（普通消费者）。数据服务与基础工具层：这一层提供了一些基础服务和工具，例如：OneService：可能是一种服务或工具，用于统一数据服务。TDDL+MySQL：TDDL是淘宝分布式数据层的缩写，与MySQL结合使用，提供数据库服务。HBase：一个分布式列存储系统，适合于存储
【硬刚大数据】2021年从零到大数据专家之Hbase八股文王知无(import_bigdata)
欢迎关注博客主页：https://blog.csdn.net/u013411339欢迎点赞、收藏、留言，欢迎留言交流！本文由【王知无】原创，首发于CSDN博客！本文首发CSDN论坛，未经过官方和本人允许，严禁转载！本文是对《【硬刚大数据之学习路线篇】2021年从零到大数据专家的学习指南(全面升级版)》的面试部分补充。硬刚大数据系列文章链接：2021年从零到大数据专家的学习指南(全面升级版)
一图看懂 HBase 架构（全面详细） BigData_Hubert 大数据 hbase hadoop hbase 组件架构大数据
HBase一图看懂HBase架构HBase最常用的shell操作HBase工作机制及读写流程HBase架构HBase前言HBase简介什么是HBaseHBase特点NoSQL与RDBMS对比HBase生态圈技术HBase架构Client客户端ZooKeeper集群协调一致性服务HMaster节点HRegionServer节点HDFSHBase组件整体物理结构RegionWALStoreFile（H
Couchbase UI: Eventing PersistDZ 数据存储 ui couchbase
Couchbase的Eventing页面用于创建和管理事件处理函数（EventHandlers），这些函数可以在特定的事件发生时自动触发。Eventing是Couchbase提供的一种功能，允许用户响应数据变更事件（例如文档创建、更新或删除），并在这些事件发生时执行自定义的业务逻辑。Eventing页面功能概述事件处理函数：在Eventing页面中，您可以编写JavaScript函数，以定义在特定
Couchbase UI: Analytics PersistDZ 数据存储 couchbase couchbase UI
Couchbase的Analytics页面是用于执行分析查询的部分，允许用户对存储在Couchbase中的数据进行复杂的分析和聚合。Analytics提供了SQL-like查询语言（N1QLforAnalytics），使得用户能够轻松地执行数据分析任务。以下是关于CouchbaseUI中Analytics页面的详细说明。Analytics页面功能概述数据查询：您可以使用N1QLforAnalyti
Couchbase UI: Dashboard PersistDZ 数据存储 couchbase
以下是CouchbaseUIDashboard页面详细介绍，包括页面布局和功能说明，帮助你更好地理解和使用。1.首页（Overview）功能：提供集群的整体健康状态和性能摘要集群状态节点健康状况：绿色（正常）、黄色（警告）、红色（问题）。节点数量和服务分布（如数据、索引、查询、分析等服务）。资源利用率内存使用：显示RAM和已分配内存的使用情况。存储使用：展示磁盘空间消耗。网络流量：监控入站和出站流
[HBase]二 HBase原生Shell命令大全墨尔本、晴 HBase 1024程序员节
HBase原生Shell命令汇总1.General组51.1.查看集群状态：status51.2.查看表的操作方法：table_help51.3.查看HBase的版本信息：version51.4.查看当前用户：whoami52.Namespace组52.1.创建命名空间：create_namespace52.2.显示命名空间列表：list_namespace52.3.修改/删除命名空间属性：alt
HBase-2.5.10 伪分布式环境搭建【Mac】凡许真 hbase 伪分布式 zk mac
文章目录前言一、搭建单节点Zookeeper1.解压zookeeper2.配置环境变量3.修改配置文件4.启动zk二、搭建伪分布式Hbase1.解压hbase2.配置环境变量3.修改配置4.启动HBase前言搭建hbase伪分布式环境提示：以下是本篇文章正文内容，下面案例仅供参考一、搭建单节点Zookeeper1.解压zookeeper版本：3.8.02.配置环境变量vi~/.bash_profi
HBase工具类（Scala 版） Amin-沐大数据私人日记帮助文档 hbase scala spark 大数据
objectHBaseHelper{privatevallogger=LoggerFactory.getLogger(getClass)valQUORUM:String=PropertiesUtils.getString("hbase.zookeeper.quorum")valPORT:String=PropertiesUtils.getString("hbase.zookeeper.port")
python链接hbase模块_Python连接Hbase weixin_40001395 python链接hbase模块
1、安装Hbase库pipinstallhappybase2、连接Hbase2.1、查看Hbase配置image.png2.2、使用happyhase连接hbaseimporthappybase#注意protocol和transport这两个参数，需要和hbase启动命令中的相同，否则会报错connection=happybase.Connection('qa-cdh-001',port=9090
python操作HBase 王壮_ 大数据 Python hbase 数据库大数据
1.安装happybase和thriftpipinstallhappybasepipinstallthrift2.启动hbase的thrift进程，并指定端口9090hbase-daemon.shstartthrift-p90903.操作HBaseimporthappybaseconnection=happybase.Connection(host='hadoop10',port=9090)tab
HBase伪分布式安装配置流程 TheMountainGhost hbase 数据库大数据
要配置HBase的伪分布式模式，以下是详细的操作步骤，确保每一步都执行准确。1.准备工作确保已经安装并配置好了Hadoop（伪分布式），因为HBase依赖HDFS。Hadoop已经配置并能够正常运行。Java已经安装并配置好了环境变量。SSH配置免密登录（通常在Hadoop环境中已配置）。2.下载并解压HBase下载HBase安装包并解压到你想要的目录：tar-zxvfhbase-2.4.18-b
Hadoop、Hive、Hbase集群间的数据迁移这个操蛋的人生！！！
一、hadoop集群间拷贝数据：迁移之前需要把两个集群的所有节点都互通/etc/hosts文件（重要，包括各个数据节点）两个集群版本不相同hadoopdistcphftp://192.168.57.73:50070/hive3/20171008/hive3/如果两个集群的版本相同，则可以使用hdfs协议，命令如下：hadoopdistcphdfs://namenodeip:9000/foohdfs
MySQL、HBase 和 Elasticsearch：特点与区别详解一休哥助手 mysql hbase elasticsearch
引言随着大数据和分布式计算的快速发展，数据库系统已从传统的关系型数据库（RDBMS）扩展到多种新型数据存储技术，包括NoSQL数据库和搜索引擎等。MySQL、HBase和Elasticsearch是其中三种非常常见的数据存储系统，它们在各自的领域都有着重要的应用。MySQL作为传统的关系型数据库，HBase则是一个分布式、可扩展的NoSQL数据库，而Elasticsearch则是一个分布式的搜索引
生成目录结构（tree）刘小二Start 编辑器
生成目录结构（tree）本操作使用场景：MacOS，Homebrew1.安装（tree）工具brewinstalltree2.Tree操作说明安装完成后，可直接运行：tree，既可自动生成当前目录文件下目录结构。输入treehelp可查看tree项目可操作命令，具体命令结构如下：$tree--helpusage:tree[-adfghilnpqrstuvxACDFNS][-HbaseHREF][-
大数据-257 离线数仓 - 数据质量监控监控方法 Griffin架构武子康大数据离线数仓大数据数据仓库 java 后端 hadoop hive
点一下关注吧！！！非常感谢！！持续更新！！！Java篇开始了！目前开始更新MyBatis，一起深入浅出！目前已经更新到了：Hadoop（已更完）HDFS（已更完）MapReduce（已更完）Hive（已更完）Flume（已更完）Sqoop（已更完）Zookeeper（已更完）HBase（已更完）Redis（已更完）Kafka（已更完）Spark（已更完）Flink（已更完）ClickHouse（已
数仓分层ODS、DWD、DWM、DWS、DIM、DM、ADS 青秋. 数据仓库大数据数据仓库
往期推荐数仓入门：数据分析模型、数仓建模、离线实时数仓、Lambda、Kappa、湖仓一体-CSDN博客数仓常见名词解析和名词之间的关系-CSDN博客数据仓库及数仓架构概述-CSDN博客大数据HBase图文简介-CSDN博客目录1.数仓分层1.1数据源层：ODS（OperationalDataStore）1.2数据仓库层：DW（DataWarehouse）1.2.1数据明细层：DWD（DataWa
Java 大视界 -- Java 与大数据存储优化：HBase 与 Cassandra 应用（十）青云交大数据新视界 #HBase 之道 Java 大视界大数据 hbase Cassandra 大数据存储优化性能优化数据处理社交网络 java
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：大数
大数据新视界 --大数据大厂之HBase深度探寻：大规模数据存储与查询的卓越方案青云交大数据新视界 #HBase 巅峰存储：引领大数据时代浪潮数据库 HBase 大数据性能优势问题解决应用领域可扩展性高可靠性读写性能集群管理数据存储
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：Ja
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
浅谈MapReduce Android路上的人 Hadoop 分布式计算 mapreduce 分布式框架 hadoop
从今天开始，本人将会开始对另一项技术的学习，就是当下炙手可热的Hadoop分布式就算技术。目前国内外的诸多公司因为业务发展的需要，都纷纷用了此平台。国内的比如BAT啦，国外的在这方面走的更加的前面，就不一一列举了。但是Hadoop作为Apache的一个开源项目，在下面有非常多的子项目，比如HDFS，HBase,Hive，Pig,等等，要先彻底学习整个Hadoop，仅仅凭借一个的力量，是远远不够的。
hbase介绍 CrazyL- 云计算+大数据 hbase
hbase是一个分布式的、多版本的、面向列的开源数据库hbase利用hadoophdfs作为其文件存储系统，提供高可靠性、高性能、列存储、可伸缩、实时读写、适用于非结构化数据存储的数据库系统hbase利用hadoopmapreduce来处理hbase、中的海量数据hbase利用zookeeper作为分布式系统服务特点：数据量大：一个表可以有上亿行，上百万列（列多时，插入变慢）面向列：面向列（族）的
Apache HBase基础（基本概述，物理架构，逻辑架构，数据管理，架构特点，HBase Shell） May--J--Oldhu HBase HBase shell hbase物理架构 hbase逻辑架构 hbase
NoSQL综述及ApacheHBase基础一.HBase1.HBase概述2.HBase发展历史3.HBase应用场景3.1增量数据-时间序列数据3.2信息交换-消息传递3.3内容服务-Web后端应用程序3.4HBase应用场景示例4.ApacheHBase生态圈5.HBase物理架构5.1HMaster5.2RegionServer5.3Region和Table6.HBase逻辑架构-Row7.
HBase（一）——HBase介绍 weixin_30595035 大数据数据库数据结构与算法
HBase介绍1、关系型数据库与非关系型数据库（1）关系型数据库关系型数据库最典型的数据机构是表，由二维表及其之间的联系所组成的一个数据组织优点：1、易于维护：都是使用表结构，格式一致2、使用方便：SQL语言通用，可用于复杂查询3、复杂操作：支持SQL，可用于一个表以及多个表之间非常复杂的查询缺点：1、读写性能比较差，尤其是海量数据的高效率读写2、固定的表结构，灵活度稍欠3、高并发读写需求，传统关
HBase介绍 mingyu1016 数据库
概述HBase是一个分布式的、面向列的开源数据库,源于google的一篇论文《bigtable：一个结构化数据的分布式存储系统》。HBase是GoogleBigtable的开源实现，它利用HadoopHDFS作为其文件存储系统，利用HadoopMapReduce来处理HBase中的海量数据，利用Zookeeper作为协同服务。HBase的表结构HBase以表的形式存储数据。表有行和列组成。列划分为
Hbase - 迁移数据[导出,导入] kikiki5
>有没有这样一样情况，把一个集群中的某个表导到另一个群集中，或者hbase的表结构发生了更改，但是数据还要，比如预分区没做，导致某台RegionServer很吃紧，Hbase的导出导出都可以很快的完成这些操作。![](https://upload-images.jianshu.io/upload_images/9028759-4fb9aa8ca3777969.png?imageMogr2/auto
通过DBeaver连接Phoenix操作hbase 不想做咸鱼的王富贵
通过DBeaver连接Phoenix操作hbase前言本文介绍常用一种通用数据库工具Dbeaver，DBeaver可通过JDBC连接到数据库，可以支持几乎所有的数据库产品，包括：MySQL、PostgreSQL、MariaDB、SQLite、Oracle、Db2、SQLServer、Sybase、MSAccess、Teradata、Firebird、Derby等等。商业版本更是可以支持各种NoSQ
Hbase - kerberos认证异常 kikiki2
之前怎么认证都认证不上，问题找了好了，发现它的异常跟实际操作根本就对不上，死马当活马医，当时也是瞎改才好的，给大家伙记录记录。KrbException:ServernotfoundinKerberosdatabase(7)-LOOKING_UP_SERVER>>>KdcAccessibility:removestorm1.starsriver.cnatsun.security.krb5.KrbTg
kvm 虚拟机命令行虚拟机操作、制作快照和恢复快照以及工作常用总结西京刀客云原生(Cloud Native)云计算虚拟化 Linux C/C++服务器 linux kvm
文章目录kvm虚拟机命令行虚拟机操作、制作快照和恢复快照一、kvm虚拟机命令行虚拟机操作(创建和删除)查看虚拟机virt-install创建一个虚拟机关闭虚拟机重启虚拟机销毁虚拟机二、kvm制作快照和恢复快照**创建快照**工作常见问题创建快照报错：：internalsnapshotsofaVMwithpflashbasedfirmwarearenotsupported检查虚拟机是否包含pflas
hadoop 0.22.0 部署笔记 weixin_33701564 大数据 java 运维
为什么80%的码农都做不了架构师？>>>因为需要使用hbase，所以开始对hbase进行学习。hbase是部署在hadoop平台上的NOSql数据库，因此在部署hbase之前需要先部署hadoop。环境：redhat5、hadoop-0.22.0.tar.gz、jdk-6u13-linux-i586.zipip192.168.1.128hostname：localhost.localdomain（
怎么样才能成为专业的程序员？ cocos2d-x小菜编程 PHP
如何要想成为一名专业的程序员？仅仅会写代码是不够的。从团队合作去解决问题到版本控制，你还得具备其他关键技能的工具包。当我们询问相关的专业开发人员，那些必备的关键技能都是什么的时候，下面是我们了解到的情况。关于如何学习代码，各种声音很多，然后很多人就被误导为成为专业开发人员懂得一门编程语言就够了？！呵呵，就像其他工作一样，光会一个技能那是远远不够的。如果你想要成为
java web开发高并发处理 BreakingBad java Web 并发开发处理高
java处理高并发高负载类网站中数据库的设计方法（java教程,java处理大量数据，java高负载数据）一：高并发高负载类网站关注点之数据库没错,首先是数据库,这是大多数应用所面临的首个SPOF。尤其是Web2.0的应用，数据库的响应是首先要解决的。一般来说MySQL是最常用的，可能最初是一个mysql主机，当数据增加到100万以上，那么，MySQL的效能急剧下降。常用的优化措施是M-S（
mysql批量更新 ekian mysql
mysql更新优化：一版的更新的话都是采用update set的方式，但是如果需要批量更新的话，只能for循环的执行更新。或者采用executeBatch的方式，执行更新。无论哪种方式，性能都不见得多好。三千多条的更新，需要3分多钟。查询了批量更新的优化，有说replace into的方式，即： replace into tableName(id,status) values
微软BI（3） 18289753290 微软BI SSIS
1) Q：该列违反了完整性约束错误；已获得 OLE DB 记录。源:“Microsoft SQL Server Native Client 11.0” Hresult: 0x80004005 说明:“不能将值 NULL 插入列 'FZCHID'，表 'JRB_EnterpriseCredit.dbo.QYFZCH'；列不允许有 Null 值。INSERT 失败。”。 A：一般这类问题的存在是
Java中的List g21121 java
List是一个有序的 collection（也称为序列）。此接口的用户可以对列表中每个元素的插入位置进行精确地控制。用户可以根据元素的整数索引（在列表中的位置）访问元素，并搜索列表中的元素。与 set 不同，列表通常允许重复
读书笔记永夜-极光读书笔记
1. K是一家加工厂,需要采购原材料,有A,B,C,D 4家供应商,其中A给出的价格最低,性价比最高,那么假如你是这家企业的采购经理,你会如何决策? 传统决策: A:100%订单 B,C,D:0% &nbs
centos 安装 Codeblocks 随便小屋 codeblocks
1.安装gcc,需要c和c++两部分,默认安装下,CentOS不安装编译器的,在终端输入以下命令即可yum install gccyum install gcc-c++ 2.安装gtk2-devel,因为默认已经安装了正式产品需要的支持库,但是没有安装开发所需要的文档.yum install gtk2* 3. 安装wxGTK yum search w
23种设计模式的形象比喻 aijuans 设计模式
1、ABSTRACT FACTORY—追MM少不了请吃饭了，麦当劳的鸡翅和肯德基的鸡翅都是MM爱吃的东西，虽然口味有所不同，但不管你带MM去麦当劳或肯德基，只管向服务员说“来四个鸡翅”就行了。麦当劳和肯德基就是生产鸡翅的Factory 　　工厂模式：客户类和工厂类分开。消费者任何时候需要某种产品，只需向工厂请求即可。消费者无须修改就可以接纳新产品。缺点是当产品修改时，工厂类也要做相应的修改。如：
开发管理 CheckLists aoyouzi 开发管理 CheckLists
开发管理 CheckLists(23) -使项目组度过完整的生命周期开发管理 CheckLists(22) -组织项目资源开发管理 CheckLists(21) -控制项目的范围开发管理 CheckLists(20) -项目利益相关者责任开发管理 CheckLists(19) -选择合适的团队成员开发管理 CheckLists(18) -敏捷开发 Scrum Master 工作开发管理 C
js实现切换百合不是茶 JavaScript 栏目切换
js主要功能之一就是实现页面的特效,窗体的切换可以减少页面的大小,被门户网站大量应用思路: 1,先将要显示的设置为display:bisible 否则设为none 2,设置栏目的id ,js获取栏目的id,如果id为Null就设置为显示 3,判断js获取的id名字;再设置是否显示代码实现: html代码: <di
周鸿祎在360新员工入职培训上的讲话 bijian1013 感悟项目管理人生职场
这篇文章也是最近偶尔看到的，考虑到原博客发布者可能将其删除等原因，也更方便个人查找，特将原文拷贝再发布的。“学东西是为自己的，不要整天以混的姿态来跟公司博弈，就算是混，我觉得你要是能在混的时间里，收获一些别的有利于人生发展的东西，也是不错的，看你怎么把握了”，看了之后，对这句话记忆犹新。 &
前端Web开发的页面效果 Bill_chen html Web Microsoft
1.IE6下png图片的透明显示： <img src="图片地址" border="0" style="Filter.Alpha(Opacity)=数值(100),style=数值(3)"/> 或在<head></head>间加一段JS代码让透明png图片正常显示。 2.<li>标
【JVM五】老年代垃圾回收：并发标记清理GC(CMS GC) bit1129 垃圾回收
CMS概述并发标记清理垃圾回收(Concurrent Mark and Sweep GC）算法的主要目标是在GC过程中，减少暂停用户线程的次数以及在不得不暂停用户线程的请夸功能，尽可能短的暂停用户线程的时间。这对于交互式应用，比如web应用来说，是非常重要的。 CMS垃圾回收针对新生代和老年代采用不同的策略。相比同吞吐量垃圾回收，它要复杂的多。吞吐量垃圾回收在执
Struts2技术总结白糖_ struts2
必备jar文件早在struts2.0.*的时候，struts2的必备jar包需要如下几个： commons-logging-*.jar Apache旗下commons项目的log日志包 freemarker-*.jar
Jquery easyui layout应用注意事项 bozch jquery 浏览器 easyui layout
在jquery easyui中提供了easyui-layout布局，他的布局比较局限，类似java中GUI的border布局。下面对其使用注意事项作简要介绍：如果在现有的工程中前台界面均应用了jquery easyui，那么在布局的时候最好应用jquery eaysui的layout布局，否则在表单页面（编辑、查看、添加等等）在不同的浏览器会出
java-拷贝特殊链表：有一个特殊的链表，其中每个节点不但有指向下一个节点的指针pNext，还有一个指向链表中任意节点的指针pRand，如何拷贝这个特殊链表？ bylijinnan java
public class CopySpecialLinkedList { /** * 题目：有一个特殊的链表，其中每个节点不但有指向下一个节点的指针pNext，还有一个指向链表中任意节点的指针pRand，如何拷贝这个特殊链表？拷贝pNext指针非常容易，所以题目的难点是如何拷贝pRand指针。假设原来链表为A1 -> A2 ->... -> An，新拷贝
color Chen.H JavaScript html css
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <HTML> <HEAD>&nbs
[信息与战争]移动通讯与网络 comsci 网络
两个坚持:手机的电池必须可以取下来光纤不能够入户,只能够到楼宇建议大家找这本书看看:<&
oracle flashback query(闪回查询) daizj oracle flashback query flashback table
在Oracle 10g中，Flash back家族分为以下成员： Flashback Database Flashback Drop Flashback Table Flashback Query(分Flashback Query,Flashback Version Query，Flashback Transaction Query) 下面介绍一下Flashback Drop 和Flas
zeus持久层DAO单元测试 deng520159 单元测试
zeus代码测试正紧张进行中,但由于工作比较忙,但速度比较慢.现在已经完成读写分离单元测试了,现在把几种情况单元测试的例子发出来,希望有人能进出意见,让它走下去. 本文是zeus的dao单元测试: 1.单元测试直接上代码 package com.dengliang.zeus.webdemo.test; import org.junit.Test; import o
C语言学习三printf函数和scanf函数学习 dcj3sjt126com c printf scanf language
printf函数 /* 2013年3月10日20:42:32 地点：北京潘家园功能：目的：测试%x %X %#x %#X的用法 */ # include <stdio.h> int main(void) { printf("哈哈！\n"); // \n表示换行 int i = 10; printf
那你为什么小时候不好好读书? dcj3sjt126com life
dady, 我今天捡到了十块钱, 不过我还给那个人了 good girl! 那个人有没有和你讲thank you啊没有啦....他拉我的耳朵我才把钱还给他的, 他哪里会和我讲thank you 爸爸, 如果地上有一张5块一张10块你拿哪一张呢.... 当然是拿十块的咯... 爸爸你很笨的, 你不会两张都拿爸爸为什么上个月那个人来跟你讨钱, 你告诉他没
iptables开放端口 Fanyucai linux iptables 端口
1，找到配置文件 vi /etc/sysconfig/iptables 2，添加端口开放，增加一行，开放18081端口 -A INPUT -m state --state NEW -m tcp -p tcp --dport 18081 -j ACCEPT 3，保存 ESC :wq! 4，重启服务 service iptables
Ehcache（05）——缓存的查询 234390216 排序 ehcache 统计 query
缓存的查询目录 1. 使Cache可查询 1.1 基于Xml配置 1.2 基于代码的配置 2 指定可搜索的属性 2.1 可查询属性类型 2.2 &
通过hashset找到数组中重复的元素 jackyrong hashset
如何在hashset中快速找到重复的元素呢?方法很多，下面是其中一个办法： int[] array = {1,1,2,3,4,5,6,7,8,8}; Set<Integer> set = new HashSet<Integer>(); for(int i = 0
使用ajax和window.history.pushState无刷新改变页面内容和地址栏URL lanrikey history
后退时关闭当前页面 <script type="text/javascript"> jQuery(document).ready(function ($) { if (window.history && window.history.pushState) {
应用程序的通信成本 netkiller.github.com 虚拟机应用服务器陈景峰 netkiller neo
应用程序的通信成本什么是通信一个程序中两个以上功能相互传递信号或数据叫做通信。什么是成本这是是指时间成本与空间成本。时间就是传递数据所花费的时间。空间是指传递过程耗费容量大小。都有哪些通信方式全局变量线程间通信共享内存共享文件管道 Socket 硬件（串口，USB）等等全局变量全局变量是成本最低通信方法，通过设置
一维数组与二维数组的声明与定义恋洁e生二维数组一维数组定义声明初始化
/** * */ package test20111005; /** * @author FlyingFire * @date:2011-11-18 上午04:33:36 * @author ：代码整理 * @introduce :一维数组与二维数组的初始化 *summary： */ public c
Spring Mybatis独立事务配置 toknowme mybatis
在项目中有很多地方会使用到独立事务，下面以获取主键为例（1）修改配置文件spring-mybatis.xml  <tx:annotation-driven transaction-manager="transactionManager" /> &n
更新Anadroid SDK Tooks之后，Eclipse提示No update were found xp9802 eclipse
使用Android SDK Manager 更新了Anadroid SDK Tooks 之后，打开eclipse提示 This Android SDK requires Android Developer Toolkit version 23.0.0 or above, 点击Check for Updates 检测一会后提示 No update were found