wbj0110

HBase业务实践

适合读者

2012年因为业务需求，我们的底层数据库从Mysql迁移到HBase上面，正好也亲身经历了HBase-Client从0.92到0.94变化。我们总结了一些业务上面使用HBase的办法，希望本文能够对业务上面刚刚使用HBase的人一些帮助，降低入门门槛。

准备工作

HBase Toturial，需要对HBase有一定的了解
Mysql 基础，需要对Mysql有一定的了解
Java 基础，需要对Java有一点的了解

为什么需要HBase

优势：

再见了，分库分表。再见了，TDDL
更高性能的读和写。

不足：

没有SQL
没有iBtatis、Hibernate这些ORM工具，HBase的ORM目前还不成熟
HBase的RowKey的设计要求比较高
需要自己构建索引表

HBase的使用

构建单例的HBaseFactory

构建单例的HBaseFactory，我们只需要关心三个事情

hbase.zookeeper.quorum
zookeeper.znode.parent
HTablePool的maxSize

我们使用的是HTablePool构建一个HBaseFactory对象

*为什么使用HTablePool

HTablePool您可以看成JDBC的连接池，适合多线程使用环境，如果需要把连接“还”给连接池的话，只需要调用HTableInterface#close() 就可以了

HBaseFactory的Interface

    
         1
        
         2
        
         3
        
         4
        
         5
        
         6
        
         7
        
         8
        
         9
        
         10
        
         11
        
         12
        
         13
        
         14
        
         15
        
         16
        
         public interface HBaseFactory {
        
             /**
        
              * 通过 tableName 来获取这个 Table
        
              */
        
             HTableInterface getHTable(String tableName);
        
             /**
        
              * 关闭某个table
        
              */
        
             void closeHTable(HTableInterface hTableInterface);
        
             /** only for unit test*/
        
             boolean deleteTable(String tableName);
        
             /** only for unit test*/
        
             HTableDescriptor createTable(String tableName, int maxVersion);
        
         }

HBaseFactory的Implemention

    
         1
        
         2
        
         3
        
         4
        
         5
        
         6
        
         7
        
         8
        
         9
        
         10
        
         11
        
         12
        
         13
        
         14
        
         15
        
         16
        
         17
        
         18
        
         19
        
         20
        
         21
        
         22
        
         23
        
         24
        
         25
        
         26
        
         27
        
         28
        
         29
        
         30
        
         31
        
         32
        
         33
        
         34
        
         35
        
         36
        
         37
        
         38
        
         39
        
         40
        
         41
        
         42
        
         43
        
         44
        
         45
        
         46
        
         47
        
         48
        
         49
        
         50
        
         51
        
         52
        
         53
        
         54
        
         55
        
         56
        
         57
        
         58
        
         59
        
         60
        
         61
        
         62
        
         63
        
         64
        
         65
        
         66
        
         67
        
         68
        
         69
        
         70
        
         71
        
         72
        
         73
        
         74
        
         75
        
         76
        
         77
        
         78
        
         79
        
         80
        
         81
        
         82
        
         83
        
         84
        
         85
        
         86
        
         87
        
         88
        
         89
        
         90
        
         91
        
         92
        
         93
        
         94
        
         95
        
         96
        
         97
        
         98
        
         99
        
         100
        
         101
        
         102
        
         103
        
         104
        
         105
        
         106
        
         107
        
         108
        
         109
        
         110
        
         111
        
         112
        
         113
        
         114
        
         115
        
         116
        
         117
        
         118
        
         119
        
         120
        
         121
        
         122
        
         123
        
         124
        
         125
        
         126
        
         127
        
         public class HBaseFactoryImpl implements HBaseFactory {
        
             static Logger logger = LoggerFactory.getLogger(HBaseFactoryImpl.class);
        
             private HTablePool hTablePool = null;
        
             private HBaseAdmin hBaseAdmin = null;
        
             @Inject
        
             public HBaseFactoryImpl(String quorum, String parent, int maxSize) {
        
                 checkArgument(isNotBlank(quorum));
        
                 checkArgument(isNotBlank(parent));
        
                 Configuration conf = HBaseConfiguration.create();
        
                 conf.set("hbase.zookeeper.quorum", quorum);
        
                 conf.set("zookeeper.znode.parent", parent);
        
                 conf.set("hbase.client.retries.number", "5");
        
                 conf.set("hbase.client.pause", "200");
        
                 conf.set("ipc.ping.interval", "3000");
        
                 conf.setBoolean("hbase.ipc.client.tcpnodelay", true);
        
                 hTablePool = new HTablePool(conf, maxSize);
        
                 try {
        
                     hBaseAdmin = new HBaseAdmin(conf);
        
                 } catch (Exception e) {
        
                     logger.error(e.getMessage(), e);
        
                     throw new IllegalStateException(e);
        
                 }
        
             }
        
             @Override
        
             public HBaseAdmin getHBaseAdmin() {
        
                 return checkNotNull(hBaseAdmin);
        
             }
        
             @Override
        
             public HTableInterface getHTable(String tableName) {
        
                 checkArgument(isNotBlank(tableName));
        
                 return checkNotNull(hTablePool.getTable(tableName));
        
             }
        
             @Override
        
             public void closeHTable(HTableInterface hTableInterface) {
        
                 Closeables.closeQuietly(hTableInterface);
        
             }
        
             @Override
        
             public boolean deleteTable(String tableName) {
        
                 checkArgument(isNotBlank(tableName));
        
                 try {
        
                     hBaseAdmin.disableTable(tableName);
        
                     hBaseAdmin.deleteTable(tableName);
        
                 } catch (IOException e) {
        
                     logger.error(e.getMessage(), e);
        
                     return false;
        
                 }
        
                 return true;
        
             }
        
             @Override
        
             public HTableDescriptor createTable(String tableName, int maxVersion) {
        
                 return createTable(tableName, "cf", 0, maxVersion, null, null,
        
                         null, 0);
        
             }
        
             protected HTableDescriptor createTable(
        
                     String tableName, String columnFamily, int lifetime,
        
                     int maxVersion, StoreFile.BloomType bloomType, String startKey,
        
                     String endKey, int numRegions) {
        
                 try {
        
                     checkArgument(!checkNotNull(hBaseAdmin).tableExists(tableName),
        
                             "the table [%s] should not exist.", tableName);
        
                 } catch (IOException e) {
        
                     logger.error(e.getMessage(), e);
        
                     throw new IllegalStateException(e);
        
                 }
        
                 HColumnDescriptor cf = getCF(columnFamily, lifetime, maxVersion,
        
                         bloomType);
        
                 HTableDescriptor table = new HTableDescriptor(tableName);
        
                 table.addFamily(cf);
        
                 try {
        
                     if (StringUtils.isNotBlank(startKey)
        
                             && StringUtils.isNotBlank(endKey) && numRegions > 0)
        
                         hBaseAdmin.createTable(table, Bytes.toBytes(startKey),
        
                                 Bytes.toBytes(endKey), numRegions);
        
                     else
        
                         hBaseAdmin.createTable(table);
        
                 } catch (IOException e) {
        
                     logger.error(e.getMessage(), e);
        
                     throw new IllegalStateException(e);
        
                 }
        
                 return describeTable(tableName);
        
             }
        
             private HColumnDescriptor getCF(String columnFamily, int lifetime,
        
                                             int maxVersion, StoreFile.BloomType bloomType) {
        
                 HColumnDescriptor cf = new HColumnDescriptor(columnFamily);
        
                 cf.setCompactionCompressionType(Compression.Algorithm.LZO);
        
                 cf.setCompressionType(Compression.Algorithm.LZO);
        
                 if (maxVersion > 0)
        
                     cf.setMaxVersions(maxVersion > 1000000 ? 1000000 : maxVersion);
        
                 if (lifetime > 0)
        
                     cf.setTimeToLive(lifetime);
        
                 if (null != bloomType)
        
                     cf.setBloomFilterType(bloomType);
        
                 else
        
                     cf.setBloomFilterType(StoreFile.BloomType.ROW);
        
                 return cf;
        
             }
        
             public HTableDescriptor describeTable(String tableName) {
        
                 try {
        
                     return checkNotNull(hBaseAdmin).getTableDescriptor(Bytes.toBytes(tableName));
        
                 } catch (Exception e) {
        
                     logger.error(e.getMessage(), e);
        
                     throw new IllegalStateException(e);
        
                 }
        
             }
        
             @PreDestroy
        
             public void destroy() throws Exception {
        
                 Closeables.closeQuietly(hTablePool);
        
                 Closeables.closeQuietly(hBaseAdmin);
        
             }
        
         }

Usage

    
         1
        
         2
        
         3
        
         4
        
         5
        
         6
        
         7
        
         HTableInterface hTableInterface = null;
        
         try {
        
             hTableInterface = hBaseFactory.getHTable("YOUR_TABLE_NAME");
        
             // code here …
        
         } finally {
        
             hBaseFactory.closeHTable(hTableInterface);
        
         }

Scan

StartRow&Cache如果不设置StartRow，那就会从头开始搜索，这样做的话速度就会很慢
Cache能够保证一次搜索拿到内存的数据，否则您iterator一次就得走一次网络
关于FilterPrefixFilter是最常用的filter，有个非常需要注意的点
如果Rowkey是”123_1_00000“这样的，如果prefix是123_1，切记切记要记得写成123_1_

其次要注意filter不要太多，最好不要超过2个
关于分页在Mysql里面，常常需要用到分页，那么在HBase里面你该如何实现，使用PageFilter配合startRow，但是在Mysql里面常常会有一个总数的概念，切记切记HBase里面不要做类似Count的操作
关于分布式流式处理比方说，现在有10台机器，需要同时处理1000万的数据，那么这个时候，我们就可以用到checkAndPut。就像Mysql里面的一个乐观锁一样。

具体的做法是：

我们通过PageFilter，SingleColumnValueFilter配合startRow获取一部分数据
然后用checkAndPut标记该数据正在处理
最后再用put标记该数据已经处理

HBase实战经验

向下兼容

开发过程中，难免需要加字段的，那这个时候，就需要代码、数据能够向下兼容。

比方说我们现在需要新增一个column，因为是新加的一列，原来的数据这列就是null，那么这时候从HBase里面读到的值就是null，所以写HBase代码一定要注意：

从HBase里面的数据一定要check null，如果是null，我就用一个默认值
代表元数据的DO类的默认值，最好不要是null，null永远不要存在在代码中
再一次强调，非常建议数据用String的方式存储，因为可视化的数据能够帮您解决很多问题

    
         1
        
         2
        
         // firstNonNull 是 google guava Objects#firstNonNull 的方法，如果方法第一个参数是null，就返回第二个参数
        
         Integer.parseInt(new String(firstNonNull(result.getValue(DEFAULT_COLUMN_FAMILIES, COLUMN), new byte[]{'0'})));

RowKey的设计

建议使用String如果不是特殊要求，RowKey最好都是String。
- 方便线上使用Shell查数据、排查错误
- 更容易让数据均匀分布
- 不必考虑存储成本
RowKey的长度尽量短如果RowKey太长话，第一是，存储开销会增加，影响存储效率；第二是，内存中Rowkey字段过长，内存的利用率会降低，这会降低索引命中率。
一般的做法是：
- 时间使用Long来表示
- 尽量使用编码压缩
RowKey尽量散列RowKey的设计，最重要的是要保证散列，这样就会保证所有的数据都不都是在一个region上，避免做读写的时候负载将会集中在个别region上面。
假设我们需要存储一个用户的所有微博（暂时不需要考虑时间倒排），这时候的RowKey的设计是UserId_WeiboId ，但是这样设计的话，UserId 的分布就很可能不均匀，因为RowKey是字符串排序的。

有两种办法来解决这个问题
- ReversesUserId字符串反转后存储
- Hash或者ModUserIdMD5 后作取前6位为前缀加入到 UserId 前面
RowKey排序假设我们有个很多微博用户发微博，但是这个时候，我们要开辟一个“广场”，所有的微博都是按照时间倒排序展示在这个“广场”里。这个时候我们就得为原来的UserId_WeiboId建立一张索引表，并且这个表的Rowkey要和时间相关
- Rowkey的设计可以使用当前时间 - 微博发表时间的 long 值作为 RowKey 的前缀
- RowKey散列
- 如果数据可以定期清理如果数据不是需要一直保存的话，就算所有数据落在一个region，因为按时间搜索会指定startRow，存储时候Rowkey也是连续的，所以速度也非常块，当然数据容量最好和DBA商量一下
- 如果数据都需要保存把DayOfMonth作为前缀
  那么RowKey会是 DayOfMonth_(当前时间 - 微博发表时间)
  
  不过这样在代码实现上面的时候会有一些麻烦。
关于事务目前HBase的Put，Delete操作都是事务的，但是如果您希望能够对好几个Table发起一连串操作并且希望是事务的话，目前还没有好的办法。所以HBase使用的时候，要有解决数据出错的觉悟
http://rdc.taobao.org/?p=457

nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
浅谈MapReduce Android路上的人 Hadoop 分布式计算 mapreduce 分布式框架 hadoop
从今天开始，本人将会开始对另一项技术的学习，就是当下炙手可热的Hadoop分布式就算技术。目前国内外的诸多公司因为业务发展的需要，都纷纷用了此平台。国内的比如BAT啦，国外的在这方面走的更加的前面，就不一一列举了。但是Hadoop作为Apache的一个开源项目，在下面有非常多的子项目，比如HDFS，HBase,Hive，Pig,等等，要先彻底学习整个Hadoop，仅仅凭借一个的力量，是远远不够的。
hbase介绍 CrazyL- 云计算+大数据 hbase
hbase是一个分布式的、多版本的、面向列的开源数据库hbase利用hadoophdfs作为其文件存储系统，提供高可靠性、高性能、列存储、可伸缩、实时读写、适用于非结构化数据存储的数据库系统hbase利用hadoopmapreduce来处理hbase、中的海量数据hbase利用zookeeper作为分布式系统服务特点：数据量大：一个表可以有上亿行，上百万列（列多时，插入变慢）面向列：面向列（族）的
Apache HBase基础（基本概述，物理架构，逻辑架构，数据管理，架构特点，HBase Shell） May--J--Oldhu HBase HBase shell hbase物理架构 hbase逻辑架构 hbase
NoSQL综述及ApacheHBase基础一.HBase1.HBase概述2.HBase发展历史3.HBase应用场景3.1增量数据-时间序列数据3.2信息交换-消息传递3.3内容服务-Web后端应用程序3.4HBase应用场景示例4.ApacheHBase生态圈5.HBase物理架构5.1HMaster5.2RegionServer5.3Region和Table6.HBase逻辑架构-Row7.
HBase（一）——HBase介绍 weixin_30595035 大数据数据库数据结构与算法
HBase介绍1、关系型数据库与非关系型数据库（1）关系型数据库关系型数据库最典型的数据机构是表，由二维表及其之间的联系所组成的一个数据组织优点：1、易于维护：都是使用表结构，格式一致2、使用方便：SQL语言通用，可用于复杂查询3、复杂操作：支持SQL，可用于一个表以及多个表之间非常复杂的查询缺点：1、读写性能比较差，尤其是海量数据的高效率读写2、固定的表结构，灵活度稍欠3、高并发读写需求，传统关
HBase介绍 mingyu1016 数据库
概述HBase是一个分布式的、面向列的开源数据库,源于google的一篇论文《bigtable：一个结构化数据的分布式存储系统》。HBase是GoogleBigtable的开源实现，它利用HadoopHDFS作为其文件存储系统，利用HadoopMapReduce来处理HBase中的海量数据，利用Zookeeper作为协同服务。HBase的表结构HBase以表的形式存储数据。表有行和列组成。列划分为
Hbase - 迁移数据[导出,导入] kikiki5
>有没有这样一样情况，把一个集群中的某个表导到另一个群集中，或者hbase的表结构发生了更改，但是数据还要，比如预分区没做，导致某台RegionServer很吃紧，Hbase的导出导出都可以很快的完成这些操作。![](https://upload-images.jianshu.io/upload_images/9028759-4fb9aa8ca3777969.png?imageMogr2/auto
通过DBeaver连接Phoenix操作hbase 不想做咸鱼的王富贵
通过DBeaver连接Phoenix操作hbase前言本文介绍常用一种通用数据库工具Dbeaver，DBeaver可通过JDBC连接到数据库，可以支持几乎所有的数据库产品，包括：MySQL、PostgreSQL、MariaDB、SQLite、Oracle、Db2、SQLServer、Sybase、MSAccess、Teradata、Firebird、Derby等等。商业版本更是可以支持各种NoSQ
Hbase - kerberos认证异常 kikiki2
之前怎么认证都认证不上，问题找了好了，发现它的异常跟实际操作根本就对不上，死马当活马医，当时也是瞎改才好的，给大家伙记录记录。KrbException:ServernotfoundinKerberosdatabase(7)-LOOKING_UP_SERVER>>>KdcAccessibility:removestorm1.starsriver.cnatsun.security.krb5.KrbTg
kvm 虚拟机命令行虚拟机操作、制作快照和恢复快照以及工作常用总结西京刀客云原生(Cloud Native)云计算虚拟化 Linux C/C++服务器 linux kvm
文章目录kvm虚拟机命令行虚拟机操作、制作快照和恢复快照一、kvm虚拟机命令行虚拟机操作(创建和删除)查看虚拟机virt-install创建一个虚拟机关闭虚拟机重启虚拟机销毁虚拟机二、kvm制作快照和恢复快照**创建快照**工作常见问题创建快照报错：：internalsnapshotsofaVMwithpflashbasedfirmwarearenotsupported检查虚拟机是否包含pflas
hadoop 0.22.0 部署笔记 weixin_33701564 大数据 java 运维
为什么80%的码农都做不了架构师？>>>因为需要使用hbase，所以开始对hbase进行学习。hbase是部署在hadoop平台上的NOSql数据库，因此在部署hbase之前需要先部署hadoop。环境：redhat5、hadoop-0.22.0.tar.gz、jdk-6u13-linux-i586.zipip192.168.1.128hostname：localhost.localdomain（
实时数仓之实时数仓架构(Hudi)(1)，2024年最新熬夜整理华为最新大数据开发笔试题 2401_84181221 程序员架构大数据
+Hudi：湖仓一体数据管理框架，用来管理模型数据，包括ODS/DWD/DWS/DIM/ADS等；+Doris：OLAP引擎，同步数仓结果模型，对外提供数据服务支持；+Hbase：用来存储维表信息，维表数据来源一部分有Flink加工实时写入，另一部分是从Spark任务生产，其主要作用用来支持FlinkETL处理过程中的LookupJoin功能。这里选用Hbase原因主要因为Table的HbaseC
HBase 源码阅读（一） Such Devotion hbase 数据库大数据
1.HMastermain方法在上文中MacosM1IDEA本地调试HBase2.2.2，我们使用HMaster的主函数使用"start"作为入参，启动了HMaster进程这里我们再深入了解下HMaster的运行机理publicstaticvoidmain(String[]args){LOG.info("STARTINGservice"+HMaster.class.getSimpleName())
HBase 源码阅读（四）HBase 关于LSM Tree的实现- MemStore Such Devotion hbase lsm-tree 数据库
4.MemStore接口Memstore的函数不能并行的被调用。调用者需要持有读写锁，这个的实现在HStore中我们放弃对MemStore中的诸多函数进行查看直接看MemStore的实现类AbstractMemStoreCompactingMemStoreDefaultMemStore4.1三个实现类的使用场景1.AbstractMemStore角色:基础抽象类作用:AbstractMemStor
大数据（Hbase简单示例） BL小二 hbase 大数据 hadoop
importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.hbase.HBaseConfiguration;importorg.apache.hadoop.hbase.TableName;importorg.apache.hadoop.hbase.client.*;importorg.apache.hadoop.hbase
Hbase的简单使用示例傲雪凌霜，松柏长青后端大数据 hbase 数据库大数据
HBase是基于HadoopHDFS构建的分布式、列式存储的NoSQL数据库，适用于存储和检索超大规模的非结构化数据。它支持随机读写，并且能够处理PB级数据。HBase通常用于实时数据存取场景，与Hadoop生态紧密集成。使用HBase的Java示例前置条件HBase集群：确保HBase集群已经安装并启动。如果没有，你可以通过本地伪分布模式或Docker来运行HBase。Hadoop配置：HBas
快手HBase在千亿级用户特征数据分析中的应用与实践王知无
声明：本文的原文是来自Hbase技术社区的一个PPT分享，个人做了整理和提炼。大家注意哈，这种会议PPT类的东西能学习到的更多的是技术方案和他人在实践过程中的经验。希望对大家有帮助。背景快手每天产生数百亿用户特征数据，分析师需要在跨30-90天的数千亿特征数据中，任意选择多维度组合(如:城市=北京&性别=男)，秒级分析用户行为。针对这一需求,快手基于HBase自主研发了支持bitmap转化、存储、
ClickHouse与其他数据库的对比九州Pro ClickHouse 数据库 clickhouse 数据仓库大数据 sql
目录1与传统关系型数据库的对比1.1性能差异1.2数据模型差异1.3适用场景差异2与其他列式存储数据库的对比2.1ApacheCassandra2.2HBase3与分布式数据库的对比3.1GoogleBigQuery3.2AmazonRedshift3.3Snowflake4ClickHouse的缺点5ClickHouse的其他优点1与传统关系型数据库的对比1.1性能差异ClickHouse是一种
Hbase、hive以及ClickHouse的介绍和区别？ damokelisijian866 hbase hive clickhouse
一、Hbase介绍：HBase是一个分布式的、面向列的开源数据库，由ApacheSoftwareFoundation开发，是Hadoop生态系统中的一个重要组件。HBase的设计灵感来源于Google的Bigtable论文，它通过提供类似于Bigtable的能力，在Hadoop之上构建了一个高可靠性、高性能、面向列、可伸缩的分布式存储系统。HBase主要用于存储大量结构化数据，并支持随机读写访问，
Hive和Hbase的区别傲雪凌霜，松柏长青大数据后端 hive hbase hadoop
Hive和HBase都是Hadoop生态系统中的重要组件，它们都能处理大规模数据，但各自有不同的适用场景和设计理念。以下是两者的主要区别：1.数据模型Hive：Hive类似于传统的关系型数据库(RDBMS)，以表格形式存储数据。它使用SQL-like语言HiveQL来查询和处理数据，数据通常是结构化或半结构化的。HBase：HBase是一个NoSQL数据库，基于Google的BigTable模型。
HBase 傲雪凌霜，松柏长青大数据后端 hbase 数据库大数据
ApacheHBase是一个基于Hadoop分布式文件系统（HDFS）构建的分布式、面向列的NoSQL数据库，主要用于处理大规模、稀疏的表结构数据。HBase的设计灵感来自Google的Bigtable，能够在海量数据中提供快速的随机读写操作，适合需要低延迟和高吞吐量的应用场景。HBase核心概念表（Table）：HBase的数据存储在表中，与传统的关系型数据库不同，HBase的表是面向列族（Co
大数据面试题：说下为什么要使用Hive？Hive的优缺点？Hive的作用是什么？蓦然_ 大数据面试题 hive 大数据开发面试题大数据面试
1、为什么要使用Hive？Hive是Hadoop生态系统中比不可少的一个工具，它提供了一种SQL(结构化查询语言)方言，可以查询存储在Hadoop分布式文件系统（HDFS）中的数据或其他和Hadoop集成的文件系统，如MapR-FS、Amazon的S3和像HBase（Hadoop数据仓库）和Cassandra这样的数据库中的数据。大多数数据仓库应用程序都是使用关系数据库进行实现的，并使用SQL作为
Hadoop组件静听山水 Hadoop hadoop
这张图片展示了Hadoop生态系统的一些主要组件。Hadoop是一个开源的大数据处理框架，由Apache基金会维护。以下是每个组件的简短介绍：HBase：一个分布式、面向列的NoSQL数据库，基于GoogleBigTable的设计理念构建。HBase提供了实时读写访问大量结构化和半结构化数据的能力，非常适合大规模数据存储。Pig：一种高级数据流语言和执行引擎，用于编写MapReduce任务。Pig
Hbase BulkLoad用法 kikiki2
要导入大量数据，Hbase的BulkLoad是必不可少的，在导入历史数据的时候，我们一般会选择使用BulkLoad方式，我们还可以借助Spark的计算能力将数据快速地导入。使用方法导入依赖包compilegroup:'org.apache.spark',name:'spark-sql_2.11',version:'2.3.1.3.0.0.0-1634'compilegroup:'org.apach
EMR组件部署指南 ivwdcwso 运维 EMR 大数据开源运维
EMR(ElasticMapReduce)是一个大数据处理和分析平台,包含了多个开源组件。本文将详细介绍如何部署EMR的主要组件,包括:JDK1.8ElasticsearchKafkaFlinkZookeeperHBaseHadoopPhoenixScalaSparkHive准备工作所有操作都在/data目录下进行。首先安装JDK1.8:yuminstalljava-1.8.0-openjdk部署
Sublime text3+python3配置及插件安装 raysonfang
作者：方雷个人博客：http://blog.chargingbunk.cn/微信公众号：rayson_666(Rayson开发分享)个人专研技术方向：微服务方向：springboot,springCloud,Dubbo分布式/高并发：分布式锁，消息队列RabbitMQ大数据处理：Hadoop,spark,HBase等python方向：pythonweb开发一，前言在网上搜索了一些Python开发的
Spring Data：JPA与Querydsl 光图强 java
JPAJPA是java的一个规范，用于在java对象和数据库之间保存数据，充当面向对象领域模型和数据库之间的桥梁。它使用Hibernate、TopLink、IBatis等ORM框架实现持久性规范。SpringDataSpringData是Spring的一个子项目，用于简化数据库访问，支持NoSql数据和关系数据库。支持的NoSql数据库包括：Mongodb、redis、Hbase、Neo4j。Sp
HBase 源码阅读（二） Such Devotion hbase 数据库大数据
衔接在上一篇文章中，HMasterCommandLine类中在startMaster();方法中//这里除了启动HMaster之外，还启动一个HRegionServerLocalHBaseClustercluster=newLocalHBaseCluster(conf,mastersCount,regionServersCount,LocalHMaster.class,HRegionServer.
大数据技术之HBase 与 Hive 集成(7) 大数据深度洞察 Hbase 大数据 hbase hive
目录使用场景HBase与Hive集成使用1）案例一2）案例二使用场景如果大量的数据已经存放在HBase上面，并且需要对已经存在的数据进行数据分析处理，那么Phoenix并不适合做特别复杂的SQL处理。此时，可以使用Hive映射HBase的表格，之后通过编写HQL进行分析处理。HBase与Hive集成使用Hive安装https://blog.csdn.net/qq_45115959/article/
【HBase之轨迹】（1）使用 Docker 搭建 HBase 集群寒冰小澈IceClean 【大数据之轨迹】【Docker之轨迹】笔记 hbase docker hadoop
——目录——0.前置准备1.下载安装2.配置（重）3.启动与关闭4.搭建高可用HBase前言（贫穷使我见多识广）前边经历了Hadoop，Zookeeper，Kafka，他们的集群，全都是使用Docker搭建的一开始的我认为，把容器看成是一台台独立的服务器就好啦也确实是这样，但端口映射问题，让我一路以来磕碰了太多太多，直到现在的HBase，更是将Docker集群所附带的挑战性，放大到了极致（目前是如
[黑洞与暗粒子]没有光的世界 comsci
无论是相对论还是其它现代物理学,都显然有个缺陷,那就是必须有光才能够计算但是,我相信,在我们的世界和宇宙平面中,肯定存在没有光的世界.... 那么,在没有光的世界,光子和其它粒子的规律无法被应用和考察,那么以光速为核心的 &nbs
jQuery Lazy Load 图片延迟加载 aijuans jquery
基于 jQuery 的图片延迟加载插件，在用户滚动页面到图片之后才进行加载。对于有较多的图片的网页，使用图片延迟加载，能有效的提高页面加载速度。版本： jQuery v1.4.4+ jQuery Lazy Load v1.7.2 注意事项：需要真正实现图片延迟加载，必须将真实图片地址写在 data-original 属性中。若 src
使用Jodd的优点 Kai_Ge jodd
1. 简化和统一 controller ，抛弃 extends SimpleFormController ，统一使用 implements Controller 的方式。 2. 简化 JSP 页面的 bind, 不需要一个字段一个字段的绑定。 3. 对 bean 没有任何要求，可以使用任意的 bean 做为 formBean。使用方法简介
jpa Query转hibernate Query 120153216 Hibernate
public List<Map> getMapList(String hql, Map map) { org.hibernate.Query jpaQuery = entityManager.createQuery(hql); if (null != map) { for (String parameter : map.keySet()) { jp
Django_Python3添加MySQL/MariaDB支持 2002wmj mariaDB
现状首先，[email protected] 中默认的引擎为 django.db.backends.mysql 。但是在Python3中如果这样写的话，会发现 django.db.backends.mysql 依赖 MySQLdb[5] ，而 MySQLdb 又不兼容 Python3 于是要找一种新的方式来继续使用MySQL。 MySQL官方的方案首先据MySQL文档[3]说，自从MySQL
在SQLSERVER中查找消耗IO最多的SQL 357029540 SQL Server
返回做IO数目最多的50条语句以及它们的执行计划。 select top 50 (total_logical_reads/execution_count) as avg_logical_reads, (total_logical_writes/execution_count) as avg_logical_writes, (tot
spring UnChecked 异常官方定义！ 7454103 spring
如果你接触过spring的事物管理！那么你必须明白 spring的非捕获异常！即 unchecked 异常！因为 spring 默认这类异常事物自动回滚！！ public static boolean isCheckedException(Throwable ex) { return !(ex instanceof RuntimeExcep
mongoDB 入门指南、示例 adminjun java mongodb 操作
一、准备工作 1、下载mongoDB 下载地址：http://www.mongodb.org/downloads 选择合适你的版本相关文档：http://www.mongodb.org/display/DOCS/Tutorial 2、安装mongoDB A、不解压模式：将下载下来的mongoDB-xxx.zip打开，找到bin目录，运行mongod.exe就可以启动服务，默
CUDA 5 Release Candidate Now Available aijuans CUDA
The CUDA 5 Release Candidate is now available at http://developer.nvidia.com/<wbr></wbr>cuda/cuda-pre-production. Now applicable to a broader set of algorithms, CUDA 5 has advanced fe
Essential Studio for WinRT网格控件测评 Axiba JavaScript html5
Essential Studio for WinRT界面控件包含了商业平板应用程序开发中所需的所有控件，如市场上运行速度最快的grid 和chart、地图、RDL报表查看器、丰富的文本查看器及图表等等。同时，该控件还包含了一组独特的库，用于从WinRT应用程序中生成Excel、Word以及PDF格式的文件。此文将对其另外一个强大的控件——网格控件进行专门的测评详述。网格控件功能 1、
java 获取windows系统安装的证书或证书链 bewithme windows
有时需要获取windows系统安装的证书或证书链，比如说你要通过证书来创建java的密钥库。有关证书链的解释可以查看此处。 public static void main(String[] args) { SunMSCAPI providerMSCAPI = new SunMSCAPI(); S
NoSQL数据库之Redis数据库管理(set类型和zset类型) bijian1013 redis 数据库 NoSQL
4.sets类型 Set是集合，它是string类型的无序集合。set是通过hash table实现的，添加、删除和查找的复杂度都是O(1)。对集合我们可以取并集、交集、差集。通过这些操作我们可以实现sns中的好友推荐和blog的tag功能。 sadd：向名称为key的set中添加元
异常捕获何时用Exception，何时用Throwable bingyingao
用Exception的情况 try { //可能发生空指针、数组溢出等异常 } catch (Exception e) {
【Kafka四】Kakfa伪分布式安装 bit1129 kafka
在http://bit1129.iteye.com/blog/2174791一文中，实现了单Kafka服务器的安装，在Kafka中，每个Kafka服务器称为一个broker。本文简单介绍下，在单机环境下Kafka的伪分布式安装和测试验证 1. 安装步骤 Kafka伪分布式安装的思路跟Zookeeper的伪分布式安装思路完全一样，不过比Zookeeper稍微简单些(不
Project Euler bookjovi haskell
Project Euler是个数学问题求解网站，网站设计的很有意思，有很多problem，在未提交正确答案前不能查看problem的overview，也不能查看关于problem的discussion thread，只能看到现在problem已经被多少人解决了，人数越多往往代表问题越容易。看看problem 1吧： Add all the natural num
Java-Collections Framework学习与总结-ArrayDeque BrokenDreams Collections
表、栈和队列是三种基本的数据结构，前面总结的ArrayList和LinkedList可以作为任意一种数据结构来使用，当然由于实现方式的不同，操作的效率也会不同。这篇要看一下java.util.ArrayDeque。从命名上看
读《研磨设计模式》-代码笔记-装饰模式-Decorator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.io.BufferedOutputStream; import java.io.DataOutputStream; import java.io.FileOutputStream; import java.io.Fi
Maven学习(一) chenyu19891124 Maven私服
学习一门技术和工具总得花费一段时间，5月底6月初自己学习了一些工具，maven+Hudson+nexus的搭建，对于maven以前只是听说，顺便再自己的电脑上搭建了一个maven环境，但是完全不了解maven这一强大的构建工具，还有ant也是一个构建工具，但ant就没有maven那么的简单方便，其实简单点说maven是一个运用命令行就能完成构建，测试，打包，发布一系列功
[原创]JWFD工作流引擎设计----节点匹配搜索算法(用于初步解决条件异步汇聚问题) 补充 comsci 算法工作 PHP 搜索引擎嵌入式
本文主要介绍在JWFD工作流引擎设计中遇到的一个实际问题的解决方案，请参考我的博文"带条件选择的并行汇聚路由问题"中图例A2描述的情况(http://comsci.iteye.com/blog/339756),我现在把我对图例A2的一个解决方案公布出来，请大家多指点节点匹配搜索算法(用于解决标准对称流程图条件汇聚点运行控制参数的算法) 需要解决的问题：已知分支
Linux中用shell获取昨天、明天或多天前的日期 daizj linux shell 上几年昨天获取上几个月
在Linux中可以通过date命令获取昨天、明天、上个月、下个月、上一年和下一年 # 获取昨天 date -d 'yesterday' # 或 date -d 'last day' # 获取明天 date -d 'tomorrow' # 或 date -d 'next day' # 获取上个月 date -d 'last month' #
我所理解的云计算 dongwei_6688 云计算
在刚开始接触到一个概念时，人们往往都会去探寻这个概念的含义，以达到对其有一个感性的认知，在Wikipedia上关于“云计算”是这么定义的，它说： Cloud computing is a phrase used to describe a variety of computing co
YII CMenu配置 dcj3sjt126com yii
Adding id and class names to CMenu We use the id and htmlOptions to accomplish this. Watch. //in your view $this->widget('zii.widgets.CMenu', array( 'id'=>'myMenu', 'items'=>$this-&g
设计模式之静态代理与动态代理 come_for_dream 设计模式
静态代理与动态代理代理模式是java开发中用到的相对比较多的设计模式，其中的思想就是主业务和相关业务分离。所谓的代理设计就是指由一个代理主题来操作真实主题，真实主题执行具体的业务操作，而代理主题负责其他相关业务的处理。比如我们在进行删除操作的时候需要检验一下用户是否登陆，我们可以删除看成主业务，而把检验用户是否登陆看成其相关业务
【转】理解Javascript 系列 gcc2ge JavaScript
理解Javascript_13_执行模型详解摘要: 在《理解Javascript_12_执行模型浅析》一文中,我们初步的了解了执行上下文与作用域的概念，那么这一篇将深入分析执行上下文的构建过程，了解执行上下文、函数对象、作用域三者之间的关系。函数执行环境简单的代码:当调用say方法时，第一步是创建其执行环境，在创建执行环境的过程中，会按照定义的先后顺序完成一系列操作:1.首先会创建一个
Subsets II hcx2013 set
Given a collection of integers that might contain duplicates, nums, return all possible subsets. Note: Elements in a subset must be in non-descending order. The solution set must not conta
Spring4.1新特性——Spring缓存框架增强 jinnianshilongnian spring4
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
shell嵌套expect执行命令 liyonghui160com
一直都想把expect的操作写到bash脚本里,这样就不用我再写两个脚本来执行了,搞了一下午终于有点小成就,给大家看看吧. 系统:centos 5.x 1.先安装expect yum -y install expect 2.脚本内容: cat auto_svn.sh #!/bin/bash
Linux实用命令整理 pda158 linux
0. 基本命令　　linux 基本命令整理　　1. 压缩解压　　tar -zcvf a.tar.gz a #把a压缩成a.tar.gz 　　tar -zxvf a.tar.gz #把a.tar.gz解压成a 　　2. vim小结　　2.1 vim替换　　:m,ns/word_1/word_2/gc
独立开发人员通向成功的29个小贴士 shoothao 独立开发
概述：本文收集了关于独立开发人员通向成功需要注意的一些东西,对于具体的每个贴士的注解有兴趣的朋友可以查看下面标注的原文地址。明白你从事独立开发的原因和目的。保持坚持制定计划的好习惯。万事开头难，第一份订单是关键。培养多元化业务技能。提供卓越的服务和品质。谨小慎微。营销是必备技能。学会组织，有条理的工作才是最有效率的。 “独立
JAVA中堆栈和内存分配原理 uule java
1、栈、堆 1.寄存器：最快的存储区, 由编译器根据需求进行分配,我们在程序中无法控制.2. 栈：存放基本类型的变量数据和对象的引用，但对象本身不存放在栈中，而是存放在堆（new 出来的对象）或者常量池中（字符串常量对象存放在常量池中。）3. 堆：存放所有new出来的对象。4. 静态域：存放静态成员（static定义的）5. 常量池：存放字符串常量和基本类型常量（public static f