码农BookSea

【大数据】HBase入门指南

原创不易，注重版权。转载请注明原作者和原文链接

文章目录

- HBase特性
- Hadoop的限制
- 基本概念
- - NameSpace
  - Table
  - RowKey
  - Column
  - TimeStamp
  - Cell
- 存储结构
- HBase 数据访问形式
- 架构体系
- HBase组件
- HBase读写流程
- - 读流程
  - 写流程
- MemStore Flush
- - 参数说明
- StoreFile Compaction
- - 参数说明
  - 触发过程
- Region Split
- - 预分区
- HBase优化
- - 查询优化
  - - 设置Scan缓存
    - 显示指定列
    - 禁用块缓存
  - 写入优化
  - - 设置AutoFlush
  - 参数优化
  - - Zookeeper 会话超时时间
    - 设置 RPC 监听数量
    - 手动控制 Major Compaction
    - 优化 HStore 文件大小
    - 优化 HBase 客户端缓存
    - 指定 scan.next 扫描 HBase 所获取的行数
- SpringBoot中使用HBase
- - Scan
- Phoenix

HBase是一个开源的非关系型分布式数据库，设计初衷是为了解决大量结构化数据存储与处理的需求。

它的核心理念、特性以及应用领域在当今的大数据环境中都发挥着至关重要的作用，这也是我们需要深入理解HBase的原因。在这篇文章中，我们将探讨HBase的基础概念，通过这些知识，读者将能够理解HBase的基本工作原理以及如何利用它处理数据问题。

HBase特性

以下是HBase的一些关键特性和概念：

分布式架构：HBase是一个分布式数据库，它可以在一个集群中运行在多个机器上。数据以水平分片的方式分布在不同的机器上，这样可以实现数据的高可用性和横向扩展性。
列存储： HBase是面向列的数据库，它将数据存储在表中的列族中。每个列族可以包含多个列，这样可以方便地存储和检索具有不同结构的数据。HBase的列存储特性使得可以高效地读取和写入大量数据。
强一致性：HBase提供强一致性的读写操作。当数据被写入或读取时，HBase会确保所有相关的副本都是最新的。这使得HBase非常适合需要强一致性的应用场景，如金融、电信等领域。
高可扩展性：HBase可以轻松地扩展到大规模的数据集和集群。通过添加更多的机器和分片数据，可以线性地扩展存储容量和吞吐量。
快速读写：HBase是为了高性能而设计的。它使用了内存和硬盘的组合来存储数据，可以实现快速的读写操作。此外，HBase还支持批量写入和异步写入，进一步提高了写入性能。
灵活的数据模型：HBase提供了灵活的数据模型，可以根据应用程序的需求设计表结构。它支持动态添加列，并且可以高效地执行范围查询和单行读写操作。
集成Hadoop生态系统：HBase与Hadoop生态系统紧密集成，可以与Hadoop分布式文件系统（HDFS）和Hadoop的计算框架（如MapReduce）无缝配合使用。这使得HBase能够处理大规模的数据存储和分析任务。

Hadoop的限制

尽管Hadoop是一个强大的分布式计算框架，但它也存在一些不足之处，与HBase相比，以下是Hadoop的一些限制：

实时性：Hadoop主要用于批处理任务，对于实时性要求较高的应用场景，如实时数据分析和流式处理，Hadoop的延迟可能会比较高。Hadoop的MapReduce模型通常不适合处理需要即时响应的数据处理任务。
存储效率：Hadoop在存储效率方面存在一些问题。为了提供容错性和可靠性，Hadoop将数据复制多次存储在不同的节点上，这会导致存储开销增加。相对于HBase的列存储模型，Hadoop的存储效率可能较低。
复杂性：Hadoop的配置和管理相对复杂，需要专业知识和经验。搭建和维护一个Hadoop集群需要处理许多参数和组件，对于初学者来说可能存在一定的学习曲线。
扩展性限制：虽然Hadoop具有良好的可扩展性，可以通过添加更多的节点来扩展集群的存储和计算能力，但在某些情况下，随着集群规模的增加，管理和调度节点可能变得更加困难。
处理复杂查询的限制：Hadoop的主要计算模型是MapReduce，它适合处理简单的计算任务，但对于复杂的查询和数据分析，如复杂聚合、连接和实时查询等，Hadoop的性能可能不如专门设计的分析数据库。

基本概念

NameSpace

命名空间，类似于关系型数据库的Database概念，每个命名空间下有多个表。

HBase自带两个命名空间，分别是hbase和default，hbase 中存放的是HBase内置的表，default表是用户默认使用的命名空间，这两个命名空间默认是不展示的。

Table

类似于关系型数据库的表概念。不同的是，HBase定义表时只需要声明列族即可，不需要声明具体的列。因为数据存储是稀疏的，空（null）列不占用存储空间，所以往HBase写入数据时，字段可以动态、按需指定。因此，和关系型数据库相比，HBase 能够轻松应对字段变更的场景。

RowKey

HBase表中的每行数据都由一个RowKey和多个Column（列）组成，数据是按照RowKey的字典顺序存储的，并且查询数据时只能根据RowKey进行检索，所以RowKey的设计十分重要。

Column

HBase中的每个列都由**Colunn Family （列族）和Column Qualifier （列限定符）**进行限定，例如info: name, info: age。

建表时，只需指明列族，而列限定符无需预先定义。

TimeStamp

用于标识数据的不同版本（version），每条数据写入时，系统会自动为其加上该字段，其值为写入HBase的时间。

Cell

由 {rowkey, column Family ：column Qualifier, timestamp} 唯一确定的单元，Cell 中的数据全部是字节码形式存贮。

一条数据有多个版本，每个版本都是一个Cell。

存储结构

HBase存储结构如下：

上面的数据会存储为下面这样：

行切分为Region，列切分为Store，Region可以存放在其他机器上。

HBase是基于HDFS的，而HDFS是不能够修改数据的，所以HBase也是不能修改数据的。HBase使用时间戳实现修改功能。取数据的时候取最新时间戳的数据，取出来的就是最新的数据。

HBase 数据访问形式

HBase数据访问可以通过以下几种形式进行：

单行读写（Get和Put）：使用HBase提供的API，可以通过指定行键（Row Key）来读取和写入单行数据。Get操作可以根据行键从表中获取特定行的数据，而Put操作可以将数据写入表的指定行。
批量读写（Scan和Batch Put）：HBase支持批量读写操作，可以一次性读取或写入多行数据。Scan操作可以按照一定的条件扫描表中的多行数据，而Batch Put操作可以一次性写入多行数据。
全表扫描（Scan）：通过Scan操作，可以遍历整个表的数据，按照指定的条件进行过滤和筛选。可以设置起始行键和结束行键，还可以使用过滤器（Filter）进行更精确的数据查询。
列族范围扫描（Scan）：HBase中的数据以列族（Column Family）为单位进行存储，可以通过Scan操作对指定列族的数据进行范围扫描。这种方式可以提高数据查询的效率，只获取所需列族的数据，而不必读取整个表的数据。
过滤器（Filter）：HBase支持多种过滤器来进行数据的精确查询和过滤。可以使用行键过滤器（Row Filter）按照行键的条件进行数据过滤，还可以使用列族过滤器（Family Filter）、列限定符过滤器（Qualifier Filter）和值过滤器（Value Filter）等进行更细粒度的数据过滤。
原子性操作（Check-and-Put和Check-and-Delete）：HBase支持原子性操作，例如Check-and-Put和Check-and-Delete。这些操作允许在写入数据之前进行检查，只有在满足指定条件的情况下才执行写入操作。

以上形式提供了不同的数据访问方式，可以根据具体的需求和查询条件选择适合的方式来访问和操作HBase中的数据。

架构体系

HBase的架构体系是基于分布式存储和处理的设计。它包含了以下几个重要的组成部分：

HMaster：HMaster是HBase集群的主节点，负责管理整个集群的元数据和协调各个RegionServer的工作。它维护了表的结构信息、分片规则、RegionServer的负载均衡等，并协调分布式操作，如Region的分裂和合并。
RegionServer：RegionServer是HBase集群中的工作节点，负责存储和处理数据。每个RegionServer管理多个Region，每个Region负责存储表中的一部分数据。RegionServer处理客户端的读写请求，负责数据的存储、读取和写入操作。
ZooKeeper：ZooKeeper是一个分布式协调服务，被HBase用于管理集群的元数据和协调分布式操作。HBase使用ZooKeeper来进行主节点的选举、故障检测、集群配置的同步等任务。
HDFS（Hadoop Distributed File System）：HBase使用HDFS作为底层的分布式文件系统，用于存储数据。HDFS将数据分割成块并分布在不同的节点上，提供高可靠性和可扩展性的存储。
HBase客户端：HBase客户端是与HBase交互的应用程序或工具，用于发送读写请求和接收查询结果。客户端可以通过HBase的Java API或者命令行工具（如HBase shell）来访问和操作HBase表。
表和列族：HBase数据模型是基于表的，表由一个或多个列族（Column Family）组成。每个列族可以包含多个列（Column），列存储着实际的数据。表被分割成多个Region存储在不同的RegionServer上，每个Region负责存储一部分行数据。

这些组成部分共同构成了HBase的架构体系，实现了分布式存储和处理大规模数据集的能力。

HMaster负责管理元数据和协调工作，RegionServer存储和处理数据，ZooKeeper提供分布式协调服务，HDFS提供底层的分布式文件存储，而HBase客户端用于与HBase进行交互。表和列族的概念提供了数据的组织和存储方式。

HBase组件

MemStore：每个RegionServer都有一个MemStore，它是位于内存中的临时数据存储区域。当客户端写入数据时，数据首先被写入到MemStore中，以提供快速的写入性能。
WAL（Write-Ahead-Log）：WAL是HBase的日志文件，用于记录所有的写操作。当数据被写入到MemStore时，相应的写操作也会被写入WAL中，以保证数据的持久性和故障恢复能力。
StoreFile：当MemStore中的数据达到一定大小阈值后，会被刷新到磁盘上的StoreFile中。StoreFile是HBase中实际持久化存储数据的文件形式，它包含了已经写入的数据和相应的索引。
HFile：HFile是StoreFile的底层存储格式，采用了块索引和时间范围索引的方式，提供了高效的数据查找和扫描能力。HFile使用块（Block）来组织数据，并采用压缩和编码技术来减小存储空间。

MemStore提供了临时的内存存储，StoreFile提供了持久化的磁盘存储，WAL用于保证数据的持久性。这种架构设计使得HBase能够提供高可用性、高性能和可扩展性的分布式存储和处理能力。

HBase读写流程

读流程

客户端发送读取请求：客户端向HBase集群发送读取请求，包括所需的表名、行键（Row Key）以及其他可选的参数（如列族、列限定符等）。
定位RegionServer和Region：HBase的客户端会与ZooKeeper进行通信，获取到存储有所需数据的Region所在的RegionServer的信息。
RegionServer处理请求：客户端发送的读取请求到达对应的RegionServer，RegionServer会根据请求的行键定位到包含所需数据的Region。
数据读取：RegionServer首先会从MemStore中查找数据，如果数据在MemStore中找到，则直接返回给客户端。如果数据不在MemStore中，RegionServer会在磁盘上的StoreFile中进行查找，根据索引定位到所需的数据块，并将数据块读取到内存中进行处理。
数据返回给客户端：RegionServer将读取到的数据返回给客户端，客户端可以根据需要对数据进行进一步的处理和分析。

写流程

客户端发送写入请求：客户端向HBase集群发送写入请求，包括表名、行键、列族、列限定符和对应的值等信息。
定位RegionServer和Region：客户端与ZooKeeper通信，获取存储目标数据的Region所在的RegionServer的信息。
RegionServer处理请求：客户端发送的写入请求到达对应的RegionServer，RegionServer根据行键定位到目标Region。
写入到MemStore：RegionServer将写入请求中的数据写入到目标Region对应的内存中的MemStore。写入到MemStore是一个追加操作，将数据追加到内存中的MemStore中，并不直接写入磁盘。
WAL日志记录：同时，RegionServer将写入请求中的操作写入WAL（Write-Ahead-Log）日志文件，确保数据的持久性和故障恢复能力。
MemStore刷新到磁盘：当MemStore中的数据达到一定的大小阈值时，RegionServer会将MemStore中的数据刷新到磁盘上的StoreFile中。刷新过程将内存中的数据写入到磁盘上的StoreFile，并生成相应的索引。
数据返回给客户端：写入完成后，RegionServer向客户端发送写入成功的响应，表示数据已成功写入。

MemStore Flush

在HBase中，MemStore Flush是将内存中的数据刷新到磁盘上的StoreFile的过程。当MemStore中的数据达到一定大小阈值时，或者达到了一定的时间限制，HBase会触发MemStore Flush操作，以将数据持久化到磁盘，确保数据的持久性和可靠性。

下面是MemStore Flush的基本过程：

MemStore Flush触发：当MemStore中的数据量达到一定的阈值（由配置参数控制）或者达到了一定的时间限制时，HBase会触发MemStore Flush操作。这个阈值和时间限制可以根据需求进行配置，以平衡写入性能和数据持久性的要求。
写入内存快照：在触发Flush操作时，HBase会先将MemStore中的数据做一个内存快照（Snapshot），以保证在Flush期间继续接收新的写入请求。
刷写到磁盘：内存快照完成后，HBase会将内存中的数据按照列族的维度划分为多个KeyValue，然后将这些KeyValue写入磁盘上的StoreFile。StoreFile采用HFile格式，用于持久化存储数据。
更新Region元数据：完成刷写到磁盘后，HBase会更新Region的元数据，包括最新的StoreFile列表和相应的时间戳等信息。
MemStore清空：一旦数据刷写到磁盘上的StoreFile，HBase会清空相应的MemStore，以释放内存空间用于接收新的写入请求。

通过MemStore Flush操作，HBase可以将内存中的数据持久化到磁盘，以确保数据的持久性和可靠性。Flush操作的频率和成本可以通过配置参数进行调整，以适应不同的应用场景和性能需求。频繁的Flush操作可能会影响写入性能，而较长的Flush间隔可能会增加数据丢失的风险。因此，根据实际情况，需要合理设置Flush操作的参数，以平衡数据的持久性和写入性能的要求。

参数说明

MemStore Flush在HBase中由以下几个参数进行控制，它们的含义如下：

hbase.hregion.memstore.flush.size：该参数指定了MemStore的大小阈值。当MemStore中的数据量达到或超过这个阈值时，将触发MemStore Flush操作。该参数的默认值为 128MB。这个参数在HBase 0.98版本及更高版本中生效。在旧版本中，类似的参数名为 hbase.hregion.memstore.flush.size.upper，但其含义和作用相同。
hbase.hregion.memstore.block.multiplier：该参数是用来设置MemStore大小阈值的倍数。当MemStore的大小超过 hbase.hregion.memstore.flush.size 乘以 hbase.hregion.memstore.block.multiplier 时，将触发MemStore Flush操作。默认值为2。这个参数在HBase 0.98版本及更高版本中生效。
hbase.hregion.memstore.flush.size.lower.limit：该参数定义了MemStore大小的下限限制。当MemStore中的数据量小于此下限时，不会触发MemStore Flush操作。该参数的默认值为0。在HBase 2.0版本及更高版本中生效。
hbase.hregion.memstore.flush.size.upper.limit：该参数定义了MemStore大小的上限限制。当MemStore中的数据量超过此上限时，将强制触发MemStore Flush操作。该参数的默认值为Long.MAX_VALUE。在HBase 2.0版本及更高版本中生效。

上述的1和2，满足任一条件都会触发MemStore Flush操作。

这些参数需要根据具体的应用场景和性能要求进行合理的设置。较小的Flush阈值可以提高数据的持久性，但可能会增加Flush的频率和写入的开销；较大的Flush阈值可以减少Flush的频率和开销，但可能会增加数据丢失的风险。

因此，需要根据应用的读写特征和数据的重要性，选择合适的参数值。

StoreFile Compaction

StoreFile Compaction（文件合并）是 HBase 中的一个重要操作，它用于合并和优化存储在磁盘上的数据文件（StoreFile）。StoreFile Compaction 可以帮助减少磁盘空间占用、提高读取性能，并且在某些情况下可以提高写入性能。

StoreFile Compaction 的基本过程如下：

Compact Selection（选择合并）：在进行 Compaction 之前，HBase 首先进行选择性合并。它会根据一定的策略，如大小、时间戳等，选择一组需要合并的 StoreFile。这样可以限制合并的数据量，避免一次合并过多数据。
Minor Compaction（小规模合并）：Minor Compaction 主要合并较少数量的 StoreFile。它通过创建一个新的 StoreFile，并从多个旧的 StoreFile 中选择合并的数据，将其合并到新的文件中。这个过程中，旧的 StoreFile 不会被删除，新的 StoreFile 会被创建并写入新的数据。
Major Compaction（大规模合并）：Major Compaction 是一种更为综合和耗时的合并操作。它会合并一个或多个 HBase 表的所有 StoreFile。Major Compaction 将会创建一个新的 StoreFile，并将所有旧的 StoreFile 中的数据合并到新的文件中。与 Minor Compaction 不同，Major Compaction 还会删除旧的 StoreFile，从而释放磁盘空间。
Compaction Policy（合并策略）：HBase 提供了不同的合并策略，可以根据数据特点和应用需求进行选择。常见的合并策略包括 SizeTieredCompactionPolicy（按大小合并）和 DateTieredCompactionPolicy（按时间戳合并）等。

通过 StoreFile Compaction，HBase 可以减少磁盘上的存储空间占用，提高读取性能，同时合并操作还可以优化数据布局，加速数据的访问。合适的合并策略的选择可以根据数据的访问模式和应用需求，以达到最佳的性能和存储效率。

参数说明

StoreFile Compaction 过程中涉及到的一些相关参数及其含义如下：

hbase.hstore.compaction.min：指定了进行 Minor Compaction 的最小文件数。当 StoreFile 的数量达到或超过该值时，才会触发 Minor Compaction。默认值为 3。
hbase.hstore.compaction.max：指定了进行 Major Compaction 的最大文件数。当 StoreFile 的数量超过该值时，将触发 Major Compaction。默认值为 10。
hbase.hstore.compaction.ratio：指定了触发 Major Compaction 的比率。当一个 Region 中的 StoreFile 的总大小超过其最大文件大小的比率时，将触发 Major Compaction。默认值为 1.2。
hbase.hstore.compaction.min.size：指定了进行 Compaction 的最小文件大小。当一个 StoreFile 的大小小于该值时，将不会参与 Compaction。默认值为 1 KB。
hbase.hstore.compaction.max.size：指定了进行 Compaction 的最大文件大小。当一个 StoreFile 的大小超过该值时，将不会参与 Compaction。默认值为 Long.MAX_VALUE，即无限制。
hbase.hstore.compaction.enabled：指定了是否启用 Compaction。如果设置为 false，则不会触发任何 Compaction 操作。默认值为 true。
hbase.hstore.compaction.checker.interval.multiplier：指定了进行 Compaction 检查的时间间隔。实际检查的时间间隔为 hbase.hstore.compaction.checker.interval.multiplier 乘以 StoreFile 的平均大小。默认值为 1.0。

这些参数可以在 HBase 的配置文件（hbase-site.xml）中进行设置。通过调整这些参数的值，可以根据数据量、存储需求和性能要求来优化 Compaction 操作的触发条件和行为。

触发过程

以下是判断是否触发 Compaction 的过程：

判断是否满足进行 Minor Compaction 的条件：
- 检查 StoreFile 的数量是否达到或超过 hbase.hstore.compaction.min。如果是，则满足触发 Minor Compaction 的条件。
判断是否满足进行 Major Compaction 的条件：
- 检查 StoreFile 的数量是否超过 hbase.hstore.compaction.max。如果是，则满足触发 Major Compaction 的条件。
或者
- 计算 StoreFile 的总大小与最大文件大小之间的比率。如果超过 hbase.hstore.compaction.ratio，即 StoreFile 的总大小超过最大文件大小的比率，那么满足触发 Major Compaction 的条件。
对于即将进行 Compaction 的 StoreFile：
- 检查 StoreFile 的大小是否在 hbase.hstore.compaction.min.size 和 hbase.hstore.compaction.max.size 之间。如果不在这个范围内，则该文件将不会参与 Compaction。
检查是否启用 Compaction：
- 检查 hbase.hstore.compaction.enabled 的值是否为 true。如果为 false，则不会触发任何 Compaction 操作。
判断触发 Compaction 的时间间隔：
- 根据 hbase.hstore.compaction.checker.interval.multiplier 乘以 StoreFile 的平均大小，得出实际的检查时间间隔。

根据以上判断过程，HBase 在每个 RegionServer 上的每个 Store（列族）会根据配置参数进行定期的 Compaction 检查。一旦满足触发 Compaction 的条件，相应的 Minor Compaction 或 Major Compaction 将被触发，合并和优化存储的数据文件。这样可以提高读取性能、节省磁盘空间，并且在某些情况下可以提高写入性能。

Region Split

Region Split（区域分割）是 HBase 中的一个重要操作，它用于在数据增长过程中，将一个较大的 HBase 表的 Region（区域）划分成更小的子区域，以提高读写性能和负载均衡。

当一个 Region 的大小达到了预先配置的阈值时，HBase 将触发 Region Split 操作。Region Split 的基本过程如下：

Split Policy（分割策略）：HBase 提供了多种分割策略，用于决定何时触发 Region Split。常见的分割策略包括按大小分割（Size-based Split）和按行数分割（Row-count-based Split）。这些策略可以根据数据特点和应用需求进行选择。
Split Selection（选择分割点）：在触发分割之前，HBase 首先选择一个适当的分割点。分割点是指一个 RowKey，它将成为分割后的两个子区域的边界。选择分割点的策略可以是根据大小、行数或其他自定义逻辑进行选择。
Region Split（区域分割）：一旦选择了分割点，HBase 将通过创建两个新的子区域来执行分割操作。原始的 Region 将被拆分成两个子区域，每个子区域负责存储分割点两侧的数据。同时，HBase 会为新的子区域生成新的 Region ID，并更新元数据信息。

常见的区域分割方式包括：

均匀分割（Even Split）：将一个 Region 均匀地划分为两个子区域。分割点根据数据大小或行数进行选择，以保持两个子区域的大小相近。
预分区（Pre-splitting）：在创建表时，可以提前定义多个分割点，将表划分为多个初始的子区域。这样可以在表创建之初就实现数据的均衡分布，避免后续的动态分割。
自定义分割（Custom Split）：根据具体的业务需求和数据特点，可以通过自定义逻辑来选择分割点，实现更灵活的分割方式。

通过合理地使用区域分割，可以充分利用集群资源，提高读写性能和负载均衡能力。不同的分割策略和分割方式可以根据数据规模、访问模式和应用需求进行选择，以满足不同场景下的需求。

预分区

在 HBase 中进行预分区可以通过 HBase Shell 或 HBase API 进行操作。以下是使用 HBase Shell 进行预分区的示例：

打开 HBase Shell：
```
$ hbase shell
```
创建表并指定分区：
```
hbase(main):001:0> create 'my_table', 'cf', {SPLITS => ['a', 'b', 'c']}
```
上述命令创建了一个名为 my_table 的表，并指定了三个分区点：‘a’、‘b’ 和 ‘c’。这将创建四个初始的子区域。
查看表的分区情况：
```
hbase(main):002:0> describe 'my_table'
```
这将显示表的详细信息，包括分区信息。

通过上述步骤，你可以在创建表时预先定义分区点，从而实现预分区。每个分区点将成为一个子区域的边界，确保数据在表创建时就能分布在多个子区域中，从而实现负载均衡和性能优化。

请注意，上述示例是使用 HBase Shell 进行预分区的简单示例。如果需要在编程中进行预分区，可以使用 HBase API，例如 Java API，通过在创建表时设置 SPLITS 参数来指定分区点。

以下是使用 HBase Java API 进行预分区的示例代码：

import org.apache.hadoop.hbase.HBaseConfiguration;
import org.apache.hadoop.hbase.TableName;
import org.apache.hadoop.hbase.client.Admin;
import org.apache.hadoop.hbase.client.Connection;
import org.apache.hadoop.hbase.client.ConnectionFactory;
import org.apache.hadoop.hbase.util.Bytes;

import java.io.IOException;

public class PreSplitExample {
    public static void main(String[] args) throws IOException {
        // 创建 HBase 配置
        org.apache.hadoop.conf.Configuration config = HBaseConfiguration.create();

        // 创建 HBase 连接
        try (Connection connection = ConnectionFactory.createConnection(config)) {
            // 创建 HBase 管理器
            try (Admin admin = connection.getAdmin()) {
                // 定义表名
                TableName tableName = TableName.valueOf("my_table");

                // 定义分区点
                byte[][] splitKeys = {
                        Bytes.toBytes("a"),
                        Bytes.toBytes("b"),
                        Bytes.toBytes("c")
                };

                // 创建表并指定分区
                admin.createTable(TableDescriptorBuilder.newBuilder(tableName)
                        .addColumnFamily(ColumnFamilyDescriptorBuilder.of("cf"))
                        .setSplitKeys(splitKeys)
                        .build());
            }
        }
    }
}

上述代码通过 HBase Java API 创建了一个名为 my_table 的表，并指定了三个分区点：‘a’、‘b’ 和 ‘c’。这将创建四个初始的子区域。

请注意，在使用 Java API 进行预分区时，需要先建立与 HBase 的连接，并通过 HBase 管理器（Admin）执行表的创建操作，并设置 setSplitKeys(splitKeys) 方法来指定分区点。

通过上述示例代码，你可以在编程中使用 HBase Java API 实现预分区功能。

HBase优化

查询优化

设置Scan缓存

在HBase中，可以通过设置Scan对象的setCaching()方法来调整Scan缓存的大小。Scan缓存用于指定每次扫描操作从RegionServer返回给客户端的行数。通过调整缓存大小，可以在一定程度上控制数据的读取性能和网络传输的开销。

以下是设置Scan缓存的示例代码：

Scan scan = new Scan();
scan.setCaching(500); // 设置缓存大小为500行

ResultScanner scanner = table.getScanner(scan);
for (Result result : scanner) {
    // 处理扫描结果
}
scanner.close();

在上述示例中，setCaching()方法将缓存大小设置为500行。可以根据实际需求调整这个值，需要根据数据大小、网络带宽和性能要求进行权衡。较大的缓存大小可以减少客户端与RegionServer之间的通信次数，提高读取性能，但同时也会增加内存消耗。较小的缓存大小可以减少内存消耗，但可能会增加通信次数和网络传输开销。

需要注意的是，setCaching()方法设置的是每次扫描的缓存大小，并不是全局的设置。如果需要对整个表的扫描操作生效，需要在每次扫描时都设置缓存大小。

此外，还可以通过调整HBase的配置参数来全局设置缓存大小。在hbase-site.xml配置文件中添加以下参数可以设置默认的缓存大小：

<property>
  <name>hbase.client.scanner.cachingname>
  <value>500value> 
property>

以上是通过代码和配置文件来设置Scan缓存大小的方法，根据具体的应用场景和需求，可以选择适当的方式进行设置。

显示指定列

当使用Scan或者GET获取大量的行时，最好指定所需要的列，因为服务端通过网络传输到客户端，数据量太大可能是瓶颈。如果能有效过滤部分数据，能很大程度的减少网络I/O的花费。

在HBase中，可以使用Scan或Get操作来显示指定的列。下面分别介绍两种方式的用法：

使用Scan操作显示指定列：

Scan scan = new Scan();
scan.addColumn(Bytes.toBytes("cf"), Bytes.toBytes("col1")); // 指定列族(cf)和列(col1)

ResultScanner scanner = table.getScanner(scan);
for (Result result : scanner) {
    byte[] value = result.getValue(Bytes.toBytes("cf"), Bytes.toBytes("col1"));
    // 处理列(col1)的值
}
scanner.close();

在上述示例中，使用scan.addColumn()方法来指定要显示的列族和列。在for循环中，通过result.getValue()方法获取指定列的值。

使用Get操作显示指定列：

Get get = new Get(Bytes.toBytes("row1")); // 指定行键(row1)
get.addColumn(Bytes.toBytes("cf"), Bytes.toBytes("col1")); // 指定列族(cf)和列(col1)

Result result = table.get(get);
byte[] value = result.getValue(Bytes.toBytes("cf"), Bytes.toBytes("col1"));
// 处理列(col1)的值

在上述示例中，使用get.addColumn()方法来指定要显示的列族和列。通过table.get()方法获取行数据，并通过result.getValue()方法获取指定列的值。

无论是使用Scan还是Get，都可以通过addColumn()方法来指定要显示的列族和列。可以根据具体的需求，多次调用addColumn()方法来显示多个列。

需要注意的是，HBase中的列是以字节数组（byte[]）形式表示的，因此在使用addColumn()和getValue()方法时，需要将列族和列名转换为字节数组。

禁用块缓存

如果批量进行全表扫描，默认是有缓存的，如果此时有缓存，会降低扫描的效率。

在HBase中，可以通过设置Scan对象的setCacheBlocks()方法来禁用块缓存。块缓存是HBase中的一种缓存机制，用于加快数据的读取操作。然而，在某些情况下，禁用块缓存可能是有益的，例如对于某些热点数据或者需要立即获取最新数据的场景。

以下是禁用Scan块缓存的示例代码：

Scan scan = new Scan();
scan.setCacheBlocks(false); // 禁用块缓存

ResultScanner scanner = table.getScanner(scan);
for (Result result : scanner) {
    // 处理扫描结果
}
scanner.close();

在上述示例中，setCacheBlocks(false)方法将禁用Scan操作的块缓存。

需要注意的是，禁用块缓存可能会增加对HBase存储的实际磁盘读取次数，并且在一些场景下可能导致性能下降。因此，在禁用块缓存之前，建议仔细评估应用需求和场景，确保禁用块缓存的决策是合理的。

对于经常读到的数据，建议使用默认值，开启块缓存。

写入优化

设置AutoFlush

Htable有一个属性是AutoFlush，该属性用于支持客户端的批量更新，默认是true，当客户端每收到一条数据，立刻发送到服务端，如果设置为false，当客户端提交put请求时候，先将该请求在客户端缓存，到达阈值的时候或者执行hbase.flushcommits()，才向RegionServer提交请求。

在HBase中，可以通过设置Table对象的setAutoFlush()方法来控制自动刷新（AutoFlush）行为。AutoFlush决定了在何时将数据从客户端发送到RegionServer并写入到存储中。

以下是设置AutoFlush的示例代码：

// 创建HBase配置对象
Configuration conf = HBaseConfiguration.create();

// 创建HBase连接
Connection connection = ConnectionFactory.createConnection(conf);

// 获取表对象
TableName tableName = TableName.valueOf("your_table_name");
Table table = connection.getTable(tableName);

// 设置AutoFlush
table.setAutoFlush(false);  // 关闭AutoFlush

// 执行写入操作
Put put = new Put(Bytes.toBytes("row1"));
put.addColumn(Bytes.toBytes("cf"), Bytes.toBytes("col1"), Bytes.toBytes("value1"));
table.put(put);

// 手动刷新数据
table.flushCommits();  // 手动刷新数据到RegionServer

// 关闭表和连接
table.close();
connection.close();

在上述示例中，table.setAutoFlush(false)方法将关闭AutoFlush。这意味着在执行写操作时，数据不会立即被刷新到RegionServer和存储中，而是先缓存在客户端的内存中。只有当调用table.flushCommits()方法时，数据才会被手动刷新到RegionServer。

需要注意的是，关闭AutoFlush可以提高写入性能，尤其是在批量写入或者频繁写入的场景中。但是，关闭AutoFlush也会增加数据在客户端内存中的暂存时间，并增加了数据丢失的风险。因此，在关闭AutoFlush时，需要在适当的时机手动调用flushCommits()方法来确保数据的持久性。

同时，还可以通过设置table.setWriteBufferSize()方法来指定客户端写缓冲区的大小。这可以帮助在缓存中存储更多的数据，减少刷新到RegionServer的次数，提高写入性能。例如：

table.setWriteBufferSize(1024 * 1024); // 设置写缓冲区大小为1MB

在上述示例中，将写缓冲区大小设置为1MB。

总之，通过设置table.setAutoFlush(false)和table.setWriteBufferSize()方法，可以控制AutoFlush行为和客户端写缓冲区大小，以优化写入性能和数据刷新的策略。根据具体的应用需求和场景，可以进行适当的配置调整。

参数优化

Zookeeper 会话超时时间

属性：zookeeper.session.timeout

解释：默认值为 90000 毫秒（90s）。当某个 RegionServer 挂掉，90s 之后 Master 才能察觉到。可适当减小此值，尽可能快地检测 regionserver 故障，可调整至 20-30s，同时可以调整重试时间和重试次数

hbase.client.pause（默认值 100ms）

hbase.client.retries.number（默认 15 次）

设置 RPC 监听数量

属性：hbase.regionserver.handler.count

解释：默认值为 30，用于指定 RPC 监听的数量，可以根据客户端的请求数进行调整，读写请求较多时，增加此值。

手动控制 Major Compaction

属性：hbase.hregion.majorcompaction

解释：默认值：604800000 秒（7 天）， Major Compaction 的周期，若关闭自动 Major Compaction，可将其设为 0。如果关闭一定记得自己手动合并，因为大合并非常有意义。

优化 HStore 文件大小

属性：hbase.hregion.max.filesize

解释：默认值 10737418240（10GB），如果需要运行 HBase 的 MR 任务，可以减小此值，因为一个 region 对应一个 map 任务，如果单个 region 过大，会导致 map 任务执行时间。过长。该值的意思就是，如果 HFile 的大小达到这个数值，则这个 region 会被切分为两个 Hfile。

优化 HBase 客户端缓存

属性：hbase.client.write.buffer

解释：默认值 2097152bytes（2M）用于指定 HBase 客户端缓存，增大该值可以减少 RPC调用次数，但是会消耗更多内存，反之则反之。一般我们需要设定一定的缓存大小，以达到减少 RPC 次数的目的。

指定 scan.next 扫描 HBase 所获取的行数

属性：hbase.client.scanner.caching

解释：用于指定 scan.next 方法获取的默认行数，值越大，消耗内存越大。

SpringBoot中使用HBase

添加 Maven 依赖：


<dependency>
    <groupId>org.apache.hbasegroupId>
    <artifactId>hbase-clientartifactId>
    <version>2.4.3version>
dependency>

配置 HBase 连接：

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.hbase.HBaseConfiguration;
import org.apache.hadoop.hbase.client.Connection;
import org.apache.hadoop.hbase.client.ConnectionFactory;

@Configuration
public class HBaseConfig {
    @Bean
    public Connection hbaseConnection() throws IOException {
        Configuration config = HBaseConfiguration.create();
        config.set("hbase.zookeeper.quorum", "localhost");  // HBase ZooKeeper 地址
        config.set("hbase.zookeeper.property.clientPort", "2181");  // HBase ZooKeeper 端口
        return ConnectionFactory.createConnection(config);
    }
}

编写增删改查代码：

import org.apache.hadoop.hbase.TableName;
import org.apache.hadoop.hbase.client.*;
import org.apache.hadoop.hbase.util.Bytes;
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.stereotype.Service;

@Service
public class HBaseService {

    @Autowired
    private Connection hbaseConnection;

    //添加数据
    public void putData(String tableName, String rowKey, String columnFamily, String column, String value) throws IOException {
        Table table = hbaseConnection.getTable(TableName.valueOf(tableName));
        Put put = new Put(Bytes.toBytes(rowKey));
        put.addColumn(Bytes.toBytes(columnFamily), Bytes.toBytes(column), Bytes.toBytes(value));
        table.put(put);
        table.close();
    }

    //删除数据
    public void deleteData(String tableName, String rowKey) throws IOException {
        Table table = hbaseConnection.getTable(TableName.valueOf(tableName));
        Delete delete = new Delete(Bytes.toBytes(rowKey));
        table.delete(delete);
        table.close();
    }

    //获取数据
    public String getData(String tableName, String rowKey, String columnFamily, String column) throws IOException {
        Table table = hbaseConnection.getTable(TableName.valueOf(tableName));
        Get get = new Get(Bytes.toBytes(rowKey));
        Result result = table.get(get);
        byte[] valueBytes = result.getValue(Bytes.toBytes(columnFamily), Bytes.toBytes(column));
        table.close();
        return Bytes.toString(valueBytes);
    }
}

在上述代码中，HBaseConfig 类配置了 HBase 连接，通过 hbaseConnection() 方法创建 HBase 连接。HBaseService 类提供了 putData()、deleteData() 和 getData() 方法，分别用于插入数据、删除数据和获取数据。

Scan

以下是使用Scan 操作的示例代码：

import org.apache.hadoop.hbase.*;
import org.apache.hadoop.hbase.client.*;
import org.apache.hadoop.hbase.util.Bytes;

import java.io.IOException;

public class HBaseScanExample {

    public static void main(String[] args) throws IOException {
        // 创建 HBase 配置对象
        Configuration conf = HBaseConfiguration.create();

        // 创建 HBase 连接
        Connection connection = ConnectionFactory.createConnection(conf);

        // 获取表对象
        TableName tableName = TableName.valueOf("your_table_name");
        Table table = connection.getTable(tableName);

        // 创建 Scan 对象
        Scan scan = new Scan();
        scan.addColumn(Bytes.toBytes("cf"), Bytes.toBytes("col1")); // 指定要查询的列族和列

        // 执行 Scan 操作
        ResultScanner scanner = table.getScanner(scan);
        for (Result result : scanner) {
            // 处理每一行数据
            byte[] row = result.getRow();
            byte[] value = result.getValue(Bytes.toBytes("cf"), Bytes.toBytes("col1"));
            System.out.println("Row key: " + Bytes.toString(row) + ", Value: " + Bytes.toString(value));
        }

        // 关闭资源
        scanner.close();
        table.close();
        connection.close();
    }
}

在上述代码中，首先创建 HBase 配置对象 Configuration，然后通过 ConnectionFactory 创建 HBase 连接 Connection。接下来，通过连接获取表对象 Table，指定要进行 Scan 操作的表名。然后创建 Scan 对象，并使用 addColumn 方法指定要查询的列族和列。最后，使用 getScanner 方法执行 Scan 操作，并遍历 ResultScanner 获取每一行的数据，并进行处理。

Phoenix

Phoenix是一个开源的基于Apache HBase的关系型数据库引擎，它提供了SQL接口来访问HBase中存储的数据。它在HBase的基础上添加了SQL查询和事务功能，使得使用HBase的开发者可以使用熟悉的SQL语言进行数据操作和查询。

Phoenix在HBase中的主要用途包括：

SQL查询：Phoenix允许开发者使用标准的SQL语句来查询和操作HBase中的数据，无需编写复杂的HBase API代码。这简化了开发过程，降低了使用HBase进行数据访问的门槛。
索引支持：Phoenix提供了对HBase数据的二级索引支持，开发者可以使用SQL语句创建索引，从而加快查询速度。索引在数据查询和过滤中起到重要的作用，提高了数据的检索效率。
事务支持：Phoenix引入了基于MVCC（多版本并发控制）的事务机制，使得在HBase中进行复杂的事务操作成为可能。开发者可以通过Phoenix的事务功能来保证数据的一致性和可靠性。
SQL函数和聚合：Phoenix支持各种内置的SQL函数和聚合函数，如SUM、COUNT、MAX、MIN等，使得在HBase上进行数据统计和分析变得更加方便。

要在HBase中使用Phoenix，需要先安装并配置好Phoenix。以下是一个在HBase中使用Phoenix的示例代码：

添加 Maven 依赖：在 Maven 项目的 pom.xml 文件中添加以下依赖：


<dependency>
    <groupId>org.apache.phoenixgroupId>
    <artifactId>phoenix-coreartifactId>
    <version>4.16.0-HBase-2.4version>
dependency>

创建 Phoenix 表：在 HBase 中创建 Phoenix 表。可以使用 Phoenix 提供的 SQL 语法创建表和定义模式。例如，创建一个名为 users 的表：

CREATE TABLE users (
    id BIGINT PRIMARY KEY,
    name VARCHAR,
    age INTEGER
);

使用 Phoenix 进行操作：在 Java 代码中，可以使用 Phoenix 提供的 PhoenixConnection 和 PhoenixStatement 来执行 SQL 操作。

import java.sql.*;

public class PhoenixExample {

    public static void main(String[] args) throws SQLException {
        // 创建 Phoenix 连接
        String url = "jdbc:phoenix::";
        Connection connection = DriverManager.getConnection(url);

        // 执行 SQL 查询
        String query = "SELECT * FROM users";
        Statement statement = connection.createStatement();
        ResultSet resultSet = statement.executeQuery(query);

        // 处理查询结果
        while (resultSet.next()) {
            long id = resultSet.getLong("ID");
            String name = resultSet.getString("NAME");
            int age = resultSet.getInt("AGE");
            System.out.println("ID: " + id + ", Name: " + name + ", Age: " + age);
        }

        // 关闭资源
        resultSet.close();
        statement.close();
        connection.close();
    }
}

在上述代码中，需要将和替换为你的 HBase ZooKeeper 地址和端口。

通过创建 PhoenixConnection 并传递正确的 JDBC URL，可以获得连接对象。接下来，可以使用 createStatement() 方法创建 PhoenixStatement 对象，并使用 executeQuery() 方法执行 SQL 查询。

然后，可以使用 ResultSet 对象遍历查询结果，并提取所需的字段。在此示例中，遍历了 users 表的结果，并打印了每行的 ID、Name 和 Age。

最后，在总结HBase的基础概念时，我们应该强调其作为一个分布式、可扩展、大数据存储系统的关键特性。

它允许我们进行实时随机读写访问，以及在数十亿行和数百万列上进行高效操作。HBase的设计理念源于Google’s Bigtable，并且与Hadoop生态系统紧密集成。通过使用HBase，开发者和数据科学家可以更好地处理极大规模的数据并提供稳定、高性能的服务。总的来说，HBase是解决当前大数据问题的一种强大工具。

你可能感兴趣的:(大数据,hbase,数据库,大数据)

SQL数据库练习题以及答案（46例题） 655Z 数据库 c#c++sql mysql oracle
—学生表createtablestudent(snovarchar(10)primarykey,--学号snamevarchar(20),--姓名sagenumeric(2),--年龄ssexvarchar(5)--性别);----教师表createtableteacher(tnovarchar(10)primarykey,—教师编号tnamevarchar(20)—教师姓名);----课程表cr
Spring Boot3 配置文件南星沐 spring boot java 后端
统一配置文件管理SpringBoot工程下，进行统一的配置管理，你想设置的任何参数（端口号、项目根路径、数据库连接信息等等)都集中到一个固定位置和命名的配置文件（`application.properties`或`application.yml`）中！配置文件应该放置在SpringBoot工程的`src/main/resources`目录下。这是因为`src/main/resources`目录是S
经营帮：让企业数字化转型不再是难题中钧科技科技人工智能区块链制造互联网产业企业管理与经营企业数字化
“老板，工地的水泥告急！”“财务说招标流程卡在第三层审批！”“食堂承包商突然撂挑子了！”如果这些抓狂瞬间能像外卖订单一样被“一键搞定”，传统企业的幸福感会不会原地起飞？中钧科技旗下的经营帮，是国内唯一一站式产业互联网平台，更是用“全领域覆盖+全链路打通”的硬核实力。它不仅让传统企业把生意从线下搬到线上，甚至能把招标、物流、食堂管理通通塞进手机屏幕。经营帮用前沿技术和大数据生态，让企业转型不再是选择
YashanDB故障状态数据库
YashanDB检测到异常故障时，防止扩散影响，会将数据库的状态置为ABNORMAL，数据库处于故障只读状态，可以查询，不能执行写的业务。当数据库为ABNORMAL状态时，可以查看V$DIAG_INCIDENT视图或告警日志明确故障原因。--故障发生时，数据库状态为ABNORMALSELECTSTATUSFROMV$DATABASE;STATUS--------------------------
Langchain+Ollama实现Qwen模型+客服问答私有数据FAQ-实现RAG showker python 开发语言
目标：部署一个结合大模型和RAG的，客服问题API，如果提问的问题在常见FAQ里，使用FAQ里数据，否则使用大模型回答问题。本文使用Ollama直接运行本地Qwen模型，需要先安装好ollama。现在我们将使用LangChain+Ollama搭建RAG（检索增强生成）系统，让它可以：从Excel读取FAQ将FAQ问题转换为向量（使用Ollama的Embedding模型）存入FAISS向量数据库提供
【赵渝强老师】达梦数据库的线程结构数据库信创
达梦数据库服务器使用“对称服务器构架”的单进程、多线程结构。这种对称服务器构架在有效地利用了系统资源的同时又提供了较高的可伸缩性能，这里所指的线程即为操作系统的线程。服务器在运行时由各种内存数据结构和一系列的线程组成，线程分为多种类型，不同类型的线程完成不同的任务。线程通过一定的同步机制对数据结构进行并发访问和处理，以完成客户提交的各种任务。执行下面的语句将查看当前达梦数据库中的线程信息。SQL>
使用LangChain和中文羊驼2.0搭建离线版的ChatPDF 大模型常客 langchain 人工智能 ai agi 经验分享笔记
本文的目标是搭建一个离线版本的ChatPDF（支持中英文），让你随心地与你想要阅读的PDF对话，借助大语言模型提升获取知识的效率。除此之外，你还可以：了解使用LangChain完整的流程。学习基于向量搜索和Prompt实现一个文档问答机器人的方法原理。了解如何使用llama.cpp量化大模型的方法。了解如何使用深度学习中常用的向量数据库。为了让更多的同学看懂，我会尽量写的小白一点。如果你是有经验的
如何解决Redis缓存异常问题（雪崩、击穿、穿透）天天进步2015 Java 缓存 redis bootstrap
引言Redis作为一种高性能的内存数据库，被广泛应用于缓存系统的构建中。然而，在实际应用过程中，我们常常会遇到三种典型的缓存异常问题：缓存雪崩、缓存击穿和缓存穿透。这些问题如果处理不当，可能会导致系统性能下降，甚至引发系统崩溃。本文将深入分析这三种缓存异常问题的成因，并提供相应的解决方案。1.缓存雪崩（CacheAvalanche）1.1问题描述缓存雪崩是指在某一时刻，大量缓存同时过期或者Redi
【赵渝强老师】达梦数据库的线程结构赵渝强老师达梦（DM）数据库数据库
达梦数据库服务器使用“对称服务器构架”的单进程、多线程结构。这种对称服务器构架在有效地利用了系统资源的同时又提供了较高的可伸缩性能，这里所指的线程即为操作系统的线程。服务器在运行时由各种内存数据结构和一系列的线程组成，线程分为多种类型，不同类型的线程完成不同的任务。线程通过一定的同步机制对数据结构进行并发访问和处理，以完成客户提交的各种任务。执行下面的语句将查看当前达梦数据库中的线程信息。SQL>
python sqlite3 xuduo1
SQLite，是一款轻型的数据库。是关系型数据库管理系统大小写敏感1.导入PythonSQLITE数据库模块Python2.5之后，内置了SQLite3，成为了内置模块，这给我们省了安装的功夫，只需导入即可~importsqlite32.创建/打开数据库在调用connect函数的时候，指定库名称，如果指定的数据库存在就直接打开这个数据库，如果不存在就新创建一个再打开。cx=sqlite3.conn
应用服务接口第二次请求一直pending问题布朗克168 业务实战场景 java spring 接口pending
目录一、问题背景二、问题排查过程三、解决方案四、总结一、问题背景升级内容发布到灰度环境，验证相关服务，查看接口调用日志，发现第一次请求正常，第二次相同接口请求就一直pending，其他服务也是如此二、问题排查过程1、一开始怀疑是数据库打满了，导致响应阻塞，后来查看正常2、排查后端服务日志，发现第二次请求都没有接收到，说明和后端服务也没有关系3、后面仔细看pending的接口请求header报504
1.docker部署达梦数据库卷土重来… 达梦 docker 数据库达梦
达梦数据库官网下载docker镜像产品下载-达梦数据下载dm8docker镜像文件，上传至服务器启动命令dockerrun-d-p5236:5236--restart=always--namedm8_01--privileged=true-ePAGE_SIZE=16-eLD_LIBRARY_PATH=/opt/dmdbms/bin-eINSTANCE_NAME=dm8_01-v/data/dm8_
Docker安装达梦数据库详细教程 Roc-xb docker 数据库容器
达梦数据库（DM，DamengDatabase）是中国自主研发的关系型数据库管理系统。它由武汉达梦数据库有限公司开发，最早可以追溯到1982年，至今已有几十年的发展历史。达梦数据库在中国市场上具有较高的知名度和市场占有率，特别是在政府、金融、电信、能源等行业有广泛的应用。自主可控：达梦数据库是中国自主研发的数据库系统，具有完全自主知识产权，能够满足国家对信息安全和自主可控的要求。高性能：达梦数据库
Python3-数据库之SQLite menghaocheng Python 数据库
SQLite-Python安装SQLite3可使用sqlite3模块与Python进行集成。sqlite3模块是由GerhardHaring编写的。它提供了一个与PEP249描述的DB-API2.0规范兼容的SQL接口。您不需要单独安装该模块，因为Python2.5.x以上版本默认自带了该模块。为了使用sqlite3模块，您首先必须创建一个表示数据库的连接对象，然后您可以有选择地创建光标对象，这将
【Docker】搭建达梦数据库（基于 X86 架构）行者Sun1989 Docker docker 容器运维数据库达梦数据库
本文内容均来自个人笔记并重新梳理，如有错误欢迎指正！如果对您有帮助，烦请点赞、关注、转发、订阅专栏！专栏订阅入口Linux专栏|Docker专栏|Kubernetes专栏往期精彩文章【Docker】（全网首发）KylinV10下MySQL容器内存占用异常的解决方法【Docker】（全网首发）KylinV10下MySQL容器内存占用异常的解决方法（续）【Docker】MySQL源码构建Docker镜
Python 中的 SQLite3：轻量级数据库操作全攻略 tekin Python网络编程 Python 编程秘籍库数据库 python sqlite
Python中的SQLite3：轻量级数据库操作全攻略在Python开发中，处理数据存储与管理是常见需求。SQLite作为一款轻量级的数据库，无需单独的服务器进程，以文件形式存储数据，非常适合小型项目和嵌入式系统。Python的sqlite3模块提供了与SQLite数据库交互的接口，使开发者能够方便地进行数据库操作。本文将结合Python官方文档（https://docs.python.org/z
Mac/Python/Flask/全栈 -python全栈项目体会前后端交互过程 Jacky&Jacky flask python 后端交互
全栈-前后端项目交互全过程梳理基本思路:先从网络爬取或者本地数据源将要用数据存储到数据库，其他模块中使用SQL语句来查询获取结果，将获取的结果放在Flask的节点中，在js文件中通过ajax请求来后台获取数据。最后前端HTML页面调用js文件渲染形成网页展示。数据来源1.1使用Spyder爬取腾讯疫情数据和百度热搜数据1.2存储在SQL中数据调用main.py中调用此处的get_c1_data()
如何搭建第一个mybatis项目麓殇⊙ mybatis java 开发语言
思路搭建环境——>导入Mybatis——>编写代码——>测试！搭建环境搭建一个数据库并新建一个表createdatabasemybatis;usemybatis;createtableuser{idint(10)notnullprimarykeycomment'编号',namevarchar(30)comment'名字',pwdvarchar(30)comment'密码'}comment'学生';
探索云端存储新纪元：Alist-on-Glitch开源项目推荐毛宝锋
探索云端存储新纪元：Alist-on-Glitch开源项目推荐Alist-on-Glitch在Glitch免费服务上部署Alist项目地址:https://gitcode.com/gh_mirrors/al/Alist-on-Glitch在寻求高效且经济的云存储解决方案时，开发者的智慧再次闪耀——Alist-on-Glitch横空出世，以一种创新的方式解决了免费数据库可持续性的痛点。本文将带你深入
sql server如何提高索引命中率互联网搬砖老肖数据库数据库
前言近期发现以前开发的系统运行缓慢，经排查，发现有很大的优化空间。数据库版本使用的是sqlserver，主要有以下一些问题点：数据表无索引、一些不规范的写法（例如in、大表关联）等。优化起来比较费时、费力，以下是一些心得体会。1.合理设计索引选择合适的列创建索引为经常用于WHERE子句、JOIN条件和ORDERBY子句的列创建索引。例如，如果经常根据Customers表的CustomerName列
一文详解Python中的SQL Python_魔力猿 python sql adb
1.认识SQL：不管是什么开发语言还是开发方向，SQL都是开发人员无法绕开的话题，除了有一门精通的语言外，SQL语言也是开发人员必备的开发技能。2.数据库：数据包含数据的存储和数据的计算，目前所学习的python编程语言就可归纳为数据计算这一类的，在个人开发或企业中我们一般使用数据库来存储数据，那么数据库又是如何存储数据的呢？列如以下有两个表格：在这两个数据库里面提供了两个表：报名登记表和宿舍分配
使用go实现导入Rxcel数据到数据库并渲染到页面上远游客0713 golang 数据库开发语言
github.com/360EntSecGroup-Skylar/excelizegithub.com/tealeg/xlsx可以使用以上两个库代码如下：//jsonResult返回JSON格式的结果func(c*TemplateController)jsonResult(codeint,msgstring,datainterface{}){c.Data["json"]=map[string]in
尚硅谷大数据项目【电商数仓6.0】-Kafka安装-3 Xiaoweidumpb 大数据 kafka 分布式
解压tar-zxvf/opt/software/kafka_2.12-3.3.1.tgz-C/opt/module/mvkafka_2.12-3.3.1/kafkacd/opt/module/kafka/configviserver.properties#LicensedtotheApacheSoftwareFoundation(ASF)underoneormore#contributorlice
大数据项目之电商数仓（用户行为采集平台） qq_42042882 大数据
大数据项目之电商数仓（用户行为采集平台）版本：V5.0第1章数据仓库概念数据仓库（DataWarehouse），是为企业制定决策，提供数据支持的。可以帮助企业，改进业务流程、提高产品质量等。数据仓库的输入数据通常包括：业务数据、用户行为数据和爬虫数据等业务数据：就是各行业在处理事务过程中产生的数据。比如用户在电商网站中登录、下单、支付等过程中，需要和网站后台数据库进行增删改查交互，产生的数据就是业
Python3 MySQL 数据库连接化茧成蝶007 python mysql 数据库 python shell 脚本
PyMySQL安装在使用PyMySQL之前，我们需要确保PyMySQL已安装。PyMySQL下载地址：https://github.com/PyMySQL/PyMySQL。如果还未安装，我们可以使用以下命令安装最新版的PyMySQL：$pipinstallPyMySQL如果你的系统不支持pip命令，可以使用以下方式安装：1、使用git命令下载安装包安装(你也可以手动下载)：$gitclonehtt
WEB安全--SQL注入--SQL注入的危害神经毒素 web安全 sql 网络
一、数据泄露：黑客通过sql注入可以查询到敏感的信息如数据库名、表名、字段名和用户账号密码（加密后）等，甚者拿到数据库root权限将数据脱库以谋取利益。二、数据被篡改/删除：如果攻击者的目的是破坏的话，可以通过sql注入的方式删除库、表等重要模块。三、登录后台：sql注入出的账号、密码，如果未经强加密，那么攻击者能直接解密后登录管理员后台。四、上传木马控制服务器：通过intooutfile的方式上
尚硅谷大数据项目【电商数仓6.0】-Datax-6 Xiaoweidumpb 大数据技术大数据
安装tar-zxvfdatax.tar.gz-C/opt/module/测试python/opt/module/datax/bin/datax.py/opt/module/datax/job/job.jsonMySQLToHDFS根据官方文档写配置json{"job":{"content":[{"reader":{"name":"mysqlreader","parameter":{"column"
如何使用 Python 执行 SQL 查询？程序员黄同学 Python Python面试题数据库数据库 python
一、常用的PythonSQL库在Python中执行SQL查询，最常用的库包括：sqlite3：用于与SQLite数据库交互，适合小型项目或测试环境。psycopg2：用于与PostgreSQL数据库交互，功能强大，支持复杂查询。mysql-connector-python或PyMySQL：用于与MySQL数据库交互。SQLAlchemy：一个ORM（对象关系映射）库，支持多种数据库，提供更高层次的
大数据学习-hive（四：数仓搭建，数据监控，数据支持）宇智波云大数据项目 hive hive
一：数仓搭建1：完备性。要保证所需要的数据全部到达数仓。2：准备性。etl，和数据的计算校验，确保输出的数据准确。3：一致性。确保输出端口一致，防止输出数据不准。4：时效性。每天的定时调度。5：规范性。表名，字段名要进行规范化处理。6：稳定性。确保数仓稳定。二：数仓校验1：建表语句--建表--droptableifexistsdm.dim_dk_vehicle_info_dqc;createtab
JDBC 连接字连接 KingbaseES支持主从负载均衡参数说明。 ❀͜͡傀儡师负载均衡运维
JDBC连接字符串是用于连接KingbaseES（人大金仓数据库）的，支持主从负载均衡。让我们逐一解析各个参数的作用，并探讨如何调整到最优。参数解析jdbc:kingbase8://10.10.14.19:54321/xxx_onlinejdbc:kingbase8://：指定KingbaseES数据库的JDBC连接协议。10.10.14.19:54321：主库（Master）的IP地址和端口号。
矩阵求逆（JAVA）初等行变换 qiuwanchi 矩阵求逆（JAVA）
package gaodai.matrix; import gaodai.determinant.DeterminantCalculation; import java.util.ArrayList; import java.util.List; import java.util.Scanner; /** * 矩阵求逆(初等行变换) * @author 邱万迟 *
JDK timer antlove java jdk schedule code timer
1.java.util.Timer.schedule(TimerTask task, long delay)：多长时间（毫秒）后执行任务 2.java.util.Timer.schedule(TimerTask task, Date time)：设定某个时间执行任务 3.java.util.Timer.schedule(TimerTask task, long delay,longperiod
JVM调优总结 -Xms -Xmx -Xmn -Xss coder_xpf jvm 应用服务器
堆大小设置JVM 中最大堆大小有三方面限制：相关操作系统的数据模型（32-bt还是64-bit）限制；系统的可用虚拟内存限制；系统的可用物理内存限制。32位系统下，一般限制在1.5G~2G；64为操作系统对内存无限制。我在Windows Server 2003 系统，3.5G物理内存，JDK5.0下测试，最大可设置为1478m。典型设置： java -Xmx
JDBC连接数据库 Array_06 jdbc
package Util; import java.sql.Connection; import java.sql.DriverManager; import java.sql.ResultSet; import java.sql.SQLException; import java.sql.Statement; public class JDBCUtil { //完
Unsupported major.minor version 51.0（jdk版本错误） oloz java
java.lang.UnsupportedClassVersionError: cn/support/cache/CacheType : Unsupported major.minor version 51.0 (unable to load class cn.support.cache.CacheType) at org.apache.catalina.loader.WebappClassL
用多个线程处理1个List集合 362217990 多线程 thread list 集合
昨天发了一个提问，启动5个线程将一个List中的内容，然后将5个线程的内容拼接起来，由于时间比较急迫，自己就写了一个Demo，希望对菜鸟有参考意义。。 import java.util.ArrayList; import java.util.List; import java.util.concurrent.CountDownLatch; public c
JSP简单访问数据库香水浓 sql mysql jsp
学习使用javaBean，代码很烂，仅为留个脚印 public class DBHelper { private String driverName; private String url; private String user; private String password; private Connection connection; privat
Flex4中使用组件添加柱状图、饼状图等图表 AdyZhang Flex
1.添加一个最简单的柱状图 ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 <?xml version= "1.0"&n
Android 5.0 - ProgressBar 进度条无法展示到按钮的前面 aijuans android
在低于SDK < 21 的版本中，ProgressBar 可以展示到按钮前面，并且为之在按钮的中间，但是切换到android 5.0后进度条ProgressBar 展示顺序变化了，按钮再前面，ProgressBar 在后面了我的xml配置文件如下： [html] view plain copy <RelativeLa
查询汇总的sql baalwolf sql
select list.listname, list.createtime,listcount from dream_list as list , (select listid,count(listid) as listcount from dream_list_user group by listid order by count(
Linux du命令和df命令区别 BigBird2012 linux
1，两者区别 du，disk usage,是通过搜索文件来计算每个文件的大小然后累加，du能看到的文件只是一些当前存在的，没有被删除的。他计算的大小就是当前他认为存在的所有文件大小的累加和。
AngularJS中的$apply，用还是不用？ bijian1013 JavaScript AngularJS $apply
在AngularJS开发中，何时应该调用$scope.$apply()，何时不应该调用。下面我们透彻地解释这个问题。但是首先，让我们把$apply转换成一种简化的形式。 scope.$apply就像一个懒惰的工人。它需要按照命
[Zookeeper学习笔记十]Zookeeper源代码分析之ClientCnxn数据序列化和反序列化 bit1129 zookeeper
ClientCnxn是Zookeeper客户端和Zookeeper服务器端进行通信和事件通知处理的主要类，它内部包含两个类，1. SendThread 2. EventThread， SendThread负责客户端和服务器端的数据通信，也包括事件信息的传输，EventThread主要在客户端回调注册的Watchers进行通知处理 ClientCnxn构造方法 &
【Java命令一】jmap bit1129 Java命令
jmap命令的用法： [hadoop@hadoop sbin]$ jmap Usage: jmap [option] <pid> (to connect to running process) jmap [option] <executable <core> (to connect to a
Apache 服务器安全防护及实战 ronin47
此文转自IBM. Apache 服务简介 Web 服务器也称为 WWW 服务器或 HTTP 服务器 (HTTP Server)，它是 Internet 上最常见也是使用最频繁的服务器之一，Web 服务器能够为用户提供网页浏览、论坛访问等等服务。由于用户在通过 Web 浏览器访问信息资源的过程中，无须再关心一些技术性的细节，而且界面非常友好，因而 Web 在 Internet 上一推出就得到
unity 3d实例化位置出现布置？ brotherlamp unity教程 unity unity资料 unity视频 unity自学
问：unity 3d实例化位置出现布置？答：实例化的同时就可以指定被实例化的物体的位置,即 position Instantiate (original : Object, position : Vector3, rotation : Quaternion) : Object 这样你不需要再用Transform.Position了, 如果你省略了第二个参数(
《重构，改善现有代码的设计》第八章 Duplicate Observed Data bylijinnan java 重构
import java.awt.Color; import java.awt.Container; import java.awt.FlowLayout; import java.awt.Label; import java.awt.TextField; import java.awt.event.FocusAdapter; import java.awt.event.FocusE
struts2更改struts.xml配置目录 chiangfai struts.xml
struts2默认是读取classes目录下的配置文件，要更改配置文件目录，比如放在WEB-INF下，路径应该写成../struts.xml(非/WEB-INF/struts.xml) web.xml文件修改如下： <filter> <filter-name>struts2</filter-name> <filter-class&g
redis做缓存时的一点优化 chenchao051 redis hadoop pipeline
最近集群上有个job，其中需要短时间内频繁访问缓存，大概7亿多次。我这边的缓存是使用redis来做的，问题就来了。首先，redis中存的是普通kv，没有考虑使用hash等解结构，那么以为着这个job需要访问7亿多次redis，导致效率低，且出现很多redi
mysql导出数据不输出标题行 daizj mysql 数据导出去掉第一行去掉标题
当想使用数据库中的某些数据，想将其导入到文件中，而想去掉第一行的标题是可以加上-N参数如通过下面命令导出数据： mysql -uuserName -ppasswd -hhost -Pport -Ddatabase -e " select * from tableName" > exportResult.txt 结果为： studentid
phpexcel导出excel表简单入门示例 dcj3sjt126com PHP Excel phpexcel
先下载PHPEXCEL类文件，放在class目录下面，然后新建一个index.php文件，内容如下 <?php error_reporting(E_ALL); ini_set('display_errors', TRUE); ini_set('display_startup_errors', TRUE); if (PHP_SAPI == 'cli') die('
爱情格言 dcj3sjt126com 格言
1) I love you not because of who you are, but because of who I am when I am with you. 　　我爱你，不是因为你是一个怎样的人，而是因为我喜欢与你在一起时的感觉。 　　2) No man or woman is worth your tears, and the one who is, won‘t
转 Activity 详解——Activity文档翻译 e200702084 android UI sqlite 配置管理网络应用
activity 展现在用户面前的经常是全屏窗口，你也可以将 activity 作为浮动窗口来使用（使用设置了 windowIsFloating 的主题），或者嵌入到其他的 activity （使用 ActivityGroup ）中。当用户离开 activity 时你可以在 onPause() 进行相应的操作。更重要的是，用户做的任何改变都应该在该点上提交 ( 经常提交到 ContentPro
win7安装MongoDB服务 geeksun mongodb
1. 下载MongoDB的windows版本：mongodb-win32-x86_64-2008plus-ssl-3.0.4.zip，Linux版本也在这里下载，下载地址： http://www.mongodb.org/downloads 2. 解压MongoDB在D:\server\mongodb, 在D:\server\mongodb下创建d
Javascript魔法方法:__defineGetter__,__defineSetter__ hongtoushizi js
转载自： http://www.blackglory.me/javascript-magic-method-definegetter-definesetter/ 在javascript的类中,可以用defineGetter和defineSetter_控制成员变量的Get和Set行为例如,在一个图书类中,我们自动为Book加上书名符号: function Book(name){
错误的日期格式可能导致走nginx proxy cache时不能进行304响应 jinnianshilongnian cache
昨天在整合某些系统的nginx配置时，出现了当使用nginx cache时无法返回304响应的情况，出问题的响应头： Content-Type:text/html; charset=gb2312 Date:Mon, 05 Jan 2015 01:58:05 GMT Expires:Mon , 05 Jan 15 02:03:00 GMT Last-Modified:Mon, 05
数据源架构模式之行数据入口 home198979 PHP 架构行数据入口
注：看不懂的请勿踩，此文章非针对java，java爱好者可直接略过。一、概念行数据入口（Row Data Gateway）：充当数据源中单条记录入口的对象，每行一个实例。二、简单实现行数据入口为了方便理解，还是先简单实现： <?php /** * 行数据入口类 */ class OrderGateway { /*定义元数
Linux各个目录的作用及内容 pda158 linux 脚本
1）根目录“/” 　　根目录位于目录结构的最顶层，用斜线（/）表示，类似于 Windows 操作系统的“C:\“，包含Fedora操作系统中所有的目录和文件。　　2）/bin 　　/bin 　　目录又称为二进制目录，包含了那些供系统管理员和普通用户使用的重要 linux命令的二进制映像。该目录存放的内容包括各种可执行文件，还有某些可执行文件的符号连接。常用的命令有：cp、d
ubuntu12.04上编译openjdk7 ol_beta HotSpot jvm jdk OpenJDK
获取源码从openjdk代码仓库获取(比较慢) 安装mercurial Mercurial是一个版本管理工具。 sudo apt-get install mercurial 将以下内容添加到$HOME/.hgrc文件中，如果没有则自己创建一个： [extensions] forest=/home/lichengwu/hgforest-crew/forest.py fe
将数据库字段转换成设计文档所需的字段 vipbooks 设计模式工作正则表达式
哈哈，出差这么久终于回来了，回家的感觉真好！ PowerDesigner的物理数据库一出来，设计文档中要改的字段就多得不计其数，如果要把PowerDesigner中的字段一个个Copy到设计文档中，那将会是一件非常痛苦的事情。