鲁边

Hive存储格式之ORC File详解，什么是ORC File

文章目录

- 概述
- 文件存储结构
- - Stripe
  - - Index Data
    - Row Data
    - Stripe Footer
    - 两个补充名词
    - - Row Group
      - Stream
  - File Footer
  - - 条纹信息
    - 列统计
    - 元数据
    - 类型信息
    - - 复杂数据类型
  - Postscript
- 数据读取
- - 位置指针
  - 三层过滤
  - - 文件级
    - Stripe级
    - Row 级
  - 数据读取
- 索引
- - 行组索引
  - 布隆过滤器
- 事务支持
- 压缩
- 内存管理
- Hive中使用ORC
- - Hive使用
  - Hive参数设置

概述

本文基于上一篇文章 Hive存储格式之RCFile详解，RCFile的过去现在未来撰写，读过上一篇文章，则更好理解以下内容。

2013年，HortonWorks在RCFile的基础上开发出了ORC File（Optimied Row Columnar），在2015年成为Apache的顶级项目。以下简称ORC。

RCFile在被Facebook开源后，作为Hive之中典型的列存储模型被广泛使用，相比于之前的存储格式有很大的优势，但是同样RCFile仍然有值得改进的地方。

ORC 做了相关优化，在Hive的使用中有更好的表现，它支持复杂数据类型、ACID支持及内置索引支持，非常适合海量数据的存储。

ORC并不是一个单纯的列式存储格式，它也遵循了先水平分区，再垂直分区的理念，采用混合存储结构。

除了Hive，目前也被Spark SQL，Flink，Presto，Impala等查询引擎支持。

我上一篇中提及RCFile的两个优化方向：

不同数据类型的列使用不同的压缩方案（Facebook论文指出的优化方向-未做）
全局检索性能查，提供更合理快速的检索功能

ORC相对于RCFile提供了更优的解决方案：

列数据的类型感知：与RCFile之前未对列数据都统一为BLOB（binary large object-二进制大对象）数据不同，ORC可以感知列的数据类型，做出更为合理的数据压缩选择。
嵌套数据类型支持：ORC可以在列数据之中插入Struct，Union，List，Map等数据，让数据操作更加灵活，也更加适合非结构化数据的存储与处理。
谓词下推：这个算是RCFile原先功能的补强，在元数据层面增加了很多内容，来利用谓词下推加速处理的过程。ORC自己称之为轻量级索引，其实就是一些相较于RCFile更为详细的统计数据。
文件可切分：文件可切分，在Hive中使用ORC作为表的文件存储格式，不仅可以节省HDFS的存储资源，查询任务的输入数据量减少，使用的MapTask也就减少了。
内存管理：提供了一个memory manager来管理内存使用情况。

接下来我们通过以下几部分来完整的理解一下什么是ORC。

文件存储结构

ORC文件是以二进制的方式存储的，不可以直接读取，但由于ORC的自描述特性，其读写不依赖于 Hive Metastore 或任何其他外部元数据。本身存储了文件数据、数据类型及编码信息。因为文件是自包含的，所以读取ORC文件数据无需考虑用户使用环境。

由于ORC的元数据使用Protocol Buffers序列化，添加新字段不会破坏原有的数据结构。

如下图所示，ORC引入了三个新的组件。

Stripe
File Footer
PostScript

Stripe

ORC的主体由多个Stripe（也成为条带）组成，类似于RCFile中的行组，但是其远远大于行组的4MB，最大可达到250M大小，更大的Stripe使ORC的数据读取更加高效。

每个Stripe彼此独立，这个很好理解，因为每行数据彼此独立，而每行数据不会在多个Stripe中。

在Hive中每个Stripe通常由不同的任务处理。列存储格式的定义特征是每一列的数据是分开存储的，从文件中读取数据的速度应该与读取的列数成正比。

Stripe又包含三个部分：Index Data、Row Data和Stripe Footer。索引和数据部分都按列划分，因此只需要读取所需列的数据。

Index Data

索引数据部分，存储每列的统计数据。Index Data在Stripe的最前面，因为它们只在使用谓词下推或寻找指定行时加载。（这里主要利用索引功能实现的，具体见下文条带级别索引）

Row Data

实际存储数据的单元，利用列存储原理，对不同列可以实现不同的压缩方案，所有的列数据可以组成行数据。

Stripe Footer

存储了每个列的编码，数据流目录与位置。

message StripeFooter {
 // the location of each stream
 repeated Stream streams = 1;
 // the encoding of each column
 repeated ColumnEncoding columns = 2;
 optional string writerTimezone = 3;
 // one for each column encryption variant
 repeated StripeEncryptionVariant encryption = 4;
}

两个补充名词

在数据存储和解析的过程中还使用到了两个比较抽象的名词描述，分别为Row Group和Stream，这里单独说明一下。

Row Group

这里的Row Group和RCFile里的行组不是同一个概念，RCFile的行组对标的是ORC中的Stripe。

Row Group是虚拟的(下文有详细介绍)，Row Group Index是索引（index）的最小单位，一个Index Data中包含多个行组。默认值为 10000 个值。每一个Row Group Index中有多少条记录在文件的Footer中存储。

Stream

本节以上部分是Stripe的逻辑结构，具体数据存储还有更细粒度的单位存在，那就是Stream。在ORC文件中，每一列都存储在多个Stream中，这些Stream在文件中彼此相邻存储。Stream保存了用户真正关心的业务数据内容。

这也是ORC列式存储的根本所在：正如开头的架构图一样，一个大文件由各Stripe分割，每个Stripe负责多个行组，在一个Stripe负责的这多行范围内，各列的数据内容以Stream的形式按列存储。为了描述每个Stream，ORC以字节为单位存储Stream的类型、列ID和Stream的大小。每个Stream中存储内容的详细信息取决于列的类型和编码。也就是说，在一个Stripe中的每一列都可能有多个表示不同信息的Stream，存储内容如下所示：

message Stream {
 enum Kind {
   // boolean stream of whether the next value is non-null
   PRESENT = 0;
   // the primary data stream
   DATA = 1;
   // the length of each value for variable length data
   LENGTH = 2;
   // the dictionary blob
   DICTIONARY_DATA = 3;
   // deprecated prior to Hive 0.11
   // It was used to store the number of instances of each value in the
   // dictionary
   DICTIONARY_COUNT = 4;
   // a secondary data stream
   SECONDARY = 5;
   // the index for seeking to particular row groups
   ROW_INDEX = 6;
   // original bloom filters used before ORC-101
   BLOOM_FILTER = 7;
   // bloom filters that consistently use utf8
   BLOOM_FILTER_UTF8 = 8;
 
   // Virtual stream kinds to allocate space for encrypted index and data.
   ENCRYPTED_INDEX = 9;
   ENCRYPTED_DATA = 10;
 
   // stripe statistics streams
   STRIPE_STATISTICS = 100;
   // A virtual stream kind that is used for setting the encryption IV.
   FILE_STATISTICS = 101;
 }
 required Kind kind = 1;
 // the column id
 optional uint32 column = 2;
 // the number of bytes in the file
 optional uint64 length = 3;
}

这些不同类型的Stream会分布在ORC文件里的不同部分，每个Stream的数据会根据该列的类型使用特定的压缩算法保存。主要有以下几种（Kind）。首先是下面这5种Stream，出现在各Stripe的Row Data位置，即文章开头架构图的蓝色部分：

PRESENT：几乎每一列都会使用该Stream，按位标记该值是否为NULL
DATA：记录数据内容本身。
LENGTH：记录每个成员的长度，这个是针对string类型的列或者子列才有的。
DICTIONARY_DATA：对string类型数据采用字典编码以后的内容（该列所有去重值）。
SECONDARY：和DATA搭配，存储Decimal、timestamp类型的小数部分或者纳秒数部分等。

下面两种Stream出现在Index Data中。

ROW_INDEX：保存Stripe中每个row group的统计信息和每个row group起始位置信息。
BLOOM_FILTER：用于记录当前列在该Stripe中每一个row group的布隆过滤器信息，用于谓词下推跳过不用读取的行组。

File Footer

文件页脚包含文件主体的布局，类型架构信息，行数和每个列的统计信息。通过它们可以筛选出需要读取列的数据。

条纹信息

文件的主体被分成stripe。每个stripe都是自包含的，可以仅使用其自己的字节以及文件的页脚和后记来读取。每个stripe包含整行，因此行永远不会跨越stripe边界。

它包含了每一个stripe的长度和偏移量，该文件的schema信息(将schema树按照schema中的编号保存在数组中，如下图)、整个文件的统计信息以及每一个stripe的行数。

列统计

列统计的目标是，对于每一列，记录总数并根据类型记录其他有用字段。对于大多数原始类型，它记录了最小值和最大值；对于数字类型，多了一个总和记录。列统计信息还通过设置 hasNull 标志记录行组内是否有任何空值。ORC 的谓词下推使用 hasNull 标志来更好地支持“IS NULL”查询。

对于整数类型（tinyint、smallint、int、bigint），列统计信息包括最小值、最大值和总和。如果计算的总和存储大于数据本身，则不会记录总和。

message IntegerStatistics {
 optional sint64 minimum = 1;
 optional sint64 maximum = 2;
 optional sint64 sum = 3;
}

对于浮点类型（float、double），列统计信息包括最小值、最大值和总和。如果总和溢出双倍，则不记录总和。

对于字符串，记录最小值、最大值和所有值的长度之和。

对于布尔值，统计信息包括假值和真值的计数。

对于小数，存储最小值、最大值和总和。

日期列将最小值和最大值记录为自 UNIX 纪元（UTC 时间为 1970 年 1 月 1 日）以来的天数。

时间戳列将最小值和最大值记录为自 UNIX 纪元 (1/1/1970 00:00:00) 以来的毫秒数。在 ORC-135 之前，包括本地时区偏移量，它们存储为minimum和 maximum. 在 ORC-135 之后，时间戳调整为 UTC，然后再转换为毫秒并存储在minimumUtc和maximumUtc中。

message TimestampStatistics {
 // min,max values saved as milliseconds since epoch
 optional sint64 minimum = 1;
 optional sint64 maximum = 2;
 // min,max values saved as milliseconds since UNIX epoch
 optional sint64 minimumUtc = 3;
 optional sint64 maximumUtc = 4;
}

二进制列存储所有值的总字节数。

元数据

元数据（Metadata）包括用户元数据和文件元数据，用户元数据通常作为秘钥使用，这里不做阐述了。

文件元数据部分包含条带级别粒度的列统计信息。这些统计信息可以根据每个条带的谓词下推过滤数据。

类型信息

ORC文件中的所有行具有相同的架构，定义的类型是如同下图的嵌套模式，其中复合类型在其下具有子列。

等效的Hive DDL是：

create table orc_temp(
	myInt int,
	myMap map<string,struct<myStirng:string,myDouble:double>>,
	myTime timestamp
)

类型树通过前序遍历被展平到一个列表中，其中每个类型都被分配了下一个id。

复杂数据类型

对于复杂数据类型，比如Map，ORC文件会将一个复杂数据类型字段解析成多个子字段。下表中列举了ORC文件中对于复杂数据类型的解析：

数据类型	子列
Array	一个包含所有数组元素的单个子列
Map	两个子列，一个key子列，一个value子列
Struct	每一个属性对应一个子列
Union	每一个属性对应一个子列

等效的DDL

CREATE TABLE tbl (
    col1 Int,
    col2 Array<Int>,
    col4 Map<String,
    	Struct<col7:String,col8:Int>
    >,
    col9 String
)

Postscript

文件的最后一个字节保存着PostScript的长度，它的长度不会超过256字节，PostScript提供了解释文件其余部分的必要信息，包括文件的 Footer 和 Metadata 部分的长度、文件的版本以及使用的一般压缩类型（例如 none、zlib 或 snappy）、文件内部每个压缩块的最大长度（每次分配内存的大小）以及一些版本信息。

数据读取

orc文件结构对数据的查找和索引本质上是三层过滤结合位置指针来实现的：文件级、Stripe级、Row级。这样可以把最终实际要扫描读取的数据减少到部分Stripe的部分Row，不用全扫整个文件。也就是先从文件末尾往前读文件元数据，再跳着读Stripe元数据，最终读需要的Stripe中的部分数据。

位置指针

在读取ORC文件时，读取器需要知道两种位置，才能执行有效的数据读取操作。

首先，由于条带中的一列具有多个逻辑索引组（Row Group Index），因此ORC文件的读取器需要知道元数据流和数据流中每个索引组的起点。在上图中，指向元数据流和数据流的圆虚线表示这种位置指针。

其次，一个ORC文件可以包含多个Stripe，而这个ORC文件的一个HDFS块可以包含多个Stripe。为了有效地定位Stripe的起点，需要定位Stripe的位置指针。这些指针存储在ORC文件的文件页脚中（圆角虚线指向上图中条纹的起点）。

三层过滤

文件级

在ORC文件的末尾（文件页脚）会记录文件级别的统计信息，会记录整个文件中每列的统计信息。这些信息主要用于查询的优化，也可以为一些简单的聚合查询比如max, min, sum输出结果。

Stripe级

ORC文件会保存每个字段Stripe级别的统计信息，每个条带中的每列的值的统计信息，ORC reader使用这些统计信息来确定对于一个查询语句来说，需要读入哪些Stripe中的记录。例如，如果查询要查找年龄超过 100 岁的人，则 SARG 将为“年龄 > 100”，并且只会读取年龄超过 100 岁的条带。

Row 级

为了进一步的避免读入不必要的数据，在逻辑上将一个column的index（Index Data部分）以一个给定的值（默认为10000，可由参数配置）分割为多个index组（Row Group Index），存储统计信息和行组索引开始的位置。

Hive查询引擎会将where条件中的约束传递给ORC reader，这些reader根据组级别的统计信息，过滤掉不必要的数据。如果该值设置的太小，就会保存更多的统计信息，用户需要根据自己数据的特点权衡一个合理的值。

关于虚拟的Row Group，这10000个值的Row group Index映射到数据里，就是一个个的Row Group。反向看起来好像是Row Group的存在产生了Row group Index。但实际上Row Group是不存在的。为了便于理解，有些文章里也会说在Stripe之下还会有一个Row Group的存在。

数据读取

看了以上三级文件结构，就能很好的理解整个ORC的数据读取流程了。

**读取文件元数据：**读取 ORC 文件是从尾部开始的。第一次读取16KB的大小，尽量的将Postscript和Footer数据都读入内存。

读取Stripe元数据：处理Stripe时首先从Footer中获取每一个Stripe的起始位置和长度、每一个Stripe的Footer数据(元数据，记录了index和data的的长度)。在初始化阶段获取所有的元数据以后，会得到一个指定读取哪些列的编号构成的Boolean数组。如果不指定则读取所有的列。

**读取Row Group级元数据：**接下来通过传递SearchArgument参数指定过滤条件，根据元数据首先读取每个stripe中的index信息，而后根据index中的统计信息以及SearchArgument参数读取的row group编号，获取到所要读取数据范围包含了哪些row group，在对应的row group中读取需要的数据。

**读取数据处理：**经过这两层的过滤，需要读取的数据只是整个Stripe多个小段的区间，而后ORC会尽量合并多个离散的区间尽量减少I/O次数。下一步再根据Index中保存的下一个row group的位置信息开始该Stripe中的下一个需要读取的row group中进行数据读取。

使用ORC文件格式时，用户可使用HDFS的每个block存储ORC文件的一个stripe。对于一个ORC文件来讲，stripe的大小通常须要设置得比HDFS的block小，若是不这样的话，一个stripe就会分别在HDFS的多个block上，当读取这种数据时就会发生远程读数据的行为。若是设置stripe的只保存在一个block上的话，若是当前block上的剩余空间不足以存储下一个strpie，ORC的writer接下来会将数据打散保存在block剩余的空间上，直到这个block存满为止。这样，下一个stripe又会从下一个block开始存储。

因为ORC中使用了更加精确的索引信息，使得在读取数据时能够指定从任意一行开始读取，更细粒度的统计信息使得读取ORC文件跳过整个row group，ORC默认会对任何一块数据和索引信息使用ZLIB压缩（可更改），所以ORC文件占用的存储空间也更小。

索引

ORC文件在Row级过滤中使用的索引具体分为两种。行组索引和布隆过滤器。后者为支持更好的使用谓词下推过滤数据。布隆过滤器流与行组索引交错。这种布局便于在单次读取操作中同时读取布隆过滤器流和行索引流。

行组索引

行组索引（Row Group Index）由每个原始列的 ROW_INDEX 流组成，每个原始列被行组索引覆盖。行组可调节，默认为 10,000 行。存储列的每个流的位置以及该行组的统计信息。

索引流被放置在条带的前面，因为在默认的流式传输情况下，它们不需要被读取。它们仅在使用谓词下推或读者寻找特定行时加载。

message RowIndexEntry {
 repeated uint64 positions = 1 [packed=true];
 optional ColumnStatistics statistics = 2;
}
message RowIndex {
 repeated RowIndexEntry entry = 1;
}

对于具有多个流的列，每个流中的位置序列是连接的。

因为字典是随机访问的，即使只读取部分条带，也必须读取整个字典。

布隆过滤器

从 Hive 1.2.0 开始，Bloom Filters 被添加到 ORC 索引中。谓词下推可以利用布隆过滤器更好地修剪不满足过滤条件的行组。布隆过滤器索引由通过“orc.bloom.filter.columns”表属性指定的每一列的 BLOOM_FILTER 流组成。

布隆过滤器的具体使用参见上篇–什么是谓词下推篇中的列式存储中的谓词下推（RF算法）。

事务支持

在 Hive 中以原子方式向表中添加数据的唯一方法是添加新分区。更新或删除分区中的数据需要删除旧分区并将其与新数据一起添加回来，并且不可能以原子方式进行。

为了数据可靠性得到保证，需要实现保证原子性、一致性、隔离性和持久性的 ACID 事务。ORC支持 ACID 事务，支持流式摄取到 Hive 表中，查询要么看到所有事务，要么看不到任何事务。

HDFS 是一次写入文件系统，而 ORC 是一次写入文件格式，不支持编辑文件。

Hive在 ORC File基础上，基于“base file+delta file”的模型实现了对ACID的支持，即数据首先被写入一个 base file中，之后的修改数据被写入一个 delta file，Hive将定期合并这两个文件。

但需要注意的是， Hive ORC ACID并不是为OLTP场景设计的，它能较好地支持一个事务中更新上百万(甚至更多)条记录，但难以应对一小时内上百万个事务的场景。

压缩

ORC文件使用了一个两级压缩方案。流首先由特定于流类型的数据编码方案进行编码。然后，可以使用一个可选的通用数据压缩方案（zlib 或 snappy）来进一步压缩该流。

上文提到对于一个列，它被存储在一个或多个流中。根据流的类型，我们可以将流分为四种基本类型。根据其类型，每个流有自己的数据编码方案。下面介绍了这四种流的类型。

字节流：一个字节流基本上存储一个字节序列，它不编码数据。
运行长度字节流：一个运行长度字节流存储一个字节序列。对于一个相同的字节序列，它存储重复的字节和出现的情况。
整数流：一个整数流存储一个整数序列。它可以用运行长度编码和增量编码来编码这些整数。整数子序列的特定编码方案是根据其模式确定的。
比特流：一个位字段流用于存储一个布尔值的序列。在这个流中，一个位表示一个布尔值。在底层，位字段流由运行长度字节流支持。

对于Int列，将使用一个比特流和一个整数流。比特流用于记录一个值是否为空。整数流用于记录此Int列的整数值。

对于二进制数据，ORC 使用三个流，比特流、字节流和整数流，它们存储每个值的长度。

对于字符串列，ORC写入器将首先检查使用字典编码是否可以有效地通过评估字典中不同条目的数量与编码值的数量的比率是否大于可配置的阈值（默认阈值为0.8）来有效地存储数据。

如果小于0.8，ORC写入器将使用字典编码方案，该列将存储在一个比特流、一个字节流和两个整数流中。与Int列一样，比特流也用于记录一个值是否为空。字节流用于存储字典。一个整数流用于存储字典中每个词条的长度。第二个整数流用于存储此列的值。

如果字典中不同条目目的数量与编码值的数量大于阈值，ORC编写器将知道有许多不同的值，使用字典编码不能有效地存储数据。因此，它将自动存储此列，而不需要进行字典编码。ORC写入器将使用字节流来存储此字符串列的值，并使用整数流来存储每个值的长度，而不是将字典和将值存储为对字典的索引。

在ORC文件中，可以进一步对ORC文件使用通用的编解码器压缩流（ZLIB、Snappy）。对于一个流，通用编解码器将这个流压缩为多个小压缩单元。压缩单元的默认大小为256KB。

ORC存储格式支持三种通用压缩格式，NONE，ZLIB和snappy压缩，默认为ZLIB压缩，即不设置压缩格式则为ZLIB压缩格式，可以通过"orc.compress"="NONE"来设置其余两种压缩格式。

关于以上四种类型的编码详解，感兴趣的人可以去ORC官网具体查看。

内存管理

当ORC文件的写入器写入数据时，它会缓冲内存中的整个Stripe。因此，ORC写入器的内存占用是Stripe的大小。由于Stripe的默认大小很大，当有许多用户同时写入多个映射或减少任务中的ORC文件时（例如，当用户使用动态分区，并且分区列有许多不同的值时），此任务可能会耗尽内存。为了绑定这些并发写入器的内存消耗，ORC文件中提供了一个内存管理器。在“映射”或“减少”任务中，内存管理器会设置一个阈值，以限制此任务中的写入者可以使用的最大内存量。然后，每个新写入器都以其Stripe大小（已设置的Stripe大小）注册到此内存管理器。

当写入器使用的内存总量（设置的Stripe大小总数）超过内存阈值时，内存管理器将以内存阈值与注册的Stripe大小总数的比值缩小这些写入器中使用的实际Stripe大小。当写入器关闭时，内存管理器将从注册的Stripe大小中减去此写入器的注册Stripe大小。如果注册的总条带大小低于阈值，则所有写入器的实际条带大小将被设置为其原始条带大小。使用这种控制机制，来约束任务中ORC文件的活动写入器的内存。

Hive中使用ORC

Hive使用

在建Hive表的时候指定文件的存储格式。

CREATE TABLE ... STORED AS ORC

ALTER TABLE ... [PARTITION partition_spec] SET FILEFORMAT ORC

SET hive.default.fileformat=Orc

示例

-- 建表
create table lubian_orc(
	id int,
  name string,
  extra string
) comment 'orc格式测试表'
stored as orc;
-- 写入数据
insert overwrite table lubian_orc
select id,name,extra from lubian_text

大多情况下，还是建议在Hive中将文本文件转成ORC格式（以上），使用程序生成ORC文件，例如Java，属于特殊需求场景，感兴趣可以在orc官网找对应api做一些测试。

Hive参数设置

所有关于ORCFile的参数都是在Hive QL语句的TBLPROPERTIES字段里面出现

参数名	默认值	说明
hive.exec.orc.memory.pool	0.5	每个写入任务使用内存最大比例
hive.exec.orc.default.stripe.size	256M	stripe的默认大小
hive.exec.orc.default.block.size	25610241024	orc文件在文件系统中的默认block大小，从hive-0.14开始
hive.exec.orc.dictionary.key.size.threshold	0.8	String类型字段使用字典编码的阈值，大于该阈值，不使用字典编码
hive.exec.orc.default.row.index.stride	10000	stripe中的分组大小
hive.exec.orc.default.compress	ZLIB	ORC文件的默认压缩方式
hive.exec.orc.skip.corrupt.data	false	遇到错误数据的处理方式，false直接抛出异常，true则跳过该记录

更多参数参考官网

以上，就是关于ORC文件格式的详细说明了，如果觉得不错，点个赞再走吧。

按例，欢迎点击此处关注我的个人公众号，交流更多知识。

后台回复关键字 hive，随机赠送一本鲁边备注版珍藏大数据书籍。

你可能感兴趣的:(Hadoop,hive,hive,hadoop,大数据)

【Spark】查询优化中分区（Partitioning）和分桶（Bucketing）是什么关系？什么时候应当分区，什么时候应当分桶？ petrel2015 spark 大数据分布式数据库
在学习Spark的过程中，分区和分桶乍一看很像，都能为了计算加速，但是仔细一想，一查还是有些差异的，甚至说差异很大。那么具体有什么差异点，有什么相同点。我做出了如下的整理，供大家参考，欢迎指正。相同点分区（Partitioning）和分桶（Bucketing）在很多方面具有相似性，它们都是用于优化大数据查询性能的技术数据划分的目的：优化查询性能分区和分桶的核心目标是通过将数据分割成更小的逻辑单元来
【Linux 下的 bash 无法正常解析, Windows 的 CRLF 换行符问题导致的】待磨的钝刨 linux bash windows
文章目录报错原因：解决办法：方法一：用`dos2unix`修复方法二：手动转换换行符方法三：VSCode或其他编辑器手动改总结这个错误很常见，原因是你的wait_for_gpu.sh脚本文件格式不对，具体来说是Windows的CRLF换行符问题导致的，Linux下的bash无法正常解析。hadoop@hadoop:~/anaconda3$bashwait_for_gpu.sh:invalidopt
大数据技术实战---项目中遇到的问题及项目经验一个“不专业”的阿凡大数据
问题导读：1、项目中遇到过哪些问题？2、Kafka消息数据积压，Kafka消费能力不足怎么处理？3、Sqoop数据导出一致性问题？4、整体项目框架如何设计？项目中遇到过哪些问题7.1Hadoop宕机（1）如果MR造成系统宕机。此时要控制Yarn同时运行的任务数，和每个任务申请的最大内存。调整参数：yarn.scheduler.maximum-allocation-mb（单个任务可申请的最多物理内存
Apache大数据旭哥优选大数据选题 Apache大数据旭大数据定制选题 java hadoop spark 开发语言 idea hive 数据库架构
定制旭哥服务，一对一，无中介包安装+答疑+售后态度和技术都很重要定制按需求做要求不高就实惠一点定制需提前沟通好怎么做，这样才能避免不必要的麻烦python、flask、Django、mapreduce、mysqljava、springboot、vue、echarts、hadoop、spark、hive、hbase、flink、SparkStreaming、kafka、flume、sqoop分析+推
hive相关命令 Wang·Br bigdata 笔记 hive
hive相关命令1.hive-helphive-e:不进入hive交互窗口，执行sql语句hive-e"select*users"hive-f:执行脚本中sql语句#创建文件hqlfile1.sql，内容：select*fromusers#执行文件中的SQL语句hive-fhqlfile1.sql#执行文件中的SQL语句，将结果写入文件hive-fhqlfile1.sql>>result1.log
hive服务启停脚本热爱技术的小陈大数据 hive 大数据 hadoop
hive.sh#!/bin/bashHIVE_LOG_DIR=$HIVE_HOME/logs#创建日志目录if[!-d$HIVE_LOG_DIR]thenmkdir-p$HIVE_LOG_DIRfi#检查进程是否运行正常,参数1为进程名,参数2为进程端口functioncheck_process(){pid=$(ps-ef2>/dev/null|grep-vgrep|grep-i$1|awk'{p
【Hive】-- hive 3.1.3 伪分布式部署（单节点） oo寻梦in记 Apache Paimon 大数据服务部署 hive 分布式 hadoop
1、环境准备1.1、版本选择apachehive3.1.3apachehadoop3.1.0oraclejdk1.8mysql8.0.15操作系统：Macos10.151.2、软件下载https://archive.apache.org/dist/hive/https://archive.apache.org/dist/hadoop/1.3、解压tar-zxvfapache-hive-4.0.0-
Java后端开发技术详解小二爱编程· java 开发语言
Java作为一门成熟的编程语言，已广泛应用于后端开发领域。其强大的生态系统和广泛的支持库使得Java成为许多企业和开发者的首选后端开发语言。随着云计算、微服务架构和大数据技术的兴起，Java后端开发的技术栈也不断演进。本文将详细介绍Java后端开发的核心技术，包括Java基础、常见框架、数据库操作、缓存技术、异步编程等。1.Java基础：理解面向对象的编程Java是一种面向对象的编程语言，面向对象
【Linux】Hadoop-3.4.1的伪分布式集群的初步配置孤独打铁匠Julian Linux linux hadoop ubuntu
配置步骤一、检查环境JDK#目前还是JDK8最适合Hadoopjava-versionecho$JAVA_HOMEHadoophadoopversionecho$HADOOP_HOME二、配置SSH免密登录Hadoop需要通过SSH管理节点（即使在伪分布式模式下）sudoaptinstallopenssh-server#安装SSH服务（如未安装）cd~/.ssh/ssh-keygen-trsa#生
Hive 分区实战指南：动态分区 vs 静态分区的深度解析自然术算 Hive面试100篇 hive hadoop 数据仓库
一、为什么需要分区？在Hive数据仓库中，表数据通常以**分区（Partition）**形式组织。想象一个存储了10年电商订单的表，如果没有分区，所有数据会集中在一个目录下：/user/hive/warehouse/orders/├──part-00000├──part-00001└──...（百万个文件）这种情况下，即使执行WHEREdt='2023-12-31'的查询，Hive也需要扫描全表数
IDC权威认证！永洪科技入选 IDC「GBI图谱」，点亮生成式 BI 价值灯塔永洪科技科技人工智能 BI 大数据数据分析
大数据市场正在稳步前进，生成式AI已成为厂商服务的重点方向，其发展离不开数据底座建设和数据工程管理，反过来AI也会帮助开发运维人员、业务人员和管理层更好地使用、查询数据。IDC调研数据显示，在生成式AI的驱动下，未来5年企业在数据管理和数据分析基础设施建设的投资增长率将分别达到8.7%和9.2%。近日，国际咨询机构IDC发布了《中国数据智能市场生态图谱V5.0》，在这一领域，永洪科技以其创新前沿的
打造金融数据新引擎，看永洪科技助力头部农信社搭建一站式分析平台永洪科技金融数据可视化 BI 数据分析大数据
在数字化转型的浪潮中，金融行业作为经济发展的核心引擎，正加速探索数字化、智能化的新路径。永洪科技，近日成功助力某省农村信用社联合社（简称：Z企业）完成了其数字化转型的重要一步，通过部署先进的商业智能解决方案，为Z企业的业务升级与效能提升注入了强劲动力。随着智能金融时代的来临，以大数据、人工智能、移动互联等新兴技术为核心的金融科技持续赋能银行金融业务数字化、智能化、开放化的发展，为金融机构营销体系的
读书笔记五 ---大数据之路--数仓分层 qq_38215991 big data 大数据
数据分层在流式数据模型中,数据模型整体上分为五层。ODS层跟离线系统的定义一样,ODS层属于操作数据层,是直接从业务系统采集过来的最原始数据（进行了数据清洗）,包含了所有业务的变更过程,数据粒度也是最细的。在这一层,实时和离线在源头上是统一的,这样的好处是用同一份数据加工出来的指标,口径基本是统一的,可以更方便进行实时和离线问数据比对。例如:原始的订单变更记录数据、服务器引擎的访同日志。（原始数据
使用LangGraph迁移MapReduceDocumentsChain进行长文档的摘要 dgay_hua python
在大数据处理和文本分析领域，MapReduce是一种非常重要的策略，用于处理和分析大型数据集。具体到文本处理方面，MapReduceDocumentsChain구현了一种map-reduce策略，可以有效地处理长文本。本文将介绍如何从MapReduceDocumentsChain迁移到LangGraph，并探讨LangGraph在流处理、检查点恢复等方面的优势。技术背景介绍MapReduceDoc
jmeter安装和jmeter历史版本下载 weixin_30432007 java
一、jmete下载：1、最新版本下载地址：http://jmeter.apache.org/download_jmeter.cgi2、历史版本下载地址：https://archive.apache.org/dist/jmeter/binaries/二、软件安装及设置环境变量1、JDK安装目录在D:\ProgramFiles\Java，其环境变量设置为：JAVA_HOME值为：D:\ProgramF
Python用Bokeh处理大规模数据可视化的最佳实践一键难忘 Bokeh python 开发语言
用Bokeh处理大规模数据可视化的最佳实践在大规模数据处理和分析中，数据可视化是一个至关重要的环节。Bokeh是一个在Python生态中广泛使用的交互式数据可视化库，它具有强大的可扩展性和灵活性。本文将介绍如何使用Bokeh处理大规模数据可视化，并提供一些最佳实践和代码实例，帮助你高效地展示大数据集中的重要信息。1.为什么选择Bokeh？Bokeh是一个专为浏览器呈现而设计的可视化库，它支持高效渲
分页优化之——游标分页 PhilipJ0303 Java面试 java 数据库优化游标分页分页查询
游标分页（Cursor-basedPagination）是一种高效的分页方式，特别适用于大数据集和无限滚动的场景。与传统的基于页码的分页（如page=1&size=10）不同，游标分页通过一个唯一的游标（通常是时间戳或唯一ID）来标记分页的位置，避免了传统分页在数据变动时的重复或遗漏问题。以下是游标分页在前后端的实现方式：1.游标分页的核心概念游标（Cursor）：游标是一个唯一标识符，通常是数据
Hadoop 集群规划与部署最佳实践 AI天才研究院 Python实战 DeepSeek R1 &大数据AI人工智能大模型自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介2009年2月2日，ApacheHadoop项目诞生。它是一个开源的分布式系统基础架构，用于存储、处理和分析海量的数据。Hadoop具有高容错性、可靠性、可扩展性、适应性等特征，因而广泛应用于数据仓库、日志分析、网络流量监测、推荐引擎、搜索引擎等领域。由于Hadoop采用“分而治之”的架构设计理念，因此可以轻松应对数据量、计算能力和存储成本的增长。2013年底，
轻松入门Apache SeaTunnel：数据集成利器窝窝和牛牛 SeaTunnel ETL 数据集成
文章目录轻松入门ApacheSeaTunnel：数据集成利器什么是SeaTunnel基本原理运行流程SeaTunnelvsDataX：两大数据集成工具对比实战场景：MySQL数据同步至ElasticsearchSeaTunnel实现方案DataX实现方案实现原理对比底层依赖环境方案优缺点分析快速上手环境准备简单示例总结轻松入门ApacheSeaTunnel：数据集成利器什么是SeaTunnelAp
MySQL 到 Hadoop：Sqoop 数据迁移 ETL Ice星空 ETL
文章目录ETL：Extract-Transform-Load数据迁移过程一、Extract数据抽取1.ODS：OperationalDataStore-可操作数据存储2.DW：DataWarehouse-数据仓库3.DM：DataMart-数据集市二、Transform数据清洗和转换1.数据清洗2.数据转换三、Load数据加载四、数据迁移方法1.Sqoop1.1MySQL->Hive1.1.1im
HBase安装 lianhedaxue Hadoop hbase
HBase安装本章将介绍如何安装HBase和初始配置。需要用Java和Hadoop来处理HBase，所以必须下载java和Hadoop并安装系统中。安装前设置安装Hadoop在Linux环境下之前，需要建立和使用LinuxSSH(安全Shell)。按照下面设立Linux环境提供的步骤。创建一个用户首先，建议从Unix创建一个单独的Hadoop用户，文件系统隔离Hadoop文件系统。按照下面给出创建
HBase的架构介绍，安装及简单操作 pk_xz123456 大数据 hbase 架构数据库
一、HBase安装1.环境准备Java环境：确保系统中已经安装了Java8或更高版本。可以通过在命令行中输入java-version来检查Java版本。Hadoop环境：HBase依赖于Hadoop，需要先安装并配置好Hadoop集群。确保Hadoop的相关服务（如HDFS、YARN等）已经正常启动。2.下载HBase从HBase官方网站（https://hbase.apache.org/）下载适
Hive常用函数 - abs Called_Kingsley Hive hive 函数
Hive常用函数-abs官方解释abs(x)-returnstheabsolutevalueofx个人理解就是返回函数括号内数字的绝对值。想要获取该数的绝对值的时候就用这个函数没错使用示例selectabs(-1);>1官方示例abs(x)-returnstheabsolutevalueofxExample:>SELECTabs(0)FROMsrcLIMIT1;0>SELECTabs(-5)FRO
通过启用Ranger插件的Hive审计日志同步到Doris做分析 fzip Doris Hive doris 审计 hive
以下是基于ApacheDoris的RangerHive审计日志同步方案详细步骤，结合审计日志插件与数据导入策略实现：一、Doris环境准备1.创建审计日志库表参考搜索结果的表结构设计，根据Ranger日志字段调整建表语句：CREATEDATABASEIFNOTEXISTSranger_audit;CREATETABLEIFNOTEXISTSranger_audit_hive_log(repoTyp
探索数据安全新境界：Apache Spark SQL Ranger Security插件深度揭秘乌昱有Melanie
探索数据安全新境界：ApacheSparkSQLRangerSecurity插件深度揭秘项目地址:https://gitcode.com/gh_mirrors/sp/spark-ranger随着大数据的爆炸性增长，数据安全性成为了企业不可忽视的核心议题。在这一背景下，【ApacheSparkSQLRangerSecurityPlugin】以其强大的数据访问控制能力脱颖而出，成为数据处理领域的明星级
Java 大视界 -- Java 大数据在智能医疗远程会诊与专家协作中的技术支持（146）青云交大数据新视界 Java 大视界 java 大数据智能医疗远程会诊专家协作数据安全病例诊断
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
HDFS相关的面试题努力的搬砖人. java 面试 hdfs
以下是150道HDFS相关的面试题，涵盖了HDFS的基本概念、架构、操作、数据存储、高可用性、权限管理、性能优化、容错机制、与MapReduce的结合、安全性、数据压缩、监控与管理、与YARN的关系、数据一致性、数据备份与恢复等方面，希望对你有所帮助。HDFS基本概念1.HDFS是什么？它的设计目标是什么？•HDFS是Hadoop分布式文件系统，设计目标是实现对大规模数据的高吞吐量访问，适用于一次
Flink相关面试题努力的搬砖人. 面试 java 后端 flink
以下是150道ApacheFlink面试题及其详细回答，涵盖了Flink的基础知识、核心架构、API使用、性能调优等多个方面，每道题目都尽量详细且简单易懂：Flink基础概念类1.什么是ApacheFlink？ApacheFlink是一个开源的流处理和批处理框架，能够实现快速、可靠、可扩展的大数据处理。它既可以处理无界的数据流，也可以处理有界的数据批，提供了低延迟和高吞吐量的实时数据处理能力。Fl
linux上安装postgresql9.5 crayon-shin-chan #postgresql surprise #linux linux ubuntu PostgreSQL 数据库
1.查看源版本czy@Mint~$sudoapt-getupdateczy@Mint~$apt-cachemadisonpostgresqlpostgresql|9.5+173ubuntu0.3|http://archive.ubuntu.com/ubuntuxenial-updates/mainamd64Packagespostgresql|9.5+173ubuntu0.3|http://arc
2017安全之势：云、大数据、IoT、人工智能 weixin_34392906 人工智能大数据嵌入式
“新技术让信息系统变成了孙悟空，开始无所不能，但安全仍是它的‘紧箍咒’！怎样解开这个‘紧箍咒’？各路安全厂商各显其能，但似乎路漫漫兮离目标还很遥远。”三未信安董事长张岳公在ZD至顶网《百位意见领袖寄语2017》中说出了这样一句话，我觉着很有道理。安全是一个永恒的话题，如果说它与新的信息技术相生相克也不过分。即便如此，我们更要尽可能的减少安全带来的束缚。2017已经到来，不妨来看看至顶网与业界大咖总
HQL之投影查询归来朝歌 HQL Hibernate 查询语句投影查询
在HQL查询中，常常面临这样一个场景，对于多表查询，是要将一个表的对象查出来还是要只需要每个表中的几个字段，最后放在一起显示？针对上面的场景，如果需要将一个对象查出来： HQL语句写“from 对象”即可 Session session = HibernateUtil.openSession();
Spring整合redis bylijinnan redis
pom.xml <dependencies>  <dependency> <groupId>org.springframework.data</groupId> <artifactId>spring-data-redi
org.hibernate.NonUniqueResultException: query did not return a unique result: 2 0624chenhong Hibernate
参考：http://blog.csdn.net/qingfeilee/article/details/7052736 org.hibernate.NonUniqueResultException: query did not return a unique result: 2 在项目中出现了org.hiber
android动画效果不懂事的小屁孩 android动画
前几天弄alertdialog和popupwindow的时候，用到了android的动画效果，今天专门研究了一下关于android的动画效果，列出来，方便以后使用。 Android 平台提供了两类动画。一类是Tween动画，就是对场景里的对象不断的进行图像变化来产生动画效果（旋转、平移、放缩和渐变）。第二类就是 Frame动画，即顺序的播放事先做好的图像，与gif图片原理类似。
js delete 删除机理以及它的内存泄露问题的解决方案换个号韩国红果果 JavaScript
delete删除属性时只是解除了属性与对象的绑定，故当属性值为一个对象时，删除时会造成内存泄露（其实还未删除）举例： var person={name:{firstname:'bob'}} var p=person.name delete person.name p.firstname -->'bob' // 依然可以访问p.firstname，存在内存泄露
Oracle将零干预分析加入网络即服务计划蓝儿唯美 oracle
由Oracle通信技术部门主导的演示项目并没有在本月较早前法国南斯举行的行业集团TM论坛大会中获得嘉奖。但是，Oracle通信官员解雇致力于打造一个支持零干预分配和编制功能的网络即服务（NaaS）平台，帮助企业以更灵活和更适合云的方式实现通信服务提供商（CSP）的连接产品。这个Oracle主导的项目属于TM Forum Live!活动上展示的Catalyst计划的19个项目之一。Catalyst计
spring学习——springmvc（二） a-john springMVC
Spring MVC提供了非常方便的文件上传功能。 1，配置Spring支持文件上传： DispatcherServlet本身并不知道如何处理multipart的表单数据，需要一个multipart解析器把POST请求的multipart数据中抽取出来，这样DispatcherServlet就能将其传递给我们的控制器了。为了在Spring中注册multipart解析器，需要声明一个实现了Mul
POJ-2828-Buy Tickets aijuans ACM_POJ
POJ-2828-Buy Tickets http://poj.org/problem?id=2828 线段树，逆序插入 #include<iostream>#include<cstdio>#include<cstring>#include<cstdlib>using namespace std;#define N 200010struct
Java Ant build.xml详解 asia007 build.xml
1,什么是antant是构建工具2,什么是构建概念到处可查到，形象来说，你要把代码从某个地方拿来，编译，再拷贝到某个地方去等等操作，当然不仅与此，但是主要用来干这个3,ant的好处跨平台 --因为ant是使用java实现的，所以它跨平台使用简单--与ant的兄弟make比起来语法清晰--同样是和make相比功能强大--ant能做的事情很多，可能你用了很久，你仍然不知道它能有
android按钮监听器的四种技术百合不是茶 android xml配置监听器实现接口
android开发中经常会用到各种各样的监听器,android监听器的写法与java又有不同的地方; 1,activity中使用内部类实现接口 ,创建内部类实例使用add方法与java类似创建监听器的实例 myLis lis = new myLis(); 使用add方法给按钮添加监听器
软件架构师不等同于资深程序员 bijian1013 程序员架构师架构设计
本文的作者Armel Nene是ETAPIX Global公司的首席架构师，他居住在伦敦，他参与过的开源项目包括 Apache Lucene,，Apache Nutch， Liferay 和 Pentaho等。如今很多的公司
TeamForge Wiki Syntax & CollabNet User Information Center sunjing TeamForge How do Attachement Anchor Wiki Syntax
the CollabNet user information center http://help.collab.net/ How do I create a new Wiki page? A CollabNet TeamForge project can have any number of Wiki pages. All Wiki pages are linked, and
【Redis四】Redis数据类型 bit1129 redis
概述 Redis是一个高性能的数据结构服务器，称之为数据结构服务器的原因是，它提供了丰富的数据类型以满足不同的应用场景，本文对Redis的数据类型以及对这些类型可能的操作进行总结。 Redis常用的数据类型包括string、set、list、hash以及sorted set.Redis本身是K/V系统，这里的数据类型指的是value的类型，而不是key的类型，key的类型只有一种即string
SSH2整合-附源码白糖_ eclipse spring tomcat Hibernate Google
今天用eclipse终于整合出了struts2+hibernate+spring框架。我创建的是tomcat项目，需要有tomcat插件。导入项目以后，鼠标右键选择属性，然后再找到“tomcat”项，勾选一下“Is a tomcat project”即可。具体方法见源码里的jsp图片，sql也在源码里。补充1：项目中部分jar包不是最新版的，可能导
[转]开源项目代码的学习方法 braveCS 学习方法
转自： http://blog.sina.com.cn/s/blog_693458530100lk5m.html http://www.cnblogs.com/west-link/archive/2011/06/07/2074466.html 1）阅读features。以此来搞清楚该项目有哪些特性2）思考。想想如果自己来做有这些features的项目该如何构架3）下载并安装d
编程之美-子数组的最大和（二维） bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; import java.util.Random; public class MaxSubArraySum2 { /** * 编程之美子数组之和的最大值（二维） */ private static final int ROW = 5; private stat
读书笔记-3 chengxuyuancsdn jquery笔记 resultMap配置 ibatis一对多配置
1、resultMap配置 2、ibatis一对多配置 3、jquery笔记 1、resultMap配置当<select resultMap="topic_data"> <resultMap id="topic_data">必须一一对应。 (1)<resultMap class="tblTopic&q
[物理与天文]物理学新进展 comsci
如果我们必须获得某种地球上没有的矿石,才能够进行某些能量输出装置的设计和建造,而要获得这种矿石,又必须首先进行深空探测,而要进行深空探测,又必须获得这种能量输出装置,这个矛盾的循环,会导致地球联盟在与宇宙文明建立关系的时候,陷入困境怎么办呢?
Oracle 11g新特性:Automatic Diagnostic Repository daizj oracle ADR
Oracle Database 11g的FDI（Fault Diagnosability Infrastructure）是自动化诊断方面的又一增强。 FDI的一个关键组件是自动诊断库（Automatic Diagnostic Repository-ADR）。在oracle 11g中，alert文件的信息是以xml的文件格式存在的，另外提供了普通文本格式的alert文件。这两份log文
简单排序:选择排序 dieslrae 选择排序
public void selectSort(int[] array){ int select; for(int i=0;i<array.length;i++){ select = i; for(int k=i+1;k<array.leng
C语言学习六指针的经典程序，互换两个数字 dcj3sjt126com c
示例程序，swap_1和swap_2都是错误的，推理从1开始推到2，2没完成，推到3就完成了 # include <stdio.h> void swap_1(int, int); void swap_2(int *, int *); void swap_3(int *, int *); int main(void) { int a = 3; int b =
php 5.4中php-fpm 的重启、终止操作命令 dcj3sjt126com PHP
php 5.4中php-fpm 的重启、终止操作命令: 查看php运行目录命令：which php/usr/bin/php 查看php-fpm进程数：ps aux | grep -c php-fpm 查看运行内存/usr/bin/php -i|grep mem 重启php-fpm/etc/init.d/php-fpm restart 在phpinfo()输出内容可以看到php
线程同步工具类 shuizhaosi888 同步工具类
同步工具类包括信号量（Semaphore）、栅栏（barrier）、闭锁（CountDownLatch）闭锁（CountDownLatch） public class RunMain { public long timeTasks(int nThreads, final Runnable task) throws InterruptedException { fin
bleeding edge是什么意思 haojinghua DI
不止一次，看到很多讲技术的文章里面出现过这个词语。今天终于弄懂了——通过朋友给的浏览软件，上了wiki。我再一次感到，没有辞典能像WiKi一样，给出这样体贴人心、一清二楚的解释了。为了表达我对WiKi的喜爱，只好在此一一中英对照，给大家上次课。 In computer science, bleeding edge is a term that
c中实现utf8和gbk的互转 jimmee c iconv utf8&gbk编码
#include <iconv.h> #include <stdlib.h> #include <stdio.h> #include <unistd.h> #include <fcntl.h> #include <string.h> #include <sys/stat.h> int code_c
大型分布式网站架构设计与实践 lilin530 应用服务器搜索引擎
1.大型网站软件系统的特点？ a.高并发，大流量。 b.高可用。 c.海量数据。 d.用户分布广泛，网络情况复杂。 e.安全环境恶劣。 f.需求快速变更，发布频繁。 g.渐进式发展。 2.大型网站架构演化发展历程？ a.初始阶段的网站架构。应用程序，数据库，文件等所有的资源都在一台服务器上。 b.应用服务器和数据服务器分离。 c.使用缓存改善网站性能。 d.使用应用
在代码中获取Android theme中的attr属性值 OliveExcel android theme
Android的Theme是由各种attr组合而成, 每个attr对应了这个属性的一个引用, 这个引用又可以是各种东西. 在某些情况下, 我们需要获取非自定义的主题下某个属性的内容 (比如拿到系统默认的配色colorAccent), 操作方式举例一则: int defaultColor = 0xFF000000; int[] attrsArray = { andorid.r.
基于Zookeeper的分布式共享锁 roadrunners zookeeper 分布式共享锁
首先，说说我们的场景，订单服务是做成集群的，当两个以上结点同时收到一个相同订单的创建指令，这时并发就产生了，系统就会重复创建订单。等等......场景。这时，分布式共享锁就闪亮登场了。共享锁在同一个进程中是很容易实现的，但在跨进程或者在不同Server之间就不好实现了。Zookeeper就很容易实现。具体的实现原理官网和其它网站也有翻译，这里就不在赘述了。官
两个容易被忽略的MySQL知识 tomcat_oracle mysql
1、varchar(5)可以存储多少个汉字，多少个字母数字？　　相信有好多人应该跟我一样，对这个已经很熟悉了，根据经验我们能很快的做出决定，比如说用varchar(200)去存储url等等，但是，即使你用了很多次也很熟悉了，也有可能对上面的问题做出错误的回答。　　这个问题我查了好多资料，有的人说是可以存储5个字符，2.5个汉字（每个汉字占用两个字节的话），有的人说这个要区分版本，5.0
zoj 3827 Information Entropy(水题) 阿尔萨斯 format
题目链接：zoj 3827 Information Entropy 题目大意：三种底，计算和。解题思路：调用库函数就可以直接算了，不过要注意Pi = 0的时候，不过它题目里居然也讲了。。。limp→0+plogb(p)=0，因为p是logp的高阶。 #include <cstdio> #include <cstring> #include <cmath&