zhoudaxia

Hive体系结构

本文整理自阿里数据平台的官方博客：http://www.alidata.org/archives/category/cloud-computing/hive

1、Hive架构与基本组成

下面是Hive的架构图。

图1.1 Hive体系结构

Hive的体系结构可以分为以下几部分：

    （1）用户接口主要有三个：CLI，Client 和 WUI。其中最常用的是CLI，Cli启动的时候，会同时启动一个Hive副本。Client是Hive的客户端，用户连接至Hive Server。在启动 Client模式的时候，需要指出Hive Server所在节点，并且在该节点启动Hive Server。 WUI是通过浏览器访问Hive。
    （2）Hive将元数据存储在数据库中，如mysql、derby。Hive中的元数据包括表的名字，表的列和分区及其属性，表的属性（是否为外部表等），表的数据所在目录等。
    （3）解释器、编译器、优化器完成HQL查询语句从词法分析、语法分析、编译、优化以及查询计划的生成。生成的查询计划存储在HDFS中，并在随后有MapReduce调用执行。
    （4）Hive的数据存储在HDFS中，大部分的查询、计算由MapReduce完成（包含*的查询，比如select * from tbl不会生成MapRedcue任务）。

Hive将元数据存储在RDBMS中，有三种模式可以连接到数据库：

（1）单用户模式。此模式连接到一个In-memory 的数据库Derby，一般用于Unit Test。

图2.1 单用户模式

（2）多用户模式。通过网络连接到一个数据库中，是最经常使用到的模式。

图2.2 多用户模式

（3）远程服务器模式。用于非Java客户端访问元数据库，在服务器端启动MetaStoreServer，客户端利用Thrift协议通过MetaStoreServer访问元数据库。

对于数据存储，Hive没有专门的数据存储格式，也没有为数据建立索引，用户可以非常自由的组织Hive中的表，只需要在创建表的时候告诉Hive数据中的列分隔符和行分隔符，Hive就可以解析数据。Hive中所有的数据都存储在HDFS中，存储结构主要包括数据库、文件、表和视图。Hive中包含以下数据模型：Table内部表，External Table外部表，Partition分区，Bucket桶。Hive默认可以直接加载文本文件，还支持sequence file 、RCFile。

Hive的数据模型介绍如下：

（1）Hive数据库

类似传统数据库的DataBase，在第三方数据库里实际是一张表。简单示例命令行 hive > create database test_database;

（2）内部表

Hive的内部表与数据库中的Table在概念上是类似。每一个Table在Hive中都有一个相应的目录存储数据。例如一个表pvs，它在HDFS中的路径为/wh/pvs，其中wh是在hive-site.xml中由${hive.metastore.warehouse.dir} 指定的数据仓库的目录，所有的Table数据（不包括External Table）都保存在这个目录中。删除表时，元数据与数据都会被删除。

内部表简单示例：
创建数据文件：test_inner_table.txt

    创建表：create table test_inner_table (key string)
    加载数据：LOAD DATA LOCAL INPATH ‘filepath’ INTO TABLE test_inner_table
    查看数据：select * from test_inner_table; select count(*) from test_inner_table
    删除表：drop table test_inner_table

（3）外部表

    外部表指向已经在HDFS中存在的数据，可以创建Partition。它和内部表在元数据的组织上是相同的，而实际数据的存储则有较大的差异。内部表的创建过程和数据加载过程这两个过程可以分别独立完成，也可以在同一个语句中完成，在加载数据的过程中，实际数据会被移动到数据仓库目录中；之后对数据对访问将会直接在数据仓库目录中完成。删除表时，表中的数据和元数据将会被同时删除。而外部表只有一个过程，加载数据和创建表同时完成（CREATE EXTERNAL TABLE ……LOCATION），实际数据是存储在LOCATION后面指定的 HDFS 路径中，并不会移动到数据仓库目录中。当删除一个External Table时，仅删除该链接。
    外部表简单示例：
    创建数据文件：test_external_table.txt
    创建表：create external table test_external_table (key string)
    加载数据：LOAD DATA INPATH ‘filepath’ INTO TABLE test_inner_table
    查看数据：select * from test_external_table; •select count(*) from test_external_table
    删除表：drop table test_external_table

（4）分区

Partition对应于数据库中的Partition列的密集索引，但是Hive中Partition的组织方式和数据库中的很不相同。在Hive中，表中的一个Partition对应于表下的一个目录，所有的Partition的数据都存储在对应的目录中。例如pvs表中包含ds和city两个Partition，则对应于ds = 20090801, ctry = US 的HDFS子目录为/wh/pvs/ds=20090801/ctry=US；对应于 ds = 20090801, ctry = CA 的HDFS子目录为/wh/pvs/ds=20090801/ctry=CA。

    分区表简单示例：
    创建数据文件：test_partition_table.txt
    创建表：create table test_partition_table (key string) partitioned by (dt string)
    加载数据：LOAD DATA INPATH ‘filepath’ INTO TABLE test_partition_table partition (dt=‘2006’)
    查看数据：select * from test_partition_table; select count(*) from test_partition_table
    删除表：drop table test_partition_table

（5）桶

Buckets是将表的列通过Hash算法进一步分解成不同的文件存储。它对指定列计算hash，根据hash值切分数据，目的是为了并行，每一个Bucket对应一个文件。例如将user列分散至32个bucket，首先对user列的值计算hash，对应hash值为0的HDFS目录为/wh/pvs/ds=20090801/ctry=US/part-00000；hash值为20的HDFS目录为/wh/pvs/ds=20090801/ctry=US/part-00020。如果想应用很多的Map任务这样是不错的选择。

    桶的简单示例：
    创建数据文件：test_bucket_table.txt
    创建表：create table test_bucket_table (key string) clustered by (key) into 20 buckets
    加载数据：LOAD DATA INPATH ‘filepath’ INTO TABLE test_bucket_table
    查看数据：select * from test_bucket_table; set hive.enforce.bucketing = true;

（6）Hive的视图

视图与传统数据库的视图类似。视图是只读的，它基于的基本表，如果改变，数据增加不会影响视图的呈现；如果删除，会出现问题。•如果不指定视图的列，会根据select语句后的生成。
示例：create view test_view as select * from test

2、Hive的执行原理

图2.1 Hive的执行原理

    Hive构建在Hadoop之上，
    （1）HQL中对查询语句的解释、优化、生成查询计划是由Hive完成的
    （2）所有的数据都是存储在Hadoop中
    （3）查询计划被转化为MapReduce任务，在Hadoop中执行（有些查询没有MR任务，如：select * from table）
    （4）Hadoop和Hive都是用UTF-8编码的

Hive编译器将一个Hive QL转换操作符。操作符Operator是Hive的最小的处理单元，每个操作符代表HDFS的一个操作或者一道MapReduce作业。Operator都是hive定义的一个处理过程，其定义有：
protected List <Operator<? extends Serializable >> childOperators;
protected List <Operator<? extends Serializable >> parentOperators;
protected boolean done; // 初始化值为false

所有的操作构成了Operator图，hive正是基于这些图关系来处理诸如limit, group by, join等操作。

图2.2 Hive QL的操作符

    操作符如下：
    TableScanOperator：扫描hive表数据
    ReduceSinkOperator：创建将发送到Reducer端的<Key,Value>对
    JoinOperator：Join两份数据
    SelectOperator：选择输出列
    FileSinkOperator：建立结果数据,输出至文件
    FilterOperator：过滤输入数据
    GroupByOperator：GroupBy语句
    MapJoinOperator：/*+mapjoin(t) */
    LimitOperator：Limit语句
    UnionOperator：Union语句
    Hive通过ExecMapper和ExecReducer执行MapReduce任务。在执行MapReduce时有两种模式，即本地模式和分布式模式。

Hive编译器的组成：

图2.3 Hive编译器的组成

编译流程如下：

图2.4 Hive QL编译流程

3、Hive和数据库的异同
由于Hive采用了SQL的查询语言HQL，因此很容易将Hive理解为数据库。其实从结构上来看，Hive和数据库除了拥有类似的查询语言，再无类似之处。数据库可以用在Online的应用中，但是Hive是为数据仓库而设计的，清楚这一点，有助于从应用角度理解Hive的特性。

Hive和数据库的比较如下表：

	Hive	RDBMS
查询语言	HQL	SQL
数据存储	HDFS	Raw Device or Local FS
数据格式	用户定义	系统决定
数据更新	不支持	支持
索引	无	有
执行	MapReduce	Executor
执行延迟	高	低
处理数据规模	大	小
可扩展性	高	低

     （1）查询语言。由于 SQL 被广泛的应用在数据仓库中，因此专门针对Hive的特性设计了类SQL的查询语言HQL。熟悉SQL开发的开发者可以很方便的使用Hive进行开发。
     （2）数据存储位置。Hive是建立在Hadoop之上的，所有Hive的数据都是存储在HDFS中的。而数据库则可以将数据保存在块设备或者本地文件系统中。
     （3）数据格式。Hive中没有定义专门的数据格式，数据格式可以由用户指定，用户定义数据格式需要指定三个属性：列分隔符（通常为空格、”\t”、”\x001″）、行分隔符（”\n”）以及读取文件数据的方法（Hive中默认有三个文件格式TextFile，SequenceFile以及RCFile）。由于在加载数据的过程中，不需要从用户数据格式到Hive定义的数据格式的转换，因此， Hive在加载的过程中不会对数据本身进行任何修改，而只是将数据内容复制或者移动到相应的HDFS目录中。而在数据库中，不同的数据库有不同的存储引擎，定义了自己的数据格式。所有数据都会按照一定的组织存储，因此，数据库加载数据的过程会比较耗时。
     （4）数据更新。由于Hive是针对数据仓库应用设计的，而数据仓库的内容是读多写少的。因此，Hive中不支持对数据的改写和添加，所有的数据都是在加载的时候中确定好的。而数据库中的数据通常是需要经常进行修改的，因此可以使用INSERT INTO ... VALUES添加数据，使用UPDATE ... SET修改数据。
     （5）索引。之前已经说过，Hive在加载数据的过程中不会对数据进行任何处理，甚至不会对数据进行扫描，因此也没有对数据中的某些Key建立索引。Hive要访问数据中满足条件的特定值时，需要暴力扫描整个数据，因此访问延迟较高。由于MapReduce的引入， Hive可以并行访问数据，因此即使没有索引，对于大数据量的访问，Hive仍然可以体现出优势。数据库中，通常会针对一个或者几个列建立索引，因此对于少量的特定条件的数据的访问，数据库可以有很高的效率，较低的延迟。由于数据的访问延迟较高，决定了Hive不适合在线数据查询。
     （6）执行。Hive中大多数查询的执行是通过Hadoop提供的MapReduce来实现的（类似select * from tbl的查询不需要MapReduce）。而数据库通常有自己的执行引擎。
     （7）执行延迟。之前提到，Hive在查询数据的时候，由于没有索引，需要扫描整个表，因此延迟较高。另外一个导致Hive执行延迟高的因素是MapReduce框架。由于MapReduce本身具有较高的延迟，因此在利用MapReduce执行Hive查询时，也会有较高的延迟。相对的，数据库的执行延迟较低。当然，这个低是有条件的，即数据规模较小，当数据规模大到超过数据库的处理能力的时候，Hive的并行计算显然能体现出优势。
     （8）可扩展性。由于Hive是建立在Hadoop之上的，因此Hive的可扩展性是和Hadoop的可扩展性是一致的（世界上最大的Hadoop集群在Yahoo!，2009年的规模在4000台节点左右）。而数据库由于ACID语义的严格限制，扩展行非常有限。目前最先进的并行数据库Oracle在理论上的扩展能力也只有100台左右。
     （9）数据规模。由于Hive建立在集群上并可以利用MapReduce进行并行计算，因此可以支持很大规模的数据；对应的，数据库可以支持的数据规模较小。
    4、Hive元数据库
    Hive将元数据存储在RDBMS 中，一般常用的有MYSQL和DERBY。

启动HIVE的元数据库时，需要进入到hive的安装目录
启动derby数据库：/home/admin/caona/hive/build/dist/，运行startNetworkServer -h 0.0.0.0。

连接Derby数据库进行测试：查看/home/admin/caona/hive/build/dist/conf/hive-default.xml。找到

<property>
<name>javax.jdo.option.ConnectionURL</name>
<value>jdbc:derby://hadoop1:1527/metastore_db;create=true</value>
<description>JDBC connect string for a JDBC metastore</description>
</property>

进入derby安装目录：/home/admin/caona/hive/build/dist/db-derby-10.4.1.3-bin/bin
输入：./ij Connect 'jdbc:derby://hadoop1:1527/metastore_db;create=true';

hive元数据对应的表约有20个，其中和表结构信息有关的有9张，其余的10多张或为空，或只有简单的几条记录，以下是部分主要表的简要说明。

表名	说明	关联键
TBLS	所有hive表的基本信息	TBL_ID,SD_ID
TABLE_PARAM	表级属性，如是否外部表，表注释等	TBL_ID
COLUMNS	Hive表字段信息(字段注释，字段名，字段类型，字段序号)	SD_ID
SDS	所有hive表、表分区所对应的hdfs数据目录和数据格式	SD_ID,SERDE_ID
SERDE_PARAM	序列化反序列化信息，如行分隔符、列分隔符、NULL的表示字符等	SERDE_ID
PARTITIONS	Hive表分区信息	PART_ID,SD_ID,TBL_ID
PARTITION_KEYS	Hive分区表分区键	TBL_ID
PARTITION_KEY_VALS	Hive表分区名(键值)	PART_ID

    从上面表的内容来看，hive整个创建表的过程已经比较清楚了。
    （1）解析用户提交hive语句，对其进行解析，分解为表、字段、分区等hive对象
    （2）根据解析到的信息构建对应的表、字段、分区等对象，从 SEQUENCE_TABLE中获取构建对象的最新ID，与构建对象信息（名称，类型等）一同通过DAO方法写入到元数据表中去，成功后将SEQUENCE_TABLE中对应的最新ID+5。
    实际上我们常见的RDBMS都是通过这种方法进行组织的，典型的如postgresql，其系统表中和hive元数据一样裸露了这些id信息（oid,cid等），而Oracle等商业化的系统则隐藏了这些具体的ID。通过这些元数据我们可以很容易的读到数据诸如创建一个表的数据字典信息，比如导出建表语名等。

5、Hive基本操作

Create Table语句的一些注意项：

    （1）CREATE TABLE创建一个指定名字的表。如果相同名字的表已经存在，则抛出异常；用户可以用IF NOT EXIST选项来忽略这个异常。
   （2）EXTERNAL 关键字可以让用户创建一个外部表，在建表的同时指定一个指向实际数据的路径（ LOCATION ），Hive 创建内部表时，会将数据移动到数据仓库指向的路径；若创建外部表，仅记录数据所在的路径，不对数据的位置做任何改变。在删除表的时候，内部表的元数据和数据会被一起删除，而外部表只删除元数据，不删除数据。
    （3）LIKE允许用户复制现有的表结构，但是不复制数据。
    （4）用户在建表的时候可以自定义SerDe或者使用自带的 SerDe （ Serialize/Deserilize 的简称，目的是用于序列化和反序列化）。如果没有指定 ROW FORMAT 或者 ROW FORMAT DELIMITED，将会使用自带的SerDe。在建表的时候，用户还需要为表指定列，用户在指定表的列的同时也会指定自定义的SerDe，Hive通过SerDe确定表的具体的列的数据。
    （5）如果文件数据是纯文本，可以使用STORED AS TEXTFILE。如果数据需要压缩，使用STORED AS SEQUENCE。
    （6）有分区的表可以在创建的时候使用 PARTITIONED B Y语句。一个表可以拥有一个或者多个分区，每一个分区单独存在一个目录下。而且，表和分区都可以对某个列进行CLUSTERED BY操作，将若干个列放入一个桶（bucket）中。也可以利用SORT BY对数据进行排序。这样可以为特定应用提高性能。
    （7）表名和列名不区分大小写，SerDe和属性名区分大小写。表和列的注释是字符串。

Alter Table语句：主要功能包括Add Partitions, Drop Partitions, Rename Table, Change Column, Add/Replace Columns。

Create View语句：创建视图。格式CREATE VIEW [IF NOT EXISTS] view_name [ (column_name [COMMENT column_comment], ...) ]

Showy语句：Show tables; Show partitions; describe查看表结构。

Load语句：HIVE装载数据时没有做任何转换，加载到表中的数据只是进入相应的配置单元表的位置。Load操作只是单纯的复制/移动操作，将数据文件移动到Hive表对应的位置。

Insert语句：插入数据。Hive不支持一条一条的用 insert 语句进行插入操作，这个应该是与hive的storage layer是有关系的，因为它的存储层是HDFS，插入一个数据要全表扫描，还不如用整个表的替换来的快些。Hive也不支持update的操作。数据是以load的方式，加载到建立好的表中。数据一旦导入，则不可修改。要么drop掉整个表，要么建立新的表，导入新的数据。

Drop语句：删除一个内部表的同时会同时删除表的元数据和数据。删除一个外部表，只删除元数据而保留数据。

Limit子句：可以限制查询的记录数。查询的结果是随机选择的。下面的查询语句从 t1 表中随机查询5条记录，SELECT * FROM t1 LIMIT 5。

Top K查询：下面的查询语句查询销售记录最大的 5 个销售代表。
SET mapred.reduce.tasks = 1
SELECT * FROM sales SORT BY amount DESC LIMIT 5

正则表达式使用：SELECT语句可以使用正则表达式做列选择，下面的语句查询除了ds和h 之外的所有列：
SELECT `(ds|hr)?+.+` FROM sales

SELECT语句：查询数据。

Group by, Order by, Sort by子句：聚合可进一步分为多个表，甚至发送到 Hadoop 的 DFS 的文件（可以进行操作，然后使用HDFS的utilitites）。可以用hive.map.aggr控制怎么进行汇总。默认为为true，配置单元会做的第一级聚合直接在MAP上的任务。这通常提供更好的效率，但可能需要更多的内存来运行成功。

Join语句：连接操作。一些注意事项：

（1）Hive只支持等值连接（equality joins）、外连接（outer joins）和（left/right joins）。Hive不支持所有非等值的连接，因为非等值连接非常难转化到map/reduce任务。

（2）Hive 支持多于2个表的连接。

（3）join 时，每次 map/reduce 任务的逻辑： reducer 会缓存 join 序列中除了最后一个表的所有表的记录，再通过最后一个表将结果序列化到文件系统。这一实现有助于在reduce端减少内存的使用量。实践中，应该把最大的那个表写在最后（否则会因为缓存浪费大量内存）。

（4）LEFT，RIGHT 和 FULL OUTER 关键字用于处理 join 中空记录的情况。

（5）LEFT SEMI JOIN 是 IN/EXISTS 子查询的一种更高效的实现。Hive 当前没有实现 IN/EXISTS 子查询，所以你可以用 LEFT SEMI JOIN 重写你的子查询语句。LEFT SEMI JOIN的限制是， JOIN子句中右边的表只能在ON子句中设置过滤条件，在WHERE子句、SELECT子句或其他地方过滤都不行。

    6、使用HIVE注意点
    （1）字符集
    Hadoop和Hive都是用UTF-8编码的，所以, 所有中文必须是UTF-8编码, 才能正常使用。
    备注：中文数据load到表里面,，如果字符集不同，很有可能全是乱码需要做转码的，但是hive本身没有函数来做这个。
    （2）压缩
    hive.exec.compress.output 这个参数，默认是false，但是很多时候貌似要单独显式设置一遍，否则会对结果做压缩的，如果你的这个文件后面还要在hadoop下直接操作，那么就不能压缩了。
    （3）count(distinct)
    当前的Hive不支持在一条查询语句中有多Distinct。如果要在Hive查询语句中实现多Distinct，需要使用至少n+1条查询语句（n为distinct的数目），前n条查询分别对n个列去重，最后一条查询语句对n个去重之后的列做Join操作，得到最终结果。
    （4）JOIN
    只支持等值连接
    （5）DML操作
    只支持INSERT/LOAD操作，无UPDATE和DELTE
    （6）HAVING
    不支持HAVING操作。如果需要这个功能要嵌套一个子查询用where限制
    （7）子查询
    Hive不支持where子句中的子查询
    （8）Join中处理null值的语义区别
    SQL标准中，任何对null的操作（数值比较，字符串操作等）结果都为null。Hive对null值处理的逻辑和标准基本一致，除了Join时的特殊逻辑。这里的特殊逻辑指的是，Hive的Join中，作为Join key的字段比较，null=null是有意义的，且返回值为true。

（9）分号字符

    分号是SQL语句结束标记，在HiveQL中也是，但是在HiveQL中，对分号的识别没有那么智慧，例如：
select concat(cookie_id,concat(';',’zoo’)) from c02_clickstat_fatdt1 limit 2;
FAILED: Parse Error: line 0:-1 cannot recognize input '<EOF>' in function specification
    可以推断，Hive解析语句的时候，只要遇到分号就认为语句结束，而无论是否用引号包含起来。
    解决的办法是，使用分号的八进制的ASCII码进行转义，那么上述语句应写成：
select concat(cookie_id,concat('\073','zoo')) from c02_clickstat_fatdt1 limit 2;
    为什么是八进制ASCII码？我尝试用十六进制的ASCII码，但Hive会将其视为字符串处理并未转义，好像仅支持八进制，原因不详。这个规则也适用于其他非SELECT语句，如CREATE TABLE中需要定义分隔符，那么对不可见字符做分隔符就需要用八进制的ASCII码来转义。

（10）Insert

根据语法Insert必须加“OVERWRITE”关键字，也就是说每一次插入都是一次重写。

7、Hive的扩展特性

    Hive 是一个很开放的系统，很多内容都支持用户定制，包括：
    * 文件格式：Text File，Sequence File
    * 内存中的数据格式： Java Integer/String, Hadoop IntWritable/Text
    * 用户提供的map/reduce脚本：不管什么语言，利用stdin/stdout传输数据
    * 用户自定义函数：Substr, Trim, 1 – 1
    * 用户自定义聚合函数：Sum, Average…… n – 1

（1）数据文件格式

	TextFile	SequenceFIle	RCFFile
Data type	Text Only	Text/Binary	Text/Binary
Internal Storage Order	Row-based	Row-based	Column-based
Compression	File Based	Block Based	Block Based
Splitable	YES	YES	YES
Splitable After Compression	No	YES	YES

例如使用文件文件格式存储创建的表：

CREATE TABLE mylog ( user_id BIGINT, page_url STRING, unix_time INT)
STORED AS TEXTFILE;

当用户的数据文件格式不能被当前Hive所识别的时候，可以自定义文件格式。可以参考contrib/src/java/org/apache/hadoop/hive/contrib/fileformat/base64中的例子。写完自定义的格式后，在创建表的时候指定相应的文件格式就可以：

CREATE TABLE base64_test(col1 STRING, col2 STRING)
STORED AS
INPUTFORMAT 'org.apache.hadoop.hive.contrib.
fileformat.base64.Base64TextInputFormat'
OUTPUTFORMAT 'org.apache.hadoop.hive.contrib.
fileformat.base64.Base64TextOutputFormat';

    （2）SerDe
    SerDe是Serialize/Deserilize的简称，目的是用于序列化和反序列化。序列化的格式包括：分隔符（tab、逗号、CTRL-A）、Thrift 协议
    反序列化（内存内）：Java Integer/String/ArrayList/HashMap、Hadoop Writable类、用户自定义类
    目前存在的Serde见下图：

图7.1 SeDe类型

    其中，LazyObject只有在访问到列的时候才进行反序列化。 BinarySortable保留了排序的二进制格式。
    当存在以下情况时，可以考虑增加新的SerDe：
    * 用户的数据有特殊的序列化格式，当前的Hive不支持，而用户又不想在将数据加载至Hive前转换数据格式。
    * 用户有更有效的序列化磁盘数据的方法。
    用户如果想为Text数据增加自定义Serde，可以参照contrib/src/java/org/apache/hadoop/hive/contrib/serde2/RegexSerDe.java中的例子。RegexSerDe利用用户提供的正则表倒是来反序列化数据，例如：

CREATE TABLE apache_log(
    host STRING,
    identity STRING,
    user STRING,
    time STRING,
    request STRING,
    status STRING,
    size STRING,
    referer STRING,
    agent STRING)
  ROW FORMAT
    SERDE 'org.apache.hadoop.hive.contrib.serde2.RegexSerDe'
    WITH SERDEPROPERTIES
      ( "input.regex" = "([^ ]*) ([^ ]*) ([^ ]*) (-|\\[[^\\]]*\\])
      ([^ \"]*|\"[^\"]*\") (-|[0-9]*) (-|[0-9]*)(?: ([^ \"]*|\"[^\"]*\")
      ([^ \"]*|\"[^\"]*\"))?",
      "output.format.string" = "%1$s %2$s %3$s %4$s %5$s %6$s %7$s %8$s %9$s";)
      STORED AS TEXTFILE;

用户如果想为Binary数据增加自定义的SerDe，可以参考例子serde/src/java/org/apache/hadoop/hive/serde2/binarysortable，例如：

CREATE TABLE mythrift_table
  ROW FORMAT SERDE
    'org.apache.hadoop.hive.contrib.serde2.thrift.ThriftSerDe'
  WITH SERDEPROPERTIES (
    "serialization.class" = "com.facebook.serde.tprofiles.full",
    "serialization.format" = "com.facebook.thrift.protocol.TBinaryProtocol";);

（3）Map/Reduce脚本（Transform）
用户可以自定义Hive使用的Map/Reduce脚本，比如：

FROM (
	SELECT TRANSFORM(user_id, page_url, unix_time)
	USING 'page_url_to_id.py'
	AS (user_id, page_id, unix_time)
  FROM mylog
	DISTRIBUTE BY user_id
	SORT BY user_id, unix_time)
	  mylog2
	SELECT TRANSFORM(user_id, page_id, unix_time)
	USING 'my_python_session_cutter.py' AS (user_id, session_info);

    Map/Reduce脚本通过stdin/stdout进行数据的读写，调试信息输出到stderr。
    （4）UDF（User-Defined-Function）
    用户可以自定义函数对数据进行处理，例如：

add jar build/ql/test/test-udfs.jar;
  CREATE TEMPORARY FUNCTION testlength
	AS 'org.apache.hadoop.hive.ql.udf.UDFTestLength'; 

  SELECT testlength(src.value) FROM src; 

  DROP TEMPORARY FUNCTION testlength;

UDFTestLength.java为：

package org.apache.hadoop.hive.ql.udf; 

  public class UDFTestLength extends UDF {
	public Integer evaluate(String s) {
	  if (s == null) {
		return null;
	  }
	return s.length();
	}
  }

    UDF 具有以下特性：
    * 用java写UDF很容易。
    * Hadoop的Writables/Text 具有较高性能。
    * UDF可以被重载。
    * Hive支持隐式类型转换。
    * UDF支持变长的参数。
    * genericUDF 提供了较好的性能（避免了反射）。

（5）UDAF（User-Defined Aggregation Funcation）
例子：

SELECT page_url, count(1), count(DISTINCT user_id) FROM mylog;

UDAFCount.java代码如下：

public class UDAFCount extends UDAF {
	public static class Evaluator implements UDAFEvaluator {
	  private int mCount; 

	  public void init() {
		mcount = 0;
	  } 

	  public boolean iterate(Object o) {
		if (o!=null)
		  mCount++; 

		return true;
	  } 

	  public Integer terminatePartial() {
		return mCount;
	  } 

	  public boolean merge(Integer o) {
		mCount += o;
		return true;
	  } 

	  public Integer terminate() {
		return mCount;
	  }
  }

    UDAF 总结：
    * 编写UDAF和UDF类似
    * UDAF可以重载
    * UDAF可以返回复杂类
    * 在使用UDAF的时候可以禁止部分聚合功能
    UDF，UDAF和MR脚本的对比：

图7.2 UDF/UDAF/MR脚本比较

你可能感兴趣的:(hive,存储,数据仓库)

技术分享 | 国产达梦数据库DM8优化思路数据库sql优化
本文为墨天轮数据库管理服务团队第52期技术分享，内容原创，作者为技术顾问muggle，如需转载请联系小墨（VX：modb666）并注明来源。1、适用范围达梦数据产品：DM82、表设计优化表设计优化可以从三个方面入手：选择合适的表类型、设置分区表、设置全局临时表。2.1表类型选择达梦数据库提供了三种表类型：行存储表、列存储表（HUGE）和堆表。运维人员可根据实际需求选择合适的表类型。表类型描述主要特
虚拟化数据恢复—ESX SERVER常见故障数据恢复秘籍数据恢复
◆ESXSERVER常见故障：a、因光纤存储设备连接至非ESX环境，共享互斥失败，对存储改写（重装系统，WINDOWS初始化，格式化等），导致存储结构损坏；b、升级/变更卷时分区表或VMFS卷结构异常；c、误删除VMFS存储中虚拟机/文件；d、误删除/重建数据存储。◆检测流程：a、检测是否存在硬件故障，如存在硬件故障，让硬件工程师处理；b、检测故障表现是否与用户描述相同。◆恢复流程：a、备份：以只
C++进阶——指针徐行tag C++进阶 c++开发语言
第一部分：指针的本质（内存视角）内存地址的物理意义计算机内存是一系列连续编址的存储单元每个变量占据特定内存区域（如intx占4字节）地址：内存单元的唯一编号（如0x7ffeeb0c）指针的定义cppintx=42;//普通变量int*ptr=&x;//ptr保存x的地址&操作符：取地址操作符（Address-ofOperator）*操作符：声明指针类型或解引用操作符（DereferenceOper
华途加密软件怎么样？ jinan886 大数据网络安全开源软件
华途加密软件是一款专注于数据安全的产品，具有以下特点：1.高强度加密采用国际标准加密算法（如AES、RSA），确保数据在传输和存储中的安全性。2.透明加密支持透明加密，用户无需手动操作，文件在创建和修改时自动加密，使用体验流畅。3.权限管理提供细粒度的权限控制，管理员可为不同用户或用户组设置不同的访问权限，防止未经授权的访问。4.审计与监控具备日志记录和审计功能，便于追踪文件操作，及时发现异常行为
MySQL insert on duplicate 加锁分析（2） mysql数据库
插入记录导致唯一索引冲突，onduplicatekeyupdate更新非索引字段值的加锁情况分析。作者：操盛春，爱可生技术专家，公众号『一树一溪』作者，专注于研究MySQL和OceanBase源码。爱可生开源社区出品，原创内容未经授权不得随意使用，转载请联系小编并注明来源。本文基于MySQL8.0.32源码，存储引擎为InnoDB。正文1.准备工作创建测试表：CREATETABLE`t4`(`id
Java中的多态躲在云朵里` java 开发语言
一、数据类型数据类型：决定数据在内存当中是什么样的存储形式比如：int类型：1bit符号位，32bit数值位byte类型：1bit符号位，7bit数值位float类型：1bit符号位，8bit阶位，23bit数值位创建一个父类A：publicclassA{publicStringname;publicintage;publicvoidrun(){System.out.println("A跑得很快"
Lua语言的区块链燕雨澜包罗万象 golang 开发语言后端
Lua语言的区块链技术探讨引言近年来，区块链技术以其去中心化、不可篡改的数据存储及透明性等特点，逐渐成为各个行业关注的焦点。然而，区块链不是孤立存在的，它需要高效且灵活的编程语言来实现各种功能和应用。在众多编程语言中，Lua作为一种轻量级的脚本语言，因其灵活性和扩展性正逐渐进入区块链技术的视野。本文将探讨Lua语言在区块链的应用前景、技术优势及其实现方案。一、区块链技术概述区块链是一种分布式数据库
服务器数据恢复—Raid5热备盘同步失败导致阵列崩溃的数据恢复案例数据恢复
服务器数据恢复环境：某公司一台存储上有一组由15块硬盘组建的raid5阵列。raid5阵列上层是一个xfs裸分区，起始位置是0扇区。服务器故障：raid5阵列中有一块硬盘出现故障掉线，热备盘自动上线同步数据，数据同步还没有完成的情况下磁盘阵列中又有一块硬盘掉线，数据同步过程中断，阵列崩溃。这是一个典型的raid5磁盘阵列的热备盘在同步数据过程中由于其他硬盘掉线导致raid崩溃的案例。针对这种故障情
运动仿真——phased.Platform TifLil phasedArray工具箱 MATLAB知识点 matlab
在雷达仿真过程中，运动仿真的必要性，以及运动仿真可以实现哪些功能，在matlab对应的userguide中已经讲的很清楚了，这里不再赘述。本文主要介绍phased.Platform的一些“坑”，和典型的用法。第一坑：系统对象机制系统对象（systemobject）在调用的时候，返回当前的状态值，并计算下一状态值存储在系统对象中，直到调用release函数复位。假如仿真的时间步长为T，第一次调用系统
10_JavaScript数组排序和高阶方法东东__net 开发语言 javascript
目录一、数据类型之间存储的区别（重点）二、数据类型之间的比较三、数组的排序3.1sort排序3.2冒泡排序3.3选择排序四、数组的高阶方法forEach遍历map（映射）一、数据类型之间存储的区别（重点）数据类型分成基本数据类型numberstringbooleannullundefined复杂数据类型ObjectArray....可以通过new关键字创建出来的对象都是复杂数据类型数据类型存储区别
公共课计算机总复习核心知识点荣华富贵8 程序员的知识储备1 程序员的知识储备2 程序员的知识储备3 经验分享
信息的符号化就是数据，所以数据是信息的具体表示形式，信息是数据抽象出来的逻辑意义。信息技术是指人们获取、存储、传递、处理、开发和利用信息资源的相关技术。文化的核心是:观念和价值。计算机文化是人类文化发展的四个里程碑之一（前三个分别为：语言的产生、文字的使用与印刷术的发明）。计算机的特点1）运算速度快2）存储容量大3）通用性强4）工作自动化5）精确性高字长是计算机一次所能处理的实际位数长度，字长是衡
使用OpenCV将BMP图像转为8位灰度图 | 原理详解与代码实战小乌龟登顶记 opencv
一、BMP图像格式科普1.1什么是BMP格式？BMP（Bitmap）是Windows系统的标准位图格式，采用无压缩方式存储像素数据，支持1/4/8/24/32位色深。其特点包括：结构清晰：包含文件头、信息头、调色板（可选）和像素数据兼容性强：几乎被所有图像处理软件支持体积较大：适合保存高质量图像但占用空间大1.2BMP文件结构结构名称大小（字节）说明文件头14包含文件类型、大小等元信息信息头40存
网站带有www和不带有什么区别 @听雨声开发语言前端 vue.js
背景：页面跳转到支付页面支付成功之后重新跳转到了登录页面，我们前端设置了支付成功之后要跳转到支付之前或者生成界面，然后却没有跳转。在本地存储上的网站上面我们发现在支付后去跳转的页面带有www，而我们的开发地址是不带有www的，又因为带有www和不带有www两者的cookie是无法通用的，所以也就导致了cookie的丢失，从而跳转到了登录界面去重新登录下面是总结的两者的区别：两者之间的主要区别在于它
【每日算法】Day 6-1：哈希表从入门到实战——高频算法题（C++实现） longlong int 散列表算法 c++
摘要：掌握高频数据结构！今日深入解析哈希表的核心原理与设计实现，结合冲突解决策略与大厂高频真题，彻底掌握O(1)时间复杂度的数据访问技术。一、哈希表核心思想哈希表（HashTable）是一种基于键值对的高效数据结构，通过哈希函数将键映射到存储位置，核心特性：平均时间复杂度：插入、删除、查找均为O(1)冲突处理：开放寻址法、链地址法等策略负载因子：哈希表性能的关键指标（元素数/桶数）应用场景：快速数
C++数组在图形渲染里的深度应用剖析 wengang345 经验分享
在图形渲染领域，C++以其卓越的性能和对底层硬件的高度掌控能力，成为实现高效图形渲染的关键编程语言。C++数组作为基础的数据结构，在图形渲染的各个环节发挥着不可替代的作用，从存储顶点数据到管理纹理信息，都离不开它的支持。本文将深入剖析C++数组在图形渲染中的深度应用。一、顶点数据存储与处理在计算机图形学中，三维模型由大量的顶点构成，这些顶点的位置、法线、纹理坐标等信息是渲染的基础。C++数组是存储
嵌入式软件设计 ✎ ﹏梦醒͜ღ҉繁华落℘ 开发语言单片机
文章目录1、回调函数的使用回调函数的优缺点**优点****缺点**例程一例程二例程3多个回调函数2、静态局部变量使用不多的原因3、内存划分1、回调函数的使用在嵌入式软件设计中，回调函数是一种极为重要的编程机制：定义回调函数本质上是一个通过函数指针来调用的函数。在C/C++语言环境下，函数指针存储了函数的入口地址，回调函数就是利用这种特性，把一段可执行代码的地址传递出去，使得其他代码在合适的时机能够
笔试面试01 c/c++ 有趣的我 #数据结构与算法面试 c语言 c++
基础知识什么是数据结构？请简要描述常见的数据结构类型。数据结构是组织和存储数据的方式，以便于高效访问和修改。常见的数据结构包括：数组：固定大小的线性数据结构，支持随机访问。链表：由节点组成的线性数据结构，每个节点包含数据和指向下一个节点的指针。栈：后进先出（LIFO）的数据结构，支持push和pop操作。队列：先进先出（FIFO）的数据结构，支持入队和出队操作。哈希表：通过哈希函数将键映射到值的集
HarmonyOS Next ohpm-repo 数据存储安全与多实例高可用部署 harmonyos
在HarmonyOSNext开发过程中，ohpm-repo私仓扮演着至关重要的角色，它存储着大量的项目依赖包和元数据。因此，配置安全的数据存储方案并保障数据一致性就显得尤为重要。下面，我将结合实际使用经验，详细介绍相关内容。如何配置MySQL作为安全存储？db配置在ohpm-repo中使用MySQL存储元数据，需要在config.yaml文件中进行db配置。以下是一个示例：db:type:mysq
HarmonyOS Next ohpm-repo 的安全防护与日志监控 harmonyos
在HarmonyOSNext开发环境里，ohpm-repo作为重要的私有仓库，其安全性不容小觑。有效的安全监控是保障仓库安全、防止未授权访问的关键手段。下面，我将基于实际经验，详细探讨如何通过分析安全日志、设置自动告警以及优化日志存储来实现对ohpm-repo的全面安全防护。如何分析ohpm-repo的安全日志？ohpm-repo会生成多种类型的日志，主要包括run.log、access.log和
Unity使用ProtoBuf 飞浪纪元[FWC–FE] Unity引擎开发 C#编程 unity 游戏引擎
Unity使用ProtoBuf1ProtocolBuffers(protobuf)和protobuf-net1.0protobuf的优势1.网络通信2.数据存储3.配置文件4.日志记录5.游戏开发6.微服务架构7.移动应用8.物联网（IoT）9.大数据处理10.API通信1.1ProtocolBuffers(protobuf)1.1.1定义1.1.2核心功能1.1.3版本1.2protobuf-n
Unity3D中ProtoBuf的编译与使用详解你一身傲骨怎能输商业化游戏开发技术专栏游戏引擎
ProtoBuf（ProtocolBuffers）是一种由Google开发的高效、跨平台的序列化协议。它常用于数据交换和存储，特别是在需要高性能和低开销的场景中。本文将详细介绍如何在Unity3D中编译和使用ProtoBuf。1.安装ProtoBuf工具首先，你需要安装ProtoBuf编译器protoc。你可以从ProtocolBuffers官方GitHub页面下载适用于你操作系统的编译器。2.定
Java 集合框架 clk6607 java java
1.集合框架概述Java集合框架（JavaCollectionFramework,JCF）是Java语言中用于存储、操作和管理数据集合的一整套标准接口和类。它提供了对各种数据结构（如列表、队列、集合、映射等）的支持，使开发者能够高效地管理数据。1.1集合框架的分类Java集合框架主要分为两大类：Collection接口（单列集合）List（有序、可重复）Set（无序、不重复）Queue（队列，FI
计算机操作系统习题猫咪-9527 计算机操作系统
1.文件系统采用多级目录结构后，对于不同用户的文件，其文件名（）A.应该相同B.应该不同C.可以相同，也可以不同D.受系统约束正确答案：C2.虚拟存储器的大小（）。A.受到内存容量的限制B.受到作业的地址空间限制C.受到外存空间及CPU地址所能表示范围的限制D.受到程序大小的限制正确答案：C3.当发生缺页中断时，（）。A.应淘汰一页B.应淘汰多页C.应装入一页D.将淘汰页写盘正确答案：C4.程序访
系统架构师重要知识点1：企业集成分类 wujiada001 系统架构师知识点系统架构
企业集成（EnterpriseIntegration）是指将企业内部或跨企业的系统、应用、数据、流程等连接起来，实现信息共享、流程协同和业务自动化。针对“按集成层次分类”如下1.数据层集成定义将不同系统的数据存储（如数据库、文件系统）进行统一或同步，解决数据孤岛问题，确保数据一致性。关键技术ETL（Extract-Transform-Load）工具：Informatica、Talend、Apach
[C++面试] 关于deque 冰箱里有碗 c++c++开发语言
一、入门1、deque与vector的区别deque的迭代器包含以下信息：当前缓冲区指针（current_buffer）当前元素在缓冲区内的位置（current）中控器的位置（map）每次移动迭代器时，需检查是否跨越缓冲区边界，必要时跳转到下一个缓冲区deque（双端队列）是C++标准库中的序列容器，支持在头部和尾部高效插入/删除元素，同时允许随机访问。与vector的主要区别：存储结构：vect
MongoDB 与 Elasticsearch 使用场景区别及示例碧海饮冰技术代码类 mongodb elasticsearch 数据库
一、核心定位差异‌MongoDB‌‌定位‌：通用型文档数据库，侧重数据的存储、事务管理及结构化查询，支持ACID事务‌。‌典型场景‌：动态数据结构存储（如用户信息、商品详情）‌。需事务支持的场景（如金融交易、订单管理）‌。‌Elasticsearch‌‌定位‌：分布式搜索引擎，专注于全文检索、近实时分析和海量数据快速查询‌。‌典型场景‌：文本搜索（如电商商品搜索、日志关键词检索）‌。复杂数据分析（
Java多线程及线程变量学习：从熟悉到实战（下） rider189 java 学习开发语言
引言：多线程在Web开发中的核心价值在Web开发中，高并发场景下的性能优化已成为系统设计的核心挑战。Java多线程技术通过线程池、并发工具类等机制，为Web应用提供了强大的异步处理能力和资源管理手段。本文将深入探讨线程池参数优化策略与线程变量存储的最佳实践。读者专属福利：500G+java从入门到精通全套视频课程，加关注提供免费答疑推荐关联阅读：Java多线程学习：从入门到熟悉（上）一、线程池参数
解密Java内存模型：从happens-before原则到实战可见性问题猿享天开 java 开发语言
《解密Java内存模型：从happens-before原则到实战可见性问题》一、为什么需要Java内存模型？1.1现代计算机的存储体系CPU寄存器L1缓存L2缓存L3缓存主内存磁盘1.2多线程环境下三大核心问题可见性问题：线程A修改的变量，线程B无法立即看到原子性问题：非原子操作被线程切换打断有序性问题：编译器/处理器优化导致的指令重排序二、JMM抽象模型图解2.1JMM核心结构storestor
3.6 Docker最新入门教程-Docker入门-使用绑定挂载 eyes-star docker docker 容器运维
3.6使用绑定挂载在上一章中，我们讨论并使用命名卷来持久化数据库中的数据。如果我们只想存储数据，命名卷就很棒，因为我们不必担心数据存储在哪里。使用绑定挂载，我们可以控制主机上的确切挂载点。我们可以使用它来持久化数据，但它通常用于向容器提供额外的数据。在应用程序上工作时，我们可以使用绑定挂载将我们的源代码挂载到容器中，让它看到代码更改、响应，并让我们立即看到更改。对于基于node的应用程序，node
云原生CI/CD | Argo CD 详细介绍（一）元气满满的热码式云原生 ci/cd 运维 kubernetes 容器
什么是ArgoCD?ArgoCD是以KubernetesController的形式来实现的，它会对运行在Kubernetes集群上的应用程序进行监听，并将实际运行状态和期望状态（在部署清单文件中指定，且存储在版本控制系统中）进行对比，当两者状态不一致的时候，则提示OutOfSync，此时可以通过自动或者手动的方式来完成同步操作，以让两者状态再次保持一致。存储在Git仓库中的任何变更都会被自动同步至
书其实只有三类西蜀石兰类
一个人一辈子其实只读三种书，知识类、技能类、修心类。知识类的书可以让我们活得更明白。类似十万个为什么这种书籍，我一直不太乐意去读，因为单纯的知识是没法做事的，就像知道地球转速是多少一样（我肯定不知道），这种所谓的知识，除非用到，普通人掌握了完全是一种负担，维基百科能找到的东西，为什么去记忆？知识类的书，每个方面都涉及些，让自己显得不那么没文化，仅此而已。社会认为的学识渊博，肯定不是站在
《TCP/IP 详解，卷1：协议》学习笔记、吐槽及其他 bylijinnan tcp
《TCP/IP 详解，卷1：协议》是经典，但不适合初学者。它更像是一本字典，适合学过网络的人温习和查阅一些记不清的概念。这本书，我看的版本是机械工业出版社、范建华等译的。这本书在我看来，翻译得一般，甚至有明显的错误。如果英文熟练，看原版更好： http://pcvr.nl/tcpip/ 下面是我的一些笔记，包括我看书时有疑问的地方，也有对该书的吐槽，有不对的地方请指正： 1.
Linux—— 静态IP跟动态IP设置 eksliang linux IP
一.在终端输入 vi /etc/sysconfig/network-scripts/ifcfg-eth0 静态ip模板如下： DEVICE="eth0" #网卡名称 BOOTPROTO="static" #静态IP（必须） HWADDR="00:0C:29:B5:65:CA" #网卡mac地址 IPV6INIT=&q
Informatica update strategy transformation 18289753290
更新策略组件：标记你的数据进入target里面做什么操作，一般会和lookup配合使用，有时候用0,1,1代表 forward rejected rows被选中，rejected row是输出在错误文件里，不想看到reject输出，将错误输出到文件，因为有时候数据库原因导致某些column不能update，reject就会output到错误文件里面供查看，在workflow的
使用Scrapy时出现虽然队列里有很多Request但是却不下载，造成假死状态酷的飞上天空 request
现象就是：程序运行一段时间，可能是几十分钟或者几个小时，然后后台日志里面就不出现下载页面的信息，一直显示上一分钟抓取了0个网页的信息。刚开始已经猜到是某些下载线程没有正常执行回调方法引起程序一直以为线程还未下载完成，但是水平有限研究源码未果。经过不停的google终于发现一个有价值的信息，是给twisted提出的一个bugfix 连接地址如下http://twistedmatrix.
利用预测分析技术来进行辅助医疗蓝儿唯美医疗
2014年，克利夫兰诊所（Cleveland Clinic）想要更有效地控制其手术中心做膝关节置换手术的费用。整个系统每年大约进行2600例此类手术，所以，即使降低很少一部分成本，都可以为诊所和病人节约大量的资金。为了找到适合的解决方案，供应商将视野投向了预测分析技术和工具，但其分析团队还必须花时间向医生解释基于数据的治疗方案意味着什么。克利夫兰诊所负责企业信息管理和分析的医疗
java 线程(一)：基础篇 DavidIsOK java 多线程线程
&nbs
Tomcat服务器框架之Servlet开发分析 aijuans servlet
最近使用Tomcat做web服务器，使用Servlet技术做开发时，对Tomcat的框架的简易分析：疑问：为什么我们在继承HttpServlet类之后，覆盖doGet(HttpServletRequest req, HttpServetResponse rep)方法后，该方法会自动被Tomcat服务器调用，doGet方法的参数有谁传递过来？怎样传递？分析之我见： doGet方法的
揭秘玖富的粉丝营销之谜与小米粉丝社区类似 aoyouzi 揭秘玖富的粉丝营销之谜
玖富旗下悟空理财凭借着一个微信公众号上线当天成交量即破百万，第七天成交量单日破了1000万;第23天时，累计成交量超1个亿……至今成立不到10个月，粉丝已经超过500万，月交易额突破10亿，而玖富平台目前的总用户数也已经超过了1800万，位居P2P平台第一位。很多互联网金融创业者慕名前来学习效仿，但是却鲜有成功者，玖富的粉丝营销对外至今仍然是个谜。　　近日，一直坚持微信粉丝营销
Java web的会话跟踪技术百合不是茶 url会话 Cookie会话 Seession会话 Java Web 隐藏域会话
会话跟踪主要是用在用户页面点击不同的页面时,需要用到的技术点会话:多次请求与响应的过程 1,url地址传递参数,实现页面跟踪技术格式:传一个参数的 url?名=值传两个参数的 url?名=值 &名=值关键代码
web.xml之Servlet配置 bijian1013 java web.xml Servlet配置
定义： <servlet> <servlet-name>myservlet</servlet-name> <servlet-class>com.myapp.controller.MyFirstServlet</servlet-class> <init-param> <param-name>
利用svnsync实现SVN同步备份 sunjing SVN 同步 E000022 svnsync 镜像
1. 在备份SVN服务器上建立版本库 svnadmin create test 2. 创建pre-revprop-change文件 cd test/hooks/ cp pre-revprop-change.tmpl pre-revprop-change 3. 修改pre-revprop-
【分布式数据一致性三】MongoDB读写一致性 bit1129 mongodb
本系列文章结合MongoDB，探讨分布式数据库的数据一致性，这个系列文章包括：数据一致性概述与CAP 最终一致性(Eventually Consistency) 网络分裂(Network Partition)问题多数据中心(Multi Data Center) 多个写者(Multi Writer)最终一致性一致性图表(Consistency Chart) 数据
Anychart图表组件-Flash图转IMG普通图的方法白糖_ Flash
问题背景：项目使用的是Anychart图表组件，渲染出来的图是Flash的，往往一个页面有时候会有多个flash图，而需求是让我们做一个打印预览和打印功能，让多个Flash图在一个页面上打印出来。那么我们打印预览的思路是获取页面的body元素，然后在打印预览界面通过$("body").append(html)的形式显示预览效果，结果让人大跌眼镜：Flash是
Window 80端口被占用 WHY? bozch 端口占用 window
平时在启动一些可能使用80端口软件的时候，会提示80端口已经被其他软件占用，那一般又会有那些软件占用这些端口呢？下面坐下总结： 1、web服务器是最经常见的占用80端口的，例如：tomcat , apache , IIS , Php等等； 2
编程之美-数组的最大值和最小值-分治法（两种形式） bylijinnan 编程之美
import java.util.Arrays; public class MinMaxInArray { /** * 编程之美数组的最大值和最小值分治法 * 两种形式 */ public static void main(String[] args) { int[] t={11,23,34,4,6,7,8,1,2,23}; int[]
Perl正则表达式 chenbowen00 正则表达式 perl
首先我们应该知道 Perl 程序中，正则表达式有三种存在形式，他们分别是：匹配：m/<regexp>;/ （还可以简写为 /<regexp>;/ ，略去 m）替换：s/<pattern>;/<replacement>;/ 转化：tr/<pattern>;/<replacemnt>;
[宇宙与天文]行星议会是否具有本行星大气层以外的权力呢? comsci
举个例子: 地球,地球上由200多个国家选举出一个代表地球联合体的议会,那么现在地球联合体遇到一个问题,地球这颗星球上面的矿产资源快要采掘完了....那么地球议会全体投票,一致通过一项带有法律性质的议案,既批准地球上的国家用各种技术手段在地球以外开采矿产资源和其它资源........ &
Oracle Profile 使用详解 daizj oracle profile 资源限制
Oracle Profile 使用详解转一、目的： Oracle系统中的profile可以用来对用户所能使用的数据库资源进行限制，使用Create Profile命令创建一个Profile，用它来实现对数据库资源的限制使用，如果把该profile分配给用户，则该用户所能使用的数据库资源都在该profile的限制之内。二、条件：创建profile必须要有CREATE PROFIL
How HipChat Stores And Indexes Billions Of Messages Using ElasticSearch & Redis dengkane elasticsearch Lucene
This article is from an interview with Zuhaib Siddique, a production engineer at HipChat, makers of group chat and IM for teams. HipChat started in an unusual space, one you might not
循环小示例，菲波拉契序列，循环解一元二次方程以及switch示例程序 dcj3sjt126com c 算法
# include <stdio.h> int main(void) { int n; int i; int f1, f2, f3; f1 = 1; f2 = 1; printf("请输入您需要求的想的序列："); scanf("%d", &n); for (i=3; i<n; i
macbook的lamp环境 dcj3sjt126com lamp
sudo vim /etc/apache2/httpd.conf /Library/WebServer/Documents 是默认的网站根目录重启Mac上的Apache服务这个命令很早以前就查过了，但是每次使用的时候还是要在网上查：停止服务：sudo /usr/sbin/apachectl stop 开启服务：s
java ArrayList源码下 shuizhaosi888 ArrayList源码
版本 jdk-7u71-windows-x64 JavaSE7 ArrayList源码上：http://flyouwith.iteye.com/blog/2166890 /** * 从这个列表中移除所有c中包含元素 */ public boolean removeAll(Collection<?> c) {
Spring Security（08）——intercept-url配置 234390216 Spring Security intercept-url 访问权限访问协议请求方法
intercept-url配置目录 1.1 指定拦截的url 1.2 指定访问权限 1.3 指定访问协议 1.4 指定请求方法 1.1 &n
Linux环境下的oracle安装 jayung oracle
linux系统下的oracle安装本文档是Linux(redhat6.x、centos6.x、redhat7.x) 64位操作系统安装Oracle 11g(Oracle Database 11g Enterprise Edition Release 11.2.0.4.0 - 64bit Production)，本文基于各种网络资料精心整理而成，共享给有需要的朋友。如有问题可联系：QQ：52-7
hotspot虚拟机 leichenlei java HotSpot jvm 虚拟机文档
JVM参数 http://docs.oracle.com/javase/6/docs/technotes/guides/vm/index.html JVM工具 http://docs.oracle.com/javase/6/docs/technotes/tools/index.html JVM垃圾回收 http://www.oracle.com
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” noaighost Web node.js
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” 眼里的Node.JS 初初接触node是一年前的事，那时候年少不更事。还在纠结什么语言可以编写出牛逼的程序，想必每个码农都会经历这个月经性的问题：微信用什么语言写的？facebook为什么推荐系统这么智能，用什么语言写的？dota2的外挂这么牛逼，用什么语言写的？……用什么语言写这句话，困扰人也是阻碍
快速开发Android应用 rensanning android
Android应用开发过程中，经常会遇到很多常见的类似问题，解决这些问题需要花时间，其实很多问题已经有了成熟的解决方案，比如很多第三方的开源lib，参考 Android Libraries 和 Android UI/UX Libraries。编码越少，Bug越少，效率自然会高。但可能由于根本没听说过、听说过但没用过、特殊原因不能用、自己已经有了解决方案等等原因，这些成熟的解决
理解Java中的弱引用 tomcat_oracle java 工作面试
　不久之前，我面试了一些求职Java高级开发工程师的应聘者。我常常会面试他们说，“你能给我介绍一些Java中得弱引用吗？”，如果面试者这样说，“嗯，是不是垃圾回收有关的？”，我就会基本满意了，我并不期待回答是一篇诘究本末的论文描述。　　然而事与愿违，我很吃惊的发现，在将近20多个有着平均5年开发经验和高学历背景的应聘者中，居然只有两个人知道弱引用的存在，但是在这两个人之中只有一个人真正了
标签输出html标签" target="_blank">关于标签输出html标签 xshdch jsp
http://back-888888.iteye.com/blog/1181202 关于<c:out value=""/>标签的使用，其中有一个属性是escapeXml默认是true(将html标签当做转移字符，直接显示不在浏览器上面进行解析)，当设置escapeXml属性值为false的时候就是不过滤xml，这样就能在浏览器上解析html标签， &nb