远有青山

Hive的数据存储

Hive的数据分为表数据和元数据，表数据是Hive中表格(table)具有的数据;而元数据是用来存储表的名字，表的列和分区及其属性，表的属性(是否为外部表等)，表的数据所在目录等。下面分别来介绍。

一、Hive的数据存储

在让你真正明白什么是hive 博文中我们提到Hive是基于Hadoop分布式文件系统的，它的数据存储在Hadoop分布式文件系统中。Hive本身是没有专门的数据存储格式，也没有为数据建立索引，只需要在创建表的时候告诉Hive数据中的列分隔符和行分隔符，Hive就可以解析数据。所以往Hive表里面导入数据只是简单的将数据移动到表所在的目录中(如果数据是在HDFS上;但如果数据是在本地文件系统中，那么是将数据复制到表所在的目录中)。

Hive中主要包含以下几种数据模型：Table(表)，External Table(外部表)，Partition(分区)，Bucket(桶)(本博客会专门写几篇博文来介绍分区和桶)。

1、表：Hive中的表和关系型数据库中的表在概念上很类似，每个表在HDFS中都有相应的目录用来存储表的数据，这个目录可以通过${HIVE_HOME}/conf/hive-site.xml配置文件中的 hive.metastore.warehouse.dir属性来配置，这个属性默认的值是/user/hive/warehouse(这个目录在 HDFS上)，我们可以根据实际的情况来修改这个配置。如果我有一个表wyp，那么在HDFS中会创建/user/hive/warehouse/wyp 目录(这里假定hive.metastore.warehouse.dir配置为/user/hive/warehouse);wyp表所有的数据都存放在这个目录中。这个例外是外部表。

2、外部表：Hive中的外部表和表很类似，但是其数据不是放在自己表所属的目录中，而是存放到别处，这样的好处是如果你要删除这个外部表，该外部表所指向的数据是不会被删除的，它只会删除外部表对应的元数据;而如果你要删除表，该表对应的所有数据包括元数据都会被删除。

3、分区：在Hive中，表的每一个分区对应表下的相应目录，所有分区的数据都是存储在对应的目录中。比如wyp 表有dt和city两个分区，则对应dt=20131218,city=BJ对应表的目录为/user/hive/warehouse /dt=20131218/city=BJ，所有属于这个分区的数据都存放在这个目录中。

4、桶：对指定的列计算其hash，根据hash值切分数据，目的是为了并行，每一个桶对应一个文件(注意和分区的区别)。比如将wyp表id列分散至16个桶中，首先对id列的值计算hash，对应hash值为0和16的数据存储的HDFS目录为：/user /hive/warehouse/wyp/part-00000;而hash值为2的数据存储的HDFS 目录为：/user/hive/warehouse/wyp/part-00002。

来看下Hive数据抽象结构图

从上图可以看出，表是在数据库下面，而表里面又要分区、桶、倾斜的数据和正常的数据等;分区下面也是可以建立桶的。

二、Hive的元数据

Hive中的元数据包括表的名字，表的列和分区及其属性，表的属性(是否为外部表等)，表的数据所在目录等。由于Hive的元数据需要不断的更新、修改，而HDFS系统中的文件是多读少改的，这显然不能将Hive的元数据存储在HDFS中。目前Hive将元数据存储在数据库中，如Mysql、Derby中。我们可以通过以下的配置来修改Hive元数据的存储方式

   
   
   
   
    
    
    
     
    
    
    
      javax.jdo.option.ConnectionURL 
    
    
    
      jdbc:mysql://localhost:3306/hive_hdp?characterEncoding=UTF-8 
    
    
    
                        &createDatabaseIfNotExist=true 
    
    
    
      JDBC connect string for a JDBC metastore 
    
    
    
     
    
    
    
      
    
    
    
     
    
    
    
      javax.jdo.option.ConnectionDriverName 
    
    
    
      com.mysql.jdbc.Driver 
    
    
    
      Driver class name for a JDBC metastore 
    
    
    
     
    
    
    
      
    
    
    
     
    
    
    
      javax.jdo.option.ConnectionUserName 
    
    
    
      root 
    
    
    
      username to use against metastore database 
    
    
    
     
    
    
    
      
    
    
    
     
    
    
    
      javax.jdo.option.ConnectionPassword 
    
    
    
      123456 
    
    
    
      password to use against metastore database

当然，你还需要将相应数据库的启动复制到${HIVE_HOME}/lib目录中，这样才能将元数据存储在对应的数据库中。

Hive数据仓库的系统结构。

图1 Hive数据仓库的系统结构

　　基于MapReduce的数据仓库在超大规模数据分析中扮演了重要角色，对于典型的Web服务供应商，这些分析有助于它们快速理解动态的用户行为及变化的用户需求。

数据存储结构是影响数据仓库性能的关键因素之一。Hadoop系统中常用的文件存储格式有支持文本的TextFile和支持二进制的SequenceFile等，它们都属于行存储方式。Facebook工程师发表的RCFile: 《A Fast and Spaceefficient Data Placement Structure in MapReduce based Warehouse Systems》一文，介绍了一种高效的数据存储结构——RCFile（Record Columnar File），并将其应用于Facebook的数据仓库Hive中。与传统数据库的数据存储结构相比，RCFile更有效地满足了基于MapReduce的数据仓库的四个关键需求，即Fast data loading、Fast query processing、Highly efficient storage space utilization和Strong adaptivity to highly dynamic workload patterns。

数据仓库的需求

基于Facebook系统特征和用户数据的分析，在MapReduce计算环境下，数据仓库对于数据存储结构有四个关键需求。

Fast data loading

　　对于Facebook的产品数据仓库而言，快速加载数据（写数据）是非常关键的。每天大约有超过20TB的数据上传到Facebook的数据仓库，由于数据加载期间网络和磁盘流量会干扰正常的查询执行，因此缩短数据加载时间是非常必要的。

Fast query processing

　　为了满足实时性的网站请求和支持高并发用户提交查询的大量读负载，查询响应时间是非常关键的，这要求底层存储结构能够随着查询数量的增加而保持高速的查询处理。

Highly efficient storage space utilization

　　高速增长的用户活动总是需要可扩展的存储容量和计算能力，有限的磁盘空间需要合理管理海量数据的存储。实际上，该问题的解决方案就是最大化磁盘空间利用率。

Strong adaptivity to highly dynamic workload patterns

　　同一份数据集会供给不同应用的用户，通过各种方式来分析。某些数据分析是例行过程，按照某种固定模式周期性执行；而另一些则是从中间平台发起的查询。大多数负载不遵循任何规则模式，这需要底层系统在存储空间有限的前提下，对数据处理中不可预知的动态数据具备高度的适应性，而不是专注于某种特殊的负载模式。

MapReduce存储策略

　　要想设计并实现一种基于MapReduce数据仓库的高效数据存储结构，关键挑战是在MapReduce计算环境中满足上述四个需求。在传统数据库系统中，三种数据存储结构被广泛研究，分别是行存储结构、列存储结构和PAX混合存储结构。上面这三种结构都有其自身特点，不过简单移植这些数据库导向的存储结构到基于MapReduce的数据仓库系统并不能很好地满足所有需求。

行存储

如图2所示，基于Hadoop系统行存储结构的优点在于快速数据加载和动态负载的高适应能力，这是因为行存储保证了相同记录的所有域都在同一个集群节点，即同一个HDFS块。不过，行存储的缺点也是显而易见的，例如它不能支持快速查询处理，因为当查询仅仅针对多列表中的少数几列时，它不能跳过不必要的列读取；此外，由于混合着不同数据值的列，行存储不易获得一个极高的压缩比，即空间利用率不易大幅提高。尽管通过熵编码和利用列相关性能够获得一个较好的压缩比，但是复杂数据存储实现会导致解压开销增大。

图2 HDFS块内行存储的例子

列存储

图3显示了在HDFS上按照列组存储表格的例子。在这个例子中，列A和列B存储在同一列组，而列C和列D分别存储在单独的列组。查询时列存储能够避免读不必要的列，并且压缩一个列中的相似数据能够达到较高的压缩比。然而，由于元组重构的较高开销，它并不能提供基于Hadoop系统的快速查询处理。列存储不能保证同一记录的所有域都存储在同一集群节点，例如图2的例子中，记录的4个域存储在位于不同节点的3个HDFS块中。因此，记录的重构将导致通过集群节点网络的大量数据传输。尽管预先分组后，多个列在一起能够减少开销，但是对于高度动态的负载模式，它并不具备很好的适应性。除非所有列组根据可能的查询预先创建，否则对于一个查询需要一个不可预知的列组合，一个记录的重构或许需要2个或多个列组。再者由于多个组之间的列交叠，列组可能会创建多余的列数据存储，这导致存储利用率的降低。

图3 HDFS块内列存储的例子

PAX混合存储

　　PAX存储模型（用于Data Morphing存储技术）使用混合存储方式，目的在于提升CPU Cache性能。对于记录中来自不同列的多个域，PAX将它们放在一个磁盘页中。在每个磁盘页中，PAX使用一个迷你页来存储属于每个列的所有域，并使用一个页头来存储迷你页的指针。类似于行存储，PAX对多种动态查询有很强的适应能力。然而，它并不能满足大型分布式系统对于高存储空间利用率和快速查询处理的需求，原因在于：首先，PAX没有数据压缩的相关工作，这部分与Cache优化关系不大，但对于大规模数据处理系统是非常关键的，它提供了列维度数据压缩的可能性；其次，PAX不能提升I/O性能，因为它不能改变实际的页内容，该限制使得大规模数据扫描时不易实现快速查询处理；再次，PAX用固定的页作为数据组织的基本单位，按照这个大小，在海量数据处理系统中，PAX将不会有效存储不同大小类型的数据域。

Hive文件存储格式
1.textfile
textfile为默认格式
存储方式：行存储
磁盘开销大数据解析开销大
压缩的text文件 Hive无法进行合并和拆分

2.sequencefile
二进制文件,以的形式序列化到文件中
存储方式：行存储
可分割压缩
一般选择block压缩
优势是文件和Hadoop api中的mapfile是相互兼容的。

3.rcfile
存储方式：数据按行分块每块按照列存储
压缩快快速列存取
读记录尽量涉及到的block最少
读取需要的列只需要读取每个row group 的头部定义。
读取全量数据的操作性能可能比sequencefile没有明显的优势

4.orc

存储方式：数据按行分块每块按照列存储

压缩快快速列存取

效率比rcfile高,是rcfile的改良版本

5.自定义格式
用户可以通过实现inputformat和 outputformat来自定义输入输出格式。

Apache Parquet

源自于google Dremel系统（可下载论文参阅），Parquet相当于Google Dremel中的数据存储引擎，而Apache顶级开源项目Drill正是Dremel的开源实现。

Apache Parquet 最初的设计动机是存储嵌套式数据，比如Protocolbuffer，thrift，json等，将这类数据存储成列式格式，以方便对其高效压缩和编码，且使用更少的IO操作取出需要的数据，这也是Parquet相比于ORC的优势，它能够透明地将Protobuf和thrift类型的数据进行列式存储，在Protobuf和thrift被广泛使用的今天，与parquet进行集成，是一件非容易和自然的事情。除了上述优势外，相比于ORC, Parquet没有太多其他可圈可点的地方，比如它不支持update操作（数据写成后不可修改），不支持ACID等。

Apache ORC

ORC（OptimizedRC File）存储源自于RC（RecordColumnar File）这种存储格式，RC是一种列式存储引擎，对schema演化（修改schema需要重新生成数据）支持较差，而ORC是对RC改进，但它仍对schema演化支持较差，主要是在压缩编码，查询性能方面做了优化。RC/ORC最初是在hive中得到使用，最后发展势头不错，独立成一个单独的项目。Hive 1.x版本对事务和update操作的支持，便是基于ORC实现的（其他存储格式暂不支持）。ORC发展到今天，已经具备一些非常高级的feature，比如支持update操作，支持ACID，支持struct，array复杂类型。你可以使用复杂类型构建一个类似于parquet的嵌套式数据架构，但当层数非常多时，写起来非常麻烦和复杂，而parquet提供的schema表达方式更容易表示出多级嵌套的数据类型。

总结：
textfile 存储空间消耗比较大，并且压缩的text 无法分割和合并查询的效率最低,可以直接存储，加载数据的速度最高
sequencefile 存储空间消耗最大,压缩的文件可以分割和合并查询效率高，需要通过text文件转化来加载
rcfile 存储空间最小，查询的效率最高，需要通过text文件转化来加载，加载的速度最低

相比传统的行式存储引擎，列式存储引擎具有更高的压缩比，更少的IO操作而备受青睐（注：列式存储不是万能高效的，很多场景下行式存储仍更加高效），尤其是在数据列（column）数很多，但每次操作仅针对若干列的情景，列式存储引擎的性价比更高。

在互联网大数据应用场景下，大部分情况下，数据量很大且数据字段数目很多，但每次查询数据只针对其中的少数几行，这时候列式存储是极佳的选择

Hive 常用的数据文件存储格式有： TextFile，SequenceFile，RCFile, ORCFile (0.11以后出现), 这几种格式已经有人详细介绍过，在这里就不做描述了。
Hive & Impala 中内置有对 Avro，Parquet 文件格式支持。在存储的过程中，也可以使用压缩编码器对数据进行压缩。

Hive 常用文件格式： http://www.cnblogs.com/Richardzhu/p/3613661.html
RCFile 介绍(翻译于《Programing Hive》) ：http://flyingdutchman.iteye.com/blog/1871025
Hive 中的数据压缩(翻译于《Programing Hive》)：http://flyingdutchman.iteye.com/blog/1870878

Hive 中的常见数据格式的存储及压缩格式可以参考以上链接，以下将着重介绍如何在 Hive 中使用Avro, Parquet 数据格式，以及使用 Snappy 压缩方法对数据进行压缩。

1 Avro 格式：Avro是一个数据序列化系统，设计用于支持大批量数据交换的应用。它的主要特点有：支持二进制序列化方式，可以便捷，快速地处理大量数据；动态语言友好，Avro提供的机制使动态语言可以方便地处理Avro数据。
Hive 0.9.1 版本新绑定 Avro SerDe （序列化器/反序列化器的简称）,它允许 Hive 从表中读取数据和写回表.

Hive Versions	Avro Version
Hive 0.9.1	Avro 1.5.3
Hive 0.10, 0.11, and 0.12	Avro 1.7.1
Hive 0.13 and 0.14	Avro 1.7.5

如果需要在Hive中使用Avro，需要在$HIVE_HOME/lib目录下放入以下四个工具包：avro-1.7.1.jar、avro-tools-1.7.4.jar、 jackson-core-asl-1.8.8.jar、jackson-mapper-asl-1.8.8.jar。当然，你也可以把这几个包存在别的路径下面，但是你需要把这四个包放在CLASSPATH中。


    
    
    
    
     
     
     
     
      
      
      
      
       
       
       
       
        
        
        
        
         
         
         
         你需要将Avro的schema复制到HDFS上, 并创建一个目录包含一些 Avro 股票记录的示例:

$ hadoop fs -put $HIP_HOME/schema schema
$ hadoop fs -mkdir stock_hive

$ hip hip.ch3.avro.AvroStockFileWrite \
    --input test-data/stocks.txt \
    --output stock_hive/stocks.avro

为了解析Avro格式的数据，我们可以在Hive建表的时候用下面语句：
需要注意的是，以下创建表的格式是 Hive 通用的格式，但是在 Hive 0.14 及以后的版本里，在DDL语句中可以直接使用"STORED AS AVRO" 来指定表为Avro格式。AvroSerDe 会根据 Hive 表的Schema 来创建适合的 Avro Schema。这大大增加了 Avro 在 Hive 中的可用性。
详细请参考：https://cwiki.apache.org/confluence/display/Hive/AvroSerDe
stock.avsc

2.1 在定义中指定 schema

hive> CREATE EXTERNAL TABLE tweets

> COMMENT "A table backed by Avro data with the

> Avro schema embedded in the CREATE TABLE statement"

> ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.avro.AvroSerDe'

> STORED AS

> INPUTFORMAT 'org.apache.hadoop.hive.ql.io.avro.AvroContainerInputFormat'

> OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.avro.AvroContainerOutputFormat'

> LOCATION '/user/wyp/examples/input/'

> TBLPROPERTIES (

> 'avro.schema.literal'='{

> "type": "record",

> "name": "Tweet",

> "namespace": "com.miguno.avro",

> "fields": [

> { "name":"username", "type":"string"},

> { "name":"tweet", "type":"string"},

> { "name":"timestamp", "type":"long"}

> ]

> }'

> );

Time taken: 0.076 seconds


    
    
    
    
     
     
     
     hive> describe tweets;
    
    
    
    
    
    
    
    
     
     
     
     OK
username            	string              	from deserializer   
tweet               	string              	from deserializer   
timestamp           	bigint              	from deserializer

2.2 调用一个 shema 文件的 URL

将avro.schema.literal中的 schame 定义存放在一个文件中，比如：twitter.avsc

{

"type": "record",

"name": "Tweet",

"namespace": "com.miguno.avro",

"fields": [

{

"name": "username",

"type": "string"

},

{

"name": "tweet",

"type": "string"

},

{

"name": "timestamp",

"type": "long"

}

]

}

-- Create 外部表 tweets

 
    CREATE  
    EXTERNAL  
    TABLE  
    tweets 
   

 
    COMMENT  
    "A table backed by Avro data with the Avro schema stored in HDFS"

 
    ROW FORMAT SERDE  
    'org.apache.hadoop.hive.serde2.avro.AvroSerDe'

 
    STORED  
    AS

 
    INPUTFORMAT   
    'org.apache.hadoop.hive.ql.io.avro.AvroContainerInputFormat'

 
    OUTPUTFORMAT  
    'org.apache.hadoop.hive.ql.io.avro.AvroContainerOutputFormat'

 
    LOCATION  
    '/user/wyp/examples/input/'

 
    TBLPROPERTIES (

 
    'avro.schema.url' 
    = 
    'hdfs:///user/wyp/examples/schema/twitter.avsc'

);

 
    -- Create 外部表 stocks 
   

 
    hive>  
    CREATE  
    EXTERNAL  
    TABLE  
    stocks 
   

 
    COMMENT  
    "An Avro stocks table"

 
    ROW FORMAT SERDE  
    'org.apache.hadoop.hive.serde2.avro.AvroSerDe'

 
    STORED  
    AS

 
    INPUTFORMAT 
   

 
    'org.apache.hadoop.hive.ql.io.avro.AvroContainerInputFormat'

 
    OUTPUTFORMAT 
   

 
    'org.apache.hadoop.hive.ql.io.avro.AvroContainerOutputFormat'

 
    LOCATION  
    '/user/YOUR-HDFS-USERNAME/stock_hive/'

 
    TBLPROPERTIES ( 
   

 
    'avro.schema.url' 
    = 
    'hdfs:///user/YOUR-HDFS-USERNAME/schema/stock.avsc' 
   

);

hive> describe tweets;

OK
username            	string              	from deserializer   
tweet               	string              	from deserializer   
timestamp           	bigint              	from deserializer


    
    
    
    
     
     
     
     

    
    
    
    
    
    
    
    
     
     
     
     AvroSerDe 实际上支持4种方法来为 Avro Tasble 定义一个 Schema：  (详细参考：https://cwiki.apache.org/confluence/display/Hive/AvroSerDe.)
     
     
     
     
      
      
      
      Use avro.schema.url  -- 如上例 2.2
      
      
      
      Use schema.literal and embed the schema in the create statement
      
      
      
      Use avro.schema.literal and pass the schema into the script -- 如上例 2.1
      
      
      
      Use none to ignore either avro.schema.literal or avro.schema.url

你可以通过 Describe 关键词来查询一个 Hive 表的 Schema :


    
    
    
    
     
     
     
     hive> describe stocks;
    
    
    
    
    
    
    
    
     
     
     
     symbol                  string
    
    
    
    
    
    
    
    
     
     
     
     date                    
     
     
     
     string
    
    
    
    
    
    
    
    
     
     
     
     open                    
     
     
     
     double
    
    
    
    
    
    
    
    
     
     
     
     high                    
     
     
     
     double
    
    
    
    
    
    
    
    
     
     
     
      
    
    
    
    
    
    
    
    
     
     
     
     low                     
     
     
     
     double
    
    
    
    
    
    
    
    
     
     
     
     close                   
     
     
     
     double
    
    
    
    
    
    
    
    
     
     
     
     volume                  
     
     
     
     int
    
    
    
    
    
    
    
    
     
     
     
     adjclose                
     
     
     
     double

运行一个 query 来确认是否完成了，可以通过如下的 hive Query Language (HiveQL) 来记录每个股票代码的数量 -- stock symbol:

2 Parquet 格式：

Hive 要求数据已经存在于目录里面，所有你需要创建一个目录并且将股票的Parquet格式文件复制过去：

$ hadoop fs -mkdir parquet_avro_stocks
$ hadoop fs -cp stocks.parquet parquet_avro_stocks

接下来,您将创建一个Hive外部表并且定义它的模式。如果你不能确定结构模式, 你可以通过以下方法来查看需要处理 Parquet 文件的 Schema 信息(使用 Parquet tools 中的 Schema 命令)：

2.1. 使用 Parquet tools 来查看 Parquet文件的 schema 信息：

 
   $ hip --nolib parquet.tools.Main schema stocks.parquet 
  

 
   message hip.ch3.avro.gen.Stock { 
  

 
     required binary symbol (UTF8); 
  

 
     required binary date (UTF8); 
  

 
     required double open; 
  

 
     required double high; 
  

 
     required double low; 
  

 
     required double close; 
  

 
     required int32 volume; 
  

 
     required double adjClose; 
  

}

2.2 Parquet 同样允许对象模型使用元数据来存储反序列化的信息。

比如说 Avro, 使用元数据来存储 Avro的Schema，你可以通过以下命令查看输出：

   
   
   
   
    
    
    
    $ hip --nolib parquet.tools.Main meta stocks.parquet
   
   
   
   
   
   
   
   
    
    
    
    creator: parquet-mr (build 3f25ad97f20...)
   
   
   
   
   
   
   
   
    
    
    
    extra:   avro.schema = {"type":"record","name":"Stock","namespace" ...
   
   
   
   
   
   
   
   
    
    
    
     
   
   
   
   
   
   
   
   
    
    
    
    file schema: hip.ch3.avro.gen.Stock
   
   
   
   
   
   
   
   
    
    
    
    ---------------------------------------------------------------------
   
   
   
   
   
   
   
   
    
    
    
    symbol:      REQUIRED BINARY O:UTF8 R:0 D:0
   
   
   
   
   
   
   
   
    
    
    
     
   
   
   
   
   
   
   
   
    
    
    
    date:        REQUIRED BINARY O:UTF8 R:0 D:0
   
   
   
   
   
   
   
   
    
    
    
    open:        REQUIRED DOUBLE R:0 D:0
   
   
   
   
   
   
   
   
    
    
    
    high:        REQUIRED DOUBLE R:0 D:0
   
   
   
   
   
   
   
   
    
    
    
    low:         REQUIRED DOUBLE R:0 D:0
   
   
   
   
   
   
   
   
    
    
    
    close:       REQUIRED DOUBLE R:0 D:0
   
   
   
   
   
   
   
   
    
    
    
    volume:      REQUIRED INT32 R:0 D:0
   
   
   
   
   
   
   
   
    
    
    
    adjClose:    REQUIRED DOUBLE R:0 D:0
   
   
   
   
   
   
   
   
    
    
    
     
   
   
   
   
   
   
   
   
    
    
    
    row group 1: RC:45 TS:2376
   
   
   
   
   
   
   
   
    
    
    
    ---------------------------------------------------------------------
   
   
   
   
   
   
   
   
    
    
    
    symbol:       BINARY SNAPPY DO:0 FPO:4 SZ:85/84/0.99 VC:45 ENC:PD ...
   
   
   
   
   
   
   
   
    
    
    
    date:         BINARY SNAPPY DO:0 FPO:89 SZ:127/198/1.56 VC:45 ENC ...
   
   
   
   
   
   
   
   
    
    
    
    open:         DOUBLE SNAPPY DO:0 FPO:216 SZ:301/379/1.26 VC:45 EN ...
   
   
   
   
   
   
   
   
    
    
    
    high:         DOUBLE SNAPPY DO:0 FPO:517 SZ:297/379/1.28 VC:45 EN ...
   
   
   
   
   
   
   
   
    
    
    
    low:          DOUBLE SNAPPY DO:0 FPO:814 SZ:292/379/1.30 VC:45 EN ...
   
   
   
   
   
   
   
   
    
    
    
    close:        DOUBLE SNAPPY DO:0 FPO:1106 SZ:299/379/1.27 VC:45 E ...
   
   
   
   
   
   
   
   
    
    
    
    volume:       INT32 SNAPPY DO:0 FPO:1405 SZ:203/199/0.98 VC:45 EN ...
   
   
   
   
   
   
   
   
    
    
    
    adjClose:     DOUBLE SNAPPY DO:0 FPO:1608 SZ:298/379/1.27 VC:45 E ...

2.3.将 Hive 中的数据存储为 Parquet 格式 --  Hive 0.13

 
    hive>  
    CREATE  
    EXTERNAL  
    TABLE  
    parquet_stocks( 
   

 
    symbol string,

 
    date  
    string,

 
    open  
    double 
    ,

 
    high  
    double 
    ,

 
    low  
    double 
    ,

 
    close  
    double 
    ,

 
    volume  
    int 
    ,

 
    adjClose  
    double

 
    ) STORED  
    AS 
      
    PARQUET

 
    LOCATION  
    '/user/YOUR_USERNAME/parquet_avro_stocks' 
    ; 
   

hive> select distinct(symbol) from parquet_stocks;
AAPL
CSCO
GOOG
MSFT
YHOO

You can use the same syntax to create the table in Impala.

3. 使用 Sanppy 压缩编码来将数据写入到新表中 / 或者可以将压缩后的数据文件 copy 到 HDFS 中数据定义目录下面。

如果你希望将数据以 Avro 格式来存储 Hive 表，接下来的例子将会向你展示了你该如何copy stocks 表的子集并且插入到一张新表中。该例子同时强调了你该如果使用 Snappy 压缩编码来将数据写入到新表中。
3.1 从旧表进行复制数据“：

    
    
    
    
     
     
     
     hive> 
     
     
     
     SET 
     
     
     
     hive.
     
     
     
     exec
     
     
     
     .compress.
     
     
     
     output
     
     
     
     =
     
     
     
     true
     
     
     
     ;
    
    
    
    
    
    
    
    
     
     
     
     hive> 
     
     
     
     SET
     
     
     
      
     
     
     
     avro.
     
     
     
     output
     
     
     
     .codec = 
     
     
     
     snappy
     
     
     
     ;
    
    
    
    
    
    
    
    
     
     
     
     

    
    
    
    
    
    
    
    
     
     
     
     hive> 
     
     
     
     CREATE 
     
     
     
     TABLE 
     
     
     
     google_stocks
    
    
    
    
    
    
    
    
     
     
     
       
     
     
     
     COMMENT 
     
     
     
     "An Avro stocks table containing just Google stocks"
    
    
    
    
    
    
    
    
     
     
     
       
     
     
     
     ROW FORMAT SERDE 
     
     
     
     'org.apache.hadoop.hive.serde2.avro.
     
     
     
     AvroSerDe
     
     
     
     '
    
    
    
    
    
    
    
    
     
     
     
       
     
     
     
     STORED 
     
     
     
     AS
    
    
    
    
    
    
    
    
     
     
     
       
     
     
     
     INPUTFORMAT
    
    
    
    
    
    
    
    
     
     
     
         
     
     
     
     'org.apache.hadoop.hive.ql.io.avro.AvroContainerInputFormat'
    
    
    
    
    
    
    
    
     
     
     
       
     
     
     
     OUTPUTFORMAT
    
    
    
    
    
    
    
    
     
     
     
         
     
     
     
     'org.apache.hadoop.hive.ql.io.avro.AvroContainerOutputFormat'
    
    
    
    
    
    
    
    
     
     
     
       
     
     
     
     TBLPROPERTIES (
    
    
    
    
    
    
    
    
     
     
     
           
     
     
     
     'avro.schema.url'
     
     
     
     =
     
     
     
     'hdfs:///user/YOUR-USERNAME/schema/stock.avsc'
    
    
    
    
    
    
    
    
     
     
     
         
     
     
     
     );
    
    
    
    
    
    
    
    
     
     
     
     OK
    
    
    
    
    
    
    
    
     
     
     
      
    
    
    
    
    
    
    
    
     
     
     
     hive> 
     
     
     
     INSERT 
     
     
     
     OVERWRITE 
     
     
     
     TABLE 
     
     
     
     google_stocks
    
    
    
    
    
    
    
    
     
     
     
         
     
     
     
     SELECT 
     
     
     
     * 
     
     
     
     FROM 
     
     
     
     stocks 
     
     
     
     WHERE 
     
     
     
     symbol = 
     
     
     
     'GOOG'
     
     
     
     ;
    
    
    
    
    
    
    
    
     
     
     
     OK
    
    
    
    
    
    
    
    
     
     
     
      
    
    
    
    
    
    
    
    
     
     
     
     读取新表数据：
    
    
    
    
    
    
    
    
     
     
     
     hive> 
     
     
     
     select 
     
     
     
     * 
     
     
     
     from 
     
     
     
     google_stocks limit 5;
    
    
    
    
    
    
    
    
     
     
     
     OK
    
    
    
    
    
    
    
    
     
     
     
     GOOG 2009-01-02 308.6 321.82 305.5 321.32 3610500 321.32
    
    
    
    
    
    
    
    
     
     
     
     GOOG 2008-01-02 692.87 697.37 677.73 685.19 4306900 685.19
    
    
    
    
    
    
    
    
     
     
     
     GOOG 2007-01-03 466.0 476.66 461.11 467.59 7706500 467.59
    
    
    
    
    
    
    
    
     
     
     
     GOOG 2006-01-03 422.52 435.67 418.22 435.23 13121200 435.23
    
    
    
    
    
    
    
    
     
     
     
     GOOG 2005-01-03 197.4 203.64 195.46 202.71 15844200 202.71

3.2 压缩前我们的数据：

{

"username": "miguno",

"tweet": "Rock: Nerf paper, scissors is fine.",

"timestamp": 1366150681

},

{

"username": "BlizzardCS",

"tweet": "Works as intended. Terran is IMBA.",

"timestamp": 1366154481

},

{

"username": "DarkTemplar",

"tweet": "From the shadows I come!",

"timestamp": 1366154681

},

{

"username": "VoidRay",

"tweet": "Prismatic core online!",

"timestamp": 1366160000

}

3.3 压缩完的数据假如存放在/home/wyp/twitter.avsc文件中，我们将这个数据复制到HDFS中的/user/wyp/examples/input/目录下：

Hadoop fs -put /home/wyp/twitter.avro /user/wyp/examples/input/

3.4 读取压缩后的数据：

hive> select * from tweets limit 5;;

OK

miguno Rock: Nerf paper, scissors is fine. 1366150681

BlizzardCS Works as intended. Terran is IMBA. 1366154481

DarkTemplar From the shadows I come! 1366154681

VoidRay Prismatic core online! 1366160000

Time taken: 0.495 seconds, Fetched: 4 row(s)

你可能感兴趣的:(Cloud,Computing)

2025年最佳iCloud数据恢复软件评测：Top 5 iphone数据恢复ios
在数字时代，我们的手机存储了海量的个人数据，包括照片、音乐、视频、邮件附件、电子书和下载的文档等。然而，意外情况（如设备损坏、软件问题、系统更新，甚至手机丢失）可能导致数据丢失。幸运的是，苹果提供了iCloud作为备份iPhone数据的安全便捷方式。如果数据丢失，iCloud数据恢复软件可以帮助你找回文件。这些工具能够在几乎所有情况下从iCloud备份中恢复数据。以下是2025年值得尝试的5款最佳
SpringCloud之老版本（旧版） wangleidong711 SpringCloud java 后端 spring
SpringCloud微服务实践第一章：微服务架构概述1-1.系统进化理论概述在系统架构与设计的实践中，经历了两个阶段，一个阶段是早些年常见的集中式系统，一个阶段是近年来流行的分布式系统；集中式系统：集中式系统也叫单体应用，就是把所有的程序、功能、模块都集中到一个项目中，部署在一台服务器上，从而对外提供服务；分布式系统分布式系统就是把所有的程序、功能拆分成不同的子系统，部署在多台不同的服务器上，这
spring cloud k8s kubesphere 灰度发布改造(包含gateway) 山巅 Kubernetes #Spring Cloud &Alibaba spring cloud kubernetes gateway kubesphere 灰度发布
Kubernetes如何通过ingress-nginx实现应用灰度发布？在日常的工作中，我们会经常对应用进行发版升级，在互联网公司尤为频繁，主要是为了满足快速的业务发展。我们经常用到的发布方式有滚动更新、蓝绿发布、灰度发布。滚动更新：依次进行新旧替换，直到旧的全部被替换为止。蓝绿发布：两套独立的系统，对外提供服务的称为绿系统，待上线的服务称为蓝系统，当蓝系统里面的应用测试完成后，用户流量接入蓝系统
微信小程序添加数据到数据库中 codekjy big data 小程序 html5
在一个事件函数中//stu是一个数据库的名称constdb=wx.cloud.database()conststu=db.collection('student')//添加一个data数据到stu数据库中stu.add({data:{//获取输入的内容name:this.data.name,age:parseInt(this.data.age),sex:this.data.sex}}).then(
Nginx 1.10 整合 Spring CLoud GateWay 2.1.3 搭建域名访问环境 itorly nginx gateway
前提0.1SpringBoot+SpringCloud项目位于本地(win10)0.2Nginx运行在本地虚拟机VirtualBox的Docker上0.3SwitchHosts将本地域名gulimall.com与本机ip地址映射0.4本机ip地址由cmd命令行ipconfig得到,必须确保该本地ip与虚拟机ip互相ping得通注意:配置文件中##开头的注释是自定义的注释,其下一行是自定义编辑的配置
微服务网关异常处理springcloud-gateway hong_myth 微服务 springcloud
在使用springcloud-gateway网关路由到微服时出现异常如何对异常进行统一封装处理？问题：项目中使用springcloud-gateway，请求到网关，再路由到微服务时出现微服务未找到异常网关pom文件org.springframework.cloudspring-cloud-starter-gateway2.1.2.RELEASE请求:http://192.168.135.99:99
KubeBlocks 如何降低管理多种数据库的学习门槛
什么是KubeBlocksKubeBlocks是一个开源的Kubernetes数据库operator，能够帮助用户在Kubernetes上运行和管理多种类型的数据库。据我们所知，大多数数据库operator通常只能管理某种特定类型的数据库，例如：CloudNativePG、Zalando、CrunchyData、StackGresoperator用于管理PostgreSQLStrimzi用于管理K
SpringCloud AWS S3 对象存储 AI天才研究院 Python实战自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介SpringCloud为开发人员提供了快速构建分布式系统的一些工具，其中包括配置管理、服务发现、消息总线等等。在云计算、容器化和微服务的大环境下，SpringCloud提供了一些基础设施来支持快速部署应用程序。对于存储服务，SpringCloudAWS提供了AWSS3对象存储的集成实现。本文将介绍如何通过SpringBoot和SpringCloud来实现对AWS
从0到1带大家搭建spring cloud alibaba 微服务大型应用框架（九）文件服务篇（1）：minio 单机与集群搭建峡谷电光马仔 spring cloud minio alibaba 分布式文件
为什么需分布式文件服务单机时代初创时期由于时间紧迫，在各种资源有限的情况下，通常就直接在项目目录下建立静态文件夹，用于用户存放项目中的文件资源。如果按不同类型再细分，可以在项目目录下再建立不同的子目录来区分。例如：resources\static\file、resources\static\image等。优点：这样做比较便利，项目直接引用就行，实现起来也简单，无需任何复杂技术，保存数据库记录和访问
微服务架构，Spring Cloud、Kubernetes 以及云厂商（AWS、Azure）的管理方式 2301_79306982 架构微服务 spring cloud kubernetes 云原生
解析SpringCloud相关的术语（1）服务发现（ServiceDiscovery）定义：当一个微服务启动后，如何让其他微服务知道它的地址（IP、端口）？服务发现用于自动注册和查找服务，避免手动配置地址。为什么需要？传统服务器：IP地址固定，不需要动态发现。微服务：容器随时可能重启、迁移、扩容，地址会变动，必须动态发现SpringCloud组件：Eureka、Consul、Zookeeper。K
#渗透测试#批量漏洞挖掘#致远互联AnalyticsCloud 分析云任意文件读取独行soc 漏洞挖掘安全 web安全 python 任意文件读取云安全安全威胁分析
免责声明本教程仅为合法的教学目的而准备，严禁用于任何形式的违法犯罪活动及其他商业行为，在使用本教程前，您应确保该行为符合当地的法律法规，继续阅读即表示您需自行承担所有操作的后果，如有异议，请立即停止本文章读。目录一、产品核心定位二、技术架构特性三、典型应用场景四、服务支持体系五、漏洞POC一、产品核心定位1.**全链路服务**：覆盖「数据采集→清洗加工→智能建模→可视化呈现」完整分析流程2.**行
CP414: Foundations of Computing 后端
CP414:FoundationsofComputingCourseOutlineCourseSummaryThiscourseisanintroductiontothetheoryofcomputation.Topicsincludedeterministicandnondeterministicfiniteautomata(DFAsandNFAs),regularexpressions,con
Linux Python2.7离线安装request库 Citrus- centos python
1.官网下载相应依赖包，涉及依赖包如下：现成打包好的：https://cloud.189.cn/t/v2m22i326zAb(访问码:j847)官网地址：https://pypi.org/setuptools-41.1.0.post1.tarpip-19.2.2.tar.gzcertifi-2019.9.11-py2.py3-none-any.whlchardet-3.0.4-py2.py3-no
deepseek 调用 API 接口摸鱼的张三 deepseek AI 人工智能 deepseek
注册送14元2000万Tokenshttps://cloud.siliconflow.cn/i/EJZ0AhEl要使用deepseek调用API接口，需要首先了解deepseek提供的API文档和支持。一般来说，API文档会包括以下内容：接口的URL和请求方法https://cloud.siliconflow.cn/i/EJZ0AhElhttps://cloud.siliconflow.cn/i/
SpringCloud包含的微服务介绍--Eureka wildyuhao Java 网络 zookeeper 分布式 eureka spring
SpringCloud包含的微服务介绍Eureka服务注册与发现为什么需要注册中心当我们启动项目时，我们通常会在属性文件中包含所有配置。随着越来越多的服务的开发和部署，添加和修改这些属性变得更加复杂。某些服务可能会停止运行，而某些服务可能会发生变化。手动更改属性可能会产生问题。Eureka服务注册和发现在这种情况下有所帮助。由于所有服务都已注册到Eureka服务器并通过调用EurekaServer
云管平台的建设要点运维
一、云管平台：运维的"中枢神经系统"云管平台（CloudManagementPlatform，CMP）是运维工程师的"登云梯"，它统一管理多云环境，提供资源调配、成本优化、安全管控等核心功能。想象一下，如果把各个云平台比作不同的国家，云管平台就是一本万能护照，让我们自由穿梭于多云世界。从运维视角看，云管平台的核心价值在于：统一视图：打破云平台壁垒，实现资源可视化自动化运维：简化操作流程，提高运维效
Docker Desktop 镜像源配置 VIPLemon docker 容器运维
1打开配置页面2dockerengine镜像配置位置3、替换镜像内容{"registry-mirrors":["https://hub-mirror.c.163.com","https://mirror.ccs.tencentyun.com","https://05f073ad3c0010ea0f4bc00b7105ec20.mirror.swr.myhuaweicloud.com","https
SpringCloud-Gateway整合SpingCloud-Alibaba入门简单示例 Java技术攻略 spring cloud gateway spring
环境搭建服务环境搭建Maven依赖配置建立Maven项目结构如下：--springcloud-alibaba-gateway|----springcloud-provider|----springcloud-gateway复制代码父项目springcloud-alibaba-gateway的POM依赖org.springframework.bootspring-boot-starter-paren
使用MaxKB及deepseek搭建本地AI知识库 deepseek
序本文主要研究一下如何MaxKB及deepseek搭建本地AI知识库步骤拉取MaxKB镜像dockerpullcr2.fit2cloud.com/1panel/maxkb如果拉取不下来就用docker.1ms.run/1panel/maxkb启动MaxKBdockerrun-d--name=maxkb--restart=always-p8080:8080\-v~/.maxkb:/var/lib/p
372_C++_当有多个通道，开启不同告警的同一种的开关时，限制该开关的打开数量（比如视频上传开关）扳手的海角物联网 c++
GetCloudUploadNum函数GetCloudUploadNum函数主要用于统计和控制云端视频上传的通道数量,其主要功能如下:功能目的//检查每个通道的云端视频上传配置,并统计启用云端上传的通道总数intCloudUploadNum=0;boolInValidCloudUploadChn[MAX_CHN_NUMPARA]={};
什么是量子计算？它与经典计算机的本质区别 Ash Butterfield 量子计算机学习计划量子计算
在这个信息爆炸的时代，量子计算（QuantumComputing）正成为下一代计算革命的核心。那么，量子计算到底是什么？它与我们常见的经典计算机有什么不同？经典计算机vs.⚛量子计算机对比维度经典计算机（ClassicalComputing）量子计算机（QuantumComputing）基本单位比特（Bit）：0或1量子比特（Qubit）：可处于0和1的叠加态计算原理硅基晶体管，使用二进制逻辑量子
SpringCloud—— eureka+feign实现声明式服务治理 2501_90225989 spring cloud eureka spring
为什么要使用Eureka，因为在一个完整的系统架构中，任何单点的服务都不能保证不会中断，因此我们需要服务发现机制，在某个节点中断后，其它的节点能够继续提供服务，从而保证整个系统是高可用的。服务发现有两种模式：一种是客户端发现模式，一种是服务端发现模式。Erueka采用的是客户端发现模式。feign：Feign是一个声明式的Web服务客户端，使用Feign可使得Web服务客户端的写入更加方便。它具有
云管平台的建设要点运维
一、云管平台：运维的"中枢神经系统"云管平台（CloudManagementPlatform，CMP）是运维工程师的"登云梯"，它统一管理多云环境，提供资源调配、成本优化、安全管控等核心功能。想象一下，如果把各个云平台比作不同的国家，云管平台就是一本万能护照，让我们自由穿梭于多云世界。从运维视角看，云管平台的核心价值在于：统一视图：打破云平台壁垒，实现资源可视化自动化运维：简化操作流程，提高运维效
uniapp-列表样式耶啵奶膘 uni vue uni-app javascript
{{index}}import{ref,reactive}from'vue'import{onLoad,onShow,onReachBottom}from'@dcloudio/uni-app'importifrom'@/libs/common/index.js'importapifrom'@/request/api.js'import{userStore}from'@/store/userStor
124 巨坑uni-app踩坑事件 uniCloud本地调试服务启动失败若学姐(前端) uni-app
1.事情是这样的事情是这样的，我上午在运行项目的时候还是好好的，我什么都没干，没动代码，没更新，就啥也没干，代码我也还原成好好的之前的样子，就报这个错，但是我之前没用过这个服务呀，我想肯定不是这个问题。然后我就各种网上找，问AI，然而并没有什么用，按控制台输出去改，也没有用，一开始我以为是hbuilerx的插件出问题了，我还重装，依旧无效。还看了下面这个博主的帖子小程序报错：SyntaxError
安科瑞环保用电监管云平台 GetEnterpriseInfoY SQL注入漏洞复现 0xSecl 漏洞复现v2 安全 web安全
0x01产品简介AcrelCloud-3000环保用电监管云平台依托创新的物联网电力传感技术，实时采集企业总用电、生产设备及环保治理设备用电数据，通过关联分析、超限分析、停电分析、停限产分析，结合及时发现环保治理设备未开启、异常关闭及减速、空转、降频等异常情况，同时通过数据分析还可以实时监控限产和停产整治企业运行状态，用户可以利用PC、手机、平板电脑等多种终端实现对平台的访问。0x02漏洞概述安科
feigh调用遇到的问题我敲代码像把梭
在SpringCloud项目中，由于业务需要可能会出现，调用一个微服务的接口时，需要操作另一个微服务的数据。此时，feigh调用是一个好的选择，至于feigh调用如何实现，比较简单，相关的博文有很多，具体的调用过程以后再补。该篇文章记录feigh调用时遇到的坑。一、List无法解析，报Noprimaryordefaultconstructorfoundforinterfacejava.util.L
SpringCloud 中 Feign介绍大云区人伍日常问题-javaWeb spring cloud java spring
原文链接：https://www.cnblogs.com/crazymakercircle/p/11965726.html1SpringCloud中Feign核心原理如果不了解SpringCloud中Feign核心原理，不会真正的了解SpringCloud的性能优化和配置优化，也就不可能做到真正掌握SpringCloud。本章从Feign远程调用的重要组件开始，图文并茂的介绍Feigh远程调用的执
微信小程序请求request封装 WorkAndDebugger 微信小程序微信小程序小程序
公共基础路径封装//config.jsmodule.exports={//测试BASE_URL:'https://cloud.chejj.cn',//正式//BASE_URL:'https://cloud.mycjj.com'};请求封装//request.jsimportconfigfrom'../config/baseUrl'//请求未返回时的loadingconstshowLoading=(
一：nextcloud27+nginx +ssl傻瓜式安装教程 LB33333 nextcloud nginx ssl nginx ssl 运维开源软件笔记经验分享 linux
installnextcloudubuntu22.04nginx在Ubuntu22.04上安装Nextcloud并使用Nginx作为Web服务器的步骤如下：环境说明操作系统：ubuntu2204PHP版本：8.2nextcloud：27安装和配置PHP使用以下命令安装PHP和必要的组件（多余的组件将在优化nextcloud中用到，所以一并给它装上）：sudoaptupdate&&sudoaptup
多线程编程之理财周凡杨 java 多线程生产者消费者理财
现实生活中，我们一边工作，一边消费，正常情况下会把多余的钱存起来，比如存到余额宝，还可以多挣点钱，现在就有这个情况：我每月可以发工资20000万元（暂定每月的1号），每月消费5000（租房+生活费）元（暂定每月的1号），其中租金是大头占90%，交房租的方式可以选择（一月一交，两月一交、三月一交），理财：1万元存余额宝一天可以赚1元钱，
[Zookeeper学习笔记之三]Zookeeper会话超时机制 bit1129 zookeeper
首先，会话超时是由Zookeeper服务端通知客户端会话已经超时，客户端不能自行决定会话已经超时，不过客户端可以通过调用Zookeeper.close()主动的发起会话结束请求，如下的代码输出内容 Created /zoo-739160015 CONNECTEDCONNECTED .............CONNECTEDCONNECTED CONNECTEDCLOSEDCLOSED
SecureCRT快捷键 daizj secureCRT 快捷键
ctrl + a : 移动光标到行首ctrl + e ：移动光标到行尾crtl + b: 光标前移1个字符crtl + f: 光标后移1个字符crtl + h : 删除光标之前的一个字符ctrl + d ：删除光标之后的一个字符crtl + k ：删除光标到行尾所有字符crtl + u : 删除光标至行首所有字符crtl + w: 删除光标至行首
Java 子类与父类这间的转换周凡杨 java 父类与子类的转换
最近同事调的一个服务报错，查看后是日期之间转换出的问题。代码里是把 java.sql.Date 类型的对象强制转换为 java.sql.Timestamp 类型的对象。报java.lang.ClassCastException。代码：
可视化swing界面编辑朱辉辉33 eclipse swing
今天发现了一个WindowBuilder插件，功能好强大，啊哈哈，从此告别手动编辑swing界面代码，直接像VB那样编辑界面，代码会自动生成。首先在Eclipse中点击help，选择Install New Software,然后在Work with中输入WindowBui
web报表工具FineReport常用函数的用法总结（文本函数）老A不折腾 finereport web报表工具报表软件 java报表
文本函数 CHAR CHAR(number):根据指定数字返回对应的字符。CHAR函数可将计算机其他类型的数字代码转换为字符。 Number:用于指定字符的数字，介于1Number:用于指定字符的数字，介于165535之间（包括1和65535）。示例: CHAR(88)等于“X”。 CHAR(45)等于“-”。 CODE CODE(text):计算文本串中第一个字
mysql安装出错林鹤霄 mysql安装
[root@localhost ~]# rpm -ivh MySQL-server-5.5.24-1.linux2.6.x86_64.rpm Preparing... #####################
linux下编译libuv aigo libuv
下载最新版本的libuv源码，解压后执行： ./autogen.sh 这时会提醒找不到automake命令，通过一下命令执行安装（redhat系用yum，Debian系用apt-get）： # yum -y install automake # yum -y install libtool 如果提示错误：make: *** No targe
中国行政区数据及三级联动菜单 alxw4616
近期做项目需要三级联动菜单,上网查了半天竟然没有发现一个能直接用的! 呵呵,都要自己填数据....我了个去这东西麻烦就麻烦的数据上. 哎,自己没办法动手写吧. 现将这些数据共享出了,以方便大家.嗯,代码也可以直接使用文件说明 lib\area.sql -- 县及县以上行政区划分代码（截止2013年8月31日)来源：国家统计局发布时间：2014-01-17 15:0
哈夫曼加密文件百合不是茶哈夫曼压缩哈夫曼加密二叉树
在上一篇介绍过哈夫曼编码的基础知识,下面就直接介绍使用哈夫曼编码怎么来做文件加密或者压缩与解压的软件,对于新手来是有点难度的,主要还是要理清楚步骤; 加密步骤: 1,统计文件中字节出现的次数,作为权值 2,创建节点和哈夫曼树 3,得到每个子节点01串 4,使用哈夫曼编码表示每个字节
JDK1.5 Cyclicbarrier实例 bijian1013 java thread java多线程 Cyclicbarrier
CyclicBarrier类一个同步辅助类，它允许一组线程互相等待，直到到达某个公共屏障点 (common barrier point)。在涉及一组固定大小的线程的程序中，这些线程必须不时地互相等待，此时 CyclicBarrier 很有用。因为该 barrier 在释放等待线程后可以重用，所以称它为循环的 barrier。 CyclicBarrier支持一个可选的 Runnable 命令，
九项重要的职业规划 bijian1013 工作学习
一. 学习的步伐不停止古人说，活到老，学到老。终身学习应该是您的座右铭。世界在不断变化，每个人都在寻找各自的事业途径。您只有保证了足够的技能储
【Java范型四】范型方法 bit1129 java
范型参数不仅仅可以用于类型的声明上，例如 package com.tom.lang.generics; import java.util.List; public class Generics<T> { private T value; public Generics(T value) { this.value =
【Hadoop十三】HDFS Java API基本操作 bit1129 hadoop
package com.examples.hadoop; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FSDataInputStream; import org.apache.hadoop.fs.FileStatus; import org.apache.hadoo
ua实现split字符串分隔 ronin47 lua split
LUA并不象其它许多"大而全"的语言那样，包括很多功能，比如网络通讯、图形界面等。但是LUA可以很容易地被扩展：由宿主语言(通常是C或 C++)提供这些功能，LUA可以使用它们，就像是本来就内置的功能一样。LUA只包括一个精简的核心和最基本的库。这使得LUA体积小、启动速度快，从而适合嵌入在别的程序里。因此在lua中并没有其他语言那样多的系统函数。习惯了其他语言的字符串分割函
java-从先序遍历和中序遍历重建二叉树 bylijinnan java
public class BuildTreePreOrderInOrder { /** * Build Binary Tree from PreOrder and InOrder * _______7______ / \ __10__ ___2 / \ / 4
openfire开发指南《连接和登陆》开窍的石头 openfire 开发指南 smack
第一步官网下载smack.jar包下载地址：http://www.igniterealtime.org/downloads/index.jsp#smack 第二步把smack里边的jar导入你新建的java项目中开始编写smack连接openfire代码 p
[移动通讯]手机后盖应该按需要能够随时开启 comsci 移动
看到新的手机，很多由金属材质做的外壳，内存和闪存容量越来越大，CPU速度越来越快，对于这些改进，我们非常高兴，也非常欢迎但是，对于手机的新设计，有几点我们也要注意第一：手机的后盖应该能够被用户自行取下来，手机的电池的可更换性应该是必须保留的设计,
20款国外知名的php开源cms系统 cuiyadll cms
内容管理系统，简称CMS，是一种简易的发布和管理新闻的程序。用户可以在后端管理系统中发布，编辑和删除文章，即使您不需要懂得HTML和其他脚本语言，这就是CMS的优点。在这里我决定介绍20款目前国外市面上最流行的开源的PHP内容管理系统，以便没有PHP知识的读者也可以通过国外内容管理系统建立自己的网站。 1. Wordpress WordPress的是一个功能强大且易于使用的内容管
Java生成全局唯一标识符 darrenzhu java uuid unique identifier id
How to generate a globally unique identifier in Java http://stackoverflow.com/questions/21536572/generate-unique-id-in-java-to-label-groups-of-related-entries-in-a-log http://stackoverflow
php安装模块检测是否已安装过, 使用的SQL语句 dcj3sjt126com sql
SHOW [FULL] TABLES [FROM db_name] [LIKE 'pattern'] SHOW TABLES列举了给定数据库中的非TEMPORARY表。您也可以使用mysqlshow db_name命令得到此清单。本命令也列举数据库中的其它视图。支持FULL修改符，这样SHOW FULL TABLES就可以显示第二个输出列。对于一个表，第二列的值为BASE T
5天学会一种 web 开发框架 dcj3sjt126com Web 框架 framework
web framework层出不穷，特别是ruby/python,各有10+个,php/java也是一大堆根据我自己的经验写了一个to do list,按照这个清单，一条一条的学习，事半功倍，很快就能掌握一共25条，即便很磨蹭，2小时也能搞定一条，25*2=50。只需要50小时就能掌握任意一种web框架各类web框架大同小异:现代web开发框架的6大元素，把握主线，就不会迷路建议把本文
Gson使用三(Map集合的处理,一对多处理) eksliang json gson Gson map Gson 集合处理
转载请出自出处：http://eksliang.iteye.com/blog/2175532 一、概述 Map保存的是键值对的形式，Json的格式也是键值对的，所以正常情况下，map跟json之间的转换应当是理所当然的事情。二、Map参考实例 package com.ickes.json; import java.lang.refl
cordova实现“再点击一次退出”效果 gundumw100 android
基本的写法如下： document.addEventListener("deviceready", onDeviceReady, false); function onDeviceReady() { //navigator.splashscreen.hide(); document.addEventListener("b
openldap configuration leaning note iwindyforest configuration
hostname // to display the computer name hostname <changed name> // to change go to: /etc/sysconfig/network, add/modify HOSTNAME=NEWNAME to change permenately dont forget to change /etc/hosts
Nullability and Objective-C 啸笑天 Objective-C
https://developer.apple.com/swift/blog/?id=25 http://www.cocoachina.com/ios/20150601/11989.html http://blog.csdn.net/zhangao0086/article/details/44409913 http://blog.sunnyxx
jsp中实现参数隐藏的两种方法 macroli JavaScript jsp
在一个JSP页面有一个链接，//确定是一个链接?点击弹出一个页面，需要传给这个页面一些参数。//正常的方法是设置弹出页面的src="***.do?p1=aaa&p2=bbb&p3=ccc"//确定目标URL是Action来处理?但是这样会在页面上看到传过来的参数，可能会不安全。要求实现src="***.do"，参数通过其他方法传！//////
Bootstrap A标签关闭modal并打开新的链接解决方案 qiaolevip 每天进步一点点学习永无止境 bootstrap 纵观千象
Bootstrap里面的js modal控件使用起来很方便，关闭也很简单。只需添加标签 data-dismiss="modal" 即可。可是偏偏有时候需要a标签既要关闭modal，有要打开新的链接，尝试多种方法未果。只好使用原始js来控制。 <a href="#/group-buy" class="btn bt
二维数组在Java和C中的区别流淚的芥末 java c 二维数组数组
Java代码： public class test03 { public static void main(String[] args) { int[][] a = {{1},{2,3},{4,5,6}}; System.out.println(a[0][1]); } } 运行结果： Exception in thread "mai
systemctl命令用法 wmlJava linux systemctl
对比表，以 apache / httpd 为例任务旧指令新指令使某服务自动启动 chkconfig --level 3 httpd on systemctl enable httpd.service 使某服务不自动启动 chkconfig --level 3 httpd off systemctl disable httpd.service 检查服务状态 service h