yongjian_luo

Hive体系结构<转>

本文整理自阿里数据平台的官方博客：http://www.alidata.org/archives/category/cloud-computing/hive

1、Hive架构与基本组成

下面是Hive的架构图。

图1.1 Hive体系结构

Hive的体系结构可以分为以下几部分：

    （1）用户接口主要有三个：CLI，Client 和 WUI。其中最常用的是CLI，Cli启动的时候，会同时启动一个Hive副本。Client是Hive的客户端，用户连接至Hive Server。在启动 Client模式的时候，需要指出Hive Server所在节点，并且在该节点启动Hive Server。 WUI是通过浏览器访问Hive。
    （2）Hive将元数据存储在数据库中，如mysql、derby。Hive中的元数据包括表的名字，表的列和分区及其属性，表的属性（是否为外部表等），表的数据所在目录等。
    （3）解释器、编译器、优化器完成HQL查询语句从词法分析、语法分析、编译、优化以及查询计划的生成。生成的查询计划存储在HDFS中，并在随后有MapReduce调用执行。
    （4）Hive的数据存储在HDFS中，大部分的查询、计算由MapReduce完成（包含*的查询，比如select * from tbl不会生成MapRedcue任务）。

Hive将元数据存储在RDBMS中，有三种模式可以连接到数据库：

（1）单用户模式。此模式连接到一个In-memory 的数据库Derby，一般用于Unit Test。

图2.1 单用户模式

（2）多用户模式。通过网络连接到一个数据库中，是最经常使用到的模式。

图2.2 多用户模式

（3）远程服务器模式。用于非Java客户端访问元数据库，在服务器端启动MetaStoreServer，客户端利用Thrift协议通过MetaStoreServer访问元数据库。

对于数据存储，Hive没有专门的数据存储格式，也没有为数据建立索引，用户可以非常自由的组织Hive中的表，只需要在创建表的时候告诉Hive数据中的列分隔符和行分隔符，Hive就可以解析数据。Hive中所有的数据都存储在HDFS中，存储结构主要包括数据库、文件、表和视图。Hive中包含以下数据模型：Table内部表，External Table外部表，Partition分区，Bucket桶。Hive默认可以直接加载文本文件，还支持sequence file 、RCFile。

Hive的数据模型介绍如下：

（1）Hive数据库

类似传统数据库的DataBase，在第三方数据库里实际是一张表。简单示例命令行 hive > create database test_database;

（2）内部表

Hive的内部表与数据库中的Table在概念上是类似。每一个Table在Hive中都有一个相应的目录存储数据。例如一个表pvs，它在HDFS中的路径为/wh/pvs，其中wh是在hive-site.xml中由${hive.metastore.warehouse.dir} 指定的数据仓库的目录，所有的Table数据（不包括External Table）都保存在这个目录中。删除表时，元数据与数据都会被删除。

内部表简单示例：
创建数据文件：test_inner_table.txt

    创建表：create table test_inner_table (key string)
    加载数据：LOAD DATA LOCAL INPATH ‘filepath’ INTO TABLE test_inner_table
    查看数据：select * from test_inner_table; select count(*) from test_inner_table
    删除表：drop table test_inner_table

（3）外部表

    外部表指向已经在HDFS中存在的数据，可以创建Partition。它和内部表在元数据的组织上是相同的，而实际数据的存储则有较大的差异。内部表的创建过程和数据加载过程这两个过程可以分别独立完成，也可以在同一个语句中完成，在加载数据的过程中，实际数据会被移动到数据仓库目录中；之后对数据对访问将会直接在数据仓库目录中完成。删除表时，表中的数据和元数据将会被同时删除。而外部表只有一个过程，加载数据和创建表同时完成（CREATE EXTERNAL TABLE ……LOCATION），实际数据是存储在LOCATION后面指定的 HDFS 路径中，并不会移动到数据仓库目录中。当删除一个External Table时，仅删除该链接。
    外部表简单示例：
    创建数据文件：test_external_table.txt
    创建表：create external table test_external_table (key string)
    加载数据：LOAD DATA INPATH ‘filepath’ INTO TABLE test_inner_table
    查看数据：select * from test_external_table; •select count(*) from test_external_table
    删除表：drop table test_external_table

（4）分区

Partition对应于数据库中的Partition列的密集索引，但是Hive中Partition的组织方式和数据库中的很不相同。在Hive中，表中的一个Partition对应于表下的一个目录，所有的Partition的数据都存储在对应的目录中。例如pvs表中包含ds和city两个Partition，则对应于ds = 20090801, ctry = US 的HDFS子目录为/wh/pvs/ds=20090801/ctry=US；对应于 ds = 20090801, ctry = CA 的HDFS子目录为/wh/pvs/ds=20090801/ctry=CA。

    分区表简单示例：
    创建数据文件：test_partition_table.txt
    创建表：create table test_partition_table (key string) partitioned by (dt string)
    加载数据：LOAD DATA INPATH ‘filepath’ INTO TABLE test_partition_table partition (dt=‘2006’)
    查看数据：select * from test_partition_table; select count(*) from test_partition_table
    删除表：drop table test_partition_table

（5）桶

Buckets是将表的列通过Hash算法进一步分解成不同的文件存储。它对指定列计算hash，根据hash值切分数据，目的是为了并行，每一个Bucket对应一个文件。例如将user列分散至32个bucket，首先对user列的值计算hash，对应hash值为0的HDFS目录为/wh/pvs/ds=20090801/ctry=US/part-00000；hash值为20的HDFS目录为/wh/pvs/ds=20090801/ctry=US/part-00020。如果想应用很多的Map任务这样是不错的选择。

    桶的简单示例：
    创建数据文件：test_bucket_table.txt
    创建表：create table test_bucket_table (key string) clustered by (key) into 20 buckets
    加载数据：LOAD DATA INPATH ‘filepath’ INTO TABLE test_bucket_table
    查看数据：select * from test_bucket_table; set hive.enforce.bucketing = true;

（6）Hive的视图

视图与传统数据库的视图类似。视图是只读的，它基于的基本表，如果改变，数据增加不会影响视图的呈现；如果删除，会出现问题。•如果不指定视图的列，会根据select语句后的生成。
示例：create view test_view as select * from test

2、Hive的执行原理

图2.1 Hive的执行原理

    Hive构建在Hadoop之上，
    （1）HQL中对查询语句的解释、优化、生成查询计划是由Hive完成的
    （2）所有的数据都是存储在Hadoop中
    （3）查询计划被转化为MapReduce任务，在Hadoop中执行（有些查询没有MR任务，如：select * from table）
    （4）Hadoop和Hive都是用UTF-8编码的

Hive编译器将一个Hive QL转换操作符。操作符Operator是Hive的最小的处理单元，每个操作符代表HDFS的一个操作或者一道MapReduce作业。Operator都是hive定义的一个处理过程，其定义有：
protected List <Operator<? extends Serializable >> childOperators;
protected List <Operator<? extends Serializable >> parentOperators;
protected boolean done; // 初始化值为false

所有的操作构成了Operator图，hive正是基于这些图关系来处理诸如limit, group by, join等操作。

图2.2 Hive QL的操作符

    操作符如下：
    TableScanOperator：扫描hive表数据
    ReduceSinkOperator：创建将发送到Reducer端的<Key,Value>对
    JoinOperator：Join两份数据
    SelectOperator：选择输出列
    FileSinkOperator：建立结果数据,输出至文件
    FilterOperator：过滤输入数据
    GroupByOperator：GroupBy语句
    MapJoinOperator：/*+mapjoin(t) */
    LimitOperator：Limit语句
    UnionOperator：Union语句
    Hive通过ExecMapper和ExecReducer执行MapReduce任务。在执行MapReduce时有两种模式，即本地模式和分布式模式。

Hive编译器的组成：

图2.3 Hive编译器的组成

编译流程如下：

图2.4 Hive QL编译流程

3、Hive和数据库的异同
由于Hive采用了SQL的查询语言HQL，因此很容易将Hive理解为数据库。其实从结构上来看，Hive和数据库除了拥有类似的查询语言，再无类似之处。数据库可以用在Online的应用中，但是Hive是为数据仓库而设计的，清楚这一点，有助于从应用角度理解Hive的特性。

Hive和数据库的比较如下表：

	Hive	RDBMS
查询语言	HQL	SQL
数据存储	HDFS	Raw Device or Local FS
数据格式	用户定义	系统决定
数据更新	不支持	支持
索引	无	有
执行	MapReduce	Executor
执行延迟	高	低
处理数据规模	大	小
可扩展性	高	低

     （1）查询语言。由于 SQL 被广泛的应用在数据仓库中，因此专门针对Hive的特性设计了类SQL的查询语言HQL。熟悉SQL开发的开发者可以很方便的使用Hive进行开发。
     （2）数据存储位置。Hive是建立在Hadoop之上的，所有Hive的数据都是存储在HDFS中的。而数据库则可以将数据保存在块设备或者本地文件系统中。
     （3）数据格式。Hive中没有定义专门的数据格式，数据格式可以由用户指定，用户定义数据格式需要指定三个属性：列分隔符（通常为空格、”\t”、”\x001″）、行分隔符（”\n”）以及读取文件数据的方法（Hive中默认有三个文件格式TextFile，SequenceFile以及RCFile）。由于在加载数据的过程中，不需要从用户数据格式到Hive定义的数据格式的转换，因此， Hive在加载的过程中不会对数据本身进行任何修改，而只是将数据内容复制或者移动到相应的HDFS目录中。 而在数据库中，不同的数据库有不同的存储引擎，定义了自己的数据格式。所有数据都会按照一定的组织存储，因此，数据库加载数据的过程会比较耗时。
     （4）数据更新。由于Hive是针对数据仓库应用设计的，而数据仓库的内容是读多写少的。因此，Hive中不支持对数据的改写和添加，所有的数据都是在加载的时候中确定好的。而数据库中的数据通常是需要经常进行修改的，因此可以使用INSERT INTO ... VALUES添加数据，使用UPDATE ... SET修改数据。
     （5）索引。之前已经说过，Hive在加载数据的过程中不会对数据进行任何处理，甚至不会对数据进行扫描，因此也没有对数据中的某些Key建立索引。Hive要访问数据中满足条件的特定值时，需要暴力扫描整个数据，因此访问延迟较高。由于MapReduce的引入， Hive可以并行访问数据，因此即使没有索引，对于大数据量的访问，Hive仍然可以体现出优势。数据库中，通常会针对一个或者几个列建立索引，因此对于少量的特定条件的数据的访问，数据库可以有很高的效率，较低的延迟。由于数据的访问延迟较高，决定了Hive不适合在线数据查询。
     （6）执行。Hive中大多数查询的执行是通过Hadoop提供的MapReduce来实现的（类似select * from tbl的查询不需要MapReduce）。而数据库通常有自己的执行引擎。
     （7）执行延迟。之前提到，Hive在查询数据的时候，由于没有索引，需要扫描整个表，因此延迟较高。另外一个导致Hive执行延迟高的因素是MapReduce框架。由于MapReduce本身具有较高的延迟，因此在利用MapReduce执行Hive查询时，也会有较高的延迟。相对的，数据库的执行延迟较低。当然，这个低是有条件的，即数据规模较小，当数据规模大到超过数据库的处理能力的时候，Hive的并行计算显然能体现出优势。
     （8）可扩展性。由于Hive是建立在Hadoop之上的，因此Hive的可扩展性是和Hadoop的可扩展性是一致的（世界上最大的Hadoop集群在Yahoo!，2009年的规模在4000台节点左右）。而数据库由于ACID语义的严格限制，扩展行非常有限。目前最先进的并行数据库Oracle在理论上的扩展能力也只有100台左右。
     （9）数据规模。由于Hive建立在集群上并可以利用MapReduce进行并行计算，因此可以支持很大规模的数据；对应的，数据库可以支持的数据规模较小。
     4、Hive元数据库
    Hive将元数据存储在RDBMS 中，一般常用的有MYSQL和DERBY。

启动HIVE的元数据库时，需要进入到hive的安装目录
启动derby数据库：/home/admin/caona/hive/build/dist/，运行startNetworkServer -h 0.0.0.0。

连接Derby数据库进行测试：查看/home/admin/caona/hive/build/dist/conf/hive-default.xml。找到

[html]  view plain copy 
     
    
 <property>  
 <name>javax.jdo.option.ConnectionURL</name>  
 <value>jdbc:derby://hadoop1:1527/metastore_db;create=true</value>  
 <description>JDBC connect string for a JDBC metastore</description>  
 </property>  

进入derby安装目录：/home/admin/caona/hive/build/dist/db-derby-10.4.1.3-bin/bin
输入：./ij Connect 'jdbc:derby://hadoop1:1527/metastore_db;create=true';

hive元数据对应的表约有20个，其中和表结构信息有关的有9张，其余的10多张或为空，或只有简单的几条记录，以下是部分主要表的简要说明。

表名	说明	关联键
TBLS	所有hive表的基本信息	TBL_ID,SD_ID
TABLE_PARAM	表级属性，如是否外部表，表注释等	TBL_ID
COLUMNS	Hive表字段信息(字段注释，字段名，字段类型，字段序号)	SD_ID
SDS	所有hive表、表分区所对应的hdfs数据目录和数据格式	SD_ID,SERDE_ID
SERDE_PARAM	序列化反序列化信息，如行分隔符、列分隔符、NULL的表示字符等	SERDE_ID
PARTITIONS	Hive表分区信息	PART_ID,SD_ID,TBL_ID
PARTITION_KEYS	Hive分区表分区键	TBL_ID
PARTITION_KEY_VALS	Hive表分区名(键值)	PART_ID

    从上面表的内容来看，hive整个创建表的过程已经比较清楚了。
    （1）解析用户提交hive语句，对其进行解析，分解为表、字段、分区等hive对象
    （2）根据解析到的信息构建对应的表、字段、分区等对象，从 SEQUENCE_TABLE中获取构建对象的最新ID，与构建对象信息（名称，类型等）一同通过DAO方法写入到元数据表中去，成功后将SEQUENCE_TABLE中对应的最新ID+5。
    实际上我们常见的RDBMS都是通过这种方法进行组织的，典型的如postgresql，其系统表中和hive元数据一样裸露了这些id信息（oid,cid等），而Oracle等商业化的系统则隐藏了这些具体的ID。通过这些元数据我们可以很容易的读到数据诸如创建一个表的数据字典信息，比如导出建表语名等。

5、Hive基本操作

Create Table语句的一些注意项：

    （1）CREATE TABLE创建一个指定名字的表。如果相同名字的表已经存在，则抛出异常；用户可以用IF NOT EXIST选项来忽略这个异常。
   （2）EXTERNAL 关键字可以让用户创建一个外部表，在建表的同时指定一个指向实际数据的路径（ LOCATION ），Hive 创建内部表时，会将数据移动到数据仓库指向的路径；若创建外部表，仅记录数据所在的路径，不对数据的位置做任何改变。在删除表的时候，内部表的元数据和数据会被一起删除，而外部表只删除元数据，不删除数据。
    （3）LIKE允许用户复制现有的表结构，但是不复制数据。
    （4）用户在建表的时候可以自定义SerDe或者使用自带的 SerDe （ Serialize/Deserilize 的简称，目的是用于序列化和反序列化）。如果没有指定 ROW FORMAT 或者 ROW FORMAT DELIMITED，将会使用自带的SerDe。在建表的时候，用户还需要为表指定列，用户在指定表的列的同时也会指定自定义的SerDe，Hive通过SerDe确定表的具体的列的数据。
    （5）如果文件数据是纯文本，可以使用STORED AS TEXTFILE。如果数据需要压缩，使用STORED AS SEQUENCE。
    （6）有分区的表可以在创建的时候使用 PARTITIONED B Y语句。一个表可以拥有一个或者多个分区，每一个分区单独存在一个目录下。而且，表和分区都可以对某个列进行CLUSTERED BY操作，将若干个列放入一个桶（bucket）中。也可以利用SORT BY对数据进行排序。这样可以为特定应用提高性能。
    （7）表名和列名不区分大小写，SerDe和属性名区分大小写。表和列的注释是字符串。

Alter Table语句：主要功能包括Add Partitions, Drop Partitions, Rename Table, Change Column, Add/Replace Columns。

Create View语句：创建视图。格式CREATE VIEW [IF NOT EXISTS] view_name [ (column_name [COMMENT column_comment], ...) ]

Showy语句：Show tables; Show partitions; describe查看表结构。

Load语句：HIVE装载数据时没有做任何转换，加载到表中的数据只是进入相应的配置单元表的位置。Load操作只是单纯的复制/移动操作，将数据文件移动到Hive表对应的位置。

Insert语句：插入数据。Hive不支持一条一条的用 insert 语句进行插入操作，这个应该是与hive的storage layer是有关系的，因为它的存储层是HDFS，插入一个数据要全表扫描，还不如用整个表的替换来的快些。Hive也不支持update的操作。数据是以load的方式，加载到建立好的表中。数据一旦导入，则不可修改。要么drop掉整个表，要么建立新的表，导入新的数据。

Drop语句：删除一个内部表的同时会同时删除表的元数据和数据。删除一个外部表，只删除元数据而保留数据。

Limit子句：可以限制查询的记录数。查询的结果是随机选择的。下面的查询语句从 t1 表中随机查询5条记录，SELECT * FROM t1 LIMIT 5。

Top K查询：下面的查询语句查询销售记录最大的 5 个销售代表。
SET mapred.reduce.tasks = 1
SELECT * FROM sales SORT BY amount DESC LIMIT 5

正则表达式使用：SELECT语句可以使用正则表达式做列选择，下面的语句查询除了ds和h 之外的所有列：
SELECT `(ds|hr)?+.+` FROM sales

SELECT语句：查询数据。

Group by, Order by, Sort by子句：聚合可进一步分为多个表，甚至发送到 Hadoop 的 DFS 的文件（可以进行操作，然后使用HDFS的utilitites）。可以用hive.map.aggr控制怎么进行汇总。默认为为true，配置单元会做的第一级聚合直接在MAP上的任务。这通常提供更好的效率，但可能需要更多的内存来运行成功。

Join语句：连接操作。一些注意事项：

（1）Hive只支持等值连接（equality joins）、外连接（outer joins）和（left/right joins）。Hive不支持所有非等值的连接，因为非等值连接非常难转化到map/reduce任务。

（2）Hive 支持多于2个表的连接。

（3）join 时，每次 map/reduce 任务的逻辑： reducer 会缓存 join 序列中除了最后一个表的所有表的记录，再通过最后一个表将结果序列化到文件系统。这一实现有助于在reduce端减少内存的使用量。实践中，应该把最大的那个表写在最后（否则会因为缓存浪费大量内存）。

（4）LEFT，RIGHT 和 FULL OUTER 关键字用于处理 join 中空记录的情况。

（5）LEFT SEMI JOIN 是 IN/EXISTS 子查询的一种更高效的实现。Hive 当前没有实现 IN/EXISTS 子查询，所以你可以用 LEFT SEMI JOIN 重写你的子查询语句。LEFT SEMI JOIN的限制是， JOIN子句中右边的表只能在ON子句中设置过滤条件，在WHERE子句、SELECT子句或其他地方过滤都不行。

    6、使用HIVE注意点
    （1）字符集
    Hadoop和Hive都是用UTF-8编码的，所以, 所有中文必须是UTF-8编码, 才能正常使用。
    备注：中文数据load到表里面,，如果字符集不同，很有可能全是乱码需要做转码的，但是hive本身没有函数来做这个。
    （2）压缩
    hive.exec.compress.output 这个参数，默认是false，但是很多时候貌似要单独显式设置一遍，否则会对结果做压缩的，如果你的这个文件后面还要在hadoop下直接操作，那么就不能压缩了。
    （3）count(distinct)
    当前的Hive不支持在一条查询语句中有多Distinct。如果要在Hive查询语句中实现多Distinct，需要使用至少n+1条查询语句（n为distinct的数目），前n条查询分别对n个列去重，最后一条查询语句对n个去重之后的列做Join操作，得到最终结果。
    （4）JOIN
    只支持等值连接
    （5）DML操作
    只支持INSERT/LOAD操作，无UPDATE和DELTE
    （6）HAVING
    不支持HAVING操作。如果需要这个功能要嵌套一个子查询用where限制
    （7）子查询
    Hive不支持where子句中的子查询
    （8）Join中处理null值的语义区别
    SQL标准中，任何对null的操作（数值比较，字符串操作等）结果都为null。Hive对null值处理的逻辑和标准基本一致，除了Join时的特殊逻辑。这里的特殊逻辑指的是，Hive的Join中，作为Join key的字段比较，null=null是有意义的，且返回值为true。

（9）分号字符

    分号是SQL语句结束标记，在HiveQL中也是，但是在HiveQL中，对分号的识别没有那么智慧，例如：
select concat(cookie_id,concat(';',’zoo’)) from c02_clickstat_fatdt1 limit 2;
FAILED: Parse Error: line 0:-1 cannot recognize input '<EOF>' in function specification
    可以推断，Hive解析语句的时候，只要遇到分号就认为语句结束，而无论是否用引号包含起来。
    解决的办法是，使用分号的八进制的ASCII码进行转义，那么上述语句应写成：
select concat(cookie_id,concat('\073','zoo')) from c02_clickstat_fatdt1 limit 2;
    为什么是八进制ASCII码？我尝试用十六进制的ASCII码，但Hive会将其视为字符串处理并未转义，好像仅支持八进制，原因不详。这个规则也适用于其他非SELECT语句，如CREATE TABLE中需要定义分隔符，那么对不可见字符做分隔符就需要用八进制的ASCII码来转义。

（10）Insert

根据语法Insert必须加“OVERWRITE”关键字，也就是说每一次插入都是一次重写。

7、Hive的扩展特性

    Hive 是一个很开放的系统，很多内容都支持用户定制，包括：
    * 文件格式：Text File，Sequence File
    * 内存中的数据格式： Java Integer/String, Hadoop IntWritable/Text
    * 用户提供的map/reduce脚本：不管什么语言，利用stdin/stdout传输数据
    * 用户自定义函数：Substr, Trim, 1 – 1
    * 用户自定义聚合函数：Sum, Average…… n – 1

（1）数据文件格式

	TextFile	SequenceFIle	RCFFile
Data type	Text Only	Text/Binary	Text/Binary
Internal Storage Order	Row-based	Row-based	Column-based
Compression	File Based	Block Based	Block Based
Splitable	YES	YES	YES
Splitable After Compression	No	YES	YES

例如使用文件文件格式存储创建的表：

[sql]  view plain copy 
     
    
 CREATE TABLE mylog ( user_id BIGINT, page_url STRING, unix_time INT)  
 STORED AS TEXTFILE;  

当用户的数据文件格式不能被当前Hive所识别的时候，可以自定义文件格式。可以参考contrib/src/java/org/apache/hadoop/hive/contrib/fileformat/base64中的例子。写完自定义的格式后，在创建表的时候指定相应的文件格式就可以：

[sql]  view plain copy 
     
    
 CREATE TABLE base64_test(col1 STRING, col2 STRING)  
 STORED AS  
 INPUTFORMAT 'org.apache.hadoop.hive.contrib.  
 fileformat.base64.Base64TextInputFormat'  
 OUTPUTFORMAT 'org.apache.hadoop.hive.contrib.  
 fileformat.base64.Base64TextOutputFormat';  

     （2）SerDe
    SerDe是Serialize/Deserilize的简称，目的是用于序列化和反序列化。序列化的格式包括：分隔符（tab、逗号、CTRL-A）、Thrift 协议
    反序列化（内存内）：Java Integer/String/ArrayList/HashMap、Hadoop Writable类、用户自定义类
    目前存在的Serde见下图：

图7.1 SeDe类型

    其中，LazyObject只有在访问到列的时候才进行反序列化。 BinarySortable保留了排序的二进制格式。
    当存在以下情况时，可以考虑增加新的SerDe：
    * 用户的数据有特殊的序列化格式，当前的Hive不支持，而用户又不想在将数据加载至Hive前转换数据格式。
    * 用户有更有效的序列化磁盘数据的方法。
    用户如果想为Text数据增加自定义Serde，可以参照contrib/src/java/org/apache/hadoop/hive/contrib/serde2/RegexSerDe.java中的例子。RegexSerDe利用用户提供的正则表倒是来反序列化数据，例如：

[sql]  view plain copy 
     
    
 CREATE TABLE apache_log(  
     host STRING,  
     identity STRING,  
     user STRING,  
     time STRING,  
     request STRING,  
     status STRING,  
     size STRING,  
     referer STRING,  
     agent STRING)  
   ROW FORMAT  
     SERDE 'org.apache.hadoop.hive.contrib.serde2.RegexSerDe'  
     WITH SERDEPROPERTIES  
       ( "input.regex" = "([^ ]*) ([^ ]*) ([^ ]*) (-|\\[[^\\]]*\\])  
       ([^ \"]*|\"[^\"]*\") (-|[0-9]*) (-|[0-9]*)(?: ([^ \"]*|\"[^\"]*\")  
       ([^ \"]*|\"[^\"]*\"))?",  
       "output.format.string" = "%1$s %2$s %3$s %4$s %5$s %6$s %7$s %8$s %9$s";)  
       STORED AS TEXTFILE;  

用户如果想为Binary数据增加自定义的SerDe，可以参考例子serde/src/java/org/apache/hadoop/hive/serde2/binarysortable，例如：

[sql]  view plain copy 
     
    
 CREATE TABLE mythrift_table  
   ROW FORMAT SERDE  
     'org.apache.hadoop.hive.contrib.serde2.thrift.ThriftSerDe'  
   WITH SERDEPROPERTIES (  
     "serialization.class" = "com.facebook.serde.tprofiles.full",  
     "serialization.format" = "com.facebook.thrift.protocol.TBinaryProtocol";);  

（3）Map/Reduce脚本（Transform）
用户可以自定义Hive使用的Map/Reduce脚本，比如：

[sql]  view plain copy 
     
    
 FROM (  
     SELECT TRANSFORM(user_id, page_url, unix_time)  
     USING 'page_url_to_id.py'  
     AS (user_id, page_id, unix_time)  
   FROM mylog  
     DISTRIBUTE BY user_id  
     SORT BY user_id, unix_time)  
       mylog2  
     SELECT TRANSFORM(user_id, page_id, unix_time)  
     USING 'my_python_session_cutter.py' AS (user_id, session_info);  

    Map/Reduce脚本通过stdin/stdout进行数据的读写，调试信息输出到stderr。
     （4）UDF（User-Defined-Function）
    用户可以自定义函数对数据进行处理，例如：

[sql]  view plain copy 
     
    
 add jar build/ql/test/test-udfs.jar;  
   CREATE TEMPORARY FUNCTION testlength  
     AS 'org.apache.hadoop.hive.ql.udf.UDFTestLength';   
   
   SELECT testlength(src.value) FROM src;   
   
   DROP TEMPORARY FUNCTION testlength;  

UDFTestLength.java为：

[java]  view plain copy 
     
    
 package org.apache.hadoop.hive.ql.udf;   
   
   public class UDFTestLength extends UDF {  
     public Integer evaluate(String s) {  
       if (s == null) {  
         return null;  
       }  
     return s.length();  
     }  
   }  

    UDF 具有以下特性：
    * 用java写UDF很容易。
    * Hadoop的Writables/Text 具有较高性能。
    * UDF可以被重载。
    * Hive支持隐式类型转换。
    * UDF支持变长的参数。
    * genericUDF 提供了较好的性能（避免了反射）。

（5）UDAF（User-Defined Aggregation Funcation）
例子：

[sql]  view plain copy 
     
 SELECT page_url, count(1), count(DISTINCT user_id) FROM mylog;

UDAFCount.java代码如下：

[java]  view plain copy 
     
    
 public class UDAFCount extends UDAF {  
     public static class Evaluator implements UDAFEvaluator {  
       private int mCount;   
   
       public void init() {  
         mcount = 0;  
       }   
   
       public boolean iterate(Object o) {  
         if (o!=null)  
           mCount++;   
   
         return true;  
       }   
   
       public Integer terminatePartial() {  
         return mCount;  
       }   
   
       public boolean merge(Integer o) {  
         mCount += o;  
         return true;  
       }   
   
       public Integer terminate() {  
         return mCount;  
       }  
   }  

    UDAF 总结：
    * 编写UDAF和UDF类似
    * UDAF可以重载
    * UDAF可以返回复杂类
    * 在使用UDAF的时候可以禁止部分聚合功能
    UDF，UDAF和MR脚本的对比：

图7.2 UDF/UDAF/MR脚本比较

你可能感兴趣的:(Hive体系结构<转>)

终端连接mysql是出现error 2003_远程连接MySQL报错ERROR 2003解决办法天眼妹 2003
转自https://blog.csdn.net/hjwang1/article/details/51669223问题代码代码ERROR2003(HY000):Can'tconnecttoMySQLserveron'192.168.0.19'(111)ERROR2003(HY000):Can'tconnecttoMySQLserveron'192.168.0.19'(111)这个原因就是Mysql数
【C#】字符串字节转16进制字节数组加号3 c#
publicstaticbyte[]ConvertStringToBytes(Stringstr){ListlistBytes=newList();string[]hexValuesSplit=str.Trim().Split('');foreach(stringhexinhexValuesSplit){listBytes.Add(Convert.ToByte(hex,16));}returnli
慧通测控汽车智能座舱测试技术慧通测控智能座舱测试兼容性测试功能测试
一、引言随着科技的飞速发展，汽车正从单纯的交通工具向智能化移动空间转变。智能座舱作为这一转变的核心体现，融合了多种先进技术，为用户带来前所未有的驾驶体验。从简单的信息娱乐系统到高度集成的人机交互、智能驾驶辅助以及车辆状态监测等功能，智能座舱的复杂性和重要性与日俱增。为确保智能座舱能够稳定、高效且安全地运行，全面而精准的测试至关重要。本文将深入探讨汽车智能座舱测试的相关技术，剖析其测试内容、方法以及
如何根据个人现状确定职业方向转型大数据 xiaokaiabcde 大数据大数据开发转型大数据大数据职业规划大数据学习
本文章目录如下：一、大数据相关职位介绍（数据来源于拉钩、智联）（一）大数据相关职位列举（二）每个相关职位的岗位职责与要求二、非程序员转型大数据职位推荐与SWOT分析（一）金融财会，统计，其他商科转型大数据。（二）非科班理工科转型大数据（三）除了第1条以外的文科专业同学转型大数据。三、程序员转型大数据职位推荐与SWOT分析（一）Java后端/JavaWeb程序员转型大数据。（二）Python程序员转
深入解析go依赖注入库go.uber.org/fx 杨桃不爱程序 go 1024程序员节 golang 开发语言 go
后面更新采用肝一篇go官方源码，肝一篇框架源码形式，伤肝->护肝，如果你喜欢就点个赞吧。官方源码比较伤肝(*￣︶￣)。1依赖注入初识依赖注入来自开源项目Grafana的源码，该项目框架采用依赖注入方式对各结构体字段进行赋值。DI依赖注入包为https://github.com/facebookarchive/inject，后面我会专门介绍这个包依赖注入的原理。不过今天的主角是它：https://g
python 保存csv,多列越甲八千【Python】python 开发语言数据挖掘
需求：将多个csv文件读取出来，将数据合并到一个csv文件，1、遍历文件夹，将scv文件存入到列表list12、遍历列表list1读取csv文件，将读到的数据存入到二维列表list23、开始处理二维列表：3.1、因为二维列表里的各个列表长度不一致，首先通过插入空值的方法处理成长度一致的列表3.2、将列表list2转秩，如果不转秩，将会出现行列交换的现象3.3、写入到新的csv文件#coding=u
python bytes转float 越甲八千【Python】python
defBytes2Float32Slice(self,feature):x=[]withopen("liwei.txt","w")asf:foriinrange((len(feature)//4)):data=feature[i*4:(i*4)+4]a=struct.unpack('f',data)f.write(str(a))x.append(float(a[0]))#print(a,"----
大数据学习-hive（四：数仓搭建，数据监控，数据支持）宇智波云大数据项目 hive hive
一：数仓搭建1：完备性。要保证所需要的数据全部到达数仓。2：准备性。etl，和数据的计算校验，确保输出的数据准确。3：一致性。确保输出端口一致，防止输出数据不准。4：时效性。每天的定时调度。5：规范性。表名，字段名要进行规范化处理。6：稳定性。确保数仓稳定。二：数仓校验1：建表语句--建表--droptableifexistsdm.dim_dk_vehicle_info_dqc;createtab
【大数据入门核心技术-Hive】（二十一）Hive中double和decimal的区别 forest_long 大数据技术入门到21天通关大数据 hive hadoop elasticsearch 人工智能搜索引擎 embedding
一、集群环境部署1、Hive环境安装部署参考【大数据入门核心技术-Hive】（三）Hive3.1.2非高可用集群搭建【大数据入门核心技术-Hive】（四）Hive3.1.2高可用集群搭建二、HiveDouble和Decimal的区别在Hive中，Double和Decimal是两种不同的数据类型，用于存储和处理浮点数。虽然它们都可以表示小数，但在内部实现和使用方式上有一些重要的区别。本
PMP冲刺每日一题(37)-包含答案全解析 PM简读馆 PMP每日打卡产品经理
作者简介：程序员转项目管理领域优质创作者个人邮箱：[2707492172@qq.com]PMP资料导航：PM菜鸟（查阅PMP大纲考点）座右铭：上善若水，水善利万物而不争。绿泡泡：PM简读馆（包含更多PM常用免费资料）试题1某项目在一个大型操作环境中使用生产性基础设施，发生了一次事故，但是实施了一个技术解决方案来解决问题。在这种情况下，一名项目相关方仍然投诉，这是因为∶A、项目发起人未得到通知，且未
那些算法中很重要，却总是被你忽略的小技巧，快来看看你和大佬之间的差距吧（位运算）猫咪-9527 算法算法前端
️专栏：https://blog.csdn.net/2301_81831423/category_12845252.html主页：猫咪-9527-CSDN博客“欲穷千里目，更上一层楼。会当凌绝顶，一览众山小。”目录编辑1.除法（乘法）转位运算实际场景应用：2.按位与（&）确定资源状态场景：资源分配补充示例：3.按位或（|）改变资源状态占用资源：释放资源：示例：4.按位与提取整型数字最后面的1实际场
西门子V20变频器modbus rtu通信调试 EngineerSuTao 工控调试 MODBUS V20 变频器
最近协助同事通过pc与V20通过modbusRTU进行通信调试，备忘如下：1.参数设置需要修改的参数参考以下表格，这里P2021-0设置从站地址为1，注意P2014需要设置为0，否则变频器会报警2.通信报文01060063047E+crc运行准备01060063047F+crc正转启动0106006304FE+crc清除故障01060064XXXX+crc频率给定3.modbus保持寄存器对应的m
hive-sql高频命令总结 summer_dai hive-sql mysql hive
COUNTcount(*)：所有行进行统计，包括NULL行count(1)：所有行进行统计，包括NULL行count(column)：对column中非Null进行统计ROW_NUMBER()语法形式：ROW_NUMBER()OVER(PARTITIONBYCOL1ORDERBYCOL2)解释：根据COL1分组，在分组内部根据COL2排序，而此函数计算的值就表示每组内部排序后的顺序编号（组内连续的
html+css转pdf,HTML转成PDF的4个方法介绍柔粟 html+css转pdf
在本文中，我将展示如何使用Node.js、Puppeteer、headlessChrome和Docker从样式复杂的React页面生成PDF文档。背景：几个月前，一个客户要求我们开发一个功能，用户可以得到PDF格式的React页面内容。该页面基本上是患者病例的报告和数据可视化结果，其中包含许多SVG。另外还有一些特殊的请求来操纵布局，并对HTML元素进行一些重新排列。因此与原始的React页面相比
计算机网络基础：TCP/IP 协议族的奥秘 xcLeigh 计算机网络计算机网络 tcp/ip 网络协议
计算机网络基础：TCP/IP协议族的奥秘一、前言二、TCP/IP协议族的起源与发展2.1起源背景2.2发展历程三、TCP/IP协议族的体系结构3.1层次模型概述3.2各层次详细解析3.2.1网络接口层3.2.2网络层3.2.3传输层3.2.4应用层四、TCP/IP协议族的关键技术与机制4.1可靠数据传输机制（以TCP为例）4.1.1序列号与确认号4.1.2超时重传4.1.3流量控制4.1.4拥塞控
两个还算好用的ppt转word和PDF转word的python脚本【D＇accumulation】 powerpoint word pdf
PPT转word：importrefrompptximportPresentationfromdocximportDocumentfromdocx.sharedimportInchesfromioimportBytesIOfromPILimportImagedefclean_text(text):#使用正则表达式删除控制字符和NULL字节returnre.sub(r'[\x00-\x1F\x7F]
YashanDB dump 数据库
YashanDB提供dump命令，让用户手动将系统内部结构信息转储到trace文件中，这些信息可被用于进行故障问题的跟踪和分析。dump命令dump命令通过SQL语句实现，对其详细的语法描述请参考开发手册ALTERSYSTEM的dump_clause子句。YashanDB允许将如下内部信息dump到trace文件中：privateredoinmemory内存中的私有日志数据，对应的dump命令为：
单片机串口打印调试信息① Aurora Smith 单片机 mongodb 嵌入式硬件
在单片机开发中，通过串口（UART）输出调试信息是最常用的调试方法之一。以下是详细的操作指南，包括硬件连接、代码实现和调试信息规划策略：一、硬件连接与配置硬件准备：USB转TTL模块：连接单片机的UART引脚（TX/RX）到电脑，注意电平匹配（3.3V或5V）。接线示例：单片机TX→USB转TTL模块RX单片机RX→USB转TTL模块TX共地（GND连接）。调试工具：使用串口助手（如PuTTY、S
3.22 codeforces小结 Brokenrivers 总结随记 Codeforces 算法竞赛编译错误签到题实战经验
说来好笑，也算接触小半年算法了，这次算是第一次"正式"的打cf。之前因为一些原因比较倾向于找个空闲时间上oj上刷题，虽然知道cf对一个搞算法竞赛的人的重要性，但是一直没去蹲点打比赛（我觉得就是我们宿舍这破网上个cf要转两分钟圈圈还经常崩的原因），最多会在比赛结束找比赛题目的文档练习。这次因为组队了，希望能和队友实时交流，手机开了梯子热点打完了这次的cf。感觉就是，自己像个傻子一样，提交代码的语言选
python ppt转pdf macos_如何在 macOS 上一键批量把 PPT 和 Word 文件转成 PDF weixin_39857792 python ppt转pdf macos
原标题：如何在macOS上一键批量把PPT和Word文件转成PDF相信不少人都有或曾经有过需要将多个PPT/Word文件转为PDF的需求，可能是一堆PPT课件为了方便批注，也可能是一些Word文档为了方便阅读。每次只能打开一个文档，选择「另存为」，选「PDF」，点「保存」，关掉，再打开下一个文档，文档数目一多，整个过程就会变得很令人沮丧。最近我研究了一下这个磨人的问题，制作了一个动作可以在不到2秒
数据权限访问控制（Apache Sentry） deepdata_cn 权限管理 apache sentry
ApacheSentry最初由Cloudera公司内部开发，针对Hadoop系统中的数据（主要是HDFS、Hive的数据）进行细粒度控制，对HDFS、Hive以及Impala有着良好的支持性。2013年Sentry成为Apache的孵化项目，为Hadoop集群元数据和数据存储提供集中、细粒度的访问控制。其架构包括DataEngine、Plugin、Policymetadata等部分，Plugin负
【视频】OpenCV：色彩空间转换、灰度转伪彩郭老二视频 opencv 人工智能
1、颜色空间转换使用OpenCV的函数cv::applyColorMap可以将灰度或者正常的RGB格式图片，转换成其它伪彩色，代码很简单：1）使用cv::imread加载图片；2）使用std::vectormatrices暂存转换后的所有图像；3）使用cv::applyColorMap转换图片颜色；4）使用cv::vconcat拼接所有的图片；5）使用cv::imwrite保存图片；#includ
【大模型学习路线】从月薪6K到年薪35W，普通二本生转行大模型的逆袭之路：我的500小时崩溃实录与实战秘籍（附保姆级学习路线） AGI大模型学习学习人工智能大模型应用程序员 AI 大模型 AI大模型
摘要：26岁机械专业零基础转大模型，被面试官羞辱“非科班别做梦”，5个月死磕源码，现拿下3个大厂offer。踩过所有新人会踩的坑，总结出普通人高效突围的4个阶段+7个杀手级项目。（文末送自研《大模型避坑指南》+120G学习资料包）一、血泪教训：这些弯路我替你走了（小白必看）2023年3月12日，我在工地上画完第108张CAD图纸后，突然收到大学班群消息：“XX同学入职字节AILab，年薪50W+”
【Python系列】高效Parquet数据处理策略：合并与分析实践小团团0 python 开发语言
在大数据时代，数据的存储、处理和分析变得尤为重要。Parquet作为一种高效的列存储格式，被广泛应用于大数据处理框架中，如ApacheSpark、ApacheHive等。Parquet是一个开源的列存储格式，它被设计用于支持复杂的嵌套数据结构，同时提供高效的压缩和编码方案，以优化存储空间和查询性能。以下将详细介绍如何使用Python对Parquet文件进行数据处理与合并，并提供相应的源码示例。一、
YUV422转RGB并显示于Qlabel 小火龙的马甲 qt opencv
读取YUV422格式文件，转成Mat类型BGR格式，并显示于Qlabel控件上。写在前面从今天起，多看些书吧。要不，就从黄宁然看过的看起。问题来源anxue100：[https://bbs.csdn.net/topics/****?spm=1001.2014.3001.**77]因“当前发帖距今超过3年，不再开放新的回复”，故新建帖子。迟到的回复。1.新建类编写头文件：YUV422.h文件#ifn
opencv python rgb转yuv_OpenCV之色彩空间与色彩空间转换 xiao fei opencv python rgb转yuv
python代码：importcv2ascvsrc=cv.imread("test.jpg")cv.namedWindow("rgb",cv.WINDOW_AUTOSIZE)cv.imshow("rgb",src)#RGBtoHSVhsv=cv.cvtColor(src,cv.COLOR_BGR2HSV)cv.imshow("hsv",hsv)#RGBtoYUVyuv=cv.cvtColor(sr
Go 语言实用工具：如何高效解压 ZIP 文件程序员爱钓鱼 golang ios 开发语言
在日常开发中，我们经常需要处理ZIP文件，例如从远程服务器下载压缩包后解压、备份数据或处理日志文件等。在本文中，我们将介绍一个使用Go语言编写的高效ZIP文件解压工具，并提供示例代码帮助你快速上手。代码实现以下是Unzip函数的完整实现，它可以将ZIP文件解压到指定的目录，并返回解压后的文件路径列表。packageutilsimport("archive/zip""fmt""io""os""pat
【STM32】智能避障红外小车 Alioooooooon 嵌入式 stm32 单片机嵌入式硬件
文章目录直流电机`motor.c/motor.h`红外对管红外循迹利用脉冲宽度调制技术（PWM）控制电机转速避障`red.c/red.h`编译环境：keil5SourceInsightSTM32F103X原理图：直流电机直流电机的原理：通电就会转，反向通电就会反转两极的电势差决定转速电机驱动模块以及接线参考图示代码实现：motor.c/motor.h#ifndef__MOTOR_H__#defin
Java进阶——数组超详细整理 1加1等于 Java java 数据结构
数组是一种基础且重要的数据结构，广泛应用于各种场景，本文将深入探讨Java数组的相关知识点，并结合实际场景展示其应用。本文目录一、数组声明与初始化1.声明方式2.初始化方法3.长度特性二、内存管理三、数组遍历与操作1.遍历方式2.数组填充四、多维数组五、数组工具类Arrays六、数组与集合的转换1.数组转集合2.集合转数组总结一、数组声明与初始化1.声明方式数组的声明有两种方式：int[]prod
计算机网络课程内容详解-ChatGPT4o作答部分分式计算机网络
计算机网络课程是一门系统讲解网络体系结构、通信协议、网络技术和应用的专业课程，旨在帮助学生理解计算机网络的工作原理、设计思想和实际应用。以下是计算机网络课程内容的详细介绍，涵盖知识结构、主要内容及应用方向。一、课程目标掌握计算机网络的基本概念、结构及运行原理。理解计算机网络分层模型（如OSI七层模型和TCP/IP四层模型）。掌握常见的通信协议及其功能（如HTTP、FTP、DNS等）。学会网络设备（
继之前的线程循环加到窗口中运行 3213213333332132 java thread JFrame JPanel
之前写了有关java线程的循环执行和结束，因为想制作成exe文件，想把执行的效果加到窗口上，所以就结合了JFrame和JPanel写了这个程序，这里直接贴出代码，在窗口上运行的效果下面有附图。 package thread; import java.awt.Graphics; import java.text.SimpleDateFormat; import java.util
linux 常用命令 BlueSkator linux 命令
1.grep 相信这个命令可以说是大家最常用的命令之一了。尤其是查询生产环境的日志，这个命令绝对是必不可少的。但之前总是习惯于使用（grep -n 关键字文件名）查出关键字以及该关键字所在的行数，然后再用（sed -n '100,200p' 文件名），去查出该关键字之后的日志内容。但其实还有更简便的办法，就是用（grep -B n、-A n、-C n 关键
php heredoc原文档和nowdoc语法 dcj3sjt126com PHP heredoc nowdoc
<!doctype html> <html lang="en"> <head> <meta charset="utf-8"> <title>Current To-Do List</title> </head> <body> <?
overflow的属性周华华 JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
《我所了解的Java》——总体目录 g21121 java
准备用一年左右时间写一个系列的文章《我所了解的Java》，目录及内容会不断完善及调整。在编写相关内容时难免出现笔误、代码无法执行、名词理解错误等，请大家及时指出，我会第一时间更正。 &n
[简单]docx4j常用方法小结 53873039oycg docx
本代码基于docx4j-3.2.0，在office word 2007上测试通过。代码如下: import java.io.File; import java.io.FileInputStream; import ja
Spring配置学习云端月影 spring配置
首先来看一个标准的Spring配置文件 applicationContext.xml <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi=&q
Java新手入门的30个基本概念三 aijuans java 新手 java 入门
17.Java中的每一个类都是从Object类扩展而来的。　　18.object类中的equal和toString方法。　　equal用于测试一个对象是否同另一个对象相等。　　toString返回一个代表该对象的字符串,几乎每一个类都会重载该方法,以便返回当前状态的正确表示.(toString 方法是一个很重要的方法)　　 19.通用编程:任何类类型的所有值都可以同object类性的变量来代替。　
《2008 IBM Rational 软件开发高峰论坛会议》小记 antonyup_2006 软件测试敏捷开发项目管理 IBM 活动
我一直想写些总结,用于交流和备忘,然都没提笔,今以一篇参加活动的感受小记开个头,呵呵! 其实参加《2008 IBM Rational 软件开发高峰论坛会议》是9月4号,那天刚好调休.但接着项目颇为忙,所以今天在中秋佳节的假期里整理了下. 参加这次活动是一个朋友给的一个邀请书,才知道有这样的一个活动,虽然现在项目暂时没用到IBM的解决方案,但觉的参与这样一个活动可以拓宽下视野和相关知识.
PL/SQL的过程编程,异常,声明变量,PL/SQL块百合不是茶 PL/SQL的过程编程异常 PL/SQL块声明变量
PL/SQL; 过程; 符号; 变量; PL/SQL块; 输出; 异常; PL/SQL 是过程语言(Procedural Language)与结构化查询语言(SQL)结合而成的编程语言PL/SQL 是对 SQL 的扩展,sql的执行时每次都要写操作
Mockito(三)--完整功能介绍 bijian1013 持续集成 mockito 单元测试
mockito官网：http://code.google.com/p/mockito/，打开documentation可以看到官方最新的文档资料。一.使用mockito验证行为 //首先要import Mockito import static org.mockito.Mockito.*; //mo
精通Oracle10编程SQL(8)使用复合数据类型 bijian1013 oracle 数据库 plsql
/* *使用复合数据类型 */ --PL/SQL记录 --定义PL/SQL记录 --自定义PL/SQL记录 DECLARE TYPE emp_record_type IS RECORD( name emp.ename%TYPE, salary emp.sal%TYPE, dno emp.deptno%TYPE ); emp_
【Linux常用命令一】grep命令 bit1129 Linux常用命令
grep命令格式 grep [option] pattern [file-list] grep命令用于在指定的文件(一个或者多个,file-list)中查找包含模式串(pattern)的行,[option]用于控制grep命令的查找方式。 pattern可以是普通字符串，也可以是正则表达式，当查找的字符串包含正则表达式字符或者特
mybatis3入门学习笔记白糖_ sql ibatis qq jdbc 配置管理
MyBatis 的前身就是iBatis，是一个数据持久层(ORM)框架。 MyBatis 是支持普通 SQL 查询，存储过程和高级映射的优秀持久层框架。MyBatis对JDBC进行了一次很浅的封装。以前也学过iBatis，因为MyBatis是iBatis的升级版本，最初以为改动应该不大，实际结果是MyBatis对配置文件进行了一些大的改动，使整个框架更加方便人性化。
Linux 命令神器：lsof 入门 ronin47 lsof
lsof是系统管理/安全的尤伯工具。我大多数时候用它来从系统获得与网络连接相关的信息，但那只是这个强大而又鲜为人知的应用的第一步。将这个工具称之为lsof真实名副其实，因为它是指“列出打开文件（lists openfiles）”。而有一点要切记，在Unix中一切（包括网络套接口）都是文件。有趣的是，lsof也是有着最多
java实现两个大数相加，可能存在溢出。 bylijinnan java实现
import java.math.BigInteger; import java.util.regex.Matcher; import java.util.regex.Pattern; public class BigIntegerAddition { /** * 题目：java实现两个大数相加，可能存在溢出。 * 如123456789 + 987654321
Kettle学习资料分享，附大神用Kettle的一套流程完成对整个数据库迁移方法 Kai_Ge Kettle
Kettle学习资料分享 Kettle 3.2 使用说明书目录概述..........................................................................................................................................7 1.Kettle 资源库管
[货币与金融]钢之炼金术士 comsci 金融
自古以来,都有一些人在从事炼金术的工作.........但是很少有成功的那么随着人类在理论物理和工程物理上面取得的一些突破性进展...... 炼金术这个古老
Toast原来也可以多样化 dai_lm android toast
Style 1：默认 Toast def = Toast.makeText(this, "default", Toast.LENGTH_SHORT); def.show(); Style 2：顶部显示 Toast top = Toast.makeText(this, "top", Toast.LENGTH_SHORT); t
java数据计算的几种解决方法3 datamachine java hadoop ibatis r-langue r
4、iBatis 简单敏捷因此强大的数据计算层。和Hibernate不同，它鼓励写SQL，所以学习成本最低。同时它用最小的代价实现了计算脚本和JAVA代码的解耦，只用20%的代价就实现了hibernate 80%的功能,没实现的20%是计算脚本和数据库的解耦。复杂计算环境是它的弱项，比如：分布式计算、复杂计算、非数据
向网页中插入透明Flash的方法和技巧 dcj3sjt126com html Web Flash
将 Flash 作品插入网页的时候，我们有时候会需要将它设为透明，有时候我们需要在Flash的背面插入一些漂亮的图片，搭配出漂亮的效果……下面我们介绍一些将Flash插入网页中的一些透明的设置技巧。　　一、Swf透明、无坐标控制　　首先教大家最简单的插入Flash的代码，透明，无坐标控制：　　注意wmode="transparent"是控制Flash是否透明
ios UICollectionView的使用 dcj3sjt126com
UICollectionView的使用有两种方法，一种是继承UICollectionViewController，这个Controller会自带一个UICollectionView；另外一种是作为一个视图放在普通的UIViewController里面。个人更喜欢第二种。下面采用第二种方式简单介绍一下UICollectionView的使用。 1.UIViewController实现委托，代码如
Eos平台java公共逻辑蕃薯耀 Eos平台java公共逻辑 Eos平台 java公共逻辑
Eos平台java公共逻辑 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月1日 17:20:4
SpringMVC4零配置--Web上下文配置【MvcConfig】 hanqunfeng springmvc4
与SpringSecurity的配置类似，spring同样为我们提供了一个实现类WebMvcConfigurationSupport和一个注解@EnableWebMvc以帮助我们减少bean的声明。 applicationContext-MvcConfig.xml  <
解决ie和其他浏览器poi下载excel文件名乱码 jackyrong Excel
使用poi,做传统的excel导出，然后想在浏览器中，让用户选择另存为，保存用户下载的xls文件，这个时候，可能的是在ie下出现乱码（ie,9,10,11),但在firefox,chrome下没乱码，因此必须综合判断，编写一个工具类： /** * * @Title: pro
挥洒泪水的青春 lampcy 编程生活程序员
2015年2月28日，我辞职了，离开了相处一年的触控，转过身--挥洒掉泪水，毅然来到了兄弟连，背负着许多的不解、质疑——”你一个零基础、脑子又不聪明的人，还敢跨行业，选择Unity3D？“，”真是不自量力••••••“，”真是初生牛犊不怕虎•••••“，••••••我只是淡淡一笑，拎着行李----坐上了通向挥洒泪水的青春之地——兄弟连！这就是我青春的分割线，不后悔，只会去用泪水浇灌——已经来到
稳增长之中国股市两点意见-----严控做空，建立涨跌停版停牌重组机制 nannan408
对于股市，我们国家的监管还是有点拼的，但始终拼不过飞流直下的恐慌，为什么呢？笔者首先支持股市的监管。对于股市越管越荡的现象，笔者认为首先是做空力量超过了股市自身的升力，并且对于跌停停牌重组的快速反应还没建立好，上市公司对于股价下跌没有很好的利好支撑。我们来看美国和香港是怎么应对股灾的。美国是靠禁止重要股票做空，在
动态设置iframe高度(iframe高度自适应) Rainbow702 JavaScript iframe contentDocument 高度自适应局部刷新
如果需要对画面中的部分区域作局部刷新，大家可能都会想到使用ajax。但有些情况下，须使用在页面中嵌入一个iframe来作局部刷新。对于使用iframe的情况，发现有一个问题，就是iframe中的页面的高度可能会很高，但是外面页面并不会被iframe内部页面给撑开，如下面的结构： <div id="content"> <div id=&quo
用Rapael做图表 tntxia rap
function drawReport(paper,attr,data){ var width = attr.width; var height = attr.height; var max = 0; &nbs
HTML5 bootstrap2网页兼容（支持IE10以下） xiaoluode html5 bootstrap
<!DOCTYPE html> <html> <head lang="zh-CN"> <meta charset="UTF-8"> <meta http-equiv="X-UA-Compatible" content="IE=edge">