bug发现与制造

Hive

一、Hive

什么是Hive（一）

Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具，可以用来进行数据提取转化加载（ETL ），这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言，称为 HQL ，它允许熟悉 SQL 的用户查询数据。同时，这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完成的复杂的分析工作。

什么是Hive（二）

Hive是SQL解析引擎，它将SQL语句转译成M/R Job然后在Hadoop执行。

Hive的表其实就是HDFS的目录，按表名把文件夹分开。如果是分区表，则分区值是子文件夹，可以直接在M/R Job里使用这些数据。

Hive相当于hadoop的客户端工具，部署时不放在不一定放在集群节点中，可以放在某个节点上。

Hive的数据存储

Hive的数据存储基于Hadoop HDFS

Hive没有专门的数据存储格式

存储结构主要包括：数据库、文件、表、视图、索引

Hive默认可以直接加载文本文件（TextFile），还支持SequenceFile、RCFile

创建表时，指定Hive数据的列分隔符与行分隔符，Hive即可解析数据

Hive的系统架构

•用户接口，包括 CLI，JDBC/ODBC，WebUI

•元数据存储，通常是存储在关系数据库如 mysql, derby 中

•解释器、编译器、优化器、执行器

•Hadoop：用 HDFS 进行存储，利用 MapReduce 进行计算

Hive的系统架构

用户接口主要有三个：CLI，JDBC/ODBC和 WebUI

CLI，即Shell命令行
JDBC/ODBC 是 Hive 的Java，与使用传统数据库JDBC的方式类似
WebGUI是通过浏览器访问 Hive

Hive 将元数据存储在数据库中(metastore)，目前只支持 mysql、derby。Hive 中的元数据包括表的名字，表的列和分区及其属性，表的属性（是否为外部表等），表的数据所在目录等

解释器、编译器、优化器完成 HQL 查询语句从词法分析、语法分析、编译、优化以及查询计划（plan）的生成。生成的查询计划存储在 HDFS 中，并在随后由 MapReduce 调用执行

Hive 的数据存储在 HDFS 中，大部分的查询由 MapReduce 完成（包含 * 的查询，比如 select * from table 不会生成 MapRedcue 任务）

Hive的metastore

metastore是hive元数据的集中存放地。

metastore默认使用内嵌的derby数据库作为存储引擎

Derby引擎的缺点：一次只能打开一个会话

使用Mysql作为外置存储引擎，多用户同时访问

Hive与Hadoop的调用关系

Hive的安装

下载hive源文件

解压hive文件

进入$HIVE_HOME/conf/修改文件
- cp hive-env.sh.template hive-env.sh
- cp hive-default.xml.template hive-site.xml

修改$HIVE_HOME/bin的hive-env.sh，增加以下三行
- export JAVA_HOME=/usr/local/jdk1.7.0_45
- export HIVE_HOME=/usr/local/hive-0.14.0
- export HADOOP_HOME=/usr/local/hadoop-2.6.0

配置MySQL的metastore

修改$HIVE_HOME/conf/hive-site.xml

javax.jdo.option.ConnectionURL

jdbc:mysql://192.168.1.100:3306/crxy_job5?

createDatabaseIfNotExist=true

javax.jdo.option.ConnectionDriverName

com.mysql.jdbc.Driver

javax.jdo.option.ConnectionUserName

root

javax.jdo.option.ConnectionPassword

admin

临时目录的配置

修改$HIVE_HOME/conf/hive-site.xml\

hive.querylog.location

/usr/local/hive-0.14.0/tmp

hive.exec.local.scratchdir

/usr/local/hive-0.14.0/tmp

hive.downloaded.resources.dir

/usr/local/hive-0.14.0/tmp

Hive运行模式

Hive的运行模式即任务的执行环境

分为本地与集群两种

我们可以通过mapred.job.tracker 来指明

设置方式：

hive > SET mapred.job.tracker=local;

set hive.exec.mode.local.auto=true

hive.exec.mode.local.auto.inputbytes.max

hive使用

命令行方式cli：控制台模式

脚本文件方式：实际生产中用的最多的方式

JDBC方式：hiveserver

web GUI接口 hwi方式

Hive命令行模式

直接输入#/hive/bin/hive的执行程序，
- 或者输入 #hive --service cli 启动

hive>show tables;

hive>create table test(id int,name string);

hive>quit;

观察：#hadoop fs -ls /user/hive/warehouse/修改参数：hive.metastore.warehouse.dir

表与目录的对应关系

hive参数配置使用

显示或者修改变量值
在代码中引用时使用${...};
hive的脚本执行
$>hive -e ""
$>hive -e "">aaa
$>hive -S -e "">aaa
$>hive -f file
$>hive -i /home/my/hive-init.sql
hive>source file
hive与依赖环境的交互
与linux交互命令！
- !ls
- !pwd
与hdfs交互命令
- dfs -ls /
- dfs -mkdir /hive
hive的JDBC模式
JAVA API交互执行方式
hive 远程服务 (端口号10000) 启动方式
#hive --service hiveserver2
org.apache.hive.jdbc.HiveDriver
在java代码中调用hive的JDBC建立连接
hive web界面模式

web界面安装：
- 下载apache-hive-0.14.0-src.tar.gz
- 制作war包放在HIVE_HOME/lib/ : hwi/web/*里面所有的文件打成war包
- 复制tool.jar(jdk的lib包下面的jar包)到hive/lib下
- 修改hive-site.xml
- hive.hwi.listen.host
- 0.0.0.0
- hive.hwi.listen.port
- 9999
- hive.hwi.war.file
- lib/hive-hwi-0.14.0.war
hive web界面的 (端口号9999) 启动方式
#hive --service hwi &
用于通过浏览器来访问hive
http://hadoop0:9999/hwi/

set命令使用
hive控制台set命令:
- set hive.cli.print.current.db=true;
- set hive.cli.print.header=true;
- set hive.metastore.warehouse.dir=/hive;
hive参数初始化配置set命令:
- ~/.hiverc
补充：
- hive历史操作命令集
- ~/.hivehistory
二、基本数据类型

复合数据类型

创建学生表

hive>CREATE TABLE student(

id INT,

name STRING,

favors ARRAY,

scores MAP

);

hive记录中默认分隔符

复合类型—Struct使用

structs内部的数据可以通过DOT（.）来存取，例如，表中一列c的类型为STRUCT{a INT; b INT}，我们可以通过c.a来访问域a

hive> create table student_test(id INT, info struct) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' COLLECTION ITEMS TERMINATED BY ':';

复合类型—Array使用

array中的数据为相同类型，例如，假如array A中元素['a','b','c']，则A[1]的值为'b'

create table class_test(name string, student_id_list array) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' COLLECTION ITEMS TERMINATED BY ':';

复合类型—Map使用

访问指定域可以通过["指定域名称"]进行，例如，一个Map M包含了一个group-》gid的kv对，gid的值可以通过M['group']来获取

create table employee(id string, perf map) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' COLLECTION ITEMS TERMINATED BY ',' MAP KEYS TERMINATED BY ':';

三、数据定义

数据库定义

默认数据库"default"

使用#hive命令后，不使用hive>use <数据库名>，系统默认的数据库。可以显式使用hive> use default;

创建一个新库

hive>CREATE DATABASE

[IF NOT EXISTS] mydb

[LOCATION] '/.......'

[COMMENT] '....';

hive>SHOW DATABASES;

hive>DESCRIBE DATABASE [extended] mydb;

hive>DROP DATABASE [IF EXISTS] mydb [CASCADE];

表定义

hive>CREATE TABLE IF NOT EXISTS t1(...)

[COMMENT '....']

[LOCATION '...']

hive>SHOW TABLES in mydb;

hive>CREATE TABLE t2 LIKE t1;

hive>DESCRIBE t2;

列定义

修改列的名称、类型、位置、注释

hive>ALTER TABLE t3 CHANGE COLUMN old_name new_name String COMMENT '...' AFTER column2;

增加列

hive>ALTER TABLE t3 ADD COLUMNS(gender int);

Hive的数据模型-管理表

创建数据文件inner_table.dat

创建表

hive>create table inner_table (key string);

加载数据

hive>load data local inpath '/root/inner_table.dat' into table inner_table;

查看数据

select * from inner_table

select count(*) from inner_table

删除表 drop table inner_table

Hive的数据模型-管理表

管理表，也称作内部表,受控表
- 所有的 Table 数据（不包括 External Table）都保存在warehouse这个目录中。
- 删除表时，元数据与数据都会被删除
- 创建过程和数据加载过程（这两个过程可以在同一个语句中完成），在加载数据的过程中，实际数据会被移动到数据仓库目录中；之后对数据对访问将会直接在数据仓库目录中完成。删除表时，表中的数据和元数据将会被同时删除

Hive的数据模型-外部表

创建数据文件external_table.dat

创建表

hive>create external table external_table1 (key string) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' location '/home/external';

在HDFS创建目录/home/external

#hadoop fs -put /home/external_table.dat /home/external

加载数据

LOAD DATA INPATH '/home/external_table1.dat' INTO TABLE external_table1;

查看数据

select * from external_table

select count(*) from external_table

删除表

drop table external_table

Hive的数据模型-外部表

包含External 的表叫外部表
- 删除外部表只删除metastore的元数据，不删除hdfs中的表数据
- 外部表只有一个过程，加载数据和创建表同时完成，并不会移动到数据仓库目录中，只是与外部数据建立一个链接。当删除一个外部表时，仅删除该链接
- 指向已经在 HDFS 中存在的数据，可以创建 Partition
- 它和内部表在元数据的组织上是相同的，而实际数据的存储则有较大的差异

Hive的数据模型-外部表语法

CREATE EXTERNAL TABLE page_view

( viewTime INT,

userid BIGINT,

page_url STRING,

referrer_url STRING,

ip STRING COMMENT 'IP Address of the User',

country STRING COMMENT 'country of origination‘

)

COMMENT 'This is the staging page view table'

ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' LINES TERMINATED BY '\n'

STORED AS TEXTFILE

LOCATION 'hdfs://centos:9000/user/data/staging/page_view';

Hive的数据模型-分区表

分区可以理解为分类，通过分类把不同类型的数据放到不同的目录下。

分类的标准就是分区字段，可以一个，也可以多个。

分区表的意义在于优化查询。查询时尽量利用分区字段。如果不使用分区字段，就会全部扫描。

hive>CREATE TABLE t3(...) PARTITIONED BY (province string);

hive>SHOW PARTITIONS t3 [partition (province='beijing')];

hive>ALTER TABLE t3 ADD [IF NOT EXISTS] PARTITION(...) LOCATION '...';

hive>ALTER TABLE t3 DROP PARTITION(...);

Hive的数据模型-分区表

创建数据文件partition_table.dat

创建表

create table partition_table(rectime string,msisdn string) partitioned by(daytime string,city string) row format delimited fields terminated by '\t' stored as TEXTFILE;

加载数据到分区

load data local inpath '/home/partition_table.dat' into table partition_table partition (daytime='2013-02-01',city='bj');

查看数据

select * from partition_table

select count(*) from partition_table

•删除表 drop table partition_table

Hive的数据模型-分区表语法

CREATE TABLE tmp_table #表名

(

title string, # 字段名称 字段类型

minimum_bid double,

quantity bigint,

have_invoice bigint

)COMMENT '注释：XXX' #表注释

PARTITIONED BY(pt STRING) #分区表字段（如果你文件非常之大的话，采用分区表可以快过滤出按分区字段划分的数据）

ROW FORMAT DELIMITED

FIELDS TERMINATED BY '\001' # 字段是用什么分割开的

STORED AS SEQUENCEFILE; #用哪种方式存储数据，SEQUENCEFILE是hadoop自带的文件压缩格式

一些相关命令

SHOW TABLES; # 查看所有的表

SHOW TABLES '*TMP*'; #支持模糊查询

SHOW PARTITIONS TMP_TABLE; #查看表有哪些分区

DESCRIBE TMP_TABLE; #查看表结构

Hive的数据模型—桶表

桶表是对数据进行哈希取值，然后放到不同文件中存储。

创建表

create table bucket_table(id string) clustered by(id) into 4 buckets;

加载数据

set hive.enforce.bucketing = true;

insert into table bucket_table select name from stu;

insert overwrite table bucket_table select name from stu;

数据加载到桶表时，会对字段取hash值，然后与桶的数量取模。把数据放到对应的文件中。

注意：
- 物理上，每个桶就是表(或分区）目录里的一个文件
- 一个作业产生的桶(输出文件)和reduce任务个数相同

Hive的数据模型—桶表

桶表的抽样查询
- select * from bucket_table tablesample(bucket 1 out of 4 on id);

tablesample是抽样语句
- 语法解析：TABLESAMPLE(BUCKET x OUT OF y)
- y必须是table总bucket数的倍数或者因子。
- hive根据y的大小，决定抽样的比例。
- 例如，table总共分了64份，当y=32时，抽取(64/32=)2个bucket的数据，当y=128时，抽取(64/128=)1/2个bucket的数据。x表示从哪个bucket开始抽取。
- 例如，table总bucket数为32，tablesample(bucket 3 out of 16)，表示总共抽取（32/16=）2个bucket的数据，分别为第3个bucket和第（3+16=）19个bucket的数据。

hive视图的操作

使用视图可以降低查询的复杂度

视图的创建
- create view v1 AS select t1.name from t1;

视图的删除
- drop view if exists v1;

hive索引的操作

创建索引
- create index t1_index on table t1(name)as 'org.apache.hadoop.hive.ql.index.compact.CompactIndexHandler' with deferred rebuild in table t1_index_table;
- as指定索引器，

重建索引
- alter index t1_index on t1 rebuild;

显示索引
- show formatted index on t1;

删除索引
- drop index if exists t1_index on t1;

装载数据

从文件中装载数据

hive>LOAD DATA [LOCAL] INPATH '...' [OVERWRITE] INTO TABLE t2 [PARTITION (province='beijing')];

通过查询表装载数据

hive>INSERT OVERWRITE TABLE t2 PARTITION (province='beijing') SELECT * FROM xxx WHERE xxx

hive>FROM t4

INSERT OVERWRITE TABLE t3 PARTITION (...) SELECT ...WHERE...

动态分区装载数据

不开启只支持

hive>INSERT OVERWRITE TABLE t3 PARTITION(province='bj', city)

SELECT t.province, t.city FROM temp t WHERE t.province='bj';

开启动态分区支持

hive>set hive.exec.dynamic.partition=true;

hive>set hive.exec.dynamic.partition.mode=nostrict;

hive>set hive.exec.max.dynamic.partitions.pernode=1000;

#查询字段一样

hive>INSERT OVERWRITE TABLE t3 PARTITION(province, city)

SELECT t.province, t.city FROM temp t;

单语句建表并同时装载数据

hive>CREATE TABLE t4 AS SELECT ....

导出数据

在hdfs复制文件(夹)

$ hadoop fs -cp source destination

使用DIRECTORY

hive>INSERT OVERWRITE 【LOCAL】 DIRECTORY '...' SELECT ...FROM...WHERE ...;

读模式与写模式

RDBMS是写模式

Hive是读模式

完整建表语句语法

CREATE [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.]table_name

[(col_name data_type [COMMENT col_comment], ...)]

[COMMENT table_comment]

[PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)]

[CLUSTERED BY (col_name, col_name, ...)

[SORTED BY (col_name [ASC|DESC], ...)] INTO num_buckets BUCKETS]

[SKEWED BY (col_name, col_name, ...) ON ([(col_value, col_value, ...), ...|col_value, col_value, ...])

[STORED AS DIRECTORIES] ]

[ [ROW FORMAT row_format]

[STORED AS file_format] | STORED BY 'storage.handler.class.name' [WITH SERDEPROPERTIES (...)] ]

[LOCATION hdfs_path]

[TBLPROPERTIES (property_name=property_value, ...)]

[AS select_statement] (Note: not supported when creating external tables.)

文件格式

TextFile

SequenceFile

RCFile

使用SequenceFile存储

> create table test2(str STRING) STORED AS SEQUENCEFILE;

hive> set hive.exec.compress.output=true;

hive> set mapred.output.compress=true;

hive> set mapred.output.compression.codec=com.hadoop.compression.lzo.LzoCodec;

hive> set io.seqfile.compression.type=BLOCK;

hive> set io.compression.codecs=com.hadoop.compression.lzo.LzoCodec;

hive> INSERT OVERWRITE TABLE test2 SELECT * FROM test1;

使用RCFile存储

RCFILE是一种行列存储相结合的存储方式。首先，其将数据按行分块，保证同一个record在一个块上，避免读一个记录需要读取多个block。其次，块数据列式存储，有利于数据压缩和快速的列存取。

hive> create table test3(str STRING) STORED AS RCFILE;

hive> set hive.exec.compress.output=true;

hive> set mapred.output.compress=true;

hive> set mapred.output.compression.codec=com.hadoop.compression.lzo.LzoCodec;

hive> set io.compression.codecs=com.hadoop.compression.lzo.LzoCodec;

hive> INSERT OVERWRITE TABLE test3 SELECT * FROM test1;

使用ORC存储

hive> create table t1_orc(id int, name string) row format delimited fields terminated by '\t' stored as orc tblproperties("orc.compress"="ZLIB");

ALTER TABLE ... [PARTITION partition_spec] SET FILEFORMAT ORC

hive> SET hive.default.fileformat=Orc;

hive> insert overwrite table t1_orc select * from t1;

Hive SerDe

What is a SerDe?

SerDe 是 "Serializer and Deserializer."的缩写
Hive 使用 SerDe和FileFormat进行行内容的读写.
HDFS文件 --> InputFileFormat --> --> Deserializer --> 行对象
行对象 --> Serializer --> --> OutputFileFormat --> HDFS文件

注意: 数据全部存在在value中，key内容无意义。

Hive 使用如下FileFormat 类读写 HDFS files:

TextInputFormat/HiveIgnoreKeyTextOutputFormat: 读写普通HDFS文本文件.
SequenceFileInputFormat/SequenceFileOutputFormat: 读写SequenceFile格式的HDFS文件.

Hive 使用如下SerDe 类(反)序列化数据:

MetadataTypedColumnsetSerDe: 读写csv、tsv文件和默认格式文件
ThriftSerDe: 读写Thrift 序列化后的对象.
DynamicSerDe: 读写Thrift序列化后的对象, 不过不需要解读schema中的ddl.

使用CSV Serde

　　CSV格式的文件也称为逗号分隔值（Comma-Separated Values，CSV，有时也称为字符分隔值，因为分隔字符也可以不是逗号。在本文中的CSV格式的数据就不是简单的逗号分割的），其文件以纯文本形式存储表格数据（数字和文本）。CSV文件由任意数目的记录组成，记录间以某种换行符分隔；每条记录由字段组成，字段间的分隔符是其它字符或字符串，最常见的是逗号或制表符。通常，所有记录都有完全相同的字段序列。

默认的分隔符是
- DEFAULT_ESCAPE_CHARACTER \
- DEFAULT_QUOTE_CHARACTER " ---如果没有，则不需要指定
- DEFAULT_SEPARATOR ,
- CREATE TABLE csv_table(a string, b string) ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.OpenCSVSerde' WITH SERDEPROPERTIES ( "separatorChar" = "\t", "quoteChar" = "'", "escapeChar" = "\\") STORED AS TEXTFILE;
- separatorChar：分隔符
- quoteChar：引号符
- escapeChar：转意符

存储总结

textfile 存储空间消耗比较大，并且压缩的text 无法分割和合并查询的效率最低,可以直接存储，加载数据的速度最高

sequencefile 存储空间消耗大,压缩的文件可以分割和合并查询效率高，需要通过text文件转化来加载

rcfile 存储空间最小，查询的效率最高，需要通过text文件转化来加载，加载的速度最低

Lateral View语法

lateral view用于和split, explode等UDTF一起使用，它能够将一行数据拆成多行数据，在此基础上可以对拆分后的数据进行聚合。lateral view首先为原始表的每行调用UDTF，UTDF会把一行拆分成一或者多行，lateral view再把结果组合，产生一个支持别名表的虚拟表。

创建表

create table t8(name string,nums array)row format delimited fields terminated by "\t" COLLECTION ITEMS TERMINATED BY ':';

数据切割

SELECT name,new_num FROM t8 LATERAL VIEW explode(nums) num AS new_num;

四、hive的高级函数

简单查询

select ... from...where...

使用各种函数

hive>show functions;

hive>describe function explode;

LIMIT语句

列别名

嵌套select语句

标准函数

reverse()

upper()

聚合函数

avg()

sum()

自定义函数

hive性能调优

什么时候可以避免执行MapReduce？
- select * or select field1,field2
- limite 10
- where语句中只有分区字段
- 使用本地set hive.exec.mode.local.auto=true;

group by语句：
- 通常和聚合函数一起使用，按照一个或者多个列对结果进行分组，然后对每组执行聚合操作

having语句：
- 限制结果的输出

hive将查询转化为MapReduce执行，hive的优化可以转化为mapreduce的优化！

hive是如何将查询转化为MapReduce的？

EXPLAIN的使用
- hive对sql的查询计划信息解析
- EXPLAIN SELECT COUNT(1) FROM T1;

EXPLAIN EXTENDED
- 显示详细扩展查询计划信息

性能调优—本地mr

本地模式设置方式：

set mapred.job.tracker=local;

set hive.exec.mode.local.auto=true;

测试 select 1 from wlan limit 5;

下面两个参数是local mr中常用的控制参数:

1,hive.exec.mode.local.auto.inputbytes.max默认134217728

设置local mr的最大输入数据量,当输入数据量小于这个值的时候会采用local mr的方式

2,hive.exec.mode.local.auto.input.files.max默认是4

设置local mr的最大输入文件个数,当输入文件个数小于这个值的时候会采用local mr的方式

开启并行计算,增加集群的利用率
- set hive.exec.parallel=true

设置严格模式
- set hive.mapred.mode=strict | nostrict;
- strict可以禁止三种类型的查询：
  - 一、强制分区表的where条件过滤
  - 二、Order by语句必须使用limit
  - 三、限制笛卡尔积查询

调整mapper和reducer的数量
- 太多map导致启动产生过多开销
- 按照输入数据量大小确定reducer数目,
  - set mapred.reduce.tasks= 默认3
  - dfs -count /分区目录/*
  - hive.exec.reducers.max设置阻止资源过度消耗

JVM重用
- 小文件多或task多的业务场景
- set mapred.job.reuse.jvm.num.task=10
- 会一直占用task槽

order by 语句：是全局排序

sort by 语句：是单reduce排序

distribute by语句：是分区字段排序;

cluster by语句：
- 可以确保类似的数据的分发到同一个reduce task中，并且保证数据有序防止所有的数据分发到同一个reduce上，导致整体的job时间延长
- cluster by语句的等价语句：
- distribute by Word sort by Word ASC

性能调优—Map-side聚合

set hive.map.aggr=true;

这个设置可以将顶层的聚合操作放在Map阶段执行，从而减轻清洗阶段数据传输和Reduce阶段的执行时间，提升总体性能。

缺点：该设置会消耗更多的内存。

执行select count(1) from wlan;

性能调优-jion优化

驱动表最右边
- 查询表表的大小从左边到右边依次增大

标志机制
- 显示的告知查询优化器哪张表示大表
- /*+streamtable(table_name)*/

表连接 (只支持等值连接)

INNER JOIN
- 两张表中都有，且两表符合连接条件
- select t1.name,t1.age,t9.age from t9 join t1 on t1.name=t9.name;

LEFT OUTER JOIN
- 左表中符合where条件出现，右表可以为空

RIGHT OUTER JOIN
- 右表中符合where条件出现，左表可以为空

FULL OUTER JOIN
- 返回所有表符合where条件的所有记录，没有NULL替代

LEFT SEMI-JOIN
- 左表中符合右表on条件出现，右表不出现
- select t1.name,t1.age from t9 LEFT SEMI JOIN t1 on t1.name=t9.name;

笛卡尔积
- 是m x n的结果

map-side JOIN
- 只有一张小表，在mapper的时候将小表完全放在内存中
- select /*+ mapjoin(t9) */t1.name,t1.age from t9 JOIN t1on t1.name=t9.name;

hive的UDF操作

1、UDF函数可以直接应用于select语句，对查询结构做格式化处理后，再输出内容。

2、编写UDF函数的时候需要注意一下几点：

a）自定义UDF需要继承org.apache.hadoop.hive.ql.UDF。

b）需要实现evaluate函数，evaluate函数支持重载。

4、步骤

a）把程序打包放到目标机器上去；

b）进入hive客户端，添加jar包：hive>add jar /run/jar/udf_test.jar;

c）创建临时函数：hive>CREATE TEMPORARY FUNCTION add_example AS 'hive.udf.Add';

d）查询HQL语句：

SELECT add_example(8, 9) FROM scores;

SELECT add_example(scores.math, scores.art) FROM scores;

SELECT add_example(6, 7, 8, 6.8) FROM scores;

e）销毁临时函数：hive> DROP TEMPORARY FUNCTION add_example;

注：UDF只能实现一进一出的操作，如果需要实现多进一出，则需要实现UDAF

Hive与传统数据库比较

总结

MapReduce程序计算KPI
HBASE详单查询
HIVE数据仓库多维分析

你可能感兴趣的:(hive)

hive spark读取hive hbase外表报错分析和解决 spring208208 hive hive spark hbase
问题现象使用Sparkshell操作hive关联Hbase的外表导致报错；hive使用tez引擎操作关联Hbase的外表时报错。问题1：使用tez或spark引擎，在hive查询时只要关联hbase的hive表就会有问题其他表正常。“org.apache.hadoop.hbase.client.RetriesExhaustedException:Can’tgetthelocations”问题2：s
【Python】解决PyTorch报错：PytorchStreamReader failed reading zip archive: failed finding central的解决方案 I'mAlex python pytorch 开发语言
在使用PyTorch时，遇到“PytorchStreamReaderfailedreadingziparchive:failedfindingcentral”错误通常是由于损坏的模型文件或不兼容的文件版本导致的。这种问题在加载模型或数据时比较常见。以下是一些排查和解决该问题的步骤。博主简介：现任阿里巴巴嵌入式技术专家，15年工作经验，深耕嵌入式+人工智能领域，精通嵌入式领域开发、技术管理、简历招聘
解释归档和非归档模式之间的不同和他们的各自的优缺点？思维导图代码示例（java 架构) 用心去追梦 java 架构 oracle
归档模式（ArchiveMode）和非归档模式（NoArchiveMode）是数据库管理系统中两种不同的日志记录方式，主要用于控制如何处理重做日志文件。这两种模式对数据库的恢复能力、性能以及备份策略有着重要影响。归档模式vs非归档模式归档模式（ArchiveMode）定义：当启用归档模式时，数据库会将填满的在线重做日志文件复制到一个或多个归档位置。作用：支持完整的数据库恢复，包括介质故障后的恢复。
windows 安装nvidaia驱动和cuda njl_0114 配置环境 windows
安装nvidaia驱动和cuda官网搜索下载驱动https://www.nvidia.cn/drivers/lookup/这里查出来的都是最高支持什么版本的cuda安装时候都默认精简就行官网下载所需版本的cuda包https://developer.nvidia.com/cuda-toolkit-archive安装成功但是nvcc-V失败，除了安装时候默认的加入的环境变量外。添加环境变量C:\Pr
记一次hivemetastore启动报错不吃饭的猪 hive
1，启动hivemetastore后报错日志2，排查lib下的mysql的驱动也在，这里和mysql的驱动大小一样3，把hive-site.xml中无关的配置都删掉，重启metastore还是报错4，最后排查，这个节点rpm部署了hive,现在只是copy了一个hive的目录过来，导致/usr/bin/hive这个里面和现在部署的安装包不是同一个
Hive服务启动之 metastore配置和 hiveserver2 龍浮影 hive
Hive服务启动之metastore服务配置和hiveserver2 配置hive的时候都需要配置hive-site.xml，配置过程中可以选择hive直连或者使用metastore服务间接连接，那么他们之间有什么区别呢？首先贴直连配置代码：javax.jdo.option.ConnectionURLjdbc:mysql://hadoop102:3306/metastore?useSSL=fal
maven插件学习(maven-shade-plugin和maven-antrun-plugin插件) catcher92 java maven maven 学习大数据
整合spark3.3.x和hive2.1.1-cdh6.3.2碰到个问题，就是spark官方支持的hive是2.3.x，但是cdh中的hive确是2.1.x的，项目中又计划用spark-thrift-server，导致编译过程中有部分报错。其中OperationLog这个类在hive2.3中新增加了几个方法，导致编译报错。这个时候有两种解决办法：修改spark源码，注释掉调用OperationLo
hive的metastore和hiveserver2服务的启动要开心吖ZSH hive hive hadoop 大数据
1、描述nohup:放在命令开头，表示不挂起，也就是关闭终端进程也继续保持运行状态/dev/null：是Linux文件系统中的一个文件，被称为黑洞，所有写入改文件的内容都会被自动丢弃2>&1:表示将错误输出重定向到标准输出上第一个2表示错误输出，另外0表示标准输入，1表示标准输出&:放在命令结尾,表示后台运行一般会组合使用:nohup[xxx命令操作]>file2>&1&，表示将xxx命令运行的结
5. clickhouse 单节点多实例部署 Toroidals 大数据组件安装部署教程 clickhouse 单节点多实例伪分布安装部署
环境说明：主机名：cmc01为例操作系统：centos7安装部署软件版本部署方式centos7zookeeperzookeeper-3.4.10伪分布式hadoophadoop-3.1.3伪分布式hivehive-3.1.3-bin伪分布式clickhouse21.11.10.1-2单节点多实例dolphinscheduler3.0.0单节点kettlepdi-ce-9.3.0.0单节点sqoop
Hive空字符串‘‘与NULL值对比 Lens5935 Hive sql hive 大数据
Hive里null值和空字符串是两个不同的东西。NULL值【\N】，较为常见，就是所谓的空值，字段没有值。空字符串【''】，通常多为人为指定。数据类型对于空值的存储规则：int与string类型，null默认存储为\N，int类型插入“”时，结果还是\Nstring类型的数据如果为“”，存储则是“”空值的查询规则：int类型，用isnull来判断空值；string类型，用isnull判断\N的数据
java获取hive表所有字段,Hive Sql从表中动态获取空列计数拾亿年 java获取hive表所有字段
我正在使用datastaxspark集成和sparkSQLthrift服务器,它为我提供了一个HiveSQL接口来查询Cassandra中的表.我的数据库中的表是动态创建的,我想要做的是仅根据表名在表的每列中获取空值的计数.我可以使用describedatabase.table获取列名,但在hiveSQL中,如何在另一个为所有列计数null的select查询中使用其输出.更新1：使用Dudu的解决
hivemetastore 连接过多导致sql查询慢 sunxunyong sql 数据库
MetaStore(DB)修改对应的处理连接数maxConnectionsPerPartition建议设置成100(不能超过最大值300)，重启Hive服务。建议值100是根据与工行规模相当集群的设置作参考，尽量大满足连接数请求的同时考虑connection占用资源(如果connection太多会占用太多的内存资源)的角度做出的一个综合评估值。原因分析metastore采用了线程池，若使用连接数达
解锁Archive of Our Own的无限可能 sgsdhd sqlite oracle json sql database redis
项目介绍AO3API是一个非官方的Python库，旨在通过编程方式访问ArchiveofOurOwn（AO3）网站的数据。AO3是一个广受欢迎的同人作品存档网站，拥有大量的同人小说、评论和用户数据。通过AO3API，开发者可以轻松地获取、处理和分析这些数据，从而为同人社区带来更多创新的应用和服务。项目技术分析AO3API的核心功能被划分为九个模块：works、chapters、users、seri
【Apache Paimon】-- 16 -- 利用 paimon-flink-action 同步 kafka 数据到 hive paimon 表中 oo寻梦in记 Apache Paimon apache flink kafka apache paimon paimon
目录引言CDC技术概述2.1什么是CDC2.2CDC的应用场景Kafka作为CDC数据源的原理与优势3.1Kafka的基本架构3.2Kafka在CDC中的角色
Hive数据库及表操作亦576 hive 数据库 hadoop
数仓原理以及Hive入门：数仓原理：数仓（DataWarehouse）是用于支持企业决策的数据存储和分析系统。数仓原理包括以下几个方面：1.数据抽取（Extraction）：从各个业务系统中抽取数据，并进行清洗和转换，以适应数仓的数据模型。2.数据存储（Storage）：将清洗和转换后的数据存储到数仓中，通常使用关系型数据库或大数据存储技术来存储大量的数据。3.数据整合（Integration）：
linux部署node服务 lanren312 node node.js
1、安装nvm管理node版本#下载、解压到指定目录wgethttps://github.com/nvm-sh/nvm/archive/refs/tags/v0.39.1.tar.gztar-zxvfnvm-0.39.0.tar.gz-C/opt/nvm#配置环境vim~/.bashrc~：这是一个路径简写符号，代表当前用户的主目录。在大多数Linux系统中，这通常对应于/home/usernam
Hive 内置集合函数雾岛与鲸 hive hive 大数据
目录size(Map[K,V])size(Array[V])map_keys(Map[K.V])map_values(Map[K.V])array_contains(Array[T],value)sort_array(Array[T])小结size(Map[K,V])解释返回Map类型中的元素数。使用案例selectsize(map类型参数);--返回map中的元素个数size(Array[V])
Open Liberty使用指南及微服务开发示例（五）自由鬼 Java程序开源产品及技术 IT应用探讨 java Liberty ibm 微服务
续前篇十九、实现租户行为日志的自动归档目前，我们已经实现日志导出，但日志会无限增长，占用数据库空间。现在，我们要实现：✅定期归档旧日志（每3个月）✅归档数据存储为CSV/Excel✅归档后自动清理旧日志，减少数据库负担方案设计归档策略：1️⃣每3个月归档一次（定时任务执行）2️⃣归档数据存储到/logs/archive/YYYY-MM.csv或/logs/archive/YYYY-MM.xlsx3
1. hadoop 1.0.0 source code 小阿小火苗 hadoop
https://archive.apache.org/dist/hadoop/core/hadoop-1.0.0/
numbers_parser macos
IWA（iWorkArchive）是一种由苹果公司开发的二进制文件格式，主要用于存储iWork套件（包括Pages、Numbers和Keynote）中的文档数据。IWA格式是iWork文件包的一部分，通常与其他文件（如Index.zip、Preview.jpg等）一起存储在iWork文档包中。iwa文件的二进制结构：+--------------------------------------+|
Ubuntu apt get install 软件时出现 E: You don‘t have enough free space in /var/cache/apt/archives/. 解决方案扛着相机的翻译官 Linux ubuntu linux 运维
出现该问题是/var下空间不足，可尝试aptinstallclean清除/var/log内容等方法，如果还是不行，做个文件路径软连接映射即可例如：mkdir-p/home/root/var_archives/partialsudorm-rf/var/cache/apt/archivessudoln-s"/home/root/var_archives"/var/cache/apt/archives完
hive数仓的分层与建模 korry24 hive hadoop 数据仓库
Hive数据仓库分层和数据建模是一种常见的数据仓库设计方法，旨在通过分层的方式组织数据，提高数据的可维护性、可复用性和查询性能。以下是关于Hive数据仓库分层和数据建模的详细知识：一、Hive数据仓库分层数据仓库通常采用分层架构，目的是将数据按照不同的处理阶段和用途进行划分，便于管理和优化。常见的分层架构包括以下四层：1.ODS（OperationalDataStore，操作数据存储层）作用：OD
HiveQL命令（三）- Hive函数 BigDataMagician HiveQL命令 hive hadoop 数据仓库
文章目录前言一、Hive内置函数1.数值函数2.字符串函数3.日期与时间函数4.条件函数5.聚合函数6.集合函数7.类型转换函数8.表生成函数(UDTF)前言在大数据处理和分析的过程中，数据的转换和处理是至关重要的环节。ApacheHive作为一种流行的数据仓库工具，提供了丰富的内置函数，帮助用户高效地处理和分析存储在Hadoop分布式文件系统（HDFS）中的数据。这些内置函数涵盖了数值计算、字符
Hive之最新方式MySQL5.7 安装心灵Haven 大数据 hive hadoop 数据仓库
检查是否已经安装mysql（两种方式）[root@master~]#rpm-qa|grepmysql[root@master~]#yumlistinstalled|grepmysqlcentos7下需要删除mariadb检查：[root@master~]#rpm-qa|grepmariadb删除如下：强制删除如果已经安装，卸载掉原mysql[root@master~]#rpm-emysql【一般删
python3.8，Anaconda安装、配置以及与VSCODE的集成 weixin_40404189 python conda vscode anaconda python vscode
本人小白一个，折腾了一周时间，把一些心得写在下面，供自己和同样有困扰的朋友参看。anaconda下载源：https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/miniconda下载源：https://mirrors.tuna.tsinghua.edu.cn/anaconda/miniconda/注意：请下载好对应的版本（系统、python）我下
银河麒麟V10桌面版ARM64安装MySQL8，保姆级新出炉全步骤验证热乎乎的教程（2024年12月16日） s484 adb mysql
记录一次坑爹的国产系统安装mysql过程系统版本：银河麒麟V10SP1桌面版系统架构：ARM64mysql版本：mysql8.3.0-ARM64一、下载mysql8.3.0arm版下载地址：MySQL::DownloadMySQLCommunityServer(ArchivedVersions)二、mysql安装1.解压文件tar-xfmysql-8.3.0-linux-glibc2.28-aar
实战篇：Oracle DataGuard 出现 GAP 修复完整步骤 Lucifer三思而后行 DBA 实战系列数据库 dataguard gap
前言DGGAP顾名思义就是：DG不同步，当备库不能接受到一个或多个主库的归档日志文件时候，就发生了GAP。那么，如果遇到GAP如何修复呢？且听我细细道来~一、介绍DGGAP主要分为以下两类情况：1、主库归档日志存在，可以通过配置FetchArchiveLog(FAL)参数，自动解决归档GAP。2、主库归档日志丢失，需要人工干预来修复。不同Oracle版本的GAP修复方式也不尽相同，下面分别介绍不同
跨平台应用开发进阶(四十一)使用Xcode打包 iOS 应用 archive 时四种证书的区别详解_xcode编译时 archive 2401_84434331 程序员 xcode ios macos
一、archive四种模式在应用XCode进行苹果打包的时候有以下四个选项可供选择，在此累述一下四种模式的含义：AppStore:用来发布到AppStore，使用发布证书编译。(production)AdHoc:在开发者账号中添加过UDID的设备可以使用，使用发布证书编译。(production)Enterprise:企业发布，使用企业证书编译。Development:在开发者账号中添加过UDID
【hudi】基于hive2.1.1的编译hudi-1.0.0源码 lisacumt 大数据
hudi版本1.0.0需要使用较低版本的hive，编译hudi只需要修改下类即可：org.apache.hudi.hadoop.hive.HoodieCombineHiveInputFormat一、复制org.apache.hadoop.hive.common.StringInternUtils找个hive2.3.9的源码包，创建包路径，并将此类复制到hudi的hudi-common到下。当然其他
掌握大数据--Hive全面指南纪祥_ee1 大数据 hive hadoop
1.Hive简介2.Hive部署方式3.Hive的架构图4.Hive初体验5.HiveSQL语法--DDL操作数据库1.Hive简介ApacheHive是建立在Hadoop之上的一个数据仓库工具，它提供了一种类似于SQL的查询语言，称为HiveQL，用于查询和分析存储在Hadoop分布式文件系统（HDFS）中的大规模结构化数据。以下是Hive的一些主要特点和介绍：1.类SQL查询语言：HiveSQ
mongodb3.03开启认证 21jhf mongodb
下载了最新mongodb3.03版本，当使用--auth 参数命令行开启mongodb用户认证时遇到很多问题，现总结如下：（百度上搜到的基本都是老版本的，看到db.addUser的就是，请忽略） Windows下我做了一个bat文件，用来启动mongodb，命令行如下： mongod --dbpath db\data --port 27017 --directoryperdb --logp
【Spark103】Task not serializable bit1129 Serializable
Task not serializable是Spark开发过程最令人头疼的问题之一，这里记录下出现这个问题的两个实例，一个是自己遇到的，另一个是stackoverflow上看到。等有时间了再仔细探究出现Task not serialiazable的各种原因以及出现问题后如何快速定位问题的所在，至少目前阶段碰到此类问题，没有什么章法 1. package spark.exampl
你所熟知的 LRU(最近最少使用) dalan_123 java
关于LRU这个名词在很多地方或听说，或使用，接下来看下lru缓存回收的实现 1、大体的想法 a、查询出最近最晚使用的项 b、给最近的使用的项做标记通过使用链表就可以完成这两个操作，关于最近最少使用的项只需要返回链表的尾部；标记最近使用的项，只需要将该项移除并放置到头部，那么难点就出现你如何能够快速在链表定位对应的该项？这时候多
Javascript 跨域周凡杨 JavaScript jsonp 跨域 cross-domain
linux下安装apache服务器 g21121 apache
安装apache 下载windows版本apache，下载地址：http://httpd.apache.org/download.cgi 1.windows下安装apache Windows下安装apache比较简单，注意选择路径和端口即可，这里就不再赘述了。 2.linux下安装apache：下载之后上传到linux的相关目录，这里指定为/home/apach
FineReport的JS编辑框和URL地址栏语法简介老A不折腾 finereport web报表报表软件语法总结
JS编辑框： 1.FineReport的js。作为一款BS产品，browser端的JavaScript是必不可少的。 FineReport中的js是已经调用了finereport.js的。大家知道，预览报表时，报表servlet会将cpt模板转为html，在这个html的head头部中会引入FineReport的js，这个finereport.js中包含了许多内置的fun
根据STATUS信息对MySQL进行优化墙头上一根草 status
mysql 查看当前正在执行的操作，即正在执行的sql语句的方法为: show processlist 命令 mysql> show global status;可以列出MySQL服务器运行各种状态值，我个人较喜欢的用法是show status like '查询值%';一、慢查询mysql> show variab
我的spring学习笔记7-Spring的Bean配置文件给Bean定义别名 aijuans Spring 3
本文介绍如何给Spring的Bean配置文件的Bean定义别名？原始的 <bean id="business" class="onlyfun.caterpillar.device.Business"> <property name="writer"> <ref b
高性能mysql 之性能剖析 annan211 性能 mysql mysql 性能剖析剖析
1 定义性能优化 mysql服务器性能，此处定义为响应时间。在解释性能优化之前，先来消除一个误解，很多人认为，性能优化就是降低cpu的利用率或者减少对资源的使用。这是一个陷阱。资源时用来消耗并用来工作的，所以有时候消耗更多的资源能够加快查询速度，保持cpu忙绿，这是必要的。很多时候发现编译进了新版本的InnoDB之后，cpu利用率上升的很厉害，这并不
主外键和索引唯一性约束百合不是茶索引唯一性约束主外键约束联机删除
目标;第一步;创建两张表用户表和文章表第二步;发表文章 1,建表; ---用户表 BlogUsers --userID唯一的 --userName --pwd --sex create
线程的调度 bijian1013 java 多线程 thread 线程的调度 java多线程
1. Java提供一个线程调度程序来监控程序中启动后进入可运行状态的所有线程。线程调度程序按照线程的优先级决定应调度哪些线程来执行。 2. 多数线程的调度是抢占式的（即我想中断程序运行就中断，不需要和将被中断的程序协商） a)
查看日志常用命令 bijian1013 linux 命令 unix
一.日志查找方法，可以用通配符查某台主机上的所有服务器grep "关键字" /wls/applogs/custom-*/error.log 二.查看日志常用命令1.grep '关键字' error.log：在error.log中搜索'关键字'2.grep -C10 '关键字' error.log：显示关键字前后10行记录3.grep '关键字' error.l
【持久化框架MyBatis3一】MyBatis版HelloWorld bit1129 helloworld
MyBatis这个系列的文章，主要参考《Java Persistence with MyBatis 3》。样例数据本文以MySQL数据库为例，建立一个STUDENTS表，插入两条数据，然后进行单表的增删改查 CREATE TABLE STUDENTS ( stud_id int(11) NOT NULL AUTO_INCREMENT,
【Hadoop十五】Hadoop Counter bit1129 hadoop
1. 只有Map任务的Map Reduce Job File System Counters FILE: Number of bytes read=3629530 FILE: Number of bytes written=98312 FILE: Number of read operations=0 FILE: Number of lar
解决Tomcat数据连接池无法释放 ronin47 tomcat 连接池　优化
近段时间，公司的检测中心报表系统(SMC)的开发人员时不时找到我，说用户老是出现无法登录的情况。前些日子因为手头上有Jboss集群的测试工作，发现用户不能登录时，都是在Tomcat中将这个项目Reload一下就好了，不过只是治标而已，因为大概几个小时之后又会再次出现无法登录的情况。今天上午，开发人员小毛又找到我，要我协助将这个问题根治一下，拖太久用户难保不投诉。简单分析了一
java-75-二叉树两结点的最低共同父结点 bylijinnan java
import java.util.LinkedList; import java.util.List; import ljn.help.*; public class BTreeLowestParentOfTwoNodes { public static void main(String[] args) { /* * node data is stored in
行业垂直搜索引擎网页抓取项目 carlwu Lucene Nutch Heritrix Solr
公司有一个搜索引擎项目，希望各路高人有空来帮忙指导，谢谢！这是详细需求：（1）通过提供的网站地址(大概100-200个网站)，网页抓取程序能不断抓取网页和其它类型的文件（如Excel、PDF、Word、ppt及zip类型），并且程序能够根据事先提供的规则，过滤掉不相干的下载内容。（2）程序能够搜索这些抓取的内容，并能对这些抓取文件按照油田名进行分类，然后放到服务器不同的目录中。
[通讯与服务]在总带宽资源没有大幅增加之前,不适宜大幅度降低资费 comsci 资源
降低通讯服务资费，就意味着有更多的用户进入，就意味着通讯服务提供商要接待和服务更多的用户，在总体运维成本没有由于技术升级而大幅下降的情况下，这种降低资费的行为将导致每个用户的平均带宽不断下降，而享受到的服务质量也在下降，这对用户和服务商都是不利的。。。。。。。。 &nbs
Java时区转换及时间格式 Cwind java
本文介绍Java API 中 Date, Calendar, TimeZone和DateFormat的使用，以及不同时区时间相互转化的方法和原理。问题描述：向处于不同时区的服务器发请求时需要考虑时区转换的问题。譬如，服务器位于东八区（北京时间，GMT+8:00），而身处东四区的用户想要查询当天的销售记录。则需把东四区的“今天”这个时间范围转换为服务器所在时区的时间范围。
readonly,只读，不可用 dashuaifu js jsp disable readOnly readOnly
readOnly 和 readonly 不同，在做js开发时一定要注意函数大小写和jsp黄线的警告！！！我就经历过这么一件事：使用readOnly在某些浏览器或同一浏览器不同版本有的可以实现“只读”功能，有的就不行，而且函数readOnly有黄线警告！！！就这样被折磨了不短时间！！！（期间使用过disable函数，但是发现disable函数之后后台接收不到前台的的数据！！！）
LABjs、RequireJS、SeaJS 介绍 dcj3sjt126com js Web
LABjs 的核心是 LAB（Loading and Blocking）：Loading 指异步并行加载，Blocking 是指同步等待执行。LABjs 通过优雅的语法（script 和 wait）实现了这两大特性，核心价值是性能优化。LABjs 是一个文件加载器。RequireJS 和 SeaJS 则是模块加载器，倡导的是一种模块化开发理念，核心价值是让 JavaScript 的模块化开发变得更
[应用结构]入口脚本 dcj3sjt126com PHP yii2
入口脚本入口脚本是应用启动流程中的第一环，一个应用（不管是网页应用还是控制台应用）只有一个入口脚本。终端用户的请求通过入口脚本实例化应用并将将请求转发到应用。 Web 应用的入口脚本必须放在终端用户能够访问的目录下，通常命名为 index.php，也可以使用 Web 服务器能定位到的其他名称。控制台应用的入口脚本一般在应用根目录下命名为 yii（后缀为.php），该文
haoop shell命令 eksliang hadoop hadoop shell
cat chgrp chmod chown copyFromLocal copyToLocal cp du dus expunge get getmerge ls lsr mkdir movefromLocal mv put rm rmr setrep stat tail test text
MultiStateView不同的状态下显示不同的界面 gundumw100 android
只要将指定的view放在该控件里面，可以该view在不同的状态下显示不同的界面，这对ListView很有用，比如加载界面，空白界面，错误界面。而且这些见面由你指定布局，非常灵活。 PS：ListView虽然可以设置一个EmptyView，但使用起来不方便，不灵活，有点累赘。 <com.kennyc.view.MultiStateView xmlns:android=&qu
jQuery实现页面内锚点平滑跳转 ini JavaScript html jquery html5 css
平时我们做导航滚动到内容都是通过锚点来做，刷的一下就直接跳到内容了，没有一丝的滚动效果，而且 url 链接最后会有“小尾巴”，就像#keleyi，今天我就介绍一款 jquery 做的滚动的特效，既可以设置滚动速度，又可以在 url 链接上没有“小尾巴”。效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/37.htmHTML文件代码： &
kafka offset迁移 kane_xie kafka
在早前的kafka版本中（0.8.0），offset是被存储在zookeeper中的。到当前版本（0.8.2）为止，kafka同时支持offset存储在zookeeper和offset manager（broker）中。从官方的说明来看，未来offset的zookeeper存储将会被弃用。因此现有的基于kafka的项目如果今后计划保持更新的话，可以考虑在合适
android > 搭建 cordova 环境 mft8899 android
1 , 安装 node.js http://nodejs.org node -v 查看版本 2, 安装 npm 可以先从 https://github.com/isaacs/npm/tags 下载源码解压到
java封装的比较器，比较是否全相同，获取不同字段名字 qifeifei
非常实用的java比较器，贴上代码： import java.util.HashSet; import java.util.List; import java.util.Set; import net.sf.json.JSONArray; import net.sf.json.JSONObject; import net.sf.json.JsonConfig; i
记录一些函数用法 .Aky. 位运算 PHP 数据库函数 IP
高手们照旧忽略。想弄个全天朝IP段数据库，找了个今天最新更新的国内所有运营商IP段，copy到文件，用文件函数，字符串函数把玩下。分割出startIp和endIp这样格式写入.txt文件，直接用phpmyadmin导入.csv文件的形式导入。（生命在于折腾，也许你们觉得我傻X，直接下载人家弄好的导入不就可以，做自己的菜鸟，让别人去说吧）当然用到了ip2long()函数把字符串转为整型数
sublime text 3 rust wudixiaotie Sublime Text
1.sublime text 3 => install package => Rust 2.cd ~/.config/sublime-text-3/Packages 3.mkdir rust 4.git clone https://github.com/sp0/rust-style 5.cd rust-style 6.cargo build --release 7.ctrl

Hive

一、Hive

什么是Hive（一）

什么是Hive（二）

Hive的数据存储

Hive的系统架构

Hive的系统架构

Hive的metastore

Hive与Hadoop的调用关系

Hive的安装

配置MySQL的metastore

临时目录的配置

Hive运行模式

hive使用

Hive命令行模式

hive参数配置使用

hive的脚本执行

hive与依赖环境的交互

hive的JDBC模式

hive web界面模式

set命令使用

二、基本数据类型

复合数据类型

复合类型—Struct使用

复合类型—Array使用

复合类型—Map使用

三、数据定义

表定义

列定义

Hive的数据模型-管理表

Hive的数据模型-管理表

Hive的数据模型-外部表

Hive的数据模型-外部表

Hive的数据模型-外部表语法

Hive的数据模型-分区表

Hive的数据模型-分区表

Hive的数据模型-分区表语法

Hive的数据模型—桶表

Hive的数据模型—桶表

hive视图的操作

hive索引的操作

装载数据

动态分区装载数据

导出数据

读模式与写模式

完整建表语句语法

文件格式

使用SequenceFile存储

使用RCFile存储

使用ORC存储

Hive SerDe

使用CSV Serde

存储总结

Lateral View语法

四、hive的高级函数

hive性能调优

性能调优—本地mr

性能调优—Map-side聚合

性能调优-jion优化

表连接 (只支持等值连接)

hive的UDF操作

Hive与传统数据库比较

总结

你可能感兴趣的:(hive)