Hive数据类型和数据格式

Hive支持关系型数据库中的大多数基本数据类型,同时也支持关系型数据库中很少出现的3中集合数据类型:
基本数据类型:
tinyint(1byte)、smallint(2byte)、int(4byte)、bigint(8byte)、boolean(true|false)、float(单精度浮点数)、double(双精度浮点数)、string(字符序列)、timestamp(整数、浮点数或者字符串)、binary(字节数组)

集合数据类型:
struct:和C语言中的struct对象一样,都通过“点”符号访问元素内容,eg: struct{first string , last string},访问时通过:字段名.first来引用
map:是一组键-值对元组集合,可通过字段名['key']来访问
array:是一组具有相同类型和名称的变量的集合,编号从0开始,通过下标访问

文本文件数据编码:
逗号分隔符的文件:csv
制表符跟个的文件:tsv

hive中默认的记录和字段分隔符
\n        换行符
^A      ctrl+A 用于分隔字段(列),create table时可以使用八进制编码\001表示
^B      用于分隔Array或者Struct中的元素,或用于Map中键-值对之间的分隔符,八进制编码\002表示
^C      用于Map中键和值之间的分隔 ,八进制编码\003表示

create table emp {
name string,
salary float,
subordinates array,
deductions  map,
address struct
}
row format delimited fields terminated by '\001'
collection items terminated by '\002'
map keys terminated by '\003'
line terminated by '\n'
stored as textfile;

读时模式:
当用户向传统数据库中加载数据的时候,数据库对于存储具有完全的控制能力,数据库就是"守门人"。传统数据库是写入模式,即数据在写入数据库时对模式进行检查。
Hive对于存储没有这样的控制,Hive不会在数据加载的时候进行验证,而是在查询的时候进行,也就是读时模式。
那么如果模式和文件内容不匹配怎么办呢?
如果记录中的字段个数或者字段类型不匹配的话,那么用户会在查询结果中看到多个null值

你可能感兴趣的:(hive)