实战Hive本地文件系统导入数据

前言

    最近了解到大数据Hadoop相关内容,正好项目中需要与hive 数据仓库交互,前提需要导入数据到Hive中,下面来看下本地文件系统导入hive的实战过程。

正文

四种方式导入数据到Hive 表

  • 从本地文件系统导入数据到Hive 表
  • 从HDFS 导入数据到Hive表
  • 从别的表查询出相应的数据并导入到Hive表中
  • 在创建表的时候通过从别的表中查询出数据导入到新建的Hive表中

从本地文件系统导入数据到Hive表中

1、连接、登录Hive 服务器,创建数据库、表

# 创建数据表脚本
create external table tag(id string,name string,value string,type string) ROW FORMAT DELIMITED  FIELDS TERMINATED BY '\t' STORED AS TEXTFILE location '/user/hive/path/ha';

注意:
     hive中在创建表时,一般会根据导入的数据格式来指定字段分隔符和列分隔符,一般导入的文本数据字段分隔符多为逗号分隔符或者制表符,当然也可以自定义,默认的列分隔符是^A(ctrl+A),行分隔符是’\n’分隔符 ;
    DELIMITED FIELDS TERMINATED BY ‘\t’ 中的’\t’分隔符表示字段或者列的分隔符,"\t" 分隔符是制表符(tab分隔符)

2、数据准备,本次以一个文本文件的形式

实战Hive本地文件系统导入数据_第1张图片

3、本地文件导入hive

load data local inpath "1.txt" into table tagdb.ha;

    下图是导入成功的效果:
实战Hive本地文件系统导入数据_第2张图片
    再来看表中新插入的数据:
(红框中为插入格式有误的数据,篮框为正确插入的数据)
实战Hive本地文件系统导入数据_第3张图片
    如此,是插入成功了!

4、导入数据命令详解

LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1,partcol2=val2 ...)]
  • local
        如果命令中带着local 参数,表示从本地文件系统中加载文件,filepath 文件路径可以是相对路径,也可以是绝对路径,也可以是完整的url;
        如果命令中没有带着local 参数,表示从HDFS加载文件,filepath 可以是完整的url,也可以是s.default.name定义的值。
  • overwrite
        如果命令中带着overwrite,加载数据之前会先清空目标表的内容;
        如果不带着overwrite,加载数据会采用增量的方式;

5、踩过的坑

  • 本地文件系统是指hive所在服务器的本地
         由于我是远程hive服务器,刚开始认为本地文件系统是我的本地电脑,在导入的过程中,终端一直报错提示“文件不存在”,后来实验发现本地文件系统是Hive服务所在的机器本地。

  • 准备数据时注意分隔符
        创建数据库的表时指定的分隔符要和即将导入的文本文件的数据分隔符要一致,比如创建数据表时使用“/t”分隔符,文本文件中字段之间也是要输入“tab”键的,然而厉害的我输入了“空格”,悲剧就发生了,出现了上图中红框标注的一幕;

  • 导入数据时先转到目标数据库

# 查看数据库
show databases;
# 转到目标数据库
use dbName;
# 导入数据
load data local ...

总结

    感谢您的耐心阅读,希望能为路过的你带来帮助!下篇文章将介绍HDFS的方式导入Hive,敬请期待!

你可能感兴趣的:(【大数据】)