hive本地数据载入报错invalid path

hive中用load data local inpath载入本地数据时出错,报错找不到路径,原因:

我本地路径用的是自己电脑上的路径,但是Hive本地装载数据中的"本地"指的是服务器的本地,而非我们电脑所在的“本地”。

如果是学习hive,在自己电脑上搭建练习环境,可能需要了解如何将“本机”(电脑)上的数据载入到hive。网上一些教程没有说明本地指“服务器”的原因是因为分布式计算所用到的数据量非常大,在实际操作中不太可能存在自己的电脑上,因此本地默认指服务器是合理的。但是对于非计算机背景的初学者,我们往往会把教程中的“本地”当做自己电脑上的本地。

折腾了半天,想把整个过程写出来,希望能帮助需要的人。

  1. 想好要把数据存储在服务器的什么位置
    假设现在已经启动hadoop,但是没有进入hive。可以在服务器界面输入
ls /

看一下有哪些目录,例如我的界面就是:


image

在服务器界面的所有操作都会用到linux代码,包括如何移动文件夹、创建文件夹、访问文件、修改保存文件等,如果这方面不是很清楚,可以去百度下linux的常用代码。对于Mac用户来说,平时在terminal中操作用到的代码就是linux代码)

看到目录后,想好你想把数据存在服务器的哪个位置。比如,我想存储在home这个文件夹中:


image

上面的代码意思是,移动到home文件夹中的hadoop文件夹中,用ls指令看下该文件夹下有什么文件,结果发现有datas怎么一个文件夹。我准备把数据存到这个文件夹下。

2. 把本机文件上传到服务器

打开terminal,输入

scp '文件在计算机上的路径' root@服务器IP:服务器中的存储位置

例如,我要把电脑桌上上的csv文件存入到服务器的home/hadoop/datas文件夹中,我的服务器IP是111.112.113.114,那么我应该输入:

scp '/Users/name/Desktop/model2_datas.csv' [email protected]:/home/hadoop/datas/

接下来会要求你输入服务器的密码,输入就可以。如果成功加载数据会在界面显示加载进度,例如:

image

3. 重新回到服务器界面,我们可以看到数据已经加载成功

[hadoop@node100 data]$ cd /home/hadoop/datas 
[hadoop@node100 data]$ ls
model2_datas.csv  --返回的结果

上面可以看到datas文件夹中已经有我们载入的csv数据

4. 将数据载入到hive表

1)首先进入hive的界面,进入你的数据库,然后根据你的数据创建一个表

create table 表名
(字段 字段类型,
字段2 字段类型2,
....)
row format delimited fields terminated by ',' --指定字段间的分隔符
tblproperties(
"skip.header.line.count"="1" --跳过文件行首1行
)

2)将服务器本地的数据载入hive表

load data local inpath '服务器中的文件路径' into table 表名

例如我刚才的例子,代码就是

load data local inpath '/home/hadoop/datas/model2_datas.csv' into table model2_datas.csv

参考资料

  1. 拉勾数据分析训练营资料

  2. 百度linux代码资料

  3. hive Invalid path xxxx: No files matching path file: xxxx

    1. Hive之 Hql语法解析

    2. 实战Hive本地文件系统导入数据

    3. mac与虚拟机传输文件

    4. Mac终端连接虚拟机及传输文件

你可能感兴趣的:(hive本地数据载入报错invalid path)