hive本地数据载入报错invalid path

hive中用load data local inpath载入本地数据时出错，报错找不到路径，原因：

我本地路径用的是自己电脑上的路径，但是Hive本地装载数据中的"本地"指的是服务器的本地，而非我们电脑所在的“本地”。

如果是学习hive，在自己电脑上搭建练习环境，可能需要了解如何将“本机”（电脑）上的数据载入到hive。网上一些教程没有说明本地指“服务器”的原因是因为分布式计算所用到的数据量非常大，在实际操作中不太可能存在自己的电脑上，因此本地默认指服务器是合理的。但是对于非计算机背景的初学者，我们往往会把教程中的“本地”当做自己电脑上的本地。

折腾了半天，想把整个过程写出来，希望能帮助需要的人。

想好要把数据存储在服务器的什么位置
假设现在已经启动hadoop，但是没有进入hive。可以在服务器界面输入

ls /

看一下有哪些目录，例如我的界面就是：

image

在服务器界面的所有操作都会用到linux代码，包括如何移动文件夹、创建文件夹、访问文件、修改保存文件等，如果这方面不是很清楚，可以去百度下linux的常用代码。对于Mac用户来说，平时在terminal中操作用到的代码就是linux代码）

看到目录后，想好你想把数据存在服务器的哪个位置。比如，我想存储在home这个文件夹中：

image

上面的代码意思是，移动到home文件夹中的hadoop文件夹中，用ls指令看下该文件夹下有什么文件，结果发现有datas怎么一个文件夹。我准备把数据存到这个文件夹下。

2. 把本机文件上传到服务器

打开terminal，输入

scp '文件在计算机上的路径' root@服务器IP:服务器中的存储位置

例如，我要把电脑桌上上的csv文件存入到服务器的home/hadoop/datas文件夹中，我的服务器IP是111.112.113.114，那么我应该输入：

scp '/Users/name/Desktop/model2_datas.csv' [email protected]:/home/hadoop/datas/

接下来会要求你输入服务器的密码，输入就可以。如果成功加载数据会在界面显示加载进度，例如：

image

3. 重新回到服务器界面，我们可以看到数据已经加载成功

[hadoop@node100 data]$ cd /home/hadoop/datas 
[hadoop@node100 data]$ ls
model2_datas.csv  --返回的结果

上面可以看到datas文件夹中已经有我们载入的csv数据

4. 将数据载入到hive表

1）首先进入hive的界面，进入你的数据库，然后根据你的数据创建一个表

create table 表名
(字段 字段类型，
字段2 字段类型2，
....)
row format delimited fields terminated by ',' --指定字段间的分隔符
tblproperties(
"skip.header.line.count"="1" --跳过文件行首1行
)

2）将服务器本地的数据载入hive表

load data local inpath '服务器中的文件路径' into table 表名

例如我刚才的例子，代码就是

load data local inpath '/home/hadoop/datas/model2_datas.csv' into table model2_datas.csv

参考资料

拉勾数据分析训练营资料
百度linux代码资料
hive Invalid path xxxx: No files matching path file: xxxx
1. Hive之 Hql语法解析
2. 实战Hive本地文件系统导入数据
3. mac与虚拟机传输文件
4. Mac终端连接虚拟机及传输文件

hive本地数据载入报错invalid path

你可能感兴趣的:(hive本地数据载入报错invalid path)