csv数据导入Hadoop中的HDFS

作者: lly

简介

本文介绍通过使用Hadoop命令的方式将csv数据导入进入HDFS中

一、环境准备

具体的环境准备及搭建流程可参考以下文章,本文不再做赘述
基础环境准备:https://blog.csdn.net/supermapsupport/article/details/91443032
Hadoop集群搭建:https://blog.csdn.net/supermapsupport/article/details/91972499

二、数据准备

未注册到 iServer的 csv 数据进行分布式分析服务,则需确保在 csv 存放目录下有与其对应的 .meta 文件,该.meta文件包含 csv 数据文件的元信息,所以我们将两个数据一起拷入。以示范数据 newyork_taxi_2013-01_14k.csv 为例,.meta 文件内容为:

 "FieldInfos": [ 
       { 
           "name": "col0", 
           "type": "WTEXT" 
       }, 
       { 
          "name": "col1", 
           "type": "WTEXT" 
       }, 
       { 
           "name": "col2", 
           "type": "WTEXT" 
       }, 
       { 
           "name": "col3", 
           "type": "INT32" 
       }, 
       { 
           "name": "col4", 
           "type": "WTEXT" 
       }, 
       { 
           "name": "col5", 
           "type": "WTEXT" 
       }, 
       { 
           "name": "col6", 
           "type": "WTEXT" 
       }, 
       { 
           "name": "col7", 
           "type": "INT32" 
       }, 
       { 
           "name": "col8", 
           "type": "INT32" 
       }, 
       { 
           "name": "col9", 
           "type": "DOUBLE" 
       }, 
       { 
           "name": "X", 
           "type": "DOUBLE" 
       }, 
       { 
           "name": "Y", 
           "type": "DOUBLE" 
       }, 
       { 
           "name": "col12", 
           "type": "DOUBLE" 
       }, 
       { 
           "name": "col13", 
           "type": "DOUBLE" 
       } 
   ], 
   "GeometryType": "POINT", 
   "HasHeader": false, 
   "StorageType": "XYColumn" 
}

三、导入csv

1.首先将数据放到opt目录下

  • newyork_taxi_2013-01_14k.csv
  • newyork_taxi_2013-01_14k.meta

2.将示例数据导入到 hdfs 中,启动 hadoop,在 hadoop-2.7.7/bin 中执行

./hadoop fs -mkdir /input         #创建/input 目录
./hdfs dfs -put /opt/newyork_taxi_2013-01_14k.csv /input/  #将 taxi 数据导入到/input 目录中
./hdfs dfs -put /opt/newyork_taxi_2013-01_14k.meta /input/

3.导入完成后,可以使用如下命令查看

./hadoop fs -ls /input 

4.输出结果如下
在这里插入图片描述
5.也可通过访问文件系统的方式来查看,访问ip:50070(ip为Hadoop所在机器的ip),并选择刚才创建的文件夹
csv数据导入Hadoop中的HDFS_第1张图片
csv数据导入Hadoop中的HDFS_第2张图片
至此,我们已成功将csv数据导入Hadoop的HDFS中。我们后续会发布更多有关SuperMap大数据平台的专题。

你可能感兴趣的:(大数据)