hive项目开发前奏--数据清洗

从网上爬取下来的数据一定要通过mapreduce清晰后,才方便hive操作,今天对项目案例的视频数据进行清洗。

1.创建maven工程,在pom.xml配置所需的jar包


            junit
            junit
            4.12
            test
        

        
            org.apache.hadoop
            hadoop-client
            2.7.6
        

        
            org.apache.hadoop
            hadoop-yarn-server-resourcemanager
            2.7.6
        


        
            org.apache.hive
            hive-exec
            1.2.2
        

2.编写代码

hive项目开发前奏--数据清洗_第1张图片

hive项目开发前奏--数据清洗_第2张图片

hive项目开发前奏--数据清洗_第3张图片

3.打包成jar 

-P local clean package 

将打包后的文件上传到到虚拟机中,我使用的是直接在mac搭建的hadoop,hive,无需上传,为方便操作将jar文件复制到用户·目录下。

 

4.将测试数据上传到hdfs上

hdfs dfs -put ~/Desktop/youtube/ /

5.执行

bin/yarn jar ~/youtube.jar com.yc.etl.VideoETLRunner  /youtube/video/2008/0222   /youtube/output/video/2008/0222
 

6.可以到output上查看数据,按格式清洗。

这样数据的清洗工作就完成了。

 

你可能感兴趣的:(大数据)