Hive项目实战系列(1) | 项目创建与上传数据

  此次博主为大家带来的是Hive项目实战系列。

目录

  • 一. 项目需求
  • 二. 项目
    • 2.1 数据结构
    • 2.2 上传数据
    • 2.3 ETL原始数据


一. 项目需求

统计谷粒影音视频网站的常规指标,各种TopN指标:

  • 1–统计视频观看数Top10
  • 2–统计视频类别热度Top10
  • 3–统计视频观看数Top20所属类别
  • 4–统计视频观看数Top50所关联视频的所属类别Rank
  • 5–统计每个类别中的视频热度Top10
  • 6–统计每个类别中视频流量Top10
  • 7–统计上传视频最多的用户Top10以及他们上传的视频
  • 8–统计每个类别视频观看数Top10

二. 项目

2.1 数据结构

  • 1. 视频表
字段 备注 详细描述
video id 视频唯一id 11位字符串
uploader 视频上传者 上传视频的用户名String
age 视频年龄 视频在平台上的整数天
category 视频类别 上传视频指定的视频分类
length 视频长度 整形数字标识的视频长度
views 观看次数 视频被浏览的次数
rate 视频评分 满分5分
Ratings 流量 视频的流量,整型数字
conments 评论数 一个视频的整数评论数
related ids 相关视频id 相关视频的id,最多20个
  • 2. 用户表
字段 备注 字段类型
uploader 上传者用户名 string
videos 上传视频数 int
friends 朋友数量 int

2.2 上传数据

  • 1. 上传到虚拟机中

Hive项目实战系列(1) | 项目创建与上传数据_第1张图片

Hive项目实战系列(1) | 项目创建与上传数据_第2张图片

  • 2. 上传到HDFS中
[bigdata@hadoop002 datas]$ hadoop fs -put guli /

Hive项目实战系列(1) | 项目创建与上传数据_第3张图片

2.3 ETL原始数据

  通过观察原始数据形式,可以发现,视频可以有多个所属分类,每个所属分类用&符号分割,且分割的两边有空格字符,同时相关视频也是可以有多个元素,多个相关视频又用“\t”进行分割。为了分析数据时方便对存在多个子元素的数据进行操作,我们首先进行数据重组清洗操作。即:将所有的类别用“&”分割,同时去掉两边空格,多个相关视频id也使用“&”进行分割。

  • 1. 先粘贴依赖创建好编程环境
    <dependencies>
        <dependency>
            <groupId>junit</groupId>
            <artifactId>junit</artifactId>
            <version>RELEASE</version>
        </dependency>
        <dependency>
            <groupId>org.apache.logging.log4j</groupId>
            <artifactId>log4j-core</artifactId>
            <version>2.8.2</version>
        </dependency>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-common</artifactId>
            <version>2.7.2</version>
        </dependency>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-client</artifactId>
            <version>2.7.2</version>
        </dependency>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-hdfs</artifactId>
            <version>2.7.2</version>
        </dependency>
        <dependency>
            <groupId>jdk.tools</groupId>
            <artifactId>jdk.tools</artifactId>
            <version>1.8</version>
            <scope>system</scope>
            <systemPath>D:/java/jdk-1.8.0/lib/tools.jar</systemPath>
        </dependency>
    </dependencies>

    <build>
        <plugins>
            <plugin>
                <artifactId>maven-compiler-plugin</artifactId>
                <version>2.3.2</version>
                <configuration>
                    <source>1.8</source>
                    <target>1.8</target>
                </configuration>
            </plugin>
            <plugin>
                <artifactId>maven-assembly-plugin </artifactId>
                <configuration>
                    <descriptorRefs>
                        <descriptorRef>jar-with-dependencies</descriptorRef>
                    </descriptorRefs>
                    <archive>
                        <manifest>
                            <mainClass>wordcount.WcDriver</mainClass>
                        </manifest>
                    </archive>
                </configuration>
                <executions>
                    <execution>
                        <id>make-assembly</id>
                        <phase>package</phase>
                        <goals>
                            <goal>single</goal>
                        </goals>
                    </execution>
                </executions>
            </plugin>
        </plugins>
    </build>
log4j.rootLogger=INFO, stdout
log4j.appender.stdout=org.apache.log4j.ConsoleAppender
log4j.appender.stdout.layout=org.apache.log4j.PatternLayout
log4j.appender.stdout.layout.ConversionPattern=%d %p [%c] - %m%n
log4j.appender.logfile=org.apache.log4j.FileAppender
log4j.appender.logfile.File=target/spring.log
log4j.appender.logfile.layout=org.apache.log4j.PatternLayout
log4j.appender.logfile.layout.ConversionPattern=%d %p [%c] - %m%n
  • 2.ETL之ETLMapper
package com.buwenbuhuo.etl;

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

public class ETLMapper extends Mapper<LongWritable, Text, Text, NullWritable> {
    private Text k = new Text();

    private StringBuilder sb = new StringBuilder();

    @Override
    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
        String line = value.toString();

        String result = handleLine(line);

        if (result == null) {
            context.getCounter("ETL", "False").increment(1);
        } else {
            context.getCounter("ETL","True").increment(1);
            k.set(result);
            context.write(k, NullWritable.get());
        }
    }

    /**
     * ETL方法,处理掉长度不够的数据,并且把数据形式做转换
     * @param line 输入的行
     * @return 处理后的行
     */
    private String handleLine(String line) {

        String[] fields = line.split("\t");
        if (fields.length < 9) {
            return null;
        }

        sb.delete(0, sb.length());

        fields[3] = fields[3].replace(" ", "");

        for (int i = 0; i < fields.length; i++) {
            if (i == fields.length - 1) {
                sb.append(fields[i]);
            } else if (i < 9) {
                sb.append(fields[i]).append("\t");
            } else {
                sb.append(fields[i]).append("&");
            }
        }

        return sb.toString();
    }
}

  • 3. ETL之ETLDriver
package com.buwenbuhuo.etl;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.IOException;

public class ETLDriver {
    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
        Job job = Job.getInstance(new Configuration());

        job.setJarByClass(ETLDriver.class);

        job.setMapperClass(com.buwenbuhuo.etl.ETLMapper.class);

        job.setNumReduceTasks(0);

        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(NullWritable.class);

        FileInputFormat.setInputPaths(job, new Path(args[0]));
        FileOutputFormat.setOutputPath(job, new Path(args[1]));

        boolean b = job.waitForCompletion(true);
        System.exit(b ? 0 : 1);
    }
}

  • 5. 打包并上传jar包
    Hive项目实战系列(1) | 项目创建与上传数据_第4张图片

Hive项目实战系列(1) | 项目创建与上传数据_第5张图片

  • 6. 执行ETL
hadoop jar /opt/software/jars/1.jar com.buwenbuhuo.etl.ETLDriver /guli/video /guli/video_etc

Hive项目实战系列(1) | 项目创建与上传数据_第6张图片
Hive项目实战系列(1) | 项目创建与上传数据_第7张图片
  我们可以看到去除了5000多条数据,保留了74万多条数据。

  下面我们看下处理过后的数据:
Hive项目实战系列(1) | 项目创建与上传数据_第8张图片
Hive项目实战系列(1) | 项目创建与上传数据_第9张图片
  这样数据看上去就没啥问题了。

现在我们所需要的原始数据就已经全部准备好了,下面我们就可以建表了。
Hive项目实战系列(1) | 项目创建与上传数据_第10张图片
好了,这次的分享到这里就结束了,下篇开始进行建表


11
   看 完 就 赞 , 养 成 习 惯 ! ! ! \color{#FF0000}{看完就赞,养成习惯!!!} ^ _ ^ ❤️ ❤️ ❤️
  码字不易,大家的支持就是我坚持下去的动力。点赞后不要忘了关注我哦!

你可能感兴趣的:(Hadoop,#,Hive)