终极菜鸡

网易云音乐用户画像大数据项目实战

之前本人整理的大多为学习笔记进行知识点的整理，而这篇将会把以前的大部分知识点串联起来，搞一个完整的项目，主要涉及的流程为模拟用户日志数据的生成，ETL以及编写sql分析函数进行最终的APP层数据的生成，由于该项目之前有做过，因此本次会在以前基础上做一些改进，将大数据组件的选型由原来的Hive变为Hive + Spark，提高计算速度，好，现在我们正式开始！

1. 项目整体框架

本人使用的集成开发环境仍然为IntelliJ IDEA，项目的Module取名为"music164"，项目的代码所在文件夹以及资源文件夹截图如下所示：

其中项目的pom文件的依赖导入如下所示，同时，由于项目中还涉及到部分scala代码，因此在一开始添加框架支持时不要忘了添加scala插件：

xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0modelVersion>

    <groupId>com.oldboygroupId>
    <artifactId>music164artifactId>
    <version>1.0-SNAPSHOTversion>
    <build>
        <plugins>
            <plugin>
                <groupId>org.apache.maven.pluginsgroupId>
                <artifactId>maven-compiler-pluginartifactId>
                <configuration>
                    <source>6source>
                    <target>6target>
                configuration>
            plugin>
        plugins>
    build>

    <dependencies>
        <dependency>
            <groupId>junitgroupId>
            <artifactId>junitartifactId>
            <version>4.12version>
        dependency>
        <dependency>
            <groupId>com.alibabagroupId>
            <artifactId>fastjsonartifactId>
            <version>1.2.54version>
        dependency>
        <dependency>
            <groupId>mysqlgroupId>
            <artifactId>mysql-connector-javaartifactId>
            <version>5.1.44version>
        dependency>
        <dependency>
            <groupId>org.apache.sparkgroupId>
            <artifactId>spark-core_2.11artifactId>
            <version>2.4.3version>
        dependency>
        <dependency>
            <groupId>org.apache.sparkgroupId>
            <artifactId>spark-sql_2.11artifactId>
            <version>2.4.3version>
        dependency>
        <dependency>
            <groupId>org.apache.sparkgroupId>
            <artifactId>spark-hive_2.11artifactId>
            <version>2.4.3version>
        dependency>
        <dependency>
            <groupId>org.apache.hivegroupId>
            <artifactId>hive-jdbcartifactId>
            <version>2.1.0version>
        dependency>
        <dependency>
            <groupId>com.maxmind.dbgroupId>
            <artifactId>maxmind-dbartifactId>
            <version>1.1.0version>
        dependency>
    dependencies>

project>

2. 项目代码细节分析

2.1 用户日志数据生成

该项目的第一步将会是生成一份模拟的用户日志数据，这里先做一个简单说明：互联网时代下，数据可谓是无处不在，而如果做一个简单分类，可将日常数据的产生大致分为这几类，客户端产生、手机移动端产生、网页产生等等，而用户无时无刻不在进行的手机屏幕点击事件最终都将变成一条条的数据发送到服务器，而服务器会进行数据的收集、处理以及分析和预测，海量数据就是这样来的，而在本项目中，我们处理的日志数据均为JSON格式的数据(Javascript object notation)，下面，我们会先说明这样的数据究竟是如何产生的

2.1.1 各类日志抽象成的java对象

AppBaseLog类：

package com.oldboy.music164.common;

import java.io.Serializable;

/**
 * 日志基础类
 */
public abstract class AppBaseLog implements Serializable {
    public static final String LOGTYPE_ERROR = "error";
    public static final String LOGTYPE_EVENT = "event";
    public static final String LOGTYPE_PAGE = "page";
    public static final String LOGTYPE_USAGE = "usage";
    public static final String LOGTYPE_STARTUP = "startup";

    private String logType;             //日志类型
    private Long createdAtMs;           //日志创建时间
    private String deviceId;            //设备唯一标识
    private String appVersion;          //App版本
    private String appChannel;          //渠道,安装时就在清单中制定了，appStore等。
    private String appPlatform;         //平台
    private String osType;              //操作系统
    private String deviceStyle;         //机型

    public String getLogType() {
        return logType;
    }

    public void setLogType(String logType) {
        this.logType = logType;
    }

    public Long getCreatedAtMs() {
        return createdAtMs;
    }

    public void setCreatedAtMs(Long createdAtMs) {
        this.createdAtMs = createdAtMs;
    }


    public String getDeviceId() {
        return deviceId;
    }

    public void setDeviceId(String deviceId) {
        this.deviceId = deviceId;
    }

    public String getAppVersion() {
        return appVersion;
    }

    public void setAppVersion(String appVersion) {
        this.appVersion = appVersion;
    }

    public String getAppChannel() {
        return appChannel;
    }

    public void setAppChannel(String appChannel) {
        this.appChannel = appChannel;
    }

    public String getAppPlatform() {
        return appPlatform;
    }

    public void setAppPlatform(String appPlatform) {
        this.appPlatform = appPlatform;
    }

    public String getOsType() {
        return osType;
    }

    public void setOsType(String osType) {
        this.osType = osType;
    }

    public String getDeviceStyle() {
        return deviceStyle;
    }

    public void setDeviceStyle(String deviceStyle) {
        this.deviceStyle = deviceStyle;
    }
}

AppErrorLog类：

package com.oldboy.music164.common;

/**
 * errorLog
 * 分析用户对手机App使用过程中的错误
 * 以便对产品进行调整
 */
public class AppErrorLog extends AppBaseLog {

    private String errorBrief;        //错误摘要
    private String errorDetail;       //错误详情


    public AppErrorLog() {
        setLogType(LOGTYPE_ERROR);
    }

    public String getErrorBrief() {
        return errorBrief;
    }

    public void setErrorBrief(String errorBrief) {
        this.errorBrief = errorBrief;
    }

    public String getErrorDetail() {
        return errorDetail;
    }

    public void setErrorDetail(String errorDetail) {
        this.errorDetail = errorDetail;
    }
}

AppEventLog类：

package com.oldboy.music164.common;

/**
 * 应用上报的事件相关信息
 */
public class AppEventLog extends AppBaseLog {


    private String eventId;         //事件唯一标识，包括用户对特定音乐的操作，比如分享，收藏，主动播放，听完，跳过，取消收藏,拉黑

    private String musicID;         //歌曲名称

    private String playTime;        //什么时刻播放
    private String duration;        //播放时长，如果播放时长在30s之内则判定为跳过
    private String mark;            //打分，分享4分,收藏3分，主动播放2分，听完1分，跳过-1分，取消收藏-3, 拉黑-5分



    public AppEventLog() {
        setLogType(LOGTYPE_EVENT);
    }

    public String getEventId() {
        return eventId;
    }

    public void setEventId(String eventId) {
        this.eventId = eventId;
    }

    public String getMusicID() {
        return musicID;
    }

    public void setMusicID(String musicID) {
        this.musicID = musicID;
    }

    public String getPlayTime() {
        return playTime;
    }

    public void setPlayTime(String playTime) {
        this.playTime = playTime;
    }

    public String getDuration() {
        return duration;
    }

    public void setDuration(String duration) {
        this.duration = duration;
    }

    public String getMark() {
        return mark;
    }

    public void setMark(String mark) {
        this.mark = mark;
    }

}

AppPageLog类：

package com.oldboy.music164.common;

/**
 * 应用上报的页面相关信息
 */
public class AppPageLog extends AppBaseLog {

    /*
     * 一次启动中的页面访问次数(应保证每次启动的所有页面日志在一次上报中，即最后一条上报的页面记录的nextPage为空)
     */
    private int pageViewCntInSession = 0;

    private String pageId;          //页面id
    private String visitIndex;      //访问顺序号，0为第一个页面
    private String nextPage;        //下一个访问页面，如为空则表示为退出应用的页面
    private String stayDurationSecs;  //当前页面停留时长

    public AppPageLog() {
        setLogType(LOGTYPE_PAGE);
    }

    public int getPageViewCntInSession() {
        return pageViewCntInSession;
    }

    public void setPageViewCntInSession(int pageViewCntInSession) {
        this.pageViewCntInSession = pageViewCntInSession;
    }

    public String getPageId() {
        return pageId;
    }

    public void setPageId(String pageId) {
        this.pageId = pageId;
    }

    public String getNextPage() {
        return nextPage;
    }

    public void setNextPage(String nextPage) {
        this.nextPage = nextPage;
    }

    public String getVisitIndex() {
        return visitIndex;
    }

    public void setVisitIndex(String visitIndex) {
        this.visitIndex = visitIndex;
    }

    public String getStayDurationSecs() {
        return stayDurationSecs;
    }

    public void setStayDurationSecs(String stayDurationSecs) {
        this.stayDurationSecs = stayDurationSecs;
    }
}

AppStartupLog类：

package com.oldboy.music164.common;

/**
 * 启动日志
 */
public class AppStartupLog extends AppBaseLog {
    private String country;                 //国家，终端不用上报，服务器自动填充该属性，通过GeoLite
    private String province;                //省份，终端不用上报，服务器自动填充该属性
    private String ipAddress;               //ip地址

    private String network;                 //网络
    private String carrier;                 //运营商

    private String brand;                   //品牌
    private String screenSize;              //分辨率

    public AppStartupLog() {
        setLogType(LOGTYPE_STARTUP);
    }

    public String getCountry() {
        return country;
    }

    public void setCountry(String country) {
        this.country = country;
    }

    public String getProvince() {
        return province;
    }

    public void setProvince(String province) {
        this.province = province;
    }

    public String getIpAddress() {
        return ipAddress;
    }

    public void setIpAddress(String ipAddress) {
        this.ipAddress = ipAddress;
    }

    public String getNetwork() {
        return network;
    }

    public void setNetwork(String network) {
        this.network = network;
    }

    public String getCarrier() {
        return carrier;
    }

    public void setCarrier(String carrier) {
        this.carrier = carrier;
    }

    public String getBrand() {
        return brand;
    }

    public void setBrand(String brand) {
        this.brand = brand;
    }

    public String getScreenSize() {
        return screenSize;
    }

    public void setScreenSize(String screenSize) {
        this.screenSize = screenSize;
    }

}

AppUsageLog类：

package com.oldboy.music164.common;

/**
 * 应用上报的使用时长相关信息
 */
public class AppUsageLog extends AppBaseLog {

    private String singleUseDurationSecs;        //单次使用时长(秒数),指一次启动内应用在前台的持续时长
    private String singleUploadTraffic;          //单次使用过程中的上传流量
    private String singleDownloadTraffic;        //单次使用过程中的下载流量

    public AppUsageLog() {
        setLogType(LOGTYPE_USAGE);
    }

    public String getSingleUseDurationSecs() {
        return singleUseDurationSecs;
    }

    public void setSingleUseDurationSecs(String singleUseDurationSecs) {
        this.singleUseDurationSecs = singleUseDurationSecs;
    }

    public String getSingleUploadTraffic() {
        return singleUploadTraffic;
    }

    public void setSingleUploadTraffic(String singleUploadTraffic) {
        this.singleUploadTraffic = singleUploadTraffic;
    }

    public String getSingleDownloadTraffic() {
        return singleDownloadTraffic;
    }

    public void setSingleDownloadTraffic(String singleDownloadTraffic) {
        this.singleDownloadTraffic = singleDownloadTraffic;
    }
}

AppLogAggEntity类：

简单说明：该类实际上相当于一个聚合体，将所有类型的日志归纳到了一个类中去了，既包含基础信息，又包含各类的以数组形式出现的其他App类

package com.oldboy.music164.common;

import java.util.List;

/**
 * App日志聚合体,phone端程序上报日志使用
 */
public class AppLogAggEntity {
    private String deviceId;            //设备唯一标识
    private String appVersion;            //版本
    private String appChannel;            //渠道,安装时就在清单中制定了，appStore等。
    private String appPlatform;            //平台
    private String osType;                //操作系统
    private String deviceStyle;            //机型

    private List appStartupLogs;            //启动相关信息的数组
    private List appPageLogs;                //页面跳转相关信息的数组
    private List appEventLogs;            //事件相关信息的数组
    private List appUsageLogs;            //app使用情况相关信息的数组
    private List appErrorLogs;            //错误相关信息的数组


    public String getDeviceId() {
        return deviceId;
    }

    public void setDeviceId(String deviceId) {
        this.deviceId = deviceId;
    }

    public String getAppVersion() {
        return appVersion;
    }

    public void setAppVersion(String appVersion) {
        this.appVersion = appVersion;
    }

    public String getAppChannel() {
        return appChannel;
    }

    public void setAppChannel(String appChannel) {
        this.appChannel = appChannel;
    }

    public String getAppPlatform() {
        return appPlatform;
    }

    public void setAppPlatform(String appPlatform) {
        this.appPlatform = appPlatform;
    }

    public String getOsType() {
        return osType;
    }

    public void setOsType(String osType) {
        this.osType = osType;
    }

    public String getDeviceStyle() {
        return deviceStyle;
    }

    public void setDeviceStyle(String deviceStyle) {
        this.deviceStyle = deviceStyle;
    }

    public List getAppStartupLogs() {
        return appStartupLogs;
    }

    public void setAppStartupLogs(List appStartupLogs) {
        this.appStartupLogs = appStartupLogs;
    }

    public List getAppPageLogs() {
        return appPageLogs;
    }

    public void setAppPageLogs(List appPageLogs) {
        this.appPageLogs = appPageLogs;
    }

    public List getAppEventLogs() {
        return appEventLogs;
    }

    public void setAppEventLogs(List appEventLogs) {
        this.appEventLogs = appEventLogs;
    }

    public List getAppUsageLogs() {
        return appUsageLogs;
    }

    public void setAppUsageLogs(List appUsageLogs) {
        this.appUsageLogs = appUsageLogs;
    }

    public List getAppErrorLogs() {
        return appErrorLogs;
    }

    public void setAppErrorLogs(List appErrorLogs) {
        this.appErrorLogs = appErrorLogs;
    }
}

2.1.2 JDBC连接池类

由于在项目中，多处需要与关系型数据库进行交互，因此自定义一个JDBC连接池类将有助于优化数据库连接并且有效避免“too many connections”异常的出现，该类使用到的技术点如下：

1.java“懒汉式”单例设计模式

2.使用LinkedList作为数据库连接池技术底层实现

3.线程休眠

4.java接口的匿名内部类实现以及高级特性——callback回调机制

JDBCPool类：

package com.oldboy.music164.jdbc;

import com.oldboy.music164.constant.Constants;
import com.oldboy.music164.util.PropUtil;

import java.sql.Connection;
import java.sql.DriverManager;
import java.sql.PreparedStatement;
import java.sql.ResultSet;
import java.util.LinkedList;

public class JDBCPool {

    private static JDBCPool instance = null;

    //实现线程安全
    public static JDBCPool getInstance() {
        if (instance == null) {
            synchronized (JDBCPool.class) {
                if (instance == null) {
                    instance = new JDBCPool();
                }
            }
        }
        return instance;
    }

    //数据库连接池
    private LinkedList dataSource = new LinkedList();

    private JDBCPool() {
        int datasourceSize = PropUtil.getIntValue(Constants.DS_SIZE);
        String driver = PropUtil.getValue(Constants.JDBC_DRIVER);
        String url = PropUtil.getValue(Constants.JDBC_URL);
        String username = PropUtil.getValue(Constants.JDBC_USER);
        String password = PropUtil.getValue(Constants.JDBC_PASS);
        for (int i = 0; i < datasourceSize; i++) {
            try {
                Class.forName(driver);
                Connection conn = DriverManager.getConnection(url, username, password);
                dataSource.push(conn);
            } catch (Exception e) {
                e.printStackTrace();
            }
        }
    }

    public synchronized Connection getConnection() {
        while (dataSource.size() == 0) {
            try {
                Thread.sleep(10);
            } catch (Exception e) {
                e.printStackTrace();
            }
        }
        return dataSource.poll();
    }

    public void executeQuery(String sql, Object[] params, QueryCallback callback) {
        Connection conn = null;
        PreparedStatement ppst = null;
        ResultSet rs = null;

        try {
            conn = getConnection();
            ppst = conn.prepareStatement(sql);
            for (int i = 0; i < params.length; i++) {
                ppst.setObject(i + 1, params[i]);
            }
            rs = ppst.executeQuery();
            callback.process(rs);
        } catch (Exception e) {
            e.printStackTrace();
        }finally {
            if (conn != null){
                dataSource.push(conn);
            }
        }
    }
    public interface QueryCallback {
        void process(ResultSet rs) throws Exception;
    }
}

2.1.3 Constants常量类

Constants类：该类定义了一个常量类，将一些诸如数据库连接的驱动，表名，连接池初始化的连接数量等等设置成了一个个的常量，这样在项目进展过程中，如果一部分的配置发生了变化，就不需要每次在代码中做大量更改，而是只需要更改配置文件即可，这样增加了项目的可维护性

package com.oldboy.music164.constant;

/*
    此类的作用是用来定义一些做数据库连接的常量，而这些常量从配置文件中读取
 */

public class Constants {
    public static final String JDBC_DRIVER = "jdbc.driver";
    public static final String JDBC_URL = "jdbc.url";
    public static final String JDBC_USER = "jdbc.username";
    public static final String JDBC_PASS = "jdbc.password";
    public static final String DS_SIZE = "datasource.poolsize";
    public static final String MUSIC_TABLENAME = "music.tablename";
}

2.1.4 项目涉及到的所有工具类

DictUtil类：在资源文件夹中事先已经存入了一个数据字典，在生成数据时，成员变量的取值都会从这个数据字典中随机获取，该数据字典的格式如下所示：

DictUtil类的代码如下所示：

package com.oldboy.music164.util;
/*
    此类的作用是读取数据字典文件，并从文件中随机获取到一个值作为随机生成的数据
 */
import java.io.BufferedReader;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.util.ArrayList;
import java.util.HashMap;
import java.util.Map;
import java.util.Random;

public class DictUtil {

    //先初始化一个字典
    private static Map> map = new HashMap>();
    //将dictionary.dat中的数据加载到一个字典中去，并且只加载一次
    //因此考虑使用静态代码块的方式实现
    static {
        try {
            //使用以下固定方法来从资源文件夹中加载数据
            InputStream is = Thread.currentThread().getContextClassLoader().getResourceAsStream("dictionary.dat");
            BufferedReader br = new BufferedReader(new InputStreamReader(is));
            //以下开始将数据放入map中去
            String line = null;
            ArrayList list = null;
            while((line = br.readLine()) != null){
                if(line.startsWith("[")){
                    list = new ArrayList();
                    map.put(line.substring(1, line.length() - 1), list);
                }else{
                    list.add(line);
                }
            }
            is.close();
            br.close();
        } catch (Exception e) {
        }
    }

    //再写一个方法从字典中的一个key对应的list中获取到任意的值
    public static String getRandomValue(String key){
        Random r = new Random();
        ArrayList list = map.get(key);
        //避免出现字典中不存在的值，使用try-catch语句块
        try {
            return list.get(r.nextInt(list.size()));
        } catch (Exception e) {
            return null;
        }
    }

    //在生成音乐事件日志中需要使用到，需要区分生成喜欢的和不喜欢的音乐事件
    public static String randomValue_positive(){
        Random r = new Random();
        ArrayList values = map.get("eventid");
        if(values == null){
            return null;
        }
        //0-3
        return values.get(r.nextInt(values.size() - 4));
    }

    public static String randomValue_negative(){
        Random r = new Random();
        ArrayList values = map.get("eventid");
        if(values == null){
            return null;
        }
        //4-7
        return values.get(r.nextInt(values.size() - 4) + 4);
    }
}

GenLogTimeUtil类：由于在生成数据时需要大量使用到时间戳，因此此类中专门设定了时间戳生成的逻辑

package com.oldboy.music164.util;
/*
    此类的作用是用于随机生成一个时间戳
 */

import java.text.DecimalFormat;
import java.text.SimpleDateFormat;
import java.util.Calendar;
import java.util.Date;
import java.util.Random;

public class GenLogTimeUtil {

    //随机生成某一天的时间戳
    //如果是周中，尽量生成13-14点的时间
    //而如果是周末，就尽量生成10-11点的时间
    public static long genTime(String date){
        try {
            SimpleDateFormat sdf = new SimpleDateFormat("yyyy-MM-dd");
            Date d = sdf.parse(date);
            Calendar calendar = Calendar.getInstance();
            calendar.setTime(d);
            //获取该日期是星期几
            int i = calendar.get(Calendar.DAY_OF_WEEK);
            Random r = new Random();
            if(i == 7 || i == 1){
                return genWeekendTime(date, r.nextInt(3));
            }
            return genWeekdayTime(date, r.nextInt(3));
        } catch (Exception e) {
        }
        return 0;
    }

    //生成周末的时间戳中的时间部分
    private static long genWeekendTime(String date, int i){
        Random r = new Random();
        String hour;
        String minute;
        String newDate;
        switch (i){
            case 0:
                hour = intFormat(r.nextInt(24));
                minute = intFormat(r.nextInt(59));
                newDate = date + " " + hour + ":" + minute;
                return parseTime(newDate);
            case 1:
                hour = "10";
                minute = intFormat(r.nextInt(59));
                newDate = date + " " + hour + ":" + minute;
                return parseTime(newDate);
            case 2:
                hour = intFormat(r.nextInt(24));
                minute = intFormat(r.nextInt(59));
                newDate = date + " " + hour + ":" + minute;
                return parseTime(newDate);
        }
        return 0;
    }

    //生成周中的时间戳的时间部分
    private static long genWeekdayTime(String date, int i){
        Random r = new Random();
        String hour;
        String minute;
        String newDate;
        switch (i){
            case 0:
                hour = intFormat(r.nextInt(24));
                minute = intFormat(r.nextInt(59));
                newDate = date + " " + hour + ":" + minute;
                return parseTime(newDate);
            case 1:
                hour = "13";
                minute = intFormat(r.nextInt(59));
                newDate = date + " " + hour + ":" + minute;
                return parseTime(newDate);
            case 2:
                hour = intFormat(r.nextInt(24));
                minute = intFormat(r.nextInt(59));
                newDate = date + " " + hour + ":" + minute;
                return parseTime(newDate);
        }
        return 0;
    }

    //将一个时间串转化为时间戳
    private static long parseTime(String newDate){
        try {
            SimpleDateFormat sdf = new SimpleDateFormat("yyyy-MM-dd HH:mm");
            Date date = sdf.parse(newDate);
            return date.getTime();
        } catch (Exception e) {
        }
        return 0;
    }

    //将一个数字转换成00的格式
    private static String intFormat(int i){
        DecimalFormat df = new DecimalFormat("00");
        return df.format(i);
    }
}

MusicTableUtil类：

package com.oldboy.music164.util;
/*
    此类的作用很简单，就是将所有不同种类的音乐用数字映射出来
 */

public class MusicTableUtil {

    public static String parseTable(int type){
        switch (type) {
            case 1:
                return "music_mix";     //流行歌曲
            case 2:
                return "music_folk";    //民谣
            case 3:
                return "music_custom";  //古风
            case 4:
                return "music_old";     //老歌
            case 5:
                return "music_rock1";   //欧美摇滚
            case 6:
                return "music_rock2";   //国与摇滚
            case 7:
                return "music_comic";   //二次元
            case 8:
                return "music_yueyu";   //粤语
            case 9:
                return "music_light";   //轻音乐
            default:
                try {
                    throw new Exception("参数必须为1-9");
                } catch (Exception e) {
                    e.printStackTrace();
                }
                break;
        }
        return null;
    }
}

MusicUtil类：

package com.oldboy.music164.util;

/*
    此类的作用是连接mysql数据库，并将对应的信息存放在Map中去
 */

import com.oldboy.music164.constant.Constants;
import com.oldboy.music164.jdbc.JDBCPool;

import java.sql.ResultSet;
import java.util.ArrayList;
import java.util.HashMap;
import java.util.List;
import java.util.Map;

public class MusicUtil {

    public static final Map>>  MUSIC_MAP_LIST = new HashMap>>();

    //初始化时候，将所有Music信息放在一个Map中
    static {

        JDBCPool pool = JDBCPool.getInstance();
        Object[] objs = {};
        String tablenames = PropUtil.getValue(Constants.MUSIC_TABLENAME);
        String[] tablenameArr = tablenames.split(",");
        for (String tablename : tablenameArr) {
            final List> list = new ArrayList>();
            pool.executeQuery("select mname,mtime from " + tablename, objs, new JDBCPool.QueryCallback() {
                @Override
                public void process(ResultSet rs) throws Exception {
                    while (rs.next()) {
                        Map map = new HashMap();
                        map.put("mname", rs.getString("mname"));
                        map.put("mtime", rs.getString("mtime"));
                        list.add(map);
                    }
                }
            });
            MUSIC_MAP_LIST.put(tablename,list);
        }
    }

    public static final Map MARK_MAPPING = new HashMap();
    static {
        MARK_MAPPING.put("share", "4");
        MARK_MAPPING.put("favourite", "3");
        MARK_MAPPING.put("play", "2");
        MARK_MAPPING.put("listen", "1");
        MARK_MAPPING.put("skip", "-1");
        MARK_MAPPING.put("black", "-5");
        MARK_MAPPING.put("nofavourite", "-3");
        MARK_MAPPING.put("null", "0");
    }
}

ParseIPUtil类：需要注意的是，由于该类需要使用到解析IP的功能，因此需要从外部导入包com.maxmind.db

package com.oldboy.music164.util;

/*
    此类的作用是从一个给定的IP地址解析出国家和省份信息
 */

import com.fasterxml.jackson.databind.JsonNode;
import com.maxmind.db.Reader;

import java.io.InputStream;
import java.net.InetAddress;
import java.util.HashMap;
import java.util.Map;

public class ParseIPUtil {

    private static Reader reader;
    private static Map map = new HashMap();

    static {
        try {
            InputStream is = Thread.currentThread().getContextClassLoader().getResourceAsStream("GeoLite2-City.mmdb");
            reader = new Reader(is);
        } catch (Exception e) {
        }
    }

    private static String processIp(String ip){
        try {
            //其中，"country"代表国家，而"subdivisions"代表省份
            JsonNode jsonNode = reader.get(InetAddress.getByName(ip));
            String country = jsonNode.get("country").get("names").get("zh-CN").asText();
            String province = jsonNode.get("subdivisions").get(0).get("names").get("zh-CN").asText();
            map.put(ip,country+","+province);
        } catch (Exception e) {
            map.put(ip,"unknown,unknown");
        }
        return map.get(ip);
    }

    public static String getCountry(String ip){
        return processIp(ip).split(",")[0];
    }

    public static String getProvince(String ip){
        return processIp(ip).split(",")[1];
    }
}

PropUtil类：

package com.oldboy.music164.util;

/*
    此类的作用是从配置文件中获取到连接数据库所需要用到的字符串
 */

import java.io.InputStream;
import java.util.Properties;

public class PropUtil {

    private static Properties prop;

    static {
        try {
            prop = new Properties();
            InputStream is = Thread.currentThread().getContextClassLoader().getResourceAsStream("music.properties");
            prop.load(is);
        } catch (Exception e) {
        }
    }

    public static String getValue(String key){
        try {
            return prop.getProperty(key);
        } catch (Exception e) {
            return null;
        }
    }

    public static Integer getIntValue(String key){
        try {
            return Integer.parseInt(prop.getProperty(key));
        } catch (Exception e) {
            return 0;
        }
    }
}

2.1.5 正式处理业务逻辑，生成数据类

说明：由于项目需要生成大量数据，这就意味着需要给大量的字段赋值，这里使用到了java反射技术，通过反射的方式获取到所有App类的所有字段，并给字段进行赋值

GenLogUtil类：

package com.oldboy.music164.genlog;
/*
    此类用于生成日志聚合体
 */
import com.oldboy.music164.common.AppBaseLog;
import com.oldboy.music164.common.AppEventLog;
import com.oldboy.music164.util.DictUtil;
import com.oldboy.music164.util.GenLogTimeUtil;
import com.oldboy.music164.util.MusicTableUtil;
import com.oldboy.music164.util.MusicUtil;

import java.lang.reflect.Field;
import java.util.Map;
import java.util.Random;

public class GenLogUtil {

    static Random r = new Random();

    public static int type;
    public static String date;

    public GenLogUtil(String date) {
        this.date = date;
    }

    public GenLogUtil(int type, String date) {
        this.type = type;
        this.date = date;
    }

    public static  T genLog(Class clazz) throws Exception{
        T t1 = clazz.newInstance();

        //先赋值数据字典中有的那部分
        if(t1 instanceof AppBaseLog){
            Field[] fields = clazz.getDeclaredFields();
            for (Field field : fields) {
                //这里需要加一个判断，只有是字符串才给字段赋值
                if(field.getType() == String.class){
                    field.setAccessible(true);
                    field.set(t1, DictUtil.getRandomValue(field.getName().toLowerCase()));
                }
            }
            ((AppBaseLog)t1).setCreatedAtMs(GenLogTimeUtil.genTime(date));
        }

        if(t1 instanceof AppEventLog){
            AppEventLog eventLog = (AppEventLog) t1;
            //设置一个逻辑，如果是0就使用喜欢的音乐，如果是1就使用不喜欢的音乐
            switch (r.nextInt(2)) {
                case 0:
                    genPositive(eventLog);
                    break;
                case 1:
                    genNegative(eventLog);
                    break;
            }
        }
        return t1;
    }

    //生成喜欢的音乐对应的各项参数
    private static void genPositive(AppEventLog eventLog){
        String table = MusicTableUtil.parseTable(type);
        String positive = DictUtil.randomValue_positive();
        int i = r.nextInt(MusicUtil.MUSIC_MAP_LIST.get(table).size());
        Map music_time = MusicUtil.MUSIC_MAP_LIST.get(table).get(i);
        //设置歌曲名称
        eventLog.setMusicID(music_time.get("mname"));
        //设置播放时间和播放时长
        if(positive.equals("play") || positive.equals("listen")){
            eventLog.setDuration(music_time.get("mtime"));
            eventLog.setPlayTime(eventLog.getCreatedAtMs() + "");
        }
        //设置事件ID和得分
        eventLog.setEventId(positive);
        eventLog.setMark(MusicUtil.MARK_MAPPING.get(positive));
    }

    //生成不喜欢的音乐对应的各项参数
    private static void genNegative(AppEventLog eventLog){
        String table = MusicTableUtil.parseTable(type);
        //negative变量是差评的eventid
        String negative = DictUtil.randomValue_negative();
        int i = r.nextInt(MusicUtil.MUSIC_MAP_LIST.get(table).size());
        Map music_time = MusicUtil.MUSIC_MAP_LIST.get(table).get(i);
        //设置歌曲名称
        eventLog.setMusicID(music_time.get("mname"));
        //设置打分
        eventLog.setMark(MusicUtil.MARK_MAPPING.get(negative));
        //设置播放时间和播放时长
        if (negative.equals("skip")) {
            eventLog.setDuration("00:20");
            eventLog.setPlayTime(eventLog.getCreatedAtMs() + "");
        }
        eventLog.setEventId(negative);
        eventLog.setMark(MusicUtil.MARK_MAPPING.get(negative));
    }
}

GenLogAgg类：

package com.oldboy.music164.genlog;

/*
    用来测试生成日志聚合体
 */
import com.alibaba.fastjson.JSON;
import com.oldboy.music164.common.*;
import com.oldboy.music164.util.DictUtil;

import java.lang.reflect.Field;
import java.util.*;

public class GenLogAgg {

    public static String genLogAgg(int type, String deviceId, String date){
        try {
            Class clazz = AppLogAggEntity.class;
            Object t1 = clazz.newInstance();

            Field[] fields = clazz.getDeclaredFields();
            for (Field field : fields) {
                field.setAccessible(true);
                field.set(t1, DictUtil.getRandomValue(field.getName().toLowerCase()));
            }

            ((AppLogAggEntity) t1).setAppErrorLogs(genLogList(AppErrorLog.class, date, type));
            ((AppLogAggEntity) t1).setAppEventLogs(genLogList(AppEventLog.class, date, type));
            ((AppLogAggEntity) t1).setAppPageLogs(genLogList(AppPageLog.class, date, type));
            ((AppLogAggEntity) t1).setAppStartupLogs(genLogList(AppStartupLog.class, date, type));
            ((AppLogAggEntity) t1).setAppUsageLogs(genLogList(AppUsageLog.class, date, type));

            ((AppLogAggEntity) t1).setDeviceId(deviceId);
            return JSON.toJSONString(t1,true);

        } catch (Exception e) {
        }
        return null;
    }


    public static List genLogList(Class clazz, String date, int type) throws Exception{
        List list = new ArrayList();
        Random r = new Random();
        if(clazz.equals(AppStartupLog.class)){
            for(int i = 0; i < 2; i++){
                list.add(new GenLogUtil(date).genLog(clazz));
            }
        } else if(clazz.equals(AppEventLog.class)){
            for(int i = 0; i < r.nextInt(10); i++){
                list.add(new GenLogUtil(type, date).genLog(clazz));
            }
        } else {
            for(int i = 0; i < 3; i++){
                list.add(new GenLogUtil(date).genLog(clazz));
            }
        }
        return list;
    }
}

2.1.6 发送数据代码实现

2.1.6.1 发送数据类

DataSender类：该类使用的是之前已经封装好了的功能，进行数据的生成，并且生成的时间设定为2018年12月份一整个月的数据，设定100个用户并且每个用户产生100条日志，总计300,000条日志

package com.oldboy.music164.phone;
import com.oldboy.music164.genlog.GenLogAgg;
import java.io.OutputStream;
import java.net.HttpURLConnection;
import java.net.URL;
import java.text.DecimalFormat;
/**
 * 模拟音乐手机客户端手机日志生成主类
 */
public class DataSender {

    public static void main(String[] args) throws Exception {
        DecimalFormat df = new DecimalFormat("00");
        //生成2018年12月份1号到30号的日志
        for (int i = 1; i <= 30; i++) {
            genUser(100, "2018-12-" + df.format(i), 100);
        }
    }

    /**
     * 产生指定日期的日志
     *
     * @param userNum 用户总数
     * @param date    指定日期
     * @param logNum  每个用户生成日志包数（日志包作为上传到服务端日志的最小单元）
     */

    public static void genUser(int userNum, final String date, final int logNum) {
        //产生
        for (int i = 0; i < userNum; i++) {
            DecimalFormat df = new DecimalFormat("000000");
            final String deviceID = "Device" + df.format(i);
            //表映射 eg:1 => music_mix，参见TypeUtil
            final int type = (i % 9) + 1;
            genData(deviceID, type, date, logNum);
        }
    }

    /**
     * 为指定用户，根据用户喜欢歌曲类型生成带有音乐偏好的指定数目的日志包
     *
     * @param deviceID 用户id或用户设备id
     * @param type     用户喜欢歌曲类型
     * @param date     指定日期
     * @param num      指定用户生成日志包个数
     */
    public static void genData(String deviceID, int type, String date, int num) {

        for (int i = 0; i < num; i++) {
            //生成日志工具类
            String logAgg = GenLogAgg.genLogAgg(type, deviceID, date);
            doSend(logAgg);
        }
    }

    private static void doSend(String json) {
        try {
            String strUrl = "http://s201:80";
            URL url = new URL(strUrl);
            HttpURLConnection conn = (HttpURLConnection)url.openConnection();
            //设置请求方式
            conn.setRequestMethod("POST");
            //设置可以传输数据
            conn.setDoOutput(true);
            conn.setRequestProperty("client_time",System.currentTimeMillis() +"");
            OutputStream os = conn.getOutputStream();
            os.write(json.getBytes());
            os.flush();
            os.close();
            System.out.println(conn.getResponseCode());
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

2.1.6.2 Nginx反向代理服务器搭建

本项目涉及到的主机共有5台，s201-s205，其中，发送数据时会使用到nginx搭建一个反向代理，并将s201作为反向代理服务器，将数据发送到s202-s204三台虚拟机上去，架构如下图所示：

事实上，本项目实际使用到的软件为openresty，本质上就是nginx加上了一堆插件，由于openresty是用C++写的，因此在进行该软件的安装部署时，需要进行编译，安装后，最终软件的目录是在/usr/local/openresty下

s201的配置文件如下，注意，该配置文件只需要指定upstream server即可，需要重点配置的地方为黑体加粗部分，其他地方基本不需要动，s201的nginx.conf文件如下：

worker_processes  4;

events {
    worker_connections  10240;
}

http {
    include       mime.types;
    default_type  application/octet-stream;

    sendfile        on;
    keepalive_timeout  65;
    underscores_in_headers on;
    upstream nginx_server{
        server s202:80 max_fails=2 fail_timeout=2 weight=2;
        server s203:80 max_fails=2 fail_timeout=2 weight=2;
        server s204:80 max_fails=2 fail_timeout=2 weight=2;
    }
    server {
        listen       80;
        server_name  localhost;

        #charset koi8-r;

        #access_log  logs/host.access.log  main;

        location / {
            root   html;
            index  index.html index.htm;
            proxy_pass http://nginx_server;
        }

        #error_page  404              /404.html;

        # redirect server error pages to the static page /50x.html
        #
        error_page   500 502 503 504  /50x.html;
        location = /50x.html {
            root   html;
        }

        # proxy the PHP scripts to Apache listening on 127.0.0.1:80
        #
        #location ~ \.php$ {
        #    proxy_pass   http://127.0.0.1;
        #}
    }
}

作为数据实际接收方的s202-s204的配置文件如下所示：

#user  nobody;
worker_processes  4;


events {
    worker_connections  10240;
}

http {
    include       mime.types;
    default_type  application/octet-stream;
    underscores_in_headers on;
    
    log_format main escape=json $msec#$remote_addr#$http_client_time#$status#$request_body;

    access_log  logs/access.log  main;

    sendfile        on;
    #tcp_nopush     on;

    #keepalive_timeout  0;
    keepalive_timeout  65;

    #gzip  on;

    server {
        listen       80;
        server_name  localhost;

        #charset koi8-r;

        #access_log  logs/host.access.log  main;

        location / {
            root   html;
            index  index.html index.htm;
            error_page 405 =200 $uri;
            lua_need_request_body on;
            content_by_lua 'local s = ngx.var.request_body';
        }
        
        error_page   500 502 503 504  /50x.html;
        location = /50x.html {
            root   html;
        }
    }
}

2.1.6.3 日志收集工具Flume的跃点功能实现

说明：至此，nginx反向代理生成数据已经搭建完毕，所有的数据都将会落在s202-s204的 /usr/local/openresty/nginx/logs/access.log文件中，接下去，我们将会使用到Flume作为一个日志的收集工具将所有服务器的数据统一传输到HDFS分布式文件系统上去

跃点使用时的细节说明：使用Flume将数据上传，这件事本身并不难实现，本人一开始的想法就是通过写多个配置文件，每个配置文件都指定将数据传输到HDFS的某个文件夹上去就行了，而这些文件夹将会以主机名进行命名，但是，这样势必会产生一个问题，最终我们要分析的仍然是全量数据，因此最终还是要将所有数据收集到一块儿去，如果使用这样的架构，每当我们新增一台主机，就需要重新手动进行数据的聚合，这样极大地提高了维护的成本，此问题的发生导致本人进行了一个改进，那就是使用Flume跃点技术，该技术将会使用一台机器充当一个数据的中间层收集端，所有其他机器上的数据都会统一将数据发送给它，然后由它进行最终的统一上传，这样就避免了很多维护带来的问题，中间传输过程，我们在本项目使用的是avro技术，这是一种数据的串行化系统，可以大幅缩短数据的大小以及传输时间，该架构如下图所示：

s202-s204端发送组Flume配置文件，sender.conf

a1.sources = r1
a1.sinks = k1
a1.channels = c1

# Describe/configure the source
a1.sources.r1.type = TAILDIR
a1.sources.r1.filegroups = f1
a1.sources.r1.filegroups.f1 = /usr/local/openresty/nginx/logs/access.log

# Describe the sink
a1.sinks.k1.type = avro
a1.sinks.k1.hostname = 192.168.153.205
a1.sinks.k1.port = 4444

# Use a channel which buffers events in memory
a1.channels.c1.type = memory

# Bind the source and sink to the channel
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

s205端聚合组Flume配置文件，collector.conf

a1.sources = r1
a1.sinks = k1
a1.channels = c1

# Describe/configure the source
a1.sources.r1.type = avro
a1.sources.r1.bind = 0.0.0.0
a1.sources.r1.port = 4444

# Describe the sink
a1.sinks.k1.type = hdfs
a1.sinks.k1.hdfs.path = /flume/events/%Y/%m/%d/
a1.sinks.k1.hdfs.useLocalTimeStamp = true
# 设置滚动大小
a1.sinks.k1.hdfs.rollSize = 134217728
# 文件如果未激活状态超过60s，则会自动滚动
a1.sinks.k1.hdfs.idleTimeout = 60
# 文件类型 纯文本
a1.sinks.k1.hdfs.fileType = DataStream
# 将间隔滚动设为0
a1.sinks.k1.hdfs.rollInterval = 0
# 单个文件中事件个数
a1.sinks.k1.hdfs.rollCount = 0

# Use a channel which buffers events in memory
a1.channels.c1.type = memory

# Bind the source and sink to the channel
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

2.2 项目数据仓库搭建

至此，所有模拟用户生成的原生的log日志文件已经在HDFS的/flume/events/目录下出现，并且还有更细的以年月日为基础的文件夹层次，现在开始进入到整个项目的第二阶段——ETL阶段，即将用户产生的原生数据转化成数据仓库的一张张维表，即从ods层转化为dw层，这里需要特别说明的是，在实际生产环境中，应将hive表构造成分区表，而在本项目中，为演示方便，直接加载一个月的全量数据，因此未使用分区表

ods层建表以及加载数据语句如下：

create table ODS_MUSIC_APP(line String);
load data inpath '/flume/events/2020/04/02' into table ODS_MUSIC_APP

dw层建表语句如下，使用了优化的数据格式parquet文件对数据进行列式存储，除此之外，这些DW层的表在设计时还遵循了两大原则：

1.为防止后续出现过多的无谓的连表过程，如device_id, client_ip, log_create_time等公共字段将会出现在所有的表当中

2.所有数据类型全部统一为string，这样省去了之后数据类型转换给开发带来的困扰

-- 创建dw_log_music_error表
create table DW_LOG_MUSIC_ERROR(DEVICE_ID string, DEVICE_MODEL string, CLIENT_IP string, CLIENT_TIME string, SERVER_TIME string, LOG_CREATE_TIME string, ERROR_BRIEF string, ERROR_DETAIL string, APP_VERSION string, APP_STORE string, APP_PLATFORM string, APP_OSTYPE string) row format delimited fields terminated by '\t' lines terminated by '\n' stored as parquet;
-- 创建dw_log_music_event表
create table DW_LOG_MUSIC_EVENT(DEVICE_ID string, DEVICE_MODEL string, CLIENT_IP string, CLIENT_TIME string, SERVER_TIME string, LOG_CREATE_TIME string, EVENT_TYPE string, EVENT_MARK string, EVENT_MUSIC string, EVENT_PLAYTIME string, EVENT_DURATION string, APP_VERSION string, APP_STORE string, APP_PLATFORM string, APP_OSTYPE string) row format delimited fields terminated by '\t' lines terminated by '\n' stored as parquet;
-- 创建dw_log_music_page表
create table DW_LOG_MUSIC_PAGE(DEVICE_ID string, DEVICE_MODEL string, CLIENT_IP string, CLIENT_TIME string, SERVER_TIME string, LOG_CREATE_TIME string, PAGE_ID string, PAGE_NEXT string, PAGE_VIEW_CNT string, PAGE_DURATION string, PAGE_VISIT_INDEX string, APP_VERSION string, APP_STORE string, APP_PLATFORM string, APP_OSTYPE string) row format delimited fields terminated by '\t' lines terminated by '\n' stored as parquet;
-- 创建dw_log_music_startup表
create table DW_LOG_MUSIC_STARTUP(DEVICE_ID string, DEVICE_BRAND string, DEVICE_MODEL string, DEVICE_SCREENSIZE string, DEVICE_CARRIER string, CLIENT_IP string, CLIENT_COUNTRY string, CLIENT_PROVINCE string, CLIENT_TIME string, SERVER_TIME string, LOG_CREATE_TIME string, CLIENT_NETWORK string, APP_VERSION string, APP_STORE string, APP_PLATFORM string, APP_OSTYPE string) row format delimited fields terminated by '\t' lines terminated by '\n' stored as parquet;
- 创建dw_log_music_usage表
create table DW_LOG_MUSIC_USAGE(DEVICE_ID string, DEVICE_MODEL string, CLIENT_IP string, CLIENT_TIME string, SERVER_TIME string, LOG_CREATE_TIME string, APP_VERSION string, APP_STORE string, APP_PLATFORM string, APP_OSTYPE string, ONCE_USE_DURATION string, ONCE_UPLOAD_TRAFFIC string, ONCE_DOWNLOAD_TRAFFIC string) row format delimited fields terminated by '\t' lines terminated by '\n' stored as parquet;

至此，原表以及目标表都已经创建完成，之后我们只需要集中精力完成数据的ETL过程即可，注意，在此过程中会涉及到JSON串的解析，因此需要导入阿里的fast json包，并注意将其放入spark的lib文件夹下(第三方包)

ETL过程思路详解：本人在第一次做这个项目时，仅仅使用了hive，当时java频繁gc导致出现了OOM以及速度慢等问题，因此本次进行升级，改用hive + spark这样的架构，更为稳定，也提升了速度，我们的思路是直接使用spark读取HDFS文件并将其转化为rdd，再使用scala的隐式转换包将rdd转化为Dataframe，最后通过spark sql完成整个过程；而在使用fastjson解析日志时，则将日志的层次结构划分成了0、1、2这三个层级，并将这些层级结构记录在了mysql的table_shadow数据库中，建库建表语句如下所示：

/*
 Navicat Premium Data Transfer

 Source Server         : big13
 Source Server Type    : MySQL
 Source Server Version : 50724
 Source Host           : localhost:3306
 Source Schema         : table_shadow

 Target Server Type    : MySQL
 Target Server Version : 50724
 File Encoding         : 65001

 Date: 15/01/2019 18:10:52
*/

SET NAMES utf8mb4;
SET FOREIGN_KEY_CHECKS = 0;

-- create the database
create database table_shadow;

-- ----------------------------
-- Table structure for music_log_error
-- ----------------------------
DROP TABLE IF EXISTS `music_log_error`;
CREATE TABLE `music_log_error`  (
  `id` int(10) NOT NULL AUTO_INCREMENT,
  `table_key` varchar(255) CHARACTER SET utf8 COLLATE utf8_general_ci NOT NULL,
  `key` varchar(255) CHARACTER SET utf8 COLLATE utf8_general_ci NOT NULL,
  `type` int(10) NOT NULL COMMENT 'key在日志串中的位置，client_time#{appErrorLogs:{errorBrief:xxx}}#',
  PRIMARY KEY (`id`) USING BTREE
) ENGINE = InnoDB AUTO_INCREMENT = 13 CHARACTER SET = utf8 COLLATE = utf8_general_ci ROW_FORMAT = Dynamic;

-- ----------------------------
-- Records of music_log_error
-- ----------------------------
INSERT INTO `music_log_error` VALUES (1, 'appErrorLogs', 'deviceId', 1);
INSERT INTO `music_log_error` VALUES (2, 'appErrorLogs', 'deviceStyle', 1);
INSERT INTO `music_log_error` VALUES (3, 'appErrorLogs', 'remote_addr', 0);
INSERT INTO `music_log_error` VALUES (4, 'appErrorLogs', 'http_client_time', 0);
INSERT INTO `music_log_error` VALUES (5, 'appErrorLogs', 'msec', 0);
INSERT INTO `music_log_error` VALUES (6, 'appErrorLogs', 'createdAtMs', 2);
INSERT INTO `music_log_error` VALUES (7, 'appErrorLogs', 'errorBrief', 2);
INSERT INTO `music_log_error` VALUES (8, 'appErrorLogs', 'errorDetail', 2);
INSERT INTO `music_log_error` VALUES (9, 'appErrorLogs', 'appVersion', 1);
INSERT INTO `music_log_error` VALUES (10, 'appErrorLogs', 'appChannel', 1);
INSERT INTO `music_log_error` VALUES (11, 'appErrorLogs', 'appPlatform', 1);
INSERT INTO `music_log_error` VALUES (12, 'appErrorLogs', 'osType', 1);

-- ----------------------------
-- Table structure for music_log_event
-- ----------------------------
DROP TABLE IF EXISTS `music_log_event`;
CREATE TABLE `music_log_event`  (
  `id` int(10) NOT NULL AUTO_INCREMENT,
  `table_key` varchar(255) CHARACTER SET utf8 COLLATE utf8_general_ci NOT NULL,
  `key` varchar(255) CHARACTER SET utf8 COLLATE utf8_general_ci NOT NULL,
  `type` int(10) NOT NULL COMMENT 'key在日志串中的位置，client_time#{appErrorLogs:{errorBrief:xxx}}#',
  PRIMARY KEY (`id`) USING BTREE
) ENGINE = InnoDB AUTO_INCREMENT = 16 CHARACTER SET = utf8 COLLATE = utf8_general_ci ROW_FORMAT = Dynamic;

-- ----------------------------
-- Records of music_log_event
-- ----------------------------
INSERT INTO `music_log_event` VALUES (1, 'appEventLogs', 'deviceId', 1);
INSERT INTO `music_log_event` VALUES (2, 'appEventLogs', 'deviceStyle', 1);
INSERT INTO `music_log_event` VALUES (3, 'appEventLogs', 'remote_addr', 0);
INSERT INTO `music_log_event` VALUES (4, 'appEventLogs', 'http_client_time', 0);
INSERT INTO `music_log_event` VALUES (5, 'appEventLogs', 'msec', 0);
INSERT INTO `music_log_event` VALUES (6, 'appEventLogs', 'createdAtMs', 2);
INSERT INTO `music_log_event` VALUES (7, 'appEventLogs', 'eventId', 2);
INSERT INTO `music_log_event` VALUES (8, 'appEventLogs', 'mark', 2);
INSERT INTO `music_log_event` VALUES (9, 'appEventLogs', 'musicID', 2);
INSERT INTO `music_log_event` VALUES (10, 'appEventLogs', 'playTime', 2);
INSERT INTO `music_log_event` VALUES (11, 'appEventLogs', 'duration', 2);
INSERT INTO `music_log_event` VALUES (12, 'appEventLogs', 'appVersion', 1);
INSERT INTO `music_log_event` VALUES (13, 'appEventLogs', 'appChannel', 1);
INSERT INTO `music_log_event` VALUES (14, 'appEventLogs', 'appPlatform', 1);
INSERT INTO `music_log_event` VALUES (15, 'appEventLogs', 'osType', 1);

-- ----------------------------
-- Table structure for music_log_page
-- ----------------------------
DROP TABLE IF EXISTS `music_log_page`;
CREATE TABLE `music_log_page`  (
  `id` int(10) NOT NULL AUTO_INCREMENT,
  `table_key` varchar(255) CHARACTER SET utf8 COLLATE utf8_general_ci NOT NULL,
  `key` varchar(255) CHARACTER SET utf8 COLLATE utf8_general_ci NOT NULL,
  `type` int(10) NOT NULL COMMENT 'key在日志串中的位置，client_time#{appErrorLogs:{errorBrief:xxx}}#',
  PRIMARY KEY (`id`) USING BTREE
) ENGINE = InnoDB AUTO_INCREMENT = 16 CHARACTER SET = utf8 COLLATE = utf8_general_ci ROW_FORMAT = Dynamic;

-- ----------------------------
-- Records of music_log_page
-- ----------------------------
INSERT INTO `music_log_page` VALUES (1, 'appPageLogs', 'deviceId', 1);
INSERT INTO `music_log_page` VALUES (2, 'appPageLogs', 'deviceStyle', 1);
INSERT INTO `music_log_page` VALUES (3, 'appPageLogs', 'remote_addr', 0);
INSERT INTO `music_log_page` VALUES (4, 'appPageLogs', 'http_client_time', 0);
INSERT INTO `music_log_page` VALUES (5, 'appPageLogs', 'msec', 0);
INSERT INTO `music_log_page` VALUES (6, 'appPageLogs', 'createdAtMs', 2);
INSERT INTO `music_log_page` VALUES (7, 'appPageLogs', 'pageId', 2);
INSERT INTO `music_log_page` VALUES (8, 'appPageLogs', 'nextPage', 2);
INSERT INTO `music_log_page` VALUES (9, 'appPageLogs', 'pageViewCntInSession', 1);
INSERT INTO `music_log_page` VALUES (10, 'appPageLogs', 'stayDurationSecs', 1);
INSERT INTO `music_log_page` VALUES (11, 'appPageLogs', 'visitIndex', 1);
INSERT INTO `music_log_page` VALUES (12, 'appPageLogs', 'appVersion', 1);
INSERT INTO `music_log_page` VALUES (13, 'appPageLogs', 'appChannel', 1);
INSERT INTO `music_log_page` VALUES (14, 'appPageLogs', 'appPlatform', 1);
INSERT INTO `music_log_page` VALUES (15, 'appPageLogs', 'osType', 1);

-- ----------------------------
-- Table structure for music_log_startup
-- ----------------------------
DROP TABLE IF EXISTS `music_log_startup`;
CREATE TABLE `music_log_startup`  (
  `id` int(10) NOT NULL AUTO_INCREMENT,
  `table_key` varchar(255) CHARACTER SET utf8 COLLATE utf8_general_ci NOT NULL,
  `key` varchar(255) CHARACTER SET utf8 COLLATE utf8_general_ci NOT NULL,
  `type` int(10) NOT NULL COMMENT 'key在日志串中的位置，client_time#{appErrorLogs:{errorBrief:xxx}}#',
  PRIMARY KEY (`id`) USING BTREE
) ENGINE = InnoDB AUTO_INCREMENT = 18 CHARACTER SET = utf8 COLLATE = utf8_general_ci ROW_FORMAT = Dynamic;

-- ----------------------------
-- Records of music_log_startup
-- ----------------------------
INSERT INTO `music_log_startup` VALUES (1, 'appStartupLogs', 'deviceId', 1);
INSERT INTO `music_log_startup` VALUES (2, 'appStartupLogs', 'brand', 2);
INSERT INTO `music_log_startup` VALUES (3, 'appStartupLogs', 'deviceStyle', 1);
INSERT INTO `music_log_startup` VALUES (4, 'appStartupLogs', 'screenSize', 2);
INSERT INTO `music_log_startup` VALUES (5, 'appStartupLogs', 'carrier', 2);
INSERT INTO `music_log_startup` VALUES (6, 'appStartupLogs', 'remote_addr', 0);
INSERT INTO `music_log_startup` VALUES (7, 'appStartupLogs', 'country', 1);
INSERT INTO `music_log_startup` VALUES (8, 'appStartupLogs', 'province', 1);
INSERT INTO `music_log_startup` VALUES (9, 'appStartupLogs', 'http_client_time', 0);
INSERT INTO `music_log_startup` VALUES (10, 'appStartupLogs', 'msec', 0);
INSERT INTO `music_log_startup` VALUES (11, 'appStartupLogs', 'createdAtMs', 2);
INSERT INTO `music_log_startup` VALUES (12, 'appStartupLogs', 'network', 2);
INSERT INTO `music_log_startup` VALUES (13, 'appStartupLogs', 'appVersion', 1);
INSERT INTO `music_log_startup` VALUES (14, 'appStartupLogs', 'appstore', 1);
INSERT INTO `music_log_startup` VALUES (15, 'appStartupLogs', 'appPlatform', 1);
INSERT INTO `music_log_startup` VALUES (16, 'appStartupLogs', 'osType', 1);

-- ----------------------------
-- Table structure for music_log_usage
-- ----------------------------
DROP TABLE IF EXISTS `music_log_usage`;
CREATE TABLE `music_log_usage`  (
  `id` int(10) NOT NULL AUTO_INCREMENT,
  `table_key` varchar(255) CHARACTER SET utf8 COLLATE utf8_general_ci NOT NULL,
  `key` varchar(255) CHARACTER SET utf8 COLLATE utf8_general_ci NOT NULL,
  `type` int(10) NOT NULL COMMENT 'key在日志串中的位置，client_time#{appUsageLogs:{errorBrief:xxx}}#',
  PRIMARY KEY (`id`) USING BTREE
) ENGINE = InnoDB AUTO_INCREMENT = 14 CHARACTER SET = utf8 COLLATE = utf8_general_ci ROW_FORMAT = Dynamic;

-- ----------------------------
-- Records of music_log_usage
-- ----------------------------
INSERT INTO `music_log_usage` VALUES (1, 'appUsageLogs', 'deviceId', 1);
INSERT INTO `music_log_usage` VALUES (2, 'appUsageLogs', 'deviceStyle', 1);
INSERT INTO `music_log_usage` VALUES (3, 'appUsageLogs', 'remote_addr', 0);
INSERT INTO `music_log_usage` VALUES (4, 'appUsageLogs', 'http_client_time', 0);
INSERT INTO `music_log_usage` VALUES (5, 'appUsageLogs', 'msec', 0);
INSERT INTO `music_log_usage` VALUES (6, 'appUsageLogs', 'createdAtMs', 2);
INSERT INTO `music_log_usage` VALUES (7, 'appUsageLogs', 'singleDownloadTraffic', 2);
INSERT INTO `music_log_usage` VALUES (8, 'appUsageLogs', 'singleUploadTraffic', 2);
INSERT INTO `music_log_usage` VALUES (9, 'appUsageLogs', 'singleUseDurationSecs', 2);
INSERT INTO `music_log_usage` VALUES (10, 'appUsageLogs', 'appVersion', 1);
INSERT INTO `music_log_usage` VALUES (11, 'appUsageLogs', 'appChannel', 1);
INSERT INTO `music_log_usage` VALUES (12, 'appUsageLogs', 'appPlatform', 1);
INSERT INTO `music_log_usage` VALUES (13, 'appUsageLogs', 'osType', 1);

SET FOREIGN_KEY_CHECKS = 1;

最终ETL的scala代码如下所示：

package com.oldboy.music164.odsdw

/*
    此类的作用是ETL，通过解析JSON串将数据从ODS导入到DW
 */

import java.sql.DriverManager
import com.alibaba.fastjson.{JSON, JSONObject}
import com.oldboy.music164.util.ParseIPUtil
import org.apache.spark.SparkConf
import org.apache.spark.sql.SparkSession

import scala.collection.mutable.ListBuffer

object GenDW {

    def main(args: Array[String]): Unit = {
        //将HDFS文件夹下所有文件/flume/events/2020/04/02写入到Hive的所有表中去
        val conf = new SparkConf()
        conf.setAppName("spark_dw")
        conf.setMaster("spark://s201:7077")
        val spark = SparkSession.builder().config(conf).enableHiveSupport().getOrCreate()
        val rdd1 = spark.sparkContext.textFile("hdfs:///flume/events/2020/04/02")
        val tablelist = Array[String]("music_log_error", "music_log_event", "music_log_page", "music_log_startup", "music_log_usage")
        spark.sql("use music164")
        import spark.implicits._
        for(table <- tablelist){
            if(table.equals("music_log_error")){
                val df = rdd1.map(e => parseErrorLog(table, e)).toDF()
                df.createOrReplaceTempView("v1")
                spark.sql("insert into dw_log_music_error select * from v1")
            }
            if(table.equals("music_log_event")){
                val df = rdd1.map(e => parseEventLog(table, e)).toDF()
                df.createOrReplaceTempView("v1")
                spark.sql("insert into dw_log_music_event select * from v1")
            }
            if(table.equals("music_log_page")){
                val df = rdd1.map(e => parsePageLog(table, e)).toDF()
                df.createOrReplaceTempView("v1")
                spark.sql("insert into dw_log_music_page select * from v1")
            }
            if(table.equals("music_log_startup")){
                val df = rdd1.map(e => parseStartupLog(table, e)).toDF()
                df.createOrReplaceTempView("v1")
                spark.sql("insert into dw_log_music_startup select * from v1")
            }
            if(table.equals("music_log_usage")){
                val df = rdd1.map(e => parseUsageLog(table, e)).toDF()
                df.createOrReplaceTempView("v1")
                spark.sql("insert into dw_log_music_usage select * from v1")
            }
        }
    }

    def parseJson(tableName : String, line : String) : ListBuffer[String] = {
        val buf = new ListBuffer[String]
        val res = line.replaceAll("\\\\n", "").replaceAll("\\\\t", "").replaceAll("\\\\", "")
        val jsonString = res.split("#")(4)
        val jo = JSON.parseObject(jsonString)
        //单独写一个逻辑用来处理startuplog的数据
        if(tableName.equals("music_log_startup")){
            val JArray = jo.getJSONArray("appStartupLogs")
            val jo1: JSONObject = JArray.get(0).asInstanceOf[JSONObject]
            buf.append(jo.getString("deviceId"))
            buf.append(jo1.getString("brand"))
            buf.append(jo.getString("deviceStyle"))
            buf.append(jo1.getString("screenSize"))
            buf.append(jo1.getString("carrier"))
            buf.append(res.split("#")(1))
            buf.append(ParseIPUtil.getCountry(res.split("#")(1)))
            buf.append(ParseIPUtil.getProvince(res.split("#")(1)))
            buf.append(res.split("#")(2))
            buf.append(res.split("#")(0))
            buf.append(jo1.getString("createdAtMs"))
            buf.append(jo1.getString("network"))
            buf.append(jo.getString("appVersion"))
            buf.append("null")
            buf.append(jo.getString("appPlatform"))
            buf.append(jo.getString("osType"))
        }else{
            val url = "jdbc:mysql://s201:3306/table_shadow"
            val username = "root"
            val password = "root"
            val conn = DriverManager.getConnection(url, username, password)
            val stmt = conn.createStatement()
            val rs = stmt.executeQuery("select * from " + tableName)
            while (rs.next()) {
                val table_key = rs.getString("table_key")
                val field_name = rs.getString("field_name")
                val field_type = rs.getInt("field_type")
                //根据field_type所提供的层级信息来判断如何对该字符串进行截取
                if (field_type == 0) {
                    if (field_name == "msec") {
                        buf.append(res.split("#")(0))
                    }
                    if (field_name == "remote_addr") {
                        buf.append(res.split("#")(1))
                    }
                    if (field_name == "http_client_time") {
                        buf.append(res.split("#")(2))
                    }
                }
                if (field_type == 1) {
                    if(jo.getString(field_name) == null){
                        buf.append("null")
                    }else{
                        buf.append(jo.getString(field_name))
                    }
                }
                if (field_type == 2) {
                    val JArray = jo.getJSONArray(table_key)
                    if (JArray != null && JArray.size() > 0) {
                        //进行判断，只有当arr中有元素的时候，我们才进行后续操作，并且我们默认拿出第一个索引
                        //进行判断，出现null的时候用空值填充
                        val jo1: JSONObject = JArray.get(0).asInstanceOf[JSONObject]
                        if(jo1.getString(field_name) == null){
                            buf.append("null")
                        }else{
                            buf.append(jo1.getString(field_name))
                        }
                    }
                }
            }
            conn.close()
        }
        buf
    }

    //由于scala中Tuple必须先指定元组中元素的个数，因此需要定义多个函数进行转换
    def parseErrorLog(tableName : String, line : String) : Tuple12[String,String,String,String,
        String,String,String,String,String,String,String,String] = {
        val buf = parseJson(tableName, line)
        if(buf.size == 12){
            val tuple = Tuple12[String,String,String,String,String,String,String,String,String,
                String,String,String](buf(0),buf(1),buf(2),buf(3),buf(4),buf(5),buf(6),buf(7),buf(8),
                buf(9),buf(10),buf(11))
            tuple
        }else{
            val tuple = Tuple12[String,String,String,String,String,String,String,String,String,
                String,String,String]("null","null","null","null","null","null","null","null",
                "null","null","null","null")
            tuple
        }
    }

    def parseEventLog(tableName : String, line : String) : Tuple15[String,String,String,String,
        String,String,String,String,String,String,String,String,String,String,String] = {
        val buf = parseJson(tableName, line)
        if(buf.size == 15){
            val tuple = Tuple15[String,String,String,String,String,String,String,String,String,
                String,String,String,String,String,String](buf(0),buf(1),buf(2),buf(3),buf(4),buf(5),buf(6),buf(7),buf(8),
                buf(9),buf(10),buf(11),buf(12),buf(13),buf(14))
            tuple
        }else{
            val tuple = Tuple15[String,String,String,String,String,String,String,String,String,
                String,String,String,String,String,String]("null","null","null","null","null","null","null","null",
                "null","null","null","null","null","null","null")
            tuple
        }
    }

    def parsePageLog(tableName : String, line : String) : Tuple15[String,String,String,String,
        String,String,String,String,String,String,String,String,String,String,String] = {
        val buf = parseJson(tableName, line)
        if(buf.size == 15){
            val tuple = Tuple15[String,String,String,String,String,String,String,String,String,
                String,String,String,String,String,String](buf(0),buf(1),buf(2),buf(3),buf(4),buf(5),buf(6),buf(7),buf(8),
                buf(9),buf(10),buf(11),buf(12),buf(13),buf(14))
            tuple
        }else{
            val tuple = Tuple15[String,String,String,String,String,String,String,String,String,
                String,String,String,String,String,String]("null","null","null","null","null","null","null","null",
                "null","null","null","null","null","null","null")
            tuple
        }
    }

    def parseStartupLog(tableName : String, line : String) : Tuple16[String,String,String,String,
        String,String,String,String,String,String,String,String,String,String,String,String] = {
        val buf = parseJson(tableName, line)
        if(buf.size == 16){
            val tuple = Tuple16[String,String,String,String,String,String,String,String,String,
                String,String,String,String,String,String,String](buf(0),buf(1),buf(2),buf(3),buf(4),buf(5),buf(6),buf(7),buf(8),
                buf(9),buf(10),buf(11),buf(12),buf(13),buf(14),buf(15))
            tuple
        }else{
            val tuple = Tuple16[String,String,String,String,String,String,String,String,String,
                String,String,String,String,String,String,String]("null","null","null","null","null","null",
                "null","null","null","null","null","null","null","null","null","null")
            tuple
        }
    }

    def parseUsageLog(tableName : String, line : String) : Tuple13[String,String,String,String,
        String,String,String,String,String,String,String,String,String] = {
        val buf = parseJson(tableName, line)
        if(buf.size == 13){
            val tuple = Tuple13[String,String,String,String,String,String,String,String,String,
                String,String,String,String](buf(0),buf(1),buf(2),buf(3),buf(4),buf(5),buf(6),buf(7),buf(8),
                buf(9),buf(10),buf(11),buf(12))
            tuple
        }else{
            val tuple = Tuple13[String,String,String,String,String,String,String,String,String,
                String,String,String,String]("null","null","null","null","null","null","null","null",
                "null","null","null","null","null")
            tuple
        }
    }
}

除此之外，原本存放于mysql数据库的两张表user以及music也需要通过sqoop转到Hive中去，脚本如下：

sqoop import --connect jdbc:mysql://192.168.153.201:3306/big14 --username root --password root --table user --hive-import --create-hive-table --hive-table users --hive-database music164 --delete-target-dir --fields-terminated-by '\t' --lines-terminated-by '\n' -m 1
sqoop import --connect jdbc:mysql://192.168.153.201:3306/big14 --username root --password root --table music --hive-import --create-hive-table --hive-table music --hive-database music164 --delete-target-dir --fields-terminated-by '\t' --lines-terminated-by '\n' -m 1

其中，由于表格user与系统中的user表重名，为避免报错，使用如下设置，但是建议不要使用user作为自定义表名，建议更改为"users"

set hive.support.sql11.reserved.keywords = false ;

至此，DW层的所有表全部ETL完成！！！

最终使用IDEA对项目进行打包，然后使用spark-submit命令提交到集群上运行即可，提交脚本如下所示：

spark-submit --master spark://s201:7077 --class com.oldboy.music164.odsdw.GenDW /home/centos/music164.jar

2.3 APP层数据搭建——各项业务指标分析

业务需求：

1.活跃度：

计算指标是以活跃度指数计算的
计算每个用户的：播放次数 + 收藏数量 x 2 + 日均播放时长 = 活跃度指数

根据活跃度指数将所有的数值划分为10档，分数为0-100分

日均播放时长计算方式改进：正常计算该指标的方式应为先计算出一个月的某个用户的总播放时长，然后除以天数即可，然而这会导致一个问题，那就是当某用户在一个月的某几天播放时长特别高而在剩余天数里播放时长几乎为零时，他的平均值计算出来有可能是和每天播放时长都一样的用户是一样的，因此本人改进了计算方式，将播放时长的波动情况，即标准差看成是一个惩罚，将平均值除以这个标准差，这样对于每天坚持听歌的用户来说就更为公平了

2.音乐风格排行榜：

统计每个用户最喜欢的音乐风格的前十名

3.歌手榜

统计每个用户最喜欢的歌手的前十名

4.歌曲榜

统计每个用户最喜欢的歌曲的前十名

5.周中播放时刻倾向

统计周中(即周一至周五)每个用户最喜欢的播放时刻的前十名

6.周末播放时刻倾向

统计周末(即双休日)每个用户最喜欢的播放时刻的前十名

7.播放语言击败用户百分比

根据每个用户的每种播放语言统计各自超过了其他百分之多少的用户

8.付费度

统计付费用户击败其他用户的百分比

最终代码实现如下所示，其中，在从一个时间戳解析出周中还是周末中使用了spark的udf注册函数：

GenApp.scala

package com.oldboy.music164.odsdw

import java.util.{Calendar, Date}

import org.apache.spark.SparkConf
import org.apache.spark.sql.SparkSession

object GenApp {

    def main(args: Array[String]): Unit = {
        val conf = new SparkConf()
        conf.setAppName("spark_dw")
        conf.setMaster("spark://s201:7077")
        val spark = SparkSession.builder().config(conf).enableHiveSupport().getOrCreate()
        //使用spark注册周中或周末函数
        spark.udf.register("dayofweek_type", (time : Long) => {
            val d = new Date(time)
            val calendar = Calendar.getInstance()
            calendar.setTime(d)
            val i = calendar.get(Calendar.DAY_OF_WEEK)
            if(i == 1 || i == 7){
                "weekend"
            } else{
                "weekday"
            }
        })
        spark.sql("use music164")
        //1.将数据转储入活跃度统计表
        spark.sql("create table if not exists APP_ACTIVE(DEVICE_ID string,ACTIVE_LEVEL int ) stored as parquet")
        spark.sql("insert overwrite table APP_ACTIVE select device_id, if(activity = 0, 0, ntile(10)over(order by activity) * 10) as active_level from (select device_id, (play_count + fav_count * 2 + daily_avg) as activity from (select play_sum.device_id, play_count, fav_count, daily_avg from (select device_id, count(*) as play_count from dw_log_music_event where event_mark = '1' or event_mark = '2' group by device_id) play_sum full outer join (select device_id, count(*) as fav_count from dw_log_music_event where event_mark = '3' group by device_id) fav_sum on play_sum.device_id = fav_sum.device_id full outer join (select device_id, (play_avg / play_stddev) as daily_avg from (select device_id, avg(play_day_sum) as play_avg, stddev_pop(play_day_sum) as play_stddev from (select device_id, day, sum(play_time) as play_day_sum from (select device_id, from_unixtime(cast(substr(log_create_time, 1, 10) as bigint), 'dd') as day, if(event_duration = 'null', 0, cast(split(event_duration,\":\")[0] as double) + cast(split(event_duration,\":\")[1] as double) / 60) as play_time from dw_log_music_event where device_id <> 'null' and from_unixtime(cast(substr(log_create_time, 1, 10) as bigint), 'yyyy') = 2018 and from_unixtime(cast(substr(log_create_time, 1, 10) as bigint), 'MM') = 12) a group by device_id, day) b group by device_id) c) d on play_sum.device_id = d.device_id) e) f")
        //2.将数据转储入音乐风格表
        spark.sql("create table if not exists APP_MUSIC_TYPE(DEVICE_ID string,MUSIC_TYPE string,MUSIC_TYPE_COUNT int)stored as parquet")
        spark.sql("insert into APP_MUSIC_TYPE select device_id, style, count from (select device_id, style, count, row_number()over(partition by device_id order by count desc) as rank from (select device_id, style, count from (select device_id, style, count(style) as count from (select b.device_id, b.event_music, a.style from (select mname, style from music lateral view explode(split(mstyle, '\\\\|')) xxx as style) a, dw_log_music_event b where a.mname = b.event_music and b.event_mark > 0) c group by device_id, style) d order by device_id, count desc) e) f where rank < 11")
        //3.将数据转储入歌手榜
        spark.sql("create table if not exists APP_FAVOURITE_SINGER(DEVICE_ID string,MUSIC_SINGER string,SINGER_RANK string) stored as parquet")
        spark.sql("insert overwrite table APP_FAVOURITE_SINGER select device_id,msinger,SINGER_RANK from (select device_id,msinger,cnt,row_number() over(partition by device_id order by cnt desc) SINGER_RANK from (select a.device_id, b.msinger,count(*) cnt  from dw_log_music_event a join music b on  a.event_music = b.mname and event_mark in ('4','3','2','1') group by a.device_id, b.msinger) c) d where SINGER_RANK < 11")
        //4.将数据转储入歌曲榜
        spark.sql("create table if not exists APP_FAVOURITE_SONG(DEVICE_ID string,MUSIC_NAME string,MUSIC_RANK string) stored as parquet")
        spark.sql("insert overwrite table APP_FAVOURITE_SONG select DEVICE_ID,event_music,music_rank from (select DEVICE_ID, event_music, row_number()over(partition by DEVICE_ID order by count desc) as music_rank from (select DEVICE_ID, event_music, count(event_music) as count from (select DEVICE_ID, event_music from dw_log_music_event where event_mark in ('4','3','2','1') and event_music <> 'null') a group by DEVICE_ID,event_music) b) c where music_rank <11")
        //5.周中播放时刻倾向
        spark.sql("create table if not exists APP_MUSIC_PLAY_WORKTIME(DEVICE_ID string,TIME string,TIME_RANK int)stored as parquet")
        spark.sql("insert overwrite table APP_MUSIC_PLAY_WORKTIME select device_id, day_hour, count from (select device_id, day_hour, count, row_number()over(partition by device_id order by count desc) as rank from (select device_id, day_hour, count(*) as count from (select device_id, dayofweek_type(event_playtime) as day_type, from_unixtime(cast(substr(event_playtime, 1, 10) as bigint), 'HH') as day_hour from dw_log_music_event where event_playtime <> 'null') a where day_type = 'weekday' group by device_id, day_hour) b) c where rank < 11")
        //6.周末播放时刻倾向
        spark.sql("create table if not exists APP_MUSIC_PLAY_WEEKEND(DEVICE_ID string,TIME string,TIME_RANK int)stored as parquet")
        spark.sql("insert overwrite table APP_MUSIC_PLAY_WEEKEND select device_id, day_hour, count from (select device_id, day_hour, count, row_number()over(partition by device_id order by count desc) as rank from (select device_id, day_hour, count(*) as count from (select device_id, dayofweek_type(event_playtime) as day_type, from_unixtime(cast(substr(event_playtime, 1, 10) as bigint), 'HH') as day_hour from dw_log_music_event where event_playtime <> 'null') a where day_type = 'weekend' group by device_id, day_hour) b) c where rank < 11")
        //7.播放语言百分比
        spark.sql("create table if not exists APP_MUSIC_LANGUAGE_PERCENTAGE(DEVICE_ID string, MUSIC_LANGUAGE string, COUNT int, PERCENTAGE double) stored as parquet")
        spark.sql("insert overwrite table APP_MUSIC_LANGUAGE_PERCENTAGE select device_id, MUSIC_LANGUAGE, COUNT, cume_dist()over(partition by MUSIC_LANGUAGE order by COUNT) as cum from (select device_id , MUSIC_LANGUAGE,count(*) as count from (select device_id,mlanguage as MUSIC_LANGUAGE from music join dw_log_music_event where event_music = mname and event_mark in ('4','3','2','1')) a group by device_id, MUSIC_LANGUAGE) b")
        //8.付费度
        spark.sql("create table if not exists APP_MUSIC_PAY(DEVICE_ID string, PAYMENT string) stored as parquet")
        spark.sql("insert overwrite table APP_MUSIC_PAY select device_id, cume_dist()over(order by cnt)*100 from (select a.device_id, count(*) cnt  from dw_log_music_event a join music b on  a.event_music = b.mname and event_mark in ('4','3','2','1') and misfree=1 group by a.device_id ) c")
    }
}

将该应用程序提交到spark集群的脚本如下：

spark-submit --master spark://s201:7077 --class com.oldboy.music164.odsdw.GenApp /home/centos/music164.jar

最终Hive的表结构如下所示：

至此，大数据开发部分全部完成！！！接下去只需和前端开发人员对接，商讨数据可视化方案即可，由于此部分内容已经超出了本文讨论范畴，因此不再描述

3. 项目优缺点讨论

技术可以改变时间，但是技术也不是万能的，但是将合适的技术用在合适的地方就能最大化的发挥技术的优势，做项目也是一样，知道项目的优势在哪儿，劣势在哪儿，就能因地制宜，真正帮助企业解决问题，发现问题，那么接下去，本人将会罗列以下本项目的优势和劣势：

项目优势
架构优势

Flume中：

1、基于HDFS块大小，设定Flume上传单个文件大小
2、使用容灾措施，避免丢失数据
3、使用跃点，统一对数据进行上传，避免多用户写入

Hive + Spark中：

1、清晰数据结构
2、减少重复开发
3、统一数据接口
4、复杂问题简单化

5、Spark运行速度快

成本优势

开源框架降低成本

产品优势

1、将用户信息标签化
2、用于千人千面、个性化推荐、精准营销.....用户画像优势

项目劣势：

1、未能真正使用分区表，不完全是真实生产环境

2、虽然集群提交过程一切正常，Spark在IDEA运行时却时常出现初始任务资源分配不足的问题，配置文件中各项参数的设置有待提升

3、Flume使用memory channel时会有内存溢出的风险，更好的方法是使用更为稳定的file channel或是一步到位，使用kafka channel

你可能感兴趣的:(网易云音乐用户画像大数据项目实战)

nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
springboot+vue项目实战一-创建SpringBoot简单项目苹果酱0567 面试题汇总与解析 spring boot 后端 java 中间件开发语言
这段时间抽空给女朋友搭建一个个人博客，想着记录一下建站的过程，就当做笔记吧。虽然复制zjblog只要一个小时就可以搞定一个网站，或者用cms系统，三四个小时就可以做出一个前后台都有的网站，而且想做成啥样也都行。但是就是要从新做，自己做的意义不一样，更何况，俺就是专门干这个的，嘿嘿嘿要做一个网站，而且从零开始，首先呢就是技术选型了，经过一番思量决定选择-SpringBoot做后端，前端使用Vue做一
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
[转载] NoSQL简介 weixin_30325793 大数据数据库运维
摘自“百度百科”。NoSQL，泛指非关系型的数据库。随着互联网web2.0网站的兴起，传统的关系数据库在应付web2.0网站，特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不从心，暴露了很多难以克服的问题，而非关系型的数据库则由于其本身的特点得到了非常迅速的发展。NoSQL数据库的产生就是为了解决大规模数据集合多重数据种类带来的挑战，尤其是大数据应用难题。虽然NoSQL流行语
Kafka详细解析与应用分析芊言芊语 kafka 分布式
Kafka是一个开源的分布式事件流平台（EventStreamingPlatform），由LinkedIn公司最初采用Scala语言开发，并基于ZooKeeper协调管理。如今，Kafka已经被Apache基金会纳入其项目体系，广泛应用于大数据实时处理领域。Kafka凭借其高吞吐量、持久化、分布式和可靠性的特点，成为构建实时流数据管道和流处理应用程序的重要工具。Kafka架构Kafka的架构主要由
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
疫情，疫情东山草
2020年，疫情爆发，至今已近三年，反反复复，此起彼伏。不但没被消灭，还自我发展，从德尔塔到奥密克戎，与时俱进的变异着。去年11月，疫情之下，大数据800米范围内，都成为时空伴随者。“你的码儿有没有变颜色”“你绿码还是黄码”成为那段时间的流行语，当然少不了的还有全员核酸。段子手整出来一首歌：我走过你走过的路,这算不算相逢？我吹过你吹过的风，这算不算相拥？800米内我们不曾擦肩而过，你却要我14天相
在服务器计算节点中使用 jupyter Lab ranshan567 程序人生
JupyterLab是一个基于网页的交互式开发环境,用于科学计算、数据分析和机器学.jupyterlab是jupyternotebook的下一代产品,集成了更多功能,使用起来更方便.在进行数据分析及可视化时，个人电脑不能满足大数据的分析需求，就需要用到高性能计算机集群资源，然而计算机集群的计算节点往往没有联网功能，所以在计算机集群中使用jupyterLab需要进行一些配置。具体的步骤如下：
大数据真实面试题---SQL The博宇大数据面试题——SQL 大数据 mysql sql 数据库 big data
视频号数据分析组外包招聘笔试题时间限时45分钟完成。题目根据3张表表结构，写出具体求解的SQL代码（搞笑品类定义：视频分类或者视频创建者分类为“搞笑”）1、表创建语句：createtablet_user_video_action_d(dsint,user_idstring,video_idstring,action_typeint,`timestamp`bigint)rowformatdelimi
当野鸡“心理学”变成赚钱的工具 Z小姐不吐不快
今日乘车闲来无事便听起了电台（可在网易云音乐搜索「报刊选读」，点击20180212那一期），听罢，不禁感叹，怪不得「洗稿惯犯」周冲说，“与其教育傻逼，不如赚傻逼点钱。”哎，如果我没啥良心，估计也能赚这钱了。▲图片摘自六神磊磊读金庸《今儿就从头彻底扒一下周冲，看是什么成色》头痛、脚痛，不管是哪里痛，家排疗法总会告诉你，身体的每一处疼痛都喻示着你的“心事”影响身体健康，只要找出病因，无论疼痛还是癌症都
Flume：大规模日志收集与数据传输的利器傲雪凌霜，松柏长青后端大数据 flume 大数据
Flume：大规模日志收集与数据传输的利器在大数据时代，随着各类应用的不断增长，产生了海量的日志和数据。这些数据不仅对业务的健康监控至关重要，还可以通过深入分析，帮助企业做出更好的决策。那么，如何高效地收集、传输和存储这些海量数据，成为了一项重要的挑战。今天我们将深入探讨ApacheFlume，它是如何帮助我们应对这些挑战的。一、Flume概述ApacheFlume是一个分布式、可靠、可扩展的日志
云服务业界动态简报-20180128 Captain7
一、青云青云QingCloud推出深度学习平台DeepLearningonQingCloud，包含了主流的深度学习框架及数据科学工具包，通过QingCloudAppCenter一键部署交付，可以让算法工程师和数据科学家快速构建深度学习开发环境，将更多的精力放在模型和算法调优。二、腾讯云1.腾讯云正式发布腾讯专有云TCE(TencentCloudEnterprise)矩阵，涵盖企业版、大数据版、AI
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
架构评审的自动化与人工智能: 如何提高效率光剑书架上的书架构自动化人工智能运维
1.背景介绍架构评审是软件开发过程中的一个关键环节，它旨在确保软件架构的质量、可维护性和可扩展性。传统的架构评审通常是由人工进行，需要大量的时间和精力。随着大数据技术和人工智能的发展，自动化和人工智能技术已经开始应用于架构评审，从而提高评审的效率和准确性。在本文中，我们将讨论如何通过自动化和人工智能技术来提高架构评审的效率。我们将从以下几个方面进行讨论：背景介绍核心概念与联系核心算法原理和具体操作
【数字化供应链】数字化供应链架构、全景管理、全流程贯通方案数字化建设方案数字化转型数据治理主数据数据仓库供应链数字仓储智慧物流智慧仓储物流园区架构微服务数据挖掘大数据人工智能
原文《数字化供应链架构、全景管理、全流程贯通方案》PPT格式。主要从供应链管理全景、智慧供应链建设总体目标、供应链总体业务流程、供应链总体功能架构、供应链总体技术架构、供应链全流程贯通、供应链全领域管理、供应链数据数据分析、供应链决策中台等进行建设。本文仅对主要内容进行介绍。来源网络公开渠道，旨在交流学习，如有侵权联系速删，更多参考公众号：优享智库基于先进IT技术、大数据能力、物联网应用、区块链平
80 鑫_259b
科普一个谈恋爱的方法。在以前，谈恋爱千难万难，就难在对对方不知底细，不知道对方希望自己是一个怎样的人，要耗费大量的时间去试探、再磨合，往往会因为一些小事一些细节，满盘皆输。在一个信息化的时代，在一个大数据近乎变成了流行语的时代，我们要跟上时代的步伐，通过大数据，去寻找异性最希望自己展现出来的形象是什么，才可以在爱情的道路上少走弯路。那这个大数据怎么操作呢？上街发问卷？问别人的择偶标准？一来会被打死
解锁企业潜能，Vatee万腾平台引领智能新纪元自媒体经济说其他
在数字化转型的浪潮中，企业正站在一个前所未有的十字路口，面对着前所未有的机遇与挑战。解锁企业内在潜能，实现跨越式发展，已成为众多企业的共同追求。而Vatee万腾平台，作为智能科技的先锋，正以其强大的智能赋能能力，引领企业步入一个全新的智能纪元。Vatee万腾平台，是一个集成了人工智能、大数据、云计算等前沿技术的综合性智能服务平台。它不仅仅是一个技术工具，更是企业转型升级的加速器，能够深入企业运营的
释放“AI+”新质生产力，深算院如何“把大数据变小”？ YashanDB YashanDB 国产数据库数据库数据库大数据
近期，南都·湾财社推出《新质·中国造》栏目，深入千行百业，遍访湾区企业，解锁湾区新质生产力，共探高质量发展之道。本期对话深圳计算科学研究院YashanDB首席技术官陈志标，探讨国产数据库如何实现创新突围，抢抓数字经济时代的新机遇。以下是专访内容：如何应对AI时代所面临的算力挑战？南都·湾财社：数据、算力和算法是发展人工智能的三要素，深算院做了怎样的前瞻性布局？陈志标：今年，政府工作报告中首次提及开
数字化智能工厂数字化供应链架构、全景管理、全流程贯通方案数字化建设方案智能制造数字工厂制造业数字化转型工业互联网架构
随着信息技术的飞速发展，数字化转型已成为制造企业提升竞争力的关键途径。数字化智能工厂通过集成先进的物联网(IoT)、大数据、云计算、人工智能(AI)等技术，实现了生产过程的智能化、供应链管理的精准化及决策的科学化。本方案旨在构建一套完善的数字化供应链架构，实现全景管理、全流程贯通、智慧化升级，以数据为驱动，强化技术支撑与安全管理体系，推动企业向智能制造迈进。一、数字化供应链架构1.**集成化平台构
日记——我的歌单静若小猴
又到一年一度大数据汇总的时候了，听歌已经成为很多人生活里的一种乐趣。春夏秋冬，我们都有自己喜欢的歌，歌词歌曲唱出沃尔玛你的心声。还记得大学时候最喜欢听的《春天里》，我有一天单曲回放了30遍，总觉得听着仿佛看到自己声音。还有的歌，初听不知曲中意，再听已经是曲终人，听着歌流泪，听着歌入睡……还记得那些年少的故事吗，总觉得自己才是故事外的人，却不是自己已经入歌。一段时间会喜欢一个人的音乐，一段时间会沉静
Linux dmesg命令：显示开机信息 fafadsj666 linux 数据库数据挖掘机器学习大数据
通过学习《Linux启动管理》一章可以知道，在系统启动过程中，内核还会进行一次系统检测（第一次是BIOS进行加测），但是检测的过程不是没有显示在屏幕上，就是会快速的在屏幕上一闪而过那么，如果开机时来不及查看相关信息，我们是否可以在开机后查看呢？答案是肯定的，使用dmesg命令就可以。无论是系统启动过程中，还是系统运行过程中，只要是内核产生的信息，都会被存储在系统缓冲区中，已经为大家精心准备了大数据
大数据新视界 --大数据大厂之揭秘大数据时代 Excel 魔法：大厂数据分析师进阶秘籍青云交大数据新视界 Excel 数据分析函数公式数据透视表图表功能规划求解数据分析工具库大数据新视界数据库
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：Ja
大数据新视界 --大数据大厂之数据挖掘入门：用 R 语言开启数据宝藏的探索之旅青云交大数据新视界数据库大数据数据挖掘 R 语言算法案例未来趋势应用场景学习建议大数据新视界
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：Ja
高职人工智能训练师边缘计算实训室解决方案武汉唯众智创人工智能训练师边缘计算实训室人工智能训练师实训室边缘计算实训室
一、引言随着物联网（IoT）、大数据、人工智能（AI）等技术的飞速发展，计算需求日益复杂和多样化。传统的云计算模式虽在一定程度上满足了这些需求，但在处理海量数据、保障实时性与安全性、提升计算效率等方面仍面临诸多挑战。在此背景下，边缘计算作为一种新兴的计算模式应运而生，通过将计算能力推向数据生成或用户所在的网络边缘，显著降低了数据传输的延迟，提升了处理效率，并增强了数据安全性。针对高等职业院校的人工
python基于django/flask的NBA球员大数据分析与可视化python+java+node.js QQ_511008285 python django flask java spring boot 数据分析
前端开发框架:vue.js数据库mysql版本不限后端语言框架支持：1java(SSM/springboot)-idea/eclipse2.Nodejs+Vue.js-vscode3.python(flask/django)--pycharm/vscode4.php(thinkphp/laravel)-hbuilderx数据库工具：Navicat/SQLyog等都可以本文针对NBA球员的大数据进行
springmvc 下 freemarker页面枚举的遍历输出杨白白 enum freemarker
spring mvc freemarker 中遍历枚举 1枚举类型有一个本地方法叫values（），这个方法可以直接返回枚举数组。所以可以利用这个遍历。 enum public enum BooleanEnum { TRUE(Boolean.TRUE, "是"), FALSE(Boolean.FALSE, "否");
实习简要总结 byalias 工作
来白虹不知不觉中已经一个多月了，因为项目还在需求分析及项目架构阶段，自己在这段时间都是在学习相关技术知识，现在对这段时间的工作及学习情况做一个总结：（1）工作技能方面大体分为两个阶段，Java Web 基础阶段和Java EE阶段 1）Java Web阶段在这个阶段，自己主要着重学习了 JSP, Servlet, JDBC, MySQL，这些知识的核心点都过了一遍，也
Quartz——DateIntervalTrigger触发器 eksliang quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208559 一.概述 simpleTrigger 内部实现机制是通过计算间隔时间来计算下次的执行时间，这就导致他有不适合调度的定时任务。例如我们想每天的 1：00AM 执行任务，如果使用 SimpleTrigger，间隔时间就是一天。注意这里就会有一个问题，即当有 misfired 的任务并且恢复执行时，该执行时间
Unix快捷键 18289753290 unix Unix；快捷键;
复制，删除，粘贴： dd:删除光标所在的行 &nbs
获取Android设备屏幕的相关参数酷的飞上天空 android
包含屏幕的分辨率以及屏幕宽度的最大dp 高度最大dp TextView text = (TextView)findViewById(R.id.text); DisplayMetrics dm = new DisplayMetrics(); text.append("getResources().ge
要做物联网？先保护好你的数据蓝儿唯美数据
根据Beecham Research的说法，那些在行业中希望利用物联网的关键领域需要提供更好的安全性。在Beecham的物联网安全威胁图谱上，展示了那些可能产生内外部攻击并且需要通过快速发展的物联网行业加以解决的关键领域。 Beecham Research的技术主管Jon Howes说：“之所以我们目前还没有看到与物联网相关的严重安全事件，是因为目前还没有在大型客户和企业应用中进行部署，也就
Java取模（求余）运算随便小屋 java
整数之间的取模求余运算很好求，但几乎没有遇到过对负数进行取模求余，直接看下面代码： /** * * @author Logic * */ public class Test { public static void main(String[] args) { // TODO A
SQL注入介绍 aijuans sql注入
二、SQL注入范例这里我们根据用户登录页面 <form action="" > 用户名：<input type="text" name="username"><br/> 密码：<input type="password" name="passwor
优雅代码风格 aoyouzi 代码
总结了几点关于优雅代码风格的描述：代码简单：不隐藏设计者的意图，抽象干净利落，控制语句直截了当。接口清晰：类型接口表现力直白，字面表达含义，API 相互呼应以增强可测试性。依赖项少：依赖关系越少越好，依赖少证明内聚程度高，低耦合利于自动测试，便于重构。没有重复：重复代码意味着某些概念或想法没有在代码中良好的体现，及时重构消除重复。战术分层：代码分层清晰，隔离明确，
布尔数组百合不是茶 java 布尔数组
androi中提到了布尔数组; 布尔数组默认的是false, 并且只会打印false或者是true 布尔数组的例子; 根据字符数组创建布尔数组 char[] c = {'p','u','b','l','i','c'}; //根据字符数组的长度创建布尔数组的个数 boolean[] b = new bool
web.xml之welcome-file-list、error-page bijian1013 java web.xml servlet error-page
welcome-file-list 1.定义： <welcome-file-list> <welcome-file>login.jsp</welcome> </welcome-file-list> 2.作用：用来指定WEB应用首页名称。 error-page1.定义： <error-page&g
richfaces 4 fileUpload组件删除上传的文件 sunjing clear Richfaces 4 fileupload
页面代码 <h:form id="fileForm"> <rich:
技术文章备忘 bit1129 技术文章
Zookeeper http://wenku.baidu.com/view/bab171ffaef8941ea76e05b8.html http://wenku.baidu.com/link?url=8thAIwFTnPh2KL2b0p1V7XSgmF9ZEFgw4V_MkIpA9j8BX2rDQMPgK5l3wcs9oBTxeekOnm5P3BK8c6K2DWynq9nfUCkRlTt9uV
org.hibernate.hql.ast.QuerySyntaxException: unexpected token: on near line 1解决方案白糖_ Hibernate
文章摘自：http://blog.csdn.net/yangwawa19870921/article/details/7553181 在编写HQL时，可能会出现这种代码： select a.name,b.age from TableA a left join TableB b on a.id=b.id 如果这是HQL，那么这段代码就是错误的，因为HQL不支持
sqlserver按照字段内容进行排序 bozch 按照内容排序
在做项目的时候，遇到了这样的一个需求：从数据库中取出的数据集，首先要将某个数据或者多个数据按照地段内容放到前面显示，例如:从学生表中取出姓李的放到数据集的前面； select * fro
编程珠玑-第一章-位图排序 bylijinnan java 编程珠玑
import java.io.BufferedWriter; import java.io.File; import java.io.FileWriter; import java.io.IOException; import java.io.Writer; import java.util.Random; public class BitMapSearch {
Java关于==和equals chenbowen00 java
关于==和equals概念其实很简单，一个是比较内存地址是否相同，一个比较的是值内容是否相同。虽然理解上不难，但是有时存在一些理解误区，如下情况： 1、 String a = "aaa"; a=="aaa"; ==> true 2、 new String("aaa")==new String("aaa
[IT与资本]软件行业需对外界投资热情保持警惕 comsci it
我还是那个看法,软件行业需要增强内生动力,尽量依靠自有资金和营业收入来进行经营,避免在资本市场上经受各种不同类型的风险,为企业自主研发核心技术和产品提供稳定,温和的外部环境... 如果我们在自己尚未掌握核心技术之前,企图依靠上市来筹集资金,然后使劲往某个领域砸钱,然
oracle 数据块结构 daizj oracle 块数据块块结构行目录
oracle 数据块是数据库存储的最小单位，一般为操作系统块的N倍。其结构为：块头－－〉空行－－〉数据，其实际为纵行结构。块的标准大小由初始化参数DB_BLOCK_SIZE指定。具有标准大小的块称为标准块（Standard Block）。块的大小和标准块的大小不同的块叫非标准块（Nonstandard Block）。同一数据库中，Oracle9i及以上版本支持同一数据库中同时使用标
github上一些觉得对自己工作有用的项目收集 dengkane github
github上一些觉得对自己工作有用的项目收集技能类 markdown语法中文说明回到顶部全文检索 elasticsearch bigdesk elasticsearch管理插件回到顶部 nosql mapdb 支持亿级别map, list, 支持事务. 可考虑做为缓存使用 C
初二上学期难记单词二 dcj3sjt126com english word
dangerous 危险的 panda 熊猫 lion 狮子 elephant 象 monkey 猴子 tiger 老虎 deer 鹿 snake 蛇 rabbit 兔子 duck 鸭 horse 马 forest 森林 fall 跌倒；落下 climb 爬；攀登 finish 完成；结束 cinema 电影院；电影 seafood 海鲜；海产食品 bank 银行
8、mysql外键(FOREIGN KEY)的简单使用 dcj3sjt126com mysql
一、基本概念 1、MySQL中“键”和“索引”的定义相同，所以外键和主键一样也是索引的一种。不同的是MySQL会自动为所有表的主键进行索引，但是外键字段必须由用户进行明确的索引。用于外键关系的字段必须在所有的参照表中进行明确地索引，InnoDB不能自动地创建索引。 2、外键可以是一对一的，一个表的记录只能与另一个表的一条记录连接，或者是一对多的，一个表的记录与另一个表的多条记录连接。 3、如
java循环标签 Foreach shuizhaosi888 标签 java循环 foreach
1. 简单的for循环 public static void main(String[] args) { for (int i = 1, y = i + 10; i < 5 && y < 12; i++, y = i * 2) { System.err.println("i=" + i + " y="
Spring Security（05）——异常信息本地化 234390216 exception Spring Security 异常信息本地化
异常信息本地化 Spring Security支持将展现给终端用户看的异常信息本地化，这些信息包括认证失败、访问被拒绝等。而对于展现给开发者看的异常信息和日志信息（如配置错误）则是不能够进行本地化的，它们是以英文硬编码在Spring Security的代码中的。在Spring-Security-core-x
DUBBO架构服务端告警Failed to send message Response javamingtingzhao 架构 DUBBO
废话不多说，警告日志如下，不知道有哪位遇到过，此异常在服务端抛出(服务器启动第一次运行会有这个警告)，后续运行没问题，找了好久真心不知道哪里错了。 WARN 2015-07-18 22:31:15,272 com.alibaba.dubbo.remoting.transport.dispatcher.ChannelEventRunnable.run(84)
JS中Date对象中几个用法 leeqq JavaScript Date 最后一天
近来工作中遇到这样的两个需求 1. 给个Date对象，找出该时间所在月的第一天和最后一天 2. 给个Date对象，找出该时间所在周的第一天和最后一天需求1中的找月第一天很简单，我记得api中有setDate方法可以使用使用setDate方法前，先看看getDate var date = new Date(); console.log(date); // Sat J
MFC中使用ado技术操作数据库你不认识的休道人 sql mfc
1.在stdafx.h中导入ado动态链接库 #import"C:\Program Files\Common Files\System\ado\msado15.dll" no_namespace rename("EOF","end")2.在CTestApp文件的InitInstance()函数中domodal之前写::CoIniti
Android Studio加速 rensanning android studio
Android Studio慢、吃内存！启动时后会立即通过Gradle来sync & build工程。（1）设置Android Studio a) 禁用插件 File -> Settings... Plugins 去掉一些没有用的插件。比如：Git Integration、GitHub、Google Cloud Testing、Google Cloud
各数据库的批量Update操作 tomcat_oracle java oracle sql mysql sqlite
MyBatis的update元素的用法与insert元素基本相同，因此本篇不打算重复了。本篇仅记录批量update操作的 sql语句，懂得SQL语句，那么MyBatis部分的操作就简单了。　　注意：下列批量更新语句都是作为一个事务整体执行，要不全部成功，要不全部回滚。 MSSQL的SQL语句　WITH R AS（　　SELECT 'John' as name, 18 as
html禁止清除input文本输入缓存 xp9802 input
多数浏览器默认会缓存input的值，只有使用ctl+F5强制刷新的才可以清除缓存记录。如果不想让浏览器缓存input的值，有2种方法：方法一：在不想使用缓存的input中添加 autocomplete="off"; eg: <input type="text" autocomplete="off" name