ys4tnaf

大数据学习-离线数仓项目实战笔记（上）

1. 前置

1.1. 软件版本

产品	版本
Hadoop	2.9.2
Hive	2.3.7
Flume	1.9
DataX	3.0
Airflow	1.10
Atlas	1.2.0
Griffin	0.4.0
Impala	impala-2.3.0-cdh5.5.0
MySQL	5.7

1.2. 软件安装分布情况

服务器	linux121	linux122	linux123
Hadoop	√ namenode	√	√ seconderynamenode,resourcemanager
Hive			√
Flume			√
MySQL			√

1.3. 数据仓库命名规范

1 数据库命名
命名规则：数仓对应分层
命名示例：ods / dwd / dws/ dim / temp / ads
2 数仓各层对应数据库
ods层 -> ods_{业务线|业务项目}
dw层 -> dwd_{业务线|业务项目} + dws_{业务线|业务项目}
dim层 -> dim_维表
ads层 -> ads_{业务线|业务项目} (统计指标等)
临时数据 -> temp_{业务线|业务项目}
备注：本项目未采用
3 表命名（数据库表命名规则）
* ODS层：
命名规则：ods_{业务线|业务项目}_[数据来源类型]_{业务}
* DWD层：
命名规则：dwd_{业务线|业务项目}_{主题域}_{子业务}
* DWS层：
命名规则：dws_{业务线|业务项目}_{主题域}_{汇总相关粒度}_{汇总时间周期}
* ADS层：
命名规则：ads_{业务线|业务项目}_{统计业务}_{报表form|热门排序topN}
* DIM层：
命名规则：dim_{业务线|业务项目|pub公共}_{维度}

1.4. 目录结构

/
    - data
        - dw
            - conf 存放配置文件
            - jars 存放jar包
            - logs 存放日志文件
                - start 存放用户启动日志
                - event 存放用户行为日志
            - script 存放脚本

1.5. 系统架构逻辑

1.6. 在Hive中创建每一层的数据库

在linux121、linux123服务器启动hive metastore服务

nohup hive --service metastore &

启动hive

[root@linux123 logs]# hive

执行命令创建数据库

create database if not exists ods;
create database if not exists dwd;
create database if not exists dws;
create database if not exists ads;
create database if not exists dim;
create database if not exists tmp;

2. 会员活跃度

2.1. 计算指标

新增会员：每日新增的会员数，以设备id来计数
活跃会员：每日，每周，每月的活跃会员，只要有登录一次就算是活跃会员
会员留存：1日、2日、3日会员留存数；1日、2日、3日会员留存率

2.2. 读取日志到HDFS

2.2.1. 读取start日志

11:56:07,937 |-INFO in ch.qos.logback.classic.LoggerContext[default] - Could NOT find resource [logback-test.xml]
11:56:07,937 |-INFO in ch.qos.logback.classic.LoggerContext[default] - Could NOT find resource [logback.groovy]
11:56:07,937 |-INFO in ch.qos.logback.classic.LoggerContext[default] - Found resource [logback.xml] at [jar:file:/data/lagoudw/jars/data-generator-1.1-SNAPSHOT-jar-with-dependencies.jar!/logback.xml]
11:56:07,947 |-INFO in ch.qos.logback.core.joran.spi.ConfigurationWatchList@5c0369c4 - URL [jar:file:/data/lagoudw/jars/data-generator-1.1-SNAPSHOT-jar-with-dependencies.jar!/logback.xml] is not of type file
11:56:07,984 |-INFO in ch.qos.logback.classic.joran.action.ConfigurationAction - debug attribute not set
11:56:07,986 |-INFO in ch.qos.logback.core.joran.action.AppenderAction - About to instantiate appender of type [ch.qos.logback.core.ConsoleAppender]
11:56:07,988 |-INFO in ch.qos.logback.core.joran.action.AppenderAction - Naming appender as [STDOUT]
11:56:08,027 |-INFO in ch.qos.logback.core.joran.action.AppenderAction - About to instantiate appender of type [ch.qos.logback.core.rolling.RollingFileAppender]
11:56:08,030 |-INFO in ch.qos.logback.core.joran.action.AppenderAction - Naming appender as [FILE]
11:56:08,036 |-INFO in c.q.l.core.rolling.TimeBasedRollingPolicy@736709391 - No compression will be used
[root@linux123 start]# head -n 100 start0721.small.log   
11:56:07,937 |-INFO in ch.qos.logback.classic.LoggerContext[default] - Could NOT find resource [logback-test.xml]
11:56:07,937 |-INFO in ch.qos.logback.classic.LoggerContext[default] - Could NOT find resource [logback.groovy]
11:56:07,937 |-INFO in ch.qos.logback.classic.LoggerContext[default] - Found resource [logback.xml] at [jar:file:/data/lagoudw/jars/data-generator-1.1-SNAPSHOT-jar-with-dependencies.jar!/logback.xml]
11:56:07,947 |-INFO in ch.qos.logback.core.joran.spi.ConfigurationWatchList@5c0369c4 - URL [jar:file:/data/lagoudw/jars/data-generator-1.1-SNAPSHOT-jar-with-dependencies.jar!/logback.xml] is not of type file
11:56:07,984 |-INFO in ch.qos.logback.classic.joran.action.ConfigurationAction - debug attribute not set
11:56:07,986 |-INFO in ch.qos.logback.core.joran.action.AppenderAction - About to instantiate appender of type [ch.qos.logback.core.ConsoleAppender]
11:56:07,988 |-INFO in ch.qos.logback.core.joran.action.AppenderAction - Naming appender as [STDOUT]
11:56:08,027 |-INFO in ch.qos.logback.core.joran.action.AppenderAction - About to instantiate appender of type [ch.qos.logback.core.rolling.RollingFileAppender]
11:56:08,030 |-INFO in ch.qos.logback.core.joran.action.AppenderAction - Naming appender as [FILE]
11:56:08,036 |-INFO in c.q.l.core.rolling.TimeBasedRollingPolicy@736709391 - No compression will be used
11:56:08,037 |-INFO in c.q.l.core.rolling.TimeBasedRollingPolicy@736709391 - Will use the pattern /tmp/logs//app-%d{yyyy-MM-dd}.log for the active file
11:56:08,039 |-INFO in c.q.l.core.rolling.DefaultTimeBasedFileNamingAndTriggeringPolicy - The date pattern is 'yyyy-MM-dd' from file name pattern '/tmp/logs//app-%d{yyyy-MM-dd}.log'.
11:56:08,039 |-INFO in c.q.l.core.rolling.DefaultTimeBasedFileNamingAndTriggeringPolicy - Roll-over at midnight.
11:56:08,042 |-INFO in c.q.l.core.rolling.DefaultTimeBasedFileNamingAndTriggeringPolicy - Setting initial period to Thu Aug 20 11:56:08 CST 2020
11:56:08,046 |-INFO in ch.qos.logback.core.rolling.RollingFileAppender[FILE] - Active log file name: /tmp/logs//app-2020-08-20.log
11:56:08,046 |-INFO in ch.qos.logback.core.rolling.RollingFileAppender[FILE] - File property is set to [null]
11:56:08,046 |-INFO in ch.qos.logback.core.joran.action.AppenderAction - About to instantiate appender of type [ch.qos.logback.classic.AsyncAppender]
11:56:08,048 |-INFO in ch.qos.logback.core.joran.action.AppenderAction - Naming appender as [ASYNC_FILE]
11:56:08,049 |-INFO in ch.qos.logback.core.joran.action.AppenderRefAction - Attaching appender named [FILE] to ch.qos.logback.classic.AsyncAppender[ASYNC_FILE]
11:56:08,049 |-INFO in ch.qos.logback.classic.AsyncAppender[ASYNC_FILE] - Attaching appender named [FILE] to AsyncAppender.
11:56:08,049 |-INFO in ch.qos.logback.classic.AsyncAppender[ASYNC_FILE] - Setting discardingThreshold to 0
11:56:08,049 |-INFO in ch.qos.logback.classic.joran.action.RootLoggerAction - Setting level of ROOT logger to INFO
11:56:08,049 |-INFO in ch.qos.logback.core.joran.action.AppenderRefAction - Attaching appender named [STDOUT] to Logger[ROOT]
11:56:08,049 |-INFO in ch.qos.logback.core.joran.action.AppenderRefAction - Attaching appender named [ASYNC_FILE] to Logger[ROOT]
11:56:08,050 |-ERROR in ch.qos.logback.core.joran.action.AppenderRefAction - Could not find an appender named [error]. Did you define it below instead of above in the configuration file?
11:56:08,050 |-ERROR in ch.qos.logback.core.joran.action.AppenderRefAction - See http://logback.qos.ch/codes.html#appender_order for more details.
11:56:08,050 |-INFO in ch.qos.logback.classic.joran.action.ConfigurationAction - End of configuration.
11:56:08,050 |-INFO in ch.qos.logback.classic.joran.JoranConfigurator@d70c109 - Registering current configuration as safe fallback point

2020-08-20 11:56:08.211 [main] INFO  com.lagou.ecommerce.AppStart - {"app_active":{"name":"app_active","json":{"entry":"2","action":"0","error_code":"0"},"time":1595288248066},"attr":{"area":"三门峡","uid":"2F10092A1","app_v":"1.1.0","event_type":"common","device_id":"1FB872-9A1001","os_type":"0.97","channel":"WM","language":"chinese","brand":"xiaomi-3"}}
2020-08-20 11:56:08.213 [main] INFO  com.lagou.ecommerce.AppStart - {"app_active":{"name":"app_active","json":{"entry":"1","action":"1","error_code":"0"},"time":1595263841552},"attr":{"area":"济宁","uid":"2F10092A2","app_v":"1.1.16","event_type":"common","device_id":"1FB872-9A1002","os_type":"1.9","channel":"YR","language":"chinese","brand":"Huawei-8"}}

除了后面的格式统一的日志部分外，还有开头一些不同格式的需要过滤掉。

读取日志文件存储到HDFS

2.2.2.1. 设置taildir source

a1.sources.r1.type=TAILDIR
# 配置检查点文件的位置，检查点文件会以json格式保存已经读取的文件位置。用来解决断点续传的问题。
a1.sources.r1.positionFile=/data/dw/conf/startlog_position.json
# 配置监控路径，多个路径使用空格分隔
a1.sources.r1.filegroups=f1
# 配置具体的监控文件路径，使用绝对路径，支持正则表达式匹配
a1.sources.r1.filegroups.f1=/data/dw/logs/start/.*log

2.2.2.2. 设置HDFS sink

a1.sinks.k1.type=hdfs
a1.sinks.k1.hdfs.path=/user/data/logs/start/%Y-%m-%d/
a1.sinks.k1.hdfs.filePrefix=startlog.

# 配置文件滚动方式（文件大小32M），默认1024字节滚动一次
a1.sinks.k1.hdfs.rollSize=33554432
# 基于event的数量滚动，默认10个event滚动一次
a1.sinks.k1.hdfs.rollCount=0
# 基于时间的滚动方式，默认30秒滚动一次
a1.sinks.k1.hdfs.rollInterval=0
# 基于文件空闲时间滚动，默认0，表示禁用
a1.sinks.k1.hdfs.idleTimeout=0
# 默认值与hdfs副本数一致。设为1是为了不让Flume感知到hdfs的块复制，这样其他的滚动方式配置才不会受影响
a1.sinks.k1.hdfs.minBlockReplicas=1

# 向hdsf上刷新event的个数
a1.sinks.k1.hdfs.batchSize=100
# 使用本地时间
a1.sinks.k1.hdfs.useLocalTimeStamp=true

2.2.2.3. agent配置

a1.sources=r1
a1.channels=c1
a1.sinks=k1

# taildir source
a1.sources.r1.type=TAILDIR
# 配置检查点文件的位置，检查点文件会以json格式保存已经读取的文件位置。用来解决断点续传的问题。
a1.sources.r1.positionFile=/data/dw/conf/startlog_position.json
# 配置监控路径，多个路径使用空格分隔
a1.sources.r1.filegroups=f1
# 配置具体的监控文件路径，使用绝对路径，支持正则表达式匹配
a1.sources.r1.filegroups.f1=/data/dw/logs/start/.*log

# memory channel
a1.channels.c1.type=memory
# The maximum number of events stored in the channel
a1.channels.c1.capatity=100000
# The maximum number of events the channel will take from a source or give to a sink per transaction
a1.channels.c1.transactionCapatity=2000

# hdfs sink
a1.sinks.k1.type=hdfs
a1.sinks.k1.hdfs.path=/user/data/logs/start/%Y-%m-%d/
a1.sinks.k1.hdfs.filePrefix=startlog.
# 配置文件滚动方式（文件大小32M），默认1024字节滚动一次
a1.sinks.k1.hdfs.rollSize=33554432
# 基于event的数量滚动，默认10个event滚动一次
a1.sinks.k1.hdfs.rollCount=0
# 基于时间的滚动方式，默认30秒滚动一次
a1.sinks.k1.hdfs.rollInterval=0
# 基于文件空闲时间滚动，默认0，表示禁用
a1.sinks.k1.hdfs.idleTimeout=0
# 默认值与hdfs副本数一致。设为1是为了不让Flume感知到hdfs的块复制，这样其他的滚动方式配置才不会受影响
a1.sinks.k1.hdfs.minBlockReplicas=1

# 向hdsf上刷新event的个数
a1.sinks.k1.hdfs.batchSize=100
# 使用本地时间
a1.sinks.k1.hdfs.useLocalTimeStamp=true

# Bind the source and channel to the channel， 
# 注意sources的channels有s，而sinks的没有s
a1.sources.r1.channels=c1
a1.sinks.k1.channel=c1

2.2.2.4. 测试

启动hdfs

[root@linux121 hadoop-2.9.2]$ sbin/start-dfs.sh
[root@linux122 hadoop-2.9.2]$ sbin/start-yarn.sh

在linux123上，创建配置flume配置文件/data/dw/conf/flume-log2hdfs.conf

[root@linux123 ~]# cd /data/dw/
[root@linux123 conf]# vim flume-log2hdfs.conf

启动flume agent

flume-ng agent --conf-file /data/dw/conf/flume-log2hdfs.conf -name a1 -Dflume.root.logger=INFO,console

2.2.2.5. 优化

执行ps -ef | grep flume

会发现启动flume的时候只分配了20M的内存给flume jvm堆，这可能会引发java.lang.OutOfMemoryError: GC overhead limit exceeded的错误

因此可以在$FLUME_HOME/conf/flume-env.sh中增加以下内容，来增加分配的内存，-Xms和-Xmx最好一致，减少内存抖动带来的性能影响

export JAVA_OPTS="-Xms500m -Xmx500m" -Dcom.sun.management.jmxremote

使用以下命令启动flume来使配置文件生效

flume-ng agent --conf $FLUME_HOME/conf --conf-file /data/dw/conf/flume-log2hdfs.conf -name a1 -Dflume.root.logger=INFO,console

再次查看启动时分配的内存大小，此时变成了500M

2.2.2.6. 自定义拦截器

目前存在的问题是日志文件存放到hdfs时存放的目录是当天的时间而非日志中的时间，这是因为在flume-log2dhfs.conf文件中使用了系统时间。所以这里需要自定义拦截器来获取日志中的具体时间

日志文件json部分分析

{
    "app_active":{
        "name":"app_active",
        "json":{
            "entry":"2",
            "action":"1",
            "error_code":"0"
        },
        "time":1595461782293
    },
    "attr":{
        "area":"文登",
        "uid":"2F10092A879999",
        "app_v":"1.1.12",
        "event_type":"common",
        "device_id":"1FB872-9A100879999",
        "os_type":"0.47",
        "channel":"RA",
        "language":"chinese",
        "brand":"xiaomi-1"
    }
}

可以看到app_active.time有具体的日志产生信息

定义拦截器原理
- 自定义拦截器要集成Flume的Interceptor
- Event分为header和body（body就是数据）
- 获取header和body
- 从body中获取time，并将时间戳转换成yyyy-MM-dd格式的时间
- 将转换后的时间放到header中
自定义拦截器的实现步骤
1. 获取event的header
2. 获取event的body
3. 解析body获取json串
4. 解析json串获取time
5. 转换time从时间戳变成"yyyy-MM-dd"的字符串
6. 将转换后的字符串放到header中
7. 返回event

代码实现

maven依赖


<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0modelVersion>

    <groupId>com.catkeepergroupId>
    <artifactId>flume-interceptorsartifactId>
    <version>1.0-SNAPSHOTversion>

    <properties>
        <project.build.sourceEncoding>UTF8project.build.sourceEncoding>
    properties>
    <dependencies>
        <dependency>
            <groupId>org.apache.flumegroupId>
            <artifactId>flume-ng-coreartifactId>
            <version>1.9.0version>
            <scope>providedscope>
        dependency>
        <dependency>
            <groupId>com.alibabagroupId>
            <artifactId>fastjsonartifactId>
            <version>1.1.23version>
        dependency>
        <dependency>
            <groupId>junitgroupId>
            <artifactId>junitartifactId>
            <version>4.13version>
            <scope>testscope>
        dependency>
    dependencies>
    <build>
        <plugins>
            <plugin>
                <artifactId>maven-compiler-pluginartifactId>
                <version>2.3.2version>
                <configuration>
                    <source>1.8source>
                    <target>1.8target>
                configuration>
            plugin>
            <plugin>
                <artifactId>maven-assembly-pluginartifactId>
                <configuration>
                    <descriptorRefs>
                        <descriptorRef>jar-with-dependenciesdescriptorRef>
                    descriptorRefs>
                configuration>
                <executions>
                    <execution>
                        <id>make-assemblyid>
                        <phase>packagephase>
                        <goals>
                            <goal>singlegoal>
                        goals>
                    execution>
                executions>
            plugin>
        plugins>
    build>

project>

拦截器代码

package com.catkeeper.flume.interceptors;

import com.alibaba.fastjson.JSON;
import com.alibaba.fastjson.JSONObject;
import com.google.common.base.Strings;
import com.google.common.collect.Lists;
import org.apache.flume.Context;
import org.apache.flume.Event;
import org.apache.flume.interceptor.Interceptor;

import java.time.Instant;
import java.time.LocalDateTime;
import java.time.ZoneId;
import java.time.format.DateTimeFormatter;
import java.util.ArrayList;
import java.util.List;
import java.util.Map;

/**
 * CustomerInterceptor
 *
 * @author chenhang
 * @date 2020/12/16
 */
public class CustomerInterceptor implements Interceptor {

    private DateTimeFormatter dateTimeFormatter = DateTimeFormatter.ofPattern("yyyy-MM-dd");

    @Override
    public void initialize() {

    }

    @Override
    public Event intercept(Event event) {
        Map<String, String> headers = event.getHeaders();
        byte[] bodyBytes = event.getBody();
        String body = new String(bodyBytes);

        ArrayList<String> bodyList = Lists.newArrayList(body.split("\\s+"));
        try {
            String jsonStr = bodyList.get(6);
            if (Strings.isNullOrEmpty(jsonStr)) {
                return null;
            }
            JSONObject bodyJsonObject = JSON.parseObject(jsonStr);
            JSONObject appActiveJsonObject = bodyJsonObject.getJSONObject("app_active");
            String time = appActiveJsonObject.getString("time");

            String date = dateTimeFormatter.format(
                    LocalDateTime.ofInstant(
                            Instant.ofEpochMilli(Long.parseLong(time)), ZoneId.systemDefault()
                    )
            );
            headers.put("logTime", date);
        } catch (Exception e) {
            headers.put("logTime", "unknown");
        }

        return event;
    }

    @Override
    public List<Event> intercept(List<Event> list) {
        List<Event> result = new ArrayList<>();
        list.forEach(event -> result.add(intercept(event)));
        return result;
    }

    @Override
    public void close() {

    }

    public static class Builder implements Interceptor.Builder {

        @Override
        public Interceptor build() {
            return new CustomerInterceptor();
        }

        @Override
    public void configure(Context context) {

        }
    }
}

打包放到$FLUME_HOME/lib目录下

在flume配置文件中配置拦截器以及目录

a1.sources=r1
a1.channels=c1
a1.sinks=k1

# taildir source
a1.sources.r1.type=TAILDIR
# 配置检查点文件的位置，检查点文件会以json格式保存已经读取的文件位置。用来解决断点续传的问题。
a1.sources.r1.positionFile=/data/dw/conf/startlog_position.json
# 配置监控路径，多个路径使用空格分隔
a1.sources.r1.filegroups=f1
# 配置具体的监控文件路径，使用绝对路径，支持正则表达式匹配
a1.sources.r1.filegroups.f1=/data/dw/logs/start/.*log
# 配置拦截器
a1.sources.r1.interceptors=i1
a1.sources.r1.interceptors.type.i1=com.catkeeper.flume.interceptors.CustomerInterceptors$Builder

# memory channel
a1.channels.c1.type=memory
# The maximum number of events stored in the channel
a1.channels.c1.capatity=100000
# The maximum number of events the channel will take from a source or give to a sink per transaction
a1.channels.c1.transactionCapatity=2000

# hdfs sink
a1.sinks.k1.type=hdfs
a1.sinks.k1.hdfs.path=/user/data/logs/start/dt=%{logTime}/
a1.sinks.k1.hdfs.filePrefix=startlog
# 配置文件滚动方式（文件大小32M），默认1024字节滚动一次
a1.sinks.k1.hdfs.rollSize=33554432
# 基于event的数量滚动，默认10个event滚动一次
a1.sinks.k1.hdfs.rollCount=0
# 基于时间的滚动方式，默认30秒滚动一次
a1.sinks.k1.hdfs.rollInterval=0
# 基于文件空闲时间滚动，默认0，表示禁用
a1.sinks.k1.hdfs.idleTimeout=0
# 默认值与hdfs副本数一致。设为1是为了不让Flume感知到hdfs的块复制，这样其他的滚动方式配置才不会受影响
a1.sinks.k1.hdfs.minBlockReplicas=1

# 向hdsf上刷新event的个数
a1.sinks.k1.hdfs.batchSize=100
# 使用本地时间
# a1.sinks.k1.hdfs.useLocalTimeStamp=true

# Bind the source and channel to the channel， 
# 注意sources的channels有s，而sinks的没有s
a1.sources.r1.channels=c1
a1.sinks.k1.channel=c1

测试，启动flume，复制日志文件到/data/dw/logs/start目录下，检查hdfs上的文件

2.2.2. 采集event日志

2.2.2.1. 日志格式分析

{
    "lagou_event":[
        {
            "name":"notification",
            "json":{
                "action":"3",
                "type":"3"
            },
            "time":1595279760340
        },
        {
            "name":"ad",
            "json":{
                "duration":"17",
                "ad_action":"0",
                "shop_id":"1",
                "event_type":"ad",
                "ad_type":"2",
                "show_style":"1",
                "product_id":"21",
                "place":"placecampaign3_right",
                "sort":"7"
            },
            "time":1595286266626
        }
    ],
    "attr":{
        "area":"玉溪",
        "uid":"2F10092A19999",
        "app_v":"1.1.7",
        "event_type":"common",
        "device_id":"1FB872-9A10019999",
        "os_type":"6.0.2",
        "channel":"EZ",
        "language":"chinese",
        "brand":"iphone-3"
    }
}

事件日志中不同的用户操作有着不同的time，但是time不会相差太久，基本上都是在同一天内，因此可以就以第一条操作记录的time为准。

2.2.2.2. agent配置

配置监控路径为start和event的。a1.sources.r1.filegroups
配置event日志的具体路径。a1.sources.r1.filegroups.f2
配置HDFS上的存储路径。a1.sinks.k1.hdfs.path
根据监控到的不同路径下的文件，给event的headers中添加不同的logType

a1.sources=r1
a1.channels=c1
a1.sinks=k1

# taildir source
a1.sources.r1.type=TAILDIR
# 配置检查点文件的位置，检查点文件会以json格式保存已经读取的文件位置。用来解决断点续传的问题。
a1.sources.r1.positionFile=/data/dw/conf/startlog_position.json
# 配置监控路径，多个路径使用空格分隔
a1.sources.r1.filegroups=f1 f2
# 配置具体的监控文件路径，使用绝对路径，支持正则表达式匹配
a1.sources.r1.filegroups.f1=/data/dw/logs/start/.*log
a1.sources.r1.headers.f1.logType=start
a1.sources.r1.filegroups.f2=/data/dw/logs/event/.*log
a1.sources.r1.headers.f2.logType=event
# 配置拦截器
a1.sources.r1.interceptors=i1
a1.sources.r1.interceptors.type.i1=com.catkeeper.flume.interceptors.CustomerInterceptors$Builder

# memory channel
a1.channels.c1.type=memory
# The maximum number of events stored in the channel
a1.channels.c1.capatity=100000
# The maximum number of events the channel will take from a source or give to a sink per transaction
a1.channels.c1.transactionCapatity=2000

# hdfs sink
a1.sinks.k1.type=hdfs
a1.sinks.k1.hdfs.path=/user/data/logs/%{logType}/dt=%{logTime}/
a1.sinks.k1.hdfs.filePrefix=startlog
# 配置文件滚动方式（文件大小32M），默认1024字节滚动一次
a1.sinks.k1.hdfs.rollSize=33554432
# 基于event的数量滚动，默认10个event滚动一次
a1.sinks.k1.hdfs.rollCount=0
# 基于时间的滚动方式，默认30秒滚动一次
a1.sinks.k1.hdfs.rollInterval=0
# 基于文件空闲时间滚动，默认0，表示禁用
a1.sinks.k1.hdfs.idleTimeout=0
# 默认值与hdfs副本数一致。设为1是为了不让Flume感知到hdfs的块复制，这样其他的滚动方式配置才不会受影响
a1.sinks.k1.hdfs.minBlockReplicas=1

# 向hdsf上刷新event的个数
a1.sinks.k1.hdfs.batchSize=100
# 使用本地时间
# a1.sinks.k1.hdfs.useLocalTimeStamp=true

# Bind the source and channel to the channel， 
# 注意sources的channels有s，而sinks的没有s
a1.sources.r1.channels=c1
a1.sinks.k1.channel=c1

2.2.2.3. 更改拦截器

因为在配置文件中给不同监控目录下的文件设置了一个logType以区分日志类型，所以在代码中拿到logType以进行不同的操作
如果logType是event的话，取到第一个事件的time放入到headers中。

package com.catkeeper.flume.interceptors;

import com.alibaba.fastjson.JSON;
import com.alibaba.fastjson.JSONArray;
import com.alibaba.fastjson.JSONObject;
import com.google.common.base.Charsets;
import com.google.common.collect.Lists;
import org.apache.flume.Context;
import org.apache.flume.Event;
import org.apache.flume.interceptor.Interceptor;

import java.time.Instant;
import java.time.LocalDateTime;
import java.time.ZoneId;
import java.time.format.DateTimeFormatter;
import java.util.ArrayList;
import java.util.List;
import java.util.Map;

/**
 * CustomerInterceptor
 *
 * @author chenhang
 * @date 2020/12/16
 */
public class CustomerInterceptor implements Interceptor {

    private DateTimeFormatter dateTimeFormatter = DateTimeFormatter.ofPattern("yyyy-MM-dd");

    @Override
    public void initialize() {

    }

    @Override
    public Event intercept(Event event) {
        Map<String, String> headers = event.getHeaders();
        String logType = headers.getOrDefault("logType", "");
        byte[] bodyBytes = event.getBody();
        String body = new String(bodyBytes, Charsets.UTF_8);

        ArrayList<String> bodyList = Lists.newArrayList(body.split("\\s+"));
        try {
            String jsonStr = bodyList.get(6);

            JSONObject bodyJsonObject = JSON.parseObject(jsonStr);
            String time = "";
            if ("start".equals(logType)) {
                JSONObject appActiveJsonObject = bodyJsonObject.getJSONObject("app_active");
                time = appActiveJsonObject.getString("time");
            } else if ("event".equals(logType)) {
                JSONArray lagouEvent = bodyJsonObject.getJSONArray("lagou_event");
                if (!lagouEvent.isEmpty()) {
                    time = lagouEvent.getJSONObject(0).getString("time");
                }
            }

            String date = dateTimeFormatter.format(
                    LocalDateTime.ofInstant(
                            Instant.ofEpochMilli(Long.parseLong(time)), ZoneId.systemDefault()
                    )
            );
            headers.put("logTime", date);
        } catch (Exception e) {
            headers.put("logTime", "unknown");
        }

        return event;
    }

    @Override
    public List<Event> intercept(List<Event> list) {
        List<Event> result = new ArrayList<>();
        list.forEach(event -> result.add(intercept(event)));
        return result;
    }

    @Override
    public void close() {

    }

    public static class Builder implements Interceptor.Builder {

        @Override
        public Interceptor build() {
            return new CustomerInterceptor();
        }

        @Override
        public void configure(Context context) {

        }
    }
}

2.2.2.4. 执行

后台启动flume

nohup flume-ng agent --conf /opt/apps/flume-1.9/conf --conf-file /data/lagoudw/conf/flume-log2hdfs3.conf -name a1 -Dflume.root.logger=INFO,LOGFILE > /dev/null 2>&1 &

将event日志文件复制到/data/dw/logs/event/目录下，查看hdfs

2.3. ODS层的建表以及数据加载

前面一步已经实现了把日志采集到HDFS上，现在创建ODS层，将HDFS上的日志信息存储到ODS层中

ODS层中的数据与源数据的格式基本相同

2.3.1. 创建ods.ods_start_log表

use ODS;
create external table ods.ods_start_log(
`str` string)
comment '用户启动日志信息'
partitioned by (`dt` string)
location '/user/data/logs/start';

-- 加载数据（用以测试）
alter table ods.ods_start_log add partition(dt='2020-07-21');

遇到的问题

加载数据之后查看表ods.ods_start_log，发现乱码

上网查询之后发现是少了一项配置

所以需要在配置文件中加上一行a1.sinks.k1.hdfs.fileType=DataStream

再次查询，得到预期的结果

2.3.2. 使用脚本加载数据

前面一步直接在hive中加载数据，但是问题是不能每天都去手动在hive中执行一遍

因此创建脚本/data/dw/script/member_active/ods_load_log.sh，供以后调度

#! /bin/bash
APP=ODS
hive=/opt/lagou/servers/hive-2.3.7/bin/hive

# 输入日期，如果未输入日期则取昨天的日期
if [ -n "$1" ]
then
	do_date=$1
else
	do_date=`date -d "-1 day" + %F`
fi

# 定义要执行的SQL
sql="alter table "$APP".ods_start_log add partition(dt='$do_date');"
$hive -e "$sql"

执行sh ods_load_log.sh '2020-07-21'查看表

2.4. JSON数据处理

数据文件中每行必须是一个完整的 json 串，一个 json串不能跨越多行。

Hive 处理json数据总体来说有三个办法：

使用内建的函数get_json_object、json_tuple
使用自定义的UDF
第三方的SerDe

2.4.1. 使用内建函数处理

get_json_object(string json_string, string path)

返回值：String

说明：解析json字符串json_string，返回path指定的内容；如果输入的json字符串无效，那么返回NUll；函数每次只能返回一个数据项；
json_tuple(jsonStr, k1, k2, …)

返回值：所有的输入参数、输出参数都是String；

说明：参数为一组键k1，k2，。。。。。和json字符串，返回值的元组。该方法比 get_json_object高效，因此可以在一次调用中输入多个键；

配合explode，使用explode将Hive一行中复杂的 array 或 map 结构拆分成多行。

测试数据：/data/dw/data/weibo.json

user1;18;male;{"id": 1,"ids": [101,102,103],"total_number": 3}
user2;20;female;{"id": 2,"ids": [201,202,203,204],"total_number":4}
user3;23;male;{"id": 3,"ids":[301,302,303,304,305],"total_number": 5}
user4;17;male;{"id": 4,"ids": [401,402,403,304],"total_number":5}
user5;35;female;{"id": 5,"ids": [501,502,503],"total_number": 3}

建表加载数据

CREATE TABLE IF NOT EXISTS tmp.jsont1(
username string,
age int,
sex string,
json string
)
row format delimited fields terminated by ';';
load data local inpath '/data/dw/data/weibo.json' overwrite into table jsont1;

测试

-- 使用get_json_object获取单层值
select username, age, sex, get_json_object(json, "$.id") id, get_json_object(json, "$.ids") ids, get_json_object(json, "$.total_number") num
from jsont1;

-- 使用get_json_object get数组
select username, age, sex, get_json_object(json, "$.id") id, 
get_json_object(json, "$.ids[0]") ids0,
get_json_object(json, "$.ids[1]") ids1,
get_json_object(json, "$.ids[2]") ids2,
get_json_object(json, "$.ids[3]") ids3,
get_json_object(json, "$.total_number") num
from jsont1;

-- 使用json_tuple 一次处理多个字段
select json_tuple(json, 'id', 'ids', 'total_number') from jsont1;

-- 有语法错误
select username, age, sex, json_tuple(json, 'id', 'ids', 'total_number') from jsont1;
-- 应该使用lateral view来查看
select username, age, sex, id, ids, total_number
from jsont1
lateral view json_tuple(json, 'id', 'ids', 'total_number') t1 as id, ids, total_number;

-- 使用explode展开
-- 1. 去除“[]”
select regexp_replace("[101, 102, 103]", "\\[|\\]", "");
-- 2. 将字符串转换成数组
select split(regexp_replace("[101, 102, 103]", "\\[|\\]", ""), ",");
-- 3. 使用explode展开
with tmp as (
select username, age, sex, id, ids, total_number
from jsont1
lateral view json_tuple(json, 'id', 'ids', 'total_number') t1 as id, ids, total_number
)
select username, age, sex, id, ids1, total_number
from tmp
lateral view explode(split(regexp_replace(ids, "\\[|\\]", ""), ",")) t1 as ids1;

2.4.2. 使用UDF处理

2.4.2.1. pom依赖


<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0modelVersion>

    <groupId>com.catkeepergroupId>
    <artifactId>udfartifactId>
    <version>1.0-SNAPSHOTversion>

    <dependencies>
        
        <dependency>
            <groupId>org.apache.hivegroupId>
            <artifactId>hive-execartifactId>
            <version>2.3.7version>
        dependency>

        <dependency>
            <groupId>com.alibabagroupId>
            <artifactId>fastjsonartifactId>
            <version>1.1.23version>
        dependency>

    dependencies>
    <repositories>
        <repository>
            <id>pentaho-omniid>
            <url>https://repository.pentaho.org/content/groups/omniurl>
            <releases>
                <enabled>trueenabled>
            releases>
            <snapshots>
                <enabled>falseenabled>
            snapshots>
        repository>
    repositories>

    <build>
        <plugins>
            <plugin>
                <artifactId>maven-compiler-pluginartifactId>
                <version>2.3.2version>
                <configuration>
                    <source>1.8source>
                    <target>1.8target>
                configuration>
            plugin>
        plugins>
    build>

project>

2.4.2.2. UDF代码

package com.catkeeper.hive.udfs;

import com.alibaba.fastjson.JSON;
import com.alibaba.fastjson.JSONArray;
import com.alibaba.fastjson.JSONObject;
import org.apache.hadoop.hive.ql.exec.UDF;
import org.apache.parquet.Strings;

import java.util.ArrayList;
import java.util.List;

/**
 * ParseJsonArray
 *
 * @author chenhang
 * @date 2020/12/21
 */
public class ParseJsonArray extends UDF {
    public List<String> evaluate(final String jsonStr, String arrKey) {
        if (Strings.isNullOrEmpty(jsonStr)) {
            return null;
        }

        JSONObject jsonObject = JSON.parseObject(jsonStr);
        JSONArray jsonArray = jsonObject.getJSONArray(arrKey);
        ArrayList<String> strings = new ArrayList<>();
        jsonArray.forEach(json -> strings.add(json.toString()));
        return strings;
    }
}

2.4.2.3. 使用自定义UDF函数

上传jar包到/data/dw/jars/目录下
在hive命令中添加开发的jar包

add jar /data/dw/jars/udf-1.0-SNAPSHOT-jar-with-dependencies.jar;
创建临时函数，指定类名一定要使用完整路径

create temporary function my_json_array as 'com.catkeeper.hive.udfs.ParseJsonArray';

执行语句

select username, age, sex, id, ids1, num
from jsont1
lateral view explode(my_json_array(json, 'ids')) t1 as ids1
lateral view json_tuple(json, 'id', 'total_number') t1 as id, num;

2.4.2.4. 使用SerDe

Hive本身自带了几个内置的SerDe，还有其他一些第三方的SerDe可供选择。

create table t11(id string)
stored as parquet;
create table t12(id string)
stored as ORC;
desc formatted t11;
desc formatted t12;

LazySimpleSerDe（默认的SerDe）
ParquetHiveSerDe
OrcSerde

对于纯 json 格式的数据，可以使用 JsonSerDe 来处理

{"id": 1,"ids": [101,102,103],"total_number": 3}
{"id": 2,"ids": [201,202,203,204],"total_number": 4}
{"id": 3,"ids": [301,302,303,304,305],"total_number": 5}
{"id": 4,"ids": [401,402,403,304],"total_number": 5}
{"id": 5,"ids": [501,502,503],"total_number": 3}

id int,
ids array<string>,
total_number int
)
ROW FORMAT SERDE 'org.apache.hive.hcatalog.data.JsonSerDe';
load data local inpath '/data/dw/data/json2.dat' into table
jsont2;

2.5. DWD层建表和数据加载

主要任务：ODS -> DWD,json数据解析，丢弃无用数据，保留有效信息，并将数据展开，形成每日启动明细表

2.5.1. 创建DWD层表

{
    "app_active":{
        "name":"app_active",
        "json":{
            "entry":"2",
            "action":"1",
            "error_code":"0"
        },
        "time":1595461782293
    },
    "attr":{
        "area":"文登",
        "uid":"2F10092A879999",
        "app_v":"1.1.12",
        "event_type":"common",
        "device_id":"1FB872-9A100879999",
        "os_type":"0.47",
        "channel":"RA",
        "language":"chinese",
        "brand":"xiaomi-1"
    }
}

use DWD;
drop table if exists dwd.dwd_start_log;
create table dwd.dwd_start_log (
`device_id` string,
`area` string,
`uid` string,
`app_v` string,
`event_type` string,
`os_type` string,
`channel` string,
`language` string,
`brand` string,
`entry` string,
`action` string,
`error_code` string
)
partitioned by (dt string)
stored as parquet;

2.5.2. 加载DWD层数据

创建脚本/data/dw/script/member_active/dwd_load_start.sh

#! /bin/bash

# 可以输入日期，如果没有输入则是前一天
if [ -n "$1" ]
then
	do_date=$1
else
	do_date=`date -d "-1 day" +%F`
fi

# 定义要执行的sql
sql="
with tmp as(
select split(str, ' ')[7] line
from ods.ods_start_log
where dt='$do_date'
)
insert overwrite table dwd.dwd_start_log
partition(dt='$do_date')
select get_json_object(line, '$.attr.device_id'),
get_json_object(line, '$.attr.area'),
get_json_object(line, '$.attr.uid'),
get_json_object(line, '$.attr.app_v'),
get_json_object(line, '$.attr.event_type'),
get_json_object(line, '$.attr.os_type'),
get_json_object(line, '$.attr.channel'),
get_json_object(line, '$.attr.language'),
get_json_object(line, '$.attr.brand'),
get_json_object(line, '$.app_active.json.entry'),
get_json_object(line, '$.app_active.json.action'),
get_json_object(line, '$.app_active.json.error_code')
from tmp;
"
hive -e "$sql"

执行脚本sh dwd_load_start.sh '2020-07-21'，查看数据

2.6. 活跃会员的DWS层与ADS层

需要算出每日、每周、每月的活跃会员人数，因此可以设计出ADS层的样子

daycnt	weekcnt	monthcnt	dt

周、月分别为自然周、自然月

2.6.1. DWS层表创建

use dws;
drop table if exists dws.dws_member_start_day;
create table dws.dws_member_start_day(
`device_id` string,
`uid` string,
`app_v` string,
`os_type` string,
`language` string,
`channel` string,
`area` string,
`brand` string
) comment '会员日启动汇总'
partitioned by (dt string)
stored as parquet;

drop table if exists dws.dws_member_start_week;
create table dws.dws_member_start_week(
`device_id` string,
`uid` string,
`app_v` string,
`os_type` string,
`language` string,
`channel` string,
`area` string,
`brand` string,
`week` string
) comment '会员周启动汇总'
partitioned by (dt string)
stored as parquet;

drop table if exists dws.dws_member_start_month;
create table dws.dws_member_start_month(
`device_id` string,
`uid` string,
`app_v` string,
`os_type` string,
`language` string,
`channel` string,
`area` string,
`brand` string,
`month` string
) comment '会员月启动汇总'
partitioned by (dt string)
stored as parquet;

2.6.2. 加载数据到DWS层

创建脚本/data/dw/script/member_active/dws_load_member_start.sh

#! /bin/bash

if [ -n "$1" ]
then
	do_date=$1
else
	do_date=`date -d "-1 day" +%F`
fi
# 定义要执行的sql
# 汇总得到每日活跃会员人数
sql="
insert overwrite table dws.dws_member_start_day
partition(dt='$do_date')
select device_id,
concat_ws('|', collect_set(uid)),
concat_ws('|', collect_set(app_v)),
concat_ws('|', collect_set(os_type)),
concat_ws('|', collect_set(language)),
concat_ws('|', collect_set(channel)),
concat_ws('|', collect_set(area)),
concat_ws('|', collect_set(brand))
from dwd.dwd_start_log
where dt='$do_date'
group by device_id;

-- 汇总得到每周活跃会员人数
insert overwrite table dws.dws_member_start_week
partition(dt='$do_date')
select device_id,
concat_ws('|', collect_set(uid)),
concat_ws('|', collect_set(app_v)),
concat_ws('|', collect_set(os_type)),
concat_ws('|', collect_set(language)),
concat_ws('|', collect_set(channel)),
concat_ws('|', collect_set(area)),
concat_ws('|', collect_set(brand)),
date_add(next_day('$do_date', 'mo'), -7)
from dws.dws_member_start_day
where dt >= date_add(next_day('$do_date', 'mo'), -7)
	and dt <= '$do_date'
group by device_id;

-- 汇总得到每月活跃会员人数
insert overwrite table dws.dws_member_start_month
partition(dt='$do_date')
select device_id,
concat_ws('|', collect_set(uid)),
concat_ws('|', collect_set(app_v)),
concat_ws('|', collect_set(os_type)),
concat_ws('|', collect_set(language)),
concat_ws('|', collect_set(channel)),
concat_ws('|', collect_set(area)),
concat_ws('|', collect_set(brand)),
date_format('$do_date', 'yyyy-MM')
from dws.dws_member_start_day
where dt >= date_format('$do_date', 'yyyy-MM-01')
	and dt <= '$do_date'
group by device_id;
"

hive -e "$sql"

2.6.3. 创建ADS层

use ads;
drop table if exists ads.ads_member_active_count;
create table ads.ads_member_active_count(
`daycnt` int comment '当日会员数量',
`weekcnt` int comment '当周会员数量',
`monthcnt` int comment '当月会员数量'
) comment '会员活跃数量'
partitioned by (dt string)
row format delimited fields terminated by ',';

2.6.4. 加载数据到ADS

/data/dw/script/member_active/ads_load_member_active.sh

#! /bin/bash

if [ -n "$1" ]
then
	do_date=$1
else
	do_date=`date -d "-1 day" +%F`
fi

sql="
with tmp as(
select 'day' datelabel, count(*) cnt, dt
from dws.dws_member_start_day
where dt='$do_date'
group by dt
union all
select 'week' datelabel, count(*) cnt, dt
from dws.dws_member_start_week
where dt='$do_date'
group by dt
union all
select 'month' datelabel, count(*) cnt, dt
from dws.dws_member_start_month
where dt='$do_date'
group by dt
)
insert overwrite table ads.ads_member_active_count
partition(dt='$do_date')
select sum(case when datelabel='day' then cnt end) as day_count,
sum(case when datelabel='week' then cnt end) as weeek_count,
sum(case when datelabel='month' then cnt end) as month_count
from tmp
group by dt;
"

hive -e "$sql"

调用脚本统计7-21至7-23的数据

当执行过程中发现任务失败，查看$HIVE_HOME/logs/hive.log发现OOM：java heap space

如何解决

原因：内存分配问题

解决思路：给map、reduce task分配合理的内存；map、reduce task处理合理的数据

查看现在map task分配了多少内存

https://blog.csdn.net/xygl2009/article/details/45531505

查看数据

2.7. 新增会员

2.7.1. 测试如何计算新增会员

t1数据/data/dw/data/t1.dat

4,2020-08-02
5,2020-08-02
6,2020-08-02
7,2020-08-02
8,2020-08-02
9,2020-08-02

t2数据/data/dw/data/t2.dat

1,2020-08-01
2,2020-08-01
3,2020-08-01
4,2020-08-01
5,2020-08-01
6,2020-08-01

创建表t1

drop table t1;
create table t1(id int, dt string)
row format delimited fields terminated by ',';
load data local inpath '/data/dw/data/t1.dat' into table t1;

创建表t2

drop table t2;
create table t2(id int, dt string)
row format delimited fields terminated by ',';
load data local inpath '/data/lagoudw/data/t2.dat' into table t2;

-- 找出 2020-08-02 的新用户
select t1.id, t1.dt
from t1 left join t2
where t1.id = t2.id
and t1.dt = '2020-08-02'
and t2.id is null;

2.7.2. 创建DWS层

创建表

use dws;
drop table if exists dws.dws_member_add_day;
create table dws.dws_member_add_day(
`device_id` string,
`uid` string,
`app_v` string,
`os_type` string,
`language` string,
`channel` string,
`area` string,
`brand` string,
`dt` string
) comment '每日新增会员明细'
stored as parquet;

加载数据/data/dw/script/member_active/dws_load_member_add_day.sh

#! /bin/bash

if [ -n "$1" ]
then
	do_date=$1
else
	do_date=`date -d "-1 day" +%F`
fi

sql="
insert into dws.dws_member_add_day
select t1.device_id,
t1.uid,
t1.app_v,
t1.os_type,
t1.language,
t1.channel,
t1.area,
t1.brand,
'$do_date'
from dws.dws_member_start_day t1 left join dws.dws_member_add_day t2
on t1.device_id = t2.device_id
where t1.dt = '$do_date'
and t2.device_id is null;
"
hive -e "$sql"

2.7.3. 创建ADS层

创建表

use ads;
drop table if exists ads.ads_new_member_cnt;
create table ads.ads_new_member_cnt(
`cnt` int
)
partitioned by(dt string)
row format delimited fields terminated by ',';

加载数据

data/dw/script/member_active/ads_load_member_add.sh

#! /bin/bash

if [ -n "$1" ]
then
	do_date=$1
else
	do_date=`date -d "-1 day" +%F`
fi

sql="
insert into ads.ads_new_member_cnt
partition (dt='$do_date')
select count(1) 
from dws.dws_member_add_day
where dt = '$do_date'
"
hive -e "$sql"

执行脚本并查看结果

在这里插入图片描述

2.7. 留存会员

2.7.1. 创建DWS层

drop table if exists dws.dws_member_retention_day;
create table dws.dws_member_retention_day(
`device_id` string,
`uid` string,
`app_v` string,
`os_type` string,
`language` string,
`channel` string,
`area` string,
`brand` string,
`add_date` string comment '会员新增时间',
`retention_date` int comment '留存天数'
) comment '每日会员留存明细'
partitioned by (`dt` string)
stored as parquet;

2.7.2. 加载数据

/data/dw/script/member_active/dws_load_member_retention_day.sh

#! /bin/bash

if [ -n "$1" ]
then
	do_date=$1
else
	do_date=`date -d "-1 day" +%F`
fi

sql="
insert overwrite table dws.dws_member_retention_day
partition(dt='$do_date')
select t2.device_id,
t2.uid,
t2.app_v,
t2.os_type,
t2.language,
t2.channel,
t2.area,
t2.brand,
t2.dt add_date,
1
from dws.dws_member_start_day t1 join dws.dws_member_add_day t2
on t1.device_id = t2.device_id
where t2.dt = date_add('$do_date', -1)
and t1.dt = '$do_date'

union all

select t2.device_id,
t2.uid,
t2.app_v,
t2.os_type,
t2.language,
t2.channel,
t2.area,
t2.brand,
t2.dt add_date,
2
from dws.dws_member_start_day t1 join dws.dws_member_add_day t2
on t1.device_id = t2.device_id
where t2.dt = date_add('$do_date', -2)
and t1.dt = '$do_date'

union all

select t2.device_id,
t2.uid,
t2.app_v,
t2.os_type,
t2.language,
t2.channel,
t2.area,
t2.brand,
t2.dt add_date,
3
from dws.dws_member_start_day t1 join dws.dws_member_add_day t2
on t1.device_id = t2.device_id
where t2.dt = date_add('$do_date', -3)
and t1.dt = '$do_date'
"
hive -e "$sql"

内存不足，改写sql，创建临时表

#! /bin/bash

if [ -n "$1" ]
then
	do_date=$1
else
	do_date=`date -d "-1 day" +%F`
fi

sql="
drop table if exists tmp.tmp_member_retention;
create table tmp.tmp_member_retention as(
select t2.device_id,
t2.uid,
t2.app_v,
t2.os_type,
t2.language,
t2.channel,
t2.area,
t2.brand,
t2.dt add_date,
1
from dws.dws_member_start_day t1 join dws.dws_member_add_day t2
on t1.device_id = t2.device_id
where t2.dt = date_add('$do_date', -1)
and t1.dt = '$do_date'

union all

select t2.device_id,
t2.uid,
t2.app_v,
t2.os_type,
t2.language,
t2.channel,
t2.area,
t2.brand,
t2.dt add_date,
2
from dws.dws_member_start_day t1 join dws.dws_member_add_day t2
on t1.device_id = t2.device_id
where t2.dt = date_add('$do_date', -2)
and t1.dt = '$do_date'

union all

select t2.device_id,
t2.uid,
t2.app_v,
t2.os_type,
t2.language,
t2.channel,
t2.area,
t2.brand,
t2.dt add_date,
3
from dws.dws_member_start_day t1 join dws.dws_member_add_day t2
on t1.device_id = t2.device_id
where t2.dt = date_add('$do_date', -3)
and t1.dt = '$do_date'
);
insert overwrite table dws.dws_member_retention_day
partition(dt='$do_date')
select * from tmp.tmp_member_retention;
"

hive -e "$sql"

2.7.3. 创建ADS层

use ads;
drop table if exists ads.ads_member_retention_count;
create table ads.ads_member_retention_count(
`add_date` string comment '新增日期',
`retention_day` int comment '截止当前日期留存天数',
`retention_count` bigint comment '留存数'
) comment '会员留存数'
partitioned by (`dt` string)
row format delimited fields terminated by ',';

drop table if exists ads.ads_member_retention_rate;
create table ads.ads_member_retention_rate(
`add_date` string comment '新增日期',
`retention_day` int comment '截止当前日期留存天数',
`retention_count` bigint comment '留存数',
`new_mid_count` bigint comment '当日会员新增数',
`retention_ratio` string comment '留存率'
) comment '会员留存率'
partitioned by (dt string)
row format delimited fields terminated by ',';

2.7.4. 加载数据到ADS层

/data/dw/script/member_active/ads_load_member_retention.sh

#! /bin/bash

if [ -n "$1" ]
then
	do_date=$1
else
	do_date=`date -d "-1 day" +%F`
fi

sql="
insert overwrite table ads.ads_member_retention_count
partition(dt = '$do_date')
select add_date, retention_date, count(1) retention_count
from dws.dws_member_retention_day
where dt = '$do_date'
group by add_date, retention_date;

insert overwrite table ads.ads_member_retention_rate
partition(dt = '$do_date')
select t1.add_date, 
t1.retention_day, 
t1.retention_count, 
t2.cnt,
t1.retention_count / t2.cnt * 100
from ads.ads_member_retention_count t1 join ads.ads_new_member_cnt t2
on t1.add_date = t2.dt
where t1.dt = '$do_date'
"
hive -e "$sql"

3. 广告业务

3.1. 需求分析

事件日志数据样例：

{
    "lagou_event":[
        {
            "name":"goods_detail_loading",
            "json":{
                "entry":"3",
                "goodsid":"0",
                "loading_time":"80",
                "action":"4",
                "staytime":"68",
                "showtype":"4"
            },
            "time":1596225273755
        },
        {
            "name":"loading",
            "json":{
                "loading_time":"18",
                "action":"1",
                "loading_type":"2",
                "type":"3"
            },
            "time":1596231657803
        },
        {
            "name":"ad",
            "json":{
                "duration":"17",
                "ad_action":"0",
                "shop_id":"786",
                "event_type":"ad",
                "ad_type":"4",
                "show_style":"1",
                "product_id":"2772",
                "place":"placeindex_left",
                "sort":"0"
            },
            "time":1596278404415
        },
        {
            "name":"favorites",
            "json":{
                "course_id":0,
                "id":0,
                "userid":0
            },
            "time":1596239532527
        },
        {
            "name":"praise",
            "json":{
                "id":2,
                "type":3,
                "add_time":"1596258672095",
                "userid":8,
                "target":6
            },
            "time":1596274343507
        }
    ],
    "attr":{
        "area":"拉萨",
        "uid":"2F10092A86",
        "app_v":"1.1.12",
        "event_type":"common",
        "device_id":"1FB872-9A10086",
        "os_type":"4.1",
        "channel":"KS",
        "language":"chinese",
        "brand":"xiaomi-2"
    }
}

采集的信息包括：

商品详情页加载：goods_detail_loading
商品列表：loading
消息通知：notification
商品评论：comment
收藏：favorites
点赞：praise
广告：ad
- action。用户行为；0 曝光；1 曝光后点击；2 购买
- duration。停留时长
- shop_id。商家id
- event_type。“ad”
- ad_type。格式类型；1 JPG；2 PNG；3 GIF；4 SWF
- show_style。显示风格，0 静态图；1 动态图
- product_id。产品id
- place。广告位置；首页=1，左侧=2，右侧=3，列表页=4
- sort。排序位置

3.2. 需求指标

点击次数统计(分时统计)
- 曝光次数、不同用户id数、不同用户数
- 点击次数、不同用户id数、不同用户数
- 购买次数、不同用户id数、不同用户数
转化率-漏斗分析
- 点击率 = 点击次数 / 曝光次数
- 购买率 = 购买次数 / 点击次数
活动曝光效果评估
- 行为(曝光、点击、购买)、时间段、广告位、产品，统计对应的次数
- 时间段、广告位、商品，曝光次数最多的前N个

3.3. 日志采集

启动flume，cp事件日志到/data/dw/logs/event/目录下

3.4. 创建ODS层并加载数据

创建ODS层

use ods;
drop table if exists ods.ods_log_event;
create table ods.ods_log_event(`str` string)
partitioned by (`dt` string)
stored as textfile
location '/user/data/logs/event';

加载数据/data/dw/script/advertisement/ods_load_event_log.sh

#! /bin/bash

if [ -n "$1" ]
then
	do_date=$1
else
	do_date=`date -d "-1 day" +%F`
fi

sql="alter table ods.ods_log_event add partition (dt = '$do_date');"

hive -e "$sql"

3.5. 创建DWD层和数据加载

建表

-- 所有事件明细
drop table if exists dwd.dwd_event_log;
create external table dwd.dwd_event_log(
`device_id` string,
`uid` string,
`app_v` string,
`os_type` string,
`event_type` string,
`language` string,
`channel` string,
`area` string,
`brand` string,
`name` string,
`event_json` string,
`report_time` string
)
partitioned by (`dt` string)
stored as parquet;

-- 所有广告点击明细
drop table if exists dwd.dwd_ad;
create table dwd.dwd_ad(
`device_id` string,
`uid` string,
`app_v` string,
`os_type` string,
`event_type` string,
`language` string,
`channel` string,
`area` string,
`brand` string,
`report_time` string,
`duration` int,
`ad_action` int,
`shop_id` int,
`ad_type` int,
`show_style` smallint,
`product_id` int,
`place` string,
`sort` int,
`hour` string
)
partitioned by (`dt` string)
stored as parquet;

3.5.1. 自定义UDF函数

用于将jsonArray转换成List

package com.catkeeper.hive.udfs;

import com.alibaba.fastjson.JSON;
import com.alibaba.fastjson.JSONArray;
import com.alibaba.fastjson.JSONObject;
import org.apache.hadoop.hive.ql.exec.UDF;
import org.apache.parquet.Strings;

import java.util.ArrayList;
import java.util.List;

/**
 * ParseJsonArray
 *
 * @author chenhang
 * @date 2020/12/21
 */
public class JsonArray extends UDF {
    public List<String> evaluate(String jsonStr) {
        if (Strings.isNullOrEmpty(jsonStr)) {
            return null;
        }

        JSONArray jsonArray = JSON.parseArray(jsonStr);
        ArrayList<String> strings = new ArrayList<>();
        jsonArray.forEach(json -> strings.add(json.toString()));
        return strings;
    }
}

3.5.2. 编写脚本加载数据

获取全部日志事件/data/dw/script/advertisement/dwd_load_event_log.sh

#! /bin/bash

if [ -n "$1" ]
then
	do_date=$1
else
	do_date=`date -d "-1 day" +%F`
fi

sql="
use dwd;
add jar /data/dw/jars/udf-1.0-SNAPSHOT-jar-with-dependencies.jar;
create temporary function json_array as 'com.catkeeper.hive.udfs.JsonArray';

with tmp_start as(
select split(str, ' ')[7] as line
from ods.ods_log_event
where dt='$do_date'
)

insert overwrite table dwd.dwd_event_log
partition(dt = '$do_date')
select
device_id,
uid,
app_v,
os_type,
event_type,
language,
channel,
area,
brand,
get_json_object(k, '$.name') name,
get_json_object(k, '$.json') json,
get_json_object(k, '$.time') time
from (
select
get_json_object(line, '$.attr.device_id') as device_id,
get_json_object(line, '$.attr.uid') as uid,
get_json_object(line, '$.attr.app_v') as app_v,
get_json_object(line, '$.attr.os_type') as os_type,
get_json_object(line, '$.attr.event_type') as event_type,
get_json_object(line, '$.attr.language') as languague,
get_json_object(line, '$.attr.channel') as channel,
get_json_object(line, '$.attr.area') as area,
get_json_object(line, '$.attr.brand') as brand,
get_json_object(line, '$.lagou_event') as lagou_event
from tmp_start
) t1
lateral view explode(json_array(lagou_event)) t2 as k
"
hive -e "$sql"

从全部的事件日志中获取广告点击事件

/data/dw/script/advertisement/dwd_load_ad_log.sh

#! /bin/bash

if [ -n "$1" ]
then
	do_date=$1
else
	do_date=`date -d "-1 day" +%F`
fi

sql="
insert overwrite table dwd.dwd_ad
partition (dt = '$do_date')
select
device_id,
uid,
app_v,
os_type,
event_type,
language,
channel,
area,
brand,
report_time,
get_json_object(event_json,'$.duration'),
get_json_object(event_json,'$.ad_action'),
get_json_object(event_json,'$.shop_id'),
get_json_object(event_json,'$.ad_type'),
get_json_object(event_json,'$.show_style'),
get_json_object(event_json,'$.product_id'),
get_json_object(event_json,'$.place'),
get_json_object(event_json,'$.sort'),
from_unixtime(ceil(report_time/1000), 'HH')
from dwd.dwd_event_log
where dt='$do_date' and name='ad'
"
hive -e "$sql"

3.6. 广告点击次数分析

曝光次数、不同用户id数（公共信息中的uid）不同用户数(公共信息中的 device_id)
点击次数、不同用户id数不同用户数(device_id)
购买次数、不同用户id数、不同用户数(device_id)

3.6.1. 创建ADS层表

use ads;
drop table if exists ads.ads_ad_show;
create table ads.ads_ad_show(
`cnt` bigint,
`u_cnt` bigint,
`device_cnt` bigint,
`ad_action` tinyint,
`hour` string
)
partitioned by (`dt` string)
row format delimited fields terminated by ',';

3.6.2. 编写脚本加载数据

/data/dw/script/advertisement/ads_load_ad_show.sh

#! /bin/bash

if [ -n "$1" ]
then
	do_date=$1
else
	do_date=`date -d "-1 date" +%F`
fi

sql="
insert overwrite table ads.ads_ad_show
partition (dt = '$do_date')
select
count(1),
count(distinct uid),
count(distinct device_id),
ad_action,
hour
from dwd.dwd_ad
where dt = '$do_date'
group by ad_action, hour;
"

hive -e "$sql"

3.6. 漏斗分析

3.6.1. 需求分析

分时统计：

点击率 = 点击次数 / 曝光次数

购买率 = 购买次数 / 点击次数

3.6.2. 创建ADS层表

use ads;
drop table if exists ads.ads_ad_show_rate;
create table ads.ads_ad_show_rate(
`hour` string,
`click_rate` double,
`buy_rate` double
)
partitioned by (`dt` string)
row format delimited fields terminated by ',';

3.6.3. 编写脚本加载数据

/data/dw/script/advertisement/ads_load_ad_show_rate.sh

#! /bin/bash

if [ -n "$1" ]
then
	do_date=$1
else
	do_date=`date -d "-1 day" +%F`
fi

sql="
with tmp as (
select max(case when ad_action = '0' then cnt end) show_cnt,
max(case when ad_action = '1' then cnt end) click_cnt,
max(case when ad_action = '2' then cnt end) buy_cnt,
hour
from ads.ads_ad_show
where dt = '$do_date'
group by hour
)
insert overwrite table ads.ads_ad_show_rate
partition (dt = '$do_date')
select
hour,
click_cnt / show_cnt * 100,
buy_cnt / click_cnt * 100
from tmp;
"
hive -e "$sql"

3.7. 广告效果分析

3.7.1. 需求分析

活动曝光效果评估：

行为(曝光、点击、购买)、时间段、广告位、商品，统计对应的次数

时间段、广告位、商品，曝光次数最多的前100个

3.7.2. 创建ADS层表

use ads;
drop table if exists ads.ads_ad_show_place;
create table ads.ads_ad_show_place(
`ad_action` string,
`hour` string,
`place` string,
`product_id` int,
`cnt` bigint
)
partitioned by (`dt` string)
row format delimited fields terminated by ',';

drop table if exists ads.ads_ad_show_place_window;
create table ads.ads_ad_show_place_window(
`hour` string,
`place` string,
`product_id` string,
`cnt` bigint,
`rank` int
)
partitioned by (`dt` string)
row format delimited fields terminated by ',';

3.7.3. 加载ADS数据

/data/dw/script/advertisement/ads_load_ad_show_page.sh

#! /bin/bash

if [ -n "$1" ]
then
	do_date=$1
else
	do_date=`date -d "-1 day" +%F`
fi

sql="
insert overwrite table ads.ads_ad_show_place
partition (dt = '$do_date')
select
ad_action,
hour,
place,
product_id,
count(1)
from dwd.dwd_ad
where dt = '$do_date'
group by ad_action, hour, place, product_id;
"

hive -e "$sql"

/data/dw/script/advertisement/ads_load_ad_show_page_window.sh

#! /bin/bash

if [ -n "$1" ]
then
	do_date=$1
else
	do_date=`date -d "-1 day" +%F`
fi

sql="
insert overwrite table ads.ads_ad_show_place_window
partition (dt = '$do_date')
select * from
(
select
hour,
place,
product_id,
cnt,
row_number() over (partition by hour, place, product_id order by cnt desc) rank
from ads.ads_ad_show_place
where dt = '$do_date' and ad_action = '0'
) t
where rank <= 100
"
hive -e "$sql"

4. ADS层数据导出（使用DataX)

创建文件/data/dw/json/stream2stream.json

{
    "job": {
        "content": [{
            "reader": {
                "name": "streamreader",
                "parameter": {
                    "sliceRecordCount": 10,
                    "column": [{
                            "type": "String",
                            "value": "hello DataX"
                        },
                        {
                            "type": "string",
                            "value": "DataX Stream To Stream"
                        }, {
                            "type": "string",
                            "value": "数据迁移工具"
                        }
                    ]
                }
            },
            "writer": {
                "name": "streamwriter",
                "parameter": {
                    "encoding": "GBK",
                    "print": true
                }
            }
        }],
        "setting": {
            "speed": {
                "channel": 1
            }
 
        }
    }
}

python $DATAX_HOME/bin/datax.py /data/dw/json/stream2stream.json

5. 计算最近七天连续三天活跃会员数

连续三天活跃会员数也就是这三天都有登录，那么基础数据可以看会员日启动汇总表

5.1. 测试

连续三天启动，先通过测试数据研究如何实现连续7天登录

/data/dw/data/login.dat

id date 是否登录

1 2019-07-11 1
1 2019-07-12 1
1 2019-07-13 1
1 2019-07-14 1
1 2019-07-15 1
1 2019-07-16 1
1 2019-07-17 1
1 2019-07-18 1
2 2019-07-11 1
2 2019-07-12 1
2 2019-07-13 0
2 2019-07-14 1
2 2019-07-15 1
2 2019-07-16 0
2 2019-07-17 1
2 2019-07-18 0
3 2019-07-11 1
3 2019-07-12 1
3 2019-07-13 1
3 2019-07-14 0
3 2019-07-15 1
3 2019-07-16 1
3 2019-07-17 1
3 2019-07-18 1

-- 建表加载测试数据
use tmp;
drop table if exists tmp.tmp_user_login;
create table tmp.tmp_user_login(
`uid` string,
`dt` date,
`is_login` int
)
row format delimited fields terminated by ' ';
-- 加载数据
load data local inpath '/data/dw/data/login.dat' into table tmp.tmp_user_login;

根据id分组给每行一个行号，然后每行让日期减去行号（这个结果叫做gid），因为日期是逐一增加的，行号也是逐一增加，所以这样连续的登录记录减去行号会得到同样一个日期。但是如果只筛出is_login为1的数据，那么登录不连续会出现断层，日期增加的比行号增加的多，所以gid会出现不同的结果。

这样如果一个人连续登录的话，那么gid都是相同的，gid如果不同那么说明是两次不同的连续登录

select uid, dt, date_sub(dt, row_number() over (partition by uid order by dt)) as gid
from tmp.tmp_user_login
where is_login = 1

这样只要按照uid和gid来分组，求出数量大于等于7的uid，就可以得到连续登录超过7天的人了，

with tmp as (select uid, dt, date_sub(dt, row_number() over (partition by uid order by dt)) as gid
from tmp.tmp_user_login
where is_login = 1)
select uid, count(*) days
from tmp
group by uid, gid
having days >= 7;

因此只要能够让会员日启动汇总数据展示测试数据的样子就可以实现连续三天活跃会员数了

with tmp1 as (select device_id, dt
from dws.dws_member_start_day
order by device_id, dt),
tmp2 as (
select device_id, dt, date_sub(dt, row_number() over (partition by device_id order by dt)) as gid
from tmp1
)
select device_id, count(1) days
from tmp2
group by device_id, gid
having days >= 3;

然后再做成脚本，统计到dws.dws_member_serial表内

5.2. 创建dws层并加载数据

创建表dws.dws_member_serial_three

use dws;
drop table if exists dws.dws_member_serial_three;
create table dws.dws_member_serial_three(
`device_id` string,
`serial_days` int
)
partitioned by (`dt` string)
stored as parquet;

创建脚本加载数据/data/dw/script/member_active/dws_load_serial_tree.sh

#! /bin/bash

if [ -n "$1" ]
then
	do_date=$1
else
	do_date=`date -d "-1 day" +%F`
fi

sql="
with tmp1 as (select device_id, 
uid,
app_v,
os_type,
language,
channel,
area,
brand,
dt
from dws.dws_member_start_day
where dt >= date_sub('$do_date', 6)
and dt <= '$do_date'
order by device_id, dt),
tmp2 as (
select device_id, 
uid,
app_v,
os_type,
language,
channel,
area,
brand,
dt, 
date_sub(dt, row_number() over (partition by device_id order by dt)) as gid
from tmp1
)

insert overwrite table dws.dws_member_serial_three
partition (dt = '$do_date')
select device_id, 
count(1) days
from tmp2
group by device_id, gid
having days >= 3;
"

hive -e "$sql"

5.3. 创建ads层并加载数据

创建ads表

use ads;
drop table if exists ads.ads_member_serial_three;
create table ads.ads_member_serial_three(
`cnt` bigint
)
partitioned by (dt string)
row format delimited fields terminated by ',';

编写脚本加载数据/data/dw/script/member_active/ads_load_member_serial_three.sh

#! /bin/bash

if [ -n "$1" ]
then
	do_date=$1
else
	do_date=`date -d "-1 day" +%F`
fi

sql="
insert overwrite table ads.ads_member_serial_three
partition (dt = '$do_date')
select count(1)
from dws.dws_member_serial_three
where dt = '$do_date'
"

hive -e "$sql"

你可能感兴趣的:(hadoop,大数据,数据仓库,hive,flume)

数字孪生技术为UI前端注入新活力：实现产品设计的沉浸式体验 ui设计前端开发老司机 ui
hello宝子们...我们是艾斯视觉擅长ui设计、前端开发、数字孪生、大数据、三维建模、三维动画10年+经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩!一、引言：从“平面交互”到“沉浸体验”的UI革命当用户在电商APP中翻看3D家具模型却无法感知其与自家客厅的匹配度，当设计师在2D屏幕上绘制汽车内饰却难以预判实际乘坐体验——传统UI设计的“平面化、静态化、割裂感”
C++11中的std::function
文章转载自：http://www.jellythink.com/archives/771看看这段代码先来看看下面这两行代码：std::functiononKeyPressed;std::functiononKeyReleased;这两行代码是从Cocos2d-x中摘出来的，重点是这两行代码的定义啊。std::function这是什么东西？如果你对上述两行代码表示毫无压力，那就不妨再看看本文，就当温
提升企业级数据处理效率！TDengine 四个集群优化点详解 TDengine （老段） TDengine 运维大数据数据库物联网时序数据库服务器运维 tdengine
为了帮助企业更好地进行大数据处理，我们在此前TDengine3.x系列版本中进行了几项与集群相关的优化和新功能开发，以提升集群的稳定性和在异常情况下的恢复能力。这些优化包括clusterID隔离、leaderrebalance、raftlearner和restorednode。本文将对这几项重要优化进行详细阐述，以解答企业在此领域的疑问，并帮助大家更好地应对相关挑战。clusterID隔离问题fi
ETL可视化工具 DataX -- 简介( 一) dazhong2012 软件工具数据仓库 datax ETL
引言DataX系列文章：ETL可视化工具DataX–安装部署(二)ETL可视化工具DataX–DataX-Web安装(三)1.1DataX1.1.1DataX概览DataX是阿里云DataWorks数据集成的开源版本，在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX实现了包括MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、
中国银联豪掷1亿采购海光C86架构服务器信创新态势海光芯片 C86 国产芯片海光信息
近日，中国银联国产服务器采购大单正式敲定，基于海光C86架构的服务器产品中标，项目金额超过1亿元。接下来，C86服务器将用于支撑中国银联的虚拟化、大数据、人工智能、研发测试等技术场景，进一步提升其业务处理能力、用户服务效率和信息安全水平。作为我国重要的银行卡组织和金融基础设施，中国银联在全球183个国家和地区设有银联受理网络，境内外成员机构超过2600家，是世界三大银行卡品牌之一。此次中国银联发力
AWS 管理秘籍（一）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/cf1c4e1db999839ba88fc56df4011156译者：飞龙协议：CCBY-NC-SA4.0序言AWS平台的增长速度非常快，正在被各行各业广泛采用。正如俗话所说，朋友不会让朋友建立数据中心。不管从哪个角度看，按需计算、网络和存储的模式将持续存在。尤其是当你看到AWS平台在功能和增强方面的更新速度时，很难再去反对站在巨人的肩膀上，尤其是
全面探索Kafka：架构、应用与流处理
Kafka：企业级消息系统与流处理平台的深度解析ApacheKafka作为分布式流处理平台，广泛应用于大数据处理和实时分析领域。本文将基于其官方文档，详细探讨Kafka的核心功能、应用场景以及如何进行有效管理。背景简介Kafka作为高吞吐量的消息系统，支持企业级的发布-订阅模式。它能够处理大量实时数据，并支持高并发读写操作。本文将依据Kafka官方文档的内容，逐层深入，从入门到高级应用，帮助读者全
Flink时间窗口详解 bxlj_jcj Flink flink 大数据
一、引言在大数据流处理的领域中，Flink的时间窗口是一项极为关键的技术，想象一下，你要统计一个电商网站每小时的订单数量。由于订单数据是持续不断产生的，这就形成了一个无界数据流。如果没有时间窗口的概念，你就需要处理无穷无尽的数据，难以进行有效的统计分析。而时间窗口的作用，就是将这无界的数据流按照时间维度切割成一个个有限的“数据块”，方便我们对这些数据进行处理和分析。比如，我们可以定义一个1小时的时
探索实时流处理的未来：Kafka Streams 深度指南秋或依
探索实时流处理的未来：KafkaStreams深度指南项目介绍欢迎进入KafkaStreams：实时流处理的世界！这不仅仅是一本书，更是一个通往流处理领域深层奥秘的门户。由PrashantPandey编著，这本书以ApacheKafka2.1中的KafkaStreams库为核心，为读者铺就了一条从理解基础概念到熟练掌握KafkaStreams编程的路径。无论是软件工程师、数据架构师，还是对大数据处
Elasticsearch搜索引擎存储：从原理到实践的全景解析 Python×CATIA工业智造搜索引擎 elasticsearch 大数据
引言在大数据时代，数据规模呈指数级增长，传统数据库的模糊查询、实时分析能力逐渐成为瓶颈。Elasticsearch（简称ES）凭借其分布式架构、实时搜索和灵活的数据分析能力，成为企业级搜索与存储的核心引擎。截至2025年，ES在全球日志分析、电商搜索、实时监控等场景的市场占有率超过60%。本文将从存储架构、核心技术、应用场景及优化策略四个维度，深入解析Elasticsearch的设计哲学与实践价值
AWS Terraform 架构指南（二）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/8b2d222956a050c7632b9eee086dadcf译者：飞龙协议：CCBY-NC-SA4.0第七章：7在项目中实现Terraform您准备好开始使用Terraform开发您的AWS基础设施了吗？在本章中，您将学习Terraform的基础知识，并了解如何在AWS中部署您的第一个模板。我们将介绍选择合适的AWS提供商和选择满足您项目需求的
【Kafka专栏 13】Kafka的消息确认机制：不是所有的“收到”都叫“确认”！
作者名称：夏之以寒作者简介：专注于Java和大数据领域，致力于探索技术的边界，分享前沿的实践和洞见文章专栏：夏之以寒-kafka专栏专栏介绍：本专栏旨在以浅显易懂的方式介绍Kafka的基本概念、核心组件和使用场景，一步步构建起消息队列和流处理的知识体系，无论是对分布式系统感兴趣，还是准备在大数据领域迈出第一步，本专栏都提供所需的一切资源、指导，以及相关面试题，立刻免费订阅，开启Kafka学习之旅！
Hive简介
文章目录Hive简介Hive特点Hive和RDBMS的对比Hive的架构Hive的数据组织Hive数据类型Hive简介1、Hive由Facebook实现并开源2、是基于Hadoop的一个数据仓库工具3、可以将结构化的数据映射为一张数据库表4、并提供HQL(HiveSQL)查询功能5、底层数据是存储在HDFS上6、Hive的本质是将SQL语句转换为MapReduce任务运行7、使不熟悉MapRedu
C语言学生成绩管理系统<；自创>；(功能7有小错误,但可运行） han_xue_feng java
腾讯云加速企业和个人开发创新公开直播预告直播预告：07/18(周四)15:00-16:00随着人工智能与大模型的蓬勃发展，我们正步入一个由技微信实习第一天周五入职，早上早早来到了公司，发现好多人都没上班，到十点才陆陆续续有人来，办理完入职后，mentor中联夏令营遗憾没有入选不过hr的回复真的很好，辛苦啦#提前批简历挂麻了怎么办##机械制造投递记录#大数据开发的工作有点过于简单了吧sq大数据开发的
精益敏捷之道（一）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/0b2addbef6e2afb0ce49d44d7300959a译者：飞龙协议：CCBY-NC-SA4.0前言“精益敏捷之道：通过价值流管理释放企业潜力”一书源于首席作者塞西尔·‘加里’·鲁普与尊敬的同事理查德·克纳斯特、史蒂夫·佩雷拉和艾尔·沙洛韦的合作努力。他们的目标是为IT专家、商业专业人士以及各行业和组织的领域专家提供一本关于现代精益敏捷和
Python DevOps 实用指南（一）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/0228db3442938136abc9262d5596d201译者：飞龙协议：CCBY-NC-SA4.0序言欢迎阅读本书！让我们来谈谈本书的内容以及你将从中学到的东西。本书涉及两件事：DevOps和Python。它讲述了这两者是如何相互作用的——无论你称它们为实体、哲学、框架，或者其他任何名称。本书将帮助你在技术层面上理解Python，同时也在概
Python爬虫：从图片或扫描文档中提取文字数据的完整指南 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言数据挖掘 c++
1.引言随着大数据技术的不断进步，图像数据逐渐成为了许多行业中重要的数据源之一。图像中不仅包含了丰富的视觉信息，还可能蕴含着大量的文字数据。对于科研、企业、政府等多个领域而言，如何从图片或扫描文档中提取出有价值的文字信息是一个亟待解决的问题。在这一过程中，OCR（OpticalCharacterRecognition，光学字符识别）技术成为了解决这一问题的重要工具。在本文中，我们将探讨如何使用Py
Python 取证学习指南第二版（一）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/46c71d4b3d6fceaba506eebc55284aa5译者：飞龙协议：CCBY-NC-SA4.0前言在编写《学习Python取证》一书时，我们有一个目标：以一种方式教授Python在取证中的应用，使得没有编程经验的读者可以立即跟随并开发出可以用于案件工作中的实用代码。但这并不意味着本书仅适合Python新手；在整个过程中，我们会逐步让读者
Python 取证学习指南第二版（三）
原文：annas-archive.org/md5/46c71d4b3d6fceaba506eebc55284aa5译者：飞龙协议：CCBY-NC-SA4.0第七章：模糊哈希哈希是DFIR中最常见的处理过程之一。这个过程允许我们总结文件内容，并分配一个代表文件内容的独特且可重复的签名。我们通常使用MD5、SHA1和SHA256等算法对文件和内容进行哈希。这些哈希算法非常有价值，因为我们可以用它们进行
低版本hive(1.2.1)UDF实现清除历史分区数据 ༺水墨石༻ hive hive UDF hive hadoop 数据仓库
目标：通过UDF实现对表历史数据清除入参：表名、保留天数N一、pom文件4.0.0com.examplehive-udf-example1.0-SNAPSHOTjarhive-udf-exampleHiveUDFfordeletingpartitionsbydateUTF-81.81.8org.apache.hivehive-exec1.2.1org.apache.hivehive-metasto
【C语言经典面试题】memcpy函数有没有更高效的拷贝实现方法？架构师李肯嵌入式物联网开发进阶 c语言面试性能优化
【C语言经典面试题】memcpy函数有没有更高效的拷贝实现方法？我相信大部分初中级C程序员在面试的过程中，可能都被问过关于memcpy函数的问题，甚至需要手撕memcpy。本文从另一个角度带你领悟一下memcpy的面试题，你可以看看是否能接得住？文章目录1写在前面2源码实现2.1函数申明2.2简单的功能实现2.3满足大数据量拷贝的功能实现3源码测试4小小总结5更多分享1写在前面假如你遇到下面的面试
shell脚本实现Hive库表迁移 docsz hive Linux shell
1、获取hive所有库的建表语句#获取hive所有库的建表语句#!/bin/bashmkdir-p~/hive/tables/tablesDDL#获取库名hive-e"showdatabases;">~/hive/databases.txtsed-i'1,3d'~/hive/databases.txtsed-i'$d'~/hive/databases.txtcat~/hive/databases.
python基于Hadoop的NBA球员大数据分析与可视化系统
目录技术栈介绍具体实现截图系统设计研究方法：设计步骤设计流程核心代码部分展示研究方法详细视频演示试验方案论文大纲源码获取/详细视频演示技术栈介绍Django-SpringBoot-php-Node.js-flask本课题的研究方法和研究步骤基本合理，难度适中，本选题是学生所学专业知识的延续，符合学生专业发展方向，对于提高学生的基本知识和技能以及钻研能力有益。该学生能够在预定时间内完成该课题的设计。
大数据技术之集群数据迁移
dfs.namenode.rpc-address.nameservice1.namenode30hadoop104:8020dfs.namenode.rpc-address.nameservice1.namenode37hadoop106:8020dfs.namenode.http-address.nameservice1.namenode30hadoop104:9870dfs.namenode.
HIVE（二） 2301_78012738 hive 数据仓库
目录访问HIVE的三种方式DDLDML数据操作向表中装载数据数据导出常用函数Like和RLike分组Join排序分区表和分桶表访问HIVE的三种方式启动Hive命令，CtrlC退出客户端，执行测试语句，与sql一致[wyc@hadoop102hive]$bin/hive经验小结：在hive中执行语句报错：ExecutionError,returncode2fromorg.apache.hadoop
如何通过YashanDB优化企业大数据处理流程数据库
在当今数据驱动的商业环境中，企业面临着巨大的数据处理挑战。性能瓶颈、数据一致性问题和可扩展性需求使得大数据处理成为一项复杂任务。作为一种新兴的数据库管理系统，YashanDB以其独特的架构设计和强大的数据处理能力，在解决这些挑战方面提供了有效的手段。本文旨在探讨如何利用YashanDB优化大数据处理流程，为企业提供高效、可靠的解决方案。YashanDB的体系架构与部署形态YashanDB支持多种部
debian 安装 mysql5.7 你会忘记吃饭吗 debian 运维
cd/usr/local/src:wgethttps://downloads.mysql.com/archives/get/p/23/file/mysql-server_5.7.29-1debian10_amd64.deb-bundle.tartar-xvfxx.tarcdxx:执行dpkg-imysql-community-client_5.7.29-1debian10_amd64.deb返回S
Pandas 学习教程 _pass_ Data-Alaysis pandas 信息可视化
目录定义基本操作一维数组操作二维数组操作数据选择过滤数据处理数据清洗数据转换数据分析排序分组聚合数据透视表高级操作合并数据时间序列处理自定义函数调用数据可视化集成数据导出和导入大数据分块处理定义全称：'paneldata'and'pythondataanalysis'Analy:Series(一维数据)、DataFrame(二维数据)主要应用：数据清洗：处理缺失数据、重复数据等数据转换：改变数据的
如何通过YashanDB提升客户体验数据库
如何优化查询速度？这是许多企业在使用数据库技术时常常会遇到的问题。查询速度的快慢直接影响到用户的体验，尤其是在大数据量和高并发的使用场景中。顾客期望迅速获取信息，若响应时间过长，可能导致客户流失。因此，优化数据库的性能成为提升客户体验的关键举措之一。YashanDB作为一种高性能的数据库技术架构，提供了多种优化机制，以提升系统的查询速度和整体处理能力。多种部署架构YashanDB支持多种部署架构，
如何通过YashanDB数据库实现企业级数据分区管理？数据库
在当今大数据时代，企业面临着海量数据的管理和优化访问的问题。如何有效地组织和划分庞大的数据集，以提升查询性能和运维效率，成为数据库系统设计的核心挑战。数据分区技术作为解决大规模数据处理的关键手段，能够显著减少无关数据的访问，优化资源利用率。本文聚焦于YashanDB数据库，详细解析其数据分区管理的实现机制及应用，为企业级应用提供高效、灵活的数据分区解决方案。YashanDB中的数据分区基础Yash
Enum用法不懂事的小屁孩 enum
以前的时候知道enum，但是真心不怎么用，在实际开发中，经常会用到以下代码: protected final static String XJ = "XJ"; protected final static String YHK = "YHK"; protected final static String PQ = "PQ";
【Spark九十七】RDD API之aggregateByKey bit1129 spark
1. aggregateByKey的运行机制 /** * Aggregate the values of each key, using given combine functions and a neutral "zero value". * This function can return a different result type
hive创建表是报错： Specified key was too long; max key length is 767 bytes daizj hive
今天在hive客户端创建表时报错，具体操作如下 hive> create table test2(id string); FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:javax.jdo.JDODataSto
Map 与 JavaBean之间的转换周凡杨 java 自省转换反射
最近项目里需要一个工具类，它的功能是传入一个Map后可以返回一个JavaBean对象。很喜欢写这样的Java服务，首先我想到的是要通过Java 的反射去实现匿名类的方法调用，这样才可以把Map里的值set 到JavaBean里。其实这里用Java的自省会更方便，下面两个方法就是一个通过反射，一个通过自省来实现本功能。 1：JavaBean类 1 &nb
java连接ftp下载 g21121 java
有的时候需要用到java连接ftp服务器下载，上传一些操作，下面写了一个小例子。 /** ftp服务器地址 */ private String ftpHost; /** ftp服务器用户名 */ private String ftpName; /** ftp服务器密码 */ private String ftpPass; /** ftp根目录 */ private String f
web报表工具FineReport使用中遇到的常见报错及解决办法（二）老A不折腾 finereport web报表 java报表总结
抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、没有返回数据集：在存储过程中的操作语句之前加上set nocount on 或者在数据集exec调用存储过程的前面加上这句。当S
linux 系统cpu 内存等信息查看墙头上一根草 cpu 内存 liunx
1 查看CPU 　　1.1 查看CPU个数　　# cat /proc/cpuinfo | grep "physical id" | uniq | wc -l 　　2 　　**uniq命令：删除重复行;wc –l命令：统计行数** 　　1.2 查看CPU核数　　# cat /proc/cpuinfo | grep "cpu cores" | u
Spring中的AOP aijuans spring AOP
Spring中的AOP Written by Tony Jiang @ 2012-1-18 （转）何为AOP AOP，面向切面编程。在不改动代码的前提下，灵活的在现有代码的执行顺序前后，添加进新规机能。来一个简单的Sample: 目标类： [java] view plain copy print ? package&nb
placeholder(HTML 5) IE 兼容插件 alxw4616 JavaScript jquery jQuery插件
placeholder 这个属性被越来越频繁的使用. 但为做HTML 5 特性IE没能实现这东西. 以下的jQuery插件就是用来在IE上实现该属性的. /** * [placeholder(HTML 5) IE 实现.IE9以下通过测试.] * v 1.0 by oTwo 2014年7月31日 11:45:29 */ $.fn.placeholder = function
Object类,值域,泛型等总结(适合有基础的人看) 百合不是茶泛型的继承和通配符变量的值域 Object类转换
java的作用域在编程的时候经常会遇到,而我经常会搞不清楚这个问题,所以在家的这几天回忆一下过去不知道的每个小知识点变量的值域; package 基础; /** * 作用域的范围 * * @author Administrator * */ public class zuoyongyu { public static vo
JDK1.5 Condition接口 bijian1013 java thread Condition java多线程
Condition 将 Object 监视器方法（wait、notify和 notifyAll）分解成截然不同的对象，以便通过将这些对象与任意 Lock 实现组合使用，为每个对象提供多个等待 set （wait-set）。其中，Lock 替代了 synchronized 方法和语句的使用，Condition 替代了 Object 监视器方法的使用。条件（也称为条件队列或条件变量）为线程提供了一
开源中国OSC源创会记录 bijian1013 hadoop spark MemSQL
一.Strata+Hadoop World（SHW）大会是全世界最大的大数据大会之一。SHW大会为各种技术提供了深度交流的机会，还会看到最领先的大数据技术、最广泛的应用场景、最有趣的用例教学以及最全面的大数据行业和趋势探讨。二.Hadoop &nbs
【Java范型七】范型消除 bit1129 java
范型是Java1.5引入的语言特性，它是编译时的一个语法现象，也就是说，对于一个类，不管是范型类还是非范型类，编译得到的字节码是一样的，差别仅在于通过范型这种语法来进行编译时的类型检查，在运行时是没有范型或者类型参数这个说法的。范型跟反射刚好相反，反射是一种运行时行为，所以编译时不能访问的变量或者方法(比如private)，在运行时通过反射是可以访问的，也就是说，可见性也是一种编译时的行为，在
【Spark九十四】spark-sql工具的使用 bit1129 spark
spark-sql是Spark bin目录下的一个可执行脚本，它的目的是通过这个脚本执行Hive的命令，即原来通过 hive>输入的指令可以通过spark-sql>输入的指令来完成。 spark-sql可以使用内置的Hive metadata-store，也可以使用已经独立安装的Hive的metadata store 关于Hive build into Spark
js做的各种倒计时 ronin47 js 倒计时
第一种：精确到秒的javascript倒计时代码 HTML代码: <form name="form1"> <div align="center" align="middle"
java-37.有n 个长为m+1 的字符串，如果某个字符串的最后m 个字符与某个字符串的前m 个字符匹配，则两个字符串可以联接 bylijinnan java
public class MaxCatenate { /* * Q.37 有n 个长为m+1 的字符串，如果某个字符串的最后m 个字符与某个字符串的前m 个字符匹配，则两个字符串可以联接， * 问这n 个字符串最多可以连成一个多长的字符串，如果出现循环，则返回错误。 */ public static void main(String[] args){
mongoDB安装开窍的石头 mongodb安装基本操作
mongoDB的安装 1:mongoDB下载 https://www.mongodb.org/downloads 2:下载mongoDB下载后解压
[开源项目]引擎的关键意义 comsci 开源项目
一个系统，最核心的东西就是引擎。。。。。而要设计和制造出引擎，最关键的是要坚持。。。。。。现在最先进的引擎技术，也是从莱特兄弟那里出现的，但是中间一直没有断过研发的
软件度量的一些方法 cuiyadll 方法
软件度量的一些方法http://cuiyingfeng.blog.51cto.com/43841/6775/在前面我们已介绍了组成软件度量的几个方面。在这里我们将先给出关于这几个方面的一个纲要介绍。在后面我们还会作进一步具体的阐述。当我们不从高层次的概念级来看软件度量及其目标的时候，我们很容易把这些活动看成是不同而且毫不相干的。我们现在希望表明他们是怎样恰如其分地嵌入我们的框架的。也就是我们度量的
XSD中的targetNameSpace解释 darrenzhu xml namespace xsd targetnamespace
参考链接: http://blog.csdn.net/colin1014/article/details/357694 xsd文件中定义了一个targetNameSpace后，其内部定义的元素，属性，类型等都属于该targetNameSpace,其自身或外部xsd文件使用这些元素，属性等都必须从定义的targetNameSpace中找：例如：以下xsd文件，就出现了该错误，即便是在一
什么是RAID0、RAID1、RAID0+1、RAID5，等磁盘阵列模式? dcj3sjt126com raid
RAID 1又称为Mirror或Mirroring，它的宗旨是最大限度的保证用户数据的可用性和可修复性。 RAID 1的操作方式是把用户写入硬盘的数据百分之百地自动复制到另外一个硬盘上。由于对存储的数据进行百分之百的备份，在所有RAID级别中，RAID 1提供最高的数据安全保障。同样，由于数据的百分之百备份，备份数据占了总存储空间的一半，因而，Mirror的磁盘空间利用率低，存储成本高。 Mir
yii2 restful web服务快速入门 dcj3sjt126com PHP yii2
快速入门 Yii 提供了一整套用来简化实现 RESTful 风格的 Web Service 服务的 API。特别是，Yii 支持以下关于 RESTful 风格的 API：支持 Active Record 类的通用API的快速原型涉及的响应格式（在默认情况下支持 JSON 和 XML) 支持可选输出字段的定制对象序列化适当的格式的数据采集和验证错误
MongoDB查询(3)——内嵌文档查询（七） eksliang MongoDB查询内嵌文档 MongoDB查询内嵌数组
MongoDB查询内嵌文档转载请出自出处：http://eksliang.iteye.com/blog/2177301 一、概述有两种方法可以查询内嵌文档：查询整个文档；针对键值对进行查询。这两种方式是不同的，下面我通过例子进行分别说明。二、查询整个文档例如:有如下文档 db.emp.insert({ &qu
android4.4从系统图库无法加载图片的问题 gundumw100 android
典型的使用场景就是要设置一个头像，头像需要从系统图库或者拍照获得，在android4.4之前，我用的代码没问题，但是今天使用android4.4的时候突然发现不灵了。baidu了一圈，终于解决了。下面是解决方案： private String[] items = new String[] { "图库","拍照" }; /* 头像名称 */
网页特效大全 jQuery等 ini JavaScript jquery css html5 ini
HTML5和CSS3知识和特效 asp.net ajax jquery实例分享一个下雪的特效 jQuery倾斜的动画导航菜单选美大赛示例你会选谁 jQuery实现HTML5时钟功能强大的滚动播放插件JQ-Slide 万圣节快乐！！！向上弹出菜单jQuery插件 htm5视差动画 jquery将列表倒转顺序推荐一个jQuery分页插件 jquery animate
swift objc_setAssociatedObject block(version1.2 xcode6.4) 啸笑天 version
import UIKit class LSObjectWrapper: NSObject { let value: ((barButton: UIButton?) -> Void)? init(value: (barButton: UIButton?) -> Void) { self.value = value
Aegis 默认的 Xfire 绑定方式，将 XML 映射为 POJO MagicMa_007 java POJO xml Aegis xfire
Aegis 是一个默认的 Xfire 绑定方式，它将 XML 映射为 POJO, 支持代码先行的开发.你开发服务类与 POJO,它为你生成 XML schema/wsdl XML 和注解映射概览默认情况下，你的 POJO 类被是基于他们的名字与命名空间被序列化。如果
js get max value in (json) Array qiaolevip 每天进步一点点学习永无止境 max 纵观千象
// Max value in Array var arr = [1,2,3,5,3,2];Math.max.apply(null, arr); // 5 // Max value in Jaon Array var arr = [{"x":"8/11/2009","y":0.026572007},{"x"
XMLhttpRequest 请求 XML,JSON ,POJO 数据 Luob. POJO json Ajax xml XMLhttpREquest
在使用XMlhttpRequest对象发送请求和响应之前，必须首先使用javaScript对象创建一个XMLHttpRquest对象。 var xmlhttp； function getXMLHttpRequest(){ if(window.ActiveXObject){ xmlhttp:new ActiveXObject("Microsoft.XMLHTTP
jquery wuai jquery
以下防止文档在完全加载之前运行Jquery代码，否则会出现试图隐藏一个不存在的元素、获得未完全加载的图像的大小等等 $(document).ready(function(){ jquery代码; }); <script type="text/javascript" src="c:/scripts/jquery-1.4.2.min.js&quo