小坏讲微服务

数仓开发之DWD层完整使用 (第五章)

数仓开发之DWD层完整使用

一、流量域未精加工的事务事实表
- 1、主要任务
- - 1）数据清洗（ETL）
  - 2）新老访客状态标记修复
  - 3）分流
- 2、思路
- - 1）数据清洗（ETL）
  - 2）新老访客状态标记修复
  - - （1）前端埋点新老访客状态标记设置规则
    - （2）新老访客状态标记修复思路
  - 3）利用侧输出流实现数据拆分
  - - （1）埋点日志结构分析
    - （2）分流日志分类
    - （3）分流思路
- 3、图解
- 4、代码
- - 1）在 KafkaUtil 工具类中补充 getKafkaProducer() 方法
  - 2）创建 DateFormatUtil 工具类用于日期格式化
  - 3）主程序
二、流量域独立访客事务事实表
- 1、主要任务
- 2、思路分析
- - 1）过滤 last_page_id 不为 null 的数据
  - 2）筛选独立访客记录
  - 3）状态存活时间设置
- 3、图解
- 4、代码

DWD层
	日志数据：5种（启动、页面、曝光、动作、错误） --- topic_log
	消费ODS主题 - -> 直接按照表拆分写入不同的主题 -> 消费不同的主题数据关联 ->写入kafka主题
		区别：先拆再取

	业务数据：N种（所有需要处理的事实表） --- topic_db
	        订单表&订单明细&订单明细购物卷&订单明细表
	        维度退化
	消费ODS主题数据 - -> 使用程序过滤想要的数据并关联 -> 写入kafka主题
		直接消费ODS、取我们想要的

一、流量域未精加工的事务事实表

1、主要任务

1）数据清洗（ETL）

数据传输过程中可能会出现部分数据丢失的情况，导致 JSON 数据结构不再完整，因此需要对脏数据进行过滤。

2）新老访客状态标记修复

日志数据 common 字段下的 is_new 字段是用来标记新老访客状态的，1 表示新访客，0 表示老访客。前端埋点采集到的数据可靠性无法保证，可能会出现老访客被标记为新访客的问题，因此需要对该标记进行修复。

3）分流

本节将通过分流对日志数据进行拆分，生成五张事务事实表写入 Kafka
⚪ 流量域页面浏览事务事实表
⚪ 流量域启动事务事实表
⚪ 流量域动作事务事实表
⚪ 流量域曝光事务事实表
⚪ 流量域错误事务事实表

2、思路

1）数据清洗（ETL）

对流中数据进行解析，将字符串转换为 JSONObject，如果解析报错则必然为脏数据。定义侧输出流，将脏数据发送到侧输出流，写入 Kafka 脏数据主题

2）新老访客状态标记修复

（1）前端埋点新老访客状态标记设置规则

以神策提供的第三方埋点服务中新老访客状态标记设置规则为例

1、Web 端：用户第一次访问埋入神策 SDK 页面的当天（即第一天），JS SDK 会在网页的 cookie 中设置一个首日访问的标记，并设置第一天 24 点之前，该标记为 true，即第一天触发的网页端所有事件中，is_new = 1。第一天之后，该标记则为 false，即第一天之后触发的网页端所有事件中，is_new = 0；

2、小程序端：用户第一天访问埋入神策 SDK 的页面时，小程序 SDK 会在 storage 缓存中创建一个首日为 true 的标记，并且设置第一天 24 点之前，该标记均为 true。即第一天触发的小程序端所有事件中，is_new = 1。第一天之后，该标记则为 false，即第一天之后触发的小程序端所有事件中，is_new = 0；

3、APP 端：用户安装 App 后，第一次打开埋入神策 SDK 的 App 的当天，Android/iOS SDK 会在手机本地缓存内，创建一个首日为 true 的标记，并且设置第一天 24 点之前，该标记均为 true。即第一天触发的 APP 端所有事件中，is_new = 1。第一天之后，该标记则为 false，即第一天之后触发的 APP 端所有事件中，is_new = 0。

本项目模拟生成的是 APP 端日志数据。对于此类日志，如果首日之后用户清除了手机本地缓存中的标记，再次启动 APP 会重新设置一个首日为 true 的标记，导致本应为 0 的 is_new 字段被置为 1，可能会给相关指标带来误差。因此，有必要对新老访客状态标记进行修复。

（2）新老访客状态标记修复思路

运用 Flink 状态编程，为每个 mid 维护一个键控状态，记录首次访问日期。

①如果 is_new 的值为 1

a）如果键控状态为 null，认为本次是该访客首次访问 APP，将日志中 ts 对应的日期更新到状态中，不对 is_new 字段做修改；

b）如果键控状态不为 null，且首次访问日期不是当日，说明访问的是老访客，将 is_new 字段置为 0；

c）如果键控状态不为 null，且首次访问日期是当日，说明访问的是新访客，不做操作；

②如果 is_new 的值为 0

a）如果键控状态为 null，说明访问 APP 的是老访客但本次是该访客的页面日志首次进入程序。当前端新老访客状态标记丢失时，日志进入程序被判定为老访客，Flink 程序就可以纠正被误判的访客状态标记，只要将状态中的日期设置为今天之前即可。本程序选择将状态更新为昨日；

b）如果键控状态不为 null，说明程序已经维护了首次访问日期，不做操作。

3）利用侧输出流实现数据拆分

（1）埋点日志结构分析

前端埋点获取的 JSON 字符串（日志）可能存在 common、start、page、displays、actions、err、ts 七种字段。其中

➡common 对应的是公共信息，是所有日志都有的字段
➡err 对应的是错误信息，所有日志都可能有的字段
➡start 对应的是启动信息，启动日志才有的字段
➡page 对应的是页面信息，页面日志才有的字段
➡displays 对应的是曝光信息，曝光日志才有的字段，曝光日志可以归为页面日志，因此必然有 page 字段
➡actions 对应的是动作信息，动作日志才有的字段，同样属于页面日志，必然有 page 字段。动作信息和曝光信息可以同时存在。
➡ts 对应的是时间戳，单位：毫秒，所有日志都有的字段

综上，我们可以将前端埋点获取的日志分为两大类：启动日志和页面日志。二者都有 common 字段和 ts 字段，都可能有 err 字段。页面日志一定有 page 字段，一定没有 start 字段，可能有 displays 和 actions 字段；启动日志一定有 start 字段，一定没有 page、displays 和 actions 字段。

（2）分流日志分类

本节将按照内容，将日志分为以下五类
➡ 启动日志
➡ 页面日志
➡ 曝光日志
➡ 动作日志
➡ 错误日志

（3）分流思路

① 所有日志数据都可能拥有 err 字段，所有首先获取 err 字段，如果返回值不为 null 则将整条日志数据发送到错误侧输出流。然后删掉 JSONObject 中的 err 字段及对应值；

② 判断是否有 start 字段，如果有则说明数据为启动日志，将其发送到启动侧输出流；如果没有则说明为页面日志，进行下一步；

③ 页面日志必然有 page 字段、 common 字段和 ts 字段，获取它们的值，ts 封装为包装类 Long，其余两个字段的值封装为 JSONObject；

④ 判断是否有 displays 字段，如果有，将其值封装为 JSONArray，遍历该数组，依次获取每个元素（记为 display），封装为JSONObject。创建一个空的 JSONObject，将 display、common、page和 ts 添加到该对象中，获得处理好的曝光数据，发送到曝光侧输出流。动作日志的处理与曝光日志相同（注意：一条页面日志可能既有曝光数据又有动作数据，二者没有任何关系，因此曝光数据不为 null 时仍要对动作数据进行处理）；

⑤ 动作日志和曝光日志处理结束后删除 displays 和 actions 字段，此时主流的 JSONObject 中只有 common 字段、 page 字段和 ts 字段，即为最终的页面日志。
处理结束后，页面日志数据位于主流，其余四种日志分别位于对应的侧输出流，将五条流的数据写入 Kafka 对应主题即可。

3、图解

4、代码

1）在 KafkaUtil 工具类中补充 getKafkaProducer() 方法

       /**
         * 自定义序列化器和上面的反序列化器都使用下
         * 生产者
         * @param topic
         * @param defaultTopic
         * @return
         */
        public static FlinkKafkaProducer<String> getFlinkKafkaProducer(String topic, String defaultTopic) {
            Properties properties = new Properties();
            //设置集群信息
            properties.setProperty(ConsumerConfig.BOOTSTRAP_SERVERS_CONFIG, KAFKA_SERVER);
            return new FlinkKafkaProducer<String>(
                    defaultTopic,
                    new KafkaSerializationSchema<String>() {
                        @Override
                        public ProducerRecord<byte[], byte[]> serialize(String element, @Nullable Long timestamp) {
                            if (element == null) {
                                return new ProducerRecord<>(topic, "".getBytes());
                            }
    
                            return new ProducerRecord<>(topic, element.getBytes());
                        }
                    }, properties,
                    FlinkKafkaProducer.Semantic.EXACTLY_ONCE
            );
        }

2）创建 DateFormatUtil 工具类用于日期格式化

package org.example.utils;

import java.time.LocalDateTime;
import java.time.ZoneId;
import java.time.ZoneOffset;
import java.time.format.DateTimeFormatter;
import java.util.Date;

public class DateFormatUtil {

    private static final DateTimeFormatter dtf = DateTimeFormatter.ofPattern("yyyy-MM-dd");
    private static final DateTimeFormatter dtfFull = DateTimeFormatter.ofPattern("yyyy-MM-dd HH:mm:ss");

    public static Long toTs(String dtStr, boolean isFull) {

        LocalDateTime localDateTime = null;
        if (!isFull) {
            dtStr = dtStr + " 00:00:00";
        }
        localDateTime = LocalDateTime.parse(dtStr, dtfFull);

        return localDateTime.toInstant(ZoneOffset.of("+8")).toEpochMilli();
    }

    public static Long toTs(String dtStr) {
        return toTs(dtStr, false);
    }

    public static String toDate(Long ts) {
        Date dt = new Date(ts);
        LocalDateTime localDateTime = LocalDateTime.ofInstant(dt.toInstant(), ZoneId.systemDefault());
        return dtf.format(localDateTime);
    }

    public static String toYmdHms(Long ts) {
        Date dt = new Date(ts);
        LocalDateTime localDateTime = LocalDateTime.ofInstant(dt.toInstant(), ZoneId.systemDefault());
        return dtfFull.format(localDateTime);
    }

    public static void main(String[] args) {
        System.out.println(toYmdHms(System.currentTimeMillis()));
    }
}

3）主程序

package org.example.app.dwd;

import com.alibaba.fastjson.JSON;
import com.alibaba.fastjson.JSONArray;
import com.alibaba.fastjson.JSONObject;
import org.apache.flink.api.common.functions.RichMapFunction;
import org.apache.flink.api.common.state.ValueState;
import org.apache.flink.api.common.state.ValueStateDescriptor;
import org.apache.flink.configuration.Configuration;
import org.apache.flink.streaming.api.datastream.DataStream;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.datastream.KeyedStream;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.functions.ProcessFunction;
import org.apache.flink.util.Collector;
import org.apache.flink.util.OutputTag;
import org.example.utils.DateFormatUtil;
import org.example.utils.MyKafkaUtil;

/**
 * 数据流 web/app -> Nginx -> 日志服务器(.log) -> Flume -> Kafka(ODS) -> FlinkApp -> Kafka(DWD)
 * 程序：Mock(lg.sh) -> Flume(f1) ->  kafka(zk) ->BaseLogApp ->kafka(ZK)
 */
public class BaseLogApp {
    public static void main(String[] args) throws Exception {

        //TODO 1、获取执行环境
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setParallelism(1); //生产环境中设置为kafka主题分区数

        //1.1 开启Checkpoint
        //env.enableCheckpointing(5 * 60000L, CheckpointingMode.EXACTLY_ONCE); //5分钟开启一次
        //env.getCheckpointConfig().setCheckpointTimeout(10 * 60000L); //超时10分钟
        //env.getCheckpointConfig().setMaxConcurrentCheckpoints(2); //共存的有几个Checkpoint
        //env.setRestartStrategy(RestartStrategies.fixedDelayRestart(3, 5)); //总共会尝试3次重启、每隔5秒尝试一次（固定匹配重启）

        //1.2 设置状态后端(本地的内存级别的)
        //env.setStateBackend(new HashMapStateBackend());
        //env.getCheckpointConfig().setCheckpointStorage("hdfs://hadoop102:8082/211126/ck");
        //System.setProperty("HADOOP_USER_NAME", "atguigu");


        //TODO 2、消费kafka topic_log 主题的数据创建流
        String topic = "topic_log";
        String groupId = "base_log_app";
        DataStreamSource<String> kafkaDS = env.addSource(MyKafkaUtil.getFlinkKafkaConsumer(topic, groupId));


        //TODO 3、过滤掉非json格式的数据将每行数据转换为JSON对象
        //测输出流标记(测输出流只能用process)
        OutputTag<String> dirtyTag = new OutputTag<String>("Dirty") {
        };

        SingleOutputStreamOperator<JSONObject> jsonDS = kafkaDS.process(new ProcessFunction<String, JSONObject>() {
            @Override
            public void processElement(String value, Context context, Collector<JSONObject> out) throws Exception {
                try {
                    //没有发生异常写入主流
                    JSONObject jsonObject = JSON.parseObject(value);
                    out.collect(jsonObject);
                } catch (Exception e) {
                    //没有发生异常写入测输出流
                    context.output(dirtyTag, value);
                }
            }
        });

        //获取测输出流脏数据并打印
        DataStream<String> dirtyDS = jsonDS.getSideOutput(dirtyTag);
        dirtyDS.print("Dirty>>>>>>>>>>>>>>");


        /**
         * {
         *      "common":{
         *          "ar":"530000","ba":"Xiaomi","ch":"xiaomi","is_new":"1","md":"Xiaomi 9","mid":"mid_26499","os":"Android 11.0","uid":"845","vc":"v2.0.1"
         *          },
         *              "start":{
         *              "entry":"notice","loading_time":11017,"open_ad_id":13,"open_ad_ms":9784,"open_ad_skip_ms":0
         *              },
         *              "ts":1592126246000
         *              }
         *
         */
        //TODO 4、按照Mid分组（每一个mid一个状态）
        KeyedStream<JSONObject, String> keyedStream = jsonDS.keyBy(json -> json.getJSONObject("common").getString("mid"));

        //TODO 5、使用状态编程做新老访客标记的校验
        SingleOutputStreamOperator<JSONObject> jsonObjectWithNewFlagDS = keyedStream.map(new RichMapFunction<JSONObject, JSONObject>() {

            //状态-存储年月日
            private ValueState<String> lastVisitState;

            @Override
            public void open(Configuration parameters) throws Exception {
                lastVisitState = getRuntimeContext().getState(new ValueStateDescriptor<String>("last-visit", String.class));
            }

            @Override
            public JSONObject map(JSONObject value) throws Exception {

                //获取is_new 标记 & ts
                String isNew = value.getJSONObject("common").getString("is_new");
                Long ts = value.getLong("ts");
                String curDate = DateFormatUtil.toDate(ts);

                //获取状态中的日期
                String lastDate = lastVisitState.value();
                //1、判读is_new 标记是否为 "1"
                if ("1".equals(isNew)) {
                    //如果键控状态为null，则将日志ts对应的日期更新到状态中，不对is_new字段做修改
                    if (lastDate == null) {
                        lastVisitState.update(curDate);
                        //如果状态不为null，且首次访问日期不是当日，则将is_new字段值为0
                    } else if (!lastDate.equals(curDate)) {
                        value.getJSONObject("common").put("is_new", "0");
                    } else {
                        //如果键控状态不为null，且首次访问日期不是当日，不做操作、此else可删除
                    }

                    //如果is_new是0
                    //如果键控状态为null，则将状态中的首次访问日期更新为昨日，这样做可以保证同一mid的其它日志到来时，依然会被判定为老访客
                } else if (lastDate == null) {
                    lastVisitState.update(DateFormatUtil.toDate(ts - 24 * 60 * 60 * 100L));
                } else {
                    //如果键控状态不为null，不做操作
                }
                return value;
            }

        });


        //TODO 6、使用测输出流进行分流处理 --页面日志放到主流
        OutputTag<String> startTag = new OutputTag<String>("start") {
        };
        OutputTag<String> displayTag = new OutputTag<String>("display") {
        };
        OutputTag<String> actionTag = new OutputTag<String>("action") {
        };
        OutputTag<String> errorTag = new OutputTag<String>("error") {
        };

        SingleOutputStreamOperator<String> pageDS = jsonObjectWithNewFlagDS.process(new ProcessFunction<JSONObject, String>() {
            @Override
            public void processElement(JSONObject value, Context context, Collector<String> out) throws Exception {

                //尝试获取错误信息
                String err = value.getString("err");
                if (err != null) {
                    //将数据写到error测输出流
                    context.output(errorTag, value.toJSONString());
                }

                //移除错误信息
                value.remove("err");

                //尝试获取启动信息
                String start = value.getString("start");
                if (start != null) {
                    //将数据写到start测输出流
                    context.output(startTag, value.toJSONString());
                } else {

                    //获取公共信息&页面id&时间戳
                    String common = value.getString("common");
                    String pageId = value.getJSONObject("page").getString("page_id");
                    Long ts = value.getLong("ts");


                    //尝试获取曝光数据
                    JSONArray displays = value.getJSONArray("displays");
                    if (displays != null && displays.size() > 0) {
                        //遍历曝光数据&写到display测输出流
                        for (int i = 0; i < displays.size(); i++) {
                            JSONObject display = displays.getJSONObject(i);
                            display.put("common", common);
                            display.put("pageId", pageId);
                            display.put("ts", ts);
                            context.output(displayTag, display.toJSONString());
                        }
                    }

                    //尝试获取动作数据
                    JSONArray actions = value.getJSONArray("actions");
                    if (actions != null && actions.size() > 0) {
                        //遍历曝光数据&写到display测输出流
                        for (int i = 0; i < actions.size(); i++) {
                            JSONObject action = actions.getJSONObject(i);
                            action.put("common", common);
                            action.put("pageId", pageId);
                            context.output(actionTag, action.toJSONString());
                        }
                    }

                    //移除曝光和动作数据&写到页面日志主流
                    value.remove("displays");
                    value.remove("actions");
                    //页面日志写到主流
                    out.collect(value.toJSONString());
                }
            }
        });

        //TODO 7、提取各个测输出流数据
        DataStream<String> startDS = pageDS.getSideOutput(startTag);
        DataStream<String> displayDS = pageDS.getSideOutput(displayTag);
        DataStream<String> actionDS = pageDS.getSideOutput(actionTag);
        DataStream<String> errorDS = pageDS.getSideOutput(errorTag);

        //TODO 8、将数据打印写并入对应的主题
        pageDS.print("page>>>>>>>>>>");
        startDS.print("start>>>>>>>");
        displayDS.print("display>>>>>>>>");
        actionDS.print("action>>>>>>>>");
        errorDS.print("error>>>>>>>");
        String page_topic = "dwd_traffic_page_log";
        String start_topic = "dwd_traffic_start_log";
        String display_topic = "dwd_traffic_display_log";
        String action_topic = "dwd_traffic_action_log";
        String error_topic = "dwd_traffic_error_log";

        //把测输出发送到kafka
        pageDS.addSink(MyKafkaUtil.getFlinkKafkaProducer(page_topic));
        startDS.addSink(MyKafkaUtil.getFlinkKafkaProducer(start_topic));
        displayDS.addSink(MyKafkaUtil.getFlinkKafkaProducer(display_topic));
        actionDS.addSink(MyKafkaUtil.getFlinkKafkaProducer(action_topic));
        errorDS.addSink(MyKafkaUtil.getFlinkKafkaProducer(error_topic));

        //TODO 9、启动任务
        env.execute();
    }
}

二、流量域独立访客事务事实表

1、主要任务

过滤页面数据中的独立访客访问记录。

2、思路分析

1）过滤 last_page_id 不为 null 的数据

独立访客数据对应的页面必然是会话起始页面，last_page_id 必为 null。过滤 last_page_id != null 的数据，减小数据量，提升计算效率。

2）筛选独立访客记录

运用 Flink 状态编程，为每个 mid 维护一个键控状态，记录末次登录日期。

如果末次登录日期为 null 或者不是今日，则本次访问是该 mid 当日首次访问，保留数据，将末次登录日期更新为当日。否则不是当日首次访问，丢弃数据。

3）状态存活时间设置

如果保留状态，第二日同一 mid 再次访问时会被判定为新访客，如果清空状态，判定结果相同，所以只要时钟进入第二日状态就可以清空。

设置状态的 TTL 为 1 天，更新模式为 OnCreateAndWrite，表示在创建和更新状态时重置状态存活时间。如：2022-02-21 08:00:00 首次访问，若 2022-02-22 没有访问记录，则 2022-02-22 08:00:00 之后状态清空。

3、图解

4、代码

package org.example.app.dwd;

import com.alibaba.fastjson.JSONAware;
import com.alibaba.fastjson.JSONObject;
import org.apache.flink.api.common.functions.FlatMapFunction;
import org.apache.flink.api.common.functions.RichFilterFunction;
import org.apache.flink.api.common.state.StateTtlConfig;
import org.apache.flink.api.common.state.ValueState;
import org.apache.flink.api.common.state.ValueStateDescriptor;
import org.apache.flink.api.common.time.Time;
import org.apache.flink.configuration.Configuration;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.datastream.KeyedStream;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.util.Collector;
import org.example.utils.DateFormatUtil;
import org.example.utils.MyKafkaUtil;

/**
 * DWD流量域
 * // 数据流：web/app ->Nginx->日志服务器（.log） ->Flume ->kafka(ODS) -> FlinkApp -> kafka(DWD) ->FLINKApp ->kafka(DWD)
 * //程 序：Mock(lg.sh)->Flume(f1) ->kafka(ZK) ->dwdTrafficUniqueVisitorDetail -> kafka(ZK)
 * <p>
 */
public class DwdTrafficUniqueVisitorDetail {

    public static void main(String[] args) throws Exception {
        //TODO 1、获取执行环境
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setParallelism(1); //生产环境中设置为kafka主题分区数

        //1.1 开启Checkpoint
        //env.enableCheckpointing(5 * 60000L, CheckpointingMode.EXACTLY_ONCE); //5分钟开启一次
        //env.getCheckpointConfig().setCheckpointTimeout(10 * 60000L); //超时10分钟
        //env.getCheckpointConfig().setMaxConcurrentCheckpoints(2); //共存的有几个Checkpoint
        //env.setRestartStrategy(RestartStrategies.fixedDelayRestart(3, 5)); //总共会尝试3次重启、每隔5秒尝试一次（固定匹配重启）

        //1.2 设置状态后端(本地的内存级别的)
        //env.setStateBackend(new HashMapStateBackend());
        //env.getCheckpointConfig().setCheckpointStorage("hdfs://hadoop102:8082/211126/ck");
        //System.setProperty("HADOOP_USER_NAME", "atguigu");

        //TODO 2、读取kafka 页面日志主题创建流
        String topic = "dwd_traffic_page_log";
        String groupId = "unique_visitor_detail";
        DataStreamSource<String> kafkaDS = env.addSource(MyKafkaUtil.getFlinkKafkaConsumer(topic, groupId));

        //TODO 3、过滤掉上一条页面不为null的数据并将每行数据转换为JSON对象
        SingleOutputStreamOperator<JSONObject> jsonDS = kafkaDS.flatMap(new FlatMapFunction<String, JSONObject>() {
            @Override
            public void flatMap(String value, Collector<JSONObject> out) throws Exception {

                //只取等于null的
                try {
                    JSONObject jsonObject = JSONObject.parseObject(value);
                    //获取上一跳页面ID
                    String lastPageId = jsonObject.getJSONObject("page").getString("last_page_id");
                    if (lastPageId == null) {
                        out.collect(jsonObject);
                    }

                } catch (Exception e) {
                    e.printStackTrace();
                    System.out.println(value);
                }
            }
        });

        //TODO 4、按照Mid分组
        KeyedStream<JSONObject, String> keyedStream = jsonDS.keyBy(json -> json.getJSONObject("common").getString("mid"));

        //TODO 5、使用状态编程实现按照Mid的去重
        SingleOutputStreamOperator<JSONObject> uvDS = keyedStream.filter(new RichFilterFunction<JSONObject>() {

            //状态存日期
            private ValueState<String> lastVisitState;

            @Override
            public void open(Configuration parameters) throws Exception {

                //new 已一个状态描述器
                ValueStateDescriptor<String> stateDescriptor = new ValueStateDescriptor<String>("last-visit", String.class);

                //设置状态的TTL-存活时间数
                StateTtlConfig ttlConfig = new StateTtlConfig.Builder(Time.days(1))
                        //更新状态的时候也可以更新过期时间
                        .setUpdateType(StateTtlConfig.UpdateType.OnCreateAndWrite)
                        .build();

                stateDescriptor.enableTimeToLive(ttlConfig);

                lastVisitState = getRuntimeContext().getState(stateDescriptor);
            }

            /**
             * 状态记录mid末次登陆日期。如果末次登陆日期为null或者不是今日, 则本次访问是该mid当日首次访问，保留数据，
             * 将末次登陆日期更新为当日。否则不是当日首次访问，丢弃数据.
             * @param value
             * @return
             * @throws Exception
             */
            @Override
            public boolean filter(JSONObject value) throws Exception {
                //获取状态数据&当前数据中的时间戳并转换为日期
                String lastDate = lastVisitState.value();

                Long ts = value.getLong("ts");
                String curDate = DateFormatUtil.toDate(ts);

                if (lastDate == null || !lastDate.equals(curDate)) {
                    lastVisitState.update(curDate);
                    return true;
                } else {
                    return false;
                }

            }
        });

        //TODO 6、将数据写到kafka
        String targetTopic = "dwd_traffic_unique_visitor_detail";
        uvDS.map(JSONAware::toJSONString)
                .addSink(MyKafkaUtil.getFlinkKafkaProducer(targetTopic));

        //TODO 7、启动任务苏
        env.execute("DwdTrafficUniqueVisitorDetail");
    }
}

你可能感兴趣的:(数据仓库,hadoop,scala,kafka)

flume系列之：消费Kafka集群Topic报错java.io.IOException: Can‘t resolve address: data03:9092 快乐骑行^_^ flume flume系列消费Kafka集群Topic OException resolve address
flume系列之：消费Kafka集群Topic报错java.io.IOException:Can'tresolveaddress:data03:9092Causedby:java.nio.channels.UnresolvedAddressException一、flume消费Kafka集群Topic报错二、报错原因三、解决方法一、flume消费Kafka集群Topic报错21Sep202214:5
spark和python的区别_Spark入门(Python) weixin_39934257 spark和python的区别
Spark是第一个脱胎于该转变的快速、通用分布式计算范式，并且很快流行起来。Spark使用函数式编程范式扩展了MapReduce模型以支持更多计算类型，可以涵盖广泛的工作流，这些工作流之前被实现为Hadoop之上的特殊系统。Spark使用内存缓存来提升性能，因此进行交互式分析也足够快速(就如同使用Python解释器，与集群进行交互一样)。缓存同时提升了迭代算法的性能，这使得Spark非常适合数据理
spark python入门_python pyspark入门篇 weixin_39686634 spark python入门
一.环境介绍：1.安装jdk7以上2.python2.7.113.IDEpycharm4.package:spark-1.6.0-bin-hadoop2.6.tar.gz二.Setup1.解压spark-1.6.0-bin-hadoop2.6.tar.gz到目录D:\spark-1.6.0-bin-hadoop2.62.配置环境变量Path，添加D:\spark-1.6.0-bin-hadoop2
最新性能测试:Kafka、Pulsar 和 Pravega 哪个最强? 起码有故事程序员软件测试 IT 程序人生测试工程师单元测试软件测试 python
本文会对Pravega进行性能评估，重点关注读写性能。1简介为了对比不同的设计选择，我们还额外展示了来自其它系统的性能结果：ApacheKafka和ApachePulsar。Pulsar和Kafka最初都被作为优秀的消息系统而为人熟知，但它们最近都做出了很大努力向存储系统方向发展，这两个系统最近都新增了分层存储的特性。然而，它们的设计选择具有根本性的不同，并导致了不同的行为以及性能特点。我们将会在
centos7搭建flink1.18并以 standalone模式启动咸鱼c君 flink 大数据大数据
版本组件版本scala2.12.20java1.8.0_181flink1.18.1关于scala和Java的安装参考：scala和java安装flink下载地址：flink下载链接集群规划bigdata01bigdata02bigdata03masterworkerworkerworker安装1.创建存放路径三个节点都需要操作用于存放安装包:mkdir/home/software/用于存放存放解
使用 Redis Streams 实现高性能消息队列桂月二二 redis 数据库缓存
1.引言在后端开发中，消息队列是一个常见的组件，主要用于解耦系统、提高吞吐量以及实现异步处理。常见的消息队列包括Kafka、RabbitMQ以及ActiveMQ，但RedisStreams作为Redis5.0引入的新特性，也提供了一种高效、轻量的消息队列解决方案。本文将深入探讨RedisStreams的核心概念，并演示如何在后端服务中使用RedisStreams实现一个高性能的消息队列。2.Red
Kafka的内部通信协议优人ovo kafka 分布式
引言kafka内部用到的常见协议和优缺点可以看看原文Kafka用到的协议本文奖详细探究kafka核心通信协议和高性能的关键网络层通信的实现基于JavaNIO：Kafka的网络通信层主要基于JavaNIO来实现，这使得它能够高效地处理大量的连接和数据传输。在KafkaChannel类中，通过Selector来管理多个连接的读写操作，实现了非阻塞的I/O模型，能同时处理多个客户端连接，提高了系统的并发
Kafa分区策略实现优人ovo kafka 分布式
引言Kafka的分区策略决定了生产者发送的消息会被分配到哪个分区中，合理的分区策略有助于实现负载均衡、提高消息处理效率以及满足特定的业务需求。轮询策略（默认）轮询策略是Kafka默认的分区策略（当消息没有指定键时）。生产者会按照顺序依次将消息发送到各个分区中，确保每个分区都能均匀地接收到消息，从而实现负载均衡。简单高效，能使各个分区的消息量相对均衡，充分利用每个分区的存储和处理能力。importo
关于kafka，关于消息队列、消息协议什么都没学会 kafka 消息队列消息协议 AMQP XMPP
Kafka详解-知乎消息队列RabbitMQ入门与5种模式详解-简书消息协议（MQTT、AMQP、XMPP、WAMP、STOMP）之间的区别和应用_mqttamqp-CSDN博客
Kafka 实现之消息及消息格式流华追梦 Kafka kafka Kafka消息 Kafka消息格式消息批次控制批次 Record Header 旧消息格式
目录一.前言二.Kafka消息（Messages）三.Kafka消息格式（MessageFormat）3.1.消息批次（RecordBatch）3.1.1.控制批次（ControlBatches）3.2.记录（Record）3.2.1.记录的Header（RecordHeader）3.3.旧消息格式（OldMessageFormat）一.前言Kafka的消息格式是由消息的键和值组成的。每条消息都有
【数据仓库】三日看尽长安花系统架构师数据仓库
数据仓库：概念、架构与应用目录什么是数据仓库数据仓库的特点数据仓库的架构3.1数据源层3.2数据集成层（ETL）3.3数据存储层3.4数据展示与应用层数据仓库的建模方法4.1星型模型4.2雪花模型4.3星座模型数据仓库与数据库的区别数据仓库的应用场景数据仓库的优缺点分析数据仓库的未来趋势总结1.什么是数据仓库数据仓库（DataWarehouse,DW）是一种用于分析和报告的数据库系统，专门为大规模
安装HBase-2.4.12 (hadoop3.3.1) 不饿同学大数据 hbase big data hadoop
1.下载https://www.apache.org/dyn/closer.lua/hbase/2.4.12/hbase-2.4.12-bin.tar.gz节点角色配置节点MasterZooKeeperRegionServernode001yesyesyesnode002backupyesyesnode003noyesyes2.解压下载的文件，并切换到新创建的目录。(base)[root@node
kafka自定义分区器无法接收到数据一嗷 kafka
记录一下大无语事件，今天看尚硅谷的kafka自定义分区器，结果自己编写得分区器kafka一直接收不到数据，idea里也终端没有语句输出，找了好久才发现问题。自定义分区器代码：importorg.apache.kafka.clients.producer.Partitioner;importorg.apache.kafka.common.Cluster;importjava.util.Map;pub
kafka中的自定义分区器使用详解皮哥四月红 Kafka kafka
综述在Kafka中，topic是逻辑上的概念，而partition是物理上的概念。不用担心，这些对用户来说是透明的。生产者（producer）只关心自己将消息发布到哪个topic，而消费者（consumer）只关心自己订阅了哪个topic上的消息，至少topic上的消息分布在哪些partition节点上，它本身并不关心。设想一下，如果在Kafka中没有分区的话，那么topic的消息集合将集中于某一
kafka自定义分区程序猿郭鹏飞神奇经历 kafka kafka自定义分区 kafka partition
默认的分区策略1.如果键值为null，并且使用了默认的分区器，那么记录将被随机地发送到主题内各个可用的分区上。分区器使用轮询（RoundRobin）算法将消息均衡地分布到各个分区上。2.如果键不为空，并且使用了默认的分区器，那么Kafka会对键取hash值然后根据散列值把消息映射到特定的分区上。这里的关键之处在于，同一个键总是被映射到同一个分区上，所以在进行映射时，我们会使用主题所有的分区，而不仅
【Kafka】Kafka自定义分区器 beautiful_huang kafka kafka
1.默认的分区策略(1)如果键值为null，并且使用了默认的分区器，那么记录将被随机地发送到主题内各个可用的分区上。分区器使用轮询（RoundRobin）算法将消息均衡地分布到各个分区上。(2)如果键不为空，并且使用了默认的分区器，那么Kafka会对键取hash值然后根据散列值把消息映射到特定的分区上。这里的关键之处在于，同一个键总是被映射到同一个分区上，所以在进行映射时，我们会使用主题所有的分区
如何在 Kafka 中实现自定义分区器 My LQS 学习笔记篇历史经验篇 kafka 分布式
今天我来给大家分享一下如何在Kafka中实现一个自定义分区器。Kafka是一个分布式流处理平台，能够高效地处理海量数据。默认情况下，Kafka使用键的哈希值来决定消息应该发送到哪个分区，但是有时我们需要根据特定的业务逻辑来定制分区策略。这时候，自定义分区器就显得格外重要了。什么是Kafka分区器？Kafka中的分区器（Partitioner）决定了每条消息应该被发送到哪个分区。Kafka默认提供了
如何自己设计一个类似Dubbo的RPC框架？赵广陆 dubbo rpc java 网络协议
1问题分析:如何自己设计一个类似Dubbo的RPC框架？说实话，就这问题，其实就跟问你如何自己设计一个MQ一样的道理，就考两个：你有没有对某个rpc框架原理有非常深入的理解。你能不能从整体上来思考一下，如何设计一个rpc框架，考考你的系统设计能力。2面试题回答:其实问到你这问题，你起码不能认怂，因为是知识的扫盲，那我不可能给你深入讲解什么kafka源码剖析，dubbo源码剖析，何况我就算讲了，你要
被怼了：acks=all消息也会丢失？ java
消息队列是面试中一定会被问到的技术模块，虽然它在面试题占比不及并发编程和数据库，但也属于面试中的关键性问题。所以今天我们就来看一道，MQ中高频，但可能会打破你以往认知的一道面试题。所谓的关键问题指的是这道面试题会影响你整体面试结果。我们在面试消息队列（MessageQueue，MQ）时，尤其是面试Kafka时，经常会被问到：如何保证消息不丢失？那么，我们的回答会分为以下3部分：保证生产者消息不丢失
TDengine 做为 FLINK 数据源技术参考手册 TDengine （老段） tdengine flink 大数据涛思数据时序数据库数据库
ApacheFlink是一款由Apache软件基金会支持的开源分布式流批一体化处理框架，可用于流处理、批处理、复杂事件处理、实时数据仓库构建及为机器学习提供实时数据支持等诸多大数据处理场景。与此同时，Flink拥有丰富的连接器与各类工具，可对接众多不同类型的数据源实现数据的读取与写入。在数据处理的过程中，Flink还提供了一系列可靠的容错机制，有力保障任务即便遭遇意外状况，依然能稳定、持续运行。借
Hadoop--HA架构详解娘子，出来看上帝 Hadoop Hadoop 大数据 HA
一、HA架构工作背景HDFS集群中的nameNode存在单点故障因素。对于只有一个nameNode工作的集群来说，一旦nameNode出现意外情况，会导致整个集群无法工作，直到nameNode重新启动。为了解决上述问题，Hadoop给出了高容错，高可用的HA方案：一个HDFS集群至少存在两个nameNode，一个nameNode处在active（主）状态，其他nameNode处在standby（备
Hadoop HA 架构 weixin_30569033 shell 大数据
为什么要用集群?企业里面,多台机器伪分布式每一个角色都是一个进程HDFS:NNSNNDNYARN:RMNM大数据所有组件,都是主从架构master-slaveHDFS读写请求都是先到NN节点,但是,HBase读写请求不是经过master,建表和删除表是需要经过masterNN节点挂了,就不能提供对外服务(-put,-get)需要配置两个NN节点(实时的,任何时刻只有一台active对外,另外一台是
【1】阿里面试题整理独自破碎E Java面经 c#java kafka mybatis hash
[1].Kafka如何保证数据一致性？Kafka主要通过副本机制、ISR机制、持久化机制以及事务机制等多种方式共同保证了数据的一致性。副本机制是Kafka确保数据一致性的基础，使用ISR(In-SyncReplica)机制来处理副本之间的同步，将消息持久化到硬盘中，以确保消息在发生故障时不会丢失。引入事务机制来支持事务性消息，确保消息的原子性、一致性、隔离性和持久性，从而保证数据在生产和消费过程中
hive表指定分区字段搜索_Hive学习-Hive基本操作（建库、建表、分区表、写数据）... weixin_39710660 hive表指定分区字段搜索
hive简单认识Hive是建立在HDFS之上的数据仓库，所以Hive的数据全部存储在HDFS上。Hive的数据分为两部分，一部分是存在HDFS上的具体数据，一部分是描述这些具体数据的元数据信息，一般Hive的元数据存在MySQL上。Hive是类SQL语法的数据查询、计算、分析工具，执行引擎默认的是MapReduce，可以设置为Spark、Tez。Hive分内部表和外部表，外部表在建表的同时指定一个
【hadoop学习之路】Hive HQL 语句实现查询新世纪debug战士 hadoop学习之路 hive
目录表数据表1students_data.txt表2course.txt实验步骤结论表数据表1students_data.txt21434,Sara,F,21,20,73,classC41443,Mary,M,19,30,90,classA43333,Dery,F,20,40,85,classB45454,Mary,F,22,10,91,classA14634,Henry,M,18,50,56,c
Doris实战——特步集团零售数据仓库项目实践吵吵叭火 #Doris 大数据大数据数据仓库
目录一、背景二、总体架构三、ETL实践3.1批量数据的导入3.2实时数据接入3.3数据加工3.4BI查询四、实时需求响应五、其他经验5.1DorisBE内存溢出5.2SQL任务超时5.3删除语句不支持表达式5.4Drop表闪回六、未来展望原文大佬的这篇Doris数仓建设案例有借鉴意义，这里摘抄下来用作学习和知识沉淀。如有侵权等告知~一、背景特步集团有限公司是中国领先的体育用品企业之一，为了提高特步
设计转换Apache Hive的HQL语句为Snowflake SQL语句的Python程序方法 weixin_30777913 python 数据仓库 hive sql
首先，根据以下各类HQL语句的基本实例和官方文档记录的这些命令语句各种参数设置，得到各种HQL语句的完整实例，然后在Snowflake的官方文档找到它们对应的SnowflakeSQL语句，建立起对应的关系表。在这个过程中要注意HQL语句和SnowflakeSQL语句的区别，比如Hive可以给单个用户加权限，但是Snowflake数据仓库是RBAC，也就是基于角色的权限控制，所以HQL语句中给用户加
Kafka 如何实现高性能言之。架构面试 kafka 分布式
1.高吞吐量的设计分布式架构：Kafka通过分布式的集群架构设计来横向扩展，提高吞吐量。多个生产者、消费者和节点可以同时并行工作，分担流量负载。分区机制：Kafka使用分区来分散负载，每个topic可以有多个分区，每个分区可以独立处理读写操作。消费者可以并行地处理多个分区的数据，从而提升性能。分区内部的消息顺序性得到保证，但多个分区之间消息顺序不保证，这种设计能够实现高并发的处理。2.顺序写入与高
HDFS总结 ChenJieYaYa Hadoop hdfs hadoop big data
基于前面的学习与配置，相信对于HDFS有了一定的了解HDFS概述1.什么是HDFSHadoopDistributedFileSystem：分步式文件系统HDFS是Hadoop体系中数据存储管理的基础HDFS是基于流数据模式访问和处理超大文件的需求而开发的1.流式数据：将数据序列化为字节流来存储，这样不会破坏文件的结构和内容，而且字节流直接存储在磁盘上，可以分片或分块2.当超大规模的文件本身就已经超
在AWS上使用KMS客户端密钥加密S3文件，同时支持PySpark读写和Snowflake导入 weixin_30777913 python spark 大数据云计算数据仓库
现有AWSEMR集群上运行PySpark代码，可以读写S3上的数据文件，Snowflake数据仓库也需要导入S3上的文件到表。现在要用AWSKMS有客户端密钥加密S3上的文件，同时允许PySpark代码，可以读写S3上的数据文件，Snowflake数据仓库导入S3上的文件到表。为了实现AWSEMR上的PySpark读写KMS加密的S3文件，并让Snowflake导入这些文件，请按照以下步骤操作：一
SAX解析xml文件小猪猪08 xml
1.创建SAXParserFactory实例 2.通过SAXParserFactory对象获取SAXParser实例 3.创建一个类SAXParserHander继续DefaultHandler，并且实例化这个类 4.SAXParser实例的parse来获取文件 public static void main(String[] args) { //
为什么mysql里的ibdata1文件不断的增长？ brotherlamp linux linux运维 linux资料 linux视频 linux运维自学
我们在 Percona 支持栏目经常收到关于 MySQL 的 ibdata1 文件的这个问题。当监控服务器发送一个关于 MySQL 服务器存储的报警时，恐慌就开始了 —— 就是说磁盘快要满了。一番调查后你意识到大多数地盘空间被 InnoDB 的共享表空间 ibdata1 使用。而你已经启用了 innodbfileper_table，所以问题是： ibdata1存了什么？当你启用了 i
Quartz-quartz.properties配置 eksliang quartz
其实Quartz JAR文件的org.quartz包下就包含了一个quartz.properties属性配置文件并提供了默认设置。如果需要调整默认配置，可以在类路径下建立一个新的quartz.properties，它将自动被Quartz加载并覆盖默认的设置。下面是这些默认值的解释 #-----集群的配置 org.quartz.scheduler.instanceName =
informatica session的使用 18289753290 workflow session log Informatica
如果希望workflow存储最近20次的log，在session里的Config Object设置，log options做配置，save session log :sessions run ;savesessio log for these runs:20 session下面的source 里面有个tracing
Scrapy抓取网页时出现CRC check failed 0x471e6e9a != 0x7c07b839L的错误酷的飞上天空 scrapy
Scrapy版本0.14.4 出现问题现象： ERROR: Error downloading <GET http://xxxxx CRC check failed 解决方法 1.设置网络请求时的header中的属性'Accept-Encoding': '*;q=0' 明确表示不支持任何形式的压缩格式，避免程序的解压
java Swing小集锦永夜-极光 java swing
1.关闭窗体弹出确认对话框 1.1 this.setDefaultCloseOperation (JFrame.DO_NOTHING_ON_CLOSE); 1.2 this.addWindowListener ( new WindowAdapter () { public void windo
强制删除.svn文件夹随便小屋 java
在windows上，从别处复制的项目中可能带有.svn文件夹，手动删除太麻烦，并且每个文件夹下都有。所以写了个程序进行删除。因为.svn文件夹在windows上是只读的，所以用File中的delete()和deleteOnExist()方法都不能将其删除，所以只能采用windows命令方式进行删除
GET和POST有什么区别？及为什么网上的多数答案都是错的。 aijuans get post
如果有人问你，GET和POST，有什么区别？你会如何回答？我的经历前几天有人问我这个问题。我说GET是用于获取数据的，POST，一般用于将数据发给服务器之用。这个答案好像并不是他想要的。于是他继续追问有没有别的区别？我说这就是个名字而已，如果服务器支持，他完全可以把G
谈谈新浪微博背后的那些算法 aoyouzi 谈谈新浪微博背后的那些算法
本文对微博中常见的问题的对应算法进行了简单的介绍，在实际应用中的算法比介绍的要复杂的多。当然，本文覆盖的主题并不全，比如好友推荐、热点跟踪等就没有涉及到。但古人云“窥一斑而见全豹”，希望本文的介绍能帮助大家更好的理解微博这样的社交网络应用。微博是一个很多人都在用的社交应用。天天刷微博的人每天都会进行着这样几个操作：原创、转发、回复、阅读、关注、@等。其中，前四个是针对短博文，最后的关注和@则针
Connection reset 连接被重置的解决方法百合不是茶 java 字符流连接被重置
流是java的核心部分,,昨天在做android服务器连接服务器的时候出了问题,就将代码放到java中执行,结果还是一样连接被重置被重置的代码如下; 客户端代码; package 通信软件服务器; import java.io.BufferedWriter; import java.io.OutputStream; import java.io.O
web.xml配置详解之filter bijian1013 java web.xml filter
一.定义 <filter> <filter-name>encodingfilter</filter-name> <filter-class>com.my.app.EncodingFilter</filter-class> <init-param> <param-name>encoding<
Heritrix Bill_chen 多线程 xml 算法制造配置管理
作为纯Java语言开发的、功能强大的网络爬虫Heritrix，其功能极其强大，且扩展性良好，深受热爱搜索技术的盆友们的喜爱，但它配置较为复杂，且源码不好理解，最近又使劲看了下，结合自己的学习和理解，跟大家分享Heritrix的点点滴滴。 Heritrix的下载（http://sourceforge.net/projects/archive-crawler/）安装、配置，就不罗嗦了，可以自己找找资
【Zookeeper】FAQ bit1129 zookeeper
1.脱离IDE，运行简单的Java客户端程序 #ZkClient是简单的Zookeeper~$ java -cp "./:zookeeper-3.4.6.jar:./lib/*" ZKClient 1. Zookeeper是的Watcher回调是同步操作，需要添加异步处理的代码 2. 如果Zookeeper集群跨越多个机房，那么Leader/
The user specified as a definer ('aaa'@'localhost') does not exist 白糖_ localhost
今天遇到一个客户BUG，当前的jdbc连接用户是root，然后部分删除操作都会报下面这个错误：The user specified as a definer ('aaa'@'localhost') does not exist 最后找原因发现删除操作做了触发器，而触发器里面有这样一句 /*!50017 DEFINER = ''aaa@'localhost' */ 原来最初
javascript中showModelDialog刷新父页面 bozch JavaScript 刷新父页面 showModalDialog
在页面中使用showModalDialog打开模式子页面窗口的时候，如果想在子页面中操作父页面中的某个节点，可以通过如下的进行： window.showModalDialog('url',self,‘status...’); // 首先中间参数使用self 在子页面使用w
编程之美-买书折扣 bylijinnan 编程之美
import java.util.Arrays; public class BookDiscount { /**编程之美买书折扣书上的贪心算法的分析很有意思，我看了半天看不懂，结果作者说，贪心算法在这个问题上是不适用的。。下面用动态规划实现。哈利波特这本书一共有五卷，每卷都是8欧元，如果读者一次购买不同的两卷可扣除5%的折扣，三卷10%，四卷20%，五卷
关于struts2.3.4项目跨站执行脚本以及远程执行漏洞修复概要 chenbowen00 struts WEB安全
因为近期负责的几个银行系统软件，需要交付客户，因此客户专门请了安全公司对系统进行了安全评测，结果发现了诸如跨站执行脚本，远程执行漏洞以及弱口令等问题。下面记录下本次解决的过程以便后续 1、首先从最简单的开始处理，服务器的弱口令问题，首先根据安全工具提供的测试描述中发现应用服务器中存在一个匿名用户，默认是不需要密码的，经过分析发现服务器使用了FTP协议，而使用ftp协议默认会产生一个匿名用
[电力与暖气]煤炭燃烧与电力加温 comsci
在宇宙中,用贝塔射线观测地球某个部分,看上去,好像一个个马蜂窝,又像珊瑚礁一样,原来是某个国家的采煤区..... 不过,这个采煤区的煤炭看来是要用完了.....那么依赖将起燃烧并取暖的城市,在极度严寒的季节中...该怎么办呢? &nbs
oracle O7_DICTIONARY_ACCESSIBILITY参数 daizj oracle
O7_DICTIONARY_ACCESSIBILITY参数控制对数据字典的访问.设置为true,如果用户被授予了如select any table等any table权限,用户即使不是dba或sysdba用户也可以访问数据字典.在9i及以上版本默认为false,8i及以前版本默认为true.如果设置为true就可能会带来安全上的一些问题.这也就为什么O7_DICTIONARY_ACCESSIBIL
比较全面的MySQL优化参考 dengkane mysql
本文整理了一些MySQL的通用优化方法，做个简单的总结分享，旨在帮助那些没有专职MySQL DBA的企业做好基本的优化工作，至于具体的SQL优化，大部分通过加适当的索引即可达到效果，更复杂的就需要具体分析了，可以参考本站的一些优化案例或者联系我，下方有我的联系方式。这是上篇。 1、硬件层相关优化 1.1、CPU相关在服务器的BIOS设置中，可
C语言homework2，有一个逆序打印数字的小算法 dcj3sjt126com c
#h1# 0、完成课堂例子 1、将一个四位数逆序打印 1234 ==> 4321 实现方法一： # include <stdio.h> int main(void) { int i = 1234; int one = i%10; int two = i / 10 % 10; int three = i / 100 % 10;
apacheBench对网站进行压力测试 dcj3sjt126com apachebench
ab 的全称是 ApacheBench ，是 Apache 附带的一个小工具，专门用于 HTTP Server 的 benchmark testing ，可以同时模拟多个并发请求。前段时间看到公司的开发人员也在用它作一些测试，看起来也不错，很简单，也很容易使用，所以今天花一点时间看了一下。通过下面的一个简单的例子和注释，相信大家可以更容易理解这个工具的使用。
2种办法让HashMap线程安全 flyfoxs java jdk jni
多线程之--2种办法让HashMap线程安全多线程之--synchronized 和reentrantlock的优缺点多线程之--2种JAVA乐观锁的比较( NonfairSync VS. FairSync) HashMap不是线程安全的,往往在写程序时需要通过一些方法来回避.其实JDK原生的提供了2种方法让HashMap支持线程安全.
Spring Security（04）——认证简介 234390216 Spring Security 认证过程
认证简介目录 1.1 认证过程 1.2 Web应用的认证过程 1.2.1 ExceptionTranslationFilter 1.2.2 在request之间共享SecurityContext 1
Java 位运算 Javahuhui java 位运算
// 左移( << ) 低位补0 // 0000 0000 0000 0000 0000 0000 0000 0110 然后左移2位后，低位补0： // 0000 0000 0000 0000 0000 0000 0001 1000 System.out.println(6 << 2);// 运行结果是24 // 右移( >> ) 高位补"
mysql免安装版配置 ldzyz007 mysql
1、my-small.ini是为了小型数据库而设计的。不应该把这个模型用于含有一些常用项目的数据库。 2、my-medium.ini是为中等规模的数据库而设计的。如果你正在企业中使用RHEL,可能会比这个操作系统的最小RAM需求(256MB)明显多得多的物理内存。由此可见，如果有那么多RAM内存可以使用，自然可以在同一台机器上运行其它服务。 3、my-large.ini是为专用于一个SQL数据
MFC和ado数据库使用时遇到的问题你不认识的休道人 sql C++mfc
=================================================================== 第一个 =================================================================== try{ CString sql; sql.Format("select * from p
表单重复提交Double Submits rensanning double
可能发生的场景： *多次点击提交按钮 *刷新页面 *点击浏览器回退按钮 *直接访问收藏夹中的地址 *重复发送HTTP请求（Ajax）（1）点击按钮后disable该按钮一会儿，这样能避免急躁的用户频繁点击按钮。这种方法确实有些粗暴，友好一点的可以把按钮的文字变一下做个提示，比如Bootstrap的做法： http://getbootstrap.co
Java String 十大常见问题 tomcat_oracle java 正则表达式
　1.字符串比较，使用“==”还是equals()? 　　"=="判断两个引用的是不是同一个内存地址(同一个物理对象)。　　equals()判断两个字符串的值是否相等。　　除非你想判断两个string引用是否同一个对象，否则应该总是使用equals()方法。　　如果你了解字符串的驻留(String Interning)则会更好地理解这个问题。　　
SpringMVC 登陆拦截器实现登陆控制 xp9802 springMVC
思路，先登陆后，将登陆信息存储在session中，然后通过拦截器，对系统中的页面和资源进行访问拦截，同时对于登陆本身相关的页面和资源不拦截。实现方法： 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23

数仓开发之DWD层完整使用 (第五章)

数仓开发之DWD层完整使用

一、流量域未精加工的事务事实表

1、 主要任务

1）数据清洗（ETL）

2）新老访客状态标记修复

3）分流

2、思路

1）数据清洗（ETL）

2）新老访客状态标记修复

（1）前端埋点新老访客状态标记设置规则

（2）新老访客状态标记修复思路

3）利用侧输出流实现数据拆分

（1）埋点日志结构分析

（2）分流日志分类

（3）分流思路

3、图解

4、代码

1）在 KafkaUtil 工具类中补充 getKafkaProducer() 方法

2）创建 DateFormatUtil 工具类用于日期格式化

3）主程序

二、流量域独立访客事务事实表

1、主要任务

2、思路分析

1）过滤 last_page_id 不为 null 的数据

2）筛选独立访客记录

3）状态存活时间设置

3、图解

4、代码

你可能感兴趣的:(数据仓库,hadoop,scala,kafka)

1、主要任务