越奋斗，越幸运

12. 离线处理之业务数据采集、生成用户画像、推广效果分析以及知识点总结

离线处理之业务数据采集、生成用户画像、推广效果分析以及知识点总结

1. Azkaban周期性调度任务
- 1.1. 总览
- 1.2. 调度脚本
- 1.3. [Azkaban安装并设置定时任务Schedule以及邮件发送接收](https://blog.csdn.net/aizhenshi/article/details/80828726?utm_source=blogxgwz5)
2. 业务数据采集
- 2.1. 后台通过`logback`把业务接口日志写入到本地文件
- - 2.1.1. logback配置文件
  - 2.1.2. 拦截器当中记录接口日志
  - 2.1.3. 本地日志目录
  - 2.1.4. 日志格式
- 2.2. 通过Flume采集数据到Kafka
- - 2.2.1. Flume配置文件
- 2.3. Storm消费Kafka数据，写入Hbase
- - 2.3.1. `LogReaderSpout.java`
  - 2.3.2. `UserLogBolt.java`
  - 2.3.3 `ToHbaseBolt.java`
- 2.4. [Hive和Hbase的整合](https://blog.csdn.net/fanjianhai/article/details/106016931)
- - 2.4.1. HIve和Hbase的表关联
  - 2.4.2. Hive数据样式
  - 2.4.3. Hbase数据样式
  - 2.4.4. `Hive和Hbase关联后，操作一方同样会影响另一方数据`
- 2.5. 通过Sqoop把业务数据从PostgreSql导入Hive数仓
3. 生成用户画像
- 3.1. hive分区设置
- 3.2. 用户登录日志
- 3.3. 用户终端类型和机型
- 3.4. 用户最高委员会职务
- 3.5. 用户信息
- 3.6. 画像信息
- 3.7. 生成用户画像
4. 推广效果分析
- 4.1. 采集微论文曝光数据
- 4.2. 采集广告曝光数据
- 4.3. 曝光量多维度统计
- 4.4. 不同维度进行曝光量的统计
- 4.5. 统计日汇总维度
- 4.6. 同步统计结果
5. 知识点总结
- 5.1. Tomcat
- - 5.1.1. [Tomcat使用详细教程](https://blog.csdn.net/weixin_39657319/article/details/83268378)
  - 5.1.2. [用脚本实现windows与linux之间文件的传输 ](https://blog.csdn.net/xqhrs232/article/details/78403080)
- 5.2. Hive Hql常用方法总结
- - 5.2.1. [ROW_NUMBER() OVER函数的基本用法](https://jingyan.baidu.com/article/9989c74604a644f648ecfef3.html)
  - 5.2.2. [SQL语言-- SELECT CASE WHEN THEN](https://blog.csdn.net/qq_34777600/article/details/81699270)
  - 5.2.3. [Hive列转行 (Lateral View + explode)详解](https://zhuanlan.zhihu.com/p/115913870)
  - 5.2.4. [HiveSQL行转列lateral view explore()以及连接concat_ws()和列转行collect_list()&collect_set()区别的使用案例](https://blog.csdn.net/weixin_39043567/article/details/90666521)
  - 5.2.5. [Hive SQL grouping sets 用法](https://www.cnblogs.com/Allen-rg/p/10648231.html)
  - 5.2.6. [hive中的lateral view 与 explode函数的使用](https://blog.csdn.net/guodong2k/article/details/79459282)
6. 寄语：知己知彼，不狂不馁，仔细地找准了自己生命的目标，板浆摇橹向人生茫茫之海努力划去。

1. Azkaban周期性调度任务

1.1. 总览

1.2. 调度脚本

system_pre.properties

dbUrl=jdbc:postgresql://rm-2zeqbua7952ni0c14.pg.rds.aliyuncs.com:3433/medchat
userName=******
password=******

bass_get_data.job

type=command
command=sh sqoop_coll.sh ${dbUrl} ${userName} ${password}

bass_serv_profile.job

type=command
command=sh bass_serv_profile.sh
dependencies=bass_get_data

bass_serv_profile.sh

#!/bin/bash
echo "run profile start `date '+%Y-%m-%d,%H:%m:%s'`"
lastDay=`date -d "yesterday" +%Y-%m-%d`
#生成用户画像
hive -hiveconf lastDay=$lastDay -f serv_profile.sql
echo "run profile end `date '+%Y-%m-%d,%H:%m:%s'`"

bass_ad_analysis.job

type=command
command=sh bass_ad_analysis.sh ${dbUrl} ${userName} ${password}
dependencies=bass_serv_profile

bass_ad_analysis.sh

#!/bin/bash
echo "run ad analysis start `date '+%Y-%m-%d,%H:%m:%s'`"
dbUrl=$1
userName=$2
password=$3
lastDay=`date -d "yesterday" +%Y-%m-%d`
#广告效果分析
hive -hiveconf lastDay=$lastDay -hiveconf dbUrl=$dbUrl -hiveconf userName=$userName -hiveconf password=$password -f ad_analysis.sql
echo "run analysis end `date '+%Y-%m-%d,%H:%m:%s'`"

1.3. Azkaban安装并设置定时任务Schedule以及邮件发送接收

2. 业务数据采集

2.1. 后台通过`logback`把业务接口日志写入到本地文件

2.1.1. logback配置文件

2.1.2. 拦截器当中记录接口日志

2.1.3. 本地日志目录

2.1.4. 日志格式

{
     
    "time":"2020-07-17 09:06:06.897",
    "modelName":"MINI-PORTAL",
    "host":"172.17.176.152",
    "thread":"http-nio-8902-exec-62",
    "level":"INFO ",
    "file":"MedChatLogger.java:110",
    "source":"adFile",
    "adLogonName":"",
    "os":"",
    "operFlag":true,
    "inputParam":{
     
        "logonName":[
            "15165428830"
        ],
        "logonPwd":[
            "******"
        ]
    },
    "channel":"ANDROID",
    "language":"en",
    "isNeedSync":false,
    "remote":"114.247.227.197",
    "message":"User login successfully",
    "version":"1.3.0-preview",
    "mac":"A1000037DFFE57",
    "url":"/html/gateway/api.ajax",
    "token":"",
    "result":[
        {
     
            "token":"49f1428d2aea459fb795799b8f841254",
            "isCanPublish":true,
            "isCanAudit":false,
            "isBelongEditorialBoard":false,
            "isBelongTeam":true,
            "isHaveEducation":false,
            "isHaveWorkExperience":false,
            "authFlag":"Y",
            "isForcedAuth":false,
            "servId":"100034",
            "imPwd":"5ED47664D3C844ED075D121089B10DD8",
            "pushId":"100034",
            "pushAlias":"MOBILE",
            "servName":"æ–‡é£žæ‰¬",
            "servIcon":"doctor/headportrait/person/1566811863179164958.jpg",
            "gender":"",
            "servInfoDegree":"1",
            "isVoice":false,
            "isShock":false,
            "isCertApply":false,
            "isHaveChannel":true,
            "cityName":"Yanbian Korean Autonomous Prefecture",
            "isSpecialServ":false,
            "isShowZone":true,
            "isHaveAuth":true,
            "isHaveProfile":false,
            "isCanNotice":false,
            "dutyDesc":"",
            "channelEduPublishType":"SPEECH",
            "mainDesc":"åŒ—äº¬åŒ»é™¢",
            "noticeInfo":{
     
                "noticeChatId":null,
                "noticeChatName":null
            },
            "isSwitchPhone":false,
            "isShowMobile":true,
            "isOpenEduInvite":false,
            "isAnonymous":false,
            "paymentSalt":"MTUxNjU1Mjg4NjQ=",
            "isRealName":false,
            "isHavePaymentPassword":false,
            "maxBankCardCount":"5",
            "menuArr":[
                "ARTICLE",
                "PEER",
                "CHAT",
                "ME"
            ],
            "servIdentityType":"DOCTOR",
            "isRemindDisturb":false,
            "eduCount":"1",
            "valueAddedService":"0"
        }
    ],
    "subErrcode":"",
    "carrier":"",
    "GATEWAY_MEDCHAT":"GATEWAY_MEDCHAT",
    "errCode":"",
    "model":"",
    "adServId":"0",
    "net":"",
    "apiType":"LOGIN"
}

{
     
    "time":"2020-07-17 10:26:59.535",
    "modelName":"MINI-PORTAL",
    "host":"172.17.176.152",
    "thread":"http-nio-8902-exec-82",
    "level":"INFO ",
    "file":"MedChatLogger.java:110",
    "source":"adFile",
    "apiType":"QUERY_CEDU_PLATFORM_INFO_LIST@AD_INFO",
    "adServId":"100242",
    "result":[
        {
     
            "adId":"657"
        }
    ]
}

2.2. 通过Flume采集数据到Kafka

2.2.1. Flume配置文件

# Each channel's type is defined.
#agent.channels.memoryChannel.type = memory

# Other config values specific to each type of channel(sink or source)
# can be defined as well
# In this case, it specifies the capacity of the memory channel
#agent.channels.memoryChannel.capacity = 100
# Name the components on this agent
a1.sources = r1
a1.sinks = k1
a1.channels = c1

# Describe/configure the source
#a1.sources.r1.type = exec
#a1.sources.r1.command = tail -F /opt/log/ad-mini-portal3.log
a1.sources.r1.type = TAILDIR
a1.sources.r1.positionFile = /home/medchat/apache-flume-1.8.0-bin/logfile_stats/taildir_position.json
a1.sources.r1.filegroups = f1 f2 f3
a1.sources.r1.filegroups.f1 = /home/medchat/medchat-mini-portal/apache-tomcat/logs/doctor/ad-mini-portal.*log
a1.sources.r1.filegroups.f2 = /home/medchat/medchat-console/apache-tomcat-8.0.21/logs/console/ad-console.*log
a1.sources.r1.filegroups.f3 = /home/medchat/medchat-portal/apache-tomcat-8.0.21/logs/portal-yxck/ad-portal.*log
a1.sources.r1.fileHeader = true

# Describe the sink
a1.sinks.k1.type = org.apache.flume.sink.kafka.KafkaSink
a1.sinks.k1.kafka.bootstrap.servers= 172.17.176.160:9092,172.17.176.159:9092,172.17.176.158:9092
a1.sinks.k1.kafka.topic= adMiniPortal
a1.sinks.k1.serializer.class=kafka.serializer.StringEncoder
a1.sinks.k1.kafka.producer.acks=1
a1.sinks.k1.custom.encoding=UTF-8


# Use a channel which buffers events in memory
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100

# Bind the source and sink to the channel
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

2.3. Storm消费Kafka数据，写入Hbase

2.3.1. `LogReaderSpout.java`

package com.nuhtech.marketing.rta.storm.spouts;

import java.time.Duration;
import java.util.Map;

import org.apache.kafka.clients.consumer.ConsumerRecords;
import org.apache.kafka.clients.consumer.KafkaConsumer;
import org.apache.storm.spout.SpoutOutputCollector;
import org.apache.storm.task.TopologyContext;
import org.apache.storm.topology.OutputFieldsDeclarer;
import org.apache.storm.topology.base.BaseRichSpout;
import org.apache.storm.tuple.Fields;
import org.apache.storm.tuple.Values;

import com.nuhtech.marketing.rta.util.KafkaUtil;
import com.nuhtech.medchat.core.util.PropConfigUtil;


public class LogReaderSpout extends BaseRichSpout {
     

    private static final String TOPIC = PropConfigUtil.getProperty("kafka.topic");

    private transient KafkaConsumer<String, String> consumer;

    private transient SpoutOutputCollector collector;

    @Override
    public void open(Map conf, TopologyContext context, SpoutOutputCollector collector) {
     
        this.collector = collector;
        this.consumer = KafkaUtil.getConsumer(TOPIC);
    }

    @Override
    public void nextTuple() {
     
        ConsumerRecords<String, String> messageList = consumer.poll(Duration.ofSeconds(4));
        messageList.forEach(message -> {
     
            if (message.value() != null && !"".equals(message.value())) {
     
                this.collector.emit(new Values(message.value()));
            }
        });

    }

    @Override
    public void declareOutputFields(OutputFieldsDeclarer declarer) {
     
        declarer.declare(new Fields("value"));
    }
}

2.3.2. `UserLogBolt.java`

package com.nuhtech.marketing.rta.storm.bolts;

import java.io.IOException;
import java.sql.Timestamp;
import java.util.HashMap;
import java.util.Map;

import net.sf.json.JSONArray;
import net.sf.json.JSONObject;

import org.apache.storm.topology.BasicOutputCollector;
import org.apache.storm.topology.OutputFieldsDeclarer;
import org.apache.storm.topology.base.BaseBasicBolt;
import org.apache.storm.tuple.Tuple;

import com.nuhtech.marketing.core.logger.MarketingLogger;
import com.nuhtech.marketing.core.util.HbaseUtil;
import com.nuhtech.medchat.core.util.DatetimeUtil;

public class UserLogBolt extends BaseBasicBolt {
     

    private static final long serialVersionUID = -5627408245880685574L;

    private static String tableName = "user_log";

    @Override
    public void execute(Tuple input, BasicOutputCollector collector) {
     
        String log = input.getStringByField("value");
        try {
     
            JSONObject jsonObject = JSONObject.fromObject(log);
            recordAll(log, jsonObject);
            recordAds(jsonObject);
        } catch (Exception e) {
     
            MarketingLogger.error(e);
        }
    }

    //记录所有行为日志
    public void recordAll(String log, JSONObject jsonObject) throws IOException {
     
        Timestamp timeStamp = DatetimeUtil.string2Timestamp(jsonObject.getString("time"));
        String adServId = jsonObject.getString("adServId");
        String time = DatetimeUtil.date2StringDateTimeNoLine(timeStamp);
        int id = (int) ((Math.random() * 9 + 1) * 10000);
        String servId = String.format("%08d", Long.parseLong(adServId));
        //rowKey:14位时间戳+8位servId+5位随机Id
        String rowKey = time + "|" + servId + "|" + id;
        Map<String, Object> map = new HashMap<String, Object>();
        map.put("rowKey", rowKey);
        map.put("columnFamily", "action");
        map.put("columnName", "info");
        map.put("columnValue", log);
        HbaseUtil.insertOnly(tableName, map);
    }

    //广告统计相关
    public void recordAds(JSONObject jsonObject) throws IOException {
     
        String adServId = jsonObject.getString("adServId");
        String apiType = jsonObject.getString("apiType");
        if (apiType.indexOf("@AD_INFO") != -1) {
     
            JSONArray jsonArray = jsonObject.getJSONArray("result");
            String ids = jsonArray.getJSONObject(0).getString("adId");
            String[] idsArr = ids.split(",");
            for (String id : idsArr) {
     
                String rowKey = adServId + "|" + id;
                HbaseUtil.autoIncrementColumn("realtime_ad_stat", rowKey, "show_cnt", 1);
            }
        }
    }

    @Override
    public void declareOutputFields(OutputFieldsDeclarer declarer) {
     

    }
}

2.3.3 `ToHbaseBolt.java`

package com.nuhtech.marketing.rta.storm.bolts;

import java.io.IOException;
import java.util.Map;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.hbase.HBaseConfiguration;
import org.apache.hadoop.hbase.TableName;
import org.apache.hadoop.hbase.client.Connection;
import org.apache.hadoop.hbase.client.ConnectionFactory;
import org.apache.hadoop.hbase.client.Table;
import org.apache.hadoop.hbase.util.Bytes;
import org.apache.storm.task.TopologyContext;
import org.apache.storm.topology.BasicOutputCollector;
import org.apache.storm.topology.OutputFieldsDeclarer;
import org.apache.storm.topology.base.BaseBasicBolt;
import org.apache.storm.tuple.Tuple;

import com.nuhtech.marketing.core.logger.MarketingLogger;

public class ToHbaseBolt extends BaseBasicBolt {
     

    private static final long serialVersionUID = -5627408245880685574L;

    private transient Table table;

    @SuppressWarnings("rawtypes")
    @Override
    public void prepare(Map stormConf, TopologyContext context) {
     
        Configuration conf = HBaseConfiguration.create();
        conf.set("hbase.zookeeper.quorum", "192.168.1.23:2181,192.168.1.24:2181,192.168.1.25:2181");
        try (Connection conn = ConnectionFactory.createConnection(conf)) {
     
            table = conn.getTable(TableName.valueOf("realtime_ad_stat"));
        } catch (IOException e) {
     
            MarketingLogger.error(e);
        }
    }

    @Override
    public void execute(Tuple input, BasicOutputCollector collector) {
     
        String action = input.getStringByField("action");
        String rowkey = input.getStringByField("rowkey");
        Long pv = input.getLongByField("cnt");

        try {
     
            if ("view".equals(action)) {
     
                table.incrementColumnValue(Bytes.toBytes(rowkey), Bytes.toBytes("stat"), Bytes.toBytes("view_cnt"), pv);
            }
            if ("click".equals(action)) {
     
                table.incrementColumnValue(Bytes.toBytes(rowkey), Bytes.toBytes("stat"), Bytes.toBytes("click_cnt"), pv);
            }
        } catch (IOException e) {
     
            MarketingLogger.error(e);
        }
    }

    @Override
    public void declareOutputFields(OutputFieldsDeclarer declarer) {
     
        // Do nothing
    }
}

2.4. Hive和Hbase的整合

2.4.1. HIve和Hbase的表关联

2.4.2. Hive数据样式

2.4.3. Hbase数据样式

2.4.4. `Hive和Hbase关联后，操作一方同样会影响另一方数据`

2.5. 通过Sqoop把业务数据从PostgreSql导入Hive数仓

#!/bin/bash
echo "sqoop coll start `date '+%Y-%m-%d,%H:%m:%s'`"
if [ $# -eq 3 ] ;then
echo "the args you input is right"
CONNECTURL=$1
USERNAME=$2
PASSWORD=$3
lastDay=`date -d "yesterday" +%Y-%m-%d`
sqoop import --connect $CONNECTURL --username $USERNAME --password $PASSWORD --table f_serv --null-string '\\N' --null-non-string '\\N' --fields-terminated-by ',' --delete-target-dir --num-mappers 1 --hive-import --hive-database default --hive-table f_serv --hive-overwrite
sqoop import --connect $CONNECTURL --username $USERNAME --password $PASSWORD --table f_serv_identity --null-string '\\N' --null-non-string '\\N' --fields-terminated-by ',' --delete-target-dir --num-mappers 1 --hive-import --hive-database default --hive-table f_serv_identity --hive-overwrite
sqoop import --connect $CONNECTURL --username $USERNAME --password $PASSWORD --table f_serv_base --null-string '\\N' --null-non-string '\\N' --fields-terminated-by ',' --delete-target-dir --num-mappers 1 --hive-import --hive-database default --hive-table f_serv_base --hive-overwrite
sqoop import --connect $CONNECTURL --username $USERNAME --password $PASSWORD --table s_hospital --null-string '\\N' --null-non-string '\\N' --fields-terminated-by ',' --delete-target-dir --num-mappers 1 --hive-import --hive-database default --hive-table s_hospital --hive-overwrite
sqoop import --connect $CONNECTURL --username $USERNAME --password $PASSWORD --table f_channel_subscribe --null-string '\\N' --null-non-string '\\N' --fields-terminated-by ',' --delete-target-dir --num-mappers 1 --hive-import --hive-database default --hive-table f_channel_subscribe --hive-overwrite
sqoop import --connect $CONNECTURL --username $USERNAME --password $PASSWORD --table mr_editorial_board_member --null-string '\\N' --null-non-string '\\N' --fields-terminated-by ',' --delete-target-dir --num-mappers 1 --hive-import --hive-database default --hive-table mr_editorial_board_member --hive-overwrite
sqoop import --connect $CONNECTURL --username $USERNAME --password $PASSWORD --table e_presidium_member --null-string '\\N' --null-non-string '\\N' --fields-terminated-by ',' --delete-target-dir --num-mappers 1 --hive-import --hive-database default --hive-table e_presidium_member --hive-overwrite
sqoop import --connect $CONNECTURL --username $USERNAME --password $PASSWORD --table e_rostrum_member --null-string '\\N' --null-non-string '\\N' --fields-terminated-by ',' --delete-target-dir --num-mappers 1 --hive-import --hive-database default --hive-table e_rostrum_member --hive-overwrite
sqoop import --connect $CONNECTURL --username $USERNAME --password $PASSWORD --table e_edu_member --null-string '\\N' --null-non-string '\\N' --fields-terminated-by ',' --delete-target-dir --num-mappers 1 --hive-import --hive-database default --hive-table e_edu_member --hive-overwrite
sqoop import --connect $CONNECTURL --username $USERNAME --password $PASSWORD --table mr_article_read_record --columns "read_record_id, article_id, serv_id, read_start_time, read_end_time, duration, update_datetime, create_datetime, thesis_type, spread_plan_id" --where "create_datetime::date='${lastDay}'" --hive-partition-key "dt" --hive-partition-value "${lastDay}" --null-string '\\N' --null-non-string '\\N' --fields-terminated-by ',' --delete-target-dir --num-mappers 1 --hive-import --hive-database default --hive-table mr_article_read_record --hive-overwrite
sqoop import --connect $CONNECTURL --username $USERNAME --password $PASSWORD --table mr_article_laud --columns "article_laud_id, article_id, serv_id,update_datetime, create_datetime, thesis_type, spread_plan_id" --where "create_datetime::date='${lastDay}'" --hive-partition-key "dt" --hive-partition-value "${lastDay}" --null-string '\\N' --null-non-string '\\N' --fields-terminated-by ',' --delete-target-dir --num-mappers 1 --hive-import --hive-database default --hive-table mr_article_laud --hive-overwrite
sqoop import --connect $CONNECTURL --username $USERNAME --password $PASSWORD --table mr_article_comment --columns "article_comment_id,article_id,serv_id,comment_type,ref_article_comment_id,content,ref_serv_id,status,update_datetime,create_datetime,content_original,thesis_type,spread_plan_id" --where "create_datetime::date='${lastDay}'" --hive-partition-key "dt" --hive-partition-value "${lastDay}" --null-string '\\N' --null-non-string '\\N' --fields-terminated-by '\001' --delete-target-dir --num-mappers 1 --hive-import --hive-database default --hive-table mr_article_comment --hive-overwrite
sqoop import --connect $CONNECTURL --username $USERNAME --password $PASSWORD --table mr_forward --columns "forward_id,serv_id,forward_type,forward_channel,refer_id,status,update_datetime,create_datetime,content,source_serv_id,target_serv_ids,target_group_id" --where "create_datetime::date='${lastDay}'" --hive-partition-key "dt" --hive-partition-value "${lastDay}" --null-string '\\N' --null-non-string '\\N' --fields-terminated-by '\001' --hive-drop-import-delims --delete-target-dir --num-mappers 1 --hive-import --hive-database default --hive-table mr_forward --hive-overwrite
sqoop import --connect $CONNECTURL --username $USERNAME --password $PASSWORD --table mr_favorite --columns "favorite_id,serv_id,favorite_type,type,favorite_json,favorite_serv_id,refer_id,content,duration,favorite_url,status,update_datetime,create_datetime,file_size,refer_type" --where "create_datetime::date='${lastDay}'" --hive-partition-key "dt" --hive-partition-value "${lastDay}" --null-string '\\N' --null-non-string '\\N' --fields-terminated-by '\001' --delete-target-dir --num-mappers 1 --hive-import --hive-database default --hive-table mr_favorite --hive-overwrite
sqoop import --connect $CONNECTURL --username $USERNAME --password $PASSWORD --table sp_spread_plan --columns "spread_plan_id,service_provider_id,scheme_id,audit_status,publish_status,release_date,exp_date,update_datetime,create_datetime" --null-string '\\N' --null-non-string '\\N' --fields-terminated-by ',' --delete-target-dir --num-mappers 1 --hive-import --hive-database default --hive-table sp_spread_plan --hive-overwrite
sqoop import --connect $CONNECTURL --username $USERNAME --password $PASSWORD --table sp_plan_filter --columns "seq_nbr, spread_plan_id, serv_id, update_datetime, create_datetime" --where "create_datetime::date='${lastDay}'" --hive-partition-key "dt" --hive-partition-value "${lastDay}" --null-string '\\N' --null-non-string '\\N' --fields-terminated-by '\001' --delete-target-dir --num-mappers 1 --hive-import --hive-database default --hive-table sp_plan_filter --hive-overwrite

hadoop fs -test -e /user/hive/warehouse/mr_plan_article
if [ $? -ne 0 ]; then
    sqoop import --connect $CONNECTURL --username $USERNAME --password $PASSWORD --query "select a.article_id,a.sale_article_id,b.spread_plan_id from mr_article a,sp_sale_article b where a.dispatch_type='SALE' and a.sale_article_id=b.sale_article_id and b.spread_plan_id is not null and \$CONDITIONS" --fields-terminated-by '\001' --m 1 --lines-terminated-by '\n' --hive-drop-import-delims --split-by article_id --target-dir /user/hive/warehouse/mr_plan_article
else
    hdfs dfs -rm -r /user/hive/warehouse/mr_plan_article
    sqoop import --connect $CONNECTURL --username $USERNAME --password $PASSWORD --query "select a.article_id,a.sale_article_id,b.spread_plan_id from mr_article a,sp_sale_article b where a.dispatch_type='SALE' and a.sale_article_id=b.sale_article_id and b.spread_plan_id is not null and \$CONDITIONS" --fields-terminated-by '\001' --m 1 --lines-terminated-by '\n' --hive-drop-import-delims --split-by article_id --target-dir /user/hive/warehouse/mr_plan_article
fi
else
echo "the args you input is error"
fi
echo "sqoop coll end `date '+%Y-%m-%d,%H:%m:%s'`"

f_serv用户表
f_serv_identity用户身份信息表
f_serv_base用户基本信息表
s_hospital医院表
f_channel_subscribe学科订阅表
mr_editorial_board_member学术组织成员表
e_presidium_member主席团成员表
e_rostrum_member主席台成员表
e_edu_member会场成员表
mr_article_read_record文章阅读表
mr_article_laud文章点赞表
mr_article_comment文章评论表
mr_forward用户转发表
mr_favorite用户收藏表
sp_spread_plan推广计划表
sp_plan_filter广告过滤表
注意点
- sqoop导入hive数据时对换行等特殊字符处理
- sqoop --split-by详解
- 关于sqoop --split-by 及 -m的理解

3. 生成用户画像

3.1. hive分区设置

set hive.exec.dynamic.partition=true;
set hive.exec.dynamic.partition.mode=nonstrict;

3.2. 用户登录日志

insert overwrite table s_login_log partition(dt)    -- 分区
select
       get_json_object(info, '$.result[0].servId'),
       get_json_object(info, '$.modelName'),    -- 后台模型名称
       get_json_object(info, '$.channel') ,     -- terminal_type 终端类型
       get_json_object(info, '$.model'),        -- phone_model 手机机型
       get_json_object(info, '$.time'),         -- create_datetime 创建时间
       substr(get_json_object(info, '$.time'),1,10) -- 分区字段
from user_log
where
      get_json_object(info, '$.apiType')='LOGIN' and get_json_object(info, '$.operFlag')='true' and substr(get_json_object(info, '$.time'),1,10)='${hiveconf:lastDay}';

3.3. 用户终端类型和机型

insert into serv_terminal
select
       serv_id,terminal_type,phone_model
from
    (select
            serv_id,terminal_type,phone_model,max(create_datetime)
    from s_login_log
    where dt='${hiveconf:lastDay}'
    group by
             serv_id,terminal_type,phone_model
    ) a;

3.4. 用户最高委员会职务

insert overwrite table mr_newspaper_duty_highest
select
       serv_id,newspaper_title,newspaper_title_order
from
     (select row_number() over (partition by serv_id order by newspaper_title_order) top,*
     from
        (select t.serv_id,n.newspaper_title,n.newspaper_title_name,newspaper_title_order
        from
             mr_editorial_board_member t,mr_newspaper_title n
        where
              t.newspaper_title = n.newspaper_title
        )as b
    ) as c
where
      top<=1
order by serv_id,newspaper_title_order;

3.5. 用户信息

insert overwrite table f_serv_info
select
       a.serv_id,a.identity,g.terminal_type,
       case when length(b.province_code)!=6 then null else b.province_code end  province_code,b.city_code,
       case when b.gender in('F','M') then b.gender else null end gender,
       case when a.identity='DOCTOR' and c.hospital_duty is not null then c.hospital_duty else 'DOC_QT' end hospital_duty,
       case when a.identity='DOCTOR' and c.hospital_title is not null then c.hospital_title else 'OTH' end hospital_title,
       case when a.identity='DOCTOR' then c.department_id else null end department_id,
       case when a.identity='DOCTOR'  and f.department_type_id is not null then f.department_type_id  else 27 end department_type_id,
       case when a.identity='DOCTOR' then d.hospital_id else null end hospital_id,
       case when a.identity='DOCTOR' and d.hospital_level!='' then d.hospital_level else null end hospital_level,
       e.newspaper_title
from f_serv a
left join f_serv_base b on(a.serv_id=b.serv_id)
left join f_serv_identity c on(a.serv_id=c.serv_id)
left join s_hospital d on(c.hospital_id=d.hospital_id)
left join mr_newspaper_duty_highest e on(a.serv_id=e.serv_id)
left join s_department f on(c.department_id=f.department_id)
left join serv_terminal g on(a.serv_id=g.serv_id)
where a.auth_flag in('Y','R');

3.6. 画像信息

个人信息标签

insert overwrite table f_serv_tag_value  partition(module='basic_info')
select
       serv_id, mp['key'], mp['value']
from(
    select a.serv_id,
             array(map('key', 'identity', 'value', a.identity),
                    map('key', 'device_type', 'value', a.terminal_type),
                    map('key', 'gender', 'value',a.gender),
                    map('key', 'province_code', 'value', a.province_code),
                    map('key', 'city_code', 'value', a.city_code),
                    map('key', 'hospital_id', 'value', a.hospital_id),
                    map('key', 'department_id', 'value', a.department_id),
                    map('key', 'department_type_id', 'value', a.department_type_id),
                    map('key', 'hospital_title', 'value', a.hospital_title),
                    map('key', 'hospital_duty', 'value', a.hospital_duty),
                    map('key', 'hospital_level', 'value', a.hospital_level)
                   ) arr
    from f_serv_info a
    ) s  lateral view explode(arr) arrtable as mp;

频道标签

insert overwrite table f_serv_tag_value  partition(module='channel_subscribe')
select
       serv_id, mp['key'], mp['value']
from
     (select a.serv_id,array(map('key', 'channel_subscribe', 'value', a.channel_list)) arr
     from
          (select
               serv_id,concat_ws(',',collect_list(cast(channel_id as string))) as channel_list
          from
               f_channel_subscribe
          group by
               serv_id
          ) a
    )s  lateral view explode(arr) arrtable as mp;

委员会标签

insert overwrite table f_serv_tag_value  partition(module='newspaper_title')
select serv_id, mp['key'], mp['value']
from(
select a.serv_id,array(map('key', 'newspaper_title', 'value', a.newspaper_title)) arr
from (select serv_id,concat_ws(',',collect_set(newspaper_title)) newspaper_title from mr_editorial_board_member group by serv_id) a
)s  lateral view explode(arr) arrtable as mp;

演讲台标签

insert overwrite table f_serv_tag_value  partition(module='edu')
select serv_id, mp['key'], mp['value']
from(
select b.serv_id,array(map('key', 'channel_edu', 'value', b.channel_edu_id)) arr
from (select serv_id,concat_ws(',',collect_set(cast(channel_edu_id as string))) channel_edu_id
from (select channel_edu_id,serv_id from e_presidium_member
union
select channel_edu_id,serv_id from e_rostrum_member
union
select channel_edu_id,serv_id from e_edu_member)  a group by serv_id) b
)s  lateral view explode(arr) arrtable as mp;

3.7. 生成用户画像

insert overwrite table f_serv_profile
select
    serv_id,
    concat('{', concat_ws(',', collect_set(concat('"', tag, '"', ':', '"', value, '"'))), '}') as json_string
from f_serv_tag_value where serv_id is not null
group by serv_id ;

insert into table serv_sysc select serv_id,profile from f_serv_profile ;

4. 推广效果分析

4.1. 采集微论文曝光数据

insert into table mr_article_show_record  partition(dt='${hiveconf:lastDay}')
select
       get_json_object(info, '$.apiType') apiType,
       num adId,
       get_json_object(info, '$.adServId') servId,
       get_json_object(info, '$.time') time
from user_log LATERAL VIEW explode(split(get_json_object(info, '$.result[0].adId'),',')) zqm AS num
where
      get_json_object(info, '$.apiType') like '%@ARTICLE_INFO' and substr(get_json_object(info, '$.time'),1,10)='${hiveconf:lastDay}';

4.2. 采集广告曝光数据

insert overwrite table mr_ad_show_record  partition(dt='${hiveconf:lastDay}')
select
       get_json_object(info, '$.apiType') apiType,
       num adId,
       get_json_object(info, '$.adServId') servId,
       get_json_object(info, '$.time') time
from user_log LATERAL VIEW explode(split(get_json_object(info, '$.result[0].adId'),',')) zqm AS num
where
      get_json_object(info, '$.apiType') like '%@AD_INFO' and substr(get_json_object(info, '$.time'),1,10)='${hiveconf:lastDay}';

合并微文论曝光数据

insert into table mr_ad_show_record  partition(dt='${hiveconf:lastDay}')
select
       a.api_type,
       b.spread_plan_id,
       a.serv_id,
       a.show_time
from mr_article_show_record a,mr_plan_article b where a.article_id=b.article_id and a.dt='${hiveconf:lastDay}'

4.3. 曝光量多维度统计

insert overwrite table rp_spread_analysis_detail partition(dt='${hiveconf:lastDay}')
select
       a.spread_plan_id,
       b.identity,
       b.terminal_type,
       b.province_code,
       b.gender,
       b.hospital_duty,
       b.hospital_title,
       b.department_type_id,
       b.hospital_level,
       b.newspaper_title,
       'show' analysis_type,
       GROUPING__ID,
       count(a.serv_id) active_num
from mr_ad_show_record a
join f_serv_info b on(a.serv_id=b.serv_id)
where a.dt='${hiveconf:lastDay}'
group by  a.spread_plan_id,b.identity,b.terminal_type,b.province_code,b.gender,b.hospital_duty,b.hospital_title,b.department_type_id,b.hospital_level,b.newspaper_title
grouping sets ((a.spread_plan_id,b.identity),(a.spread_plan_id,b.terminal_type),(a.spread_plan_id,b.province_code),(a.spread_plan_id,b.gender),(a.spread_plan_id,b.hospital_duty),(a.spread_plan_id,b.hospital_title),(a.spread_plan_id,b.department_type_id),(a.spread_plan_id,b.hospital_level),(a.spread_plan_id,b.newspaper_title));

-- 点击量多维度统计
insert into table rp_spread_analysis_detail partition(dt='${hiveconf:lastDay}')
select
       a.spread_plan_id,b.identity,b.terminal_type,b.province_code,b.gender,b.hospital_duty,b.hospital_title,b.department_type_id,b.hospital_level,b.newspaper_title,'click' analysis_type,GROUPING__ID,count(a.serv_id) active_num
from
    (select spread_plan_id,serv_id from mr_article_read_record where thesis_type='ADVERT' and dt='${hiveconf:lastDay}'
    union all
    select p.spread_plan_id,t.serv_id from mr_article_read_record t,mr_plan_article p where t.article_id=p.article_id and t.thesis_type='ARTICLE' and t.dt='${hiveconf:lastDay}') a
join f_serv_info b on(a.serv_id=b.serv_id)
group by  a.spread_plan_id,b.identity,b.terminal_type,b.province_code,b.gender,b.hospital_duty,b.hospital_title,b.department_type_id,b.hospital_level,b.newspaper_title
grouping sets ((a.spread_plan_id,b.identity),(a.spread_plan_id,b.terminal_type),(a.spread_plan_id,b.province_code),(a.spread_plan_id,b.gender),(a.spread_plan_id,b.hospital_duty),(a.spread_plan_id,b.hospital_title),(a.spread_plan_id,b.department_type_id),(a.spread_plan_id,b.hospital_level),(a.spread_plan_id,b.newspaper_title));

--阅读量多维度统计
insert into table rp_spread_analysis_detail partition(dt='${hiveconf:lastDay}')
select
       a.spread_plan_id,b.identity,b.terminal_type,b.province_code,b.gender,b.hospital_duty,b.hospital_title,b.department_type_id,b.hospital_level,b.newspaper_title,'read' analysis_type,GROUPING__ID,count(a.serv_id) active_num
from
    (select spread_plan_id,serv_id from mr_article_read_record where thesis_type='ADVERT' and duration>=2 and dt='${hiveconf:lastDay}'
    union all
    select p.spread_plan_id,t.serv_id from mr_article_read_record t,mr_plan_article p where t.article_id=p.article_id and t.thesis_type='ARTICLE' and t.duration>=2 and t.dt='${hiveconf:lastDay}') a
join f_serv_info b on(a.serv_id=b.serv_id)
group by  a.spread_plan_id,b.identity,b.terminal_type,b.province_code,b.gender,b.hospital_duty,b.hospital_title,b.department_type_id,b.hospital_level,b.newspaper_title
grouping sets ((a.spread_plan_id,b.identity),(a.spread_plan_id,b.terminal_type),(a.spread_plan_id,b.province_code),(a.spread_plan_id,b.gender),(a.spread_plan_id,b.hospital_duty),(a.spread_plan_id,b.hospital_title),(a.spread_plan_id,b.department_type_id),(a.spread_plan_id,b.hospital_level),(a.spread_plan_id,b.newspaper_title));

--点赞量多维度统计
insert into table rp_spread_analysis_detail partition(dt='${hiveconf:lastDay}')
select
       a.spread_plan_id,b.identity,b.terminal_type,b.province_code,b.gender,b.hospital_duty,b.hospital_title,b.department_type_id,b.hospital_level,b.newspaper_title,'up' analysis_type,GROUPING__ID,count(a.serv_id) active_num
from
    (select spread_plan_id,serv_id from mr_article_laud where thesis_type='ADVERT' and dt='${hiveconf:lastDay}'
    union all
    select p.spread_plan_id,t.serv_id from mr_article_laud t,mr_plan_article p where t.article_id=p.article_id and t.thesis_type='ARTICLE' and t.dt='${hiveconf:lastDay}') a
join f_serv_info b on(a.serv_id=b.serv_id)
group by  a.spread_plan_id,b.identity,b.terminal_type,b.province_code,b.gender,b.hospital_duty,b.hospital_title,b.department_type_id,b.hospital_level,b.newspaper_title
grouping sets ((a.spread_plan_id,b.identity),(a.spread_plan_id,b.terminal_type),(a.spread_plan_id,b.province_code),(a.spread_plan_id,b.gender),(a.spread_plan_id,b.hospital_duty),(a.spread_plan_id,b.hospital_title),(a.spread_plan_id,b.department_type_id),(a.spread_plan_id,b.hospital_level),(a.spread_plan_id,b.newspaper_title));

--评论量多维度统计
insert into table rp_spread_analysis_detail partition(dt='${hiveconf:lastDay}')
select
       a.spread_plan_id,b.identity,b.terminal_type,b.province_code,b.gender,b.hospital_duty,b.hospital_title,b.department_type_id,b.hospital_level,b.newspaper_title,'comment' analysis_type,GROUPING__ID,count(a.serv_id) active_num
from
    (select spread_plan_id,serv_id from mr_article_comment where thesis_type='ADVERT' and dt='${hiveconf:lastDay}'
    union all
    select p.spread_plan_id,t.serv_id from mr_article_comment t,mr_plan_article p where t.article_id=p.article_id and t.thesis_type='ARTICLE' and t.dt='${hiveconf:lastDay}') a
join f_serv_info b on(a.serv_id=b.serv_id)
group by  a.spread_plan_id,b.identity,b.terminal_type,b.province_code,b.gender,b.hospital_duty,b.hospital_title,b.department_type_id,b.hospital_level,b.newspaper_title
grouping sets ((a.spread_plan_id,b.identity),(a.spread_plan_id,b.terminal_type),(a.spread_plan_id,b.province_code),(a.spread_plan_id,b.gender),(a.spread_plan_id,b.hospital_duty),(a.spread_plan_id,b.hospital_title),(a.spread_plan_id,b.department_type_id),(a.spread_plan_id,b.hospital_level),(a.spread_plan_id,b.newspaper_title));

--收藏量多维度统计
insert into table rp_spread_analysis_detail partition(dt='${hiveconf:lastDay}')
select
       a.spread_plan_id,b.identity,b.terminal_type,b.province_code,b.gender,b.hospital_duty,b.hospital_title,b.department_type_id,b.hospital_level,b.newspaper_title,'coll' analysis_type,GROUPING__ID,count(a.serv_id) active_num
from
    (select refer_id spread_plan_id,serv_id from mr_favorite where refer_type='ADVERT' and dt='${hiveconf:lastDay}'
    union all
    select p.spread_plan_id,t.serv_id from mr_favorite t,mr_plan_article p where t.refer_id=p.article_id and t.refer_type='ARTICLE' and t.dt='${hiveconf:lastDay}') a
join f_serv_info b on(a.serv_id=b.serv_id)
group by  a.spread_plan_id,b.identity,b.terminal_type,b.province_code,b.gender,b.hospital_duty,b.hospital_title,b.department_type_id,b.hospital_level,b.newspaper_title
grouping sets ((a.spread_plan_id,b.identity),(a.spread_plan_id,b.terminal_type),(a.spread_plan_id,b.province_code),(a.spread_plan_id,b.gender),(a.spread_plan_id,b.hospital_duty),(a.spread_plan_id,b.hospital_title),(a.spread_plan_id,b.department_type_id),(a.spread_plan_id,b.hospital_level),(a.spread_plan_id,b.newspaper_title));

--转发量多维度统计
insert into table rp_spread_analysis_detail partition(dt='${hiveconf:lastDay}')
select
       a.spread_plan_id,b.identity,b.terminal_type,b.province_code,b.gender,b.hospital_duty,b.hospital_title,b.department_type_id,b.hospital_level,b.newspaper_title,'forward' analysis_type,GROUPING__ID,count(a.serv_id) active_num
from
    (select refer_id spread_plan_id,serv_id from mr_forward where forward_type='20' and dt='${hiveconf:lastDay}'
    union all
    select p.spread_plan_id,t.serv_id from mr_forward t,mr_plan_article p where t.refer_id=p.article_id and t.forward_type='1' and  t.dt='${hiveconf:lastDay}') a
join f_serv_info b on(a.serv_id=b.serv_id)
group by  a.spread_plan_id,b.identity,b.terminal_type,b.province_code,b.gender,b.hospital_duty,b.hospital_title,b.department_type_id,b.hospital_level,b.newspaper_title
grouping sets ((a.spread_plan_id,b.identity),(a.spread_plan_id,b.terminal_type),(a.spread_plan_id,b.province_code),(a.spread_plan_id,b.gender),(a.spread_plan_id,b.hospital_duty),(a.spread_plan_id,b.hospital_title),(a.spread_plan_id,b.department_type_id),(a.spread_plan_id,b.hospital_level),(a.spread_plan_id,b.newspaper_title));

--问卷多维度统计
insert into table rp_spread_analysis_detail partition(dt='${hiveconf:lastDay}')
select
       a.spread_plan_id,b.identity,b.terminal_type,b.province_code,b.gender,b.hospital_duty,b.hospital_title,b.department_type_id,b.hospital_level,b.newspaper_title,'answer' analysis_type,GROUPING__ID,count(a.serv_id) active_num
from
    (select spread_plan_id,serv_id from sp_serv_reply where dt='${hiveconf:lastDay}') a
join f_serv_info b on(a.serv_id=b.serv_id)
group by  a.spread_plan_id,b.identity,b.terminal_type,b.province_code,b.gender,b.hospital_duty,b.hospital_title,b.department_type_id,b.hospital_level,b.newspaper_title
grouping sets ((a.spread_plan_id,b.identity),(a.spread_plan_id,b.terminal_type),(a.spread_plan_id,b.province_code),(a.spread_plan_id,b.gender),(a.spread_plan_id,b.hospital_duty),(a.spread_plan_id,b.hospital_title),(a.spread_plan_id,b.department_type_id),(a.spread_plan_id,b.hospital_level),(a.spread_plan_id,b.newspaper_title));

--用户不敢兴趣维度统计
insert into table rp_spread_analysis_detail partition(dt='${hiveconf:lastDay}')
select
       a.spread_plan_id,b.identity,b.terminal_type,b.province_code,b.gender,b.hospital_duty,b.hospital_title,b.department_type_id,b.hospital_level,b.newspaper_title,'filter' analysis_type,GROUPING__ID,count(a.serv_id) active_num
from
    (select spread_plan_id,serv_id from sp_plan_filter where dt='${hiveconf:lastDay}') a
join f_serv_info b on(a.serv_id=b.serv_id)
group by  a.spread_plan_id,b.identity,b.terminal_type,b.province_code,b.gender,b.hospital_duty,b.hospital_title,b.department_type_id,b.hospital_level,b.newspaper_title
grouping sets ((a.spread_plan_id,b.identity),(a.spread_plan_id,b.terminal_type),(a.spread_plan_id,b.province_code),(a.spread_plan_id,b.gender),(a.spread_plan_id,b.hospital_duty),(a.spread_plan_id,b.hospital_title),(a.spread_plan_id,b.department_type_id),(a.spread_plan_id,b.hospital_level),(a.spread_plan_id,b.newspaper_title));

4.4. 不同维度进行曝光量的统计

--统计身份维度
insert overwrite table rp_spread_analysis partition(dt='${hiveconf:lastDay}')
select
       a.spread_plan_id,'identity' attr_type,a.identity attr_value,a.show_num,a.click_num,0 click_rate,a.read_num,a.up_num,a.comment_num,a.forward_num ,a.coll_num,'${hiveconf:lastDay}' total_date,a.answer_num,a.filter_num
from (
    select
        spread_plan_id,identity,
        sum(if(analysis_type='show',active_num,0)) as show_num,
        sum(if(analysis_type='click',active_num,0)) as click_num,
        sum(if(analysis_type='read',active_num,0)) as read_num ,
        sum(if(analysis_type='up',active_num,0)) as up_num,
        sum(if(analysis_type='comment',active_num,0)) as comment_num,
        sum(if(analysis_type='coll',active_num,0)) as coll_num,
        sum(if(analysis_type='forward',active_num,0)) as forward_num,
        sum(if(analysis_type='answer',active_num,0)) as answer_num,
        sum(if(analysis_type='filter',active_num,0)) as filter_num
    from rp_spread_analysis_detail
    where dt='${hiveconf:lastDay}' and  bin(grouping_id)='11111111'
    group by spread_plan_id,identity) a;

--统计医院等级维度
insert into table rp_spread_analysis partition(dt='${hiveconf:lastDay}')
select
       a.spread_plan_id,'hospitalLevel' attr_type,a.hospital_level attr_value,a.show_num,a.click_num,0 click_rate,a.read_num,a.up_num,a.comment_num,a.forward_num ,a.coll_num,'${hiveconf:lastDay}' total_date,a.answer_num,a.filter_num
from (
    select spread_plan_id,hospital_level,
        sum(if(analysis_type='show',active_num,0)) as show_num,
        sum(if(analysis_type='click',active_num,0)) as click_num,
        sum(if(analysis_type='read',active_num,0)) as read_num ,
        sum(if(analysis_type='up',active_num,0)) as up_num ,
        sum(if(analysis_type='comment',active_num,0)) as comment_num,
        sum(if(analysis_type='coll',active_num,0)) as coll_num,
        sum(if(analysis_type='forward',active_num,0)) as forward_num,
        sum(if(analysis_type='answer',active_num,0)) as answer_num,
        sum(if(analysis_type='filter',active_num,0)) as filter_num
    from rp_spread_analysis_detail
    where dt='${hiveconf:lastDay}' and  bin(grouping_id)='111111101'
    group by spread_plan_id,hospital_level) a;

--统计职称维度
insert into table rp_spread_analysis partition(dt='${hiveconf:lastDay}')
select
       a.spread_plan_id,'hospitalTitle' attr_type,a.hospital_title attr_value,a.show_num,a.click_num,0 click_rate,a.read_num,a.up_num,a.comment_num,a.forward_num ,a.coll_num,'${hiveconf:lastDay}' total_date,a.answer_num,a.filter_num
from (
    select
        spread_plan_id,hospital_title,
        sum(if(analysis_type='show',active_num,0)) as show_num,
        sum(if(analysis_type='click',active_num,0)) as click_num,
        sum(if(analysis_type='read',active_num,0)) as read_num ,
        sum(if(analysis_type='up',active_num,0)) as up_num ,
        sum(if(analysis_type='comment',active_num,0)) as comment_num,
        sum(if(analysis_type='coll',active_num,0)) as coll_num,
        sum(if(analysis_type='forward',active_num,0)) as forward_num,
        sum(if(analysis_type='answer',active_num,0)) as answer_num,
        sum(if(analysis_type='filter',active_num,0)) as filter_num
    from rp_spread_analysis_detail
    where dt='${hiveconf:lastDay}' and  bin(grouping_id)='111110111'
    group by spread_plan_id,hospital_title) a;

--统计职务维度
insert into table rp_spread_analysis partition(dt='${hiveconf:lastDay}')
select
       a.spread_plan_id,'hospitalDuty' attr_type,a.hospital_duty attr_value,a.show_num,a.click_num,0 click_rate,a.read_num,a.up_num,a.comment_num,a.forward_num ,a.coll_num,'${hiveconf:lastDay}' total_date,a.answer_num,a.filter_num
from (
    select
        spread_plan_id,hospital_duty,
        sum(if(analysis_type='show',active_num,0)) as show_num,
        sum(if(analysis_type='click',active_num,0)) as click_num,
        sum(if(analysis_type='read',active_num,0)) as read_num ,
        sum(if(analysis_type='up',active_num,0)) as up_num ,
        sum(if(analysis_type='comment',active_num,0)) as comment_num,
        sum(if(analysis_type='coll',active_num,0)) as coll_num,
        sum(if(analysis_type='forward',active_num,0)) as forward_num,
        sum(if(analysis_type='answer',active_num,0)) as answer_num,
        sum(if(analysis_type='filter',active_num,0)) as filter_num
    from rp_spread_analysis_detail
    where dt='${hiveconf:lastDay}' and  bin(grouping_id)='111101111'
    group by spread_plan_id,hospital_duty) a;

--统计性别维度
insert into table rp_spread_analysis partition(dt='${hiveconf:lastDay}')
select
       a.spread_plan_id,'sex' attr_type,a.gender attr_value,a.show_num,a.click_num,0 click_rate,a.read_num,a.up_num,a.comment_num,a.forward_num ,a.coll_num,'${hiveconf:lastDay}' total_date,a.answer_num,a.filter_num
from (
    select
        spread_plan_id,gender,
        sum(if(analysis_type='show',active_num,0)) as show_num,
        sum(if(analysis_type='click',active_num,0)) as click_num,
        sum(if(analysis_type='read',active_num,0)) as read_num ,
        sum(if(analysis_type='up',active_num,0)) as up_num ,
        sum(if(analysis_type='comment',active_num,0)) as comment_num,
        sum(if(analysis_type='coll',active_num,0)) as coll_num,
        sum(if(analysis_type='forward',active_num,0)) as forward_num,
        sum(if(analysis_type='answer',active_num,0)) as answer_num,
        sum(if(analysis_type='filter',active_num,0)) as filter_num
    from rp_spread_analysis_detail
    where dt='${hiveconf:lastDay}' and  bin(grouping_id)='111011111'
    group by spread_plan_id,gender) a;
--统计机型维度
insert into table rp_spread_analysis partition(dt='${hiveconf:lastDay}')
select
       a.spread_plan_id,'os' attr_type,a.terminal_type attr_value,a.show_num,a.click_num,0 click_rate,a.read_num,a.up_num,a.comment_num,a.forward_num ,a.coll_num,'${hiveconf:lastDay}' total_date,a.answer_num,a.filter_num
from (
    select
        spread_plan_id,terminal_type,
        sum(if(analysis_type='show',active_num,0)) as show_num,
        sum(if(analysis_type='click',active_num,0)) as click_num,
        sum(if(analysis_type='read',active_num,0)) as read_num ,
        sum(if(analysis_type='up',active_num,0)) as up_num ,
        sum(if(analysis_type='comment',active_num,0)) as comment_num,
        sum(if(analysis_type='coll',active_num,0)) as coll_num,
        sum(if(analysis_type='forward',active_num,0)) as forward_num,
        sum(if(analysis_type='answer',active_num,0)) as answer_num,
        sum(if(analysis_type='filter',active_num,0)) as filter_num
    from rp_spread_analysis_detail
    where dt='${hiveconf:lastDay}' and  bin(grouping_id)='101111111'
    group by spread_plan_id,terminal_type) a;
--统计省份维度
insert into table rp_spread_analysis partition(dt='${hiveconf:lastDay}')
select
       a.spread_plan_id,'provinceCode' attr_type,a.province_code attr_value,a.show_num,a.click_num,0 click_rate,a.read_num,a.up_num,a.comment_num,a.forward_num ,a.coll_num,'${hiveconf:lastDay}' total_date,a.answer_num,a.filter_num
from (
    select
        spread_plan_id,province_code,
        sum(if(analysis_type='show',active_num,0)) as show_num,
        sum(if(analysis_type='click',active_num,0)) as click_num,
        sum(if(analysis_type='read',active_num,0)) as read_num ,
        sum(if(analysis_type='up',active_num,0)) as up_num ,
        sum(if(analysis_type='comment',active_num,0)) as comment_num,
        sum(if(analysis_type='coll',active_num,0)) as coll_num,
        sum(if(analysis_type='forward',active_num,0)) as forward_num,
        sum(if(analysis_type='answer',active_num,0)) as answer_num,
        sum(if(analysis_type='filter',active_num,0)) as filter_num
    from rp_spread_analysis_detail
    where dt='${hiveconf:lastDay}' and  bin(grouping_id)='110111111'
    group by spread_plan_id,province_code) a;

--统计科室分类维度
insert into table rp_spread_analysis partition(dt='${hiveconf:lastDay}')
select
    a.spread_plan_id,'department' attr_type,a.department_id attr_value,a.show_num,a.click_num,0 click_rate,a.read_num,a.up_num,a.comment_num,a.forward_num ,a.coll_num,'${hiveconf:lastDay}' total_date,a.answer_num,a.filter_num
from (
    select
        spread_plan_id,department_id,
        sum(if(analysis_type='show',active_num,0)) as show_num,
        sum(if(analysis_type='click',active_num,0)) as click_num,
        sum(if(analysis_type='read',active_num,0)) as read_num ,
        sum(if(analysis_type='up',active_num,0)) as up_num ,
        sum(if(analysis_type='comment',active_num,0)) as comment_num,
        sum(if(analysis_type='coll',active_num,0)) as coll_num,
        sum(if(analysis_type='forward',active_num,0)) as forward_num,
        sum(if(analysis_type='answer',active_num,0)) as answer_num,
        sum(if(analysis_type='filter',active_num,0)) as filter_num
    from rp_spread_analysis_detail
    where dt='${hiveconf:lastDay}' and  bin(grouping_id)='111111011'
    group by spread_plan_id,department_id) a;

--统计委员会职务维度
insert into table rp_spread_analysis partition(dt='${hiveconf:lastDay}')
select
       a.spread_plan_id,'boardTitle' attr_type,a.newspaper_title attr_value,a.show_num,a.click_num,0 click_rate,a.read_num,a.up_num,a.comment_num,a.forward_num ,a.coll_num,'${hiveconf:lastDay}' total_date,a.answer_num,a.filter_num
from (
    select
        spread_plan_id,newspaper_title,
        sum(if(analysis_type='show',active_num,0)) as show_num,
        sum(if(analysis_type='click',active_num,0)) as click_num,
        sum(if(analysis_type='read',active_num,0)) as read_num ,
        sum(if(analysis_type='up',active_num,0)) as up_num ,
        sum(if(analysis_type='comment',active_num,0)) as comment_num,
        sum(if(analysis_type='coll',active_num,0)) as coll_num,
        sum(if(analysis_type='forward',active_num,0)) as forward_num,
        sum(if(analysis_type='answer',active_num,0)) as answer_num,
        sum(if(analysis_type='filter',active_num,0)) as filter_num
    from rp_spread_analysis_detail
    where dt='${hiveconf:lastDay}' and  bin(grouping_id)='111111110'
    group by spread_plan_id,newspaper_title) a;

4.5. 统计日汇总维度

insert overwrite table rp_spread partition(dt='${hiveconf:lastDay}')
select
       spread_plan_id,sum(show_num),sum(click_num),0,sum(read_num),sum(up_num),sum(comment_num),sum(forward_num),sum(coll_num),total_date,sum(answer_num),sum(filter_num)
from rp_spread_analysis
where total_date='${hiveconf:lastDay}'and attr_type='identity'
group by spread_plan_id,total_date;

4.6. 同步统计结果

SELECT dboutput('${hiveconf:dbUrl}', '${hiveconf:userName}', '${hiveconf:password}', 'INSERT INTO rp_spread (spread_plan_id, show_num, click_num, read_num, up_num, comment_num, forward_num,coll_num,answer_num,filter_num, total_date,create_datetime) VALUES (?,?,?,?,?,?,?,?,?,?,?,?);', spread_plan_id, show_num, click_num, read_num, up_num, comment_num, forward_num,coll_num,answer_num,filter_num, total_date, current_timestamp)
FROM rp_spread where total_date='${hiveconf:lastDay}';

SELECT dboutput('${hiveconf:dbUrl}', '${hiveconf:userName}', '${hiveconf:password}', 'INSERT INTO rp_spreed_analysis (spread_plan_id, attr_type, attr_value, show_num, click_num, read_num, up_num, comment_num, forward_num, coll_num,answer_num,filter_num, total_date, create_datetime) VALUES (?,?,?,?,?,?,?,?,?,?,?,?,?,?);',spread_plan_id, attr_type, attr_value, show_num, click_num, read_num, up_num, comment_num, forward_num, coll_num,answer_num,filter_num, total_date, current_timestamp)
FROM rp_spread_analysis where total_date='${hiveconf:lastDay}';

SELECT dboutput('${hiveconf:dbUrl}', '${hiveconf:userName}', '${hiveconf:password}', 'INSERT INTO rp_analysis_log (log_type,log_info,create_datetime) VALUES (?,?,?);', 'item_analysis','success', current_timestamp);

5. 知识点总结

5.1. Tomcat

5.1.1. Tomcat使用详细教程

5.1.2. 用脚本实现windows与linux之间文件的传输

WinSCP官网

5.2. Hive Hql常用方法总结

5.2.1. ROW_NUMBER() OVER函数的基本用法

5.2.2. SQL语言-- SELECT CASE WHEN THEN

5.2.3. Hive列转行 (Lateral View + explode)详解

5.2.4. HiveSQL行转列lateral view explore()以及连接concat_ws()和列转行collect_list()&collect_set()区别的使用案例

5.2.5. Hive SQL grouping sets 用法

5.2.6. hive中的lateral view 与 explode函数的使用

6. 寄语：知己知彼，不狂不馁，仔细地找准了自己生命的目标，板浆摇橹向人生茫茫之海努力划去。

你可能感兴趣的:(大数据,hadoop,Flink)

计算机专业大数据毕业设计-基于 Spark 的音乐数据分析项目(源码+LW+部署文档+全bao+远程调试+代码讲解等) 程序猿八哥数据可视化计算机毕设 spark 大数据课程设计 spark
博主介绍：✌️码农一枚，专注于大学生项目实战开发、讲解和毕业文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌️技术范围：：小程序、SpringBoot、SSM、JSP、Vue、PHP、Java、python、爬虫、数据可视化、大数据、物联网、机器学习等设计与开发。主要内容：免费功能设计，开题报告、任务书、全b
绝佳组合 SpringBoot + Lua + Redis = 王炸！
Java精选面试题（微信小程序）：5000+道面试题和选择题，真实面经，简历模版，包含Java基础、并发、JVM、线程、MQ系列、Redis、Spring系列、Elasticsearch、Docker、K8s、Flink、Spark、架构设计、大厂真题等，在线随时刷题！前言曾经有一位魔术师，他擅长将SpringBoot和Redis这两个强大的工具结合成一种令人惊叹的组合。他的魔法武器是Redis的
聊聊flink的RpcService go4it
序本文主要研究一下flink的RpcServiceRpcServiceflink-release-1.7.2/flink-runtime/src/main/java/org/apache/flink/runtime/rpc/RpcService.javapublicinterfaceRpcService{StringgetAddress();intgetPort();CompletableFutu
智慧水库信息化系统建设产品需求文档V2.0 小赖同学啊 test Technology Precious 物联网
智慧水库信息化系统建设产品需求文档1.引言1.1文档目的本文档旨在明确智慧水库信息化系统的建设需求，为系统设计、开发和实施提供全面依据，确保系统功能满足水库管理业务需求，提升水库管理的智能化水平和决策效率。1.2背景介绍传统水库管理面临数据采集不及时、分析手段有限、决策依赖经验等问题，难以应对复杂多变的水文情势和日益增长的管理需求。随着物联网、大数据、人工智能等技术的发展，智慧水库建设成为必然趋势
9.20其二道左无人
做一家服务公司，为下面的公司提供一些事务性的管理、财务管理、风险管理的服务，粘住一个大圈子的HR，通过下面的公司做掉项目，为HR提供一个稳定的资源变现的渠道；做一家科技公司，提供线上的平台运营，大数据采集，以及基于这个基础上的卖货、信贷等服务做一家连锁企业，每一家门店都是独立的企业，提供招聘、引流以及终端服务所以外部通过众筹绑定大批量的HR，就会有稳定的订单，通过服务公司提供服务，通过终端门店保证
只靠可视化大屏，做不了数字化，数据总监总结3点，你做到了几个大数据的那些事
企业数字化是很多企业热衷的话题。本文的数字化指各行业头的头部企业的端到端数字化解决方案，常见部署于华为专有云、阿里私有云、亚马逊云，项目金额一般百万起步，上不封顶。很多企业投人、投钱数字化，都希望有个酷炫的数据大脑，政府、合作伙伴来参观时，用酷炫的数据大脑让来宾们啧啧称赞。热闹散去后，企业内部的各部门，天天围着数据挖宝，大数据快告诉我，下个月能卖多少，哪几个渠道卖得不好，哪条生产线有问题，哪些货压
hive底层原理 sql执行过程_Hive原理总结（完整版）
目录课程大纲(HIVE增强)31.Hive基本概念41.1Hive简介41.1.1什么是Hive41.1.2为什么使用Hive41.1.3Hive的特点41.2Hive架构51.2.1架构图51.2.2基本组成51.2.3各组件的基本功能51.3Hive与Hadoop的关系61.4Hive与传统数据库对比61.5Hive的数据存储62.Hive基本操作72.1DDL操作72.1.1创建表72.1.
你多久没有认真读一本书了我是巴卡
我九岁博览群书，二十岁达到顶峰。我现在都是看社会人文类的书，例如《知音》《故事会》……往前推三百年，往后推三百年，总共六百年没有人超过我。——凤姐引用凤姐的话，没有嘲讽的意思。现在的人，包括我自己，除了刷手机，恐怕连杂志都很少读了，更别说认真读一本书了。1、大数据下，人越读越窄，越读越傻前段时间，埃航波音737MAX8出事，就在网上跟着读了几篇报道。随后的一段时间，基本打开APP都是关于波音和73
注意力才是我们最值钱的东西心守平凡_王慧超
4月10日晚，罗永浩携手国民神车哈弗品牌完成了第二场带货直播。此次直播共售出11357张2777元的优惠券，预估销售额15.65亿元，创造了汽车直播带货的新纪录。流量时代真的已经来临了，随着互联网的高速发展，越来越多的网络用户增加，我们不得不承认，我们已经进入了一个网络时代，进入了一个流量大数据时代。我们所有想获得的东西都可以通过网络获取，资料、信息、购物，网络正在改变人们的生活方式，正在成为人们
六、深度剖析 Hadoop 分布式文件系统（HDFS）的数据存储机制与读写流程
深度剖析Hadoop分布式文件系统（HDFS）的数据存储机制与读写流程在当今大数据领域当中，Hadoop分布式文件系统（HDFS）作为极为关键的核心组件之一，为海量规模的数据的存储以及处理构筑起了坚实无比的根基。本文将会对HDFS的数据存储机制以及读写流程展开全面且深入的探究，通过将原理与实际的实例紧密结合的方式，助力广大读者更加全面地理解HDFS的工作原理以及其具体的应用场景。一、HDFS概述H
养老院管理系统基于SpringBoot的养老院管理系统系统设计与实现（源码+论文+部署讲解等）
博主介绍：✌全网粉丝60W+,csdn特邀作者、Java领域优质创作者、csdn/掘金/哔哩哔哩/知乎/道客/小红书等平台优质作者，计算机毕设实战导师，目前专注于大学生项目实战开发,讲解,毕业答疑辅导，欢迎高校老师/同行前辈交流合作✌技术栈范围：SpringBoot、Vue、SSM、Jsp、HLMT、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习、单片机
大数据处理技术：分布式文件系统HDFS 茜茜西西CeCe hdfs hadoop 大数据 HDFS-JAVA接口文件头歌 Java
目录1实验名称：2实验目的3实验内容4实验原理5实验过程或源代码5.1HDFS的基本操作5.2HDFS-JAVA接口之读取文件5.3HDFS-JAVA接口之上传文件5.4HDFS-JAVA接口之删除文件6实验结果6.1HDFS的基本操作6.2HDFS-JAVA接口之读取文件6.3HDFS-JAVA接口之上传文件6.4HDFS-JAVA接口之删除文件1实验名称：分布式文件系统HDFS2实验目的1.理
Linux教程（4）----[hive数据仓库工具] .房东的猫 Linux教程（完善中~~）linux
Hive基本概念Hive简介什么是HiveHive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。为什么使用Hive直接使用hadoop所面临的问题人员学习成本太高
ARTS-第七周梧上擎天
Algorithm一、用链表和二叉树实现Set集合GitHub地址二、散列表散列表就是使用数组下标随机访问时候复杂度为O（1）的特性，当我们按照键值查找元素时，通过散列函数将key转化为下标然后进行访问，当有大量散列冲突时会退化为O（n）的时间复杂度。解决散列冲突的方法：开放寻址法和链表法ReviewFlink动态表概念原文地址流和表为什么可以相互转换呢？我们都知道传统Mysql的主从复制是通过b
基于用户画像的商品推荐系统 Dush32 机器学习人工智能 python 推荐算法
随着人工智能和大数据技术的进步，产品推荐系统成为了现代广告与电商平台中不可或缺的部分。通过深度挖掘用户的行为数据，能够为广告主提供精准的用户画像，从而更高效地推荐相关产品，提升购买转化率。本项目基于科大讯飞AI营销云大赛的赛题，目的是利用用户画像进行产品推荐，预测用户是否会购买相应商品。我们使用了机器学习的二分类模型，通过分析用户的性别、年龄、常驻地、机型等信息，来判断用户的付费行为。项目目标：本
InfluxDB 数据模型：桶、测量、标签与字段详解（一）计算机毕设定制辅导-无忧 #InfluxDB db
一、引言**在大数据和物联网蓬勃发展的当下，时间序列数据的处理需求呈爆发式增长。InfluxDB作为一款高性能的开源时序数据库，凭借其卓越的特性，在时序数据库领域占据了重要地位，被广泛应用于各种场景。InfluxDB专为时间序列数据设计，拥有高效的存储和查询性能。它采用独特的存储引擎，能够快速写入大量带有时间戳的数据，并支持灵活的查询操作。其核心设计针对时间序列数据的特点进行了优化，包括时间索引、
Kafka 集群架构与高可用方案设计（一）计算机毕设定制辅导-无忧 #Kafka kafka 架构分布式
Kafka集群架构与高可用方案设计的重要性在大数据和分布式系统的广阔领域中，Kafka已然成为了一个中流砥柱般的存在。它最初由LinkedIn开发，后捐赠给Apache软件基金会并成为顶级项目，凭借其卓越的高吞吐量、可扩展性以及持久性，被广泛应用于日志收集、实时数据处理、流计算、数据集成等诸多关键领域。在日志收集场景下，以大型互联网公司为例，每天都会产生海量的日志数据，如用户的访问记录、系统操作日
大数据集成方案对比：Kafka vs Flume vs Sqoop AI天才研究院计算 AI大模型应用入门实战与进阶 Agentic AI 实战大数据 kafka flume ai
大数据集成方案对比：KafkavsFlumevsSqoop关键词：大数据集成、Kafka、Flume、Sqoop、流处理、批量迁移、日志收集摘要：在大数据生态中，数据集成是连接数据源与数据处理平台的关键环节。本文深度对比Kafka、Flume、Sqoop三大主流集成工具，从核心架构、技术原理、适用场景到实战案例展开系统性分析。通过数学模型量化性能差异，结合实际项目经验总结选型策略，帮助开发者根据业
【Hadoop】onekey_install脚本菜萝卜子 Linux hadoop 大数据分布式
hosts[root@kafka01hadoop-script]#cat/etc/hosts127.0.0.1localhostlocalhost.localdomainlocalhost4localhost4.localdomain4::1localhostlocalhost.localdomainlocalhost6localhost6.localdomain6192.168.100.150k
飞算科技：以创新科技引领数字化变革，旗下飞算 JavaAI 成开发利器飞算JavaAI开发助手科技
作为国家级高新技术企业，飞算科技专注于自主创新，在数字科技领域持续深耕，用前沿技术为各行业客户赋能，助力其实现数字化转型升级的飞跃。飞算科技凭借深厚的技术积累，将互联网科技、大数据、人工智能等技术与实际应用紧密融合。公司组建了一支由行业资深专家和技术精英构成的团队，他们在相关领域积累了多年实践经验，深刻理解不同行业客户在数字化进程中面临的痛点与挑战。基于这些洞察，飞算科技推出了一系列具有创新性和实
Java 大视界 -- Java 大数据机器学习模型在金融市场情绪分析与投资策略制定中的应用青云交大数据新视界 Java 大视界 java 大数据机器学习情绪分析智能投资多源数据
Java大视界--Java大数据机器学习模型在金融市场情绪分析与投资策略制定中的应用）引言：正文：一、金融情绪数据的立体化采集与治理1.1多模态数据采集架构1.2数据治理与特征工程二、Java机器学习模型的工程化实践2.1情感分析模型的深度优化2.2强化学习驱动的动态投资策略三、顶级机构实战：Java系统的金融炼金术四、技术前沿：Java与金融科技的未来融合4.1量子机器学习集成4.2联邦学习在合
Java 大视界 -- Java 大数据在影视内容推荐与用户兴趣挖掘中的深度实践（183）青云交大数据新视界 Java 大视界 Java+Python 双剑合璧：AI 大数据实战通关秘籍大数据影视内容推荐用户兴趣挖掘协同过滤基于内容推荐数据可视化个性化推荐系统
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！全网（微信公众号/CSDN/抖音/华为/支付宝/微博）：青云交一、欢迎加入【福利社群】点击快速加入1：青云交技术圈福利社群（NEW)点击快速加入2：2025CS
Java 大视界 -- 基于 Java 的大数据分布式文件系统在科研数据存储与共享中的应用优化（187）青云交大数据新视界 Java 大视界 Java+Python 双剑合璧：AI 大数据实战通关秘籍大数据大数据分布式文件系统科研数据存储科研数据共享应用优化 HDFS 数据分区
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！全网（微信公众号/CSDN/抖音/华为/支付宝/微博）：青云交一、欢迎加入【福利社群】点击快速加入1：青云交技术圈福利社群（NEW)点击快速加入2：CSDN博客
Python医疗大数据实战：基于Scrapy-Redis的医院评价数据分布式爬虫设计与实现 Python爬虫项目 python 开发语言爬虫 selenium scrapy
摘要本文将详细介绍如何使用Python构建一个高效的医院评价数据爬虫系统。我们将从爬虫基础讲起，逐步深入到分布式爬虫架构设计，使用Scrapy框架结合Redis实现分布式爬取，并采用最新的反反爬技术确保数据采集的稳定性。文章包含完整的代码实现、性能优化方案以及数据处理方法，帮助读者掌握医疗大数据采集的核心技术。关键词：Python爬虫、Scrapy-Redis、分布式爬虫、医疗大数据、反反爬技术1
如何解决一个flink on yarn集群上已经跑了一个job，再提交第二个job的时候，task报java heap size oom的问题 fzip Flink flink java 大数据
在FlinkonYARN集群中提交第二个Job时出现Task的JavaHeapSizeOOM（内存溢出），核心原因是集群资源不足（第一个Job已占用大量资源，第二个Job分配的内存不够）或Job资源配置不合理（单个Job申请资源过多，或内存参数设置与实际需求不匹配）。解决需从“资源排查”“Job配置优化”“集群资源扩容”三个维度入手，具体步骤如下：一、先排查核心原因：确认资源占用与配置是否匹配1.
flink sql读hive catalog数据，将string类型的时间戳数据排序后写入kafka，如何保障写入kafka的数据是有序的 fzip Flink flink sql hive
在FlinkSQL中，要确保从Hive读取的STRING类型时间戳数据排序后有序写入Kafka，需要结合批处理模式、时间类型转换、单分区写入和Kafka生产者配置。以下是完整解决方案：一、核心解决方案1.批处理模式+全局排序将作业设置为批处理模式，并对字符串时间戳进行类型转换后排序：--设置为批处理模式（关键！）SET'execution.runtime-mode'='batch';--从Hive
flink-sql读写hive-1.13 第一片心意 flink flink sql hive
1.版本说明本文档内容基于flink-1.13.x，其他版本的整理，请查看本人博客的flink专栏其他文章。1.1.概述ApacheHive已经成为了数据仓库生态系统中的核心。它不仅仅是一个用于大数据分析和ETL场景的SQL引擎，同样也是一个数据管理平台，可用于发现，定义，和演化数据。Flink与Hive的集成包含两个层面。一是利用了Hive的MetaStore作为持久化的Catalog，用户可通
flink sql如何对hive string类型的时间戳进行排序
在FlinkSQL中对Hive表的STRING类型时间戳进行排序，需要先将字符串转换为时间类型，再基于时间类型排序。以下是具体方法和示例：一、核心解决方案1.字符串转TIMESTAMP后排序若Hive中的时间戳格式为'yyyy-MM-ddHH:mm:ss'（如'2024-01-0112:00:00'），可直接转为TIMESTAMP排序：SELECT*FROMhive_tableORDERBYTO_
觉察与正念佳佳的宝瓶子
今天因为交电费的事与妈妈沟通。在沟通的过程中，年届八十的母亲一直给我强调着过去怎么怎么。父母家的电费一直是银行代扣的，这样的模式自从可以通过银行代扣便开始了。可见那时候的父母还是蛮新潮的，能接受新事物的。至从有了智能手机，人类便进入了大数据时代。通过微信或支付宝来交电费方便得多。可惜父亲不在了，老母亲是连手机都坚决不用的人。（因为想要掩饰自己的不能、不敢，所以干脆拒绝！不愿意做任何的改变）。今年，
Java大视界：Java大数据在智能医疗电子健康档案数据挖掘与健康服务创新＞ Loving_enjoy 计算机学科论文创新点人工智能深度学习迁移学习经验分享
>本文通过完整代码示例，揭秘如何用Java大数据技术挖掘电子健康档案价值，实现疾病预测、个性化健康管理等创新服务。###一、智能医疗时代的数据金矿电子健康档案（EHR）作为医疗数字化的核心载体，包含海量患者全生命周期健康数据。据统计，全球医疗数据量正以每年**48%的速度增长**，单个三甲医院年数据量可达**PB级**。这些数据蕴藏着疾病规律、治疗效能的宝贵知识，但传统技术难以有效挖掘。**Jav
桌面上有多个球在同时运动，怎么实现球之间不交叉，即碰撞？换个号韩国红果果 html 小球碰撞
稍微想了一下，然后解决了很多bug，最后终于把它实现了。其实原理很简单。在每改变一个小球的x y坐标后，遍历整个在dom树中的其他小球，看一下它们与当前小球的距离是否小于球半径的两倍？若小于说明下一次绘制该小球（设为a）前要把他的方向变为原来相反方向（与a要碰撞的小球设为b），即假如当前小球的距离小于球半径的两倍的话，马上改变当前小球方向。那么下一次绘制也是先绘制b，再绘制a，由于a的方向已经改变
《高性能HTML5》读后整理的Web性能优化内容白糖_ html5
读后感先说说《高性能HTML5》这本书的读后感吧，个人觉得这本书前两章跟书的标题完全搭不上关系，或者说只能算是讲解了“高性能”这三个字，HTML5完全不见踪影。个人觉得作者应该首先把HTML5的大菜拿出来讲一讲，再去分析性能优化的内容，这样才会有吸引力。因为只是在线试读，没有机会看后面的内容，所以不胡乱评价了。
[JShop]Spring MVC的RequestContextHolder使用误区 dinguangx jeeshop 商城系统 jshop 电商系统
在spring mvc中，为了随时都能取到当前请求的request对象，可以通过RequestContextHolder的静态方法getRequestAttributes()获取Request相关的变量，如request, response等。在jshop中，对RequestContextHolder的
算法之时间复杂度周凡杨 java 算法时间复杂度效率
在计算机科学中，算法的时间复杂度是一个函数，它定量描述了该算法的运行时间。这是一个关于代表算法输入值的字符串的长度的函数。时间复杂度常用大O符号表述，不包括这个函数的低阶项和首项系数。使用这种方式时，时间复杂度可被称为是渐近的，它考察当输入值大小趋近无穷时的情况。这样用大写O()来体现算法时间复杂度的记法，
Java事务处理 g21121 java
一、什么是Java事务通常的观念认为，事务仅与数据库相关。事务必须服从ISO/IEC所制定的ACID原则。ACID是原子性（atomicity）、一致性（consistency）、隔离性（isolation）和持久性（durability）的缩写。事务的原子性表示事务执行过程中的任何失败都将导致事务所做的任何修改失效。一致性表示当事务执行失败时，所有被该事务影响的数据都应该恢复到事务执行前的状
Linux awk命令详解 510888780 linux
一. AWK 说明 awk是一种编程语言，用于在linux/unix下对文本和数据进行处理。数据可以来自标准输入、一个或多个文件，或其它命令的输出。它支持用户自定义函数和动态正则表达式等先进功能，是linux/unix下的一个强大编程工具。它在命令行中使用，但更多是作为脚本来使用。 awk的处理文本和数据的方式：它逐行扫描文件，从第一行到
android permission 布衣凌宇 Permission
<uses-permission android:name="android.permission.ACCESS_CHECKIN_PROPERTIES" ></uses-permission>允许读写访问"properties"表在checkin数据库中，改值可以修改上传 <uses-permission android:na
Oracle和谷歌Java Android官司将推迟 aijuans java oracle
北京时间 10 月 7 日，据国外媒体报道，Oracle 和谷歌之间一场等待已久的官司可能会推迟至 10 月 17 日以后进行，这场官司的内容是 Android 操作系统所谓的 Java 专利权之争。本案法官 William Alsup 称根据专利权专家 Florian Mueller 的预测，谷歌 Oracle 案很可能会被推迟。　　该案中的第二波辩护被安排在 10 月 17 日出庭，从目前看来
linux shell 常用命令 antlove linux shell command
grep [options] [regex] [files] /var/root # grep -n "o" * hello.c:1:/* This C source can be compiled with:
Java解析XML配置数据库连接(DOM技术连接 SAX技术连接) 百合不是茶 sax技术 Java解析xml文档 dom技术 XML配置数据库连接
XML配置数据库文件的连接其实是个很简单的问题,为什么到现在才写出来主要是昨天在网上看了别人写的,然后一直陷入其中,最后发现不能自拔所以今天决定自己完成 ,,,,现将代码与思路贴出来供大家一起学习 XML配置数据库的连接主要技术点的博客; JDBC编程 : JDBC连接数据库 DOM解析XML: DOM解析XML文件 SA
underscore.js 学习（二） bijian1013 JavaScript underscore
Array Functions 所有数组函数对参数对象一样适用。1.first _.first(array, [n]) 别名: head, take 返回array的第一个元素，设置了参数n，就
plSql介绍 bijian1013 oracle 数据库 plsql
/* * PL/SQL 程序设计学习笔记 * 学习plSql介绍.pdf * 时间：2010-10-05 */ --创建DEPT表 create table DEPT ( DEPTNO NUMBER(10), DNAME NVARCHAR2(255), LOC NVARCHAR2(255) ) delete dept; select
【Nginx一】Nginx安装与总体介绍 bit1129 nginx
启动、停止、重新加载Nginx nginx 启动Nginx服务器，不需要任何参数u nginx -s stop 快速(强制)关系Nginx服务器 nginx -s quit 优雅的关闭Nginx服务器 nginx -s reload 重新加载Nginx服务器的配置文件 nginx -s reopen 重新打开Nginx日志文件
spring mvc开发中浏览器兼容的奇怪问题 bitray jquery Ajax springMVC 浏览器上传文件
最近个人开发一个小的OA项目,属于复习阶段.使用的技术主要是spring mvc作为前端框架,mybatis作为数据库持久化技术.前台使用jquery和一些jquery的插件. 在开发到中间阶段时候发现自己好像忽略了一个小问题,整个项目一直在firefox下测试,没有在IE下测试,不确定是否会出现兼容问题.由于jquer
Lua的io库函数列表 ronin47 lua io
1、io表调用方式：使用io表，io.open将返回指定文件的描述，并且所有的操作将围绕这个文件描述　　io表同样提供三种预定义的文件描述io.stdin,io.stdout,io.stderr 　　2、文件句柄直接调用方式,即使用file:XXX()函数方式进行操作,其中file为io.open()返回的文件句柄　　多数I/O函数调用失败时返回nil加错误信息,有些函数成功时返回nil
java-26-左旋转字符串 bylijinnan java
public class LeftRotateString { /** * Q 26 左旋转字符串 * 题目：定义字符串的左旋转操作：把字符串前面的若干个字符移动到字符串的尾部。 * 如把字符串abcdef左旋转2位得到字符串cdefab。 * 请实现字符串左旋转的函数。要求时间对长度为n的字符串操作的复杂度为O(n)，辅助内存为O(1)。 */ pu
《vi中的替换艺术》-linux命令五分钟系列之十一 cfyme linux命令
vi方面的内容不知道分类到哪里好，就放到《Linux命令五分钟系列》里吧！今天编程，关于栈的一个小例子，其间我需要把”S.”替换为”S->”(替换不包括双引号)。其实这个不难，不过我觉得应该总结一下vi里的替换技术了，以备以后查阅。 1 所有替换方案都要在冒号“:”状态下书写。 2 如果想将abc替换为xyz，那么就这样 :s/abc/xyz/ 不过要特别
[轨道与计算]新的并行计算架构 comsci 并行计算
我在进行流程引擎循环反馈试验的过程中，发现一个有趣的事情。。。如果我们在流程图的每个节点中嵌入一个双向循环代码段，而整个流程中又充满着很多并行路由，每个并行路由中又包含着一些并行节点，那么当整个流程图开始循环反馈过程的时候，这个流程图的运行过程是否变成一个并行计算的架构呢？
重复执行某段代码 dai_lm android
用handler就可以了 private Handler handler = new Handler(); private Runnable runnable = new Runnable() { public void run() { update(); handler.postDelayed(this, 5000); } }; 开始计时 h
Java实现堆栈（list实现） datageek 数据结构——堆栈
public interface IStack<T> { //元素出栈，并返回出栈元素 public T pop(); //元素入栈 public void push(T element); //获取栈顶元素 public T peek(); //判断栈是否为空 public boolean isEmpty
四大备份MySql数据库方法及可能遇到的问题 dcj3sjt126com DB backup
一：通过备份王等软件进行备份前台进不去？用备份王等软件进行备份是大多老站长的选择，这种方法方便快捷，只要上传备份软件到空间一步步操作就可以，但是许多刚接触备份王软件的客用户来说还原后会出现一个问题：因为新老空间数据库用户名和密码不统一，网站文件打包过来后因没有修改连接文件，还原数据库是好了，可是前台会提示数据库连接错误，网站从而出现打不开的情况。解决方法：学会修改网站配置文件，大多是由co
github做webhooks：[1]钩子触发是否成功测试 dcj3sjt126com github git webhook
转自: http://jingyan.baidu.com/article/5d6edee228c88899ebdeec47.html github和svn一样有钩子的功能，而且更加强大。例如我做的是最常见的push操作触发的钩子操作，则每次更新之后的钩子操作记录都会在github的控制板可以看到！工具/原料 github 方法/步骤
">的作用" target="_blank">JSP中的作用蕃薯耀
JSP中<base href="<%=basePath%>">的作用 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
linux下SAMBA服务安装与配置 hanqunfeng linux
局域网使用的文件共享服务。一.安装包： rpm -qa | grep samba samba-3.6.9-151.el6.x86_64 samba-common-3.6.9-151.el6.x86_64 samba-winbind-3.6.9-151.el6.x86_64 samba-client-3.6.9-151.el6.x86_64 samba-winbind-clients
guava cache IXHONG cache
缓存，在我们日常开发中是必不可少的一种解决性能问题的方法。简单的说，cache 就是为了提升系统性能而开辟的一块内存空间。　　缓存的主要作用是暂时在内存中保存业务系统的数据处理结果，并且等待下次访问使用。在日常开发的很多场合，由于受限于硬盘IO的性能或者我们自身业务系统的数据处理和获取可能非常费时，当我们发现我们的系统这个数据请求量很大的时候，频繁的IO和频繁的逻辑处理会导致硬盘和CPU资源的
Query的开始--全局变量,noconflict和兼容各种js的初始化方法 kvhur JavaScript jquery css
这个是整个jQuery代码的开始，里面包含了对不同环境的js进行的处理，例如普通环境，Nodejs，和requiredJs的处理方法。还有jQuery生成$, jQuery全局变量的代码和noConflict代码详解完整资源： http://www.gbtags.com/gb/share/5640.htm jQuery 源码： (
美国人的福利和中国人的储蓄 nannan408
今天看了篇文章，震动很大，说的是美国的福利。美国医院的无偿入院真的是个好措施。小小的改善，对于社会是大大的信心。小孩，税费等，政府不收反补，真的体现了人文主义。美国这么高的社会保障会不会使人变懒？答案是否定的。正因为政府解决了后顾之忧，人们才得以倾尽精力去做一些有创造力，更造福社会的事情，这竟成了美国社会思想、人
N阶行列式计算(JAVA) qiuwanchi N阶行列式计算
package gaodai; import java.util.List; /** * N阶行列式计算 * @author 邱万迟 * */ public class DeterminantCalculation { public DeterminantCalculation(List<List<Double>> determina
C语言算法之打渔晒网问题 qiufeihu c 算法
如果一个渔夫从2011年1月1日开始每三天打一次渔，两天晒一次网，编程实现当输入2011年1月1日以后任意一天，输出该渔夫是在打渔还是在晒网。代码如下： #include <stdio.h> int leap(int a) /*自定义函数leap()用来指定输入的年份是否为闰年*/ { if((a%4 == 0 && a%100 != 0
XML中DOCTYPE字段的解析 wyzuomumu xml
DTD声明始终以!DOCTYPE开头,空一格后跟着文档根元素的名称,如果是内部DTD,则再空一格出现[],在中括号中是文档类型定义的内容. 而对于外部DTD,则又分为私有DTD与公共DTD,私有DTD使用SYSTEM表示,接着是外部DTD的URL. 而公共DTD则使用PUBLIC,接着是DTD公共名称,接着是DTD的URL. 私有DTD <!DOCTYPErootSYST

12. 离线处理之业务数据采集、生成用户画像、推广效果分析以及知识点总结

离线处理之业务数据采集、生成用户画像、推广效果分析以及知识点总结

1. Azkaban周期性调度任务

1.1. 总览

1.2. 调度脚本

1.3. Azkaban安装并设置定时任务Schedule以及邮件发送接收

2. 业务数据采集

2.1. 后台通过logback把业务接口日志写入到本地文件

2.1.1. logback配置文件

2.1.2. 拦截器当中记录接口日志

2.1.3. 本地日志目录

2.1.4. 日志格式

2.2. 通过Flume采集数据到Kafka

2.2.1. Flume配置文件

2.3. Storm消费Kafka数据，写入Hbase

2.3.1. LogReaderSpout.java

2.3.2. UserLogBolt.java

2.3.3 ToHbaseBolt.java

2.4. Hive和Hbase的整合

2.4.1. HIve和Hbase的表关联

2.4.2. Hive数据样式

2.4.3. Hbase数据样式

2.4.4. Hive和Hbase关联后，操作一方同样会影响另一方数据

2.5. 通过Sqoop把业务数据从PostgreSql导入Hive数仓

3. 生成用户画像

3.1. hive分区设置

3.2. 用户登录日志

3.3. 用户终端类型和机型

3.4. 用户最高委员会职务

3.5. 用户信息

3.6. 画像信息

3.7. 生成用户画像

4. 推广效果分析

4.1. 采集微论文曝光数据

4.2. 采集广告曝光数据

4.3. 曝光量多维度统计

4.4. 不同维度进行曝光量的统计

4.5. 统计日汇总维度

4.6. 同步统计结果

5. 知识点总结

5.1. Tomcat

5.1.1. Tomcat使用详细教程

5.1.2. 用脚本实现windows与linux之间文件的传输

5.2. Hive Hql常用方法总结

5.2.1. ROW_NUMBER() OVER函数的基本用法

5.2.2. SQL语言-- SELECT CASE WHEN THEN

5.2.3. Hive列转行 (Lateral View + explode)详解

5.2.4. HiveSQL行转列lateral view explore()以及连接concat_ws()和列转行collect_list()&collect_set()区别的使用案例

5.2.5. Hive SQL grouping sets 用法

5.2.6. hive中的lateral view 与 explode函数的使用

6. 寄语：知己知彼，不狂不馁，仔细地找准了自己生命的目标，板浆摇橹向人生茫茫之海努力划去。

你可能感兴趣的:(大数据,hadoop,Flink)

2.1. 后台通过`logback`把业务接口日志写入到本地文件

2.3.1. `LogReaderSpout.java`

2.3.2. `UserLogBolt.java`

2.3.3 `ToHbaseBolt.java`

2.4.4. `Hive和Hbase关联后，操作一方同样会影响另一方数据`