项目继续记录 目前到哪一步了

已经做的工作
session聚合分析

第一步

从库里面的task任务 查出对应的action操作信息 比如指定时间段内
然后映射为 session,rows信息

第二步聚合

通过获取rdd age,professional,city,sex 这几个需要关联用户表拿到)
session步长
session时长 long类型 endTime- long类型 startTime

第三步过滤

获取聚合信息之后就是过滤自己想要的数据了 过滤的同时进行自己后续数据统计
而且加入自定义计数器
过滤完的数据 计数总的session count 以及visitLength的累加
过滤完后实际就是 需要的session数据 以及对应的session访问时长 步长的统计

第四部 与第一步session信息关联

随机抽取一些数据

获取详细的过滤后session数据 然后随机抽取
首先将过滤后的数据转化为 过滤的可能是好几天的 time2sessionRDD(2018-12-14_hour,sesssion 聚合详细信息这种格式)
首先触发action操作 将time2sessionRDD countByKey 得到countMap
也就是 具体到某一天(2018-12-14_hour,session,session…)

然后比如计划抽取100条 然后看看有几天 每天去多少条 每天内再具体某个小时多少条
计算出每天每小时应该抽取条数
然后生成一个每天每小时对应应该抽取索引的map

然后遍历

你可能感兴趣的:(实战)