2019年秋招签订合同,春招的时候违约了,哎一言难尽(很多问题促成了我做出了这个决定,现在主要从事数据开发,偏向数据仓库方向。
公司是一家从事数据产品的公司(现在还没有上市),我这个部门数据数据中台,简单的说会负责公司所有业务线的数据输出。另外还有少量的模型开发,最重要的用户画像开发。下面也会从这几点简单的记录下开发经历。
业务线数据输出
这一点介绍之前先记录下数据的流向,公司数据来源主要来自于SDK,不同SDK的数据生成不同的日志文件。
(1)这些日志文件首先做第一次ETL清洗,并生成一个唯一的设备ID。
(2)接着这部分数据会进行第二次etl清洗,统一口径,格式化,字段统一,黑名单清洗等等。
(3)部分etl数据会被用来更新维度表,标签等等。大部分数据会基于不同的主题生成宽表,由宽表生成,轻度聚合表,公共表以及业务线专用表等等。
其中包含血缘系统,数据自动校验(QC)平台,标签系统等等
hive是基于hive的hook功能,spark生成的表,通过算子整出来的是看不出的。QC主要是通过监测表的元数据发生变化,比如新增分区,插入数据等等会触发QC的check机制。
上面的基本上全是偏业务方面的。。。
用户画像开发
主要是基于用户信息的相关标签统计,主要包含以下几个方向,通过统计,统计+模型,预测,模型,评分这几方面。
统计 用户近多少天做了什么样的事情
统计+模型 xx权重
评分 根据设定的强规则打分
模型 。。。。
预测 。。。。
数据仓库重构
这部分主要是偏向设计,公司当时表依赖复杂,业务推进难度特别大,所以推了这个。
etl -> 不同主题宽表 ->不同主题的轻度汇总表 ->公共表
->业务表
独立出来很多 维度表,模型表,评分表等等
其他杂七杂八的话
hive的UDF,UDTF,UDAF等等吧
地理位置方面的geohash方面的应用等等
HIVE 调优,spark 调优
收获还是有很多的,但是感觉太偏业务了,很多技术原理不是很熟悉
hbase flink druid spark streaming, spark graph
相关算法
词向量训练NLP,机器学习 等等吧 哎好多