miki实习日记day5 第一周总结

今天周五,大家下班格外早啊,果然还是喜欢有自己生活的人。
我的生活忽然进入了一小片空白,打算有条不紊地写完这个记录先,然后展开新的学习。

好快啊,今天已经第五天了。
先流水账一下,今天来的比较迟一些

✔9点50-10:30 昨晚交了一版,然后自己再检查一下,再看看impala文件

✔10:30-11:30部门会议,老板会弄一个weekly catch up ,在公司的线上文档共享。
写的很有逻辑,会分成业务a,负责人a,下面【2019.7.12-7.18】比如这样写关键词,总结各个小分队的任务。
这里听到几个相对重要的点
-比如老板在预算ok的情况下,数据源的占比也只占整个数据5%,那就没必要节省成本去换一个数据源,而是选择相对高的价格,但是持续用一个稳定的数据源。
-比如会关心是否单调。KS提升如何。单独用效果如何,放进模型里效果如何,效果不好,可以考虑提取规则进行加减分。
-比如提到智能方案智牛打电话之类。

✔然后到下午为止都是在改新的一个版本的报表。下面给我自己看。
mentor提出的修改意见:
(1)统一坐标轴,不过分夸大差距。
(2)逻辑上,先写通过的标,再写逾期。
(3)在筛选30+的时候我犯了一个错误,principal>0没有设置,其实30+是已经过标的,没筛选的话数据就很大,是所有投标的人。
(4)计算通过率的时候犯了一个错误 ,前面写了processflag,后面加了sum(processflag)/count(*)结果出来是0,1。正确的做法是要么不计算sum的,直接processflag出来以后在excel里面算,要么直接计算sum的签名processflag不要写,因为后面聚合了什么的,sql的计算逻辑不行啊,我要补一下。
(5)excel的透视表很多功能我还不太熟。真的是没学过。。。比如可以合并组。比如直接计算百分比,父列汇总,行汇总等等。
(6)注意口径大小,笔数太少的可以删掉,要说明。
(7)分析是层层深入的,首先看趋势一致与否。不对的地方是哪里不对,为什么,再做比对。
(8)mentor有时候会看量,有时候不看。看30:70的量也是为了看数据不平衡是不是导致比分评级不同的原因之类的,这个还不是太懂,但是mentor会比较有自己的分析思路。比如禁言和非禁言又9%的gap,原因是什么
(9)额外有个问题,每次impala下载下来数据,难道要重新建表??最后一次下的数据出现了 #div/0! 可是分母为null和0的我都删除了???

今天写了周报总结。

一、本周完成禁言的数据分析任务:

研究放开禁言在新模型上,对审批通过率、风险逾期的影响,与旧模型做比对,以模型评级为参考。得出结论如下:

通过率:针对2019.4.27-2019.7.11的数据,放开禁言,审批通过率比对照组低约9%,与放开禁言后G评级人数大量增加有关。新旧模型的审批通过率接近,无明显差异。
风险逾期:针对2019.4.27-2019.5.12的数据,总体而言,在新模型上,放开禁言对风险逾期没有影响,在decision block 和model credit上的评级指标上趋势也接近。

二、本周学习总结:

业务:了解了基础的审批、额度的业务背景知识。
Sql:初次接触impala,并开始理解和撰写简单的sql语句。
Excel:学习了excel的一些小技巧,如pivot中数据的计算和图表的绘制。
分析:更新了落地的数据分析思维。比如分析顺序要从发标再到逾期,比较合理。比如图表是为了回答问题,所以如何从数据中分析有效的结论,并且一层层深入,又如何高效地展示出来,是一个技术活。
信念:不去想我完成不了会怎样,而是怎样做可以做好。

三、下周目标:

提高sql 的coding 能力,注意语句执行的内部逻辑。
熟练运用excel的透视表,能独立完成简单地分析任务。
培养数据的敏感度。对自己取出来的数所应处的合理范围要有个数。
需要看一下数据可视化的东西

另外mentor非常nice,整个工作氛围也很nice,感恩 :)
真的很感谢mentor
朋友说有一个好老板,愿意教你的很重要,没错!
我的mentor很多很细小的点都会耐心讲耶,人好nice的。

我个人觉得我这周做的比较好的
学习态度不错,人菜但是认真啊
每天都有记录反思
工作节奏和氛围还可以
自己的时间稍微少了一点
效率需要规划

用九宫格来规划一下不错

你可能感兴趣的:(miki实习日记day5 第一周总结)