我的最后一公里

一、实习了这么久,总结一下,第一个月就只在接触数据库SQL语句,做了很多重复性的工作,每天只是在看FJR的SQL脚本,根据60个基本表构建20个过程表,并基于此构建一个总的用户汇总表。然后就是在他的脚本基础上改月份的引用,并没有多少进步。

等我将oracle脚本改成了pgsql的存储过程后,又发现其实做这个没有那么必要。所以第二阶段又开始做java程序,其实是一个很简单的程序。

然后最近才开始研究R脚本和python,发现这个工作才叫真正的数据建模和挖掘工作,很有意思,但是工作需要一些业务的知识去筛选变量好设置参数,如果业务了解的话,基本上都只是调用一下函数而已。

我称这个基于数据宽表的建模工作为数据挖掘的最后一公里,因为之前的大量工作都是在数据探索,数据清洗,而最后用到这个模型,只是一个函数,并输出带排名的名单。

等学会了最后一公里的知识,我这个实习的阶段算是结束了,也算是学到了东西。我选择python而不是R,因为python更接近于是一种面向对象的编程语言,与java相似,而且之前有系统学过它的数据类型,是一个很好地过渡语言,同时现在的python也比R更加强大了。


二、总结一下最后一公里需要学的东西有:

python的pandas包、matplotlib包、seaborn包、sklearn包,以及各种数理统计用到的思想。对于数据要有最原始的敏感,知道数据的分布,而且能画出来并表达清楚怎样的取舍;对于各种模型要有了解,在建模的时候知道应该选择哪一种模型更为合适,其实也是可以选择后对比的,但是对于模型的用途:分类、聚类、回归都要有一定的了解。


三、这个数据挖掘的流程算是跑通了,以后对于自己能干什么,会干什么都有一定能的了解了,对于此很欣慰。

虽然数据的准备工作还是在关系型数据库上得到的,最多只是接触到了基于pgsql的greenplum,并没有很深的接触到Hadoop和spark架构,但是这个流程算是通了,从数据准备到数据清洗,数据探索,数据建模,再到模型的用处,我都有一定的知识储备,对于各个流程的每个细节都有一定认识,可以胜任中间任何一个部分!只是需要一个机会。








你可能感兴趣的:(我的最后一公里)