我是怎么在数据之路上越走越远的(一)

作者:伍翀

2005年我本科毕业,记得第一家工作的单位是华腾软件,我的职位是软件工程师。我本科是学习数学的,并没有什么软件经验,但是公司告诉我不必担心,因为后续会有比较专业的软件工程培训,于是我和十三位软件专业的小伙伴一起参加了两个月的集训。

集训很苦但很有意思,所有的东西对我来说都是新奇的,感觉自己突然发现了另外一个世界。两个月集训很快结束,正当我准备撸起袖子大干一场的时候,人事经理突然告知我,公司商业智能部的负责人希望和我谈谈,让我转岗。我深知自己没有什么谈的资本,只是去走走过场。

见到负责人,他告诉我公司正在做一个交通卡的决策支持系统,告诉我交通卡在刷卡时会留下一条记录,记录了刷卡时间,卡号,刷卡设备号和刷卡金额四样东西,然后给我演示了他用这四样东西做出的各种酷炫的图表,还有一个仿真的动画,我当时被惊呆了,完全不知道是如何弄出来的。但同时我看到了亲切的matlab,隐约看见了聚类,时间序列这些词语,我又觉得好像找到了家,觉得搞不好能在他这大干一场。我立刻兴奋的答应转岗,并表示非常感兴趣。

后来我了解到,华腾是一家做小额支付和系统集成的软件公司,上海交通卡的支付系统也是华腾做的,为交通卡公司额外做一个数据方面的项目算是公司的一种尝试,我就在这种情况下被尝试到这个项目。由于数据保密的原因,我从第一天上班就没有到公司报到,而是在交通卡公司给我分配了一个工位,我的项目经理也在那里工作,和我同专业,交通大学研究生学历,是个女孩子。我还有两位同事,一个是同济快毕业的博士,学统计的,他一直到现在都和我是很好的朋友,也是我的偶像,他后来去了阿里研究院,做着一些我看也看不懂的事情。另外一个是外聘的数据库管理员,我对他没有什么印象,因为一个月后我发现,我可以很轻松的替代他的工作,他很快就被解雇了。

工作的第一个月非常苦。没有了像前两个月那样专业悉心的培训,我坐在电脑前不知道做什么,大量的数据当时对我来说就是在matlab里的一个数组。我也学过C,在C里也是一个数组。我就知道这么多。但是面对每天900万的刷卡记录(这是2005年的数字,现在这个数字应该有3000万不到,我猜)我毫无办法,连它们放在哪里,如何存放都不知道。我看到那位数据库管理员娴熟的在什么软件里敲打命令,随之表格一样的数据就呈现出来,于是我就坐在他旁边观察、请教,然后都记录下来,等他下班了,我就把白天记录的命令在我的电脑上输入进去。每天都工作到凌晨,但每天回去我都兴奋的睡不着。

一个月后,我对这些命令,也就是SQL语句比较熟悉了。我的项目经理终于交代给我第一个任务:希望我从1500万张交通卡里找出上班族这个人群,再回答他们上班要平均要消耗多少时间,时间是怎样的分布,平均需要换乘几次,各个换乘枢纽的压力等等问题,她告知我这些是交通局和市领导都很关心的问题,因为上班族的交通耗时决定一个城市的活力,这些数据也是考核城市交通的重要依据。此时此刻,我突然觉得自己高大上了。通过这个任务,我突然明白了什么叫数据决策支持系统,其实就是用数据说话,有了数据就可以摆事实讲道理。

有了第一个任务,似乎开了窍,我们后续又一起做了很多非常有意思的分析和产品。但项目进行到六个月后碰到一个尴尬的问题,项目的初始经费是由交通卡公司出的,但是最终交通卡公司希望有其他买单的人,政府看似很喜欢我们的东西,但是并没有付款的理由,更何况我们并不是专业机构。

由于华腾是家项目制公司,没有人买单,我们后续的工资就没有着落,在我们部门领导的争取下,公司暂时把我们加入内部研发的项目,但是要半年之内找到养活自己的办法。

从入职到需要每天担心自己的薪水来源只有半年时间,顺带说下我的项目经理在这个时候离开了。这半年时间对我来说新增的硬技能就是学会了写SQL语句,学会了把数据从数据库里导入导出。对我们部门来说,我们做了一个看起来还算有点样子的交通卡数据决策系统的案例,我的部门领导,那位没毕业的博士和我就拿着这个案例开始了售前之路。

华腾在银行、公共服务、邮政领域有很多客户,当时银行主要的数据项目是数据仓库项目,但是基本上都被NCR和IBM给包揽了,特别是NCR,它们有一套成熟的金融业数据模型,国内银行核心系统又统统是引进的国外的成熟技术解决方案,所以数据仓库项目对于NCR和IBM来说只是定制化一套往这个数据仓库里装载数据的流程。所以在银行客户这里我们毫无竞争力。倒是去做过一个反洗钱的项目的售前,我们硬着头皮做了几次方案,但由于没有过任何洗钱规则的积累,后来也只能不了了之。

公共服务领域的客户有上海交通卡,上海社保中心,交通卡无法进行,社保中心数据又过于敏感,也无法推进。最后只剩下邮政的客户。邮政当时有个邮储业务,在2005年底准备改制为邮政储蓄银行,在往银行改制的过程中,他们也没有什么经验,我们就拿着从NCR那里窃取的一套金融模型在某邮政规划院进行游说。我们的目标是在售前阶段做出数据仓库的规划以及一个经营分析系统的DEMO,我当时即便对于“数据仓库”这个词都是陌生的,我只知道可以用数据做出很多有意思的事情,但如何从上至下的规划梳理整合一个公司的整套数据我完全没有信心,我于是去买了一本Kimball的<<数据仓库工具箱>>,白天和客户周旋,晚上回到宾馆拼命的看,而我的领导和另外一个同事每天都在拼命研究巴塞尔协议和银行的经营分析的各类KPI。这个过程非常痛苦,心很累,每天都担心第二天会回答不上客户提出的问题,恨不得一天就把书上所有的东西都看完。我和我的领导都遭遇过几次回答不上客户的质疑,我紧张的浑身都湿透了,脑袋嗡嗡作响,恨不得马上学会瞬移术。

邮政的售前项目持续了几个月,方案和DEMO好歹是七拼八凑出来了,这几个月客户愿意支付顾问费,所以工资是有了着落,但是方案出来后有个评估过程,所以这期间我们又要开始担心没有项目了。我这时下决心准备离开公司了,我觉得这种状态的知识积累过于碎片化,也都是囫囵吞枣。

通过这几个月的售前,我发现大一点的企业都想要做数据仓库项目,我觉得这个东西一定会有前景,企业的数据积累到一定的量,会很自然的希望从中分析点什么出来,但是由于数据的积累都是在业务核心系统的不停的演变过程中完成的,企业的数据会变的很乱,格式不一致都还是小问题,很多连定义也不一致,各个部门的理解也不一致!在这种乱糟糟的数据面前,不要谈分析点什么东西出来,就连统计一下订单量这种事情也变得非常复杂。

后来我2008年去携程就经历了这个痛苦,入职的前六个月的时间每天心惊胆战只是为了计算一个月订了多少机票,虽然还允许我有1000张的误差,可还是消耗了我整整六个月的时间。我希望去一家正规一点的公司好好的接触一下数据仓库项目,系统的学习一下这方面的知识。

你可能感兴趣的:(我是怎么在数据之路上越走越远的(一))