(转冯春培)与数据相关的职业路径

与数据相关的职业路径 http://bitirainy.spaces.live.com/blog/cns!6AECD20E2E08EE3A!1722.entry

1:管理数据
2:处理数据
3: 数据产出
当然,不管是管理数据还是处理数据,里面都有很多的方向和空间,在不同的环境下去发挥。但如果自己身处的环境比较成熟了,就应该向下一个目标 走,或者换个环境。
 
管理数据,以DBA为主,也有一些非数据库里面的数据,对于DBA里面比如分 开发DBA、应用DBA、产品DBA等,逐渐由 DB架构、数据架构这样一些角色出来,涉及到的事情涵盖主机、存储、数据库,垂直、水平 扩展方向的数据层开发,读写分离的实现,同步容灾;


处 理数据,数据库数据只是一部分来源,还有网站日志、用户行为采样的海量数据,一般以数据仓库类的多,但这里面实际上涉及到的东西很多。比如以阿里的例子来 看,淘宝oracle RAC 20个节点也远远提供不了服务,大家都部署了一部分greenplum ,支付宝有120个greenplum的节点(每个节点24块 1T SATA盘),阿里巴巴和淘宝也有greenplum集群(处理能力远超NCR了)。但是这东西也是一个过渡产品。 淘宝有近千个节点的以 hadoop+mapreduce为基础的数据分析处理平台,很快将不堪重负。
目前阿里巴巴集团自行在研发新一代的大规模并行处理的数据库,大 规模分布式并行存储和计算都在里面,我们也在协作开发  SQL engine 以通过  SQL 的形式暴露给上层应用使用。 在这一层面临的困难和挑战是巨大的。这个领域未来起码还有3-5年摸索和发展。
当然常规的 ETL 过程也有很多事情需要处理,但这都比较传统。


数 据产出,BI的概念超前,但数据的产出不仅仅是BI,而是可以直接支持一些产品,如何将数据互联互通,形成应用,体现价值,是未来更长时间的一个趋势。淘 宝最近发布的数据魔方是这方面的一个尝试。数据产出不仅需要系统能力(存储和计算)作为支撑,还需要由真正懂业务的有前瞻性的产品经理来具体开拓业务,而 不是领导决策的附庸! 如果只为领导提供点数据支持决策,开发些报表完事,那没什么前途。 但在这个领域,比如阿里如果要将消费者、商家、生产者以及物流的数据结合起来,辅以金融领域的创新,让整个社会效率提高,那才是我们真正到达我们目前所能 看到的顶峰。 但阿里这路最终成不成我不知道,也许再用10年才见分晓。
当然,比如在金融领域和电信领域, 这些企业早就利用数据了,只是这些产品相对来讲大家看的明白一些。

回过来看,跟数据有关的人的价值链是从下到上的,因为处于初级阶段的时 候连管好大规模系统的人才都稀缺。 等到管理数据这块成熟了之后,能处理大规模数据的人才需求量就上来了。能处理好数据了之后,能让这些数据发挥价值推动业务的人才需求量也上来了。 因为现在我们对于处理大规模数据和如何将数据发挥价值没有成为气候,所以BI大多成为忽悠也正常,因为落不了地。 但这事情总是要到合适的时机才能做实的。

你可能感兴趣的:(hadoop,金融,物流,企业应用,阿里巴巴)