大数据初创企业可以在Facebook身上寻找灵(比特网)

要想预测大数据的走势,明确自己的关注点,Facebook 是不二之选,因为它收集的数据可谓海量(100PB,也即 102400TB)。而要想处理这些数据,Cassandra NoSQL 数据存储 +Hive 查询语言 +Hadoop 分布式数据库是最佳拍档。 此文谈到了大数据初创企业应该如何从 Facebook 身上学习自己的突破方向。

机遇之一:Hadoop大众化

通过 Hadoop 和 NoSQL 进行基础设施层创新是机遇一。

Facebook 几乎把 Hadoop 运用到了方方面面,从朋友推荐到定向广告乃至于数据中心分析,不一而足,大数据被分割成了字节大小的碎片。不过,要服务好这一切意味着需要确保其各部门的用户都能够以一种有意义的方式跟 Hadoop 交互。

定制化的工具、接口及虚拟层为这个问题的解决提供了帮助。技术门槛降低以后,Facebook 的非技术用户也能够利用 Hadoop 生成报表、查看分析了。帮助创建了 Hive 的几位前 Facebook 员工还推出了云版的 Hive —Qubole,可以通过 Hive 的签名 SQL 接口提供对 Hadoop 的请求式访问。Facebook 希望创建出有助于降低 Hadoop 使用难度的工具,把大数据的应用效率提高上去。

机遇之二:超越Hadoop

但是有时候跳出已有的框架(如 Hadoop 和 NoSQL 存储)也许也能够闯出一片新天地。这一切都取决于需求。大家用 Hadoop 是因为它是免费的、开源的。但是,要想实现自己的需求往往需要在 Hadoop 上面做大量工作。有很多大数据的问题跟 Hadoop 是无关的,所以另起炉灶也许不失为一种解决之道。Facebook 的图谱数据库用的是 MySQL,其开发 TimeLine 和 Newsfeed 的后台用的也是它,一切均应根据需要来选择。

不过对于初创企业来说,在选择应用开发平台的时候还是要有所权衡。Accel Partners 的 Ping Li 的忠告是,够好是伟大的敌人。要想成就伟大,也许就得突破 Hadoop。

机遇之三:做大,像数据中心那么大

Facebook 今年 8 月推出了数据中心的一项深度存储新战略,打算从头设计数据中心,以期可以处理长期较少被访问的数据存储,而非比较稳定的 web 事务流。

这种变化绝非递进式的变化,跟过去的数据中心相比有着很大的不同。这种能源集约型的数据中心力图将计算节省下来的每一度电都分配给对电力需求要少得多的处理上,但是这些处理还是需要把数据交付给用户和分析引擎。这是一个巨大的挑战,因为越来越多的企业已经意识到历史数据的重要性。

Facebook 打算通过 Open Compute 项目将其设计开放,其中已有部分管理工作在 Apache Hadoop 项目中实现,这对于初创企业来说是个好消息,他们只需要做剩下的事情就行了。

你可能感兴趣的:(大数据初创企业可以在Facebook身上寻找灵(比特网))