第五届中国云计算大会学习收获(大数据)

第五届中国云计算大会学习收获(大数据)

张�F 2013/06/06 http://idata.blog.51cto.com

第五届云计算大会于65日至67日在北京召开。本文是66日大数据主题收获。

云计算和大数据

云计算商业模式注重硬件设备的使用效率,通过延长设备利用率达到节约投资的目的,例如,服务器的虚拟化。大数据商业模式旨在从海量数据中提取有价值的信息。云计算和大数据结合的意义在于用较低的成本解决大数据的难题。云计算技术和大数据技术殊途同归,水到渠成,未来的发展趋势就是融合。这也是业务系统和分析系统融合的趋势。

大数据和商业智能

内存计算和分布式计算是传统商业智能领域不够重视的两项关键技术。大数据平台较商业智能不仅仅是数据量上的提升,也包括实时性的提升。例如百度的后台有大量的数据,搜索结果却是低延迟的。分析结果以毫秒计,稳定可靠,这和业务系统又有何分别呢?换个角度看,商业智能系统吸引分析师用户越多越好,大数据平台则是与之对接的业务越多越好。商业智能系统可以做为大数据平台的一部分继续存在,分析师仍然是大数平台的用户,但是人数上会成为少数,大数据平台的价值更多的会是体现在业务方面。会上看到一个查汽车套牌的例子,如果能够通过分析摄像头数据迅速查到相同的车牌的汽车,那么抓套牌汽车就变得容易了。大数据平台还可用于追踪破案,在大数据分析的帮助下,某持枪伤人案件10小时就破了。其他还有广告主实时监测广告投放效果的例子。还有提到民航业的应用案例是关于提高旅客忠诚度的。

第四范式

科学实验是第一范式。第二范式是推理。计算机仿真模拟被视为第三范式。通过对大数据的分析得出结论不需要抽样,基于全量数据进行统计就好,这是第四范式。在利用大数据进行预测时,重点分析相关性,例如,流感爆发和搜索流感症状的次数呈现了相关性,可用于预报。需要注意的是相关和因果不是一回事。

他山之石

这次重点听了百度、中国移动和阿里的分享。百度大数据首席架构师的分享让我感到程序员的重要性,算法是核心,并且通过在线实验的效果来决定算法演化方向。中国移动大云项目负责人的分享看来他们的大数据技术研究是正在进行时,现存系统仍然是以报表为中心的商业智能模式,注意到他们的系统刷新报表已经做到秒级。中国移动建立大数据平台的难点不在技术,难点在于数据从分散到集中的管理阻力。阿里大数据平台令人印象深刻,他们从一开始的目标就是开放的平台,终极目标是向社会开放,目前只是做到了对企业内部的开放。阿里大数据平台团队的目标是为别人挖掘数据价值提供方便。我觉得阿里大数据平台团队有这么几项重要工作:一是维护元数据,元数据不仅仅是记录数据含义,还描述数据表之间的血缘关系,并且使用数据需要创建者授权;二是建立调度体系,内置一些端到端的通用的程序;三是管理数据质量、一次清洗大家受益;另外还提供一些工具,例如SQL界面、数据同步等。阿里大数据平台开放模式的好处是有业务部门的参与,数据挖掘效果较好;不好之处是数据膨胀,其大数据平台上的数据表个数超过一百万,再考虑到分库的因素,得有几百万,而且这个增长趋势还在继续。这让我感到对于开放的大数据平台,处理数据膨胀也许比处理数据安全的代价还要高。

你可能感兴趣的:(大数据,中国云计算大会)