Hadoop已经成为大数据分析平台的标配

【CSDN报道】5月29日,“2013中国·北京第一届(国际)开源大会”在北京新世纪日航酒店拉开帷幕,本次大会以大力发展并推动北京科技原创能力为宗旨,以“开源中国 原创北京”为主题,通过丰富前瞻性的思想盛宴,让北京在世界科技发展新趋势下占据主动地位。下文是Hadoop专场侧记:

Hadoop中国开源社区

下午Hadoop专场的第一位嘉宾是来自ChinaHadoop社区负责人谢磊,他做了Hadoop的中国社区报告。在报告中,谢磊介绍了中国Hadoop发行版本的使用情况,目前国内使用最多的就是原生Apache Hadoop,但是Cloudera CDH也非常受到大家的青睐,很多中小互联网公司都在使用这个版本,除此之外,EMC、Intel、华为、天云也都开发了自己的Hadoop版本。接下来他还介绍了Hadoop在中国的技术资源分布,而目前中国使用Hadoop最多的就是互联网公司、Hadoop平台供应商以及电信行业,像中移动和华为等等。

谢磊重点对比了国内和国外的Hadoop开源社区,虽然很多华人都参与了Hadoop社区的核心圈,但是他们主要都是在美国的一些大公司,而国内参与Hadoop核心开发的很少。他介绍了参加开源社区的优势,首先游戏规则很成熟,而且还能获得来自大公司的支持,另外就是在个人的投入和收获上完全可以达到平衡,很多核心开发者都获得了风投的青睐。当然也有很多负面因素,社区的进展很缓慢,分支也太多,从一定意义上讲阻碍了Hadoop的高速发展。而中国在开源社区的表现就相对边缘化,不过个人行为有活跃趋势。

在介绍Hadoop在中国互联网的应用实践时,谢磊认为中国的Hadoop的发展已经与世界同步,Hadoop的应用也是非常广泛和成熟,涵盖了搜索、广告效果和点击流分析、用户模型和个性化推荐、社区网络消息平台、URL短链服务以及地图信息系统等领域。主要特点就是数据量特别大,计算逻辑相对简单,性价比敏感,工程师的队伍也非常强大。谢磊最后还介绍了Hadoop在中国的企业级应用。

来自人人游戏的首席数据科学家陈继东给大家分享了Hadoop在移动互联网的应用实践,他主要介绍了移动互联网和大数据,大数据关键技术对比,以及移动广告大数据的案例分析。

移动互联网和大数据

陈继东表示,移动互联网已经成为大数据应用的主战场,第一,随着智能设备的普及,移动互联网成为移动大数据的核心载体;第二,高宽带引流大数据手机使用3G和Wifi接入互联网);第三这也是移动大数据的聚集地(Andriod和ios成为主流OS);第四,移动大数据的源头和关键节点。

陈继东认为现在移动大数据也呈现出更多的特点,包括数据的核心节点是人而不再是终端、网页或ID;数据量更大,维护更高,种类更多更复杂;更多个性化属性和上下文信息(如用户地理位置,设备属性);同时不再受限于浏览器Cookie,数据更稳定长久和准确;用户行为数据更碎片化,更实时性。

目前大数据关键技术越来越多,包括大规模并行数据库、NoSQL/NewSQL、并行处理引擎(Hadoop MapReduce)、流式计算(Storm,Spark)、并行数据挖掘和机器学习等等,陈继东重点比较了MapReduce和并行数据库,他认为MapReduce和并行数据库应用于不同的场景,它们互为补充;在比较NoSQL和SQL的关系时,他认为NoSQL适用于海量数据定制化存储和高吞吐量(如全属性选择应用)的领域,而SQL的扩展性和灵活性较差,主要用于高性能查询和复杂分析。


陈继东还对比了Spark和Hadoop MapReduce,分布式数据库系统Spark能够快速的进行流处理,类似MapReduce的并行计算引擎,不仅与Hadoop存储的API相兼容,而且比Hadoop MapReduce快100倍,即使对于磁盘数据也要快2-10倍。除此之外,Spark还拥有高性能的主内存抽象,通用的执行图,支持快速迭代类查询。在Spark也可以进行SQL查询,Shark=Spark + Hive。

陈继东最后介绍了移动广告的大数据分析、移动广告平台架构、移动广告CTR预估等方面的内容。在总结时,陈继东认为Hadoop已经成为大数据分析平台的标配,HDFS文件存储、MapReduce分布式计算和HBase分布式持久对象存取已经得到了大家的认可。

Hadoop在搜狗数据平台的应用

搜狗数据平台Hadoop和HBase的负责人洗茂源介绍了Hadoop在搜索业务中的应用,内容包括了体系结构、Hadoop与批处理任务、Hadoop与实时任务以及HBase相关的信息。

洗茂源介绍了搜狗在处理实时与批处理并存、多用户并存的解决方案,他们引入了FairScheduler,依照业务特征以及对资源的需求进行资源分配,紧急的任务优先执行。在涉及大内存的应用时,启用Task Tracker内存监控,在内存吃紧时结束多余任务,实行精准的任务调度方案;在资源利用不充分时,实现Map/Reduce共享槽位。洗茂源最后介绍了HBase相关的应用场景和问题的解决方案,以及Hadoop生态圈衍生产品相关的一些问题,包括PageRank、日志统计及数据挖掘等方面的内容。

开源已经成为云计算的灵魂,开源给云计算带来的是更加灵活和开放的构建方法,能够让用户加快对云计算的普及。本届北京开源大会的主要目的是充分利用“第十七届中国国际软件博览会”在中国软件和信息技术服务业品牌优势,借助博览会舞台,为中国开源界软件精英搭建一个在北京与世界沟通接轨的重要平台。来自开源社区的专家与上千名观众围绕开源@Openstack、开源@OS、开源@Hadoop、开源@Cloudstack等话题展开了深入探讨。(文/王鹏)

你可能感兴趣的:(大数据/云计算)