百度向业界分享海量数据处理技术

 

导语:我们身处海量数据时代。2011年,全球产生的数据量达到1.8ZB(1ZB=10亿TB,1TB=1000GB)。未来十年,全球大数据还将增加50倍。面对数据的暴增,如何有效的存储、管理、访问这些数据?互联网企业将如何应对大数据处理所带来的技术挑战?

海量数据处理技术,成就百度毫秒级搜索响应

中科院计算所副研究员查礼博士在沙龙上指出:百度毫秒级的搜索响应速度源于海量数据分析技术。大数据发展分为三个阶段,第一个就是大,通过分布式系统架构Hadoop来编辑出大量的数据,这个阶段现在已经完成。第二个就是快,在解决大量问题、调用大量数据的同时,尽可能缩短时间,是现阶段需要解决的问题。“以时间换空间”是现在主流的解决方法。第三个就是准,在使用搜索引擎的时候,根据每个人的使用习惯和需求方式的不同,来获得更准确的答案,是大数据未来的发展目标。

据百度分布式高级研发工程师杨栋介绍,从“快”到“准”也正是百度目前的课题。现阶段百度将100毫秒定为搜索响应速度标准,并通过去重算法和云存储等创新技术,在内存、高可用、读写等方面做出革新,不断缩减这个数值,达到更快的响应速度。此外,百度还采用了hypertable(开源分布式存储系统)与hadoop系统结合的方式,更好地完成存储,节约成本及降低能耗。

“准”作为海量数据技术的未来发展趋势,已在百度初现端倪。百度新首页的“推荐引擎”技术就已经部分实现“不搜即得”的智能应用推荐,即基于用户以往的使用习惯分析,直接将用户需要的信息推送至用户个人首页。

毫无疑问,海量数据时代已经到来,从“快”到“准”的大数据处理技术,将让每一个网民受益,享受到更便捷贴心的网络体验。

据了解,百度技术沙龙系由百度与技术社区合作举办,至今已经成功举办了25期。经过两年多的积累,百度技术沙龙在互联网业内已成为公认最权威、最受技术人员欢迎的技术交流平台。往期回顾及资料下载,可访问:salon.baidu-tech.com

你可能感兴趣的:(百度向业界分享海量数据处理技术)