欢迎加入hadoop当下情况与未来发展讨论(思数云bihadoop主办)

为什无论Facebook、谷歌,还是IBM都在说大数据具有改变时间的力量,大数据来自移动设备、Web研究、公民科学项目或者传感器。无论是线上销售趋势,还是癌症研究,史上从来没有如此多的数据,覆盖如此广泛的领域,但是有科学家警告说,有关数据,大并一定最好。


  当数据来自不同的来源,往往会忽略背景,从而导致有问题的结论。其中,谷歌在2008年所发布的谷歌流感趋势分析( GFT )在近来流感水平测量中就遭遇很多困难,其研究小组在日前科学杂志政策论坛中表示,他们缺乏大数据工具缺乏,而它将极具潜力。


基于互联网海量数据分析Google流感趋势图


  基于谷歌搜索,谷歌设计了流感数据聚合对全球范围内流感相关活动进行检索匹配,从而对流感病例进行实时监控。尽管取得了一些成功,GFT还是高估过去两年内美国流感病例的峰值。根据休斯敦大学、东北大学的和哈佛大学的研究人员研究显示,在2012-2013季度感冒流行,以及2011-2012年流感实际水平,GFT都高估了,高估超过50%。此外,从2011年8月至2013年9月, GFT过高预测流感持续度超过100~108周。


  2013年2月号Natrue(大自然)杂志文章报道披露,与美国疾病控制和预防中心(CDC )的数据相比,GFT预测的流感样疾病医生访问量高出了两倍,而CDC的数据是基于调查美国一些实验室所作出评估报告。 (美国科学也是Natrue出版集团的一部分。 )


  据Natrue披露,谷歌软件“依赖于谷歌的搜索引擎相关流感术语搜索的数据挖掘,并结合计算机建模分析,”。尽管还在撰写本周科学“策略论坛”的若干实例,但GFT已经动摇。Natrue指出, GFT全身心的工作,随着时间的推移,其数据几乎完全匹配CDC的监测数,但GFT的速度会比CDC快上好几天。


  谷歌去年十月自己研究的结论是:其流感算法以及其最新推出的谷歌登革热(Dengue)流行趋势,在2012-2013年美国流感季节可以提高媒体的关注度。谷歌发言人表示:我们每年会探讨流感趋势模型,以确定如何改善——我们的最新的更像在2013年10月,用于预测2013-2014流感季节。“我们欢迎任何意见,我们如何能继续完善流感趋势,以帮助估计流感的水平。”他说。

15116995573

欢迎加入hadoop当下情况与未来发展讨论(思数云bihadoop主办)

报名网址:http://www.douban.com/event/21072086/

你可能感兴趣的:(欢迎加入hadoop当下情况与未来发展讨论(思数云bihadoop主办))