大数据工具和数据库区别和关联

当今时代工作任务种类繁多和任务处理机制逐渐多样化,对此您有什么看法?

John Myers:我们真正看到的是混合数据生态系统的出现。我们并不指望单个数据管理平台就能满足所有数据处理和管理需求。人们在考虑Hadoop和NoSQL技术,例如考虑Mongo和Cassandra。

也可能利用如Apache Spark或者其它不同类似的数据库,对吗?

Myers:是的,我认为Spark更是一个处理引擎,而不是数据管理平台。

一般来说,我们考虑数据管理系统的时候,会考虑满足ACID标准,还有就是要关注其持久性。Spark是很好的处理引擎。但是,它仍然需要其它持久化组件的配合。Spark必须依托于其它产品一起应用,要处理的数据需要留存和在某个地方管理。Spark正在变得越来越好,我不知道是否你曾经考虑把Map Reduce和Yarn与Spark融合考虑。这是启动转向非常好的平台,虽然它只发展了两三年。从这个角度讲,它还有很多工作要做,还要学习其它引擎的很多东西,这还需要一段时间。

对于某些使用案例,Spark的运行效果非常好。但是有些案例中,如果持续运行,Spark会比其它处理引擎运行的慢,这对任何平台都是一样的,完全取决于你希望解决什么问题。

回到关系数据库的本质,如果你想让关系数据库系统来实现加减乘除是很容易的,它一天到晚都在做这种任务。40年来大家一直在这么用它。

另一方面,如果你让关系数据库像Neo4j或者Objectivity(InfiniteGraph)这种图形数据库做图分析,这就非常困难了。你必须让关系数据库做非常复杂的递归关联,这都不是关系数据库擅长的事情,它本来设计定位就不是用来干这个的。

然而,如果你使用图数据库做图分析,你可以查询“朋友的朋友的朋友是谁?”图数据库会给你返回结果清单。但是如果你让图数据库计算加减乘除,它处理效果可能不尽如人意。

你会发现人们想知道应该选择哪个平台。但是,我想强调的是,要为使用多个平台协作解决问题留足空间。

您如何看待业务方面对大数据分析新状态的反应呢?

Myers:业务涉众对大数据分析会发生什么感到好奇。我们过去五年来针对这个主题的研究发现,大数据项目的实施几乎总是能带来收入增加,会降低成本和提高利润率。

我们发现很多项目都可以帮助增加销售机会。另一个问题是风险转移,包括风险缝隙的形式和欺诈检测管理。推动这些项目会给业务涉众带来价值。

事实上,IT人员可以给Hadoop中加载数据,但是他们不知道下一步该干什么。同时,业务人员不一定会说:“把Hadoop中的客户数据和企业数据仓库中的客户数据对比一下,然后给我”。相反,他们只会说“给我客户数据。”

由此可见,获取事件级别或者行为数据是IT团队的任务,例如从在线应用或者移动应用获取点击流数据,这些数据可能存储在Hadoop平台;然后把这些数据与数据仓库中的数据做关联,以便带来真正的价值。

大数据和这些不同的数据库类型正在帮我们把点击流数据和策划数据整合到一起,这样我们可以获得更好的利润、交叉销售和更好的风险控制等等,可以这样说吗?

Myers:是的,正是如此。但是业务人员不会说“来,我们做大数据分析吧。”他们会说“我们要扩展信息领域,了解客户的更多信息。”

在这里我还是要推荐下我自己建的大数据学习交流qq裙:522189307 , 裙 里都是学大数据开发的,如果你正在学习大数据 ,小编欢迎你加入,大家都是软件开发党,不定期分享干货(只有大数据开发相关的),包括我自己整理的一份最新的大数据进阶资料和高级开发教程,欢迎进阶中和进想深入大数据的小伙伴。上述资料加群可以领取

你可能感兴趣的:(大数据,编程语言,it资讯,人工智能)