2019-02-01

大数据技术的产生以及发展

谷歌的三篇论文

分布式文件系统 GFS
大数据分布式计算框架 mapreduce
NoSQL数据库系统 BigTable

大数据计算

离线计算——批处理计算(MapReduce、Spark)
实时计算——流式计算 (Storm 、Spark Streaming)
Flink 同时支持离线和实时计算

大数据应用场景

数据分析
数据挖掘
机器学习

大数据技术体系

大数据技术的发展

搜索引擎时代:
谷歌的GFS系统,将数千台机器上的数万块磁盘统一管理,然后当作一个文件系统,统一存储所有的网页。用这些网页构建搜索引擎、对所有文件进行词频统计,然后根据PageRank算法计算网页排名。

数据仓库时代:
Facebook推出了HIVE,使得可以在Hadoop上进行SQL操作,实现数据统计与分析。

数据挖掘时代:
大数据技术的广泛使用,不仅限于数据分析、还可挖掘出更多的数据价值,进行关联分析等。

机器学习时代:
通过大数据技术,可以将所有的历史数据收集起来,统计其规律,进行预测正在发生的事情。

总结

大数据从搜索引擎到机器学习,发展的思路其实一直未变,就是要发现数据中的规律并为我们所用。

你可能感兴趣的:(2019-02-01)