滴滴第一期技术沙龙

今天参加了滴滴的第一期技术沙龙,主题是大数据处理。了解到现在的Hadoop社区主要包括如下工具:HDFS(hdaoop文件系统)、MapReduce(一次性的任务计算框架)、Hive、Hbase(相当于数据库)、Spark(时间段内的实时处理)、strom(一行数据处理)、kafka(消息发送)、Flume(数据传送)、Yarn(任务调度系统)。
首先是HDFS。HDFS是一种文件系统,假设要在100台机器的集群中存储100G数据,那么它会将100G的数据按机器的配置高低,分配到这100台机器上(具体使用多少台机器,是可以调整的)。比如有的机器配置高,会存储2G数据,有的配置低,只存储500MB数据。然后每一台机器上的数据,都会在其他机器上备份3份副本。这样是为了保证数据的可靠性,当该集群挂掉后,监控程序会自动地新增副本。
其次是MapReduce。MapReduce是一种任务计算框架,简称MR。它提供了两个编写接口,分别是Map函数、Reduce函数。应用场景如下,100G的数据集中,统计每个单词出现的次数。那么结合HDFS文件系统,它的处理过程会是这样的。首先将这100G数据分配到集群中的100台机器上,而每个机器上会部署我们写好的map任务,每个map任务只会处理该机器上的数据。map的执行过程为,

你可能感兴趣的:(技术沙龙)