hadoop介绍

可大可小

使用大数据

hadoop生态圈或框架 平台

高并发 ==多线程

集群 == 分布式 多进程 把进程分布到不同机器 将会涉及网络通信 很麻烦

因此 hadoop诞生了

hadoop 数据存储 hdfs

         数据分析 mapreduce  分析模型   

        资源调度 yern

       离线批量处理

        实时流计算  

        迭代内存分析

站内搜索 ==、百度

磁盘阵列

    是由很多价格较便宜的[磁盘](https://baike.baidu.com/item/%E7%A3%81%E7%9B%98),组合成一个容量巨大的磁盘组,利用个别磁盘提供数据所产生加成效果提升整个磁盘系统效能。利用这项技术,将数据切割成许多区段,分别存放在各个硬盘上

爬虫 --> 存储 --》分析 --》 索引 --查找


hadoop介绍_第1张图片
image.png

原始方法 通过共享文件夹来海量存储
hdfs ------


hadoop介绍_第2张图片
image.png

mapredue
hadoop介绍_第3张图片
image.png

map在 datasnode 处理

你可能感兴趣的:(hadoop介绍)