Hadoop来临

特点:

海量数据需要及时分析和处理。

海量数据需要深入分析和挖掘。

数据需要长期保存

问题:

磁盘IO成为一种瓶颈,而非CPU资源。

网络带宽是一种稀缺资源

硬件故障成为影响稳定的一大因素

Hadoop在国内的应用

奇虎360:Hadoop存储软件管家中软件,使用CDN技术将用户请求引到最近的Hadoop集群并进行下载

京东、百度:存储、分析日志、数据挖掘和机器学习(主要是推荐系统)

广告类公司:存储日志,通过协调过滤算法为客户推荐广告

Yahoo:垃圾邮件过滤

华为:云计算平台

Facebook:日志存储,实时分析

某公安部项目:网民QQ聊天记录与关联人调查系统,使用Hbase实现

某学校:学生上网与社会行为分析,使用hadoop

淘宝、阿里:国内使用Hadoop最深入的公司,整个Taobao和阿里都是数据驱动的

Hadoop介绍

作者:Doug Cutting(Hadoop的得名 :“这个名字是我孩子给一个棕×××的大象玩具命名的。我的命名标准就是简短,容易发音和拼写,没有太多的意义,并且不会被用于别处。)

Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高传输率(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。

Hadoop特点

⒈高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。

⒉高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。

⒊高效性。Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。

⒋高容错性。Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。

5.低成本。与一体机、商用数据仓库等数据集市相比,hadoop是开源的,项目的软件成本因此会大大降低。

Hadoop带有用Java语言编写的框架,因此运行在 Linux 生产平台上是非常理想的。Hadoop 上的应用程序也可以使用其他语言编写,比如 C++。

Hadoop生态结构

Hbase

Nosql数据库,Key-Value存储

最大化利用内存

HDFS

hadoop distribute file system分布式文件系统

最大化利用磁盘

MapReduce

编程模型,主要用来做数据的分析

最大化利用CPU

Hadoop测试常见问题和测试方法

http://xqtesting.blog.51cto.com/4626073/1349097