大数据Hadoop的基础知识与入门

随着大数据与云计算的应用十分广泛,在这里写一下我对大数据的基本认识与了解;

一、大数据是啥?

1.

(1)      举例子:商品推荐 问题(1)、大量订单如何存储  (2)、大量的订单如何计算

(2)      天气预报  问题  (1)、大量天气数据如何存储 (2)、大量天气数据如何计算

 2.核心问题  数据的存储 与数据的计算

3、Hadoop 要解决的问题就是上面两个问题

4. IBM提出大数据的定义5个v ,就是关于数据量大单词

 

二、如何学习大数据Hadoop

1.重要:原理与运行机制

2.操作: 开发程序(Java程序)

 

三、Google的基本思想;


3篇论文:

1.GFS (Google file system) : 分布式的文件系统(类似与网盘)----数据的存储----HDFS(Hadoop Distribute file system )

2.Page rank (搜索排名) 算法:        Google向量矩阵 大---小       -----数据的计算   Mapreduce 计算模型

3.Big Table (大表                         ------) NoSql 数据库  Hbase ( Hadoop  DataBase) 不支持事物

 

分布式文件系统 :思想来源:Google论文

   问题:1、数据不够安全  冗余度:Hadoop 默认是3    2、硬盘不够大 (多几块硬盘)

管理员:namNode  1+1 DataNode(具体存储


 



你可能感兴趣的:(大数据Hadoop)