Hadoop大数据基础知识点总结--持续更新

什么是大数据

数据量很大的数据就是大数据
数据集的大小已经远远超过了现有传统的技术方案(数据库)或工具可以处理能力的数据

大数据的特点

海量化
	数据量大 TB ---> PB 
多样化
	数据类型复杂多样,结构化数据,半结构化数据,非结构化数据
快速化
	数据增长的速度快
低密度高价值
	低成本创建高价值,数据量越大,能做的事情越多,所产生的价值也就越高

大数据项目数据处理流程

生集存分,预计存现
1、数据生产
2、数据采集
3、数据存储
4、需求分析
5、数据预处理
6、数据与计算
7、结果数据存储
8、结果数据展现

大数据能做什么

在海量数据的背景下
	1、快速查询
	2、数据存储
		超大量数据的存储,单个文件(超过了一个硬盘最大的存储量)
	3、快速计算
		与传统方案对比,传统用时一个月,大数据仅需要两三个小时
	4、实时计算
		立刻马上得出结果
	5、数据挖掘
		挖掘实际存在但是没有发现的有价值的数据

传统(没有大数据之前)服务器安装部署

1、系统硬盘
	系统硬盘做RAID1
	/boot	200M
	/SWAP	内存的1-2倍(大数据环境下,需关闭)
	/		根目录(剩余所有容量)
2、数据硬盘
	将多个小硬盘合并成一个大硬盘(逻辑卷)

Hadoop大数据基础知识点总结--持续更新_第1张图片

大数据系统安装部署

1、系统硬盘
	系统硬盘做RAID1
	/boot	200M
	/SWAP	内存的1-2倍(大数据环境下,需关闭)
	/		根目录(剩余所有容量)
2、数据硬盘
	数据硬盘优先不做RAID,必须做时做RAID0
	每个硬盘独立挂载,一个硬盘一个目录

Hadoop大数据基础知识点总结--持续更新_第2张图片

大数据为什么这么快

记忆诀窍:展布可模
1、扩展性
	传统的是纵向扩展:服务器数量不变,每个服务器的配置越来越高
	大数据是横向扩展:服务器配置不变,每个服务器的数量越来越多
2、分布式
	传统的是集中式存储,集中式计算
	大数据是分布式存储,分布式计算
3、可用性
	传统的是单份数据:存储数据的磁盘少
	大数据是多份数据:存储数据的磁盘多
4、模型
	传统的是移动数据到程序段
	大数据是移动程序到数据端:减少了大量的IO开销和网络开销,利用并行计算,并行存储

大数据技术快的原因

	分布式存储
	分布式并行计算
	移动程序到数据端
	更前卫,更先进的实现思路
	更细分的业务场景
	更陷阱的硬件技术+更先进的软件技术
	DataNode多目录配置,多台服务器有多个磁盘,读写执行率较高

Hadoop特性优点

扩容能力
成本低
高效率
可靠性

Hadoop部署的方式分别是哪几种?

Standalone mode(独立模式)
Pseudo-Distributed mode(伪分布式模式)
Cluster mode (群集模式)

Hadoop的垃圾桶机制在哪一个文件中配置

core-site.xml 文件中配置

垃圾桶配置参数是什么?

fs.trash.interval

Hadoop安装是需要配置的文件有哪些?

hadoop-enb.sh
core-site.xml
hdfs-site.xml
mapred-site.xml
yarn-site.xml
Slaves

Hadoop安装包目录包括哪些文件夹,各有什么作用?

bin:Hadoop最基本的管理脚本和使用脚本的目录
etc:Hadoop配置文件所在的目录
include:对外提供的编程库头文件
lib:该目录包含了Hadoop对外提供的编程动态库和静态库
libexec:各个服务器对应的shell配置文件所在的目录
sbin:Hadoop管理脚本所在的目录
share:Hadoop各个模块编译后的jar包所在的目录,官方自带示例

简述Hadoop的combine 与 partition 的区别

combine和partition都是函数,中间的步骤应该只要shuffle
combine分为map端和reduce端
	作用是把同一个key的键值对合并在一起,可以自定义的
partition是分割map每个节点的结果
	按照key分别映射给不同的reduce,也可以是自定义的,这里其实可以理解为归类

你可能感兴趣的:(【大数据】Hadoop)