大数据原理及应用笔记

分布式文件系统HDFS

文件以多副本的方式进行存储

架构:1 master(NameNode)带n slaves(DataNode);Name node在内存里,datanode在硬盘里。1个文件拆分为多个Block。

NameNode:1负责客户端请求的响应;2负责元数据(文件的名称,副本系数,Block存放的DN)的管理

DataNode:1存储用户的文件对应的数据块(Block);2定期向NN发送心跳信息,汇报本身及其所有的block信息,健康状况。

建议NN和DN部署在不同节点上

常用访问语言:shell命令,java api

 

资源调度框架YARN

产生背景:MapReduce1.x存在问题:1JobTrackern TaskTracker单点故障&节点压力大不易扩展;资源利用率&运维成本;

不同计算框架可以共享同一个hdfs集群上的数据,享受整体的资源调度。按资源进行分配,提高集群资源利用率

YARN的架构:1ResourceManager:RM;

整个集群同一时间提供服务的RM只有一个,负责集群资源的统一管理和调度;

处理客户端的请求提交/杀死一个作业

2NodeManager:NM;

整个集群有多个,负责自己自身节点资源管理和使用

定时向RM汇报本节点的资源使用情况

接受并处理来自RM的各种命令:启动Container

处理来自AM的命令

单个节点的资源管理

3ApplicationMaster:AM;

         每个应用程序对应一个:MR、Spark、负责应用程序的管理

         为应用程序向RM申请资源(core。memory),分配给内部task

         需要与NM通信:启动/停止task,task是运行在container里面,AM也是运行在container

4 Container;5Client

         封装了CPU、Memory等资源的一个容器

         是一个任务运行环境的抽象

5 Client

         提交作业

         查询作业的运行进度

         杀死作业

 

分布式计算框架MapReduce

优点:海量数据离线处理&易开发&易运行

缺点:实时流式运算困难

例:wordcount

1文件内容小:shell

2文件内容很大:

核心概念:

MapReduce执行步骤:准备map处理的输入数据;mapper处理;shufflereduce处理;结果输出

Split:交由MapReduce作业处理的数据块,是MapReduce中最小的计算单元

         HDFS:blocksize是HDFS中最小的存储单元,128M

         默认情况下:他们两是一一对应的

InputFormat:将我们的输入数据进行分片(Split)

         TextInputFormat:处理文本格式的数据

OutputFormat:输出

Combiner:可以理解为本地的reducer;减少MapTasks输出的数据量及数据网络传输量

Partitioner:决定MapTask输出的数据交由哪个ReduceTask处理;默认实现:分发的key的hash值对ReduceTask个数取模

MapReduce1.x的架构:

1)  Jobtracker:JT

作业的管理者

将作业分解为一堆的任务:Task(Maptask和Reducetask)

将任务分配给Tasktracker运行

作业的监控、容错处理

2)  TaskTracker:TT

任务的执行者

在TT上执行我们的Task(Maptask和Reducetask)

会与JT进行交互:执行/启动/.停止作业,发送心跳信息给JT

3)  MapTask

自己开发的map任务交由该Task出来

解析每条记录的数据,交由自己的map方法处理

将map的输出结果写到本地磁盘(有些作业只有map没有reduce==>HDFS)

4)ReduceTask

         将MapTask输出的数据进行读取

         按照数据进行分组传给我们自己编写的reduce方法处理

         输出结果写到HDFs

 

分布式数据库HBase

是一个稀疏的多维度的排序的映射表。四个元素:行键,列族,列限定符,时间戳。列族支持动态扩展,旧的版本会保留。

 

大数据平台Hadoop spark

两大问题:1如何实现分布式计算2如何做到分布式并行编程

大数据处理的三大类型:1复杂的批量数据处理2基于历史数据的交互查询3基于实时数据流的数据处理

大数据处理平台hadoop:4大部分,1 common:java的一些库 2 YARN调度平台:资源分配和数据分发 3 HDFS分布式文件系统 4 map-reduce分布式编程。核心是HDFSmap-reduce

                                       缺点:1表达能力有限2磁盘io开销大3延迟高

Map-reduce编程方式:顺序读取大量数据,map操作:通过map运算获取关心的内容,group操作:按照键值对的形式实现聚集的运算(hadoop平台自己完成),reduce操作:进行总结、变化运算达到结果

大数据处理平台Spark:1运行速度快:基于内存运算2容易使用:支持scala、python、java、r多种语言编程3通用性4运行模式多样

 

NoSql数据库

非关系数据库。满足各种非结构数据的存储需求。常包括键值数据库,列族数据库,文档数据库,图形数据库。

特点:1灵活的可扩展性2灵活的数据模型3和云计算的紧密结合

键值数据库:一堆的键值对。键是一个字符串对象,值可以是任意类型的数据。理想的缓冲层解决方案;列族数据库:HBase根据列族进行垂直划分,根据行键进行水平划分;文档数据库:可看做键值数据库;图数据库:以图结构方式存储相关信息。

NoSQL的三大理论基石:CAP理论,BASE理论,最终一致性。CAP理论:一个分布式系统在一致性,可用性和分区容忍性中最多满足两个。

 

信息检索(IR)

文本分类、垃圾过滤、聚类分析、推荐系统、q&a

需要:数据库、信息情报领域、人工智能、自然语言处理、机器学习。

倒排索引:

 

推荐系统、电子商务

Web搜索引擎:信息搜索

文本单词重要性:map-reduce

 

索引indexes

Hash

 

Hadoop实战之慕课网

行为日志生成渠道:Ndinx Ajax

 

日志数据内容:

1)  访问的系统属性:操作系统、浏览器等

2)  访问特征:点击的url、从哪个url跳转过来的(refeer)、页面上的停留时间等

3)  访问信息:session_id、访问ip(访问城市)等

 

数据处理流程

1)  数据采集

Flume:web日志写入到HDFS

2)  数据清洗

脏数据

Spark、Hive、MapReduce或者其他的一些分布式计算框架

清洗完之后的数据可以存放在HDFS(Hive/Spark SQL)

3)  数据处理

按照我们的需要进行相应业务的统计和分析

Spark、Hive、MapReduce或者其他的一些分布式计算框架

4)  处理结果入库

结果可以存放在RDBMS、NoSQL

5)  数据的可视化

通过图形化的展示的方式展现出来:饼图、柱状图、地图、折线图

ECharts、HUE、Zeppelin

你可能感兴趣的:(大数据原理及应用笔记)