我的大数据学习笔记

PC端的这个右侧的目录找东西确实好找点,我每次写也非常注意看这块排版工不工整 ,用这里去直接跳到对应的内容真的还算方便,所以就想着做个目录,以后如果写了新的,也会在这篇写上标题。

我的大数据学习笔记_第1张图片

按照不同技术框架的划分形式。已经有写过的就写上,没写过的就先空着。

1. 分布式存储 HDFS

① HDFS基础概念篇

内容概要:block的概念与副本、机架存储策略、三大组件:NameNode,DataNode,SecondaryNamenode、元数据metaData、心跳机制和负载均衡机制

内容概要: HDFS的读写流程 ,hadoop HA高可用,联邦,存储小文件时的HAR和Sequence File

2. 分布式计算 MapReduce

① MapReduce介绍

 

内容概要:mapper和reducer代码、shuffle、二排、数据倾斜的判断和减缓

3. 资源调度 Yarn

4.分布式协调 Zookeeper

zookeeper写的时候姑且是按照 Java的套路 去写的,和大数据的操作扯不上关系,之后可能会进行相应的补充

内容概要:包括zookeeper的简介和特征,会话机制、znode的数据构成和节点类型,还有zk的监听机制

 

内容概要:锁的特征,zkClient的使用、使用节点不可重名+watch机制实现分布式锁、使用取号 + 最小号取lock + watch原理实现分布式锁

内容概要:伪集群形式的zookeeper的集群搭建,如果你对大数据开发感兴趣,想系统学习大数据的话,可以加入大数据技术学习交流扣扣君羊:522189307,欢迎添加,了解课程介绍,获取学习资源。集群连接和监控,paxos算法的解释说明、zookeeper的leader选举机制

内容概要:ZAB协议的介绍,数据同步,丢弃事务,leader崩溃恢复、zookeeper的分布式队列的实现逻辑及代码实现

内容概要:配置中心的介绍,数据结构,代码实现

内容概要:master选举和zookeeper的相关实现、官网自己的一个浏览过程

5.Hadoop优化

6.Hive

7.Hbase

8.Flume

9.Sqoop

10.azkaban

11.impala

12.Spark

说到它就巨头痛。Spark是非常多东西的,有基础,有spark core,有spark sql,有spark streaming

13.Kafka基础

内容概要:Kafka中的一些基础角色的介绍,topic,partition,producer,consumer,message,副本,消费者组,controller、kafka和zookeeper的配合,kafka的顺序写和零拷贝,日志分段存储机制和 kafka的三层网络模型

内容概要:这篇并不是在说概念,而是说一些集群的参数考量方面、集群搭建的重要参数、集群的简单操作和一些客户端

 

内容概要: 生产者原理(ProducerRecord,Partitioner、缓冲区和Sender线程) ,生产者的代码及一些调优参数

内容概要:生产者的一个小案例实现及 消费者原理(offset,coordinator) ,消费者代码及核心参数

内容概要: LEO&HW更新原理 ,kafka运行的总流程梳理,源码的阅读环境

14.Kafka源码

内容概要:传统IO和NIO的区别,NIO(buffer,channel,selector、pipe)的介绍及阻塞性与非阻塞性网络通信的代码演示,主要是为了Kafka源码准备

15.Flink

和Spark Streaming属于计算类框架,看情况

finally

即使前方仍旧荆棘丛生,可是我们没有理由放弃奔跑···

这个flag无论对于你我来说都是一个考验,在第一篇HDFS的时候,就说过了这虽然是类似于一份学习笔记,可是绝对有头有尾,会用最清晰明了的语言来描述知识点,希望大家也能有所收获。以这个目录为证,相信我一定能说到做到。

你可能感兴趣的:(我的大数据学习笔记)