大数据框架重要知识点梳理

以后的博客会按照以下顺序进行解释,如果对大数据有兴趣,并且自学不知道如何学习的,可以关注一下,哪里有问题也可以评论提出,我哪里理解错了,也希望大神指出

1、java相关的知识点

  • 1、多线程

  • 2、io流

  • 3、反射

  • 4、JVM-----需要重点关注

2、hadoop

2.1 HDFS

  • 1、hdfs读写原理

  • 2、hdfs角色和作用

2.2 mapreduce

  • 1、mapreduce原理图

    • shuffle原理

  • 2、需要使用java语言写一个文件的单词统计

  • 3、map和reduce的task个数怎么确定

  • 4、小文件合并

    • 1、在数据源端先控制

    • 2、数据已经上传到HDFS上

  • 5、mapreduce优化

2.3 yarn

  • 1、yarn的资源调度模式

    • 1、先进先出

    • 2、公平调度

    • 3、容量调度

  • 2、yarn的调度流程

    • 开发一个mapreduce程序打成jar提交到yarn中去运行,整个任务的流程是什么

3、hive

3.1 hive的内部表和外部表的区别

3.2 hive的分区和分桶表示的含义

3.3 hive的优化----重点

3.4 hive的数据倾斜问题

 

4、flume

4.1 flume的常用的3个组件类型

  • source

  • channel

  • sink

4.2 flume如何实现数据不丢失

  • flume如何实现断点续传

    • 就是每一次在收集一条数据的时候,就把该数据的偏移量记录下来。后期flume程序挂掉之后,进行重新启动,读取上一次的偏移量信息,接着上一次继续对数据进行收集

5、sqoop

5.1 从关系型数据库把数据抽取到hdfs

5.2 从hdfs上或者是hive表中抽取到mysql表

5.3 sqoop实现数据的增量导入

 

6、scala

  • 1、基础语法

  • 2、scala高阶函数

    • 1、柯里化

    • 2、闭包

    • 3、隐式转换和隐式参数

7、spark

  • 1、使用scala语言开发一个spark的wordcount程序

  • 2、spark中的RDD概念、特性

  • 3、spark常用的算子操作

    • 宽依赖

    • 窄依赖

  • 4、spark的RDD如何设置缓存,以及它们的区别

    • cache

    • persist

  • 5、groupByKey和reduceByKey区别

  • 6、spark on yarn 原理

    • yarn-cluster

    • yarn-client

    • 2种模式调度模式掌握

  • 7、spark任务的调度和执行流程

  • 8、spark划分Stage的逻辑

  • 9、sparkStreaming整合kafka------重点

  • 10、spark程序优化

  • 11、spark数据倾斜解决方案

 

8、kafka

  • 1、kafka分区策略

  • 2、kafka的数据存储策略

  • 3、kafka数据消费策略

  • 4、kafka如何保证数据不丢失

    • 生产者

    • kafka集群

    • 消费者

9、hbase

  • 1、hbase的数据寻址机制

  • 2、hbase的rowkey设计原则

    • 唯一性

    • 长度原则

    • 散列原则

  • 3、hbase的二级索引

    • mapreduce

    • hbase整合es

    • hbase整合phoenix

10、ELK

  • 1、ES

  • 2、logstash

  • 3、kibana

 

11、storm

  • 1、通过java语言开发storm的wordcount程序

  • 2、storm整合kafka

  • 3、storm数据不丢失机制

    • ack机制

 

你可能感兴趣的:(大数据框架知识点)