大数据期末考试

1.分布式系统设计策略包括重试机制,心跳机制 ,副本机制
2.hadoop核心组件由HDFS,MapReduce,Yarn这三大部分组成。
3.分布式系统数据分布设计包括哈希取模,一致性哈希,数据范围划分,数据库划分
4.分布式系统分布式协议包括Paxos机制,Lease机制
5.HDFS集群启动的时候,运行着namenode,datanode,secondaryNamenode三个重要角色
6.namenode是HDFS架构中的主节点,用于维护和管理DataNode上存储的block块。
7.强制Namenode进入safe Mode模式的命令是hdfs dfsadmin –safemode enter
8.yarn自带的资源调度器有FIFO , Capacity Scheduler , Fair Scheduler
9.Zookeeper是一个分布式开源的应用程序协调服务,其中提供的服务包括 配置维护 , 域名服务 , 分布式锁
10.Zookeeper特性包括一致性,原子性,单一视图,可靠性,实时性
11.启动zookeeper命令zkServer.sh start,启动zookeeper客户端命令zkCli.sh,暂停命令为zkServer.sh stop 。
12.Hbase数据存储在HDFS之上。
选择题:
1.Hadoop1.0默认的调度器策略是先进先出调度器
2.MapReduce擅长哪个领域的计算是离线计算
3.一个标准的生产环境中Zookeeper实例个数不可能是偶数台机器
4.Hbase中的术语有Column,Column Family,Row Key,Meta
5.Flume的主要作用是数据采集
6.Hbase支持多语言(比如C++,python等)访问,为实现该功能,它采用的开源软件是thrift
7.Zookeeper集群中Leader服务器在整个运行期间有且仅有一台,
8.PERSISTENT_SEQUENTIAL是永久有序节点类型
9.在hadoop HA中,HDFS由2个namenode组成,一个leader一个follower
10.数仓对象不是单一化【需要将数仓特点背出来】
判断题:
1.Hive不支持所有的标准SQL语法,Hive的HQL语法和SQL语法不完全一致
2.Hadoop不支持随机读写。
3.MapReduce的input split不一定等于一个block。
4.MpaReduce适用于处理PB级别的离线业务数据。
5.Hive将元数据存储在数据库中。
6.Hadoop HDFS为Hive提供了高可靠性的底层存储支持。
7.数据采集可以通过flume框架来完成。
8.ETL包括数据抽取,数据交互转换和数据加载过程。
9.数仓特点包括数据源多样化,数据量大和服务对象多样化。
10.MongoDB是一个高性能,开源,无模式的文档型数据库。
11.在Zookeeper中,znode创建的类型有4种类型。
12.hive的查询语言 hql
13.hive元数据存储在 数据库
14. hive源数据存储在 HDFS
15. hive执行任务的是 mapReduce
16.Hdfs核心组件有哪些namenode,datanode,Secondarynamenode

简答题:
1.zookeeper的znode有4种类型,分别有:
(1) 持久化节点。
(2) 顺序持久化节点。
(3) 临时节点。
(4) 顺序临时节点。
2. 安装HDFS时候,需要修改几个重要的配置文件,这些重要的配置文件分别有:
(1) slaves。
(2) core-site.xml。
(3) hdfs-site.xml。
(4) hadoop-env.sh。
3. 安装一个最为简单的Hbase分布式集群,需要配置几个基本配置文件,分别有:
(1) hbase-env.sh
(2) hbase-site.xml
(3) regionservers
4. Hive和RDBMS对比,Hive特点:
a.查询语言HQL
b.数据存储HDFS
c.执行MapReduce
d.执行延迟高
e.处理数据规模大
B

填空题:
1.在Zookeeper当中,通过ZAB来构建高可用的分布式数据主备系统 ,而paxos是用来构建分布式一致性状态机系统
2.Hadoop生态系统组件非常之多,比如HDFS,MapReduce,Hbase,Zookeeper,Hive ,storm,spark,flume等
3.Hive支持用户自定义函数,用可以根据自己的需求来实现自己的函数。
4.Hbase是基于hadoop的一个分布式NoSQL数据库。
5.数据采集可以通过flume框架来实现。
6.Hive具有可扩展,延展性,容错等点
7.Hive架构图中基本组成包括用户接口,元数据存储,解析器,编译器,优化器和执行器等
8.Hadoop中, Client端将文件切分为Block,依次上传
9.HBase是一个分布式面向列的开源数据库
10.数据仓库主要应用于OLAP
11.SQL数据存储特定结构表中
12.Hive属于ETL工具
判断题:
1.zookeeper是不适合做队列的,由于zookeeper有1MB传输限制,存在过多的节点会导致zookeeper启动非常慢,zookeeper数据完全存储在内存,大量的队列意味着占用很多内存
2.SecondaryNamenode它在HDFS执行常规的检查点
3.表名信息不会存储在Hbase的一个cell中
4.在zookeeper中,持久节点下面支持创建子节点
5.MapReduce是一个计算框架,可以运行在yarn上
6.Flume的主要作用是数据采集。
7.Zookeeper实例个数在生产环境当中应该是奇数个。
8.Hive底层采用的计算引擎是MapReduce。
9.Block和split之间对应关系是任意的,可以由用户控制。
10.Zookeeper采用递增事务ID来保证事务顺序一致性。
11.在zookeeper集群当中,如果leader崩溃或者失去大多数follower,这个时候zookeeper进入恢复模式。
12.启动Hbase需要启动Hadoop集群。
13.Hbase是一个分布式的面向列的开源数据库,是一个NoSQL数据库。
14.Sqoop为Hbase提供了方便的RDBMS数据导入功能。
简答题:
1.分布式系统数据分布设计当中,主要包括:
(1) 哈希取模
(2) 一致性哈希
(3) 数据范围划分
(4) 数据库划分
2. Hbase相关命令:
(1)创建表的关键字create。
(2)描述表结构信息的关键字 describe 。
(3)插入数据关键字 put。
(4)获取数据关键字 get
(5)扫描表结构关键字 scan
3. Haoop启动过程,namenode启动进度包括:
(1) 读取fsimage。
(2) 读取edit logs 。
(3) 写入新的检查点
4. 下面是关于zookeeper的znode的状态信息,各个状态信息的含义如下:
(1)czxid 创建该znode节点的事务ID
(2)mzxid 最后更新该节点的事务ID
(3)version 该znode节点的版本号

你可能感兴趣的:(zookeeper)