第三次综合45题

39.[问答题]是否可以自行搭建Hadoop集群?请自行设计一个hadoop集群,并简述基本搭建流程。
[答案]是的
设计集群可以做如下设计:3台(hadoop默认的副本数是3)
hadoop01: namenode、datanode、nodemanager 、historyserve
hadoop02 : resourcemanager、datanode、nodemanager
hadoop03: secondarynamenode、datanode、 nodemanager
基本搭建流程:
1)修改静态ip、修改主机名
2)安装JDK并配置环境变量(/etc/profile)
3) 关闭防火墙
4) 配置hosts文件,方便hadoop通过主机名访问(/etc/hosts)
5) 设置ssh免密码登录
6) 解压缩hadoop安装包,并配置环境变量
7) 修改配置文件、设置java jdk路径和相关的节点配置($HADOOP_HOME/etc/hadoop)
8) 第一次启动需要格式化hdfs文件系统 (hadoop namenode -format)
9)启动hadoop集群,可单点启动,可群起 ( $HADOOP_HOME/sbin/start-dfs.sh $HADOOP_HOME/sbin/start-yarn.sh)
10) 使用jps查看节点进程

40.[问答题]如何重启Namenode?如果一个namenode或者datanode使用命令无法停止,怎么办?
[解析] 方式一:输入stop-dfs.sh,再输入start-dfs.sh
方式二:输入hadoop-demains.sh stop namename ,再输入hadoop-demains.sh start namename
如果采用命令的方式无法停止NameNode或者DataNode,则可以使用kill -9 + 进程id强制杀死进程后再重新启动

41.[问答题]HDFS默认的Block块大小是多少?为什么块的大小不能设置太小,也不能设置太大?
[答案] (1)默认的块大小是128M(2)因为HDFS的块设置太小,会增加寻址时间,程序一直在找块的开始位置;如果块设置的太大,从磁盘传输数据的时间会明显大于定位这个块开始位置所需的时间。导致程序在处理这块数据时,会非常慢。其实HDFS块的大小设置主要取决于磁盘传输速率。

42.[问答题]谈谈你对hdfs的理解
[答案]HDFS(Hadoop Distributed File System),它是一个分布式文件系统,用于存储文件,通过目录树来定位文件;适合一次写入,多次读出的场景,且不支持文件的修改;具有高容错性,可以构建在连接的服务器上,主要是为了解决海量数据的存储问题

43.[问答题]hdfs分布式文件系统中,namenode、datanode、senconarynamenode作用分别是什么
[答案]NameNode(nn):存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间、副本数、文件权限),以及每个文件的块列表和块所在的DataNode等;
DataNode(dn):在本地文件系统存储文件块数据,以及数据块的校验;
Secondary NameNode(2nn):用来辅助namenode,并不是namenode的热备,主要工作完成Fsimage和edits用户编辑日志的合并工作;

38.[问答题]列出常用的hdfs文件操作的命令,并说明含义,至少列出11个。
[答案]Hadoop fs | hdfs dfs 命令分类
本地文件 -> HDFS
-put 将本地数据上传至hdfs
-copyFromLocal 将本地文件数据拷贝到hdfs
-moveFromLocal 将本地文件数据移动到hdfs,成功后本地数据会删除
-appendToFile 追加一个本地文件到hdfs已经存在的文件末尾

HDFS与HDFS之间
-ls 查看hdfs文件目录
-mkdir 在HDFS上创建目录
-rm 删除文件或者文件夹
-rmr 递归删除
-cp 从一个目录拷贝文件至另一目录
-mv 在HDFS目录中移动文件
-chown 修改文件所属用户权限
-chmod 修改文件所属读写权限
-du -h 文件夹暂用的空间大小
-df -h 查看系统分区情况
-cat 查看文件

HFDS -> 本地
-get 从hdfs下载文件至本地
-getmerge 合并hdfs目录下的文件至本地
-copyToLocal 从hdfs拷贝文件至本地

1.linux如何安装软件?有几种方式,相关参数有什么含义
rpm 安装本地软件包
rpm -qa 软件包名
rpm -qi 软件包
rpm -e 软件包
rpm -ihv 软件包名
-i install,安装
-v 显示详细信息
-h 展示安装的进度条

yum -y [选项] 软件名
install 安装rpm软件包
update 更新rpm软件包
check-update 检查是否有可用的更新rpm软件包
remove 删除指定的rpm软件包
list 显示软件包信息
clean 清理yum过期的缓存 yum clean all
deplist 显示yum软件包的所有依赖关系

2.(1).每分钟清空/tmp/内容
(2).每个星期三的下午6点和8点的第5到15分钟之间备份/home/jinghang文件夹下的数据到 /opt/software
/1 * * * * /bin/rm -rf /tmp/*
5-15 18,20 * * 3 /bin/cp /home/jinghang/* /opt/software/

3.Linux如何查看进程,和杀死进程?
ps -aux 查看所有用户所有进程
ps -ef 查看子父进程之间的关系
ps -aux | grep 进程名称
kill -9 pid(进程号)
killall 进程名称

4.[判断题]使用ps aux 可以查看到当前进程的父进程
A. 对
B. 错
[答案]B
5.[判断题]top -d 5 表示5秒钟更新一次进程的状态信息
A. 对
B. 错
[答案]A
6.[判断题]Shell编程语言是一门编译型语言,Java是解释型语言
A. 对
B. 错
[答案]B
7.[判断题]Linux 中crontab可以设置定时任务 -e:表示编辑定时任务; -l:表示获取定时任务列表; -r表示删除定时任务
A. 对
B. 错
[答案]A
8.[多选题]以下关于Linux的命令描述正确的是()
A. mount 命令用来挂载设备
B. umount 命令用来卸载设备
C. du 查看指定目录的磁盘占用情况
D. fdisk -l 查看磁盘分区详情
[答案]A,B,C,D
9.[多选题]下面属于Linux系统发行版本的是
A. Centos
B. Mac
C. Ubuntu
D. Red Hat
[答案]A,C,D
10.[多选题]文件权限对应的数字的数字表示正确的是( )
A. r: 对应数值4
B. w: 对应数值0
C. x:对应数值1
D. -:对应数值2
[答案]A,C
11.[多选题]下面的命令描述正确的是
A. 创建一个名称为test组的命令:groupadd test
B. 改用户Tom设置密码命令:passwd Tom
C. 删除用户名为Tom的命令:userdel Tom
D. 切换当前用户帐户为 admin的命令:su admin
[答案]A,B,C,D
12.[单选题]搜索文件内容的命令为_____
A. grep
B. cd
C. ls
D. find
[答案]A
13.[单选题]修改文件权限的命令是
A. chown
B. chgrp
C. chuser
D. chmod
[答案]D
14.[单选题]使用shutdown -r 命令
A. 并不真正使系统关机,而只是给用户提出警告
B. 关闭计算机
C. 重启计算机
D. 是计算机休眠
[答案]C
15.[单选题]某客户端在采用ping命令检测网络连接故障时,发现可以ping通127.0.0.1及本机的IP地址,但无法ping通同一网段内其他工作正常的计算机的IP地址,说明该客户端的故障是
A. TCP/IP协议不能正常工作
B. 本机网卡不能正常工作
C. 本机网络接口故障
D. 本机DNS服务器地址设置错误
[答案]C
16.[单选题]查看网络是否通畅命令是
A. ps
B. ping
C. ifconfig
D. df
[答案]B
17.[判断题]为了保证windows用户和Linux主机间用户能够正常地进行映射,用户必需保证在这两个系统上拥有相同的帐号( )
A. 对
B.
[答案]B
18.[判断题].HDFS中的一个块设计的大小为128M,是因为程序为了减小寻址开销,减低namenode的元数据存储( )
A. 对
B. 错
[答案]A
19.[判断题]YARN服务功能中的Container对任务运行环境的抽象,封装了CPU、内存等多维资源以及环境变量、启动命令等任务运行相关的信息( )
A. 对
B. 错
[答案]A
20.[判断题]ResourceManager可以启动并监控ApplicationMaster( )
A. 对
B. 错
[答案]A
21.[判断题]Hadoop的三种运行模式一般指单机版、伪分布式版和全分布式版( )
A. 对
B. 错
[答案]A
22.[判断题]Hadoop1.x和Hadoop2.x区别之一,后则将mapreduce中的资源调度模块拆分为yarn( )
A. 对
B. 错
[答案]A
23.[判断题]Hadoop 2.x中默认50070是hdfs的web管理端口,19888是JobHistory的web管理 端口,8080是yarn的web管理端口( )
A. 对
B. 错
[答案]B
24.[判断题]Configuration conf = new Configuration();
FileSystem fs = FileSystem.get(conf);
FSDataOutputStream fis = fs.open("/123");
以上代码没有任何错误( )
A. 对
B. 错
[答案]B
25.[判断题]MapReduce是一个分布式的运算程序编程框架()
A. 对
B. 错
[答案]A
26.[单选题]NameNode是主节点,不可以存储以下数据( )
A. 元数据的文件名
B. 元数据的文件目录结构
C. 存储文件块数据
D. 元数据的文件属性
[答案]C
27.[单选题]在当前目录下解压归档文件this.tar.gz我们可以使用命令( )
A. tar -zxvf this.tar.gz
B. tar -cvzf this.tar.gz
C. tar -vzf this.tar.gz
D. tar -czf this.tar.gz
[答案]A
28.[单选题]下面对HDFS描述错误的是( )
A. 文件切分成块,默认大小100M,以块为单位,每个块有多个副本存储在不同的机器上,副本数可在文件生成时指定,默认2
B. NameNode是主节点(master),存储文件的元数据
C. DataNode在本地文件系统存储文件块数据
D. HDFS可以完成创建、删除、移动或重命名文件夹等操作
[答案]A
29.[单选题]下列那个命令不可以从linux本地文件系统中上传文件到hdfs文件系统上的命令
A. Hdfs dfs -put
B. Hdfs dfs -moveFromLocal
C. Hdfs dfs -copyFromLocal
D. Hdfs dfs -get
[答案]D
30.[单选题][linux] 表示主机名与IP地址映射关系的文件是( )
A. /etc/host.conf
B. /etc/hostname
C. /etc/hosts
D. /etc/resolv.conf
[答案]C
31.[单选题]hdfs的核心服务( )
A. namenode和datanode、secondarynamenode
B. resourcemanager和yarn
C. yarn和hdfs
D. resourcemanager和nodemanager
[答案]A
32.[多选题]下面描述正确的选项有( )
A. 启动hdfs命令 start-yarn.sh
B. 启动yarn命令:start-dfs.sh
C. 启动hdfs命令 start-dfs.sh
D. 启动yarn命令:start-yarn.sh
[答案]C,D
33.[多选题]HDFS的特点有哪些
A. 高可靠性
B. 高容错性
C. 低容量
D. 低扩展
[答案]A,B
34.[多选题]下列属于hadoop的发行版本的是()
A. Apache
B. Cloudera
C. Hortonworks
D. Centos
[答案]A,B,C
35.[多选题]Hadoop是依据以下哪些论文内容作为框架的基本思想()
A. GFS
B. DFS
C. Map-Reduce
D. BigTable
[答案]A,C,D
36.[多选题]配置hadoop时我们需要添加相关配置,自定义配置时修改的.xml文件有哪些()
A. yarn-site.xml
B. mapred-site.xml
C. hdfs-site.xml
D. core-site.xml
[答案]A,B,C,D
37.[多选题]以下关于单点启动hdfs相关服务命令正确的是()
A. hadoop-daemon.sh start namenode
B. hadoop-daemon.sh start datanode
C. hadoop-daemon.sh start secondarynamenode
D. hadoop-daemon.sh start yarn
[答案]A,B,C

你可能感兴趣的:(总结,hadoop,linux)