随着 5G 时代的到来,大数据人工智能产业链又一次迎来了井喷式的爆发,随着岗位需求的不断增加,越来越多的人选择大数据课程,但是没有真正从事大数据工作的人面对企业面试有种无从下手的感觉,面对面试说不到技术的重点,每次面试只能靠队友,靠兄弟支援,尤其是面对架构,编程更是无从下手。于是我决定对市场上大多的有关大数据核心的面试题做一个详细的分析,也希望大家尽可能的做到举一反三,而不是局限于题目本身。
答案 C datanode
答案 A 默认 3 份
答案 D
a)32MB
b)64MB
c)128MB
答案:B
答案:C 磁盘
答案 C。
答案 ABD
答案 B
分析:Client 向 NameNode 发起文件写入的请求。NameNode 根据文件大小和文件块配置情况,返回给 Client 它所管理部分 DataNode 的信息。Client 将文件划分为多个 Block,根据 DataNode 的地址信息,按顺序写入到每一个 DataNode 块中。具体查看 HDFS 体系结构简介及优缺点。
答案 ABC 单机版,伪分布式只是学习用的。
Hadoop 的核心配置通过两个 xml 文件来完成:1,hadoop-default.xml;2,hadoop-site.xml。这些文件都使用 xml 格式,因此每个 xml 中都有一些属性,包括名称和值,但是当下这些文件都已不复存在。
Hadoop 现在拥有 3 个配置文件:1,core-site.xml;2,hdfs-site.xml;3,mapred-site.xml。这些文件都保存在 conf/子目录下。
这个命令可以检查 Namenode、Datanode、Task Tracker、 Job Tracker 是否正常工作。
流程:
1、 client 链接 namenode 存数据
2、 namenode 记录一条数据位置信息(元数据),告诉 client 存哪。
3、 client 用 hdfs 的 api 将数据块(默认是 64M)存储到 datanode 上。
4、 datanode 将数据水平备份。并且备份完将反馈 client。
5、 client 通知 namenode 存储块完毕。
6、 namenode 将元数据同步到内存中。
7、 另一块循环上面的过程。
流程:
1、 client 链接 namenode,查看元数据,找到数据的存储位置。
2、 client 通过 hdfs 的 api 并发读取数据。
3、 关闭连接。
wordcount 的例子
现在有 10 个文件夹,每个文件夹都有 1000000 个 url.现在让你找出 top1000000url。
解答:topk
(还可以用 treeMap, 到 1000000 了每来一个都加进去, 删掉最小的)
combiner 是 reduce 的实现,在 map 端运行计算任务,减少 map 端的输出数据。
作用就是优化。
但是 combiner 的使用场景是 mapreduce 的 map 和 reduce 输入输出一样。
可以。设置 reduce 数为 0 即可
datanode 在强制关闭或者非正常断电不会备份
出现在 map 阶段的 map 方法后。
这个 datanode 的数据会在其他的 datanode 上重新做备份。
在 mapreduce 提交 job 的获取 id 之后,会将所有文件存储到分布式缓存上,这样文件可以被所有的 mapreduce 共享。
通过页面监控,脚本监控。
1、因为外部表不会加载数据到 hive,减少数据传输、数据还能共享。
2、hive 不会修改数据,所以无需担心数据的损坏
3、 删除表时,只删除表结构、不删除数据。
感谢阅读,由于篇幅有限以上面经资料博主已经整理打包好了,这些知识点的导图和问题的答案详解的PDF文档都可以免费分享给大家,点赞收藏文章后,私信【资料】免费领取!