OYmaster

面试题--精选Hadoop选择题

原文链接： https://blog.csdn.net/zhongqi2513/article/details/78349083

1、下列哪个属性是hdfs-site.xml中的配置？
A、dfs.replication
B、fs.defaultFS
C、mapreduce.framework.name
D、yarn.resourcemanager.address

解答：dfs.replication是HDFS集群的副本个数，一般放置在hdfs-site.xml

2、Hadoop-2.6.5集群中的HDFS的默认的数据块的大小是？
A、32M
B、64M
C、128M
D、256M

解答：Hadoop2.x版本以前的默认数据块的大小是64M，到了Hadoop2.x版本以后。默认的数据块大小就变成了128M，但是是可以更改的。并且是由客户端在上传文件到HDFS的时候指定的。HDFS集群会一直为这个文件保存指定的副本数

3、Hadoop-2.6.5集群中的HDFS的默认的副本块的个数是？
A、1
B、2
C、3
D、4

解答：HDFS集群采取分散存储 + 冗余存储的策略，用户上到HDFS集群的文件，HDFS集群会为它存储多份。默认是3份

4、如果我们现有一个安装2.6.5版本的hadoop集群，在不修改默认配置的情况下存储200个每个200M的文本文件，请问最终会在集群中产生多少个数据块（包括副本）？
A、200
B、40000
C、400
D、1200

解答：在默认情况下，HDFS集群默认存储文件3份，并且大文件会按照128M的数据块大小进行切割分散存储。所以题目中的总数据块有（200 * 2）= 400个。再加上会存储三份，所以 400 * 3 = 1200

5、以下哪个不是HDFS的守护进程？
A、secondarynamenode
B、datanode
C、mrappmaster/yarnchild
D、namenode

解答：namenode是HDFS集群的主节点，datanode是HDFS集群的从节点，secondarynamenode是HDFS集群启动的用来给namenode节点分担压力的角色。这个三个服务进程会一直启动着。MRAppMaster/YARNChild进行是只有在YARN集群运行了MapReduce程序之后才会启动的程序

6、请问以下哪个命令组成是错误的？
A、sbin/stop-dfs.sh
B、sbin/hdfs dfsadmin -report
C、bin/hadoop namenode -format
D、bin/hadoop fs -cat /hadoopdata/my.txt

解答：此题考查的是命令的目录结构。hadoop安装包提供了两个可执行脚本文件目录，一个是bin，一个是sbin，sbin中放置了很多跟整个集群操作相关的命令，比如启动或者关闭集群的命令，bin目录中，主要放置客户端去使用Hadoop集群的相关命令，所以start, stop相关的命令都在sbin中， hadoop, hdfs, mapred, yarn 这些集群使用操作命令都在bin目录中

7、以下哪种不是Hive支持的数据类型？
A、Struct
B、Int
C、Map
D、Long

解答：Hive支持原生数据类型（TinyInt, SmallInt, Int, BigInt, Boolean, Float, Double, String），也支持复杂数据类型（Map，Array，Struct，Union），所以不支持Long，支持的是BigInt

8、现在在hadoop集群当中的配置文件中有这么两个配置，请问假如集群当中有一个节点宕机，主节点namenode需要多长时间才能感知到？

dfs.heartbeat.interval
3

heartbeat.recheck.interval
2000

A、26秒
B、34秒
C、30秒
D、20秒

解答：HDFS集群的datnaode掉线超时时长的计算公式为： timeout = 10 * dfs.heartbeat.interval + 2 * heartbeat.recheck.interval，不过heartbeat.recheck.interval的单位是ms，dfs.heartbeat.interval的单位是s

9、下面关于使用hive的描述中不正确的是？
A、hive中的join查询只支持等值链接，不支持非等值连接
B、hive的表一共有两种类型，内部表和外部表
C、hive默认仓库路径为/user/hive/warehouse/
D、hive支持数据删除和修改

解答：Hive不支持随机修改和删除。只支持绝大部分查询和批量追加数据。

10、HDFS集群中的namenode职责不包括？
A、维护HDFS集群的目录树结构
B、维护HDFS集群的所有数据块的分布、副本数和负载均衡
C、负责保存客户端上传的数据
D、响应客户端的所有读写数据请求

解答：NameNode是HDFS的管理节点，DataNode是HDFS集群的工作节点，所以用户上传的数据是由datanode进行保存的。NameNode是负责保存用户上传到的这些数据的元数据和维护HDFS的抽象目录树结构。也会响应客户端的所有读写请求

11、关于HDFS集群中的DataNode的描述不正确的是？
A、DataNode之间都是独立的，相互之间不会有通信
B、存储客户端上传的数据的数据块
C、一个DataNode上存储的所有数据块可以有相同的
D、响应客户端的所有读写数据请求，为客户端的存储和读取数据提供支撑

解答：DataNode是真正为HDFS集群存储数据的。HDFS集群的数据存储策略是分散+冗余的策略，由此可以看出，一个节点上，如果存储了两个一样的数据块，这样的冗余是没有任何意义的，所以一个节点上是不会存储一个数据块的多个副本的；DataNode之间是要进行通信的，因为数据上传的时候就是第一个副本节点和第二个副本节点建立连接传输数据，而不是客户端和第二个副本建立连接传送，所以答案是AC

12、HDFS集群中的DataNode的主要职责是？
A、维护HDFS集群的目录树结构
B、维护HDFS集群的所有数据块的分布、副本数和负载均衡
C、负责保存客户端上传的数据
D、响应客户端的所有读写数据请求

解答：NameNode是HDFS的管理节点，DataNode是HDFS集群的工作节点，所以用户上传的数据是由DataNode进行保存的。NameNode是负责保存用户上传到的这些数据的元数据和维护HDFS的抽象目录树结构。也会响应客户端的所有读写请求

13、MapReduce的Shuffle过程中哪个操作是最后做的？
A、溢写
B、分区
C、排序
D、合并

解答：MapReduce编程模型分为Mapper和Reducer阶段，在mapper和reducer的中间还有一个shuffle阶段。但是Shuffle也分为MapperShuffle和ReducerShuffler两个阶段。这个Shuffle非常的重要，而且也是导致MapReduce执行效率低的一个重要原因。shuflle中的执行顺序是先分区，然后在溢写之前进行排序，最后溢出的多个磁盘文件会进行合并成一个大文件。

14、下面关于MapReduce的描述中正确的是？
A、MapReduce程序必须包含Mapper和Reducer
B、MapReduce程序的MapTask可以任意指定
C、MapReduce程序的ReduceTask可以任意指定
D、MapReduce程序的默认数据读取组件是TextInputFormat

解答：MapReducer编程模型中，可以没有Reducer，MapTask是由逻辑切片规则决定，虽然可以通过参数进行调整，但是不能随意设置，reduceTask数量可以随意设置，但是通常都是和业务挂钩，所以也基本做不到随心所欲的设置，除非是HashPartitioner的分区器。MapReduce编程模型中的默认数据读取组件是TextInputFormat和LineRecordReader

15、MapReduce编程模型中以下组件哪个是最后执行的？
A、Mapper
B、Partitioner
C、Reducer
D、RecordReader

解答：以上这四个MapReduce编程模型中的执行顺序是：recordReader --> mapper --> partitioner --> reducer

16、在MapReduce中，哪个组件是用户不指定也不会有默认的？
A、Combiner
B、OutputFormat
C、Partitioner
D、InputFormat

解答：在MapReduce编程模型中，Combiner是可有可无的组件，它的作用就是用来给mapTask的结果数据做局部合并以减少reduceTask接收的数据量，以减少网络数据传输。OutputFormat的默认组件是TextOutputFormat，InputFormat的默认组件是TextInputFormat，Partitioner的默认实现是HashPartitioner

17、下列哪种类型的文件不是HDFS集群的元数据存储格式？
A、fsimage
B、edits
C、edits_inprogress
D、blk_000003425

解答：D是存储在datanode节点上的数据块的命名格式。

18、YARN的调度算法不包括以下哪种？
A、FIFO Scheduler
B、Fair Scheduler
C、Capacity Scheduler

D、Stack Scheduler

解答：D不是

19、关于SecondaryNameNode哪项是正确的？
A、它是NameNode的热备
B、它对内存没有要求
C、它对目的是帮助NameNode合并编辑日志，减少NameNode的负担和冷启动时的加载时间
D、SecondaryNameNode应与NameNode部署到一个节点

解答：SecondaryNameNode是为了给namenode减轻压力的角色，工作职责就是定期合并磁盘元数据文件为序列化的镜像文件，以减少namenode冷启动时需要加载元数据的时间。在合并的时候也需要把之前的元数据都加载到内存，所以对内存也有一定的依赖，所以肯定不能和namenode启动在同一个节点。否则就起不到任何减轻压力的作用了。

20、下列关于使用MapReduce编程模型实现SQL中的join操作错误的是？
A、ReduceJoin可以实现内链接，也能实现各种外连接
B、ReduceJoin的join操作是在MapReduce程序中的reducer阶段完成的
C、MapJoin也适合各种join场景，也能实现内连接和各种外链接
D、MapJoin不会产生数据倾斜

解答：MapJoin和ReduceJoin，顾名思义，就是mapper阶段完成join操作叫MapJoin，在reducer阶段完成join操作叫ReduceJoin，reduceJoin能够实现一到多个条件的各种等值链接，但是不能实现非等值连接，因为太困难。并且容易出现数据倾斜的情况，所以，出现MapJoin，因为能省掉reducer阶段，所以能完美避免数据倾斜，但是由于该机制的特性，只适合用来做大表和小表数据之间的链接。

21、下列哪种业务场景中，不能直接使用Reducer充当Combiner使用？
A、sum求和
B、max求最大值
C、count求计数
D、avg求平均

解答：在不更改reducer业务逻辑的情况，以上四种，只有avg求平均是不能直接使用reducer充当combiner的。最终会造成业务结果不正确

22、下列关于配置机架感知的相关描述哪项不正确？
A、如果一个机架出问题，不会影响数据读写和正确性
B、写入数据的时候多个副本会写到不同机架的 DataNode 中
C、MapReduce 会根据机架的拓扑获取离自己比较近的数据块
D、数据块的第一个副本会优先考虑存储在客户端所在节点

解答：HDFS的副本存放策略中，数据块的第一个副本和第二个副本会存放在不同的机架中，但是第三个副本会优先考虑存放在跟第二个副本相同机架的不同节点中，也有可能存放在跟第一个副本相同机架的不同节点中。

23、Client端上传文件的时候下列哪项正确？
A、数据经过 NameNode 传递给 DataNode
B、Client端将文件切分为 Block，依次上传
C、Client只上传数据到一台DataNode，然后由NameNode负责Block复制
D、Client如果上传的时候没有上传成功指定的副本数，则整次上传不成功

解答：HDFS集群在上传数据的时候，请求由namenode响应是没错，但是传输数据到datanode节点的时候是直接client直接和datanode进行通信，而不用先把数据传输到namenode再传送到datanode。这样实现会极大的增加namenode节点的负担。

24、下列关于HDFS的描述正确的是？
A、如果 NameNode 宕机，SecondaryNameNode 会接替它使集群继续工作
B、HDFS集群支持数据的随机读写
C、NameNode磁盘元数据不保存Block的位置信息
D、DataNode通过长连接与NameNode保持通信

解答：SecondaryNameNode并不是namenode节点的备份。所以A错。存储在HDFS集群上的数据是不支持随机修改和删除的，只支持追加。HDFS集群的主节点namenode会保存元数据，在内存中有一份完整的，在磁盘中也有一份完整的。但是磁盘中的元数据并不包括，每个数据块的多个副本到底存储在那些节点上的信息。当HDFS集群启动完毕以后，datanode会向namenode进行汇报数据块的信息，所以namenode才能通过这些汇报信息统计得出所有数据块的副本存放信息。在内存当中会有，但是磁盘中是没有的。namenode和datanode之间的通信是基于一种心跳机制。该机制不是长连接。是短连接形式。每次发送一个数据包（自身状态信息 + 数据块信息）即可。

25、一个MapReduce程序中的MapTask的个数由什么决定？
A、输入的总文件数
B、客户端程序设置的mapTask的个数
C、FileInputFormat.getSplits(JobContext job)计算出的逻辑切片的数量
D、输入的总文件大小/数据块大小

解答：MapReduce编程模型中的mapTask的并行度决定机制是由：FileInputFormat.getSplits(JobContext job)决定的。该方法的返回值是List splits，这个结果集合中的每个InputSplit就是一个逻辑输入切片，每个逻辑输入切片在默认情况下是会要启动一个mapTask任务进行计算的。

26、以下描述错误的是？
A、SequenceFile可以用来作为小文件的合并存储容器
B、TextInputFormat的key是LongWritable类型的
C、CombineFileInputFormat是抽象类
D、TextInputFormat的key是指该记录在文件中的行号

解答：当MapReduce程序遇到需要计算大量小文件时，可选的解决方案有SequenceFile，有CombineFileInputFormat（抽象类），有归档策略。默认的TextInputFormat中规定的key-value的类型分别是LongWritable和Text，其中，value表示逐行读取的一行文本数据，key表示这一行在该文件中的起始偏移量，不是行号

27、以下关于新旧 MapReduce API 的描述错误的是？
A、新API放在org.apache.hadoop.mapreduce包中，而旧API则是放在org.apache.hadoop.mapred中
B、新API倾向于使用接口方式，而旧API倾向于使用抽象类
C、新API使用Configuration，而旧API使用JobConf来传递配置信息
D、新API可以使用Job对象来提交作业

解答：在新API中，原来的大量接口都被改成了抽象类。所以使用新API编写MR程序时，都是由实现接口变成集成抽象类。

28、以下描述错误的是？
A、输入分片InputSplit其实是对数据的引用
B、MultipleInputs可以设置多个数据源以及它们对应的输入格式
C、可以通过重载isSplitable()方法来避免文件分片
D、ReduceTask需要等到所有的map输出都复制完才进行Merge

解答：ReduceTask在mapper阶段的所有mapTask还没有执行完毕的时候，就会预先启动，然后去已经执行完毕的mapTask节点拉取该reduceTask要执行的数据，执行预先合并。而不是等到所有的mapTask都执行完毕之后才开启reduceTask拉取文件进行merge操作

29、以下哪个组件可以指定对key进行Reduce分发的策略？
A、RecordReader
B、Combiner
C、Partitioner
D、FileInputFormat

解答：Partitioner组件就是负责给mapTask节点输出的数据进行分发的。默认的实现是HashParitioner

30、执行一个job，如果这个job的输出路径已经存在，那么程序会？
A、覆盖这个输出路径
B、抛出警告，但是能够继续执行
C、抛出一个异常，然后退出
D、创建一个新的输出路径

解答：MapReduce编程模型中的输出目录必须是不存在的目录。否则程序抛出异常，并且退出运行。

31、HDFS的是基于流数据模式访问和处理超大文件的需求而开发的，默认的最基本的存储单位是64M，具有高容错、高可靠性、高可扩展性、高吞吐率等特征，适合的读写任务是？
A、一次写入，少次读写
B、多次写入，少次读写
C、一次写入，多次读写
D、多次写入，多次读写

解答：HDFS的设计初衷就是为将来的海量数据的分布式计算做铺垫的，所以HDFS是一次写入，多次读出的场景

32、Namenode在启动时自动进入安全模式，在安全模式阶段，说法错误的是？
A、安全模式目的是在系统启动时检查各个DataNode上数据块的有效性
B、根据策略对数据块进行必要的复制或删除
C、当数据块最小百分比数满足的最小副本数条件时，会自动退出安全模式
D、文件系统允许有修改

解答：HDFS文件系统上的数据是不可以进行更改的。

33、MapReduce框架提供了一种序列化机制，支持这种序列化的类能够在Map和Reduce过程中充当键或值，以下说法错误的是？
A、实现Writable接口的类是值
B、实现WritableComparable接口的类可以是值或键
C、Hadoop的基本类型Text并不实现WritableComparable接口
D、键和值的数据类型可以超出Hadoop自身支持的基本类型

解答：Hadoop中的基本类型和包装类型都有可能作为MapReduce编程中的key和value，所以都必须要进行序列化，都要事先Writable，如果作为key，那就必须实现WritableComparable接口。Text类也是实现了WritableComparable这个接口的

34、下列关于HDFS为存储MapReduce并行切分和处理的数据做的设计，错误的是？
A、FSDataInputStream扩展了DataInputStream以支持随机读
B、为实现细粒度并行，输入分片(InputSplit)应该越小越好
C、一台机器可能被指派从输入文件的任意位置开始处理一个分片
D、输入分片是一种记录的逻辑划分，而数据块是对输入数据的物理分割

解答：逻辑输入切片并不是越小越好，因为太小会增加启动的MapTask的个数，会导致每个MapTask所处理的数量会降低，从而降低了服务器的处理数据的性能。

35、有关MapReduce的输入输出，说法错误的是？
A、链接多个MapReduce作业时，序列文件是首选格式
B、FileInputFormat中实现的getSplits()可以把输入数据划分为分片，分片数目和大小任意定义
C、想完全禁止输出，可以使用NullOutputFormat
D、每个reduce需将它的输出写入自己的文件中，输出无需分片

解答：FileInputFormat的分片大小是可以任意设置，可以调整的，输入分片数目不可以随意设置，是根据分片大小和文件计算出来的。

36、关于HDFS的文件写入，正确的是？
A、支持多用户对同一文件的写操作
B、用户可以在文件任意位置进行修改
C、默认将文件块复制成三份分别存放

D、复制的文件块默认都存在同一机架的多个不同节点上

解答：HDFS集群的文件默认存储3份

答案:

1-5：ACCDC
6-10：BDBDC
11-15：CCDDC
16-20：ADDCC
21-25：DBBCC
26-30：DBDCC
31-35：CDCBB
36-36：C

SS00023.PBpositions——|Hadoop&PB级离线数仓.v02|——|Griffin.v02|Griffin部署| yanqi_vip 数据库 hadoop hive 大数据 hdfs
一、Griffin编译准备###---软件解压缩[root@hadoop02~]#ls/opt/yanqi/software/griffin-griffin-0.5.0.zip/opt/yanqi/software/griffin-griffin-0.5.0.zip[root@hadoop02~]#cd/opt/yanqi/software/[root@hadoop02software]#unzi
解决 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform...警告克里斯蒂亚诺罗纳尔多阿维罗 hadoop
这个警告意味着Hadoop在加载本地本机库时遇到了问题。通常情况下，Hadoop会尝试加载本地的本机库以提高性能，但是如果找不到适合你的操作系统和架构的本地库，它会退而使用内置的Java类来模拟所需的功能。虽然这个警告会影响Hadoop的性能，但它并不会导致Hadoop无法正常工作。你仍然可以使用Hadoop，但可能会遇到性能上的损失。解决方法：在Hadoop中，配置'java.library.p
Hive 数据类型全解析：大数据开发者的实用指南大鳥 sql hive 数据仓库
在大数据处理领域，Hive作为一款基于Hadoop的数据仓库工具，被广泛应用于数据的存储、查询和分析。而理解Hive的数据类型是有效使用Hive的基础，本文将深入探讨Hive的数据类型，帮助大家更好地掌握Hive的使用。Hive数据类型概述Hive支持多种数据类型，主要可分为数值类型、日期/时间类型、字符类型、Misc类型以及复杂类型。这些数据类型为存储和处理各种不同格式的数据提供了有力的支持。以
Java 大视界 -- 解锁 Java 与 Hadoop HDFS 交互的高效编程之道（二）青云交大数据新视界 Java 大视界 HDFS Java 流代码示例性能优化读写操作大数据 Hadoop java
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：大数
Yarn工作机制？思维导图代码示例（java 架构) 用心去追梦 java 架构开发语言
YARN工作机制YARN（YetAnotherResourceNegotiator）是Hadoop生态系统中的资源管理和调度框架，它负责管理集群中的所有资源，并为应用程序提供调度服务。以下是关于YARN工作机制的详细介绍：YARN架构组件ResourceManager(RM)：管理整个集群的资源分配。负责启动和监控ApplicationMaster。NodeManager(NM)：每个节点上的代理
使用 Hadoop 实现大数据的高效存储与查询王子良. 经验分享大数据 hadoop 分布式
欢迎来到我的博客！非常高兴能在这里与您相遇。在这里，您不仅能获得有趣的技术分享，还能感受到轻松愉快的氛围。无论您是编程新手，还是资深开发者，都能在这里找到属于您的知识宝藏，学习和成长。博客内容包括：Java核心技术与微服务：涵盖Java基础、JVM、并发编程、Redis、Kafka、Spring等，帮助您全面掌握企业级开发技术。大数据技术：涵盖Hadoop（HDFS）、Hive、Spark、Fli
集群间hive数仓迁移 one code database
方式一：(此方法需要建库建表)第一步：建库建表在原集群hive上查看迁移表的建表语句及所在库，然后在新集群hive上建库建表；showcreatetabletb_name;createdatabasedb_name;createtabletb_name.....第二步：转移数据文件到新集群；在旧集群中下载数据到本地hadoopfs-get/user/hive/warehouse/dc_ods.db
Hive中没有超级管理员，如何进行权限控制二进制_博客大数据 hive hadoop 数据仓库
Hive中没有超级管理员，任何用户都可以进行Grant/Revoke操作开发实现自己的权限控制类，确保某个用户为超级用户比如任何用户都可以grant权限给别的用户。grantselectontabletest2touserhadoop;如何开发一个超级管理员：创建一个项目，导入mavanjar包，然后开始编写hook类importcom.google.common.base.Joiner;impo
调试Hadoop源代码一张假钞 hadoop eclipse 大数据
个人博客地址：调试Hadoop源代码|一张假钞的真实世界Hadoop版本Hadoop2.7.3调试模式下启动HadoopNameNode在${HADOOP_HOME}/etc/hadoop/hadoop-env.sh中设置NameNode启动的JVM参数，如下：exportHADOOP_NAMENODE_OPTS="-Xdebug-Xrunjdwp:transport=dt_socket,addr
大数据-257 离线数仓 - 数据质量监控监控方法 Griffin架构武子康大数据离线数仓大数据数据仓库 java 后端 hadoop hive
点一下关注吧！！！非常感谢！！持续更新！！！Java篇开始了！目前开始更新MyBatis，一起深入浅出！目前已经更新到了：Hadoop（已更完）HDFS（已更完）MapReduce（已更完）Hive（已更完）Flume（已更完）Sqoop（已更完）Zookeeper（已更完）HBase（已更完）Redis（已更完）Kafka（已更完）Spark（已更完）Flink（已更完）ClickHouse（已
pyspark 中删除hdfs的文件夹 TDengine （老段）大数据 spark hadoop hdfs mapreduce
在pyspark中保存rdd的内存到文件的时候，会遇到文件夹已经存在而失败，所以如果文件夹已经存在，需要先删除。搜索了下资料，发现pyspark并没有提供直接管理hdfs文件系统的功能。寻找到一个删除的方法，是通过调用shell命令hadoopfs-rm-f来删除，这个方法感觉不怎么好，所以继续找。后来通过查找hadoophdfs的源代码发现hdfs是通过java的包org.appache.had
Python 爬虫：获取网页数据的 5 种方法王子良. 经验分享 python python 开发语言爬虫
欢迎来到我的博客！非常高兴能在这里与您相遇。在这里，您不仅能获得有趣的技术分享，还能感受到轻松愉快的氛围。无论您是编程新手，还是资深开发者，都能在这里找到属于您的知识宝藏，学习和成长。博客内容包括：Java核心技术与微服务：涵盖Java基础、JVM、并发编程、Redis、Kafka、Spring等，帮助您全面掌握企业级开发技术。大数据技术：涵盖Hadoop（HDFS）、Hive、Spark、Fli
案例分享｜快速了解实时湖仓集一体技术如何助力企业降本增效 mysql
1.替代TD仓、Hadoop湖，助力农商行构建一体化数据平台某农商行最初构建了Teradata数据仓库、Oracle小数据平台以及Hadoop数据湖。多平台混合架构开发运维高，存在冗余存储、数据搬迁一致性、跨平台流转数据实时性低等问题。该农商行基于星环科技实时湖仓集一体平台，替代了Teradata数仓、Oracle数据平台和Hadoop数据湖三个平台，一体化架构同时满足数据湖海量汇集、复杂数仓模型
万字详解数仓分层设计架构 ODS-DWD-DWS-ADS _Jordan 自己写的数据仓库
参考：万字详解数仓分层设计架构ODS-DWD-DWS-ADS数据分层的意义1、清晰数据结构2、数据血缘追踪3、数据复用，减少重复开发4、把复杂问题简单化5、屏蔽原始数据的(影响)，屏蔽业务的影响ETL操作1、数据抽取2、数据清洗3、数据转换4、数据加载数据中台包含的内容很多，对应到具体工作中的话，它可以包含下面的这些内容：系统架构：以Hadoop、Spark等组件为中心的架构体系数据架构：顶层设计
深入HDFS——DataNode启动源码黄雪超大数据基础 #深入HDFS hdfs hadoop 大数据
引入上一篇我们看完了NameNode的启动源码，对于NameNode我们已经很熟悉了，今天我们接着来看看它的“得力干将”——DataNode。首先，自然还是从元数据管理篇提到的DataNode类（org.apache.hadoop.hdfs.server.datanode.DataNode）开始。不过在深入启动源码前，我们先看看它的源码注释：DataNodeisaclass(andprogram)
深入HDFS——NameNode启动源码黄雪超大数据基础 #深入HDFS hdfs hadoop 大数据
引入前面我们已经对HDFS有了很多了解，但是光说不练假把式，今天开启深入源码的纯享模式，先来看看NameNode启动流程，在代码层面，到底是如何实现的。首先还是得从我们的前一篇提到过的NameNode类（org.apache.hadoop.hdfs.server.namenode.NameNode）开始，既然是看启动流程，那自然是先找类里面的main方法啦。当我们启动NameNode的时候，它就会
【YashanDB知识库】原生mysql驱动配置连接崖山数据库数据库
本文内容来自YashanDB官网，原文内容请见https://www.yashandb.com/newsinfo/7919231.html?templateId=171...【问题分类】功能兼容【关键字】YAS-07202、YAS\_MYERROR，不兼容【问题描述】本项目的架构是hadoop+hive+yashandb使用崖山数据库，将mysql相关的创建表语句进行初始化同步使用崖山23.3版本
Spring Boot 和微服务：快速入门指南王子良. Java 经验分享 spring boot 微服务后端
欢迎来到我的博客！非常高兴能在这里与您相遇。在这里，您不仅能获得有趣的技术分享，还能感受到轻松愉快的氛围。无论您是编程新手，还是资深开发者，都能在这里找到属于您的知识宝藏，学习和成长。博客内容包括：Java核心技术与微服务：涵盖Java基础、JVM、并发编程、Redis、Kafka、Spring等，帮助您全面掌握企业级开发技术。大数据技术：涵盖Hadoop（HDFS）、Hive、Spark、Fli
【YashanDB知识库】Hive 命令工具insert崖山数据库报错数据库
本文内容来自YashanDB官网，原文内容请见https://www.yashandb.com/newsinfo/7919217.html?templateId=171...【问题分类】功能兼容【关键字】spark30041、不兼容【问题描述】本项目的架构是hadoop+hive+yashandb使用崖山数据库，初始化所有的原数据表和数据新建表之后，插入数据时候报错，hadoopcode30041
初学者如何用 Python 写第一个爬虫？王子良. python 经验分享 python 开发语言爬虫
欢迎来到我的博客！非常高兴能在这里与您相遇。在这里，您不仅能获得有趣的技术分享，还能感受到轻松愉快的氛围。无论您是编程新手，还是资深开发者，都能在这里找到属于您的知识宝藏，学习和成长。博客内容包括：Java核心技术与微服务：涵盖Java基础、JVM、并发编程、Redis、Kafka、Spring等，帮助您全面掌握企业级开发技术。大数据技术：涵盖Hadoop（HDFS）、Hive、Spark、Fli
大数据学习笔记——zookeeper在hadoop集群中的作用鹅鹅鹅呢 java hadoop 大数据学习 tcp/ip tomcat
zookeeper主要是用来搭建高可用的Hadoop集群，即HighAvailability，简称(HA)测试中集群是可以不需要高可用的，即使用一个namenode即可。但是在生产环境中为了提高集群的可靠性，需要增加一个namenode备用，当active的namenode挂了之后，系统会启动standby的namenode。这就需要zookeeper监控namenode的状态。
应急救援路径规划中的蚁群算法与路径评价研究【附代码】拉勾科研工作室算法
数据科学与大数据专业|数据分析与模型构建|数据驱动决策✨专业领域：数据挖掘与清洗大数据处理与存储技术机器学习与深度学习模型数据可视化与报告生成分布式计算与云计算数据安全与隐私保护擅长工具：Python/R/Matlab数据分析与建模Hadoop/Spark大数据处理平台SQL数据库管理与优化Tableau/PowerBI数据可视化工具TensorFlow/PyTorch深度学习框架✅具体问题可以私
浅谈MapReduce Android路上的人 Hadoop 分布式计算 mapreduce 分布式框架 hadoop
从今天开始，本人将会开始对另一项技术的学习，就是当下炙手可热的Hadoop分布式就算技术。目前国内外的诸多公司因为业务发展的需要，都纷纷用了此平台。国内的比如BAT啦，国外的在这方面走的更加的前面，就不一一列举了。但是Hadoop作为Apache的一个开源项目，在下面有非常多的子项目，比如HDFS，HBase,Hive，Pig,等等，要先彻底学习整个Hadoop，仅仅凭借一个的力量，是远远不够的。
Hadoop 傲雪凌霜，松柏长青后端大数据 hadoop 大数据分布式
ApacheHadoop是一个开源的分布式计算框架，主要用于处理海量数据集。它具有高度的可扩展性、容错性和高效的分布式存储与计算能力。Hadoop核心由四个主要模块组成，分别是HDFS（分布式文件系统）、MapReduce（分布式计算框架）、YARN（资源管理）和HadoopCommon（公共工具和库）。1.HDFS（HadoopDistributedFileSystem）HDFS是Hadoop生
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
hbase介绍 CrazyL- 云计算+大数据 hbase
hbase是一个分布式的、多版本的、面向列的开源数据库hbase利用hadoophdfs作为其文件存储系统，提供高可靠性、高性能、列存储、可伸缩、实时读写、适用于非结构化数据存储的数据库系统hbase利用hadoopmapreduce来处理hbase、中的海量数据hbase利用zookeeper作为分布式系统服务特点：数据量大：一个表可以有上亿行，上百万列（列多时，插入变慢）面向列：面向列（族）的
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
Spark集群的三种模式 MelodyYN #Spark spark hadoop big data
文章目录1、Spark的由来1.1Hadoop的发展1.2MapReduce与Spark对比2、Spark内置模块3、Spark运行模式3.1Standalone模式部署配置历史服务器配置高可用运行模式3.2Yarn模式安装部署配置历史服务器运行模式4、WordCount案例1、Spark的由来定义：Hadoop主要解决，海量数据的存储和海量数据的分析计算。Spark是一种基于内存的快速、通用、可
月度总结 | 2022年03月 | 考研与就业的抉择 | 确定未来走大数据开发路线「已注销」个人总结 hadoop
一、时间线梳理3月3日，寻找到同专业的就业伙伴3月5日，着手准备Java八股文，决定先走Java后端路线3月8月，申请到了校图书馆的考研专座，决定暂时放弃就业，先准备考研，买了数学和408的资料书3月9日-3月13日，因疫情原因，宿舍区暂封，这段时间在准备考研，发现内容特别多3月13日-3月19日，大部分时间在刷Hadoop、Zookeeper、Kafka的视频，同时在准备实习的项目3月20日，退
关于旗正规则引擎下载页面需要弹窗保存到本地目录的问题何必如此 jsp 超链接文件下载窗口
生成下载页面是需要选择“录入提交页面”，生成之后默认的下载页面<a>标签超链接为：<a href="<%=root_stimage%>stimage/image.jsp?filename=<%=strfile234%>&attachname=<%=java.net.URLEncoder.encode(file234filesourc
【Spark九十八】Standalone Cluster Mode下的资源调度源代码分析 bit1129 cluster
在分析源代码之前，首先对Standalone Cluster Mode的资源调度有一个基本的认识：首先，运行一个Application需要Driver进程和一组Executor进程。在Standalone Cluster Mode下，Driver和Executor都是在Master的监护下给Worker发消息创建(Driver进程和Executor进程都需要分配内存和CPU，这就需要Maste
linux上独立安装部署spark daizj linux 安装 spark 1.4 部署
下面讲一下linux上安装spark，以 Standalone Mode 安装 1）首先安装JDK 下载JDK：jdk-7u79-linux-x64.tar.gz ，版本是1.7以上都行，解压 tar -zxvf jdk-7u79-linux-x64.tar.gz 然后配置 ~/.bashrc&nb
Java 字节码之解析一周凡杨 java 字节码 javap
一： Java 字节代码的组织形式类文件 { OxCAFEBABE ，小版本号，大版本号，常量池大小，常量池数组，访问控制标记，当前类信息，父类信息，实现的接口个数，实现的接口信息数组，域个数，域信息数组，方法个数，方法信息数组，属性个数，属性信息数组 } &nbs
java各种小工具代码 g21121 java
1.数组转换成List import java.util.Arrays; Arrays.asList(Object[] obj); 2.判断一个String型是否有值 import org.springframework.util.StringUtils; if (StringUtils.hasText(str)) 3.判断一个List是否有值 import org.spring
加快FineReport报表设计的几个心得体会老A不折腾 finereport
一、从远程服务器大批量取数进行表样设计时，最好按“列顺序”取一个“空的SQL语句”，这样可提高设计速度。否则每次设计时模板均要从远程读取数据，速度相当慢！！二、找一个富文本编辑软件（如NOTEPAD+）编辑SQL语句，这样会很好地检查语法。有时候带参数较多检查语法复杂时，结合FineReport中生成的日志，再找一个第三方数据库访问软件（如PL/SQL）进行数据检索，可以很快定位语法错误。
mysql linux启动与停止墙头上一根草
如何启动/停止/重启MySQL一、启动方式1、使用 service 启动：service mysqld start2、使用 mysqld 脚本启动：/etc/inint.d/mysqld start3、使用 safe_mysqld 启动：safe_mysqld&二、停止1、使用 service 启动：service mysqld stop2、使用 mysqld 脚本启动：/etc/inin
Spring中事务管理浅谈 aijuans spring 事务管理
Spring中事务管理浅谈 By Tony Jiang@2012-1-20 Spring中对事务的声明式管理拿一个XML举例 [html] view plain copy print ? <?xml version="1.0" encoding="UTF-8"?>&nb
php中隐形字符65279（utf-8的BOM头）问题 alxw4616
php中隐形字符65279（utf-8的BOM头）问题今天遇到一个问题. php输出JSON 前端在解析时发生问题:parsererror. 调试: 1.仔细对比字符串发现字符串拼写正确.怀疑是非打印字符的问题. 2.逐一将字符串还原为unicode编码. 发现在字符串头的位置出现了一个 65279的非打印字符.
调用对象是否需要传递对象(初学者一定要注意这个问题) 百合不是茶对象的传递与调用技巧
类和对象的简单的复习,在做项目的过程中有时候不知道怎样来调用类创建的对象,简单的几个类可以看清楚,一般在项目中创建十几个类往往就不知道怎么来看为了以后能够看清楚,现在来回顾一下类和对象的创建,对象的调用和传递(前面写过一篇) 类和对象的基础概念: JAVA中万事万物都是类类有字段(属性),方法,嵌套类和嵌套接
JDK1.5 AtomicLong实例 bijian1013 java thread java多线程 AtomicLong
JDK1.5 AtomicLong实例类 AtomicLong 可以用原子方式更新的 long 值。有关原子变量属性的描述，请参阅 java.util.concurrent.atomic 包规范。AtomicLong 可用在应用程序中（如以原子方式增加的序列号），并且不能用于替换 Long。但是，此类确实扩展了 Number，允许那些处理基于数字类的工具和实用工具进行统一访问。
自定义的RPC的Java实现 bijian1013 java rpc
网上看到纯java实现的RPC，很不错。 RPC的全名Remote Process Call，即远程过程调用。使用RPC，可以像使用本地的程序一样使用远程服务器上的程序。下面是一个简单的RPC 调用实例，从中可以看到RPC如何
【RPC框架Hessian一】Hessian RPC Hello World bit1129 Hello world
什么是Hessian The Hessian binary web service protocol makes web services usable without requiring a large framework, and without learning yet another alphabet soup of protocols. Because it is a binary p
【Spark九十五】Spark Shell操作Spark SQL bit1129 shell
在Spark Shell上，通过创建HiveContext可以直接进行Hive操作 1. 操作Hive中已存在的表 [hadoop@hadoop bin]$ ./spark-shell Spark assembly has been built with Hive, including Datanucleus jars on classpath Welcom
F5　往header加入客户端的ip ronin47
when HTTP_RESPONSE {if {[HTTP::is_redirect]}{ HTTP::header replace Location [string map {:port/ /} [HTTP::header value Location]]HTTP::header replace Lo
java-61-在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差. 求所有数对之差的最大值。例如在数组{2, 4, 1, 16, 7, 5, bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/2541117420116135376632/ 写了个java版的 public class GreatestLeftRightDiff { /** * Q61.在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差。 * 求所有数对之差的最大值。例如在数组
mongoDB 索引开窍的石头 mongoDB索引
在这一节中我们讲讲在mongo中如何创建索引得到当前查询的索引信息 db.user.find(_id:12).explain(); cursor: basicCoursor 指的是没有索引 &
[硬件和系统]迎峰度夏 comsci 系统
从这几天的气温来看，今年夏天的高温天气可能会维持在一个比较长的时间内所以，从现在开始准备渡过炎热的夏天。。。。每间房屋要有一个落地电风扇，一个空调(空调的功率和房间的面积有密切的关系) 坐的，躺的地方要有凉垫，床上要有凉席电脑的机箱
基于ThinkPHP开发的公司官网 cuiyadll 行业系统
后端基于ThinkPHP，前端基于jQuery和BootstrapCo.MZ 企业系统轻量级企业网站管理系统运行环境:PHP5.3+, MySQL5.0 系统预览系统下载：http://www.tecmz.com 预览地址：http://co.tecmz.com 各种设备自适应响应式的网站设计能够对用户产生友好度，并且对于
Transaction and redelivery in JMS (JMS的事务和失败消息重发机制) darrenzhu jms 事务承认 MQ acknowledge
JMS Message Delivery Reliability and Acknowledgement Patterns http://wso2.com/library/articles/2013/01/jms-message-delivery-reliability-acknowledgement-patterns/ Transaction and redelivery in
Centos添加硬盘完全教程 dcj3sjt126com linux centos hardware
Linux的硬盘识别: sda 表示第1块SCSI硬盘 hda 表示第1块IDE硬盘 scd0 表示第1个USB光驱一般使用“fdisk -l”命
yii2 restful web服务路由 dcj3sjt126com PHP yii2
路由随着资源和控制器类准备，您可以使用URL如 http://localhost/index.php?r=user/create访问资源，类似于你可以用正常的Web应用程序做法。在实践中，你通常要用美观的URL并采取有优势的HTTP动词。例如，请求POST /users意味着访问user/create动作。这可以很容易地通过配置urlManager应用程序组件来完成如下所示
MongoDB查询(4)——游标和分页[八] eksliang mongodb MongoDB游标 MongoDB深分页
转载请出自出处：http://eksliang.iteye.com/blog/2177567 一、游标数据库使用游标返回find的执行结果。客户端对游标的实现通常能够对最终结果进行有效控制，从shell中定义一个游标非常简单，就是将查询结果分配给一个变量（用var声明的变量就是局部变量），便创建了一个游标，如下所示： > var
Activity的四种启动模式和onNewIntent() gundumw100 android
Android中Activity启动模式详解　　在Android中每个界面都是一个Activity，切换界面操作其实是多个不同Activity之间的实例化操作。在Android中Activity的启动模式决定了Activity的启动运行方式。　　Android总Activity的启动模式分为四种： Activity启动模式设置： <acti
攻城狮送女友的CSS3生日蛋糕 ini html Web html5 css css3
在线预览：http://keleyi.com/keleyi/phtml/html5/29.htm 代码如下： <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title>攻城狮送女友的CSS3生日蛋糕-柯乐义<
读源码学Servlet（1）GenericServlet 源码分析 jzinfo tomcat Web servlet 网络应用网络协议
Servlet API的核心就是javax.servlet.Servlet接口，所有的Servlet 类（抽象的或者自己写的）都必须实现这个接口。在Servlet接口中定义了5个方法，其中有3个方法是由Servlet 容器在Servlet的生命周期的不同阶段来调用的特定方法。先看javax.servlet.servlet接口源码： package
JAVA进阶：VO(DTO)与PO(DAO)之间的转换 snoopy7713 java VO Hibernate po
PO即 Persistence Object　　VO即 Value Object 　VO和PO的主要区别在于：　　VO是独立的Java Object。　　PO是由Hibernate纳入其实体容器（Entity Map）的对象，它代表了与数据库中某条记录对应的Hibernate实体，PO的变化在事务提交时将反应到实际数据库中。　实际上，这个VO被用作Data Transfer
mongodb group by date 聚合查询日期统计每天数据（信息量） qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 1 */ { "_id" : ObjectId("557ac1e2153c43c320393d9d"), "msgType" : "text", "sendTime" : ISODate("2015-06-12T11:26:26.000Z")
java之18天常用的类(一) Luob. Math Date System Runtime Rundom
System类 import java.util.Properties; /** * System: * out:标准输出,默认是控制台 * in:标准输入,默认是键盘 * * 描述系统的一些信息 * 获取系统的属性信息:Properties getProperties(); * * * */ public class Sy
maven wuai maven
1、安装maven：解压缩、添加M2_HOME、添加环境变量path 2、创建maven_home文件夹，创建项目mvn_ch01,在其下面建立src、pom.xml，在src下面简历main、test、main下面建立java文件夹 3、编写类，在java文件夹下面依照类的包逐层创建文件夹，将此类放入最后一级文件夹 4、进入mvn_ch01 4.1、mvn compile ,执行后会在

面试题--精选Hadoop选择题

你可能感兴趣的:(Hadoop)