EXTERNAL关键字的作用?[多选]
A、EXTERNAL关键字可以让用户创建一个外部表
B、创建外部表时,可以不加EXTERNAL关键字
C、通过EXTERNAL创建的外部表只删除元数据,不删除数据
D、不加EXTERNAL的时候,默认创建内部表也叫管理表
【参考答案】: ACD
【您的答案】: ABC
external关键字可以让用户创建一个外部表,在建表的同时可以指定一个指向实际数据的路径(location),在删除表的时候,内部表的元数据和数据会被一起删除,而外部表只删除元数据,不删除数据。默认创建的表都是所谓的管理表,有时也被称为内部表。因为这种表,Hive会(或多或少地)控制着数据的生命周期。所以ACD选项是正确的,不加external是内部表,B选项错误。
对as和like的描述正确的是?[多选]
A、as可以将查询结果添加到新创建的表中
B、like根据已经存在的表结构创建表
C、as针对数据,like针对结构
D、as和like的作用一样
【参考答案】: ABC
【您的答案】: BC
根据查询结果创建表(查询的结果会添加到新创建的表中)
create table if not exists student2 AS select id, name from student;
这个就是将查询结果添加到新创建的表中,所以A选项正确。
聚合函数sum()over(…order by cu),中order by描述正确的是? [单选题]
A、只要开窗中如果使用order by ,有累加功能,默认等于UNBOUNDED PRECEDING and current row
B、在聚合函数后,开窗中如果使用order by ,有累加功能,默认等于UNBOUNDED PRECEDING and current row
C、在非聚合函数后,开窗中如果使用order by ,有累加功能,默认等于UNBOUNDED PRECEDING and current row
D、在聚合函数后,开窗中如果无论是否使用order by ,都具有累加功能,默认等于UNBOUNDED PRECEDING and current row
【参考答案】: B
【您的答案】: A
B、在聚合函数后,开窗中如果使用order by,有累加功能,默认等于UNBOUNDED PRECEDING and current row。
在使用聚合函数后,如果在开窗函数中使用ORDER BY子句,它会定义用于计算累积的顺序,通常是按照某个列的值排序。默认情况下,它等同于UNBOUNDED PRECEDING and current row,这意味着对当前行及其之前的所有行进行累加操作。这允许你在窗口中根据指定的排序顺序对聚合函数进行计算。
下列关于减少topic的分区数的描述正确的是?[单选题]
A、可以减少,使用命令sub进行移除。
B、可以减少,使用命令alter进行修改。
C、不可以减少,因为是一旦创建就不能改变的。
D、不可以减少,被删除的分区数据难以处理。
【参考答案】: D
【您的答案】: C
D、不可以减少,被删除的分区数据难以处理。
分区数一旦创建后通常是不可以减少的。删除分区会导致删除数据,这些数据难以恢复,因此通常情况下,分区数的减少是不允许的。如果需要减少分区数,通常需要创建一个新的表或数据集来满足新的需求,并迁移数据到新表中,而不是修改现有的分区数。
下列关于Exactly Once语义中描述错误的是?[单选题]
A、当ack=-1,可以保证数据不会丢失。
B、当ack=0,可以保证数据不会重复。
C、当ack=1,即可以保证数据不会重复,也可以保证数据不会丢失。
D、幂等性无法保证跨分区跨会话的Exactly Once。
【参考答案】: C
【您的答案】: B
C、当ack=1,只能保证数据不会丢失,但无法保证数据不会重复。A选项,当ack=-1时,默认数据是不会丢失的。B选项,当ack等于0时,数据只会发送一次,不需要等待回复确认,可以保证数据不会重复。D选项,如果生产者中途宕机,然后重新建立会话时,不能保证不同会话时PID是一样,这时候重新发送重复数据时无法保证幂等性。
C选项,只能保证数据不会丢失,不能保证数据不会重复的问题。
下列关于kafka 造成数据丢失的场景描述正确的是?[多选题]
A、ack=0时,leader故障有可能丢失数据。
B、ack=1时,在follower同步成功之前leader故障,将会丢失数据。
C、ack=-1时,在follower同步完成后,broker发送ack之前,leader发生故障,可能会丢失数据。
D、ack=-1时,在follower同步完成前,broker发送ack之后,leader发生故障,可能会丢失数据。
【参考答案】: AB
【您的答案】: ABD
ack=-1时,不会丢数据,所以C, D 错误
配置Metastore到MySql的说法正确的是? [单选题]
A、默认数据库derby容量太小
B、为了能够实现多窗口启动hive
C、为了使用JDBC的方式连接Hive
D、默认数据库也能实现hive多窗口启动
【参考答案】: B
【您的答案】: C
在某些情况下,为了支持多个Hive客户端同时连接到Hive Metastore,需要将Metastore配置为使用外部数据库,如MySQL。这是因为默认的Derby数据库通常只支持单个连接,这意味着只能有一个Hive客户端会话在同一时间连接到Hive Metastore。通过将Metastore配置为使用外部数据库,可以允许多个Hive客户端并发连接到Metastore,实现多窗口启动Hive。
Hive中对Parquet格式描述正确的是?[多选]
A、Parquet文件是以二进制方式存储的,所以是不可以直接读取的
B、文件中包括该文件的数据和元数据,因此Parquet格式文件是自解析的。
C、可以把每一个行组由一个Mapper任务处理,增大任务执行并行度
D、在Parquet中,有三种类型的页:数据页、字典页和索引页
【参考答案】: ABCD
【您的答案】: BC
A选项:Parquet文件是以二进制方式存储的,所以是不可以直接读取的,从某个角度来说不是很准确,是可以读取和解析的,但解释为不可以直接读取也是正确的。
D选项:正确,就是这三种类型。
Hive中对本地模式描述正确的是?[多选]
A、Hive可以通过本地模式在单台机器上处理所有的任务
B、对于小数据集,执行时间可以明显被缩短。
C、用户可以通过设置hive.exec.mode.local.auto的值为true,来让Hive在适当的时候自动启动这个优化,默认是false。
D、设置local mr的最大输入数据量,当输入数据量小于这个值时采用local mr的方式,默认为134217728,即128M
【参考答案】: ABCD
【您的答案】: ABD
C选项是正确的,存在该参数,在hive/conf/hive-default.xml.template文件中可以查看到该参数的默认情况,默认为false。
<property>
<name>hive.exec.mode.local.autoname>
<value>falsevalue>
<description>Let Hive determine whether to run in local mode automaticallydescription>
property>
Hive中对推测执行描述正确的是?[多选]
A、为了避免,一个作业的多个任务之间运行速度不一致,一个慢的任务会拖慢作业的整体执行进度这种情况,Hadoop采用了推测执行(Speculative Execution)机制。
B、根据一定的法则推测出“拖后腿”的任务,并为这样的任务启动一个备份任务,让该任务与原始任务同时处理同一份数据,并最终选用最先成功运行完成任务的计算结果作为最终结果。
C、Hadoop的mapred-site.xml文件中进行配置,mapreduce.map.speculative默认是true
D、hive本身也提供了配置项来控制reduce-side的推测执行:hive.mapred.reduce.tasks.speculative.execution默认是true
【参考答案】: ABCD
【您的答案】: ACD
C 选项,在mapred-default.xml文件总找到了该参数,默认确实为true。
<property>
<name>mapreduce.map.speculativename>
<value>truevalue>
<description>If true, then multiple instances of some map tasks
may be executed in parallel.description>
property>
D选项, 在hive/conf/hive-default.xml.template文件中确实存在配置项来控制推测执行,正确。
<property>
<name>hive.mapred.reduce.tasks.speculative.executionname>
<value>truevalue>
<description>Whether speculative execution for reducers should be turned on. description>
property>
Hive中对动态分区描述正确的是?[多选]
A、对分区表Insert数据时候,hive自动会根据分区字段的值,将数据插入到相应的分区中,但需要进行相应的配置。
B、开启动态分区功能(默认true,开启)hive.exec.dynamic.partition=true
C、在所有执行MR的节点上,最大一共可以创建多少个动态分区。默认1000
D、整个MR Job中,最大可以创建多少个HDFS文件。默认100000
【参考答案】: ABCD
【您的答案】: ACD
B选项,在hive/conf/hive-default.xml.template文件中可以确定动态分区功能默认是开启的。
<property>
<name>hive.exec.dynamic.partitionname>
<value>truevalue>
<description>Whether or not to allow dynamic partitions in DML/DDL.description>
property>
Hive中对内外表描述正确的是?[多选]
A、可以通过desc formatted table 来查询表的类型
B、修改内部表xxx为外部表alter table xxx set tblproperties(‘EXTERNAL’=‘TRUE’);
C、修改外部表xxx为内部表alter table xxx set tblproperties(‘EXTERNAL’=‘FALSE’);
D、(‘EXTERNAL’=‘TRUE’)和(‘EXTERNAL’=‘FALSE’)为固定写法,区分大小写
【参考答案】: ABCD
【您的答案】: AD
A、可以通过 desc formatted table 来查询表的类型。这是正确的,可以使用此命令来查看表的详细信息,包括表的类型(内部表或外部表)。
B、修改内部表为外部表的语法是使用以下命令:
ALTER TABLE xxx
SET TBLPROPERTIES('EXTERNAL'='TRUE');
这个命令是正确的,它将内部表修改为外部表。
C、修改外部表为内部表的语法是使用以下命令:
ALTER TABLE xxx
SET TBLPROPERTIES('EXTERNAL'='FALSE');
这个命令是正确的,它将外部表修改为内部表。
D、('EXTERNAL'='TRUE')
和 ('EXTERNAL'='FALSE')
是用于设置表属性的键值对,它们不是固定写法,而是用来指示表的类型的。这些键值对的大小写是敏感的,所以区分大小写是正确的。
所以正确的选项是 A、B、C 和 D。