途牛2019校招笔试-大数据

【不定项选择】
本套试卷共一个部分,共20题,每题5分,总分100分。每题至少有1个正确选项,多选、少选或错选不得分。

1.默认知识点多选题一般5分 得分0分
MySQL 的binlog 日志格式不包含哪个
A: A. Statement

B: B. row

C: C. mixed

D: D. mixedlevel

正确答案:C

2.默认知识点多选题一般5分 得分5分
下面对HBase的描述哪些是正确的?
A: A.不是开源的

B: B.是面向列的

C: C.是分布式的

D: D.是一种NoSQL数据库

正确答案:B,C,D

3.默认知识点多选题一般5分 得分5分
解压.tar.gz结尾的HBase压缩包使用的Linux命令是
A: A.tar -zxvf

B: B.tar -cf

C: C. tar -s

D: D.tar -nf

正确答案:A

4.默认知识点多选题一般5分 得分5分
以下索引类型,哪个是MySQL数据库的?
A: A.主键索引

B: B.全文索引

C: C.位图索引

D: D.组合索引

正确答案:A,B,D

5.默认知识点多选题一般5分 得分0分
下列属于ORACLE的物理存储结构的是
A: A.数据文件

B: B.日志文件

C: C.参数文件

D: D.控制文件

正确答案:A,B,D

6.默认知识点多选题一般5分 得分0分
在SELECT语句的WHERE子句的条件表达式中,可以匹配0个到多个字符的通配符是
A: A. *

B: B. %

C: C. _

D: D. ?

正确答案:B

7.默认知识点多选题一般5分 得分5分
Oracle数据库分区有哪些?
A: A.范围分区

B: B.列表分区

C: C.散列分区

D: D.组合分区

正确答案:A,B,C,D

8.默认知识点多选题一般5分 得分5分
数据库事务有哪些特性?
A: A.原子性

B: B.一致性

C: C.分离性

D: D.持久性

正确答案:A,B,C,D

9.默认知识点多选题一般5分 得分5分
HDfS 中的 block 默认保存几份?
A: A.3 份

B: B.2 份

C: C.1 份

D: D.不确定

正确答案:A

10.默认知识点多选题一般5分 得分5分
下列属于ORACLE的逻辑结构的是
A: A.区

B: B.游标

C: C.段

D: D.表空间

正确答案:A,C,D

11.数理逻辑多选题一般5分 得分5分
毕业典礼后,某宿舍三位同学把自己的毕业帽扔了,随后每个人随机地拾起帽子,三个人中没有人选到自己原来带的帽子的概率是
A: A.1/2

B: B.1/3

C: C.1/4

D: D.1/6

正确答案:B

12.机器学习多选题一般5分 得分0分
下面对集成学习模型中的弱学习者描述正确的是?
A: A. 他们经常不会过拟合

B: B. 他们通常带有高偏差,所以其并不能解决复杂学习问题

C: C. 他们通常会过拟合

D: D.他们通常带有低偏差,能解决复杂学习问题

正确答案:A,B

13.机器学习多选题一般5分 得分5分
我们想要减少数据集中的特征数, 即降维. 选择以下适合的方案 :
A: A. 使用前向特征选择方法

B: B. 使用后向特征排除方法

C: C. 我们先把所有特征都使用, 去训练一个模型, 得到测试集上的表现. 然后我们去掉一个特征, 再去训练, 用交叉验证看看测试集上的表现. 如果表现比原来还要好, 我们可以去除这个特征

D: D. 查看相关性表, 去除相关性最高的一些特征

正确答案:A,B,C,D

14.机器学习多选题一般5分 得分0分
下面关于L1范数和L2范数的说法正确的是
A: A. L1范数是对应参数向量绝对值之和

B: B. L2范数是对应参数向量的平方和,再求平方根

C: C. L2范式是为了防止机器学习的过拟合,提升模型的泛化能力

正确答案:A,B,C

15.机器学习多选题一般5分 得分5分
对于随机森林和GradientBoosting Trees, 下面说法正确的是:
A: A. 在随机森林的单个树中, 树和树之间是有依赖的, 而GradientBoosting Trees中的单个树之间是没有依赖的

B: B. 这两个模型都使用随机特征子集, 来生成许多单个的树

C: C. 我们可以并行地生成GradientBoosting Trees单个树, 因为它们之间是没有依赖的, GradientBoosting Trees训练模型的表现总是比随机森林好

D: D. 以上都对

正确答案:B

16.机器学习多选题一般5分 得分5分
影响聚类算法效果的主要原因有
A:  特征选取 

B: 模式相似性测度

C: 分类准则

D: 已知类别的样本质量

正确答案:A,B,C

17.机器学习多选题一般5分 得分0分
以下哪些方法可以直接来对文本分类?
A: A. Kmeans

B: B. 决策树

C: C. 支持向量机

D: D. KNN

正确答案:B,C,D

18.机器学习多选题容易5分 得分5分
在一个线性回归问题中,我们使用 R 平方(R-Squared)来判断拟合度。此时,如果增加一个特征,模型不变,则下面说法正确的是?
A: 如果 R-Squared 增加,则这个特征有意义

B: 如果R-Squared 减小,则这个特征没有意义

C: 仅看 R-Squared 单一变量,无法确定这个特征是否有意义。

D: 以上说法都不对

正确答案:C

19.默认知识点多选题较难5分 得分5分
一句sql包含以下关键词,(1):select (2):from (3):where (4):group by (5):having (6):order by,请问执行顺序是怎么样的?
A: A.(2)(3)(1)(4)(5)(6)

B: B.(2)(1)(3)(4)(5)(6)

C: C.(2)(3)(1)(5)(4)(6)

D: D.(2)(3)(4)(5)(1)(6)

正确答案:D

20.机器学习多选题较难5分 得分5分
以下说法正确的是
A: 判别模型对条件概率建模

B: 生成模型对联合概率分布建模

C: 由生成模型可以得到判别模型

D: 由判别模型可以得到生成模型

正确答案:A,B,C
 

你可能感兴趣的:(笔试,题库)