1、什么是KDD? A
A、数据挖掘与知识发现
B、领域知识发现
C、文档知识发现
D、动态知识发现
2、“8000”和“10000”表示:A
A、数据
B、信息
C、知识
D、智慧
3、人从出生到长大的过程中,是如何认识事物的? D
A、聚类过程
B、分类过程
C、先分类,后聚类
D、先聚类,后分类
4、“8000米是飞机飞行最大高度”与“10000米的高山”表示:B
A、数据
B、信息
C、知识
D、智慧
5、“飞机无法飞过高山”表示:C
A、数据
B、信息
C、知识
D、智慧
6、下面哪个不属于数据的属性类型: D
A、标称
B、序数
C、区间
D、相异
7、只有非零值才重要的二元属性被称作: C
A、计数属性
B、离散属性
C、非对称的二元属性
D、对称属性
8、一所大学内的各年级人数分别为:一年级200人,二年级160人,三年级130人,四年级110人,则年级属性的众数为:A
A、一年级
B、二年级
C、三年级
D、四年级
9、杰卡德系数用来度量非对称的二进制属性的相似性。(√)
10、欧氏距离用来度量连续数值属性数据的相似性。(√)
11、所谓高维数据,是指:B
A、数据对象很多
B、数据属性很多
C、以上都正确
D、以上都错误
12、假设属性income的最大最小值分别是12000元和98000元。利用最大最小规范化的方法将属性映射到0至1的范围内。对属性income的73600元将被转化为:D
A、0.821
B、1.224
C、1.458
D、0.716
13、假设12个销售价格记录组已经排序如下:5,10,11,13,15,35,50,55,72,92,204,215使用如下每种方法将它们划分成四个箱。等频(等深)划分时,15在第几个箱子内?B
A、第一个
B、第二个
C、第三个
D、第四个
14、卡方测试用来度量离散标称属性的相关性。(√)
15、相关系数用来度量标称属性数据的相关性。(×)
16、考虑两队之间的足球比赛:队0和队1.假设65%的比赛队0胜出,剩余的比赛队1获胜。队0获胜的比赛中只有30%是在队1的主场,而队1取胜的比赛中75%是主场获胜。如果下一场比赛在队1的主场进行队1获胜的概率为: D
A、0.75
B、0.35
C、0.4678
D、0.5738
17、朴素贝叶斯分类器的朴素之处在于:D
A、只能处理低维属性
B、只能处理离散型属性
C、分类效果一般
D、属性之间的条件独立性假设
18、Bayes法是一种在已知后验概率与类条件概率的情况下的模式分类方法,待分样本的分类结果取决于各类域中样本的全体。(×)
19、可以利用概率统计方法估计数据的分布参数,再进一步估计待测数据的概率,以此来实现贝叶斯分类。(√)
20、贝叶斯分类器对离群点敏感。(×)
21、决策树中不包含以下哪种结点: C
A、根节点
B、内部节点
C、外部节点
D、叶子节点
22、以下哪些算法是分类算法:B
A、DBSCAN
B、ID3
C、K-Means
D、EM
23、决策树的父节点和子节点的熵的大小关系是什么? B
A、决策树的父节点更大
B、子节点的熵更大
C、两者相等
D、根据具体情况而定
24、一个决策树包括如下哪些要素 ABC
A、测试节点
B、分支
C、叶子
D、以上均错误
25、采用决策树分类算法,连续数据如何处理? AB
A、连续数据离散化
B、选择最佳划分点分裂
C、连续数据每2个值之间形成分裂
D、以上均错误
26、当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?B
A、分类
B、聚类
C、关联分析
D、隐马尔可夫链
27、简单地将数据对象集划分成不重叠的子集,使得每个数据对象恰在一个子集中,这种聚类类型称作 B
A、层次聚类
B、划分聚类
C、非互斥聚类
D、模糊聚类
28、关于k-means算法,正确的描述为: B
A、能找到任意形状的聚类
B、初始值不同,最终结果可能不同
C、每次迭代的时间复杂度是O(n^2),其中n是样本数量
D、不能使用核函数
29、k-means算法中的初始中心点:D
A、可随意设置
B、必须在每个簇的真实中心点附近
C、必须足够分散
D、直接影响算法的收敛结果
30、下列说法正确的是: BCD
A、k均值算法能够解决有离群点的聚类问题
B、k-modes能够解决离散数据的聚类问题
C、k-means++能够解决初始点影响聚类效果的问题
D、k中心点能够解决有离群点的聚类问题
31、logistic回归是否对噪声敏感 是
32、朴素的逻辑回归可以解决非线性的分类问题。(×)
33、分类和回归都可用于预测,分类的输出是离散的类别值,而回归的输出是连续数值。(√)
34、逻辑回归正则化主要包括L1正则化和L2正则化。(√)
35、数据规范化能够提高逻辑回归算法参数学习的效率。(√)
36、数据挖掘的主要任务是从数据中发现潜在规则,从而能更好的完成描述数据、预测数据等任务。(√)
37、具有较高的支持度的项集具有较高的置信度。(×)
38、先验原理可以表述为:如果一个项集是频繁的,那包含它的所有项集也是频繁的。(×)
39、利用先验原理可以帮助减少频繁项集产生时需要探查的候选项个数。(√)
40、以下模型中,在数据预处理时,不需要考虑归一化处理的是:C
A、logistic回归
B、SVM
C、树形模型
D、神经网络
41、一组数据,均值>中位数>众数,问这组数据 B
A、左偏
B、右偏
C、钟型
D、对称
42、时间序列数据更适合用 A做数据规约。
A、小波变换
B、主成分分析
C、决策树
D、直方图
43、下面哪些场景合适使用PCA? A
A、降低数据的维度,节约内存和存储空间
B、降低数据维度,并作为其它有监督学习的输入
C、获得更多的特征
D、替代线性回归
44、下列哪些数据挖掘算法不需要做数据归一化处理? CD
A、K均值
B、线性回归
C、决策树
D、朴素贝叶斯
加粗样式
45、逻辑回归分析需要对离散值做预处理,决策树则不需要。(√)
46、分类模型的误差大致分为两种:训练误差和泛化误差。(√)
47、下列关于L1正则化和L2正则化说法正确的是? AD
A、使用L1可以得到稀疏的权值
B、使用L2可以得到稀疏的权值
C、使用L1可以得到平滑的权值
D、使用L2可以得到平滑的权值
48、一般情况下,KNN最近邻方法在 D情况下效果最好
A、样本呈现团状分布
B、样本呈现链状分布
C、样本较多但典型性不好
D、样本较少但典型性好
49、所谓核技巧指的是B
A、利用在高维空间定义的函数替代原始空间的向量内积操作
B、利用在原始空间定义的函数替代高维空间的向量内积操作
C、核函数的导数具有简单的解析解,简化了运算
D、核函数具有固定的上下界,可以输出(-1,+1)区间中的连续值
50、SVM模型通过最大化边界实现线性分类,以下哪个可以使得SVM实现非线性分类 C
A、松弛变量
B、对偶空间求解
C、kernel
D、SMO算法
51、SVM与LR的数学本质上的区别是什么? A
A、损失函数
B、是否有核技巧
C、是否支持多分类
D、选项都错
52、在SVM中,主要的运算形式是:D
A、矩阵算法
B、矩阵转置
C、矩阵分解
D、向量内积
53、下面关于支持向量机的说法正确的是 AC
A、支持向量机的最终模型仅仅与支持向量有关
B、支持向量机的最终模型由所有的训练样本共同决定
C、支持向量机的最终模型由离决策边界最近的几个点决定
D、训练集越大,支持向量机的模型就一定越准确
54、下列哪些因素会对BP神经网络的训练效果产生影响 ABCD
A、权值初始值
B、阈值初始值
C、学习率
D、隐层神经元个数
55、训练神经网络时,以下哪种激活函数最容易造成梯度消失 B
A、tanh
B、sigmoid
C、ReLU
D、leaky ReLU
56、采用sigmoid函数作为激活函数的主要原因是 ABD
A、有固定的输出上下界
B、导数存在解析解
C、计算复杂度较低
D、处处可导
57、若神经元的误差对某输入的权重的偏导大于零说明: B
A、该权重应增加
B、该权重应减少
C、应增加神经网络层数
D、应调整激活函数
58、为节省神经网络模型的训练时间,神经网络模型的权重和偏移参数一般初始化为 D
A、0
B、0.5
C、1
D、随机值
59、下列哪一项在神经网络中引入了非线性 B
A、SGD
B、激活函数
C、卷积函数
D、都不正确
60、在Adaboost算法中,所有被分错的样本的权重更新比例相同。(√)
本篇文章主要介绍了数据挖掘期末复习题锦集,大家喜欢的话点赞+收藏+关注哟!