下列说法错误的是? B
A、从树的根节点开始,根据特征的值一步一步走到叶子节点的过程是决策树做决策的过程
B、决策树只能是一棵二叉树
C、根节点所代表的特征是最优特征
---------------------------------------------------------------------------------
如果一个模型,它在训练集上正确率为85%,测试集上正确率为80%,则模型是过拟合还是欠拟合?其中,来自于偏差的误差为?来自方差的误差为? B
A、欠拟合,5%,5%
B、欠拟合,15%,5%
C、过拟合,15%,15%
D、过拟合,5%,5%
---------------------------------------------------------------------------------
假设,我们现在利用5折交叉验证的方法来确定模型的超参数,一共有4组超参数,我们可以知道,5折交叉验证,每一组超参数将会得到5个子模型的性能评分,假设评分如下,我们应该选择哪组超参数? D
A、子模型1:0.8 子模型2:0.7 子模型3:0.8 子模型4:0.6 子模型5:0.5
B、子模型1:0.9 子模型2:0.7 子模型3:0.8 子模型4:0.6 子模型5:0.5
C、子模型1:0.5 子模型2:0.6 子模型3:0.7 子模型4:0.6 子模型5:0.5
D、子模型1:0.8 子模型2:0.8 子模型3:0.8 子模型4:0.8 子模型5:0.6
---------------------------------------------------------------------------------
按照支持向量机的思想,下图哪条决策边界的泛化性最好? B
A、绿线
B、黑线
C、黄线
---------------------------------------------------------------------------------
假设支持向量分别为
{ 3x1 +4x2 +5=+1
3x1 +4x2 +5=−1
如下图:
则最大间隔r的值为? B
A、0.3
B、0.4
C、0.5
D、2
---------------------------------------------------------------------------------
假设有两个样本点:(V,+1),(-V,-1)。其中,V=(3,2),则使得间隔最大的决策边界为: C
(ps:x为横坐标轴,y为纵坐标轴)
A、x=0
B、y=0
C、3x+2y=0
D、2x+3y=0
---------------------------------------------------------------------------------
有三个样本点:(x,+1),(y,+1),(z,-1),超平面为:a+b=1。 B
其中,x=(3,0),y=(0,4),z=(0,0),则以下说法错误的为:
A、超平面能够将三个样本点按类别分隔开来
B、样本y到超平面的距离为3
C、样本z到超平面的距离的平方为0.5
D、离超平面距离最近的样本为z
---------------------------------------------------------------------------------
图中,最大间隔决策边界为: D
A、x+y+1=0
B、x-y+1=0
C、-x-y+1=0
D、-x+y+1=0
---------------------------------------------------------------------------------
现在有一份数据,你随机的将数据分成了n份,然后同时训练n个子模型,再将模型最后相结合得到一个强学习器,这属于boosting方法吗? B
A、是
B、不是
C、不确定
---------------------------------------------------------------------------------
对于一个二分类问题,假如现在训练了500个子模型,每个模型权重大小一样。若每个子模型正确率为51%,则整体正确率为多少?若把每个子模型正确率提升到60%,则整体正确率为多少? C
A、51%,60%
B、60%,90%
C、65.7%,99.99%
D、65.7%,90%
---------------------------------------------------------------------------------
P(AB)表示的是事件A与事件B同时发生的概率,P(A|B)表示的是事件B已经发生的条件下,事件A发生的概率。 A
A、对
B、错
---------------------------------------------------------------------------------
从1,2,...,15中小明和小红两人各任取一个数字,现已知小明取到的数字是5的倍数,请问小明取到的数大于小红取到的数的概率是多少? C
A、7/14
B、8/14
C、9/14
D、10/14
---------------------------------------------------------------------------------
对以往数据分析结果表明,当机器调整得良好时,产品的合格率为98%,而当机器发生某种故障时,产品的合格率为55%。每天早上机器开动时,机器调整得良好的概率为95%。计算已知某日早上第一件产品是合格时,机器调整得良好的概率是多少? D
A、0.94
B、0.95
C、0.96
D、0.97
---------------------------------------------------------------------------------
2、一批产品共8件,其中正品6件,次品2件。现不放回地从中取产品两次,每次一件,求第二次取得正品的概率。 C
A、1/4
B、1/2
C、3/4
D、1
---------------------------------------------------------------------------------
下列关于线性回归分析中的残差(预测值减去真实值)说法正确的是? A
A、残差均值总是为零
B、残差均值总是小于零
C、残差均值总是大于零
D、以上说法都不对
---------------------------------------------------------------------------------
下面正确的是? D
A、将手头上所有的数据拿来训练模型,预测结果正确率最高的模型就是我们所要选的模型。
B、将所有数据中的前百分之70拿来训练模型,剩下的百分之30作为测试集,预测结果正确率最高的模型就是我们所要选的模型。
C、将所有数据先随机打乱顺序,一半用来训练模型,一半作为测试集,预测结果正确率最高的模型就是我们所要选的模型。
D、将所有数据先随机打乱顺序,百分之80用来训练模型,剩下的百分之20作为测试集,预测结果正确率最高的模型就是我们所要选的模型。
---------------------------------------------------------------------------------
训练集与测试集的划分对最终模型的确定有无影响? A
A、有
B、无
---------------------------------------------------------------------------------
(https://data.educoder.net/api/attachments/282798)
请问,图中A与B分别处于什么状态? B
A、欠拟合,欠拟合
B、欠拟合,过拟合
C、过拟合,欠拟合
D、过拟合,过拟合
---------------------------------------------------------------------------------
如果一个模型在训练集上正确率为99%,测试集上正确率为60%。我们应该怎么做? ABD
A、加入正则化项
B、增加训练样本数量
C、增加模型复杂度
D、减少模型复杂度
---------------------------------------------------------------------------------
下列说法正确的是? BCD
A、相比自助法,在初始数据量较小时交叉验证更常用。
B、自助法对集成学习方法有很大的好处
C、使用交叉验证能够增加模型泛化能力
D、在数据难以划分训练集测试集时,可以使用自助法
---------------------------------------------------------------------------------
下列说法正确的是? AB
A、相比MSE指标,MAE对噪声数据不敏感
B、RMSE指标值越小越好
C、R-Squared指标值越小越好
D、当我们的模型不犯任何错时,R-Squared值为0
---------------------------------------------------------------------------------
若线性回归方程得到多个解,下面哪些方法能够解决此问题? ABC
A、获取更多的训练样本
B、选取样本有效的特征,使样本数量大于特征数
C、加入正则化项
D、不考虑偏置项b
---------------------------------------------------------------------------------
下面属于多元线性回归的是? BC
A、求得正方形面积与对角线之间的关系。
B、建立股票价格与成交量、换手率等因素之间的线性关系。
C、建立西瓜价格与西瓜大小、西瓜产地、甜度等因素之间的线性关系。
D、建立西瓜书销量与时间之间的线性关系。
---------------------------------------------------------------------------------
下面说法正确的是? AC
A、支持向量机的最终模型仅仅与支持向量有关。
B、支持向量机的最终模型由所有的训练样本共同决定。
C、支持向量机的最终模型由离决策边界最近的几个点决定。
D、训练集越大,支持向量机的模型就一定越准确。
---------------------------------------------------------------------------------
下列说法正确的是? AB
A、训练决策树的过程就是构建决策树的过程
B、ID3算法是根据信息增益来构建决策树
C、C4.5算法是根据基尼系数来构建决策树
D、决策树模型的可理解性不高