1:遗传算法的算子有哪些?
选择 (我的答案)
交叉 (我的答案)
变异 (我的答案)
转换
抽取
2:遗传算法的终止条件有哪些( )
达到迭代代数 (我的答案)
种群中的最优个体连续若干代没有改进
平均适应度在连续若干代基本没有改进 (我的答案)
所求问题最优值小于给定的阈值
3:简述遗传算法的基本步骤。
1:分析问题
2:确定表示问题解答的编码(染色体)
3:初始化染色体种群
4:计算每个个体的适应值
5:判断是否满足终止条件,若满足则输出最优解,否则进入第6步
6:根据适应值选择串进行复制
7:交叉
8:变异,并回到第4步,重复后续步骤
4:适应度函数在遗传算法中的作用是什么?
进行自然选择的唯一依据
区分群体中个体好坏的标准
算法演化过程的驱动力
1:群智能算法的一般框架是什么?
1:初始化群体:
随机生成或根据问题的特定要求初始化一个群体,每个个体代表问题的一个潜在解决方案。
2:评估个体适应度:
对每个个体应用适应度函数,评估其解决方案的质量。适应度函数根据问题的性质而定,它可以衡量解的优劣。
3:设定终止条件:
确定算法的终止条件,例如最大迭代次数、达到某个适应度阈值或经过一定时间。
4:主循环迭代:
在满足终止条件之前,重复以下步骤:
(1)个体交互:群体成员之间根据一定的规则和策略进行交互,以共同寻找更好的解决方案。
(2)更新个体:根据交互和信息共享的结果,更新每个个体的状态,使其逐渐接近更优解。
5:选择最优解:
在算法终止时,从群体中选择具有最高适应度值的个体作为最优解或近似最优解。
6:返回结果:
返回最优解或近似最优解作为算法的输出,用于解决原始问题。
2:群智能算法的特点和不足有哪些?
特点:
基于概率计算的随机搜索进化算法,在结构、研究内容、方法以及步骤上有较大的相似性。
不足:
1:数学理论基础相对薄弱。
2:参数设置没有确切的理论依据,对具体问题和应用环境的依赖性大。
3:比较性研究不足,缺乏用于性能评估的标准测试集。
4:不具备绝对的可信性,存在应用风险。
1:已知事件A与事件B发生与否伴随出现,根据贝叶斯公式可得到P(B|A)=P(A|B)*M/P(A),则M=( ).
P(AB)
P(B逆)
P(A逆)
P(B) (我的答案)
2:给定贝叶斯公式P(cj|x) = (Px|cj) P(cj)) / P(x),公式中P(cj|x)为( )。
先验概率
后验概率 (我的答案)
全概率
联合概率
3:朴素贝叶斯分类器基于( )假设。
样本分布独立性
属性条件独立性 (我的答案)
后验概率已知
先验概率已知
1:k-近邻算法的基本要素不包括( )
距离度量
k值的选择
样本大小 (我的答案)
分类决策规则
2:决策树构成顺序是( )
特征选择、决策树生成、决策树剪枝 (我的答案)
决策树剪枝、特征选择、决策树生成
决策树生成、决策树剪枝、特征选择
特征选择、决策树剪枝、决策树生成
3:下列哪个集成学习器的个体学习器存在强依赖关系( )
Boosting (我的答案)
Bagging
Random Forest
随机森林
1:在回归分析中,代表了数据点和它在回归直线上相应位置的差异的是( )。
总偏差平方和
残差平方和 (我的答案)
回归平方和
相关指数R^2
2:下列说法中正确的是( )。
任何两个变量都具有相关关系
人的知识与其年龄具有相关关系 (我的答案)
散点图中的各点是分散的没有规律
根据散点图求得的回归直线方程都是有意义的
3:训练误差和泛化误差之间的差异越小,说明模型的泛化性能越好。
T
4:当我们说模型训练结果过拟合的时候,意思是模型的泛化能力很强。
F
1:对于线性可分的二分类任务样本集,将训练样本分开的超平面有很多,支持向量机试图寻找满足什么条件的超平面?()
B.靠近正类样本的
A.在正负类样本“正中间 (我的答案)
D.以上说法都不对
C.靠近负类样本的
2:关于核函数的说法,正确的是()。
D.以上说法都是正确的 (我的答案)
C.能够直接在原始的特征空间计算
B.能够缓解计算高维内积的困难
A.能绕过显式考虑特征映射
3:SVM算法的性能取决于
B、核函数的选择
C、核函数的参数
A、以下所有 (我的答案)
D、软间隔参
4:对于在原空间中线性不可分的问题,支持向量机()
D、在原空间中寻找线性函数划分数据
C、利用核函数把数据映射到高维空间 (我的答案)
B、无法处理
A、在原空间中寻找非线性函数划分数据
5:支持向量机的解具有稀疏性()
T
6:支持向量机不会受到噪声的影响()
F
7:通过拉格朗日乘子法可以得到支持向量机的对偶问题()
T
8:SVM中的泛化误差代表SVM对新数据的预测准确度()
T
1:聚类算法的属于下面那类算法
A、无监督 (我的答案)
B、有监督
C、半监督
2:聚类不会受到噪声的影响
F
3:Kmeans算法的质心个数可以随机确定
F
4:Kmeans算法的基本流程
(1) 随机选择k个点,作为聚类中心。
(2) 对数据集中每个数据点,按照距离k个中心点的距离,将其与距离最近的中心点关联起来,与同一中心点关联所有点聚成一类。
(3) 计算每一组的均值means,将该组所关联的中心点移动到平均值的位置。
(4) 重复执行(2)到(3),直至中心点不再变化,即算法收敛。
(5) 返回k个中心点。
5:请回答,密度聚类、Kmeans聚类的区别
(1)层次性。
分层聚类是一种层次性聚类算法,通过逐步合并或分割簇来构建一个聚类层次结构,这个结构可以表示为树状图(树状聚类图或谱系图)。分层聚类可以生成一个簇的嵌套结构,允许从粗到细地查看数据的不同聚类层次。
K-means聚类是一种非层次性聚类算法,将数据点划分为固定数量(K个)的簇,每个簇由一个质心表示,没有嵌套结构。聚类的结果是一组非重叠的簇。
(2)簇的数量。
分层聚类通常不需要指定要生成的簇的数量,可以通过树状图中的截断来控制聚类的层次深度。用户可以选择在树状图中的某个层次上停止分割来得到所需数量的簇。
K-means聚类需要明确指定要生成的簇的数量K,并且K是算法流程中的一个重要参数。
(3)算法复杂性。
分层聚类通常更复杂,需要维护聚类层次结构,并且在每个步骤中计算距离矩阵。
K-means聚类通常更简单和高效,迭代地更新质心并将数据点分配到最近的质心,不需要维护复杂的层次结构。
(4)初始簇的确定。
分层聚类通常不需要明确的初始簇的确定,其通过递归合并或分割操作来构建簇的层次结构。
K-means聚类需要明确的初始质心位置,通常使用随机初始化或其他启发式方法来选择初始质心。
1:在DBSCAN聚类中,什么是核心点
落在其他数据点附近
以该点为圆心,如果给定半径内含有大于等于最小点数目的点 (我的答案)
最靠近数据集中心的点
与其他点具有相似特征的点
2:在DBSCAN算法中,什么是噪声点
距离其他点最远的点
不是核心点也不是边界点的点 (我的答案)
具有最大密度的点
聚类中心点
3:DBSCAN聚类对什么样的数据集表现最好?
数据维度高
簇形状单一,且聚合
具有不同密度区域的数据集 (我的答案)
只包含线性分布的数据点
4:可以用什么指标评价DBSCAN聚类?
平均精度
召回率
轮廓系数 (我的答案)
平均相对误差
5:DBSCAN算法的时间复杂度通常比K-Means算法更高
T
6:DBSCAN聚类算法对初始簇中心的选择敏感。
F
7:DBSCAN算法能够发现任意形状的簇
T
8:DBSCAN 算法在处理大规模数据集时,时间复杂度较高,计算量较大
T
1:标准BP算法采用的是最速体素下降法修正权值,该算法存在与输入样本的顺序有关、收敛速度慢、易陷入局部极小值等缺陷,为了克服算法中的不足,研究者们提出了许多改进算法,其中()与其他三个算法的原理不一样?
a) 附加动量的改进算法
b) 使用拟牛顿法的改进算法 (我的答案)
c) 采用自适应调整参数的改进算法
d) 使用弹性方法的改进算法
2:在BP神经网络中,反向传播算法的目标是
a) 最小化输入数据的维度
b) 最大化网络的深度
c) 最小化预测输出与实际值之间的误差 (我的答案)
d) 最大化网络的参数数量
3:在BP神经网络的训练中,学习率的作用是
a) 控制模型的复杂度
b) 定义神经网络的层数
c) 调整梯度下降的步长 (我的答案)
d) 决定激活函数的类型
4:在BP神经网络中,过拟合是指
a) 网络无法收敛到最优解
b) 网络对训练数据过于敏感,导致在测试数据上表现不佳 (我的答案)
c) 网络的学习速率过大
d) 网络层数过少,难以捕捉数据的复杂特征
5:神经网络的更深层通常比前面层计算更复杂的输入特征
T
6:出现过拟合现象,可以采用正则化解决?
T
7:在BP神经网络的训练过程中,反向传播算法主要用于调整网络的权重
T
8:BP神经网络中,激活函数的作用是为了引入非线性特性,从而使得网络能够学习复杂的非线性映射关系
T