1单选(2分)
以下距离度量方法中,要对样本点的各个属性进行标准化的是:
A.马氏距离
B.欧氏距离
C.曼哈顿距离
D.夹角余弦
正确答案:A
2单选(2分)
以下不属于无监督学习的算法是:
A.KMeans
B.DBSCAN
C.PCA
D.KNN
正确答案:D
3多选(2分)
无监督学习的两大主要任务分别是:
A.聚类
B.降维
C.分类
D.回归
正确答案:A、B
4多选(2分)
关于DBSCAN算法,以下说法正确的是:
A.DBSCAN算法是一种基于划分的聚类算法
B.DBSCAN算法是一种基于密度的聚类算法
C.在DBSCAN算法中,将点分类核心点、边界点和噪音点三类
D.DBSCAN算法,需要指定聚类后簇的个数
正确答案:B、C
5多选(2分)
以下属于聚类算法的是:
A.KMeans
B.DBSCAN
C.PCA
D.NMF
正确答案:A、B
6填空(2分)
from sklearn.decomposition import PCA
data = load_iris()
y = data.target
X = data.data
pca = __________
reduced_X = pca.fit_transform(X)
在空白处添加代码,创建一个能够获得两个主成分的PCA对象。
正确答案:PCA(n_components=2)
7填空(2分)
data = loadData()
km = KMeans(n_clusters=3)
label = km._______(data)
在空白处补充一个函数,用于获取data中每一条数据的聚类标签。
正确答案:fit_predict
8填空(2分)
假设有如下八个点:(3,1)(3,2)(4,1)(4,2)(1,3)(1,4)(2,3)(2,4),使用KMeans算法对其进行聚类。假设初始聚类中心点分别为(0,4)和(3,3),则最终的聚类中为(_,_)和(_,_)。注:答案数字以逗号分隔,如1.2,3.5,4.3,5.6
正确答案:1.5,3.5,3.5,1.5 或 3.5,1.5,1.5,3.5
9填空(2分)
from ________ import load_boston
data, target = load_boston(return_X_y=True)
print(data.shape)
print(target.shape)
补充以上加载数据集的模块名称。
正确答案:sklearn.datasets
10填空(2分)
余弦相似度用向量空间中两个向量夹角的的余弦值衡量两个样本的差异的大小。其计算方法如下:
现在有(1,2,3)和(2,3,1)两个向量,请计算它们的余弦相似度(保留两位小数)。
正确答案:0.79