1.应用matplotlib数据库绘制图像的时候,其中plt.savefig('test', dpi=600)中的dpi参数代表了是什么意思(D)。
A.像素
B.图形尺寸
C.颜色
D.每英寸点数
解析:
dpi为设置图形每英寸的像素点数。
2.下面选项中有关异常值检测说法错误的是(C)。
A.使用3σ方法需要保证历史异常值较少
B.可以使用pandas库的describe()方法来简单统计
C.使用3σ方法必须保证数据为正态分布
D.DBSCAN聚类算法可以用来异常值检测
解析:
A.选项,使用3σ方法要保证历史数据异常点较少,因为异常点多的话均值容易被异常点拉偏,使用3σ方法的话数据就不太可靠;
B.选项,describe()方法粗略的观察一些统计量;
C.选项,3σ方法的条件是数据需要服从正态分布,在3∂原则下,异常值如超过3倍标准差,那么可以将其视为异常值,在处理数据时,应剔除高度异常的异常值。如果数据不服从正态分布,也可以用远离平均值的多少倍标准差来描述,再进行剔除。因此C项错误;
D.选项,DBSCAN聚类算法是一种基于密度的离群点检测,可以用来做异常值检测;
故正确答案选C。
3.以下哪个选项中的函数能够返回标准的正态分布的数组(A)。
A.numpy.random.randn
B.numpy.random.uniform
C.numpy.random.rand
D.numpy.random.randint
解析:
A. randn函数返回一个指定形状的数组,数组值服从标准正态分布(均值为0,标准差为1);
B.uniform函数从一个均匀分布的区域中随机采样;
C.rand函数返回一个或一组服从“0~1”均匀分布的随机样本值,取值范围是[0,1),不包括1;
D.randint函数从给定的区域中随机选取设定数量的整数;
故正确答案选A。
4.以下不是聚类算法的是(B)。
A.k-means
B.KNN
C.DBSCAN
D.GCN
解析:
A. k-means是最基础的聚类算法了,它的输入需要簇的个数k,聚类目标是使得类内的点足够近,类间的点足够远,因此A正确;
B.KNN是机器学习中的一种分类算法,并不是聚类算法;
C.DBSCAN是基于密度的聚类的算法,要求聚类空间的一定区域所包含的对象的数目不小于某一给定阈值,当邻近区域的密度超过某个阈值,则继续聚类;
D.GCN分类本质上是基于图的聚类,然而基于GCN的聚类算法会有深度学习中的训练的概念,而传统的聚类算法则是通过人工设定阈值来决定的;
故正确答案选B。
5.在回归分析中需要相关的两个变量(B)。
A.因变量是随机的量,自变量也是随机的量
B.因变量是随机的量,自变量是控制的量
C.因变量是控制的量,自变量是随机的量
D.因变量是控制的量,自变量也是控制的量
解析:
进行回归分析时,必须事先确定自变量和因变量,而两个变量中只有自变量是可以控制的量,因变量是随机的量。