牛客网专项练习Pytnon分析库(九)

1.应用matplotlib数据库绘制图像的时候,其中plt.savefig('test', dpi=600)中的dpi参数代表了是什么意思(D)。

A.像素

B.图形尺寸

C.颜色

D.每英寸点数

解析:

       dpi为设置图形每英寸的像素点数。


2.下面选项中有关异常值检测说法错误的是(C)。

A.使用3σ方法需要保证历史异常值较少

B.可以使用pandas库的describe()方法来简单统计

C.使用3σ方法必须保证数据为正态分布

D.DBSCAN聚类算法可以用来异常值检测

解析:

       A.选项,使用3σ方法要保证历史数据异常点较少,因为异常点多的话均值容易被异常点拉偏,使用3σ方法的话数据就不太可靠;

       B.选项,describe()方法粗略的观察一些统计量;

       C.选项,3σ方法的条件是数据需要服从正态分布,在3∂原则下,异常值如超过3倍标准差,那么可以将其视为异常值,在处理数据时,应剔除高度异常的异常值。如果数据不服从正态分布,也可以用远离平均值的多少倍标准差来描述,再进行剔除。因此C项错误;

       D.选项,DBSCAN聚类算法是一种基于密度的离群点检测,可以用来做异常值检测;

       故正确答案选C。


3.以下哪个选项中的函数能够返回标准的正态分布的数组(A)。

A.numpy.random.randn

B.numpy.random.uniform

C.numpy.random.rand

D.numpy.random.randint

解析:

       A. randn函数返回一个指定形状的数组,数组值服从标准正态分布(均值为0,标准差为1);

       B.uniform函数从一个均匀分布的区域中随机采样;

       C.rand函数返回一个或一组服从“0~1”均匀分布的随机样本值,取值范围是[0,1),不包括1;

       D.randint函数从给定的区域中随机选取设定数量的整数;

       故正确答案选A。


4.以下不是聚类算法的是(B)。

A.k-means

B.KNN

C.DBSCAN

D.GCN

解析:

       A. k-means是最基础的聚类算法了,它的输入需要簇的个数k,聚类目标是使得类内的点足够近,类间的点足够远,因此A正确;

       B.KNN是机器学习中的一种分类算法,并不是聚类算法;

       C.DBSCAN是基于密度的聚类的算法,要求聚类空间的一定区域所包含的对象的数目不小于某一给定阈值,当邻近区域的密度超过某个阈值,则继续聚类;

       D.GCN分类本质上是基于图的聚类,然而基于GCN的聚类算法会有深度学习中的训练的概念,而传统的聚类算法则是通过人工设定阈值来决定的;

        故正确答案选B。


5.在回归分析中需要相关的两个变量(B)。

A.因变量是随机的量,自变量也是随机的量

B.因变量是随机的量,自变量是控制的量

C.因变量是控制的量,自变量是随机的量

D.因变量是控制的量,自变量也是控制的量

解析:

       进行回归分析时,必须事先确定自变量和因变量,而两个变量中只有自变量是可以控制的量,因变量是随机的量。

你可能感兴趣的:(牛客,开发语言,python,数据分析)