1.以下选项中哪些是数据离散程度的衡量指标(D)。
①极差 ②四分位差 ③方差 ④标准差 ⑤平均差 ⑥变异系数 ⑦众数
A.①②③④
B.①②③④⑤⑦
C.①③④⑤
D.①②③④⑤⑥
解析:
用来衡量数据离散程度的指标包括:极差、四分位差、方差、标准差、平均差和变异系数;A和C选项包含不完整,因此错误;众数不是衡量数据离散程度的指标,所以B选项错误。
2.Python Pandas处理缺失值,以下选项中哪个是将缺失值NaN用前一组数据进行填充(C)。
A.df.fillna(0)
B.df.fillna(1)
C.df.fillna(method='ffill')
D.df.fillna(method='bfill')
解析:
在Python Pandas处理缺失值操作中,fillna()函数是用来填充空缺值NaN时使用。Fillna(0)和fillna(1)表示分别使用0和1填充空缺值;fillna()中method参数用来控制向前和向后填充NaN,method=’ffill’表示向前填充,bfill() 表示向后填充。因此选择C选项。
3.进行数据处理过程中,需要对DataFrame数据进行排序,以下哪种方法是按值排序从大到小顺序排列的(B)。
A.sort_index(, ascending=False)
B.sort_values(, ascending=False)
C.sort_index(, ascending=True)
D.sort_values(, ascending=True)
解析:
Pands 提供两种排序方法,分别是按标签排序和按数值排序。按照标签排序的话采用的是sort_index()函数;按照值排序的话采用sort_values() 函数;两个函数都有一个控制排序顺序参数ascending,ascending=False时由大到小排序,ascending=True时由小到大排序。故选择B选项。
4.使用箱线图四分位距(IQR)对异常进行检测,下列哪种说法是错误的(D)。
A.第一四分位数与第三四分位数的差距称四分位距
B.值大于上四分位+1.5*IQR为异常值
C.值小于"下四分位-1.5*IQR"为异常值
D.中位数必然等于第三四分位数与第一四分位数的算术平均数
解析:
A项,四分位距(IQR)定义:第一四分位数与第三四分位数的差距称四分位距;
B、C项,处理异常值时候,一般使用IQR的1.5倍为标准,值大于上四分位+1.5*IQR为异常值,值小于"下四分位-1.5*IQR"为异常值;
D项:对一个对称性分布数据,中位数必然等于第三四分位数与第一四分位数的算术平均数,选项描述前提条件不完整,故选D。
5.以下选项中哪个是numpy库中的拼接函数(B)。
A.join()
B.concatenate()
C.concat()
D.merge()
解析:
join()方法、concat() 方法和merge()方法都是属于pandas库中的拼接函数;concatenate()方法属于numpy库中的拼接的方法,除此之外numpy库中拼接的方法还有np.append() 、np.stack()、 np. Hstack()、np.vstack()和np.vstack()等操作。