第5章 使用pandas进行数据预处理 课后习题

1.选择题
(1)数据质量包含的要素有(D)
A.准确性、完整性
B.一致性、可解释性
C.时效性、可信性
D.以上所有要素
(2)以下关于数据分析预处理的过程描述正确的是©
A.数据清洗包括了数据标准化、数据合并和缺失值处理
B.数据合并按照合并轴方向主要分为左连接、右连接、内连接和外连接
C.数据分析的预处理过程主要包括数据清洗、数据合并、数据标准化和数据转换,他们之间存在交叉,没有严格的先后关系
D.数据标准化的主要对象是类别型的特征
(3)有一份数据,需要查看数据的类型,并将部分数据做强制类型转换,以及对数值型数据做基本的描述型分析。下列的步骤和方法正确的是(A)
A.dtypes查看类型,astype转换类别,describe描述性统计
B.astype查看类型,dtypes转换类别,describe描述性统计
C.describe查看类型,astype转换类别,dtypes描述性统计
D.dtypes查看类型,describe转换类别,astype描述性统计
(4)下列关于concat函数、append方法、merge函数和join方法的说法正确的是(D)
A.concat是最常用的主键合并的函数,能够实现内连接和外连接
B.append方法只能用来做纵向堆叠,适用于所有纵向堆叠
C.merge是常用的主键合并的函数,但不能够实现左连接和右连接
D.join是常用的主键合并方法之一,但不能够实现左连接和右连接
(5)以下关于drop_duplicates函数的说法中错误的是(B)
A.仅对DateFrame和Series类型的数据有效
B.仅支持单一特征的数据去重
C.数据重复时默认保留第一个数据
D.该函数不会改变原始数据排列
(6)以下关于缺失值检测的说法中,正确的是(B)
A.null和notnull可以对缺失值进行处理
B.dropna方法既可以删除观测记录,亦可以删除特征
C.fillna方法中用来替换缺失值的值只能是数据库
D.pandas库中的interpolate模块包含了多种插值方法
(7)以下关于异常值检测的说法中错误的是(B)
A.3σ原则利用了统计学中小概率事件的原理
B.使用箱线图方法时要求数据服从或近似正太分布
C.基于聚类的方法可以进行离群点检测
D.基于分类的方法可以进行离群点检测
(8)下列与标准化方法有关的说法错误的是(A)
A.离差标准化简单易懂,对最大值和最小值敏感度不高
B.标准差标准化是最常用的标准化方法,又称零一均值标准化
C.小数定标标准化实质上就是将数据按照一定的比例缩小
D.多个特征的数据的K-Means聚类不需要对数据进行标准化
(9)关于标准差标准化,下列说法中错误的是(B)
A.经过该方法处理后的数据均值为0,标准差为1
B.可能会改变数据的分布情况
C.python中课自定义该方法实现函数
def StandardScaler(data):
data=(data-data.mean())/data.std()
return data
D.计算公式为
在这里插入图片描述
(10)以下关于pandas数据预处理说法正确的是(D)
A.pandas没有做哑变量的函数
B.在不导入其他库的情况下,仅仅使用pandas就可实现聚类分析离散化
C.pandas可以实现所有的数据预处理操作
D.cut函数默认情况下做的是等宽离散法

你可能感兴趣的:(Python数据分析与应用)