空值一般表示数据未知、不适用或将在以后添加数据。缺失值是指数据集中某个或某些属性的值是不完整的。
一般空值使用None表示,缺失值使用NaN表示
可以判断数据集中是否存在空值和缺失值
pandas . isnull(obj)
pandas . notnull(obj)
notnull()与 isnull()函数的功能是一样的,都可以判断数据中是否存在空值或缺失值,不同处在于,前者发现数据中有空值或缺失值时返回False,后者返回的是True.
对缺失值进行删除和填充。
axis:确定过滤行或列
how:确定过滤的标准,默认是‘any’
inplase::False=不修改对象本身
value:用于填充的数值,
method:表示填充方式,默认值为None,‘ffill’前填充,‘bfill’后填充
limit:可以连续填充的最大数量,默认None.
当数据中出现了重复值,在大多数情况下需要进行删除。
duplicated()方法用于标记是否有重复值。
drop_duplicates()方法用于删除重复值。
它们的判断标准是一样的,即只要两条数中所有条目的值完全相等,就判断为重复值。
subset:用于识别重复的列标签或列标签序列,默认识别所有的列标签。
keep:删除重复项并保留第一次出现的项取值可以为 first、last或 False
duplicated()方法用于标记 Pandas对象的数据是否重复,重复则标记为True,不重复则标记为False,所以该方法返回一个由布尔值组成的Series对象,它的行索引保持不变,数据则变为标记的布尔值
(1)只有数据表中两个条目间所有列的内容都相等时,duplicated()方法才会判断为重复值。
(2)duplicated()方法支持从前向后( first)和从后向前(last)两种重复值查找模式,默认是从前向后查找判断重复值的。换句话说,就是将后出现的相同条目判断为重复值。
2 上述方法中, inplace参数接收一个布尔类型的值,表示是否替换原来的数据,默认为False.
异常值是指样本中的个别值,其数值明显偏离它所属样本的其余观测值,这些数值是不合理的或错误的。
3σ原则是基于正态分布的数据检洳而箱形图没有什么严格的要求,可以检测任意一组数据,
是指假设一组检测数据只含有随机误差,对其进行计算处理得到标准偏差,按一定概率确定一个区间,凡是超过这个区间的误差都是粗大误差,在此误差的范围内的数据应予以剔除。
数值几乎全部集中在(μ-3σ,μ+3σ)]区间内,超出这个范围的可能性仅占不到0.3%.所以,凡是误差超过这个区间的就属于异常值,应予以剔除
def three_sidma(ser):# ser 为数据的列
mean_value=ser.mean()# 平均值
std_value=ser.std()# 标准值
rule=(ser<mean_value-3*std_value)|(ser>mean_value+3*std_value)
index=np.arange(ser.shape[0])[rule]
outrange=ser.iloc[index]
return outrange
箱开图是一种用作显示一组数据分散情况的统计图。在箱形图中,异常值通常被定义为小于QL-15QR或大于QU+1.5IQR的值。
(1)QL称为下四分位数,表示全部观察中四分之一的数据取值比它小
(2)QU称为上四分位数,表示全部观察值中有四分之一的数据取值比它大
(3)IQR称为四分位数间距,是上四分位数0与下四分位数则之差,其间包含了全部观察值的一半。
离散点表示的是异常值,上界表示除异常值以外数据中最大值;下界表示除异常值以外数据中最小值。
boxplot()方法,专门用来绘制箱形图。
检测出异常值后,通常会采用如下四种方式处理这些异常值
a)直接将含有异常值的记录删除。
b)用具体的值来进行替换,可用前后两个观测值的平均值修正该异常值
c)不处理,直接在具有异常值的数据集上进行统计分析
d)视为缺失值,利用缺失值的处理方法修正该异常值。
如果希望对异常值进行修改,则可以使用replace()方法进行替换,该方法不仅可以对单个数据进行替换,也可以多个数据执行批量替换操作。
to_replace:表示查找被替换值的方式
value:用来替换任何匹配 to_replace的值,默认值None.
在处理数据时,可能会遇到数据类型不一致的问题。例如,通过爬虫采集到的数据都是整型的数据,在使用数据时希望保留两位小数点,这时就需要将数据的类型转换成浮点型。
创建 Pandas数据对象时,如果没有明确地指出数据的类型,则可以根据传入的数据推断出来并且通过 dtypes属性进行查看。
dtype:表示数据的类型。
errors:错误采取的处理方式,可以取值为 raise或 ignore.其中, raise表示允许引发异常ignore表示抑制异常,默认为 raise.
astype()方法存在着一些局限性,只要待转换的数据中存在非数字以外的字符,在使用 astype()方法进行类型转换时就会出现错误,而to_numeric()函数的出现正好解决了这个问题。
arg:表示要转换的数据,可以是list、tuple、 Series.
errors:表示错误采取的处理方式。
concat()函数可以沿着一条轴将多个对象进行堆叠,其使用方式类似数据库中的数据表合并。
axis:
表示连接的轴向,可以为0或1,默认为0
join:
表示连接的方式,inner表示内连接, outer表示外连接默认使用外连接。
i gnore_index:
如果设置为True,清除现有索引并重置索引值。
names:
结果分层索引中的层级的名称。
根据轴方向的不同,可以将堆叠分成横向堆叠与纵向堆叠,默认采用的是纵向堆叠方式。
在堆叠数据时,默认采用的是外连接(join参数设为 outer)的方式进行合并,当然也可以通过join=inner设置为内连接的方式。
主键合并类似于关系型数据库的连接方式,它是指根据个或多个键将不同的 DataFrame对象连接起来,大多数是将两个 DataFrame对象中重叠的列作为合并的键。
left:
参与合并的左侧 DataFrame对象。
right:
参与合并的右侧 DataFrame对象。
how:
表示连接方式,默认为 inner。
left:使用左侧的 DataFrame的键,类似SQL的左外连接
right:使用右侧的 DataFrame的键,类似SQL的右外连接
outer:使用两个 DataFrame所有的键,类似SQL的全连接。
inner:使用两个 DataFrame键的交集,类似SQL的内连接
在使用 merge()函数进行合并时,默认会使用重叠的列索引做为合并键,并采用内连接方式合并数据,即取行索引重叠的部分。
merge()函数还支持对含有多个重叠列的 Data frame对象进行合并。
使用外连接的方式将 left与right进行合并时,列中相同的数据会重叠,没有数据的位置使用NaN进行填充。
join()方法能够通过索引或指定列来连接多个DataFrame对象
on:
名称,用于连接列名。
how:
可以从{‘left‘,’right’,’ outer‘,‘inner’}中任选一个,默认使用左连接的方式。
sort:
根据连接键对合并的数据进行排序,默认为 False.
当DataFrame对象中出现了缺失数据,而我们希望使用其他 DataFrame对象中的数据填充缺失数据,则可以通过 combine_first()方法为缺失数据填充。
上述方法中只有一个参数 other,该参数用于接收填充缺失值的 DataFrame对象。
注意:
使用combine_first()方法合并两个DataFrame对象时,必须确保它们的行索引和列索引有重叠的部分
Pandas中重塑层次化索引的操作主要是 stack()方法和 unstack()方法,前者是将数据的列“旋转”为行,后者是将数据的行“旋转”为列。
stack()方法可以将数据的列索引转换为行索引。
level:
默认为-1,表示操作内层索引。若设为0,表示操作外层索引。
dropna:
表示是否将旋转后的缺失值删除,若设为True,则表示自动过滤缺失值,设置为 False则相反。
unstack()方法可以将数据的行索引转换为列索引
level:
默认为-1,表示操作内层索引,0表示操作外层索引。
fill_value:
若产生了缺失值,则可以设置这个参数用来替换NaN。
在 Pandas中pivot()方法提供了这样的功能,它会根据给定的行或列索引重新组织一个 DataFrame对象。
index:
用于创建新 DataFrame对象的行索引。
columns:
用于创建新 DataFrame对象的列索引
values:
用于填充新 DataFrame对象中的值。
Pandas中提供了一个rename()方法来重命名个别列索引或行索引的标签或名称。
index,columns:
表示对行索引名或列索引名的转换。
inplace:
默认为False,表示是否返回新的Pandas对象。
Pandas 的 cut ()函数能够实现离散化操作。
x:
表示要分箱的数组,必须是一维的。
bins:
接收int和序列类型的数据。(序列划分区间)
right:
是否包含右端点,决定区间的开闭,默认为True。
cut()函数会返回一个Categorical对象,我们可以将其看作一组表示 面元名称 的字符串,它包含了分组的数量以及不同分类的名称。
Categories对象中的区间范围跟数学符号中的“区间”一样,都是用圆括号表示开区间,用方括号则表示闭区间。
ages=[18,22,25,27,21,23,37,31,60,45,82]
bins=[0,18,25,50,60,100] # bins是一个序列,划分区间
cuts=pd.cut(ages,bins)
cuts
设置左闭右开区间,则可以在调用cut()函数时传入right=False进行修改。
# 如果希望设置左右开区间,则可以在调用cut函数时传入right= False进行修改。
pd.cut(ages,bins=bins,right=False)
# 可以在调用cut函数时指定labels= 用干生成区间的标签
pd.cut(ages,bins=bins,labels=['少年','青年','中年','中老年','老年'])
在Pandas中,可以使用get_dummies()函数对类别特征进行哑变量处理.
data:
表示哑变量处理的数据。
prefix:
表示列名的前缀,默认为None。(‘col’)
prefix_sep:
用于附加前缀作为分隔符使用,默认为“_”。
哑变量又称应拟变量,名义变量,从名称上看就知道,它是人为虚设的变量,用来反映某个交量的不间类别
使用哑变最处理类别转换,事实上就是将分类变量转换为哑变最矩阵或指标矩阵,矩阵的值通常用“0”或“1”表示
df1=pd.DataFrame({'职业':['工人','学生','司机','教师','导游']})
# get_dummies()对类别特进行哑变量处理
pd.get_dummies(df1)
pd.get_dummies(df1,prefix=['col'])
ret=pd.cut(ages,bins=bins,right=False,
labels=['少年','青年','中年','中老年','老年'])
pd.get_dummies(ret,prefix='年龄类别',prefix_sep=':')