数据分析02——数据清洗及特征处理

数据分析02——数据清洗及特征处理

查看数据

.info()

打印 DataFrame 的简要摘要,显示有关 DataFrame的信息,包括索引的数据类型dtype和列的数据类型dtype,非空值的数量和内存使用情况。
df.info

.isnull()

  • df.isnull()来判断缺失值
  • df.isnull().sum()统计缺失值个数

显示所需列的数据信息

df[['Age','Cabin','Embarked']]

缺失值处理——dropna函数与fillna函数

.dropna()

.dropna(axis=0, how='any', thresh=None, subset=None, inplace=False)[source]
  • 默认滤除所有包含NaN
  • 传入how=‘all’滤除全为NaN的行,传入axis=1滤除列
  • 传入thresh=n保留至少有n个非NaN数据的行
df[df['Age']==None]=0

df[df['Age'].isnull()] = 0

df[df['Age'] == np.nan] = 0

df.dropna()
# 把缺失值替换为0

.fillna()

DataFrame.fillna(value=None, method=None, axis=None, inplace=False, limit=None, downcast=None)
df.fillna(0)
# 把缺失值替换为0

参数

value :用来填充缺失值的值

inplace参数的取值:True、False

True:直接修改原对象

False:创建一个副本,修改副本,原对象不变(缺省默认)

method参数的取值:
{‘backfill’, ‘bfill’, ‘pad’, ‘ffill’, None}, default None
method = ‘ffill’/‘pad’:用前一个非缺失值去填充该缺失值;
method = ‘bfill’/‘backfill’:用下一个非缺失值填充该缺失值;

axis参数的取值:
{0 or ‘index’, 1 or ‘columns’}
沿其填充缺失值的轴。

limit参数:限制填充个数

查看数据重复值

DataFrame.duplicated(subset=None, keep='first')

subset:

  • 如果你认为几个字段重复,则数据重复,就把那几个字段以列表形式放到subset后面。默认是所有字段重复为重复数据。

keep:

  • 默认为’first’ ,也就是如果有重复数据,则第一条出现的定义为False,后面的重复数据为True。
  • 如果为’last’,也就是如果有重复数据,则最后一条出现的定义为False,后面的重复数据为True。
  • 如果为False,则所有重复的为True
# 检测重复值
df.duplicated()
#查看重复值
df[df.duplicated()]

去重——drop_duplicates()

df.drop_duplicates(subset=['A','B','C'],keep='first',inplace=True)

参数说明如下:

  • subset:表示要进去重的列名,默认为 None。
  • keep:有三个可选参数,分别是 first、last、False,默认为 first,表示只保留第一次出现的重复项,删除其余重复项,last 表示只保留最后一次出现的重复项,False 则表示删除所有重复项。
  • inplace:布尔值参数,默认为 False 表示删除重复项后返回一个副本,若为 Ture 则表示直接在原数据上删除重复项。

分箱(离散化)处理

分箱操作:将连续数据转换为分类对应物的过程

pd.cut()

pandas.cut(x, bins, right=True, labels=None, retbins=False, precision=3, include_lowest=False, duplicates='raise', ordered=True)

x:分箱时输入的数组,必须为一位数组
bins:分类依据的标准,可以是int、标量序列或间隔索引(IntervalIndex)
right:是否包含bins区间的最右边,默认为True,最右边为闭区间,False则不包含
labels:要返回的标签,和bins的区间对应
retbins:是否返回bins,当bins作为标量时使用非常有用,默认为False
precision:精度,int类型
include_lowest:第一个区间是否为左包含(左边为闭区间),默认为False,表示不包含,True则包含
duplicates:可选,默认为{default ‘raise’, ‘drop’},如果 bin 边缘不是唯一的,则引发 ValueError 或删除非唯一的。
ordered:默认为True,表示标签是否有序。如果为 True,则将对生成的分类进行排序。如果为 False,则生成的分类将是无序的(必须提供标签)

  • 连续变量Age平均分箱成5个年龄段,并分别用类别变量12345表示
df['AgeBand']=pd.cut(df['Age'],bins=5,labels=[1,2,3,4,5])
  • 将连续变量Age划分为[0,5) [5,15) [15,30) [30,50) [50,80)五个年龄段,并分别用类别变量12345表示
df['AgeBand']=pd.cut(df['Age'],bins=[0,5,15,30,50,80],labels=[1,2,3,4,5])

pd.qcut()

pandas.qcut(x, q, labels=None, retbins=False, precision=3, duplicates='raise')

x :一维数组或者Serise

q : 表示分位数的整数或者数组,

  • 如果是分位数的整数,例如10用于十分位,4用于四分位
  • 如果是分位数数组,例如[0,0.25,0.5,0.75,1]用于四分位数

labels : 数组或者布尔值,默认为none,用于指定每个箱体的标签

  • 如果是数组,长度要与分箱个数一致,比如用四分位数分箱,需要指定四个标签
  • 如果为False,则仅返回分箱的整数指示符,即当前数据位于哪个箱子中

rebines :布尔值,可选。 是否显示分箱的分界值。(由于是按照分位数进行分箱,在不知道分位数具体数值的情况下,可以通过这个参数设置显示分界值即分位数的具体数值)

precision:整数,默认3,存储和显示分箱标签的精度。

duplicates:如果分箱临界值不唯一,则引发ValueError或丢弃非唯一

  • 将连续变量Age按10% 30% 50% 70% 90%五个年龄段,并用分类变量12345表示
df['AgeBand'] = pd.qcut(df['Age'],[0,0.1,0.3,0.5,0.7,0.9],labels = [1,2,3,4,5])

查看类别文本变量名及种类

  • value_counts
df['Sex'].value_counts()
  • unique
df['Sex'].unique()

转换文本变量

  • 方法一: replace
df['Sex_num'] = df['Sex'].replace(['male','female'],[1,2]
  • 方法二: map
df['Sex_num'] = df['Sex'].map({'male': 1, 'female': 2})
df.head()
  • 方法三: 使用sklearn.preprocessing的LabelEncoder
from sklearn.preprocessing import LabelEncoder
for feat in ['Cabin', 'Ticket']:
    lbl = LabelEncoder()  
    label_dict = dict(zip(df[feat].unique(), range(df[feat].nunique())))
    df[feat + "_labelEncode"] = df[feat].map(label_dict)
    df[feat + "_labelEncode"] = lbl.fit_transform(df[feat].astype(str))

df.head()

特征提取

Series.str.extract(self,pat,flags = 0,expand = True

pat : str

具有捕获组的正则表达式模式。

flags : int,默认为0(无标志)

来自re模块的标志,例如re.IGNORECASE,修改正则表达式匹配,例如大小写,空格等。有关详细信息,请参阅re。

expand : bool,默认为True

如果为True,则返回DataFrame,每个捕获组一列。如果为False,如果有一个捕获组,则返回系列/索引;如果有多个捕获组,则返回DataFrame。

你可能感兴趣的:(Data,analysis,数据分析,python,pandas)