df.info
df.isnull()
来判断缺失值df.isnull().sum()
统计缺失值个数df[['Age','Cabin','Embarked']]
.dropna(axis=0, how='any', thresh=None, subset=None, inplace=False)[source]
df[df['Age']==None]=0
df[df['Age'].isnull()] = 0
df[df['Age'] == np.nan] = 0
df.dropna()
# 把缺失值替换为0
DataFrame.fillna(value=None, method=None, axis=None, inplace=False, limit=None, downcast=None)
df.fillna(0)
# 把缺失值替换为0
参数
value
:用来填充缺失值的值
inplace
参数的取值:True、FalseTrue:直接修改原对象
False:创建一个副本,修改副本,原对象不变(缺省默认)
method
参数的取值:
{‘backfill’, ‘bfill’, ‘pad’, ‘ffill’, None}, default None
method = ‘ffill’/‘pad’:用前一个非缺失值去填充该缺失值;
method = ‘bfill’/‘backfill’:用下一个非缺失值填充该缺失值;
axis
参数的取值:
{0 or ‘index’, 1 or ‘columns’}
沿其填充缺失值的轴。
limit
参数:限制填充个数
DataFrame.duplicated(subset=None, keep='first')
subset:
keep:
# 检测重复值
df.duplicated()
#查看重复值
df[df.duplicated()]
df.drop_duplicates(subset=['A','B','C'],keep='first',inplace=True)
参数说明如下:
分箱操作:将连续数据转换为分类对应物的过程
pandas.cut(x, bins, right=True, labels=None, retbins=False, precision=3, include_lowest=False, duplicates='raise', ordered=True)
x:分箱时输入的数组,必须为一位数组
bins:分类依据的标准,可以是int、标量序列或间隔索引(IntervalIndex)
right:是否包含bins区间的最右边,默认为True,最右边为闭区间,False则不包含
labels:要返回的标签,和bins的区间对应
retbins:是否返回bins,当bins作为标量时使用非常有用,默认为False
precision:精度,int类型
include_lowest:第一个区间是否为左包含(左边为闭区间),默认为False,表示不包含,True则包含
duplicates:可选,默认为{default ‘raise’, ‘drop’},如果 bin 边缘不是唯一的,则引发 ValueError 或删除非唯一的。
ordered:默认为True,表示标签是否有序。如果为 True,则将对生成的分类进行排序。如果为 False,则生成的分类将是无序的(必须提供标签)
例
df['AgeBand']=pd.cut(df['Age'],bins=5,labels=[1,2,3,4,5])
df['AgeBand']=pd.cut(df['Age'],bins=[0,5,15,30,50,80],labels=[1,2,3,4,5])
pandas.qcut(x, q, labels=None, retbins=False, precision=3, duplicates='raise')
x :一维数组或者Serise
q : 表示分位数的整数或者数组,
- 如果是分位数的整数,例如10用于十分位,4用于四分位
- 如果是分位数数组,例如[0,0.25,0.5,0.75,1]用于四分位数
labels : 数组或者布尔值,默认为none,用于指定每个箱体的标签
- 如果是数组,长度要与分箱个数一致,比如用四分位数分箱,需要指定四个标签
- 如果为False,则仅返回分箱的整数指示符,即当前数据位于哪个箱子中
rebines :布尔值,可选。 是否显示分箱的分界值。(由于是按照分位数进行分箱,在不知道分位数具体数值的情况下,可以通过这个参数设置显示分界值即分位数的具体数值)
precision:整数,默认3,存储和显示分箱标签的精度。
duplicates:如果分箱临界值不唯一,则引发ValueError或丢弃非唯一
df['AgeBand'] = pd.qcut(df['Age'],[0,0.1,0.3,0.5,0.7,0.9],labels = [1,2,3,4,5])
df['Sex'].value_counts()
df['Sex'].unique()
df['Sex_num'] = df['Sex'].replace(['male','female'],[1,2]
df['Sex_num'] = df['Sex'].map({'male': 1, 'female': 2})
df.head()
from sklearn.preprocessing import LabelEncoder
for feat in ['Cabin', 'Ticket']:
lbl = LabelEncoder()
label_dict = dict(zip(df[feat].unique(), range(df[feat].nunique())))
df[feat + "_labelEncode"] = df[feat].map(label_dict)
df[feat + "_labelEncode"] = lbl.fit_transform(df[feat].astype(str))
df.head()
Series.str.extract(self,pat,flags = 0,expand = True )
pat : str
具有捕获组的正则表达式模式。
flags : int,默认为0(无标志)
来自re模块的标志,例如re.IGNORECASE,修改正则表达式匹配,例如大小写,空格等。有关详细信息,请参阅re。
expand : bool,默认为True
如果为True,则返回DataFrame,每个捕获组一列。如果为False,如果有一个捕获组,则返回系列/索引;如果有多个捕获组,则返回DataFrame。