# 检查数据中是否含有任何缺失值:
df.isnull().values.any()
# 查看每列数据缺失值:
df.isnull().sum()
# 查看每列非缺失值数:
df.notnull().sum()
df.shape[0] - df.isnull().sum()
# 用上下平均值填充:
df['xxx'] = df['xxx'].fillna(df['xxx'].interpolate())
# df (注意赋值,如果不赋值,原始序列未改变)
# 将缺失值全部替换为1.0:
df.fillna(value =1.0, inplace = True)
# 将某列第10行到19行设置为缺失值:
df.loc[9:18,'xxx'] = np.nan
# 将第三行设置为缺失值:
df.loc[:2] = np.nan
# 删除所有存在缺失值的行:
data.dropna(axis=0, how='any', inplace=True)
# 删除所有有缺失值的行
df.dropna() -- 默认axis=0
# 删除所有有缺失值的列
df.dropna(axis='columns')
df.dropna(axis=1)
# 删除所有值缺失的行
df.dropna(how='all')
# 删除至少有两个非缺失值的行
df.dropna(thresh=2)
# 指定判断缺失值的列范围
df.dropna(subset=['name', 'born'])
# 使删除和的结果生效
df.dropna(inplace=True)
#指定列的缺失值删除
df.toy.dropna()
# drop_duplicates()
df.drop_duplicates(['xxx'])
df.drop(index=[len(df)-1], inplace=True)
# 方法一:字典
df2 = pd.DataFrame({
'grammer':['Perl'],
'popularity':[6.6]
})
df = df.append(df2,ignore_index=True)
df
# 方法二:loc
df.loc[len(df)] = ['Perl',6.6]
# 按照某一列值大小进行排序
df.sort_values(by=['popularity'], ascending=True) #注:ascending:True升序,False降序
# 方法一:round()函数
df.round(3)
# 方法二:map + lambda
df['xxx'] = df['xxx'].map(lambda x : ('%.2f') % x)
# 方法三:map + lambda + format
df['xxx'] = df['xxx'].map(lambda x : format(x, '.2f'))
# 方法一:自定义函数+格式化处理
df['xxx'] = df['xxx'].map(lambda x : format(x, '.2%'))
# 方法二:style + 格式化处理
df.style.format({'xxx' : '{0:.2%}'.format})
# 方法一:
df['xxx'].str.strip('$').astype('float') # 如果该列存美元符号
#方法二:
df['xxx'].apply(lambda x : float(x[1:])
df['xxx'].tolist() #或者to_list()
# 将createTime(第一列)列时间转换为月-日:
for i in range(len(df)):
df.iloc[i,0] = df.iloc[i,0].to_pydatetime().strftime("%m-%d")
df.head()
# 注:采用Timestamp.to_pydatetime()函数将给定的时间戳转换为本地python datetime对象; strftime()
# 用来格式化datetime 对象;
# 参考资料:
# https://vimsky.com/examples/usage/python-pandas-timestamp-to_pydatetime.html
# https://blog.csdn.net/shomy_liu/article/details/44141483
# 方法一:
df['xxx'].astype('datetime64[ns]')
# 方法二:
df.Year = pd.to_datetime(df.Year,format='%Y')
df['xxx'].str.split('_')
df['xxx'].strip('xxx')
# 方法一:apply() + np.sqrt()
df[['xxx']].apply(np.sqrt)
# 方法二:map + math.sqrt()
pd.DataFrame(df['xxx'].map(lambda x : math.sqrt(x)))
# 方法一:max(),min()
df['salary'].max() - df['salary'].min()
# 方法二:apply + lambda
df[['salary']].apply(lambda x : x.max() - x.min())
# 方法三:numpy.ptp()函数
np.ptp(df['salary'])
# apply + 自定义函数
def func(df):
min_max = df['salary'].split('-')
smin = int(min_max[0].strip('k'))
smax = int(min_max[1].strip('k'))
df['salary'] = int((smax + smin) / 2 * 1000)
return df
df = df.apply(func, axis=1)
df
bins = [0, 5000, 20000, 50000]
group_names = ['低', '中', '高']
df['categories'] = pd.cut(df['salary'], bins, labels=group_names)
df
# 注:pandas.cut用来把一组数据分割成离散的区间
只是单纯的把两个表拼接在一起,参数axis是关键,它用于指定合并的轴是行还是列,axis默认是0。
# 将第一行与最后一行拼接:
pd.concat([df[:1], df[-2:-1]])
# 将两个dataframe按列合并:
pd.concat([df,df1], axis=1) # 按行合并,则axis=0
针对同一个主键存在两张不同字段的表,根据主键整合到一张表里面。
# 按照单列合并数据:
pd.merge(df1, df2, on='key1')
# 按照多列合并数据:多列用列表
pd.merge(df1, df2, how='left', on=['key1', 'key2'])
#内外连接合并:
pd.merge(df1, df2, how='outer', on='subject_id') # inner内连接,outer外连接
纵向追加Series/DataFrame
# 将第8行数据添加至末尾:
df.append(df.iloc[7])
主要用于索引上的合并,其参数的意义与merge方法中的参数意义基本一样。该方法最为简单,主要用于索引上的合并
pivot_table(data, values=None, index=None, columns=None,aggfunc='mean', fill_value=None, margins=False, dropna=True, margins_name='All')
最重要的四个参数index、values、columns、aggfunc
相关资料:https://www.cnblogs.com/Yanjy-OnlyOne/p/11195621.html
# 以positionId为索引,生成两列(salary,score)的数据透视表:
df_picotTable = pd.pivot_table(df, values=['salary', 'score'], index='positionId')
# Year:按照每10年分组求和:
df.reshape('10AS').sum()
# day:找到每月最后一日
df.reshape('BM').mean()
(df.index.max() - df.index.min()).days