【Pandas 新手练习题】

Pandas 新手练习题

GitHub的链接:pandas_excercise_github
仅摘录不熟练的语句,详细内容请查看上述链接

1、得到和认识你的数据

介绍 pandas 中几个常用的函数和属性

df.head()
df.tail()
df.shape
df.info
df.columns
df.index
df.groupby([])
df.sort_value(['column_name_1', 'column_name_2'], ascending)
df.column_name.dtype
df.column_name.value_counts().count()
df.column_name.nunique()
df.describe()
df.values[i][j]

lambda 表达式:

dollarizer = lambda x: float(x[-1:1])
chipo.item_price = chipo.item_price.apply(dollarizer)

2、筛选和排序数据

删除重复的条目

df.drop_duplicates(['item_name', 'quantity'])

筛选

df = df[(df.column_name == 'condition') & (df.column_name > 'condition2')]
df = df[['column_name_1', 'column_name_2', 'column_name_3']]
df[df.column_name.str.startswith('G')]  # 筛选出头字母为G的文字
df.iloc[:, 0:7]  # df.iloc 只接受数字
df.loc[df.column_name.isin(['']), ['column_name_1', 'column_name_2']]  # df.loc[conditions] 只匹配value 符合conditions的行
df.columns.get_loc('column_name')  # 返回column_name 的列号

3、分组

df.agg(['function_name1', 'function_name2'])

4、应用

pd.to_datetime('column_name', format='')  # 将某一列转化为数值
df.set_index()  # 设置索引
df.resample('10AS')  # resample方法必须以时间为index

5、拼接

pd.concat([df1, df2], axis=0)
pd.merge(left_df, right_df, on='key', how='inner')
df.rename(columns = {old_colunm_name: new_column_name}, inplace=True)
Series_object.to_frame()

6、统计

pd.read_table(file, sep='', parse_dates=[[0,1,2]])  # 将原来的三列转化成日期数据
pd.to_date(df.column_name)  # 将日期列转化成日期数据
pd.isnull.sum()
pd.notnull.sum()
pd.fillna(0).values.flatten()
pd.groupby(df.column_name.to_period(para))  # para: A:年 M:月 W:星期

你可能感兴趣的:(Python)