GitHub的链接:pandas_excercise_github
仅摘录不熟练的语句,详细内容请查看上述链接
介绍 pandas 中几个常用的函数和属性
df.head()
df.tail()
df.shape
df.info
df.columns
df.index
df.groupby([])
df.sort_value(['column_name_1', 'column_name_2'], ascending)
df.column_name.dtype
df.column_name.value_counts().count()
df.column_name.nunique()
df.describe()
df.values[i][j]
lambda 表达式:
dollarizer = lambda x: float(x[-1:1])
chipo.item_price = chipo.item_price.apply(dollarizer)
删除重复的条目
df.drop_duplicates(['item_name', 'quantity'])
筛选
df = df[(df.column_name == 'condition') & (df.column_name > 'condition2')]
df = df[['column_name_1', 'column_name_2', 'column_name_3']]
df[df.column_name.str.startswith('G')] # 筛选出头字母为G的文字
df.iloc[:, 0:7] # df.iloc 只接受数字
df.loc[df.column_name.isin(['']), ['column_name_1', 'column_name_2']] # df.loc[conditions] 只匹配value 符合conditions的行
df.columns.get_loc('column_name') # 返回column_name 的列号
df.agg(['function_name1', 'function_name2'])
pd.to_datetime('column_name', format='') # 将某一列转化为数值
df.set_index() # 设置索引
df.resample('10AS') # resample方法必须以时间为index
pd.concat([df1, df2], axis=0)
pd.merge(left_df, right_df, on='key', how='inner')
df.rename(columns = {old_colunm_name: new_column_name}, inplace=True)
Series_object.to_frame()
pd.read_table(file, sep='', parse_dates=[[0,1,2]]) # 将原来的三列转化成日期数据
pd.to_date(df.column_name) # 将日期列转化成日期数据
pd.isnull.sum()
pd.notnull.sum()
pd.fillna(0).values.flatten()
pd.groupby(df.column_name.to_period(para)) # para: A:年 M:月 W:星期