python pandas常用功能和dataFrame数据筛选方法记录

Pandas一些常用功能:

# 合并dataFrame并重置index
pd.concat([df1, df2], ignore_index=True)
# 读pickle文件,指定压缩
df = pd.read_pickle("/xxx/df.pkl", compression='gzip')
# 去重
df.drop_duplicates()
# 输出到excel、pickle
df.to_excel("/xxx/df.xlsx", index=False)
df.to_pickle("/xxx/df.pkl", compression='gzip')

pandas DataFrame筛选数据的常用方法:

提取dataFrame中的某两列数据,
条件为:某列数据符合name的,并设置其中一列数据为index(这样就变成了Series)
df = df[['START_TIME', 'VALUE_CALC']][(df['NE_NAME'] == name)].set_index('START_TIME')

新生成的Series是datetimeIndex,支持切片筛选
df = df[pastday:yesterday]

获取index转成list 
X = list(df.index)

获取values转成list
Y = list(['VALUE_CALC'])

多个筛选dataFrame的条件可以用 & | 连接,将每个条件用()括起来
提取df中 起始时间列 >=start(日期时间字符串)\
并且 结束时间列 <=end(日期时间字符串)\
并且 名字列 中所有在namelist中的数据
(.isin()方法:传入一个list,筛选出列中符合list中元素的所有行,这里namelist是列表[])
df[(df['START_TIME'] >= start) & (df['END_TIME'] <= end) & (df['NE_NAME'].isin(namelist))]

你可能感兴趣的:(pandas,python)