pandas使用笔记

日常使用遇到的一些遗忘点
持续更新…

更新计划:

Mon 11 Mon 18 Mon 25 April Mon 08 Mon 15 开始 中期 结束 现有任务 pandas 使用笔记更新计划



日期 信息点 说明
2019-03-08 data = pd.read_excel(‘ab.xls’, date_parser=[1]) 第一列按照时间格式读取
2019-03-12 data.to_csv(’./a/{}’.format(i), index=0) 不保存索引列:连接
2019-03-12 df.rename(columns={‘A’:‘a’},inplace=True) 修改列名
2019-03-14 DataFrame.drop_duplicates(subset=None, keep=‘first’, inplace=False) 注意:Only consider certain columns for identifying duplicates, by default use all of the columns
2019-03-14 pd.to_datetime().format(’%m–>%H:%M’) 定制化的输出格式, 和pd.to_datetime(a, format=’%Y-’) 一样
2019-03-15 data[data.temp_interval<-2] = 0 不能使用 data[data.temp_interval<-2][temp_interval]= 0。这个是符合条件的行全部改变元素值为零(其中python2和python3不同版本pandas在datetime格式上的处理有所不同)Link
2019-03-18 pd.concat 类似于np.concatenate, 更加灵活, 发现行列更加自由, 可完全不相等、可以重复列名、索引名
2019-03-18 pd.sort_values sort_values 慎用, 该函数只对指定列进行排序,其余未指定列不排序, 与之相似的sort_index 通过index对全局进行排序
2019-03-19 data = pd.read_excel(‘清华大学深圳研究生院.xls’, parse_dates=[0, 1, 2]) 对0, 1, 2列进行日期格式解析。注意与 date_parser 区分,
2019-03-20 np.percentile 百分位数 Link
2019-03-20 pandas.Series.quantile 百分位数默认50%
2019-03-20 numpy中std()默认的是计算总体样本方差(除以n) Pandas中std()默认的是计算样本方差(除以n-1) :ddof=0——>总体 ddof=1——>样本Link
2019-03-26 pandas特定位置插入一列 Link
2019-04-08 ret_df[[‘currentTemp’, ‘time’]] = ret_df[[‘currentTemp’, ‘time’]].astype(int) 改类型
2019-04-15 s.where b.a.where(b.a > 3, 5, inplace=True) a列中大于3的数改成5

你可能感兴趣的:(应用,理论)