学习笔记一:pandas读取csv文件并对其中行和列进行操作

pandas读取文件并对其中行和列进行操作

pandas读取csv文件一般用pandas.read_csv(),读取的数据类型为DataFrame。对数据进行操作时分两种情况:有索引,列名和没有索引,列名。

先说第一种:

cwd = os.getcwd() #指定当前工作目录
read_path = 'C:\\Users\\parter\\Downloads\\Modified.csv' #设置读取路径
save_path =  'Downloads'
save_name =  'Modified.csv' #设置储存路径
d = pd.read_csv(read_path) #读取文件及过滤
df = d.dropna(axis=1)
|    date           pow

1 2019-07-25 00:00:00 3367.0
2 2019-07-25 00:15:00 3317.0
3 2019-07-25 00:30:00 3235.0
4 2019-07-25 00:45:00 3165.0
5 2019-07-25 01:00:00 3097.0

提取某列: df[‘列名’]
提取某些行: df [ 1:3 ] #2到4行
也可依据索引选取行: df.loc[索引]
将某列设为索引:df.reset_index(df[‘列名’])
更改列名:df.renames(columns={‘原列名’:‘新列名’})

第二种情况:原文件中不包含索引和列名

2019-07-25 00:00:00 3367
2019-07-25 00:15:00 3317
2019-07-25 00:30:00 3235
2019-07-25 00:45:00 3165
2019-07-25 01:00:00 3097

这种情况是本人学习时碰上的,不知道有没有普遍性。
碰上这种情况,常规方法都不好用,基本都报错。
本人在多次尝试后,找出的解决方法就是在读取时加上索引和列名

dfm = pd.read_csv(read_path,names={'date','pow'}).dropna(axis=0)
dfm.head()

这样一来就可以像第一种情况操作

date	             pow

1 2019-07-25 00:00:00 3367.0
2 2019-07-25 00:15:00 3317.0
3 2019-07-25 00:30:00 3235.0
4 2019-07-25 00:45:00 3165.0
5 2019-07-25 01:00:00 3097.0

你可能感兴趣的:(学习笔记)