Pandas的学习笔记

pandans可以用于数据处理

#引用numpy和pands
import pandas as pd
import numpy as ny
import os

#读取数据
train = pd.read_csv('train.csv')

逐块的读取数据

pd.read_csv('train.csv',chunksize = 1000)

更改表头

#必须与原表头一一对应
train.columns = ['xxx','xxx',......,'xxx']

保存数据

train.to_csv('train_test.csv',encoding='utf_8_sig') 

在这里必须加上encoding='utf_8_sig',在Excel中的中文才不会乱码,至今不知道为什么,希望有人能帮解答。

接下来是简单的数据观察

两个重要数据类型DateFrameSeries

查看DataFrame数据的每列的名称

DataFrame.columns.values.tolist()

索引的方法分为两种

iloc是根据行号来索引,loc是根据index来索引。

筛选的逻辑

train_1 = train.reset_index(drop=True)

因为筛选过后,需要重置索引所以需要reset——index

数据的分析

#行索引升序排序
DateFrame.sort_index()
#列索引升序排序
DateFrame.sort_index(axis=1)
#列索引降序排序
DateFrame.sort_index(axis=1,ascending=False)
#任选两列数据同时降序排序
DateFrame.sort_values(by = ['b','a'],ascending = False)
#frame1_b 和 frame1_a 相加生成新数据
new_frame = frame1_b + frame1_a

你可能感兴趣的:(pandas,python)