目录
一、pandas读取操作
二、基本数据结构
1. Series
2. DataFrame
三、常用基本函数
1. head和tail
2. unique和nunique
3. count和value_counts
1、读取csv格式
这里只是注意下文件的相对路径
df = pd.read_csv('data/table.csv')
df.head()
2、读取txt 格式
df_txt = pd.read_table('data/table.txt') #可设置sep分隔符参数
df_txt
3、xls或xlsx格式
#需要安装xlrd包
df_excel = pd.read_excel('joyful-pandas/data/table.xlsx')
df_excel.head()
4.写入数据操作
(1)csv格式
df.to_csv('data/new_table.csv')
#df.to_csv('data/new_table.csv', index=False) #保存时除去行索引
(2) xls或xlsx格式
#需要安装openpyxl
df.to_excel('data/new_table2.xlsx', sheet_name='Sheet1')
(a)创建一个Series
对于一个Series,其中最常用的属性为值(values),索引(index),名字(name),类型(dtype)
s = pd.Series(np.random.randn(5),index=['a','b','c','d','e'],name='这是一个Series',dtype='float64')
s
(b)访问Series属性
s.values
上面介绍就是一些基本的方法
(a)创建一个DataFrame
df = pd.DataFrame({'col1':list('abcde'),'col2':range(5,10),'col3':[1.3,2.5,3.6,4.6,5.8]},
index=list('一二三四五'))
df
(b)从DataFrame取出一列为Series
df['col1']
(c)修改行或列名
df.rename(index={'一':'one'},columns={'col1':'new_col1'})
(d)调用属性和方法
df.index
df.columns
df.columns
(e)列的删除与添加
对于删除而言,可以使用drop函数或del或pop
df.drop(index='五',columns='col1') #设置inplace=True后会直接在原DataFrame中改动
可以直接增加新的列,也可以使用assign方法
df1['B']=list('abc')
df1
使用assign方法增加
df1.assign(C=pd.Series(list('def')))
从下面开始,包括后面所有章节,我们都会用到这份虚拟的数据集
df = pd.read_csv('data/table.csv')
nunique显示有多少个唯一值
count返回非缺失值元素个数
value_counts返回每个元素有多少个
上面介绍的都是关于pandas的基础知识,里面涉及到的代码和数据集我已经上传到github上,具体请访问 pandas_01基础知识代码。