01_pandas基础

目录

 

一、pandas读取操作

二、基本数据结构

1. Series

2. DataFrame

三、常用基本函数

1. head和tail

2. unique和nunique

3. count和value_counts


一、pandas读取操作

1、读取csv格式

这里只是注意下文件的相对路径

df = pd.read_csv('data/table.csv')
df.head()

2、读取txt 格式

df_txt = pd.read_table('data/table.txt') #可设置sep分隔符参数
df_txt

3、xls或xlsx格式

#需要安装xlrd包
df_excel = pd.read_excel('joyful-pandas/data/table.xlsx')
df_excel.head()

4.写入数据操作

(1)csv格式

 

df.to_csv('data/new_table.csv')
#df.to_csv('data/new_table.csv', index=False) #保存时除去行索引

   (2) xls或xlsx格式

#需要安装openpyxl
df.to_excel('data/new_table2.xlsx', sheet_name='Sheet1')

二、基本数据结构

1. Series

(a)创建一个Series

对于一个Series,其中最常用的属性为值(values),索引(index),名字(name),类型(dtype)

s = pd.Series(np.random.randn(5),index=['a','b','c','d','e'],name='这是一个Series',dtype='float64')
s

(b)访问Series属性

s.values

 上面介绍就是一些基本的方法

2. DataFrame

(a)创建一个DataFrame

df = pd.DataFrame({'col1':list('abcde'),'col2':range(5,10),'col3':[1.3,2.5,3.6,4.6,5.8]},
                 index=list('一二三四五'))
df

(b)从DataFrame取出一列为Series

df['col1']

(c)修改行或列名

df.rename(index={'一':'one'},columns={'col1':'new_col1'})

(d)调用属性和方法

df.index
df.columns
df.columns

(e)列的删除与添加

对于删除而言,可以使用drop函数或del或pop

df.drop(index='五',columns='col1') #设置inplace=True后会直接在原DataFrame中改动

可以直接增加新的列,也可以使用assign方法

df1['B']=list('abc')
df1

使用assign方法增加 

df1.assign(C=pd.Series(list('def')))

三、常用基本函数

从下面开始,包括后面所有章节,我们都会用到这份虚拟的数据集

df = pd.read_csv('data/table.csv')

1. head和tail

01_pandas基础_第1张图片

01_pandas基础_第2张图片 

2. unique和nunique

nunique显示有多少个唯一值

3. count和value_counts

count返回非缺失值元素个数

value_counts返回每个元素有多少个 

01_pandas基础_第3张图片

上面介绍的都是关于pandas的基础知识,里面涉及到的代码和数据集我已经上传到github上,具体请访问 pandas_01基础知识代码。

你可能感兴趣的:(01_pandas基础)