pandas是一个开源的python类库:用于数据分析、数据处理、数据可视化。有如下几个特点:
很方便和其他类库一起使用:
安装pandas:pip install pandas
数据类型 | 说明 | pandas读取方法 |
---|---|---|
csv、txt | 用于逗号分割、tab分割的纯文本文件 | pd.read_csv |
excel | 微软xls或者xlsx文件 | pd.read_excel |
mysql | 关系型数据库表 | pd.read_sql |
import pandas as pd
fpath="./bank_marketing_copy.csv"
#使用pd.read_csv读取数据
ratings = pd.read_csv(fpath)
#查看前几行数据
ratings.head()
ratings.shape
ratings.columns
ratings.index
ratings.dtypes
txt_path="./access_pvuv.txt"
pvuv = pd.read_csv(txt_path,sep="\t",header=None,names=['pdate','pv','uv'])
pvuv
excel_path = "./pandasdata/access_pvuv.xlsx"
pvuv = pd.read_excel(excel_path)
pvuv
Series:是一种类似于一维数组的对象,它由一组数据(不同数据类型)以及一组与之相关的数据标签(即索引)组成
import numpy as np
import pandas as pd
s1 = pd.Series([1,'a',5.2,7])
s1
s1.index
s1.values
s2 = pd.Series([1,'a',5.2,7],index=['a','b','c','d'])
s2
sdata = {'zhoujie':8888,'xiaohai':6666,'xiaoming':7777}
s3 = pd.Series(sdata)
s3
类似python的字段dict
s2['a']
s2[['a','b']]
type(s2[['a','b']])
DataFrame是一个表格型的数据结构
data = {
'sdata':['zhoujie','xiaohai','xiaoming']
,'year':[2001,2002,2003]
,'pop':[1.5,1.7,3.6]
}
df = pd.DataFrame(data)
df
df.dtypes
df.columns
df['year']
pandas使用df.loc查询数据的方法
注意