使用Python Pandas库读取excel文件(.xlsx, .xls)。 使用pandas的 read_excel()方法来读取excel数据,可以读取第一个sheet,指定的sheet,多个sheet或所有的sheet。Pandas会将这些数据转化成一个 DataFrame结构,它是一个扁平的结构来的。接着就可以对数据进行数据分析了。
我们使用anaconda3来安装和管理python库。在Anaconda的官方网站下载一个下来安装即可。
Pandas的read_excel方法内部会使用xlrd库。xlrd是一个用于读取excel文件(.xlsx, .xls)的库。使用Anaconda安装xlrd库:
$ conda install xlrd
作为本篇的主角pandas,当然是要安装的了。
$ conda install pandas
默认读取第一张sheet。
import pandas as pd
df = pd.read_excel('sample.xlsx')
print(df)
通过指定read_excel方法的sheet_name参数来指定。可以通过数字来指定是第几张:
import pandas as pd
df_sheet_index = pd.read_excel('sample.xlsx', sheet_name=1)
print(df_sheet_index)
也可以直接指定sheet的名字:
import pandas as pd
df_sheet_name = pd.read_excel('sample.xlsx', sheet_name='sheet2')
print(df_sheet_name)
可以通过数字或名称来指定这几张sheet。
import pandas as pd
df_sheet_multi = pd.read_excel('sample.xlsx', sheet_name=[0, 'sheet2'])
print(df_sheet_multi)
import pandas as pd
df_sheet_all = pd.read_excel('sample.xlsx', sheet_name=None)
print(df_sheet_all)
下一篇《用pandas做数据分析》