使用read_excel()函数实现对excel文件的读取,语法如下:
pandas.read_excel(io, sheet_name=0, header=0, names=None, index_col=None, usecols=None, squeeze=None, dtype=None, engine=None, converters=None, true_values=None, false_values=None, skiprows=None, nrows=None, na_values=None, keep_default_na=True, na_filter=True, verbose=False, parse_dates=False, date_parser=None, thousands=None, decimal='.', comment=None, skipfooter=0, convert_float=None, mangle_dupe_cols=True, storage_options=None)
常用参数说明:
io:接收任何可接受的字符串路径,文件路径。
sheet_name:接收字符串,整数,列表或者None。默认为0。字符串用于工作表名称,整数用于零索引工作表位置(图表工作表不计为工作表位置)。字符串/整数列表用于请求多张工作表,返回的是一个字典。默认0作为DataFrame的第一张工作表。
header:接收整数,整数列表,默认0。把第0行作为每列的列标签。如果没有标题,请使用 None。
names:接收array_like。如果文件不包含标题行,可以将包含列标签的列表传递给names。
index_col:接收整数(列索引),或者整数列表,默认None。使用哪一列作为 DataFrame 的行标签。
usecols:接收整数、字符串、类列表,默认为None。使用哪些列。
dtype:元素类型,使用字典传入 {‘列名1’: np.float64, ‘列名2’: np.int32}
engine:接收字符串,默认None。
nrows:接收整数,默认None。需要读取的行数。
na_values:接收标量、字符串、类列表或者字典,默认为None。以下值会被解释为NaN:
''、'#N/A'、'#N/AN/A'、'#NA'、'-1.#IND'、'-1.#QNAN'、 '-NaN'、'-nan'、'1.#IND'、'1.#QNAN'、''、'N/A'、'NA'、'NULL'、'NaN'、'n /a'、'nan'、'null'
parse_dates:接收布尔值、类列表或者字典,默认为False。
date_parser:函数,可选。用于将字符串列序列转换为日期时间实例数组的函数
返回值:
示例:
game.xlsx文件如图所示:
该文件中共有三个表分别为:Sheet1、will、Sheet3,首先读取Sheet1,代码如下:
data = pd.read_excel('game.xlsx', sheet_name=0, index_col='整体销售排名')
data
# sheet_name=0或者sheet_name='Sheet1'都可以
# 将'整体销售排名'列设置为行索引
读取的数据如图:
也可以同时读取三个表中的数据,代码如下:
data = pd.read_excel('game.xlsx', sheet_name=[0,'will',2])
data
读取的数据被存入在字典中,其中表名为字典的键,表中的数据为值,如图:
'Sheet1’中的数据:
'will’中的数据:
'Sheet3’中的数据:
使用to_excel()函数将dataframe写入到excel文件中,语法如下:
DataFrame.to_excel(excel_writer, sheet_name='Sheet1', na_rep='', float_format=None, columns=None, header=True, index=True, index_label=None, startrow=0, startcol=0, engine=None, merge_cells=True, encoding=None, inf_rep='inf', verbose=True, freeze_panes=None, storage_options=None)
常用参数说明:
返回值:
示例:
将读取的加利福尼亚房屋数据存储为excel文件,代码如下:
# 导包
from sklearn.datasets import fetch_california_housing
housing = fetch_california_housing()
housing
对数据进行处理
# 将数据赋值给变量x
x = housing['data']
# 将数据标签赋值给变量y
y = housing['target'].reshape(-1,1)
# 将feature_names和target_names合并到一个列表中
housing['feature_names'].extend(housing['target_names'])
# 为合并后的housing['feature_names']命名
column = housing['feature_names']
column
# 将数组x和y合并,并且创建DataFrame,将column列表作为df的列名
将数据写入excel文件中
df1.to_excel('california_housing.xlsx', sheet_name='california', index=False)
# 将工作表命名为'california',不设置行索引。
执行外代码后同路径的文件夹中会生成excel文件,文件内容如图: