Pandas read_excel参数说明

read_excel参数说明

参数

说明

io

文件路径

sheet_name

导入指定sheet中的数据,可以是sheet名称,sheet序号,sheet组成的list,默认0,None 表示引用所有sheet

header

表头的所在行,默认 header=0,即默认第一行为表头;

hearder=1:选择第二行为表头,第一行数据就不要了。其他以此类推;

hearder=[1,2,3]:选择第2,3,4行的数据作为表头,第二行之上的数据不用;header=None :表示不使用数据源中的表头

names

自定义表头的名称,参数为list,长度不能超出excel中列的数目,由于names只有一维,所以header中不能指定多个表头,而且即使names中的长度小于列的数目(即使数组中的元素个数为0),names也会完全替代原来的表头

index_col

指定列为索引列,默认为 None,索引为0的列用行索引;可传list设置多列为索引

usecols

需解析的列,默认为 None,解析所有列;

如果为str,则解析字母列或列范围的逗号分隔列表(例如“ A:E”或“ A,C,E:F”或字"A,C:D"【表示选择A列,和C到D列】)。范围全闭。

如果为int,则表示解析到第几列。

# usecols=3, 表示解析第 0,1,2,3 列,共 4 列

如果为int列表,则解析列表中指定的几列。

# usecols=[0,1,4],表示解析第 1 列,第 2 列,第 5 列的数据

选择以字母e结尾的所有列:usecols=lambda x:x.endswith("e")

注: 当 header 为多行组成的表头时,使用 usecols 会爆如下错误:

ValueError: cannot specify usecols when specifying a multi-index header

squeeze

默认为False。如果设置squeeze=True则表示如果解析的数据只包含一列,则返回一个Series。

dtype

列的数据类型或指定列:数据类型的字典,默认为None

engine

可以接受的参数有“ xlrd”,“ openpyxl”或“ odf”,用于使用第三方的库去解析excel文件。

converters

传入参数为列名与函数组成的字典,对指定列的数据进行指定函数的处理。key 可以是列名或者列的序号,values是函数,可以def函数或者直接lambda都行。"类别编码"一列读取为str对象类型:

converters={'类别编码':str}

converters={'date': lambda x: pd.to_datetime(x, format='%Y%m')}

true_values

将指定的文本转换为True,默认为None

false_values

将指定的文本转换为False,默认为None

将性别中的女转换为True,男转换为False

true_values=[‘女’], false_values=[‘男’]

skiprows

要跳过的行索引组成的列表;也可以是整数表示要从头开始要跳过的行数

skiprows=1 跳过第1行

skiprows=3 跳过前3行

skiprows=[1,3,5] 跳过第1,3,5行

skiprows=lambda x: x % 2 == 0 跳过偶数行

nrows

整数,指定读取数据的行数,默认为None

指定需要读取前多少行,通常用于较大的数据文件中。

nrows=3 读取前三行

skipfooter

整数,不读取数据的最后n行。

na_filter

na_filter为True时,表示读取数据时进行缺失值检测,为False时,则不进行缺失值检测。na_filter为True时,na_values、keep_default_na两个参数才有效。

na_values

指定识别为空值NA的内容,取值为字符串、数值、列表或字典

na_values='大专',指定大专为NaN

keep_default_na

布尔值,默认取值为TRUE,是否将默认为空值的字符串识别为NaN;

数据中如果包含下面的字符,将被定义为缺失值nan:

'', '#N/A', '#N/A N/A', '#NA', '-1.#IND', '-1.#QNAN', '-NaN', '-nan', '1.#IND', '1.#QNAN', '', 'N/A', 'NA', 'NULL', 'NaN', 'n/a', 'nan', 'null'

如果数据中还有其他字符将其作为缺失值,可以用na_values这个参数来设置。

verbose

 

parse_dates

指定某些列是否被解析为日期,布尔值或列表

这个参数用来解析时间日期类型的数据。可以接收布尔值、列表、二位列表、字典等。如果指定为布尔值True,配合index_col参数可以将日期时间列解析为日期时间索引。如果指定为list,可以将数据中一个或多个日期时间列分别解析为DataFrame中的日期时间类型。如果指定为二维列表,可以将数据中多个列解析为一个日期时间列,列名由这几个列拼接而成。如果指定字典,可以将数据中多个列解析为一个日期时间列,列名由字典的key来指定。

date_parser

指定解析器

date_parser=lambda x:pd.to_datetime(x,format='%Y_%m_%d')

date_format

 

thousands

decimal

 

comment

 

storage_options

 

dtype_backend

 

你可能感兴趣的:(python,pandas)