Python中read_csv()一些参数详解

filepath_or_buffervarious:
输入一个文件的路径 (a str, pathlib.Path, or py:py._path.local.LocalPath), URL (including http, ftp, and S3 locations), or any object with a read() method (such as an open file or StringIO).

sepstr, defaults to ‘,’ for read_csv(), \t for read_table():
要使用的分隔符。如果 sep 为 None,则 C 引擎无法自动检测分隔符,但 Python 解析引擎可以,这意味着将使用后者,并通过 Python 内置的嗅探器工具 csv 自动检测分隔符。嗅探器。此外,长度超过 1 个字符且与 “\s+” 不同的分隔符将被解释为正则表达式,并且还会强制使用 Python 解析引擎。请注意,正则表达式分隔符容易忽略带引号的数据。正则表达式示例:"\r\t"。

delimiterstr, default None:
sep 的备用参数名称。

delim_whitespaceboolean, default False:
指定是否将空格(例如’ ’ 或 “\t”)用作分隔符。等效于设置 sep=’\s+’。如果此选项设置为 True,则不应为分隔符参数传入任何内容。

headerint or list of ints, default ‘infer’:
用作列名和数据开头的行号。默认行为是推断列名:如果未传递任何名称,则行为与 header=0 相同,并且从文件的第一行推断列名,如果显式传递列名,则行为与 header=None 相同。显式传递 header=0 以便能够替换现有名称。
标题可以是指定列上 MultiIndex 的行位置的整数列表,例如 [0,1,3]。将跳过未指定的中间行(例如,本例中的 2 将跳过)。请注意,如果 skip_blank_lines=True,则此参数将忽略带注释的行和空行,因此 header=0 表示数据的第一行,而不是文件的第一行。

namesarray-like, default None:
要使用的列名列表。如果文件不包含标题行,则应显式传递 header=None。不允许此列表中的重复项。

index_colint, str, sequence of int / str, or False, default None:
用作数据帧的行标签的列,以字符串名称或列索引的形式给出。如果给定 int / str 序列,则使用 MultiIndex。

https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html#io-read-csv-table

你可能感兴趣的:(python,正则表达式,后端,自然语言处理)