数据读取

**

数据读取

数据读取是数据分析的基础,3类常用数据读取方法如下:

**
1 Excel文件的读取

import pandas as pd
df=pd.read_excel(r'C:\01Pylearn\air_data.xlsx', sheet_name='sheet1',  index_col=0, header = 0, usecols=0, nrows=5)

#r 为转义符,避免路径里面的\被转义,亦可以不加,但是‘\’要换成‘/’
#sheet_name = ‘sheet1’, 指定打开表格里面的某个sheet ,可以用sheet名,也可以是0开始的索引,默认为第一个sheet
#文件导入时默认对的行索引是从0开始的数字,可以通过设置 index_col=0 参数是指定行索引。 index_col=0 表示用Excel文件的第一列作为行索引,从0开始计数。
#通过设置header参数设定列索引,默认即第一行作为列索引值header=0。
#利用usecols来指定导入列,usecols=0 表示只导入第一列,包括索引行
#利用nrows来指定导入行。nrows=5,表示只导入不包括索引列对的前5行。

2 CSV文件的读取

import pandas as pd
df=pd.read_csv(r'C:\01Pylearn\air_data.csv', sep= ' ', engine="Python", encoding="utf-8",)

指明分隔符,默认分隔符为‘,’,常用分割符为逗号 “,”,空格 " ",制表符 "\t"等
指定读取行数 nrows=6 表示只导入不包括索引列对的前6行。
指定编码格式,UTF-8 和gbk是Python常用的2种编码格式,UTF-8是默认格式。CSV UTF-8(逗号分隔)(.csv)格式的文件,导入时可以加encoding=“utf-8”(因为是默认格式可以省略);但是CSV (逗号分隔)(.csv)格式的文件,导入时必须加encoding=“gbk”,否则会报错。
如果路径或者文件名字中包含中文,需要增加engine="Python"参数,同时CSV UTF-8(逗号分隔)(*.csv)格式的文件,导入时需修改encoding=“utf-8-sig”。
行、列索引,以及指定输入行、列设定方法与xlsx相同。

3 txt文件的读取
pd.read_table() 既可以读取txt文件,也可以读取csv文件

import pandas as pd
df=pd.read_table(r'C:\01Pylearn\air_data.txt',  sep= ',' )
df=pd.read_table(r'C:\01Pylearn\air_data.csv',  sep= ',' )

pd.read_table() 中sep 没有默认参数,必须指定参数。
pd.read_table() 函数的用法与pd.read_csv() 基本一致。

你可能感兴趣的:(数据读取)