Python pandas库DataFrame对象读取csv、txt文件的用法汇总-如何跳过文件开头的行,如何指定列间分隔符,如何重新定义列的名称,如何指定索引列,筛选列?

Python pandas库DataFrame对象读取csv文件的用法-如何跳过文件开头的行,如何指定列间分隔符,如何重新定义列的名称?

今天我们用例子说明一下个这个问题,现在有一个txt文件,内容如下,我们可以看到有几个特点:第一行数据是没有用的,数据使用两个空格进行分割的;数据是没有列名的,下面我们一步步的对数据进行处理:

Python pandas库DataFrame对象读取csv、txt文件的用法汇总-如何跳过文件开头的行,如何指定列间分隔符,如何重新定义列的名称,如何指定索引列,筛选列?_第1张图片

1.默认配置读入文件

import pandas as pd
df = pd.read_csv('test.txt')
df

输出如下:

Python pandas库DataFrame对象读取csv、txt文件的用法汇总-如何跳过文件开头的行,如何指定列间分隔符,如何重新定义列的名称,如何指定索引列,筛选列?_第2张图片

输出结果差强人意,只是第一行数据被当做列名。

2.跳过第一行数据,不进行读取,使用skiprows参数,这里后面可以单个数字,也可是一个list列表,实现跳过多行的目的。

df = pd.read_csv('test.txt',skiprows = 1)

输出结果如下:

Python pandas库DataFrame对象读取csv、txt文件的用法汇总-如何跳过文件开头的行,如何指定列间分隔符,如何重新定义列的名称,如何指定索引列,筛选列?_第3张图片

可以看到已经跳过第一行了,但是这里数据的第一行,被当做了列名这不是我们想要的结果。可以设定数据没有列名,所有的都是数据。

3.设定dataframe读取的第一行为数据。使用header = None参数。

默认情况下header参数为header=0,即将第一行作为参数。

df = pd.read_csv('test.txt',skiprows = 1,header=None)

输出如下:

Python pandas库DataFrame对象读取csv、txt文件的用法汇总-如何跳过文件开头的行,如何指定列间分隔符,如何重新定义列的名称,如何指定索引列,筛选列?_第4张图片

这里可以看到,数据读出是正常的了,但是好像出现一个问题。所有的数据被当成了一列来处理。如何解决这个问题呢?

4.指定数据列的分隔符,使用sep参数

df = pd.read_csv('test.txt',skiprows = 1,header=None,sep='  ')

输出结果看一下:

Python pandas库DataFrame对象读取csv、txt文件的用法汇总-如何跳过文件开头的行,如何指定列间分隔符,如何重新定义列的名称,如何指定索引列,筛选列?_第5张图片

已经满足我们的需求了。这里有两点注意:1).列之间使用两个空格分隔,因此sep必须指明两个空格,否则会出现问题。2).不指定列名的时候,系统自动的用数字0,1,2,3作为列名。下一步我们就手动指定我们的列名。

5.指定列名,使用names参数。

df = pd.read_csv('test.txt',skiprows = 1,header=None,sep='  '\
                 ,names=['A','B','C','D'])

输出结果如下:

Python pandas库DataFrame对象读取csv、txt文件的用法汇总-如何跳过文件开头的行,如何指定列间分隔符,如何重新定义列的名称,如何指定索引列,筛选列?_第6张图片

好了,现在数据终于以我们想要的结果呈现了。

6.将某列设置为索引。

df = pd.read_csv('test.txt',skiprows = 1,header=None,sep='  '\
                 ,names=['A','B','C','D'],index_col = ['A'])

使用index_col=‘列名’,达到设定列名的目的。输出结果如下:

Python pandas库DataFrame对象读取csv、txt文件的用法汇总-如何跳过文件开头的行,如何指定列间分隔符,如何重新定义列的名称,如何指定索引列,筛选列?_第7张图片

7.只保留某几列,不保留不想要的行。例如,我们只想保留'C'列和‘D‘列。代码如下:

df = pd.read_csv('test.txt',skiprows = 1,header=None,sep='  '\
                 ,names=['A','B','C','D'],index_col = ['A'])[['C','D']]

只要像在dataframe对象选取某列的操作相同,使用列表将需要筛选的列,取出即可。

好了,后续我还会继续补充dataframe在读取文件的相关问题。欢迎关注、点赞和交流^_^。

 

 

 

你可能感兴趣的:(python基础)