pandas读取csv文件

具体可查看官方文档

先引入pandas

import pandas as pd

1、简单读取文件

data=pd.read_csv('demo.csv')

2、读取限定行

有的时候csv文件太大,想快速查看一下数据内容,就先读取一部分

data=pd.read_csv('demo.csv',nrows=1000)

3、读取限定列

data=pd.read_csv('demo.csv',usecols=['column1','column2','column3'])

4、一些参数

read_csv还有以下常用参数:

  • names:names=[‘a’,‘b’,‘c’]
    可以指定读入文件的列名

  • dtype:type={‘column’:str}
    可以定义列的数据类型。例如在读入bool类型的数据时,如果存在空值,就会报错,说读入类型不一致。这是因为在读入数据的过程中,pandas会根据数据判断可能属于什么类型,然后自动赋予,这样的话存在空值,pandas就判断不出来导致报错。

5、读入大文件

  • chunksize
    不知道和nrows有什么区别。但是肯定的是,读取速度的确很快。一亿条数据也只用了一分多钟。查看jupyter notebook单元格运算时间可以在单元格里输入%%time
  • iterator

定义iterator=True,然后可以通过循环分块获取,最后整合到一起。

import pandas as pd
reader=pd.read_csv('demo.csv',iterator=True)
loop=True
chunkSize=10000 
chunks=[]
n=1
while loop:
    try:
        chunk=reader.get_chunk(chunkSize)
        chunks.append(chunk)
        print('chunk{}'.format(n))
        n=n+1
    except StopIteration:
        loop=False
        print('iterator is stopped')

你可能感兴趣的:(pandas读取csv文件)