数据加载、存储与文件格式

        输入输出通常可以划分为几个大类:读取文本文件和其他更高效的磁盘存储格式,加载数据库中的数据,利用web API操作网络资源。


读写文本格式数据

pandas提供了一些用于将表格型数据读取为DataFrame对象的函数。下表对其进行了总结,其中read_csvread_table可能会是你今后用得最多的。

由于该文件以逗号分隔,所以我们可以使用read_csv将其读入到一个DataFrame:

我们也可以使用read_table,只不过要指定分隔符而已:

并不是所有的文件都有标题行。

读入该文件有两个办法。你可以让pandas为其分配默认的列名,也可以自己定义列名:

假设你希望将message列做成DataFrame的索引。你可以明确表示将该列放到索引4的位置上,也可以通过index_col参数指定“message”

如果希望将多个列做成一个层次化索引,只需传入由列编号或列名组成的列表即可:

逐块读取文本文件

在处理很大文件时,或找出大文件中的参数集以便于后续处理时,你可能只想读取文件的一小部分或逐块对文件进行迭代。

如果只想读取几行(避免读取整个文件),通过nrows进行指定即可:

要逐块读取文件,需要设置chunksize(行数)。read_csv所返回的这个TextParser对象使你可以根据chunksize对文件进行逐块迭代。

将数据写出到文本格式

数据也可以被输出为分隔符格式的文本。

如果没有设置其它选项,则会写出行和列的标签。当然,它们也都可以禁用:

此外,你还可以只写一部分的列,并以你指定的顺序排列:

Series也有一个to_csv方法

虽然只需要一点整理工作(无header行)就能用read_csv将CSV文件读取为Series,但还有一个更为方便的from_csv方法:

手工处理分隔符格式

你可能感兴趣的:(数据加载、存储与文件格式)