1.读写文本格式的数据
函数 | 说明 |
read_csv | 从文件、URL、文件型对象中加载带分隔符的数据。默认分隔符为逗号 |
read_table | 从文件、URL、文件型对象中加载带分隔符的数据。默认分隔符为(‘\t’) |
read_fwf | 读取定宽列格式数据,即没有分隔符 |
read_clipboard | 读取剪贴板中的数据。在将网页转换为表格时很有用 |
函数选项:
pd.read_csv('ch06/ex1.csv')
pd.read_table('ch06/ex1.csv',sep=',')
没标题的文件
pd.read_csv('ch06/ex2.csv',header=None)
pd.read_csv('ch06/ex2.csv',names=['a','b','c','d','message'])
把某一列作为索引
pd.read_csv('ch06/ex2.csv',names=['a','b','c','d','message'],index_col='message')
层次化索引
pd.read_csv('ch06/csv_mindex.csv',index_col=['key1','key2'])
使用正则表达式
pd.read_table('ch06/ex3.txt',sep='\s+')
跳过几行
pd.read_csv('ch06/ex4.csv',skiprows=[0,2,3])
缺失值处理
pd.read_csv('ch06/ex5.csv',na_values=sentinels)
(1)逐块读取文本文件
pd.read_csv('ch06/ex6.csv',nrows=5)
pd.read_csv('ch06/ex6.csv',chunksize=1000)
(2)将数据写出到文本格式
to_csv方法,将数据写到一个以逗号分隔的文件
data.to_csv('ch06/out.csv')
缺失值,使用别的标记值
data.to_csv(sys.stdout,na_rep='NULL')
禁止把行和列标签写入
data.to_csv(sys.stdout,index=False,header=False)
只写一部分列
data.to_csv(sys.stdout,index=False,cols=['a','b','c'])
from_csv
(3)手工处理分隔符格式
csv.reader
csv.writer
(4)JSON数据
json.loads(obj)
json.dumps(result)
(5)XML和HTML:Web信息收集
2.二进制数据格式
frame.save('ch06/frame_pickle')
pd.load('ch06/frame_pickle')
仅建议短期存储格式
(1)使用HDF5格式
(2)读取Microsoft Excel文件
pd.ExcelFile()
xls_file.parse()
3.使用HTML和Web API
requests包
4.使用数据库
嵌入式的SQLite数据库