CSV 文件又称为逗号分隔值文件,是一种通用的、相对简单的文件格式,用以存储表格数据,包括数字或者字符。CSV 是电子表格和数据库中最常见的输入、输出文件格式,可参考《CSV介绍》。通过爬虫将数据抓取的下来,然后把数据保存在文件,或者数据库中,这个过程称为数据的持久化存储。本节介绍 Python 内置模块 CSV 的读写操作。
CSV库
Python中集成了专用于处理csv文件的库,名为:csv。
csv 库中有4个常用的对象:
csv.reader :以列表的形式返回读取的数据;
csv.writer :以列表的形式写入数据;
csv.DictReader :以字典的形式返回读取的数据;
csv.DictWriter:以字典的形式写入数据;
csv.reader
import csv, os
path = os.path.join(os.getcwd(),'OPERATE_NETWORK.0.1.csv')
# 打开csv文件 此处的delimiter指定了分隔符,不用此参数的话,分隔符默认为逗号
with open(path, mode='r', encoding='utf-8',newline='') as file_obj:
# delimiter 指定分隔符,默认为逗号,这里指定为空格
spamreader = csv.reader(file_obj, delimiter=' ')
for row in spamreader:
if not row:
return
row_list = row[0].split(',')
csv.
DictReader()import csv
with open('names.csv', newline='') as csvfile:
reader = csv.DictReader(csvfile)
for row in reader:
print(row['first_name'], row['last_name'])
csv 模块中的 writer 类可用于读写序列化的数据,其语法格式如下:
with open(w_path, 'a', encoding='utf-8',newline='') as file_obj:
# 1:创建writer对象
# delimiter 指定分隔符,默认为逗号,这里指定为空格
# quotechar 表示引用符
# writerow 单行写入,列表格式传入数据
# spamwriter = csv.writer(csvfile, delimiter=' ',quotechar='|')
writer = csv.writer(file_obj)
# 2:写表头
writer.writerow(row)
writer.writerows([('hello','world'), ('I','love','you')])
当然也可使用 DictWriter 类以字典的形式读写数据,使用示例如下:
import csv
with open('names.csv', 'w', newline='') as csvfile:
#构建字段名称,也就是key
fieldnames = ['first_name', 'last_name']
writer = csv.DictWriter(csvfile, fieldnames=fieldnames)
# 写入字段名,当做表头
writer.writeheader()
# 多行写入
writer.writerows([{'first_name': 'Baked', 'last_name': 'Beans'},{'first_name': 'Lovely', 'last_name': 'Spam'}])
# 单行写入
writer.writerow({'first_name': 'Wonderful', 'last_name': 'Spam'})