第一章 csv文件处理基础
简单来说CSV文件由任意数目的记录组成,记录间以某种换行符分隔;每条记录由字段组成,字段间的分隔符是其它字符或字符串,最常见的是逗号或制表符。
Python中集成了专用于处理csv文件的库,名为:csv
。
csv 库中有4个常用的对象:
csv.reader
:以列表的形式返回读取的数据;
csv.writer
:以列表的形式写入数据;
csv.DictReader
:以字典的形式返回读取的数据;
csv.DictWriter
:以字典的形式写入数据;
csv.reader
# 导入 csv 库
import csv
def reader():
# 打开csv文件 此处的delimiter指定了分隔符,不用此参数的话,分隔符默认为逗号
with open("test.csv", mode='rt',encoding="utf-8-sig") as f_in:
reader = csv.reader(f_in,delimiter=',')
# 获取第一行的header
# header[0] = "name"
# header[1] = "sex"
# header[2] = "age"
# header[3] = "score"
header = next(reader)
# 逐行获取数据,并处理
for line in reader:
print(type(line))
csv.DictReader
# 导入 csv 库
import csv
def dict_reader():
# 打开文件
with open("test.csv", mode='rt',encoding="utf-8-sig") as f_in:
# 基于打开的文件,创建csv.DictReader实例
reader = csv.DictReader(f_in)
# 逐行获取数据,并处理
for line in reader:
print(type(line))
注意:
在打开文件时,需要添加newline = “”。否则,会在每2行有效内容之间添加一行空白。
如果要保存的内容有中文,而且之后需要用Excel打开文件,那么需要选用utf-8-sig编码。如果使用utf-8编码,会导致使用Excel查看文件时中文乱码。
csv.writer
写入数据# 导入 csv 库
import csv
def writer():
# 创建列表,保存header内容
header_list = ["name", "sex", "age", "score"]
# 创建列表,保存数据
data_list = [
["aaa", "fm", 20, 80],
["bbb", "fm", 19, 90],
["ccc", "fm", 21, 95]
]
# 以写方式打开文件。注意添加 newline="",否则会在两行数据之间都插入一行空白。
with open("new_data.csv", mode="w", encoding="utf-8-sig", newline="") as f_out:
# 基于打开的文件,创建 csv.writer 实例
writer = csv.writer(f_out)
# 写入 header。
# writerow() 一次只能写入一行。
writer.writerow(header_list)
# 写入数据。
# writerows() 一次写入多行。
writer.writerows(data_list)
csv.DictWriter
写入数据# 导入 csv 库
import csv
def dict_writer():
# 创建列表,保存header内容
header_list = ["name", "sex", "age", "score"]
# 创建列表,保存数据
data_list = [
{"name":"a", "sex":"m", "age":20, "score":80},
{"name":"bb", "sex":"fm", "age":19, "score":90},
{"name":"ccc", "sex":"fm", "age":21, "score":95},
]
# 以写方式打开文件。注意添加 newline="",否则会在两行数据之间都插入一行空白。
with open("dict_new_data.csv", mode="w", encoding="utf-8-sig", newline="") as f_out:
# 基于打开的文件,创建 csv.DictWriter 实例,将 header 列表作为参数传入。
writer = csv.DictWriter(f_out, header_list)
# 写入 header
writer.writeheader()
# 写入数据
writer.writerows(data_list)