先说下编码相关的知识。编码方式有很多种:ASCII, GBK UTF-8等。
ASCII 码主要是规范英语字符和二进制位之间的关系。英语词汇组成简单,由 26 个字母构成。使用一个字节就能表示一个字母符号。外加各种符号,使用 128 个字符就满足编码要求。
汉字的数量大约将近 10 万个,日常所使用的汉字有 3000 个。显然,ASCII 编码无法满足需求。所以汉字采用 GBK 编码,使用两个字节表示一个汉字。简体中文的编码方式是 GBK2312。
那 UTF-8 又是什么编码?这要先说 Unicode 了。因为各国都各自的编码方式。如果使用一种编码编码,使用另一种编码解码。这会造成出现乱码的情况。Unicode 目的是为了统一各种编码。Unicode 是一个符号集,它规定了符号的二进制代码,UTF-8 就是在互联网上使用最广的一种 Unicode 的实现方式。
因此,如果我们要写数据到文件中,最好指定编码形式为 UTF-8。
Python 标准库中,有个名为 csv 的库,专门处理 csv 的读写操作。具体使用实例如下:
import csv import codecs # codecs 是自然语言编码转换模块,指定编码为 utf-8, 避免写 csv 文件出现中文乱码 fileName = 'PythonBook.csv' with codecs.open(fileName, 'w', 'utf-8') as csvfile: # 指定 csv 文件的头部显示项 filednames = ['书名', '作者', '出版社', '出版时间'] writer = csv.DictWriter(csvfile, fieldnames=filednames) books = [] book = { 'title': '倚天屠龙记', 'author': '金庸', 'press':'广州出版社 花城出版社', 'publication time':'2008-3', } books.append(book) writer.writeheader() for book in books: try: writer.writerow({'书名':book['title'], '作者':book['author'], '出版社':book['press'], '出版时间':book['publication time']}) except UnicodeEncodeError: print("编码错误, 该数据无法写到文件中, 直接忽略该数据")
结果如下:
以上方式是逐行往 CSV 文件中写数据, 所以效率会比较低。如果想批量将数据写到 CSV 文件中,需要用到 pandas 库。如果 book 条数足够多的话,pandas 会每次往文件中写 50 条数据。
import pandas as pd fileName = 'PythonBook.csv' number = 1 books = [] book = { 'title': '倚天屠龙记', 'author': '金庸', 'press': '广州出版社 花城出版社', 'publication time': '2008-3', } books.append(book) data = pd.DataFrame(books) # 写入csv文件,'a+'是追加模式 try: if number == 1: csv_headers = ['书名', '作者', '出版社', '出版时间'] data.to_csv(fileName, header=csv_headers, index=False, mode='a+', encoding='utf-8') else: number = number + 1 except UnicodeEncodeError: print("编码错误, 该数据无法写到文件中, 直接忽略该数据")
就是这么简单 你学会了吗!更多案例视频教程以及源码获取加群:1136192749