经过努力，我们终于拿到了数据了。那么下一步就是要将我们获取到的数据保存起来了，这样才能给后续的操作(在网页上展示、数据分析挖掘可视化等等)提供便利。

一般我们保存数据可以采用多种可选载体，根据成本、数据用途我们分别采用适合自己的载体保存数据。

主要的数据保存方法有
- 写入到文本：txt，csv，excel...
- 保存到数据库：本地的sqlite、MySQL、mongodb...

由于保存到数据库的操作需要了解数据库相关知识以及软件支持，所以我们本章采用多种文本方式写入。

先回顾一下上一节的代码：

import requests
from bs4 import BeautifulSoup  # 从bs4引入BeautifulSoup

#请求网页
url = "https://movie.douban.com/cinema/later/chengdu/"
response = requests.get(url)

# 解析网页
# 初始化BeautifulSoup方法一：利用网页字符串自带的编码信息解析网页
soup = BeautifulSoup(response.content.decode('utf-8'), 'lxml')
# 初始化BeautifulSoup方法二：手动指定解析编码解析网页
# soup = BeautifulSoup(response.content, 'lxml', from_encoding='utf-8')

# print(soup)  # 输出BeautifulSoup转换后的内容
all_movies = soup.find('div', id="showing-soon")  # 先找到最大的div
# print(all_movies)  # 输出最大的div的内容
for each_movie in all_movies.find_all('div', class_="item"):  # 从最大的div里面找到影片的div
    # print(each_movie)  # 输出每个影片div的内容
    all_a_tag = each_movie.find_all('a')
    all_li_tag = each_movie.find_all('li')
    movie_name = all_a_tag[1].text
    moive_href = all_a_tag[1]['href']
    movie_date = all_li_tag[0].text
    movie_type = all_li_tag[1].text
    movie_area = all_li_tag[2].text
    movie_lovers = all_li_tag[3].text
    print('名字：{}，链接：{}，日期：{}，类型：{}，地区：{}， 关注者：{}'.format(
        movie_name, moive_href, movie_date, movie_type, movie_area, movie_lovers))

Python打开文件操作详解
使用file_obj = open("file_name", 'mode', encoding="encoding")的方法进行操作。
file_name是你需要读取或者写入的文件路径及文件名(如"../data/ok.txt"是相对路径打开，如果只写一个"ok.txt"，那么就会默认保存到当前.py文件或者.ipynb文件的相同文件夹里面)
- mode是你指定操作文件的方法，常用的有r，w，a, r+，rb，wb，ab，rb+这些方法，r是读取(read，如果不存在则报错)，w是写入(write，文件不存在则创建，如果文件存在则覆盖)，a是追加写入(文件不存在则创建，文件存在从文件最后开始写入)，r+是读取和写入。后面加了个b的，是以二进制方式进行上述操作(通常用于对图片、视频等二进制文件进行操作)，mode默认是r。
- encoding在前面的章节说过了，是我们对文件进行操作所遵循的编码，默认为当前运行环境编码。Windows的默认编码是gbk，linux系统基本上是utf-8。不同的文件可以有不同的编码，设置读取的编码错误要么会报错，要么就得不到正确的内容。
- file_obj是一个文件对象(Python里面也是万物皆对象，所以不要愁没有对象了)，之后我们读取、写入数据都通过这个对象进行操作。
Python读取文件方法
file_obj.read()，一次性读取文件所有的内容作为一个字符串。
file_obj.readlines()，一次性读取文件所有内容，但每一行作为一个字符串并放在一个list(数组)里面。
file_obj.readline(limit)，从上次读取的行数开始，读取limit行，limit默认为1。该方法通常用在由于文件过大不能一次性读取完毕一个文件的时候)。
Python写入文件的方法
file_obj.write(anystr)，该方法接受一个字符串，并将字符串写入。
file_obj.writelines(list_of_str)，该方法接受一个内部全是字符串的list数组，并将所有字符串一行一个写入(自动添加换行符)。
关闭文件
file_obj.close() 关闭文件对象。打开了一个文件之后要记得关闭，否则可能会出现不可控的问题。但是如果用with方法打开了文件，则不需要手动关闭文件，在with语句块运行结束后，会自动关闭文件。
示例

# 需要手动关闭文件
file_obj = open("ok.txt", 'r', encoding="utf-8")
content = file_obj.read()
file_obj.close()

# 不需要手动关闭文件
with open("ok.txt", 'r', encoding="utf-8") as file_obj:
    content = file_obj.read()

把数据保存到 html 文件

由于txt文件难度较低且所学内容被本小节囊括了，所以我们直接从保存数据到HTML文件开始。
我们的目标是：

网页示例

上面这个截图的网页的代码是这样的(为了简洁美观，所以采用了bootstrap的css样式)：




    
    豆瓣电影即将上映影片信息
    


豆瓣电影即将上映影片信息

    
        
            影片名
            上映日期
            影片类型
            地区
            关注者数量
        
    
    
        
            测试名1
            测试日期1
            测试类型1
            测试地区1
            测试关注者1
        
        
            测试名2
            测试日期2
            测试类型2
            测试地区2
            测试关注者2

影片名	上映日期	影片类型	地区	关注者数量
测试名1	测试日期1	测试类型1	测试地区1	测试关注者1
测试名2	测试日期2	测试类型2	测试地区2	测试关注者2

从这个代码，我们可以知道，只要我们重复生成标签里面的...中间的内容，并把我们的数据填进去，数据就会一行一行地被填充到表格中了。前后的代码我们就只需要复制过来写入就好了。
所以我们就拿着之前的代码开始操作了：
注：python 里面三个"围起来的字符会被看做是一整个字符串，避免了换行符的麻烦。
.format()这个方法的用法是把字符串里面的{}字符，按次序一一替换成 format() 接受的所有参数。

import requests
from bs4 import BeautifulSoup  # 从bs4引入BeautifulSoup

#请求网页
url = "https://movie.douban.com/cinema/later/chengdu/"
response = requests.get(url)

 # 初始化BeautifulSoup方法一：利用网页字符串自带的编码信息解析网页
soup = BeautifulSoup(response.content.decode('utf-8'), 'lxml') 

# 初始化BeautifulSoup方法二：手动指定解析编码解析网页
# soup = BeautifulSoup(response.content, 'lxml', from_encoding='utf-8') 

# print(soup)  # 输出BeautifulSoup转换后的内容
all_movies = soup.find('div', id="showing-soon")  # 先找到最大的div
# print(all_movies)  # 输出最大的div的内容

html_file = open('data.html', 'w', encoding="utf-8")
html_file.write("""



    
    豆瓣电影即将上映影片信息
    


豆瓣电影即将上映影片信息

""")
for each_movie in all_movies.find_all('div', class_="item"):  # 从最大的div里面找到影片的div
    # print(each_movie)  # 输出每个影片div的内容
    all_a_tag = each_movie.find_all('a')
    all_li_tag = each_movie.find_all('li')
    movie_name = all_a_tag[1].text
    moive_href = all_a_tag[1]['href']
    movie_date = all_li_tag[0].text
    movie_type = all_li_tag[1].text
    movie_area = all_li_tag[2].text
    # 替换字符串里面的 想看 两个字为空，使得更加美观
    movie_lovers = all_li_tag[3].text.replace("想看", '')
    print('名字：{}，链接：{}，日期：{}，类型：{}，地区：{}， 关注者：{}'.format(
        movie_name, moive_href, movie_date, movie_type, movie_area, movie_lovers))
    html_file.write("""
        
    """.format(moive_href, movie_name, movie_date, movie_type, movie_area, movie_lovers))
html_file.write("""
     
    
        
            影片名
            上映日期
            影片类型
            地区
            关注者数量
        
    
    
            {}
            {}
            {}
            {}
            {}
        



""")
html_file.close()
print("write_finished!")

影片名	上映日期	影片类型	地区	关注者数量
{}	{}	{}	{}	{}

运行一下，成功输出。然后我们回到 jupyter 的首页，找到我们的data.html，点击文件名打开网页，就可以看到如下的结果了，并且我们点击这些影片的名字，都会自动跳转到影片的详情页。

写入结果展示

数据保存到csv文件

首先介绍一下csv文件，这是个类 txt 的表格文件，读取和写入都相对excel的表格文件更加简单方便，所以在数据领域使用较多。
要使用csv模块，我们首先需要import csv，然后把一个文件对象作为参数传给csv.writer()或者csv.reader()，然后我们就对这个writer/reader进行读写操作了。
写入是调用writer的writerow()方法。writerow方法接受一个由字符串组成的 list 数组，然后就会把这个list的内容按照规定写入到csv文件。
读取则是对reader进行遍历，每一轮遍历的结果返回一行的数据组成的 list数组。

写入示例：

import csv
# Windows默认编码是gbk，如果用utf-8，excel打开可能会乱码
# newline='' 是为了让writer自动添加的换行符和文件的不重复，防止出现跳行的情况
file_obj = open('csvtest.csv', 'w', encoding="gbk", newline='')
writer = csv.writer(file_obj)
a_row = ['你好', 'hello', 'thank', 'you']
row_2 = ['how', 'are', 'you', 'indian', 'mifans']
writer.writerow(a_row)
writer.writerow(row_2)
file_obj.close()
print('finished!')

我们在Windows文件管理器打开当前代码文件夹，(如果没有指定jupyter启动路径并且是以win+x键启动的jupyter，那么jupyter的代码和生成的文件默认是在你的 C:/USER(用户)/username 文件夹里面，username是你的电脑的用户名。)
找到这个csvtest.csv文件(默认就是excel或者wps格式)并打开

运行结果用excel打开

其实文件内容很简单：用,隔开不同的列，一行就是一个新的行：

csv文件内容

读取示例：

import csv
# 读取的编码要和写入的保持一致
file_obj = open('csvtest.csv', 'r', encoding="gbk")
reader = csv.reader(file_obj)
for row in reader:
    print(row)
file_obj.close()
print('finished!')

运行结果输出：

['你好', 'hello', 'thank', 'you']
['how', 'are', 'you', 'indian', 'mifans']
finished!

OK，下一步我们就试着把影片信息存到csv文件中

import csv
import requests
from bs4 import BeautifulSoup  # 从bs4引入BeautifulSoup

# 请求网页
url = "https://movie.douban.com/cinema/later/chengdu/"
response = requests.get(url)
# 初始化BeautifulSoup方法一：利用网页字符串自带的编码信息解析网页
soup = BeautifulSoup(response.content.decode('utf-8'), 'lxml')

# 初始化BeautifulSoup方法二：手动指定解析编码解析网页
# soup = BeautifulSoup(response.content, 'lxml', from_encoding='utf-8')

# print(soup)  # 输出BeautifulSoup转换后的内容
all_movies = soup.find('div', id="showing-soon")  # 先找到最大的div
# print(all_movies)  # 输出最大的div的内容

csv_file = open('data.csv', 'w', encoding="gbk", newline='')
writer = csv.writer(csv_file)

writer.writerow(["影片名", "链接", "上映日期", "影片类型", "地区", "关注者"])  # 写入标题
for each_movie in all_movies.find_all('div', class_="item"):  # 从最大的div里面找到影片的div
    # print(each_movie)  # 输出每个影片div的内容
    all_a_tag = each_movie.find_all('a')
    all_li_tag = each_movie.find_all('li')
    movie_name = all_a_tag[1].text
    moive_href = all_a_tag[1]['href']
    movie_date = all_li_tag[0].text
    movie_type = all_li_tag[1].text
    movie_area = all_li_tag[2].text
    movie_lovers = all_li_tag[3].text.replace("想看", '')
    print('名字：{}，链接：{}，日期：{}，类型：{}，地区：{}， 关注者：{}'.format(
        movie_name, moive_href, movie_date, movie_type, movie_area, movie_lovers))
    writer.writerow([movie_name, moive_href, movie_date, movie_type, movie_area, movie_lovers])

csv_file.close()
print("write_finished!")

用excel打开的结果

以上就是一部分常见的对数据的保存方式了。如果能够对你学习Python与爬虫的过程起到一点微小的作用，那将是我的无比荣幸。感谢观看。

传送门：

下一章:

爬虫入门教程⑩— 用漂亮的图表展示爬取到的数据

所有的章节:

爬虫入门教程①— 爬虫简介
爬虫入门教程②— 必备知识基础(一)反爬虫简介
爬虫入门教程③— 必备知识基础(二)HTTP请求简介
爬虫入门教程④— 必备知识基础(三)网页的构成
爬虫入门教程⑤— 安装Python
爬虫入门教程⑥— 安装爬虫常用工具包
爬虫入门教程⑦— jupyter与requests的初步使用
爬虫入门教程⑧— BeautifulSoup解析豆瓣即将上映的电影信息
[爬虫入门教程⑨— 用html和csv文件保存爬取到的数据]
爬虫入门教程⑩— 用漂亮的图表展示爬取到的数据

爬虫入门教程⑨— 用html和csv文件保存爬取到的数据

把数据保存到 html 文件

豆瓣电影即将上映影片信息

豆瓣电影即将上映影片信息

数据保存到csv文件

你可能感兴趣的:(爬虫入门教程⑨— 用html和csv文件保存爬取到的数据)