爬虫2:python+BS4+正则表达式抓取豆瓣电影数据2.0

前言

这次是对前几天的爬虫1进行代码的优化,和添加表格样式居中,最后再从表格把数据以制表的形式读取出来


一、前言

Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,通过解析器对数据进行标签提取,再用正则表达式对item标签内容进行精准爬取需要的数据,保存到列表中写入表格,再把数据读取到输出窗口进行查看。依然对豆瓣电影数据进行爬取。

二、使用步骤

1.引入库

导入所需要的库名,openpyxl用于表格的处理,re用于正则表达式的处理

# - * -coding:GBK - * -
from bs4 import BeautifulSoup
from openpyxl.styles import Alignment
from openpyxl import Workbook,load_workbook
import requests
import re
# 定义正则表达式
findsort = re.compile(r'(.*?)') # 排名
findhref = re.compile(r'')# 地址
findname = re.compile(r'(.*?)

你可能感兴趣的:(python爬虫,爬虫)