想学爬虫爬取网页,但是不知道流程?

爬取网页总体概述:
1.使用urllib请求网页,获取网页源码。
2.使用bs4配合re正则表达式进行页面数据解析,获取到自己想要的数据。
3.使用pymysql保存到数据库或xlwt保存成excel文件。

温馨提示:学习之前需要先了解py基础知识,urllib库、网页相关知识、bs4库、re库、正则表达式、pymysql库、xlwt库等知识。这里推荐菜鸟教程,地址:点击查看。

一、urllib请求网页

1、通过urllib.request.Request构造request请求,可为request加各类参数,比如常添加的header信息。
想学爬虫爬取网页,但是不知道流程?_第1张图片

2、将构造好的request请求放置urllib.request.urlopen方法中,方法会返回一个响应response。
在这里插入图片描述

3、使用response.read方法可以获取网页内容。
在这里插入图片描述

二、bs4解析html源码

1、使用BeautifulSoup去解析urllib获取到的html源码。
在这里插入图片描述

2、分析网页,使用find_all找到自己需要的html块。
在这里插入图片描述

三、re正则表达式筛选有用信息

1、使用re.compile方法构建正则表达式。(注意:加上r,避免不必要的字符被转义。)
在这里插入图片描述

2、将html块转换为字符串,通过re.findall+构建的表达式找到我们需要的数据。
想学爬虫爬取网页,但是不知道流程?_第2张图片

四、保存数据(xlwt、pymysql使用)

1、通过xlwt保存到表格文件

(1)通过xlwt.Workbook创建xls表在这里插入图片描述

(2)通过add_sheet创建sheet表在这里插入图片描述

(3)通过write添加表头在这里插入图片描述

(4)插入数据想学爬虫爬取网页,但是不知道流程?_第3张图片

2、通过pymysql保存到数据库

(1)初始化数据库在这里插入图片描述

(2)生成游标,编写sql语句想学爬虫爬取网页,但是不知道流程?_第4张图片

(3)执行sql语句在这里插入图片描述

(4)关闭数据库
在这里插入图片描述

本文以爬取电影为例,编写了代码。源代码仅提供学习使用,请勿用于商业用途。

"IT学习小镇"号内回复“douban”即可获取源码。

你可能感兴趣的:(Python全知道,爬虫,python,开发语言)