python读取本地文件-python解析本地HTML文件

Python使用爬虫技术时,每运行一次,本地都会访问一次主机。为避免完成程序前调试时多次访问主机增加主机负荷,我们可以在编写程序前将网页源代码存在本地,调试时访问本地文件即可。现在我来分享一下爬取资料的调试过程。

一、将网页源代码存在本地

1、打开需要爬取的网页,鼠标右键查看源代码

python读取本地文件-python解析本地HTML文件_第1张图片

2、复制源代码,将代码保存至本地项目文件目录下,文件后缀改为.html

python读取本地文件-python解析本地HTML文件_第2张图片

python读取本地文件-python解析本地HTML文件_第3张图片

二、在Python中打开本地html文件

打开并读取本地文件可使用BeautifulSoup方法直接打开

soup=BeautifulSoup(open('ss.html',encoding='utf-8'),features='html.parser') #features值可为lxml

解析后可以直接使用soup,与请求网页解析后的使用方法一致

三、使用本地文件爬取资料<

你可能感兴趣的:(python读取本地文件-python解析本地HTML文件)