掌握开发轻量级爬虫1

接上面掌握开发轻量级爬虫0

一、VS Code上跑爬百度百科前10页的案例

1.开vscode使用CTRL+`或者点击查看集成终端打开控制终端

2.在终端中cd到存放文件夹下面,然后git clone 地址就可以将项目拉取下来

3.一开始在主函数里总是出现这个问题,在调通期间要崩溃。

最终找到解决办法是:在导包前加入加入前两行,目的是扩大搜索范围。

下面学习一下具体编写代码

4 编写总调度程序文件spider_main.py

4.1第一步主函数

4.2 第二步爬虫总调度程序的编写:




5.编写管理器程序文件url_manager.py


6.编写管理器程序文件html_downloader.py

7.编写解析器程序文件html_parser.py




8.编写输出程序文件html_outputer.py


9.结果


10.总结

这只是最简单的爬虫

还有如下方面的爬虫需要深入研究


你可能感兴趣的:(掌握开发轻量级爬虫1)