python 实现简单的爬虫

    git 地址:https://github.com/Angel-LQ/MySampleCrawler

    实现了百度百科对于 python 词条的1000 个页面抓取

程序模块:

    1. url 管理器:

        建立两个 set 分别存储 待抓取 url 和 已抓取 url,实现去重

    2. 网页下载器

        使用 urllib.request 库实现 url 的下载

    3. 网页解析器 

        使用 bs4.beautifulsoup 库实现 html 页面的解析,提取新的 url 和结果数据

    4. 数据收集器

        将 3 得到的数据保存下来,并输出成 html 文件

教程地址:https://www.imooc.com/video/10689

你可能感兴趣的:(爬虫)