に:pa宠德事先元里和技术

文章目录

  • 2.1爬虫实现原理
    • 2.1.1通用爬虫工作原理

  • 通用爬虫和聚焦爬虫的工作原理,两者的不同
  • 爬取网页的流程
  • 通用爬虫的网页分类,
    • 动态爬虫与互联网网页间的关系
  • 爬虫要遵守的协议
    • 智能爬取更新网页的文件。
  • 防爬虫的应对
  • Python做爬虫优势

  • 上章初步认识网络爬虫,了解网络爬虫的应用。
  • 本章对通用爬虫和聚焦爬虫的实现原理和相关技术介绍,
  • 用带界面的八爪鱼采集器工具实现一个简单的爬虫,
    • 加深对聚焦爬虫工作流程的认识。

2.1爬虫实现原理

  • 不同类型的爬虫,具体的实现原理也同,但是这些原理之间会存在很多共性。
  • 通用爬虫和聚焦爬虫为例,讲解这两种爬虫是如何工作

2.1.1通用爬虫工作原理

  • 通用爬虫:
    • 自动提取网页的程序,
    • 它为搜索引擎从 Internet上下载网页,是搜索引擎的重要组成

  • 通用爬虫从一个或若干初始网页URL开始,
    • 获得初始网页上的URL,
    • 爬取网页过程中,
    • 从当前页面上抽取新的URL放入队列,
    • 直到满足停止条件

に:pa宠德事先元里和技术_第1张图片

  • 通用爬虫从互联网搜集网页、采集信息,这些网页信息
    用于为搜索引擎建立索引提供支持,它决定着整个引擎系统的
    内容是否丰富,信息是否及时,因此其性能的优劣直接影响着
    搜索引擎的效果。

  • 用于搜索引擎的通用爬虫其爬行行为需符合一定规则
  • 遵循一些命令或文件的内容
  • 如标注为nofollow的链接,或Robots协议(Robots见2.4节)

你可能感兴趣的:(即系py往怕)