爬虫学习笔记_通用爬虫

1.通用爬虫框架概念:

    通用网络爬虫 是 捜索引擎抓取系统(Baidu、Google、Yahoo等)的重要组成部分。主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。

2.爬虫的设计思路: 

-2.1. 首先确定需要爬取的网页URL地址。

 -2. 通过HTTP/HTTP协议来获取对应的HTML页面。 

-3. 提取HTML页面里有用的数据: a. 如果是需要的数据,就保存起来。 b. 如果是页面里的其他URL,那就继续执行第二步。


3.抓取流程:

    a) 首选选取一部分已有的URL,把这些URL放到待爬取队列。

    b) 从队列里取出这些URL,然后解析DNS得到主机IP,然后去这个IP对应的服务器里下载HTML页面,保存到搜索引擎的本地服务器。

        之后把这个爬过的URL放入已爬取队列。

    c) 分析这些网页内容,找出网页里其他的URL连接,继续执行第二步,直到爬取条件结束。

4.局限:

1.通用搜索引擎所返回的结果都是网页,而大多情况下,网页里90%的内容对用户来说都是无用的。

2.不同领域、不同背景的用户往往具有不同的检索目的和需求,搜索引擎无法提供针对具体某个用户的搜索结果。

3.万维网数据形式的丰富和网络技术的不断发展,图片、数据库、音频、视频多媒体等不同数据大量出现,通用搜索引擎对这些文件无能为力,不能很好地发现和获取。

4.通用搜索引擎大多提供基于关键字的检索,难以支持根据语义信息提出的查询,无法准确理解用户的具体需求。


你可能感兴趣的:(爬虫学习笔记_通用爬虫)