测试之道--网络爬虫系列1

  • 网络爬虫简介
    网络爬虫又称网络蜘蛛、蚂蚁、机器人等,可以按照我们事先制定的规则(爬虫算法)自动化检索互联网信息的一种技术。

  • 网络爬虫分类
    通用网络爬虫:又名全网爬虫,将主题定位在全网中,做搜索引擎,感兴趣的是互联网中尽可能多的高质量网页,如Baiduspider、360Spider、SogouSpider、Bingbot等。

    聚焦网络爬虫:又名主题网络爬虫,只将目标网页定位到与主题相关的页面中有目的的爬取,具有很强的实用性,所以在想获取的是某一垂直领域的数据或者有明确的检索需求,会采用这种聚焦网络爬虫,此时我们是需要对得到的数据进行处理(如过滤无用信息)。

    增量式网络爬虫:在爬取网页的时候,只爬取内容发生改变的网页或者新的网页。

    深层网络爬虫:在互联网中按网页存在方式划分,可分为表层网页(不需要提交表单的静态页面),深层网页就需要提交一定表单关键词才能访问的页面,要爬取深层网络爬虫,需要想办法自动填写好对应表单:
    提交表单一般有两种方法,第一种是基于领域知识的表单填写,建立一个填写表单的关键词库,在需要填写的时候,根据语义分析选择对应的关键词进行填写;第二种是领域知识有限时基于网页结构分析去自动填写表单信息。

  • 常见学习爬虫的原因:
    (1)就业需求:目前爬虫工程师属于高薪紧缺型人才
    (2)私人订制搜索引擎,有助于深层次理解搜索引擎工作原理
    (3)大数据时代数据分析的数据来源

  • 网络爬虫组成
    控制节点+爬虫节点+资源库
    多个控制节点之间可以相互通信,每个控制节点下面可有多个可相互通信的爬虫节点,控制节点也可以与其下的爬虫节点通信,组成一张通信网,这张网的中间由一些相互连接的控制节点、外围是一些爬虫节点构成。
    控制节点:主要负责根据url分配线程,并调用爬虫节点进行具体爬取工作。
    爬虫节点:按照相应算法对控制节点分配的url网页进行爬取,包括下载网页以及对网页进行处理,爬取的结果存储到相应的资源库中。

  • 网络爬虫可以做哪些有趣的事?
    1)定制搜索引擎:爬取网页上的所有相关的图片、视频等,可以爬取金融信息做后续投资分析。
    2)集中不同网站的同类信息便于集中阅读,如网站1和网站2上都有娱乐模块的新闻,可以通过网络爬虫去将他们集中在一起便于阅读,忽略其他模块的信息。
    3)过滤掉原网页上的广告信息和一些其他不需要的信息,如电影天堂的广告信息。
    4)对某些网站的用户信息进行统计,如分析用户活跃度、热门文章等信息。

你可能感兴趣的:(网络爬虫,网络爬虫,测试)