爬虫入门1---谈谈网络爬虫

爬虫入门1---谈谈网络爬虫

爬虫入门2---爬虫框架webmagic

爬虫入门3---爬虫实战

1 谈谈网络爬虫

  1.1 什么是网络爬虫

       网络爬虫又称网络蜘蛛、网络蚂蚁、网络机器人等,可以自动化浏览网络中的信息,当然浏览信息的时候需要按照我们制定的规则进行,这些规则我们称之为网络爬虫算法。使用Python可以很方便地编写出爬虫程序,进行互联网信息的自动化检索。

       搜索引擎离不开爬虫,比如百度搜索引擎的爬虫叫作百度蜘蛛(Baiduspider)。百度蜘蛛每天会在海量的互联网信息中进行爬取,爬取优质信息并收录,当用户在百度搜索引擎上检索对应关键词时,百度将对关键词进行分析处理,从收录的网页中找出相关网页,按照一定的排名规则进行排序并将结果展现给用户。

       在这个过程中,百度蜘蛛起到了至关重要的作用。那么,如何覆盖互联网中更多的优质网页?又如何筛选这些重复的页面?这些都是由百度蜘蛛爬虫的算法决定的。采用不同的算法,爬虫的运行效率会不同,爬取结果也会有所差异。 所以,我们在研究爬虫的时候,不仅要了解爬虫如何实现,还需要知道一些常见爬虫的算法,如果有必要,我们还需要自己去制定相应的算法,在此,我们仅需要对爬虫的概念有一个基本的了解。

        除了百度搜索引擎离不开爬虫以外,其他搜索引擎也离不开爬虫,它们也拥有自己的爬虫。比如360的爬虫叫360Spider,搜狗的爬虫叫Sogouspider,必应的爬虫叫Bingbot。

        如果想自己实现一款小型的搜索引擎,我们也可以编写出自己的爬虫去实现,当然,虽然可能在性能或者算法上比不上主流的搜索引擎,但是个性化的程度会非常高,并且也有利于我们更深层次地理解搜索引擎内部的工作原理。

        大数据时代也离不开爬虫,比如在进行大数据分析或数据挖掘时,我们可以去一些比较大型的官方站点下载数据源。但这些数据源比较有限,那么如何才能获取更多更高质量的数据源呢?此时,我们可以编写自己的爬虫程序,从互联网中进行数据信息的获取。
 

     1.2 网络爬虫可以做什么

       我们初步认识了网络爬虫,网络爬虫具体可以做什么呢?可以实现:

  • 搜索引擎
  • 大数据时代,可以让我们获取更多的数据源
  • 快速填充测试和运营数据
  • 为人工智能提供训练数据集

       这边以笔者2016年研发的某市旅游舆情系统场景为例:

爬虫入门1---谈谈网络爬虫_第1张图片

       从以上旅游舆情系统可以看出,源数据都是通过网络爬虫从相关网站爬取,经过etl,最终输出到应用层,对酒店、景区、旅游大巴等进行舆情预警和干预。那如果没有爬虫,网络数据将无从获取,人工录入等方式成本巨大。所以爬虫一般作为大数据、搜索引擎、人工智能等输入物,在现今大数据、人工智能风潮中扮演着不可替代的角色。

     1.3 网络爬虫常用的技术(Java)

         1.3.1 底层实现 HttpClient + Jsoup

       HttpClient 是 Apache Jakarta Common 下的子项目,用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包,并且它支持 HTTP 协议最新的版本和建议。HttpClient 已经应用在很多的项目中,比如 Apache Jakarta 上很著名的另外两个开源项目Cactus 和 HTMLUnit 都使用了 HttpClient。更多信息请关注http://hc.apache.org/jsoup 是一款Java HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOMCSS以及类似于jQuery的操作方法来取出和操作数据。

         1.3.2 开源框架 Webmagic

       webmagic是一个开源的Java爬虫框架,目标是简化爬虫的开发流程,让开发者专注于逻辑功能的开发。webmagic的核心非常简单,但是覆盖爬虫的整个流程,也是很好的学习爬虫开发的材料。

          爬虫入门1---谈谈网络爬虫_第2张图片

      webmagic的主要特色:

  • 完全模块化的设计,强大的可扩展性。
  • 核心简单但是涵盖爬虫的全部流程,灵活而强大,也是学习爬虫入门的好材料。
  • 提供丰富的抽取页面API
  • 无配置,但是可通过POJO+注解形式实现一个爬虫。
  • 支持多线程。
  • 支持分布式。
  • 支持爬取js动态渲染的页面。
  • 无框架依赖,可以灵活的嵌入到项目中去。    

 

你可能感兴趣的:(爬虫)