一.什么是爬虫?
爬虫是网络数据采集的程序。爬虫的过程都是由代码定义好的,大量的节省人工的成本,极大的提高数据获取效率。
二.生活中的爬虫:
三.爬虫爬到的数据有什么用:
四.为什么用Python写爬虫?
通过以下几种程序语言的特点即可看出:
爬虫采集信息后,将信息存入文档库里面。这个时候对这些文档进行索引, 建立一个索引库,提供检索的服务。在内部将这一信息组织起来并暴露出来,最后暴露成为用户的接口。其中哪些数据放在最前面,哪些数据放在最后面这些问题,会涉及到搜索引擎排序的算法PageRank。
五.聚焦爬虫:
爬取专业领域的信息。聚集爬虫流程如图所示。
这里需要注意,遇到有重复的url时,需要设计去重机制。
六.利用urllib实现最小的爬虫程序:
urllib是用于获取URL(统一资源定位符)的一个Python模块。它以urlopen函数的形式提供了非常简单的接口。能够使用各种不同的协议来获取网址。它还提供一个稍微复杂的接口用于处理常见的情况,如基本身份验证、cokkies、proxies(代理)等。这些是由handlers和openers对象提供。
urllib提供的库,可以通过import urllib.request使用。