Python 网络爬虫实战1

一.什么是爬虫?

爬虫是网络数据采集的程序。爬虫的过程都是由代码定义好的,大量的节省人工的成本,极大的提高数据获取效率。

二.生活中的爬虫:

  • 抢票插件
  • 搜索引擎
  • 今日头条 本质上也是爬虫,叫专用爬虫。提供某一类信息,比如新闻、视频、资讯

 

三.爬虫爬到的数据有什么用:

  • 资料库 把爬取到的数据存储起来,比如百度、谷歌将爬到的所有网页的网址信息都存储到服务器上,放入一个资料库,分门别类的整理
  • 数据分析 整理成饼状图、折线图、雷达图等
  • 人工智能 ①人物画像 ②今日头条、网易云音乐、亚马逊 ③图像识别 ④自然语言处理

四.为什么用Python写爬虫?

通过以下几种程序语言的特点即可看出:

  • Java:代码量很大,重构成本变大
  • PHP:天生对多任务支持不友好,爬取效率低
  • C/C++:对程序员不友好,学习成本高,但是非常灵活,运行效率高
  • Python:生态健全,语法简介

爬虫采集信息后,将信息存入文档库里面。这个时候对这些文档进行索引, 建立一个索引库,提供检索的服务。在内部将这一信息组织起来并暴露出来,最后暴露成为用户的接口。其中哪些数据放在最前面,哪些数据放在最后面这些问题,会涉及到搜索引擎排序的算法PageRank。

五.聚焦爬虫:

爬取专业领域的信息。聚集爬虫流程如图所示。

Python 网络爬虫实战1_第1张图片

 

这里需要注意,遇到有重复的url时,需要设计去重机制。

六.利用urllib实现最小的爬虫程序:

urllib是用于获取URL(统一资源定位符)的一个Python模块。它以urlopen函数的形式提供了非常简单的接口。能够使用各种不同的协议来获取网址。它还提供一个稍微复杂的接口用于处理常见的情况,如基本身份验证、cokkies、proxies(代理)等。这些是由handlers和openers对象提供。

urllib提供的库,可以通过import urllib.request使用。

 

 

 

 

你可能感兴趣的:(爬虫,python,搜索引擎)