Python3 网络爬虫(1):初认识

Python3 网络爬虫(1):初认识

        • 1.概念
        • 2.分类
        • 3.基本流程

1.概念

  • 网络爬虫(又称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。

2.分类

  • 网络爬虫按照系统结构和实现技术,可以分为:通用网络爬虫(General Purpose Web Crawler)、聚焦网络爬虫(Focused Web Crawler)、增量式网络爬虫(Incremental Web Crawler)、深层网络爬虫(Deep Web Crawler)。
  • 我们平常见到的主要是通用爬虫聚焦爬虫通用爬虫收集全网的信息,爬取范围和工作量巨大,适用于搜索引擎,像Google,百度等等。聚焦爬虫则是指选择性地爬取那些与预先定义好的主题相关页面的网络爬虫。也就是有目的性地选取某一特定主题的爬虫。我们在学习Python的过程中提到的爬虫正是聚焦爬虫。

3.基本流程

获取url
发送请求 获取响应
提取数据
保存

3.1.获取url
通常我们爬虫的内容是很多页的,连贯的,这时我们可以观察每一页的url,找出其变化规律,通过遍历得到所需的url。

3.2.发送请求,获取响应
有了url之后,我们可以模拟浏览器发送请求,通过请求得到的响应就是包含我们想要的信息的网页内容了。由于越来越多的网站会设置一些反爬的机制,很多时候我们需要通过各种方法来成功的获取响应,如添加headers请求头,使用代理ip等的。

3.3提取数据
得到了网页内容之后,我们可以通过BeautifulSoup,xpath,正则表达式等等的库对内容进行筛选和提取,得到自己所需的那一部分数据。

3.4保存数据
当数据文件比较小时,我们可以保存在本地文件中。若是文件较大或者比较复杂时,可以选择保存在数据库中。数据库常用到MongoDB和MySQL。

你可能感兴趣的:(Python3 网络爬虫(1):初认识)