Python爬虫初探(一)——了解爬虫

在做爬虫之前,我们需要先做好一些环境搭建及安装工作
Python的要点(搭建环境、安装配置、第三方库导入方法详细过程)

一、Python爬虫介绍

1.什么是爬虫?
爬虫简单来说,就是代替人去模拟浏览器,进行一系列的网页操作

2.为什么需要用爬虫?
为其他程序提供数据源,如搜索引擎(百度、Google等)、数据分析、大数据等等。

3.企业获取数据的方式?

  • 公司自有的数据
  • 第三方平台购买的数据 (百度指数、数据堂)
  • 爬虫爬取的数据

4.Python做爬虫的优势?

种类 特点
PHP 对多线程、异步支持不太好
Java 代码量大,代码笨重
C/C++ 代码量大,难以编写
Python 支持模块多、代码简介、开发效率高 (scrapy框架)

二、爬虫中的几个概念

1.爬虫的分类?

  • 通用网络爬虫 例如 baidu google yahu
  • 聚焦网络爬虫: 根据既定的目标有选择的抓取某一特定主题内容
  • 增量式网络爬虫: 指对下载网页采取增量式的更新和只爬行新产生的或者已经发生变化的网页爬虫
  • 深层网络爬虫: 指那些大部分内容不能通过静态链接获取的、隐藏在搜索表单后的,只有用户提交一些关键词才能获得的web页面 例如 用户登录注册才能访问的页面
    我们平时专门针对某一网站,要爬取特定的内容,这就是聚焦爬虫,也是最常用的爬虫

2.爬虫的get方式和post方式?

  • 通过get方式,查询参数都会在URL上显示出来
  • 通过post方式,查询参数和需要提交数据是隐藏在Form表单里的,不会在URL地址上显示出来

3.关于URL

  • URL: 统一资源定位符
  • https: 协议
  • 注意 : 在浏览器请求一个url时,浏览器会对这个url进行一个编码。(除英文字母、数字和部分标识其他的全部使用% 加 十六进制码进行编码),如果是中文,一个字是用三个%加 十六进制码表示的。
    • 例如 : https://tieba.baidu.com/f?ie=utf-8&kw=%E6%B5%B7%E8%B4%BC%E7%8E%8B&fr=search
    • %E6%B5%B7%E8%B4%BC%E7%8E%8B = 海贼王

4.User-Agent 用户代理

  • 作用:记录用户的浏览器、操作系统等,为了让用户更好的获取HTML页面效果
  • 举个例子,这就是一个User-Agent:
    Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36
    写代码时,需要写成字典的形式

5.Referer
一般来说,要爬取的网址跟起始网址不一样,爬取到的信息会跟想要的不一样,这个时候很有可能设置了referer反爬机制,需要在爬取的时候带上referer,对方便会识别为非爬虫,即可进行下一步工作。(referer里面是起始的网址,表明当前这个请求是从哪个url地址过来的)

6.状态码

  • 200 : 请求成功
  • 301 : 永久重定向
  • 302 : 临时重定向
  • 403 : 服务器拒绝请求
  • 404 : 请求失败(服务器无法根据客户端的请求找到资源(网页))
  • 500 : 服务器内部请求

7.抓包工具
Python爬虫初探(一)——了解爬虫_第1张图片
我们需要注意其中几个关键点

  • Elements : 元素 网页源代码,提取数据和分析数据(有些数据是经过特殊处理的所以并不是都是准确的)
  • Console : 控制台 (打印信息)
  • Sources : 信息来源 (整个网站加载的文件)
  • NetWork : 网络工作(信息抓包) 能够看到很多的网页请求

你可能感兴趣的:(python)