爬虫(1)——爬虫简介

文章目录

    • 1.pip的使用
      • 1.常用的命令
      • 2.修改pip下载源
    • 2. Urlib
      • 1.什么是互联网爬虫?
      • 2.爬虫核心?
      • 3.爬虫的用途?
      • 4.爬虫分类
        • 1.通用爬虫
        • 2.聚焦爬虫
      • 5.反爬手段
      • 6.urllib库使用
      • 7.请求对象的定制
      • 8.编解码
        • 1.get请求方式:urllib.parse.quote()
      • 9.Handler处理器
      • 10.代理服务器

1.pip的使用

1.常用的命令

  1. pip install 包名
    • 安装指定的包
  2. pip uninstall 包名
    • 删除指定的包
  3. pip list
    • 显示已经安装的包
  4. pip freeze
    • 显示已经安装的包,并且以指定的格式显示

2.修改pip下载源

  • 运行pip install 命令会从网站上下载指定的python包,默认是从https://files.pythonhosted.org/网站上下载,这是个国外的网站,遇到网络情况不好的时候,可能会下载失败,可以通过命令,修改pip下载软件时的源。

    pip install 包名 -i https://pypi.mirrors.ustc.edu.cn/simple/
    

    此为从中国科技大学(ustc)的服务器上下载requests(基于python的第三方web框架)

  • 国内常用的pip下载源列表:

    • 阿里云:http://mirrors.aliyun.com/pypi/simple/
    • 中国科技大学:https://pypi.mirrors.ustc.edu.cn/simple/
    • 豆瓣:http://pypi.douban.com/simple/
    • 清华大学:https://pypi.tuna.tsinghua.edu.cn/simple/

2. Urlib

1.什么是互联网爬虫?

  • 通过一个程序,根据Url(http://www.taobao.com)进行爬取网页,获取有用的信息
  • 使用程序模拟浏览器,去向服务器发送请求,获取响应信息

2.爬虫核心?

  • 爬取网页:爬取整个网页,包含了网页中所有的信息
  • 解析数据:将网页中你所得到的数据,进行解析
  • 难点:爬虫和反爬虫之间的博弈

3.爬虫的用途?

  • 数据分析/人工数据集
  • 社交软件冷启动
  • 舆情监控
  • 竞争对手监控

4.爬虫分类

1.通用爬虫
  1. 功能:访问网页->抓取数据->数据存储->数据处理->提供检索服务
  2. 缺点:
    • 抓取的数据大多是无用的
    • 不能根据用户的需求来精准获取数据
2.聚焦爬虫
  1. 根据需求,实现爬虫程序,抓取需要的数据
    • 如何访问
  2. 设计思路:
    1. 确定要获取的url
    2. 模拟浏览器通过http协议访问url,获取服务器返回的html代码
      • 如何访问
  3. 解析html字符串(根据一定规则提取需要的数据)
    • 如何解析

5.反爬手段

  1. User-Agent:

    中文名为用户代理,简称UA,它是一个特殊字符串,使得服务器能够识别客户使用的操作系统以及版本、CPU类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等

  2. 代理IP:

    西次代理

    快代理

    什么是高匿名、匿名和透明代理?它们有什么区别?

    1. 使用透明代理,对方服务器可以知道你使用了代理,并且也知道你的真实IP
    2. 使用匿名代理,对方服务器可以知道你使用了代理,但是不知道你的真实IP
    3. 使用高匿名代理,对方服务器不知道你使用了代理,也不知道你的真实IP
  3. 验证码访问

    打码平台

    ​ 云打码平台

  4. 动态加载网页,网站返回的是js数据,不是真实的网页数据

  5. 数据加密

    分析js代码

6.urllib库使用

7.请求对象的定制

8.编解码

1.get请求方式:urllib.parse.quote()

9.Handler处理器

10.代理服务器

  1. 代理的常用功能:
    1. 突破自身IP访问限制,访问国外站点
    2. 访问一些单位或者团体内部的资源
      • 某大学FTP(前提是该代理地址在该资源的允许访问范围之内),使用教育网内地址段免费代理服务器,就可以用于对教育网开放的各类FTP下载上传,以及各类资料查询共享等服务
    3. 提高访问速度
      • 扩展:通常代理服务器都设置一个较大的硬盘缓冲区,当有外界的信息通过时,同时也将其保存到缓冲区中,当其他用户再访问相同的信息时,则直接由缓冲区中读取信息,传给用户,以提高访问速度
    4. 隐藏真实IP
      • 扩展:上网者也可以通过这种方法隐藏自己的IP,免受攻击
  2. 代码配置代理
    1. 创建Request对象
    2. 创建ProxyHandler对象
    3. 用handler对象创建opener对象
    4. 使用opener.open函数发送请求

你可能感兴趣的:(爬虫,python,爬虫)