基础语言-第19天-爬虫过程

爬虫过程

爬虫:获取网络数据(公开的网络)

网络数据来源:网站对应的网页、手机APP

一、获取网络数据(requests、selenium)

1.requests

  • 定义

    Python获取网络数据的第三方库(基于http或https协议的网络请求)
    
  • 应用场景

    1)直接请求网页地址
    2)对提供网页数据的数据接口发送请求
    
  • 基本用法

    1)对目标网页直接发送请求: 
    requests.get(网页地址):获取指定页面的数据返回一个响应对象
    2)获取响应的状态码:response.status_code
    3)获取响应头:response.headers
    4)请求内容(返回的有效数据):
    a.response.content: 二进制类型的数据(图片、视频、音频等,例如:图片下载)
    b.response.text: 字符串类型的数据(网页)
    c.response.json(): 对请求内容做完json解析后的数据(json数据接口)
    
    response = requests.get('https://cd.zu.ke.com/zufang')
    print(response)    # 200表示请求成功
    

2.selenium

3.常见反爬

  • 浏览器伪装
  • 登录反爬
  • 代理IP

二、解析数据(从获取到的网络数据中提取有效数据)

1.正则表达式

2.基于css选择器的解析器(bs4

3.基于xpath的解析器(lxml

三、保存数据:csv、Excel

正则解析名字和价格

你可能感兴趣的:(爬虫,爬虫,python,开发语言)