Python数据分析入门----从数据获取到可视化(数据抓取实践)---day2

一、准备工作:

1、网络爬虫的数据基本流程

2、UA 的介绍

3、Requests , Beautifulsoup,介绍


二、正式内容

1、网络爬虫的数据基本流程

原理:用python模拟人的访问操作。

如图:

2、UA介绍

   Requests Headers:

• “吾是人!”——修改user-agent:里面储存的是系统和浏览器的型号版本,通过修改它来假装自己是人。

• “我从台湾省来”——修改referer:告诉服务器你是通过哪个网址点进来的而不是凭空出现的,有些网站会检查。

• “饼干!”:——带上cookie,有时带不带饼干得到的结果是不同的,试着带饼干去“贿赂”服务器让她给你完整的信息。

3.headers的伪装—随机User-Agent

爬虫机制:很多网站都会对Headers的User-Agent进行检测,还有一部分网站会对Referer进行检测(一些资源网站的防盗链就是检测Referer)

随机User-Agent生成 :生成一个随机的User-Agent,这样你就可以是很多不同的浏览器模样。

如图:F12

User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36

这是本人Chrome的显示效果


3、python 库的介绍

Request ,Beautifulsoup,chardet(没用过)

Requests 库介绍:

官方样例:

      >>> import requests

      >>> r = requests.get('https://www.python.org')

      >>> r.status_code

      200

      >>> 'Python is a programming language' in r.content

      True

    ... or POST:

      >>> payload = dict(key1='value1', key2='value2')

      >>> r = requests.post('https://httpbin.org/post', data=payload)

      >>> print(r.text)

      {

        "form": {

          "key2": "value2",

          "key1": "value1"

        }

      }

你可能感兴趣的:(Python数据分析入门----从数据获取到可视化(数据抓取实践)---day2)