requests是基于urlib3的用于发起http请求的python第三方库,使用方便,响应快速。
打开cmd输入以下命令
pip install requests
import requests
构造一个向服务器请求资源的requests对象,返回一个包含服务器资源的response对象
response=requests.get(url, params=None, **kwargs)
get()
常用参数 了解这几个参数对于一般爬虫基本够用了
偶尔用的参数
post()也可以发起请求:
requests.post(url, data=None, json=None, **kwargs)
post和get用法差不多,也是对http发起请求的方法。根据经验,一般人浏览网页时点进去的页面都是get方法进行请求的,而浏览器自行加载的那些请求有时是get有时是post,get使用频率较高。具体情况具体分析。
response.text
response.content
response.json()
response.raise_for_status#返回http请求的状态,值为200是表示请求成功
response.encoding=response.apparent_encoding#让乱码安照本来内容的编码方式编码
代码如下(示例):
import requests
url='https://blog.csdn.net/'#指定一个要爬取的页面
headers={
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.82 Safari/537.36 Edg/89.0.774.50'}#伪装为浏览器
response=requests.get(url=url,headers=headers)
print(response.text)#输出结果正常!
爬虫基本流程点此进入