MOOC_Python网络爬虫与信息提取课程笔记(一)

1.网络爬虫的requests库:

import requests
r=requests.get("http://www.baidu.com")
r.status_code#返回状态编码

结果返回为200,表示连接成功,404则表示连接失败

import requests
r=requests.get("http://www.baidu.com")
r.status_code
r.encoding='utf-8'#相映的编码形式
r.text#打印网页内容

requests库的7个主要用法:


image.png

request.get(url,params=None,**kwargs)
url为抓取页面的url链接
params为url中的额外参数,字典或字节流的格式,可选
**kwargs:12个控制方位的参数

response对象的属性:


image.png

两种编码的区别:


MOOC_Python网络爬虫与信息提取课程笔记(一)_第1张图片
image.png

encoding方法只分析头部内容,而apparent_encoding方法根据内容分析编码的格式,所以apparent_encoding方法更加准确

requests库的异常:


MOOC_Python网络爬虫与信息提取课程笔记(一)_第2张图片
image.png

爬取网页的通用代码框架:


MOOC_Python网络爬虫与信息提取课程笔记(一)_第3张图片
image.png

这里使用了raise_for——status方法获得抓取网页的状态,如果错误则触发异常

HTTP协议:超文本传输协议的格式:


image.png

eg:htttp://220.181.111.188/duty 指的是IP地址220.181.111.188的主机上的duty这样的一个文件夹下的资源

MOOC_Python网络爬虫与信息提取课程笔记(一)_第4张图片
image.png

requests库中的request方法:
reequest实际上是requests库的唯一方法,其他的都是利用request方法封装的方法


image.png

利用params参数可以在url中增加参数


image.png

data参数


image.png

json参数


image.png

headers参数


image.png

files参数:可以向特定url传输文件


MOOC_Python网络爬虫与信息提取课程笔记(一)_第5张图片
image.png

timeout参数:


image.png

proxies参数:


image.png

其他参数:


image.png

image.png

你可能感兴趣的:(MOOC_Python网络爬虫与信息提取课程笔记(一))