Python数据采集与处理之网页爬取

第1关:request模块的基本使用

任务描述
本关我们将使用 Python 程序,实现通过网页的 url,获得服务器返回的超文本文件,并保存到 txt 文件的功能。

相关知识
下面通过文字进一步详细描述获取网页并保存至本地的实现方法。

访问 url 的get()和post()方法
当我们想要在浏览器中打开一个网页时,需要在浏览器的地址栏中输入该网页的 url,例如在地址栏中输入百度搜索网站的首页 url:
https://www.baidu.com/

点击确认后,浏览器将向服务器发出一个对该网页的请求;服务器端收到请求后,会返回该网页的超文本文件,浏览器收到服务器端发来的网页超文本文件后,对其进行解析,然后在窗口中显示该超文本文件对应的网页。如图 1 所示。

Python 提供了 requests 模块用来处理网页的 url,主要有 get() 和 post() 两个方法,分别对应网页的 Get 请求和 Post 请求。get() 和 post() 方法有以下几个参数:

url:指定请求 URL;

params:字典类型,指定请求参数,GET 请求时使用;

data: 字典类型,指定表单信息,常用于发送 POST 请求;

headers:字典类型,指定请求头;

proxies:字典类型,指定使用的代理;

cookies:字典类型,指定 Cookie;

auth:元组类型ÿ

你可能感兴趣的:(Educoder实训,python,http,开发语言)