python爬虫如何从一个页面进入另一个页面-爬虫入门(一)——如何打开一个网页...

做了一段时间自然语言处理的项目,体会到了爬虫的乐趣,甚至一度产生了学好爬虫真的可以为所欲为的美妙错觉。因此决定开个坑,记录自己的爬虫学习过程,也督促自己学习更高深的爬虫姿势。目前我只用到了最基础的爬虫知识,在此进行整理记录,以便在老年痴呆不定时记忆清零时可以快速回忆起来。

本文介绍在python下,如何利用爬虫实现最简单的网页获取,包括data参数、headers参数的设置,以及cookie的使用。因为本身是小白,所以写得也比较小白。需要更加深入学习的读者建议参考Jack-Cherish的系列博客python3网络爬虫入门。

网络爬虫,又称网页蜘蛛,网络机器人,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。爬虫是根据网页的URL来寻找网页并进行信息获取的。URL,统一资源定位符,俗称网址,例如B站首页的URL为 https://www.bilibili.com/(好像暴露了肥宅属性,咳咳)。

1. urllib.request——打开网页的基础模块

当我们知道一个网站的URL时,使用python下的urllib组件,即可实现简单的网页抓取。urllib组件的主要模块有:

urlib.request: 打开和读取url

urllib.error: 包含由request产生的错误

url.parse: 解析url

通过urllib.request.urlopen()这个函数接口就可以打开一个网站,它主要有url与data两个输入参数。url用于输入网址以及一些其他设置。data参数用于向服务器传输数据以实现与网页的交互,将在第二部分进行介绍。

urllib.request.urloprn(url, data=None)

向urlopen()传入

你可能感兴趣的:(python爬虫如何从一个页面进入另一个页面-爬虫入门(一)——如何打开一个网页...)