python标准库模块之urllib

urllib

urllib 是一个收集了多个涉及 URL 的模块的包:

urllib.request 打开和读取 URL

urllib.error 包含 urllib.request 抛出的异常

urllib.parse 用于解析 URL

urllib.robotparser 用于解析 robots.txt 文件

urllib.request

urllib.request 模块定义了适用于在各种复杂情况下打开 URL(主要为 HTTP)的函数和类 --- 例如基本认证、摘要认证、重定向、cookies 及其它。

函数和类等官方解读链接:

https://docs.python.org/zh-cn/3/library/urllib.request.html#module-urllib.request

urllib.error

urllib.error 模块为 urllib.request 所引发的异常定义了异常类。 基础异常类是 URLError。

详细解读官方文档:

https://docs.python.org/zh-cn/3/library/urllib.error.html#module-urllib.error

urllib.parse

URL 解析,此模块定义了一个标准接口,用于将统一资源定位器(URL)字符串拆分为各部分(如:寻址方案、网络位置、路径等),并将各部分重新组合回URL字符串,并将“相对URL”转换为给定“基本URL”的绝对URL(to combine the components back into a URL string, and to convert a "relative URL" to an absolute URL given a "base URL.")

各函数接口官方解读链接:

https://docs.python.org/zh-cn/3/library/urllib.parse.html#module-urllib.parse

urllib.robotparser

此模块提供了一个单独的类 RobotFileParser,它可以回答关于某个特定用户代理是否能在 Web 站点获取发布 robots.txt 文件的 URL 的问题。 有关 robots.txt 文件结构的更多细节请参阅 http://www.robotstxt.org/orig.html。

官方详细介绍:

https://docs.python.org/zh-cn/3/library/urllib.robotparser.html#module-urllib.robotparser

PS:周旋了一圈,还是不了解爬虫的概念和应用,打算再看看视频和书籍打打基础。

你可能感兴趣的:(python标准库模块之urllib)