【python爬虫自学笔记】------理解URI和URL

URI

Web上每种可用的资源,如HTML文档、图像、视频片段、程序都由一个通用资源标识符(Universal Resource Identifier,URI)进行定位。

URI通常由三部分组成:

  1. 访问资源的命名机制;
  2. 存放资源的主机名;
  3. 资源自身的名称,由路径表示;

如下面的URI:
http://www.why.com.cn/myhtml/html1223/

我们可以这样解释它:

①这是一个可以通过HTTP协议访问的资源,

②位于主机 www.webmonkey.com.cn上,

③通过路径“/html/html40”访问。 

URL

URL是URI的一个子集,(Uniform Resource Locator),URL是Internet上描述信息资源的字符串,主要用在各种WWW客户程序和服务器程序上,采用URL可以用一种统一的格式来描述各种信息资源,包括文件、服务器的地址和目录等。

URL的一般格式为(带方括号[]的为可选项):

protocol :// hostname[:port] / path / [;parameters][?query]#fragment

URL的格式由三部分组成:

  1. 协议(服务方式);
  2. 存放该资源的主机IP地址(有时包括端口号);
  3. 主机资源的具体地址,如目录和文件名等;(可省略)

比较

  • URI属于URL更低层次的抽象,一种字符串文本标准。URI属于父类,而URL属于子类,URL是URI的子集。
  • URI定义是:统一资源标识符;URL定义是:统一资源定位符。
  • URI表示请求服务器的路径,定义一个资源,而URL需要同时说明如何访问这个资源。

URL举例

1、HTTP协议的URL
使用超级文本传输协议HTTP,提供超级文本信息服务的资源。 

例:http://www.peopledaily.com.cn/channel/welcome.htm 

其计算机域名为www.peopledaily.com.cn。

超级文本文件(文件类型为.html)是在目录 /channel下的welcome.htm。

这是中国人民日报的一台计算机。 

例:http://www.rol.cn.net/talk/talk1.htm 

其计算机域名为www.rol.cn.net。

超级文本文件(文件类型为.html)是在目录/talk下的talk1.htm。

这是瑞得聊天室的地址,可由此进入瑞得聊天室的第1室。


2.文件的URL
用URL表示文件时,服务器方式用file表示,后面要有主机IP地址、文件的存取路 径(即目录)和文件名等信息。

有时可以省略目录和文件名,但“/”符号不能省略。 

例:file://ftp.yoyodyne.com/pub/files/foobar.txt 

上面这个URL代表存放在主机ftp.yoyodyne.com上的pub/files/目录下的一个文件,文件名是foobar.txt。

例:file://ftp.yoyodyne.com/pub 

代表主机ftp.yoyodyne.com上的目录/pub。 

例:file://ftp.yoyodyne.com/ 

代表主机ftp.yoyodyne.com的根目录。 

爬虫最主要的处理对象是URL,根据URL地址取得所需要的文件内容,再进行进一步处理。

参考:https://blog.csdn.net/pleasecallmewhy/article/details/8922826

你可能感兴趣的:(python)