简述 URL 并分别说明各部分的含义

转自:http://blog.csdn.net/dzhj11/article/details/9194999

统一资源定位符(URL)是用于完整地描述Internet上网页和其他资源的地址的一种标识方法。
  Internet上的每一个网页都具有一个唯一的名称标识,通常称之为URL地址,这种地址可以是本地磁盘,也可以是局域网上的某一台计算机,更多的是Internet上的站点。简单地说,URL就是Web地址,俗称“网址”。
  URI 方案集,包含如何访问 Internet 上的资源的明确指令。
  URL 是统一的,因为它们采用相同的基本语法,无论寻址哪种特定类型的资源(网页、新闻组)或描述通过哪种机制获取该资源。 
  对于 Internet 服务器或万维网服务器上的目标文件,可以使用“统一资源定位符 (URL)”地址(该地址以“ http://”开始)。Web 服务器使用“超文本传输协议 (HTTP)”,一种“幕后的”Internet 信息传输协议。例如, http://www.microsoft.com/ 为 Microsoft 网站的万维网 URL 地址。
  URL的一般格式为(带方括号[]的为可选项):
  protocol :// hostname[:port] / path / [;parameters][?query]#fragment [编辑本段]格式说明:   URL的组成
  URL由三部分组成:协议类型主机名路径及文件名。通过URL可以指定的主要有以下几种:http、ftp、gopher、telnet、file等。
  1、protocol(协议):指定使用的传输协议,下表列出 protocol 属性的有效方案名称。 最常用的是HTTP协议,它也是目前WWW中应用最广的协议。 
  file 资源是本地计算机上的文件。格式file:// 
  ftp 通过 FTP访问资源。格式 FTP://
  gopher 通过 Gopher 协议访问该资源。 
  http 通过 HTTP 访问该资源。 格式 HTTP:// 
  https 通过安全的 HTTPS 访问该资源。 格式 HTTPS://
  mailto 资源为电子邮件地址,通过 SMTP 访问。 格式 mailto:
  MMS 通过 支持MMS(流媒体)协议的播放该资源。(代表软件:Windows Media Player)格式 MMS://
  ed2k 通过 支持ed2k(专用下载链接)协议的P2P软件访问该资源。(代表软件:电驴) 格式 ed2k://
  Flashget 通过 支持Flashget:(专用下载链接)协议的P2P软件访问该资源。(代表软件:快车) 格式 Flashget://
  thunder 通过 支持thunder(专用下载链接)协议的P2P软件访问该资源。(代表软件:迅雷) 格式 thunder://
  news 通过 NNTP 访问该资源。
  tencent 通过支持tencent(专用聊天连接) 协议和用户对话。(代表软件:QQ、TM)格式 tencent://message/?uin=号码&Site=&Menu=yes
  msnim 通过支持msnim(专用聊天连接) 协议和用户对话。(代表软件:MSN、WLM) 格式 msnim:chat?contact=邮箱地址
  2、hostname(主机名):是指存放资源的服务器的域名系统 (DNS) 主机名或 IP 地址。有时,在主机名前也可以包含连接到服务器所需的用户名和密码(格式:username:password)。
  3、port(端口号):整数,可选,省略时使用方案的默认端口,各种传输协议都有默认的端口号,如http的默认端口为80。如果输入时省略,则使用默认端口号。有时候出于安全或其他考虑,可以在服务器上对端口进行重定义,即采用非标准端口号,此时,URL中就不能省略端口号这一项。
  4、path(路径):由零或多个“/”符号隔开的字符串,一般用来表示主机上的一个目录或文件地址。
  5、;parameters(参数):这是用于指定特殊参数的可选项。
  6、?query(查询):可选,用于给动态网页(如使用CGI、ISAPI、PHP/JSP/ASP/ASP.NET等技术制作的网页)传递参数,可有多个参数,用“&”符号隔开,每个参数的名和值用“=”符号隔开。
  7、fragment,信息片断,字符串,用于指定网络资源中的片断。例如一个网页中有多个名词解释,可使用fragment直接定位到某一名词解释。
  注意,Windows 主机不区分 URL 大小写,但是,Unix/Linux 主机区分大小写。 [编辑本段]URL定位标识说明  下面列表是常见的URL中定位和标识的服务或文件:
  http:文件在WEB服务器上.
  file:文件在您自己的局部系统或匿名服务器上
  ftp:文件在FTP服务器上
  gopher:文件在gopher服务器上
  wais:文件在wais服务器上
  news:文件在Usenet服务器上
  telnet:连接到一个支持Telnet远程登录的服务器上
  URL转发 
  所谓URL转发,是通过服务器的特殊设置,将访问您当前域名的用户引导到您指定的另一个网络地址。例如,URL转发可以让用户在访问 http://www.abc.com时,自动转向访问到一个您自己指定的网址“ http://www.123.com”,URL转发功能是万网提供的域名注册后的增值服务。
  URL发展背景 
  URL也被称为网页地址,是因特网上标准的资源的地址(Address)。它最初是由蒂姆·伯纳斯-李发明用来作为万维网的地址的。现在它已经被万维网联盟编制为因特网标准RFC1738了。在因特网的历史上,统一资源定位符的发明是一个非常基础的步骤。统一资源定位符的语法是一般的,可扩展的,它使用ASCII代码的一部分来表示因特网的地址。统一资源定位符的开始,一般会标志着一个计算机网络所使用的网络协议。
  相关资料 
  URI方案集
  包含如何访问Internet上的资源的明确指令。
  URL是统一的,因为它们采用相同的基本语法,无论寻址哪种特定类型的资源(网页、新闻组)或描述通过哪种机制获取该资源。对于Internet服务器或万维网服务器上的目标文件,可以使用“统一资源定位符(URL)”地址(该地址以“ http://”开始)。Web服务器使用“超文本传输协议(HTTP)”,一种“幕后的”Internet信息传输协议。例如, http://www.microsoft.com/为Microsoft网站的万维网URL地址。
  统一资源定位符与统一资源标志符
  统一资源定位符是统一资源标志符的一个变种。统一资源标志符确定一个资源,而统一资源定位符不但确定一个资源,而且还表示出它在哪里。比如下面的统一资源标志符确定因特网工程工作组RFC1738,但并没有说出在哪里才找得到这份资料:urn:ietf:rfc:1738。而下面这些统一资源定位符则确定每个RFC1738文献,而且还确定这些文献在哪里找得到:
  * http://www.ietf.org/rfc/rfc1738.txt
  * http://www.w3.org/Addressing/rfc1738.txt
  * http://rfc.sunsite.dk/rfc/rfc1738.html
  历史上几乎所有的统一资源标志符都是统一资源定位符,因此这篇文章中所介绍的许多内容对两者来说都是一样的。
  统一资源定位符体制:每个统一资源定位符的开始都是该统一资源定位符的体制,其后是按体制不同的部分。
  统一资源定位符的日常使用
  超文本传输协议统一资源定位符将从因特网获取信息的四个基本元素包括在一个简单的地址中:
  1. 传送协议;
  2. 服务器;
  3. 端口号;
  4. 路径。
  典型的统一资源定位符看上去是这样的:
   http://zh.wikipedia.org:80/wiki/Special:Search?search=铁路&go=Go
  其中:
  1. http,是协议;
  2. zh.wikipedia.org,是服务器;
  3. 80,是服务器上的网络端口号;
  4. /wiki/Special:Search,是路径;
  5. ?search=铁路&go=Go,是询问。
  大多数网页浏览器不要求用户输入网页中「http://」的部分,因为绝大多数网页内容是超文本传输协议文件。同样,「80」是超文本传输协议文件的常用端口号,因此一般也不必写明。一般来说用户只要键入统一资源定位符的一部分(zh.wikipedia.org/wiki/铁路)就可以了。由于超文本传输协议允许服务器将浏览器重定向到另一个网页地址,因此许多服务器允许用户省略网页地址中的部分,比如 www。从技术上来说这样省略后的网页地址实际上是一个不同的网页地址,浏览器本身无法决定这个新地址是否通,服务器必须完成重定向的任务。 [编辑本段]URL结构说明  关于URL结构一般分为两个部分,一个是物理结构,一个是逻辑结构。在物理结构包括扁平结构和树型结构。扁平结构就是网站中所有的页面都是在根目录这一级别,形成一个扁平的物理结构。这比较适合于小型的网站,因为如果太多文件都放在根目录下的话,制作和维护起来比较麻烦。而树型结构的意义是在一级目录下分为多个频道或者称支为目录,然后目录下面再放上属于这个频道的页面,首页、频道首页、频道下的内容就好比树干、树枝、树叶的关系。逻辑结构就是由网页内部链接所形成的逻辑的或链接的网络图。比较好的情况是逻辑结构与前面的树型物理结构相吻合。
   
  如左图所示
  主页链接向所有的频道主页;主页一般不直接链接向内容页,除非是你非常想推的几个特殊的页;所有频道主页都连向其他频道主页;频道主页都连回网站主页;频道主页也连向属于自己本身频道的内容页;频道主页一般不连向属于其他频道的内容页;所有内容页都连向网站主页;所有内容页都连向自己的上一级频道主页;内容页可以连向同一个频道的其他内容页;内容页一般不连向其他频道的内容页;内容页在某些情况下,可以用适当的关键词连向其他频道的内容页。
   URL处理方式
  首先,需要注意URL的长度,在URL里最好不要超过3-5个关键词,如果超过5个关键词,该url的权重就会被相应的降低。
  其次,在URL中尽量不要出现重复。
  最后,切忌在命名的时候用.exe之类的后缀作为URL的结尾。 [编辑本段]统一资源定位器URL的作用  统一资源定位器(URL)是为了能够使客户端程序查询不同的信息资源时有统一访问方法而定义的一种地址标识方法。在Internet上所有资源都有一个独一无二的URL地址。

你可能感兴趣的:(爬虫相关)