爬虫前哨(1)--url是什么

url:统一资源定位符,是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。

举个例子:我在浏览器中输入:www.baidu.com(建议使用谷歌浏览器) ,就会出现百度的首页。我们得到的百度的首页,就是我们从互联网上得到的资源。那这个资源放在哪里呢,就放在“www.baidu.com”这个地址中。

现在我们来说说互联网是什么,根据名字理解意思,互联网就是互相连接的网络。刚开始人们将电脑互相连接起来通信。

电脑连接起来

我们把只有少数几个电脑相互连接称为局域网,比如说一个学校,因为地域较小,连接不广。可是少数几个电脑的资源比较有限,我们把一个城市的计算机都连接起来,叫做城域网,同样的,我们把世界上所有的网络都连接起来,我们叫它因特网,所谓因特,是指英文Inter, international是国际的意思,所谓因特网,就是指国际网络。而互联网,则指一切相互连接的网络。

那么现在小明买了一台电脑连了网,我要把一个消息发给小明。互联网上面那么多电脑,我怎么知道小明的电脑是哪个呢,所以我们给了互联网上所有的电脑都做了记号,我们叫它ip地址,只要找到ip地址,我们就可以找到小明的电脑。比如IP地址:167.167.1.1,由四个点和四个数字组成。而每位数字最大三位数,那也就是说世界上就那么多ip地址,但电脑却是却来越多,手机,手表,智能手环,都需要接入到网络中。很明显,ip就会不够用,所以科学家们在ip地址第四版的基础上进行改进,发明了ip地址第六版,于是前面的叫ipv4,后面的叫ipv6。而ipv6则很好地解决了地址不够用的问题。

现在我要访问小明的电脑可以吗?不可以,对吧。为什么呢,小明的电脑没有开放共享。但网络上有一些电脑是开放网络的,比如说我刚才打开百度首页,我输入了url,url就是在网络上定位资源服务器的地址。我们把这种和我们一般的IP地址不同的地址称为域名。通过域名就可以直接请求百度那边的电脑。我们把百度提供资源的电脑称为服务器,而把我们自己使用的电脑称为客户机。在访问时,客户机发送请求(request),服务器回送响应(response)。

那我们开始学习第一个爬虫,在此之前,我希望你正直,勤奋。零基础什么的都无所谓。(建议下载安装Sublime,并配置环境变量,下载安装库,请看我的文章《Sublime 下载安装,以及配置》,《库的使用以及安装》)

import requests

r = requests.get("https://www.baidu.com")

print(r.text)


第一个爬虫

import (引入)requests(这是一个库),库就相当于一个房子,里面装满了各种各样的工具,那么requests库是干什么的呢,一看单词意思就明白,是用来发起互联网请求的。而requests.get就是这个大房子中的一个得到响应内容的工具。我们把它得到的响应内容找了一张白纸条,写上“r”,r就是它的名字了。那么给了名字之后怎么办呢,可以看到我们最后一行说print(r.text),print(打印),打印r.text,text(文本),很明显,就是说让它以文本的方式打印出来,编译,运行,结果就出来了。


有的朋友就问了,我不叫r行的不,叫他张三,李四可以不,答案是可以的。不信?我们来试试。


改为张三之后

得到的结果,

改为张三后的结果

6不6,好玩吧,大家可以慢慢试试玩玩,也可以多找一些其他的网站域名链接试试,看看能不能抓取下来。下次我们讲讲为什么网站域名前面还会有https,http这些东西,他们究竟又是什么,有些什么作用呢?

ps:有朋友可能会问为什么上面的一大串都看不懂,哈哈,其实那是因为乱码的原因,因为电脑只能识别01010101的机器码,所以把我们的语言都需要经过编码转化为010101010,而各国的语言都有不同,所以编码不同,现在较为常用的编码为“utf-8”,故将上面的编码改为“utf-8”即可。

你可能感兴趣的:(爬虫前哨(1)--url是什么)