第14.3节 使用google浏览器获取网站访问的http信息

为了简单处理,本次介绍的内容是基于网站已经登录的情况下去获取网页访问的http信息。
首先需要使用谷歌浏览器登录指定网站,并访问需要爬取的网页,如老猿使用谷歌浏览器登录csdn,并访问老猿Python的主页:https://blog.csdn.net/LaoYuanPython。
等网页内容呈现后,按F12键调出开发者工具,缺省情况下开发者工具会在当前网页右边的叠加窗口呈现,如图黄色标记区域:
第14.3节 使用google浏览器获取网站访问的http信息_第1张图片
该窗口也可能出现在左边、下边,但这种模式使用不是很方便,可以点击上图中右上角蓝色标记的三个竖点,选择:Dock side(窗口出现位置)中的第一个选项如下:
第14.3节 使用google浏览器获取网站访问的http信息_第2张图片
将开发者工具分离成单独窗口,分离后的窗口如下:
第14.3节 使用google浏览器获取网站访问的http信息_第3张图片
上面窗口中黄色标记部分是开发者工具的菜单,老猿目前就用了两个:Elements、Network,其中Elements可以支持选择对应的网页html元素进行拷贝,在开发者工具的Elements菜单显示html文档后通过Ctrl+F输入查找字符串定位或直接在网页上选择到需要拷贝的内容鼠标右键选择“检查(或Inspect,如下图)”定位到对应网页内容对应的元素,在转载网页内容时比较方便。
第14.3节 使用google浏览器获取网站访问的http信息_第4张图片
我们重点是要使用Network对应功能,选择后出现如下窗口:
第14.3节 使用google浏览器获取网站访问的http信息_第5张图片
为了避免干扰,先点击上图黄色标记所示的按钮执行下面窗口信息的清除,然后到网页所在窗口执行网页刷新,再回到开发者工具窗口点击左上角上图蓝色标记的停止记录按钮,此时会在窗口中保留网页刷新对应的http消息,点击第一条出现如下窗口:
第14.3节 使用google浏览器获取网站访问的http信息_第6张图片
上图右边黄色标记部分就是访问https://blog.csdn.net/LaoYuanPython对应的http请求头信息,下面我们来详细看看这些信息:
第14.3节 使用google浏览器获取网站访问的http信息_第7张图片
上面这些黄色标记的信息是编写爬虫需要重点关注的http请求报文头的内容:
 User-Agent:这个是表明使用的哪个浏览器的,关于其来历可参考一下《转:为什么浏览器的user-agent字符串以’Mozilla’开头呢?》https://blog.csdn.net/LaoYuanPython/article/details/100086652,具体取值网上可以查一下。
 Accept:这个是表明本机作为客户端浏览器可接受的MIME类型(互联网媒体类型),就是本机能识别处理的互联网信息类型
 Accept-Encoding: Accept - Encoding:浏览器能够进行解码的数据编码方式,如gzip, deflate, br等;
 Accept-Language: 客户端浏览器所希望的语言种类,当服务器能够提供一种以上的语言版本时要用到,如zh-CN,zh;q=0.9等;
 Connection:表示是否需要持久连接,keep-alive表示是持久连接;
 cookie:会话cookie信息。
这样我们就获取到了一个网页访问的http请求报文的报文头信息,除了请求头信息还有个信息需要关注,就是下图黄色标记的General信息:
第14.3节 使用google浏览器获取网站访问的http信息_第8张图片
其中:
 Request URL记录发送请求的网页地址;本例中是https://blog.csdn.net/LaoYuanPython
 Request Method:是报文发送的方法,在本例中是get方法,相关http方法请参考《转:解析HTTP协议六种请求方法,get,head,put,delete,post有什么区别》
 Status Code:请求服务端应答,200表示成功访问。具体应答码含义请参考《HTTP响应报文应答状态码及含义》

这样我们就获取了http请求的相关信息,同样,我们通过浏览器可以获取响应报文相关的信息,大家可以试试。
通过Google浏览器,我们可以很方便的捕获浏览器访问网页的相关信息,并复制相关有用的信息供应用程序使用。

老猿Python,跟老猿学Python!
博客地址:https://blog.csdn.net/LaoYuanPython
老猿Python博客文章目录:https://blog.csdn.net/LaoYuanPython/article/details/98245036
请大家多多支持,点赞、评论和加关注!谢谢!

你可能感兴趣的:(老猿Python,互联网知识,爬虫,google,开发者工具,获取http信息,网络爬虫,编程语言)