爬虫基础知识-信息获取

信息获取

在浏览器上获取信息,数据,属于B/S架构通信模式(服务器与浏览器交互的模式),身为客户的你在浏览器上获取服务器的信息就是我们的交互流程。
身为服务端的服务器配置好自己的数据库,配置好自己的网页,开放自己的逻辑端口(浏览器默认访问的为80端口),供给获取信息的人们访问。

我们在浏览器上搜索自己想要获取的内容,输入一部分文字,敲下回车键,结果搜出来各个网页,这些网页结算到你的面前全都是搜索引擎的功劳,是由搜索引擎来收取各个网页信息,来把各个网页分类,匹配你在搜索框输入的内容,竭力给你内心想要的那个网站。

显示出各个网站,我们点击进去,那就是属于B/S架构通信模式了,你通过浏览器访问这个服务器,DNS服务器匹配你的域名(地址栏的东东),来给你ip地址(网站服务器的ip地址),你在通过ip地址访问这个服务器,ip地址是通信过程中每个通信设备必有得东西,在通信访问过程中,我们需要ip地址来获取方向,获取目的服务器的方向,通过路由协议(路由表,转发表)一步步的来到服务器的面前,通过它开放的逻辑端口揭开它的面纱,到达服务器,服务器通过你所请求的内容发回数据内容,这个数据内容在根据你的ip地址到达你的面前,这些数据是以html+css+js的方式所写的一些样例,如果我们以记事本的方式打开,那就是一大推英文,数字,符号。但我们的浏览器会将他们显示成一个美工学界面,是不是很有趣。
如果我们想要打开查看这些数据,那就可以数据抓包,我们可以在浏览器上抓包,也可以通过交换设备抓包(接入交换机),在这里我们只解释第一种,因为我们的核心还是python爬虫,在浏览器上通过F12打开开发者工具
爬虫基础知识-信息获取_第1张图片
它长这个熊样子,没有看到什么数据那是因为它没有进行数据交互,有可能你打开的网页是个静态界面,没有动态图片的展示过程,不用担心,我们点击地址栏左边的刷新按钮他就会有数据弹出,这里我们抓取百度的网页展示一下
爬虫基础知识-信息获取_第2张图片
我左边栏里已经点击baidu.com这个文件内容了,右边是读取的一些信息
如果我们想要看完整的代码,那就从你想要查看源码的网页内点击右键,查看网页源代码就可以出现你想要看的源码内容
爬虫基础知识-信息获取_第3张图片
源代码是不是没有想象的那么好看哈哈

本章属于发散文章,对于具体知识真是献丑一说,觉得有意思的感兴趣的可以查看其它的博客进以参考,恳请大家莫要喷洒自己的口水

你可能感兴趣的:(爬虫,爬虫,搜索引擎,http)