爬虫基础

爬虫基于B/S模式的数据采集技术
B-------->浏览器 S------->服务器

爬虫的基本结构
网络请求 ----->浏览器请求服务器的网页
网页解析 ----->目标数据爬取
----->爬取驱动逻辑
数据保存

在这里插入图片描述
以上网址代表的意义
协议 主页网址 目标资源地址 传递参数

HTTP协议
HTTP:是互联网上应用最为广泛的一种网络协议,是一个客户端和服务器端请求和应答的标准(TCP),用于从WWW服务器传输超文本到本地浏览器的传输协议,它可以使浏览器更加高效,使网络传输减少。

特点:
无连接的
无状态的
允许传送任何类型的数据对象

http协议的请求方法get, post
get:以显示方法向服务器发送请求
post:向指定资源提交数进行处理请求
表单
上传文件

你可能感兴趣的:(爬虫基础)