从0开始学Python:(1)爬虫基本原理

直接上手爬虫项目,对好多东西一知半解,这里梳理写关于爬虫的基础知识.

视屏学习 https://edu.hellobi.com/course/156/lessons

爬虫

获取网页并提取和保存信息的自动化程序
1.获取网页
获取网页的源代码(响应体)
2.提取信息
采用正则表达式提取
3.保存数据
4.自动化程序
自动进行各种异常处理,错误重试

能抓的数据类型

HTML代码
JSON字符串
二进制数据
CSS,JavaScript和配置文件

JavaScript渲染页面

可以使用Selenium,Splash库来实现

会话和Cookies

静态网页和动态网页

动态解析URL中参数的变化,关联数据库并动态呈现不同的页面内容

无状态HTTP

HTTP协议对事物处理没有记忆,分辨用户,通过用户请求时自动附带保存在客户端的Cookies

1.会话
指有始有终的一系列动作消息
2.Cookies
辨别用户身份,进行会话跟踪
3.会话维持
Set-Cookie
4.属性结构


从0开始学Python:(1)爬虫基本原理_第1张图片
Unknown.png

5.会话Cookie和持久Cookie
存储地不同

你可能感兴趣的:(从0开始学Python:(1)爬虫基本原理)