爬虫基础

爬虫基础

  • 写在前面
  • 一,HTTP基础
    • 1,URI与URL
    • 2,超文本(hypertext)
    • 3,数据传输协议
    • 4,HTTP请求过程
    • 5,请求
    • 6,相应
  • 二,网页基础
    • 1,HTML
    • 2,CSS
    • 3,CSS选择器
    • 4,JavaScript
  • 三,爬虫基本原理
    • 1,爬虫的种类
    • 2,爬虫抓取数据的工具和流程
  • 四,Session与Cookie

写在前面

见到很多新名词,自己敲一遍加深记忆

一,HTTP基础

1,URI与URL

  • URL:Uniform Resource Location,统一资源定位符
  • URI:Uniform Resource Identifier,统一资源标识符
  • URN:Universal Resource Name,统一资源名字

URN和URL是URI的子集
爬虫基础_第1张图片

用一个链接举例子:https://geekori.com/source.php?tag=52
这个链接既是URL也是URI,我们可以通过链接指定访问协议(http)、访问域名(geekoricom)、访问路径(source.php)和参数(?tag=52)

2,超文本(hypertext)

爬虫基础_第2张图片

3,数据传输协议

  • HTTP:Hyper Text Transfer Protocol,超文本传输协议
  • HTTPS:Hyper Text Transfer Protocol over Secure Socket Layer,安全的HTTP协议
  • 还有FTP、SFTP、SMB协议等

4,HTTP请求过程

5,请求

  • 请求方法
  • 请求链接
  • 请求头
  • 请求体

6,相应

  • 响应状态码
  • 响应头
  • 相应体

二,网页基础

1,HTML

  • HTML:Hyper Text Markup Language,超文本标记语言
    主要作用:
    HTML 用不同的标记表示各种节点,这些节点可以组成任意复杂的网页

2,CSS

  • css:Cascading Style Sheets,层叠式样表
    主要作用:
    1,布局:将由HTML定义的页面节点安排到合适的位置
    2,设置页面节点的样式

3,CSS选择器

作用:过滤HTML代码中符合条件的节点

4,JavaScript

JavaScript简称JS,是一种脚本语言
HTML与CSS配合只能让Web更美观,但是无法提供动态效果,JavaScript能让Web显示动态效果

三,爬虫基本原理

1,爬虫的种类

可按照爬取的数据范围进行分类

  1. 全网爬虫:用于抓取整个互联网的数据,主要用于搜索引擎的数据源
  2. 站内爬虫:与全网爬虫类似,只适用于抓取站内的网络资源,主要哟用于企业内部的搜索引擎的数据源
  3. 定向爬虫:专门获取某种特定的数据
    可按照爬取的内容和方式进行分类
  4. 网页文本爬虫
  5. 图像爬虫
  6. js爬虫
  7. 异步数据爬虫,主要抓取基于AJAX的系统数据
  8. 抓取其他数据的爬虫(如word、excel、pdf等)

2,爬虫抓取数据的工具和流程

工具:python,第三方库
流程:获取,分析,提纯,保存,使用

四,Session与Cookie

  1. Session:将数据保存到服务器端
  2. Cookie:将数据保存在客户端

你可能感兴趣的:(爬虫,Python学习)