Python爬虫入门(一):基础知识

  • 本博客是《Python爬虫入门》系列的第一篇博客,主要介绍爬虫涉及到的一些基础知识,如HTTP协议、网页基础知识、Requests库的基本用法等
  • 学习交流请联系 [email protected]

文章目录

  • 基本概念
    • 互联网
    • HTTP协议
      • 简介
      • 操作
  • 网页基础
    • 网页组成
    • 网页结构
    • HTML DOM
    • 使用开发者工具检查网页
  • Requests库
    • 简介
    • 方法
    • 解析
      • requests.request()
      • requests.get()
      • requests.head()
      • requests.post()
      • requests.put()
      • requests.patch()
      • requests.delete()
    • 框架
  • 示例
    • 京东商品页面爬取
    • 网络图片爬取
    • 豆瓣TOP250榜单爬取
  • 参考资源

基本概念

互联网

  • 互联网也叫因特网(Internet),是指网络与网络所串联成的庞大网络,这些网络以一组标准的网络协议族相连,连接全世界几十亿个设备,形成逻辑上的单一巨大国际网络。
  • 它由从地方到全球范围内几百万个私人的、学术界的、企业的和政府的网络所构成。通过电子、无线和光纤等一系列广泛的技术来实现。
  • 这种将计算机网络互相连接在一起的方法可称作“网络互联”,在此基础上发展出来的覆盖全世界的全球性互联网络称为“互联网”,即相互连接在一起的网络。

提示:
互联网并不等于万维网(WWW),万维网只是一个超文本相互链接而成的全球性系统,而且是互联网所能提供的服务之一。互联网包含广泛的信息资源和服务,例如相互关联的超文本文件,还有万维网的应用,支持电子邮件的基础设施、点对点网络、文件共享,以及IP电话服务。

HTTP协议

简介

  • HTTP(Hypertext Transfer Protocol)协议,即超文本传输协议,是一个基于“请求与响应”模式的、无状态的应用层协议
  • HTTP协议采用URL作为定位网络资源的标识,URL格式为http://host[:port][path]
    • host:合法的Internet主机域名或IP地址
    • port:端口号,缺省端口为80
    • path:请求资源的路径
  • URL是通过HTTP协议存取资源的Internet路径,一个URL对应一个数据资源

操作

方法 说明
GET 请求获取URL位置的资源
HEAD 请求获取URL位置资源的响应消息报告,即获得该资源的头部信息
POST 请求向URL位置的资源后附加新的数据
PUT 请求向URL位置存储一个资源,覆盖原URL位置的资源
PATCH 请求局部更新URL位置的资源,即改变该处资源的部分内容
DELETE 请求删除URL位置存储的资源
TRACE 回显服务器收到的请求,主要用于测试或诊断
OPTIONS 使服务器传回该资源所支持的所有HTTP请求方法

网页基础

因为我们抓取的数据常来源于网页,因此有必要了解一下网页的基础知识。


网页组成

网页通常由 HTML 、 CSS 、JavaScript 三部分组成:

  • HTML 即超文本标记语言(Hypertext Markup Language),用来创建网页
  • CSS 即层叠样式表(Cascading Style Sheets),用于美化网页
  • JavaScript 用于用户和网页之间的交互

我们打开 Chrome 浏览器,访问博客站的首页,打开 F12 开发者工具,可以看到:
Python爬虫入门(一):基础知识_第1张图片
在选项 Elements 中可以看到网页的源代码,这里展示的就是 HTML 代码

  • 不同类型的文字通过不同类型的标签来表示,如图片用 标签表示,视频用 标签表示,段落用

    标签表示,它们之间的布局又常通过布局标签

    嵌套组合而成,各种标签通过不同的排列和嵌套才形成了网页的框架
  • 在右边 Style 标签页中,显示的就是当前选中的 HTML 代码标签的 CSS 层叠样式。层叠是指当在HTML中引用了数个样式文件,并且样式发生冲突时,浏览器能依据层叠顺序处理。“样式”指网页中文字大小、颜色、元素间距、排列等格式
  • JavaScript 在 HTML 代码中常用

你可能感兴趣的:(Python)