认识爬虫 http

文章目录

  • HTTP与HTTPS
    • 应用架构
    • HTTP协议
    • HTTP请求流程
    • url
    • HTTP请求格式
    • HTTP请求方法
    • HTTP请求头
    • HTTP请求正文
    • HTTP响应
      • 状态码
    • HTTP响应状态码
    • HTTP响应报头
    • HTTP协议特点
    • HTTPS协议
  • 爬虫的概念
    • 爬虫的概念和作用
    • 爬虫的应用
    • 爬虫开发的重难点
  • 会话技术
    • cookie
    • session
  • 利用socket下载一张图片
    • 代码:

HTTP与HTTPS

应用架构

  • 互联网的飞速发展是商业经济推动的,目前几乎所有的商业应用都是基于互联网的,他们一般采用c/s架构,b/s架构或者m/s架构
  • c/s即client server 客户端 服务端
  • b/s即browser server 浏览器 服务端
  • m/s即moblie server 移动端 服务端

HTTP协议

  • 目前互联网上90%的网络传输都是基于http协议
  • HTTP是Hyper Text Transfer Protocol(超文本传输协议)的缩写,是用于从万维网(WWW:World Wide Web)服务器传输超文本到本地浏览器的传送协议
  • HTTP是一个基于TCP/IP通信协议来传递数据(HTML文件,图片文件,查询结果等)
  • http是应用层协议
  • tcp/ip是通信层协议,基与socket
  • HTTP 是一种发布和接收 HTML 页面的方法,服务器端口是 80 端口
  • HTTPS 是 HTTP 协议加密版本,在 HTTP 下加了 SSL 层,服务器端口是 443

HTTP请求流程

  • 一次http请求的基本流程是:有客户端向服务端发起一次请求(request),而服务器在接收到以后返回给客户端一个响应(response),所以一次完整的http请求包含请求和响应两部分
  • 默认的http协议端口为80端口
  • 网页打开第一个请求是HTML

url

url中文名叫全球统一资源定位符

HTTP请求格式

HTTP请求方法

HTTP请求头

HTTP请求正文

  • 请求正文通常是使用POST方法进行发送的数据,GET方法是没有请求正文的
  • 请求正文跟上面的消息报头是由一个空行隔开

HTTP响应

状态码

参考:https://baike.baidu.com/item/HTTP%E7%8A%B6%E6%80%81%E7%A0%81/5053660?fr=aladdin
认识爬虫 http_第1张图片

  • 200: 请求已成功,请求所希望的响应头或数据体将随此响应返回。出现此状态码是表示正常状态
  • 3xx
    • 301:被请求的资源已永久移动到新位置,并且将来任何对此资源的引用都应该使用本响应返回的若干个 URI 之一。如果可能,拥有链接编辑功能的客户端应当自动把请求的地址修改为从服务器反馈回来的地址。除非额外指定,否则这个响应也是可缓存的。
      新的永久性的URI 应当在响应的 Location 域中返回。除非这是一个 HEAD 请求,否则响应的实体中应当包含指向新的 URI 的超链接及简短说明。
      如果这不是一个 GET 或者 HEAD 请求,因此浏览器禁止自动进行重定向,除非得到用户的确认,因为请求的条件可能因此发生变化。
      注意:对于某些使用 HTTP/1.0 协议的浏览器,当它们发送的 POST 请求得到了一个301响应的话,接下来的重定向请求将会变成 GET 方式。
    • 302:请求的资源临时从不同的 URI响应请求。由于这样的重定向是临时的,客户端应当继续向原有地址发送以后的请求。只有在Cache-Control或Expires中进行了指定的情况下,这个响应才是可缓存的。
      上文有提及。
      如果这不是一个 GET 或者 HEAD 请求,那么浏览器禁止自动进行重定向,除非得到用户的确认,因为请求的条件可能因此发生变化。
      注意:虽然RFC 1945和RFC 2068规范不允许客户端在重定向时改变请求的方法,但是很多现存的浏览器将302响应视作为303响应,并且使用 GET 方式访问在 Location 中规定的 URI,而无视原先请求的方法。状态码303和307被添加了进来,用以明确服务器期待客户端进行何种反应。
    • 304:如果客户端发送了一个带条件的 GET 请求且该请求已被允许,而文档的内容(自上次访问以来或者根据请求的条件)并没有改变,则服务器应当返回这个状态码。304响应禁止包含消息体,因此始终以消息头后的第一个空行结尾。
      该响应必须包含以下的头信息:
      Date,除非这个服务器没有时钟。假如没有时钟的服务器也遵守这些规则,那么代理服务器以及客户端可以自行将 Date 字段添加到接收到的响应头中去(正如RFC 2068中规定的一样),缓存机制将会正常工作。
      ETag 和/或 Content-Location,假如同样的请求本应返回200响应。
      Expires, Cache-Control,和/或Vary,假如其值可能与之前相同变量的其他响应对应的值不同的话。
      假如本响应请求使用了强缓存验证,那么本次响应不应该包含其他实体头;否则(例如,某个带条件的 GET 请求使用了弱缓存验证),本次响应禁止包含其他实体头;这避免了缓存了的实体内容和更新了的实体头信息之间的不一致。
      假如某个304响应指明了当前某个实体没有缓存,那么缓存系统必须忽视这个响应,并且重复发送不包含限制条件的请求。
      假如接收到一个要求更新某个缓存条目的304响应,那么缓存系统必须更新整个条目以反映所有在响应中被更新的字段的值。
  • 4xx
    • 400 Bad Request:
      1、语义有误,当前请求无法被服务器理解。除非进行修改,否则客户端不应该重复提交这个请求。
      2、请求参数有误。
    • 401 Unauthorized:当前请求需要用户验证。该响应必须包含一个适用于被请求资源的 WWW-Authenticate 信息头用以询问用户信息。客户端可以重复提交一个包含恰当的 Authorization 头信息的请求。如果当前请求已经包含了 Authorization 证书,那么401响应代表着服务器验证已经拒绝了那些证书。如果401响应包含了与前一个响应相同的身份验证询问,且浏览器已经至少尝试了一次验证,那么浏览器应当向用户展示响应中包含的实体信息,因为这个实体信息中可能包含了相关诊断信息。参见RFC 2617。
    • 403 Forbidden:服务器已经理解请求,但是拒绝执行它。与401响应不同的是,身份验证并不能提供任何帮助,而且这个请求也不应该被重复提交。如果这不是一个 HEAD 请求,而且服务器希望能够讲清楚为何请求不能被执行,那么就应该在实体内描述拒绝的原因。当然服务器也可以返回一个404响应,假如它不希望让客户端获得任何信息。
    • 404 Not Found:请求失败,请求所希望得到的资源未被在服务器上发现。没有信息能够告诉用户这个状况到底是暂时的还是永久的。假如服务器知道情况的话,应当使用410状态码来告知旧资源因为某些内部的配置机制问题,已经永久的不可用,而且没有任何可以跳转的地址。404这个状态码被广泛应用于当服务器不想揭示到底为何请求被拒绝或者没有其他适合的响应可用的情况下。出现这个错误的最有可能的原因是服务器端没有这个页面。
    • 405 Method Not Allowed:请求行中指定的请求方法不能被用于请求相应的资源。该响应必须返回一个Allow 头信息用以表示出当前资源能够接受的请求方法的列表。
      鉴于 PUT,DELETE 方法会对服务器上的资源进行写操作,因而绝大部分的网页服务器都不支持或者在默认配置下不允许上述请求方法,对于此类请求均会返回405错误。
      这类状态码代表了服务器在处理请求的过程中有错误或者异常状态发生,也有可能是服务器意识到以当前的软硬件资源无法完成对请求的处理。除非这是一个HEAD 请求,否则服务器应当包含一个解释当前错误状态以及这个状况是临时的还是永久的解释信息实体。浏览器应当向用户展示任何在当前响应中被包含的实体。
      这些状态码适用于任何响应方法。
  • 5xx
    • 500 Internal Server Error:服务器遇到了一个未曾预料的状况,导致了它无法完成对请求的处理。一般来说,这个问题都会在服务器端的源代码出现错误时出现。
    • 501 Not Implemented:服务器不支持当前请求所需要的某个功能。当服务器无法识别请求的方法,并且无法支持其对任何资源的请求。
    • 502 Bad Gateway:作为网关或者代理工作的服务器尝试执行请求时,从上游服务器接收到无效的响应。
    • 503 Service Unavailable:由于临时的服务器维护或者过载,服务器当前无法处理请求。这个状况是临时的,并且将在一段时间以后恢复。如果能够预计延迟时间,那么响应中可以包含一个 Retry-After 头用以标明这个延迟时间。如果没有给出这个 Retry-After 信息,那么客户端应当以处理500响应的方式处理它。
      注意:503状态码的存在并不意味着服务器在过载的时候必须使用它。某些服务器只不过是希望拒绝客户端的连接。
    • 504 Gateway Timeout:作为网关或者代理工作的服务器尝试执行请求时,未能及时从上游服务器(URI标识出的服务器,例如HTTP、FTP、LDAP)或者辅助服务器(例如DNS)收到响应。
      注意:某些代理服务器在DNS查询超时时会返回400或者500错误

HTTP响应状态码

HTTP响应报头

HTTP协议特点

  • HTTP三点注意事项:
    • HTTP是无连接,无连接的含义是限制每次连接只处理一个请求,服务器处理完客户的请求,并受到客户的应答后,即断开连接,采用这种方式可以节省传输时间
    • HTTP是媒体独立的,这意味着只要客户端和服务器知道如何处理的数据内容,任何类型的数据都可以通过HTTP发送,客户端以及服务器指定使用适合的MIME-type内容类型
    • HTTP协议是无状态协议,无状态是指协议对于事务处理没有记忆能力,缺少状态意味着如果后续处理需要前面的信息,则它必须重传,这样可能导致每次连接传送的数据量增大,另一方面,在服务器不需要先前信息时他的应答就较快

HTTPS协议

  • HTTPS(全称是Hyper Text Transfer Protocol over Secure Socket Layer或Hypertext Transfer Protocol Secure,超文本传输安全协议),是以安全为目标的HTTP通道,简单讲是HTTP的安全版
  • http协议是基于tcp/ip协议的,而https是在http协议的基础上,再加了一层SSL/TLS协议,数据在传输过程中是加密的
  • HTTPS协议的默认端口是443

爬虫的概念

爬虫的概念和作用

  • 网络爬虫也叫网络蜘蛛,他特质一类自动批量下载网络资源的程序,这是一个比较口语化的定义
  • 更加专业和全面的定义是:网络爬虫是伪装成客户端与服务端进行数据交互的程序

爬虫的应用

  • 数据采集
    • 大数据时代来临,数据就是核心,数据就是生产力,越来越多的企业开始注重收集用户数据,而爬虫技术是收集数据的一种重要手段
  • 所搜引擎
    • 百度,谷歌等搜索引擎都是基于爬虫技术
  • 模拟操作
    • 爬虫也被广泛用于模拟用户操作,测试机器人,灌水机器人等

爬虫开发的重难点

  • 爬虫的难点主要为两个方向:
    1. 数据的获取
    • 网络公共资源都是为用户准备的,为了避免被爬虫采集,服务端会设置非常多的图灵测试,阻止爬虫的恶意爬取,即反爬措施
    • 爬虫开发工程师在开发爬虫时,需要解决这些反爬措施,我们在开发爬虫的过程中,很大一部分的工作就是处理这些反爬措施
    1. 采集的速度
    • 大数据时代,需要巨大的数据量,动辄千万条的级别,甚至上亿条,如果采集速度跟不上,耗时过长,那么就达不到商业要求
    • 一般我们会采取并发以及分布式来解决速度上的问题,这也是爬虫开发过程中的另外一个重心

会话技术

  • HTTP是无状态的,那么服务端怎么区分同一个用户的连续请求,这就用到了会话技术

cookie

  • cookie有时也用其复数形式cookies,英文是饼干的意思,指某些网站为了辨别用户身份,进行session跟踪而存储在用户本地终端上的数据(通常经过加密),最新的规范是RFC6265
  • cookie其实是由服务器发给客户端的特殊信息,而这些信息以文本文件的方式存放在客户端,然后客户端每次向服务器发送请求的时候都会带上这些特殊的信息,服务器在接收到cookie以后,会验证cookie的信息,一次来辨别用户的身份
  • cookie可以理解为一个凭证

session

  • session中文经常翻译为会话,其本来的含义是指有始有终的一系列动作/消息,比如打电话时从拿起电话拨号到挂断电话这中间的一系列过程可以称之为一个session,这个词在各个领域都有在使用
  • 我们web领域,一般使用的是其本义,一个浏览器窗口从打开到关闭这个期间
  • session的目的则是在一个客户从打开浏览器到关闭浏览器这个期间内,发起的所有请求都可以被识别为同一个用户,而实现的方式则是在一个客户打开浏览器开始访问网站的时候,会生成一个cookie,sessionID,这个ID每次的访问都会带上,而服务器会识别这个sessionID并且将于这个sessionID相关的数据都保存在服务器上,由此来实现客户端的状态识别
  • session是基于cookie的
  • session与cookie相反,session是存储在服务器上的数据,只由客户端传上来的sessionID来进行判定,所以相对于cookie,session的安全性更高
  • 一般sessionID会在浏览器被关闭时丢弃,或者服务器会验证session的活跃程度,例如30分钟某一个sessionID都没有活跃,那么也会被识别为失效

利用socket下载一张图片

利用Google浏览器分析http请求
认识爬虫 http_第2张图片

代码:

import socket
import re
	#创建一个socket对象
client = socket.socket()	#网络数据的收和发,实际上是接口
	#图片的url
img_url = 'http://bpic.588ku.com/element_pic/18/05/26/69daaea78b46d36144312fa25246769f.jpg!/fw/254/quality/90/unsharp/true/compress/true'
	#构造http请求报文
data = 'GET /element_pic/18/05/26/69daaea78b46d36144312fa25246769f.jpg HTTP/1.1\r\nHost: bpic.588ku.com\r\n\r\n'
	#连接服务端
client.connect(('bpic.588ku.com',80))	#ip+端口
	#发送请求
client.send(data.encode())		#注意二进制
	#接收响应
	#接收第一次数据
first_data = client.recv(1024)
	#获取响应数据的长度
length = int(re.findall(b'Content-Length: (.*?)\r\n',first_data)[0])
	#获取图片的数据
img_data = b''
	#获取第一次请求里的图片数据根据\r\n\r\n
img_data += re.findall(b'\r\n\r\n(.*)',first_data,re.S)[0]
 	#获取剩余的数据
while True:
    temp = client.recv(1024)
    if temp:
        img_data += temp
        if len(img_data) > length:	 #数据接收完成
            break
    else:
        break
        #写文件
with open("xing.jpg","wb") as f:
    f.write(img_data)

你可能感兴趣的:(python,爬虫)