爬虫基础知识

爬虫基础知识

  • 爬虫是模拟客户端发生网络请求,接受请求响应
  • http:超文本传输协议
  • https:http+ssl(安全套接字层)

url形式:scheme://host[:port#]/path/.../[?query_string][#anchor]

爬虫基础知识_第1张图片

  • scheme://host[:port#]/path/.../[?query_string][#anchor]
  • host:服务器的ip地址和域名
  • port:服务器的端口(如果是走协议默认端口,80or443)
  • path:访问资源的路径
  • query:参数,发送给http服务器的数据
  • anchor:锚(跳转到网页的制定锚点位置)

HTTP常见请求头

  • host:主机和端口号
  • connection:链接类型
  • upgrade-insecure-requests:升级为https请求
  • user_agent:浏览器名称
  • accept:传输文件类型
  • refer:页面跳转处
  • accept-encoding:文件编码解码个数
  • cookie:保持在本地的coookie信息
  • x-requested-with:XMLHttpRequest:是Ajax异步加载

请求方法 GET&POST

  • GET是从服务器上获取数据,POST是向服务器传送数据

  • GET请求参数显示,都显示在浏览器网址上,HTTP服务器根据该请求所包含URL中的参数来产生响应内容,即“Get”请求的参数是URL的一部分。 例如: http://www.baidu.com/s?wd=Chinese

  • POST请求参数在请求体当中,消息长度没有限制而且以隐式的方式进行发送,通常用来向HTTP服务器提交量比较大的数据(比如请求中包含许多参数或者文件上传操作等),请求的参数包含在“Content-Type”消息头里,指明该消息体的媒体类型和编码,

注意:避免使用Get方式提交表单,因为有可能会导致安全问题。 比如说在登陆表单中用Get方式,用户输入的用户名和密码将在地址栏中暴露无遗

响应状态码

  • 200:成功
  • 302:临时转移至新的url
  • 307:临时转移至新的url
  • 404:not found
  • 500:服务器内部错误

你可能感兴趣的:(爬虫)