我的第二篇爬虫博客《爬虫简介二》

HTTP的请求和响应

General 全部的

1.Request URL 请求的地址

2.Request Method 请求的方式(get post)

3.Response Headers 服务器的响应

Request Headers 服务器的请求

1.Host:(主机和端口号)对应的网址

2.Connection:(链接类型)

3.User-Agent:用户代理

4.Accept:(传输文件的类型)

5.referer:(页面的跳转处)

6.Cookie:(记录了用户相关的信息)

7.Query String Paramerers 请求地址的的参数我的第二篇爬虫博客《爬虫简介二》_第1张图片

我的第二篇爬虫博客《爬虫简介二》_第2张图片

爬虫简介

什么是爬虫? 简单一句话就是,代替人去模拟浏览器进行网页操作

为什么需要爬虫? 为其他程序提供数据源

企业获取数据的方式?

1.公司自有的数据

2.第三方平台获取的数据

免费平台:百度指数

付费平台:数据堂

3.爬虫爬取的数据

python做爬虫的优势

1.PHP:对多线程、异步支持不太好

2.Java:代码量大、代码笨重

3.C/C++:代码量大,难以编写

4.Python:支持模块多、代码简介、开发效率高(scrapy框架)

爬虫的分类

1.通用网络爬虫 例如: 百度 雅虎 谷歌

2.聚焦网络爬虫:根据既定的目标有选择的抓取某一特定主题内容

几个概念

1.URL组成部分

URL:全球统一资源定位符

https://new.qq.com/omn/TWF20200/TWF2020032502924000.html

https:网络协议

new.qq.com:主机名,可以理解为一台主机名叫new.qq.com,这台主机在qq.com域名下

TWF2020032502924000.html:访问资源的路径

anchor:锚点,前端中用来做页面定位的

注意:在浏览器中请求一个URL,浏览器会对这个URL进行一个编码。(除英文字母、数字和部分标识,其他的全部用%加十六进制码进行编码)例如 : https://tieba.baidu.com/f?ie=utf-8&kw=%E6%B5%B7%E8%B4%BC%E7%8E%8B&fr=search

%E6%B5%B7%E8%B4%BC%E7%8E%8B = 海贼王

2.User-Agent 用户代理

作用:记录了你浏览详细的信息 包括:操作系统 内核 浏览器版本等 例如: Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36

反反爬的第一步

3.referer 页面的跳转处

表明当前的这个网址从哪个URL过来的

反反爬

4.Status Code状态码

200:请求成功

301:永久重定向

302:临时重定向

404:请求失败

500:服务器内部请求

5.Cookie 记录了服务器相关的用户信息

http协议是无状态的 什么是无状态?服务器无法判断用户的身份

Cookie实际上是一小段文本信息(key-value格式)

反反爬

作用:反爬 模拟登录

抓包工具

1.Elements:元素 网页源代码,提取数据和分析数据(有些特殊处理过的所以并不是都是准确的)

2.Console:控制台(打印信息)不多用

3.Sources:信息来源(整个网站加载的文件)也不多用

4.Net Work:网络工作(信息抓包) 能够看到很多的网页请求

你可能感兴趣的:(爬虫)