爬虫前奏

网络爬虫概述

什么是网络爬虫

爬虫是一个模拟人类请求网站的程序,可以自动请求网页、并将数据抓取下来,然后按照一定的规则提取有价值的数据。

通用爬虫和聚焦爬虫

聚焦爬虫:通用爬虫是搜索引擎抓取系统(百度、搜狗等)的重要组成部分。主要是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。(全部都提取)

聚焦爬虫:是面向特定需求的一种网络爬虫程序,与通用爬虫的区别在于:聚焦爬虫在实施网页抓取的时候会对内容进行筛选和处理,尽量保证只抓取与需求相关的网页信息。(只提取想要的)

http协议和https协议

什么是http协议和https协议

http协议:超文本传输协议( HyperText Transfer Protocol ),是一种发布和接收HTML页面的方法。服务器端口号是80端口。
https协议:是http协议的加密版本,在http下加入ssl层。服务器端口号是443端口。(加密后传输,更加安全)
爬虫前奏_第1张图片
爬虫前奏_第2张图片
爬虫前奏_第3张图片
爬虫前奏_第4张图片
爬虫前奏_第5张图片

chrome抓包工具

Elements:展现网页源代码
Console:控制台
Sources:网站页面由哪些文件组成
Network:查看当前网页发送哪些请求,可查看具体请求

你可能感兴趣的:(爬虫)