认识爬虫

@认识、爬虫基础1

1.1
URL 和 URI
的区别:

URI——(全称)Uniform Resource
Identifier

URL——(全称)Universal
Resosource Locater

URI——统一资源标志符

URL——统一资源定位符

URL是URI的子集。

1.2
超文本(hypertext)

什么是网页?

答:简单来说,就是由超文本解析而成的,其网页源代码是一系列HTML代码,里面包含了一系列标签。

例如:(像这样的)
认识爬虫_第1张图片

1.3
HTTP 和 HTTPS

1、URL的开头会有(http或https;)协议,而协议是一个类型。

协议类型:一般有ftp
sftp smb 等。

2、HTTP全称Hyper
Text Transfer Protocol——中文名:超文本传输协议;

HTTPS——Hyper Text Transfer
Protocol over Secure Socket Layer,是以安全为目标的HTTP通道,简单讲是HTTP的安全通道

1.4
HTTP 请求过程:

发请求,发的是什么请求?

答:比如说,你打开一个浏览器后,你输入一个网站链接,在回车确认后,页面就会跳转到这个链接的页面,而这个过程就是发送请求的过程。

1.5
什么是爬虫?

答:就是获取网页并提取和保存信息的自动化程序。

1.6
爬虫分类:通用网络爬虫、聚焦网络爬虫、增量式爬虫、深层网络爬虫

你可能感兴趣的:(笔记,python)