爬虫基本知识点

网络的三大特性

每一个网页都有一个唯一的url(同意资源定位符)
每一个网页都市一个html文本(超文本)
都是通过http/https(超文本传输协议)获取网页数据

种子url的来源

主动向搜索引擎提交
网页里面的外链(友情链接)
搜索引擎和DNS服务商合作
DNS:将域名解析为ip的一种技术

URL的组成部分:

1.scheme:协议
2.host:指的是域或者ip
3.port:端口
4.path:资源路径
5.query-string:请求参数
6.anchor:锚点,主要实现页面的定位
2xx:表示服务器成功接收请求并已完成整个处理过程。
200(OK 请求成功)。
3xx:为完成请求,客户需进一步细化请求。例如:请求的资源已经移动一个新地址、 常用的状态码:
301: 永久重定向
302:临时重定向(所请求的页面已经临时转移至新的url)
4xx:客户端的请求有错误.
400:错误请求,服务器无法解析请求
401:未授权,没有进行身份验证
403:服务器拒绝访问
404:服务器无法找到被请求的网页
408:请求超时
5xx:服务器端出现错误
500:服务器内部错误
501:服务器不具备完成请求的功能
503:服务器不可用

你可能感兴趣的:(爬虫基本知识点)