第一章 爬虫基础 2019-11-27

爬虫介绍

一、爬虫应用领域

1、搜索引擎

2、伯乐在线

3、惠惠购物助手(全网价格对比)

4、数据分析(如瓜子二手车)

5、抢票软件等


二、爬虫开发与安装

1、python 3.6 以上版本或者 anaconda

2、pycharm 2019 community

3、chrome 浏览器,73以上版本,或者360浏览器


三、HTTP 协议介绍

1、认识HTTP协议

HTTP协议,全称HyperText Transfer Protocol,中文意思是超文本传输协议,是一种接收HTML页面的方法。服务端口号是80端口。

HTTPS协议:是HTTP协议的加密版本,在HTTP下加入了SSL层。服务器端口号是443端口。


2、URL组成部分

URL是 Uniform Resource Location 的简写,统一资源定位符。一个URL由以下几部分组成:

scheme://host:port/path/?query-string =xxx#anchor

1、scheme:代表访问协议,一般为http或者https以及ftp等。

2、host:主机名,域名,如www.baidu.com

3、port:端口号。当你访问一个网站时,浏览器默认使用80端口。

4、path:查找路径。比如: www.jianshu.com/trending/now,后面的trending/now就是path。

5、query-string:查询字符串,比如: www.baidu.com/s?wd=python,后面的 wd=python 就是查询字符串。

6、anchor:锚点,前端用来做页面定位的,现在一些前后端分离项目,也用锚点来做导航。

在浏览器请求一个url,浏览器会对这个url进行编码,除英文字母,数字和部分符号外,其他的全部使用百分号+十六进制码值进行编码。


下一篇文章 第一章 爬虫基础(续)2019-11-28 地址:

  https://www.jianshu.com/p/46cc10acd188


以上资料内容来源网络,仅供学习交流,侵删请私信我,谢谢。


你可能感兴趣的:(第一章 爬虫基础 2019-11-27)