爬虫就是一个自动化数据采集工作,你只需要告诉它需要采取哪些数据,给它一个url,就可以自动的抓取数据。其背后的基本原理就是爬虫模拟浏览器向目标服务器发送http请求,然后目标服务器返回响应结果,爬虫客户端收到响应并从中提取数据,再进行数据清洗、数据存储工作。
爬虫的基本流程与访问浏览器类似,就是建立一个http请求,当用户输入一个url之后,点击确认,客户端会与服务器建立连接,服务器收到请求之后,会从数据库中拿到响应的数据并且封装为一个http响应,将响应的结果返回给浏览器,浏览器对响应的数据进行解析、提取、渲染并且最终展示为页面。
1、通用爬虫:抓取系统的重要组成部分,抓取的是一整个页面,这种爬虫的方式相对简单,只需要四个步骤,指定url、发送请求、获取数据、持久化存储。
# 1、指定url
request_url = url
# 2、发送请求
responce = requests.get(url = request_url)
# 3、获取数据
responce_data = responce.text
# 4、持久化存储
with open('./sogou.html','w',encoding='utf-8') as fp:
fp.write(responce_data)
print("爬虫结束")
2、聚焦爬虫:建立在通用爬虫的基础之上,抓取的是页面中的特定的局部页面。需要五个步骤,步骤与通用爬虫类似,只是在获取数据之后,需要对数据进行过滤、清洗。网页的数据解析器有:(1)、正则表达式。(2)、html.parser。(3)、beautifulsoup。(4)、lxml。
这篇文章主要对爬虫入门进行介绍,我也是一个刚接触爬虫不久的小白,我希望和大家一起学习进步,之后我会将我学习路线和内容慢慢更新发表出来。