爬虫学习第一篇(认识爬虫流程和使用工具)

认识爬虫

什么是爬虫

爬虫听着好像是一个什么虫子的名字,其实爬虫是一个自动化请求网站并提取数据的程序,简单理解即是一个自动化爬取数据的脚本

例如

以下就是一个十分简单的爬虫代码(不过这个代码不适用于所有网页,只能爬取一些没有限制的网站)

import requests                     #导入请求库
url=""                             #输入爬取内容的地址
res = requests.get(url)        #发送请求到url这个地址
print(res.status_code)         #打印响应状态码
open("test1.mp4","wb").write(res.content)   #创建文件并写入内容

为什么要爬数据

随着互联网的发展 数据资源变得非常丰富且容易搜索 人们发现从网页上找到他们想要的信息是一件非常简单的事情,他们通常分布在大量的网站上。但另一个问题出现了,当他们想要数据的时候,并非每个网站都提供下载按钮,如果进行手动复制显然是非常低效且乏味的。

爬虫的本质

模拟客户端发送请求 接收响应

爬虫步骤

其实爬虫爬取浏览器信息的过程和我们真人访问是差不多的

真人进行浏览器访问的流程

第一步点击想要查看的网页(或者在浏览器输入对应的网址)

第二步浏览器通过域名解析转换成ip地址

第三步向该地址发送域名请求

第四步将服务器传回的信息解析渲染成我们看到的网页

爬虫要模拟和真人一样去请求网站也有四步

1.找到我们需要的url,就是想要爬取数据的在互联网上的位置

2.发起请求获取响应(通过代码去访问这个地址)

3.取出我们需要的数据(拿到对应的网页数据,还需要对数据解析,取出我们需要的数据)

4.将数据进行保存,通过数据库或者文件的形式将文本保存

目标url

url是什么?

统一资源定位符 : 是用于完整地描述Internet上网页和其他资源的地址的一种标识方法

例如:https://play.google.com/log?format=json&hasfast=true&authuser=0

这个就是一个url

其中http(协议):http是超文本传输协议 是一种发布和接收HTML页面的方法
https:多了的s ssl 安全套接层 主要用于Web的安全传输协议,在传输层对网络连接进行加密,保障在Internet上数据传输的安全

play.google.com(域名)

怎么找url?

window电脑(一般性点击键盘上的f12按键呼唤出浏览器提供的开发工具)在里面寻找我们需要的资源的url

爬虫学习第一篇(认识爬虫流程和使用工具)_第1张图片

获取响应

一般可以用request去请求url

用request.get命令去请求

你可能感兴趣的:(python学习,爬虫,学习)