python爬虫基本思路

python爬虫基本思路

一、明确需求
首先我们要明白我们爬取的具体是什么内容,比如爬取文章标题,爬取图片,爬取实时新闻
二、建立request请求
1.使用的是哪一种请求方式,get post等
2.获取请求URL,确定请求连接
3.拼接头部信息,User-Agent,Host,Cookies等
4.设置请求体,即请求时额外携带的数据,比如表单提交时的表单数据。
三、获取数据
获取请求响应状态,比如200、404、301、502等;
四、解析数据

1、使用json解析数据;

2、使用正则表达式提取数据;

3、使用BeautifulSoup库来处理数据;

4、使用PyQuery来解析数据;

五、存储数据

1、可使用纯文本、json、xml等存储;

2、使用关系型数据库存储,如mysql、oracle等;

3、使用非关系型数据库存储,如mongodb、redis等;

4、图片、视频等可直接保存。

你可能感兴趣的:(python,爬虫,开发语言)