Python爬虫基本流程及相关技术支持

Python爬虫基本流程及相关技术支持

1、Python网络爬虫流程

网络爬虫的基本流程很简单,主要分为以下三个部分:

  1. 获取网页

  2. 解析网页

  3. 存储数据

【说明】
1、获取网页就是给一个网址发送请求,该网址返回整个网址的网页数据。

2、解析网页就是从整个网页的数据中提取目标数据。

3、存储数据就是把爬取的数据存储起来,可以存储在csv文件或数据库中。

2、Python网络爬虫技术支持

  1. 获取网页
    基础技术:request、urllib和selenium。
    进阶技术:多进程多线程抓取、登录抓取、突破IP封禁和服务器抓取。
  2. 解析网页
    基础技术:re正则表达式、BeautifulSoup和lxml。
    进阶技术:解决中文乱码。
  3. 存储数据
    基础技术:存入txt文件和存入csv文件
    进阶技术:存入MySQL数据库和存入MongoDB数据库。

Python爬虫基本流程及相关技术支持_第1张图片

以上就是关于Python网络爬虫的基本流程以及相关技术支持

本“Python爬虫”专栏的后续文章会更新具体的技术文章

你可能感兴趣的:(Python爬虫,Python)