如何自动识别爬虫网页的编码

  最近好朋友接到一项新任务,就是要爬取不同的数据源,并从中提取中重要信息。这项任务刚开始不久,就遇到了一个老大难问题,即部分网站的编码是无法确定的,这就导致无法对数据进行解析。也就谈不上后续的信息提取了。由于时间紧,任务重,在他的恳求之下,最终决定拿出自己的爬虫神技来助他一臂之力。

如何自动识别爬虫网页的编码_第1张图片

文章目录

  • 1. 搭建Python环境
  • 2. 安装库
  • 3. 实战案例

1. 搭建Python环境

  这部分内容主要是方便新手,老手可直接跳过。

  首先需要搭建好Python环境,最简单的方法是在清华软件镜像站下载anaconda并进行安装。清华软件镜像站的官网链接为:https://mirrors.tuna.tsinghua.edu.cn

  点击选择anaconda,如下图所示:

你可能感兴趣的:(Python爬虫实战教程,爬虫,python,编码,网站编码)