Python网络爬虫入门案例

一、什么是网络爬虫?

网络爬虫又称网络蜘蛛、网络蚂蚁、网络机器人等,本质上是一段程序或脚本,可以自动化浏览网络中的信息,浏览信息时程序会按照一定的规则去浏览,这些规则我们称之为网络爬虫算法。
作用:

  • 定制搜索引擎
  • 自动去广告
  • 爬取图片、文本
  • 爬取金融信息进行投资分析

二、前置知识

  • Http协议
  • Html
  • 正则表达式
  • 一门编程语言(建议Python)

三、网络爬虫的核心步骤

  • 选定爬取范围
  • 分析网站结构特征
  • 设计爬虫规则
  • 编写爬虫脚本

四、案例 湖北师范大学“学校要闻”

Python网络爬虫入门案例_第1张图片
这个案例的的目标就是将上图红框所示中,学校要闻的新闻全部爬取到本地的txt文件中。案例网站链接。

好,现在已经选定了爬取范围,接下来就开始分析网站的特征结构,以及爬虫策略

按住Fn+F11调出控制台,在Element面板中查看网页的html标签结构,如下所示
Python网络爬虫入门案例_第2张图片

可以看到,页面主要的分为三个

,其中
中包含了代表新闻列表的

你可能感兴趣的:(Python)