实验报告:采集川大公共管理学院新闻栏信息


一、实验目的和要求

爬取川大公共管理学院网站新闻栏里的链接,进而获取详情页信息。

二、实验步骤

(1)分析被采集对象:公共管理学院网站新闻栏里的新闻标题以及详情页的文本信息等。

实验报告:采集川大公共管理学院新闻栏信息_第1张图片

利用开发者工具,我们可以查看标题链接代码

实验报告:采集川大公共管理学院新闻栏信息_第2张图片


在linux配置好scrapy的前提下,每次使用需要先激活虚拟环境

cd /home/slx/venv //进入venv虚拟环境的目录

source bin/activate //激活

(2)创建一个新的Scrapy项目,运行下列命令

# scrapy startproject newsbox

(3)定义item

实验报告:采集川大公共管理学院新闻栏信息_第3张图片
实验报告:采集川大公共管理学院新闻栏信息_第4张图片

(4)编写爬虫

设置完items之后,在spiders目录下新建一个ggglnews.py文件,代码如下:


实验报告:采集川大公共管理学院新闻栏信息_第5张图片

(5)运行命令,得到数 据,并得到命名为ggglnews的xml文件

scrapy crawl ggglnews -o ggglnews.xml

截取部分内容显示如下:在终端显示的内容

实验报告:采集川大公共管理学院新闻栏信息_第6张图片

三、实验结果

爬取到的十二条item数据对应新闻栏的十二条新闻消息

实验报告:采集川大公共管理学院新闻栏信息_第7张图片
实验报告:采集川大公共管理学院新闻栏信息_第8张图片

四、讨论和分析

过程中遇到的难点:定位元素并利用xpath进行路径选择

你可能感兴趣的:(实验报告:采集川大公共管理学院新闻栏信息)