爬取川大公管学院新闻动态

一、实验目标

采集学院官网的新闻信息

爬取川大公管学院新闻动态_第1张图片
学院官网新闻动态

内容包括

新闻标题、时间、正文

二、采集工具

八爪鱼V7.3.8 

三、预期采集结果


预期采集数据结果

尽可能爬取到具有标题、时间、正文文本三个元素的新闻,将其汇总成EXCEL表格形式。

四、采集过程

步骤1  登陆八爪鱼7.0采集器→点击新建任务→自定义采集,进入到任务配置页面: 然后输入网址→保存网址,系统会进入到流程设计页面并自动打开前面输入的网址。

步骤2  我们需要进行循环翻页流程,在采集的时候模拟人工点击翻页,鼠标点击在下图浏览器页面中的“下一页”按钮,在弹出的对话框中选择“循环点击下一页”;这样翻页循环就做好了。

爬取川大公管学院新闻动态_第2张图片

步骤3  鼠标点击下图中第一个新闻标题:第二部”链接,这时候和右边的操作提示框中就会出现一些选项,我们选择“选中全部”选项,然后再选择“循环点击每个链接”选项即可,这样循环点击电影标题到详情页面的步骤就做好了。

爬取川大公管学院新闻动态_第3张图片
设置循环点击单个链接

步骤4 鼠标点击页面中要提取的标题字段,这里标题字段就被选中了并通过红色框表示,然后在弹出的提示框中选择“采集该元素的文本”表明要采集的是页面中的文本数据,然后同样的方式选择点击浏览器中的其他字段,再选择“采集该元素的文本”

爬取川大公管学院新闻动态_第4张图片
设置采集该元素文本

步骤5  这样提取完毕之后我们可以点一下流程按钮,然后修改字段名称。这里的字段名称相当于表头,便于采集时区分每个字段类别。 在下面界面中修改字段名称,修改完成之后,点击“确定”保存

修改字段名称

最终审查流程,确定循环跳出等操作无误。

爬取川大公管学院新闻动态_第5张图片
流程图

步骤6 点击“保存并启动”,再在弹出的对话框中选择“启动本地采集”。系统会在本地电脑上开启一个采集任务并采集数据,任务采集完毕之后会弹出一个采集结束的提示, 接下来选择导出数据,这里以选择导出excel2007为例,然后点击确定. 之后选择文件存放路径,再点保存即可。这样就获取了我们最终需要的数据了。

爬取川大公管学院新闻动态_第6张图片
数据显示

五、采集结果

1、整体上采集结果无大差错,共采集398条数据,基本完成任务。

2、由于第一次采集数据时选取元素出现问题,导致文本内容包含部分标题、时间等元素。

3、学院官网问题导致数据出现重复,错误比较明显,采集器可以一键清洗。

4、学院官网新闻网页有些不符合我们制定的采集规则,例如出现一些视频和其他可能使用ajax技术的页面扰乱了正常的采集过程。

爬取川大公管学院新闻动态_第7张图片

你可能感兴趣的:(爬取川大公管学院新闻动态)