八爪鱼采集器(数据挖掘教程篇)

本教程将介绍其中一种较为简单的数据采集方式,下面教大家如何采集湘潭市雨湖区政府领导人2020年1-7月的工作重心

一、软件概述

八爪鱼采集器是一款免费使用操作简单功能强大高效采集的网页数据采集软件,可以将网页非结构化数据转换成结构化数据,以数据库或EXCEL等多种形式进行存储。

二、下载软件

1.进入八爪鱼官网:https://www.bazhuayu.com/download/windows
点击下载

2.下载后会在下载目录看到一个压缩包
八爪鱼采集器(数据挖掘教程篇)_第1张图片

三、安装软件

1.把之前下好的压缩包解压当前文件夹,会出现一个以exe结尾的文件,双击它打开
八爪鱼采集器(数据挖掘教程篇)_第2张图片
2.把默认安装路径的C盘改成D盘,只需改第一个字母即可,然后点击 安装
八爪鱼采集器(数据挖掘教程篇)_第3张图片
3.等待安装成功,然后点完成,会自动运行八爪鱼采集器
八爪鱼采集器(数据挖掘教程篇)_第4张图片
4.进入软件登录界面,假如没有账号进入官网注册一个,有账号直接登录
八爪鱼采集器(数据挖掘教程篇)_第5张图片
5.登录后的主界面
八爪鱼采集器(数据挖掘教程篇)_第6张图片

四、找好需要采集的网站链接

1.首先我们在百度搜索湘潭市雨湖区政府,很容易找到该政府网址
http://www.xtyh.gov.cn/
八爪鱼采集器(数据挖掘教程篇)_第7张图片
2.找到湘潭市雨湖区的领导人名字
八爪鱼采集器(数据挖掘教程篇)_第8张图片
八爪鱼采集器(数据挖掘教程篇)_第9张图片
3.在搜索栏搜索领导人名字,点击搜索
八爪鱼采集器(数据挖掘教程篇)_第10张图片
4.按时间排序,复制当前页面的网址
http://searching.hunan.gov.cn:8977/hunan/974104000/news?q=%E7%99%BD%E4%BA%91%E5%B3%B0&sm=1&searchfields=&timetype=timeqb&websiteName=&channelName=&whlx=&publishedYear=&site_name=&org_name2=&iszq=&aggr_iszq=
八爪鱼采集器(数据挖掘教程篇)_第11张图片

五、数据采集

1.打开八爪鱼采集器,把之前复制的网页粘贴在八爪鱼搜索栏,点击开始采集
八爪鱼采集器(数据挖掘教程篇)_第12张图片
2.得到当前页面,我们要对下方框框中的字段进行改动,删掉不要的字段,只留下标题,标题_链接,名称,时间四个字段
八爪鱼采集器(数据挖掘教程篇)_第13张图片
删除不需要的字段后得到下图
八爪鱼采集器(数据挖掘教程篇)_第14张图片
3.接下来我们要对字段进行排序,点击字段名前面的按钮左右拖动能改变字段的顺序八爪鱼采集器(数据挖掘教程篇)_第15张图片
字段排序后如下图
八爪鱼采集器(数据挖掘教程篇)_第16张图片
4.修改字段名,把标题_链接改成文章地址,把名称改成频道如下图八爪鱼采集器(数据挖掘教程篇)_第17张图片
5.翻页采集和滚动加载数据勾选上后,点击生成采集设置八爪鱼采集器(数据挖掘教程篇)_第18张图片
6.点击采集下一级网页数据
八爪鱼采集器(数据挖掘教程篇)_第19张图片
选择文章地址,确定
八爪鱼采集器(数据挖掘教程篇)_第20张图片
7.假如没有识别出想要的数据,下方没有正文字段栏,需要手动让进行采集
八爪鱼采集器(数据挖掘教程篇)_第21张图片
点击没有要采集的数据
八爪鱼采集器(数据挖掘教程篇)_第22张图片
手动选择正文内容,然后点击采集该元素的文本
八爪鱼采集器(数据挖掘教程篇)_第23张图片
然后把字段名称改成内容
八爪鱼采集器(数据挖掘教程篇)_第24张图片
8.点击采集
八爪鱼采集器(数据挖掘教程篇)_第25张图片
9.启动本地采集
八爪鱼采集器(数据挖掘教程篇)_第26张图片
10.正在采集中
八爪鱼采集器(数据挖掘教程篇)_第27张图片
11.等到采集完2020年的数据时,停止采集
八爪鱼采集器(数据挖掘教程篇)_第28张图片
12.导出数据
八爪鱼采集器(数据挖掘教程篇)_第29张图片
导出为Excel格式
八爪鱼采集器(数据挖掘教程篇)_第30张图片
保存到想要保存的位置,然后点保存
八爪鱼采集器(数据挖掘教程篇)_第31张图片
导出成功
八爪鱼采集器(数据挖掘教程篇)_第32张图片

六、整理数据

1.打开雨湖区搜索.xlsx文件
八爪鱼采集器(数据挖掘教程篇)_第33张图片
2.把时间那一栏的格式改成指定格式,复制发布时间:2020,点击查找
八爪鱼采集器(数据挖掘教程篇)_第34张图片
替换
八爪鱼采集器(数据挖掘教程篇)_第35张图片
点击全部替换,把发布时间:2020替换成2020
八爪鱼采集器(数据挖掘教程篇)_第36张图片
3.删除2020年以前的数据,选中,右键,删除整行
八爪鱼采集器(数据挖掘教程篇)_第37张图片
4.删除无效数据,如下图,内容为空的数据
八爪鱼采集器(数据挖掘教程篇)_第38张图片
5.Ctrl + S保存文件


到此,数据采集已经完成了,如果你还想学习数据导出、清洗、预处理、建模型、生成报告等,三步教你大数据分析。
请微信搜索公众号:宇哥数据分析工具箱

八爪鱼采集器(数据挖掘教程篇)_第39张图片
对大数据感兴趣的朋友,扫描关注,谢谢大家的支持!
八爪鱼采集器(数据挖掘教程篇)_第40张图片

你可能感兴趣的:(Soft,大数据,数据分析)