scrapy爬虫---爬取阳光政务平台文章和入库

用普通爬虫实现爬取阳光政务平台首页政务的标题和链接  并且对具体政务信息进行提取以下为具体字段

title (问政标题)/ href (问政链接) /author 作者名称/ author_img 作者图片  / publish_date 发布日期/ content 内容/ content_img 内容图片 /department(问政部门)


网址:http://wzzdg.sun0769.com/political/index/index

由于问政详情页面有图片和内容 有的有内容无图片  以下进行分析

1.网页分析:

首页分析

scrapy爬虫---爬取阳光政务平台文章和入库_第1张图片

有内容无图片页面

scrapy爬虫---爬取阳光政务平台文章和入库_第2张图片

有内容有图片页面分析

scrapy爬虫---爬取阳光政务平台文章和入库_第3张图片

文件架构


scrapy爬虫---爬取阳光政务平台文章和入库_第4张图片


2.代码截图分析

ygzw.py       ---------        爬虫页面

scrapy爬虫---爬取阳光政务平台文章和入库_第5张图片
scrapy爬虫---爬取阳光政务平台文章和入库_第6张图片
scrapy爬虫---爬取阳光政务平台文章和入库_第7张图片

start.py 启动爬虫页面


settings.py  配置页面

scrapy爬虫---爬取阳光政务平台文章和入库_第8张图片

items.py    设置爬取网页的数据预设

scrapy爬虫---爬取阳光政务平台文章和入库_第9张图片

pipelines.py  对数据进行保存文件

scrapy爬虫---爬取阳光政务平台文章和入库_第10张图片


项目展示结果:

mongodb数据库展示

scrapy爬虫---爬取阳光政务平台文章和入库_第11张图片

控制台输出信息展示

scrapy爬虫---爬取阳光政务平台文章和入库_第12张图片

你可能感兴趣的:(scrapy爬虫---爬取阳光政务平台文章和入库)