无标题文章

抓取四川大学公共管理学院动态新闻及详情页

赵静       信管

因为我们小组重新重置了阿里云,所以需要重新配置环境,

开始抓取

抓取的spider如下:

spider1


我选择从more那一页进行抓取,即

可以看到url

抓取这一页的每个新闻的url,再进一步抓取详情页的标题、时间、内容、图片等信息。

当spider 1 时,可以正确的爬取标题、时间、内容,结果如下:

把抓取图片的代码加入,抓取图片的url

spider2

当spider2 时,就是把图片抓取加进去时,并不能抓取图片的url

综上:成功实现抓取标题、时间、内容,未成功地抓取图片url.

你可能感兴趣的:(无标题文章)