最近要跟着同学做一个小项目,需要自己找语料库,于是我用python 的 beautifulsoup 和urllib 来抓取一些网页内容来做训练语料。现在写下来备忘,虽然还有些不足。
这里,我抓取的是凤凰军事的滚动新闻,点开后可以发现是一系列的新闻链接,所以接下来就分两个方面的工作,第一个是将这些新闻链接全部提取出来,保存文本。第二个是根据这些链接访问网页,抓取正文内容,再保存文本。
提取新闻链接
通过分析滚动新闻的网页源码,发现这些超链接都是在
我们在滚动新闻下方会发现有“下一页”和“前一天”的标签,于是我们的思路是:本页的url提取完,如果有“下一页”标签,就将其url拿出来访问,在提取url,若没有“下一页”标签,则取出“前一天”标签的url来访问,就这样循环往下提取url,直到你认为够用了为止。(我做了100次的循环,大约爬了3800个url)
代码如下:<