python爬虫之旅--爬取文章

话不多说,先上图python爬虫之旅--爬取文章_第1张图片
第一步:导入requests,导入re(没用上。。。)导入lxml,引用etree;
如果这几个都没有,自行下载就行了。pip install requests/pip install lxml;

第二步:先把网页爬下来看看情况,url=‘xxxxxxxxxxxxxxxx’;看了下请求方式是get,拼个header头,直接requests.get走你;

第三步:判断页面数据,好家伙,都是文字,大段大段的,直接一个etree.HTML(),然后用xpath选取需要的内容
title = text.xpath(’.//div[@class=“bt”]/text()’)
text = text.xpath(’.//div[@class="main c_666 "]//span/text()’)
接下来判断一下title和text是否有内容,因为如果循环爬取的话,说不准有些id对应的文章就没有呢,所以判断一下;
如果没有内容,跳过,有内容,写入文件中;

最后,一篇文章能爬取下来了,那就搞一个循环走你!

你可能感兴趣的:(python)