python全站试爬虫

第一次写,是直接写还是先走程序。

1、都是些废话

    最近失业了,晚上睡不着,实在没事干。所以来练习下爬虫技术,第一次创作,写的不好,勿喷。

2、正式开始 

    想要练习下全站试爬虫,找了几个网站,觉得还是从最简单的开始,因为本人喜欢看小说,所以就以全书网为例。根据自己实践证明,全书网没有做任何反爬技术(适用于初学者)。

3、分析网站并编写代码

    3.1、获取最大分类

        网址为:http://www.quanshuwang.com/   (百度搜索全书网,打开第一个),首先分析网站,个人经验,以类目区分,很明显可以发现它的第一级类目(最大分类)

    

 

 

        所以,第一步拿到它的类目信息(链接或者ID),右键查看网页源代码,可以清楚的看到,它的分类全部放在源码里面。通过查找发现,ul表现后面class值为唯一值,直接利用xpath,一步到位

            html.xpath('//ul[@class="channel-nav-list"]/li/a/@href')

python全站试爬虫_第1张图片

        到此,一级类目已经拿到(第一部分代码已经完成)。

    3.2、获取页码链接

        拿到分类链接不要着急,喝杯茶,休息一下。通过这些链接发现,这些链接都是每个分类下的第一页的,所以要拿到它最大页码,做个循环拿到所有页码链接。先打开第一页链接,通过源码发现它的页码放在

转载于:https://my.oschina.net/u/3850783/blog/1806514

你可能感兴趣的:(python全站试爬虫)