Python爬虫——简书首页文章信息

运用Python对简书首要进行简书首页的文章信息进行爬取。具体包括:文章标题、文章id、用户昵称、用户id、总浏览量、评论数、点赞数、赞赏量。以及文章插图和用户头像的下载。并对以上数据进行excel的存储,首先进行文件是否存在的判断,不存在,则创建。再比较pandas包方法存储和xlwt方法。
Python爬虫——简书首页文章信息_第1张图片

网页分析

首先对简书首页网页进行分析。在查看网页源代码中按下ctrl+F键搜索“做人,不要自作多情,生活中真的没有人在乎你”,结果发现能做网页源代码中找到。
Python爬虫——简书首页文章信息_第2张图片
再对原始网页点击阅读更多,同样在网页源代码中搜索阅读更多中的任意一篇文章,结果在网页源代码中没有找到。且网页url没有变化。可以判断此网页用了异步加载技术(Ajax)。Python爬虫——简书首页文章信息_第3张图片
Python爬虫——简书首页文章信息_第4张图片
再在网页右击选择检查——network——xhr。刷新网页可以发现Python爬虫——简书首页文章信息_第5张图片再点击展开更多文章,可以发现

Python爬虫——简书首页文章信息_第6张图片
在这里插入图片描述在这里插入图片描述打开url可以发现出现的正是我们需要的数据。
Python爬虫——简书首页文章信息_第7张图片
于是对url进行了修改,url=https://www.jianshu.com/asimov/trending/now?count=15¬e_ids=9。也出现了数据。最终可以获得url为https://www.jianshu.com/asimov/trending/now?count=15¬e_ids= +一个数字。

爬取数据

由上述分析获得了网页url,返回的为json文件。如下。
在这里插入图片描述具体爬取代码如下:

  1. 导入工具包,os包用来查看文件夹是否存在。xlwt和pandas用来存储到excel,time用来计时。
    在这里插入图片描述

  2. 添加请求头
    在这里插入图片描述

  3. 定义网页爬取函数
    Python爬虫——简书首页文章信息_第8张图片

  4. 定义图片下载函数
    Python爬虫——简书首页文章信息_第9张图片

  5. 主函数+数据保存
    Python爬虫——简书首页文章信息_第10张图片Python爬虫——简书首页文章信息_第11张图片

  6. 结果

在这里插入图片描述显然xlwt写入excel要快。
在这里插入图片描述Python爬虫——简书首页文章信息_第12张图片初次分享,还有很多不完整的地方,还望多多指正。

你可能感兴趣的:(爬虫)