python爬取糗事百科段子

最近在学习python爬虫,看到了崔大神的博客,由于他使用的python2.x,于是自己就想用python3实现一下,练练手。有哪些可以改进的地方,望指正。谢谢!

本篇目标

1.抓取糗事百科中24小时栏目的段子

2.过滤有图片的段子(毕竟在终端中显示图片不太现实)

3.实现显示段子的发布者、段子内容、好笑值和评论数

分析站点并抓取页面代码

1.页面的url是https://www.qiushibaike.com/hot/page/1/,其中数字1代表的是页码,通过站点分析,24小时栏目下的页面总共有13页,所以爬取是就直接在1-13页中,无需单独获取最大的页码数(其实主要是因为懒,能省一步是一步:happy:)

2.经测试该网站没有反爬虫措施,所以可以肆无忌惮的爬,连请求头都不用加,开不开心。

代码奉上:

import requests
from requests.exceptions import RequestException

def get_page(page):
    '''获取网页源代码'''

    try:
        url = "https://www.qiushibaike.com/hot/page/" + str(page)
        response = requests.get(url)
        if response.status_code == 200:
            return response.text
        else:
            return None
    except RequestException:
        return None
 
def main(page):
  '''主函数'''
  
    html = get_page(page)
    if html:
        print(html)
    else:
        print('请求网页失败!')

if __name__ == '__main__':
  '''程序入口'''
  
    map(main, [i for i in range(1,14)])

抓取某页中所以的段子

获取页面的HTML代码后,就需要分析该页面具体每个段子的结构了,先上图:


python爬取糗事百科段子_第1张图片
单个段子代码详情

经分析,可知:

1.每个

标签都包含一个段子,结构很清晰

2.发布者在

标签中,段子内容在
下的 标签中,好笑值和评论数在上图中都标明了位置(请自行查看)

3.带图片对待段子在 标签下多一个

标签,如下:

python爬取糗事百科段子_第2张图片
带图片段子详情

代码奉上:

pattern = re.compile(
  '(.*?).*?content.*?(.*?).*?' +
  '
                    

你可能感兴趣的:(python爬取糗事百科段子)