爬取百度贴吧(一)--分析贴吧首页源码

一、分析贴吧网页源码结构

直接打开源代码,太乱了。无从下手,那就从开发者工具找一下。

我想获取每个帖子的标题、回复数、时间和链接(可能的话以后会尝试自动保存帖子当前页的截图)

先选中帖子的模块吧~

在chrome中,ctrl+shift+i就可以打开。

选中elements的选项。

接下来的操作就很简单了,只要将鼠标移到代码上,其所指示的位置就会标出。

一步一步,得出了我想找的一个帖子所对应的代码,以第一个非置顶帖为例:

爬取百度贴吧(一)--分析贴吧首页源码_第1张图片

不难看出,我们想要的帖子在这个html文件的body/div class="wrap1"/div class="wrap2"/...content/....../j_thread_list下

上面是置顶帖,下面紧挨着的,自然是下一个帖子。

我们发现每一个帖子在贴吧首页的信息都是存放在一个单独的

  • 标签下的,右键,导出为html,然后我们就可以在别的文本编辑器里粘贴这部分的内容。

    粘贴结果如下:

  • 6
    学校周边有什么适合学习的地方吗? 工学馆被封。图书馆人太多
  • 很乱,稍加整理。可以在后面直接加.prettify()美化代码。如:

    print(url_soup.prettify())

    我们发现每一个帖子有一个很规整的格式:

  • 6
    学校周边有什么适合学习的地方吗? 工学馆被封。图书馆人太多
  • 整理完毕,结合着贴吧首页来看:

    我们想找的信息:

    1、回复数:左侧直接显示

    6

    2、帖子链接:

    帖子链接为'http://tieba.baidu.com"+"/p/**********",也就是帖子的链接可以从标签中href的值获得

    3、标题:同样,帖子的标题也可从这里获得,即title的内容

    4、时间:

    时间发现有两个:

    (1)帖子创建时间:

    
        11-3
    

    (2)最后回复时间:

    
        11:21        
    

    想要的内容结构也就分析完了,接下来就要开始爬取并处理了。

  • 你可能感兴趣的:(爬虫)