爬虫爬取一击男吧漫画

爬虫分析:
简单流程:
Created with Raphaël 2.2.0 一击男贴吧精品区url地址 用xpath和re筛选目标标题 保存标题名称和帖子url 获取下一页的url地址 循环获取所有符合的帖子标题和url 遍历符合的帖子url列表 分析帖子,获取所有一楼用户id所发的图片 帖子下一页url 获取所有图片url 构造图片url,请求 保存图片
分析筛选目标标题
  • 精品区url地址:https://tieba.baidu.com/f?kw=%E4%B8%80%E5%87%BB%E7%94%B7&ie=utf-8&tab=good&cid=1&pn=0
  • 参数kw=“贴吧名字”,这里是“一击男”。
  • tab=good 是精品区的意思,不用管。
  • cid=1 是精品区下的帖子分类,因为要爬取的是精品区的帖子,所以这里选cid=1,“村田重置”
  • 浏览器进入开发者模式,看看代码。Ctrl+f搜索一下某个标题,“二人”,因为要用xpath和re,所以要。找一下一下标题代码的规律。
  • 164话嵌字汉化【二人小组】
  • 因为百度返回的html都在注释里面对使用xpath十分不友好,所以尝试使用re正则表达式直接弄出来。
  • 使用正则表达式:re_str = r'href="/p/(\d*)" title="(.*?)"'
  • 可以得到形如这样的列表:[('6459196128', '【团子汉化组】一击男重制版 168话'), ('6459257409', '168话嵌字汉化【二人小组】'), ('6459200478', '一击男168话【野生汉化菌】'),......,....]
  • 元组内第一个数字可以使用字符串拼接成帖子的url。
  • 元组第二个元素着是这个帖子的标题,可以再次使用正则判断筛选出我们想要的帖子。
获取下一页的url地址