Python 知识星球爬虫(二)获取星球评论信息

文章目录

  • 1背景
  • 2 说明
    • 2.1 详细实现代码
    • 2.2 使用方法
  • 3 获取 headers 和 cookies 的方法
    • 3.1 Headers
    • 3.2 cookies

1背景

想快速地提取 组队学习 知识星球打卡的信息
在原有的基础上进行改良,此处附上链接 Python 知识星球爬虫(一) 根据 topic > comment 爬取数据

2 说明

2.1 详细实现代码

代码不难,并且加了备注~~~

# 前面3个函数
def get_group_topics(headers, groups_id):
def get_topics_comments(headers, topics_id, begin_time=None):
def get_comments_count(headers, topics_id):

总体的思路都是:

  1. requests请求获取text数据
  2. text数据转成dict格式的数据
  3. 按需提取dict中的数据
def main():

最后通过main()将所有的逻辑组织起来

详细代码可以查看 Github

  • Python3 group_spider_py36.py
  • Python2 group_spider_py27.py

输出结果如下:
Python 知识星球爬虫(二)获取星球评论信息_第1张图片

2.2 使用方法

  1. 确认运行环境 Python2 或者 Python3
  2. 代码23~26行,user-agentcookie 的修改;
  3. 代码137行,根据学习小组,修改 get_group_topics 的信息。

3 获取 headers 和 cookies 的方法

3.1 Headers

谷歌浏览器按F12,搜索 topic 然后看结果
Python 知识星球爬虫(二)获取星球评论信息_第2张图片

3.2 cookies

我安装了google插件 点击跳转
Python 知识星球爬虫(二)获取星球评论信息_第3张图片

主要的cookie中主要的key有2个 UM_distinctidzsxq_access_token。如果找不到 UM_distinctid,那将cookie中key和value都加上

你可能感兴趣的:(Python)