项目实现地址。查看我的Github地址
一个公众号数据暂定10元起,量大优惠;另亦可爬取文章具体内容整理成完整PDF。
目前具体可获取指标(包含但不局限):阅读数、点赞数(在看)、评论内容及总数、正文内容及图片、是否为头条、是否为原创。
项目已经实现,比本文介绍的更加方便简单,可直接调用。
关于批量关注公众号的问题已解决,见我的另一篇csdn文章:自动批量关注微信公众号(非逆向)
不求完美,只求能够用。。。
截至2019年4月项目可正常运行, 方法已更新。
3月1号更新:
公开已爬取的公众号历史文章的永久链接,数据上传至GitHub,日期均截止commit时间。
某某微信公众号历史的所有文章的阅读数和点赞数
拥有一个微信个人订阅号,附上登陆和注册链接。微信公众平台
好在之前无聊注册过一次,所以就可以直接登陆操作。没有注册的童鞋可以用自己的微信号注册一下,过程十分简单,在此就不赘述了
登陆之后,点击左侧菜单栏“管理”-“素材管理”。再点击右边的“新建图文素材”
# -*- coding: utf-8 -*-
import requests
import time
import json
# 目标url
url = "https://mp.weixin.qq.com/cgi-bin/appmsg"
# 使用Cookie,跳过登陆操作
headers = {
"Cookie": yourcookie,
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.62 Safari/537.36",
}
"""
需要提交的data
以下个别字段是否一定需要还未验证。
注意修改yourtoken,number
number表示从第number页开始爬取,为5的倍数,从0开始。如0、5、10……
token可以使用Chrome自带的工具进行获取
fakeid是公众号独一无二的一个id,等同于后面的__biz
"""
data = {
"token": yourtoken,
"lang": "zh_CN",
"f": "json",
"ajax": "1",
"action": "list_ex",
"begin": number,
"count": "5",
"query": "",
"fakeid": yourfakeid,
"type": "9",
}
# 使用get方法进行提交
content_json = requests.get(url, headers=headers, params=data).json()
# 返回了一个json,里面是每一页的数据
for item in content_json["app_msg_list"]:
# 提取每页文章的标题及对应的url
print(item["title"], "url": item["link"])
以上,即可爬取微信公众号的一页数据,如果是爬取所有页的数据,则需要改变number进行爬取。
注:每次抓取完一页之后,最好设定time.sleep(3)。过快会导致爬取失败
这里我使用的方法是在电脑上登陆微信客户端,进行抓包分析。从客户端看推文可以看到阅读量、点赞量。
我使用的是Fiddler。Fiddller具体使用就不赘述了。下面直接演示操作
5. 其中/mp/getappmgsext?...
是我们推文内容的url,双击之后,fiddler界面右边出现如下图数据
6. 上图下侧的json里面的read_num
、like_num
分别是阅读量和点赞量
####代码实现
import time
import requests
import json
# 目标url
url = "http://mp.weixin.qq.com/mp/getappmsgext"
# 添加Cookie避免登陆操作,这里的"User-Agent"最好为手机浏览器的标识
headers = {
"Cookie": yourcookie,
"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36 MicroMessenger/6.5.2.501 NetType/WIFI WindowsWechat QBCore/3.43.27.400 QQBrowser/9.0.2524.400"
}
data = {
"is_only_read": "1",
"is_temp_url": "0",
"appmsg_type": "9", # 新参数,不加入无法获取like_num
}
"""
添加请求参数
__biz对应公众号的信息,唯一
mid、sn、idx分别对应每篇文章的url的信息,需要从url中进行提取
key、appmsg_token从fiddler上复制即可
pass_ticket对应的文章的信息,貌似影响不大,也可以直接从fiddler复制
"""
params = {
"__biz": your__biz,
"mid": article_mid,
"sn": article_sn,
"idx": article_idx,
"key": yourkey,
"pass_ticket": pass_ticket,
"appmsg_token": yourappmsg_token,
}
# 使用post方法进行提交
content = requests.post(url, headers=headers, data=data, params=params).json()
# 由于上面这种方法可能会获取数据失败,可以采取字符串拼接这种方法
origin_url = "https://mp.weixin.qq.com/mp/getappmsgext?"
appmsgext_url = origin_url + "__biz={}&mid={}&sn={}&idx={}&appmsg_token={}&x5=1".format(your__biz, article_mid, article_sn, article_idx, yourappmsg_token)
content = requests.post(appmsgext_url, headers=headers, data=data).json()
# 提取其中的阅读数和点赞数
print(content["appmsgstat"]["read_num"], content["appmsgstat"]["like_num"])
以上即可获取到一篇文章的阅读量、点赞量。
Cookie
、req_id
、pass_ticket
、key
、appmsg_token
、__biz
利用fiddler获取
如果是需要多篇文章,需要更改的参数mid
、sn
、idx
如果是不同公众号,就需要根据url修改__biz
多篇文章的爬取,需要根据之前爬取到的url进行提取关键信息,分别爬取。
注:每次抓取完一页之后,最好设定time.sleep(3)。过快会导致爬取失败。
以上就是这次微信爬虫的经历。
需要掌握的基本技能:
缺陷:
说明:
Github上已经实现了第1、2点,欢迎回到文章开头看github上的实现过程。
关于被封禁的问题,已有两个解决方案,均放在github上,在这不做讲解。