环境:Windows7 +Python3.6+Pycharm2017
目标:抓取微信公众号全部历史文章(文章名+url)保存到本地csv。
---全部文章: 京东爬虫 、链家爬虫、美团爬虫、微信公众号爬虫、字体反爬、Django笔记、阿里云部署、vi\vim入门----
分析:关于微信公众号的爬取,网上搜索了一下,主要有几种方法:
一、搜狗微信公众平台 http://weixin.sogou.com/ ,有个问题就是这里抓的文章一个不能把公众号文章全部抓全,还有就是文章的地址好像不是永久地址。
二、公众号平台文章调用接口 https://mp.weixin.qq.com/ ,就是你自己要先申请一个公众号,编辑文章的时候有个引用文章,但是这种方法好像有次数限制。具体可以参考以下文章 链接。 一二两种我自己都没试过。
三、APP抓包,通过抓包分析请求参数,然后构造请求。
基本思路:
抓包工具这里用的是Anyproxy,打开手机微信,进入公众号的历史文章页面,下拉会不断加载历史文章,每次10条。抓包发现这是一个get请求,url如下:
https://mp.weixin.qq.com/mp/profile_ext?action=getmsg&__biz=MzU2MzA2ODk3Nw==&f=json&offset=10&count=10&is_ok=1&scene=124&uin=777&key=777&pass_ticket=%2F%2FMLfYzV4VmptckJ%2BGC%2FEMbuBaYdCzplfP7pig2nHKORwHh%2FKcSp5ufJNIY4R6Y6&wxtoken=&appmsg_token=973_9bX%252FVHxGVbz3AvGoFZHVNBOf1ygPLteCjhz8aA~~&x5=1&f=json
url中主要有三个参数:_biz 公众号的id;offset 翻页参数,每次增加10;appmsg_token 这是一个加密参数,有一段有效期。我们如果要构造请求的话,主要的问题就是这个appmsg_token参数,显然去破解这个参数是怎么生成的难度比较大。本文采用的办法是利用手机微信app发送请求,然后用代理软件Anyproxy截获这个请求的appmsg_token,还有cookie,返回给我们的爬虫程序。
原理就是这么简单,你可以用一个抓包软件抓包,然后手动的将appmsg_token、cookie、headers信息加到你的爬虫代码中,就可以抓取了。爬太快的话会封ip,实际测试每次请求sleep1秒,一个appmsg_token可以把人民日报历史文章全部抓完。本文内容比较多,但是基本上都是为了实现上面步骤的自动化。
本文用到的工具有:Anyproxy抓包工具,adb(一个安卓调试工具,借此可用实现电脑控制手机操作,如点击,滑动等),aiohttp(其他web框架也可以)搭建一个简单的web服务,用以将抓包获取的参数传递给爬虫代码。
实现逻辑如下:手机连接Anyproxy代理,再通过数据线连接电脑(连接adb),打开微信公众号历史文章页面。开启aiohttp的web服务,启动爬虫代码。首先会去获取token和cookie,方法是用adb控制手机下拉加载更多的历史文章触发请求。然后Anyproxy捕获到该请求,将请求的appmsg_token、cookie参数通过post请求发送到aiohttp的web服务器上,然后爬虫代码通过get请求访问aiohttp的web服务器获取appmsg_token、cookie参数,然后开始爬取。
具体实现:
一、Anyproxy安装使用
Anyproxy是阿里开发的一款代理服务器,支持基于nodejs的二次开发。我们可以在中间对请求或者响应做一些修改,如中间人攻击。
安装:1、首先需要安装nodejs,去官网下载,点击安装就行。2、装好nodejs后在cmd窗口输入 npm
install
-g anyproxy 进行安装。我自己安装过程中遇到个错误,提示是缺少一个react库,我自己去网上下了一个,文件夹名称改为react,然后放到nodejs下面的lib文件夹中。我看网上也没提到这个问题,写下。安装如果遇到其他问题自行百度下应该都能解决。
3、装好anyproxy后,如果我们要监听https请求,还需要安装证书。电脑端、手机端都需要安装。电脑端整数安装方式:在cmd窗口输入 anyproxy-ca (中间没有空格),会生成一个证书,找到这个证书点击设置为受信任的证书。手机端证书下载,我用的是安卓机,苹果好像稍微有点不一样。先在cmd中输入命令 anyproxy 运行代理,然后再用浏览器打开 http://127.0.0.1:8002/ ,可以在web界面上能看到所有的请求信息。
http://127.0.0.1:8002/ web监控界面如上图所示,点击左边的RootCA会弹出二维码,用手机扫描二维码即可下载证书并安装。我自己在安装的时候还要求输入手机密码,就是设置指纹时设置的密码。上图右上角的圆球点击后会出现一串地址,第一个就是后面手机设置代理时的地址。
安装好证书后,在cmd窗口输入命令运行anyproxy,几条常用命令如下:
anyproxy #运行anyproxy,不监听https请求
anyproxy -i #运行anyproxy,监听https请求
anyproxy -i --rule F:\XX\X\sample.js
#运行anyproxy,监听https请求,并执行sample.js中的代码(二次开发)
手机设置代理,手机和电脑连接一个wifi,不同手机设置可能不一样。我的是点进当前连接的wifi,代理设置--手动--然后输入主机名和端口,端口默认8001,主机名就是上面提到的那个地址。
手机设置好代理后,点开微信公众号文章,就能在web页面观察到请求,点击请求可以查看详细信息,左边的Fliter可以做筛选。
以新京报为例,点击进入公众号历史消息,首页的10条消息是一个get请求,返回是一段html代码,如下图一。继续往下拉,加载更多后,我们发现加载更多的也是一个get请求,返回的是json数据。这两个get请求不一样,但是发现首页的10条消息也可以用加载更多的get请求获得,offset设置为0。
正如上文所述,构造加载更多的get请求需要三个参数,_biz 公众号的id;offset 翻页参数;appmsg_token 这是一个加密参数,一段时间内有效。主要的我们就是需要appmsg_token参数和请求的cookie,这里就需要使用anyproxy的二次开发功能,当代理检测到app发送了加载更多的请求,获取这个请求的url,cookie,通过post请求发送到aiohttp搭建的web服务器上,然后爬虫代码再从服务器上获取这些参数。anyproxy监听和发post请求的代码如下,是基于nodejs,本人也不会js,都是百度依样画葫芦。
sample.js文件:
var http = require('http'); //引用http模块
var querystring = require('querystring');//引用querystring模块
//构造一个函数,用于发送post请求,发送的内容为contents
function post_data(contents) {
var options = {
host: '127.0.0.1', //本地web服务器的地址端口
port: '8080',
path: '/',
method: 'POST',
headers: {
'Content-Type': 'application/x-www-form-urlencoded',
'Content-Length': contents.length }
}
var req = http.request(options, function (res) {
res.setEncoding('utf8');
res.on('data', function (data) {
console.log("data:", data);
});
});
req.write(contents);
req.end;
}
//anyproxy固定格式
module.exports = {
summary: 'a rule to get url and cookie', //一段代码功能介绍
//在request发送前执行,下面的if通过正则匹配请求的url来找到加载更多的请求,然后获取url、cookie
*beforeSendRequest(requestDetail) {
if (/mp.weixin.qq.com\/mp\/profile_ext\?action=getmsg&__biz/i.test(requestDetail.url)) {
console.log('***********抓取到目标**********')
console.log(requestDetail.requestOptions['headers'])
var contents=querystring.stringify({
'url':requestDetail.url,
'cookie':requestDetail.requestOptions['headers']['Cookie']});
post_data(contents) //发送post请求
return null
}
},
};
二、aiohttp搭建本地web服务
aiohttp是一个异步的框架,可以建web服务,也可以用来发请求。当然也可以用其他的web框架。
首先安装 : pip install aiohttp
路由系统定义两个函数,get和give,当有post请求过来时执行函数get,当有get请求过来时执行give函数。代码如下:
from aiohttp import web
import re
#接收anyproxy的post请求并处理
async def get(request):
n=await request.post()
url=n['url']
cookie=n['cookie']
# biz=re.search('biz=.{14}==',url).group() #从url中提取出_biz
token = re.search('appmsg_token.+json', url).group() #从url中提取出appmsg_token
print('获取token: ',token)
print('获取cookie: ',cookie)
data={'token':token,'cookie':cookie}
p_list.append(data)
print('当前列表长度:',len(p_list))
return web.Response(text='你好,收到信息')
#接收爬虫代码的get请求并返回appmsg_token和cookie
async def give(request):
print('开始发送appmsg_token和cookie')
d=p_list.pop()
return web.Response(text=str(d))
p_list=[] #用于存储appmsg_token和cookie
app=web.Application()
app.add_routes([web.post('/',get),web.get('/',give)]) #路由定义,有post请求访问127.0.0.1:8080,执行get函数,有get请求访问127.0.0.1:8080,执行give函数
web.run_app(app,host='127.0.0.1',port=8080) #定义web服务器运行的位置 端口
三、adb的安装使用
adb主要用来实现电脑对手机的控制,用代码自动完成手机微信公众号的操作。
adb安装可以参考 文章 ,直接下载 下面的文件,解压后有四个文件,添加到系统环境变量。cmd输入adb,出现一长串信息就安装ok了。
百度网盘链接: https://pan.baidu.com/s/1pMxVo0lLnSoAmUp9Xpgzng 密码: yh8q
手机用数据线连接电脑,打开usb调试,可以在cmd中输入命令控制,常见命令如下
adb shell input swipe 100 200 800 200 100
#从点(100,200)滑动到(800,200)用时100ms(时间可以不加),前面是x坐标,后面是y,坐标圆点是屏幕左上角
adb shell input tap 557 1578 #点击屏幕上的点(557,1578)
用python实现:直接调用os库
import os
os.system('adb shell input swipe 100 200 800 200 100')
os.system('adb shell input tap 557 1578')
四、爬虫主程序
首先手机usb连好电脑,开启usb调试,开启anyproxy代理,手机设置好代理,开启web服务。手机点开人民日报历史消息页面,如下图一,运行爬虫主程序,利用adb命令 屏幕左边缘向右滑动返回公众号的基本信息页面,如下图二,然后再点击【查看历史消息】再次进入到图一历史消息页面,然后利用滑动操作触发加载更多。每次重新进入历史消息页面生成新的appmsg_token参数。程序运行过程手机需要保持亮屏。这里还利用一点就是一个公众号的appmsg_token也可以用以请求其他公众号,但是也不是全部都适用,有的也不行。
爬虫程序代码如下,输入为公众号biz号,输出为公众号历史文章的名称和url。
import requests
import json
import csv
import time
import os
def get_token():
os.system('adb shell input swipe 0 200 800 200') #从屏幕左边缘右滑返回上一级
time.sleep(0.5)
os.system('adb shell input tap 557 1578') #点击 【查看历史消息】 进入历史消息页面,坐标每个手机不一样
time.sleep(2)
os.system('adb shell input swipe 500 1800 500 300 100') #两次向上滑动触发加载更多
os.system('adb shell input swipe 500 1800 500 300 100')
time.sleep(0.1)
url='http://127.0.0.1:8080'
r=requests.get(url) #向本地web服务器发送get请求获取appmsg_token和cookie
d=eval(r.text)
print('获取token:',d)
# token = d['token']
# cookie = d['cookie']
return(d)
def crow(biz):
MARK=0 #一个公众号文章是否抓完的标志位,1表示抓完
data=get_token()
token=data['token']
cookie=data['cookie']
n=0
while MARK==0:
time.sleep(0.5)
pages = str(10 * n)
url = 'https://mp.weixin.qq.com/mp/profile_ext?action=getmsg&__biz='+biz+'&f=json&offset=' +pages+ '&count=10&is_ok=1&scene=124&uin=777&key=777&pass_ticket=%2F%2FMLfYzV4VmptckJ%2BGC%2FEMbuBaYdCzplfP7pig2nHKORwHh%2FKcSp5ufJNIY4R6Y6&wxtoken=&'+token
head = {'Host': 'mp.weixin.qq.com',
'Connection': 'keep-alive',
'X-Requested-With': 'XMLHttpRequest',
'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; GN8002 Build/MRA58K; wv) AppleWebKit/537.36 (KHTML, like Gecko) Version/4.0 Chrome/57.0.2987.132 MQQBrowser/6.2 TBS/044205 Mobile Safari/537.36 MicroMessenger/6.6.3.1260(0x26060339) NetType/WIFI Language/zh_CN',
'Accept': '*/*',
'Referer': 'https://mp.weixin.qq.com/mp/profile_ext?action=home&__biz=MjM5NzAwMzU0MA==&scene=124&devicetype=android-23&version=26060339&lang=zh_CN&nettype=WIFI&a8scene=3&pass_ticket=5IruuVAhjeQ22KmpbBJX10LUhvreqP%2F4zCi0%2FlKRAYVSGufFu4EDGCytd7oIWNkV&wx_header=1',
'Accept-Encoding': 'gzip, deflate',
'Accept-Language': 'zh-CN,en-US;q=0.8',
'Q-UA2': 'QV=3&PL=ADR&PR=WX&PP=com.tencent.mm&PPVN=6.6.3&TBSVC=43603&CO=BK&COVC=044205&PB=GE&VE=GA&DE=PHONE&CHID=0&LCID=9422&MO= GN8002 &RL=1080*1920&OS=6.0&API=23',
'Q-GUID': '37319016da4caf7783df5bf913b788cb',
'Q-Auth': '31045b957cf33acf31e40be2f3e71c5217597676a9729f1b',
'cookie': cookie
}
try:
r = requests.get(url, headers=head,timeout=5)
html = json.loads(r.text)
if len(html)==9: #判断下返回的json消息体是否是正常的消息体
datas0 = html['general_msg_list']
datas0 = json.loads(datas0)
datas = datas0['list']
l = len(datas)
if l<10:
MARK=1
end=time.time()-start
print('*********************')
print('Page:%d' % n, 'Num:%d' % l,'Time:%d'%end)
n += 1
for data in datas:
try:
url_1 = data['app_msg_ext_info']['content_url']
title_1 = data['app_msg_ext_info']['title']
print(title_1)
print(url_1)
dd = data['app_msg_ext_info']['multi_app_msg_item_list']
#保存到本地
with open('weixin.csv','a',newline='',encoding='gb18030')as f:
write=csv.writer(f)
if len(dd) > 0:
for d in dd:
url_d = d['content_url']
title_d = d['title']
print(title_d)
print(url_d)
write.writerow([title_d,url_d])
except Exception as e:
print(e)
print(r.text)
else:
#如果访问失效重新获得token、cookie
print('error')
print(r.text)
data = get_token()
token = data['token']
cookie = data['cookie']
except:
pass
print('*******************',biz,'抓取完成***************')
if __name__=='__main__':
start=time.time()
biz_list=['MzIxNDEzNzI4Mg==','MzA5OTA0NDIyMQ==','MTgwNTE3Mjg2MA==','MzA3MDM5ODY4Ng==','MjM5MDMyMzg2MA==','MzA4MjQxNjQzMA==','MzU2MzA2ODk3Nw==','MTI0MDU3NDYwMQ=='] #局座召忠、占豪、冷兔、美闻参阅、十点读书、新华网、新京报、央视新闻
for biz in biz_list:
crow(biz)
五、结果与总结
总结一下,微信对访问次数是有限制的,首先是封ip,访问越快封的越快。其次对每个微信号每天的请求次数也是有限制的,每秒发一次请求,大概测试下来是1500次请求左右。达到后就进不了公众号历史页面(禁24h),微信其他功能不影响。不清楚请求速度如果降下来次数是不是能增加。1500次请求,每次10条消息,一个公众号一天一条消息,按五年算就是1800条消息,可以爬完8个这样的公众号。但是有些公众号比如人民日报【官媒】这种是可以一天发多条消息的,所以这种账号数据量会比较大一些。还有就是需要关注你爬取的公众号,不关注好像也有影响。比较尴尬的一点是本来利用anyproxy、adb是为了自动化抓取,持续的抓取。结果发现瓶颈其实在微信号每天的访问次数,好像一个appmsg_token+cookie就可以差不多抓完1000多次,还不如手动复制下参数好!!!
下图是抓取的一些数据,以及应该是人民日报 第一篇文章。
水平有限,如有错误请指正。
---全部文章: 京东爬虫 、链家爬虫、美团爬虫、微信公众号爬虫、字体反爬、Django笔记、阿里云部署、vi\vim入门----
欢迎关注个人微信公众号,更多案例持续更新!