Python爬虫五:微信公众号爬虫-2018.9

环境:Windows7 +Python3.6+Pycharm2017

目标:抓取微信公众号全部历史文章(文章名+url)保存到本地csv。

---全部文章: 京东爬虫 、链家爬虫、美团爬虫、微信公众号爬虫、字体反爬、Django笔记、阿里云部署、vi\vim入门----

分析:关于微信公众号的爬取,网上搜索了一下,主要有几种方法:

一、搜狗微信公众平台 http://weixin.sogou.com/ ,有个问题就是这里抓的文章一个不能把公众号文章全部抓全,还有就是文章的地址好像不是永久地址。

二、公众号平台文章调用接口 https://mp.weixin.qq.com/ ,就是你自己要先申请一个公众号,编辑文章的时候有个引用文章,但是这种方法好像有次数限制。具体可以参考以下文章 链接。 一二两种我自己都没试过。

三、APP抓包,通过抓包分析请求参数,然后构造请求。

基本思路:

    抓包工具这里用的是Anyproxy,打开手机微信,进入公众号的历史文章页面,下拉会不断加载历史文章,每次10条。抓包发现这是一个get请求,url如下:

https://mp.weixin.qq.com/mp/profile_ext?action=getmsg&__biz=MzU2MzA2ODk3Nw==&f=json&offset=10&count=10&is_ok=1&scene=124&uin=777&key=777&pass_ticket=%2F%2FMLfYzV4VmptckJ%2BGC%2FEMbuBaYdCzplfP7pig2nHKORwHh%2FKcSp5ufJNIY4R6Y6&wxtoken=&appmsg_token=973_9bX%252FVHxGVbz3AvGoFZHVNBOf1ygPLteCjhz8aA~~&x5=1&f=json

url中主要有三个参数:_biz   公众号的id;offset  翻页参数,每次增加10;appmsg_token 这是一个加密参数,有一段有效期。我们如果要构造请求的话,主要的问题就是这个appmsg_token参数,显然去破解这个参数是怎么生成的难度比较大。本文采用的办法是利用手机微信app发送请求,然后用代理软件Anyproxy截获这个请求的appmsg_token,还有cookie,返回给我们的爬虫程序。

原理就是这么简单,你可以用一个抓包软件抓包,然后手动的将appmsg_token、cookie、headers信息加到你的爬虫代码中,就可以抓取了。爬太快的话会封ip,实际测试每次请求sleep1秒,一个appmsg_token可以把人民日报历史文章全部抓完。本文内容比较多,但是基本上都是为了实现上面步骤的自动化。

本文用到的工具有:Anyproxy抓包工具,adb(一个安卓调试工具,借此可用实现电脑控制手机操作,如点击,滑动等),aiohttp(其他web框架也可以)搭建一个简单的web服务,用以将抓包获取的参数传递给爬虫代码。

实现逻辑如下:手机连接Anyproxy代理,再通过数据线连接电脑(连接adb),打开微信公众号历史文章页面。开启aiohttp的web服务,启动爬虫代码。首先会去获取token和cookie,方法是用adb控制手机下拉加载更多的历史文章触发请求。然后Anyproxy捕获到该请求,将请求的appmsg_token、cookie参数通过post请求发送到aiohttp的web服务器上,然后爬虫代码通过get请求访问aiohttp的web服务器获取appmsg_token、cookie参数,然后开始爬取。

具体实现:

一、Anyproxy安装使用

Anyproxy是阿里开发的一款代理服务器,支持基于nodejs的二次开发。我们可以在中间对请求或者响应做一些修改,如中间人攻击。

安装:1、首先需要安装nodejs,去官网下载,点击安装就行。2、装好nodejs后在cmd窗口输入 npm install -g anyproxy 进行安装。我自己安装过程中遇到个错误,提示是缺少一个react库,我自己去网上下了一个,文件夹名称改为react,然后放到nodejs下面的lib文件夹中。我看网上也没提到这个问题,写下。安装如果遇到其他问题自行百度下应该都能解决。

Python爬虫五:微信公众号爬虫-2018.9_第1张图片

 3、装好anyproxy后,如果我们要监听https请求,还需要安装证书。电脑端、手机端都需要安装。电脑端整数安装方式:在cmd窗口输入 anyproxy-ca  (中间没有空格),会生成一个证书,找到这个证书点击设置为受信任的证书。手机端证书下载,我用的是安卓机,苹果好像稍微有点不一样。先在cmd中输入命令 anyproxy 运行代理,然后再用浏览器打开 http://127.0.0.1:8002/ ,可以在web界面上能看到所有的请求信息。

Python爬虫五:微信公众号爬虫-2018.9_第2张图片Python爬虫五:微信公众号爬虫-2018.9_第3张图片

 http://127.0.0.1:8002/ web监控界面如上图所示,点击左边的RootCA会弹出二维码,用手机扫描二维码即可下载证书并安装。我自己在安装的时候还要求输入手机密码,就是设置指纹时设置的密码。上图右上角的圆球点击后会出现一串地址,第一个就是后面手机设置代理时的地址。

安装好证书后,在cmd窗口输入命令运行anyproxy,几条常用命令如下:

anyproxy     #运行anyproxy,不监听https请求

anyproxy -i  #运行anyproxy,监听https请求

anyproxy -i --rule F:\XX\X\sample.js  
             #运行anyproxy,监听https请求,并执行sample.js中的代码(二次开发)

手机设置代理,手机和电脑连接一个wifi,不同手机设置可能不一样。我的是点进当前连接的wifi,代理设置--手动--然后输入主机名和端口,端口默认8001,主机名就是上面提到的那个地址。

Python爬虫五:微信公众号爬虫-2018.9_第4张图片

 手机设置好代理后,点开微信公众号文章,就能在web页面观察到请求,点击请求可以查看详细信息,左边的Fliter可以做筛选。

Python爬虫五:微信公众号爬虫-2018.9_第5张图片

以新京报为例,点击进入公众号历史消息,首页的10条消息是一个get请求,返回是一段html代码,如下图一。继续往下拉,加载更多后,我们发现加载更多的也是一个get请求,返回的是json数据。这两个get请求不一样,但是发现首页的10条消息也可以用加载更多的get请求获得,offset设置为0。

 Python爬虫五:微信公众号爬虫-2018.9_第6张图片

Python爬虫五:微信公众号爬虫-2018.9_第7张图片 Python爬虫五:微信公众号爬虫-2018.9_第8张图片

 正如上文所述,构造加载更多的get请求需要三个参数,_biz  公众号的id;offset  翻页参数;appmsg_token 这是一个加密参数,一段时间内有效。主要的我们就是需要appmsg_token参数和请求的cookie,这里就需要使用anyproxy的二次开发功能,当代理检测到app发送了加载更多的请求,获取这个请求的url,cookie,通过post请求发送到aiohttp搭建的web服务器上,然后爬虫代码再从服务器上获取这些参数。anyproxy监听和发post请求的代码如下,是基于nodejs,本人也不会js,都是百度依样画葫芦。

sample.js文件:


var http = require('http'); //引用http模块
var querystring = require('querystring');//引用querystring模块
//构造一个函数,用于发送post请求,发送的内容为contents
function post_data(contents) {
    var options = {
        host: '127.0.0.1',   //本地web服务器的地址端口
        port: '8080',
        path: '/',
        method: 'POST',
        headers: {
            'Content-Type': 'application/x-www-form-urlencoded',
            'Content-Length': contents.length }
    }

    var req = http.request(options, function (res) {
        res.setEncoding('utf8');
        res.on('data', function (data) {
            console.log("data:", data);
        });
    });
    req.write(contents);
    req.end;
}


//anyproxy固定格式
module.exports = {
  summary: 'a rule to get url and cookie', //一段代码功能介绍
    //在request发送前执行,下面的if通过正则匹配请求的url来找到加载更多的请求,然后获取url、cookie
  *beforeSendRequest(requestDetail) {
    if (/mp.weixin.qq.com\/mp\/profile_ext\?action=getmsg&__biz/i.test(requestDetail.url)) {
        console.log('***********抓取到目标**********')
        console.log(requestDetail.requestOptions['headers'])
        var contents=querystring.stringify({
             'url':requestDetail.url,
             'cookie':requestDetail.requestOptions['headers']['Cookie']});
        post_data(contents) //发送post请求

        return null
    }

  },
};

二、aiohttp搭建本地web服务

aiohttp是一个异步的框架,可以建web服务,也可以用来发请求。当然也可以用其他的web框架。

首先安装 : pip install aiohttp

路由系统定义两个函数,get和give,当有post请求过来时执行函数get,当有get请求过来时执行give函数。代码如下:

from aiohttp import web
import re
#接收anyproxy的post请求并处理
async def get(request):
    n=await request.post()
    url=n['url']
    cookie=n['cookie']
    # biz=re.search('biz=.{14}==',url).group()   #从url中提取出_biz
    token = re.search('appmsg_token.+json', url).group() #从url中提取出appmsg_token
    print('获取token:  ',token)
    print('获取cookie:  ',cookie)
    data={'token':token,'cookie':cookie}
    p_list.append(data)
    print('当前列表长度:',len(p_list))
    return web.Response(text='你好,收到信息')
#接收爬虫代码的get请求并返回appmsg_token和cookie
async def give(request):
    print('开始发送appmsg_token和cookie')
    d=p_list.pop()
    return web.Response(text=str(d))

p_list=[]  #用于存储appmsg_token和cookie
app=web.Application()
app.add_routes([web.post('/',get),web.get('/',give)])  #路由定义,有post请求访问127.0.0.1:8080,执行get函数,有get请求访问127.0.0.1:8080,执行give函数
web.run_app(app,host='127.0.0.1',port=8080) #定义web服务器运行的位置 端口

 

三、adb的安装使用

adb主要用来实现电脑对手机的控制,用代码自动完成手机微信公众号的操作。

adb安装可以参考 文章 ,直接下载 下面的文件,解压后有四个文件,添加到系统环境变量。cmd输入adb,出现一长串信息就安装ok了。

百度网盘链接: https://pan.baidu.com/s/1pMxVo0lLnSoAmUp9Xpgzng   密码: yh8q  

Python爬虫五:微信公众号爬虫-2018.9_第9张图片

Python爬虫五:微信公众号爬虫-2018.9_第10张图片

手机用数据线连接电脑,打开usb调试,可以在cmd中输入命令控制,常见命令如下

adb shell input swipe 100 200  800 200 100 
    #从点(100,200)滑动到(800,200)用时100ms(时间可以不加),前面是x坐标,后面是y,坐标圆点是屏幕左上角

adb shell input tap 557 1578  #点击屏幕上的点(557,1578)


用python实现:直接调用os库

import os

os.system('adb shell input swipe 100 200  800 200 100')
    
os.system('adb shell input tap 557 1578')

四、爬虫主程序

首先手机usb连好电脑,开启usb调试,开启anyproxy代理,手机设置好代理,开启web服务。手机点开人民日报历史消息页面,如下图一,运行爬虫主程序,利用adb命令 屏幕左边缘向右滑动返回公众号的基本信息页面,如下图二,然后再点击【查看历史消息】再次进入到图一历史消息页面,然后利用滑动操作触发加载更多。每次重新进入历史消息页面生成新的appmsg_token参数。程序运行过程手机需要保持亮屏。这里还利用一点就是一个公众号的appmsg_token也可以用以请求其他公众号,但是也不是全部都适用,有的也不行。

Python爬虫五:微信公众号爬虫-2018.9_第11张图片

 爬虫程序代码如下,输入为公众号biz号,输出为公众号历史文章的名称和url。

import requests
import json
import csv
import time
import os

def get_token():
    os.system('adb shell input swipe 0 200  800 200')  #从屏幕左边缘右滑返回上一级
    time.sleep(0.5)
    os.system('adb shell input tap 557 1578')          #点击 【查看历史消息】 进入历史消息页面,坐标每个手机不一样
    time.sleep(2)
    os.system('adb shell input swipe 500 1800  500 300 100') #两次向上滑动触发加载更多
    os.system('adb shell input swipe 500 1800  500 300 100')
    time.sleep(0.1)
    url='http://127.0.0.1:8080'
    r=requests.get(url)   #向本地web服务器发送get请求获取appmsg_token和cookie
    d=eval(r.text)
    print('获取token:',d)
    # token = d['token']
    # cookie = d['cookie']
    return(d)

def crow(biz):
    MARK=0 #一个公众号文章是否抓完的标志位,1表示抓完
    data=get_token()
    token=data['token']
    cookie=data['cookie']
    n=0
    while MARK==0:
        time.sleep(0.5)
        pages = str(10 * n)
        url = 'https://mp.weixin.qq.com/mp/profile_ext?action=getmsg&__biz='+biz+'&f=json&offset=' +pages+ '&count=10&is_ok=1&scene=124&uin=777&key=777&pass_ticket=%2F%2FMLfYzV4VmptckJ%2BGC%2FEMbuBaYdCzplfP7pig2nHKORwHh%2FKcSp5ufJNIY4R6Y6&wxtoken=&'+token
        head = {'Host': 'mp.weixin.qq.com',
                'Connection': 'keep-alive',
                'X-Requested-With': 'XMLHttpRequest',
                'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; GN8002 Build/MRA58K; wv) AppleWebKit/537.36 (KHTML, like Gecko) Version/4.0 Chrome/57.0.2987.132 MQQBrowser/6.2 TBS/044205 Mobile Safari/537.36 MicroMessenger/6.6.3.1260(0x26060339) NetType/WIFI Language/zh_CN',
                'Accept': '*/*',
                'Referer': 'https://mp.weixin.qq.com/mp/profile_ext?action=home&__biz=MjM5NzAwMzU0MA==&scene=124&devicetype=android-23&version=26060339&lang=zh_CN&nettype=WIFI&a8scene=3&pass_ticket=5IruuVAhjeQ22KmpbBJX10LUhvreqP%2F4zCi0%2FlKRAYVSGufFu4EDGCytd7oIWNkV&wx_header=1',
                'Accept-Encoding': 'gzip, deflate',
                'Accept-Language': 'zh-CN,en-US;q=0.8',
                'Q-UA2': 'QV=3&PL=ADR&PR=WX&PP=com.tencent.mm&PPVN=6.6.3&TBSVC=43603&CO=BK&COVC=044205&PB=GE&VE=GA&DE=PHONE&CHID=0&LCID=9422&MO= GN8002 &RL=1080*1920&OS=6.0&API=23',
                'Q-GUID': '37319016da4caf7783df5bf913b788cb',
                'Q-Auth': '31045b957cf33acf31e40be2f3e71c5217597676a9729f1b',
                'cookie': cookie
                }
        try:
            r = requests.get(url, headers=head,timeout=5)
            html = json.loads(r.text)
            if len(html)==9:  #判断下返回的json消息体是否是正常的消息体
                datas0 = html['general_msg_list']
                datas0 = json.loads(datas0)
                datas = datas0['list']
                l = len(datas)
                if l<10:
                    MARK=1
                end=time.time()-start
                print('*********************')
                print('Page:%d' % n, 'Num:%d' % l,'Time:%d'%end)
                n += 1
                for data in datas:
                    try:
                        url_1 = data['app_msg_ext_info']['content_url']
                        title_1 = data['app_msg_ext_info']['title']
                        print(title_1)
                        print(url_1)
                        dd = data['app_msg_ext_info']['multi_app_msg_item_list']
                        #保存到本地
                        with open('weixin.csv','a',newline='',encoding='gb18030')as f:
                            write=csv.writer(f)
                            if len(dd) > 0:
                                for d in dd:
                                    url_d = d['content_url']
                                    title_d = d['title']
                                    print(title_d)
                                    print(url_d)
                                    write.writerow([title_d,url_d])
                    except Exception as e:
                        print(e)
                        print(r.text)
            else:
                #如果访问失效重新获得token、cookie
                print('error')
                print(r.text)
                data = get_token()
                token = data['token']
                cookie = data['cookie']

        except:
            pass
    print('*******************',biz,'抓取完成***************')


if __name__=='__main__':
    start=time.time()
    biz_list=['MzIxNDEzNzI4Mg==','MzA5OTA0NDIyMQ==','MTgwNTE3Mjg2MA==','MzA3MDM5ODY4Ng==','MjM5MDMyMzg2MA==','MzA4MjQxNjQzMA==','MzU2MzA2ODk3Nw==','MTI0MDU3NDYwMQ=='] #局座召忠、占豪、冷兔、美闻参阅、十点读书、新华网、新京报、央视新闻
    for biz in biz_list:
        crow(biz)

五、结果与总结

总结一下,微信对访问次数是有限制的,首先是封ip,访问越快封的越快。其次对每个微信号每天的请求次数也是有限制的,每秒发一次请求,大概测试下来是1500次请求左右。达到后就进不了公众号历史页面(禁24h),微信其他功能不影响。不清楚请求速度如果降下来次数是不是能增加。1500次请求,每次10条消息,一个公众号一天一条消息,按五年算就是1800条消息,可以爬完8个这样的公众号。但是有些公众号比如人民日报【官媒】这种是可以一天发多条消息的,所以这种账号数据量会比较大一些。还有就是需要关注你爬取的公众号,不关注好像也有影响。比较尴尬的一点是本来利用anyproxy、adb是为了自动化抓取,持续的抓取。结果发现瓶颈其实在微信号每天的访问次数,好像一个appmsg_token+cookie就可以差不多抓完1000多次,还不如手动复制下参数好!!!

下图是抓取的一些数据,以及应该是人民日报 第一篇文章。

水平有限,如有错误请指正。

Python爬虫五:微信公众号爬虫-2018.9_第12张图片

---全部文章: 京东爬虫 、链家爬虫、美团爬虫、微信公众号爬虫、字体反爬、Django笔记、阿里云部署、vi\vim入门----

                                                         

欢迎关注个人微信公众号,更多案例持续更新!

Python爬虫五:微信公众号爬虫-2018.9_第13张图片

                    打赏博主 

Python爬虫五:微信公众号爬虫-2018.9_第14张图片

 

你可能感兴趣的:(爬虫)