用Python玩转QQ群论坛

成长会是一个面向成长和持续行动的学习行动型社群。成长会论坛是成长会成员行动记录、交流的平台，一人一年就一贴，持续盖楼，行动记录和交流，一年的记录都在一个贴子里。成长会论坛使用的是QQ群论坛。可能因为不是腾讯核心产品的关系，这个论坛不那么好用，还经常“抽风”。

成长会论坛沉淀了大量用户信息（现在社群人数超过1000），个人成长计划和行动记录，以及成员之间的交流讨论。

成长会论坛有这么多数据，自然成了我学习Python爬虫的试验田。学了几天后，我用Python写了以下东西：

Python爬虫抓取个人信息，行业（职业）、特长爱好，3个月内的目标，进行数据分析。
新消息提醒工具。如你关注的成员发表了贴子，可以在微信上收到提醒。或者其他人在你的帖子下留言或回复了你，都可以收到微信的通知消息。
自动回贴机器人。可以在程序中发贴，或在其他人成长贴下留言。

一、登录验证问题

在抓取成长会论坛数据之前，测试过简单爬虫代码。不涉及登录的数据抓到，就是拿到网页源代码，然后解析网页拿到数据，用正则或BeautifulSoup或XPath，10多行代码就能抓取到想要的数据，Python真是简单粗暴，非常好用。

如果有登录url，表单对应字段名，做起来也比较简单。所以群论坛登录验证，首先想到是在源代码里查查找表单提交的url，表单的属性字段。通过仔细查找源码，表单属性字段也找到了，但表单提交采用的是js，跳转了几次，实在是找不到登录提交的url。无法登录，论坛中的数据一个也拿不到。

第二个想到的办法是API接口，感觉腾讯应该提供了像第三方登录一样给群论坛使用，到腾讯开放平台上去找，还是没有找到线索，想想也是，QQ群论坛就不是第三方产品。

我以为还是要回到js上来找，后来我看到大榜在看js的书，还看得比较深。我问他能不能帮我在js文件中找找。他一听，就说不要，用Fiddler抓包就可以做，提交和返回的数据都可以拿到，加密数据也可以。他说做过Java爬虫，就给我演示了一下。

在Fiddler中果然看到论坛是经过几次跳转重定向的，下图就是显示的登陆url，headers所传递的参数(用户名和密码)。

在Finder中查看URL, 表单数据

之前我只是看过简单的Python语法和网上的一段爬取贴吧图片的代码，在了解了urllib2, requests传递cookie实现登陆后，我发现，之前的方法对于登陆QQ群论坛来说就是个误区。果断把Fiddler中的这段字符串拷过来，一试就抓取到论坛帖子的列表页，登陆成功！

我一边感叹Fiddler的好用，一边想网络的种种不安全。在很多地方不开启两步验证的话，用户名和密码就形同虚设。

二、成长帖子数据分析

实现了登录验证之后，就开始了我的数据抓取和分析。第一步我关心的是成员的职业(行业)、年龄，兴趣爱好，3个月内的行动和改变计划，以及在成长会论坛打卡记录的情况。

为了方便分析，以上所有的数据爬取下来，写入一个Excel文件。后面也很方便快速进行图形化数据的展现。

QQ群论坛功能还是很简单，看到首页上没有浏览量和发贴的统计排名，我又增加了一个爬虫，在每个人的帖子里，把阅读量和回复数（个人打卡+回访留言）抓取下来，得到成长帖人气TOP10（阅读量前10名），由于回复数是个人打卡记录加上互动留言，另外写了一个函数，抓取每条记录时判断是不是贴主发出来的，并进行统计，得到成长帖子记录打卡TOP10。

这两个数据统计我在QQ群进行了分享，在TOP10的帖子下留言告诉他们Python爬取的数据统计结果。后来我又思考，这个工作Python也可以自动完成，于是做了下面《第六、自动发帖功能》

论坛人气TOP10

三、中文分词问题

由于每个人的成长贴，在是word里写好后粘贴过来的。每一次的数据抓取用了BeautifulSoup抓取到第一帖后，就用了字符串匹配的方式，来获取相应的信息，如每个人行业（职业）。

感觉到分词的重要，是因为帮成长会的小朋友抓取了两次数据，如想找到考研，考上外、广外，MTI的同学有哪些，联系方式和考研经过。就需要找出这些词关联的特征词，用户的记录习惯。而我没有这方面的经验，也没有学习过。所以只能根据我的理解，做一些简单的匹配，再经过Excel分类汇总，找出精准数据。其实这个词还好一点，后面也应一个同学要求找有视频编辑处理，平面设计，图片处理能力的同学。这时我在Excel中直接二次查询，快速找到后再进行校验，发现这次搜索的准确率是80%。

但要找到有学习PPT计划或在学习PPT的同学，这个词我就拿不准，因为很多人在记录中有PPT这个词，可能只是工作中写PPT。搜哪些词，特征词是什么就很关键。

四、分页数据抓取

要爬取用户所有的帖子，就需要分页爬完用户所有的分页数据，一开始我的想法是一个循环，从第一页往后，直到抓到的页面中没有用户信息为止。但是看到第一页上有页数的信息，改变了一下做法，爬取第一页信息时，顺便把用户总页数拿到。应该还可能优化成递归调用。

五、Ajax数据抓取

论坛的消息提醒，是Ajax数据，从爬取的网页源代码里看不到新消息。如果拿到新消息，再结合发送邮件（《七、发送邮件问题》）就可以做一个论坛消息提醒助手，在收到回复，或留言时，在微信中就能收到一个推送消息。

同样是通过Fiddler找到请求新消息的URL，顺利拿到返回的json数据，解析到消息来源和内容。QQ群论坛如果收到新消息，是从title上看到提示的。如果做一个简单的消息提醒工具就非常简单。

Fiddler中的Ajax数据

六、自动发贴功能

自动回复机器人，论贴发贴机器人，一直是我想实现的功能。不只是能发广(la)告(ji)，还能做出一些好玩的东西，如对于成长贴记录没有更新的同学，可以发留言提醒；跟踪成长计划的实施情况，给一些有趣的提醒；定期发布成长贴的人气，更新情况。如果结合邮件发送，用户会收到更及时的消息。如果用户绑定了微信，就会收到微信的推送。

在实现自动发贴功能时，遇到的最大问题，也是登录！Fiddler抓取到了发贴提交的地址，使用了cookie，还是发不了，返回的json字符串是“登录后再操作”。还想到这一的方法，先访问一下论坛页面，然后继续使用这个request再提交表单，然并卵。

再次回到思路上，发现提交表单时，是在headers中提交cookie的，在Fiddler中抓取了headers，对的，就这么长长的一段，构造了一个header。发贴成功了！接下来，利用这个修改一个参数，在别人的帖子下留言也可以。

headers

接下来作中文乱码的测试，通过。但是遇到一个怪异的问题，有时候能发送，有时候服务器请求出现timeout，猜测是请求headers里的某个关键数据没有掌握，经过多次发贴测试，把Content-Length基本弄清楚，Content-Length如果存在并且有效的话，则必须和消息内容的传输长度完全一致（如果过短则会截断，过长则会导致超时。）。

七、发送邮件功能

这个功能关乎到微信上能不能收到推送消息。基本没有什么难度，10分钟搞定！

#coding=utf-8

import smtplib
from email.mime.text import MIMEText
import os
import sys
import exceptions

reload(sys)
sys.setdefaultencoding('utf-8')

#发送邮件的列表
mailto_list=['[email protected]','[email protected]']
mail_host="smtp.126.com"  #设置服务器
mail_user="ppy2790"    #用户名
mail_pass="1234567"   #口令
mail_postfix="126.com"  #发件箱的后缀

def send_mail(to_list,sub,content):
    me="成长贴小助手"+"<"+mail_user+"@"+mail_postfix+">"
    msg = MIMEText(content,_subtype='plain',_charset='utf-8')
    msg['Subject'] = sub
    msg['From'] = me
    msg['To'] = ";".join(to_list)
    try:
        server = smtplib.SMTP()
        server.connect(mail_host)
        server.login(mail_user,mail_pass)
        server.sendmail(me, to_list, msg.as_string())
        server.close()
        return True
    except Exception, e:
        print str(e)
        return False

结语

在成长会论坛上爬取数据，是从一段下载图片的Demo开始，拿过来就修改、测试，再进行分析，快速编写代码，再找解决方案，目标驱动学习，是我学习Python的经验。

附：论坛爬取的数据分析在：《成长会不完全大数据-Python爬虫案例》