某音app评论爬虫如何实现——charles配置和mitmprxoy的安装

临近毕业,需要做毕业设计,冥思苦想以后决定做一个对某音的评论爬取和分析。都是因为没接触过手机app的爬虫,所以也是现学现卖。

这里强烈安利崔庆才的《网络爬虫开发实战》吃透这本书,应该可以胜任绝大多数的爬虫项目需求。

整个app的爬取流程:选择合适的抓包软件——找到所需的接口url——分析response——编写脚本——OVER!

选择一个合适的抓包软件

比较主流的抓包软件有:最常用的fiddler、轻量高效的charles、适合python小子的mitmproxy、适合js老哥的anyproxy。

抓包工具的下载和安装

fiddler和charles的官网下载地址:
https://www.telerik.com/download/fiddler
https://www.charlesproxy.com/

因为我是用python来写爬虫的,所以没了解过anyproxy的安装。mitmproxy的安装及其容易,windows用户直接在终端上pip install mitmproxy 就可以了。当然具体用法和安装推荐看以下博客:
windows安装mitmproxy教程
ios安装mitmproxy教程

抓包工具的使用

刚开始的时候我使用的fiddler,但是由于fiddler抓抖音的评论会出现乱码。

因此选择使用Charles和mitmproxy。个人也建议用charles抓包工具,因为更加的界面更加清晰简洁,也易操作,比较适合新手小白。

charles需要安装证书到电脑和手机,这样才可以抓到HTTPS协议下的相应。

1.1 安装pc端的证书
某音app评论爬虫如何实现——charles配置和mitmprxoy的安装_第1张图片

1.2 这里需要设置证书存储位置
某音app评论爬虫如何实现——charles配置和mitmprxoy的安装_第2张图片

1.3 proxy>sprsl proxying settings勾选上enable ssl proxying,再点击Add设置 :代表所有,所以在地址和端口上设置)这样所有的主机和端口号都可以抓取 某音app评论爬虫如何实现——charles配置和mitmprxoy的安装_第3张图片某音app评论爬虫如何实现——charles配置和mitmprxoy的安装_第4张图片
完成以上步骤你就可以在pc上http和https的抓取了。

2.1charles连接你的手机
点击这里会弹出手机需要配置的主机名和端口号
某音app评论爬虫如何实现——charles配置和mitmprxoy的安装_第5张图片
某音app评论爬虫如何实现——charles配置和mitmprxoy的安装_第6张图片

2.2 charles连接你的手机
首先确认好手机和电脑了解到的是同一网络,如果是模拟器则默认是和电脑连接的是同一网络。
:安卓7.0以后的版本除非你手机有root权限,否则安装不了证书,可以选择下载安卓手机的模拟器。这个当时折磨了我很久。
某音app评论爬虫如何实现——charles配置和mitmprxoy的安装_第7张图片
2.3 代理设置
选择修改网络>高级选项>代理手动>把主机名和端口设置成2.1步骤的主机名和端口号
某音app评论爬虫如何实现——charles配置和mitmprxoy的安装_第8张图片
2.4 这里需要注意
一般来说,你设置好后charles会弹出“是否信任此设备”的弹框,选择同意就ok。但是如果没有这个弹框,就需要在proxy>access control setting把你手机的ip添加上去。手机的ip在关于手机里面可以看到
某音app评论爬虫如何实现——charles配置和mitmprxoy的安装_第9张图片
某音app评论爬虫如何实现——charles配置和mitmprxoy的安装_第10张图片
然后重启一下charles,手机的连接基本上就ok了,下面安装证书

2.5 安装证书
使用手机的浏览器,或者下载一个浏览器,输入地址:charles.pro/ssl 会提示让你下载证书。下载后一般浏览器会设置证书的名称和安装。如果没有则需要在手机设置>安全>凭证存储中从sd卡安装。
某音app评论爬虫如何实现——charles配置和mitmprxoy的安装_第11张图片
安装完成后,就可以通过Charles抓手机的包了。

3.1 mitmproxy的配置
如果你依旧用的是模拟器,确保手机和电脑连接在同一网络。直接设置端口号就行了。一般来说mitmproxy的端口号是8080。方法还是和上面的一样。

安装好mitmprxy会自动帮你安装号mitmdump和mitmweb

你可能感兴趣的:(手机爬虫,python)