Python3网络爬虫开发实践读书笔记 --- 第十一章 App的爬取

这一系列文章是我在阅读“Python3网络爬虫开发实践”一书以及其他线上资料学习爬虫过程中的一些笔记和心得,希望能分享给大家。

章节概述:如何爬取APP里的内容

章节结构

  • Charles
  • mitmproxy
  • Appium

具体内容:

  • Charles

Charles是一个网络抓包工具,可用于App抓包分析,跨平台支持。
原理:Charles运行在PC上,会在8888端口开启一个HTTP/HTTPs代理服务,手机和电脑在同一局域网的情况下,可以通过手机模拟器虚拟网络连接,手机代理设为Charles地址,手机App访问互联网是,包裹就会经过Charles,从而抓取包裹。
Charles有自己的图形界面,可以显示抓取的request和response包的具体内容。还可以提取不同的字段,进行分析。

  • mitmproxy

mitmproxy是一个支持HTTP和HTTPS的抓包程序,有自己的控制台(CLI)。可以用于拦截HTTP请求和响应,保存HTTP会话并进行分析,模拟客户端发起请求,摸摸你服务器端返回响应,利用代理转发等。
具体操作:https://docs.mitmproxy.org/st...

  • Appium

Appium是一个跨平台移动端自动化测试工具。可以给ios和android平台创建自动化测试用例。可以模拟App内部操作,比如点击,滑动,拖拽等。
Python也有appium对应的库,通过引入appium中的webdriver库,来远程操作手机上的应用,比如有find_element等方法来获取应用中的元素,从而进行操作,进而抓取信息。

你可能感兴趣的:(python,网页爬虫,读书笔记)