有这么一本书,学好了,你可能进大厂,也可能进监狱。在这里你不仅可以面向对象编程,也可以面相监狱编程。学会了它,你的人生从此迎来改变,学废了它,你的人生照样迎来改变!鉴于此,作者在书的末尾,专门介绍了相关的法律问题,防止读者走火入魔误入歧途。
好了,不绕弯子了,这本书就是《Python3网络爬虫开发实战(第2版)》,介绍了大量爬虫与反爬虫的技术内幕。作者崔庆才,北航硕士,目前就职于微软,主要研究网络爬虫、Web开发、机器学习等方向。18年出版了本书的第一版,赢得10万爬虫爱好者的青睐。
随着移动互联网的发展,更多有价值的数据流向了移动APP,同时随着爬虫与反爬虫的相互博弈,双方对抗的技术不断升级,可谓道高一尺魔高一丈,21年11月,本书的第二版结合了当下的技术发展现状,应运而生,并且获得 Python 之父 Guido van Rossum 推荐!如果你是名爬虫爱好者,这本书绝对让你直呼过瘾,书的厚度堪比《Think in Java》,但绝不会让你从入门到放弃,一旦拿起依旧让你爱不释手、津津有味、欲罢不能。
精彩有三,其一,安卓逆向,其二,JavaScript逆向,其三,爬虫基本知识及框架(按精彩程度划分,跟目录无关)。
首先,关于安卓逆向,从反编译工具讲起,再到如何hook App的Java层/so层数据,apk的加壳与脱壳,当爬虫与反爬虫双方的博弈进入到so层,放心,还有反汇编操作,实在不行那就将计就计,利用Frida/AndServer-RPC/unidbg进行黑盒式操作。作者是个十足的“两面派”,一方面站在安全官的角度讲我们如何提升应用安全等级,紧接着就带上了黑客的面具,冷冷的问一句:我们能做到吗?回答是:当然可以!然后轻车熟路的指明了逆向的思路、工具、操作与实践。这波操作让人又爱又恨。
其次,JavaScript逆向,如果你要爬取网站或一些H5页面,这节课也不能落下。作者使用同样的套路,安全官做的那些加密/混淆先给讲明白了,然后就是如何逆向反混淆,hook JavaScript、AST技术、WebAssemble等技术,结合案例从实战到实战,绝不空谈。没有实战,一切都是耍流氓,毕竟道理谁都懂,可谁又能凭道理过好这一生~
最后,关于爬虫的知识点和相关技能,比如python基本库、静态页面/动态页面的爬取与存储技术,验证码、代理、Scrapy框架、分布式爬虫等,都能在书中寻找到答案。对于这部分内容,如果大家初识爬虫可以按着目录由浅入深学习,如果有一定基础,也可以有针对性的查缺补漏。技术的迭代更新非常快,所谓万变不离其宗,这些章节即是爬虫的“宗”。
这是一本讲爬虫的书,也是一本讲安全的书,把双方的博弈对抗放在台面上,作者毫不保留的介绍了许多技术细节,知己知彼方能百战百胜,这句话即适用于攻防,也适用于防守方。
愿你读懂此书,体验到这场技术博弈中的乐趣,切勿走火入魔!
愿你读懂此书,依旧善良。