主要针对以下四种反爬技术:Useragent过滤;模糊的Javascript重定向;验证码;请求头一致性检查。
高级网络爬虫技术:绕过 “403 Forbidden”,验证码等
爬虫的完整代码可以在 github 上对应的仓库里找到。
我从不把爬取网页当做是我的一个爱好或者其他什么东西,但是我确实用网络爬虫做过很多事情。因为我所处理的许多工作都要求我得到无法以其他方式获得的数据。我需要为 Intoli 做关于游戏数据的静态分析,所以我爬取了Google应用商店的数据来寻找最新被下载的APK。Pointy Ball插件需要聚合来自不同网站的梦幻足球(游戏)的预测数据,最简单的方式就是写一个爬虫。在我在考虑这个问题的之前,我大概已经写了大约 40~50 个爬虫了。我不太记得当时我对我家人撒谎说我已经抓取了多少 TB 的数据….,但是我确实很接近那个数字了。
我尝试使用 xray/cheerio、nokogiri 和一些其他的工具。但我总是会回到我个人的最爱 Scrapy。在我看来,Scrapy是一个出色的软件。我对这款软件毫无保留的赞美是有原因的,它的用法非常符合直觉,学习曲线也很平缓。
你可以阅读Scrapy的教程,在几分钟内就可以让你的第一个爬虫运行起来。然后,当你需要做一些更复杂的事情的时候,你就会发现,有一个内置的、有良好文档说明的方式来做到这一点。这个框架有大量的内置功能,但是它的结构使得在你用到这些功能之前,不会妨碍到你。当你最终确实需要某些默认不存在的功能的时候,比如说,因为访问了太多的 URL 链接以至于无法存储到内存中,需要一个用于去重的 bloom filter(布隆过滤器),那么通常来说这就和继承其中的组件,然后做一点小改动一样简单。一切都感觉如此简单,而且scrapy是我书中一个关于良好软件设计的例子。
我很久以前就想写一个高级爬虫教程了。这给我一个机会来展示scrapy的可扩展性,同时解决实践中出现的现实问题。尽管我很想做这件事,但是我还是无法摆脱这样一个事实:因为发布一些可能导致他人服务器由于大量的机器人流量受到损害的文章,就像是一个十足的坏蛋。
只要遵循几个基本的规则,我就可以在爬取那些有反爬虫策略的网站的时候安心地睡个好觉。换句话说,我让我的请求频率和手动浏览的访问频率相当,并且我不会对数据做任何令人反感的事情。这样就使得运行爬虫收集数据基本上和以其他主要的手动收集数据的方法无法区分。但即使我遵守了这些规则,我仍感觉为人们实际想要爬取的网站写一个教程有很大的难度。
直到我遇到一个叫做Zipru的BT下载网站,这件事情仍然只是我脑海里一个模糊的想法。这个网站有多个机制需要高级爬取技术来绕过,但是它的 robots.txt 文件却允许爬虫爬取。此外,其实我们不必去爬取它。因为它有开放的API,同样可以得到全部数据。如果你对于获得torrent的数据感兴趣,那就只需要使用这个API,这很方便。
在本文的剩余部分,我将带领你写一个爬虫,处理验证码和解决我们在Zipru网站遇到的各种不同的挑战。样例代码无法被正常运行因为 Zipru 不是一个真实存在的网站,但是爬虫所使用的技术会被广泛应用于现实世界中的爬取中。因此这个代码在另一个意义上来说又是完整的。我们将假设你已经对 Python 有了基本的了解,但是我仍会尽力让那些对于 Scrapy 一无所知的人看懂这篇文章。如果你觉得进度太快,那么花几分钟的时间阅读一下Scrapy官网教程吧。
建立工程项目
我们会在 virtualenv 中建立我们的项目,这可以让我们封装一下依赖关系。首先我们在~/scrapers/zipru中创建一个virtualenv ,并且安装scrapy包。
你运行的终端将被配置为使用本地的virtualenv。如果你打开另一个终端,那么你就需要再次运行. ~/scrapers/zipru/env/bin/active 命令 (否则你有可能得到命令或者模块无法找到的错误消息)。
现在你可以通过运行下面的命令来创建一个新的项目框架:
这样就会创建下面的目录结构。
大多数默认情况下产生的这些文件实际上不会被用到,它们只是建议以一种合理的方式来构建我们的代码。从现在开始,你应该把 ~/scrapers/zipru/zipru_scraper 当做这个项目的根目录。这里是任何scrapy命令运行的目录,同时也是所有相对路径的根。
添加一个基本的爬虫功能
现在我们需要添加一个Spieder类来让我们的scrapy真正地做一些事情。Spider类是scrapy爬虫用来解析文本,爬取新的url链接或是提取数据的一个类。我们非常依赖于默认Spider类的实现,以最大限度地减少我们必须要编写的代码量。这里要做的事情看起来有点自动化,但假如你看过文档,事情会变得更加简单。
首先,在zipru_scraper/spiders/目录下创建一个文件,命名为 zipru_spider.py ,输入下面内容。
你可以在上面的网页中看到许多指向其他页面的连接。我们想让我们的爬虫跟踪这些链接,并且解析他们的内容。为了完成这个任务,我们首先需要识别出这些链接并且弄清楚他们指向的位置。
在这个阶段,DOM检查器将起到很大的助力。如果你右击其中的一个页面链接,在DOM检查器里面查看它,然后你就会看到指向其他页面的链接看起来像是这样的:
接下来我们需要为这些链接构造一个选择器表达式。有几种类型似乎用css或者xpath选择器进行搜索更适合,所以我通常倾向于灵活地混合使用这几种选择器。我强烈推荐学习xpath,但是不幸的是,它有点超出了本教程的范围。我个人认为xpath对于网络爬虫,web UI 测试,甚至一般的web开发来说都是不可或缺的。我接下来仍然会使用css选择器,因为它对于大多数人来说可能比较熟悉。
要选择这些页面链接,我们可以把 a[title ~= page] 作为一个 css 选择器,来查找标题中有 “page” 字符的 标签。如果你在 DOM 检查器中按 ctrl-f,那么你就会发现你也可以使用这个css表达式作为一条查找语句(也可以使用xpath)。这样我们就可以循环查看所有的匹配项了。这是一个很棒的方法,可以用来检查一个表达式是否有效,并且表达式足够明确不会在不小心中匹配到其他的标签。我们的页面链接选择器同时满足了这两个条件。
为了讲解我们的爬虫是怎样发现其他页面的,我们在 ZipruSpider 类中添加一个 parse(response) 方法,就像下面这样:
当我们开始爬取的时候,我们添加到 start_urls 中的链接将会被自动获取到,响应内容会被传递到 parse(response) 方法中。之后我们的代码就会找到所有指向其他页面的链接,并且产生新的请求对象,这些请求对象将使用同一个 parse(response) 作为回调函数。这些请求将被转化成响应对象,只要 url 仍然产生,响应就会持续地返回到 parse(response)函数(感谢去重器)。
我们的爬虫已经可以找到了页面中列出的所有不同的页面,并且对它们发出了请求,但我们仍然需要提取一些对爬虫来说有用的数据。torrent 列表位于
标签,分别与 “类别”,“文件”,“添加时间”,“文件大小”,“保种的人”,“下载文件的人”,“文件描述”,和“上传者”相对应。在代码中查看其它的细节可能是最简单的方法,下面是我们修改后的 parse(response) 方法: 我们的 parse(response) 方法现在能够返回字典类型的数据,并且根据它们的类型自动区分请求。每个字典都会被解释为一项,并且作为爬虫数据输出的一部分。 如果我们只是爬取大多数常见的网站,那我们已经完成了。我们只需要使用下面的命令来运行: scrapy crawl zipru -o torrents.jl 几分钟之后我们本应该得到一个 [JSON Lines] 格式 torrents.jl 文件,里面有我们所有的torrent 数据。取而代之的是我们得到下面的错误信息(和一大堆其他的东西): 简单的问题 我们的第一个请求返回了一个 403 响应,所以这个url被爬虫忽略掉了,然后一切都关闭了,因为我们只给爬虫提供了一个 url 链接。同样的请求在网页浏览器里运行正常,即使是在没有会话(session)历史的隐匿模式也可以,所以这一定是由于两者请求头信息的差异造成的。我们可以使用 tcpdump 来比较这两个请求的头信息,但其实有个常见错误,所以我们应该首先检查: user agent 。 Scrapy 默认把 user-agent 设置为 “Scrapy/1.3.3 (+http://scrapy.org)“,一些服务器可能会屏蔽这样的请求,甚至使用白名单只允许少量的user agent 通过。你可以在线查看 最常见的 user agent ,使用其中任何一个通常就足以绕过基本反爬虫策略。选择一个你最喜欢的 User-agent ,然后打开 zipru_scraper/settings.py ,替换 User agent USER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.95 Safari/537.36' 你可能注意到了,默认的scrapy设置中有一些令爬虫蒙羞的事。关于这个问题的观点众说纷纭,但是我个人认为假如你想让爬虫表现的像是一个人在使用普通的网页浏览器,那么你就应该把你的爬虫设置地像普通的网络浏览器那样。所以让我们一起添加下面的设置来降低一下爬虫响应速度: 现在使用 scrapy crawl zipru -o torrents.jl 命令再次运行爬虫,应该会产生下面的输出: 注: 假如网站检测到你的爬虫,那么网站就会把你的请求重定向到 threat_defense.php 页面,使你的爬虫失效,用来防止频繁的爬虫请求影响了网站正常用户的使用。 下载中间件 在我们深入研究我们目前所面临的更复杂的问题之前,先了解一下请求和响应在爬虫中是怎样被处理的,将会很有帮助。当我们创建了我们基本的爬虫,我们生成了一个 scrapy.Request 对象,然后这些请求会以某种方法转化为与服务器的响应相对应的 scrapy.Response对象。这里的 “某种方法” 很大一部分是来自于下载中间件。 下载中间件继承自 scrapy.downloadermiddlewares.DownloaderMiddleware 类并且实现了 process_request(request, spider) 和 process_response(request, response, spider) 方法。你大概可以从他们的名字中猜到他们是做什么的。实际上这里有一大堆的默认开启的中间件。下面是标准的中间件配置(你当然可以禁用、添加或是重新设置这些选项): 一个特别简单的中间件是 CookiesMiddleware。它简单地检查响应中请求头的 Set-Cookie,并且保存 cookie 。然后当响应返回的时候,他们会适当地设置 Cookie 请求头标记,这样这些标记就会被包含在发出的请求中了。这个由于时间太久的原因要比我们说的要稍微复杂些,但你会明白的。 另一个相对基本的就是 RedirectMiddleware 中间件,它是用来处理 3XX 重定向的。它让一切不是 3XX 状态码的响应都能够成功的通过,但假如响应中还有重定向发生会怎样? 唯一能够弄清楚服务器如何响应重定向URL的方法就是创建一个新的请求,而且这个中间件就是这么做的。当 process_response(request, response, spider) 方法返回一个请求对象而不是响应对象的时候,那么当前响应就会被丢弃,一切都会从新的请求开始。这就是 RedirectMiddleware 中间件怎样处理重定向的,这个功能我们稍后会用到。 如果你对于有那么多的中间件默认是开启的感到惊讶的话,那么你可能有兴趣看看 体系架构概览。实际上同时还有很多其他的事情在进行,但是,再说一次,scrapy的最大优点之一就是你不需要知道它的大部分原理。你甚至不需要知道下载中间件的存在,却能写一个实用的爬虫,你不必知道其他部分就可以写一个实用的下载中间件。 困难的问题 回到我们的爬虫上来,我们发现我们被重定向到某个 threat_defense.php?defense=1&... URL上,而不是我们要找的页面。当我们在浏览器里面访问这个页面的时候,我们看到下面的东西停留了几秒: 在被重定向到 threat_defense.php?defense=2&... 页面之前,会出现像下面的提示: 看看第一个页面的源代码就会发现,有一些 javascript 代码负责构造一个特殊的重定向URL,并且构造浏览器的cookies。如果我们想要完成这个任务,那我们就必须同时解决上面这两个问题。 接下来,当然我们也需要解决验证码并提交答案。如果我们碰巧弄错了,那么我们有时会被重定向到另一个验证码页面,或者我们会在类似于下面的页面上结束访问: 在上面的页面中,我们需要点击 “Click here” 链接来开始整个重定向的循环,小菜一碟,对吧? 我们所有的问题都源于最开始的 302 重定向,因此处理它们的方法自然而然应该是做一个自定义的 重定向中间件。我们想让我们的中间件在所有情况下都像是正常重定向中间件一样,除非有一个 302 状态码并且请求被重定向到 threat_defense.php 页面。当它遇到特殊的 302 状态码时,我们希望它能够绕过所有的防御机制,把访问cookie添加到 session 会话中,最后重新请求原来的页面。如果我们能够做到这一点,那么我们的Spider类就不必知道这些事情,因为请求会全部成功。 打开 zipru_scraper/middlewares.py 文件,并且把内容替换成下面的代码: 为了开启我们新的中间件,我们需要把下面的内容添加到 zipru_scraper/settings.py中: 我们的中间件现在应该能够替代原来的标准重定向中间件,现在我们只需要实现 bypass_thread_defense(url) 方法。我们可以解析 javascript 代码来得到我们需要的变量,然后用 python 重建逻辑,但这看起来很不牢靠,而且需要大量的工作。让我们采用更简单的方法,尽管可能还是比较笨重,使用无头的 webkit 实例。有几个不同选择,但我个人比较喜欢 dryscrape (我们已经在上面安装了) 首先,让我们在中间件构造函数中初始化一个 dryscrape 会话。 现在让我们实现绕过威胁防御机制的基本逻辑。 最后一个难题是如果如何解决验证码。网上提供了 验证码识别 服务,你可以在必要时使用它的API,但是这次的这些验证码非常简单,我们只用 OCR 就可以解决它。使用 pytessertact 的 OCR 功能,最后我们可以添加 solve_captcha(img) 函数,这样就完善了 bypass_threat_defense() 函数。 这应该足够让我们的爬虫工作,但是它有可能陷入死循环中。 很明显,scrapy 和 dryscrape 的请求头都绕过了最初的触发 403 响应的过滤器,因为我们现在不会得到任何 403 的响应。这肯定是因为它们的请求头信息不一致导致的。我的猜测是其中一个加密的访问cookies包含了整个请求头信息的散列值,如果这个散列不匹配,就会触发威胁防御机制。这样的目的可能是防止有人把浏览器的cookie复制到爬虫中去,但是它只是增加了你需要解决的问题而已。 所以让我们在 zipru_scraper/settings.py 中把请求头信息修改成下面这个样子。 总结 我们已经成功地写了一个能够解决四种截然不同的威胁防御机制的爬虫,这四种防御机制分别是: User agent 过滤 最后,如果你跟我一样都喜欢python,想成为一名优秀的程序员,也在学习python的道路上奔跑,欢迎你加入python学习群:839383765 群内每天都会分享最新业内资料,分享python免费课程,共同交流学习,让学习变(编)成(程)一种习惯! 转载于:https://blog.51cto.com/14186420/2349520 |