五一调休,你回家的机票可能都被爬虫抢完了......

来投个票吧

问题一:五一你会出去玩吗?
A.不会
B.会

问题二:五一出行方式?
A.自驾
B.高铁
C.飞机

问题三:高铁或飞机的话,你抢到票了吗?
A.是
B.否

关了三年的大学生们成为了城市穿梭“特种兵”,景区充斥着各种中老年团,更不用说我在西湖边掉的,但是在灵隐寺找到的鞋子了…今年五一,已经是可以预见的火爆了。

但是,火爆的旅游不仅让有旅游业蒸蒸日上,也让黄牛们赚到“盆满钵满”。高铁票且不说,机票的抢票难度已经高到天际。这里面,就涉及到非法代理人操控的恶意“爬虫”。

恶意爬虫如何影响我们抢机票

“爬虫”的定义我们就不再赘述了。Python还是牛的。

而所谓恶意“爬虫”,就是部分航空服务代理人通过“爬虫”非法抓取航空公司B2C网站或官方App等平台上的机票信息,然后非法倒卖给他人以牟取利益。

部分代理人利用“爬虫”爬取下票务信息后,再利用虚假的身份信息预订机票,但不付款。在航空公司允许的订票账期内,转售给真正需要购票的用户。这就导致部分机票并未售出,但是用户在航空公司查看时却显示已售罄。该行为称之为“虚假占座”。

举个例子。

五一调休,你回家的机票可能都被爬虫抢完了......_第1张图片

以上面机票为例,如果我能在官网原价买的话,应该是1390(经济舱),但是票贩子通过恶意爬虫,把票务信息扒拉出来,预订机票但不付款,这就会导致官网显示“票已售罄”,真正需要的人无法购票,只能通过他们去买了,而这个时候,票价可能是3000多。票贩子就通过这样的方式赚“差价”。
五一调休,你回家的机票可能都被爬虫抢完了......_第2张图片

恶意爬虫的危害自不必说,一是对航空公司而言,浪费了航空公司带宽资源,白白消耗航空查询费用,也扰乱航空公司的正常运营;二是,而“虚假占座”不仅给航空公司和用户带来经济损失,也损害了用户的合法权益。更关键的是:由此带来订票量的波动导致航空公司收益管理系统算法产生误判,给出不符合实际情况的运价调整,损伤了用户权益以及平台的口碑。这里面,受益者只有票贩子。

这种现象在五一节、国庆节这种大型节假日尤为突出。通过反欺诈中心监测发现,在国务院颁布五一劳动节假期安排后的72小时里内,多家航空公司网站的“爬虫”流量暴增。其中,虚假查票占总查询总量的36%以上,部分航空公司的虚假查票数字甚至高达99%。

航空公司可以如何“反爬”

“反爬”之前,我们需要先识别这种爬虫的特征:

恶意爬虫的特征

1、访问的目标网页比较集中:“爬虫”代理人目标明确,主要是爬取班次、价格、数量等核心信息,因此只浏览访问几个固定页面,不访问其他页面。

**2、查询订票等行为很有规律:**由于“爬虫”是程序化操作,按照预先设定的流程进行访问等,因此呈现出毫无思维、但很有规律、有节奏且持续的行为。

3、同一设备上有规模化的访问和操作:“爬虫”的目的是最短时间内抓取最多信息,因此同一设备会有大量离散的行为,包括访问、浏览、查询等。

**4、访问来源IP地址异常:**正常情况下用户在查询、购买时,用户的IP地址比较稳定,而且访问来源IP比较;“爬虫”、“虚假占座”等操作时,IP来源地址呈现不同维度上的聚集,而且浏览、查询、购票等操作时不停变化IP地址。

**5、设置UA模拟浏览器和频繁使用代理IP:**很多“爬虫”程序伪装成浏览器进行访问,比如在程序头或者UA中默认含有类似python-requests/2.18.4等固定字符串;并且通过购买或者租用的云服务、改造路由器、租用IP代理、频繁变更代理IP等进行访问。

6、操作多集中非业务时间段:“爬虫”程序运行时间多集中在无人值守阶段。此时系统监控会放松,而且平台的带宽等资源占用少,爬虫密集的批量爬取不会对带宽、接口造成影响。以下是顶象反欺诈中心监测到,凌晨1-5点是恶意“爬虫”的运行高峰时段。

航空公司的常见手段

恶意爬虫对于航空公司来说,其实很早就发现了,但也一直没什么好方法去检测和防范。一般来说,就是通过IP和验证码进行限制,但是这两类手段有非常大的局限性。

**通过IP地址进行限制:**当同一IP、同一电脑在一定时间内访问网站的次数,系统自动限制其访问浏览等。但是,封禁IP的手段可能误伤真实用户,而且“爬虫”幕后的运营者随时可用购买或者租用的云服务、改造路由器、租用IP代理、频繁变更代理IP等方法绕过封禁的规则。

**通过验证码进行限制:**当某一用户访问次数过多后,就自动让请求跳转到一个验证码页面,只有在输入正确的验证码之后才能继续访问网站。但是设置复杂的验证码会影响用户操作,给客户体验带来负面作用。

全链路防控可能更有效

传统的手段或措施无法对恶意“爬虫”进行辨别,这就需要一套从客户端到业务端的全链路防控体系。顶象反爬解决方案基于设备指纹对实现对各类风险和模拟器、真机的识别,以及Dinsight风险决策引擎毫秒级实时决策对行为分析(鼠标的滑动轨迹、键盘的敲击速率、滑动验证码的滑动轨迹、速率、按钮点击等行为轨迹等),实现对恶意“爬虫”行为的有效识别;通过智能无感验证的人机交互防护,直接拦截“爬虫”对敏感数据的爬取;利用Xintell智能模型平台建立基于业务场景的策略模型,从而对反爬效果进行实时优化,良好防范恶意爬取的风险。

顶象数据反爬解决方案依据多年攻防对抗实战经验,提供了动态策略的精准防护;全链路纵深防护,避免“爬虫”的单点绕过;多维度防御,有效拦截各种恶意“爬虫”行为;无感的人机交互验证,有效反爬又不影响正常用户体验。

你可能感兴趣的:(日常记录,爬虫,python,开发语言)