汽车之家口啤数据爬虫

个人博客地址:http://xurui.club/

之前一直用采集工具爬取数据,然而最近发现汽车之家的口啤数据爬下来的好多html标签,文本数据也是断断续续的,(在浏览器中用选择元素是可以看到content的,说明断掉的文字只是藏起来了,并不是图片,这就好办多了)。口啤数据的质量相对来说还是比较高的,于是这周就尝试着去“破解”他的反爬虫。

以(http://k.autohome.com.cn/spec/24234)为例:

点击“展开全部口啤”,才能显示完整的口啤信息。但是在源代码中,看不到这些信息。。感觉是ajax加载数据。打开浏览器的开发者工具,找到该请求的信息,其中有条url(图1), http://k.autohome.com.cn/FrontAPI/GetFeelingByEvalId?evalId=1585634,并打开链接,真心看不出来是什么东西,不过可以看到零碎的文本片段,我们需要的口啤数据应该就在这里了。

汽车之家口啤数据爬虫_第1张图片

图1

将这段乱七八糟的东西里的\u003e等转化为我们能看懂的符号,会发现以下重要信息:

1 ;

2 【的一点】
油耗class='hs_kw1_maingn'>
操控
【最不的一点】
塑料卡扣太多

3

分析以上几点,大致可以猜到,口啤文本中缺少的汉字,被替换了。。。