此案例中,通过某汉芯城的例子作为学习,如有侵权可联系作者进行删文。
打开某芯城官网,并进入到搜索页。
通过随便搜索一个型号,获取列表页的信息
打开开发者调试,观察列表页是如何加载的。通过观察发现,列表页是通过ajax进行动态加载的,并找到了请求的源头。
而且并发现参数好像被加密。
通过全局搜索’v’看是否有线索。果然貌似发现了一个疑似地方。而且参数s好像也在里面,只不过代码好像被混淆了。
没关系,通过一步一步调试,找到翻译混淆字符串的翻译函数,终于得出了一个获得参数t和s的JS代码,至于参数v,那个只是一个时间戳。
而另外一个参数font_ident,参数在静态页面中。测试下代码,看是否能生成符合要求的参数
参数生成,并请求成功。
但是这时候另一个问题出现了。通过查看返回的内容可以发现,貌似遇上了字体反爬。。。
没关系~我们有KNN,具体可参考之前写的博文【机器学习】KNN算法及其用KNN解决字体反爬 在此处用KNN经过实验测试,发现可以达到100%的准确率。其中关键点在于相对坐标的转换。因为返回的woff文件中,每次同一个字所处于的坐标是不一样的,这时候就可以借助总坐标的最小值(x, y),来归一化坐标,使得坐标总是从(0, 0)开始计算的,这就可以用于KNN进行分类了。
最后来试下解析数据并打印一下,对比网站显示内容与打印内容是否一致。
解析成功!
此案例简单记录下学习的过程,重点不在于分享详细技术点。等到该网的技术更新换代后,会详细的对技术进行介绍。