根爬取数据类型而分,爬虫有不少种类,比如爬取Email地址的、爬取商品价格的、爬取图片的,而最多的是爬虫内容的。内容数据爬虫是为泛滥的!
爬虫让很多人对其深感苦恼,今天,带大家来了解一个爬虫终结者,对内容数据防护非常强劲,几乎可以100%拦阻所有内容爬虫!它就是ShareWAF-ACS。
ACS是Anti Content Spider的简称缩写,直面其意:反内容爬虫。是国内安全厂商ShareWAF推出的一款反爬虫产品。
根据官方介绍,ShareWAF-ACS采用动态字体变码加密技术,可防一切内容爬虫!
反爬虫是个技术活,那么ACS是靠什么技术实现反爬防护的呢?
总结而言,它有两大技术点:
1、字体加密、动态变码;
2、动态字体文件保护。
来看反爬效果演示:
1、内容防复制、防爬取
这是在ACS保护下的一个网页。 尝试复制网页中的内容,并粘贴到别处。
先复制:
再粘贴:
可见,复制粘贴后的文字出现了乱码,即内容不能被正常获取、不能被爬虫爬取。
2、防破解
ACS采用的是字体变码技术,打开刚才的网页,查看网页源码:
可以看到某些文字内容并不是正常的“文字”,而是一种编码,是自定义的文字Unicode编码。
说倒底,这是一种自定义字体编码技术,更进一步思考,它人可能会下载网页中的字体文件,破解字体与编码的对应关系。
为了防止这种情况出现,ACS还采用了动态字体文件路径的保护手段,每次访问网页,提供的都是不同的字体路径:
这就是动态字体文件保护功能了。
更安全的是,字体文件是防下载的:
文字不能被正常复制,即:不能爬取。
字体编码是加密的、动态变化的;字体文件也是被保护的不能被分析,即:反爬不能被破解。
那么,应该说:不错!爬虫终结者来了!