爬虫之JAVA搜索引擎爬虫识别


   所谓人之初性本善,爬虫诞生之初也是善良的,但是随着时代发展,尤其大数据|机器学习等兴起之后,爬虫也像慢慢长大的人一样,有了 善意恶意 之分(说明:爬虫技术无分善恶,这里指技术利用,最好遵循reboot君子协议,至少不要把人家爬瘫吧)。

1、善意爬虫


  善意爬虫最常见的莫过于各个大的搜索引擎厂家,他们释放数以亿计的爬虫每天孜孜不倦的穿梭于各个服务之间,收录我们的网站服务信息,以供用户检索查询(虽然搜索出来大多数都是广告),作为网站服务的运营商,每天都大开方便之门欢迎他们来爬,虽偶尔会造成服务器压力,可以通过君子协议约束(如reboot文件),这种爬虫就可定义为善意的。


2、恶意爬虫


  恶意的爬虫就不那么友好了,有的是小恶、有的是万恶;常见的小恶:每年的毕业设计来临之季,有些做数据分析相关毕设的同学,为了收集数据,释放了N多个小爬虫在网上乱窜。最重要的是:同学收集好了数据,记得关一下呀,交了毕设,爬虫也被抛到九宵云外,这些无人认领的小爬虫也就成了僵尸爬虫,这种往往是小恶。
  常见的大恶:有没有想过为啥抢不到火车票、为啥抢不到专家号,因为你的手不可能快过爬虫;还有一些所谓大数据创业公司,他们的大数据从哪来?爬虫;这些收集来的数据其中就有很多敏感的个人信息数据,比如某些提供征信服务的小公司,比如某简历大数据公司被“一锅端”(网上可查);这些涉及个人敏感数据非法收集的都是大恶了,还有那些把别人服务器爬瘫的等等。

3、惩恶扬善


  理清楚了善恶,就要惩恶扬善了;在发赏善罚恶令之前,要先识别善恶,辨恶通常的手法是:1、IP频次识别 2、UA判断 3、Referer判断 4、参数hash验证 等手段,这里不是今天的重点(以后详谈识别防护)。重点扬善,就是如何识别善意爬虫,要不花那么多钱做SEO不是打水漂了。


4、JAVA识别善意爬虫


  技术手段很简单,就是通过IP域名反查来实现,window下通过nslookup、linux下通过host来反查,不扯淡,直接上代码(DEMO)。

public class nslookup {

	public static void main(String args[]) {
		System.out.println(spiderBGMU("111.206.221.6"));
		System.out.println(spider360("180.153.232.12"));
	}

	// 百度匹配 http://help.baidu.com/question?prod_id=99&class=476&id=2996
	/*
	 * baidu.com baidu.jp 111.206.221.6 百度 
	 * googlebot 66.249.67.254 谷歌
	 * msnbot-103-25-156-254.search.msn.com 103.25.156.254 必应
	 * unknown-68-180-228-x.yahoo.com 68.180.228.254 雅虎
	 */
	private static boolean spiderBGMU(String ip) {
		String command = "host"; // 默认linux
		Properties props = System.getProperties();
		String osName = props.getProperty("os.name");
		if (osName != null && osName.toLowerCase().contains("win")) {
			command = "nslookup";
		}

		try {
			Process p = Runtime.getRuntime().exec(command + " " + ip); // host
			BufferedReader br = new BufferedReader(new InputStreamReader(p.getInputStream()));
			String inline;
			StringBuffer sb = new StringBuffer("");
			while ((inline = br.readLine()) != null) {
				sb.append(inline).append(" ");
			}
			br.close();
			System.out.println("baidu>>>" + sb);
			return sb.indexOf("baidu.com") > 0 || sb.indexOf("baidu.jp") > 0 || sb.indexOf("googlebot") > 0
					|| sb.indexOf("msnbot") > 0 || sb.indexOf("yahoo.com") > 0;
		} catch (Exception e) {
			e.printStackTrace();
			return false;
		}
	}

	// 360匹配 http://www.so.com/help/spider_ip.html
	// 这里实现非精确匹配,如果需要精确,可以下载全量列表
	private static boolean spider360(String ip) {
		String item = " 180.153.232.*,180.153.234.*,180.153.236.*,180.163.220.*,42.236.101.*,42.236.102.*,42.236.103.*,42.236.10.*,42.236.12.*,42.236.13.*,42.236.14.*,42.236.15.*,42.236.16.*, 42.236.17.*,42.236.46.*,42.236.48.*, 42.236.49.*,42.236.50.*, 42.236.51.*,42.236.52.*,42.236.53.*,42.236.54.*,42.236.55.*,42.236.99.*";
		System.out.println("360>>>" + objIP);
		if (item.contains(objIP)) {
			return true;
		}
		return false;
	}
}

你可能感兴趣的:(java)