java实现动态切换上网IP (ADSL拨号上网)

爬虫访问中,如何解决网站限制IP的问题?  


开发了一个爬虫,布置在自己的服务器上,请求某网站的查询功能,然后抓取查询结果,结果访问才一会儿,就被提示封IP了。有什么好的解决方法吗?

感谢各位的回答,都挺好的!


添加评论  分享  






按票数排序

按时间排序
 10 个回答 









 
赞同
8 
 
反对,不会显示你的姓名



  江振兴,4年java 2年python 
 
陈爽、闫响、王方  等人赞同 


之前由于公司项目需要,采集过google地图数据,还有一些大型网站数据。
经验如下:
1.IP必须需要,像@alswl 说的非常正确,ADSL。如果有条件,其实可以跟机房多申请外网IP。
2.在有外网IP的机器上,部署代理服务器。
3.你的程序,使用轮训替换代理服务器来访问想要采集的网站。

好处:
1.程序逻辑变化小,只需要代理功能。
2.根据对方网站屏蔽规则不同,你只需要添加更多的代理就行了。
3.就算具体IP被屏蔽了,你可以直接把代理服务器下线就OK,程序逻辑不需要变化。 



发布于 2012-08-01  添加评论         




 
赞同
3 
 
反对,不会显示你的姓名



  alswl,码农热爱互联网 
 
闫响、王方、an7  赞同 


•ADSL + 脚本,监测是否被封,然后不断切换 ip
•设置查询频率限制
正统的做法是调用该网站提供的服务接口。 


发布于 2012-08-01  2 条评论         




 
赞同
4 
 
反对,不会显示你的姓名



  Zero,SEO前线论坛 http://www.seoqx.com 
 
张叶华、闫响、知乎用户  等人赞同 


有小部分网站的防范措施比较弱,可以伪装下IP,修改X-Forwarded-for(貌似这么拼。。。)即可绕过。

大部分网站么,如果要频繁抓取,一般还是要多IP。我比较喜欢的解决方案是国外VPS再配多IP,通过默认网关切换来实现IP切换,比HTTP代理高效得多,估计也比多数情况下的ADSL切换更高效。

国外IP均价是$1/IP/Month,像Burst等卖得便宜些,0.3刀左右。

最后,最简单最根本也最厚道的防封禁方法是,把抓取频率降低些。。。 



发布于 2012-08-02  2 条评论         




 
赞同
3 
 
反对,不会显示你的姓名



  专业爬虫wulf 
 
 知乎用户、Ganko Tech、闫响  赞同 


8年多爬虫经验的人告诉你,国内ADSL是王道,多申请些线路,分布在多个不同的电信区局,能跨省跨市更好,自己写好断线重拨组件,自己写动态IP追踪服务,远程硬件重置(主要针对ADSL猫,防止其宕机),其余的任务分配,数据回收,都不是大问题。我的已经稳定运行了好几年了,妥妥的! 



发布于 2013-06-18  3 条评论         




 
赞同
1 
 
反对,不会显示你的姓名



  Jacob,真有必要写那么长吗又不是小学生作文 
 
闫响  赞同 


1 user agent 伪装和轮换
2 使用代理 ip 和轮换
3 cookies 的处理,有的网站对登陆用户政策宽松些

友情提示:考虑爬虫给人家网站带来的负担,be a responsible crawler :) 



发布于 2012-08-01  添加评论         




 
赞同
1 
 
反对,不会显示你的姓名



  知乎用户,爱编程的设计师 
 
闫响  赞同 


尽可能的模拟用户行为:
1、UserAgent经常换一换;
2、访问时间间隔设长一点,访问时间设置为随机数;
3、访问页面的顺序也可以随机着来 



发布于 2013-05-29  添加评论         




 
赞同
0 
 
反对,不会显示你的姓名



  晓曦,软件,搜索技术 , 数据采集 , 挖掘, 
 



网站封的依据一般是单位时间内特定IP的访问次数.
我是将采集的任务按 目标站点的IP进行分组 通过控制每个IP 在单位时间内发出任务的个数,来避免被封.当然,这个前题是你采集很多网站.如果只是采集一个网站,那么只能通过多外部IP的方式来实现了. 



发布于 2012-08-01  添加评论         




 
赞同
0 
 
反对,不会显示你的姓名



  Dan Peng 
 



1. 对爬虫抓取进行压力控制;
2. 可以考虑使用代理的方式访问目标站点。 



发布于 2013-05-29  添加评论         




 
赞同
0 
 
反对,不会显示你的姓名



  程会勇,Not power-based technology developers 
 



总结下:

-降低抓取频率,时间设置长一些,访问时间采用随机数
-频繁切换UserAgent(模拟浏览器访问)
-多页面数据,随机访问然后抓取数据
-更换用户IP
-网站提供API,减少风险
-多线程 



发布于 2014-04-21  添加评论        

 

动态切换IP的实现主是也由Windows的rasdial命令提供的,其实不是java的功劳,java只是调用一下bat脚本而已:

rasdial命令:

 

拨号

Java代码   收藏代码
  1. 语法: rasdial  连接名称 username password  
  2. 实例: rasdial 我的宽带 hzhz1234567890 dfdfdfdfdf  

断网

Java代码   收藏代码
  1. 语法:rasdial  连接名称 /disconnect    
  2. 实例: rasdial 宽带  /disconnect    

  java程序调用rasdial命令:

Java代码   收藏代码
  1. package com.sesame.network;  
  2.   
  3. import java.io.BufferedReader;  
  4. import java.io.InputStreamReader;  
  5.   
  6. public class ConnectNetWork {  
  7.   
  8.     /** 
  9.      * 执行CMD命令,并返回String字符串 
  10.      */  
  11.     public static String executeCmd(String strCmd) throws Exception {  
  12.         Process p = Runtime.getRuntime().exec("cmd /c " + strCmd);  
  13.         StringBuilder sbCmd = new StringBuilder();  
  14.         BufferedReader br = new BufferedReader(new InputStreamReader(p  
  15.                 .getInputStream()));  
  16.         String line;  
  17.         while ((line = br.readLine()) != null) {  
  18.             sbCmd.append(line + "\n");  
  19.         }  
  20.         return sbCmd.toString();  
  21.     }  
  22.   
  23.     /** 
  24.      * 连接ADSL 
  25.      */  
  26.     public static boolean connAdsl(String adslTitle, String adslName, String adslPass) throws Exception {  
  27.         System.out.println("正在建立连接.");  
  28.         String adslCmd = "rasdial " + adslTitle + " " + adslName + " "  
  29.                 + adslPass;  
  30.         String tempCmd = executeCmd(adslCmd);  
  31.         // 判断是否连接成功  
  32.         if (tempCmd.indexOf("已连接") > 0) {  
  33.             System.out.println("已成功建立连接.");  
  34.             return true;  
  35.         } else {  
  36.             System.err.println(tempCmd);  
  37.             System.err.println("建立连接失败");  
  38.             return false;  
  39.         }  
  40.     }  
  41.   
  42.     /** 
  43.      * 断开ADSL 
  44.      */  
  45.     public static boolean cutAdsl(String adslTitle) throws Exception {  
  46.         String cutAdsl = "rasdial " + adslTitle + " /disconnect";  
  47.         String result = executeCmd(cutAdsl);  
  48.          
  49.         if (result.indexOf("没有连接")!=-1){  
  50.             System.err.println(adslTitle + "连接不存在!");  
  51.             return false;  
  52.         } else {  
  53.             System.out.println("连接已断开");  
  54.             return true;  
  55.         }  
  56.     }  
  57.      
  58.     public static void main(String[] args) throws Exception {  
  59.         connAdsl("宽带","hzhz**********","******");  
  60.         Thread.sleep(1000);  
  61.         cutAdsl("宽带");  
  62.         Thread.sleep(1000);  
  63.         //再连,分配一个新的IP  
  64.         connAdsl("宽带","hzhz**********","******");  
  65.     }  
  66. }  

 

你可能感兴趣的:(java实现)