nutch对网站进行爬去索引中的一些问题

(1)问题:对有些站点出现java.net.UnknownHostException

解决方案:出现这种错误说明对应的url服务器不存在,可以忽略,程序会继续处理其他链接

(2)问题:fetch of http://nc.nursing.sdu.edu.cn/ failed with: java.net.SocketException: Software caused connection abort: recv failed

解决方案:链接不成功,可以忽略,对程序没有影响。

(3)问题:fetch of http://www.kjc.sdu.edu.cn/ failed with: java.net.SocketTimeoutException: connect timed out

解决方案:可以再nutch配置文件中设置延迟时间,也可以忽略这种问题,因为nutch超时的链接,在浏览器中也是返回不了的。

(4)问题:将正常的程序移植到linux下,出现java.net.UnknownHostException问题

java.net.UnknownHostException: www.online.sdu.edu.cn
 at java.net.PlainSocketImpl.connect(PlainSocketImpl.java:195)
 at java.net.SocksSocketImpl.connect(SocksSocketImpl.java:366)
 at java.net.Socket.connect(Socket.java:529)
 at org.apache.nutch.protocol.http.HttpResponse.<init>(HttpResponse.java:97)
 at org.apache.nutch.protocol.http.Http.getResponse(Http.java:64)
 at org.apache.nutch.protocol.http.api.HttpBase.getProtocolOutput(HttpBase.java:225)
 at org.apache.nutch.fetcher.Fetcher$FetcherThread.run(Fetcher.java:640)

解决方案:是dns配置问题,可以通过配置linux下相关网络连接实现

 

 

你可能感兴趣的:(浏览器,服务器,url)