httpclient 设置user-agent

阅读更多
前些天在csdn上看到有人说dianping.com上的东西没法抓取,我就用htmlparser试了试,果然不行。看返回结果
Server returned HTTP response code: 500 for URL: http://www.dianping.com/shop/2212912
不能使用:然后想到换httpclient来试试:

HttpClient hc=new HttpClient();
GetMethod gm=new GetMethod("http://www.dianping.com/shop/1968937");
hc.executeMethod(gm);
System.out.print(gm.getResponseBodyAsString());

返回的数据:

提示_大众点评网

dianping.com

对不起,您的访问存在某些问题。
如果您是正常访问,请与[email protected]联系,并附上以下信息:

401

大家可以把他复制到html看看效果,主要是提示我的浏览器错误:使用httpclient默认为jakarta commons-httpclient/3.0
我就换了user-agent试试
在上面的代码中加入

hc.getParams().setParameter(HttpMethodParams.USER_AGENT,"Mozilla/5.0 (X11; U; Linux i686; zh-CN; rv:1.9.1.2) Gecko/20090803 Fedora/3.5.2-2.fc11 Firefox/3.5.2");//设置信息

然后再提交就行了。。这个网站是通过判断user-agent来实现是不是正常的访问.

你可能感兴趣的:(webkit,Linux,Firefox,浏览器,XHTML)