java-抓取指定URL网页的内容

    由于做的工程实践关于爬虫的,本来打算用Python写,但是发现没有Python写爬虫的书籍,但网上有一些博客,文章之类,看着不够系统,完全找不到感觉,索性学java写爬虫吧,毕竟有本书专门讲解的,下面是我照抄书上的源代码,加上部分自己写的代码.

import java.io.*;
import java.net.*;

import org.apache.commons.httpclient.HttpClient;
import org.apache.commons.httpclient.methods.GetMethod;

public class UrlMethod{
	
	public static void  main(String arg[])throws Exception{
		HttpClient httpClient = new HttpClient();//创建一个客户端,相当于打开一个浏览器
		//创建一个get方法,类似于在浏览器地址栏输入一个地址
		GetMethod getMethod = new GetMethod("http://www.baidu.com");
		//回车,获得响应状态码
		int status = httpClient.executeMethod(getMethod);
		System.out.println("response = " + getMethod.getResponseBodyAsString());
		System.out.println("getMethod's name" + getMethod.getName());
		System.out.println("getMethodBase:" + getMethod.getPath());
		System.out.println("statusText:" + getMethod.getStatusText());
		System.out.println("getMethod to string:" + getMethod.toString());
		getMethod.releaseConnection();//释放链接
	}
}

output:

response = 百度一下,你就知道     













getMethod's nameGET
getMethodBase:/
statusText:OK
getMethod to string:org.apache.commons.httpclient.methods.GetMethod@763f5d


你可能感兴趣的:(Information,Retrieval)