Java简单的抓取网页数据

利用Java简单的抓取数据(其实与其说抓取数据倒不如说只是请求获得数据),我自己总结了一下知识,希望对大家有用,也方便自己查阅!!

这篇博客的思路:
1. 导入的包(主要是 apache.http 的 jar 包)
2. Java Url方式抓取数据
2. Java HttpPost方式抓取数据
3. 正则表达式筛选数据


导入包

import java.io.BufferedReader;
import java.io.InputStreamReader;
import java.net.HttpURLConnection;
import java.net.URL;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
import org.apache.http.HttpEntity;
import org.apache.http.HttpResponse;
import org.apache.http.HttpStatus;
import org.apache.http.client.HttpClient;
import org.apache.http.client.methods.HttpPost;
import org.apache.http.entity.StringEntity;
import org.apache.http.impl.client.DefaultHttpClient;
import org.apache.http.util.EntityUtils;
import com.alibaba.fastjson.JSON;

Url方式抓取数据

//url抓取数据(参数URL:就是你要抓数据的地址。如:http://www.cnev.cn/)
public static String urlClimb(String url) throws Exception{
    URL getUrl =new URL(url); //创建URl连接
    HttpURLConnection connection = (HttpURLConnection) getUrl.openConnection(); //建立连接
    connection.connect(); //打开连接
    BufferedReader reader = new BufferedReader(new InputStreamReader(connection.getInputStream(), "utf-8")); //创建输入流并设置编码
    StringBuffer sb = new StringBuffer();
    String lines = null;
    while ((lines = reader.readLine()) != null) { 
        lines = new String(lines.getBytes(), "utf-8"); //读取流的一行,设置编码
        sb = sb.append(lines + "\n");
    }
    reader.close(); //关闭流
    connection.disconnect(); //销毁连接
    return sb.toString(); //返回抓取的数据(注意,这里是抓取了访问的网站的全部数据)
}

HttpPost方式抓取数据

//http抓取数据(参数URL:就是你要抓数据的地址。如:http://www.cnev.cn/  obj就是要传递的参数,这里用json传输)
public static String httpClimb(String url, Object obj) throws Exception{
    //结果字符串(用于保存抓取了访问的网站的全部数据,并返回)
    String result = null;
    //http对象声明
    HttpClient httpClient = new DefaultHttpClient(); 
    HttpPost post = new HttpPost(url); //把url设置进post请求里面
    HttpResponse response = null; //response用于获取请求回来的结果
    //创建参数
    StringEntity params = new StringEntity(JSON.toJSONString(obj)); //把需要传递的参数转换为JSON
    params.setContentEncoding("utf-8"); //设置参数的编码
    //设置参数到post
    post.setEntity(params);
    post.setHeader("Accept-Charset", "UTF-8"); //设置post请求的编码
    post.setHeader("Content-Type", "UTF-8"); //设置post请求的编码
    //请求
    response = httpClient.execute(post);
    //响应
    if (response.getStatusLine().getStatusCode() == HttpStatus.SC_OK) {
        HttpEntity entity = response.getEntity(); //获得请求结果
        result = EntityUtils.toString(entity);
    }
    return result;
}

正则表达式筛选数据

//正则筛选(抓取了访问的网站的全部数据的字符串,就是上面那两个方法其中一个返回的result)
public static String choosePattern(String result){
    String regex = ".*"; //这个正则表达式是取所有span标签
    StringBuffer sb = new StringBuffer();
    //Pattern类编译正则表达式(后面的Pattern静态属性是忽略大小写)
    Pattern pattern = Pattern.compile(regex, Pattern.CASE_INSENSITIVE);
    Matcher matcher = pattern.matcher(result); //Matcher类是搜索匹配内容(下面也简单写上Matcher类的解释)
    while (matcher.find()) {
        sb.append(matcher.group(0)+"\n"); //匹配整个正则表达式,并返回该行字符串
    }
    return sb.toString(); //把匹配的内容返回
}

**Pattern静态属性**
//启用不区分大小写的匹配。
public static final int CASE_INSENSITIVE = 0x02;
//模式中允许空白和注释。
public static final int COMMENTS = 0x04;
//启用多行模式。
public static final int MULTILINE = 0x08;
//启用模式的字面值解析。
public static final int LITERAL = 0x10;
//启用 dotall 模式。
public static final int DOTALL = 0x20;
//启用 Unicode 感知的大小写折叠。
public static final int UNICODE_CASE = 0x40;
//启用规范等价
public static final int CANON_EQ = 0x80;
private static final long serialVersionUID = 5073258162644648461L;

**Matcher类**
使用Matcher类,必须要清楚:组(Group),在正则表达式中()定义了一个组,由于一个正则表达式可以包含很多的组。
如: \w(\D[0-9])(\D?) 
整个正则表达式是第0组 group(0)
(\D[0-9])是第1组 group(1)
(\D?)是第2组 group(2)
用括号来分组

你可能感兴趣的:(Java)