Java——正则表达式_初识网络爬虫

目的

获取某网站中所有的链接地址

思路

(1)获取该网站的HTML源码
(2)利用正则表达式,获取其中的链接地址(href=”http://……”)

代码

这里以www.163.com为例

package TestRegex;

import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.MalformedURLException;
import java.net.URL;
import java.nio.charset.Charset;
import java.util.ArrayList;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

/**
 * 初识网络爬虫
 * @author yangzheng
 *
 */

public class Demo2 {
    public static String getURLContent(String urlStr, String charset){
        StringBuffer res = new StringBuffer();
        try {
            URL url = new URL(urlStr);

            BufferedReader br = new BufferedReader(new InputStreamReader(url.openStream(), Charset.forName(charset)));
            String str = null;

            while ((str = br.readLine()) != null) {
                res.append(str);
            }
        } catch (MalformedURLException e) {
            e.printStackTrace();
        } catch (IOException e) {
            e.printStackTrace();
        }

        return res.toString();
    }

    public static ArrayList getMatherSubstrs(String destStr, String regexStr){
        Pattern pattern = Pattern.compile(regexStr);
        Matcher mather = pattern.matcher(destStr);
        ArrayList res = new ArrayList();
        while(mather.find()){
            //System.out.println(mather.group());
            //System.out.println(mather.group(1));
            res.add(mather.group(1));
        }

        return res;
    }

    public static void main(String[] args) {
        String destStr = getURLContent("http://www.163.com", "gbk");
        //System.out.println(destStr);

        ArrayList list = getMatherSubstrs(destStr, "href=\"(.+?)\"");

        for (String temp : list) {
            System.out.println(temp);
        }

    }
}

结果

输出destStr:
Java——正则表达式_初识网络爬虫_第1张图片
(其实是很长很长的)

输入list中的链接地址:
Java——正则表达式_初识网络爬虫_第2张图片
(也有很多,图片中只是一下部分)

延伸

可以利用递归,再获取源码中地址对应的网页的源码中的地址。这样可以将整个网站下载到电脑本地中(当然,很多网站是有防护的)。

总结

对爬虫充满了好奇。有时间再学爬虫。
正则表达式就学到这,虽然学完了,但用起来并不熟练。在其它语言中还没有尝试过。

你可能感兴趣的:(Java)