WebCrawler Java小爬爬 从入门到放弃 第三章

正则表达式:
我们已经会了最简单,也是最基础的如何提取网页内容。
接下来就是从中筛选我们想要的内容。

正则表达式,又称规则表达式。(英语:Regular Expression,在代码中常简写为regex、regexp或RE),计算机科学的一个概念。正则表通常被用来检索、替换那些符合某个模式(规则)的文本。
对regex先进行简单的了解,推荐一个网站:
http://tool.chinaz.com/regex/

Java里封装了两个类Pattern和Matcher,用于匹配正则表达式。
建议先看下API文档,推荐个博主写的关于这两个类的说明:
http://blog.csdn.net/cclovett/article/details/12448843

我们先进行一个简单的测试:
我们选择CSDN极客头条的第一个链接:
http://www.jianshu.com/p/d0aacb6f0455
然后用正则匹配我们想要的正文。
用FireFox打开链接,按F12如下图
WebCrawler Java小爬爬 从入门到放弃 第三章_第1张图片

然后敲代码 测试

import java.io.*;
import java.net.*;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
public class test {
    public test(){
        BufferedReader in = null;
        URL realURL;
        String urlContent = "";
        try {
            realURL = new URL("http://www.jianshu.com/p/d0aacb6f0455");
            //获取网页链接
            URLConnection connection = realURL.openConnection();  
            connection.connect(); 
            //缓冲流读入
            in = new BufferedReader(new InputStreamReader(  
                    connection.getInputStream(), "UTF-8"));
            String line;
            //用while循环将缓冲区内容写到字符串里
            while(null != (line = in.readLine())){urlContent += line;} 
            //进行正则匹配  正则语句: meta charset=\"(.+?)\"> 
            Pattern p = Pattern.compile("meta charset=\"(.+?)\">");
            Matcher m = p.matcher(urlContent);          
            m.find();
            //打印当前网页字符集格式
            System.out.println(realURL.toString()+" charset is " + m.group(1));
        } catch (MalformedURLException e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        } catch (IOException e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        }  
    }
    public static void main(String[] args){
        new test();
    }
}

测试完成。
了解下JS里的标记 有时候我们匹配的信息需要用控制符替换掉这些标记

博主十一要认真学学JS,有些地方有问题。

你可能感兴趣的:(java)