索引擎Nutch源代码研究之一 网页抓取(4)

今天来看看Nutch如何Parse网页的:
Nutch使用了两种Html parser工具(NekoHTML和TagSoup)来实现html的提取,这两种工具是可通过配置来选择的。
当然你要自己实现Parser你还可以选择HTMLParser[基于visitor访问者模式同时也提供了Event driver的接口]来
提取网页。如果你用惯了XML一套处理方法,使用NekoHTML和TagSoup应该会比较顺手的。
我们来看看类public class HtmlParser implements Parser的实现:
首先为了更好的理解下面的代码先看看成员变量:
Java代码 复制代码
  1. private static final int CHUNK_SIZE = 2000;   
  2.  private static Pattern metaPattern =   
  3.    Pattern.compile("<meta\\s+([^>]*http-equiv=\"?content-type\"?[^>]*)>",   
  4.                    Pattern.CASE_INSENSITIVE);   
  5.  private static Pattern charsetPattern =   
  6.    Pattern.compile("charset=\\s*([a-z][_\\-0-9a-z]*)",   
  7.                    Pattern.CASE_INSENSITIVE);   
  8.     
  9.  private String parserImpl;  
 private static final int CHUNK_SIZE = 2000;
  private static Pattern metaPattern =
    Pattern.compile("<meta\\s+([^>]*http-equiv=\"?content-type\"?[^>]*)>",
                    Pattern.CASE_INSENSITIVE);
  private static Pattern charsetPattern =
    Pattern.compile("charset=\\s*([a-z][_\\-0-9a-z]*)",
                    Pattern.CASE_INSENSITIVE);
  
  private String parserImpl;

CHUNK_SIZE提取html meta tag部分的html片断的长度,一般meta tag没有超过2000bytes的,所以只需要从这部分
提取就行了
metaPattern为meta tag匹的正则模式
charsetPattern为字符集编码的正则模式
parserImpl是具体使用的是NekoHTML还是TagSoup来parser html.如果parserImpl为"tagsoup"就使用TagSoup,否则就使用NekoHTML。
用来从html在meta tag里面提取出charset或Content-Type中指定的编码:
length限定在meta tag部分提取,通过正则表达式很容易提取出编码
Java代码 复制代码
  1. private static String sniffCharacterEncoding(byte[] content) {   
  2.     int length = content.length < CHUNK_SIZE ?    
  3.                  content.length : CHUNK_SIZE;   
  4.   
  5.     // We don't care about non-ASCII parts so that it's sufficient   
  6.     // to just inflate each byte to a 16-bit value by padding.    
  7.     // For instance, the sequence {0x41, 0x82, 0xb7} will be turned into    
  8.     // {U+0041, U+0082, U+00B7}.    
  9.     String str = new String(content, 00, length);    
  10.   
  11.     Matcher metaMatcher = metaPattern.matcher(str);   
  12.     String encoding = null;   
  13.     if (metaMatcher.find()) {   
  14.       Matcher charsetMatcher = charsetPattern.matcher(metaMatcher.group(1));   
  15.       if (charsetMatcher.find())    
  16.         encoding = new String(charsetMatcher.group(1));   
  17.     }   
  18.   
  19.     return encoding;   
  20.   }  
private static String sniffCharacterEncoding(byte[] content) {
    int length = content.length < CHUNK_SIZE ? 
                 content.length : CHUNK_SIZE;

    // We don't care about non-ASCII parts so that it's sufficient
    // to just inflate each byte to a 16-bit value by padding. 
    // For instance, the sequence {0x41, 0x82, 0xb7} will be turned into 
    // {U+0041, U+0082, U+00B7}. 
    String str = new String(content, 0, 0, length); 

    Matcher metaMatcher = metaPattern.matcher(str);
    String encoding = null;
    if (metaMatcher.find()) {
      Matcher charsetMatcher = charsetPattern.matcher(metaMatcher.group(1));
      if (charsetMatcher.find()) 
        encoding = new String(charsetMatcher.group(1));
    }

    return encoding;
  }

最重要的一个方法是:
public Parse getParse(Content content)
这个方法返回了包含了提取所有结果Parse对象:
这个方法写的比较长,近100行,其实整个方法可以分解成几个小方法:
提取base url,提取encoding,根据提取出的编码提取content,提取meta tags,提取outlinks,最后根据提取得到的
text和parseDate构造Parse对象
下面我们一个一个看:
提取base url
Java代码 复制代码
  1. URL base;   
  2.     try {   
  3.       base = new URL(content.getBaseUrl());   
  4.     } catch (MalformedURLException e) {   
  5.       return new ParseStatus(e).getEmptyParse(getConf());   
  6.     }  
URL base;
    try {
      base = new URL(content.getBaseUrl());
    } catch (MalformedURLException e) {
      return new ParseStatus(e).getEmptyParse(getConf());
    }

提取encoding:
Java代码 复制代码
  1.  //直接从content中的metadata中提取   
  2.  byte[] contentInOctets = content.getContent();   
  3.  InputSource input = new InputSource(new ByteArrayInputStream(contentInOctets));   
  4.  String contentType = content.getMetadata().get(Response.CONTENT_TYPE);   
  5.  String encoding = StringUtil.parseCharacterEncoding(contentType);   
  6.  if ((encoding != null) && !("".equals(encoding))) {   
  7.    metadata.set(Metadata.ORIGINAL_CHAR_ENCODING, encoding);   
  8.    if ((encoding = StringUtil.resolveEncodingAlias(encoding)) != null) {   
  9.      metadata.set(Metadata.CHAR_ENCODING_FOR_CONVERSION, encoding);   
  10.      if (LOG.isTraceEnabled()) {   
  11.        LOG.trace(base + ": setting encoding to " + encoding);   
  12.      }   
  13.    }   
  14.  }   
  15. //如果从metadata中没有提取到,使用前面sniffCharacterEncoding从meta tag提取   
  16.  // sniff out 'charset' value from the beginning of a document   
  17.  if ((encoding == null) || ("".equals(encoding))) {   
  18.    encoding = sniffCharacterEncoding(contentInOctets);   
  19.    if (encoding!=null) {   
  20.      metadata.set(Metadata.ORIGINAL_CHAR_ENCODING, encoding);   
  21.      if ((encoding = StringUtil.resolveEncodingAlias(encoding)) != null) {   
  22.        metadata.set(Metadata.CHAR_ENCODING_FOR_CONVERSION, encoding);   
  23.        if (LOG.isTraceEnabled()) {   
  24.          LOG.trace(base + ": setting encoding to " + encoding);   
  25.        }   
  26.      }   
  27.    }   
  28.  }   
  29.  //如果还没有提取到,使用默认的编码   
  30.  if (encoding == null) {   
  31.    // fallback encoding.   
  32.    // FIXME : In addition to the global fallback value,   
  33.    // we should make it possible to specify fallback encodings for each ccTLD.   
  34.    // (e.g. se: windows-1252, kr: x-windows-949, cn: gb18030, tw: big5   
  35.    // doesn't work for jp because euc-jp and shift_jis have about the   
  36.    // same share)   
  37.    encoding = defaultCharEncoding;   
  38.    metadata.set(Metadata.CHAR_ENCODING_FOR_CONVERSION, defaultCharEncoding);   
  39.    if (LOG.isTraceEnabled()) {   
  40.      LOG.trace(base + ": falling back to " + defaultCharEncoding);   
  41.    }   
  42.  }  
      //直接从content中的metadata中提取
      byte[] contentInOctets = content.getContent();
      InputSource input = new InputSource(new ByteArrayInputStream(contentInOctets));
      String contentType = content.getMetadata().get(Response.CONTENT_TYPE);
      String encoding = StringUtil.parseCharacterEncoding(contentType);
      if ((encoding != null) && !("".equals(encoding))) {
        metadata.set(Metadata.ORIGINAL_CHAR_ENCODING, encoding);
        if ((encoding = StringUtil.resolveEncodingAlias(encoding)) != null) {
          metadata.set(Metadata.CHAR_ENCODING_FOR_CONVERSION, encoding);
          if (LOG.isTraceEnabled()) {
            LOG.trace(base + ": setting encoding to " + encoding);
          }
        }
      }
     //如果从metadata中没有提取到,使用前面sniffCharacterEncoding从meta tag提取
      // sniff out 'charset' value from the beginning of a document
      if ((encoding == null) || ("".equals(encoding))) {
        encoding = sniffCharacterEncoding(contentInOctets);
        if (encoding!=null) {
          metadata.set(Metadata.ORIGINAL_CHAR_ENCODING, encoding);
          if ((encoding = StringUtil.resolveEncodingAlias(encoding)) != null) {
            metadata.set(Metadata.CHAR_ENCODING_FOR_CONVERSION, encoding);
            if (LOG.isTraceEnabled()) {
              LOG.trace(base + ": setting encoding to " + encoding);
            }
          }
        }
      }
      //如果还没有提取到,使用默认的编码
      if (encoding == null) {
        // fallback encoding.
        // FIXME : In addition to the global fallback value,
        // we should make it possible to specify fallback encodings for each ccTLD.
        // (e.g. se: windows-1252, kr: x-windows-949, cn: gb18030, tw: big5
        // doesn't work for jp because euc-jp and shift_jis have about the
        // same share)
        encoding = defaultCharEncoding;
        metadata.set(Metadata.CHAR_ENCODING_FOR_CONVERSION, defaultCharEncoding);
        if (LOG.isTraceEnabled()) {
          LOG.trace(base + ": falling back to " + defaultCharEncoding);
        }
      }

设置好编码方式,从content中提取DocumentFragment
Java代码 复制代码
  1. input.setEncoding(encoding);   
  2.      if (LOG.isTraceEnabled()) { LOG.trace("Parsing..."); }   
  3.      root = parse(input);   
  4.    } catch (IOException e) {   
  5.      return new ParseStatus(e).getEmptyParse(getConf());   
  6.    } catch (DOMException e) {   
  7.      return new ParseStatus(e).getEmptyParse(getConf());   
  8.    } catch (SAXException e) {   
  9.      return new ParseStatus(e).getEmptyParse(getConf());   
  10.    } catch (Exception e) {   
  11.      e.printStackTrace(LogUtil.getWarnStream(LOG));   
  12.      return new ParseStatus(e).getEmptyParse(getConf());   
  13.    }  
 input.setEncoding(encoding);
      if (LOG.isTraceEnabled()) { LOG.trace("Parsing..."); }
      root = parse(input);
    } catch (IOException e) {
      return new ParseStatus(e).getEmptyParse(getConf());
    } catch (DOMException e) {
      return new ParseStatus(e).getEmptyParse(getConf());
    } catch (SAXException e) {
      return new ParseStatus(e).getEmptyParse(getConf());
    } catch (Exception e) {
      e.printStackTrace(LogUtil.getWarnStream(LOG));
      return new ParseStatus(e).getEmptyParse(getConf());
    }

提取meta tag,并检查meta指令
Java代码 复制代码
  1. HTMLMetaProcessor.getMetaTags(metaTags, root, base);   
  2.  if (LOG.isTraceEnabled()) {   
  3.    LOG.trace("Meta tags for " + base + ": " + metaTags.toString());   
  4.  }   
  5.  // check meta directives   
  6.  if (!metaTags.getNoIndex()) {               // okay to index   
  7.    StringBuffer sb = new StringBuffer();   
  8.    if (LOG.isTraceEnabled()) { LOG.trace("Getting text..."); }   
  9.    utils.getText(sb, root);          // extract text   
  10.    text = sb.toString();   
  11.    sb.setLength(0);   
  12.    if (LOG.isTraceEnabled()) { LOG.trace("Getting title..."); }   
  13.    utils.getTitle(sb, root);         // extract title   
  14.    title = sb.toString().trim();   
  15.  }  
   HTMLMetaProcessor.getMetaTags(metaTags, root, base);
    if (LOG.isTraceEnabled()) {
      LOG.trace("Meta tags for " + base + ": " + metaTags.toString());
    }
    // check meta directives
    if (!metaTags.getNoIndex()) {               // okay to index
      StringBuffer sb = new StringBuffer();
      if (LOG.isTraceEnabled()) { LOG.trace("Getting text..."); }
      utils.getText(sb, root);          // extract text
      text = sb.toString();
      sb.setLength(0);
      if (LOG.isTraceEnabled()) { LOG.trace("Getting title..."); }
      utils.getTitle(sb, root);         // extract title
      title = sb.toString().trim();
    }

提取出outlinks:
Java代码 复制代码
  1. if (!metaTags.getNoFollow()) {              // okay to follow links   
  2.       ArrayList l = new ArrayList();              // extract outlinks   
  3.       URL baseTag = utils.getBase(root);   
  4.       if (LOG.isTraceEnabled()) { LOG.trace("Getting links..."); }   
  5.       utils.getOutlinks(baseTag!=null?baseTag:base, l, root);   
  6.       outlinks = (Outlink[])l.toArray(new Outlink[l.size()]);   
  7.       if (LOG.isTraceEnabled()) {   
  8.         LOG.trace("found "+outlinks.length+" outlinks in "+content.getUrl());   
  9.       }   
  10.     }  
if (!metaTags.getNoFollow()) {              // okay to follow links
      ArrayList l = new ArrayList();              // extract outlinks
      URL baseTag = utils.getBase(root);
      if (LOG.isTraceEnabled()) { LOG.trace("Getting links..."); }
      utils.getOutlinks(baseTag!=null?baseTag:base, l, root);
      outlinks = (Outlink[])l.toArray(new Outlink[l.size()]);
      if (LOG.isTraceEnabled()) {
        LOG.trace("found "+outlinks.length+" outlinks in "+content.getUrl());
      }
    }

构建parse对象:
Java代码 复制代码
  1. ParseStatus status = new ParseStatus(ParseStatus.SUCCESS);   
  2.     if (metaTags.getRefresh()) {   
  3.       status.setMinorCode(ParseStatus.SUCCESS_REDIRECT);   
  4.       status.setMessage(metaTags.getRefreshHref().toString());   
  5.     }   
  6.     ParseData parseData = new ParseData(status, title, outlinks,   
  7.                                         content.getMetadata(), metadata);   
  8.     parseData.setConf(this.conf);   
  9.     Parse parse = new ParseImpl(text, parseData);   
  10.   
  11.     // run filters on parse   
  12.     parse = this.htmlParseFilters.filter(content, parse, metaTags, root);   
  13.     if (metaTags.getNoCache()) {             // not okay to cache   
  14.       parse.getData().getParseMeta().set(Nutch.CACHING_FORBIDDEN_KEY, cachingPolicy);   
  15.     }  
ParseStatus status = new ParseStatus(ParseStatus.SUCCESS);
    if (metaTags.getRefresh()) {
      status.setMinorCode(ParseStatus.SUCCESS_REDIRECT);
      status.setMessage(metaTags.getRefreshHref().toString());
    }
    ParseData parseData = new ParseData(status, title, outlinks,
                                        content.getMetadata(), metadata);
    parseData.setConf(this.conf);
    Parse parse = new ParseImpl(text, parseData);

    // run filters on parse
    parse = this.htmlParseFilters.filter(content, parse, metaTags, root);
    if (metaTags.getNoCache()) {             // not okay to cache
      parse.getData().getParseMeta().set(Nutch.CACHING_FORBIDDEN_KEY, cachingPolicy);
    }

下面这个方法根据parserImpl字段,使用NekoHTML或TagSoup来提取content得到DocumentFragment对象
Java代码 复制代码
  1. private DocumentFragment parse(InputSource input) throws Exception {   
  2.    if (parserImpl.equalsIgnoreCase("tagsoup"))   
  3.      return parseTagSoup(input);   
  4.    else return parseNeko(input);   
  5.  }  
 private DocumentFragment parse(InputSource input) throws Exception {
    if (parserImpl.equalsIgnoreCase("tagsoup"))
      return parseTagSoup(input);
    else return parseNeko(input);
  }

网页抓取部分到此基本结束,必要的部分相应再作补充。等研究好google的map-reduce再继续其他部分。

你可能感兴趣的:(html,windows,cache,正则表达式,Google)