nutch自带索引域了解

nutch自带的索引域:


  AnchorIndexingFilter
    linkdb中的achor


  BasicIndexingFilter
    host、site:这两个域的取值分为两种情况。第一种情况是crawldatum中的Nutch.WRITABLE_REPR_URL_KEY;
第二种是传过来的url。第一种情况为空则使用第二种。
   url:参数中的url。
   content:prse.getText().
   title:从parseData中获得。
   cahce:从parseData
   tstamp:datum.getFetchTime()对fetchTime 的进行一定的格式处理后建域。
 
 MoreIndexingFilter
   lastModified:从parseData中对Metadata.LAST_MODIFIED建的域。
   data:对fetchTime建的域。
   contentLength:data.getMeta(Response.CONTENT_LENGTH);
   contentType:内容从parseData获得。具体如下:data.getMeta(Response.CONTENT_TYPE);

你可能感兴趣的:(url)