nutch1.0 “Invalid first character”异常

根据http://lucene.apache.org/nutch/tutorial8.html中的tutorial,下载nutch-1.0,cygwin等进行配置。

在使用bin/nutch crawl urls -dir crawl -depth 3 -topN 50进行抓取的时候,出现了Invalid first character,

google到一些文章,说可能是craw-urlfilter.txt文件中的URL有问题,检查该文件,没有发现问题。

然后查看源代码,http://www.docjar.com/html/api/org/apache/nutch/urlfilter/api/RegexURLFilterBase.java.html,

ivate RegexRule[] readRulesFile(Reader reader) 165 throws IOException, IllegalArgumentException { 166 167 BufferedReader in = new BufferedReader(reader); 168 List rules = new ArrayList(); 169 String line; 170 171 while((line=in.readLine())!=null) { 172 if (line.length() == 0) { 173 continue; 174 } 175 char first=line.charAt(0); 176 boolean sign=false; 177 switch (first) { 178 case '+' : 179 sign=true; 180 break; 181 case '-' : 182 sign=false; 183 break; 184 case ' ' : case '/n' : case '#' : // skip blank & comment lines 185 continue; 186 default : 187 throw new IOException("Invalid first character: "+line); 188 } 189 190 String regex = line.substring(1); 191 if (LOG.isTraceEnabled()) { LOG.trace("Adding rule [" + regex + "]"); } 192 RegexRule rule = createRule(sign, regex); 193 rules.add(rule); 194 } 195 return (RegexRule[]) rules.toArray(new RegexRule[rules.size()]); 196 }

检查了craw-urlfilter.txt文件仍然没有发现问题,但是执行命令就是报错,Invalid first character。

然后我重新建立了一个文件,通过windows UE进行编辑,拷贝原先的内容到新文件,然后执行命令,

正常运行,开始抓取网页。

很是奇怪??

你可能感兴趣的:(windows,String,list,Google,regex,character)