Lucene 实例教程(二)之IKAnalyzer中文分词器

articleList = new ArrayList

(); articleList.add(article0); articleList.add(article1); articleList.add(article2); articleList.add(article3); articleList.add(article4); articleList.add(article5); articleList.add(article6); articleList.add(article7); articleList.add(article8); articleList.add(article9); articleList.add(article10); articleList.add(article11); articleList.add(article12); articleList.add(article13); articleList.add(article14); articleList.add(article15); // 为了避免重复插入数据，每次测试前先删除之前的索引 indexWriter.deleteAll(); // 获取实体对象 for (int i = 0; i < articleList.size(); i++) { Article article = articleList.get(i); // indexWriter添加索引 Document doc = new Document(); doc.add(new Field("id", article.getId().toString(),Field.Store.YES, Field.Index.NOT_ANALYZED)); doc.add(new Field("title", article.getTitle().toString(),Field.Store.YES, Field.Index.ANALYZED)); doc.add(new Field("content", article.getContent().toString(),Field.Store.YES, Field.Index.ANALYZED)); // 添加到索引中去 indexWriter.addDocument(doc); System.out.println("索引添加成功：第" + (i + 1) + "次！！"); } } catch (IOException e) { e.printStackTrace(); } finally { if (indexWriter != null) { try { indexWriter.close(); } catch (IOException e) { e.printStackTrace(); } } if (directory != null) { try { directory.close(); } catch (IOException e) { e.printStackTrace(); } } } long endTime = System.currentTimeMillis(); System.out.println("创建索引文件成功，总共花费" + (endTime - startTime) + "毫秒。"); System.out.println("*****************创建索引结束**********************"); } /** * 直接读取索引文件，查询索引记录 * * @throws IOException */ public void openIndexFile() { long startTime = System.currentTimeMillis(); System.out.println("*****************读取索引开始**********************"); List

articles = new ArrayList

(); // 得到索引的目录 Directory directory = null; IndexReader indexReader = null; try { directory = new SimpleFSDirectory(indexFile); // 根据目录打开一个indexReader indexReader = IndexReader.open(directory); //indexReader = IndexReader.open(directory,false); System.out.println("在索引文件中总共插入了" + indexReader.maxDoc() + "条记录。"); // 获取第一个插入的document对象 Document minDoc = indexReader.document(0); // 获取最后一个插入的document对象 Document maxDoc = indexReader.document(indexReader.maxDoc() - 1); // document对象的get(字段名称)方法获取字段的值 System.out.println("第一个插入的document对象的标题是：" + minDoc.get("title")); System.out.println("最后一个插入的document对象的标题是：" + maxDoc.get("title")); //indexReader.deleteDocument(0); int docLength = indexReader.maxDoc(); for (int i = 0; i < docLength; i++) { Document doc = indexReader.document(i); Article article = new Article(); if (doc.get("id") == null) { System.out.println("id为空"); } else { article.setId(Integer.parseInt(doc.get("id"))); article.setTitle(doc.get("title")); article.setContent(doc.get("content")); articles.add(article); } } System.out.println("显示所有插入的索引记录："); for (Article article : articles) { System.out.println(article); } } catch (IOException e) { e.printStackTrace(); } finally { if (indexReader != null) { try { indexReader.close(); } catch (IOException e) { e.printStackTrace(); } } if (directory != null) { try { directory.close(); } catch (IOException e) { e.printStackTrace(); } } } long endTime = System.currentTimeMillis(); System.out.println("直接读取索引文件成功，总共花费" + (endTime - startTime) + "毫秒。"); System.out.println("*****************读取索引结束**********************"); } /** * 查看IKAnalyzer 分词器是如何将一个完整的词组进行分词的 * * @param text * @param isMaxWordLength */ public void splitWord(String text, boolean isMaxWordLength) { try { // 创建分词对象 Analyzer analyzer = new IKAnalyzer(isMaxWordLength); StringReader reader = new StringReader(text); // 分词 TokenStream ts = analyzer.tokenStream("", reader); CharTermAttribute term = ts.getAttribute(CharTermAttribute.class); // 遍历分词数据 System.out.print("IKAnalyzer把关键字拆分的结果是："); while (ts.incrementToken()) { System.out.print("【" + term.toString() + "】"); } reader.close(); } catch (IOException e) { e.printStackTrace(); } System.out.println(); } /** * 根据关键字实现全文检索 */ public void searchIndexFile(String keyword) { long startTime = System.currentTimeMillis(); System.out.println("*****************查询索引开始**********************"); IndexReader indexReader = null; IndexSearcher indexSearcher = null; List

articleList = new ArrayList

(); try { indexReader = IndexReader.open(FSDirectory.open(indexFile)); // 创建一个排序对象，其中SortField构造方法中，第一个是排序的字段，第二个是指定字段的类型，第三个是是否升序排列，true：升序，false：降序。 Sort sort = new Sort(new SortField[] {new SortField("title", SortField.STRING, false),new SortField("content", SortField.STRING, false) }); //Sort sort = new Sort(); // 创建搜索类 indexSearcher = new IndexSearcher(indexReader); // 下面是创建QueryParser 查询解析器 // QueryParser支持单个字段的查询，但是MultiFieldQueryParser可以支持多个字段查询，建议用后者这样可以实现全文检索的功能。 // QueryParser queryParser = new QueryParser(Version.LUCENE_36, "title", analyzer); QueryParser queryParser = new MultiFieldQueryParser(Version.LUCENE_36, new String[] { "title", "content" },analyzer); // 利用queryParser解析传递过来的检索关键字，完成Query对象的封装 Query query = queryParser.parse(keyword); splitWord(keyword, true); // 显示拆分结果 // 执行检索操作 TopDocs topDocs = indexSearcher.search(query, 5, sort); System.out.println("一共查到:" + topDocs.totalHits + "记录"); ScoreDoc[] scoreDoc = topDocs.scoreDocs; // 像百度，谷歌检索出来的关键字如果有，除了显示在列表中之外还会高亮显示。Lucenen也支持高亮功能，正常应该是这里用【】替代，使效果更加明显 SimpleHTMLFormatter simpleHtmlFormatter = new SimpleHTMLFormatter("【", "】"); // 具体怎么实现的不用管，直接拿来用就好了。 Highlighter highlighter = new Highlighter(simpleHtmlFormatter,new QueryScorer(query)); for (int i = 0; i < scoreDoc.length; i++) { // 内部编号 ,和数据库表中的唯一标识列一样 int doc = scoreDoc[i].doc; // 根据文档id找到文档 Document mydoc = indexSearcher.doc(doc); String id = mydoc.get("id"); String title = mydoc.get("title"); String content = mydoc.get("content"); TokenStream tokenStream = null; if (title != null && !title.equals("")) { tokenStream = analyzer.tokenStream("title",new StringReader(title)); title = highlighter.getBestFragment(tokenStream, title); } if (content != null && !content.equals("")) { tokenStream = analyzer.tokenStream("content",new StringReader(content)); // 传递的长度表示检索之后匹配长度，这个会导致返回的内容不全 //highlighter.setTextFragmenter(new SimpleFragmenter(content.length())); content = highlighter.getBestFragment(tokenStream, content); } // 需要注意的是如果使用了高亮显示的操作，查询的字段中没有需要高亮显示的内容 highlighter会返回一个null回来。 articleList.add(new Article(Integer.valueOf(id),title == null ? mydoc.get("title") : title,content == null ? mydoc.get("content") : content)); } } catch (CorruptIndexException e) { e.printStackTrace(); } catch (IOException e) { e.printStackTrace(); } catch (InvalidTokenOffsetsException e) { e.printStackTrace(); } catch (ParseException e) { e.printStackTrace(); } finally { if (indexSearcher != null) { try { indexSearcher.close(); } catch (IOException e1) { e1.printStackTrace(); } } if (indexReader != null) { try { indexReader.close(); } catch (IOException e) { e.printStackTrace(); } } } System.out.println("根据关键字" + keyword + "检索到的结果如下："); for (Article article : articleList) { System.out.println(article); } long endTime = System.currentTimeMillis(); System.out.println("全文索引文件成功，总共花费" + (endTime - startTime) + "毫秒。"); System.out.println("*****************查询索引结束**********************"); } public static void main(String[] args) { SimpleFSDirectoryDemo luceneInstance = new SimpleFSDirectoryDemo(); // 建立要索引的文件 luceneInstance.createIndexFile(); // 从索引文件中查询数据 // luceneInstance.openIndexFile(); // 查看IKAnalyzer分词结果 /* * String[] keywords = new * String[]{"IKAnalyzer是一个基于java语言开发的轻量级的中文分词工具包" * ,"我正在学习Lucene3.6，看一下效果如何" * ,"鄂尔多斯"," Java做服务器端时如何接收和处理android客户端base64编码过的图片呢？"}; * luceneInstance.splitWord(keywords[0], true); * luceneInstance.splitWord(keywords[0], false); * luceneInstance.splitWord(keywords[1], true); * luceneInstance.splitWord(keywords[1], false); * luceneInstance.splitWord(keywords[2], true); * luceneInstance.splitWord(keywords[2], false); * luceneInstance.splitWord(keywords[3], true); * luceneInstance.splitWord(keywords[3], false); */ // 获得结果，然后交由相关应用程序处理 String[] searchKeywords = new String[]{"analyzer","沪B123","沪K123","沪K123 上海","沪K3454653"}; luceneInstance.searchIndexFile(searchKeywords[1]); } }