采用技术:Jsp+Servlet+Lucene3.0+IK Analyzer3.0
感谢JavaEye的各位前辈,让小弟我能够顺利完成我的毕业设计。
用到的中文分词器,当然得感谢IK的作者林良益前辈。
本项目采用了百度的样式集-所以看起来像山寨百度的一个搜索引擎,先看下效果先:
(程序源码:见附件MySearch.rar,相关库文件:请看 中文搜索引擎-Lucene3.0+IK Analyzer3.2相关jar包)
本系统的开发环境:Tomcat6.0和Myeclipse Bule GA 6.5
4.系统实现
索引流程:
1.创建一个IndexWriter创建索引类,指定好索引文件的存放路径,分词器analyzer
2.新建一个索引文档Document doc
3.将要索引的文件的文件名称,文件存放路径,文件内容,存入索引文档doc中
4.再通过IndexWriter将建立好的索引文档写入硬盘中。
5.索引文件优化,将其合并为复合索引文件。
6.关闭IndexWriter
详细代码:
//创建一个索引写入器
IndexWriter writer = new IndexWriter(FSDirectory.open(INDEX_DIR),
analyzer,
true,
IndexWriter.MaxFieldLength.LIMITED);
//创建一个lucene文档
Document doc = new Document();
//为文档添加域,设定该域是否需要分析、存储、索引
doc.add(new Field("title",n,Field.Store.YES,Field.Index.ANALYZED));
//文档路径
doc.add(new Field("path", f.getPath(), Field.Store.YES, Field.Index.NOT_ANALYZED));
//文档文本内容
doc.add(new Field("contents",readFile(f),Field.Store.YES,
Field.Index.ANALYZED));
//将创建好的文档添加到writer的写入队列中,然后写入
writer.addDocument(doc);
//优化索引,就是将索引合并
writer.optimize();
//关闭索引写入器
writer.close();
这里实现了将一个文档转化为索引格式,写到lucene的索引文件中。
搜索流程
- IndexReader打开索引文件,读取并打开指向索引文件的流。
- 用户输入查询语句
- 将查询语句转换为查询对象Query对象树
- 构造Weight对象树,用于计算词的权重Term Weight,也即计算打分公式中与仅与搜索语句相关与文档无关的部分。
- 构造Scorer对象树,用于计算打分(TermScorer.score())。
- 在构造Scorer对象树的过程中,其叶子节点的TermScorer会将词典和倒排表从索引中读出来。
- 构造SumScorer对象树,其是为了方便合并倒排表对Scorer对象树的从新组织,它的叶子节点仍为TermScorer,包含词典和倒排表。此步将倒排表合并后得到结果文档集,并对结果文档计算打分公式中的蓝色部分。打分公式中的求和符合,并非简单的相加,而是根据子查询倒排表的合并方式(与或非)来对子查询的打分求和,计算出父查询的打分。
- 将收集的结果集合及打分返回给用户。
详细代码
//创建一个搜索器IndexSearcher,设定好索引文件的路径
IndexSearcher searcher = new IndexSearcher(FSDirectory.open(new File(index)), true);
//分词器的定义,IKAnalyzer默认的参数是为false,false为采用最细粒度分词,而true则为最大长度分词
Analyzer analyzer= new IKAnalyzer(true);
//IKQueryParser是生成语法树,然后再用语法树去搜索
Query query =IKQueryParser.parse(FIELD_NAME,queryContent);
//scorer标识要高亮的关键字
QueryScorer scorer = new QueryScorer(query, FIELD_NAME);
//高亮器的定义
Highlighter highlighter = new Highlighter(new SimpleHTMLFormatter("<EM>","</EM>"),scorer);
//返回相关度最高的前几条记录
TopScoreDocCollector collector = TopScoreDocCollector.create(
5 * hitsPerPage, false);
//执行搜索
searcher.search(query, collector);
//将分数最高的前几条记录放入collector中
ScoreDoc[] hits = collector.topDocs().scoreDocs;
Document doc = searcher.doc(hits[i].doc);
//获取结果集,这个结果集用于在页面输出
List<IndexDoc> indexdoclist=new ArrayList<IndexDoc>();
Indexdoclist.add(doc);
4.1.4.1 pdf文档解析
try{
//首先当做一个URL来装载文件,如果得到异常再从本地文件系统中去装载文件
URL url=new URL(pdfFile);
document=PDDocument.load(url);
//获取PDF的文件名
String fileName=url.getFile();
//以原来PDF的名称来命名新产生的txt文件
if(fileName.length()>4){
File outputFile =new File(fileName.substring(0,fileName.length()-4)+".txt");
textFile=outputFile.getName();
}
}catch(MalformedURLException e){
//如果作为URL装载得到异常则从文件系统装载
document=PDDocument.load(pdfFile);
if(pdfFile.length()>4){
textFile = pdfFile.substring(0,pdfFile.length()-4)+".txt";
}
}
//文件输入流,写入文件导textFile
output = new OutputStreamWriter(new FileOutputStream(textFile),encoding);
//PDFTextStripper来提取文本
PDFTextStripper stripper=null;
stripper =new PDFTextStripper();
//设置是否排序
stripper.setSortByPosition(sort);
//设置起始页
stripper.setStartPage(startPage);
//设置结束页
stripper.setEndPage(endPage);
//调用PDFTextStripper的writeText提取并输出文本
stripper.writeText(document,output);
4.1.4.2doc文档解析
//处理DOC文档格式
InputStream iStream = new BufferedInputStream(new FileInputStream(f));
WordExtractor ex=new WordExtractor(iStream);
String ns=new String(ex.getText());
doc.add(new Field("contents",ns,Field.Store.YES,
Field.Index.ANALYZED));
4.1.4.3docx文档解析
//处理docx文档
Parser parser=new OOXMLParser();
InputStream iStream=new BufferedInputStream(new FileInputStream(f));
OutputStream oStream=new BufferedOutputStream(new FileOutputStream(new File(f.getPath()+".txt")));
ContentHandler iHandler= new BodyContentHandler(oStream);
parser.parse(iStream, iHandler, new Metadata(), new ParseContext());
doc.add(new Field("contents",readFile(
new File(f.getPath()+".txt")),Field.Store.YES,
Field.Index.ANALYZED));
4.1.4.4 html文档解析
StringBuffer text = new StringBuffer();
org.htmlparser.Parser parser = org.htmlparser.Parser.createParser(new String(inputHtml.getBytes(),
"GBK"), "GBK");
// 遍历所有的节点
org.htmlparser.util.NodeList nodes = parser.extractAllNodesThatMatch(new org.htmlparser.NodeFilter() {
public boolean accept(org.htmlparser.Node node) {
return true;
}
});
System.out.println(nodes.size());
for (int i=0;i<nodes.size();i++){
org.htmlparser.Node nodet = nodes.elementAt(i);
text.append(new String(nodet.toPlainTextString().getBytes("GBK"))+"\r\n");
}
4.1.5.1 中文切分词机制
对于中文来说,全文索引首先还要解决一个语言分析的问题,对于英文来说,语句中单词之间是天然通过空格分开的,但亚洲语言的中日韩文语句中的字是一个字紧贴着一个,所有,首先要把语句中按“词”进行索引的话,这个词如何切分出来就是一个很大的问题。
首先,肯定不能用单个字符作为索引单元,否则查“上海”时,不能让含有“海上”也匹配。但一句话:“北京拍照门”,计算机如何按照中文的语言习惯进行切分呢?“北京 拍照门”还是“北 京拍照门”?让计算机能够按照语言习惯进行切分,往往需要机器有一个比较丰富的词库才能够比较准确的识别出语句中的单词。另外一个解决的办法是采用自动切分算法:将单词按照2元语法方式切分出来,比如:"北京拍照门"==>"北京 京拍 拍照 照门"。这样,在查询的时候,无论是查询"北京"还是查询"拍照门",将查询词组按同样的规则进行切分:"北京","拍照照门",多个关键词之间按与"and"的关系组合,同样能够正确地映射到相应的索引中。这种方式对于其他亚洲语言:韩文,日文都是通用的。
基于自动切分的最大优点是没有词表维护成本,实现简单,缺点是索引效率低,但对于中小型应用来说,基于2元语法的切分还是够用的。基于2元切分后的索引一般大小和源文件差不多,而对于英文,索引文件一般只有原文件的30%-40%不同。自动切分与词表切分的具体区别,请见(表4):
表4
|
自动切分 |
词表切分 |
实现 |
实现非常简单 |
实现复杂 |
查询 |
增加了查询分析的复杂程度 |
适于实现比较复杂的查询语法规则 |
存储效率 |
索引冗余大,索引几乎和原文一样大 |
索引效率高,为原文大小的30%左右 |
维护成本 |
无词表维护成本 |
词表维护成本非常高:中日韩等语言需要分别维护。还需要包括词频统计等内容 |
适用领域 |
嵌入式系统:运行环境资源有限 |
分布式系统:无词表同步问题 |
多语言环境: |
无词表维护成本 |
对查询和存储效率要求高的专业搜索引擎 |
4.1.5.2 IK Analyzer 3.2.0中文切词
IK Analyzer采用的是正向迭代最细粒度分词算法,是基于正向最大分词算法的改进算法,将词语切得更加的细致,保证了用户在分词搜索中的召回率。
我们来对比一下两种分词算法,例如:头孢曲松舒巴坦,如果是采用正向最大分词算法的话,它将切为“头孢曲松+舒 +巴 +坦”,而正向迭代最细粒度分词算法,则会在切到头孢曲松这一词的时候再进一轮切词算法从而切出“头孢 +曲松”这两个词,那么正向最细粒度分词算法的结果为:
“头孢曲松 (+头孢 +曲松)) +舒 +巴 +坦”
//分词器的定义,IKAnalyzer默认的参数是为false,false为采用最细粒度分词,而true则为最大长度分词
Analyzer analyzer= new IKAnalyzer(true);
//IKQueryParser是生成语法树,然后再用语法树去搜索
Query query =IKQueryParser.parse(FIELD_NAME,queryContent);
原理:将页面的首页、上一页、下一页、第几页、尾页,不同的按钮通过计算转为计算数据查询的起始位置、查询每页多少条记录,每次按下分页控件上的按钮,都会传查询条件和查询起始位置、查询每页多少条记录三个条件传到后台的java文件中,再调用pagerUtil中的分页查询方法,将查询到的结果返回页面。
注:QueryContent : 用户输入的查询语句
Start:查询的起始位置
Pagersize:分页查询,每页需要查的条数
PagerModel:里面有两个数据 int totalRecords指的是返回本次查询结果的总条数,Collection<IndexDoc> objects指的是分页查询的结果集
页面代码:
<pg:pager url="./IndexSearch" items="${ pagerModel.totalRecords}" export="currentPageNumber=pageNumber" maxPageItems="10">
<pg:param name="qc" value="<%=QueryContent %>"/>
<pg:first>
<a href="${pageUrl}">首页</a>
</pg:first>
<pg:prev>
<a href="${pageUrl }">上一页</a>
</pg:prev>
<pg:pages>
<c:choose>
<c:when test="${currentPageNumber eq pageNumber}">
<font color="red">${pageNumber }</font>
</c:when>
<c:otherwise>
<a href="${pageUrl }">${pageNumber }</a>
</c:otherwise>
</c:choose>
</pg:pages>
<pg:next>
<a href="${pageUrl }">下一页</a>
</pg:next>
<pg:last>
<a href="${pageUrl }">尾页</a>
</pg:last>
</pg:pager>
后台java文件代码:
public List<IndexDoc> getDocs(String qc,int start,int end,IndexSearcher searcher,
ScoreDoc[] hits, Highlighter highlighter,Analyzer analyzer) throws CorruptIndexException, IOException{
//页面显示内容
List<IndexDoc> indexdoclist=new ArrayList<IndexDoc>();
for (int i = start; i < end; i++) {
IndexDoc indexdoc=new IndexDoc();
Document doc = searcher.doc(hits[i].doc);
String path = doc.get(FIELD_PATH);
if (path != null) {
String title = doc.get(FIELD_TITLE);
if (title != null) {
indexdoc.setTitle(replace(title,qc));
//indexdoc.setPath(path);
indexdoc.setPath(parsePath(path));
String con="";
indexdoc.setIndexdate(doc.get(FIELD_DATE));
String fragment="";
try {
con=doc.get(FIELD_NAME);
indexdoc.setCon(con);
TokenStream stream = TokenSources.getAnyTokenStream(searcher.getIndexReader(),
hits[i].doc, FIELD_NAME, doc, analyzer);
//高亮附近100个字符,设定范围
highlighter.setTextFragmenter(new SimpleFragmenter(100));
fragment = highlighter.getBestFragment(stream, con);
} catch (Exception e) {
e.printStackTrace();
}
//只截取关键部分的100个字
if (con.length()<100) {
indexdoc.setFragment(fragment);
} else {
indexdoc.setFragment("..."+fragment+"...");
}
}
} else {
System.out.println((i+1) + ". " + "No path for this document");
}
indexdoclist.add(indexdoc);
}
return indexdoclist;
}