Whoosh 是一个纯 Python 编写的搜索框架,类似于Lucene。比较简单,可以快速构建站内搜索。也可以在此基础上构建搜索引擎,但需要自己扩展 爬虫Spider 和 中文分词组件。
Whoosh详细可以查看 http://www.oschina.net/p/whoosh
最近构思了一个个人网站,准备采用 Python 开发,主要看重 Python 快速构建能力(当然,我不太会 Python,这也算一个 Python的学习作品,开发不一定快哈)。网站初步包括新闻、博客、社区,这三个版块需要站内搜索;同时有一个资讯版块,需要构建一个主题搜索引擎。这里都采用 Whoosh 作为基础,然后自己实现 Spider、中文分词完成。
下面将逐步介绍:
1. Whoosh 原理与实战
2. Python 中文分词设计与开发
3. Spider 设计与开发
由于需要边学习边写作,这只能算作我的 Python学习笔记。可能一些内容不太准确、合理,希望大家指正。