收索引擎开发(1)

老早就想做个收索引擎了,苦于学业太重,没时间做,现在学校的课程也没了,开始完成我的收索引擎了,吼~~~
网上找了些资料,总算搞明白了什么是收索引擎,原来很复杂,很复杂,但我会坚持。。。

搜索引擎按其工作方式主要可分为三种,分别是全文搜索引擎(Full Text Search Engine)、目录索引类搜索引擎(Search Index/Directory)和元搜索引擎(Meta Search Engine)。
全文搜索引擎是名副其实的搜索引擎,国外具代表性的有Google、Fast/AllTheWeb、AltaVista、Inktomi、Teoma、WiseNut等,国内著名的有百度(Baidu)。它们都是通过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户,因此他们是真正的搜索引擎。目录索引虽然有搜索功能,但在严格意义上算不上是真正的搜索引擎,仅仅是按目录分类的网站链接列表而已。用户完全可以不用进行关键词(Keywords)查询,仅靠分类目录也可找到需要的信息。目录索引中最具代表性的莫过于大名鼎鼎的Yahoo雅虎。其他著名的还有Open Directory Project(DMOZ)、LookSmart、About等。国内的搜狐、新浪、网易搜索也都属于这一类。元搜索引擎 (META Search Engine)在接受用户查询请求时,同时在其他多个引擎上进行搜索,并将结果返回给用户。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等(元搜索引擎列表),中文元搜索引擎中具代表性的有搜星搜索引擎。在搜索结果排列方面,有的直接按来源引擎排列搜索结果,如Dogpile,有的则按自定的规则将结果重新排列组合,如Vivisimo。 我是要做的是全文搜索引擎,继续。。。
从搜索结果来源的角度,全文搜索引擎又可细分为两种,一种是拥有自己的检索程序(Indexer),俗称“蜘蛛”(Spider)程序或“机器人”(Robot)程序,并自建网页数据库,搜索结果直接从自身的数据库中调用,如上面提到的7家引擎;另一种则是租用其他引擎的数据库,并按自定的格式排列搜索结果,如Lycos引擎。 看来还得找个“蜘蛛”(Spider)程序找资源,继续。。。

在网上找了很久,感觉Heritrix这个还蛮多人用的,决定用这个了。先得把它跑通吧,在SourceForge把它下载下来了,研究了下下,发现它可以在命令行下启动,也可以放在Eclipse里启动,那我当然选择在Eclipse里了,还能看源码,不错,照着网上的例子一步一步下来,终于成功,在JOB文件夹下看到了我要“爬”的网站资料。。。又用它试了几个网站,发现一个问题,同意的Heritrix配置,有时候能爬到数据,有时候就爬不到,难道有些网站还防“抓取”了,随便也“抓”了下javaeye,结果只“抓”到了个主页和几个图片,不懂了。。。有哪位大哥知道,请告诉一下小弟,谢谢!今天就到这,下次继续。。。

你可能感兴趣的:(eclipse,搜索引擎,互联网,百度,全文检索)