2天对lucene以及搜素引擎的一些了解

2天对lucene以及搜素引擎的一些了解

说起搜索引擎或许大家都并不陌生。
google 百度大家都用过的。
但是你是否对其实现有个概念呢?
昨天开始自己慢慢弄lucene,对其也有一点的了解了。
至少不再是刚入门什么也不懂的那种了。
一下是自己的理解:
搜索引擎实现功能应该大体分为2部分。
一、建立索引。虽然自己现在做的很有限,只是在文本文件下或是内存中建立的,而其信息的采集可以是自己的数据库中的,这个大家可以结合自己的数据库jdbc编程。完全可以实现的,还有一个就高深一点的。来自网络中的网页,Google baidu的信息采集都是用爬虫工具的。它如何实现的自己还不是很知道,以后这个在研究。反正就是把采集到的信息进行处理,使其在电脑中存在一个检索。
二、通过检索电脑检索信息,而达到搜索的用法。这中检索机制自己还没有深入研究,毕竟只学习了2天。

ps:网络爬虫占用带宽的,网上说Google爬虫做的很好,似乎强大过百度的,Google的爬虫不会再同一个IP中存在2个以上的爬虫。

你可能感兴趣的:(2天对lucene以及搜素引擎的一些了解)