记录搭建一个私人搜索引擎

本人很喜欢搜索引擎技术,最近想搭建一个属于自己的私人搜索引擎,自动完成所有的出来流程,记录一下。
把某个行业、某个领域,对应的网址放在一个txt文件内,接下来动动鼠标,点几下,从爬取到最后即时搜索,自动全部搞定,效果跟在百度搜索没什么两样。

以下是具体的操作流程逻辑:

第一步:创建一个索引任务,一键生成

这个操作会自动创建对应的表,用来存放爬取的网页内容,不需要人工创建,省去一些过于细化的配置。

记录搭建一个私人搜索引擎_第1张图片

第二步,开始自动内容爬取,自动入库

这个过程会先在后台进行多线程链接爬取,然后再进行多线程内容爬取,只需要指定链接文件,爬取层数,是否遵循robots,保存表,就可以一键开始爬取,期间会有进度条显示。
记录搭建一个私人搜索引擎_第2张图片

第三步,一键更新指定内容索引

这个过程会通过索引模块,对某个表进行分词,索引,生成倒排索引文件,此过程也是全自动的。
记录搭建一个私人搜索引擎_第3张图片

第四步,指定搜索库,开始搜索

生成完索引后,可以指定哪个索引作为当前搜索的搜索库,然后就可以自由搜索了
记录搭建一个私人搜索引擎_第4张图片

记录搭建一个私人搜索引擎_第5张图片

记录搭建一个私人搜索引擎_第6张图片

关于数据承载量,普通版本单机可承载几十万数据,高级版本单机可承载千万级数据,主要在于算法逻辑和数据结构的区别。语言为php+mysql,主打一个傻瓜式操作,配置方便。

如果你也喜欢搜索技术,可以互相交流。

你可能感兴趣的:(记录搭建一个私人搜索引擎)