一个简单的定制垂直搜索方案

    某些公司可能需要:

1、抓取某些同行的网站信息,网站数目少。

2、要求抓取精度高、效率高、不抓取无用的数据。

3、恨不能dblink人家的数据库,,问题是不能。。

解决方案有:

1、采用开源的搜索引擎,问题是:无法或很难做到很好的定制效果。工程师技术水平有限。

2、采用简单的爬虫,获取网页,采用xpath、xquery等技术进行dom解析,快速获取到想要的内容。

这里说的是第二种方案。

方案实用技术简单,易于维护和定制开发,适用于一些技术能力不是很强的公司,这里仅仅简单的思路:

1、分析目标网站的有规律的网页(模板技术生成的网页)中的需要的内容,

通过firebug等工具简单的获取xpath,将网站域名、可以找到此“有规律的页面”的“标志”,和一系列xpath配置到xml中(这个xml是您自己定义的,你首先要些dtd等方便维护人员维护xml)。

2、写一个定时任务模块,根据xml,“偷取”内容到自己的数据库中。


你可能感兴趣的:(一个简单的定制垂直搜索方案)