搜索引擎开发日志

这两天一直在构思关于图片搜索的的实现,在目前蜘蛛的基础上增加图片抓取和Flash抓取的功能,这样就可以实现图片搜索和Flash搜索功能。对于图片的抓取已经实现,而对Flash的实现相对来说是比较麻烦一些,不过也不是太难。对这些对象我都是以二进制对象的形式存储到数据库中去了,目前采用的是中国知网的KBase系统,通过简单的功能性测试已经通过了,由于图片数据都可能比网面数据大,因则我在蜘蛛里抓取时采用了断点续抓功能,如果网络超时则可从断点处重试。下一步的目标有两个:

1、将这些图片信息与它的容器网页关联起来,这样通过查网页就可以查到图片了。

2、对于图片搜索需要自己写一个Web服务器,响应请求图片的HTTP请求,将其从数据库中读取出来通过Socket发送给请求端。

你可能感兴趣的:(搜索引擎开发日志)