javaweb基于内容的图片搜索引擎(1)_整体概括

这个项目时我在2015年12月,在实验室导师的推荐下写的。开始的时候,并不认为我自己可以完成。但随后通过网上找知识,了解到了一些技术。

主要就是运用爬虫技术和检索技术。

开始我做的时候,也了解到国内外一些已经成型的内容的搜索引擎,这里就介绍百度识图吧,自我感觉这个还是做得很不错的。

javaweb基于内容的图片搜索引擎(1)_整体概括_第1张图片

主要是可以从本地上传,或者把图片链接贴上去,我所做的小引擎也是这样的。可以本地或者网络图片。

接下来就主要介绍一下我所用的主要技术:

spring 、struts2、hibernate:这三个主要来用javaweb写的主要框架,虽然现在看来,当初也主要是为了熟悉这三大框架才用的。

jsoup.jar:jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方 法来取出和操作数据。用于爬虫

htmlunit:我感觉这个不错,一个可以模拟一个headless的浏览器,可以模拟标签点击事件的,还可以支持JavaScript和css等。

lire.jar:这是图片内容搜索主要用的jar包,基于lucene。

主要用的核心技术就是这些。


你可能感兴趣的:(java,eclipse,Web,搜索引擎,爬虫,图片搜索)