本科生毕业论文(设计)开题报告
论文题目: Web中图像的检索技术研究 .
一、选题依据(背景与意义、国内外研究现状与发展趋势)随着网络传送速度与计算机信息处理速度的提高,网页中对多媒体信息的使用变得十分普及,特别是图像信息,己经成为表示网页内容不可缺少的组成部分。因此人们对多媒体信息的检索需求也就随之随之变得特别迫切。但由于图像检索系统涉及了多学科的知识,实现和应用的难度相当高,所以已有的图像检索系统都有这样或那样的缺陷。 而传统的信息检索主要集中于文字的检索,在多媒体方面的研究并不是很多。互联网上的多媒体以图像为主,因此图像的检索就成为了目前研究的热点。 图像检索经历了两个阶段:第一阶段是以文本为基础的检索。第二阶段是以图像自身的内容为基础的检索。上个世纪70年代开始,有关图像检索的研究就已开始,当时主要是基于文本的图像检索技术利用文本描述的方式描述图像的特征。到90年代以后,出现了对图像的内容语义,如图像的颜色、纹理、布局等进行分析和检索的图像检索技术,即基于内容的图像检索技术。而无论是什么引擎,它首先都必须遵循以下几个要点:索引文档的容量:现在最大的搜索引擎可能包含了超过100,000,000个链接,但这也只是整个Web网上的一小部分。因为收集资料的Robot,只能从“已知”的链接开始收集网页资料,而只有一小部分Web网页和这些“已知”的网页有连接;现在还没有一个搜索引擎能够随网页内容的更新比较及时地更新索引;覆盖面:地理覆盖面和主题覆盖面;索引更新频率:不同的搜索引擎,索引更新频率相差很大,有的是几周,有的是一年。索引更新频率有两种定义,一种比较少用的定义是新的网页能被收录进索引数据库中,另一种是同一页多少时间才被检查一次,有必要时更新索引。有的搜索引擎会对经常更新的网页和多人访问的网页进行更频繁的重建索引工作;采集过程:采集过程有宽度优先、深度优先两种算法;一般认为宽度优先对扩大内容的覆盖面有利,深度优先算法有助于提供更多的细节资料;索引算法:有的搜索引擎只处理元标记和一小部分文档内容,而有一些搜索引擎则是对全文进行索引;结果显示:有的搜索引擎只显示网页的标题,有些则有更详细的一些信息,比如网页的内容,更新日期等;查询算法:一个优秀的查询算法是很重要的,最基本的布尔查询,短语查询,有的搜索引擎还提供指定属性的查询,比如可以指定对网页的作者、主题进行查询。另外有的搜索引擎还采用了相关度反馈、概念查询等算法;用户界面:很多搜索引擎都提供了简单查询和高级查询两个界面。并且提供了必要的帮助和范例。在检索原理上,无论是基于文本的图像检索还是基于内容的图像检索,主要包括三方面:一方面对用户需求的分析和转化,形成可以检索索引数据库的提问;另一方面,收集和加工图像资源,提取特征,分析并进行标引,建立图像的索引数据库;最后一方面是根据相似度算法,计算用户提问与索引数据库中记录的相似度大小,提取出满足阈值的记录作为结果,按照相似度降序的方式输出。为了进一步提高检索的准确性,许多系统结合相关反馈技术来收集用户对检索结果的反馈信息,这在CBIR中显得更为突出,因为CBIR实现的是逐步求精的图像检索过程,在同一次检索过程中需要不断地与用户进行交互。基于文本和基于内容是图像检索发展的两个分支,不过从目前图像检索研究的趋势而言,尤其结合网络环境下图像的特征——嵌入在具有文本内容的Web文档中,出现了三个不同的研究着眼点。立足于文本,对图像进行检索。试图将传统的文本检索技术移植于对多媒体信息的检索上,因为基于文本的检索技术发展已经成熟。如Page-Rank方法、概率方法、位置方法、摘要方法、分类或聚类方法、词性标注法等,不仅技术发展较为成熟,同时分析和实现的难度略小。但是因为受控词汇本身的局限,易歧义,更新慢,所以不太容易应对网络上日新月异的各类图像。立足于图像内容,对图像进行分析和检索。相比而言,尽管图像检索已经出现了诸如直方图、颜色矩、颜色集等多种表征图像特征的方法,但是要突破对低层次特征的分析,实现更高语义上的检索,实现难度大,进展慢。不过,基于内容的图像检索建立在多媒体信息的内容语义上,能够更为客观地反映媒体本质的特征。结合文本和内容,进行融合性研究。发挥各自的优势促进图像的高效、简单检索方式的实现,尤其是网络环境下,结合图像所在Web文档的特征分析,推断图像的特征,同时结合对图像的内容分析,共同标引达到对图像的分析和检索。可以说,三个方向都是相互影响和促进的,任何一个方向的进展都会促进图像检索技术向前更进一步。由于搜索引擎技术的开发牵涉到信息检索、人工智能、计算机网络、分布式处理、数据库、数据挖掘、自然语言处理等许多基础研究领域的理论和技术,因此至今还没有真正脱离实验室的阶段,中文搜索引擎的开发就更涉及到语言习惯的差异、智能切分词等棘手的问题,而且中文搜索引擎技术的起步也较晚,还远没能满足中国网民的需求。如今图像检索技术的研究和应用为我国数字图书馆工程中的核心问题提供了理论和实践依据。因此怎样扬长避短选择一种最适合中国国情的图像检索技术就是本文研究的目的和意义。 |
二、研究目标与主要内容(含论文提纲)在网络和多媒体技术越来越发达的今天,信息检索技术成了现在计算机领域的重要内容,而图像检索技术又正是这其中的重要内容之一。而网络资源的极大丰富以及图像检索技术不断发展成熟,使得图像检索技术的应用领域不断扩大,这为图像检索技术的继续研究提供条件。人们为了对图像进行更好的使用和组织管理,便开发出了多种多样图像检索技术,本文首先要将各种图像检索技术的工作原理、研究现状、相关图像搜索引擎与发展趋势作一个介绍。随着网络传送速度与计算机信息处理速度的提高,网页中对多媒体信息的使用变得十分普及,特别是图像信息,己经成为表示网页内容不可缺少的组成部分。在实现对网页中文本信息提取的同时,如何再为用户抽取所需的图片资料,是信息检索中一个重要的方面。于是各种基于Web的图像检索系统应运而生。它们采用不同的工作方式,极大地方便了用户对网上图像进行检索。目前图像检索技术的发展正走向更加成熟和完善,其中Web图像搜索技术也更加完善,本文将介绍这种图像检索技术并阐述Web页中的图像与文本之间的关系,对相似度等作出了详细的论述。 |
三、拟采取的研究方法、研究手段及技术路线、实验方案等如今在Web中处理图像检索有很多成熟的技术,如基于Web的数据仓库、Web数据挖掘、Web数据源集成技术等。为此,必须为Web建立适当的数据模型,利用数据模型有效地从Web中获取信息。为了处理Web的中文数据,还必须使用一系列中文自然语言处理技术。比较基础的技术有自动分词、人名和机构名的自动识别、自动标引等,其他像信息抽取、自动文摘、文档自动分类、中文概念词的自动发现以及概念词之间的语义关系的确定等技术都必不可少。我们可以根据现有的参考资料以及当前的技术,先搞清传统的搜索引擎的工作实质和原理,比如网络信息搜索关键词的匹配原理和相象或类似计算方法,研究搜索引擎的内在关键,提出搜索相似度的算法。然而现有的搜索引擎虽然给我们的信息搜索带来了很大的方便,但由于其中程序过于复杂,反馈保存的内容过多,因此给我们的很容易过多占去我们所拥有的CPU资源和网络资源,从而降低我们的搜索速度。这里我们提出了在Web中的一种简单而有效的搜索方法,虽然计算方法简单,在网络中的信息搜索可能不是很精确,但对计算方法进行改进,同时引进了有效的反馈机制,只要对其在实验中多次的进行反馈训练和投入使用后的用户使用,同样能给我们提高搜索精度,但所占用的资源却要小的多,相对速度也就要快很多。 |
四、中外文参考文献目录(作者、书名论文题目、出版社或刊号、出版年月或出版期号)张量,詹国华,袁贞明, 基于Web的图像搜索,计算机工程,2002.5朱学芳, 多媒体信息处理与检索技术[M],电子工业出版社,2003陈滢 ,徐宏炳 ,王能斌,协作式Web资源发现系统模型,计算机学报,1998.4 (4) 阳小华, 周龙骧,World Wide Web 的索引与查询技术,计算机科学 ,1997 (5) 吴立德等,大规模中文文本处理,复旦大学出版社,1997(6) 李唐, 解读网络图像搜索引擎,Internet网络,2001(7) 陈立娜,Internet上的图像检索技术,天极yesky,2001.5(8) 黄博士,网络环境下的图像检索技术,中国计算机用户,2003.12.30(9) Dunlop M.D. (1991). Multimedia Information Retrieval,Ph.D. Thesis. Computing Science Department, University of Glasgow, Report 199l/R21.(10) Ellen M. Voorhees and Yuan-Wang Hou, "Vector Expansion in a Large Collection”, First Text REtrieval Conference (TREC-1), 1993.(11) Frisse M.E, (1988). Searching for information in a hypertext medical handbook. Communications of the ACM, 3 I(7), pp.880-886.(12) R.Price, T.S Chua, and S.Al-Hawamdeh, Applying relevance feedback on a photo archival system. Journal of Information Science, 18:203-215, 1992(13) W.Niblack, R.Barber, and W.Equitz. the qbib project:querying images by content using color, texture, and shape. Technical report, IBM RJ 9203(81511), Feb, 1993(14) Shih-Fu Chang, William Chen, and Hari Sundaram,Semantic Visual Template - Linking Visual Fetures to Semantics. IEEE Intern Conference on Image Processing, Chicago IL, Oct 1998(15) A.E. Cawkell, Imaging systems and picture collection management: a review. Information Service & Use, 12:301-325, 1992(16) T.S. Chua and W.C. Low, and Ch.X. Chu, relevance feedback techniques for color-based image retrieval. In Proceeding of Multimedia Modelling’98, IEEE Computer Society, Oct, 1998.五、研究的整体方案与工作进度安排(内容、步骤、时间)毕业设计(论文)工作自2003年12月1日至2004年6月8日。一.开题时间安排:04年2月16日~04年2月18 日。具体内容:审阅开题报告、外文文献翻译。部署毕业设计工作。二.毕业设计论文撰写的时间安排:04年2月19日~04年4月24日。在指导老师的指导下停课进入毕业设计工作,并在4月24日前完成初稿。4月5日~4月7日进行中期检查。指导老师检查学生毕业设计完成状况,并在同时解决学生在这其中的出现的问题和遇到的困难。4月25日~5月31日,进行专业实习。同时完成对毕业设计报告的修改、完善、定稿,整理成册,填写《杭州师范学院本科毕业设计(设计)评审表》,指导教师完成学生毕业设计成绩评定。四.答辩时间安排:6月1日~6月8日五.成绩评定时间安排:6月9日~6月18日 |
六、研究的预期目标及主要特点及创新点跟现有的或者现在炒的很热的搜索方法而言,这个搜索方法虽然“小”,但却是很“精悍”。根据这个方法做出来的引擎可能很简单,但我可以肯定的是一定很有效,在用户需要网络上某种信息时,它会是一个很好的选择。它不仅自身容量小,而且所有的过程都很简单,可以给我们节约很多现有的资源,进而高速的在网络中找到我们所需要的信息。 |
七、指导教师意见:签名: 年 月 日 |
八、教研室或系审核意见:主任签名: 年 月 日 |
九、二级学院毕业论文(设计)领导小组审核意见:负责人签名(盖章): 年 月 日 |
附件4:
本科生毕业论文(设计)文献综述
论文题目: Web中图像的检索技术研究 .
一、查阅中外文献资料目录,所查阅的中外文献资料不得少于5篇(含作者、书名或论文题目、出版社或刊名、出版年月或期号及页码等,未经本人查阅的文献资料目录不得列上)张量,詹国华,袁贞明, 基于Web的图像搜索,计算机工程,2002.5朱学芳, 多媒体信息处理与检索技术[M],电子工业出版社,2003陈滢 ,徐宏炳 ,王能斌,协作式Web资源发现系统模型,计算机学报,1998.4 (4) 阳小华, 周龙骧,World Wide Web 的索引与查询技术,计算机科学 ,1997 (5) 吴立德等,大规模中文文本处理,复旦大学出版社,1997(6) 李唐, 解读网络图像搜索引擎,Internet网络,2001(7) 陈立娜,Internet上的图像检索技术,天极yesky,2001.5(8) 黄博士,网络环境下的图像检索技术,中国计算机用户,2003.12.30(9) Dunlop M.D. (1991). Multimedia Information Retrieval,Ph.D. Thesis. Computing Science Department, University of Glasgow, Report 199l/R21.(10) Ellen M. Voorhees and Yuan-Wang Hou, "Vector Expansion in a Large Collection”, First Text REtrieval Conference (TREC-1), 1993.(11) Frisse M.E, (1988). Searching for information in a hypertext medical handbook. Communications of the ACM, 3 I(7), pp.880-886.(12) R.Price, T.S Chua, and S.Al-Hawamdeh, Applying relevance feedback on a photo archival system. Journal of Information Science, 18:203-215, 1992(13) W.Niblack, R.Barber, and W.Equitz. the qbib project:querying images by content using color, texture, and shape. Technical report, IBM RJ 9203(81511), Feb, 1993(14) Shih-Fu Chang, William Chen, and Hari Sundaram,Semantic Visual Template - Linking Visual Fetures to Semantics. IEEE Intern Conference on Image Processing, Chicago IL, Oct 1998(15) A.E. Cawkell, Imaging systems and picture collection management: a review. Information Service & Use, 12:301-325, 1992(16) T.S. Chua and W.C. Low, and Ch.X. Chu, relevance feedback techniques for color-based image retrieval. In Proceeding of Multimedia Modelling’98, IEEE Computer Society, Oct, 1998. |
二、文献综述(含本选题国内外研究现状、研究主要成果、发展趋势、存在问题等内容,字数不少于3000字,力求内容切题,具综合归纳性)研究现状:随着网络传送速度与计算机信息处理速度的提高,网页中对多媒体信息的使用变得十分普及,特别是图像信息,己经成为表示网页内容不可缺少的组成部分。因此人们对多媒体信息的检索需求也就随之随之变得特别迫切。但由于图像检索系统涉及了多学科的知识,实现和应用的难度相当高,所以已有的图像检索系统都有这样或那样的缺陷。 而传统的信息检索主要集中于文字的检索,在多媒体方面的研究并不是很多。互联网上的多媒体以图像为主,因此图像的检索就成为了目前研究的热点。 图像检索经历了两个阶段:第一阶段是以文本为基础的检索。第二阶段是以图像自身的内容为基础的检索。上个世纪70年代开始,有关图像检索的研究就已开始,当时主要是基于文本的图像检索技术利用文本描述的方式描述图像的特征。到90年代以后,出现了对图像的内容语义,如图像的颜色、纹理、布局等进行分析和检索的图像检索技术,即基于内容的图像检索技术。而无论是什么引擎,它首先都必须遵循以下几个要点:索引文档的容量:现在最大的搜索引擎可能包含了超过100,000,000个链接,但这也只是整个Web网上的一小部分。因为收集资料的Robot,只能从“已知”的链接开始收集网页资料,而只有一小部分Web网页和这些“已知”的网页有连接;现在还没有一个搜索引擎能够随网页内容的更新比较及时地更新索引;覆盖面:地理覆盖面和主题覆盖面;索引更新频率:不同的搜索引擎,索引更新频率相差很大,有的是几周,有的是一年。索引更新频率有两种定义,一种比较少用的定义是新的网页能被收录进索引数据库中,另一种是同一页多少时间才被检查一次,有必要时更新索引。有的搜索引擎会对经常更新的网页和多人访问的网页进行更频繁的重建索引工作;采集过程:采集过程有宽度优先、深度优先两种算法;一般认为宽度优先对扩大内容的覆盖面有利,深度优先算法有助于提供更多的细节资料;索引算法:有的搜索引擎只处理元标记和一小部分文档内容,而有一些搜索引擎则是对全文进行索引;结果显示:有的搜索引擎只显示网页的标题,有些则有更详细的一些信息,比如网页的内容,更新日期等;查询算法:一个优秀的查询算法是很重要的,最基本的布尔查询,短语查询,有的搜索引擎还提供指定属性的查询,比如可以指定对网页的作者、主题进行查询。另外有的搜索引擎还采用了相关度反馈、概念查询等算法;用户界面:很多搜索引擎都提供了简单查询和高级查询两个界面。并且提供了必要的帮助和范例。在检索原理上,无论是基于文本的图像检索还是基于内容的图像检索,主要包括三方面:一方面对用户需求的分析和转化,形成可以检索索引数据库的提问;另一方面,收集和加工图像资源,提取特征,分析并进行标引,建立图像的索引数据库;最后一方面是根据相似度算法,计算用户提问与索引数据库中记录的相似度大小,提取出满足阈值的记录作为结果,按照相似度降序的方式输出。为了进一步提高检索的准确性,许多系统结合相关反馈技术来收集用户对检索结果的反馈信息,这在CBIR中显得更为突出,因为CBIR实现的是逐步求精的图像检索过程,在同一次检索过程中需要不断地与用户进行交互。基于文本和基于内容是图像检索发展的两个分支,不过从目前图像检索研究的趋势而言,尤其结合网络环境下图像的特征——嵌入在具有文本内容的Web文档中,出现了三个不同的研究着眼点。立足于文本,对图像进行检索。试图将传统的文本检索技术移植于对多媒体信息的检索上,因为基于文本的检索技术发展已经成熟。如Page-Rank方法、概率方法、位置方法、摘要方法、分类或聚类方法、词性标注法等,不仅技术发展较为成熟,同时分析和实现的难度略小。但是因为受控词汇本身的局限,易歧义,更新慢,所以不太容易应对网络上日新月异的各类图像。立足于图像内容,对图像进行分析和检索。相比而言,尽管图像检索已经出现了诸如直方图、颜色矩、颜色集等多种表征图像特征的方法,但是要突破对低层次特征的分析,实现更高语义上的检索,实现难度大,进展慢。不过,基于内容的图像检索建立在多媒体信息的内容语义上,能够更为客观地反映媒体本质的特征。结合文本和内容,进行融合性研究。发挥各自的优势促进图像的高效、简单检索方式的实现,尤其是网络环境下,结合图像所在Web文档的特征分析,推断图像的特征,同时结合对图像的内容分析,共同标引达到对图像的分析和检索。可以说,三个方向都是相互影响和促进的,任何一个方向的进展都会促进图像检索技术向前更进一步。发展趋势:由于传统的搜索引擎在设计方面存在局限性(集中式的体系机构,通过网络爬行器收集信息),因此他们无法提供高准确度、搜索实时更新的数据库的服务。因此,开发一个新的搜索框架,支持“点对点”,按照层次进行分布式搜索成为今后搜索引擎发展的趋势。这种新的搜索框架包含了对个人文档、局域网以及互联网三个层次的搜索。当搜索局域网或者是互联网的时候,搜索将以分布方式执行。同时,系统将能够自动地把用户的查询分发给相似的用户或者是互联网上最为合适的搜索引擎,以获得更好的结果。 基于内容编码技术的研究,目前,国际上还没有通用的基于内容的编码标准。20世纪90年代初,国际上就开始了对基于内容的图像信息检索方面的研究。从基本的颜色检索,到综合利用多种图像特征进行检索,大量原型系统已经推出,其中,部分已投入到实际应用中以检验其有效性。同时,MPEG-7标准作为基于内容的多媒体编码标准也正在制定当中,即将成为国际标准中的一员。因此,应尽快对MPEG-7标准进行研究,分析其编码的实质,在此基础上进一步研究基于内容检索的系统,使我国基于内容的图像检索尽快走向实际应用阶段。对用户查询接口的研究,这涉及到用户对图像内容的感知表达、交互方式的设计、用户如何形成并提交查询等方面。现代多媒体信息系统的一个重要特征就是信息获取过程的可交互性,人在系统中是主动的。除了提供示例和描绘查询基本接口之外,用户的查询接口应提供丰富的交互能力,使用户在主动的交互过程中表达对图像语义的感知,调整查询参数及其组合,最终获得满意的查询结果。用户的查询接口应该是直观易用的,底层的特征选择对用户是透明的。这里涉及到如何把用户的查询表达转换为可以执行检索的特征矢量,如何从交互过程中获取用户的内容感知,以便选择合适的检索特征等问题。一个优秀的搜索引擎必须处理以下几个问题:(1)网页的分类(2)自然语言的处理(3)搜索策略的调度和协作 (4)面向特定用户的搜索。因此,现在有很多的网络检索工具,也就是说搜索引擎采用了智能的检索手段来增强它的检索能力,而图片检索正是其中的一大块内容。随着网上多媒体的广泛应用,对图像的检索需求将会越来越迫切。未来的图像检索技术将是网络技术和基于内容的图像库检索技术的结合。随着多媒体信息处理技术的日益发展和深化,图像信息的加工、处理和检索标准的出台,网上的图像检索技术将会日趋完善,而图像搜索引擎也将成为Internet上的新宠。网络检索新技术还有:层级式导航浏览器、自动辅助编程、信息过滤器、主题检索、三维世界的进入及其检索、智能检索代理等等。存在的问题:由于搜索引擎技术的开发牵涉到信息检索、人工智能、计算机网络、分布式处理、数据库、数据挖掘、自然语言处理等许多基础研究领域的理论和技术,因此至今还没有真正脱离实验室的阶段,中文搜索引擎的开发就更涉及到语言习惯的差异、智能切分词等棘手的问题,而且中文搜索引擎技术的起步也较晚,还远没能满足中国网民的需求。如今图像检索技术的研究和应用为我国数字图书馆工程中的核心问题提供了理论和实践依据。因此怎样扬长避短选择一种最适合中国国情的图像检索技术就是本文研究的目的和意义。学生签名 年 月 日 |
三、指导教师审阅意见:指导教师签名 年 月 日 |
第一章 前言
1.1引言
随着多媒体技术及 Internet网络的迅速发展,图像来源不断扩大,大容量高速存储系统为图像的海量存储提供了基本保障,各行各业对图像的使用越来越多,图像信息资源的管理和检索也就显得越来越重要。但由于Internet 本身结构上、管理上的问题,想要在Internet 准确、快速、全面地找到自己所想要的图像,却变成了件非常不容易的事。
由于Internet现有的问题:内容没有结构;网上信息量庞大且还在不断的增加。因此,网络产生了搜索引擎。虽然这些给网络用户提供了不少的帮助,但由于但离准确、快速、全面地搜索自己所要的图像还相当遥远,所以对图像检索还要作很大的研究。
根据国内外现有的搜索引擎和国际上的有关研究小组的种种资料表明,现有的网络资源和搜索引擎有如下特点:
索引的数据种类丰富,如文字、图像、声音等多媒体。数据的存取协议也是多种多样的,如HTTP、FTP、News、Gopher等;
索引数据量大,以致不可能有某个数据库能包括整个Internet的索引,目前最大的搜索引擎,其中的索引也只不过覆盖了Internet的一小部分;
资源消耗太大,系统需要将HTML文件传送至本地然后分析,大量占用昂贵的网络带宽和CPU资源,增加被搜索结点的负担。另外由于现有的搜索引擎一般是集中式的,所以搜索引擎服务器本身的硬件配置也极高,才能处理庞大的数据量和及时地响应用户的查询请求;
不能有效解决索引失效问题,很多时候,搜索引擎会返回无效的查询结果;
各检索工具各行其事,不能相互协作,在一定意义上讲是一种资源的浪费。
1.2现有的图像检索技术
近年来随着用户对网上图像搜索要求的不断增长,各种图像搜索引擎应运而生,它们各自以不同的工作方式为用户提供各种检索途径,使网上图像信息的搜索变得非常简单,尽管还不很完善,却已经可以满足用户的大多数要求。
1.2.1搜索引擎的工作原理
最基本的搜索引擎的结构,是由Spider不停地从Web网上收集数据,存放在搜索引擎的数据库中。用户通过搜索引擎服务器上的Web接口,提出搜索请求,Web Server通过CGI或其它技术访问数据库,并将用户的搜索请求转换成相应的数据存取语句,送给数据库引擎处理,并把查询结果通过网页显示给用户。
网络搜索的基本原理是通过网络机器人定期在web网页上爬行,然后发现新的网页,把它们取回来放到本地的数据库中,用户的查询请求可以通过查询本地的数据库来得到。
一般来说网络信息检索的实现机制一般有两种,一种是通过手工方式对网页进行索引,它的缺点是Web的覆盖率比较低,同时不能保证最新的信息。查询匹配是通过用户写入的关键字和网页的描述和标题来进行匹配,而不是通过全文的匹配进行的。第二种是对网页进行自动的索引,这种能实现自动的文档分类,实际上采用了信息提取的技术。但是在分类准确性上可能不如手工分类。
在现在所有运行的搜索工具来说,一般都有一个Robot定期的访问一些站点,来检查这些站点的变化,同时查找新的站点。一般站点有一个robot.txt文件用来说明服务器不希望Robot访问的区域,Robot 都必须遵守这个规定。如果是自动索引的话,Robot在得到页面以后,需要对该页面根据其内容进行索引,根据它的关键字的情况把它归到某一类中。页面的信息是通过元数据的形式保存的,典型的元数据包括标题、IP地址、一个该页面的简要的介绍,关键字或者是索引短语、文件的大小和最后的更新的日期。尽管元数据有一定的标准,但是很多站点都采用自己的模板。文档提取机制和索引策略对Web搜索引擎的有效性有很大的关系。高级的搜索选项一般包括:布尔方法或者是短语匹配和自然语言处理。一个查询所产生的结果按照提取机制被分成不同的等级提交给用户。最相关的放在最前面。每一个提取出来的文档的元数据被显示给用户。同时包括该文档所在的URL地址。
另外有一些关于某一个主题的专门的引擎,它们只对某一个主题的内容进行搜索和处理,这样信息的取全率和精度相对就比较高。
目前,图像搜索引擎主要通过以下两种方法识别图像:
自动查找图像文件。通过两个HTML标签,即IMGSRC和HREF来检测是否存在可显示的图像文件,IMGSRC表示“显示下面的图像文件”,导向的是嵌入式图像;而HREF则表示“下面是一个链接”,导向的是被链接的图像。搜索引擎通过检查文件扩展名来判断其导向的是否为图像文件,如果文件扩展名是.gif或.jpg,即是一个可显示的图像。
人工干预找出图像。进行分类,由人工对网上的图像及站点进行选择。这种方法可以产生准确的查询体系,但劳动强度太大,因此要限制处理图像的数量。
由于图像不同于文本,需要人们按照各自的理解来说明其蕴含的意义,因此图像检索比文本的查询和匹配要困难得多。
1.2.2 图像搜索引擎的检索途径
1.关键词检索
传统的图像检索技术是基于关键字的精确匹配检索,系统内的图像用关键字标识,检索线索是与标识相一致的关键字,即输入是关键字,输出是图像。它又包括两种途径:
基于图像外部信息进行检索。即根据图像的文件名或目录名、路径名、链路、ALT标签以及图像周围的文本信息等外部信息进行检索,这是目前图像搜索引擎采用最多的方法。在找出图像文件后,图像搜索引擎通过查看文件名或路径名确定文件内容,也可以通过查看图像的标题来匹配检索词。
基于手工标注的检索。手工对图像的内容(如物体、背景、颜色等)进行描述并分类,将其标注为一系列关键字,并建立索引。检索时,将主要在这些描述词中搜索用户输入的关键字。这种查询方式是比较准确的,一般可以获得较好的查准率,但需人工参与,劳动强度大,因而限制了可处理的图像数量。另外,由于图像所包含的信息量庞大,不同用户对于同一张图像的看法又不尽相同,导致了对图像的标注缺乏统一标准。
2. 图像可视属性的检索
而基于图像内容的检索主要是由图像分析软件自动抽取图像的颜色、形状、纹理等特征,建立特征索引库,其输入为用户要查找的图像的大致特征描述或示例,通过一定相似性匹配规则,输出为与之具有相近特征的图像,按相似程度排列,供用户选择,从而把在传统图像检索技术中一般用户难以完成的图像特征描述、提取与识别等难题,交由系统去解决。
这是一种基于图像本身特征层次的检索,特别适用于检索目标明确的查询要求,但目前这种较成熟的检索技术主要应用于图像数据库的检索。在图像搜索引擎中应用这种检索技术还有一定困难,但己有部分图像搜索引擎尝试了这种检索方法。
1.2.3对几个基本引擎的分析
InfoSeek是一个简单但是功能强大的索引,它的一个优点是有一个面向主题搜索的可扩展的分类。你可以把你的搜索短语和相似的分类目录的主题短语相互参照,而那些主题短语会自动加到你的查询中去。使你的搜索有更好的主题相关性。同时它也支持对图象的查询。它能够漫游Web,Usenet,Usenet FAQs等等。不支持布尔操作,但是可以使用符号"+"和"-"。
AltaVista 是一个大容量的,基于Robot 索引的Search Engine。它能帮你在WWW网上搜索你所需要的网页,新闻组,图像,视频音频片段。AltaVista 还支持多种语言和简单的自然语言查询。AltaVista 覆盖面约为WWW 网上可索引的网页的30%
Scour成立于1998年,自称是第一个基于web的多媒体搜索引擎。虽严格讲,它并非是一个图像搜索引擎,但可以将检索限制在图像搜索上。
它的工作原理是在文件名、路径名或ALT标签中搜索检索词。主要使用关键词检索,可以用"+"或"-"来增加或排除关键词,使用尽可能少的关键词会更有效。在高级检索中,可以将检索结果图像限制在GIF、BMP、JPEG等格式中。检索结果显示简图、图像类型(如GIF、BMP)、图像大小、最后被查找的日期、检索词的匹配数量、标引使用的关键词、成功下载的可靠程度等,并同时给出图像文件的URL和源站点的URL。
主要缺陷是标引深度不足,查准率较低,但查全率较好。
这是由NCRTEC组织开发的一个"真正人工建立的完全的关键词式索引"。 Amazing Picture Machine后面的教师负责选择图像丰富的站点,然后对每幅选定的图像内容进行描述,给出关键词。因此它的最大特点就是人工干预,关键词检索是主要的检索手段。
Amazing Picture Machine的搜索结果将显示一个简短的标题、有关图像的说明(如彩色或黑白)、文件的大小、文件类型及象素多少等,但不显示简图。单击该标题可得到原图像,但需由该URL回溯才能找出源站点。
由于人工干预检索过程,它的查准率极好,但这也限制了它的查全率。它的检索范围很有限,只包括web上人工选择的部分站点。
Lycos对所收录的图像进行了详尽的内容描述,并支持短语检索,从而使其查准率大大提高。它根据文件扩展名识别图像,在描述词、文件名、目录名或ALT字段中查询检索词。结果显示的信息极为丰富,包括简图、图像大小、最后检索日期、图像文件名、图像内容描述词、图像所在页面等。点击简图将得到原图及更多的信息,如著作权人和更多的相关图像。比较而言它的检索效果很好,速度也很快。
1.2.4 搜索引擎的基本要点
索引文档的容量:现在最大的搜索引擎可能包含了超过100,000,000个链接,但这也只是整个Web网上的一小部分。因为收集资料的Robot,只能从“已知”的链接开始收集网页资料,而只有一小部分Web网页和这些“已知”的网页有连接;现在还没有一个搜索引擎能够随网页内容的更新比较及时地更新索引;
覆盖面:地理覆盖面和主题覆盖面;
索引更新频率:不同的搜索引擎,索引更新频率相差很大,有的是几周,有的是一年。索引更新频率有两种定义,一种比较少用的定义是新的网页能被收录进索引数据库中,另一种是同一页多少时间才被检查一次,有必要时更新索引。有的搜索引擎会对经常更新的网页和多人访问的网页进行更频繁的重建索引工作;
采集过程:采集过程有宽度优先、深度优先两种算法;一般认为宽度优先对扩大内容的覆盖面有利,深度优先算法有助于提供更多的细节资料;
索引算法:有的搜索引擎只处理元标记和一小部分文档内容,而有一些搜索引擎则是对全文进行索引;
结果显示:有的搜索引擎只显示网页的标题,有些则有更详细的一些信息,比如网页的内容,更新日期等;
查询算法:一个优秀的查询算法是很重要的,最基本的布尔查询,短语查询,有的搜索引擎还提供指定属性的查询,比如可以指定对网页的作者、主题进行查询。另外有的搜索引擎还采用了相关度反馈、概念查询等算法;
用户界面:很多搜索引擎都提供了简单查询和高级查询两个界面。并且提供了必要的帮助和范例。
1.3 图像检索的发展方向
图像检索技术给用户提供了一个在互联网上搜索感兴趣图像资源的有效手段,基于文本和基于内容是图像检索发展的两个分支,不过从目前图像检索研究的趋势而言,尤其结合网络环境下图像的特征——嵌入在具有文本内容的Web文档中,出现了三个不同的研究着眼点。
(1)基于文本的检索研究
立足于文本,对图像进行检索。试图将传统的文本检索技术移植于对多媒体信息的检索上,因为基于文本的检索技术发展已经成熟。如Page-Rank方法、概率方法、位置方法、摘要方法、分类或聚类方法、词性标注法等,不仅技术发展较为成熟,同时分析和实现的难度略小。但是因为受控词汇本身的局限,易歧义,更新慢,所以不太容易应对网络上日新月异的各类图像。
(2)基于内容的检索研究
立足于图像内容,对图像进行分析和检索。相比而言,尽管图像检索已经出现了诸如直方图、颜色矩、颜色集等多种表征图像特征的方法,但是要突破对低层次特征的分析,实现更高语义上的检索,实现难度大,进展慢。不过,基于内容的图像检索建立在多媒体信息的内容语义上,能够更为客观地反映媒体本质的特征。
(3)基于文本内容结合的检索研究
结合文本和内容,二者虽侧重不同但却互相补充。如果能将二者结合起来取长补短,则网络的图像检索技术必有新的进展。已有的图像搜索引擎在信息的自动加工和标引方面都有待提高,需要开发出计算机自动识别和标引图像的算法和技术,以完善现有的检索功能,并与已有的成熟的图像库检索技术相结合,这是今后应该研究的一个课题。而且,图像库检索技术也应面向网络,利用网络技术进行改造,提供新的WWW访问界面代替原来的应用系统界面。同时将巨大的图像库资源利用网络实现共享
(4)对基于内容编码技术的研究
可以说,三个方向都是相互影响和促进的,任何一个方向的进展都会促进图像检索技术向前更进一步。
目前,国际上还没有通用的基于内容的编码标准。20世纪90年代初,国际上就开始了对基于内容的图像信息检索方面的研究。从基本的颜色检索,到综合利用多种图像特征进行检索,大量原型系统已经推出,其中,部分已投入到实际应用中以检验其有效性。同时,MPEG-7标准作为基于内容的多媒体编码标准也正在制定当中,即将成为国际标准中的一员。因此,应尽快对MPEG-7标准进行研究,分析其编码的实质,在此基础上进一步研究基于内容检索的系统,使我国基于内容的图像检索尽快走向实际应用阶段。
(5)对用户查询接口的研究
这涉及到用户对图像内容的感知表达、交互方式的设计、用户如何形成并提交查询等方面。现代多媒体信息系统的一个重要特征就是信息获取过程的可交互性,人在系统中是主动的。除了提供示例和描绘查询基本接口之外,用户的查询接口应提供丰富的交互能力,使用户在主动的交互过程中表达对图像语义的感知,调整查询参数及其组合,最终获得满意的查询结果。用户的查询接口应该是直观易用的,底层的特征选择对用户是透明的。这里涉及到如何把用户的查询表达转换为可以执行检索的特征矢量,如何从交互过程中获取用户的内容感知,以便选择合适的检索特征等问题。
一个优秀的搜索引擎必须处理以下几个问题:
(1)网页的分类
(2)自然语言的处理
(3)搜索策略的调度和协作
(4)面向特定用户的搜索。
因此,现在有很多的网络检索工具,也就是说搜索引擎采用了智能的检索手段来增强它的检索能力,而图片检索正是其中的一大块内容。
随着网上多媒体的广泛应用,对图像的检索需求将会越来越迫切。未来的图像检索技术将是网络技术和基于内容的图像库检索技术的结合。随着多媒体信息处理技术的日益发展和深化,图像信息的加工、处理和检索标准的出台,网上的图像检索技术将会日趋完善,而图像搜索引擎也将成为Internet上的新宠。
第二章 基于Web的图像搜索
在网络技术和计算机技术高速发展、多媒体应用越来越普及的现在,图像检索和图像应用已成了如今网页中不可缺少的重要部分。在能够实现对网页中文本信息提取的同时,如何再为用户抽取所需的图片资料是信息检索中一个值得研究的问题。现有的检索技术基于关键词匹配进行检索,往往存在查不全、查不准、检索质量不高的现象,特别是在网络信息时代,利用关键词匹配很难满足人们检索的要求。当然现在的人们也可以利用图像的内容特征去搜索所需的图片信息,但现在这项技术就是到现在也还不够成熟,其搜索效率还是不能令人满意。
如今在Web中处理图像检索有很多成熟的技术,如基于Web的数据仓库、Web数据挖掘、Web数据源集成技术等。为此,必须为Web建立适当的数据模型,利用数据模型有效地从Web中获取信息。为了处理Web的中文数据,还必须使用一系列中文自然语言处理技术。比较基础的技术有自动分词、人名和机构名的自动识别、自动标引等,其他像信息抽取、自动文摘、文档自动分类、中文概念词的自动发现以及概念词之间的语义关系的确定等技术都必不可少。实现上述技术需要扎实的积累和自然语言处理功底。
而如何利用现有成熟的传统的图片检索手段,研究出快捷方便而且能迅速提高检索效率的方法,本文将依据现有的搜索引擎和检索手段的研究找到网页中文本与图像之间的内在特点和联系,改进原有的文本搜索使用的模式和方法,提出新的文本相似的匹配算法,并引入检索的反馈技术,把这些技术引入到图像检索中,使得搜索手段更易于实现和提高检索效率。
2.1文本与图像之间的关系
在文本检索中,搜索引擎主要考虑Web页中相关文字信息以及它的语义,这些文本信息反映出网页的内容,但不完全与网页中图片的内容一致。在HTML网页中,根据HTML语言的格式,捕获反映图片信息的文字信息,分析这些文本的语义具有重要的意义。如在HTML文档中标记以及其周围的文字信息,与网页中的插图的内容有着密切的联系。
2.1.1表示图像内容的文本标记
为了能识别嵌入网页中图片的内容,必须仔细检索HTML文档中能反映出图像内容的标记与其中的文本。经过对HTML网页格式的分析与对大量实际网页的研究,可知以下几个方面的标记与文本和图像内容有着最为密切的联系。
图像的说明,这些文本出现在图像的周围,用一句过多句话表示出图像的内容,当图像被置于表格中时,同一单元或相邻单元格内的文字也常用与表示图像的含义。
图像的标题,通常用一个关键词表示图像信息。
图像的标签,使用一段短语说明图片的摘要信息,图片无法显示时用标签的文本取代图片,显示摘要信息。
网页的标题,该标题反映出网页的中心内容,作为表现网页内容的图片与网页的标题之间也有着一定的联系。
以上讨论的是HTML中文档和嵌入网页中图像文本信息的关系,当然还存在其他的文本与多媒体信息和图像有关。但是作为搜索引擎要考虑的方面,既要保证抽取信息的准确性,也要兼顾程序执行中时间、空间的复杂度。过多地引入与图像关系不是十分紧密的内容作为检索的依据,会引入检索时的躁声干扰,降低搜索效率。
2.1.2 文本的权值比较
以上讨论了网页中对图像信息的描述,在图像的检索中,首先是要建立描述图片内容特征的查询语句,然后比较、区分描述信息与查询语句之间的异同,获取需要检索的图像。但以上信息在对图像描述时侧重于不同角度,同时与图像信息的联系程度也不一样。图像标题和网页标题是简单的词条,两者中相对来说图像标题更接近图像的主题内容。图像的标签和图像的说明是文本信息对图像内容的描述,后者相对来说更为详细。所以在比较、区分各类文本信息以决定是否符合检索要求时,它们所占的权值应该是有所不同的。根据信息的重要程度,他们所占的权值大小按次序如下:
Image Caption>Image Title>Image Alternate>Page Title
2.2 图像信息检索
Web搜索引擎采用何种检索模型,它所提供检索质量将直接影响到检索的效果。现在使用较多的是布尔检索模型、概率检索模型、概率推理网络模型和向量空间模型。这里采用的是近年来使用较多且效果较好的一种信息检索模型:向量空间模型。
2.2.1 检索模型与相似度
在用向量空间模型进行检索的时候,首先把描述网页中的图片的文字信息看作是有序的词条序列,这样把以上归纳的信息分别称为:ICW,ITW,IAW,PTW。在应用模型时,我首先要将这些信息向量化,把文档映射为一个特征向量V(d)=(t1,ω1(d);…;tn, ωn(d)),其中ti(i=1,2, …,n)为一列互不雷同的词条项,ωi(d)为ti在d中的权值, 一般被定义为ti在d中出现频率tfi(d)的函数,即
在信息检索中常用的词条权值计算方法为 TF-IDF 函数
其中N为所有文档的数目,ni为含有词条ti的文档数目。TF-IDF公式有很多变种,下面是一个常用的TF-IDF公式:
根据公式,文档集中包含某一词条的文档越多,说明它区分文档类别属性的能力越低,其权值越小;另一方面,某一文档中某一词条出现的频率越高,说明它区分文档内容属性的能力越强,其权值越大。
两文档之间的相似度可以用其对应的向量之间的夹角余弦来表示,即文档di,dj的相似度可以表示为
进行查询的过程中,先将查询条件Q进行向量化,主要依据布尔模型:
当ti在查询条件Q中时,将对应的第i坐标置为1,否则置为0,即
也就是说当两词条完全相同时,,这一项为1,其余情况为0。可以看出文档含有完全相同的词条时,相似度=1;而其中无相同时的词条时,相似度=0。
从而文档d与查询Q的相似度为
根据文档之间的相似度,结合机器学习的一些算法如神经网络算法,K-近邻算法和贝叶斯分类算法等,可以将文档集分类划分为一些小的文档子集。
在查询过程中,可以计算出每个文档与查询的相似度,进而可以根据相似度的大小,将查询的结果进行排序。
向量空间模型可以实现文档的自动分类和对查询结果的相似度排序,能够有效提高检索效率;它的缺点是相似度的计算量大,当有新文档加入时,则必须重新计算词的权值。
2.2.2 分词技术和匹配方法
1. 常用的切词算法如下:
最大正向匹配法
基本思想是:设D为词典,MAX表示D中的最大词长,str为待切分的字串。它是每次从str中取长度为MAX的子串与D中的词进行匹配。若成功,则该子串为词,指针后移MAX个汉字后继续匹配,否则子串逐次减一进行匹配。
(2)逆向最大匹配法
它的基本原理与前面的相同,不同的是分词的扫描方向,它是从右至左取子串进行匹配。统计结果表明,单纯使用正向最大匹配的错误率为1/169,单纯使用逆向最大匹配的错误率为1/245,它切分的准确率上比正向匹配法有很大提高。
(3)基于词频的统计方法
统计方法一般不依赖于词典,而是将原文中任意前后紧邻的两个字作为一个词进行出现频率的统计,出现的次数越高,成为一个词的可能性也就越大。在频率超过某个预先设定得阈值时,就将其作为一个词进行索引。这种方法能够有效地提取出未登录词。
2. 匹配方法:
(1)词典存储格式:
首先对存储形式进行建模,结构是3层树形结构,如下
一层存储所有单字。第二层保存所有的双字词和多字词的前两个字(因为,也许会出现ABC为词,但AB不是词的情况),并对两者做不同标记(t/f)。每一个可成词的单字对应一系列第二层结点,用来存储所有以该字为词首的双字(包括上述两种情况)。并且,在这里,针对每一个双字,需要记录以该双字为词首的所有词的最大长度,实际中,可以保存除去该双字部分的最大长度(记为n)。第三层存储以某一双字为首的所有词。为了减少存储空间,只存储除去该双字以外的部分(如上图所示)。每一层各结点需按某种次序排列,可使用hash、二分查找等方法进行查询。采用这种层次的存储结构,可以很快把查询词的工作缩小到一个很小的范围内,有利于分词效率的提高。
(2)匹配方法
由于词库中的最大词长通常大于所切分出的词长,为了提高切分的效率,不采用逐次减一个字的方法,而是使用正向逐一增长的方法。
假设对一个句子C1C2……进行分词处理,算法描述如下:
1) 两个字(开始时为C1C2),在词典中查询C1C2是否存在
2) 不存在,则C1为单字词,一次分词结束,返回1。
3) 存在,判断C1C2是否为词,并从词典中获取该词下层节点汉字的最大长度,设为n
4) 若n=0,一次分词结束,保存结果。
否则,i=2,转6)。
i=i+1,若i=n+3,转8);否则,转7)。
再取一个字(此处为Ci),判断第三层中是否有以C3……Ci开始的字(不需要恰好匹配,只要匹配开始的i个字就可以了)。
若存在,分词结束,返回最近一次能够恰好匹配的C3……Cj(j
否则,转6)。
(3)统计方法运用
由于词典的不完全性,许多词可能不会在字典中登录,为了处理句子中的未登录词,我们在原有的算法中嵌入词频统计方法,将某些出现频率较高的连续字段作为一个词切分,我们首先对频度设定一个阈值f。
设已对C1……Cn进行切分,由切分算法和歧义处理算法得到C1……Ci为一个词,Cj……Cn为一个词,Ci与Cj之间皆为单字词,即C1……Ci和Cj……Cn是相邻最近的两个多字词,则将Ci+1……Cj-1作为一个多字词进行词频统计,在对文章全部切分完毕之后,若Ci+1……Cj-1的出现次数达到f时,则将其看作一个词,否则,将其拆分为单字词。
同时,对于相同或相近专业和领域建立起动态词库,将由统计得到的词不断加入词库中,可以实现对词典的动态维护。
以上通过将基于词典的处理方法和基于频率的统计方法结合起来匹配搜索运算,不仅保证了切分速度快、精度高的优点,而且能够结合上下文,最大限度的识别人名、地名、专业术语等未登录词。
2.3 检索反馈
由于初时的查询语句常常与我们所要的图像内容不符,使得我们找不到我们想要的东西,因此,许多系统都引入了相关反馈,即通过选择一些正确/错误的例子作为反馈,来逐渐提高检索的结果。借鉴文本信息检索的方法,我们在系统中也引入了相关反馈来修改用户提交的查询,使得修改后的查询逐步接近用户真正的需求,来提高系统的性能。通过相关反馈对用户提交的查询的修改,检索的性能比原先有了一定的提高。不过,大多数相关反馈并不具有记忆能力,每次反馈后的结果只能提高本次查询结果。因此我们引入了语义网络,把每次反馈的结果记录到语义网络中,使得系统的效果随着使用次数的增加而逐步提高。
本文介绍的反馈系统,主要集中在对查询语句(Q1,W1,Q2,W2,… , Qm,,Wm)中 Wj的修整中,查询语句中对初始Wj的定义具有一定的偏差,反馈系统可以适当调整Wj,使查询语句(Q1,W1,Q2,W2,… , Qm,,Wm)更反映检索的目的。当查询到m=r+n幅图片时,其中r幅图片与目标相关,n幅图片与目标无关。反馈系统可根据用户的反馈结果,重新生成查询语句如下:
其中矢量
是检索结果图像网页的矢量表示,在矢量
中,选择在相似度计算中有贡献的分量作为反馈信息。在公式5中,一般选γ=1 ,0〈 β〈1 ,0〈 α〈1 ,β与α值的选取影响着反馈深度,也直接影响着检索的精度。实践表明,具有反馈系统的图像检索系统要比无反馈的图像检索精度提高10%左右,而且m越小,检索的精度越高.
我们在设计检索系统时,提供反馈无反馈选择,并且在反馈系统中提供取值的选
择。当m取值较小时,直接显示检索到的图像,并供用户选择是否与目标图像的相关性。以上都是为了改善用户界面,便于反馈系统的应用。下面是测得当m=1时,检索精度与反馈中系数α、β之间关系的曲线,图中可以得出α=0.1 时检索精度Precision取最大值,图2中可以得出β在0.5~0.6 之间时检索精度Precision取最大值。从图1和图2又可以得出,当α=β=0无反馈时检索精度Precision=48%,当α=0.1 ,β=0.5 或0.6时检索精度Precision =61%,引入反馈系统使检索精度提高了13%。
为检验搜索模型,下载含有图像的4000多个中文网页( 来自1000多个 URLs),对这些HTML文档进行检索。在查询语句建立以后,通过词条网对具有相同语义的词条进行扩充,构建符合查询要求的多个IQW,然后分别计算出各自的相似度,根据相似度规定的临界值,得
出查询的结果。实验表明,合理地选取相似度临界值可以保证较高检索精度与检索完全度。从图3中可以看出,当相似度临界值>0.6时,能保证检索精度>80%,从图4中看出,当相似度临界值<0.6时,能保证检索完全度>60%。当相似度临界值取0.6时,本搜索模型可以保证检索精度>80%,而检索完全度>60%。
为决定ICW,ITW,IAW,PTW在相似度计算中的权值,测试从0.1~ 1.0的所有系数。最终得出ICW,ITW,IAW,PTW的权值分别为0.4、0.3、0.2、0.1时,能比较合理地反映出图片与这些文本的相关性,保证检索的准确性。
结束语
在了解了搜索引擎的搜索原理公式和反馈原理之后,我们可以根据其理论做出相应的搜索引擎,并能作出比较搜索效果。但为了能更好的使用,还得去仔细更好的给文档进行分类,更多的对此引擎进行反馈训练查询等,使得Web搜索引擎具有更好的智能性和个性化的特点。
参考文献
[1] 张量,詹国华,袁贞明, 基于Web的图像搜索,计算机工程,2002.5
[2] 朱学芳, 多媒体信息处理与检索技术[M],电子工业出版社,2003
[3] 陈滢 ,徐宏炳 ,王能斌,协作式Web资源发现系统模型,计算机学报,1998.4
[4] 阳小华, 周龙骧,World Wide Web 的索引与查询技术,计算机科学 ,1997
[5] 吴立德等,大规模中文文本处理,复旦大学出版社,1997
[6] 李唐, 解读网络图像搜索引擎,Internet网络,2001
[7] 陈立娜,Internet上的图像检索技术,天极yesky,2001.5
[8] 黄博士,网络环境下的图像检索技术,中国计算机用户,2003.12.30
[9] Dunlop M.D. [1991]. Multimedia Information Retrieval,Ph.D. Thesis. Computing Science Department, University of Glasgow, Report 199l/R21.
[10] Ellen M. Voorhees and Yuan-Wang Hou, "Vector Expansion in a Large Collection”, First Text REtrieval Conference [TREC-1], 1993.
[11] Frisse M.E, [1988]. Searching for information in a hypertext medical handbook. Communications of the ACM, 3 I[7], pp.880-886.
[12] R.Price, T.S Chua, and S.Al-Hawamdeh, Applying relevance feedback on a photo archival system. Journal of Information Science, 18:203-215, 1992
[13] W.Niblack, R.Barber, and W.Equitz. the qbib project:querying images by content using color, texture, and shape. Technical report, IBM RJ 9203[81511], Feb, 1993
[14] Shih-Fu Chang, William Chen, and Hari Sundaram,Semantic Visual Template - Linking Visual Fetures to Semantics. IEEE Intern Conference on Image Processing, Chicago IL, Oct 1998
[15] A.E. Cawkell, Imaging systems and picture collection management: a review. Information Service & Use, 12:301-325, 1992
[16] T.S. Chua and W.C. Low, and Ch.X. Chu, relevance feedback techniques for color-based image retrieval. In Proceeding of Multimedia Modelling’98, IEEE Computer Society, Oct, 1998.