普通网友

asp.net中图像的检索技术毕业设计(论文+源码+任务书+开题报告+答辩ppt)

本科生毕业论文（设计）开题报告

论文题目： Web中图像的检索技术研究 .

一、选题依据（背景与意义、国内外研究现状与发展趋势）随着网络传送速度与计算机信息处理速度的提高，网页中对多媒体信息的使用变得十分普及，特别是图像信息，己经成为表示网页内容不可缺少的组成部分。因此人们对多媒体信息的检索需求也就随之随之变得特别迫切。但由于图像检索系统涉及了多学科的知识，实现和应用的难度相当高，所以已有的图像检索系统都有这样或那样的缺陷。而传统的信息检索主要集中于文字的检索，在多媒体方面的研究并不是很多。互联网上的多媒体以图像为主，因此图像的检索就成为了目前研究的热点。图像检索经历了两个阶段:第一阶段是以文本为基础的检索。第二阶段是以图像自身的内容为基础的检索。上个世纪70年代开始，有关图像检索的研究就已开始，当时主要是基于文本的图像检索技术利用文本描述的方式描述图像的特征。到90年代以后，出现了对图像的内容语义，如图像的颜色、纹理、布局等进行分析和检索的图像检索技术，即基于内容的图像检索技术。而无论是什么引擎，它首先都必须遵循以下几个要点：索引文档的容量：现在最大的搜索引擎可能包含了超过100,000,000个链接，但这也只是整个Web网上的一小部分。因为收集资料的Robot，只能从“已知”的链接开始收集网页资料，而只有一小部分Web网页和这些“已知”的网页有连接；现在还没有一个搜索引擎能够随网页内容的更新比较及时地更新索引；覆盖面：地理覆盖面和主题覆盖面；索引更新频率：不同的搜索引擎，索引更新频率相差很大，有的是几周，有的是一年。索引更新频率有两种定义，一种比较少用的定义是新的网页能被收录进索引数据库中，另一种是同一页多少时间才被检查一次，有必要时更新索引。有的搜索引擎会对经常更新的网页和多人访问的网页进行更频繁的重建索引工作；采集过程：采集过程有宽度优先、深度优先两种算法；一般认为宽度优先对扩大内容的覆盖面有利，深度优先算法有助于提供更多的细节资料；索引算法：有的搜索引擎只处理元标记和一小部分文档内容，而有一些搜索引擎则是对全文进行索引；结果显示：有的搜索引擎只显示网页的标题，有些则有更详细的一些信息，比如网页的内容，更新日期等；查询算法：一个优秀的查询算法是很重要的，最基本的布尔查询，短语查询，有的搜索引擎还提供指定属性的查询，比如可以指定对网页的作者、主题进行查询。另外有的搜索引擎还采用了相关度反馈、概念查询等算法；用户界面：很多搜索引擎都提供了简单查询和高级查询两个界面。并且提供了必要的帮助和范例。在检索原理上，无论是基于文本的图像检索还是基于内容的图像检索，主要包括三方面：一方面对用户需求的分析和转化，形成可以检索索引数据库的提问；另一方面，收集和加工图像资源，提取特征，分析并进行标引，建立图像的索引数据库；最后一方面是根据相似度算法，计算用户提问与索引数据库中记录的相似度大小，提取出满足阈值的记录作为结果，按照相似度降序的方式输出。为了进一步提高检索的准确性，许多系统结合相关反馈技术来收集用户对检索结果的反馈信息，这在CBIR中显得更为突出，因为CBIR实现的是逐步求精的图像检索过程，在同一次检索过程中需要不断地与用户进行交互。基于文本和基于内容是图像检索发展的两个分支，不过从目前图像检索研究的趋势而言，尤其结合网络环境下图像的特征——嵌入在具有文本内容的Web文档中，出现了三个不同的研究着眼点。立足于文本，对图像进行检索。试图将传统的文本检索技术移植于对多媒体信息的检索上，因为基于文本的检索技术发展已经成熟。如Page-Rank方法、概率方法、位置方法、摘要方法、分类或聚类方法、词性标注法等，不仅技术发展较为成熟，同时分析和实现的难度略小。但是因为受控词汇本身的局限，易歧义，更新慢，所以不太容易应对网络上日新月异的各类图像。立足于图像内容，对图像进行分析和检索。相比而言，尽管图像检索已经出现了诸如直方图、颜色矩、颜色集等多种表征图像特征的方法，但是要突破对低层次特征的分析，实现更高语义上的检索，实现难度大，进展慢。不过，基于内容的图像检索建立在多媒体信息的内容语义上，能够更为客观地反映媒体本质的特征。结合文本和内容，进行融合性研究。发挥各自的优势促进图像的高效、简单检索方式的实现，尤其是网络环境下，结合图像所在Web文档的特征分析，推断图像的特征，同时结合对图像的内容分析，共同标引达到对图像的分析和检索。可以说，三个方向都是相互影响和促进的，任何一个方向的进展都会促进图像检索技术向前更进一步。由于搜索引擎技术的开发牵涉到信息检索、人工智能、计算机网络、分布式处理、数据库、数据挖掘、自然语言处理等许多基础研究领域的理论和技术，因此至今还没有真正脱离实验室的阶段，中文搜索引擎的开发就更涉及到语言习惯的差异、智能切分词等棘手的问题，而且中文搜索引擎技术的起步也较晚，还远没能满足中国网民的需求。如今图像检索技术的研究和应用为我国数字图书馆工程中的核心问题提供了理论和实践依据。因此怎样扬长避短选择一种最适合中国国情的图像检索技术就是本文研究的目的和意义。

二、研究目标与主要内容（含论文提纲）在网络和多媒体技术越来越发达的今天，信息检索技术成了现在计算机领域的重要内容，而图像检索技术又正是这其中的重要内容之一。而网络资源的极大丰富以及图像检索技术不断发展成熟，使得图像检索技术的应用领域不断扩大，这为图像检索技术的继续研究提供条件。人们为了对图像进行更好的使用和组织管理，便开发出了多种多样图像检索技术，本文首先要将各种图像检索技术的工作原理、研究现状、相关图像搜索引擎与发展趋势作一个介绍。随着网络传送速度与计算机信息处理速度的提高，网页中对多媒体信息的使用变得十分普及，特别是图像信息，己经成为表示网页内容不可缺少的组成部分。在实现对网页中文本信息提取的同时，如何再为用户抽取所需的图片资料，是信息检索中一个重要的方面。于是各种基于Web的图像检索系统应运而生。它们采用不同的工作方式，极大地方便了用户对网上图像进行检索。目前图像检索技术的发展正走向更加成熟和完善，其中Web图像搜索技术也更加完善，本文将介绍这种图像检索技术并阐述Web页中的图像与文本之间的关系，对相似度等作出了详细的论述。

三、拟采取的研究方法、研究手段及技术路线、实验方案等如今在Web中处理图像检索有很多成熟的技术，如基于Web的数据仓库、Web数据挖掘、Web数据源集成技术等。为此，必须为Web建立适当的数据模型，利用数据模型有效地从Web中获取信息。为了处理Web的中文数据，还必须使用一系列中文自然语言处理技术。比较基础的技术有自动分词、人名和机构名的自动识别、自动标引等，其他像信息抽取、自动文摘、文档自动分类、中文概念词的自动发现以及概念词之间的语义关系的确定等技术都必不可少。我们可以根据现有的参考资料以及当前的技术，先搞清传统的搜索引擎的工作实质和原理，比如网络信息搜索关键词的匹配原理和相象或类似计算方法，研究搜索引擎的内在关键，提出搜索相似度的算法。然而现有的搜索引擎虽然给我们的信息搜索带来了很大的方便，但由于其中程序过于复杂，反馈保存的内容过多，因此给我们的很容易过多占去我们所拥有的CPU资源和网络资源，从而降低我们的搜索速度。这里我们提出了在Web中的一种简单而有效的搜索方法，虽然计算方法简单，在网络中的信息搜索可能不是很精确，但对计算方法进行改进，同时引进了有效的反馈机制，只要对其在实验中多次的进行反馈训练和投入使用后的用户使用，同样能给我们提高搜索精度，但所占用的资源却要小的多，相对速度也就要快很多。

四、中外文参考文献目录（作者、书名论文题目、出版社或刊号、出版年月或出版期号）张量，詹国华，袁贞明，基于Web的图像搜索，计算机工程，2002.5朱学芳，多媒体信息处理与检索技术[M]，电子工业出版社，2003陈滢，徐宏炳，王能斌，协作式Web资源发现系统模型，计算机学报，1998.4 (4) 阳小华，周龙骧，World Wide Web 的索引与查询技术，计算机科学，1997 (5) 吴立德等，大规模中文文本处理，复旦大学出版社，1997(6) 李唐，解读网络图像搜索引擎，Internet网络，2001(7) 陈立娜，Internet上的图像检索技术，天极yesky，2001.5(8) 黄博士，网络环境下的图像检索技术，中国计算机用户，2003.12.30(9) Dunlop M.D. (1991). Multimedia Information Retrieval,Ph.D. Thesis. Computing Science Department, University of Glasgow, Report 199l/R21.(10) Ellen M. Voorhees and Yuan-Wang Hou, "Vector Expansion in a Large Collection”, First Text REtrieval Conference (TREC-1), 1993.(11) Frisse M.E, (1988). Searching for information in a hypertext medical handbook. Communications of the ACM, 3 I(7), pp.880-886.(12) R.Price, T.S Chua, and S.Al-Hawamdeh, Applying relevance feedback on a photo archival system. Journal of Information Science, 18:203-215, 1992(13) W.Niblack, R.Barber, and W.Equitz. the qbib project:querying images by content using color, texture, and shape. Technical report, IBM RJ 9203(81511), Feb, 1993(14) Shih-Fu Chang, William Chen, and Hari Sundaram,Semantic Visual Template - Linking Visual Fetures to Semantics. IEEE Intern Conference on Image Processing, Chicago IL, Oct 1998(15) A.E. Cawkell, Imaging systems and picture collection management: a review. Information Service & Use, 12:301-325, 1992(16) T.S. Chua and W.C. Low, and Ch.X. Chu, relevance feedback techniques for color-based image retrieval. In Proceeding of Multimedia Modelling’98, IEEE Computer Society, Oct, 1998.五、研究的整体方案与工作进度安排（内容、步骤、时间）毕业设计（论文）工作自2003年12月1日至2004年6月8日。一．开题时间安排：04年2月16日~04年2月18 日。具体内容：审阅开题报告、外文文献翻译。部署毕业设计工作。二．毕业设计论文撰写的时间安排：04年2月19日~04年4月24日。在指导老师的指导下停课进入毕业设计工作，并在4月24日前完成初稿。4月5日~4月7日进行中期检查。指导老师检查学生毕业设计完成状况，并在同时解决学生在这其中的出现的问题和遇到的困难。4月25日~5月31日，进行专业实习。同时完成对毕业设计报告的修改、完善、定稿，整理成册，填写《杭州师范学院本科毕业设计（设计）评审表》，指导教师完成学生毕业设计成绩评定。四．答辩时间安排：6月1日~6月8日五．成绩评定时间安排：6月9日~6月18日

六、研究的预期目标及主要特点及创新点跟现有的或者现在炒的很热的搜索方法而言，这个搜索方法虽然“小”，但却是很“精悍”。根据这个方法做出来的引擎可能很简单，但我可以肯定的是一定很有效，在用户需要网络上某种信息时，它会是一个很好的选择。它不仅自身容量小，而且所有的过程都很简单，可以给我们节约很多现有的资源，进而高速的在网络中找到我们所需要的信息。

七、指导教师意见：签名：年月日

八、教研室或系审核意见：主任签名：年月日

九、二级学院毕业论文（设计）领导小组审核意见：负责人签名（盖章）：年月日

附件4：

本科生毕业论文（设计）文献综述

论文题目： Web中图像的检索技术研究 .

一、查阅中外文献资料目录，所查阅的中外文献资料不得少于5篇（含作者、书名或论文题目、出版社或刊名、出版年月或期号及页码等，未经本人查阅的文献资料目录不得列上）张量，詹国华，袁贞明，基于Web的图像搜索，计算机工程，2002.5朱学芳，多媒体信息处理与检索技术[M]，电子工业出版社，2003陈滢，徐宏炳，王能斌，协作式Web资源发现系统模型，计算机学报，1998.4 (4) 阳小华，周龙骧，World Wide Web 的索引与查询技术，计算机科学，1997 (5) 吴立德等，大规模中文文本处理，复旦大学出版社，1997(6) 李唐，解读网络图像搜索引擎，Internet网络，2001(7) 陈立娜，Internet上的图像检索技术，天极yesky，2001.5(8) 黄博士，网络环境下的图像检索技术，中国计算机用户，2003.12.30(9) Dunlop M.D. (1991). Multimedia Information Retrieval,Ph.D. Thesis. Computing Science Department, University of Glasgow, Report 199l/R21.(10) Ellen M. Voorhees and Yuan-Wang Hou, "Vector Expansion in a Large Collection”, First Text REtrieval Conference (TREC-1), 1993.(11) Frisse M.E, (1988). Searching for information in a hypertext medical handbook. Communications of the ACM, 3 I(7), pp.880-886.(12) R.Price, T.S Chua, and S.Al-Hawamdeh, Applying relevance feedback on a photo archival system. Journal of Information Science, 18:203-215, 1992(13) W.Niblack, R.Barber, and W.Equitz. the qbib project:querying images by content using color, texture, and shape. Technical report, IBM RJ 9203(81511), Feb, 1993(14) Shih-Fu Chang, William Chen, and Hari Sundaram,Semantic Visual Template - Linking Visual Fetures to Semantics. IEEE Intern Conference on Image Processing, Chicago IL, Oct 1998(15) A.E. Cawkell, Imaging systems and picture collection management: a review. Information Service & Use, 12:301-325, 1992(16) T.S. Chua and W.C. Low, and Ch.X. Chu, relevance feedback techniques for color-based image retrieval. In Proceeding of Multimedia Modelling’98, IEEE Computer Society, Oct, 1998.

二、文献综述（含本选题国内外研究现状、研究主要成果、发展趋势、存在问题等内容，字数不少于3000字，力求内容切题，具综合归纳性）研究现状：随着网络传送速度与计算机信息处理速度的提高，网页中对多媒体信息的使用变得十分普及，特别是图像信息，己经成为表示网页内容不可缺少的组成部分。因此人们对多媒体信息的检索需求也就随之随之变得特别迫切。但由于图像检索系统涉及了多学科的知识，实现和应用的难度相当高，所以已有的图像检索系统都有这样或那样的缺陷。而传统的信息检索主要集中于文字的检索，在多媒体方面的研究并不是很多。互联网上的多媒体以图像为主，因此图像的检索就成为了目前研究的热点。图像检索经历了两个阶段:第一阶段是以文本为基础的检索。第二阶段是以图像自身的内容为基础的检索。上个世纪70年代开始，有关图像检索的研究就已开始，当时主要是基于文本的图像检索技术利用文本描述的方式描述图像的特征。到90年代以后，出现了对图像的内容语义，如图像的颜色、纹理、布局等进行分析和检索的图像检索技术，即基于内容的图像检索技术。而无论是什么引擎，它首先都必须遵循以下几个要点：索引文档的容量：现在最大的搜索引擎可能包含了超过100,000,000个链接，但这也只是整个Web网上的一小部分。因为收集资料的Robot，只能从“已知”的链接开始收集网页资料，而只有一小部分Web网页和这些“已知”的网页有连接；现在还没有一个搜索引擎能够随网页内容的更新比较及时地更新索引；覆盖面：地理覆盖面和主题覆盖面；索引更新频率：不同的搜索引擎，索引更新频率相差很大，有的是几周，有的是一年。索引更新频率有两种定义，一种比较少用的定义是新的网页能被收录进索引数据库中，另一种是同一页多少时间才被检查一次，有必要时更新索引。有的搜索引擎会对经常更新的网页和多人访问的网页进行更频繁的重建索引工作；采集过程：采集过程有宽度优先、深度优先两种算法；一般认为宽度优先对扩大内容的覆盖面有利，深度优先算法有助于提供更多的细节资料；索引算法：有的搜索引擎只处理元标记和一小部分文档内容，而有一些搜索引擎则是对全文进行索引；结果显示：有的搜索引擎只显示网页的标题，有些则有更详细的一些信息，比如网页的内容，更新日期等；查询算法：一个优秀的查询算法是很重要的，最基本的布尔查询，短语查询，有的搜索引擎还提供指定属性的查询，比如可以指定对网页的作者、主题进行查询。另外有的搜索引擎还采用了相关度反馈、概念查询等算法；用户界面：很多搜索引擎都提供了简单查询和高级查询两个界面。并且提供了必要的帮助和范例。在检索原理上，无论是基于文本的图像检索还是基于内容的图像检索，主要包括三方面：一方面对用户需求的分析和转化，形成可以检索索引数据库的提问；另一方面，收集和加工图像资源，提取特征，分析并进行标引，建立图像的索引数据库；最后一方面是根据相似度算法，计算用户提问与索引数据库中记录的相似度大小，提取出满足阈值的记录作为结果，按照相似度降序的方式输出。为了进一步提高检索的准确性，许多系统结合相关反馈技术来收集用户对检索结果的反馈信息，这在CBIR中显得更为突出，因为CBIR实现的是逐步求精的图像检索过程，在同一次检索过程中需要不断地与用户进行交互。基于文本和基于内容是图像检索发展的两个分支，不过从目前图像检索研究的趋势而言，尤其结合网络环境下图像的特征——嵌入在具有文本内容的Web文档中，出现了三个不同的研究着眼点。立足于文本，对图像进行检索。试图将传统的文本检索技术移植于对多媒体信息的检索上，因为基于文本的检索技术发展已经成熟。如Page-Rank方法、概率方法、位置方法、摘要方法、分类或聚类方法、词性标注法等，不仅技术发展较为成熟，同时分析和实现的难度略小。但是因为受控词汇本身的局限，易歧义，更新慢，所以不太容易应对网络上日新月异的各类图像。立足于图像内容，对图像进行分析和检索。相比而言，尽管图像检索已经出现了诸如直方图、颜色矩、颜色集等多种表征图像特征的方法，但是要突破对低层次特征的分析，实现更高语义上的检索，实现难度大，进展慢。不过，基于内容的图像检索建立在多媒体信息的内容语义上，能够更为客观地反映媒体本质的特征。结合文本和内容，进行融合性研究。发挥各自的优势促进图像的高效、简单检索方式的实现，尤其是网络环境下，结合图像所在Web文档的特征分析，推断图像的特征，同时结合对图像的内容分析，共同标引达到对图像的分析和检索。可以说，三个方向都是相互影响和促进的，任何一个方向的进展都会促进图像检索技术向前更进一步。发展趋势：由于传统的搜索引擎在设计方面存在局限性（集中式的体系机构，通过网络爬行器收集信息），因此他们无法提供高准确度、搜索实时更新的数据库的服务。因此，开发一个新的搜索框架，支持“点对点”，按照层次进行分布式搜索成为今后搜索引擎发展的趋势。这种新的搜索框架包含了对个人文档、局域网以及互联网三个层次的搜索。当搜索局域网或者是互联网的时候，搜索将以分布方式执行。同时，系统将能够自动地把用户的查询分发给相似的用户或者是互联网上最为合适的搜索引擎，以获得更好的结果。基于内容编码技术的研究，目前，国际上还没有通用的基于内容的编码标准。20世纪90年代初，国际上就开始了对基于内容的图像信息检索方面的研究。从基本的颜色检索，到综合利用多种图像特征进行检索，大量原型系统已经推出，其中，部分已投入到实际应用中以检验其有效性。同时，MPEG-7标准作为基于内容的多媒体编码标准也正在制定当中，即将成为国际标准中的一员。因此，应尽快对MPEG-7标准进行研究，分析其编码的实质，在此基础上进一步研究基于内容检索的系统，使我国基于内容的图像检索尽快走向实际应用阶段。对用户查询接口的研究，这涉及到用户对图像内容的感知表达、交互方式的设计、用户如何形成并提交查询等方面。现代多媒体信息系统的一个重要特征就是信息获取过程的可交互性，人在系统中是主动的。除了提供示例和描绘查询基本接口之外，用户的查询接口应提供丰富的交互能力，使用户在主动的交互过程中表达对图像语义的感知，调整查询参数及其组合，最终获得满意的查询结果。用户的查询接口应该是直观易用的，底层的特征选择对用户是透明的。这里涉及到如何把用户的查询表达转换为可以执行检索的特征矢量，如何从交互过程中获取用户的内容感知，以便选择合适的检索特征等问题。一个优秀的搜索引擎必须处理以下几个问题：(1)网页的分类(2)自然语言的处理(3)搜索策略的调度和协作 (4)面向特定用户的搜索。因此，现在有很多的网络检索工具，也就是说搜索引擎采用了智能的检索手段来增强它的检索能力，而图片检索正是其中的一大块内容。随着网上多媒体的广泛应用，对图像的检索需求将会越来越迫切。未来的图像检索技术将是网络技术和基于内容的图像库检索技术的结合。随着多媒体信息处理技术的日益发展和深化，图像信息的加工、处理和检索标准的出台，网上的图像检索技术将会日趋完善，而图像搜索引擎也将成为Internet上的新宠。网络检索新技术还有：层级式导航浏览器、自动辅助编程、信息过滤器、主题检索、三维世界的进入及其检索、智能检索代理等等。存在的问题：由于搜索引擎技术的开发牵涉到信息检索、人工智能、计算机网络、分布式处理、数据库、数据挖掘、自然语言处理等许多基础研究领域的理论和技术，因此至今还没有真正脱离实验室的阶段，中文搜索引擎的开发就更涉及到语言习惯的差异、智能切分词等棘手的问题，而且中文搜索引擎技术的起步也较晚，还远没能满足中国网民的需求。如今图像检索技术的研究和应用为我国数字图书馆工程中的核心问题提供了理论和实践依据。因此怎样扬长避短选择一种最适合中国国情的图像检索技术就是本文研究的目的和意义。学生签名年月日

三、指导教师审阅意见：指导教师签名年月日

asp.net中图像的检索技术毕业设计(论文+源码+任务书+开题报告+答辩ppt)_第1张图片

asp.net中图像的检索技术毕业设计(论文+源码+任务书+开题报告+答辩ppt)_第2张图片

asp.net中图像的检索技术毕业设计(论文+源码+任务书+开题报告+答辩ppt)_第3张图片

asp.net中图像的检索技术毕业设计(论文+源码+任务书+开题报告+答辩ppt)_第4张图片

asp.net中图像的检索技术毕业设计(论文+源码+任务书+开题报告+答辩ppt)_第5张图片

asp.net中图像的检索技术毕业设计(论文+源码+任务书+开题报告+答辩ppt)_第6张图片

asp.net中图像的检索技术毕业设计(论文+源码+任务书+开题报告+答辩ppt)_第7张图片

asp.net中图像的检索技术毕业设计(论文+源码+任务书+开题报告+答辩ppt)_第8张图片

asp.net中图像的检索技术毕业设计(论文+源码+任务书+开题报告+答辩ppt)_第9张图片

asp.net中图像的检索技术毕业设计(论文+源码+任务书+开题报告+答辩ppt)_第10张图片

asp.net中图像的检索技术毕业设计(论文+源码+任务书+开题报告+答辩ppt)_第11张图片

asp.net中图像的检索技术毕业设计(论文+源码+任务书+开题报告+答辩ppt)_第12张图片

asp.net中图像的检索技术毕业设计(论文+源码+任务书+开题报告+答辩ppt)_第13张图片

asp.net中图像的检索技术毕业设计(论文+源码+任务书+开题报告+答辩ppt)_第14张图片

asp.net中图像的检索技术毕业设计(论文+源码+任务书+开题报告+答辩ppt)_第15张图片

asp.net中图像的检索技术毕业设计(论文+源码+任务书+开题报告+答辩ppt)_第16张图片

asp.net中图像的检索技术毕业设计(论文+源码+任务书+开题报告+答辩ppt)_第17张图片

asp.net中图像的检索技术毕业设计(论文+源码+任务书+开题报告+答辩ppt)_第18张图片

asp.net中图像的检索技术毕业设计(论文+源码+任务书+开题报告+答辩ppt)_第19张图片

第一章前言

1.1引言

随着多媒体技术及 Internet网络的迅速发展，图像来源不断扩大，大容量高速存储系统为图像的海量存储提供了基本保障，各行各业对图像的使用越来越多，图像信息资源的管理和检索也就显得越来越重要。但由于Internet 本身结构上、管理上的问题，想要在Internet 准确、快速、全面地找到自己所想要的图像，却变成了件非常不容易的事。

由于Internet现有的问题：内容没有结构；网上信息量庞大且还在不断的增加。因此，网络产生了搜索引擎。虽然这些给网络用户提供了不少的帮助，但由于但离准确、快速、全面地搜索自己所要的图像还相当遥远，所以对图像检索还要作很大的研究。

根据国内外现有的搜索引擎和国际上的有关研究小组的种种资料表明，现有的网络资源和搜索引擎有如下特点：

索引的数据种类丰富，如文字、图像、声音等多媒体。数据的存取协议也是多种多样的，如HTTP、FTP、News、Gopher等；

索引数据量大，以致不可能有某个数据库能包括整个Internet的索引，目前最大的搜索引擎，其中的索引也只不过覆盖了Internet的一小部分；

资源消耗太大，系统需要将HTML文件传送至本地然后分析，大量占用昂贵的网络带宽和CPU资源，增加被搜索结点的负担。另外由于现有的搜索引擎一般是集中式的，所以搜索引擎服务器本身的硬件配置也极高，才能处理庞大的数据量和及时地响应用户的查询请求；

不能有效解决索引失效问题，很多时候，搜索引擎会返回无效的查询结果；

各检索工具各行其事，不能相互协作，在一定意义上讲是一种资源的浪费。

1.2现有的图像检索技术

近年来随着用户对网上图像搜索要求的不断增长，各种图像搜索引擎应运而生，它们各自以不同的工作方式为用户提供各种检索途径，使网上图像信息的搜索变得非常简单，尽管还不很完善，却已经可以满足用户的大多数要求。

1.2.1搜索引擎的工作原理

最基本的搜索引擎的结构，是由Spider不停地从Web网上收集数据，存放在搜索引擎的数据库中。用户通过搜索引擎服务器上的Web接口，提出搜索请求，Web Server通过CGI或其它技术访问数据库，并将用户的搜索请求转换成相应的数据存取语句，送给数据库引擎处理，并把查询结果通过网页显示给用户。

网络搜索的基本原理是通过网络机器人定期在web网页上爬行，然后发现新的网页，把它们取回来放到本地的数据库中，用户的查询请求可以通过查询本地的数据库来得到。

一般来说网络信息检索的实现机制一般有两种，一种是通过手工方式对网页进行索引，它的缺点是Web的覆盖率比较低，同时不能保证最新的信息。查询匹配是通过用户写入的关键字和网页的描述和标题来进行匹配，而不是通过全文的匹配进行的。第二种是对网页进行自动的索引，这种能实现自动的文档分类，实际上采用了信息提取的技术。但是在分类准确性上可能不如手工分类。

在现在所有运行的搜索工具来说，一般都有一个Robot定期的访问一些站点，来检查这些站点的变化，同时查找新的站点。一般站点有一个robot.txt文件用来说明服务器不希望Robot访问的区域，Robot 都必须遵守这个规定。如果是自动索引的话，Robot在得到页面以后，需要对该页面根据其内容进行索引，根据它的关键字的情况把它归到某一类中。页面的信息是通过元数据的形式保存的，典型的元数据包括标题、IP地址、一个该页面的简要的介绍，关键字或者是索引短语、文件的大小和最后的更新的日期。尽管元数据有一定的标准，但是很多站点都采用自己的模板。文档提取机制和索引策略对Web搜索引擎的有效性有很大的关系。高级的搜索选项一般包括：布尔方法或者是短语匹配和自然语言处理。一个查询所产生的结果按照提取机制被分成不同的等级提交给用户。最相关的放在最前面。每一个提取出来的文档的元数据被显示给用户。同时包括该文档所在的URL地址。

另外有一些关于某一个主题的专门的引擎，它们只对某一个主题的内容进行搜索和处理，这样信息的取全率和精度相对就比较高。

目前，图像搜索引擎主要通过以下两种方法识别图像：

自动查找图像文件。通过两个HTML标签，即IMGSRC和HREF来检测是否存在可显示的图像文件，IMGSRC表示“显示下面的图像文件”，导向的是嵌入式图像；而HREF则表示“下面是一个链接”，导向的是被链接的图像。搜索引擎通过检查文件扩展名来判断其导向的是否为图像文件，如果文件扩展名是.gif或.jpg，即是一个可显示的图像。

人工干预找出图像。进行分类，由人工对网上的图像及站点进行选择。这种方法可以产生准确的查询体系，但劳动强度太大，因此要限制处理图像的数量。

由于图像不同于文本，需要人们按照各自的理解来说明其蕴含的意义，因此图像检索比文本的查询和匹配要困难得多。

1.2.2 图像搜索引擎的检索途径

1.关键词检索

传统的图像检索技术是基于关键字的精确匹配检索，系统内的图像用关键字标识，检索线索是与标识相一致的关键字，即输入是关键字，输出是图像。它又包括两种途径：

基于图像外部信息进行检索。即根据图像的文件名或目录名、路径名、链路、ALT标签以及图像周围的文本信息等外部信息进行检索，这是目前图像搜索引擎采用最多的方法。在找出图像文件后，图像搜索引擎通过查看文件名或路径名确定文件内容，也可以通过查看图像的标题来匹配检索词。

基于手工标注的检索。手工对图像的内容（如物体、背景、颜色等）进行描述并分类，将其标注为一系列关键字，并建立索引。检索时，将主要在这些描述词中搜索用户输入的关键字。这种查询方式是比较准确的，一般可以获得较好的查准率，但需人工参与，劳动强度大，因而限制了可处理的图像数量。另外，由于图像所包含的信息量庞大，不同用户对于同一张图像的看法又不尽相同，导致了对图像的标注缺乏统一标准。

2. 图像可视属性的检索

而基于图像内容的检索主要是由图像分析软件自动抽取图像的颜色、形状、纹理等特征，建立特征索引库，其输入为用户要查找的图像的大致特征描述或示例，通过一定相似性匹配规则，输出为与之具有相近特征的图像，按相似程度排列，供用户选择，从而把在传统图像检索技术中一般用户难以完成的图像特征描述、提取与识别等难题，交由系统去解决。

这是一种基于图像本身特征层次的检索，特别适用于检索目标明确的查询要求，但目前这种较成熟的检索技术主要应用于图像数据库的检索。在图像搜索引擎中应用这种检索技术还有一定困难，但己有部分图像搜索引擎尝试了这种检索方法。

1.2.3对几个基本引擎的分析

InfoSeek是一个简单但是功能强大的索引，它的一个优点是有一个面向主题搜索的可扩展的分类。你可以把你的搜索短语和相似的分类目录的主题短语相互参照，而那些主题短语会自动加到你的查询中去。使你的搜索有更好的主题相关性。同时它也支持对图象的查询。它能够漫游Web,Usenet,Usenet FAQs等等。不支持布尔操作，但是可以使用符号"+"和"-"。

AltaVista 是一个大容量的，基于Robot 索引的Search Engine。它能帮你在WWW网上搜索你所需要的网页，新闻组，图像，视频音频片段。AltaVista 还支持多种语言和简单的自然语言查询。AltaVista 覆盖面约为WWW 网上可索引的网页的30%

Scour成立于1998年，自称是第一个基于web的多媒体搜索引擎。虽严格讲，它并非是一个图像搜索引擎，但可以将检索限制在图像搜索上。

它的工作原理是在文件名、路径名或ALT标签中搜索检索词。主要使用关键词检索，可以用"＋"或"－"来增加或排除关键词，使用尽可能少的关键词会更有效。在高级检索中，可以将检索结果图像限制在GIF、BMP、JPEG等格式中。检索结果显示简图、图像类型（如GIF、BMP）、图像大小、最后被查找的日期、检索词的匹配数量、标引使用的关键词、成功下载的可靠程度等，并同时给出图像文件的URL和源站点的URL。

主要缺陷是标引深度不足，查准率较低，但查全率较好。

这是由NCRTEC组织开发的一个"真正人工建立的完全的关键词式索引"。 Amazing Picture Machine后面的教师负责选择图像丰富的站点，然后对每幅选定的图像内容进行描述，给出关键词。因此它的最大特点就是人工干预，关键词检索是主要的检索手段。

Amazing Picture Machine的搜索结果将显示一个简短的标题、有关图像的说明（如彩色或黑白）、文件的大小、文件类型及象素多少等，但不显示简图。单击该标题可得到原图像，但需由该URL回溯才能找出源站点。

由于人工干预检索过程，它的查准率极好，但这也限制了它的查全率。它的检索范围很有限，只包括web上人工选择的部分站点。

Lycos对所收录的图像进行了详尽的内容描述，并支持短语检索，从而使其查准率大大提高。它根据文件扩展名识别图像，在描述词、文件名、目录名或ALT字段中查询检索词。结果显示的信息极为丰富，包括简图、图像大小、最后检索日期、图像文件名、图像内容描述词、图像所在页面等。点击简图将得到原图及更多的信息，如著作权人和更多的相关图像。比较而言它的检索效果很好，速度也很快。

1.2.4 搜索引擎的基本要点

索引文档的容量：现在最大的搜索引擎可能包含了超过100,000,000个链接，但这也只是整个Web网上的一小部分。因为收集资料的Robot，只能从“已知”的链接开始收集网页资料，而只有一小部分Web网页和这些“已知”的网页有连接；现在还没有一个搜索引擎能够随网页内容的更新比较及时地更新索引；

覆盖面：地理覆盖面和主题覆盖面；

索引更新频率：不同的搜索引擎，索引更新频率相差很大，有的是几周，有的是一年。索引更新频率有两种定义，一种比较少用的定义是新的网页能被收录进索引数据库中，另一种是同一页多少时间才被检查一次，有必要时更新索引。有的搜索引擎会对经常更新的网页和多人访问的网页进行更频繁的重建索引工作；

采集过程：采集过程有宽度优先、深度优先两种算法；一般认为宽度优先对扩大内容的覆盖面有利，深度优先算法有助于提供更多的细节资料；

索引算法：有的搜索引擎只处理元标记和一小部分文档内容，而有一些搜索引擎则是对全文进行索引；

结果显示：有的搜索引擎只显示网页的标题，有些则有更详细的一些信息，比如网页的内容，更新日期等；

查询算法：一个优秀的查询算法是很重要的，最基本的布尔查询，短语查询，有的搜索引擎还提供指定属性的查询，比如可以指定对网页的作者、主题进行查询。另外有的搜索引擎还采用了相关度反馈、概念查询等算法；

用户界面：很多搜索引擎都提供了简单查询和高级查询两个界面。并且提供了必要的帮助和范例。

1.3 图像检索的发展方向

图像检索技术给用户提供了一个在互联网上搜索感兴趣图像资源的有效手段，基于文本和基于内容是图像检索发展的两个分支，不过从目前图像检索研究的趋势而言，尤其结合网络环境下图像的特征——嵌入在具有文本内容的Web文档中，出现了三个不同的研究着眼点。

(1)基于文本的检索研究

立足于文本，对图像进行检索。试图将传统的文本检索技术移植于对多媒体信息的检索上，因为基于文本的检索技术发展已经成熟。如Page-Rank方法、概率方法、位置方法、摘要方法、分类或聚类方法、词性标注法等，不仅技术发展较为成熟，同时分析和实现的难度略小。但是因为受控词汇本身的局限，易歧义，更新慢，所以不太容易应对网络上日新月异的各类图像。

(2)基于内容的检索研究

立足于图像内容，对图像进行分析和检索。相比而言，尽管图像检索已经出现了诸如直方图、颜色矩、颜色集等多种表征图像特征的方法，但是要突破对低层次特征的分析，实现更高语义上的检索，实现难度大，进展慢。不过，基于内容的图像检索建立在多媒体信息的内容语义上，能够更为客观地反映媒体本质的特征。

(3)基于文本内容结合的检索研究

结合文本和内容，二者虽侧重不同但却互相补充。如果能将二者结合起来取长补短，则网络的图像检索技术必有新的进展。已有的图像搜索引擎在信息的自动加工和标引方面都有待提高，需要开发出计算机自动识别和标引图像的算法和技术，以完善现有的检索功能，并与已有的成熟的图像库检索技术相结合，这是今后应该研究的一个课题。而且，图像库检索技术也应面向网络，利用网络技术进行改造，提供新的WWW访问界面代替原来的应用系统界面。同时将巨大的图像库资源利用网络实现共享

(4)对基于内容编码技术的研究

可以说，三个方向都是相互影响和促进的，任何一个方向的进展都会促进图像检索技术向前更进一步。

目前，国际上还没有通用的基于内容的编码标准。20世纪90年代初，国际上就开始了对基于内容的图像信息检索方面的研究。从基本的颜色检索，到综合利用多种图像特征进行检索，大量原型系统已经推出，其中，部分已投入到实际应用中以检验其有效性。同时，MPEG-7标准作为基于内容的多媒体编码标准也正在制定当中，即将成为国际标准中的一员。因此，应尽快对MPEG-7标准进行研究，分析其编码的实质，在此基础上进一步研究基于内容检索的系统，使我国基于内容的图像检索尽快走向实际应用阶段。

(5)对用户查询接口的研究

这涉及到用户对图像内容的感知表达、交互方式的设计、用户如何形成并提交查询等方面。现代多媒体信息系统的一个重要特征就是信息获取过程的可交互性，人在系统中是主动的。除了提供示例和描绘查询基本接口之外，用户的查询接口应提供丰富的交互能力，使用户在主动的交互过程中表达对图像语义的感知，调整查询参数及其组合，最终获得满意的查询结果。用户的查询接口应该是直观易用的，底层的特征选择对用户是透明的。这里涉及到如何把用户的查询表达转换为可以执行检索的特征矢量，如何从交互过程中获取用户的内容感知，以便选择合适的检索特征等问题。

一个优秀的搜索引擎必须处理以下几个问题：

(1)网页的分类

(2)自然语言的处理

(3)搜索策略的调度和协作

(4)面向特定用户的搜索。

因此，现在有很多的网络检索工具，也就是说搜索引擎采用了智能的检索手段来增强它的检索能力，而图片检索正是其中的一大块内容。

随着网上多媒体的广泛应用，对图像的检索需求将会越来越迫切。未来的图像检索技术将是网络技术和基于内容的图像库检索技术的结合。随着多媒体信息处理技术的日益发展和深化，图像信息的加工、处理和检索标准的出台，网上的图像检索技术将会日趋完善，而图像搜索引擎也将成为Internet上的新宠。

第二章基于Web的图像搜索

在网络技术和计算机技术高速发展、多媒体应用越来越普及的现在，图像检索和图像应用已成了如今网页中不可缺少的重要部分。在能够实现对网页中文本信息提取的同时，如何再为用户抽取所需的图片资料是信息检索中一个值得研究的问题。现有的检索技术基于关键词匹配进行检索，往往存在查不全、查不准、检索质量不高的现象，特别是在网络信息时代，利用关键词匹配很难满足人们检索的要求。当然现在的人们也可以利用图像的内容特征去搜索所需的图片信息，但现在这项技术就是到现在也还不够成熟，其搜索效率还是不能令人满意。

如今在Web中处理图像检索有很多成熟的技术，如基于Web的数据仓库、Web数据挖掘、Web数据源集成技术等。为此，必须为Web建立适当的数据模型，利用数据模型有效地从Web中获取信息。为了处理Web的中文数据，还必须使用一系列中文自然语言处理技术。比较基础的技术有自动分词、人名和机构名的自动识别、自动标引等，其他像信息抽取、自动文摘、文档自动分类、中文概念词的自动发现以及概念词之间的语义关系的确定等技术都必不可少。实现上述技术需要扎实的积累和自然语言处理功底。

而如何利用现有成熟的传统的图片检索手段，研究出快捷方便而且能迅速提高检索效率的方法，本文将依据现有的搜索引擎和检索手段的研究找到网页中文本与图像之间的内在特点和联系，改进原有的文本搜索使用的模式和方法，提出新的文本相似的匹配算法，并引入检索的反馈技术，把这些技术引入到图像检索中，使得搜索手段更易于实现和提高检索效率。

2.1文本与图像之间的关系

在文本检索中，搜索引擎主要考虑Web页中相关文字信息以及它的语义，这些文本信息反映出网页的内容，但不完全与网页中图片的内容一致。在HTML网页中，根据HTML语言的格式，捕获反映图片信息的文字信息，分析这些文本的语义具有重要的意义。如在HTML文档中标记以及其周围的文字信息，与网页中的插图的内容有着密切的联系。

2.1.1表示图像内容的文本标记

为了能识别嵌入网页中图片的内容，必须仔细检索HTML文档中能反映出图像内容的标记与其中的文本。经过对HTML网页格式的分析与对大量实际网页的研究，可知以下几个方面的标记与文本和图像内容有着最为密切的联系。

图像的说明，这些文本出现在图像的周围，用一句过多句话表示出图像的内容，当图像被置于表格中时，同一单元或相邻单元格内的文字也常用与表示图像的含义。

图像的标题，通常用一个关键词表示图像信息。

图像的标签，使用一段短语说明图片的摘要信息，图片无法显示时用标签的文本取代图片，显示摘要信息。

网页的标题，该标题反映出网页的中心内容，作为表现网页内容的图片与网页的标题之间也有着一定的联系。

以上讨论的是HTML中文档和嵌入网页中图像文本信息的关系，当然还存在其他的文本与多媒体信息和图像有关。但是作为搜索引擎要考虑的方面，既要保证抽取信息的准确性，也要兼顾程序执行中时间、空间的复杂度。过多地引入与图像关系不是十分紧密的内容作为检索的依据，会引入检索时的躁声干扰，降低搜索效率。

2.1.2 文本的权值比较

以上讨论了网页中对图像信息的描述，在图像的检索中，首先是要建立描述图片内容特征的查询语句，然后比较、区分描述信息与查询语句之间的异同，获取需要检索的图像。但以上信息在对图像描述时侧重于不同角度，同时与图像信息的联系程度也不一样。图像标题和网页标题是简单的词条，两者中相对来说图像标题更接近图像的主题内容。图像的标签和图像的说明是文本信息对图像内容的描述，后者相对来说更为详细。所以在比较、区分各类文本信息以决定是否符合检索要求时，它们所占的权值应该是有所不同的。根据信息的重要程度，他们所占的权值大小按次序如下：

Image Caption>Image Title>Image Alternate>Page Title

2.2 图像信息检索

Web搜索引擎采用何种检索模型，它所提供检索质量将直接影响到检索的效果。现在使用较多的是布尔检索模型、概率检索模型、概率推理网络模型和向量空间模型。这里采用的是近年来使用较多且效果较好的一种信息检索模型：向量空间模型。

2.2.1 检索模型与相似度

在用向量空间模型进行检索的时候，首先把描述网页中的图片的文字信息看作是有序的词条序列，这样把以上归纳的信息分别称为：ICW，ITW，IAW，PTW。在应用模型时，我首先要将这些信息向量化，把文档映射为一个特征向量V(d)=(t1,ω1(d)；…；tn, ωn(d))，其中ti(i=1,2, …,n)为一列互不雷同的词条项，ωi(d)为ti在d中的权值, 一般被定义为ti在d中出现频率tfi(d)的函数，即

在信息检索中常用的词条权值计算方法为 TF-IDF 函数

其中N为所有文档的数目，ni为含有词条ti的文档数目。TF-IDF公式有很多变种，下面是一个常用的TF-IDF公式：

根据公式，文档集中包含某一词条的文档越多，说明它区分文档类别属性的能力越低，其权值越小；另一方面，某一文档中某一词条出现的频率越高，说明它区分文档内容属性的能力越强，其权值越大。

两文档之间的相似度可以用其对应的向量之间的夹角余弦来表示，即文档di，dj的相似度可以表示为

进行查询的过程中，先将查询条件Q进行向量化，主要依据布尔模型:

当ti在查询条件Q中时，将对应的第i坐标置为1，否则置为0，即

也就是说当两词条完全相同时，，这一项为1，其余情况为0。可以看出文档含有完全相同的词条时，相似度=1；而其中无相同时的词条时，相似度=0。

从而文档d与查询Q的相似度为

根据文档之间的相似度，结合机器学习的一些算法如神经网络算法，K-近邻算法和贝叶斯分类算法等，可以将文档集分类划分为一些小的文档子集。

在查询过程中，可以计算出每个文档与查询的相似度，进而可以根据相似度的大小，将查询的结果进行排序。

向量空间模型可以实现文档的自动分类和对查询结果的相似度排序，能够有效提高检索效率；它的缺点是相似度的计算量大，当有新文档加入时，则必须重新计算词的权值。

2.2.2 分词技术和匹配方法

1. 常用的切词算法如下：

最大正向匹配法

基本思想是：设D为词典，MAX表示D中的最大词长，str为待切分的字串。它是每次从str中取长度为MAX的子串与D中的词进行匹配。若成功，则该子串为词，指针后移MAX个汉字后继续匹配，否则子串逐次减一进行匹配。

(2)逆向最大匹配法

它的基本原理与前面的相同，不同的是分词的扫描方向，它是从右至左取子串进行匹配。统计结果表明，单纯使用正向最大匹配的错误率为1/169，单纯使用逆向最大匹配的错误率为1/245，它切分的准确率上比正向匹配法有很大提高。

(3)基于词频的统计方法

统计方法一般不依赖于词典，而是将原文中任意前后紧邻的两个字作为一个词进行出现频率的统计，出现的次数越高，成为一个词的可能性也就越大。在频率超过某个预先设定得阈值时，就将其作为一个词进行索引。这种方法能够有效地提取出未登录词。

2. 匹配方法：

(1)词典存储格式：

首先对存储形式进行建模，结构是3层树形结构，如下

asp.net中图像的检索技术毕业设计(论文+源码+任务书+开题报告+答辩ppt)_第20张图片

一层存储所有单字。第二层保存所有的双字词和多字词的前两个字（因为，也许会出现ABC为词，但AB不是词的情况），并对两者做不同标记(t/f)。每一个可成词的单字对应一系列第二层结点，用来存储所有以该字为词首的双字（包括上述两种情况）。并且，在这里，针对每一个双字，需要记录以该双字为词首的所有词的最大长度，实际中，可以保存除去该双字部分的最大长度(记为n)。第三层存储以某一双字为首的所有词。为了减少存储空间，只存储除去该双字以外的部分（如上图所示）。每一层各结点需按某种次序排列，可使用hash、二分查找等方法进行查询。采用这种层次的存储结构，可以很快把查询词的工作缩小到一个很小的范围内，有利于分词效率的提高。

(2)匹配方法

由于词库中的最大词长通常大于所切分出的词长，为了提高切分的效率，不采用逐次减一个字的方法，而是使用正向逐一增长的方法。

假设对一个句子C1C2……进行分词处理，算法描述如下：

1) 两个字（开始时为C1C2），在词典中查询C1C2是否存在

2) 不存在，则C1为单字词，一次分词结束，返回1。

3) 存在，判断C1C2是否为词，并从词典中获取该词下层节点汉字的最大长度，设为n

4) 若n=0，一次分词结束，保存结果。

否则，i=2，转6)。

i=i+1，若i=n+3，转8)；否则，转7)。

再取一个字（此处为Ci），判断第三层中是否有以C3……Ci开始的字(不需要恰好匹配，只要匹配开始的i个字就可以了)。

若存在，分词结束，返回最近一次能够恰好匹配的C3……Cj(j

否则，转6)。

(3)统计方法运用

由于词典的不完全性，许多词可能不会在字典中登录，为了处理句子中的未登录词，我们在原有的算法中嵌入词频统计方法，将某些出现频率较高的连续字段作为一个词切分，我们首先对频度设定一个阈值f。

设已对C1……Cn进行切分，由切分算法和歧义处理算法得到C1……Ci为一个词，Cj……Cn为一个词，Ci与Cj之间皆为单字词，即C1……Ci和Cj……Cn是相邻最近的两个多字词，则将Ci+1……Cj-1作为一个多字词进行词频统计，在对文章全部切分完毕之后，若Ci+1……Cj-1的出现次数达到f时，则将其看作一个词，否则，将其拆分为单字词。

同时，对于相同或相近专业和领域建立起动态词库，将由统计得到的词不断加入词库中，可以实现对词典的动态维护。

以上通过将基于词典的处理方法和基于频率的统计方法结合起来匹配搜索运算，不仅保证了切分速度快、精度高的优点，而且能够结合上下文，最大限度的识别人名、地名、专业术语等未登录词。

2.3 检索反馈

由于初时的查询语句常常与我们所要的图像内容不符，使得我们找不到我们想要的东西，因此，许多系统都引入了相关反馈，即通过选择一些正确/错误的例子作为反馈，来逐渐提高检索的结果。借鉴文本信息检索的方法，我们在系统中也引入了相关反馈来修改用户提交的查询，使得修改后的查询逐步接近用户真正的需求，来提高系统的性能。通过相关反馈对用户提交的查询的修改，检索的性能比原先有了一定的提高。不过，大多数相关反馈并不具有记忆能力，每次反馈后的结果只能提高本次查询结果。因此我们引入了语义网络，把每次反馈的结果记录到语义网络中，使得系统的效果随着使用次数的增加而逐步提高。

本文介绍的反馈系统，主要集中在对查询语句(Q1,W1,Q2,W2，… , Qm,,Wm)中 Wj的修整中，查询语句中对初始Wj的定义具有一定的偏差，反馈系统可以适当调整Wj，使查询语句(Q1,W1,Q2,W2，… , Qm,,Wm)更反映检索的目的。当查询到m=r+n幅图片时，其中r幅图片与目标相关，n幅图片与目标无关。反馈系统可根据用户的反馈结果，重新生成查询语句如下：

其中矢量

是检索结果图像网页的矢量表示，在矢量

中，选择在相似度计算中有贡献的分量作为反馈信息。在公式5中，一般选γ=1 ，0〈 β〈1 ，0〈 α〈1 ，β与α值的选取影响着反馈深度，也直接影响着检索的精度。实践表明，具有反馈系统的图像检索系统要比无反馈的图像检索精度提高10%左右，而且m越小，检索的精度越高.

我们在设计检索系统时，提供反馈无反馈选择，并且在反馈系统中提供取值的选

asp.net中图像的检索技术毕业设计(论文+源码+任务书+开题报告+答辩ppt)_第21张图片

asp.net中图像的检索技术毕业设计(论文+源码+任务书+开题报告+答辩ppt)_第22张图片

择。当m取值较小时，直接显示检索到的图像，并供用户选择是否与目标图像的相关性。以上都是为了改善用户界面，便于反馈系统的应用。下面是测得当m=1时，检索精度与反馈中系数α、β之间关系的曲线，图中可以得出α=0.1 时检索精度Precision取最大值，图2中可以得出β在0.5～0.6 之间时检索精度Precision取最大值。从图1和图2又可以得出，当α=β=0无反馈时检索精度Precision=48%,当α=0.1 ，β=0.5 或0.6时检索精度Precision =61%，引入反馈系统使检索精度提高了13%。

为检验搜索模型，下载含有图像的4000多个中文网页( 来自1000多个 URLs)，对这些HTML文档进行检索。在查询语句建立以后，通过词条网对具有相同语义的词条进行扩充，构建符合查询要求的多个IQW，然后分别计算出各自的相似度，根据相似度规定的临界值，得

asp.net中图像的检索技术毕业设计(论文+源码+任务书+开题报告+答辩ppt)_第23张图片

asp.net中图像的检索技术毕业设计(论文+源码+任务书+开题报告+答辩ppt)_第24张图片

出查询的结果。实验表明，合理地选取相似度临界值可以保证较高检索精度与检索完全度。从图3中可以看出，当相似度临界值>0.6时，能保证检索精度>80%，从图4中看出，当相似度临界值<0.6时，能保证检索完全度>60%。当相似度临界值取0.6时，本搜索模型可以保证检索精度>80%，而检索完全度>60%。

为决定ICW，ITW，IAW，PTW在相似度计算中的权值，测试从0.1～ 1.0的所有系数。最终得出ICW，ITW，IAW，PTW的权值分别为0.4、0.3、0.2、0.1时，能比较合理地反映出图片与这些文本的相关性，保证检索的准确性。

结束语

在了解了搜索引擎的搜索原理公式和反馈原理之后,我们可以根据其理论做出相应的搜索引擎,并能作出比较搜索效果。但为了能更好的使用，还得去仔细更好的给文档进行分类，更多的对此引擎进行反馈训练查询等，使得Web搜索引擎具有更好的智能性和个性化的特点。

参考文献

[1] 张量，詹国华，袁贞明，基于Web的图像搜索，计算机工程，2002.5

[2] 朱学芳，多媒体信息处理与检索技术[M]，电子工业出版社，2003

[3] 陈滢，徐宏炳，王能斌，协作式Web资源发现系统模型，计算机学报，1998.4

[4] 阳小华，周龙骧，World Wide Web 的索引与查询技术，计算机科学，1997

[5] 吴立德等，大规模中文文本处理，复旦大学出版社，1997

[6] 李唐，解读网络图像搜索引擎，Internet网络，2001

[7] 陈立娜，Internet上的图像检索技术，天极yesky，2001.5

[8] 黄博士，网络环境下的图像检索技术，中国计算机用户，2003.12.30

[9] Dunlop M.D. [1991]. Multimedia Information Retrieval,Ph.D. Thesis. Computing Science Department, University of Glasgow, Report 199l/R21.

[10] Ellen M. Voorhees and Yuan-Wang Hou, "Vector Expansion in a Large Collection”, First Text REtrieval Conference [TREC-1], 1993.

[11] Frisse M.E, [1988]. Searching for information in a hypertext medical handbook. Communications of the ACM, 3 I[7], pp.880-886.

[12] R.Price, T.S Chua, and S.Al-Hawamdeh, Applying relevance feedback on a photo archival system. Journal of Information Science, 18:203-215, 1992

[13] W.Niblack, R.Barber, and W.Equitz. the qbib project:querying images by content using color, texture, and shape. Technical report, IBM RJ 9203[81511], Feb, 1993

[14] Shih-Fu Chang, William Chen, and Hari Sundaram,Semantic Visual Template - Linking Visual Fetures to Semantics. IEEE Intern Conference on Image Processing, Chicago IL, Oct 1998

[15] A.E. Cawkell, Imaging systems and picture collection management: a review. Information Service & Use, 12:301-325, 1992

[16] T.S. Chua and W.C. Low, and Ch.X. Chu, relevance feedback techniques for color-based image retrieval. In Proceeding of Multimedia Modelling’98, IEEE Computer Society, Oct, 1998.

你可能感兴趣的:(Android,asp.net,课程设计,java,源码软件,android)

EasyExcel 初使用—— Java 实现多种写入 Excel 功能 Java雪荷 EasyExcel java excel 开发语言 github
前言大家好，我是雪荷。之前有一篇博客（EasyExcel初使用——Java实现读取Excel功能_javaeasyexcel.read-CSDN博客）介绍了Java如何读取Excel表格，那么此篇博客就和大家介绍下Java如何利用EasyExcel写入Excel。EasyExcel官方网址：EasyExcel官方文档-基于Java的Excel处理工具|EasyExcel前置准备引入依赖先创建一个S
【unitrix】 4.19 类型级二进制数减法实现解析(sub.rs) liuyuan77 我的unitrix库 rust
一、源码这段代码实现了一个类型级别的数值系统，支持多种数字类型（整数、定点数、变量）之间的减法运算。它使用了Rust的类型系统特性（traits和关联类型）在编译期完成数值计算。//小数、浮点数与Var的混合计算未实现usecore::ops::{Neg,Not,Add,Sub};usecrate::number::{Z0,P1,N1,B0,B1,FixedPoint,Var,NonZero,Pr
纯CSS实现有趣emoji切换开关南城FE 前端CSS那些事南城前端专栏 css 前端
这是一个纯CSS创建的动画切换开关，它不仅能够在视觉上吸引用户，还能通过交互提供即时反馈。本文将解析源码的核心实现逻辑，这个项目的核心是使用CSS变量、3D变换和过渡效果来实现一个动态的、响应式的用户界面元素。关键技术点CSS变量：用于动态调整样式。3D变换：用于创建翻转动画效果。过渡效果：用于平滑地改变元素的样式。emoji：并不是真正的emoji而是通过CSS绘制。实现步骤1.HTML首先需要
Spring Boot 牵手EasyExcel：解锁高效数据处理姿势灵犀学长 Spring Boot 全栈开发 spring boot java 架构微服务后端
引言在日常的Java开发中，处理Excel文件是一个极为常见的需求。无论是数据的导入导出，还是报表的生成，Excel都扮演着重要的角色。例如，在企业的财务管理系统中，需要将每月的财务数据导出为Excel报表，方便财务人员进行数据分析和审计；在人力资源管理系统中，可能需要导入员工的基本信息、考勤记录等数据到系统中。然而，传统的Excel处理方式，如使用POI等工具，虽然功能强大，但在面对复杂的业务场
Java 工作中常用案例 qq_4240 java
1.LocalDateTime获取某月的第一天开始时间和最后一天的结束时间/***获取指定年和月的第一天和最后一天*应用：数据库同步，本地库和其他库按照月份分组统计后，两两比对后，得到不相同的月份，*根据月份的第一天和最后一天，查询两个库具体值，做交集或差集，然后得到未同步*的数据后同步数据*2022-12xx*2022-11xx*@parammonth2022-12*@return*/publi
AI智能体原理及实践：从概念到落地的全链路解析 you的日常人工智能大语言模型人工智能机器学习深度学习神经网络自然语言处理
AI智能体正从实验室走向现实世界，成为连接人类与数字世界的桥梁。它代表了人工智能技术从"知"到"行"的质变，是能自主感知环境、制定决策、执行任务并持续学习的软件系统。在2025年，AI智能体已渗透到智能家居、企业服务、医疗健康、教育和内容创作等领域，展现出强大的生产力与创造力。然而，其发展也伴随着技术挑战、伦理困境和安全风险，需要从架构设计到落地应用的全链条思考与平衡。一、AI智能体的核心定义与技
11 DPDK 探索大页内存原理
在分析dpdk大页内存的源码之前，有必要对linux内存管理的原理以及大页内存的原理有个了解，缺少这些底层基础知识，分析dpdk大页内存的源码将举步维艰。这篇文章详细介绍下linux内存管理以及大页内存的方方面面，为分析dpdk大页内存源码扫除障碍。一、linux内存管理原理1、mmu内存管理的引入在没有引入mmu内存管理单元时，对于32位操作系统，每个进程都有2的32次方的地址空间(4G)。如果
使用Node.js命令行进行编程翠绿探寻 node.js vim 编辑器编程
Node.js是一个基于ChromeV8JavaScript引擎构建的运行时环境，它可以让开发者使用JavaScript语言编写服务器端代码。Node.js命令行界面（CLI）是一个强大的工具，它提供了与Node.js交互和执行JavaScript代码的能力。在本文中，我们将介绍如何在Node.js命令行中使用JavaScript进行编程，并提供相应的源代码示例。1.安装Node.js首先，我们需
Kafka系列之：不删除Kafka Topic，清理Kafka Topic中的数据快乐骑行^_^ Kafka Kafka系列不删除Kafka Topic 清理Kafka Topic数据
Kafka系列之：不删除KafkaTopic，清理KafkaTopic中的数据一、需求二、Java删除Topic中数据三、python删除Topic中数据一、需求需要清理topic中的数据但是不能通过删除topic删除数据，则采取基于topic的offset删除topic中的数据二、Java删除Topic中数据HashMapdeleteRecords=newHashMap<>();这一行创建了一个
反向遍历--当你修改一个元素的outerHTML时，该元素会被从 DOM 中移除专注VB编程开发20年 html javascript
varspans=editor.querySelectorAll('span[mytag]');//将NodeList转换为数组//varspansArray=Array.from(spans);varid=0spans.forEach(span=>{span.outerhtml这里无法直接修改吗?}在JavaScript中，outerHTML是一个可写属性，但你需要注意以下几点：1.属性名大小写
java中，stream的filter和list的removeIf筛选速度比较码傻啦弟软件开发 java list python
在Java里，Stream的filter和List的removeIf筛选效率要依据具体情形来判断。1.操作本质有别Stream的filter：它是一种中间操作，不会立刻执行，而是把筛选条件记录下来。只有遇到终端操作时，才会开始处理元素。此操作不会对原集合进行修改，而是生成一个新的流。List的removeIf：这是一种终端操作，会立即对原集合进行修改，删除满足条件的元素。它直接在原集合上进行元素的
量子化学仿真软件：NWChem_（17）.NWChem与其他软件的接口 kkchenjj 化工仿真2 数据库服务器前端化工仿真
NWChem与其他软件的接口在量子化学仿真中，NWChem经常需要与其他软件进行接口连接，以便利用其他软件的优势或扩展其功能。本节将详细介绍NWChem与其他常用软件的接口，包括电子结构软件、分子动力学软件、数据分析工具等。我们将探讨如何通过这些接口实现数据交换、功能调用和联合仿真。1.NWChem与Gaussian的接口Gaussian是另一款广泛使用的量子化学软件，具有强大的电子结构计算功能。
python模拟行星运动_动态模拟运行太阳系的行星运转
在地理学科中，都要学习认识太阳系的知识，对于天体的运动，没有动态演示的话，学生们只能凭空想象，无法观看到九大行星之间到底是如何运转的。几何画板作为人教版指定教育软件，被老师们广泛用于教学中，不仅仅可以用来演示几何图形，还可以应用在地理学科中演示天体运动情况，下面就给大家介绍利用几何画板制作的动态模拟运行太阳系的九大行星课件。几何画板动态模拟运行太阳系的九大行星课件样图：几何画板课件模板——动态模拟
Tomcat镜像实战：掌握Dockerfile的编写以及发布项目 hunjinYang Linux tomcat docker
1.为什么选择Docker部署Tomcat？在传统的JavaWeb项目部署中，我们通常需要手动安装JDK、配置Tomcat环境变量、手动部署WAR包，部署过程繁琐、不可重复、环境易出错。而Docker的出现彻底改变了这一局面。本博客将通过一个完整的Tomcat镜像构建与部署实例，带你逐步掌握以下技能：编写自己的Dockerfile构建定制化的Tomcat镜像（包含JDK与Tomcat）在容器中运行
C#安装使用教程小奇JAVA面试安装使用教程 c#开发语言
一、C#简介C#（读作C-Sharp）是微软开发的现代化、面向对象的编程语言，运行在.NET平台之上。它语法简洁、安全，广泛用于桌面应用、Web开发、游戏开发（Unity）以及跨平台开发。二、C#应用场景Windows桌面应用程序（WinForms、WPF）Web应用（ASP.NET）游戏开发（Unity3D）移动开发（Xamarin、MAUI）云服务、API开发控制台程序、自动化工具三、安装开发
ASP.NET Web程序设计——WebPages 勤奋的菜鸟a ASP.NET web程序设计小笔记 asp.net
概述：移动互联网（MobileInternet，简称MI）是一种通过智能移动终端，采用移动无线通信方式获取业务和服务的新兴业务移动互联网被称为下一代互联网Web3.0移动互联网具有几个鲜明的特性：（1）便捷性和便携性（2）网络的局限性（3）即时性和精确性ASP.NETWebForms技术带来的负面效应:(1)由于控件封装了很多东西，开发者很难了解这背后的HTML是如何运作的;(2)容易得到一个包含
手机评论管理系统中奖秀晒图源码本套晒图源码（源码下载）
手机评论管理系统中奖秀晒图源码本套晒图源码采用mysql+html使用说明：测试环境：Nginx+PHP7.0+MySQL5.6评论管理后台访问：http://你的域名/review-admin.html评论列表首页：http://你的域名/mskhj.html源码下载：https://download.csdn.net/download/m0_66047725/91273788更多资源下载：关注
ASP.NET Web Pages - 教程 samFuB asp.net 前端后端
ASP.NET是一个使用HTML、CSS、JavaScript和服务器脚本创建网页和网站的开发框架。ASP.NET支持三种不同的开发模式：WebPages（Web页面）、MVC（ModelViewController模型-视图-控制器）、WebForms（Web窗体）：本教程介绍WebPages。WebPagesMVCWebForms从何入手？多数开发人员学习一个新技术，是从查看运行实例开始的。通
ASP.NET Web Pages 教程：从入门到精通 KrDebugging asp.net 前端后端编程学习
ASP.NETWebPages是一种用于构建动态网页的技术，它结合了传统的HTML、CSS和JavaScript，以及强大的服务器端编程语言C#。本教程将带您逐步学习ASP.NETWebPages的基础知识，并通过示例代码演示如何创建交互性强、功能丰富的网页应用程序。环境设置在开始学习ASP.NETWebPages之前，您需要进行以下环境设置：安装VisualStudio：您可以从Microsof
JavaScript中==和===的区别，以及应用场景小熊哥^--^ 前端 javascript 前端开发语言
比较操作符==与===的区别==是一个等于操作符，如果操作数相等就会返回true，但==涉及JavaScript中的隐式转换。在使用==时会先进行类型转换，再判断操作数是否相等。以下是示例：console.log(true==1);//trueconsole.log("1"==true);//trueconsole.log("55"==55);//trueconsole.log(0==false)
Docker-compose容器编排
⼀、Docker-compose定义1.dockercompose是docker官⽅的开源项⽬，负责实现对docker容器集群的快速编排(容器，依赖，⽹络，挂载。。)2.compose是docker公司推出的⼀个⼯具软件，可以管理多个docker容器组成的应⽤3.需要定义⼀个YAML格式的配置⽂件docker-compose.yml，写好多个容器之间的调⽤关系4.使⽤compose的步骤、5.1.
多系统兼容打印机万能驱动软件：Win/Mac/Linux自动检测 + 全品牌适配
各位打印小白们，你们有没有遇到过打印机连不上电脑，或者找不到合适驱动的糟心事？今天就来给大家唠唠打印机万能驱动这个软件软件下载地址安装包打印机万能驱动，说白了就是给打印机用的通用驱动程序工具，靠内置的驱动库和自动检测技术，能适配好多不同品牌、不同型号的打印机。你再也不用发愁找不到对应的驱动，也不用被复杂的安装流程搞得晕头转向啦！这软件兼容性超强，Windows、Mac、Linux这些操作系统它都能
讨论 Git 在版本控制中的重要性（面试题200合集，中频、实用）快撑死的鱼算法工程师宝典（面试学习最新技术必备）git elasticsearch 大数据人工智能深度学习
Git在版本控制中的重要性在软件开发领域，版本控制系统（VersionControlSystem,VCS）扮演着至关重要的角色。它不仅帮助开发者追踪和管理代码的变更历史，更是团队协作、项目管理和代码质量保障的基石。而在众多的版本控制系统中，Git凭借其卓越的性能、灵活的设计和强大的功能，已经成为当今世界范围内最流行、应用最广泛的版本控制工具。理解Git的重要性，对于任何软件开发者而言都是一项基本且
Android 自定义View 绘制一条颜色渐变，粗细渐变的线 nc_kai 笔记 Android 安卓
自定义View绘制一条颜色渐变，粗细渐变的线效果图如下：自定义View代码importandroid.annotation.SuppressLintimportandroid.content.Contextimportandroid.graphics.*importandroid.util.AttributeSetimportandroid.util.Logimportandroid.view.V
Android 腾讯地图获取当前缩放级别 nc_kai Android 腾讯地图 android
Android腾讯地图获取当前缩放级别tencentMap.setOnCameraChangeListener(newTencentMap.OnCameraChangeListener(){@OverridepublicvoidonCameraChange(CameraPositioncameraPosition){}@OverridepublicvoidonCameraChangeFinishe
GitHub 完全指南：从入门到高效协作开发 FrostedLotus·霜莲 github
GitHub：现代软件开发的核心协作平台GitHub作为全球领先的代码托管平台，已经成为软件开发领域不可或缺的基础设施。本文将客观介绍GitHub的核心功能和应用价值。一、平台概述GitHub创立于2008年，是基于Git版本控制系统的代码托管服务平台。2018年被微软收购后，平台功能持续增强。目前GitHub托管着超过4亿个代码仓库，服务全球1亿开发者。二、核心功能代码仓库管理支持创建公开/私有
Spring Boot 应用开发入门指南 20230310121 spring boot 后端
引言在现代软件开发中，SpringBoot以其简化配置和快速开发的特性，成为构建Java应用的热门选择。本文将通过多个主题为大家详细介绍如何搭建和开发SpringBoot应用，涵盖开发环境配置、项目搭建、持久层整合等内容。1.配置开发环境1.1JDK安装首先，确保安装了JDK（JavaDevelopmentKit）。推荐使用JDK11或更高版本。下载地址：OracleJDK安装完成后，配置环境变量
免费棱光 PDF：免安装加水印去水印批量格式转换小瑞软件库开源软件电脑软件构建
各位办公小能手们，今天给大家介绍一款超棒的PDF处理工具——棱光PDF！它完全免费，专门解决咱对PDF文件的常见操作需求。绿色免安装，体积小得跟颗花生米似的，打开就能用。它有三大核心功能，分别是水印管理、格式转换和批量处理。软件下载地址安装包先说说水印处理，你可以给PDF文件加上自定义的文字或者图片水印，还能随便调整水印的位置、大小和透明度。要是文档里已经有水印，它也能精准识别，然后一键清除。，把
单片机：STM32F103的开发环境搭建 InnoLink_1024 单片机嵌入式单片机 stm32 嵌入式硬件
本文将详细介绍如何搭建STM32F103的开发环境。STM32F103是STMicroelectronics推出的一款基于ARMCortex-M3内核的32位微控制器（MCU），广泛应用于嵌入式开发。以下是搭建开发环境的详细步骤，涵盖硬件准备、软件安装、工具链配置及简单的开发示例。1.硬件准备在搭建STM32F103开发环境之前，需要准备以下硬件：STM32F103开发板：常见型号包括STM32F
202505架构师论文《论静态负载均衡策略设计和应用》文琪小站系统架构师软考论文负载均衡运维软考论文
软件架构师论文范文系列摘要在当今高度依赖信息技术的时代，构建高性能、高可用的分布式系统已成为必然趋势。负载均衡作为分布式系统中的关键技术，旨在将请求或数据有效地分发到多个处理单元，以优化资源利用率、提升系统吞吐量并确保服务的稳定运行。本文深入探讨了静态负载均衡策略的设计原理、技术特点及其在实际项目中的应用。首先，概述了负载均衡的整体概念及静态策略的分类，重点介绍了基于哈希、轮询和权重等静态算法的实
解读Servlet原理篇二---GenericServlet与HttpServlet 周凡杨 java HttpServlet 源理 GenericService 源码
在上一篇《解读Servlet原理篇一》中提到，要实现javax.servlet.Servlet接口（即写自己的Servlet应用），你可以写一个继承自javax.servlet.GenericServletr的generic Servlet ，也可以写一个继承自java.servlet.http.HttpServlet的HTTP Servlet（这就是为什么我们自定义的Servlet通常是exte
MySQL性能优化 bijian1013 数据库 mysql
性能优化是通过某些有效的方法来提高MySQL的运行速度，减少占用的磁盘空间。性能优化包含很多方面，例如优化查询速度，优化更新速度和优化MySQL服务器等。本文介绍方法的主要有： a.优化查询 b.优化数据库结构
ThreadPool定时重试 dai_lm java ThreadPool thread timer timertask
项目需要当某事件触发时，执行http请求任务，失败时需要有重试机制，并根据失败次数的增加，重试间隔也相应增加，任务可能并发。由于是耗时任务，首先考虑的就是用线程来实现，并且为了节约资源，因而选择线程池。为了解决不定间隔的重试，选择Timer和TimerTask来完成 package threadpool; public class ThreadPoolTest {
Oracle 查看数据库的连接情况周凡杨 sql oracle 连接
首先要说的是，不同版本数据库提供的系统表会有不同，你可以根据数据字典查看该版本数据库所提供的表。 select * from dict where table_name like '%SESSION%'; 就可以查出一些表，然后根据这些表就可以获得会话信息 select sid,serial#,status,username,schemaname,osuser,terminal,ma
类的继承朱辉辉33 java
类的继承可以提高代码的重用行，减少冗余代码；还能提高代码的扩展性。Java继承的关键字是extends 格式:public class 类名（子类）extends 类名（父类）{ } 子类可以继承到父类所有的属性和普通方法，但不能继承构造方法。且子类可以直接使用父类的public和 protected属性，但要使用private属性仍需通过调用。子类的方法可以重写，但必须和父类的返回值类
android 悬浮窗特效肆无忌惮_ android
最近在开发项目的时候需要做一个悬浮层的动画，类似于支付宝掉钱动画。但是区别在于，需求是浮出一个窗口，之后边缩放边位移至屏幕右下角标签处。效果图如下：一开始考虑用自定义View来做。后来发现开线程让其移动很卡，ListView+动画也没法精确定位到目标点。后来想利用Dialog的dismiss动画来完成。自定义一个Dialog后，在styl
hadoop伪分布式搭建林鹤霄 hadoop
要修改4个文件 1: vim hadoop-env.sh 第九行 2: vim core-site.xml <configuration> &n
gdb调试命令 aigo gdb
原文：http://blog.csdn.net/hanchaoman/article/details/5517362 一、GDB常用命令简介 r run 运行.程序还没有运行前使用 c cuntinue
Socket编程的HelloWorld实例 alleni123 socket
public class Client { public static void main(String[] args) { Client c=new Client(); c.receiveMessage(); } public void receiveMessage(){ Socket s=null; BufferedRea
线程同步和异步百合不是茶线程同步异步
多线程和同步 : 如进程、线程同步，可理解为进程或线程A和B一块配合，A执行到一定程度时要依靠B的某个结果，于是停下来，示意B运行；B依言执行，再将结果给A；A再继续操作。所谓同步，就是在发出一个功能调用时，在没有得到结果之前，该调用就不返回，同时其它线程也不能调用这个方法多线程和异步:多线程可以做不同的事情,涉及到线程通知 &
JSP中文乱码分析 bijian1013 java jsp 中文乱码
在JSP的开发过程中，经常出现中文乱码的问题。首先了解一下Java中文问题的由来： Java的内核和class文件是基于unicode的，这使Java程序具有良好的跨平台性，但也带来了一些中文乱码问题的麻烦。原因主要有两方面，
js实现页面跳转重定向的几种方式 bijian1013 JavaScript 重定向
js实现页面跳转重定向有如下几种方式：一.window.location.href <script language="javascript"type="text/javascript"> window.location.href="http://www.baidu.c
【Struts2三】Struts2 Action转发类型 bit1129 struts2
在【Struts2一】 Struts Hello World http://bit1129.iteye.com/blog/2109365中配置了一个简单的Action，配置如下 <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configurat
【HBase十一】Java API操作HBase bit1129 hbase
Admin类的主要方法注释： 1. 创建表 /** * Creates a new table. Synchronous operation. * * @param desc table descriptor for table * @throws IllegalArgumentException if the table name is res
nginx gzip ronin47 nginx gzip
Nginx GZip 压缩 Nginx GZip 模块文档详见：http://wiki.nginx.org/HttpGzipModule 常用配置片段如下： gzip on; gzip_comp_level 2; # 压缩比例，比例越大，压缩时间越长。默认是1 gzip_types text/css text/javascript; # 哪些文件可以被压缩 gzip_disable &q
java-7.微软亚院之编程判断俩个链表是否相交给出俩个单向链表的头指针，比如 h1 ， h2 ，判断这俩个链表是否相交 bylijinnan java
public class LinkListTest { /** * we deal with two main missions: * * A. * 1.we create two joined-List(both have no loop) * 2.whether list1 and list2 join * 3.print the join
Spring源码学习-JdbcTemplate batchUpdate批量操作 bylijinnan java spring
Spring JdbcTemplate的batch操作最后还是利用了JDBC提供的方法，Spring只是做了一下改造和封装 JDBC的batch操作： String sql = "INSERT INTO CUSTOMER " + "(CUST_ID, NAME, AGE) VALUES (?, ?, ?)";
[JWFD开源工作流]大规模拓扑矩阵存储结构最新进展 comsci 工作流
生成和创建类已经完成,构造一个100万个元素的矩阵模型,存储空间只有11M大,请大家参考我在博客园上面的文档"构造下一代工作流存储结构的尝试",更加相信的设计和代码将陆续推出......... 竞争对手的能力也很强.......,我相信..你们一定能够先于我们推出大规模拓扑扫描和分析系统的....
base64编码和url编码 cuityang base64 url
import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; import java.io.PrintWriter; import java.io.StringWriter; import java.io.UnsupportedEncodingException;
web应用集群Session保持 dalan_123 session
关于使用 memcached 或redis 存储 session ，以及使用 terracotta 服务器共享。建议使用 redis，不仅仅因为它可以将缓存的内容持久化，还因为它支持的单个对象比较大，而且数据类型丰富，不只是缓存 session，还可以做其他用途，一举几得啊。1、使用 filter 方法存储这种方法比较推荐，因为它的服务器使用范围比较多，不仅限于tomcat ，而且实现的原理比较简
Yii 框架里数据库操作详解-[增加、查询、更新、删除的方法 'AR模式'] dcj3sjt126com 数据库
public function getMinLimit () { $sql = "..."; $result = yii::app()->db->createCo
solr StatsComponent（聚合统计） eksliang solr聚合查询 solr stats
StatsComponent 转载请出自出处：http://eksliang.iteye.com/blog/2169134 http://eksliang.iteye.com/ 一、概述 Solr可以利用StatsComponent 实现数据库的聚合统计查询，也就是min、max、avg、count、sum的功能二、参数
百度一道面试题 greemranqq 位运算百度面试寻找奇数算法 bitmap 算法
那天看朋友提了一个百度面试的题目：怎么找出{1,1,2,3,3,4,4,4,5,5,5,5} 找出出现次数为奇数的数字. 我这里复制的是原话，当然顺序是不一定的，很多拿到题目第一反应就是用map,当然可以解决，但是效率不高。还有人觉得应该用算法xxx,我是没想到用啥算法好...！还有觉得应该先排序... 还有觉
Spring之在开发中使用SpringJDBC ihuning spring
在实际开发中使用SpringJDBC有两种方式： 1. 在Dao中添加属性JdbcTemplate并用Spring注入； JdbcTemplate类被设计成为线程安全的，所以可以在IOC 容器中声明它的单个实例，并将这个实例注入到所有的 DAO 实例中。JdbcTemplate也利用了Java 1.5 的特定(自动装箱，泛型，可变长度
JSON API 1.0 核心开发者自述 | 你所不知道的那些技术细节 justjavac json
2013年5月，Yehuda Katz 完成了JSON API(英文，中文) 技术规范的初稿。事情就发生在 RailsConf 之后，在那次会议上他和 Steve Klabnik 就 JSON 雏形的技术细节相聊甚欢。在沟通单一 Rails 服务器库—— ActiveModel::Serializers 和单一 JavaScript 客户端库——&
网站项目建设流程概述 macroli 工作
一.概念网站项目管理就是根据特定的规范、在预算范围内、按时完成的网站开发任务。二.需求分析项目立项　　我们接到客户的业务咨询，经过双方不断的接洽和了解，并通过基本的可行性讨论够，初步达成制作协议，这时就需要将项目立项。较好的做法是成立一个专门的项目小组，小组成员包括：项目经理，网页设计，程序员，测试员，编辑/文档等必须人员。项目实行项目经理制。客户的需求说明书　　第一步是需
AngularJs 三目运算表达式判断 qiaolevip 每天进步一点点学习永无止境众观千象 AngularJS
事件回顾：由于需要修改同一个模板，里面包含2个不同的内容，第一个里面使用的时间差和第二个里面名称不一样，其他过滤器，内容都大同小异。希望杜绝If这样比较傻的来判断if-show or not，继续追究其源码。 var b = "{{", a = "}}"; this.startSymbol = function(a) {
Spark算子：统计RDD分区中的元素及数量 superlxw1234 spark spark算子 Spark RDD分区元素
关键字：Spark算子、Spark RDD分区、Spark RDD分区元素数量 Spark RDD是被分区的，在生成RDD时候，一般可以指定分区的数量，如果不指定分区数量，当RDD从集合创建时候，则默认为该程序所分配到的资源的CPU核数，如果是从HDFS文件创建，默认为文件的Block数。可以利用RDD的mapPartitionsWithInd
Spring 3.2.x将于2016年12月31日停止支持 wiselyman Spring 3
Spring 团队公布在2016年12月31日停止对Spring Framework 3.2.x（包含tomcat 6.x）的支持。在此之前spring团队将持续发布3.2.x的维护版本。请大家及时准备及时升级到Spring
fis纯前端解决方案fis-pure zccst JavaScript
作者：zccst FIS通过插件扩展可以完美的支持模块化的前端开发方案，我们通过FIS的二次封装能力，封装了一个功能完备的纯前端模块化方案pure。 1，fis-pure的安装 $ fis install -g fis-pure $ pure -v 0.1.4 2，下载demo到本地 git clone https://github.com/hefangshi/f