搜索引擎提供的信息查询功能非常丰富,甚至可以利用搜索引擎来实现诸如统计分析等复杂的功能。从总体来看,搜索引擎的查询方法有两大类:一类是基于关键词的基本查询方法,它是最常见和最为有效的一种方法;另一类是基于Web目录的分类查询方法,虽然功能略逊于前者,但是也有自己的优势,而且这两种方法还可以结合使用。本章对此分别予以介绍,并在最后讨论一些常见的查询策略和典型案例。
对于此类查询,一般用户通常只是使用一个到几个关键词来进行,实际效果往往也并不理想,究其原因,没有合理的掌握搜索引擎的使用方法,是其中的一个重要原因。因此,本节对搜索引擎中各种基于关键词的常见信息查询方法进行专门的介绍。
按照查询方式的不同,现代搜索引擎所提供的信息查询方法可以分为四种,分别为布尔查询、词组查询、模糊查询和字段查询。需要说明的是,由于需要结合一个特定的搜索引擎来说明这些操作方法,本节内容主要结合Google搜索引擎来谈论。当然,很多操作也完全适用于其他的搜索引擎。不过,相关查询语法细节还是会因搜索引擎的不同而有些差异。因此,读者可以通过了解各个搜索引擎官方网站所提供的帮助资源来细致的学习其使用方法,如Google搜索引擎的官方帮助资源站点网址为:http://www.google.com/support/?hl=zh_CN,百度的官方帮助资源站点网址为:http://www.baidu.com/search/jiqiao.html,等等。几乎所有的搜索引擎都会提供此类帮助信息。
布尔查询是一种最为常见的查询方式。说的专业一些,布尔查询就是一种利用诸如“AND”、“OR”和“NOT”等布尔操作符表达的查询,说的通俗一些,布尔查询就是一般用户自觉不自觉都在使用的方式,通过该种查询我们可以告诉搜索引擎我们希望找到什么,不希望找到什么等等。
我们先举个例子开始。假设一个用户准备查询关于“搜索引擎”的相关网页信息,他就可以直接在搜索引擎中输入查询关键词“搜索引擎”,如图4. 1所示:
图4. 1 关键词“搜索引擎”的查询结果页面(截取于2010-4)
此时Google搜索引擎展示的结果非常多,高达约2.3千万篇命中网页。仔细观察一下结果,我们会发现连百度都没有排在前三,甚至连Google自己也没有。
是Google太谦虚?当然不是,是用户的查询太模糊!本书的主要目的就在于教会读者如何更好的使用搜索引擎,因此我们不去强调搜索引擎应该怎么改进,焦点全部对准用户的查询改进方法。说句实话,在多数情况下,如果用户能够更加准确的表达出自己的查询需求,通常搜索引擎都可以展示出合理的搜索结果。正如“工欲善其事,必先利其器”所言,掌握好搜索引擎使用方法是必不可少的。当然,我们也希望搜索引擎通过自身功能的改进来更好的满足用户的查询需求,这些都是现代搜索引擎需要解决的诸多技术问题之一。
造成这种现象的主要原因在于用户没有准确的表达自己的需求,究竟是要找著名的搜索引擎网站,还是要找介绍搜索引擎的网页?假设用户想要查询各个常见搜索引擎的首页站点,用户可以使用“搜索引擎 首页”作为查询关键词,查询结果的第一页就能显示诸如百度和Google等搜索引擎主页站点链接,如图4. 2所示:
图4. 2 关键词“搜索引擎 首页”的查询结果页面(截取于2010-4)
假设用户想要查询介绍搜索引擎的相关网页,可以尝试使用“搜索引擎 介绍”作为查询关键词,如图4. 3所示:
图4. 3 关键词“搜索引擎 介绍”的查询结果页面(截取于2010-4)
此时所使用的方法就是布尔查询,而且是一种被称为“AND”的布尔查询,“AND”字面意思是“并且”的意思。也就是说,如“搜索引擎 介绍”的最终查询结果是含有“搜索引擎”和“介绍”的相关网页,则满足查询条件,当然我们可以想象满足此条件的网页应该就是我们所需要的。
这里需要说明四个问题:
一是为了清楚表明用户的查询需求,采用多个查询关键词十分必要,但是选择关键词需要技巧和经验,有时可能需要多次尝试才能找到最为合适的关键词。比如对于查询“搜索引擎 首页”的练习而言,如果采用“搜索引擎 站点”来查询,效果就不理想。但是这种现象可能会因时因地而变化。
二是在大多数搜索引擎中,“AND”是通过空格来表示的,所以我们应该通过空格来分隔不同的关键词。也许读者可以使用诸如“搜索引擎介绍”来查询,如图4. 4所示:
图4. 4 关键词“搜索引擎介绍”的查询结果页面(截取于2010-4)
但是,仔细观察第三条记录,读者会发现其实Google搜索引擎查询的内容并非“搜索引擎介绍”,仍然还是“搜索引擎 介绍”,这是因为现代中文搜索引擎通常都具有自动分词的能力,也就是说,将较长的词组自动拆分为多个关键词并且自动扩展为“AND”布尔查询,所以实际效果区别不大。
三是由于搜索引擎经常更新网页的索引信息,而且不同的搜索引擎都会采用不同的相关度排序算法,所以实际的查询结果可能会因时因地而变化,这种现象很正常。
四是“AND”查询其实是一种缩小查询范围的查询方法,说的专业一些,就是该方法可以提高查准率,当然在减少返回结果的同时,一般也会不可避免的丢失一些其实有价值的结果,因此会减少查全率。
如果我们要查询银杏果的相关内容,简单的方法就是直接查询“银杏果”,如图4. 5所示:
图4. 5 关键词“银杏果”的查询结果页面(截取于2010-4)
实际查询结果为82万条,如果想要扩大查询的结果数量,希望找到更多的内容,我们该怎么进行呢?其实,银杏果的俗称是白果,因此无论以何种称呼来谈论,相关网页都应该被选中,也就是说,我们需要找到含有“银杏果”或者“白果”的相关网页。因此,正确的查询关键词为“银杏果 OR 白果”,如图4. 6所示:
图4. 6 关键词“银杏果 OR 白果”的查询结果页面(截取于2010-4)
看的出来,命中结果内容更为丰富,数量也已经扩大到近4百万条。
这里强调两个问题:
一是这种方法显然增加了无关网页被命中的概率,特别是在选择的关键词不甚合理时尤为如此。和“AND”查询相比,使用“OR”可以说是一种增加查全率但会降低查准率的方法;二是增加关键词需要用户了解相关背景知识,否则如何知道“银杏果”也可以称之为“白果”呢?特别对于较为专业的知识而言,只有熟悉该领域知识的用户才能更容易找到更多的相关查询词。
再看前文所说的介绍搜索引擎的网页查询,1.2千万篇的查询结果似乎已经更多了,然而我们必须要正视一个问题,还有很多介绍英文搜索引擎的网页内容没有包含在内,事实上,可能这些网页更多更重要。如何表达这种查询内容呢?我们既要找到中文搜索引擎的介绍网页,也要找到英文搜索引擎的介绍网页,OR查询就是一种解决方法!我们可以输入“搜索引擎 OR search engine 介绍”[1],如图4. 7所示:
图4. 7 关键词“搜索引擎 OR search engine 介绍”的查询结果页面(截取于2010-4)
对于“搜索引擎 OR search engine 介绍”的正确理解应该是查询“含有搜索引擎或者search engine,并且一定含有介绍”的网页。值得注意的是,不同的搜索引擎可能会有一些差别和注意事项,如Google就要求“OR”大写,并且前后空格分隔,还可以“|”[2]来代替“OR”。
下面是个看起来比较奇怪的查询练习,有人要查询“李四”的相关网页信息,结果他意外的发现找到了“李四光”的相关网页,如图4. 8所示:
图4. 8 关键词“李四”的查询结果页面(截取于2010-4)
其实,这种问题也可能发生在查询“张三”的时候找到“张三丰”的相关网页内容。仔细观察一下“李四”命中网页的结果,你就会发现之所以命中“李四光”那个网页结果,完全是因为搜索引擎不正确的将网页中的“李四光”拆分成了“李四”和“光”两个部分。原因可能是网页中出现的那个空格使得搜索引擎认为这是应该分开的。事实上,由于中文不象英文,本身没有天然的分隔符,对于一些较为模棱两可的词语,有时连我们自己都难以正确解析和分词,除非了解用户的查询背景,而对于搜索引擎而言,这显然更不可能[3]。
如何排除这些干扰项呢?我们可以使用“NOT”查询,即查询“李四”的信息但是一定不要“李四光”的信息,正确的查询关键词为“李四 —李四光”。注意两个问题:一是那条横线前面有个空格,后面没有空格,横线自身为减号,表示“NOT(不)”的意思;二是横线为英文半角的减号,作为不表示语义概念的布尔操作符,所有的这些布尔操作符号都应该是英文半角符号。
除了这种情况我们需要使用“NOT”查询以外,“NOT”查询也提供了一种新颖的查询思路。有时候,我们可能并不十分清楚被查询的内容,很难构造准确的查询关键词,那么我们就可以首先利用一般的关键词来查询,然后对其结果不断的利用“NOT”查询去排除无用信息,间接的找到所需的内容。如前文所说的介绍搜索引擎的网页查询,在图4. 7的搜索结果中含有一个明显的无关内容,那就是关于“蒋经国”的第二条网页结果,此时通过构造查询“搜索引擎 OR search engine 介绍 -蒋经国”,将会获得较为理想的结果[4],如图4. 9所示:
图4. 9 关键词“搜索引擎 OR search engine 介绍 -蒋经国”的查询结果页面(截取于2010-4)
当然,我们也应当注意到,“NOT”查询也有其副作用,毕竟相对于全部网页而言,满足关键词的网页数量一般总是少数,因此,直接使用或者过多的使用“NOT”查询都是不足取的。如在Google中使用“—a”来查询,由于命中的结果网页将会很大,所以干脆返回一个无法找到的提示信息,如图4. 10所示:
图4. 10 关键词“-a”的查询结果页面(截取于2010-4)
有效的掌握布尔查询是使用好搜索引擎的基本方法。然而,我们也会发现很多困惑。下面的例子演示了查询第一次世界大战相关英文网页信息的方法,查询关键词为“World War I”,如图4. 11中的图a所示:
(a) (b)
图4. 11 关键词“World War I”的查询结果页面(图a截取于2010-4,图b截取于2004-9)
我们注意到,第一条结果内容为“world war i”,似乎全是小写,这个问题不大,因为搜索引擎通常都会将全部查询词语转换为小写在进行匹配[5]。而第三条结果就明显不对了,它是介绍第二次世界大战(World War II)的网页。
为什么产生这样的错误?原因非常简单,早期的Google搜索引擎还有一个提示“I太常用,没有被列入搜索范围”,如图4. 11中的图b所示。也就是说,搜索引擎其实并没有查询“World War I”,而只是将这个查询理解为查询含有“World”和“War”的网页,显然,这些结果都满足要求。
不过,有两个问题需要解释。
一是为什么忽略“I”这个字符呢?“I”字符具有多种语义,既可以看成是罗马数字“1”,也可以看成英文中“我”的意思,事实上,“我”的含义更为常见和普遍,此时可以想象,作为如此常见的一个词语,哪个网页不会含有“I”这个词语呢?既然是几乎所有的网页都含有这个词语,所以这个词语就不应该作为查询词语,正如你到图书馆找书你不能说“请找一本有字的书”,因为每本书几乎都有字。我们把这种没有区分度的词语称之为“停用词(Stop Term)”,即便是你输入它们,搜索引擎通常也会忽略它们。不过,如果非要在一般的查询中查询这些停用词,也是可以的,正确的做法是在停用词前使用强制查询操作符“+”(仍然是英文半角的加号字符),如查询“World War I”同时不允许忽略停用词“I”,正确的语法是“world war +I”,如图4. 12所示:
图4. 12 关键词“World War +I”的查询结果页面(截取于2010-4)
值得注意的是,近几年来,随着搜索引擎技术的不断进步,现代搜索引擎更多的是采取不再忽略停用词,或者是把忽略停用词和不忽略停用词的结果合并处理。当然,并非所有的停用词都能这样处理,如大部分诸如问号、句号、逗号等常用英文符号,即便是加上强制查询操作符,也不能获得结果,如图4. 13所示:
图4. 13 关键词“+?”的查询结果页面(截取于2010-4)
二是为什么搜索引擎把“World War”理解为“World”和“War”?两者并非总是一致,事实上,在随后的几页结果中我们能够看到更为奇怪的结果,如图4. 14所示:
图4. 14 关键词“World War I”的后几页查询结果页面(截取于2010-4)
其中的第三条结果居然把“War”这个单词也认为是满足条件的。造成这种现象的主要原因在于搜索引擎一般默认认为空格为布尔查询的“AND”操作,所以它不认为这是真正的词语分隔符。
既然如此,我们如何准确的表达自己的查询需求呢?正确的查询方法是使用词组查询,此时的关键词为“"World War I"”,注意外面的双引号是为了在书中给出关键词内容,里面的双引号才是用户需要在查询关键词中增加的内容。注意,这个输入的双引号将用户查询关键词括了起来,从而表明希望搜索引擎返回完整的匹配内容,既不去除停用词,也不要随意拆分查询词语,更不要调换词语的位置。强调一下,双引号也应该是英文半角字符[6]。如图4. 15所示:
图4. 15 词组关键词“World War I”的查询结果页面(截取于2010-4)
在Google中也可以使用诸如“world-war-I”的查询关键词来获得同样的效果,此时无需前后的双引号,而使用“-”连字符连接就可以表达一个整体查询词,如图4. 16所示:
图4. 16 词组关键词“world-war-I”的查询结果页面(截取于2010-4)
需要说明一点,随着技术的发展,特别是对用户使用满意度的不断适应,现代搜索引擎通常不再刻意的强调自动去除停用词等操作,也就是说,在很多情况下,有时我们不使用带双引号的查询关键词似乎也能得到正确的结果。但是这并不总是有效,那时就需要我们采用正确的词组查询方式来获取准确的结果了。
词组查询有着非常广的应用,有时甚至可以实现一些其他方法难以实现的查询效果,如查询和下载电子书或者论文等电子文档。一般而言,常见的方式就是使用诸如文档名称,或者再加上诸如“全文”和“下载”之类关键词来进一步限定结果内容。然而,往往实际效果都不理想。如有用户购买了《点击流数据仓库》一书,阅读后十分满意,但是摘录成电子稿件非常费时费力,因此希望得到这本图书的电子版本,此时采用的查询关键词为“点击流数据仓库 电子书 下载”,如图4. 17所示:
图4. 17 关键词“点击流数据仓库 电子书 下载”的查询结果页面(截取于2004-9)
虽然找到很多,但是能够看到原文的网页并不多,而且排在首页的这些命中网页往往都是一些介绍下载的网页,是否可以真正下载并不一定,可能要注册,甚至可能要付费等等。换个思路,为什么不可行?可以想象,如果真的有一个该书电子版本的全文浏览网页,可能并没有这些诸如“电子书”或者“下载”之类的词语,甚至连标题也都不是必须的,反之,具有这些查询词语的网页倒可不一定非要提供全文。因此,为何不能直接使用更能反映书籍内容的词语来作为查询词语呢?如找到一些很有代表性的、不太可能出现在其他书中的句子,使用词组查询,可以想象,如此严格的查询可能找不到,但是如果能够找得到,一定就是真正的原文,而且一步到位的得到。我们可以使用该书第一页中一句“电子商务信息系统体系结构”作为查询词组,唯一的一条网页结果就是电子工业出版社提供的电子试读版本,如图4. 18所示:
图4. 18 关键词“电子商务信息系统体系结构”的查询结果页面(截取于2004-9)
因此,人们有时也把词组查询叫做“句子查询”,这更能体现这个含义。当然,任何方法都有两面性,虽然词组查询可以非常准确的找到所需的内容,但是也可能会一无所获,毕竟不是所有的书籍论文都有网络电子版本,更何况使用该方法还需我们知道一些必要的书籍内容原文,这也是该方法的局限性。
从字面理解,模糊查询应该是指一种在不是非常清楚被查询内容时采用的查询方法。其实,这种理解是错误的,如果用户不清楚被查询内容,他就难以构造一个查询条件。事实上,在绝大多数情况下,使用模糊查询的主要目的在于有意识的获取更为灵活的返回结果,此时用户需要非常了解要查询的内容。
我们举个例子。我们想查询南京地区的各所大学,显然有很多,但是一般而言,南京地区的大学名称都会以“南京”开头而以“大学”结尾,如“南京大学”和“南京财经大学”等,为此可以使用模糊查询,此时的查询关键词为“南京*大学”,如图4. 19所示:
图4. 19 关键词“南京*大学”的查询结果页面(截取于2010-4)
因此,很多人也把模糊查询称之为“截词查询”,虽然名称较为别扭,似乎更准确一些。
这种查询方式有着广泛的应用面。再如有用户以拼音方式输入“卷帙浩繁”一词,然而该用户不知道其中“帙”如何发言,因此无法以拼音来输入。此时完全可以借助搜索引擎来帮助他。查询关键词为“卷*浩繁”,直接将网页中所需的字符拷贝过来即可输入,如图4. 20所示:
图4. 20 关键词“卷*浩繁”的查询结果页面(截取于2010-4)
不过,还有一种更为夸张但是极为有效的方法,那就是利用百度于2010年推出的一种“百度拆字查询”服务,如在百度搜索引擎中查询关键词为“左边一个巾右边一个失”,将会自动获取百度词典中的拆字查询结果,如图4. 21所示:
图4. 21 利用百度拆字查询实现的文字查询结果页面(截取于2010-4)
百度词典主要从事字词查询服务,我们还可以将“帙”输入到百度搜索引擎所提供的词典服务,即可看到详细的发音和解释,网址为:http://dict.baidu.com,如图4. 22所示:
图4. 22 百度词典中关键词“帙”的查询结果页面(截取于2010-4)
方法总是多样。如我们还可以通过查询网络字典的方式,来间接得到查询“帙”的读音,甚至可以通过查询“如何知道字的读音”之类的方法,通过查询了解字读音的方法来操作,如图4. 23所示:
图4. 23 关键词“如何知道字的读音”的查询结果页面(截取于2010-4)
当然,这种模糊查询的方式也有自己的局限性,比如它只能在词语级别上进行操作,不能对词语内部的若干字符进行模糊查询。如查询含有所有以“mix”开头并且以“e”结尾单词的网页,查询关键词为“mix*e”,你会发现结果并非如此,它只是以“mix”和“e”为两个独立词语进行了模糊查询,因此命中了诸如“mix from E”之类的网页结果,如图4. 24所示:
图4. 24 关键词“mix*e”的查询结果页面(截取于2010-4)
补充一个功能,Google还提供了一个带有词语语义扩展功能的模糊查询,如查询“~money”可以找到和“money(钱)”相关的各类同义词并进行查询,结果如图4. 25所示:
图4. 25 在Google中关键词“~money”的查询结果页面(截取于2010-4)
上述查询方法提供了一些强大的查询能力,合理的使用一般已经能够满足用户的要求。不过,在了解完本节的字段查询后,恐怕读者会有“山外青山楼外楼”的感受,原来还有如此更为强大好用的其他查询方法!不过,很难在真正使用前对字段查询下个比较好理解的定义。因此,我们先从一个例子入手。
比如股民需要了解一些股票的相关最新动态,和讯网[7]是国内比较著名的一个财经类站点,从中获取关于某个股票的相关信息显然比较有价值,然而要想全面的查询和讯网站提供的相关信息,并不十分好做。比如,在和讯的首页搜索框中,我们只能按照它所提供的“股票”、“基金”、“股吧”、“新闻”和“博客”之一进行搜索,如图4. 26所示:
图4. 26 只能进行“股票”、“基金”、“股吧”、“新闻”和“博客”之一查询的和讯网站主页(截取于2010-4)
如果想通过搜索引擎来实现,如查询“和讯 国阳新能”,你却能够看到那些不是和讯网站提供的相关信息,如图4. 27所示:
图4. 27 关键词“和讯 国阳新能”的查询结果页面(截取于2010-4)
难道就没有办法了吗?可以在Google搜索引擎中试一试这样的查询关键词“国阳新能 site:hexun.com”[8],如图4. 28所示:
图4. 28 关键词“国阳新能 site:hexun.com”的查询结果页面(截取于2010-4)
查询结果网页都是有关“国阳新能”的股票信息,而且更为重要的是,这些网页内容都来自于和讯网站。
这就是字段检索。所谓字段,其实就是一个被查询内容的出处,如此例中的“site”字段就表示网页所在的站点,此处跟随的网站后缀就是和讯站点的主域名。可能读者会问“那么国阳新能”是什么字段?以前使用的那些普通查询又是什么字段?其实,从广义上讲,任何查询都是字段查询,那就是默认对网页正文内容这个字段进行查询,如查询“搜索引擎”的意思是指在网页正文内容中查询是否有“搜索引擎”这个词语。如果添加了其他字段规定,如“site:hexun.com”就表示在网页URL的域名中查找是否存在“hexun.com”,显然具有这样域名后缀的网页一定是和讯网站的网页,如第一条命中网页的URL为“http://stockdata.stock.hexun.com/600348.shtml”,第二条命中网页的URL为“http://hexun.com/getfile.aspx?fileid=183869”,请读者注意域名后缀都是“hexun.com”。强调一点,字段修饰符可以放在其他查询关键词的前面,也可以放在后面,所以“国阳新能 site:hexun.com”和“site:hexun.com 国阳新能”效果一样,其他字段查询皆如此。
由于“site”字段可以用于判断网页所在的站点,反之就是判断站点拥有哪些网页,因此,利用此项功能我们还可以进行网站规模统计,如统计“南京财经大学”的网页数量,即查询URL后缀为“njue.edu.cn”的网页,内容不限,正确的查询关键词是“site:njue.edu.cn”,如图4. 29所示:
图4. 29 关键词“site:njue.edu.cn”的查询结果页面(截取于2010-4)
这个结果数量显然偏少,原因可能在于搜索引擎爬虫没有遍历学校的全部网页,因此,该方法只能是一种估算,“南京财经大学”学校站点的全部网页估算量估计在十万数量级左右。虽然绝对值不准,但是通过与其他网站进行对比,却可以比较准确的判断规模的相对大小。再如“site:edu.cn”可以估算中国教育科研网的网页数量规模,“site:cn”可以估算中国域名网站的网页数量等等。
在实际使用中,利用此方法还能起到提高查准率的效果。如想查询关于ERP课件的相关内容,就可以通过限定在教育网网站中查找的方式来提高效果,毕竟教育网网站更易于提供相关资源的浏览和下载,此时的查询关键词为“ERP课件 site:edu.cn”。
最后强调一点,对于字段查询而言,并非所有的搜索引擎都能够提供,而且不同搜索引擎的能力也各不一样,因此,读者在使用时一定要仔细阅读搜索引擎的帮助文档。
利用搜索引擎可以查询到Word文件吗?可以查询到Flash动画吗?可能你觉得不可能,因为这些不是一般的文本网页;也许你觉得可能,那么能够查询到金山OFFICE的WPS格式文件吗?
早期的搜索引擎一般只能检索普通的文本网页信息,随着各种其他文件格式的流行,现代搜索引擎逐渐增加了对常见文件格式的支持功能,如Google等搜索引擎就可以查询到包括Word格式在内的近十多种类型文件[9]。但是,这种功能需要搜索引擎能够正确解析文件格式,而且可以想象,只有比较流行的常见文件格式才会受到支持。所以,目前象Google等搜索引擎并不支持WPS等文件格式。
我们举个例子。查询关于“市场营销教学大纲”的相关Word论文,查询关键词为“filetype:doc 市场营销教学大纲”,如图4. 30所示:
图4. 30 关键词“filetype:doc 市场营销教学大纲”的查询结果页面(截取于2010-4)
不过,要想正确使用该种查询功能,必须要了解搜索引擎所支持的常见文件格式及其扩展名,如表4. 1所示:
表4. 1 常见文件格式及其扩展名
文件类型 |
文件扩展名 |
Office Word |
doc |
Office Excel |
xls |
Office Powerpoint |
ppt |
Adobe Acrobat |
|
Flash |
swf |
需要说明的是,Adobe公司推出的PDF格式是一种Internet电子出版文件的标准格式,不像Word等文件,该种文件可以内嵌字体和图片,所以可以保证在任何能够打开的机器上都呈现出相同的外观,而且由于是电子化出版标准,所以该类型的文件通常质量较高,更为重要的是它们的数量也很多[10]。所以,要想获取高质量的网络文件,通过限定文件格式为PDF是一种较为有效和常见的方法。
由于该项功能非常易于学习者获取相关学习资源文件,所以百度利用此项功能专门推出一个服务:百度文档搜索,网址为:http://file.baidu.com,主页如图4. 31所示:
图4. 31 百度文档搜索的主页界面(截取于2010-4)
如在其中查询关于发展经济学方面的相关文件资源,可以直接在搜索框中输入“发展经济学”,得到的查询结果页面如图4. 32所示:
图4. 32 在百度文档搜索中查询“发展经济学”的相关文档结果页面(截取于2010-4)
可以看出,这个百度文档搜索其实就是一个简单的filetype字段查询,只不过文件类型为所有类型“all”,当然此时用户完全可以通过修改查询字段值或者在普通百度搜索引擎中直接使用字段查询来实现。
Web网页通过超链互相连接在一起,这种超链不仅方便用户在不同的网页间跳转浏览,而且对于网页来说,也是测度网页质量的一个间接方法。比如一个著名的高质量网页通常会被更多的网页所链接,此时我们通常说,该网页具有较高的链入数,反之可以认为,如果一个网页被其他网页链接的越多,则该网页更为重要。字段link就可以查询指定网页的所有链入网页,主要作用就是评价网页和网站的质量和知名度。
如通过查询毕马威国际会计师事务所主页的链入网页数量来估计它的知名度,查询关键词为“link:www.kpmg.com”[11],如图4. 33所示:
图4. 33 关键词“link:www.kpmg.com”的查询结果页面(截取于2010-4)
由于搜索引擎所遍历获取的网页并不全面,同时也由于网页分析算法的局限性,可能最终获取的链入网页数量很少,如得到的毕马威国际会计师事务所主页链入网页只有2110篇。事实上,这只是一种估算。不过,利用不同查询词语获取的链入网页数量进行相对比较,可以在很大程度上区分出网页质量和知名度的高低。
关于网页的链接:如在网页Page1中建立一个指向网页Page2的超链,方法是在网页Page1的HTML代码中加入“点击打开网页Page2”,它的模样如图4. 34所示:
图4. 34 网页中的超链外观
用户点击此超链,即可打开网页Page2。因此,网页Page1就是网页Page2的链入网页,网页Page2就是网页Page1的链出网页,显示在网页Page1中的蓝色超文本也被称为锚文本(Anchor Text)。
下面来简单说明一下其他几种常见字段查询的使用方法。
字段inurl可以查询在网页的URL任意位置上是否含有所要的查询关键词。由于网页URL反映了网页所在的具体地址路径,因此该路径中的词语和网页内容往往直接相关,即便网页内容可能不含有此查询关键词。如查询“inurl:download 课程大纲”的功能是获取关于“课程大纲”的相关下载网页,请读者仔细观察命中结果的URL。结果如图4. 35所示:
图4. 35 关键词“inurl:download 课程大纲”的查询结果页面(截取于2010-4)
字段intitle可以查询在网页的标题中是否含有所要的查询关键词。默认情况下,搜索引擎会在网页正文内容和标题中同时查询。由于网页标题更能反映内容,所以通过限定在标题中查询,有助于提高查准率。与此相对的还有一个字段intext,恰恰限定只能在网页正文中查找。如查询“intitle:论坛 intext:会计”的功能是获取正文含有“会计”并且标题含有“论坛”的网页,如图4. 36所示:
图4. 36 关键词“intitle:论坛 intext:会计”的查询结果页面(截取于2010-4)
字段inanchor可以在链入网页的锚文本中查询关键词。由于锚文本通常是由其他链出网页来建立,因此可以更为客观的说明链入网页的主要内容,因此利用这种锚文本中的文字信息进行查询的方法往往可以取得更为理想的结果。如对于图4. 34所示的超链而言,“inanchor:点击”或者“inanchor:Page2”等查询都可以查询到网页Page2。下面举个例子,查询关于课件下载的相关网页,传统的方法是使用诸如“课件下载”等关键词直接搜索,利用inanchor字段可以构造更为准确的查询条件,如“课件下载 inanchor:推荐”,结果如图4. 37所示:
图4. 37 关键词“课件下载 inanchor:推荐”的查询结果页面(截取于2010-4)
可以想象,这些命中网页都被其他网页建立过超链,那些超链锚文本上都有“推荐”词语,因此命中网页应该是被很多人认可的,而且这些命中网页自身还含有“课件下载”相关内容。
字段related可以查询内容类似的相关网页,使用该字段和访问某一结果网页的“类似结果”效果相同。如查询“related:www.njue.edu.cn”[12]的功能是获取与南京财经大学主页类似的网页,如图4. 38所示:
图4. 38 关键词“related:www.njue.edu.cn”的查询结果页面(截取于2010-4)
在查询“南京财经大学”搜索结果时,直接点击南京财经大学主页链接下的“类似结果”也可以看到同样的类似网页,如图4. 39所示:
图4. 39 关键词“南京财经大学”的查询结果页面(注意箭头指向的“类似结果”链接)(截取于2010-4)
最后强调一下,不同的搜索引擎对这些高级字段查询的支持能力各不一样,有些可能不支持,有些可能支持但是采用的语法规则和文中所述的并不一致。因此,读者需要在使用其他搜索引擎前了解一下具体的使用方法。另外,很多搜索引擎还会提供一种较为简单易用的“高级搜索”界面,如图4. 40所示:
图4. 40 Google搜索引擎的“高级搜索”界面(截取于2010-4)
可以看的出来,用户可以按照提示选择相应的栏目来实现这些查询方法,如图4. 40中的“搜索结果”就是一种布尔查询功能,“文件格式”就是“filetype”字段查询等。
对于经济类信息而言,搜索引擎往往还专门提供一些特殊的字段查询功能。比如商品价格通常是查询商品时的重要字段之一,因此Google允许用户根据商品的价格区间来查询商品。如查询售价在100美元到200美元之间的诺基亚手机,查询词为“nokia $100..200”,在结果页面中很容易看到我们所需的几款产品,如图4. 41所示:
图4. 41 在Google搜索引擎中按照商品价格区间进行查询(截取于2010-4)
甚至Google还专门提供了一些特殊商品的查询字段。如查询像素数在300万到500万并且价格在200美元到300美元之间的Canon(佳能)相机,查询词为“Canon megapixel 3..5 $200..300”,结果如图4. 42所示:
图4. 42 在Google搜索引擎中按照相机像素数和商品价格区间进行查询(截取于2010-4)
再如查询尺码在36到40之间的Nike(耐克)球鞋,查询词为“nike size 36..40”,查询结果如图4. 43所示:
图4. 43 在Google搜索引擎中按照球鞋尺码进行查询(截取于2010-4)
较前者而言,该种方法并非一种常见的方法,大多数人都很少使用该方法。然而,前文曾经说过,该种方法在搜索引擎的发展历史上曾经起过重要作用。直到今天,合理的使用该种方法仍然可以较为简单快速的查询到所需信息。这种方法的特点在于它提供了一个人工整理的网页目录结构,而且采用人工方式分门别类的收录网站的网址。由于是人工编撰,所以目录结构数量和收录网址数量都较少,不过这些被收录的网址往往质量较高,而且和目录结构的语义对应关系较为准确。
举个例子,我们希望找到关于经济学方面的团体组织。此处使用Google的网页目录,网址为:http://www.google.com.hk/dirhp?hl=zh-CN。选择“社会”类别,如图4. 44所示:
图4. 44 在Google网页目录中选择“社会”类别的页面(截取于2010-4)
可以看出,“社会”类别下仍然具有大量子类别,每种类别的后面都使用一个数字表明收录的全部网址数量。进一步点击“经济学”和下属的“团体组织”,最终能够看到收录的四个网址,如图4. 45所示:
图4. 45 选择“社会”—“经济学”—“团体组织”类别所获取的网址结果页面(截取于2010-4)
这些收录的网址确实是一些质量较高的站点。有意思的是,我们还能看到每行结果网址前还有一个横线,其中的绿色长短能反映出网址与目录结构的相关性。
我们再次试一试查询关于经济学方面的国外组织。此处我们使用Google英文版,网址为:http://www.google.com.hk/dirhp?hl=en,选择目录层次为“Society”—“Economics”,界面如图4. 46所示:
图4. 46 选择“Society”—“Economics”类别所获取的网址结果页面(截取于2010-4)
仔细观察,你会发现现在进入的并非原先选择的目录层次,而是“Science”—“Social Sciences”—“Economics”。由于很多子目录可以归入到不同的上级目录下,所以在很多网页目录结构中,往往采用这种灵活的组织结构,允许通过用户在不同的目录中跳转到同一个子目录来。这样既可以让用户可以从多个目录入口进入以方便使用,同时也便于组织网址,避免不必要的重复。此时,选择“Organizations”即可查询到所需的内容。
另外,我们也能看出,相对于中文Google而言,Google英文版网页目录所收录的内容更多,而且它还能在各级目录结构中放入匹配的网址结果。事实上,绝大部分情况下,由于很多搜索引擎所收录的中文网址较少,所以导致使用并不方便,相反,查询英文信息却显得较为实用,如Google的网页目录就是这样。
需要说明的是,不同的搜索引擎往往在网页目录结构上具有很大的差异,如Yahoo!中文版本的网页目录不仅把目录结构显示出来,还按照诸如“实用查询”、“酷站大全”和“生活服务专题”等主题来提供多种目录结构,甚至还有一个“我访问过的站点”来提供个性化的查询结果。网址为:http://site.yahoo.com.cn,界面如图4. 47所示:
图4. 47 Yahoo!中文的网页目录页面(截取于2010-4)
至于百度则完全通过hao123站点来提供这种网页目录服务,网址为:http://www.hao123.com,界面如图4. 48所示:
图4. 48 百度网页目录“hao123”的主页页面(截取于2010-4)
从发展趋势来看,这种网页目录结构越来越呈现出一种非专业性的特点,但是提供的大量常用链接却增强了易用性。与之相比,Google的网页目录则显得更为专业,因此在2007年6月Google收购了网址导航站265,网址为:http://www.265.com。虽然主要目的是为了拓展它的搜索引擎广告业务,但客观上也增加了一种新的Google网页目录功能,主页界面如图4. 49所示:
图4. 49 Google中265网页目录的主页界面(截取于2010-4)
最后说明一点,网页目录查询方法虽然使用简单,但是最大的问题就在于内容较少,而且还需要用户了解相关领域的知识,就像刚才那个“查询关于经济学方面的团体组织”的例子,我们必须知道或者通过浏览去了解究竟应该从哪个目录开始!
前两节已经将基本查询方法介绍完毕。然而,要想获得更好的查询效果不仅要求用户熟练掌握上述查询规则与用法,还需掌握一些基本的查询策略。本节结合典型案例对几种常见的查询策略做一说明。需要说明一点,本节内容主要结合百度搜索引擎来谈论,部分内容采用Google搜索引擎查询。
查询关键词的选择至关重要。用户既要保证选择的关键词能够准确反映自己的查询需求,同时还要保证能够有效的查询出所需的内容。
我们来看一个案例:查询冯小刚拍摄的《手机》电影信息,最为直接的查询就是“手机”,如图4. 50所示:
图4. 50 关键词“手机”的查询结果页面(截取于2010-4)
显然效果并不理想。事实上,Internet上关于“手机”最多的内容还是手机产品等广告网页内容。为了表达与电影相关,再次调整查询关键词为“手机 电影”,如图4. 51所示:
图4. 51 关键词“手机 电影”的查询结果页面(截取于2010-4)
在很多情况下,查询过程都需要不断的调整关键词,甚至有时在开始查询前,我们都难以确认究竟该如何调整,此时我们必须从结果反馈中进行判断,藉此进行反复调整。仔细思考,关键词“手机 电影”仍然存在歧义,大部分返回结果都是关于手机上关于观看电影的相关内容。当调整的查询关键词为“手机 冯小刚”时,情况终于得到改善,如图4. 52所示:
图4. 52 关键词“手机 冯小刚”的查询结果页面(截取于2010-4)
无关的查询关键词不仅会造成查询出过多的无用信息,而且甚至可能会导致无法找到有用的信息。我们来看一例。2009年春的国家社会科学基金项目中有这样的一个选题“开放获取学术资源分布与集成研究”,如果用户想了解该选题的含义和内容,最为直接的方式就是把原始课题名称作为查询关键词,如图4. 53所示:
图4. 53 关键词“开放获取学术资源分布与集成研究”的查询结果页面(截取于2010-4)
获取的返回结果多是关于课题申报的通知,无法找到对其含义的解释。通过去除查询关键词中的无关词语,如“与”和“研究”等,得到查询关键词为“开放获取学术资源分布 集成”,此时就可以明显看出与课题内容相关的网页结果,如图4. 54所示:
图4. 54 关键词“开放获取学术资源分布 集成”的查询结果页面(截取于2010-4)
准确的关键词选择可以让我们甚至一步到位的命中所需结果。如比尔盖茨有一句很著名的话:“每天早晨醒来,一想到所从事的工作和所开发的技术将会给人类生活带来的巨大影响和变化,我就会无比兴奋和激动”,我们想查询该句话的英文原文。显然,直接使用中文句子中的词语进行查询很难保证一定找到英文原话,但是我们又无法知道英文原话是如何表述的。仔细思考一下,首先不建议查询英文网页,因为比尔盖茨是美国人,他说的大部分话都是以英文形式出现在Internet上,这样做查询范围显然太大。如果把目标对准中文网页,可以想象,这些出现比尔盖茨英文原话的网页一般都只是摘取著名话语段落,显然查询范围较小而且精度较高。再假设如果有一篇含有比尔盖茨英文原话的中文网页,那么应该是什么样子呢?我们构造了“wake every day 比尔 盖茨”查询关键词,选择“wake every day”是因为他的英文原话一定会有这些单词,而且这些词比较独特,我们显然不会选择诸如“technology”等单词。至于选择“比尔 盖茨”既是确保内容与他相关,同时也确保这是中文网页。查询效果良好,第一条即是,如图4. 55所示:
图4. 55 关键词“wake every day 比尔 盖茨”的查询结果页面(截取于2009-4)
看的出来,合理选择关键词是获取相关信息的关键点,但是由于用户自身对查询问题有时并非十分了解,可能会导致难以选择合适的查询词。此时,就需要我们通过获取与查询词语相关的知识来了解该选择什么样的关键词,有时不失一种有效的方法
再如我们查询一副吞吃自己的蛇图片,如图4. 56所示:
图4. 56 一条吞吃自己的蛇[13]
最为直接的查询关键词为“吞吃自己的蛇”,利用百度图片搜索引擎的结果如图4. 57所示:
图4. 57 关键词“吞吃自己的蛇”的图片查询结果页面(截取于2009-4)
居然一个结果也没有,这说明无关的查询关键词太多,导致查询结果过少。通过去除“自己”词语,得到修正的关键词“吞吃 蛇”,查询结果如图4. 58所示:
图4. 58 关键词“吞吃 蛇”的图片查询结果页面(截取于2009-4)
此时似乎也太混乱,而且也没有自己想要的那种图片。遇到这种情况,不如换种思路,仔细思考一下,造成目前这种困境的主要原因就是关键词选择错误,究竟这种吞吃自己的蛇是什么意思,有没有专指的术语?通过不断的调整,甚至切换了不同的搜索引擎,在Google中查询“吞吃 尾巴 蛇”的相关网页,有意思的是,其中一条记录居然还是百度知道中提供的关于这种图片含义的帖子,如图4. 59所示
图4. 59 关键词“吞吃 尾巴 蛇”的查询结果页面(截取于2009-4)
通过此帖子,我们了解到这种吞吃自己的蛇真正的名称是“咬尾蛇”,接下来,直接使用该词语查询,很容易找到相关图片,如图4. 60所示:
图4. 60 关键词“咬尾蛇”的图片查询结果页面(截取于2009-4)
在很多时候,我们之所以不能更好的得到满意的查询结果是因为我们不了解,甚至我们对该使用什么样的查询词都不是很清楚,因此,不合适的查询词找到一些不满意的结果也在情理之中。但是,如果我们通过在查询中的发现,逐渐学习和了解与我们查询内容相关的知识,可以很好的帮助我们调整和改进查询词语,从而获取更为满意的结果。
比如想了解STN这个著名联机情报查询系统的完整英文单词写法。一般而言,如果是谈论STN的网页,通常都有可能对它的完整英文单词写法有所交代,因此我们直接输入查询词为“STN”,查询结果如图4. 61所示:
图4. 61 关键词“STN”的查询结果页面(截取于2010-7)
实际效果并不理想。很多记录都是关于“STN”的其他缩写词意思。显然,有必要进一步明确此处的STN是指什么。将查询词扩展为“STN 情报”,查询结果如图4. 62所示:
图4. 62 关键词“STN 情报”的查询结果页面(截取于2010-7)
虽然这个结果并没有给出具体的完整单词写法,仍然还有很多无关的网页,但是我们注意到了STN是属于德国的系统,于是再次增加查询词语以提高查准率,查询词为“德国 STN 情报”,结果如图4. 63所示:
图4. 63 关键词“德国 STN 情报”的查询结果页面(截取于2010-7)
这次收获很大,我们发现了STN的完整中文名称为“国际科学技术信息网”。于是再次调整查询词语,使用“国际科学技术信息网”作为查询词来进一步限定查询要求,这样就可以极大了去除那些具有STN写法但是意思并不一样的缩写词的干扰,终于我们看到了所要的内容,结果如图4. 64所示:
图4. 64 关键词“国际科学技术信息网”的查询结果页面(截取于2010-7)
前面章节中介绍的四种基本查询方法,每一种都有自己的特点,合理的选择和综合使用往往可以取得更有效的结果。但是,大部分搜索引擎用户往往都不能做到这一点。因此,我们建议读者多使用这些高级方法以增强查询的效果。
如我们准备获取有关《西方经济学》的习题资料,直接使用相关关键词“西方经济学 习题”进行查询,但是效果并不十分理想,多是相关书籍的介绍与说明,如图4. 65所示:
图4. 65 关键词“西方经济学 习题”的查询结果页面(截取于2010-4)
考虑一下综合采取多种高级字段查询方法。我们构造了一个新的查询“filetype:pdf site:edu.cn 西方经济学习题”,其含义是查询西方经济学习题相关文件,但是文件为PDF格式,这样可以保证文件多为出版资料,质量相对较高,而且可以直接从搜索引擎结果网页上点击下载,同时限定在教育网,因为教育网网站图书的商业广告较少。结果如图4. 66所示:
图4. 66 关键词“filetype:pdf site:edu.cn 西方经济学 习题”的查询结果页面(截取于2010-4)
与此类似的用法往往可以取得较为明显的效果。再如查询“filetype:pdf site:ufsoft.com.cn”,意思为在用友ERP-U8服务站点上获取相关PDF格式的电子文件等[14],如图4. 67所示:
图4. 67 关键词“filetype:pdf site:ufsoft.com.cn”的查询结果页面(截取于2010-4)
关键词查询和网页目录查询各有优势,前者可以提供一步到位的直接命中查询结果的能力,而后者则可以提供相对较为准确的查询结果。我们可以尝试将两者结合以起到更好的查询效果。由于英文网页目录内容较为全面和实用,本节所举的两个例子都为英文资源查询。
如我们想了解一些关于ERP在企业会计工作中应用的相关英文内容。我们可以在Google英文网页目录中找到“Business”—“Accounting”,定位到会计相关的目录下,然后在关键词搜索框中输入“ERP”,选择“Search only in Accounting(在会计中查询)”,此时即可看到命中的结果都为相关内容,如图4. 68所示:
图4. 68 在“会计”网页目录下查询“ERP”的相关结果页面(截取于2010-4)
再如查询“Adidas”的相关体育商品英文信息,也可以在Google英文网页目录中找到“Shopping”—“Sports”,然后在关键词搜索框中输入“Adidas”,选择“Search only in Sports(在体育中查询)”,此时即可看到命中的结果都为相关内容,如图4. 69所示:
图4. 69 在“体育商品”网页目录下查询“Adidas”的相关结果页面(截取于2010-4)
在直接查询始终没有效果的情况下,有时另辟蹊径,采取一种间接的方法往往可以取得意想不到的效果。
从用户行为角度来看,网页浏览行为其实也是一种信息查询活动,只不过此时用户是通过点击与自己信息需求相关的网页链接来实现对更多相关网页内容的查询。由于有相关网页内容的提示,所以这种网页浏览行为可以让用户在查询的同时,还可以了解更多的相关内容。借助这种方法,我们也可以实现一些有效的查询活动。
如几年前曾经看过别人推荐的一本讲述中国IT企业精英创业历史的红皮畅销书,但是把名称和作者等全部忘记了,甚至连内容也只是大概有印象。如何查到这本书呢?如果把这样的描述告诉新华书店的服务员,多半只有这样的回答“那边就是这方面的书,你自己过去看看吧”!现在我们试一试Internet查询。首次尝试的查询关键词为“中国 IT企业 创业 畅销书”,如图4. 70所示:
图4. 70 关键词“中国 IT企业 创业 畅销书”的查询结果页面(截取于2010-4)
虽然查询词语已经去除了无关的内容,但是收效甚微。我们尝试选择更能准确反映图书内容的关键词,修正的查询为“联想 金山 创业 畅销书”,显然这些词语是从图书的内容出发来选择,因为书中主要介绍了这些IT企业的成长经历。结果如图4. 71所示:
图4. 71 关键词“联想 金山 创业 畅销书”的查询结果页面(截取于2010-4)
此时如果继续调整关键词,可能效果就难以保证了。事实上,现在已经查询到了很多诸如《梦想金山》和《联想风云》之类的图书。我们设想如果在介绍这些图书的网站上,应该也会有介绍我们所想的那本图书。于是,打开中文当当网站[15],直接搜索诸如《联想风云》等图书内容。这些网络书店规模一般都较大,图书内容也较多,而且通常都提供较好的目录层次来组织各类图书。可以明显的看到在显示《联想风云》的网页左边就提供了很多类似图书,如图4. 72所示:
图4. 72 中文当当网站中“联想风云”的图书查询结果页面(截取于2010-4)
点击左边的《中国的新革命》,我们终于看到了这本图书!如图4. 73所示:
图4. 73 中文当当网站中“中国的新革命”的图书显示页面(截取于2010-4)
强调一下,这种借助网页浏览方式,来间接获取所需信息的方式依赖于前期对相关内容的准确查询。当然,由此也看出信息查询的技巧性。同时,这也说明,对于某些类型的信息而言,在一些专门提供相关信息的站点上进行查询也有比较好的效果,而并非一味的使用搜索引擎。本书后面章节会专门介绍各种常见类型信息及其相关资源站点。
如果能够在一个网站上找到一篇你想要的内容,那么我们可以想象它非常有可能还有更多你想要的内容,特别对于一些成系列的资料而言尤其如此。
我们举个例子。用友ERP U8软件是由多个子模块组成的,其中包括“物料需求管理”和“财务管理”等。我们准备获取相关子模块的使用说明书,很快我们找到了一本关于物料需求计划的子模块说明书,如图4. 74所示:
图4. 74 关键词“也称为物料需求计划”的查询结果页面(截取于2008-5)
之所以选择“也称为物料需求计划”,完全是因为我们手中有一本真实的图书,找到书中的一些文字进行查询。对于这个案例,这一点并不重要。事实上,我们经常可以比较容易的找到一个系列中的一个或者几个所需资料,但是很难获取到全部的所有资料。仔细观察命中文件的URL,你就会发现它位于一个网站目录下,如:
http://vip.ufsoft.com.cn/knowledge/Patch/userfile1/lihao/book/README/U8-851/wlxq.pdf
文件的名称似乎有些规律,正是“物料需求”的拼音首字母,于是我们尝试了下面几种:
http://vip.ufsoft.com.cn/knowledge/Patch/userfile1/lihao/book/README/U8-851/cwgl.pdf
http://vip.ufsoft.com.cn/knowledge/Patch/userfile1/lihao/book/README/U8-851/xmgl.pdf
很快就找到了“财务管理”和“项目管理”的相关文件。但是即便如此,对于拥有多达几十本的系列文件来说,这种方法仍然低效,而且有时也会失灵,比如文件名称并非始终保持我们认为的那个模样。
此时就可以采用URL截取的方式来尝试查询,如将上述URL的文件名称去掉,如:
http://vip.ufsoft.com.cn/knowledge/Patch/userfile1/lihao/book/README/U8-851
直接将此URL键入浏览器的地址栏,可以看到如图4. 75所示的网页:
图4. 75 利用URL截取方式访问网站——不允许访问的界面(截取于2008-5)
这种截取过的URL可以浏览到文件所在的目录结构信息,如果“您无权查看该网页”,这说明网站关闭了目录结构浏览功能。继续使用这种URL截取方法再次截取后面的子目录名称,得到:
http://vip.ufsoft.com.cn/knowledge/Patch/userfile1/lihao/book/README
而此时真正可以看到完整的目录结构,如图4. 76所示:
图4. 76 利用URL截取方式访问网站——显示目录的界面(截取于2008-5)
此时按照目录提示,打开相应的下级目录,即可完整的看到全部相关文件而且可以直接点击下载,如图4. 77所示:
图4. 77 利用URL截取方式访问网站——显示目录下文件的界面(截取于2008-5)
需要说明的是,这种方法并非总是有效,它的关键在于网站是否愿意公开目录结构的浏览权限。不过,即便是网站不允许这种目录结构的浏览功能,我们也可以最终得到网站的域名,如上述URL截取到最后就是“vip.ufsoft.com.cn”,而此时总是可以打开的,一般就是网站的主页。这时通过该主页提供的入口链接再尝试浏览和查询,可以想象,也有较大的可能找到所需文件的访问入口。
还有很多方法值得读者在学习和工作中使用,如在使用一种搜索引擎始终难以取得效果的时候,可以尝试切换搜索引擎,或者使用搜索引擎的其他查询服务,如百度的“知道”和“贴吧”这种利用用户集体智慧进行查询的工具也是一种有效的方式。相对来说,建议对中文信息的查询还是使用诸如百度等国内著名搜索引擎,而英文信息则可以尝试使用诸如Google等国外著名搜索引擎。值得注意的是,其实每个国家和地区往往都有自己当地最为优秀的搜索引擎,如果身处当地,可以试一试这些本地的搜索引擎,往往效果也不错。
再如可以换个时间来操作。也许听起来像是天方夜谭,但是事实的确如此。因为搜索引擎可能会周期性的更新网页索引,所以在不同的时间中往往找到的内容也并不一样。
本书篇幅有限,很难将各种方法都清楚的说明出来。而且,要想获得更好的查询结果往往也需要一定经验和技巧,而这种查询经验和技巧的学习需要实践和时间来培养。所以,我们建议读者多练多思考,逐渐培养自己良好的Internet信息查询能力,也可以说提高自己的“搜商”。
读者还可以从一些网站举办的搜索引擎大赛来获得更多的学习机会。如赛迪网[16]就经常举办互联网搜索大赛,而且已经举办过多届,读者可以从赛迪网的2007中国搜索年会网页中来获取相关内容,网址为:http://news.ccidnet.com/zhuanti/2007ssnh。
同时,还有一些关注与搜索引擎发展和使用的站点,也很有参考价值,如表4. 2所示:
表4. 2 关于搜索引擎使用和相关信息的推荐站点
网站名称 |
网址 |
特色 |
中文搜索引擎指南 |
http://www.sowang.com |
内容丰富全面,收录站点较多,其中的“搜索入门到精通”很适合初学者 |
搜索引擎周边 |
http://www.eryi.org |
中英文搜索引擎观察、研究与使用技巧及最新资讯 |
搜索引擎观察者 |
http://searchenginewatch.com |
著名的搜索引擎相关信息的英文国外站点 |
Google黑板报 |
http://www.google.cn/ggblog/googlechinablog |
Google中国的博客网志 |
Google帮助 |
http://www.google.com/support/?hl=zh_CN |
Google搜索引擎的官方帮助资源站点 |
Google大全 |
http://www.google.com.hk/about.htm |
Google公司官方的服务功能说明中心 |
Google搜索特色 |
http://www.google.com.hk/intl/zh-CN/help/features.html |
以示例的方式演示了各种有特色的Google搜索服务功能 |
百度帮助 |
http://www.baidu.com/search/jiqiao.html |
百度的官方帮助资源站点 |
[1] 因为search engine是搜索引擎的英文名称,所以使用该名词来表达一些英文搜索引擎的相关内容。应该说,这只是进行该种查询的一个方法。
[2] 这个符号是键盘“/”的切换字符,也就是说,按下“Shift+/”即可得到此字符。
[3] 中文分词技术难度较大,如“发展中国家兔的饲养”就可以理解为两种形式:一是“发展 中国 家兔 的饲养”,另一个是“发展中国家 兔 的 饲养”。更为奇妙的是在百度的商业广告中那句“我知道你不知道我知道你不知道我知道你不知道”。
[4] 需要说明一点,也许在这些例子中,似乎不必进行如此精细的调整,但是我们通过这个例子所展示的方法,在进行一些较为复杂的查询中,特别在难以找到所需内容的时候,就显得非常重要了。
[5] 虽然搜索引擎通常不区分大小写,但是我们也发现,有时对于某些关键词,大小写的返回结果也并不总是一致。
[6] 随着技术的发展,现代中文搜索引擎有时也会认可中文全角字符,但是,为了统一和具有更广的适用面,我们应当知道究竟应该怎么做。
[7] 和讯的网址为:http://www.hexun.com。2008年8月12日,和讯和百度宣布结盟,共同创办了百度和讯财经网,也就是今天的百度财经,网址为:http://finance.baidu.com。
[8] 百度也支持同样的site字段查询功能。
[9] 通常这些非文本文件格式被简称为二进制文件,主要原因是它采用二进制数据来表达文件中的字符信息。
[10] Google宣称PDF格式文件在所索引的全部二进制文件中能够占到80%左右。
[11] 毕马威国际会计师事务所主页的网址为:http://www.kpmg.com。
[12] 南京财经大学主页的网址为:http://www.njue.edu.cn。
[13] 图片来自于互动百科网站中的图片百科库,网址为:http://a2.att.hudong.com/17/62/01300000259046122517627719437_f.gif。
[14] 用友ERP-U8服务站点的网址为:http://service.ufsoft.com.cn,域名后缀为ufsoft.com.cn。
[15] 中文当当的网址为:http://www.dangdang.com.cn。
[16] 赛迪网的网址为:http://www.ccidnet.com。