知识检索的两种方式(超级有意思:通用搜索引擎[初筛-发现]和垂直搜索引擎[单一层面]+定向搜索[精准])

原文: http://ulia203.spaces.live.com/blog/cns!9ac977a14eef83c2!283.entry
//转载评论:我想未来搜索引擎中,平面搜索主要满足生活热点和普通搜索,而垂直搜索作某个行业,某些层面(不同的剖面都可以叫垂直),还得加上专用搜索(或者叫精准搜索),在我构想得概念里,可能应该有种叫:中国出版物和文献专业检索数据库 这样的搜索才适合专业人士,学者专家使用。
//技术层面上,我认为pagerank所谓公众投票,是基于公众的认知水平的,不适合前沿的学术,科学研究类检索。说的不好听,就是俗人无知。即使在baidu,google的库里有所谓的资料,但可能无法检索出来。
//关于keyword.在好的分词技术,新词发现技术,也是基于统计学的。比如说1000篇文章里同时出现了一个重复出现的文字块,这个文字小块可能就是派生词。比如"地球人都知道"这句广告词,这就是实例。如果很专业,特别是有些根本还未为大家接受,或者说还在论文阶段的词,可能无法收录,也会造成无法收录。比如”长尾“,在这个理论未发布前,这就不是一个词。搜索引擎也是在这个词(或字块)出现后的一段时间,通过统计分析发现这个可能的新词的。然后可能是经过人工再确认,才会参与切词的。大家才能搜索得到。
下午花费三个小时用于检索网络,研究一个量表设计问题,最终仍没能找到满意的答案,很沮丧!又花去了三个小时的时间,用来思考问题的源头——是我的方法出错,选取了错误的key word和检索路径;还是太过信赖网络,寄予了它过于乐观的期望(既笨又固执的孩子:-P)。  
 
    首先关于检索方式:我尝试了通用搜索引擎和垂直搜索引擎,用尽了一切我可以想到的检索方法~查找可以通过校园网获得的大部分免费数据库,直到确信我难以从网络上获得我想要的专业文献。
   
   然后我想可能是方向性问题,也就是我选错了“研究”对象。网络能够提供的信息是有偏的,尤其相对发达的通用商业搜索引擎,垂直搜索的现状是生活时尚类比较完善,学术搜索、尤其是能够提供高质量免费服务的就屈指可数了。所以或许想去图书馆查询成功的概率会更大一些。
 
    建立了一个运筹学决策树模型辅助判断(下方小图,点击可放大)。
 
    这个图中,决策点是知识检索,具体是我要查找的关于量表设计的知识的检索,可以有两种方式解决:分枝一是通过传统的图书馆检索方式,成功率较高为80%;分枝二是通过互联网方式检索,成功率为50%。给定通过两种方式检索成功带来的效益是100;成本分成两部分,时间成本和体力成本。因为我校图书馆已经于19日闭馆(看图书馆的那个阿姨告诉我这个消息的时候笑得那叫一个幸福!我只能回应以苦笑),因此我选择比较有保障且交通便利的图书馆就是国图,来回的时间将近三个小时,路费1.2元(暂且忽略不计),体力消耗相当大;通过网络检索需要经过各种连接,尝试不同的数据检索方式,处理掉大量的冗余信息,因此实现目标要付出的时间成本也不低,但应略低于图书馆检索,枯坐桌前体力消耗是比较少的,但是这种体力消耗对健康是不利的,因此也要计入总分。综上,给两种方式的时间成本赋值,图书馆检索方式为20,网络检索方式为10;给两种方式的体力成本赋值,图书馆检索方式为15,网络检索方式为8。可知预期收益1=100-20-15=65;预期收益2=0-20-15=-35;预期收益3=100-10-8=82;预期收益4=0-10-8=-18;乘以各种预期发生的概率,算出图书馆方式的可能收益=65×0.8-35×0.2=45;网络检索方式的可能收益=82×0.5-18×0.5=32。虽然两种方式获得收益的可能性都不高,但是保守的图书馆检索的分值(45)仍高于网络检索方式(32),两者之间的差异是否显著仅从辅助个人决策的角度,暂不进行显著性检验。
 
    可见,虽然网络带来了便利(时间和体力上),但是仅从知识检索这一单一任务决策过程中,由于网络检索的成功率低,所以最终结果仍劣于图书馆检索。
   
   说明:这一决策模型中的各项指标均为本人主观评价指标,可推广度不大;如果能够建立起客观评价体系,可能是更有价值的。 另外,通常我们通过网络检索没有找到满意的答案的时候,会再诉诸于包括图书馆检索在内的其他传播渠道,这样的话,这个模型就可以继续延展至下一层;另外人际传播渠道没有考虑在内也是一个严重的不足,以后可以进一步讨论分析。 

你可能感兴趣的:(知识检索的两种方式(超级有意思:通用搜索引擎[初筛-发现]和垂直搜索引擎[单一层面]+定向搜索[精准]))