如何快速搜索得到想要的信息?
——为模糊搜索不能解决的问题提供解决方案。
诚然,借助他人或借助自动消歧不能保证搜索的效率。因此,欲要快速搜索得到所需信息,便需要先能够对自己讲得明白:你要得到什么信息?
确定需求:你要得到什么信息?
早在2009年,就已有信息抽取方面的学者指出,目前大多数搜索引擎如Google, Yahoo, Live Search 对于用户的歧义词查询,仅仅通过关键词匹配、排序,输出一个长且无层次的列表。然而这个列表往往达不到预期目标,因为用户往往需要翻阅多页才能找到期望的结果。如果能将这些检索结果通过词义消歧技术,根据相应的语义分类别组织在一起,将能更好地帮助用户导航浏览。
史天艺,李明禄.基于维基百科的自动词义消歧方法[J].计算机工程,2009,35(18):62-64+66.
几个关键:
这一信息有无标准词汇或固定表达,或相比之下更加通用的词汇。例如Case Law 和Common Law是判例法和普通法,在起初我认为这两种表达方式不都能够体现英美法系的特点吗?但是查阅英语国家的法律辞典后发现,其标准词语是Common Law,那么搜索标准词语而获得预期结果的可能性在理论上是高于搜索歧义修正后词语的。
如果不确定,就使用趋势分析工具得到客观标准。我使用了以下分析工具:
搜索热词分析工具很多,我使用Google Trends得到了以下结果:
例外:有些词汇的习惯用语的搜索准确性可能会高出专业术语,例如“脑梗死”在中医又称卒中或中风。其中最俗的称呼是中风,然后是脑梗死,但是分析结果是国人使用“卒中”的频率大多数时期更低。
如图所示。
但篇幅所限不展开分析为什么特定时期“卒中”的搜索频率突然更高。
表达:你所需要的信息在大多数人的表达中有什么特征?
上一部分已经阐述了使用固定化表达方式的重要性,但仍有未明确之处。
这种固定化表达是在何种区域惯于使用的词语?这种分析结论来自于哪一期间?
-
不同语言使用群体中,这种信息如何加以表达?能否构建近义词?
根据教育学的研究,不同语言的词汇之间,由于语体意义、语义范围和使用情况等存在着这样或那样的差异,因此除了少数一部分,如专有名词外,基本上是不存在这种简单的对应关系。
卢燕.对外汉语教学中近义词误用的原因及对策[J].玉林师范学院学报,2010,31(01):145-148+137.
如此,可以得来两个要求:第一,找到目标搜索语言中的专有名词或固定词组;第二,找到尽可能趋近的非专有名词;第三,尽量避免将虚词作为搜索内容,转而寻找替代方法。
适合的工具:搜索工具是否能够满足搜索需要?使用要求?
按照Wiki提供的按照来源的分类方式,可以将搜索引擎分为:
- 桌面搜索(Desktop search)
- 联合搜索(Federated search)
- 人类搜索引擎(Human search engine)
- 元搜索引擎(Metasearch engine)
- 多搜索(Multisearch)
- 搜索聚合器(Search aggregator)
- 网页搜索引擎(Web search engine)
我们在此主要分析基于Web的网页搜索引擎。根据使用热度有如下参考数据:
排名来自Alexa在线数据https://www.alexa.com/siteinfo
关于各个搜索引擎的概括和特点,百科和等多有文章,此处自不多言。
欲获取陌生领域中,非母语国家的目标信息,可以首先通过较多搜索引擎支持的语言(目前以英语居多)加以检索。当然,并非要逐一尝试各个搜索引擎,而是择特定完成任务即可。
(图片来自Wiki)
多语言的全文搜索引擎有一通病,就是检索规则单一。如果是通过“母语>机器翻译>目标语言的关键词>搜索”的方式,即需要评价其表意是否准确。完成这一过程往往需要借助该语言的专业词典。同时需要指出,有些语言可能不支持机器翻译(例如不丹语),或机器翻译效果不能接受(例如印度语),这便需要用户自己完成关键词的索引工作。
同时,可以通过搜索命令的辅助,更便捷地完成搜索任务。搜索命令在各个搜索工具大同小异,局部不同可自行体会,但影响不大。可移步:随手理理:Google搜索命令,快来提高你的效率
在此总结出一点:理性判断关键词在目标搜索工具下是否关键
巩固内容:如何用现有成果提升下一次搜索的质量?
任务:这一部分实例分析来得更为贴切:上一年度国别报告中的法律风险需要部分修改。其中,越南是否有重大的法律变动?如有,需根据这些变动调整文案。
分析:找到哪些国家有“法律变动”>何种变动>哪些变动对法律风险有实际影响>有哪些影响>调整文案
首先,法律变动的关键词确定:
机器翻译:legal change 显然不理想
Black' Law Dictionary in Eudic:revise the law 待定
新华社>新华社社长蔡名照在“新华丝路”信息产品发布暨研讨会上的讲话(中英对照) :法律法规> laws and regulations 有用
>新华网英文网站>China to legislate national supervision law>Chinese legislators will revise the law on administrative supervision……
香港政府在线>Revise the law
确定关键词:revise, laws and regulations
分析越南情况:
搜索语言:越南语,支持机器翻译。
国情:全球法律网有列出;越南已加入WIPO;越南属于大陆法系国家,有本国法律信息公开网站;越南媒体讯息较为畅通。越南域名:*.vn
展开搜索:
-
Google> "revise"+"vietnam";Google>"revise"+"Việt Nam"
结果:关注越南法律变动的越南网站:https://vietnaminsider.vn/
- WIPO>越南宪法及知识产权法律英文版本对照越南版本>法律修订:sửa đổi luật
结果:官方信息发布平台:http://duthaoonline.quochoi.vn
追踪信息:cite: http://duthaoonline.quochoi.vn
此处推荐Google,因更好支持儒略日计算,可以更加精确搜索目标时间范围内的信息。所以此处搜索命令增加一个方法:
daterange:2458273-2458486
关于儒略历的计算,我参考简约儒略历计算方法,采用Excel函数作为转换。可加载为Excel在线Api调用
评价:什么样的成果才是自己满意的?
接上一任务而评价:是否得到了全球范围内的关注信息?信息是否切实可靠?是否还有其他有价值信息值得关注?
任务是法律变动,最直接的验证方法就是通过越南的政府信息公开网站获取法律文本验证是否确有其事。即为对投资风险的评估,就需要关注对越投资的主要国家都有哪些,然后关注这些国家的相关信息。最主要的一点,中国的评论家们怎么看待?惠誉等评估机构的报告、我国政府机关提供的分析报告都是值得对照参考的文件。