信息检索系列1:网络搜索及效率工具

信息检索系列1:网络搜索及效率工具_第1张图片

1.1 常用文献信息来源

文献十大信息源
图书、期刊、会议文献、学位论文、标准、专利、科技报告、政府出版物、产品资料、科技档案

  • 图书:由出版社 (商)出版、49页以上印刷品、特定书名和著者名、编有国际标准书号、有定价、取得版权保护的出版物。
    • 《中国图书馆分类法》采用汉语拼音字母与阿拉伯数字相结合的混合号码,用一个字母代表一个大类,以字母顺序反映大类的次序,天类下细分的学科门类用阿拉伯数字组成。
    • 包含“ISBN、CIP、分类号、索书号
    • 可由《国家版本数据中心》确定图书是否正版
  • 期刊:固定刊名;以期、卷、号或年、月为顺序编号;定期或不定期连续出版
    • 国际标准刊号ISSN: 8位数字(1671-0169)
    • 国内刊号:CN42-1627/C
  • 会议文献:在各类学术会议上形成的资料和出版物,包括会议论文、会议文件、会议报告、讨论稿等。会议论文为最主要文献
  • 学位论文:选题新颖,理论性、系统性较强;阐述详细记录了人类大量的科研成果;参考文献多、全面,有助于对相关文献进行追踪检索;一般不公开出版
  • 标准:按使用范围可分为,国际标准、区域标准、国家标准、行业标准、地方标准、企业标准
  • 专利:专利制度,保护发明创造的一种法律制度,授予发明创造人对其发明创造依法享有的垄断权
    • 实质作用: 以公开换保护
  • 科技报告:由科技人员按照有关规定和格式撰写,反映其所从事科研活动的技术内容和经验的特种文献
  • 政府出版物:行政类政府出版物 (包括立法、司法出版物),科学技术类政府出版物
  • 产品资料:厂商印发并免费赠予消费者的出版物,如产品目录产品说明书,数据手册等
  • 科技档案:一般为内部使用,不公开出版发行;有些有密级限制;存于各级档案馆

参考文献著录格式(国标GB/T 7714-2015)

参考文献著录格式(国标GB/T 7714-2015)是一种标准化的方式,用于在学术论文、研究报告和其他学术出版物中引用已发表的文献。它包含了一系列规则和标准,以确保文献引用的一致性和可追溯性,从而使读者能够轻松地找到引用的原始文献。

以下是一些示例:

1. 书籍引用(Book Citation):

  • 一般格式:作者.书名.出版地:出版社,出版年:起止页码.
  • 示例:Smith, J. Introduction to Environmental Science. New York: Academic Press, 2020: 45-60.

2. 期刊文章引用(Journal Article Citation):

  • 一般格式:作者.文章标题.期刊名,年份,卷(期):页码.
  • 示例:Johnson, M. A. A Study of Climate Change Effects. Environmental Science and Technology, 2019, 45(3): 220-235.

3. 会议论文引用(Conference Paper Citation):

  • 一般格式:作者.论文标题.//会议名.会议地点:会议组织者,出版年:起止页码.
  • 示例:Brown, P. Sustainable Energy Solutions. //Proceedings of the International Conference on Sustainable Development. Paris, France: IEEE, 2018: 150-165.

4. 网络文献引用(Online Document Citation):

  • 一般格式:作者.文献标题.[引用日期].获取地址.
  • 示例:Smith, A. Climate Change Report. [Accessed on June 15, 2022]. http://www.example.com/climate-report.

5. 专利引用(Patent Citation):

  • 一般格式:专利申请者.专利名称.专利号.发布日期.
  • 示例:Johnson, L. Solar Energy System. US Patent 9,562,487. February 2, 2020.

国标GB/T 7714-2015规范了如何书写作者名、文献题目、出版信息等各个部分,以确保引用的一致性和可追溯性,有助于文献管理。

1.2 信息检索的基本方法

布尔逻辑检索

布尔逻辑检索是一种在信息检索中常用的搜索策略,它基于布尔代数的原理,允许用户使用逻辑运算符来组合关键词或搜索条件,以精确筛选出所需的信息。这种检索方法的核心思想是通过逻辑运算符(通常是AND、OR、NOT)来连接关键词或搜索条件,以便根据特定的逻辑关系从文本文档集合中筛选出相关文档。

以下是常见的布尔逻辑检索运算符及其含义:

  1. AND运算符(与运算):用于组合两个或多个关键词或搜索条件,只返回包含所有这些关键词或条件的文档。使用AND可以缩小检索结果的范围,提高结果的精确性。

    示例:环境 AND 污染将返回包含同时包含"环境"和"污染"这两个关键词的文档。

  2. OR运算符(或运算):用于组合两个或多个关键词或搜索条件,返回包含任何一个或多个这些关键词或条件的文档。使用OR可以扩大检索结果的范围,获得更全面的信息。

    示例:气候变化 OR 温室效应将返回包含"气候变化"或"温室效应"任一关键词的文档。

  3. NOT运算符(非运算):用于排除某个关键词或条件,返回不包含该关键词或条件的文档。使用NOT可以帮助排除与特定主题或条件无关的文档。

    示例:海洋生物学 NOT 鱼类将返回包含"海洋生物学"但不包含"鱼类"的文档。

通过使用这些布尔逻辑运算符,用户可以构建复杂的查询,以满足其特定的信息需求。布尔逻辑检索在各种信息检索系统和搜索引擎中广泛应用,帮助用户快速、准确地定位所需信息。但需要注意,过于复杂的布尔查询可能导致结果过于狭隘或过于宽泛,因此需要谨慎使用

  • 位置检索
    • NEAR/x:检索词A near/x 检索词B,表示A和B同时出现在一个句子中,且这两个词之间的单词数不超过x个
      • 注:WOS中,缺省值NEAR等价 NEAR/15
    • SAME:在“地址”检索中使用,检索词A SAME 检索词B:查找“地址”字段中同时包含检索词A和B 的记录
      • 注:当在其他字段(如“主题” )中使用时,SAME 与 AND 的作用相同

截词检索

在检索词的某个局部截断后加上截词符进行检索:一般使用“?、*、$”等通配符,不同系统略有区别

  • 检索实例:输入*computer;输入wom?n;输入colo$r
  • 检索结果:minicomputer、microcomputer、computer…;woman,women;color,colour

字段限制检索(专业检索)

这个表格列出了不同的检索代码以及它们对应的主题或语义,用于在CNKI(中国知网)高级检索中指定搜索范围或条件。

代码 主题
SU% 篇关摘
TKA 关键词
KY 篇名
FT 全文
AU 作者
FI 第一作者
RP 通讯作者
AF 作者单位
FU 基金
AB 摘要
RF 参考文献
DOI DOI
CF 被引频次

1.3 搜索引擎与指令搜索

关于搜索引擎

下面是世界上8大著名的搜索引擎,以及它们的优点和缺点:

搜索引擎 优点 缺点
Google - 强大的搜索算法,提供广泛的搜索结果。 - 快速,准确,包括图片、视频、新闻等多种搜索类型。 - 隐私问题引起担忧,涉及用户数据收集和隐私问题。 - 搜索结果可能受商业因素影响。
Bing - 提供多媒体搜索、地图、新闻等功能。 - 与Microsoft产品集成,对Windows用户友好。 - 搜索结果可能不如Google准确。 - 用户基数相对较小。
Yahoo - 提供广泛的内容,包括新闻、财经、体育等。 - 有个性化服务,如Yahoo邮箱等。 - 搜索结果通常不如Google和Bing准确。 - 由于竞争力下降,市场份额较小。
Baidu - 适用于中文搜索和中国市场。 - 提供各种在线服务,如百度地图、百度知道等。 - 搜索结果可能受政府审查和干扰。 - 隐私和数据安全问题。
DuckDuckGo - 注重用户隐私,不追踪用户搜索历史。 - 提供无广告搜索。 - 搜索结果来自多个来源。 - 搜索结果相对不如Google详尽。 - 较小的搜索引擎,搜索结果覆盖范围有限。
Yandex - 适用于俄罗斯和周边地区的搜索。 - 提供多语言搜索和自定义选项。 - 集成多种在线服务。 - 对非俄语搜索的支持不如Google和Bing。 - 隐私问题引起担忧。
Ask.com - 提供直接问题回答(问答式搜索)。 - 用户界面简单,易于使用。 - 搜索结果不如Google全面。 - 市场份额较小。
Ecosia - 通过树木种植项目支持环境保护。 - 提供隐私保护搜索。 - 用户界面简单。 - 搜索结果不如Google详尽。 - 搜索速度可能较慢。

搜索引擎原理

搜索引擎的目标是将用户的查询与互联网上数十亿个网页进行匹配,并提供最相关和有用的搜索结果。这涉及到复杂的算法、大规模的数据处理和不断的优化工作,以满足用户的信息需求。

  1. 爬取网页:搜索引擎会使用网络爬虫(也称为蜘蛛或爬虫机器人)自动访问互联网上的网页。这些爬虫程序遵循超链接,从一个网页跳转到另一个网页,并持续收集网页上的内容。

  2. 建立索引:收集的网页内容会被分析和整理,然后存储在搜索引擎的数据库中,形成一个庞大的索引。索引通常包括关键词、链接、文本、标题、图片和其他元数据。

  3. 分析和处理:搜索引擎使用复杂的算法来处理和分析建立的索引。这些算法评估网页的质量、相关性和重要性,并决定如何排名搜索结果。

  4. 用户查询:当用户在搜索引擎中输入查询时,搜索引擎会接收并解析用户的请求,确定用户的意图,并根据关键词生成一组可能的搜索结果。

  5. 搜索结果排序:搜索引擎使用算法对索引中的网页进行排名,以确定哪些网页最相关于用户的查询。这些排名算法可以考虑多种因素,如关键词匹配、链接质量、网页质量和用户体验等。

  6. 显示搜索结果:搜索引擎将排名最高的搜索结果呈现给用户,通常以页面的形式显示。搜索结果页面通常包括标题、摘要、链接和其他相关信息。

  7. 用户点击和反馈:当用户点击搜索结果中的链接时,搜索引擎会跟踪用户的行为,以了解用户对搜索结果的满意度。用户的点击和反馈信息有助于搜索引擎不断改进搜索算法。

  8. 持续更新:搜索引擎会定期重新爬取网页,更新索引,以反映互联网上新内容的变化。这确保了搜索引擎的结果保持最新。

搜索引擎的指令用法

搜索引擎通常具有一些共有的指令用法,这些指令可以帮助用户更精确地搜索所需的信息。以下是一些常见的搜索引擎指令用法,列在表格中:

指令 用法和描述
site: 限定搜索结果在特定网站域名内。例如,site:wikipedia.org Python 只会在维基百科上搜索关于Python的页面。
filetype: 限定搜索结果为特定文件类型。例如,filetype:pdf climate change 只会返回PDF格式的与气候变化相关的文件。
intitle: 限定搜索结果中标题包含特定关键词的页面。例如,intitle:"machine learning" 会返回标题中包含"machine learning"的页面。
inurl: 限定搜索结果中URL包含特定关键词的页面。例如,inurl:news technology 会返回URL中包含"news"和"technology"的页面。
related: 查找与特定网站或页面相关的其他网页。例如,related:example.com 会显示与example.com相关的其他网页。
OR 搜索多个关键词中的任意一个。例如,apple OR orange 会返回包含"apple"或"orange"的搜索结果。
“引号” 用引号括起来的词或短语表示精确匹配。例如,"climate change" 会返回包含完全短语"climate change"的结果。
- (减号) 排除特定关键词。例如,climate change -politics 会排除包含"politics"的搜索结果,以便更专注于气候变化。
* (星号) 用于通配符搜索,表示任意字符或词。例如,artificial * 会返回包含以"artificial"开头的搜索结果,后面可以是任何词。
define: 获取特定词汇或术语的定义。例如,define:algorithm 会显示"algorithm"的定义和解释。

搜索引擎的非文本搜索

关于搜索引擎的非文本搜索的介绍,包括图片搜索、声音搜索和中文字体搜索,以及每种搜索的示例:

搜索类型 介绍 示例
图片搜索 图片搜索引擎允许用户通过上传或输入图像来搜索相关的图片。这些引擎使用图像识别技术,分析图像内容并提供相关结果。 使用百度识图,上传一张花卉照片,识别并返回相关的花卉种类和信息。
声音搜索 声音搜索引擎允许用户通过录音或输入声音样本来搜索相关的声音或音乐。这些引擎使用声音识别技术,分析声音特征并提供匹配的结果。 使用FindSounds,录制一段鸟鸣声,搜索并获得与该声音相似的鸟类的声音样本。
中文字体搜索 中文字体搜索引擎允许用户通过绘制或输入汉字来搜索相关的字体样式。这些引擎使用汉字识别技术,识别字形并提供匹配的字体。 使用字由,手写输入一个汉字,搜索并获取与该字形相似的字体样式,用于设计或排版。

综合类与垂直类搜索引擎

综合类搜索引擎和垂直类搜索引擎是两种不同类型的搜索引擎,它们在搜索内容和范围上有所不同。综合类搜索引擎旨在提供广泛的搜索结果,适用于一般性的信息需求,而垂直类搜索引擎则专注于特定领域或主题,提供更专业和精确的搜索结果,以满足特定用户群体的需求。用户可以根据其需求选择使用不同类型的搜索引擎。

类型 描述 举例
综合类搜索引擎 综合类搜索引擎旨在覆盖各种不同主题和领域的信息。它们搜索互联网上的广泛内容,包括网页、图片、视频、新闻、博客、社交媒体等。综合搜索引擎通常用于一般性的信息检索,适用于广泛的用户需求。 - Google: 以全球范围内的综合性搜索而闻名。 - Bing: 微软开发的搜索引擎,提供广泛的搜索服务。
垂直类搜索引擎 垂直类搜索引擎专注于特定主题或领域的信息。它们提供更精确和专业的搜索结果,适用于特定的垂直市场或专业需求。垂直搜索引擎覆盖的领域可以包括健康、科学、商业、旅游等。 - WebMD: 专注于医疗和健康领域的垂直搜索引擎。 - Zillow: 提供房地产信息的垂直搜索引擎。

1.4 高效检索工具

以下是一些提升效率的工具和相关网页或插件,包括搜索管理、不编程的数据抓取、批量图片下载插件和时间管理工具。

工具类型 工具名称 示例
搜索管理 1. Google Keep 用于创建、管理和共享便签和待办事项的应用程序。
2. Evernote 多功能笔记应用,允许您组织、存储和共享笔记、文档和图片。
不编程的数据抓取 1. Import.io 基于网页的数据抓取工具,可帮助您从网页中提取结构化数据,无需编写代码。
2. Octoparse 一款易于使用的网页爬虫工具,用于提取数据并将其转化为可用于分析的格式。
批量图片下载插件 1. DownThemAll! Firefox浏览器的插件,可用于批量下载网页上的图片和其他文件。
2. Image Downloader Chrome浏览器的扩展程序,允许您批量下载网页上的图片。
时间管理 1. Todoist 任务管理工具,帮助您创建任务列表、设定提醒和跟踪任务进度。
2. Toggl 时间跟踪工具,用于记录工作时间、生成报告和提高时间管理效率。

这些工具可以根据不同的需求和工作流程来提高工作效率。例如,如果您需要有效地管理待办事项和笔记,Google Keep和Evernote是不错的选择。如果您需要从网页上抓取数据,但没有编程经验,Import.io和Octoparse可以帮助您完成任务。批量图片下载插件如DownThemAll!和Image Downloader可用于快速获取大量图片。对于时间管理,Todoist和Toggl是强大的工具,可以帮助您更好地组织工作和跟踪时间。

如果这对您有所帮助,希望点赞支持一下作者!

信息检索系列1:网络搜索及效率工具_第2张图片 信息检索系列1:网络搜索及效率工具_第3张图片 信息检索系列1:网络搜索及效率工具_第4张图片

点击查看原文

file

你可能感兴趣的:(study,linux,运维,服务器)