546034381

信息检索19-20章

19.Web 搜索基础

背景与历史

Web 的使用往往基于一个简单开放的客户端-服务器(client-server) 机制就可以实现:

服务器通过某个轻量级的协议(HTTP(Hypertext Transfer Protocol，超文本传输协议)和客户端通讯，该协议是异步的，并且可携带各种内容(开始是文本、图像，后来随着时间的推移出现了更丰富的包含音频、视频在内的媒体格式)，这些媒体通过一个简单的 HTML(Hypertext Markup Language，超文本标记语言)标记语言来编码;
客户端通常是浏览器。有关 Web 信息发现的早期尝试可以归成两类:(i)像 Altavista、Excite 和 Infoseek 一样的基于全文索引的搜索引擎;(ii) 诸如 Yahoo!的 Web 网页分类体系。前者在前台给用户提供了关键词搜索界面，而在后台则采用前面介绍的倒排索引和排序机制。后者可以允许用户沿树形结构的类别体系进行浏览。

Web的特性

Web最大的一个特点就是网页爆炸式的增长，其最根本原因在于无法集中控制的无中心的网页内容发布机制，其中静态网页(static web page)，指的是那些内容不会因请求不同而不同的网页; 动态网页(dynamic page)通常是由应用服务器应答数据库的查询需求时产生的。

Web 图

我们可以将整个静态 Web 看成是静态HTML 网页通过超链接互相连接而成的有向图，其中每个网页是图的顶点，而每个超链接则代表一个有向边。
我们将指向某个网页的链接称为入链接(in-link)，而从某个网页指出去的链接称为出链接(out-link)。一个网页的入链接数目被称为这个网页的入度(in-degree)，同样，我们可以定义某个网页的出链接数目为其出度(out-degree)。
如果每个网页都是随机均匀地选择链接目标时，那么链接到一个网页的链接数目应该满足泊松分布，但是实际中的数目并不满足预想的泊松分布。实际上，有大量研究表明这个分布满足幂分布定律(power law)。

另外，一些研究表明，整个Web有向图结构是个蝴蝶结(bowtie)形，其中主要包含三大类网页，分别是IN、OUT和SCC。Web冲浪者能够从IN中的任一网页出发通过超链接到达SCC的任一网页。同样，冲浪者可以从 SCC中的网页达到OUT中的任一网页。最后，从SCC中的任一网页可以到达SCC中的其他网页。然而，不可能从SCC中的网页到达IN的任一网页，也不能从OUT中的网页到达SCC中的任一网页(当然此时也不能到达IN中的任一网页)。剩余的网页构成了所谓管道(tube)，它由少部分 SCC 之外的网页组成，可以直接将 IN 和 OUT 中的网页相连。另外，还有一些不能从 IN 到达或者不能到达 OUT 的网页构成的所谓卷须(tendril)。

作弊网页

作弊网页是指通过一些手段来使网页以不合理的方式出现在搜索引擎排名更高的地方的网页。

第一代作弊网页：通过操作网页内容来达到在某些关键词的搜索结果中排名较高的目的。
伪装(cloaking)：根据 http 请求是来自搜索引擎的采集器还是用户所使用的浏览器，作弊 Web 服务器会返回不同的网页结果。如果是前者，那么会返回一个包含欺骗性关键词的作弊网页供搜索引擎索引。
桥页(doorway page)：包含了精心挑选的文字和元信息，通过这些信息能够针对某些选定的搜索关键词来提高排名。当某个浏览器请求访问桥页时，它会重定向到一个更具商业性的网页。

广告经济模型

在 Web 发展的早期，公司会将图形化的广告横幅放在流行的网站上。这些广告会按照 CPM(Cost per Mil，每千次显示会费)或者CPC(Cost per Click，每次点击付费)这两种机制付费。这种模式的搜索引擎在后来被称为赞助搜索(sponsored search)或者搜索广告(search advertising)。

搜索用户体验

Web搜索中的平均查询关键词个数大概是2到3个，并且用户很少使用语法操作符(布尔连接符、通配符等)。

为此Google 确定了2个原则:

关注相关性，特别是排名靠前的一些结果的正确率而不是召回率
用户体验要轻量级，也就是说查询页面和返回结果页面应该简洁整齐，并且这些页面上基本没有图像成分，而应该几乎全是文本内容。

用户查询需求

信息类查询(informational query)主要查找的是与某个宽泛主题相关的一般信息。
导航类查询(navigational query)查找的是用户心目中某个实体的网站或者主页。
事务类查询(transactional query)是用户在 Web 上进行事务处理的一个先导型查询，这些事务处理包括产品购买、文件下载或进行预订等。

索引规模及其估计

因为索引规模越大，搜索引擎的覆盖面也越大，所以估计一个搜索引擎的大小是有必要的。有许多方法可以粗略估计两个搜索引擎 $E_{1}$ 和 $E_2$ 的索引规模的相对比值。这些方法背后的基本假设是每个搜索引擎都从 Web 中随机、独立、均匀地选择了部分网页进行索引。

捕获再捕获(capture–recapture method) 估计方法：
假定我们从 $E_1$ 的索引中随机选取一个网页，并检验它是否属于 $E_2$ 。同样也可以检验某个从 $E_2$ 中随机选取的网页是否属于 $E_2$ 。根据上述实验，可以得到两个分数 $x$ 和 $y$ ，其中 $x$ 表示从 $E_1$ 中抽出的网页属于 $E_2$ 的比例，而 $y$ 则表示从 $E_2$ 中抽出的网页属于 $E_1$ 的比例。因此，假定搜索引擎 $E_i$ 规模用 $E_i|$ 来表示的话，那么有
$x|E_1| \approx y|E_2|$

抽样方法——随机查询法 (random query)

我们首先需要收集一个 Web词典样本。这可以通过采集 Web 的一部分内容来实现，或者可以采集那些人工编辑的有代表性的 Web 子集考虑从这部词典中随机抽取的两个或者多个词组成的与查询。
通过发送一个随机查询给搜索引擎来(几乎)均匀随机地从搜索引擎的索引中选出一个页面。
给 $E_1$ 提交一个随机的与查询，从返回页面的前 100 条结果中随机选择一个页面 $p$ 。然后，我们再从 $p$ 中选出 6 到 8 个低频词项组成与查询提交给 $E_2$ 进行检测。上述过程可以重复多次以便提高估计的精度。

近似重复及 shingling

Web 上包含了大量具有相同内容的重复网页。检测重复最简单的方法就是为每个网页计算出一个指纹(fingerprint)，它是整个网页文本的一个很精炼(比如说 64 位)的摘要。然后，一旦发现两篇文档的指纹一样，我们就会检查这两篇文档是否真的相同，如果相同，那么我们就认为其中一篇文档是另一篇文档的副本。但是，在面对 Web 上一个更广泛的被称为近似重复(near duplication) 的现象时，上述的简单方法却并不成功。在很多情况下，一个网页的内容并不会完全等同于另一个网页的内容，而是在某些字符上有点差异。
下面列出一个近似重复的解决方案，该方案主要基于一个被称为搭叠(shingling) 的技术：

给定正整数k及文档d的一个词项序列，可以定义文档d的k-shingle为d中所有k个连续词项构成的序列。
例如，考虑文档 a rose is a rose is a rose，它的 4-shingle(在近似重复检测中，k = 4 是一个常用值)为“ a rose is a” 、“ rose is a rose” 及“ is a rose is” ，前两个 4-shingle在文本中都出现两次。直观上看，如果两个文档的shingle集合几乎一样，那么它们就满足近似重复。

下面我们将这种直观性精确化，并开发一种计算和比较所有Web网页之间shingle的高效算法。

令 $S(d_j)$ 表示文档 $d_j$ 中的 shingle 集合, 令 $J a c c a r d$ 系数为 $S(d_1)∩S(d_2)|/|S(d_1)∪ S(d_2)|$ 记为 $J(S(d_1)$

通过计算这种 $J a c c a r d$ 系数就可以判断 $d_1$ 和 $d_2$ 是否近似重复，如果该值超过某个预先给定的阈值(比如0.9)，那么我们就可以认为它们是近似重复文档，在索引时就会去掉其中一篇文档。此时我们需要简化 $J a c c a r d$ 系数的计算复杂度:

我们使用某种哈希的形式。首先，我们将所有 shingle 都映射到一个大空间(比如 64 比特位)下的哈希值。令 $H(d_j)$ 为所有 $S(d_j)$ 中的 shingle 映射出的 64 比特位的哈希值集合，其中 $j = 1$ 或 $2$ 。
下面我们将采用一个技巧来检测出哪些文档对的 $H ()$ 集合之间具有较大的 $J a c c a r d$ 重叠度。令 $π$ 为从 64 比特位整数到
64 比特位整数的一个随机置换 $1$ 。 $H(d_j)$ 中所有哈希值的置换结果集合记为 $Π (d_j)$ ，因此对每个 $h \in H (d j)$ ，都存在一个相应值 $π (h) ∈ Π (d_j)$ 。令 $x π$ 为 $Π (d)$ 中最小的整数。于是有:
$J(S(d_1)S(d_2))=P(x^ π_1=x^π_2)$

20.Web 采集及索引

概述

采集器必须提供的功能特点

鲁棒性:Web 中有些服务器会制造采集器陷阱(spider traps)，采集器必须要能从这类陷阱中跳出来。
礼貌性:Web 服务器具有一些隐式或显式的政策来控制采集器访问它们的频率。设计采集器时必须要遵守这些代表礼貌性的访问策略。

采集器应该提供的功能特点

分布式:采集器应该可以在多机上分布式运行。
(规模)可扩展性:在增加额外的机器和带宽的情况下，采集器的架构应该允许实现采集率的提高。
性能和效率:采集器应该能够充分利用不同的系统资源，包括处理器、存储器和网络带宽等。
质量:在应答用户查询需求时，大部分 Web 网页的质量都很差，因此采集器应该优先考虑抓取“ 有用” 的网页。
新鲜度:在很多应用中，采集器都处于连续工作状态，也就是说它应该要对原来抓取的网页进行更新。采集器应该能够以接近网页更新的频率来采集网页。
(功能)可扩展性:采集器的设计要能支持其在很多方面方便地进行功能扩展。

采集

超文本采集器基本处理如下:
首先，设定一个或者多个 URL 为采集的种子集合(seed set)。接着，从种子集合中选择一个 URL 进行采集，然后对采集到的页面进行分析，并抽取出页面中的文本和链接(每个链接都链向其他的 URL)。抽取出的文本输给文本索引器，而抽取出的 URL 则加入到待采集 URL 池(URL frontier)中，任何时候 URL 池中放的都是所有待采集网页的 URL。一开始，种子集合会放入 URL 池中，一旦某个 URL 被采集，那么就从池中删除这个地址。整个采集过程可以看成是 Web 图的遍历过程。当然，在连续式采集中，一个已采集的网页的 URL 还会被重新放到 URL 池中以等待下一次重新采集。

采集器架构

一个简单的采集器由多个模块构成，其中包括五种模块。

待采集 URL 池:它包含了当前待采集的 URL(在连续式采集中，某个已经采集过的 URL 可能还会放回到该采集池中以便进行重新采集)。
DNS 解析模块:它在 URL 抓取网页时用于确定其对应的 Web 服务器的 IP 地址。
抓取(fetch)模块:利用 http 协议返回某个 URL 对应的网页。
分析(parse)模块:从采集到的网页中抽取文本及链接。
URL 去重模块:确定某个抽取出的链接是否已在 URL 池中或者最近是否已抓取。

单个 URL 的采集流程

URL 抓取：首先从 URL 池中选择一个 URL，然后抓取该 URL 对应的网页，抓取到的页面会被写入一个临时存储器中，该网页被分析，文本和链接都被抽取出来。文本(包含标签信息，如黑体词项)信息会传给索引器。
检测和过滤：每个抽出的链接信息要经过一系列的检测来判断该链接是否要加入到 URL 池中。首先，采集线程会检查具有相同内容的另一个 URL 是否已经被采集。下一步，URL过滤器采用多个测试来确定某个抽取出的URL是否应该被URL池收录或排除。
规范化处理：URL 必须进行规范化(normalization)处理。
查重:如果某个 URL 已经在 URL 池中或者已经被采集(在非连续式采集的情况下)，那么就不需要将它再放到 URL 池中。

分布式采集器

思路是在每个采集节点上复制一份上图 20-1 所示的流程，但是与图 20-1 中的做法相比，这种做法有一点本质的不同，即在 URL 过滤之后，我们要使用一个主机划分器(host splitter)将通过过滤检测的 URL 分配到不同的采集节点上去。也就说，要采集的主机对象会被分配到不同节点进行采集。修改后的采集流程如图 20-2 所示。主机划分器的输出结果会输入到分布式系统每个采集节点的重复 URL 检测模块中去。

DNS 解析

每个Web服务器都有一个唯一的IP地址。每个IP地址是 4 个字节组成的序列，通常表示为通过点连接起来的 4 个整数。给定一个文本表示的URL(如www.wikipedia.org)，将它转换成IP地址(这里就是207.142.131.248)的过程被称为DNS解析(DNS resolution)或DNS查询(DNS lookup）

待采集 URL 池

采集进程或其他采集进程的主机分割器会将 URL 放入本节点的 URL 池中。该采集池会维护一系列 URL，并在采集线程需要寻找 URL 时，以某种次序将 URL 输出。
URL 的输出次序必须要考虑到两个重要的方面：

优先性问题，即频繁改变的高质量网页应该优先考虑频繁采集。
礼貌问题，即我们必须避免在很短的时间间隔内反复访问同一主机。

下图中的两个主要子模块分别是:上图中的 F 个前端队列(front queues)集合，以及下图中的 B 个后端队列(back queue)集合。前端队列主要是实现优先级访问功能，而后端队列实现礼貌性访问功能。在 URL 加入到采集池的流程中，会在前端队列和后端队列中走出一条通路。

首先，优先级分配器(prioritizer)会基于 URL 的抓取历史(考虑在以往的采集中本 URL 对应的 Web 网页的变化率)赋给该 URL 一个整数 i 表示其优先级，其中 i 的取值在 1 到 F 之间。现在，一个 URL 已经被赋予优先级 i，这个 URL 就会添加到第 i 个前端队列中。
B个后端队列中的每个队列维持下列固定情况:
1. 当采集正在进行时，队列不会为空;
2. 队列只包含来自单个主机的URL。

使用一个辅助表T(如图 20-4 所示)来维护从主机到后端队列的映射。当某个后端队列为空并从前端队列重新填充时，T必须进行相应的更新。

此外，我们还维护一个堆结构，其中的每个元素对应一个后端队列，元素值为该队列对应的主机重新访问的最早时间 $t_e$ 。

流程如下：

某个采集线程在请求 URL 池的一个 URL 时，会从上述堆中取出其根节点，并且等待相应的时间 $t_e$ 。
然后，从根节点对应的后端队列 $j$ 中取出队列首部的 URL $u$ ，并执行 $u$ 的抓取操作。采集 $u$ 之后，调用线程会检查 $j$ 是否为空。如果为空，则选择一个前端队列并取出该队列的首部 URL $v$ 。在选择前端队列时会倾向于高优先级队列(通常有一个随机过程来实现)，即保证高优先级 URL 能够更快地流入到后端队列中。
对于 URL $v$ ，我们会检查在某个后端队列中是否已经包含了来自同一主机的 URL。如果存在，那么 $v$ 就会加入到该队列中，这样我们就需要重新回到前端队列来寻找另外一个候选 URL 插入到现在为空的队列 $j$ 中。该过程不断继续直到 $j$ 不再为空。
任何情况下，对队列 $j$ ，线程都会基于其中上次采集的 URL 的属性在堆中插入一个新的最早访问时间 $t_e$ (比如上次访问主机的时间及上次抓取所花的时间)，然后继续进行处理。

分布式索引

两种索引实施方法:

基于词项的划分(partitioning by terms)方法，也被称为全局的索引组织方法。
基于文档的划分(partitioning by documents)方法，也被称为局部的索引组织方法。

普遍使用的方法是按照文档划分:每个节点包含某个文档子集的索引。每个查询都会被分发到所有节点上，来自不同节点的结果在呈现给用户之前会进行合并。该策略在减少节点之间通讯量的同时需要更多的本地磁盘访问次数。

如何将文档划分到节点上去?基于上节所开发的采集器架构，一种简单的方法是将某个主机上的网页分配到一个节点上。这种划分和网页采集时的划分是一致的。

连接服务器

Web 搜索引擎中需要一个连接服务器 (connectivity server)来支持 Web 图连接查询(connectivity query)的快速处理。典型的连接查询包括“ 给定的URL被哪些URL所指向?” 及“ 给定URL指向了哪些URL?” 等。为此，我们在内存中存储了从 URL 到出链及 URL 到入链的映射表。
由于网页数目巨大，我们需要对数据进行压缩，我们的目标不仅仅是将 Web 图压缩到内存中，而且要支持连接查询的高效处理。

在按照词典对所有URL排序时，我们是将每个URL看成一个包含字母数字的字符串并对它们进行排序。图 20-5 给出了这样一种排序的片段。对每个 URL，我们将其在上述排序中的位置设为其唯一编码。

下面我们将利用大部分网站结构化的一些特点来获得相似性和局部性。

从上到下遍历表格，对每一行基于前面的 7 行来编码。这里只使用前 7 行进行编码有如下两个优点:
1. 偏移可以通过 3 个比特位来表示
2. 将最大的偏移固定在一个较小的值(如上面的7)能够减少搜索原型花费的时间。
随之而来的问题就是，如果在前 7 行中都找不到本行的原型怎么办?这种情况下，我们就简单地将本行表示成从一个空集开始并不断加入本行所有整数的过程。我们可以使用间隔编码，即不使用原始整数而是整数之间的间隔来编码，由于文档之间的间隔可能比较紧，所以采用间隔编码可以进一步减少存储空间。

在上述表示下，当考察前 7 行来确定哪行是当前行的原型时，我们需要引入一个当前行和候选行的相似度阈值。如果阈值设置太高，那么就很少会使用原型来表示本行，此时，每行就需要重新表示。如果阈值设置太低，那么大部分行都通过原型来表示，因此，在查询处理时，这种行构造方法就会导致基于原型的多级间接处理。

深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
FlagEmbedding 吉小雨 python库 python
FlagEmbedding教程FlagEmbedding是一个用于生成文本嵌入（textembeddings）的库，适合处理自然语言处理（NLP）中的各种任务。嵌入（embeddings）是将文本表示为连续向量，能够捕捉语义上的相似性，常用于文本分类、聚类、信息检索等场景。官方文档链接：FlagEmbedding官方GitHub一、FlagEmbedding库概述1.1什么是FlagEmbeddi
基于深度学习的多模态信息检索 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的多模态信息检索（MultimodalInformationRetrieval,MMIR）是指利用深度学习技术，从包含多种模态（如文本、图像、视频、音频等）的数据集中检索出满足用户查询意图的相关信息。这种方法不仅可以处理单一模态的数据，还可以在多种模态之间建立关联，从而更准确地满足用户需求。1.多模态信息检索的挑战异构数据表示：多模态数据通常具有不同的特征和表示形式（如文本的词嵌入与图
计算机网络笔记分享（第六章应用层）寒页_ 计算机网络计算机网络笔记
文章目录六、应用层6.1域名系统DNS解析的两种查询方式6.2文件传送协议FTP简单传输协议TFTP6.3远程终端协议TELNET6.4万维网WWW统一资源定位符URL超文本传输协议HTTP万维网的文档HTML万维网的信息检索系统博客和微博社交网站6.5电子邮件6.6动态主机配置协议DHCP6.7简单网络管理协议SNMP6.8应用进程跨越网络的通信几种常用的系统调用6.9P2P应用介绍学习计算机网
德克萨斯大学奥斯汀分校自然语言处理硕士课程汉化版(第十一周) - 自然语言处理扩展研究 Encarta1993 自然语言处理自然语言处理人工智能
自然语言处理扩展研究1.多语言研究2.语言锚定3.伦理问题1.多语言研究多语言(Multilinguality)是NLP的一个重要研究方向，旨在开发能够处理多种语言的模型和算法。由于不同语言在语法、词汇和语义结构上存在差异，这成为一个复杂且具有挑战性的研究领域。多语言性的研究促进了机器翻译、跨语言信息检索和多语言对话系统等应用的发展。以下是多语言的几个主要研究方向和重要技术：多语言模型的构建，开发
【机器学习】朴素贝叶斯方法的概率图表示以及贝叶斯统计中的共轭先验方法 Lossya 机器学习概率论人工智能朴素贝叶斯共轭先验
引言朴素贝叶斯方法是一种基于贝叶斯定理的简单概率模型，它假设特征之间相互独立。文章目录引言一、朴素贝叶斯方法的概率图表示1.1节点表示1.2边表示1.3无其他连接1.4总结二、朴素贝叶斯的应用场景2.1文本分类2.2推荐系统2.3医疗诊断2.4欺诈检测2.5情感分析2.6邮件过滤2.7信息检索2.8生物信息学三、朴素贝叶斯的优点四、朴素贝叶斯的局限性4.1特征独立性假设4.2敏感于输入数据的表示4
爬取微博热搜榜带刺的厚崽 python 数据挖掘开发语言
201911081102汤昕宇现代信息检索导论实验一程序运行的截图：[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-GimpWjCB-1639531088565)(程序运行截图.png)]当时微博热搜的截图[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-lDXRgrxa-1639531088568)(微博热搜截图.png)]对应的CSV截
使用DuckDuckGo搜索API进行智能信息检索：实用指南与最佳实践 qq_37836323 java 前端服务器 python
使用DuckDuckGo搜索API进行智能信息检索：实用指南与最佳实践1.引言在当今信息爆炸的时代，快速准确地获取所需信息变得越来越重要。DuckDuckGo作为一个注重隐私的搜索引擎，不仅为普通用户提供了优质的搜索服务，还为开发者提供了强大的搜索API。本文将深入探讨如何利用DuckDuckGo搜索API进行智能信息检索，并提供实用的代码示例和最佳实践。2.DuckDuckGo搜索API概述Du
GitHub每周最火火火项目（8.26-9.1） FutureUniant Github周推 github 音视频人工智能计算机视觉 ai
项目名称：Cinnamon/kotaemon项目介绍：kotaemon是一个基于开源RAG（检索增强生成）的工具，旨在实现与文档的聊天交互。它为用户提供了一种便捷的方式来与自己的文档进行对话，通过检索文档中的信息来回答用户的问题。这使得用户能够更高效地获取文档中的知识，提高信息检索和利用的效率。项目地址：https://github.com/Cinnamon/kotaemon项目名称：frappe
国开（电大）2024秋《文献检索与论文写作》综合练习2 电大题园（1）学习方法经验分享笔记
国开（电大）2024秋《文献检索与论文写作》综合练习2一、单选题(14题)1.什么数据库为用户提供深入到图书章节和内容的全文检索(C)A、知网B、万方C、读秀知识库D、维普解析:“读秀”是由海量全文数据及资料基本信息组成的超大型数据库，为用户提供深入到图书章节和内容的全文检索。2.信息检索根据检索对象不同，一般分为:(D)A、二次检索、高级检索B、分类检索、主题检索C、计算机检索、手工检索D、数据
偏见的亮点：认知偏见如何增强推荐系统量子位AI 人工智能机器学习
认知偏见，曾被视为人类决策过程中的缺陷，现在被认为对学习和决策有潜在的积极影响。然而，在机器学习中，尤其是在搜索和排序系统中，认知偏见的研究仍需改进。尽管有大量研究集中在探讨这些偏见如何影响模型训练和机器行为的道德性，但信息检索领域大多关注于检测偏见及其对搜索行为的影响。这在利用这些认知偏见来增强检索算法方面带来了挑战，这一领域尚未广泛探讨，对研究者而言提供了机遇和挑战。现有的一些方法，如推荐系统
每天一个数据分析题（五百二十一）- 词袋模型跟着紫枫学姐学CDA 数据分析题库数据分析
词袋模型（英语：Bag-of-wordsmodel）是个在自然语言处理和信息检索(IR)下被简化的表达模型。以下关于词袋模型(BagofWord,BoW)的说法正确的是？A.将所有词语装进一个袋子里，不考虑其词法和语序的问题，即每个词语都是独立的B.词袋模型只能应用在文件分类C.CBOW是词袋模型的一种D.GloVe模型是词袋模型的一种数据分析认证考试介绍：点击进入数据分析考试大纲下载题目来源于C
平均精度（Average Precision，AP）以及AP50、AP75、APs、APm、APl、Box AP、Mask AP等不同阈值和细分类别的评估指标说明 fydw_715 深度学习基础分类数据挖掘人工智能
平均精度（AveragePrecision，AP）是信息检索领域和机器学习评价指标中常用的一个衡量方法，特别广泛用于目标检测任务。它在评估模型的表现时结合了准确率（Precision）和召回率（Recall），为我们提供一个综合性的评估指标。关键概念Precision（准确率）：精确率表示在模型预测为正例的所有样本中，实际上为正例的比例。它的计算公式为：Precision=TruePositive
python机器学习算法--贝叶斯算法在下小天n 机器学习 python 机器学习算法
1.贝叶斯定理在20世纪60年代初就引入到文字信息检索中，仍然是文字分类的一种热门（基准）方法。文字分类是以词频为特征判断文件所属类型或其他（如垃圾邮件、合法性、新闻分类等）的问题。原理牵涉到概率论的问题，不在详细说明。sklearn.naive_bayes.GaussianNB(priors=None,var_smoothing=1e-09)#Bayes函数·priors：矩阵，shape=[n
WeKnow-RAG：智能自适应的检索增强生成方法步子哥人工智能
在当今快速发展的人工智能领域，检索增强生成（Retrieval-AugmentedGeneration，RAG）方法逐渐成为一种新兴的解决方案。CobusGreyling在他最新的文章中深入探讨了WeKnow-RAG，这一方法通过结合知识图谱和网络搜索技术，极大地提升了大型语言模型（LLMs）在复杂查询中的表现。知识图谱的力量知识图谱（KnowledgeGraphs,KGs）作为信息检索的重要工具
ChatGPT 3.5/4.0简单使用手册老童聊AI 明哥陪你学Python chatgpt
ChatGPT3.5/4.0是一种先进的人工智能聊天机器人，能够理解和生成自然语言文本，为用户提供信息检索、问题解答、语言翻译等服务。系统要求操作系统：无特定要求，支持主流操作系统。网络连接：需要稳定的网络连接来使用在线服务。安装与注册访问ChatGPT官方网站或下载相应的应用程序。创建账户：根据网站或应用程序的指示完成注册流程。登录：使用注册的账户信息登录。备注：因为国内环境原因，所以我们不得以
缓存与数据库的数据一致性解决方案分析 Do&Feel Java 缓存数据库 java
在现代应用中，缓存技术的使用广泛且至关重要，主要是为了提高数据访问速度和优化系统整体性能。缓存通过在内存或更快速的存储系统中存储经常访问的数据副本，使得数据检索变得迅速，从而避免了每次请求都需要从较慢的主存储（如硬盘或远程数据库）中读取数据的延迟。这种技术特别适用于读取操作远多于写入操作的场景，如网页浏览、内容分发网络（CDN）和大规模的信息检索系统等。缓存的实现方式多样，包括但不限于内存缓存、分
国产智能搜索MindSearch∶ 能够在不到3分钟内收集并整合300多页相关信息？百态老人人工智能笔记
MindSearch是一款由上海人工智能实验室推出的国产智能搜索工具，具有强大的自然语言处理和机器学习能力，旨在提供高效、精准的信息检索服务。它能够通过自然语言查询快速在各种文件格式（如PDF、DOCX、TXT）中找到所需信息，并利用人工智能技术提供即时答案和相关搜索结果。MindSearch不仅是一个独立的搜索引擎平台，还提供了一个开源的AI搜索引擎框架，用户可以使用闭源或开源的大语言模型（LL
赠书 | 李航老师的蓝皮书茗创科技
赠书活动统计学习方法“统计机器学习方法是实现智能化目标的最有效的手段，统计机器学习是各种智能性处理研究领域中的核心技术，并且在这些领域的发展及应用中起着决定性的作用。”作者简介李航，日本京都大学电气电子工程系毕业，日本东京大学计算机科学博士。北京大学、南京大学客座教授，IEEE会士，ACM杰出科学家，CCF高级会员。研究方向包括信息检索，自然语言处理，统计机器学习，及数据挖掘。曾出版过三部学术专著
什么是分布式搜索引擎罗彬桦分布式搜索引擎搜索引擎分布式
什么是分布式搜索引擎搜索引擎所谓搜索引擎，就是根据用户需求与一定算法，运用特定策略从互联网检索出制定信息反馈给用户的一门检索技术。搜索引擎依托于多种技术，如网络爬虫技术、检索排序技术、网页处理技术、大数据处理技术、自然语言处理技术等，为信息检索用户提供快速、高相关性的信息服务。搜索引擎技术的核心模块一般包括爬虫、索引、检索和排序等，同时可添加其他一系列辅助模块，以为用户创造更好的网络使用环境。分布
自然语言处理（NLP）技术的概念及优势刘小董学习心得自然语言处理
自然语言处理（NLP）是人工智能领域的一个重要分支，其目标是使计算机能够理解、处理和生成人类自然语言的形式和含义。NLP技术的优势包括：实现人机交互：NLP技术可以使计算机与人类之间实现自然的语言交互，使人们可以通过语音识别、语义理解等方式与计算机进行交流。大规模文本处理：NLP技术可以对大规模文本进行自动化处理和分析，提取关键信息和知识，从而实现文本分类、情感分析、信息检索等任务。自动化翻译：N
《倒排索引》刚满十八工地搬砖数据结构
1、了解倒排索引的基本概念1.1、倒排索引是什么倒排索引是一种用于全文搜索的数据结构，它将文档中的每个单词映射到包含该单词的所有文档的列表中，然后用该列表替换单词。因此，倒排索引在文本搜索和信息检索中广泛应用，如搜索引擎、网站搜索、文本分类等场景中。具体来说，一个倒排索引包含一个词语词典和每个词语对应的倒排列表。倒排列表中记录了包含该词语的所有文档的编号、词频等信息。这让我们能够在O(1)的时间内
如何选择知识图谱的智能问答方法 Komorebi_9999 知识图谱人工智能
在选择基于知识图谱的智能问答方法时，可以考虑以下几个因素来判断哪种方法最适合您的需求：问题的结构化程度：如果您的问题主要是结构化的，即遵循一定的格式和模板，那么基于模板的方法可能是一个不错的选择。相反，如果问题形式多样，结构不固定，那么基于语义解析或深度学习的方法可能更合适。问题的复杂性：对于简单明了的问题，基于模板或信息检索的方法可能更加高效。然而，对于复杂、模糊或需要深入理解的问题，基于语义解
AIGC 知识：什么是 RAG? 如何使用 RAG 技术帮助我们制作自己的客户服务功能 surfirst 架构 AIGC
RAG解释及其示例什么是RAG？检索增强生成(RetrievalAugmentedGeneration,RAG)是一种人工智能技术，将信息检索与文本生成相结合。以下是它的运作方式：检索：1.您提出一个问题或请求信息摘要。2.RAG在庞大的文本数据集中（文档、文章等）搜索相关信息。增强：3.RAG找到相关信息后，不会简单地将其原封不动地呈现出来。相反，它会分析内容，提取关键点，并将其与您的特定问题或
Elasticsearch：特定领域的生成式 AI - 预训练、微调和 RAG Elastic 中国社区官方博客 AI Elasticsearch Elastic 人工智能 elasticsearch 大数据搜索引擎全文检索
作者：来自ElasticSteveDodson有多种策略可以将特定领域的知识添加到大型语言模型(LLM)中，并且作为积极研究领域的一部分，正在研究更多方法。对特定领域数据集进行预训练和微调等方法使LLMs能够推理并生成特定领域语言。然而，使用这些LLM作为知识库仍然容易产生幻觉。如果领域语言与LLM训练数据相似，则通过检索增强生成(RAG)使用外部信息检索系统向LLM提供上下文信息可以改善事实响应
【软考高级信息系统项目管理师--第五章：信息系统工程下】码上有前软考高项职场和发展程序人生学习方法软件工程
作者：“码上有前”文章简介：软考高级–信息系统项目管理师欢迎小伙伴们点赞、收藏⭐、留言第五章：信息系统工程下数据工程十八、数据模型分类十九、数据建模过程二十、数据元数据标准化管理数掘备份数据容灾数据清理步骤数据开发利用二十四，信息检索系统集成系统安全数据工程十八、数据模型分类1、概念模型:基本元素包含实体、属性、、键、关联;2、辑模型:主要数据结构有层次结构、网状结构、关系型、面向对象模型。3、物
word embedding是什么，word embedding之前需要做什么？ liaolaa 深度学习自然语言处理 pytorch 语言模型
我们知道自然语言处理是让机器能够看懂并理解人类所说的语言，能够像人类一样进行交互，和人对话。从自然语言的角度看，NLP可以大致分为自然语言处理和自然语言生成这两部分，就是理解文本和文本生成。具体应用领域几乎覆盖日常生活，如提取文章摘要，文本情感分析，淘宝京东上机器人客服的智能问答，实体命名识别，知识图谱，信息检索等等。又比如说现在已经有方言的语音转文字技术。那具体实现起来该怎么样呢？我们总不能直接
python实现搜索引擎，数据检索项目：职业查询系统（基本的搜索引擎+爬虫拉勾网职业数据库），搜索引擎可以学习用户的标记，职业网站爬虫生成数据集 violet_ever_garden python 搜索引擎爬虫算法
简介信息检索小组项目，队友已同意上传用spider爬拉钩网站排序文档基于tfidf和cosine相似性从搜索历史和用户标记的相关和不相关的结果中学习IDE规则方法，优化结果基于Tkinter的UI标准登录模块主搜索窗口与页面切换这里我只放出我贡献相关的部分，原文为英文，懒得翻译就机翻一下，文末给出文件链接正文数据处理搜索引擎我们遵循基本的管道，并实现了排名搜索引擎与一些经典的算法，我们已经研究过。
工信部颁发的《自然语言与语音处理设计开发工程师》中级证书的培训通知人工智能技术与咨询人工智能计算机视觉自然语言处理
国家发展大势所趋，促进各行各业智能化、数字化转型，而计算机自然语言处理是一个快速发展的领域，随着人工智能技术的不断发展和应用，对自然语言处理的需求也越来越大。因此，计算机自然语言处理的就业前景非常好。在就业方面，计算机自然语言处理领域主要涉及人工智能、自然语言处理、机器学习、语音识别、信息检索等方面的工作，包括算法工程师、数据分析师、自然语言处理工程师、语音处理工程师、信息检索工程师等职位。在科技
【Meta分析】临床试验信息检索与数据获取医科堂
系统评价/Meta分析指全面收集所有相关研究并逐个进行严格评价和分析，再用定性或定量合成的方法对资料进行处理得出综合结论的研究方法。在指导学员的过程中发现初学者在学习过程中常常会碰到许多共性问题，本公众号特此开设专栏解答，希望能够和大家共同学习交流Meta分析，共同成长，如有不当之处，还请大家批评指正。本期我们分享的是如何检索和筛选临床试验注册数据。01序言昨日，一位学员提问在筛选clinical
怎么样才能成为专业的程序员？ cocos2d-x小菜编程 PHP
如何要想成为一名专业的程序员？仅仅会写代码是不够的。从团队合作去解决问题到版本控制，你还得具备其他关键技能的工具包。当我们询问相关的专业开发人员，那些必备的关键技能都是什么的时候，下面是我们了解到的情况。关于如何学习代码，各种声音很多，然后很多人就被误导为成为专业开发人员懂得一门编程语言就够了？！呵呵，就像其他工作一样，光会一个技能那是远远不够的。如果你想要成为
java web开发高并发处理 BreakingBad java Web 并发开发处理高
java处理高并发高负载类网站中数据库的设计方法（java教程,java处理大量数据，java高负载数据）一：高并发高负载类网站关注点之数据库没错,首先是数据库,这是大多数应用所面临的首个SPOF。尤其是Web2.0的应用，数据库的响应是首先要解决的。一般来说MySQL是最常用的，可能最初是一个mysql主机，当数据增加到100万以上，那么，MySQL的效能急剧下降。常用的优化措施是M-S（
mysql批量更新 ekian mysql
mysql更新优化：一版的更新的话都是采用update set的方式，但是如果需要批量更新的话，只能for循环的执行更新。或者采用executeBatch的方式，执行更新。无论哪种方式，性能都不见得多好。三千多条的更新，需要3分多钟。查询了批量更新的优化，有说replace into的方式，即： replace into tableName(id,status) values
微软BI（3） 18289753290 微软BI SSIS
1) Q：该列违反了完整性约束错误；已获得 OLE DB 记录。源:“Microsoft SQL Server Native Client 11.0” Hresult: 0x80004005 说明:“不能将值 NULL 插入列 'FZCHID'，表 'JRB_EnterpriseCredit.dbo.QYFZCH'；列不允许有 Null 值。INSERT 失败。”。 A：一般这类问题的存在是
Java中的List g21121 java
List是一个有序的 collection（也称为序列）。此接口的用户可以对列表中每个元素的插入位置进行精确地控制。用户可以根据元素的整数索引（在列表中的位置）访问元素，并搜索列表中的元素。与 set 不同，列表通常允许重复
读书笔记永夜-极光读书笔记
1. K是一家加工厂,需要采购原材料,有A,B,C,D 4家供应商,其中A给出的价格最低,性价比最高,那么假如你是这家企业的采购经理,你会如何决策? 传统决策: A:100%订单 B,C,D:0% &nbs
centos 安装 Codeblocks 随便小屋 codeblocks
1.安装gcc,需要c和c++两部分,默认安装下,CentOS不安装编译器的,在终端输入以下命令即可yum install gccyum install gcc-c++ 2.安装gtk2-devel,因为默认已经安装了正式产品需要的支持库,但是没有安装开发所需要的文档.yum install gtk2* 3. 安装wxGTK yum search w
23种设计模式的形象比喻 aijuans 设计模式
1、ABSTRACT FACTORY—追MM少不了请吃饭了，麦当劳的鸡翅和肯德基的鸡翅都是MM爱吃的东西，虽然口味有所不同，但不管你带MM去麦当劳或肯德基，只管向服务员说“来四个鸡翅”就行了。麦当劳和肯德基就是生产鸡翅的Factory 　　工厂模式：客户类和工厂类分开。消费者任何时候需要某种产品，只需向工厂请求即可。消费者无须修改就可以接纳新产品。缺点是当产品修改时，工厂类也要做相应的修改。如：
开发管理 CheckLists aoyouzi 开发管理 CheckLists
开发管理 CheckLists(23) -使项目组度过完整的生命周期开发管理 CheckLists(22) -组织项目资源开发管理 CheckLists(21) -控制项目的范围开发管理 CheckLists(20) -项目利益相关者责任开发管理 CheckLists(19) -选择合适的团队成员开发管理 CheckLists(18) -敏捷开发 Scrum Master 工作开发管理 C
js实现切换百合不是茶 JavaScript 栏目切换
js主要功能之一就是实现页面的特效,窗体的切换可以减少页面的大小,被门户网站大量应用思路: 1,先将要显示的设置为display:bisible 否则设为none 2,设置栏目的id ,js获取栏目的id,如果id为Null就设置为显示 3,判断js获取的id名字;再设置是否显示代码实现: html代码: <di
周鸿祎在360新员工入职培训上的讲话 bijian1013 感悟项目管理人生职场
这篇文章也是最近偶尔看到的，考虑到原博客发布者可能将其删除等原因，也更方便个人查找，特将原文拷贝再发布的。“学东西是为自己的，不要整天以混的姿态来跟公司博弈，就算是混，我觉得你要是能在混的时间里，收获一些别的有利于人生发展的东西，也是不错的，看你怎么把握了”，看了之后，对这句话记忆犹新。 &
前端Web开发的页面效果 Bill_chen html Web Microsoft
1.IE6下png图片的透明显示： <img src="图片地址" border="0" style="Filter.Alpha(Opacity)=数值(100),style=数值(3)"/> 或在<head></head>间加一段JS代码让透明png图片正常显示。 2.<li>标
【JVM五】老年代垃圾回收：并发标记清理GC(CMS GC) bit1129 垃圾回收
CMS概述并发标记清理垃圾回收(Concurrent Mark and Sweep GC）算法的主要目标是在GC过程中，减少暂停用户线程的次数以及在不得不暂停用户线程的请夸功能，尽可能短的暂停用户线程的时间。这对于交互式应用，比如web应用来说，是非常重要的。 CMS垃圾回收针对新生代和老年代采用不同的策略。相比同吞吐量垃圾回收，它要复杂的多。吞吐量垃圾回收在执
Struts2技术总结白糖_ struts2
必备jar文件早在struts2.0.*的时候，struts2的必备jar包需要如下几个： commons-logging-*.jar Apache旗下commons项目的log日志包 freemarker-*.jar
Jquery easyui layout应用注意事项 bozch jquery 浏览器 easyui layout
在jquery easyui中提供了easyui-layout布局，他的布局比较局限，类似java中GUI的border布局。下面对其使用注意事项作简要介绍：如果在现有的工程中前台界面均应用了jquery easyui，那么在布局的时候最好应用jquery eaysui的layout布局，否则在表单页面（编辑、查看、添加等等）在不同的浏览器会出
java-拷贝特殊链表：有一个特殊的链表，其中每个节点不但有指向下一个节点的指针pNext，还有一个指向链表中任意节点的指针pRand，如何拷贝这个特殊链表？ bylijinnan java
public class CopySpecialLinkedList { /** * 题目：有一个特殊的链表，其中每个节点不但有指向下一个节点的指针pNext，还有一个指向链表中任意节点的指针pRand，如何拷贝这个特殊链表？拷贝pNext指针非常容易，所以题目的难点是如何拷贝pRand指针。假设原来链表为A1 -> A2 ->... -> An，新拷贝
color Chen.H JavaScript html css
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <HTML> <HEAD>&nbs
[信息与战争]移动通讯与网络 comsci 网络
两个坚持:手机的电池必须可以取下来光纤不能够入户,只能够到楼宇建议大家找这本书看看:<&
oracle flashback query(闪回查询) daizj oracle flashback query flashback table
在Oracle 10g中，Flash back家族分为以下成员： Flashback Database Flashback Drop Flashback Table Flashback Query(分Flashback Query,Flashback Version Query，Flashback Transaction Query) 下面介绍一下Flashback Drop 和Flas
zeus持久层DAO单元测试 deng520159 单元测试
zeus代码测试正紧张进行中,但由于工作比较忙,但速度比较慢.现在已经完成读写分离单元测试了,现在把几种情况单元测试的例子发出来,希望有人能进出意见,让它走下去. 本文是zeus的dao单元测试: 1.单元测试直接上代码 package com.dengliang.zeus.webdemo.test; import org.junit.Test; import o
C语言学习三printf函数和scanf函数学习 dcj3sjt126com c printf scanf language
printf函数 /* 2013年3月10日20:42:32 地点：北京潘家园功能：目的：测试%x %X %#x %#X的用法 */ # include <stdio.h> int main(void) { printf("哈哈！\n"); // \n表示换行 int i = 10; printf
那你为什么小时候不好好读书? dcj3sjt126com life
dady, 我今天捡到了十块钱, 不过我还给那个人了 good girl! 那个人有没有和你讲thank you啊没有啦....他拉我的耳朵我才把钱还给他的, 他哪里会和我讲thank you 爸爸, 如果地上有一张5块一张10块你拿哪一张呢.... 当然是拿十块的咯... 爸爸你很笨的, 你不会两张都拿爸爸为什么上个月那个人来跟你讨钱, 你告诉他没
iptables开放端口 Fanyucai linux iptables 端口
1，找到配置文件 vi /etc/sysconfig/iptables 2，添加端口开放，增加一行，开放18081端口 -A INPUT -m state --state NEW -m tcp -p tcp --dport 18081 -j ACCEPT 3，保存 ESC :wq! 4，重启服务 service iptables
Ehcache（05）——缓存的查询 234390216 排序 ehcache 统计 query
缓存的查询目录 1. 使Cache可查询 1.1 基于Xml配置 1.2 基于代码的配置 2 指定可搜索的属性 2.1 可查询属性类型 2.2 &
通过hashset找到数组中重复的元素 jackyrong hashset
如何在hashset中快速找到重复的元素呢?方法很多，下面是其中一个办法： int[] array = {1,1,2,3,4,5,6,7,8,8}; Set<Integer> set = new HashSet<Integer>(); for(int i = 0
使用ajax和window.history.pushState无刷新改变页面内容和地址栏URL lanrikey history
后退时关闭当前页面 <script type="text/javascript"> jQuery(document).ready(function ($) { if (window.history && window.history.pushState) {
应用程序的通信成本 netkiller.github.com 虚拟机应用服务器陈景峰 netkiller neo
应用程序的通信成本什么是通信一个程序中两个以上功能相互传递信号或数据叫做通信。什么是成本这是是指时间成本与空间成本。时间就是传递数据所花费的时间。空间是指传递过程耗费容量大小。都有哪些通信方式全局变量线程间通信共享内存共享文件管道 Socket 硬件（串口，USB）等等全局变量全局变量是成本最低通信方法，通过设置
一维数组与二维数组的声明与定义恋洁e生二维数组一维数组定义声明初始化
/** * */ package test20111005; /** * @author FlyingFire * @date:2011-11-18 上午04:33:36 * @author ：代码整理 * @introduce :一维数组与二维数组的初始化 *summary： */ public c
Spring Mybatis独立事务配置 toknowme mybatis
在项目中有很多地方会使用到独立事务，下面以获取主键为例（1）修改配置文件spring-mybatis.xml  <tx:annotation-driven transaction-manager="transactionManager" /> &n
更新Anadroid SDK Tooks之后，Eclipse提示No update were found xp9802 eclipse
使用Android SDK Manager 更新了Anadroid SDK Tooks 之后，打开eclipse提示 This Android SDK requires Android Developer Toolkit version 23.0.0 or above, 点击Check for Updates 检测一会后提示 No update were found