RUCblake

预训练在Sparse retrieval的应用

Sparse retrieval models主要通过获得更好的文本表示来提升检索效果，比如传统term-based方法中的bag-of-words (BoW)表示或者"latent word"空间的表示。通过这种方式，查询和文档可以通过sparse embeddings表示，即只有少部分维度非0。这种稀疏表示得到了广泛的关注，因为它可以构建倒排索引用于高效的检索。
随着PTMs的发展，预训练模型被广泛用于提升sparse retrieval模型的容量。我们将这些预训练模型分成四类，包括term re-weighting, document expansion, expansion + re-weighting和sparse representation learning。

1. Term Re-weighting

1.1 DeepCT

【Introduction】

在搜索引擎的第一阶段检索过程中，传统的方法通常使用布尔模型，概率模型或者是向量空间的BOW模型，这些模型会基于倒排索引捕捉一些信息。在这些第一阶段检索模型中，一个比较重要的问题是如何衡量查询和文档中的term weight。通常使用query term frequency (tf)来表达context-specific的权重，用inverse document frequency (idf)来表达全局的权重。这些基于frequency的方法取得了一定的成功，但是这种方法比较简单粗暴，没有对于文本语义的理解。当遇到比较短的文档时，term frequency分布比较均匀时，信息量会十分有限，不具备区分度。为了确定某个term是否是一段话所表达的核心含义，不仅仅要看它的词频，更要考虑整段文本的语义，才能判断这个term究竟有多么重要。

随着contextualized word representation技术的广泛应用(ELMo, BERT)，文本语义理解建模能力有显著提升。每个term最终可以得到一个包含整个文本语义以及句法的表示。本文就展示了如何通过这个contextualized word representation来提升第一阶段检索模型。本文提出Deep Contextualized Term Weighting framework (DeepCT)，通过有监督的方式训练一个BERT-based模型来学习term的contextualized representation，并且得到一个将representation映射到term weights的函数。DeepCT在不同的语境下，可以给同一个词生成不同的term weights。这样在一些频率均匀分布的文本(短文档或者长query)中，可以帮助生成更有代表性的term weights。

DeepCT有两个应用场景。其一是识别文档中的重要term用于passage retrieval，在passage长度的文档内使用term-frequency的方式得到的词权重分布较为均匀，文章设计了DeepCT-Index用于离线计算terms的权重并构建索引。训练过程使用DeepCT来预测passage中的每个词是否会出现在相关的查询中，训练完成后的模型用于文档集的所有文档上，整个过程与查询无关。经过DeepCT-Index计算得到的词权重被存入倒排索引中供第一阶段检索模型使用。另一个场景用于识别长query中代表性的term。对于一些包含很多term或者概念的查询，需要判断哪些是最核心的。本文提出DeepCT-Query，通过query-doc pair的相关性标注训练一个DeepCT，通过预测query中每个词在文档中被提及的概率，来生成词权重。这些query词权重可以用于一些诸如BM25和query likelihood的检索模型。实验表明了DeepCT可以生成查询和文档内词的高质量表示，最核心的贡献在于，DeepCT帮助搜索引擎更多地根据词意来确定词的重要度，而非频率。

【Model Structure】

DeepCT的模型包括generating contextualized word embedding和predicting term weights两个组件。其中生成词表示的部分使用的就是BERT，预测词权重就是一个简单的线性层，将词的表示通过线性映射加偏置得到一个权重分数。训练过程相当于在每个词上都是一个回归任务，将预测的权重分数与groud-truth权重分数计算MSE损失函数。BERT使用训练好的参数来初始化，之后使用上述训练任务做fine-tune。DeepCT是一个学习词权重的通用框架，根据不同的任务可以设置不同的ground-true词权重计算方式，从而训练不同的目标。下面介绍的DeepCT-Index和DeepCT-Query就是两个不同的应用场景。

DeepCT-Index用于计算document中词权重，Target term weights (即训练DeepCT用的ground truth)的计算方式为：

分母是与文档d相关的query集合大小，分子是集合中包含词t的子集大小。QTR(query term recall)的取值范围为[0,1]，该值越大，说明词t在用户进行检索行为时最能代表该文档，最有可能与查询词匹配成功。训练完成之后，可以用训练好的模型来构建索引，文中采用的方式是将DeepIndex预测的词频放大100倍四舍五入得到一个整数，替代之前用词频表示的词权重。

DeepCT-Query模型用于给query词预测权重，Target term weights的计算方式为：

分母是与查询相关的文档集大小，分子是D_q中包含词t的子集大小。TR(term recall)表示查询词的重要程度，TR越高，说明该词更可能出现在相关文档中。训练阶段同样使用相关的q-d pair，预测的时候只需要query不需要文档。

1.2 HDCT

原理同DeepCT一致，差别在于要获取document-level term weight，因此需要将passage-level的contextualized term weights组合获取document-level的词权重。另外，fine-tune BERT需要词权重标注，文中提出了三种自动计算目标词权重的策略。

首先对于给定的文档，将其分成若干长度为300左右的passage。随后对每个passage，采用和DeepCT一样的结构，得到预测的target term weights。随后同样将预测得到的term weights放大到类似tf一样的整数词频，但与DeepCT所不同之处在于，HDCT放大的时候在将term weights乘以100取整数之前先取了一个算术平方根，这么做的原因在于term weights是处于[0,1]的小数，开根号之后可以将极端小的分数扩大几个量级，防止最终被几个高分的词主导。此外还有两个细节设置：1）BERT的tokenizer会将词分成若干个piece，最后取第一个piece的表示代表这个词；2）如果同一个词在passage中出现多次，取分数最高的。根据分数可以给每个passage生成一个bag-of-words向量，里面的权重值是这个词对于passage的代表价值，有可能出现频率低但分数高，或者出现频率高但是分数低，这也是HDCT与基于词频的BOW向量的主要区别。

为了获得document-level的词权重，HDCT将passage-level词权重做加权和：

其中pw_i是第i个段落的重要性。文中使用两种方式求pw_i。第一种方式是令所有段落的权重一致，均为1。另一种方式是取1/i，即随着段落数增加而衰减，这是基于现实中往往前几个段落更能够吸引读者的注意力。随后便将document-level bag-of-words representation存入倒排索引中。

下面考虑如何获取标注数据，即ground truth词权重如何获取，人工标注的方式显然是不现实的，文中设计了三种方式来判断词在document retrieval过程的重要度分数：1）当只有文档可用时，可采用一个content-based的标注方式；2）当有大量query-document相关标注的数据时，可采用一个relevance-based的标注方式；3）当可以收集到大量查询，但是与文档的相关度不便获取(出于保护隐私的考虑)时，可考虑采用pseudo-relevance based的标注方式。

Content-based的标注方式中，使用一些特定的文本域(比如文档标题，内链文本)，将该文本域下所有的实例构成一个集合(文档标题下只有一个实例，内链文本有多个实例)，利用这个集合可以生成弱监督标注：

分子是集合内包括词t的实例个数，分母是集合实例总数。因此当使用文档标题作为指定文本域，最后得到的是0-1标注，若使用内链文本，则得到的标注是位于[0,1]区间内的一个实数。使用content-based的标注方式存在一个问题，即得到的标注是文档级别的，同一个词在不同passage内出现时所使用的标注都是一样的。这种global labels的效果在实验部分会有讨论。

Relevance-based的标注方式使用的前提是有大量query-document相关分数数据。给定一个文档的段落集合，以及与之相关的查询集合，可采用如下方式获取relevance-based标注：

其中分子是相关查询中包含词t的查询个数，分母是所有相关查询的个数。与content-based标注方式一样，这种标注方式也属于global labels，即与具体段落无关的标注。当真实的相关性标注不可用时，可使用一个已有的检索系统，如BM25，对每个查询检索回top K文档，这些文档作为与该查询pseudo-relevant的文档，随后通过与Relevance-based标注计算方式一样的公式，获取pseudo-relevance based的标注。

2. Document Expansion

2.1 DocTTTTTquery (Following Doc2query)

一种提升检索效果的方式就是对文档进行扩充。参考QA系统中，如果能够根据文档来生成该文档可以回答的问题，然后将这个问题添加到文档末尾，会一定程度解决vocabulary mismatch问题，进而提升检索效果，整个Doc2query流程如下图所示：

Doc2query使用seq2seq的Transformer模型，使用文档作为输入，输出生成查询。文档和查询在输入之前都使用BPE切分，文档被阶段至400，查询被截断至100。模型训练完成之后，使用top-k随机采样的方式生成10个查询加到文档后面。

DocTTTTTquery相比于Doc2query，将transformer换成了T5，在查询时延上几乎没有增加，但是效果却大大提升。

2.2 UED

预训练模型在IR领域上取得了显著的效果，一方面可以直接作用与ranking过程，另一方面可以用于passage expansion用于第一阶段检索，本文考虑到ranking和passage expansion之间有内在关联，即目标一致，都需要对于文档整体语义的理解，因而考虑联合训练这两个任务。文章提出了Unified Encoder-Decoder networks (UED)。总体包括两个部分：1）用于passage expansion的decoder generator 2）用于re-ranking的encoder。训练过程采用两阶段训练方式，第一个阶段首先使用BERT的自编码训练目标训练encoder，GPT的自回归训练目标来训练decoder。第二个阶段联合训练passage ranking任务和query generation任务。

具体地，在第一阶段预训练中，encoder的做预训练的时候除了使用MLM任务以外，为了理解句子之间复杂的关系，还参考StructBERT加入sentence relation prediction (SRP)任务，预测两个部分是next sentence relation, previous sentence relation或者是no relation三种关系。decoder预训练的任务比较简单，即从大规模无标注的语料上选取某个片段中所有句子作为encoder的输入，下一个句子作为生成的目标。

第一阶段预训练完成之后，要对UED的两个组件做fine-tune来分别用于query generation和re-ranking任务。对于query generation任务，利用训练集标注好的query-passage pair，以passage作为输入来生成query。但考虑到passage很长，生成的query有可能失去关键信息，因此在encoder输入不仅仅使用passage内容，还是用PAKE算法抽取出部分关键词加在前面，来指引query的生成。因此encoder的输入实际上为"[CLS]k[SEP]d[SEP]"，k为抽取的key words。与Doc2query类似，训练完成之后使用模型生成top-k个query加载passage后面。对re-ranking任务的fine-tune则是比较常规的方式，即将query和doc拼接在一起输入到encoder中，利用CLS位置的表示来预测相关分数，最终采用交叉熵损失来训练encoder部分参数。为了联合训练这两个任务，在每个mini-batch生成时，都以等概率的选择其中一个任务去做，即每一次参数更新都仅使用ranking loss或者generation loss其中的一个。两个阶段的训练过程皆如图所示。

3. Term re-weighting + Document expansion

上述的term re-weighting在基于已有的BOW sparse representation (如tf-idf, BM25)基础上改进，融入语义信息，从而学习到词的重要度而非频率。Document expansion旨在根据文档语义生成潜在对应的查询或问题，即缩小document和query语义上的gap，通过添加新词的方式实现。从最终结果上来看，前者相当于将原有sparse表示中非零的部分学习得更好，后者相当于挖掘sparse中为零的部分哪些应该具有一定权重。那么是否可以设计一个模型，可以同时完成上述目标，即能更好地学习权重，同时又可以结合语义信息，挖掘更多的相关词，这就是本部分方法要解决的。

3.1 SparTerm

为了实现上述的目的，SparTerm考虑直接根据输入文本在整个vocabulary空间上学习一个sparse表示。学习到的这个表示同时具有sparsity和flexibility，也就是说既保留了sparse retrieval模型的优势(对extract matching友好，效率高)，也提升语义匹配能力(缓解vocabulary mismatch，并不是只有在passage中出现的词才有权重)。为了实现这两点，模型包括两个主要的组件：Importance Predictor和Gating Controller，整个模型如下图所示：

其中Importance Predictor要在整个vocabulary空间上计算每个词的权重。计算方式为，先通过BERT-based的预训练模型处理输入的passage文本，得到每个词最终的输出向量h_i。随后在每个词上都通过下面公式的操作得到一个全词表上的重要度分布：

其中E是词向量矩阵，Transform函数表示GELU激活函数和一个layer normalization层。得到的I_i的含义是整个词表上与passage中第i个词相关度的概率分布，即与第i个词越相关，对应位置的值越大。随后将每个位置上词的概率分布加到一起就得到了Importance Predictor最终输出的词表上的重要度分布I：

Gating Controller的主要功能是选择"激活"哪些词，最后返回的是一个binary的向量，向量的每个位置是0/1表示该词是否被"激活"。上述的Importance Predictor理论上在每个词上都有一定的分布，但要满足最后获取表示的稀疏性，则需要只"激活"部分的词权重。文中提出了两种Gating Controller：1）Literal-only Gating。只考虑在passage中出现的词，这些词的位置设置为1，其他的词的位置设置为0。这种方式相当于放弃了发掘新的相关词，即只有term re-weighting的效果，没有document expansion的效果。2）Expansion-enhanced Gating。相比于第一种controller，这种方式既考虑passage原有的词，也考虑增加新的词。具体做法是先使用和Importance Predictor一样的结构，通过公式(2)和(3)获取一个词表上的概率分布G，这个概率分布与上述Importance Predictor输出的词重要度分布含义不同，G表示的是哪些词更可能被激活。随后对G中的每个数值做Binary处理(比如以0.5为阈值，大于0.5为1否则为0)。随后需要将在passage中出现过的词的位置也置为1，得到最终的Gating分布，将它和Importance分布相乘就得到了最终的sparse表示。

模型在训练的时候无法端到端地训练，因为需要先有一个可靠的Gating Controller，否则很难收敛。所以首先训练Gating Controller，由于BERT预训练过程的MLM任务输出的概率分布可以较为准确地识别出输入词本身以及语义上相近的词，所以直接使用BERT的参数来初始化。下面在Fine-tune的时候只需要考虑expansion词就可以了。Fine-tune过程中的监督信号来源于已有的passage-query pair数据，即将对应的query中的词视作目标词，组成词集合t。用T表示依据集合t获取的one-hot向量，即在t中出现的词对应为值为1，其余位置为0。通过以下交叉熵损失来优化：

其中lambda_1和lambda_2都是可调的超参数，G表示的是做binary操作之前的dense gating probability。通过这个fine-tune过程，可以使得Gating Controller生成的Gating distribution在passage中原词以及相关query的expansion词上更可能为1。

Fine-tune完成Gating Controller之后就可以端到端地联合训练整个模型，以最后ranking的监督信号来同时训练Importance Predictor和Gating Controller，其中Importance Predictor部分的损失函数如下：

这是一个pairwise的negative log likelihood损失函数，目标在于使得相关的passage最后得到的sparse表示与query的sparse表示相比于不相关的passage更接近。相比于DeepCT中的词权重学习方式，这里直接使用ranking监督信号来训练模型。这么做的目的是希望在整个词表上所有词都参与到学习过程中，从而可以生成稍微smooth一些但仍然具有区分度的重要度分布。最后将rank的loss和controller的loss加到一起，联合训练两个组件。

3.2 SPLADE

SparTerm存在以下两个缺陷：1）训练过程复杂，无法直接端到端训练，需要先训练Gating Controller，再联合训练，无法直接使用最好的Gating Controller参数用于ranking；2）两种Gating Controller经实验证实效果差别不大，说明expansion词效果不明显。据此，SPLADE提出了一些小但是却不可缺少的改动来大幅提升SparTerm的效果。

改动包括以下三点：1）在获取Importance分布时，为了防止部分词的权重占据主导地位，使用一个log-saturation函数，原公式是取RELU直接相加，改成取RELU之后加一取log再相加：

2）原来用于rank任务的损失函数只包括正负例，这里加入了in-batch的随机负例，损失函数如下

3）保持representation的sparse特性的方式做了改变。SparTerm是使用Gating Controller解决的，这种方式不利于端到端的训练，这里改成使用正则化的方式。SNRM中使用的L0正则无法解决构建索引存在的不平衡问题，即高频词的post list会很长，为了获取balanced的post list，这里使用的是FLOPS正则，公式如下：

通过FLOPS正则(相比于L0加了一个平方，从而求梯度的时候有区分度)，可以更多地打压一些在一个batch内出现权重均值较高的词，这些词的权重更多地降下去有利于索引的平衡。

最终的损失函数如下：

相比于SparTerm去掉了Gating Controller的训练损失，加入了正则化项。分开对查询和文档做正则化是希望查询的sparsity更高一些，有助于快速检索。

3.3 DeepImpact

SparTerm实验结果相比于DocTTTTTQuery在MRR@10上仅仅从0.277提升到0.279。Deep-Impact希望采用更简单有效的方式，即再DeepCT基础上修改。DeepCT的一个缺点是学习目标是每个term彼此独立的target term weight，忽略了passage内term共现的信息(term weight权重学习过程彼此独立)，DocTTTTTQuery在完成expansion之后的后续过程还需要依赖BM25的分数。因此，DeepImpact希望在学习每个term权重的时候综合考虑passage里所有的权重，同时可以直接得到相关度分数。

文章做了一个实验，来探寻DocTTTTTQuery在做passage expansion过程中，rewrite词和新词(Inject)词哪个影响更大，实验结果如下图所示：

结果发现扩充Rewrite词在MRR@10上有更多提升，扩充新词在recall上有更多提升，同时使用两种词在所有指标上均有提升。另外，使用rewrite词的DocTTTTTQuery在原理上也是term re-weight但是效果却比DeepCT差，说明DocTTTTTQuery在学习词权重的时候不是最优的选择。

下面介绍DeepImpact的模型结构。首先利用DocTTTTTQuery生成一些查询，获取一些injected expansion terms。将这些词与原passage利用[SEP]分隔开，输入到encoder中，最后输出每个词的embedding。对于重复的词，使用第一次出现位置的embedding，输入到Impact Scores encoder中。这个Impact Scores Encoder包括一个两层的MLP以RELU作为激活函数，最后输出的分数作为该term的impact分数。随后计算query和doc分数的时候使用它们公共词Impact分数的和作为相关分数。训练的时候利用pairwise softmax cross-entropy loss来直接训练模型。

本质上，DeepImpact相比于DeepCT有两个主要区别，一个是使用DocTTTTTQuery先做一次passage expansion，随后计算每个词的权重时以q-d pair相关性直接作为监督信号来训练，而不是以每个term的target term weight分别训练。

4.Sparse Representation Learning

不同于提升在symbolic space的文档表示，稀疏表示学习的方法注重在隐空间内学习查询和文档的稀疏表示，在隐空间内每个维度表示一个词并利用这些隐空间的稀疏表示来建立倒排索引。

4.1 UHD-BERT

Dense representation的好处是能够建模语义进而解决多义词与同义词的关系，这是普通sparse representation难以解决的。然而dense representation也存在一些缺点，比如难以根据它来构建倒排索引，可解释性不强，无法直接在此基础上使用已有的term-based的方法。本文考虑如何在保留sparse representation优势的基础上，引入dense representation的优势。为了获取根据dense representation获取sparse representation，文中使用的是winner-take-all算法(WTA)，WTA是一个线性层，只保留Top-K个值并将其他位置的值设置为0。这种控制稀疏性的好处是可以设置指定的稀疏度K。

总体的模型结构如上图所示，query和document各有一个结构一致共享参数的encoder，每一层输出的各个token的dense representation，随后在每一层使用WTA生成每个token的sparse representation，随后使用non-interfering aggregation获取每个bucket的表示(即该层的整体表示，每个bucket表示query或者document的某个aspect)。随后将每对bucket表示两两计算点积，最终通过margin loss计算损失。

具体地，Encoder即使用BERT，在每一层上都会给每个token输出一个表示，将这个表示通过一个线性层之后，只保留前k个最大的值，其余位置置为0。随后在每一层上，将每个token的表示通过max pooling聚合成一个整体的bucket表示，所谓non-interfering aggregation意思是每个token的表示都是sparse representation，因此做max-pooling的时候彼此影响不大，不想dense representation做max-pooling会损失大量信息。得到每个bucket表示之后，将query和document每层对应的表示作点积，再将所有点积相加即得到相关度分数。训练的时候将相关的文档作为正例集合，标注不相关的文档(hard-negative)和in-batch随机文档作为负例集合，两两计算margin loss，最后将每个pair的loss加在一起得到最终的loss。

直观上看，相比于SparTerm，主要的区别在于稀疏度控制方法(Gating Controller vs. WTA)，以及使用了多层BERT输出结果来表示多个aspects。

4.2 BPR

这篇文章也是针对dense representation做retrieval过程的不足做出的改进。由于dense vector在存储上会具有很大的压力(所有维度的数值都要存)，本文提出Binary Passage Retriever (BPR) 将learning-to-hash技术引入到Dense Passage Retriever (DPR)中，从而可以使用压缩的二进制编码来替代连续向量。BPR使用多任务联合训练策略：1）根据二进制码的汉明距离生成候选的passage；2）基于dense vector的passage reranking任务。BPR在不降精度的条件下将存储开销从65G降到了2GB。

模型结构如图所示，在经过BERT得到输出向量之后，通过一个Hash layer获得二进制向量，这个Hash layer层很简单，即符号函数sign，对向量的每个维度，如果大于0则置为1，否则置为-1。但考虑到符号函数在0处不可导，因此使用一个scaled tanh函数来近似：

其中的beta是scaling参数，当beta趋向正无穷时，该函数逼近符号函数。beta的计算方式为sqrt(0.1 * step + 1)，即初始时稍微平缓一些，训练到最后，约接近二进制编码。

训练的时候为了保证模型的效果，分成两个阶段，第一阶段利用生成的二进制编码通过汉明距离计算获得1000个候选，随后第二阶段对这1000个候选做re-rank。第一阶段的损失函数为：

这里看起来是使用内积作为损失函数，但实际上对于二进制编码来说，内积和汉明距离在优化过程中是可以互换的。第二阶段的损失函数和DPR一致：

两个任务的Loss直接相加来联合训练。

你可能感兴趣的:(Pre-train,for,IR,深度学习,自然语言处理,搜索引擎,深度学习)

【LeetCode 热题 100】24. 两两交换链表中的节点——（解法一）迭代+哨兵 xumistore LeetCode leetcode 链表算法 java
Problem:24.两两交换链表中的节点题目：给你一个链表，两两交换其中相邻的节点，并返回交换后链表的头节点。你必须在不修改节点内部的值的情况下完成本题（即，只能进行节点交换）。文章目录整体思路完整代码时空复杂度时间复杂度：O(N)空间复杂度：O(1)整体思路这段代码旨在解决一个经典的链表操作问题：两两交换链表中的节点(SwapNodesinPairs)。问题要求将链表中每两个相邻的节点进行交换
Guava LoadingCache sqyaa. java并发编程 Java知识 jvm 缓存 guava
LoadingCache是GoogleGuava库提供的一个高级缓存实现，它通过自动加载机制简化了缓存使用模式。核心特性自动加载机制当缓存未命中时，自动调用指定的CacheLoader加载数据线程安全：并发请求下，相同key只会加载一次灵活的过期策略支持基于写入时间(expireAfterWrite)和访问时间(expireAfterAccess)的过期可设置最大缓存大小，基于LRU策略淘汰丰富的
python_虚拟环境阿_焦 python
第一、配置虚拟环境：virtualenv（1）pipvirtualenv>安装虚拟环境包（2）pipinstallvirtualenvwrapper-win>安装虚拟环境依赖包（3）c盘创建虚拟目录>C:\virtualenv>配置环境变量【了解一下】：（1）如何使用virtualenv创建虚拟环境a、cd到C:\virtualenv目录下：b、mkvirtualenvname>创建虚拟环境nam
高效批量单词翻译工具的设计与应用
本文还有配套的精品资源，点击获取简介：在信息技术飞速发展的今天，批量单词翻译工具通过计算机的数据处理能力，大大提高了语言学习和文字处理的效率。用户通过简单输入单词列表到一个文本文件，并运行翻译程序，即可获得翻译结果并保存至指定文件。该工具集成了内置或外部翻译引擎，利用自然语言处理技术实现快速准确的翻译，并可能提供词性识别等附加功能。尽管机器翻译无法完全取代人工校对，但它为用户提供了一种高效的翻译解
PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
（Python基础篇）字典的操作 EternityArt 基础篇 python 开发语言
一、引言在Python编程中，字典（Dictionary）是一种极具灵活性的数据结构，它通过“键-值对”（key-valuepair）的形式存储数据，如同现实生活中的字典——通过“词语（键）”快速查找“释义（值）”。相较于列表和元组的有序索引访问，字典的优势在于基于键的快速查找，这使得它在处理需要频繁通过唯一标识获取数据的场景中极为高效。掌握字典的操作，能让我们更高效地组织和管理复杂数据，是Pyt
Leetcode 3604. Minimum Time to Reach Destination in Directed Graph Espresso Macchiato leetcode笔记 leetcode 3604 leetcode medium leetcode双周赛160 BFS 广度优先遍历最优路径
Leetcode3604.MinimumTimetoReachDestinationinDirectedGraph1.解题思路2.代码实现题目链接：3604.MinimumTimetoReachDestinationinDirectedGraph1.解题思路这一题思路上就是一个广度优先遍历，我们不断考察当前时间点以及位置的情况下，下一个点可行的位置，然后考察最近的时间点能够到达的位置，遍历全部可能
洛谷 P11120 [ROIR 2024 Day 1] 登机题解殇之夜洛谷 c++c语言算法
Part0前言这种题一看就是签到题，也是特水，建议评红或橙。Part1思路就是先将已有位置先填对称，然后将剩余还未添加的乘客以对称方式填入。首先可以特判掉需要的位置大于空位的情况，直接输出Impossible。然后用数组记录.和X的位置，先遍历所有X的位置，然后看他的对称位置是否为空，若为空，则填入X，然后m--。最后若musingnamespacestd;chara[1010][10];stru
react-native android 环境搭建
环境：macjava版本：Java11最重要：一定要一定要一定要react涉及到很多的依赖下载，gradle和react相关的，第一次安装环境时有外网环境会快速很多。安装nodejs安装react-nativenpminstallreact-native-clinpminstallreact-native创建一个新项目react-nativeinitfirstReact替换gradle下载源rep
docker0网卡没有ip一步解决 ξ流ぁ星ぷ132 tcp/ip 网络服务器
正常查看ip的时候一直显示没有ip这里先删除docker0网卡iplinkdeletedocker0然后重启服务systemctlrestartdocker再次查看显示有ip了并且查看配置文件也是正常的cat/etc/docker/daemon.json{"registry-mirrors":["https://docker.m.daocloud.io","https://docker.imgdb
Rocky Linux 8.5/CentOS 8 安装Wine chen_teacher linux 运维服务器
RockyLinux8.5/CentOS8安装Wine首先配置EPEL镜像配置方法安装Wine首先配置EPEL镜像EPEL(ExtraPackagesforEnterpriseLinux),是由FedoraSpecialInterestGroup维护的EnterpriseLinux（RHEL、CentOS）中经常用到的包。下载地址：https://mirrors.aliyun.com/epel/相
系统迁移从CentOS7.9到Rocky8.9
我有两台阿里云上的服务器是CentOS7.9，由于CentOS7已经停止支持，后续使用的话会有安全漏洞，所以需要尽快迁移，个人使用的话目前兼容性好的还是RockyLinux8，很多脚本改改就能用了。一、盘点系统和迁移应用查看当前系统发行版版本cat/etc/os-release盘点迁移清单服务器应用部署方式docker镜像来源v1wordpressdockerdockerhubv1zdirdock
Excel控件Spire.XLS 更新至7.12.144 | 附下载 cocacola456 文档管理更新 Excel控件 Spire.XLS更新 Spire.XLS Spire.XLS下载
Excel控件Spire.XLS更新至7.12.144，修复了转换PDF时字幕对齐的问题。Spire.XLS7.12.144更新修复修复了将Chart转换为Image时图表数据标签重复的问题。修复了CalculateAllValue方法抛出异常的问题。修复了将工作表转换为PDF时图表字幕对齐不正确的问题。
Python 常用内置函数详解（七）：dir()函数——获取当前本地作用域中的名称列表或对象的有效属性列表
目录一、功能二、语法和示例一、功能dir()函数获取当前本地作用域中的名称列表或对象的有效属性列表。二、语法和示例dir()函数有两种形式，如果没有实参，则返回当前本地作用域中的名称列表。如果有实参，它会尝试返回该对象的有效属性列表。如果对象有一个名为__dir__()的方法，那么该方法将被调用，并且必须返回一个属性列表。dir()函数的语法格式如下：C:\Users\amoxiang>ipyth
传奇修改map地图教程_传奇技能第三祭：NPC的增加、隐藏和脚本修改垃圾箱博物馆传奇修改map地图教程
技能献祭，Get新技能：传奇技能——NPC功能与实现跟航家学技能，用干货带你飞，现学现用，底部有配套学习资源本篇内容简介：通过对游戏内NPC的控制，可以让NPC出现在地图中的任意位置，还可以控制外观显示、自定义命名，新增与隐藏以及脚本功能的实现。一、NPC总控制文本所在路径：D:MirServerMir200EnvirEnvir目录下，找到NPC总控制文本：Merchant，游戏内的所有NPC都在
树莓派 5 - Raspberry Pi OS 新版本 Bookworm（书虫） kuan_li_lyg 树莓派 &Jetson 教程机器人 stm32 嵌入式硬件自动驾驶 ROS 树莓派 raspberry pi
文章目录在这里插入图片描述版本说明前言二、PipeWire三、Networking四、Firefox五、Documentation六、What’smissing? 新版本下载地址为：https://www.raspberrypi.com/software/operating-systems/版本说明 2023-10-10:基于Debianbookworm版本支持树莓派5在RaspberryPi4和
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
赛亚超频：蚂蚁、阿瓦隆、神马矿工超频解除低温限制，高温保护 Punkhash算力租赁超频虚拟货币矿机
www.punkhash.com赛亚超频在比特币挖矿行业日益激烈的今天，矿工们越来越重视矿机的效率与稳定性。随着电价的波动、币价的不确定以及矿机成本的攀升，单纯依靠“买新设备”提升产出，已经不再是最优选择。越来越多有经验的矿工开始转向对现有设备进行超频优化，以提高算力、降低单位能耗，从而获得更高的收益回报。而在众多第三方超频固件中，赛亚超频（SaiyanFirmware）凭借稳定性强、兼容机型广、
css遗忘的知识2(grid布局，&父类选择器与:has() 讲解) 不断努力的根号七 css css 前端 javascript
---grid布局1.基础Grid布局定义gird布局和行宽.container{display:grid;grid-template-columns:100px200px300px;/*三列，宽度分别为100px,200px,300px*/grid-template-rows:100px200px;/*两行，高度分别为100px,200px*/}常用单位fr(fractionalunit)：可用
具身语义导航算法总揽 Shilong Wang 具身导航算法算法
端到端方法小脑大脑GNMNavDPNaVILAViNTNomadNavidStreamVLNMapNavNavGPTUni-NavidOctoNavNavGPT2模仿学习行为克隆BCDAgger模块化方法GOATVLFMSayPlanLM-NavETPNavVoroNavEmbodiedRAGVL-NavStairwaytoSuccess业内大佬北大王鹤NavidUni-NavidOctoNav吴
【Qualcomm】高通SNPE框架简介、下载与使用 Jackilina_Stone 人工智能 Qualcomm SNPE
目录一高通SNPE框架1SNPE简介2QNN与SNPE3Capabilities4工作流程二SNPE的安装与使用1下载2Setup3SNPE的使用概述一高通SNPE框架1SNPE简介SNPE（SnapdragonNeuralProcessingEngine），是高通公司推出的面向移动端和物联网设备的深度学习推理框架。SNPE提供了一套完整的深度学习推理框架，能够支持多种深度学习模型，包括Pytor
探索WPF界面的神器：Snoop 伍霜盼Ellen
探索WPF界面的神器：Snoop项目地址:https://gitcode.com/gh_mirrors/sno/snoopwpfSnoop是一款由PeteBlois发起，并由BastianSchmidt维护的开源WPF应用监视工具。它提供了一种无需调试器就能浏览和操作任何运行中WPF应用程序视觉、逻辑和自动化树的强大功能。无论是修改属性值、查看触发器还是在属性变化时设置断点，Snoop都能轻松应对
深度学习篇---昇腾NPU&CANN 工具包 Atticus-Orion 上位机知识篇图像处理篇深度学习篇深度学习人工智能 NPU 昇腾 CANN
介绍昇腾NPU是华为推出的神经网络处理器，具有强大的AI计算能力，而CANN工具包则是面向AI场景的异构计算架构，用于发挥昇腾NPU的性能优势。以下是详细介绍：昇腾NPU架构设计：采用达芬奇架构，是一个片上系统，主要由特制的计算单元、大容量的存储单元和相应的控制单元组成。集成了多个CPU核心，包括控制CPU和AICPU，前者用于控制处理器整体运行，后者承担非矩阵类复杂计算。此外，还拥有AICore
400多个免费在线编程与计算机科学课程 zhufafa 基础理论课程理论计算机基础免费
来源：medium作者：DhawalShah五年前，麻省理工学院和斯坦福大学等学校首先向公众开放免费的在线课程。如今，全球有700多所学校创造了数以千计的免费在线课程。从入门到精通系列，是作者通过ClassCentral的课程数据库整理的400多个免费在线课程的简介和链接（来源于ClassCentral，一个在线课程搜索引擎），根据课程难度分为入门、进阶和高阶三大类，每门课程还有星级评分（统计自C
STM32F1单片机驱动42步进电机 All right 1 STM32学习单片机 stm32 嵌入式硬件
我们使用的单片机是STM32F103ZET6，电机是42步进电机（额定电流是1A）、驱动是TMC2209；但是暂时使用2160这个外接驱动（注意：2160为大电流电机驱动不能长时间带动这个42电机，否则会发烫烧电机）。开启一个定时器2外设中断：为电机提供步进脉冲；开启三个GPIO口：作为EN、STEP、DIR控制；42步进电机：步距角1.8°、16细分、3200步每圈。一、代码：tim.c:/*U
Ubuntu 安装 RAGFlow 简单流程 steven_41936912 ubuntu linux RAGFlow
Docker拉取镜像慢可以更换镜像源sudotee/etc/docker/daemon.json<<-'EOF'{"registry-mirrors":["https://docker.m.daocloud.io","https://docker.imgdb.de","https://docker-0.unsee.tech","https://docker.hlmirror.com","https
深度学习图像分类数据集—桃子识别分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：桃子识别分类：['B1','M2','R0','S3']训练数据集总共有6637张图片，每个文件夹单独放一种数据各子文件夹图片统计:·B1:1601张图片·M2:1800张图片·R0:1601张图片·S3:
使用 Deepseek Zero Coding Experience 创建类似飞扬的小鸟游戏知识大胖 NVIDIA GPU和大语言模型开发教程游戏 deepseek ollama janus pro
简介Flappybird在苹果商店推出后，每天大约能赚5000美元，但后来被苹果故意下架。现在我正尝试使用Deepseek制作这样一款游戏。技术在不断变化，编码知识也在不断变化，只需修改代码即可获得结果。让我们在Deepseek上试试这款游戏：推荐文章《如何在本地电脑上安装和使用DeepSeekR-1》权重1，DeepSeek《Nvidia系列之使用NVIDIAIsaacSim和ROS2的命令行控
使用 DeepSeek R1 和 Ollama 开发 RAG 系统使用 DeepSeek R1 和 Ollama 构建强大的 RAG 系统。了解开发智能 AI 解决方案的设置过程、最佳实践和技巧。知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 deepseek ollama
简介DeepSeekR1和Ollama提供了用于构建检索增强生成(RAG)系统的强大工具。本指南介绍了使用这些技术开发RAG应用程序的设置、实施和最佳实践。为什么RAG系统会改变游戏规则检索增强生成(RAG)系统结合了搜索和生成AI的优点，可实现精确且准确的情境感知响应。借助DeepSeekR1和Ollama等工具，创建RAG系统不再令人生畏。无论您是构建聊天机器人、知识助手还是AI驱动的搜索引擎
在 Linux（openEuler 24.03 LTS-SP1）上安装 Kubernetes + KubeSphere 的防火墙放行全攻略
目录在Linux（openEuler24.03LTS-SP1）上安装Kubernetes+KubeSphere的防火墙放行全攻略一、为什么要先搞定防火墙？二、目标环境三、需放行的端口和协议列表四、核心工具说明1.修正后的exec.sh脚本（支持管道/重定向）2.批量放行脚本：open_firewall.sh五、使用示例1.批量放行端口2.查看当前防火墙规则3.仅开放单一端口（临时需求）4.检查特定
web前段跨域nginx代理配置刘正强 nginx cms Web
nginx代理配置可参考server部分 server { listen 80; server_name localhost;
spring学习笔记 caoyong spring
一、概述 a>、核心技术 : IOC与AOP b>、开发为什么需要面向接口而不是实现接口降低一个组件与整个系统的藕合程度，当该组件不满足系统需求时，可以很容易的将该组件从系统中替换掉，而不会对整个系统产生大的影响 c>、面向接口编口编程的难点在于如何对接口进行初始化,(使用工厂设计模式)
Eclipse打开workspace提示工作空间不可用 0624chenhong eclipse
做项目的时候，难免会用到整个团队的代码，或者上一任同事创建的workspace， 1.电脑切换账号后，Eclipse打开时，会提示Eclipse对应的目录锁定，无法访问，根据提示，找到对应目录，G:\eclipse\configuration\org.eclipse.osgi\.manager，其中文件.fileTableLock提示被锁定。解决办法，删掉.fileTableLock文件，重
Javascript 面向对面写法的必要性？一炮送你回车库 JavaScript
现在Javascript面向对象的方式来写页面很流行，什么纯javascript的mvc框架都出来了：ember 这是javascript层的mvc框架哦,不是j2ee的mvc框架我想说的是，javascript本来就不是一门面向对象的语言，用它写出来的面向对象的程序，本身就有些别扭，很多人提到js的面向对象首先提的是：复用性。那么我请问你写的js里有多少是可以复用的，用fu
js array对象的迭代方法换个号韩国红果果 array
1.forEach 该方法接受一个函数作为参数，对数组中的每个元素使用该函数 return 语句失效 function square(num) { print(num, num * num); } var nums = [1,2,3,4,5,6,7,8,9,10]; nums.forEach(square); 2.every 该方法接受一个返回值为布尔类型
对Hibernate缓存机制的理解归来朝歌 session 一级缓存对象持久化
在hibernate中session一级缓存机制中，有这么一种情况：问题描述：我需要new一个对象，对它的几个字段赋值，但是有一些属性并没有进行赋值，然后调用 session.save()方法，在提交事务后，会出现这样的情况： 1：在数据库中有默认属性的字段的值为空 2：既然是持久化对象，为什么在最后对象拿不到默认属性的值？通过调试后解决方案如下：对于问题一，如你在数据库里设置了
WebService调用错误合集 darkranger webservice
Java.Lang.NoClassDefFoundError: Org/Apache/Commons/Discovery/Tools/DiscoverSingleton 调用接口出错，一个简单的WebService import org.apache.axis.client.Call;import org.apache.axis.client.Service; 首先必不可
JSP和Servlet的中文乱码处理 aijuans Java Web
JSP和Servlet的中文乱码处理前几天学习了JSP和Servlet中有关中文乱码的一些问题，写成了博客，今天进行更新一下。应该是可以解决日常的乱码问题了。现在作以下总结希望对需要的人有所帮助。我也是刚学，所以有不足之处希望谅解。一、表单提交时出现乱码：在进行表单提交的时候，经常提交一些中文，自然就避免不了出现中文乱码的情况，对于表单来说有两种提交方式：get和post提交方式。所以
面试经典六问 atongyeye 工作面试
题记：因为我不善沟通，所以在面试中经常碰壁，看了网上太多面试宝典，基本上不太靠谱。只好自己总结，并试着根据最近工作情况完成个人答案。以备不时之需。以下是人事了解应聘者情况的最典型的六个问题： 1 简单自我介绍关于这个问题，主要为了弄清两件事，一是了解应聘者的背景，二是应聘者将这些背景信息组织成合适语言的能力。我的回答：(针对技术面试回答，如果是人事面试，可以就掌
contentResolver.query()参数详解百合不是茶 android query()详解
收藏csdn的博客,介绍的比较详细,新手值得一看 1.获取联系人姓名一个简单的例子，这个函数获取设备上所有的联系人ID和联系人NAME。 [java] view plain copy public void fetchAllContacts() {
ora-00054:resource busy and acquire with nowait specified解决方法 bijian1013 oracle 数据库 kill nowait
当某个数据库用户在数据库中插入、更新、删除一个表的数据，或者增加一个表的主键时或者表的索引时，常常会出现ora-00054:resource busy and acquire with nowait specified这样的错误。主要是因为有事务正在执行（或者事务已经被锁），所有导致执行不成功。 1.下面的语句
web 开发乱码征客丶 spring Web
以下前端都是 utf-8 字符集编码一、后台接收 1.1、 get 请求乱码 get 请求中，请求参数在请求头中；乱码解决方法： a、通过在web 服务器中配置编码格式：tomcat 中，在 Connector 中添加URIEncoding="UTF-8"； 1.2、post 请求乱码 post 请求中，请求参数分两部份， 1.2.1、url？参数，
【Spark十六】： Spark SQL第二部分数据源和注册表的几种方式 bit1129 spark
Spark SQL数据源和表的Schema case class apply schema parquet json JSON数据源准备源数据 {"name":"Jack", "age": 12, "addr":{"city":"beijing&
JVM学习之:调优总结 -Xms -Xmx -Xmn -Xss BlueSkator -Xss -Xmn -Xms -Xmx
堆大小设置JVM 中最大堆大小有三方面限制：相关操作系统的数据模型（32-bt还是64-bit）限制；系统的可用虚拟内存限制；系统的可用物理内存限制。32位系统下，一般限制在1.5G~2G；64为操作系统对内存无限制。我在Windows Server 2003 系统，3.5G物理内存，JDK5.0下测试，最大可设置为1478m。典型设置： java -Xmx355
jqGrid 各种参数详解(转帖) BreakingBad jqGrid
jqGrid 各种参数详解分类：源代码分享个人随笔请勿参考解决开发问题 2012-05-09 20:29 84282人阅读评论(22) 收藏举报 jquery 服务器 parameters function ajax string
读《研磨设计模式》-代码笔记-代理模式-Proxy bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.lang.reflect.InvocationHandler; import java.lang.reflect.Method; import java.lang.reflect.Proxy; /* * 下面
应用升级iOS8中遇到的一些问题 chenhbc ios8 升级iOS8
1、很奇怪的问题，登录界面，有一个判断，如果不存在某个值，则跳转到设置界面，ios8之前的系统都可以正常跳转，iOS8中代码已经执行到下一个界面了，但界面并没有跳转过去，而且这个值如果设置过的话，也是可以正常跳转过去的，这个问题纠结了两天多，之前的判断我是在 -(void)viewWillAppear:(BOOL)animated 中写的，最终的解决办法是把判断写在 -(void
工作流与自组织的关系？ comsci 设计模式工作
目前的工作流系统中的节点及其相互之间的连接是事先根据管理的实际需要而绘制好的，这种固定的模式在实际的运用中会受到很多限制，特别是节点之间的依存关系是固定的，节点的处理不考虑到流程整体的运行情况，细节和整体间的关系是脱节的，那么我们提出一个新的观点，一个流程是否可以通过节点的自组织运动来自动生成呢？这种流程有什么实际意义呢？这里有篇论文，摘要是：“针对网格中的服务
Oracle11.2新特性之INSERT提示IGNORE_ROW_ON_DUPKEY_INDEX daizj oracle
insert提示IGNORE_ROW_ON_DUPKEY_INDEX 转自：http://space.itpub.net/18922393/viewspace-752123 在 insert into tablea ...select * from tableb中，如果存在唯一约束，会导致整个insert操作失败。使用IGNORE_ROW_ON_DUPKEY_INDEX提示，会忽略唯一
二叉树:堆 dieslrae 二叉树
这里说的堆其实是一个完全二叉树,每个节点都不小于自己的子节点,不要跟jvm的堆搞混了.由于是完全二叉树,可以用数组来构建.用数组构建树的规则很简单: 一个节点的父节点下标为: (当前下标 - 1)/2 一个节点的左节点下标为: 当前下标 * 2 + 1 &
C语言学习八结构体 dcj3sjt126com c
为什么需要结构体，看代码 # include <stdio.h> struct Student //定义一个学生类型，里面有age, score, sex, 然后可以定义这个类型的变量 { int age; float score; char sex; } int main(void) { struct Student st = {80, 66.6,
centos安装golang dcj3sjt126com centos
#在国内镜像下载二进制包 wget -c http://www.golangtc.com/static/go/go1.4.1.linux-amd64.tar.gz tar -C /usr/local -xzf go1.4.1.linux-amd64.tar.gz #把golang的bin目录加入全局环境变量 cat >>/etc/profile<
10.性能优化-监控-MySQL慢查询 frank1234 性能优化 MySQL慢查询
1.记录慢查询配置 show variables where variable_name like 'slow%' ; --查看默认日志路径查询结果：--不用的机器可能不同 slow_query_log_file=/var/lib/mysql/centos-slow.log 修改mysqld配置文件：/usr /my.cnf[一般在/etc/my.cnf，本机在/user/my.cn
Java父类取得子类类名 happyqing java this 父类子类类名
在继承关系中，不管父类还是子类，这些类里面的this都代表了最终new出来的那个类的实例对象，所以在父类中你可以用this获取到子类的信息！ package com.urthinker.module.test; import org.junit.Test; abstract class BaseDao<T> { public void
Spring3.2新注解@ControllerAdvice jinnianshilongnian @Controller
@ControllerAdvice，是spring3.2提供的新注解，从名字上可以看出大体意思是控制器增强。让我们先看看@ControllerAdvice的实现： @Target(ElementType.TYPE) @Retention(RetentionPolicy.RUNTIME) @Documented @Component public @interface Co
Java spring mvc多数据源配置 liuxihope spring
转自：http://www.itpub.net/thread-1906608-1-1.html 1、首先配置两个数据库 <bean id="dataSourceA" class="org.apache.commons.dbcp.BasicDataSource" destroy-method="close&quo
第12章 Ajax（下） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
BW / Universe Mappings blueoxygen BO
BW Element OLAP Universe Element Cube Dimension Class Charateristic A class with dimension and detail objects (Detail objects for key and desription) Hi
Java开发熟手该当心的11个错误 tomcat_oracle java 多线程工作单元测试
#1、不在属性文件或XML文件中外化配置属性。比如，没有把批处理使用的线程数设置成可在属性文件中配置。你的批处理程序无论在DEV环境中，还是UAT（用户验收测试）环境中，都可以顺畅无阻地运行，但是一旦部署在PROD 上，把它作为多线程程序处理更大的数据集时，就会抛出IOException，原因可能是JDBC驱动版本不同，也可能是#2中讨论的问题。如果线程数目可以在属性文件中配置，那么使它成为
推行国产操作系统的优劣 yananay windows linux 国产操作系统
最近刮起了一股风，就是去“国外货”。从应用程序开始，到基础的系统，数据库，现在已经刮到操作系统了。原因就是“棱镜计划”，使我们终于认识到了国外货的危害，开始重视起了信息安全。操作系统是计算机的灵魂。既然是灵魂，为了信息安全，那我们就自然要使用和推行国货。可是，一味地推行，是否就一定正确呢？先说说信息安全。其实从很早以来大家就在讨论信息安全。很多年以前，就据传某世界级的网络设备制造商生产的交