CarNong_Blog

【深度学习-基础学习】Self-Attention 自注意力机制笔记

本篇文章学习总结李宏毅 2021 Spring 课程中关于 Self-Attention 自注意力机制相关的内容。
课程链接以及PPT：李宏毅Spring2021ML

关于 Self-Attention 机制想要解决的问题

通常来说，我们的模型的输入会是一个vector，然后输出可能是一个数值（Scalar）或者是一个类别（Class）。
但是，在机器学习中会碰到输入是一堆vector，并且这些vector的具体的格数也是不明确的，面对这样的输入，我们的模型需要输入一堆数值（Scalars）或者一堆类别（Classes）。

对于一堆vector，我们称其为一个Sequence，由多个vector组成。

事实上，我们有这样的任务，输入是一个不知长度的Sequence，这个任务就是文本、语音、图相关的任务。

文本任务：

对于文本任务，因为对于每一个单词我们会采用 One-hot Encoding 或者 Word Embedding 的方式对文本进行编码，这个时候一段文本就是一个 vectors 的 Sequence，而这个Sequence的长度是取决于文本的长度。
语音任务：

对于一个语音任务，对于每个小的时间段的语音信息，我们会将其编码为一个frame，这个frame也是一个vector，因此，整段语音也会作为一个vector的Sequence作为输入，这个sequence的长度取决于语音的长度。
图任务：

对于图任务，这里以人类的社交图为例子，每个点都是具体的人，而通过编码这个人的个人信息（profile），可以获得一个vector，而整幅图就是一个vector的集合，也就是一个Sequence，这个Sequence的长度则取决于这个图中人的数量。

因此，综上所述，我们直到在机器学习领域中，是存在非常多对于输入是一个不确定长度的、由多个vector组成的 Sequence的任务的，比如文本任务、语音任务、与图有关的任务。

接下来，我们需要讨论的是：关于这些Sequence作为输入的情况，输出有哪些情况呢？

1. 每个输入vector有一个标签（N-N）：

假设对于文本任务中的词性分析任务，输入是一个文本句子，我们需要将组成句子的单词划分词性：

I — N词性

saw — V词性

a — DET词性

saw — N词性

此时，每一个vector，也就是每一个单词，都有一个对应的类别（词性），我们按照输入vector的个数，输出对应个数的类别即可。

1. 整个Sequence具有一个标签（N-1）：

假设对于文本任务中情感分析任务，需要对整个句子的情感做出分析，比如是负面情感还是正面情感：

positive — 整个句子是正面情感

negative — 整个句子是负面情感

此时，有多个vector组成的sequence，也就是整个句子只有一个标签，因此不管多少个vector，只会产生一个标签。

1. 由模型决定输出的Sequence的长度（N-M）：

举一个简单例子就是，在文本任务中的翻译任务，假设需要将英文翻译成中文，输出的中文句子的长度其实并不是确定的，而是根据输入的英文句子所决定的。

此时，对于一个长度的不确定的 Sequence 的输入来说，将有模型自己决定输出的Sequence的长度。

综上，对于未知长度的Sequence作为输入的机器学习任务，存在3种不同的输出情况：

每个vector对应于一个标签，因此输出的Sequence的长度等于输入Sequence的长度，例如词性分析任务。
整个Sequence对应于一个标签，因此不论输入的Sequence的长度为多少，输出Sequence的长度都是1，例如情感分析任务。
对于不同长度Sequence的输入，输出的Sequence长度由模型自己决定，例如翻译任务。

接下来我们将会详细探讨：第一种情况——每个vector对应于一个标签，因此输出的Sequence的长度等于输入Sequence的长度。

第一种输出情况：词性标注任务的分析

从直觉上出发，词性标注任务会非常容易解决，我们只需要将每个词做分类，通过FC（Fully Connected）使用分类算法，就可以得到句子中每个词的词性，如下图所示：

但是，我们会发现存在问题，就是对于第一个saw和第二个saw来说，它们完全是独立的分类过程，对于模型来说，它们是一模一样的，因此，模型会将它们分类为同一种词性。

这是一个非常大的错误，我们显然直到第一个saw 是动词，第二个saw 是名词，而当我们使用最简单基于直觉的方法来完成这个句子的词性分析的时候，模型完全不能完成任务。

对于以上问题，我们发现，是因为模型并没有考虑上下文的信息，而是将每个词作为独立的分类过程，因此我们需要一种让模型能够考虑上下文的机制。

我们非常容易想到上图的方式，在之前模型分类无法考虑到上下文的信息，是因为我们传入FC层的信息只有当前词汇的vector，那我们只需定义一个window，FC接收的vector信息是这个window中所有词汇的vector，这样的话，模型就拥有上下文的信息以便更好的对当前词汇做出词性分析。

通过上述方法，模型确实能够考虑一定范围的上下文信息，但是如果需要获取整个Sequence的上下文信息，我们需要将window开辟到整个Sequence的长度，而整个Sequence的长度的window我们是无法提前定义，它完全取决于输入的Sequence，这又是一个值得思考的问题。

综上，我们总结一下：

对于词性标注任务，一种最简单的方式就是对每个词汇做简单的分类，将当前词汇输入FC，得到具体的分类，但是这种方式存在问题，模型无法得知上下文的信息，也就是无法得出当前词汇的准确词性分类。
我们对最简单的方式进行改善，我们定义一个window，当对某个词汇进行分类的时候，FC不仅接收关于当前词汇的vector，还会接收位于window窗口中词汇的vector，这样模型就获取到相关的上下文信息，但是这种方式页存在问题，当我们需要获取足够多的上下文信息以至于需要将window开到整个sequence的长度大小，我们事先无法定义window的大小，因为这取决于输入Sequence的大小。

接下来，我们介绍 Self-Attention 机制，它将有助于解决这些问题。

Self-Attention

首先我们对于Self-Attention，我们可以将其理解为一个module。
它的作用是获取N个vector，也就是一个Sequence的输入，然后经过Self-Attention module 内部机制的处理，输入N个vector，也就是一个输出Sequence，输出的每个vector中都融合其他所有vector的一些信息，使它成为了一个 Vector With Context，如下图所示

对于Selt-Attention 可以多次重复叠加使用，如下图所示：

以上就是从整体上了解了Self-Attention，接下来我们将具体了解Self-Attention的细节内容。

首先，Self-Attention 的输入是 N 个 Vetcor，这些 Vector 可以是输入层的输出，也可以是网络中某些 Hidden Layer 层的输出。
其次，Self-Attention 的输出是 N 个 Vector，与输出的Vector个数相同，这些Vector是带有整个Sequence上下文信息的Vector（Vector With Context）。
具体如下图所示：

下面我们尝试探究它内部是如何生成Vector With Context的：

对于每个输入Vector，它需要获取其他Vector的信息来组成它的上下文信息，但是，对于不同的vector，可能有些vector的信息更重要，有些vector的信息不那么重要，所以，我们首先需要获得一个相关性的分数，分数越高，代表越重要，在当前Vector中上下文的权重占比也就越高，如下图所示：

那么，关于这个相关性分数如何计算呢？

一般采用的是 Dot-product 方式，当然也有其他的方式，比如下图右侧的方式，这里主要介绍 Dot-product 的方式，它也是transformer使用的方式：

对于当前的Vector，它乘上Wq矩阵，获得一个q向量。（query）
对于被关联的Vector，它乘上Wk矩阵，获得一个k向量。（key）
然后将 q 和 k 做点积，即可得到相关性分数。

直到了相关性分数的计算方法，下面来看整体的流程。

可以这样理解，每个输入的vector，可以通过与Wq，Wk的计算，获得两个vector，分别是 q 和 k。

q 指的是 query，用于计算当前这个vector和其他vector的Attention Score，也就是相关性分数。
k 指的是 key，用于被其他vector计算Attention Score，也就是相关性分数。
注意点：每个vector还需要将自己的 q 和 k 进行内积，计算出自己的Attention Score。
如下图：

上图由4个vector，对于a1来说，需要计算出4个Attention Score，这并不是最终的结果，还需要经过一层Softmax层，将相关性分数进行处理，使得所有Attention Score之和为1.

之后，对于每个向量vector，我们不仅仅需要获得其 q 、k 向量，这两个向量仅仅是用来获取Attention Score的，我们还需要获取一个v向量：v = Wv * a，它是用于真正融合上下文信息的向量，我们需要将每个 Attention Score 和每个向量的v 相乘，以获取最终的输出向量b，如上图所示。

综上所述，我们已经直到了Attention Layer 中的处理方式，我们这里再总结一下：
对于每个输入向量a，我们需要获得其三个向量，分别是q、k、v
- q 向量，q = Wq * a，用于计算当前vector和其他vector的Attention Score。
- k 向量，k = Wk * a，用于被其他vector计算Attention Score。
- v 向量，v = Wv * a，真正包含上下文融合所需信息的vector，它会和Attention Score相乘，输出到最后的输出向量b中。

经过以上的操作，以当前b1输出向量为例，它拥有b2、b3、b4 的上下文信息。

Self-Attention 中 q、k、v 的矩阵运算

我们之前提到过，每个输入向量a，都需要经过乘 Wq Wk Wv 三个矩阵来获取相关的 q、k、v 向量，这里可以将它们进行矩阵运算以便简化，如上图所示。

包括 Attention Score 也可以使用类似的矩阵运算来获得，如下图所示。

经过整理，我们最终发现，需要通过机器学习自动调整的参数是 Wq 、Wk 、Wv 这三个矩阵中的参数。

Multi-head Self-Attention

Multi-head Self-Attention 主要用于处理相关性的不同种类。

举个例子，当我们去计算某些vector之间的Attention Score的时候，可能会有 时间意义 上的相关性，可能会有 空间意义 上的相关性，这个时候，说明存在两种不同种类的相关性，我们应该得出两种Attention Score。

实现其实很简单，之前我们计算相关性，每个输入向量a 需要获得一个 q 向量和一个 k 向量用于计算Attention Score。

这里我们需要计算两个Attention Score，每个输入向量a 需要获得两个 q 向量和两个 k 向量用于计算Attention Score，它们代表不同种类的相关性，并且这两个q向量是以原始的q向量所获得。

qi,1 = Wq,1 * qi
qi,2 = Wq,2 * qi

而k向量的处理过程也和q向量一样。

如下图所示：

最终，我们需要将不同种类的Attention Score，乘上不同种类的 v 向量，最终获得多个b向量，我们需要将多个b向量汇聚成一个最终的b向量，通过乘以 Wo 矩阵的方式。

目前 Self-Attention 存在的问题及解决方法

我们现在基本上已经了解 Self-Attention 的概念以及工作方式：它可以融合上下文的信息，以便模型可以参考这些上下文信息计算更精确的输出。

但是我们发现，在融合上下文信息的过程中，我们并没有提供位置信息，比如 b1 是 a1 经过 Attention Layer 的输出，它融合 b2、b3 、b4的信息，但是它并不知道b2、b3、b4的位置信息，它并不知道 b2 是离它最近的，b4 是离它最远的。

所以，我们要引出一个解决方法 Positional Encoding。

Positional Encoding

Self-Attention 机制中没有提供位置的有效信息。
每个位置信息可以通过一个vector所表达。
可以人工设置。
也可以从机器中学习。

我们在输入a向量的同时附加上这个表示位置信息的positinal vector，即可以提供每个vector的位置信息，如上图所示。

总结一下：
Self-Attention 机制中可以帮助融合上下文信息，但是它忽略了位置信息，我们可以通过 Positional Encoding 的技术来传递位置信息，Positional Encoding 有非常多的实现方法，可以是人工设置，也可以是机器自己学出来的。

Self-Attention 应用

Self-Attention for NLP

Self-Attention 在 transfomer 架构中被发扬光大。
Self-Attention 在 NLP 中的 Bert 中应用广泛。

Self-Attention for Speech

在语音领域，Self-Attention 机制也发挥了重要作用。

但是在语音领域，Truncated Self-Attention 更为常用。

因为对于语音来说，可能不需要全局的上下文信息，可能只需要周围几个的上下文信息，即 Attention 是有一个范围的。

Self-Attention for Image

我们可以将每个像素的位置三个通道数视为一个vector，进而使用Self-Attention机制来处理图片。

以下是将 Self-Attention 用于图像处理的一些方法

Self-Attention VS CNN

CNN：可以视为一种只关注 receptive field 范围中上下文信息的 Self-Attention，是一种更简单一些的Self-Attention 机制，且 receptive field 是人为决定的。
Self-Attention：可以视为一种 receptive field 是自动被机器学出来的CNN，机器自己决定哪些像素和当前像素相关性高，哪些像素和当前像素相关性低，因此，可以将它视为一种更为复杂的CNN。

综上所述：CNN 其实是 Self-Attention 的一种特例，如下图所示

Self-Attension 是更 flexible 的 CNN，会需要更多的data，对于更少的data，会更容易 overfitting，也就是过拟合。
CNN 是更受限制的 Self-Attention，适合在data相对来说更少的时候，不那么容易会 overfitting。

以下是不同data量来训练不同架构（Transformer or CNN）的比较图：

Self-Attention VS RNN

RNN 也可以融合上下文的相关信息，但是对于Self-Attention 来说，它的机制更为繁琐和不那么高效。

首先，单向的RNN只能考虑之前上下文信息，不能考虑全局的上下文或者之后的上下文信息。

如果采用双向的RNN，那么它确实能够达到和Self-Attention 一样的效果，可以考虑之前、之后的上下文信息，但是它是串行的，Self-Attention是并行的，如下图

Self-Attention for GNN

对于Graph来说，其中的每个node，我们都可以表示为一个vector，那么，当我们需要计算Attention Score即相关性分数的时候，我们可以根据Connected nodes 来简化 Attention Score 的计算，如果两个node之间存在边，说明它们是有相关性的，如果没有边，说明相关性几乎为0.

总结

Self-Attention 主要是用来解决什么问题？
- 对于一个Sequence的输入（多个vector），我们需要输出多个vector，但是我们不能直接将其分为N个独立分类任务，因为多个vector之间是存在相关性的，它们之间是会相互影响的，不是独立的，通过 Self-Attention 机制，我们可以通过融合上下文的信息来处理这些相关性带来的影响。
Self-Attention 的输入可以是输入层，也可以是某些 Hidden Layer 层的输出，多个 Self-Attention Layer 层次之间可以堆叠。
Self-Attention 的主要工作机制：
- 每个输入向量需要获取 q、k、v 三个向量，这些向量是通过 Wq、Wk、Wv 三个矩阵计算得出，这三个矩阵的参数是需要学习的参数。
- 通过q、k向量可以获得Attention Score，也就是相关性分数。
- 通过 v 和 Attention Score 相乘，可以得到最终融合了不同权重的上下文信息的输出向量。
Self-Attention 很早之前就在一些任务中存在，但是在Transformer架构中发扬光大。
Self-Attention 在多个领域中都有应用，比如 NLP CV 等等。

系统学习Python——并发模型和异步编程：进程、线程和GIL
分类目录：《系统学习Python》总目录在文章《并发模型和异步编程：基础知识》我们简单介绍了Python中的进程、线程和协程。本文就着重介绍Python中的进程、线程和GIL的关系。Python解释器的每个实例都是一个进程。使用multiprocessing或concurrent.futures库可以启动额外的Python进程。Python的subprocess库用于启动运行外部程序（不管使用何种
C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element((1) 2401_84976182 程序员 c语言 c++学习
既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上CC++开发知识点，真正体系化！由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新如果你需要这些资料，可以戳这里获取#include#include#includeusingnamespacestd;boolcmp(int
C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element(
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化的资料的朋友，可以添加戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！intmain(){vectormyvec{3,
冒泡、选择、插入排序：三大基础排序算法深度解析（C语言实现） xienda 算法排序算法数据结构
在算法学习道路上，排序算法是每位程序员必须掌握的基石。本文将深入解析冒泡排序、选择排序和插入排序这三种基础排序算法，通过C语言代码实现和对比分析，帮助读者彻底理解它们的差异与应用场景。算法原理与代码实现1.冒泡排序（BubbleSort）工作原理：通过重复比较相邻元素，将较大元素逐步"冒泡"到数组末尾。voidbubbleSort(intarr[],intn){ for(inti=0;iarr[
精通Canvas：15款时钟特效代码实现指南烟幕缭绕
本文还有配套的精品资源，点击获取简介：HTML5的Canvas是一个用于绘制矢量图形的API，通过JavaScript实现动态效果。本项目集合了15种不同的时钟特效代码，帮助开发者通过学习绘制圆形、线条、时间更新、旋转、颜色样式设置及动画效果等概念，深化对Canvas的理解和应用。项目中的CSS文件负责时钟的样式设定，而JS文件则包含实现各种特效的逻辑，通过不同的函数或类处理时间更新和动画绘制，提
高效批量单词翻译工具的设计与应用
本文还有配套的精品资源，点击获取简介：在信息技术飞速发展的今天，批量单词翻译工具通过计算机的数据处理能力，大大提高了语言学习和文字处理的效率。用户通过简单输入单词列表到一个文本文件，并运行翻译程序，即可获得翻译结果并保存至指定文件。该工具集成了内置或外部翻译引擎，利用自然语言处理技术实现快速准确的翻译，并可能提供词性识别等附加功能。尽管机器翻译无法完全取代人工校对，但它为用户提供了一种高效的翻译解
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）阿牛的药铺算法移植部署 fpga开发 verilog
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）引言：为什么这个FPGA入门路线能帮你快速上岗？本文设计了一条**"Verilog语法→工具链操作→光学项目实战→岗位技能对标"的阶梯式学习路径。不同于泛泛而谈的FPGA教程，我们聚焦光学类产品开发**核心能力（时序接口设计、图像处理算法移植、高速接口应用），通过3个递进式项目（从LED闪烁到图像边缘检测），
PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
基于链家网的二手房数据采集清洗与可视化分析 Mint_Datazzh 项目 selenium 网络爬虫
个人学习内容笔记，仅供参考。项目链接：https://gitee.com/rongwu651/lianjia原文链接：基于链家网的二手房数据采集清洗与可视化分析–笔墨云烟研究内容该课题的主要目的是通过将二手房网站上的存量与已销售房源，构建一个二手房市场行情情况与房源特点的可视化平台。该平台通过HTML架构和Echarts完成可视化的搭建。因此，该课题的主要研究内容就是如何利用相关技术设计并实现这样
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
分布式学习笔记_04_复制模型 NzuCRAS 分布式学习笔记架构后端
常见复制模型使用复制的目的在分布式系统中，数据通常需要被分布在多台机器上，主要为了达到：拓展性：数据量因读写负载巨大，一台机器无法承载，数据分散在多台机器上仍然可以有效地进行负载均衡，达到灵活的横向拓展高容错&高可用：在分布式系统中单机故障是常态，在单机故障的情况下希望整体系统仍然能够正常工作，这时候就需要数据在多台机器上做冗余，在遇到单机故障时能够让其他机器接管统一的用户体验：如果系统客户端分布
算法学习笔记：15.二分查找 ——从原理到实战，涵盖 LeetCode 与考研 408 例题呆呆企鹅仔算法学习算法学习笔记考研二分查找
在计算机科学的查找算法中，二分查找以其高效性占据着重要地位。它利用数据的有序性，通过不断缩小查找范围，将原本需要线性时间的查找过程优化为对数时间，成为处理大规模有序数据查找问题的首选算法。二分查找的基本概念二分查找（BinarySearch），又称折半查找，是一种在有序数据集合中查找特定元素的高效算法。其核心原理是：通过不断将查找范围减半，快速定位目标元素。与线性查找逐个遍历元素不同，二分查找依赖
OpenWebUI(12)源码学习-后端constants.py常量定义文件青苔猿猿 AI大模型 openwebui constants常量定义
目录文件名：`constants.py`功能概述：主要功能点详解1.**MESSAGES枚举类**2.**WEBHOOK_MESSAGES枚举类**3.**ERROR_MESSAGES枚举类**✅默认错误模板✅认证与用户相关错误✅资源冲突与重复错误✅验证失败类错误✅权限限制类错误✅文件上传与格式错误✅模型与API错误✅请求频率与安全限制✅数据库与配置错误4.**TASKS枚举类**✅总结实际应用场
RocketMQ 基础教程-应用篇-死信队列码炫课堂-码哥 rocketmq专题 rocketmq java
作者简介：大家好，我是smart哥，前中兴通讯、美团架构师，现某互联网公司CTO联系qq：184480602，加我进群，大家一起学习，一起进步，一起对抗互联网寒冬学习必须往深处挖，挖的越深，基础越扎实！阶段1、深入多线程阶段2、深入多线程设计模式阶段3、深入juc源码解析阶段4、深入jdk其余源码解析
入门html这篇文章就够了 ξ流ぁ星ぷ132 html 前端
HTML笔记文章目录HTML笔记html介绍什么是htmlhtml的作用HTML标签介绍常用标签标签and标签and标签u标签del删除线br标签用于换行pre标签，预处理标签span标签div标签sub标签andsup标签hr标签h1,h2...h6标签：HTML5中的语义标签：特殊字符img标签a标签第一种用法：超链接第二种用法：锚点video标签表格标签：form标签input标签selec
OKHttp3源码分析——学习笔记 Sincerity_ 源码相关 Okhttp 源码解析读书笔记 httpclient cache
文章目录1.HttpClient与HttpUrlConnection的区别2.OKHttp源码分析使用步骤:dispatcher任务调度器,（后面有详细说明）Request请求RealCallAsyncCall3.OKHttp架构分析1.异步请求线程池,Dispather2.连接池清理线程池-ConnectionPool3.缓存整理线程池DisLruCache4.Http2异步事务线程池,http
JavaScript 基础09：Web APIs——日期对象、DOM节点梦想当全栈 JavaScript javascript 前端开发语言
JavaScript基础09：WebAPIs——日期对象、DOM节点进一步学习DOM相关知识，实现可交互的网页特效能够插入、删除和替换元素节点。能够依据元素节点关系查找节点。一、日期对象掌握Date日期对象的使用，动态获取当前计算机的时间。ECMAScript中内置了获取系统时间的对象Date，使用Date时与之前学习的内置对象console和Math不同，它需要借助new关键字才能使用。1.实例
【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（Advanced RAG[1]）基于历史对话重新生成Query？ 985小水博一枚呀 AI大模型学习路线人工智能学习 langchain RAG
【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）基于历史对话重新生成Query？【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）基于历史对话重新生成Query？文章目录【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）基于历史对话重新生成Q
【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（Advanced RAG[1]）其他Query优化相关策略？ 985小水博一枚呀 AI大模型学习路线人工智能学习 langchain
【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）其他Query优化相关策略？【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）其他Query优化相关策略？文章目录【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）其他Query优化相关策略？一
传奇修改map地图教程_传奇技能第三祭：NPC的增加、隐藏和脚本修改垃圾箱博物馆传奇修改map地图教程
技能献祭，Get新技能：传奇技能——NPC功能与实现跟航家学技能，用干货带你飞，现学现用，底部有配套学习资源本篇内容简介：通过对游戏内NPC的控制，可以让NPC出现在地图中的任意位置，还可以控制外观显示、自定义命名，新增与隐藏以及脚本功能的实现。一、NPC总控制文本所在路径：D:MirServerMir200EnvirEnvir目录下，找到NPC总控制文本：Merchant，游戏内的所有NPC都在
LangChain中的向量数据库接口－Weaviate 洪城叮当 langchain 数据库经验分享笔记交互人工智能知识图谱
文章目录前言一、原型定义二、代码解析1、add_texts方法1.1、应用样例2、from_texts方法2.1、应用样例3、similarity_search方法3.1、应用样例三、项目应用1、安装依赖2、引入依赖3、创建对象4、添加数据5、查询数据总结前言 Weaviate是一个开源的向量数据库，支持存储来自各类机器学习模型的数据对象和向量嵌入，并能无缝扩展至数十亿数据对象。它提供存储文档嵌
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
AI Agent开发学习系列 - langchain之Chains的使用(7)：用四种处理文档的预制链轻松实现文档对话 alex100 AI Agent 学习人工智能 langchain prompt 语言模型 python
在LangChain中，四种文档处理预制链（stuff、refine、mapreduce、mapre-rank）是实现文档问答、摘要等任务的常用高阶工具。它们的核心作用是：将长文档切分为块，分步处理，再整合结果，极大提升大模型处理长文档的能力。stuff直接拼接所有文档内容到prompt，一次性交给大模型处理。适合文档较短、token不超限的场景。refine递进式摘要。先对第一块文档生成初步答案
.NET 一款基于BGInfo的红队内网渗透工具 dot.Net安全矩阵网络 .net 安全 .netcore web安全矩阵
01阅读须知此文所提供的信息只为网络安全人员对自己所负责的网站、服务器等（包括但不限于）进行检测或维护参考，未经授权请勿利用文章中的技术资料对任何计算机系统进行入侵操作。利用此文所提供的信息而造成的直接或间接后果和损失，均由使用者本人负责。本文所提供的工具仅用于学习，禁止用于其他方面02基本介绍在内网渗透过程中，白名单绕过是红队常见的技术需求。Sharp4Bginfo.exe是一款基于微软签名工具
vue3面试题(个人笔记) 武昌库里写JAVA 面试题汇总与解析课程设计 spring boot vue.js java 学习
vue3比vue2有什么优势？性能更好，打包体积更小，更好的ts支持，更好的代码组织，更好的逻辑抽离，更多的新功能。描述Vue3生命周期CompositionAPI的生命周期：onMounted()onUpdated()onUnmounted()onBeforeMount()onBeforeUpdate()onBeforeUnmount()onErrorCaptured()onRenderTrac
Python学习笔记5|条件语句和循环语句 iamecho9 Python从0到1学习笔记 python 学习笔记
一、条件语句条件语句用于根据不同的条件执行不同的代码块。1、if语句基本语法：if布尔型语句1:代码块#语句1为True时执行的代码示例：age=int(input("请输入你的年龄:"))ifage>=18:print("你已成年")2、if-else语句如果if条件不成立，则执行else代码块：if布尔型语句1:代码块#语句1为True时执行的代码else:代码块#语句1为False时执行的代
2025年渗透测试面试题总结-2025年HW(护网面试) 43（题目+回答）独行soc 2025年护网面试职场和发展 linux 科技渗透测试安全护网
安全领域各种资源，学习文档，以及工具分享、前沿信息分享、POC、EXP分享。不定期分享各种好玩的项目及好用的工具，欢迎关注。目录2025年HW(护网面试)431.自我介绍与职业规划2.Webshell源码级检测方案3.2025年新型Web漏洞TOP54.渗透中的高价值攻击点5.智能Fuzz平台架构设计6.堆栈溢出攻防演进7.插桩技术实战应用8.二进制安全能力矩阵9.C语言内存管理精要10.Pyth
Javaweb学习之Vue模板语法（三）不要数手指啦 vue.js 学习前端
目录学习资料前情回顾本期介绍（vue模板语法）文本插值Vue的Attribute绑定使用JavaScript表达式综合实例代码：学习资料Vue.js-渐进式JavaScript框架|Vue.js(vuejs.org)前情回顾项目的创建大家可以看这篇文章Vue学习之项目的创建-CSDN博客本期介绍（vue模板语法）首先，找到我们编写代码的地方找到自己项目的src文件夹，打开之后点击component
swagger【个人笔记】撰卢笔记 java
文章目录swagger导入mave坐标在配置类(WebMvcConfiguration)中加入knife4j相关配置设置静态资源映射，主要是让拦截器放行swagger常用注解@Api(tags="\[描述这个类的作用]")@ApiModel(description="\[描述这个类的作用]")@ApiModelProPerty("描述这个类的作用")@ApiOperation("\[描述方法的作用
【个人笔记】负载均衡撰卢笔记负载均衡运维
文章目录nginx反向代理的好处负载均衡负载均很的配置方式均衡负载的方式nginx反向代理的好处提高访问速度进行负载均衡保证后端服务安全负载均衡负载均衡，就是把大量的请求按照我们指定的方式均衡的分配给集群中的每台服务器负载均很的配置方式upstreamwebservers{server192.168.100.128:8080server192.168.100.129:8080}server{lis
web报表工具FineReport常见的数据集报错错误代码和解释老A不折腾 web报表 finereport 代码可视化工具
在使用finereport制作报表，若预览发生错误，很多朋友便手忙脚乱不知所措了，其实没什么，只要看懂报错代码和含义，可以很快的排除错误，这里我就分享一下finereport的数据集报错错误代码和解释，如果有说的不准确的地方，也请各位小伙伴纠正一下。 NS-war-remote=错误代码\:1117 压缩部署不支持远程设计 NS_LayerReport_MultiDs=错误代码
Java的WeakReference与WeakHashMap bylijinnan java 弱引用
首先看看 WeakReference wiki 上 Weak reference 的一个例子： public class ReferenceTest { public static void main(String[] args) throws InterruptedException { WeakReference r = new Wea
Linux——（hostname）主机名与ip的映射 eksliang linux hostname
一、什么是主机名无论在局域网还是INTERNET上，每台主机都有一个IP地址，是为了区分此台主机和彼台主机，也就是说IP地址就是主机的门牌号。但IP地址不方便记忆，所以又有了域名。域名只是在公网（INtERNET)中存在，每个域名都对应一个IP地址，但一个IP地址可有对应多个域名。域名类型 linuxsir.org 这样的；主机名是用于什么的呢？答：在一个局域网中，每台机器都有一个主
oracle 常用技巧 18289753290
oracle常用技巧 ①复制表结构和数据 create table temp_clientloginUser as select distinct userid from tbusrtloginlog ②仅复制数据如果表结构一样 insert into mytable select * &nb
使用c3p0数据库连接池时出现com.mchange.v2.resourcepool.TimeoutException 酷的飞上天空 exception
有一个线上环境使用的是c3p0数据库，为外部提供接口服务。最近访问压力增大后台tomcat的日志里面频繁出现 com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.v2.resourcepool.BasicResou
IT系统分析师如何学习大数据蓝儿唯美大数据
我是一名从事大数据项目的IT系统分析师。在深入这个项目前需要了解些什么呢？学习大数据的最佳方法就是先从了解信息系统是如何工作着手，尤其是数据库和基础设施。同样在开始前还需要了解大数据工具，如Cloudera、Hadoop、Spark、Hive、Pig、Flume、Sqoop与Mesos。系统分析师需要明白如何组织、管理和保护数据。在市面上有几十款数据管理产品可以用于管理数据。你的大数据数据库可能
spring学习——简介 a-john spring
Spring是一个开源框架，是为了解决企业应用开发的复杂性而创建的。Spring使用基本的JavaBean来完成以前只能由EJB完成的事情。然而Spring的用途不仅限于服务器端的开发，从简单性，可测试性和松耦合的角度而言，任何Java应用都可以从Spring中受益。其主要特征是依赖注入、AOP、持久化、事务、SpringMVC以及Acegi Security 为了降低Java开发的复杂性，
自定义颜色的xml文件 aijuans xml
<?xml version="1.0" encoding="utf-8"?> <resources> <color name="white">#FFFFFF</color> <color name="black">#000000</color> &
运营到底是做什么的？ aoyouzi 运营到底是做什么的？
文章来源：夏叔叔（微信号：woshixiashushu），欢迎大家关注！很久没有动笔写点东西，近些日子，由于爱狗团产品上线，不断面试，经常会被问道一个问题。问：爱狗团的运营主要做什么？答：带着用户一起嗨。为什么是带着用户玩起来呢？究竟什么是运营？运营到底是做什么的？那么，我们先来回答一个更简单的问题——互联网公司对运营考核什么？以爱狗团为例，绝大部分的移动互联网公司，对运营部门的考核分为三块——用
js面向对象类和对象百合不是茶 js 面向对象函数创建类和对象
接触js已经有几个月了,但是对js的面向对象的一些概念根本就是模糊的,js是一种面向对象的语言但又不像java一样有class,js不是严格的面向对象语言 ,js在java web开发的地位和java不相上下 ,其中web的数据的反馈现在主流的使用json,json的语法和js的类和属性的创建相似下面介绍一些js的类和对象的创建的技术一:类和对
web.xml之资源管理对象配置 resource-env-ref bijian1013 java web.xml servlet
resource-env-ref元素来指定对管理对象的servlet引用的声明，该对象与servlet环境中的资源相关联 <resource-env-ref> <resource-env-ref-name>资源名</resource-env-ref-name> <resource-env-ref-type>查找资源时返回的资源类
Create a composite component with a custom namespace sunjing
https://weblogs.java.net/blog/mriem/archive/2013/11/22/jsf-tip-45-create-composite-component-custom-namespace When you developed a composite component the namespace you would be seeing would
【MongoDB学习笔记十二】Mongo副本集服务器角色之Arbiter bit1129 mongodb
一、复本集为什么要加入Arbiter这个角色回答这个问题，要从复本集的存活条件和Aribter服务器的特性两方面来说。什么是Artiber？ An arbiter does not have a copy of data set and cannot become a primary. Replica sets may have arbiters to add a
Javascript开发笔记白糖_ JavaScript
获取iframe内的元素通常我们使用window.frames["frameId"].document.getElementById("divId").innerHTML这样的形式来获取iframe内的元素，这种写法在IE、safari、chrome下都是通过的，唯独在fireforx下不通过。其实jquery的contents方法提供了对if
Web浏览器Chrome打开一段时间后，运行alert无效 bozch Web chorme alert 无效
今天在开发的时候，突然间发现alert在chrome浏览器就没法弹出了，很是怪异。试了试其他浏览器，发现都是没有问题的。开始想以为是chorme浏览器有啥机制导致的，就开始尝试各种代码让alert出来。尝试结果是仍然没有显示出来。这样开发的结果，如果客户在使用的时候没有提示，那会带来致命的体验。哎，没啥办法了就关闭浏览器重启。结果就好了，这也太怪异了。难道是cho
编程之美-高效地安排会议图着色问题贪心算法 bylijinnan 编程之美
import java.util.ArrayList; import java.util.Collections; import java.util.List; import java.util.Random; public class GraphColoringProblem { /**编程之美高效地安排会议图着色问题贪心算法 * 假设要用很多个教室对一组
机器学习相关概念和开发工具 chenbowen00 算法 matlab 机器学习
基本概念：机器学习(Machine Learning, ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域，它主要使用归纳、综合而不是演绎。开发工具 M
[宇宙经济学]关于在太空建立永久定居点的可能性 comsci 经济
大家都知道,地球上的房地产都比较昂贵,而且土地证经常会因为新的政府的意志而变幻文本格式........ 所以,在地球议会尚不具有在太空行使法律和权力的力量之前,我们外太阳系统的友好联盟可以考虑在地月系的某些引力平衡点上面,修建规模较大的定居点
oracle 11g database control 证书错误 daizj oracle 证书错误 oracle 11G 安装
oracle 11g database control 证书错误 win7 安装完oracle11后打开 Database control 后，会打开em管理页面，提示证书错误，点“继续浏览此网站”，还是会继续停留在证书错误页面解决办法：是 KB2661254 这个更新补丁引起的，它限制了 RSA 密钥位长度少于 1024 位的证书的使用。具体可以看微软官方公告：
Java I/O之用FilenameFilter实现根据文件扩展名删除文件游其是你 FilenameFilter
在Java中，你可以通过实现FilenameFilter类并重写accept(File dir, String name) 方法实现文件过滤功能。在这个例子中，我们向你展示在“c:\\folder”路径下列出所有“.txt”格式的文件并删除。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
C语言数组的简单以及一维数组的简单排序算法示例，二维数组简单示例 dcj3sjt126com c array
# include <stdio.h> int main(void) { int a[5] = {1, 2, 3, 4, 5}; //a 是数组的名字 5是表示数组元素的个数，并且这五个元素分别用a[0], a[1]...a[4] int i; for (i=0; i<5; ++i) printf("%d\n",
PRIMARY, INDEX, UNIQUE 这3种是一类 PRIMARY 主键。就是唯一且不能为空。 INDEX 索引，普通的 UNIQUE 唯一索引 dcj3sjt126com primary
PRIMARY, INDEX, UNIQUE 这3种是一类PRIMARY 主键。就是唯一且不能为空。INDEX 索引，普通的UNIQUE 唯一索引。不允许有重复。FULLTEXT 是全文索引，用于在一篇文章中，检索文本信息的。举个例子来说，比如你在为某商场做一个会员卡的系统。这个系统有一个会员表有下列字段：会员编号 INT会员姓名
java集合辅助类 Collections、Arrays shuizhaosi888 Collections Arrays HashCode
Arrays、Collections 1 ）数组集合之间转换 public static <T> List<T> asList(T... a) { return new ArrayList<>(a); } a）Arrays.asL
Spring Security（10）——退出登录logout 234390216 logout Spring Security 退出登录 logout-url LogoutFilter
要实现退出登录的功能我们需要在http元素下定义logout元素，这样Spring Security将自动为我们添加用于处理退出登录的过滤器LogoutFilter到FilterChain。当我们指定了http元素的auto-config属性为true时logout定义是会自动配置的，此时我们默认退出登录的URL为“/j_spring_secu
透过源码学前端之 Backbone 三 Model 逐行分析JS源代码 backbone 源码分析 js学习
Backbone 分析第三部分 Model 概述： Model 提供了数据存储，将数据以JSON的形式保存在 Model的 attributes里，但重点功能在于其提供了一套功能强大，使用简单的存、取、删、改数据方法，并在不同的操作里加了相应的监听事件，如每次修改添加里都会触发 change，这在据模型变动来修改视图时很常用，并且与collection建立了关联。
SpringMVC源码总结（七）mvc:annotation-driven中的HttpMessageConverter 乒乓狂魔 springMVC
这一篇文章主要介绍下HttpMessageConverter整个注册过程包含自定义的HttpMessageConverter，然后对一些HttpMessageConverter进行具体介绍。 HttpMessageConverter接口介绍： public interface HttpMessageConverter<T> { /** * Indicate
分布式基础知识和算法理论 bluky999 算法 zookeeper 分布式一致性哈希 paxos
分布式基础知识和算法理论 BY [email protected] 本文永久链接：http://nodex.iteye.com/blog/2103218 在大数据的背景下，不管是做存储，做搜索，做数据分析，或者做产品或服务本身，面向互联网和移动互联网用户，已经不可避免地要面对分布式环境。笔者在此收录一些分布式相关的基础知识和算法理论介绍，在完善自我知识体系的同
Android Studio的.gitignore以及gitignore无效的解决 bell0901 android gitignore
　　github上.gitignore模板合集，里面有各种.gitignore ： https://github.com/github/gitignore 　　自己用的Android Studio下项目的.gitignore文件，对github上的android.gitignore添加了　　　　　　# OSX files　　　　　　//mac os下　　　　　　.DS_Store
成为高级程序员的10个步骤 tomcat_oracle 编程
What 软件工程师的职业生涯要历经以下几个阶段：初级、中级，最后才是高级。这篇文章主要是讲如何通过 10 个步骤助你成为一名高级软件工程师。 Why 得到更多的报酬！因为你的薪水会随着你水平的提高而增加提升你的职业生涯。成为了高级软件工程师之后，就可以朝着架构师、团队负责人、CTO 等职位前进历经更大的挑战。随着你的成长，各种影响力也会提高。
mongdb在linux下的安装 xtuhcy mongodb linux
一、查询linux版本号： lsb_release -a LSB Version: :base-4.0-amd64:base-4.0-noarch:core-4.0-amd64:core-4.0-noarch:graphics-4.0-amd64:graphics-4.0-noarch:printing-4.0-amd64:printing-4.0-noa

【深度学习-基础学习】Self-Attention 自注意力机制 笔记