cv_lhp

李沐动手学深度学习V2-注意力评分函数

一. 注意力评分函数

1. 注意力评分权重

在上篇博客李沐动手学深度学习V2-注意力机制中，使用高斯核来对查询和键之间的关系建模。将Nadaraya-Watson-Gaussian中的高斯核指数部分视为注意力评分函数（attention scoring function），简称评分函数（scoring function），然后把这个函数的输出结果输入到softmax函数中进行运算。通过上述步骤，我们将得到与键对应的值的概率分布（即注意力权重），最后注意力汇聚的输出就是基于这些注意力权重的值的加权和。
下图说明了如何将注意力汇聚的输出计算成为值的加权和，其中表示注意力评分函数。由于注意力权重是概率分布，因此加权和其本质上是加权平均值。

用数学语言描述，假设有一个查询 $\mathbf{q} \in \mathbb{R}^q$ 和 $m$ 个“键－值”对 $(\mathbf{k}_1, \mathbf{v}_1), \ldots, (\mathbf{k}_m, \mathbf{v}_m)$ ，其中 $\mathbf{k}_i \in \mathbb{R}^k$ ， $\mathbf{v}_i \in \mathbb{R}^v$ 。注意力汇聚函数 $f$ 就被表示成值的加权和：

$f(\mathbf{q}, (\mathbf{k}_1, \mathbf{v}_1), \ldots, (\mathbf{k}_m, \mathbf{v}_m)) = \sum_{i=1}^m \alpha(\mathbf{q}, \mathbf{k}_i) \mathbf{v}_i \in \mathbb{R}^v,$

其中查询 $\mathbf{q}$ 和键 $\mathbf{k}_i$ 的注意力权重（标量）是通过注意力评分函数 $a$ 将两个向量映射成标量，再经过softmax运算得到的：

$\alpha(\mathbf{q}, \mathbf{k}_i) = \mathrm{softmax}(a(\mathbf{q}, \mathbf{k}_i)) = \frac{\exp(a(\mathbf{q}, \mathbf{k}_i))}{\sum_{j=1}^m \exp(a(\mathbf{q}, \mathbf{k}_j))} \in \mathbb{R}.$

从上面公式看出选择不同的注意力评分函数 $a$ 会导致不同的注意力汇聚操作，下面将介绍两个流行的评分函数：加性注意力评分函数和缩放点积注意力评分函数。

2. 掩码softmax操作

上面提到的softmax操作用于输出一个概率分布作为注意力权重。在某些情况下，并非所有的值都应该被纳入到注意力汇聚中，例如为了在数据集中高效加载处理小批量数据集（每一个样本序列大小形状相同），某些文本序列被填充了没有意义的特殊词元。为了仅将有意义的词元作为值来获取注意力汇聚，指定一个有效序列长度（即词元的个数），以便在计算softmax时过滤掉超出指定范围的位置。通过这种方式可以在下面的masked_softmax（）函数中实现这样的掩蔽softmax操作（masked softmax operation），其中任何超出有效长度的位置（注意力attention权重分数）都被掩蔽并置为0。

import torch
import d2l.torch
import math
from torch import nn
def masked_softmax(X,valid_lens):
    """通过在最后一个轴上掩蔽元素来执行softmax操作"""
    # X:3D张量，X也即是根据query和keys计算出来的attention分数，valid_lens:1D或2D张量，表示把与填充的keys计算出来的attention分数过滤掉，设置为很小的数-1e6,过滤掉后最后再进行计算softmax,使对填充的keys的attention权重为0
    shape = X.shape
    if valid_lens is None:
        return nn.functional.softmax(X,dim=-1)
    else:
        if valid_lens.dim() == 1:
            #valid_lens如果为1维则valid_lens第一个元素表示对X中第一个样本序列所有样本的valid_lens都是相同的，都是为valid_lens第一个元素长度
            valid_lens = torch.repeat_interleave(valid_lens,shape[1])
        else:
            valid_lens = valid_lens.reshape(-1)
        # 最后一轴上被掩蔽的元素使用一个非常大的负值替换，从而其softmax输出为0
        X = d2l.torch.sequence_mask(X.reshape(-1,shape[-1]),valid_lens,value=-1e6)
        return nn.functional.softmax(X.reshape(shape),dim=-1)

初始化两个 2×4 矩阵表示的样本，这两个样本的有效长度分别为 2 和 3 ，经过掩蔽softmax()操作，超出有效长度的值都被掩蔽为0。

#(2,2,4)中第一维2表示2个批量，第二维2表示有2个query，第三维4表示对4个keys的attention分数
masked_softmax(torch.rand(2, 2, 4), torch.tensor([2, 3]))

输出结果如下：
tensor([[[0.6196, 0.3804, 0.0000, 0.0000],
         [0.5610, 0.4390, 0.0000, 0.0000]],

        [[0.2868, 0.4283, 0.2849, 0.0000],
         [0.2864, 0.2380, 0.4755, 0.0000]]])

有效长度使用二维张量，为矩阵样本中的每一行指定有效长度。

masked_softmax(torch.rand(size=(2,2,4)),valid_lens=torch.tensor([[1,3],[2,4]]))

输出结果如下：
tensor([[[1.0000, 0.0000, 0.0000, 0.0000],
         [0.3764, 0.2470, 0.3766, 0.0000]],

        [[0.6565, 0.3435, 0.0000, 0.0000],
         [0.1777, 0.2994, 0.2769, 0.2460]]])

3. 加性注意力

一般来说，当查询和键是不同长度的矢量时，可以使用加性注意力作为评分函数。给定查询 $\mathbf{q} \in \mathbb{R}^q$ 和键 $\mathbf{k} \in \mathbb{R}^k$ ，加性注意力（additive attention）的评分函数为：
$a(\mathbf q, \mathbf k) = \mathbf w_v^\top \text{tanh}(\mathbf W_q\mathbf q + \mathbf W_k \mathbf k) \in \mathbb{R},$
其中可学习的参数是 $\mathbf W_q\in\mathbb R^{h\times q}$ 、 $\mathbf W_k\in\mathbb R^{h\times k}$ 和 $\mathbf w_v\in\mathbb R^{h}$ 。
将查询和键连结起来后输入到一个多层感知机（MLP）中，感知机包含一个隐藏层，其隐藏单元数是一个超参数 $h$ ，通过使用 $\tanh$ 作为激活函数，并且禁用偏置项。

class AdditiveAttention(nn.Module):
    """加性注意力"""
    def __init__(self,key_size,query_size,num_hiddens,dropout):
        super(AdditiveAttention,self).__init__()
        self.W_q = nn.Linear(query_size,num_hiddens,bias=False)
        self.W_k = nn.Linear(key_size,num_hiddens,bias=False)
        self.W_v = nn.Linear(num_hiddens,1,bias=False)
        self.dropout = nn.Dropout(dropout)
    def forward(self,queries,keys,values,valid_lens):
        queries = self.W_q(queries)
        keys = self.W_k(keys)
        # 在维度扩展后，
        # queries的形状：(batch_size，查询的个数，1，num_hidden)
        # key的形状：(batch_size，1，“键－值”对的个数，num_hiddens)
        # 使用广播方式进行求和
        features = queries.unsqueeze(2)+keys.unsqueeze(1)
        features = torch.tanh(features)
        # self.w_v仅有一个输出，因此从形状中移除最后那个维度。
        # scores的形状：(batch_size，查询的个数，“键-值”对的个数)
        scores = self.W_v(features)
        scores = scores.squeeze(-1)
        self.attention_weights = masked_softmax(scores,valid_lens)
        # values的形状：(batch_size，“键－值”对的个数，值的维度)
        #批量矩阵乘法
        return torch.bmm(self.dropout(self.attention_weights),values)

使用AdditiveAttention类，其中查询、键和值的形状为（批量大小，步数或词元序列长度，特征大小），实际输出为 (2,1,20) 、 (2,10,2) 和 (2,10,4) 。注意力汇聚输出的形状为（批量大小，查询的步数，值的维度）。

queries,keys = torch.normal(0,1,size=(2,1,20)),torch.ones(size=(2,10,2))
# values的小批量，两个值矩阵是相同的
values = torch.arange(40,dtype=torch.float32).reshape(1,10,4).repeat(2,1,1)
valid_lens = torch.tensor([2,6])
additiveAttention = AdditiveAttention(query_size=20,key_size=2,num_hiddens=8,dropout=0.1)
additiveAttention.eval() #eval状态下使dropout无效
additiveAttention(queries,keys,values,valid_lens)

输出如下所示：
tensor([[[ 2.0000,  3.0000,  4.0000,  5.0000]],

        [[10.0000, 11.0000, 12.0000, 13.0000]]], grad_fn=<BmmBackward0>)

尽管加性注意力包含了可学习的参数，但由于本例子中每个键都是相同的，所以注意力权重是均匀的，由指定的有效长度决定，如下图所示。

d2l.torch.show_heatmaps(additiveAttention.attention_weights.reshape(1,1,2,10),xlabel='keys',ylabel='queries')

4. 缩放点积注意力

使用点积可以得到计算效率更高的评分函数，但是点积操作要求查询和键具有相同的长度 $d$ 。假设查询和键的所有元素都是独立的随机变量，并且都满足零均值和单位方差，那么两个向量的点积的均值为 $0$ ，方差为 $d$ 。为确保无论向量长度如何，点积的方差在不考虑向量长度的情况下仍然是 $1$ ，需要将点积除以 $\sqrt{d}$ （除以 $\sqrt{d}$ 也就是缩放的含义），因此缩放点积注意力（scaled dot-product attention）评分函数为：
$a(\mathbf q, \mathbf k) = \mathbf{q}^\top \mathbf{k} /\sqrt{d}.$

在实践中通常从小批量的角度来考虑提高效率，例如基于 $n$ 个查询和 $m$ 个键－值对计算注意力，其中查询和键的长度为 $d$ ，值的长度为 $v$ 。查询 $\mathbf Q\in\mathbb R^{n\times d}$ 、键 $\mathbf K\in\mathbb R^{m\times d}$ 和值 $\mathbf V\in\mathbb R^{m\times v}$ 的缩放点积注意力是：

$\mathrm{softmax}\left(\frac{\mathbf Q \mathbf K^\top }{\sqrt{d}}\right) \mathbf V \in \mathbb{R}^{n\times v}.$

在缩放点积注意力的实现中，使用了暂退法进行模型正则化。

class DotProductAttention(nn.Module):
    """缩放点积注意力"""
    def __init__(self,dropout):
        super(DotProductAttention,self).__init__()
        self.dropout = nn.Dropout(dropout)
    # queries的形状：(batch_size，查询的个数，d)
    # keys的形状：(batch_size，“键－值”对的个数，d)
    # values的形状：(batch_size，“键－值”对的个数，值的维度)
    # valid_lens的形状:(batch_size，)或者(batch_size，查询的个数)
    def forward(self,queries,keys,values,valid_lens):
        d = queries.shape[-1]
        # 设置transpose_b=True为了交换keys的最后两个维度
        #批量矩阵乘法
        scores = torch.bmm(queries,keys.transpose(1,2))/math.sqrt(d)
        self.attention_weights = masked_softmax(scores,valid_lens)
        return torch.bmm(self.dropout(self.attention_weights),values)

使用DotProductAttention类，使用与先前加性注意力例子中相同的键、值和有效长度。对于点积操作，令查询的特征维度与键的特征维度大小相同。

queries = torch.normal(0,1,size=(2,1,2))
dotProductAttention = DotProductAttention(dropout=0.1)
dotProductAttention.eval() #eval状态下使dropout无效
dotProductAttention(queries,keys,values,valid_lens)

输出结果如下：
tensor([[[ 2.0000,  3.0000,  4.0000,  5.0000]],

        [[10.0000, 11.0000, 12.0000, 13.0000]]])

与加性注意力演示相同，由于键包含的是相同的元素，因此获得了均匀的注意力权重。

d2l.torch.show_heatmaps(dotProductAttention.attention_weights.reshape(1,1,2,10),xlabel='keys',ylabel='querys')

5. 小结

将注意力汇聚的输出计算可以作为值的加权平均，选择不同的注意力评分函数会带来不同的注意力汇聚操作。
当查询和键是不同长度的矢量时，可以使用可加性注意力评分函数。当它们的长度相同时，使用缩放的“点－积”注意力评分函数的计算效率更高。（缩放是指：query和keys点积后需要除以keys最后一维维度的平方）

6. 全部代码

import torch
import d2l.torch
import math
from torch import nn


def masked_softmax(X, valid_lens):
    """通过在最后一个轴上掩蔽元素来执行softmax操作"""
    # X:3D张量，X也即是根据query和keys计算出来的attention分数，valid_lens:1D或2D张量，表示把与填充的keys计算出来的attention分数过滤掉，设置为很小的数-1e6,过滤掉后最后再进行计算softmax,使对填充的keys的attention权重为0
    shape = X.shape
    if valid_lens is None:
        return nn.functional.softmax(X, dim=-1)
    else:
        if valid_lens.dim() == 1:
            #valid_lens如果为1维则valid_lens第一个元素表示对X中第一个样本序列所有样本的valid_lens都是相同的，都是为valid_lens第一个元素长度
            valid_lens = torch.repeat_interleave(valid_lens, shape[1])
        else:
            valid_lens = valid_lens.reshape(-1)
        # 最后一轴上被掩蔽的元素使用一个非常大的负值替换，从而其softmax输出为0
        X = d2l.torch.sequence_mask(X.reshape(-1, shape[-1]), valid_lens, value=-1e6)
        return nn.functional.softmax(X.reshape(shape), dim=-1)


masked_softmax(torch.rand(size=(2, 2, 4)), valid_lens=torch.tensor([2, 3]))
masked_softmax(torch.rand(size=(2, 2, 4)), valid_lens=torch.tensor([[1, 3], [2, 4]]))


class AdditiveAttention(nn.Module):
    """加性注意力"""

    def __init__(self, key_size, query_size, num_hiddens, dropout):
        super(AdditiveAttention, self).__init__()
        self.W_q = nn.Linear(query_size, num_hiddens, bias=False)
        self.W_k = nn.Linear(key_size, num_hiddens, bias=False)
        self.W_v = nn.Linear(num_hiddens, 1, bias=False)
        self.dropout = nn.Dropout(dropout)

    def forward(self, queries, keys, values, valid_lens):
        queries = self.W_q(queries)
        keys = self.W_k(keys)
        # 在维度扩展后，
        # queries的形状：(batch_size，查询的个数，1，num_hidden)
        # key的形状：(batch_size，1，“键－值”对的个数，num_hiddens)
        # 使用广播方式进行求和
        features = queries.unsqueeze(2) + keys.unsqueeze(1)
        features = torch.tanh(features)
        # self.w_v仅有一个输出，因此从形状中移除最后那个维度。
        # scores的形状：(batch_size，查询的个数，“键-值”对的个数)
        scores = self.W_v(features)
        scores = scores.squeeze(-1)
        self.attention_weights = masked_softmax(scores, valid_lens)
        # values的形状：(batch_size，“键－值”对的个数，值的维度)
        #批量矩阵乘法
        return torch.bmm(self.dropout(self.attention_weights), values)


queries, keys = torch.normal(0, 1, size=(2, 1, 20)), torch.ones(size=(2, 10, 2))
# values的小批量，两个值矩阵是相同的
values = torch.arange(40, dtype=torch.float32).reshape(1, 10, 4).repeat(2, 1, 1)
valid_lens = torch.tensor([2, 6])
additiveAttention = AdditiveAttention(query_size=20, key_size=2, num_hiddens=8, dropout=0.1)
additiveAttention.eval()  #eval状态下使dropout无效
additiveAttention(queries, keys, values, valid_lens)
d2l.torch.show_heatmaps(additiveAttention.attention_weights.reshape(1, 1, 2, 10), xlabel='keys', ylabel='queries')


class DotProductAttention(nn.Module):
    """缩放点积注意力"""

    def __init__(self, dropout):
        super(DotProductAttention, self).__init__()
        self.dropout = nn.Dropout(dropout)

    # queries的形状：(batch_size，查询的个数，d)
    # keys的形状：(batch_size，“键－值”对的个数，d)
    # values的形状：(batch_size，“键－值”对的个数，值的维度)
    # valid_lens的形状:(batch_size，)或者(batch_size，查询的个数)
    def forward(self, queries, keys, values, valid_lens):
        d = queries.shape[-1]
        # 设置transpose_b=True为了交换keys的最后两个维度
        #批量矩阵乘法
        scores = torch.bmm(queries, keys.transpose(1, 2)) / math.sqrt(d)
        self.attention_weights = masked_softmax(scores, valid_lens)
        return torch.bmm(self.dropout(self.attention_weights), values)


queries = torch.normal(0, 1, size=(2, 1, 2))
dotProductAttention = DotProductAttention(dropout=0.1)
dotProductAttention.eval()  #eval状态下使dropout无效
dotProductAttention(queries, keys, values, valid_lens)
d2l.torch.show_heatmaps(dotProductAttention.attention_weights.reshape(1, 1, 2, 10), xlabel='keys', ylabel='querys')

7. 相关链接

注意力机制第一篇：李沐动手学深度学习V2-注意力机制
注意力机制第二篇：李沐动手学深度学习V2-注意力评分函数
注意力机制第三篇：李沐动手学深度学习V2-基于注意力机制的seq2seq
注意力机制第四篇：李沐动手学深度学习V2-自注意力机制之位置编码
注意力机制第五篇：李沐动手学深度学习V2-自注意力机制
注意力机制第六篇：李沐动手学深度学习V2-多头注意力机制和代码实现

C++错误Call to implicitly-deleted default constructor of ‘SerialPortConfig‘ 唯瑞主义疑问篇 c++开发语言 QT qt
error:Calltoimplicitly-deleteddefaultconstructorof‘SerialPortConfig’原因分析：该条报错的原因是无法调用默认构造函数，原因是在结构体中，有一个引用的成员变量，而引用的成员变量必须要初始化，因此我们没办法直接默认构造出SerialPortConfig的变量。解决方法：将SerialPortConfig中的QString&strSN，改
嵌入式开发：嵌入式软件开发和编程粤嵌教育嵌入式嵌入式开发嵌入式培训嵌入式软件嵌入式硬件嵌入式
每天，人们都要面对和使用数十种设备，这些设备的功能依赖于微芯片和电路板，这些是带有内置软件的小工具，例如照相机、健身追踪器、咖啡机等。由于许多在生活的某些领域执行关键功能，因此在嵌入式开发中嵌入式软件仍然是一个热门话题。如果你想找到一家可靠的嵌入式系统公司，可以提供软件开发服务来实现你对智能数字设备的想法，你需要了解有关嵌入式软件编程的基本事实。介绍首先，应该注意的是，我们安装在笔记本电脑或智能手
mysql数据推荐算法_Mahout推荐算法基础爱看书的小兔纸 mysql数据推荐算法
转载自(http://www.geek521.com/?p=1423)Mahout推荐算法分为以下几大类GenericUserBasedRecommender算法：1.基于用户的相似度2.相近的用户定义与数量特点：1.易于理解2.用户数较少时计算速度快GenericItemBasedRecommender算法：1.基于item的相似度特点：1.item较少时就算速度更快2.当item的外部概念易于
《Operating System Concepts》阅读笔记：p162-p176 操作系统
《OperatingSystemConcepts》学习第17天，p162-p176总结，总计15页。一、技术总结1.thread（1)定义AthreadisabasicunitofCPUutilization;itcomprisesathreadID,aprogramcounter(PC),aregisterset,andastack.Aprocesscontrolstructurethatisa
电力场效应晶体管（Power MOSFET）嵌入式老牛电力电子技术之电力电子器件电力电子技术 MOSFET 电力电子
1.电力MOSFET电力场效应晶体管，简称电力MOSFET，是利用电场效应来控制半导体中电流的电力半导体器件，它是一种单极性电压控制器件，不但有自关断能力，而且有驱动功率小、工作频率高、无二次击穿现象、安全工作区高等优点。注：‌二次击穿现象‌是指在电力晶体管等功率器件中，当一次击穿发生后，如果继续增加偏压，器件会在极短的时间内进入一个低压大电流的区域，这种现象称为二次击穿。二次击穿主要是由于器件体
ROS2软件调用架构和机制解析：Publisher创建 slam02∞ ros2 dds
术语DDS(DataDistributionService):用于实时系统的数据分发服务标准，是ROS2底层通信的基础RMW(ROSMiddleware):ROS中间件接口，提供与具体DDS实现无关的抽象APIQoS(QualityofService):服务质量策略，控制通信的可靠性、历史记录、耐久性等属性符号解析:动态库加载过程中，查找和绑定函数指针的机制1.架构概述ROS2采用分层设计，通过多
【C++】——精细化哈希表架构：理论与实践的综合分析 vip1024p 面试学习路线阿里巴巴 c++散列表架构
先找出你的能力在哪里，然后再决定你是谁。——塔拉·韦斯特弗《你当像鸟飞往你的山》目录1.C++与哈希表：核心概念与引入2.哈希表的底层机制：原理与挑战2.1核心功能解析：效率与灵活性的平衡2.2哈希冲突的本质：问题与应对策略2.3开散列与闭散列：两大解决方案的比较3.闭散列的精确实现：从设计到优化3.1整体框架设计：面向扩展的架构3.2仿函数的灵活性：高效哈希的关键3.3插入操作：冲突检测与位置分
笔记：大模型Tokens是啥？为啥大模型按Tokens收费？瞬间动力硅基蒸馏 easyui 前端 javascript 人工智能 to oneapi 阿里云
一、Token的定义与示例1.核心概念Token是自然语言处理中的最小文本单位，代表模型处理文本时的一次计算单元。英文场景：1个token≈1个单词或标点符号。示例：句子"Hello,world!"拆分为["Hello",",","world","!"]，共4个token。中文场景：1个token≈1个汉字或词语。示例：短语"深度求索"拆分为["深","度","求","索"]，共4个token；若
Java内存的堆（堆内、堆外）、栈含义理解笔记瞬间动力 spring cloud jvm spring intellij-idea java
一、核心概念区分1.内存中的堆（Heap）与栈（Stack）栈内存▸用途：存储方法调用、局部变量、基本类型数据（如inta=1）▸特点：线程私有，每个线程独立分配栈空间。自动分配和释放（编译时确定），遵循LIFO（后进先出）原则。容量小且固定，易发生栈溢出（如无限递归导致StackOverflowError）堆内存▸用途：存储对象实例、数组等引用类型数据（如newObject()）▸特点：全局共享
PHP序列化与反序列化：serialize()和unserialize()函数 MdlForward php android 开发语言
PHP中的serialize()和unserialize()函数是用于将数据序列化和反序列化的重要工具。序列化是将PHP数据结构转换为字符串的过程，以便在存储或传输时使用。反序列化则是将序列化的字符串重新转换为PHP数据结构的过程。这两个函数在处理对象、数组和复杂数据结构时非常有用，可以轻松地将它们转换为可存储或传输的格式。序列化数据：serialize()serialize()函数将PHP数据结
php序列化与反序列化 lally. php android 开发语言
文章目录基础知识魔术方法：在序列化和反序列化过程中自动调用的方法什么是`__destruct()`方法？何时触发`__destruct()`方法？用途：语法示例：反序列化漏洞利用前提条件一些绕过策略绕过__wakeup函数绕过正则匹配绕过相等逻辑判断利用大S的ascll码绕过反序列化字符逃逸高级反序列化phar反序列化什么是PHAR文件？特点session反序列化基础知识序列化：将对象转化为一个可
C++ STL容器 —— map/multimap 用法详解 Ember_Sky C++常用STL容器及算法 c++map系列用法详解
C++STL容器——map/multimap用法详解写在前面：近期正在学习C++的STL容器，因此在这里做一下日志记录，主要介绍一些容器基本成员函数的用法,配上实际用例，并不涉及原理。但别人的博客终究是别人的,最好自己上手操作一下.写的不好,请大神手下留情.下面说的“运行之后”表示:运行上个语句之后的结果.一行如果说的太长的话,就得拖动下面的进度条才能看到后面的内容,非常麻烦因此将一段话分成了多行
Python语法糖教程第2天—Python装饰器深度解析与高阶应用指南 Bruce_xiaowei 编程笔记总结经验 python 开发语言
Python语法糖教程第2天—Python装饰器深度解析与高阶应用指南一、装饰器本质揭秘1.1装饰器的运行时序defdecorator(func):print("装饰器初始化阶段")defwrapper(*args,**kwargs):print("函数执行前操作")result=func(*args,**kwargs)print("函数执行后操作")returnresultreturnwrapp
ES6笔记总结（Xmind格式）：第二天星河路漫漫 ES6笔记总结 es6 笔记前端
Xmind鸟瞰图：简单文字总结：ES6知识总结Proxy（代理）：1.作用：实现数据的私有化处理2.target目标对象handler处理函数3.处理函数中有两个方法：get,set4.读取数据会触发get方法，写入数据会触发set方法Reflect（反射）1.作用：用于拦截并操作JavaScript对象的方法2.提供与Object内置方法相同功能的方法3.提供更安全的操作4.作为Proxy的默认
ES6 笔记总结 js_user 前端基础 es6
1.变量var可以重复声明，无法限制修改，函数级（没有块级作用域）let不能重复声明，块级作用域，变量-可以修改const不能重复声明，块级作用域，常量-不能修改2.箭头函数1.方便如果只有一个参数，（）可以省略如果只有一个return,{}可以省略修正this3.参数扩展1.收集剩余的参数functionshow(a,b,...args){剩余的参数必须是最后一个}展开数组展开后的效果，跟直接打
【人工智能】数据挖掘与应用题库（1-100）奋力向前123 人工智能人工智能算法
1、涉及变化快慢的问题可以考虑使用导数来分析。答案:对2、导数的几何意义是曲线在某点处切线的斜率。答案:对3、函数在某点的左导数存在，则导数就存在。答案:错4、关于梯度下降算法，下列说法错误的是（）错误:梯度下降算法能找到函数精确的最小值。5、正弦函数的导数是余弦函数。答案：对6、[u(x)×v(x)]'=u(x)'×v(x)'答案：错7、链式法则的步骤可以概况为：分解、各自求导、相乘、回代。答案
c++STL常用容器之Map/Multimap容器——全面总结（附案例解析）（十九）map按value值进行比较以及仿函数更改默认排序规则磊磊cpp C/C++STL详细教学
这里有C++STL——全面总结详细教程（附案例解析）（持续更新中）目录map/multimap容器map基本概念map构造和赋值map大小和交换map插入和删除map查找和统计map容器排序仿函数更改默认排序规则和Value值排序map/multimap容器map基本概念简介：map中所有元素都是pairpair中第一个元素为key（键值），起到索引作用，第二个元素为value（实值）所有元素都会
阮一峰ES6笔记总结 china-yun JavaScript
ECMAScript和JavaScript的关系是，前者是后者的规格，后者是前者的一种实现（另外的ECMAScript方言还有JScript和ActionScript）。日常场合，这两个词是可以互换的。let块级作用域（局部声明，局部使用）不存在变量提升
vue实例 LXY20230504 vue.js 前端 javascript
//vue应用通过createApp函数创建一个新的应用实例，相当于根组件import{createApp}from'vue'importAppfrom'./App.vue'//在一个vue项目当中，有且只有一个vue的实例对象constapp=createApp(App)//App:根组件//实例必须调用了.mount（）方法后才会渲染出来。该方法接受一个“容器”参数//在index.html中
全方位解析：大语言模型评测方法的综合指南大模型玩家语言模型人工智能自然语言处理深度学习 agi 大模型搜索引擎
自2017年Transformer模型提出以来，自然语言处理研究逐步转向基于该框架的预训练模型，如BERT、GPT、BART和T5等。这些预训练模型与下游任务适配后，持续刷新最优结果。然而，现有评测方法存在广度和深度不足、数据偏差、忽视模型其他能力或属性评估等问题。因此，需要全面评测和深入研究模型的各项能力、属性、应用局限性、潜在风险及其可控性等。本文回顾了自然语言处理中的评测基准与指标，将大语言
Go语言学习笔记（二）正在绘制中 Go语言学习之路 golang 学习笔记
文章目录六、数组和map数组多维数组切片直接声明新的切片使用make()函数构造切片map遍历map删除线程安全的mapnew和make七、nil八、条件判断&循环ifelseforforrangeswitchgotobreakcontinue九、函数函数的参数匿名函数闭包延迟调用十、异常六、数组和map数组数组是一个由固定长度的特定类型元素组成的序列，一个数组可以由零个或多个元素组成。因为数组的
Go语言学习笔记（五）正在绘制中 Go语言学习之路 golang 学习笔记
文章目录十八、go操作MySQL、RedisMySQLRedis十九、泛型泛型函数泛型类型泛型约束泛型特化泛型接口二十、workspaces核心概念示例二十一、模糊测试十八、go操作MySQL、RedisMySQLpackagemainimport("database/sql""errors""fmt"_"github.com/go-sql-driver/mysql""log""time")typ
大语言模型原理与工程实践：手把手教你训练 7B 大语言模型自动化训练框架 AI天才研究院 AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大语言模型原理与工程实践：手把手教你训练7B大语言模型自动化训练框架关键词：大语言模型、7B模型、自动化训练、深度学习、神经网络、自然语言处理、分布式计算文章目录大语言模型原理与工程实践：手把手教你训练7B大语言模型自动化训练框架1.背景介绍2.核心概念与联系3.核心算法原理&具体操作步骤3.1算法原理概述3.2算法步骤详解3.3算法优缺点3.4算法应用领域4.数学模型和公式&详细讲解&举例说明4
全网国内外总结Prompt&LLM论文，开源数据&模型，AIGC应用（持续更新，收藏查看）代码讲故事智能工具 Prompt LLM AIGC 模型开源数据集深度学习
全网国内外总结Prompt&LLM论文，开源数据&模型，AIGC应用（持续更新，收藏查看）目录顺序如下国内外，垂直领域大模型Agent和指令微调等训练框架开源指令，预训练，rlhf，对话，agent训练数据梳理AIGC相关应用prompt写作指南和5星博客等资源梳理Prompt和LLM论文细分方向梳理Prompt是在自然语言处理（NLP）中，尤其是在使用预训练语言模型时，用来引导模型生成特定类型输
python-个人笔记尘叶风凌个人笔记 python
入门python运行Python简单教程Python综述python是什么Python是一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言。Python的设计具有很强的可读性，相比其他语言经常使用英文关键字，其他语言的一些标点符号，它具有比其他语言更有特色语法结构。Python是一种解释型语言：这意味着开发过程中没有了编译这个环节。类似于PHP和Perl语言。Python是交互式语
数据结构——Redis中的bitmap Overcautious 数据结构 redis 数据结构缓存
文章目录1.bitmap原理2.BITPOS的使用3.bitmap的优势以及应用优势限制应用1.bitmap原理8bit=1byte=0.001kb通过最小的单位bit来进行0或1的设置，表示某个元素对应的值或状态。Redis中提供的函数接口有：SETBITkeyoffset对key所储存的字符串值，设置或清除指定偏移量上的位(bit)。>=2.2.0O(1)GETBITkeyoffset对key
GO语言学习笔记——详细版码农之家★资源共享 golang 学习笔记
1.1.1.Go编译词法与语法分析意义:解析源代码文件,将文件中字符串序列转换成Token序列把执行词法分析的程序称为词法解析器(lexer)语法解析的结果就是抽象语法树(AST)每个AST都对应一个单独的Go语言文件,这个抽象语法树中包括当前文件属于的包名,定义的常量,结构体和函数等如果发生错误,被语法解析器发现并将消息打印在标准输出上,编译过程直接中止Go语言早期用lex做词法分析,后续还是使
【读书笔记】《What is Mathematics》第一章：自然数还没入门的大菜狗具体数学读书笔记
为什么要读这本书啊？为什么要学数学？正如书的扉页所述：两千年以来，谙熟一定的数学知识是每一个文明人应有的基本智力为什么作为一个程序猿，也要从头学数学？我数学渣锻炼自己解决问题的能力数据结构逻辑训练为将来转行数据科学做底子（也许永远都不会转）考研（emmm想考一个非全日制玩一玩，感觉非全日制很适合工科学生）嗯，有了以上的理由，所以一定要坚持下去✊为什么是这本书？那么这本书做了什么呢？对整个数学领域中
window11和Ubuntu20.04安装Nvidia驱动和CUDA的正确方法 qq_29128985 linux python 深度学习
零、双系统安装Win11Ubuntu20.04双系统安装解决ubuntu+win11双系统时间不一致问题Ubuntu:系统分区一、安装Nvidia驱动参考：Ubuntu20.04安装NVIDIA显卡驱动、CUDA、CUDNN及突破NVENC并发限制、多版本CUDA切换1、准备工作1）查看显卡型号lspci|grep-invidia2）禁用nouveau并重启（安装Nvidia显卡的官方驱动和系统自
【学习笔记】Kubernetes 还没入门的大菜狗笔记
一、概览Kubernetes提供了一个抽象层，是用户可以在屋里或虚拟环境中部署容器化应用，提供以容器为中心的基础架构。Kubernetes的控制平面和工作节点都有什么组建？分别有什么作用？1.1Kubernetes控制平面和工作节点的组件及其作用控制平面组件控制平面组件负责管理集群的全局决策（如调度），以及检测和响应集群事件。kube-apiserverKubernetesAPI的前端，所有组件通
枚举的构造函数中抛出异常会怎样 bylijinnan java enum 单例
首先从使用enum实现单例说起。为什么要用enum来实现单例？这篇文章（ http://javarevisited.blogspot.sg/2012/07/why-enum-singleton-are-better-in-java.html）阐述了三个理由： 1.enum单例简单、容易，只需几行代码： public enum Singleton { INSTANCE;
CMake 教程 aigo C++
转自：http://xiang.lf.blog.163.com/blog/static/127733322201481114456136/ CMake是一个跨平台的程序构建工具，比如起自己编写Makefile方便很多。介绍：http://baike.baidu.com/view/1126160.htm 本文件不介绍CMake的基本语法，下面是篇不错的入门教程： http:
cvc-complex-type.2.3: Element 'beans' cannot have character Cb123456 spring Webgis
cvc-complex-type.2.3: Element 'beans' cannot have character Line 33 in XML document from ServletContext resource [/WEB-INF/backend-servlet.xml] is i
jquery实例:随页面滚动条滚动而自动加载内容 120153216 jquery
<script language="javascript"> $(function (){ var i = 4;$(window).bind("scroll", function (event){ //滚动条到网页头部的高度，兼容ie,ff,chrome var top = document.documentElement.s
将数据库中的数据转换成dbs文件何必如此 sql dbs
旗正规则引擎通过数据库配置器（DataBuilder）来管理数据库，无论是Oracle，还是其他主流的数据都支持，操作方式是一样的。旗正规则引擎的数据库配置器是用于编辑数据库结构信息以及管理数据库表数据，并且可以执行SQL 语句，主要功能如下。 1)数据库生成表结构信息：主要生成数据库配置文件(.conf文
在IBATIS中配置SQL语句的IN方式 357029540 ibatis
在使用IBATIS进行SQL语句配置查询时，我们一定会遇到通过IN查询的地方，在使用IN查询时我们可以有两种方式进行配置参数：String和List。具体使用方式如下： 1.String:定义一个String的参数userIds，把这个参数传入IBATIS的sql配置文件，sql语句就可以这样写： <select id="getForms" param
Spring3 MVC 笔记（一） 7454103 spring mvc bean REST JSF
自从 MVC 这个概念提出来之后 struts1.X struts2.X jsf 。。。。。这个view 层的技术一个接一个！都用过！不敢说哪个绝对的强悍！要看业务，和整体的设计！最近公司要求开发个新系统！
Timer与Spring Quartz 定时执行程序 darkranger spring bean 工作 quartz
有时候需要定时触发某一项任务。其实在jdk1.3，java sdk就通过java.util.Timer提供相应的功能。一个简单的例子说明如何使用，很简单： 1、第一步，我们需要建立一项任务，我们的任务需要继承java.util.TimerTask package com.test; import java.text.SimpleDateFormat; import java.util.Date;
大端小端转换，le32_to_cpu 和cpu_to_le32 aijuans C语言相关
大端小端转换，le32_to_cpu 和cpu_to_le32 字节序 http://oss.org.cn/kernel-book/ldd3/ch11s04.html 小心不要假设字节序. PC 存储多字节值是低字节为先(小端为先, 因此是小端), 一些高级的平台以另一种方式(大端)
Nginx负载均衡配置实例详解 avords
[导读] 负载均衡是我们大流量网站要做的一个东西，下面我来给大家介绍在Nginx服务器上进行负载均衡配置方法，希望对有需要的同学有所帮助哦。负载均衡先来简单了解一下什么是负载均衡，单从字面上的意思来理解就可以解负载均衡是我们大流量网站要做的一个东西，下面我来给大家介绍在Nginx服务器上进行负载均衡配置方法，希望对有需要的同学有所帮助哦。负载均衡先来简单了解一下什么是负载均衡
乱说的 houxinyou 框架敏捷开发软件测试
从很久以前，大家就研究框架，开发方法，软件工程，好多！反正我是搞不明白！这两天看好多人研究敏捷模型，瀑布模型！也没太搞明白. 不过感觉和程序开发语言差不多，瀑布就是顺序，敏捷就是循环. 瀑布就是需求、分析、设计、编码、测试一步一步走下来。而敏捷就是按摸块或者说迭代做个循环，第个循环中也一样是需求、分析、设计、编码、测试一步一步走下来。也可以把软件开发理
欣赏的价值——一个小故事 bijian1013 有效辅导欣赏欣赏的价值
　　第一次参加家长会，幼儿园的老师说："您的儿子有多动症，在板凳上连三分钟都坐不了，你最好带他去医院看一看。"　　回家的路上，儿子问她老师都说了些什么，她鼻子一酸，差点流下泪来。因为全班30位小朋友，惟有他表现最差；惟有对他，老师表现出不屑，然而她还在告诉她的儿子："老师表扬你了，说宝宝原来在板凳上坐不了一分钟，现在能坐三分钟。其他妈妈都非常羡慕妈妈，因为全班只有宝宝
包冲突问题的解决方法 bingyingao eclipse maven exclusions 包冲突
包冲突是开发过程中很常见的问题：其表现有： 1.明明在eclipse中能够索引到某个类，运行时却报出找不到类。 2.明明在eclipse中能够索引到某个类的方法，运行时却报出找不到方法。 3.类及方法都有，以正确编译成了.class文件，在本机跑的好好的，发到测试或者正式环境就抛如下异常： java.lang.NoClassDefFoundError: Could not in
【Spark七十五】Spark Streaming整合Flume-NG三之接入log4j bit1129 Stream
先来一段废话：实际工作中，业务系统的日志基本上是使用Log4j写入到日志文件中的，问题的关键之处在于业务日志的格式混乱，这给对日志文件中的日志进行统计分析带来了极大的困难，或者说，基本上无法进行分析，每个人写日志的习惯不同，导致日志行的格式五花八门，最后只能通过grep来查找特定的关键词缩小范围，但是在集群环境下，每个机器去grep一遍，分析一遍，这个效率如何可想之二，大好光阴都浪费在这上面了
sudoku solver in Haskell bookjovi sudoku haskell
这几天没太多的事做，想着用函数式语言来写点实用的程序，像fib和prime之类的就不想提了（就一行代码的事），写什么程序呢？在网上闲逛时发现sudoku游戏，sudoku十几年前就知道了，学生生涯时也想过用C/Java来实现个智能求解，但到最后往往没写成，主要是用C/Java写的话会很麻烦。现在写程序，本人总是有一种思维惯性，总是想把程序写的更紧凑，更精致，代码行数最少，所以现
java apache ftpClient bro_feng java
最近使用apache的ftpclient插件实现ftp下载，遇见几个问题，做如下总结。 1. 上传阻塞，一连串的上传，其中一个就阻塞了，或是用storeFile上传时返回false。查了点资料，说是FTP有主动模式和被动模式。将传出模式修改为被动模式ftp.enterLocalPassiveMode();然后就好了。看了网上相关介绍，对主动模式和被动模式区别还是比较的模糊，不太了解被动模
读《研磨设计模式》-代码笔记-工厂方法模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 工厂方法模式：使一个类的实例化延迟到子类 * 某次，我在工作不知不觉中就用到了工厂方法模式（称为模板方法模式更恰当。2012-10-29）： * 有很多不同的产品，它
面试记录语 chenyu19891124 招聘
或许真的在一个平台上成长成什么样，都必须靠自己去努力。有了好的平台让自己展示，就该好好努力。今天是自己单独一次去面试别人，感觉有点小紧张，说话有点打结。在面试完后写面试情况表，下笔真的好难，尤其是要对面试人的情况说明真的好难。今天面试的是自己同事的同事，现在的这个同事要离职了，介绍了我现在这位同事以前的同事来面试。今天这位求职者面试的是配置管理，期初看了简历觉得应该很适合做配置管理，但是今天面
Fire Workflow 1.0正式版终于发布了 comsci 工作 workflow Google
Fire Workflow 是国内另外一款开源工作流，作者是著名的非也同志，哈哈.... 官方网站是 http://www.fireflow.org 经过大家努力,Fire Workflow 1.0正式版终于发布了正式版主要变化: 1、增加IWorkItem.jumpToEx(...)方法，取消了当前环节和目标环节必须在同一条执行线的限制，使得自由流更加自由 2、增加IT
Python向脚本传参 daizj python 脚本传参
如果想对python脚本传参数，python中对应的argc, argv(c语言的命令行参数)是什么呢？需要模块：sys 参数个数：len(sys.argv) 脚本名： sys.argv[0] 参数1： sys.argv[1] 参数2： sys.argv[
管理用户分组的命令gpasswd dongwei_6688 passwd
NAME： gpasswd - administer the /etc/group file SYNOPSIS： gpasswd group gpasswd -a user group gpasswd -d user group gpasswd -R group gpasswd -r group gpasswd [-A user,...] [-M user,...] g
郝斌老师数据结构课程笔记 dcj3sjt126com 数据结构与算法
<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<
yii2 cgridview加上选择框进行操作 dcj3sjt126com GridView
页面代码 <?=Html::beginForm(['controller/bulk'],'post');?> <?=Html::dropDownList('action','',[''=>'Mark selected as: ','c'=>'Confirmed','nc'=>'No Confirmed'],['class'=>'dropdown',])
linux mysql fypop linux
enquiry mysql version in centos linux yum list installed | grep mysql yum -y remove mysql-libs.x86_64 enquiry mysql version in yum repositoryyum list | grep mysql oryum -y list mysql* install mysq
Scramble String hcx2013 String
Given a string s1, we may represent it as a binary tree by partitioning it to two non-empty substrings recursively. Below is one possible representation of s1 = "great":
跟我学Shiro目录贴 jinnianshilongnian 跟我学shiro
历经三个月左右时间，《跟我学Shiro》系列教程已经完结，暂时没有需要补充的内容，因此生成PDF版供大家下载。最近项目比较紧，没有时间解答一些疑问，暂时无法回复一些问题，很抱歉，不过可以加群（334194438/348194195）一起讨论问题。 ----广告-----------------------------------------------------
nginx日志切割并使用flume-ng收集日志 liyonghui160com
nginx的日志文件没有rotate功能。如果你不处理，日志文件将变得越来越大，还好我们可以写一个nginx日志切割脚本来自动切割日志文件。第一步就是重命名日志文件，不用担心重命名后nginx找不到日志文件而丢失日志。在你未重新打开原名字的日志文件前，nginx还是会向你重命名的文件写日志，linux是靠文件描述符而不是文件名定位文件。第二步向nginx主
Oracle死锁解决方法 pda158 oracle
　select p.spid,c.object_name,b.session_id,b.oracle_username,b.os_user_name from v$process p,v$session a, v$locked_object b,all_objects c where p.addr=a.paddr and a.process=b.process and c.object_id=b.
java之List排序 shiguanghui list排序
在Java Collection Framework中定义的List实现有Vector，ArrayList和LinkedList。这些集合提供了对对象组的索引访问。他们提供了元素的添加与删除支持。然而，它们并没有内置的元素排序支持。　　你能够使用java.util.Collections类中的sort()方法对List元素进行排序。你既可以给方法传递
servlet单例多线程 utopialxw 单例多线程 servlet
转自http://www.cnblogs.com/yjhrem/articles/3160864.html 和 http://blog.chinaunix.net/uid-7374279-id-3687149.html Servlet 单例多线程 Servlet如何处理多个请求访问？Servlet容器默认是采用单实例多线程的方式处理多个请求的：1.当web服务器启动的