Raphael9900

【学习12】自注意力机制self-attention

自注意力机制self-attention

一、输入是向量集
二、模型的输出
- 1、输出序列长度与输入序列相同（一对一（Sequence Labeling））
- 2、输出序列长度为1（多对一）
- 3、模型决定输出序列长度
三、Self-attention 原理（序列标注 (Sequnce Labeling) 的问题）
四、self-attention模型的内部实现
- 方法一 dot product
- 方法二 Additive
- - 计算self-attention输出
- 矩阵实现
五、Multi-head Self-attention
六、位置编码Positional Encoding
七、Self-attention 的应用
- 1、NLP
- 2、语音识别
- 3、图像处理
- 4、graph
八、Self-attention 和其他网络的对比
- 1、self-attention 和 CNN
- 2、self-attention 和 RNN
- 3、self-attention 变形
九、代码实现
1、Self-Attention
- 2、Multi-Head Self-Attention

一、输入是向量集

无论是预测视频观看人数还是图像处理，输入都可以看作是一个向量，输出是一个数值或类别。然而，若输入是一系列向量（序列），同时长度会改变，例如把句子里的单词都描述为向量，那么模型的输入就是一个向量集合，并且每个向量的大小都不一样：

自注意力机制的输入是一个向量集，而且向量的大小、数目都是可变的。
在这里，我们的输入可以是一个整句话、一张图等等，在如下示例中我们会对一段文字进行自注意力机制处理。
1、将单词表示为向量的方法：one-hot 编码，one-hot vector 的维度就是所有单词的数量，每个单词都是一样长度的向量，只是不同单词在不同位置用 1 表示。这个方法不可取，因为单词很多，每一个vector 的维度就会很长，并且产生的向量是稀疏高维向量，需要的空间太大了，而且看不到单词之间的关联。向量的长度就是世界上所有词汇的数目，用不同位的1（其余位置为0）表示一个词汇。

2、word embedding，加入了语义信息，每个词汇对应的向量不一定一样长，而且类型接近的单词，向量会更接近，考虑到了单词之间的关联。

3、语音信号
取一段语音信号作为窗口，把其中的信息描述为一个向量（帧），滑动这个窗口就得到这段语音的所有向量。

二、模型的输出

1、输出序列长度与输入序列相同（一对一（Sequence Labeling））

每个输入向量都对应一个输出标签，输入与输出长度是一样的。例如预测每个单词的词性，预测每段语音的音标，预测某个人会不会购买商品。

文字处理：词性标注（每个输入的单词都输出对应的词性）。
语音处理：一段声音信号里面有一串向量，每个向量对应一个音标。
图像处理：在社交网络中，推荐某个用户商品（可能会买或者不买）。

2、输出序列长度为1（多对一）

输入若干个向量，结果只输出一个标签。例如句子情感分析，预测一段语音的语者，预测一个分子的性质。

语义分析：正面评价、负面评价。
语音识别：识别某人的音色。
图像：给出分子的结构，判断其亲水性。

3、模型决定输出序列长度

不知道输出的数量，全部由机器自己决定输出的数量，翻译和语音辨识就是seq2seq任务。

三、Self-attention 原理（序列标注 (Sequnce Labeling) 的问题）

输入和输出序列长度的情况也叫 Sequence Labeling，要给Sequence里面的每一个向量输出一个Label。

利用全连接网络，输入一个句子，输出对应单词数目的标签。当一个句子里出现两个相同的单词，并且它们的词性不同（例如：I saw a saw. 我看见一把锯子），这个时候就需要考虑上下文：利用滑动窗口，每个向量查看窗口中相邻的其他向量的性质。

对每一个向量，如果用FC网络进行处理：模型需要考虑Sequence中每个向量的上下文，才能给出正确的label。如果每次输入一个window，这样就可以让模型考虑window 内的上下文资讯。有时候某一个任务不是考虑一个window就可以解决的，而是要考虑一整个Sequence才能够解决，FC网络只能考虑固定个输入，就要把Window开大一点，那么window就会有长有短，可能就要考虑到最长的window，不仅会导致FC的参数过多，还可能导致over-fitting。
Self-Attention（下面浅蓝色矩形框）会输入一整个Sequence的所有向量，有几个向量输入就得到几个向量输出，他们都是考虑一整个Sequence以后才得到的，输出的向量再通过全连接层，FC可以专注于处理这一个位置的向量，得到对应结果。

可以把fc网络和Self-Attention交替使用。其中 self-attention 的功能是处理整个 sequence 的资讯，而FC 则是处理某一个位置的资讯，在fc后使用Self-Attention，能够把整个Sequence资讯再处理一次。

四、self-attention模型的内部实现

在这里，我们的输入a可以整个input也可以是hidden layer的输出。
输出b1，考虑了 a1~a4 的资讯，也就是整个输入的sequence才产生出来的。那么 b1 是如何考虑 a1~a4 的资讯的呢？寻找每个 a 与 a1 之间的相关性 α，也就是算出 a （包括a1自己）对处理 a1 的影响程度，影响程度大的就多考虑点资讯。每个输入的b都和所有的输入a有关。

计算相关性有点积和 additive两种方法，主要讨论点积这个方法。

方法一 dot product

输入的这两个向量分别乘上两个不同的矩阵，左边这个向量乘上矩阵 W^q 得到矩阵 q，右边这个向量乘上矩阵 W^k得到矩阵 k，再把 q 跟 k做dot product 就是α

方法二 Additive

得到 q 跟 k 后,先串接起来，再过一个Activation Function（Normalization），再通过一个Transform，然后得到 α.

点积：通过输入 ai 求出 qi (query) 和 ki (key)，qi 与 sequence 中所有的 ki 做点积，得到 α ，如下图所示。query是查询的意思，查找其他 a 对 a1的相关性。 α 也被称为 attention score。注意： q1 也和自己的 k1 相乘，不仅要计算a1与其他 a 的相关性，还要计算自己与自己的相关性。 α 再经过 softmax ，得到归一化的结果 α′ 。softmax也可以换成其他的 activation function。

计算self-attention输出

每个 a 乘以W 矩阵形成向量 v，然后让各个 v 乘对应的 α′ ，再把结果加和起来就是 b1 了。

某一个向量得到的attention score越高，比如说如果a1跟a2的关联性很强，得到的α′值很大，那么在做加权平均以后，得到的b1的值,就可能会比较接近v2。self-attention计算过程就是基于 α′ 提取资讯，谁的 α′ 越大，谁的 v 就对输出 b1 的影响更大。

这还仅仅只是输出一个 b 的过程。输出 b2 的过程和输出 b1 是一样的，只不过改变了 query而已。b虽然考虑的整个sequence的资讯，但是不同 b 的计算没有先后序，可以平行计算输出。

矩阵实现

上面都是针对单个 b 输出是怎么计算的，针对多个 b 输出，在实际中如何存储、如何平行计算呢？

前面有讲到三个 W 矩阵，这三个矩阵是共享参数，需要被学出来的。将输入向量组合在一起形成 I 矩阵，I 矩阵与不同的 W 矩阵相乘后，得到Q、K、V三个矩阵。

将 k向量转置一下，再去和 q向量做点积，这样得出的 α 才会是一个数值，而不是向量。

先看左边四个式子，转置后的 k向量：1x n；q向量：n x1，所以两者相乘后的 α ：1x1。

再看右边四个式子，转置后的 K矩阵：4x n；q向量：n x1，所以两者相乘后的 α 组成矩阵：4x1。
上面只涉及 q1，而没有q2~q3，现在把这三个 q 加进来，变成下图的式子。
求attention 的分数可以看作是两个矩阵的相乘。用转置后的 K矩阵，去乘以 Q矩阵，得到一个布满 α 的 A矩阵。A矩阵经过softmax得到 A‘ 矩阵，对每一个column 做 softmax，让每一个 column 裡面的值相加是 1。这边做 softmax不是唯一的选项，完全可以选择其他的操作，比如说 ReLU 之类的，得到的结果也不会比较差
转置后的 K矩阵：4x n；Q矩阵：n x4；所以得到的 A矩阵：4x4。

然后用 A’ 矩阵乘以 V矩阵，得到最后的输出 O矩阵。

V矩阵：n x4；A‘ 矩阵：4x4；所以得到的 O矩阵：n x4

（1）I 是 Self-attention 的 input一排vector，每个vector当作矩阵的 column

（2） Wq , Wk , Wv 是要学习的参数，其他的操作都是我们人為设定好的，不需要透过 training data 找出来，从 I 到 O 就是做了 Self-attention

（3）A’ 叫做 Attention Matrix，计算它是运算量最大的部分，假设 sequence 长度为 L，其中的 vector 维度为 d，那么需要计算 L x d x L 次。

五、Multi-head Self-attention

有时候要考虑多种相关性，要有多组 q,k,v，不同的 q,k,v 负责查找不同种类的相关性。下图为 2 heads 的情况， (q,k,v) 由一组变成多组，第一类的放在一起算，第二类的放在一起算。相关性变多了，所以参数也增加了，原来只需要三个 W矩阵，现在需要六个 W矩阵。下图是算第一种相关性的过程

与单个的 self attention 相比，Multi-head Self-attention 最后多了一步：由多个输出组合得到一个输出。将刚刚得到的所有 b组成一个向量，再乘以矩阵，输出一个 bi，目的就是将不同种类的相关性整合在一起，成为一个整体，作为 a1 的输出 b1。

六、位置编码Positional Encoding

self-attention 没有考虑位置信息，只计算互相关性。比如某个字词，不管它在句首、句中、句尾， self-attention 的计算结果都是一样的。但是，有时 Sequence 中的位置信息还是挺重要的。

解决方法：给每一个位置设定一个位置向量 ei，把位置信息 ei 加入到输入 ai 中，这个 ei 可以是认为设定的向量，也可以是通过学习生成的。如下图中的黑色竖方框，每一个 column 就代表一个 e 。

七、Self-attention 的应用

1、NLP

Self-attention 在 NLP 中广泛应用，如鼎鼎有名的 Transformer, BERT 的模型架构中都使用了 Self-attention。

2、语音识别

Self-attention做一些小小的改动，因为要把一整句话表示成一排向量的话，这排向量可能会非常长。每一个向量代表了 10 ms 的长度，1 秒鐘的声音讯号就有 100个向量，5 秒鐘的声音讯号就 500 个向量了。假如输入的向量集有 L个向量，那么attention matrix大小将是L*L，计算这个 attention matrix需要做 L 乘以 L 次的内积，不易于训练。

改进：Truncated Self-attention，考虑资讯的时候，不看一整句话，只看一个小的范围，计算限制范围内的相关性。如图所示，不在全部 sequence 上计算 attention score，限制在相邻一定范围内计算。这个范围应该要多大是人设定的。

3、图像处理

图片也可以看成由不同向量组成的向量集。如图所示，把每一个位置的像素（W,H,D）当成一个三维的向量，一幅图像就是 vector set，可以用 Self-attention 来处理一张图片。

4、graph

Graph 往往是人為根据某些 domain knowledge 建出来的，线段即表示节点之间的相关性，知道哪些 node 之间是有相连的，所以graph已经知道向量之间的相关性，使用self-attention 时不需要再去学相关性，在做Attention Matrix 计算的时候,只计算有 edge 相连的 node 就好。Self-attention用在 Graph 上面的时候,其实就是一种 Graph Neural Network，也就是一种 GNN。

八、Self-attention 和其他网络的对比

1、self-attention 和 CNN

CNN 可以看成简化版的 self-attention。CNN 就是只计算感受野中的相关性的self-attention。

CNN 只计算感受野范围内的相关性，把一个像素点当作一个向量，可以理解成中心向量只关心其相邻的向量，感受野的大小由人为设定，如下图所示。

Self-attention 求解 attention score 的过程，考虑的不是一个感受野的信息，而是整张图片的信息，网络自己决定以这个 pixel 為中心，哪些像素是相关的，相当于机器自己学习并确定感受野的范围大小。

从 Self-attention 的角度来看，CNN是在感受野而不是整个 sequence 的 Self-attention。因此， CNN 模型是简化版的 Self-attention。所以 self attention是更 flexible 的 CNN，而 CNN 是有受限制的 Self-attention。下图用不同的 data 量来训练 CNN 跟 Self-attention，横轴是训练资料多少，纵轴是准确率。可以看出在资料量少时，CNN的表现比 self-attention好；而在资料量多时，效果则相反。为什么呢？因为 self-attention 的弹性更大，当资料增多时，性能提升空间比较大，而在资料量少时容易overfitting。

2、self-attention 和 RNN

Recurrent Neural Network跟 Self-attention 做的事情其实也非常像，它们的输入都是一个 vector
sequence。
如果RNN 最后一个向量要联系第一个向量，比较难，需要把第一个向量的输出一直保存在 memory 中。而这对 self-attention 来说，整个 Sequence 上任意位置的向量都可以联系，距离不是问题。
RNN 前面的输出又作为后面的输入，因此要依次计算，无法并行处理。 self-attention 输出是平行產生的，并不需要等谁先运算完才把其他运算出来，可以并行计算，运算速度更快。
现在RNN已经慢慢淘汰了，许多公司将RNN网络改成了self-attention架构。

3、self-attention 变形

Self-attention 最大的问题就是运算量非常地大，所以如何平衡performance 和 speed 是个重要的问题。往右代表它运算的速度，所以有很多各式各样新的 xxformer，速度会比原来的Transformer 快，但是 performance 变差；纵轴代表是 performance。它们往往比原来的 Transformer的performance 差一点,但是速度会比较快。

Seq2seq 模型输入一个序列，机器输出另一个序列，输出长度由机器决定。例子有：文本翻译：文本至文本；语音识别：语音至文本；语音合成：文本至语音；聊天机器人：语音至语音。

九、代码实现

1、Self-Attention

公式：

import torch
import torch.nn as nn
import math

class SelfAttention(nn.Module):
    """
    input : batch_size * seq_len * input_dim
	    q : batch_size * input_dim * dim_k
	    k : batch_size * input_dim * dim_k
	    v : batch_size * input_dim * dim_v
    """
    def __init__(self, input_dim, dim_k, dim_v):
        super().__init__()
        self.dim_k = dim_k
        self.q = nn.Linear(input_dim, dim_k)
        self.k = nn.Linear(input_dim, dim_k)
        self.v = nn.Linear(input_dim, dim_v)
        self.softmax = nn.Softmax(dim=-1)

    def forward(self, x):
        Q = self.q(x)  # Q: batch_size * seq_len * dim_k
        K = self.k(x)  # K: batch_size * seq_len * dim_k
        V = self.v(x)  # V: batch_size * seq_len * dim_v

        attention = torch.bmm(self.softmax(torch.bmm(Q, K.permute(0, 2, 1)) / math.sqrt(self.dim_k)), V)

        return attention

2、Multi-Head Self-Attention

在多头注意力机制中，将一个（映射后的）高维矩阵拆分成多个低维矩阵进行计算，最后再将计算结果拼接。这里注意，并不是将输入inputX拆分成多个，因为这样做会丢失原句信息！

class MultiHeadSelfAttention(nn.Module):
    """
    input : batch_size * seq_len * input_dim
        q : batch_size * input_dim * dim_k
        k : batch_size * input_dim * dim_k
        v : batch_size * input_dim * dim_v
    """
    def __init__(self, input_dim, dim_k, dim_v, nums_head):
        super(MultiHeadSelfAttention, self).__init__()
        assert dim_k % nums_head == 0
        assert dim_v % nums_head == 0
        self.dim_k = dim_k
        self.dim_v = dim_v
        self.q = nn.Linear(input_dim, dim_k)
        self.k = nn.Linear(input_dim, dim_k)
        self.v = nn.Linear(input_dim, dim_v)

        self.nums_head = nums_head
        self.softmax = nn.Softmax(dim=-1)

    def forward(self, x):
        Q = self.q(x).view(-1, x.shape[1], self.nums_head, self.dim_k // self.nums_head).permute(0, 2, 3, 1)
        K = self.k(x).view(-1, x.shape[1], self.nums_head, self.dim_k // self.nums_head).permute(0, 2, 3, 1)
        V = self.v(x).view(-1, x.shape[1], self.nums_head, self.dim_v // self.nums_head).permute(0, 2, 3, 1)

        attention = torch.matmul(self.softmax(torch.matmul(Q, K.permute(0, 1, 3, 2)) / math.sqrt(self.dim_k)),
                                 V).transpose(-2, -1)  # [batch_size, n_head, seq_len, hidden_size // n_head]
        attention = attention.transpose(1, 2)  # [batch_size, seq_len, n_head, hidden_size // n_head]
        
        output = attention.reshape(-1, x.shape[1], x.shape[2])	# [batch_size, seq_len, hidden_size]
        
        # 或
        # attention = attention.permute(2, 0, 1, 3)
        # output = torch.cat([_ for _ in attention], dim=-1)
		
        return output

SOFAStack-00-sofa 技术栈概览老马啸西风 sofa 架构监控阿里云系统架构
SOFAStack前言大家好，我是老马。sofastack其实出来很久了，第一次应该是在2022年左右开始关注，但是一直没有深入研究。最近想学习一下SOFA对于生态的设计和思考。核心项目⚙️SOFABootGitHub:sofastack/sofa-boot|★3.8k功能：企业级SpringBoot增强框架，支持模块化开发、类隔离、日志隔离，提供健康检查、异步初始化等特性。SOFARPCGitH
从MVC实战学习网站编写（一）初识MVC 璞瑜无文 MVC 架构 mvc 设计结构
前情概要：曾是学生时代的我，初识架构是一个传说中的三层架构。这可是鼻祖啊！因为我个人认为这是第一个让我明白高内聚低耦合的一种写代码的方式。刚接触写程序统统都是把所有的东西放一起，自己找一段代码得花很长时间（哪个时候还不知道VS有F12的存在）。简单的说就是UI层（界面），BLL层（业务处理），DAL层（数据处理）。就是分工明确在不同的包里分别编译，便于管理。今天我们从MVC基础开始穿插Knocko
VS Code 在Linux下IDE开发C++的HelloWorld leon_zeng0 c++VScode linux ide c/c++helloworld
用VisualStudioCode在Linux(Ubuntu)下构造c++的集成开发环境，编辑，编译和调试运行一个简单程序HelloWorld。想达到上面目标，搜索到以下文章，学习验证而成本文日记。链接是：https://code.visualstudio.com/docs/cpp/config-linux前期准备运行环境是ubuntu16.0，先安装好VisualStudioCode(VSCod
PHP 爬虫实战：爬取淘宝商品详情数据 EcomDataMiner php 爬虫开发语言
随着互联网技术的发展，数据爬取越来越成为了数据分析、机器学习等领域的重要前置技能。而在这其中，爬虫技术更是不可或缺。php作为一门广泛使用的后端编程语言，其在爬虫领域同样也有着广泛应用和优势。本文将以爬取斗鱼直播数据为例，介绍php爬虫的实战应用。准备工作在开始爬虫之前，我们需要做一些准备工作。首先，需要搭建一个本地服务器环境，推荐使用WAMP、XAMPP等集成化工具，方便部署PHP环境。其次，我
比较分析：Windsurf、Cody、Cline、Roo Cline、Copilot 和通义灵码张3蜂开源编程语言与开发技术选型与架构设计 copilot c#AI编程
随着人工智能技术的快速发展，开发者工具变得越来越智能化，特别是在代码生成、辅助编程等领域，市面上涌现了多种AI驱动的工具。本文将从开源性、集成能力、功能覆盖范围、支持的编程语言、生态兼容性、成本、学习曲线、响应速度、离线支持以及与.NETCore的适配性等十个维度对以下几种产品进行比较：Windsurf、Cody、Cline、RooCline、Copilot和通义灵码。1.开源性Windsurf:
Linux内核srio驱动,Zynq—Linux移植学习笔记（十四）：RapidIO驱动开发 weixin_39942572 Linux内核srio驱动
#defineDRIVER_NAME"xiic-rio"#defineSRIO_ZYNQ_BASEADDR0x40000000#defineSRIO_ZYNQ_NODE_BASEADDR0x10100#defineSRIO_ZYNQ_MAX_HOPCOUNT13structxiic_rio{structmutexlock;u8*data;};/*Weneedglobalvarriableforma
【大模型系列】SFT（Supervised Fine-Tuning，监督微调） Kwan的解忧杂货铺@新空间代码工作室 s2 AIGC 大模型
欢迎来到我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。推荐:kwan的首页,持续学习,不断总结,共同进步,活到老学到老导航檀越剑指大厂系列:全面总结java核心技术,jvm,并发编程redis,kafka,Spring,微服务等常用开发工具系列:常用的开发工具,IDEA,Mac,Alfred,Git,
HTML 图像与多媒体元素：拓展学习边界的进度记录（一）计算机毕设定制辅导-无忧学长 #HTML html 学习 php
开篇：学习启程在前端开发的广袤领域中，HTML作为构建网页的基石，其重要性不言而喻。而HTML图像与多媒体元素，就像是为这座基石添上了绚丽的色彩与灵动的音符，赋予网页更加丰富的表现力和交互性。作为一名热衷于探索前端技术的博主，我深知掌握这些元素对于提升网页开发能力的关键作用。于是，我踏上了深入学习HTML图像与多媒体元素的征程，并决定将学习过程中的点滴记录下来，与大家一同分享。希望通过这篇学习进度
深度学习模型性能全景评估与优化指南 niuTaylor 深度学习人工智能
深度学习模型性能全景评估与优化指南一、算力性能指标体系1.核心算力指标对比指标计算方式适用场景硬件限制TOPS(TeraOperationsPerSecond)每秒万亿次整数运算量化模型推理NVIDIAJetsonNano仅支持FP16/FP32TFLOPS(TeraFLoating-pointOPerationsperSecond)TFLOPS=Cores×FLOPs/Cycle×Frequen
MATLAB 和 Arduino 之间的串行通信 David WangYang matlab matlab
MATLAB和Arduino之间的串行通信MATLAB是一款多功能软件，可用于各种应用。在前面的MATLAB教程中，我们已经解释了如何使用MATLAB控制直流电机、伺服电机和家用电器。在本教程中，我们将学习如何使用MATLAB进行串行通信。对于串行通信的接收端，我们在这里使用
使用Aim追踪LangChain执行 bavDHAUO langchain python
在现代人工智能应用中，调试和可视化自动化工作流变得越来越重要，Aim正是为此而生。通过Aim，你可以轻松地追踪LangChain中语言模型(LLM)和工具的输入输出，以及代理的动作，从而在执行过程中快速定位和解决问题。此外，Aim还支持并排比较多个执行流程，使之成为调试中的得力助手。Aim是一个完全开源的项目，你可以在GitHub上找到更多关于Aim的信息。在本文中，我们将展示如何启用和配置Aim
编程自学指南：java程序设计开发，Java 对象创建的6种方式，从new到反射：Java 对象创建全解析，new关键字，反射机制，克隆（Clone），反序列化，工厂模式，建造者模式 zl515035644 java自学指南 java 开发语言
编程自学指南：java程序设计开发，Java对象创建的几种方式一、课程信息学习目标掌握6种主流对象创建方式的实现方法理解每种方式的适用场景与优缺点能根据需求选择最合适的创建方式避免对象创建中的常见错误（如构造器权限问题）二、课程导入：生活中的"创建"场景类比买现成的→new关键字（最常用）复制已有物品→克隆（Clone）按图纸定制→工厂模式（复杂对象）反序列化→从文件/网络恢复对象三、主流创建方式
利用Python和深度学习方法实现手写数字识别的高精度解决方案——从数据预处理到模型优化的全流程解析快撑死的鱼 Python算法精解 python 深度学习开发语言
利用Python和深度学习方法实现手写数字识别的高精度解决方案——从数据预处理到模型优化的全流程解析在人工智能的众多应用领域中，手写数字识别是一项经典且具有重要实际应用价值的任务。随着深度学习技术的飞速发展，通过构建和训练神经网络模型，手写数字识别的精度已经可以达到99%以上。本文将以Python为主要编程语言，结合深度学习的核心技术，详细解析手写数字识别的实现过程，并探讨如何进一步优化模型以提高
常见的设计模式(单例模式&工厂模式) 客行. 设计模式单例模式观察者模式
目录一.为什么要学习设计模式？二.单例模式概念优点缺点1.饿汉模式1.1概念1.2示例2.懒汉模式2.1概念2.2示例三.工厂模式1.概念2.使用场景3.工厂方法一.为什么要学习设计模式？设计模式（Designpattern）代表了最佳的实践，是很多优秀的软件开发人员的经验总结，是解决特定问题的解决方案。它并不是语法规定，也不拘泥于特定语言。恰当的使用设计模式可以代码的可复用性，可维护性，可扩展性
Kubernetes学习笔记-移除Nacos迁移至K8s 人生偌只如初见 Kubernetes J2EE kubernetes k8s java
项目服务的配置管理和服务注册发现由原先的Nacos全面迁移到Kubernetes上。一、移除Nacos移除Nacos组件依赖。com.alibaba.cloudspring-cloud-starter-alibaba-nacos-discoverycom.alibaba.cloudspring-cloud-starter-alibaba-nacos-configorg.springframewor
【Java学习日记6】：字面量的分类与使用小蛋6g Java学习日记 java 开发语言
一、字面量的定义与作用字面量是程序中直接书写的数据值，无需通过变量或计算获取。它用于表示固定的值，如数字、字符、布尔值等，例如：数字100、字符串"Hello"、字符'A'等。字面量告诉编译器数据的类型和值。字面量就是告诉程序员:数据在程序中的书写格式.---二、字面量的分类Java中的字面量按数据类型可分为以下六类：类型说明示例整数类型不带小数点的数字123,-456小数类型带小数点的数字3.1
强化学习中的深度卷积神经网络设计与应用实例数字扫地僧计算机视觉 cnn 人工智能神经网络
I.引言强化学习（ReinforcementLearning，RL）是机器学习的一个重要分支，通过与环境的交互来学习最优策略。深度学习，特别是深度卷积神经网络（DeepConvolutionalNeuralNetworks，DCNNs）的引入，为强化学习在处理高维度数据方面提供了强大工具。本文将探讨强化学习中深度卷积神经网络的设计原则及其在不同应用场景中的实例。II.深度卷积神经网络在强化学习中的
C++ 学习需要多长时间？ c++
学习C++所需的时间因个人的学习目标、基础、学习方法和投入的时间而异。以下是一些大致的时间范围和学习阶段的参考：一、初学者阶段（0-3个月）目标：掌握C++的基本语法、数据类型、控制结构（如循环、条件语句）、函数等基础知识。学习内容：学习变量声明、数据类型（如int、float、char等）。掌握基本的输入输出操作（如cin和cout）。理解并使用循环（for、while）和条件语句（if、swi
视频剪辑行业的现状与进阶之路：一个双视角分析程序员
视频剪辑行业的现状与进阶之路：一个双视角分析一、现状解析商业角度分析成本控制培训需要投入时间和人力成本快节奏的市场环境要求快速产出人员流动性大，培训投入可能无法获得长期回报市场需求大量内容需要快速产出标准化的剪辑模板更容易管理追求效率大于创新风险规避现成模板降低出错风险统一风格便于品控减少个人风格带来的不确定性剪辑师角度分析职业发展受限难以系统学习完整工作流程创意空间被压缩技能提升遇到瓶颈技能断层
【C++】Vector和List的区别信手斩龙 C++
在学习stl的时候，总是有同学分不清楚Vector和List的使用，在这里我总结一下它们的区别和使用方法。一、底层结构 vector的底层结构是动态顺序表，在内存中是一段连续的空间。 list的底层结构是带头节点的双向循环链表，在内存中不是一段连续的空间。二、支持随机访问 vector支持随机访问，可以利用下标精准定位到一个元素上，访问某个元素的时间复杂度是O(1)。 list不支持随机访问，要
腾讯云大模型知识引擎与DeepSeek：打造懒人专属的谷歌浏览器翻译插件大富大贵7 程序员知识储备1 程序员知识储备2 程序员知识储备3 腾讯云云计算
摘要：随着人工智能技术的飞速发展，越来越多的前沿技术和工具已走入日常生活。翻译工具作为跨语言沟通的桥梁，一直处于技术创新的风口浪尖。本文探讨了腾讯云大模型知识引擎与DeepSeek结合谷歌浏览器插件的可能性，旨在为用户提供一种便捷、高效的翻译体验。通过应用深度学习、自然语言处理和知识图谱技术，该插件不仅能实时翻译网页内容，还能根据上下文进行智能推荐，实现精准的语境转换。本文将详细阐述其设计思路、技
【产品经理修炼之道】- 新能源发展的基石-储能系统 xiaoli8748_软件开发产品经理产品经理
什么是储能系统？在这篇文章里，作者给出了他的回答，储能系统即一个“巨型充电宝”，可以在发电侧、电网侧、用户侧等场景应用，起到平衡供需、优化电网运行、节省用电成本、应急备用等关键作用。一起来看看作者关于储能系统的解读。动机近期，个人对储能产品相关的知识进行了学习与研究，基于通过输入-输出的方式，进一步梳理和强化自己的认知的目的，我从什么是储能？为什么需要储能？储能的几种方式？电化学储能的构成等方面，
DeepSeek 模型未来怎么走？技术创新、行业落地全解析！网罗开发 AI 大模型人工智能人工智能职场和发展
网罗开发（小红书、快手、视频号同名）大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、HarmonyOS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者：《ESP32-C3物联网工程开发实战》图书作者：《SwiftUI入门，进阶与实战》超级个体：CO
2025年渗透测试面试题总结-某四字大厂实习面试复盘一面二面三面（题目+回答）独行soc 2025年渗透测试面试指南面试职场和发展安全 web安全红蓝攻防 python
网络安全领域各种资源，学习文档，以及工具分享、前沿信息分享、POC、EXP分享。不定期分享各种好玩的项目及好用的工具，欢迎关注。目录一面1.数组和链表各自的优势和原因2.操作系统层面解析和进程3.线程和进程通信方式及数据安全问题4.线程和多进程的选用场景及原因5.SQL注入绕WAF方式6.FUZZ绕WAF的payload长度通常是多少7.不查资料直接写IPv4正则regex8.Fastjson反序
AI学习教程DeepSeek使用教程合集免费下载 oneboxai 学习
1.DeepSeek本地部署2.Deepseek搭建个人知识库3.DeepSeek提示词详解4.Deepseek使用技巧大全5.DeepSeek提示词大全6.DeepSeek保姆级新手教程7.DeepSeek各类应用8.Deepseek写小说9.DeepSeekV3部署教程10.DeepseekwordExcel11.Deepseek科研论文12.Deepseek开发游戏13.大模型通用一-A1指
ESP32学习 -从STM32工程架构进阶到ESP32架构古希腊掌握嵌入式的神学习 stm32 架构 esp32
ESP32与STM32项目文件结构对比解析以下是对你提供的ESP32项目文件结构的详细解释，并与STM32（以STM32CubeIDE为例）的常见结构进行对比，帮助你理解两者的差异：1.ESP32项目文件解析文件/目录作用STM32对应或差异settingsIDE（如VSCode或Eclipse）的用户配置文件，存储个性化设置。STM32CubeIDE中类似配置存储在.settings目录或IDE
oceanbase 是不是架构比较复杂和mysql对比分析 hxsln11 金融数据库 oceanbase 架构 mysql
我先来分析用户的需求。用户的问题是关于OceanBase和MySQL的架构复杂度对比，并希望了解两者在架构上的具体差异。这是一个技术性较强的问题，用户可能是数据库开发者、架构师或者对分布式数据库感兴趣的学习者。结合上下文，用户之前已经提到过OceanBase的学习曲线较陡峭，可能是因为其分布式架构的复杂性，所以这次的问题很可能是想进一步明确OceanBase和MySQL在架构上的具体差异，以及为什
SvelteKit 最新中文文档教程（6）—— 状态管理冴羽yayujs Svelte 中文文档前端 javascript 前端框架 vue.js react svelte sveltekit
前言Svelte，一个语法简洁、入门容易，面向未来的前端框架。从Svelte诞生之初，就备受开发者的喜爱，根据统计，从2019年到2024年，连续6年一直是开发者最感兴趣的前端框架No.1：Svelte以其独特的编译时优化机制著称，具有轻量级、高性能、易上手等特性，非常适合构建轻量级Web项目。为了帮助大家学习Svelte，我同时搭建了Svelte最新的中文文档站点。如果需要进阶学习，也可以入手我
分享12个国内AI对话聊天的免费网站（含DeepSeek大模型）码上飞扬人工智能语言模型 DeepSeek
在人工智能领域，基于对话的语言模型已成为当前研究的热点，其中以ChatGPT为代表的模型凭借其卓越的语言理解与交互能力备受瞩目。为帮助用户更好地选择和使用这类AI工具，本文将介绍12个国内可直接体验对话聊天功能的平台，为用户提供实用参考。1、腾讯元宝地址：https://hunyuan.tencent.com/bot/chat腾讯混元大模型是由腾讯全链路自研的通用大语言模型，拥有超千亿参数规模，预
免费界面库 python_一个非常简单好用的Python图形界面库(PysimpleGUI) 不妧免费界面库 python
前一阵，我在为朋友编写一个源代码监控程序的时候，发现了一个Python领域非常简单好用的图形界面库。说起图形界面库，你可能会想到TkInter、PyQt、PyGUI等流行的图形界面库，我也曾经尝试使用，一个很直观的感受就是，这太难用了。就去网上搜搜，看看有没有一些demo，拿来改改，结果很少有，当时我就放弃了这些图形库的学习，转而使用了vue+flask的形式以浏览器网页作为程序界面，因为我会这个
jdk tomcat 环境变量配置 Array_06 java jdk tomcat
Win7 下如何配置java环境变量 1。准备jdk包，win7系统，tomcat安装包（均上网下载即可） 2。进行对jdk的安装，尽量为默认路径（但要记住啊！！以防以后配置用。。。） 3。分别配置高级环境变量。电脑-->右击属性-->高级环境变量-->环境变量。分别配置 : path &nbs
Spring调SDK包报java.lang.NoSuchFieldError错误 bijian1013 java spring
在工作中调另一个系统的SDK包，出现如下java.lang.NoSuchFieldError错误。 org.springframework.web.util.NestedServletException: Handler processing failed; nested exception is java.l
LeetCode[位运算] - #136 数组中的单一数 Cwind java 题解位运算 LeetCode Algorithm
原题链接：#136 Single Number 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现两次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：题目限定了线性的时间复杂度，同时不使用额外的空间，即要求只遍历数组一遍得出结果。由于异或运算 n XOR n = 0, n XOR 0 = n，故将数组中的每个元素进
qq登陆界面开发 15700786134 qq
今天我们来开发一个qq登陆界面，首先写一个界面程序，一个界面首先是一个Frame对象，即是一个窗体。然后在这个窗体上放置其他组件。代码如下： public class First { public void initul(){ jf=ne
Linux的程序包管理器RPM 被触发 linux
在早期我们使用源代码的方式来安装软件时，都需要先把源程序代码编译成可执行的二进制安装程序，然后进行安装。这就意味着每次安装软件都需要经过预处理-->编译-->汇编-->链接-->生成安装文件--> 安装，这个复杂而艰辛的过程。为简化安装步骤，便于广大用户的安装部署程序，程序提供商就在特定的系统上面编译好相关程序的安装文件并进行打包，提供给大家下载，我们只需要根据自己的
socket通信遇到EOFException 肆无忌惮_ EOFException
java.io.EOFException at java.io.ObjectInputStream$PeekInputStream.readFully(ObjectInputStream.java:2281) at java.io.ObjectInputStream$BlockDataInputStream.readShort(ObjectInputStream.java:
基于spring的web项目定时操作知了ing java Web
废话不多说，直接上代码，很简单配置一下项目启动就行 1，web.xml <?xml version="1.0" encoding="UTF-8"?> <web-app xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns="h
树形结构的数据库表Schema设计矮蛋蛋 schema
原文地址： http://blog.csdn.net/MONKEY_D_MENG/article/details/6647488 程序设计过程中，我们常常用树形结构来表征某些数据的关联关系，如企业上下级部门、栏目结构、商品分类等等，通常而言，这些树状结构需要借助于数据库完成持久化。然而目前的各种基于关系的数据库，都是以二维表的形式记录存储数据信息，
maven将jar包和源码一起打包到本地仓库 alleni123 maven
http://stackoverflow.com/questions/4031987/how-to-upload-sources-to-local-maven-repository <project> ... <build> <plugins> <plugin> <groupI
java IO操作与 File 获取文件或文件夹的大小，可读，等属性！！！百合不是茶
类 File File是指文件和目录路径名的抽象表示形式。 1，何为文件：标准文件（txt doc mp3...）目录文件（文件夹）虚拟内存文件 2，File类中有可以创建文件的 createNewFile（）方法,在创建新文件的时候需要try{} catch(）{}因为可能会抛出异常；也有可以判断文件是否是一个标准文件的方法isFile();这些防抖都
Spring注入有继承关系的类（2） bijian1013 java spring
被注入类的父类有相应的属性，Spring可以直接注入相应的属性，如下所例：1.AClass类 package com.bijian.spring.test4; public class AClass { private String a; private String b; public String getA() { retu
30岁转型期你能否成为成功人士 bijian1013 成长励志
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
【Velocity四】Velocity与Java互操作 bit1129 velocity
Velocity出现的目的用于简化基于MVC的web应用开发，用于替代JSP标签技术，那么Velocity如何访问Java代码.本篇继续以Velocity三http://bit1129.iteye.com/blog/2106142中的例子为基础， POJO package com.tom.servlets; public
【Hive十一】Hive数据倾斜优化 bit1129 hive
什么是Hive数据倾斜问题操作：join,group by,count distinct 现象：任务进度长时间维持在99%（或100%），查看任务监控页面，发现只有少量（1个或几个）reduce子任务未完成；查看未完成的子任务，可以看到本地读写数据量积累非常大，通常超过10GB可以认定为发生数据倾斜。原因：key分布不均匀倾斜度衡量：平均记录数超过50w且
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua csrf
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-3.求子数组的最大和 bylijinnan java
package beautyOfCoding; public class MaxSubArraySum { /** * 3.求子数组的最大和题目描述：输入一个整形数组，数组里有正数也有负数。数组中连续的一个或多个整数组成一个子数组，每个子数组都有一个和。求所有子数组的和的最大值。要求时间复杂度为O(n)。例如输入的数组为1, -2, 3, 10, -4,
Netty源码学习-FileRegion bylijinnan java netty
今天看org.jboss.netty.example.http.file.HttpStaticFileServerHandler.java 可以直接往channel里面写入一个FileRegion对象，而不需要相应的encoder： //pipeline（没有诸如“FileRegionEncoder”的handler）： public ChannelPipeline ge
使用ZeroClipboard解决跨浏览器复制到剪贴板的问题 cngolon 跨浏览器复制到粘贴板 Zero Clipboard
Zero Clipboard的实现原理 Zero Clipboard 利用透明的Flash让其漂浮在复制按钮之上，这样其实点击的不是按钮而是 Flash ，这样将需要的内容传入Flash，再通过Flash的复制功能把传入的内容复制到剪贴板。 Zero Clipboard的安装方法首先需要下载 Zero Clipboard的压缩包，解压后把文件夹中两个文件：ZeroClipboard.js
单例模式 cuishikuan 单例模式
第一种（懒汉，线程不安全）： public class Singleton { 2 private static Singleton instance; 3 pri
spring+websocket的使用 dalan_123
一、spring配置文件 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3.or
细节问题：ZEROFILL的用法范围。 dcj3sjt126com mysql
1、zerofill把月份中的一位数字比如1，2，3等加前导0 mysql> CREATE TABLE t1 (year YEAR(4), month INT(2) UNSIGNED ZEROFILL, -> day
Android开发10——Activity的跳转与传值 dcj3sjt126com Android开发
Activity跳转与传值，主要是通过Intent类，Intent的作用是激活组件和附带数据。一、Activity跳转方法一Intent intent = new Intent(A.this, B.class); startActivity(intent) 方法二Intent intent = new Intent();intent.setCla
jdbc 得到表结构、主键 eksliang jdbc 得到表结构、主键
转自博客：http://blog.csdn.net/ocean1010/article/details/7266042 假设有个con DatabaseMetaData dbmd = con.getMetaData(); rs = dbmd.getColumns(con.getCatalog(), schema, tableName, null); rs.getSt
Android 应用程序开关GPS gqdy365 android
要在应用程序中操作GPS开关需要权限： <uses-permission android:name="android.permission.WRITE_SECURE_SETTINGS" /> 但在配置文件中添加此权限之后会报错，无法再eclipse里面正常编译，怎么办？ 1、方法一：将项目放到Android源码中编译； 2、方法二：网上有人说cl
Windows上调试MapReduce zhiquanliu mapreduce
1.下载hadoop2x-eclipse-plugin https://github.com/winghc/hadoop2x-eclipse-plugin.git 把 hadoop2.6.0-eclipse-plugin.jar 放到eclipse plugin 目录中。 2.下载 hadoop2.6_x64_.zip http://dl.iteye.com/topics/download/d2b
如何看待一些知名博客推广软文的行为？ justjavac 博客
本文来自我在知乎上的一个回答：http://www.zhihu.com/question/23431810/answer/24588621 互联网上的两种典型心态：当初求种像条狗，如今撸完嫌人丑当初搜贴像条犬，如今读完嫌人软你为啥感觉不舒服呢？难道非得要作者把自己的劳动成果免费给你用，你才舒服？就如同 Google 关闭了 Gooled Reader，那是
sql优化总结 macroli sql
为了是自己对sql优化有更好的原则性，在这里做一下总结，个人原则如有不对请多多指教。谢谢！要知道一个简单的sql语句执行效率，就要有查看方式，一遍更好的进行优化。一、简单的统计语句执行时间 declare @d datetime ---定义一个datetime的变量set @d=getdate() ---获取查询语句开始前的时间select user_id
Linux Oracle中常遇到的一些问题及命令总结超声波 oracle linux
1.linux更改主机名 (1)#hostname oracledb　　　　临时修改主机名 (2) vi /etc/sysconfig/network 　　修改hostname (3) vi /etc/hosts　　　　　　　　修改IP对应的主机名 2.linux重启oracle实例及监听的各种方法（注意操作的顺序应该是先监听，后数据库实例） &nbs
hive函数大全及使用示例 superlxw1234 hadoop hive函数
具体说明及示例参见附件文档。文档目录：目录一、关系运算： 4 1. 等值比较: = 4 2. 不等值比较: <> 4 3. 小于比较: < 4 4. 小于等于比较: <= 4 5. 大于比较: > 5 6. 大于等于比较: >= 5 7. 空值判断: IS NULL 5
Spring 4.2新特性-使用@Order调整配置类加载顺序 wiselyman spring 4
4.1 @Order Spring 4.2 利用@Order控制配置类的加载顺序 4.2 演示两个演示bean package com.wisely.spring4_2.order; public class Demo1Service { } package com.wisely.spring4_2.order; public class