DatapiTHU

深度学习之Attention模型详解

转载自：Datawhale（ID：Datawhale）

作者：yif

本文8434字41图，建议阅读22分钟。

本文介绍深度学习中的Attention模型。

Attention的产生

起因：《Sequence to Sequence Learning with Neural Networks》

Attention模型的引入原因：

seq2seq将输入序列都压缩成一个固定大小的隐变量，就像我们的压缩文件一样，这个过程是有损压缩的，会迫使丢失许多输入序列中的信息；
存在着难以对齐的问题。比如中译音“我爱你” “I love you”,输入序列中的“我”应该与“I”对齐(贡献最大)，然而在seq2seq模型中，“我”对"I"，"love"，"you"的贡献都是一致的。

Attention的发展

Show, attend and tell: Neural image caption generation with visual attention

本文可以算是第一篇Attention论文。

该任务是实现图文转换。与前面讲述的seq2seq的问题一样，在之前的图文转换任务中也是存在着难以对齐的问题。所谓难以对齐就是毫无重点。

本文提出了两种attention：

sort Attention
hard Attention

本文的模型结构：

将图片通过一个CNN转换成的L D.这里称L个向量为L个注释向量(annotation vector)，D为特征维度，可以认为提取了图片中L个区域的特征。对这L个区域向量加权相加来表示这张图片。由于不同时刻的关注点是不同的，annotation vector还要与decoder中的隐状态进行交互，以便知道下一时刻的关注区域。

这里编码器是VGG，解码器是LSTM。LTSM输入是不同时刻的图片的关注点信息，然后生成当前时刻的单词。

Attention的计算

如上所属，attention的值不仅与annotation vector 有关，还与上一时刻解码器的隐状态有关。因此有：

其中t表示时刻t，i表示第i个区域，a是我们得到的attention weight分布。

f实际上是对齐函数，用于计算对齐的分数，常见的对齐函数有：dot product，general，multilayer perceptron。

1，Soft attention：直接使用attention的权重对L个向量加权相加，这么做的好处是整个问题是可微的，可以利用BP end to end。

2，Hard attention：Hard attention很粗暴，挑出最大权重的向量，剔除其余向量(置0)。显然这种形式的模型是不可微的，为了实现BP，这里采用蒙特卡洛采样的方法来估计模块的梯度。

帮助我们在t时刻选出了第i个向量是我们最后选中的的向量，引入一个变量 ,当区域i被选中时取值为1，否则为0.则有：

问题如何生成 ,在本文中，将视为隐变量，为参数是的多元伯努利分布(伯努利是两点分布)

$$P(s_{t,i}=1|s_{t

这个可以认为是我们的带隐变量的目标函数。

对目标函数求梯度：

用N次蒙特卡洛采用(抛银币)来近似：

在用蒙特卡洛方法估计梯度时可以用滑动平均来减小梯度的方差。在第k个mini-batch时，滑动平均被估计为先前对数似然伴随指数衰减的累加和：

总结

总的来说，这里率先引入了soft attention与hard attention，通过在每一时刻给图片各个区域分配attention权重，来提升语句与特定图块的相关性。

结果：

Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation

本文可以算是第一篇在seq2seq中引入的Attention的论文(2015.07)

本文同样涉及了soft attention，hard attention。求解形式与上一篇并无差异。

并且文中考虑了四种应用场景：1. Neural Machine Translation ；2. Image Caption Generation ；3. Video Description Generation ；4. End-to-End Neural Speech Recognition。

Effective Approaches to Attention-based Neural Machine Translation

本文比上一篇晚发表了2个月。。。

文章提出了两种attention的改进版本，即global attention和local attention。

global attention

global attention 在计算context vector 的时候会考虑encoder所产生的全部hidden state。其实就是第一篇文章的attetion方法。

2.local attention

本文认为local attention为hard attention和soft attention的混合体(优势上的混合)，因为他的计算复杂度要低于global attention，soft attention，而且与hard attention 不同的是，local attention 几乎处处可微，易于训练。

local attention克服了每个source hidden state都要扫描的缺点，计算开销大，而且对于长句不利，为了提升效率，提出了 local attention。每次只focus 一部分的source position。

这里 context vector 的计算只focus窗口内的2D+1个source hidden state。设是一个source position index，可以理解为 attention的“焦点”，作为模型的参数，D根据经验来选择。

关于的计算，文章给出了两种计算方案：

1） Monotonic alignment(local-m)

2)predictive alignment(local-p)

其中和是模型的参数，S是source sentence的长度，易知 .

权重的计算为：

可以看出，距离中心越远的位置，其位置上的source hidden state 对应的权重就会被压缩地越厉害。这里设置为D/2。

这里的，

其中score函数其实就是第一篇里介绍的对齐函数，存在三种dot product，general，concat。

实验对比：

Attention-Based Multi-Perspective Convolutional Neural Networks for Textual Similarity Measurement

本文的任务是STS(semantic textual similarity)指给定一个检索句子和比较的句子，计算他们的相似度得分。

过去的模型，把输入的句子独立对待，忽略了句子的上下文交互。attention也就是因此而引入的。

本文的基础模型结构是：MPCNN(multi-perspective con- volutional neural network model)，主要包括两个部分：1，multi-perspective sentence model；2， structured similarity measurement layer。

multi-perspective sentence model

multi-perspective sentence model 使用的是卷积神经网络，通过使用不同类型的卷积核，不同类型的池化方式，不同大小的卷积窗口，来得到每个句子的不同粒度的表达。

a. 卷积层有两种卷积的方式：(1)粒度为word的卷积；(2)粒度为embedding 维度上的卷积。前者相当于n-gram特征抽取，后者抽取的是向量每一维度上的信息。作者认为后面这种方式由于粒度更小有助于充分地提取出输入的特征信息。作者使用了这两种方式以获得更丰富的表达。

b. 卷积窗口大小：不同卷积窗口的大小捕捉不同n-gram的长度下的信息，这里窗口大小是{1, 2, 3，∞}, 表示输入句子中unigrams, bigrams, trigrams和不使用卷积层。

c. 池化方式：池化层可以保留一个卷积模型中最显著和最通用的特性，这里使用max，min，mean三种方式。

Structured Similarity Measurement layer

Structured Similarity Measurement Layer的目标是计算句子表达的相似度。

Structured Similarity Measurement Layer的目标是计算句子表达的相似度。作者认为最后生成的句子向量中的每一个部分的意义各不相同，直接应用传统的相似度计算方法如余弦相似度在两个句子向量上并不是最优的，应该对句子向量中的各个部分进行相应的比较和计算(Structured Comparision)。为了使得句子向量中的局部间的比较和计算更加有效，我们需要考虑如下方面：

(1) 是否来自相同的building block；(2) 是否来自相同卷积窗口大小下的卷积结果；(3) 是否来自相同的pooling层；(4) 是否来自相同的Feature Map；

至少满足以上两个条件时，才比较句子中的相应部分时，作者采用了两种算法比较相似性。一种只针对粒度为词的卷积，另一种则同时针对粒度为词的卷积和粒度为embedding 维度上的卷积。

在句子局部的相似度计算之后，作者叠加了两层的线性层，并在中间使用了tanh激活函数，最后使用log-softmax输出。更多的细节参考He et al. 2015。

Attention-Based Input Interaction Layer

本文作者在上述模型的基础上，增加了一层基于attention的交互层。其目的就是在刚做完embedding以后，给两个句子更相关的部分赋予更多的权值。

输入序列 ,其中 ,铜鼓计算对应向量的余弦相似度得到attention。

得到了attention权值矩阵后，可以计算每个句子对应的attention向量，并归一化：

最后拼接起来得到attention 的re-weighted向量：

作者没有添加额外的参数，只是简单的余弦距离去作为attention权值然后做归一化，并在实验中取得了不错的结果。

ABCNN: Attention-Based Convolutional Neural Network for Modeling Sentence Pairs

本文的任务是(sentence pair)句子配对。这包括了Answer Selection（AS），Paraphrase identification（PI），Textual entailment（TE）。

基础模型：BCNN(Basic Bi-CNN)。BCNN有四个部分：1. 输入层，2. 卷积层，3. 池化层，4. 输出层。特别要指出卷积层。这里卷积层采用的是宽卷积（Wide convolution）。即对句子的边缘部分进行，使得输出的序列长度大于输入的序列长度。(宽卷积常用于卷积核大小相对于输入向量长度较大时)

这里提出了三种ABCNN

ABCNN-1

ttention 矩阵的计算：

可以从上图看出矩阵中的一列代表一个词，行代表特征。

这里的match-score可以用多种方式进行计算，本文采用的是来计算。

句子中attention特征的计算：

这里的输出被送入到了卷积层。

ABCNN-2

这里Attention矩阵的计算方式与ABCNN-1类似，不同的是在ABCNN-1的基础上对两个句子的unit进行求和作为unit的attention 值，即

然后利用这个attention值对卷积层的输出进行加权，具体公式如下：

这里的输出输入到了pooling层中。

ABCNN-3

将上述两个结构进行叠加。在输入和池化都引入注意力。

本文实际上提出了两种引入attention 的位置，一种是在Conv前(ABCNN-1),一种是Conv后(ABCNN-2)。从结果来看，Attention放在Conv后的效果比前面的效果更好。可能的原因是Word embedding经过Conv相当于提取了n-gram，能表示上下文。conv 之后再结合 Attention 能比单纯 input 之后的 Attention 包含更多的信息。

Graph Attention Network(GAT)

小结1

之后的一系列论文如《Multi-Attention CNN for FGVC：MA-CNN》,《Coupled Multi-Layer Attentions for Co-Extraction of Aspect and Opinion Terms》等尽管实现的任务都花里胡哨的，并引入了Attention，但是attention的使用方式还是千篇一律。

Attention is all you need

提出的动机：

跳出原来千篇一律的attention形式，不使用CNN，不使用RNN，光靠attention，实现高并行化；
抓取更强的长距离依赖关系。

创新点：

总结了attention的通用形式；
提出了self attention，multi-head attention；
Transform结构。

总结Attention的通用格式

作者将Attention理解为q，k，v的形式，

其实前面介绍的attention都可以套用该框架。

提出self attention, multi-head attention

这里的self attention 指的是用到自身的信息来计算attention。传统的attention都是考虑用外部信息来计算attention。

这里采用的attention计算方式也与之前的不同，采用 Scaled Dot-Product 的形式。

注意：分母是为了归一化，避免造成进入softmax函数的饱和区，其梯度较小。

采用multi-head attention为的就是让不同head学习到不同的子空间语义。显然实验也证实这种形式的结果较好。

在self attention中其实在做的当前文本句中单词依赖关系分数的计算。

比如“Think Machines”两个单词：

优点：

由于self attention 是对整个文本句求attention的，所以他能抓取到当前单词和该文本句中所有单词的依赖关系强度。这方面的能力显然比RNN的获取长依赖的能力强大的多；
此时不在用RNN的这种串行模式，即每一步计算依赖于上一步的计算结果。因此可以像CNN一样并行处理，而CNN只能捕获局部信息，通过层叠获取全局联系增强视野。

缺点：很显然，既是并行又能全局，但他不能捕捉语序顺序。这是很糟糕的，有点像词袋模型。因为相同单词不同词序的含义会有很大差别。为了克服这个问题，作者引入了Position embedding。这是后话了。

Transform

Transform是一大法宝，影响深远。

从上图粗看，Transform仍延续着一个Encoder一个Decoder的形式。

重要部件：

Positional embedding。正如上面所说，self attention缺乏位置信息，这是不合理的。为了引入位置信息，这里用了一个部件position embedding。

这里考虑每个token的position embedding的向量维度也是d维的，与input embedding的输出一样，然后将input embedding和position embedding 加起来组成最终的embedding输入到上面的encoder/decoder中去。这里的position embedding计算公式如下：

其中pos表示位置的index，i表示dimension index。

Position Embedding本身是一个绝对位置的信息，但在语言中，相对位置也很重要，Google选择前述的位置向量公式的一个重要原因是：由于我们有

这表明位置p+k的向量可以表示成位置p的向量的线性变换，这提供了表达相对位置信息的可能性。

residual connection 。无论是encoder还是decoder，我们都能看到存在residual connection这种跳跃连接。

随着深度的增加会导致梯度出现弥散或者爆炸，更为严重的是会导致模型退化（也就是在训练集上性能饱和甚至下降，与过拟合不同）。深度残差网络就是为了解决退化的问题。其实引入残差连接，也是为了尽可能保留原始输入x的信息。

Layer Normalization

与 BN 不同，LN 是一种横向的规范化。

LN针对单个训练样本进行，不依赖于其他数据。避免了受mini batch中其他数据的影响。

BN适用于不同mini batch数据分布差异不大的情况，而且BN需要开辟变量存每个节点的均值和方差，空间消耗略大；而且 BN适用于有mini_batch的场景。

Masked Multi-Head Attention

这里用mask来遮蔽当前位置后面的单词。实现也很简单，采用一个上三角都为1，下三角为0的矩阵。

小结一下：本文对attention的概念进行了本质上的转变。传统的attention是在端尾计算源文本各个token对该时刻单词的贡献。而self attention将这个过程提到了端口，计算当前句子中token的相关性来充分各个token的表达其语义。简单的讲就是传统的attention是为了使输出端表达充分，而self attention 是为了使输入端表达充分。尽管他们的形式都可以用Q，K，V框架来解释。

An Attentive Survey of Attention Models

《An Attentive Survey of Attention Models》是香农科技提出的一篇关于attention的综述论文。

本文给attention作出了分类，分为四种分类方法：

1，number of sequences

a)distinctive。只考虑了涉及单个输入和相应输出序列的情况（例如seq2seq中的attention）；

b)co-attention。同时对多个输入序列进行操作，并共同学习它们的注意权重，以捕获这些输入之间的交互（例如前面介绍的ABCNN）；

c)inner attention。使用注意力来学习输入序列中对应于相同输入序列中的每个标记的相关标记.(例如self attention)。

2，Number of abstraction levels

按照输入特征的抽象层次来分，这里的抽象层次可以是词粒度、短语粒度、句子粒度、文档粒度。

a)single-level。只为原始输入序列计算注意权重；

b)multi-level。注意力可以按顺序应用于输入序列的多个抽象层次[例如在两个不同的抽象层次（即单词级别和句子级别）上使用了注意力模型来完成文档分类任务]。

3，Number of positions

a)soft attention。它使用输入序列所有隐藏状态的加权平均值来构建上下文向量；

b)hard attention。其中上下文向量是从输入序列中随机采样的隐藏状态计算出来的；

c)global attention。与soft attention一样；

d)local attention。是hard attention和soft attention的一种折中。

4，Number of representations

a)multi-Representational Attention model。通过多个特征表示捕捉输入的不同方面,注意可以用来为这些不同的表示分配重要权重，这些表示可以确定最相关的方面，而忽略输入中的噪声和冗余；

b)multi-dimensional。这种attention 作用在维度上，attention的权重表示各个维度上的重要性。

然后作者又对带有attention的网络结构进行饿了分类。

1，Encoder-Decoder

2，Memory Networks

像问答和聊天机器人这样的应用程序需要能够从事实数据库中的信息中学习。网络的输入是一个知识数据库和一个查询，其中一些事实比其他事实更与查询相关。端到端memory networks通过使用一组内存块存储事实数据库来实现这一点，并使用attention在回答查询时在内存中为每个事实建立关联模型。

使用attention还提供了计算优势，使目标连续，并通过反向传播支持端到端训练。端到端内存网络可以看作是AM的一种泛化，它不是只在单个序列上建模注意力，而是在一个包含大量序列(事实)的数据库上建模注意力。

3，Networks without RNNs 最具代表性的就是Transformer。

未完待续

其实还有很多要补充的，比如Memory Network中的attention(外部记忆作为V)以及Graph neural network里的attention，尽管理论上都是一个道理，但是还要对的起标题的all。待补充。

——END——

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
扫地机类清洁产品之直流无刷电机控制悟空胆好小清洁服务机器人单片机人工智能
扫地机类清洁产品之直流无刷电机控制1.1前言扫地机产品有很多的电机控制，滚刷电机1个，边刷电机1-2个，清水泵电机，风机一个，部分中高端产品支持抹布功能，也就是存在抹布盘电机，还有追觅科沃斯石头等边刷抬升电机，滚刷抬升电机等的，这些电机有直流有刷电机，直接无刷电机，步进电机，电磁阀，挪动泵等不同类型。电机的原理，驱动控制方式也不行。接下来一段时间的几个文章会作个专题分析分享。直流有刷电机会自动持续
消息中间件有哪些常见类型 xmh-sxh-1314 java
消息中间件根据其设计理念和用途，可以大致分为以下几种常见类型：点对点消息队列（Point-to-PointMessagingQueues）：在这种模型中，消息被发送到特定的队列中，消费者从队列中取出并处理消息。队列中的消息只能被一个消费者消费，消费后即被删除。常见的实现包括IBM的MQSeries、RabbitMQ的部分使用场景等。适用于任务分发、负载均衡等场景。发布/订阅消息模型（Pub/Sub
2018-07-23-催眠日作业-#不一样的31天#-66小鹿小鹿_33
预言日：人总是在逃避命运的路上，与之不期而遇。心理学上有个著名的名词，叫做自证预言；经济学上也有一个很著名的定律叫做，墨菲定律；在灵修派上，还有一个很著名的法则，叫做吸引力法则。这3个领域的词，虽然看起来不太一样，但是他们都在告诉人们一个现象：你越担心什么，就越有可能会发生什么。同样的道理，你越想得到什么，就应该要积极地去创造什么。无论是自证预言，墨菲定律还是吸引力法则，对人都有正反2个维度的影响
《大清方方案》| 第二话谁佐清欢
和珅究竟说了些什么？竟能令堂堂九五之尊龙颜失色！此处暂且按下不表；单说这位乾隆皇帝，果真不愧是康熙从小带过的，一旦决定了要做的事，便杀伐决断毫不含糊。他当即亲自拟旨，着令和珅为钦差大臣，全权负责处理方方事件，并钦赐尚方宝剑，遇急则三品以下官员可先斩后奏。和珅身负皇上重托，岂敢有半点怠慢，当夜即率领相关人等，马不停蹄杀奔江汉。这一路上，和珅的几位幕僚一直在商讨方方事件的处置方案。有位年轻幕僚建议快刀
《庄子.达生9》钱江潮369
【原文】孔子观于吕梁，县水三十仞，流沫四十里，鼋鼍鱼鳖之所不能游也。见一丈夫游之，以为有苦而欲死也，使弟子并流而拯之。数百步而出，被发行歌而游于塘下。孔子从而问焉，曰：“吾以子为鬼，察子则人也。请问，‘蹈水有道乎’”曰：“亡，吾无道。吾始乎故，长乎性，成乎命。与齐俱入，与汩偕出，从水之道而不为私焉。此吾所以蹈之也。”孔子曰：“何谓始乎故，长乎性，成乎命？”曰：“吾生于陵而安于陵，故也；长于水而安于
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
LLM 词汇表落难Coder LLMs NLP 大语言模型大模型 llama 人工智能
Contextwindow“上下文窗口”是指语言模型在生成新文本时能够回溯和参考的文本量。这不同于语言模型训练时所使用的大量数据集，而是代表了模型的“工作记忆”。较大的上下文窗口可以让模型理解和响应更复杂和更长的提示，而较小的上下文窗口可能会限制模型处理较长提示或在长时间对话中保持连贯性的能力。Fine-tuning微调是使用额外的数据进一步训练预训练语言模型的过程。这使得模型开始表示和模仿微调数
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
四章-32-点要素的聚合彩云飘过
本文基于腾讯课堂老胡的课《跟我学Openlayers--基础实例详解》做的学习笔记，使用的openlayers5.3.xapi。源码见1032.html，对应的官网示例https://openlayers.org/en/latest/examples/cluster.htmlhttps://openlayers.org/en/latest/examples/earthquake-clusters.
高端密码学院笔记285 柚子_b4b4
高端幸福密码学院（高级班）幸福使者：李华第（598）期《幸福》之回归内在深层生命原动力基础篇——揭秘“激励”成长的喜悦心理案例分析主讲：刘莉一，知识扩充:成功=艰苦劳动+正确方法+少说空话。贪图省力的船夫，目标永远下游。智者的梦再美，也不如愚人实干的脚印。幸福早课堂2020.10.16星期五一笔记:1，重视和珍惜的前提是知道它的价值非常重要，当你珍惜了，你就真正定下来，真正的学到身上。2，大家需要
2020-04-12每天三百字之连接与替代冷眼看潮
不知道是不是好为人师，有时候还真想和别人分享一下我对某些现象的看法或者解释。人类社会不断发展进步的过程，就是不断连接与替代的过程。人类发现了火并应用火以后，告别了茹毛饮血的野兽般的原始生活（火烧、烹饪替代了生食）人类用石器代替了完全手工，工具的使用使人类进步一大步。类似这样的替代还有很多，随着科技的发展，有更多的原始的事物被替代，代之以更高效、更先进的技术。在近现代，汽车替代了马车，高速公路和铁路
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Apify加载Twitter消息以进行微调的完整指南 nseejrukjhad twitter easyui 前端 python
#使用Apify加载Twitter消息以进行微调的完整指南##引言在自然语言处理领域，微调模型以适应特定任务是提升模型性能的常见方法。本文将介绍如何使用Apify从Twitter导出聊天信息，以便进一步进行微调。##主要内容###使用Apify导出推文首先，我们需要从Twitter导出推文。Apify可以帮助我们做到这一点。通过Apify的强大功能，我们可以批量抓取和导出数据，适用于各类应用场景。
如何部分格式化提示模板:LangChain中的高级技巧 nseejrukjhad langchain java 服务器 python
标题:如何部分格式化提示模板:LangChain中的高级技巧内容:如何部分格式化提示模板:LangChain中的高级技巧引言在使用大型语言模型(LLM)时,提示工程是一个关键环节。LangChain提供了强大的提示模板功能,让我们能更灵活地构建和管理提示。本文将介绍LangChain中一个高级特性-部分格式化提示模板,这个技巧可以让你的提示管理更加高效和灵活。什么是部分格式化提示模板?部分格式化提
东南林氏之九牧林候选父系祖缘树TheYtree
渊源介绍东晋初年晋安林始祖林禄公入闽，传十世隋右丞林茂，由晋安迁居莆田北螺村。又五世而至林万宠，唐开元间任高平太守，生三子：韬、披、昌。韬公之孙攒，唐德宗立双阙以旌表其孝，时号"阙下林家"。昌公字茂吉，乃万宠公第三子，官兵部司马，配宋氏，生一子名萍。萍于唐贞元间明经及第，官沣洲司马(后追赠中宪大夫)。唐太和年间归隐后，迁居仙游游洋，世称“游洋林”；其后裔居游洋后迁移漳州漳浦路下，由路下林第四房平和
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
大伟说成语之唉声叹气求索大伟
＊大伟说成语＊【唉声叹气】叹气：因心里不痛快或不如意而吐出长气，发出声音。因为痛苦、憋闷或感伤而发出叹息的声音。【大伟说】情绪外露，非人类所特有，动物亦有情绪，悲哀和欢乐所表示的情绪亦是不一样的，会嗷嗷大叫也会低吟痛哭。不同的是，人类的情绪更复杂，更多样，更丰富。唉声叹气，可以说是最基础的情绪，因为无奈而举足无措，不知该如何如何化解，只有独自一人慢慢承受，长吁短叹不知如何是好，其实是无能无力的表现
libyuv之linux编译 jaronho Linux linux 运维服务器
文章目录一、下载源码二、编译源码三、注意事项1、银河麒麟系统（aarch64）（1）解决armv8-a+dotprod+i8mm指令集支持问题（2）解决armv9-a+sve2指令集支持问题一、下载源码到GitHub网站下载https://github.com/lemenkov/libyuv源码，或者用直接用git克隆到本地，如：gitclonehttps://github.com/lemenko
怎么做淘客赚钱(2022最新免费淘客盈利的方法) 高省_飞智666600
很多人都不知道什么是淘宝客，今天小编为大家解答一下吧。淘宝客，现在简称淘客，是时下比较流行的一个词语，特质为淘宝店推广商品获取提成的人，这些人没有自己的产品，只是在淘宝里面选择适合自己的产品，在自己比较熟悉的领域推广，把产品卖出去之后，会从淘宝店家那里获得百分之五到百分之五十左右的佣金。淘宝客付出的是什么呢？时间。你需要花时间去选适合自己推广的产品，需要花时间去选自己的推广方法，如果你打算自己做个
数据仓库——维度表一致性墨染丶eye 背诵数据仓库
数据仓库基础笔记思维导图已经整理完毕，完整连接为：数据仓库基础知识笔记思维导图维度一致性问题从逻辑层面来看，当一系列星型模型共享一组公共维度时，所涉及的维度称为一致性维度。当维度表存在不一致时，短期的成功难以弥补长期的错误。维度时确保不同过程中信息集成起来实现横向钻取货活动的关键。造成横向钻取失败的原因维度结构的差别，因为维度的差别，分析工作涉及的领域从简单到复杂，但是都是通过复杂的报表来弥补设计
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
锁之缘尘缘诗词原创作品
是谁追寻梦的足迹，是谁在偷偷的哭泣，日月隔离在黑白天地情感在心中蔓延的痕迹天与地的距离有多远流失的星晨落入哪片空间不要让泪水模糊双眼心牢中一样充满温暖谁说爱情没有永远白娘子又为何爱许仙蝴蝶墓地展翅翩翩轻歌慢舞袖卷人间传奇千古留爱万年…………月落星飞徘徊是选择不去问自已为合舍不得寂寞本就是痛苦的不在追寻梦中的痕迹才不会失去真实的自已
ARM驱动学习之基础小知识 JT灬新一 ARM 嵌入式 arm开发学习
ARM驱动学习之基础小知识•sch原理图工程师工作内容–方案–元器件选型–采购（能不能买到，价格）–原理图（涉及到稳定性）•layout画板工程师–layout（封装、布局，布线，log）（涉及到稳定性）–焊接的一部分工作（调试阶段板子的焊接）•驱动工程师–驱动，原理图，layout三部分的交集容易发生矛盾•PCB研发流程介绍–方案，原理图(网表)–layout工程师（gerber文件）–PCB板
ARM驱动学习之5 LEDS驱动 JT灬新一嵌入式 C 底层 arm开发学习单片机
ARM驱动学习之5LEDS驱动知识点：•linuxGPIO申请函数和赋值函数–gpio_request–gpio_set_value•三星平台配置GPIO函数–s3c_gpio_cfgpin•GPIO配置输出模式的宏变量–S3C_GPIO_OUTPUT注意点：DRIVER_NAME和DEVICE_NAME匹配。实现步骤：1.加入需要的头文件：//Linux平台的gpio头文件#include//三
ARM驱动学习之4小结 JT灬新一嵌入式 C++arm开发学习 linux
ARM驱动学习之4小结#include#include#include#include#include#defineDEVICE_NAME"hello_ctl123"MODULE_LICENSE("DualBSD/GPL");MODULE_AUTHOR("TOPEET");staticlonghello_ioctl(structfile*file,unsignedintcmd,unsignedlo
C++ | Leetcode C++题解之第409题最长回文串 Ddddddd_158 经验分享 C++Leetcode 题解
题目：题解：classSolution{public:intlongestPalindrome(strings){unordered_mapcount;intans=0;for(charc:s)++count[c];for(autop:count){intv=p.second;ans+=v/2*2;if(v%2==1andans%2==0)++ans;}returnans;}};
2020-12-24 我和我的天使们
阅读《老子的心事》391—403“将欲取之，必固与之”：想要得到什么，首先就要送出什么。我常常对孩子们说，你希望别人怎样对你你就怎样对待别人。想要得到别人的尊重，首先要尊重别人。我希望她们可以不迟到，因为不迟到是对别人的尊重，我就自己就先做到不迟到。哪怕是约朋友逛街，我尽量准时赴约。我严格要求孩子们，也同样严格要求自己，我跟孩子们一起把好的品格变成习惯。“是谓微明”：这就是微妙的智慧。看起来很少很
18、架构-可观测性之聚合度量大树~~ 架构 java python 后端架构
聚合度量聚合度量是指对系统运行时产生的各种指标数据进行收集、聚合和分析，以了解系统的健康状况和性能表现。聚合度量是可观测性的关键组成部分，通过对度量数据的分析，可以及时发现系统中的异常和瓶颈。以下是对聚合度量各个方面的详细解析，并结合具体的数据案例和技术支撑。指标收集收集系统运行时产生的各种指标数据是聚合度量的基础。常见的指标包括CPU使用率、内存使用率、请求处理时间、请求数、错误率等。以下是指标
【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
SAX解析xml文件小猪猪08 xml
1.创建SAXParserFactory实例 2.通过SAXParserFactory对象获取SAXParser实例 3.创建一个类SAXParserHander继续DefaultHandler，并且实例化这个类 4.SAXParser实例的parse来获取文件 public static void main(String[] args) { //
为什么mysql里的ibdata1文件不断的增长？ brotherlamp linux linux运维 linux资料 linux视频 linux运维自学
我们在 Percona 支持栏目经常收到关于 MySQL 的 ibdata1 文件的这个问题。当监控服务器发送一个关于 MySQL 服务器存储的报警时，恐慌就开始了 —— 就是说磁盘快要满了。一番调查后你意识到大多数地盘空间被 InnoDB 的共享表空间 ibdata1 使用。而你已经启用了 innodbfileper_table，所以问题是： ibdata1存了什么？当你启用了 i
Quartz-quartz.properties配置 eksliang quartz
其实Quartz JAR文件的org.quartz包下就包含了一个quartz.properties属性配置文件并提供了默认设置。如果需要调整默认配置，可以在类路径下建立一个新的quartz.properties，它将自动被Quartz加载并覆盖默认的设置。下面是这些默认值的解释 #-----集群的配置 org.quartz.scheduler.instanceName =
informatica session的使用 18289753290 workflow session log Informatica
如果希望workflow存储最近20次的log，在session里的Config Object设置，log options做配置，save session log :sessions run ;savesessio log for these runs:20 session下面的source 里面有个tracing
Scrapy抓取网页时出现CRC check failed 0x471e6e9a != 0x7c07b839L的错误酷的飞上天空 scrapy
Scrapy版本0.14.4 出现问题现象： ERROR: Error downloading <GET http://xxxxx CRC check failed 解决方法 1.设置网络请求时的header中的属性'Accept-Encoding': '*;q=0' 明确表示不支持任何形式的压缩格式，避免程序的解压
java Swing小集锦永夜-极光 java swing
1.关闭窗体弹出确认对话框 1.1 this.setDefaultCloseOperation (JFrame.DO_NOTHING_ON_CLOSE); 1.2 this.addWindowListener ( new WindowAdapter () { public void windo
强制删除.svn文件夹随便小屋 java
在windows上，从别处复制的项目中可能带有.svn文件夹，手动删除太麻烦，并且每个文件夹下都有。所以写了个程序进行删除。因为.svn文件夹在windows上是只读的，所以用File中的delete()和deleteOnExist()方法都不能将其删除，所以只能采用windows命令方式进行删除
GET和POST有什么区别？及为什么网上的多数答案都是错的。 aijuans get post
如果有人问你，GET和POST，有什么区别？你会如何回答？我的经历前几天有人问我这个问题。我说GET是用于获取数据的，POST，一般用于将数据发给服务器之用。这个答案好像并不是他想要的。于是他继续追问有没有别的区别？我说这就是个名字而已，如果服务器支持，他完全可以把G
谈谈新浪微博背后的那些算法 aoyouzi 谈谈新浪微博背后的那些算法
本文对微博中常见的问题的对应算法进行了简单的介绍，在实际应用中的算法比介绍的要复杂的多。当然，本文覆盖的主题并不全，比如好友推荐、热点跟踪等就没有涉及到。但古人云“窥一斑而见全豹”，希望本文的介绍能帮助大家更好的理解微博这样的社交网络应用。微博是一个很多人都在用的社交应用。天天刷微博的人每天都会进行着这样几个操作：原创、转发、回复、阅读、关注、@等。其中，前四个是针对短博文，最后的关注和@则针
Connection reset 连接被重置的解决方法百合不是茶 java 字符流连接被重置
流是java的核心部分,,昨天在做android服务器连接服务器的时候出了问题,就将代码放到java中执行,结果还是一样连接被重置被重置的代码如下; 客户端代码; package 通信软件服务器; import java.io.BufferedWriter; import java.io.OutputStream; import java.io.O
web.xml配置详解之filter bijian1013 java web.xml filter
一.定义 <filter> <filter-name>encodingfilter</filter-name> <filter-class>com.my.app.EncodingFilter</filter-class> <init-param> <param-name>encoding<
Heritrix Bill_chen 多线程 xml 算法制造配置管理
作为纯Java语言开发的、功能强大的网络爬虫Heritrix，其功能极其强大，且扩展性良好，深受热爱搜索技术的盆友们的喜爱，但它配置较为复杂，且源码不好理解，最近又使劲看了下，结合自己的学习和理解，跟大家分享Heritrix的点点滴滴。 Heritrix的下载（http://sourceforge.net/projects/archive-crawler/）安装、配置，就不罗嗦了，可以自己找找资
【Zookeeper】FAQ bit1129 zookeeper
1.脱离IDE，运行简单的Java客户端程序 #ZkClient是简单的Zookeeper~$ java -cp "./:zookeeper-3.4.6.jar:./lib/*" ZKClient 1. Zookeeper是的Watcher回调是同步操作，需要添加异步处理的代码 2. 如果Zookeeper集群跨越多个机房，那么Leader/
The user specified as a definer ('aaa'@'localhost') does not exist 白糖_ localhost
今天遇到一个客户BUG，当前的jdbc连接用户是root，然后部分删除操作都会报下面这个错误：The user specified as a definer ('aaa'@'localhost') does not exist 最后找原因发现删除操作做了触发器，而触发器里面有这样一句 /*!50017 DEFINER = ''aaa@'localhost' */ 原来最初
javascript中showModelDialog刷新父页面 bozch JavaScript 刷新父页面 showModalDialog
在页面中使用showModalDialog打开模式子页面窗口的时候，如果想在子页面中操作父页面中的某个节点，可以通过如下的进行： window.showModalDialog('url',self,‘status...’); // 首先中间参数使用self 在子页面使用w
编程之美-买书折扣 bylijinnan 编程之美
import java.util.Arrays; public class BookDiscount { /**编程之美买书折扣书上的贪心算法的分析很有意思，我看了半天看不懂，结果作者说，贪心算法在这个问题上是不适用的。。下面用动态规划实现。哈利波特这本书一共有五卷，每卷都是8欧元，如果读者一次购买不同的两卷可扣除5%的折扣，三卷10%，四卷20%，五卷
关于struts2.3.4项目跨站执行脚本以及远程执行漏洞修复概要 chenbowen00 struts WEB安全
因为近期负责的几个银行系统软件，需要交付客户，因此客户专门请了安全公司对系统进行了安全评测，结果发现了诸如跨站执行脚本，远程执行漏洞以及弱口令等问题。下面记录下本次解决的过程以便后续 1、首先从最简单的开始处理，服务器的弱口令问题，首先根据安全工具提供的测试描述中发现应用服务器中存在一个匿名用户，默认是不需要密码的，经过分析发现服务器使用了FTP协议，而使用ftp协议默认会产生一个匿名用
[电力与暖气]煤炭燃烧与电力加温 comsci
在宇宙中,用贝塔射线观测地球某个部分,看上去,好像一个个马蜂窝,又像珊瑚礁一样,原来是某个国家的采煤区..... 不过,这个采煤区的煤炭看来是要用完了.....那么依赖将起燃烧并取暖的城市,在极度严寒的季节中...该怎么办呢? &nbs
oracle O7_DICTIONARY_ACCESSIBILITY参数 daizj oracle
O7_DICTIONARY_ACCESSIBILITY参数控制对数据字典的访问.设置为true,如果用户被授予了如select any table等any table权限,用户即使不是dba或sysdba用户也可以访问数据字典.在9i及以上版本默认为false,8i及以前版本默认为true.如果设置为true就可能会带来安全上的一些问题.这也就为什么O7_DICTIONARY_ACCESSIBIL
比较全面的MySQL优化参考 dengkane mysql
本文整理了一些MySQL的通用优化方法，做个简单的总结分享，旨在帮助那些没有专职MySQL DBA的企业做好基本的优化工作，至于具体的SQL优化，大部分通过加适当的索引即可达到效果，更复杂的就需要具体分析了，可以参考本站的一些优化案例或者联系我，下方有我的联系方式。这是上篇。 1、硬件层相关优化 1.1、CPU相关在服务器的BIOS设置中，可
C语言homework2，有一个逆序打印数字的小算法 dcj3sjt126com c
#h1# 0、完成课堂例子 1、将一个四位数逆序打印 1234 ==> 4321 实现方法一： # include <stdio.h> int main(void) { int i = 1234; int one = i%10; int two = i / 10 % 10; int three = i / 100 % 10;
apacheBench对网站进行压力测试 dcj3sjt126com apachebench
ab 的全称是 ApacheBench ，是 Apache 附带的一个小工具，专门用于 HTTP Server 的 benchmark testing ，可以同时模拟多个并发请求。前段时间看到公司的开发人员也在用它作一些测试，看起来也不错，很简单，也很容易使用，所以今天花一点时间看了一下。通过下面的一个简单的例子和注释，相信大家可以更容易理解这个工具的使用。
2种办法让HashMap线程安全 flyfoxs java jdk jni
多线程之--2种办法让HashMap线程安全多线程之--synchronized 和reentrantlock的优缺点多线程之--2种JAVA乐观锁的比较( NonfairSync VS. FairSync) HashMap不是线程安全的,往往在写程序时需要通过一些方法来回避.其实JDK原生的提供了2种方法让HashMap支持线程安全.
Spring Security（04）——认证简介 234390216 Spring Security 认证过程
认证简介目录 1.1 认证过程 1.2 Web应用的认证过程 1.2.1 ExceptionTranslationFilter 1.2.2 在request之间共享SecurityContext 1
Java 位运算 Javahuhui java 位运算
// 左移( << ) 低位补0 // 0000 0000 0000 0000 0000 0000 0000 0110 然后左移2位后，低位补0： // 0000 0000 0000 0000 0000 0000 0001 1000 System.out.println(6 << 2);// 运行结果是24 // 右移( >> ) 高位补"
mysql免安装版配置 ldzyz007 mysql
1、my-small.ini是为了小型数据库而设计的。不应该把这个模型用于含有一些常用项目的数据库。 2、my-medium.ini是为中等规模的数据库而设计的。如果你正在企业中使用RHEL,可能会比这个操作系统的最小RAM需求(256MB)明显多得多的物理内存。由此可见，如果有那么多RAM内存可以使用，自然可以在同一台机器上运行其它服务。 3、my-large.ini是为专用于一个SQL数据
MFC和ado数据库使用时遇到的问题你不认识的休道人 sql C++mfc
=================================================================== 第一个 =================================================================== try{ CString sql; sql.Format("select * from p
表单重复提交Double Submits rensanning double
可能发生的场景： *多次点击提交按钮 *刷新页面 *点击浏览器回退按钮 *直接访问收藏夹中的地址 *重复发送HTTP请求（Ajax）（1）点击按钮后disable该按钮一会儿，这样能避免急躁的用户频繁点击按钮。这种方法确实有些粗暴，友好一点的可以把按钮的文字变一下做个提示，比如Bootstrap的做法： http://getbootstrap.co
Java String 十大常见问题 tomcat_oracle java 正则表达式
　1.字符串比较，使用“==”还是equals()? 　　"=="判断两个引用的是不是同一个内存地址(同一个物理对象)。　　equals()判断两个字符串的值是否相等。　　除非你想判断两个string引用是否同一个对象，否则应该总是使用equals()方法。　　如果你了解字符串的驻留(String Interning)则会更好地理解这个问题。　　
SpringMVC 登陆拦截器实现登陆控制 xp9802 springMVC
思路，先登陆后，将登陆信息存储在session中，然后通过拦截器，对系统中的页面和资源进行访问拦截，同时对于登陆本身相关的页面和资源不拦截。实现方法： 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23

深度学习之Attention模型详解

Show, attend and tell: Neural image caption generation with visual attention

你可能感兴趣的:(深度学习之Attention模型详解)