BigQuant

Transformer在量化投资的应用

导语

RNN、LSTM和GRU网络已在序列模型、语言模型、机器翻译等应用中取得不错的效果。循环结构（recurrent）的语言模型和编码器-解码器体系结构取得了不错的进展。但是，RNN固有的顺序属性阻碍了训练样本间的并行化，对于长序列，内存限制将阻碍对训练样本的批量处理。这样，一是使得RNN的训练时间会相对比较长，对其的优化方法也比较少，二是对于长时间记忆来说，其的效果也大打折扣。而Transformer的核心，注意力机制（Attention）允许对输入输出序列的依赖项进行建模，而无需考虑它们在序列中的距离，这样对上面两个RNN中比较突出的问题就有了一个比较好的解决办法。本文将对Attention、Transformer以及其在选股策略中的应用进行讲解。

Attention介绍

Attention本质

Attention机制如果浅层地理解，跟它的名字非常匹配。它的核心逻辑就是“从关注全部到关注重点”。

Attention机制很像人类看图片的逻辑，当我们在看一张图片时，我们并没有看清图片的全部内容，而是将注意力集中在了图片的焦点上：

比如上面的图片，我们一眼望去，最先接收到的是“锦江饭店”的信息，所以，我们的视觉系统就是一种 Attention 机制，将有限的注意力集中在重点信息上，从而节省资源，快速获得最有效的信息。

Attention机制最早是在CV中应用的，随后在NLP领域也开始应用了，真正发扬光大的是在NLP领域，因为2018年BERT和GPT效果出奇地好，进而走红，Transformer、Attention这些核心开始被大家重点关注。

Attention原理

在说到Attention的原理之前，我们要先介绍一下什么是 Encoder-Decoder结构。

Encoder-Decoder模型

encoder-decoder模型也可以称为 seq2seq，它是为了应对 RNN 中无法满足不等长序列的输入输出而产生的一个 RNN 变种。encoder-decoder是深度学习中非常常见的一个模型框架，比如无监督算法的 auto-encoder 就是用编码的结构设计并训练的，再比如神经网络机器翻译NMT模型，往往就是LSTM-LSTM的编码-解码框架。

准确的说，encoder-decoder并不是一个具体的模型，而是一类框架。Encoder和Decoder部分可以是任意的文字，语音，图像，视频数据，模型可以采用CNN，RNN，BiRNN，LSTM，GRU等等。其中，encoder对数据进行编码，decoder对encoder生成的编码进行解码。

Encoder

encoder先将输入数据编码成一个上下文向量c：

得到 c 的方式有多种，最简单的方法就是把encoder的最后一个隐状态赋值给 c ，还可以对最后的隐状态做一个变换得到 c，也可以对所有的隐状态做变换。

Decoder

拿到 c 后，就用另一个 RNN 网络对其进行解码，这部分 RNN 网络被称为 Decoder，具体的做法就是将 c 当作之前的初始化状态 h0 输入到 Decoder 中：

Attention图解

在 encoder-decoder 结构中，encoder把所有的输入序列都编码成一个统一的语义特征 c 再解码，因此，c 中必须包含原始序列中的所有信息，它的长度就变成了限制模型性能的瓶颈，如机器翻译问题，当要翻译的句子较长时，一个 c 可能存不下那么多信息，就会造成翻译精度的下降。

Attention机制通过在每个时间输入不同的 c 来解决这个问题，下面是带有 Attention 机制的 Decoder：

每一个 c 会自动去选取与当前所要输出的 y 最合适的上下文信息。具体来说，我们用 aij 衡量 encoder 中第 j 阶段的 hj 和解码时第 i 阶段的相关性，最终 decoder 中第 i 阶段的输入的上下文信息 ci，就来自于所有 hj 对 aij 的加权和。这里的 aij 就是我们要学习的参数。

比如上图中，输入的序列是“我爱中国”，因此，Encoder中的 h1、h2、h3、h4 就可以分别看是“我”、“爱”、“中国”所代表的信息。在翻译成英语时，第一个上下文 c1 应该和“我”这个字最相关，因此对应的 a11 就比较大，而相应的 a12、a13、a14 就比较小。c2 应该和“爱”最相关，同理，a22 的值就比较大。

那么 aij 这个权重是怎么算出来的呢？

事实上，aij 是从模型中学出来的，它实际和 decoder 的第 i - 1 阶段的隐状态、encoder第 j 个阶段的隐状态有关。比如 a1j 的计算：

Attention中的数学计算

上面都是对 Attention 机制一个直观上的理解，现在咱们用数学公式来对其进行解读：

这里关键的操作是计算 encoder 和 decoder state 之间的关联性的权重，得到 Attention 分布，从而对于当前输出位置得到比较重要的输入位置的权重，在预测输出时相应的会占较大的权重。通过 Attention 机制，我们打破了只能利用 encoder 最终单一向量（即只能利用一个 c ）结果的限制，从而使模型可以集中在所有对于下一个目标单词重要的输入信息上，使模型效果得到极大的改善。并且，通过观察 attention 权重矩阵的变化，可以更好地知道哪些部分翻译对应哪部分源文字，有助于更好地理解模型工作机制。

Attention中的QKV

熟悉Attention的都知道，我们使用 Attention时，一般都使用 Attention(Q, K, V) 来进行表示。

其中，Q表示 Decoder 的（上一次）隐状态，K 表示 Encoder 中的隐状态，V表示 Encoder 的输入。以上面的计算为例：St-1 就是 Q，K就是 (h1, h2, h3 .., hT)，V就是（x1, x2, x3, ..., xT）。

也有一个很形象的比喻可以进行理解：

Attention优点

参数少

模型复杂度跟CNN、RNN相比，复杂度更小，参数也更少，所以对算力的要求也就更小。

速度快

RNN不能并行计算的问题，Attention机制每一步计算不依赖于上一步的计算结果，因此可以和CNN一样并行处理。

效果好

在Attention机制引入之前，有一个问题一直给大家带来困扰：长距离的信息会被弱化，就好像记忆能力弱的人，记不住过去的事情是一样的。Attention是挑重点，就算文本比较长，也能从中间抓住重点，不丢失重要的信息。

Transformer介绍

Transformer抛弃了传统的 CNN 和 DNN，整个网络结构完全是由 Attention 机制组成。更准确地讲，Transformer由且仅由 self-attention 和 feed forward neural network 组成。一个基于 Transformer 的可训练的神经网络可以通过堆叠 Transformer 的形式进行搭建，《Attention is all you need》文中，作者通过搭建编码器和解码器各6层，总共12层的 encoder-decoder，并在机器翻译中取得了 BLEU 的新高。

高层 Transformer

Transformer 本质上是一个 encoder-decoder 结构：

Encoder 由 6 个编码 block 组成，同样解码器是由 6 个解码 block 组成的。与所有的生成模型相同的是，编码器的输出会作为解码器的输入（Encoder-Decoder Attention 结构中）：

Encoder结构

继续分析每个encoder的详细结构：在Transformer的encoder中，数据首先会经过一个叫做‘self-attention’的模块得到一个加权之后的特征向量Z，这个Z便是论文中的 Attention(Q,K,V)：

得到 Z 后，它会被送到 encoder 的下一个模块，即 Feed Forward Neural Network（FNN）。这个全连接有两层，第一层的激活函数是 ReLU，第二层是一个线性激活函数：

所有的编码器在结构上都是相同的，但它们没有共享参数，每个解码器都可以分解成两个子层。

Decoder结构

它和 Encoder 的不同之处在于 Decoder 多了一个 Encoder-Decoder Attention，并且，Decoder 的 Self-Attention 为 multi-self-decoder Attention（带有 mask），两个 Attention 分别用于计算输入和输出的权值：

Self-Attention：当前翻译和已经翻译的前文之间的关系
Encoder-Decoder Attention：当前编码和翻译的特征向量之间的关系

encoder 和 decoder 都是有多层的（论文中取的 6 层），并且，除了第一层，其他的每一层 encoder 的输入来自上一层的 encoder 的输出，同样，decoder 的输入也来自上一层的 decoder 的输出。encoder 和 decoder 的交互是在 encoder-decoder attention 中。

输入编码

首先通过 Word2Vec 等词嵌入方法将输入预料转化为特征向量，论文中使用的词嵌入的维度为 d(model) = 512：

位置编码

位置信息其实算是 Transformer 中的缺点的权宜之计，其丢弃了 RNN 和 CNN ，使得模型其实丧失了捕捉局部特征的能力。具体的，位置编码会在词向量中加入单词的位置信息，这样 Transformer 就能区分不同位置的单词了。

如何编码这个位置信息？常见的有：a：根据数据学习；b：自己设计编码规则。通常，位置编码是一个长度为 dmodel 的特征向量，这样便于和词向量进行单位加的操作（融合两者的信息）：

Self Attention

Attention 的核心内容就是为输入向量的每个单词学习一个权重，例如在下面的例子中，我们判断 it 代指的内容：

The animal didn't cross the street because it was too tired

通过加权之后得到类似下图的情况：

在 self-attention 中，每个单词有3个不同的向量，它们分别是Query（Q），Key向量（K）和Value（V），长度均是64，它们是通过3个不同的权值矩阵由嵌入向量 X 乘以三个不同的权值矩阵 WQ，WK，WV 得到，其中三个矩阵的尺寸也是相同的，均为 512 * 64.

   ![](/wiki/api/attachments.redirect?id=818e8c43-096e-4908-a9a4-1ef3d62324c5) ![](/wiki/api/attachments.redirect?id=5a8c32df-4536-4c08-8534-a52f6a813f16)       ![](/wiki/api/attachments.redirect?id=76da5557-6fac-4c28-a094-e3288092290d)

总的来说，就是：

上面是 Attention 的部分，要注意的是，在 self-attention 中，除了 attention，还有残差网络的 short-cut 结构，目的自然是为了解决深度学习中的退化问题，得到的最终结果如下图：

Multi-Head Attention

Multi-Head Attention 相当于 n 个不同的 self-attention 的集成（ensemble），在这里以 h=8 举例。Multi-Head Attention 的输出分为 5 步：

当然，Multi-Head Attention 中也加入了 short-cut 机制。

Transformer用于选股的优化

经过上面的介绍，大家对Transformer能有个系统一点的认识，由于上述应用于NLP领域的Transformer，结构过于庞大，并且不适用于股票因子数据这样的时序数据，因此，参考相关论文，本文提出了一种简化的适用于股票数据的Transformer结构，其根据时间嵌入的思想构建，能很好的应用于量化选股。下面先来讲解下如何进行时间的嵌入。

时间嵌入

首先，明确下我们模型的输入数据，一个（32，128，5）的三维张量，其由 32 条（batchsize=32）时间序列数据构成，每个序列的长度为 128 天（seq_len=128），每天使用 5 个因子数据。

在处理时间序列数据时，顺序性是必须要考虑的因素。但是，当使用 Transformer 处理时间序列 / 顺序数据时，序列数据会一次同时通过 Transformer，这使得提取时间 / 顺序依赖关系变得困难。因此，将 Transformer 应用于 NLP 时，我们倾向于利用位置编码来向模型提供单词顺序的概念。简单来讲，位置编码是单词在句子中的位置的表示，使Transformer可以获取有关句子结构和单词相互依赖性的知识。其具体的生成方式在上文已经介绍，这里便不再赘述。实践证明使用了位置编码的Transformer模型会拥有更好的效果。

同样，在处理我们的股票因子数据时，Transformer需要时间的概念。没有时间嵌入，我们的Transformer将不会获取到股票因子数据的时间顺序信息。比如，1956年的行情信息对预测2021年的股票涨跌并没有多大帮助。并且，股票因子时序数据不仅包含顺序信息，还包含其特有的时间特性，因此不能简单的把位置编码用于处理时序数据，我们这里使用时间嵌入的方法来获取股票因子数据的时间特征信息。

Time2Vec

为了实现时间嵌入，我们将使用论文：《Time2Vec：Learning a Vector Representation of Time》中描述的方法。文中提出一种“对于时间的模型无关向量表示，叫做Time2Vector”。你可以认为一个该向量表示，就像一层普通的 embedding layer 一样，可以被添加到神经网络结构来提高一个模型的性能。

这篇论文主要有两个思想：

作者发现时间有意义的表示必须包括周期性和非周期性两个模式。周期性模式的一个例子就是每年不同季节的天气变化。相反，病毒传播就是一个非周期性的事件。
时间表示应该对时间缩放具有不变性，这意味着时间表示不受不同时间增量的影响。结合周期性和非周期性模式的思想以及时间缩放的不变性，我们通过以下数学定义来表示：

时间向量 t2v 由两部分取得，其中 ωᵢτ + φᵢ 表示时间向量的非周期/线性特征， F(ωᵢτ + φᵢ) 表示时间向量的周期性特征。 ωᵢτ + φᵢ 是时间向量的线性函数。第二部分 F(ωᵢτ + φᵢ) 代表时间向量的周期性特征。其中 ωᵢτ + φᵢ 和第一部分一样代表时间向量的线性函数，然后将其输入给添加的函数 F()，作者尝试了不同的 F() 以最好地描述周期性关系（sigmoid，tanh，ReLU，mod，triangle等）。最后，正弦函数获得了最佳和最稳定的性能（余弦得到了类似的结果）。

股票数据的Transformer结构

给输入数据加上时间特征

在实现时间嵌入之后，我们给输入数据加上时间向量作为我们的Transformer的输入。所述 Time2Vector 层接收输入数据，计算非周期和周期时间向量并拼接。然后，将计算出的时间向量与因子向量连接起来，形成（32, 128, 7）的矩阵，具体过程如下：

Self-Attention层

本层有三个输入 (Query, Key, Value)，三个输入均为上一步得到的输入矩阵，然后分别输入三个分隔的Dense Layer，其有96个神经元，对因子时间向量进行embedding，得到的输出矩阵分别用 q，k，v 表示，大小均为(32, 128, 96),如下图所示：

初始线性转换后，我们将计算注意力得分。注意力得分决定了在预测未来股价时将注意力集中在各个时间序列上的程度。注意力得分是通过 k 和 q 的点积来计算得到的，即 q 矩阵乘 k 的转置的。然后，将点积除以Dense Layer的大小的开方，以避免梯度爆炸。相除的点积将通过 softmax 函数生成一组权重，这些权重之和为1，该权重即为各个时间点在的注意力得分。最后，将等到的注意力得分矩阵与 v 矩阵相乘，得出自注意力层的输出。过程如下图所示：

Multi-Head Attention 层

多头注意力层的功能是拼接 n 个单头注意力层，然后输出到Dense Layer进行非线性变换。下图显示了3个单头自注意力层的串联。具有多头自注意力机制允许将多个独立的单头层输出作为输入。因此，该模型能够一次关注多个时间序列步骤。注意力头数量的增加会加强模型捕获远程依赖关系的能力。

编码器

每个编码器层都包含一个自注意力子层和一个前馈子层。前馈子层由两个Dense Layer组成，中间有ReLU激活。每个子层后面都有一个子层，每两个子层之间通过将初始Query输入添加到上一个子层的输出中来形成残差连接，然后接入归一化层，以加速训练过程。如下图所示：

以上便是Transformer层，我们可以轻松的对其进行堆叠以提高模型的性能。

总体结构

总之，我们首先初始化时间嵌入层以及3个Transformer层。初始化之后，我们将回归头（输出大小为1的Dense Layer）堆叠到最后一个子层，然后开始训练过程。

可视化实现Transformer

Transformer的底层逻辑确实比较复杂，但是在实际使用中，只要能够理解其大致原理和关键参数，通过调用平台上相关的各种可视化模块，便能省时省力地构建深度学习网络，从而将精力更多地放在策略逻辑优化上。下面，我们将以一个可视化实例展现如何通过Transformer模型进行选股，这里的Transformer模型采用的是上述所介绍的架构。

如图所示，Transformer选股策略构建包含下列步骤：

获取数据：A股所有股票；
特征和标签提取：计算7个因子作为样本特征，计算5日个股收益率，极值处理；
特征预处理：进行缺失值处理；去掉特征异常的股票，比如某个特征值高于99.5%或低于0.5%的；标准化处理，去除特征量纲/数量级差异的影响；
序列窗口滚动：窗口大小设置为5，滚动切割。这里的意思是使用过去5天的因子数据作为输入。窗口大小可调整，在“序列窗口滚动”模块中进行；
搭建Transformer模型：构建单头注意力层的Transformer模型预测股票收益率（keras代码方式构建）；
模型训练与预测：使用Transformer模型进行训练和预测；
策略回测：利用2010到2016年数据进行训练，预测2016到2019年的股票表现。每日买入预测排名最靠的30只股票，至少持有5日，同时淘汰排名靠后的股票。具体而言，预测排名越靠前，分配到的资金越多且最大资金占用比例不超过20%；初始5日平均分配资金，之后，尽量使用剩余资金（这里设置最多用等量的1.5倍）；
模型评价：查看模型回测结果。

Transformer模型的参数如下：

输入数据：2个因子，使用了过去5天的因子数据，因此输入是一个三维张量（batch_size, 5, 2）；
Transformer层：Time2Vec层权重和偏置向量均采用glorot_uniform初始化方式初始化，自注意力层3个输入Dense Layer大小均为100，自注意力头数为1，编码器Dense Layer隐藏层的大小为256、激活函数为：relu，Layer归一化层的epsilon为1e-6；
全连接层：激活函数tanh。权重使用glorot_uniform初始化方法，偏置向量使用Zeros初始化方法；
输出层：最后一个全连接层。需要选择“输出空间维度”为1，因为要得到个股的收益率预测结果，这是一个值；
随机断开输入神经元比例dropout ：0.1。在不同隐藏层之间使用dropout可以让网络更耐用并且避免过拟合；
训练次数率：epochs值为5，共训练5轮，以mae、mape作为评估指标；
优化器：Adam；
损失函数：均方误差MSE。

策略模板

欢迎大家来BigQuant构建Transformer策略：

BigQuant人工智能量化投资交易平台

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Apify加载Twitter消息以进行微调的完整指南 nseejrukjhad twitter easyui 前端 python
#使用Apify加载Twitter消息以进行微调的完整指南##引言在自然语言处理领域，微调模型以适应特定任务是提升模型性能的常见方法。本文将介绍如何使用Apify从Twitter导出聊天信息，以便进一步进行微调。##主要内容###使用Apify导出推文首先，我们需要从Twitter导出推文。Apify可以帮助我们做到这一点。通过Apify的强大功能，我们可以批量抓取和导出数据，适用于各类应用场景。
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
自然语言处理_tf-idf _feivirus_ 算法机器学习和数学自然语言处理 tf-idf 逆文档频率词频
importpandasaspdimportmath1.数据预处理docA="Thecatsatonmyface"docB="Thedogsatonmybed"wordsA=docA.split("")wordsB=docB.split("")wordsSet=set(wordsA).union(set(wordsB))print(wordsSet){'on','my','face','sat',
BART&BERT Ambition_LAO 深度学习
BART和BERT都是基于Transformer架构的预训练语言模型。模型架构：BERT(BidirectionalEncoderRepresentationsfromTransformers)主要是一个编码器（Encoder）模型，它使用了Transformer的编码器部分来处理输入的文本，并生成文本的表示。BERT特别擅长理解语言的上下文，因为它在预训练阶段使用了掩码语言模型（MLM）任务，即
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI论文题目生成器怎么用？9款论文写作网站简单3步搞定小猪包333 写论文人工智能深度学习计算机视觉
在当今信息爆炸的时代，AI写作工具的出现极大地提高了写作效率和质量。本文将详细介绍9款优秀的论文写作网站，并重点推荐千笔-AIPassPaper。一、千笔-AIPassPaper千笔-AIPassPaper是一款功能强大的AI论文生成器，基于最新的自然语言处理技术，能够一键生成高质量的毕业论文、开题报告等文本内容。它不仅提供智能选题、文献推荐和论文润色等功能，还具有较高的用户评价。其文献综述生成功
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
轻量级模型解读——轻量transformer系列 lishanlu136 #图像分类轻量级模型 transformer 图像分类
先占坑，持续更新。。。文章目录1、DeiT2、ConViT3、Mobile-Former4、MobileViTTransformer是2017谷歌提出的一篇论文，最早应用于NLP领域的机器翻译工作，Transformer解读，但随着2020年DETR和ViT的出现(DETR解读，ViT解读)，其在视觉领域的应用也如雨后春笋般渐渐出现，其特有的全局注意力机制给图像识别领域带来了重要参考。但是tran
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
FlagEmbedding 吉小雨 python库 python
FlagEmbedding教程FlagEmbedding是一个用于生成文本嵌入（textembeddings）的库，适合处理自然语言处理（NLP）中的各种任务。嵌入（embeddings）是将文本表示为连续向量，能够捕捉语义上的相似性，常用于文本分类、聚类、信息检索等场景。官方文档链接：FlagEmbedding官方GitHub一、FlagEmbedding库概述1.1什么是FlagEmbeddi
深度学习-点击率预估-研究论文2024-09-14速读 sp_fyf_2024 深度学习人工智能
深度学习-点击率预估-研究论文2024-09-14速读1.DeepTargetSessionInterestNetworkforClick-ThroughRatePredictionHZhong,JMa,XDuan,SGu,JYao-2024InternationalJointConferenceonNeuralNetworks,2024深度目标会话兴趣网络用于点击率预测摘要：这篇文章提出了一种新
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
损失函数与反向传播 Star_. PyTorch pytorch 深度学习 python
损失函数定义与作用损失函数(lossfunction)在深度学习领域是用来计算搭建模型预测的输出值和真实值之间的误差。1.损失函数越小越好2.计算实际输出与目标之间的差距3.为更新输出提供依据（反向传播)常见的损失函数回归常见的损失函数有：均方差（MeanSquaredError，MSE）、平均绝对误差（MeanAbsoluteErrorLoss，MAE）、HuberLoss是一种将MSE与MAE
探索创新科技： Lite-Mono - 简约高效的小型化Mono框架杭律沛Meris
探索创新科技：Lite-Mono-简约高效的小型化Mono框架Lite-Mono[CVPR2023]Lite-Mono:ALightweightCNNandTransformerArchitectureforSelf-SupervisedMonocularDepthEstimation项目地址:https://gitcode.com/gh_mirrors/li/Lite-Mono如果你在寻找一个轻
【深度学习】训练过程中一个OOM的问题，太难查了 weixin_40293999 深度学习深度学习人工智能
现象：各位大佬又遇到过ubuntu的这个问题么？现象是在训练过程中，ssh上不去了，能ping通，没死机，但是ubunutu的pc侧的显示器，鼠标啥都不好用了。只能重启。问题原因：OOM了95G，尼玛！！！！pytorch爆内存了，然后journald假死了，在journald被watchdog干掉之后，系统就崩溃了。这种规模的爆内存一般，即使被oomkill了，也要卡半天的，确实会这样，能不能配
Humanize 项目教程尤嫒冰
Humanize项目教程humanizeAJSlibraryforaddinga“humantouch”todata.项目地址:https://gitcode.com/gh_mirrors/humani/humanize项目介绍Humanize是一个开源项目，旨在将机器生成的文本转换为更加自然、人性化的文本。该项目通过先进的算法和自然语言处理技术，使得AI生成的内容更加贴近人类的表达方式，从而提高
全自动解密解码神器 — Ciphey K'illCode python_模块 python vscode
Ciphey是一个使用自然语言处理和人工智能的全自动解密/解码/破解工具。简单地来讲，你只需要输入加密文本，它就能给你返回解密文本。就是这么牛逼。有了Ciphey，你根本不需要知道你的密文是哪种类型的加密，你只知道它是加密的，那么Ciphey就能在3秒甚至更短的时间内给你解密，返回你想要的大部分密文的答案。下面就给大家介绍Ciphey的实战使用教程。1.准备开始之前，你要确保Python和pip已
解决BERT模型bert-base-chinese报错（无法自动联网下载）搬砖修狗 bert 人工智能深度学习 python
一、下载问题hugging-face是访问BERT模型的最初网站，但是目前hugging-face在中国多地不可达，在代码中涉及到该网站的模型都会报错，本文我们就以bert-base-chinese报错为例，提供一个下载到本地的方法来解决问题。二、网站google-bert(BERTcommunity)Thisorganizationismaintainedbythetransformerstea
CV、NLP、数据控掘推荐、量化海的那边- AI算法自然语言处理人工智能
下面是对CV（计算机视觉）、NLP（自然语言处理）、数据挖掘推荐和量化的简要概述及其应用领域的介绍：1.CV（计算机视觉，ComputerVision）定义：计算机视觉是一门让计算机能够从图像或视频中提取有用信息，并做出决策的学科。它通过模拟人类的视觉系统来识别、处理和理解视觉信息。主要任务：图像分类：识别图像中的物体并分类，比如猫、狗、车等。目标检测：在图像或视频中定位并识别多个对象，如人脸检测
深度解析：如何使用输出解析器将大型语言模型（LLM）的响应解析为结构化JSON格式 m0_57781768 语言模型 json 人工智能
深度解析：如何使用输出解析器将大型语言模型（LLM）的响应解析为结构化JSON格式在现代自然语言处理（NLP）的应用中，大型语言模型（LLM）已经成为了重要的工具。这些模型能够生成丰富的自然语言文本，适用于各种应用场景。然而，在某些应用中，开发者不仅仅需要生成文本，还需要将这些生成的文本转换为结构化的数据格式，例如JSON。这种结构化的数据格式在数据传输、存储以及进一步处理时具有显著优势。本文将深
深入探讨：如何在Python中通过LangChain技术精准追踪大型语言模型（LLM）的Token使用情况 m0_57781768 python langchain 语言模型
深入探讨：如何在Python中通过LangChain技术精准追踪大型语言模型（LLM）的Token使用情况在现代的人工智能开发中，大型语言模型（LLM）已经成为了不可或缺的工具，无论是用于自然语言处理、对话生成，还是其他复杂的文本生成任务。然而，随着这些模型的广泛应用，开发者面临的一个重要挑战是如何有效地追踪和管理Token的使用情况，特别是在生产环境中，Token的使用直接影响着API调用的成本
使用最大边际相关性(MMR)选择示例：提高AI模型的多样性和相关性 aehrutktrjk 人工智能 easyui 前端 python
使用最大边际相关性(MMR)选择示例：提高AI模型的多样性和相关性引言在机器学习和自然语言处理领域，选择合适的训练示例对模型性能至关重要。最大边际相关性(MaximalMarginalRelevance,MMR)是一种优秀的示例选择方法，它不仅考虑了示例与输入的相关性，还注重保持所选示例之间的多样性。本文将深入探讨如何使用MMR来选择示例，以提高AI模型的性能和泛化能力。什么是最大边际相关性(MM
Java实现的基于模板的网页结构化信息精准抽取组件：HtmlExtractor yangshangchuan 信息抽取 HtmlExtractor 精准抽取信息采集
HtmlExtractor是一个Java实现的基于模板的网页结构化信息精准抽取组件，本身并不包含爬虫功能，但可被爬虫或其他程序调用以便更精准地对网页结构化信息进行抽取。 HtmlExtractor是为大规模分布式环境设计的，采用主从架构，主节点负责维护抽取规则，从节点向主节点请求抽取规则，当抽取规则发生变化，主节点主动通知从节点，从而能实现抽取规则变化之后的实时动态生效。如
java编程思想 -- 多态百合不是茶 java 多态详解
一: 向上转型和向下转型面向对象中的转型只会发生在有继承关系的子类和父类中（接口的实现也包括在这里）。父类：人子类：男人向上转型： Person p = new Man() ; //向上转型不需要强制类型转化向下转型： Man man =
[自动数据处理]稳扎稳打,逐步形成自有ADP系统体系 comsci dp
对于国内的IT行业来讲,虽然我们已经有了"两弹一星",在局部领域形成了自己独有的技术特征,并初步摆脱了国外的控制...但是前面的路还很长.... 首先是我们的自动数据处理系统还无法处理很多高级工程...中等规模的拓扑分析系统也没有完成,更加复杂的
storm 自定义日志文件商人shang storm cluster logback
Storm中的日志级级别默认为INFO，并且，日志文件是根据worker号来进行区分的，这样，同一个log文件中的信息不一定是一个业务的，这样就会有以下两个需求出现： 1. 想要进行一些调试信息的输出 2. 调试信息或者业务日志信息想要输出到一些固定的文件中不要怕，不要烦恼，其实Storm已经提供了这样的支持，可以通过自定义logback 下的 cluster.xml 来输
Extjs3 SpringMVC使用 @RequestBody 标签问题记录 21jhf
springMVC使用 @RequestBody(required = false) UserVO userInfo 传递json对象数据，往往会出现http 415，400,500等错误，总结一下需要使用ajax提交json数据才行，ajax提交使用proxy，参数为jsonData，不能为params；另外，需要设置Content-type属性为json，代码如下：（由于使用了父类aaa
一些排错方法文强chu 方法
1、java.lang.IllegalStateException: Class invariant violation at org.apache.log4j.LogManager.getLoggerRepository(LogManager.java:199)at org.apache.log4j.LogManager.getLogger(LogManager.java:228) at o
Swing中文件恢复我觉得很难小桔子 swing
我那个草了！老大怎么回事，怎么做项目评估的？只会说相信你可以做的，试一下，有的是时间！用java开发一个图文处理工具，类似word，任意位置插入、拖动、删除图片以及文本等。文本框、流程图等，数据保存数据库，其余可保存pdf格式。ok,姐姐千辛万苦，
php 文件操作 aichenglong PHP 读取文件写入文件
1 写入文件 @$fp=fopen("$DOCUMENT_ROOT/order.txt", "ab"); if(!$fp){ echo "open file error" ; exit; } $outputstring="date:"." \t tire:".$tire."
MySQL的btree索引和hash索引的区别 AILIKES 数据结构 mysql 算法
Hash 索引结构的特殊性，其检索效率非常高，索引的检索可以一次定位，不像B-Tree 索引需要从根节点到枝节点，最后才能访问到页节点这样多次的IO访问，所以 Hash 索引的查询效率要远高于 B-Tree 索引。可能很多人又有疑问了，既然 Hash 索引的效率要比 B-Tree 高很多，为什么大家不都用 Hash 索引而还要使用 B-Tree 索引呢
JAVA的抽象--- 接口 --实现百合不是茶
抽象接口实现接口 //抽象类 ,方法 //定义一个公共抽象的类 ,并在类中定义一个抽象的方法体抽象的定义使用abstract abstract class A 定义一个抽象类例如： //定义一个基类 public abstract class A{ //抽象类不能用来实例化，只能用来继承 //
JS变量作用域实例 bijian1013 作用域
<script> var scope='hello'; function a(){ console.log(scope); //undefined var scope='world'; console.log(scope); //world console.log(b);
TDD实践（二） bijian1013 java TDD
实践题目：分解质因数 Step1：单元测试： package com.bijian.study.factor.test; import java.util.Arrays; import junit.framework.Assert; import org.junit.Before; import org.junit.Test; import com.bijian.
[MongoDB学习笔记一]MongoDB主从复制 bit1129 mongodb
MongoDB称为分布式数据库，主要原因是1.基于副本集的数据备份， 2.基于切片的数据扩容。副本集解决数据的读写性能问题，切片解决了MongoDB的数据扩容问题。事实上，MongoDB提供了主从复制和副本复制两种备份方式，在MongoDB的主从复制和副本复制集群环境中，只有一台作为主服务器，另外一台或者多台服务器作为从服务器。本文介绍MongoDB的主从复制模式，需要指明
【HBase五】Java API操作HBase bit1129 hbase
import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apache.hadoop.hbase.HColumnDescriptor; import org.apache.ha
python调用zabbix api接口实时展示数据 ronin47
zabbix api接口来进行展示。经过思考之后，计划获取如下内容： 1、获得认证密钥 2、获取zabbix所有的主机组 3、获取单个组下的所有主机 4、获取某个主机下的所有监控项
jsp取得绝对路径 byalias 绝对路径
在JavaWeb开发中，常使用绝对路径的方式来引入JavaScript和CSS文件，这样可以避免因为目录变动导致引入文件找不到的情况，常用的做法如下：一、使用${pageContext.request.contextPath} 　　代码” ${pageContext.request.contextPath}”的作用是取出部署的应用程序名，这样不管如何部署，所用路径都是正确的。
Java定时任务调度：用ExecutorService取代Timer bylijinnan java
《Java并发编程实战》一书提到的用ExecutorService取代Java Timer有几个理由，我认为其中最重要的理由是：如果TimerTask抛出未检查的异常，Timer将会产生无法预料的行为。Timer线程并不捕获异常，所以 TimerTask抛出的未检查的异常会终止timer线程。这种情况下，Timer也不会再重新恢复线程的执行了;它错误的认为整个Timer都被取消了。此时，已经被
SQL 优化原则 chicony sql
一、问题的提出　在应用系统开发初期，由于开发数据库数据比较少，对于查询SQL语句，复杂视图的的编写等体会不出SQL语句各种写法的性能优劣，但是如果将应用系统提交实际应用后，随着数据库中数据的增加，系统的响应速度就成为目前系统需要解决的最主要的问题之一。系统优化中一个很重要的方面就是SQL语句的优化。对于海量数据，劣质SQL语句和优质SQL语句之间的速度差别可以达到上百倍，可见对于一个系统
java 线程弹球小游戏 CrazyMizzz java 游戏
最近java学到线程，于是做了一个线程弹球的小游戏，不过还没完善这里是提纲 1.线程弹球游戏实现 1.实现界面需要使用哪些API类 JFrame JPanel JButton FlowLayout Graphics2D Thread Color ActionListener ActionEvent MouseListener Mouse
hadoop jps出现process information unavailable提示解决办法 daizj hadoop jps
hadoop jps出现process information unavailable提示解决办法 jps时出现如下信息： 3019 -- process information unavailable3053 -- process information unavailable2985 -- process information unavailable2917 --
PHP图片水印缩放类实现 dcj3sjt126com PHP
<?php class Image{ private $path; function __construct($path='./'){ $this->path=rtrim($path,'/').'/'; } //水印函数，参数：背景图，水印图，位置，前缀,TMD透明度 public function water($b,$l,$pos
IOS控件学习：UILabel常用属性与用法 dcj3sjt126com ios UILabel
参考网站： http://shijue.me/show_text/521c396a8ddf876566000007 http://www.tuicool.com/articles/zquENb http://blog.csdn.net/a451493485/article/details/9454695 http://wiki.eoe.cn/page/iOS_pptl_artile_281
完全手动建立maven骨架 eksliang java eclipse Web
建一个 JAVA 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=App [-Dversion=0.0.1-SNAPSHOT] [-Dpackaging=jar] 建一个 web 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=web-a
配置清单 gengzg 配置
1、修改grub启动的内核版本 vi /boot/grub/grub.conf 将default 0改为1 拷贝mt7601Usta.ko到/lib文件夹拷贝RT2870STA.dat到 /etc/Wireless/RT2870STA/文件夹拷贝wifiscan到bin文件夹，chmod 775 /bin/wifiscan 拷贝wifiget.sh到bin文件夹，chm
Windows端口被占用处理方法 huqiji windows
以下文章主要以80端口号为例，如果想知道其他的端口号也可以使用该方法..........................1、在windows下如何查看80端口占用情况?是被哪个进程占用?如何终止等. 这里主要是用到windows下的DOS工具,点击"开始"--"运行",输入&
开源ckplayer 网页播放器，跨平台(html5, mobile)，flv, f4v, mp4, rtmp协议. webm, ogg, m3u8 ！天梯梦 mobile
CKplayer，其全称为超酷flv播放器，它是一款用于网页上播放视频的软件，支持的格式有：http协议上的flv,f4v,mp4格式，同时支持rtmp视频流格式播放，此播放器的特点在于用户可以自己定义播放器的风格，诸如播放/暂停按钮，静音按钮，全屏按钮都是以外部图片接口形式调用，用户根据自己的需要制作出播放器风格所需要使用的各个按钮图片然后替换掉原始风格里相应的图片就可以制作出自己的风格了，
简单工厂设计模式 hm4123660 java 工厂设计模式简单工厂模式
简单工厂模式（Simple Factory Pattern）属于类的创新型模式，又叫静态工厂方法模式。是通过专门定义一个类来负责创建其他类的实例，被创建的实例通常都具有共同的父类。简单工厂模式是由一个工厂对象决定创建出哪一种产品类的实例。简单工厂模式是工厂模式家族中最简单实用的模式，可以理解为是不同工厂模式的一个特殊实现。
maven笔记 zhb8015 maven
跳过测试阶段： mvn package -DskipTests 临时性跳过测试代码的编译： mvn package -Dmaven.test.skip=true maven.test.skip同时控制maven-compiler-plugin和maven-surefire-plugin两个插件的行为，即跳过编译，又跳过测试。指定测试类 mvn test
非mapreduce生成Hfile，然后导入hbase当中 Stark_Summer map hbase reduce Hfile path实例
最近一个群友的boss让研究hbase，让hbase的入库速度达到5w+/s，这可愁死了，4台个人电脑组成的集群，多线程入库调了好久，速度也才1w左右，都没有达到理想的那种速度，然后就想到了这种方式，但是网上多是用mapreduce来实现入库，而现在的需求是实时入库，不生成文件了，所以就只能自己用代码实现了，但是网上查了很多资料都没有查到，最后在一个网友的指引下，看了源码，最后找到了生成Hfile
jsp web tomcat 编码问题王新春 tomcat jsp pageEncode
今天配置jsp项目在tomcat上，windows上正常，而linux上显示乱码，最后定位原因为tomcat 的server.xml 文件的配置，添加 URIEncoding 属性： <Connector port="8080" protocol="HTTP/1.1" connectionTi