神洛华

学习笔记八：transformer面试点

文章目录

- 零、基础知识
- - 0.1 线性变换
  - 0.2 点积、内积、外积、余弦相似度、投影（有空补）
- 一、transformer
- - 1.1 为啥FFNN第一层将向量扩维到4倍
  - 1.2 注意力机制是为了解决什么问题而提出来的？
  - 1.3 为什么输入X要经过权重矩阵变换得到QKV向量？为啥不直接用X运算？
  - 1.3不考虑多头的原因，self-attention中词向量不乘QKV参数矩阵，会有什么问题？
  - 1.4 transformer中为啥要有那么多dropout？
  - 1.5 NLP 中的Mask全解
  - 1.6 Self-Attention 的时间复杂度是怎么计算的？
  - 1.7 Transformer在哪里做了权重共享，为什么可以做权重共享？
  - 1.8 为什么FFNN有两层，先升维再降维？
- 二、BERT
- - 2.1 BERT的三个Embedding直接相加会对语义有影响吗？
  - 2.2 为何选[CLS]做整个句子的表征？
  - 2.3 3、使用BERT预训练模型为什么最多只能输入512个词，最多只能两个句子合成一句？
  - 2.3 Bert 如何解决长文本问题？
- 三、GPT
- 四、模型实现
- - 4.1 weight decay 是什么？
  - 4.2 模型初始化：

零、基础知识

0.1 线性变换

变换：从数值意义上，变换即函数。一个变换，其实就是一个函数f(x)，输入为x，在通过这个函数之后就变成了y对，那么这个从输入到输出的转变过程就是所谓的变换。
线性变换：线性变换就是一阶导数为常数的函数，譬如y=kx。当k为常数时，易得满足同质性f(ka)=kf(a)，当k为一个矩阵时，易得满足可加性f(a+b)=f(a)+f(b)。同质性和可加性又称为线性条件，满足该条件则为线性变换（在平面上画出来是一条直线），反之则为非线性变换。

0.2 点积、内积、外积、余弦相似度、投影（有空补）

参考帖子《带你一次搞懂点积（内积）、叉积（外积）》、

设两个向量 $\underset{a}{\rightarrow}=(x_{1},y_{1},z_{1})$ 和 $\underset{b}{\rightarrow}=(x_{2},y_{2},z_{2})$ 。

内积（点积、数量积）：numpy中使用np.dot，对应元素相乘相加，结果是一个标量。几何意义是 $\underset{a}{\rightarrow}$ 在 $\underset{b}{\rightarrow}$ 上的投影：
$\mathbf{A\otimes B=\underset{a}{\rightarrow}\cdot \underset{b}{\rightarrow}=\left | \underset{a}{\rightarrow} \right |*\left | \underset{b}{\rightarrow} \right |*cos\theta} =x_{1}x_{2}+y_{1}y_{2}+z_{1}z_{2}$
外积（向量积、叉积Cross product)：numpy中使用np.cross，是 $\underset{a}{\rightarrow}$ 和 $\underset{b}{\rightarrow}$ 的法向量，该向量垂直于 $\underset{a}{\rightarrow}$ 和 $\underset{b}{\rightarrow}$ 构成的平面。

3. 普通乘积：numpy中使用np.multiply或*。对应元素相乘，结果还是向量。
$A\odot B\underset{a}{\rightarrow}*\underset{b}{\rightarrow}={x_{1}x_{2},y_{1}y_{2},z_{1}z_{2}}$

>>> arr1 = np.array([1,2,3])
>>> arr2 = np.array([2,3,4])
# 外积
>>> outerx = np.outer(arr1,arr2)
>>> outerx
array([[ 2,  3,  4],
       [ 4,  6,  8],
       [ 6,  9, 12]])
# 内积
>>> dotx = np.dot(arr1,arr2)
>>> dotx
20
# 张量积
>>> kronx = np.kron(arr1,arr2)
>>> kronx
array([ 2,  3,  4,  4,  6,  8,  6,  9, 12])
# 对应元素乘积
>>> mul = a * b
>>> mul
array([1, 4, 9])

一、transformer

《深度学习之注意力机制（Attention Mechanism）和Seq2Seq》

1.1 为啥FFNN第一层将向量扩维到4倍

个人理解，类似于“特征组合器”，增大神经元个数，增强Transformer对于distributed的文本特征的组合能力，从而获取更多、更复杂的语义信息。

1.2 注意力机制是为了解决什么问题而提出来的？

注意力机制（Attention Mechanism）是在计算能力有限的情况下，将计算资源分配给更重要的任务，同时解决信息超载问题的一种资源分配方案
在神经网络学习中，一般而言模型的参数越多则模型的表达能力越强，模型所存储的信息量也越大，但这会带来信息过载的问题。那么通过引入注意力机制，在众多的输入信息中聚焦于对当前任务更为关键的信息，降低对其他信息的关注度，甚至过滤掉无关信息，就可以解决信息过载问题，并提高任务处理的效率和准确性。

这就类似于人类的视觉注意力机制，通过扫描全局图像，获取需要重点关注的目标区域，而后对这一区域投入更多的注意力资源，获取更多与目标有关的细节信息，而忽视其他无关信息。通过这种机制可以利用有限的注意力资源从大量信息中快速筛选出高价值的信息。

1.3 为什么输入X要经过权重矩阵变换得到QKV向量？为啥不直接用X运算？

1.3不考虑多头的原因，self-attention中词向量不乘QKV参数矩阵，会有什么问题？

这两个问题是一个答案：

如果直接用输入X进行计算，则X同时承担了三种角色：査询( Query )键( Key )和值( Value )，导致其不容易学习。
更好的做法是,对不同的角色使用不同的向量。即使用不同的参数矩阵对原始的输人向量做线性变换,从而让不同的变换结果承担不同的角色。
如果Q=K=V，点积后softmax后的加权平均中，该词本身所占的比重将会是最大的，使得其他词的比重很少，无法有效利用上下文信息来增强当前词的语义表示。

1.4 transformer中为啥要有那么多dropout？

dropout官方文档
dropout是随机对最后一维的元素，以一定比例替换为0，是一种正则手段，为了防止过拟合。

1.5 NLP 中的Mask全解

参考：《NLP 中的Mask全解》
《XLNet 中神奇的 Attention Mask》
《Transformer相关——（7）Mask机制》

1.6 Self-Attention 的时间复杂度是怎么计算的？

Self-Attention时间复杂度： $O(n^2,d)$ ，这里，n是序列的长度，d是embedding的维度。
再分析一下Multi-Head Attention，它的作用类似于CNN中的多核。多头的实现不是循环的计算每个头，而是通过 transposes and reshapes，用矩阵乘法来完成的。

Transformer/BERT中把 d ，也就是hidden_size/embedding_size这个维度做了reshape拆分，pytorch源码：hidden_size (d) = num_attention_heads (m) * attention_head_size (a)，也即 d=m*a。

并将 num_attention_heads 维度transpose到前面，使得Q和K的维度都是(m,n,a)，这里不考虑batch维度。
这样点积可以看作大小为(m,n,a)和(m,a,n)的两个张量相乘，得到一个(m,n,n)的矩阵，其实就相当于(n,a)和(a,n)的两个矩阵相乘，做了m次，时间复杂度是 $O(n^2\cdot m\cdot a)=O(n^2\cdot d)$

1.7 Transformer在哪里做了权重共享，为什么可以做权重共享？

1.8 为什么FFNN有两层，先升维再降维？

Self-Attention模型的作用是提取语义级别的信息（不存在长距离依赖），而FFNN是在各个时序上对特征进行非线性变换，提高网络表达能力。
FFNN有两层，是将attention层输出先扩维4倍再降维。为什么这么做？神经网络中线性连接可以写成 $d^l=W^{l}\cdot x$ 。其中三者维度分别是m×1、m×n、n×1。

m>n：升维，将特征进行各种类型的特征组合，提高模型分辨能力
m 所以一般神经网络都是先做宽再做窄。
Transformer在两个地方进行了权重共享：

词表共享：Encoder和Decoder间的Embedding层权重共享；
Decoder中Embedding层和FC层权重共享。

对于1，《Attention is all you need》中Transformer做在机器翻译时，源语言和目标语言是不一样的，但它们可以共用一张大词表，对于两种语言中共同出现的词（比如：数字，标点等或者一些相同的subword等）可以得到更好的表示。而且对于Encoder和Decoder，嵌入时都只有对应语言的embedding会被激活，因此是可以共用一张词表做权重共享的。

Transformer词表用了bpe来处理，所以最小的单元是subword。英语和德语同属日耳曼语族，有很多相同的subword，可以共享类似的语义。而像中英这样相差较大的语系，语义共享作用可能不会很大。

但是，共用词表会使得词表数量增大，增加softmax的计算时间，因此实际使用中是否共享可能要根据情况权衡。

对于2，Embedding层可以说是通过onehot去取到对应的embedding向量，FC层可以说是相反的，通过embedding（定义为 x）去得到它可能是某个词的softmax概率，取概率最大（贪婪情况下）的作为预测值。（类似于embedding求最大的一个onehot）

在FC层的每一行量级相同的前提下，理论上和 x 相同的那一行对应的点积和softmax概率会是最大的（可类比本文问题1）。

因此，Embedding层和FC层权重共享，Embedding层中和向量 x 最接近的那一行对应的词，会获得更大的预测概率。实际上，Decoder中的Embedding层和FC层有点像互为逆过程。

通过这样的权重共享可以减少参数的数量，加快收敛。

Embedding层参数维度是：(v,d)，FC层参数维度是：(d,v)。其中v是词表大小，d是embedding维度。

fc = nn.Linear(d, v, bias=False)    # Decoder FC层定义

weight = Parameter(torch.Tensor(out_features, in_features))   # Linear层权重定义

Linear 层的权重定义中，是按照 (out_features, in_features) 顺序来的，实际计算会先将 weight 转置在乘以输入矩阵。所以 FC层对应的 Linear 权重维度也是 (v,d)，可以直接共享。

二、BERT

2.1 BERT的三个Embedding直接相加会对语义有影响吗？

原帖子在这

这是一个非常有意思的问题，苏剑林老师也给出了回答，真的很妙啊：

Embedding的数学本质，就是以one hot为输入的单层全连接，也就是说，世界上本没什么Embedding，有的只是one hot。我们将token,position,segment三者都用one hot表示，然后concat起来，然后才去过一个单层全连接，等价的效果就是三个Embedding相加。原文链接：词向量与Embedding究竟是怎么回事？

在这里想用一个例子再尝试解释一下：

假设 token Embedding 矩阵维度是 [4,768]；position Embedding 矩阵维度是 [3,768]；segment Embedding 矩阵维度是 [2,768]。假设它的 token one-hot 是[1,0,0,0]；它的 position one-hot 是[1,0,0]；它的 segment one-hot 是[1,0]。

那这个字最后的 word Embedding，就是上面三种 Embedding 的加和。如此得到的 word Embedding，和concat后的特征：[1,0,0,0,1,0,0,1,0]，再过维度为 [4+3+2,768] = [9, 768] 的全连接层，得到的向量其实就是一样的。

再换一个角度理解：

直接将三个one-hot 特征 concat 起来得到的 [1,0,0,0,1,0,0,1,0] 不再是one-hot了，但可以把它映射到三个one-hot 组成的特征空间，空间维度是 432=24 ，那在新的特征空间，这个字的one-hot就是[1,0,0,0,0…] (23个0)。

此时，Embedding 矩阵维度就是 [24,768]，最后得到的 word Embedding 依然是和上面的等效，但是三个小Embedding 矩阵的大小会远小于新特征空间对应的Embedding 矩阵大小。

当然，在相同初始化方法前提下，两种方式得到的 word Embedding 可能方差会有差别，但是，BERT还有Layer Norm，会把 Embedding 结果统一到相同的分布。

BERT的三个Embedding相加，本质可以看作一个特征的融合，强大如 BERT 应该可以学到融合后特征的语义信息的。

2.2 为何选[CLS]做整个句子的表征？

因为与文本中已有的其它词相比，这个无明显语义信息的符号会更“公平”地融合文本中各个词的语义信息，从而更好的表示整句话的语义。

具体来说，self-attention是用文本中的其它词来增强目标词的语义表示，但是目标词本身的语义还是会占主要部分的，因此，经过BERT的12层，每次词的embedding融合了所有词的信息，可以去更好的表示自己的语义。

而[CLS]位本身没有语义，经过12层，得到的是attention后所有词的加权平均，相比其他正常词，可以更好的表征句子语义。

当然，也可以通过对最后一层所有词的embedding做pooling去表征句子语义。

get_pooled_out()，就是上述[CLS]的表示，输出shape是[batch size,hidden size]。
get_sequence_out()，获取的是整个句子每一个token的向量表示，输出shape是[batch_size, seq_length, hidden_size]，这里也包括[CLS]，因此在做token级别的任务时要注意

2.3 3、使用BERT预训练模型为什么最多只能输入512个词，最多只能两个句子合成一句？

在BERT中，Token，Position，Segment Embeddings 都是通过学习来得到的，pytorch代码中它们是这样的

self.word_embeddings = Embedding(config.vocab_size, config.hidden_size)
self.position_embeddings = Embedding(config.max_position_embeddings, config.hidden_size)
self.token_type_embeddings = Embedding(config.type_vocab_size, config.hidden_size)

而在BERT config中

"max_position_embeddings": 512
"type_vocab_size": 2

输入最多512个词（还要除掉[CLS]和[SEP]），最多两个句子合成一句。这之外的词和句子会没有对应的embedding。也可以更改 BERT config，设置更大max_position_embeddings 和 type_vocab_size值去满足自己的需求。

2.3 Bert 如何解决长文本问题？

Amazon2019年EMNLP的这篇文章：Multi-passage BERT。主要思路是global norm + passage rank + sliding window。不想切passages就上XLNet。

1.Sliding Window（划窗）：主要见于诸阅读理解任务（如Stanford的SQuAD)。Sliding Window即把文档分成有重叠的若干段，然后每一段都当作独立的文档送入BERT进行处理。最后再对于这些独立文档得到的结果进行整合。Sliding Window可以只用在Training中。因为Test之时不需要Back Propagation，亦不需要large batchsize，因而总有手段将长文本塞进显存中（如torch.nograd, batchsize=1）。

作者：猪猪侠和狗子
链接：https://www.zhihu.com/question/327450789/answer/1024153978
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

三、GPT

四、模型实现

4.1 weight decay 是什么？

weight decay：权值衰减，即L2正则。当有L2正则时：
$\mathbf{Obj=Loss+\frac{\lambda }{2}\sum w_{i^{2}}}$
$\mathbf{w_{i+1}=w_{i}-\frac{\partial Obj}{\partial w_{i}}=w_{i}-\frac{\partial Loss}{\partial w_{i}}-\lambda w_{i}=(1-\lambda )w_{i}-\frac{\partial Loss}{\partial w_{i}}}$
在 PyTorch 中，L2 正则项是在优化器中实现的，在构造优化器时可以传入 weight decay 参数，对应的是公式中的 $\lambda$ 。

net_normal = MLP(neural_num=n_hidden)
net_weight_decay = MLP(neural_num=n_hidden)

optim_normal = torch.optim.SGD(net_normal.parameters(), lr=lr_init, momentum=0.9)
optim_wdecay = torch.optim.SGD(net_weight_decay.parameters(), lr=lr_init, momentum=0.9, weight_decay=1e-2)

使用了 weight decay 的模型虽然在训练集的 loss 更高，但是更加平滑，泛化能力更强。
例子来于《[PyTorch 学习笔记] 6.1 weight decay 和 dropout》

加上了 weight decay 后，随便训练次数的增加，权值的分布逐渐靠近 0 均值附近，这就是 L2 正则化的作用，约束权值尽量靠近 0。

for group in self.param_groups:
            weight_decay = group['weight_decay']
            momentum = group['momentum']
            dampening = group['dampening']
            nesterov = group['nesterov']

            for p in group['params']:
                if p.grad is None:
                    continue
                d_p = p.grad.data
                if weight_decay != 0:
                    d_p.add_(weight_decay, p.data)#函数后面加下划线是原地操作，改变被调用的张量的值
                    ...
                    ...
                    ...
                p.data.add_(-group['lr'], d_p)#根据梯度更新权重

dp 是计算得到的梯度，如果 weight decay 不为 0，那么更新：d_p=d_p+weight_decay×p.data。对应式子： $\left(\frac{\partial L o s s}{\partial w{i}}+\lambda * w_{i}\right)$

4.2 模型初始化：

深度学习模型本身上就是一个个全连接层的嵌套，所以为了使模型最后的输出不至于在初始化阶段就过于“膨胀”或者“退化”，一个想法就是让模型在初始化时能保持模长不变。
正交矩阵是指满足 $W^⊤W=I$ 的矩阵，也就是说它的逆等于转置。正交矩阵的重要意义在于它在变换过程中保持了向量的模长不变
推论：当输出维度m≥输入维度n时，从任意的均值为0、方差为1/m的分布p(x)中独立重复采样出来的m×n矩阵，近似满足 $W^⊤W=I$ （只需要把采样分布的方差改为1/m就好）。

考虑激活函数有：
tanh(x) 在x比较小的时候有tanh(x)≈x，所以可以认为 Xavier初始化直接适用于tanh激活；
relu时可以认为relu(y)会有大约一半的元素被置零，所以模长大约变为原来的 $\frac{1}{\sqrt{2}}$ ，而要保持模长不变，可以让W乘上 $\sqrt{2}$ ，也就是说初始化方差从1/m变成2/m
sigmoid函数：W服从 $U[-\sqrt{\frac{96}{n_{i}+n_{i+1}}},\sqrt{\frac{96}{n_{i}+n_{i+1}}}]$
Relu函数：W服从 $U[-\sqrt{\frac{12}{n_{i}+n_{i+1}}},\sqrt{\frac{12}{n_{i}+n_{i+1}}}]$
Xavier初始化是用“均值为0、方差为1/m的随机分布”初始化。
NTK参数化：用“均值为0、方差为1的随机分布”来初始化，但是将输出结果除以 $\sqrt{m}$ 。高斯过程中被称为“NTK参数化”
NTK参数化能让我们更平等地处理每一个参数，并且比较形象地了解到训练的更新幅度，以便我们更好地调整参数

20230329----重返学习-正则的匹配-同步任务与异步任务方朝端重返学习学习正则表达式 javascript
day-038-thirty-eight-20230329-正则的匹配-同步任务与异步任务正则的匹配字符串正则方法与正则一起使用的字符串方法match捕获letstr="helloAppleoneapple";letreg=/apple/ig;console.log(str.match(reg));replce替换letstr="helloappleoneApple";//默认没有正则，只会替换第
松散比较（PHP）（小迪网络安全笔记~ 1999er 网络安全学习笔记 php web安全笔记网络安全安全
免责声明：本文章仅用于交流学习，因文章内容而产生的任何违法&未授权行为，与文章作者无关！！！附：完整笔记目录~ps：本人小白，笔记均在个人理解基础上整理，若有错误欢迎指正！1.3松散比较（PHP）引子：本章主要介绍一些由PHP自身语言特性可能产生的脆弱性，该内容往往被应用于PHPCTF入门题中，但在PHPWeb开发时也可能被使用。====是php中的比较运算符，用于判断==左右两边的值是否相等。若
交叉熵损失函数（Cross-Entropy Loss）我叫罗泽南深度学习人工智能
原理交叉熵损失函数是深度学习中分类问题常用的损失函数，特别适用于多分类问题。它通过度量预测分布与真实分布之间的差异，来衡量模型输出的准确性。交叉熵的数学公式交叉熵的定义如下：CrossEntroyLoss=−∑i=1Nyi⋅log(y^i)\begin{equation}CrossEntroyLoss=-\sum_{i=1}^{N}y_i\cdotlog(\hat{y}_i)\end{equati
什么是多模态机器学习：跨感知融合的智能前沿非凡暖阳人工智能神经网络
在人工智能的广阔天地里，多模态机器学习（MultimodalMachineLearning）作为一项前沿技术，正逐步解锁人机交互和信息理解的新境界。它超越了单一感官输入的限制，通过整合视觉、听觉、文本等多种数据类型，构建了一个更加丰富、立体的认知模型，为机器赋予了接近人类的综合感知与理解能力。本文将深入探讨多模态机器学习的定义、核心原理、关键技术、面临的挑战以及未来的应用前景，旨在为读者勾勒出这一
使用Llama 3.2-Vision多模态LLM与您的图像聊天 AI程序猿人 llama transformer pytorch 深度学习大模型应用人工智能大模型
介绍将视觉能力与大型语言模型（LLMs）结合的多模态LLM（MLLM）正在通过多模态LLM革命性地改变计算机视觉领域。这些模型结合了文本和视觉输入，展示了在图像理解和推理方面的出色能力。虽然这些模型以前只能通过API访问，但最近的开源选项现在允许本地执行，使其在生产环境中更具吸引力。在此教程中，我们将学习如何使用开源的Llama3.2-Vision模型与图像进行聊天，你会对其OCR、图像理解和推理
Kotlin学习之 ---- ? ?: !! 操作符的使用（Kotlin花式空判断） mldxs kotlin kotlin 学习开发语言
目录先抛出个结论：??:的使用方法??:结论：!!的使用方法!!总结：先抛出个结论：?问号修饰，两种使用方式?放在类名后面修饰表示对象可空；?放在对象后修饰，则代表如果对象为空，则不执行后面的代码?:问号冒号修饰符?:放在对象后面，代表如果对象为空，执行?:后面的代码!!叹号修饰符!!放在对象后面，表示即使对象为空我也要往下执行，可能会抛出空指针异常//用于测试的对象返回器classObjectR
谷歌吹响反击号角：2025年Gemini用户目标5亿，AI大战一触即发！ that's boy 人工智能 chatgpt openai AI工具 AI编程 google gemini
人工智能领域的竞争日趋白热化，谷歌CEO桑达·皮采亲自下场，为GeminiAI定下了雄心勃勃的目标：到2025年底，用户突破5亿！面对ChatGPT的强势崛起，谷歌能否成功逆袭？本文将深入剖析谷歌的战略布局、Gemini的技术优势以及未来AI竞争的格局。谷歌的反击：5亿用户的雄心壮志在过去几年，OpenAI凭借ChatGPT的强大实力，几乎垄断了AI领域的聚光灯。谷歌虽然在AI技术研究方面一直处于
新手安装Arkime不求人 OpenSource SIM 开源 Arkime
Arkime（原名Moloch）是一个开源数据包捕获软件，它可以收集到PCAP数据并对其索引，用于浏览和搜索捕获的并建立索引的网络流量。虽说可以在Arkime官方（https://arkime.com/）下载适用于CentOS（rpm）和Ubuntu（deb）的安装包安装。官网也有非常详细的文档资料（https://arkime.com/learn）。然而项目的压力使得我们无法充分学习技术，而且对
Android Wifi模块分析 furuidelei123 android service action 路由器 access 百度
转载自anly_jun这两天通过对Android源码中Wifi模块相关代码的理解，对Wifi模块有了一个全新的认识。简单记录在这里，就算是为以后的学习留个记录。总览：1，Wifi介绍（百度百科）2，Android中Wifi模块的初始化3，Wifi模块的启动（使能）4，Wifi扫描流程5，Wifi配置AP参数流程6，Wifi启动连接流程7，Wifi配置IP地址一：Wifi介绍概述WIFI就是一种无线
AI大模型如何赋能电商行业，引领变革虞书欣的C 人工智能开发语言
•个性化推荐：利用机器学习算法分析用户的历史购买记录、浏览行为和喜好，生成个性化的产品推荐列表，提升用户的购买意愿和满意度。•优化用户体验：•智能搜索引擎：运用自然语言处理技术，优化搜索引擎，让用户能够通过自然语言进行搜索。•虚拟客服：通过聊天机器人和语音助手，提供24/7的客户支持，快速解答用户咨询。•图像识别：利用计算机视觉技术，用户可以通过拍照识别商品，快速找到相似商品或进行排版搭配推荐。•
流量分析利器arkime的学习之路（二）---API接口胖哥王老师流量分析学习笔记网络协议学习 arkime API
前文回忆《流量分析利器arkime的学习之路（一）---安装部署》概述注意点Arkime对所有API调用都使用摘要身份验证，因此请确保在库或curl命令中启用摘要身份验证。学习如何进行API调用的最简单方法是打开浏览器的javascript控制台，观察ArkimeUI正在进行的调用，它使用所有相同的API。注意：许多API端点都需要一个数据库字段名称，这与您在搜索表达式中使用的名称不同。查看数据库
AI大模型引领医疗变革：十大创新应用场景塑造智慧医疗新时代和老莫一起学AI 人工智能自动化数据库学习语言模型大模型
前言在人工智能技术的迅猛发展中，AI大模型以其无与伦比的数据处理能力和深度学习能力，正逐步成为医疗健康领域变革的引领者。本文旨在深入探讨AI大模型在医疗领域的十大创新应用场景，展示其如何显著提升医疗服务效率、赋能临床决策，并推动整个行业向智能化转型。一、智能化诊疗：精准辅助，提升诊断效率AI大模型凭借对海量医疗数据的深度分析，能够协助医生进行更为精准的诊断。例如，百度灵医大模型凭借强大的数据处理能
Android应用开发入门：从Android Studio环境设置到Java编程基础 Python爬虫项目移动开发精通教程 android android studio java gitee ide
目录介绍步骤一：设置AndroidStudio环境步骤二：了解AndroidStudio界面步骤三：学习Java编程基础变量和数据类型数组和集合控制流类和方法结论介绍Android应用开发是一个令人兴奋和有趣的领域。如果你对移动应用程序开发感兴趣，并且想要学习如何开始构建自己的Android应用，那么你来对地方了！本篇博客将带你从头开始，介绍如何设置AndroidStudio环境，学习Java编程
JVM学习指南(41)-GC日志分析俞兆鹏 JVM学习指南 JVM
文章目录1.GC日志的重要性为什么需要分析GC日志？2.GC日志的基本格式示例GC日志格式3.如何启用和配置GC日志示例代码4.分析GC日志的关键指标5.案例分析案例1：频繁的MinorGC6.GC日志分析工具介绍GCViewerMAT（MemoryAnalyzerTool）7.最佳实践和注意事项常见陷阱8.总结1.GC日志的重要性GC（GarbageCollection）日志是Java虚拟机（J
Delphi代码编写标准指南好大的牛角
分享一下我老师大神的人工智能教程！零基础，通俗易懂！http://blog.csdn.net/jiangjunshow也欢迎大家转载本篇文章。分享知识，造福人民，实现我们中华民族伟大复兴！·日月光华精华区文章阅读发信人:Delphii(Delphi),信区:VCL标题:Delphi编码规则发信站:日月光华站(FriSep712:03:072001),站内信件Delphi代码编写标准指南■■■■■■
【强化学习】Mava框架大雨淅淅人工智能机器学习算法人工智能学习深度学习
目录一、选择框架二、学习框架基础三、深入框架高级特性四、实践项目五、参考文档和社区资源六、编写测试用例七、学习框架的生态系统八、持续学习和适应九、建立个人项目或工作项目十、反思和总结关于Mava框架的学习，首先需要明确的是，您可能是指Java框架的学习，因为“Mava”并非一个广为人知的特定Java框架名称。在Java开发领域，有多个知名的框架，如Spring、SpringBoot、Hiberna
Python字典实战：打造高效学生成绩管理系统清水白石008 python Python题库 python 开发语言
Python字典实战：打造高效学生成绩管理系统在日常学习和工作中，我们经常需要管理和查询数据。Python的字典（Dictionary）是一种非常强大的数据结构，它以键值对（key-valuepairs）的形式存储数据，能够实现高效的数据检索。本文将以创建一个学生成绩管理系统为例，深入讲解如何使用Python字典存储学生姓名和成绩信息，并实现根据姓名查找成绩的功能。本文旨在提供实用性强、内容丰富、
pythonsvm模型优化_Python进化算法工具箱的使用（三）用进化算法优化SVM参数 weixin_39878698 pythonsvm模型优化
前言自从上两篇博客详细讲解了Python遗传和进化算法工具箱及其在带约束的单目标函数值优化中的应用以及利用遗传算法求解有向图的最短路径之后，我经过不断学习工具箱的官方文档以及对源码的研究，更加掌握如何利用遗传算法求解更多有趣的问题了。与前面的文章不同，本篇采用差分进化算法来优化SVM中的参数C和Gamma。(用遗传算法也可以，下面会给出效果比较)首先简单回顾一下Python高性能实用型遗传和进化算
差分进化算法_Python进化算法工具箱的使用（三）用进化算法优化SVM参数 weixin_39747075 差分进化算法
前言自从上两篇博客详细讲解了Python遗传和进化算法工具箱及其在带约束的单目标函数值优化中的应用以及利用遗传算法求解有向图的最短路径之后，我经过不断学习工具箱的官方文档以及对源码的研究，更加掌握如何利用遗传算法求解更多有趣的问题了。与前面的文章不同，本篇采用差分进化算法来优化SVM中的参数C和Gamma。（用遗传算法也可以，下面会给出效果比较）首先简单回顾一下Python高性能实用型遗传和进化算
技术文档的精髓：规划布局、语言表达与更新维护重庆钢铁侠经验分享
本文将从技术文档的规划布局、语言表达以及更新与维护三个方面入手，探讨如何打造一份出色的技术文档，确保信息的系统性、连贯性以及时效性。一：技术文档的规划布局1.1确定文档的整体架构技术文档的规划布局是确保信息呈现系统性和连贯性的关键。首先，需要确定文档的整体架构，这包括章节设置和逻辑顺序。一个好的架构应该能够清晰地指导读者从入门到精通。章节设置：根据文档的目的和受众，合理设置章节。例如，对于深度学习
径向基函数网络（RBF）：让数据“点亮”神经网络的“灯塔” ningaiiii 机器学习与深度学习神经网络 php 人工智能
径向基函数网络（RBF）：让数据“点亮”神经网络的“灯塔”1.引言径向基函数网络（RadialBasisFunctionNetwork,RBF）是一种特殊的前馈神经网络，它的核心思想是通过“灯塔”来照亮数据的分布。RBF网络使用径向基函数（如高斯函数）作为隐层神经元的激活函数，能够快速学习数据的局部特征，特别适合分类和函数逼近问题。2.算法原理2.1网络结构RBF网络的基本组成包括：输入层：接收原
Nginx UI：一款开源的Nginx可视化管理界面，让你轻松管理nginx的配置小华同学ai nginx ui 开源
嗨，大家好，我是小华同学，关注我们获得“最新、最全、最优质”开源项目和工作学习方法NginxUI是由0xJacky和Hintay共同开发的一款Nginx网络管理界面。它旨在为Nginx提供一个易于使用的图形界面，让用户可以在线查看服务器状态、编辑配置文件、管理网站和证书等。想要一睹为快？访问https://demo.nginxui.com/使用以下凭据登录：用户名：admin密码：admin特色功
数学：机器学习的理论基石每天五分钟玩转人工智能机器学习人工智能
一、数学：机器学习的理论基石机器学习是一种通过数据学习模式和规律的科学。其核心目标是从数据中提取有用的信息，以便对未知数据进行预测和分类。为了实现这一目标，机器学习需要一种数学框架来描述和解决问题。数学在机器学习中起着至关重要的作用，它提供了一种数学模型来描述数据和模式，以及一种数学方法来优化模型。数学在机器学习中的应用非常广泛，涵盖了线性代数、概率论、统计学、微积分、优化等多个领域。这些数学方法
C#的学习方法和思路，全部整理在这了！编程乐趣 c#学习方法开发语言
大家好，我是编程乐趣。今天梳理下，我从写公众号以来，发表过的有关学习编程的自学方法、架构、学习路线、重构、编程经验等内容，希望对大家有点启发。一、自学编程的方法用这个方法学习C#的，一年后都变成高级工程师了！自学C#，要懂得善用MSDN自学C#，要懂得用好对象浏览器C#自学建议：避开新手易犯的错误一个很简单却能让你快速掌握C#的方法二、学习架构的思考DDD与三层架构，一定就是DDD好？程序员，真有
【机器学习：二十六、决策树】 KeyPan 机器学习机器学习决策树人工智能算法深度学习数据挖掘
1.决策树概述决策树是一种基于树状结构的监督学习算法，既可以用于分类任务，也可以用于回归任务。其主要通过递归地将数据划分为子集，从而生成一个具有条件结构的树模型。核心概念节点（Node）：每个节点表示一个特定的决策条件。根节点（RootNode）：树的起点，包含所有样本。分支（Branch）：每个分支代表一个条件划分的结果。叶节点（LeafNode）：终止节点，表示最终的决策结果。优点直观可解释：
Python常用OS库之path模块学习风陵苑主 python 学习
学习python没有太多捷径，有也只有技巧，更重要的是要多学多练，个人觉得练更重要，读万卷书不如行万里路。编程是一门技能，所以除了看还要多实践，写得多了自然也就有了路。如果看全部的标准库文档，可以访问这个链接os---多种操作系统接口—Python3.12.3文档接下来就来敲敲OS库下的path方法，这里只是记录一下，搬运工作，加深印象。那就开始吧。os.path常用方法一、os.path.abs
“AI 自动化效能评估系统：开启企业高效发展新征程上海拔俗网络 java 团队开发
在当今数字化飞速发展的时代，企业面临着日益激烈的市场竞争，如何提升效率、降低成本成为了企业生存与发展的关键。AI自动化效能评估系统应运而生，它如同一把智能钥匙，为企业开启了高效发展的新征程。AI自动化效能评估系统，简单来说，就是利用人工智能技术对企业的各项业务流程、生产环节以及员工工作表现等进行全方位、自动化的评估。它能够快速收集海量的数据，并通过先进的算法模型对这些数据进行深度分析，从而精准地判
基于深度学习的推荐系统构建：Movielens 数据集 fresh的转码之路深度学习人工智能机器学习推荐算法
基于深度学习的推荐系统构建：Movielens数据集依赖环境代码语言：python3.11.5开发平台：pycharmtensorflow版本：2.18.0MovieLen1M数据及简介MovieLens1M数据集包含包含6000个用户在近4000部电影上的100万条评分，也包括电影元数据信息和用户属性信息。下载地址为：http://files.grouplens.org/datasets/mov
《小型开发者在鸿蒙Next上的成本与收益平衡之道》深度学习人工智能算法
学习成本鸿蒙Next系统与安卓、iOS在系统架构、API等方面存在一定差异，小型开发者需要花费时间和精力去熟悉和掌握。例如，开发者需要学习鸿蒙的分布式架构、原生智能等新技术概念和开发方法，这可能需要参加培训课程、阅读文档或在社区中与其他开发者交流学习。开发成本功能越复杂、UI/UX设计要求越高，开发成本就越高。小型开发者可能需要投入更多的人力和时间来进行应用的设计和开发。如果开发者经验不足，开发效
Flask 和阿里云 OSS 实现文件上传功能 ivwdcwso 开发 flask 阿里云 python oss
在本教程中,我们将学习如何使用Flask框架和阿里云对象存储服务(OSS)来创建一个简单而强大的文件上传应用。这个应用将允许用户通过Web界面上传文件,然后将文件安全地存储到阿里云OSS中,并返回可访问的文件URL。准备工作在开始之前,请确保您已经完成以下准备工作:安装Python(推荐Python3.7+)安装Flask:pipinstallflask安装阿里云OSSSDK:pipinstall
关于旗正规则引擎规则中的上传和下载问题何必如此文件下载压缩 jsp 文件上传
文件的上传下载都是数据流的输入输出，大致流程都是一样的。一、文件打包下载 1.文件写入压缩包 string mainPath="D:\upload\"; 下载路径 string tmpfileName=jar.zip; &n
【Spark九十九】Spark Streaming的batch interval时间内的数据流转源码分析 bit1129 Stream
以如下代码为例（SocketInputDStream）： Spark Streaming从Socket读取数据的代码是在SocketReceiver的receive方法中，撇开异常情况不谈(Receiver有重连机制，restart方法，默认情况下在Receiver挂了之后，间隔两秒钟重新建立Socket连接)，读取到的数据通过调用store(textRead)方法进行存储。数据
spark master web ui 端口8080被占用解决方法 daizj 8080 端口占用 spark master web ui
spark master web ui 默认端口为8080，当系统有其它程序也在使用该接口时，启动master时也不会报错，spark自己会改用其它端口，自动端口号加1，但为了可以控制到指定的端口，我们可以自行设置，修改方法： 1、cd SPARK_HOME/sbin 2、vi start-master.sh 3、定位到下面部分
oracle_执行计划_谓词信息和数据获取周凡杨 oracle 执行计划
oracle_执行计划_谓词信息和数据获取(上) 一：简要说明在查看执行计划的信息中，经常会看到两个谓词filter和access，它们的区别是什么，理解了这两个词对我们解读Oracle的执行计划信息会有所帮助。简单说，执行计划如果显示是access，就表示这个谓词条件的值将会影响数据的访问路径（表还是索引），而filter表示谓词条件的值并不会影响数据访问路径，只起到
spring中datasource配置 g21121 dataSource
datasource配置有很多种，我介绍的一种是采用c3p0的，它的百科地址是： http://baike.baidu.com/view/920062.htm  <bean name="propertiesConfig" class="org.springframework.b
web报表工具FineReport使用中遇到的常见报错及解决办法（三）老A不折腾 finereport FAQ 报表软件
这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、repeated column width is largerthan paper width：这个看这段话应该是很好理解的。比如做的模板页面宽度只能放
mysql 用户管理墙头上一根草 linux mysql user
1.新建用户 //登录MYSQL@>mysql -u root -p@>密码//创建用户mysql> insert into mysql.user(Host,User,Password) values(‘localhost’,'jeecn’,password(‘jeecn’));//刷新系统权限表mysql>flush privileges;这样就创建了一个名为：
关于使用Spring导致c3p0数据库死锁问题 aijuans spring Spring 入门 Spring 实例 Spring3 Spring 教程
这个问题我实在是为整个 springsource 的员工蒙羞如果大家使用 spring 控制事务，使用 Open Session In View 模式， com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.
百度词库联想 annan211 百度
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8"> <title>RunJS</title&g
int数据与byte之间的相互转换实现代码百合不是茶位移 int转byte byte转int 基本数据类型的实现
在BMP文件和文件压缩时需要用到的int与byte转换,现将理解的贴出来; 主要是要理解;位移等概念 http://baihe747.iteye.com/blog/2078029 int转byte; byte转int; /** * 字节转成int,int转成字节 * @author Administrator *
简单模拟实现数据库连接池 bijian1013 java thread java多线程简单模拟实现数据库连接池
简单模拟实现数据库连接池实例1： package com.bijian.thread; public class DB { //private static final int MAX_COUNT = 10; private static final DB instance = new DB(); private int count = 0; private i
一种基于Weblogic容器的鉴权设计 bijian1013 java weblogic
服务器对请求的鉴权可以在请求头中加Authorization之类的key，将用户名、密码保存到此key对应的value中，当然对于用户名、密码这种高机密的信息，应该对其进行加砂加密等，最简单的方法如下： String vuser_id = "weblogic"; String vuse
【RPC框架Hessian二】Hessian 对象序列化和反序列化 bit1129 hessian
任何一个对象从一个JVM传输到另一个JVM，都要经过序列化为二进制数据(或者字符串等其他格式，比如JSON)，然后在反序列化为Java对象，这最后都是通过二进制的数据在不同的JVM之间传输(一般是通过Socket和二进制的数据传输)，本文定义一个比较符合工作中。 1. 定义三个POJO Person类 package com.tom.hes
【Hadoop十四】Hadoop提供的脚本的功能 bit1129 hadoop
1. hadoop-daemon.sh 1.1 启动HDFS ./hadoop-daemon.sh start namenode ./hadoop-daemon.sh start datanode 通过这种逐步启动的方式，比start-all.sh方式少了一个SecondaryNameNode进程，这不影响Hadoop的使用，其实在 Hadoop2.0中，SecondaryNa
中国互联网走在“灰度”上 ronin47 管理灰度
中国互联网走在“灰度”上（转）文/孕峰第一次听说灰度这个词，是任正非说新型管理者所需要的素质。第二次听说是来自马化腾。似乎其他人包括马云也用不同的语言说过类似的意思。灰度这个词所包含的意义和视野是广远的。要理解这个词，可能同样要用“灰度”的心态。灰度的反面，是规规矩矩，清清楚楚，泾渭分明，严谨条理，是决不妥协，不转弯，认死理。黑白分明不是灰度，像彩虹那样
java-51-输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。 bylijinnan java
public class PrintMatrixClockwisely { /** * Q51.输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。例如：如果输入如下矩阵： 1 2 3 4 5 6 7 8 9
mongoDB 用户管理开窍的石头 mongoDB用户管理
1:添加用户第一次设置用户需要进入admin数据库下设置超级用户（use admin） db.addUsr({user:'useName',pwd:'111111',roles:[readWrite,dbAdmin]}); 第一个参数用户的名字第二个参数
[游戏与生活]玩暗黑破坏神3的一些问题 comsci 生活
暗黑破坏神3是有史以来最让人激动的游戏。。。。但是有几个问题需要我们注意玩这个游戏的时间，每天不要超过一个小时，且每次玩游戏最好在白天结束游戏之后，最好在太阳下面来晒一下身上的暗黑气息，让自己恢复人的生气 &nb
java 二维数组如何存入数据库 cuiyadll java
using System; using System.Linq; using System.Text; using System.Windows.Forms; using System.Xml; using System.Xml.Serialization; using System.IO; namespace WindowsFormsApplication1 {
本地事务和全局事务Local Transaction and Global Transaction(JTA) darrenzhu java spring local global transaction
Configuring Spring and JTA without full Java EE http://spring.io/blog/2011/08/15/configuring-spring-and-jta-without-full-java-ee/ Spring doc -Transaction Management http://docs.spring.io/spri
Linux命令之alias - 设置命令的别名，让 Linux 命令更简练 dcj3sjt126com linux alias
用途说明设置命令的别名。在linux系统中如果命令太长又不符合用户的习惯，那么我们可以为它指定一个别名。虽然可以为命令建立“链接”解决长文件名的问题，但对于带命令行参数的命令，链接就无能为力了。而指定别名则可以解决此类所有问题【1】。常用别名来简化ssh登录【见示例三】，使长命令变短，使常用的长命令行变短，强制执行命令时询问等。常用参数格式：alias 格式：ali
yii2 restful web服务[格式响应] dcj3sjt126com PHP yii2
响应格式当处理一个 RESTful API 请求时，一个应用程序通常需要如下步骤来处理响应格式：确定可能影响响应格式的各种因素，例如媒介类型，语言，版本，等等。这个过程也被称为 content negotiation。资源对象转换为数组，如在 Resources 部分中所描述的。通过 [[yii\rest\Serializer]]
MongoDB索引调优（2）——[十] eksliang mongodb MongoDB索引优化
转载请出自出处：http://eksliang.iteye.com/blog/2178555 一、概述上一篇文档中也说明了，MongoDB的索引几乎与关系型数据库的索引一模一样，优化关系型数据库的技巧通用适合MongoDB，所有这里只讲MongoDB需要注意的地方二、索引内嵌文档可以在嵌套文档的键上建立索引，方式与正常
当滑动到顶部和底部时，实现Item的分离效果的ListView gundumw100 android
拉动ListView，Item之间的间距会变大，释放后恢复原样； package cn.tangdada.tangbang.widget; import android.annotation.TargetApi; import android.content.Context; import android.content.res.TypedArray; import andr
程序员用HTML5制作的爱心树表白动画 ini JavaScript jquery Web html5 css
体验效果：http://keleyi.com/keleyi/phtml/html5/31.htmHTML代码如下： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"><head><meta charset="UTF-8" > <ti
预装windows 8 系统GPT模式的ThinkPad T440改装64位 windows 7旗舰版 kakajw ThinkPad 预装改装 windows 7 windows 8
该教程具有普遍参考性，特别适用于联想的机器，其他品牌机器的处理过程也大同小异。该教程是个人多次尝试和总结的结果，实用性强，推荐给需要的人！缘由小弟最近入手笔记本ThinkPad T440，但是特别不能习惯笔记本出厂预装的Windows 8系统，而且厂商自作聪明地预装了一堆没用的应用软件，消耗不少的系统资源（本本的内存为4G，系统启动完成时，物理内存占用比
Nginx学习笔记 mcj8089 nginx
一、安装nginx 1、在nginx官方网站下载一个包，下载地址是： http://nginx.org/download/nginx-1.4.2.tar.gz 2、WinSCP(ftp上传工
mongodb 聚合查询每天论坛链接点击次数 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 18 */ { "_id" : ObjectId("5596414cbe4d73a327e50274"), "msgType" : "text", "sendTime" : ISODate("2015-07-03T08:01:16.000Z"
java术语（PO/POJO/VO/BO/DAO/DTO） Luob. DAO POJO DTO po VO BO
PO(persistant object) 持久对象在o/r 映射的时候出现的概念,如果没有o/r映射,就没有这个概念存在了.通常对应数据模型(数据库),本身还有部分业务逻辑的处理.可以看成是与数据库中的表相映射的java对象.最简单的PO就是对应数据库中某个表中的一条记录,多个记录可以用PO的集合.PO中应该不包含任何对数据库的操作. VO(value object) 值对象通
算法复杂度 Wuaner Algorithm
Time Complexity & Big-O： http://stackoverflow.com/questions/487258/plain-english-explanation-of-big-o http://bigocheatsheet.com/ http://www.sitepoint.com/time-complexity-algorithms/