zzzyzh

CV-Model【5】：Transformer

系列文章目录

Transformer 系列网络（一）：
CV-Model【5】：Transformer
Transformer 系列网络（二）：
CV-Model【6】：Vision Transformer
Transformer 系列网络（三）：
CV-Model【7】：Swin Transformer

文章目录

系列文章目录
前言
1. Self Attention
1.1. Scaled Dot-Product Attention
- - 1.1.1. Scaled Inner-Product (Dot-Product)
  - 1.1.2. Considering the whole sequence
  - 1.1.3. Calculate with matrix
- 1.2. Multi - Head Attention
- 1.3. Positional Encoding
2. Transformer
- 2.1. Encoder Block
- 2.2. Decoder Block
- - 2.2.1. Masked Multi-Head Self-attention
总结

前言

Transformer 是一种模型架构，它摒弃了递归，而是完全依靠注意力机制来得出输入和输出之间的全局依赖关系。在 Transformer 之前，主流的序列转换模型是基于复杂的递归或卷积神经网络，包括一个编码器和一个解码器。Transformer 也采用了编码器和解码器，但去除递归而采用注意力机制，可以比 RNN 和 CNN 等方法明显地实现更多的并行化。

原论文侧重于在 NLP 领域的贡献，所以本文主要针对其提出的 Self - Attention 和 Multi-Head Attention 进行分析

原论文链接：
Attention Is All You Need

1. Self Attention

1.1. Scaled Dot-Product Attention

1.1.1. Scaled Inner-Product (Dot-Product)

假设现在有一串蓝色的 Input Vector $x^1, x^2, x^3, x^4$ ，每个 Input Vector 先各乘一个权重参数矩阵 $W$ 得到一串绿色的 Embedding Vector $a^1, a^2, a^3, a^4$ ，然后通过 Self-attention 层，即令每个 Embedding Vector $a^1, a^2, a^3, a^4$ 分别乘上 3 个不同的 Transformation Matrix $W_q - Query, W_k - Key, W_v - Value$ （这三个参数是可训练的，对于所有 a 而言是共享的），得到 3 个不同的 Vector $q^i, k^i, v^i$ 。

用每个 Query q 去对每个 Key k 做 Attention，以衡量任意 2 个 Vector 的相似程度（即计算两者的相关性，相关性越大对应 v 的权重也就越大）。

接着对刚刚得到的 Vector $q^i, k^i$ 做 Scaled Inner-Product (Dot-Product) 得到 $\alpha_{j, i}$ 。以 $q^1$ 为例，Scaled Inner-Product 计算公式如下所示：

$\alpha_{1, i} = q^1 \cdot \frac{k^i}{\sqrt{d}}$

其中，d 是 $q^i$ 和 $k^i$ 的维度 dimension 大小。因为 $q^i \cdot k^i$ 的数值会随 dimension 的增大而增大，导致通过 softmax 后梯度变的很小，所以通过除以 $\sqrt{d}$ 来进行缩放（归一化）。

举个例子：
假设 $a_1=(1, 1)$ ， $a_2=(1,0)$ ， $W^q= \begin{pmatrix} 1 & 1 \\ 0 & 1 \end{pmatrix}$ ，那么：
$q^1 = (1, 1) \begin{pmatrix} 1 & 1 \\ 0 & 1 \end{pmatrix} = (1, 2), \\ q^2 = (1, 0) \begin{pmatrix} 1 & 1 \\ 0 & 1 \end{pmatrix} = (1, 1)$
因为 Transformer 可以并行化处理，所以上式可以直接写成：
$\begin{pmatrix} q^1 \\ q^2 \end{pmatrix} = \begin{pmatrix} 1 & 1 \\ 1 & 0 \end{pmatrix} \begin{pmatrix} 1 & 1 \\ 0 & 1 \end{pmatrix} = \begin{pmatrix} 1 & 2 \\ 1 & 1 \end{pmatrix}$
需要注意的是，此处的 $a_1, a_2$ 是上下拼接
同理我们可以得到 $\begin{pmatrix} k^1\\ k^2 \end{pmatrix}$ 以及 $\begin{pmatrix} v^1\\ v^2 \end{pmatrix}$
所以，求得的 $\begin{pmatrix} q^1\\ q^2 \end{pmatrix}$ 就是原论文中的 $Q$ ， $\begin{pmatrix} k^1\\ k^2 \end{pmatrix}$ 就是原论文中的 $K$ ， $\begin{pmatrix} v^1\\ v^2 \end{pmatrix}$ 就是原论文中的 $V$

1.1.2. Considering the whole sequence

接下来，对所有 Attention 结果 $\alpha_i, i \in \{1,2,3,4\}$ 执行 Softmax 操作，如下所示：

$\hat{\alpha}_{1,i} = \frac{e^{\alpha_{1,i}}}{\sum_j \alpha_{1,i}}$

执行 Softmax 操作后得到了 $\hat{ \alpha } _{1,i} , i \in \{1, 2, 3, 4 \}$ ，这里的 $\hat{\alpha}$ 相当于计算得到针对每个 $v$ 的权重，到这我们就完成了 $A tt e n t i o n (Q, K, V)$ 公式中 $softmax(\frac{QK^T}{\sqrt{d_k}})$ 部分。

令 $\hat{ \alpha } _{1,i}$ 与各 $v^i$ 相乘并求和，得到 $b^i$ ，如下所示：

$b^i = \displaystyle\sum_i \hat{\alpha}_{1, i} v^i$

因而，产生 $b^i$ 的过程中用到了整个 Input Vector 的信息：

若要考虑局部 (local) 信息，则只需学习出相应的 $\hat{ \alpha } _{1,i} = 0，b^1$ 就不再带有那个对应分支的信息了
若要考虑全局 (global) 信息，则只需学习所有的 $\hat{ \alpha } _{1,i} \neq 0，b^1$ 就带有全部的对应分支的信息了

相当于每个向量都等于原来所有向量（包括它自己）的加权平均和，也就相当于注意力。就完成了论文中有关注意力的一个公式：

$softmax(\frac{QK^T}{\sqrt{d_k}}) V$

举个例子：
计算 $\alpha_{1, i}$ ：
$\alpha_{1, 1} = \frac{q^1 \cdot k^1}{\sqrt{d}} = \frac{1 \times 1 + 2 \times 0}{\sqrt{2}} = 0.71 \\ \alpha_{1, 2} = \frac{q^1 \cdot k^2}{\sqrt{d}} = \frac{1 \times 0 + 2 \times 1}{\sqrt{2}} = 1.41$
同理使用 $q^2$ 去匹配所有的 $k$ 能得到 $\alpha_{2, i}$ ，统一写成矩阵乘法形式：
$\begin{pmatrix} \alpha_{1, 1} & \alpha_{1, 2} \\ \alpha_{2, 1} & \alpha_{2, 2} \end{pmatrix} = \frac{\begin{pmatrix} q^1\\ q^2 \end{pmatrix}\begin{pmatrix} k^1\\ k^2 \end{pmatrix}^T}{\sqrt{d}}$
接着对每一行即 $(\alpha_{1, 1}, \alpha_{1, 2})$ 和 $(\alpha_{2, 1}, \alpha_{2, 2})$ 分别进行 softmax 处理得到 $(\hat\alpha_{1, 1}, \hat\alpha_{1, 2})$ 和 $(\hat\alpha_{2, 1}, \hat\alpha_{2, 2})$
上面已经计算得到 $\alpha$ ，即针对每个 $v$ 的权重，接着进行加权得到最终结果：
$b_1 = \hat\alpha_{1, 1} \times v^1 + \hat\alpha_{1, 2} \times v^2 = (0.33, 0.67) \\ b_2 = \hat\alpha_{2, 1} \times v^1 + \hat\alpha_{2, 2} \times v^2 = (0.50, 0.50)$
统一写成矩阵乘法形式：
$\begin{pmatrix} b^1\\ b^2 \end{pmatrix} = \begin{pmatrix} \hat\alpha_{1, 1} & \hat\alpha_{1, 2} \\ \hat\alpha_{2, 1} & \hat\alpha_{2, 2} \end{pmatrix} \begin{pmatrix} v^1\\ v^2 \end{pmatrix}$

1.1.3. Calculate with matrix

用矩阵表示上述计算过程。

首先输入 Embedding $I = [a^1, a^2, a^3, a^4]$ ：

用 $I$ 乘 Transformation Matrix $W^q$ 得到 $Q = [q^1, q^2, q^3, q^4]$ ，其每一列代表一个 Vector q；
用 $I$ 乘 Transformation Matrix $W^k$ 得到 $K = [k^1, k^2, k^3, k^4]$ ，其每一列代表一个 Vector k。
用 $I$ 乘 Transformation Matrix $W^v$ 得到 $V = [v^1, v^2, v^3, v^4]$ ，其每一列代表一个 Vector v

接下来用得到的vector q 去匹配 vector k：

把 Vector k 转置为行向量与列向量 q 做内积得到标量 $\alpha$ （计算时还需要除以 $\sqrt{d}$ 进行归一化）
整体上看，由 4 个行向量 $k^T$ 拼成的矩阵 $K^T$ 和 4 个列向量 $q$ 拼成的矩阵 $Q$ 做内积将得到由标量 $\alpha$ 构成的 $\times 4$ 矩阵 $A$ ，并对其取 Softmax 得到 $\hat{A}$

要得到 $b^i$ ，就要用 $\hat{\alpha}_{1,i}$ 分别与 $v^i$ 相乘并求和，故整体上 $\hat{A}$ 要再左乘 $V$ 矩阵

即公式：
$softmax(\frac{QK^T}{\sqrt{d_k}}) V$

1.2. Multi - Head Attention

MHA 通过 Linear 线性投影来初始化多组不同的 $(Q, K, V)$ ，并将多个 (图中表示为 h 个) 单头的自注意力结果 Concat 后，再经一个全连接层降维输出。可以联合初始化不同的 $(Q, K, V)$ 部分学习到的信息

以 2 个 head 的情况为例：

首先和 Self-Attention 模块一样将 $a_i$ 分别通过 $W^q, W^k, W^v$ 得到对应的 $q^i, k^i, v^i$ ，然后再根据使用的 head 的数目 $h$ 进一步把得到的 $q^i, k^i, v^i$ 均分成 $h$ 份：

由 $a^i$ 生成的 $q^i$ 进一步乘上 2 个转移矩阵 $W^{q, 1}$ 和 $W^{q, 2}$ 变为 $q^{i, 1}$ 和 $q^{i, 2}$
由 $a^i$ 生成的 $k^i$ 进一步乘上 2 个转移矩阵 $W^{k, 1}$ 和 $W^{k, 2}$ 变为 $k^{i, 1}$ 和 $k^{i, 2}$
由 $a^i$ 生成的 $v^i$ 进一步乘上 2 个转移矩阵 $W^{v, 1}$ 和 $W^{v, 2}$ 变为 $v^{i, 1}$ 和 $v^{i, 2}$

$head_i = Attention (QW_i^Q, KW_i^K, VW_i^V)$

令 $q^{i, 1}$ 与 $k^{i, 1}$ 做 Attention 再与 $v^{i, 1}$ 相乘、 $q^{i, 1}$ 与 $k^{j, 1}$ 做 Attention 再与 $v^{j, 1}$ 相乘，二者做 Weighted-sum 得到最终的 $b^{i, 1}, i \in {1, 2, ..., N} \in R^{d,1}$ 。同理可得 $\in R^{d,1}$ 。

即针对每个 head 使用和 Self-Attention 中相同的方法即可得到对应的结果：

$Attention(Q_i, K_i, V_i) = softmax(\frac{Q_i K_i^T}{\sqrt{d_k}}) V_i$

把 $b ^ {i, 1}$ ， $b ^ {i, 2}$ Concat 起来，再通过一个 Transformation Matrix $W^O$ （可学习参数）调整维度， $W^O$ 的 shape 为 $hd_v \times d_{model} = d_{model} \times d_{model}$ ，这里是为了保证输入输出 Multi-head Attention 的向量长度保持不变。

Multi-head Attention 的公式总结如下：

$MultiHead(Q, K, V) = Concat(head_1, ..., head_h) W^O \\ where head_i = Attention (QW_i^Q, KW_i^K, VW_i^V)$

1.3. Positional Encoding

上面讲的 Self-Attention 和 Multi-Head Attention 模块，在计算中是没有考虑到位置信息的。假设在Self-Attention模块中，输入 $a_1, a_2, a_3$ 得到 $b_1, b_2, b_3$ 。对于 $a_1$ 而言， $a_2$ 和 $a_3$ 离它都是一样近的而且没有先后顺序。假设将输入的顺序改为 $a_1, a_3, a_2$ ，对结果 $b_1$ 是没有任何影响的。

为了引入位置信息，原论文中引入了位置编码 positional encodings。如下图所示，位置编码是直接加在输入的 $a=\{a_1,...,a_n\}$ 中的，即 $pe=\{pe_1,...,pe_n\}$ 和 $a=\{a_1,...,a_n\}$ 拥有相同的维度大小。

具体做法是：给每个位置人工设定一个表示位置信息的位置向量 $e^i$ (不是神经网络学出来的)，每个位置 (如第 i 个) 都有一个不同的位置向量 $e^i$ ，令其与输入 Embedding $a^i$ 相加作为新 $a^i$ 参与后续运算过程。

先给每个输入向量 $x^i \in R^{d, 1}$ 加上一个独热编码的位置向量 $p^i \in R^{d, 1}$ 得到新向量 $x^i_{p}$ 作为输入，乘上一个 Transformation Matrix $[W^I, W^P] \in R^ {d, d+N}$ 。此时有：

可见，位置向量 $e^i$ 与输入 Embedding $a^i$ 直接相加等同于先原输入向量 $x^i$ 拼接一个表示位置的独热编码 $p^i$ 再做 Transformation 得到 Embedding。

Transformer 中除了需要 单词 Embedding 表示输入的内容主题，还需要 位置 Embedding 表示单词出现在句子中的位置。因为 Transformer 不采用 RNN 结构，而是使用全局信息，无法捕获或利用到单词的位置顺序信息，而这部分信息对于 NLP 而言非常重要 (事实上对 CV 也很重要)。所以 Transformer 中使用位置 Embedding 保存单词在序列中的相对或绝对位置。

2. Transformer

Transformer 的网络机构中，左侧为 Encoder Block，右侧为 Decoder Block。Multi-Head Attention（简称 MHA）由多个 Self-Attention 组成，其中 Encoder block 包含一个 MHA，Decoder block 包含两个 MHA（其中有一个还用到了 Mask）。MHA 上方还包括一个 Add & Norm 层，Add 表示 Residual Connection 用于防止网络退化，Norm 表示 Layer Normalization，用于对每一层的激活值归一化。

2.1. Encoder Block

简单来说，Encoder 的作用就是将输入转变成适合网络学习的数据格式，通过上面讲解的 Multi-Head Attention 结构，可以提取某些关键特征，在考虑这些特征的上下文后整合成新的向量，输入 Decoder 中进行预测。

输入向量 $\in R(n_x,N)$ 通过一个 Input Embedding 转移矩阵 $W^X \in R(d,n_x)$ 得到一个张量 $\in R(d,N)$ ，再加上一个表示位置的 Positional Encoding $\in R(d,N)$ 得到新的张量 $\in R(d,N)$ ，然后进入重复 N 次的 Encoder Block。

Encoder Block 中，张量 $\in R(d,N)$ 先经过一个 MHA 输出 $\in R(d,N)$ 。然后，通过 Add & Norm 层将 MHA 的输入 $\in R(d,N)$ 和输出 $\in R(d,N)$ 按元素相加，并进行 Layer Normalization。

Layer Normalization 令 batch 内各 samples / features 的所有 channel 的 $\mu = 0, \sigma=1$ (对 batch 内所有数据沿 sample 归一化)

接着，是一个 Feed Forward 前馈网络和一个 Add & Norm 层。

Transformer 的 Encoder Block 表达式为：

前 2 个 Layer 操作表达式为：
后 2 个 Layer 操作表达式为：
所有 Layer 简写为：
Encoder Block 表达式为：

2.2. Decoder Block

Key， Value 和 Query 通过 Multi-Head Self-attention 结合在一起的过程，就相当于是把需要的内容信息指导表达出来：

Key 和 Value 来自 Encoder 的输出，所以可看做 句子(Sequence) / 图片 (Image) 等的内容信息 (Content，比如句子含义是：“我有一只猫” / 图片内容是：“有几辆车，几个人等等”)。
Query 表达了一种诉求：希望得到 / 了解 / 寻求什么，可看做引导信息 (Guide)

Decoder Block 的输入包括 2 个来源，来自 Decoder Block 下方的输入是前一个 Time Step 的 Input Embedding，即前一个 Time Step 的 $\in R(d,N)$ 加上一个表示位置的 Positional Encoding $\in R(d,N)$ 所得的张量。然后，该张量进入了重复 N 次的 Decoder Block。

Decoder 输出： (当前 Time Step) 对应位置 $i$ 的输出词的概率分布。
Decoder 输入： (当前 Time Step) 对应位置 $i$ 的 Encoder 输出 + (前一 Time Step) 对应位置 $i - 1$ 的 Decoder 输出。
- 所以中间的 Attention 不是 Self-attention，其 Key 和 Value 来自 Encoder 的输出，Query 来自上一位置 Decoder 的输出。
Decoding 串行：
- 编码可并行计算，一次性全部 Encoding 出来
- 但解码不同，它是像 RNN 一样一个一个 Decoding 的，因为要用上一位置 Decoder 的输出当作当前位置 Attention 的 Query。

Decoder 包含的两个 Multi-Head Attention 层：

第一个 Multi-Head Attention 层采用了 Masked 操作
- Mask 旨在使注意力只关注已产生的 Sequence 而不含未产生的部分
  - 因为训练时的 Output 都是 Ground Truth，这样可以确保预测第 $i$ 个位置时不会接触到未来 $i + 1, i + 2, ...$ 个位置的信息。
第二个 Multi-Head Attention 层的 Key，Value 矩阵使用 Encoder 的编码信息矩阵 C 进行计算，而 Query 使用上一个 Decoder block 的输出计算

2.2.1. Masked Multi-Head Self-attention

Decoder 在组成上的主要的区别是：新增了 Masked Multi-Head Self-attention，在 Scale 操作后、Softmax 操作前。

训练时的 Output 都是 Ground Truth，这样可以确保预测第 $i$ 个位置时不会接触到未来 $i + 1, i + 2, ...$ 个位置的信息（因为不可能利用理论上未知的信息去训练已知的信息）。

在解码器中，Self-attention 层只被允许处理输出序列中更靠前的那些位置，在 Softmax 步骤前，它会把后面的位置给隐去。

在翻译任务中，翻译是按顺序的 —— 翻译完第 $i$ 个单词，才可翻译第 $i + 1$ 个单词。通过 Masked 操作可防止第 $i$ 个单词不切实际地了解/接触到第 $i + 1$ 个单词及之后的信息。下面以将 “我有一只猫” 翻译成 “I have a cat” 为例，说明 Masked 操作。Decoder 时，需根据之前的翻译，求解当前最可能的翻译（当前位置最大概率输）。

Transformer 测试时的解码过程：

输入解码开始标志位，Decoder 输出 I
输入已解码的 , I，Decoder 输出 have
以此类推 …
输入已解码的 , I, have, a, cat，Decoder 输出解码结束标志位
总之，每次解码都会到利用先前已解码的所有单词嵌入信息

Masked Multi-Head Self-attention 的计算：

Step1：Input Matrix $X\in R_{N,d_x}$ 包含 " I have a cat" (0, 1, 2, 3, 4) 五个单词的表示向量，Mask Matrix 是一个 $\times 5$ 矩阵。在其中可见解码单词 $0$ 时只能使用单词 $0$ 的信息，而解码单词 $1$ 时可使用单词 $0, 1$ 的信息 —— 只能使用先前的信息。Input Matrix $X\in R_{N,d_x}$ 经过 3 个 Transformation Matrix 得到 3 个 Matrix：Query $\in R_{N,d}$ ，Key $\in R_{N,d}$ 和 Value $\in R_{N,d}$ 。
Step2： $Q^T \cdot K$ 得到 Attention Matrix $A\in R_{N,N}$ ，此时先不进行 Softmax 操作，而是与一个 $\in R_{N, N}$ 矩阵相乘，使 Attention Matrix 的部分位置（即相对当前位置的未来位置）为 0，得到 Masked Attention Matrix $\; Attention \in R_{N, N}$ 。Masked Attention Matrix 是个下三角矩阵，使得计算 Z 矩阵的某一行时，只考虑其前面 token 的作用 (即相对当前位置的先前位置) 。
- 例如，在计算 Z 的第一行时，刻意地把 Attention Matrix 第一行的后面所有元素屏蔽掉，只考虑 $A_{0, 0}$ 。在产生单词 have 时，则只考虑之前的 I，不考虑之后的 have、a、cat，即只 attend on 已产生的 Sequence。这很合理，因为还没有产生出来的东西不存在，就无法做 Attention。
Step3： Masked Attention Matrix 进行 Softmax，所得矩阵的每一行之和都为 1（沿列方向按行归一化）。注意，单词 $0$ 在单词 $1, 2, 3, 4$ 上的 Attention Score 都为 $0$ 。所得矩阵再与矩阵 $V$ 相乘得到最终的 Self-attention 层的输出结果 $Z_1 \in R_{N, d}$ 。
Step4： $Z_1 \in R_{N, d}$ 只是第 1 个 Head 的结果，将多个 Head 的结果 Concat 一起后，再进行 Linear Transformation 得到最终的 Masked Multi-Head Self-attention 结果 $\; Transformaion (Concat (Z_1, Z_2, ... , Z_n)) = Z \in R_{N, d}$ 。

此外，需注意的是：第 1 个 Masked Multi-Head Self-attention 的 Query，Key，Value 均来自 Output Embedding；

而第 2 个 Multi-Head Self-attention 的 Query 来自第 1 个 Self-attention 层的输出，Key 和 Value 来自 Encoder 的输出。

总结

对 Self-Attention 来说，它跟每一个 input vector 都做 attention，所以没有考虑到 input sequence 的顺序，虽然引入了 Positional Encoding 来解决问题，但仍有不足。同时，它需要的运算量是十分庞大的。本文主要在于介绍有关 Self-Attention 的知识，为后面的模型学习做铺垫。

参考视频

你可能感兴趣的:(#,Picture,Classification,transformer,深度学习,人工智能,图像处理)

密码学，算法在人工智能的实战利用 china—hbaby 人工智能密码学
在人工智能（AI）的快速发展中，数据安全和隐私保护成为了核心议题。密码学，作为保护信息安全的基石，其在AI领域的应用显得尤为重要。本文将探讨密码学在AI中的利用，并提供一些代码示例来展示其实际应用。密码学的概述即常用加密方式密码学（Cryptography）是数学和计算机科学的一个分支，它涉及保护信息的安全性和隐私性。密码学的主要目标是确保信息在传输过程中不被未授权的第三方读取或篡改，以及确保信息
【人工智能时代】-人工智能发展史：1900~2023 xiaoli8748_软件开发人工智能时代人工智能搜索引擎
第一阶段：人工智能发展历史：1900-19591909年西班牙工程师LeonardoTorresyQuevedo发明了“Occultus”，这是一个可以自动执行国际象棋对弈的机器，预示了未来的计算智能。
目标检测领域总结：从传统方法到 Transformer 时代的革新 DoYangTan 目标检测系列目标检测 transformer 人工智能
目标检测领域总结：从传统方法到Transformer时代的革新目标检测是计算机视觉领域的一个核心任务，它的目标是从输入图像中识别并定位出目标物体。随着深度学习的兴起，目标检测方法已经取得了显著的进展。从最早的传统方法到现如今基于Transformer的先进算法，目标检测的发展经历了多个重要的阶段。本文将详细总结目标检测领域的演进，涵盖传统方法、两阶段检测方法、单阶段检测方法和基于Transform
2024MathorCup数学建模之——MathorCup奖杯”获得者经验思路分享美赛数学建模数学建模
一、经验分享1.工具选择：顺手即可。Matlab和Python都是比较主流的选择，二者的应用场合各有不同。Python在数据分析、深度学习方面的优势愈发明显，而Matlab更适合进行物理仿真和数值计算。不过随着Python社区不断发展，其功能也愈发全面与强大，因此我们比较推荐学有余力的情况下可以更早接触Python。2.模型算法：多多益善。不一定要精通所有的算法，但是手上至少要准备一些常用的算法（
AI人工智能软件开发方案：开启智能时代的创新钥匙广州硅基技术官方人工智能
一、引言：AI浪潮下的软件开发新机遇近年来，人工智能（AI）技术的迅猛发展如同一股汹涌澎湃的浪潮，席卷了全球各个领域。从最初的概念提出到如今的广泛应用，AI历经了漫长的发展历程，终于迎来了属于它的黄金时代。回首过去，AI的发展并非一帆风顺，早期由于计算能力和算法的限制，经历了多次起伏。但随着大数据、云计算、机器学习、深度学习等技术的不断突破，AI迎来了爆发式增长。如今，AI已经深入到人们生活和工作
深度学习框架PyTorch——从入门到精通（6.2）自动微分机制 Fansv587 深度学习 pytorch 人工智能经验分享 python 机器学习
本节自动微分机制是上一节自动微分的扩展内容自动微分是如何记录运算历史的保存张量非可微函数的梯度在本地设置禁用梯度计算设置requires_grad梯度模式（GradModes）默认模式（梯度模式）无梯度模式推理模式评估模式（`nn.Module.eval()`）自动求导中的原地操作原地操作的正确性检查多线程自动求导CPU上的并发不确定性计算图保留自动求导节点的线程安全性C++钩子函数不存在线程安全
Deepseek和豆包在技术创新方面有哪些相同点与不同点？ alankuo 人工智能
Deepseek和豆包在技术创新方面的相同点与不同点如下：相同点架构基础：都以Transformer架构为基础进行开发。Transformer架构能有效处理长序列数据，捕捉文本语义信息，为模型性能提供基础。混合专家模型（MoE）应用：都采用了MoE架构。该架构将模型拆分为多个“专家”，训练和推理时让不同“专家”负责不同任务或数据子集，提高模型表达能力和效率，降低训练成本。模型优化以提升性能：都通过
神经网络中层与层之间的关联 iisugar 神经网络深度学习计算机视觉
目录1.层与层之间的核心关联：数据流动与参数传递1.1数据流动（ForwardPropagation）1.2参数传递（BackwardPropagation）2.常见层与层之间的关联模式2.1典型全连接网络（如手写数字分类）2.2卷积神经网络（CNN，如图像分类）2.3循环神经网络（RNN/LSTM，如文本生成）2.4Transformer（如机器翻译）3.层间关联的核心原则3.1数据传递的“管道
Pytorch深度学习教程_9_nn模块构建神经网络 tRNA做科研深度学习保姆教程深度学习 pytorch 神经网络
欢迎来到《深度学习保姆教程》系列的第九篇！在前面的几篇中，我们已经介绍了Python、numpy及pytorch的基本使用，进行了梯度及神经网络的实践并学习了激活函数和激活函数，在上一个教程中我们学习了优化算法。今天，我们将开始使用pytorch构建我们自己的神经网络。欢迎订阅专栏进行系统学习：深度学习保姆教程_tRNA做科研的博客-CSDN博客目录1.理解nn模块：(1)使用nn.Sequent
Radiance Fields from VGGSfM和Mast3r:两种先进3D重建方法的比较与分析 2401_87458718 3d
VGGSfM和Mast3r:3D场景重建的新方向在计算机视觉和3D重建领域,如何从2D图像重建3D场景一直是一个充满挑战的研究课题。近年来,随着深度学习技术的发展,一些新的方法被提出并取得了显著的进展。本文将重点介绍两种最新的基于深度学习的3D重建方法:VGGSfM和Mast3r,并通过GaussianSplatting技术对它们的性能进行全面比较和分析。VGGSfM:基于视觉几何的深度结构运动恢
基于 PyTorch 的 MNIST 手写数字分类模型欣然～ pytorch 分类人工智能
一、概述本代码使用PyTorch框架构建了一个简单的神经网络模型，用于解决MNIST手写数字分类任务。代码主要包括数据的加载与预处理、神经网络模型的构建、损失函数和优化器的定义、模型的训练、评估以及最终模型的保存等步骤。二、依赖库torch：PyTorch深度学习框架的核心库，提供了张量操作、自动求导等功能。torch.nn：PyTorch的神经网络模块，包含了各种神经网络层、损失函数等。torc
探索Google AI聊天模型的集成和使用 qahaj 人工智能 python
随着人工智能的飞速发展，GoogleAI的聊天模型提供了强大的自然语言处理能力，可以应用于多种场景中。本文将为你介绍如何通过GoogleAI和LangChain库来使用这些聊天模型。技术背景介绍GoogleAI提供了一系列强大的聊天模型，这些模型具备不同的功能和参数设置。它们不仅可以通过GoogleAI服务访问，还可以通过GoogleCloudVertexAI以企业级功能使用。在本文中，我们将重点
“租赁业务ERP+deepseek”模式的应用软件研究员汽车 DeepSeek 汽车租赁系统
汽车租赁业务从上世纪90年代发展至今，从传统的人工管理到软件辅助，随着互联网的发展，业务公司对汽车租赁系统提出了更高的要求，比如自助订单，业务推广、客户资质评估，车辆风控，风险预警等，又随着近期人工智能的出现，业务公司对业务系统的期望更高，期望都节约更多人工成本，让管理变得简单快捷高效和智能。所以就引发人们新的启发：“业务系统ERP+deepseek”，但业务系统ERP+deepseek能否满足业
高效快速教你DeepSeek如何进行本地部署并且可视化对话大富大贵7 程序员知识储备1 程序员知识储备2 程序员知识储备3 经验分享
科技文章：高效快速教你DeepSeek如何进行本地部署并且可视化对话摘要：随着自然语言处理（NLP）技术的进步，DeepSeek作为一款基于深度学习的语义搜索技术，广泛应用于文本理解、对话系统及信息检索等多个领域。本文将探讨如何高效快速地在本地部署DeepSeek，并结合可视化工具实现对话过程的监控与分析。通过详尽的步骤、案例分析与代码示例，帮助开发者更好地理解和应用DeepSeek技术。同时，本
《AI医疗系统开发实战录》第6期——智能导诊系统实战骆驼_代码狂魔程序员的法宝人工智能 django python neo4j 知识图谱
关注我，后期文章全部免费开放，一起推进AI医疗的发展核心主题：如何构建95%准确率的智能导诊系统？技术突破：结合BERT+知识图谱的混合模型设计一、智能导诊架构设计python基于BERT的意图识别模型（PyTorch）fromtransformersimportBertTokenizer,BertForSequenceClassificationimporttorchclassTriageMod
不懂英语可以学编程吗?,不懂英文可以学编程吗 P5688346 人工智能
大家好，给大家分享一下英语不好能学python编程吗，很多人还不知道这一点。下面详细解释一下。现在让我们来看看！Sourcecodedownload:本文相关源码提到人工智能，就不得不提Python编程语言，大多数人觉得编程语言肯定会涉及到很多代码，满屏的英文字母，想想就头疼，觉得自己不会英语，肯定学不好Python，但是不会英语到底能不能够学习Python呢，下面小编给大家分析分析。其实各位想要
Python基于深度学习的动物图片识别技术的研究与实现 Java老徐 Python 毕业设计 python 深度学习开发语言深度学习的动物图片识别技术 Python动物图片识别技术
博主介绍：✌程序员徐师兄、7年大厂程序员经历。全网粉丝12w+、csdn博客专家、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌文末获取源码联系精彩专栏推荐订阅不然下次找不到哟2022-2024年最全的计算机软件毕业设计选题大全：1000个热门选题推荐✅Java项目精品实战案例《100套》Java微信小程序项目实战《100套》感兴趣的可以先收藏起来，还有大家
【深度学习与大模型基础】第7章-特征分解与奇异值分解 lynn-66 深度学习与大模型基础算法机器学习人工智能
一、特征分解特征分解（EigenDecomposition）是线性代数中的一种重要方法，广泛应用于计算机行业的多个领域，如机器学习、图像处理和数据分析等。特征分解将一个方阵分解为特征值和特征向量的形式，帮助我们理解矩阵的结构和性质。1.特征分解的定义对于一个n×n的方阵A，如果存在一个非零向量v和一个标量λ，使得：则称λ为矩阵A的特征值，v为对应的特征向量。特征分解将矩阵A分解为：其中：Q是由特征
《当人工智能遇上广域网：跨越地理距离的通信变革》程序猿阿伟人工智能
在数字化时代，广域网作为连接全球信息的纽带，让数据能够在不同地区的网络之间流动。然而，地理距离给广域网数据传输带来诸多挑战，如高延迟、低带宽、信号衰减和不稳定等问题。幸运的是，飞速发展的人工智能技术为解决这些难题提供了新的方向，开启了广域网传输的新篇章。广域网传输面临的地理挑战广域网覆盖范围极为广泛，可连接不同城市、国家甚至跨越洲际，这使得数据传输要跨越漫长的地理距离。以跨国公司的广域网为例，其总
震惊！ “深度学习”都在学习什么扉间798 深度学习学习人工智能
常见的机器学习分类算法俗话说三个臭皮匠胜过诸葛亮这里面集成学习就是将单一的算法弱弱结合算法融合用投票给特征值加权重AdaBoost集成学习算法通过迭代训练一系列弱分类器，给予分类错误样本更高权重，使得后续弱分类器更关注这些样本，然后将这些弱分类器线性组合成强分类器，提高整体分类性能。（一）投票机制投票是一种直观且常用的算法融合策略。在多分类问题中，假设有多个分类器对同一数据进行分类判断。每个分类器
NLP高频面试题（十）——目前常见的几种大模型架构是啥样的 Chaos_Wang_ NLP常见面试题自然语言处理架构人工智能
深入浅出：目前常见的几种大模型架构解析随着Transformer模型的提出与发展，语言大模型迅速崛起，已经成为人工智能领域最为关注的热点之一。本文将为大家详细解析几种目前常见的大模型架构，帮助读者理解其核心差异及适用场景。1.什么是LLM（大语言模型）？LLM通常指参数量巨大、能够捕捉丰富语义信息的Transformer模型，它们通过海量的文本数据训练而成，能够实现高度逼真的文本生成、复杂的语言理
深度学习 | pytorch + torchvision + python 版本对应及环境安装 zfgfdgbhs 深度学习 python pytorch
目录一、版本对应二、安装命令（pip）1.版本（1）v2.5.1~v2.0.0（2）v1.13.1~v1.11.0（3）v1.10.1~v1.7.02.安装全过程（1）选择版本（2）安装结果参考文章一、版本对应下表来自pytorch的github官方文档：pytorch/vision:Datasets,TransformsandModelsspecifictoComputerVisionpytor
机器学习 Day01人工智能概述山北雨夜漫步机器学习人工智能
1.什么样的程序适合在gpu上运行计算密集型的程序：此类程序主要运算集中在寄存器，寄存器读写速度快，而GPU拥有强大的计算能力，能高效处理大量的寄存器运算，因此适合在GPU上运行。像科学计算中的数值模拟、密码破解等场景的程序，都属于计算密集型，在GPU上运行可大幅提升运算速度。易于并行的程序：GPU采用SIMD架构，有众多核心，同一时间每个核心适合做相同的事。易于并行的程序能充分利用GPU这一特性
《今日AI-人工智能-编程日报》-源自2025年3月20日小亦编辑部每日AI-人工智能-编程日报人工智能大数据
一、AI行业动态英伟达新一代AI芯片Rubin发布计划英伟达宣布其新一代AI芯片Rubin将于2026年下半年推出，下下一代AI芯片架构命名为Feynman，计划于2028年登场。同时，英伟达还推出了RTXPRO6000系列Blackwell专业卡，拥有24064核心、96GB显存和最高600W功耗。OpenAI星际之门数据中心建设进展OpenAI的首个数据中心“星际之门”预计于2026年中在德克
一文讲清楚深度学习和机器学习平凡而伟大. 机器学习人工智能深度学习机器学习人工智能
目录1.定义机器学习（MachineLearning,ML）深度学习（DeepLearning,DL）2.工作原理机器学习深度学习3.应用场景机器学习深度学习4.主要区别5.为什么选择深度学习？6.总结深度学习和机器学习是人工智能（AI）领域中两个密切相关但有所区别的概念。要清楚地解释它们之间的关系，我们可以从定义、工作原理、应用场景以及两者的主要区别等方面进行探讨。1.定义机器学习（Machin
AIOps：解决企业IT挑战的智能利器雅菲奥朗认证培训 AIOps SRE 可观测性
前言：在当今数字化的时代，企业IT基础设施和应用程序规模不断扩大，面临着日益复杂的挑战。在这种情况下，AIOps人工智能运维成为解决企业IT运维困境的智能利器。AIOps与可观测性密切相关，可观测性是实现AIOps的基础。通过收集、监视和理解系统数据，AIOps能够自动化运维任务、实时监控系统状态、预测潜在问题，从而提高效率和稳定性。AIOps尤其适用于IT运维部门，这是一个迫切需要此类技术的群体
使用AIOps进行更好的事件管理茵赛飞3D CAD数据转换软件 pagerduty devops 人工智能运维
DevOps为科技界带来了更加协作和高效的工作流程。随着AIOps的集成，自动化更进一步，使用人工智能为团队提供更快的根本原因分析和算法降噪。主要从采用AIOps中受益的主要领域之一是事件管理。AIOps可以帮助DevOps团队自动化工作流程，以实现更智能、更高效的事件管理，从而腾出时间让IT运营团队成员专注于创新以改善用户体验。在本文中，我们将了解AIOps如何从检测和识别到响应改进事件管理，以
AI大模型编程能力对比：Deepseek&Claude&Gemini 黑夜路人（heiyeluren） AI人工智能人工智能 ai AIGC 语言模型
在当今快速发展的技术领域，人工智能（AI）模型在编程和数据处理方面的应用越来越广泛。不同的AI模型因其独特的设计理念和技术优势，适用于不同的编程任务和场景。本文将对三种主流的AI模型——DeepSeekv3、GeminiFlash2.0和Claude3.5Sonnet的编程能力进行详细对比，帮助读者根据具体需求选择最合适的工具。同时对DeepSeekv3、GeminiFlash2.0和Claude
DeepSeek：智能搜索与分析的新纪元 XRC2231 学习
在人工智能浪潮席卷全球的今天，DeepSeek如同一颗璀璨的新星，以其独特的魅力和强大的功能，在AI领域脱颖而出。DeepSeek，这一基于深度学习和数据挖掘技术的智能搜索与分析系统，不仅重新定义了搜索引擎的边界，更以其卓越的性能和广泛的应用场景，为全球用户带来了前所未有的智能体验。本文将从DeepSeek的定义、特点、应用场景、优势等方面进行全面而深入的介绍，带您领略这一新兴技术的独特魅力。一、
哈尔滨工业大学DeepSeek公开课人工智能：大模型原理技术与应用-从GPT到DeepSeek｜附视频下载方法你觉得205 人工智能机器学习大数据 ai 知识图谱 python 运维
导读INTRODUCTION今天继续哈尔滨工业大学车万翔教授带来了一场主题为“DeepSeek技术前沿与应用”的报告。本报告深入探讨了大语言模型在自然语言处理（NLP）领域的核心地位及其发展历程，从基础概念出发，延伸至语言模型在机器翻译、拼音输入法、语音识别等任务中的关键作用。强调了语言模型不仅辅助其他NLP任务，本身也蕴含大量知识，如地理信息、语义理解和推理能力。随着技术的发展，尤其是trans
如何用ruby来写hadoop的mapreduce并生成jar包 wudixiaotie mapreduce
ruby来写hadoop的mapreduce，我用的方法是rubydoop。怎么配置环境呢： 1.安装rvm：不说了网上有 2.安装ruby：由于我以前是做ruby的，所以习惯性的先安装了ruby，起码调试起来比jruby快多了。 3.安装jruby： rvm install jruby然后等待安
java编程思想 -- 访问控制权限百合不是茶 java 访问控制权限单例模式
访问权限是java中一个比较中要的知识点,它规定者什么方法可以访问,什么不可以访问一:包访问权限; 自定义包: package com.wj.control; //包 public class Demo { //定义一个无参的方法 public void DemoPackage(){ System.out.println("调用
[生物与医学]请审慎食用小龙虾 comsci 生物
现在的餐馆里面出售的小龙虾,有一些是在野外捕捉的,这些小龙虾身体里面可能带有某些病毒和细菌,人食用以后可能会导致一些疾病,严重的甚至会死亡..... 所以,参加聚餐的时候,最好不要点小龙虾...就吃养殖的猪肉,牛肉,羊肉和鱼,等动物蛋白质
org.apache.jasper.JasperException: Unable to compile class for JSP: 商人shang maven 2.2 jdk1.8
环境： jdk1.8 maven tomcat7-maven-plugin 2.0 原因： tomcat7-maven-plugin 2.0 不知吃 jdk 1.8，换成 tomcat7-maven-plugin 2.2就行，即 <plugin>
你的垃圾你处理掉了吗?GC oloz GC
前序:本人菜鸟，此文研究学习来自网络，各位牛牛多指教　 1.垃圾收集算法的核心思想　　Java语言建立了垃圾收集机制，用以跟踪正在使用的对象和发现并回收不再使用(引用)的对象。该机制可以有效防范动态内存分配中可能发生的两个危险：因内存垃圾过多而引发的内存耗尽，以及不恰当的内存释放所造成的内存非法引用。　　垃圾收集算法的核心思想是：对虚拟机可用内存空间，即堆空间中的对象进行识别
shiro 和 SESSSION 杨白白 shiro
shiro 在web项目里默认使用的是web容器提供的session，也就是说shiro使用的session是web容器产生的，并不是自己产生的，在用于非web环境时可用其他来源代替。在web工程启动的时候它就和容器绑定在了一起，这是通过web.xml里面的shiroFilter实现的。通过session.getSession()方法会在浏览器cokkice产生JESSIONID，当关闭浏览器，此
移动互联网终端淘宝客如何实现盈利小桔子移動客戶端淘客淘寶App
2012年淘宝联盟平台为站长和淘宝客带来的分成收入突破30亿元，同比增长100%。而来自移动端的分成达1亿元，其中美丽说、蘑菇街、果库、口袋购物等App运营商分成近5000万元。可以看出，虽然目前阶段PC端对于淘客而言仍旧是盈利的大头，但移动端已经呈现出爆发之势。而且这个势头将随着智能终端(手机，平板)的加速普及而更加迅猛
wordpress小工具制作 aichenglong wordpress 小工具
wordpress 使用侧边栏的小工具，很方便调整页面结构小工具的制作过程 1 在自己的主题文件中新建一个文件夹(如widget)，在文件夹中创建一个php(AWP_posts-category.php) 小工具是一个类,想侧边栏一样，还得使用代码注册，他才可以再后台使用，基本的代码一层不变 <?php class AWP_Post_Category extends WP_Wi
JS微信分享 AILIKES js
// 所有功能必须包含在 WeixinApi.ready 中进行 WeixinApi.ready(function(Api) { // 微信分享的数据 var wxData = { &nb
封装探讨百合不是茶 JAVA面向对象封装
//封装属性方法将某些东西包装在一起，通过创建对象或使用静态的方法来调用，称为封装；封装其实就是有选择性地公开或隐藏某些信息，它解决了数据的安全性问题，增加代码的可读性和可维护性在 Aname类中申明三个属性，将其封装在一个类中：通过对象来调用例如 1： //属性将其设为私有姓名 name 可以公开
jquery radio/checkbox change事件不能触发的问题 bijian1013 JavaScript jquery
我想让radio来控制当前我选择的是机动车还是特种车，如下所示： <html> <head> <script src="http://ajax.googleapis.com/ajax/libs/jquery/1.7.1/jquery.min.js" type="text/javascript"><
AngularJS中安全性措施 bijian1013 JavaScript AngularJS 安全性 XSRF JSON漏洞
在使用web应用中，安全性是应该首要考虑的一个问题。AngularJS提供了一些辅助机制，用来防护来自两个常见攻击方向的网络攻击。一.JSON漏洞当使用一个GET请求获取JSON数组信息的时候（尤其是当这一信息非常敏感，
[Maven学习笔记九]Maven发布web项目 bit1129 maven
基于Maven的web项目的标准项目结构 user-project user-core user-service user-web src
【Hive七】Hive用户自定义聚合函数(UDAF) bit1129 hive
用户自定义聚合函数，用户提供的多个入参通过聚合计算(求和、求最大值、求最小值)得到一个聚合计算结果的函数。问题：UDF也可以提供输入多个参数然后输出一个结果的运算，比如加法运算add(3，5)，add这个UDF需要实现UDF的evaluate方法,那么UDF和UDAF的实质分别究竟是什么？ Double evaluate(Double a, Double b)
通过 nginx-lua 给 Nginx 增加 OAuth 支持 ronin47
前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGeek 在过去几年中取得了发展，我们已经积累了不少针对各种任务的不同管理接口。我们通常为新的展示需求创建新模块，比如我们自己的博客、图表等。我们还定期开发内部工具来处理诸如部署、可视化操作及事件处理等事务。在处理这些事务中，我们使用了几个不同的接口来认证： &n
利用tomcat-redis-session-manager做session同步时自定义类对象属性保存不上的解决方法 bsr1983 session
在利用tomcat-redis-session-manager做session同步时，遇到了在session保存一个自定义对象时，修改该对象中的某个属性，session未进行序列化，属性没有被存储到redis中。在 tomcat-redis-session-manager的github上有如下说明： Session Change Tracking As noted in the &qu
《代码大全》表驱动法-Table Driven Approach-1 bylijinnan java 算法
关于Table Driven Approach的一篇非常好的文章： http://www.codeproject.com/Articles/42732/Table-driven-Approach package com.ljn.base; import java.util.Random; public class TableDriven { public
Sybase封锁原理 chicony Sybase
昨天在操作Sybase IQ12.7时意外操作造成了数据库表锁定，不能删除被锁定表数据也不能往其中写入数据。由于着急往该表抽入数据，因此立马着手解决该表的解锁问题。无奈此前没有接触过Sybase IQ12.7这套数据库产品，加之当时已属于下班时间无法求助于支持人员支持，因此只有借助搜索引擎强大的
java异常处理机制 CrazyMizzz java
java异常关键字有以下几个，分别为 try catch final throw throws 他们的定义分别为 try： Opening exception-handling statement. catch： Captures the exception. finally： Runs its code before terminating
hive 数据插入DML语法汇总 daizj hive DML 数据插入
Hive的数据插入DML语法汇总1、Loading files into tables语法：1) LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)]解释：1)、上面命令执行环境为hive客户端环境下： hive>l
工厂设计模式 dcj3sjt126com 设计模式
使用设计模式是促进最佳实践和良好设计的好办法。设计模式可以提供针对常见的编程问题的灵活的解决方案。工厂模式工厂模式（Factory）允许你在代码执行时实例化对象。它之所以被称为工厂模式是因为它负责“生产”对象。工厂方法的参数是你要生成的对象对应的类名称。 Example #1 调用工厂方法（带参数） <?phpclass Example{
mysql字符串查找函数 dcj3sjt126com mysql
FIND_IN_SET(str,strlist) 假如字符串str 在由N 子链组成的字符串列表strlist 中，则返回值的范围在1到 N 之间。一个字符串列表就是一个由一些被‘,’符号分开的自链组成的字符串。如果第一个参数是一个常数字符串，而第二个是type SET列，则 FIND_IN_SET() 函数被优化，使用比特计算。如果str不在strlist 或st
jvm内存管理 easterfly jvm
一、JVM堆内存的划分分为年轻代和年老代。年轻代又分为三部分：一个eden,两个survivor。工作过程是这样的：e区空间满了后，执行minor gc，存活下来的对象放入s0, 对s0仍会进行minor gc，存活下来的的对象放入s1中，对s1同样执行minor gc，依旧存活的对象就放入年老代中；年老代满了之后会执行major gc，这个是stop the word模式，执行
CentOS-6.3安装配置JDK-8 gengzg centos
JAVA_HOME=/usr/java/jdk1.8.0_45 JRE_HOME=/usr/java/jdk1.8.0_45/jre PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME/lib export JAVA_HOME
【转】关于web路径的获取方法 huangyc1210 Web 路径
假定你的web application 名称为news,你在浏览器中输入请求路径： http://localhost:8080/news/main/list.jsp 则执行下面向行代码后打印出如下结果： 1、 System.out.println(request.getContextPath()); //可返回站点的根路径。也就是项
php里获取第一个中文首字母并排序远去的渡口数据结构 PHP
很久没来更新博客了，还是觉得工作需要多总结的好。今天来更新一个自己认为比较有成就的问题吧。最近在做储值结算，需求里结算首页需要按门店的首字母A-Z排序。我的数据结构原本是这样的： Array ( [0] => Array ( [sid] => 2885842 [recetcstoredpay] =&g
java内部类 hm4123660 java 内部类匿名内部类成员内部类方法内部类
　在Java中，可以将一个类定义在另一个类里面或者一个方法里面，这样的类称为内部类。内部类仍然是一个独立的类，在编译之后内部类会被编译成独立的.class文件，但是前面冠以外部类的类名和$符号。内部类可以间接解决多继承问题,可以使用内部类继承一个类，外部类继承一个类，实现多继承。 &nb
Caused by: java.lang.IncompatibleClassChangeError: class org.hibernate.cfg.Exten zhb8015
maven pom.xml关于hibernate的配置和异常信息如下，查了好多资料，问题还是没有解决。只知道是包冲突，就是不知道是哪个包....遇到这个问题的分享下是怎么解决的。。 maven pom: <dependency> <groupId>org.hibernate</groupId> <ar
Spark 性能相关参数配置详解－任务调度篇 Stark_Summer spark cache cpu 任务调度 yarn
随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 本文试图通过阐述这其中部分参数的工作原理和配置思路, 和大家一起探讨一下如何根据实际场合对Spark进行配置优化。由于篇幅较长，所以在这里分篇组织，如果要看最新完整的网页版内容，可以戳这里：http://spark-config.readthedocs.org/，主要是便
css3滤镜 wangkeheng html css
经常看到一些网站的底部有一些灰色的图标，鼠标移入的时候会变亮，开始以为是js操作src或者bg呢，搜索了一下，发现了一个更好的方法：通过css3的滤镜方法。 html代码： <a href='' class='icon'><img src='utv.jpg' /></a> css代码： .icon{-webkit-filter: graysc