LeeZhao@

NLP之Transformer详解

Transformer详解

Attention is all you need 是一篇将 Attention 思想发挥到极致的论文，出自 Google。这篇论文中提出一个全新的模型，叫 Transformer，抛弃了以往深度学习任务里面使用到的 CNN 和 RNN (其实也不完全是，还是用到了一维卷积)。这个模型广泛应用于NLP领域，例如机器翻译，问答系统，文本摘要和语音识别等等方向。

参考资料：

Transformer 模型的 PyTorch 实现
《Attention is All You Need》浅读（简介+代码）
深度学习中的注意力机制 - 云+社区 - 腾讯云
Attention? Attention!
Building the Mighty Transformer for Sequence Tagging in PyTorch

Transformer详解
- 1 Transformer 整体框架
- - 1.1 Encoder
  - 1.2 Decoder
  - 1.3 Attention
  - 1.4 Self-Attention
  - 1.5 Context-Attention
  - 1.6 Scaled Dot-Product Attention
  - 1.7 Scaled Dot-Product Attention 实现
  - 1.8 Multi-head attention
  - 1.9 Multi-head attention 实现
  - 1.10 Layer normalization
  - 1.11 Mask
  - 1.12 Positional Embedding
  - 1.13 Position-wise Feed-Forward network
- 2 Transformer的实现
- - 2.1 Encoder 端
  - 2.2 Decoder 端
  - 2.3 Transformer 模型

1 Transformer 整体框架

和经典的 seq2seq 模型一样，Transformer 模型中也采用了 encoer-decoder 架构。上图的左半边用 NX 框出来的，就代表一层 encoder，其中论文里面的 encoder 一共有6层这样的结构。上图的右半边用 NX 框出来的，则代表一层 decoder，同样也有6层。

定义输入序列首先经过 word embedding，再和 positional encoding 相加后，输入到 encoder 中。输出序列经过的处理和输入序列一样，然后输入到 decoder。

最后，decoder 的输出经过一个线性层，再接 Softmax。

于上便是 Transformer 的整体框架，下面先来介绍 encoder 和 decoder。

1.1 Encoder

encoder由 6 层相同的层组成，每一层分别由两部分组成：

第一部分是 multi-head self-attention
第二部分是 position-wise feed-forward network，是一个全连接层

两个部分，都有一个残差连接(residual connection)，然后接着一个 Layer Normalization。

1.2 Decoder

和 encoder 类似，decoder 也是由6个相同的层组成，每一个层包括以下3个部分:

第一个部分是 multi-head self-attention mechanism
第二部分是 multi-head context-attention mechanism
第三部分是一个 position-wise feed-forward network

和 encoder 一样，上面三个部分的每一个部分，都有一个残差连接，后接一个 Layer Normalization。

decoder 和 encoder 不同的地方在 multi-head context-attention mechanism

1.3 Attention

我在以前的文章中讲过，Attention 如果用一句话来描述，那就是 encoder 层的输出经过加权平均后再输入到 decoder 层中。它主要应用在 seq2seq 模型中，这个加权可以用矩阵来表示，也叫 Attention 矩阵。它表示对于某个时刻的输出 y，它在输入 x 上各个部分的注意力。这个注意力就是我们刚才说到的加权。

Attention 又分为很多种，其中两种比较典型的有加性 Attention 和乘性 Attention。加性 Attention 对于输入的隐状态直接做 concat 操作，乘性 Attention 则是对输入和输出做 dot 操作。

在 Google 这篇论文中，使用的 Attention 模型是乘性 Attention。

我在之前讲 ESIM 模型的文章里面写过一个 soft-align-attention，大家可以参考体会一下。

1.4 Self-Attention

上面我们说attention机制的时候，都会说到两个隐状态hi和St，前者是输入序列第 i个位置产生的隐状态，后者是输出序列在第 t 个位置产生的隐状态。所谓 self-attention 实际上就是，输出序列就是输入序列。因而自己计算自己的 attention 得分。

1.5 Context-Attention

context-attention 是 encoder 和 decoder 之间的 attention，是两个不同序列之间的attention，与来源于自身的 self-attention 相区别。

不管是哪种 attention，我们在计算 attention 权重的时候，可以选择很多方式，常用的方法有

additive attention
local-base
general
dot-product
scaled dot-product

Transformer模型采用的是最后一种：scaled dot-product attention。

1.6 Scaled Dot-Product Attention

那么什么是 scaled dot-product attention 呢？

Google 在论文中对 Attention 机制这么来描述：

An attention function can be described as a query and a set of key-value pairs to an output, where the query, keys, values, and output are all vectors. The output is computed as a weighted sum of the values, where the weight assigned to each value is computed by a compatibility of the query with the corresponding key.

通过 query 和 key 的相似性程度来确定 value 的权重分布。论文中的公式长下面这个样子：

看到 Q，K，V 会不会有点晕，没事，后面会解释。

scaled dot-product attention 的结构图如下所示。

现在来说下 K、Q、V 分别代表什么：

目前可能描述有有点抽象，不容易理解。结合一些应用来说，比如，如果是在自动问答任务中的话，Q 可以代表答案的词向量序列，取 K = V 为问题的词向量序列，那么输出就是所谓的 Aligned Question Embedding。

Google 论文的主要贡献之一是它表明了内部注意力在机器翻译 (甚至是一般的Seq2Seq任务）的序列编码上是相当重要的，而之前关于 Seq2Seq 的研究基本都只是把注意力机制用在解码端。

1.7 Scaled Dot-Product Attention 实现

import torch
import torch.nn as nn
import torch.functional as F
import numpy as np

class ScaledDotProductAttention(nn.Module):
    """Scaled dot-product attention mechanism."""

    def __init__(self, attention_dropout=0.0):
        super(ScaledDotProductAttention, self).__init__()
        self.dropout = nn.Dropout(attention_dropout)
        self.softmax = nn.Softmax(dim=2)

    def forward(self, q, k, v, scale=None, attn_mask=None):
        """
        前向传播.
        Args:
        	q: Queries张量，形状为[B, L_q, D_q]
        	k: Keys张量，形状为[B, L_k, D_k]
        	v: Values张量，形状为[B, L_v, D_v]，一般来说就是k
        	scale: 缩放因子，一个浮点标量
        	attn_mask: Masking张量，形状为[B, L_q, L_k]

        Returns:
        	上下文张量和attention张量
        """
        attention = torch.bmm(q, k.transpose(1, 2))
        if scale:
            attention = attention * scale
        if attn_mask:
            # 给需要 mask 的地方设置一个负无穷
            attention = attention.masked_fill_(attn_mask, -np.inf)
	# 计算softmax
        attention = self.softmax(attention)
	# 添加dropout
        attention = self.dropout(attention)
	# 和V做点积
        context = torch.bmm(attention, v)
        return context, attention

1.8 Multi-head attention

理解了 Scaled dot-product attention，Multi-head attention 也很容易理解啦。论文提到，他们发现将 Q、K、V 通过一个线性映射之后，分成 h 份，对每一份进行 scaled dot-product attention 效果更好。然后，把各个部分的结果合并起来，再次经过线性映射，得到最终的输出。这就是所谓的 multi-head attention。上面的超参数 h 就是 heads 的数量。论文默认是 8。

multi-head attention 的结构图如下所示。

1.9 Multi-head attention 实现

class MultiHeadAttention(nn.Module):

    def __init__(self, model_dim=512, num_heads=8, dropout=0.0):
        super(MultiHeadAttention, self).__init__()

        self.dim_per_head = model_dim // num_heads
        self.num_heads = num_heads
        self.linear_k = nn.Linear(model_dim, self.dim_per_head * num_heads)
        self.linear_v = nn.Linear(model_dim, self.dim_per_head * num_heads)
        self.linear_q = nn.Linear(model_dim, self.dim_per_head * num_heads)

        self.dot_product_attention = ScaledDotProductAttention(dropout)
        self.linear_final = nn.Linear(model_dim, model_dim)
        self.dropout = nn.Dropout(dropout)
	
        # multi-head attention之后需要做layer norm
        self.layer_norm = nn.LayerNorm(model_dim)

    def forward(self, key, value, query, attn_mask=None):
	# 残差连接
        residual = query
        dim_per_head = self.dim_per_head
        num_heads = self.num_heads
        batch_size = key.size(0)

        # linear projection
        key = self.linear_k(key)
        value = self.linear_v(value)
        query = self.linear_q(query)

        # split by heads
        key = key.view(batch_size * num_heads, -1, dim_per_head)
        value = value.view(batch_size * num_heads, -1, dim_per_head)
        query = query.view(batch_size * num_heads, -1, dim_per_head)

        if attn_mask:
            attn_mask = attn_mask.repeat(num_heads, 1, 1)

        # scaled dot product attention
        scale = (key.size(-1)) ** -0.5
        context, attention = self.dot_product_attention(
          query, key, value, scale, attn_mask)

        # concat heads
        context = context.view(batch_size, -1, dim_per_head * num_heads)

        # final linear projection
        output = self.linear_final(context)

        # dropout
        output = self.dropout(output)

        # add residual and norm layer
        output = self.layer_norm(residual + output)

        return output, attention

上面代码中出现的 Residual connection 我在之前一篇文章中讲过，这里不再赘述，只解释 Layer normalization。

1.10 Layer normalization

Normalization 有很多种，但是它们都有一个共同的目的，那就是把输入转化成均值为 0 方差为 1 的数据。我们在把数据送入激活函数之前进行 normalization（归一化），因为我们不希望输入数据落在激活函数的饱和区。

说到 normalization，那就肯定得提到 Batch Normalization。

BN 的主要思想就是：在每一层的每一批数据上进行归一化。我们可能会对输入数据进行归一化，但是经过该网络层的作用后，我们的数据已经不再是归一化的了。随着这种情况的发展，数据的偏差越来越大，我的反向传播需要考虑到这些大的偏差，这就迫使我们只能使用较小的学习率来防止梯度消失或者梯度爆炸。

BN 的具体做法就是对每一小批数据，在批这个方向上做归一化。如下图所示：

可以看到，右半边求均值是沿着数据 batch N 的方向进行的！

Batch normalization 的计算公式如下：

那么什么是 Layer normalization 呢？它也是归一化数据的一种方式，不过 LN 是在每一个样本上计算均值和方差，而不是 BN 那种在批方向计算均值和方差！

下面是 LN 的示意图：

和上面的 BN 示意图一比较就可以看出二者的区别啦！

下面看一下 LN 的公式：

1.11 Mask

mask 表示掩码，它对某些值进行掩盖，使其在参数更新时不产生效果。Transformer 模型里面涉及两种 mask，分别是 padding mask 和 sequence mask。

其中，padding mask 在所有的 scaled dot-product attention 里面都需要用到，而 sequence mask 只有在 decoder 的 self-attention 里面用到。

Padding Mask

什么是 padding mask 呢？因为每个批次输入序列长度是不一样的也就是说，我们要对输入序列进行对齐。具体来说，就是给在较短的序列后面填充 0。因为这些填充的位置，其实是没什么意义的，所以我们的 attention 机制不应该把注意力放在这些位置上，所以我们需要进行一些处理。

具体的做法是，把这些位置的值加上一个非常大的负数(负无穷)，这样的话，经过 softmax，这些位置的概率就会接近0！

而我们的 padding mask 实际上是一个张量，每个值都是一个 Boolean，值为 false 的地方就是我们要进行处理的地方。

实现：

def padding_mask(seq_k, seq_q):
    # seq_k 和 seq_q 的形状都是 [B,L]
    len_q = seq_q.size(1)
    # `PAD` is 0
    pad_mask = seq_k.eq(0)
    pad_mask = pad_mask.unsqueeze(1).expand(-1, len_q, -1)  # shape [B, L_q, L_k]
    return pad_mask

Sequence mask

文章前面也提到，sequence mask 是为了使得 decoder 不能看见未来的信息。也就是对于一个序列，在 time_step 为 t 的时刻，我们的解码输出应该只能依赖于 t 时刻之前的输出，而不能依赖 t 之后的输出。因此我们需要想一个办法，把 t 之后的信息给隐藏起来。

那么具体怎么做呢？也很简单：产生一个上三角矩阵，上三角的值全为 1，下三角的值权威0，对角线也是 0。把这个矩阵作用在每一个序列上，就可以达到我们的目的啦。

具体的代码实现如下：

def sequence_mask(seq):
    batch_size, seq_len = seq.size()
    mask = torch.triu(torch.ones((seq_len, seq_len), dtype=torch.uint8),
                    diagonal=1)
    mask = mask.unsqueeze(0).expand(batch_size, -1, -1)  # [B, L, L]
    return mask

效果如下，

对于 decoder 的 self-attention，里面使用到的 scaled dot-product attention，同时需要padding mask 和 sequence mask 作为 attn_mask，具体实现就是两个 mask 相加作为attn_mask。
其他情况，attn_mask 一律等于 padding mask。

1.12 Positional Embedding

现在的 Transformer 架构还没有提取序列顺序的信息，这个信息对于序列而言非常重要，如果缺失了这个信息，可能我们的结果就是：所有词语都对了，但是无法组成有意义的语句。

为了解决这个问题。论文使用了 Positional Embedding：对序列中的词语出现的位置进行编码。

在实现的时候使用正余弦函数。公式如下：

其中，pos 是指词语在序列中的位置。可以看出，在偶数位置，使用正弦编码，在奇数位置，使用余弦编码。

上面的位置编码是绝对位置编码。但是词语的相对位置也非常重要。这就是论文为什么要使用三角函数的原因！

正弦函数能够表达相对位置信息，主要数学依据是以下两个公式：

具体实现如下：

class PositionalEncoding(nn.Module):
    
    def __init__(self, d_model, max_seq_len):
        """初始化。
        Args:
            d_model: 一个标量。模型的维度，论文默认是512
            max_seq_len: 一个标量。文本序列的最大长度
        """
        super(PositionalEncoding, self).__init__()
        
        # 根据论文给的公式，构造出PE矩阵
        position_encoding = np.array([
          [pos / np.power(10000, 2.0 * (j // 2) / d_model) for j in range(d_model)]
          for pos in range(max_seq_len)])
        # 偶数列使用sin，奇数列使用cos
        position_encoding[:, 0::2] = np.sin(position_encoding[:, 0::2])
        position_encoding[:, 1::2] = np.cos(position_encoding[:, 1::2])

        # 在PE矩阵的第一行，加上一行全是0的向量，代表这`PAD`的positional encoding
        # 在word embedding中也经常会加上`UNK`，代表位置单词的word embedding，两者十分类似
        # 那么为什么需要这个额外的PAD的编码呢？很简单，因为文本序列的长度不一，我们需要对齐，
        # 短的序列我们使用0在结尾补全，我们也需要这些补全位置的编码，也就是`PAD`对应的位置编码
        pad_row = torch.zeros([1, d_model])
        position_encoding = torch.cat((pad_row, position_encoding))
        
        # 嵌入操作，+1是因为增加了`PAD`这个补全位置的编码，
        # Word embedding中如果词典增加`UNK`，我们也需要+1。看吧，两者十分相似
        self.position_encoding = nn.Embedding(max_seq_len + 1, d_model)
        self.position_encoding.weight = nn.Parameter(position_encoding,
                                                     requires_grad=False)
    def forward(self, input_len):
        """神经网络的前向传播。

        Args:
          input_len: 一个张量，形状为[BATCH_SIZE, 1]。每一个张量的值代表这一批文本序列中对应的长度。

        Returns:
          返回这一批序列的位置编码，进行了对齐。
        """
        
        # 找出这一批序列的最大长度
        max_len = torch.max(input_len)
        tensor = torch.cuda.LongTensor if input_len.is_cuda else torch.LongTensor
        # 对每一个序列的位置进行对齐，在原序列位置的后面补上0
        # 这里range从1开始也是因为要避开PAD(0)的位置
        input_pos = tensor(
          [list(range(1, len + 1)) + [0] * (max_len - len) for len in input_len])
        return self.position_encoding(input_pos)

1.13 Position-wise Feed-Forward network

这是一个全连接网络，包含两个线性变换和一个非线性函数(实际上就是 ReLU)。公式如下

这个线性变换在不同的位置都表现地一样，并且在不同的层之间使用不同的参数。

这里实现上用到了两个一维卷积。

实现如下:

class PositionalWiseFeedForward(nn.Module):

    def __init__(self, model_dim=512, ffn_dim=2048, dropout=0.0):
        super(PositionalWiseFeedForward, self).__init__()
        self.w1 = nn.Conv1d(model_dim, ffn_dim, 1)
        self.w2 = nn.Conv1d(ffn_dim, model_dim, 1)
        self.dropout = nn.Dropout(dropout)
        self.layer_norm = nn.LayerNorm(model_dim)

    def forward(self, x):
        output = x.transpose(1, 2)
        output = self.w2(F.relu(self.w1(output)))
        output = self.dropout(output.transpose(1, 2))

        # add residual and norm layer
        output = self.layer_norm(x + output)
        return output

2 Transformer的实现

现在可以开始完成 Transformer 模型的构建了，encoder 端和 decoder 端分别都有 6 层，实现如下，首先是

2.1 Encoder 端

class EncoderLayer(nn.Module):
	"""Encoder的一层。"""

    def __init__(self, model_dim=512, num_heads=8, ffn_dim=2048, dropout=0.0):
        super(EncoderLayer, self).__init__()

        self.attention = MultiHeadAttention(model_dim, num_heads, dropout)
        self.feed_forward = PositionalWiseFeedForward(model_dim, ffn_dim, dropout)

    def forward(self, inputs, attn_mask=None):

        # self attention
        context, attention = self.attention(inputs, inputs, inputs, padding_mask)

        # feed forward network
        output = self.feed_forward(context)

        return output, attention


class Encoder(nn.Module):
	"""多层EncoderLayer组成Encoder。"""

    def __init__(self,
               vocab_size,
               max_seq_len,
               num_layers=6,
               model_dim=512,
               num_heads=8,
               ffn_dim=2048,
               dropout=0.0):
        super(Encoder, self).__init__()

        self.encoder_layers = nn.ModuleList(
          [EncoderLayer(model_dim, num_heads, ffn_dim, dropout) for _ in
           range(num_layers)])

        self.seq_embedding = nn.Embedding(vocab_size + 1, model_dim, padding_idx=0)
        self.pos_embedding = PositionalEncoding(model_dim, max_seq_len)

    def forward(self, inputs, inputs_len):
        output = self.seq_embedding(inputs)
        output += self.pos_embedding(inputs_len)

        self_attention_mask = padding_mask(inputs, inputs)

        attentions = []
        for encoder in self.encoder_layers:
            output, attention = encoder(output, self_attention_mask)
            attentions.append(attention)

        return output, attentions

2.2 Decoder 端

class DecoderLayer(nn.Module):

    def __init__(self, model_dim, num_heads=8, ffn_dim=2048, dropout=0.0):
        super(DecoderLayer, self).__init__()

        self.attention = MultiHeadAttention(model_dim, num_heads, dropout)
        self.feed_forward = PositionalWiseFeedForward(model_dim, ffn_dim, dropout)

    def forward(self,
              dec_inputs,
              enc_outputs,
              self_attn_mask=None,
              context_attn_mask=None):
        # self attention, all inputs are decoder inputs
        dec_output, self_attention = self.attention(
          dec_inputs, dec_inputs, dec_inputs, self_attn_mask)

        # context attention
        # query is decoder's outputs, key and value are encoder's inputs
        dec_output, context_attention = self.attention(
          enc_outputs, enc_outputs, dec_output, context_attn_mask)

        # decoder's output, or context
        dec_output = self.feed_forward(dec_output)

        return dec_output, self_attention, context_attention


class Decoder(nn.Module):

    def __init__(self,
               vocab_size,
               max_seq_len,
               num_layers=6,
               model_dim=512,
               num_heads=8,
               ffn_dim=2048,
               dropout=0.0):
        super(Decoder, self).__init__()

        self.num_layers = num_layers

        self.decoder_layers = nn.ModuleList(
          [DecoderLayer(model_dim, num_heads, ffn_dim, dropout) for _ in
           range(num_layers)])

        self.seq_embedding = nn.Embedding(vocab_size + 1, model_dim, padding_idx=0)
        self.pos_embedding = PositionalEncoding(model_dim, max_seq_len)

    def forward(self, inputs, inputs_len, enc_output, context_attn_mask=None):
        output = self.seq_embedding(inputs)
        output += self.pos_embedding(inputs_len)

        self_attention_padding_mask = padding_mask(inputs, inputs)
        seq_mask = sequence_mask(inputs)
        self_attn_mask = torch.gt((self_attention_padding_mask + seq_mask), 0)

        self_attentions = []
        context_attentions = []
        for decoder in self.decoder_layers:
            output, self_attn, context_attn = decoder(
            output, enc_output, self_attn_mask, context_attn_mask)
            self_attentions.append(self_attn)
            context_attentions.append(context_attn)

        return output, self_attentions, context_attentions

组合一下

2.3 Transformer 模型

class Transformer(nn.Module):
	def __init__(self,
	           src_vocab_size,
	           src_max_len,
	           tgt_vocab_size,
	           tgt_max_len,
	           num_layers=6,
	           model_dim=512,
	           num_heads=8,
	           ffn_dim=2048,
	           dropout=0.2):
	    super(Transformer, self).__init__()
	
	    self.encoder = Encoder(src_vocab_size, src_max_len, num_layers, model_dim,
	                           num_heads, ffn_dim, dropout)
	    self.decoder = Decoder(tgt_vocab_size, tgt_max_len, num_layers, model_dim,
	                           num_heads, ffn_dim, dropout)
	
	    self.linear = nn.Linear(model_dim, tgt_vocab_size, bias=False)
	    self.softmax = nn.Softmax(dim=2)
	
	def forward(self, src_seq, src_len, tgt_seq, tgt_len):
	    context_attn_mask = padding_mask(tgt_seq, src_seq)
	
	    output, enc_self_attn = self.encoder(src_seq, src_len)
	
	    output, dec_self_attn, ctx_attn = self.decoder(
	      tgt_seq, tgt_len, output, context_attn_mask)
	
	    output = self.linear(output)
	    output = self.softmax(output)
	
	return output, enc_self_attn, dec_self_attn, ctx_attn

书籍-《动手学深度学习（英文版）》
书籍：DiveintoDeepLearning作者：AstonZhang，ZacharyC.Lipton，MuLi，AlexanderJ.Smola出版：CambridgeUniversityPress编辑：陈萍萍的公主@一点人工一点智能下载：书籍下载-《动手学深度学习（英文版）》01书籍介绍深度学习已经彻底改变了模式识别，为计算机视觉、自然语言处理和自动语音识别等领域提供了强大的工具。应用深度学
向量数据库 PieCloudVector 进阶系列丨打造以 LLM 为基础的聊天机器人
本系列前两篇文章深入探讨了PieCloudVector在图片和音频数据上的应用之后，本文将聚焦于文本数据，探索PieCloudVector对于文本数据的向量化处理、存储以及检索，并最终结合LLM打造聊天机器人的全流程。在自然语言处理任务中涉及到大量对文本数据的处理、分析和理解，而向量数据库在其中发挥了重要的作用。本文为《PieCloudVector进阶系列》的第三篇，将为大家介绍如何利用PieCl
【十自然语言处理项目实战】【10.2 数据收集与预处理】再见孙悟空_ #自然语言处理人工智能知识图谱 transformer 自然语言处理数据收集自然语言处理预处理自然语言处理项目
各位在数据泥潭里打滚的勇士们，今天咱们要聊的这个话题，就像学做川菜必须掌握的"火锅底料炒制法"——数据收集与预处理！这玩意儿看着像脏活累活，实则是决定你模型上限的生死关卡。作为一个曾把BERT训成人工智障的老司机，这就把五年掉坑经验熬成一锅十全大补汤！（戴上橡胶手套准备掏数据）一、数据收集的野路子：比盗墓还刺激的冒险1.1公开数据集寻宝图（附藏宝坐标）①正道的光：Kaggle（数据界的沃尔玛）：搜
实战LLM强化学习——使用GRPO（DeepSeek R1出圈算法）大富大贵7 程序员知识储备1 程序员知识储备2 程序员知识储备3 经验分享
引言近年来，深度强化学习（DRL）已经成为解决复杂决策问题的一个强有力工具，尤其是在自然语言处理（NLP）领域的广泛应用。通过不断优化决策策略，DRL能在大量数据中学习最佳行为，尤其是大型语言模型（LLM）在任务中展现出的巨大潜力。然而，随着模型规模的扩大和任务复杂性的增加，传统的强化学习算法开始暴露出训练效率低、收敛速度慢等问题。为了解决这些挑战，DeepSeek公司提出了一个新的强化学习算法—
混合整数非线性规划的松弛与分解方法 Waiyuet Fung 混合整数非线性规划松弛方法分解技术启发式算法全局优化
背景简介混合整数非线性规划（MINLPs）作为运筹学中的一个重要领域，涉及到优化问题的连续和离散变量混合，在工程设计、生产调度、资源分配等多个领域发挥着关键作用。本书由I.Nowak撰写，旨在深入探讨这一复杂的优化问题及其解决方案。MINLPs基础概念在本书的第一部分，Nowak介绍了MINLPs的基本概念。MINLPs的目标是寻找一组连续和整数变量的最优组合，以最小化或最大化某个非线性目标函数。
理解并使用基于n-gram重叠的示例选择器 shuoac easyui 前端 javascript python
在AI及自然语言处理任务中，选择与输入最相似的示例可以显著提升生成的质量和上下文相关性。本文将介绍如何使用NGramOverlapExampleSelector工具，通过n-gram重叠来筛选和排序示例，从而帮助实现这一目标。技术背景介绍n-gram重叠技术通过比较输入文本与示例文本在字符或词组上的相似度，计算一个介于0到1之间的分数来表示相似度。这个分数越高，表示文本间的重叠越大。NGramOv
文本纠错（Text Correction） dundunmm 人工智能数据挖掘文本纠错人工智能数据挖掘文本纠错深度学习
文本纠错（TextCorrection）是自然语言处理（NLP）中的一个重要任务，旨在自动检测并修正文本中的错误，包括拼写、语法、语义等层面的错误。其核心目标是通过算法模型将错误文本转换为符合语言规范的表达。该任务在自动写作辅助、搜索引擎优化、智能客服、教育等多个领域具有广泛应用。输入：包含错误的原始文本（如“我明天要去北京，希望天汽好。”）输出：修正后的规范文本（如“我明天要去北京，希望天气好。
使用CharacterTextSplitter实现文本按字符拆分 bavDHAUO python
在文本处理任务中，按字符进行拆分是一种简单且有效的方法。本篇文章将介绍如何使用CharacterTextSplitter类对文本进行按字符拆分，并生成适用于下游任务的LangChainDocument对象。技术背景介绍文本拆分是自然语言处理（NLP）中的一个基础步骤，尤其在大文本分块处理、文本摘要等任务中。CharacterTextSplitter是langchain-text-splitters
【产品小白】什么是AI产品经理百事不可口y 产品经理的一步一步人工智能产品经理学习产品运营内容运营用户运营
一、AI产品经理的定义与角色定位AI产品经理是人工智能技术与商业应用之间的核心桥梁，负责将复杂的AI技术转化为满足市场需求的产品。需同时具备技术理解力、商业洞察力和用户思维，既要参与算法选型与数据建模，又要定义产品功能与市场策略，是贯穿产品全生命周期的关键角色。与传统互联网产品经理相比，AI产品经理的独特之处在于：技术深度参与：需理解机器学习、自然语言处理（NLP）、计算机视觉等技术原理，并参与数
人工智能（AI）系统化学习路线 xiaoyu❅ python 人工智能学习
一、为什么需要系统化学习AI？人工智能技术正在重塑各行各业，但许多初学者容易陷入误区：❌盲目跟风：直接学习TensorFlow/PyTorch，忽视数学与算法基础。❌纸上谈兵：只看理论不写代码，无法解决实际问题。❌方向模糊：对CV/NLP/RL等细分领域缺乏认知，难以针对性提升。正确的学习姿势：“金字塔式”分层学习（理论→算法→框架→应用→工程化），逐步构建完整的AI知识体系。二、人工智能学习路线
NLP高频面试题（三）——普通RNN的梯度消失和梯度爆炸问题 Chaos_Wang_ NLP常见面试题自然语言处理 rnn 人工智能
普通RNN（循环神经网络）的梯度消失和梯度爆炸问题是指在训练深层或长序列的RNN模型时出现的两种典型问题：一、梯度消失（VanishingGradient）梯度消失是指在反向传播过程中，梯度逐层传播时变得越来越小，最终趋于接近0，导致模型前层的参数难以更新。原因：在反向传播时，每一层的梯度是通过链式法则计算得到的。因为链式求导中不断乘以一个较小的数值（小于1），随着层数或时间步的增加，梯度将指数级
使用LangChain实现大规模语言模型自发现推理结构 VYSAHF langchain 语言模型人工智能 python
使用LangChain实现大规模语言模型自发现推理结构在现代自然语言处理(NLP)的研究中，大规模语言模型（LLMs）已经展示了强大的能力。然而，在应对复杂的推理问题时，传统的提示方法常常力不从心。这篇文章将带您了解SELF-DISCOVER，一种新兴的框架，如何通过LangChain来实现自动化、动态化的推理结构构建，以提高LLMs的性能。技术背景介绍大规模语言模型（如GPT-4和PaLM2）已
【论文精读】PatchTST-基于分块及通道独立机制的Transformer模型打酱油的葫芦娃时序预测算法时序预测 PatchTST Transformer 预训练微调表征学习
《ATIMESERIESISWORTH64WORDS:LONG-TERMFORECASTINGWITHTRANSFORMERS》的作者团队来自PrincetonUniversity和IBMResearch，发表在ICLR2023会议上。动机Transformer模型因其自注意力机制在处理序列数据方面的优势，在自然语言处理（NLP）、计算机视觉（CV）、语音等多个领域取得了巨大成功。这种机制使得模型
低代码平台未来发展趋势有哪些？低代码
低代码平台的未来发展趋势呈现出多维度的创新与深化，以下结合JNPF快速开发平台的特性，为您分析其未来的发展方向：1.智能化与AI深度融合低代码平台将与人工智能技术深度融合，实现开发流程的智能化升级。例如，JNPF平台有望通过自然语言处理技术，让开发者仅需用自然语言描述需求，平台即可自动生成初步的应用架构和代码逻辑。此外，AI技术还将用于智能推荐、代码自动生成、流程自动化等功能，进一步提升开发效率。
Dify知识库构建流程及示例 cqbelt ai 笔记 AI应用
总体流程1.数据预处理清洗：去除噪声、特殊字符、标准化格式。分词/标记化：拆分文本为单词或子词单元（如使用Tokenizer）。元数据关联：附加来源、时间戳等信息，支持多维度检索。2.文本分块固定长度分块：按字符或Token数切分，简单高效。语义分块：基于句子边界或主题分割（如NLP模型识别段落主旨）。重叠策略：相邻块间部分重叠，避免上下文断裂。3.向量化（Embedding）嵌入模型：调用预训练
Dyn-VQA：含1452动态问题的视觉问答数据集，需灵活提供知识检索方案，查询、工具与检索时间皆可变。数据集
2024-11-05，由阿里巴巴集团创建Dyn-VQA数据集，它包含三种类型的“动态”问题，需要复杂的知识检索策略，这些问题的查询、工具和时间都是可变的。这个数据集的创建对于推动mRAG研究和解决现有VQA数据集无法充分反映启发式mRAGs在获取复杂知识方面的刚性问题具有重要意义。数据集地址：Dyn-VQA|多模态检索数据集|自然语言处理数据集一、研究背景：在多模态大型语言模型（MLLMs）中，解
统计机器学习 (Statistical Machine Learning) 原理与代码实例讲解 AGI大模型与大数据研究院 DeepSeek R1 &大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
统计机器学习(StatisticalMachineLearning)原理与代码实例讲解1.背景介绍统计机器学习是现代人工智能和数据科学的核心领域之一。它结合了统计学和计算机科学的理论与方法，通过数据驱动的方式来构建预测模型和决策系统。统计机器学习不仅在学术研究中占据重要地位，还在工业界有广泛应用，如推荐系统、图像识别、自然语言处理等。2.核心概念与联系2.1统计学与机器学习的关系统计学关注数据的收
AI人工智能深度学习算法：搭建可拓展的深度学习模型架构 AI大模型应用之禅 DeepSeek R1 &AI大模型与大数据 java python javascript kotlin golang 架构人工智能
深度学习、模型架构、可拓展性、神经网络、机器学习1.背景介绍深度学习作为人工智能领域最前沿的技术之一，在图像识别、自然语言处理、语音识别等领域取得了突破性的进展。深度学习模型的成功离不开其强大的学习能力和可拓展性。本文将深入探讨深度学习算法的原理、模型架构设计以及可拓展性的关键要素，并通过代码实例和实际应用场景，帮助读者理解如何搭建可拓展的深度学习模型架构。2.核心概念与联系深度学习的核心概念是人
NLP高频面试题（四）——BN和LN的区别与联系，为什么attention要用LN Chaos_Wang_ NLP常见面试题自然语言处理人工智能
在深度学习模型中，Normalization是一种极为重要的技巧，BatchNormalization（BN）和LayerNormalization（LN）是其中最为常用的两种方法。然而，二者在实际应用中有着明显的区别与联系，尤其在Transformer的Attention机制中，LN有着独特的优势。一、BN与LN的核心区别与联系1.BatchNormalization(BN)BN的思想源于一个叫
用 AI 提高开发效率：自动生成代码、优化 SQL 查询、写测试用例 Js_x 人工智能 sql 测试用例
引言人工智能（AI）正在深刻改变软件开发行业。从代码自动补全到SQL查询优化，再到自动化测试，AI工具已经成为开发者提高生产力的重要助手。本文将介绍ChatGPT、GitHubCopilot、Tabnine等AI编程工具的实际应用，帮助开发者更高效地编写代码、优化数据库查询，并自动生成测试用例。1.AI代码生成：提升开发效率1.1ChatGPT代码生成ChatGPT具备强大的自然语言处理能力，可以
RAG 在多模态数据处理中的应用探索：结合图像与文本生成 hy098543 AIGC
目录引言多模态数据处理的挑战与需求数据异质性与融合难题多样化应用场景的需求RAG在图像与文本生成中的应用架构图像检索与文本生成协同跨模态特征融合与生成关键技术与实现细节图像特征提取与表示文本检索与语义理解跨模态生成模型训练应用案例分析智能设计辅助医疗影像报告生成结论引言随着信息技术的飞速发展，数据呈现出多模态的特性，即包含文本、图像、音频、视频等多种形式。在自然语言处理（NLP）和计算机视觉（CV
理解深度学习1-简介 shangjg3 PyTorch深度学习实战深度学习人工智能
人工智能（AI）旨在打造模仿智能行为的系统。它覆盖了众多方法，涵盖了基于逻辑、搜索和概率推理的技术。机器学习是AI的一个分支，它通过对观测数据进行数学模型拟合来学习决策制定。这个领域近年来迅猛发展，现在几乎（虽不完全准确）与AI同义。深度神经网络是一类机器学习模型，将其应用到数据上的过程称为深度学习。目前，深度网络是最强大和最实用的机器学习模型之一，常见于日常生活中。我们常常用自然语言处理（Nat
李开复：AI 2.0 时代的价值 AI大模型应用之禅 DeepSeek R1 &AI大模型与大数据 java python javascript kotlin golang 架构人工智能
人工智能，AI2.0，价值创造，伦理挑战，未来趋势1.背景介绍人工智能（AI）技术近年来发展迅速，从语音识别、图像识别到自然语言处理，AI已经渗透到我们生活的方方面面。李开复，作为一位享誉全球的人工智能专家，在《AI2.0时代的价值》一文中，深刻地探讨了AI2.0时代带来的机遇与挑战，以及AI如何为人类创造价值。AI1.0时代主要集中在规则驱动的系统，例如围棋、象棋等游戏的AI。而AI2.0时代则
李开复：AI 2.0 时代的机遇 AGI大模型与大数据研究院 DeepSeek R1 &大数据AI人工智能 java python javascript kotlin golang 架构人工智能
人工智能，深度学习，Transformer，大模型，通用人工智能，AI2.0，应用场景，未来趋势1.背景介绍人工智能（AI）技术近年来发展迅速，从语音识别、图像识别到自然语言处理等领域取得了突破性进展。其中，深度学习作为人工智能的核心技术之一，推动了AI技术的飞速发展。然而，深度学习模型的训练成本高、数据依赖性强、可解释性差等问题仍然制约着AI技术的进一步发展。李开复先生在《AI2.0时代的机遇》
llama.cpp 和 LLM（大语言模型）这个懒人 llama 语言模型人工智能
llama.cpp和LLM（大语言模型）的介绍，以及两者的关联与区别：1.LLM（LargeLanguageModel，大语言模型）定义：LLM是基于深度学习技术（如Transformer架构）构建的超大参数量的自然语言处理模型。它通过海量文本数据训练，能够生成连贯、语义丰富的文本，完成问答、创作、推理等任务。特点：参数规模大：如GPT-3（1750亿参数）、Llama-65B（650亿参数）等。
AI在项目中的应用酒江人工智能
AI大模型（如GPT-4、BERT、T5等）在各类项目中有广泛的应用，可以极大地提高项目效率、优化流程，并解决许多传统方法难以应对的问题。以下是AI大模型在不同类型项目中的一些具体应用：1.自然语言处理（NLP）文本生成和摘要：AI大模型可以生成高质量的文本内容，自动撰写文章、新闻报道、博客或技术文档，甚至可以进行文献摘要，帮助内容创作者提高效率。情感分析：在客户服务、社交媒体监控或市场研究项目中
AI API：快速集成智能化功能的开发利器桂花饼 AIGC AI API 人工智能 AIGC 语言模型 AI作画
AIAPI（ArtificialIntelligenceApplicationProgrammingInterface，人工智能应用程序接口）是应用程序接口的一种，专门用于提供人工智能相关功能的开发接口。它允许开发者利用现有的AI模型、工具或服务，将这些功能集成到自己的应用程序中，并为用户带来智能化的体验。AIAPI的核心功能主要与AI技术相关，比如自然语言处理（NLP）、计算机视觉、语音处理、机
大模型与自然语言理解（NLU）：差异与联系技术流 Gavin AIoT python 语言模型 ai
近年来，人工智能领域取得了显著进展，尤其是在自然语言处理（NLP）方面。大模型和自然语言理解（NLU）作为NLP的两个重要分支，常常被提及，但它们之间存在着本质区别。1.定义与目标大模型:通常指拥有庞大参数规模（数十亿甚至数千亿）的深度学习模型，例如GPT-3、LaMDA等。它们通过海量文本数据进行训练，旨在学习语言的统计规律，并能够生成流畅、连贯的文本。NLU:是NLP的一个子领域，专注于让机器
基于树莓派的轻量级AI数字人开发全流程指南 ——从硬件选型到语音视觉交互实战 zhz5214 AI ai 人工智能 AI写作 AI编程智能体
1.背景与目标AI数字人，像是虚拟助手、交互式角色，在当下数字化浪潮中扮演着越来越重要的角色。其核心在于整合语音识别、视觉感知、自然语言处理（NLP）和动态反馈四大关键功能。本文将以树莓派5开发板为核心，搭配AI加速硬件，结合开源框架，为大家详细阐述如何实现本地化轻量级数字人开发。这一方案特别适用于教育领域，帮助学生更直观地理解AI技术；在智能家居场景中，也能为用户带来更智能、便捷的交互体验。2.
RAG数据嵌入和重排序：如何选择合适的模型从零开始学习人工智能深度学习
RAG数据嵌入和重排序：如何选择合适的模型在自然语言处理（NLP）领域，Retrieval-AugmentedGeneration（RAG）模型已经成为一种强大的工具，用于结合检索和生成能力来处理复杂的语言任务。RAG模型的核心在于两个关键步骤：数据嵌入（Embedding）和重排序（Re-ranking）。这两个步骤的选择和优化对于模型的性能至关重要。本文将探讨如何选择合适的模型来实现高效的数据
java封装继承多态等麦田的设计者 java eclipse jvm c encapsulatopn
最近一段时间看了很多的视频却忘记总结了，现在只能想到什么写什么了，希望能起到一个回忆巩固的作用。 1、final关键字译为：最终的 &
F5与集群的区别 bijian1013 weblogic 集群 F5
http请求配置不是通过集群，而是F5；集群是weblogic容器的，如果是ejb接口是通过集群。 F5同集群的差别，主要还是会话复制的问题，F5一把是分发http请求用的，因为http都是无状态的服务，无需关注会话问题，类似
LeetCode[Math] - #7 Reverse Integer Cwind java 题解 Math LeetCode Algorithm
原题链接：#7 Reverse Integer 要求：按位反转输入的数字例1：输入 x = 123, 返回 321 例2：输入 x = -123, 返回 -321 难度：简单分析：对于一般情况，首先保存输入数字的符号，然后每次取输入的末位（x%10）作为输出的高位（result = result*10 + x%10）即可。但
BufferedOutputStream 周凡杨
首先说一下这个大批量，是指有上千万的数据量。例子：有一张短信历史表，其数据有上千万条数据，要进行数据备份到文本文件，就是执行如下SQL然后将结果集写入到文件中！ select t.msisd
linux下模拟按键输入和鼠标被触发 linux
查看/dev/input/eventX是什么类型的事件， cat /proc/bus/input/devices 设备有着自己特殊的按键键码，我需要将一些标准的按键，比如0－9，X－Z等模拟成标准按键，比如KEY_0,KEY-Z等，所以需要用到按键模拟，具体方法就是操作/dev/input/event1文件，向它写入个input_event结构体就可以模拟按键的输入了。 linux/in
ContentProvider初体验肆无忌惮_ ContentProvider
ContentProvider在安卓开发中非常重要。与Activity，Service，BroadcastReceiver并称安卓组件四大天王。在android中的作用是用来对外共享数据。因为安卓程序的数据库文件存放在data/data/packagename里面，这里面的文件默认都是私有的，别的程序无法访问。如果QQ游戏想访问手机QQ的帐号信息一键登录，那么就需要使用内容提供者COnte
关于Spring MVC项目（maven）中通过fileupload上传文件 843977358 mybatis spring mvc 修改头像上传文件 upload
Spring MVC 中通过fileupload上传文件，其中项目使用maven管理。 1.上传文件首先需要的是导入相关支持jar包：commons-fileupload.jar,commons-io.jar 因为我是用的maven管理项目，所以要在pom文件中配置（每个人的jar包位置根据实际情况定） <!-- 文件上传 start by zhangyd-c --&g
使用svnkit api，纯java操作svn，实现svn提交，更新等操作 aigo svnkit
原文：http://blog.csdn.net/hardwin/article/details/7963318 import java.io.File; import org.apache.log4j.Logger; import org.tmatesoft.svn.core.SVNCommitInfo; import org.tmateso
对比浏览器，casperjs，httpclient的Header信息 alleni123 爬虫 crawler header
@Override protected void doGet(HttpServletRequest req, HttpServletResponse res) throws ServletException, IOException { String type=req.getParameter("type"); Enumeration es=re
java.io操作 DataInputStream和DataOutputStream基本数据流百合不是茶 java 流
1，java中如果不保存整个对象，只保存类中的属性，那么我们可以使用本篇文章中的方法，如果要保存整个对象先将类实例化后面的文章将详细写到 2，DataInputStream 是java.io包中一个数据输入流允许应用程序以与机器无关方式从底层输入流中读取基本 Java 数据类型。应用程序可以使用数据输出流写入稍后由数据输入流读取的数据。
车辆保险理赔案例 bijian1013 车险
理赔案例：一货运车，运输公司为车辆购买了机动车商业险和交强险，也买了安全生产责任险，运输一车烟花爆竹，在行驶途中发生爆炸，出现车毁、货损、司机亡、炸死一路人、炸毁一间民宅等惨剧，针对这几种情况，该如何赔付。赔付建议和方案：客户所买交强险在这里不起作用，因为交强险的赔付前提是：“机动车发生道路交通意外事故”；如果是交通意外事故引发的爆炸，则优先适用交强险条款进行赔付，不足的部分由商业
学习Spring必学的Java基础知识(5)—注解 bijian1013 java spring
文章来源：http://www.iteye.com/topic/1123823，整理在我的博客有两个目的：一个是原文确实很不错，通俗易懂，督促自已将博主的这一系列关于Spring文章都学完；另一个原因是为免原文被博主删除，在此记录，方便以后查找阅读。有必要对
【Struts2一】Struts2 Hello World bit1129 Hello world
Struts2 Hello World应用的基本步骤创建Struts2的Hello World应用，包括如下几步： 1.配置web.xml 2.创建Action 3.创建struts.xml，配置Action 4.启动web server，通过浏览器访问配置web.xml <?xml version="1.0" encoding="
【Avro二】Avro RPC框架 bit1129 rpc
1. Avro RPC简介 1.1. RPC RPC逻辑上分为二层，一是传输层，负责网络通信；二是协议层，将数据按照一定协议格式打包和解包从序列化方式来看，Apache Thrift 和Google的Protocol Buffers和Avro应该是属于同一个级别的框架，都能跨语言，性能优秀，数据精简，但是Avro的动态模式（不用生成代码，而且性能很好）这个特点让人非常喜欢，比较适合R
lua　set get cookie ronin47 lua cookie
lua: local access_token = ngx.var.cookie_SGAccessToken if access_token then ngx.header["Set-Cookie"] = "SGAccessToken="..access_token.."; path=/;Max-Age=3000" end
java-打印不大于N的质数 bylijinnan java
public class PrimeNumber { /** * 寻找不大于N的质数 */ public static void main(String[] args) { int n=100; PrimeNumber pn=new PrimeNumber(); pn.printPrimeNumber(n); System.out.print
Spring源码学习-PropertyPlaceholderHelper bylijinnan java spring
今天在看Spring 3.0.0.RELEASE的源码，发现PropertyPlaceholderHelper的一个bug 当时觉得奇怪，上网一搜，果然是个bug，不过早就有人发现了，且已经修复：详见： http://forum.spring.io/forum/spring-projects/container/88107-propertyplaceholderhelper-bug
[逻辑与拓扑]布尔逻辑与拓扑结构的结合会产生什么? comsci 拓扑
如果我们已经在一个工作流的节点中嵌入了可以进行逻辑推理的代码,那么成百上千个这样的节点如果组成一个拓扑网络,而这个网络是可以自动遍历的,非线性的拓扑计算模型和节点内部的布尔逻辑处理的结合,会产生什么样的结果呢? 是否可以形成一种新的模糊语言识别和处理模型呢? 大家有兴趣可以试试,用软件搞这些有个好处,就是花钱比较少,就算不成
ITEYE 都换百度推广了 cuisuqiang Google AdSense 百度推广广告外快
以前ITEYE的广告都是谷歌的Google AdSense，现在都换成百度推广了。为什么个人博客设置里面还是Google AdSense呢？都知道Google AdSense不好申请，这在ITEYE上也不是讨论了一两天了，强烈建议ITEYE换掉Google AdSense。至少，用一个好申请的吧。什么时候能从ITEYE上来点外快，哪怕少点
新浪微博技术架构分析 dalan_123 新浪微博架构
新浪微博在短短一年时间内从零发展到五千万用户，我们的基层架构也发展了几个版本。第一版就是是非常快的，我们可以非常快的实现我们的模块。我们看一下技术特点，微博这个产品从架构上来分析，它需要解决的是发表和订阅的问题。我们第一版采用的是推的消息模式，假如说我们一个明星用户他有10万个粉丝，那就是说用户发表一条微博的时候，我们把这个微博消息攒成10万份，这样就是很简单了，第一版的架构实际上就是这两行字。第
玩转ARP攻击 dcj3sjt126com r
我写这片文章只是想让你明白深刻理解某一协议的好处。高手免看。如果有人利用这片文章所做的一切事情，盖不负责。网上关于ARP的资料已经很多了，就不用我都说了。用某一位高手的话来说，“我们能做的事情很多，唯一受限制的是我们的创造力和想象力”。 ARP也是如此。以下讨论的机子有一个要攻击的机子：10.5.4.178 硬件地址：52:54:4C:98
PHP编码规范 dcj3sjt126com 编码规范
一、文件格式 1. 对于只含有 php 代码的文件，我们将在文件结尾处忽略掉 "?>" 。这是为了防止多余的空格或者其它字符影响到代码。例如：<?php$foo = 'foo';2. 缩进应该能够反映出代码的逻辑结果，尽量使用四个空格，禁止使用制表符TAB，因为这样能够保证有跨客户端编程器软件的灵活性。例
linux 脱机管理（nohup） eksliang linux nohup nohup
脱机管理 nohup 转载请出自出处：http://eksliang.iteye.com/blog/2166699 nohup可以让你在脱机或者注销系统后，还能够让工作继续进行。他的语法如下 nohup [命令与参数] --在终端机前台工作 nohup [命令与参数] & --在终端机后台工作但是这个命令需要注意的是，nohup并不支持bash的内置命令，所
BusinessObjects Enterprise Java SDK greemranqq java BO SAP Crystal Reports
最近项目用到oracle_ADF 从SAP/BO 上调用水晶报表，资料比较少，我做一个简单的分享，给和我一样的新手提供更多的便利。首先，我是尝试用JAVA JSP 去访问的。官方API：http://devlibrary.businessobjects.com/BusinessObjectsxi/en/en/BOE_SDK/boesdk_ja
系统负载剧变下的管控策略 iamzhongyong 高并发
假如目前的系统有100台机器，能够支撑每天1亿的点击量（这个就简单比喻一下），然后系统流量剧变了要，我如何应对，系统有那些策略可以处理，这里总结了一下之前的一些做法。 1、水平扩展这个最容易理解，加机器，这样的话对于系统刚刚开始的伸缩性设计要求比较高，能够非常灵活的添加机器，来应对流量的变化。 2、系统分组假如系统服务的业务不同，有优先级高的，有优先级低的，那就让不同的业务调用提前分组
BitTorrent DHT 协议中文翻译 justjavac bit
前言做了一个磁力链接和BT种子的搜索引擎 {Magnet & Torrent}，因此把 DHT 协议重新看了一遍。 BEP: 5Title: DHT ProtocolVersion: 3dec52cb3ae103ce22358e3894b31cad47a6f22bLast-Modified: Tue Apr 2 16:51:45 2013 -070
Ubuntu下Java环境的搭建 macroli java 工作 ubuntu
配置命令：　　$sudo apt-get install ubuntu-restricted-extras 　　再运行如下命令：　　$sudo apt-get install sun-java6-jdk 　　待安装完毕后选择默认Java. 　　$sudo update- alternatives --config java 　　安装过程提示选择，输入“2”即可，然后按回车键确定。
js字符串转日期（兼容IE所有版本） qiaolevip TO Date String IE
/** * 字符串转时间（yyyy-MM-dd HH:mm:ss） * result （分钟） */ stringToDate : function(fDate){ var fullDate = fDate.split(" ")[0].split("-"); var fullTime = fDate.split("
【数据挖掘学习】关联规则算法Apriori的学习与SQL简单实现购物篮分析 superlxw1234 sql 数据挖掘关联规则
关联规则挖掘用于寻找给定数据集中项之间的有趣的关联或相关关系。关联规则揭示了数据项间的未知的依赖关系，根据所挖掘的关联关系，可以从一个数据对象的信息来推断另一个数据对象的信息。例如购物篮分析。牛奶 ⇒ 面包 [支持度：3%，置信度：40%] 支持度3%：意味3%顾客同时购买牛奶和面包。置信度40%：意味购买牛奶的顾客40%也购买面包。规则的支持度和置信度是两个规则兴
Spring 5.0 的系统需求，期待你的反馈 wiselyman spring
Spring 5.0将在2016年发布。Spring5.0将支持JDK 9。 Spring 5.0的特性计划还在工作中，请保持关注，所以作者希望从使用者得到关于Spring 5.0系统需求方面的反馈。