qq_38937133

transformer学习记录+python实现

简介
- 输入模块
- 位置编码
- 掩码
- 注意力机制
- - 自注意力机制
  - 多头注意力机制
- 前馈全连接层
- 规范化层
- 子层连接结构
- 编码器层
- 编码器
- 解码器层
- 解码器
- 输出部分
- 结语

简介

本文对着为对transformer的学习博客，主要参考b站的该视频链接
视频中很多地方没有讲得很清楚也有些代码细节错误，不过带着把整体流程走了一遍还是很棒的，对于一些细节部分我也进行了自己的思考与查阅。

输入模块

import copy
import torch
import torch.nn as nn
import math
from torch.autograd import Variable
import torch.nn.functional as F
class Embeddings(nn.Module):
    def __init__(self,d_model,vocab):
        #d_model是词嵌入的维度,vacab是词表大小
        super().__init__()
        self.lut=nn.Embedding(vocab,d_model)
        self.d_model=d_model
    def forward(self,x):
        return self.lut(x)*math.sqrt(self.d_model)
d_model=512#维度大小
vocab=1000#词表大小
x=Variable(torch.LongTensor([[100,2,421,999],[491,998,1,221]]))
#数字相当于词表中词语的下标,词表大小为1000，所以tensor数字范围为[0,999]
emb=Embeddings(d_model, vocab)
embr=emb(x)
#等效于emb.forward(x)
print(embr)
print(embr.shape)

输出结果：

tensor([[[-39.6184, -10.5092,   7.1710,  ..., -19.9367, -10.8389,  17.1142],
         [ 17.2396,  -4.6296,  -8.9631,  ...,  -9.4606, -27.8265,  -8.0254],
         [-12.7667, -19.6354,  20.9742,  ...,  -8.6860,   3.3338,  -2.4481],
         [ -1.6448,  -9.4879,  48.4881,  ..., -10.4297,  13.6739,   3.5179]],

        [[-34.4081,  -1.4890,  32.3946,  ...,   1.9589,   5.8675,   7.0240],
         [ 21.5126,  28.7549,  39.9685,  ..., -29.9511,   6.3127, -64.7529],
         [ -9.4844, -40.8318,   7.0417,  ...,  22.7050,  32.7313,   4.8852],
         [ -5.6594, -22.7754,  39.3119,  ...,  12.8365,   1.6945, -25.7491]]],
       grad_fn=<MulBackward0>)
torch.Size([2, 4, 512])

可以看出原先x中的每个数字被扩展成了 $512$ 维的向量，即从 $2 * 4 - > 2 * 4 * 512$

位置编码

正弦编码的公式如下：
$E_{(p o s, 2 i)}=\sin \left(p o s / 10000^{2 i / d}\right)$
$E_{(p o s, 2 i+1)}=\cos \left(p o s / 10000^{2 i / d}\right)$
transformer中会将上述公式计算出的PE与原先的输入直接相加作为编码结果。
这里为什么可以直接相加呢？
这是个值得思考的问题，翻阅知乎
transformer中使用的position embedding为什么是加法？
随后我看了李宏毅老师的视频，他举了一个例子和这个有些不太一样，它是将embedding前的x与one-hot的位置编码相加，最后进行embedding，可以证明和embedding后再相加是等效的。
但是这里是两个截然不同性质的变换，词嵌入是可以理解成与一个W矩阵相乘，但是正弦编码并不是，所以我觉得他们的相加并不能用上面的内容解释。
随后我找到了另一个
为什么 Bert 的三个 Embedding 可以进行相加？
本文的作者将input和positional embedding拆开得到了更好的结果，所以其实这里应该是个开放的问题，到底进行concat还是相加还是有待于优化，这里我们还是用原文中的直接相加。

正弦编码有以下优势：
$1 .$ 有界，不会因为句子太长而导致输入值太大
$2 .$ 两个位置的编码距离和句子总长度应该无关，比如如果选取第一个词编码为 $0$ ，最后一个词编码为 $1$ ，造出这样一个等差数列，那么不同长度句子中，中间都隔了 $k$ 个单词的两个单词，它们的编码距离会不一样，这样的坏处很明显，就比如句子2只是在句子1的后面直接append一些内容，那么在分析前面公共部分的内容时，由于编码问题会计算出不同的结果
$3 .$ 我们选择正弦曲线函数，因为我们假设它能让模型很容易地学习关注相对位置，因为对于任何固定的偏移量 $k$ ， $PE_{pos+k}$ 可以表示成 $PE_{pos}$ 的线性函数,如下所示。
$P E ($ pos $+ k, 2 i) = P E ($ pos, $2 i) P E (k, 2 i + 1) + P E ($ pos, $2 i + 1) P E (k, 2 i)$
$P E (p o s + k, 2 i + 1) = P E (p o s, 2 i + 1) P E (k, 2 i + 1) - P E (p o s, 2 i) P E (k, 2 i)$
这个线性组合我这种小白只能简单意会一下，确实有道理。
$4 .$ 这个公式的振幅是随维度递减的，其实我们可以考察 $s i n (p o s / k)$ 这样一个函数， $k$ 太大会导致相邻单词差异太小， $k$ 太小会导致经常突破周期而出现不同距离的差异相同的情况，于是这个公式应该相当于把 $k$ 太大和太小的情况分配到了不同的维度。
接下来实现：

class PositionalEndoing(nn.Module):
    def __init__(self,d_model,dropout,max_len=5000):
        #dropout为置0比率
        super().init()
        self.dropout=nn.Dropout(p=dropout)
        pe=torch.zeros(max_len,d_model)
        #位置编码矩阵
        #行数：句子长度，列数：词嵌入维度
        position=torch.arange(0,max_len).unsqueeze(1)
        #max_len*1的绝对位置矩阵
        div_term=torch.exp(torch.arange(0,d_model,2)*-(math.log(10000.0)/d_model)).unsqueeze(0)
        #1*(d_model/2)的矩阵
        pe[:,0::2]=torch.sin(position*div_term)
        pe[:,1::2]=torch.cos(position*div_term)
        #正弦位置编码
        pe=pe.unsqueeze(0)
        self.register_buffer('pe',pe)
        #作用是训练时不会被更新，但保存模型时会被被保存
    def forward(self,x):
        x=x+Variable(self.pe[:,:x.size(1)],requires_grad=False)
        #只需要截取pe中和x等长的前面一部分
        #requires_grad=False代表不需要参与梯度下降的计算即不会更新
        return self.dropout(x)
d_model=512
dropout=0.1
max_len=60
x=embr
#embr是上面进行词嵌入算出的2*4*512的张量，也就是输入
pe=PositionalEndoing(d_model,dropout,max_len)
pe_result=pe(x)
#计算出输入x对应的正弦编码
print(pe_result)
print(pe_result.shape)

输出结果：

tensor([[[-31.2595,   0.0000,  48.9006,  ...,  33.8873,  -6.0268,  21.1344],
         [-14.9837, -16.0285, -64.5251,  ...,  -1.9540, -23.0337,  21.6329],
         [ 19.6901,  56.6698,  33.2170,  ...,   5.3528,  64.3326,  27.0896],
         [-28.4203,  -8.5853, -67.1757,  ..., -46.9936,  -9.5096, -13.5523]],

        [[ 39.8861,  37.7924,   0.0000,  ..., -44.0664,   1.1308,   5.2654],
         [ 13.6493,   0.0000, -13.5862,  ..., -28.0645, -19.7625,  36.2756],
         [ 21.7883,  25.2173,  39.7321,  ...,   0.0000,  17.3264, -17.0182],
         [  1.2813, -48.3587,  -5.3715,  ...,  23.1472,   5.8235, -34.8474]]],
       grad_fn=<MulBackward0>)
torch.Size([2, 4, 512])

掩码

def subsequent_mask(size):
    attn_shape=(1,size,size)
    subsequent_mask=np.triu(np.ones(attn_shape),k=1).astype('uint8')
    return torch.from_numpy(1-subsequent_mask)
print(subsequent_mask(5))

输出：

tensor([[[1, 0, 0, 0, 0],
         [1, 1, 0, 0, 0],
         [1, 1, 1, 0, 0],
         [1, 1, 1, 1, 0],
         [1, 1, 1, 1, 1]]], dtype=torch.uint8)

这里就是造出一个特定维度的下三角矩阵

注意力机制

$V)=\operatorname{softmax}\left(\frac{Q K^{T}}{\sqrt{d_{k}}}\right) V$
$Q : Q u e r y$ ，指询问
$K : K e y$ ，指关键词
$V : V a l u e$ ,指大脑对 $K e y$ 的延伸
$Q$ 是一个询问 $m * n * k$ 的询问，其中 $m$ 为句子数量， $n$ 为句子中的词向量数， $k$ 为词向量维度。
公式通俗来讲是表示 $Q u e r y$ 在 $K e y$ 和 $V a l u e$ 下的表示
大脑通常会先抓住最关键的部分，然后进行判断，这个公式就很显然放大了 $K e y$ 的作用，从询问中抓住 $K e y$ ，再用大脑进行反应。
关于这里为什么除以 $\sqrt{d_{k}}$ ，继续翻阅知乎
transformer中的attention为什么scaled?
给出了很好的解答，这里就不再重复搬运，总之是保持了期望和方差，使得避免出现梯度消失的问题（即更新步长极小）。

自注意力机制

在自注意力机制中
query=key=value=pe_result
也就是都等于编码后的输入

def attention(query,key,value,mask=None,dropout=None):
    d_k=query.size(-1)
    #query最后一个维度即为词嵌入维度
    #query和key的转置相乘
    scores=torch.matmul(query,key.transpose(-2,-1))/math.sqrt(d_k)
    #query为n*m*k的张量,n表示询问数量，m表示词，k为词向量维度
    if mask is not None:
        scores=scores.masked_fill(mask==0,1e-9)
        #将掩码为0的地方改成很小的数
    p_attn=F.softmax(scores,dim=-1)
    #对每一行的元素进行softmax函数
    return torch.matmul(p_attn,value),p_attn
query=key=value=pe_result
#mask=Variable(torch.zeros(2,4,4))
attn,p_attn=attention(query,key,value,mask=None)
print(attn)
print(p_attn)

输出：

tensor([[[-17.6411,   0.0000,   7.2360,  ...,  13.1555,  -9.3508, -24.8513],
         [ 17.0477, -50.4984,   4.5038,  ..., -31.4088, -33.7503,  50.9418],
         [-23.6287,   0.0000,   0.0000,  ..., -21.6497,  49.8315, -22.8535],
         [-41.4043,  21.7469, -10.9893,  ..., -22.0963, -20.8806, -19.5988]],

        [[-40.4908,  37.1446,  33.6379,  ..., -12.9449,  27.1569, -21.3525],
         [ -8.9225,   0.0000,  -7.7905,  ...,  11.8503,  13.9525, -13.2107],
         [ 53.1293,  30.7136, -17.0468,  ..., -13.0081,   4.9770,  14.0668],
         [  0.6563, -11.4418, -13.1637,  ...,   8.1173, -66.3848,  31.4784]]],
       grad_fn=<UnsafeViewBackward0>)
tensor([[[1., 0., 0., 0.],
         [0., 1., 0., 0.],
         [0., 0., 1., 0.],
         [0., 0., 0., 1.]],

        [[1., 0., 0., 0.],
         [0., 1., 0., 0.],
         [0., 0., 1., 0.],
         [0., 0., 0., 1.]]], grad_fn=<SoftmaxBackward0>)

这里p_attn几乎是对角线全1，其原因是自注意力机制中query=key，所以就成了 $AA^T$ ,所以对角线上的值都是平方和，再经过 $s o f t m a x$ 放大后导致全被对角线所占据。
但是传入全 $0$ 的mask之后，scores值也会变为全 $0$ ，那么结果就会变得比较平均

attn,p_attn=attention(query,key,value,mask=mask)

输出：

tensor([[[ -0.1459,  -1.1696,   2.8356,  ...,  -3.9629,   1.1271,   0.0543],
         [ -0.1459,  -1.1696,   2.8356,  ...,  -3.9629,   1.1271,   0.0543],
         [ -0.1459,  -1.1696,   2.8356,  ...,  -3.9629,   1.1271,   0.0543],
         [ -0.1459,  -1.1696,   2.8356,  ...,  -3.9629,   1.1271,   0.0543]],

        [[ 14.1035,  15.4130,  -6.2358,  ...,   3.1834, -11.2873,  17.8793],
         [ 14.1035,  15.4130,  -6.2358,  ...,   3.1834, -11.2873,  17.8793],
         [ 14.1035,  15.4130,  -6.2358,  ...,   3.1834, -11.2873,  17.8793],
         [ 14.1035,  15.4130,  -6.2358,  ...,   3.1834, -11.2873,  17.8793]]],
       grad_fn=<UnsafeViewBackward0>)
tensor([[[0.2500, 0.2500, 0.2500, 0.2500],
         [0.2500, 0.2500, 0.2500, 0.2500],
         [0.2500, 0.2500, 0.2500, 0.2500],
         [0.2500, 0.2500, 0.2500, 0.2500]],

        [[0.2500, 0.2500, 0.2500, 0.2500],
         [0.2500, 0.2500, 0.2500, 0.2500],
         [0.2500, 0.2500, 0.2500, 0.2500],
         [0.2500, 0.2500, 0.2500, 0.2500]]], grad_fn=<SoftmaxBackward0>)

多头注意力机制

这里简而言之就是将词向量的维度分配给多个head，从而有种均摊误差的效果（不在一棵树上吊死），并且对Q,K,V都进行了不同的线性组合（Linear）使它们都变为大小相同但值不同的方阵，中间进行了维度的转置，大概意思写在注释中，最后一步view重新变为了三维张量其实就是把head个矩阵进行了concat，最后经过一个线性层进行输出。

def clones(moudule,N):
    return nn.ModuleList([copy.deepcopy(moudule) for _ in range(N)])
    #深复制
class MultiHeadedAttention(nn.Module):
    def __init__(self,head,embedding_dim,dropout=0.1):
        #head代表头数，embedding_dim代表词嵌入维度,dropout置零比率
        super().__init__()
        assert embedding_dim%head==0
        #embedding_dim需要能整除head
        self.d_k=embedding_dim//head
        #词嵌入维度平均分给每一个head
        self.head=head
        self.linears=clones(nn.Linear(embedding_dim,embedding_dim),4)
        #Linear的两个参数分别对应输入和输出,这里也就是一个embedding_dim*embedding_dim的矩阵
        #linears就是四个这样的模型组成的列表
        #4个是指Q,K,V各需要一个，最后concat之后还需要一个linear
        self.attn=None
        #注意力张量
        self.dropout=nn.Dropout(p=dropout)
    def forward(self,query,key,value,mask=None):
        if mask is not None:
            mask=mask.unsqueeze(0)
        batch_size=query.size(0)
        #query的第一维的大小其实也就是batch_size
        query,key,value=\
            [model(x).view(batch_size,-1,self.head,self.d_k).transpose(1,2)
            for model,x,in zip(self.linears,(query,key,value))]
        #zip用于进行linear和QKV一对一的遍历
        #关于尺寸，batch_size不用说，head*d_k=embedding_dim,剩下一个维度自然就是词的数量也就是句子长度
        #进行转置可以让句长维度和词向量维度更加接近,让head成为外层索引
        #整体来讲就是对QKV各自进行一次线性变换各自变为一个方阵，再重塑尺寸

        #让多头分担词汇不同的特征部分，从而减少误差，让词义有更加多元的表达
        x, self.attn = attention(query, key, value, mask, self.dropout)
        #x也就是输出
        #attn为权重矩阵
        x=x.transpose(1,2).contiguous().view(batch_size,-1,self.head*self.d_k)
        return self.linears[-1](x)
        #最后一个linear
head=8
embedding_dim=512
dropout=0.2
query=key=value=pe_result
mask=Variable(torch.zeros(8,4,4))
mha=MultiHeadedAttention(head,embedding_dim,dropout)
mha_result=mha(query,key,value)

输出：

tensor([[[  5.6266,   2.4875,   8.4517,  ...,  -6.7918,   2.5055,   5.9314],
         [ -6.5806,   3.0218,  15.3889,  ...,   0.8658, -18.9831,  21.2460],
         [-14.5902, -10.0083,  -7.1232,  ...,  -2.4021, -17.7752,   0.6481],
         [ 14.2960,  -7.5041,   0.3042,  ..., -11.6881,  -7.5634, -14.6501]],

        [[-13.5806,  -6.2719,   0.2771,  ...,  -0.5751,  -5.6179,  -8.9107],
         [ -4.6952, -15.1235, -19.1021,  ...,   3.2530,   8.1995,   4.5777],
         [ -6.2927,   3.8340, -18.3732,  ...,   9.6667,   3.2841,   8.2817],
         [  0.6177,  -8.6816, -13.9586,  ...,  -2.3969,   0.5891,  -4.4065]]],
       grad_fn=<AddBackward0>)
torch.Size([2, 4, 512])

输入层的核心已经结束了，接下来就是一些数值处理的操作

前馈全连接层

对应图中的Feed Forward模块
这里它是用的全连接网络，中间用了一次relu作为激活函数，为什么这么操作我也不清楚，可能实验效果比较好吧，总之就是先线性变换一次，再relu，再线性变换一次

class PositionwiseFeedForward(nn.Module):
    def __init__(self,d_model,d_ff,dropout=0.1):
        #d_ff是词嵌入维度
        super().__init__()
        self.w1=nn.Linear(d_model,d_ff)
        self.w2=nn.Linear(d_ff,d_model)
        self.dropout=nn.Dropout(dropout)
    def forward(self,x):
        return self.w2(self.dropout(F.relu(self.w1(x))))
        #relu计算简单，而且不容易出现梯度爆炸和梯度消失
d_model=512
d_ff=64
dropout=0.2
x=mha_result
ff=PositionwiseFeedForward(d_model,d_ff,dropout)
ff_result=ff(x)
print(ff_result)

输出：

tensor([[[-0.0842, -2.3390, -0.3861,  ..., -1.1567,  0.6501,  0.6989],
         [ 2.2971, -1.0878,  0.4681,  ..., -4.3583,  0.6660,  4.5701],
         [-1.1708,  1.3941, -0.1086,  ..., -0.8627, -0.4052, -1.6384],
         [-0.3328, -1.8596, -0.3813,  ..., -2.4343, -0.2367, -1.6852]],

        [[ 1.7638, -1.5655,  2.5129,  ..., -4.1856, -0.9209, -0.4936],
         [ 2.1474, -3.6081,  0.7268,  ..., -1.7562, -0.7775,  1.6036],
         [ 2.6642, -4.3401, -0.9985,  ..., -0.5323, -2.1452,  1.8985],
         [-3.5607, -1.7900,  1.6536,  ..., -2.1132, -0.2075,  3.9405]]],
       grad_fn=<AddBackward0>)
torch.Size([2, 4, 512])

规范化层

这里顾名思义就是规范化一下，减去均值除以方差，弄出个符合正太分布的x’，然后进行a2x’+b2的操作，这里x’是个 $2 * 4 * 512$ 的方阵而a2是个 $512$ 大小的数组，所以权重是给 $512$ 个词向量维度分配的，很合理。

class LayerNorm(nn.Module):
    def __init__(self,features,eps=1e-6):
        super().__init__()
        self.a2=nn.Parameter(torch.ones(features))
        self.b2 = nn.Parameter(torch.zeros(features))
        #用Parameter封装的参数会加入训练
        self.eps=eps
    def forward(self,x):
        mean=x.mean(-1,keepdim=True)
        #以最后一个维度求均值,keepdim保持维度,如5*5的矩阵不加这个参数求平均值后会
        #直接变为5，加了就是5*1
        std=x.std(-1,keepdim=True)
        #计算标准差
        return self.a2*(x-mean)/(std+self.eps)+self.b2
        #减均值除标准差得到x',再计算a2*x'+b2
        #得到x'也就是标准差标准化，经过处理的数据符合正态分布
        #注意这里不是矩阵乘法，是对应位置相乘

features=d_model=512
eps=1e-6
x=ff_result
ln=LayerNorm(features,eps)
ln_result=ln(x)
print(ln_result)
print(ln_result.shape)

输出：

tensor([[[ 0.3937, -1.5343,  0.3623,  ...,  0.9180,  0.8813, -0.1429],
         [ 0.2394, -0.3429,  0.2586,  ..., -0.0660,  2.0112,  0.7106],
         [-0.0393, -0.3831,  0.0272,  ..., -2.4721,  1.0900,  1.0801],
         [-0.4783, -1.0320, -1.7881,  ...,  0.4728,  0.1609, -0.2272]],

        [[ 0.2892,  0.2732, -0.8153,  ...,  0.2160,  1.2437, -2.5539],
         [-0.6363, -0.8620,  0.2009,  ..., -0.3676,  0.3137,  1.2609],
         [-0.1761, -0.2589, -1.3003,  ..., -1.1288,  0.6398,  0.6090],
         [-0.0082, -0.6592,  0.0573,  ...,  0.2271,  0.3160, -0.8449]]],
       grad_fn=<AddBackward0>)
torch.Size([2, 4, 512])

子层连接结构

这个部分不出意外的话视频里应该是出问题了，翻阅文献和网上的解析应该是LayerNorm(x+sublayer(x))
sublayer可以是上图的multi-head也可以是feed forward
相加之后最后一起规范化

class SublayerConnection(nn.Module):
    def __init__(self,size,dropout=0.1):
        super().__init__()
        self.norm=LayerNorm(size)
        self.dropout=nn.Dropout(p=dropout)
    def forward(self,x,sublayer):
        return self.dropout(self.norm(x+sublayer(x)))
        #sublayer是子层，这里的子层是指feed forward和multihead
size=512
dropout=0.2
head=8
d_model=512
x=pe_result
mask=Variable(torch.zeros(8,4,4))
self_attn=MultiHeadedAttention(head,d_model)
sublayer=lambda x: self_attn(x,x,x,mask)
sc=SublayerConnection(size,dropout)
sc_result=sc(x,sublayer)
print(sc_result)
print(sc_result.shape)

做了这样一个类之后，就可以将子层函数如multihead和feed forward作为参数传入，就实现了上图的两个残差连接的模块，相当于一个函数模板。
输出：

tensor([[[ 0.5021, -0.0722,  1.8054,  ..., -0.0082, -1.3347, -2.0638],
         [-0.5705,  0.0000,  3.9156,  ..., -0.0000, -0.0898,  0.0000],
         [-1.6755,  0.1052,  1.0844,  ..., -0.8102, -2.6503,  0.6323],
         [-0.6072, -0.0875, -0.0000,  ..., -0.2794, -0.3621, -1.0605]],

        [[-2.1169,  0.0139,  0.0000,  ..., -0.8220,  0.0000, -1.3642],
         [-1.6420,  1.9355, -0.6514,  ...,  0.0000, -0.5959,  0.6231],
         [-0.2153,  2.4281, -1.3161,  ...,  0.0000, -0.0000, -1.8842],
         [-1.2555,  1.2043, -0.5352,  ..., -0.1091, -0.0000,  1.0707]]],
       grad_fn=<MulBackward0>)
torch.Size([2, 4, 512])

编码器层

编码器其实就是把上面的两个子层连接结构简单封装成一个EncoderLayer类

class EncoderLayer(nn.Module):
    def __init__(self,size,self_attn,feed_forward,dropout):
        super().__init__()
        self.self_attn=self_attn
        self.feed_forward=feed_forward
        self.sublayer=clones(SublayerConnection(size,dropout),2)
        self.size=size

    def forward(self,x,mask):
        x=self.sublayer[0](x,lambda x:self.self_attn(x,x,x,mask))
        return self.sublayer[1](x,self.feed_forward)
size=512
head=8
d_model=512
d_ff=64
x=pe_result
dropout=0.2
self_attn=MultiHeadedAttention(head,d_model)
ff=PositionwiseFeedForward(d_model,d_ff,dropout)
mask=Variable(torch.zeros(8,4,4))

输出：

tensor([[[-0.1981, -0.0000,  1.1597,  ..., -0.1466, -2.9241,  0.2823],
         [ 0.4510, -1.2408,  0.1163,  ...,  0.0000, -1.8986, -0.7663],
         [-0.3029,  0.1413,  0.0000,  ...,  2.1100, -2.4588, -0.6241],
         [ 0.6345, -0.0330, -2.3838,  ...,  0.0767, -0.0000, -1.3296]],

        [[ 0.1341, -0.3915,  2.3283,  ...,  0.0000,  0.0000,  0.9070],
         [ 0.0000, -3.0416,  0.7024,  ..., -0.2680,  1.0492,  0.3752],
         [ 0.0000, -0.2520,  0.0000,  ..., -0.4895, -0.4272,  1.7757],
         [ 0.4344, -0.1694, -2.0037,  ...,  0.0408, -1.1797,  0.3375]]],
       grad_fn=<MulBackward0>)
torch.Size([2, 4, 512])

编码器

依然是继续封装，编码器就是编码器层*N

class Encoder(nn.Module):
    def __init__(self,layer,N):
        super().__init__()
        self.layers=clones(layer,N)
    def forward(self,x,mask):
        for layer in self.layers:
            x=layer(x,mask)
            return x
size=512
head=8
d_model=512
d_ff=64
c=copy.deepcopy
attn=MultiHeadedAttention(head,d_model)
ff=PositionwiseFeedForward(d_model,d_ff,dropout)
dropout=0.2
layer=EncoderLayer(size,c(attn),c(ff),dropout)
N=8
mask=Variable(torch.zeros(8,4,4))
en=Encoder(layer,N)
en_result=en(x,mask)
print(en_result)
print(en_result.shape)

这里依然写得和视频里不一样，因为上面改过的编码器层最后已经规范化过了
输出：

tensor([[[ 0.4498,  1.0731, -0.7424,  ..., -0.0000, -1.8726,  1.6560],
         [-0.3369,  0.9220, -0.3264,  ..., -0.1954, -1.5015, -0.0000],
         [-0.3725, -2.8675,  1.2287,  ...,  0.0761,  2.3905,  0.3090],
         [-0.2990,  0.2441,  0.3848,  ...,  1.8894,  0.0735,  1.2151]],

        [[ 0.1298,  1.0290, -0.6615,  ..., -0.5989, -0.0063,  0.0000],
         [-0.7160, -0.0830, -0.9277,  ...,  0.0000, -0.0000, -0.6709],
         [ 0.8316, -0.9386, -0.3482,  ..., -0.0000,  0.5017, -0.3504],
         [ 1.7595,  1.2951,  2.7818,  ..., -0.1398, -2.9854, -0.6698]]],
       grad_fn=<MulBackward0>)
torch.Size([2, 4, 512])

解码器层

回归到这张图，我们已经完成了左边的部分，右边的outputs就相当于input需要对应的target，它会先经由一个masked的multi-head attention,这里总算用上了我们之前写的掩码，它的作用是，对于一个句子中的每一个词语，遮蔽这个词后面的词的信息，也就是将未来的信息给mask掉
这样也就是
$A_{ij}=1(iAij=1(i<n,j<=i)$

class DecoderLayer(nn.Module):
    def __init__(self,size,self_attn,src_attn,feed_forward,dropout):
        super().__init__()
        self.size=size
        self.self_attn=attn
        self.src_attn=self_attn
        self.feed_forward=feed_forward
        self.sublayer=clones(SublayerConnection(size,dropout),3)
    def forward(self,x,memory,source_mask,target_mask):
        m=memory
        x=self.sublayer[0](x,lambda x:self.self_attn(x,x,x,target_mask))
        x=self.sublayer[1](x,lambda x:self.src_attn(x,m,m,source_mask))
        #这里的source_mask用来遮蔽掉对结果没有意义的字符的注意力值
        return self.sublayer[2](x,self.feed_forward)
head=8
size=512
d_model=512
d_ff=64
dropout=0.2
self_attn=src_attn=MultiHeadedAttention(head,d_model)
ff=PositionwiseFeedForward(d_model,d_ff,dropout)
x=pe_result
memory=en_result
mask=Variable(torch.zeros(8,4,4))
target_mask=subsequent_mask(4)
source_mask=mask
dl=DecoderLayer(size,self_attn,src_attn,ff,dropout)
dl_result=dl(x,memory,source_mask,target_mask)
print(dl_result)
print(dl_result.shape)

输出：

tensor([[[ 0.0252, -2.1165,  0.2505,  ..., -0.1514, -3.6794,  3.0512],
         [-0.2031,  0.1044,  0.1536,  ..., -0.6930,  0.0000, -1.3079],
         [ 4.1483, -1.5894, -0.6305,  ...,  1.3983, -1.2923,  1.3873],
         [-0.5289,  1.4646, -0.2385,  ...,  0.4411,  2.8952, -0.0944]],

        [[ 2.2889,  0.0000, -0.0616,  ..., -0.0000, -1.0136,  1.3932],
         [ 0.0000, -0.2390, -0.0000,  ...,  0.2183, -0.0000,  0.0000],
         [-0.2049, -3.3786,  0.5995,  ...,  0.0000, -2.6760,  3.1795],
         [-2.3916,  2.9400, -1.6383,  ...,  0.0401, -0.2806, -0.0000]]],
       grad_fn=<MulBackward0>)
torch.Size([2, 4, 512])

解码器

就是对上面进行*N封装了

class Decoder(nn.Module):
    def __init__(self,layer,N):
        super().__init__()
        self.layers=clones(layer,N)
    def forward(self,x,memory,source_mask,target_mask):
        for layer in self.layers:
            x=layer(x,memory,source_mask,target_mask)
        return x
size=512
d_model=512
head=8
d_ff=64
dropout=0.2
c=copy.deepcopy
attn=MultiHeadedAttention(head,d_model)
ff=PositionwiseFeedForward(d_model,d_ff,dropout)
layer=DecoderLayer(d_model,c(attn),c(attn),c(ff),dropout)
N=8
x=pe_result
memory=en_result
mask=Variable(torch.zeros(8,4,4))
target_mask=subsequent_mask(4)
source_mask=mask
de=Decoder(layer,N)
de_result=de(x,memory,source_mask,target_mask)
print(de_result)
print(de_result.shape)

输出：

tensor([[[ 0.0000,  1.1949, -0.6378,  ...,  0.2904, -0.4521,  0.0000],
         [ 0.5356,  0.0653, -4.6251,  ...,  1.7602, -0.0708,  0.0459],
         [ 0.6124,  1.4326, -1.5422,  ...,  1.5063,  0.9769, -0.0000],
         [ 0.0000, -0.0000, -2.4902,  ...,  0.6073, -0.2428,  0.0869]],

        [[-0.7473,  0.6388, -1.2236,  ..., -0.0265, -0.4547, -0.6132],
         [ 0.0000, -0.0000, -0.0000,  ..., -0.8934, -0.3948, -0.0000],
         [ 0.3118, -0.0221,  0.1143,  ..., -0.5320, -0.4980,  0.0000],
         [ 0.0790, -0.2463, -0.7042,  ..., -0.7297, -0.1085,  0.1360]]],
       grad_fn=<MulBackward0>)
torch.Size([2, 4, 512])

输出部分

最上头的一个linear加softmax，这个很简单

class Generator(nn.Module):
    def __init__(self,d_model,vcab_size):
        super().__init__()
        self.project=nn.Linear(d_model,vocab)
    def forward(self,x):
        return F.softmax(self.project(x),dim=-1)
x=de_result
gen=Generator(d_model,vocab)
gen_result=gen(x)
print(gen_result)
print(gen_result.shape)

输出：

tensor([[[0.0018, 0.0002, 0.0011,  ..., 0.0009, 0.0029, 0.0014],
         [0.0021, 0.0027, 0.0014,  ..., 0.0015, 0.0006, 0.0010],
         [0.0004, 0.0010, 0.0010,  ..., 0.0011, 0.0009, 0.0002],
         [0.0011, 0.0019, 0.0014,  ..., 0.0011, 0.0008, 0.0010]],

        [[0.0004, 0.0004, 0.0053,  ..., 0.0007, 0.0014, 0.0011],
         [0.0005, 0.0004, 0.0015,  ..., 0.0004, 0.0009, 0.0006],
         [0.0009, 0.0004, 0.0014,  ..., 0.0003, 0.0020, 0.0005],
         [0.0018, 0.0007, 0.0016,  ..., 0.0005, 0.0005, 0.0006]]],
       grad_fn=<SoftmaxBackward0>)
torch.Size([2, 4, 1000])

结语

到此为止output probabilities已经被成功地输出了，也就是模型的基本搭建完成，接下来无非就是根据loss训练啥的了，可能不会再继续深究，大致理解就好了，后面肯定是直接调python的transformer库了。

你可能感兴趣的:(杂项,python,transformer,nlp)

理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
python os.environ 江湖偌大 python 深度学习
os.environ['TF_CPP_MIN_LOG_LEVEL']='0'#默认值，输出所有信息os.environ['TF_CPP_MIN_LOG_LEVEL']='1'#屏蔽通知信息（INFO）os.environ['TF_CPP_MIN_LOG_LEVEL']='2'#屏蔽通知信息和警告信息（INFO\WARNING）os.environ['TF_CPP_MIN_LOG_LEVEL']='
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
python是什么意思中文-在python中%是什么意思编程大乐趣
Python中%有两种：1、数值运算：%代表取模，返回除法的余数。如：>>>7%212、%操作符（字符串格式化，stringformatting），说明如下：%[(name)][flags][width].[precision]typecode(name)为命名flags可以有+，-，''或0。+表示右对齐。-表示左对齐。''为一个空格，表示在正数的左侧填充一个空格，从而与负数对齐。0表示使用0填
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
python八股文面试题分享及解析(1) Shawn________ python
#1.'''a=1b=2不用中间变量交换a和b'''#1.a=1b=2a,b=b,aprint(a)print(b)结果：21#2.ll=[]foriinrange(3):ll.append({'num':i})print(11)结果:#[{'num':0},{'num':1},{'num':2}]#3.kk=[]a={'num':0}foriinrange(3):#0,12#可变类型，不仅仅改变
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
Python快速入门 —— 第三节：类与对象孤华暗香 Python快速入门 python 开发语言
第三节：类与对象目标：了解面向对象编程的基础概念，并学会如何定义类和创建对象。内容：类与对象：定义类：class关键字。类的构造函数：__init__()。类的属性和方法。对象的创建与使用。示例：classStudent:def__init__(self,name,age,major):self.name&#
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
Python 实现图片裁剪（附代码） | Python工具剑客阿良_ALiang
前言本文提供将图片按照自定义尺寸进行裁剪的工具方法，一如既往的实用主义。环境依赖ffmpeg环境安装，可以参考我的另一篇文章：windowsffmpeg安装部署_阿良的博客-CSDN博客本文主要使用到的不是ffmpeg，而是ffprobe也在上面这篇文章中的zip包中。ffmpy安装：pipinstallffmpy-ihttps://pypi.douban.com/simple代码不废话了，上代码
【华为OD技术面试真题 - 技术面】- python八股文真题题库（4) 算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选**1.Python中的`with`**用途和功能自动资源管理示例：文件操作上下文管理协议示例代码工作流程解析优点2.\_\_new\_\_和**\_\_init\_\_**区别__new____init__区别总结3.**切片（Slicing）操作**基本切片语法
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
Python中深拷贝与浅拷贝的区别 yuxiaoyu.
转自：http://blog.csdn.net/u014745194/article/details/70271868定义：在Python中对象的赋值其实就是对象的引用。当创建一个对象，把它赋值给另一个变量的时候，python并没有拷贝这个对象，只是拷贝了这个对象的引用而已。浅拷贝：拷贝了最外围的对象本身，内部的元素都只是拷贝了一个引用而已。也就是，把对象复制一遍，但是该对象中引用的其他对象我不复
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python编译器鹿鹿~ Python编译器 Python python 开发语言后端
嘿嘿嘿我又来了啊有些小盆友可能不知道Python其实是有编译器的，也就是PyCharm。你们可能会问到这个是干嘛的又不可以吃也不可以穿好像没有什么用，其实你还说对了这个还真的不可以吃也不可以穿，但是它用来干嘛的呢。用来编译你所打出的代码进行运行（可能这里说的有点不对但是只是个人认为）现在我们来说说PyCharm是用来干嘛的。PyCharm是一种PythonIDE，带有一整套可以帮助用户在使用Pyt
一文掌握python面向对象魔术方法（二）程序员neil python python 开发语言
接上篇：一文掌握python面向对象魔术方法（一）-CSDN博客目录六、迭代和序列化：1、__iter__(self):定义迭代器，使得类可以被for循环迭代。2、__getitem__(self,key):定义索引操作，如obj[key]。3、__setitem__(self,key,value):定义赋值操作，如obj[key]=value。4、__delitem__(self,key):定义
一文掌握python常用的list（列表）操作程序员neil python python 开发语言
目录一、创建列表1.直接创建列表：2.使用list()构造器3.使用列表推导式4.创建空列表二、访问列表元素1.列表支持通过索引访问元素，索引从0开始：2.还可以使用切片操作访问列表的一部分：三、修改列表元素四、添加元素1.append()：在末尾添加元素2.insert()：在指定位置插入元素五、删除元素1.del：删除指定位置的元素2.remove()：删除指定值的第一个匹配项3.pop()：
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
python中的深拷贝与浅拷贝 anshejd70787 python
深拷贝和浅拷贝浅拷贝的时候，修改原来的对象，浅拷贝的对象不会发生改变。1、对象的赋值对象的赋值实际上是对象之间的引用：当创建一个对象，然后将这个对象赋值给另外一个变量的时候，python并没有拷贝这个对象，而只是拷贝了这个对象的引用。当对对象做赋值或者是参数传递或者作为返回值的时候，总是传递原始对象的引用，而不是一个副本。如下所示：>>>aList=["kel","abc",123]>>>bLis
用Python实现简单的猜数字游戏程序媛了了 python 游戏 java
猜数字游戏代码：importrandomdefpythonit():a=random.randint(1,100)n=int(input("输入你猜想的数字："))whilen!=a:ifn>a:print("很遗憾，猜大了")n=int(input("请再次输入你猜想的数字："))elifna::如果玩家猜的数字n大于随机数字a，则输出"很遗憾，猜大了"，并提示玩家再次输入。elifn
用Python实现读取统计单词个数程序媛了了 python 游戏 java
完整实例代码：fromcollectionsimportCounterdefpythonit():danci={}withopen("pythonit.txt","r",encoding="utf-8")asf:foriinf:words=i.strip().split()forwordinwords:ifwordnotindanci:danci[word]=1else:danci[word]+=
分享100个最新免费的高匿HTTP代理IP mcj8089 代理IP 代理服务器匿名代理免费代理IP 最新代理IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ 120.198.243.130:80,中国/广东省 58.251.78.71:8088,中国/广东省 183.207.228.22:83,中国/
mysql高级特性之数据分区 annan211 java 数据结构 mongodb 分区 mysql
mysql高级特性 1 以存储引擎的角度分析，分区表和物理表没有区别。是按照一定的规则将数据分别存储的逻辑设计。器底层是由多个物理字表组成。 2 分区的原理分区表由多个相关的底层表实现，这些底层表也是由句柄对象表示，所以我们可以直接访问各个分区。存储引擎管理分区的各个底层表和管理普通表一样(所有底层表都必须使用相同的存储引擎)，分区表的索引只是
JS采用正则表达式简单获取URL地址栏参数 chiangfai js 地址栏参数获取
GetUrlParam:function GetUrlParam(param){ var reg = new RegExp("(^|&)"+ param +"=([^&]*)(&|$)"); var r = window.location.search.substr(1).match(reg); if(r!=null
怎样将数据表拷贝到powerdesigner (本地数据库表) Array_06 powerDesigner
================================================== 1、打开PowerDesigner12，在菜单中按照如下方式进行操作 file->Reverse Engineer->DataBase 点击后，弹出 New Physical Data Model 的对话框 2、在General选项卡中 Model name:模板名字，自
logbackのhelloworld 飞翔的马甲日志 logback
一、概述 1.日志是啥？当我是个逗比的时候我是这么理解的：log.debug()代替了system.out.print(); 当我项目工作时，以为是一堆得.log文件。这两天项目发布新版本，比较轻松，决定好好地研究下日志以及logback。传送门1：日志的作用与方法： http://www.infoq.com/cn/articles/why-and-how-log 上面的作
新浪微博爬虫模拟登陆随意而生新浪微博
转载自：http://hi.baidu.com/erliang20088/item/251db4b040b8ce58ba0e1235 近来由于毕设需要，重新修改了新浪微博爬虫废了不少劲，希望下边的总结能够帮助后来的同学们。现行版的模拟登陆与以前相比，最大的改动在于cookie获取时候的模拟url的请求
synchronized 香水浓 java thread
Java语言的关键字，可用来给对象和方法或者代码块加锁，当它锁定一个方法或者一个代码块的时候，同一时刻最多只有一个线程执行这段代码。当两个并发线程访问同一个对象object中的这个加锁同步代码块时，一个时间内只能有一个线程得到执行。另一个线程必须等待当前线程执行完这个代码块以后才能执行该代码块。然而，当一个线程访问object的一个加锁代码块时，另一个线程仍然
maven 简单实用教程 AdyZhang maven
1. Maven介绍 1.1. 简介 java编写的用于构建系统的自动化工具。目前版本是2.0.9，注意maven2和maven1有很大区别，阅读第三方文档时需要区分版本。 1.2. Maven资源见官方网站；The 5 minute test，官方简易入门文档；Getting Started Tutorial，官方入门文档；Build Coo
Android 通过 intent传值获得null aijuans android
我在通过intent 获得传递兑现过的时候报错，空指针,我是getMap方法进行传值，代码如下 1 2 3 4 5 6 7 8 9 public void getMap(View view){ Intent i =
apache 做代理报如下错误：The proxy server received an invalid response from an upstream baalwolf response
网站配置是apache＋tomcat,tomcat没有报错，apache报错是： The proxy server received an invalid response from an upstream server. The proxy server could not handle the request GET /. Reason: Error reading fr
Tomcat6 内存和线程配置 BigBird2012 tomcat6
1、修改启动时内存参数、并指定JVM时区（在windows server 2008 下时间少了8个小时）在Tomcat上运行j2ee项目代码时，经常会出现内存溢出的情况，解决办法是在系统参数中增加系统参数： window下，在catalina.bat最前面 set JAVA_OPTS=-XX:PermSize=64M -XX:MaxPermSize=128m -Xms5
Karam与TDD bijian1013 Karam TDD
一.TDD 测试驱动开发（Test-Driven Development,TDD）是一种敏捷（AGILE）开发方法论，它把开发流程倒转了过来，在进行代码实现之前，首先保证编写测试用例，从而用测试来驱动开发（而不是把测试作为一项验证工具来使用）。 TDD的原则很简单： a.只有当某个
[Zookeeper学习笔记之七]Zookeeper源代码分析之Zookeeper.States bit1129 zookeeper
public enum States { CONNECTING, //Zookeeper服务器不可用，客户端处于尝试链接状态 ASSOCIATING, //？？？ CONNECTED, //链接建立，可以与Zookeeper服务器正常通信 CONNECTEDREADONLY, //处于只读状态的链接状态，只读模式可以在
【Scala十四】Scala核心八：闭包 bit1129 scala
Free variable A free variable of an expression is a variable that’s used inside the expression but not defined inside the expression. For instance, in the function literal expression (x: Int) => (x
android发送json并解析返回json ronin47 android
package com.http.test; import org.apache.http.HttpResponse; import org.apache.http.HttpStatus; import org.apache.http.client.HttpClient; import org.apache.http.client.methods.HttpGet; import
一份IT实习生的总结 brotherlamp PHP php资料 php教程 php培训 php视频
今天突然发现在不知不觉中自己已经实习了 3 个月了，现在可能不算是真正意义上的实习吧，因为现在自己才大三，在这边撸代码的同时还要考虑到学校的功课跟期末考试。让我震惊的是，我完全想不到在这 3 个月里我到底学到了什么，这是一件多么悲催的事情啊。同时我对我应该 get 到什么新技能也很迷茫。所以今晚还是总结下把，让自己在接下来的实习生活有更加明确的方向。最后感谢工作室给我们几个人这个机会让我们提前出来
据说是2012年10月人人网校招的一道笔试题-给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。将重物放到天平左侧，问在两边如何添加砝码 bylijinnan java
public class ScalesBalance { /** * 题目： * 给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。（假设N无限大，但一种重量的砝码只有一个） * 将重物放到天平左侧，问在两边如何添加砝码使两边平衡 * * 分析： * 三进制 * 我们约定括号表示里面的数是三进制，例如 47=(1202
dom4j最常用最简单的方法 chiangfai dom4j
要使用dom4j读写XML文档,需要先下载dom4j包,dom4j官方网站在 http://www.dom4j.org/目前最新dom4j包下载地址:http://nchc.dl.sourceforge.net/sourceforge/dom4j/dom4j-1.6.1.zip 解开后有两个包,仅操作XML文档的话把dom4j-1.6.1.jar加入工程就可以了,如果需要使用XPath的话还需要
简单HBase笔记 chenchao051 hbase
一、Client-side write buffer 客户端缓存请求描述：可以缓存客户端的请求，以此来减少RPC的次数，但是缓存只是被存在一个ArrayList中，所以多线程访问时不安全的。可以使用getWriteBuffer()方法来取得客户端缓存中的数据。默认关闭。二、Scan的Caching 描述： next( )方法请求一行就要使用一次RPC,即使
mysqldump导出时出现when doing LOCK TABLES daizj mysql mysqdump 导数据
　　执行　mysqldump -uxxx -pxxx -hxxx -Pxxxx database tablename > tablename.sql　导出表时，会报 mysqldump: Got error: 1044: Access denied for user 'xxx'@'xxx' to database 'xxx' when doing LOCK TABLES 解决
CSS渲染原理 dcj3sjt126com Web
从事Web前端开发的人都与CSS打交道很多，有的人也许不知道css是怎么去工作的，写出来的css浏览器是怎么样去解析的呢？当这个成为我们提高css水平的一个瓶颈时，是否应该多了解一下呢？一、浏览器的发展与CSS
《阿甘正传》台词 dcj3sjt126com
Part Ⅰ: 《阿甘正传》Forrest Gump经典中英文对白 Forrest: Hello! My names Forrest. Forrest Gump. You wanna Chocolate? I could eat about a million and a half othese. My momma always said life was like a box ochocol
Java处理JSON dyy_gusi json
Json在数据传输中很好用，原因是JSON 比 XML 更小、更快，更易解析。在Java程序中，如何使用处理JSON，现在有很多工具可以处理，比较流行常用的是google的gson和alibaba的fastjson，具体使用如下： 1、读取json然后处理 class ReadJSON { public static void main(String[] args)
win7下nginx和php的配置 geeksun nginx
1. 安装包准备 nginx : 从nginx.org下载nginx-1.8.0.zip php：从php.net下载php-5.6.10-Win32-VC11-x64.zip， php是免安装文件。 RunHiddenConsole: 用于隐藏命令行窗口 2. 配置 # java用8080端口做应用服务器，nginx反向代理到这个端口即可 p
基于2.8版本redis配置文件中文解释 hongtoushizi redis
转载自： http://wangwei007.blog.51cto.com/68019/1548167 在Redis中直接启动redis-server服务时, 采用的是默认的配置文件。采用redis-server xxx.conf 这样的方式可以按照指定的配置文件来运行Redis服务。下面是Redis2.8.9的配置文
第五章常用Lua开发库3-模板渲染 jinnianshilongnian nginx lua
动态web网页开发是Web开发中一个常见的场景，比如像京东商品详情页，其页面逻辑是非常复杂的，需要使用模板技术来实现。而Lua中也有许多模板引擎，如目前我在使用的lua-resty-template，可以渲染很复杂的页面，借助LuaJIT其性能也是可以接受的。如果学习过JavaEE中的servlet和JSP的话，应该知道JSP模板最终会被翻译成Servlet来执行；而lua-r
JZSearch大数据搜索引擎颠覆者 JavaScript
系统简介：大数据的特点有四个层面：第一，数据体量巨大。从TB级别，跃升到PB级别；第二，数据类型繁多。网络日志、视频、图片、地理位置信息等等。第三，价值密度低。以视频为例，连续不间断监控过程中，可能有用的数据仅仅有一两秒。第四，处理速度快。最后这一点也是和传统的数据挖掘技术有着本质的不同。业界将其归纳为4个“V”——Volume，Variety，Value，Velocity。大数据搜索引
10招让你成为杰出的Java程序员 pda158 java 编程框架
如果你是一个热衷于技术的 Java 程序员，那么下面的 10 个要点可以让你在众多 Java 开发人员中脱颖而出。　　 1. 拥有扎实的基础和深刻理解 OO 原则　　对于 Java 程序员，深刻理解 Object Oriented Programming（面向对象编程）这一概念是必须的。没有 OOPS 的坚实基础，就领会不了像 Java 这些面向对象编程语言
tomcat之oracle连接池配置小网客 oracle
tomcat版本7.0 配置oracle连接池方式：修改tomcat的server.xml配置文件： <GlobalNamingResources> <Resource name="utermdatasource" auth="Container" type="javax.sql.DataSou
Oracle 分页算法汇总 vipbooks oracle sql 算法 .net
这是我找到的一些关于Oracle分页的算法，大家那里还有没有其他好的算法没？我们大家一起分享一下！ -- Oracle 分页算法一 select * from ( select page.*,rownum rn from (select * from help) page -- 20 = (currentPag