xhrt

pytorch实现Bert

本文是BERT 的 PyTorch 实现（超详细）的转载，在代码复现前，看了李宏毅的讲解视频自监督学习 (Self-supervised Learning) BERT以及Bert论文。李宏毅老师的讲解可以帮忙更直观地理解一些内容，比如附录中的4个case。另，从作者b站评论区，发现作者的代码大部分也参考于How to Code BERT Using PyTorch – Tutorial With Examples。

准备数据集

数据集为手动输入的两个人的对话。

'''
  code by Tae Hwan Jung(Jeff Jung) @graykode, modify by wmathor
  Reference : https://github.com/jadore801120/attention-is-all-you-need-pytorch
         https://github.com/JayParks/transformer, https://github.com/dhlee347/pytorchic-bert
'''
import re
import math
import torch
import numpy as np
from random import *
import torch.nn as nn
import torch.optim as optim
import torch.utils.data as Data

text = (
    'Hello, how are you? I am Romeo.\n' # R
    'Hello, Romeo My name is Juliet. Nice to meet you.\n' # J
    'Nice meet you too. How are you today?\n' # R
    'Great. My baseball team won the competition.\n' # J
    'Oh Congratulations, Juliet\n' # R
    'Thank you Romeo\n' # J
    'Where are you going today?\n' # R
    'I am going shopping. What about you?\n' # J
    'I am going to visit my grandmother. she is not very well' # R
)
sentences = re.sub("[.,!?\\-]", '', text.lower()).split('\n') # filter '.', ',', '?', '!'
word_list = list(set(" ".join(sentences).split())) # ['hello', 'how', 'are', 'you',...]
word2idx = {'[PAD]' : 0, '[CLS]' : 1, '[SEP]' : 2, '[MASK]' : 3}
for i, w in enumerate(word_list):
    word2idx[w] = i + 4
idx2word = {i: w for i, w in enumerate(word2idx)}
vocab_size = len(word2idx)

token_list = list()
for sentence in sentences:
    arr = [word2idx[s] for s in sentence.split()]
    token_list.append(arr)

最终token_list是个二维的list，里面每一行代表一句话

print(token_list)
'''
[[12, 7, 22, 5, 39, 21, 15],
 [12, 15, 13, 35, 10, 27, 34, 14, 19, 5],
 [34, 19, 5, 17, 7, 22, 5, 8],
 [33, 13, 37, 32, 28, 11, 16],
 [30, 23, 27],
 [6, 5, 15],
 [36, 22, 5, 31, 8],
 [39, 21, 31, 18, 9, 20, 5],
 [39, 21, 31, 14, 29, 13, 4, 25, 10, 26, 38, 24]]
'''

模型参数

# BERT Parameters
maxlen = 30
batch_size = 6
max_pred = 5 # max tokens of prediction
n_layers = 6
n_heads = 12
d_model = 768
d_ff = 768*4 # 4*d_model, FeedForward dimension
d_k = d_v = 64  # dimension of K(=Q), V
n_segments = 2

maxlen表示同一个batch中的所有句子都由30个token组成，不够的补PAD（这里我实现的方式比较粗暴，直接固定所有batch中的所有句子都为30）

max_pred表示最多需要预测多少个单词，即BERT中的完形填空任务

n_layers表示Encoder Layer的数量

d_model表示Token Embeddings、Segment Embeddings、Position Embeddings的维度

d_ff表示Encoder Layer中全连接层的维度

n_segments表示Decoder input由几句话组成

数据预处理

数据预处理部分，我们需要根据概率随机make或者替换（以下统称mask）一句话中15%的token，还需要拼接任意两句话。

上述代码中，positive变量代表两句话是连续的个数，negative代表两句话不是连续的个数，我们需要做到在一个batch中，这两个样本的比例为1:1。随机选取的两句话是否连续，只要通过判断tokens_a_index + 1 == tokens_b_index即可

然后是随机mask一些token，n_pred变量代表的是即将mask的token数量，cand_maked_pos代表的是有哪些位置是候选的、可以mask的（因为像[SEP]，[CLS]这些不能做mask，没有意义），最后shuffle()一下，然后根据random()的值选择是替换为[MASK]还是替换为其它的token

接下来会做两个Zero Padding，第一个是为了补齐句子的长度，使得一个batch中的句子都是相同长度。第二个是为了补齐mask的数量，因为不同句子长度，会导致不同数量的单词进行mask，我们需要保证同一个batch中，mask的数量（必须）是相同的，所以也需要在后面补一些没有意义的东西，比方说[0] 。

# sample IsNext and NotNext to be same in small batch size
def make_data():
    batch = []
    positive = negative = 0
    while positive != batch_size / 2 or negative != batch_size / 2:
        tokens_a_index, tokens_b_index = randrange(len(sentences)), randrange(
            len(sentences))  # sample random index in sentences
        tokens_a, tokens_b = token_list[tokens_a_index], token_list[tokens_b_index]
        input_ids = [word2idx['[CLS]']] + tokens_a + [word2idx['[SEP]']] + tokens_b + [word2idx['[SEP]']]
        segment_ids = [0] * (1 + len(tokens_a) + 1) + [1] * (len(tokens_b) + 1)

        # MASK LM
        n_pred = min(max_pred, max(1, int(len(input_ids) * 0.15)))  # 15 % of tokens in one sentence
        cand_maked_pos = [i for i, token in enumerate(input_ids)
                          if token != word2idx['[CLS]'] and token != word2idx['[SEP]']]  # candidate masked position
        shuffle(cand_maked_pos)
        masked_tokens, masked_pos = [], []
        for pos in cand_maked_pos[:n_pred]:
            masked_pos.append(pos)
            masked_tokens.append(input_ids[pos])
            if random() < 0.8:  # 80%
                input_ids[pos] = word2idx['[MASK]']  # make mask
            elif random() > 0.9:  # 10%
                index = randint(0, vocab_size - 1)  # random index in vocabulary
                while index < 4:  # can't involve 'CLS', 'SEP', 'PAD'
                    index = randint(0, vocab_size - 1)
                input_ids[pos] = index  # replace

        # Zero Paddings
        n_pad = maxlen - len(input_ids)
        input_ids.extend([0] * n_pad)
        segment_ids.extend([0] * n_pad)

        # Zero Padding (100% - 15%) tokens
        if max_pred > n_pred:
            n_pad = max_pred - n_pred
            masked_tokens.extend([0] * n_pad)
            masked_pos.extend([0] * n_pad)

        if tokens_a_index + 1 == tokens_b_index and positive < batch_size / 2:
            batch.append([input_ids, segment_ids, masked_tokens, masked_pos, True])  # IsNext
            positive += 1
        elif tokens_a_index + 1 != tokens_b_index and negative < batch_size / 2:
            batch.append([input_ids, segment_ids, masked_tokens, masked_pos, False])  # NotNext
            negative += 1
    return batch
# Proprecessing Finished

batch = make_data()
input_ids, segment_ids, masked_tokens, masked_pos, isNext = zip(*batch)
'''>>> a = [1,2,3]
>>> b = [4,5,6]
>>> zipped = zip(a,b)     # 打包为元组的列表
[(1, 4), (2, 5), (3, 6)]
>>> zip(*zipped)          # 与 zip 相反，可理解为解压，为zip的逆过程，可用于矩阵的转置
[(1, 2, 3), (4, 5, 6)]
'''
input_ids, segment_ids, masked_tokens, masked_pos, isNext = \
    torch.LongTensor(input_ids), torch.LongTensor(segment_ids), torch.LongTensor(masked_tokens), \
    torch.LongTensor(masked_pos), torch.LongTensor(isNext)


class MyDataSet(Data.Dataset):
    def __init__(self, input_ids, segment_ids, masked_tokens, masked_pos, isNext):
        self.input_ids = input_ids
        self.segment_ids = segment_ids
        self.masked_tokens = masked_tokens
        self.masked_pos = masked_pos
        self.isNext = isNext

    def __len__(self):
        return len(self.input_ids)

    def __getitem__(self, idx):
        return self.input_ids[idx], self.segment_ids[idx], self.masked_tokens[idx], self.masked_pos[idx], self.isNext[
            idx]

loader = Data.DataLoader(MyDataSet(input_ids, segment_ids, masked_tokens, masked_pos, isNext), batch_size, True)

模型构建

模型结构主要采用了Transformer的Encoder。

这段代码中用到了一个激活函数gelu，这是BERT论文中提出来的，具体公式可以看这篇文章GELU激活函数。

def get_attn_pad_mask(seq_q, seq_k):
    batch_size, seq_len = seq_q.size()   #[batch_size,maxlen]
    # eq(zero) is PAD token
    pad_attn_mask = seq_q.data.eq(0).unsqueeze(1)  # [batch_size, 1, seq_len]
    return pad_attn_mask.expand(batch_size, seq_len, seq_len)  # [batch_size, seq_len, seq_len]

def gelu(x):
    return x * 0.5 * (1.0 + torch.erf(x / math.sqrt(2.0)))

class Embedding(nn.Module):
    def __init__(self):
        super(Embedding, self).__init__()
        self.tok_embed = nn.Embedding(vocab_size, d_model)  # token embedding
        self.pos_embed = nn.Embedding(maxlen, d_model)  # position embedding
        self.seg_embed = nn.Embedding(n_segments, d_model)  # segment(token type) embedding
        self.norm = nn.LayerNorm(d_model)

    def forward(self, x, seg):
        seq_len = x.size(1)
        pos = torch.arange(seq_len, dtype=torch.long)
        # print("pos:",pos)
        '''pos: tensor([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16, 17,
        18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29])'''
        pos = pos.unsqueeze(0).expand_as(x)  # [seq_len] -> [batch_size, seq_len]
        # print("pos_batch:", pos)
        embedding = self.tok_embed(x) + self.pos_embed(pos) + self.seg_embed(seg)
        return self.norm(embedding)

class ScaledDotProductAttention(nn.Module):
    def __init__(self):
        super(ScaledDotProductAttention, self).__init__()

    def forward(self, Q, K, V, attn_mask):
        scores = torch.matmul(Q, K.transpose(-1, -2)) / np.sqrt(d_k) # scores : [batch_size, n_heads, seq_len, seq_len]
        scores.masked_fill_(attn_mask, -1e9) # Fills elements of self tensor with value where mask is one.
        attn = nn.Softmax(dim=-1)(scores)
        context = torch.matmul(attn, V)
        return context

class MultiHeadAttention(nn.Module):
    def __init__(self):
        super(MultiHeadAttention, self).__init__()
        self.W_Q = nn.Linear(d_model, d_k * n_heads)
        self.W_K = nn.Linear(d_model, d_k * n_heads)
        self.W_V = nn.Linear(d_model, d_v * n_heads)
    def forward(self, Q, K, V, attn_mask):
        # q: [batch_size, seq_len, d_model], k: [batch_size, seq_len, d_model], v: [batch_size, seq_len, d_model]
        residual, batch_size = Q, Q.size(0)
        # (B, S, D) -proj-> (B, S, D) -split-> (B, S, H, W) -trans-> (B, H, S, W)
        q_s = self.W_Q(Q).view(batch_size, -1, n_heads, d_k).transpose(1,2)  # q_s: [batch_size, n_heads, seq_len, d_k]
        k_s = self.W_K(K).view(batch_size, -1, n_heads, d_k).transpose(1,2)  # k_s: [batch_size, n_heads, seq_len, d_k]
        v_s = self.W_V(V).view(batch_size, -1, n_heads, d_v).transpose(1,2)  # v_s: [batch_size, n_heads, seq_len, d_v]

        attn_mask = attn_mask.unsqueeze(1).repeat(1, n_heads, 1, 1) # attn_mask : [batch_size, n_heads, seq_len, seq_len]

        # context: [batch_size, n_heads, seq_len, d_v], attn: [batch_size, n_heads, seq_len, seq_len]
        context = ScaledDotProductAttention()(q_s, k_s, v_s, attn_mask)
        context = context.transpose(1, 2).contiguous().view(batch_size, -1, n_heads * d_v) # context: [batch_size, seq_len, n_heads, d_v]
        output = nn.Linear(n_heads * d_v, d_model)(context)
        return nn.LayerNorm(d_model)(output + residual) # output: [batch_size, seq_len, d_model]

class PoswiseFeedForwardNet(nn.Module):
    def __init__(self):
        super(PoswiseFeedForwardNet, self).__init__()
        self.fc1 = nn.Linear(d_model, d_ff)
        self.fc2 = nn.Linear(d_ff, d_model)

    def forward(self, x):
        # (batch_size, seq_len, d_model) -> (batch_size, seq_len, d_ff) -> (batch_size, seq_len, d_model)
        return self.fc2(gelu(self.fc1(x)))

class EncoderLayer(nn.Module):
    def __init__(self):
        super(EncoderLayer, self).__init__()
        self.enc_self_attn = MultiHeadAttention()
        self.pos_ffn = PoswiseFeedForwardNet()

    def forward(self, enc_inputs, enc_self_attn_mask):
        enc_outputs = self.enc_self_attn(enc_inputs, enc_inputs, enc_inputs, enc_self_attn_mask) # enc_inputs to same Q,K,V
        enc_outputs = self.pos_ffn(enc_outputs) # enc_outputs: [batch_size, seq_len, d_model]
        return enc_outputs

Bert并没有使用transformer中的decoder，取而代之的是用于分类的shallow network。Bert输出了两个结果：one for the classifier and the other for masked。

class BERT(nn.Module):
    def __init__(self):
        super(BERT, self).__init__()
        self.embedding = Embedding()
        self.layers = nn.ModuleList([EncoderLayer() for _ in range(n_layers)])
        self.fc = nn.Sequential(
            nn.Linear(d_model, d_model),
            nn.Dropout(0.5),
            nn.Tanh(),
        )
        self.classifier = nn.Linear(d_model, 2)
        self.linear = nn.Linear(d_model, d_model)
        self.activ2 = gelu
        # fc2 is shared with embedding layer
        embed_weight = self.embedding.tok_embed.weight
        self.fc2 = nn.Linear(d_model, vocab_size, bias=False)
        self.fc2.weight = embed_weight

    def forward(self, input_ids, segment_ids, masked_pos):
        output = self.embedding(input_ids, segment_ids) # [bach_size, seq_len, d_model]
        enc_self_attn_mask = get_attn_pad_mask(input_ids, input_ids) # [batch_size, maxlen, maxlen]
        for layer in self.layers:
            # output: [batch_size, max_len, d_model]
            output = layer(output, enc_self_attn_mask)
        # it will be decided by first token(CLS)
        '''
         (fc): Sequential(
            (0): Linear(in_features=768, out_features=768, bias=True)
            (1): Dropout(p=0.5, inplace=False)
            (2): Tanh()
            )
          (classifier): Linear(in_features=768, out_features=2, bias=True)
          (linear): Linear(in_features=768, out_features=768, bias=True)
          (fc2): Linear(in_features=768, out_features=40, bias=False)
        '''
        # logits_clsf :根据[CLS]预测是否是连续的句子,[CLS]在第一维
        h_pooled = self.fc(output[:, 0]) # [batch_size, d_model]
        logits_clsf = self.classifier(h_pooled) # [batch_size, 2] predict isNext

        masked_pos = masked_pos[:, :, None].expand(-1, -1, d_model) # [batch_size, max_pred, d_model]
        h_masked = torch.gather(output, 1, masked_pos) # masking position [batch_size, max_pred, d_model]
        h_masked = self.activ2(self.linear(h_masked)) # [batch_size, max_pred, d_model]
        #logits_lm：预测mask的token
        logits_lm = self.fc2(h_masked) # [batch_size, max_pred, vocab_size]

        return logits_lm, logits_clsf
model = BERT()
# print(model)
criterion = nn.CrossEntropyLoss()
optimizer = optim.Adadelta(model.parameters(), lr=0.001)

这段代码有一个特别不好理解的地方，就是到数第7行的代码，用到了torch.gather()函数。

out = torch.gather(input, dim, index)

index = torch.from_numpy(np.array([[1, 2, 0], [2, 0, 1]])).type(torch.LongTensor)
index = index[:, :, None].expand(-1, -1, 10)

index中第一行的tensor会作用于input的第一个batch，具体来说，原本三句话的顺序是[0, 1, 2]，现在会根据[1, 2, 0]调换顺序。index中第2行的tensor会作用于input的第二个batch，具体来说，原本三句话的顺序是[0, 1, 2]，现在会根据[2, 0, 1]调换顺序。

训练&测试

以下是训练代码

for epoch in range(180):
    for input_ids, segment_ids, masked_tokens, masked_pos, isNext in loader:
      logits_lm, logits_clsf = model(input_ids, segment_ids, masked_pos)
      #logits_lm:[batch_size,max_pred,vocab_size] -> [batch_size*max_pred,vocab_size],batch_size*max_pred个词。每个词都有vocab_size种可能。
      loss_lm = criterion(logits_lm.view(-1, vocab_size), masked_tokens.view(-1)) # for masked LM
      loss_lm = (loss_lm.float()).mean()
      loss_clsf = criterion(logits_clsf, isNext) # for sentence classification
      loss = loss_lm + loss_clsf
      if (epoch + 1) % 10 == 0:
          print('Epoch:', '%04d' % (epoch + 1), 'loss =', '{:.6f}'.format(loss))
      optimizer.zero_grad()
      loss.backward()
      optimizer.step()

以下是测试代码

# Predict mask tokens ans isNext
input_ids, segment_ids, masked_tokens, masked_pos, isNext = batch[0]
print(text)
print([idx2word[w] for w in input_ids if idx2word[w] != '[PAD]'])

logits_lm, logits_clsf = model(torch.LongTensor([input_ids]), \
                 torch.LongTensor([segment_ids]), torch.LongTensor([masked_pos]))
logits_lm = logits_lm.data.max(2)[1][0].data.numpy()
print('masked tokens list : ',[pos for pos in masked_tokens if pos != 0])
print('predict masked tokens list : ',[pos for pos in logits_lm if pos != 0])

logits_clsf = logits_clsf.data.max(1)[1].data.numpy()[0]
print('isNext : ', True if isNext else False)
print('predict isNext : ',True if logits_clsf else False)

深度学习-图像数据标注工具使用（LabelImg和BBox） AI研习图书馆方法教程 LabelImg BBox 图像标注工具
文章与视频资源多平台更新微信公众号|知乎|B站|头条：AI研习图书馆深度学习、大数据、IT编程知识与资源分享，欢迎关注，共同进步~图像数据标注工具的使用教程1.LabelImgLabelImg下载地址：https://github.com/tzutalin/labelImg（下载源码，需要编译）Windows和Linux系统可运行软件：http://tzutalin.github.io/label
GPU架构（1.2）--GPU SoC 中的 CPU 架构小蘑菇二号手把手教你学 GPU SoC 芯片智能电视
目录详细介绍GPUSoC中的CPU架构1.CPU核心概述ARMCortex-A72ARMCortex-A762.多线程处理多核架构多线程支持3.任务调度任务调度器动态调度4.内存管理内存层次结构内存管理技术5.接口和通信总线接口I/O接口6.功耗和热管理功耗优化热管理7.应用实例边缘计算图形处理深度学习结语详细介绍GPUSoC中的CPU架构GPUSoC不仅集成了高性能的GPU，还集成了高性能的CP
大语言模型丨ChatGPT-4o深度科研应用、论文与项目撰写、数据分析、机器学习、深度学习及AI绘图（BP神经网络、支持向量机、决策树、随机森林、变量降维与特征选择、群优化算法等）赵钰老师 ChatGPT python 人工智能语言模型深度学习数据分析 chatgpt 机器学习随机森林
目录第一章、2024大语言模型最新进展与ChatGPT各模型第二章、ChatGPT-4o提示词使用方法与高级技巧（最新加入思维链及逆向工程及GPTs）第三章、ChatGPT4-4o助力日常生活、学习与工作第四章、基于ChatGPT-4o课题申报、论文选题及实验方案设计第五章、基于ChatGPT-4o信息检索、总结分析、论文写作与投稿、专利idea构思与交底书的撰写第六章、ChatGPT-4o编程入
微服务02：如何解决或者说降低架构复杂度？爆炸糖_Alex 微服务架构微服务云原生
1.什么是CAPCAP定理，也被称为Brewer定理，是分布式计算中的一个重要概念。它由计算机科学家EricBrewer于2000年提出，并由SethGilbert和NancyLynch于2002年正式证明。CAP定理强调了分布式系统中三个关键属性之间的固有权衡，这三个属性分别是：一致性（Consistency）可用性（Availability）分区容忍性（PartitionTolerance）以
【python】在【机器学习】与【数据挖掘】中的应用：从基础到【AI大模型】小李很执着杂乱无章机器学习数据挖掘 python 人工智能语言模型
目录一、Python在数据挖掘中的应用1.1数据预处理数据清洗数据变换数据归一化高级预处理技术1.2特征工程特征选择特征提取特征构造二、Python在机器学习中的应用2.1监督学习分类回归2.2非监督学习聚类降维三、Python在深度学习中的应用3.1深度学习框架TensorFlowPyTorch四、Python在AI大模型中的应用4.1大模型简介4.2GPT-4o实例五、实例验证5.1数据集介绍
开源LLMs导览：工作原理、顶级LLM列表对比万俟淋曦 Some Insights 人工智能 AI 生成式人工智能大模型 LLM chatgpt 大语言模型
机器人、人工智能相关领域news/events（专栏目录）本文目录一、开源LLM是什么意思？二、开源LLM如何工作？2.1预训练2.2代币化2.3开源LLM的微调2.4输入编码2.5训练与优化2.6推理三、开源LLM对组织的好处3.1增强的数据安全和隐私3.2节约成本3.3减少供应商依赖性3.4代码透明度四、哪种LLM模式最好？4.1BERT4.2LLaMA(LargeLanguageModelM
Encoder-only decoder-only encoder-decoder大模型的区别阿牛牛阿 ai opencv 人工智能 AIGC chatgpt
1.Encoder-Only架构-定义：仅包含编码器部分，主要用于处理输入数据而不生成输出。-适用任务：文本分类、情感分析、命名实体识别等。-优点：能够更好地理解输入文本的语义和上下文信息，适合需要特征提取的任务。-缺点：无法直接生成文本输出。-代表模型：BERT、RoBERTa、ALBERT等。2.Decoder-Only架构-定义：仅包含解码器部分，通常用于序列生成任务。-适用任务：文本生成、
自定义数据集使用pytorch框架实现逻辑回归并保存模型，然后保存模型后再加载模型进行预测，对预测结果计算精确度和召回率及F1分数 qwe352633 python
importtorchimportnumpyasnpimporttorch.nnasnnfromsklearn.metricsimportaccuracy_score,precision_score,recall_score,f1_scoredata=[[-0.5,7.7],[1.8,98.5],[0.9,57.8],[0.4,39.2],[-1.4,-15.7],[-1.4,-37.3],[-1
MixRec: Heterogeneous Graph Collaborative Filtering UnknownBody Recommendation 人工智能
本文是深度学习相关文章，针对《MixRec:HeterogeneousGraphCollaborativeFiltering》的翻译。MixRec：异构图协同过滤摘要1引言2前言3方法4评估5相关工作6结论摘要对于现代推荐系统来说，使用低维潜在表示来嵌入用户和基于他们观察到的交互的项目已经变得司空见惯。然而，许多现有的推荐模型主要是为粗粒度和同质交互而设计的，这限制了它们在两个关键维度上的有效性。
自定义数据集使用pytorch框架实现逻辑回归并保存模型，然后保存模型后再加载模型进行预测，对预测结果计算精确度和召回率及F1分数〖是♂我〗 python
代码：importtorchimportnumpyasnpimporttorch.nnasnnfromsklearn.metricsimportaccuracy_score,precision_score,recall_score,f1_score#定义数据：x_data是特征，y_data是标签（目标值）data=[[-0.5,7.7],[1.8,98.5],[0.9,57.8],[0.4,39
深度学习论文: Cultivated Land Extraction from High-Resolution Remote Sensing Image mingo_敏 Paper Reading Deep Learning Instance Segmentation python 人工智能机器学习
深度学习论文:CultivatedLandExtractionfromHigh-ResolutionRemoteSensingImageTheWinningSolutiontotheiFLYTEKChallenge2021CultivatedLandExtractionfromHigh-ResolutionRemoteSensingImagePDF:https://arxiv.org/pdf/22
大模型开发流程及项目实战辣椒种子机器学习人工智能
一、大模型开发整理流程1.1、什么是大模型开发我们将开发以大语言模型为功能核心、通过大语言模型的强大理解能力和生成能力、结合特殊的数据或业务逻辑来提供独特功能的应用称为大模型开发。开发大模型相关应用，其技术核心点虽然在大语言模型上，但一般通过调用API或开源模型来实现核心的理解与生成，通过PromptEnginnering来实现大语言模型的控制，因此，虽然大模型是深度学习领域的集大成之作，大模型开
Meta首席科学家Yann LeCun预言：5年内AI架构将颠覆，当前大模型的4大核心缺陷机器小乙人工智能
✨引言：一场颠覆AI行业的预言在2025冬季达沃斯“技术辩论”现场，Meta首席AI科学家、图灵奖得主杨立昆（YannLeCun）抛出一个震撼观点：“当前的大语言模型（LLM）范式将在3-5年内被淘汰。”这位深度学习先驱的论断，不仅直指ChatGPT等明星产品的技术天花板，更揭示了下一代AI进化的核心路径——构建理解物理世界的“世界模型”（WorldModel）。作为Meta人工智能实验室负责人，
【小白学AI系列】NLP 核心知识点（五）Transformer介绍 Blankspace空白人工智能自然语言处理 transformer
TransformerTransformer是一种基于自注意力机制（Self-AttentionMechanism）的深度学习模型，首次由Vaswani等人于2017年在论文《AttentionisAllYouNeed》中提出。与RNN和LSTM不同，Transformer不需要依靠序列顺序进行递归，而是通过全局注意力机制一次性处理整个输入序列，从而具备了更高的计算效率和更强的并行化能力。Tran
Day31-【AI思考】-深度学习方法论全解析——科学提升学习效率的终极指南一个一定要撑住的学习者 #AI深度思考学习方法人工智能
文章目录深度学习方法论全解析——科学提升学习效率的终极指南**一、影子跟读法（Shadowing）——听力突破核武器****二、番茄工作法（Pomodoro）——时间管理手术刀****三、费曼技巧（FeynmanTechnique）——知识内化加速器****四、康奈尔笔记（CornellNotes）——信息处理引擎**效能倍增组合技常见问题解决方案深度学习方法论全解析——科学提升学习效率的终极指南
pytorch实现简单的情感分析算法纠结哥_Shrek pytorch 人工智能 python
在PyTorch中实现中文情感分析算法通常涉及以下几个步骤：数据预处理、模型定义、训练和评估。下面是一个简单的实现示例，使用LSTM模型进行中文情感分析。1.数据预处理首先，我们需要对中文文本进行分词，并将文本转换为数值形式（如词向量）。可以使用jieba进行分词，并使用torchtext或自定义的词汇表将词语转换为索引。importtorchimporttorch.nnasnnimporttor
pytorch基于 Transformer 预训练模型的方法实现词嵌入（tiansz/bert-base-chinese）纠结哥_Shrek pytorch transformer bert
以下是一个完整的词嵌入（WordEmbedding）示例代码，使用modelscope下载tiansz/bert-base-chinese模型，并通过transformers加载模型，获取中文句子的词嵌入。frommodelscope.hub.snapshot_downloadimportsnapshot_downloadfromtransformersimportBertTokenizer,Be
pytorch基于GloVe实现的词嵌入纠结哥_Shrek pytorch 人工智能 python
PyTorch实现GloVe（GlobalVectorsforWordRepresentation）的完整代码，使用中文语料进行训练，包括共现矩阵构建、模型定义、训练和测试。1.GloVe介绍基于词的共现信息（不像Word2Vec使用滑动窗口预测）适合较大规模的数据（比Word2Vec更稳定）学习出的词向量能捕捉语义信息（如类比关系）importtorchimporttorch.nnasnnimp
PyTorch中的unsqueeze函数(自用) 黯岚岚岚岚岚 pytorch pytorch python 经验分享
前言最近在学习swin_transformer的模型搭建，其中用到了广播机制，在理解广播机制的过程中发现自己对torch.unsqueeze()函数比较困惑，所以做了个小实验帮助自己理解。问题阐述我们都知道，torch.unsqueeze()函数的作用是拓展张量维度，那么在不同位置拓展之后，原数据是怎样排列的呢？下面进入实验部分。实验>>>importtorch>>>>>>a=torch.Tens
Faceboxes pytorch代码解读(一) box_utils.py(上篇) Faded浩 pytorch 深度学习神经网络 python 算法
Faceboxespytorch代码解读(一)box_utils.py（上篇）有幸读到ShifengZhang老师团队的人脸检测论文，感觉对自己的人脸学习论文十分有帮助。通过看别人的paper,学习别人的代码，能够使得我们对人脸检测算法的学习有更近一步的理解。但是在学习的时候发现，自己看别人的代码是一个耗时而又头疼的事情。毕竟每个人的思路都不一样，跟着别人的思路走确实不容易。所以希望能够分享一下自
图像超分，提高图像分辨率的方法和工具风暴之零 python 图像处理深度学习
图像超分是一种图像处理技术，旨在提高图像的分辨率，使其具有更高的清晰度和细节。这一技术通常用于图像重建、图像恢复、图像增强等领域，可以帮助我们更好地理解和利用图像信息。图像超分技术可以通过多种方法实现，包括插值算法、深度学习等。其中，深度学习的方法在近年来得到了广泛的关注和应用。基于深度学习的图像超分技术，可以利用深度神经网络学习图像的高频部分，从而提高了图像的分辨率和清晰度。总结：传统方法效果不
【python】【PyTorch】详细中文解释unsqueeze，代码和代码解读资源存储库笔记算法 python 开发语言
目录【python】【PyTorch】详细中文解释unsqueeze，代码和代码解读unsqueeze()函数的作用：语法：unsqueeze()操作示例：示例1：将一个一维张量转换为二维张量示例2：在最后一维插入一个新维度示例3：负索引插入维度示例4：将二维张量转为三维张量总结：【python】【PyTorch】详细中文解释unsqueeze，代码和代码解读在PyTorch中，unsqueeze
深度学习-笔记1 深度学习神经网络
刚开始接触深度学习相关内容，在这儿做一个笔记：网址：https://gitee.com/paddlepaddle/PaddleNLPpaddle-nlp是一个自然语言处理NLP方面的工具包(代码库)ERNIEERNIE是百度基于BERT改进的预训练大模型，结合了Transformer架构和知识增强机制。整体上可以分为预训练模型层和任务适配层，预训练模型层负责学习通用的语言知识和语义表示，任务适配层
深度学习之核函数 fpcc AI及算法 ai
深度学习之核函数在机器学习中，常看到多项式核函数、高斯核函数，那什么叫核函数（KernelFunction，或者KernelTrick）呢？它有什么用呢。支持向量机通过某非线性变换φ(x)，将输入空间映射到高维特征空间。特征空间的维数可能非常高。如果支持向量机的求解只用到内积运算，而在低维输入空间又存在某个函数K(x,x′)，它恰好等于在高维空间中这个内积，即K(x,x′)=。那么支持向量机就不用
深度学习模型在汽车自动驾驶领域的应用 eso1983 深度学习汽车自动驾驶
汽车自动驾驶是一个高度复杂的系统，深度学习和计算技术在其中扮演核心角色。今天简单介绍一下自动驾驶领域常用的深度学习模型及其计算原理的解析。1.深度学习模型分类及应用场景1.1视觉感知模型CNN（卷积神经网络）应用：图像分类、物体检测（车辆、行人、交通标志）、语义分割（道路、车道线）。典型模型：YOLO：实时目标检测，低延迟特性适合自动驾驶。MaskR-CNN：结合检测与像素级分割，用于精确场景理解
跨平台物联网漏洞挖掘算法评估框架设计与实现申报书上 XLYcmy 漏洞挖掘网络安全漏洞挖掘物联网项目申报跨架构静态分析固件
本研究的研究目的主要有以下两个：1、基于此领域的相关方法，通过实验找出各个架构的最优方法2、通过设计实验，比较跨架构解决方案和各架构最优方法组合解决方案在函数识别、漏洞挖掘上的优劣性一、项目技术路线（1）构建统一规范全面的多架构物联网设备二进制程序数据集（2）针对跨架构下的二进制程序，利用逆向工具提取为图、抽象语法树等中间语言，对于不同中间语言，选择合适的深度学习方法提取出中间语言数据结构的特征，
软件架构设计方法之The Clean Architecture 整洁架构颯沓如流星架构系统架构
前言CleanArchitecture（整洁架构）是一种软件设计理念，由RobertC.Martin（也称为UncleBob）提出，旨在提高软件系统的可维护性、可扩展性和可测试性。清洁架构的核心思想是将系统分为多个层次，并通过严格的依赖规则来管理层之间的交互。以下是清洁架构的主要特点和原则。TheCleanArchitectureTheCleanArchitecture是一种处理高度复杂领域的设计
基于Pyhton的人脸识别（Python 3.12+face_recognition库） F2022697486 python 人工智能开发语言
使用Python进行人脸编码和比较简介在这个教程中，我们将学习如何使用Python和face_recognition库来加载图像、提取人脸编码，并比较两个人脸是否相似。face_recognition库是一个强大的工具，它基于dlib的深度学习模型，可以轻松实现人脸检测和识别功能。本教程适合初学者，我们将通过一个简单的项目来了解这个库的基本用法和环境配置。代码示例importface_recogn
《DeepSeek-R1 问世，智能搜索领域迎来新变革》黑金IT 智能搜索
DeepSeek-R1是由DeepSeek公司开发的一款创新型人工智能模型，自2024年5月7日发布以来，迅速在AI领域引起广泛关注。该模型凭借其卓越的语言理解能力、高效的数据处理能力、自适应学习能力、高安全性与可靠性以及广泛的应用场景与拓展性，在众多人工智能模型中脱颖而出。DeepSeek-R1的核心特点强大的语言理解能力：DeepSeek-R1采用先进的深度学习算法，能够精准解析复杂的语义结构
AI绘画关键词（咒语）分析与热点研究集eee AI作画 midjourney chatgpt 人工智能 prompt text2img stable diffusion
语义文本图像生成技术关键词分析与热点研究一、研究背景与研究意义随着深度学习的发展，语义文本到图像的生成技术已经取得长足进步，AI绘画也因此快速崛起。只需输入关键词，AI系统就能自动生成符合语义描述的图像，这一技术的出现,使绘画的创作方式发生革命性变化。目前主流的AI绘画模型有Midjourney、Stablediffusion和文心一格等，其使用方式多为输入一段含有图片描述的“prompt（指令）
Spring4.1新特性——综述 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
Schema与数据类型优化 annan211 数据结构 mysql
目前商城的数据库设计真是一塌糊涂，表堆叠让人不忍直视，无脑的架构师，说了也不听。在数据库设计之初，就应该仔细揣摩可能会有哪些查询，有没有更复杂的查询，而不是仅仅突出很表面的业务需求，这样做会让你的数据库性能成倍提高，当然，丑陋的架构师是不会这样去考虑问题的。选择优化的数据类型 1 更小的通常更好更小的数据类型通常更快，因为他们占用更少的磁盘、内存和cpu缓存，
第一节 HTML概要学习 chenke html Web css
第一节 HTML概要学习 1. 什么是HTML HTML是英文Hyper Text Mark-up Language(超文本标记语言)的缩写，它规定了自己的语法规则，用来表示比“文本”更丰富的意义，比如图片，表格，链接等。浏览器（IE,FireFox等）软件知道HTML语言的语法，可以用来查看HTML文档。目前互联网上的绝大部分网页都是使用HTML编写的。打开记事本输入一下内
MyEclipse里部分习惯的更改 Array_06 eclipse
继续补充中---------------------- 1.更改自己合适快捷键windows-->prefences-->java-->editor-->Content Assist--> Activation triggers for java的右侧“.”就可以改变常用的快捷键选中 Text
近一个月的面试总结 cugfy 面试
本文是在学习中的总结，欢迎转载但请注明出处：http://blog.csdn.net/pistolove/article/details/46753275 前言打算换个工作，近一个月面试了不少的公司，下面将一些面试经验和思考分享给大家。另外校招也快要开始了，为在校的学生提供一些经验供参考，希望都能找到满意的工作。
HTML5一个小迷宫游戏 357029540 html5
通过《HTML5游戏开发》摘抄了一个小迷宫游戏，感觉还不错，可以画画，写字，把摘抄的代码放上来分享下，喜欢的同学可以拿来玩玩！ <html> <head> <title>创建运行迷宫</title> <script type="text/javascript"
10步教你上传githib数据张亚雄 git
官方的教学还有其他博客里教的都是给懂的人说得，对已我们这样对我大菜鸟只能这么来锻炼，下面先不玩什么深奥的，先暂时用着10步干净利索。等玩顺溜了再用其他的方法。操作过程（查看本目录下有哪些文件NO.1）ls （跳转到子目录NO.2）cd+空格+目录（继续NO.3）ls （匹配到子目录NO.4）cd+ 目录首写字母+tab键+（首写字母“直到你所用文件根就不再按TAB键了”）（查看文件
MongoDB常用操作命令大全 adminjun mongodb 操作命令
成功启动MongoDB后，再打开一个命令行窗口输入mongo，就可以进行数据库的一些操作。输入help可以看到基本操作命令，只是MongoDB没有创建数据库的命令，但有类似的命令如：如果你想创建一个“myTest”的数据库，先运行use myTest命令，之后就做一些操作（如：db.createCollection('user')）,这样就可以创建一个名叫“myTest”的数据库。一
bat调用jar包并传入多个参数 aijuans
下面的主程序是通过eclipse写的： 1.在Main函数接收bat文件传递的参数（String[] args）如： String ip =args[0]; String user=args[1]; &nbs
Java中对类的主动引用和被动引用 ayaoxinchao java 主动引用对类的引用被动引用类初始化
在Java代码中，有些类看上去初始化了，但其实没有。例如定义一定长度某一类型的数组，看上去数组中所有的元素已经被初始化，实际上一个都没有。对于类的初始化，虚拟机规范严格规定了只有对该类进行主动引用时，才会触发。而除此之外的所有引用方式称之为对类的被动引用，不会触发类的初始化。虚拟机规范严格地规定了有且仅有四种情况是对类的主动引用，即必须立即对类进行初始化。四种情况如下：1.遇到ne
导出数据库提示 outfile disabled BigBird2012 mysql
在windows控制台下，登陆mysql，备份数据库： mysql>mysqldump -u root -p test test > D:\test.sql 使用命令 mysqldump 格式如下： mysqldump -u root -p *** DBNAME > E:\\test.sql。注意：执行该命令的时候不要进入mysql的控制台再使用，这样会报
Javascript 中的 && 和 || bijian1013 JavaScript &&||
准备两个对象用于下面的讨论 var alice = { name: "alice", toString: function () { return this.name; } } var smith = { name: "smith",
[Zookeeper学习笔记之四]Zookeeper Client Library会话重建 bit1129 zookeeper
为了说明问题，先来看个简单的示例代码： package com.tom.zookeeper.book; import com.tom.Host; import org.apache.zookeeper.WatchedEvent; import org.apache.zookeeper.ZooKeeper; import org.apache.zookeeper.Wat
【Scala十一】Scala核心五：case模式匹配 bit1129 scala
package spark.examples.scala.grammars.caseclasses object CaseClass_Test00 { def simpleMatch(arg: Any) = arg match { case v: Int => "This is an Int" case v: (Int, String)
运维的一些面试题 yuxianhua linux
1、Linux挂载Winodws共享文件夹 mount -t cifs //1.1.1.254/ok /var/tmp/share/ -o username=administrator,password=yourpass 或 mount -t cifs -o username=xxx,password=xxxx //1.1.1.1/a /win
Java lang包-Boolean BrokenDreams boolean
Boolean类是Java中基本类型boolean的包装类。这个类比较简单，直接看源代码吧。 public final class Boolean implements java.io.Serializable,
读《研磨设计模式》-代码笔记-命令模式-Command bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.Collection; import java.util.List; /** * GOF 在《设计模式》一书中阐述命令模式的意图：“将一个请求封装
matlab下GPU编程笔记 cherishLC matlab
不多说，直接上代码 gpuDevice % 查看系统中的gpu,,其中的DeviceSupported会给出matlab支持的GPU个数。 g=gpuDevice(1); %会清空 GPU 1中的所有数据,,将GPU1 设为当前GPU reset(g) %也可以清空GPU中数据。 a=1; a=gpuArray(a); %将a从CPU移到GPU中 onGP
SVN安装过程 crabdave SVN
SVN安装过程 subversion-1.6.12 ./configure --prefix=/usr/local/subversion --with-apxs=/usr/local/apache2/bin/apxs --with-apr=/usr/local/apr --with-apr-util=/usr/local/apr --with-openssl=/
sql　行列转换 daizj sql 行列转换行转列列转行
行转列的思想是通过case when 来实现列转行的思想是通过union all 来实现下面具体例子：假设有张学生成绩表(tb)如下: Name Subject Result 张三语文　　74 张三数学　　83 张三物理　　93 李四语文　　74 李四数学　　84 李四物理　　94 */ /* 想变成姓名 &
MySQL--主从配置 dcj3sjt126com mysql
linux下的mysql主从配置：说明：由于MySQL不同版本之间的(二进制日志)binlog格式可能会不一样，因此最好的搭配组合是Master的MySQL版本和Slave的版本相同或者更低， Master的版本肯定不能高于Slave版本。（版本向下兼容） mysql1 : 192.168.100.1 //master mysq
关于yii 数据库添加新字段之后model类的修改 dcj3sjt126com Model
rules: array('新字段','safe','on'=>'search') 1、array('新字段', 'safe')//这个如果是要用户输入的话，要加一下， 2、array('新字段', 'numerical'),//如果是数字的话 3、array('新字段', 'length', 'max'=>100),//如果是文本 1、2、3适当的最少要加一条，新字段才会被
sublime text3 中文乱码解决 dyy_gusi Sublime Text
sublime text3中文乱码解决原因：缺少转换为UTF-8的插件目的：安装ConvertToUTF8插件包第一步：安装能自动安装插件的插件，百度“Codecs33”，然后按照步骤可以得到以下一段代码： import urllib.request,os,hashlib; h = 'eb2297e1a458f27d836c04bb0cbaf282' + 'd0e7a30980927
概念了解：CGI，FastCGI，PHP-CGI与PHP-FPM geeksun PHP
CGI CGI全称是“公共网关接口”(Common Gateway Interface)，HTTP服务器与你的或其它机器上的程序进行“交谈”的一种工具，其程序须运行在网络服务器上。 CGI可以用任何一种语言编写，只要这种语言具有标准输入、输出和环境变量。如php,perl,tcl等。 FastCGI FastCGI像是一个常驻(long-live)型的CGI，它可以一直执行着，只要激活后，不
Git push 报错 "error: failed to push some refs to " 解决 hongtoushizi git
Git push 报错 "error: failed to push some refs to " . 此问题出现的原因是：由于远程仓库中代码版本与本地不一致冲突导致的。由于我在第一次git pull --rebase 代码后，准备push的时候，有别人往线上又提交了代码。所以出现此问题。解决方案： 1： git pull 2：
第四章 Lua模块开发 jinnianshilongnian nginx lua
在实际开发中，不可能把所有代码写到一个大而全的lua文件中，需要进行分模块开发；而且模块化是高性能Lua应用的关键。使用require第一次导入模块后，所有Nginx 进程全局共享模块的数据和代码，每个Worker进程需要时会得到此模块的一个副本（Copy-On-Write），即模块可以认为是每Worker进程共享而不是每Nginx Server共享；另外注意之前我们使用init_by_lua中初
java.lang.reflect.Proxy liyonghui160com
1.简介 Proxy 提供用于创建动态代理类和实例的静态方法（1）动态代理类的属性代理类是公共的、最终的，而不是抽象的未指定代理类的非限定名称。但是，以字符串 "$Proxy" 开头的类名空间应该为代理类保留代理类扩展 java.lang.reflect.Proxy 代理类会按同一顺序准确地实现其创建时指定的接口
Java中getResourceAsStream的用法 pda158 java
1.Java中的getResourceAsStream有以下几种： 1. Class.getResourceAsStream(String path) ： path 不以’/'开头时默认是从此类所在的包下取资源，以’/'开头则是从ClassPath根下获取。其只是通过path构造一个绝对路径，最终还是由ClassLoader获取资源。　　2. Class.getClassLoader.get
spring 包官方下载地址（非maven） sinnk spring
SPRING官方网站改版后，建议都是通过 Maven和Gradle下载，对不使用Maven和Gradle开发项目的，下载就非常麻烦，下给出Spring Framework jar官方直接下载路径: http://repo.springsource.org/libs-release-local/org/springframework/spring/ s
Oracle学习笔记(7) 开发PLSQL子程序和包 vipbooks oracle sql 编程
哈哈，清明节放假回去了一下，真是太好了，回家的感觉真好啊！现在又开始出差之旅了，又好久没有来了，今天继续Oracle的学习！这是第七章的学习笔记，学习完第六章的动态SQL之后，开始要学习子程序和包的使用了……，希望大家能多给俺一些支持啊！编程时使用的工具是PLSQL