IGV丶明非

bert-pytorch版源码详细解读

前言

bert作为当下最火的NLP模型（或者说该类型的模型，包括AlBert，XLNet等）。对于志在NLP的同学，有必要对其原理和代码都进行比较深入的了解。废话不多说，进入正题。
PS：1.这里的代码有些参数传入是阉割过的，而且代码版本也是比较老版的，但更容易理解，更详细的还是参考：https://huggingface.co/transformers/
2.关键的注解都在代码的注释里。

主要代码

1.主函数入口

class BertModel(nn.Module):
    def __init__(self, config: BertConfig):
        super(BertModel, self).__init__()
        self.embeddings = BERTEmbeddings(config)
        self.encoder = BERTEncoder(config)
        self.pooler = BERTPooler(config)

    def forward(self, input_ids, token_type_ids=None, attention_mask=None):
        if attention_mask is None:
            attention_mask = torch.ones_like(input_ids)
        if token_type_ids is None:
            token_type_ids = torch.zeros_like(input_ids)
            
        # attention_mask的维度应保持和多头的hidden_states一致
        #!!!个人感觉这里extended_attention_mask 还应该扩展一下，感觉这个维度不太对!
        extended_attention_mask = attention_mask.unsqueeze(1).unsqueeze(2)
        extended_attention_mask = extended_attention_mask.float()
        # mask部分token的权重直接给-10000，使其在self-att的时候基本不起作用。
        extended_attention_mask = (1.0 - extended_attention_mask) * -10000.0
        
        #根据input_ids, token_type_ids以及position_ids来确定初始embeddings
        embedding_output = self.embeddings(input_ids, token_type_ids)
        #核心层，由以多层self_attention为主的神经网络构成
        all_encoder_layers = self.encoder(embedding_output, extended_attention_mask)
        #最后一层隐藏层
        sequence_output = all_encoder_layers[-1]
        #取出最后一层隐藏层的[cls]的表征，经过网络层(self.pooler)后得到pooled_output
        pooled_output = self.pooler(sequence_output)
        return all_encoder_layers, pooled_output

大致讲一下吧：
一般必传的三个参数input_idx，token_type_ids，attention_mask。
维度均为（batch_size, max_sent_length）

input_idx就是每个token对应的idx，对应关系在预训练模型文件集的vocab.txt里
token_type_ids有两种取值(0对应sentenceA,1对应sentenceB）该tensor会在self.embeddings的时候和input_iput生成的embedding相加生成初始的embeddings。
attention_mask有两种取值（1代表非mask词，0代表mask掉的词）一般来说在finetune阶段，我们会把padding部分都设成mask掉的词。

其他基本也都注释了。

2.BertEmbedding层

class BERTEmbeddings(nn.Module):
    def __init__(self, config):
        super(BERTEmbeddings, self).__init__()
        self.word_embeddings = nn.Embedding(config.vocab_size, config.hidden_size)
        self.position_embeddings = nn.Embedding(config.max_position_embeddings, config.hidden_size)
        self.token_type_embeddings = nn.Embedding(config.type_vocab_size, config.hidden_size)
        self.LayerNorm = BERTLayerNorm(config)
        self.dropout = nn.Dropout(config.hidden_dropout_prob)

    def forward(self, input_ids, token_type_ids=None):
    	#根据每个token的位置生成position_ids，很直观
        seq_length = input_ids.size(1)
        position_ids = torch.arange(seq_length, dtype=torch.long, device=input_ids.device)
        position_ids = position_ids.unsqueeze(0).expand_as(input_ids)
        
        if token_type_ids is None:
            token_type_ids = torch.zeros_like(input_ids)
    
		#这三个embeddings相信大家可以参见下图就一目了然了
        words_embeddings = self.word_embeddings(input_ids)
        position_embeddings = self.position_embeddings(position_ids)
        token_type_embeddings = self.token_type_embeddings(token_type_ids)

        embeddings = words_embeddings + position_embeddings + token_type_embeddings
        #最后过一个layerNorm和dropout层
        embeddings = self.LayerNorm(embeddings)
        embeddings = self.dropout(embeddings)
        return embeddings

3.BertEnocder层

class BERTEncoder(nn.Module):
    def __init__(self, config):
        super(BERTEncoder, self).__init__()
        layer = BERTLayer(config)
        self.layer = nn.ModuleList([copy.deepcopy(layer) for _ in range(config.num_hidden_layers)])    

    def forward(self, hidden_states, attention_mask):
        all_encoder_layers = []
        for layer_module in self.layer:
            hidden_states = layer_module(hidden_states, attention_mask)
            all_encoder_layers.append(hidden_states)
        return all_encoder_layers
        
class BERTLayer(nn.Module):
    def __init__(self, config):
        super(BERTLayer, self).__init__()
        self.attention = BERTAttention(config)
        self.intermediate = BERTIntermediate(config)
        self.output = BERTOutput(config)

    def forward(self, hidden_states, attention_mask):
        attention_output = self.attention(hidden_states, attention_mask)
        intermediate_output = self.intermediate(attention_output)
        layer_output = self.output(intermediate_output, attention_output)
        return layer_output

BertEncoder层实质上就是由多个（num_hidden_layers）BertLayer层堆叠而成。
而BertLayer又由attention，intermediate和output三部分组成，下面分别来看。

3.1BertTAttention

重头戏开始！详见注释，看完你会发现很简单。

class BERTAttention(nn.Module):
    def __init__(self, config):
        super(BERTAttention, self).__init__()
        self.self = BERTSelfAttention(config)
        self.output = BERTSelfOutput(config)

    def forward(self, input_tensor, attention_mask):
        self_output = self.self(input_tensor, attention_mask)
        attention_output = self.output(self_output, input_tensor)
        return attention_output
        
class BERTSelfAttention(nn.Module):
    def __init__(self, config):
        super(BERTSelfAttention, self).__init__()
        if config.hidden_size % config.num_attention_heads != 0:
            raise ValueError(
                "The hidden size (%d) is not a multiple of the number of attention"
                "heads (%d)" % (config.hidden_size, config.num_attention_heads))
        self.num_attention_heads = config.num_attention_heads#多头self_attention
        self.attention_head_size = int(config.hidden_size /config.num_attention_heads)#每个头的维度，一般是768/12=64
        self.all_head_size = self.num_attention_heads * self.attention_head_size

        self.query = nn.Linear(config.hidden_size, self.all_head_size)
        self.key = nn.Linear(config.hidden_size, self.all_head_size)
        self.value = nn.Linear(config.hidden_size, self.all_head_size)

        self.dropout = nn.Dropout(config.attention_probs_dropout_prob)

    def transpose_for_scores(self, x):
        new_x_shape = x.size()[:-1] + (self.num_attention_heads, self.attention_head_size)
        x = x.view(*new_x_shape)
        return x.permute(0, 2, 1, 3)

    def forward(self, hidden_states, attention_mask):
    	#经典生成QKV
    	#(batch_size, max_sen_length, hidden_size)->(batch_size, max_sen_length, hidden_size)
    	#(8, 512, 768)->(8, 512, 768)
        mixed_query_layer = self.query(hidden_states)
        mixed_key_layer = self.key(hidden_states)
        mixed_value_layer = self.value(hidden_states)
		#改变维度，形成多头，记住是在生成QKV之后才干的事
		#(batch_size, max_sen_length, hidden_size)->(batch_size, num_attention_heads, max_sen_length, attention_head_size)
		#(8, 512, 768)->(8, 12, 512, 64)
        query_layer = self.transpose_for_scores(mixed_query_layer)
        key_layer = self.transpose_for_scores(mixed_key_layer)
        value_layer = self.transpose_for_scores(mixed_value_layer)

        #QK tensor相乘，只对最后两维做矩阵乘法
        #(batch_size, num_attention_heads, max_sen_length, attention_head_size)*(batch_size, num_attention_heads, attention_head_size, max_sen_length)->(batch_size, num_attention_heads, max_sen_length, max_sen_length)
        #(8, 12, 512, 64)*(8, 12, 64, 512)->(8, 12, 512, 512)
        attention_scores = torch.matmul(query_layer, key_layer.transpose(-1, -2))
        #除以维度的开方，这是为了使QV的结果方差变为1，使得sortmax后不会发生梯度消失。
        attention_scores = attention_scores / math.sqrt(self.attention_head_size)
        #之前传的attention_mask在此刻发挥它的作用了！把mask掉的词的“权重”变成-10000，softmax后就基本等于0。
        attention_scores = attention_scores + attention_mask

        # softmax加一个dropout, 这也没啥好说的
        attention_probs = nn.Softmax(dim=-1)(attention_scores)
        attention_probs = self.dropout(attention_probs)
		# 最后再和V相乘,至此就完成了经典的softmax(QK/sqrt(dk))*V的操作！
		#(8, 12, 512, 512)*(8, 12, 512, 64)->(8, 12, 512, 64)
        context_layer = torch.matmul(attention_probs, value_layer)
        #之后就是把维度进行还原
        #(8, 12, 512, 64)->(8, 512,12 ,64)->(8, 512, 768)
        context_layer = context_layer.permute(0, 2, 1, 3).contiguous()
        new_context_layer_shape = context_layer.size()[:-2] + (self.all_head_size,)
        context_layer = context_layer.view(*new_context_layer_shape)
        return context_layer

class BERTSelfOutput(nn.Module):
    def __init__(self, config):
        super(BERTSelfOutput, self).__init__()
        self.dense = nn.Linear(config.hidden_size, config.hidden_size)
        self.LayerNorm = BERTLayerNorm(config)
        self.dropout = nn.Dropout(config.hidden_dropout_prob)

    def forward(self, hidden_states, input_tensor):
    	#很平淡的全连接层加上dropout和LayerNorm
        hidden_states = self.dense(hidden_states)
        hidden_states = self.dropout(hidden_states)
        hidden_states = self.LayerNorm(hidden_states + input_tensor)
        return hidden_states

3.2 BertIntermediate&& BertOutput

class BERTIntermediate(nn.Module):
    def __init__(self, config):
        super(BERTIntermediate, self).__init__()
        #之前一直不清楚这个intermediate_size是干嘛的，原来是self_attention后还跟了BERTIntermediate和BERTOutput2个全连接层。
        self.dense = nn.Linear(config.hidden_size, config.intermediate_size)
        self.intermediate_act_fn = gelu

    def forward(self, hidden_states):
        hidden_states = self.dense(hidden_states)
        hidden_states = self.intermediate_act_fn(hidden_states)
        return hidden_states
        
class BERTOutput(nn.Module):
    def __init__(self, config):
        super(BERTOutput, self).__init__()
        self.dense = nn.Linear(config.intermediate_size, config.hidden_size)
        self.LayerNorm = BERTLayerNorm(config)
        self.dropout = nn.Dropout(config.hidden_dropout_prob)

    def forward(self, hidden_states, input_tensor):
        hidden_states = self.dense(hidden_states)
        hidden_states = self.dropout(hidden_states)
        hidden_states = self.LayerNorm(hidden_states + input_tensor)
        return hidden_states

！！！这个和我之前看的transformers的残差连接层差别还挺大的，所以并不完全和transformers的encoder部分结构一致。
这之后就是主函数里的几步骤收尾工作了，这里也不再赘述。

4.补充

下面补充一下中途涉及到的相关类（LayerNorm）的代码

4.1 BertLayerNorm

class BERTLayerNorm(nn.Module):
    def __init__(self, config, variance_epsilon=1e-12):
        """Construct a layernorm module in the TF style (epsilon inside the square root).
        """
        super(BERTLayerNorm, self).__init__()
        self.gamma = nn.Parameter(torch.ones(config.hidden_size))
        self.beta = nn.Parameter(torch.zeros(config.hidden_size))
        self.variance_epsilon = variance_epsilon

    def forward(self, x):
        u = x.mean(-1, keepdim=True)
        s = (x - u).pow(2).mean(-1, keepdim=True)
        x = (x - u) / torch.sqrt(s + self.variance_epsilon)
        return self.gamma * x + self.beta

1.batchNorm是对多个样本进行标准化，而layerNorm是对单样本标准化。
2.BertLayerNorm除了标准化以外还加上了gamma和beta的变化。

4.2 BertPooler

class BERTPooler(nn.Module):
    def __init__(self, config):
        super(BERTPooler, self).__init__()
        self.dense = nn.Linear(config.hidden_size, config.hidden_size)
        self.activation = nn.Tanh()
        
    def forward(self, hidden_states):
    	#取出[cls]后过一个全连接层和激活函数。
        first_token_tensor = hidden_states[:, 0]
        pooled_output = self.dense(first_token_tensor)
        pooled_output = self.activation(pooled_output)
        return pooled_output

上文也提到了，BertPooler就是专门为[cls]设计的

4.3 gelu


def gelu(x):
    """Implementation of the gelu activation function.
    """
    return x * 0.5 * (1.0 + torch.erf(x / math.sqrt(2.0)))

4.4 transpose_for_scores

    def transpose_for_scores(self, x):
        new_x_shape = x.size()[:-1] + (self.num_attention_heads, self.attention_head_size)
        x = x.view(*new_x_shape)
        return x.permute(0, 2, 1, 3)

总结

到此基本就结束了，整体流程看下来其实很快，关键是理清里面每一步的维度的变换和几个核心的类就行。希望能对大家有所帮助。
代码参考来自于：https://github.com/DA-southampton/Read_Bert_Code

你可能感兴趣的:(NLP,BERT,自然语言处理,bert,pytorch)

pytorch实现cifar10多分类总结 L_pyu 人工智能 pytorch 分类
cifar-10简介：CIFAR-10是一个常用的图像分类数据集，每张图片都是3×32×32，3通道彩色图片，分辨率32×32。它包含了10个不同类别，每个类别有6000张图像，其中5000张用于训练，1000张用于测试。这10个类别分别为：飞机、汽车、鸟类、猫、鹿、狗、青蛙、马、船和卡车。CIFAR-10分类任务是将这些图像正确地分类到它们所属的类别中。对于这个任务，可以使用深度学习模型，如卷积
自然语言处理（NLP）技术介绍风吹晚风悠 gpt 人工智能 nlp 自然语言处理
自然语言处理（NLP）是一种涉及计算机和人类语言之间交流的技术。NLP技术可以应用于多个领域，例如机器翻译、情感分析、文本分类、问答系统等。以下是一些NLP技术的示例：机器翻译：NLP技术可用于将一个语言的文本自动翻译成另一个语言。例如，GoogleTranslate和百度翻译等在线翻译工具就使用了NLP技术。情感分析：NLP技术可用于分析文本中的情感和情感倾向。这可以帮助企业了解公众对其产品或服
多分类—微调DistilBERT对生物医学文本进行实验方法多分类：Automated Text Mining of Experimental Methodologies from Biomedical 小小帅AIGC information extraction 人工智能自然语言处理语言模型多分类学术领域生物医学
AutomatedTextMiningofExperimentalMethodologiesfromBiomedicalLiterature从生物医学文献中自动挖掘实验方法文本paper：https://arxiv.org/abs/2404.13779github：本文做的就是微调DistilBERT去做多分类任务，训练自己的数据集，分类每个句子对应的实验方法。没有什么讲的。文章目录～1.背景动机
【PyTorch】torch.nn.functional.log_softmax() 函数：计算 log(softmax)，用于多分类任务彬彬侠 PyTorch基础 log_softmax 多分类交叉熵损失分类 pytorch python 深度学习
torch.nn.functional.log_softmaxtorch.nn.functional.log_softmax是PyTorch提供的用于计算log(softmax)的函数，通常用于多分类任务和计算交叉熵损失，可以提高数值稳定性并防止数值溢出。1.log_softmax的数学公式对于输入张量XXX，softmax计算如下：softmax(Xi)=eXi∑jeXj\text{softma
【PyTorch】torch.nn.functional.cross_entropy() 函数：分类任务的交叉熵损失函数彬彬侠 PyTorch基础 cross_entropy 交叉熵损失函数分类 pytorch python 深度学习
torch.nn.functional.cross_entropytorch.nn.functional.cross_entropy是PyTorch中用于分类任务的交叉熵损失函数，用于衡量预测概率分布与真实类别分布之间的差异，常用于多分类任务（multi-classclassification）。1.交叉熵损失的数学公式对于单个样本，交叉熵损失的计算公式为：L=−∑i=1Cyilog⁡(yi^)\
每天五分钟玩转深度学习PyTorch：基于GoogLeNet完成CAFIR10分类每天五分钟玩转人工智能深度学习框架pytorch 深度学习 pytorch 分类 GoogLeNet 人工智能 CAFIR10
本文重点前面我们终于使用pytorch搭建了GoogLeNet，本文我们使用该网络模型解决一个实际问题，也就是使用它完成CAFIR10分类，其实就这些任务而言，我们只要搭建好模型，然后把数据喂进去就行了，其它的地方都是一样的，就是网络模型不一样。代码
基于Transformer的医学文本分类：从BERT到BioBERT Evaporator Core 人工智能 #深度学习 #DeepSeek快速入门 transformer 分类 bert
随着自然语言处理（NLP）技术的快速发展，Transformer模型在文本分类、情感分析、机器翻译等任务中取得了显著成果。在医学领域，文本数据（如电子病历、医学文献、临床报告）具有高度的专业性和复杂性，传统的NLP方法往往难以处理。Transformer模型，尤其是BERT及其变体，通过预训练和微调的方式，能够有效捕捉医学文本中的语义信息，为医学文本分类提供了强大的工具。本文将探讨Transfor
TF-IDF：文本挖掘中的关键词提取利器巷955 tf-idf
引言在自然语言处理（NLP）和文本挖掘中，TF-IDF是一种常用的技术，用于评估一个词在文档中的重要性。它不仅在信息检索领域广泛应用，还在文本分类、关键词提取等任务中发挥着重要作用。本文将详细介绍TF-IDF的原理，并通过一个实际的代码示例来展示如何使用TF-IDF从《红楼梦》中提取核心关键词。1.什么是TF-IDF？TF-IDF是一种统计方法，用于评估一个词在文档中的重要性。它由两部分组成：-T
深度学习项目--基于DenseNet网络的“乳腺癌图像识别”，准确率90%+，pytorch复现羊小猪~~ 深度学习网络 pytorch 人工智能 python 机器学习分类
本文为365天深度学习训练营中的学习记录博客原作者：K同学啊前言如果说最经典的神经网络，ResNet肯定是一个，从ResNet发布后，很多人做了修改，denseNet网络无疑是最成功的一个，它采用密集型连接，将通道数连接在一起；本文是基于上一篇复现DenseNet121模型，做一个乳腺癌图像识别，效果还行，准确率0.9+;CNN经典网络之“DenseNet”简介，源码研究与复现(pytorch)：
AI 之路——数据分析（1）Pandas小结与框架整理 Robin_Pi 机器学习之路数据分析数据分析 python 人工智能可视化
目录1.写在前面1.1AI之路：1.2工具/技能：2.数据分析2.1数据分析的流程2.2数据的基本操作方法2.2.1Pandas概览2.2.2使用Pandas操作数据的核心(1)选择数据(2)操作数据2.2.2数据详解3.写在最后1.写在前面主要是阶段性框架总结1.1AI之路：数据分析——机器学习——深度学习——CV/NLP1.2工具/技能：Python、NumPy、Pandas、Matplotl
PyTorch 深度学习实战（13）：Proximal Policy Optimization (PPO) 算法进取星辰 PyTorch 深度学习实战深度学习 pytorch 算法
在上一篇文章中，我们介绍了Actor-Critic算法，并使用它解决了CartPole问题。本文将深入探讨ProximalPolicyOptimization(PPO)算法，这是一种更稳定、更高效的策略优化方法。我们将使用PyTorch实现PPO算法，并应用于经典的CartPole问题。一、PPO算法基础PPO是OpenAI提出的一种强化学习算法，旨在解决策略梯度方法中的训练不稳定问题。PPO通过
人工智能概念 zhangpeng455547940 计算机人工智能
机器学习、深度学习、大模型机器学习提供框架，使得系统可以从数据中学习算法：线性回归、逻辑回归、支持向量机、决策树、随机森林、K近邻算法深度学习是实现这一目标的工具，模仿人脑，使用多层神经网络进行学习算法：多层感知器、卷积神经网络、循环神经网络、长短期记忆网络大模型指参数量巨大的深度学习模型人工智能应用：自然语言处理、图像识别与生成、语音识别、政务与企业服务...
机器学习(二) 本文(2.5万字) | KNN算法原理及Python复现 | 小酒馆燃着灯机器学习算法 k近邻算法
文章目录一KNN算法原理二KNN三要素三机器学习中标准化四KNN分类预测规则五KNN回归预测规则六KNN算法实现方式七KDTree7.1构造KDtree7.2KDtree查找最近邻八KNN特点九KNN算法实现案例一案例二1.机器学习2.深度学习与目标检测3.YOLOv54.YOLOv5改进5.YOLOv8及其改进6.Python与PyTorch7.工具8.小知识点9.杂记一KNN算法原理K近邻分类
【大模型LLM面试合集】分布式训练_总结 X.AI666 大模型LLM面试合集面试分布式人工智能语言模型
9.总结1.数据并行数据并行，由于其原理相对比较简单，是目前使用最广泛的分布式并行技术。数据并行不仅仅指对训练的数据并行操作，还可以对网络模型梯度、权重参数、优化器状态等数据进行并行。我们首先以PyTorch数据并行的发展（DataParallel、DistributedDataParallel、FullyShardedDataParallel）为主线进行讲述了数据并行的技术原理。同时，也简述了D
【vLLM 学习】使用 TPU 安装 HyperAI超神经 vLLM 学习人工智能 vLLM 深度学习 TPU 机器学习教程
vLLM是一款专为大语言模型推理加速而设计的框架，实现了KV缓存内存几乎零浪费，解决了内存管理瓶颈问题。更多vLLM中文文档及教程可访问→https://vllm.hyper.ai/vLLM使用PyTorchXLA支持GoogleCloudTPU。依赖环境GoogleCloudTPUVM（单主机和多主机）TPU版本:v5e、v5p、v4Python:3.10安装选项：href=“https://v
AI大模型推理加速：技术与实践详解 AI大模型学习者人工智能
近年来，AI大模型在自然语言处理、计算机视觉等领域取得了突破性进展。然而，大模型的推理速度却成为其落地应用的瓶颈。本文将详细探讨AI大模型推理加速的技术手段和实践经验，并结合具体案例进行分析。一、挑战与机遇1.1挑战庞大的参数量:大模型通常拥有数十亿甚至数千亿个参数，例如GPT-3拥有1750亿个参数。如此庞大的参数量导致模型文件体积巨大，加载和推理都需要消耗大量的内存和计算资源。复杂的计算图:大
Go语言入门基础详解老胖闲聊 go golang 开发语言后端
一、语言历史背景Go语言由Google工程师RobertGriesemer、RobPike和KenThompson于2007年设计，2009年正式开源。设计目标：兼具Python的开发效率与C的执行性能内置并发支持（goroutine/channel）简洁的类型系统现代化的包管理跨平台编译能力//经典HelloWorld示例packagemain//声明包名import"fmt"//导入标准库fu
深入理解信息检索之BM25算法 Lunar* 算法与优化自然语言处理人工智能
1.BM25算法简介BM25算法，全称为"BestMatching25"，是由StephenRobertson和KarenSpärckJones在1990年代初基于早期的概率排名模型（如二元独立检索模型）发展而来。它通过一种概率论的方法来衡量文档与用户查询之间的相关性。2.BM25的核心原理BM25算法的核心在于两个主要的概念：逆文档频率（IDF）和词频（TF）调整。逆文档频率（IDF):IDF用
大模型高效优化技术全景解析：微调、量化、剪枝、梯度裁剪与蒸馏时光旅人01号人工智能剪枝算法深度学习数据挖掘人工智能
目录微调（Fine-tuning）量化（Quantization）剪枝（Pruning）梯度裁剪（GradientClipping）知识蒸馏（KnowledgeDistillation）技术对比与协同策略总结与趋势1.微调（Fine-tuning）核心思想在预训练模型（如BERT、GPT）基础上，通过领域数据调整参数，适配下游任务。方法流程预训练模型加载：加载通用模型权重（如HuggingFace
DeepSeek 与其他 AI 模型的对比：优势与特色分析 CarlowZJ 人工智能 DeepSeek
一、引言在众多AI模型中，DeepSeek凭借其独特的功能和优势脱颖而出。本文将对比DeepSeek与其他流行的AI模型，分析它的优势与特色。二、与GPT系列的对比功能多样性：DeepSeek不仅支持文本生成，还支持代码生成和对话交互。多模态能力：DeepSeek支持多种输入和输出形式，如图像和语音。行业适配性：DeepSeek提供了针对不同行业的优化方案。三、与BERT系列的对比生成能力：Dee
大模型（DeepSeek等）是否会动摇AI工程师的工作？点我头像干啥 Ai 深度学习人工智能 AI编程计算机视觉
引言近年来，人工智能（AI）领域取得了突飞猛进的发展，尤其是大模型（如GPT-3、BERT、DeepSeek等）的出现，极大地推动了自然语言处理（NLP）、计算机视觉（CV）等领域的进步。大模型凭借其强大的泛化能力和广泛的应用场景，逐渐成为AI领域的核心技术之一。然而，随着大模型的普及，一个备受关注的问题浮出水面：大模型是否会动摇AI工程师的工作？本文将从多个角度探讨这一问题，分析大模型对AI工程
【大模型学习】第十九章什么是迁移学习好多渔鱼好多 AI大模型人工智能大模型 AI 机器学习迁移学习
目录1.迁移学习的起源背景1.1传统机器学习的问题1.2迁移学习的提出背景2.什么是迁移学习2.1迁移学习的定义2.2生活实例解释3.技术要点与原理3.1迁移学习方法分类3.1.1基于特征的迁移学习（Feature-basedTransfer）案例说明代码示例3.1.2基于模型的迁移（Model-basedTransfer）案例说明BERT用于情感分析的例子3.1.3基于实例的迁移（Instanc
在windows下运行ollama用5600XT (其实旧的a卡应该都可以）步骤同时用ComfyUI + RX 5600 XT + DirectML 安装与配置 Zalo2 AI deepseek windows llama stable diffusion linux AI作画
Linux部分5600XT这个卡是gfx1010的核心，这个是rand1架构，这是被amd放弃的老古董包裹其他的rand1或者rand2都是。没钱也要玩AI(自能简单运用，不能训练，微调等)这张卡只有6g远远不够ai使用所以我发现好像是能和cpu一起混用的。#警告这张卡不要在linux下尝试安装rocm版本进行pytorch编译，然后进行模型微调，反正我是浪费时间了，根本行不通，因为amd根本就没
Java线程协作式中断机制超人汪小建(seaboat) 线程协作式中断机制 jvm
跟着作者的65节课彻底搞懂Java并发原理专栏，一步步彻底搞懂Java并发原理。作者简介：笔名seaboat，擅长工程算法、人工智能算法、自然语言处理、计算机视觉、架构、分布式、高并发、大数据和搜索引擎等方面的技术，大多数编程语言都会使用，但更擅长Java、Python和C++。平时喜欢看书写作、运动、画画。崇尚技术自由，崇尚思想自由。出版书籍：《Tomcat内核设计剖析》、《图解数据结构与算法》
HarmonyOS NEXT 实战系列-综合案例新闻页 harmonyos-next
预览图片编辑接口文档编辑实现步骤：准备ForEach遍历数据的页面使用http获取数据渲染落地代码：准备ForEach遍历数据的页面interfaceNews{id:numbertitle:stringsource:stringcmtcount:numberimg:stringtime:string}@Entry@ComponentstructIndex{@StatenewsList:News[]
深度学习 bert与Transformer的区别联系 Humingway 深度学习 bert transformer
BERT（BidirectionalEncoderRepresentationsfromTransformers）和Transformer都是现代自然语言处理（NLP）中的重要概念，但它们代表不同的层面。理解这两者之间的区别与联系有助于更好地掌握它们在NLP任务中的应用。TransformerTransformer是一种特定的深度学习模型架构，由Vaswani等人在2017年的论文《Attenti
自然语言处理：文本聚类老赵爱学习 python 文本聚类 k均值聚类算法高斯混合模型的最大期望值算法无监督朴素贝叶斯模型自然语言处理人工智能
介绍大家好，博主又来和大家分享自然语言处理领域的知识了。今天给大家分享的内容是自然语言处理中的文本聚类。文本聚类在自然语言处理领域占据着重要地位，它能将大量无序的文本按照内容的相似性自动划分成不同的类别，极大地提高了文本处理和信息提取的效率。就好比在一个大型图书馆中，文本聚类能够像智能管理员一样，把各种书籍按照主题分类摆放，方便读者快速找到所需资料。而实现文本聚类的方法有很多，其中k均值聚类算法、
PyTorch 和 Python关系一只积极向上的小咸鱼 python pytorch 人工智能
1PyTorch和Python关系PyTorch和Python是两个不同但相互关联的工具，主要用于机器学习和深度学习领域。以下是它们之间的关系和各自的作用：Python编程语言:Python是一种高级编程语言，以其简洁易读的语法而闻名。广泛使用:Python在数据科学、人工智能、Web开发、自动化等多个领域有着广泛的应用。库和生态系统丰富:Python拥有丰富的第三方库和工具，如NumPy、pan
Python与人工智能：为何它们是天作之合？纪至训至 python 人工智能开发语言
引言在人工智能（AI）飞速发展的今天，Python已成为这一领域的“明星语言”。从机器学习到深度学习，从自然语言处理到计算机视觉，Python的身影无处不在。那么，Python究竟为何能成为AI开发的首选工具？本文将探讨Python与AI之间的深度关联，并解析其背后的原因。1.Python的简洁性与可读性AI开发的核心在于快速迭代和实验，而Python以其简洁的语法和直观的代码结构著称。开发者无需
【自学笔记】讯飞星火基础知识点总览-持续更新 Long_poem 笔记
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录讯飞星火基础知识点总览一、讯飞星火简介二、核心功能1.语音识别2.自然语言处理3.知识图谱4.星火API三、基础概念1.AI模型2.数据处理3.交互方式四、应用场景示例1.办公场景2.学习场景3.生活场景五、总结总结讯飞星火基础知识点总览一、讯飞星火简介讯飞星火是科大讯飞推出的一款强大的AI技术平台，它集成了语音识别、自然语言
jvm调优总结（从基本概念到深度优化） oloz java jvm jdk 虚拟机应用服务器
JVM参数详解：http://www.cnblogs.com/redcreen/archive/2011/05/04/2037057.html Java虚拟机中，数据类型可以分为两类：基本类型和引用类型。基本类型的变量保存原始值，即：他代表的值就是数值本身；而引用类型的变量保存引用值。“引用值”代表了某个对象的引用，而不是对象本身，对象本身存放在这个引用值所表示的地址的位置。
【Scala十六】Scala核心十：柯里化函数 bit1129 scala
本篇文章重点说明什么是函数柯里化，这个语法现象的背后动机是什么，有什么样的应用场景，以及与部分应用函数(Partial Applied Function)之间的联系 1. 什么是柯里化函数 A way to write functions with multiple parameter lists. For instance def f(x: Int)(y: Int) is a
HashMap dalan_123 java
HashMap在java中对很多人来说都是熟的；基于hash表的map接口的非同步实现。允许使用null和null键；同时不能保证元素的顺序；也就是从来都不保证其中的元素的顺序恒久不变。 1、数据结构在java中，最基本的数据结构无外乎：数组和引用（指针），所有的数据结构都可以用这两个来构造，HashMap也不例外，归根到底HashMap就是一个链表散列的数据
Java Swing如何实时刷新JTextArea，以显示刚才加append的内容周凡杨 java 更新 swing JTextArea
在代码中执行完textArea.append("message")后，如果你想让这个更新立刻显示在界面上而不是等swing的主线程返回后刷新，我们一般会在该语句后调用textArea.invalidate()和textArea.repaint()。问题是这个方法并不能有任何效果，textArea的内容没有任何变化，这或许是swing的一个bug，有一个笨拙的办法可以实现
servlet或struts的Action处理ajax请求 g21121 servlet
其实处理ajax的请求非常简单，直接看代码就行了： //如果用的是struts //HttpServletResponse response = ServletActionContext.getResponse(); // 设置输出为文字流 response.setContentType("text/plain"); // 设置字符集 res
FineReport的公式编辑框的语法简介老A不折腾 finereport 公式总结
FINEREPORT用到公式的地方非常多，单元格（以=开头的便被解析为公式），条件显示，数据字典，报表填报属性值定义，图表标题，轴定义，页眉页脚，甚至单元格的其他属性中的鼠标悬浮提示内容都可以写公式。简单的说下自己感觉的公式要注意的几个地方： 1.if语句语法刚接触感觉比较奇怪，if(条件式子,值1,值2)，if可以嵌套，if(条件式子1，值1，if(条件式子2，值2，值3)
linux mysql 数据库乱码的解决办法墙头上一根草 linux mysql 数据库乱码
linux 上mysql数据库区分大小写的配置 lower_case_table_names=1 1-不区分大小写 0-区分大小写修改/etc/my.cnf 具体的修改内容如下: [client] default-character-set=utf8 [mysqld] datadir=/var/lib/mysql socket=/va
我的spring学习笔记6-ApplicationContext实例化的参数兼容思想 aijuans Spring 3
ApplicationContext能读取多个Bean定义文件，方法是： ApplicationContext appContext = new ClassPathXmlApplicationContext（ new String[]｛“bean-config1.xml”，“bean-config2.xml”，“bean-config3.xml”，“bean-config4.xml
mysql 基准测试之sysbench annan211 基准测试 mysql基准测试 MySQL测试 sysbench
1 执行如下命令，安装sysbench-0.5： tar xzvf sysbench-0.5.tar.gz cd sysbench-0.5 chmod +x autogen.sh ./autogen.sh ./configure --with-mysql --with-mysql-includes=/usr/local/mysql
sql的复杂查询使用案列与技巧百合不是茶 oracle sql 函数数据分页合并查询
本片博客使用的数据库表是oracle中的scott用户表; ------------------- 自然连接查询查询 smith 的上司(两种方法) &
深入学习Thread类 bijian1013 java thread 多线程 java多线程
一．线程的名字下面来看一下Thread类的name属性，它的类型是String。它其实就是线程的名字。在Thread类中，有String getName()和void setName(String)两个方法用来设置和获取这个属性的值。同时，Thr
JSON串转换成Map以及如何转换到对应的数据类型 bijian1013 java fastjson net.sf.json
在实际开发中，难免会碰到JSON串转换成Map的情况，下面来看看这方面的实例。另外，由于fastjson只支持JDK1.5及以上版本，因此在JDK1.4的项目中可以采用net.sf.json来处理。一.fastjson实例 JsonUtil.java package com.study; impor
【RPC框架HttpInvoker一】HttpInvoker：Spring自带RPC框架 bit1129 spring
HttpInvoker是Spring原生的RPC调用框架，HttpInvoker同Burlap和Hessian一样，提供了一致的服务Exporter以及客户端的服务代理工厂Bean，这篇文章主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中
【Mahout二】基于Mahout CBayes算法的20newsgroup的脚本分析 bit1129 Mahout
#!/bin/bash # # Licensed to the Apache Software Foundation (ASF) under one or more # contributor license agreements. See the NOTICE file distributed with # this work for additional information re
nginx三种获取用户真实ip的方法 ronin47
随着nginx的迅速崛起，越来越多公司将apache更换成nginx. 同时也越来越多人使用nginx作为负载均衡, 并且代理前面可能还加上了CDN加速，但是随之也遇到一个问题：nginx如何获取用户的真实IP地址,如果后端是apache,请跳转到<apache获取用户真实IP地址>，如果是后端真实服务器是nginx，那么继续往下看。实例环境：用户IP 120.22.11.11
java-判断二叉树是不是平衡 bylijinnan java
参考了 http://zhedahht.blog.163.com/blog/static/25411174201142733927831/ 但是用java来实现有一个问题。由于Java无法像C那样“传递参数的地址，函数返回时能得到参数的值”，唯有新建一个辅助类：AuxClass import ljn.help.*; public class BalancedBTree {
BeanUtils.copyProperties VS PropertyUtils.copyProperties 诸葛不亮 PropertyUtils BeanUtils
BeanUtils.copyProperties VS PropertyUtils.copyProperties 作为两个bean属性copy的工具类，他们被广泛使用，同时也很容易误用，给人造成困然；比如：昨天发现同事在使用BeanUtils.copyProperties copy有integer类型属性的bean时，没有考虑到会将null转换为0，而后面的业
[金融与信息安全]最简单的数据结构最安全 comsci 数据结构
现在最流行的数据库的数据存储文件都具有复杂的文件头格式，用操作系统的记事本软件是无法正常浏览的，这样的情况会有什么问题呢？从信息安全的角度来看，如果我们数据库系统仅仅把这种格式的数据文件做异地备份，如果相同版本的所有数据库管理系统都同时被攻击，那么
vi区段删除 Cwind linux vi 区段删除
区段删除是编辑和分析一些冗长的配置文件或日志文件时比较常用的操作。简记下vi区段删除要点备忘。 vi概述引文中并未将末行模式单独列为一种模式。单不单列并不重要，能区分命令模式与末行模式即可。 vi区段删除步骤： 1. 在末行模式下使用:set nu显示行号非必须，随光标移动vi右下角也会显示行号，能够正确找到并记录删除开始行
清除tomcat缓存的方法总结 dashuaifu tomcat 缓存
用tomcat容器，大家可能会发现这样的问题，修改jsp文件后，但用IE打开依然是以前的Jsp的页面。出现这种现象的原因主要是tomcat缓存的原因。解决办法如下: 在jsp文件头加上 <meta http-equiv="Expires" content="0"> <meta http-equiv="kiben&qu
不要盲目的在项目中使用LESS CSS dcj3sjt126com Web less
　如果你还不知道LESS CSS是什么东西，可以看一下这篇文章，是我一朋友写给新人看的《CSS——LESS》　　不可否认，LESS CSS是个强大的工具，它弥补了css没有变量、无法运算等一些“先天缺陷”，但它似乎给我一种错觉，就是为了功能而实现功能。　　比如它的引用功能 ? .rounded_corners{
[入门]更上一层楼 dcj3sjt126com PHP yii2
更上一层楼通篇阅读完整个“入门”部分，你就完成了一个完整 Yii 应用的创建。在此过程中你学到了如何实现一些常用功能，例如通过 HTML 表单从用户那获取数据，从数据库中获取数据并以分页形式显示。你还学到了如何通过 Gii 去自动生成代码。使用 Gii 生成代码把 Web 开发中多数繁杂的过程转化为仅仅填写几个表单就行。本章将介绍一些有助于更好使用 Yii 的资源：
Apache HttpClient使用详解 eksliang httpclient http协议
Http协议的重要性相信不用我多说了，HttpClient相比传统JDK自带的URLConnection，增加了易用性和灵活性（具体区别，日后我们再讨论），它不仅是客户端发送Http请求变得容易，而且也方便了开发人员测试接口（基于Http协议的），即提高了开发的效率，也方便提高代码的健壮性。因此熟练掌握HttpClient是很重要的必修内容，掌握HttpClient后，相信对于Http协议的了解会
zxing二维码扫描功能 gundumw100 android zxing
经常要用到二维码扫描功能现给出示例代码 import com.google.zxing.WriterException; import com.zxing.activity.CaptureActivity; import com.zxing.encoding.EncodingHandler; import android.app.Activity; import an
纯HTML+CSS带说明的黄色导航菜单 ini html Web html5 css hovertree
HoverTree带说明的CSS菜单:纯HTML+CSS结构链接带说明的黄色导航在线体验效果：http://hovertree.com/texiao/css/1.htm代码如下,保存到HTML文件可以看到效果： <!DOCTYPE html > <html > <head> <title>HoverTree
fastjson初始化对性能的影响 kane_xie fastjson 序列化
之前在项目中序列化是用thrift，性能一般，而且需要用编译器生成新的类，在序列化和反序列化的时候感觉很繁琐，因此想转到json阵营。对比了jackson，gson等框架之后，决定用fastjson，为什么呢，因为看名字感觉很快。。。网上的说法： fastjson 是一个性能很好的 Java 语言实现的 JSON 解析器和生成器，来自阿里巴巴的工程师开发。
基于Mybatis封装的增删改查实现通用自动化sql mengqingyu DAO
1.基于map或javaBean的增删改查可实现不写dao接口和实现类以及xml，有效的提高开发速度。 2.支持自定义注解包括主键生成、列重复验证、列名、表名等 3.支持批量插入、批量更新、批量删除 <bean id="dynamicSqlSessionTemplate" class="com.mqy.mybatis.support.Dynamic
js控制input输入框的方法封装(数字，中文，字母，浮点数等) qifeifei javascript js
在项目开发的时候，经常有一些输入框，控制输入的格式，而不是等输入好了再去检查格式，格式错了就报错，体验不好。 /** 数字，中文，字母,浮点数(+/-/.) 类型输入限制，只要在input标签上加上 jInput="number,chinese,alphabet,floating" 备注：floating属性只能单独用*/ funct
java 计时器应用 tangqi609567707 java timer
mport java.util.TimerTask; import java.util.Calendar; public class MyTask extends TimerTask { private static final int
erlang输出调用栈信息 wudixiaotie erlang
在erlang otp的开发中，如果调用第三方的应用，会有有些错误会不打印栈信息，因为有可能第三方应用会catch然后输出自己的错误信息，所以对排查bug有很大的阻碍，这样就要求我们自己打印调用的栈信息。用这个函数：erlang:process_display (self (), backtrace).需要注意这个函数只会输出到标准错误输出。也可以用这个函数：erlang:get_s

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他