唐僧爱吃唐僧肉

小布助手对话短文本语义匹配阅读源代码1--build_vocab.py understand

小布助手对话短文本语义匹配
对于大佬这段代码的解读
首先进入build_vocab.py之中，查看形成词表的过程
关键代码

counts = [3,5,3,3,5,5]

接下来调用词频形成新的vocab.txt的词表过程
(由于数据是脱敏的，这里考虑词语出现的频率，即词频)

for ch in childPath:
    print('file_name = ')
    print(modelPath+ch+'vocab.txt')
    r"""
    nezha-base-count3/pretrain/nezha_model/vocab.txt:词频:3,词表大小:9448
    nezha-base-count3/finetuning/models/vocab.txt:词频:3,词表大小:9448
    nezha-base-count5/pretrain/nezha_model/vocab.txt:词频:5,词表大小:6930
    nezha-base-count5/finetuning/models/vocab.txt:词频:5,词表大小:6930
    bert-base-count3/pretrain/bert_model/vocab.txt:词频:3,词表大小:9448
    bert-base-count3/finetuning/models/vocab.txt:词频:3,词表大小:9448
    bert-base-count3-len100/finetuning/models/vocab.txt:词频:3,词表大小:9448
    bert-base-count5/pretrain/bert_model/vocab.txt:词频:5,词表大小:6930
    bert-base-count5-len32/finetuning/models/vocab.txt:词频:5,词表大小:6930
    """
    with open(modelPath+ch+'vocab.txt', "w", encoding="utf-8") as f:
        for i in vocab:
            f.write(str(i)+'\n')

接下来进入train_bert.py之中读取预训练的相应代码

self.bert = BertModel(config, add_pooling_layer=False)
self.cls = BertOnlyMLMHead(config)

进入到BertOnlyMLMHead类别之中去查看

self.predictions = BertLMPredictionHead(config)

进入到BertLMPredictionHead类别之中进行查看

self.transform = BertPredictionHeadTransform(config)
self.decoder = nn.Linear(config.hidden_size, config.vocab_size, bias=False)
self.bias = nn.Parameter(torch.zeros(config.vocab_size))
self.decoder.bias = self.bias

接下来进入BertPredictionHeadTransform类别之中去查看

self.dense = nn.Linear(config.hidden_size, config.hidden_size)
if isinstance(config.hidden_act, str):
    self.transform_act_fn = ACT2FN[config.hidden_act]
else:
    self.transform_act_fn = config.hidden_act
self.LayerNorm = nn.LayerNorm(config.hidden_size, eps=config.layer_norm_eps)

最后计算对应的损失内容

masked_lm_loss = None
if labels is not None:
    loss_fct = CrossEntropyLoss()  # -100 index = padding token
    masked_lm_loss = loss_fct(prediction_scores.view(-1, self.config.vocab_size), labels.view(-1))
#判断是否单词预测准确，计算对应的交叉熵损失函数
if not return_dict:
    output = (prediction_scores,) + outputs[2:]
    return ((masked_lm_loss,) + output) if masked_lm_loss is not None else output

return MaskedLMOutput(
    loss=masked_lm_loss,
    logits=prediction_scores,
    hidden_states=outputs.hidden_states,
    attentions=outputs.attentions,
)

!!!注意!!!这里标志的时候labels的列表那一栏一定要用对应的-100填充，而不是用0来填充，否则这里交叉熵会偏向于0，参数不能够很好地打乱
因为在计算交叉熵的时候，如果predict的这个位置有vocab_size的概率，而label这个位置的标记为0，那么这个位置就会计算相应的交叉熵，也就是说如果labels中的padding都为0的时候，相当于后面padding的位置都被[MASK]掉了并且真实概率为0，这种情况下训练多了，自然模型的参数就会偏向同一个位置，因为你预测的标签大多数都得为0
这里的return_dict的标志一直为True，所以中间的if not return_dict并没有调用，最后返回的为MaskedLMOutput的类别

return MaskedLMOutput(
    loss=masked_lm_loss,
    logits=prediction_scores,
    hidden_states=outputs.hidden_states,
    attentions=outputs.attentions,
)

这里输出的MaskedLMOutput的内容为

MaskedLMOutput(loss=tensor(15.9516, device='cuda:0', grad_fn=), logits=tensor([
        [[ -7.1032,  -7.7221,  -7.8289,  ...,  -5.4624,  -4.8262,  -1.8701],
         [ -6.6322,  -7.9446,  -7.6102,  ...,  -7.7900,  -6.9102,  -0.4106],
         [ -7.4549,  -8.6645,  -8.5466,  ...,  -6.1190,  -5.7303,  -2.0438],
         ...,
         [ -8.5308,  -9.6921,  -9.5116,  ...,  -6.1869,  -6.7780,  -2.4076],
         [ -8.2630,  -9.3654,  -9.2944,  ...,  -6.7684,  -6.5533,  -2.4583],
         [ -8.1570,  -9.1377,  -9.1000,  ...,  -7.6866,  -7.1135,  -1.3787]],

        [[ -6.6938,  -7.0423,  -6.4993,  ...,  -2.5347,  -4.2420,   1.0630],
         [ -6.9207,  -6.9863,  -6.6222,  ...,  -3.4255,  -3.8394,   2.3977],
         [ -6.3949,  -6.4493,  -6.1290,  ...,  -2.4942,  -3.9657,   3.1857],
         ...,
         [ -5.1594,  -5.3287,  -5.1231,  ...,  -2.8701,  -3.4257,   0.3638],
         [ -5.8926,  -5.8620,  -5.7480,  ...,  -3.9318,  -5.5555,  -0.8947],
         [ -4.8589,  -5.0712,  -4.8379,  ...,  -2.0654,  -3.1606,   0.2632]],

        [[ -6.5105,  -6.5952,  -6.9593,  ...,  -4.0284,  -1.6125,  -0.7875],
         [ -6.0690,  -5.9327,  -6.2466,  ...,  -3.7733,  -1.3420,  -1.5750],
         [ -5.9906,  -6.2979,  -6.4472,  ...,  -4.0264,   0.3995,  -2.1036],
         ...,
         [ -6.9289,  -6.9648,  -7.4615,  ...,  -4.7760,  -2.1715,  -3.0456],
         [ -6.4378,  -6.4278,  -6.8050,  ...,  -4.9064,  -1.3761,  -0.4627],
         [ -6.0452,  -6.0653,  -6.4155,  ...,  -4.0300,  -0.8617,  -0.9327]],

        ...,

        [[ -7.6371,  -8.5441,  -8.1590,  ...,  -5.5289,  -8.8313,  -0.4131],
         [ -7.6919,  -8.7561,  -8.4187,  ...,  -6.8730,  -8.5900,  -0.8731],
         [ -6.6849,  -7.7773,  -7.3579,  ...,  -7.2328,  -6.1711,  -0.1909],
         ...,
         [ -7.7695,  -8.7595,  -8.4814,  ...,  -8.3588,  -9.8023,   0.8142],
         [ -6.7915,  -7.4320,  -7.0011,  ...,  -5.2655,  -7.0732,   0.3049],
         [ -6.2993,  -6.9163,  -6.5946,  ...,  -7.1879,  -4.9885,  -0.6570]],

        [[ -5.8317,  -6.1604,  -6.1133,  ...,  -4.5175,  -3.4055,   3.5319],
         [ -6.3563,  -6.5795,  -6.2000,  ...,  -6.1266,  -5.9040,   3.8659],
         [ -6.3519,  -6.9847,  -6.5742,  ...,  -5.6252,  -1.6596,   3.5224],
         ...,
         [ -7.1194,  -7.0762,  -7.5309,  ...,  -3.8539,  -6.0422,   0.5517],
         [ -4.0919,  -4.7526,  -4.2898,  ...,  -3.8815,  -3.4095,   2.5926],
         [ -4.8606,  -5.0404,  -4.9578,  ...,  -4.2013,  -3.6956,   1.2091]],

        [[-10.3326, -10.0173, -10.1646,  ...,  -6.9618,  -4.9550,   1.3689],
         [-10.0917,  -9.6132,  -9.9763,  ...,  -7.9266,  -5.4265,   0.2729],
         [-10.2127, -10.1853, -10.4537,  ...,  -9.1625,  -5.5202,  -1.0849],
         ...,
         [-12.2502, -11.6368, -12.1717,  ..., -10.3624,  -8.7308,   0.8698],
         [-13.9685, -13.0956, -13.7665,  ..., -11.6488,  -7.1361,  -0.2751],
         [-10.7794, -10.0167, -10.4134,  ...,  -8.3896,  -6.0833,   0.0164]]],
       device='cuda:0', grad_fn=), hidden_states=None, attentions=None)

MaskedLMOutput就是重新定义的存储输出数据的一个类别，进入MaskedLMOutput之中查看定义

class MaskedLMOutput(ModelOutput):
    loss: Optional[torch.FloatTensor] = None
    logits: torch.FloatTensor = None
    hidden_states: Optional[Tuple[torch.FloatTensor]] = None
    attentions: Optional[Tuple[torch.FloatTensor]] = None

最后面对应的网络层结构为

(cls): BertOnlyMLMHead(
  (predictions): BertLMPredictionHead(
    (transform): BertPredictionHeadTransform(
      (dense): Linear(in_features=768, out_features=768, bias=True)
      (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
    )
    (decoder): Linear(in_features=768, out_features=21128, bias=True)
  )
)

经过

model.resize_token_embeddings(len(tokenizer))

重新定义输出网络层的维度之后，网络结构为

(cls): BertOnlyMLMHead(
  (predictions): BertLMPredictionHead(
    (transform): BertPredictionHeadTransform(
      (dense): Linear(in_features=768, out_features=768, bias=True)
      (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
    )
    (decoder): Linear(in_features=768, out_features=9448, bias=True)
  )
)

接下来分析对于数据的定义

train_MLM_data=MLM_Data(train_data,maxlen,tokenizer)
batch_size = 10
dl=blockShuffleDataLoader(train_MLM_data,None,key=lambda x:len(x[0])+len(x[1]),shuffle=False
                          ,batch_size=batch_size,collate_fn=train_MLM_data.collate)

这里面对于数据集合MLM_Data的调用
先调用blockShuffleDataLoader之中的__iter__函数

def __iter__(self):
    self.dataset.data=blockShuffle(self.dataset.data,self.batch_size,self.sortBsNum,self.key)
    #print('self.dataset.data = ')
    #print(self.dataset.data[0:10])
    if self.num_workers == 0:
        return _SingleProcessDataLoaderIter(self)
    else:
        return _MultiProcessingDataLoaderIter(self)

调用两次blockShuffleDataLoader中的__iter__函数？？？两次???不知道为什么调用两次???
然后先调用__getitem__函数batch_size次，将每一个数据取出来

def __getitem__(self, item):
    print('MLM_Data __getitem__')
    #self.tk.cls_token_id = 2,[UNK]
    #self.tk.sep_token_id = 3,[SEP]
    text1,text2,_=self.data[item]#预处理，mask等操作
    if random.random()>0.5:
        text1,text2=text2,text1#交换位置
        text1,text2=truncate(text1,text2,self.maxLen)
        text1_ids,text2_ids = self.tk.convert_tokens_to_ids(text1),self.tk.convert_tokens_to_ids(text2)
        text1_ids, out1_ids = self.random_mask(text1_ids)#添加mask预测
        text2_ids, out2_ids = self.random_mask(text2_ids)
        input_ids = [self.tk.cls_token_id] + text1_ids + [self.tk.sep_token_id] + text2_ids + [self.tk.sep_token_id]#拼接
        token_type_ids=[0]*(len(text1_ids)+2)+[1]*(len(text2_ids)+1)
        labels = [-100] + out1_ids + [-100] + out2_ids + [-100]
        assert len(input_ids)==len(token_type_ids)==len(labels)
        return {'input_ids':input_ids,'token_type_ids':token_type_ids,'labels':labels}

最后再调用collate函数，将一个批次的数据统一处理

    @classmethod
    def collate(cls,batch):
        print('MLM_Data collate')
        #collate_fn参数实现batch的输出内容
        input_ids=[i['input_ids'] for i in batch]
        token_type_ids=[i['token_type_ids'] for i in batch]
        labels=[i['labels'] for i in batch]
        input_ids=paddingList(input_ids,0,returnTensor=True)
        token_type_ids=paddingList(token_type_ids,0,returnTensor=True)
        labels=paddingList(labels,-100,returnTensor=True)
        #!!!注意labels padding方法
        attention_mask=(input_ids!=0)
        return {'input_ids':input_ids,'token_type_ids':token_type_ids
                ,'attention_mask':attention_mask,'labels':labels}

中间调用两次blockShuffleDataLoader中的__iter__函数的原因需要进入Trainer类之中去查看

trainer = Trainer(
	model=model,
	args=training_args,
	train_dataLoader=dl,
	prediction_loss_only=True
)

但是在调用blockShuffleDataLoader的过程中，我们发现，第一次经历了blockShuffle函数操作之后

print('origin self.dataset = ')
print(self.dataset.data[0:10])
self.dataset.data=blockShuffle(self.dataset.data,self.batch_size,self.sortBsNum,self.key)
print('after deal self.dataset.data = ')
print(self.dataset.data[0:10])

输出内容

origin self.dataset = 
[
[['12', '253', '32', '39', '9', '1162', '533'], ['28', '12', '13', '74', '75'], -1], 
[['2601', '4610', '8', '9', '629'], ['5931', '2601', '4610', '202', '629'], -1], 
[['304', '7311', '304', '1095', '66'], ['304', '464', '1231'], -1], 
[['457', '59', '1584', '163', '462', '12', '19', '7376'], ['12', '421', '39', '9', '28', '9', '1758', '76'], -1],
[['3004', '279', '4', '11'], ['3004', '12', '13', '14', '279', '4', '11'], -1], 
[['29', '1596', '1645', '4000', '12'], ['29', '10', '459', '2552', '13007', '12'], -1],
[['12', '71', '10', '3267', '76'], ['12', '1746', '940', '13', '462', '247', '76'], -1],
[['126', '168', '16', '12', '518', '163'], ['12', '518', '163', '126', '168', '16'], -1],
[['12', '1794', '23', '25', '247'], ['12', '898', '19', '433', '434', '23', '3535'], -1],
[['19710', '72', '29'], ['72', '29', '3241'], -1]
]
data = 
after deal self.dataset.data = 
[
[['781', '335', '1277', '45', '358', '47', '440', '1259', '48', '47', '46'], ['538', '538', '439', '538', '47', '1277', '1277', '1277', '1277', '6442', '6442', '358', '48', '48', '48', '50', '50', '50', '1263', '1263', '1263', '1263', '781', '1263', '781', '781', '781', '781', '47', '47', '47', '538', '538', '538', '538', '538', '538', '538', '538', '538', '538', '538', '538', '538', '538', '538', '538', '538', '538', '538', '538', '538', '538', '538', '538', '538', '538', '538', '538', '538', '47', '538', '47', '538', '47', '538', '1277', '47', '538', '538', '47', '538', '47', '47', '376', '376', '376', '376', '1948'], -1],
[['2152', '2152', '16389', '2152', '16389', '2152', '29', '10', '360', '12', '275', '11', '29', '10', '360', '12', '275', '11', '29', '10', '360', '12', '275', '11', '29', '10', '360', '12', '275', '11', '29', '10', '360', '12', '275', '29', '10', '360', '12', '275', '29', '10', '360', '12', '275', '11', '29', '10', '360', '12', '275', '11', '29', '10', '360', '12', '275', '11', '29', '10', '360', '12', '275', '11'], ['29', '360', '12', '275', '66'], -1],
[['66', '1141', '675', '5608', '12', '1812', '1376', '217', '23', '161', '217', '161', '11', '10', '23', '29', '10', '23', '28', '23', '471', '2074', '2075', '29', '254', '1045', '23', '217', '127', '52', '11', '453', '80', '1041', '76', '107', '4942', '2745', '8300', '172', '6', '161', '29', '29', '274', '161', '127', '678', '29', '161', '217', '23', '8301'], ['447', '217', '23', '2805', '1227', '19', '66'], '0'],
[['29', '106', '1698', '350', '415', '29', '2658', '1600', '1652', '11', '5', '2235', '48', '50', '50', '48', '426', '415', '2504', '811', '2008', '11', '415', '29', '251', '485', '127', '2023', '426', '415', '29', '762', '1652', '11', '5', '2235', '8301', '19', '415', '29', '106', '304', '2008', '19', '28', '2235', '140', '370', '853', '442', '415'], ['29', '106', '647', '350', '29', '426', '19', '1094', '354'], '0'], 
[['28', '12', '124', '29', '19', '415', '29', '19', '426', '28', '247', '200', '2286', '19', '433', '434', '1522', '379', '426', '4580', '11', '1233', '83', '140', '370', '56', '57', '32', '227', '398', '592', '19', '23', '4798', '4799', '4800', '19', '189', '6', '156', '253', '10', '13', '79', '11', '29', '1475', '8', '9', '313', '267'], ['29', '19', '426', '32', '800', '2675', '744', '1276'], '0'], 
[['12', '126', '415', '29', '19', '243', '5', '2536', '736', '476', '573', '32', '2707', '253', '80', '11', '415', '29', '692', '11', '350', '2707', '415', '1213', '333', '19', '23', '1141', '107', '606', '4693', '4002', '11', '226', '941', '440', '920', '921', '415', '1006', '647', '2126', '8', '9', '773', '33'], ['692', '1650', '1675', '1495', '1213', '333', '29', '19', '10', '4249', '831'], '0'], 
[['29', '613', '82', '1475', '23', '127', '1272', '59', '168', '14158', '468', '533', '6', '1022', '1559', '698', '13', '14159', '14160', '1016', '29', '595', '82', '1475', '23', '606', '724', '29', '762', '10', '674', '442', '29', '320', '12', '14161', '1430', '11', '28', '12', '23', '192', '522', '1326'], ['274', '360', '12', '161', '19', '467', '82', '1475', '23', '14162', '59', '11'], '0'], 
[['1248', '127', '6', '12', '431', '432', '161', '176', '29', '133', '230', '300', '72', '17291', '2022', '751', '217', '32', '921', '243', '12', '1104', '1513', '1290', '574', '804', '19', '120', '121', '751', '239', '406', '176', '12', '133', '11', '12', '243', '134', '1059', '19', '433', '434', '12', '227', '11', '12', '161', '12'], ['29', '23', '161', '1006', '12', '176', '29'], '0'], 
[['127', '344', '925', '960', '9715', '818', '3052'], ['12', '126', '415', '29', '19', '140', '370', '243', '14120', '573', '32', '920', '921', '253', '80', '11', '415', '29', '692', '11', '5', '130', '2707', '415', '1213', '333', '19', '23', '1141', '107', '127', '6', '5808', '2796', '4002', '11', '226', '941', '440', '920', '921', '415', '1698', '2126', '8', '9', '773', '33'], '0'], 
[['28', '12', '217', '23', '29', '19', '415', '29', '19', '28', '247', '200', '2286', '19', '433', '434', '2022', '1675', '270', '11', '431', '23', '83', '56', '57', '754', '398', '277', '23', '11772', '130', '804', '19', '1317', '156', '253', '10', '13', '79', '11', '29', '1475', '8', '9', '313', '267'], ['29', '411', '662', '524', '525', '12', '19', '59'], '0']]

第二次调用的过程中，整个数据并没有发生变化，因此这里的数据处理操作就只体现在第一次调用__iter__的函数之中
这里的__iter__通过修改MLM_Data中的data属性，由于在random_mask函数和__getitem__函数中都是以data为基础的，所以修改MLM_Data(Dataset)中的data属性即可改变对应的data内容
预训练由于没有明确的指标，所以一般没有测试集(训练集合当测试集只会越训练越好)
预训练完成之后存下来的源代码文件内容
这里的排序操作内容

def blockShuffle(data:list,bs:int,sortBsNum,key):
    #假设输入的bs=10
    random.shuffle(data)#先打乱,random.shuffle(data)用于将一个列表中的元素打乱
    tail=len(data)%bs#计算碎片长度
    tail=[] if tail==0 else data[-tail:]
    data=data[:len(data)-len(tail)]
    assert len(data)%bs==0#剩下的一定能被bs整除
    #sortBsNum = None
    sortBsNum=len(data)//bs if sortBsNum is None else sortBsNum#为None就是整体排序
    data=splitList(data,sortBsNum*bs)
    data=[sorted(i,key=key,reverse=True) for i in data]#每个大块进行降排序
    data=unionList(data)
    data=splitList(data,bs)#最后，按bs分块
    random.shuffle(data)#块间打乱
    data=unionList(data)+tail
    return data

作用：将长度差不多的数据放在一起，提高训练的速度
对应的数据放置格式的不同文件结构如下图所示

Bert的使用巨鹿.. 深度学习记录 bert 人工智能深度学习
一、Data.py#data负责产生两个dataloaderfromtorch.utils.dataimportDataLoader,Datasetfromsklearn.model_selectionimporttrain_test_split#给X,Y和分割比例，分割出来一个训练集和验证机的X,Yimporttorchdefread_file(path):data=[]label=[]with
基于PyTorch的深度学习——机器学习1 Wis4e 深度学习机器学习 pytorch
监督学习是最常见的一种机器学习类型，其任务的特点就是给定学习目标，这个学习目标又称标签、标注或实际值等，整个学习过程就是围绕如何使预测与目标更接近而来的。近些年，随着深度学习的发展，分类除传统的二分类、多分类、多标签分类之外，也出现了一些新内容，如目标检测、目标识别、图像分割等监督学习的重要内容半监督学习是监督学习与无监督学习相结合的一种学习方法。半监督学习使用大量的未标记数据，同时由部分使用标记
PyTorch 中的混合精度训练方法，从 autocast 到 GradScalar Syntax_CD PyTorch 必知必会 pytorch 人工智能 python
PyTorch的混合精度训练主要由两个方法实现：amp.autocast和amp.GradScalar。在这两个工具的帮助下，可以实现以torch.float16的混合精度训练。当然，这两个方法都是模块化并且通常都会一起调用，但并不一定总是需要一起使用。参考：AutomaticMixedPrecisionpackage-torch.ampAutomaticMixedPrecisionexample
第6篇：Transformer架构详解（下）：多头注意力机制与位置编码 Gemini技术窝 transformer 深度学习人工智能自然语言处理机器学习 chatgpt nlp
Transformer模型自提出以来，已经在自然语言处理（NLP）领域取得了巨大的成功。其核心创新包括多头注意力机制和位置编码，这些技术使得Transformer能够高效处理长序列数据。本文将详细介绍多头注意力机制和位置编码的原理、作用及其实现，并通过Python代码示例和应用场景讲解，帮助零基础读者全面理解这些关键技术。我们还将使用幽默的比喻，使这些复杂的概念更加易懂。文章目录多头注意力机制基本
考研复习之记忆方法 herosunly 考名校研究生经验分享考研
大家好，我是herosunly。985院校硕士毕业，现担任算法研究员一职，热衷于大模型算法的研究与应用。曾担任百度千帆大模型比赛、BPAA算法大赛评委，编写微软OpenAI考试认证指导手册。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。授权多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。
探索未来：FacebookResearch的JEPa项目详解瞿旺晟
探索未来：FacebookResearch的JEPa项目详解去发现同类优质开源项目:https://gitcode.com/项目简介是FacebookResearch推出的一个开源项目，全称为"JointEmbeddingofProgramsandAttributes"。它是一个用于程序理解和属性预测的深度学习框架，旨在提升代码的理解和自动化程度，为开发者提供更智能的编程辅助工具。技术分析**1.
H800实战应用深度解析endofsentence 智能计算研究中心其他
内容概要H800作为新一代计算架构的核心组件，其设计理念聚焦于高性能计算与人工智能场景的深度融合。通过模块化异构计算架构，H800实现了计算密度与能效比的突破性提升。下表展示了H800在不同场景下的性能表现对比：场景类型训练速度提升推理延迟降低能效比提升自然语言处理35%22%40%计算机视觉28%18%33%推荐系统41%29%37%资深系统架构师指出："H800的异构计算架构在模型并行处理方面
AIGC视频生成模型：ByteDance的PixelDance模型好评笔记 AIGC 音视频机器学习人工智能深度学习计算机视觉 transformer
大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本文详细介绍ByteDance的视频生成模型PixelDance，论文于2023年11月发布，模型上线于2024年9月，同时期上线的模型还有Seaweed（论文未发布）。热门专栏机器学习机器学习笔记合集深度学习深度学习笔记合集优质专栏回顾：机器学习笔记深度学习笔记多模态论文笔记AIGC—图像文章目录热门专栏机器学习深度学习
1.动手学习深度学习课程安排及深度学习数学基础 Unknown To Known 动手学习深度学习深度学习人工智能
视频资源B站：动手学习深度学习——李沐目录目标内容将学到什么1.N维数组样例2.访问2维数组元素3.数据操作4.线性代数5.矩阵计算6.自动求导目标介绍深度学习景点和最新模型LeNetAlexNetVGGResNetLSTMBERT…机器学习基础损失函数，目标函数，过拟合，优化实践使用pytorch实现介绍的知识点在真实数据上体验算法效果内容深度学习基础——线性神经网络，多层感知机卷积神经网络——
动手学深度学习V2.0(Pytorch)——10.感知机（激活函数）吨吨不打野动手学深度学习pytorch pytorch 深度学习机器学习
文章目录1.感知机2.多层感知机2.1异或问题2.2单隐藏层2.3激活函数2.3.1logistics函数/sigmoid激活函数2.3.2tanh函数2.3.3sigmoid函数和tanh函数的异同/优缺点2.3.4relu2.4多类分类2.5多隐藏层3Q&A3.1神经网络中一层的定义是什么3.2感知机无法解决XOR问题，多层感知机虽然可以解决，但是还是被SVM替代是为什么?3.3不同任务的激活
DeepSeek大语言模型下几个常用术语曲幽 AI 计算机语言模型人工智能自然语言处理 deepseek ollama ai
昨天刷B站看到复旦赵斌老师说的一句话“科幻电影里在人脑中植入芯片或许在当下无法实现，但当下可以借助AI人工智能实现人类第二脑”（大概是这个意思）更多内容，可关注公众号“一名程序媛”，我们一起从0-1学编程基本概念AI人工智能NLP自然语言处理LLM大语言模型HuggingFace一个提供了丰富的预训练模型和工具库的平台网站Ollama开源的本地大语言模型运行框架，用来在本地部署调用大语言模型，如D
【TVM教程】为 Mobile GPU 自动调优卷积网络
ApacheTVM是一个深度的深度学习编译框架，适用于CPU、GPU和各种机器学习加速芯片。更多TVM中文文档可访问→https://tvm.hyper.ai/作者：LianminZheng,EddieYan针对特定设备的自动调优对于获得最佳性能至关重要。本文介绍如何调优整个卷积网络。TVM中MobileGPU的算子实现是以template形式编写的。该template有许多可调参数（tile因子
深度学习训练中GPU内存管理 @Mr_LiuYang 遇到过的问题内存管理内存溢出 out of memory GPU内存
文章目录概述常见问题1、设备选择和数据迁移2、显存监控函数3、显存释放函数4、自适应batchsize调节5、梯度累积概述在深度学习模型训练中，主流GPU显存通常为8GB~80GB，内存不足会导致训练中断或BatchSize受限，GPU内存管理是优化性能和避免OutOfMemoryError的关键挑战。本博客简介PyTorch中GPU内存管理的核心函数、用法和实战技巧，帮助开发者高效利用显存资源。
深度学习pytorch之简单方法自定义9类卷积即插即用 @Mr_LiuYang 计算机视觉基础卷积类型非对称卷积深度卷积空洞卷积组卷积深度可分离卷积动态卷积
本文详细解析了PyTorch中torch.nn.Conv2d的核心参数，通过代码示例演示了如何利用这一基础函数实现多种卷积操作。涵盖的卷积类型包括：标准卷积、逐点卷积（1x1卷积）、非对称卷积（长宽不等的卷积核）、空洞卷积（扩大感受野）、深度卷积（逐通道滤波）、组卷积（分组独立处理）、深度可分离卷积（深度+逐点组合）、转置卷积（上采样）和动态卷积（动态生成卷积核），帮助读者理解如何通过调整参数灵活
一学就会的深度学习基础指令及操作步骤（5）使用预训练模型小圆圆666 深度学习人工智能 python 卷积神经网络
文章目录使用预训练模型加载预训练模型图像加载与预处理预测使用预训练模型查看模型库和常用模型加载预训练模型fromtorchvision.modelsimportvgg16#VGG16模型架构的定义fromtorchvision.modelsimportVGG16_Weights#VGG16的预训练权重配置#loadtheVGG16network*pre-trained*ontheImageNetd
深度学习PyTorch之数据加载DataLoader @Mr_LiuYang 计算机视觉基础深度学习 pytorch 人工智能
深度学习pytorch之简单方法自定义9类卷积即插即用文章目录数据加载基础架构1、Dataset类详解2、DataLoader核心参数解析3、数据增强数据加载基础架构核心类关系图torch.utils.data├──Dataset(抽象基类)├──DataLoader(数据加载器)├──Sampler(采样策略)├──BatchSampler(批量采样)└──IterableDataset(流式数
《AI浪潮中的璀璨新星：Meta Llama、Ollama与DeepSeek的深度剖析》空云风语人工智能人工智能 llama
《AI浪潮中的璀璨新星：MetaLlama、Ollama与DeepSeek的深度剖析》引言：AI大模型的群雄逐鹿时代在科技飞速发展的当下，AI大模型领域已成为全球瞩目的焦点，竞争激烈程度堪称白热化。从OpenAI推出的GPT系列，到谷歌的BERT、百度的文心一言等，众多巨头纷纷下场，不断推陈出新，试图在这个充满潜力的领域占据一席之地。而在这场激烈的角逐中，MetaLlama、Ollama和Deep
仅仅使用pytorch来手撕transformer架构(4)：解码器和解码器模块类的实现和向前传播 KangkangLoveNLP 手撕系列 #transformer pytorch transformer 人工智能深度学习 python 机器学习
仅仅使用pytorch来手撕transformer架构(4)：解码器和解码器模块类的实现和向前传播仅仅使用pytorch来手撕transformer架构(1)：位置编码的类的实现和向前传播最适合小白入门的Transformer介绍仅仅使用pytorch来手撕transformer架构(2)：多头注意力MultiHeadAttention类的实现和向前传播仅仅使用pytorch来手撕transfor
深度学习：马氏距离壹十壹深度学习深度学习人工智能
马氏距离（MahalanobisDistance）是一种用于计算不同维度数据点之间距离的度量方法。它考虑了数据的协方差结构，因此在处理具有相关性的多维数据时更加有效。与欧氏距离不同，马氏距离不仅考虑了各个变量的量纲，还考虑了它们之间的相关性。公式马氏距离计算两个向量(x)和(y)之间的距离，定义为：DM(x,y)=(x−y)TS−1(x−y)\D_M(x,y)=\sqrt{(x-y)^TS^{-1
深度学习：CPU和GPU算力壹十壹深度学习深度学习 gpu算力人工智能
一、算力“算力”（ComputingPower）通常是指计算机或计算系统执行计算任务的能力。它是衡量系统处理数据、运行算法以及执行计算任务效率的重要指标。根据上下文，算力可以在以下几种场景中具体化：1.单机算力CPU算力：中央处理器的计算能力，通常用核心数量（cores）、时钟频率（GHz）、以及每秒浮点运算次数（FLOPS）等指标衡量。GPU算力：图形处理单元用于并行处理的能力，尤其是在深度学习
深度学习：偏差和方差壹十壹深度学习深度学习人工智能 python 机器学习
偏差（Bias）偏差衡量了模型预测值的平均值与真实值之间的差距。换句话说，偏差描述了模型预测的准确度。一个高偏差的模型容易出现欠拟合，即模型无法捕捉数据中的真实关系，因为它对数据的特征做出了错误的假设。特征：高偏差的模型通常是过于简单的模型，无法对数据中的复杂关系进行准确建模。高偏差模型的训练误差和测试误差可能都较高。解决方法：增加模型复杂度：例如增加多项式的阶数、增加神经网络的层数等。使用更多的
【LLM】从零开始实现 LLaMA3 FOUR_A LLM 人工智能机器学习大模型 llama 算法
分词器在这里，我们不会实现一个BPE分词器（但AndrejKarpathy有一个非常简洁的实现）。BPE（BytePairEncoding，字节对编码）是一种数据压缩算法，也被用于自然语言处理中的分词方法。它通过逐步将常见的字符或子词组合成更长的词元（tokens），从而有效地表示文本中的词汇。在自然语言处理中的BPE分词器的工作原理如下：初始化：首先，将所有词汇表中的单词分解为单个字符或符号。例
机器学习之线性代数珠峰日记 AI理论与实践机器学习线性代数人工智能
文章目录一、引言：线性代数为何是AI的基石二、向量：AI世界的基本构建块（一）向量的定义（二）向量基础操作（三）重要概念三、矩阵：AI数据的强大容器（一）矩阵的定义（二）矩阵运算（三）矩阵特性（四）矩阵分解（五）Python示例（使用NumPy库）四、线性代数在AI中的应用（一）数据表示（二）降维：PCA（三）线性回归（四）计算机视觉（五）自然语言处理一、引言：线性代数为何是AI的基石在人工智能领
基于transformer实现机器翻译(日译中) 小白_laughter 课程学习 transformer 机器翻译深度学习
文章目录一、引言二、使用编码器—解码器和注意力机制来实现机器翻译模型2.0含注意力机制的编码器—解码器2.1读取和预处理数据2.2含注意力机制的编码器—解码器2.3训练模型2.4预测不定长的序列2.5评价翻译结果三、使用Transformer架构和PyTorch深度学习库来实现的日中机器翻译模型3.1、导入必要的库3.2、数据集准备3.3、准备分词器3.4、构建TorchText词汇表对象，并将句
【NLP 39、激活函数 ⑤ Swish激活函数】 L_cl NLP 自然语言处理人工智能
我的孤独原本是座荒岛，直到你称成潮汐，原来爱是让个体失序的永恒运动——25.2.25Swish激活函数是一种近年来在深度学习中广泛应用的激活函数，由GoogleBrain团队在2017年提出。其核心设计结合了Sigmoid门控机制和线性输入的乘积，通过引入平滑性和非单调性来提升模型性能。一、数学定义与变体1.基础形式Swish的标准表达式为：Swish(x)=x⋅σ(βx)其中：σ(x)是Sigm
SeisMoLLM: Advancing Seismic Monitoring via Cross-modal Transfer with Pre-trained Large Language UnknownBody LLM Daily Multimodal 语言模型人工智能自然语言处理
摘要深度学习的最新进展给地震监测带来了革命性变化，但开发一个能在多个复杂任务中表现出色的基础模型仍然充满挑战，尤其是在处理信号退化或数据稀缺的情况时。本文提出SeisMoLLM，这是首个利用跨模态迁移进行地震监测的基础模型，它无需在地震数据集上进行直接预训练，就能充分发挥大规模预训练大语言模型的强大能力。通过精心设计的波形标记化处理和对预训练GPT-2模型的微调，SeisMoLLM在DiTing和
如何通过深度学习优化操作系统中的故障诊断与恢复机制金枝玉叶9 程序员知识储备1 程序员知识储备2 程序员知识储备3 深度学习人工智能
如何通过深度学习优化操作系统中的故障诊断与恢复机制（副标题：智能监控、自适应诊断与自动恢复——操作系统故障自愈的新方向）摘要随着现代操作系统在多核、高并发和分布式环境中的广泛应用，系统故障及其恢复问题日益成为影响系统稳定性和业务连续性的关键挑战。传统的故障诊断方法依赖于预设规则和人工干预，难以应对复杂多变的故障场景。本文提出了一种基于深度学习的故障诊断与恢复机制，通过对大量历史日志、监控数据和故障
BERT（Bidirectional Encoder Representations from Transformers）的序列分类模型，简单学习记录努力努力再努力呐 BERT bert 分类学习
一、代码#本地离线模型使用fromtransformersimportAutoModelForCausalLM,AutoTokenizer,pipeline,BertForSequenceClassification,BertTokenizer#设置具体包含config.json的目录，只支持绝对路径model_dir=r"models\bert-base-chinese"#model_dir=r
成功案例丨开发时间从1小时缩短到3分钟：如何利用历史数据训练AI模型，预测设计性能？ Altair澳汰尔 PhysicsAI 仿真 AI 机器学习 HyperWorks 数据分析
案例简介PhysicsAI™助力HEROMOTOCORP实现设计效率提升99%印度领先的跨国摩托车和踏板车制造商HeroMotoCorpLtd.（以下简称Hero）致力于通过将人工智能（AI）和机器学习技术融入有限元分析（FEA）流程，以加速产品开发周期。在其首个AI驱动项目——摩托车把手设计优化中，Hero采用了PhysicsAI™几何深度学习解决方案，利用历史数据训练AI模型并预测设计性能。A
PyTorch实现CNN：CIFAR-10图像分类实战教程吴师兄大模型 PyTorch pytorch cnn CIFAR-10图像分类人工智能 python 卷积神经网络开发语言
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
多线程编程之join()方法周凡杨 java JOIN 多线程编程线程
现实生活中，有些工作是需要团队中成员依次完成的，这就涉及到了一个顺序问题。现在有T1、T2、T3三个工人，如何保证T2在T1执行完后执行，T3在T2执行完后执行？问题分析：首先问题中有三个实体，T1、T2、T3，因为是多线程编程，所以都要设计成线程类。关键是怎么保证线程能依次执行完呢？ Java实现过程如下： public class T1 implements Runnabl
java中switch的使用 bingyingao java enum break continue
java中的switch仅支持case条件仅支持int、enum两种类型。用enum的时候，不能直接写下列形式。 switch (timeType) { case ProdtransTimeTypeEnum.DAILY: break; default: br
hive having count 不能去重 daizj hive 去重 having count 计数
hive在使用having count()是，不支持去重计数 hive (default)> select imei from t_test_phonenum where ds=20150701 group by imei having count(distinct phone_num)>1 limit 10; FAILED: SemanticExcep
WebSphere对JSP的缓存周凡杨 WAS JSP 缓存
对于线网上的工程，更新JSP到WebSphere后，有时会出现修改的jsp没有起作用，特别是改变了某jsp的样式后，在页面中没看到效果，这主要就是由于websphere中缓存的缘故，这就要清除WebSphere中jsp缓存。要清除WebSphere中JSP的缓存，就要找到WAS安装后的根目录。现服务
设计模式总结朱辉辉33 java 设计模式
1.工厂模式 1.1 工厂方法模式 (由一个工厂类管理构造方法) 1.1.1普通工厂模式(一个工厂类中只有一个方法) 1.1.2多工厂模式(一个工厂类中有多个方法) 1.1.3静态工厂模式(将工厂类中的方法变成静态方法) &n
实例：供应商管理报表需求调研报告老A不折腾 finereport 报表系统报表软件信息化选型
引言随着企业集团的生产规模扩张，为支撑全球供应链管理，对于供应商的管理和采购过程的监控已经不局限于简单的交付以及价格的管理，目前采购及供应商管理各个环节的操作分别在不同的系统下进行，而各个数据源都独立存在，无法提供统一的数据支持；因此，为了实现对于数据分析以提供采购决策，建立报表体系成为必须。业务目标 1、通过报表为采购决策提供数据分析与支撑 2、对供应商进行综合评估以及管理，合理管理和
mysql 林鹤霄
转载源：http://blog.sina.com.cn/s/blog_4f925fc30100rx5l.html mysql -uroot -p ERROR 1045 (28000): Access denied for user 'root'@'localhost' (using password: YES) [root@centos var]# service mysql
Linux下多线程堆栈查看工具(pstree、ps、pstack) aigo linux
原文：http://blog.csdn.net/yfkiss/article/details/6729364 1. pstree pstree以树结构显示进程$ pstree -p work | grep adsshd(22669)---bash(22670)---ad_preprocess(4551)-+-{ad_preprocess}(4552) &n
html input与textarea 值改变事件 alxw4616 JavaScript
// 文本输入框(input) 文本域(textarea)值改变事件 // onpropertychange(IE) oninput(w3c) $('input,textarea').on('propertychange input', function(event) { console.log($(this).val()) });
String类的基本用法百合不是茶 String
字符串的用法; // 根据字节数组创建字符串 byte[] by = { 'a', 'b', 'c', 'd' }; String newByteString = new String(by); 1,length() 获取字符串的长度 &nbs
JDK1.5 Semaphore实例 bijian1013 java thread java多线程 Semaphore
Semaphore类一个计数信号量。从概念上讲，信号量维护了一个许可集合。如有必要，在许可可用前会阻塞每一个 acquire()，然后再获取该许可。每个 release() 添加一个许可，从而可能释放一个正在阻塞的获取者。但是，不使用实际的许可对象，Semaphore 只对可用许可的号码进行计数，并采取相应的行动。 S
使用GZip来压缩传输量 bijian1013 java GZip
启动GZip压缩要用到一个开源的Filter：PJL Compressing Filter。这个Filter自1.5.0开始该工程开始构建于JDK5.0，因此在JDK1.4环境下只能使用1.4.6。 PJL Compressi
【Java范型三】Java范型详解之范型类型通配符 bit1129 java
定义如下一个简单的范型类， package com.tom.lang.generics; public class Generics<T> { private T value; public Generics(T value) { this.value = value; } }
【Hadoop十二】HDFS常用命令 bit1129 hadoop
1. 修改日志文件查看器 hdfs oev -i edits_0000000000000000081-0000000000000000089 -o edits.xml cat edits.xml 修改日志文件转储为xml格式的edits.xml文件，其中每条RECORD就是一个操作事务日志 2. fsimage查看HDFS中的块信息等 &nb
怎样区别nginx中rewrite时break和last ronin47
在使用nginx配置rewrite中经常会遇到有的地方用last并不能工作，换成break就可以，其中的原理是对于根目录的理解有所区别，按我的测试结果大致是这样的。 location / { proxy_pass http://test;
java-21.中兴面试题输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等于 m bylijinnan java
import java.util.ArrayList; import java.util.List; import java.util.Stack; public class CombinationToSum { /* 第21 题 2010 年中兴面试题编程求解：输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等
eclipse svn 帐号密码修改问题开窍的石头 eclipse SVN svn帐号密码修改
问题描述： Eclipse的SVN插件Subclipse做得很好，在svn操作方面提供了很强大丰富的功能。但到目前为止，该插件对svn用户的概念极为淡薄，不但不能方便地切换用户，而且一旦用户的帐号、密码保存之后，就无法再变更了。解决思路：删除subclipse记录的帐号、密码信息，重新输入
[电子商务]传统商务活动与互联网的结合 comsci 电子商务
某一个传统名牌产品，过去销售的地点就在某些特定的地区和阶层，现在进入互联网之后，用户的数量群突然扩大了无数倍，但是，这种产品潜在的劣势也被放大了无数倍，这种销售利润与经营风险同步放大的效应，在最近几年将会频繁出现。。。。如何避免销售量和利润率增加的
java 解析 properties-使用 Properties-可以指定配置文件路径 cuityang java properties
#mq xdr.mq.url=tcp://192.168.100.15:61618; import java.io.IOException; import java.util.Properties; public class Test { String conf = "log4j.properties"; private static final
Java核心问题集锦 darrenzhu java 基础核心难点
注意，这里的参考文章基本来自Effective Java和jdk源码 1)ConcurrentModificationException 当你用for each遍历一个list时，如果你在循环主体代码中修改list中的元素，将会得到这个Exception，解决的办法是： 1)用listIterator, 它支持在遍历的过程中修改元素， 2)不用listIterator, new一个
1分钟学会Markdown语法 dcj3sjt126com markdown
markdown 简明语法基本符号 *,-,+ 3个符号效果都一样，这3个符号被称为 Markdown符号空白行表示另起一个段落 `是表示inline代码，tab是用来标记代码段，分别对应html的code，pre标签换行单一段落( <p>) 用一个空白行连续两个空格会变成一个 <br> 连续3个符号，然后是空行
Gson使用二（GsonBuilder） eksliang json gson GsonBuilder
转载请出自出处：http://eksliang.iteye.com/blog/2175473 一.概述 GsonBuilder用来定制java跟json之间的转换格式二.基本使用实体测试类：温馨提示：默认情况下@Expose注解是不起作用的,除非你用GsonBuilder创建Gson的时候调用了GsonBuilder.excludeField
报ClassNotFoundException: Didn't find class "...Activity" on path: DexPathList gundumw100 android
有一个工程，本来运行是正常的，我想把它移植到另一台PC上，结果报： java.lang.RuntimeException: Unable to instantiate activity ComponentInfo{com.mobovip.bgr/com.mobovip.bgr.MainActivity}: java.lang.ClassNotFoundException: Didn't f
JavaWeb之JSP指令 ihuning javaweb
要点 JSP指令简介 page指令 include指令 JSP指令简介 JSP指令（directive）是为JSP引擎而设计的，它们并不直接产生任何可见输出，而只是告诉引擎如何处理JSP页面中的其余部分。 JSP指令的基本语法格式： <%@ 指令属性名="
mac上编译FFmpeg跑ios 啸笑天 ffmpeg
1、下载文件：https://github.com/libav/gas-preprocessor，复制gas-preprocessor.pl到/usr/local/bin/下，修改文件权限：chmod 777 /usr/local/bin/gas-preprocessor.pl 2、安装yasm-1.2.0 curl http://www.tortall.net/projects/yasm
sql mysql oracle中字符串连接 macroli oracle sql mysql SQL Server
有的时候，我们有需要将由不同栏位获得的资料串连在一起。每一种资料库都有提供方法来达到这个目的： MySQL: CONCAT() Oracle: CONCAT(), || SQL Server: + CONCAT() 的语法如下： Mysql 中 CONCAT(字串1, 字串2, 字串3, ...): 将字串1、字串2、字串3，等字串连在一起。请注意，Oracle的CON
Git fatal: unab SSL certificate problem: unable to get local issuer ce rtificate qiaolevip 学习永无止境每天进步一点点 git 纵观千象
// 报错如下： $ git pull origin master fatal: unable to access 'https://git.xxx.com/': SSL certificate problem: unable to get local issuer ce rtificate // 原因：由于git最新版默认使用ssl安全验证，但是我们是使用的git未设
windows命令行设置wifi surfingll windows wifi 笔记本wifi
还没有讨厌无线wifi的无尽广告么，还在耐心等待它慢慢启动么教你命令行设置笔记本电脑wifi： 1、开启wifi命令 netsh wlan set hostednetwork mode=allow ssid=surf8 key=bb123456 netsh wlan start hostednetwork pause 其中pause是等待输入，可以去掉 2、
Linux（Ubuntu）下安装sysv-rc-conf wmlJava linux ubuntu sysv-rc-conf
安装：sudo apt-get install sysv-rc-conf 使用：sudo sysv-rc-conf 操作界面十分简洁，你可以用鼠标点击，也可以用键盘方向键定位，用空格键选择，用Ctrl+N翻下一页，用Ctrl+P翻上一页，用Q退出。背景知识 sysv-rc-conf是一个强大的服务管理程序，群众的意见是sysv-rc-conf比chkconf
svn切换环境，重发布应用多了javaee标签前缀 zengshaotao javaee
更换了开发环境，从杭州，改变到了上海。svn的地址肯定要切换的，切换之前需要将原svn自带的.svn文件信息删除，可手动删除，也可通过废弃原来的svn位置提示删除.svn时删除。然后就是按照最新的svn地址和规范建立相关的目录信息，再将原来的纯代码信息上传到新的环境。然后再重新检出，这样每次修改后就可以看到哪些文件被修改过，这对于增量发布的规范特别有用。检出

小布助手对话短文本语义匹配阅读源代码1--build_vocab.py understand

你可能感兴趣的:(nezha源码解读,bert源码解读,自然语言处理,深度学习,pytorch)