zhangbihan999

mini版语言模型，逐行精讲

一、写在前面

二、代码精读

2.1 数据预处理

2.2 准备数据集

2.3 训练与推理

一、写在前面

在正式阅读之前，笔者认为有必要先对文章作一些基本的说明，以供各位看官选择是否需要继续阅读。毕竟在信息爆炸的今天，读者的attention是如此宝贵，这可是Transformer教给我们的人生哲理!（bushi）

这篇博客的内容为作者本人参照油管大佬的视频实现的一个mini版语言模型。采用的并非注意力机制，效果也不比注意力机制好，但是个人感觉有很多适合小白的知识点，因此还是决定分享。后面可能会单独出一期注意力机制的实现案例。

下面先就作者本人的情况作以说明：本人是LLM萌新，有一点python和pytorch基础但也真的只有一点，所以在平时看代码的时候难免会被一个个小的知识点卡壳，于是本着打补丁的精神，逢山开路遇水架桥，哪里不会就gpt哪里，在自学的泥潭里摸爬滚打（哭）。

屏幕面前的你如果和我情况相似，那我强烈建议你看这篇博客，我将以一个完完全全的新手视角（毕竟作者本人水平也就这样...）带你看每一行代码，相信无论是一些细小的python知识点还是训练一个mini语言模型的流程，你都会有新的收获！

tips：

这篇博客代码部分的整体编排方式如下：代码块+结果+知识点逐行解读
每一个代码块的结果都会附在相应的代码之后，以供读者对结果有直观的了解和感受
为了不影响代码的完整性和读者的阅读体验，知识点的逐行解读将放在代码块之后，且知识点均以无序列表的形式书写（就是前面那个小黑点）
有条件的读者可以跟笔者的节奏自己动手实现，效果更佳
笔者使用的工具为Jupyter notebook

话不多说，开干！

二、代码精读

2.1 数据预处理

!python -m wget https://raw.githubusercontent.com/karpathy/char-rnn/master/data/tinyshakespeare/input.txt

首先下载训练模型所用的数据集，这是一个1.06MB的txt文件，内容为莎士比亚作品节选，安全无毒，放心下载，部分内容如图所示：

下载完成之后，会在当前目录列表出现一个'input.txt'文件，这将会是我们的数据集。

with open('input.txt','r',encoding='utf-8') as f:
     text = f.read()

这一行是python中常见的读取文件的方式，这里即读取input.txt文件，可以作为模板来记忆。

print('length:',len(text))    # length: 1115394

可以看到，文件总长度为1115394

print(text[:100])    # First Citizen:
                      # Before we proceed any further, hear me speak.
 
                      # All:
                      # Speak, speak.
 
                      # First Citizen:
                      # You

打印文本中的前100个字符。

text[:100] ：表示text中的前100个字符，等价于text[0:100]，左闭右开，即取下标从0到99的字符

切记左闭右开，后面还会反复强调！

 chars = sorted(list(set(text)))
 vocab_size = len(chars)         
 print(''.join(chars))        
 print(vocab_size)
 
 #  !$&',-.3:;?ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz
 #  65

chars = sorted(list(set(text)))：
- set(): 将字符串转化为一个字符集合，同时去除重复字符，从而得到文本中出现的所有不同字符
- list(): 将得到的字符串转化为列表，以便进行排序
- sorter(): 对字符列表进行排序，确保字符按照字母顺序排序
print(''.join(chars))：
- separator.join(iterable)：python中string的一个方法
  - separator指定了元素之间的分隔符，它将会出现在连接后的新字符串的每两个元素之间，默认为空字符串
  - iterable为需要连接的元素序列，可以是列表、元组、集合或其他可迭代对象

 stoi = { ch:i for i,ch in enumerate(chars)} 
 itos = { i:ch for i,ch in enumerate(chars)}
 
 encode = lambda s: [stoi[c] for c in s] 
 decode = lambda l: ''.join([itos[i] for i in l])
 
 print(encode("hii there"))
 print(decode(encode("hii there")))
 
 # [46, 47, 47, 1, 58, 46, 43, 56, 43]
 # hii there

屏幕面前的你第一次看到这个代码块是不是两眼一黑，不要慌，让我们拆解开来看。

stoi = { ch:i for i,ch in enumerate(chars)}

这行代码怎么看？

笔者在自学的这段时间里深刻认识了Python中元组、列表、字典的嵌套用法，这种嵌套十分灵活，导致一开始看的时候实在是摸不着头脑，经过一段时间的适应，笔者现在习惯从括号的形式来判断一个变量是什么类型了（毕竟python里面很多时候不写明数据类型）。

列表是中括号，字典是大括号。

stoi最后以大括号收尾，因此它是一个字典。字典里的内容是什么呢？看看它里面的，来一起看看它里面的内容：

ch:i for i,ch in enumerate(chars)这串代码的意思是：每次从字符串chars中取出一个字符记为ch，并按照顺序从0开始给取出的每个ch分配一个号码并记为i（就像lol里英雄的伴生皮肤一样，绑定在一起同时出现），然后用每一组ch和i作为一个元素加入字典stoi中。

懂了这行代码之后，下面的itos也是一样的道理，知识更换了键值对的顺序，由ch到i的映射转变为i到ch的映射，从而实现双向翻译。

encode = lambda s: [stoi[c] for c in s]

然后是这行代码。在python中呢，有两种定义函数的形式，一种是我们常见的def，另一种是这里的lambda表达式。二者的联系和区别呢，笔者认为下面这张图片解释的很清楚了。

在此基础上来看这行代码是不是就很清晰明了了。

encode作为一个lambda匿名函数，它接收参数s，返回一个列表（因为外面是中括号），其中的元素是s中每个字符c在字典stoi中对应的数字

decode = lambda l: ''.join([itos[i] for i in l])

decode与encode相同，它接收参数l，然后以空字符串为分隔符，将数字列表l中的每个数字i在字典itos中对应的字符连接在一起组成一个字符串

2.2 准备数据集

 import torch
 data = torch.tensor(encode(text),dtype=torch.long)  # 把编码之后的文本转化为tentor向量，数据类型为long型
 print(data.shape,data.dtype)
 print(data[:100])                                   # 左闭右开，元素下标为0到99
 
 
 # torch.Size([1115394]) torch.int64
 # tensor([18, 47, 56, 57, 58,  1, 15, 47, 58, 47, 64, 43, 52, 10,  0, 14, 43, 44,
         53, 56, 43,  1, 61, 43,  1, 54, 56, 53, 41, 43, 43, 42,  1, 39, 52, 63,
          1, 44, 59, 56, 58, 46, 43, 56,  6,  1, 46, 43, 39, 56,  1, 51, 43,  1,
         57, 54, 43, 39, 49,  8,  0,  0, 13, 50, 50, 10,  0, 31, 54, 43, 39, 49,
          6,  1, 57, 54, 43, 39, 49,  8,  0,  0, 18, 47, 56, 57, 58,  1, 15, 47,
         58, 47, 64, 43, 52, 10,  0, 37, 53, 59])

data = torch.tensor(encode(text),dtype=torch.long)

这里我们调用前面的encode方法给text中的每个字符按顺序编号，然后将得到的数字列表转化为tensor向量，这是因为在pytorch中，数据只有转化为tensor向量后才能用于训练处理，dtype=torch.long指定存储的数据类型为long型

#将data分割为两部分数据集，训练集和验证集，其中训练集为前90％的数据
 
 n=int(0.9*len(data))
 train_data = data[:n]
 val_data = data[n:]
 block_size = 8
 print(train_data[:block_size + 1])
 
 # tensor([18, 47, 56, 57, 58,  1, 15, 47, 58])

block_size即选取的序列长度，train_data[:block_size + 1]即从train_data中选取下标从0到block_size（左闭右开）的元素，那么这里应该是一共取了9个元素。

细心的你可能就发现了，不是说block_size = 8吗，那为什么一定要多取一个元素呢？

这是因为，我们训练的时候做的是predict next token的任务，也就是：

拿第一个词预测第二个词；再拿前两个词预测第三个词；再拿前三个词预测第四个词......等到最后一轮呢，我们需要用前八个词去预测第九个。

因此必须要引入block_size+1个元素，这才算是完整的一轮训练。

 x = train_data[:block_size]
 y = train_data[1:block_size+1]
 # 时间步t是从0开始的
 for t in range(block_size):
     # 下面两行注意，x[:t+1]是左闭右开区间，最开始的当t=0时，context只包含了x[0]，即x的第1个元素，也就是train_data中的第1个元素
     # 对应的，当t=0时，target只包含了y[0]，而根据y的构造方式，y[0]恰恰是train_data中的第2个元素，刚好跟x错开一个
     context = x[:t+1]
     target = y[t]
     print(f"when input is {context} the target is {target}")
     
 
 # when input is tensor([18]) the target is 47
 # when input is tensor([18, 47]) the target is 56
 # when input is tensor([18, 47, 56]) the target is 57
 # when input is tensor([18, 47, 56, 57]) the target is 58
 # when input is tensor([18, 47, 56, 57, 58]) the target is 1
 # when input is tensor([18, 47, 56, 57, 58,  1]) the target is 15
 # when input is tensor([18, 47, 56, 57, 58,  1, 15]) the target is 47
 # when input is tensor([18, 47, 56, 57, 58,  1, 15, 47]) the target is 58

看到这个代码块，你应该大概清楚了我们这个mini的语言模型是如何运作的，采用自回归的训练方式，但这个自回归只是在一个小的block里，案例里是8，所以它的效果相比注意力机制并不会好。

# 事实上在进行训练的时候，为了充分利用gpu，我们通常会选取像上个代码块里那样的很多个小段来同时独立训练
 torch.manual_seed(1337)   # 设置随机种子，在种子相同的情况下，每次运行程序都会得到相同的随机数序列，这使得实验具有了可重复性
 batch_size = 4            # 每一组有4个独立的句子段序列参与训练
 block_size = 8            # 每一个序列的最大长度是8
 
 def get_batch(split):
     data = train_data if split == 'train' else val_data        # 根据split的值选择数据来源
    
     ix =torch.randint(len(data) - block_size,(batch_size,))    # 随机生成起始索引，下面细讲
     
     x = torch.stack([data[i:i+block_size] for i in ix])
     y = torch.stack([data[i+1:i+block_size+1] for i in ix])
     return x,y
 
 # 得到一个完整的训练集
 xb,yb = get_batch("train")
 print('inputs:')
 print(xb.shape)
 print(xb)
 print('targets:')
 print(yb.shape)
 print(yb)
 
 print('-------------')
 
 for b in range(batch_size):
     for t in range(block_size):
         context = xb[b,:t+1]           # 张量切片操作，取第b行的前t+1个元素（下标从0到t）
         target = yb[b,t]               # 张量切片操作，取第b行的第t个元素
         print(f"when input is {context.tolist()} the target is:{target}")

（结果比较长，放在一个新的代码块里，知识点在结果代码块后面，建议截图后对照上面的代码观看）

inputs:
 torch.Size([4, 8])
 tensor([[24, 43, 58,  5, 57,  1, 46, 43],
         [44, 53, 56,  1, 58, 46, 39, 58],
         [52, 58,  1, 58, 46, 39, 58,  1],
         [25, 17, 27, 10,  0, 21,  1, 54]])
 targets:
 torch.Size([4, 8])
 tensor([[43, 58,  5, 57,  1, 46, 43, 39],
         [53, 56,  1, 58, 46, 39, 58,  1],
         [58,  1, 58, 46, 39, 58,  1, 46],
         [17, 27, 10,  0, 21,  1, 54, 39]])
 -------------
 when input is [24] the target is:43
 when input is [24, 43] the target is:58
 when input is [24, 43, 58] the target is:5
 when input is [24, 43, 58, 5] the target is:57
 when input is [24, 43, 58, 5, 57] the target is:1
 when input is [24, 43, 58, 5, 57, 1] the target is:46
 when input is [24, 43, 58, 5, 57, 1, 46] the target is:43
 when input is [24, 43, 58, 5, 57, 1, 46, 43] the target is:39
 when input is [44] the target is:53
 when input is [44, 53] the target is:56
 when input is [44, 53, 56] the target is:1
 when input is [44, 53, 56, 1] the target is:58
 when input is [44, 53, 56, 1, 58] the target is:46
 when input is [44, 53, 56, 1, 58, 46] the target is:39
 when input is [44, 53, 56, 1, 58, 46, 39] the target is:58
 when input is [44, 53, 56, 1, 58, 46, 39, 58] the target is:1
 when input is [52] the target is:58
 when input is [52, 58] the target is:1
 when input is [52, 58, 1] the target is:58
 when input is [52, 58, 1, 58] the target is:46
 when input is [52, 58, 1, 58, 46] the target is:39
 when input is [52, 58, 1, 58, 46, 39] the target is:58
 when input is [52, 58, 1, 58, 46, 39, 58] the target is:1
 when input is [52, 58, 1, 58, 46, 39, 58, 1] the target is:46
 when input is [25] the target is:17
 when input is [25, 17] the target is:27
 when input is [25, 17, 27] the target is:10
 when input is [25, 17, 27, 10] the target is:0
 when input is [25, 17, 27, 10, 0] the target is:21
 when input is [25, 17, 27, 10, 0, 21] the target is:1
 when input is [25, 17, 27, 10, 0, 21, 1] the target is:54
 when input is [25, 17, 27, 10, 0, 21, 1, 54] the target is:39

ix =torch.randint(len(data) - block_size,(batch_size,))
- torch.randint(low=0,high,size)：
  - low：生成的随机数的下界，可选，默认为0
  - high：生成的随机数的上界，必选；同样遵从左闭右开，即[low,high)
  - size：生成的张量的形状
- len(data) - block_size：表示可以选择的起始索引的最大值，这样确保选择的序列不会超过数据集边界
- (batch_size,)：这种写法是元组写法，表示生成的向量是一维的且包含batch_size=4个元素
在python中，为了将元组与数值作以区分，(batch_size,)表示元组，batch_size表示数值
x = torch.stack([data[i:i+block_size] for i in ix])

根据随机生成的起始索引来构造输入输出数据集。

下面假定取到的ix为2和15（其实应该是4个值，这里取两个作为说明），则： x = [[2,3,4,5,6,7,8,9],

[15,16,17,18,19,20,21,22]] （切记左闭右开） y = [[3,4,5,6,7,8,9,10],

[16,17,18,19,20,21,22,23]]
- torch.stack(tensors,dim=0,out=None)：
  - tensors：要堆叠的张量序列，可以是一个张量序列或者元组
  - dim：指定要沿着哪个维度堆叠，默认为0
  - out：可选参数，如果提供了此参数，则结果将存储在该张量中

那么这里呢，以x为例，就是我们把[2,3,4,5,6,7,8,9]和[15,16,17,18,19,20,21,22]在新的维度上堆叠起来从而成为一个整体，不然就是两个分离的个体了。

2.3 训练与推理

# 准备好数据集之后，接下来就可以构建神经网络了，这里我们选择构建的是NLP中最简单的Bigram模型
 import torch
 import torch.nn as nn
 from torch.nn import functional as F
 
 torch.manual_seed(1337)          # 设置和之前相同的随机种子，保证实验的可重复性
 
 class BigramLanguageModel(nn.Module):
     def __init__(self,vocab_size):                   # __init__方法，定义模型的构造，接收参数vocab_size
         super().__init__()                           # 调用父类方法初始化
         # super(BigramLanguageModel).__init__()      # 这种写法亦可，通常用于继承自多个父类的写法
         self.token_embedding_table = nn.Embedding(vocab_size,vocab_size)
     
     # 用于训练
     def forward(self,idx,targets=None):              # 定义模型的前向传播方法，参数idx和targets分别表示输入序列和目标序列
         logits = self.token_embedding_table(idx)     # logits形状为[4,8,65]
                                                      # 怎么理解这个[4,8,65]呢？
                                                      # 首先我们知道，输入xb是[4,8]，表示有4个句子段，每个句子段里有8个词
                                                      # 那么经过实例化模型m的forward方法作用，我们找到了每个词对应的词嵌入向量，而且这个向量的维度为65维
                                                      # 于是相当于在每个句子段的每个词下面再开辟了一个65维的空间，因此就是[4,8,65]
                                                      # 这个词嵌入向量的实际意义是对下一个词的预测，模型的优化目标就是使得这个向量对下一个词的预测更准确
         if targets is None:
             loss = None
         else:
             # 改变logits的形状以使用交叉熵计算loss
             batch_size,seq_len,embedding_dim = logits.shape
             logits = logits.view(batch_size*seq_len,embedding_dim)
             targets = targets.view(batch_size*seq_len)
             loss = F.cross_entropy(logits,targets)       # 用交叉熵方法（多分类问题常用）计算loss，即预测结果与label之间的差值。
         return logits,loss
 
     # 用于推理，下面细讲
     def generate(self,idx,max_new_tokens):
         for _ in range(max_new_tokens):
             logits, loss = self(idx)                           # 获取对下一个词的预测，这里的logits为[4,8,65]
             logits = logits[:,-1,:]
             probs = F.softmax(logits,dim=-1)
             idx_next = torch.multinomial(probs,num_samples=1)
             idx = torch.cat((idx,idx_next),dim=1)              # 把每一步得到的词加入序列中以用来预测下一个词
         return idx

self.token_embedding_table = nn.Embedding(vocab_size, vocab_size):
- 知识点：nn.Embedding(num_embeddings, embedding_dim)，Pytorch中用于实现词嵌入功能的类。
  - num_embeddings：表示词汇表大小，即共有多少的词；
  - embedding_dim：词嵌入向量的维度，表示每个词被用一个含embedding_dim个元素的向量表示（有embedding_dim个特征）

那么在这里呢，就是说我们为这vocab_size，即65个词，每个词用一个vocab_size维的向量表示。

上面这段代码里，个人感觉最难理解的就是generate()这个方法了，不慌，一行一行来看：

for _ in range(max_new_tokens):

这里规定了最多生成max_new_tokens个新元素，每一个元素取什么呢，就要看for循环里面的内容了：
- logits, loss = self(idx)
  
  调用forward()方法得到logits和loss，这里由于没有传入targets因此loss=None，故只得到一个形状为[4,8,65]的logits（注意：targets为None时是不走forward()里面的else的，因此不会进行reshape）
- logits = logits[:,-1,:]
  
  取出每个样本的最后一个时间步的预测结果。通俗地来讲，logits的形状为[4,8,65]，就是说我们现在有4个句子对吧，每个句子最多有8个词，注意是最多，只有在最后一时间步才会是8个词。
  
  这里即取每个时间步下最后一个词的embedding，亦即对下一个词的预测。
  
  这里还不能称为概率，因为每一行的和不为1，所以有了下面的softmax。
- probs = F.softmax(logits,dim=-1)
  
  在最后一个维度上利用softmax方法把数字变为概率，softmax的具体实现有兴趣的读者可以参阅其他资料深入了解。
  
  于是现在的到了每个词后，下一个词对应是词汇表中65个词中哪一个的各自的概率。
- idx_next = torch.multinomial(probs,num_samples=1)
  
  根据得到的概率进行抽样，从而得到下一个词。
  
  值得注意的是，这里只是根据得到的概率采样，而不是直接选取概率最高的词作为下一个词

现在让我们在这种原始状态下做个推理：

 m = BigramLanguageModel(vocab_size)
 logits,loss = m(xb,yb)
 print(logits.shape)
 print(loss)
 
 print(decode(m.generate(idx = torch.zeros((1,1),dtype=torch.long),max_new_tokens=100)[0].tolist()))
 
 
 # torch.Size([32, 65])
 # tensor(4.8786, grad_fn=)
 
 # Sr?qP-QWktXoL&jLDJgOLVz'RIoDqHdhsV&vLLxatjscMpwLERSPyao.qfzs$Ys$zF-w,;eEkzxjgCKFChs!iWW.ObzDnxA Ms$3

可以看到，现在的loss为4.8786，预测出来的序列呢，是完完全全的乱码，接下来我们通过训练让它有所改进。

optimizer = torch.optim.AdamW(m.parameters(),lr=1e-3)  # 创建优化器，它会计算参数的梯度并更新参数
 
 batch_size = 32                             # 定了一个稍大一点的batch_size，更符合实际场景
 for steps in range(10000):  
     xb,yb = get_batch('train')              # 获取训练数据集
 
     logits, loss = m(xb,yb)
     optimizer.zero_grad(set_to_none=True)   # 清空累积的梯度，以免之前计算的梯度对后续训练产生影响
     loss.backward()                         # 反向传播求梯度 
     optimizer.step()                        # 更新参数
 
     if (steps+1) %1000 == 0:
         print(loss.item())
         
         
 # 3.721843719482422
 # 3.1285109519958496
 # 2.8297815322875977
 # 2.5059468746185303
 # 2.6809186935424805
 # 2.505293130874634
 # 2.517559051513672
 # 2.469970941543579
 # 2.404806137084961
 # 2.5727508068084717

可以看到，经过10000轮的训练，loss也在逐步下降，从最初的4.8786到2.5727，现在再来看看预测结果如何。

print(decode(m.generate(idx = torch.zeros((1,1),dtype=torch.long),max_new_tokens=100)[0].tolist()))
 
 # GBEXme me JOFLEL:
 # 's&'e s, sonda t warowant ak.
 # QKETRS:
 # HMELAs heys, to aly f t, mmelol meal:
 # INCIA:
 # An yeak, LEmato tce be e hend te y yorewha t t s hs: t wedsme intsheshuine,
 # 'sowathepon pomsthive My I sethethor, l f ghato, wn n,'Slerar s thor llo:
 # Rind, tt's ke ar&xI toyrr tyowailoubet my,
 # Tovit

虽然还不够好，但已经能明显感觉到比之前的乱码进步很多了（至少有断句和空格了）。

你可能感兴趣的:(gpt,自然语言处理,python,pytorch)

在 Conda 中删除环境及所有安装的库 Studying 开龙wu conda
注意事项1.删除环境前确保你没有在该环境中运行任何程序。2.删除操作是不可逆的，所有该环境中的包和配置都会被永久删除。3.如果你想保留环境的配置信息，可以在删除前使用condaenvexport>environment.yml导出环境配置。关于requirements.txt和environment.yaml文件使用介绍详情可参考以往文章，争对机器学习和深度学习里Python项目开发管理项目依赖的
计算机毕业设计Python+uniapp校园兼职系统小程序(小程序+源码+LW) Python毕设源码程序高学长 python 课程设计 uni-app
计算机毕业设计Python+uniapp校园兼职系统小程序(小程序+源码+LW)该项目含有源码、文档、程序、数据库、配套开发软件、软件安装教程项目运行环境配置：Pychram社区版+python3.7.7+Mysql5.7+uni+HBuilderX+listpip+Navicat11+Django+nodejs。项目技术：django+python+UNI等等组成，B/S模式+pychram管理
Python-Django毕业设计养老院老人日常生活管理系统（程序+Lw) Python计算机毕设程序源码_ python django 课程设计
该项目含有源码、文档、程序、数据库、配套开发软件、软件安装教程项目运行环境配置：Pychram社区版+python3.7.7+Mysql5.7+HBuilderX+listpip+Navicat11+Django+nodejs。项目技术：django+python+Vue等等组成，B/S模式+pychram管理等等。环境需要1.运行环境：最好是python3.7.7，我们在这个版本上开发的。其他版
Supervisor 入门指南一篇就够 —— 安装、项目配置与常见报错速查逻极 python 开发工具笔记 python 运维工具开发 supervisor
Supervisor入门指南一篇就够——安装、项目配置与常见报错速查一、Supervisor是什么在服务器进程管理中，Supervisor是一款用Python编写的进程守护与管理工具。它的核心功能是将普通的命令行进程转变为后台daemon进程，并且在进程因意外情况退出时，能够自动将其重启，保证进程的持续运行。在实际应用中，它常出现在多层架构里。比如在Nginx→Gunicorn/Django→Su
Python基础（字符串的切片与断言）日暮凡尘 python 开发语言 pycharm
'''1.输入一个字符串，判断是否只包含英文字母（大写或小写）。输出True或False。2.输入一个字符串，统计里面数字字符（0-9）的数量。3.输入两个字符串，第一个是主串，第二个是要查找的字符，判断字符是否在主串中。4.输入一个字符串，将所有数字字符转换成整数后求和。5.统计字符串中空格的数量6.输入字符串和数字n，判断字符串是否只包含数字且长度等于n。7.验证用户输入的手机号格式（中国手机
python 变量进阶（理解）程序员同行者
变量进阶（理解）目标变量的引用可变和不可变类型局部变量和全局变量01.变量的引用变量和数据都是保存在内存中的在Python中函数的参数传递以及返回值都是靠引用传递的1.1引用的概念在Python中变量和数据是分开存储的数据保存在内存中的一个位置变量中保存着数据在内存中的地址变量中记录数据的地址，就叫做引用使用id()函数可以查看变量中保存数据所在的内存地址注意：如果变量已经被定义，当给一个变量赋值
python——for_in循环何处望天明CS python
#Nico#时间：2021/4/2021:09#for-in循环'''in表达式从（字符串、序列等）中依次取值，又称为遍历for-in遍历的对象必须是可迭代对象''''''for-in的语法结构for自定义变量in可迭代对象:循环体'''#字符串中取值foritemin'python':print(item)#range产生一个整数序列，也是一个可迭代对象foriinrange(10):print
一步一步学Python3(小学生也适用) 第十七篇:循环语句for in循环
一、Pythonforin循环Pythonforin循环，是用来遍历任何数据序列，如一个列表，一个字符串，一个字典，一个元组等。forin循环的一般语法如下：foritemin序列:语句块else:语句块forin字符串：把每个字符循环出来'''字符串：把每个字符循环出来'''str1='老树Python''''把字符串str1元素进行循环，每循环出一个元素，就把该元素赋值给item'''fori
OpenCV中常用特征提取算法（SURF、ORB、SIFT和AKAZE）用法示例（C++和Python）点云SLAM 图形图像处理 opencv 算法 ORB算法 SIFT算法 SURF算法 AKAZE算法计算机视觉
OpenCV中提供了多种常用的特征提取算法，广泛应用于图像匹配、拼接、SLAM、物体识别等任务。以下是OpenCV中几个主流特征提取算法的用法总结与代码示例，涵盖C++和Python两个版本。常用特征提取算法列表算法特点是否需额外模块SIFT（尺度不变特征）稳定性强、可旋转缩放xfeatures2d模块SURF（加速稳健特征）快速但专利保护xfeatures2d模块ORB（OrientedFAST
python 循环结构(for-in) 编程小僧 python基础
循环结构(for-in)说明：也是循环结构的一种，经常用于遍历字符串、列表，元组，字典等格式：forxiny:循环体执行流程：x依次表示y中的一个元素，遍历完所有元素循环结束示例1：遍历字符串s='Iloveyoumorethanicansay'foriins:print(i)示例2：遍历列表l=['鹅鹅鹅','曲项向天歌','锄禾日当午','春种一粒粟']foriinl:print(i)#可以
Python学习笔记 cherishSpring python python 学习笔记
目录一、名词解释二、数据类型（变量名无类型，变量值有类型）三、数据类型转换(万物皆可转字符串)四、标识符五、运算符六、字符串扩展七、数据输入八、if语句九、while语句十、for循环语句十一、函数十二、数据容器1、List列表2、tuple元组3、字符串4、序列的常用操作-切片5、set集合6、dict字典7、数据容器相互转换8、通用操作十三、文件编码一、名词解释1、字面量被写在代码中的固定的值
Python for循环 dengdieli5313 python
Pythonfor循环可以遍历任何序列的项目，如一个列表或者一个字符串。for循环的语法结构如下：foriterating_varinsequence:statements(s)最简单的形式如下，循环10次。1foriinrange(10):2print("loop:",i)输出为1loop:02loop:13loop:24loop:35loop:46loop:57loop:68loop:79lo
python的for-in循环小白L. 入门 python numpy 开发语言
‘’‘for-in循环in表达从（字符串序列）中依次取值，又称为遍历for-in遍历的对象必须是可迭代对象for-in的语法结构for自定义的变量in可迭代对象:循环体循环体内不需要访问自定义变量，可以将自定义变量替代为下划线’‘’#第一次取出来的是P，将P赋值item，将item的值输出foritemin'python':print(item)#range（）产生一个整数序列，–》也是一个可迭代
Python-for-in循环難釋懷 python windows 服务器
一、前言在Python编程中，循环结构（LoopStructure）是程序控制流的重要组成部分。其中，for...in循环是Python中最常用、最简洁的迭代工具之一。与传统的C风格语言中的for不同，Python的for...in循环专门用于遍历可迭代对象（Iterable），如列表、元组、字符串、字典、集合，甚至是生成器等。本文将带你深入了解：for...in循环的基本语法；如何高效地遍历各种
【AI 赋能：Python 人工智能应用实战】5. 梯度下降家族：SGD/Adam优化器对比实验与选择策略 AI_DL_CODE 人工智能 python 梯度下降优化器 SGD Adam PyTorch
摘要：本文系统解析梯度下降优化器的核心原理与演进脉络，构建从理论到实战的完整知识体系。理论部分梳理优化器发展里程碑，从1951年的SGD到2018年的AdamW，揭示技术迭代逻辑；通过数学公式对比SGD、Momentum、Adam等核心算法的更新机制，解析动量加速、自适应学习率的创新点。结合损失曲面分析，阐释Momentum如何逃离鞍点、Adam如何处理悬崖梯度。实战模块基于PyTorch在MNI
Python设计模式：适配模式 niuguangshuo python基础 python 设计模式开发语言
1.适配模式（AdapterPattern）详解适配模式（AdapterPattern）是一种结构型设计模式，它允许将一个类的接口转换成客户端所期望的另一种接口。适配模式使得原本由于接口不兼容而无法一起工作的类可以协同工作。换句话说，适配模式充当了一个桥梁，允许不同接口的类之间进行交互。在软件开发中，常常会遇到需要使用现有类的情况，但这些类的接口与我们需要的接口不匹配。适配模式提供了一种解决方案，
使用UV管理PyTorch项目
PyTorch是深度学习研究和开发的流行选择。可以使用uv管理PyTorch项目，包括不同Python版本依赖、管理环境、甚至加速器选择等。安装Pytorch从打包角度来看，PyTorch有几个不常见的特点：许多PyTorchwheel托管在专门的索引上，而非Python包索引（PyPI）。因此，安装PyTorch通常需要配置项目使用PyTorch专属索引。PyTorch为每种加速器生成不同的构建
数字图像处理（三：图像如果当作矩阵，那加减乘除处理了矩阵，那图像咋变）：从LED冬奥会、奥运会及春晚等等大屏，到手机小屏，快来挖一挖里面都有什么
数字图像处理（三）一、（准备工作：咋玩，用什么玩具）图像以矩阵形式存储，那矩阵一变、图像立刻跟着变？1.Python+JupyterNotebook/Lab+库(NumPy,OpenCV,Matplotlib,scikit-image)2.MATLAB+ImageProcessingToolbox3.JavaScript+HTML5Canvas+浏览器4.专业的图像处理软件(带脚本/插件功能)二、
使用Python进行文件属性修改 python自动化工具 python办公自动化 python 服务器 java
哈喽，大家好，我是木头左！在计算机中，文件属性是指与文件相关的元数据，如创建时间、修改时间、访问时间等。这些属性对于管理和组织文件非常重要。Python提供了一些内置的函数和方法，可以方便地修改文件的属性。本文将介绍如何使用Python进行文件属性的修改。1.获取文件属性需要使用os模块中的stat()函数来获取文件的属性。该函数返回一个包含文件属性的命名元组。以下是一个简单的示例：importo
Python 代理模式：控制对象访问的智能中介
在Python编程中，代理模式（ProxyPattern）是一种非常有用的设计模式，它在许多场景下能够为我们提供更加灵活和可控的对象访问方式。代理模式就像是一个中间人，它站在客户端和真实对象之间，代替真实对象处理请求，并且可以在这个过程中添加额外的逻辑，如权限验证、懒加载等。本文将深入探讨Python中的代理模式，详细阐述其概念、关键要点、实现方式、应用场景以及与其他相关模式的比较。一、代理模式的
深度解析股票量化标准，从数据筛选到模型构建全面解读股票程序化交易接口量化交易股票API接口 Python股票量化交易股票量化标准数据筛选模型构建量化分析股票量化接口股票API接口
Python股票接口实现查询账户，提交订单，自动交易（1）Python股票程序交易接口查账，提交订单，自动交易（2）股票量化，Python炒股，CSDN交流社区>>>股票量化标准的定义股票量化标准是一套运用数学和统计学方法，对股票投资进行系统性分析与决策的准则。它将各种影响股票价格的因素，如财务数据、市场交易数据等进行量化处理。通过这些量化后的指标，投资者能更精准地评估股票的价值与潜力，减少主观判
睡岗离岗检测算法 Python 燧机科技SuiJi 人工智能 python 算法深度学习神经网络
睡岗离岗检测算法的核心在于实时监控和智能分析，睡岗离岗检测算法通过安装在关键区域的监控摄像头，系统能够捕捉到员工的活动画面。当系统检测到人体位置长时间未发生变化时，将启动睡姿分类器。该分类器能够识别多种睡姿，如趴在桌子上睡、坐在凳子上后仰睡等。一旦识别为睡姿，系统将立即触发告警机制。这可以通过向管理人员发送警报信号，或通过语音提醒员工的方式实现。睡岗离岗检测算法在多种场景下均有广泛应用。该算法能够
Python桌面版数独（二版）-增加4X4、6X6 香蕉可乐荷包蛋 #数独 python java 前端
增加选择4x4、6x6模式，以下是三种模式的不同解析：4x4模式：数独大小：4x4每个宫格大小：2x2数字范围：1-46x6模式：数独大小：6x6每个宫格大小：2x3数字范围：1-69x9模式：数独大小：9x9每个宫格大小：3x3数字范围：1-9主要优化点：4.添加了模式选择下拉框，可以选择4x4、6x6、9x9模式5.根据选择的模式动态创建不同大小的棋盘6.生成不同大小的数独题目7.验证输入的合
变型桥——桥接模式详解（Python实现）
引言在上一篇文章中，我们详细介绍了适配器模式（AdapterPattern），并展示了如何通过适配器将不兼容的接口转换为兼容的接口，使得原本无法协同工作的类能够在一起工作。这次，我们将探讨另一种结构性设计模式——桥接模式（BridgePattern），或者我们可以亲切地称它为“变型桥”。桥接模式将抽象部分与它的实现部分分离，使它们都可以独立地变化，通过引入一个桥接接口，桥接模式可以让抽象和实现独立
模型移植实战：从PyTorch到ONNX完整指南慕婉0307 神经网络 pytorch 人工智能 python
一、认识ONNXONNX（OpenNeuralNetworkExchange）是一种开放的模型表示格式，由微软和Facebook（现Meta）在2017年共同推出，旨在解决深度学习模型在不同框架之间的互操作性问题。ONNX的主要优势包括：跨框架兼容性：支持主流深度学习框架间的模型转换，包括PyTorch、TensorFlow、MXNet、CNTK等例如，可以将PyTorch训练的ResNet模型导
PyTorch的基础概念和复杂模型的基本使用香蕉可乐荷包蛋 AI大模型项目中的使用 pytorch 人工智能 python
文章目录一、PyTorch基础概念二、复杂模型的学习使用一、PyTorch基础概念张量（Tensor）操作：张量是PyTorch中的基本数据结构，类似于NumPy的数组，但支持GPU加速常见操作包括创建张量、张量运算、索引、切片等importtorch#创建张量x=torch.randn(3,4)y=torch.zeros(3,4)#张量运算z=x+y自动求导（Autograd）：PyTorch的
Python适配器模式详解：让不兼容的接口协同工作 detayun Python python 适配器模式开发语言
一、模式定义与核心思想适配器模式（AdapterPattern）是一种结构型设计模式，它通过创建一个中间层（适配器），将不兼容的接口转换为客户端期望的接口。就像现实中的电源适配器，让不同国家的插头都能在同一个插座上工作。二、模式结构解析#目标接口：客户端期望的接口classTarget:defrequest(self):"""标准请求方法"""raiseNotImplementedError#被适
python3.9安装tensorflow-gpu 2.6.0和torch-gpu版本各依赖包的版本对应关系
首先使用的cuDNN（8.1）、CUDA（11.2）、tensorflow-gpu（2.6.0）、python（3.9）之间对应版本Window环境下安装pytorch下载地址tensorflow官网CUDA下载官网cuDNN下载官网注意：cuDNN需要注册absl-py0.15.0astunparse1.6.3cachetools5.3.2certifi2023.7.22charset-norm
打造智能资讯引擎：基于 Python 的新闻数据爬取与个性化推荐系统实战全流程解析程序员威哥最新爬虫实战项目 python 开发语言
前言：数据时代的信息洪流，如何做到“千人千面”？在信息爆炸的时代，每天都有成千上万条新闻资讯涌现。如何从海量内容中挖掘出用户感兴趣的资讯？这不仅仅是爬虫技术的问题，更是数据建模与智能推荐算法的落地挑战。本篇文章将带你从零出发，构建一个具有实际应用价值的“个性化新闻阅读推荐系统”，从数据采集（爬虫）、文本处理（NLP）、兴趣建模（TF-IDF/协同过滤/Embedding）到推荐展示，覆盖整个推荐系
gitlab修改DNS解析配置文件中东大鹅 gitlab linux git
在Linux（CentOS7.9）云服务器上解压gitlab时提示需要Python的环境[root@rainyun-v1vct1josrc]#rpm-ivhgitlab-ce-10.8.4-ce.0.el7.x86_64.rpmwarning:gitlab-ce-10.8.4-ce.0.el7.x86_64.rpm:HeaderV4RSA/SHA1Signature,keyIDf27eab47:N
Algorithm 香水浓 java Algorithm
冒泡排序 public static void sort(Integer[] param) { for (int i = param.length - 1; i > 0; i--) { for (int j = 0; j < i; j++) { int current = param[j]; int next = param[j + 1];
mongoDB 复杂查询表达式开窍的石头 mongodb
1:count Pg: db.user.find().count(); 统计多少条数据 2:不等于$ne Pg: db.user.find({_id:{$ne:3}},{name:1,sex:1,_id:0}); 查询id不等于3的数据。 3：大于$gt $gte(大于等于) &n
Jboss Java heap space异常解决方法, jboss OutOfMemoryError : PermGen space 0624chenhong jvm jboss
转自 http://blog.csdn.net/zou274/article/details/5552630 解决办法： window->preferences->java->installed jres->edit jre 把default vm arguments 的参数设为-Xms64m -Xmx512m ----------------
文件上传下载解析相对路径不懂事的小屁孩文件上传
有点坑吧，弄这么一个简单的东西弄了一天多，身边还有大神指导着，网上各种百度着。下面总结一下遇到的问题：文件上传，在页面上传的时候，不要想着去操作绝对路径，浏览器会对客户端的信息进行保护，避免用户信息收到攻击。在上传图片，或者文件时，使用form表单来操作。前台通过form表单传输一个流到后台，而不是ajax传递参数到后台，代码如下: <form action=&
怎么实现qq空间批量点赞换个号韩国红果果 qq
纯粹为了好玩！！逻辑很简单 1 打开浏览器console；输入以下代码。先上添加赞的代码 var tools={}; //添加所有赞 function init(){ document.body.scrollTop=10000; setTimeout(function(){document.body.scrollTop=0;},2000);//加
判断是否为中文灵静志远中文
方法一： public class Zhidao { public static void main(String args[]) { String s = "sdf灭礌 kjl d{';\fdsjlk是"; int n=0; for(int i=0; i<s.length(); i++) { n = (int)s.charAt(i); if((
一个电话面试后总结 a-john 面试
今天，接了一个电话面试，对于还是初学者的我来说，紧张了半天。面试的问题分了层次，对于一类问题，由简到难。自己觉得回答不好的地方作了一下总结：在谈到集合类的时候，举几个常用的集合类，想都没想，直接说了list,map。然后对list和map分别举几个类型： list方面：ArrayList,LinkedList。在谈到他们的区别时，愣住了
MSSQL中Escape转义的使用 aijuans MSSQL
IF OBJECT_ID('tempdb..#ABC') is not null drop table tempdb..#ABC create table #ABC ( PATHNAME NVARCHAR(50) ) insert into #ABC SELECT N'/ABCDEFGHI' UNION ALL SELECT N'/ABCDGAFGASASSDFA' UNION ALL
一个简单的存储过程 asialee mysql 存储过程构造数据批量插入
今天要批量的生成一批测试数据，其中中间有部分数据是变化的，本来想写个程序来生成的，后来想到存储过程就可以搞定，所以随手写了一个，记录在此： DELIMITER $$ DROP PROCEDURE IF EXISTS inse
annot convert from HomeFragment_1 to Fragment 百合不是茶 android 导包错误
创建了几个类继承Fragment, 需要将创建的类存储在ArrayList<Fragment>中; 出现不能将new 出来的对象放到队列中,原因很简单; 创建类时引入包是:import android.app.Fragment; 创建队列和对象时使用的包是:import android.support.v4.ap
Weblogic10两种修改端口的方法 bijian1013 weblogic 端口号配置管理 config.xml
一.进入控制台进行修改 1.进入控制台: http://127.0.0.1:7001/console 2.展开左边树菜单域结构->环境->服务器-->点击AdminServer(管理) &
mysql 操作指令征客丶 mysql
一、连接mysql 进入 mysql 的安装目录； $ bin/mysql -p [host IP 如果是登录本地的mysql 可以不写 -p 直接 -u] -u [userName] -p 输入密码，回车，接连；二、权限操作［如果你很了解mysql数据库后，你可以直接去修改系统表，然后用 mysql> flush privileges; 指令让权限生效］ 1、赋权 mys
【Hive一】Hive入门 bit1129 hive
Hive安装与配置 Hive的运行需要依赖于Hadoop，因此需要首先安装Hadoop2.5.2，并且Hive的启动前需要首先启动Hadoop。 Hive安装和配置的步骤 1. 从如下地址下载Hive0.14.0 http://mirror.bit.edu.cn/apache/hive/ 2.解压hive，在系统变
ajax 三种提交请求的方法 BlueSkator Ajax jqery
1、ajax 提交请求 $.ajax({ type:"post", url : "${ctx}/front/Hotel/getAllHotelByAjax.do", dataType : "json", success : function(result) { try { for(v
mongodb开发环境下的搭建入门 braveCS 运维
linux下安装mongodb 1）官网下载mongodb-linux-x86_64-rhel62-3.0.4.gz 2）linux 解压 gzip -d mongodb-linux-x86_64-rhel62-3.0.4.gz; mv mongodb-linux-x86_64-rhel62-3.0.4 mongodb-linux-x86_64-rhel62-
编程之美-最短摘要的生成 bylijinnan java 数据结构算法编程之美
import java.util.HashMap; import java.util.Map; import java.util.Map.Entry; public class ShortestAbstract { /** * 编程之美最短摘要的生成 * 扫描过程始终保持一个[pBegin,pEnd]的range,初始化确保[pBegin,pEnd]的ran
json数据解析及typeof chengxuyuancsdn js typeof json解析
// json格式 var people='{"authors": [{"firstName": "AAA","lastName": "BBB"},' +' {"firstName": "CCC&
流程系统设计的层次和目标 comsci 设计模式数据结构 sql 框架脚本
流程系统设计的层次和目标
RMAN List和report 命令 daizj oracle list report rman
LIST 命令使用RMAN LIST 命令显示有关资料档案库中记录的备份集、代理副本和映像副本的信息。使用此命令可列出： • RMAN 资料档案库中状态不是AVAILABLE 的备份和副本 • 可用的且可以用于还原操作的数据文件备份和副本 • 备份集和副本，其中包含指定数据文件列表或指定表空间的备份 • 包含指定名称或范围的所有归档日志备份的备份集和副本 • 由标记、完成时间、可
二叉树:红黑树 dieslrae 二叉树
红黑树是一种自平衡的二叉树,它的查找,插入,删除操作时间复杂度皆为O(logN),不会出现普通二叉搜索树在最差情况时时间复杂度会变为O(N)的问题. 红黑树必须遵循红黑规则,规则如下 1、每个节点不是红就是黑。 2、根总是黑的 &
C语言homework3，7个小题目的代码 dcj3sjt126com c
1、打印100以内的所有奇数。 # include <stdio.h> int main(void) { int i; for (i=1; i<=100; i++) { if (i%2 != 0) printf("%d ", i); } return 0; } 2、从键盘上输入10个整数，
自定义按钮, 图片在上, 文字在下, 居中显示 dcj3sjt126com 自定义
#import <UIKit/UIKit.h> @interface MyButton : UIButton -(void)setFrame:(CGRect)frame ImageName:(NSString*)imageName Target:(id)target Action:(SEL)action Title:(NSString*)title Font:(CGFloa
MySQL查询语句练习题，测试足够用了 flyvszhb sql mysql
http://blog.sina.com.cn/s/blog_767d65530101861c.html 1.创建student和score表 CREATE TABLE student ( id INT(10) NOT NULL UNIQUE PRIMARY KEY , name VARCHAR
转：MyBatis Generator 详解 happyqing mybatis
MyBatis Generator 详解 http://blog.csdn.net/isea533/article/details/42102297 MyBatis Generator详解 http://git.oschina.net/free/Mybatis_Utils/blob/master/MybatisGeneator/MybatisGeneator.
让程序员少走弯路的14个忠告 jingjing0907 工作计划学习
无论是谁，在刚进入某个领域之时，有再大的雄心壮志也敌不过眼前的迷茫：不知道应该怎么做，不知道应该做什么。下面是一名软件开发人员所学到的经验，希望能对大家有所帮助 1.不要害怕在工作中学习。只要有电脑，就可以通过电子阅读器阅读报纸和大多数书籍。如果你只是做好自己的本职工作以及分配的任务，那是学不到很多东西的。如果你盲目地要求更多的工作，也是不可能提升自己的。放
nginx和NetScaler区别流浪鱼 nginx
NetScaler是一个完整的包含操作系统和应用交付功能的产品，Nginx并不包含操作系统，在处理连接方面，需要依赖于操作系统，所以在并发连接数方面和防DoS攻击方面，Nginx不具备优势。 2.易用性方面差别也比较大。Nginx对管理员的水平要求比较高，参数比较多，不确定性给运营带来隐患。在NetScaler常见的配置如健康检查，HA等，在Nginx上的配置的实现相对复杂。 3.策略灵活度方
第11章动画效果（下） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
FAQ - SAP BW BO roadmap blueoxygen BO BW
http://www.sdn.sap.com/irj/boc/business-objects-for-sap-faq Besides, I care that how to integrate tightly. By the way, for BW consultants, please just focus on Query Designer which i
关于java堆内存溢出的几种情况 tomcat_oracle java jvm jdk thread
【情况一】：　　 java.lang.OutOfMemoryError: Java heap space：这种是java堆内存不够，一个原因是真不够，另一个原因是程序中有死循环；　　如果是java堆内存不够的话，可以通过调整JVM下面的配置来解决：　　<jvm-arg>-Xms3062m</jvm-arg> 　　<jvm-arg>-Xmx
Manifest.permission_group权限组阿尔萨斯 Permission
结构继承关系 public static final class Manifest.permission_group extends Object java.lang.Object android. Manifest.permission_group 常量 ACCOUNTS 直接通过统计管理器访问管理的统计 COST_MONEY可以用来让用户花钱但不需要通过与他们直接牵涉的权限 D