Yuheng_Xu

【NLP】用MLP、CNN、RNN解决文本情感分类问题

这是一个练手MLP、CNN、RNN的demo，pytorch实现。包含预处理，数据加载，模型构建，训练，测试，性能展示训练模型全套。细致讲解整个代码实现过程的每一步。
训练环境：
Ubuntu 18.04
python 3.7
Conda
CUDA 10.2
GPU RTX2080Ti

任务目标

利用PyTorch深度学习框架，实现多层感知机（MLP）、卷积神经网络（CNN）和递归神经网络（RNN）。
利用已实现好的深度网络模型，实现文本数据预处理、载入、训练和测试等功能，并根据预测的结果计算分类指标。
需要提交实现代码一份以及作业报告一份。作业报告的具体要求见下面的任务详情。
附加目标：
a) 在模型中载入预训练好的词向量（word embedding），如Word2vec 或 Glove，可使用网络上开源的训练好的词向量，也可自行训练；
b) 不使用PyTorch提供的RNN层，自行实现RNN层；

任务详情

利用PyTorch框架，分别实现MLP、CNN和RNN模型，具体要求如下：
 MLP模型：需要包含至少一层隐层（hidden layer），每个全连接层的神经元数量需自行设置；
 CNN模型：需要包含卷积层（convolution layer）与池化层（pooling layer），但不同于图像，文本的分类对卷积层的设置不同，设置方式见文章https://arxiv.org/abs/1408.5882，其余的参数需自行设置；
 RNN模型：需要包含LSTM或GRU层，对应的参数需自行设置。
注：CNN模型的结构可以参考第四讲ppt的page 60。MLP的输入可以采用词袋模型（Bag-of-words），也采用嵌入表征（embedding），具体做法是将词表示为embedding，然后取一条文本中所有词的average embedding作为文本的嵌入表征。
对于给定的数据集，需要完成预处理、载入、训练和测试四个步骤，具体要求如下：

预处理：需要对原始的数据集进行预处理，使其符合神经网络需要的输入格式，详见数据集说明；
载入：对于预处理之后的文本数据，需要使用PyTorch的数据加载模块（Dataloader）进行数据载入，以进行批次训练，batch size需自行设置；
训练：使用实现好的神经网络模型对数据进行迭代的批次训练，使结果收敛，以得到效果较好的模型，迭代轮数（epoch）需自行设置；训练过程中，可以同时进行验证操作，以进更好的进行参数调节；在报告中，需要呈现出“训练集precision”，“训练集recall”，“训练集F1”和“训练集平均loss”随epoch的变化折线图，对应的指标计算方法在Python的sklearn包中均有相应接口；
测试：将测试数据经过同样的预处理与数据载入，输入进训练好的模型进行测试，得到测试结果，在报告中，需要呈现出“测试集precision”，“测试集recall”，“测试集F1”随epoch的变化折线图；还需要给出最好的epoch和最后一个epoch的precision、recall、F1的具体数值。

神经网络模型的参数较多，且调参效果与多个因素相关，故需要同学们了解各个参数所代表的意义，从而更好的调节参数，以到达更好的模型效果，在报告上只需呈现最终的模型参数即可；
附加目标为选做内容，同学们可根据自身情况选做以下内容，完成的同学会得到额外加分，具体情况如下：
a) 使用预训练好的词向量或模型有利于训练更好的文本分析模型。最著名的两个词向量工具Word2vec和Glove都提供了在大规模文本语料中预训练好的词向量或模型。同学们可从开放互联网上下载使用。一个可供下载的参考地址为：
https://blog.csdn.net/LeYOUNGER/article/details/79343404。
b) PyTorch已实现常用的RNN层，如LSTM和GRU，有能力的同学可自行实现LSTM层或GRU层，理解其中的数学原理。
c) 如完成了选做内容，请在报告中简述对应内容的做法及代码中的位置。

数据集说明

本数据集为Kaggle上开源的推特情感分类数据，为二分类数据集。原始数据集总文本量为1600000，为了减少作业训练压力，从中随机选择部分样本作为本次作业的数据集，原始数据集已进行简单的文本处理，使得文本更易于情感分类，且已过滤掉长度小于5的文本。项目原始地址为：https://www.kaggle.com/kazanova/sentiment140
处理后的数据集包含100000个训练样本和20000个测试样本，其中，正类和负类各占一半。训练样本文本为train_X.txt，标签为train_Y.txt；测试样本文本为test_X.txt，标签为test_Y.txt，文本与标签每行相对应。请以“latin-1”编码打开数据文件。
文件中的每一行均为一条评论的文本。载入数据集后需对文本进行如下的预处理操作：
a) 分词：英文以空格分割单词，删除句首句尾的换行符等无关字符，并进行大小写转换等其他需要的操作；
b) 构建词典：本数据集词典已在vocab.txt中给出，无需构建。如果觉得词典过大，也可以自己再删掉部分低频词。改文件请以“latin-1”编码打开，每一行为对应的单词和对训练集统计的词频，以‘\t’（tab键）分割；
c) 词索引转换：PyTorch的嵌入层需要输入词的索引进行词嵌入，故需要将文本序列根据词典转换为索引的序列；不在词典中的词课统一替换为标识符，标识符也需要对应一个索引；
d) 确定输入长度：每句话的长度不同，需要统计文本长度以选择合适的序列长度，不要过长也不要过短；确定长度后需要对过长的文本进行裁剪，对过短的文本进行补齐，可自行实现，也可借助PyTorch的padding工具。

实现过程

0 引言

本次作业利用Pytorch实现了MLP、CNN、RNN三种神经网络，并且实现了一个简单的RNN网络。分别在老师给定的vocab上对数据集进行训练，并载入预训练好的词向量Glove作为对照试验。

1 代码结构说明

本次实现的网络结构较多、数据集处理较复杂、设计对照试验因此代码结构较为复杂，代码结构包含3个文件夹和5个python文件，如下：

Data文件夹中存放数据集，包括train_X.txt、train_Y.txt、test_X.txt、test_Y.txt、vocab.txt五个文件，分别是训练集文本数据、训练集标签、测试集文本数据、测试集标签和词典。

GloVe文件夹中存放下载的预训练好的词向量glove.6B.300d.txt。

runs文件夹中存放tensorboard文件，用于实时查看训练效果。

main.py是代码的主干，包括可选参数、加载数据集到GPU、模型选择、模型训练、模型测试、结果展示几个部分。

config.py是配置文件，保存着文件路径、模型超参数等静态信息。

dataset.py中构建了一个Dataset class，用于加载数据集。

models.py保存MLP、CNN、RNN、myRNN四个网络模型。

utils.py是数据预处理部分，包括训练集、测试集、vocab、glove的处理。

2 前期配置

代码中用到了需要额外下载配置的库和文件。

2.1 tensorboard

tensorboard在模型训练过程中经常用于实时查看模型训练效果，能很好的反应出训练效果。

####2.1.1 install

pip install tensorboard

####2.1.2 run

在terminal中输入

tensorboard --logdir=runs --port=3389

在浏览器中输入网址http://localhost:3389/即可查看训练效果

####2.1.3 files introduce

在runs文件目录中已经保存了12个训练好的模型效果共查看

MLP_with_glove_vocab：代表采用MLP模型，使用预训练词向量glove与老师提供的vocab求交集作为词典，不在词典内的词均用表示。

MLP_with_vocab：代表采用MLP模型，仅使用老师提供的vocab作为词典，不在词典内的词均用表示。

MLP_with_glove：代表采用MLP模型，仅使用预训练词向量glove作为词典，不在词典内的词均用表示。

RNN、CNN、myRNN开头的文件以此类推

2.2 GLove

预训练词向量glove从官网下载，选用Wikipedia 2014，822MB压缩文件，选择其中将一个词表示为300维的词典glove.6B.300d.txt，若使用其他的词典，可以自行下载，并对代码相关部分进行修改。

3 可选参数＆超参数

###3.1 可选参数

在运行时设置了模型选择、词典选择、是否进行预训练三个可选参数，代码在main.py的主函数中，如下：

parser = argparse.ArgumentParser(description='manual to this model')
parser.add_argument('--model', type=str, default='myRNN')
parser.add_argument('--choose_vocab', type=str, default='vocab')
parser.add_argument('--pretrain', type=bool, default=False)
args = parser.parse_args()

运行代码示例如下：

python main.py

会调用默认参数训练，即：采用RNN模型、使用vocab作为词典、不进行预训练。需要注意的是，选择字典仅在进行预训练的情况下才会生效。--pretrain=False时，字典为老师给定的字典。

当然，也可以根据需要调整可选参数，比如采用CNN模型，使用glove作为字典，进行预训练。运行示例代码如下：

python main.py --model=CNN --pretrain=True --choose_vocab=glove

###3.2 超参数

针对不同的网络模型，learning_rate、dropout、epoch、batch_size等超参数的设置也有不同。因此在选择对应模型后，会加载不同的超参数用于训练。代码在config.py的Config类中。如下：

class Config(object):

    def __init__(self, args):
        assert args.model in ['MLP', 'RNN', 'CNN', 'myRNN']
        assert args.choose_vocab in ['vocab', 'glove']
        self.model = args.model
        self.choose_vocab = args.choose_vocab
        self.pretrain = args.pretrain

        self.path = {
            'train_X': './Data/train_X.txt',
            'train_Y': './Data/train_Y.txt',
            'test_X': './Data/test_X.txt',
            'test_Y': './Data/test_Y.txt',
            'vocab': './Data/vocab.txt',
            'glove': './GloVe/glove.6B.300d.txt'
        }

        self.device = torch.device('cuda:0' if torch.cuda.is_available() else 'cpu')
        self.max_len = 31
        self.vocab_size = 25467
        self.embedding_dim = 300

        if self.model == 'MLP':
            self.epoch = 1000
            self.batch_size = 100000
            self.learn_rate = 1e-4
            self.hidden_size = 500
        elif self.model == 'RNN' or self.model == 'myRNN':
            self.epoch = 20
            self.batch_size = 4096
            self.learn_rate = 1e-3
            self.hidden_size = 200
            self.num_layers = 2
            self.dropout = 0.5
        elif self.model == 'CNN':
            self.epoch = 100
            self.batch_size = 32768
            self.learn_rate = 1e-3
            self.dropout = 0.25
            self.n_kernel = 128
            self.filter_sizes = [3, 4, 5]

超参数命名遵信常规命名，不在赘述具体含义。调用代码在main.py中，代码如下：

from config import Config
cfg = Config(args)

4 数据预处理

数据预处理较为复杂。包括对训练数据、标签、字典的预处理。实现代码在utils.py中。

4.1 字典

4.1.1 vocab

老师给的字典共两列，第一列是单词，第二列是该词出现的次数，为了能更好的学到参数，我在处理时将出现次数少于2次的单词全部用代替。并将数据整理为{‘word’: index}的格式。代码如下：

def load_vocab(path):
    with open(path) as f:
        data = f.read().splitlines()
    data = [line.split() for line in data]
    words = [word for word, count in data if int(count) > 1]
    vocab = {word: index for index, word in enumerate(words, start=2)}
    vocab.update({'': 0, '': 1})
    return vocab

4.1.2 glove

glove每一行共301个项，第一项是单词，后面300项为表示该次的词向量。需要将数据整理成{‘word’: [tensor]}的形式。在load_glove()函数中除了转换glove格式外，还要生成同4.1.1中格式相同的vocab，因此还包含选择用老师给的词典，还是用glove作为词典。

def load_glove(path, choose_vocab):

    with open(path['glove']) as f:
        datas = f.read().splitlines()
    datas = [line.split() for line in datas]

    if choose_vocab == 'vocab':
        vocab = load_vocab(path['vocab'])
    else:
        words = [data[0] for data in datas]
        vocab = {word: index for index, word in enumerate(words, start=2)}
        vocab.update({'': 0, '': 1})

    glove = {data[0]: np.array([float(i) for i in data[1:]]) for data in datas}
    glove.update({'': np.zeros(300), '': np.ones(300)})

    return vocab, glove

4.2 数据

4.2.1 数据加载

train_X.txt、test_X.txt中每一行是一个完整的句子，因此要将句子切分成单词保存，实际训练中，单词不能作为输入，要改成索引输入，因此要对照4.1中生成的vocab，生成句子的索引序列。代码如下：

def load_sents(path, max_len, vocab):
    sens = []
    with open(path) as f:
        for line in f:
            sen = []
            sentence = line.strip().split()
            for word in sentence:
                if word in vocab.keys():
                    sen.append(vocab[word])
                else:
                    sen.append(vocab[''])
            if len(sen) in count_len.keys():
                count_len[len(sen)] += 1
            else:
                count_len[len(sen)] = 1

            sens.append(sen)

    sens = normalize(sens, max_len)

    # count every sentence len, found the longest sentence
    # print(count_len)
    return sens

其中count_len是用来统计文本长度的一个dict，通过观察发现，绝大多数句子的长度在31个单词以内，因此将31作为合适的序列长度。

####4.2.2 输入长度整理

上述代码中count_len是用来统计文本长度的一个dict，通过观察发现，绝大多数句子的长度在31个单词以内，因此将31作为合适的序列长度对过长的文本进行裁剪，对过短的文本进行补齐。补齐代码如下：

def normalize(sens, max_len):
    temp = []
    for sen in sens:

        if len(sen) > max_len:
            sen = sen[:max_len]

        elif len(sen) < max_len:
            sen = [0] * (max_len - len(sen)) + sen

        temp.append(sen)
    return temp

4.3 标签

train_Y.txt、test_Y.txt中每一行只有一个元素，为对应的情感标签，因此按行读入，转换成浮点数即可，代码如下：

def load_label(path):
    with open(path) as f:
        label = [int(line) for line in f]

    return label

4.4 配对

为了在接下来的方便调用pytorch的DataLoader，需要对数据和标签进行一对一捆绑，形成train_set和test_set，数据格式为[x, y]，代码如下：

def make_pair(x, y):

    pairs = []
    for i in range(len(x)):
        tempx = np.asarray(x[i])
        tempy = np.asarray(y[i])
        pairs.append([tempx, tempy])

    pairs = np.array(pairs)
    return pairs

4.5 封装

将上述部件封装起来，方便调用，其中在选择字典时需要判断，代码如下：

def load_data(cfg):

    glove = None
    if cfg.pretrain:
        vocab, glove = load_glove(cfg.path, cfg.choose_vocab)
        cfg.vocab_size = len(vocab)

    else:
        vocab = load_vocab(cfg.path['vocab'])

    train_X = load_sents(cfg.path['train_X'], cfg.max_len, vocab)
    test_X = load_sents(cfg.path['test_X'], cfg.max_len, vocab)
    train_Y = load_label(cfg.path['train_Y'])
    test_Y = load_label(cfg.path['test_Y'])

    train_set = make_pair(train_X, train_Y)
    test_set = make_pair(test_X, test_Y)

    return train_set, test_set, vocab, glove

main.py调用方式如下：

from utils import load_data
train_set, test_set, vocab, glove = load_data(cfg)

5 模型构建

模型均保存在models.py文件中，共四个模型。

5.1 MLP

多层感知机由一个embeding层和三个线性层构成。每层的大小维度见注释，代码如下：

class MLP(nn.Module):

    def __init__(self, cfg, vocab, glove):
        super(MLP, self).__init__()
        self.glove = glove
        self.vocab = vocab

        self.embed = nn.Embedding(cfg.vocab_size, cfg.embedding_dim)
        if glove is not None:
            self.weight_matrix = create_weight_matrix(self.vocab, self.glove)
            self.embed.load_state_dict({'weight': self.weight_matrix})

        self.fc1 = nn.Linear(cfg.embedding_dim, cfg.hidden_size)
        self.fc2 = nn.Linear(cfg.hidden_size, cfg.hidden_size)
        self.fc3 = nn.Linear(cfg.hidden_size, 1)

    def forward(self, x):
        # x: batch_size * seq_len
        e = self.embed(x)  # batch_size * seq_len * hidden_size
        h = e.mean(dim=1)  # batch_size * hidden_size
        h = F.relu(self.fc1(h))
        h = F.relu(self.fc2(h))
        h = self.fc3(h)
        return h.squeeze(1)

5.2 RNN

我选用的pytorch自带的LSTM作为RNN层，双层RNN，隐层维度为200，双向结构，代码如下：

self.rnn = nn.LSTM(
            input_size=cfg.embedding_dim,
            hidden_size=cfg.hidden_size,
            num_layers=cfg.num_layers,
            dropout=cfg.dropout,
            bidirectional=True,
            batch_first=True,
        )

以及全连接层双隐层，神经元数分别为500、300，代码如下：

self.fc1 = nn.Linear(cfg.hidden_size * 2, 500)
self.fc2 = nn.Linear(500, 300)
self.out = nn.Linear(300, 1)

5.3 myRNN

自己实现的RNN较为简单，每次输入一句话，将一句话的每个单词放入RNN中更新参数，核心代码如下：

for t in range(self.seq_len):
   tmp = torch.cat((e[:, t, :], pre_state), 1)
   a[:, t, :] = self.in2hidden(tmp)
   h = self.tanh(a[:, t, :])
   pre_state = h
   pre_y[:, t, :] = h

后面紧跟一个MLP，结构代码如下：

self.mlp = nn.Sequential(
            nn.Linear(cfg.hidden_size, cfg.hidden_size * 2),
            nn.Dropout(cfg.dropout),
            nn.ReLU(),
            nn.Linear(cfg.hidden_size * 2, 1),
        )

5.4 CNN

CNN较为特殊，我采用的是pytorch中的nn.Conv2d函数，这样会从单词方向和embeding两个方向进行卷积，但其实embeding方向的卷积是没有意义的，后来得知pytorch中竟然已经提供了nn.Conv1d函数，但是效果对比并没有明显差别，因此没有进行修改。

CNN模型包括三个卷积层，每层包含128个卷积核，高度分别为3,4,5，全连接层单层隐层，神经元个数为500，采用max_pool1d即可。代码较长，不做展示，详见models.py中的CNN类。

5.5 加载Glove

为了在embeding是加入GLove，需要自己写load_glove函数，然后再调用embeding层时作为weight调用，生成weight矩阵代码如下：

def create_weight_matrix(vocab, glove):

    weights_matrix = np.zeros((len(vocab), 300))
    for key in vocab.keys():
        if key in glove.keys():
            weights_matrix[vocab[key]] = glove[key]
        else:
            # weights_matrix[vocab[key]] = np.random.normal(scale=0.6, size=300)
            weights_matrix[vocab[key]] = np.ones(300)

    weights_matrix = torch.from_numpy(weights_matrix)
    return weights_matrix

对于vocab中不存在的单词，统一用300维的全1矩阵代替。（注释掉的代码是用随机生成300维矩阵代替，实际效果没有差别）

在embeding时调用该矩阵方式如下：

self.embed = nn.Embedding(cfg.vocab_size, cfg.embedding_dim)
if glove is not None:
     self.weight_matrix = create_weight_matrix(self.vocab, self.glove)
     self.embed.load_state_dict({'weight': self.weight_matrix})

6 模型训练

###6.1 数据加载

我采用pytorch自带的Dataloader进行数据加载，首先需要自己构建一个继承torch.utils.data.Dataset的类

class MotionDataset(torch.utils.data.Dataset):

需要写明每个数据的大小

def __len__(self):
    return len(self.sentence)

并写清如何提取数据

def __getitem__(self, index):
    return self.sentence[index][0], self.sentence[index][1]

完整代码在dataset.py中，封装好后在main.py中调用，得到train_loader和test_loader，代码如下：

from dataset import MotionDataset

train_loader = torch.utils.data.DataLoader(
        MotionDataset(train_set),
        batch_size=cfg.batch_size,
        shuffle=True,
    )
    test_loader = torch.utils.data.DataLoader(
        MotionDataset(test_set),
        batch_size=cfg.batch_size,
        shuffle=False,
    )

6.2 选择模型

在load数据后要加载模型，并将模型放到GPU上，代码如下：

if cfg.model == 'MLP':
    model = MLP(cfg, vocab, glove).train().to(cfg.device)
elif cfg.model == 'RNN':
    model = RNN(cfg, vocab, glove).train().to(cfg.device)
elif cfg.model == 'myRNN':
    model = myRNN(cfg, vocab, glove).train().to(cfg.device)
elif cfg.model == 'CNN':
    model = CNN(cfg, vocab, glove).train().to(cfg.device)

6.3 激活函数

选用Adam作为激活函数，代码如下：

optimizer = optim.Adam(model.parameters(), lr=cfg.learn_rate)

6.4 训练

首先将数据放到GPU上，再将数据送入模型，进一步计算loss，采用binary_cross_entropy_with_logits作为loss函数，该函数在二分类中表现优秀，且内置了sigmoid函数，因此在模型中不需要额外添加sigmoid层，剩下的就是神经网络的八股文，代码如下：

data, label = data.to(cfg.device), label.to(cfg.device)
logits = model(data)
loss = F.binary_cross_entropy_with_logits(
    input=logits,
    target=label.double(),
    reduction='mean',
)
model.zero_grad()
loss.backward()
optimizer.step()

该部分还有很多额外的代码并没有解释，均为计算准确率，查看模型效果的辅助代码，详情可查看tqdm、tensorboard、sklearn.metrics文档查看详细的使用方法。

6.5 测试

测试部分代码与训练代码大同小异，不再赘述。

7 试验结果

实验结果并不好，MLP训练1000轮，CNN训练100轮，RNN训练20轮，总体准确率在73%~75%之间

###7.1 precision、recall、F1

MLP的各项数据如下；

CNN各项数据如下：

RNN各项数据如下：

myRNN各项数据如下：

7.2 对比试验

所有的结果均保存在runs文件夹里，运行tensorboard即可查看

完整代码

在我的github上，欢迎fork。
当然，如果你想省去下载配置等麻烦，可以直接下载压缩包

你可能感兴趣的:(pytorch,神经网络,python,深度学习)

系统学习Python——并发模型和异步编程：进程、线程和GIL
分类目录：《系统学习Python》总目录在文章《并发模型和异步编程：基础知识》我们简单介绍了Python中的进程、线程和协程。本文就着重介绍Python中的进程、线程和GIL的关系。Python解释器的每个实例都是一个进程。使用multiprocessing或concurrent.futures库可以启动额外的Python进程。Python的subprocess库用于启动运行外部程序（不管使用何种
Flask框架入门：快速搭建轻量级Python网页应用「已注销」 python-AI python基础网站网络 python flask 后端
转载：Flask框架入门：快速搭建轻量级Python网页应用1.Flask基础Flask是一个使用Python编写的轻量级Web应用框架。它的设计目标是让Web开发变得快速简单，同时保持应用的灵活性。Flask依赖于两个外部库：Werkzeug和Jinja2，Werkzeug作为WSGI工具包处理Web服务的底层细节，Jinja2作为模板引擎渲染模板。安装Flask非常简单，可以使用pip安装命令
Python Flask 框架入门：快速搭建 Web 应用的秘诀 Python编程之道 Python人工智能与大数据 Python编程之道 python flask 前端 ai
PythonFlask框架入门：快速搭建Web应用的秘诀关键词Flask、微框架、路由系统、Jinja2模板、请求处理、WSGI、Web开发摘要想快速用Python搭建一个灵活的Web应用？Flask作为“微框架”代表，凭借轻量、可扩展的特性，成为初学者和小型项目的首选。本文将从Flask的核心概念出发，结合生活化比喻、代码示例和实战案例，带你一步步掌握：如何用Flask搭建第一个Web应用？路由
python_虚拟环境阿_焦 python
第一、配置虚拟环境：virtualenv（1）pipvirtualenv>安装虚拟环境包（2）pipinstallvirtualenvwrapper-win>安装虚拟环境依赖包（3）c盘创建虚拟目录>C:\virtualenv>配置环境变量【了解一下】：（1）如何使用virtualenv创建虚拟环境a、cd到C:\virtualenv目录下：b、mkvirtualenvname>创建虚拟环境nam
PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
Python爱心光波
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
Python流星雨 Want595 python 开发语言
文章目录系列文章写在前面技术需求完整代码代码分析1.模块导入2.画布设置3.画笔设置4.颜色列表5.流星类(Star)6.流星对象创建7.主循环8.流星运动逻辑9.视觉效果10.总结写在后面系列文章序号直达链接表白系列1Python制作一个无法拒绝的表白界面2Python满屏飘字表白代码3Python无限弹窗满屏表白代码4Python李峋同款可写字版跳动的爱心5Python流星雨代码6Python
Python之七彩花朵代码实现 PlutoZuo Python python 开发语言
Python之七彩花朵代码实现文章目录Python之七彩花朵代码实现下面是一个简单的使用Python的七彩花朵。这个示例只是一个简单的版本，没有很多高级功能，但它可以作为一个起点，你可以在此基础上添加更多功能。importturtleastuimportrandomasraimportmathtu.setup(1.0,1.0)t=tu.Pen()t.ht()colors=['red','skybl
Python 脚本最佳实践2025版
前文可以直接把这篇文章喂给AI,可以放到AI角色设定里,也可以直接作为提示词.这样,你只管提需求,写脚本就让AI来.概述追求简洁和清晰：脚本应简单明了。使用函数(functions)、常量(constants)和适当的导入(import)实践来有逻辑地组织你的Python脚本。使用枚举(enumerations)和数据类(dataclasses)等数据结构高效管理脚本状态。通过命令行参数增强交互性
（Python基础篇）了解和使用分支结构 EternityArt 基础篇 python
目录一、引言二、Python分支结构的类型与语法（一）if语句（单分支）（二）if-else语句（双分支）（三）if-elif-else语句（多分支）三、分支结构的应用场景（一）提示用户输入用户名，然后再提示输入密码，如果用户名是“admin”并且密码是“88888”则提示正确，否则，如果用户名不是admin还提示用户用户名不存在,（二）提示用户输入用户名，然后再提示输入密码，如果用户名是“adm
（Python基础篇）循环结构 EternityArt 基础篇 python
一、什么是Python循环结构？循环结构是编程中重复执行代码块的机制。在Python中，循环允许你：1.迭代处理数据：遍历列表、字典、文件内容等。2.自动化重复任务：如批量处理数据、生成序列等。3.控制执行流程：根据条件决定是否继续或终止循环。二、为什么需要循环结构？假设你需要打印1到100的所有偶数：没有循环：需手动编写100行print()语句。print(0)print(2)print(4)
（Python基础篇）字典的操作 EternityArt 基础篇 python 开发语言
一、引言在Python编程中，字典（Dictionary）是一种极具灵活性的数据结构，它通过“键-值对”（key-valuepair）的形式存储数据，如同现实生活中的字典——通过“词语（键）”快速查找“释义（值）”。相较于列表和元组的有序索引访问，字典的优势在于基于键的快速查找，这使得它在处理需要频繁通过唯一标识获取数据的场景中极为高效。掌握字典的操作，能让我们更高效地组织和管理复杂数据，是Pyt
Python七彩花朵 Want595 python 开发语言
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
用OpenCV标定相机内参应用示例（C++和Python）
下面是一个完整的使用OpenCV进行相机内参标定（CameraCalibration）的示例，包括C++和Python两个版本，基于棋盘格图案标定。一、目标：相机标定通过拍摄多张带有棋盘格图案的图像，估计相机的内参：相机矩阵（内参）K畸变系数distCoeffs可选外参（R,T）标定精度指标（如重投影误差）二、棋盘格参数设置（根据自己的棋盘格设置）：棋盘格角点数：9x6（内角点，9列×6行）；每个
Anaconda 详细下载与安装教程
Anaconda详细下载与安装教程1.简介Anaconda是一个用于科学计算的开源发行版，包含了Python和R的众多常用库。它还包括了conda包管理器，可以方便地安装、更新和管理各种软件包。2.下载Anaconda2.1访问官方网站首先，打开浏览器，访问Anaconda官方网站。2.2选择适合的版本在页面中，你会看到两个主要的下载选项：AnacondaIndividualEdition：适用于
python中 @注解及内置注解的使用方法总结以及完整示例慧一居士 Python python
在Python中，装饰器（Decorator）使用@符号实现，是一种修改函数/类行为的语法糖。它本质上是一个高阶函数，接受目标函数作为参数并返回包装后的函数。Python也提供了多个内置装饰器，如@property、@staticmethod、@classmethod等。一、核心概念装饰器本质：@decorator等价于func=decorator(func)执行时机：在函数/类定义时立即执行装饰
Python中的静态方法和类方法详解
在Python中，`@staticmethod`和`@classmethod`是两种装饰器，它们用于定义类中的方法，但是它们的行为和用途有所不同。###@staticmethod`@staticmethod`装饰器用于定义一个静态方法。静态方法不接收类或实例的引用作为第一个参数，因此它不能访问类的状态或实例的状态。静态方法可以看作是与类关联的普通函数，但它们可以通过类名直接调用。classMath
Python中类静态方法：@classmethod/@staticmethod详解和实战示例
在Python中，类方法(@classmethod)和静态方法(@staticmethod)是类作用域下的两种特殊方法。它们使用装饰器定义，并且与实例方法(deffunc(self))的行为有所不同。1.三种方法的对比概览方法类型是否访问实例(self)是否访问类(cls)典型用途实例方法✅是❌否访问对象属性类方法@classmethod❌否✅是创建类的替代构造器，访问类变量等静态方法@stati
Python多版本管理与pip升级全攻略：解决冲突与高效实践码界奇点 Python python pip 开发语言 python3.11 源代码管理虚拟现实依赖倒置原则
引言Python作为最流行的编程语言之一，其版本迭代速度与生态碎片化给开发者带来了巨大挑战。据统计，超过60%的Python开发者需要同时维护基于Python3.6+和Python2.7的项目。本文将系统解决以下核心痛点：如何安全地在同一台机器上管理多个Python版本pip依赖冲突的根治方案符合PEP标准的生产环境最佳实践第一部分：Python多版本管理核心方案1.1系统级多版本共存方案Wind
基于Python的健身数据分析工具的搭建流程day1 weixin_45677320 python 开发语言数据挖掘爬虫
基于Python的健身数据分析工具的搭建流程分数据挖掘、数据存储和数据分析三个步骤。本文主要介绍利用Python实现健身数据分析工具的数据挖掘部分。第一步：加载库加载本文需要的库，如下代码所示。若库未安装，请按照python如何安装各种库（保姆级教程）_python安装库-CSDN博客https://blog.csdn.net/aobulaien001/article/details/133298
seaborn又一个扩展heatmapz qq_21478261 #Python可视化 matplotlib
推荐阅读：Pythonmatplotlib保姆级教程嫌Matplotlib繁琐？试试Seaborn！
NGS测序基础梳理01-文库构建（Library Preparation） qq_21478261 #生物信息生物学
本文介绍Illumina测序平台文库构建（LibraryPreparation）步骤，文库结构。写作时间：2020.05。推荐阅读：10W字《Python可视化教程1.0》来了！一份由公众号「pythonic生物人」精心制作的PythonMatplotlib可视化系统教程，105页PDFhttps://mp.weixin.qq.com/s/QaSmucuVsS_DR-klfpE3-Q10W字《Rg
Python 常用内置函数详解（七）：dir()函数——获取当前本地作用域中的名称列表或对象的有效属性列表
目录一、功能二、语法和示例一、功能dir()函数获取当前本地作用域中的名称列表或对象的有效属性列表。二、语法和示例dir()函数有两种形式，如果没有实参，则返回当前本地作用域中的名称列表。如果有实参，它会尝试返回该对象的有效属性列表。如果对象有一个名为__dir__()的方法，那么该方法将被调用，并且必须返回一个属性列表。dir()函数的语法格式如下：C:\Users\amoxiang>ipyth
pythonjson中list操作_Python json.dumps 特殊数据类型的自定义序列化操作
场景描述：Python标准库中的json模块，集成了将数据序列化处理的功能；在使用json.dumps()方法序列化数据时候，如果目标数据中存在datetime数据类型，执行操作时，会抛出异常：TypeError:datetime.datetime(2016,12,10,11,04,21)isnotJSONserializable那么遇到json.dumps序列化不支持的数据类型，该怎么办！首先，
Python 日期格式转json.dumps的解决方法 douyaoxin python json 开发语言
classDateEncoder(json.JSONEncoder):defdefault(self,obj):ifisinstance(obj,datetime.datetime):returnobj.strftime('%Y-%m-%d%H:%M:%S')elifisinstance(obj,datetime.date):returnobj.strftime("%Y-%m-%d")json.d
Python 爬虫实战：视频平台播放量实时监控（含反爬对抗与数据趋势预测）西攻城狮北 python 爬虫音视频
一、引言在数字内容蓬勃发展的当下，视频平台的播放量数据已成为内容创作者、营销人员以及行业分析师手中极为关键的情报资源。它不仅能够实时反映内容的受欢迎程度，更能在竞争分析、营销策略制定以及内容优化等方面发挥不可估量的作用。然而，视频平台为了保护自身数据和用户隐私，往往会设置一系列反爬虫机制，对数据爬取行为进行限制。这就向我们发起了挑战：如何巧妙地突破这些限制，同时精准地捕捉并预测播放量的动态变化趋势
Python技能手册 - 模块module 金色牛神 Python python windows 开发语言
系列Python常用技能手册-基础语法Python常用技能手册-模块modulePython常用技能手册-包package目录module模块指什么typing数据类型int整数float浮点数str字符串bool布尔值TypeVar类型变量functools高阶函数工具functools.partial()函数偏置functools.lru_cache()函数缓存sorted排序列表排序元组排序
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
Ubuntu基础（Python虚拟环境和Vue） aaiier ubuntu python linux
Python虚拟环境sudoaptinstallpython3python3-venv进入项目目录cdXXX创建虚拟环境python3-mvenvvenv激活虚拟环境sourcevenv/bin/activate退出虚拟环境deactivateVue安装Node.js和npm#安装Node.js和npm（Ubuntu默认仓库可能版本较旧，适合入门）sudoaptinstallnodejsnpm#验
苦练Python第9天：if-else分支九剑 python后端前端人工智能
苦练Python第9天：if-else分支九剑前言大家好，我是倔强青铜三。是一名热情的软件工程师，我热衷于分享和传播IT技术，致力于通过我的知识和技能推动技术交流与创新，欢迎关注我，微信公众号：倔强青铜三。欢迎点赞、收藏、关注，一键三连！！！欢迎来到100天Python挑战第9天！今天我们不练循环，改磨“分支剑法”——ifelse三式：单分支、双分支、多分支，以及嵌套和三元运算符，全部实战演练，让
Js函数返回值 _wy_ js return
一、返回控制与函数结果，语法为：return 表达式;作用: 结束函数执行，返回调用函数，而且把表达式的值作为函数的结果二、返回控制语法为：return;作用: 结束函数执行，返回调用函数，而且把undefined作为函数的结果在大多数情况下,为事件处理函数返回false,可以防止默认的事件行为.例如,默认情况下点击一个<a>元素,页面会跳转到该元素href属性
MySQL 的 char 与 varchar bylijinnan mysql
今天发现，create table 时，MySQL 4.1有时会把 char 自动转换成 varchar 测试举例： CREATE TABLE `varcharLessThan4` ( `lastName` varchar(3) ) ; mysql> desc varcharLessThan4; +----------+---------+------+-
Quartz——TriggerListener和JobListener eksliang TriggerListener JobListener quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208624 一.概述 listener是一个监听器对象，用于监听scheduler中发生的事件，然后执行相应的操作；你可能已经猜到了，TriggerListeners接受与trigger相关的事件，JobListeners接受与jobs相关的事件。二.JobListener监听器 j
oracle层次查询 18289753290 oracle；层次查询；树查询
.oracle层次查询(connect by) oracle的emp表中包含了一列mgr指出谁是雇员的经理，由于经理也是雇员，所以经理的信息也存储在emp表中。这样emp表就是一个自引用表，表中的mgr列是一个自引用列，它指向emp表中的empno列，mgr表示一个员工的管理者， select empno,mgr,ename,sal from e
通过反射把map中的属性赋值到实体类bean对象中酷的飞上天空 javaee 泛型类型转换
使用过struts2后感觉最方便的就是这个框架能自动把表单的参数赋值到action里面的对象中但现在主要使用Spring框架的MVC，虽然也有@ModelAttribute可以使用但是明显感觉不方便。好吧，那就自己再造一个轮子吧。原理都知道，就是利用反射进行字段的赋值，下面贴代码主要类如下： import java.lang.reflect.Field; imp
SAP HANA数据存储：传统硬盘的瓶颈问题蓝儿唯美 HANA
SAPHANA平台有各种各样的应用场景，这也意味着客户的实施方法有许多种选择，关键是如何挑选最适合他们需求的实施方案。在《Implementing SAP HANA》这本书中，介绍了SAP平台在现实场景中的运作原理，并给出了实施建议和成功案例供参考。本系列文章节选自《Implementing SAP HANA》，介绍了行存储和列存储的各自特点，以及SAP HANA的数据存储方式如何提升空间压
Java Socket 多线程实现文件传输随便小屋 java socket
高级操作系统作业，让用Socket实现文件传输，有些代码也是在网上找的，写的不好，如果大家能用就用上。客户端类： package edu.logic.client; import java.io.BufferedInputStream; import java.io.Buffered
java初学者路径 aijuans java
学习Java有没有什么捷径?要想学好Java，首先要知道Java的大致分类。自从Sun推出Java以来，就力图使之无所不包，所以Java发展到现在，按应用来分主要分为三大块：J2SE,J2ME和J2EE,这也就是Sun ONE(Open Net Environment)体系。J2SE就是Java2的标准版，主要用于桌面应用软件的编程；J2ME主要应用于嵌入是系统开发，如手机和PDA的编程；J2EE
APP推广 aoyouzi APP 推广
一，免费篇 1，APP推荐类网站自主推荐最美应用、酷安网、DEMO8、木蚂蚁发现频道等,如果产品独特新颖，还能获取最美应用的评测推荐。PS：推荐简单。只要产品有趣好玩，用户会自主分享传播。例如足迹APP在最美应用推荐一次，几天用户暴增将服务器击垮。 2，各大应用商店首发合作老实盯着排期，多给应用市场官方负责人献殷勤。 3，论坛贴吧推广百度知道，百度贴吧，猫扑论坛，天涯社区，豆瓣（
JSP转发与重定向百合不是茶 jsp servlet Java Web jsp转发
在servlet和jsp中我们经常需要请求,这时就需要用到转发和重定向; 转发包括;forward和include 例子;forwrad转发; 将请求装法给reg.html页面关键代码; req.getRequestDispatcher("reg.html
web.xml之jsp-config bijian1013 java web.xml servlet jsp-config
1.作用：主要用于设定JSP页面的相关配置。 2.常见定义： <jsp-config> <taglib> <taglib-uri>URI(定义TLD文件的URI,JSP页面的tablib命令可以经由此URI获取到TLD文件)</tablib-uri> <taglib-location> TLD文件所在的位置
JSF2.2 ViewScoped Using CDI sunjing CDI JSF 2.2 ViewScoped
JSF 2.0 introduced annotation @ViewScoped; A bean annotated with this scope maintained its state as long as the user stays on the same view(reloads or navigation - no intervening views). One problem w
【分布式数据一致性二】Zookeeper数据读写一致性 bit1129 zookeeper
很多文档说Zookeeper是强一致性保证，事实不然。关于一致性模型请参考http://bit1129.iteye.com/blog/2155336 Zookeeper的数据同步协议 Zookeeper采用称为Quorum Based Protocol的数据同步协议。假如Zookeeper集群有N台Zookeeper服务器(N通常取奇数，3台能够满足数据可靠性同时
Java开发笔记白糖_ java开发
1、Map<key,value>的remove方法只能识别相同类型的key值 Map<Integer,String> map = new HashMap<Integer,String>(); map.put(1,"a"); map.put(2,"b"); map.put(3,"c"
图片黑色阴影 bozch 图片
.event{ padding:0; width:460px; min-width: 460px; border:0px solid #e4e4e4; height: 350px; min-heig
编程之美-饮料供货-动态规划 bylijinnan 动态规划
import java.util.Arrays; import java.util.Random; public class BeverageSupply { /** * 编程之美饮料供货 * 设Opt（V’，i）表示从i到n-1种饮料中，总容量为V’的方案中，满意度之和的最大值。 * 那么递归式就应该是：Opt（V’，i）=max{ k * Hi+Op
ajax大参数（大数据）提交性能分析 chenbowen00 Web Ajax 框架浏览器 prototype
近期在项目中发现如下一个问题项目中有个提交现场事件的功能，该功能主要是在web客户端保存现场数据（主要有截屏，终端日志等信息）然后提交到服务器上方便我们分析定位问题。客户在使用该功能的过程中反应点击提交后反应很慢，大概要等10到20秒的时间浏览器才能操作，期间页面不响应事件。根据客户描述分析了下的代码流程，很简单，主要通过OCX控件截屏，在将前端的日志等文件使用OCX控件打包，在将之转换为
[宇宙与天文]在太空采矿,在太空建造 comsci
我们在太空进行工业活动...但是不太可能把太空工业产品又运回到地面上进行加工,而一般是在哪里开采,就在哪里加工,太空的微重力环境,可能会使我们的工业产品的制造尺度非常巨大.... 地球上制造的最大工业机器是超级油轮和航空母舰,再大些就会遇到困难了,但是在空间船坞中,制造的最大工业机器,可能就没
ORACLE中CONSTRAINT的四对属性 daizj oracle CONSTRAINT
ORACLE中CONSTRAINT的四对属性 summary:在data migrate时,某些表的约束总是困扰着我们,让我们的migratet举步维艰,如何利用约束本身的属性来处理这些问题呢?本文详细介绍了约束的四对属性: Deferrable/not deferrable, Deferred/immediate, enalbe/disable, validate/novalidate,以及如
Gradle入门教程 dengkane gradle
一、寻找gradle的历程一开始的时候，我们只有一个工程，所有要用到的jar包都放到工程目录下面，时间长了，工程越来越大，使用到的jar包也越来越多，难以理解jar之间的依赖关系。再后来我们把旧的工程拆分到不同的工程里，靠ide来管理工程之间的依赖关系，各工程下的jar包依赖是杂乱的。一段时间后，我们发现用ide来管理项程很不方便，比如不方便脱离ide自动构建，于是我们写自己的ant脚本。再后
C语言简单循环示例 dcj3sjt126com c
# include <stdio.h> int main(void) { int i; int count = 0; int sum = 0; float avg; for (i=1; i<=100; i++) { if (i%2==0) { count++; sum += i; } } avg
presentModalViewController 的动画效果 dcj3sjt126com controller
系统自带(四种效果)： presentModalViewController模态的动画效果设置： [cpp] view plain copy UIViewController *detailViewController = [[UIViewController al
java 二分查找 shuizhaosi888 二分查找 java二分查找
需求：在排好顺序的一串数字中，找到数字T 一般解法：从左到右扫描数据，其运行花费线性时间O(N)。然而这个算法并没有用到该表已经排序的事实。 /** * * @param array * 顺序数组 * @param t * 要查找对象 * @return */ public stati
Spring Security（07）——缓存UserDetails 234390216 ehcache 缓存 Spring Security
Spring Security提供了一个实现了可以缓存UserDetails的UserDetailsService实现类，CachingUserDetailsService。该类的构造接收一个用于真正加载UserDetails的UserDetailsService实现类。当需要加载UserDetails时，其首先会从缓存中获取，如果缓存中没
Dozer 深层次复制 jayluns VO maven po
最近在做项目上遇到了一些小问题，因为架构在做设计的时候web前段展示用到了vo层，而在后台进行与数据库层操作的时候用到的是Po层。这样在业务层返回vo到控制层，每一次都需要从po-->转化到vo层，用到BeanUtils.copyProperties(source, target)只能复制简单的属性，因为实体类都配置了hibernate那些关联关系，所以它满足不了现在的需求，但后发现还有个很
CSS规范整理（摘自懒人图库） a409435341 html UI css 浏览器
刚没事闲着在网上瞎逛，找了一篇CSS规范整理，粗略看了一下后还蛮有一定的道理，并自问是否有这样的规范，这也是初入前端开发的人一个很好的规范吧。一、文件规范 1、文件均归档至约定的目录中。具体要求通过豆瓣的CSS规范进行讲解：所有的CSS分为两大类：通用类和业务类。通用的CSS文件，放在如下目录中：基本样式库 /css/core
C++动态链接库创建与使用你不认识的休道人 C++dll
一、创建动态链接库 1.新建工程test中选择”MFC [dll]”dll类型选择第二项"Regular DLL With MFC shared linked"，完成 2.在test.h中添加 extern “C” 返回类型 _declspec(dllexport)函数名(参数列表); 3.在test.cpp中最后写 extern “C” 返回类型 _decls
Android代码混淆之ProGuard rensanning ProGuard
Android应用的Java代码，通过反编译apk文件（dex2jar、apktool）很容易得到源代码，所以在release版本的apk中一定要混淆一下一些关键的Java源码。 ProGuard是一个开源的Java代码混淆器（obfuscation）。ADT r8开始它被默认集成到了Android SDK中。官网： http://proguard.sourceforge.net/
程序员在编程中遇到的奇葩弱智问题 tomcat_oracle jquery 编程 ide
　　现在收集一下：　　排名不分先后，按照发言顺序来的。 1、Jquery插件一个通用函数一直报错，尤其是很明显是存在的函数，很有可能就是你没有引入jquery。。。或者版本不对 2、调试半天没变化：不在同一个文件中调试。这个很可怕，我们很多时候会备份好几个项目，改完发现改错了。有个群友说的好：在汤匙
解决maven-dependency-plugin (goals "copy-dependencies","unpack") is not supported xp9802 dependency
解决办法：在plugins之前添加如下pluginManagement，二者前后顺序如下： [html] view plain copy <build> <pluginManagement