hangguns

pytorch从头开始进行文本分类

前言

最近在做实体抽取的时候，一篇文章大约有几千字，按照300字长度进行切割后，会生成数量不等的句子，若是句子少还行，句子多的情况下，则会对造成巨大的计算负担，因为一篇文章中存在关键词的段落是比较少的，为了减轻计算负担，让实体抽取模型仅对有实体的段落进行预测是最佳的选择。首先我是思考了前后各2个段落的方式进行句子筛选，然而偏偏有文章实体是出现在文章中间的，因此不得不考虑对段落进行筛选，采用关键词匹配的方式进行筛选通常都会产生多余的句子，还是无法解决计算负担的问题，因此采用模型的方式进行是最佳的。
文本分类的模型选择有很多，可以采用BERT系列的模型，用专门对于文本分类进行微调后的BERT模型固然可以达到一个比较好的精度，然而却也是增加了计算负担。好在对于实体是否存在这个判断仅仅是粗判断，因此采用CNN也是可以完成任务的，这才有了这篇文章的出现。由于我之前都是用keras进行模型的训练与部署，最近转用torch训练模型，转onnx进行部署的方式，并且明年torch2可能出现，并大幅提升训练与部署速度，因此记录一下基于torch的文本分类模型

词典与字典

若是用词作为最小单位，则生成的是词典。若是用字作为最小单位，则生成的是字典。对于中文来说，字典的性能与词典类似，并且词向量空间小，是个比较好的选择，但是通常预训练好的向量如word2vec均为词向量，因此有预训练向量的情况下，词向量也是不错的选择。首先对训练文本生成字典，字典的主要作用是将字映射成数字

import json
import re
import glob
import torch
import numpy as np
np.random.seed(42)
from collections import Counter
from torch.utils.data import Dataset, DataLoader
from torch import nn

def get_vocab():
    counter = Counter()
    with open(r'D:\open_data\ner\bid_data\labeled_data_for_mrc/labeled_data_for_mrc.jsonl', 'r', encoding='utf8') as f:
        for i, line in enumerate(f):
            if i == 1000:
                break
            line = json.loads(line)
            text = re.sub('\s+', '', line['text'])
            counter.update(text)

    updated_files = glob.glob(r'D:\open_data\ner\bid_data\labeled_data_for_mrc/updated*')
    for file in updated_files:
        with open(file, 'r', encoding='utf8') as f:
            for i, line in enumerate(f):
                line = json.loads(line)
                text = re.sub('\s+', '', line['text'])
                counter.update(text)
    vocabs = list(zip(*counter.most_common()))[0]
    with open('vocab.txt', 'w', encoding='utf8') as f:
        f.write('[PAD]\n')
        f.write('[UNK]\n')
        f.write('\n'.join(vocabs))
get_vocab()

由于我的文本比较多，因此看起来比较复杂，其实最主要的内容就是将文本都更新到Counter中，然后再按照最常见的顺序写到文件中，0号位置放置用于填充的词，1号位置放置未曾出现在词表的，这种顺序将常见的字在空间中聚集起来，私以为对模型学习有所帮助。得到vocab之后，就是获取vocab与id之间的映射关系了：

def load_vocab(vocab_file):
    vocab = open(vocab_file, encoding='utf8').read().splitlines()
    vocab2id = {x:i for i,x in enumerate(vocab)}
    return vocab2id

vocab2id = load_vocab('vocab.txt')

接着就是加载数据了，我将数据处理成列表，每一个元素为(文本,是否存在实体)

def exists(obj):
    """目标是否存在"""
    if obj:
        return True
    else:
        return False

def load_data():
    """加载数据"""
    out = []
    with open(r'D:\open_data\ner\bid_data\labeled_data_for_mrc/labeled_data_for_mrc.jsonl', 'r', encoding='utf8') as f:
        for i, line in enumerate(f):
            if i == 1000:
                break
            line = json.loads(line)
            text = re.sub('\s+', '', line['text'])
            out.append([text, int(exists(line['labels']))])

    updated_files = glob.glob(r'D:\open_data\ner\bid_data\labeled_data_for_mrc/updated*')
    for file in updated_files:
        with open(file, 'r', encoding='utf8') as f:
            for i, line in enumerate(f):
                line = json.loads(line)
                text = re.sub('\s+', '', line['text'])
                out.append([text, int(exists(line['label']))])

    print(f"total samples: {len(out)} has labels: {sum(list(zip(*out))[1])}")
    return out


def split_data(data):
    """切分数据集"""
    np.random.shuffle(data)
    length = len(data)
    train_data, valid_data, test_data = data[:int(length * 0.8)], data[int(length * 0.8):int(length * 0.9)], data[int(length * 0.9):]
    return train_data, valid_data, test_data


data = load_data()
train_data, valid_data, test_data = split_data(data)

#total samples: 1122 has labels: 492

我的数据一共包含1122条数据，其中有标签的有492条。接着采用torch的Dataset与DateLoader构建数据生成类，首先定义了tokenize函数，将文本映射成数字向量，定义了padding函数sequence_padding，collate_fn用于将单条数据合并成一个batch:

def tokenize(text):
    """将文本映射成数字向量"""
    return [vocab2id[x] if x in vocab2id else vocab2id[1] for x in text]

def sequence_padding(inputs, length=None, value=0, seq_dims=1, mode='post'):
    """Numpy函数，将序列padding到同一长度
    """
    if length is None:
        length = np.max([np.shape(x)[:seq_dims] for x in inputs], axis=0)
    elif not hasattr(length, '__getitem__'):
        length = [length]

    slices = [np.s_[:length[i]] for i in range(seq_dims)]
    slices = tuple(slices) if len(slices) > 1 else slices[0]
    pad_width = [(0, 0) for _ in np.shape(inputs[0])]

    outputs = []
    for x in inputs:
        x = x[slices]
        for i in range(seq_dims):
            if mode == 'post':
                pad_width[i] = (0, length[i] - np.shape(x)[i])
            elif mode == 'pre':
                pad_width[i] = (length[i] - np.shape(x)[i], 0)
            else:
                raise ValueError('"mode" argument must be "post" or "pre".')
        x = np.pad(x, pad_width, 'constant', constant_values=value)
        outputs.append(x)

    return np.array(outputs)

class BidDataset(Dataset):
    def __init__(self, data):
        super(BidDataset, self).__init__()
        self.data = data

    def __getitem__(self, index):
        d = self.data[index]  # 文本，是否存在标签
        input_ids = tokenize(d[0])
        labels = d[1]
        mask = [1] * len(input_ids)
        return input_ids, labels, mask

    def __len__(self):
        return len(self.data)


def collate_fn(batch):
    input_ids, labels, mask = list(zip(*batch))

    input_ids = torch.LongTensor(sequence_padding(input_ids))
    labels = torch.LongTensor(sequence_padding(labels))
    mask = torch.LongTensor(sequence_padding(mask))

    return input_ids, labels, mask

def get_dataloader(dataset):
    return DataLoader(dataset, batch_size=8, collate_fn=collate_fn)

train_dataset, valid_dataset, test_dataset = BidDataset(train_data), BidDataset(valid_data), BidDataset(test_data)
train_dataloader, valid_dataloader, test_dataloader = get_dataloader(train_dataset), get_dataloader(valid_dataset), get_dataloader(test_dataset)

数据处理完后，就可以定义模型了，模型我们采用DGCNN，其拥有较大的感知视野和较快的运行速度：

class ResidualGatedConv1D(nn.Module):
    def __init__(self, in_channels, out_channels, kernel_size, dilation_rate):
        super(ResidualGatedConv1D, self).__init__()
        self.out_channels = out_channels
        self.conv1d = nn.Conv1d(
            in_channels=in_channels,
            out_channels=out_channels * 2,
            kernel_size=kernel_size,
            dilation=dilation_rate,
            padding=dilation_rate
        )
        self.layernorm = nn.LayerNorm([out_channels])
        self.alpha = nn.Parameter(torch.zeros(1))

    def forward(self, x):
        x = x.transpose(2,1)
        outputs = self.conv1d(x)
        gate = torch.sigmoid(outputs[:, self.out_channels:])
        outputs = outputs[:, :self.out_channels] * gate
        outputs = self.layernorm(outputs.transpose(2,1))
        x = x.transpose(2,1) + self.alpha * outputs

        return x


class GlobalAveragePopl1D(nn.Module):
    """对某一维进行平均"""
    def __init__(self):
        super(GlobalAveragePopl1D, self).__init__()

    def forward(self, x):
        return torch.mean(x, dim=1)

class DGCNN(nn.Module):
    def __init__(self):
        super(DGCNN, self).__init__()
        self.dgcnn = nn.Sequential(
            nn.Embedding(len(vocab2id), 256, padding_idx=0),
            ResidualGatedConv1D(256, 256, 3, 1),
            nn.Dropout(0.1),
            ResidualGatedConv1D(256, 256, 3, 2),
            nn.Dropout(0.1),
            ResidualGatedConv1D(256, 256, 3, 4),
            nn.Dropout(0.1),
            ResidualGatedConv1D(256, 256, 3, 8),
            nn.Dropout(0.1),
            ResidualGatedConv1D(256, 256, 3, 1),
            nn.Dropout(0.1),
            ResidualGatedConv1D(256, 256, 3, 1),
            nn.Dropout(0.1),
            GlobalAveragePopl1D(),
            nn.Linear(256, 256),
            nn.Dropout(0.1),
            nn.Linear(256, 1),
            nn.Sigmoid()
        )

    def forward(self, x):
        return self.dgcnn(x)

定义好模型之后，就可以愉快的开始训练咯

def loss_fn(y_true, y_pred):
    loss = nn.BCELoss()(y_pred, y_true)
    return loss

def acc_metric(y_true, y_pred):
    y_pred = y_pred > 0.5
    correct = torch.sum(y_true == y_pred)
    return correct / y_true.shape[0]


def train():
    model = DGCNN()
    model.cuda()
    optimizer = torch.optim.AdamW(model.parameters(), lr=0.001, weight_decay=0.01)
    best_acc = 0
    for _ in range(40):
        model.train()
        total_loss = 0
        total_acc = 0
        pbar = tqdm(enumerate(train_dataloader, 1), desc='train')
        for batch_id, batch in pbar:
            input_ids, label, mask = batch
            input_ids, label = input_ids.cuda(), label.cuda()
            logits = model(input_ids)
            loss = loss_fn(y_true=label, y_pred=logits)
            acc = acc_metric(y_true=label, y_pred=logits)
            total_loss += loss.item()
            total_acc += acc.item()

            pbar.set_postfix(loss=total_loss / batch_id, acc=total_acc / batch_id)
            optimizer.zero_grad()
            loss.backward()
            optimizer.step()

        pbar = tqdm(enumerate(valid_dataloader, 1), desc='dev')
        model.eval()
        total_acc = 0
        for batch_id, batch in pbar:
            input_ids, label, mask = batch
            input_ids, label = input_ids.cuda(), label.cuda()
            with torch.no_grad():
                logits = model(input_ids)
            acc = acc_metric(y_true=label, y_pred=logits)
            total_acc += acc.item()
            pbar.set_postfix(acc=total_acc / batch_id)

        if total_acc / batch_id > best_acc:
            best_acc = total_acc / batch_id
            torch.save(model.state_dict(), 'best_model.pt')
            print(f'best model saved at epoch {_} with best acc {best_acc}')


def evaluate():
    model = DGCNN()
    model.load_state_dict(torch.load('best_model.pt'))
    model.cuda()
    pbar = tqdm(enumerate(train_dataloader, 1), desc='dev')
    model.eval()
    total_acc = 0
    for batch_id, batch in pbar:
        input_ids, label, mask = batch
        input_ids, label = input_ids.cuda(), label.cuda()
        with torch.no_grad():
            logits = model(input_ids)
        acc = acc_metric(y_true=label, y_pred=logits)
        total_acc += acc.item()
        pbar.set_postfix(acc=total_acc / batch_id)

if __name__ == '__main__':
    train()
    evaluate()

此模型的准确率不错，可以达到90%左右。

改进

然而此精度并不能满足实际使用需求，因此进行了一些改进：

将DGCNN换成textCNN，尝试了多种参数的变化，包括核数目，卷积滤波器数量，dropout大小等，最终发现dropout=0.1，filters=100,kernel_sizes=[3,4,5]效果最佳
采用线性递增递减的学习率策略，尝试了多种10，20，30，40等epochs数，最大学习率等，最终发现0.0005的最大学习率，10的epochs数最好

通过这些改进，将准确率提升到了92%，满足实际使用需求了，整体改进代码如下：

import json
import re
import glob
import torch
import numpy as np
import torch.nn.functional as F
np.random.seed(42)
from collections import Counter
from torch.utils.data import Dataset, DataLoader
from torch import nn
from tqdm import tqdm
from transformers import AdamW, get_polynomial_decay_schedule_with_warmup

torch.manual_seed(3407)
torch.cuda.manual_seed(3407)
torch.cuda.manual_seed_all(3407)
HIDDEN_SIZE = 300
EPOCHS = 10

def load_vocab(vocab_file):
    vocab = open(vocab_file, encoding='utf8').read().splitlines()
    vocab2id = {x:i for i,x in enumerate(vocab)}
    return vocab, vocab2id

vocab, vocab2id = load_vocab('vocab.txt')

def exists(obj):
    """目标是否存在"""
    if obj:
        return True
    else:
        return False

def load_data():
    """加载数据"""
    out = []
    # with open(r'D:\open_data\ner\bid_data\labeled_data_for_mrc/labeled_data_for_mrc.jsonl', 'r', encoding='utf8') as f:
    #     for i, line in enumerate(f):
    #         if i == 1000:
    #             break
    #         line = json.loads(line)
    #         text = re.sub('\s+', '', line['text'])
    #         out.append([text, int(exists(line['labels']))])
    #
    # updated_files = glob.glob(r'D:\open_data\ner\bid_data\labeled_data_for_mrc/updated*')
    # for file in updated_files:
    #     with open(file, 'r', encoding='utf8') as f:
    #         for i, line in enumerate(f):
    #             line = json.loads(line)
    #             text = re.sub('\s+', '', line['text'])
    #             out.append([text, int(exists(line['label']))])

    with open(r'D:\PekingInfoOtherSearch\bert-mrc-pytorch\predicted_labeled_data_for_mrc.jsonl', 'r', encoding='utf8') as f:
        for i, line in enumerate(f):
            line = json.loads(line)
            text = re.sub('\s+', '', line['text'])
            out.append([text, int(exists(line['labels']))])

    print(f"total samples: {len(out)} has labels: {sum(list(zip(*out))[1])}")
    return out


def split_data(data):
    """切分数据集"""
    np.random.shuffle(data)
    length = len(data)
    train_data, valid_data, test_data = data[:int(length * 0.8)], data[int(length * 0.8):int(length * 0.9)], data[int(length * 0.9):]
    return train_data, valid_data, test_data


data = load_data()
train_data, valid_data, test_data = split_data(data)


def tokenize(text):
    """将文本映射成数字向量"""
    return [vocab2id[x] if x in vocab2id else vocab2id['[UNK]'] for x in text]

def sequence_padding(inputs, length=None, value=0, seq_dims=1, mode='post'):
    """Numpy函数，将序列padding到同一长度
    """
    if length is None:
        length = np.max([np.shape(x)[:seq_dims] for x in inputs], axis=0)
    elif not hasattr(length, '__getitem__'):
        length = [length]

    slices = [np.s_[:length[i]] for i in range(seq_dims)]
    slices = tuple(slices) if len(slices) > 1 else slices[0]
    pad_width = [(0, 0) for _ in np.shape(inputs[0])]

    outputs = []
    for x in inputs:
        x = x[slices]
        for i in range(seq_dims):
            if mode == 'post':
                pad_width[i] = (0, length[i] - np.shape(x)[i])
            elif mode == 'pre':
                pad_width[i] = (length[i] - np.shape(x)[i], 0)
            else:
                raise ValueError('"mode" argument must be "post" or "pre".')
        x = np.pad(x, pad_width, 'constant', constant_values=value)
        outputs.append(x)

    return np.array(outputs)

class BidDataset(Dataset):
    def __init__(self, data):
        super(BidDataset, self).__init__()
        self.data = data

    def __getitem__(self, index):
        d = self.data[index]  # 文本，是否存在标签
        input_ids = tokenize(d[0])
        labels = [d[1]]
        mask = [1] * len(input_ids)
        return input_ids, labels, mask

    def __len__(self):
        return len(self.data)


def collate_fn(batch):
    input_ids, labels, mask = list(zip(*batch))

    input_ids = torch.LongTensor(sequence_padding(input_ids))
    labels = torch.FloatTensor(sequence_padding(labels))
    mask = torch.LongTensor(sequence_padding(mask))

    return input_ids, labels, mask

def get_dataloader(dataset):
    return DataLoader(dataset, batch_size=8, collate_fn=collate_fn)

train_dataset, valid_dataset, test_dataset = BidDataset(train_data), BidDataset(valid_data), BidDataset(test_data)
train_dataloader, valid_dataloader, test_dataloader = get_dataloader(train_dataset), get_dataloader(valid_dataset), get_dataloader(test_dataset)


class ResidualGatedConv1D(nn.Module):
    def __init__(self, in_channels, out_channels, kernel_size, dilation_rate):
        super(ResidualGatedConv1D, self).__init__()
        self.out_channels = out_channels
        self.conv1d = nn.Conv1d(
            in_channels=in_channels,
            out_channels=out_channels * 2,
            kernel_size=kernel_size,
            dilation=dilation_rate,
            padding=dilation_rate
        )
        self.layernorm = nn.LayerNorm([out_channels])
        self.alpha = nn.Parameter(torch.zeros(1))

    def forward(self, x):
        x = x.transpose(2,1)
        outputs = self.conv1d(x)
        gate = torch.sigmoid(outputs[:, self.out_channels:])
        outputs = outputs[:, :self.out_channels] * gate
        outputs = self.layernorm(outputs.transpose(2,1))
        x = x.transpose(2,1) + self.alpha * outputs

        return x


class GlobalAveragePopl1D(nn.Module):
    """对某一维进行平均"""
    def __init__(self):
        super(GlobalAveragePopl1D, self).__init__()

    def forward(self, x):
        return torch.mean(x, dim=1)

class Embedding(nn.Module):
    def __init__(self):
        super(Embedding, self).__init__()
        self.embed = nn.Embedding(len(vocab2id), HIDDEN_SIZE, padding_idx=0)
        # self.embed.weight.data.copy_(torch.tensor(embedding).float())

    def forward(self, x):
        return self.embed(x)

class DGCNN(nn.Module):
    def __init__(self):
        super(DGCNN, self).__init__()
        drop_rate = 0.1
        hidden_size = 300
        self.dgcnn = nn.Sequential(
            Embedding(),
            ResidualGatedConv1D(hidden_size, hidden_size, 3, 1),
            nn.Dropout(drop_rate),
            ResidualGatedConv1D(hidden_size, hidden_size, 3, 2),
            nn.Dropout(drop_rate),
            ResidualGatedConv1D(hidden_size, hidden_size, 3, 4),
            nn.Dropout(drop_rate),
            ResidualGatedConv1D(hidden_size, hidden_size, 3, 8),
            nn.Dropout(drop_rate),
            ResidualGatedConv1D(hidden_size, hidden_size, 3, 1),
            nn.Dropout(drop_rate),
            ResidualGatedConv1D(hidden_size, hidden_size, 3, 1),
            nn.Dropout(drop_rate),
            GlobalAveragePopl1D(),
            nn.Linear(hidden_size, hidden_size),
            nn.Dropout(drop_rate),
            nn.Linear(hidden_size, 1),
            nn.Sigmoid()
        )

    def forward(self, x):
        return self.dgcnn(x)


class textCNN(nn.Module):

    def __init__(self):
        super(textCNN, self).__init__()
        self.embed = Embedding()

        kernel_wins = [3,4,5]
        dim_channel = 100
        # Convolutional Layers with different window size kernels
        self.convs = nn.ModuleList([nn.Conv2d(1, dim_channel, (w, HIDDEN_SIZE)) for w in kernel_wins])
        # Dropout layer
        self.dropout = nn.Dropout(0.1)

        # FC layer
        self.fc = nn.Linear(len(kernel_wins) * dim_channel, 1)

    def forward(self, x):
        emb_x = self.embed(x)
        emb_x = emb_x.unsqueeze(1)

        con_x = [conv(emb_x) for conv in self.convs]

        pool_x = [F.max_pool1d(x.squeeze(-1), x.size()[2]) for x in con_x]

        fc_x = torch.cat(pool_x, dim=1)

        fc_x = fc_x.squeeze(-1)

        fc_x = self.dropout(fc_x)
        logit = torch.sigmoid(self.fc(fc_x))
        return logit

def loss_fn(y_true, y_pred):
    loss = nn.BCELoss()(y_pred, y_true)
    return loss

def acc_metric(y_true, y_pred):
    y_pred = (y_pred > 0.5).float()
    correct = torch.sum(y_true == y_pred)
    acc = correct / y_true.shape[0]
    recall = torch.sum(y_true * y_pred) / torch.sum(y_true).clamp(1e-9)
    precision = torch.sum(y_true * y_pred) / torch.sum(y_pred).clamp(1e-9)
    return acc, recall, precision


def build_optimizer_and_scheduler(model, warmup_proportion, total_steps):

    module = (model.module if hasattr(model, "module") else model)
    model_param = module.parameters()

    warmup_steps = int(warmup_proportion * total_steps)
    optimizer = AdamW(model_param, lr=0.0005, eps=1e-8)
    scheduler = get_polynomial_decay_schedule_with_warmup(optimizer=optimizer, num_warmup_steps=warmup_steps, num_training_steps=total_steps, lr_end=1e-5)
    return optimizer, scheduler


def train():
    model = textCNN()
    model.cuda()
    optimizer, scheduler = build_optimizer_and_scheduler(model, 0.1, len(train_dataloader)*EPOCHS)
    best_acc = 0
    for _ in range(EPOCHS):
        model.train()
        total_loss = 0
        total_acc = 0
        total_recall = 0
        total_precison = 0
        pbar = tqdm(enumerate(train_dataloader, 1), desc='train')
        for batch_id, batch in pbar:
            input_ids, label, mask = batch
            input_ids, label = input_ids.cuda(), label.cuda()
            logits = model(input_ids)
            loss = loss_fn(y_true=label, y_pred=logits)
            acc, recall, precision = acc_metric(y_true=label, y_pred=logits)
            total_loss += loss.item()
            total_acc += acc.item()
            total_recall += recall.item()
            total_precison += precision.item()

            pbar.set_description(f'Epoch {_}/{EPOCHS}')
            pbar.set_postfix(loss=total_loss / batch_id,
                             acc=total_acc / batch_id,
                             recall = total_recall / batch_id,
                             precision = total_precison / batch_id,
                             lr=optimizer.param_groups[0]["lr"])

            torch.nn.utils.clip_grad_norm_(model.parameters(), 1)
            loss.backward()
            optimizer.step()
            scheduler.step()
            optimizer.zero_grad()

        pbar = tqdm(enumerate(valid_dataloader, 1), desc='dev')
        model.eval()
        total_acc = 0
        total_recall = 0
        total_precison = 0
        for batch_id, batch in pbar:
            input_ids, label, mask = batch
            input_ids, label = input_ids.cuda(), label.cuda()
            with torch.no_grad():
                logits = model(input_ids)
            acc, recall, precision = acc_metric(y_true=label, y_pred=logits)
            total_acc += acc.item()
            total_recall += recall.item()
            total_precison += precision.item()
            pbar.set_postfix(acc=total_acc / batch_id,
                             recall=total_recall / batch_id,
                             precision=total_precison / batch_id,
                             )

        if total_acc / batch_id > best_acc:
            best_acc = total_acc / batch_id
            torch.save(model.state_dict(), 'best_model.pt')
            print(f'best model saved at epoch {_} with best acc {best_acc}')


def evaluate():
    model = DGCNN()
    model.load_state_dict(torch.load('best_model.pt'))
    model.cuda()
    pbar = tqdm(enumerate(test_dataloader, 1), desc='test')
    model.eval()
    total_acc = 0
    total_recall = 0
    total_precison = 0
    for batch_id, batch in pbar:
        input_ids, label, mask = batch
        input_ids, label = input_ids.cuda(), label.cuda()
        with torch.no_grad():
            logits = model(input_ids)
        acc, recall, precision = acc_metric(y_true=label, y_pred=logits)
        total_acc += acc.item()
        total_recall += recall.item()
        total_precison += precision.item()
        pbar.set_postfix(acc=total_acc / batch_id,
                         recall=total_recall / batch_id,
                         precision=total_precison / batch_id,
                         )

def convert2onnx():
    import os
    os.environ['CUDA_VISIBLE_DEVICES'] = '-1'
    import torch
    if torch.cuda.is_available():
        device = 'cuda:0'
    else:
        device = 'cpu'

    model = DGCNN()
    model.load_state_dict(torch.load('best_model.pt', map_location=device))
    model.to(device)
    model.eval()

    x = torch.zeros(1, 300, requires_grad=True).long()

    torch.onnx.export(model,               # model being run
                      x,                         # model input (or a tuple for multiple inputs)
                      "best_model.onnx",   # where to save the model (can be a file or file-like object)
                      export_params=True,        # store the trained parameter weights inside the model file
                      opset_version=14,          # the ONNX version to export the model to
                      do_constant_folding=True,  # whether to execute constant folding for optimization
                      input_names = ['x'],   # the model's input names
                      output_names = ['output'], # the model's output names
                      dynamic_axes={'x' : {0 : 'batch_size', 1: 'seqlen'},# variable length axes
                                    'output' : {0 : 'batch_size', 1: 'seqlen'}})

if __name__ == '__main__':
    train()
    # evaluate()
    # convert2onnx()

继续改进

上文提到预训练好的词向量，因此我也比较了使用jieba分词核sougou预训练词向量结合的模型效果，最好的结果为准确率0.927，提升了0.7个百分点，也算是不错的提升，最终在实际使用中，采用词向量模型，整体代码如下：

import json
import re
import glob
import torch
import jieba
import numpy as np
import torch.nn.functional as F
np.random.seed(42)
from collections import Counter
from torch.utils.data import Dataset, DataLoader
from torch import nn
from tqdm import tqdm
from transformers import AdamW, get_polynomial_decay_schedule_with_warmup

torch.manual_seed(3407)
torch.cuda.manual_seed(3407)
torch.cuda.manual_seed_all(3407)
HIDDEN_SIZE = 300
EPOCHS = 10

def load_vocab(vocab_file):
    vocab = open(vocab_file, encoding='utf8').read().splitlines()
    vocab2id = {x:i for i,x in enumerate(vocab)}
    return vocab, vocab2id

vocab, vocab2id = load_vocab('word_vocab.txt')


def load_embedding():
    vocab2embed = {}
    with open(r'D:\PekingInfoResearch\pretrain_models\word2vec\sgns.sogou.char', encoding='utf8') as f:
        f.readline()
        for line in tqdm(f, 'load embedding'):
            line = line.split()
            vocab2embed[line[0]] = list(map(float, line[1:]))
    out_embedding = []
    for word in vocab:
        if word in vocab2embed:
            out_embedding.append(vocab2embed[word])
        else:
            out_embedding.append(np.zeros(300))
    return np.array(out_embedding)


def exists(obj):
    """目标是否存在"""
    if obj:
        return True
    else:
        return False

def load_data():
    """加载数据"""
    out = []
    # with open(r'D:\open_data\ner\bid_data\labeled_data_for_mrc/labeled_data_for_mrc.jsonl', 'r', encoding='utf8') as f:
    #     for i, line in enumerate(f):
    #         if i == 1000:
    #             break
    #         line = json.loads(line)
    #         text = re.sub('\s+', '', line['text'])
    #         out.append([text, int(exists(line['labels']))])
    #
    # updated_files = glob.glob(r'D:\open_data\ner\bid_data\labeled_data_for_mrc/updated*')
    # for file in updated_files:
    #     with open(file, 'r', encoding='utf8') as f:
    #         for i, line in enumerate(f):
    #             line = json.loads(line)
    #             text = re.sub('\s+', '', line['text'])
    #             out.append([text, int(exists(line['label']))])

    with open(r'D:\PekingInfoOtherSearch\bert-mrc-pytorch\predicted_labeled_data_for_mrc.jsonl', 'r', encoding='utf8') as f:
        for i, line in enumerate(f):
            line = json.loads(line)
            text = re.sub('\s+', '', line['text'])
            out.append([text, int(exists(line['labels']))])

    print(f"total samples: {len(out)} has labels: {sum(list(zip(*out))[1])}")
    return out


def split_data(data):
    """切分数据集"""
    np.random.shuffle(data)
    length = len(data)
    train_data, valid_data, test_data = data[:int(length * 0.8)], data[int(length * 0.8):int(length * 0.9)], data[int(length * 0.9):]
    return train_data, valid_data, test_data


data = load_data()
train_data, valid_data, test_data = split_data(data)


def tokenize(text):
    """将文本映射成数字向量"""
    return [vocab2id[x] if x in vocab2id else vocab2id['[UNK]'] for x in text]

def sequence_padding(inputs, length=None, value=0, seq_dims=1, mode='post'):
    """Numpy函数，将序列padding到同一长度
    """
    if length is None:
        length = np.max([np.shape(x)[:seq_dims] for x in inputs], axis=0)
    elif not hasattr(length, '__getitem__'):
        length = [length]

    slices = [np.s_[:length[i]] for i in range(seq_dims)]
    slices = tuple(slices) if len(slices) > 1 else slices[0]
    pad_width = [(0, 0) for _ in np.shape(inputs[0])]

    outputs = []
    for x in inputs:
        x = x[slices]
        for i in range(seq_dims):
            if mode == 'post':
                pad_width[i] = (0, length[i] - np.shape(x)[i])
            elif mode == 'pre':
                pad_width[i] = (length[i] - np.shape(x)[i], 0)
            else:
                raise ValueError('"mode" argument must be "post" or "pre".')
        x = np.pad(x, pad_width, 'constant', constant_values=value)
        outputs.append(x)

    return np.array(outputs)

class BidDataset(Dataset):
    def __init__(self, data):
        super(BidDataset, self).__init__()
        self.data = data

    def __getitem__(self, index):
        d = self.data[index]  # 文本，是否存在标签
        input_ids = tokenize(jieba.lcut(d[0]))
        labels = [d[1]]
        mask = [1] * len(input_ids)
        return input_ids, labels, mask

    def __len__(self):
        return len(self.data)


def collate_fn(batch):
    input_ids, labels, mask = list(zip(*batch))

    input_ids = torch.LongTensor(sequence_padding(input_ids))
    labels = torch.FloatTensor(sequence_padding(labels))
    mask = torch.LongTensor(sequence_padding(mask))

    return input_ids, labels, mask

def get_dataloader(dataset):
    return DataLoader(dataset, batch_size=8, collate_fn=collate_fn)

train_dataset, valid_dataset, test_dataset = BidDataset(train_data), BidDataset(valid_data), BidDataset(test_data)
train_dataloader, valid_dataloader, test_dataloader = get_dataloader(train_dataset), get_dataloader(valid_dataset), get_dataloader(test_dataset)


class ResidualGatedConv1D(nn.Module):
    def __init__(self, in_channels, out_channels, kernel_size, dilation_rate):
        super(ResidualGatedConv1D, self).__init__()
        self.out_channels = out_channels
        self.conv1d = nn.Conv1d(
            in_channels=in_channels,
            out_channels=out_channels * 2,
            kernel_size=kernel_size,
            dilation=dilation_rate,
            padding=dilation_rate
        )
        self.layernorm = nn.LayerNorm([out_channels])
        self.alpha = nn.Parameter(torch.zeros(1))

    def forward(self, x):
        x = x.transpose(2,1)
        outputs = self.conv1d(x)
        gate = torch.sigmoid(outputs[:, self.out_channels:])
        outputs = outputs[:, :self.out_channels] * gate
        outputs = self.layernorm(outputs.transpose(2,1))
        x = x.transpose(2,1) + self.alpha * outputs

        return x


class GlobalAveragePopl1D(nn.Module):
    """对某一维进行平均"""
    def __init__(self):
        super(GlobalAveragePopl1D, self).__init__()

    def forward(self, x):
        return torch.mean(x, dim=1)

class Embedding(nn.Module):
    def __init__(self, embedding=None):
        super(Embedding, self).__init__()
        self.embed = nn.Embedding(len(vocab2id), HIDDEN_SIZE, padding_idx=0)
        if embedding:
            self.embed.weight.data.copy_(torch.tensor(embedding).float())

    def forward(self, x):
        return self.embed(x)

class DGCNN(nn.Module):
    def __init__(self):
        super(DGCNN, self).__init__()
        drop_rate = 0.1
        hidden_size = 300
        self.dgcnn = nn.Sequential(
            Embedding(),
            ResidualGatedConv1D(hidden_size, hidden_size, 3, 1),
            nn.Dropout(drop_rate),
            ResidualGatedConv1D(hidden_size, hidden_size, 3, 2),
            nn.Dropout(drop_rate),
            ResidualGatedConv1D(hidden_size, hidden_size, 3, 4),
            nn.Dropout(drop_rate),
            ResidualGatedConv1D(hidden_size, hidden_size, 3, 8),
            nn.Dropout(drop_rate),
            ResidualGatedConv1D(hidden_size, hidden_size, 3, 1),
            nn.Dropout(drop_rate),
            ResidualGatedConv1D(hidden_size, hidden_size, 3, 1),
            nn.Dropout(drop_rate),
            GlobalAveragePopl1D(),
            nn.Linear(hidden_size, hidden_size),
            nn.Dropout(drop_rate),
            nn.Linear(hidden_size, 1),
            nn.Sigmoid()
        )

    def forward(self, x):
        return self.dgcnn(x)


class textCNN(nn.Module):

    def __init__(self, embedding=None):
        super(textCNN, self).__init__()
        self.embed = Embedding(embedding)

        kernel_wins = [3,4,5]
        dim_channel = 100
        # Convolutional Layers with different window size kernels
        self.convs = nn.ModuleList([nn.Conv2d(1, dim_channel, (w, HIDDEN_SIZE)) for w in kernel_wins])
        # Dropout layer
        self.dropout = nn.Dropout(0.1)

        # FC layer
        self.fc = nn.Linear(len(kernel_wins) * dim_channel, 1)

    def forward(self, x):
        emb_x = self.embed(x)
        emb_x = emb_x.unsqueeze(1)

        con_x = [conv(emb_x) for conv in self.convs]

        pool_x = [F.adaptive_max_pool1d(x.squeeze(-1), 1) for x in con_x]

        fc_x = torch.cat(pool_x, dim=1)

        fc_x = fc_x.squeeze(-1)

        fc_x = self.dropout(fc_x)
        logit = torch.sigmoid(self.fc(fc_x))
        return logit

def loss_fn(y_true, y_pred):
    loss = nn.BCELoss()(y_pred, y_true)
    return loss

def acc_metric(y_true, y_pred):
    y_pred = (y_pred > 0.5).float()
    correct = torch.sum(y_true == y_pred)
    acc = correct / y_true.shape[0]
    recall = torch.sum(y_true * y_pred) / torch.sum(y_true).clamp(1e-9)
    precision = torch.sum(y_true * y_pred) / torch.sum(y_pred).clamp(1e-9)
    return acc, recall, precision


def build_optimizer_and_scheduler(model, warmup_proportion, total_steps):

    module = (model.module if hasattr(model, "module") else model)
    model_param = module.parameters()

    warmup_steps = int(warmup_proportion * total_steps)
    optimizer = AdamW(model_param, lr=0.001, eps=1e-8)
    scheduler = get_polynomial_decay_schedule_with_warmup(optimizer=optimizer, num_warmup_steps=warmup_steps, num_training_steps=total_steps, lr_end=1e-5)
    return optimizer, scheduler


def train(embedding=None):
    model = textCNN(embedding)
    model.cuda()
    optimizer, scheduler = build_optimizer_and_scheduler(model, 0.1, len(train_dataloader)*EPOCHS)
    best_acc = 0
    for _ in range(EPOCHS):
        model.train()
        total_loss = 0
        total_acc = 0
        total_recall = 0
        total_precison = 0
        pbar = tqdm(enumerate(train_dataloader, 1), desc='train')
        for batch_id, batch in pbar:
            input_ids, label, mask = batch
            input_ids, label = input_ids.cuda(), label.cuda()
            logits = model(input_ids)
            loss = loss_fn(y_true=label, y_pred=logits)
            acc, recall, precision = acc_metric(y_true=label, y_pred=logits)
            total_loss += loss.item()
            total_acc += acc.item()
            total_recall += recall.item()
            total_precison += precision.item()

            pbar.set_description(f'Epoch {_}/{EPOCHS}')
            pbar.set_postfix(loss=total_loss / batch_id,
                             acc=total_acc / batch_id,
                             recall = total_recall / batch_id,
                             precision = total_precison / batch_id,
                             lr=optimizer.param_groups[0]["lr"])

            torch.nn.utils.clip_grad_norm_(model.parameters(), 1)
            loss.backward()
            optimizer.step()
            scheduler.step()
            optimizer.zero_grad()

        pbar = tqdm(enumerate(valid_dataloader, 1), desc='dev')
        model.eval()
        total_acc = 0
        total_recall = 0
        total_precison = 0
        for batch_id, batch in pbar:
            input_ids, label, mask = batch
            input_ids, label = input_ids.cuda(), label.cuda()
            with torch.no_grad():
                logits = model(input_ids)
            acc, recall, precision = acc_metric(y_true=label, y_pred=logits)
            total_acc += acc.item()
            total_recall += recall.item()
            total_precison += precision.item()
            pbar.set_postfix(acc=total_acc / batch_id,
                             recall=total_recall / batch_id,
                             precision=total_precison / batch_id,
                             )

        if total_acc / batch_id > best_acc:
            best_acc = total_acc / batch_id
            torch.save(model.state_dict(), 'best_model.word.pt')
            print(f'best model saved at epoch {_} with best acc {best_acc}')


def evaluate():
    model = textCNN()
    model.load_state_dict(torch.load('best_model.word.pt'))
    model.cuda()
    pbar = tqdm(enumerate(test_dataloader, 1), desc='test')
    model.eval()
    total_acc = 0
    total_recall = 0
    total_precison = 0
    for batch_id, batch in pbar:
        input_ids, label, mask = batch
        input_ids, label = input_ids.cuda(), label.cuda()
        with torch.no_grad():
            logits = model(input_ids)
        acc, recall, precision = acc_metric(y_true=label, y_pred=logits)
        total_acc += acc.item()
        total_recall += recall.item()
        total_precison += precision.item()
        pbar.set_postfix(acc=total_acc / batch_id,
                         recall=total_recall / batch_id,
                         precision=total_precison / batch_id,
                         )

def convert2onnx():
    import os
    os.environ['CUDA_VISIBLE_DEVICES'] = '-1'
    import torch
    if torch.cuda.is_available():
        device = 'cuda:0'
    else:
        device = 'cpu'

    model = textCNN()
    model.load_state_dict(torch.load('best_model.word.pt', map_location=device))
    model.to(device)
    model.eval()

    x = torch.zeros(1, 300, requires_grad=True).long()

    torch.onnx.export(model,               # model being run
                      x,                         # model input (or a tuple for multiple inputs)
                      "best_model.word.onnx",   # where to save the model (can be a file or file-like object)
                      export_params=True,        # store the trained parameter weights inside the model file
                      opset_version=14,          # the ONNX version to export the model to
                      do_constant_folding=True,  # whether to execute constant folding for optimization
                      input_names = ['x'],   # the model's input names
                      output_names = ['output'], # the model's output names
                      dynamic_axes={'x' : {0 : 'batch_size', 1: 'seqlen'},# variable length axes
                                    'output' : {0 : 'batch_size', 1: 'seqlen'}})

if __name__ == '__main__':
    # embedding = load_embedding()
    # train()
    # evaluate()
    convert2onnx()

实际使用情况

实际使用情况就是，速度很快，效果也很不错！

你可能感兴趣的:(pytorch,pytorch,分类,深度学习)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
番茄西红柿叶子病害分类数据集12882张11类别 futureflsl 数据集分类数据挖掘人工智能
数据集类型：图像分类用，不可用于目标检测无标注文件数据集格式：仅仅包含jpg图片，每个类别文件夹下面存放着对应图片图片数量(jpg文件个数)：12882分类类别数：11类别名称:["Bacterial_Spot_Bacteria","Early_Blight_Fungus","Healthy","Late_Blight_Water_Mold","Leaf_Mold_Fungus","Powdery
xilinx vivado PULLMODE 设置思路坚持每天写程序 fpga开发
1.xilinx引脚分类XilinxIO的分类：以XC7A100TFGG484为例，其引脚分类如下：1.UserIO(用户IO)：用户使用的普通IO1.1专用(Dedicated)IO：命名为IO_LXXY_#、IO_XX_#的引脚，有固定的特定用途，多为底层特定功能的直接实现，如差分对信号、关键控制信号等，不能随意变更。1.2多功能(Multi-Function)IO：命名为IO_LXXY_ZZ
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
K近邻算法_分类鸢尾花数据集 _feivirus_ 算法机器学习和数学分类机器学习 K近邻
importnumpyasnpimportpandasaspdfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportaccuracy_score1.数据预处理iris=load_iris()df=pd.DataFrame(data=ir
网络通信流程记得开心一点啊服务器网络运维
目录♫IP地址♫子网掩码♫MAC地址♫相关设备♫ARP寻址♫网络通信流程♫IP地址我们已经知道IP地址由网络号+主机号组成，根据IP地址的不同可以有5钟划分网络号和主机号的方案：其中，各类地址的表示范围是：分类范围适用网络网络数量主机最大连接数A类0.0.0.0~127.255.255.255大型网络12616777214【(2^24)-2】B类128.0.0.0~191.255.255.255中
5分钟说透AppStore审核原理，让你拥有上架新思路！ Q仔本人噢
在AppStore上架是越来越难了!相信非常多公司的技术人员都为此困扰，然而外包团队水平又层次不齐，容易遇坑，实在是内忧外患。是什么原因导致审核机制频繁调整？又是什么原因使得审核变得越发严格？那么接下来听小Q分解，马上给各位带来解答!首先看一下近一年的上下架的情况：近一年上架情况近一年下架情况通过数据我们发现越是马甲包产量权重高的分类里被下架的app数量越多，苹果此举可谓是上有政策，下有对策。通过
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
《转介绍方法论》学习笔记小可乐的妈妈
一、高效转介绍的流程：价值观---执行----方案一）转介绍发生的背景：1、对象：谁向谁转介绍？全员营销，人人参与。①员工的激励政策、客户的转介绍诱因制作客户画像：a信任；支付能力；意愿度；便利度（根据家长具备四个特征的个数分为四类）B性格分类C职业分类D年龄性别②执行：套路，策略，方法，流程2、诱因：为什么要转介绍？认同信任；多方共赢；传递美好；零风险承诺打动人心，超越期待。选择做教育，就是选择
JAVA学习笔记之23种设计模式学习 victorfreedom Java技术设计模式 android java 常用设计模式
博主最近买了《设计模式》这本书来学习，无奈这本书是以C++语言为基础进行说明，整个学习流程下来效率不是很高，虽然有的设计模式通俗易懂，但感觉还是没有充分的掌握了所有的设计模式。于是博主百度了一番，发现有大神写过了这方面的问题，于是博主迅速拿来学习。一、设计模式的分类总体来说设计模式分为三大类：创建型模式，共五种：工厂方法模式、抽象工厂模式、单例模式、建造者模式、原型模式。结构型模式，共七种：适配器
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
【自动化测试】UI自动化的分类、如何选择合适的自动化测试工具以及其中appium的设计理念、引擎和引擎如何工作 Lossya ui 自动化测试工具自动化测试 appium
引言UI自动化测试主要针对软件的用户界面进行测试，以确保用户界面元素的交互和功能符合预期文章目录引言一、UI自动化的分类1.1基于代码的自动化测试1.2基于录制/回放的自动化测试1.3基于框架的自动化测试1.4按测试对象分类1.5按测试层次分类1.6按测试执行方式分类1.7按测试目的分类二、如何选择合适的自动化测试工具2.1项目需求分析2.2工具特性评估2.3成本考虑2.4团队技能2.5试用和评估
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
性格小测试熹大头
有些人非常肯定自己属于外向型，有些人则发现自己是绝对的内向型。然而，多数人却发现他们似乎介于两者之间，是两种性格的结合。现在我们就来看看你在这种分类中处在何种位置。阅读以下问题，从a、b、c中选出最适合自己的选项。你可能会发现三个选项都不合适，或者合适的不止一项，这种情况下，选出相对来说更适合自己的即可。1人们经常会用下列哪个词语描述你：a善于分析b遵守纪律c有创造力2一连几天参与社交活动（比如，
李克富 | 咨询师推荐阅读书目李克富
最重要的书籍不是别人的推荐，而是自己学过的教材，不论当初使用的是哪个版本，它都是我们专业的底层代码，具有不可替代性。前不久，中国心理咨询师筹委会的一位老师邀请我罗列一个推荐书目清单作为咨询师工具包的内容，并要求“说明一下简单的分类或者作三言两语的说明”。斟酌后，我觉得自己推荐的书目大体可以分为普及类书籍、心理学书籍和心理咨询与治疗专业书籍，第三类又分为适合于咨询师新手的和有经验咨询师的。经过严格筛
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
新能源汽车 BMS 学习笔记篇—BMS 基本定义及分类 WPG大大通其他笔记汽车 BMS 经验分享新能源电池
一、BMS定义1、概念：BMS（BatteryManagementSystem）即电池管理系统，其管理对象是二次电池（充电电池或蓄电池），其主要目的是电池的利用率，防止电池出现过度充电和过度放电，可应用于电动汽车、电瓶车、机器人、无人机等图片来源：腾讯网https://new.qq.com《标准普尔警告，电动汽车电池生产面临供应链和地缘政治风险》2、四大功能①感知和测量：检测电池的电压、电流、温度
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
郭生白中药方论之二(破除温凉寒热的框框) 本能学堂a昨年
离病说药茫茫然，对症下药不着边。顺势利导一乘法，排异调节渡法船。无限整合非模糊，模糊病区得清楚。共性之外求个性，亲和不生抗药性。温凉寒热巧方便，君臣佐使筏喻焉。药包大小折中看，毒性有无一念间。导读破除温凉寒热的框框寒热温凉是基于中药共性的传统分类药无寒热人有寒热药无寒热病有寒热抛弃温凉不并用的错误观念寒热温凉是基于中药共性的传统分类寒热温凉是个共性，是说的共性。这个共性，知道什么叫共性吗？所有的药
2022-04-25 L是木子李呢
上门维修APP开发应具备哪些功能随着移动互联网的不断发展，上门维修在我们生活中已经是非常普遍的存在了，为了给用户更方便的找到上门维修的渠道，上门维修APP应运而生，那么上门维修APP开发应具备哪些功能呢？1、维修门店搜索为了更好地方便用户省时省力，上门维修APP会依据用户定位信息搜索线下实体店，促使用户更好的找到线下维修店面，省时又省力。2、维修服务分类包括管道洁具维修、强电弱电维修、木工维修、粉
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
二十四、k8s 资源管理繁华依在 k8s kubernetes 容器云原生
目录一、资源配置范围管理LimitRange介绍1、LimitRange可以做什么：2、资源限制和请求的约束3、创建LimitsRange对象4、示例：创建一个pod5、测试用例测试1：测试2：测试3：二、资源服务质量管理（RequestsQos）1、Qos级别分类：1.1、Guaranteed：1.2、BestEffort：1.3、Burstable：2、Qos的工作特点3、示例三、资源配额管理
FlagEmbedding 吉小雨 python库 python
FlagEmbedding教程FlagEmbedding是一个用于生成文本嵌入（textembeddings）的库，适合处理自然语言处理（NLP）中的各种任务。嵌入（embeddings）是将文本表示为连续向量，能够捕捉语义上的相似性，常用于文本分类、聚类、信息检索等场景。官方文档链接：FlagEmbedding官方GitHub一、FlagEmbedding库概述1.1什么是FlagEmbeddi
深度学习-点击率预估-研究论文2024-09-14速读 sp_fyf_2024 深度学习人工智能
深度学习-点击率预估-研究论文2024-09-14速读1.DeepTargetSessionInterestNetworkforClick-ThroughRatePredictionHZhong,JMa,XDuan,SGu,JYao-2024InternationalJointConferenceonNeuralNetworks,2024深度目标会话兴趣网络用于点击率预测摘要：这篇文章提出了一种新
神经网络-损失函数红米煮粥神经网络人工智能深度学习
文章目录一、回归问题的损失函数1.均方误差（MeanSquaredError,MSE）2.平均绝对误差（MeanAbsoluteError,MAE）二、分类问题的损失函数1.0-1损失函数（Zero-OneLossFunction）2.交叉熵损失（Cross-EntropyLoss）3.合页损失（HingeLoss）三、总结在神经网络中，损失函数（LossFunction）扮演着至关重要的角色，它
教师资格考试中学《教育知识与能力》知识点｜高频考点汇总小山丘
温馨提示：更多汇总详情留言小编哦！！！认知过程之易混知识点剖析社会中心课程论情绪——重要考点皮亚杰教你带孩子斯金纳强化规律你的心理足够强大吗?教育心理学的效应德育有规律常考人物思想之夸美纽斯中学常考教学原则孔子及《论语》中的重要教育思想教育学创立阶段人物之赫尔巴特学习策略分类知识点梳理教师资格证辨析题作答思路综合课程的类型班杜拉的学习理论马斯洛需要层次理论记忆类型的四大分类柏拉图和他的《理想国》感
损失函数与反向传播 Star_. PyTorch pytorch 深度学习 python
损失函数定义与作用损失函数(lossfunction)在深度学习领域是用来计算搭建模型预测的输出值和真实值之间的误差。1.损失函数越小越好2.计算实际输出与目标之间的差距3.为更新输出提供依据（反向传播)常见的损失函数回归常见的损失函数有：均方差（MeanSquaredError，MSE）、平均绝对误差（MeanAbsoluteErrorLoss，MAE）、HuberLoss是一种将MSE与MAE
解线性方程组 qiuwanchi
package gaodai.matrix; import java.util.ArrayList; import java.util.List; import java.util.Scanner; public class Test { public static void main(String[] args) { Scanner scanner = new Sc
在mysql内部存储代码 annan211 性能 mysql 存储过程触发器
在mysql内部存储代码在mysql内部存储代码，既有优点也有缺点，而且有人倡导有人反对。先看优点： 1 她在服务器内部执行，离数据最近，另外在服务器上执行还可以节省带宽和网络延迟。 2 这是一种代码重用。可以方便的统一业务规则，保证某些行为的一致性，所以也可以提供一定的安全性。 3 可以简化代码的维护和版本更新。 4 可以帮助提升安全，比如提供更细
Android使用Asynchronous Http Client完成登录保存cookie的问题 hotsunshine android
Asynchronous Http Client是android中非常好的异步请求工具除了异步之外还有很多封装比如json的处理，cookie的处理引用 Persistent Cookie Storage with PersistentCookieStore This library also includes a PersistentCookieStore whi
java面试题 Array_06 java 面试
java面试题第一，谈谈final, finally, finalize的区别。 final-修饰符（关键字）如果一个类被声明为final，意味着它不能再派生出新的子类，不能作为父类被继承。因此一个类不能既被声明为 abstract的，又被声明为final的。将变量或方法声明为final，可以保证它们在使用中不被改变。被声明为final的变量必须在声明时给定初值，而在以后的引用中只能
网站加速 oloz 网站加速
前序:本人菜鸟，此文研究总结来源于互联网上的资料，大牛请勿喷！本人虚心学习，多指教. 1、减小网页体积的大小，尽量采用div+css模式，尽量避免复杂的页面结构，能简约就简约。 2、采用Gzip对网页进行压缩； GZIP最早由Jean-loup Gailly和Mark Adler创建，用于UNⅨ系统的文件压缩。我们在Linux中经常会用到后缀为.gz
正确书写单例模式随意而生 java 设计模式单例
　　单例模式算是设计模式中最容易理解，也是最容易手写代码的模式了吧。但是其中的坑却不少，所以也常作为面试题来考。本文主要对几种单例写法的整理，并分析其优缺点。很多都是一些老生常谈的问题，但如果你不知道如何创建一个线程安全的单例，不知道什么是双检锁，那这篇文章可能会帮助到你。　　懒汉式，线程不安全　　当被问到要实现一个单例模式时，很多人的第一反应是写出如下的代码，包括教科书上也是这样
单例模式香水浓 java
懒汉调用getInstance方法时实例化 public class Singleton { private static Singleton instance; private Singleton() {} public static synchronized Singleton getInstance() { if(null == ins
安装Apache问题：系统找不到指定的文件 No installed service named "Apache2" AdyZhang apache http server
安装Apache问题：系统找不到指定的文件 No installed service named "Apache2" 每次到这一步都很小心防它的端口冲突问题，结果，特意留出来的80端口就是不能用，烦。解决方法确保几处： 1、停止IIS启动 2、把端口80改成其它（譬如90，800，，，什么数字都好） 3、防火墙(关掉试试) 在运行处输入 cmd 回车，转到apa
如何在android 文件选择器中选择多个图片或者视频？ aijuans android
我的android app有这样的需求，在进行照片和视频上传的时候，需要一次性的从照片/视频库选择多条进行上传但是android原生态的sdk中，只能一个一个的进行选择和上传。我想知道是否有其他的android上传库可以解决这个问题，提供一个多选的功能，可以使checkbox之类的，一次选择多个处理方法官方的图片选择器(但是不支持所有版本的androi，只支持API Level
mysql中查询生日提醒的日期相关的sql baalwolf mysql
SELECT sysid,user_name,birthday,listid,userhead_50,CONCAT(YEAR(CURDATE()),DATE_FORMAT(birthday,'-%m-%d')),CURDATE(), dayofyear( CONCAT(YEAR(CURDATE()),DATE_FORMAT(birthday,'-%m-%d')))-dayofyear(
MongoDB索引文件破坏后导致查询错误的问题 BigBird2012 mongodb
问题描述： MongoDB在非正常情况下关闭时，可能会导致索引文件破坏，造成数据在更新时没有反映到索引上。解决方案：使用脚本，重建MongoDB所有表的索引。 var names = db.getCollectionNames(); for( var i in names ){ var name = names[i]; print(name);
Javascript Promise bijian1013 JavaScript Promise
Parse JavaScript SDK现在提供了支持大多数异步方法的兼容jquery的Promises模式，那么这意味着什么呢，读完下文你就了解了。一.认识Promises “Promises”代表着在javascript程序里下一个伟大的范式，但是理解他们为什么如此伟大不是件简
[Zookeeper学习笔记九]Zookeeper源代码分析之Zookeeper构造过程 bit1129 zookeeper
Zookeeper重载了几个构造函数，其中构造者可以提供参数最多，可定制性最多的构造函数是 public ZooKeeper(String connectString, int sessionTimeout, Watcher watcher, long sessionId, byte[] sessionPasswd, boolea
【Java命令三】jstack bit1129 jstack
jstack是用于获得当前运行的Java程序所有的线程的运行情况(thread dump），不同于jmap用于获得memory dump [hadoop@hadoop sbin]$ jstack Usage: jstack [-l] <pid> (to connect to running process) jstack -F
jboss 5.1启停脚本　动静分离部署 ronin47
以前启动jboss，往各种xml配置文件，现只要运行一句脚本即可。start nohup sh /**/run.sh -c servicename -b ip -g clustername -u broatcast jboss.messaging.ServerPeerID=int -Djboss.service.binding.set=p
UI之如何打磨设计能力? brotherlamp UI ui教程 ui自学 ui资料 ui视频
在越来越拥挤的初创企业世界里，视觉设计的重要性往往可以与杀手级用户体验比肩。在许多情况下，尤其对于 Web 初创企业而言，这两者都是不可或缺的。前不久我们在《右脑革命：别学编程了，学艺术吧》中也曾发出过重视设计的呼吁。如何才能提高初创企业的设计能力呢?以下是 9 位创始人的体会。 1.找到自己的方式如果你是设计师，要想提高技能可以去设计博客和展示好设计的网站如D-lists或
三色旗算法 bylijinnan java 算法
import java.util.Arrays; /** 问题：假设有一条绳子，上面有红、白、蓝三种颜色的旗子，起初绳子上的旗子颜色并没有顺序，您希望将之分类，并排列为蓝、白、红的顺序，要如何移动次数才会最少，注意您只能在绳子上进行这个动作，而且一次只能调换两个旗子。网上的解法大多类似：在一条绳子上移动，在程式中也就意味只能使用一个阵列，而不使用其它的阵列来
警告:No configuration found for the specified action: \'s chiangfai configuration
1.index.jsp页面form标签未指定namespace属性。  <%@taglib prefix="s" uri="/struts-tags"%> ... <s:form action="submit" method="post"&g
redis -- hash_max_zipmap_entries设置过大有问题 chenchao051 redis hash
使用redis时为了使用hash追求更高的内存使用率，我们一般都用hash结构，并且有时候会把hash_max_zipmap_entries这个值设置的很大，很多资料也推荐设置到1000，默认设置为了512，但是这里有个坑 #define ZIPMAP_BIGLEN 254 #define ZIPMAP_END 255 /* Return th
select into outfile access deny问题 daizj mysql txt 导出数据到文件
本文转自：http://hatemysql.com/2010/06/29/select-into-outfile-access-deny%E9%97%AE%E9%A2%98/ 为应用建立了rnd的帐号，专门为他们查询线上数据库用的，当然，只有他们上了生产网络以后才能连上数据库，安全方面我们还是很注意的，呵呵。授权的语句如下： grant select on armory.* to rn
phpexcel导出excel表简单入门示例 dcj3sjt126com PHP Excel phpexcel
<?php error_reporting(E_ALL); ini_set('display_errors', TRUE); ini_set('display_startup_errors', TRUE); if (PHP_SAPI == 'cli') die('This example should only be run from a Web Brows
美国电影超短200句 dcj3sjt126com 电影
1. I see．我明白了。2. I quit! 我不干了!3. Let go! 放手!4. Me too．我也是。5. My god! 天哪!6. No way! 不行!7. Come on．来吧(赶快)8. Hold on．等一等。9. I agree。我同意。10. Not bad．还不错。11. Not yet．还没。12. See you．再见。13. Shut up!
Java访问远程服务 dyy_gusi httpclient webservice get post
随着webService的崛起，我们开始中会越来越多的使用到访问远程webService服务。当然对于不同的webService框架一般都有自己的client包供使用，但是如果使用webService框架自己的client包，那么必然需要在自己的代码中引入它的包，如果同时调运了多个不同框架的webService，那么就需要同时引入多个不同的clien
Maven的settings.xml配置 geeksun settings.xml
settings.xml是Maven的配置文件，下面解释一下其中的配置含义： settings.xml存在于两个地方： 1.安装的地方：$M2_HOME/conf/settings.xml 2.用户的目录：${user.home}/.m2/settings.xml 前者又被叫做全局配置，后者被称为用户配置。如果两者都存在，它们的内容将被合并，并且用户范围的settings.xml优先。
ubuntu的init与系统服务设置 hongtoushizi ubuntu
转载自： http://iysm.net/?p=178 init Init是位于/sbin/init的一个程序，它是在linux下，在系统启动过程中，初始化所有的设备驱动程序和数据结构等之后，由内核启动的一个用户级程序，并由此init程序进而完成系统的启动过程。 ubuntu与传统的linux略有不同，使用upstart完成系统的启动，但表面上仍维持init程序的形式。运行
跟我学Nginx+Lua开发目录贴 jinnianshilongnian nginx lua
使用Nginx+Lua开发近一年的时间，学习和实践了一些Nginx+Lua开发的架构，为了让更多人使用Nginx+Lua架构开发，利用春节期间总结了一份基本的学习教程，希望对大家有用。也欢迎谈探讨学习一些经验。目录第一章安装Nginx+Lua开发环境第二章 Nginx+Lua开发入门第三章 Redis/SSDB+Twemproxy安装与使用第四章 L
php位运算符注意事项 home198979 位运算 PHP &
$a = $b = $c = 0; $a & $b = 1; $b | $c = 1 问a,b,c最终为多少? 当看到这题时，我犯了一个低级错误，误以为位运算符会改变变量的值。所以得出结果是1 1 0 但是位运算符是不会改变变量的值的，例如： $a=1;$b=2; $a&$b; 这样a,b的值不会有任何改变
Linux shell数组建立和使用技巧 pda158 linux
1.数组定义　　[chengmo@centos5 ~]$ a=(1 2 3 4 5) 　　[chengmo@centos5 ~]$ echo $a 　　1 　　一对括号表示是数组，数组元素用“空格”符号分割开。　　 2.数组读取与赋值　　得到长度：　　[chengmo@centos5 ~]$ echo ${#a[@]} 　　5 　　用${#数组名[@或
hotspot源码(JDK7) ol_beta java HotSpot jvm
源码结构图，方便理解： ├─agent Serviceab
Oracle基本事务和ForAll执行批量DML练习 vipbooks oracle sql
基本事务的使用：从账户一的余额中转100到账户二的余额中去，如果账户二不存在或账户一中的余额不足100则整笔交易回滚 select * from account; -- 创建一张账户表 create table account( -- 账户ID id number(3) not null, -- 账户名称 nam