CuddleSabe

NLP入门--Seq2Seq英汉翻译实战

大家好，我是CuddleSabe，目前大四在读，深圳准入职算法工程师，研究主要方向为多模态（VQA、ImageCaptioning等），欢迎各位佬来讨论！
我最近在有序地计划整理CV入门实战系列及NLP入门实战系列。在这两个专栏中，我将会带领大家一步步进行经典网络算法的实现，欢迎各位读者（da lao）订阅

Seq2Seq

一、模型介绍
- 1.1 Seq2Seq介绍
- 1.2 Encoder-Decoder结构
二、代码编写
- 1. 获取数据集的字典等相关数据
- - 1.1 **获取中文字典**
  - 1.3 **分析句子长度分布**
- 2. 方法集成至数据集
- 3. 编写模型
- 4.编写带mask的损失函数
- 5.训练
三、应用
四、数据集及代码下载

一、模型介绍

1.1 Seq2Seq介绍

seq2seq是序列到序列，是从一个序列生成另外一个序列。它涉及两个过程：一个是理解前一个序列，另一个是用理解到的内容来生成新的序列。至于序列所采用的模型可以是RNN，LSTM，GRU，其它序列模型等。本教程中使用GRU。

1.2 Encoder-Decoder结构

Seq2Seq模型如上图所示分为Encoder编码器与Decoder解码器两个部分。在训练阶段，解码器的输入是原句前加开始符的句子向量（即ground truth）与编码器最后一层的隐含状态；而在预测阶段，解码器的输入是上一个时间步自身预测的单词向量与编码器的隐含状态。代码说明即如下图：

训练阶段

# 获得编码器中rnn最后一层的隐含状态
h = self.encoder(x)
        
# 将句子末尾的去掉，在前面加上
sos = torch.LongTensor([2]*x.shape[0]).reshape(-1, 1).to(device)
dec_input = torch.cat([sos, y[:, :-1]], 1).to(device)
        
# 将ground-truth及编码器的隐含状态作为解码器输入
pred, _ = self.decoder(dec_input, h)
return pred

测试阶段

out_seq = []
for _ in range(num_step):
	pred, state = model.decoder(decoder_input, state)
    decoder_input = torch.argmax(pred, dim=2)
    pred_words = decoder_input.squeeze()
    word_id = int(pred_words.cpu().numpy())
    pred_words = id2word[word_id]
    if pred_words == '':
       break
    out_seq.append(pred_words)
return ' '.join(out_seq)

二、代码编写

1. 获取数据集的字典等相关数据

import os
import re
import numpy as np
import torch
import jieba
jieba.setLogLevel(jieba.logging.INFO)
from collections import Counter
from tqdm.notebook import tqdm

device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")

data_dir = './En2Zh_Data'

data_nums = 50000  # 读取多少条数据 
embed_dim = 128 #词向量维度
min_count = 1 #频数少于min_count的词将会被抛弃，低频词类似于噪声，可以抛弃掉
nb_epoch = 70 #迭代次数
batch_size = 512
lr = 0.005

STOP_WORDS = '?？.。，,\、@!！#¥$^……&*(（)）——+=;；【][】\n'

1.1 获取中文字典

cn_words, cn_corpus = [], []
with open(os.path.join(data_dir, 'train.zh'), 'r') as f:
    for i, line in enumerate(tqdm(f)):
        if data_nums != -1:
            if i == data_nums:
                break
        for s in STOP_WORDS:
            line = line.replace(s, '')
        line = line.replace(' ', '')
        cut = jieba.lcut(line)
        cn_words+=cut
        cn_corpus.append(cut)
cn_words = dict(Counter(cn_words))
words_cn_dict = cn_words
cn_words = {i:j for i,j in cn_words.items() if (i not in STOP_WORDS)}
cn_id2word = {i+5:j for i,j in enumerate(cn_words)}
cn_id2word[0] = ''
cn_id2word[1] = ''
cn_id2word[2] = ''
cn_id2word[3] = ''
cn_id2word[4] = ''
cn_word2id = {j:i for i,j in cn_id2word.items()}

en_words, en_corpus = [], []
with open(os.path.join(data_dir, 'train.en'), 'r') as f:
    for i, line in enumerate(tqdm(f)):
        if data_nums != -1:
            if i == data_nums:
                break
        line = line.lower()
        for s in STOP_WORDS:
            line = line.replace(s, '')
        cut = re.split("[' ?. ,？\n]", line)
        en_words+=cut
        en_corpus.append(cut)
en_words = dict(Counter(en_words))
words_en_dict = en_words
en_words = {i:j for i,j in en_words.items() if (i not in STOP_WORDS and i != '\n')}
en_id2word = {i+5:j for i,j in enumerate(en_words)}
en_id2word[0] = ''
en_id2word[1] = ''
en_id2word[2] = ''
en_id2word[3] = ''
en_id2word[4] = ''
en_word2id = {j:i for i,j in en_id2word.items()}

print('英文词典共{}单词，中文词典共{}单词'.format(len(en_words), len(cn_words)))

1.3 分析句子长度分布

import numpy as np
import matplotlib.pyplot as plt
en_sentence_len = [len(s) for s in en_corpus]
cn_sentence_len = [len(s) for s in cn_corpus]

def count_len(data):
    times, length = [], []
    add_sum = 0
    for i in range(1, 50):
        tmp = 0
        for d in data:
            if d ==i:
                tmp += 1
        add_sum += tmp
        times.append(add_sum/len(data))
        length.append(i)
    return times, length

en_times, en_length = count_len(en_sentence_len)
cn_times, cn_length = count_len(cn_sentence_len)

plt.subplot(1, 2, 1)
plt.bar(en_length, en_times, label='en', color='red')
plt.legend()
plt.subplot(1, 2, 2)
plt.bar(cn_length, cn_times, label='cn', color='blue')
plt.legend()
plt.show()

可以看到，无论中英文，97%多的数据长度都在15个单词以内。因此我们选取15为数据的固定长度：高于15的我们抛弃，少于15的我们使用PAD进行填充

2. 方法集成至数据集

import torch
import torch.nn as nn
from torch.utils.data import Dataset, DataLoader

class En2Zh_Dataset(Dataset):
    def __init__(self, en_data, cn_data, max_len=15, min_count=15, data_nums=100, drop=False):
        super(En2Zh_Dataset, self).__init__()
        self.min_count = min_count
        self.max_len = max_len
        self.drop = drop
        self.STOP_WORDS = '?？.。，,\、@!！#¥$^……&*(（)）——+=;；【][】\n'
        self.en_corpus, self.en_word2id, self.en_id2word = self._build_en_dic(en_data, data_nums)
        self.cn_corpus, self.cn_word2id, self.cn_id2word = self._build_cn_dic(cn_data, data_nums)
        print('英文词典共{}单词，中文词典共{}单词'.format(len(self.en_word2id), len(self.cn_word2id)))
        self.en_corpus_data, self.cn_corpus_data, self.cn_valid_len = self._build_data()
    
    def __getitem__(self, index):
        return torch.LongTensor(self.en_corpus_data[index]), torch.LongTensor(self.cn_corpus_data[index]), torch.LongTensor([self.cn_valid_len[index]]).squeeze(0)
    
    def __len__(self):
        return len(self.en_corpus)
    
    def _pre_process(self, sentence):
        sentence.append('')
        return sentence
    
    def _build_data(self):
        en_corpus_data, cn_corpus_data = [], []
        cn_valid_len = []
        print('建立张量数据中...')
        en_sentence_len = [len(s) for s in self.en_corpus]
        cn_sentence_len = [len(s) for s in self.cn_corpus]
        for index, sentence in enumerate(tqdm(self.en_corpus)):
            if self.drop == True:
                if en_sentence_len[index] > self.max_len-1 or cn_sentence_len[index] > self.max_len-1:
                    continue
            else:
                if en_sentence_len[index] > self.max_len-1:
                    sentence = sentence[:self.max_len-1]    
            sentence = self._pre_process(sentence)
            for i in range(self.max_len - len(sentence)):
                sentence.append('')
            tmp = []
            for w in sentence:
                tmp.append(self.en_word2id[w] if w in self.en_word2id else int(1))
            en_corpus_data.append(tmp)
        
        for index, sentence in enumerate(tqdm(self.cn_corpus)):
            if self.drop == True:
                if cn_sentence_len[index] > self.max_len-1 or cn_sentence_len[index] > self.max_len-1:
                    continue
            else:
                if cn_sentence_len[index] > self.max_len-1:
                    sentence = sentence[:self.max_len-1]
            sentence = self._pre_process(sentence)
            cn_valid_len.append(len(sentence))
            for i in range(self.max_len - len(sentence)):
                sentence.append('')
            tmp = []
            for w in sentence:
                tmp.append(self.cn_word2id[w] if w in self.cn_word2id else int(1))
            cn_corpus_data.append(tmp)
        return en_corpus_data, cn_corpus_data, cn_valid_len
    
    def _build_dic_tool(self, data, data_nums, lang):
        words, corpus = [], []
        with open(data, 'r') as f:
            for i, line in enumerate(tqdm(f)):
                if data_nums != -1:
                    if i == data_nums:
                        break
                for s in self.STOP_WORDS:
                    line = line.replace(s, '')
                if lang == 'cn':
                    line = line.replace(' ', '')
                    cut = jieba.lcut(line)
                    words+=cut
                    corpus.append(cut)
                elif lang == 'en':
                    line = line.lower()
                    cut = re.split("[' ?. ,？\n]", line)
                    words+=cut
                    corpus.append(cut)
            words = dict(Counter(words))
            words = {i:j for i,j in words.items() if (j >= self.min_count and i not in self.STOP_WORDS)}
            id2word = {i+5:j for i,j in enumerate(words)}
            id2word[0] = ''
            id2word[1] = ''
            id2word[2] = ''
            id2word[3] = ''
            id2word[4] = ''
            word2id = {j:i for i,j in id2word.items()}
        return corpus, word2id, id2word
    
    def _build_cn_dic(self, cn_data, data_nums):
        return self._build_dic_tool(cn_data, lang='cn', data_nums=data_nums)
    
    def _build_en_dic(self, en_data, data_nums):
        return self._build_dic_tool(en_data, lang='en', data_nums=data_nums)
    
    def get_en_dic(self):
        return self.en_word2id, self.en_id2word
    
    def get_cn_dic(self):
        return self.cn_word2id, self.cn_word2id

en_data = os.path.join(data_dir, 'train.en')
cn_data = os.path.join(data_dir, 'train.zh')
dataset = En2Zh_Dataset(en_data, cn_data, min_count=min_count, data_nums=data_nums, drop=False)

3. 编写模型

import torch
import torch.nn as nn

class Encoder(nn.Module):
    def __init__(self, vocab_num, embed_dim=256, hidden_dim=512, num_layers=2, dropout=0.5):
        super(Encoder, self).__init__()
        self.embedding = nn.Embedding(vocab_num+1, embed_dim)
        self.rnn = nn.GRU(embed_dim, hidden_dim, num_layers, batch_first=True)
    
    def forward(self, x):
        x = self.embedding(x)  # [batch, len, embed]
        _, h = self.rnn(x)  # _:[batch, len, hidden]
        return h  # h:[num_layers, batch, hidden]

class Decoder(nn.Module):
    def __init__(self, vocab_num, embed_dim=256, hidden_dim=512, num_layers=2, dropout=0.5):
        super(Decoder, self).__init__()
        self.embedding = nn.Embedding(vocab_num+1, embed_dim)
        self.rnn = nn.GRU(embed_dim+hidden_dim, hidden_dim, num_layers, batch_first=True, dropout=dropout)
        self.fc = nn.Linear(hidden_dim, vocab_num)
    
    def forward(self, x, h):
        x = self.embedding(x)  # [batch, seq_len] -> [batch, seq_len, embed_dim]  
        context = h[-1].repeat(x.shape[1], 1, 1).permute(1, 0, 2).to(device)  # [batch, seq_len, hidden]
        x_and_context = torch.cat((x, context), 2).to(device)  
        out, h = self.rnn(x_and_context, h)
        pred = self.fc(out)
        return pred, h

class Seq2Seq(nn.Module):
    def __init__(self, src_vocab_num, trg_vocab_num, embed_dim=256, hidden_dim=512, num_layers=2, max_len=15, dropout=0.5, encoder=None, decoder=None):
        super(Seq2Seq, self).__init__()
        self.encoder = Encoder(src_vocab_num, embed_dim, hidden_dim, num_layers, dropout=dropout)
        self.decoder = Decoder(trg_vocab_num, embed_dim, hidden_dim, num_layers, dropout=dropout)
        if encoder:
            self.encoder = encoder
        if decoder:
            self.decoder = decoder
    
    def forward(self, x, y):
        
        # 获得编码器中rnn最后一层的隐含状态
        h = self.encoder(x)
        
        # 将句子末尾的去掉，在前面加上
        sos = torch.LongTensor([2]*x.shape[0]).reshape(-1, 1).to(device)
        dec_input = torch.cat([sos, y[:, :-1]], 1).to(device)
        
        # 将ground-truth及编码器的隐含状态作为解码器输入
        pred, _ = self.decoder(dec_input, h)
        return pred

en_vacab, en_id2word = dataset.get_en_dic()
cn_vacab, cn_id2word = dataset.get_cn_dic()

model = Seq2Seq(len(en_vacab), len(cn_vacab), dropout=0.5).to(device)

for en_s, cn_s, valid_len in data_loader:
    out = model(en_s.to(device), cn_s.to(device))
    print(out.shape)
    break

4.编写带mask的损失函数

class MaskedSoftmaxCELoss(nn.CrossEntropyLoss):
    def sequence_mask(self, x, valid_len, value=0):
        max_len = x.shape[1]
        mask = torch.arange((max_len), dtype=torch.float32).to(device)[None, :] < valid_len[:, None]
        x[~mask] = value
        return x
        
    def forward(self, pred, label, valid_len):
        weights = torch.ones_like(label)
        weights = self.sequence_mask(weights, valid_len).to(device)
        self.reduction = 'none'
        unweighted_loss = super().forward(pred.permute(0, 2, 1), label)
        weighted_loss = (unweighted_loss * weights).mean(dim=1).to(device)
        return weighted_loss

因为数据中有很多是pad填充的占位符，因此它们不参与损失计算，我们只需计算有效单词的交叉熵即可。

5.训练

model = Seq2Seq(len(en_vacab), len(cn_vacab)).to(device)
optimizer = torch.optim.Adam(model.parameters(), lr=lr)
loss_fn = MaskedSoftmaxCELoss()

loss_stack = []
    
min_loss = 100000

for epoch in tqdm(range(nb_epoch)):
    epoch = len(loss_stack) + 1
    total = 0
    loss_data = 0
    model.train()
    for en_s, cn_s, valid_len in data_loader:
        total += en_s.shape[0]
        out = model(en_s.to(device), cn_s.to(device))
        loss = loss_fn(out.to(device), cn_s.to(device), valid_len.to(device))
        optimizer.zero_grad()
        loss.sum().backward()
        optimizer.step()
        loss_data += loss.sum().detach().cpu().numpy()
    loss_data /= total
    loss_stack.append(loss_data)

import matplotlib.pyplot as plt

plt.plot(loss_stack)
plt.show()

三、应用

def translate(model, src_sentence, src_vocab, trg_vocab, num_step):
    model.eval()
    id2word = {i+5:j for i,j in enumerate(cn_vacab)}
    id2word[0] = ''
    id2word[1] = ''
    id2word[2] = ''
    id2word[3] = ''
    id2word[4] = ''
    sentence = re.split("[' ?. ,？\n]", src_sentence.lower()) + ['']
    for i in range(num_step - len(sentence)):
        sentence.append('')
    print(sentence)
    encoder_input = []
    for w in sentence:
        encoder_input.append(src_vocab[w] if w in src_vocab else int(1))
    encoder_input = torch.LongTensor(encoder_input).unsqueeze(0).to(device)
    state = model.encoder(encoder_input)
    decoder_input = torch.LongTensor([2]*1).reshape(-1, 1).to(device)  
    out_seq = []
    for _ in range(num_step):
        pred, state = model.decoder(decoder_input, state)
        decoder_input = torch.argmax(pred, dim=2)
        pred_words = decoder_input.squeeze()
        word_id = int(pred_words.cpu().numpy())
        pred_words = id2word[word_id]
        if pred_words == '':
            break
        out_seq.append(pred_words)
    return ' '.join(out_seq)

translate(model, "a red card", en_vacab, cn_vacab, 15)

四、数据集及代码下载

因为本教程使用的数据集为AI Challenge竞赛中数据集，数据量过大（千万级别），因此本教程设置参数data_nums来设定读取多少数据。各位读者在实践时可根据自身硬件条件来更改参数。数据集及代码链接如下：
https://pan.baidu.com/s/11NNX0J9asJD2EROQk_xvZw
提取码: wt21

python程序语音控制摄像头打开 X-yes python 开发语言
在电脑的“开始”口输入Anconda,进入powershell,已经配置好的环境（base）中，然后输入：condaactivatetest，进入到test环境中，在D盘里复制执行python文件的路径，输入cd+路径，进入后输入:pythonmain.py,即可实现打开设备。在运行后可能会出现错误，不用担心，只是因为包不完整而已，一条一条的执行以下命令。pipinstallSpeechRecog
青少年编程与数学 02-014 高中数学知识点 07课题、专业相关性分析明月看潮生编程与数学第02阶段青少年编程编程与数学高中数学
青少年编程与数学02-014高中数学知识点07课题、专业相关性分析一、函数与微积分1.函数与初等函数2.导数与优化二、概率与统计1.概率基础2.统计推断3.随机变量与分布三、几何与代数1.向量与矩阵运算2.复数与坐标变换四、数学建模与算法思维1.数学建模2.算法逻辑五、离散数学基础六、核心数学工具在AI/数据科学中的层级关系七、学习建议总结高中数学中的许多知识点与计算机科学、数据科学及人工智能（A
Python元类完全指南：深入理解类的创造者七十二计 python 开发语言
Python元类完全指南：深入理解类的创造者一、类型系统的革命：从对象到元类1.1Python面向对象编程的基石在Python的面向对象体系中，一切皆对象的概念贯穿始终。但当我们深入探究这个论断时，会发现一个令人震惊的事实：类本身也是对象。这个发现将带领我们进入元编程的神秘领域。classSimpleClass:passinstance=SimpleClass()print(type(instan
Python协程从入门到实践：深度解析与案例实战七十二计 python 数据库开发语言
Python协程从入门到实践：深度解析与案例实战一、同步编程的瓶颈与异步编程革命1.1传统同步模式的困境在Python的同步编程模型中，代码按照严格的顺序执行，当遇到I/O操作（如网络请求、文件读写、数据库查询）时，整个程序会陷入阻塞状态。这种阻塞会导致CPU资源的巨大浪费，特别是在处理高并发场景时，程序的吞吐量会急剧下降。importtimedefsync_task(n):print(f"任务{
【开源】瓦AI自瞄全套上市源码 - 含完整编译教程 6v6-博客人工智能
项目简介瓦AI智能系统是完整的AI解决方案源码，主要功能包括：自然语言处理(NLP)计算机视觉(CV)语音识别(ASR)知识图谱构建核心功能技术架构前端：Vue3+TypeScript后端：Python3.10+FastAPIAI框架：PyTorch2.0数据库：PostgreSQL+Redis代码结构core/├──nlp/├──cv/web/api/docs/使用说明环境准备：sudoapti
Python 爬虫深度解析：独立艺术家作品及展览信息抓取西攻城狮北 python 爬虫开发语言
一、引言在当今数字化时代，独立艺术家的作品和展览信息往往散落在各个艺术网站、社交媒体平台以及艺术论坛上。对于艺术爱好者、收藏家以及艺术研究者来说，及时、全面地获取这些信息具有重要意义。然而，手动搜索和整理这些信息不仅耗时费力，而且容易遗漏关键内容。因此，利用Python爬虫技术自动抓取和整理独立艺术家的作品及展览信息，成为了提高效率和获取全面艺术资讯的有效手段。本文将深入讲解如何使用Python爬
Micropython RP2040 驱动MG90S zkl389 单片机嵌入式硬件
MG90S是一种位置（角度）伺服的驱动器，适用于那些需要角度不断变化并可以保持的控制系统。其驱动原理如下：控制信号由接收机的通道进入信号调制芯片，获得直流偏置电压。它内部有一个基准电路，产生周期为20ms，宽度为1.5ms的基准信号（为舵机转动时的中间位置），将获得的直流偏置电压与电位器的电压比较，获得电压差输出。最后，电压差的正负输出到电机驱动芯片决定电机的正反转。当电机转速一定时，通过级联减速
V4L2&&Gstreamer媒体控制工具(五) Android系统攻城狮 Camera系统实战系列媒体 linux 网络
简介：CSDN博客专家，专注Android/Linux系统，分享多mic语音方案、音视频、编解码等技术，与大家一起成长！优质专栏：Audio工程师进阶系列【原创干货持续更新中……】人生格言：
Python使用阿里镜像 xiaowen5555555 python 开发语言 linux
获取包的版本号piplist使用阿里云镜像临时使用pipinstall包名-ihttps://mirrors.aliyun.com/pypi/simple/以后都使用阿里云的源pipconfigsetglobal.index-urlhttps://mirrors.aliyun.com/pypi/simple/
Python国内镜像源下载地址何足介怀｀ python python 开发语言
使用pip或者conda安装包的时候，会直接指向Python官网，下载速度会很慢，使用如下几个国内的镜像源网址来提升安装第三方库的速度是不错的选择。清华大学镜像源（速度快，完整性强）https://pypi.tuna.tsinghua.edu.cn/simple2.阿里云镜像源https://mirrors.aliyun.com/pypi/simple/华为云（完全度和速度均中等）https://
Python设置阿里云镜像源教程：解决PIP安装依赖包下载速度慢的问题 mosquito_lover1 python 阿里云 pip
在Python中，你可以通过修改pip的配置文件来设置阿里云镜像源，以加速包的安装。以下是具体步骤：1.临时使用阿里云镜像源你可以在使用pip安装包时，通过-i参数临时指定阿里云镜像源：pipinstall-ihttps://mirrors.aliyun.com/pypi/simple/例如，安装requests包：pipinstallrequests-ihttps://mirrors.aliyu
python爬虫之爬取bing网页图片纯小白菜鸟 python python 爬虫
frombs4importBeautifulSoup：导入BeautifulSoup库，用于解析HTML和XML文档。headers={...}：定义了一个请求头，它包含了一个User-Agent字符串，这个字符串告诉网站我们的请求是从哪种浏览器发出的。这有助于模拟真实的浏览器行为，有些网站可能会拒绝没有User-Agent的请求。sousuo=input('主人要看什么图片~：')：从用户那里获
微服务集成测试 -华为OD机试真题（A卷、Python）什码情况华为od 机试算法数据结构 python
题目描述现在有n个容器服务，服务的启动可能有一定的依赖性（有些服务启动没有依赖），其次，服务自身启动加载会消耗一些时间。给你一个n×n的二维矩阵useTime，其中useTime[i][i]=10表示服务i自身启动加载需要消耗10s，useTime[i][j]=1表示服务i启动依赖服务j启动完成，useTime[i][k]=0表示服务i启动不依赖服务k。其中0<=i,j,k
Python | 在Python项目中做多环境配置（环境变量使用.env文件）程序猿林仔 python python java linux
文章目录01需求场景02分别建立.env文件03指定当前的环境04在代码中加载对应的环境变量文件01需求场景在Python项目中，环境变量的配置通常会使用.env文件进行，但有时，我们的一个Python项目需要区分不同的运行环境，例如本地开发环境、测试环境、开发环境。本文就讲讲如何做多环境的配置。假设我们有三个环境：dev,test,pro。分别对应本地开发环境、测试环境、生产环境，这些环境中有的
利用 Python 与 DeepStream 构建视频流实时分析系统 Lunar* python 视频编解码
引言在视频监控、智能交通、安防等场景下，实时视频流分析的重要性不言而喻。传统的基于CPU的编解码方式在高分辨率或者高帧率视频处理上可能会存在效率瓶颈。而NVIDIADeepStream的出现，使得我们可以充分利用GPU的强大并行计算能力，对视频流进行高效的编解码和后续处理，大幅提升整体性能。在本文中，我们会介绍如何基于DeepStream框架搭建一个视频流解码—处理—编码推流的管线。主要优势在于利
Auto-Encoding Variational Bayes论文笔记 catbird233 深度生成模型笔记 vae论文笔记
本文地址：http://blog.csdn.net/qq_31456593/article/details/77743840深度学习博客目录：http://blog.csdn.net/qq_31456593/article/details/69340697introduce这篇论文将变分贝叶斯和神经网络结合起来，用神经网络学习变分推导的参数，以得到后验推理p(z|x)的似然，并获得了一个效果不错的
Redis常用命令详解：从基础到高阶应用指南 love黄甜心 redis 数据库缓存
Redis常用命令详解：从基础到高阶应用指南一、Redis命令使用须知两种连接方式：命令行工具：redis-cli编程客户端（Java/Python等）通用语法：COMMANDKEY[PARAMS]返回值类型：简单字符串（SimpleStrings）错误信息（Errors）整型（Integers）批量字符串（BulkStrings）数组（Arrays）二、核心数据类型操作命令1.字符串（Strin
AI RAG策略中重排序（Re-rank）技术的深度解析与主流模型对比 weixin_28849355 人工智能
本文内容由巧章AI辅助生成巧章AI：长篇文章生成工具，aiqiaozhang.com如需体验可加v获取专属邀请码：safa11011引言检索增强生成（Retrieval-AugmentedGeneration,RAG）技术近年来在自然语言处理领域取得了显著进展。RAG结合了传统的信息检索技术和现代的生成模型，旨在通过从大规模文档库中检索相关信息并将其融入到生成模型中，从而提升生成文本的质量和准确性
策略模式——本质是通过Context类来作为中心控制单元，对不同的策略进行调度分配。振鹏Dong 23种设计模式策略模式 java
策略模式本质是通过Context类来作为中心控制单元，对不同的策略进行调度分配。策略模式(strategypattern)的原始定义是：定义一系列算法，将每一个算法封装起来，并使它们可以相互替换.策略模式让算法可以独立于使用它的客户端而变化.在软件开发中，经常会遇到这种情况，开发一个功能可以通过多个算法去实现，我们可以将所有的算法集中在一个类中，在这个类中提供多个方法，每个方法对应一个算法，或者我
fastapi celery flower rabbitmq redis 可运行demo m0_75101866 fastapi rabbitmq 分布式
资料1.FastAPiCeleryRabbitMQ与Redis的使用，并使用Flower监控Celery状态-星尘的博客-博客园2.Celery+Flower+FastAPI+RabbitMQ，Python实现异步消息队列和监控_fastapirabbitmq-CSDN博客3.FastAPI如何集成celery实现定时任务和异步任务并且使用docker-compose部署-JentZhang-博客
pyside6/pyqt6/pyside/pyqt 构建QGraphicsItem拖拽设置形状的矩形框 LEILEI18A Python python pyside6 pyqt6 QGraphics 矩形框
pyside6/pyqt6/pyside/pyqt鼠标调整矩形框尺寸大小目录1.需求2.实际效果3.实际代码1.需求[1]采用pyside6（pyqt同样）的QGraphicsView、QGraphicsScene、QGraphicsItem实现ROI矩形框的绘制，类似labelimg等深度学习CV标注工具的矩形框标注功能；[2]由于pyside6中QGraphicsRectItem只支持设置几个
遥感影像智能化分割分类工程化实施路径摸索 grainseed python ai 深度学习图像处理分类开源软件
本文总结了基于遥感影像的信息采集工作中“自上而下、一步到位”工作模式下应用深度学习最新智能解译技术方面面临的问题与困境，期望通过“自下而上、分步到位”的途径进行突破，回顾了在这方面的摸索、试验过程，对初步成果——一个交互式自动识别地物边线的QGIS插件Monitask——进行了介绍，并与同类工作进行了比较，可供从事遥感影像分析、地理信息采集工作和研究的同行们参考借鉴。如果对过程不感兴趣，可以直接跳
大模型-提示词（Prompt）技巧琉璃梦境 prompt 人工智能语言模型
1、什么是提示词？提示词（Prompt）是用户发送给大语言模型的问题、指令或请求，用来明确地告诉模型用户想要解决的问题或完成的任务，是大语言模型理解用户需求并据此生成相关、准确回答或内容的基础。对于大语言模型来说，提示词就是用户输入给大语言模型的文本信息。下面我们来看一个对大模型提问的示例：>请结合《哪吒之魔童降世》整个系列评价最近刚刚上映的电影《哪吒之魔童闹海》-----------------
java黑皮书21.6----（统计输入数字的个数）遇见小码 Java初学者 java 数据结构开发语言
问题描述：提示：建议了解Hashmap还有Collections的使用读取不定个数的整数，然后统计出现频率最高的数难点分析：提示：Hashmap十分类似Python中的字典，也是键值对的方式如果学过python对键值对这样的存储方式一定不陌生依据题意首先我们需要创建线性表来接受不定个数的整数：ArrayListarrayList=newArrayListhasmap=newHashMaparray
打破EPUB文件的神秘面纱：如何有效加载和使用EPUB文件进行AI文档处理 sjufgwgfhoia 人工智能 python
引言在当今的信息时代，EPUB格式已经成为电子书和文档共享的标准之一。对于开发者和数据科学家，尤其是那些在处理自然语言处理（NLP）和人工智能（AI）项目中，能够有效地处理和操作EPUB文件显得尤为重要。在本文中，我们将探讨如何使用Python库来加载和解析EPUB文件，以便在下游AI任务中使用。主要内容1.什么是EPUB？EPUB是一种电子书文件格式，扩展名为“.epub”。它被广泛支持于许多电
一步步教你使用 NVIDIA 推出的全新GPU加速求解器 cuOpt：解锁超高效率的求解体验 Lins号丹运筹优化求解器 cuOpt
文章目录1.什么是cuOpt2.基于GPU的求解器作为传统求解器的补充3.cuOptAPI详细使用教程3.1cuOpt求解“最后一英里配送”案例3.1.1WebGUI演示3.1.2基于API的Python脚本演示4.补充阅读资料1.什么是cuOptNVIDIA在2025年的GTC大会上宣布，计划于今年晚些时候以开源形式发布其AI决策优化引擎cuOpt，供开发者、研究人员和企业免费使用（NVIDIA
Python高效计算库Joblib的详细入门教程 Lins号丹 Python编程 python joblib 并行计算
文章目录1.Joblib库是什么？2.核心功能介绍及演示2.1高效序列化和反序列化对象2.2快速磁盘缓存2.3并行计算1.Joblib库是什么？Joblib是一个用于在Python中进行高效计算的开源库，提供了一些用于内存映射和并行计算的工具，能大幅提高科学计算和数据分析的效率，特别适合于需要进行重复计算或大规模数据处理的任务。Joblib库的常用关键功能包括对象高效序列化、函数值临时缓存以及并行
学习笔记简记day3 zhuyixiangyyds 学习笔记 python
文章目录四.Python基础9.列表(4)增、删、改(续)(5)列表常用API10.id函数11.元组(tuple)(1)两种创建方法(2)查看元组(3)删除元组**(4)解包技能(非常重要！！)**(5)元组常用API12.字典dict(1)两种创建方式(2)增加或修改(3)删除(4)查询键值对(5)字典常用API13.集合（set/frozenset）未完待续..四.Python基础9.列表(
学习笔记简记day5 zhuyixiangyyds 学习笔记 python
文章目录四.Python基础15.运算符(续)(1)算术运算符(2)比较运算符(3)逻辑运算符(4)赋值运算符(5)按位运算符(6)身份运算符(7)成员运算符(8)三目运算符16.表达式17.语句(未完待续..)四.Python基础15.运算符(续)(1)算术运算符符号说明示例+加法1+1.5=2.5-减法1-1.5=-0.5*乘法2*3=4**幂运算2**3=8/除法5/2=2.5%取模（取余数
走进人工智能：开启智能时代的奇幻之旅 qzfeiyi 请勿购买嵌入式硬件
在这个科技飞速发展的时代，人工智能（AI）就像一位超级英雄，以惊人的速度闯进我们的生活，悄然改变着世界的每一个角落。从智能手机里聪明伶俐的语音助手，到自动驾驶汽车展现的神奇“驾驶技术”，人工智能的身影无处不在。今天，就让我们一起踏上这场充满惊喜的人工智能探索之旅，揭开它神秘的面纱。你可能会好奇，人工智能到底是什么？简单来说，人工智能就是让计算机学会像人类一样思考和学习，从而完成各种复杂的任务。这听
遍历dom 并且存储（将每一层的DOM元素存在数组中）换个号韩国红果果 JavaScript html
数组从0开始！！ var a=[],i=0; for(var j=0;j<30;j++){ a[j]=[];//数组里套数组，且第i层存储在第a[i]中 } function walkDOM(n){ do{ if(n.nodeType!==3)//筛选去除#text类型 a[i].push(n); //con
Android+Jquery Mobile学习系列(9)-总结和代码分享白糖_ JQuery Mobile
目录导航经过一个多月的边学习边练手，学会了Android基于Web开发的毛皮，其实开发过程中用Android原生API不是很多，更多的是HTML/Javascript/Css。个人觉得基于WebView的Jquery Mobile开发有以下优点： 1、对于刚从Java Web转型过来的同学非常适合，只要懂得HTML开发就可以上手做事。 2、jquerym
impala参考资料 dayutianfei impala
记录一些有用的Impala资料 1. 入门资料 >>官网翻译： http://my.oschina.net/weiqingbin/blog?catalog=423691 2. 实用进阶 >>代码&架构分析： Impala/Hive现状分析与前景展望：http
JAVA 静态变量与非静态变量初始化顺序之新解周凡杨 java 静态非静态顺序
今天和同事争论一问题，关于静态变量与非静态变量的初始化顺序，谁先谁后，最终想整理出来！测试代码： import java.util.Map; public class T { public static T t = new T(); private Map map = new HashMap(); public T(){ System.out.println(&quo
跳出iframe返回外层页面 g21121 iframe
在web开发过程中难免要用到iframe，但当连接超时或跳转到公共页面时就会出现超时页面显示在iframe中，这时我们就需要跳出这个iframe到达一个公共页面去。首先跳转到一个中间页，这个页面用于判断是否在iframe中，在页面加载的过程中调用如下代码： <script type="text/javascript"> //<!-- function
JAVA多线程监听JMS、MQ队列 510888780 java多线程
背景：消息队列中有非常多的消息需要处理，并且监听器onMessage（）方法中的业务逻辑也相对比较复杂，为了加快队列消息的读取、处理速度。可以通过加快读取速度和加快处理速度来考虑。因此从这两个方面都使用多线程来处理。对于消息处理的业务处理逻辑用线程池来做。对于加快消息监听读取速度可以使用1.使用多个监听器监听一个队列；2.使用一个监听器开启多线程监听。对于上面提到的方法2使用一个监听器开启多线
第一个SpringMvc例子布衣凌宇 spring mvc
第一步：导入需要的包；第二步：配置web.xml文件 <?xml version="1.0" encoding="UTF-8"?> <web-app version="2.5" xmlns="http://java.sun.com/xml/ns/javaee" xmlns:xsi=
我的spring学习笔记15-容器扩展点之PropertyOverrideConfigurer aijuans Spring3
PropertyOverrideConfigurer类似于PropertyPlaceholderConfigurer，但是与后者相比，前者对于bean属性可以有缺省值或者根本没有值。也就是说如果properties文件中没有某个bean属性的内容，那么将使用上下文（配置的xml文件）中相应定义的值。如果properties文件中有bean属性的内容，那么就用properties文件中的值来代替上下
通过XSD验证XML antlove xml schema xsd validation SchemaFactory
1. XmlValidation.java package xml.validation; import java.io.InputStream; import javax.xml.XMLConstants; import javax.xml.transform.stream.StreamSource; import javax.xml.validation.Schem
文本流与字符集百合不是茶 PrintWrite()的使用字符集名字别名获取
文本数据的输入输出; 输入;数据流,缓冲流输出;介绍向文本打印格式化的输出PrintWrite(); package 文本流; import java.io.FileNotFound
ibatis模糊查询sqlmap-mapping-**.xml配置 bijian1013 ibatis
正常我们写ibatis的sqlmap-mapping-*.xml文件时，传入的参数都用##标识，如下所示： <resultMap id="personInfo" class="com.bijian.study.dto.PersonDTO"> <res
java jvm常用命令工具——jdb命令(The Java Debugger) bijian1013 java jvm jdb
用来对core文件和正在运行的Java进程进行实时地调试，里面包含了丰富的命令帮助您进行调试，它的功能和Sun studio里面所带的dbx非常相似，但 jdb是专门用来针对Java应用程序的。现在应该说日常的开发中很少用到JDB了，因为现在的IDE已经帮我们封装好了，如使用ECLI
【Spring框架二】Spring常用注解之Component、Repository、Service和Controller注解 bit1129 controller
在Spring常用注解第一步部分【Spring框架一】Spring常用注解之Autowired和Resource注解（http://bit1129.iteye.com/blog/2114084）中介绍了Autowired和Resource两个注解的功能，它们用于将依赖根据名称或者类型进行自动的注入，这简化了在XML中，依赖注入部分的XML的编写，但是UserDao和UserService两个bea
cxf wsdl2java生成代码super出错,构造函数不匹配 bitray super
由于过去对于soap协议的cxf接触的不是很多,所以遇到了也是迷糊了一会.后来经过查找资料才得以解决. 初始原因一般是由于jaxws2.2规范和jdk6及以上不兼容导致的.所以要强制降为jaxws2.1进行编译生成.我们需要少量的修改: 我们原来的代码 wsdl2java com.test.xxx -client http://..... 修改后的代
动态页面正文部分中文乱码排障一例 ronin47
公司网站一部分动态页面，早先使用apache+resin的架构运行，考虑到高并发访问下的响应性能问题，在前不久逐步开始用nginx替换掉了apache。不过随后发现了一个问题，随意进入某一有分页的网页，第一页是正常的（因为静态化过了）；点“下一页”，出来的页面两边正常，中间部分的标题、关键字等也正常，唯独每个标题下的正文无法正常显示。因为有做过系统调整，所以第一反应就是新上
java-54- 调整数组顺序使奇数位于偶数前面 bylijinnan java
import java.util.Arrays; import java.util.Random; import ljn.help.Helper; public class OddBeforeEven { /** * Q 54 调整数组顺序使奇数位于偶数前面 * 输入一个整数数组，调整数组中数字的顺序，使得所有奇数位于数组的前半部分，所有偶数位于数组的后半
从100PV到1亿级PV网站架构演变 cfyme 网站架构
一个网站就像一个人，存在一个从小到大的过程。养一个网站和养一个人一样，不同时期需要不同的方法，不同的方法下有共同的原则。本文结合我自已14年网站人的经历记录一些架构演变中的体会。 1：积累是必不可少的架构师不是一天练成的。 1999年，我作了一个个人主页，在学校内的虚拟空间，参加了一次主页大赛，几个DREAMWEAVER的页面，几个TABLE作布局，一个DB连接，几行PHP的代码嵌入在HTM
[宇宙时代]宇宙时代的GIS是什么？ comsci Gis
我们都知道一个事实，在行星内部的时候，因为地理信息的坐标都是相对固定的，所以我们获取一组GIS数据之后，就可以存储到硬盘中，长久使用。。。但是，请注意，这种经验在宇宙时代是不能够被继续使用的宇宙是一个高维时空
详解create database命令 czmmiao database
完整命令 CREATE DATABASE mynewdb USER SYS IDENTIFIED BY sys_password USER SYSTEM IDENTIFIED BY system_password LOGFILE GROUP 1 ('/u01/logs/my/redo01a.log','/u02/logs/m
几句不中听却不得不认可的话 datageek
1、人丑就该多读书。 2、你不快乐是因为：你可以像猪一样懒，却无法像只猪一样懒得心安理得。 3、如果你太在意别人的看法，那么你的生活将变成一件裤衩，别人放什么屁，你都得接着。 4、你的问题主要在于：读书不多而买书太多，读书太少又特爱思考，还他妈话痨。 5、与禽兽搏斗的三种结局：(1)、赢了，比禽兽还禽兽。(2)、输了，禽兽不如。(3)、平了，跟禽兽没两样。结论：选择正确的对手很重要。 6
1 14:00 PHP中的“syntax error, unexpected T_PAAMAYIM_NEKUDOTAYIM”错误 dcj3sjt126com PHP
原文地址：http://www.kafka0102.com/2010/08/281.html 因为需要，今天晚些在本机使用PHP做些测试，PHP脚本依赖了一堆我也不清楚做什么用的库。结果一跑起来，就报出类似下面的错误：“Parse error: syntax error, unexpected T_PAAMAYIM_NEKUDOTAYIM in /home/kafka/test/
xcode6 Auto layout and size classes dcj3sjt126com ios
官方GUI https://developer.apple.com/library/ios/documentation/UserExperience/Conceptual/AutolayoutPG/Introduction/Introduction.html iOS中使用自动布局（一） http://www.cocoachina.com/ind
通过PreparedStatement批量执行sql语句【sql语句相同，值不同】梦见x光 sql 事务批量执行
比如说：我有一个List需要添加到数据库中，那么我该如何通过PreparedStatement来操作呢？ public void addCustomerByCommit(Connection conn , List<Customer> customerList) { String sql = "inseret into customer(id
程序员必知必会----linux常用命令之十【系统相关】 hanqunfeng Linux常用命令
一.linux快捷键 Ctrl+C : 终止当前命令 Ctrl+S : 暂停屏幕输出 Ctrl+Q : 恢复屏幕输出 Ctrl+U : 删除当前行光标前的所有字符 Ctrl+Z : 挂起当前正在执行的进程 Ctrl+L : 清除终端屏幕，相当于clear 二.终端命令 clear : 清除终端屏幕 reset : 重置视窗，当屏幕编码混乱时使用 time com
NGINX IXHONG nginx
pcre 编译安装 nginx conf/vhost/test.conf upstream admin { server 127.0.0.1:8080; } server { listen 80; &
设计模式--工厂模式 kerryg 设计模式
工厂方式模式分为三种： 1、普通工厂模式：建立一个工厂类，对实现了同一个接口的一些类进行实例的创建。 2、多个工厂方法的模式：就是对普通工厂方法模式的改进，在普通工厂方法模式中，如果传递的字符串出错，则不能正确创建对象，而多个工厂方法模式就是提供多个工厂方法，分别创建对象。 3、静态工厂方法模式：就是将上面的多个工厂方法模式里的方法置为静态，
Spring InitializingBean/init-method和DisposableBean/destroy-method mx_xiehd java spring bean xml
1.initializingBean/init-method 实现org.springframework.beans.factory.InitializingBean接口允许一个bean在它的所有必须属性被BeanFactory设置后，来执行初始化的工作，InitialzingBean仅仅指定了一个方法。通常InitializingBean接口的使用是能够被避免的，（不鼓励使用，因为没有必要
解决Centos下vim粘贴内容格式混乱问题 qindongliang1922 centos vim
有时候，我们在向vim打开的一个xml，或者任意文件中，拷贝粘贴的代码时，格式莫名其毛的就混乱了，然后自己一个个再重新，把格式排列好，非常耗时，而且很不爽，那么有没有办法避免呢？答案是肯定的，设置下缩进格式就可以了，非常简单：在用户的根目录下直接vi ~/.vimrc文件然后将set pastetoggle=<F9> 写入这个文件中，保存退出，重新登录，
netty大并发请求问题 tianzhihehe netty
多线程并发使用同一个channel java.nio.BufferOverflowException: null at java.nio.HeapByteBuffer.put(HeapByteBuffer.java:183) ~[na:1.7.0_60-ea] at java.nio.ByteBuffer.put(ByteBuffer.java:832) ~[na:1.7.0_60-ea]
Hadoop NameNode单点问题解决方案之一 AvatarNode wyz2009107220 NameNode
我们遇到的情况 Hadoop NameNode存在单点问题。这个问题会影响分布式平台24*7运行。先说说我们的情况吧。我们的团队负责管理一个1200节点的集群(总大小12PB)，目前是运行版本为Hadoop 0.20，transaction logs写入一个共享的NFS filer(注：NetApp NFS Filer)。经常遇到需要中断服务的问题是给hadoop打补丁。 DataNod