cv_lhp

李沐动手学深度学习V2-机器翻译和数据集

一. 机器翻译和数据集

1. 介绍

机器翻译的数据集是由源语言和目标语言的文本序列对组成的，因此需要一种完全不同的方法来预处理机器翻译数据集，而不是复用语言模型的预处理程序。

2. 下载和预处理数据集

首先，下载一个由Tatoeba项目的双语句子对组成的“英－法”数据集，数据集中的每一行都是制表符分隔的文本序列对，序列对由英文文本序列和翻译后的法语文本序列组成。注意每个文本序列可以是一个句子，也可以是包含多个句子的一个段落。在将英语翻译成法语的机器翻译问题中，英语是源语言（source language），法语是目标语言（target language）。

import torch
import os
import d2l.torch
d2l.torch.DATA_HUB['fra-eng'] = (d2l.torch.DATA_URL + 'fra-eng.zip',
                           '94646ad1522d915e7b0f9296181140edcf86a4f5')
"""载入“英语－法语”数据集"""
def read_data_nmt():
    data_dir = d2l.torch.download_extract('fra-eng')
    with open(os.path.join(data_dir,'fra.txt'),'r',encoding='utf-8') as f:
        return f.read()
raw_text = read_data_nmt() #注意raw_text是一个String类型
print(raw_text[:80])

'''
输出结果如下：
Go.	Va !
Hi.	Salut !
Run!	Cours !
Run!	Courez !
Who?	Qui ?
Wow!	Ça alors !
Fire!
'''

下载数据集后，原始文本数据需要经过几个预处理步骤，例如用空格代替不间断空格（non-breaking space），使用小写字母替换大写字母，并在单词和标点符号之间插入空格。

# 将字符和标点符号,.!?以空格方式分隔开，同时将不间断空格用空格符替换，用于下面tokenize_nmt()处理
def process_nmt(text):
    def no_space(char,pre_char):
        return char in set(',.!?') and pre_char != ' '
    #text就是一个String类型，将不间断空格用空格符替换
    # 使用空格替换不间断空格
    # 使用小写字母替换大写字母
    text = text.replace('\u202f',' ').replace('\xa0',' ').lower()
    # 在单词和标点符号之间插入空格
    out = [' '+char if i>0 and no_space(char,text[i-1]) else char for i,char in enumerate(text)]
    return ''.join(out)
text = process_nmt(raw_text)
print(text[:80])

3. 词元化

在机器翻译中，将单词级词元化，而不是将字符级词元化，下面的tokenize_nmt（）函数对前num_examples个文本序列对进行词元化， 其中每个词元要么是一个词，要么是一个标点符号，此函数返回两个词元列表：source和target： source[i]是源语言（这里是英语）第个文本序列的词元列表， target[i]是目标语言（这里是法语）第个文本序列的词元列表。

def tokenize_nmt(text,num_examples=None):
    """词元化“英语－法语”数据数据集"""
    source,target = [],[]
    for i,line in enumerate(text.split('\n')):
        if num_examples and i>num_examples:
            break
        parts = line.split('\t')
        if len(parts) == 2 :
            # source里面每个元素是一个列表，代表每行数据英文那部分，英文那部分是通过空白字符分隔形成的列表
            source.append(parts[0].split(' '))
            # target里面每个元素是一个列表，代表每行数据法语那部分，法语那部分是通过空白字符分隔形成的列表
            target.append(parts[1].split(' '))
    return source,target
'''
source，target是一个list of list ，例如：
[['go', '.'],
  ['hi', '.'],
  ['run', '!'],
  ['run', '!'],
  ['who', '?'],
  ['wow', '!']]
[['va', '!'],
 ['salut', '!'],
 ['cours', '!'],
 ['courez', '!'],
 ['qui', '?'],
 ['ça', 'alors', '!']]
'''
source,target = tokenize_nmt(text)
source[:6],target[:6]

'''
输出结果如下：
([['go', '.'],
  ['hi', '.'],
  ['run', '!'],
  ['run', '!'],
  ['who', '?'],
  ['wow', '!']],
 [['va', '!'],
  ['salut', '!'],
  ['cours', '!'],
  ['courez', '!'],
  ['qui', '?'],
'''

绘制每个文本序列所包含的词元数量的直方图，在这个简单的“英－法”数据集中，大多数文本序列的词元数量少于 20 个，如下图结果所示。

def show_list_len_pair_hist(legend,xlabel,ylabel,xlist,ylist):
    """绘制列表长度对的直方图"""
    d2l.torch.set_figsize()
    d2l.torch.plt.xlabel(xlabel)
    d2l.torch.plt.ylabel(ylabel)
    _,_,patches = d2l.torch.plt.hist([[len(l) for l in xlist],[len(l) for l in ylist]])
    for patch in patches[1].patches:
        patch.set_hatch('/')
    d2l.torch.plt.legend(legend)
show_list_len_pair_hist(['source','target'],'# tokens per sequence','count',source,target)

4. 词表

由于机器翻译数据集由语言对组成，因此可以分别为源语言和目标语言构建两个词表。使用单词级词元化时，词表大小将明显大于使用字符级词元化时的词表大小。为了缓解这一问题，这里将出现次数少于2次的低频率词元视为相同的未知（“”）词元。除此之外还指定了额外的特定词元，例如在小批量时用于将序列填充到相同长度的填充词元（“”），以及序列的开始词元（“”）和结束词元（“”），这些特殊词元在自然语言处理任务中比较常用。

#source 为list of list
src_vocab = d2l.torch.Vocab(source,min_freq=2,reserved_tokens=['','','']) #''对应id为0，''对应id为1,''对应id为2,''对应id为3
len(src_vocab) #词表中唯一词的个数，对应生成对应的id个数

5. 加载数据集

语言模型中的序列样本都有一个固定的长度，无论这个样本是一个句子的一部分还是跨越了多个句子的一个片断。这个固定长度是由 num_steps（时间步数或词元数量）参数指定的。在机器翻译中，每个样本都是由源和目标组成的文本序列对，其中的每个文本序列可能具有不同的长度。
为了提高计算效率，可以通过截断（truncation）和填充（padding）方式将文本序列变成一个固定num_steps长度的样本序列，从而有利于网络一次性加载一个批量的样本数据。假设同一个小批量中的每个序列都应该具有相同的长度num_steps，那么如果文本序列的词元数目少于num_steps时，将继续在其末尾添加特定的“”词元，直到其长度达到num_steps；反之将截断文本序列时，只取其前num_steps 个词元，并且丢弃剩余的词元。这样每个文本序列将具有相同的长度，以便以相同形状的小批量进行加载。

#将每个样本序列采取填充或者截断方式变成一个固定长度的序列用于下面数据集加载，网络训练
def truncate_padding(line,num_steps,padding_token):
    """截断或填充文本序列"""
    if len(line)>num_steps:
        return line[:num_steps]  # 截断
    return line+[padding_token]*(num_steps-len(line)) # 填充
truncate_padding(src_vocab[source[0]],10,src_vocab[''])

定义一个函数，将文本序列转换成小批量数据集用于训练。将特定的“”词元添加到所有序列的末尾，用于表示序列的结束，当模型通过一个词元接一个词元地生成序列进行预测时，生成的“”词元说明完成了序列预测输出工作，此外记录了每个文本序列的真实长度，统计长度时排除了填充词元。

def build_array_nmt(lines,vocab,num_steps):
    """将机器翻译的文本序列转换成小批量"""
    # vocab[data]：无论data是一个词，或者是一个列表，或者是一个list of list 类型，返回的都是一个list，list里面是这些词对应的id
    # lines是一个list of list类型，里面每个元素是一个list，代表一个英文序列，也即是txt文件中每行数据中英文那部分序列，list中每个元素是这个英文序列的每个词的token
    lines = [vocab[line] for line in lines]
    lines = [line+[vocab['']] for line in lines] #给每个英文序列(一个英文句子)添加一个结束符''
    # array 是一个list of list ，里面每个元素是一个list，代表每个英文序列的token
    array = torch.tensor([truncate_padding(line,num_steps,vocab['']) for line in lines]) #表明并不是每一个英文序列token都会以''结尾，需要看这个英文序列的长度和num_steps
    valid_len = (array != vocab['']).type(torch.int32).sum(1) #sum(dim=1)表示求出每个序列样本的真实长度，除开填充长度，为一个list列表，里面每个元素代码一个英文样本序列真是长度真实
    return array,valid_len

6. 定义数据集迭代器

定义load_data_nmt（）函数来返回数据迭代器，以及源语言和目标语言的两种词表。

def load_data_nmt(batch_size,num_steps,num_examples=600):
    """返回翻译数据集的迭代器和词表"""
    #读取txt文件
    raw_text = read_data_nmt()
    # 将字符和标点符号,.!?以空格方式分隔开，同时将不间断空格用空格符替换，用于下面tokenize_nmt()处理
    text = process_nmt(raw_text)
    # 将每行英文和法语句子分隔开，同时将英文句子以空格分隔开，将法语句子以空格分隔开，source,target都是list of list类型，num_examples表示读取文本数据最大行数是多少
    source,target = tokenize_nmt(text,num_examples)
    # 建立英文词表vocab，法语词表vocab
    src_vocab = d2l.torch.Vocab(source,min_freq=2,reserved_tokens=['','',''])
    tgt_vocab = d2l.torch.Vocab(target,min_freq=2,reserved_tokens=['','',''])
    # 将source,target转变成对应src_vocab,tgt_vocab里面的词表id索引，同时将每个句子样本序列通过裁剪或者填充成一个固定num_steps长度的句子
    src_array,src_valid_len = build_array_nmt(source,src_vocab,num_steps)
    tgt_array,tgt_valid_len = build_array_nmt(target,tgt_vocab,num_steps)
    data_arrays = (src_array,src_valid_len,tgt_array,tgt_valid_len)
    # 生成数据集迭代器
    #返回值data_iter是四个：批量X（批量序列数据集）, 批量X_valid_len（批量中每个序列样本的长度）,
    # 批量Y（批量标签lable）, 批量Y_valid_len（批量中每个目标序列样本的长度）
    #返回值data_iter是一个元组，有四个值：批量X（批量序列数据集）, 批量X_valid_len（批量中每个序列样本的长度）, 批量Y（批量标签lable）, 批量Y_valid_len（批量中每个目标序列样本的长度）
    data_iter = d2l.torch.load_array(data_arrays,batch_size)#生成数据集迭代器是将所有样本数据随机打乱然后再把batch_size个样本数据组合在一起生成一个批量样本数据
    #返回数据迭代器,src_vocab,tgt_vocab
    return data_iter,src_vocab,tgt_vocab

读出“英语－法语”数据集中的第一个小批量数据：

data_iter,src_vocab,tgt_vocab = load_data_nmt(batch_size=2,num_steps=8)
for X,X_valid_len,Y,Y_valid_len in data_iter:
    print('X: ',X.type(torch.int32))
    print('X_valid_len: ',X_valid_len.type(torch.int32))
    print('Y: ',Y.type(torch.int32))
    print('Y_valid_len: ',Y_valid_len.type(torch.int32))
    break #只读出“英语－法语”数据集中的第一个小批量数据

'''
输出结果如下：
X:  tensor([[41, 11,  3,  1,  1,  1,  1,  1],
        [36, 12,  4,  3,  1,  1,  1,  1]], dtype=torch.int32)
X_valid_len:  tensor([3, 4], dtype=torch.int32)
Y:  tensor([[ 24,   9,   3,   1,   1,   1,   1,   1],
        [131,   4,   3,   1,   1,   1,   1,   1]], dtype=torch.int32)
Y_valid_len:  tensor([3, 3], dtype=torch.int32)
'''

7. 小结

机器翻译指的是将文本序列从一种语言自动翻译成另一种语言。
使用单词级词元化时的词表大小，将明显大于使用字符级词元化时的词表大小，为了缓解这一问题，可以将低频词元视为相同的未知词元。
通过截断和填充文本序列，可以保证所有的文本序列都具有相同的长度，以便以小批量的方式加载。

8. 全部代码

import torch
import os
import d2l.torch

d2l.torch.DATA_HUB['fra-eng'] = (d2l.torch.DATA_URL + 'fra-eng.zip',
                                 '94646ad1522d915e7b0f9296181140edcf86a4f5')


def read_data_nmt():
    """载入“英语－法语”数据集"""
    data_dir = d2l.torch.download_extract('fra-eng')
    with open(os.path.join(data_dir, 'fra.txt'), 'r', encoding='utf-8') as f:
        return f.read()


raw_text = read_data_nmt()  #注意raw_text是一个String类型
print(raw_text[:80])


# 将字符和标点符号,.!?以空格方式分隔开，同时将不间断空格用空格符替换，用于下面tokenize_nmt()处理
def process_nmt(text):
    def no_space(char, pre_char):
        return char in set(',.!?') and pre_char != ' '

    #text就是一个String类型，将不间断空格用空格符替换
    # 使用空格替换不间断空格
    # 使用小写字母替换大写字母
    text = text.replace('\u202f', ' ').replace('\xa0', ' ').lower()
    # 在单词和标点符号之间插入空格
    out = [' ' + char if i > 0 and no_space(char, text[i - 1]) else char for i, char in enumerate(text)]
    return ''.join(out)


text = process_nmt(raw_text)
print(text[:80])


def tokenize_nmt(text, num_examples=None):
    """词元化“英语－法语”数据数据集"""
    source, target = [], []
    for i, line in enumerate(text.split('\n')):
        if num_examples and i > num_examples:
            break
        parts = line.split('\t')
        if len(parts) == 2:
            # source里面每个元素是一个列表，代表每行数据英文那部分，英文那部分是通过空白字符分隔形成的列表
            source.append(parts[0].split(' '))
            # target里面每个元素是一个列表，代表每行数据法语那部分，法语那部分是通过空白字符分隔形成的列表
            target.append(parts[1].split(' '))
    return source, target


'''
source，target是一个list of list ，例如：
[['go', '.'],
  ['hi', '.'],
  ['run', '!'],
  ['run', '!'],
  ['who', '?'],
  ['wow', '!']]
[['va', '!'],
 ['salut', '!'],
 ['cours', '!'],
 ['courez', '!'],
 ['qui', '?'],
 ['ça', 'alors', '!']]
'''
source, target = tokenize_nmt(text)
source[:6], target[:6]


def show_list_len_pair_hist(legend, xlabel, ylabel, xlist, ylist):
    """绘制列表长度对的直方图"""
    d2l.torch.set_figsize()
    d2l.torch.plt.xlabel(xlabel)
    d2l.torch.plt.ylabel(ylabel)
    _, _, patches = d2l.torch.plt.hist([[len(l) for l in xlist], [len(l) for l in ylist]])
    for patch in patches[1].patches:
        patch.set_hatch('/')
    d2l.torch.plt.legend(legend)


show_list_len_pair_hist(['source', 'target'], '# tokens per sequence', 'count', source, target)
#source 为list of list
src_vocab = d2l.torch.Vocab(source, min_freq=2, reserved_tokens=['', '',
                                                                 ''])  #''对应id为0，''对应id为1,''对应id为2,''对应id为3
len(src_vocab)  #词表中唯一词的个数，对应生成对应的id个数


#将每个样本序列采取填充或者截断方式变成一个固定长度的序列用于下面数据集加载，网络训练
def truncate_padding(line, num_steps, padding_token):
    """截断或填充文本序列"""
    if len(line) > num_steps:
        return line[:num_steps]  # 截断
    return line + [padding_token] * (num_steps - len(line))  # 填充


truncate_padding(src_vocab[source[0]], 10, src_vocab[''])


def build_array_nmt(lines, vocab, num_steps):
    """将机器翻译的文本序列转换成小批量"""
    # vocab[data]：无论data是一个词，或者是一个列表，或者是一个list of list 类型，返回的都是一个list，list里面是这些词对应的id
    # lines是一个list of list类型，里面每个元素是一个list，代表一个英文序列，也即是txt文件中每行数据中英文那部分序列，list中每个元素是这个英文序列的每个词的token
    lines = [vocab[line] for line in lines]
    lines = [line + [vocab['']] for line in lines]  #给每个英文序列(一个英文句子)添加一个结束符''
    # array 是一个list of list ，里面每个元素是一个list，代表每个英文序列的token
    array = torch.tensor([truncate_padding(line, num_steps, vocab['']) for line in
                          lines])  #表明并不是每一个英文序列token都会以''结尾，需要看这个英文序列的长度和num_steps
    valid_len = (array != vocab['']).type(torch.int32).sum(
        1)  #sum(dim=1)表示求出每个序列样本的真实长度，除开填充长度，为一个list列表，里面每个元素代码一个英文样本序列真是长度真实
    return array, valid_len


def load_data_nmt(batch_size, num_steps, num_examples=600):
    """返回翻译数据集的迭代器和词表"""
    #读取txt文件
    raw_text = read_data_nmt()
    # 将字符和标点符号,.!?以空格方式分隔开，同时将不间断空格用空格符替换，用于下面tokenize_nmt()处理
    text = process_nmt(raw_text)
    # 将每行英文和法语句子分隔开，同时将英文句子以空格分隔开，将法语句子以空格分隔开，source,target都是list of list类型，num_examples表示读取文本数据最大行数是多少
    source, target = tokenize_nmt(text, num_examples)
    # 建立英文词表vocab，法语词表vocab
    src_vocab = d2l.torch.Vocab(source, min_freq=2, reserved_tokens=['', '', ''])
    tgt_vocab = d2l.torch.Vocab(target, min_freq=2, reserved_tokens=['', '', ''])
    # 将source,target转变成对应src_vocab,tgt_vocab里面的词表id索引，同时将每个句子样本序列通过裁剪或者填充成一个固定num_steps长度的句子
    src_array, src_valid_len = build_array_nmt(source, src_vocab, num_steps)
    tgt_array, tgt_valid_len = build_array_nmt(target, tgt_vocab, num_steps)
    data_arrays = (src_array, src_valid_len, tgt_array, tgt_valid_len)
    # 生成数据集迭代器
    #返回值data_iter是四个：批量X（批量序列数据集）, 批量X_valid_len（批量中每个序列样本的长度）,
    # 批量Y（批量标签lable）, 批量Y_valid_len（批量中每个目标序列样本的长度）
    #返回值data_iter是一个元组，有四个值：批量X（批量序列数据集）, 批量X_valid_len（批量中每个序列样本的长度）, 批量Y（批量标签lable）, 批量Y_valid_len（批量中每个目标序列样本的长度）
    data_iter = d2l.torch.load_array(data_arrays, batch_size)  #生成数据集迭代器是将所有样本数据随机打乱然后再把batch_size个样本数据组合在一起生成一个批量样本数据
    #返回数据迭代器,src_vocab,tgt_vocab
    return data_iter, src_vocab, tgt_vocab


data_iter, src_vocab, tgt_vocab = load_data_nmt(batch_size=2, num_steps=8)
for X, X_valid_len, Y, Y_valid_len in data_iter:
    print('X: ', X.type(torch.int32))
    print('X_valid_len: ', X_valid_len.type(torch.int32))
    print('Y: ', Y.type(torch.int32))
    print('Y_valid_len: ', Y_valid_len.type(torch.int32))
    break

8. 相关链接

机器翻译第一篇：李沐动手学深度学习V2-机器翻译和数据集
机器翻译第二篇：李沐动手学深度学习V2-Encoder-Decoder编码器和解码器架构
机器翻译第三篇：李沐动手学深度学习V2-seq2seq和代码实现
机器翻译第四篇：李沐动手学深度学习V2-基于注意力机制的seq2seq

UNet 改进：添加Transformer注意力机制增强捕捉长距离依赖关系的能力听风吹等浪起 AI 改进系列 transformer 深度学习人工智能
目录1.Transformer注意力机制2.Unet改进3.代码1.Transformer注意力机制TransformerBlock是Transformer模型架构的基本组件，广泛应用于机器翻译、文本摘要和情感分析等自然语言处理任务。TransformerBlock是一个由两个子组件组成的构建块：多头注意力机制和前馈神经网络。这两个组件协同工作，处理和转换输入序列。多头注意力机制负责从输入序列中捕
【考研计算机网络】课堂笔记4 第四章网络层_Network Layer 刘鑫磊up #操作系统计算机网络计算机网络
文章目录：一：网络层的功能1.异构网络互联2.路由与转发功能3.拥塞控制二：数据交换方式三：路由算法1.静态路由与动态路由1.1静态路由算法（又称非自适应路由算法）1.2动态路由算法（又称自适应路由算法)2.动态路由算法2.1距离-向量路由算法2.2链路状态路由算法2.3层次路由四：IPV41.概述2.IPV4分组2.1IPV4分组格式2.2IP数据报分片2.3网络层转发分组的流程3IPV4地址与
NVIDIA显卡型号有哪些？怎么知道自己电脑的型号？可靠的豆包蟹同志杂烩积累经验分享
NVIDIA显卡型号显卡分N卡和A卡，这个N卡指的是英伟达（NVIDIA），A卡之前是ATI（后来被AMD收购），现在的A卡指的就是AMD显卡。如果是为了玩游戏或者是学深度学习，选显卡肯定是要选N卡，因为A卡对于游戏优化的没有N卡好。（1）图中的GTX表示是英伟达的一个系列名称，全称叫GeForceGTX，GTX定位高端显卡系列，从低到高排名：GS/GT/GTS/GTX/RTX/Ultra，从20
四季沐歌太阳能24小时全国统一售后官方受理客服中心删了吧85 storm zookeeper hadoop hive
四季沐歌太阳能官方售后服务热线电话400-8867-917；四季沐歌太阳能官方全国统一售后服务热线号码400-8867-917；四季沐歌太阳能官方24小时服务电话400-8867-917；四季沐歌太阳能官方全国售后服务客服电话:400-9988-698；四季沐歌太阳能官方全国售后服务中心电话:400-8867-917。1.北京区域北京四季沐歌太阳能售后服务电话：400-8867-917，2.上海区
英伟达系列显卡大解析B100、H200、L40S、A100 2301_78234743 java
家里有了变故。。。快手数分秋招一面面经我发现算法岗也不很难进啊(深度学习)算法想转数开…Java零基础校招学习路线突击版（吐血整理）等的花都谢了的华子最后给开了22k，武汉，应该是14a。不过在这几个月里我坚定了搞几年快钱回家和np朋友因骂了hr，boos被封了哈哈哈在央企想被开除需要做什么？2024小米分布式存储研发急招华为2012被毁意向我发现算法岗也不很难进啊(深度学习)在央企想被开除需要做
eBest AI Hub全场景接入Deepseek eBest数字化转型方案人工智能
一、技术赋能，智创未来Deepseek的强大基因将为eBest产品注入新的活力即时智能响应：融合海量行业智慧与互联网搜索精华，提供秒级智能建议；多模态理解能力：突破界限，无缝融合文本、代码与图像理解，精准解析用户的需求；进化式深度学习：不断学习，持续进化，为用户提供日益完善、超越期待的服务体验。二、全场景赋能，体验再次跃升1.智能报表-数据洞察，指尖掌控升级后的智能报表功能，能够根据查询和检
人工智能：重塑未来生活与工作的科技力量 Geektec 问答专栏人工智能应用创新
方向一：介绍人工智能技术的发展历程和现状，指出它的应用领域和前景一、人工智能技术的发展历程人工智能（ArtificialIntelligence,AI）作为一门学科，其起源可以追溯到20世纪50年代。最初，AI的研究主要集中在逻辑推理、机器学习和自然语言处理等领域，目标是使机器能够模拟人类的智能行为。尽管在早期的探索中，AI遭遇了诸多挑战和瓶颈，但其发展潜力逐渐被认可，并在随后几十年中得到了迅速的
笔记-python之celery使用详解大白砌墙笔记 python 开发语言
Celery是一个用于处理异步任务的Python库，它允许你将任务分发到多个worker进行处理。以下是Celery的使用详解：安装Celery使用pip安装Celery：pipinstallcelery创建Celery实例首先，需要创建一个Celery实例，指定broker（消息中间件）和backend（结果存储）。fromceleryimportCeleryapp=Celery('tasks'
离散数学-万字课堂笔记-期末考试-考研复习-北航离散数学1 桃木山人考研数学离散数学期末
第一章逻辑语言1.1逻辑运算1.2命题逻辑合式公式1.3谓词逻辑合式公式1.4自然语言命题第二章命题逻辑语义2.1命题合式公式语义2.2推论式与等价式的语义2.3变换合式公式的语义2.4命题公式范式2.5等式演算2.6完全集第三章谓词逻辑语义3.1谓词合式公式语义3.2推论关系和相等关系3.3前束范式与斯科伦范式3.4一阶理论语言3.5论域、结构与模型第四章逻辑公理系统4.1形式系统4.2命题逻辑
Prompt工程：大模型沟通指南（人工智能到大模型） Harry技术 AI prompt 人工智能
文章目录人工智能到大模型机器学习深度学习大模型Prompt工程：大模型沟通的桥梁在人工智能的广袤领域中，大模型无疑是最为璀璨的明珠之一。它仿佛是一座连接人类与人工智能的桥梁，让我们能够更加深入地探索和利用人工智能的强大能力。而要实现与大模型的高效沟通，Prompt工程扮演着至关重要的角色。让我们一起走进Prompt工程的奇妙世界，探寻大模型沟通的奥秘。人工智能到大模型“人工智能是一种模拟人类智能的
RV1126笔记三十七：PaddleOCR检测模型训练殷忆枫 RV1126项目实战笔记
若该文为原创文章，转载请注明原文出处。PaddleOCR检测模型训练及验证测试1、准备数据集在PaddleOCR目录下新建文件夹：train_data,这个文件夹用于存放数据集的。使用的是网上大佬提供的车牌识别数据集，下载后，解压到train_data目录下。可以自己网上找，了可以找我要数据集，或自己标注数据集。2、配置文件在PaddleOCR主目录下：configs/det/ch_ppocr_v
uCOS-II学习笔记(一) abc94 uCOS-II 任务 dos borland os 编译器数据结构
第一章：范例在这一章里将提供三个范例来说明如何使用µC/OS-II。这一章是为了让读者尽快开始使用µC/OS-II。1.00安装µC/OS-II1.01INCLUDES.H#include"includes.h"INCLUDE.H可以使用户不必在工程项目中每个*.C文件中都考虑需要什么样的头文件。换句话说，INCLUDE.H是主头文件。这样做唯一的缺点是INCLUDES.H中许多头文件在一些*.C
大语言模型（LLMs）全面学习指南（非常详细）零基础入门到精通，收藏这一篇就够了网络安全大白科技程序员人工智能语言模型人工智能自然语言处理
大语言模型（LLMs）作为人工智能（AI）领域的一项突破性发展，已经改变了自然语言处理（NLP）和机器学习（ML）应用的面貌。这些模型，包括OpenAI的GPT-4o和Google的gemini系列等，已经展现出了在理解和生成类人文本方面的令人印象深刻的能力，使它们成为各行各业的宝贵工具。如下这份指南将涵盖LLMs的基础知识、训练过程、用例和未来趋势……一.WhatareLargeLanguage
大模型生成人物关系思维导图的实战教程 herosunly 大模型生成人物关系生成思维导图实战教程
大家好，我是herosunly。985院校硕士毕业，现担任算法研究员一职，热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。本文主要介绍了大模型生成人物关系思维导图的实战教程，希望对使用大语言模型的同学们有所帮
Docker配置代理，以保证可以快速拉取镜像霍志杰 docker 容器运维
序言本来不想写了，然后记笔记了，但是今天遇到这个问题了再一次，还是写一写吧，加深一下印象因为Docker被墙了，所以拉取Docker镜像的时候，需要通过代理的方式xxxxxxxxxx,此处省略十几个字，然后，在目标主机上面配置代理，但是需要注意的是，docker并不能使用bash的代理配置，所以需要额外配置docker的代理，这里需要注意，一开始认为不需要所以一直不通。配置Docker使用代理的配
《算法笔记》8.1小节——搜索专题-＞深度优先搜索（DFS）问题 C: 【递归入门】组合+判断素数圣保罗的大教堂《算法笔记》算法
题目描述已知n个整数b1,b2,…,bn以及一个整数k（k＜n）。从n个整数中任选k个整数相加，可分别得到一系列的和。例如当n=4，k＝3，4个整数分别为3，7，12，19时，可得全部的组合与它们的和为：3＋7＋12=223＋7＋19＝297＋12＋19＝383＋12＋19＝34。现在，要求你计算出和为素数共有多少种。例如上例，只有一种的和为素数：3＋7＋19＝29。输入第一行两个整数：n,k（1
【笔记】Helm-1 介绍许科大 Helm 云原生 kubernetes k8s
欢迎欢迎使用Helm文档。Helm是Kubernetes的包管理器，您也可以在CNCFHelm项目过程报告阅读详细的背景信息。HelmHelmProjectJourneyReport|CNCF文档构成Helm有大量的文档。高级组织概述会让您知道在哪里查找特定内容。1、教程如果您是新手，从这里开始，手把手带您通过一系列的步骤创建您的第一个Helmchart。Helm|Docs2、主题引导以相当高的水
C语言数据结构——变长数组（柔性数组） Iawfy22 数据结构 c语言柔性数组
前言这是一位即将大二的大学生（卷狗）在暑假预习数据结构时的一些学习笔记，供大家参考学习。水平有限，如有错误，还望多多指正。本文主要介绍了如何手动实现一个变长数组，以及实现其部分功能（如删除、查找、添加、排序等）变长数组介绍变长数组又可以叫柔性数组，与一般数组不同，它是一个动态的数组，具体表现为可以根据数组里面元素个数的多少而自动的进行扩容，以便达到变长（柔性）的特点。预备知识为了实现自动边长扩容这
pytorch实现cifar10多分类总结 L_pyu 人工智能 pytorch 分类
cifar-10简介：CIFAR-10是一个常用的图像分类数据集，每张图片都是3×32×32，3通道彩色图片，分辨率32×32。它包含了10个不同类别，每个类别有6000张图像，其中5000张用于训练，1000张用于测试。这10个类别分别为：飞机、汽车、鸟类、猫、鹿、狗、青蛙、马、船和卡车。CIFAR-10分类任务是将这些图像正确地分类到它们所属的类别中。对于这个任务，可以使用深度学习模型，如卷积
Python漂浮爱心代码 Want595 趣味编程 python 开发语言
目录系列文章前言小海龟漂浮爱心完整代码尾声系列文章序号直达链接表白系列1Python无法拒绝的表白界面（完整代码）_python玫瑰花雨编程-CSDN博客2Python满屏飘字表白代码（完整代码）_抖音同款满屏飘字表白代码(python版)-CSDN博客3Python无限弹窗满屏表白代码（完整代码）_python弹窗满屏幕-CSDN博客4Python李峋同款跳动的爱心（完整代码）_python绘制
C语言学习笔记-进阶（17）预处理详解 John.Lewis c语言学习笔记
1.预定义符号C语言设置了一些预定义符号，可以直接使用，预定义符号也是在预处理期间处理的。__FILE__//进⾏编译的源⽂件__LINE__//⽂件当前的⾏号__DATE__//⽂件被编译的⽇期__TIME__//⽂件被编译的时间__STDC__//如果编译器遵循ANSIC，其值为1，否则未定义举个例子：printf("file:%sline:%d\n",__FILE__,__LINE__);2
自然语言处理（NLP）技术介绍风吹晚风悠 gpt 人工智能 nlp 自然语言处理
自然语言处理（NLP）是一种涉及计算机和人类语言之间交流的技术。NLP技术可以应用于多个领域，例如机器翻译、情感分析、文本分类、问答系统等。以下是一些NLP技术的示例：机器翻译：NLP技术可用于将一个语言的文本自动翻译成另一个语言。例如，GoogleTranslate和百度翻译等在线翻译工具就使用了NLP技术。情感分析：NLP技术可用于分析文本中的情感和情感倾向。这可以帮助企业了解公众对其产品或服
数据挖掘技术介绍柒柒钏数据挖掘数据挖掘人工智能
数据挖掘技术介绍分类聚类关联规则挖掘预测异常检测特征选择与降维文本挖掘序列模式挖掘深度学习集成学习数据挖掘（DataMining）是一种从大量数据中提取有用信息和模式的技术，旨在从数据中发现隐藏的规律、趋势或关系，从而为决策提供支持。分类定义：是一种监督学习方法，用于将数据分为不同的类别。功能：根据已标记的训练数据，学习一个模型，用于预测新数据的类别。方法：决策树、支持向量机、神经网络、逻辑回归、
深度学习在医疗影像诊断中的应用与实现 Evaporator Core #DeepSeek快速入门人工智能 #深度学习深度学习人工智能
引言随着人工智能技术的快速发展，深度学习在医疗领域的应用日益广泛，尤其是在医疗影像诊断方面。医疗影像数据量大、复杂度高，传统的诊断方法往往依赖于医生的经验，容易受到主观因素的影响。而深度学习通过自动学习特征，能够从海量数据中提取出有用的信息，辅助医生进行更精准的诊断。本文将探讨深度学习在医疗影像诊断中的应用，并通过代码示例展示如何实现一个简单的医疗影像分类模型。深度学习在医疗影像诊断中的应用1.图
图神经网络学习笔记—高级小批量处理（专题十四） AI专题精讲图神经网络入门到精通人工智能
小批量（mini-batch）的创建对于让深度学习模型的训练扩展到海量数据至关重要。与逐条处理样本不同，小批量将一组样本组合成一个统一的表示形式，从而可以高效地并行处理。在图像或语言领域，这一过程通常通过将每个样本缩放或填充为相同大小的形状来实现，然后将样本在一个额外的维度中分组。该维度的长度等于小批量中分组的样本数量，通常称为batch_size。由于图是能够容纳任意数量节点或边的最通用的数据结
每天五分钟玩转深度学习PyTorch：基于GoogLeNet完成CAFIR10分类每天五分钟玩转人工智能深度学习框架pytorch 深度学习 pytorch 分类 GoogLeNet 人工智能 CAFIR10
本文重点前面我们终于使用pytorch搭建了GoogLeNet，本文我们使用该网络模型解决一个实际问题，也就是使用它完成CAFIR10分类，其实就这些任务而言，我们只要搭建好模型，然后把数据喂进去就行了，其它的地方都是一样的，就是网络模型不一样。代码
Deepseek:物理神经网络PINN入门教程天一生水water 神经网络人工智能深度学习
一、物理信息网络（PINN）的概念与原理1.定义与来源物理信息网络（Physics-InformedNeuralNetworks,PINN）是一种将物理定律（如偏微分方程、守恒定律等）嵌入神经网络训练过程的深度学习方法。其核心思想是通过神经网络同时拟合观测数据并满足物理约束，从而解决传统数值方法难以处理的高维、噪声数据或复杂边界条件问题。来源：PINN起源于对传统数值方法局限性的改进需求（如网格生
基于Transformer的医学文本分类：从BERT到BioBERT Evaporator Core 人工智能 #深度学习 #DeepSeek快速入门 transformer 分类 bert
随着自然语言处理（NLP）技术的快速发展，Transformer模型在文本分类、情感分析、机器翻译等任务中取得了显著成果。在医学领域，文本数据（如电子病历、医学文献、临床报告）具有高度的专业性和复杂性，传统的NLP方法往往难以处理。Transformer模型，尤其是BERT及其变体，通过预训练和微调的方式，能够有效捕捉医学文本中的语义信息，为医学文本分类提供了强大的工具。本文将探讨Transfor
TF-IDF：文本挖掘中的关键词提取利器巷955 tf-idf
引言在自然语言处理（NLP）和文本挖掘中，TF-IDF是一种常用的技术，用于评估一个词在文档中的重要性。它不仅在信息检索领域广泛应用，还在文本分类、关键词提取等任务中发挥着重要作用。本文将详细介绍TF-IDF的原理，并通过一个实际的代码示例来展示如何使用TF-IDF从《红楼梦》中提取核心关键词。1.什么是TF-IDF？TF-IDF是一种统计方法，用于评估一个词在文档中的重要性。它由两部分组成：-T
深度学习项目--基于DenseNet网络的“乳腺癌图像识别”，准确率90%+，pytorch复现羊小猪~~ 深度学习网络 pytorch 人工智能 python 机器学习分类
本文为365天深度学习训练营中的学习记录博客原作者：K同学啊前言如果说最经典的神经网络，ResNet肯定是一个，从ResNet发布后，很多人做了修改，denseNet网络无疑是最成功的一个，它采用密集型连接，将通道数连接在一起；本文是基于上一篇复现DenseNet121模型，做一个乳腺癌图像识别，效果还行，准确率0.9+;CNN经典网络之“DenseNet”简介，源码研究与复现(pytorch)：
HQL之投影查询归来朝歌 HQL Hibernate 查询语句投影查询
在HQL查询中，常常面临这样一个场景，对于多表查询，是要将一个表的对象查出来还是要只需要每个表中的几个字段，最后放在一起显示？针对上面的场景，如果需要将一个对象查出来： HQL语句写“from 对象”即可 Session session = HibernateUtil.openSession();
Spring整合redis bylijinnan redis
pom.xml <dependencies>  <dependency> <groupId>org.springframework.data</groupId> <artifactId>spring-data-redi
org.hibernate.NonUniqueResultException: query did not return a unique result: 2 0624chenhong Hibernate
参考：http://blog.csdn.net/qingfeilee/article/details/7052736 org.hibernate.NonUniqueResultException: query did not return a unique result: 2 在项目中出现了org.hiber
android动画效果不懂事的小屁孩 android动画
前几天弄alertdialog和popupwindow的时候，用到了android的动画效果，今天专门研究了一下关于android的动画效果，列出来，方便以后使用。 Android 平台提供了两类动画。一类是Tween动画，就是对场景里的对象不断的进行图像变化来产生动画效果（旋转、平移、放缩和渐变）。第二类就是 Frame动画，即顺序的播放事先做好的图像，与gif图片原理类似。
js delete 删除机理以及它的内存泄露问题的解决方案换个号韩国红果果 JavaScript
delete删除属性时只是解除了属性与对象的绑定，故当属性值为一个对象时，删除时会造成内存泄露（其实还未删除）举例： var person={name:{firstname:'bob'}} var p=person.name delete person.name p.firstname -->'bob' // 依然可以访问p.firstname，存在内存泄露
Oracle将零干预分析加入网络即服务计划蓝儿唯美 oracle
由Oracle通信技术部门主导的演示项目并没有在本月较早前法国南斯举行的行业集团TM论坛大会中获得嘉奖。但是，Oracle通信官员解雇致力于打造一个支持零干预分配和编制功能的网络即服务（NaaS）平台，帮助企业以更灵活和更适合云的方式实现通信服务提供商（CSP）的连接产品。这个Oracle主导的项目属于TM Forum Live!活动上展示的Catalyst计划的19个项目之一。Catalyst计
spring学习——springmvc（二） a-john springMVC
Spring MVC提供了非常方便的文件上传功能。 1，配置Spring支持文件上传： DispatcherServlet本身并不知道如何处理multipart的表单数据，需要一个multipart解析器把POST请求的multipart数据中抽取出来，这样DispatcherServlet就能将其传递给我们的控制器了。为了在Spring中注册multipart解析器，需要声明一个实现了Mul
POJ-2828-Buy Tickets aijuans ACM_POJ
POJ-2828-Buy Tickets http://poj.org/problem?id=2828 线段树，逆序插入 #include<iostream>#include<cstdio>#include<cstring>#include<cstdlib>using namespace std;#define N 200010struct
Java Ant build.xml详解 asia007 build.xml
1,什么是antant是构建工具2,什么是构建概念到处可查到，形象来说，你要把代码从某个地方拿来，编译，再拷贝到某个地方去等等操作，当然不仅与此，但是主要用来干这个3,ant的好处跨平台 --因为ant是使用java实现的，所以它跨平台使用简单--与ant的兄弟make比起来语法清晰--同样是和make相比功能强大--ant能做的事情很多，可能你用了很久，你仍然不知道它能有
android按钮监听器的四种技术百合不是茶 android xml配置监听器实现接口
android开发中经常会用到各种各样的监听器,android监听器的写法与java又有不同的地方; 1,activity中使用内部类实现接口 ,创建内部类实例使用add方法与java类似创建监听器的实例 myLis lis = new myLis(); 使用add方法给按钮添加监听器
软件架构师不等同于资深程序员 bijian1013 程序员架构师架构设计
本文的作者Armel Nene是ETAPIX Global公司的首席架构师，他居住在伦敦，他参与过的开源项目包括 Apache Lucene,，Apache Nutch， Liferay 和 Pentaho等。如今很多的公司
TeamForge Wiki Syntax & CollabNet User Information Center sunjing TeamForge How do Attachement Anchor Wiki Syntax
the CollabNet user information center http://help.collab.net/ How do I create a new Wiki page? A CollabNet TeamForge project can have any number of Wiki pages. All Wiki pages are linked, and
【Redis四】Redis数据类型 bit1129 redis
概述 Redis是一个高性能的数据结构服务器，称之为数据结构服务器的原因是，它提供了丰富的数据类型以满足不同的应用场景，本文对Redis的数据类型以及对这些类型可能的操作进行总结。 Redis常用的数据类型包括string、set、list、hash以及sorted set.Redis本身是K/V系统，这里的数据类型指的是value的类型，而不是key的类型，key的类型只有一种即string
SSH2整合-附源码白糖_ eclipse spring tomcat Hibernate Google
今天用eclipse终于整合出了struts2+hibernate+spring框架。我创建的是tomcat项目，需要有tomcat插件。导入项目以后，鼠标右键选择属性，然后再找到“tomcat”项，勾选一下“Is a tomcat project”即可。具体方法见源码里的jsp图片，sql也在源码里。补充1：项目中部分jar包不是最新版的，可能导
[转]开源项目代码的学习方法 braveCS 学习方法
转自： http://blog.sina.com.cn/s/blog_693458530100lk5m.html http://www.cnblogs.com/west-link/archive/2011/06/07/2074466.html 1）阅读features。以此来搞清楚该项目有哪些特性2）思考。想想如果自己来做有这些features的项目该如何构架3）下载并安装d
编程之美-子数组的最大和（二维） bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; import java.util.Random; public class MaxSubArraySum2 { /** * 编程之美子数组之和的最大值（二维） */ private static final int ROW = 5; private stat
读书笔记-3 chengxuyuancsdn jquery笔记 resultMap配置 ibatis一对多配置
1、resultMap配置 2、ibatis一对多配置 3、jquery笔记 1、resultMap配置当<select resultMap="topic_data"> <resultMap id="topic_data">必须一一对应。 (1)<resultMap class="tblTopic&q
[物理与天文]物理学新进展 comsci
如果我们必须获得某种地球上没有的矿石,才能够进行某些能量输出装置的设计和建造,而要获得这种矿石,又必须首先进行深空探测,而要进行深空探测,又必须获得这种能量输出装置,这个矛盾的循环,会导致地球联盟在与宇宙文明建立关系的时候,陷入困境怎么办呢?
Oracle 11g新特性:Automatic Diagnostic Repository daizj oracle ADR
Oracle Database 11g的FDI（Fault Diagnosability Infrastructure）是自动化诊断方面的又一增强。 FDI的一个关键组件是自动诊断库（Automatic Diagnostic Repository-ADR）。在oracle 11g中，alert文件的信息是以xml的文件格式存在的，另外提供了普通文本格式的alert文件。这两份log文
简单排序:选择排序 dieslrae 选择排序
public void selectSort(int[] array){ int select; for(int i=0;i<array.length;i++){ select = i; for(int k=i+1;k<array.leng
C语言学习六指针的经典程序，互换两个数字 dcj3sjt126com c
示例程序，swap_1和swap_2都是错误的，推理从1开始推到2，2没完成，推到3就完成了 # include <stdio.h> void swap_1(int, int); void swap_2(int *, int *); void swap_3(int *, int *); int main(void) { int a = 3; int b =
php 5.4中php-fpm 的重启、终止操作命令 dcj3sjt126com PHP
php 5.4中php-fpm 的重启、终止操作命令: 查看php运行目录命令：which php/usr/bin/php 查看php-fpm进程数：ps aux | grep -c php-fpm 查看运行内存/usr/bin/php -i|grep mem 重启php-fpm/etc/init.d/php-fpm restart 在phpinfo()输出内容可以看到php
线程同步工具类 shuizhaosi888 同步工具类
同步工具类包括信号量（Semaphore）、栅栏（barrier）、闭锁（CountDownLatch）闭锁（CountDownLatch） public class RunMain { public long timeTasks(int nThreads, final Runnable task) throws InterruptedException { fin
bleeding edge是什么意思 haojinghua DI
不止一次，看到很多讲技术的文章里面出现过这个词语。今天终于弄懂了——通过朋友给的浏览软件，上了wiki。我再一次感到，没有辞典能像WiKi一样，给出这样体贴人心、一清二楚的解释了。为了表达我对WiKi的喜爱，只好在此一一中英对照，给大家上次课。 In computer science, bleeding edge is a term that
c中实现utf8和gbk的互转 jimmee c iconv utf8&gbk编码
#include <iconv.h> #include <stdlib.h> #include <stdio.h> #include <unistd.h> #include <fcntl.h> #include <string.h> #include <sys/stat.h> int code_c
大型分布式网站架构设计与实践 lilin530 应用服务器搜索引擎
1.大型网站软件系统的特点？ a.高并发，大流量。 b.高可用。 c.海量数据。 d.用户分布广泛，网络情况复杂。 e.安全环境恶劣。 f.需求快速变更，发布频繁。 g.渐进式发展。 2.大型网站架构演化发展历程？ a.初始阶段的网站架构。应用程序，数据库，文件等所有的资源都在一台服务器上。 b.应用服务器和数据服务器分离。 c.使用缓存改善网站性能。 d.使用应用
在代码中获取Android theme中的attr属性值 OliveExcel android theme
Android的Theme是由各种attr组合而成, 每个attr对应了这个属性的一个引用, 这个引用又可以是各种东西. 在某些情况下, 我们需要获取非自定义的主题下某个属性的内容 (比如拿到系统默认的配色colorAccent), 操作方式举例一则: int defaultColor = 0xFF000000; int[] attrsArray = { andorid.r.
基于Zookeeper的分布式共享锁 roadrunners zookeeper 分布式共享锁
首先，说说我们的场景，订单服务是做成集群的，当两个以上结点同时收到一个相同订单的创建指令，这时并发就产生了，系统就会重复创建订单。等等......场景。这时，分布式共享锁就闪亮登场了。共享锁在同一个进程中是很容易实现的，但在跨进程或者在不同Server之间就不好实现了。Zookeeper就很容易实现。具体的实现原理官网和其它网站也有翻译，这里就不在赘述了。官
两个容易被忽略的MySQL知识 tomcat_oracle mysql
1、varchar(5)可以存储多少个汉字，多少个字母数字？　　相信有好多人应该跟我一样，对这个已经很熟悉了，根据经验我们能很快的做出决定，比如说用varchar(200)去存储url等等，但是，即使你用了很多次也很熟悉了，也有可能对上面的问题做出错误的回答。　　这个问题我查了好多资料，有的人说是可以存储5个字符，2.5个汉字（每个汉字占用两个字节的话），有的人说这个要区分版本，5.0
zoj 3827 Information Entropy(水题) 阿尔萨斯 format
题目链接：zoj 3827 Information Entropy 题目大意：三种底，计算和。解题思路：调用库函数就可以直接算了，不过要注意Pi = 0的时候，不过它题目里居然也讲了。。。limp→0+plogb(p)=0，因为p是logp的高阶。 #include <cstdio> #include <cstring> #include <cmath&