瑶子ove

基于TED(en-zh)数据集进行实现Seq2Seq模型

博客文章基于Google Tensorflow实战深度学习框架第九章部分内容，手写一遍代码加强模型理解。

代码在pycharm中编写运行

1、获取词汇表

# -*- coding:utf-8 -*-
'''
@Author:zhangy
@Modify:2019.7.5
'''
import codecs
import collections
from operator import itemgetter

#设置中英文类型，得到不同的vocab
DATA_TYPE = 'english'

if DATA_TYPE == 'chinese':
    RAW_DATA = 'train.txt.zh'
    VOCAB_OUTPUT = 'zh.vocab'
    VOCAB_SIZE = 4000
elif DATA_TYPE == 'english':
    RAW_DATA = 'train.txt.en'
    VOCAB_OUTPUT = 'en.vocab'
    VOCAB_SIZE = 10000

#对单词进行计数
counter = collections.Counter()

with codecs.open(RAW_DATA,'r','utf-8') as f:
    for line in f:
        for word in line.strip().split():
            counter[word] += 1
#依据词频进行降序排列
sorted_word_to_cnt = sorted(counter.items(),key=itemgetter(1),reverse=True)
#拿到对应的单词列表
sorted_word_list = [x[0] for x in sorted_word_to_cnt]

#加入句子的起止符号和unknown符号
sorted_word_list = ["","",""] + sorted_word_list

if len(sorted_word_list) > VOCAB_SIZE:
    sorted_word_list = sorted_word_list[:VOCAB_SIZE]

with codecs.open(VOCAB_OUTPUT,'w','utf-8') as file_output:
    for word in sorted_word_list:
        file_output.write(word + '\n')

2、将中英文文件根据词汇表转换为对应number

# -*- coding:utf-8 -*-
'''
@Author:zhangy
@Modify:2019.7.5
'''

import codecs

DATA_TYPE = "english"

if DATA_TYPE == 'chinese':
    RAW_DATA = 'train.txt.zh'
    VOCAB = 'zh.vocab'
    OUTPUT_DATA = 'train.zh'
elif DATA_TYPE == 'english':
    RAW_DATA = 'train.txt.en'
    VOCAB = 'en.vocab'
    OUTPUT_DATA = 'train.en'

with codecs.open(VOCAB,'r','utf-8') as f_vocab:
    #把所有单词转换为列表形式
    vocab = [w.strip() for w in f_vocab.readlines()]
word_to_id = {k:v for (k,v) in zip(vocab,range(len(vocab)))}

def get_id(word):
    return word_to_id[word] if word in word_to_id else word_to_id['']

fin = codecs.open(RAW_DATA,'r','utf-8')
fout = codecs.open(OUTPUT_DATA,'w','utf-8')

for line in fin:
    words = line.strip().split() + ['']
    out_line = " ".join([str(get_id(w)) for w in words]) + '\n'
    fout.write(out_line)

fin.close()
fout.close()

3、定义batch数据，动态从磁盘读取

# -*- coding:utf-8 -*-
'''
@Author:zhangy
@Modify:2019.7.5
'''
'''
    循环神经网络在读取数据时会将填充位置的内容与其他内容一样纳入计算，因此为了不让填充影响训练，有
两方面需要注意：
    1、在读取填充时如果按照循环神经网络处理，例如读取填充后的“B1 B2 0 0”和原始“B1 B2”之后产生的隐藏状态不同，
因此Tensorflow提供了tf.nn.dynamic_ rnn对每一个batch的数据读取两个输入：输入数据的内容（维度为[batch_size,time] 和
输入数据的长度（维度为［time ］）。对于输入batch 里的每一条数据，在读取了相应长度的内容后， dynamic_rnn就跳过后
面的输入，直接把前一步的计算结果复制到后面的时刻。这样可以保证padding是否存在不影响模型效果。
    另外值得注意的是，使用dyanmic_rnn 时每个batch 的最大序列长度不需要相同。例如在上面的例子中，第一个batch 的维
度是2 ×4 ，而第二个batch 的维度是2×7。在训练中dynamic_mn 会根据每个batch 的最大长度动态展开到需要的层数，这就是
它被称为“ dynamic ”的原因。
    2、在设计损失函数时需要特别将填充位置的损失的权重设置为0 ，这样在填充位置产生的预测不会影响梯度的计算。


    下面的代码使用tf.data.Dataset. padded_ batch 来进行填充和batching ， 并记录每个句子的序列长度以用作
dynamic_rnn 的输入，这里是从磁盘动态读取数据。
'''
import numpy as np
import tensorflow as tf

MAX_LEN = 50    #限定句子的最大单词数量
SOS_ID = 1      #目标语言词汇表中的ID

#使用Dataset从一个文件中读取一个语言的数据，格式为每行一句话，单词已转换为单词编号
def MakeDataset(file_path):
    dataset = tf.data.TextLineDataset(file_path)
    #根据空格将单词编号切分开并放入一个一维向量
    dataset = dataset.map(lambda string:tf.string_split([string]).values)
    #将字符串形式的单词编号转换为整数
    dataset = dataset.map(lambda string:tf.string_to_number(string,tf.int32))
    #统计每个句子的单词数量，并与句子内容一起放入Dataset
    dataset = dataset.map(lambda x:(x,tf.size(x)))
    return dataset


#从源文件src_path和目标文件trg_path中分别读取数据，进行填充和batch操作
def MakeSrcTrgDataset(src_path,trg_path,batch_size):
    #首先分别读取源语言和目标语言数据
    src_data = MakeDataset(src_path)
    trg_data = MakeDataset(trg_path)
    #通过zip操作将两个dataset合并为一个dataset，现在每个dataset中每一项数据ds由4个张量组成
    # ds[0][0]是源句子
    # ds[0][1]是源句子长度
    # ds[1][0]是目标句子
    # ds[1][1]是同标句子长度
    dataset = tf.data.Dataset.zip((src_data,trg_data))

    #删除内容为空（只包含）的句子和长度过长的句子
    def FilterLength(src_tuple,trg_tuple):
        ((src_input,src_len),(trg_input,trg_len)) = (src_tuple,trg_tuple)
        src_len_ok = tf.logical_and(tf.greater(src_len,1),tf.less_equal(src_len,MAX_LEN))
        trg_len_ok = tf.logical_and(tf.greater(trg_len, 1), tf.less_equal(trg_len, MAX_LEN))
        return tf.logical_and(src_len_ok,trg_len_ok)

    dataset = dataset.filter(FilterLength)


    '''
        解码器需要两种格式的目标句子:
            1、解码器的输入（trg_input）,形如 X Y Z
            2、解码器的目标输出（trg_label）,形如 X Y Z 
        从上述操作中的到的句子是'X Y Z '的形式，我们需要从中生成' X Y Z'形式并
    加入到dataset中
    '''
    def MakeTrgInput(src_tuple,trg_tuple):
        ((src_input, src_len), (trg_label, trg_len)) = (src_tuple, trg_tuple)
        trg_input = tf.concat([[SOS_ID], trg_label[:-1]], axis=0)
        return ((src_input, src_len), (trg_input, trg_label, trg_len))
    dataset = dataset.map(MakeTrgInput)

    #随机打乱训练数据
    dataset = dataset.shuffle(10000)

    #规定填充后的数据维度
    padded_shapes = (
        (tf.TensorShape([None]),        #源句子长度未知
         tf.TensorShape([])),           #源句子长度是单个数字
        (tf.TensorShape([None]),        #目标句子（解码输入）是长度未知的向量
         tf.TensorShape([None]),        #目标句子（解码输出）是长度未知的向量
         tf.TensorShape([])))           #目标句子长度是单个数字
    #调用padded_batch方法进行batching操作
    batched_dataset = dataset.padded_batch(batch_size,padded_shapes)
    return batched_dataset

4、模型搭建训练

# -*- coding:utf-8 -*-
'''
@Author:zhangy
@Modify:2019.7.5
'''

'''
    seq2seq模型训练部分
        使用一个双层LSTM作为循环神经网络的主体，且在softmax层和词向量层之间共享参数。相比较语言模型。
    seq2seq代码有以下几处变化：
            1、增加了一个循环神经网络作为编码器
            2、使用Dataset动态读取数据，而不是直接将所有数据读入内存
            3、每个batch完全独立，不需要再batch之间传递状态
            4、每训练200步便将模型参数保存到一个checkpoint中
'''

import tensorflow as tf
from batching import MakeSrcTrgDataset

SRC_TRAIN_DATA = "train.en"             #源语言输入文件
TRG_TRAIN_DATA = "train.zh"             #目标语言输入文件

CHECKPOINT_PATH = "model_save_path/seq2seq_ckpt"        #checkpoint保存路径
HIDDEN_SIZE = 1024                                           #LSTM隐藏层规模
NUM_LAYERS = 2                                               #神经网络中的LSTM结构的层数
SRC_VOCAB_SIZE = 10000                                       #源语言词汇表大小
TRG_VOCAB_SIZE = 4000                                        #目标语言词汇表大小
BATCH_SIZE = 100                                             #训练数据batch大小
NUM_EPOCH = 5                                                #迭代轮数
KEEP_PROB = 0.8                                              #节点不被dropout的概率(词向量)
MAX_GRAD_NORM = 5                                            #用于控制梯度膨胀的梯度大小上限
SHARE_EMB_AND_SOFTMAX = True                                #在softmax层和词向量层之间共享参数

class NMTMOdel(object):
    #在模型的初始化函数中定义模型要使用的变量
    def __init__(self):
        # 定义编码器和解码器所使用的的LSTM结构
        self.enc_cell = tf.nn.rnn_cell.MultiRNNCell(
            [tf.nn.rnn_cell.BasicLSTMCell(HIDDEN_SIZE)
             for _ in range(NUM_LAYERS)])
        self.dec_cell = tf.nn.rnn_cell.MultiRNNCell(
            [tf.nn.rnn_cell.BasicLSTMCell(HIDDEN_SIZE)
             for _ in range(NUM_LAYERS)])

        #为源语言和目标语言分别定义词向量
        self.src_embedding = tf.get_variable("src_emb",[SRC_VOCAB_SIZE,HIDDEN_SIZE])
        self.trg_embedding = tf.get_variable("trg_emb",[TRG_VOCAB_SIZE,HIDDEN_SIZE])

        #定义softmax层的变量
        if SHARE_EMB_AND_SOFTMAX:
            #tf.transpose()用于交换张量的不同维度，如果输入张量是二维，则代表转置
            self.softmax_weight = tf.transpose(self.trg_embedding)
        else:
            self.softmax_weight = tf.get_variable("softmax_weight",[HIDDEN_SIZE,TRG_VOCAB_SIZE])
        self.softmax_bias = tf.get_variable("softmax_bias",[TRG_VOCAB_SIZE])

    #在forward函数中定义模型的前向计算图
    #src_input,src_size,trg_input,trg_label,trg_size是batching.py中MakeSrcTrgDataset函数产生的五种张量
    def forward(self,src_input,src_size,trg_input,trg_label,trg_size):
        batch_size = tf.shape(src_input)[0]

        #将输入和输出单词编号转为词向量
        src_emb = tf.nn.embedding_lookup(self.src_embedding,src_input)
        trg_emb = tf.nn.embedding_lookup(self.trg_embedding, trg_input)

        #在词向量上进行dropout
        src_emb = tf.nn.dropout(src_emb,KEEP_PROB)
        trg_emb = tf.nn.dropout(trg_emb,KEEP_PROB)

        '''
            使用dynamic_rnn构造编码器，编码器读取目标句子每个位置的词向量，输出最后一步隐藏层的状态
        enc_state,因为编码器就是一个双层的LSTM，因此enc_stste是一个包含两个LSTMStateTuple类的tuple，每
        个LSTMStateTuple对应编码器中一层的状态。
            enc_outputs是顶层LSTM在每一步的输出，维度为[batch_size,max_time,HIDDEN_SIZE],seq2seq模型不会
        用到enc_outputs,attention模型会用到。      
        '''
        with tf.variable_scope("encoder"):
            enc_outputs,enc_states = tf.nn.dynamic_rnn(
                self.enc_cell,src_emb,src_size,dtype=tf.float32)


        '''
            使用dynamic_rnn构造解码器，解码器读取目标句子每个位置的词向量，输出dec_output为每一步顶层
        LSTM的输出，dec_outputs的维度是[batch_size,max_time,HIDDEN_SIZE],
            initial_state=enc_state表示用编码器的输出来初始化第一步的隐藏状态。
        '''
        with tf.variable_scope("decoder"):
            dec_outputs,_ = tf.nn.dynamic_rnn(
                self.dec_cell,trg_emb,trg_size,initial_state=enc_states)

        #计算解码器每一步的log perplexity
        output = tf.reshape(dec_outputs,[-1,HIDDEN_SIZE])
        logits = tf.matmul(output,self.softmax_weight) + self.softmax_bias
        loss = tf.nn.sparse_softmax_cross_entropy_with_logits(
            labels=tf.reshape(trg_label,[-1]),logits=logits)

        #在计算平均损失时，需要将填充位置的权重置为0，以避免无效位置的预测干扰模型训练
        label_weights = tf.sequence_mask(
            trg_size,maxlen=tf.shape(trg_label)[1],dtype=tf.float32)
        label_weights = tf.reshape(label_weights,[-1])
        cost = tf.reduce_sum(loss * label_weights)
        cost_per_token = cost / tf.reduce_sum(label_weights)

        #定义反向传播操作
        trainable_variables = tf.trainable_variables()

        #控制梯度大小，定义优化方法和步骤
        grads = tf.gradients(cost / tf.to_float(batch_size),trainable_variables)

        grads,_ = tf.clip_by_global_norm(grads,MAX_GRAD_NORM)
        optimizer = tf.train.GradientDescentOptimizer(learning_rate=1.0)
        train_op = optimizer.apply_gradients(
            zip(grads,trainable_variables)
        )
        return cost_per_token,train_op

'''
    使用给定的模型model上训练一个epoch，并返回全局步数，每训练200步便保存一个checkpoint 
'''
def run_epoch(session,cost_op,train_op,saver,step):
    #训练一个epoch，重复训练步骤直到遍历dataset中所有数据
    while True:
        try:
            #运行train_op并计算损失，训练数据在main()中以Dataset方式提供
            cost,_ = session.run([cost_op,train_op])
            if step % 10 == 0:
                print("After %d step,per token cost is %.3f" % (step,cost))
            #每200步保存一个checkpoint
            if step % 200 == 0:
                saver.save(session,CHECKPOINT_PATH,global_step=step)
            step += 1
        except tf.errors.OutOfRangeError:
            break
    return step

def main():
    #定义初始化函数
    initializer = tf.random_uniform_initializer(-0.05,0.05)

    #定义训练用的循环神经网络
    with tf.variable_scope("nmt_model",reuse=None,initializer=initializer):
        train_model = NMTMOdel()

    #定义输入数据
    data = MakeSrcTrgDataset(SRC_TRAIN_DATA,TRG_TRAIN_DATA,BATCH_SIZE)
    iterator = data.make_initializable_iterator()
    (src,src_size),(trg_input,trg_label,trg_size) = iterator.get_next()

    #定义前向计算图，输入数据以张量形式提供给forward函数
    cost_op,train_op = train_model.forward(src,src_size,trg_input,trg_label,trg_size)

    #训练模型
    saver = tf.train.Saver()
    step = 0

    with tf.Session() as sess:
        tf.global_variables_initializer().run()
        for i in range(NUM_EPOCH):
            print("In iteration: %d" % (i+1))
            sess.run(iterator.initializer)
            step = run_epoch(sess,cost_op,train_op,saver,step)

if __name__ == '__main__':
    main()

模型训练…

2024 年技术盘点与展望：从 AI 辅助到个人成长的多元探索 109702008 杂谈人工智能
一、引言2024年，技术领域的发展日新月异，我在这片汹涌的浪潮中不断探索与成长。这一年，我不仅见证了人工智能技术的飞速发展，还通过AI辅助创作、AI赋能编程以及参与各类竞赛与课程，实现了个人技术的显著提升与视野的拓展。本文将从总结盘点的角度，回顾我在技术领域的成长历程，并对未来进行展望。二、AI辅助创作：提升写作效率与质量在自然语言处理技术（NLP）的推动下，AI写作工具成为了我的得力助手。这些工
17-7 向量数据库之野望7 - PostgreSQL 和pgvector 拉达曼迪斯II AIGC学习数据库管理工具 AI创业数据库 postgresql 人工智能机器学习 AIGC 搜索引擎
PostgreSQL是一款功能强大的开源对象关系数据库系统，它已将其功能扩展到传统数据管理之外，通过pgvector扩展支持矢量数据。这一新增功能满足了对高效处理高维矢量数据日益增长的需求，这些数据通常用于机器学习、自然语言处理(NLP)和推荐系统等应用。https://github.com/mazzasaverio/find-your-opensource-project什么是pgvector？
使用Python实现LLM的文本生成：风格迁移与内容控制二进制独立开发 GenAI与Python 非纯粹GenAI python 开发语言人工智能自然语言处理分布式语言模型 transformer
文章目录引言1.大型语言模型（LLM）概述1.1Transformer架构1.2预训练与微调2.文本生成基础2.1无条件生成2.2条件生成3.风格迁移3.1风格迁移的基本原理3.2使用Python实现风格迁移4.内容控制4.1内容控制的基本原理4.2使用Python实现内容控制5.高级技巧与优化5.1多轮对话生成5.2生成参数优化6.应用场景与未来展望结论引言随着自然语言处理（NLP）技术的快速发
ChatGPT详解 Loving_enjoy 实用技巧人工智能自然语言处理
ChatGPT是一款由OpenAI研发和维护的先进的自然语言处理模型（NLP），全名为ChatGenerativePre-trainedTransformer，于2022年11月30日发布。以下是对ChatGPT的详细介绍：###一、技术架构与原理1.**技术架构**：ChatGPT建立在Transformer架构之上，这是一种深度学习模型，特别适用于处理自然语言。其核心是自注意力机制，允许模型在
NLP 中文拼写检测纠正论文 Automatic-Corpus-Generation 代码后端java
拼写纠正系列NLP中文拼写检测实现思路NLP中文拼写检测纠正算法整理NLP英文拼写算法，如果提升100W倍的性能？NLP中文拼写检测纠正Paperjava实现中英文拼写检查和错误纠正？可我只会写CRUD啊！一个提升英文单词拼写检测性能1000倍的算法？单词拼写纠正-03-leetcodeedit-distance72.力扣编辑距离NLP开源项目nlp-hanzi-similar汉字相似度word-
【大模型】从零样本到少样本学习：一文读懂 Zero-shot、One-shot 和 Few-shot 的核心原理与应用！橙子小哥的代码世界 NLP自然语言理解大模型自然语言处理 sklearn 深度学习神经网络 tensorflow
《从零样本到少样本学习：一文读懂Zero-shot、One-shot和Few-shot的核心原理与应用！》正文：在自然语言处理（NLP）领域，Zero-shot、One-shot和Few-shot学习已经成为衡量大语言模型泛化能力的重要指标。尤其是在大规模预训练模型（如GPT系列）的推动下，这些技术得到了广泛应用和关注。本篇文章将带你全面了解这三种学习方法的核心概念、原理和实际应用场景。1.什么是
NLP 中文拼写检测纠正论文-07-NLPTEA-2020中文语法错误诊断共享任务概述后端java
拼写纠正系列NLP中文拼写检测实现思路NLP中文拼写检测纠正算法整理NLP英文拼写算法，如果提升100W倍的性能？NLP中文拼写检测纠正Paperjava实现中英文拼写检查和错误纠正？可我只会写CRUD啊！一个提升英文单词拼写检测性能1000倍的算法？单词拼写纠正-03-leetcodeedit-distance72.力扣编辑距离NLP开源项目nlp-hanzi-similar汉字相似度word-
NLP 中文拼写检测纠正论文-04-Learning from the Dictionary 后端java
拼写纠正系列NLP中文拼写检测实现思路NLP中文拼写检测纠正算法整理NLP英文拼写算法，如果提升100W倍的性能？NLP中文拼写检测纠正Paperjava实现中英文拼写检查和错误纠正？可我只会写CRUD啊！一个提升英文单词拼写检测性能1000倍的算法？单词拼写纠正-03-leetcodeedit-distance72.力扣编辑距离NLP开源项目nlp-hanzi-similar汉字相似度word-
NLP 中文拼写检测纠正论文-01-介绍了SIGHAN 2015 包括任务描述，数据准备，绩效指标和评估结果后端java
拼写纠正系列NLP中文拼写检测实现思路NLP中文拼写检测纠正算法整理NLP英文拼写算法，如果提升100W倍的性能？NLP中文拼写检测纠正Paperjava实现中英文拼写检查和错误纠正？可我只会写CRUD啊！一个提升英文单词拼写检测性能1000倍的算法？单词拼写纠正-03-leetcodeedit-distance72.力扣编辑距离NLP开源项目nlp-hanzi-similar汉字相似度word-
利用Langchain与Minimax进行自然语言处理的精彩指南 afTFODguAKBF langchain 自然语言处理 easyui python
#引言在人工智能的浪潮中，自然语言处理（NLP）成为了企业和个人用户的重要工具。Minimax作为一家中国初创企业，专注于提供优秀的语言模型服务。本篇文章将介绍如何使用Langchain库与Minimax进行交互，帮助开发者充分利用这一强大的AI工具。#主要内容##1.Minimax简介Minimax专注于自然语言处理，为企业和个人用户提供高效的语言模型服务。其API能处理多种自然语言任务，例如文
深入解读ChatGPT的工作原理及底层逻辑 NAR_鱼丸 ChatGPT 程序人生
ChatGPT的工作原理和底层逻辑可以从多个方面进行解读，主要包括其基本原理、核心技术、训练过程以及应用能力。工作原理涉及了深度学习模型、自然语言处理技术和文本生成算法等多个方面。通过预训练和微调，模型能够理解语言的语法和语义，并能够根据上下文生成符合语境的文本回复。基本原理ChatGPT是一种基于自然语言处理（NLP）和深度学习技术的聊天机器人。其基本原理是使用大量文本数据来训练深度神经网络模型
ChatGPT原理及其应用场景编程小郭 chatgpt 人工智能 ai
ChatGPT的原理及应用场景一、ChatGPT的原理ChatGPT，全名ChatGenerativePre-trainedTransformer，是OpenAI研发的一款聊天机器人程序，其背后依托的是人工智能技术和自然语言处理（NLP）的深厚功底。其工作原理可以从以下几个方面进行解析：GPT系列模型基础ChatGPT基于GPT（GenerativePre-trainedTransformer）技
SnowNLP 情感分析 Taichi呀 python 开发语言
#-*-coding:utf-8-*-importsysfromsnownlpimportSnowNLPfromjiebaimportanalysefromjiebaimportpossegtxt=u'''在文学的海洋中，有一部名为《薄雾》的小说，它犹如一颗闪耀的明珠，让人过目难忘。这部作品讲述了一段发生在上世纪初的跨越阶级的爱情故事。在这篇文学短评中，我们将探讨这部小说所展现的情感与人性，以及它
nlp培训重点-3 heine162 自然语言处理人工智能
1.文本匹配分类：loader:#-*-coding:utf-8-*-importjsonimportreimportosimporttorchimportrandomimportloggingfromtorch.utils.dataimportDataset,DataLoaderfromcollectionsimportdefaultdictfromtransformersimportBertT
大语言模型（LLMs）入门教程（非常详细）从零基础入门到精通，看完这一篇就够了大模型零基础教程语言模型人工智能自然语言处理大模型
大语言模型（LLMs）作为人工智能（AI）领域的一项突破性发展，已经改变了自然语言处理（NLP）和机器学习（ML）应用的面貌。这些模型，包括OpenAI的GPT-4o和Google的gemini系列等，已经展现出了在理解和生成类人文本方面的令人印象深刻的能力，使它们成为各行各业的宝贵工具。如下这份指南将涵盖LLMs的基础知识、训练过程、用例和未来趋势……一.WhatareLargeLanguage
BERT详解 comli_cn 大模型笔记 bert 人工智能深度学习
1.背景结构1.1基础知识BERT（BidirectionalEncoderRepresentationsfromTransformers）是谷歌提出，作为一个Word2Vec的替代者，其在NLP领域的11个方向大幅刷新了精度，可以说是前几年来自残差网络最优突破性的一项技术了。论文的主要特点以下几点：使用了双向Transformer作为算法的主要框架，之前的模型是从左向右输入一个文本序列，或者将l
1.4走向不同：GPT 与 BERT 的选择——两大NLP模型的深度解析少林码僧 AI大模型应用实战专栏自然语言处理 gpt bert
走向不同：GPT与BERT的选择——两大NLP模型的深度解析在自然语言处理（NLP）领域，GPT（GenerativePretrainedTransformer）和BERT（BidirectionalEncoderRepresentationsfromTransformers）无疑是最具代表性和影响力的两个模型。它们都基于Transformer架构，但在设计理念、任务应用和训练方式等方面存在显著差
【大模型LoRa微调】Qwen2.5 Coder 指令微调【代码已开源】 FF-Studio 大语言模型开源
本文需要用到的代码已经放在GitHub的仓库啦，别忘了给仓库点个小心心~~~https://github.com/LFF8888/FF-Studio-Resources第001个文件哦~一、引言：大语言模型与指令微调1.1大语言模型发展简史随着深度学习的飞速发展，特别是Transformer架构在自然语言处理（NLP）领域的成功，大语言模型（LLM,LargeLanguageModel）成为近年来
NLP-语义解析(Text2SQL)：技术路线【Seq2Seq、模板槽位填充、中间表达、强化学习、图网络】 u013250861 #自然语言处理人工智能
目前关于NL2SQL技术路线的发展主要包含以下几种:Seq2Seq方法：在深度学习的研究背景下,很多研究人员将Text-to-SQL看作一个类似神经机器翻译的任务,主要采取Seq2Seq的模型框架。基线模型Seq2Seq在加入Attention、Copying等机制后,能够在ATIS、GeoQuery数据集上达到84%的精确匹配,但是在WikiSQL数据集上只能达到23.3%的精确匹配,37.0%
开源人工智能模型框架：探索与实践 CodeJourney. 人工智能能源
摘要本文深入探讨了开源人工智能模型框架，旨在为研究人员、开发者及相关从业者提供全面的理解与参考。通过对多个主流开源框架，如TensorFlow、PyTorch、Keras、Detectron2、OpenCV、HuggingFaceTransformers、AllenNLP、MindSpore和Fastai的详细分析，阐述其特点、应用场景、优势与不足，并结合具体示例说明其使用方法，同时配以相关架构图
大规模语言模型从理论到实践大语言模型预训练数据 AI大模型应用之禅 AI大模型与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大规模语言模型从理论到实践：大语言模型预训练数据关键词：大规模语言模型、预训练数据、数据集选择、数据清洗、数据增强、数据集评估、数据集扩展1.背景介绍1.1问题的由来随着深度学习和大规模神经网络的发展，大型语言模型（LargeLanguageModels,LLMs）成为了自然语言处理（NLP）领域的一项突破性技术。LLMs能够生成流畅且具有上下文关联性的文本，这得益于它们在海量文本数据上的预训练。
微软TTS(text-to-speech)文字转语音免费开源库edge-tts语音合成实践(Python3.10)
不能否认，微软Azure在TTS(text-to-speech文字转语音)这个人工智能细分领域的影响力是统治级的，一如ChatGPT在NLP领域的随心所欲，予取予求。君不见几乎所有的抖音营销号口播均采用微软的语音合成技术，其影响力由此可见一斑，仅有的白璧微瑕之处就是价格略高，虽然国内也可以使用科大讯飞语音合成进行平替，但我们只想要最好的那一个，本次我们使用免费的开源库edge-tts来实现文本转语
211本硕二战腾讯大模型算法岗，已凉...... AI大模型入门算法阿里云人工智能云计算目标跟踪
01背景本弱鸡211本硕，nlp，无论文有实习（老板没资源且放养），本科有acm经历（1铜），面试pcg日常实习。02技术一面（时长1h）Q1：了解什么机器学习算法，讲一下原理？当时只记得实体识别用到了隐马尔可夫模型，讲了讲怎么怎么定义观测状态和隐藏状态、前向传播、解码和应用场景。Q2：讲一下Bert的结构和怎么训练的，怎么用bert做下游任务？八股，双向transformerencoder结构，
6. NLP自然语言处理（Natural Language Processing）啊波次得饿佛哥 AI人工智能自然语言处理人工智能
自然语言是指人类日常使用的语言，如中文、英语、法语等。自然语言处理是人工智能（AI）领域中的一个重要分支，它结合了计算机科学、语言学和统计学的方法，通过算法对文本和语音进行分析，使计算机能够理解、解释和生成自然语言。随着深度学习技术的发展，NLP在文本分类、机器翻译、情感分析、对话系统等任务中取得了显著进展，推动了人工智能技术在多个领域的广泛应用。自然语言处理的核心任务涉及如何使计算机理解和处理语
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
轻量级模型解读——轻量transformer系列 lishanlu136 #图像分类轻量级模型 transformer 图像分类
先占坑，持续更新。。。文章目录1、DeiT2、ConViT3、Mobile-Former4、MobileViTTransformer是2017谷歌提出的一篇论文，最早应用于NLP领域的机器翻译工作，Transformer解读，但随着2020年DETR和ViT的出现(DETR解读，ViT解读)，其在视觉领域的应用也如雨后春笋般渐渐出现，其特有的全局注意力机制给图像识别领域带来了重要参考。但是tran
FlagEmbedding 吉小雨 python库 python
FlagEmbedding教程FlagEmbedding是一个用于生成文本嵌入（textembeddings）的库，适合处理自然语言处理（NLP）中的各种任务。嵌入（embeddings）是将文本表示为连续向量，能够捕捉语义上的相似性，常用于文本分类、聚类、信息检索等场景。官方文档链接：FlagEmbedding官方GitHub一、FlagEmbedding库概述1.1什么是FlagEmbeddi
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
CV、NLP、数据控掘推荐、量化海的那边- AI算法自然语言处理人工智能
下面是对CV（计算机视觉）、NLP（自然语言处理）、数据挖掘推荐和量化的简要概述及其应用领域的介绍：1.CV（计算机视觉，ComputerVision）定义：计算机视觉是一门让计算机能够从图像或视频中提取有用信息，并做出决策的学科。它通过模拟人类的视觉系统来识别、处理和理解视觉信息。主要任务：图像分类：识别图像中的物体并分类，比如猫、狗、车等。目标检测：在图像或视频中定位并识别多个对象，如人脸检测
JAVA基础灵静志远位运算加载 Date 字符串池覆盖
一、类的初始化顺序 1 （静态变量，静态代码块）-->（变量，初始化块）--> 构造器同一括号里的，根据它们在程序中的顺序来决定。上面所述是同一类中。如果是继承的情况，那就在父类到子类交替初始化。二、String 1 String a = "abc"; JAVA虚拟机首先在字符串池中查找是否已经存在了值为"abc"的对象，根
keepalived实现redis主从高可用 bylijinnan redis
方案说明两台机器（称为A和B），以统一的VIP对外提供服务 1.正常情况下，A和B都启动，B会把A的数据同步过来（B is slave of A） 2.当A挂了后，VIP漂移到B；B的keepalived 通知redis 执行：slaveof no one，由B提供服务 3.当A起来后，VIP不切换，仍在B上面；而A的keepalived 通知redis 执行slaveof B，开始
java文件操作大全 0624chenhong java
最近在博客园看到一篇比较全面的文件操作文章，转过来留着。 http://www.cnblogs.com/zhuocheng/archive/2011/12/12/2285290.html 转自http://blog.sina.com.cn/s/blog_4a9f789a0100ik3p.html 一.获得控制台用户输入的信息 &nbs
android学习任务不懂事的小屁孩工作
任务完成情况搞清楚带箭头的pupupwindows和不带的使用已完成熟练使用pupupwindows和alertdialog，并搞清楚两者的区别已完成熟练使用android的线程handler,并敲示例代码进行中了解游戏2048的流程，并完成其代码工作进行中-差几个actionbar 研究一下android的动画效果，写一个实例已完成复习fragem
zoom.js 换个号韩国红果果 oom
它的基于bootstrap 的 https://raw.github.com/twbs/bootstrap/master/js/transition.js transition.js模块引用顺序 <link rel="stylesheet" href="style/zoom.css"> <script src=&q
详解Oracle云操作系统Solaris 11.2 蓝儿唯美 Solaris
当Oracle发布Solaris 11时，它将自己的操作系统称为第一个面向云的操作系统。Oracle在发布Solaris 11.2时继续它以云为中心的基调。但是，这些说法没有告诉我们为什么Solaris是配得上云的。幸好，我们不需要等太久。Solaris11.2有4个重要的技术可以在一个有效的云实现中发挥重要作用：OpenStack、内核域、统一存档（UA）和弹性虚拟交换（EVS）。
spring学习——springmvc（一） a-john springMVC
Spring MVC基于模型-视图-控制器（Model-View-Controller，MVC）实现，能够帮助我们构建像Spring框架那样灵活和松耦合的Web应用程序。 1，跟踪Spring MVC的请求请求的第一站是Spring的DispatcherServlet。与大多数基于Java的Web框架一样，Spring MVC所有的请求都会通过一个前端控制器Servlet。前
hdu4342 History repeat itself-------多校联合五 aijuans 数论
水题就不多说什么了。 #include<iostream>#include<cstdlib>#include<stdio.h>#define ll __int64using namespace std;int main(){ int t; ll n; scanf("%d",&t); while(t--)
EJB和javabean的区别 asia007 bean ejb
EJB不是一般的JavaBean,EJB是企业级JavaBean,EJB一共分为3种,实体Bean,消息Bean,会话Bean,书写EJB是需要遵循一定的规范的,具体规范你可以参考相关的资料.另外,要运行EJB,你需要相应的EJB容器,比如Weblogic,Jboss等,而JavaBean不需要,只需要安装Tomcat就可以了 1.EJB用于服务端应用开发, 而JavaBeans
Struts的action和Result总结百合不是茶 struts Action配置 Result配置
一:Action的配置详解: 下面是一个Struts中一个空的Struts.xml的配置文件 <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC &quo
如何带好自已的团队 bijian1013 项目管理团队管理团队
在网上看到博客" 怎么才能让团队成员好好干活"的评论，觉得写的比较好。原文如下：我做团队管理有几年了吧，我和你分享一下我认为带好团队的几点： 1.诚信对团队内成员，无论是技术研究、交流、问题探讨，要尽可能的保持一种诚信的态度，用心去做好，你的团队会感觉得到。 2.努力提
Java代码混淆工具 sunjing ProGuard
Open Source Obfuscators ProGuard http://java-source.net/open-source/obfuscators/proguardProGuard is a free Java class file shrinker and obfuscator. It can detect and remove unused classes, fields, m
【Redis三】基于Redis sentinel的自动failover主从复制 bit1129 redis
在第二篇中使用2.8.17搭建了主从复制，但是它存在Master单点问题，为了解决这个问题，Redis从2.6开始引入sentinel，用于监控和管理Redis的主从复制环境，进行自动failover，即Master挂了后，sentinel自动从从服务器选出一个Master使主从复制集群仍然可以工作，如果Master醒来再次加入集群，只能以从服务器的形式工作。什么是Sentine
使用代理实现Hibernate Dao层自动事务白糖_ DAO spring AOP 框架 Hibernate
都说spring利用AOP实现自动事务处理机制非常好，但在只有hibernate这个框架情况下，我们开启session、管理事务就往往很麻烦。 public void save(Object obj){ Session session = this.getSession(); Transaction tran = session.beginTransaction(); try
maven3实战读书笔记 braveCS maven3
Maven简介是什么？ Is a software project management and comprehension tool.项目管理工具是基于POM概念(工程对象模型) [设计重复、编码重复、文档重复、构建重复，maven最大化消除了构建的重复] [与XP：简单、交流与反馈；测试驱动开发、十分钟构建、持续集成、富有信息的工作区] 功能：
编程之美-子数组的最大乘积 bylijinnan 编程之美
public class MaxProduct { /** * 编程之美子数组的最大乘积 * 题目: 给定一个长度为N的整数数组，只允许使用乘法，不能用除法，计算任意N-1个数的组合中乘积中最大的一组，并写出算法的时间复杂度。 * 以下程序对应书上两种方法，求得“乘积中最大的一组”的乘积——都是有溢出的可能的。 * 但按题目的意思，是要求得这个子数组，而不
读书笔记-2 chengxuyuancsdn 读书笔记
1、反射 2、oracle年-月-日时-分-秒 3、oracle创建有参、无参函数 4、oracle行转列 5、Struts2拦截器 6、Filter过滤器(web.xml) 1、反射 (1)检查类的结构在java.lang.reflect包里有3个类Field,Method,Constructor分别用于描述类的域、方法和构造器。 2、oracle年月日时分秒 s
[求学与房地产]慎重选择IT培训学校 comsci it
关于培训学校的教学和教师的问题,我们就不讨论了,我主要关心的是这个问题培训学校的教学楼和宿舍的环境和稳定性问题我们大家都知道，房子是一个比较昂贵的东西，特别是那种能够当教室的房子... &nb
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系 daizj oracle rman filesperset PARALLELISM
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系转 PARALLELISM --- 我们还可以通过parallelism参数来指定同时"自动"创建多少个通道： RMAN > configure device type disk parallelism 3 ; 表示启动三个通道，可以加快备份恢复的速度。
简单排序:冒泡排序 dieslrae 冒泡排序
public void bubbleSort(int[] array){ for(int i=1;i<array.length;i++){ for(int k=0;k<array.length-i;k++){ if(array[k] > array[k+1]){
初二上学期难记单词三 dcj3sjt126com sciet
concert 音乐会 tonight 今晚 famous 有名的；著名的 song 歌曲 thousand 千 accident 事故；灾难 careless 粗心的，大意的 break 折断；断裂；破碎 heart 心（脏） happen 偶尔发生，碰巧 tourist 旅游者；观光者 science （自然）科学 marry 结婚 subject 题目；
I.安装Memcahce 1. 安装依赖包libevent Memcache需要安装libevent,所以安装前可能需要执行 Shell代码收藏代码 dcj3sjt126com redis
wget http://download.redis.io/redis-stable.tar.gz tar xvzf redis-stable.tar.gz cd redis-stable make 前面3步应该没有问题，主要的问题是执行make的时候，出现了异常。异常一： make[2]: cc: Command not found 异常原因：没有安装g
并发容器 shuizhaosi888 并发容器
通过并发容器来改善同步容器的性能，同步容器将所有对容器状态的访问都串行化，来实现线程安全，这种方式严重降低并发性，当多个线程访问时，吞吐量严重降低。并发容器ConcurrentHashMap 替代同步基于散列的Map，通过Lock控制。 &nb
Spring Security（12）——Remember-Me功能 234390216 Spring Security Remember Me 记住我
Remember-Me功能目录 1.1 概述 1.2 基于简单加密token的方法 1.3 基于持久化token的方法 1.4 Remember-Me相关接口和实现
位运算焦志广位运算
一、位运算符Ｃ语言提供了六种位运算符： & 按位与 | 按位或 ^ 按位异或 ~ 取反 << 左移 >> 右移 1. 按位与运算按位与运算符"&"是双目运算符。其功能是参与运算的两数各对应的二进位相与。只有对应的两个二进位均为1时，结果位才为1 ，否则为0。参与运算的数以补码方式出现。例如：9&am
nodejs 数据库连接 mongodb mysql liguangsong mongodb mysql node 数据库连接
1.mysql 连接 package.json中dependencies加入 "mysql":"~2.7.0" 执行 npm install 在config 下创建文件 database.js
java动态编译 olive6615 java HotSpot jvm 动态编译
在HotSpot虚拟机中，有两个技术是至关重要的，即动态编译(Dynamic compilation)和Profiling。 HotSpot是如何动态编译Javad的bytecode呢？Java bytecode是以解释方式被load到虚拟机的。HotSpot里有一个运行监视器，即Profile Monitor,专门监视
Storm0.9.5的集群部署配置优化 roadrunners 优化 storm.yaml
nimbus结点配置（storm.yaml）信息： # Licensed to the Apache Software Foundation (ASF) under one # or more contributor license agreements. See the NOTICE file # distributed with this work for additional inf
101个MySQL 的调节和优化的提示 tomcat_oracle mysql
　1. 拥有足够的物理内存来把整个InnoDB文件加载到内存中——在内存中访问文件时的速度要比在硬盘中访问时快的多。　　2. 不惜一切代价避免使用Swap交换分区 – 交换时是从硬盘读取的，它的速度很慢。　　3. 使用电池供电的RAM（注：RAM即随机存储器）。　　4. 使用高级的RAID（注：Redundant Arrays of Inexpensive Disks，即磁盘阵列
zoj 3829 Known Notation(贪心) 阿尔萨斯 ZOJ
题目链接：zoj 3829 Known Notation 题目大意：给定一个不完整的后缀表达式，要求有2种不同操作，用尽量少的操作使得表达式完整。解题思路：贪心，数字的个数要要保证比∗的个数多1，不够的话优先补在开头是最优的。然后遍历一遍字符串，碰到数字+1，碰到∗-1,保证数字的个数大于等1，如果不够减的话，可以和最后面的一个数字交换位置（用栈维护十分方便），因为添加和交换代价都是1

基于TED(en-zh)数据集进行实现Seq2Seq模型

1、获取词汇表

2、将中英文文件根据词汇表转换为对应number

3、定义batch数据，动态从磁盘读取

4、模型搭建训练

你可能感兴趣的:(NLP)