青萍之默

[NLP]使用TensorFlow实现Seq2Seq神经机器翻译（翻译）

原文链接：http://androidkt.com/nmt-seq2seq-model-in-tensorflow/
本教程将使用TensorFlow构建seq2seq（编码器 - 解码器）机器翻译模型。这个seq2seq模型的可以将英语句子翻译成德语句子。

训练模型后，输入英文句子，例如“I am a student”可以得到其德语翻译：“Ich bin ein Student”。

文章目录

准备翻译数据集
数据输入管道
Estimator传递数据函数
构建NMTSeq2Seq模型

编码器
解码器
注意力机制
解码器输入
损失
推理期间

训练模型

构建Estimators
训练模型

已训练模型预测（推理）

准备翻译数据集

本教程将使用来自http://www.manythings.org/anki/ 网站的英语到德语数据集。下载数据集文件deu-eng.zip并压缩，将得到包含英语到德语短语对的deu.txt，每行一对，使用tab分隔符分割两种语言。

I won!	Ich habe gewonnen!
Smile.	Lächeln!
Cheers!	Zum Wohl!
Freeze!	Keine Bewegung!
Freeze!	Stehenbleiben!
Got it?	Verstanden?
Got it?	Einverstanden?
He ran.	Er rannte.

下载数据集后，以下是准备数据的过程：

首先，以保留Unicode德语字符的方式加载数据。
逐行分割加载的文本，然后按短语分割。
删除特殊字符来清理句子。
创建单词索引和反向单词索引（从单词→id和id→单词映射的字典）。
数据集清理后，删除少于2个单词或超过30个单词的文本。

在英语或德语中至少使用一次的任何单词都会添加到词汇表中。新的英语和德语文本仅使用创建的词汇表中的单词创建。两个文件词汇表中没有的单词都使用在替换。这个集合作为训练集合。单词的词汇表使用整数别名映射来进行识别。

随后数据集根据英文文件中的单词数排序，以减少用于训练的同一批次问题所需填充的影响。请访问 GitHub 获取详细实现和代码。

数据输入管道

Estimator input_fn函数创建并返回与构建模型相关的TF占位符。

def input_fn():
     source = tf.placeholder(tf.int64, shape=[None, None], name='input')
     target = tf.placeholder(tf.int64, shape=[None, None], name='output')
     tf.identity(source[0], 'input_0')
     tf.identity(target[0], 'output_0')
     return {
                'input': source,
                 'output': target,
            }, None

源占位符将输入英文句子数据，其大小为 [None, None]。第一个None代表批次大小，用户设置之前批次大小是未知的。第二个None代表句子长度。每个批次的最大句子长度不同，因此不能设置为确切的数字。目标占位符同理，不过其输入时德语句子数据。

Estimator传递数据函数

def sampler():
    while True:
        with open(input_filename) as finput:
            with open(output_filename) as foutput:
                for in_line in finput:
                    out_line = foutput.readline()
                    yield {
                        'input': input_process(in_line, vocab)[:input_max_length - 1] + [END_TOKEN],
                        'output': output_process(out_line, vocab)[:output_max_length - 1] + [END_TOKEN]
                    }
 
sample_me = sampler()
 
def feed_fn():
    inputs, outputs = [], []
    input_length, output_length = 0, 0
    for i in range(batch_size):
        rec = next(sample_me)
        inputs.append(rec['input'])
        outputs.append(rec['output'])
        input_length = max(input_length, len(inputs[-1]))
        output_length = max(output_length, len(outputs[-1]))
    # Pad me right with  token.
    for i in range(batch_size):
        inputs[i] += [END_TOKEN] * (input_length - len(inputs[i]))
        outputs[i] += [END_TOKEN] * (output_length - len(outputs[i]))
    return {
        'input:0': inputs,
        'output:0': outputs
    }

将每个批次的句子长度全设为本批次最大的长度。需要填充特殊字符。

构建NMTSeq2Seq模型

[NLP]使用TensorFlow实现Seq2Seq神经机器翻译（翻译）_第1张图片

编码器将源句子转换为“含义”向量，并传递给解码器以生成翻译。有两个可以背对背标记的循环神经网络，编码器和解码器。将英文句子输入编码器，然后将编码器的输出状态输入解码器，解码器将生成德语句子。

编码器

首先使用嵌入层查找单词，然后使用一个GRU单元作为编码器，并展示了使用不同的正则化技术如dropout包装GRU。然后，使用动态RNN展开编码器单元。

def seq2seq_model(features, labels, mode, params):
    vocab_size = params['vocab_size']
    embed_dim = params['embed_dim']
    num_units = params['num_units']
    output_max_length = params['output_max_length']
    dropout = params['dropout']
    beam_width = params['beam_width']
 
    inp = features['input']
    batch_size = tf.shape(inp)[0]
    start_tokens = tf.zeros([batch_size], dtype=tf.int64)
    input_lengths = tf.reduce_sum(tf.to_int32(tf.not_equal(inp, 1)), 1)
 
    input_embed = layers.embed_sequence(
        inp, vocab_size=vocab_size, embed_dim=embed_dim, scope='embed')
 
    with tf.variable_scope('embed', reuse=True):
        embeddings = tf.get_variable('embeddings')
 
    fw_cell = tf.contrib.rnn.GRUCell(num_units=num_units)
    bw_cell = tf.contrib.rnn.GRUCell(num_units=num_units)
 
    if dropout > 0.0:
        print("  %s, dropout=%g " % (type(fw_cell).__name__, dropout))
        fw_cell = tf.contrib.rnn.DropoutWrapper(
            cell=fw_cell, input_keep_prob=(1.0 - dropout))
        bw_cell = tf.contrib.rnn.DropoutWrapper(
            cell=bw_cell, input_keep_prob=(1.0 - dropout))
 
    bd_encoder_outputs, bd_encoder_final_state = \
        tf.nn.bidirectional_dynamic_rnn(cell_fw=fw_cell, cell_bw=bw_cell,
                                        inputs=input_embed, dtype=tf.float32)
 
    encoder_outputs = tf.concat(bd_encoder_outputs, -1)
    encoder_final_state = tf.concat(bd_encoder_final_state, -1)
    ...

双向编码器提供了更好的性能。这里，展示了使用单个双向层构建编码器。encoder_outputs是大小为[max_len，batch_size，num_units]的所有源隐藏状态的集合。

解码器

解码器也是GRU单元。本文使用集束搜索技术从展开的解码器生成最可能的单词序列，而不是最可能的单词。seq2seq API还有个动态解码器函数，将定义的解码器单元输入后，其将展开序列并构建解码器。

def setting_decoder(helper, scope, num_units, encoder_outputs, encoder_final_state, input_lengths,
                    vocab_size, batch_size, output_max_length, embeddings, start_tokens, END_TOKEN, beam_width,
                    reuse=None):
    num_units = num_units * 2
 
    with tf.variable_scope(scope, reuse=reuse):
 
        if beam_width > 0:
            encoder_outputs = tf.contrib.seq2seq.tile_batch(encoder_outputs, multiplier=beam_width)
            encoder_final_state = tf.contrib.seq2seq.tile_batch(encoder_final_state, multiplier=beam_width)
            input_lengths = tf.contrib.seq2seq.tile_batch(input_lengths, multiplier=beam_width)
 
        # Selecting the Attention Mechanism
        attention_mechanism = tf.contrib.seq2seq.LuongAttention(
            num_units=num_units, memory=encoder_outputs,
            memory_sequence_length=input_lengths)
 
        # Selecting the Cell Type to use
        cell = tf.contrib.rnn.GRUCell(num_units=num_units)
 
        # Wrapping attention to the cell
        attn_cell = tf.contrib.seq2seq.AttentionWrapper(
            cell, attention_mechanism, attention_layer_size=num_units)
        out_cell = tf.contrib.rnn.OutputProjectionWrapper(
            attn_cell, vocab_size, reuse=reuse
        )
 
        if (beam_width > 0):
 
            encoder_state = out_cell.zero_state(dtype=tf.float32,
                                                batch_size=batch_size * beam_width).clone(
                cell_state=encoder_final_state)
 
            decoder = tf.contrib.seq2seq.BeamSearchDecoder(
                cell=out_cell, embedding=embeddings,
                start_tokens=tf.to_int32(start_tokens), end_token=END_TOKEN,
                initial_state=encoder_state,
                beam_width=beam_width,
                length_penalty_weight=0.0)
 
            outputs = tf.contrib.seq2seq.dynamic_decode(
                decoder=decoder, output_time_major=False,
                impute_finished=False, maximum_iterations=output_max_length
            )
            return outputs[0]
 
        else:
            decoder = tf.contrib.seq2seq.BasicDecoder(cell=out_cell, helper=helper,
                                                      initial_state=out_cell.zero_state(dtype=tf.float32,
                                                                                        batch_size=batch_size).clone(
                                                          cell_state=encoder_final_state))
            outputs = tf.contrib.seq2seq.dynamic_decode(
                decoder=decoder, output_time_major=False,
                impute_finished=True, maximum_iterations=output_max_length
            )
            return outputs[0]我们将使用光束搜索技巧从展开的解码器**产生最可能的单词序列，**而不仅仅是最可能的单词。seq2seq API还有一个动态解码器功能，我向解码器单元供电，这将展开序列并构建我的解码器。

注意力机制

在编码器中，encoder_outputs是顶层的全部源隐藏状态的集合，其形状为[max_len，batch_size，num_units]。对于注意力机制，需要确保传入的“记忆”以批次数量为主轴，因此需要将attention_states转置。将source_sequence_length传递给注意力机制，以确保注意力权重被正确归一化。

解码器输入

一个显而易见的问题给解码器神经网络输入什么内容。在训练期间的处理非常简单，跟语言模型中有一点像。解码器中的每个单元产生一个字并产生输入到下一个单元的输出状态。还应该将生成的单词作为下一个单元的输入，至少训练是这样。

    if mode == tf.estimator.ModeKeys.TRAIN:
        # Specific For Training
        output = features['output']
        train_output = tf.concat([tf.expand_dims(start_tokens, 1), output], 1)
        output_lengths = tf.reduce_sum(tf.to_int32(tf.not_equal(train_output, 1)), 1)
 
        output_embed = layers.embed_sequence(
            train_output, vocab_size=vocab_size, embed_dim=embed_dim, scope='embed', reuse=True)
 
        train_helper = tf.contrib.seq2seq.TrainingHelper(output_embed, output_lengths)
 
        train_outputs = decoder.setting_decoder(train_helper, 'decode', num_units, encoder_outputs,
                                                encoder_final_state, input_lengths,
                                                vocab_size, batch_size, output_max_length, embeddings,
                                                start_tokens, END_TOKEN, beam_width, reuse=None)
 
        pred_outputs = decoder.setting_decoder(pred_helper, 'decode', num_units, encoder_outputs,
                                               encoder_final_state, input_lengths,
                                               vocab_size, batch_size, output_max_length, embeddings,
                                               start_tokens, END_TOKEN, beam_width, reuse=True)
 
        tf.identity(train_outputs.sample_id[0], name='train_pred')
        weights = tf.to_float(tf.not_equal(train_output[:, :-1], 1))
 
        logits = tf.identity(train_outputs.rnn_output, 'logits')
        ...

损失

给定上述模型，就可以计算训练损失了。

loss = tf.contrib.seq2seq.sequence_loss(
            logits, output, weights=weights)
 
 
train_op = layers.optimize_loss(
    loss, tf.train.get_global_step(),
    optimizer=params.get('optimizer', 'Adam'),
    learning_rate=params.get('learning_rate', 0.001),
    summaries=['loss', 'learning_rate'])
 
tf.identity(pred_outputs.sample_id[0], name='predictions')
return tf.estimator.EstimatorSpec(
    mode=mode,
    predictions=pred_outputs.sample_id,
    loss=loss,
    train_op=train_op
)

weights 是与decoder_outputs大小相同的0-1矩阵。它屏蔽目标序列长度之外的填充位置，值为0。

推理期间

实际预测时，情况更复杂点。当网络训练完成实际翻译句子时，将“I am student”输入编码器并得到输出向量，将向量载入第一个解码器单元，该单元同时需要输入单词，因此需要使用嵌入层查询，并使用动态RNN单元运行整个过程。

if mode == tf.estimator.ModeKeys.PREDICT:
    # Specific for Prediction
    pred_outputs = decoder.setting_decoder(pred_helper, 'decode', num_units, encoder_outputs,
                                           encoder_final_state, input_lengths,
                                           vocab_size, batch_size, output_max_length,
                                           embeddings, start_tokens, END_TOKEN, beam_width,
                                           reuse=False)
 
    if beam_width > 0:
        tf.identity(pred_outputs.predicted_ids, name='predictions')
        return tf.estimator.EstimatorSpec(mode=mode, predictions=pred_outputs.predicted_ids)
    else:
        tf.identity(pred_outputs.sample_id[0], name='predictions')
        return tf.estimator.EstimatorSpec(mode=mode, predictions=pred_outputs.sample_id)

训练模型

构建Estimators

Estimator是TensorFlow完整模型的高级表示。它完成初始化、日志、保存、恢复以及其他功能的具体过程，使用户可以专注于模型。

vocab = input_helper.load_vocab(vocab_file)
 
params = {
    'vocab_size': len(vocab),
    'batch_size': 64,
    'input_max_length': 20,
    'output_max_length': 20,
    'embed_dim': 100,
    'num_units': 256,
    'dropout': 0.2,
    'beam_width': 0
}
 
input_fn, feed_fn = input_helper.make_input_fn(
    params['batch_size'],
    input_file,
    output_file,
    vocab, params['input_max_length'], params['output_max_length'])
 
run_config = tf.estimator.RunConfig(
    model_dir="model/seq2seq",
    keep_checkpoint_max=5,
    save_checkpoints_steps=500,
    log_step_count_steps=10)
 
seq2seq_esti = tf.estimator.Estimator(
    model_fn=seq2seq_model,
    config=run_config,
    params=params)

TensorFlow已经编写了大量毫无乐趣的样板代码，例如定期输出检查点。如果训练在24小时后崩溃，可以从崩溃的位置重新启动，最后导出模型，以便您可以将某些内容部署到服务基础架构或分布式训练。分布式训练的分布式算法也融入了estimator中。

训练模型

调用Estimator的训练方法来训练模型如下所示：

seq2seq_esti.train(
    input_fn=input_fn,
    hooks=[tf.train.FeedFnHook(feed_fn)],
    steps=5000)

已训练模型预测（推理）

模型训练好，现在可以使用模型来翻译英文句子了。与训练时一样，使用一个函数调用进行推理。

def predict_input_fn(input_filename, vocab, input_process=tokenize_and_map):
    max_len = 0.
 
    with open(input_filename) as finput:
        for in_line in finput:
            max_len = max(len(in_line.split(" ")), max_len)
 
    predict_lines = np.empty(max_len + 1, int)
 
    with open(input_filename) as finput:
        for in_line in finput:
            in_line = in_line.lower()
            new_line_tmp = np.array(input_process(in_line, vocab), dtype=int)
            new_line = np.append(new_line_tmp, np.array([UNK_TOKEN for _ in range(max_len - len(new_line_tmp))] +
                                                        [int(END_TOKEN)], dtype=int))
            predict_lines = np.vstack((predict_lines, new_line))
 
    pred_line_tmp = np.delete(predict_lines, 0, 0)
 
    pred_lines = np.array(pred_line_tmp)
    return {'input': pred_lines}
 
 
 
pred_input_fn = tf.estimator.inputs.numpy_input_fn(x=inputs_with_tokens,
                                                   shuffle=False,
                                                   num_epochs=1)
 
predictions_obj = model.predict(input_fn=pred_input_fn)
if params['beam_width'] > 0:
    final_answer = p_helper.get_out_put_from_tokens_beam_search(predictions_obj, vocab)
else:
    final_answer = p_helper.get_out_put_from_tokens(predictions_obj, vocab)
 
with open(input_file) as finput:
    for each_answer in final_answer:
        question = finput.readline()
        print('Source: ', question.replace('\n', '').replace('', ''))
        print('Target: ', str(each_answer).replace('', '').replace('', ''))

请访问GitHub以获取更多详细信息和实际代码。它将涵盖更多主题，如如何预处理数据集，如何定义输入，如何训练和进行预测。

基于树莓派的轻量级AI数字人开发全流程指南 ——从硬件选型到语音视觉交互实战 zhz5214 AI ai 人工智能 AI写作 AI编程智能体
1.背景与目标AI数字人，像是虚拟助手、交互式角色，在当下数字化浪潮中扮演着越来越重要的角色。其核心在于整合语音识别、视觉感知、自然语言处理（NLP）和动态反馈四大关键功能。本文将以树莓派5开发板为核心，搭配AI加速硬件，结合开源框架，为大家详细阐述如何实现本地化轻量级数字人开发。这一方案特别适用于教育领域，帮助学生更直观地理解AI技术；在智能家居场景中，也能为用户带来更智能、便捷的交互体验。2.
RAG数据嵌入和重排序：如何选择合适的模型从零开始学习人工智能深度学习
RAG数据嵌入和重排序：如何选择合适的模型在自然语言处理（NLP）领域，Retrieval-AugmentedGeneration（RAG）模型已经成为一种强大的工具，用于结合检索和生成能力来处理复杂的语言任务。RAG模型的核心在于两个关键步骤：数据嵌入（Embedding）和重排序（Re-ranking）。这两个步骤的选择和优化对于模型的性能至关重要。本文将探讨如何选择合适的模型来实现高效的数据
自然语言处理领域CCF推荐的A类期刊冰蓝蓝自然语言处理人工智能
在自然语言处理（NLP）这一蓬勃发展的领域，研究人员和学者们致力于探索语言的深层含义和应用。中国计算机学会（CCF）推荐的A类期刊和会议是该领域内公认的高质量研究发表平台。这是我在学习时整理的一些顶刊并附上官网地址直达。1.ACL(AnnualMeetingoftheAssociationforComputationalLinguistics)ACL是自然语言处理领域的顶级会议之一，由Associ
机器学习中输入输出Tokens的概念详解爱吃土豆的程序员机器学习基础机器学习人工智能 Tokens
随着深度学习技术的快速发展，大语言模型（LargeLanguageModels,LLMs）已经成为自然语言处理（NLP）领域的一个热点研究方向。这些模型不仅能够生成高质量的文本，还能在多种任务中展现出卓越的表现，比如机器翻译、问答系统、文本摘要等。在大语言模型的工作流程中，Tokens的概念扮演着至关重要的角色。本文将详细介绍大语言模型如何使用Tokens，以及如何计算Tokens的数量。什么是T
输入：0.5元/百万tokens（缓存命中）或2元（未命中）输出：8元/百万tokens 杏花春雨江南缓存
这句话描述了一种定价模型，通常用于云计算、API服务或数据处理服务中，根据资源使用情况（如缓存命中与否）来收费。以下是对这句话的详细解释：1.关键术语解释Tokens：在自然语言处理（NLP）或数据处理领域，Token通常指文本的最小单位（如一个单词或一个字符）。在这里，Tokens是计费的单位。缓存命中（CacheHit）：当请求的数据已经在缓存中时，称为缓存命中。缓存命中通常意味着更快的响应速
Ollama 基本概念 Mr_One_Zhang 学习Ollama ai
Ollama是一个本地化的、支持多种自然语言处理（NLP）任务的机器学习框架，专注于模型加载、推理和生成任务。通过Ollama，用户能够方便地与本地部署的大型预训练模型进行交互。1.模型（Model）在Ollama中，模型是核心组成部分。它们是经过预训练的机器学习模型，能够执行不同的任务，例如文本生成、文本摘要、情感分析、对话生成等。Ollama支持多种流行的预训练模型，常见的模型有：deepse
CSDN社区，到底该不该用DeepSeek AI生成文章？ Small踢倒coffee_氕氘氚 python 经验分享
##引言在当今数字化时代，人工智能（AI）技术正以惊人的速度发展，逐渐渗透到各个行业和领域。作为AI技术的一个重要分支，自然语言处理（NLP）在内容创作、文本生成等方面展现出了巨大的潜力。DeepSeekAI作为一款先进的AI写作工具，能够自动生成高质量的文章，极大地提高了内容创作的效率。然而，随着AI生成内容的普及，CSDN社区中的开发者、技术爱好者和内容创作者们开始思考一个问题：我们到底该不该
AI大模型学习路线：从入门到精通的完整指南【2025最新】 AI大模型-大飞人工智能学习大模型 LLM AI 程序员大模型学习
引言近年来，以GPT、BERT、LLaMA等为代表的AI大模型彻底改变了人工智能领域的技术格局。它们不仅在自然语言处理（NLP）任务中表现卓越，还在计算机视觉、多模态交互等领域展现出巨大潜力。本文旨在为开发者、研究者和技术爱好者提供一条清晰的学习路径，帮助读者逐步掌握大模型的核心技术并实现实际应用。一、基础阶段：构建知识体系数学与理论基础线性代数：矩阵运算、特征值与奇异值分解是大模型参数优化的基础
深入解析两大AI模型的架构与功能草莓屁屁我不吃人工智能 chatgpt
在人工智能（AI）领域，自然语言处理（NLP）一直是研究的热点之一。随着技术的不断进步，我们见证了从简单的聊天机器人到复杂语言模型的演变。其中，Google的Gemini和OpenAI的ChatGPT作为两大代表性模型，各自在技术和应用上展现出了卓越的性能。本文将详细解析Gemini和ChatGPT的系统架构、功能特性及其背后的技术原理。Gemini模型详解技术背景与架构Gemini，顾名思义，意
linux系统安全 IT小饕餮 linux基础 linux 系统安全运维
管理终端登录[root@localhost~]#grep"/sbin/nologin$"/etc/passwd表示禁止终端登录，应确保不被人改动输出结果：bin：x:1:1:bin:/bin:/sbin/nologindaemon：x:2:2:daemon:/sbin:/sbin/nologinadm：x:3:4:adm:/var/adm:/sbin/nologinlp：x:4:7:lp:/var
【NLP】 3. Distributional Similarity in NLP（分布式相似性） pen-ai NLP 机器学习自然语言处理分布式人工智能
DistributionalSimilarityinNLP（分布式相似性）分布式相似性（DistributionalSimilarity）是自然语言处理（NLP）中的核心概念，基于“相似的单词出现在相似的上下文中”这一假设。它用于衡量单词之间的相似性，广泛应用于词向量、信息检索、文本分类等任务。1.分布式假设（DistributionalHypothesis）分布式相似性基于以下假设：“Yoush
【NLP】 9. 处理创造性词汇 & 词组特征（Creative Words & Features Model），词袋模型处理未知词，模型得分 pen-ai NLP 机器学习自然语言处理人工智能深度学习
这里写目录标题处理创造性词汇&词组特征（CreativeWords&FeaturesModel）1.处理否定（NegationHandling）2.词组特征（Bigrams&N-grams）3.结合否定传播与n-grams进行优化词袋模型（Bag-of-Words,BoW）1.BoW示例2.处理未知词3.为什么忽略未知词？4.处理未知词的方法计算模型得分（ScoreCalculation）处理创造
【NLP】 5. Word Analogy Task（词类比任务）与 Intrinsic Metric（内在度量） pen-ai NLP 机器学习自然语言处理 word 人工智能
WordAnalogyTask（词类比任务）定义：WordAnalogyTask是用于评估词向量质量的内在指标（IntrinsicMetric）。该任务基于这样的假设：如果词向量能够捕捉单词之间的语义关系，那么这些关系应该能够在向量空间中保持一定的结构。示例：在一个理想的词向量空间中，单词之间的关系应该满足如下等式：king−man+woman≈queenking−man+woman≈queenk
大规模语言模型从理论到实践开源指令数据集 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战 AI大模型应用入门实战与进阶计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大规模语言模型从理论到实践开源指令数据集1.背景介绍大规模语言模型（LargeLanguageModels,LLMs）近年来在自然语言处理（NLP）领域取得了显著的进展。诸如GPT-3、BERT等模型在各种任务中表现出色，从文本生成到翻译，再到问答系统，几乎无所不能。这些模型的成功离不开庞大的训练数据集和复杂的算法架构。然而，如何有效地构建和利用开源指令数据集，仍然是一个值得深入探讨的话题。2.核
使用Python和LangChain创建可调用工具的智能对话机器人：全面指南 m0_57781768 python langchain 机器人
使用Python和LangChain创建可调用工具的智能对话机器人：全面指南在当今技术迅猛发展的时代，人工智能（AI）和自然语言处理（NLP）技术的应用范围越来越广。尤其是对话机器人，它们不仅能与人类进行自然交互，还能通过调用外部API与各种系统对接，为用户提供更加智能和灵活的服务。本文将通过一系列实例和代码演示，向您展示如何利用Python编程语言和LangChain框架，创建能够使用外部工具（
如何用deepseek炒股 Real Man★ python 机器学习人工智能
使用DeepSeek进行炒股的核心思路是利用其强大的数据处理和预测能力，辅助投资决策。以下是具体的应用方法和步骤：一、数据收集与处理获取市场数据股票数据：通过API（如Tushare、YahooFinance）获取历史股价、成交量、财务数据等。新闻与舆情：使用DeepSeek的NLP能力分析新闻、社交媒体和公告，提取市场情绪和事件影响。宏观经济数据：收集GDP、利率、通胀等数据，分析其对股市的影响
你的AI客服为何总抓不住客户核心诉求？（附特征优化方案）人工智能
1特征工程的意义nlp任务中，原始文本经数值映射后形成的词向量序列，难充分表达语言深层语义特征。就需引入文本特征增强技术：语义信息补全：突破单词语义局限，捕获词序关联特征模型适配优化：构建符合算法输入规范的矩阵结构评估指标提升：通过特征增强直接影响模型准确率、召回率等核心KPI如电商评论情感分析场景，单纯用词频特征可能导致"这个手机质量差得惊人"和"这个手机质量惊人地差"被判定为相同语义，此时bi
NLP复习3，手撕多头attention 地大停车第二帅 NLP学习自然语言处理人工智能
importmathimporttorchimportcollectionsimportnumpyasnpimporttorch.nnasnnclassMultiHeadAttention(nn.Module):def__init__(self,heads,d_model,dropout=0.1):super().__init__()#输入的特征维度self.d_model=d_model#每个头
Assembly语言的自然语言处理花韵婷包罗万象 golang 开发语言后端
Assembly语言在自然语言处理中的应用引言自然语言处理（NaturalLanguageProcessing,NLP）作为人工智能的一个重要分支，致力于实现计算机与人类语言之间的互动。随着计算能力的提升以及大数据的蓬勃发展，NLP在各个领域的应用如火如荼。从语音识别、机器翻译到情感分析等，NLP正在改变我们与信息之间的互动方式。不过，当前主流的NLP研究通常是用高级编程语言（如Python、Ja
大语言模型原理与工程实践：大语言模型强化对齐 AGI大模型与大数据研究院 DeepSeek R1 &大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大语言模型原理与工程实践：大语言模型强化对齐作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的迅猛发展，大语言模型（LargeLanguageModels，LLMs）如GPT-3、LaMDA等，在自然语言处理（NLP）领域取得了显著的突破。这些模型在问答、翻译、文本生成等方面展现出惊人的能力，但同时也引发了
第20篇：从零开始构建NLP项目之电商用户评论分析：模型训练阶段 Gemini技术窝自然语言处理人工智能深度学习 AIGC 机器学习 nlp langchain
大家好，今天我们继续探讨如何从零开始构建一个NLP项目，特别是电商用户评论分析中的模型训练阶段。模型训练是NLP项目的核心环节，通过合理的调参和优化，可以显著提升模型性能。本文将详细介绍模型训练的步骤，并展示如何使用LangChain库进行模型训练、调参和优化。文章目录项目的背景和目标模型训练的详细步骤安装依赖包流程图1.准备数据2.定义模型3.训练模型4.评估模型5.调参与优化常见错误和注意事项
NLP-二分类的应用-区分外卖评论好评/差评左岸Jason 算法 python kafka flink elasticsearch
目录一、概念二、二分类实战-划分好评/差评1.处理步骤2.实战代码一、概念文本分类一般可以分为二分类、多分类、多标签分类三种情况。二分类是指将一组文本分成两个类(0或1),比较常见的应用如垃圾邮件分类、电商网站的用户评价数据的正负面分类等,多分类是指将文本分成若干个类中的某一个类,比如说门户网站新闻可以归属到不同的栏目中(如政治、体育、社会、科技、金融等栏目)去。多标签分类指的是可以将文本分成若干
Python 爬虫实战：电影评论数据抓取与自然语言处理西攻城狮北 python 爬虫开发语言
引言作为一名对电影数据和自然语言处理感兴趣的内容创作者，我决定利用Python爬虫技术抓取IMDb上的电影评论数据，并进行自然语言处理分析。这不仅可以帮助我们了解观众对电影的反馈，还能为电影制作方提供有价值的参考。一、项目背景IMDb（互联网电影数据库）是全球最大的电影数据库，用户可以在上面查看电影信息和用户评论。本项目旨在爬取IMDb上的电影评论，并对评论进行自然语言处理（NLP），以提取情感、
模型蒸馏：从复杂到精简，AI技术的“瘦身”秘籍 lmtealily 人工智能
引言在人工智能的浪潮中，大型模型如BERT、GPT系列等在自然语言处理（NLP）、计算机视觉（CV）等领域取得了显著的成果。然而，这些“庞然大物”通常拥有数十亿甚至数千亿个参数，计算和存储成本极高，难以部署到资源受限的设备上。为了解决这一问题，模型蒸馏技术应运而生。模型蒸馏是一种将大型复杂模型的知识迁移到小型简单模型的技术，旨在保持高性能的同时大幅减少模型的参数量和计算复杂度。本文将带你深入了解模
Python自动化炒股：基于自然语言处理的股票新闻情感分析模型开发与优化的最佳实践云策量化 Python自动化炒股量化投资量化软件 python 量化交易 QMT PTrade 量化炒股量化投资 deepseek
推荐阅读：《程序化炒股：如何申请官方交易接口权限？个人账户可以申请吗？》Python自动化炒股：基于自然语言处理的股票新闻情感分析模型开发与优化的最佳实践在股市中，信息的力量是巨大的。一条新闻、一篇报道，甚至一条推文，都可能引发股价的波动。因此，利用自然语言处理（NLP）技术来分析股票新闻的情感倾向，可以帮助我们预测市场动向，从而做出更明智的投资决策。本文将带你了解如何开发和优化一个基于Pytho
百度快速收录2025最新科普 SEORoal 百度
跨境物流的智能突围战宁波某RCEP跨境物流平台接入214维特征矩阵后：✅'智能清关系统’72小时冲进TOP3✅'东盟电子报关’长尾词覆盖量暴涨4.2倍✅日均有效询盘突破300+技术三板斧：标题智能提取引擎（支持38种语义变异）动态阻抗参数混淆（误差≤0.15μΩ）实时工商特征同步（每2小时更新）2025生存指南：采用神经网络语义映射（NLP准确率98.2%）部署质量监控系统（误差率≤0.15%）加
数据标注工具及其对预训练模型性能的影响 AGI大模型与大数据研究院 DeepSeek R1 &大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍1.1预训练模型的崛起近年来，预训练模型（Pre-trainedModels）在自然语言处理（NLP）领域取得了显著的成功。这些模型通过在大规模无标注文本数据集上进行预训练，学习到丰富的语言知识和语义表示，并在下游任务中展现出优异的性能。BERT、GPT-3等预训练模型的出现，标志着NLP领域进入了一个新的时代。1.2数据标注的重要性尽管预训练模型展现出强大的能力，但它们仍然需要针对特
大语言模型（LLMs）全面学习指南（非常详细）零基础入门到精通，收藏这一篇就够了网络安全大白科技程序员人工智能语言模型人工智能自然语言处理
大语言模型（LLMs）作为人工智能（AI）领域的一项突破性发展，已经改变了自然语言处理（NLP）和机器学习（ML）应用的面貌。这些模型，包括OpenAI的GPT-4o和Google的gemini系列等，已经展现出了在理解和生成类人文本方面的令人印象深刻的能力，使它们成为各行各业的宝贵工具。如下这份指南将涵盖LLMs的基础知识、训练过程、用例和未来趋势……一.WhatareLargeLanguage
Python API接口君王的羔羊 Python AI python
人工智能机器人EverydayWechat老李API图灵机器人：http://www.turingapi.com/（需求实名制认证，并每天免费数量只有100条）青云客智能聊天机器人：http://api.qingyunke.com/（无须申请，无数量限制，但有点智障，分手神器。分手神器，慎用）智能闲聊（腾讯）：https://ai.qq.com/product/nlpchat.shtml(申请使用
自然语言处理（NLP）技术介绍风吹晚风悠 gpt 人工智能 nlp 自然语言处理
自然语言处理（NLP）是一种涉及计算机和人类语言之间交流的技术。NLP技术可以应用于多个领域，例如机器翻译、情感分析、文本分类、问答系统等。以下是一些NLP技术的示例：机器翻译：NLP技术可用于将一个语言的文本自动翻译成另一个语言。例如，GoogleTranslate和百度翻译等在线翻译工具就使用了NLP技术。情感分析：NLP技术可用于分析文本中的情感和情感倾向。这可以帮助企业了解公众对其产品或服
github中多个平台共存 jackyrong github
在个人电脑上，如何分别链接比如oschina,github等库呢，一般教程之列的，默认 ssh链接一个托管的而已，下面讲解如何放两个文件 1）设置用户名和邮件地址 $ git config --global user.name "xx" $ git config --global user.email "[email protected]"
ip地址与整数的相互转换(javascript) alxw4616 JavaScript
//IP转成整型 function ip2int(ip){ var num = 0; ip = ip.split("."); num = Number(ip[0]) * 256 * 256 * 256 + Number(ip[1]) * 256 * 256 + Number(ip[2]) * 256 + Number(ip[3]); n
读书笔记-jquey+数据库+css chengxuyuancsdn html jquery oracle
1、grouping ,group by rollup, GROUP BY GROUPING SETS区别 2、$("#totalTable tbody>tr td:nth-child(" + i + ")").css({"width":tdWidth, "margin":"0px", &q
javaSE javaEE javaME == API下载 Array_06 java
oracle下载各种API文档： http://www.oracle.com/technetwork/java/embedded/javame/embed-me/documentation/javame-embedded-apis-2181154.html JavaSE文档： http://docs.oracle.com/javase/8/docs/api/ JavaEE文档： ht
shiro入门学习 cugfy java Web 框架
声明本文只适合初学者，本人也是刚接触而已，经过一段时间的研究小有收获，特来分享下希望和大家互相交流学习。首先配置我们的web.xml代码如下，固定格式，记死就成 <filter> <filter-name>shiroFilter</filter-name> &nbs
Array添加删除方法 357029540 js
刚才做项目前台删除数组的固定下标值时，删除得不是很完整，所以在网上查了下，发现一个不错的方法，也提供给需要的同学。 //给数组添加删除 Array.prototype.del = function(n){
navigation bar 更改颜色张亚雄 IO
今天郁闷了一下午，就因为objective-c默认语言是英文，我写的中文全是一些乱七八糟的样子，到不是乱码，但是，前两个自字是粗体，后两个字正常体，这可郁闷死我了，问了问大牛，人家告诉我说更改一下字体就好啦，比如改成黑体，哇塞，茅塞顿开。翻书看，发现，书上有介绍怎么更改表格中文字字体的，代码如下
unicode转换成中文 adminjun unicode 编码转换
在Java程序中总会出现\u6b22\u8fce\u63d0\u4ea4\u5fae\u535a\u641c\u7d22\u4f7f\u7528\u53cd\u9988\uff0c\u8bf7\u76f4\u63a5这个的字符，这是unicode编码，使用时有时候不会自动转换成中文就需要自己转换了使用下面的方法转换一下即可。 /** * unicode 转换成中文
一站式 Java Web 框架 firefly aijuans Java Web
Firefly是一个高性能一站式Web框架。涵盖了web开发的主要技术栈。包含Template engine、IOC、MVC framework、HTTP Server、Common tools、Log、Json parser等模块。 firefly-2.0_07修复了模版压缩对javascript单行注释的影响，并新增了自定义错误页面功能。更新日志：增加自定义系统错误页面功能
设计模式——单例模式 ayaoxinchao 设计模式
定义 Java中单例模式定义：“一个类有且仅有一个实例，并且自行实例化向整个系统提供。” 分析从定义中可以看出单例的要点有三个：一是某个类只能有一个实例；二是必须自行创建这个实例；三是必须自行向系统提供这个实例。 &nb
Javascript 多浏览器兼容性问题及解决方案 BigBird2012 JavaScript
不论是网站应用还是学习js,大家很注重ie与firefox等浏览器的兼容性问题，毕竟这两中浏览器是占了绝大多数。一、document.formName.item(”itemName”) 问题问题说明：IE下，可以使用 document.formName.item(”itemName”) 或 document.formName.elements ["elementName&quo
JUnit-4.11使用报java.lang.NoClassDefFoundError: org/hamcrest/SelfDescribing错误 bijian1013 junit4.11 单元测试
下载了最新的JUnit版本，是4.11，结果尝试使用发现总是报java.lang.NoClassDefFoundError: org/hamcrest/SelfDescribing这样的错误，上网查了一下，一般的解决方案是，换一个低一点的版本就好了。还有人说，是缺少hamcrest的包。去官网看了一下，如下发现：
[Zookeeper学习笔记之二]Zookeeper部署脚本 bit1129 zookeeper
Zookeeper伪分布式安装脚本(此脚本在一台机器上创建Zookeeper三个进程，即创建具有三个节点的Zookeeper集群。这个脚本和zookeeper的tar包放在同一个目录下，脚本中指定的名字是zookeeper的3.4.6版本，需要根据实际情况修改)： #!/bin/bash #!!!Change the name!!! #The zookeepe
【Spark八十】Spark RDD API二 bit1129 spark
coGroup package spark.examples.rddapi import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.SparkContext._ object CoGroupTest_05 { def main(args: Array[String]) { v
Linux中编译apache服务器modules文件夹缺少模块(.so)的问题 ronin47 modules
在modules目录中只有httpd.exp，那些so文件呢？我尝试在fedora core 3中安装apache 2. 当我解压了apache 2.0.54后使用configure工具并且加入了 --enable-so 或者 --enable-modules=so (两个我都试过了) 去make并且make install了。我希望在/apache2/modules/目录里有各种模块，
Java基础-克隆 BrokenDreams java基础
Java中怎么拷贝一个对象呢？可以通过调用这个对象类型的构造器构造一个新对象，然后将要拷贝对象的属性设置到新对象里面。Java中也有另一种不通过构造器来拷贝对象的方式，这种方式称为克隆。 Java提供了java.lang.
读《研磨设计模式》-代码笔记-适配器模式-Adapter bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 适配器模式解决的主要问题是，现有的方法接口与客户要求的方法接口不一致 * 可以这样想，我们要写这样一个类（Adapter）: * 1.这个类要符合客户的要求 ---> 那显然要
HDR图像PS教程集锦&心得 cherishLC PS
HDR是指高动态范围的图像，主要原理为提高图像的局部对比度。软件有photomatix和nik hdr efex。一、教程叶明在知乎上的回答： http://www.zhihu.com/question/27418267/answer/37317792 大意是修完后直方图最好是等值直方图，方法是HDR软件调一遍，再结合不透明度和蒙版细调。二、心得 1、去除阴影部分的
maven-3.3.3 mvn archetype 列表 crabdave ArcheType
maven-3.3.3 mvn archetype 列表可以参考最新的：http://repo1.maven.org/maven2/archetype-catalog.xml [INFO] Scanning for projects... [INFO]
linux shell 中文件编码查看及转换方法 daizj shell 中文乱码 vim 文件编码
一、查看文件编码。在打开文件的时候输入:set fileencoding 即可显示文件编码格式。二、文件编码转换 1、在Vim中直接进行转换文件编码,比如将一个文件转换成utf-8格式 &
MySQL--binlog日志恢复数据 dcj3sjt126com binlog
恢复数据的重要命令如下 mysql> flush logs; 默认的日志是mysql-bin.000001，现在刷新了重新开启一个就多了一个mysql-bin.000002
数据库中数据表数据迁移方法 dcj3sjt126com sql
刚开始想想好像挺麻烦的，后来找到一种方法了，就SQL中的 INSERT 语句，不过内容是现从另外的表中查出来的，其实就是 MySQL中INSERT INTO SELECT的使用下面看看如何使用语法：MySQL中INSERT INTO SELECT的使用 1. 语法介绍有三张表a、b、c，现在需要从表b
Java反转字符串 dyy_gusi java 反转字符串
前几天看见一篇文章，说使用Java能用几种方式反转一个字符串。首先要明白什么叫反转字符串，就是将一个字符串到过来啦，比如"倒过来念的是小狗"反转过来就是”狗小是的念来过倒“。接下来就把自己能想到的所有方式记录下来了。 1、第一个念头就是直接使用String类的反转方法，对不起，这样是不行的，因为Stri
UI设计中我们为什么需要设计动效 gcq511120594 UI linux
随着国际大品牌苹果和谷歌的引领，最近越来越多的国内公司开始关注动效设计了，越来越多的团队已经意识到动效在产品用户体验中的重要性了，更多的UI设计师们也开始投身动效设计领域。但是说到底，我们到底为什么需要动效设计？或者说我们到底需要什么样的动效？做动效设计也有段时间了，于是尝试用一些案例，从产品本身出发来说说我所思考的动效设计。一、加强体验舒适度嗯，就是让用户更加爽更加爽的用
JBOSS服务部署端口冲突问题 HogwartsRow java 应用服务器 jboss server EJB3
服务端口冲突问题的解决方法，一般修改如下三个文件中的部分端口就可以了。 1、jboss5/server/default/conf/bindingservice.beans/META-INF/bindings-jboss-beans.xml 2、./server/default/deploy/jbossweb.sar/server.xml 3、.
第三章 Redis/SSDB+Twemproxy安装与使用 jinnianshilongnian ssdb reids twemproxy
目前对于互联网公司不使用Redis的很少，Redis不仅仅可以作为key-value缓存，而且提供了丰富的数据结果如set、list、map等，可以实现很多复杂的功能；但是Redis本身主要用作内存缓存，不适合做持久化存储，因此目前有如SSDB、ARDB等，还有如京东的JIMDB，它们都支持Redis协议，可以支持Redis客户端直接访问；而这些持久化存储大多数使用了如LevelDB、RocksD
ZooKeeper原理及使用 liyonghui160com
ZooKeeper是Hadoop Ecosystem中非常重要的组件，它的主要功能是为分布式系统提供一致性协调(Coordination)服务，与之对应的Google的类似服务叫Chubby。今天这篇文章分为三个部分来介绍ZooKeeper，第一部分介绍ZooKeeper的基本原理，第二部分介绍ZooKeeper
程序员解决问题的60个策略 pda158 框架工作单元测试
根本的指导方针 1. 首先写代码的时候最好不要有缺陷。最好的修复方法就是让 bug 胎死腹中。良好的单元测试强制数据库约束使用输入验证框架避免未实现的“else”条件在应用到主程序之前知道如何在孤立的情况下使用日志 2. print 语句。往往额外输出个一两行将有助于隔离问题。 3. 切换至详细的日志记录。详细的日
Create the Google Play Account sillycat Google
Create the Google Play Account Having a Google account, pay 25$, then you get your google developer account. References: http://developer.android.com/distribute/googleplay/start.html https://p
JSP三大指令 vikingwei jsp
JSP三大指令一个jsp页面中，可以有0~N个指令的定义！ 1. page --> 最复杂：<%@page language="java" info="xxx"...%> * pageEncoding和contentType： > pageEncoding：它

[NLP]使用TensorFlow实现Seq2Seq神经机器翻译（翻译）

文章目录

准备翻译数据集

数据输入管道

Estimator传递数据函数

构建NMTSeq2Seq模型

编码器

解码器

注意力机制

解码器输入

损失

推理期间

训练模型

构建Estimators

训练模型

已训练模型预测（推理）

你可能感兴趣的:(NLP)