拓端研究室TRL

python用于NLP的seq2seq模型实例:用Keras实现神经网络机器翻译

在本文中，我们将看到如何创建语言翻译模型，这也是神经机器翻译的非常著名的应用。

最近我们被客户要求撰写关于NLP的研究报告，包括一些图形和统计输出。我们将使用seq2seq通过Python的Keras库创建我们的语言翻译模型。

假定您对循环神经网络（尤其是LSTM）有很好的了解。本文中的代码是使用Keras库用Python编写的。

库和配置设置

首先导入所需的库：

import os, sys

from keras.models import Model
from keras.layers import Input, LSTM, GRU, Dense, Embedding
from keras.preprocessing.text import Tokenizer
from keras.preprocessing.sequence import pad_sequences
from keras.utils import to_categorical
import numpy as np
import matplotlib.pyplot as plt

执行以下脚本来设置不同参数的值：

BATCH_SIZE = 64
EPOCHS = 20
LSTM_NODES =256
NUM_SENTENCES = 20000
MAX_SENTENCE_LENGTH = 50
MAX_NUM_WORDS = 20000
EMBEDDING_SIZE = 100

数据集

我们将在本文中开发的语言翻译模型会将英语句子翻译成法语。要开发这样的模型，我们需要一个包含英语句子及其法语翻译的数据集。在每一行上，文本文件包含一个英语句子及其法语翻译，并用制表符分隔。文件的前20行fra.txt如下所示：

Go. Va !
Hi. Salut !
Hi. Salut.
Run!    Cours !
Run!    Courez !
Who?    Qui ?
Wow!    Ça alors !
Fire!   Au feu !
Help!   À l'aide !
Jump.   Saute.
Stop!   Ça suffit !
Stop!   Stop !
Stop!   Arrête-toi !
Wait!   Attends !
Wait!   Attendez !
Go on.  Poursuis.
Go on.  Continuez.
Go on.  Poursuivez.
Hello!  Bonjour !
Hello!  Salut !

该模型包含超过170,000条记录，但是我们将仅使用前20,000条记录来训练我们的模型。

数据预处理

神经机器翻译模型通常基于seq2seq架构。seq2seq体系结构是一种编码-解码体系结构，由两个LSTM网络组成：编码LSTM和解码LSTM。

在我们的数据集中，我们不需要处理输入，但是，我们需要生成翻译后的句子的两个副本：一个带有句子开始标记，另一个带有句子结束标记。这是执行此操作的脚本：

input_sentences = []
output_sentences = []
output_sentences_inputs = []

count = 0
for line in open(r'/content/drive/My Drive/datasets/fra.txt', encoding="utf-8"):
    count += 1

    if count > NUM_SENTENCES:
        break

    if '\t' not in line:
        continue

    input_sentence, output = line.rstrip().split('\t')

    output_sentence = output + ' '
    output_sentence_input = ' ' + output

    input_sentences.append(input_sentence)
    output_sentences.append(output_sentence)
    output_sentences_inputs.append(output_sentence_input)

print("num samples input:", len(input_sentences))
print("num samples output:", len(output_sentences))
print("num samples output input:", len(output_sentences_inputs))

注意：您可能需要更改fra.txt计算机上文件的文件路径。

最后，输出中将显示三个列表中的样本数量：

num samples input: 20000
num samples output: 20000
num samples output input: 20000

现在让我们来随机输出一个句子从input_sentences[]，output_sentences[]和output_sentences_inputs[]列表：

print(input_sentences[172])
print(output_sentences[172])
print(output_sentences_inputs[172])

这是输出：

I'm ill.
Je suis malade. 
 Je suis malade.

您可以看到原始句子，即I'm ill；在输出中对应的翻译，即Je suis malade. 。

标记化和填充

下一步是标记原始句子和翻译后的句子，并对大于或小于特定长度的句子应用填充，在输入的情况下，这将是最长输入句子的长度。对于输出，这将是输出中最长句子的长度。

对于标记化，可以使用库中的Tokenizer类keras.preprocessing.text。本tokenizer类执行两个任务：

它将句子分为相应的单词列表
然后将单词转换为整数

这是非常重要的，因为深度学习和机器学习算法可以处理数字。

除了标记化和整数转换外，该类的word_index属性还Tokenizer返回一个单词索引字典，其中单词是键，而相应的整数是值。上面的脚本还输出字典中唯一词的数量和输入中最长句子的长度：

Total unique words in the input: 3523
Length of longest sentence in input: 6

同样，输出语句也可以用以下所示的相同方式进行标记：这是输出：

Total unique words in the output: 9561
Length of longest sentence in the output: 13

通过比较输入和输出中唯一词的数量，可以得出结论，与翻译后的法语句子相比，英语句子通常较短，平均包含较少的单词。

接下来，我们需要填充输入。对输入和输出进行填充的原因是文本句子的长度可以变化，但是LSTM（我们将要训练模型的算法）期望输入实例具有相同的长度。因此，我们需要将句子转换为固定长度的向量。一种方法是通过填充。

在填充中，为句子定义了一定的长度。在我们的情况下，输入和输出中最长句子的长度将分别用于填充输入和输出句子。输入中最长的句子包含6个单词。对于少于6个单词的句子，将在空索引中添加零。

脚本显示了填充的输入句子的形状。还输出了索引为172的句子的填充整数序列。这是输出：

encoder_input_sequences.shape: (20000, 6)
encoder_input_sequences[172]: [  0   0   0   0   6 539]

由于输入中有20,000个句子，并且每个输入句子的长度为6，所以输入的形状现在为（20000，6）。如果查看输入句子索引172处句子的整数序列，可以看到存在三个零，后跟值为6和539。您可能还记得索引172处的原始句子是I'm ill。标记生成器分割的句子翻译成两个词I'm和ill，将它们转换为整数，然后通过在输入列表的索引172在用于句子对应的整数序列的开始添加三个零施加预填充。

要验证的整数值i'm和ill是6和539分别可以传递到word2index_inputs词典，如下图所示：

print(word2idx_inputs["i'm"])
print(word2idx_inputs["ill"])

输出：

6
539

以相同的方式，解码输出和解码器输入的填充如下：

print("decoder_input_sequences.shape:", decoder_input_sequences.shape)
print("decoder_input_sequences[172]:", decoder_input_sequences[172])

输出：

decoder_input_sequences.shape: (20000, 13)
decoder_input_sequences[172]: [  2   3   6 188   0   0   0   0   0   0   0   0   0]

解码器输入的索引172处的句子为 je suis malade.。如果从word2idx_outputs字典中输出相应的整数，则应该在控制台上看到2、3、6和188，如下所示：

print(word2idx_outputs[""])
print(word2idx_outputs["je"])
print(word2idx_outputs["suis"])
print(word2idx_outputs["malade."])

输出：

词嵌入

由于我们使用的是深度学习模型，并且深度学习模型使用数字，因此我们需要将单词转换为相应的数字矢量表示形式。但是我们已经将单词转换为整数。

在本文中，对于英文句子（即输入），我们将使用GloVe词嵌入。对于输出中的法语翻译句子，我们将使用自定义单词嵌入。

让我们首先为输入创建单词嵌入。为此，我们需要将GloVe字向量加载到内存中。然后，我们将创建一个字典，其中单词是键，而相应的向量是值，如下所示：

回想一下，我们在输入中包含3523个唯一词。我们将创建一个矩阵，其中行号将表示单词的序号，而列将对应于单词维度。此矩阵将包含输入句子中单词的单词嵌入。

num_words = min(MAX_NUM_WORDS, len(word2idx_inputs) + 1)
embedding_matrix = zeros((num_words, EMBEDDING_SIZE))
for word, index in word2idx_inputs.items():
    embedding_vector = embeddings_dictionary.get(word)
    if embedding_vector is not None:
        embedding_matrix[index] = embedding_vector

首先，ill使用GloVe词嵌入词典为该词输出词嵌入。

print(embeddings_dictionary["ill"])

输出：

[ 0.12648    0.1366     0.22192   -0.025204  -0.7197     0.66147
  0.48509    0.057223   0.13829   -0.26375   -0.23647    0.74349
  0.46737   -0.462      0.20031   -0.26302    0.093948  -0.61756
 -0.28213    0.1353     0.28213    0.21813    0.16418    0.22547
 -0.98945    0.29624   -0.62476   -0.29535    0.21534    0.92274
  0.38388    0.55744   -0.14628   -0.15674   -0.51941    0.25629
 -0.0079678  0.12998   -0.029192   0.20868   -0.55127    0.075353
  0.44746   -0.71046    0.75562    0.010378   0.095229   0.16673
  0.22073   -0.46562   -0.10199   -0.80386    0.45162    0.45183
  0.19869   -1.6571     0.7584    -0.40298    0.82426   -0.386
  0.0039546  0.61318    0.02701   -0.3308    -0.095652  -0.082164
  0.7858     0.13394   -0.32715   -0.31371   -0.20247   -0.73001
 -0.49343    0.56445    0.61038    0.36777   -0.070182   0.44859
 -0.61774   -0.18849    0.65592    0.44797   -0.10469    0.62512
 -1.9474    -0.60622    0.073874   0.50013   -1.1278    -0.42066
 -0.37322   -0.50538    0.59171    0.46534   -0.42482    0.83265
  0.081548  -0.44147   -0.084311  -1.2304   ]

在上一节中，我们看到了单词的整数表示形式为ill539。现在让我们检查单词嵌入矩阵的第539个索引。

print(embedding_matrix[539])

输出：

[ 0.12648    0.1366     0.22192   -0.025204  -0.7197     0.66147
  0.48509    0.057223   0.13829   -0.26375   -0.23647    0.74349
  0.46737   -0.462      0.20031   -0.26302    0.093948  -0.61756
 -0.28213    0.1353     0.28213    0.21813    0.16418    0.22547
 -0.98945    0.29624   -0.62476   -0.29535    0.21534    0.92274
  0.38388    0.55744   -0.14628   -0.15674   -0.51941    0.25629
 -0.0079678  0.12998   -0.029192   0.20868   -0.55127    0.075353
  0.44746   -0.71046    0.75562    0.010378   0.095229   0.16673
  0.22073   -0.46562   -0.10199   -0.80386    0.45162    0.45183
  0.19869   -1.6571     0.7584    -0.40298    0.82426   -0.386
  0.0039546  0.61318    0.02701   -0.3308    -0.095652  -0.082164
  0.7858     0.13394   -0.32715   -0.31371   -0.20247   -0.73001
 -0.49343    0.56445    0.61038    0.36777   -0.070182   0.44859
 -0.61774   -0.18849    0.65592    0.44797   -0.10469    0.62512
 -1.9474    -0.60622    0.073874   0.50013   -1.1278    -0.42066
 -0.37322   -0.50538    0.59171    0.46534   -0.42482    0.83265
  0.081548  -0.44147   -0.084311  -1.2304   ]

可以看到，嵌入矩阵中第539行的值类似于GloVe ill词典中单词的向量表示，这证实了嵌入矩阵中的行代表了GloVe单词嵌入词典中的相应单词嵌入。这个词嵌入矩阵将用于为我们的LSTM模型创建嵌入层。

创建模型

现在是时候开发我们的模型了。我们需要做的第一件事是定义输出，因为我们知道输出将是一个单词序列。回想一下，输出中的唯一单词总数为9562。因此，输出中的每个单词可以是9562个单词中的任何一个。输出句子的长度为13。对于每个输入句子，我们需要一个对应的输出句子。

以下脚本创建空的输出数组：

decoder_targets_one_hot = np.zeros((
        len(input_sentences),
        max_out_len,
        num_words_output
    ),
    dtype='float32'
)

以下脚本输出解码的维度：

decoder_targets_one_hot.shape

输出：

(20000, 13, 9562)

为了进行预测，模型的最后一层将是一个密集层，因此我们需要以一热编码矢量的形式进行输出，因为我们将在密集层使用softmax激活函数。要创建这样的单编码输出，下一步是将1分配给与该单词的整数表示形式对应的列号。例如， je suis malade的整数表示形式是[ 2 3 6 188 0 0 0 0 0 0 0 ]。在decoder_targets_one_hot输出数组的第一行的第二列中，将插入1。同样，在第二行的第三个索引处，将插入另一个1，依此类推。

看下面的脚本：

for i, d in enumerate(decoder_output_sequences):
    for t, word in enumerate(d):
        decoder_targets_one_hot[i, t, word] = 1

接下来，我们需要创建编码器和解码器。编码器的输入将是英文句子，输出将是LSTM的隐藏状态和单元状态。

以下脚本定义了编码器：

下一步是定义解码器。解码器将有两个输入：编码器和输入语句的隐藏状态和单元状态，它们实际上将是输出语句。

以下脚本创建解码器LSTM：

最后，来自解码器LSTM的输出将通过密集层以预测解码器输出，如下所示：

decoder_dense = Dense(num_words_output, activation='softmax')
下一步是编译模型：

model = Model([encoder_inputs_placeholder,
  decoder_inputs_placeholder], decoder_outputs)

让我们绘制模型查看：

plot_model(model, to_file='model_plot4a.png', show_shapes=True, show_layer_names=True)

输出：

从输出中，可以看到我们有两种输入。input_1是编码器的输入占位符，它被嵌入并通过lstm_1层，该层基本上是编码器LSTM。该lstm_1层有三个输出：输出，隐藏层和单元状态。但是，只有单元状态和隐藏状态才传递给解码器。

这里的lstm_2层是解码器LSTM。在input_2还通过一个嵌入层传递，并且被用作输入到解码器LSTM， lstm_2。最后，来自解码器LSTM的输出将通过密集层进行预测。

下一步是使用以下fit()方法训练模型：

 model.fit()

该模型经过18,000条记录的训练，并针对其余2,000条记录进行了测试。经过20个时间段后，我得到了90.99％的训练精度和79.11％的验证精度，这表明该模型是过度拟合的。

修改预测模型

在训练时，我们知道序列中所有输出字的实际输入解码器。训练期间发生的情况的示例如下。假设我们有一句话i'm ill。句子翻译如下：


// 输入在编码器/解码器的左侧，输出在右侧。


Step 1:
I'm ill -> Encoder -> enc(h1,c1)

enc(h1,c1) +  -> Decoder -> je + dec(h1,c1)

step 2:

enc(h1,c1) + je -> Decoder -> suis + dec(h2,c2)

step 3:

enc(h2,c2) + suis -> Decoder -> malade. + dec(h3,c3)

step 3:

enc(h3,c3) + malade. -> Decoder ->  + dec(h4,c4)

您可以看到解码器的输入和解码器的输出是已知的，并且基于这些输入和输出对模型进行了训练。

但是，在预测期间，将根据前一个单词预测下一个单词，而该单词又会在前一个时间步长中进行预测。预测期间发生的情况的示例如下。我们将再次翻译句子i'm ill：


// 输入在编码器/解码器的左侧，输出在右侧。



Step 1:

I'm ill -> Encoder -> enc(h1,c1)

enc(h1,c1) +  -> Decoder -> y1(je) + dec(h1,c1)

step 2:

enc(h1,c1) + y1 -> Decoder -> y2(suis) + dec(h2,c2)

step 3:

enc(h2,c2) + y2 -> Decoder -> y3(malade.) + dec(h3,c3)

step 3:

enc(h3,c3) + y3 -> Decoder -> y4() + dec(h4,c4)

可以看到编码器的功能保持不变。原始语言的句子通过编码器和隐藏状态传递，而单元格状态是编码器的输出。

在步骤1中，将编码器的隐藏状态和单元状态以及用作解码器的输入。解码器预测一个单词y1可能为真或不为真。但是，根据我们的模型，正确预测的概率为0.7911。在步骤2，将来自步骤1的解码器隐藏状态和单元状态与一起y1用作预测的解码器的输入y2。该过程一直持续到遇到令牌为止。然后，将来自解码器的所有预测输出进行级联以形成最终输出语句。让我们修改模型实现此逻辑。

编码器型号保持不变：

encoder_model = Model(encoder_inputs_placeholder, encoder_states)

因为现在在每一步我们都需要解码器的隐藏状态和单元状态，所以我们将修改模型以接受隐藏状态和单元状态，如下所示：

decoder_state_input_h = Input(shape=(LSTM_NODES,))

现在，在每个时间步长，解码器输入中只有一个字，我们需要按如下所示修改解码器嵌入层：

decoder_inputs_single = Input(shape=(1,))...
接下来，我们需要为解码器输出创建占位符：

decoder_outputs, h, c = decoder_lstm(...)

为了进行预测，解码器的输出将通过密集层：

decoder_states = [h, c]
decoder_outputs = decoder_dense(decoder_outputs)

最后一步是定义更新的解码器模型，如下所示：

decoder_model = Model()

现在，让我们绘制经过修改的解码器LSTM来进行预测：

plot_model(decoder_model, to_file='model_plot_dec.png', show_shapes=True, show_layer_names=True)

输出：

上图中lstm_2是修改后的解码器LSTM。您会看到它接受带有一个单词的句子（如所示）input_5，以及上一个输出（input_3和input_4）的隐藏状态和单元格状态。您可以看到输入句子的维度现在是这样的，(none,1)因为在解码器输入中将只有一个单词。相反，在训练期间，输入句子的形状是(None,6)因为输入包含完整的句子，最大长度为6。

做出预测

在这一步中，您将看到如何使用英语句子作为输入进行预测。

在标记化步骤中，我们将单词转换为整数。解码器的输出也将是整数。但是，我们希望输出是法语中的单词序列。为此，我们需要将整数转换回单词。我们将为输入和输出创建新的字典，其中的键将是整数，而相应的值将是单词。

idx2word_input = {v:k for k, v in word2idx_inputs.items()}
idx2word_target = {v:k for k, v in word2idx_outputs.items()}

接下来，我们将创建一个方法，即translate_sentence()。该方法将接受带有输入填充序列的英语句子（以整数形式），并将返回翻译后的法语句子。看一下translate_sentence()方法：

def translate_sentence(input_seq):
    states_value = encoder_model.predict(input_seq)
    target_seq = np.zeros((1, 1))
    target_seq[0, 0] = word2idx_outputs['']
    eos = word2idx_outputs['']
    output_sentence = []

    for _ in range(max_out_len):
     

    return ' '.join(output_sentence)

在上面的脚本中，我们将输入序列传递给encoder_model，以预测隐藏状态和单元格状态，这些状态存储在states_value变量中。

接下来，我们定义一个变量target_seq，它是一个1 x 1全零的矩阵。target_seq变量包含所述第一字给解码器模型，这是。

之后，将eos初始化变量，该变量存储令牌的整数值。在下一行中，将output_sentence定义列表，其中将包含预测的翻译。

接下来，我们执行一个for循环。循环的执行周期数for等于输出中最长句子的长度。在循环内部，在第一次迭代中，decoder_model预测器使用编码器的隐藏状态和单元格状态以及输入令牌（即）来预测输出状态，隐藏状态和单元格状态。循环继续进行，直到达到最大输出序列长度或遇到令牌为止。

最后，output_sentence使用空格将列表中的单词连接起来，并将结果字符串返回给调用函数。

测试模型

为了测试代码，我们将从input_sentences列表中随机选择一个句子，检索该句子的相应填充序列，并将其传递给该translate_sentence()方法。该方法将返回翻译后的句子，如下所示。

这是测试模型功能的脚本：


print('-')
print('Input:', input_sentences[i])
print('Response:', translation)

这是输出：

-
Input: You're not fired.
Response: vous n'êtes pas viré.

再次执行上述脚本，以查看其他一些翻译成法语的英语句子。我得到以下结果：

-
Input: I'm not a lawyer.
Response: je ne suis pas avocat.

该模型已成功将另一个英语句子翻译为法语。

结论与展望

神经机器翻译是自然语言处理的相当先进的应用，涉及非常复杂的体系结构。

本文介绍了如何通过seq2seq体系结构执行神经机器翻译，该体系结构又基于编码器-解码器模型。编码器是一种LSTM，用于对输入语句进行编码，而解码器则对输入进行解码并生成相应的输出。本文中介绍的技术可以用于创建任何机器翻译模型，只要数据集的格式类似于本文中使用的格式即可。

你可能感兴趣的:(拓端,拓端tecdat,拓端数据,python,自然语言处理,keras)

JAVA面试宝典 -《API设计：RESTful 与 GraphQL 对比实践》没有bug.的程序员 JAVA面试宝典 java 面试 restful
API设计：RESTful与GraphQL对比实践在微服务架构中，API设计如同城市交通网络规划——选择RESTful还是GraphQL，决定了数据流的效率与灵活性。本文通过实战代码与架构对比，揭秘两种风格的适用场景与融合方案。引言：API设计的两大流派之争为什么越来越多团队关注GraphQL？数据需求碎片化：移动端/多终端需要按需获取数据接口迭代成本：REST每次需求变更需发布新版本前后端协作效
InfluxDB 数据模型：桶、测量、标签与字段详解（一）计算机毕设定制辅导-无忧 #InfluxDB db
一、引言**在大数据和物联网蓬勃发展的当下，时间序列数据的处理需求呈爆发式增长。InfluxDB作为一款高性能的开源时序数据库，凭借其卓越的特性，在时序数据库领域占据了重要地位，被广泛应用于各种场景。InfluxDB专为时间序列数据设计，拥有高效的存储和查询性能。它采用独特的存储引擎，能够快速写入大量带有时间戳的数据，并支持灵活的查询操作。其核心设计针对时间序列数据的特点进行了优化，包括时间索引、
InfluxDB 数据模型：桶、测量、标签与字段详解（二）计算机毕设定制辅导-无忧 #InfluxDB db
四、各组件在实际应用中的协作4.1数据写入过程以服务器性能监控场景为例，假设我们有一个包含多台服务器的集群，需要实时监控每台服务器的CPU使用率、内存使用率和磁盘I/O等性能指标。我们使用InfluxDB来存储这些监控数据，下面详细介绍数据写入过程。首先，确定数据存储的桶。我们创建一个名为“server_monitoring_bucket”的桶，专门用于存储服务器监控相关的数据。这个桶将作为所有服
Kafka 集群架构与高可用方案设计（一）计算机毕设定制辅导-无忧 #Kafka kafka 架构分布式
Kafka集群架构与高可用方案设计的重要性在大数据和分布式系统的广阔领域中，Kafka已然成为了一个中流砥柱般的存在。它最初由LinkedIn开发，后捐赠给Apache软件基金会并成为顶级项目，凭借其卓越的高吞吐量、可扩展性以及持久性，被广泛应用于日志收集、实时数据处理、流计算、数据集成等诸多关键领域。在日志收集场景下，以大型互联网公司为例，每天都会产生海量的日志数据，如用户的访问记录、系统操作日
结婚率越来越低的时代：成年人世界的爱，有这几个潜规则，爱不起舒山有鹿
根据互联网用户的调查，2019-2020年结婚率降至7‰左右。可以这么说，这是自2013年以来，结婚率最低的一个时期了。面对如此“低落”的结婚率，其实我们都会思考这样一个问题，为何“结婚率”会如此低迷呢？就拿人口聚集的一线城市来说，大多人都处于社会金字塔的中下部，收入不高，还要背负起巨大的生活和家庭的压力。其实看看数据就知道了，北京的平均工资为6906元，上海的平均工资为6378元，广州的平均工资
python 利用多进程实现文件的拷贝 AI算法网奇 python宝典 python 开发语言
python利用多进程实现文件的拷贝版权声明：本文为博主原创文章，未经博主允许不得转载。https://blog.csdn.net/m0_37338590/article/details/78472103整个程序的流程可分为四步：第一步是提示用户输入要拷贝的文件夹;第二步是创建新文件夹;第三步是获取文件夹中所有文件的名字;最后一步是就是利用进程池创建进程完成复制。具体的分析在程序中都有了，不再做过
windows server 2012R2任务管理器cpu不睿频问题
今天给一个老机器安装了windowsserver2012R2的数据中心版，发现了一个奇怪的现象，就是在打开hyper-v功能后，任务管理器中的cpu频率不再跳动，一直显示为最大速度(win10等新系统中叫基准速度)，也即不再显示实际的睿频速度，无论如何切换到何种电源模式(平衡、高性能、节能)也如此，如下图所示：在关闭hyper-v后，睿频显示又变回正常。于是，用cpu-z测试了一下，在hyper-
python 多线程拍照 NO1212 python 开发语言
相机为basler，logicbalser相机识别条码，进行拍照args[0]为logging的参数保证log实时传输到GUI界面调用方法:main_process(args[0]).camera_run()importsysimporterrnoimportcv2importnumpyasnpimportjsonimportloggingimportthreadingimportlogging.
python实现精确的四舍五入 mocobk
由于计算精度的问题，python无法实现真正的四舍五入round四舍五入时是遵循靠近0原则，所以-0.5和0.5进行0位四舍五入，返回的都是0round(2.135,2)-->2.13round(number[,ndigits])Returnthefloatingpointvaluenumberroundedtondigitsdigitsafterthedecimalpoint.Ifndigits
iOS 抓包工具选择与配置指南从零基础到高效调试的完整流程 HTTPwise ios 小程序 uni-app iphone android webview https
iOS抓包：复杂网络调试的必要技能随着移动端应用越来越依赖网络交互，iOS抓包作为核心调试工具之一，变得尤为重要。无论是调试App与后端的接口通信、排查HTTPS请求加密问题，还是定位网络连接超时、请求异常，抓包都能在关键时刻提供有效支持。然而，iOS系统的封闭性与安全机制，往往让开发者在调试过程中碰壁：证书无法安装：系统严格的证书信任机制使得常规抓包工具很难直接抓取HTTPS请求。无法配置代理：
【Python】线程—GIL—asyncio 2401_84139049 程序员 python 开发语言
它们的特点和适用场景：工具特点适用场景Lock最基本的互斥锁，一次只允许一个线程访问共享资源不可重入，即同一线程再次获取会导致死锁简单的线程同步需求需要确保一段代码同一时间只能被一个线程执行RLock可重入锁，同一线程可以多次获取锁并释放允许同一线程多次调用acquire()复杂的递归线程同步需求某些情况下需要允许同一线程多次获取和释放锁Semaphore允许一定数量的线程同时访问共享资源控制并发
基于 Python/PHP/Node.js 的淘宝 API 商品数据抓取开发教程
在电商数据分析、竞品监控等场景中，抓取淘宝商品数据是常见需求。淘宝开放平台（OpenPlatform）提供了标准化的API接口，通过合法途径调用可高效获取商品信息。本文将分别基于Python、PHP、Node.js三种语言，详解淘宝API商品数据抓取的开发流程，并提供完整代码示例。一、淘宝API准备工作在开发前，需完成以下准备步骤：注册开发者账号访问注册账号并完成实名认证，创建应用（应用类型选择“
python的多线程无法并行只能并发，why？
标题python的多线程无法并行只能并发，why？python的多线程无法并行只能并发，why？在Python中，特别是使用CPython解释器时，由于存在全局解释器锁（GIL），即使在多核处理器上，只有一个线程在同一时刻可以执行Python字节码。GIL会导致CPU密集型任务的线程不能真正并行执行，即使在多核机器上。这种情况下，即使你创建多个线程，CPU也会轮流为每个线程分配执行时间。只有涉及到
Kafka 集群架构与高可用方案设计（二）计算机毕设定制辅导-无忧 #Kafka kafka 架构分布式
Kafka集群架构与高可用方案的优化策略合理配置参数在Kafka集群的配置中，参数的合理设置对于系统的高可用性和性能表现起着关键作用。例如，min.insync.replicas参数定义了ISR（In-SyncReplicas，同步副本）集合中的最少副本数，它直接关系到数据的持久性和一致性。当acks设置为all或-1时，生产者需要等待ISR中的所有副本都确认写操作后才认为成功，此时min.ins
面向向量检索的教育QA建模：九段日本文化研究所日本语学院的Prompt策略分析（6 / 500） semantist@语校语言学校Prompt模板集人工智能 prompt 数据集 ai 百度支持向量机开源
面向向量检索的教育QA建模：九段日本文化研究所日本语学院的Prompt策略分析（6/500）系列说明500所日本语言学校结构化建模实战，第6篇。每篇拆解1所学校在Prompt-QA系统中的建模策略，分享工程经验，本项目持续在HuggingFace上同步更新，欢迎AI工程师们关注。一.案例选择：为什么是九段日本语学院？在以中国学生为中心设计的语言学校数据建模中，我们往往默认为目标用户熟悉中文、学习节
图灵python从入门到实践浮点数_Python编程从入门到实践-图灵出品-pdf 巴黎巨星岬太郎
封面简介本书是一本针对所有层次的Python读者而作的Python入门书。全书分两部分：首部分介绍用Python编程所必须了解的基本概念，包括matplotlib、NumPy和Pygal等强大的Python库和工具介绍，以及列表、字典、if语句、类、文件与异常、代码测试等内容；第二部分将理论付诸实践，讲解如何开发三个项目，包括简单的Python2D游戏开发，如何利用数据生成交互式的信息图，以及创建
python从菜鸟到高手电子书下载_PYTHON从菜鸟到高手清华大学出版社逐码追风
推荐序...1前言...3本书配套资源...5第一篇Python基础知识第1章初识Python.31.1Python简介...31.2搭建Python开发环境...81.3第一个Python程序...261.4调试Python程序...261.5小结...291.6实战与练习...29第2章Python语言基础...302.1Python程序中的基本要素...302.2数字...342.3获取用户
Python从入门到高手9.1节-Python中的字典类型大神薯条老师 Python从入门到高手 python 数据分析机器学习爬虫网络爬虫深度学习
目录9.1.1理解字典类型9.1.2字典的类型名9.1.3字典的定义9.1.4字典的主要性质9.1.5好好学习，天天向上9.1.1理解字典类型在日常生活中，我们常常会接触到“字典”这种数据类型，例如一本书籍的目录结构，在目录结构中，通过查找页码，就可以快速翻到指定的页面。如果没有这样的页码，那么我们必须从书籍的第一页开始，一页一页地查找。有了页码以后，直接翻到指定的页面。在Python中，可以通过
【LlamaIndex核心组件指南 | 数据加载篇】从原始数据到向量的全链路深度解析吴师兄大模型现代大模型技术与应用 llamaindex langchain 开发语言 python pytorch 人工智能大模型
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
百度权重提升技巧分析：从底层逻辑到实战策略
在搜索引擎优化（SEO）领域，百度权重始终是网站运营者关注的核心指标之一。它不仅反映了网站在百度搜索中的综合表现，更直接影响着流量获取能力与商业价值。然而，百度权重并非百度官方直接公布的数据，而是第三方平台（如爱站、站长工具等）依据网站关键词排名、流量预估等数据综合计算的参考值。想要有效提升这一指标，需从搜索引擎工作原理出发，结合内容、技术、外链等多维度制定系统策略。一、明确百度权重的核心影响因素
Github 2024-06-07开源项目日报 Top10
根据GithubTrendings的统计，今日(2024-06-07统计)共有10个项目上榜。根据开发语言中项目的数量，汇总情况如下：开发语言项目数量Python项目3C++项目3JavaScript项目2JupyterNotebook项目1TypeScript项目1Vue项目1比特币核心：开源比特币软件创建周期：4919天开发语言：C++协议类型：MITLicenseStar数量：76760个F
AI原生应用领域多租户的技术架构剖析 AI天才研究院 AI-native 架构人工智能 ai
AI原生应用领域多租户技术架构深度剖析元数据框架标题：AI原生应用多租户技术架构：从隔离性到智能化的分层设计与实践关键词：AI原生应用、多租户架构、数据隔离、模型共享、云原生租户管理摘要：本文系统解析AI原生应用场景下多租户技术架构的核心设计逻辑，覆盖从数据层到模型层的全栈隔离与共享机制。通过第一性原理推导，结合云原生、机器学习生命周期管理（MLOps）等技术范式，提出包含租户上下文管理、动态资源
LangGraph 教程：初学者综合指南（1）背太阳的牧羊人 langgraph langchain langgraph
关键概念图结构LangGraph设计的核心是基于图形的应用程序工作流程表示。该图包含两个主要元素：节点-工作的构建块：LangGraph中的每个节点代表应用程序中的一个不同的工作或操作单元。这些节点本质上是封装特定任务的Python函数。此任务可能涉及多种操作，例如：与LLM直接沟通，进行文本生成、摘要或其他基于语言的任务。与外部工具和API交互以获取数据或在现实世界中执行操作。通过格式化、过滤或
大数据集成方案对比：Kafka vs Flume vs Sqoop AI天才研究院计算 AI大模型应用入门实战与进阶 Agentic AI 实战大数据 kafka flume ai
大数据集成方案对比：KafkavsFlumevsSqoop关键词：大数据集成、Kafka、Flume、Sqoop、流处理、批量迁移、日志收集摘要：在大数据生态中，数据集成是连接数据源与数据处理平台的关键环节。本文深度对比Kafka、Flume、Sqoop三大主流集成工具，从核心架构、技术原理、适用场景到实战案例展开系统性分析。通过数学模型量化性能差异，结合实际项目经验总结选型策略，帮助开发者根据业
保姆虐待老人新闻＋《许三观卖血记》读后感+计划感触+在文宣部那么久的感触一只小宋_三月
今天看到新闻，说保姆临时有事就把轮椅上的老人直接脖子绑在树上留在公园，然后就直接离开了。虽然说这种消息屡见不鲜了，但是还是心里疼了一下。可能是昨天刚看过许三观卖血记的缘故吧，更是多了几分感触。我想起来我的爷爷，他和奶奶不愿意来到城里，喜欢在老家和邻居说说话，在城市感觉孤独，姑姑们都在郑州，我们又在驻马店，就只有他们在老家，爷爷因为身体原因，几乎不能走路，也不能好好端饭，奶奶一个人力气小独自照顾他太
关于XSS的一点理解「已注销」 XSS
什么是XSS攻击XSS，缩写自Cross-SiteScripting，即跨站脚本攻击，是一种注入型攻击方法，也就是攻击者把恶意脚本注入到良性和可信任的网站中。XSS攻击者通常会利用Web应用（通常在浏览器端脚本的form中）发送恶意代码给其他的Web应用用户。XSS的攻击原理就是攻击者使用XSS发送一些恶意的脚本代码给一些未防备的用户，这些用户的浏览器没办法分辨出这些脚本是否应该被信任，并且会完整
Python 应用程序分发全指南：从基础到高级工具与实践面朝大海，春不暖，花不开 Python基础 python 开发语言
文章大纲引言在现代软件开发中，Python因其简洁的语法和强大的生态系统而广受欢迎。然而，将Python应用程序从开发者手中传递给最终用户并非总是简单的过程。分发Python应用程序涉及到诸多挑战，例如依赖管理、跨平台兼容性以及用户环境的多样性。如果分发不当，用户可能面临安装失败或运行错误等问题，从而影响软件的使用体验。本文将深入探讨Python应用程序分发的各种方法，从最基础的源代码分享到现代标
【ESP32设备通信】-ESP-Now多对一通信视觉与物联智能物联网全栈开发实战 ESP32 单片机 ESP Now 嵌入式硬件物联网网络
ESP-Now多对一通信文章目录ESP-Now多对一通信1、ESP-Now通信协议介绍2、硬件准备3、代码实现3.1查询MAC地址3.2发送方代码实现3.3接收方代码实现在本文中，我们将了解如何使用ESP-NOW和ArduinoIDE从多块ESP32板向一块ESP32板发送数据。换句话说，我们将从多块ESP32板向一块ESP32板传输数据（多对一通信）。之前，我们通过ESP-NOW单向通信将数据从
2个网卡配置相同ip 华为交换机_网络工程师必会知识点（上篇）：华为交换机绑定客户端IP+MAC+端口... 882看看 2个网卡配置相同ip 华为交换机
交换机绑定客户端IP+MAC+端口,主要是为了防止别人没有授权的条件下，随意加入到网络当中操作，为了防止这种不安全的行为的出现，为了我们网络的安全，可以绑定授权的IP以及MAC，这样一来就不会出现IP地址被盗用出现网络安全威胁的情况。DHCPSnooping是DHCP的一种安全特性，主要应用在交换机上,作用是屏蔽接入网络中的非法的DHCP服务器。即开启DHCPSnooping功能后，网络中的客户端
ftp文件服务器跨平台,跨平台FTP服务器端(Wing FTP Server) 遇珞 ftp文件服务器跨平台
WingFTPServer作为好用的FTP服务器，可以跨平台使用，而且自带服务器端控件，支持同时上传、下载文件，而且还有文件压缩功能，压缩文件缩小体积，让文件的上传下载速度更快，现在最火软件站提供了跨平台FTP服务器端(WingFTPServer)下载地址，快来试试吧。跨平台FTP服务器端电脑版基本介绍WingFTPServer作为专业的跨平台FTP服务器端应用，支持手机设备访问web客户端，手机
Linux的Initrd机制被触发 linux
Linux 的 initrd 技术是一个非常普遍使用的机制，linux2.6 内核的 initrd 的文件格式由原来的文件系统镜像文件转变成了 cpio 格式，变化不仅反映在文件格式上， linux 内核对这两种格式的 initrd 的处理有着截然的不同。本文首先介绍了什么是 initrd 技术，然后分别介绍了 Linux2.4 内核和 2.6 内核的 initrd 的处理流程。最后通过对 Lin
maven本地仓库路径修改 bitcarter maven
默认maven本地仓库路径：C:\Users\Administrator\.m2 修改maven本地仓库路径方法： 1.打开E:\maven\apache-maven-2.2.1\conf\settings.xml 2.找到
XSD和XML中的命名空间 darrenzhu xml xsd schema namespace 命名空间
http://www.360doc.com/content/12/0418/10/9437165_204585479.shtml http://blog.csdn.net/wanghuan203/article/details/9203621 http://blog.csdn.net/wanghuan203/article/details/9204337 http://www.cn
Java 求素数运算周凡杨 java 算法素数
网络上对求素数之解数不胜数，我在此总结归纳一下，同时对一些编码，加以改进，效率有成倍热提高。第一种：原理: 6N(+-)1法任何一个自然数，总可以表示成为如下的形式之一： 6N，6N+1，6N+2，6N+3，6N+4，6N+5 (N=0，1，2，…)
java 单例模式 g21121 java
想必单例模式大家都不会陌生，有如下两种方式来实现单例模式： class Singleton { private static Singleton instance=new Singleton(); private Singleton(){} static Singleton getInstance() { return instance; }
Linux下Mysql源码安装 510888780 mysql
1.假设已经有mysql-5.6.23-linux-glibc2.5-x86_64.tar.gz (1)创建mysql的安装目录及数据库存放目录解压缩下载的源码包，目录结构，特殊指定的目录除外：
32位和64位操作系统墙头上一根草 32位和64位操作系统
32位和64位操作系统是指：CPU一次处理数据的能力是32位还是64位。现在市场上的CPU一般都是64位的，但是这些CPU并不是真正意义上的64 位CPU，里面依然保留了大部分32位的技术，只是进行了部分64位的改进。32位和64位的区别还涉及了内存的寻址方面，32位系统的最大寻址空间是2 的32次方= 4294967296（bit）= 4（GB）左右，而64位系统的最大寻址空间的寻址空间则达到了
我的spring学习笔记10-轻量级_Spring框架 aijuans Spring 3
一、问题提问： → 请简单介绍一下什么是轻量级？轻量级（Leightweight）是相对于一些重量级的容器来说的，比如Spring的核心是一个轻量级的容器，Spring的核心包在文件容量上只有不到1M大小，使用Spring核心包所需要的资源也是很少的，您甚至可以在小型设备中使用Spring。
mongodb 环境搭建及简单CURD antlove Web Install curd NoSQL mongo
一搭建mongodb环境 1. 在mongo官网下载mongodb 2. 在本地创建目录 "D:\Program Files\mongodb-win32-i386-2.6.4\data\db" 3. 运行mongodb服务 [mongod.exe --dbpath "D:\Program Files\mongodb-win32-i386-2.6.4\data\
数据字典和动态视图百合不是茶 oracle 数据字典动态视图系统和对象权限
数据字典（data dictionary）是 Oracle 数据库的一个重要组成部分，这是一组用于记录数据库信息的只读（read-only）表。随着数据库的启动而启动,数据库关闭时数据字典也关闭数据字典中包含数据库中所有方案对象（schema object）的定义(包括表，视图，索引，簇，同义词，序列，过程，函数，包，触发器等等) 数据库为一
多线程编程一般规则 bijian1013 java thread 多线程 java多线程
如果两个工两个以上的线程都修改一个对象，那么把执行修改的方法定义为被同步的，如果对象更新影响到只读方法，那么只读方法也要定义成同步的。不要滥用同步。如果在一个对象内的不同的方法访问的不是同一个数据，就不要将方法设置为synchronized的。
将文件或目录拷贝到另一个Linux系统的命令scp bijian1013 linux unix scp
一.功能说明 scp就是security copy，用于将文件或者目录从一个Linux系统拷贝到另一个Linux系统下。scp传输数据用的是SSH协议，保证了数据传输的安全，其格式如下： scp 远程用户名@IP地址：文件的绝对路径
【持久化框架MyBatis3五】MyBatis3一对多关联查询 bit1129 Mybatis3
以教员和课程为例介绍一对多关联关系，在这里认为一个教员可以叫多门课程，而一门课程只有1个教员教，这种关系在实际中不太常见，通过教员和课程是多对多的关系。示例数据：地址表： CREATE TABLE ADDRESSES ( ADDR_ID INT(11) NOT NULL AUTO_INCREMENT, STREET VAR
cookie状态判断引发的查找问题 bitcarter form cgi
先说一下我们的业务背景： 1.前台将图片和文本通过form表单提交到后台，图片我们都做了base64的编码，并且前台图片进行了压缩 2.form中action是一个cgi服务 3.后台cgi服务同时供PC，H5，APP 4.后台cgi中调用公共的cookie状态判断方法（公共的，大家都用，几年了没有问题）问题：（折腾两天。。。。） 1.PC端cgi服务正常调用，cookie判断没
通过Nginx,Tomcat访问日志(access log)记录请求耗时 ronin47
一、Nginx通过$upstream_response_time $request_time统计请求和后台服务响应时间 nginx.conf使用配置方式： log_format main '$remote_addr - $remote_user [$time_local] "$request" ''$status $body_bytes_sent "$http_r
java-67- n个骰子的点数。把n个骰子扔在地上，所有骰子朝上一面的点数之和为S。输入n，打印出S的所有可能的值出现的概率。 bylijinnan java
public class ProbabilityOfDice { /** * Q67 n个骰子的点数 * 把n个骰子扔在地上，所有骰子朝上一面的点数之和为S。输入n，打印出S的所有可能的值出现的概率。 * 在以下求解过程中，我们把骰子看作是有序的。 * 例如当n=2时，我们认为（1，2）和（2，1）是两种不同的情况 */ private stati
看别人的博客，觉得心情很好 Cb123456 博客心情
以为写博客，就是总结，就和日记一样吧，同时也在督促自己。今天看了好长时间博客: 职业规划: http://www.iteye.com/blogs/subjects/zhiyeguihua android学习: 1.http://byandby.i
[JWFD开源工作流]尝试用原生代码引擎实现循环反馈拓扑分析 comsci 工作流
我们已经不满足于仅仅跳跃一次，通过对引擎的升级，今天我测试了一下循环反馈模式，大概跑了200圈，引擎报一个溢出错误在一个流程图的结束节点中嵌入一段方程，每次引擎运行到这个节点的时候，通过实时编译器GM模块，计算这个方程，计算结果与预设值进行比较，符合条件则跳跃到开始节点，继续新一轮拓扑分析，直到遇到
JS常用的事件及方法 cwqcwqmax9 js
事件描述 onactivate 当对象设置为活动元素时触发。 onafterupdate 当成功更新数据源对象中的关联对象后在数据绑定对象上触发。 onbeforeactivate 对象要被设置为当前元素前立即触发。 onbeforecut 当选中区从文档中删除之前在源对象触发。 onbeforedeactivate 在 activeElement 从当前对象变为父文档其它对象之前立即
正则表达式验证日期格式 dashuaifu 正则表达式 IT其它 java其它
正则表达式验证日期格式 function isDate(d){ var v = d.match(/^(\d{4})-(\d{1,2})-(\d{1,2})$/i); if(!v) { this.focus(); return false; } } <input value="2000-8-8" onblu
Yii CModel.rules() 方法、validate预定义完整列表、以及说说验证 dcj3sjt126com yii
public array rules () {return} array 要调用 validate() 时应用的有效性规则。返回属性的有效性规则。声明验证规则，应重写此方法。每个规则是数组具有以下结构：array('attribute list', 'validator name', 'on'=>'scenario name', ...validation
UITextAttributeTextColor = deprecated in iOS 7.0 dcj3sjt126com ios
In this lesson we used the key "UITextAttributeTextColor" to change the color of the UINavigationBar appearance to white. This prompts a warning "first deprecated in iOS 7.0." Ins
判断一个数是质数的几种方法 EmmaZhao Math python
质数也叫素数，是只能被1和它本身整除的正整数，最小的质数是2，目前发现的最大的质数是p=2^57885161-1【注1】。判断一个数是质数的最简单的方法如下： def isPrime1(n): for i in range(2, n): if n % i == 0: return False return True 但是在上面的方法中有一些冗余的计算，所以
SpringSecurity工作原理小解读坏我一锅粥 SpringSecurity
SecurityContextPersistenceFilter ConcurrentSessionFilter WebAsyncManagerIntegrationFilter HeaderWriterFilter CsrfFilter LogoutFilter Use
JS实现自适应宽度的Tag切换 ini JavaScript html Web css html5
效果体验：http://hovertree.com/texiao/js/3.htm 该效果使用纯JavaScript代码，实现TAB页切换效果，TAB标签根据内容自适应宽度，点击TAB标签切换内容页。 HTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"
Hbase Rest API : 数据查询 kane_xie REST hbase
hbase（hadoop）是用java编写的，有些语言（例如python）能够对它提供良好的支持，但也有很多语言使用起来并不是那么方便，比如c#只能通过thrift访问。Rest就能很好的解决这个问题。Hbase的org.apache.hadoop.hbase.rest包提供了rest接口，它内嵌了jetty作为servlet容器。启动命令：./bin/hbase rest s
JQuery实现鼠标拖动元素移动位置（源码+注释）明子健 jquery js 源码拖动鼠标
欢迎讨论指正！ print.html代码： <!DOCTYPE html> <html> <head> <meta http-equiv=Content-Type content="text/html;charset=utf-8"> <title>发票打印</title> &l
Postgresql 连表更新字段语法 update qifeifei PostgreSQL
下面这段sql本来目的是想更新条件下的数据，可是这段sql却更新了整个表的数据。sql如下： UPDATE tops_visa.visa_order SET op_audit_abort_pass_date = now() FROM tops_visa.visa_order as t1 INNER JOIN tops_visa.visa_visitor as t2 ON t1.
将redis,memcache结合使用的方案? tcrct redis cache
公司架构上使用了阿里云的服务，由于阿里的kvstore收费相当高，打算自建，自建后就需要自己维护，所以就有了一个想法，针对kvstore(redis)及ocs(memcache)的特点，想自己开发一个cache层，将需要用到list，set，map等redis方法的继续使用redis来完成，将整条记录放在memcache下，即findbyid，save等时就memcache，其它就对应使用redi
开发中遇到的诡异的bug wudixiaotie bug
今天我们服务器组遇到个问题：我们的服务是从Kafka里面取出数据，然后把offset存储到ssdb中，每个topic和partition都对应ssdb中不同的key，服务启动之后，每次kafka数据更新我们这边收到消息，然后存储之后就发现ssdb的值偶尔是-2,这就奇怪了，最开始我们是在代码中打印存储的日志，发现没什么问题，后来去查看ssdb的日志，才发现里面每次set的时候都会对同一个key