翻滚的小@强

tensorflow2中的遮盖和填充(padding&mask)以及dnamic_rnn学习笔记

1. 写在前面

最近在用deepctr代码风格复现DIN模型的时候，无意间发现了tf文档里面有关于变长序列的遮盖和填充的相关知识点，今天抽了一下午的时间快速学习了一下，结合着复现DIN模型时遇到的一个坑，做了几个小实验感受了一下这个知识点的具体使用情况。另外，又顺便复习了下tf1中的动态RNN(dynammic_rnn)，因为这两天复现DIEN时在兴趣抽取层那里卡住了，我一直好奇兴趣抽取层那里是怎么计算呢？原始的行为序列padding之后，经过GRU得到的隐藏状态的输出后，是不是就没法识别出之前padding的情况了？所以这块实现想用动态RNN来做，就学习了下，后面看看好使不。这篇文章就是先把这下午学到的一点新东西进行整理了。

2. keras中的遮盖与填充

首先，说明一下这东西的使用场景，一般遮盖和填充的操作会用到变长的序列中，比如nlp里面输入的句子长度会不一样，推荐里面的用户行为序列长度也会不一样等。但是神经网络确要求每个输入样本序列是等长的，于是乎，就得需要填充策略，先把序列都弄成一样长的。但是在神经网络具体计算的时候，得告诉它一下哪些数据我是经过填充的，这样好将这些数据跳过去，这就是遮盖了。看看文档上的说法：

遮盖的作用是告知序列处理层输入中有某些时间步骤丢失，因此在处理数据时应将其跳过。
填充是遮盖的一种特殊形式，其中被遮盖的步骤位于序列的起点或开头。填充是出于将序列数据编码成连续批次的需要：为了使批次中的所有序列适合给定的标准长度，有必要填充或截断某些序列。

知道了使用场景之后，我这里直接上个数据的例子了：比如原始的数据数据长这样，可以想象成4个用户的历史行为点击商品id, 或者4个句子里面的单词在词典中的位置。

raw_inputs = [
    [1, 2],
    [7, 2, 1],
    [3, 8, 1, 5, 7],
    [3, 1, 1, 4, 2, 7],
]

假设我们原始的输入数据长这个样子，我们看看有哪些方式可以填充。好吧，没有哪些了，我见到过最常用的方式，就是tf.keras.preprocessing.sequence.pad_sequences，比如：

padded_inputs = tf.keras.preprocessing.sequence.pad_sequences(
    raw_inputs, padding="post"
)
print(padded_inputs)

## 这时候结果  都变成一样长了
[[1 2 0 0 0 0]
 [7 2 1 0 0 0]
 [3 8 1 5 7 0]
 [3 1 1 4 2 7]]

所以关于填充，我们可以用这种方式，当然也可以手动实现，列表推导式就可以搞定。

下面主要是遮盖这块。

既然所有样本现在都具有了统一长度，那就必须告知模型，数据的某些部分实际上是填充，应该忽略。这种机制就是遮盖。

在keras模型中引入输入掩码有三种方式

添加一个 keras.layers.Masking 层。
使用 mask_zero=True 配置一个 keras.layers.Embedding 层。
在调用支持 mask 参数的层（如 RNN 层）时，手动传递此参数。

在说这三种之前，我还发现了一个可以获得mask的两种方式：

tf.sequence_mask([len(seq) for seq in raw_inputs], maxlen=max([len(seq) for seq in raw_inputs]))

## 结果：
<tf.Tensor: shape=(4, 6), dtype=bool, numpy=
array([[ True,  True, False, False, False, False],
       [ True,  True,  True, False, False, False],
       [ True,  True,  True,  True,  True, False],
       [ True,  True,  True,  True,  True,  True]])>

第二种方式就是tf.not_equal。但这种方式的前提是原数据不能有0.

mask - tf.not_equal(keys[:, :, 0], 0)

好了，下面开始介绍文档中提到的三种方式了。

2.1 掩码生成层： Embedding和Masking

这里参考了官方文档，给出了embedding层的mask方法，设置mask_zero=True.

embedding = Embedding(input_dim=5000, output_dim=16, mask_zero=True)
mask_output = embedding(padded_inputs)
mask_output._keras_mask

# 结果
<tf.Tensor: shape=(4, 6), dtype=bool, numpy=
array([[ True,  True, False, False, False, False],
       [ True,  True,  True, False, False, False],
       [ True,  True,  True,  True,  True, False],
       [ True,  True,  True,  True,  True,  True]])>

然后介绍Masking()层

masking_layer = Masking()
unmasking_embedding = tf.cast(tf.tile(tf.expand_dims(padded_inputs, axis=-1), [1, 1, 10]), tf.float32)
mask_embedding = masking_layer(unmasking_embedding)
print(mask_embedding._keras_mask)

# 结果
tf.Tensor(
[[ True  True False False False False]
 [ True  True  True False False False]
 [ True  True  True  True  True False]
 [ True  True  True  True  True  True]], shape=(4, 6), dtype=bool)

看了之后，我们可能发现这不so easy吗？但具体用的时候，还真不敢保证能用上。比如，在DIN的Attention的实现上，就会用到padding和mask的操作，但是一开始的时候没弄明白怎么通过上面的方式进行mask的使用。所以还是用的原始的方式：

这里就会发现，上面的两种层上的使用，都发生在真实数据在前向传播的时候，但我们真实构造网络的时候，就没有真实数据啊，那这时候应该怎么用层的那种mask方式呢？下面就是我探索的重点了哈哈。

为了模仿上面的Attention操作，我这里自己写了个带有attention机制的小网络：

先定义att层，也是接收的q, k，只不过这里的attention采用了最简单的向量内积的方式求分数。

class att(Layer):
    def __init__(self):
        super(att, self).__init__()
    def call(self, inputs, mask):
        q, k = inputs
        qs = tf.tile(q, multiples=[1, k.shape[1], 1])
        qs = tf.reshape(qs, shape=[-1, k.shape[1], k.shape[2]])  # (None, maxlen, embed_dim)   
        att_score = K.softmax(tf.reduce_sum(qs*k, axis=-1))
        
        # 去掉填充
        paddings = tf.zeros_like(att_score)
        att_score = tf.where(mask._keras_mask, att_score, paddings)
        
        att_score = tf.expand_dims(att_score, axis=1)
        att_out = tf.matmul(att_score, k)
        att_out = tf.squeeze(att_out, axis=1)
        return att_out

然后搭建了个模型，当然这是一个多输入多输出的网络：

def model_stru(paddints):
	# 第一种masking层的方式可以这样用， 放在embedding层之前，通过这种方式计算mask
    unmask = tf.cast(tf.tile(tf.expand_dims(paddints, axis=-1), [1, 1, 10]), tf.float32)
    masking_layer = Masking()
    mask_embedding = masking_layer(unmask)
	
	# 这里建立了两个输入层，一个embedding层， 一个LSTM层
    input_layers1 = Input(shape=(6,))
    input_layers2 = Input(shape=(1,))
    embedding_layer = Embedding(10, 5, mask_zero=True)
    lstm_layer = LSTM(12, return_sequences=True)

	# 这里开始写前向传播的逻辑
    k = embedding_layer(input_layers1)
    #print(k, k.__keras_mask)     这句话会报错 'KerasTensor' object has no attribute '__keras_mask'  据说tf2.4下面的版本可以用，但是tf2.4这里不行了
    q = embedding_layer(input_layers2)
    att_output = att()([q, k], mask_embedding)
    output = Dense(1)(att_output) 
    lstm_output = lstm_layer(k)
    
    # 这里构造了个多输出
    model = Model([input_layers1, input_layers2], [output, k, lstm_output])
    return mask_embedding, model
# 模型建立
mask, model = model_stru(padded_inputs)  # 这个padded_inputs 是填充后的输入

通过前向传播，传输数据之后，得到了下面的结果：

output, k, lstm_out = model([padded_inputs, item])

这时候，就可以用文档中的两种方式得到mask了：

这里也就是说，如果想得到mask，就需要先有数据进行前向传播，那我们还是没有解决在建立模型的时候用mask啊。其实解决了，通过我上面的这个尝试，我得到了三个结论：

Embedding层的这种获取mask的方式，在建立模型的时候不好用(tf2.4之后，会报错)
Masking层的这种方式可以用的，就是我定义att层的时候传入的那个mask，这里面是直接可以通过mask._keras_mask属性获取序列的mask情况的。所以现在我比较倾向于这种方式
就是DIN那里的老方法，是根据填充情况单独定义出mask来，这个得保证原先数据中非0才行。注意,这个方法也不可行，上面DIN里面那样写是错误的，之前想错了，以为mask_zero=True之后，多出来的0 index会默认是0向量，但调试了下发现不是，所以这个写法就错误了。

这里还有种好的方式，就是tf.sequence_mask的方式，我在DIN和DIEN模型复现里面用到了，可以参考DIEN这篇文章

所以，我又尝试把上面的2这种方式写到了层里，因为如果按照上面那个小demo中写的一样的话，具体训练的时候，会报错，因为这个直接把输入的维度给写死了(样本个数的维度)，但实际上，这个有个batch_size是可调的，所以这样写具体训练的时候会报错。下面这个方式就欧克了：

class att(Layer):
    def __init__(self):
        super(att, self).__init__()
    def call(self, inputs, mask):
        q, k = inputs
        qs = tf.tile(q, multiples=[1, k.shape[1], 1])
        qs = tf.reshape(qs, shape=[-1, k.shape[1], k.shape[2]])  # (None, maxlen, embed_dim)   
        att_score = K.softmax(tf.reduce_sum(qs*k, axis=-1))
        
        # 去掉填充
        paddings = tf.zeros_like(att_score)
        key_masks = tf.not_equal(k[:, :, 0], 0)
        print(mask)
        att_score = tf.where(mask, att_score, paddings)
        
        att_score = tf.expand_dims(att_score, axis=1)
        att_out = tf.matmul(att_score, k)
        att_out = tf.squeeze(att_out, axis=1)
        return att_out
def model_stru(paddints):
    input_layers1 = Input(shape=(6,))
    input_layers2 = Input(shape=(1,))
    unmask = tf.cast(tf.tile(tf.expand_dims(input_layers1, axis=-1), [1, 1, 10]), tf.float32)
    masking_layer = Masking()
    mask_embedding = masking_layer(unmask)
    
    embedding_layer = Embedding(11, 5, mask_zero=True)
    k = embedding_layer(input_layers1)
    q = embedding_layer(input_layers2)
    att_output = att()([q, k], mask_embedding._keras_mask)
    output = Dense(1)(att_output) 
    model = Model([input_layers1, input_layers2], [output])
    return model
 
# 下面是测试代码  tf2.0版本上会过
item = np.array([[3], [2], [1], [8]])
model = model_stru(padded_inputs)
model.compile(loss='mse', optimizer='Adam', experimental_run_tf_function = False)
model.fit([padded_inputs, item], np.array([45, 21, 2, 1]), batch_size=2, epochs=3, )

这个在tf2.0版本上会运行成功，但是在tf2.4版本上不行，就想上面的第一种方式一样，所以我发现，这俩版本之间差距还是蛮大的。

这个就是下午比较大的收获了。关于后面的简单了解下。

2.2 函数式API和序列式API中的掩码传播

在使用函数式 API 或序列式 API 时，由 Embedding 或 Masking 层生成的掩码将通过网络传播给任何能够使用它们的层（如 RNN 层）。Keras 将自动提取与输入相对应的掩码，并将其传递给任何知道该掩码使用方法的层。

例如，在下面的序贯模型中，LSTM 层将自动接收掩码，这意味着它将忽略填充的值：

model = keras.Sequential(
    [layers.Embedding(input_dim=5000, output_dim=16, mask_zero=True), layers.LSTM(32),]
)

对以下函数式 API 的情况也是如此：

inputs = keras.Input(shape=(None,), dtype="int32")
x = layers.Embedding(input_dim=5000, output_dim=16, mask_zero=True)(inputs)
outputs = layers.LSTM(32)(x)

model = keras.Model(inputs, outputs)

这也就是上面用了个LSTM测试的原因，可惜没有发现啥新东西，也不知道过没过虑。

2.3 将掩码张量直接传递给层

这里是说，如果想自己设计层的时候，想自动处理掩码，和LSTM那样，需要在call方法中，将掩码生成层的comput_mask()方法传过去。

class MyLayer(layers.Layer):
    def __init__(self, **kwargs):
        super(MyLayer, self).__init__(**kwargs)
        self.embedding = layers.Embedding(input_dim=5000, output_dim=16, mask_zero=True)
        self.lstm = layers.LSTM(32)

    def call(self, inputs):
        x = self.embedding(inputs)
        # Note that you could also prepare a `mask` tensor manually.
        # It only needs to be a boolean tensor
        # with the right shape, i.e. (batch_size, timesteps).
        mask = self.embedding.compute_mask(inputs)
        output = self.lstm(x, mask=mask)  # The layer will ignore the masked values
        return output


layer = MyLayer()
x = np.random.random((32, 10)) * 100
x = x.astype("int32")
layer(x)

也就是生成掩码的层(比如上面的embedding)会公开一个compute_mask(input,previous_mask)方法，因此，我们自己定义层的时候，把这个方法的输出传递给掩码使用层的__call__方法。

2.4 在自定义层中支持mask

上面说的是掩码层的使用层如何怎么写才能处理掩码序列，而这里是说如何让自己定义的层支持掩码呢？

您可能需要编写生成掩码的层（如 Embedding），或者需要修改当前掩码的层。

例如，任何生成与其输入具有不同时间维度的张量的层（如在时间维度上进行连接的 Concatenate 层）都需要修改当前掩码，这样下游层才能正确顾及被遮盖的时间步骤。

为此，您的层应实现 layer.compute_mask() 方法，该方法会根据输入和当前掩码生成新的掩码。

以下是需要修改当前掩码的 TemporalSplit 层的示例。

class TemporalSplit(keras.layers.Layer):
    """Split the input tensor into 2 tensors along the time dimension."""

    def call(self, inputs):
        # Expect the input to be 3D and mask to be 2D, split the input tensor into 2
        # subtensors along the time axis (axis 1).
        return tf.split(inputs, 2, axis=1)

    def compute_mask(self, inputs, mask=None):
        # Also split the mask into 2 if it presents.
        if mask is None:
            return None
        return tf.split(mask, 2, axis=1)


first_half, second_half = TemporalSplit()(masked_embedding)
print(first_half._keras_mask)
print(second_half._keras_mask)

这个目前不知道咋用，后面还有几个，比如在兼容层上启用掩码传播，编写需要掩码信息的层等，都没有用过，这里就先不整理了，具体的可以参考官方文档，等用到了在做一波尝试。

下面再整理一个有意思的事情。

3. tf1版本中的dynamic_rnn

还是接着上面的变长序列，填充之后的样子：

假设经过个embedding之后的处理： embedding的维度是10维

unmasking_embedding = tf.cast(tf.tile(tf.expand_dims(padded_inputs, axis=-1), [1, 1, 10]), tf.float32)

上面这个就变成了一个【4,6,10】的三维张量，这里6是时间步长， 10是embedding维度，4是样本个数。显然这个是经过了填充的。

如果这个东西是过正常的LSTM网络的话，会是这个样子：

rnn_out = LSTM(12, return_sequences=True)(unmasking_embedding)

这里先介绍下LSTM后面的参数汇总return_sequences和return_state的区别哈：

如果后面既不指明return_sequences,也不指明return_state的话，此时返回值仅仅是最后一个时间步的隐藏状态值
而如果指明了return_sequences之后，返回的是所有时间步的隐藏状态h的值，这个在many-to-many结构中是非常有用的。这哥们控制的是h的输出。
如果指明了return_state之后，返回的是最后一个时间步的隐藏状态h，最后一个时间步的隐藏状态h和最后一个时间步的隐藏状态c, 控制的是c的输出。

这里的rnn_out的维度我们就很清楚了[4, 6, 12]，这里看下其中的一个时间步的输出值：

这里会发现4个样本在第二个时间步的h都是有输出值的。这其实不太合理的，因为我们上面的第一个样本来说，第二个时间步的时候是填充的值，本来是没有这个的啊，所以这个时候不应该有h的值的。这个如果不明显，我们再看第三个时间步的输出：

这里依然会发现每个样本都会有值，而第一个第二个样本的第三个时间步其实是用了填充的。

那怎么让它合理呢？也就是填充的时间步的值不让他有呢？这里我探索了两个方法，一个是在这个基础上把之前的那种mask拿过来进行遮盖。比如我这样测试了下：

# 这里的t._keras_mask也可以换成其他能得到mask的方式
mask_rnn_out = tf.expand_dims(tf.cast(tf.where(k._keras_mask, 1, 0), tf.float32), axis=2) * rnn_out

这时候再看结果：

这样就比较合理了。当然如果再搭建具体网络的时候，还是建议用Masking层的方式传mask，因为这里还是先有的输入，再进行的计算。

第二种比较不错的方式，就是直接使用tf1中保留的dynamic_rnn的方式。关于这个东西的具体介绍，可以参考这篇博客

cell = tf.compat.v1.nn.rnn_cell.BasicLSTMCell(12, state_is_tuple=True)  
output, laststate = tf.compat.v1.nn.dynamic_rnn(cell, unmasking_embedding, dtype=tf.float32, sequence_length=[2,3,5,6])

这里我直接写了用法，这个东西是V1保留的，在tf2中没有了这东西。首先，得先定义一个基础的cell，这个可以是LSTM，也可以是GRU。然后就是直接调用这个东西就好了，需要传入cell的类型，接收的输入，还要指明类型和每个样本的真实序列长度(要不然没法计算啊，谁知道每个多长)。这个函数的返回值有两个，output表示的是所有时间步h值，而laststate是最后一个时间步的h和c。我们运行下这个，得到的output依然是[4,6, 12]的张量。看下第三个时间步时的h。

这个动态的RNN就是直接把填充的那部分值的隐藏状态不计算了，给过滤掉，只保留有效的。所以对于变长的序列，过RNN的话，这也是一种不错的方式。

最后还探索了一个东西，叫做Time Distributed，这个也是keras的一个层。

4. Time Distributed

这个东西的主要用途在于Many-to-Many: 比如输入的shape为(1,5,1)，输出的shape为(1,5,1)的话就可以这么写：

model = Sequential()
model.add(LSTM(3, input_shape=(length, 1), return_sequences=True))
model.add(TimeDistributed(Dense(1)))

根据上面解读，return_sequences=True，使得LSTM的输出为每个timestep的hidden state，shape为(1, 5, 3)。

现在需要将这个(1,5,3)的3D tensor变为(1,5,1)的结果，需要3个Dense Layer分别作用于每个time step的输出。而使用了TimeDistributed后，则把一个相同的Dense layer去分别作用，可以使得网络更为紧凑，参数更少的作用。如果是在many-to-one的情况，return_sequence=False，则LSTM的输出为最后一个time step的hidden state，shape为(1, 3)。此时加上一个Dense layer, 不用使用TimeDistributed，就可以将(1, 3)变换为(1, 1)。

当然这个东西不仅可以包装Dense层，还可以包装卷积啥的各种层，可以减少参数量，相当于用这个一个层多次作用。关于更详细的用法，参考这篇博客

（Python基础篇）循环结构 EternityArt 基础篇 python
一、什么是Python循环结构？循环结构是编程中重复执行代码块的机制。在Python中，循环允许你：1.迭代处理数据：遍历列表、字典、文件内容等。2.自动化重复任务：如批量处理数据、生成序列等。3.控制执行流程：根据条件决定是否继续或终止循环。二、为什么需要循环结构？假设你需要打印1到100的所有偶数：没有循环：需手动编写100行print()语句。print(0)print(2)print(4)
【unity编辑器开发与拓展EditorGUILayoyt和GUILayoyt】死也不注释 Unity编辑器开发与拓展笔记 unity 编辑器游戏引擎
EditorGUILayout与GUILayout的核心区别及使用场景详解一、对比表特性GUILayoutEditorGUILayout命名空间UnityEngineUnityEditor使用场景运行时UI+编辑器扩展仅限编辑器扩展控件风格基础游戏风格（无编辑器优化）原生Unity编辑器风格布局复杂度基础流式布局高级自动布局（带标签对齐/间距优化）序列化支持❌不支持✅直接支持SerializedP
pythonjson中list操作_Python json.dumps 特殊数据类型的自定义序列化操作
场景描述：Python标准库中的json模块，集成了将数据序列化处理的功能；在使用json.dumps()方法序列化数据时候，如果目标数据中存在datetime数据类型，执行操作时，会抛出异常：TypeError:datetime.datetime(2016,12,10,11,04,21)isnotJSONserializable那么遇到json.dumps序列化不支持的数据类型，该怎么办！首先，
Python技能手册 - 模块module 金色牛神 Python python windows 开发语言
系列Python常用技能手册-基础语法Python常用技能手册-模块modulePython常用技能手册-包package目录module模块指什么typing数据类型int整数float浮点数str字符串bool布尔值TypeVar类型变量functools高阶函数工具functools.partial()函数偏置functools.lru_cache()函数缓存sorted排序列表排序元组排序
自测魅族手机webview加载h5时ul嵌套li标签js失效问题记录 ZhDan91 混合app 前端开发
自测魅族手机ul嵌套li标签js失效问题：可采用div嵌套option实现样式：.hot_list{width:100%;display:flex;flex-wrap:wrap;justify-content:space-between;}.hot_listoption{text-align:center;width:30%;padding:.16rem.34rem;border:0.1remso
C++ 标准库＜numeric＞
以下对C++标准库中头文件所提供的数值算法与工具做一次系统、深入的梳理，包括算法功能、示例代码、复杂度分析及实践建议。一、概述中定义了一组对数值序列进行累加、内积、差分、扫描等操作的算法，以及部分辅助工具（如std::iota、std::gcd/std::lcm等）。所有算法均作用于迭代器区间，符合STL风格，可与任意容器或原始数组配合使用。从C++17、20起，又陆续加入了并行友好的std::r
Python3 内置函数 AI老李 python python
关键要点Python3的内置函数是解释器直接提供的，无需导入即可使用，涵盖数据类型转换、数学操作、序列处理等多种功能。推荐使用官方文档、菜鸟教程和腾讯云开发者社区的中文资源，适合初学者和中级学习者。资源提供详细解释和示例，学习时可结合实际项目实践。简介Python3的内置函数是编程中常用的工具，方便用户快速实现各种操作。以下是几个主要资源，帮助您学习这些函数的用法。资源推荐Python官方文档：内
技术演进中的开发沉思-32 MFC系列：生命周期 chilavert318 熬之滴水穿石 windows c++
今天，我们继续MFC以一种更亲近的方式，梳理这个框架的脉络，看看一个MFC程序从诞生到运行的完整故事。一、MFC类层次结构昨天已经梳理过MFC的类层次了，今天梳理其生命周期，还是要提一下。因为它确实很重要，如果把MFC比作一个庞大的家族，那类层次结构就是它的族谱。最顶层的CObject就像家族的老祖宗，所有成员都流淌着它的血液——封装了最基础的功能，比如对象的创建与销毁、序列化等。往下分，就像家族
Matlab裁剪降水数据：1km掩膜制作实战咋（za）说 matlab 降水数据处理裁剪掩膜制作降水数据裁剪 China_Pre
1km降水数据处理-制作数据裁剪掩膜1.数据概述2掩膜文件制作示例2.1数据准备2.2matlab掩膜制作示例代码3结语中国1km分辨率逐月降水量数据集（1901-2024）是高精度、长时间序列的气候数据产品，广泛应用于水文、生态、农业等领域的研究。本篇基于应用需要，以该数据集为输入，结合研究区shp边界文件，制作用于数据提取/裁剪的掩膜文件。下面为具体内容。1.数据概述中国1km分辨率逐
深入解析TCP：可靠传输的核心机制与实现逻辑 Gappsong874 网络 tcp/ip 网络协议 web安全网络安全大数据
TCP协议概述TCP（TransmissionControlProtocol）是一种面向连接的、可靠的传输层协议。它通过一系列机制确保数据准确、有序地从发送方传递到接收方，适用于对可靠性要求高的场景（如网页浏览、文件传输）。可靠传输的核心机制三次握手建立连接TCP通过三次握手（Three-WayHandshake）初始化连接，确保双方具备收发能力：SYN：客户端发送SYN=1和随机序列号seq=x
JQ+vue实现图片拼接（无限套娃版）小周同学: js vue jquery vue.js javascript jquery
css样式/*css初始化*/*{margin:0;padding:0;}/*去掉li的小圆点*/li{list-style:none;}/*去掉a的下划线*/a{text-decoration:none;}/*搜索框去除边框*/input,button,select{border:0;/*设置背景颜色为透明*/background-color:transparent;/*去掉外轮廓*/outli
SpringBoot日志脱敏：敏感信息保护全面指南 Clf丶忆笙 spring boot 后端 java 日志脱敏
文章目录一、日志脱敏概述与核心概念1.1什么是日志脱敏1.2为什么需要日志脱敏1.3常见需要脱敏的敏感信息类型1.4脱敏技术核心原理二、SpringBoot基础日志脱敏实现2.1基于正则表达式的简单脱敏2.2在SpringBoot中集成基础脱敏2.3基础实现的优缺点分析三、基于注解的高级脱敏方案3.1自定义脱敏注解3.2实现自定义JSON序列化器3.3在实体类中应用脱敏注解3.4测试与验证四、Sp
从RNN循环神经网络到Transformer注意力机制：解析神经网络架构的华丽蜕变熊猫钓鱼>_> 神经网络 rnn transformer
1.引言在自然语言处理和序列建模领域，神经网络架构经历了显著的演变。从早期的循环神经网络（RNN）到现代的Transformer架构，这一演变代表了深度学习方法在处理序列数据方面的重大进步。本文将深入比较这两种架构，分析它们的工作原理、优缺点，并通过实验结果展示它们在实际应用中的性能差异。2.循环神经网络（RNN）2.1基本原理循环神经网络是专门为处理序列数据而设计的神经网络架构。RNN的核心思想
【SpringBoot】数据脱敏阿Q说代码 SptingBoot spring boot 数据脱敏自定义注解 Jackson JsonSerializer 序列化
文章目录什么是数据脱敏@JsonSerialize自定义Jackson注解定制脱敏策略定制JSON序列化实现脱敏工具类定义Person类，对其数据脱敏模拟接口测试总结什么是数据脱敏数据脱敏，也称为数据的去隐私化或数据变形，是一种技术手段，用于对某些敏感信息通过特定的脱敏规则进行数据的变形，从而实现敏感隐私数据的可靠保护。这样可以在开发、测试和其他非生产环境以及外包环境中安全地使用脱敏后的真实数据集
springboot数据脱敏（接口级别） WuWuII java spring boot java spring 脱敏
文章目录自定义脱敏注解脱敏注解接口脱敏注解反射+AOP实现字段脱敏切面定义脱敏策略脱敏策略的接口电话号码脱敏策略邮箱脱敏不脱敏姓名脱敏身份证号脱敏Jackson+AOP实现脱敏定义序列化序列化实现脱敏切面定义Jackson+ThreadLocal+拦截器实现脱敏定义ThreadLocal自定义序列化序列化配置拦截器定义拦截器添加到spring脱敏指定接口总结主要通过注解+aop+序列化/jacks
Android-kotlin之Flow基础实战应用每次的天空 android kotlin 开发语言
一、Flow是什么？Flow是一种用于处理异步数据流的强大工具，它基于协程实现，支持响应式编程模式。Flow是一个冷流（ColdStream），即只有在被收集（collect）时才会开始执行，类似于Kotlin序列（Sequence）的惰性求值特性。它可以异步地发射多个值，支持背压（Backpressure）机制。核心特点异步/非阻塞：Flow中的代码可以挂起而不阻塞线程。支持协程上下文：可以在不
【JAVA】的SPI机制小白杨树树 java microsoft 开发语言
在Java里，SPI（ServiceProviderInterface）是一种关键的服务发现机制。其核心在于，它能让服务提供者在运行时动态地向系统注册自身实现，实现了服务接口与具体实现的解耦。比如，自己开发的RPC框架定义了一个序列化器的接口，但是希望能够提供让用户自己使用实现好的序列化器的功能，就可以使用SPI机制。JAVA内置了这样的SPI功能。核心概念阐释服务接口（ServiceInterf
Python：操作 Word 对齐方式 Thomas Kant Python python word c#
亲爱的技术爱好者们，热烈欢迎来到Kant2048的博客！我是ThomasKant，很开心能在CSDN上与你们相遇～本博客的精华专栏：【自动化测试】【测试经验】【人工智能】【Python】Python：操作Word对齐方式详解（左对齐/右对齐/居中/两端对齐）在日常办公自动化中，我们经常需要对Word文档中的段落设置对齐方式，如左对齐、右对齐、居中、两端对齐等。本文将带你使用python-docx库
TestCafe ➜ Playwright fixture 架构迁移指南 Thomas Kant 自动化测试 playwright testcafe typescript 测试架构
亲爱的技术爱好者们，热烈欢迎来到Kant2048的博客！我是ThomasKant，很开心能在CSDN上与你们相遇～本博客的精华专栏：【自动化测试】【测试经验】【人工智能】【Python】
Maven生命周期：构建流程深度解析六七_Shmily 后端技术 maven java
Maven生命周期详解Maven的生命周期是构建过程的核心抽象，它定义了项目构建、测试和部署的有序阶段序列。理解生命周期对于高效使用Maven至关重要。一、三大内置生命周期Maven包含三个独立的生命周期，每个生命周期包含多个阶段（phase）：生命周期作用关键阶段clean清理构建产物pre-clean,clean,post-cleandefault项目编译、测试、打包、部署compile,te
【深度学习解惑】在实践中如何发现和修正RNN训练过程中的数值不稳定？云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习 rnn 人工智能 tensorflow pytorch 神经网络机器学习
在实践中发现和修正RNN训练过程中的数值不稳定目录引言与背景介绍原理解释代码说明与实现应用场景与案例分析实验设计与结果分析性能分析与技术对比常见问题与解决方案创新性与差异性说明局限性与挑战未来建议和进一步研究扩展阅读与资源推荐图示与交互性内容语言风格与通俗化表达互动交流1.引言与背景介绍循环神经网络(RNN)在处理序列数据时表现出色，但训练过程中常面临梯度消失和梯度爆炸问题，导致数值不稳定。当网络
Pandas 学习教程 _pass_ Data-Alaysis pandas 信息可视化
目录定义基本操作一维数组操作二维数组操作数据选择过滤数据处理数据清洗数据转换数据分析排序分组聚合数据透视表高级操作合并数据时间序列处理自定义函数调用数据可视化集成数据导出和导入大数据分块处理定义全称：'paneldata'and'pythondataanalysis'Analy:Series(一维数据)、DataFrame(二维数据)主要应用：数据清洗：处理缺失数据、重复数据等数据转换：改变数据的
这次是讲解一下条件函数的用法，还有一个简单的示例言青缘 mysql 数据库 redis
我是以普遍的朋友圈做的示例这个可以实现隐藏和显示朋友圈的评论现在我吧具体用法说一下首先要先把页面的大概写出来比如我这个名字我的言论2025-4-30{{is?'展开':'隐藏'}}评论好好好真好太好了然后这是css代码.post-container{width:100%;max-width:600px;margin:0auto;padding:16px;background-color:#fff;
Pydantic 保姆级教程：Python 数据验证与设置管理的终极指南 JJJ@666 基础知识(Python)python Pydantic 数据验证设置管理库
Pydantic是一个强大的Python库，主要用于数据验证和设置管理。它通过Python类型注解来定义数据结构，并自动提供数据验证、序列化和文档生成功能。本教程将带你从基础到高级全面掌握Pydantic。核心概念Pydantic的核心是模型(Model)，它类似于Python的数据类(dataclass)，但提供了更多功能：类型验证：自动验证输入数据的类型数据转换：自动将输入数据转换为正确的类型
动态时间规整（Dynamic Time Warping，DTW）介绍 EmorZhong 机器学习人工智能深度学习数据结构算法
在时序数据分析中，动态时间规整（DynamicTimeWarping，DTW）是一种经典的用于度量两个时间序列相似度的算法。它的核心价值在于解决了传统距离度量（如欧氏距离）在处理时间序列时的局限性——尤其是当序列存在时间错位（如节奏快慢不同）或长度差异时，仍能准确捕捉它们的“形状相似性”。一、为什么需要DTW？传统的距离度量（如欧氏距离）要求两个时间序列必须长度相同且时间点严格对齐。但实际场景中，
C#网络编程深度解析：TCP与UDP协议详解与实战示例 Leon@Lee 网络 tcp/ip c#
作为现代网络通信的基石，TCP和UDP协议是开发者必须掌握的核心知识。本文将从协议原理、适用场景、C#实现三个维度全面解析两者差异，并通过10个代码示例展示如何用C#构建高效网络应用。一、TCP协议：可靠的字节流传输1.核心特性面向连接：通过三次握手建立通信信道（SYN→SYN-ACK→ACK）可靠性保障：通过序列号、确认应答（ACK）和重传机制确保数据完整流量控制：滑动窗口机制动态调节传输速率拥
Transformer推理性能优化技术很重要的一个就是K V cache，能否通俗分析，可以结合代码? javastart aigc 大模型人工智能 transformer AIGC 性能优化
原文：Transformer推理性能优化技术很重要的一个就是KVcache，能否通俗分析，可以结合代码?-知乎为什么要研究KVcache？设输入序列的长度为s，输出序列的长度为n，模型深度为l，维度为h,以FP16来保存KVcache，那么KVcache的峰值显存占用大小为b(s+n)h∗l∗2∗2=4blh(s+n)。这里第一个2表示K/Vcache，第二个2表示FP16占2个bytes。以GP
【ceph】ceph集群更换osd时，找不到坏盘位置，怎么查找坏盘对应的序列号---业内称“点灯”
本站以分享各种运维经验和运维所需要的技能为主《python零基础入门》：python零基础入门学习《python运维脚本》：python运维脚本实践《shell》：shell学习《terraform》持续更新中：terraform_Aws学习零基础入门到最佳实战《k8》从问题中去学习k8s《docker学习》暂未更新《ceph学习》ceph日常问题解决分享《日志收集》ELK+各种中间件《运维日常》
班车服务系统扩展到多场景（穿梭车、周转车）的升级过程中，遗传算法和蚁群算法的实现示例 Alex艾力的IT数字空间算法动态规划 java spring boot 功能测试测试覆盖率
班车服务系统扩展到多场景（如办公场地穿梭车、周转车）的升级过程中，遗传算法（GA）和蚁群算法（ACO）实现协同优化，代码示例如下：一、算法选择与场景适配1.遗传算法：全局调度优化适用场景：多车辆类型（班车、穿梭车、周转车）的协同调度、时间窗约束（如会议通勤时间）、资源分配（如车辆容量限制）。核心逻辑：通过染色体编码表示调度方案，利用选择、交叉、变异操作生成新解，逐步逼近最优调度序列。Java代码示
从十六进制字节字符串到UTF-8文本：解码原理与JavaScript实现
在Web开发和数据处理中，我们经常需要处理不同编码格式的数据。本文将深入探讨如何将十六进制表示的UTF-8字节字符串转换为可读的文本内容，并提供一个完整的JavaScript实现方案。一、UTF-8编码基础UTF-8（8-bitUnicodeTransformationFormat）是一种针对Unicode的可变长度字符编码，也是互联网上使用最广泛的一种Unicode编码方式。它有以下特点：兼容A
SAX解析xml文件小猪猪08 xml
1.创建SAXParserFactory实例 2.通过SAXParserFactory对象获取SAXParser实例 3.创建一个类SAXParserHander继续DefaultHandler，并且实例化这个类 4.SAXParser实例的parse来获取文件 public static void main(String[] args) { //
为什么mysql里的ibdata1文件不断的增长？ brotherlamp linux linux运维 linux资料 linux视频 linux运维自学
我们在 Percona 支持栏目经常收到关于 MySQL 的 ibdata1 文件的这个问题。当监控服务器发送一个关于 MySQL 服务器存储的报警时，恐慌就开始了 —— 就是说磁盘快要满了。一番调查后你意识到大多数地盘空间被 InnoDB 的共享表空间 ibdata1 使用。而你已经启用了 innodbfileper_table，所以问题是： ibdata1存了什么？当你启用了 i
Quartz-quartz.properties配置 eksliang quartz
其实Quartz JAR文件的org.quartz包下就包含了一个quartz.properties属性配置文件并提供了默认设置。如果需要调整默认配置，可以在类路径下建立一个新的quartz.properties，它将自动被Quartz加载并覆盖默认的设置。下面是这些默认值的解释 #-----集群的配置 org.quartz.scheduler.instanceName =
informatica session的使用 18289753290 workflow session log Informatica
如果希望workflow存储最近20次的log，在session里的Config Object设置，log options做配置，save session log :sessions run ;savesessio log for these runs:20 session下面的source 里面有个tracing
Scrapy抓取网页时出现CRC check failed 0x471e6e9a != 0x7c07b839L的错误酷的飞上天空 scrapy
Scrapy版本0.14.4 出现问题现象： ERROR: Error downloading <GET http://xxxxx CRC check failed 解决方法 1.设置网络请求时的header中的属性'Accept-Encoding': '*;q=0' 明确表示不支持任何形式的压缩格式，避免程序的解压
java Swing小集锦永夜-极光 java swing
1.关闭窗体弹出确认对话框 1.1 this.setDefaultCloseOperation (JFrame.DO_NOTHING_ON_CLOSE); 1.2 this.addWindowListener ( new WindowAdapter () { public void windo
强制删除.svn文件夹随便小屋 java
在windows上，从别处复制的项目中可能带有.svn文件夹，手动删除太麻烦，并且每个文件夹下都有。所以写了个程序进行删除。因为.svn文件夹在windows上是只读的，所以用File中的delete()和deleteOnExist()方法都不能将其删除，所以只能采用windows命令方式进行删除
GET和POST有什么区别？及为什么网上的多数答案都是错的。 aijuans get post
如果有人问你，GET和POST，有什么区别？你会如何回答？我的经历前几天有人问我这个问题。我说GET是用于获取数据的，POST，一般用于将数据发给服务器之用。这个答案好像并不是他想要的。于是他继续追问有没有别的区别？我说这就是个名字而已，如果服务器支持，他完全可以把G
谈谈新浪微博背后的那些算法 aoyouzi 谈谈新浪微博背后的那些算法
本文对微博中常见的问题的对应算法进行了简单的介绍，在实际应用中的算法比介绍的要复杂的多。当然，本文覆盖的主题并不全，比如好友推荐、热点跟踪等就没有涉及到。但古人云“窥一斑而见全豹”，希望本文的介绍能帮助大家更好的理解微博这样的社交网络应用。微博是一个很多人都在用的社交应用。天天刷微博的人每天都会进行着这样几个操作：原创、转发、回复、阅读、关注、@等。其中，前四个是针对短博文，最后的关注和@则针
Connection reset 连接被重置的解决方法百合不是茶 java 字符流连接被重置
流是java的核心部分,,昨天在做android服务器连接服务器的时候出了问题,就将代码放到java中执行,结果还是一样连接被重置被重置的代码如下; 客户端代码; package 通信软件服务器; import java.io.BufferedWriter; import java.io.OutputStream; import java.io.O
web.xml配置详解之filter bijian1013 java web.xml filter
一.定义 <filter> <filter-name>encodingfilter</filter-name> <filter-class>com.my.app.EncodingFilter</filter-class> <init-param> <param-name>encoding<
Heritrix Bill_chen 多线程 xml 算法制造配置管理
作为纯Java语言开发的、功能强大的网络爬虫Heritrix，其功能极其强大，且扩展性良好，深受热爱搜索技术的盆友们的喜爱，但它配置较为复杂，且源码不好理解，最近又使劲看了下，结合自己的学习和理解，跟大家分享Heritrix的点点滴滴。 Heritrix的下载（http://sourceforge.net/projects/archive-crawler/）安装、配置，就不罗嗦了，可以自己找找资
【Zookeeper】FAQ bit1129 zookeeper
1.脱离IDE，运行简单的Java客户端程序 #ZkClient是简单的Zookeeper~$ java -cp "./:zookeeper-3.4.6.jar:./lib/*" ZKClient 1. Zookeeper是的Watcher回调是同步操作，需要添加异步处理的代码 2. 如果Zookeeper集群跨越多个机房，那么Leader/
The user specified as a definer ('aaa'@'localhost') does not exist 白糖_ localhost
今天遇到一个客户BUG，当前的jdbc连接用户是root，然后部分删除操作都会报下面这个错误：The user specified as a definer ('aaa'@'localhost') does not exist 最后找原因发现删除操作做了触发器，而触发器里面有这样一句 /*!50017 DEFINER = ''aaa@'localhost' */ 原来最初
javascript中showModelDialog刷新父页面 bozch JavaScript 刷新父页面 showModalDialog
在页面中使用showModalDialog打开模式子页面窗口的时候，如果想在子页面中操作父页面中的某个节点，可以通过如下的进行： window.showModalDialog('url',self,‘status...’); // 首先中间参数使用self 在子页面使用w
编程之美-买书折扣 bylijinnan 编程之美
import java.util.Arrays; public class BookDiscount { /**编程之美买书折扣书上的贪心算法的分析很有意思，我看了半天看不懂，结果作者说，贪心算法在这个问题上是不适用的。。下面用动态规划实现。哈利波特这本书一共有五卷，每卷都是8欧元，如果读者一次购买不同的两卷可扣除5%的折扣，三卷10%，四卷20%，五卷
关于struts2.3.4项目跨站执行脚本以及远程执行漏洞修复概要 chenbowen00 struts WEB安全
因为近期负责的几个银行系统软件，需要交付客户，因此客户专门请了安全公司对系统进行了安全评测，结果发现了诸如跨站执行脚本，远程执行漏洞以及弱口令等问题。下面记录下本次解决的过程以便后续 1、首先从最简单的开始处理，服务器的弱口令问题，首先根据安全工具提供的测试描述中发现应用服务器中存在一个匿名用户，默认是不需要密码的，经过分析发现服务器使用了FTP协议，而使用ftp协议默认会产生一个匿名用
[电力与暖气]煤炭燃烧与电力加温 comsci
在宇宙中,用贝塔射线观测地球某个部分,看上去,好像一个个马蜂窝,又像珊瑚礁一样,原来是某个国家的采煤区..... 不过,这个采煤区的煤炭看来是要用完了.....那么依赖将起燃烧并取暖的城市,在极度严寒的季节中...该怎么办呢? &nbs
oracle O7_DICTIONARY_ACCESSIBILITY参数 daizj oracle
O7_DICTIONARY_ACCESSIBILITY参数控制对数据字典的访问.设置为true,如果用户被授予了如select any table等any table权限,用户即使不是dba或sysdba用户也可以访问数据字典.在9i及以上版本默认为false,8i及以前版本默认为true.如果设置为true就可能会带来安全上的一些问题.这也就为什么O7_DICTIONARY_ACCESSIBIL
比较全面的MySQL优化参考 dengkane mysql
本文整理了一些MySQL的通用优化方法，做个简单的总结分享，旨在帮助那些没有专职MySQL DBA的企业做好基本的优化工作，至于具体的SQL优化，大部分通过加适当的索引即可达到效果，更复杂的就需要具体分析了，可以参考本站的一些优化案例或者联系我，下方有我的联系方式。这是上篇。 1、硬件层相关优化 1.1、CPU相关在服务器的BIOS设置中，可
C语言homework2，有一个逆序打印数字的小算法 dcj3sjt126com c
#h1# 0、完成课堂例子 1、将一个四位数逆序打印 1234 ==> 4321 实现方法一： # include <stdio.h> int main(void) { int i = 1234; int one = i%10; int two = i / 10 % 10; int three = i / 100 % 10;
apacheBench对网站进行压力测试 dcj3sjt126com apachebench
ab 的全称是 ApacheBench ，是 Apache 附带的一个小工具，专门用于 HTTP Server 的 benchmark testing ，可以同时模拟多个并发请求。前段时间看到公司的开发人员也在用它作一些测试，看起来也不错，很简单，也很容易使用，所以今天花一点时间看了一下。通过下面的一个简单的例子和注释，相信大家可以更容易理解这个工具的使用。
2种办法让HashMap线程安全 flyfoxs java jdk jni
多线程之--2种办法让HashMap线程安全多线程之--synchronized 和reentrantlock的优缺点多线程之--2种JAVA乐观锁的比较( NonfairSync VS. FairSync) HashMap不是线程安全的,往往在写程序时需要通过一些方法来回避.其实JDK原生的提供了2种方法让HashMap支持线程安全.
Spring Security（04）——认证简介 234390216 Spring Security 认证过程
认证简介目录 1.1 认证过程 1.2 Web应用的认证过程 1.2.1 ExceptionTranslationFilter 1.2.2 在request之间共享SecurityContext 1
Java 位运算 Javahuhui java 位运算
// 左移( << ) 低位补0 // 0000 0000 0000 0000 0000 0000 0000 0110 然后左移2位后，低位补0： // 0000 0000 0000 0000 0000 0000 0001 1000 System.out.println(6 << 2);// 运行结果是24 // 右移( >> ) 高位补"
mysql免安装版配置 ldzyz007 mysql
1、my-small.ini是为了小型数据库而设计的。不应该把这个模型用于含有一些常用项目的数据库。 2、my-medium.ini是为中等规模的数据库而设计的。如果你正在企业中使用RHEL,可能会比这个操作系统的最小RAM需求(256MB)明显多得多的物理内存。由此可见，如果有那么多RAM内存可以使用，自然可以在同一台机器上运行其它服务。 3、my-large.ini是为专用于一个SQL数据
MFC和ado数据库使用时遇到的问题你不认识的休道人 sql C++mfc
=================================================================== 第一个 =================================================================== try{ CString sql; sql.Format("select * from p
表单重复提交Double Submits rensanning double
可能发生的场景： *多次点击提交按钮 *刷新页面 *点击浏览器回退按钮 *直接访问收藏夹中的地址 *重复发送HTTP请求（Ajax）（1）点击按钮后disable该按钮一会儿，这样能避免急躁的用户频繁点击按钮。这种方法确实有些粗暴，友好一点的可以把按钮的文字变一下做个提示，比如Bootstrap的做法： http://getbootstrap.co
Java String 十大常见问题 tomcat_oracle java 正则表达式
　1.字符串比较，使用“==”还是equals()? 　　"=="判断两个引用的是不是同一个内存地址(同一个物理对象)。　　equals()判断两个字符串的值是否相等。　　除非你想判断两个string引用是否同一个对象，否则应该总是使用equals()方法。　　如果你了解字符串的驻留(String Interning)则会更好地理解这个问题。　　
SpringMVC 登陆拦截器实现登陆控制 xp9802 springMVC
思路，先登陆后，将登陆信息存储在session中，然后通过拦截器，对系统中的页面和资源进行访问拦截，同时对于登陆本身相关的页面和资源不拦截。实现方法： 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23