使长度标准化
此函数将序列(lists of integers)的列表(of length num_samples)转换为形状为(num_samples,num_timesteps)的 2D Numpy 数组。 num_timesteps是 maxlen 参数(如果提供),或者是列表中最长序列的长度。
短于 num_timesteps 的序列用值填充,直到它们长 num_timesteps。
长于 num_timesteps 的序列将被截断,以使其符合所需的长度。
发生填充或截断的位置分别由参数填充和截断决定。 从序列的开头预填充或删除值是默认设置。
tf.keras.utils.pad_sequences(
sequences, # 序列长度
maxlen=None, # 可选 Int,所有序列的最大长度。 如果未提供,序列将被填充到最长的单个序列的长度。
dtype='int32', # 可选,默认为“int32”。 输出序列的类型。 要使用可变长度字符串填充序列,可以使用 object.
padding='pre', # 字符串,“pre”或“post”(可选,默认为“pre”):在每个序列之前或之后填充。
truncating='pre', # 字符串,“pre”或“post”(可选,默认为“pre”):从大于 maxlen 的序列中删除值,无论是在序列的开头还是结尾。
value=0.0 # 浮点数或字符串,填充值。 (可选,默认为 0。)
)
Numpy array with shape (len(sequences), maxlen)
import tensorflow as tf # 导入tensorflow
sequence = [[1], [2, 3], [4, 5, 6]] # 输入序列
tf.keras.preprocessing.sequence.pad_sequences(sequence) # 长度标准化
array([[0, 0, 1], [0, 2, 3], [4, 5, 6]])
import tensorflow as tf # 导入tensorflow
sequence = [[1], [2, 3], [4, 5, 6]] # 输入序列
tf.keras.preprocessing.sequence.pad_sequences(sequence, padding='post') # 长度标准化
array([[1, 0, 0], [2, 3, 0], [4, 5, 6]])
主要参考:tf.keras.utils.pad_sequences | TensorFlow Core v2.9.1 (google.cn)