参考文章
keras.preprocessing.sequence.pad_sequences(sequences,
maxlen=None,
dtype='int32',
padding='pre',
truncating='pre',
value=0.)
其中:
sequences:浮点数或整数构成的两层嵌套列表
maxlen:None或整数,为序列的最大长度。大于此长度的序列将被截短,小于此长度的序列将在后部填0.
dtype:返回的numpy array的数据类型
padding:‘pre’或‘post’,确定当需要补0时,在序列的起始还是结尾补(默认为pre)
truncating:‘pre’或‘post’,确定当需要截断序列时,从起始还是结尾截断(默认为pre)
value:浮点数,此值将在填充时代替默认的填充值0
返回值:返回的是个2维张量,长度为maxlen
填充值和填充位置都为默认,padding="pre"
test_list1=[[1,2,3,4]]
keras.preprocessing.sequence.pad_sequences(test_list1,maxlen=10)
输出为 array([[0, 0, 0, 0, 0, 0, 1, 2, 3, 4]])
,可以看出默认是在序列前面补充填充值默认值0
令padding="post"
keras.preprocessing.sequence.pad_sequences(test_list1,padding="post",maxlen=10)
输出为 array([[1, 2, 3, 4, 0, 0, 0, 0, 0, 0]])
,在序列后面填充
截取位置为默认,padding="pre"
keras.preprocessing.sequence.pad_sequences(test_list1,maxlen=3)
输出为array([[2, 3, 4]])
,可以看出是截断序列前面的数,即保留序列后面maxlen个数
令padding="post"
keras.preprocessing.sequence.pad_sequences(test_list1,maxlen=3,truncating="post")
输出为array([[1, 2, 3]])
,截断序列后面的数,即保留前面maxlen个数
令value=5
keras.preprocessing.sequence.pad_sequences(test_list1,maxlen=10,value=5)
输出为array([[5, 5, 5, 5, 5, 5, 1, 2, 3, 4]])
dtype="float"
keras.preprocessing.sequence.pad_sequences(test_list1,maxlen=10,dtype="float")
输出为array([[0., 0., 0., 0., 0., 0., 1., 2., 3., 4.]])