关于tensorflow dataset API(map) 的一些学习记录----NMT
dataset最基本的功能是创建数据集及使用数据集。
创建数据集:
1 `#词表
src_vocab_table = lookup_ops.index_table_from_tensor(tf.constant(["a", "b", "c", "eos", "sos"]))
src_eos_id tf.cast(src_vacab_table.look_up(tf.constant("eos")), tf.int32)
src_sos_id tf.cast(src_vacab_table.look_up(tf.constant("sos")), tf.int32)
#源数据集及目标数据集
src_dataset = tf.data.Dataset.from_tensor_slices(tf.constant(["a b c", "c a", "d", "f, e, a, g"]))
tgt_dataset = tf.data.Dataset.from_tensor_slices(tf.constant(["a b", "b c", "", "c c"]))
#一些列操作
src_tgt_dataset = tf.data.Dataset.zip((src_dataset, tgt_dataset))
##按空格分开
src_tgt_dataset = src_tgt_dataset.map(lmabda src, tgt: (tf.string_split([src]).values), tf.string_split([tgt]).values)
##将源数据集集目标数据集转换为词表中对应的id
src_tgt_dataset = src_tgt_dataset.map(lambda src, tgt: (tf.cast(src_vocab_table.lookup(src), tf.int32), tf.cast(src_vocab_table.lookup(tgt), tf.int32)))
##对目标数据集添加起始及结束符标志sos/eos
##在每一个元素前后均添加了sos或是eos,具体详见下边的运行结果
src_tgt_dataset = src_tgt_dataset.map(lambda src, tgt: (src, tf.constant(([src_sos_id]), 0), tf.constant((tgt, [src_eos_id]), 0)))
#通过迭代器访问dataset中的下一个元素
iterator = src_tgt_dataset.make_initializable_iterator()
ret = iterator.get_next()
#创建会话
With tf.Session() as sess:
sess.run(tf.tables_initializer())
sess.run(tf.iterator.initializer)
try:
while True:
ret = sess.run(ret)
print(ret)
except tf.errors.OutofRangeError:
print("end!")`
运行结果如下:
(array([2, 2, 0], dtype=int32), array([4, 0, 1], dtype=int32), array([0, 1, 3], dtype=int32))
(array([2, 0], dtype=int32), array([4, 1, 2], dtype=int32), array([1, 2, 3], dtype=int32))
(array([-1], dtype=int32), array([4], dtype=int32), array([3], dtype=int32))
(array([-1, -1, 0, -1], dtype=int32), array([4, 2, 2], dtype=int32), array([2, 2, 3], dtype=int32))
分析: