关于tensorflow dataset API(map) 的一些学习记录----NMT

关于tensorflow dataset API(map) 的一些学习记录----NMT

dataset最基本的功能是创建数据集及使用数据集。
创建数据集:
1 `#词表
   src_vocab_table = lookup_ops.index_table_from_tensor(tf.constant(["a", "b", "c", "eos", "sos"]))
   src_eos_id tf.cast(src_vacab_table.look_up(tf.constant("eos")), tf.int32)
   src_sos_id tf.cast(src_vacab_table.look_up(tf.constant("sos")), tf.int32)
   
   #源数据集及目标数据集
   src_dataset = tf.data.Dataset.from_tensor_slices(tf.constant(["a b c", "c a", "d", "f, e, a, g"]))
   tgt_dataset = tf.data.Dataset.from_tensor_slices(tf.constant(["a b", "b c", "", "c c"]))
  
   #一些列操作
   src_tgt_dataset = tf.data.Dataset.zip((src_dataset, tgt_dataset))
   ##按空格分开
   src_tgt_dataset = src_tgt_dataset.map(lmabda src, tgt: (tf.string_split([src]).values), tf.string_split([tgt]).values) 
   ##将源数据集集目标数据集转换为词表中对应的id
   src_tgt_dataset = src_tgt_dataset.map(lambda src, tgt: (tf.cast(src_vocab_table.lookup(src), tf.int32), tf.cast(src_vocab_table.lookup(tgt), tf.int32)))
   ##对目标数据集添加起始及结束符标志sos/eos
   ##在每一个元素前后均添加了sos或是eos,具体详见下边的运行结果
   src_tgt_dataset = src_tgt_dataset.map(lambda src, tgt: (src, tf.constant(([src_sos_id]), 0), tf.constant((tgt, [src_eos_id]), 0)))

   #通过迭代器访问dataset中的下一个元素
   iterator = src_tgt_dataset.make_initializable_iterator()
   ret = iterator.get_next()

   #创建会话
   With tf.Session() as sess:
         sess.run(tf.tables_initializer())
         sess.run(tf.iterator.initializer)
         try:
               while True:
                      ret = sess.run(ret)
                      print(ret)
         except tf.errors.OutofRangeError:
               print("end!")`

运行结果如下:
(array([2, 2, 0], dtype=int32), array([4, 0, 1], dtype=int32), array([0, 1, 3], dtype=int32))
(array([2, 0], dtype=int32), array([4, 1, 2], dtype=int32), array([1, 2, 3], dtype=int32))
(array([-1], dtype=int32), array([4], dtype=int32), array([3], dtype=int32))
(array([-1, -1, 0, -1], dtype=int32), array([4, 2, 2], dtype=int32), array([2, 2, 3], dtype=int32))

分析:

在这里插入图片描述

你可能感兴趣的:(深度学习)