tensorflow初探八之加载数据-Tensorflow技术解析与实战学习

加载数据

TensorFlow 作为符号编程框架，需要先构建数据流图，再读取数据，随后进行模型训练。

预加载数据（preloaded data）：在 TensorFlow 图中定义常量或变量来保存所有数据。这种方式的缺点在于，将数据直接嵌在数据流图中，当训练数据较大时，很消耗内存。
填充数据（feeding）：使用 sess.run()中的 feed_dict 参数，将 Python 产生的数据填充给后端。Python 产生数据，再把数据填充后端。填充的方式也有数据量大、消耗内存等缺点。
从文件读取数据（reading from file）：从文件中直接读取，让队列管理器从文件中读取数据。这是最推荐的方式，让 TensorFlow 自己从文件中读取数据，并解码成可使用的样本集。

import tensorflow as tf
# 第二种方式：填充数据
a1 = tf.placeholder(tf.int16)
a2 = tf.placeholder(tf.int16)
b = tf.add(x1, x2)
# 用 Python 产生数据
li1 = [2, 3, 4]
li2 = [4, 0, 1]
# 打开一个会话，将数据填充给后端
with tf.Session() as sess:
  print sess.run(b, feed_dict={a1: li1, a2: li2})

TFRecords 是一种二进制文件，能更好地利用内存，更方便地复制和移动，并且不需要单独的标记文件。

从文件读取数据分为如下两个步骤：
（1）把样本数据写入 TFRecords 二进制文件；
（2）再从队列中读取。

把样本数据写入 TFRecords 二进制文件

将数据填入到 tf.train.Example 的协议缓冲区（protocolbuffer）中

 example=tf.train.Example(features=tf.train.Features(feature={
                    'height': _int64_feature(rows),
                    'width': _int64_feature(cols),
                    'depth': _int64_feature(depth),
                    'label': _int64_feature(int(labels[i].tolist)),
                    'image_raw': _bytes_feature(image_raw)
                }))

将协议缓冲区序列化为一个字符串，通过 tf.python_io.TFRecordWriter 写入 TFRecords文件

#定义一个writer
    filename=os.path.join(os.getcwd(),name+'.tfrecords')
    writer= tf.python_io.TFRecordWriter(filename)
......
#对于for i in range(num_example)中的每个example，写入文件
    writer.write(example.SerializerToString())

最后关闭writer

writer.close()

从队列中读取
一旦生成了 TFRecords 文件，接下来就可以使用队列读取数据了。主要分为 3 步：
（1）创建张量，从二进制文件读取一个样本；
（2）创建张量，从二进制文件随机读取一个 mini-batch；
（3）把每一批张量传入网络作为输入节点。

tensorflow初探八之加载数据-Tensorflow技术解析与实战学习

加载数据

你可能感兴趣的:(tensorflow初探八之加载数据-Tensorflow技术解析与实战学习)