(TensorFlow)——TFRecord使用方法总结

TFRecord
Tensorflow提供了TFRecord的格式来统一存储数据,TFRecord格式是一种将图像数据和标签放在一起的二进制文件,能更好的利用内存,在tensorflow中快速复制、移动、读取、存储等。
TFRecords文件包含了tf.train.Example 协议内存块(protocol buffer)(协议内存块包含了字段 Features)。我们可以写一段代码获取你的数据, 将数据填入到Example协议内存块(protocol buffer),将协议内存块序列化为一个字符串, 并且通过tf.python_io.TFRecordWriter 写入到TFRecords文件。
从TFRecords文件中读取数据, 可以使用tf.TFRecordReader的tf.parse_single_example解析器。这个操作可以将Example协议内存块(protocol buffer)解析为Tensor

网上已经有很多人写过这些博客,我是参考了下面这篇:
https://blog.csdn.net/chaipp0607/article/details/72960028

我就来说说TFRecord的不足吧:
1、数据转换为TFRecord格式后实在太大了,比如我使用的数据集是100000张图片,总大小为15GB,转换成TFRecord后,每5000张图片保存一个.tfrecords文件,最后每个文件的大小是8.8GB,一共8.8 × 20GB,占得地方实在太大了,我觉如如果数据集可以控制在50G以内还能接受…

官方对tfrecord文件大小的建议:
Reading large numbers of small files significantly impacts I/O performance. One approach to get maximum I/O throughput is to preprocess input data into larger (~100MB) TFRecord files

你可能感兴趣的:(tensorflow,深度学习)