Tensorflow 使用记录

  • tensorflow 架构
    • 张量(tensor): 任意维度的数据
    • 常量(constant): 用于存储一些 固定值
    • 变量(Variables): 主要用于存储可训练的变量,比如 模型参数,需要初始化时指定初值
    • 占位符(placeholder):主要用于存储可变的 输入输出,不需要指定初值,而且在初始化时可以不完全指定形状([None, 5]表示行不确定,即样本总数不确定)
    • 算子(operation): tensorflow图中的计算节点
    • 图(graph): 常量、变量、占位符以及算子构成一个完整的图流程
    • 会话(session): tensorflow中任何操作(算子op)都需要在会话下执行,前面定义好的常量、变量、占位符以及算子只是构建图的架构,图的数据流通需要会话来触发执行
    import tensorflow as tf
    with tf.Session() as sess:
        sess.run([op])
    
    tensorflow中各个组件的关系
  • tensorflow数据读取
    • 队列

      • 文件名队列

        • tf.train.string_input_producer(string_tensor=[filenames], num_epochs, shuffle, capacity=32)

        string_tensor([filenames]): 传入一个文件名列表
        num_epochs(None): 迭代次数,默认None表示无限循环
        shuffle: 是否打乱次序
        capacity: 队列大小
        eg : tf.train.string_input_producer(['a.txt','b.txt'])

      • 输入队列

        • tf.train.slice_input_producer(tensor_list, num_epochs, shuffle, capacity)

          1. 用于把输入的数据集(features & labels)进行分割读取
          2. 使用前需要将features和labels包装成tensorflow的tensor对象(tf.convert_to_tensor(input_data)
        import tensorflow as tf
        labels_tensor = tf.train.convert_to_tensor([labels])
        features_tensor = tf.train.convert_to_tensor([features])
        queue = tf.slice_input_producer([labels_tensor, features_tensor])
        
      • 批次处理( batch )

        • tf.train.batch(tensors, batch_size, num_thread=1, capacity)

        将传入的tensor对象进行存储,累计到一定数量后再集中输出,相当于缓存区

      • 执行

      with tf.Session() as sess:
          # 如有设置num_epochs则需要先初始化变量
          tf.local_variables_initializer().run()
          # 执行队列填充
          coord = tf.train.Coordinator()
          threads = tf.train.start_queue_runners(sess=sess, coord=coord)
      
      • 例子
        用文件队列同步读取label和图片数据(数据量大)
        def image_label_data(labels=[],image_filenames=[],num_epochs=1, capacity=100):
                path = tf.convert_to_tensor(image_filenames, dtype=tf.string)
                label = tf.convert_to_tensor(labels, dtype=tf.float32)
                queue = tf.train.slice_input_producer([path, label], capacity=capacity, num_epochs=num_epochs)
                return queue
      
            if __name__ == '__main__':
                queue = image_label_data(labels, image_filenames)
                reader = tf.read_file(queues[0][0])
                image = tf.image.decode_jpeg(reader)
                label = queues[0][1]
                image_batch, label_batch = tf.train.batch([image, label], batch_size=100, capacity=100, num_threads=1)
      
                with tf.Session() as sess:
                    tf.local_variables_initializer().run()
                    coord = tf.train.Coordinator()
                    threads = tf.train.start_queue_runners(sess=sess, coord=coord)
                    # 同步读取batch中的label和图片(必须)
                    try:
                      while not coord.should_stop():
                        image, label = sess.run([image_batch, label_batch])
                    catch tf.error.OutOfRangeError:
                      coord.request_stop()
                    finally:
                      coord.join(thread)
      
      

你可能感兴趣的:(Tensorflow 使用记录)