Tensorflow学习笔记(七)-数据处理

1.目前我们理解,Tensorflow倾向以Dataset作为数据标准,其他数据格式转到Dataset作处理

2. 文件类型.npy .npz 为numpy读取存储数据常用文件。常用函数为load save

实例

 path = tf.keras.utils.get_file('mnist.npz', DATA_URL)

with np.load(path) as data:

train_examples = data['x_train']

train_labels = data['y_train']

test_examples = data['x_test']

test_labels = data['y_test']

3. numpy数据 转为 dataset

实例   train_dataset = tf.data.Dataset.from_tensor_slices((train_examples, train_labels))


4.pandas数据读取csv

   读取文件 pd.read_csv

 5.把字符对象转为数字值

   df['thal'] = pd.Categorical(df['thal'])

   df['thal'] = df.thal.cat.codes

6. 把某一列数据取出作为单独的数据片段 

    target = df.pop('target')

7. 用字典化的数据,方便做一些预处理  把特征数据作堆叠 作为“list”

inputs = {key: tf.keras.layers.Input(shape=(), name=key) for key in df.keys()}

x= tf.stack(list(inputs.values()), axis=-1)

8. 把字典化的数据 转为dataset

 dict_slices = tf.data.Dataset.from_tensor_slices((df.to_dict('list'), target.values)).batch(16)

你可能感兴趣的:(Tensorflow学习笔记(七)-数据处理)