在训练脚本中都添加一个 named argument. --output-dir 用来指定输出目录。

├── checkpoints/
│   ├── records.jsonl        (record file)
│   └── snapshot_iter_*.pdz  (checkpoint files)
├── config.yaml              (config file of this experiment)
├── vdlrecords.*.log         (visualdl record file)
├── worker_*.log             (text logging, one file per process)
├── validation/              (output dir during training, information_iter_*/ is the output of each step, if necessary)
├── inference/               (output dir of exported static graph model, which is only used in the final stage of training, if implemented)
└── test/                    (output dir of synthesis results)


  1. 多个实验最好保持大部分的一致性,比如文本 Log, visualdl log, config 备份,以及 checkpoints 文件夹结构,这些也有专门的训练组件提供支持,只要遵循这些规范就能使用这些组件带来的便利。
  2. 尽可能不丢失必要的信息,可以用来进行运行分析,也可以方便恢复训练,以及加载模型用于预测。
  3. 用户体验一致,运行每个实验的产出都有一定的规律,不需要额外的学习每个 example 的做法。
  4. 标准化实现,同时又留下可以自定义的空间。

