M4Singer Ubuntu 4060ti16G 笔记

显卡

(venv3712) (python3.7.12) yeqiang@yeqiang-Default-string:~/Downloads/ai/M4Singer/code$ nvidia-smi 
Mon Oct  9 12:09:50 2023       
+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 535.113.01             Driver Version: 535.113.01   CUDA Version: 12.2     |
|-----------------------------------------+----------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |         Memory-Usage | GPU-Util  Compute M. |
|                                         |                      |               MIG M. |
|=========================================+======================+======================|
|   0  NVIDIA GeForce RTX 4060 Ti     Off | 00000000:01:00.0 Off |                  N/A |
|  0%   48C    P8              13W / 165W |    190MiB / 16380MiB |      0%      Default |
|                                         |                      |                  N/A |
+-----------------------------------------+----------------------+----------------------+
                                                                                         
+---------------------------------------------------------------------------------------+
| Processes:                                                                            |
|  GPU   GI   CI        PID   Type   Process name                            GPU Memory |
|        ID   ID                                                             Usage      |
|=======================================================================================|
|    0   N/A  N/A     16459      G   /usr/lib/xorg/Xorg                          140MiB |
|    0   N/A  N/A     16608      G   /usr/bin/gnome-shell                         42MiB |
+---------------------------------------------------------------------------------------+
 

CPU

(venv3712) (python3.7.12) yeqiang@yeqiang-Default-string:~/Downloads/ai/M4Singer/code$ lscpu
架构:                  x86_64
  CPU 运行模式:        32-bit, 64-bit
  Address sizes:        39 bits physical, 48 bits virtual
  字节序:              Little Endian
CPU:                    16
  在线 CPU 列表:       0-15
厂商 ID:               GenuineIntel
  型号名称:            13th Gen Intel(R) Core(TM) i5-13400F
    CPU 系列:          6
    型号:              191
    每个核的线程数:    2
    每个座的核数:      10
    座:                1
    步进:              2
    CPU 最大 MHz:      4600.0000
    CPU 最小 MHz:      800.0000
    BogoMIPS:          4992.00
    标记:              fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush dts acpi mmx fxsr sse sse2 ss ht tm pbe syscall nx pdpe1gb rdtscp
                         lm constant_tsc art arch_perfmon pebs bts rep_good nopl xtopology nonstop_tsc cpuid aperfmperf tsc_known_freq pni pclmulqdq dtes64 monitor ds_cp
                        l est tm2 ssse3 sdbg fma cx16 xtpr pdcm sse4_1 sse4_2 x2apic movbe popcnt tsc_deadline_timer aes xsave avx f16c rdrand lahf_lm abm 3dnowprefetch 
                        cpuid_fault epb ssbd ibrs ibpb stibp ibrs_enhanced fsgsbase tsc_adjust bmi1 avx2 smep bmi2 erms invpcid rdseed adx smap clflushopt clwb intel_pt 
                        sha_ni xsaveopt xsavec xgetbv1 xsaves split_lock_detect avx_vnni dtherm ida arat pln pts hwp hwp_notify hwp_act_window hwp_epp hwp_pkg_req hfi um
                        ip pku ospke waitpkg gfni vaes vpclmulqdq rdpid movdiri movdir64b fsrm md_clear serialize arch_lbr ibt flush_l1d arch_capabilities
Caches (sum of all):    
  L1d:                  416 KiB (10 instances)
  L1i:                  448 KiB (10 instances)
  L2:                   9.5 MiB (7 instances)
  L3:                   20 MiB (1 instance)
NUMA:                   
  NUMA 节点:           1
  NUMA 节点0 CPU:      0-15
Vulnerabilities:        
  Gather data sampling: Not affected
  Itlb multihit:        Not affected
  L1tf:                 Not affected
  Mds:                  Not affected
  Meltdown:             Not affected
  Mmio stale data:      Not affected
  Retbleed:             Not affected
  Spec rstack overflow: Not affected
  Spec store bypass:    Mitigation; Speculative Store Bypass disabled via prctl
  Spectre v1:           Mitigation; usercopy/swapgs barriers and __user pointer sanitization
  Spectre v2:           Mitigation; Enhanced / Automatic IBRS, IBPB conditional, RSB filling, PBRSB-eIBRS SW sequence
  Srbds:                Not affected
  Tsx async abort:      Not affected
 

(venv3712) (python3.7.12) yeqiang@yeqiang-Default-string:~/Downloads/ai/M4Singer/code$ bash 1.binarize.sh 
| Hparams chains:  ['configs/config_base.yaml', 'configs/tts/base.yaml', 'configs/tts/fs2.yaml', 'configs/tts/base_zh.yaml', 'configs/singing/base.yaml', 'usr/configs/base.yaml', 'usr/configs/popcs_ds_beta6.yaml', 'usr/configs/m4singer/base.yaml']
| Hparams: 
K_step: 51, accumulate_grad_batches: 1, audio_num_mel_bins: 80, audio_sample_rate: 24000, base_config: ['usr/configs/popcs_ds_beta6.yaml'], 
binarization_args: {'shuffle': False, 'with_txt': True, 'with_wav': False, 'with_align': True, 'with_spk_embed': True, 'with_f0': True, 'with_f0cwt': True}, binarizer_cls: data_gen.singing.binarize.M4SingerBinarizer, binary_data_dir: data/binary/m4singer, check_val_every_n_epoch: 10, clip_grad_norm: 1, 
content_cond_steps: [], cwt_add_f0_loss: False, cwt_hidden_size: 128, cwt_layers: 2, cwt_loss: l1, 
cwt_std_scale: 0.8, datasets: ['m4singer'], debug: False, dec_ffn_kernel_size: 9, dec_layers: 4, 
decay_steps: 50000, decoder_type: fft, dict_dir: , diff_decoder_type: wavenet, diff_loss_type: l1, 
dilation_cycle_length: 1, dropout: 0.1, ds_workers: 4, dur_enc_hidden_stride_kernel: ['0,2,3', '0,2,3', '0,1,3'], dur_loss: mse, 
dur_predictor_kernel: 3, dur_predictor_layers: 5, enc_ffn_kernel_size: 9, enc_layers: 4, encoder_K: 8, 
encoder_type: fft, endless_ds: True, ffn_act: gelu, ffn_padding: SAME, fft_size: 512, 
fmax: 12000, fmin: 30, fs2_ckpt: , gen_dir_name: , gen_tgt_spk_id: -1, 
hidden_size: 256, hop_size: 128, infer: False, keep_bins: 80, lambda_commit: 0.25, 
lambda_energy: 0.0, lambda_f0: 1.0, lambda_ph_dur: 1.0, lambda_sent_dur: 1.0, lambda_uv: 1.0, 
lambda_word_dur: 1.0, load_ckpt: , log_interval: 100, loud_norm: False, lr: 0.001, 
max_beta: 0.06, max_epochs: 1000, max_eval_sentences: 1, max_eval_tokens: 60000, max_frames: 5000, 
max_input_tokens: 1550, max_sentences: 12, max_tokens: 40000, max_updates: 160000, mel_loss: ssim:0.5|l1:0.5, 
mel_vmax: 1.5, mel_vmin: -6.0, min_level_db: -120, norm_type: gn, num_ckpt_keep: 3, 
num_heads: 2, num_sanity_val_steps: 1, num_spk: 20, num_test_samples: 0, num_valid_plots: 10, 
optimizer_adam_beta1: 0.9, optimizer_adam_beta2: 0.98, out_wav_norm: False, pe_ckpt: checkpoints/m4singer_pe, pe_enable: True, 
pitch_ar: False, pitch_enc_hidden_stride_kernel: ['0,2,5', '0,2,5', '0,2,5'], pitch_extractor: parselmouth, pitch_loss: l1, pitch_norm: log, 
pitch_type: frame, pre_align_args: {'use_tone': False, 'forced_align': 'mfa', 'use_sox': True, 'txt_processor': 'zh_g2pM', 'allow_no_txt': False, 'denoise': False}, pre_align_cls: data_gen.singing.pre_align.SingingPreAlign, predictor_dropout: 0.5, predictor_grad: 0.1, 
predictor_hidden: -1, predictor_kernel: 5, predictor_layers: 5, prenet_dropout: 0.5, prenet_hidden_size: 256, 
pretrain_fs_ckpt: , processed_data_dir: xxx, profile_infer: False, raw_data_dir: data/raw/m4singer, ref_norm_layer: bn, 
rel_pos: True, reset_phone_dict: True, residual_channels: 256, residual_layers: 20, save_best: False, 
save_ckpt: True, save_codes: ['configs', 'modules', 'tasks', 'utils', 'usr'], save_f0: True, save_gt: True, schedule_type: linear, 
seed: 1234, sort_by_len: True, spec_max: [-0.3894500136375427, -0.3796464204788208, -0.2914905250072479, -0.15550297498703003, -0.08502643555402756, 0.10698417574167252, -0.0739326998591423, -0.0541548952460289, 0.15501998364925385, 0.06483431905508041, 0.03054228238761425, -0.013737732544541359, -0.004876468330621719, 0.04368264228105545, 0.13329921662807465, 0.16471388936042786, 0.04605761915445328, -0.05680707097053528, 0.0542571023106575, -0.0076539707370102406, -0.00953489076346159, -0.04434828832745552, 0.001293870504014194, -0.12238839268684387, 0.06418416649103165, 0.02843189612030983, 0.08505241572856903, 0.07062800228595734, 0.00120724702719599, -0.07675088942050934, 0.03785804659128189, 0.04890783503651619, -0.06888376921415329, -0.0839693546295166, -0.17545585334300995, -0.2911079525947571, -0.4238220453262329, -0.262084037065506, -0.3002263605594635, -0.3845032751560211, -0.3906497061252594, -0.6550108790397644, -0.7810799479484558, -0.7503029704093933, -0.7995198965072632, -0.8092347383499146, -0.6196113228797913, -0.6684317588806152, -0.7735874056816101, -0.8324533104896545, -0.9601566791534424, -0.955253541469574, -0.748817503452301, -0.9106167554855347, -0.9707801342010498, -1.053107500076294, -1.0448424816131592, -1.1082794666290283, -1.1296544075012207, -1.071642279624939, -1.1003081798553467, -1.166810154914856, -1.1408926248550415, -1.1330615282058716, -1.1167492866516113, -1.0716774463653564, -1.035891056060791, -1.0092483758926392, -0.9675999879837036, -0.938962996006012, -1.0120564699172974, -0.9777995347976685, -1.029313564300537, -0.9459163546562195, -0.8519706130027771, -0.7751091122627258, -0.7933766841888428, -0.9019735455513, -0.9983296990394592, -1.505873441696167], spec_min: [-6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0], spk_cond_steps: [], 
stop_token_weight: 5.0, task_cls: usr.diffsinger_task.DiffSingerTask, test_ids: [], test_input_dir: , test_num: 0, 
test_prefixes: ['Alto-2#岁月神偷', 'Alto-2#奇妙能力歌', 'Tenor-1#一千年以后', 'Tenor-1#童话', 'Tenor-2#消愁', 'Tenor-2#一荤一素', 'Soprano-1#念奴娇赤壁怀古', 'Soprano-1#问春'], test_set_name: test, timesteps: 100, train_set_name: train, use_denoise: False, 
use_energy_embed: False, use_gt_dur: False, use_gt_f0: False, use_midi: True, use_nsf: True, 
use_pitch_embed: True, use_pos_embed: True, use_spk_embed: False, use_spk_id: True, use_split_spk_id: False, 
use_uv: True, use_var_enc: False, val_check_interval: 2000, valid_num: 0, valid_set_name: valid, 
validate: False, vocoder: vocoders.hifigan.HifiGAN, vocoder_ckpt: checkpoints/m4singer_hifigan, warmup_updates: 2000, wav2spec_eps: 1e-6, 
weight_decay: 0, win_size: 512, work_dir: , 
| Binarizer:  
spkers:  {'Alto-5', 'Bass-2', 'Alto-4', 'Soprano-3', 'Alto-3', 'Tenor-5', 'Tenor-4', 'Alto-1', 'Alto-6', 'Soprano-2', 'Tenor-6', 'Tenor-3', 'Alto-2', 'Soprano-1', 'Tenor-7', 'Bass-1', 'Alto-7', 'Bass-3', 'Tenor-1', 'Tenor-2'}
| spk_map:  {'Alto-1': 0, 'Alto-2': 1, 'Alto-3': 2, 'Alto-4': 3, 'Alto-5': 4, 'Alto-6': 5, 'Alto-7': 6, 'Bass-1': 7, 'Bass-2': 8, 'Bass-3': 9, 'Soprano-1': 10, 'Soprano-2': 11, 'Soprano-3': 12, 'Tenor-1': 13, 'Tenor-2': 14, 'Tenor-3': 15, 'Tenor-4': 16, 'Tenor-5': 17, 'Tenor-6': 18, 'Tenor-7': 19}
| Build phone set:  ['', '', 'a', 'ai', 'an', 'ang', 'ao', 'b', 'c', 'ch', 'd', 'e', 'ei', 'en', 'eng', 'er', 'f', 'g', 'h', 'i', 'ia', 'ian', 'iang', 'iao', 'ie', 'in', 'ing', 'iong', 'iou', 'j', 'k', 'l', 'm', 'n', 'o', 'ong', 'ou', 'p', 'q', 'r', 's', 'sh', 't', 'u', 'ua', 'uai', 'uan', 'uang', 'uei', 'uen', 'uo', 'v', 'van', 've', 'vn', 'x', 'z', 'zh']
Loaded the voice encoder model on cuda in 0.78 seconds.
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 217/217 [00:16<00:00, 13.46it/s]
| valid total duration: 1254.837s
Loaded the voice encoder model on cuda in 0.01 seconds.
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 217/217 [00:15<00:00, 13.63it/s]
| test total duration: 1254.837s
Loaded the voice encoder model on cuda in 0.01 seconds.
 41%|████████████████████████████████████████████████████▏                                                                          | 8500/20679 [06:56<08:36, 23.56it/s]| Skip item (Empty **gt** f0). item_name: Bass-1#父亲写的散文诗#0013, wav_fn: data/raw/m4singer/Bass-1#父亲写的散文诗/0013.wav
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 20679/20679 [16:46<00:00, 20.55it/s]
| train total duration: 105705.472s
 

(venv3712) (python3.7.12) yeqiang@yeqiang-Default-string:~/Downloads/ai/M4Singer/code$ bash 2.1.reset-m4singer_fs2_e2e.sh 
| Hparams chains:  ['configs/config_base.yaml', 'configs/tts/base.yaml', 'configs/tts/fs2.yaml', 'configs/tts/base_zh.yaml', 'configs/singing/base.yaml', 'configs/singing/fs2.yaml', 'usr/configs/base.yaml', 'usr/configs/popcs_ds_beta6.yaml', 'usr/configs/m4singer/base.yaml', 'usr/configs/m4singer/fs2.yaml']
| Hparams: 
K_step: 51, accumulate_grad_batches: 1, audio_num_mel_bins: 80, audio_sample_rate: 24000, base_config: ['configs/singing/fs2.yaml', 'usr/configs/m4singer/base.yaml'], 
binarization_args: {'shuffle': False, 'with_txt': True, 'with_wav': False, 'with_align': True, 'with_spk_embed': True, 'with_f0': True, 'with_f0cwt': True}, binarizer_cls: data_gen.singing.binarize.M4SingerBinarizer, binary_data_dir: data/binary/m4singer, check_val_every_n_epoch: 10, clip_grad_norm: 1, 
content_cond_steps: [], cwt_add_f0_loss: False, cwt_hidden_size: 128, cwt_layers: 2, cwt_loss: l1, 
cwt_std_scale: 0.8, datasets: ['m4singer'], debug: False, dec_ffn_kernel_size: 9, dec_layers: 4, 
decay_steps: 50000, decoder_type: fft, dict_dir: , diff_decoder_type: wavenet, diff_loss_type: l1, 
dilation_cycle_length: 1, dropout: 0.1, ds_workers: 4, dur_enc_hidden_stride_kernel: ['0,2,3', '0,2,3', '0,1,3'], dur_loss: mse, 
dur_predictor_kernel: 3, dur_predictor_layers: 5, enc_ffn_kernel_size: 9, enc_layers: 4, encoder_K: 8, 
encoder_type: fft, endless_ds: True, ffn_act: gelu, ffn_padding: SAME, fft_size: 512, 
fmax: 12000, fmin: 30, fs2_ckpt: , gen_dir_name: , gen_tgt_spk_id: -1, 
hidden_size: 256, hop_size: 128, infer: False, keep_bins: 80, lambda_commit: 0.25, 
lambda_energy: 0.0, lambda_f0: 1.0, lambda_ph_dur: 1.0, lambda_sent_dur: 1.0, lambda_uv: 1.0, 
lambda_word_dur: 1.0, load_ckpt: , log_interval: 100, loud_norm: False, lr: 1, 
max_beta: 0.06, max_epochs: 1000, max_eval_sentences: 1, max_eval_tokens: 60000, max_frames: 5000, 
max_input_tokens: 1550, max_sentences: 12, max_tokens: 40000, max_updates: 320000, mel_loss: ssim:0.5|l1:0.5, 
mel_vmax: 1.5, mel_vmin: -6.0, min_level_db: -120, norm_type: gn, num_ckpt_keep: 3, 
num_heads: 2, num_sanity_val_steps: 1, num_spk: 20, num_test_samples: 0, num_valid_plots: 10, 
optimizer_adam_beta1: 0.9, optimizer_adam_beta2: 0.98, out_wav_norm: False, pe_ckpt: checkpoints/m4singer_pe, pe_enable: True, 
pitch_ar: False, pitch_enc_hidden_stride_kernel: ['0,2,5', '0,2,5', '0,2,5'], pitch_extractor: parselmouth, pitch_loss: l1, pitch_norm: log, 
pitch_type: frame, pre_align_args: {'use_tone': False, 'forced_align': 'mfa', 'use_sox': True, 'txt_processor': 'zh_g2pM', 'allow_no_txt': False, 'denoise': False}, pre_align_cls: data_gen.singing.pre_align.SingingPreAlign, predictor_dropout: 0.5, predictor_grad: 0.1, 
predictor_hidden: -1, predictor_kernel: 5, predictor_layers: 5, prenet_dropout: 0.5, prenet_hidden_size: 256, 
pretrain_fs_ckpt: , processed_data_dir: xxx, profile_infer: False, raw_data_dir: data/raw/m4singer, ref_norm_layer: bn, 
rel_pos: True, reset_phone_dict: True, residual_channels: 256, residual_layers: 20, save_best: False, 
save_ckpt: True, save_codes: ['configs', 'modules', 'tasks', 'utils', 'usr'], save_f0: True, save_gt: True, schedule_type: linear, 
seed: 1234, sort_by_len: True, spec_max: [-0.3894500136375427, -0.3796464204788208, -0.2914905250072479, -0.15550297498703003, -0.08502643555402756, 0.10698417574167252, -0.0739326998591423, -0.0541548952460289, 0.15501998364925385, 0.06483431905508041, 0.03054228238761425, -0.013737732544541359, -0.004876468330621719, 0.04368264228105545, 0.13329921662807465, 0.16471388936042786, 0.04605761915445328, -0.05680707097053528, 0.0542571023106575, -0.0076539707370102406, -0.00953489076346159, -0.04434828832745552, 0.001293870504014194, -0.12238839268684387, 0.06418416649103165, 0.02843189612030983, 0.08505241572856903, 0.07062800228595734, 0.00120724702719599, -0.07675088942050934, 0.03785804659128189, 0.04890783503651619, -0.06888376921415329, -0.0839693546295166, -0.17545585334300995, -0.2911079525947571, -0.4238220453262329, -0.262084037065506, -0.3002263605594635, -0.3845032751560211, -0.3906497061252594, -0.6550108790397644, -0.7810799479484558, -0.7503029704093933, -0.7995198965072632, -0.8092347383499146, -0.6196113228797913, -0.6684317588806152, -0.7735874056816101, -0.8324533104896545, -0.9601566791534424, -0.955253541469574, -0.748817503452301, -0.9106167554855347, -0.9707801342010498, -1.053107500076294, -1.0448424816131592, -1.1082794666290283, -1.1296544075012207, -1.071642279624939, -1.1003081798553467, -1.166810154914856, -1.1408926248550415, -1.1330615282058716, -1.1167492866516113, -1.0716774463653564, -1.035891056060791, -1.0092483758926392, -0.9675999879837036, -0.938962996006012, -1.0120564699172974, -0.9777995347976685, -1.029313564300537, -0.9459163546562195, -0.8519706130027771, -0.7751091122627258, -0.7933766841888428, -0.9019735455513, -0.9983296990394592, -1.505873441696167], spec_min: [-6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0], spk_cond_steps: [], 
stop_token_weight: 5.0, task_cls: usr.diffsinger_task.AuxDecoderMIDITask, test_ids: [], test_input_dir: , test_num: 0, 
test_prefixes: ['Alto-2#岁月神偷', 'Alto-2#奇妙能力歌', 'Tenor-1#一千年以后', 'Tenor-1#童话', 'Tenor-2#消愁', 'Tenor-2#一荤一素', 'Soprano-1#念奴娇赤壁怀古', 'Soprano-1#问春'], test_set_name: test, timesteps: 100, train_set_name: train, use_denoise: False, 
use_energy_embed: False, use_gt_dur: False, use_gt_f0: False, use_midi: True, use_nsf: True, 
use_pitch_embed: False, use_pos_embed: True, use_spk_embed: False, use_spk_id: True, use_split_spk_id: False, 
use_uv: True, use_var_enc: False, val_check_interval: 2000, valid_num: 0, valid_set_name: valid, 
validate: False, vocoder: vocoders.hifigan.HifiGAN, vocoder_ckpt: checkpoints/m4singer_hifigan, warmup_updates: 2000, wav2spec_eps: 1e-6, 
weight_decay: 0, win_size: 512, work_dir: checkpoints/m4singer_fs2_e2e, 
| Mel losses: {'ssim': 0.5, 'l1': 0.5}
10/09 12:10:41 PM gpu available: True, used: True
| Copied codes to checkpoints/m4singer_fs2_e2e/codes/20231009121041.
| model Arch:  FastSpeech2MIDI(
  (encoder_embed_tokens): Embedding(61, 256, padding_idx=0)
  (decoder): FastspeechDecoder(
    (embed_positions): SinusoidalPositionalEmbedding()
    (layers): ModuleList(
      (0): TransformerEncoderLayer(
        (op): EncSALayer(
          (layer_norm1): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
          (self_attn): MultiheadAttention(
            (out_proj): Linear(in_features=256, out_features=256, bias=False)
          )
          (layer_norm2): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
          (ffn): TransformerFFNLayer(
            (ffn_1): Conv1d(256, 1024, kernel_size=(9,), stride=(1,), padding=(4,))
            (ffn_2): Linear(in_features=1024, out_features=256, bias=True)
          )
        )
      )
      (1): TransformerEncoderLayer(
        (op): EncSALayer(
          (layer_norm1): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
          (self_attn): MultiheadAttention(
            (out_proj): Linear(in_features=256, out_features=256, bias=False)
          )
          (layer_norm2): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
          (ffn): TransformerFFNLayer(
            (ffn_1): Conv1d(256, 1024, kernel_size=(9,), stride=(1,), padding=(4,))
            (ffn_2): Linear(in_features=1024, out_features=256, bias=True)
          )
        )
      )
      (2): TransformerEncoderLayer(
        (op): EncSALayer(
          (layer_norm1): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
          (self_attn): MultiheadAttention(
            (out_proj): Linear(in_features=256, out_features=256, bias=False)
          )
          (layer_norm2): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
          (ffn): TransformerFFNLayer(
            (ffn_1): Conv1d(256, 1024, kernel_size=(9,), stride=(1,), padding=(4,))
            (ffn_2): Linear(in_features=1024, out_features=256, bias=True)
          )
        )
      )
      (3): TransformerEncoderLayer(
        (op): EncSALayer(
          (layer_norm1): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
          (self_attn): MultiheadAttention(
            (out_proj): Linear(in_features=256, out_features=256, bias=False)
          )
          (layer_norm2): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
          (ffn): TransformerFFNLayer(
            (ffn_1): Conv1d(256, 1024, kernel_size=(9,), stride=(1,), padding=(4,))
            (ffn_2): Linear(in_features=1024, out_features=256, bias=True)
          )
        )
      )
    )
    (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
  )
  (mel_out): Linear(in_features=256, out_features=80, bias=True)
  (spk_embed_proj): Embedding(21, 256)
  (dur_predictor): DurationPredictor(
    (conv): ModuleList(
      (0): Sequential(
        (0): ConstantPad1d(padding=(1, 1), value=0)
        (1): Conv1d(256, 256, kernel_size=(3,), stride=(1,))
        (2): ReLU()
        (3): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
        (4): Dropout(p=0.5, inplace=False)
      )
      (1): Sequential(
        (0): ConstantPad1d(padding=(1, 1), value=0)
        (1): Conv1d(256, 256, kernel_size=(3,), stride=(1,))
        (2): ReLU()
        (3): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
        (4): Dropout(p=0.5, inplace=False)
      )
      (2): Sequential(
        (0): ConstantPad1d(padding=(1, 1), value=0)
        (1): Conv1d(256, 256, kernel_size=(3,), stride=(1,))
        (2): ReLU()
        (3): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
        (4): Dropout(p=0.5, inplace=False)
      )
      (3): Sequential(
        (0): ConstantPad1d(padding=(1, 1), value=0)
        (1): Conv1d(256, 256, kernel_size=(3,), stride=(1,))
        (2): ReLU()
        (3): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
        (4): Dropout(p=0.5, inplace=False)
      )
      (4): Sequential(
        (0): ConstantPad1d(padding=(1, 1), value=0)
        (1): Conv1d(256, 256, kernel_size=(3,), stride=(1,))
        (2): ReLU()
        (3): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
        (4): Dropout(p=0.5, inplace=False)
      )
    )
    (linear): Linear(in_features=256, out_features=1, bias=True)
  )
  (length_regulator): LengthRegulator()
  (encoder): FastspeechMIDIEncoder(
    (layers): ModuleList(
      (0): TransformerEncoderLayer(
        (op): EncSALayer(
          (layer_norm1): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
          (self_attn): MultiheadAttention(
            (out_proj): Linear(in_features=256, out_features=256, bias=False)
          )
          (layer_norm2): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
          (ffn): TransformerFFNLayer(
            (ffn_1): Conv1d(256, 1024, kernel_size=(9,), stride=(1,), padding=(4,))
            (ffn_2): Linear(in_features=1024, out_features=256, bias=True)
          )
        )
      )
      (1): TransformerEncoderLayer(
        (op): EncSALayer(
          (layer_norm1): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
          (self_attn): MultiheadAttention(
            (out_proj): Linear(in_features=256, out_features=256, bias=False)
          )
          (layer_norm2): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
          (ffn): TransformerFFNLayer(
            (ffn_1): Conv1d(256, 1024, kernel_size=(9,), stride=(1,), padding=(4,))
            (ffn_2): Linear(in_features=1024, out_features=256, bias=True)
          )
        )
      )
      (2): TransformerEncoderLayer(
        (op): EncSALayer(
          (layer_norm1): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
          (self_attn): MultiheadAttention(
            (out_proj): Linear(in_features=256, out_features=256, bias=False)
          )
          (layer_norm2): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
          (ffn): TransformerFFNLayer(
            (ffn_1): Conv1d(256, 1024, kernel_size=(9,), stride=(1,), padding=(4,))
            (ffn_2): Linear(in_features=1024, out_features=256, bias=True)
          )
        )
      )
      (3): TransformerEncoderLayer(
        (op): EncSALayer(
          (layer_norm1): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
          (self_attn): MultiheadAttention(
            (out_proj): Linear(in_features=256, out_features=256, bias=False)
          )
          (layer_norm2): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
          (ffn): TransformerFFNLayer(
            (ffn_1): Conv1d(256, 1024, kernel_size=(9,), stride=(1,), padding=(4,))
            (ffn_2): Linear(in_features=1024, out_features=256, bias=True)
          )
        )
      )
    )
    (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
    (embed_tokens): Embedding(61, 256, padding_idx=0)
    (embed_positions): RelPositionalEncoding(
      (dropout): Dropout(p=0.0, inplace=False)
    )
  )
  (midi_embed): Embedding(300, 256, padding_idx=0)
  (midi_dur_layer): Linear(in_features=1, out_features=256, bias=True)
  (is_slur_embed): Embedding(2, 256)
)
| model Trainable Parameters: 24.195M
10/09 12:10:42 PM model and trainer restored from checkpoint: checkpoints/m4singer_fs2_e2e/model_ckpt_steps_320000.ckpt
Validation sanity check:   0%|                                                                                                                  | 0/1 [00:00 ==============
 valid results: {'total_loss': 0.5226, 'ssim': 0.2665, 'l1': 0.2351, 'pdur': 0.0188, 'wdur': 0.002, 'sdur': 0.0002}
==============

Epoch 1: : 1batch [00:00,  4.06batch/s, batch_size=12, l1=0.102, lr=0.00011, pdur=0.0135, sdur=0.00271, ssim=0.171, step=320000, wdur=0.00648]| Training end..           
Epoch 1: : 1batch [00:00,  3.18batch/s, batch_size=12, l1=0.102, lr=0.00011, pdur=0.0135, sdur=0.00271, ssim=0.171, step=320000, wdur=0.00648]
 

(venv3712) (python3.7.12) yeqiang@yeqiang-Default-string:~/Downloads/ai/M4Singer/code$ bash 2.2.reset-m4singer_diff_e2e.sh 
| Hparams chains:  ['configs/config_base.yaml', 'configs/tts/base.yaml', 'configs/tts/fs2.yaml', 'configs/tts/base_zh.yaml', 'configs/singing/base.yaml', 'usr/configs/base.yaml', 'usr/configs/popcs_ds_beta6.yaml', 'usr/configs/m4singer/base.yaml', 'usr/configs/m4singer/diff.yaml']
| Hparams: 
K_step: 1000, accumulate_grad_batches: 1, audio_num_mel_bins: 80, audio_sample_rate: 24000, base_config: ['usr/configs/m4singer/base.yaml'], 
binarization_args: {'shuffle': False, 'with_txt': True, 'with_wav': False, 'with_align': True, 'with_spk_embed': True, 'with_f0': True, 'with_f0cwt': True}, binarizer_cls: data_gen.singing.binarize.M4SingerBinarizer, binary_data_dir: data/binary/m4singer, check_val_every_n_epoch: 10, clip_grad_norm: 1, 
content_cond_steps: [], cwt_add_f0_loss: False, cwt_hidden_size: 128, cwt_layers: 2, cwt_loss: l1, 
cwt_std_scale: 0.8, datasets: ['m4singer'], debug: False, dec_ffn_kernel_size: 9, dec_layers: 4, 
decay_steps: 100000, decoder_type: fft, dict_dir: , diff_decoder_type: wavenet, diff_loss_type: l1, 
dilation_cycle_length: 4, dropout: 0.1, ds_workers: 4, dur_enc_hidden_stride_kernel: ['0,2,3', '0,2,3', '0,1,3'], dur_loss: mse, 
dur_predictor_kernel: 3, dur_predictor_layers: 5, enc_ffn_kernel_size: 9, enc_layers: 4, encoder_K: 8, 
encoder_type: fft, endless_ds: True, ffn_act: gelu, ffn_padding: SAME, fft_size: 512, 
fmax: 12000, fmin: 30, fs2_ckpt: checkpoints/m4singer_fs2_e2e, gaussian_start: True, gen_dir_name: , 
gen_tgt_spk_id: -1, hidden_size: 256, hop_size: 128, infer: False, keep_bins: 80, 
lambda_commit: 0.25, lambda_energy: 0.0, lambda_f0: 0.0, lambda_ph_dur: 1.0, lambda_sent_dur: 1.0, 
lambda_uv: 0.0, lambda_word_dur: 1.0, load_ckpt: , log_interval: 100, loud_norm: False, 
lr: 0.001, max_beta: 0.02, max_epochs: 1000, max_eval_sentences: 1, max_eval_tokens: 60000, 
max_frames: 5000, max_input_tokens: 1550, max_sentences: 28, max_tokens: 36000, max_updates: 900000, 
mel_loss: ssim:0.5|l1:0.5, mel_vmax: 1.5, mel_vmin: -6.0, min_level_db: -120, norm_type: gn, 
num_ckpt_keep: 3, num_heads: 2, num_sanity_val_steps: 1, num_spk: 20, num_test_samples: 0, 
num_valid_plots: 10, optimizer_adam_beta1: 0.9, optimizer_adam_beta2: 0.98, out_wav_norm: False, pe_ckpt: checkpoints/m4singer_pe, 
pe_enable: True, pitch_ar: False, pitch_enc_hidden_stride_kernel: ['0,2,5', '0,2,5', '0,2,5'], pitch_extractor: parselmouth, pitch_loss: l1, 
pitch_norm: log, pitch_type: frame, pndm_speedup: 5, pre_align_args: {'use_tone': False, 'forced_align': 'mfa', 'use_sox': True, 'txt_processor': 'zh_g2pM', 'allow_no_txt': False, 'denoise': False}, pre_align_cls: data_gen.singing.pre_align.SingingPreAlign, 
predictor_dropout: 0.5, predictor_grad: 0.1, predictor_hidden: -1, predictor_kernel: 5, predictor_layers: 5, 
prenet_dropout: 0.5, prenet_hidden_size: 256, pretrain_fs_ckpt: , processed_data_dir: xxx, profile_infer: False, 
raw_data_dir: data/raw/m4singer, ref_norm_layer: bn, rel_pos: True, reset_phone_dict: True, residual_channels: 256, 
residual_layers: 20, save_best: False, save_ckpt: True, save_codes: ['configs', 'modules', 'tasks', 'utils', 'usr'], save_f0: True, 
save_gt: True, schedule_type: linear, seed: 1234, sort_by_len: True, spec_max: [-0.3894500136375427, -0.3796464204788208, -0.2914905250072479, -0.15550297498703003, -0.08502643555402756, 0.10698417574167252, -0.0739326998591423, -0.0541548952460289, 0.15501998364925385, 0.06483431905508041, 0.03054228238761425, -0.013737732544541359, -0.004876468330621719, 0.04368264228105545, 0.13329921662807465, 0.16471388936042786, 0.04605761915445328, -0.05680707097053528, 0.0542571023106575, -0.0076539707370102406, -0.00953489076346159, -0.04434828832745552, 0.001293870504014194, -0.12238839268684387, 0.06418416649103165, 0.02843189612030983, 0.08505241572856903, 0.07062800228595734, 0.00120724702719599, -0.07675088942050934, 0.03785804659128189, 0.04890783503651619, -0.06888376921415329, -0.0839693546295166, -0.17545585334300995, -0.2911079525947571, -0.4238220453262329, -0.262084037065506, -0.3002263605594635, -0.3845032751560211, -0.3906497061252594, -0.6550108790397644, -0.7810799479484558, -0.7503029704093933, -0.7995198965072632, -0.8092347383499146, -0.6196113228797913, -0.6684317588806152, -0.7735874056816101, -0.8324533104896545, -0.9601566791534424, -0.955253541469574, -0.748817503452301, -0.9106167554855347, -0.9707801342010498, -1.053107500076294, -1.0448424816131592, -1.1082794666290283, -1.1296544075012207, -1.071642279624939, -1.1003081798553467, -1.166810154914856, -1.1408926248550415, -1.1330615282058716, -1.1167492866516113, -1.0716774463653564, -1.035891056060791, -1.0092483758926392, -0.9675999879837036, -0.938962996006012, -1.0120564699172974, -0.9777995347976685, -1.029313564300537, -0.9459163546562195, -0.8519706130027771, -0.7751091122627258, -0.7933766841888428, -0.9019735455513, -0.9983296990394592, -1.505873441696167], 
spec_min: [-6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0], spk_cond_steps: [], stop_token_weight: 5.0, task_cls: usr.diffsinger_task.DiffSingerMIDITask, test_ids: [], 
test_input_dir: , test_num: 0, test_prefixes: ['Alto-2#岁月神偷', 'Alto-2#奇妙能力歌', 'Tenor-1#一千年以后', 'Tenor-1#童话', 'Tenor-2#消愁', 'Tenor-2#一荤一素', 'Soprano-1#念奴娇赤壁怀古', 'Soprano-1#问春'], test_set_name: test, timesteps: 1000, 
train_set_name: train, use_denoise: False, use_energy_embed: False, use_gt_dur: False, use_gt_f0: False, 
use_midi: True, use_nsf: True, use_pitch_embed: False, use_pos_embed: True, use_spk_embed: False, 
use_spk_id: True, use_split_spk_id: False, use_uv: True, use_var_enc: False, val_check_interval: 2000, 
valid_num: 0, valid_set_name: valid, validate: False, vocoder: vocoders.hifigan.HifiGAN, vocoder_ckpt: checkpoints/m4singer_hifigan, 
warmup_updates: 2000, wav2spec_eps: 1e-6, weight_decay: 0, win_size: 512, work_dir: checkpoints/m4singer_diff_e2e, 

| Mel losses: {'ssim': 0.5, 'l1': 0.5}
| load HifiGAN:  checkpoints/m4singer_hifigan/model_ckpt_steps_1970000.ckpt
Removing weight norm...
| Loaded model parameters from checkpoints/m4singer_hifigan/model_ckpt_steps_1970000.ckpt.
| HifiGAN device: cuda.
| load HifiGAN:  checkpoints/m4singer_hifigan/model_ckpt_steps_1970000.ckpt
Removing weight norm...
| Loaded model parameters from checkpoints/m4singer_hifigan/model_ckpt_steps_1970000.ckpt.
| HifiGAN device: cuda.
| load 'model' from 'checkpoints/m4singer_pe/model_ckpt_steps_280000.ckpt'.
10/09 12:11:32 PM gpu available: True, used: True
| Copied codes to checkpoints/m4singer_diff_e2e/codes/20231009121132.
| load 'model' from 'checkpoints/m4singer_fs2_e2e/model_ckpt_steps_320000.ckpt'.
| model Arch:  GaussianDiffusion(
  (denoise_fn): DiffNet(
    (input_projection): Conv1d(80, 256, kernel_size=(1,), stride=(1,))
    (diffusion_embedding): SinusoidalPosEmb()
    (mlp): Sequential(
      (0): Linear(in_features=256, out_features=1024, bias=True)
      (1): Mish()
      (2): Linear(in_features=1024, out_features=256, bias=True)
    )
    (residual_layers): ModuleList(
      (0): ResidualBlock(
        (dilated_conv): Conv1d(256, 512, kernel_size=(3,), stride=(1,), padding=(1,))
        (diffusion_projection): Linear(in_features=256, out_features=256, bias=True)
        (conditioner_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
        (output_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
      )
      (1): ResidualBlock(
        (dilated_conv): Conv1d(256, 512, kernel_size=(3,), stride=(1,), padding=(2,), dilation=(2,))
        (diffusion_projection): Linear(in_features=256, out_features=256, bias=True)
        (conditioner_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
        (output_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
      )
      (2): ResidualBlock(
        (dilated_conv): Conv1d(256, 512, kernel_size=(3,), stride=(1,), padding=(4,), dilation=(4,))
        (diffusion_projection): Linear(in_features=256, out_features=256, bias=True)
        (conditioner_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
        (output_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
      )
      (3): ResidualBlock(
        (dilated_conv): Conv1d(256, 512, kernel_size=(3,), stride=(1,), padding=(8,), dilation=(8,))
        (diffusion_projection): Linear(in_features=256, out_features=256, bias=True)
        (conditioner_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
        (output_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
      )
      (4): ResidualBlock(
        (dilated_conv): Conv1d(256, 512, kernel_size=(3,), stride=(1,), padding=(1,))
        (diffusion_projection): Linear(in_features=256, out_features=256, bias=True)
        (conditioner_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
        (output_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
      )
      (5): ResidualBlock(
        (dilated_conv): Conv1d(256, 512, kernel_size=(3,), stride=(1,), padding=(2,), dilation=(2,))
        (diffusion_projection): Linear(in_features=256, out_features=256, bias=True)
        (conditioner_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
        (output_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
      )
      (6): ResidualBlock(
        (dilated_conv): Conv1d(256, 512, kernel_size=(3,), stride=(1,), padding=(4,), dilation=(4,))
        (diffusion_projection): Linear(in_features=256, out_features=256, bias=True)
        (conditioner_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
        (output_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
      )
      (7): ResidualBlock(
        (dilated_conv): Conv1d(256, 512, kernel_size=(3,), stride=(1,), padding=(8,), dilation=(8,))
        (diffusion_projection): Linear(in_features=256, out_features=256, bias=True)
        (conditioner_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
        (output_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
      )
      (8): ResidualBlock(
        (dilated_conv): Conv1d(256, 512, kernel_size=(3,), stride=(1,), padding=(1,))
        (diffusion_projection): Linear(in_features=256, out_features=256, bias=True)
        (conditioner_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
        (output_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
      )
      (9): ResidualBlock(
        (dilated_conv): Conv1d(256, 512, kernel_size=(3,), stride=(1,), padding=(2,), dilation=(2,))
        (diffusion_projection): Linear(in_features=256, out_features=256, bias=True)
        (conditioner_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
        (output_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
      )
      (10): ResidualBlock(
        (dilated_conv): Conv1d(256, 512, kernel_size=(3,), stride=(1,), padding=(4,), dilation=(4,))
        (diffusion_projection): Linear(in_features=256, out_features=256, bias=True)
        (conditioner_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
        (output_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
      )
      (11): ResidualBlock(
        (dilated_conv): Conv1d(256, 512, kernel_size=(3,), stride=(1,), padding=(8,), dilation=(8,))
        (diffusion_projection): Linear(in_features=256, out_features=256, bias=True)
        (conditioner_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
        (output_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
      )
      (12): ResidualBlock(
        (dilated_conv): Conv1d(256, 512, kernel_size=(3,), stride=(1,), padding=(1,))
        (diffusion_projection): Linear(in_features=256, out_features=256, bias=True)
        (conditioner_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
        (output_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
      )
      (13): ResidualBlock(
        (dilated_conv): Conv1d(256, 512, kernel_size=(3,), stride=(1,), padding=(2,), dilation=(2,))
        (diffusion_projection): Linear(in_features=256, out_features=256, bias=True)
        (conditioner_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
        (output_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
      )
      (14): ResidualBlock(
        (dilated_conv): Conv1d(256, 512, kernel_size=(3,), stride=(1,), padding=(4,), dilation=(4,))
        (diffusion_projection): Linear(in_features=256, out_features=256, bias=True)
        (conditioner_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
        (output_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
      )
      (15): ResidualBlock(
        (dilated_conv): Conv1d(256, 512, kernel_size=(3,), stride=(1,), padding=(8,), dilation=(8,))
        (diffusion_projection): Linear(in_features=256, out_features=256, bias=True)
        (conditioner_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
        (output_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
      )
      (16): ResidualBlock(
        (dilated_conv): Conv1d(256, 512, kernel_size=(3,), stride=(1,), padding=(1,))
        (diffusion_projection): Linear(in_features=256, out_features=256, bias=True)
        (conditioner_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
        (output_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
      )
      (17): ResidualBlock(
        (dilated_conv): Conv1d(256, 512, kernel_size=(3,), stride=(1,), padding=(2,), dilation=(2,))
        (diffusion_projection): Linear(in_features=256, out_features=256, bias=True)
        (conditioner_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
        (output_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
      )
      (18): ResidualBlock(
        (dilated_conv): Conv1d(256, 512, kernel_size=(3,), stride=(1,), padding=(4,), dilation=(4,))
        (diffusion_projection): Linear(in_features=256, out_features=256, bias=True)
        (conditioner_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
        (output_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
      )
      (19): ResidualBlock(
        (dilated_conv): Conv1d(256, 512, kernel_size=(3,), stride=(1,), padding=(8,), dilation=(8,))
        (diffusion_projection): Linear(in_features=256, out_features=256, bias=True)
        (conditioner_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
        (output_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
      )
    )
    (skip_projection): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
    (output_projection): Conv1d(256, 80, kernel_size=(1,), stride=(1,))
  )
  (fs2): FastSpeech2MIDI(
    (encoder_embed_tokens): Embedding(61, 256, padding_idx=0)
    (decoder): FastspeechDecoder(
      (embed_positions): SinusoidalPositionalEmbedding()
      (layers): ModuleList(
        (0): TransformerEncoderLayer(
          (op): EncSALayer(
            (layer_norm1): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
            (self_attn): MultiheadAttention(
              (out_proj): Linear(in_features=256, out_features=256, bias=False)
            )
            (layer_norm2): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
            (ffn): TransformerFFNLayer(
              (ffn_1): Conv1d(256, 1024, kernel_size=(9,), stride=(1,), padding=(4,))
              (ffn_2): Linear(in_features=1024, out_features=256, bias=True)
            )
          )
        )
        (1): TransformerEncoderLayer(
          (op): EncSALayer(
            (layer_norm1): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
            (self_attn): MultiheadAttention(
              (out_proj): Linear(in_features=256, out_features=256, bias=False)
            )
            (layer_norm2): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
            (ffn): TransformerFFNLayer(
              (ffn_1): Conv1d(256, 1024, kernel_size=(9,), stride=(1,), padding=(4,))
              (ffn_2): Linear(in_features=1024, out_features=256, bias=True)
            )
          )
        )
        (2): TransformerEncoderLayer(
          (op): EncSALayer(
            (layer_norm1): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
            (self_attn): MultiheadAttention(
              (out_proj): Linear(in_features=256, out_features=256, bias=False)
            )
            (layer_norm2): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
            (ffn): TransformerFFNLayer(
              (ffn_1): Conv1d(256, 1024, kernel_size=(9,), stride=(1,), padding=(4,))
              (ffn_2): Linear(in_features=1024, out_features=256, bias=True)
            )
          )
        )
        (3): TransformerEncoderLayer(
          (op): EncSALayer(
            (layer_norm1): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
            (self_attn): MultiheadAttention(
              (out_proj): Linear(in_features=256, out_features=256, bias=False)
            )
            (layer_norm2): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
            (ffn): TransformerFFNLayer(
              (ffn_1): Conv1d(256, 1024, kernel_size=(9,), stride=(1,), padding=(4,))
              (ffn_2): Linear(in_features=1024, out_features=256, bias=True)
            )
          )
        )
      )
      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
    )
    (mel_out): Linear(in_features=256, out_features=80, bias=True)
    (spk_embed_proj): Embedding(21, 256)
    (dur_predictor): DurationPredictor(
      (conv): ModuleList(
        (0): Sequential(
          (0): ConstantPad1d(padding=(1, 1), value=0)
          (1): Conv1d(256, 256, kernel_size=(3,), stride=(1,))
          (2): ReLU()
          (3): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
          (4): Dropout(p=0.5, inplace=False)
        )
        (1): Sequential(
          (0): ConstantPad1d(padding=(1, 1), value=0)
          (1): Conv1d(256, 256, kernel_size=(3,), stride=(1,))
          (2): ReLU()
          (3): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
          (4): Dropout(p=0.5, inplace=False)
        )
        (2): Sequential(
          (0): ConstantPad1d(padding=(1, 1), value=0)
          (1): Conv1d(256, 256, kernel_size=(3,), stride=(1,))
          (2): ReLU()
          (3): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
          (4): Dropout(p=0.5, inplace=False)
        )
        (3): Sequential(
          (0): ConstantPad1d(padding=(1, 1), value=0)
          (1): Conv1d(256, 256, kernel_size=(3,), stride=(1,))
          (2): ReLU()
          (3): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
          (4): Dropout(p=0.5, inplace=False)
        )
        (4): Sequential(
          (0): ConstantPad1d(padding=(1, 1), value=0)
          (1): Conv1d(256, 256, kernel_size=(3,), stride=(1,))
          (2): ReLU()
          (3): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
          (4): Dropout(p=0.5, inplace=False)
        )
      )
      (linear): Linear(in_features=256, out_features=1, bias=True)
    )
    (length_regulator): LengthRegulator()
    (encoder): FastspeechMIDIEncoder(
      (layers): ModuleList(
        (0): TransformerEncoderLayer(
          (op): EncSALayer(
            (layer_norm1): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
            (self_attn): MultiheadAttention(
              (out_proj): Linear(in_features=256, out_features=256, bias=False)
            )
            (layer_norm2): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
            (ffn): TransformerFFNLayer(
              (ffn_1): Conv1d(256, 1024, kernel_size=(9,), stride=(1,), padding=(4,))
              (ffn_2): Linear(in_features=1024, out_features=256, bias=True)
            )
          )
        )
        (1): TransformerEncoderLayer(
          (op): EncSALayer(
            (layer_norm1): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
            (self_attn): MultiheadAttention(
              (out_proj): Linear(in_features=256, out_features=256, bias=False)
            )
            (layer_norm2): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
            (ffn): TransformerFFNLayer(
              (ffn_1): Conv1d(256, 1024, kernel_size=(9,), stride=(1,), padding=(4,))
              (ffn_2): Linear(in_features=1024, out_features=256, bias=True)
            )
          )
        )
        (2): TransformerEncoderLayer(
          (op): EncSALayer(
            (layer_norm1): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
            (self_attn): MultiheadAttention(
              (out_proj): Linear(in_features=256, out_features=256, bias=False)
            )
            (layer_norm2): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
            (ffn): TransformerFFNLayer(
              (ffn_1): Conv1d(256, 1024, kernel_size=(9,), stride=(1,), padding=(4,))
              (ffn_2): Linear(in_features=1024, out_features=256, bias=True)
            )
          )
        )
        (3): TransformerEncoderLayer(
          (op): EncSALayer(
            (layer_norm1): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
            (self_attn): MultiheadAttention(
              (out_proj): Linear(in_features=256, out_features=256, bias=False)
            )
            (layer_norm2): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
            (ffn): TransformerFFNLayer(
              (ffn_1): Conv1d(256, 1024, kernel_size=(9,), stride=(1,), padding=(4,))
              (ffn_2): Linear(in_features=1024, out_features=256, bias=True)
            )
          )
        )
      )
      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
      (embed_tokens): Embedding(61, 256, padding_idx=0)
      (embed_positions): RelPositionalEncoding(
        (dropout): Dropout(p=0.0, inplace=False)
      )
    )
    (midi_embed): Embedding(300, 256, padding_idx=0)
    (midi_dur_layer): Linear(in_features=1, out_features=256, bias=True)
    (is_slur_embed): Embedding(2, 256)
  )
)
| model Trainable Parameters: 39.281M
10/09 12:11:32 PM model and trainer restored from checkpoint: checkpoints/m4singer_diff_e2e/model_ckpt_steps_900000.ckpt
Validation sanity check:   0%|                                                                                                                  | 0/1 [00:00 gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:00<00:00, 216.05it/s]
sample time step:  98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 197/200 [00:00<00:00, 216.69it/s]
==============
 valid results: {'total_loss': 0.0318, 'mel': 0.0204, 'pdur': 0.0098, 'wdur': 0.0014, 'sdur': 0.0002}
==============

Epoch 1: : 1batch [00:00,  1.41batch/s, batch_size=25, lr=1.95e-6, mel=0.0551, pdur=0.00476, sdur=0.000397, step=900000, wdur=0.00253]| Training end..                   
Epoch 1: : 1batch [00:00,  1.29batch/s, batch_size=25, lr=1.95e-6, mel=0.0551, pdur=0.00476, sdur=0.000397, step=900000, wdur=0.00253]
 

(venv3712) (python3.7.12) yeqiang@yeqiang-Default-string:~/Downloads/ai/M4Singer/code$ bash 3.infer-m4singer_diff_e2e.sh 
| Hparams chains:  ['configs/config_base.yaml', 'configs/tts/base.yaml', 'configs/tts/fs2.yaml', 'configs/tts/base_zh.yaml', 'configs/singing/base.yaml', 'usr/configs/base.yaml', 'usr/configs/popcs_ds_beta6.yaml', 'usr/configs/m4singer/base.yaml', 'usr/configs/m4singer/diff.yaml']
| Hparams: 
K_step: 1000, accumulate_grad_batches: 1, audio_num_mel_bins: 80, audio_sample_rate: 24000, base_config: ['usr/configs/m4singer/base.yaml'], 
binarization_args: {'shuffle': False, 'with_align': True, 'with_f0': True, 'with_f0cwt': True, 'with_spk_embed': True, 'with_txt': True, 'with_wav': False}, binarizer_cls: data_gen.singing.binarize.M4SingerBinarizer, binary_data_dir: data/binary/m4singer, check_val_every_n_epoch: 10, clip_grad_norm: 1, 
content_cond_steps: [], cwt_add_f0_loss: False, cwt_hidden_size: 128, cwt_layers: 2, cwt_loss: l1, 
cwt_std_scale: 0.8, datasets: ['m4singer'], debug: False, dec_ffn_kernel_size: 9, dec_layers: 4, 
decay_steps: 100000, decoder_type: fft, dict_dir: , diff_decoder_type: wavenet, diff_loss_type: l1, 
dilation_cycle_length: 4, dropout: 0.1, ds_workers: 4, dur_enc_hidden_stride_kernel: ['0,2,3', '0,2,3', '0,1,3'], dur_loss: mse, 
dur_predictor_kernel: 3, dur_predictor_layers: 5, enc_ffn_kernel_size: 9, enc_layers: 4, encoder_K: 8, 
encoder_type: fft, endless_ds: True, ffn_act: gelu, ffn_padding: SAME, fft_size: 512, 
fmax: 12000, fmin: 30, fs2_ckpt: checkpoints/m4singer_fs2_e2e, gaussian_start: True, gen_dir_name: , 
gen_tgt_spk_id: -1, hidden_size: 256, hop_size: 128, infer: True, keep_bins: 80, 
lambda_commit: 0.25, lambda_energy: 0.0, lambda_f0: 0.0, lambda_ph_dur: 1.0, lambda_sent_dur: 1.0, 
lambda_uv: 0.0, lambda_word_dur: 1.0, load_ckpt: , log_interval: 100, loud_norm: False, 
lr: 0.001, max_beta: 0.02, max_epochs: 1000, max_eval_sentences: 1, max_eval_tokens: 60000, 
max_frames: 5000, max_input_tokens: 1550, max_sentences: 28, max_tokens: 36000, max_updates: 900000, 
mel_loss: ssim:0.5|l1:0.5, mel_vmax: 1.5, mel_vmin: -6.0, min_level_db: -120, norm_type: gn, 
num_ckpt_keep: 3, num_heads: 2, num_sanity_val_steps: 1, num_spk: 20, num_test_samples: 0, 
num_valid_plots: 10, optimizer_adam_beta1: 0.9, optimizer_adam_beta2: 0.98, out_wav_norm: False, pe_ckpt: checkpoints/m4singer_pe, 
pe_enable: True, pitch_ar: False, pitch_enc_hidden_stride_kernel: ['0,2,5', '0,2,5', '0,2,5'], pitch_extractor: parselmouth, pitch_loss: l1, 
pitch_norm: log, pitch_type: frame, pndm_speedup: 5, pre_align_args: {'allow_no_txt': False, 'denoise': False, 'forced_align': 'mfa', 'txt_processor': 'zh_g2pM', 'use_sox': True, 'use_tone': False}, pre_align_cls: data_gen.singing.pre_align.SingingPreAlign, 
predictor_dropout: 0.5, predictor_grad: 0.1, predictor_hidden: -1, predictor_kernel: 5, predictor_layers: 5, 
prenet_dropout: 0.5, prenet_hidden_size: 256, pretrain_fs_ckpt: , processed_data_dir: xxx, profile_infer: False, 
raw_data_dir: data/raw/m4singer, ref_norm_layer: bn, rel_pos: True, reset_phone_dict: True, residual_channels: 256, 
residual_layers: 20, save_best: False, save_ckpt: True, save_codes: ['configs', 'modules', 'tasks', 'utils', 'usr'], save_f0: True, 
save_gt: True, schedule_type: linear, seed: 1234, sort_by_len: True, spec_max: [-0.3894500136375427, -0.3796464204788208, -0.2914905250072479, -0.15550297498703003, -0.08502643555402756, 0.10698417574167252, -0.0739326998591423, -0.0541548952460289, 0.15501998364925385, 0.06483431905508041, 0.03054228238761425, -0.013737732544541359, -0.004876468330621719, 0.04368264228105545, 0.13329921662807465, 0.16471388936042786, 0.04605761915445328, -0.05680707097053528, 0.0542571023106575, -0.0076539707370102406, -0.00953489076346159, -0.04434828832745552, 0.001293870504014194, -0.12238839268684387, 0.06418416649103165, 0.02843189612030983, 0.08505241572856903, 0.07062800228595734, 0.00120724702719599, -0.07675088942050934, 0.03785804659128189, 0.04890783503651619, -0.06888376921415329, -0.0839693546295166, -0.17545585334300995, -0.2911079525947571, -0.4238220453262329, -0.262084037065506, -0.3002263605594635, -0.3845032751560211, -0.3906497061252594, -0.6550108790397644, -0.7810799479484558, -0.7503029704093933, -0.7995198965072632, -0.8092347383499146, -0.6196113228797913, -0.6684317588806152, -0.7735874056816101, -0.8324533104896545, -0.9601566791534424, -0.955253541469574, -0.748817503452301, -0.9106167554855347, -0.9707801342010498, -1.053107500076294, -1.0448424816131592, -1.1082794666290283, -1.1296544075012207, -1.071642279624939, -1.1003081798553467, -1.166810154914856, -1.1408926248550415, -1.1330615282058716, -1.1167492866516113, -1.0716774463653564, -1.035891056060791, -1.0092483758926392, -0.9675999879837036, -0.938962996006012, -1.0120564699172974, -0.9777995347976685, -1.029313564300537, -0.9459163546562195, -0.8519706130027771, -0.7751091122627258, -0.7933766841888428, -0.9019735455513, -0.9983296990394592, -1.505873441696167], 
spec_min: [-6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0], spk_cond_steps: [], stop_token_weight: 5.0, task_cls: usr.diffsinger_task.DiffSingerMIDITask, test_ids: [], 
test_input_dir: , test_num: 0, test_prefixes: ['Alto-2#岁月神偷', 'Alto-2#奇妙能力歌', 'Tenor-1#一千年以后', 'Tenor-1#童话', 'Tenor-2#消愁', 'Tenor-2#一荤一素', 'Soprano-1#念奴娇赤壁怀古', 'Soprano-1#问春'], test_set_name: test, timesteps: 1000, 
train_set_name: train, use_denoise: False, use_energy_embed: False, use_gt_dur: False, use_gt_f0: False, 
use_midi: True, use_nsf: True, use_pitch_embed: False, use_pos_embed: True, use_spk_embed: False, 
use_spk_id: True, use_split_spk_id: False, use_uv: True, use_var_enc: False, val_check_interval: 2000, 
valid_num: 0, valid_set_name: valid, validate: False, vocoder: vocoders.hifigan.HifiGAN, vocoder_ckpt: checkpoints/m4singer_hifigan, 
warmup_updates: 2000, wav2spec_eps: 1e-6, weight_decay: 0, win_size: 512, work_dir: checkpoints/m4singer_diff_e2e, 

| Mel losses: {'ssim': 0.5, 'l1': 0.5}
| load HifiGAN:  checkpoints/m4singer_hifigan/model_ckpt_steps_1970000.ckpt
Removing weight norm...
| Loaded model parameters from checkpoints/m4singer_hifigan/model_ckpt_steps_1970000.ckpt.
| HifiGAN device: cuda.
| load HifiGAN:  checkpoints/m4singer_hifigan/model_ckpt_steps_1970000.ckpt
Removing weight norm...
| Loaded model parameters from checkpoints/m4singer_hifigan/model_ckpt_steps_1970000.ckpt.
| HifiGAN device: cuda.
| load 'model' from 'checkpoints/m4singer_pe/model_ckpt_steps_280000.ckpt'.
10/09 12:12:55 PM gpu available: True, used: True
| load 'model' from 'checkpoints/m4singer_fs2_e2e/model_ckpt_steps_320000.ckpt'.
| model Arch:  GaussianDiffusion(
  (denoise_fn): DiffNet(
    (input_projection): Conv1d(80, 256, kernel_size=(1,), stride=(1,))
    (diffusion_embedding): SinusoidalPosEmb()
    (mlp): Sequential(
      (0): Linear(in_features=256, out_features=1024, bias=True)
      (1): Mish()
      (2): Linear(in_features=1024, out_features=256, bias=True)
    )
    (residual_layers): ModuleList(
      (0): ResidualBlock(
        (dilated_conv): Conv1d(256, 512, kernel_size=(3,), stride=(1,), padding=(1,))
        (diffusion_projection): Linear(in_features=256, out_features=256, bias=True)
        (conditioner_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
        (output_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
      )
      (1): ResidualBlock(
        (dilated_conv): Conv1d(256, 512, kernel_size=(3,), stride=(1,), padding=(2,), dilation=(2,))
        (diffusion_projection): Linear(in_features=256, out_features=256, bias=True)
        (conditioner_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
        (output_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
      )
      (2): ResidualBlock(
        (dilated_conv): Conv1d(256, 512, kernel_size=(3,), stride=(1,), padding=(4,), dilation=(4,))
        (diffusion_projection): Linear(in_features=256, out_features=256, bias=True)
        (conditioner_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
        (output_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
      )
      (3): ResidualBlock(
        (dilated_conv): Conv1d(256, 512, kernel_size=(3,), stride=(1,), padding=(8,), dilation=(8,))
        (diffusion_projection): Linear(in_features=256, out_features=256, bias=True)
        (conditioner_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
        (output_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
      )
      (4): ResidualBlock(
        (dilated_conv): Conv1d(256, 512, kernel_size=(3,), stride=(1,), padding=(1,))
        (diffusion_projection): Linear(in_features=256, out_features=256, bias=True)
        (conditioner_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
        (output_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
      )
      (5): ResidualBlock(
        (dilated_conv): Conv1d(256, 512, kernel_size=(3,), stride=(1,), padding=(2,), dilation=(2,))
        (diffusion_projection): Linear(in_features=256, out_features=256, bias=True)
        (conditioner_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
        (output_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
      )
      (6): ResidualBlock(
        (dilated_conv): Conv1d(256, 512, kernel_size=(3,), stride=(1,), padding=(4,), dilation=(4,))
        (diffusion_projection): Linear(in_features=256, out_features=256, bias=True)
        (conditioner_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
        (output_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
      )
      (7): ResidualBlock(
        (dilated_conv): Conv1d(256, 512, kernel_size=(3,), stride=(1,), padding=(8,), dilation=(8,))
        (diffusion_projection): Linear(in_features=256, out_features=256, bias=True)
        (conditioner_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
        (output_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
      )
      (8): ResidualBlock(
        (dilated_conv): Conv1d(256, 512, kernel_size=(3,), stride=(1,), padding=(1,))
        (diffusion_projection): Linear(in_features=256, out_features=256, bias=True)
        (conditioner_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
        (output_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
      )
      (9): ResidualBlock(
        (dilated_conv): Conv1d(256, 512, kernel_size=(3,), stride=(1,), padding=(2,), dilation=(2,))
        (diffusion_projection): Linear(in_features=256, out_features=256, bias=True)
        (conditioner_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
        (output_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
      )
      (10): ResidualBlock(
        (dilated_conv): Conv1d(256, 512, kernel_size=(3,), stride=(1,), padding=(4,), dilation=(4,))
        (diffusion_projection): Linear(in_features=256, out_features=256, bias=True)
        (conditioner_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
        (output_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
      )
      (11): ResidualBlock(
        (dilated_conv): Conv1d(256, 512, kernel_size=(3,), stride=(1,), padding=(8,), dilation=(8,))
        (diffusion_projection): Linear(in_features=256, out_features=256, bias=True)
        (conditioner_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
        (output_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
      )
      (12): ResidualBlock(
        (dilated_conv): Conv1d(256, 512, kernel_size=(3,), stride=(1,), padding=(1,))
        (diffusion_projection): Linear(in_features=256, out_features=256, bias=True)
        (conditioner_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
        (output_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
      )
      (13): ResidualBlock(
        (dilated_conv): Conv1d(256, 512, kernel_size=(3,), stride=(1,), padding=(2,), dilation=(2,))
        (diffusion_projection): Linear(in_features=256, out_features=256, bias=True)
        (conditioner_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
        (output_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
      )
      (14): ResidualBlock(
        (dilated_conv): Conv1d(256, 512, kernel_size=(3,), stride=(1,), padding=(4,), dilation=(4,))
        (diffusion_projection): Linear(in_features=256, out_features=256, bias=True)
        (conditioner_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
        (output_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
      )
      (15): ResidualBlock(
        (dilated_conv): Conv1d(256, 512, kernel_size=(3,), stride=(1,), padding=(8,), dilation=(8,))
        (diffusion_projection): Linear(in_features=256, out_features=256, bias=True)
        (conditioner_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
        (output_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
      )
      (16): ResidualBlock(
        (dilated_conv): Conv1d(256, 512, kernel_size=(3,), stride=(1,), padding=(1,))
        (diffusion_projection): Linear(in_features=256, out_features=256, bias=True)
        (conditioner_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
        (output_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
      )
      (17): ResidualBlock(
        (dilated_conv): Conv1d(256, 512, kernel_size=(3,), stride=(1,), padding=(2,), dilation=(2,))
        (diffusion_projection): Linear(in_features=256, out_features=256, bias=True)
        (conditioner_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
        (output_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
      )
      (18): ResidualBlock(
        (dilated_conv): Conv1d(256, 512, kernel_size=(3,), stride=(1,), padding=(4,), dilation=(4,))
        (diffusion_projection): Linear(in_features=256, out_features=256, bias=True)
        (conditioner_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
        (output_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
      )
      (19): ResidualBlock(
        (dilated_conv): Conv1d(256, 512, kernel_size=(3,), stride=(1,), padding=(8,), dilation=(8,))
        (diffusion_projection): Linear(in_features=256, out_features=256, bias=True)
        (conditioner_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
        (output_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
      )
    )
    (skip_projection): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
    (output_projection): Conv1d(256, 80, kernel_size=(1,), stride=(1,))
  )
  (fs2): FastSpeech2MIDI(
    (encoder_embed_tokens): Embedding(61, 256, padding_idx=0)
    (decoder): FastspeechDecoder(
      (embed_positions): SinusoidalPositionalEmbedding()
      (layers): ModuleList(
        (0): TransformerEncoderLayer(
          (op): EncSALayer(
            (layer_norm1): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
            (self_attn): MultiheadAttention(
              (out_proj): Linear(in_features=256, out_features=256, bias=False)
            )
            (layer_norm2): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
            (ffn): TransformerFFNLayer(
              (ffn_1): Conv1d(256, 1024, kernel_size=(9,), stride=(1,), padding=(4,))
              (ffn_2): Linear(in_features=1024, out_features=256, bias=True)
            )
          )
        )
        (1): TransformerEncoderLayer(
          (op): EncSALayer(
            (layer_norm1): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
            (self_attn): MultiheadAttention(
              (out_proj): Linear(in_features=256, out_features=256, bias=False)
            )
            (layer_norm2): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
            (ffn): TransformerFFNLayer(
              (ffn_1): Conv1d(256, 1024, kernel_size=(9,), stride=(1,), padding=(4,))
              (ffn_2): Linear(in_features=1024, out_features=256, bias=True)
            )
          )
        )
        (2): TransformerEncoderLayer(
          (op): EncSALayer(
            (layer_norm1): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
            (self_attn): MultiheadAttention(
              (out_proj): Linear(in_features=256, out_features=256, bias=False)
            )
            (layer_norm2): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
            (ffn): TransformerFFNLayer(
              (ffn_1): Conv1d(256, 1024, kernel_size=(9,), stride=(1,), padding=(4,))
              (ffn_2): Linear(in_features=1024, out_features=256, bias=True)
            )
          )
        )
        (3): TransformerEncoderLayer(
          (op): EncSALayer(
            (layer_norm1): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
            (self_attn): MultiheadAttention(
              (out_proj): Linear(in_features=256, out_features=256, bias=False)
            )
            (layer_norm2): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
            (ffn): TransformerFFNLayer(
              (ffn_1): Conv1d(256, 1024, kernel_size=(9,), stride=(1,), padding=(4,))
              (ffn_2): Linear(in_features=1024, out_features=256, bias=True)
            )
          )
        )
      )
      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
    )
    (mel_out): Linear(in_features=256, out_features=80, bias=True)
    (spk_embed_proj): Embedding(21, 256)
    (dur_predictor): DurationPredictor(
      (conv): ModuleList(
        (0): Sequential(
          (0): ConstantPad1d(padding=(1, 1), value=0)
          (1): Conv1d(256, 256, kernel_size=(3,), stride=(1,))
          (2): ReLU()
          (3): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
          (4): Dropout(p=0.5, inplace=False)
        )
        (1): Sequential(
          (0): ConstantPad1d(padding=(1, 1), value=0)
          (1): Conv1d(256, 256, kernel_size=(3,), stride=(1,))
          (2): ReLU()
          (3): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
          (4): Dropout(p=0.5, inplace=False)
        )
        (2): Sequential(
          (0): ConstantPad1d(padding=(1, 1), value=0)
          (1): Conv1d(256, 256, kernel_size=(3,), stride=(1,))
          (2): ReLU()
          (3): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
          (4): Dropout(p=0.5, inplace=False)
        )
        (3): Sequential(
          (0): ConstantPad1d(padding=(1, 1), value=0)
          (1): Conv1d(256, 256, kernel_size=(3,), stride=(1,))
          (2): ReLU()
          (3): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
          (4): Dropout(p=0.5, inplace=False)
        )
        (4): Sequential(
          (0): ConstantPad1d(padding=(1, 1), value=0)
          (1): Conv1d(256, 256, kernel_size=(3,), stride=(1,))
          (2): ReLU()
          (3): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
          (4): Dropout(p=0.5, inplace=False)
        )
      )
      (linear): Linear(in_features=256, out_features=1, bias=True)
    )
    (length_regulator): LengthRegulator()
    (encoder): FastspeechMIDIEncoder(
      (layers): ModuleList(
        (0): TransformerEncoderLayer(
          (op): EncSALayer(
            (layer_norm1): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
            (self_attn): MultiheadAttention(
              (out_proj): Linear(in_features=256, out_features=256, bias=False)
            )
            (layer_norm2): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
            (ffn): TransformerFFNLayer(
              (ffn_1): Conv1d(256, 1024, kernel_size=(9,), stride=(1,), padding=(4,))
              (ffn_2): Linear(in_features=1024, out_features=256, bias=True)
            )
          )
        )
        (1): TransformerEncoderLayer(
          (op): EncSALayer(
            (layer_norm1): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
            (self_attn): MultiheadAttention(
              (out_proj): Linear(in_features=256, out_features=256, bias=False)
            )
            (layer_norm2): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
            (ffn): TransformerFFNLayer(
              (ffn_1): Conv1d(256, 1024, kernel_size=(9,), stride=(1,), padding=(4,))
              (ffn_2): Linear(in_features=1024, out_features=256, bias=True)
            )
          )
        )
        (2): TransformerEncoderLayer(
          (op): EncSALayer(
            (layer_norm1): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
            (self_attn): MultiheadAttention(
              (out_proj): Linear(in_features=256, out_features=256, bias=False)
            )
            (layer_norm2): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
            (ffn): TransformerFFNLayer(
              (ffn_1): Conv1d(256, 1024, kernel_size=(9,), stride=(1,), padding=(4,))
              (ffn_2): Linear(in_features=1024, out_features=256, bias=True)
            )
          )
        )
        (3): TransformerEncoderLayer(
          (op): EncSALayer(
            (layer_norm1): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
            (self_attn): MultiheadAttention(
              (out_proj): Linear(in_features=256, out_features=256, bias=False)
            )
            (layer_norm2): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
            (ffn): TransformerFFNLayer(
              (ffn_1): Conv1d(256, 1024, kernel_size=(9,), stride=(1,), padding=(4,))
              (ffn_2): Linear(in_features=1024, out_features=256, bias=True)
            )
          )
        )
      )
      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
      (embed_tokens): Embedding(61, 256, padding_idx=0)
      (embed_positions): RelPositionalEncoding(
        (dropout): Dropout(p=0.0, inplace=False)
      )
    )
    (midi_embed): Embedding(300, 256, padding_idx=0)
    (midi_dur_layer): Linear(in_features=1, out_features=256, bias=True)
    (is_slur_embed): Embedding(2, 256)
  )
)
| model Trainable Parameters: 39.281M
10/09 12:12:56 PM model and trainer restored from checkpoint: checkpoints/m4singer_diff_e2e/model_ckpt_steps_900000.ckpt
Testing:   0%|                                                                                                                                | 0/217 [00:00 Removing weight norm...
| Loaded model parameters from checkpoints/m4singer_hifigan/model_ckpt_steps_1970000.ckpt.
| HifiGAN device: cuda.
| load 'model' from 'checkpoints/m4singer_pe/model_ckpt_steps_280000.ckpt'.
===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:00<00:00, 215.67it/s]
Pred_shape: (781, 80), gt_shape: (793, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  3.13it/s]
Testing:   0%|▌                                                                                                                       | 1/217 [00:02<10:11,  2.83s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 188.49it/s]
Pred_shape: (791, 80), gt_shape: (796, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  4.16it/s]
Testing:   1%|█                                                                                                                       | 2/217 [00:04<08:31,  2.38s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 108.97it/s]
Pred_shape: (1366, 80), gt_shape: (1392, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  2.55it/s]
Testing:   1%|█▋                                                                                                                      | 3/217 [00:06<08:20,  2.34s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 184.88it/s]
Pred_shape: (828, 80), gt_shape: (842, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  3.91it/s]
Testing:   2%|██▏                                                                                                                     | 4/217 [00:07<07:15,  2.04s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 182.52it/s]
Pred_shape: (769, 80), gt_shape: (775, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  3.36it/s]
Testing:   2%|██▊                                                                                                                     | 5/217 [00:09<06:32,  1.85s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 159.35it/s]
Pred_shape: (1214, 80), gt_shape: (1235, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  2.68it/s]
Testing:   3%|███▎                                                                                                                    | 6/217 [00:10<06:19,  1.80s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 181.25it/s]
Pred_shape: (881, 80), gt_shape: (888, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  3.71it/s]
Testing:   3%|███▊                                                                                                                    | 7/217 [00:12<05:51,  1.67s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 183.67it/s]
Pred_shape: (849, 80), gt_shape: (874, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  3.24it/s]
Testing:   4%|████▍                                                                                                                   | 8/217 [00:13<05:33,  1.60s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 166.04it/s]
Pred_shape: (629, 80), gt_shape: (632, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  3.67it/s]
Testing:   4%|████▉                                                                                                                   | 9/217 [00:15<05:26,  1.57s/batch]===> gaussion start.
sample time step: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:02<00:00, 96.50it/s]
Pred_shape: (778, 80), gt_shape: (757, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  3.31it/s]
Testing:   5%|█████▍                                                                                                                 | 10/217 [00:17<06:16,  1.82s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 171.89it/s]
Pred_shape: (828, 80), gt_shape: (838, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  3.11it/s]
Testing:   5%|██████                                                                                                                 | 11/217 [00:19<05:55,  1.72s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 185.39it/s]
Pred_shape: (840, 80), gt_shape: (866, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  3.93it/s]
Testing:   6%|██████▌                                                                                                                | 12/217 [00:20<05:30,  1.61s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 189.41it/s]
Pred_shape: (793, 80), gt_shape: (794, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  3.98it/s]
Testing:   6%|███████▏                                                                                                               | 13/217 [00:21<05:10,  1.52s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 174.09it/s]
Pred_shape: (469, 80), gt_shape: (492, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  6.11it/s]
Testing:   6%|███████▋                                                                                                               | 14/217 [00:23<04:57,  1.47s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 184.94it/s]
Pred_shape: (840, 80), gt_shape: (861, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  3.90it/s]
Testing:   7%|████████▏                                                                                                              | 15/217 [00:24<04:49,  1.43s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 181.51it/s]
Pred_shape: (817, 80), gt_shape: (829, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  3.18it/s]
Testing:   7%|████████▊                                                                                                              | 16/217 [00:25<04:47,  1.43s/batch]===> gaussion start.
sample time step: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:02<00:00, 79.59it/s]
Pred_shape: (1704, 80), gt_shape: (1674, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  2.04it/s]
Testing:   8%|█████████▎                                                                                                             | 17/217 [00:28<06:22,  1.91s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 191.15it/s]
Pred_shape: (796, 80), gt_shape: (808, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  3.96it/s]
Testing:   8%|█████████▊                                                                                                             | 18/217 [00:30<05:44,  1.73s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 189.54it/s]
Pred_shape: (793, 80), gt_shape: (814, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  4.09it/s]
Testing:   9%|██████████▍                                                                                                            | 19/217 [00:31<05:18,  1.61s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 115.37it/s]
Pred_shape: (1574, 80), gt_shape: (1562, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  2.21it/s]
Testing:   9%|██████████▉                                                                                                            | 20/217 [00:33<05:51,  1.79s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 160.47it/s]
Pred_shape: (1131, 80), gt_shape: (1155, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  2.55it/s]
Testing:  10%|███████████▌                                                                                                           | 21/217 [00:35<05:42,  1.75s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 150.84it/s]
Pred_shape: (877, 80), gt_shape: (880, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  3.92it/s]
Testing:  10%|████████████                                                                                                           | 22/217 [00:36<05:32,  1.70s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 116.68it/s]
Pred_shape: (1652, 80), gt_shape: (1610, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  2.18it/s]
Testing:  11%|████████████▌                                                                                                          | 23/217 [00:39<05:58,  1.85s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 189.77it/s]
Pred_shape: (794, 80), gt_shape: (812, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  3.97it/s]
Testing:  11%|█████████████▏                                                                                                         | 24/217 [00:40<05:26,  1.69s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 161.56it/s]
Pred_shape: (798, 80), gt_shape: (829, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  3.98it/s]
Testing:  12%|█████████████▋                                                                                                         | 25/217 [00:41<05:13,  1.64s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 178.44it/s]
Pred_shape: (648, 80), gt_shape: (652, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  3.70it/s]
Testing:  12%|██████████████▎                                                                                                        | 26/217 [00:43<04:59,  1.57s/batch]===> gaussion start.
sample time step: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:02<00:00, 85.06it/s]
Pred_shape: (977, 80), gt_shape: (985, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  2.91it/s]
Testing:  12%|██████████████▊                                                                                                        | 27/217 [00:46<06:03,  1.91s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 166.77it/s]
Pred_shape: (755, 80), gt_shape: (762, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  3.54it/s]
Testing:  13%|███████████████▎                                                                                                       | 28/217 [00:47<05:38,  1.79s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 181.84it/s]
Pred_shape: (875, 80), gt_shape: (895, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  3.82it/s]
Testing:  13%|███████████████▉                                                                                                       | 29/217 [00:48<05:13,  1.67s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 113.65it/s]
Pred_shape: (1595, 80), gt_shape: (1595, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  2.16it/s]
Testing:  14%|████████████████▍                                                                                                      | 30/217 [00:51<05:43,  1.84s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 187.29it/s]
Pred_shape: (851, 80), gt_shape: (865, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  2.82it/s]
Testing:  14%|█████████████████                                                                                                      | 31/217 [00:52<05:19,  1.72s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 131.27it/s]
Pred_shape: (837, 80), gt_shape: (833, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  3.90it/s]
Testing:  15%|█████████████████▌                                                                                                     | 32/217 [00:54<05:22,  1.74s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 157.57it/s]
Pred_shape: (1258, 80), gt_shape: (1273, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  2.78it/s]
Testing:  15%|██████████████████                                                                                                     | 33/217 [00:56<05:15,  1.71s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 182.60it/s]
Pred_shape: (865, 80), gt_shape: (881, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  3.73it/s]
Testing:  16%|██████████████████▋                                                                                                    | 34/217 [00:57<04:55,  1.61s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 188.50it/s]
Pred_shape: (811, 80), gt_shape: (825, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  3.32it/s]
Testing:  16%|███████████████████▏                                                                                                   | 35/217 [00:58<04:40,  1.54s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 144.72it/s]
Pred_shape: (722, 80), gt_shape: (723, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  4.38it/s]
Testing:  17%|███████████████████▋                                                                                                   | 36/217 [01:00<04:44,  1.57s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 185.93it/s]
Pred_shape: (722, 80), gt_shape: (731, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  4.25it/s]
Testing:  17%|████████████████████▎                                                                                                  | 37/217 [01:01<04:29,  1.50s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 183.85it/s]
Pred_shape: (799, 80), gt_shape: (808, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  4.05it/s]
Testing:  18%|████████████████████▊                                                                                                  | 38/217 [01:03<04:19,  1.45s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 158.70it/s]
Pred_shape: (1213, 80), gt_shape: (1210, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  2.96it/s]
Testing:  18%|█████████████████████▍                                                                                                 | 39/217 [01:04<04:27,  1.50s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 182.71it/s]
Pred_shape: (952, 80), gt_shape: (947, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  3.63it/s]
Testing:  18%|█████████████████████▉                                                                                                 | 40/217 [01:06<04:19,  1.47s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 186.25it/s]
Pred_shape: (845, 80), gt_shape: (850, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  3.20it/s]
Testing:  19%|██████████████████████▍                                                                                                | 41/217 [01:07<04:14,  1.45s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 120.16it/s]
Pred_shape: (1208, 80), gt_shape: (1210, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  2.70it/s]
Testing:  19%|███████████████████████                                                                                                | 42/217 [01:09<04:45,  1.63s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 163.16it/s]
Pred_shape: (1024, 80), gt_shape: (1047, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  3.07it/s]
Testing:  20%|███████████████████████▌                                                                                               | 43/217 [01:11<04:40,  1.61s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 174.92it/s]
Pred_shape: (582, 80), gt_shape: (579, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  4.55it/s]
Testing:  20%|████████████████████████▏                                                                                              | 44/217 [01:12<04:26,  1.54s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 111.63it/s]
Pred_shape: (1486, 80), gt_shape: (1499, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  2.10it/s]
Testing:  21%|████████████████████████▋                                                                                              | 45/217 [01:14<05:03,  1.77s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 183.30it/s]
Pred_shape: (823, 80), gt_shape: (827, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  3.56it/s]
Testing:  21%|█████████████████████████▏                                                                                             | 46/217 [01:16<04:42,  1.65s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 105.42it/s]
Pred_shape: (1491, 80), gt_shape: (1502, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  2.29it/s]
Testing:  22%|█████████████████████████▊                                                                                             | 47/217 [01:18<05:16,  1.86s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 187.57it/s]
Pred_shape: (704, 80), gt_shape: (707, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  3.66it/s]
Testing:  22%|██████████████████████████▎                                                                                            | 48/217 [01:19<04:49,  1.71s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 177.61it/s]
Pred_shape: (788, 80), gt_shape: (794, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  3.16it/s]
Testing:  23%|██████████████████████████▊                                                                                            | 49/217 [01:21<04:34,  1.64s/batch]===> gaussion start.
sample time step: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:03<00:00, 59.62it/s]
Pred_shape: (1374, 80), gt_shape: (1389, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  2.42it/s]
Testing:  23%|███████████████████████████▍                                                                                           | 50/217 [01:25<06:21,  2.28s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 126.41it/s]
Pred_shape: (2104, 80), gt_shape: (1939, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  1.65it/s]
Testing:  24%|███████████████████████████▉                                                                                           | 51/217 [01:27<06:16,  2.27s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 125.19it/s]
Pred_shape: (1769, 80), gt_shape: (1806, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  1.58it/s]
Testing:  24%|████████████████████████████▌                                                                                          | 52/217 [01:29<06:13,  2.26s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 120.66it/s]
Pred_shape: (997, 80), gt_shape: (772, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  3.91it/s]
Testing:  24%|█████████████████████████████                                                                                          | 53/217 [01:31<05:54,  2.16s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 196.84it/s]
Pred_shape: (833, 80), gt_shape: (784, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  3.43it/s]
Testing:  25%|█████████████████████████████▌                                                                                         | 54/217 [01:32<05:11,  1.91s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 179.94it/s]
Pred_shape: (653, 80), gt_shape: (660, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  4.10it/s]
Testing:  25%|██████████████████████████████▏                                                                                        | 55/217 [01:34<04:43,  1.75s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 113.74it/s]
Pred_shape: (1520, 80), gt_shape: (1290, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  2.26it/s]
Testing:  26%|██████████████████████████████▋                                                                                        | 56/217 [01:36<05:04,  1.89s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 125.43it/s]
Pred_shape: (1714, 80), gt_shape: (1780, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  1.78it/s]
Testing:  26%|███████████████████████████████▎                                                                                       | 57/217 [01:38<05:16,  1.98s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 159.65it/s]
Pred_shape: (995, 80), gt_shape: (810, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  3.66it/s]
Testing:  27%|███████████████████████████████▊                                                                                       | 58/217 [01:40<04:53,  1.85s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 113.52it/s]
Pred_shape: (1392, 80), gt_shape: (1410, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  2.28it/s]
Testing:  27%|████████████████████████████████▎                                                                                      | 59/217 [01:42<05:09,  1.96s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 112.74it/s]
Pred_shape: (1381, 80), gt_shape: (1408, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  1.80it/s]
Testing:  28%|████████████████████████████████▉                                                                                      | 60/217 [01:44<05:25,  2.07s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 100.41it/s]
Pred_shape: (1326, 80), gt_shape: (1341, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  2.17it/s]
Testing:  28%|█████████████████████████████████▍                                                                                     | 61/217 [01:47<05:42,  2.19s/batch]===> gaussion start.
sample time step: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:02<00:00, 90.27it/s]
Pred_shape: (1565, 80), gt_shape: (1366, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  1.90it/s]
Testing:  29%|██████████████████████████████████                                                                                     | 62/217 [01:50<06:06,  2.37s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 110.44it/s]
Pred_shape: (1402, 80), gt_shape: (1401, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  2.06it/s]
Testing:  29%|██████████████████████████████████▌                                                                                    | 63/217 [01:52<06:01,  2.35s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 112.51it/s]
Pred_shape: (1687, 80), gt_shape: (1354, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  2.10it/s]
Testing:  29%|███████████████████████████████████                                                                                    | 64/217 [01:54<05:56,  2.33s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 119.03it/s]
Pred_shape: (1831, 80), gt_shape: (1490, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  1.47it/s]
Testing:  30%|███████████████████████████████████▋                                                                                   | 65/217 [01:57<05:56,  2.34s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 107.37it/s]
Pred_shape: (1411, 80), gt_shape: (1393, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  2.16it/s]
Testing:  30%|████████████████████████████████████▏                                                                                  | 66/217 [01:59<05:54,  2.35s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 122.02it/s]
Pred_shape: (1913, 80), gt_shape: (1676, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  1.59it/s]
Testing:  31%|████████████████████████████████████▋                                                                                  | 67/217 [02:01<05:49,  2.33s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 144.58it/s]
Pred_shape: (1196, 80), gt_shape: (1436, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  2.25it/s]
Testing:  31%|█████████████████████████████████████▎                                                                                 | 68/217 [02:03<05:25,  2.19s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 181.17it/s]
Pred_shape: (744, 80), gt_shape: (757, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  3.67it/s]
Testing:  32%|█████████████████████████████████████▊                                                                                 | 69/217 [02:04<04:48,  1.95s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 112.35it/s]
Pred_shape: (1450, 80), gt_shape: (1462, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  2.10it/s]
Testing:  32%|██████████████████████████████████████▍                                                                                | 70/217 [02:07<05:00,  2.04s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 160.44it/s]
Pred_shape: (1211, 80), gt_shape: (1157, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  2.14it/s]
Testing:  33%|██████████████████████████████████████▉                                                                                | 71/217 [02:08<04:44,  1.95s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 102.92it/s]
Pred_shape: (747, 80), gt_shape: (765, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  3.57it/s]
Testing:  33%|███████████████████████████████████████▍                                                                               | 72/217 [02:11<04:55,  2.04s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 184.68it/s]
Pred_shape: (719, 80), gt_shape: (732, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  3.16it/s]
Testing:  34%|████████████████████████████████████████                                                                               | 73/217 [02:12<04:26,  1.85s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 112.75it/s]
Pred_shape: (1464, 80), gt_shape: (1488, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  2.10it/s]
Testing:  34%|████████████████████████████████████████▌                                                                              | 74/217 [02:14<04:42,  1.98s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 184.21it/s]
Pred_shape: (613, 80), gt_shape: (627, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  3.90it/s]
Testing:  35%|█████████████████████████████████████████▏                                                                             | 75/217 [02:16<04:14,  1.79s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 186.83it/s]
Pred_shape: (913, 80), gt_shape: (928, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  3.12it/s]
Testing:  35%|█████████████████████████████████████████▋                                                                             | 76/217 [02:17<03:56,  1.68s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 113.23it/s]
Pred_shape: (1419, 80), gt_shape: (1457, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  2.03it/s]
Testing:  35%|██████████████████████████████████████████▏                                                                            | 77/217 [02:19<04:19,  1.86s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 111.09it/s]
Pred_shape: (1584, 80), gt_shape: (1323, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  1.63it/s]
Testing:  36%|██████████████████████████████████████████▊                                                                            | 78/217 [02:22<04:42,  2.03s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 178.70it/s]
Pred_shape: (746, 80), gt_shape: (765, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  2.81it/s]
Testing:  36%|███████████████████████████████████████████▎                                                                           | 79/217 [02:23<04:18,  1.87s/batch]===> gaussion start.
sample time step: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:02<00:00, 82.88it/s]
Pred_shape: (1463, 80), gt_shape: (1483, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  2.08it/s]
Testing:  37%|███████████████████████████████████████████▊                                                                           | 80/217 [02:26<04:59,  2.18s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 109.33it/s]
Pred_shape: (1328, 80), gt_shape: (1231, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  2.30it/s]
Testing:  37%|████████████████████████████████████████████▍                                                                          | 81/217 [02:29<05:00,  2.21s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 181.88it/s]
Pred_shape: (720, 80), gt_shape: (735, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  2.97it/s]
Testing:  38%|████████████████████████████████████████████▉                                                                          | 82/217 [02:30<04:27,  1.98s/batch]===> gaussion start.
sample time step: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:02<00:00, 92.76it/s]
Pred_shape: (746, 80), gt_shape: (762, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  3.07it/s]
Testing:  38%|█████████████████████████████████████████████▌                                                                         | 83/217 [02:32<04:46,  2.14s/batch]===> gaussion start.
sample time step: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:02<00:00, 77.36it/s]
Pred_shape: (1485, 80), gt_shape: (1498, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  2.19it/s]
Testing:  39%|██████████████████████████████████████████████                                                                         | 84/217 [02:36<05:21,  2.42s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 184.36it/s]
Pred_shape: (923, 80), gt_shape: (939, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  2.84it/s]
Testing:  39%|██████████████████████████████████████████████▌                                                                        | 85/217 [02:37<04:40,  2.13s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 111.41it/s]
Pred_shape: (1450, 80), gt_shape: (1485, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  2.09it/s]
Testing:  40%|███████████████████████████████████████████████▏                                                                       | 86/217 [02:39<04:45,  2.18s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 141.91it/s]
Pred_shape: (1602, 80), gt_shape: (1309, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  2.19it/s]
Testing:  40%|███████████████████████████████████████████████▋                                                                       | 87/217 [02:41<04:32,  2.09s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 112.59it/s]
Pred_shape: (1392, 80), gt_shape: (1680, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  1.82it/s]
Testing:  41%|████████████████████████████████████████████████▎                                                                      | 88/217 [02:44<04:39,  2.17s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 106.34it/s]
Pred_shape: (768, 80), gt_shape: (779, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  4.19it/s]
Testing:  41%|████████████████████████████████████████████████▊                                                                      | 89/217 [02:46<04:36,  2.16s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 183.52it/s]
Pred_shape: (762, 80), gt_shape: (761, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  3.72it/s]
Testing:  41%|█████████████████████████████████████████████████▎                                                                     | 90/217 [02:47<04:04,  1.92s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 163.73it/s]
Pred_shape: (1029, 80), gt_shape: (1066, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  2.72it/s]
Testing:  42%|█████████████████████████████████████████████████▉                                                                     | 91/217 [02:49<03:50,  1.83s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 133.21it/s]
Pred_shape: (809, 80), gt_shape: (816, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  3.53it/s]
Testing:  42%|██████████████████████████████████████████████████▍                                                                    | 92/217 [02:50<03:47,  1.82s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 164.74it/s]
Pred_shape: (1093, 80), gt_shape: (1095, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  2.75it/s]
Testing:  43%|███████████████████████████████████████████████████                                                                    | 93/217 [02:52<03:37,  1.75s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 157.87it/s]
Pred_shape: (1042, 80), gt_shape: (1066, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  2.66it/s]
Testing:  43%|███████████████████████████████████████████████████▌                                                                   | 94/217 [02:54<03:32,  1.73s/batch]===> gaussion start.
sample time step: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:02<00:00, 97.37it/s]
Pred_shape: (829, 80), gt_shape: (841, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  3.06it/s]
Testing:  44%|████████████████████████████████████████████████████                                                                   | 95/217 [02:56<03:55,  1.93s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 119.20it/s]
Pred_shape: (892, 80), gt_shape: (905, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  2.84it/s]
Testing:  44%|████████████████████████████████████████████████████▋                                                                  | 96/217 [02:58<03:57,  1.97s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 170.26it/s]
Pred_shape: (717, 80), gt_shape: (764, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  3.18it/s]
Testing:  45%|█████████████████████████████████████████████████████▏                                                                 | 97/217 [03:00<03:39,  1.83s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 122.19it/s]
Pred_shape: (780, 80), gt_shape: (782, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  3.39it/s]
Testing:  45%|█████████████████████████████████████████████████████▋                                                                 | 98/217 [03:02<03:41,  1.87s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 105.26it/s]
Pred_shape: (1363, 80), gt_shape: (1381, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  1.84it/s]
Testing:  46%|██████████████████████████████████████████████████████▎                                                                | 99/217 [03:04<04:01,  2.05s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 183.77it/s]
Pred_shape: (738, 80), gt_shape: (763, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  3.35it/s]
Testing:  46%|██████████████████████████████████████████████████████▍                                                               | 100/217 [03:05<03:37,  1.86s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 127.07it/s]
Pred_shape: (744, 80), gt_shape: (751, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  4.15it/s]
Testing:  47%|██████████████████████████████████████████████████████▉                                                               | 101/217 [03:07<03:34,  1.85s/batch]===> gaussion start.
sample time step: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:02<00:00, 79.86it/s]
Pred_shape: (1980, 80), gt_shape: (1653, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  1.89it/s]
Testing:  47%|███████████████████████████████████████████████████████▍                                                              | 102/217 [03:10<04:14,  2.21s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 157.48it/s]
Pred_shape: (1066, 80), gt_shape: (1067, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  3.19it/s]
Testing:  47%|████████████████████████████████████████████████████████                                                              | 103/217 [03:12<03:51,  2.03s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 112.38it/s]
Pred_shape: (1320, 80), gt_shape: (1330, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  2.27it/s]
Testing:  48%|████████████████████████████████████████████████████████▌                                                             | 104/217 [03:14<03:56,  2.09s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 112.02it/s]
Pred_shape: (1317, 80), gt_shape: (1330, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  2.38it/s]
Testing:  48%|█████████████████████████████████████████████████████████                                                             | 105/217 [03:16<03:58,  2.13s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 187.23it/s]
Pred_shape: (896, 80), gt_shape: (916, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  3.07it/s]
Testing:  49%|█████████████████████████████████████████████████████████▋                                                            | 106/217 [03:18<03:32,  1.91s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 112.79it/s]
Pred_shape: (1501, 80), gt_shape: (1531, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  2.16it/s]
Testing:  49%|██████████████████████████████████████████████████████████▏                                                           | 107/217 [03:20<03:41,  2.02s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 114.41it/s]
Pred_shape: (1370, 80), gt_shape: (1390, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  2.22it/s]
Testing:  50%|██████████████████████████████████████████████████████████▋                                                           | 108/217 [03:22<03:46,  2.08s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 184.64it/s]
Pred_shape: (778, 80), gt_shape: (781, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  3.78it/s]
Testing:  50%|███████████████████████████████████████████████████████████▎                                                          | 109/217 [03:24<03:21,  1.86s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 102.10it/s]
Pred_shape: (2222, 80), gt_shape: (2115, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  1.43it/s]
Testing:  51%|███████████████████████████████████████████████████████████▊                                                          | 110/217 [03:26<03:46,  2.12s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 113.04it/s]
Pred_shape: (1401, 80), gt_shape: (1431, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  2.13it/s]
Testing:  51%|████████████████████████████████████████████████████████████▎                                                         | 111/217 [03:29<03:49,  2.16s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 112.93it/s]
Pred_shape: (1326, 80), gt_shape: (1330, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  1.95it/s]
Testing:  52%|████████████████████████████████████████████████████████████▉                                                         | 112/217 [03:31<03:51,  2.20s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 112.44it/s]
Pred_shape: (1586, 80), gt_shape: (1608, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  1.75it/s]
Testing:  52%|█████████████████████████████████████████████████████████████▍                                                        | 113/217 [03:33<03:54,  2.25s/batch]===> gaussion start.
sample time step: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:02<00:00, 89.32it/s]
Pred_shape: (2226, 80), gt_shape: (2144, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  1.44it/s]
Testing:  53%|█████████████████████████████████████████████████████████████▉                                                        | 114/217 [03:36<04:15,  2.49s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 173.49it/s]
Pred_shape: (493, 80), gt_shape: (500, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  5.43it/s]
Testing:  53%|██████████████████████████████████████████████████████████████▌                                                       | 115/217 [03:38<03:38,  2.15s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 176.07it/s]
Pred_shape: (792, 80), gt_shape: (741, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  3.86it/s]
Testing:  53%|███████████████████████████████████████████████████████████████                                                       | 116/217 [03:39<03:14,  1.92s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 110.00it/s]
Pred_shape: (1319, 80), gt_shape: (1034, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  2.52it/s]
Testing:  54%|███████████████████████████████████████████████████████████████▌                                                      | 117/217 [03:41<03:21,  2.02s/batch]===> gaussion start.
sample time step: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:02<00:00, 92.26it/s]
Pred_shape: (1318, 80), gt_shape: (1330, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  2.83it/s]
Testing:  54%|████████████████████████████████████████████████████████████████▏                                                     | 118/217 [03:44<03:35,  2.18s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 111.00it/s]
Pred_shape: (1469, 80), gt_shape: (1326, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  2.65it/s]
Testing:  55%|████████████████████████████████████████████████████████████████▋                                                     | 119/217 [03:46<03:33,  2.18s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 157.88it/s]
Pred_shape: (1261, 80), gt_shape: (1284, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  2.52it/s]
Testing:  55%|█████████████████████████████████████████████████████████████████▎                                                    | 120/217 [03:48<03:17,  2.03s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 102.40it/s]
Pred_shape: (1445, 80), gt_shape: (1318, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  2.65it/s]
Testing:  56%|█████████████████████████████████████████████████████████████████▊                                                    | 121/217 [03:50<03:24,  2.13s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 111.34it/s]
Pred_shape: (1309, 80), gt_shape: (1316, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  2.73it/s]
Testing:  56%|██████████████████████████████████████████████████████████████████▎                                                   | 122/217 [03:52<03:23,  2.14s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 113.39it/s]
Pred_shape: (1379, 80), gt_shape: (1295, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  2.59it/s]
Testing:  57%|██████████████████████████████████████████████████████████████████▉                                                   | 123/217 [03:54<03:22,  2.15s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 113.95it/s]
Pred_shape: (1302, 80), gt_shape: (1312, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  2.46it/s]
Testing:  57%|███████████████████████████████████████████████████████████████████▍                                                  | 124/217 [03:57<03:20,  2.16s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 165.39it/s]
Pred_shape: (1416, 80), gt_shape: (1301, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  2.41it/s]
Testing:  58%|███████████████████████████████████████████████████████████████████▉                                                  | 125/217 [03:58<03:04,  2.00s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 112.89it/s]
Pred_shape: (1318, 80), gt_shape: (1318, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  2.24it/s]
Testing:  58%|████████████████████████████████████████████████████████████████████▌                                                 | 126/217 [04:01<03:08,  2.07s/batch]===> gaussion start.
sample time step: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:02<00:00, 86.01it/s]
Pred_shape: (1382, 80), gt_shape: (1284, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  2.34it/s]
Testing:  59%|█████████████████████████████████████████████████████████████████████                                                 | 127/217 [04:03<03:25,  2.28s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 112.11it/s]
Pred_shape: (1388, 80), gt_shape: (1386, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  2.58it/s]
Testing:  59%|█████████████████████████████████████████████████████████████████████▌                                                | 128/217 [04:06<03:20,  2.26s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 116.15it/s]
Pred_shape: (1703, 80), gt_shape: (1396, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  2.13it/s]
Testing:  59%|██████████████████████████████████████████████████████████████████████▏                                               | 129/217 [04:08<03:17,  2.24s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 170.18it/s]
Pred_shape: (755, 80), gt_shape: (776, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  4.03it/s]
Testing:  60%|██████████████████████████████████████████████████████████████████████▋                                               | 130/217 [04:09<02:54,  2.00s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 154.73it/s]
Pred_shape: (1121, 80), gt_shape: (1128, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  2.99it/s]
Testing:  60%|███████████████████████████████████████████████████████████████████████▏                                              | 131/217 [04:11<02:42,  1.89s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 180.02it/s]
Pred_shape: (938, 80), gt_shape: (828, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  3.80it/s]
Testing:  61%|███████████████████████████████████████████████████████████████████████▊                                              | 132/217 [04:12<02:28,  1.74s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 110.01it/s]
Pred_shape: (1318, 80), gt_shape: (1318, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  2.31it/s]
Testing:  61%|████████████████████████████████████████████████████████████████████████▎                                             | 133/217 [04:14<02:39,  1.90s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 108.91it/s]
Pred_shape: (1380, 80), gt_shape: (1291, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  2.59it/s]
Testing:  62%|████████████████████████████████████████████████████████████████████████▊                                             | 134/217 [04:17<02:46,  2.00s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 109.33it/s]
Pred_shape: (1311, 80), gt_shape: (1314, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  2.40it/s]
Testing:  62%|█████████████████████████████████████████████████████████████████████████▍                                            | 135/217 [04:19<02:50,  2.08s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 110.69it/s]
Pred_shape: (1320, 80), gt_shape: (1274, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  2.37it/s]
Testing:  63%|█████████████████████████████████████████████████████████████████████████▉                                            | 136/217 [04:21<02:52,  2.13s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 110.91it/s]
Pred_shape: (1391, 80), gt_shape: (1399, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  2.38it/s]
Testing:  63%|██████████████████████████████████████████████████████████████████████████▍                                           | 137/217 [04:23<02:53,  2.16s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 154.59it/s]
Pred_shape: (1261, 80), gt_shape: (1229, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  2.94it/s]
Testing:  64%|███████████████████████████████████████████████████████████████████████████                                           | 138/217 [04:25<02:38,  2.01s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 110.10it/s]
Pred_shape: (1317, 80), gt_shape: (1326, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  2.35it/s]
Testing:  64%|███████████████████████████████████████████████████████████████████████████▌                                          | 139/217 [04:27<02:42,  2.08s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 111.28it/s]
Pred_shape: (1382, 80), gt_shape: (1283, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  2.34it/s]
Testing:  65%|████████████████████████████████████████████████████████████████████████████▏                                         | 140/217 [04:30<02:44,  2.13s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 112.25it/s]
Pred_shape: (1379, 80), gt_shape: (1386, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  2.06it/s]
Testing:  65%|████████████████████████████████████████████████████████████████████████████▋                                         | 141/217 [04:32<02:45,  2.18s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 100.51it/s]
Pred_shape: (1330, 80), gt_shape: (1231, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  2.82it/s]
Testing:  65%|█████████████████████████████████████████████████████████████████████████████▏                                        | 142/217 [04:34<02:47,  2.23s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 113.88it/s]
Pred_shape: (1313, 80), gt_shape: (1319, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  2.36it/s]
Testing:  66%|█████████████████████████████████████████████████████████████████████████████▊                                        | 143/217 [04:36<02:44,  2.22s/batch]===> gaussion start.
sample time step: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:02<00:00, 99.07it/s]
Pred_shape: (1448, 80), gt_shape: (1285, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  2.27it/s]
Testing:  66%|██████████████████████████████████████████████████████████████████████████████▎                                       | 144/217 [04:39<02:47,  2.30s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 112.49it/s]
Pred_shape: (1389, 80), gt_shape: (1390, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  2.02it/s]
Testing:  67%|██████████████████████████████████████████████████████████████████████████████▊                                       | 145/217 [04:41<02:45,  2.30s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 107.92it/s]
Pred_shape: (1432, 80), gt_shape: (1307, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  2.07it/s]
Testing:  67%|███████████████████████████████████████████████████████████████████████████████▍                                      | 146/217 [04:44<02:44,  2.31s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 149.36it/s]
Pred_shape: (989, 80), gt_shape: (1025, 80): 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  3.31it/s]
Testing:  68%|███████████████████████████████████████████████████████████████████████████████▉                                      | 147/217 [04:45<02:28,  2.12s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 123.90it/s]
Pred_shape: (1778, 80), gt_shape: (1761, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  1.91it/s]
Testing:  68%|████████████████████████████████████████████████████████████████████████████████▍                                     | 148/217 [04:47<02:26,  2.13s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 153.35it/s]
Pred_shape: (1009, 80), gt_shape: (1009, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  2.84it/s]
Testing:  69%|█████████████████████████████████████████████████████████████████████████████████                                     | 149/217 [04:49<02:15,  1.99s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 128.70it/s]
Pred_shape: (623, 80), gt_shape: (645, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  4.62it/s]
Testing:  69%|█████████████████████████████████████████████████████████████████████████████████▌                                    | 150/217 [04:51<02:09,  1.93s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 165.31it/s]
Pred_shape: (1220, 80), gt_shape: (1224, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  2.93it/s]
Testing:  70%|██████████████████████████████████████████████████████████████████████████████████                                    | 151/217 [04:52<02:00,  1.82s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 109.31it/s]
Pred_shape: (1293, 80), gt_shape: (1310, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  2.82it/s]
Testing:  70%|██████████████████████████████████████████████████████████████████████████████████▋                                   | 152/217 [04:55<02:05,  1.94s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 152.34it/s]
Pred_shape: (1254, 80), gt_shape: (1250, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  2.30it/s]
Testing:  71%|███████████████████████████████████████████████████████████████████████████████████▏                                  | 153/217 [04:56<02:00,  1.89s/batch]===> gaussion start.
sample time step: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:02<00:00, 90.20it/s]
Pred_shape: (1293, 80), gt_shape: (1313, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  2.83it/s]
Testing:  71%|███████████████████████████████████████████████████████████████████████████████████▋                                  | 154/217 [04:59<02:12,  2.10s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 158.00it/s]
Pred_shape: (1139, 80), gt_shape: (1146, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  2.68it/s]
Testing:  71%|████████████████████████████████████████████████████████████████████████████████████▎                                 | 155/217 [05:01<02:01,  1.97s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 153.04it/s]
Pred_shape: (1479, 80), gt_shape: (1486, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  2.23it/s]
Testing:  72%|████████████████████████████████████████████████████████████████████████████████████▊                                 | 156/217 [05:02<01:56,  1.91s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 150.07it/s]
Pred_shape: (520, 80), gt_shape: (528, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  4.50it/s]
Testing:  72%|█████████████████████████████████████████████████████████████████████████████████████▎                                | 157/217 [05:04<01:48,  1.81s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 105.05it/s]
Pred_shape: (1352, 80), gt_shape: (1132, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  2.50it/s]
Testing:  73%|█████████████████████████████████████████████████████████████████████████████████████▉                                | 158/217 [05:06<01:56,  1.97s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 109.58it/s]
Pred_shape: (1166, 80), gt_shape: (1189, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  2.78it/s]
Testing:  73%|██████████████████████████████████████████████████████████████████████████████████████▍                               | 159/217 [05:09<01:58,  2.04s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 187.52it/s]
Pred_shape: (747, 80), gt_shape: (753, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  3.14it/s]
Testing:  74%|███████████████████████████████████████████████████████████████████████████████████████                               | 160/217 [05:10<01:45,  1.85s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 130.06it/s]
Pred_shape: (583, 80), gt_shape: (589, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  5.18it/s]
Testing:  74%|███████████████████████████████████████████████████████████████████████████████████████▌                              | 161/217 [05:12<01:42,  1.82s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 158.91it/s]
Pred_shape: (1245, 80), gt_shape: (1262, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  2.90it/s]
Testing:  75%|████████████████████████████████████████████████████████████████████████████████████████                              | 162/217 [05:13<01:36,  1.76s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 149.41it/s]
Pred_shape: (1172, 80), gt_shape: (1190, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  2.49it/s]
Testing:  75%|████████████████████████████████████████████████████████████████████████████████████████▋                             | 163/217 [05:15<01:35,  1.76s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 155.26it/s]
Pred_shape: (1052, 80), gt_shape: (1071, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  3.11it/s]
Testing:  76%|█████████████████████████████████████████████████████████████████████████████████████████▏                            | 164/217 [05:17<01:31,  1.72s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 179.96it/s]
Pred_shape: (755, 80), gt_shape: (768, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  3.87it/s]
Testing:  76%|█████████████████████████████████████████████████████████████████████████████████████████▋                            | 165/217 [05:18<01:24,  1.62s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 174.64it/s]
Pred_shape: (551, 80), gt_shape: (567, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  4.08it/s]
Testing:  76%|██████████████████████████████████████████████████████████████████████████████████████████▎                           | 166/217 [05:19<01:19,  1.55s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 161.80it/s]
Pred_shape: (790, 80), gt_shape: (799, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  3.38it/s]
Testing:  77%|██████████████████████████████████████████████████████████████████████████████████████████▊                           | 167/217 [05:21<01:17,  1.55s/batch]===> gaussion start.
sample time step: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:02<00:00, 94.22it/s]
Pred_shape: (421, 80), gt_shape: (439, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  6.56it/s]
Testing:  77%|███████████████████████████████████████████████████████████████████████████████████████████▎                          | 168/217 [05:23<01:27,  1.78s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 164.95it/s]
Pred_shape: (1089, 80), gt_shape: (1023, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  3.35it/s]
Testing:  78%|███████████████████████████████████████████████████████████████████████████████████████████▉                          | 169/217 [05:25<01:21,  1.70s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 155.19it/s]
Pred_shape: (1237, 80), gt_shape: (1263, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  2.88it/s]
Testing:  78%|████████████████████████████████████████████████████████████████████████████████████████████▍                         | 170/217 [05:27<01:19,  1.69s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 146.06it/s]
Pred_shape: (1068, 80), gt_shape: (1070, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  3.42it/s]
Testing:  79%|████████████████████████████████████████████████████████████████████████████████████████████▉                         | 171/217 [05:28<01:17,  1.69s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 109.95it/s]
Pred_shape: (1373, 80), gt_shape: (1388, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  2.62it/s]
Testing:  79%|█████████████████████████████████████████████████████████████████████████████████████████████▌                        | 172/217 [05:30<01:23,  1.84s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 169.85it/s]
Pred_shape: (478, 80), gt_shape: (480, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  4.58it/s]
Testing:  80%|██████████████████████████████████████████████████████████████████████████████████████████████                        | 173/217 [05:32<01:15,  1.71s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 101.79it/s]
Pred_shape: (1730, 80), gt_shape: (1756, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  1.79it/s]
Testing:  80%|██████████████████████████████████████████████████████████████████████████████████████████████▌                       | 174/217 [05:34<01:24,  1.97s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 160.31it/s]
Pred_shape: (757, 80), gt_shape: (761, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  3.88it/s]
Testing:  81%|███████████████████████████████████████████████████████████████████████████████████████████████▏                      | 175/217 [05:36<01:17,  1.84s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 182.48it/s]
Pred_shape: (572, 80), gt_shape: (581, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  5.18it/s]
Testing:  81%|███████████████████████████████████████████████████████████████████████████████████████████████▋                      | 176/217 [05:37<01:08,  1.68s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 167.86it/s]
Pred_shape: (1217, 80), gt_shape: (1238, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  3.00it/s]
Testing:  82%|████████████████████████████████████████████████████████████████████████████████████████████████▏                     | 177/217 [05:39<01:05,  1.64s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 159.87it/s]
Pred_shape: (1160, 80), gt_shape: (1185, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  2.85it/s]
Testing:  82%|████████████████████████████████████████████████████████████████████████████████████████████████▊                     | 178/217 [05:40<01:03,  1.63s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 158.31it/s]
Pred_shape: (1060, 80), gt_shape: (1081, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  2.53it/s]
Testing:  82%|█████████████████████████████████████████████████████████████████████████████████████████████████▎                    | 179/217 [05:42<01:02,  1.65s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 139.23it/s]
Pred_shape: (753, 80), gt_shape: (763, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  3.42it/s]
Testing:  83%|█████████████████████████████████████████████████████████████████████████████████████████████████▉                    | 180/217 [05:44<01:02,  1.68s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 174.20it/s]
Pred_shape: (556, 80), gt_shape: (579, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  5.60it/s]
Testing:  83%|██████████████████████████████████████████████████████████████████████████████████████████████████▍                   | 181/217 [05:45<00:56,  1.58s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 179.94it/s]
Pred_shape: (779, 80), gt_shape: (783, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  3.91it/s]
Testing:  84%|██████████████████████████████████████████████████████████████████████████████████████████████████▉                   | 182/217 [05:47<00:53,  1.52s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 160.27it/s]
Pred_shape: (513, 80), gt_shape: (507, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  4.39it/s]
Testing:  84%|███████████████████████████████████████████████████████████████████████████████████████████████████▌                  | 183/217 [05:48<00:51,  1.51s/batch]===> gaussion start.
sample time step: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:02<00:00, 92.57it/s]
Pred_shape: (1193, 80), gt_shape: (1043, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  2.66it/s]
Testing:  85%|████████████████████████████████████████████████████████████████████████████████████████████████████                  | 184/217 [05:51<01:00,  1.83s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 156.69it/s]
Pred_shape: (833, 80), gt_shape: (843, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  4.02it/s]
Testing:  85%|████████████████████████████████████████████████████████████████████████████████████████████████████▌                 | 185/217 [05:52<00:55,  1.74s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 166.69it/s]
Pred_shape: (461, 80), gt_shape: (476, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  5.82it/s]
Testing:  86%|█████████████████████████████████████████████████████████████████████████████████████████████████████▏                | 186/217 [05:54<00:50,  1.64s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 103.08it/s]
Pred_shape: (2190, 80), gt_shape: (1953, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  1.65it/s]
Testing:  86%|█████████████████████████████████████████████████████████████████████████████████████████████████████▋                | 187/217 [05:56<00:57,  1.92s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 150.61it/s]
Pred_shape: (815, 80), gt_shape: (811, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  4.15it/s]
Testing:  87%|██████████████████████████████████████████████████████████████████████████████████████████████████████▏               | 188/217 [05:58<00:52,  1.82s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 183.87it/s]
Pred_shape: (814, 80), gt_shape: (819, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  3.92it/s]
Testing:  87%|██████████████████████████████████████████████████████████████████████████████████████████████████████▊               | 189/217 [05:59<00:47,  1.68s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 184.31it/s]
Pred_shape: (800, 80), gt_shape: (806, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  3.98it/s]
Testing:  88%|███████████████████████████████████████████████████████████████████████████████████████████████████████▎              | 190/217 [06:00<00:42,  1.58s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 175.63it/s]
Pred_shape: (773, 80), gt_shape: (786, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  3.43it/s]
Testing:  88%|███████████████████████████████████████████████████████████████████████████████████████████████████████▊              | 191/217 [06:02<00:40,  1.54s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 103.44it/s]
Pred_shape: (809, 80), gt_shape: (809, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  3.34it/s]
Testing:  88%|████████████████████████████████████████████████████████████████████████████████████████████████████████▍             | 192/217 [06:04<00:43,  1.76s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 114.28it/s]
Pred_shape: (800, 80), gt_shape: (799, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  4.05it/s]
Testing:  89%|████████████████████████████████████████████████████████████████████████████████████████████████████████▉             | 193/217 [06:06<00:44,  1.84s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 181.48it/s]
Pred_shape: (756, 80), gt_shape: (768, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  4.45it/s]
Testing:  89%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▍            | 194/217 [06:08<00:38,  1.69s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 150.95it/s]
Pred_shape: (1101, 80), gt_shape: (1044, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  2.82it/s]
Testing:  90%|██████████████████████████████████████████████████████████████████████████████████████████████████████████            | 195/217 [06:09<00:37,  1.69s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 138.50it/s]
Pred_shape: (785, 80), gt_shape: (794, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  3.30it/s]
Testing:  90%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▌           | 196/217 [06:11<00:35,  1.71s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 103.91it/s]
Pred_shape: (1599, 80), gt_shape: (1621, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  2.06it/s]
Testing:  91%|███████████████████████████████████████████████████████████████████████████████████████████████████████████           | 197/217 [06:13<00:38,  1.93s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 183.23it/s]
Pred_shape: (809, 80), gt_shape: (820, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  4.15it/s]
Testing:  91%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▋          | 198/217 [06:15<00:33,  1.76s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 173.77it/s]
Pred_shape: (778, 80), gt_shape: (788, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  3.89it/s]
Testing:  92%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▏         | 199/217 [06:16<00:29,  1.66s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 113.20it/s]
Pred_shape: (1598, 80), gt_shape: (1617, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  2.21it/s]
Testing:  92%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▊         | 200/217 [06:18<00:31,  1.83s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 182.35it/s]
Pred_shape: (947, 80), gt_shape: (902, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  3.05it/s]
Testing:  93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▎        | 201/217 [06:20<00:27,  1.71s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 119.41it/s]
Pred_shape: (898, 80), gt_shape: (913, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  3.70it/s]
Testing:  93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▊        | 202/217 [06:22<00:26,  1.79s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 181.15it/s]
Pred_shape: (807, 80), gt_shape: (814, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  3.44it/s]
Testing:  94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▍       | 203/217 [06:23<00:23,  1.68s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 175.51it/s]
Pred_shape: (767, 80), gt_shape: (774, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  4.22it/s]
Testing:  94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▉       | 204/217 [06:25<00:20,  1.59s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 185.67it/s]
Pred_shape: (815, 80), gt_shape: (834, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  3.88it/s]
Testing:  94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▍      | 205/217 [06:26<00:18,  1.52s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 180.41it/s]
Pred_shape: (787, 80), gt_shape: (801, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  3.99it/s]
Testing:  95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████      | 206/217 [06:27<00:16,  1.48s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 139.52it/s]
Pred_shape: (1607, 80), gt_shape: (1619, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  2.24it/s]
Testing:  95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌     | 207/217 [06:29<00:16,  1.61s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 183.96it/s]
Pred_shape: (787, 80), gt_shape: (805, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  3.82it/s]
Testing:  96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████     | 208/217 [06:31<00:13,  1.54s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 184.31it/s]
Pred_shape: (802, 80), gt_shape: (811, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  3.79it/s]
Testing:  96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋    | 209/217 [06:32<00:11,  1.48s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 112.98it/s]
Pred_shape: (1581, 80), gt_shape: (1593, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  2.20it/s]
Testing:  97%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏   | 210/217 [06:34<00:11,  1.71s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 187.65it/s]
Pred_shape: (885, 80), gt_shape: (883, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  3.68it/s]
Testing:  97%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋   | 211/217 [06:36<00:09,  1.60s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 187.92it/s]
Pred_shape: (856, 80), gt_shape: (865, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  3.30it/s]
Testing:  98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎  | 212/217 [06:37<00:07,  1.54s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 117.59it/s]
Pred_shape: (1212, 80), gt_shape: (1219, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  2.83it/s]
Testing:  98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊  | 213/217 [06:39<00:06,  1.70s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 173.51it/s]
Pred_shape: (390, 80), gt_shape: (391, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  4.56it/s]
Testing:  99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 214/217 [06:40<00:04,  1.61s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 140.28it/s]
Pred_shape: (1603, 80), gt_shape: (1621, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  1.90it/s]
Testing:  99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 215/217 [06:42<00:03,  1.72s/batch]===> gaussion start.
sample time step: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:02<00:00, 69.91it/s]
Pred_shape: (1570, 80), gt_shape: (1589, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  2.21it/s]
Testing: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍| 216/217 [06:46<00:02,  2.21s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 183.86it/s]
Pred_shape: (792, 80), gt_shape: (820, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  4.01it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 434/434 [00:04<00:00, 104.21it/s]
Testing: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 217/217 [06:52<00:00,  1.90s/batch]
(venv3712) (python3.7.12) yeqiang@yeqiang-Default-string:~/Downloads/ai/M4Singer/code$

(venv3712) (python3.7.12) yeqiang@yeqiang-Default-string:~/Downloads/ai/M4Singer/code$ bash 4.1.m4singer_diff_e2e.sh 
| load 'model' from 'checkpoints/m4singer_diff_e2e/model_ckpt_steps_900000.ckpt'.
| load 'model' from 'checkpoints/m4singer_pe/model_ckpt_steps_280000.ckpt'.
| load HifiGAN:  checkpoints/m4singer_hifigan/model_ckpt_steps_1970000.ckpt
Removing weight norm...
Pass word-notes check.
37 37 37
Pass word-notes check.
===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 129.47it/s]
 

(venv3712) (base) yeqiang@yeqiang-Default-string:~/Downloads/ai/M4Singer/code$ bash 4.2.infer.sh 
| load 'model' from 'checkpoints/m4singer_diff_e2e/model_ckpt_steps_900000.ckpt'.
| load 'model' from 'checkpoints/m4singer_pe/model_ckpt_steps_280000.ckpt'.
| load HifiGAN:  checkpoints/m4singer_hifigan/model_ckpt_steps_1970000.ckpt
Removing weight norm...
Running on local URL:  http://127.0.0.1:7860
 

你可能感兴趣的:(ubuntu,ai,M4Singer,M4Singer,ai,python)