显卡
(venv3712) (python3.7.12) yeqiang@yeqiang-Default-string:~/Downloads/ai/M4Singer/code$ nvidia-smi
Mon Oct 9 12:09:50 2023
+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 535.113.01 Driver Version: 535.113.01 CUDA Version: 12.2 |
|-----------------------------------------+----------------------+----------------------+
| GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|=========================================+======================+======================|
| 0 NVIDIA GeForce RTX 4060 Ti Off | 00000000:01:00.0 Off | N/A |
| 0% 48C P8 13W / 165W | 190MiB / 16380MiB | 0% Default |
| | | N/A |
+-----------------------------------------+----------------------+----------------------+
+---------------------------------------------------------------------------------------+
| Processes: |
| GPU GI CI PID Type Process name GPU Memory |
| ID ID Usage |
|=======================================================================================|
| 0 N/A N/A 16459 G /usr/lib/xorg/Xorg 140MiB |
| 0 N/A N/A 16608 G /usr/bin/gnome-shell 42MiB |
+---------------------------------------------------------------------------------------+
CPU
(venv3712) (python3.7.12) yeqiang@yeqiang-Default-string:~/Downloads/ai/M4Singer/code$ lscpu
架构: x86_64
CPU 运行模式: 32-bit, 64-bit
Address sizes: 39 bits physical, 48 bits virtual
字节序: Little Endian
CPU: 16
在线 CPU 列表: 0-15
厂商 ID: GenuineIntel
型号名称: 13th Gen Intel(R) Core(TM) i5-13400F
CPU 系列: 6
型号: 191
每个核的线程数: 2
每个座的核数: 10
座: 1
步进: 2
CPU 最大 MHz: 4600.0000
CPU 最小 MHz: 800.0000
BogoMIPS: 4992.00
标记: fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush dts acpi mmx fxsr sse sse2 ss ht tm pbe syscall nx pdpe1gb rdtscp
lm constant_tsc art arch_perfmon pebs bts rep_good nopl xtopology nonstop_tsc cpuid aperfmperf tsc_known_freq pni pclmulqdq dtes64 monitor ds_cp
l est tm2 ssse3 sdbg fma cx16 xtpr pdcm sse4_1 sse4_2 x2apic movbe popcnt tsc_deadline_timer aes xsave avx f16c rdrand lahf_lm abm 3dnowprefetch
cpuid_fault epb ssbd ibrs ibpb stibp ibrs_enhanced fsgsbase tsc_adjust bmi1 avx2 smep bmi2 erms invpcid rdseed adx smap clflushopt clwb intel_pt
sha_ni xsaveopt xsavec xgetbv1 xsaves split_lock_detect avx_vnni dtherm ida arat pln pts hwp hwp_notify hwp_act_window hwp_epp hwp_pkg_req hfi um
ip pku ospke waitpkg gfni vaes vpclmulqdq rdpid movdiri movdir64b fsrm md_clear serialize arch_lbr ibt flush_l1d arch_capabilities
Caches (sum of all):
L1d: 416 KiB (10 instances)
L1i: 448 KiB (10 instances)
L2: 9.5 MiB (7 instances)
L3: 20 MiB (1 instance)
NUMA:
NUMA 节点: 1
NUMA 节点0 CPU: 0-15
Vulnerabilities:
Gather data sampling: Not affected
Itlb multihit: Not affected
L1tf: Not affected
Mds: Not affected
Meltdown: Not affected
Mmio stale data: Not affected
Retbleed: Not affected
Spec rstack overflow: Not affected
Spec store bypass: Mitigation; Speculative Store Bypass disabled via prctl
Spectre v1: Mitigation; usercopy/swapgs barriers and __user pointer sanitization
Spectre v2: Mitigation; Enhanced / Automatic IBRS, IBPB conditional, RSB filling, PBRSB-eIBRS SW sequence
Srbds: Not affected
Tsx async abort: Not affected
(venv3712) (python3.7.12) yeqiang@yeqiang-Default-string:~/Downloads/ai/M4Singer/code$ bash 1.binarize.sh
| Hparams chains: ['configs/config_base.yaml', 'configs/tts/base.yaml', 'configs/tts/fs2.yaml', 'configs/tts/base_zh.yaml', 'configs/singing/base.yaml', 'usr/configs/base.yaml', 'usr/configs/popcs_ds_beta6.yaml', 'usr/configs/m4singer/base.yaml']
| Hparams:
K_step: 51, accumulate_grad_batches: 1, audio_num_mel_bins: 80, audio_sample_rate: 24000, base_config: ['usr/configs/popcs_ds_beta6.yaml'],
binarization_args: {'shuffle': False, 'with_txt': True, 'with_wav': False, 'with_align': True, 'with_spk_embed': True, 'with_f0': True, 'with_f0cwt': True}, binarizer_cls: data_gen.singing.binarize.M4SingerBinarizer, binary_data_dir: data/binary/m4singer, check_val_every_n_epoch: 10, clip_grad_norm: 1,
content_cond_steps: [], cwt_add_f0_loss: False, cwt_hidden_size: 128, cwt_layers: 2, cwt_loss: l1,
cwt_std_scale: 0.8, datasets: ['m4singer'], debug: False, dec_ffn_kernel_size: 9, dec_layers: 4,
decay_steps: 50000, decoder_type: fft, dict_dir: , diff_decoder_type: wavenet, diff_loss_type: l1,
dilation_cycle_length: 1, dropout: 0.1, ds_workers: 4, dur_enc_hidden_stride_kernel: ['0,2,3', '0,2,3', '0,1,3'], dur_loss: mse,
dur_predictor_kernel: 3, dur_predictor_layers: 5, enc_ffn_kernel_size: 9, enc_layers: 4, encoder_K: 8,
encoder_type: fft, endless_ds: True, ffn_act: gelu, ffn_padding: SAME, fft_size: 512,
fmax: 12000, fmin: 30, fs2_ckpt: , gen_dir_name: , gen_tgt_spk_id: -1,
hidden_size: 256, hop_size: 128, infer: False, keep_bins: 80, lambda_commit: 0.25,
lambda_energy: 0.0, lambda_f0: 1.0, lambda_ph_dur: 1.0, lambda_sent_dur: 1.0, lambda_uv: 1.0,
lambda_word_dur: 1.0, load_ckpt: , log_interval: 100, loud_norm: False, lr: 0.001,
max_beta: 0.06, max_epochs: 1000, max_eval_sentences: 1, max_eval_tokens: 60000, max_frames: 5000,
max_input_tokens: 1550, max_sentences: 12, max_tokens: 40000, max_updates: 160000, mel_loss: ssim:0.5|l1:0.5,
mel_vmax: 1.5, mel_vmin: -6.0, min_level_db: -120, norm_type: gn, num_ckpt_keep: 3,
num_heads: 2, num_sanity_val_steps: 1, num_spk: 20, num_test_samples: 0, num_valid_plots: 10,
optimizer_adam_beta1: 0.9, optimizer_adam_beta2: 0.98, out_wav_norm: False, pe_ckpt: checkpoints/m4singer_pe, pe_enable: True,
pitch_ar: False, pitch_enc_hidden_stride_kernel: ['0,2,5', '0,2,5', '0,2,5'], pitch_extractor: parselmouth, pitch_loss: l1, pitch_norm: log,
pitch_type: frame, pre_align_args: {'use_tone': False, 'forced_align': 'mfa', 'use_sox': True, 'txt_processor': 'zh_g2pM', 'allow_no_txt': False, 'denoise': False}, pre_align_cls: data_gen.singing.pre_align.SingingPreAlign, predictor_dropout: 0.5, predictor_grad: 0.1,
predictor_hidden: -1, predictor_kernel: 5, predictor_layers: 5, prenet_dropout: 0.5, prenet_hidden_size: 256,
pretrain_fs_ckpt: , processed_data_dir: xxx, profile_infer: False, raw_data_dir: data/raw/m4singer, ref_norm_layer: bn,
rel_pos: True, reset_phone_dict: True, residual_channels: 256, residual_layers: 20, save_best: False,
save_ckpt: True, save_codes: ['configs', 'modules', 'tasks', 'utils', 'usr'], save_f0: True, save_gt: True, schedule_type: linear,
seed: 1234, sort_by_len: True, spec_max: [-0.3894500136375427, -0.3796464204788208, -0.2914905250072479, -0.15550297498703003, -0.08502643555402756, 0.10698417574167252, -0.0739326998591423, -0.0541548952460289, 0.15501998364925385, 0.06483431905508041, 0.03054228238761425, -0.013737732544541359, -0.004876468330621719, 0.04368264228105545, 0.13329921662807465, 0.16471388936042786, 0.04605761915445328, -0.05680707097053528, 0.0542571023106575, -0.0076539707370102406, -0.00953489076346159, -0.04434828832745552, 0.001293870504014194, -0.12238839268684387, 0.06418416649103165, 0.02843189612030983, 0.08505241572856903, 0.07062800228595734, 0.00120724702719599, -0.07675088942050934, 0.03785804659128189, 0.04890783503651619, -0.06888376921415329, -0.0839693546295166, -0.17545585334300995, -0.2911079525947571, -0.4238220453262329, -0.262084037065506, -0.3002263605594635, -0.3845032751560211, -0.3906497061252594, -0.6550108790397644, -0.7810799479484558, -0.7503029704093933, -0.7995198965072632, -0.8092347383499146, -0.6196113228797913, -0.6684317588806152, -0.7735874056816101, -0.8324533104896545, -0.9601566791534424, -0.955253541469574, -0.748817503452301, -0.9106167554855347, -0.9707801342010498, -1.053107500076294, -1.0448424816131592, -1.1082794666290283, -1.1296544075012207, -1.071642279624939, -1.1003081798553467, -1.166810154914856, -1.1408926248550415, -1.1330615282058716, -1.1167492866516113, -1.0716774463653564, -1.035891056060791, -1.0092483758926392, -0.9675999879837036, -0.938962996006012, -1.0120564699172974, -0.9777995347976685, -1.029313564300537, -0.9459163546562195, -0.8519706130027771, -0.7751091122627258, -0.7933766841888428, -0.9019735455513, -0.9983296990394592, -1.505873441696167], spec_min: [-6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0], spk_cond_steps: [],
stop_token_weight: 5.0, task_cls: usr.diffsinger_task.DiffSingerTask, test_ids: [], test_input_dir: , test_num: 0,
test_prefixes: ['Alto-2#岁月神偷', 'Alto-2#奇妙能力歌', 'Tenor-1#一千年以后', 'Tenor-1#童话', 'Tenor-2#消愁', 'Tenor-2#一荤一素', 'Soprano-1#念奴娇赤壁怀古', 'Soprano-1#问春'], test_set_name: test, timesteps: 100, train_set_name: train, use_denoise: False,
use_energy_embed: False, use_gt_dur: False, use_gt_f0: False, use_midi: True, use_nsf: True,
use_pitch_embed: True, use_pos_embed: True, use_spk_embed: False, use_spk_id: True, use_split_spk_id: False,
use_uv: True, use_var_enc: False, val_check_interval: 2000, valid_num: 0, valid_set_name: valid,
validate: False, vocoder: vocoders.hifigan.HifiGAN, vocoder_ckpt: checkpoints/m4singer_hifigan, warmup_updates: 2000, wav2spec_eps: 1e-6,
weight_decay: 0, win_size: 512, work_dir: ,
| Binarizer:
spkers: {'Alto-5', 'Bass-2', 'Alto-4', 'Soprano-3', 'Alto-3', 'Tenor-5', 'Tenor-4', 'Alto-1', 'Alto-6', 'Soprano-2', 'Tenor-6', 'Tenor-3', 'Alto-2', 'Soprano-1', 'Tenor-7', 'Bass-1', 'Alto-7', 'Bass-3', 'Tenor-1', 'Tenor-2'}
| spk_map: {'Alto-1': 0, 'Alto-2': 1, 'Alto-3': 2, 'Alto-4': 3, 'Alto-5': 4, 'Alto-6': 5, 'Alto-7': 6, 'Bass-1': 7, 'Bass-2': 8, 'Bass-3': 9, 'Soprano-1': 10, 'Soprano-2': 11, 'Soprano-3': 12, 'Tenor-1': 13, 'Tenor-2': 14, 'Tenor-3': 15, 'Tenor-4': 16, 'Tenor-5': 17, 'Tenor-6': 18, 'Tenor-7': 19}
| Build phone set: ['
Loaded the voice encoder model on cuda in 0.78 seconds.
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 217/217 [00:16<00:00, 13.46it/s]
| valid total duration: 1254.837s
Loaded the voice encoder model on cuda in 0.01 seconds.
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 217/217 [00:15<00:00, 13.63it/s]
| test total duration: 1254.837s
Loaded the voice encoder model on cuda in 0.01 seconds.
41%|████████████████████████████████████████████████████▏ | 8500/20679 [06:56<08:36, 23.56it/s]| Skip item (Empty **gt** f0). item_name: Bass-1#父亲写的散文诗#0013, wav_fn: data/raw/m4singer/Bass-1#父亲写的散文诗/0013.wav
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 20679/20679 [16:46<00:00, 20.55it/s]
| train total duration: 105705.472s
(venv3712) (python3.7.12) yeqiang@yeqiang-Default-string:~/Downloads/ai/M4Singer/code$ bash 2.1.reset-m4singer_fs2_e2e.sh
| Hparams chains: ['configs/config_base.yaml', 'configs/tts/base.yaml', 'configs/tts/fs2.yaml', 'configs/tts/base_zh.yaml', 'configs/singing/base.yaml', 'configs/singing/fs2.yaml', 'usr/configs/base.yaml', 'usr/configs/popcs_ds_beta6.yaml', 'usr/configs/m4singer/base.yaml', 'usr/configs/m4singer/fs2.yaml']
| Hparams:
K_step: 51, accumulate_grad_batches: 1, audio_num_mel_bins: 80, audio_sample_rate: 24000, base_config: ['configs/singing/fs2.yaml', 'usr/configs/m4singer/base.yaml'],
binarization_args: {'shuffle': False, 'with_txt': True, 'with_wav': False, 'with_align': True, 'with_spk_embed': True, 'with_f0': True, 'with_f0cwt': True}, binarizer_cls: data_gen.singing.binarize.M4SingerBinarizer, binary_data_dir: data/binary/m4singer, check_val_every_n_epoch: 10, clip_grad_norm: 1,
content_cond_steps: [], cwt_add_f0_loss: False, cwt_hidden_size: 128, cwt_layers: 2, cwt_loss: l1,
cwt_std_scale: 0.8, datasets: ['m4singer'], debug: False, dec_ffn_kernel_size: 9, dec_layers: 4,
decay_steps: 50000, decoder_type: fft, dict_dir: , diff_decoder_type: wavenet, diff_loss_type: l1,
dilation_cycle_length: 1, dropout: 0.1, ds_workers: 4, dur_enc_hidden_stride_kernel: ['0,2,3', '0,2,3', '0,1,3'], dur_loss: mse,
dur_predictor_kernel: 3, dur_predictor_layers: 5, enc_ffn_kernel_size: 9, enc_layers: 4, encoder_K: 8,
encoder_type: fft, endless_ds: True, ffn_act: gelu, ffn_padding: SAME, fft_size: 512,
fmax: 12000, fmin: 30, fs2_ckpt: , gen_dir_name: , gen_tgt_spk_id: -1,
hidden_size: 256, hop_size: 128, infer: False, keep_bins: 80, lambda_commit: 0.25,
lambda_energy: 0.0, lambda_f0: 1.0, lambda_ph_dur: 1.0, lambda_sent_dur: 1.0, lambda_uv: 1.0,
lambda_word_dur: 1.0, load_ckpt: , log_interval: 100, loud_norm: False, lr: 1,
max_beta: 0.06, max_epochs: 1000, max_eval_sentences: 1, max_eval_tokens: 60000, max_frames: 5000,
max_input_tokens: 1550, max_sentences: 12, max_tokens: 40000, max_updates: 320000, mel_loss: ssim:0.5|l1:0.5,
mel_vmax: 1.5, mel_vmin: -6.0, min_level_db: -120, norm_type: gn, num_ckpt_keep: 3,
num_heads: 2, num_sanity_val_steps: 1, num_spk: 20, num_test_samples: 0, num_valid_plots: 10,
optimizer_adam_beta1: 0.9, optimizer_adam_beta2: 0.98, out_wav_norm: False, pe_ckpt: checkpoints/m4singer_pe, pe_enable: True,
pitch_ar: False, pitch_enc_hidden_stride_kernel: ['0,2,5', '0,2,5', '0,2,5'], pitch_extractor: parselmouth, pitch_loss: l1, pitch_norm: log,
pitch_type: frame, pre_align_args: {'use_tone': False, 'forced_align': 'mfa', 'use_sox': True, 'txt_processor': 'zh_g2pM', 'allow_no_txt': False, 'denoise': False}, pre_align_cls: data_gen.singing.pre_align.SingingPreAlign, predictor_dropout: 0.5, predictor_grad: 0.1,
predictor_hidden: -1, predictor_kernel: 5, predictor_layers: 5, prenet_dropout: 0.5, prenet_hidden_size: 256,
pretrain_fs_ckpt: , processed_data_dir: xxx, profile_infer: False, raw_data_dir: data/raw/m4singer, ref_norm_layer: bn,
rel_pos: True, reset_phone_dict: True, residual_channels: 256, residual_layers: 20, save_best: False,
save_ckpt: True, save_codes: ['configs', 'modules', 'tasks', 'utils', 'usr'], save_f0: True, save_gt: True, schedule_type: linear,
seed: 1234, sort_by_len: True, spec_max: [-0.3894500136375427, -0.3796464204788208, -0.2914905250072479, -0.15550297498703003, -0.08502643555402756, 0.10698417574167252, -0.0739326998591423, -0.0541548952460289, 0.15501998364925385, 0.06483431905508041, 0.03054228238761425, -0.013737732544541359, -0.004876468330621719, 0.04368264228105545, 0.13329921662807465, 0.16471388936042786, 0.04605761915445328, -0.05680707097053528, 0.0542571023106575, -0.0076539707370102406, -0.00953489076346159, -0.04434828832745552, 0.001293870504014194, -0.12238839268684387, 0.06418416649103165, 0.02843189612030983, 0.08505241572856903, 0.07062800228595734, 0.00120724702719599, -0.07675088942050934, 0.03785804659128189, 0.04890783503651619, -0.06888376921415329, -0.0839693546295166, -0.17545585334300995, -0.2911079525947571, -0.4238220453262329, -0.262084037065506, -0.3002263605594635, -0.3845032751560211, -0.3906497061252594, -0.6550108790397644, -0.7810799479484558, -0.7503029704093933, -0.7995198965072632, -0.8092347383499146, -0.6196113228797913, -0.6684317588806152, -0.7735874056816101, -0.8324533104896545, -0.9601566791534424, -0.955253541469574, -0.748817503452301, -0.9106167554855347, -0.9707801342010498, -1.053107500076294, -1.0448424816131592, -1.1082794666290283, -1.1296544075012207, -1.071642279624939, -1.1003081798553467, -1.166810154914856, -1.1408926248550415, -1.1330615282058716, -1.1167492866516113, -1.0716774463653564, -1.035891056060791, -1.0092483758926392, -0.9675999879837036, -0.938962996006012, -1.0120564699172974, -0.9777995347976685, -1.029313564300537, -0.9459163546562195, -0.8519706130027771, -0.7751091122627258, -0.7933766841888428, -0.9019735455513, -0.9983296990394592, -1.505873441696167], spec_min: [-6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0], spk_cond_steps: [],
stop_token_weight: 5.0, task_cls: usr.diffsinger_task.AuxDecoderMIDITask, test_ids: [], test_input_dir: , test_num: 0,
test_prefixes: ['Alto-2#岁月神偷', 'Alto-2#奇妙能力歌', 'Tenor-1#一千年以后', 'Tenor-1#童话', 'Tenor-2#消愁', 'Tenor-2#一荤一素', 'Soprano-1#念奴娇赤壁怀古', 'Soprano-1#问春'], test_set_name: test, timesteps: 100, train_set_name: train, use_denoise: False,
use_energy_embed: False, use_gt_dur: False, use_gt_f0: False, use_midi: True, use_nsf: True,
use_pitch_embed: False, use_pos_embed: True, use_spk_embed: False, use_spk_id: True, use_split_spk_id: False,
use_uv: True, use_var_enc: False, val_check_interval: 2000, valid_num: 0, valid_set_name: valid,
validate: False, vocoder: vocoders.hifigan.HifiGAN, vocoder_ckpt: checkpoints/m4singer_hifigan, warmup_updates: 2000, wav2spec_eps: 1e-6,
weight_decay: 0, win_size: 512, work_dir: checkpoints/m4singer_fs2_e2e,
| Mel losses: {'ssim': 0.5, 'l1': 0.5}
10/09 12:10:41 PM gpu available: True, used: True
| Copied codes to checkpoints/m4singer_fs2_e2e/codes/20231009121041.
| model Arch: FastSpeech2MIDI(
(encoder_embed_tokens): Embedding(61, 256, padding_idx=0)
(decoder): FastspeechDecoder(
(embed_positions): SinusoidalPositionalEmbedding()
(layers): ModuleList(
(0): TransformerEncoderLayer(
(op): EncSALayer(
(layer_norm1): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
(self_attn): MultiheadAttention(
(out_proj): Linear(in_features=256, out_features=256, bias=False)
)
(layer_norm2): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
(ffn): TransformerFFNLayer(
(ffn_1): Conv1d(256, 1024, kernel_size=(9,), stride=(1,), padding=(4,))
(ffn_2): Linear(in_features=1024, out_features=256, bias=True)
)
)
)
(1): TransformerEncoderLayer(
(op): EncSALayer(
(layer_norm1): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
(self_attn): MultiheadAttention(
(out_proj): Linear(in_features=256, out_features=256, bias=False)
)
(layer_norm2): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
(ffn): TransformerFFNLayer(
(ffn_1): Conv1d(256, 1024, kernel_size=(9,), stride=(1,), padding=(4,))
(ffn_2): Linear(in_features=1024, out_features=256, bias=True)
)
)
)
(2): TransformerEncoderLayer(
(op): EncSALayer(
(layer_norm1): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
(self_attn): MultiheadAttention(
(out_proj): Linear(in_features=256, out_features=256, bias=False)
)
(layer_norm2): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
(ffn): TransformerFFNLayer(
(ffn_1): Conv1d(256, 1024, kernel_size=(9,), stride=(1,), padding=(4,))
(ffn_2): Linear(in_features=1024, out_features=256, bias=True)
)
)
)
(3): TransformerEncoderLayer(
(op): EncSALayer(
(layer_norm1): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
(self_attn): MultiheadAttention(
(out_proj): Linear(in_features=256, out_features=256, bias=False)
)
(layer_norm2): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
(ffn): TransformerFFNLayer(
(ffn_1): Conv1d(256, 1024, kernel_size=(9,), stride=(1,), padding=(4,))
(ffn_2): Linear(in_features=1024, out_features=256, bias=True)
)
)
)
)
(layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
)
(mel_out): Linear(in_features=256, out_features=80, bias=True)
(spk_embed_proj): Embedding(21, 256)
(dur_predictor): DurationPredictor(
(conv): ModuleList(
(0): Sequential(
(0): ConstantPad1d(padding=(1, 1), value=0)
(1): Conv1d(256, 256, kernel_size=(3,), stride=(1,))
(2): ReLU()
(3): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
(4): Dropout(p=0.5, inplace=False)
)
(1): Sequential(
(0): ConstantPad1d(padding=(1, 1), value=0)
(1): Conv1d(256, 256, kernel_size=(3,), stride=(1,))
(2): ReLU()
(3): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
(4): Dropout(p=0.5, inplace=False)
)
(2): Sequential(
(0): ConstantPad1d(padding=(1, 1), value=0)
(1): Conv1d(256, 256, kernel_size=(3,), stride=(1,))
(2): ReLU()
(3): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
(4): Dropout(p=0.5, inplace=False)
)
(3): Sequential(
(0): ConstantPad1d(padding=(1, 1), value=0)
(1): Conv1d(256, 256, kernel_size=(3,), stride=(1,))
(2): ReLU()
(3): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
(4): Dropout(p=0.5, inplace=False)
)
(4): Sequential(
(0): ConstantPad1d(padding=(1, 1), value=0)
(1): Conv1d(256, 256, kernel_size=(3,), stride=(1,))
(2): ReLU()
(3): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
(4): Dropout(p=0.5, inplace=False)
)
)
(linear): Linear(in_features=256, out_features=1, bias=True)
)
(length_regulator): LengthRegulator()
(encoder): FastspeechMIDIEncoder(
(layers): ModuleList(
(0): TransformerEncoderLayer(
(op): EncSALayer(
(layer_norm1): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
(self_attn): MultiheadAttention(
(out_proj): Linear(in_features=256, out_features=256, bias=False)
)
(layer_norm2): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
(ffn): TransformerFFNLayer(
(ffn_1): Conv1d(256, 1024, kernel_size=(9,), stride=(1,), padding=(4,))
(ffn_2): Linear(in_features=1024, out_features=256, bias=True)
)
)
)
(1): TransformerEncoderLayer(
(op): EncSALayer(
(layer_norm1): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
(self_attn): MultiheadAttention(
(out_proj): Linear(in_features=256, out_features=256, bias=False)
)
(layer_norm2): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
(ffn): TransformerFFNLayer(
(ffn_1): Conv1d(256, 1024, kernel_size=(9,), stride=(1,), padding=(4,))
(ffn_2): Linear(in_features=1024, out_features=256, bias=True)
)
)
)
(2): TransformerEncoderLayer(
(op): EncSALayer(
(layer_norm1): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
(self_attn): MultiheadAttention(
(out_proj): Linear(in_features=256, out_features=256, bias=False)
)
(layer_norm2): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
(ffn): TransformerFFNLayer(
(ffn_1): Conv1d(256, 1024, kernel_size=(9,), stride=(1,), padding=(4,))
(ffn_2): Linear(in_features=1024, out_features=256, bias=True)
)
)
)
(3): TransformerEncoderLayer(
(op): EncSALayer(
(layer_norm1): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
(self_attn): MultiheadAttention(
(out_proj): Linear(in_features=256, out_features=256, bias=False)
)
(layer_norm2): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
(ffn): TransformerFFNLayer(
(ffn_1): Conv1d(256, 1024, kernel_size=(9,), stride=(1,), padding=(4,))
(ffn_2): Linear(in_features=1024, out_features=256, bias=True)
)
)
)
)
(layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
(embed_tokens): Embedding(61, 256, padding_idx=0)
(embed_positions): RelPositionalEncoding(
(dropout): Dropout(p=0.0, inplace=False)
)
)
(midi_embed): Embedding(300, 256, padding_idx=0)
(midi_dur_layer): Linear(in_features=1, out_features=256, bias=True)
(is_slur_embed): Embedding(2, 256)
)
| model Trainable Parameters: 24.195M
10/09 12:10:42 PM model and trainer restored from checkpoint: checkpoints/m4singer_fs2_e2e/model_ckpt_steps_320000.ckpt
Validation sanity check: 0%| | 0/1 [00:00, ?batch/s]
==============
valid results: {'total_loss': 0.5226, 'ssim': 0.2665, 'l1': 0.2351, 'pdur': 0.0188, 'wdur': 0.002, 'sdur': 0.0002}
==============
Epoch 1: : 1batch [00:00, 4.06batch/s, batch_size=12, l1=0.102, lr=0.00011, pdur=0.0135, sdur=0.00271, ssim=0.171, step=320000, wdur=0.00648]| Training end..
Epoch 1: : 1batch [00:00, 3.18batch/s, batch_size=12, l1=0.102, lr=0.00011, pdur=0.0135, sdur=0.00271, ssim=0.171, step=320000, wdur=0.00648]
(venv3712) (python3.7.12) yeqiang@yeqiang-Default-string:~/Downloads/ai/M4Singer/code$ bash 2.2.reset-m4singer_diff_e2e.sh
| Hparams chains: ['configs/config_base.yaml', 'configs/tts/base.yaml', 'configs/tts/fs2.yaml', 'configs/tts/base_zh.yaml', 'configs/singing/base.yaml', 'usr/configs/base.yaml', 'usr/configs/popcs_ds_beta6.yaml', 'usr/configs/m4singer/base.yaml', 'usr/configs/m4singer/diff.yaml']
| Hparams:
K_step: 1000, accumulate_grad_batches: 1, audio_num_mel_bins: 80, audio_sample_rate: 24000, base_config: ['usr/configs/m4singer/base.yaml'],
binarization_args: {'shuffle': False, 'with_txt': True, 'with_wav': False, 'with_align': True, 'with_spk_embed': True, 'with_f0': True, 'with_f0cwt': True}, binarizer_cls: data_gen.singing.binarize.M4SingerBinarizer, binary_data_dir: data/binary/m4singer, check_val_every_n_epoch: 10, clip_grad_norm: 1,
content_cond_steps: [], cwt_add_f0_loss: False, cwt_hidden_size: 128, cwt_layers: 2, cwt_loss: l1,
cwt_std_scale: 0.8, datasets: ['m4singer'], debug: False, dec_ffn_kernel_size: 9, dec_layers: 4,
decay_steps: 100000, decoder_type: fft, dict_dir: , diff_decoder_type: wavenet, diff_loss_type: l1,
dilation_cycle_length: 4, dropout: 0.1, ds_workers: 4, dur_enc_hidden_stride_kernel: ['0,2,3', '0,2,3', '0,1,3'], dur_loss: mse,
dur_predictor_kernel: 3, dur_predictor_layers: 5, enc_ffn_kernel_size: 9, enc_layers: 4, encoder_K: 8,
encoder_type: fft, endless_ds: True, ffn_act: gelu, ffn_padding: SAME, fft_size: 512,
fmax: 12000, fmin: 30, fs2_ckpt: checkpoints/m4singer_fs2_e2e, gaussian_start: True, gen_dir_name: ,
gen_tgt_spk_id: -1, hidden_size: 256, hop_size: 128, infer: False, keep_bins: 80,
lambda_commit: 0.25, lambda_energy: 0.0, lambda_f0: 0.0, lambda_ph_dur: 1.0, lambda_sent_dur: 1.0,
lambda_uv: 0.0, lambda_word_dur: 1.0, load_ckpt: , log_interval: 100, loud_norm: False,
lr: 0.001, max_beta: 0.02, max_epochs: 1000, max_eval_sentences: 1, max_eval_tokens: 60000,
max_frames: 5000, max_input_tokens: 1550, max_sentences: 28, max_tokens: 36000, max_updates: 900000,
mel_loss: ssim:0.5|l1:0.5, mel_vmax: 1.5, mel_vmin: -6.0, min_level_db: -120, norm_type: gn,
num_ckpt_keep: 3, num_heads: 2, num_sanity_val_steps: 1, num_spk: 20, num_test_samples: 0,
num_valid_plots: 10, optimizer_adam_beta1: 0.9, optimizer_adam_beta2: 0.98, out_wav_norm: False, pe_ckpt: checkpoints/m4singer_pe,
pe_enable: True, pitch_ar: False, pitch_enc_hidden_stride_kernel: ['0,2,5', '0,2,5', '0,2,5'], pitch_extractor: parselmouth, pitch_loss: l1,
pitch_norm: log, pitch_type: frame, pndm_speedup: 5, pre_align_args: {'use_tone': False, 'forced_align': 'mfa', 'use_sox': True, 'txt_processor': 'zh_g2pM', 'allow_no_txt': False, 'denoise': False}, pre_align_cls: data_gen.singing.pre_align.SingingPreAlign,
predictor_dropout: 0.5, predictor_grad: 0.1, predictor_hidden: -1, predictor_kernel: 5, predictor_layers: 5,
prenet_dropout: 0.5, prenet_hidden_size: 256, pretrain_fs_ckpt: , processed_data_dir: xxx, profile_infer: False,
raw_data_dir: data/raw/m4singer, ref_norm_layer: bn, rel_pos: True, reset_phone_dict: True, residual_channels: 256,
residual_layers: 20, save_best: False, save_ckpt: True, save_codes: ['configs', 'modules', 'tasks', 'utils', 'usr'], save_f0: True,
save_gt: True, schedule_type: linear, seed: 1234, sort_by_len: True, spec_max: [-0.3894500136375427, -0.3796464204788208, -0.2914905250072479, -0.15550297498703003, -0.08502643555402756, 0.10698417574167252, -0.0739326998591423, -0.0541548952460289, 0.15501998364925385, 0.06483431905508041, 0.03054228238761425, -0.013737732544541359, -0.004876468330621719, 0.04368264228105545, 0.13329921662807465, 0.16471388936042786, 0.04605761915445328, -0.05680707097053528, 0.0542571023106575, -0.0076539707370102406, -0.00953489076346159, -0.04434828832745552, 0.001293870504014194, -0.12238839268684387, 0.06418416649103165, 0.02843189612030983, 0.08505241572856903, 0.07062800228595734, 0.00120724702719599, -0.07675088942050934, 0.03785804659128189, 0.04890783503651619, -0.06888376921415329, -0.0839693546295166, -0.17545585334300995, -0.2911079525947571, -0.4238220453262329, -0.262084037065506, -0.3002263605594635, -0.3845032751560211, -0.3906497061252594, -0.6550108790397644, -0.7810799479484558, -0.7503029704093933, -0.7995198965072632, -0.8092347383499146, -0.6196113228797913, -0.6684317588806152, -0.7735874056816101, -0.8324533104896545, -0.9601566791534424, -0.955253541469574, -0.748817503452301, -0.9106167554855347, -0.9707801342010498, -1.053107500076294, -1.0448424816131592, -1.1082794666290283, -1.1296544075012207, -1.071642279624939, -1.1003081798553467, -1.166810154914856, -1.1408926248550415, -1.1330615282058716, -1.1167492866516113, -1.0716774463653564, -1.035891056060791, -1.0092483758926392, -0.9675999879837036, -0.938962996006012, -1.0120564699172974, -0.9777995347976685, -1.029313564300537, -0.9459163546562195, -0.8519706130027771, -0.7751091122627258, -0.7933766841888428, -0.9019735455513, -0.9983296990394592, -1.505873441696167],
spec_min: [-6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0], spk_cond_steps: [], stop_token_weight: 5.0, task_cls: usr.diffsinger_task.DiffSingerMIDITask, test_ids: [],
test_input_dir: , test_num: 0, test_prefixes: ['Alto-2#岁月神偷', 'Alto-2#奇妙能力歌', 'Tenor-1#一千年以后', 'Tenor-1#童话', 'Tenor-2#消愁', 'Tenor-2#一荤一素', 'Soprano-1#念奴娇赤壁怀古', 'Soprano-1#问春'], test_set_name: test, timesteps: 1000,
train_set_name: train, use_denoise: False, use_energy_embed: False, use_gt_dur: False, use_gt_f0: False,
use_midi: True, use_nsf: True, use_pitch_embed: False, use_pos_embed: True, use_spk_embed: False,
use_spk_id: True, use_split_spk_id: False, use_uv: True, use_var_enc: False, val_check_interval: 2000,
valid_num: 0, valid_set_name: valid, validate: False, vocoder: vocoders.hifigan.HifiGAN, vocoder_ckpt: checkpoints/m4singer_hifigan,
warmup_updates: 2000, wav2spec_eps: 1e-6, weight_decay: 0, win_size: 512, work_dir: checkpoints/m4singer_diff_e2e,
| Mel losses: {'ssim': 0.5, 'l1': 0.5}
| load HifiGAN: checkpoints/m4singer_hifigan/model_ckpt_steps_1970000.ckpt
Removing weight norm...
| Loaded model parameters from checkpoints/m4singer_hifigan/model_ckpt_steps_1970000.ckpt.
| HifiGAN device: cuda.
| load HifiGAN: checkpoints/m4singer_hifigan/model_ckpt_steps_1970000.ckpt
Removing weight norm...
| Loaded model parameters from checkpoints/m4singer_hifigan/model_ckpt_steps_1970000.ckpt.
| HifiGAN device: cuda.
| load 'model' from 'checkpoints/m4singer_pe/model_ckpt_steps_280000.ckpt'.
10/09 12:11:32 PM gpu available: True, used: True
| Copied codes to checkpoints/m4singer_diff_e2e/codes/20231009121132.
| load 'model' from 'checkpoints/m4singer_fs2_e2e/model_ckpt_steps_320000.ckpt'.
| model Arch: GaussianDiffusion(
(denoise_fn): DiffNet(
(input_projection): Conv1d(80, 256, kernel_size=(1,), stride=(1,))
(diffusion_embedding): SinusoidalPosEmb()
(mlp): Sequential(
(0): Linear(in_features=256, out_features=1024, bias=True)
(1): Mish()
(2): Linear(in_features=1024, out_features=256, bias=True)
)
(residual_layers): ModuleList(
(0): ResidualBlock(
(dilated_conv): Conv1d(256, 512, kernel_size=(3,), stride=(1,), padding=(1,))
(diffusion_projection): Linear(in_features=256, out_features=256, bias=True)
(conditioner_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
(output_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
)
(1): ResidualBlock(
(dilated_conv): Conv1d(256, 512, kernel_size=(3,), stride=(1,), padding=(2,), dilation=(2,))
(diffusion_projection): Linear(in_features=256, out_features=256, bias=True)
(conditioner_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
(output_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
)
(2): ResidualBlock(
(dilated_conv): Conv1d(256, 512, kernel_size=(3,), stride=(1,), padding=(4,), dilation=(4,))
(diffusion_projection): Linear(in_features=256, out_features=256, bias=True)
(conditioner_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
(output_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
)
(3): ResidualBlock(
(dilated_conv): Conv1d(256, 512, kernel_size=(3,), stride=(1,), padding=(8,), dilation=(8,))
(diffusion_projection): Linear(in_features=256, out_features=256, bias=True)
(conditioner_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
(output_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
)
(4): ResidualBlock(
(dilated_conv): Conv1d(256, 512, kernel_size=(3,), stride=(1,), padding=(1,))
(diffusion_projection): Linear(in_features=256, out_features=256, bias=True)
(conditioner_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
(output_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
)
(5): ResidualBlock(
(dilated_conv): Conv1d(256, 512, kernel_size=(3,), stride=(1,), padding=(2,), dilation=(2,))
(diffusion_projection): Linear(in_features=256, out_features=256, bias=True)
(conditioner_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
(output_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
)
(6): ResidualBlock(
(dilated_conv): Conv1d(256, 512, kernel_size=(3,), stride=(1,), padding=(4,), dilation=(4,))
(diffusion_projection): Linear(in_features=256, out_features=256, bias=True)
(conditioner_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
(output_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
)
(7): ResidualBlock(
(dilated_conv): Conv1d(256, 512, kernel_size=(3,), stride=(1,), padding=(8,), dilation=(8,))
(diffusion_projection): Linear(in_features=256, out_features=256, bias=True)
(conditioner_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
(output_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
)
(8): ResidualBlock(
(dilated_conv): Conv1d(256, 512, kernel_size=(3,), stride=(1,), padding=(1,))
(diffusion_projection): Linear(in_features=256, out_features=256, bias=True)
(conditioner_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
(output_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
)
(9): ResidualBlock(
(dilated_conv): Conv1d(256, 512, kernel_size=(3,), stride=(1,), padding=(2,), dilation=(2,))
(diffusion_projection): Linear(in_features=256, out_features=256, bias=True)
(conditioner_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
(output_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
)
(10): ResidualBlock(
(dilated_conv): Conv1d(256, 512, kernel_size=(3,), stride=(1,), padding=(4,), dilation=(4,))
(diffusion_projection): Linear(in_features=256, out_features=256, bias=True)
(conditioner_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
(output_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
)
(11): ResidualBlock(
(dilated_conv): Conv1d(256, 512, kernel_size=(3,), stride=(1,), padding=(8,), dilation=(8,))
(diffusion_projection): Linear(in_features=256, out_features=256, bias=True)
(conditioner_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
(output_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
)
(12): ResidualBlock(
(dilated_conv): Conv1d(256, 512, kernel_size=(3,), stride=(1,), padding=(1,))
(diffusion_projection): Linear(in_features=256, out_features=256, bias=True)
(conditioner_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
(output_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
)
(13): ResidualBlock(
(dilated_conv): Conv1d(256, 512, kernel_size=(3,), stride=(1,), padding=(2,), dilation=(2,))
(diffusion_projection): Linear(in_features=256, out_features=256, bias=True)
(conditioner_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
(output_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
)
(14): ResidualBlock(
(dilated_conv): Conv1d(256, 512, kernel_size=(3,), stride=(1,), padding=(4,), dilation=(4,))
(diffusion_projection): Linear(in_features=256, out_features=256, bias=True)
(conditioner_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
(output_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
)
(15): ResidualBlock(
(dilated_conv): Conv1d(256, 512, kernel_size=(3,), stride=(1,), padding=(8,), dilation=(8,))
(diffusion_projection): Linear(in_features=256, out_features=256, bias=True)
(conditioner_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
(output_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
)
(16): ResidualBlock(
(dilated_conv): Conv1d(256, 512, kernel_size=(3,), stride=(1,), padding=(1,))
(diffusion_projection): Linear(in_features=256, out_features=256, bias=True)
(conditioner_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
(output_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
)
(17): ResidualBlock(
(dilated_conv): Conv1d(256, 512, kernel_size=(3,), stride=(1,), padding=(2,), dilation=(2,))
(diffusion_projection): Linear(in_features=256, out_features=256, bias=True)
(conditioner_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
(output_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
)
(18): ResidualBlock(
(dilated_conv): Conv1d(256, 512, kernel_size=(3,), stride=(1,), padding=(4,), dilation=(4,))
(diffusion_projection): Linear(in_features=256, out_features=256, bias=True)
(conditioner_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
(output_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
)
(19): ResidualBlock(
(dilated_conv): Conv1d(256, 512, kernel_size=(3,), stride=(1,), padding=(8,), dilation=(8,))
(diffusion_projection): Linear(in_features=256, out_features=256, bias=True)
(conditioner_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
(output_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
)
)
(skip_projection): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
(output_projection): Conv1d(256, 80, kernel_size=(1,), stride=(1,))
)
(fs2): FastSpeech2MIDI(
(encoder_embed_tokens): Embedding(61, 256, padding_idx=0)
(decoder): FastspeechDecoder(
(embed_positions): SinusoidalPositionalEmbedding()
(layers): ModuleList(
(0): TransformerEncoderLayer(
(op): EncSALayer(
(layer_norm1): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
(self_attn): MultiheadAttention(
(out_proj): Linear(in_features=256, out_features=256, bias=False)
)
(layer_norm2): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
(ffn): TransformerFFNLayer(
(ffn_1): Conv1d(256, 1024, kernel_size=(9,), stride=(1,), padding=(4,))
(ffn_2): Linear(in_features=1024, out_features=256, bias=True)
)
)
)
(1): TransformerEncoderLayer(
(op): EncSALayer(
(layer_norm1): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
(self_attn): MultiheadAttention(
(out_proj): Linear(in_features=256, out_features=256, bias=False)
)
(layer_norm2): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
(ffn): TransformerFFNLayer(
(ffn_1): Conv1d(256, 1024, kernel_size=(9,), stride=(1,), padding=(4,))
(ffn_2): Linear(in_features=1024, out_features=256, bias=True)
)
)
)
(2): TransformerEncoderLayer(
(op): EncSALayer(
(layer_norm1): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
(self_attn): MultiheadAttention(
(out_proj): Linear(in_features=256, out_features=256, bias=False)
)
(layer_norm2): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
(ffn): TransformerFFNLayer(
(ffn_1): Conv1d(256, 1024, kernel_size=(9,), stride=(1,), padding=(4,))
(ffn_2): Linear(in_features=1024, out_features=256, bias=True)
)
)
)
(3): TransformerEncoderLayer(
(op): EncSALayer(
(layer_norm1): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
(self_attn): MultiheadAttention(
(out_proj): Linear(in_features=256, out_features=256, bias=False)
)
(layer_norm2): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
(ffn): TransformerFFNLayer(
(ffn_1): Conv1d(256, 1024, kernel_size=(9,), stride=(1,), padding=(4,))
(ffn_2): Linear(in_features=1024, out_features=256, bias=True)
)
)
)
)
(layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
)
(mel_out): Linear(in_features=256, out_features=80, bias=True)
(spk_embed_proj): Embedding(21, 256)
(dur_predictor): DurationPredictor(
(conv): ModuleList(
(0): Sequential(
(0): ConstantPad1d(padding=(1, 1), value=0)
(1): Conv1d(256, 256, kernel_size=(3,), stride=(1,))
(2): ReLU()
(3): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
(4): Dropout(p=0.5, inplace=False)
)
(1): Sequential(
(0): ConstantPad1d(padding=(1, 1), value=0)
(1): Conv1d(256, 256, kernel_size=(3,), stride=(1,))
(2): ReLU()
(3): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
(4): Dropout(p=0.5, inplace=False)
)
(2): Sequential(
(0): ConstantPad1d(padding=(1, 1), value=0)
(1): Conv1d(256, 256, kernel_size=(3,), stride=(1,))
(2): ReLU()
(3): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
(4): Dropout(p=0.5, inplace=False)
)
(3): Sequential(
(0): ConstantPad1d(padding=(1, 1), value=0)
(1): Conv1d(256, 256, kernel_size=(3,), stride=(1,))
(2): ReLU()
(3): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
(4): Dropout(p=0.5, inplace=False)
)
(4): Sequential(
(0): ConstantPad1d(padding=(1, 1), value=0)
(1): Conv1d(256, 256, kernel_size=(3,), stride=(1,))
(2): ReLU()
(3): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
(4): Dropout(p=0.5, inplace=False)
)
)
(linear): Linear(in_features=256, out_features=1, bias=True)
)
(length_regulator): LengthRegulator()
(encoder): FastspeechMIDIEncoder(
(layers): ModuleList(
(0): TransformerEncoderLayer(
(op): EncSALayer(
(layer_norm1): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
(self_attn): MultiheadAttention(
(out_proj): Linear(in_features=256, out_features=256, bias=False)
)
(layer_norm2): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
(ffn): TransformerFFNLayer(
(ffn_1): Conv1d(256, 1024, kernel_size=(9,), stride=(1,), padding=(4,))
(ffn_2): Linear(in_features=1024, out_features=256, bias=True)
)
)
)
(1): TransformerEncoderLayer(
(op): EncSALayer(
(layer_norm1): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
(self_attn): MultiheadAttention(
(out_proj): Linear(in_features=256, out_features=256, bias=False)
)
(layer_norm2): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
(ffn): TransformerFFNLayer(
(ffn_1): Conv1d(256, 1024, kernel_size=(9,), stride=(1,), padding=(4,))
(ffn_2): Linear(in_features=1024, out_features=256, bias=True)
)
)
)
(2): TransformerEncoderLayer(
(op): EncSALayer(
(layer_norm1): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
(self_attn): MultiheadAttention(
(out_proj): Linear(in_features=256, out_features=256, bias=False)
)
(layer_norm2): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
(ffn): TransformerFFNLayer(
(ffn_1): Conv1d(256, 1024, kernel_size=(9,), stride=(1,), padding=(4,))
(ffn_2): Linear(in_features=1024, out_features=256, bias=True)
)
)
)
(3): TransformerEncoderLayer(
(op): EncSALayer(
(layer_norm1): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
(self_attn): MultiheadAttention(
(out_proj): Linear(in_features=256, out_features=256, bias=False)
)
(layer_norm2): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
(ffn): TransformerFFNLayer(
(ffn_1): Conv1d(256, 1024, kernel_size=(9,), stride=(1,), padding=(4,))
(ffn_2): Linear(in_features=1024, out_features=256, bias=True)
)
)
)
)
(layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
(embed_tokens): Embedding(61, 256, padding_idx=0)
(embed_positions): RelPositionalEncoding(
(dropout): Dropout(p=0.0, inplace=False)
)
)
(midi_embed): Embedding(300, 256, padding_idx=0)
(midi_dur_layer): Linear(in_features=1, out_features=256, bias=True)
(is_slur_embed): Embedding(2, 256)
)
)
| model Trainable Parameters: 39.281M
10/09 12:11:32 PM model and trainer restored from checkpoint: checkpoints/m4singer_diff_e2e/model_ckpt_steps_900000.ckpt
Validation sanity check: 0%| | 0/1 [00:00, ?batch/s]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:00<00:00, 216.05it/s]
sample time step: 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 197/200 [00:00<00:00, 216.69it/s]
==============
valid results: {'total_loss': 0.0318, 'mel': 0.0204, 'pdur': 0.0098, 'wdur': 0.0014, 'sdur': 0.0002}
==============
Epoch 1: : 1batch [00:00, 1.41batch/s, batch_size=25, lr=1.95e-6, mel=0.0551, pdur=0.00476, sdur=0.000397, step=900000, wdur=0.00253]| Training end..
Epoch 1: : 1batch [00:00, 1.29batch/s, batch_size=25, lr=1.95e-6, mel=0.0551, pdur=0.00476, sdur=0.000397, step=900000, wdur=0.00253]
(venv3712) (python3.7.12) yeqiang@yeqiang-Default-string:~/Downloads/ai/M4Singer/code$ bash 3.infer-m4singer_diff_e2e.sh
| Hparams chains: ['configs/config_base.yaml', 'configs/tts/base.yaml', 'configs/tts/fs2.yaml', 'configs/tts/base_zh.yaml', 'configs/singing/base.yaml', 'usr/configs/base.yaml', 'usr/configs/popcs_ds_beta6.yaml', 'usr/configs/m4singer/base.yaml', 'usr/configs/m4singer/diff.yaml']
| Hparams:
K_step: 1000, accumulate_grad_batches: 1, audio_num_mel_bins: 80, audio_sample_rate: 24000, base_config: ['usr/configs/m4singer/base.yaml'],
binarization_args: {'shuffle': False, 'with_align': True, 'with_f0': True, 'with_f0cwt': True, 'with_spk_embed': True, 'with_txt': True, 'with_wav': False}, binarizer_cls: data_gen.singing.binarize.M4SingerBinarizer, binary_data_dir: data/binary/m4singer, check_val_every_n_epoch: 10, clip_grad_norm: 1,
content_cond_steps: [], cwt_add_f0_loss: False, cwt_hidden_size: 128, cwt_layers: 2, cwt_loss: l1,
cwt_std_scale: 0.8, datasets: ['m4singer'], debug: False, dec_ffn_kernel_size: 9, dec_layers: 4,
decay_steps: 100000, decoder_type: fft, dict_dir: , diff_decoder_type: wavenet, diff_loss_type: l1,
dilation_cycle_length: 4, dropout: 0.1, ds_workers: 4, dur_enc_hidden_stride_kernel: ['0,2,3', '0,2,3', '0,1,3'], dur_loss: mse,
dur_predictor_kernel: 3, dur_predictor_layers: 5, enc_ffn_kernel_size: 9, enc_layers: 4, encoder_K: 8,
encoder_type: fft, endless_ds: True, ffn_act: gelu, ffn_padding: SAME, fft_size: 512,
fmax: 12000, fmin: 30, fs2_ckpt: checkpoints/m4singer_fs2_e2e, gaussian_start: True, gen_dir_name: ,
gen_tgt_spk_id: -1, hidden_size: 256, hop_size: 128, infer: True, keep_bins: 80,
lambda_commit: 0.25, lambda_energy: 0.0, lambda_f0: 0.0, lambda_ph_dur: 1.0, lambda_sent_dur: 1.0,
lambda_uv: 0.0, lambda_word_dur: 1.0, load_ckpt: , log_interval: 100, loud_norm: False,
lr: 0.001, max_beta: 0.02, max_epochs: 1000, max_eval_sentences: 1, max_eval_tokens: 60000,
max_frames: 5000, max_input_tokens: 1550, max_sentences: 28, max_tokens: 36000, max_updates: 900000,
mel_loss: ssim:0.5|l1:0.5, mel_vmax: 1.5, mel_vmin: -6.0, min_level_db: -120, norm_type: gn,
num_ckpt_keep: 3, num_heads: 2, num_sanity_val_steps: 1, num_spk: 20, num_test_samples: 0,
num_valid_plots: 10, optimizer_adam_beta1: 0.9, optimizer_adam_beta2: 0.98, out_wav_norm: False, pe_ckpt: checkpoints/m4singer_pe,
pe_enable: True, pitch_ar: False, pitch_enc_hidden_stride_kernel: ['0,2,5', '0,2,5', '0,2,5'], pitch_extractor: parselmouth, pitch_loss: l1,
pitch_norm: log, pitch_type: frame, pndm_speedup: 5, pre_align_args: {'allow_no_txt': False, 'denoise': False, 'forced_align': 'mfa', 'txt_processor': 'zh_g2pM', 'use_sox': True, 'use_tone': False}, pre_align_cls: data_gen.singing.pre_align.SingingPreAlign,
predictor_dropout: 0.5, predictor_grad: 0.1, predictor_hidden: -1, predictor_kernel: 5, predictor_layers: 5,
prenet_dropout: 0.5, prenet_hidden_size: 256, pretrain_fs_ckpt: , processed_data_dir: xxx, profile_infer: False,
raw_data_dir: data/raw/m4singer, ref_norm_layer: bn, rel_pos: True, reset_phone_dict: True, residual_channels: 256,
residual_layers: 20, save_best: False, save_ckpt: True, save_codes: ['configs', 'modules', 'tasks', 'utils', 'usr'], save_f0: True,
save_gt: True, schedule_type: linear, seed: 1234, sort_by_len: True, spec_max: [-0.3894500136375427, -0.3796464204788208, -0.2914905250072479, -0.15550297498703003, -0.08502643555402756, 0.10698417574167252, -0.0739326998591423, -0.0541548952460289, 0.15501998364925385, 0.06483431905508041, 0.03054228238761425, -0.013737732544541359, -0.004876468330621719, 0.04368264228105545, 0.13329921662807465, 0.16471388936042786, 0.04605761915445328, -0.05680707097053528, 0.0542571023106575, -0.0076539707370102406, -0.00953489076346159, -0.04434828832745552, 0.001293870504014194, -0.12238839268684387, 0.06418416649103165, 0.02843189612030983, 0.08505241572856903, 0.07062800228595734, 0.00120724702719599, -0.07675088942050934, 0.03785804659128189, 0.04890783503651619, -0.06888376921415329, -0.0839693546295166, -0.17545585334300995, -0.2911079525947571, -0.4238220453262329, -0.262084037065506, -0.3002263605594635, -0.3845032751560211, -0.3906497061252594, -0.6550108790397644, -0.7810799479484558, -0.7503029704093933, -0.7995198965072632, -0.8092347383499146, -0.6196113228797913, -0.6684317588806152, -0.7735874056816101, -0.8324533104896545, -0.9601566791534424, -0.955253541469574, -0.748817503452301, -0.9106167554855347, -0.9707801342010498, -1.053107500076294, -1.0448424816131592, -1.1082794666290283, -1.1296544075012207, -1.071642279624939, -1.1003081798553467, -1.166810154914856, -1.1408926248550415, -1.1330615282058716, -1.1167492866516113, -1.0716774463653564, -1.035891056060791, -1.0092483758926392, -0.9675999879837036, -0.938962996006012, -1.0120564699172974, -0.9777995347976685, -1.029313564300537, -0.9459163546562195, -0.8519706130027771, -0.7751091122627258, -0.7933766841888428, -0.9019735455513, -0.9983296990394592, -1.505873441696167],
spec_min: [-6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0, -6.0], spk_cond_steps: [], stop_token_weight: 5.0, task_cls: usr.diffsinger_task.DiffSingerMIDITask, test_ids: [],
test_input_dir: , test_num: 0, test_prefixes: ['Alto-2#岁月神偷', 'Alto-2#奇妙能力歌', 'Tenor-1#一千年以后', 'Tenor-1#童话', 'Tenor-2#消愁', 'Tenor-2#一荤一素', 'Soprano-1#念奴娇赤壁怀古', 'Soprano-1#问春'], test_set_name: test, timesteps: 1000,
train_set_name: train, use_denoise: False, use_energy_embed: False, use_gt_dur: False, use_gt_f0: False,
use_midi: True, use_nsf: True, use_pitch_embed: False, use_pos_embed: True, use_spk_embed: False,
use_spk_id: True, use_split_spk_id: False, use_uv: True, use_var_enc: False, val_check_interval: 2000,
valid_num: 0, valid_set_name: valid, validate: False, vocoder: vocoders.hifigan.HifiGAN, vocoder_ckpt: checkpoints/m4singer_hifigan,
warmup_updates: 2000, wav2spec_eps: 1e-6, weight_decay: 0, win_size: 512, work_dir: checkpoints/m4singer_diff_e2e,
| Mel losses: {'ssim': 0.5, 'l1': 0.5}
| load HifiGAN: checkpoints/m4singer_hifigan/model_ckpt_steps_1970000.ckpt
Removing weight norm...
| Loaded model parameters from checkpoints/m4singer_hifigan/model_ckpt_steps_1970000.ckpt.
| HifiGAN device: cuda.
| load HifiGAN: checkpoints/m4singer_hifigan/model_ckpt_steps_1970000.ckpt
Removing weight norm...
| Loaded model parameters from checkpoints/m4singer_hifigan/model_ckpt_steps_1970000.ckpt.
| HifiGAN device: cuda.
| load 'model' from 'checkpoints/m4singer_pe/model_ckpt_steps_280000.ckpt'.
10/09 12:12:55 PM gpu available: True, used: True
| load 'model' from 'checkpoints/m4singer_fs2_e2e/model_ckpt_steps_320000.ckpt'.
| model Arch: GaussianDiffusion(
(denoise_fn): DiffNet(
(input_projection): Conv1d(80, 256, kernel_size=(1,), stride=(1,))
(diffusion_embedding): SinusoidalPosEmb()
(mlp): Sequential(
(0): Linear(in_features=256, out_features=1024, bias=True)
(1): Mish()
(2): Linear(in_features=1024, out_features=256, bias=True)
)
(residual_layers): ModuleList(
(0): ResidualBlock(
(dilated_conv): Conv1d(256, 512, kernel_size=(3,), stride=(1,), padding=(1,))
(diffusion_projection): Linear(in_features=256, out_features=256, bias=True)
(conditioner_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
(output_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
)
(1): ResidualBlock(
(dilated_conv): Conv1d(256, 512, kernel_size=(3,), stride=(1,), padding=(2,), dilation=(2,))
(diffusion_projection): Linear(in_features=256, out_features=256, bias=True)
(conditioner_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
(output_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
)
(2): ResidualBlock(
(dilated_conv): Conv1d(256, 512, kernel_size=(3,), stride=(1,), padding=(4,), dilation=(4,))
(diffusion_projection): Linear(in_features=256, out_features=256, bias=True)
(conditioner_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
(output_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
)
(3): ResidualBlock(
(dilated_conv): Conv1d(256, 512, kernel_size=(3,), stride=(1,), padding=(8,), dilation=(8,))
(diffusion_projection): Linear(in_features=256, out_features=256, bias=True)
(conditioner_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
(output_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
)
(4): ResidualBlock(
(dilated_conv): Conv1d(256, 512, kernel_size=(3,), stride=(1,), padding=(1,))
(diffusion_projection): Linear(in_features=256, out_features=256, bias=True)
(conditioner_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
(output_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
)
(5): ResidualBlock(
(dilated_conv): Conv1d(256, 512, kernel_size=(3,), stride=(1,), padding=(2,), dilation=(2,))
(diffusion_projection): Linear(in_features=256, out_features=256, bias=True)
(conditioner_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
(output_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
)
(6): ResidualBlock(
(dilated_conv): Conv1d(256, 512, kernel_size=(3,), stride=(1,), padding=(4,), dilation=(4,))
(diffusion_projection): Linear(in_features=256, out_features=256, bias=True)
(conditioner_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
(output_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
)
(7): ResidualBlock(
(dilated_conv): Conv1d(256, 512, kernel_size=(3,), stride=(1,), padding=(8,), dilation=(8,))
(diffusion_projection): Linear(in_features=256, out_features=256, bias=True)
(conditioner_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
(output_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
)
(8): ResidualBlock(
(dilated_conv): Conv1d(256, 512, kernel_size=(3,), stride=(1,), padding=(1,))
(diffusion_projection): Linear(in_features=256, out_features=256, bias=True)
(conditioner_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
(output_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
)
(9): ResidualBlock(
(dilated_conv): Conv1d(256, 512, kernel_size=(3,), stride=(1,), padding=(2,), dilation=(2,))
(diffusion_projection): Linear(in_features=256, out_features=256, bias=True)
(conditioner_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
(output_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
)
(10): ResidualBlock(
(dilated_conv): Conv1d(256, 512, kernel_size=(3,), stride=(1,), padding=(4,), dilation=(4,))
(diffusion_projection): Linear(in_features=256, out_features=256, bias=True)
(conditioner_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
(output_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
)
(11): ResidualBlock(
(dilated_conv): Conv1d(256, 512, kernel_size=(3,), stride=(1,), padding=(8,), dilation=(8,))
(diffusion_projection): Linear(in_features=256, out_features=256, bias=True)
(conditioner_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
(output_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
)
(12): ResidualBlock(
(dilated_conv): Conv1d(256, 512, kernel_size=(3,), stride=(1,), padding=(1,))
(diffusion_projection): Linear(in_features=256, out_features=256, bias=True)
(conditioner_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
(output_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
)
(13): ResidualBlock(
(dilated_conv): Conv1d(256, 512, kernel_size=(3,), stride=(1,), padding=(2,), dilation=(2,))
(diffusion_projection): Linear(in_features=256, out_features=256, bias=True)
(conditioner_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
(output_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
)
(14): ResidualBlock(
(dilated_conv): Conv1d(256, 512, kernel_size=(3,), stride=(1,), padding=(4,), dilation=(4,))
(diffusion_projection): Linear(in_features=256, out_features=256, bias=True)
(conditioner_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
(output_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
)
(15): ResidualBlock(
(dilated_conv): Conv1d(256, 512, kernel_size=(3,), stride=(1,), padding=(8,), dilation=(8,))
(diffusion_projection): Linear(in_features=256, out_features=256, bias=True)
(conditioner_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
(output_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
)
(16): ResidualBlock(
(dilated_conv): Conv1d(256, 512, kernel_size=(3,), stride=(1,), padding=(1,))
(diffusion_projection): Linear(in_features=256, out_features=256, bias=True)
(conditioner_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
(output_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
)
(17): ResidualBlock(
(dilated_conv): Conv1d(256, 512, kernel_size=(3,), stride=(1,), padding=(2,), dilation=(2,))
(diffusion_projection): Linear(in_features=256, out_features=256, bias=True)
(conditioner_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
(output_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
)
(18): ResidualBlock(
(dilated_conv): Conv1d(256, 512, kernel_size=(3,), stride=(1,), padding=(4,), dilation=(4,))
(diffusion_projection): Linear(in_features=256, out_features=256, bias=True)
(conditioner_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
(output_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
)
(19): ResidualBlock(
(dilated_conv): Conv1d(256, 512, kernel_size=(3,), stride=(1,), padding=(8,), dilation=(8,))
(diffusion_projection): Linear(in_features=256, out_features=256, bias=True)
(conditioner_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
(output_projection): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
)
)
(skip_projection): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
(output_projection): Conv1d(256, 80, kernel_size=(1,), stride=(1,))
)
(fs2): FastSpeech2MIDI(
(encoder_embed_tokens): Embedding(61, 256, padding_idx=0)
(decoder): FastspeechDecoder(
(embed_positions): SinusoidalPositionalEmbedding()
(layers): ModuleList(
(0): TransformerEncoderLayer(
(op): EncSALayer(
(layer_norm1): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
(self_attn): MultiheadAttention(
(out_proj): Linear(in_features=256, out_features=256, bias=False)
)
(layer_norm2): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
(ffn): TransformerFFNLayer(
(ffn_1): Conv1d(256, 1024, kernel_size=(9,), stride=(1,), padding=(4,))
(ffn_2): Linear(in_features=1024, out_features=256, bias=True)
)
)
)
(1): TransformerEncoderLayer(
(op): EncSALayer(
(layer_norm1): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
(self_attn): MultiheadAttention(
(out_proj): Linear(in_features=256, out_features=256, bias=False)
)
(layer_norm2): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
(ffn): TransformerFFNLayer(
(ffn_1): Conv1d(256, 1024, kernel_size=(9,), stride=(1,), padding=(4,))
(ffn_2): Linear(in_features=1024, out_features=256, bias=True)
)
)
)
(2): TransformerEncoderLayer(
(op): EncSALayer(
(layer_norm1): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
(self_attn): MultiheadAttention(
(out_proj): Linear(in_features=256, out_features=256, bias=False)
)
(layer_norm2): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
(ffn): TransformerFFNLayer(
(ffn_1): Conv1d(256, 1024, kernel_size=(9,), stride=(1,), padding=(4,))
(ffn_2): Linear(in_features=1024, out_features=256, bias=True)
)
)
)
(3): TransformerEncoderLayer(
(op): EncSALayer(
(layer_norm1): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
(self_attn): MultiheadAttention(
(out_proj): Linear(in_features=256, out_features=256, bias=False)
)
(layer_norm2): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
(ffn): TransformerFFNLayer(
(ffn_1): Conv1d(256, 1024, kernel_size=(9,), stride=(1,), padding=(4,))
(ffn_2): Linear(in_features=1024, out_features=256, bias=True)
)
)
)
)
(layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
)
(mel_out): Linear(in_features=256, out_features=80, bias=True)
(spk_embed_proj): Embedding(21, 256)
(dur_predictor): DurationPredictor(
(conv): ModuleList(
(0): Sequential(
(0): ConstantPad1d(padding=(1, 1), value=0)
(1): Conv1d(256, 256, kernel_size=(3,), stride=(1,))
(2): ReLU()
(3): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
(4): Dropout(p=0.5, inplace=False)
)
(1): Sequential(
(0): ConstantPad1d(padding=(1, 1), value=0)
(1): Conv1d(256, 256, kernel_size=(3,), stride=(1,))
(2): ReLU()
(3): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
(4): Dropout(p=0.5, inplace=False)
)
(2): Sequential(
(0): ConstantPad1d(padding=(1, 1), value=0)
(1): Conv1d(256, 256, kernel_size=(3,), stride=(1,))
(2): ReLU()
(3): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
(4): Dropout(p=0.5, inplace=False)
)
(3): Sequential(
(0): ConstantPad1d(padding=(1, 1), value=0)
(1): Conv1d(256, 256, kernel_size=(3,), stride=(1,))
(2): ReLU()
(3): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
(4): Dropout(p=0.5, inplace=False)
)
(4): Sequential(
(0): ConstantPad1d(padding=(1, 1), value=0)
(1): Conv1d(256, 256, kernel_size=(3,), stride=(1,))
(2): ReLU()
(3): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
(4): Dropout(p=0.5, inplace=False)
)
)
(linear): Linear(in_features=256, out_features=1, bias=True)
)
(length_regulator): LengthRegulator()
(encoder): FastspeechMIDIEncoder(
(layers): ModuleList(
(0): TransformerEncoderLayer(
(op): EncSALayer(
(layer_norm1): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
(self_attn): MultiheadAttention(
(out_proj): Linear(in_features=256, out_features=256, bias=False)
)
(layer_norm2): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
(ffn): TransformerFFNLayer(
(ffn_1): Conv1d(256, 1024, kernel_size=(9,), stride=(1,), padding=(4,))
(ffn_2): Linear(in_features=1024, out_features=256, bias=True)
)
)
)
(1): TransformerEncoderLayer(
(op): EncSALayer(
(layer_norm1): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
(self_attn): MultiheadAttention(
(out_proj): Linear(in_features=256, out_features=256, bias=False)
)
(layer_norm2): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
(ffn): TransformerFFNLayer(
(ffn_1): Conv1d(256, 1024, kernel_size=(9,), stride=(1,), padding=(4,))
(ffn_2): Linear(in_features=1024, out_features=256, bias=True)
)
)
)
(2): TransformerEncoderLayer(
(op): EncSALayer(
(layer_norm1): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
(self_attn): MultiheadAttention(
(out_proj): Linear(in_features=256, out_features=256, bias=False)
)
(layer_norm2): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
(ffn): TransformerFFNLayer(
(ffn_1): Conv1d(256, 1024, kernel_size=(9,), stride=(1,), padding=(4,))
(ffn_2): Linear(in_features=1024, out_features=256, bias=True)
)
)
)
(3): TransformerEncoderLayer(
(op): EncSALayer(
(layer_norm1): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
(self_attn): MultiheadAttention(
(out_proj): Linear(in_features=256, out_features=256, bias=False)
)
(layer_norm2): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
(ffn): TransformerFFNLayer(
(ffn_1): Conv1d(256, 1024, kernel_size=(9,), stride=(1,), padding=(4,))
(ffn_2): Linear(in_features=1024, out_features=256, bias=True)
)
)
)
)
(layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
(embed_tokens): Embedding(61, 256, padding_idx=0)
(embed_positions): RelPositionalEncoding(
(dropout): Dropout(p=0.0, inplace=False)
)
)
(midi_embed): Embedding(300, 256, padding_idx=0)
(midi_dur_layer): Linear(in_features=1, out_features=256, bias=True)
(is_slur_embed): Embedding(2, 256)
)
)
| model Trainable Parameters: 39.281M
10/09 12:12:56 PM model and trainer restored from checkpoint: checkpoints/m4singer_diff_e2e/model_ckpt_steps_900000.ckpt
Testing: 0%| | 0/217 [00:00, ?batch/s]| load HifiGAN: checkpoints/m4singer_hifigan/model_ckpt_steps_1970000.ckpt
Removing weight norm...
| Loaded model parameters from checkpoints/m4singer_hifigan/model_ckpt_steps_1970000.ckpt.
| HifiGAN device: cuda.
| load 'model' from 'checkpoints/m4singer_pe/model_ckpt_steps_280000.ckpt'.
===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:00<00:00, 215.67it/s]
Pred_shape: (781, 80), gt_shape: (793, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 3.13it/s]
Testing: 0%|▌ | 1/217 [00:02<10:11, 2.83s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 188.49it/s]
Pred_shape: (791, 80), gt_shape: (796, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 4.16it/s]
Testing: 1%|█ | 2/217 [00:04<08:31, 2.38s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 108.97it/s]
Pred_shape: (1366, 80), gt_shape: (1392, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2.55it/s]
Testing: 1%|█▋ | 3/217 [00:06<08:20, 2.34s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 184.88it/s]
Pred_shape: (828, 80), gt_shape: (842, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 3.91it/s]
Testing: 2%|██▏ | 4/217 [00:07<07:15, 2.04s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 182.52it/s]
Pred_shape: (769, 80), gt_shape: (775, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 3.36it/s]
Testing: 2%|██▊ | 5/217 [00:09<06:32, 1.85s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 159.35it/s]
Pred_shape: (1214, 80), gt_shape: (1235, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2.68it/s]
Testing: 3%|███▎ | 6/217 [00:10<06:19, 1.80s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 181.25it/s]
Pred_shape: (881, 80), gt_shape: (888, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 3.71it/s]
Testing: 3%|███▊ | 7/217 [00:12<05:51, 1.67s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 183.67it/s]
Pred_shape: (849, 80), gt_shape: (874, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 3.24it/s]
Testing: 4%|████▍ | 8/217 [00:13<05:33, 1.60s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 166.04it/s]
Pred_shape: (629, 80), gt_shape: (632, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 3.67it/s]
Testing: 4%|████▉ | 9/217 [00:15<05:26, 1.57s/batch]===> gaussion start.
sample time step: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:02<00:00, 96.50it/s]
Pred_shape: (778, 80), gt_shape: (757, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 3.31it/s]
Testing: 5%|█████▍ | 10/217 [00:17<06:16, 1.82s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 171.89it/s]
Pred_shape: (828, 80), gt_shape: (838, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 3.11it/s]
Testing: 5%|██████ | 11/217 [00:19<05:55, 1.72s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 185.39it/s]
Pred_shape: (840, 80), gt_shape: (866, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 3.93it/s]
Testing: 6%|██████▌ | 12/217 [00:20<05:30, 1.61s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 189.41it/s]
Pred_shape: (793, 80), gt_shape: (794, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 3.98it/s]
Testing: 6%|███████▏ | 13/217 [00:21<05:10, 1.52s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 174.09it/s]
Pred_shape: (469, 80), gt_shape: (492, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 6.11it/s]
Testing: 6%|███████▋ | 14/217 [00:23<04:57, 1.47s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 184.94it/s]
Pred_shape: (840, 80), gt_shape: (861, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 3.90it/s]
Testing: 7%|████████▏ | 15/217 [00:24<04:49, 1.43s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 181.51it/s]
Pred_shape: (817, 80), gt_shape: (829, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 3.18it/s]
Testing: 7%|████████▊ | 16/217 [00:25<04:47, 1.43s/batch]===> gaussion start.
sample time step: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:02<00:00, 79.59it/s]
Pred_shape: (1704, 80), gt_shape: (1674, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2.04it/s]
Testing: 8%|█████████▎ | 17/217 [00:28<06:22, 1.91s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 191.15it/s]
Pred_shape: (796, 80), gt_shape: (808, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 3.96it/s]
Testing: 8%|█████████▊ | 18/217 [00:30<05:44, 1.73s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 189.54it/s]
Pred_shape: (793, 80), gt_shape: (814, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 4.09it/s]
Testing: 9%|██████████▍ | 19/217 [00:31<05:18, 1.61s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 115.37it/s]
Pred_shape: (1574, 80), gt_shape: (1562, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2.21it/s]
Testing: 9%|██████████▉ | 20/217 [00:33<05:51, 1.79s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 160.47it/s]
Pred_shape: (1131, 80), gt_shape: (1155, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2.55it/s]
Testing: 10%|███████████▌ | 21/217 [00:35<05:42, 1.75s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 150.84it/s]
Pred_shape: (877, 80), gt_shape: (880, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 3.92it/s]
Testing: 10%|████████████ | 22/217 [00:36<05:32, 1.70s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 116.68it/s]
Pred_shape: (1652, 80), gt_shape: (1610, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2.18it/s]
Testing: 11%|████████████▌ | 23/217 [00:39<05:58, 1.85s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 189.77it/s]
Pred_shape: (794, 80), gt_shape: (812, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 3.97it/s]
Testing: 11%|█████████████▏ | 24/217 [00:40<05:26, 1.69s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 161.56it/s]
Pred_shape: (798, 80), gt_shape: (829, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 3.98it/s]
Testing: 12%|█████████████▋ | 25/217 [00:41<05:13, 1.64s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 178.44it/s]
Pred_shape: (648, 80), gt_shape: (652, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 3.70it/s]
Testing: 12%|██████████████▎ | 26/217 [00:43<04:59, 1.57s/batch]===> gaussion start.
sample time step: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:02<00:00, 85.06it/s]
Pred_shape: (977, 80), gt_shape: (985, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2.91it/s]
Testing: 12%|██████████████▊ | 27/217 [00:46<06:03, 1.91s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 166.77it/s]
Pred_shape: (755, 80), gt_shape: (762, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 3.54it/s]
Testing: 13%|███████████████▎ | 28/217 [00:47<05:38, 1.79s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 181.84it/s]
Pred_shape: (875, 80), gt_shape: (895, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 3.82it/s]
Testing: 13%|███████████████▉ | 29/217 [00:48<05:13, 1.67s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 113.65it/s]
Pred_shape: (1595, 80), gt_shape: (1595, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2.16it/s]
Testing: 14%|████████████████▍ | 30/217 [00:51<05:43, 1.84s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 187.29it/s]
Pred_shape: (851, 80), gt_shape: (865, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2.82it/s]
Testing: 14%|█████████████████ | 31/217 [00:52<05:19, 1.72s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 131.27it/s]
Pred_shape: (837, 80), gt_shape: (833, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 3.90it/s]
Testing: 15%|█████████████████▌ | 32/217 [00:54<05:22, 1.74s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 157.57it/s]
Pred_shape: (1258, 80), gt_shape: (1273, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2.78it/s]
Testing: 15%|██████████████████ | 33/217 [00:56<05:15, 1.71s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 182.60it/s]
Pred_shape: (865, 80), gt_shape: (881, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 3.73it/s]
Testing: 16%|██████████████████▋ | 34/217 [00:57<04:55, 1.61s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 188.50it/s]
Pred_shape: (811, 80), gt_shape: (825, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 3.32it/s]
Testing: 16%|███████████████████▏ | 35/217 [00:58<04:40, 1.54s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 144.72it/s]
Pred_shape: (722, 80), gt_shape: (723, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 4.38it/s]
Testing: 17%|███████████████████▋ | 36/217 [01:00<04:44, 1.57s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 185.93it/s]
Pred_shape: (722, 80), gt_shape: (731, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 4.25it/s]
Testing: 17%|████████████████████▎ | 37/217 [01:01<04:29, 1.50s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 183.85it/s]
Pred_shape: (799, 80), gt_shape: (808, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 4.05it/s]
Testing: 18%|████████████████████▊ | 38/217 [01:03<04:19, 1.45s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 158.70it/s]
Pred_shape: (1213, 80), gt_shape: (1210, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2.96it/s]
Testing: 18%|█████████████████████▍ | 39/217 [01:04<04:27, 1.50s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 182.71it/s]
Pred_shape: (952, 80), gt_shape: (947, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 3.63it/s]
Testing: 18%|█████████████████████▉ | 40/217 [01:06<04:19, 1.47s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 186.25it/s]
Pred_shape: (845, 80), gt_shape: (850, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 3.20it/s]
Testing: 19%|██████████████████████▍ | 41/217 [01:07<04:14, 1.45s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 120.16it/s]
Pred_shape: (1208, 80), gt_shape: (1210, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2.70it/s]
Testing: 19%|███████████████████████ | 42/217 [01:09<04:45, 1.63s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 163.16it/s]
Pred_shape: (1024, 80), gt_shape: (1047, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 3.07it/s]
Testing: 20%|███████████████████████▌ | 43/217 [01:11<04:40, 1.61s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 174.92it/s]
Pred_shape: (582, 80), gt_shape: (579, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 4.55it/s]
Testing: 20%|████████████████████████▏ | 44/217 [01:12<04:26, 1.54s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 111.63it/s]
Pred_shape: (1486, 80), gt_shape: (1499, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2.10it/s]
Testing: 21%|████████████████████████▋ | 45/217 [01:14<05:03, 1.77s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 183.30it/s]
Pred_shape: (823, 80), gt_shape: (827, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 3.56it/s]
Testing: 21%|█████████████████████████▏ | 46/217 [01:16<04:42, 1.65s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 105.42it/s]
Pred_shape: (1491, 80), gt_shape: (1502, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2.29it/s]
Testing: 22%|█████████████████████████▊ | 47/217 [01:18<05:16, 1.86s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 187.57it/s]
Pred_shape: (704, 80), gt_shape: (707, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 3.66it/s]
Testing: 22%|██████████████████████████▎ | 48/217 [01:19<04:49, 1.71s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 177.61it/s]
Pred_shape: (788, 80), gt_shape: (794, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 3.16it/s]
Testing: 23%|██████████████████████████▊ | 49/217 [01:21<04:34, 1.64s/batch]===> gaussion start.
sample time step: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:03<00:00, 59.62it/s]
Pred_shape: (1374, 80), gt_shape: (1389, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2.42it/s]
Testing: 23%|███████████████████████████▍ | 50/217 [01:25<06:21, 2.28s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 126.41it/s]
Pred_shape: (2104, 80), gt_shape: (1939, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1.65it/s]
Testing: 24%|███████████████████████████▉ | 51/217 [01:27<06:16, 2.27s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 125.19it/s]
Pred_shape: (1769, 80), gt_shape: (1806, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1.58it/s]
Testing: 24%|████████████████████████████▌ | 52/217 [01:29<06:13, 2.26s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 120.66it/s]
Pred_shape: (997, 80), gt_shape: (772, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 3.91it/s]
Testing: 24%|█████████████████████████████ | 53/217 [01:31<05:54, 2.16s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 196.84it/s]
Pred_shape: (833, 80), gt_shape: (784, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 3.43it/s]
Testing: 25%|█████████████████████████████▌ | 54/217 [01:32<05:11, 1.91s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 179.94it/s]
Pred_shape: (653, 80), gt_shape: (660, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 4.10it/s]
Testing: 25%|██████████████████████████████▏ | 55/217 [01:34<04:43, 1.75s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 113.74it/s]
Pred_shape: (1520, 80), gt_shape: (1290, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2.26it/s]
Testing: 26%|██████████████████████████████▋ | 56/217 [01:36<05:04, 1.89s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 125.43it/s]
Pred_shape: (1714, 80), gt_shape: (1780, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1.78it/s]
Testing: 26%|███████████████████████████████▎ | 57/217 [01:38<05:16, 1.98s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 159.65it/s]
Pred_shape: (995, 80), gt_shape: (810, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 3.66it/s]
Testing: 27%|███████████████████████████████▊ | 58/217 [01:40<04:53, 1.85s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 113.52it/s]
Pred_shape: (1392, 80), gt_shape: (1410, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2.28it/s]
Testing: 27%|████████████████████████████████▎ | 59/217 [01:42<05:09, 1.96s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 112.74it/s]
Pred_shape: (1381, 80), gt_shape: (1408, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1.80it/s]
Testing: 28%|████████████████████████████████▉ | 60/217 [01:44<05:25, 2.07s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 100.41it/s]
Pred_shape: (1326, 80), gt_shape: (1341, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2.17it/s]
Testing: 28%|█████████████████████████████████▍ | 61/217 [01:47<05:42, 2.19s/batch]===> gaussion start.
sample time step: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:02<00:00, 90.27it/s]
Pred_shape: (1565, 80), gt_shape: (1366, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1.90it/s]
Testing: 29%|██████████████████████████████████ | 62/217 [01:50<06:06, 2.37s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 110.44it/s]
Pred_shape: (1402, 80), gt_shape: (1401, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2.06it/s]
Testing: 29%|██████████████████████████████████▌ | 63/217 [01:52<06:01, 2.35s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 112.51it/s]
Pred_shape: (1687, 80), gt_shape: (1354, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2.10it/s]
Testing: 29%|███████████████████████████████████ | 64/217 [01:54<05:56, 2.33s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 119.03it/s]
Pred_shape: (1831, 80), gt_shape: (1490, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1.47it/s]
Testing: 30%|███████████████████████████████████▋ | 65/217 [01:57<05:56, 2.34s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 107.37it/s]
Pred_shape: (1411, 80), gt_shape: (1393, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2.16it/s]
Testing: 30%|████████████████████████████████████▏ | 66/217 [01:59<05:54, 2.35s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 122.02it/s]
Pred_shape: (1913, 80), gt_shape: (1676, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1.59it/s]
Testing: 31%|████████████████████████████████████▋ | 67/217 [02:01<05:49, 2.33s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 144.58it/s]
Pred_shape: (1196, 80), gt_shape: (1436, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2.25it/s]
Testing: 31%|█████████████████████████████████████▎ | 68/217 [02:03<05:25, 2.19s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 181.17it/s]
Pred_shape: (744, 80), gt_shape: (757, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 3.67it/s]
Testing: 32%|█████████████████████████████████████▊ | 69/217 [02:04<04:48, 1.95s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 112.35it/s]
Pred_shape: (1450, 80), gt_shape: (1462, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2.10it/s]
Testing: 32%|██████████████████████████████████████▍ | 70/217 [02:07<05:00, 2.04s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 160.44it/s]
Pred_shape: (1211, 80), gt_shape: (1157, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2.14it/s]
Testing: 33%|██████████████████████████████████████▉ | 71/217 [02:08<04:44, 1.95s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 102.92it/s]
Pred_shape: (747, 80), gt_shape: (765, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 3.57it/s]
Testing: 33%|███████████████████████████████████████▍ | 72/217 [02:11<04:55, 2.04s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 184.68it/s]
Pred_shape: (719, 80), gt_shape: (732, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 3.16it/s]
Testing: 34%|████████████████████████████████████████ | 73/217 [02:12<04:26, 1.85s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 112.75it/s]
Pred_shape: (1464, 80), gt_shape: (1488, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2.10it/s]
Testing: 34%|████████████████████████████████████████▌ | 74/217 [02:14<04:42, 1.98s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 184.21it/s]
Pred_shape: (613, 80), gt_shape: (627, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 3.90it/s]
Testing: 35%|█████████████████████████████████████████▏ | 75/217 [02:16<04:14, 1.79s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 186.83it/s]
Pred_shape: (913, 80), gt_shape: (928, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 3.12it/s]
Testing: 35%|█████████████████████████████████████████▋ | 76/217 [02:17<03:56, 1.68s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 113.23it/s]
Pred_shape: (1419, 80), gt_shape: (1457, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2.03it/s]
Testing: 35%|██████████████████████████████████████████▏ | 77/217 [02:19<04:19, 1.86s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 111.09it/s]
Pred_shape: (1584, 80), gt_shape: (1323, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1.63it/s]
Testing: 36%|██████████████████████████████████████████▊ | 78/217 [02:22<04:42, 2.03s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 178.70it/s]
Pred_shape: (746, 80), gt_shape: (765, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2.81it/s]
Testing: 36%|███████████████████████████████████████████▎ | 79/217 [02:23<04:18, 1.87s/batch]===> gaussion start.
sample time step: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:02<00:00, 82.88it/s]
Pred_shape: (1463, 80), gt_shape: (1483, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2.08it/s]
Testing: 37%|███████████████████████████████████████████▊ | 80/217 [02:26<04:59, 2.18s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 109.33it/s]
Pred_shape: (1328, 80), gt_shape: (1231, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2.30it/s]
Testing: 37%|████████████████████████████████████████████▍ | 81/217 [02:29<05:00, 2.21s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 181.88it/s]
Pred_shape: (720, 80), gt_shape: (735, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2.97it/s]
Testing: 38%|████████████████████████████████████████████▉ | 82/217 [02:30<04:27, 1.98s/batch]===> gaussion start.
sample time step: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:02<00:00, 92.76it/s]
Pred_shape: (746, 80), gt_shape: (762, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 3.07it/s]
Testing: 38%|█████████████████████████████████████████████▌ | 83/217 [02:32<04:46, 2.14s/batch]===> gaussion start.
sample time step: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:02<00:00, 77.36it/s]
Pred_shape: (1485, 80), gt_shape: (1498, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2.19it/s]
Testing: 39%|██████████████████████████████████████████████ | 84/217 [02:36<05:21, 2.42s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 184.36it/s]
Pred_shape: (923, 80), gt_shape: (939, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2.84it/s]
Testing: 39%|██████████████████████████████████████████████▌ | 85/217 [02:37<04:40, 2.13s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 111.41it/s]
Pred_shape: (1450, 80), gt_shape: (1485, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2.09it/s]
Testing: 40%|███████████████████████████████████████████████▏ | 86/217 [02:39<04:45, 2.18s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 141.91it/s]
Pred_shape: (1602, 80), gt_shape: (1309, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2.19it/s]
Testing: 40%|███████████████████████████████████████████████▋ | 87/217 [02:41<04:32, 2.09s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 112.59it/s]
Pred_shape: (1392, 80), gt_shape: (1680, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1.82it/s]
Testing: 41%|████████████████████████████████████████████████▎ | 88/217 [02:44<04:39, 2.17s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 106.34it/s]
Pred_shape: (768, 80), gt_shape: (779, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 4.19it/s]
Testing: 41%|████████████████████████████████████████████████▊ | 89/217 [02:46<04:36, 2.16s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 183.52it/s]
Pred_shape: (762, 80), gt_shape: (761, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 3.72it/s]
Testing: 41%|█████████████████████████████████████████████████▎ | 90/217 [02:47<04:04, 1.92s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 163.73it/s]
Pred_shape: (1029, 80), gt_shape: (1066, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2.72it/s]
Testing: 42%|█████████████████████████████████████████████████▉ | 91/217 [02:49<03:50, 1.83s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 133.21it/s]
Pred_shape: (809, 80), gt_shape: (816, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 3.53it/s]
Testing: 42%|██████████████████████████████████████████████████▍ | 92/217 [02:50<03:47, 1.82s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 164.74it/s]
Pred_shape: (1093, 80), gt_shape: (1095, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2.75it/s]
Testing: 43%|███████████████████████████████████████████████████ | 93/217 [02:52<03:37, 1.75s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 157.87it/s]
Pred_shape: (1042, 80), gt_shape: (1066, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2.66it/s]
Testing: 43%|███████████████████████████████████████████████████▌ | 94/217 [02:54<03:32, 1.73s/batch]===> gaussion start.
sample time step: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:02<00:00, 97.37it/s]
Pred_shape: (829, 80), gt_shape: (841, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 3.06it/s]
Testing: 44%|████████████████████████████████████████████████████ | 95/217 [02:56<03:55, 1.93s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 119.20it/s]
Pred_shape: (892, 80), gt_shape: (905, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2.84it/s]
Testing: 44%|████████████████████████████████████████████████████▋ | 96/217 [02:58<03:57, 1.97s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 170.26it/s]
Pred_shape: (717, 80), gt_shape: (764, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 3.18it/s]
Testing: 45%|█████████████████████████████████████████████████████▏ | 97/217 [03:00<03:39, 1.83s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 122.19it/s]
Pred_shape: (780, 80), gt_shape: (782, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 3.39it/s]
Testing: 45%|█████████████████████████████████████████████████████▋ | 98/217 [03:02<03:41, 1.87s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 105.26it/s]
Pred_shape: (1363, 80), gt_shape: (1381, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1.84it/s]
Testing: 46%|██████████████████████████████████████████████████████▎ | 99/217 [03:04<04:01, 2.05s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 183.77it/s]
Pred_shape: (738, 80), gt_shape: (763, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 3.35it/s]
Testing: 46%|██████████████████████████████████████████████████████▍ | 100/217 [03:05<03:37, 1.86s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 127.07it/s]
Pred_shape: (744, 80), gt_shape: (751, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 4.15it/s]
Testing: 47%|██████████████████████████████████████████████████████▉ | 101/217 [03:07<03:34, 1.85s/batch]===> gaussion start.
sample time step: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:02<00:00, 79.86it/s]
Pred_shape: (1980, 80), gt_shape: (1653, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1.89it/s]
Testing: 47%|███████████████████████████████████████████████████████▍ | 102/217 [03:10<04:14, 2.21s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 157.48it/s]
Pred_shape: (1066, 80), gt_shape: (1067, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 3.19it/s]
Testing: 47%|████████████████████████████████████████████████████████ | 103/217 [03:12<03:51, 2.03s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 112.38it/s]
Pred_shape: (1320, 80), gt_shape: (1330, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2.27it/s]
Testing: 48%|████████████████████████████████████████████████████████▌ | 104/217 [03:14<03:56, 2.09s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 112.02it/s]
Pred_shape: (1317, 80), gt_shape: (1330, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2.38it/s]
Testing: 48%|█████████████████████████████████████████████████████████ | 105/217 [03:16<03:58, 2.13s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 187.23it/s]
Pred_shape: (896, 80), gt_shape: (916, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 3.07it/s]
Testing: 49%|█████████████████████████████████████████████████████████▋ | 106/217 [03:18<03:32, 1.91s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 112.79it/s]
Pred_shape: (1501, 80), gt_shape: (1531, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2.16it/s]
Testing: 49%|██████████████████████████████████████████████████████████▏ | 107/217 [03:20<03:41, 2.02s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 114.41it/s]
Pred_shape: (1370, 80), gt_shape: (1390, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2.22it/s]
Testing: 50%|██████████████████████████████████████████████████████████▋ | 108/217 [03:22<03:46, 2.08s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 184.64it/s]
Pred_shape: (778, 80), gt_shape: (781, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 3.78it/s]
Testing: 50%|███████████████████████████████████████████████████████████▎ | 109/217 [03:24<03:21, 1.86s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 102.10it/s]
Pred_shape: (2222, 80), gt_shape: (2115, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1.43it/s]
Testing: 51%|███████████████████████████████████████████████████████████▊ | 110/217 [03:26<03:46, 2.12s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 113.04it/s]
Pred_shape: (1401, 80), gt_shape: (1431, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2.13it/s]
Testing: 51%|████████████████████████████████████████████████████████████▎ | 111/217 [03:29<03:49, 2.16s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 112.93it/s]
Pred_shape: (1326, 80), gt_shape: (1330, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1.95it/s]
Testing: 52%|████████████████████████████████████████████████████████████▉ | 112/217 [03:31<03:51, 2.20s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 112.44it/s]
Pred_shape: (1586, 80), gt_shape: (1608, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1.75it/s]
Testing: 52%|█████████████████████████████████████████████████████████████▍ | 113/217 [03:33<03:54, 2.25s/batch]===> gaussion start.
sample time step: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:02<00:00, 89.32it/s]
Pred_shape: (2226, 80), gt_shape: (2144, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1.44it/s]
Testing: 53%|█████████████████████████████████████████████████████████████▉ | 114/217 [03:36<04:15, 2.49s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 173.49it/s]
Pred_shape: (493, 80), gt_shape: (500, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 5.43it/s]
Testing: 53%|██████████████████████████████████████████████████████████████▌ | 115/217 [03:38<03:38, 2.15s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 176.07it/s]
Pred_shape: (792, 80), gt_shape: (741, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 3.86it/s]
Testing: 53%|███████████████████████████████████████████████████████████████ | 116/217 [03:39<03:14, 1.92s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 110.00it/s]
Pred_shape: (1319, 80), gt_shape: (1034, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2.52it/s]
Testing: 54%|███████████████████████████████████████████████████████████████▌ | 117/217 [03:41<03:21, 2.02s/batch]===> gaussion start.
sample time step: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:02<00:00, 92.26it/s]
Pred_shape: (1318, 80), gt_shape: (1330, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2.83it/s]
Testing: 54%|████████████████████████████████████████████████████████████████▏ | 118/217 [03:44<03:35, 2.18s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 111.00it/s]
Pred_shape: (1469, 80), gt_shape: (1326, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2.65it/s]
Testing: 55%|████████████████████████████████████████████████████████████████▋ | 119/217 [03:46<03:33, 2.18s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 157.88it/s]
Pred_shape: (1261, 80), gt_shape: (1284, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2.52it/s]
Testing: 55%|█████████████████████████████████████████████████████████████████▎ | 120/217 [03:48<03:17, 2.03s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 102.40it/s]
Pred_shape: (1445, 80), gt_shape: (1318, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2.65it/s]
Testing: 56%|█████████████████████████████████████████████████████████████████▊ | 121/217 [03:50<03:24, 2.13s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 111.34it/s]
Pred_shape: (1309, 80), gt_shape: (1316, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2.73it/s]
Testing: 56%|██████████████████████████████████████████████████████████████████▎ | 122/217 [03:52<03:23, 2.14s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 113.39it/s]
Pred_shape: (1379, 80), gt_shape: (1295, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2.59it/s]
Testing: 57%|██████████████████████████████████████████████████████████████████▉ | 123/217 [03:54<03:22, 2.15s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 113.95it/s]
Pred_shape: (1302, 80), gt_shape: (1312, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2.46it/s]
Testing: 57%|███████████████████████████████████████████████████████████████████▍ | 124/217 [03:57<03:20, 2.16s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 165.39it/s]
Pred_shape: (1416, 80), gt_shape: (1301, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2.41it/s]
Testing: 58%|███████████████████████████████████████████████████████████████████▉ | 125/217 [03:58<03:04, 2.00s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 112.89it/s]
Pred_shape: (1318, 80), gt_shape: (1318, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2.24it/s]
Testing: 58%|████████████████████████████████████████████████████████████████████▌ | 126/217 [04:01<03:08, 2.07s/batch]===> gaussion start.
sample time step: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:02<00:00, 86.01it/s]
Pred_shape: (1382, 80), gt_shape: (1284, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2.34it/s]
Testing: 59%|█████████████████████████████████████████████████████████████████████ | 127/217 [04:03<03:25, 2.28s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 112.11it/s]
Pred_shape: (1388, 80), gt_shape: (1386, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2.58it/s]
Testing: 59%|█████████████████████████████████████████████████████████████████████▌ | 128/217 [04:06<03:20, 2.26s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 116.15it/s]
Pred_shape: (1703, 80), gt_shape: (1396, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2.13it/s]
Testing: 59%|██████████████████████████████████████████████████████████████████████▏ | 129/217 [04:08<03:17, 2.24s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 170.18it/s]
Pred_shape: (755, 80), gt_shape: (776, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 4.03it/s]
Testing: 60%|██████████████████████████████████████████████████████████████████████▋ | 130/217 [04:09<02:54, 2.00s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 154.73it/s]
Pred_shape: (1121, 80), gt_shape: (1128, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2.99it/s]
Testing: 60%|███████████████████████████████████████████████████████████████████████▏ | 131/217 [04:11<02:42, 1.89s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 180.02it/s]
Pred_shape: (938, 80), gt_shape: (828, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 3.80it/s]
Testing: 61%|███████████████████████████████████████████████████████████████████████▊ | 132/217 [04:12<02:28, 1.74s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 110.01it/s]
Pred_shape: (1318, 80), gt_shape: (1318, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2.31it/s]
Testing: 61%|████████████████████████████████████████████████████████████████████████▎ | 133/217 [04:14<02:39, 1.90s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 108.91it/s]
Pred_shape: (1380, 80), gt_shape: (1291, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2.59it/s]
Testing: 62%|████████████████████████████████████████████████████████████████████████▊ | 134/217 [04:17<02:46, 2.00s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 109.33it/s]
Pred_shape: (1311, 80), gt_shape: (1314, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2.40it/s]
Testing: 62%|█████████████████████████████████████████████████████████████████████████▍ | 135/217 [04:19<02:50, 2.08s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 110.69it/s]
Pred_shape: (1320, 80), gt_shape: (1274, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2.37it/s]
Testing: 63%|█████████████████████████████████████████████████████████████████████████▉ | 136/217 [04:21<02:52, 2.13s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 110.91it/s]
Pred_shape: (1391, 80), gt_shape: (1399, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2.38it/s]
Testing: 63%|██████████████████████████████████████████████████████████████████████████▍ | 137/217 [04:23<02:53, 2.16s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 154.59it/s]
Pred_shape: (1261, 80), gt_shape: (1229, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2.94it/s]
Testing: 64%|███████████████████████████████████████████████████████████████████████████ | 138/217 [04:25<02:38, 2.01s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 110.10it/s]
Pred_shape: (1317, 80), gt_shape: (1326, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2.35it/s]
Testing: 64%|███████████████████████████████████████████████████████████████████████████▌ | 139/217 [04:27<02:42, 2.08s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 111.28it/s]
Pred_shape: (1382, 80), gt_shape: (1283, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2.34it/s]
Testing: 65%|████████████████████████████████████████████████████████████████████████████▏ | 140/217 [04:30<02:44, 2.13s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 112.25it/s]
Pred_shape: (1379, 80), gt_shape: (1386, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2.06it/s]
Testing: 65%|████████████████████████████████████████████████████████████████████████████▋ | 141/217 [04:32<02:45, 2.18s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 100.51it/s]
Pred_shape: (1330, 80), gt_shape: (1231, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2.82it/s]
Testing: 65%|█████████████████████████████████████████████████████████████████████████████▏ | 142/217 [04:34<02:47, 2.23s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 113.88it/s]
Pred_shape: (1313, 80), gt_shape: (1319, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2.36it/s]
Testing: 66%|█████████████████████████████████████████████████████████████████████████████▊ | 143/217 [04:36<02:44, 2.22s/batch]===> gaussion start.
sample time step: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:02<00:00, 99.07it/s]
Pred_shape: (1448, 80), gt_shape: (1285, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2.27it/s]
Testing: 66%|██████████████████████████████████████████████████████████████████████████████▎ | 144/217 [04:39<02:47, 2.30s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 112.49it/s]
Pred_shape: (1389, 80), gt_shape: (1390, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2.02it/s]
Testing: 67%|██████████████████████████████████████████████████████████████████████████████▊ | 145/217 [04:41<02:45, 2.30s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 107.92it/s]
Pred_shape: (1432, 80), gt_shape: (1307, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2.07it/s]
Testing: 67%|███████████████████████████████████████████████████████████████████████████████▍ | 146/217 [04:44<02:44, 2.31s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 149.36it/s]
Pred_shape: (989, 80), gt_shape: (1025, 80): 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 3.31it/s]
Testing: 68%|███████████████████████████████████████████████████████████████████████████████▉ | 147/217 [04:45<02:28, 2.12s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 123.90it/s]
Pred_shape: (1778, 80), gt_shape: (1761, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1.91it/s]
Testing: 68%|████████████████████████████████████████████████████████████████████████████████▍ | 148/217 [04:47<02:26, 2.13s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 153.35it/s]
Pred_shape: (1009, 80), gt_shape: (1009, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2.84it/s]
Testing: 69%|█████████████████████████████████████████████████████████████████████████████████ | 149/217 [04:49<02:15, 1.99s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 128.70it/s]
Pred_shape: (623, 80), gt_shape: (645, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 4.62it/s]
Testing: 69%|█████████████████████████████████████████████████████████████████████████████████▌ | 150/217 [04:51<02:09, 1.93s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 165.31it/s]
Pred_shape: (1220, 80), gt_shape: (1224, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2.93it/s]
Testing: 70%|██████████████████████████████████████████████████████████████████████████████████ | 151/217 [04:52<02:00, 1.82s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 109.31it/s]
Pred_shape: (1293, 80), gt_shape: (1310, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2.82it/s]
Testing: 70%|██████████████████████████████████████████████████████████████████████████████████▋ | 152/217 [04:55<02:05, 1.94s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 152.34it/s]
Pred_shape: (1254, 80), gt_shape: (1250, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2.30it/s]
Testing: 71%|███████████████████████████████████████████████████████████████████████████████████▏ | 153/217 [04:56<02:00, 1.89s/batch]===> gaussion start.
sample time step: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:02<00:00, 90.20it/s]
Pred_shape: (1293, 80), gt_shape: (1313, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2.83it/s]
Testing: 71%|███████████████████████████████████████████████████████████████████████████████████▋ | 154/217 [04:59<02:12, 2.10s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 158.00it/s]
Pred_shape: (1139, 80), gt_shape: (1146, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2.68it/s]
Testing: 71%|████████████████████████████████████████████████████████████████████████████████████▎ | 155/217 [05:01<02:01, 1.97s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 153.04it/s]
Pred_shape: (1479, 80), gt_shape: (1486, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2.23it/s]
Testing: 72%|████████████████████████████████████████████████████████████████████████████████████▊ | 156/217 [05:02<01:56, 1.91s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 150.07it/s]
Pred_shape: (520, 80), gt_shape: (528, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 4.50it/s]
Testing: 72%|█████████████████████████████████████████████████████████████████████████████████████▎ | 157/217 [05:04<01:48, 1.81s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 105.05it/s]
Pred_shape: (1352, 80), gt_shape: (1132, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2.50it/s]
Testing: 73%|█████████████████████████████████████████████████████████████████████████████████████▉ | 158/217 [05:06<01:56, 1.97s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 109.58it/s]
Pred_shape: (1166, 80), gt_shape: (1189, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2.78it/s]
Testing: 73%|██████████████████████████████████████████████████████████████████████████████████████▍ | 159/217 [05:09<01:58, 2.04s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 187.52it/s]
Pred_shape: (747, 80), gt_shape: (753, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 3.14it/s]
Testing: 74%|███████████████████████████████████████████████████████████████████████████████████████ | 160/217 [05:10<01:45, 1.85s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 130.06it/s]
Pred_shape: (583, 80), gt_shape: (589, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 5.18it/s]
Testing: 74%|███████████████████████████████████████████████████████████████████████████████████████▌ | 161/217 [05:12<01:42, 1.82s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 158.91it/s]
Pred_shape: (1245, 80), gt_shape: (1262, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2.90it/s]
Testing: 75%|████████████████████████████████████████████████████████████████████████████████████████ | 162/217 [05:13<01:36, 1.76s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 149.41it/s]
Pred_shape: (1172, 80), gt_shape: (1190, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2.49it/s]
Testing: 75%|████████████████████████████████████████████████████████████████████████████████████████▋ | 163/217 [05:15<01:35, 1.76s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 155.26it/s]
Pred_shape: (1052, 80), gt_shape: (1071, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 3.11it/s]
Testing: 76%|█████████████████████████████████████████████████████████████████████████████████████████▏ | 164/217 [05:17<01:31, 1.72s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 179.96it/s]
Pred_shape: (755, 80), gt_shape: (768, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 3.87it/s]
Testing: 76%|█████████████████████████████████████████████████████████████████████████████████████████▋ | 165/217 [05:18<01:24, 1.62s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 174.64it/s]
Pred_shape: (551, 80), gt_shape: (567, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 4.08it/s]
Testing: 76%|██████████████████████████████████████████████████████████████████████████████████████████▎ | 166/217 [05:19<01:19, 1.55s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 161.80it/s]
Pred_shape: (790, 80), gt_shape: (799, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 3.38it/s]
Testing: 77%|██████████████████████████████████████████████████████████████████████████████████████████▊ | 167/217 [05:21<01:17, 1.55s/batch]===> gaussion start.
sample time step: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:02<00:00, 94.22it/s]
Pred_shape: (421, 80), gt_shape: (439, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 6.56it/s]
Testing: 77%|███████████████████████████████████████████████████████████████████████████████████████████▎ | 168/217 [05:23<01:27, 1.78s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 164.95it/s]
Pred_shape: (1089, 80), gt_shape: (1023, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 3.35it/s]
Testing: 78%|███████████████████████████████████████████████████████████████████████████████████████████▉ | 169/217 [05:25<01:21, 1.70s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 155.19it/s]
Pred_shape: (1237, 80), gt_shape: (1263, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2.88it/s]
Testing: 78%|████████████████████████████████████████████████████████████████████████████████████████████▍ | 170/217 [05:27<01:19, 1.69s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 146.06it/s]
Pred_shape: (1068, 80), gt_shape: (1070, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 3.42it/s]
Testing: 79%|████████████████████████████████████████████████████████████████████████████████████████████▉ | 171/217 [05:28<01:17, 1.69s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 109.95it/s]
Pred_shape: (1373, 80), gt_shape: (1388, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2.62it/s]
Testing: 79%|█████████████████████████████████████████████████████████████████████████████████████████████▌ | 172/217 [05:30<01:23, 1.84s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 169.85it/s]
Pred_shape: (478, 80), gt_shape: (480, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 4.58it/s]
Testing: 80%|██████████████████████████████████████████████████████████████████████████████████████████████ | 173/217 [05:32<01:15, 1.71s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 101.79it/s]
Pred_shape: (1730, 80), gt_shape: (1756, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1.79it/s]
Testing: 80%|██████████████████████████████████████████████████████████████████████████████████████████████▌ | 174/217 [05:34<01:24, 1.97s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 160.31it/s]
Pred_shape: (757, 80), gt_shape: (761, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 3.88it/s]
Testing: 81%|███████████████████████████████████████████████████████████████████████████████████████████████▏ | 175/217 [05:36<01:17, 1.84s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 182.48it/s]
Pred_shape: (572, 80), gt_shape: (581, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 5.18it/s]
Testing: 81%|███████████████████████████████████████████████████████████████████████████████████████████████▋ | 176/217 [05:37<01:08, 1.68s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 167.86it/s]
Pred_shape: (1217, 80), gt_shape: (1238, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 3.00it/s]
Testing: 82%|████████████████████████████████████████████████████████████████████████████████████████████████▏ | 177/217 [05:39<01:05, 1.64s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 159.87it/s]
Pred_shape: (1160, 80), gt_shape: (1185, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2.85it/s]
Testing: 82%|████████████████████████████████████████████████████████████████████████████████████████████████▊ | 178/217 [05:40<01:03, 1.63s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 158.31it/s]
Pred_shape: (1060, 80), gt_shape: (1081, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2.53it/s]
Testing: 82%|█████████████████████████████████████████████████████████████████████████████████████████████████▎ | 179/217 [05:42<01:02, 1.65s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 139.23it/s]
Pred_shape: (753, 80), gt_shape: (763, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 3.42it/s]
Testing: 83%|█████████████████████████████████████████████████████████████████████████████████████████████████▉ | 180/217 [05:44<01:02, 1.68s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 174.20it/s]
Pred_shape: (556, 80), gt_shape: (579, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 5.60it/s]
Testing: 83%|██████████████████████████████████████████████████████████████████████████████████████████████████▍ | 181/217 [05:45<00:56, 1.58s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 179.94it/s]
Pred_shape: (779, 80), gt_shape: (783, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 3.91it/s]
Testing: 84%|██████████████████████████████████████████████████████████████████████████████████████████████████▉ | 182/217 [05:47<00:53, 1.52s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 160.27it/s]
Pred_shape: (513, 80), gt_shape: (507, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 4.39it/s]
Testing: 84%|███████████████████████████████████████████████████████████████████████████████████████████████████▌ | 183/217 [05:48<00:51, 1.51s/batch]===> gaussion start.
sample time step: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:02<00:00, 92.57it/s]
Pred_shape: (1193, 80), gt_shape: (1043, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2.66it/s]
Testing: 85%|████████████████████████████████████████████████████████████████████████████████████████████████████ | 184/217 [05:51<01:00, 1.83s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 156.69it/s]
Pred_shape: (833, 80), gt_shape: (843, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 4.02it/s]
Testing: 85%|████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 185/217 [05:52<00:55, 1.74s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 166.69it/s]
Pred_shape: (461, 80), gt_shape: (476, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 5.82it/s]
Testing: 86%|█████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 186/217 [05:54<00:50, 1.64s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 103.08it/s]
Pred_shape: (2190, 80), gt_shape: (1953, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1.65it/s]
Testing: 86%|█████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 187/217 [05:56<00:57, 1.92s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 150.61it/s]
Pred_shape: (815, 80), gt_shape: (811, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 4.15it/s]
Testing: 87%|██████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 188/217 [05:58<00:52, 1.82s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 183.87it/s]
Pred_shape: (814, 80), gt_shape: (819, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 3.92it/s]
Testing: 87%|██████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 189/217 [05:59<00:47, 1.68s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 184.31it/s]
Pred_shape: (800, 80), gt_shape: (806, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 3.98it/s]
Testing: 88%|███████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 190/217 [06:00<00:42, 1.58s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 175.63it/s]
Pred_shape: (773, 80), gt_shape: (786, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 3.43it/s]
Testing: 88%|███████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 191/217 [06:02<00:40, 1.54s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 103.44it/s]
Pred_shape: (809, 80), gt_shape: (809, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 3.34it/s]
Testing: 88%|████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 192/217 [06:04<00:43, 1.76s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 114.28it/s]
Pred_shape: (800, 80), gt_shape: (799, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 4.05it/s]
Testing: 89%|████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 193/217 [06:06<00:44, 1.84s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 181.48it/s]
Pred_shape: (756, 80), gt_shape: (768, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 4.45it/s]
Testing: 89%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 194/217 [06:08<00:38, 1.69s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 150.95it/s]
Pred_shape: (1101, 80), gt_shape: (1044, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2.82it/s]
Testing: 90%|██████████████████████████████████████████████████████████████████████████████████████████████████████████ | 195/217 [06:09<00:37, 1.69s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 138.50it/s]
Pred_shape: (785, 80), gt_shape: (794, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 3.30it/s]
Testing: 90%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 196/217 [06:11<00:35, 1.71s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 103.91it/s]
Pred_shape: (1599, 80), gt_shape: (1621, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2.06it/s]
Testing: 91%|███████████████████████████████████████████████████████████████████████████████████████████████████████████ | 197/217 [06:13<00:38, 1.93s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 183.23it/s]
Pred_shape: (809, 80), gt_shape: (820, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 4.15it/s]
Testing: 91%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 198/217 [06:15<00:33, 1.76s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 173.77it/s]
Pred_shape: (778, 80), gt_shape: (788, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 3.89it/s]
Testing: 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 199/217 [06:16<00:29, 1.66s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 113.20it/s]
Pred_shape: (1598, 80), gt_shape: (1617, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2.21it/s]
Testing: 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 200/217 [06:18<00:31, 1.83s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 182.35it/s]
Pred_shape: (947, 80), gt_shape: (902, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 3.05it/s]
Testing: 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 201/217 [06:20<00:27, 1.71s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 119.41it/s]
Pred_shape: (898, 80), gt_shape: (913, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 3.70it/s]
Testing: 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 202/217 [06:22<00:26, 1.79s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 181.15it/s]
Pred_shape: (807, 80), gt_shape: (814, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 3.44it/s]
Testing: 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 203/217 [06:23<00:23, 1.68s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 175.51it/s]
Pred_shape: (767, 80), gt_shape: (774, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 4.22it/s]
Testing: 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 204/217 [06:25<00:20, 1.59s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 185.67it/s]
Pred_shape: (815, 80), gt_shape: (834, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 3.88it/s]
Testing: 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 205/217 [06:26<00:18, 1.52s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 180.41it/s]
Pred_shape: (787, 80), gt_shape: (801, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 3.99it/s]
Testing: 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 206/217 [06:27<00:16, 1.48s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 139.52it/s]
Pred_shape: (1607, 80), gt_shape: (1619, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2.24it/s]
Testing: 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 207/217 [06:29<00:16, 1.61s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 183.96it/s]
Pred_shape: (787, 80), gt_shape: (805, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 3.82it/s]
Testing: 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 208/217 [06:31<00:13, 1.54s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 184.31it/s]
Pred_shape: (802, 80), gt_shape: (811, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 3.79it/s]
Testing: 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 209/217 [06:32<00:11, 1.48s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 112.98it/s]
Pred_shape: (1581, 80), gt_shape: (1593, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2.20it/s]
Testing: 97%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 210/217 [06:34<00:11, 1.71s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 187.65it/s]
Pred_shape: (885, 80), gt_shape: (883, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 3.68it/s]
Testing: 97%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 211/217 [06:36<00:09, 1.60s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 187.92it/s]
Pred_shape: (856, 80), gt_shape: (865, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 3.30it/s]
Testing: 98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 212/217 [06:37<00:07, 1.54s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 117.59it/s]
Pred_shape: (1212, 80), gt_shape: (1219, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2.83it/s]
Testing: 98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 213/217 [06:39<00:06, 1.70s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 173.51it/s]
Pred_shape: (390, 80), gt_shape: (391, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 4.56it/s]
Testing: 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 214/217 [06:40<00:04, 1.61s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 140.28it/s]
Pred_shape: (1603, 80), gt_shape: (1621, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1.90it/s]
Testing: 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 215/217 [06:42<00:03, 1.72s/batch]===> gaussion start.
sample time step: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:02<00:00, 69.91it/s]
Pred_shape: (1570, 80), gt_shape: (1589, 80): 100%|████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2.21it/s]
Testing: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍| 216/217 [06:46<00:02, 2.21s/batch]===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 183.86it/s]
Pred_shape: (792, 80), gt_shape: (820, 80): 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 4.01it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 434/434 [00:04<00:00, 104.21it/s]
Testing: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 217/217 [06:52<00:00, 1.90s/batch]
(venv3712) (python3.7.12) yeqiang@yeqiang-Default-string:~/Downloads/ai/M4Singer/code$
(venv3712) (python3.7.12) yeqiang@yeqiang-Default-string:~/Downloads/ai/M4Singer/code$ bash 4.1.m4singer_diff_e2e.sh
| load 'model' from 'checkpoints/m4singer_diff_e2e/model_ckpt_steps_900000.ckpt'.
| load 'model' from 'checkpoints/m4singer_pe/model_ckpt_steps_280000.ckpt'.
| load HifiGAN: checkpoints/m4singer_hifigan/model_ckpt_steps_1970000.ckpt
Removing weight norm...
Pass word-notes check.
37 37 37
Pass word-notes check.
===> gaussion start.
sample time step: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:01<00:00, 129.47it/s]
(venv3712) (base) yeqiang@yeqiang-Default-string:~/Downloads/ai/M4Singer/code$ bash 4.2.infer.sh
| load 'model' from 'checkpoints/m4singer_diff_e2e/model_ckpt_steps_900000.ckpt'.
| load 'model' from 'checkpoints/m4singer_pe/model_ckpt_steps_280000.ckpt'.
| load HifiGAN: checkpoints/m4singer_hifigan/model_ckpt_steps_1970000.ckpt
Removing weight norm...
Running on local URL: http://127.0.0.1:7860