diff --git "a/rqrag/ERROR.txt" "b/rqrag/ERROR.txt"
new file mode 100644--- /dev/null
+++ "b/rqrag/ERROR.txt"
@@ -0,0 +1,2146 @@
+The following values were not passed to `accelerate launch` and had defaults used instead:
+		More than one GPU was found, enabling multi-GPU training.
+		If this was unintended please pass in `--num_processes=1`.
+	`--dynamo_backend` was set to a value of `'no'`
+To avoid this warning pass in values for each of the problematic parameters or run `accelerate config`.
+[2024-12-08 10:32:09,587] [INFO] [real_accelerator.py:219:get_accelerator] Setting ds_accelerator to cuda (auto detect)
+W1208 10:32:15.406000 140176667264832 torch/distributed/run.py:779] 
+W1208 10:32:15.406000 140176667264832 torch/distributed/run.py:779] *****************************************
+W1208 10:32:15.406000 140176667264832 torch/distributed/run.py:779] Setting OMP_NUM_THREADS environment variable for each process to be 1 in default, to avoid your system being overloaded, please further tune the variable for optimal performance in your application as needed. 
+W1208 10:32:15.406000 140176667264832 torch/distributed/run.py:779] *****************************************
+[2024-12-08 10:32:30,858] [INFO] [real_accelerator.py:219:get_accelerator] Setting ds_accelerator to cuda (auto detect)
+[2024-12-08 10:32:30,959] [INFO] [real_accelerator.py:219:get_accelerator] Setting ds_accelerator to cuda (auto detect)
+[2024-12-08 10:32:30,997] [INFO] [real_accelerator.py:219:get_accelerator] Setting ds_accelerator to cuda (auto detect)
+[2024-12-08 10:32:31,012] [INFO] [real_accelerator.py:219:get_accelerator] Setting ds_accelerator to cuda (auto detect)
+[2024-12-08 10:32:31,042] [INFO] [real_accelerator.py:219:get_accelerator] Setting ds_accelerator to cuda (auto detect)
+[2024-12-08 10:32:31,109] [INFO] [real_accelerator.py:219:get_accelerator] Setting ds_accelerator to cuda (auto detect)
+[2024-12-08 10:32:31,109] [INFO] [real_accelerator.py:219:get_accelerator] Setting ds_accelerator to cuda (auto detect)
+[2024-12-08 10:32:31,123] [INFO] [real_accelerator.py:219:get_accelerator] Setting ds_accelerator to cuda (auto detect)
+[2024-12-08 10:32:33,005] [INFO] [comm.py:652:init_distributed] cdb=None
+12/08/2024 10:32:33 - INFO - __main__ - Distributed environment: DEEPSPEED  Backend: nccl
+Num processes: 8
+Process index: 4
+Local process index: 4
+Device: cuda:4
+
+Mixed precision type: bf16
+ds_config: {'train_batch_size': 'auto', 'train_micro_batch_size_per_gpu': 'auto', 'gradient_accumulation_steps': 'auto', 'gradient_clipping': 'auto', 'zero_allow_untested_optimizer': True, 'bf16': {'enabled': True}, 'zero_optimization': {'stage': 2, 'allgather_partitions': True, 'allgather_bucket_size': 200000000.0, 'overlap_comm': True, 'reduce_scatter': True, 'reduce_bucket_size': 'auto', 'contiguous_gradients': True, 'round_robin_gradients': True}, 'steps_per_print': inf, 'fp16': {'enabled': False}}
+
+[2024-12-08 10:32:33,196] [INFO] [comm.py:652:init_distributed] cdb=None
+[2024-12-08 10:32:33,196] [INFO] [comm.py:683:init_distributed] Initializing TorchBackend in DeepSpeed with backend nccl
+[2024-12-08 10:32:33,212] [INFO] [comm.py:652:init_distributed] cdb=None
+[2024-12-08 10:32:33,237] [INFO] [comm.py:652:init_distributed] cdb=None
+[2024-12-08 10:32:33,257] [INFO] [comm.py:652:init_distributed] cdb=None
+[2024-12-08 10:32:33,261] [INFO] [comm.py:652:init_distributed] cdb=None
+[2024-12-08 10:32:33,311] [INFO] [comm.py:652:init_distributed] cdb=None
+[2024-12-08 10:32:33,350] [INFO] [comm.py:652:init_distributed] cdb=None
+Detected kernel version 4.19.91, which is below the recommended minimum of 5.5.0; this can cause the process to hang. It is recommended to upgrade the kernel to the minimum version or higher.
+12/08/2024 10:32:33 - INFO - __main__ - Distributed environment: DEEPSPEED  Backend: nccl
+Num processes: 8
+Process index: 0
+Local process index: 0
+Device: cuda:0
+
+Mixed precision type: bf16
+ds_config: {'train_batch_size': 'auto', 'train_micro_batch_size_per_gpu': 'auto', 'gradient_accumulation_steps': 'auto', 'gradient_clipping': 'auto', 'zero_allow_untested_optimizer': True, 'bf16': {'enabled': True}, 'zero_optimization': {'stage': 2, 'allgather_partitions': True, 'allgather_bucket_size': 200000000.0, 'overlap_comm': True, 'reduce_scatter': True, 'reduce_bucket_size': 'auto', 'contiguous_gradients': True, 'round_robin_gradients': True}, 'steps_per_print': inf, 'fp16': {'enabled': False}}
+
+12/08/2024 10:32:33 - INFO - __main__ - Distributed environment: DEEPSPEED  Backend: nccl
+Num processes: 8
+Process index: 6
+Local process index: 6
+Device: cuda:6
+
+Mixed precision type: bf16
+ds_config: {'train_batch_size': 'auto', 'train_micro_batch_size_per_gpu': 'auto', 'gradient_accumulation_steps': 'auto', 'gradient_clipping': 'auto', 'zero_allow_untested_optimizer': True, 'bf16': {'enabled': True}, 'zero_optimization': {'stage': 2, 'allgather_partitions': True, 'allgather_bucket_size': 200000000.0, 'overlap_comm': True, 'reduce_scatter': True, 'reduce_bucket_size': 'auto', 'contiguous_gradients': True, 'round_robin_gradients': True}, 'steps_per_print': inf, 'fp16': {'enabled': False}}
+
+12/08/2024 10:32:33 - INFO - __main__ - Distributed environment: DEEPSPEED  Backend: nccl
+Num processes: 8
+Process index: 2
+Local process index: 2
+Device: cuda:2
+
+Mixed precision type: bf16
+ds_config: {'train_batch_size': 'auto', 'train_micro_batch_size_per_gpu': 'auto', 'gradient_accumulation_steps': 'auto', 'gradient_clipping': 'auto', 'zero_allow_untested_optimizer': True, 'bf16': {'enabled': True}, 'zero_optimization': {'stage': 2, 'allgather_partitions': True, 'allgather_bucket_size': 200000000.0, 'overlap_comm': True, 'reduce_scatter': True, 'reduce_bucket_size': 'auto', 'contiguous_gradients': True, 'round_robin_gradients': True}, 'steps_per_print': inf, 'fp16': {'enabled': False}}
+
+12/08/2024 10:32:33 - INFO - __main__ - Distributed environment: DEEPSPEED  Backend: nccl
+Num processes: 8
+Process index: 1
+Local process index: 1
+Device: cuda:1
+
+Mixed precision type: bf16
+ds_config: {'train_batch_size': 'auto', 'train_micro_batch_size_per_gpu': 'auto', 'gradient_accumulation_steps': 'auto', 'gradient_clipping': 'auto', 'zero_allow_untested_optimizer': True, 'bf16': {'enabled': True}, 'zero_optimization': {'stage': 2, 'allgather_partitions': True, 'allgather_bucket_size': 200000000.0, 'overlap_comm': True, 'reduce_scatter': True, 'reduce_bucket_size': 'auto', 'contiguous_gradients': True, 'round_robin_gradients': True}, 'steps_per_print': inf, 'fp16': {'enabled': False}}
+
+12/08/2024 10:32:33 - INFO - __main__ - Distributed environment: DEEPSPEED  Backend: nccl
+Num processes: 8
+Process index: 5
+Local process index: 5
+Device: cuda:5
+
+Mixed precision type: bf16
+ds_config: {'train_batch_size': 'auto', 'train_micro_batch_size_per_gpu': 'auto', 'gradient_accumulation_steps': 'auto', 'gradient_clipping': 'auto', 'zero_allow_untested_optimizer': True, 'bf16': {'enabled': True}, 'zero_optimization': {'stage': 2, 'allgather_partitions': True, 'allgather_bucket_size': 200000000.0, 'overlap_comm': True, 'reduce_scatter': True, 'reduce_bucket_size': 'auto', 'contiguous_gradients': True, 'round_robin_gradients': True}, 'steps_per_print': inf, 'fp16': {'enabled': False}}
+
+12/08/2024 10:32:33 - INFO - __main__ - Distributed environment: DEEPSPEED  Backend: nccl
+Num processes: 8
+Process index: 3
+Local process index: 3
+Device: cuda:3
+
+Mixed precision type: bf16
+ds_config: {'train_batch_size': 'auto', 'train_micro_batch_size_per_gpu': 'auto', 'gradient_accumulation_steps': 'auto', 'gradient_clipping': 'auto', 'zero_allow_untested_optimizer': True, 'bf16': {'enabled': True}, 'zero_optimization': {'stage': 2, 'allgather_partitions': True, 'allgather_bucket_size': 200000000.0, 'overlap_comm': True, 'reduce_scatter': True, 'reduce_bucket_size': 'auto', 'contiguous_gradients': True, 'round_robin_gradients': True}, 'steps_per_print': inf, 'fp16': {'enabled': False}}
+
+12/08/2024 10:32:33 - INFO - __main__ - Distributed environment: DEEPSPEED  Backend: nccl
+Num processes: 8
+Process index: 7
+Local process index: 7
+Device: cuda:7
+
+Mixed precision type: bf16
+ds_config: {'train_batch_size': 'auto', 'train_micro_batch_size_per_gpu': 'auto', 'gradient_accumulation_steps': 'auto', 'gradient_clipping': 'auto', 'zero_allow_untested_optimizer': True, 'bf16': {'enabled': True}, 'zero_optimization': {'stage': 2, 'allgather_partitions': True, 'allgather_bucket_size': 200000000.0, 'overlap_comm': True, 'reduce_scatter': True, 'reduce_bucket_size': 'auto', 'contiguous_gradients': True, 'round_robin_gradients': True}, 'steps_per_print': inf, 'fp16': {'enabled': False}}
+
+loading configuration file /share/qhj/LLMs/Meta-Llama-3.1-8B-Instruct/config.json
+Model config LlamaConfig {
+  "_name_or_path": "/share/qhj/LLMs/Meta-Llama-3.1-8B-Instruct",
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 128000,
+  "eos_token_id": [
+    128001,
+    128008,
+    128009
+  ],
+  "head_dim": 128,
+  "hidden_act": "silu",
+  "hidden_size": 4096,
+  "initializer_range": 0.02,
+  "intermediate_size": 14336,
+  "max_position_embeddings": 131072,
+  "mlp_bias": false,
+  "model_type": "llama",
+  "num_attention_heads": 32,
+  "num_hidden_layers": 32,
+  "num_key_value_heads": 8,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": {
+    "factor": 8.0,
+    "high_freq_factor": 4.0,
+    "low_freq_factor": 1.0,
+    "original_max_position_embeddings": 8192,
+    "rope_type": "llama3"
+  },
+  "rope_theta": 500000.0,
+  "tie_word_embeddings": false,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.46.2",
+  "use_cache": true,
+  "vocab_size": 128256
+}
+
+loading file tokenizer.json
+loading file tokenizer.model
+loading file added_tokens.json
+loading file special_tokens_map.json
+loading file tokenizer_config.json
+Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.
+Loading checkpoint shards:   0%|          | 0/4 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/4 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/4 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/4 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/4 [00:00<?, ?it/s]loading weights file /share/qhj/LLMs/Meta-Llama-3.1-8B-Instruct/model.safetensors.index.json
+Generate config GenerationConfig {
+  "bos_token_id": 128000,
+  "eos_token_id": [
+    128001,
+    128008,
+    128009
+  ]
+}
+
+Loading checkpoint shards:   0%|          | 0/4 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/4 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/4 [00:00<?, ?it/s]Loading checkpoint shards:  25%|██▌       | 1/4 [00:06<00:19,  6.36s/it]Loading checkpoint shards:  25%|██▌       | 1/4 [00:06<00:19,  6.51s/it]Loading checkpoint shards:  25%|██▌       | 1/4 [00:06<00:19,  6.51s/it]Loading checkpoint shards:  25%|██▌       | 1/4 [00:11<00:35, 11.71s/it]Loading checkpoint shards:  25%|██▌       | 1/4 [00:12<00:36, 12.15s/it]Loading checkpoint shards:  25%|██▌       | 1/4 [00:12<00:36, 12.15s/it]Loading checkpoint shards:  25%|██▌       | 1/4 [00:12<00:36, 12.14s/it]Loading checkpoint shards:  50%|█████     | 2/4 [00:12<00:12,  6.26s/it]Loading checkpoint shards:  50%|█████     | 2/4 [00:12<00:12,  6.26s/it]Loading checkpoint shards:  50%|█████     | 2/4 [00:12<00:12,  6.26s/it]Loading checkpoint shards:  25%|██▌       | 1/4 [00:12<00:37, 12.61s/it]Loading checkpoint shards:  50%|█████     | 2/4 [00:18<00:17,  8.53s/it]Loading checkpoint shards:  75%|███████▌  | 3/4 [00:18<00:06,  6.04s/it]Loading checkpoint shards:  75%|███████▌  | 3/4 [00:18<00:06,  6.30s/it]Loading checkpoint shards:  75%|███████▌  | 3/4 [00:18<00:06,  6.30s/it]Loading checkpoint shards:  50%|█████     | 2/4 [00:19<00:18,  9.24s/it]Loading checkpoint shards:  50%|█████     | 2/4 [00:19<00:18,  9.12s/it]Loading checkpoint shards:  50%|█████     | 2/4 [00:19<00:18,  9.15s/it]Loading checkpoint shards:  50%|█████     | 2/4 [00:19<00:18,  9.29s/it]Loading checkpoint shards: 100%|██████████| 4/4 [00:20<00:00,  4.33s/it]Loading checkpoint shards: 100%|██████████| 4/4 [00:20<00:00,  5.02s/it]
+Loading checkpoint shards: 100%|██████████| 4/4 [00:20<00:00,  4.35s/it]Loading checkpoint shards: 100%|██████████| 4/4 [00:20<00:00,  5.06s/it]
+Loading checkpoint shards: 100%|██████████| 4/4 [00:20<00:00,  4.40s/it]Loading checkpoint shards: 100%|██████████| 4/4 [00:20<00:00,  5.11s/it]
+Loading checkpoint shards:  75%|███████▌  | 3/4 [00:23<00:07,  7.19s/it]Loading checkpoint shards:  75%|███████▌  | 3/4 [00:23<00:07,  7.15s/it]Loading checkpoint shards:  75%|███████▌  | 3/4 [00:24<00:07,  7.21s/it]Loading checkpoint shards:  75%|███████▌  | 3/4 [00:24<00:07,  7.09s/it]Loading checkpoint shards:  75%|███████▌  | 3/4 [00:24<00:07,  7.29s/it]Loading checkpoint shards: 100%|██████████| 4/4 [00:25<00:00,  4.88s/it]Loading checkpoint shards: 100%|██████████| 4/4 [00:25<00:00,  6.27s/it]
+Loading checkpoint shards: 100%|██████████| 4/4 [00:25<00:00,  4.78s/it]Loading checkpoint shards: 100%|██████████| 4/4 [00:25<00:00,  6.28s/it]
+Loading checkpoint shards: 100%|██████████| 4/4 [00:25<00:00,  4.82s/it]Loading checkpoint shards: 100%|██████████| 4/4 [00:25<00:00,  6.30s/it]
+Loading checkpoint shards: 100%|██████████| 4/4 [00:25<00:00,  4.82s/it]Loading checkpoint shards: 100%|██████████| 4/4 [00:25<00:00,  6.34s/it]
+Loading checkpoint shards: 100%|██████████| 4/4 [00:26<00:00,  5.18s/it]Loading checkpoint shards: 100%|██████████| 4/4 [00:26<00:00,  6.55s/it]
+All model checkpoint weights were used when initializing LlamaForCausalLM.
+
+All the weights of LlamaForCausalLM were initialized from the model checkpoint at /share/qhj/LLMs/Meta-Llama-3.1-8B-Instruct.
+If your task is similar to the task the model of the checkpoint was trained on, you can already use LlamaForCausalLM for predictions without further training.
+loading configuration file /share/qhj/LLMs/Meta-Llama-3.1-8B-Instruct/generation_config.json
+Generate config GenerationConfig {
+  "bos_token_id": 128000,
+  "do_sample": true,
+  "eos_token_id": [
+    128001,
+    128008,
+    128009
+  ],
+  "temperature": 0.6,
+  "top_p": 0.9
+}
+
+The new embeddings will be initialized from a multivariate normal distribution that has old embeddings' mean and covariance. As described in this article: https://nlp.stanford.edu/~johnhew/vocab-expansion.html. To disable this, use `mean_resizing=False`
+The new lm_head weights will be initialized from a multivariate normal distribution that has old embeddings' mean and covariance. As described in this article: https://nlp.stanford.edu/~johnhew/vocab-expansion.html. To disable this, use `mean_resizing=False`
+12/08/2024 10:34:45 - INFO - __main__ - Sample 14682 of the training set: {'input_ids': tensor([128000,     27,     91,  ...,    627, 128263, 128001]), 'labels': tensor([  -100,   -100,   -100,  ...,    627, 128263, 128001]), 'attention_mask': tensor([1, 1, 1,  ..., 1, 1, 1])}.
+12/08/2024 10:34:45 - INFO - __main__ - Sample 4853 of the training set: {'input_ids': tensor([128000,     27,     91,   9125,     91,    397,  22818,   3116,   4320,
+         11426,     11,    362,     11,    426,     11,    356,    323,    423,
+            11,   5268,    279,   1888,   4320,   5873,     13, 128001,    198,
+            27,     91,    882,     91,    397,   3923,    649,   2804,   7397,
+         74767,   5380,   5618,   5268,    505,   2768,   2671,    512,     32,
+            25,  10099,    198,     33,     25,   1274,    198,     34,     25,
+          3090,    198,     35,     25,  14362,  16115, 128001,    198,     27,
+            91,  78191,     91,    397, 128256,    198,     35,    198, 128263,
+        128001]), 'labels': tensor([  -100,   -100,   -100,   -100,   -100,   -100,   -100,   -100,   -100,
+          -100,   -100,   -100,   -100,   -100,   -100,   -100,   -100,   -100,
+          -100,   -100,   -100,   -100,   -100,   -100,   -100,   -100,   -100,
+          -100,   -100,   -100,   -100,   -100,   -100,   -100,   -100,   -100,
+          -100,   -100,   -100,   -100,   -100,   -100,   -100,   -100,   -100,
+          -100,   -100,   -100,   -100,   -100,   -100,   -100,   -100,   -100,
+          -100,   -100,   -100,   -100,   -100,   -100,   -100,   -100,   -100,
+          -100,   -100,   -100,   -100, 128256,    198,     35,    198, 128263,
+        128001]), 'attention_mask': tensor([1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
+        1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
+        1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
+        1])}.
+12/08/2024 10:34:45 - INFO - __main__ - Sample 26373 of the training set: {'input_ids': tensor([128000,     27,     91,   9125,     91,    397,  22818,    264,   3488,
+           430,   7612,   7447,  49819,  33811,     11,    499,   1205,    311,
+         29602,   2972,    279,   3488,    323,   4320,   3196,    389,    279,
+          2728,   2317,     13,   5321,   3493,    264,   2875,    323,  64694,
+          2077,     13, 128001,    198,     27,     91,    882,     91,    397,
+         32845,   1245,  95470,  39810,    706,   1027,   3967,    311,   3552,
+          1148,  31209,   1963,    315,   7528,   2262,     30, 128001,    198,
+            27,     91,  78191,     91,    397, 128258,    198,      6,  23956,
+          7757,   2532,   9287,    304,  53182,     11,  24067,   5825,   4009,
+         31357,    369,    279,  62248,   8722,    315,  24067,     30,   1270,
+        128263,    198, 128260,    198,   3936,     25,  74596,  95470,  39810,
+           198,   1199,     25,  74596,  95470,  39810,    374,    459,   7757,
+          2532,   9287,    304,  53182,     11,  24067,     11,    430,   5825,
+          4009,  31357,    369,    279,  62248,   8722,    315,  24067,     13,
+          1102,    706,   1101,   1027,   3967,    311,   3552,    578,  62248,
+          9332,     11,    264,   3682,   6631,  68992,   2778,   4817,    627,
+          3936,     25,    578,  62248,   9332,    198,   1199,     25,    578,
+         62248,   9332,    320,  57753,  95875,    311,  30170,     33,      8,
+           374,    459,   2930,   1963,    315,   7528,   2262,    315,  16924,
+          3772,    323,   3241,     13,  78811,    304,    220,   1049,     18,
+           555,  31209,   1781,  13192,  39593,    266,   1729,     81,  39831,
+            11,    578,  62248,   9332,   6276,  15613,    311,   2778,     11,
+          4232,    323,  17210,  33297,   7902,    323,  31675,   3626,     11,
+           902,  28696,  14734,   4791,  79697,   1052,  11821,   4315,   3932,
+           315,    279,   6631,  68992,  11766,    627,   3936,     25,  14434,
+          9059,   9479,    198,   1199,     25,  14434,   9059,   9479,    320,
+          5744,     45,      8,    374,    264,  33184,   6696,  15360,    430,
+         39671,   3495,     11,  10187,  47735,   4455,    323,   5825,   4947,
+         19351,    369,    279,   7528,   2262,   5064,     13,  11162,     45,
+           574,   3967,    439,    279,   8267,  72714,  10229,    320,   3143,
+            32,      8,   3156,   3297,     11,    220,    679,     19,     13,
+           578,   7471,  11105,    810,   1109,    220,   2075,   3772,   5220,
+          3196,    304,    279,    549,    815,     13,    323,  22917,     11,
+           449,   7640,  10968,  10213,    304,    279,   3723,   4273,    627,
+        128261,    198, 128258,    198,      6,   3923,    374,    279,    836,
+           315,    279,   3682,   6631,  68992,   2778,   4817,    430,    706,
+          1027,  21685,    555,  74596,  95470,  39810,     30,   1270, 128263,
+           198, 128260,    198,   3936,     25,  74596,  95470,  39810,    198,
+          1199,     25,  74596,  95470,  39810,    374,    459,   7757,   2532,
+          9287,    304,  53182,     11,  24067,     11,    430,   5825,   4009,
+         31357,    369,    279,  62248,   8722,    315,  24067,     13,   1102,
+           706,   1101,   1027,   3967,    311,   3552,    578,  62248,   9332,
+            11,    264,   3682,   6631,  68992,   2778,   4817,    627,   3936,
+            25,    578,  62248,   9332,    198,   1199,     25,    578,  62248,
+          9332,    320,  57753,  95875,    311,  30170,     33,      8,    374,
+           459,   2930,   1963,    315,   7528,   2262,    315,  16924,   3772,
+           323,   3241,     13,  78811,    304,    220,   1049,     18,    555,
+         31209,   1781,  13192,  39593,    266,   1729,     81,  39831,     11,
+           578,  62248,   9332,   6276,  15613,    311,   2778,     11,   4232,
+           323,  17210,  33297,   7902,    323,  31675,   3626,     11,    902,
+         28696,  14734,   4791,  79697,   1052,  11821,   4315,   3932,    315,
+           279,   6631,  68992,  11766,    627,   3936,     25,  14434,  71030,
+           198,   1199,     25,  14434,  71030,    374,    264,   2532,   1629,
+           555,    279,   5165,  11896,    315,   1561,  17340,    323,  24853,
+           555,    279,   1561,  17340,  10423,     13,   1102,    374,  20034,
+           520,   3339,   1561,  17340,   7528,   2262,   8831,    311,   1505,
+            11,   4430,    323,   1005,     13,   2057,   2457,   1070,    527,
+           927,    220,    914,   3610,   7528,   3673,   2561,    311,   1684,
+           505,    927,    220,   4364,   8427,  29533,     13,    578,   8427,
+         29533,   2997,    505,    279,  13042,  14673,     11,   3109,  26280,
+            11,  17880,  24853,  29533,     11,  16627,    323,   3495,  29533,
+           439,   1664,    439,    279,    879,  10706,    323,   4029,   5315,
+            13,    578,   7528,   2262,   2561,    311,   2778,    304,  14434,
+         71030,   5764,  25232,     11,  97549,     11,  32594,     11,   6603,
+            11,   1023,  95047,   3769,     11,   8486,   9908,     11,   4731,
+            11,   4632,    323,    828,   7437,     13,  14434,  71030,   1101,
+         11815,    279,   9886,    323,  16099,   8082,    315,    502,   3769,
+            11,  18939,   2262,     11,  28424,    369,  25248,  26667,  42857,
+         93084,    323,    279,   1561,  17340,  10423,   5377,   9742,    323,
+         73425,  12914,     11,    323,  39990,    323,  37167,    279,  11782,
+         27068,    315,   7528,   3769,    627, 128261,    198, 128256,    198,
+           791,  62248,   9332,    198, 128263, 128001]), 'labels': tensor([  -100,   -100,   -100,   -100,   -100,   -100,   -100,   -100,   -100,
+          -100,   -100,   -100,   -100,   -100,   -100,   -100,   -100,   -100,
+          -100,   -100,   -100,   -100,   -100,   -100,   -100,   -100,   -100,
+          -100,   -100,   -100,   -100,   -100,   -100,   -100,   -100,   -100,
+          -100,   -100,   -100,   -100,   -100,   -100,   -100,   -100,   -100,
+          -100,   -100,   -100,   -100,   -100,   -100,   -100,   -100,   -100,
+          -100,   -100,   -100,   -100,   -100,   -100,   -100,   -100,   -100,
+          -100,   -100,   -100,   -100,   -100, 128258,    198,      6,  23956,
+          7757,   2532,   9287,    304,  53182,     11,  24067,   5825,   4009,
+         31357,    369,    279,  62248,   8722,    315,  24067,     30,   1270,
+        128263,    198, 128260,    198,   3936,     25,  74596,  95470,  39810,
+           198,   1199,     25,  74596,  95470,  39810,    374,    459,   7757,
+          2532,   9287,    304,  53182,     11,  24067,     11,    430,   5825,
+          4009,  31357,    369,    279,  62248,   8722,    315,  24067,     13,
+          1102,    706,   1101,   1027,   3967,    311,   3552,    578,  62248,
+          9332,     11,    264,   3682,   6631,  68992,   2778,   4817,    627,
+          3936,     25,    578,  62248,   9332,    198,   1199,     25,    578,
+         62248,   9332,    320,  57753,  95875,    311,  30170,     33,      8,
+           374,    459,   2930,   1963,    315,   7528,   2262,    315,  16924,
+          3772,    323,   3241,     13,  78811,    304,    220,   1049,     18,
+           555,  31209,   1781,  13192,  39593,    266,   1729,     81,  39831,
+            11,    578,  62248,   9332,   6276,  15613,    311,   2778,     11,
+          4232,    323,  17210,  33297,   7902,    323,  31675,   3626,     11,
+           902,  28696,  14734,   4791,  79697,   1052,  11821,   4315,   3932,
+           315,    279,   6631,  68992,  11766,    627,   3936,     25,  14434,
+          9059,   9479,    198,   1199,     25,  14434,   9059,   9479,    320,
+          5744,     45,      8,    374,    264,  33184,   6696,  15360,    430,
+         39671,   3495,     11,  10187,  47735,   4455,    323,   5825,   4947,
+         19351,    369,    279,   7528,   2262,   5064,     13,  11162,     45,
+           574,   3967,    439,    279,   8267,  72714,  10229,    320,   3143,
+            32,      8,   3156,   3297,     11,    220,    679,     19,     13,
+           578,   7471,  11105,    810,   1109,    220,   2075,   3772,   5220,
+          3196,    304,    279,    549,    815,     13,    323,  22917,     11,
+           449,   7640,  10968,  10213,    304,    279,   3723,   4273,    627,
+        128261,    198, 128258,    198,      6,   3923,    374,    279,    836,
+           315,    279,   3682,   6631,  68992,   2778,   4817,    430,    706,
+          1027,  21685,    555,  74596,  95470,  39810,     30,   1270, 128263,
+           198, 128260,    198,   3936,     25,  74596,  95470,  39810,    198,
+          1199,     25,  74596,  95470,  39810,    374,    459,   7757,   2532,
+          9287,    304,  53182,     11,  24067,     11,    430,   5825,   4009,
+         31357,    369,    279,  62248,   8722,    315,  24067,     13,   1102,
+           706,   1101,   1027,   3967,    311,   3552,    578,  62248,   9332,
+            11,    264,   3682,   6631,  68992,   2778,   4817,    627,   3936,
+            25,    578,  62248,   9332,    198,   1199,     25,    578,  62248,
+          9332,    320,  57753,  95875,    311,  30170,     33,      8,    374,
+           459,   2930,   1963,    315,   7528,   2262,    315,  16924,   3772,
+           323,   3241,     13,  78811,    304,    220,   1049,     18,    555,
+         31209,   1781,  13192,  39593,    266,   1729,     81,  39831,     11,
+           578,  62248,   9332,   6276,  15613,    311,   2778,     11,   4232,
+           323,  17210,  33297,   7902,    323,  31675,   3626,     11,    902,
+         28696,  14734,   4791,  79697,   1052,  11821,   4315,   3932,    315,
+           279,   6631,  68992,  11766,    627,   3936,     25,  14434,  71030,
+           198,   1199,     25,  14434,  71030,    374,    264,   2532,   1629,
+           555,    279,   5165,  11896,    315,   1561,  17340,    323,  24853,
+           555,    279,   1561,  17340,  10423,     13,   1102,    374,  20034,
+           520,   3339,   1561,  17340,   7528,   2262,   8831,    311,   1505,
+            11,   4430,    323,   1005,     13,   2057,   2457,   1070,    527,
+           927,    220,    914,   3610,   7528,   3673,   2561,    311,   1684,
+           505,    927,    220,   4364,   8427,  29533,     13,    578,   8427,
+         29533,   2997,    505,    279,  13042,  14673,     11,   3109,  26280,
+            11,  17880,  24853,  29533,     11,  16627,    323,   3495,  29533,
+           439,   1664,    439,    279,    879,  10706,    323,   4029,   5315,
+            13,    578,   7528,   2262,   2561,    311,   2778,    304,  14434,
+         71030,   5764,  25232,     11,  97549,     11,  32594,     11,   6603,
+            11,   1023,  95047,   3769,     11,   8486,   9908,     11,   4731,
+            11,   4632,    323,    828,   7437,     13,  14434,  71030,   1101,
+         11815,    279,   9886,    323,  16099,   8082,    315,    502,   3769,
+            11,  18939,   2262,     11,  28424,    369,  25248,  26667,  42857,
+         93084,    323,    279,   1561,  17340,  10423,   5377,   9742,    323,
+         73425,  12914,     11,    323,  39990,    323,  37167,    279,  11782,
+         27068,    315,   7528,   3769,    627, 128261,    198, 128256,    198,
+           791,  62248,   9332,    198, 128263, 128001]), 'attention_mask': tensor([1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
+        1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
+        1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
+        1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
+        1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
+        1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
+        1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
+        1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
+        1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
+        1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
+        1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
+        1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
+        1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
+        1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
+        1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
+        1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
+        1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
+        1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
+        1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
+        1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
+        1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
+        1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
+        1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
+        1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
+        1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
+        1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
+        1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1])}.
+[2024-12-08 10:34:45,795] [INFO] [logging.py:128:log_dist] [Rank 0] DeepSpeed info: version=0.15.4, git-hash=unknown, git-branch=unknown
+[2024-12-08 10:34:45,796] [INFO] [config.py:733:__init__] Config mesh_device None world_size = 8
+[2024-12-08 10:34:45,966] [INFO] [config.py:733:__init__] Config mesh_device None world_size = 8
+[2024-12-08 10:34:45,990] [INFO] [config.py:733:__init__] Config mesh_device None world_size = 8
+[2024-12-08 10:34:45,990] [INFO] [config.py:733:__init__] Config mesh_device None world_size = 8
+[2024-12-08 10:34:45,992] [INFO] [config.py:733:__init__] Config mesh_device None world_size = 8
+[2024-12-08 10:34:45,994] [INFO] [config.py:733:__init__] Config mesh_device None world_size = 8
+[2024-12-08 10:34:45,995] [INFO] [config.py:733:__init__] Config mesh_device None world_size = 8
+[2024-12-08 10:34:46,006] [INFO] [config.py:733:__init__] Config mesh_device None world_size = 8
+[2024-12-08 10:34:56,985] [INFO] [logging.py:128:log_dist] [Rank 0] DeepSpeed Flops Profiler Enabled: False
+[2024-12-08 10:34:56,986] [INFO] [logging.py:128:log_dist] [Rank 0] Using client Optimizer as basic optimizer
+[2024-12-08 10:34:56,986] [INFO] [logging.py:128:log_dist] [Rank 0] Removing param_group that has no 'params' in the basic Optimizer
+[2024-12-08 10:34:56,997] [INFO] [logging.py:128:log_dist] [Rank 0] DeepSpeed Basic Optimizer = AdamW
+[2024-12-08 10:34:56,997] [INFO] [utils.py:59:is_zero_supported_optimizer] Checking ZeRO support for optimizer=AdamW type=<class 'torch.optim.adamw.AdamW'>
+[2024-12-08 10:34:56,997] [INFO] [logging.py:128:log_dist] [Rank 0] Creating torch.bfloat16 ZeRO stage 2 optimizer
+[2024-12-08 10:34:56,997] [INFO] [stage_1_and_2.py:149:__init__] Reduce bucket size 16777216
+[2024-12-08 10:34:56,998] [INFO] [stage_1_and_2.py:150:__init__] Allgather bucket size 200000000
+[2024-12-08 10:34:56,998] [INFO] [stage_1_and_2.py:151:__init__] CPU Offload: False
+[2024-12-08 10:34:56,998] [INFO] [stage_1_and_2.py:152:__init__] Round robin gradient partitioning: True
+[2024-12-08 10:35:11,953] [INFO] [utils.py:781:see_memory_usage] Before initializing optimizer states
+[2024-12-08 10:35:11,953] [INFO] [utils.py:782:see_memory_usage] MA 18.7 GB         Max_MA 20.57 GB         CA 20.57 GB         Max_CA 21 GB 
+[2024-12-08 10:35:11,954] [INFO] [utils.py:789:see_memory_usage] CPU Virtual Memory:  used = 19.46 GB, percent = 2.4%
+[2024-12-08 10:35:12,106] [INFO] [utils.py:781:see_memory_usage] After initializing optimizer states
+[2024-12-08 10:35:12,107] [INFO] [utils.py:782:see_memory_usage] MA 18.7 GB         Max_MA 22.44 GB         CA 24.31 GB         Max_CA 24 GB 
+[2024-12-08 10:35:12,107] [INFO] [utils.py:789:see_memory_usage] CPU Virtual Memory:  used = 19.46 GB, percent = 2.4%
+[2024-12-08 10:35:12,107] [INFO] [stage_1_and_2.py:544:__init__] optimizer state initialized
+[2024-12-08 10:35:12,249] [INFO] [utils.py:781:see_memory_usage] After initializing ZeRO optimizer
+[2024-12-08 10:35:12,250] [INFO] [utils.py:782:see_memory_usage] MA 18.7 GB         Max_MA 18.7 GB         CA 24.31 GB         Max_CA 24 GB 
+[2024-12-08 10:35:12,250] [INFO] [utils.py:789:see_memory_usage] CPU Virtual Memory:  used = 19.46 GB, percent = 2.4%
+[2024-12-08 10:35:12,251] [INFO] [logging.py:128:log_dist] [Rank 0] DeepSpeed Final Optimizer = DeepSpeedZeroOptimizer
+[2024-12-08 10:35:12,251] [INFO] [logging.py:128:log_dist] [Rank 0] DeepSpeed using configured LR scheduler = None
+[2024-12-08 10:35:12,251] [INFO] [logging.py:128:log_dist] [Rank 0] DeepSpeed LR Scheduler = None
+[2024-12-08 10:35:12,252] [INFO] [logging.py:128:log_dist] [Rank 0] step=0, skipped=0, lr=[0.0], mom=[(0.9, 0.999)]
+[2024-12-08 10:35:12,252] [INFO] [config.py:999:print] DeepSpeedEngine configuration:
+[2024-12-08 10:35:12,253] [INFO] [config.py:1003:print]   activation_checkpointing_config  {
+    "partition_activations": false, 
+    "contiguous_memory_optimization": false, 
+    "cpu_checkpointing": false, 
+    "number_checkpoints": null, 
+    "synchronize_checkpoint_boundary": false, 
+    "profile": false
+}
+[2024-12-08 10:35:12,253] [INFO] [config.py:1003:print]   aio_config ................... {'block_size': 1048576, 'queue_depth': 8, 'thread_count': 1, 'single_submit': False, 'overlap_events': True, 'use_gds': False}
+[2024-12-08 10:35:12,253] [INFO] [config.py:1003:print]   amp_enabled .................. False
+[2024-12-08 10:35:12,253] [INFO] [config.py:1003:print]   amp_params ................... False
+[2024-12-08 10:35:12,253] [INFO] [config.py:1003:print]   autotuning_config ............ {
+    "enabled": false, 
+    "start_step": null, 
+    "end_step": null, 
+    "metric_path": null, 
+    "arg_mappings": null, 
+    "metric": "throughput", 
+    "model_info": null, 
+    "results_dir": "autotuning_results", 
+    "exps_dir": "autotuning_exps", 
+    "overwrite": true, 
+    "fast": true, 
+    "start_profile_step": 3, 
+    "end_profile_step": 5, 
+    "tuner_type": "gridsearch", 
+    "tuner_early_stopping": 5, 
+    "tuner_num_trials": 50, 
+    "model_info_path": null, 
+    "mp_size": 1, 
+    "max_train_batch_size": null, 
+    "min_train_batch_size": 1, 
+    "max_train_micro_batch_size_per_gpu": 1.024000e+03, 
+    "min_train_micro_batch_size_per_gpu": 1, 
+    "num_tuning_micro_batch_sizes": 3
+}
+[2024-12-08 10:35:12,253] [INFO] [config.py:1003:print]   bfloat16_enabled ............. True
+[2024-12-08 10:35:12,253] [INFO] [config.py:1003:print]   bfloat16_immediate_grad_update  False
+[2024-12-08 10:35:12,253] [INFO] [config.py:1003:print]   checkpoint_parallel_write_pipeline  False
+[2024-12-08 10:35:12,253] [INFO] [config.py:1003:print]   checkpoint_tag_validation_enabled  True
+[2024-12-08 10:35:12,253] [INFO] [config.py:1003:print]   checkpoint_tag_validation_fail  False
+[2024-12-08 10:35:12,253] [INFO] [config.py:1003:print]   comms_config ................. <deepspeed.comm.config.DeepSpeedCommsConfig object at 0x7f57c220e320>
+[2024-12-08 10:35:12,253] [INFO] [config.py:1003:print]   communication_data_type ...... None
+[2024-12-08 10:35:12,253] [INFO] [config.py:1003:print]   compression_config ........... {'weight_quantization': {'shared_parameters': {'enabled': False, 'quantizer_kernel': False, 'schedule_offset': 0, 'quantize_groups': 1, 'quantize_verbose': False, 'quantization_type': 'symmetric', 'quantize_weight_in_forward': False, 'rounding': 'nearest', 'fp16_mixed_quantize': False, 'quantize_change_ratio': 0.001}, 'different_groups': {}}, 'activation_quantization': {'shared_parameters': {'enabled': False, 'quantization_type': 'symmetric', 'range_calibration': 'dynamic', 'schedule_offset': 1000}, 'different_groups': {}}, 'sparse_pruning': {'shared_parameters': {'enabled': False, 'method': 'l1', 'schedule_offset': 1000}, 'different_groups': {}}, 'row_pruning': {'shared_parameters': {'enabled': False, 'method': 'l1', 'schedule_offset': 1000}, 'different_groups': {}}, 'head_pruning': {'shared_parameters': {'enabled': False, 'method': 'topk', 'schedule_offset': 1000}, 'different_groups': {}}, 'channel_pruning': {'shared_parameters': {'enabled': False, 'method': 'l1', 'schedule_offset': 1000}, 'different_groups': {}}, 'layer_reduction': {'enabled': False}}
+[2024-12-08 10:35:12,253] [INFO] [config.py:1003:print]   curriculum_enabled_legacy .... False
+[2024-12-08 10:35:12,253] [INFO] [config.py:1003:print]   curriculum_params_legacy ..... False
+[2024-12-08 10:35:12,253] [INFO] [config.py:1003:print]   data_efficiency_config ....... {'enabled': False, 'seed': 1234, 'data_sampling': {'enabled': False, 'num_epochs': 1000, 'num_workers': 0, 'curriculum_learning': {'enabled': False}}, 'data_routing': {'enabled': False, 'random_ltd': {'enabled': False, 'layer_token_lr_schedule': {'enabled': False}}}}
+[2024-12-08 10:35:12,253] [INFO] [config.py:1003:print]   data_efficiency_enabled ...... False
+[2024-12-08 10:35:12,253] [INFO] [config.py:1003:print]   dataloader_drop_last ......... False
+[2024-12-08 10:35:12,253] [INFO] [config.py:1003:print]   disable_allgather ............ False
+[2024-12-08 10:35:12,253] [INFO] [config.py:1003:print]   dump_state ................... False
+[2024-12-08 10:35:12,253] [INFO] [config.py:1003:print]   dynamic_loss_scale_args ...... None
+[2024-12-08 10:35:12,253] [INFO] [config.py:1003:print]   eigenvalue_enabled ........... False
+[2024-12-08 10:35:12,253] [INFO] [config.py:1003:print]   eigenvalue_gas_boundary_resolution  1
+[2024-12-08 10:35:12,253] [INFO] [config.py:1003:print]   eigenvalue_layer_name ........ bert.encoder.layer
+[2024-12-08 10:35:12,253] [INFO] [config.py:1003:print]   eigenvalue_layer_num ......... 0
+[2024-12-08 10:35:12,253] [INFO] [config.py:1003:print]   eigenvalue_max_iter .......... 100
+[2024-12-08 10:35:12,253] [INFO] [config.py:1003:print]   eigenvalue_stability ......... 1e-06
+[2024-12-08 10:35:12,253] [INFO] [config.py:1003:print]   eigenvalue_tol ............... 0.01
+[2024-12-08 10:35:12,253] [INFO] [config.py:1003:print]   eigenvalue_verbose ........... False
+[2024-12-08 10:35:12,253] [INFO] [config.py:1003:print]   elasticity_enabled ........... False
+[2024-12-08 10:35:12,254] [INFO] [config.py:1003:print]   flops_profiler_config ........ {
+    "enabled": false, 
+    "recompute_fwd_factor": 0.0, 
+    "profile_step": 1, 
+    "module_depth": -1, 
+    "top_modules": 1, 
+    "detailed": true, 
+    "output_file": null
+}
+[2024-12-08 10:35:12,254] [INFO] [config.py:1003:print]   fp16_auto_cast ............... None
+[2024-12-08 10:35:12,254] [INFO] [config.py:1003:print]   fp16_enabled ................. False
+[2024-12-08 10:35:12,254] [INFO] [config.py:1003:print]   fp16_master_weights_and_gradients  False
+[2024-12-08 10:35:12,254] [INFO] [config.py:1003:print]   global_rank .................. 0
+[2024-12-08 10:35:12,254] [INFO] [config.py:1003:print]   grad_accum_dtype ............. None
+[2024-12-08 10:35:12,254] [INFO] [config.py:1003:print]   gradient_accumulation_steps .. 4
+[2024-12-08 10:35:12,254] [INFO] [config.py:1003:print]   gradient_clipping ............ 1.0
+[2024-12-08 10:35:12,254] [INFO] [config.py:1003:print]   gradient_predivide_factor .... 1.0
+[2024-12-08 10:35:12,254] [INFO] [config.py:1003:print]   graph_harvesting ............. False
+[2024-12-08 10:35:12,254] [INFO] [config.py:1003:print]   hybrid_engine ................ enabled=False max_out_tokens=512 inference_tp_size=1 release_inference_cache=False pin_parameters=True tp_gather_partition_size=8
+[2024-12-08 10:35:12,254] [INFO] [config.py:1003:print]   initial_dynamic_scale ........ 1
+[2024-12-08 10:35:12,254] [INFO] [config.py:1003:print]   load_universal_checkpoint .... False
+[2024-12-08 10:35:12,254] [INFO] [config.py:1003:print]   loss_scale ................... 1.0
+[2024-12-08 10:35:12,254] [INFO] [config.py:1003:print]   memory_breakdown ............. False
+[2024-12-08 10:35:12,254] [INFO] [config.py:1003:print]   mics_hierarchial_params_gather  False
+[2024-12-08 10:35:12,254] [INFO] [config.py:1003:print]   mics_shard_size .............. -1
+[2024-12-08 10:35:12,254] [INFO] [config.py:1003:print]   monitor_config ............... tensorboard=TensorBoardConfig(enabled=False, output_path='', job_name='DeepSpeedJobName') comet=CometConfig(enabled=False, samples_log_interval=100, project=None, workspace=None, api_key=None, experiment_name=None, experiment_key=None, online=None, mode=None) wandb=WandbConfig(enabled=False, group=None, team=None, project='deepspeed') csv_monitor=CSVConfig(enabled=False, output_path='', job_name='DeepSpeedJobName')
+[2024-12-08 10:35:12,254] [INFO] [config.py:1003:print]   nebula_config ................ {
+    "enabled": false, 
+    "persistent_storage_path": null, 
+    "persistent_time_interval": 100, 
+    "num_of_version_in_retention": 2, 
+    "enable_nebula_load": true, 
+    "load_path": null
+}
+[2024-12-08 10:35:12,254] [INFO] [config.py:1003:print]   optimizer_legacy_fusion ...... False
+[2024-12-08 10:35:12,254] [INFO] [config.py:1003:print]   optimizer_name ............... None
+[2024-12-08 10:35:12,254] [INFO] [config.py:1003:print]   optimizer_params ............. None
+[2024-12-08 10:35:12,254] [INFO] [config.py:1003:print]   pipeline ..................... {'stages': 'auto', 'partition': 'best', 'seed_layers': False, 'activation_checkpoint_interval': 0, 'pipe_partitioned': True, 'grad_partitioned': True}
+[2024-12-08 10:35:12,254] [INFO] [config.py:1003:print]   pld_enabled .................. False
+[2024-12-08 10:35:12,254] [INFO] [config.py:1003:print]   pld_params ................... False
+[2024-12-08 10:35:12,254] [INFO] [config.py:1003:print]   prescale_gradients ........... False
+[2024-12-08 10:35:12,254] [INFO] [config.py:1003:print]   scheduler_name ............... None
+[2024-12-08 10:35:12,254] [INFO] [config.py:1003:print]   scheduler_params ............. None
+[2024-12-08 10:35:12,254] [INFO] [config.py:1003:print]   seq_parallel_communication_data_type  torch.float32
+[2024-12-08 10:35:12,254] [INFO] [config.py:1003:print]   sparse_attention ............. None
+[2024-12-08 10:35:12,254] [INFO] [config.py:1003:print]   sparse_gradients_enabled ..... False
+[2024-12-08 10:35:12,254] [INFO] [config.py:1003:print]   steps_per_print .............. inf
+[2024-12-08 10:35:12,254] [INFO] [config.py:1003:print]   timers_config ................ enabled=True synchronized=True
+[2024-12-08 10:35:12,254] [INFO] [config.py:1003:print]   train_batch_size ............. 32
+[2024-12-08 10:35:12,254] [INFO] [config.py:1003:print]   train_micro_batch_size_per_gpu  1
+[2024-12-08 10:35:12,254] [INFO] [config.py:1003:print]   use_data_before_expert_parallel_  False
+[2024-12-08 10:35:12,254] [INFO] [config.py:1003:print]   use_node_local_storage ....... False
+[2024-12-08 10:35:12,254] [INFO] [config.py:1003:print]   wall_clock_breakdown ......... False
+[2024-12-08 10:35:12,254] [INFO] [config.py:1003:print]   weight_quantization_config ... None
+[2024-12-08 10:35:12,254] [INFO] [config.py:1003:print]   world_size ................... 8
+[2024-12-08 10:35:12,254] [INFO] [config.py:1003:print]   zero_allow_untested_optimizer  True
+[2024-12-08 10:35:12,254] [INFO] [config.py:1003:print]   zero_config .................. stage=2 contiguous_gradients=True reduce_scatter=True reduce_bucket_size=16777216 use_multi_rank_bucket_allreduce=True allgather_partitions=True allgather_bucket_size=200000000 overlap_comm=True load_from_fp32_weights=True elastic_checkpoint=False offload_param=None offload_optimizer=None sub_group_size=1000000000 cpu_offload_param=None cpu_offload_use_pin_memory=None cpu_offload=None prefetch_bucket_size=50000000 param_persistence_threshold=100000 model_persistence_threshold=9223372036854775807 max_live_parameters=1000000000 max_reuse_distance=1000000000 gather_16bit_weights_on_model_save=False use_all_reduce_for_fetch_params=False stage3_gather_fp16_weights_on_model_save=False ignore_unused_parameters=True legacy_stage1=False round_robin_gradients=True zero_hpz_partition_size=1 zero_quantized_weights=False zero_quantized_nontrainable_weights=False zero_quantized_gradients=False mics_shard_size=-1 mics_hierarchical_params_gather=False memory_efficient_linear=True pipeline_loading_checkpoint=False override_module_apply=True
+[2024-12-08 10:35:12,254] [INFO] [config.py:1003:print]   zero_enabled ................. True
+[2024-12-08 10:35:12,254] [INFO] [config.py:1003:print]   zero_force_ds_cpu_optimizer .. True
+[2024-12-08 10:35:12,254] [INFO] [config.py:1003:print]   zero_optimization_stage ...... 2
+[2024-12-08 10:35:12,254] [INFO] [config.py:989:print_user_config]   json = {
+    "train_batch_size": 32, 
+    "train_micro_batch_size_per_gpu": 1, 
+    "gradient_accumulation_steps": 4, 
+    "gradient_clipping": 1.0, 
+    "zero_allow_untested_optimizer": true, 
+    "bf16": {
+        "enabled": true
+    }, 
+    "zero_optimization": {
+        "stage": 2, 
+        "allgather_partitions": true, 
+        "allgather_bucket_size": 2.000000e+08, 
+        "overlap_comm": true, 
+        "reduce_scatter": true, 
+        "reduce_bucket_size": 1.677722e+07, 
+        "contiguous_gradients": true, 
+        "round_robin_gradients": true
+    }, 
+    "steps_per_print": inf, 
+    "fp16": {
+        "enabled": false
+    }
+}
+12/08/2024 10:35:12 - INFO - __main__ - ***** Running training *****
+12/08/2024 10:35:12 - INFO - __main__ -   Num examples = 40821
+12/08/2024 10:35:12 - INFO - __main__ -   Num Epochs = 1
+12/08/2024 10:35:12 - INFO - __main__ -   Instantaneous batch size per device = 1
+12/08/2024 10:35:12 - INFO - __main__ -   Total train batch size (w. parallel, distributed & accumulation) = 32
+12/08/2024 10:35:12 - INFO - __main__ -   Gradient Accumulation steps = 4
+12/08/2024 10:35:12 - INFO - __main__ -   Total optimization steps = 1276
+  0%|          | 0/1276 [00:00<?, ?it/s]/share/qhj/ytz/envs/py310/lib/python3.10/site-packages/transformers/data/data_collator.py:657: UserWarning: Creating a tensor from a list of numpy.ndarrays is extremely slow. Please consider converting the list to a single numpy.ndarray with numpy.array() before converting to a tensor. (Triggered internally at ../torch/csrc/utils/tensor_new.cpp:278.)
+  batch["labels"] = torch.tensor(batch["labels"], dtype=torch.int64)
+/share/qhj/ytz/envs/py310/lib/python3.10/site-packages/transformers/data/data_collator.py:657: UserWarning: Creating a tensor from a list of numpy.ndarrays is extremely slow. Please consider converting the list to a single numpy.ndarray with numpy.array() before converting to a tensor. (Triggered internally at ../torch/csrc/utils/tensor_new.cpp:278.)
+  batch["labels"] = torch.tensor(batch["labels"], dtype=torch.int64)
+/share/qhj/ytz/envs/py310/lib/python3.10/site-packages/transformers/data/data_collator.py:657: UserWarning: Creating a tensor from a list of numpy.ndarrays is extremely slow. Please consider converting the list to a single numpy.ndarray with numpy.array() before converting to a tensor. (Triggered internally at ../torch/csrc/utils/tensor_new.cpp:278.)
+  batch["labels"] = torch.tensor(batch["labels"], dtype=torch.int64)
+/share/qhj/ytz/envs/py310/lib/python3.10/site-packages/transformers/data/data_collator.py:657: UserWarning: Creating a tensor from a list of numpy.ndarrays is extremely slow. Please consider converting the list to a single numpy.ndarray with numpy.array() before converting to a tensor. (Triggered internally at ../torch/csrc/utils/tensor_new.cpp:278.)
+  batch["labels"] = torch.tensor(batch["labels"], dtype=torch.int64)
+/share/qhj/ytz/envs/py310/lib/python3.10/site-packages/transformers/data/data_collator.py:657: UserWarning: Creating a tensor from a list of numpy.ndarrays is extremely slow. Please consider converting the list to a single numpy.ndarray with numpy.array() before converting to a tensor. (Triggered internally at ../torch/csrc/utils/tensor_new.cpp:278.)
+  batch["labels"] = torch.tensor(batch["labels"], dtype=torch.int64)
+/share/qhj/ytz/envs/py310/lib/python3.10/site-packages/transformers/data/data_collator.py:657: UserWarning: Creating a tensor from a list of numpy.ndarrays is extremely slow. Please consider converting the list to a single numpy.ndarray with numpy.array() before converting to a tensor. (Triggered internally at ../torch/csrc/utils/tensor_new.cpp:278.)
+  batch["labels"] = torch.tensor(batch["labels"], dtype=torch.int64)
+/share/qhj/ytz/envs/py310/lib/python3.10/site-packages/transformers/data/data_collator.py:657: UserWarning: Creating a tensor from a list of numpy.ndarrays is extremely slow. Please consider converting the list to a single numpy.ndarray with numpy.array() before converting to a tensor. (Triggered internally at ../torch/csrc/utils/tensor_new.cpp:278.)
+  batch["labels"] = torch.tensor(batch["labels"], dtype=torch.int64)
+/share/qhj/ytz/envs/py310/lib/python3.10/site-packages/transformers/data/data_collator.py:657: UserWarning: Creating a tensor from a list of numpy.ndarrays is extremely slow. Please consider converting the list to a single numpy.ndarray with numpy.array() before converting to a tensor. (Triggered internally at ../torch/csrc/utils/tensor_new.cpp:278.)
+  batch["labels"] = torch.tensor(batch["labels"], dtype=torch.int64)
+  0%|          | 1/1276 [00:03<1:08:09,  3.21s/it]12/08/2024 10:35:15 - INFO - __main__ -   Step: 1, LR: 5.228758169934641e-07, Loss: 4.460640907287598
+  0%|          | 2/1276 [00:06<1:05:07,  3.07s/it]12/08/2024 10:35:18 - INFO - __main__ -   Step: 2, LR: 1.0457516339869283e-06, Loss: 3.512392520904541
+  0%|          | 3/1276 [00:09<1:06:58,  3.16s/it]12/08/2024 10:35:21 - INFO - __main__ -   Step: 3, LR: 1.5686274509803923e-06, Loss: 2.333726406097412
+  0%|          | 4/1276 [00:12<1:06:26,  3.13s/it]12/08/2024 10:35:24 - INFO - __main__ -   Step: 4, LR: 2.0915032679738565e-06, Loss: 2.081787586212158
+  0%|          | 5/1276 [00:15<1:02:22,  2.94s/it]12/08/2024 10:35:27 - INFO - __main__ -   Step: 5, LR: 2.6143790849673208e-06, Loss: 3.1653079986572266
+  0%|          | 6/1276 [00:17<1:01:13,  2.89s/it]12/08/2024 10:35:30 - INFO - __main__ -   Step: 6, LR: 3.1372549019607846e-06, Loss: 2.513730525970459
+  1%|          | 7/1276 [00:20<1:01:37,  2.91s/it]12/08/2024 10:35:33 - INFO - __main__ -   Step: 7, LR: 3.6601307189542484e-06, Loss: 2.207014322280884
+  1%|          | 8/1276 [00:23<1:01:19,  2.90s/it]12/08/2024 10:35:36 - INFO - __main__ -   Step: 8, LR: 4.183006535947713e-06, Loss: 2.5954484939575195
+  1%|          | 9/1276 [00:26<59:44,  2.83s/it]  12/08/2024 10:35:38 - INFO - __main__ -   Step: 9, LR: 4.705882352941177e-06, Loss: 1.8087975978851318
+  1%|          | 10/1276 [00:28<55:17,  2.62s/it]12/08/2024 10:35:40 - INFO - __main__ -   Step: 10, LR: 5.2287581699346416e-06, Loss: 2.40433931350708
+  1%|          | 11/1276 [00:30<53:19,  2.53s/it]12/08/2024 10:35:43 - INFO - __main__ -   Step: 11, LR: 5.7516339869281045e-06, Loss: 2.396829128265381
+  1%|          | 12/1276 [00:34<57:19,  2.72s/it]12/08/2024 10:35:46 - INFO - __main__ -   Step: 12, LR: 6.274509803921569e-06, Loss: 2.3774614334106445
+  1%|          | 13/1276 [00:36<56:57,  2.71s/it]12/08/2024 10:35:49 - INFO - __main__ -   Step: 13, LR: 6.797385620915034e-06, Loss: 1.4998284578323364
+  1%|          | 14/1276 [00:39<56:50,  2.70s/it]12/08/2024 10:35:51 - INFO - __main__ -   Step: 14, LR: 7.320261437908497e-06, Loss: 1.8580518960952759
+  1%|          | 15/1276 [00:42<57:56,  2.76s/it]12/08/2024 10:35:54 - INFO - __main__ -   Step: 15, LR: 7.84313725490196e-06, Loss: 2.0497097969055176
+  1%|▏         | 16/1276 [00:45<59:33,  2.84s/it]12/08/2024 10:35:57 - INFO - __main__ -   Step: 16, LR: 8.366013071895426e-06, Loss: 1.9639948606491089
+  1%|▏         | 17/1276 [00:48<1:00:53,  2.90s/it]12/08/2024 10:36:00 - INFO - __main__ -   Step: 17, LR: 8.888888888888888e-06, Loss: 1.7630805969238281
+  1%|▏         | 18/1276 [00:51<1:05:05,  3.10s/it]12/08/2024 10:36:04 - INFO - __main__ -   Step: 18, LR: 9.411764705882354e-06, Loss: 1.6755659580230713
+  1%|▏         | 19/1276 [00:54<1:03:59,  3.05s/it]12/08/2024 10:36:07 - INFO - __main__ -   Step: 19, LR: 9.934640522875818e-06, Loss: 1.631544589996338
+  2%|▏         | 20/1276 [00:58<1:08:31,  3.27s/it]12/08/2024 10:36:10 - INFO - __main__ -   Step: 20, LR: 1.0457516339869283e-05, Loss: 1.3605270385742188
+  2%|▏         | 21/1276 [01:01<1:04:49,  3.10s/it]12/08/2024 10:36:13 - INFO - __main__ -   Step: 21, LR: 1.0980392156862747e-05, Loss: 1.5398396253585815
+  2%|▏         | 22/1276 [01:04<1:02:21,  2.98s/it]12/08/2024 10:36:16 - INFO - __main__ -   Step: 22, LR: 1.1503267973856209e-05, Loss: 1.7625994682312012
+  2%|▏         | 23/1276 [01:07<1:05:52,  3.15s/it]12/08/2024 10:36:19 - INFO - __main__ -   Step: 23, LR: 1.2026143790849673e-05, Loss: 1.7930586338043213
+  2%|▏         | 24/1276 [01:10<1:05:08,  3.12s/it]12/08/2024 10:36:22 - INFO - __main__ -   Step: 24, LR: 1.2549019607843138e-05, Loss: 1.6622021198272705
+  2%|▏         | 25/1276 [01:13<1:05:59,  3.17s/it]12/08/2024 10:36:26 - INFO - __main__ -   Step: 25, LR: 1.3071895424836602e-05, Loss: 1.7831997871398926
+  2%|▏         | 26/1276 [01:17<1:06:20,  3.18s/it]12/08/2024 10:36:29 - INFO - __main__ -   Step: 26, LR: 1.3594771241830068e-05, Loss: 1.381497859954834
+  2%|▏         | 27/1276 [01:19<1:03:19,  3.04s/it]12/08/2024 10:36:32 - INFO - __main__ -   Step: 27, LR: 1.4117647058823532e-05, Loss: 1.7926729917526245
+  2%|▏         | 28/1276 [01:22<1:02:44,  3.02s/it]12/08/2024 10:36:35 - INFO - __main__ -   Step: 28, LR: 1.4640522875816994e-05, Loss: 1.6238131523132324
+  2%|▏         | 29/1276 [01:25<1:03:09,  3.04s/it]12/08/2024 10:36:38 - INFO - __main__ -   Step: 29, LR: 1.5163398692810458e-05, Loss: 1.8700463771820068
+  2%|▏         | 30/1276 [01:28<1:00:34,  2.92s/it]12/08/2024 10:36:40 - INFO - __main__ -   Step: 30, LR: 1.568627450980392e-05, Loss: 1.356590986251831
+  2%|▏         | 31/1276 [01:31<59:43,  2.88s/it]  12/08/2024 10:36:43 - INFO - __main__ -   Step: 31, LR: 1.6209150326797387e-05, Loss: 1.9454638957977295
+  3%|▎         | 32/1276 [01:34<1:02:43,  3.03s/it]12/08/2024 10:36:47 - INFO - __main__ -   Step: 32, LR: 1.6732026143790852e-05, Loss: 1.8840608596801758
+  3%|▎         | 33/1276 [01:37<59:42,  2.88s/it]  12/08/2024 10:36:49 - INFO - __main__ -   Step: 33, LR: 1.7254901960784314e-05, Loss: 1.668489694595337
+  3%|▎         | 34/1276 [01:40<1:00:31,  2.92s/it]12/08/2024 10:36:52 - INFO - __main__ -   Step: 34, LR: 1.7777777777777777e-05, Loss: 1.5261576175689697
+  3%|▎         | 35/1276 [01:43<1:00:19,  2.92s/it]12/08/2024 10:36:55 - INFO - __main__ -   Step: 35, LR: 1.8300653594771242e-05, Loss: 1.3602294921875
+  3%|▎         | 36/1276 [01:45<58:55,  2.85s/it]  12/08/2024 10:36:58 - INFO - __main__ -   Step: 36, LR: 1.8823529411764708e-05, Loss: 1.5980992317199707
+  3%|▎         | 37/1276 [01:48<59:47,  2.90s/it]12/08/2024 10:37:01 - INFO - __main__ -   Step: 37, LR: 1.9346405228758173e-05, Loss: 1.6078003644943237
+  3%|▎         | 38/1276 [01:52<1:02:27,  3.03s/it]12/08/2024 10:37:04 - INFO - __main__ -   Step: 38, LR: 1.9869281045751635e-05, Loss: 1.411503791809082
+  3%|▎         | 39/1276 [01:56<1:07:39,  3.28s/it]12/08/2024 10:37:08 - INFO - __main__ -   Step: 39, LR: 1.998787878787879e-05, Loss: 1.3066895008087158
+  3%|▎         | 40/1276 [01:59<1:10:19,  3.41s/it]12/08/2024 10:37:12 - INFO - __main__ -   Step: 40, LR: 1.9971717171717174e-05, Loss: 1.375906229019165
+  3%|▎         | 41/1276 [02:02<1:07:15,  3.27s/it]12/08/2024 10:37:15 - INFO - __main__ -   Step: 41, LR: 1.9955555555555557e-05, Loss: 1.4820367097854614
+  3%|▎         | 42/1276 [02:05<1:03:11,  3.07s/it]12/08/2024 10:37:17 - INFO - __main__ -   Step: 42, LR: 1.993939393939394e-05, Loss: 1.6042522192001343
+  3%|▎         | 43/1276 [02:09<1:06:38,  3.24s/it]12/08/2024 10:37:21 - INFO - __main__ -   Step: 43, LR: 1.9923232323232323e-05, Loss: 1.3315603733062744
+  3%|▎         | 44/1276 [02:12<1:07:05,  3.27s/it]12/08/2024 10:37:24 - INFO - __main__ -   Step: 44, LR: 1.990707070707071e-05, Loss: 1.3878411054611206
+  4%|▎         | 45/1276 [02:15<1:05:48,  3.21s/it]12/08/2024 10:37:27 - INFO - __main__ -   Step: 45, LR: 1.9890909090909093e-05, Loss: 1.4414405822753906
+  4%|▎         | 46/1276 [02:17<1:00:28,  2.95s/it]12/08/2024 10:37:30 - INFO - __main__ -   Step: 46, LR: 1.9874747474747476e-05, Loss: 1.1964871883392334
+  4%|▎         | 47/1276 [02:20<59:00,  2.88s/it]  12/08/2024 10:37:32 - INFO - __main__ -   Step: 47, LR: 1.985858585858586e-05, Loss: 1.1627066135406494
+  4%|▍         | 48/1276 [02:23<1:00:26,  2.95s/it]12/08/2024 10:37:35 - INFO - __main__ -   Step: 48, LR: 1.9842424242424242e-05, Loss: 1.326108694076538
+  4%|▍         | 49/1276 [02:27<1:04:36,  3.16s/it]12/08/2024 10:37:39 - INFO - __main__ -   Step: 49, LR: 1.982626262626263e-05, Loss: 1.255547285079956
+  4%|▍         | 50/1276 [02:30<1:06:20,  3.25s/it]12/08/2024 10:37:42 - INFO - __main__ -   Step: 50, LR: 1.981010101010101e-05, Loss: 1.1136579513549805
+  4%|▍         | 51/1276 [02:33<1:03:36,  3.12s/it]12/08/2024 10:37:45 - INFO - __main__ -   Step: 51, LR: 1.9793939393939398e-05, Loss: 1.1744558811187744
+  4%|▍         | 52/1276 [02:36<1:02:03,  3.04s/it]12/08/2024 10:37:48 - INFO - __main__ -   Step: 52, LR: 1.977777777777778e-05, Loss: 1.2537636756896973
+  4%|▍         | 53/1276 [02:39<1:02:31,  3.07s/it]12/08/2024 10:37:51 - INFO - __main__ -   Step: 53, LR: 1.9761616161616164e-05, Loss: 1.2262389659881592
+  4%|▍         | 54/1276 [02:42<1:01:10,  3.00s/it]12/08/2024 10:37:54 - INFO - __main__ -   Step: 54, LR: 1.9745454545454547e-05, Loss: 1.1118366718292236
+  4%|▍         | 55/1276 [02:45<1:00:44,  2.98s/it]12/08/2024 10:37:57 - INFO - __main__ -   Step: 55, LR: 1.972929292929293e-05, Loss: 1.1974120140075684
+  4%|▍         | 56/1276 [02:48<59:22,  2.92s/it]  12/08/2024 10:38:00 - INFO - __main__ -   Step: 56, LR: 1.9713131313131314e-05, Loss: 1.0968165397644043
+  4%|▍         | 57/1276 [02:50<57:56,  2.85s/it]12/08/2024 10:38:03 - INFO - __main__ -   Step: 57, LR: 1.96969696969697e-05, Loss: 1.0337475538253784
+  5%|▍         | 58/1276 [02:53<56:35,  2.79s/it]12/08/2024 10:38:05 - INFO - __main__ -   Step: 58, LR: 1.9680808080808083e-05, Loss: 1.0066170692443848
+  5%|▍         | 59/1276 [02:56<57:51,  2.85s/it]12/08/2024 10:38:08 - INFO - __main__ -   Step: 59, LR: 1.9664646464646466e-05, Loss: 1.0245190858840942
+  5%|▍         | 60/1276 [02:59<1:00:07,  2.97s/it]12/08/2024 10:38:11 - INFO - __main__ -   Step: 60, LR: 1.964848484848485e-05, Loss: 0.959625244140625
+  5%|▍         | 61/1276 [03:03<1:06:47,  3.30s/it]12/08/2024 10:38:15 - INFO - __main__ -   Step: 61, LR: 1.9632323232323232e-05, Loss: 0.9736344814300537
+  5%|▍         | 62/1276 [03:06<1:02:49,  3.10s/it]12/08/2024 10:38:18 - INFO - __main__ -   Step: 62, LR: 1.961616161616162e-05, Loss: 1.022468090057373
+  5%|▍         | 63/1276 [03:09<1:01:04,  3.02s/it]12/08/2024 10:38:21 - INFO - __main__ -   Step: 63, LR: 1.9600000000000002e-05, Loss: 1.014649748802185
+  5%|▌         | 64/1276 [03:11<58:23,  2.89s/it]  12/08/2024 10:38:24 - INFO - __main__ -   Step: 64, LR: 1.9583838383838385e-05, Loss: 0.9584063291549683
+  5%|▌         | 65/1276 [03:15<1:00:48,  3.01s/it]12/08/2024 10:38:27 - INFO - __main__ -   Step: 65, LR: 1.9567676767676768e-05, Loss: 1.1085937023162842
+  5%|▌         | 66/1276 [03:17<59:55,  2.97s/it]  12/08/2024 10:38:30 - INFO - __main__ -   Step: 66, LR: 1.955151515151515e-05, Loss: 0.9769560098648071
+  5%|▌         | 67/1276 [03:20<58:36,  2.91s/it]12/08/2024 10:38:32 - INFO - __main__ -   Step: 67, LR: 1.9535353535353534e-05, Loss: 1.0147373676300049
+  5%|▌         | 68/1276 [03:23<57:21,  2.85s/it]12/08/2024 10:38:35 - INFO - __main__ -   Step: 68, LR: 1.951919191919192e-05, Loss: 0.8864100575447083
+  5%|▌         | 69/1276 [03:26<56:25,  2.80s/it]12/08/2024 10:38:38 - INFO - __main__ -   Step: 69, LR: 1.9503030303030304e-05, Loss: 0.9428484439849854
+  5%|▌         | 70/1276 [03:28<56:16,  2.80s/it]12/08/2024 10:38:41 - INFO - __main__ -   Step: 70, LR: 1.9486868686868687e-05, Loss: 0.9260752201080322
+  6%|▌         | 71/1276 [03:31<55:00,  2.74s/it]12/08/2024 10:38:43 - INFO - __main__ -   Step: 71, LR: 1.9470707070707074e-05, Loss: 1.0356260538101196
+  6%|▌         | 72/1276 [03:34<56:40,  2.82s/it]12/08/2024 10:38:46 - INFO - __main__ -   Step: 72, LR: 1.9454545454545457e-05, Loss: 0.9771469831466675
+  6%|▌         | 73/1276 [03:37<59:24,  2.96s/it]12/08/2024 10:38:50 - INFO - __main__ -   Step: 73, LR: 1.943838383838384e-05, Loss: 0.8939248323440552
+  6%|▌         | 74/1276 [03:40<57:37,  2.88s/it]12/08/2024 10:38:52 - INFO - __main__ -   Step: 74, LR: 1.9422222222222223e-05, Loss: 0.9459294080734253
+  6%|▌         | 75/1276 [03:44<1:02:58,  3.15s/it]12/08/2024 10:38:56 - INFO - __main__ -   Step: 75, LR: 1.940606060606061e-05, Loss: 0.9983436465263367
+  6%|▌         | 76/1276 [03:47<1:01:32,  3.08s/it]12/08/2024 10:38:59 - INFO - __main__ -   Step: 76, LR: 1.9389898989898993e-05, Loss: 0.8741089105606079
+  6%|▌         | 77/1276 [03:50<1:05:09,  3.26s/it]12/08/2024 10:39:03 - INFO - __main__ -   Step: 77, LR: 1.9373737373737376e-05, Loss: 0.8379996418952942
+  6%|▌         | 78/1276 [03:53<1:00:30,  3.03s/it]12/08/2024 10:39:05 - INFO - __main__ -   Step: 78, LR: 1.935757575757576e-05, Loss: 0.8867252469062805
+  6%|▌         | 79/1276 [03:56<58:04,  2.91s/it]  12/08/2024 10:39:08 - INFO - __main__ -   Step: 79, LR: 1.9341414141414142e-05, Loss: 0.9099234342575073
+  6%|▋         | 80/1276 [03:59<1:00:23,  3.03s/it]12/08/2024 10:39:11 - INFO - __main__ -   Step: 80, LR: 1.932525252525253e-05, Loss: 0.8031096458435059
+  6%|▋         | 81/1276 [04:02<1:02:04,  3.12s/it]12/08/2024 10:39:14 - INFO - __main__ -   Step: 81, LR: 1.930909090909091e-05, Loss: 0.9162959456443787
+  6%|▋         | 82/1276 [04:05<1:01:59,  3.11s/it]12/08/2024 10:39:17 - INFO - __main__ -   Step: 82, LR: 1.9292929292929295e-05, Loss: 1.0297961235046387
+  7%|▋         | 83/1276 [04:08<59:30,  2.99s/it]  12/08/2024 10:39:20 - INFO - __main__ -   Step: 83, LR: 1.9276767676767678e-05, Loss: 0.8763735294342041
+  7%|▋         | 84/1276 [04:11<59:55,  3.02s/it]12/08/2024 10:39:23 - INFO - __main__ -   Step: 84, LR: 1.926060606060606e-05, Loss: 0.6566193103790283
+  7%|▋         | 85/1276 [04:14<57:03,  2.87s/it]12/08/2024 10:39:26 - INFO - __main__ -   Step: 85, LR: 1.9244444444444444e-05, Loss: 0.8951119184494019
+  7%|▋         | 86/1276 [04:17<1:00:22,  3.04s/it]12/08/2024 10:39:29 - INFO - __main__ -   Step: 86, LR: 1.922828282828283e-05, Loss: 0.911724328994751
+  7%|▋         | 87/1276 [04:20<58:08,  2.93s/it]  12/08/2024 10:39:32 - INFO - __main__ -   Step: 87, LR: 1.9212121212121213e-05, Loss: 0.8903319835662842
+  7%|▋         | 88/1276 [04:23<1:03:17,  3.20s/it]12/08/2024 10:39:36 - INFO - __main__ -   Step: 88, LR: 1.9195959595959597e-05, Loss: 0.8032395839691162
+  7%|▋         | 89/1276 [04:26<1:01:22,  3.10s/it]12/08/2024 10:39:39 - INFO - __main__ -   Step: 89, LR: 1.917979797979798e-05, Loss: 0.9486997723579407
+  7%|▋         | 90/1276 [04:29<58:57,  2.98s/it]  12/08/2024 10:39:41 - INFO - __main__ -   Step: 90, LR: 1.9163636363636363e-05, Loss: 0.9296486973762512
+  7%|▋         | 91/1276 [04:32<58:28,  2.96s/it]12/08/2024 10:39:44 - INFO - __main__ -   Step: 91, LR: 1.914747474747475e-05, Loss: 0.812896728515625
+  7%|▋         | 92/1276 [04:36<1:03:54,  3.24s/it]12/08/2024 10:39:48 - INFO - __main__ -   Step: 92, LR: 1.9131313131313132e-05, Loss: 0.7782618999481201
+  7%|▋         | 93/1276 [04:39<1:04:52,  3.29s/it]12/08/2024 10:39:52 - INFO - __main__ -   Step: 93, LR: 1.911515151515152e-05, Loss: 1.0835659503936768
+  7%|▋         | 94/1276 [04:42<1:01:20,  3.11s/it]12/08/2024 10:39:54 - INFO - __main__ -   Step: 94, LR: 1.9098989898989902e-05, Loss: 0.9841609001159668
+  7%|▋         | 95/1276 [04:44<57:18,  2.91s/it]  12/08/2024 10:39:57 - INFO - __main__ -   Step: 95, LR: 1.9082828282828285e-05, Loss: 0.9661086797714233
+  8%|▊         | 96/1276 [04:47<57:33,  2.93s/it]12/08/2024 10:40:00 - INFO - __main__ -   Step: 96, LR: 1.9066666666666668e-05, Loss: 0.8728344440460205
+  8%|▊         | 97/1276 [04:51<1:01:57,  3.15s/it]12/08/2024 10:40:03 - INFO - __main__ -   Step: 97, LR: 1.905050505050505e-05, Loss: 0.9125447273254395
+  8%|▊         | 98/1276 [04:55<1:06:23,  3.38s/it]12/08/2024 10:40:07 - INFO - __main__ -   Step: 98, LR: 1.9034343434343438e-05, Loss: 0.9436401128768921
+  8%|▊         | 99/1276 [04:58<1:03:38,  3.24s/it]12/08/2024 10:40:10 - INFO - __main__ -   Step: 99, LR: 1.901818181818182e-05, Loss: 0.8291953206062317
+  8%|▊         | 100/1276 [05:01<1:03:16,  3.23s/it]12/08/2024 10:40:13 - INFO - __main__ -   Step: 100, LR: 1.9002020202020204e-05, Loss: 0.9896601438522339
+  8%|▊         | 101/1276 [05:05<1:06:41,  3.41s/it]12/08/2024 10:40:17 - INFO - __main__ -   Step: 101, LR: 1.8985858585858587e-05, Loss: 0.8402745723724365
+  8%|▊         | 102/1276 [05:08<1:04:43,  3.31s/it]12/08/2024 10:40:20 - INFO - __main__ -   Step: 102, LR: 1.896969696969697e-05, Loss: 0.9293539524078369
+  8%|▊         | 103/1276 [05:12<1:06:17,  3.39s/it]12/08/2024 10:40:24 - INFO - __main__ -   Step: 103, LR: 1.8953535353535353e-05, Loss: 0.8461545705795288
+  8%|▊         | 104/1276 [05:15<1:06:57,  3.43s/it]12/08/2024 10:40:27 - INFO - __main__ -   Step: 104, LR: 1.893737373737374e-05, Loss: 1.0117305517196655
+  8%|▊         | 105/1276 [05:18<1:04:02,  3.28s/it]12/08/2024 10:40:30 - INFO - __main__ -   Step: 105, LR: 1.8921212121212123e-05, Loss: 0.8458434343338013
+  8%|▊         | 106/1276 [05:21<1:00:44,  3.12s/it]12/08/2024 10:40:33 - INFO - __main__ -   Step: 106, LR: 1.8905050505050506e-05, Loss: 0.9149751663208008
+  8%|▊         | 107/1276 [05:23<58:24,  3.00s/it]  12/08/2024 10:40:36 - INFO - __main__ -   Step: 107, LR: 1.888888888888889e-05, Loss: 0.882698655128479
+  8%|▊         | 108/1276 [05:27<1:03:12,  3.25s/it]12/08/2024 10:40:40 - INFO - __main__ -   Step: 108, LR: 1.8872727272727272e-05, Loss: 0.8185622096061707
+  9%|▊         | 109/1276 [05:30<1:01:48,  3.18s/it]12/08/2024 10:40:43 - INFO - __main__ -   Step: 109, LR: 1.885656565656566e-05, Loss: 0.8177482485771179
+  9%|▊         | 110/1276 [05:34<1:01:46,  3.18s/it]12/08/2024 10:40:46 - INFO - __main__ -   Step: 110, LR: 1.8840404040404042e-05, Loss: 0.6779609322547913
+  9%|▊         | 111/1276 [05:37<1:01:09,  3.15s/it]12/08/2024 10:40:49 - INFO - __main__ -   Step: 111, LR: 1.8824242424242425e-05, Loss: 0.9417375922203064
+  9%|▉         | 112/1276 [05:40<1:00:42,  3.13s/it]12/08/2024 10:40:52 - INFO - __main__ -   Step: 112, LR: 1.8808080808080808e-05, Loss: 0.9760966300964355
+  9%|▉         | 113/1276 [05:42<56:22,  2.91s/it]  12/08/2024 10:40:54 - INFO - __main__ -   Step: 113, LR: 1.8791919191919195e-05, Loss: 0.9364319443702698
+  9%|▉         | 114/1276 [05:45<59:17,  3.06s/it]12/08/2024 10:40:58 - INFO - __main__ -   Step: 114, LR: 1.8775757575757578e-05, Loss: 0.810700535774231
+  9%|▉         | 115/1276 [05:48<56:20,  2.91s/it]12/08/2024 10:41:00 - INFO - __main__ -   Step: 115, LR: 1.875959595959596e-05, Loss: 1.0270907878875732
+  9%|▉         | 116/1276 [05:51<57:22,  2.97s/it]12/08/2024 10:41:03 - INFO - __main__ -   Step: 116, LR: 1.8743434343434347e-05, Loss: 0.8806393146514893
+  9%|▉         | 117/1276 [05:54<58:46,  3.04s/it]12/08/2024 10:41:07 - INFO - __main__ -   Step: 117, LR: 1.872727272727273e-05, Loss: 0.899657130241394
+  9%|▉         | 118/1276 [05:57<55:40,  2.88s/it]12/08/2024 10:41:09 - INFO - __main__ -   Step: 118, LR: 1.8711111111111113e-05, Loss: 0.8516731262207031
+  9%|▉         | 119/1276 [06:00<59:24,  3.08s/it]12/08/2024 10:41:13 - INFO - __main__ -   Step: 119, LR: 1.8694949494949497e-05, Loss: 0.8119553327560425
+  9%|▉         | 120/1276 [06:03<58:40,  3.05s/it]12/08/2024 10:41:16 - INFO - __main__ -   Step: 120, LR: 1.867878787878788e-05, Loss: 0.8639870882034302
+  9%|▉         | 121/1276 [06:07<1:02:50,  3.26s/it]12/08/2024 10:41:19 - INFO - __main__ -   Step: 121, LR: 1.8662626262626266e-05, Loss: 0.8099875450134277
+ 10%|▉         | 122/1276 [06:10<1:00:59,  3.17s/it]12/08/2024 10:41:22 - INFO - __main__ -   Step: 122, LR: 1.864646464646465e-05, Loss: 0.8873810768127441
+ 10%|▉         | 123/1276 [06:13<57:15,  2.98s/it]  12/08/2024 10:41:25 - INFO - __main__ -   Step: 123, LR: 1.8630303030303032e-05, Loss: 0.8649669885635376
+ 10%|▉         | 124/1276 [06:15<54:32,  2.84s/it]12/08/2024 10:41:27 - INFO - __main__ -   Step: 124, LR: 1.8614141414141415e-05, Loss: 0.9144704341888428
+ 10%|▉         | 125/1276 [06:18<51:53,  2.71s/it]12/08/2024 10:41:30 - INFO - __main__ -   Step: 125, LR: 1.85979797979798e-05, Loss: 0.959699273109436
+ 10%|▉         | 126/1276 [06:20<50:27,  2.63s/it]12/08/2024 10:41:32 - INFO - __main__ -   Step: 126, LR: 1.858181818181818e-05, Loss: 0.7960886359214783
+ 10%|▉         | 127/1276 [06:23<51:43,  2.70s/it]12/08/2024 10:41:35 - INFO - __main__ -   Step: 127, LR: 1.8565656565656568e-05, Loss: 0.9252084493637085
+ 10%|█         | 128/1276 [06:26<54:03,  2.83s/it]12/08/2024 10:41:38 - INFO - __main__ -   Step: 128, LR: 1.854949494949495e-05, Loss: 0.8752830028533936
+ 10%|█         | 129/1276 [06:29<56:55,  2.98s/it]12/08/2024 10:41:42 - INFO - __main__ -   Step: 129, LR: 1.8533333333333334e-05, Loss: 0.9217568039894104
+ 10%|█         | 130/1276 [06:32<55:44,  2.92s/it]12/08/2024 10:41:44 - INFO - __main__ -   Step: 130, LR: 1.8517171717171717e-05, Loss: 0.8099245429039001
+ 10%|█         | 131/1276 [06:35<56:39,  2.97s/it]12/08/2024 10:41:47 - INFO - __main__ -   Step: 131, LR: 1.85010101010101e-05, Loss: 0.9466385245323181
+ 10%|█         | 132/1276 [06:38<55:54,  2.93s/it]12/08/2024 10:41:50 - INFO - __main__ -   Step: 132, LR: 1.8484848484848487e-05, Loss: 0.9425721168518066
+ 10%|█         | 133/1276 [06:41<57:03,  2.99s/it]12/08/2024 10:41:53 - INFO - __main__ -   Step: 133, LR: 1.846868686868687e-05, Loss: 0.7137218713760376
+ 11%|█         | 134/1276 [06:44<58:36,  3.08s/it]12/08/2024 10:41:57 - INFO - __main__ -   Step: 134, LR: 1.8452525252525253e-05, Loss: 0.8799112439155579
+ 11%|█         | 135/1276 [06:47<56:25,  2.97s/it]12/08/2024 10:41:59 - INFO - __main__ -   Step: 135, LR: 1.843636363636364e-05, Loss: 0.9594147205352783
+ 11%|█         | 136/1276 [06:50<55:28,  2.92s/it]12/08/2024 10:42:02 - INFO - __main__ -   Step: 136, LR: 1.8420202020202023e-05, Loss: 0.8054429292678833
+ 11%|█         | 137/1276 [06:53<56:34,  2.98s/it]12/08/2024 10:42:05 - INFO - __main__ -   Step: 137, LR: 1.8404040404040406e-05, Loss: 0.7930575609207153
+ 11%|█         | 138/1276 [06:56<55:21,  2.92s/it]12/08/2024 10:42:08 - INFO - __main__ -   Step: 138, LR: 1.838787878787879e-05, Loss: 0.9408572316169739
+ 11%|█         | 139/1276 [06:59<58:37,  3.09s/it]12/08/2024 10:42:12 - INFO - __main__ -   Step: 139, LR: 1.8371717171717176e-05, Loss: 0.8612072467803955
+ 11%|█         | 140/1276 [07:02<58:22,  3.08s/it]12/08/2024 10:42:15 - INFO - __main__ -   Step: 140, LR: 1.835555555555556e-05, Loss: 0.9820682406425476
+ 11%|█         | 141/1276 [07:05<56:15,  2.97s/it]12/08/2024 10:42:17 - INFO - __main__ -   Step: 141, LR: 1.8339393939393942e-05, Loss: 0.7912900447845459
+ 11%|█         | 142/1276 [07:08<58:05,  3.07s/it]12/08/2024 10:42:21 - INFO - __main__ -   Step: 142, LR: 1.8323232323232325e-05, Loss: 0.7434909343719482
+ 11%|█         | 143/1276 [07:11<55:42,  2.95s/it]12/08/2024 10:42:23 - INFO - __main__ -   Step: 143, LR: 1.8307070707070708e-05, Loss: 0.8369265198707581
+ 11%|█▏        | 144/1276 [07:15<58:53,  3.12s/it]12/08/2024 10:42:27 - INFO - __main__ -   Step: 144, LR: 1.829090909090909e-05, Loss: 0.9070408344268799
+ 11%|█▏        | 145/1276 [07:18<59:46,  3.17s/it]12/08/2024 10:42:30 - INFO - __main__ -   Step: 145, LR: 1.8274747474747478e-05, Loss: 0.7784563302993774
+ 11%|█▏        | 146/1276 [07:21<57:37,  3.06s/it]12/08/2024 10:42:33 - INFO - __main__ -   Step: 146, LR: 1.825858585858586e-05, Loss: 0.8908491730690002
+ 12%|█▏        | 147/1276 [07:23<54:31,  2.90s/it]12/08/2024 10:42:35 - INFO - __main__ -   Step: 147, LR: 1.8242424242424244e-05, Loss: 0.870104968547821
+ 12%|█▏        | 148/1276 [07:27<56:48,  3.02s/it]12/08/2024 10:42:39 - INFO - __main__ -   Step: 148, LR: 1.8226262626262627e-05, Loss: 1.0213680267333984
+ 12%|█▏        | 149/1276 [07:29<55:20,  2.95s/it]12/08/2024 10:42:42 - INFO - __main__ -   Step: 149, LR: 1.821010101010101e-05, Loss: 1.0617516040802002
+ 12%|█▏        | 150/1276 [07:32<54:14,  2.89s/it]12/08/2024 10:42:44 - INFO - __main__ -   Step: 150, LR: 1.8193939393939396e-05, Loss: 0.8621912002563477
+ 12%|█▏        | 151/1276 [07:34<51:13,  2.73s/it]12/08/2024 10:42:47 - INFO - __main__ -   Step: 151, LR: 1.817777777777778e-05, Loss: 0.9738774299621582
+ 12%|█▏        | 152/1276 [07:38<53:59,  2.88s/it]12/08/2024 10:42:50 - INFO - __main__ -   Step: 152, LR: 1.8161616161616163e-05, Loss: 0.7965267300605774
+ 12%|█▏        | 153/1276 [07:41<54:17,  2.90s/it]12/08/2024 10:42:53 - INFO - __main__ -   Step: 153, LR: 1.8145454545454546e-05, Loss: 0.8643094301223755
+ 12%|█▏        | 154/1276 [07:44<55:21,  2.96s/it]12/08/2024 10:42:56 - INFO - __main__ -   Step: 154, LR: 1.812929292929293e-05, Loss: 0.8821746706962585
+ 12%|█▏        | 155/1276 [07:47<55:07,  2.95s/it]12/08/2024 10:42:59 - INFO - __main__ -   Step: 155, LR: 1.8113131313131312e-05, Loss: 0.7464064359664917
+ 12%|█▏        | 156/1276 [07:50<56:40,  3.04s/it]12/08/2024 10:43:02 - INFO - __main__ -   Step: 156, LR: 1.80969696969697e-05, Loss: 0.7549750804901123
+ 12%|█▏        | 157/1276 [07:53<55:08,  2.96s/it]12/08/2024 10:43:05 - INFO - __main__ -   Step: 157, LR: 1.8080808080808085e-05, Loss: 0.7647223472595215
+ 12%|█▏        | 158/1276 [07:55<51:31,  2.77s/it]12/08/2024 10:43:07 - INFO - __main__ -   Step: 158, LR: 1.8064646464646468e-05, Loss: 0.7978380918502808
+ 12%|█▏        | 159/1276 [07:58<50:16,  2.70s/it]12/08/2024 10:43:10 - INFO - __main__ -   Step: 159, LR: 1.804848484848485e-05, Loss: 0.939989447593689
+ 13%|█▎        | 160/1276 [08:00<49:59,  2.69s/it]12/08/2024 10:43:12 - INFO - __main__ -   Step: 160, LR: 1.8032323232323234e-05, Loss: 0.958859384059906
+ 13%|█▎        | 161/1276 [08:03<48:31,  2.61s/it]12/08/2024 10:43:15 - INFO - __main__ -   Step: 161, LR: 1.8016161616161617e-05, Loss: 0.7605218887329102
+ 13%|█▎        | 162/1276 [08:05<47:50,  2.58s/it]12/08/2024 10:43:17 - INFO - __main__ -   Step: 162, LR: 1.8e-05, Loss: 0.8741713762283325
+ 13%|█▎        | 163/1276 [08:08<49:51,  2.69s/it]12/08/2024 10:43:20 - INFO - __main__ -   Step: 163, LR: 1.7983838383838387e-05, Loss: 0.8762669563293457
+ 13%|█▎        | 164/1276 [08:11<49:37,  2.68s/it]12/08/2024 10:43:23 - INFO - __main__ -   Step: 164, LR: 1.796767676767677e-05, Loss: 0.8438024520874023
+ 13%|█▎        | 165/1276 [08:15<58:52,  3.18s/it]12/08/2024 10:43:27 - INFO - __main__ -   Step: 165, LR: 1.7951515151515153e-05, Loss: 0.7902741432189941
+ 13%|█▎        | 166/1276 [08:18<56:13,  3.04s/it]12/08/2024 10:43:30 - INFO - __main__ -   Step: 166, LR: 1.7935353535353536e-05, Loss: 1.0056407451629639
+ 13%|█▎        | 167/1276 [08:21<56:01,  3.03s/it]12/08/2024 10:43:33 - INFO - __main__ -   Step: 167, LR: 1.791919191919192e-05, Loss: 0.9119316339492798
+ 13%|█▎        | 168/1276 [08:24<55:01,  2.98s/it]12/08/2024 10:43:36 - INFO - __main__ -   Step: 168, LR: 1.7903030303030306e-05, Loss: 0.8184192180633545
+ 13%|█▎        | 169/1276 [08:27<59:34,  3.23s/it]12/08/2024 10:43:40 - INFO - __main__ -   Step: 169, LR: 1.788686868686869e-05, Loss: 0.8938333988189697
+ 13%|█▎        | 170/1276 [08:30<57:17,  3.11s/it]12/08/2024 10:43:43 - INFO - __main__ -   Step: 170, LR: 1.7870707070707072e-05, Loss: 0.7788822054862976
+ 13%|█▎        | 171/1276 [08:34<58:12,  3.16s/it]12/08/2024 10:43:46 - INFO - __main__ -   Step: 171, LR: 1.7854545454545455e-05, Loss: 0.8908861875534058
+ 13%|█▎        | 172/1276 [08:37<58:33,  3.18s/it]12/08/2024 10:43:49 - INFO - __main__ -   Step: 172, LR: 1.7838383838383838e-05, Loss: 0.8342955708503723
+ 14%|█▎        | 173/1276 [08:39<55:35,  3.02s/it]12/08/2024 10:43:52 - INFO - __main__ -   Step: 173, LR: 1.782222222222222e-05, Loss: 0.7476199269294739
+ 14%|█▎        | 174/1276 [08:42<54:13,  2.95s/it]12/08/2024 10:43:54 - INFO - __main__ -   Step: 174, LR: 1.7806060606060608e-05, Loss: 0.9036979675292969
+ 14%|█▎        | 175/1276 [08:45<52:28,  2.86s/it]12/08/2024 10:43:57 - INFO - __main__ -   Step: 175, LR: 1.778989898989899e-05, Loss: 0.9708406925201416
+ 14%|█▍        | 176/1276 [08:48<55:25,  3.02s/it]12/08/2024 10:44:01 - INFO - __main__ -   Step: 176, LR: 1.7773737373737374e-05, Loss: 0.7472057342529297
+ 14%|█▍        | 177/1276 [08:51<55:01,  3.00s/it]12/08/2024 10:44:04 - INFO - __main__ -   Step: 177, LR: 1.775757575757576e-05, Loss: 0.9199708104133606
+ 14%|█▍        | 178/1276 [08:55<56:45,  3.10s/it]12/08/2024 10:44:07 - INFO - __main__ -   Step: 178, LR: 1.7741414141414144e-05, Loss: 0.8632056713104248
+ 14%|█▍        | 179/1276 [08:57<55:18,  3.02s/it]12/08/2024 10:44:10 - INFO - __main__ -   Step: 179, LR: 1.7725252525252527e-05, Loss: 1.0257577896118164
+ 14%|█▍        | 180/1276 [09:01<58:37,  3.21s/it]12/08/2024 10:44:13 - INFO - __main__ -   Step: 180, LR: 1.770909090909091e-05, Loss: 0.8593533039093018
+ 14%|█▍        | 181/1276 [09:05<1:01:27,  3.37s/it]12/08/2024 10:44:17 - INFO - __main__ -   Step: 181, LR: 1.7692929292929296e-05, Loss: 0.706145167350769
+ 14%|█▍        | 182/1276 [09:07<56:39,  3.11s/it]  12/08/2024 10:44:20 - INFO - __main__ -   Step: 182, LR: 1.767676767676768e-05, Loss: 0.8279451131820679
+ 14%|█▍        | 183/1276 [09:10<55:38,  3.05s/it]12/08/2024 10:44:22 - INFO - __main__ -   Step: 183, LR: 1.7660606060606063e-05, Loss: 0.7782028317451477
+ 14%|█▍        | 184/1276 [09:13<55:05,  3.03s/it]12/08/2024 10:44:25 - INFO - __main__ -   Step: 184, LR: 1.7644444444444446e-05, Loss: 0.9180058240890503
+ 14%|█▍        | 185/1276 [09:18<1:03:19,  3.48s/it]12/08/2024 10:44:30 - INFO - __main__ -   Step: 185, LR: 1.762828282828283e-05, Loss: 0.7563612461090088
+ 15%|█▍        | 186/1276 [09:21<1:00:05,  3.31s/it]12/08/2024 10:44:33 - INFO - __main__ -   Step: 186, LR: 1.7612121212121215e-05, Loss: 0.7300937175750732
+ 15%|█▍        | 187/1276 [09:24<58:41,  3.23s/it]  12/08/2024 10:44:36 - INFO - __main__ -   Step: 187, LR: 1.75959595959596e-05, Loss: 0.8667619228363037
+ 15%|█▍        | 188/1276 [09:26<53:51,  2.97s/it]12/08/2024 10:44:38 - INFO - __main__ -   Step: 188, LR: 1.757979797979798e-05, Loss: 0.6736674308776855
+ 15%|█▍        | 189/1276 [09:29<51:39,  2.85s/it]12/08/2024 10:44:41 - INFO - __main__ -   Step: 189, LR: 1.7563636363636365e-05, Loss: 0.9967501759529114
+ 15%|█▍        | 190/1276 [09:32<53:09,  2.94s/it]12/08/2024 10:44:44 - INFO - __main__ -   Step: 190, LR: 1.7547474747474748e-05, Loss: 0.8665837049484253
+ 15%|█▍        | 191/1276 [09:35<52:40,  2.91s/it]12/08/2024 10:44:47 - INFO - __main__ -   Step: 191, LR: 1.753131313131313e-05, Loss: 0.8672488927841187
+ 15%|█▌        | 192/1276 [09:37<52:09,  2.89s/it]12/08/2024 10:44:50 - INFO - __main__ -   Step: 192, LR: 1.7515151515151517e-05, Loss: 0.9255563020706177
+ 15%|█▌        | 193/1276 [09:41<54:01,  2.99s/it]12/08/2024 10:44:53 - INFO - __main__ -   Step: 193, LR: 1.74989898989899e-05, Loss: 0.7899060845375061
+ 15%|█▌        | 194/1276 [09:44<53:08,  2.95s/it]12/08/2024 10:44:56 - INFO - __main__ -   Step: 194, LR: 1.7482828282828283e-05, Loss: 0.8453348875045776
+ 15%|█▌        | 195/1276 [09:46<53:03,  2.95s/it]12/08/2024 10:44:59 - INFO - __main__ -   Step: 195, LR: 1.7466666666666667e-05, Loss: 0.8427925109863281
+ 15%|█▌        | 196/1276 [09:49<52:44,  2.93s/it]12/08/2024 10:45:02 - INFO - __main__ -   Step: 196, LR: 1.745050505050505e-05, Loss: 0.9792129397392273
+ 15%|█▌        | 197/1276 [09:52<51:51,  2.88s/it]12/08/2024 10:45:04 - INFO - __main__ -   Step: 197, LR: 1.7434343434343436e-05, Loss: 0.9704281091690063
+ 16%|█▌        | 198/1276 [09:55<52:08,  2.90s/it]12/08/2024 10:45:07 - INFO - __main__ -   Step: 198, LR: 1.741818181818182e-05, Loss: 0.9583950042724609
+ 16%|█▌        | 199/1276 [09:58<51:11,  2.85s/it]12/08/2024 10:45:10 - INFO - __main__ -   Step: 199, LR: 1.7402020202020206e-05, Loss: 0.9417164325714111
+ 16%|█▌        | 200/1276 [10:01<50:35,  2.82s/it]12/08/2024 10:45:13 - INFO - __main__ -   Step: 200, LR: 1.738585858585859e-05, Loss: 0.8761267066001892
+12/08/2024 10:45:13 - INFO - __main__ - glob_checkpoints : ['./outputs/step-200']
+12/08/2024 10:45:13 - INFO - __main__ - ordering_and_checkpoint_path: [(200, './outputs/step-200')]
+12/08/2024 10:45:13 - INFO - __main__ - checkpoints_to_be_deleted:[]
+12/08/2024 10:45:13 - INFO - accelerate.accelerator - Saving current state to ./outputs/step-200
+12/08/2024 10:45:13 - INFO - accelerate.accelerator - Saving DeepSpeed Model and Optimizer
+[2024-12-08 10:45:13,327] [INFO] [logging.py:128:log_dist] [Rank 0] [Torch] Checkpoint pytorch_model is about to be saved!
+[2024-12-08 10:45:13,334] [INFO] [logging.py:128:log_dist] [Rank 0] Saving model checkpoint: ./outputs/step-200/pytorch_model/mp_rank_00_model_states.pt
+[2024-12-08 10:45:13,334] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving ./outputs/step-200/pytorch_model/mp_rank_00_model_states.pt...
+[2024-12-08 10:45:28,323] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved ./outputs/step-200/pytorch_model/mp_rank_00_model_states.pt.
+[2024-12-08 10:45:28,328] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving ./outputs/step-200/pytorch_model/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt...
+[2024-12-08 10:45:28,328] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving ./outputs/step-200/pytorch_model/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt...
+[2024-12-08 10:45:28,328] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving ./outputs/step-200/pytorch_model/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt...
+[2024-12-08 10:45:28,328] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving ./outputs/step-200/pytorch_model/bf16_zero_pp_rank_6_mp_rank_00_optim_states.pt...
+[2024-12-08 10:45:28,328] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving ./outputs/step-200/pytorch_model/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt...
+[2024-12-08 10:45:28,328] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving ./outputs/step-200/pytorch_model/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt...
+[2024-12-08 10:45:28,328] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving ./outputs/step-200/pytorch_model/bf16_zero_pp_rank_7_mp_rank_00_optim_states.pt...
+[2024-12-08 10:45:28,328] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving ./outputs/step-200/pytorch_model/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt...
+[2024-12-08 10:45:44,757] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved ./outputs/step-200/pytorch_model/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt.
+[2024-12-08 10:45:44,757] [INFO] [engine.py:3536:_save_zero_checkpoint] zero checkpoint saved ./outputs/step-200/pytorch_model/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt
+[2024-12-08 10:45:44,757] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint pytorch_model is ready now!
+[2024-12-08 10:45:45,237] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved ./outputs/step-200/pytorch_model/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt.
+[2024-12-08 10:45:45,237] [INFO] [engine.py:3536:_save_zero_checkpoint] zero checkpoint saved ./outputs/step-200/pytorch_model/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt
+[2024-12-08 10:45:45,237] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint pytorch_model is ready now!
+[2024-12-08 10:45:46,221] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved ./outputs/step-200/pytorch_model/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt.
+[2024-12-08 10:45:46,221] [INFO] [engine.py:3536:_save_zero_checkpoint] zero checkpoint saved ./outputs/step-200/pytorch_model/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt
+[2024-12-08 10:45:46,221] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint pytorch_model is ready now!
+[2024-12-08 10:45:46,267] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved ./outputs/step-200/pytorch_model/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt.
+[2024-12-08 10:45:46,268] [INFO] [engine.py:3536:_save_zero_checkpoint] zero checkpoint saved ./outputs/step-200/pytorch_model/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt
+[2024-12-08 10:45:46,268] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint pytorch_model is ready now!
+[2024-12-08 10:45:46,379] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved ./outputs/step-200/pytorch_model/bf16_zero_pp_rank_6_mp_rank_00_optim_states.pt.
+[2024-12-08 10:45:46,379] [INFO] [engine.py:3536:_save_zero_checkpoint] zero checkpoint saved ./outputs/step-200/pytorch_model/bf16_zero_pp_rank_6_mp_rank_00_optim_states.pt
+[2024-12-08 10:45:46,379] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint pytorch_model is ready now!
+[2024-12-08 10:45:46,457] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved ./outputs/step-200/pytorch_model/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt.
+[2024-12-08 10:45:46,458] [INFO] [engine.py:3536:_save_zero_checkpoint] zero checkpoint saved ./outputs/step-200/pytorch_model/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt
+[2024-12-08 10:45:46,458] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint pytorch_model is ready now!
+[2024-12-08 10:45:46,459] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved ./outputs/step-200/pytorch_model/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt.
+[2024-12-08 10:45:46,466] [INFO] [engine.py:3536:_save_zero_checkpoint] zero checkpoint saved ./outputs/step-200/pytorch_model/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt
+[2024-12-08 10:45:46,466] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint pytorch_model is ready now!
+[2024-12-08 10:45:46,757] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved ./outputs/step-200/pytorch_model/bf16_zero_pp_rank_7_mp_rank_00_optim_states.pt.
+[2024-12-08 10:45:46,757] [INFO] [engine.py:3536:_save_zero_checkpoint] zero checkpoint saved ./outputs/step-200/pytorch_model/bf16_zero_pp_rank_7_mp_rank_00_optim_states.pt
+[2024-12-08 10:45:46,757] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint pytorch_model is ready now!
+12/08/2024 10:45:46 - INFO - accelerate.accelerator - DeepSpeed Model and Optimizer saved to output dir ./outputs/step-200/pytorch_model
+12/08/2024 10:45:46 - INFO - accelerate.checkpointing - Scheduler state saved in outputs/step-200/scheduler.bin
+12/08/2024 10:45:46 - INFO - accelerate.checkpointing - Sampler state for dataloader 0 saved in outputs/step-200/sampler.bin
+12/08/2024 10:45:46 - INFO - accelerate.checkpointing - Random states saved in outputs/step-200/random_states_0.pkl
+tokenizer config file saved in ./outputs/step-200/tokenizer_config.json
+Special tokens file saved in ./outputs/step-200/special_tokens_map.json
+ 16%|█▌        | 201/1276 [10:37<3:51:27, 12.92s/it]12/08/2024 10:45:49 - INFO - __main__ -   Step: 201, LR: 1.7369696969696972e-05, Loss: 0.7182013988494873
+ 16%|█▌        | 202/1276 [10:40<2:59:36, 10.03s/it]12/08/2024 10:45:53 - INFO - __main__ -   Step: 202, LR: 1.7353535353535355e-05, Loss: 0.8592642545700073
+ 16%|█▌        | 203/1276 [10:43<2:19:12,  7.78s/it]12/08/2024 10:45:55 - INFO - __main__ -   Step: 203, LR: 1.7337373737373738e-05, Loss: 0.892786979675293
+ 16%|█▌        | 204/1276 [10:46<1:51:35,  6.25s/it]12/08/2024 10:45:58 - INFO - __main__ -   Step: 204, LR: 1.7321212121212125e-05, Loss: 0.8053165674209595
+ 16%|█▌        | 205/1276 [10:49<1:33:59,  5.27s/it]12/08/2024 10:46:01 - INFO - __main__ -   Step: 205, LR: 1.7305050505050508e-05, Loss: 0.9183611869812012
+ 16%|█▌        | 206/1276 [10:52<1:22:44,  4.64s/it]12/08/2024 10:46:04 - INFO - __main__ -   Step: 206, LR: 1.728888888888889e-05, Loss: 0.7737680673599243
+ 16%|█▌        | 207/1276 [10:55<1:13:05,  4.10s/it]12/08/2024 10:46:07 - INFO - __main__ -   Step: 207, LR: 1.7272727272727274e-05, Loss: 0.8106671571731567
+ 16%|█▋        | 208/1276 [10:57<1:03:58,  3.59s/it]12/08/2024 10:46:09 - INFO - __main__ -   Step: 208, LR: 1.7256565656565657e-05, Loss: 0.9025104641914368
+ 16%|█▋        | 209/1276 [11:01<1:03:44,  3.58s/it]12/08/2024 10:46:13 - INFO - __main__ -   Step: 209, LR: 1.724040404040404e-05, Loss: 0.8976989984512329
+ 16%|█▋        | 210/1276 [11:03<56:35,  3.19s/it]  12/08/2024 10:46:15 - INFO - __main__ -   Step: 210, LR: 1.7224242424242427e-05, Loss: 0.6764844655990601
+ 17%|█▋        | 211/1276 [11:06<55:24,  3.12s/it]12/08/2024 10:46:18 - INFO - __main__ -   Step: 211, LR: 1.720808080808081e-05, Loss: 0.9230113625526428
+ 17%|█▋        | 212/1276 [11:09<54:07,  3.05s/it]12/08/2024 10:46:21 - INFO - __main__ -   Step: 212, LR: 1.7191919191919193e-05, Loss: 0.9299798011779785
+ 17%|���▋        | 213/1276 [11:11<52:33,  2.97s/it]12/08/2024 10:46:24 - INFO - __main__ -   Step: 213, LR: 1.7175757575757576e-05, Loss: 0.7807374000549316
+ 17%|█▋        | 214/1276 [11:14<52:12,  2.95s/it]12/08/2024 10:46:27 - INFO - __main__ -   Step: 214, LR: 1.715959595959596e-05, Loss: 0.7854947447776794
+ 17%|█▋        | 215/1276 [11:17<49:24,  2.79s/it]12/08/2024 10:46:29 - INFO - __main__ -   Step: 215, LR: 1.7143434343434346e-05, Loss: 0.9121114015579224
+ 17%|█▋        | 216/1276 [11:19<47:39,  2.70s/it]12/08/2024 10:46:31 - INFO - __main__ -   Step: 216, LR: 1.712727272727273e-05, Loss: 0.7490304708480835
+ 17%|█▋        | 217/1276 [11:22<47:59,  2.72s/it]12/08/2024 10:46:34 - INFO - __main__ -   Step: 217, LR: 1.7111111111111112e-05, Loss: 0.8381906747817993
+ 17%|█▋        | 218/1276 [11:25<50:09,  2.84s/it]12/08/2024 10:46:37 - INFO - __main__ -   Step: 218, LR: 1.7094949494949495e-05, Loss: 0.9267692565917969
+ 17%|█▋        | 219/1276 [11:28<48:50,  2.77s/it]12/08/2024 10:46:40 - INFO - __main__ -   Step: 219, LR: 1.7078787878787878e-05, Loss: 0.9816099405288696
+ 17%|█▋        | 220/1276 [11:30<46:49,  2.66s/it]12/08/2024 10:46:42 - INFO - __main__ -   Step: 220, LR: 1.7062626262626264e-05, Loss: 0.7771475911140442
+ 17%|█▋        | 221/1276 [11:34<50:56,  2.90s/it]12/08/2024 10:46:46 - INFO - __main__ -   Step: 221, LR: 1.7046464646464648e-05, Loss: 0.9109388589859009
+ 17%|█▋        | 222/1276 [11:36<48:27,  2.76s/it]12/08/2024 10:46:48 - INFO - __main__ -   Step: 222, LR: 1.7030303030303034e-05, Loss: 0.9102895259857178
+ 17%|█▋        | 223/1276 [11:39<50:32,  2.88s/it]12/08/2024 10:46:51 - INFO - __main__ -   Step: 223, LR: 1.7014141414141417e-05, Loss: 0.9874598979949951
+ 18%|█▊        | 224/1276 [11:42<51:29,  2.94s/it]12/08/2024 10:46:54 - INFO - __main__ -   Step: 224, LR: 1.69979797979798e-05, Loss: 0.8771306276321411
+ 18%|█▊        | 225/1276 [11:45<51:47,  2.96s/it]12/08/2024 10:46:58 - INFO - __main__ -   Step: 225, LR: 1.6981818181818183e-05, Loss: 0.8394902944564819
+ 18%|█▊        | 226/1276 [11:49<53:19,  3.05s/it]12/08/2024 10:47:01 - INFO - __main__ -   Step: 226, LR: 1.6965656565656567e-05, Loss: 0.8580566644668579
+ 18%|█▊        | 227/1276 [11:51<52:13,  2.99s/it]12/08/2024 10:47:04 - INFO - __main__ -   Step: 227, LR: 1.694949494949495e-05, Loss: 0.8508055210113525
+ 18%|█▊        | 228/1276 [11:55<53:42,  3.07s/it]12/08/2024 10:47:07 - INFO - __main__ -   Step: 228, LR: 1.6933333333333336e-05, Loss: 0.8765627145767212
+ 18%|█▊        | 229/1276 [11:57<52:24,  3.00s/it]12/08/2024 10:47:10 - INFO - __main__ -   Step: 229, LR: 1.691717171717172e-05, Loss: 0.8532445430755615
+ 18%|█▊        | 230/1276 [12:01<54:01,  3.10s/it]12/08/2024 10:47:13 - INFO - __main__ -   Step: 230, LR: 1.6901010101010102e-05, Loss: 0.7632951736450195
+ 18%|█▊        | 231/1276 [12:04<52:10,  3.00s/it]12/08/2024 10:47:16 - INFO - __main__ -   Step: 231, LR: 1.6884848484848485e-05, Loss: 0.7771958708763123
+ 18%|█▊        | 232/1276 [12:06<49:31,  2.85s/it]12/08/2024 10:47:18 - INFO - __main__ -   Step: 232, LR: 1.686868686868687e-05, Loss: 0.8833427429199219
+ 18%|█▊        | 233/1276 [12:09<51:41,  2.97s/it]12/08/2024 10:47:22 - INFO - __main__ -   Step: 233, LR: 1.6852525252525255e-05, Loss: 0.8148534297943115
+ 18%|█▊        | 234/1276 [12:12<49:08,  2.83s/it]12/08/2024 10:47:24 - INFO - __main__ -   Step: 234, LR: 1.6836363636363638e-05, Loss: 0.9506669044494629
+ 18%|█▊        | 235/1276 [12:14<47:50,  2.76s/it]12/08/2024 10:47:27 - INFO - __main__ -   Step: 235, LR: 1.682020202020202e-05, Loss: 0.9123784303665161
+ 18%|█▊        | 236/1276 [12:18<49:44,  2.87s/it]12/08/2024 10:47:30 - INFO - __main__ -   Step: 236, LR: 1.6804040404040404e-05, Loss: 0.8275660276412964
+ 19%|█▊        | 237/1276 [12:21<50:51,  2.94s/it]12/08/2024 10:47:33 - INFO - __main__ -   Step: 237, LR: 1.6787878787878787e-05, Loss: 0.8422845005989075
+ 19%|█▊        | 238/1276 [12:23<50:23,  2.91s/it]12/08/2024 10:47:36 - INFO - __main__ -   Step: 238, LR: 1.6771717171717174e-05, Loss: 0.9931857585906982
+ 19%|█▊        | 239/1276 [12:28<56:32,  3.27s/it]12/08/2024 10:47:40 - INFO - __main__ -   Step: 239, LR: 1.6755555555555557e-05, Loss: 0.7619079351425171
+ 19%|█▉        | 240/1276 [12:31<55:54,  3.24s/it]12/08/2024 10:47:43 - INFO - __main__ -   Step: 240, LR: 1.673939393939394e-05, Loss: 1.009474277496338
+ 19%|█▉        | 241/1276 [12:34<54:08,  3.14s/it]12/08/2024 10:47:46 - INFO - __main__ -   Step: 241, LR: 1.6723232323232327e-05, Loss: 0.7804709672927856
+ 19%|█▉        | 242/1276 [12:37<53:06,  3.08s/it]12/08/2024 10:47:49 - INFO - __main__ -   Step: 242, LR: 1.670707070707071e-05, Loss: 0.863490641117096
+ 19%|█▉        | 243/1276 [12:40<53:12,  3.09s/it]12/08/2024 10:47:52 - INFO - __main__ -   Step: 243, LR: 1.6690909090909093e-05, Loss: 0.6831589937210083
+ 19%|█▉        | 244/1276 [12:43<54:38,  3.18s/it]12/08/2024 10:47:55 - INFO - __main__ -   Step: 244, LR: 1.6674747474747476e-05, Loss: 0.8108941316604614
+ 19%|█▉        | 245/1276 [12:46<55:13,  3.21s/it]12/08/2024 10:47:59 - INFO - __main__ -   Step: 245, LR: 1.665858585858586e-05, Loss: 0.7841750383377075
+ 19%|█▉        | 246/1276 [12:49<53:35,  3.12s/it]12/08/2024 10:48:02 - INFO - __main__ -   Step: 246, LR: 1.6642424242424246e-05, Loss: 0.8192945122718811
+ 19%|█▉        | 247/1276 [12:52<51:30,  3.00s/it]12/08/2024 10:48:04 - INFO - __main__ -   Step: 247, LR: 1.662626262626263e-05, Loss: 0.9462491273880005
+ 19%|█▉        | 248/1276 [12:55<50:58,  2.98s/it]12/08/2024 10:48:07 - INFO - __main__ -   Step: 248, LR: 1.6610101010101012e-05, Loss: 0.9184325933456421
+ 20%|█▉        | 249/1276 [12:58<50:31,  2.95s/it]12/08/2024 10:48:10 - INFO - __main__ -   Step: 249, LR: 1.6593939393939395e-05, Loss: 0.751697301864624
+ 20%|█▉        | 250/1276 [13:01<50:10,  2.93s/it]12/08/2024 10:48:13 - INFO - __main__ -   Step: 250, LR: 1.6577777777777778e-05, Loss: 0.77344810962677
+ 20%|█▉        | 251/1276 [13:04<52:58,  3.10s/it]12/08/2024 10:48:16 - INFO - __main__ -   Step: 251, LR: 1.6561616161616164e-05, Loss: 0.894429087638855
+ 20%|█▉        | 252/1276 [13:08<54:16,  3.18s/it]12/08/2024 10:48:20 - INFO - __main__ -   Step: 252, LR: 1.6545454545454548e-05, Loss: 0.8201172351837158
+ 20%|█▉        | 253/1276 [13:10<51:15,  3.01s/it]12/08/2024 10:48:22 - INFO - __main__ -   Step: 253, LR: 1.652929292929293e-05, Loss: 0.7543787956237793
+ 20%|█▉        | 254/1276 [13:12<47:37,  2.80s/it]12/08/2024 10:48:25 - INFO - __main__ -   Step: 254, LR: 1.6513131313131314e-05, Loss: 0.8810752034187317
+ 20%|█▉        | 255/1276 [13:15<48:39,  2.86s/it]12/08/2024 10:48:28 - INFO - __main__ -   Step: 255, LR: 1.6496969696969697e-05, Loss: 0.7906970977783203
+ 20%|██        | 256/1276 [13:18<47:06,  2.77s/it]12/08/2024 10:48:30 - INFO - __main__ -   Step: 256, LR: 1.6480808080808083e-05, Loss: 0.8684123158454895
+ 20%|██        | 257/1276 [13:21<47:01,  2.77s/it]12/08/2024 10:48:33 - INFO - __main__ -   Step: 257, LR: 1.6464646464646466e-05, Loss: 0.8763089179992676
+ 20%|██        | 258/1276 [13:23<45:56,  2.71s/it]12/08/2024 10:48:36 - INFO - __main__ -   Step: 258, LR: 1.644848484848485e-05, Loss: 0.8126420378684998
+ 20%|██        | 259/1276 [13:26<44:56,  2.65s/it]12/08/2024 10:48:38 - INFO - __main__ -   Step: 259, LR: 1.6432323232323233e-05, Loss: 0.8952609896659851
+ 20%|██        | 260/1276 [13:30<52:55,  3.13s/it]12/08/2024 10:48:42 - INFO - __main__ -   Step: 260, LR: 1.6416161616161616e-05, Loss: 0.9786872863769531
+ 20%|██        | 261/1276 [13:33<52:06,  3.08s/it]12/08/2024 10:48:45 - INFO - __main__ -   Step: 261, LR: 1.64e-05, Loss: 0.6603887677192688
+ 21%|██        | 262/1276 [13:36<49:21,  2.92s/it]12/08/2024 10:48:48 - INFO - __main__ -   Step: 262, LR: 1.6383838383838385e-05, Loss: 0.677747368812561
+ 21%|██        | 263/1276 [13:39<51:07,  3.03s/it]12/08/2024 10:48:51 - INFO - __main__ -   Step: 263, LR: 1.636767676767677e-05, Loss: 0.899791955947876
+ 21%|██        | 264/1276 [13:42<50:52,  3.02s/it]12/08/2024 10:48:54 - INFO - __main__ -   Step: 264, LR: 1.6351515151515155e-05, Loss: 0.8540040254592896
+ 21%|██        | 265/1276 [13:45<52:46,  3.13s/it]12/08/2024 10:48:58 - INFO - __main__ -   Step: 265, LR: 1.6335353535353538e-05, Loss: 0.7007079720497131
+ 21%|██        | 266/1276 [13:48<49:31,  2.94s/it]12/08/2024 10:49:00 - INFO - __main__ -   Step: 266, LR: 1.631919191919192e-05, Loss: 0.8726357221603394
+ 21%|██        | 267/1276 [13:51<50:25,  3.00s/it]12/08/2024 10:49:03 - INFO - __main__ -   Step: 267, LR: 1.6303030303030304e-05, Loss: 0.843902587890625
+ 21%|██        | 268/1276 [13:54<48:33,  2.89s/it]12/08/2024 10:49:06 - INFO - __main__ -   Step: 268, LR: 1.6286868686868687e-05, Loss: 0.9007378816604614
+ 21%|██        | 269/1276 [13:57<49:42,  2.96s/it]12/08/2024 10:49:09 - INFO - __main__ -   Step: 269, LR: 1.6270707070707074e-05, Loss: 0.8066787719726562
+ 21%|██        | 270/1276 [14:00<51:39,  3.08s/it]12/08/2024 10:49:12 - INFO - __main__ -   Step: 270, LR: 1.6254545454545457e-05, Loss: 0.7389367818832397
+ 21%|██        | 271/1276 [14:04<55:58,  3.34s/it]12/08/2024 10:49:16 - INFO - __main__ -   Step: 271, LR: 1.623838383838384e-05, Loss: 0.9440701007843018
+ 21%|██▏       | 272/1276 [14:07<53:06,  3.17s/it]12/08/2024 10:49:19 - INFO - __main__ -   Step: 272, LR: 1.6222222222222223e-05, Loss: 0.8816076517105103
+ 21%|██▏       | 273/1276 [14:09<48:30,  2.90s/it]12/08/2024 10:49:21 - INFO - __main__ -   Step: 273, LR: 1.6206060606060606e-05, Loss: 0.9114022254943848
+ 21%|██▏       | 274/1276 [14:13<53:06,  3.18s/it]12/08/2024 10:49:25 - INFO - __main__ -   Step: 274, LR: 1.6189898989898993e-05, Loss: 0.8538699150085449
+ 22%|██▏       | 275/1276 [14:16<52:20,  3.14s/it]12/08/2024 10:49:28 - INFO - __main__ -   Step: 275, LR: 1.6173737373737376e-05, Loss: 0.7811182141304016
+ 22%|██▏       | 276/1276 [14:20<56:10,  3.37s/it]12/08/2024 10:49:32 - INFO - __main__ -   Step: 276, LR: 1.615757575757576e-05, Loss: 0.8528954982757568
+ 22%|██▏       | 277/1276 [14:23<56:51,  3.41s/it]12/08/2024 10:49:36 - INFO - __main__ -   Step: 277, LR: 1.6141414141414142e-05, Loss: 0.8284581899642944
+ 22%|██▏       | 278/1276 [14:26<52:01,  3.13s/it]12/08/2024 10:49:38 - INFO - __main__ -   Step: 278, LR: 1.6125252525252525e-05, Loss: 0.8344196081161499
+ 22%|██▏       | 279/1276 [14:29<51:51,  3.12s/it]12/08/2024 10:49:41 - INFO - __main__ -   Step: 279, LR: 1.6109090909090908e-05, Loss: 0.7556798458099365
+ 22%|██▏       | 280/1276 [14:32<49:56,  3.01s/it]12/08/2024 10:49:44 - INFO - __main__ -   Step: 280, LR: 1.6092929292929295e-05, Loss: 0.7989929914474487
+ 22%|██▏       | 281/1276 [14:35<49:55,  3.01s/it]12/08/2024 10:49:47 - INFO - __main__ -   Step: 281, LR: 1.6076767676767678e-05, Loss: 0.857306182384491
+ 22%|██▏       | 282/1276 [14:39<55:14,  3.33s/it]12/08/2024 10:49:51 - INFO - __main__ -   Step: 282, LR: 1.606060606060606e-05, Loss: 0.8812130689620972
+ 22%|██▏       | 283/1276 [14:42<55:35,  3.36s/it]12/08/2024 10:49:54 - INFO - __main__ -   Step: 283, LR: 1.6044444444444444e-05, Loss: 0.7649487853050232
+ 22%|██▏       | 284/1276 [14:46<59:20,  3.59s/it]12/08/2024 10:49:59 - INFO - __main__ -   Step: 284, LR: 1.602828282828283e-05, Loss: 0.7247726321220398
+ 22%|██▏       | 285/1276 [14:49<53:38,  3.25s/it]12/08/2024 10:50:01 - INFO - __main__ -   Step: 285, LR: 1.6012121212121214e-05, Loss: 0.8632616996765137
+ 22%|██▏       | 286/1276 [14:51<50:15,  3.05s/it]12/08/2024 10:50:04 - INFO - __main__ -   Step: 286, LR: 1.5995959595959597e-05, Loss: 0.7542216777801514
+ 22%|██▏       | 287/1276 [14:54<45:57,  2.79s/it]12/08/2024 10:50:06 - INFO - __main__ -   Step: 287, LR: 1.5979797979797983e-05, Loss: 0.8089452981948853
+ 23%|██▎       | 288/1276 [14:57<50:26,  3.06s/it]12/08/2024 10:50:10 - INFO - __main__ -   Step: 288, LR: 1.5963636363636366e-05, Loss: 0.9680898785591125
+ 23%|██▎       | 289/1276 [15:00<50:07,  3.05s/it]12/08/2024 10:50:13 - INFO - __main__ -   Step: 289, LR: 1.594747474747475e-05, Loss: 0.8259207010269165
+ 23%|██▎       | 290/1276 [15:03<50:00,  3.04s/it]12/08/2024 10:50:16 - INFO - __main__ -   Step: 290, LR: 1.5931313131313133e-05, Loss: 0.8548383712768555
+ 23%|██▎       | 291/1276 [15:06<48:30,  2.95s/it]12/08/2024 10:50:18 - INFO - __main__ -   Step: 291, LR: 1.5915151515151516e-05, Loss: 0.8304325938224792
+ 23%|██▎       | 292/1276 [15:09<46:32,  2.84s/it]12/08/2024 10:50:21 - INFO - __main__ -   Step: 292, LR: 1.5898989898989902e-05, Loss: 0.9405174255371094
+ 23%|██▎       | 293/1276 [15:12<50:39,  3.09s/it]12/08/2024 10:50:25 - INFO - __main__ -   Step: 293, LR: 1.5882828282828285e-05, Loss: 0.8753682374954224
+ 23%|██▎       | 294/1276 [15:16<51:10,  3.13s/it]12/08/2024 10:50:28 - INFO - __main__ -   Step: 294, LR: 1.586666666666667e-05, Loss: 0.9280813932418823
+ 23%|██▎       | 295/1276 [15:18<47:15,  2.89s/it]12/08/2024 10:50:30 - INFO - __main__ -   Step: 295, LR: 1.585050505050505e-05, Loss: 0.7502943873405457
+ 23%|██▎       | 296/1276 [15:21<46:50,  2.87s/it]12/08/2024 10:50:33 - INFO - __main__ -   Step: 296, LR: 1.5834343434343435e-05, Loss: 0.855643630027771
+ 23%|██▎       | 297/1276 [15:24<46:55,  2.88s/it]12/08/2024 10:50:36 - INFO - __main__ -   Step: 297, LR: 1.5818181818181818e-05, Loss: 0.8104234933853149
+ 23%|██▎       | 298/1276 [15:26<46:11,  2.83s/it]12/08/2024 10:50:39 - INFO - __main__ -   Step: 298, LR: 1.5802020202020204e-05, Loss: 1.044074296951294
+ 23%|██▎       | 299/1276 [15:29<45:55,  2.82s/it]12/08/2024 10:50:41 - INFO - __main__ -   Step: 299, LR: 1.5785858585858587e-05, Loss: 0.9341830015182495
+ 24%|██▎       | 300/1276 [15:32<44:47,  2.75s/it]12/08/2024 10:50:44 - INFO - __main__ -   Step: 300, LR: 1.576969696969697e-05, Loss: 0.7424100041389465
+ 24%|██▎       | 301/1276 [15:35<45:55,  2.83s/it]12/08/2024 10:50:47 - INFO - __main__ -   Step: 301, LR: 1.5753535353535353e-05, Loss: 0.7980840802192688
+ 24%|██▎       | 302/1276 [15:37<44:43,  2.75s/it]12/08/2024 10:50:50 - INFO - __main__ -   Step: 302, LR: 1.5737373737373737e-05, Loss: 0.9871252775192261
+ 24%|██▎       | 303/1276 [15:40<45:14,  2.79s/it]12/08/2024 10:50:52 - INFO - __main__ -   Step: 303, LR: 1.5721212121212123e-05, Loss: 1.007944107055664
+ 24%|██▍       | 304/1276 [15:43<45:08,  2.79s/it]12/08/2024 10:50:55 - INFO - __main__ -   Step: 304, LR: 1.5705050505050506e-05, Loss: 0.8468735218048096
+ 24%|██▍       | 305/1276 [15:46<44:36,  2.76s/it]12/08/2024 10:50:58 - INFO - __main__ -   Step: 305, LR: 1.5688888888888893e-05, Loss: 0.9190673828125
+ 24%|██▍       | 306/1276 [15:49<45:40,  2.82s/it]12/08/2024 10:51:01 - INFO - __main__ -   Step: 306, LR: 1.5672727272727276e-05, Loss: 0.7168912887573242
+ 24%|██▍       | 307/1276 [15:51<45:47,  2.84s/it]12/08/2024 10:51:04 - INFO - __main__ -   Step: 307, LR: 1.565656565656566e-05, Loss: 0.7738510370254517
+ 24%|██▍       | 308/1276 [15:54<44:53,  2.78s/it]12/08/2024 10:51:06 - INFO - __main__ -   Step: 308, LR: 1.5640404040404042e-05, Loss: 0.8745222091674805
+ 24%|██▍       | 309/1276 [15:57<46:02,  2.86s/it]12/08/2024 10:51:09 - INFO - __main__ -   Step: 309, LR: 1.5624242424242425e-05, Loss: 0.7505863904953003
+ 24%|██▍       | 310/1276 [16:00<45:42,  2.84s/it]12/08/2024 10:51:12 - INFO - __main__ -   Step: 310, LR: 1.560808080808081e-05, Loss: 0.9120234251022339
+ 24%|██▍       | 311/1276 [16:03<46:43,  2.91s/it]12/08/2024 10:51:15 - INFO - __main__ -   Step: 311, LR: 1.5591919191919195e-05, Loss: 0.888430118560791
+ 24%|██▍       | 312/1276 [16:06<47:25,  2.95s/it]12/08/2024 10:51:18 - INFO - __main__ -   Step: 312, LR: 1.5575757575757578e-05, Loss: 0.9584538340568542
+ 25%|██▍       | 313/1276 [16:09<49:34,  3.09s/it]12/08/2024 10:51:22 - INFO - __main__ -   Step: 313, LR: 1.555959595959596e-05, Loss: 0.8804447054862976
+ 25%|██▍       | 314/1276 [16:13<49:20,  3.08s/it]12/08/2024 10:51:25 - INFO - __main__ -   Step: 314, LR: 1.5543434343434344e-05, Loss: 0.8738141059875488
+ 25%|██▍       | 315/1276 [16:15<48:23,  3.02s/it]12/08/2024 10:51:28 - INFO - __main__ -   Step: 315, LR: 1.5527272727272727e-05, Loss: 0.8902122974395752
+ 25%|██▍       | 316/1276 [16:18<46:42,  2.92s/it]12/08/2024 10:51:30 - INFO - __main__ -   Step: 316, LR: 1.5511111111111114e-05, Loss: 0.8894180655479431
+ 25%|██▍       | 317/1276 [16:21<47:56,  3.00s/it]12/08/2024 10:51:34 - INFO - __main__ -   Step: 317, LR: 1.5494949494949497e-05, Loss: 0.8267257213592529
+ 25%|██▍       | 318/1276 [16:24<47:56,  3.00s/it]12/08/2024 10:51:37 - INFO - __main__ -   Step: 318, LR: 1.547878787878788e-05, Loss: 1.0486479997634888
+ 25%|██▌       | 319/1276 [16:27<44:51,  2.81s/it]12/08/2024 10:51:39 - INFO - __main__ -   Step: 319, LR: 1.5462626262626263e-05, Loss: 0.9576964378356934
+ 25%|██▌       | 320/1276 [16:30<45:04,  2.83s/it]12/08/2024 10:51:42 - INFO - __main__ -   Step: 320, LR: 1.5446464646464646e-05, Loss: 1.0168724060058594
+ 25%|██▌       | 321/1276 [16:34<51:57,  3.26s/it]12/08/2024 10:51:46 - INFO - __main__ -   Step: 321, LR: 1.5430303030303032e-05, Loss: 0.8089693188667297
+ 25%|██▌       | 322/1276 [16:37<52:57,  3.33s/it]12/08/2024 10:51:50 - INFO - __main__ -   Step: 322, LR: 1.5414141414141416e-05, Loss: 0.8785363435745239
+ 25%|██▌       | 323/1276 [16:40<50:36,  3.19s/it]12/08/2024 10:51:52 - INFO - __main__ -   Step: 323, LR: 1.53979797979798e-05, Loss: 0.7778307199478149
+ 25%|██▌       | 324/1276 [16:43<49:10,  3.10s/it]12/08/2024 10:51:55 - INFO - __main__ -   Step: 324, LR: 1.5381818181818182e-05, Loss: 0.9043834805488586
+ 25%|██▌       | 325/1276 [16:46<48:05,  3.03s/it]12/08/2024 10:51:58 - INFO - __main__ -   Step: 325, LR: 1.5365656565656565e-05, Loss: 0.8525062203407288
+ 26%|██▌       | 326/1276 [16:49<49:00,  3.09s/it]12/08/2024 10:52:01 - INFO - __main__ -   Step: 326, LR: 1.5349494949494948e-05, Loss: 0.9736193418502808
+ 26%|██▌       | 327/1276 [16:52<46:08,  2.92s/it]12/08/2024 10:52:04 - INFO - __main__ -   Step: 327, LR: 1.5333333333333334e-05, Loss: 0.6470102667808533
+ 26%|██▌       | 328/1276 [16:54<45:09,  2.86s/it]12/08/2024 10:52:07 - INFO - __main__ -   Step: 328, LR: 1.531717171717172e-05, Loss: 0.8321994543075562
+ 26%|██▌       | 329/1276 [16:57<44:59,  2.85s/it]12/08/2024 10:52:09 - INFO - __main__ -   Step: 329, LR: 1.5301010101010104e-05, Loss: 0.9797354340553284
+ 26%|██▌       | 330/1276 [17:00<44:46,  2.84s/it]12/08/2024 10:52:12 - INFO - __main__ -   Step: 330, LR: 1.5284848484848487e-05, Loss: 0.9485521912574768
+ 26%|██▌       | 331/1276 [17:03<44:31,  2.83s/it]12/08/2024 10:52:15 - INFO - __main__ -   Step: 331, LR: 1.526868686868687e-05, Loss: 0.7518908977508545
+ 26%|██▌       | 332/1276 [17:06<47:39,  3.03s/it]12/08/2024 10:52:19 - INFO - __main__ -   Step: 332, LR: 1.5252525252525255e-05, Loss: 0.8865678310394287
+ 26%|██▌       | 333/1276 [17:09<46:49,  2.98s/it]12/08/2024 10:52:21 - INFO - __main__ -   Step: 333, LR: 1.5236363636363638e-05, Loss: 0.8877227306365967
+ 26%|██▌       | 334/1276 [17:12<47:33,  3.03s/it]12/08/2024 10:52:25 - INFO - __main__ -   Step: 334, LR: 1.5220202020202021e-05, Loss: 0.8327498435974121
+ 26%|██▋       | 335/1276 [17:15<45:47,  2.92s/it]12/08/2024 10:52:27 - INFO - __main__ -   Step: 335, LR: 1.5204040404040406e-05, Loss: 0.7960495948791504
+ 26%|██▋       | 336/1276 [17:18<46:57,  3.00s/it]12/08/2024 10:52:30 - INFO - __main__ -   Step: 336, LR: 1.518787878787879e-05, Loss: 0.7892925143241882
+ 26%|██▋       | 337/1276 [17:21<47:03,  3.01s/it]12/08/2024 10:52:33 - INFO - __main__ -   Step: 337, LR: 1.5171717171717172e-05, Loss: 0.8818126916885376
+ 26%|██▋       | 338/1276 [17:24<46:49,  2.99s/it]12/08/2024 10:52:36 - INFO - __main__ -   Step: 338, LR: 1.5155555555555557e-05, Loss: 0.7757995128631592
+ 27%|██▋       | 339/1276 [17:27<46:47,  3.00s/it]12/08/2024 10:52:39 - INFO - __main__ -   Step: 339, LR: 1.513939393939394e-05, Loss: 0.7052314281463623
+ 27%|██▋       | 340/1276 [17:30<44:02,  2.82s/it]12/08/2024 10:52:42 - INFO - __main__ -   Step: 340, LR: 1.5123232323232325e-05, Loss: 0.7782874703407288
+ 27%|██▋       | 341/1276 [17:33<45:15,  2.90s/it]12/08/2024 10:52:45 - INFO - __main__ -   Step: 341, LR: 1.5107070707070708e-05, Loss: 0.8467707633972168
+ 27%|██▋       | 342/1276 [17:36<48:56,  3.14s/it]12/08/2024 10:52:49 - INFO - __main__ -   Step: 342, LR: 1.5090909090909091e-05, Loss: 0.813183069229126
+ 27%|██▋       | 343/1276 [17:40<50:21,  3.24s/it]12/08/2024 10:52:52 - INFO - __main__ -   Step: 343, LR: 1.5074747474747476e-05, Loss: 0.8012880682945251
+ 27%|██▋       | 344/1276 [17:43<48:00,  3.09s/it]12/08/2024 10:52:55 - INFO - __main__ -   Step: 344, LR: 1.5058585858585859e-05, Loss: 0.9217973351478577
+ 27%|██▋       | 345/1276 [17:46<50:58,  3.28s/it]12/08/2024 10:52:59 - INFO - __main__ -   Step: 345, LR: 1.5042424242424242e-05, Loss: 0.7022310495376587
+ 27%|██▋       | 346/1276 [17:50<50:48,  3.28s/it]12/08/2024 10:53:02 - INFO - __main__ -   Step: 346, LR: 1.5026262626262627e-05, Loss: 0.8285748958587646
+ 27%|██▋       | 347/1276 [17:52<46:36,  3.01s/it]12/08/2024 10:53:04 - INFO - __main__ -   Step: 347, LR: 1.501010101010101e-05, Loss: 0.7307817935943604
+ 27%|██▋       | 348/1276 [17:55<46:21,  3.00s/it]12/08/2024 10:53:07 - INFO - __main__ -   Step: 348, LR: 1.4993939393939397e-05, Loss: 0.8274513483047485
+ 27%|██▋       | 349/1276 [17:58<44:37,  2.89s/it]12/08/2024 10:53:10 - INFO - __main__ -   Step: 349, LR: 1.497777777777778e-05, Loss: 0.8692996501922607
+ 27%|██▋       | 350/1276 [18:00<43:06,  2.79s/it]12/08/2024 10:53:12 - INFO - __main__ -   Step: 350, LR: 1.4961616161616164e-05, Loss: 0.9221968650817871
+ 28%|██▊       | 351/1276 [18:03<41:29,  2.69s/it]12/08/2024 10:53:15 - INFO - __main__ -   Step: 351, LR: 1.4945454545454548e-05, Loss: 0.8133977651596069
+ 28%|██▊       | 352/1276 [18:05<42:22,  2.75s/it]12/08/2024 10:53:18 - INFO - __main__ -   Step: 352, LR: 1.492929292929293e-05, Loss: 0.7882875204086304
+ 28%|██▊       | 353/1276 [18:08<41:42,  2.71s/it]12/08/2024 10:53:20 - INFO - __main__ -   Step: 353, LR: 1.4913131313131315e-05, Loss: 0.7023463845252991
+ 28%|██▊       | 354/1276 [18:11<40:47,  2.65s/it]12/08/2024 10:53:23 - INFO - __main__ -   Step: 354, LR: 1.4896969696969699e-05, Loss: 0.9719178676605225
+ 28%|██▊       | 355/1276 [18:13<40:41,  2.65s/it]12/08/2024 10:53:26 - INFO - __main__ -   Step: 355, LR: 1.4880808080808082e-05, Loss: 0.8912718892097473
+ 28%|██▊       | 356/1276 [18:16<41:54,  2.73s/it]12/08/2024 10:53:28 - INFO - __main__ -   Step: 356, LR: 1.4864646464646466e-05, Loss: 0.827682614326477
+ 28%|██▊       | 357/1276 [18:19<40:42,  2.66s/it]12/08/2024 10:53:31 - INFO - __main__ -   Step: 357, LR: 1.484848484848485e-05, Loss: 0.8581355810165405
+ 28%|██▊       | 358/1276 [18:22<42:53,  2.80s/it]12/08/2024 10:53:34 - INFO - __main__ -   Step: 358, LR: 1.4832323232323234e-05, Loss: 0.8334923386573792
+ 28%|██▊       | 359/1276 [18:25<45:39,  2.99s/it]12/08/2024 10:53:37 - INFO - __main__ -   Step: 359, LR: 1.4816161616161617e-05, Loss: 0.853553831577301
+ 28%|██▊       | 360/1276 [18:28<43:21,  2.84s/it]12/08/2024 10:53:40 - INFO - __main__ -   Step: 360, LR: 1.48e-05, Loss: 0.6867221593856812
+ 28%|██▊       | 361/1276 [18:31<43:52,  2.88s/it]12/08/2024 10:53:43 - INFO - __main__ -   Step: 361, LR: 1.4783838383838385e-05, Loss: 0.8786717653274536
+ 28%|██▊       | 362/1276 [18:34<43:58,  2.89s/it]12/08/2024 10:53:46 - INFO - __main__ -   Step: 362, LR: 1.4767676767676769e-05, Loss: 0.9654843211174011
+ 28%|██▊       | 363/1276 [18:37<44:53,  2.95s/it]12/08/2024 10:53:49 - INFO - __main__ -   Step: 363, LR: 1.4751515151515152e-05, Loss: 0.8944088816642761
+ 29%|██▊       | 364/1276 [18:40<45:17,  2.98s/it]12/08/2024 10:53:52 - INFO - __main__ -   Step: 364, LR: 1.4735353535353536e-05, Loss: 0.8203949928283691
+ 29%|██▊       | 365/1276 [18:43<44:28,  2.93s/it]12/08/2024 10:53:55 - INFO - __main__ -   Step: 365, LR: 1.471919191919192e-05, Loss: 0.8229694962501526
+ 29%|██▊       | 366/1276 [18:45<42:18,  2.79s/it]12/08/2024 10:53:57 - INFO - __main__ -   Step: 366, LR: 1.4703030303030303e-05, Loss: 0.8754807114601135
+ 29%|██▉       | 367/1276 [18:49<45:30,  3.00s/it]12/08/2024 10:54:01 - INFO - __main__ -   Step: 367, LR: 1.4686868686868687e-05, Loss: 0.7295454144477844
+ 29%|██▉       | 368/1276 [18:51<43:22,  2.87s/it]12/08/2024 10:54:03 - INFO - __main__ -   Step: 368, LR: 1.467070707070707e-05, Loss: 0.7919839024543762
+ 29%|██▉       | 369/1276 [18:54<42:20,  2.80s/it]12/08/2024 10:54:06 - INFO - __main__ -   Step: 369, LR: 1.4654545454545457e-05, Loss: 0.8028866052627563
+ 29%|██▉       | 370/1276 [18:57<42:22,  2.81s/it]12/08/2024 10:54:09 - INFO - __main__ -   Step: 370, LR: 1.463838383838384e-05, Loss: 0.8073210716247559
+ 29%|██▉       | 371/1276 [18:59<40:11,  2.66s/it]12/08/2024 10:54:11 - INFO - __main__ -   Step: 371, LR: 1.4622222222222225e-05, Loss: 0.932884931564331
+ 29%|██▉       | 372/1276 [19:01<39:14,  2.60s/it]12/08/2024 10:54:14 - INFO - __main__ -   Step: 372, LR: 1.4606060606060608e-05, Loss: 0.9320201873779297
+ 29%|██▉       | 373/1276 [19:04<39:53,  2.65s/it]12/08/2024 10:54:16 - INFO - __main__ -   Step: 373, LR: 1.4589898989898991e-05, Loss: 0.8709067106246948
+ 29%|██▉       | 374/1276 [19:07<41:14,  2.74s/it]12/08/2024 10:54:19 - INFO - __main__ -   Step: 374, LR: 1.4573737373737376e-05, Loss: 0.8410578370094299
+ 29%|██▉       | 375/1276 [19:10<42:52,  2.86s/it]12/08/2024 10:54:22 - INFO - __main__ -   Step: 375, LR: 1.4557575757575759e-05, Loss: 0.7351186871528625
+ 29%|██▉       | 376/1276 [19:13<44:22,  2.96s/it]12/08/2024 10:54:26 - INFO - __main__ -   Step: 376, LR: 1.4541414141414144e-05, Loss: 0.7412160634994507
+ 30%|██▉       | 377/1276 [19:17<45:16,  3.02s/it]12/08/2024 10:54:29 - INFO - __main__ -   Step: 377, LR: 1.4525252525252527e-05, Loss: 0.8980430364608765
+ 30%|██▉       | 378/1276 [19:19<43:44,  2.92s/it]12/08/2024 10:54:31 - INFO - __main__ -   Step: 378, LR: 1.450909090909091e-05, Loss: 0.78127121925354
+ 30%|██▉       | 379/1276 [19:22<43:33,  2.91s/it]12/08/2024 10:54:34 - INFO - __main__ -   Step: 379, LR: 1.4492929292929295e-05, Loss: 0.8561277389526367
+ 30%|██▉       | 380/1276 [19:25<42:57,  2.88s/it]12/08/2024 10:54:37 - INFO - __main__ -   Step: 380, LR: 1.4476767676767678e-05, Loss: 1.0953309535980225
+ 30%|██▉       | 381/1276 [19:28<44:03,  2.95s/it]12/08/2024 10:54:40 - INFO - __main__ -   Step: 381, LR: 1.4460606060606061e-05, Loss: 0.712099015712738
+ 30%|██▉       | 382/1276 [19:31<44:44,  3.00s/it]12/08/2024 10:54:43 - INFO - __main__ -   Step: 382, LR: 1.4444444444444446e-05, Loss: 0.7368901968002319
+ 30%|███       | 383/1276 [19:34<45:14,  3.04s/it]12/08/2024 10:54:47 - INFO - __main__ -   Step: 383, LR: 1.4428282828282829e-05, Loss: 0.9285292029380798
+ 30%|███       | 384/1276 [19:37<45:06,  3.03s/it]12/08/2024 10:54:50 - INFO - __main__ -   Step: 384, LR: 1.4412121212121212e-05, Loss: 0.8407071828842163
+ 30%|███       | 385/1276 [19:40<42:40,  2.87s/it]12/08/2024 10:54:52 - INFO - __main__ -   Step: 385, LR: 1.4395959595959597e-05, Loss: 0.8316633701324463
+ 30%|███       | 386/1276 [19:42<41:46,  2.82s/it]12/08/2024 10:54:55 - INFO - __main__ -   Step: 386, LR: 1.437979797979798e-05, Loss: 0.7343906164169312
+ 30%|███       | 387/1276 [19:46<43:13,  2.92s/it]12/08/2024 10:54:58 - INFO - __main__ -   Step: 387, LR: 1.4363636363636365e-05, Loss: 0.8194277286529541
+ 30%|███       | 388/1276 [19:49<43:00,  2.91s/it]12/08/2024 10:55:01 - INFO - __main__ -   Step: 388, LR: 1.4347474747474748e-05, Loss: 0.7346212267875671
+ 30%|███       | 389/1276 [19:51<40:56,  2.77s/it]12/08/2024 10:55:03 - INFO - __main__ -   Step: 389, LR: 1.4331313131313131e-05, Loss: 0.8053557276725769
+ 31%|███       | 390/1276 [19:54<43:24,  2.94s/it]12/08/2024 10:55:07 - INFO - __main__ -   Step: 390, LR: 1.4315151515151516e-05, Loss: 0.8118575811386108
+ 31%|███       | 391/1276 [19:57<42:16,  2.87s/it]12/08/2024 10:55:09 - INFO - __main__ -   Step: 391, LR: 1.42989898989899e-05, Loss: 0.7898860573768616
+ 31%|███       | 392/1276 [20:00<42:08,  2.86s/it]12/08/2024 10:55:12 - INFO - __main__ -   Step: 392, LR: 1.4282828282828285e-05, Loss: 0.8104366064071655
+ 31%|███       | 393/1276 [20:03<43:49,  2.98s/it]12/08/2024 10:55:15 - INFO - __main__ -   Step: 393, LR: 1.4266666666666668e-05, Loss: 0.8306871056556702
+ 31%|███       | 394/1276 [20:06<41:53,  2.85s/it]12/08/2024 10:55:18 - INFO - __main__ -   Step: 394, LR: 1.4250505050505053e-05, Loss: 0.6999253034591675
+ 31%|███       | 395/1276 [20:09<41:56,  2.86s/it]12/08/2024 10:55:21 - INFO - __main__ -   Step: 395, LR: 1.4234343434343436e-05, Loss: 0.8412990570068359
+ 31%|███       | 396/1276 [20:12<42:37,  2.91s/it]12/08/2024 10:55:24 - INFO - __main__ -   Step: 396, LR: 1.421818181818182e-05, Loss: 0.9357185959815979
+ 31%|███       | 397/1276 [20:14<42:35,  2.91s/it]12/08/2024 10:55:27 - INFO - __main__ -   Step: 397, LR: 1.4202020202020204e-05, Loss: 0.7709189057350159
+ 31%|███       | 398/1276 [20:17<40:37,  2.78s/it]12/08/2024 10:55:29 - INFO - __main__ -   Step: 398, LR: 1.4185858585858587e-05, Loss: 0.7476791143417358
+ 31%|███▏      | 399/1276 [20:20<42:06,  2.88s/it]12/08/2024 10:55:32 - INFO - __main__ -   Step: 399, LR: 1.416969696969697e-05, Loss: 0.9717791080474854
+ 31%|███▏      | 400/1276 [20:24<47:50,  3.28s/it]12/08/2024 10:55:37 - INFO - __main__ -   Step: 400, LR: 1.4153535353535355e-05, Loss: 0.7910251021385193
+12/08/2024 10:55:37 - INFO - __main__ - glob_checkpoints : ['./outputs/step-400', './outputs/step-200']
+12/08/2024 10:55:37 - INFO - __main__ - ordering_and_checkpoint_path: [(400, './outputs/step-400'), (200, './outputs/step-200')]
+12/08/2024 10:55:37 - INFO - __main__ - checkpoints_to_be_deleted:['./outputs/step-200']
+12/08/2024 10:55:37 - INFO - __main__ - Deleting older checkpoint [./outputs/step-200] due to args.save_total_limit
+12/08/2024 10:55:37 - INFO - accelerate.accelerator - Saving current state to ./outputs/step-400
+12/08/2024 10:55:37 - INFO - accelerate.accelerator - Saving DeepSpeed Model and Optimizer
+[2024-12-08 10:55:37,036] [INFO] [logging.py:128:log_dist] [Rank 0] [Torch] Checkpoint pytorch_model is about to be saved!
+[2024-12-08 10:55:37,069] [INFO] [logging.py:128:log_dist] [Rank 0] Saving model checkpoint: ./outputs/step-400/pytorch_model/mp_rank_00_model_states.pt
+[2024-12-08 10:55:37,069] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving ./outputs/step-400/pytorch_model/mp_rank_00_model_states.pt...
+[2024-12-08 10:55:53,289] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved ./outputs/step-400/pytorch_model/mp_rank_00_model_states.pt.
+[2024-12-08 10:55:53,294] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving ./outputs/step-400/pytorch_model/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt...
+[2024-12-08 10:55:53,294] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving ./outputs/step-400/pytorch_model/bf16_zero_pp_rank_7_mp_rank_00_optim_states.pt...
+[2024-12-08 10:55:53,294] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving ./outputs/step-400/pytorch_model/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt...
+[2024-12-08 10:55:53,294] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving ./outputs/step-400/pytorch_model/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt...
+[2024-12-08 10:55:53,294] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving ./outputs/step-400/pytorch_model/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt...
+[2024-12-08 10:55:53,294] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving ./outputs/step-400/pytorch_model/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt...
+[2024-12-08 10:55:53,294] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving ./outputs/step-400/pytorch_model/bf16_zero_pp_rank_6_mp_rank_00_optim_states.pt...
+[2024-12-08 10:55:53,294] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving ./outputs/step-400/pytorch_model/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt...
+[2024-12-08 10:56:10,146] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved ./outputs/step-400/pytorch_model/bf16_zero_pp_rank_7_mp_rank_00_optim_states.pt.
+[2024-12-08 10:56:10,146] [INFO] [engine.py:3536:_save_zero_checkpoint] zero checkpoint saved ./outputs/step-400/pytorch_model/bf16_zero_pp_rank_7_mp_rank_00_optim_states.pt
+[2024-12-08 10:56:10,146] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint pytorch_model is ready now!
+[2024-12-08 10:56:10,728] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved ./outputs/step-400/pytorch_model/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt.
+[2024-12-08 10:56:10,728] [INFO] [engine.py:3536:_save_zero_checkpoint] zero checkpoint saved ./outputs/step-400/pytorch_model/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt
+[2024-12-08 10:56:10,728] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint pytorch_model is ready now!
+[2024-12-08 10:56:10,898] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved ./outputs/step-400/pytorch_model/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt.
+[2024-12-08 10:56:10,898] [INFO] [engine.py:3536:_save_zero_checkpoint] zero checkpoint saved ./outputs/step-400/pytorch_model/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt
+[2024-12-08 10:56:10,899] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint pytorch_model is ready now!
+[2024-12-08 10:56:11,467] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved ./outputs/step-400/pytorch_model/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt.
+[2024-12-08 10:56:11,474] [INFO] [engine.py:3536:_save_zero_checkpoint] zero checkpoint saved ./outputs/step-400/pytorch_model/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt
+[2024-12-08 10:56:11,474] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint pytorch_model is ready now!
+[2024-12-08 10:56:11,634] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved ./outputs/step-400/pytorch_model/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt.
+[2024-12-08 10:56:11,634] [INFO] [engine.py:3536:_save_zero_checkpoint] zero checkpoint saved ./outputs/step-400/pytorch_model/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt
+[2024-12-08 10:56:11,634] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint pytorch_model is ready now!
+[2024-12-08 10:56:11,712] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved ./outputs/step-400/pytorch_model/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt.
+[2024-12-08 10:56:11,713] [INFO] [engine.py:3536:_save_zero_checkpoint] zero checkpoint saved ./outputs/step-400/pytorch_model/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt
+[2024-12-08 10:56:11,713] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint pytorch_model is ready now!
+[2024-12-08 10:56:11,827] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved ./outputs/step-400/pytorch_model/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt.
+[2024-12-08 10:56:11,827] [INFO] [engine.py:3536:_save_zero_checkpoint] zero checkpoint saved ./outputs/step-400/pytorch_model/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt
+[2024-12-08 10:56:11,827] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint pytorch_model is ready now!
+[2024-12-08 10:56:11,836] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved ./outputs/step-400/pytorch_model/bf16_zero_pp_rank_6_mp_rank_00_optim_states.pt.
+[2024-12-08 10:56:11,837] [INFO] [engine.py:3536:_save_zero_checkpoint] zero checkpoint saved ./outputs/step-400/pytorch_model/bf16_zero_pp_rank_6_mp_rank_00_optim_states.pt
+[2024-12-08 10:56:11,837] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint pytorch_model is ready now!
+12/08/2024 10:56:11 - INFO - accelerate.accelerator - DeepSpeed Model and Optimizer saved to output dir ./outputs/step-400/pytorch_model
+12/08/2024 10:56:11 - INFO - accelerate.checkpointing - Scheduler state saved in outputs/step-400/scheduler.bin
+12/08/2024 10:56:11 - INFO - accelerate.checkpointing - Sampler state for dataloader 0 saved in outputs/step-400/sampler.bin
+12/08/2024 10:56:11 - INFO - accelerate.checkpointing - Random states saved in outputs/step-400/random_states_0.pkl
+tokenizer config file saved in ./outputs/step-400/tokenizer_config.json
+Special tokens file saved in ./outputs/step-400/special_tokens_map.json
+ 31%|███▏      | 401/1276 [21:03<3:22:03, 13.86s/it]12/08/2024 10:56:15 - INFO - __main__ -   Step: 401, LR: 1.4137373737373738e-05, Loss: 1.0287771224975586
+ 32%|███▏      | 402/1276 [21:06<2:33:31, 10.54s/it]12/08/2024 10:56:18 - INFO - __main__ -   Step: 402, LR: 1.4121212121212121e-05, Loss: 0.8458236455917358
+ 32%|███▏      | 403/1276 [21:09<2:01:18,  8.34s/it]12/08/2024 10:56:21 - INFO - __main__ -   Step: 403, LR: 1.4105050505050506e-05, Loss: 0.994708240032196
+ 32%|███▏      | 404/1276 [21:12<1:36:58,  6.67s/it]12/08/2024 10:56:24 - INFO - __main__ -   Step: 404, LR: 1.408888888888889e-05, Loss: 0.7969186305999756
+ 32%|███▏      | 405/1276 [21:15<1:24:38,  5.83s/it]12/08/2024 10:56:28 - INFO - __main__ -   Step: 405, LR: 1.4072727272727274e-05, Loss: 0.834604024887085
+ 32%|███▏      | 406/1276 [21:19<1:14:35,  5.14s/it]12/08/2024 10:56:31 - INFO - __main__ -   Step: 406, LR: 1.4056565656565657e-05, Loss: 0.8035933971405029
+ 32%|███▏      | 407/1276 [21:22<1:05:26,  4.52s/it]12/08/2024 10:56:34 - INFO - __main__ -   Step: 407, LR: 1.404040404040404e-05, Loss: 0.6904107332229614
+ 32%|███▏      | 408/1276 [21:25<58:18,  4.03s/it]  12/08/2024 10:56:37 - INFO - __main__ -   Step: 408, LR: 1.4024242424242425e-05, Loss: 0.6302096843719482
+ 32%|███▏      | 409/1276 [21:28<54:43,  3.79s/it]12/08/2024 10:56:40 - INFO - __main__ -   Step: 409, LR: 1.4008080808080808e-05, Loss: 0.6932103633880615
+ 32%|███▏      | 410/1276 [21:31<51:07,  3.54s/it]12/08/2024 10:56:43 - INFO - __main__ -   Step: 410, LR: 1.3991919191919191e-05, Loss: 0.6989542245864868
+ 32%|███▏      | 411/1276 [21:34<46:34,  3.23s/it]12/08/2024 10:56:46 - INFO - __main__ -   Step: 411, LR: 1.3975757575757576e-05, Loss: 0.8119721412658691
+ 32%|███▏      | 412/1276 [21:37<44:57,  3.12s/it]12/08/2024 10:56:49 - INFO - __main__ -   Step: 412, LR: 1.3959595959595963e-05, Loss: 0.9053016304969788
+ 32%|███▏      | 413/1276 [21:39<43:33,  3.03s/it]12/08/2024 10:56:52 - INFO - __main__ -   Step: 413, LR: 1.3943434343434346e-05, Loss: 0.8213948011398315
+ 32%|███▏      | 414/1276 [21:43<45:42,  3.18s/it]12/08/2024 10:56:55 - INFO - __main__ -   Step: 414, LR: 1.3927272727272729e-05, Loss: 0.8968361616134644
+ 33%|███▎      | 415/1276 [21:46<43:27,  3.03s/it]12/08/2024 10:56:58 - INFO - __main__ -   Step: 415, LR: 1.3911111111111114e-05, Loss: 0.9314883351325989
+ 33%|███▎      | 416/1276 [21:49<43:30,  3.04s/it]12/08/2024 10:57:01 - INFO - __main__ -   Step: 416, LR: 1.3894949494949497e-05, Loss: 0.829768180847168
+ 33%|███▎      | 417/1276 [21:51<41:38,  2.91s/it]12/08/2024 10:57:03 - INFO - __main__ -   Step: 417, LR: 1.387878787878788e-05, Loss: 0.9008453488349915
+ 33%|███▎      | 418/1276 [21:54<39:41,  2.78s/it]12/08/2024 10:57:06 - INFO - __main__ -   Step: 418, LR: 1.3862626262626265e-05, Loss: 0.764258623123169
+ 33%|███▎      | 419/1276 [21:57<40:20,  2.82s/it]12/08/2024 10:57:09 - INFO - __main__ -   Step: 419, LR: 1.3846464646464648e-05, Loss: 0.8553074598312378
+ 33%|███▎      | 420/1276 [21:59<40:31,  2.84s/it]12/08/2024 10:57:12 - INFO - __main__ -   Step: 420, LR: 1.383030303030303e-05, Loss: 0.8329228758811951
+ 33%|███▎      | 421/1276 [22:02<38:03,  2.67s/it]12/08/2024 10:57:14 - INFO - __main__ -   Step: 421, LR: 1.3814141414141416e-05, Loss: 0.8315359950065613
+ 33%|███▎      | 422/1276 [22:05<39:38,  2.79s/it]12/08/2024 10:57:17 - INFO - __main__ -   Step: 422, LR: 1.3797979797979799e-05, Loss: 0.7156214714050293
+ 33%|███▎      | 423/1276 [22:08<40:36,  2.86s/it]12/08/2024 10:57:20 - INFO - __main__ -   Step: 423, LR: 1.3781818181818184e-05, Loss: 0.8472120761871338
+ 33%|███▎      | 424/1276 [22:11<41:04,  2.89s/it]12/08/2024 10:57:23 - INFO - __main__ -   Step: 424, LR: 1.3765656565656567e-05, Loss: 0.7185412645339966
+ 33%|███▎      | 425/1276 [22:14<40:56,  2.89s/it]12/08/2024 10:57:26 - INFO - __main__ -   Step: 425, LR: 1.374949494949495e-05, Loss: 0.7677979469299316
+ 33%|███▎      | 426/1276 [22:17<42:54,  3.03s/it]12/08/2024 10:57:29 - INFO - __main__ -   Step: 426, LR: 1.3733333333333335e-05, Loss: 0.7464369535446167
+ 33%|███▎      | 427/1276 [22:20<40:46,  2.88s/it]12/08/2024 10:57:32 - INFO - __main__ -   Step: 427, LR: 1.3717171717171718e-05, Loss: 0.9469590187072754
+ 34%|███▎      | 428/1276 [22:22<39:30,  2.80s/it]12/08/2024 10:57:34 - INFO - __main__ -   Step: 428, LR: 1.37010101010101e-05, Loss: 0.8592889308929443
+ 34%|███▎      | 429/1276 [22:25<37:49,  2.68s/it]12/08/2024 10:57:37 - INFO - __main__ -   Step: 429, LR: 1.3684848484848486e-05, Loss: 0.8753585815429688
+ 34%|███▎      | 430/1276 [22:27<38:01,  2.70s/it]12/08/2024 10:57:40 - INFO - __main__ -   Step: 430, LR: 1.3668686868686869e-05, Loss: 0.8153133988380432
+ 34%|███▍      | 431/1276 [22:30<38:04,  2.70s/it]12/08/2024 10:57:42 - INFO - __main__ -   Step: 431, LR: 1.3652525252525253e-05, Loss: 0.9985285997390747
+ 34%|███▍      | 432/1276 [22:33<38:26,  2.73s/it]12/08/2024 10:57:45 - INFO - __main__ -   Step: 432, LR: 1.3636363636363637e-05, Loss: 0.8444529175758362
+ 34%|███▍      | 433/1276 [22:36<38:36,  2.75s/it]12/08/2024 10:57:48 - INFO - __main__ -   Step: 433, LR: 1.3620202020202023e-05, Loss: 0.8539495468139648
+ 34%|███▍      | 434/1276 [22:39<39:42,  2.83s/it]12/08/2024 10:57:51 - INFO - __main__ -   Step: 434, LR: 1.3604040404040406e-05, Loss: 0.7848765850067139
+ 34%|███▍      | 435/1276 [22:41<39:28,  2.82s/it]12/08/2024 10:57:54 - INFO - __main__ -   Step: 435, LR: 1.358787878787879e-05, Loss: 0.7554413080215454
+ 34%|███▍      | 436/1276 [22:44<37:56,  2.71s/it]12/08/2024 10:57:56 - INFO - __main__ -   Step: 436, LR: 1.3571717171717174e-05, Loss: 0.906798779964447
+ 34%|███▍      | 437/1276 [22:47<38:03,  2.72s/it]12/08/2024 10:57:59 - INFO - __main__ -   Step: 437, LR: 1.3555555555555557e-05, Loss: 0.8815565705299377
+ 34%|███▍      | 438/1276 [22:50<41:31,  2.97s/it]12/08/2024 10:58:02 - INFO - __main__ -   Step: 438, LR: 1.353939393939394e-05, Loss: 0.9227303266525269
+ 34%|███▍      | 439/1276 [22:53<39:30,  2.83s/it]12/08/2024 10:58:05 - INFO - __main__ -   Step: 439, LR: 1.3523232323232325e-05, Loss: 0.8119332194328308
+ 34%|███▍      | 440/1276 [22:56<40:55,  2.94s/it]12/08/2024 10:58:08 - INFO - __main__ -   Step: 440, LR: 1.3507070707070708e-05, Loss: 0.7745198607444763
+ 35%|███▍      | 441/1276 [22:58<38:00,  2.73s/it]12/08/2024 10:58:10 - INFO - __main__ -   Step: 441, LR: 1.3490909090909093e-05, Loss: 0.8527434468269348
+ 35%|███▍      | 442/1276 [23:02<43:29,  3.13s/it]12/08/2024 10:58:14 - INFO - __main__ -   Step: 442, LR: 1.3474747474747476e-05, Loss: 0.8402745723724365
+ 35%|███▍      | 443/1276 [23:06<45:16,  3.26s/it]12/08/2024 10:58:18 - INFO - __main__ -   Step: 443, LR: 1.345858585858586e-05, Loss: 0.7091755867004395
+ 35%|███▍      | 444/1276 [23:09<43:57,  3.17s/it]12/08/2024 10:58:21 - INFO - __main__ -   Step: 444, LR: 1.3442424242424244e-05, Loss: 0.7239550352096558
+ 35%|███▍      | 445/1276 [23:12<43:32,  3.14s/it]12/08/2024 10:58:24 - INFO - __main__ -   Step: 445, LR: 1.3426262626262627e-05, Loss: 0.7317517995834351
+ 35%|███▍      | 446/1276 [23:15<43:31,  3.15s/it]12/08/2024 10:58:27 - INFO - __main__ -   Step: 446, LR: 1.341010101010101e-05, Loss: 0.7652750015258789
+ 35%|███▌      | 447/1276 [23:18<41:13,  2.98s/it]12/08/2024 10:58:30 - INFO - __main__ -   Step: 447, LR: 1.3393939393939395e-05, Loss: 0.7712677121162415
+ 35%|███▌      | 448/1276 [23:20<38:47,  2.81s/it]12/08/2024 10:58:32 - INFO - __main__ -   Step: 448, LR: 1.3377777777777778e-05, Loss: 0.7459384202957153
+ 35%|███▌      | 449/1276 [23:23<40:27,  2.94s/it]12/08/2024 10:58:35 - INFO - __main__ -   Step: 449, LR: 1.3361616161616163e-05, Loss: 0.9296982288360596
+ 35%|███▌      | 450/1276 [23:26<40:48,  2.96s/it]12/08/2024 10:58:38 - INFO - __main__ -   Step: 450, LR: 1.3345454545454546e-05, Loss: 0.891196072101593
+ 35%|███▌      | 451/1276 [23:29<39:49,  2.90s/it]12/08/2024 10:58:41 - INFO - __main__ -   Step: 451, LR: 1.3329292929292929e-05, Loss: 0.707349956035614
+ 35%|███▌      | 452/1276 [23:32<38:41,  2.82s/it]12/08/2024 10:58:44 - INFO - __main__ -   Step: 452, LR: 1.3313131313131314e-05, Loss: 0.7308467030525208
+ 36%|███▌      | 453/1276 [23:35<40:43,  2.97s/it]12/08/2024 10:58:47 - INFO - __main__ -   Step: 453, LR: 1.3296969696969697e-05, Loss: 0.8790073394775391
+ 36%|███▌      | 454/1276 [23:37<38:33,  2.81s/it]12/08/2024 10:58:50 - INFO - __main__ -   Step: 454, LR: 1.328080808080808e-05, Loss: 0.9416913986206055
+ 36%|███▌      | 455/1276 [23:40<38:33,  2.82s/it]12/08/2024 10:58:52 - INFO - __main__ -   Step: 455, LR: 1.3264646464646467e-05, Loss: 0.8407942056655884
+ 36%|███▌      | 456/1276 [23:44<40:51,  2.99s/it]12/08/2024 10:58:56 - INFO - __main__ -   Step: 456, LR: 1.324848484848485e-05, Loss: 0.6790935397148132
+ 36%|███▌      | 457/1276 [23:46<39:49,  2.92s/it]12/08/2024 10:58:59 - INFO - __main__ -   Step: 457, LR: 1.3232323232323234e-05, Loss: 0.8556472063064575
+ 36%|███▌      | 458/1276 [23:49<40:32,  2.97s/it]12/08/2024 10:59:02 - INFO - __main__ -   Step: 458, LR: 1.3216161616161618e-05, Loss: 0.7978744506835938
+ 36%|███▌      | 459/1276 [23:53<43:17,  3.18s/it]12/08/2024 10:59:05 - INFO - __main__ -   Step: 459, LR: 1.3200000000000002e-05, Loss: 0.8260941505432129
+ 36%|███▌      | 460/1276 [23:56<40:55,  3.01s/it]12/08/2024 10:59:08 - INFO - __main__ -   Step: 460, LR: 1.3183838383838385e-05, Loss: 0.7707252502441406
+ 36%|███▌      | 461/1276 [23:59<42:13,  3.11s/it]12/08/2024 10:59:11 - INFO - __main__ -   Step: 461, LR: 1.3167676767676769e-05, Loss: 0.7067828178405762
+ 36%|███▌      | 462/1276 [24:02<43:14,  3.19s/it]12/08/2024 10:59:15 - INFO - __main__ -   Step: 462, LR: 1.3151515151515153e-05, Loss: 0.6641478538513184
+ 36%|███▋      | 463/1276 [24:05<40:48,  3.01s/it]12/08/2024 10:59:17 - INFO - __main__ -   Step: 463, LR: 1.3135353535353536e-05, Loss: 0.928881049156189
+ 36%|███▋      | 464/1276 [24:08<41:12,  3.05s/it]12/08/2024 10:59:20 - INFO - __main__ -   Step: 464, LR: 1.311919191919192e-05, Loss: 0.7919225692749023
+ 36%|███▋      | 465/1276 [24:11<40:24,  2.99s/it]12/08/2024 10:59:23 - INFO - __main__ -   Step: 465, LR: 1.3103030303030304e-05, Loss: 0.675861656665802
+ 37%|███▋      | 466/1276 [24:14<40:56,  3.03s/it]12/08/2024 10:59:26 - INFO - __main__ -   Step: 466, LR: 1.3086868686868687e-05, Loss: 0.8015304803848267
+ 37%|███▋      | 467/1276 [24:18<43:11,  3.20s/it]12/08/2024 10:59:30 - INFO - __main__ -   Step: 467, LR: 1.3070707070707072e-05, Loss: 0.8042705655097961
+ 37%|███▋      | 468/1276 [24:21<42:54,  3.19s/it]12/08/2024 10:59:33 - INFO - __main__ -   Step: 468, LR: 1.3054545454545455e-05, Loss: 0.9149304032325745
+ 37%|███▋      | 469/1276 [24:23<39:34,  2.94s/it]12/08/2024 10:59:36 - INFO - __main__ -   Step: 469, LR: 1.3038383838383838e-05, Loss: 0.7840702533721924
+ 37%|███▋      | 470/1276 [24:26<37:43,  2.81s/it]12/08/2024 10:59:38 - INFO - __main__ -   Step: 470, LR: 1.3022222222222223e-05, Loss: 0.937152624130249
+ 37%|███▋      | 471/1276 [24:28<35:03,  2.61s/it]12/08/2024 10:59:40 - INFO - __main__ -   Step: 471, LR: 1.3006060606060606e-05, Loss: 0.8662774562835693
+ 37%|███▋      | 472/1276 [24:31<36:37,  2.73s/it]12/08/2024 10:59:43 - INFO - __main__ -   Step: 472, LR: 1.298989898989899e-05, Loss: 0.7844725251197815
+ 37%|███▋      | 473/1276 [24:34<37:41,  2.82s/it]12/08/2024 10:59:46 - INFO - __main__ -   Step: 473, LR: 1.2973737373737374e-05, Loss: 0.8727059364318848
+ 37%|███▋      | 474/1276 [24:37<40:14,  3.01s/it]12/08/2024 10:59:50 - INFO - __main__ -   Step: 474, LR: 1.2957575757575757e-05, Loss: 0.8408013582229614
+ 37%|███▋      | 475/1276 [24:40<39:32,  2.96s/it]12/08/2024 10:59:53 - INFO - __main__ -   Step: 475, LR: 1.2941414141414142e-05, Loss: 0.7897398471832275
+ 37%|███▋      | 476/1276 [24:43<39:36,  2.97s/it]12/08/2024 10:59:55 - INFO - __main__ -   Step: 476, LR: 1.2925252525252527e-05, Loss: 0.6989301443099976
+ 37%|███▋      | 477/1276 [24:46<38:42,  2.91s/it]12/08/2024 10:59:58 - INFO - __main__ -   Step: 477, LR: 1.2909090909090912e-05, Loss: 0.8039162158966064
+ 37%|███▋      | 478/1276 [24:49<38:31,  2.90s/it]12/08/2024 11:00:01 - INFO - __main__ -   Step: 478, LR: 1.2892929292929295e-05, Loss: 0.7486562728881836
+ 38%|███▊      | 479/1276 [24:51<36:47,  2.77s/it]12/08/2024 11:00:04 - INFO - __main__ -   Step: 479, LR: 1.2876767676767678e-05, Loss: 0.6804138422012329
+ 38%|███▊      | 480/1276 [24:55<39:33,  2.98s/it]12/08/2024 11:00:07 - INFO - __main__ -   Step: 480, LR: 1.2860606060606063e-05, Loss: 0.7371626496315002
+ 38%|███▊      | 481/1276 [24:58<39:43,  3.00s/it]12/08/2024 11:00:10 - INFO - __main__ -   Step: 481, LR: 1.2844444444444446e-05, Loss: 0.7399950623512268
+ 38%|███▊      | 482/1276 [25:01<40:42,  3.08s/it]12/08/2024 11:00:13 - INFO - __main__ -   Step: 482, LR: 1.2828282828282829e-05, Loss: 0.7362609505653381
+ 38%|███▊      | 483/1276 [25:04<40:17,  3.05s/it]12/08/2024 11:00:16 - INFO - __main__ -   Step: 483, LR: 1.2812121212121214e-05, Loss: 0.7443316578865051
+ 38%|███▊      | 484/1276 [25:08<43:22,  3.29s/it]12/08/2024 11:00:20 - INFO - __main__ -   Step: 484, LR: 1.2795959595959597e-05, Loss: 0.846100926399231
+ 38%|███▊      | 485/1276 [25:11<41:50,  3.17s/it]12/08/2024 11:00:23 - INFO - __main__ -   Step: 485, LR: 1.2779797979797982e-05, Loss: 0.8091671466827393
+ 38%|███▊      | 486/1276 [25:14<42:22,  3.22s/it]12/08/2024 11:00:26 - INFO - __main__ -   Step: 486, LR: 1.2763636363636365e-05, Loss: 0.8966336846351624
+ 38%|███▊      | 487/1276 [25:17<41:41,  3.17s/it]12/08/2024 11:00:29 - INFO - __main__ -   Step: 487, LR: 1.2747474747474748e-05, Loss: 0.8719313144683838
+ 38%|███▊      | 488/1276 [25:20<41:22,  3.15s/it]12/08/2024 11:00:33 - INFO - __main__ -   Step: 488, LR: 1.2731313131313133e-05, Loss: 0.6551340818405151
+ 38%|███▊      | 489/1276 [25:24<41:57,  3.20s/it]12/08/2024 11:00:36 - INFO - __main__ -   Step: 489, LR: 1.2715151515151516e-05, Loss: 0.8016197681427002
+ 38%|███▊      | 490/1276 [25:26<38:57,  2.97s/it]12/08/2024 11:00:38 - INFO - __main__ -   Step: 490, LR: 1.2698989898989899e-05, Loss: 0.8162338733673096
+ 38%|███▊      | 491/1276 [25:30<41:31,  3.17s/it]12/08/2024 11:00:42 - INFO - __main__ -   Step: 491, LR: 1.2682828282828284e-05, Loss: 0.6250972151756287
+ 39%|███▊      | 492/1276 [25:33<42:48,  3.28s/it]12/08/2024 11:00:46 - INFO - __main__ -   Step: 492, LR: 1.2666666666666667e-05, Loss: 0.7191630601882935
+ 39%|███▊      | 493/1276 [25:36<41:39,  3.19s/it]12/08/2024 11:00:49 - INFO - __main__ -   Step: 493, LR: 1.2650505050505052e-05, Loss: 0.8036453723907471
+ 39%|███▊      | 494/1276 [25:39<39:42,  3.05s/it]12/08/2024 11:00:51 - INFO - __main__ -   Step: 494, LR: 1.2634343434343435e-05, Loss: 0.6301214098930359
+ 39%|███▉      | 495/1276 [25:42<38:08,  2.93s/it]12/08/2024 11:00:54 - INFO - __main__ -   Step: 495, LR: 1.2618181818181818e-05, Loss: 0.8527093529701233
+ 39%|███▉      | 496/1276 [25:45<38:11,  2.94s/it]12/08/2024 11:00:57 - INFO - __main__ -   Step: 496, LR: 1.2602020202020203e-05, Loss: 0.8453783988952637
+ 39%|███▉      | 497/1276 [25:48<38:55,  3.00s/it]12/08/2024 11:01:00 - INFO - __main__ -   Step: 497, LR: 1.2585858585858587e-05, Loss: 0.9025464057922363
+ 39%|███▉      | 498/1276 [25:51<39:39,  3.06s/it]12/08/2024 11:01:03 - INFO - __main__ -   Step: 498, LR: 1.2569696969696972e-05, Loss: 0.90735924243927
+ 39%|███▉      | 499/1276 [25:54<41:20,  3.19s/it]12/08/2024 11:01:07 - INFO - __main__ -   Step: 499, LR: 1.2553535353535355e-05, Loss: 0.812705397605896
+ 39%|███▉      | 500/1276 [25:57<39:47,  3.08s/it]12/08/2024 11:01:09 - INFO - __main__ -   Step: 500, LR: 1.2537373737373738e-05, Loss: 0.9284019470214844
+ 39%|███▉      | 501/1276 [26:00<39:58,  3.09s/it]12/08/2024 11:01:13 - INFO - __main__ -   Step: 501, LR: 1.2521212121212123e-05, Loss: 0.8574110865592957
+ 39%|███▉      | 502/1276 [26:03<38:02,  2.95s/it]12/08/2024 11:01:15 - INFO - __main__ -   Step: 502, LR: 1.2505050505050506e-05, Loss: 0.7874361276626587
+ 39%|███▉      | 503/1276 [26:06<38:27,  2.99s/it]12/08/2024 11:01:18 - INFO - __main__ -   Step: 503, LR: 1.2488888888888891e-05, Loss: 0.8136489391326904
+ 39%|███▉      | 504/1276 [26:09<37:08,  2.89s/it]12/08/2024 11:01:21 - INFO - __main__ -   Step: 504, LR: 1.2472727272727274e-05, Loss: 0.7075254917144775
+ 40%|███▉      | 505/1276 [26:12<37:37,  2.93s/it]12/08/2024 11:01:24 - INFO - __main__ -   Step: 505, LR: 1.2456565656565657e-05, Loss: 0.6955983638763428
+ 40%|███▉      | 506/1276 [26:15<38:33,  3.00s/it]12/08/2024 11:01:27 - INFO - __main__ -   Step: 506, LR: 1.2440404040404042e-05, Loss: 0.7613925933837891
+ 40%|███▉      | 507/1276 [26:18<37:36,  2.93s/it]12/08/2024 11:01:30 - INFO - __main__ -   Step: 507, LR: 1.2424242424242425e-05, Loss: 0.8731417059898376
+ 40%|███▉      | 508/1276 [26:21<37:45,  2.95s/it]12/08/2024 11:01:33 - INFO - __main__ -   Step: 508, LR: 1.2408080808080808e-05, Loss: 0.6711784601211548
+ 40%|███▉      | 509/1276 [26:23<36:11,  2.83s/it]12/08/2024 11:01:35 - INFO - __main__ -   Step: 509, LR: 1.2391919191919193e-05, Loss: 1.0378880500793457
+ 40%|███▉      | 510/1276 [26:26<36:19,  2.85s/it]12/08/2024 11:01:38 - INFO - __main__ -   Step: 510, LR: 1.2375757575757576e-05, Loss: 0.8499528169631958
+ 40%|████      | 511/1276 [26:29<36:57,  2.90s/it]12/08/2024 11:01:41 - INFO - __main__ -   Step: 511, LR: 1.2359595959595961e-05, Loss: 0.8908388614654541
+ 40%|████      | 512/1276 [26:32<37:42,  2.96s/it]12/08/2024 11:01:44 - INFO - __main__ -   Step: 512, LR: 1.2343434343434344e-05, Loss: 0.8844426870346069
+ 40%|████      | 513/1276 [26:35<38:15,  3.01s/it]12/08/2024 11:01:48 - INFO - __main__ -   Step: 513, LR: 1.2327272727272727e-05, Loss: 0.8084639310836792
+ 40%|████      | 514/1276 [26:39<38:48,  3.06s/it]12/08/2024 11:01:51 - INFO - __main__ -   Step: 514, LR: 1.2311111111111112e-05, Loss: 0.5721831321716309
+ 40%|████      | 515/1276 [26:41<38:01,  3.00s/it]12/08/2024 11:01:54 - INFO - __main__ -   Step: 515, LR: 1.2294949494949495e-05, Loss: 0.9525127410888672
+ 40%|████      | 516/1276 [26:45<39:41,  3.13s/it]12/08/2024 11:01:57 - INFO - __main__ -   Step: 516, LR: 1.2278787878787878e-05, Loss: 0.7591429948806763
+ 41%|████      | 517/1276 [26:48<40:41,  3.22s/it]12/08/2024 11:02:00 - INFO - __main__ -   Step: 517, LR: 1.2262626262626263e-05, Loss: 0.8465419411659241
+ 41%|████      | 518/1276 [26:51<38:19,  3.03s/it]12/08/2024 11:02:03 - INFO - __main__ -   Step: 518, LR: 1.2246464646464646e-05, Loss: 0.850156307220459
+ 41%|████      | 519/1276 [26:54<38:56,  3.09s/it]12/08/2024 11:02:06 - INFO - __main__ -   Step: 519, LR: 1.2230303030303033e-05, Loss: 0.7983838319778442
+ 41%|████      | 520/1276 [26:58<40:32,  3.22s/it]12/08/2024 11:02:10 - INFO - __main__ -   Step: 520, LR: 1.2214141414141416e-05, Loss: 0.7046875357627869
+ 41%|████      | 521/1276 [27:00<37:46,  3.00s/it]12/08/2024 11:02:12 - INFO - __main__ -   Step: 521, LR: 1.21979797979798e-05, Loss: 0.7902469635009766
+ 41%|████      | 522/1276 [27:03<37:05,  2.95s/it]12/08/2024 11:02:15 - INFO - __main__ -   Step: 522, LR: 1.2181818181818184e-05, Loss: 0.7384559512138367
+ 41%|████      | 523/1276 [27:06<36:42,  2.93s/it]12/08/2024 11:02:18 - INFO - __main__ -   Step: 523, LR: 1.2165656565656567e-05, Loss: 0.7322360873222351
+ 41%|████      | 524/1276 [27:09<38:36,  3.08s/it]12/08/2024 11:02:21 - INFO - __main__ -   Step: 524, LR: 1.2149494949494952e-05, Loss: 0.5844027996063232
+ 41%|████      | 525/1276 [27:12<37:08,  2.97s/it]12/08/2024 11:02:24 - INFO - __main__ -   Step: 525, LR: 1.2133333333333335e-05, Loss: 0.9141421914100647
+ 41%|████      | 526/1276 [27:14<34:21,  2.75s/it]12/08/2024 11:02:26 - INFO - __main__ -   Step: 526, LR: 1.2117171717171718e-05, Loss: 0.7990864515304565
+ 41%|████▏     | 527/1276 [27:17<35:16,  2.83s/it]12/08/2024 11:02:29 - INFO - __main__ -   Step: 527, LR: 1.2101010101010103e-05, Loss: 0.7237607836723328
+ 41%|████▏     | 528/1276 [27:20<36:50,  2.96s/it]12/08/2024 11:02:33 - INFO - __main__ -   Step: 528, LR: 1.2084848484848486e-05, Loss: 0.8620797395706177
+ 41%|████▏     | 529/1276 [27:23<35:53,  2.88s/it]12/08/2024 11:02:35 - INFO - __main__ -   Step: 529, LR: 1.206868686868687e-05, Loss: 0.8558881878852844
+ 42%|████▏     | 530/1276 [27:26<35:47,  2.88s/it]12/08/2024 11:02:38 - INFO - __main__ -   Step: 530, LR: 1.2052525252525254e-05, Loss: 0.9289509057998657
+ 42%|████▏     | 531/1276 [27:30<39:22,  3.17s/it]12/08/2024 11:02:42 - INFO - __main__ -   Step: 531, LR: 1.2036363636363637e-05, Loss: 1.0189236402511597
+ 42%|████▏     | 532/1276 [27:33<38:38,  3.12s/it]12/08/2024 11:02:45 - INFO - __main__ -   Step: 532, LR: 1.2020202020202021e-05, Loss: 0.7986557483673096
+ 42%|████▏     | 533/1276 [27:36<37:29,  3.03s/it]12/08/2024 11:02:48 - INFO - __main__ -   Step: 533, LR: 1.2004040404040405e-05, Loss: 0.6998534202575684
+ 42%|████▏     | 534/1276 [27:39<37:56,  3.07s/it]12/08/2024 11:02:51 - INFO - __main__ -   Step: 534, LR: 1.1987878787878788e-05, Loss: 0.8288536071777344
+ 42%|████▏     | 535/1276 [27:41<35:30,  2.88s/it]12/08/2024 11:02:54 - INFO - __main__ -   Step: 535, LR: 1.1971717171717172e-05, Loss: 0.68195641040802
+ 42%|████▏     | 536/1276 [27:44<35:20,  2.87s/it]12/08/2024 11:02:56 - INFO - __main__ -   Step: 536, LR: 1.1955555555555556e-05, Loss: 0.6818104386329651
+ 42%|████▏     | 537/1276 [27:47<34:23,  2.79s/it]12/08/2024 11:02:59 - INFO - __main__ -   Step: 537, LR: 1.193939393939394e-05, Loss: 0.7666102647781372
+ 42%|████▏     | 538/1276 [27:50<37:21,  3.04s/it]12/08/2024 11:03:03 - INFO - __main__ -   Step: 538, LR: 1.1923232323232323e-05, Loss: 0.7369862198829651
+ 42%|████▏     | 539/1276 [27:54<38:15,  3.12s/it]12/08/2024 11:03:06 - INFO - __main__ -   Step: 539, LR: 1.1907070707070707e-05, Loss: 0.7655214071273804
+ 42%|████▏     | 540/1276 [27:56<36:34,  2.98s/it]12/08/2024 11:03:09 - INFO - __main__ -   Step: 540, LR: 1.1890909090909093e-05, Loss: 0.849838376045227
+ 42%|████▏     | 541/1276 [27:59<34:31,  2.82s/it]12/08/2024 11:03:11 - INFO - __main__ -   Step: 541, LR: 1.1874747474747476e-05, Loss: 0.8621495366096497
+ 42%|████▏     | 542/1276 [28:02<35:14,  2.88s/it]12/08/2024 11:03:14 - INFO - __main__ -   Step: 542, LR: 1.1858585858585861e-05, Loss: 0.8515808582305908
+ 43%|████▎     | 543/1276 [28:05<35:32,  2.91s/it]12/08/2024 11:03:17 - INFO - __main__ -   Step: 543, LR: 1.1842424242424244e-05, Loss: 0.8374283313751221
+ 43%|████▎     | 544/1276 [28:08<35:06,  2.88s/it]12/08/2024 11:03:20 - INFO - __main__ -   Step: 544, LR: 1.1826262626262627e-05, Loss: 0.8829081058502197
+ 43%|████▎     | 545/1276 [28:10<35:01,  2.88s/it]12/08/2024 11:03:23 - INFO - __main__ -   Step: 545, LR: 1.1810101010101012e-05, Loss: 0.8653848171234131
+ 43%|████▎     | 546/1276 [28:14<37:56,  3.12s/it]12/08/2024 11:03:26 - INFO - __main__ -   Step: 546, LR: 1.1793939393939395e-05, Loss: 0.8563214540481567
+ 43%|████▎     | 547/1276 [28:19<43:56,  3.62s/it]12/08/2024 11:03:31 - INFO - __main__ -   Step: 547, LR: 1.177777777777778e-05, Loss: 0.7977154850959778
+ 43%|████▎     | 548/1276 [28:22<40:32,  3.34s/it]12/08/2024 11:03:34 - INFO - __main__ -   Step: 548, LR: 1.1761616161616163e-05, Loss: 0.980191171169281
+ 43%|████▎     | 549/1276 [28:24<38:06,  3.14s/it]12/08/2024 11:03:37 - INFO - __main__ -   Step: 549, LR: 1.1745454545454546e-05, Loss: 0.8594228029251099
+ 43%|████▎     | 550/1276 [28:27<37:05,  3.06s/it]12/08/2024 11:03:39 - INFO - __main__ -   Step: 550, LR: 1.172929292929293e-05, Loss: 0.8454720973968506
+ 43%|████▎     | 551/1276 [28:30<36:51,  3.05s/it]12/08/2024 11:03:42 - INFO - __main__ -   Step: 551, LR: 1.1713131313131314e-05, Loss: 0.8794143199920654
+ 43%|████▎     | 552/1276 [28:33<37:21,  3.10s/it]12/08/2024 11:03:46 - INFO - __main__ -   Step: 552, LR: 1.1696969696969697e-05, Loss: 0.8006432056427002
+ 43%|████▎     | 553/1276 [28:36<37:17,  3.10s/it]12/08/2024 11:03:49 - INFO - __main__ -   Step: 553, LR: 1.1680808080808082e-05, Loss: 0.7153581380844116
+ 43%|████▎     | 554/1276 [28:39<35:28,  2.95s/it]12/08/2024 11:03:51 - INFO - __main__ -   Step: 554, LR: 1.1664646464646465e-05, Loss: 0.7230664491653442
+ 43%|████▎     | 555/1276 [28:42<35:27,  2.95s/it]12/08/2024 11:03:54 - INFO - __main__ -   Step: 555, LR: 1.164848484848485e-05, Loss: 0.7944289445877075
+ 44%|████▎     | 556/1276 [28:45<37:00,  3.08s/it]12/08/2024 11:03:58 - INFO - __main__ -   Step: 556, LR: 1.1632323232323233e-05, Loss: 0.6942721009254456
+ 44%|████▎     | 557/1276 [28:48<36:06,  3.01s/it]12/08/2024 11:04:00 - INFO - __main__ -   Step: 557, LR: 1.1616161616161616e-05, Loss: 0.9362027645111084
+ 44%|████▎     | 558/1276 [28:52<37:26,  3.13s/it]12/08/2024 11:04:04 - INFO - __main__ -   Step: 558, LR: 1.16e-05, Loss: 0.8437848687171936
+ 44%|████▍     | 559/1276 [28:54<34:31,  2.89s/it]12/08/2024 11:04:06 - INFO - __main__ -   Step: 559, LR: 1.1583838383838384e-05, Loss: 0.8873730897903442
+ 44%|████▍     | 560/1276 [28:56<33:00,  2.77s/it]12/08/2024 11:04:09 - INFO - __main__ -   Step: 560, LR: 1.1567676767676767e-05, Loss: 0.7929189205169678
+ 44%|████▍     | 561/1276 [29:01<37:57,  3.18s/it]12/08/2024 11:04:13 - INFO - __main__ -   Step: 561, LR: 1.1551515151515153e-05, Loss: 0.8749839067459106
+ 44%|████▍     | 562/1276 [29:03<36:21,  3.06s/it]12/08/2024 11:04:16 - INFO - __main__ -   Step: 562, LR: 1.1535353535353537e-05, Loss: 0.7782366275787354
+ 44%|████▍     | 563/1276 [29:07<39:52,  3.36s/it]12/08/2024 11:04:20 - INFO - __main__ -   Step: 563, LR: 1.1519191919191921e-05, Loss: 0.7758377194404602
+ 44%|████▍     | 564/1276 [29:10<37:57,  3.20s/it]12/08/2024 11:04:23 - INFO - __main__ -   Step: 564, LR: 1.1503030303030304e-05, Loss: 0.6368242502212524
+ 44%|████▍     | 565/1276 [29:13<35:49,  3.02s/it]12/08/2024 11:04:25 - INFO - __main__ -   Step: 565, LR: 1.148686868686869e-05, Loss: 0.8022949695587158
+ 44%|████▍     | 566/1276 [29:16<35:25,  2.99s/it]12/08/2024 11:04:28 - INFO - __main__ -   Step: 566, LR: 1.1470707070707072e-05, Loss: 0.7579064965248108
+ 44%|████▍     | 567/1276 [29:19<34:21,  2.91s/it]12/08/2024 11:04:31 - INFO - __main__ -   Step: 567, LR: 1.1454545454545455e-05, Loss: 0.993690550327301
+ 45%|████▍     | 568/1276 [29:21<34:36,  2.93s/it]12/08/2024 11:04:34 - INFO - __main__ -   Step: 568, LR: 1.143838383838384e-05, Loss: 0.764594554901123
+ 45%|████▍     | 569/1276 [29:24<33:14,  2.82s/it]12/08/2024 11:04:36 - INFO - __main__ -   Step: 569, LR: 1.1422222222222223e-05, Loss: 0.8291873335838318
+ 45%|████▍     | 570/1276 [29:27<32:14,  2.74s/it]12/08/2024 11:04:39 - INFO - __main__ -   Step: 570, LR: 1.1406060606060606e-05, Loss: 0.8440152406692505
+ 45%|████▍     | 571/1276 [29:29<31:26,  2.68s/it]12/08/2024 11:04:41 - INFO - __main__ -   Step: 571, LR: 1.1389898989898991e-05, Loss: 0.8600523471832275
+ 45%|████▍     | 572/1276 [29:32<31:10,  2.66s/it]12/08/2024 11:04:44 - INFO - __main__ -   Step: 572, LR: 1.1373737373737374e-05, Loss: 0.9669821262359619
+ 45%|████▍     | 573/1276 [29:35<32:15,  2.75s/it]12/08/2024 11:04:47 - INFO - __main__ -   Step: 573, LR: 1.135757575757576e-05, Loss: 0.8429414629936218
+ 45%|████▍     | 574/1276 [29:37<32:14,  2.76s/it]12/08/2024 11:04:50 - INFO - __main__ -   Step: 574, LR: 1.1341414141414142e-05, Loss: 0.8133082985877991
+ 45%|████▌     | 575/1276 [29:40<32:21,  2.77s/it]12/08/2024 11:04:53 - INFO - __main__ -   Step: 575, LR: 1.1325252525252525e-05, Loss: 0.8703737854957581
+ 45%|████▌     | 576/1276 [29:44<33:58,  2.91s/it]12/08/2024 11:04:56 - INFO - __main__ -   Step: 576, LR: 1.130909090909091e-05, Loss: 0.8549131751060486
+ 45%|████▌     | 577/1276 [29:47<36:17,  3.11s/it]12/08/2024 11:04:59 - INFO - __main__ -   Step: 577, LR: 1.1292929292929293e-05, Loss: 0.8160864114761353
+ 45%|████▌     | 578/1276 [29:50<36:00,  3.10s/it]12/08/2024 11:05:02 - INFO - __main__ -   Step: 578, LR: 1.1276767676767676e-05, Loss: 0.7929244637489319
+ 45%|████▌     | 579/1276 [29:53<35:02,  3.02s/it]12/08/2024 11:05:05 - INFO - __main__ -   Step: 579, LR: 1.1260606060606061e-05, Loss: 0.8121849298477173
+ 45%|████▌     | 580/1276 [29:56<35:08,  3.03s/it]12/08/2024 11:05:08 - INFO - __main__ -   Step: 580, LR: 1.1244444444444444e-05, Loss: 0.9320206046104431
+ 46%|████▌     | 581/1276 [29:59<35:20,  3.05s/it]12/08/2024 11:05:11 - INFO - __main__ -   Step: 581, LR: 1.1228282828282829e-05, Loss: 0.9108866453170776
+ 46%|████▌     | 582/1276 [30:02<34:17,  2.96s/it]12/08/2024 11:05:14 - INFO - __main__ -   Step: 582, LR: 1.1212121212121212e-05, Loss: 0.7310881614685059
+ 46%|████▌     | 583/1276 [30:05<33:02,  2.86s/it]12/08/2024 11:05:17 - INFO - __main__ -   Step: 583, LR: 1.1195959595959599e-05, Loss: 0.8600733876228333
+ 46%|████▌     | 584/1276 [30:08<34:20,  2.98s/it]12/08/2024 11:05:20 - INFO - __main__ -   Step: 584, LR: 1.1179797979797982e-05, Loss: 0.8487036228179932
+ 46%|████▌     | 585/1276 [30:11<33:37,  2.92s/it]12/08/2024 11:05:23 - INFO - __main__ -   Step: 585, LR: 1.1163636363636365e-05, Loss: 0.8868386745452881
+ 46%|████▌     | 586/1276 [30:15<37:04,  3.22s/it]12/08/2024 11:05:27 - INFO - __main__ -   Step: 586, LR: 1.114747474747475e-05, Loss: 0.7838101983070374
+ 46%|████▌     | 587/1276 [30:18<37:51,  3.30s/it]12/08/2024 11:05:30 - INFO - __main__ -   Step: 587, LR: 1.1131313131313133e-05, Loss: 0.8514004945755005
+ 46%|████▌     | 588/1276 [30:21<36:27,  3.18s/it]12/08/2024 11:05:33 - INFO - __main__ -   Step: 588, LR: 1.1115151515151516e-05, Loss: 0.8149340152740479
+ 46%|████▌     | 589/1276 [30:25<39:10,  3.42s/it]12/08/2024 11:05:37 - INFO - __main__ -   Step: 589, LR: 1.10989898989899e-05, Loss: 0.746214747428894
+ 46%|████▌     | 590/1276 [30:28<38:18,  3.35s/it]12/08/2024 11:05:40 - INFO - __main__ -   Step: 590, LR: 1.1082828282828284e-05, Loss: 0.701058030128479
+ 46%|████▋     | 591/1276 [30:32<39:22,  3.45s/it]12/08/2024 11:05:44 - INFO - __main__ -   Step: 591, LR: 1.1066666666666669e-05, Loss: 0.7808113098144531
+ 46%|████▋     | 592/1276 [30:35<37:19,  3.27s/it]12/08/2024 11:05:47 - INFO - __main__ -   Step: 592, LR: 1.1050505050505052e-05, Loss: 0.8271629810333252
+ 46%|████▋     | 593/1276 [30:38<38:15,  3.36s/it]12/08/2024 11:05:50 - INFO - __main__ -   Step: 593, LR: 1.1034343434343435e-05, Loss: 0.8089540004730225
+ 47%|████▋     | 594/1276 [30:41<36:52,  3.24s/it]12/08/2024 11:05:53 - INFO - __main__ -   Step: 594, LR: 1.101818181818182e-05, Loss: 0.8714074492454529
+ 47%|████▋     | 595/1276 [30:44<37:06,  3.27s/it]12/08/2024 11:05:57 - INFO - __main__ -   Step: 595, LR: 1.1002020202020203e-05, Loss: 0.7625911831855774
+ 47%|████▋     | 596/1276 [30:47<35:13,  3.11s/it]12/08/2024 11:05:59 - INFO - __main__ -   Step: 596, LR: 1.0985858585858586e-05, Loss: 0.7371804714202881
+ 47%|████▋     | 597/1276 [30:50<35:15,  3.12s/it]12/08/2024 11:06:03 - INFO - __main__ -   Step: 597, LR: 1.096969696969697e-05, Loss: 0.6028662323951721
+ 47%|████▋     | 598/1276 [30:53<34:09,  3.02s/it]12/08/2024 11:06:05 - INFO - __main__ -   Step: 598, LR: 1.0953535353535354e-05, Loss: 0.7527472376823425
+ 47%|████▋     | 599/1276 [30:56<34:53,  3.09s/it]12/08/2024 11:06:09 - INFO - __main__ -   Step: 599, LR: 1.0937373737373738e-05, Loss: 0.8133748769760132
+ 47%|████▋     | 600/1276 [30:59<33:10,  2.94s/it]12/08/2024 11:06:11 - INFO - __main__ -   Step: 600, LR: 1.0921212121212122e-05, Loss: 0.7592126727104187
+12/08/2024 11:06:11 - INFO - __main__ - glob_checkpoints : ['./outputs/step-600', './outputs/step-400']
+12/08/2024 11:06:11 - INFO - __main__ - ordering_and_checkpoint_path: [(600, './outputs/step-600'), (400, './outputs/step-400')]
+12/08/2024 11:06:11 - INFO - __main__ - checkpoints_to_be_deleted:['./outputs/step-400']
+12/08/2024 11:06:11 - INFO - __main__ - Deleting older checkpoint [./outputs/step-400] due to args.save_total_limit
+12/08/2024 11:06:11 - INFO - accelerate.accelerator - Saving current state to ./outputs/step-600
+12/08/2024 11:06:11 - INFO - accelerate.accelerator - Saving DeepSpeed Model and Optimizer
+[2024-12-08 11:06:11,759] [INFO] [logging.py:128:log_dist] [Rank 0] [Torch] Checkpoint pytorch_model is about to be saved!
+[2024-12-08 11:06:11,789] [INFO] [logging.py:128:log_dist] [Rank 0] Saving model checkpoint: ./outputs/step-600/pytorch_model/mp_rank_00_model_states.pt
+[2024-12-08 11:06:11,789] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving ./outputs/step-600/pytorch_model/mp_rank_00_model_states.pt...
+[2024-12-08 11:06:28,047] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved ./outputs/step-600/pytorch_model/mp_rank_00_model_states.pt.
+[2024-12-08 11:06:28,051] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving ./outputs/step-600/pytorch_model/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt...
+[2024-12-08 11:06:28,051] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving ./outputs/step-600/pytorch_model/bf16_zero_pp_rank_7_mp_rank_00_optim_states.pt...
+[2024-12-08 11:06:28,051] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving ./outputs/step-600/pytorch_model/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt...
+[2024-12-08 11:06:28,051] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving ./outputs/step-600/pytorch_model/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt...
+[2024-12-08 11:06:28,051] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving ./outputs/step-600/pytorch_model/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt...
+[2024-12-08 11:06:28,051] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving ./outputs/step-600/pytorch_model/bf16_zero_pp_rank_6_mp_rank_00_optim_states.pt...
+[2024-12-08 11:06:28,051] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving ./outputs/step-600/pytorch_model/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt...
+[2024-12-08 11:06:28,051] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving ./outputs/step-600/pytorch_model/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt...
+[2024-12-08 11:06:42,249] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved ./outputs/step-600/pytorch_model/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt.
+[2024-12-08 11:06:42,250] [INFO] [engine.py:3536:_save_zero_checkpoint] zero checkpoint saved ./outputs/step-600/pytorch_model/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt
+[2024-12-08 11:06:42,250] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint pytorch_model is ready now!
+[2024-12-08 11:06:44,129] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved ./outputs/step-600/pytorch_model/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt.
+[2024-12-08 11:06:44,129] [INFO] [engine.py:3536:_save_zero_checkpoint] zero checkpoint saved ./outputs/step-600/pytorch_model/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt
+[2024-12-08 11:06:44,129] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint pytorch_model is ready now!
+[2024-12-08 11:06:44,553] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved ./outputs/step-600/pytorch_model/bf16_zero_pp_rank_6_mp_rank_00_optim_states.pt.
+[2024-12-08 11:06:44,553] [INFO] [engine.py:3536:_save_zero_checkpoint] zero checkpoint saved ./outputs/step-600/pytorch_model/bf16_zero_pp_rank_6_mp_rank_00_optim_states.pt
+[2024-12-08 11:06:44,554] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint pytorch_model is ready now!
+[2024-12-08 11:06:45,040] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved ./outputs/step-600/pytorch_model/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt.
+[2024-12-08 11:06:45,047] [INFO] [engine.py:3536:_save_zero_checkpoint] zero checkpoint saved ./outputs/step-600/pytorch_model/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt
+[2024-12-08 11:06:45,047] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint pytorch_model is ready now!
+[2024-12-08 11:06:45,128] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved ./outputs/step-600/pytorch_model/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt.
+[2024-12-08 11:06:45,129] [INFO] [engine.py:3536:_save_zero_checkpoint] zero checkpoint saved ./outputs/step-600/pytorch_model/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt
+[2024-12-08 11:06:45,129] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint pytorch_model is ready now!
+[2024-12-08 11:06:45,312] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved ./outputs/step-600/pytorch_model/bf16_zero_pp_rank_7_mp_rank_00_optim_states.pt.
+[2024-12-08 11:06:45,312] [INFO] [engine.py:3536:_save_zero_checkpoint] zero checkpoint saved ./outputs/step-600/pytorch_model/bf16_zero_pp_rank_7_mp_rank_00_optim_states.pt
+[2024-12-08 11:06:45,312] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint pytorch_model is ready now!
+[2024-12-08 11:06:45,610] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved ./outputs/step-600/pytorch_model/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt.
+[2024-12-08 11:06:45,611] [INFO] [engine.py:3536:_save_zero_checkpoint] zero checkpoint saved ./outputs/step-600/pytorch_model/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt
+[2024-12-08 11:06:45,611] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint pytorch_model is ready now!
+[2024-12-08 11:06:45,690] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved ./outputs/step-600/pytorch_model/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt.
+[2024-12-08 11:06:45,690] [INFO] [engine.py:3536:_save_zero_checkpoint] zero checkpoint saved ./outputs/step-600/pytorch_model/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt
+[2024-12-08 11:06:45,690] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint pytorch_model is ready now!
+12/08/2024 11:06:45 - INFO - accelerate.accelerator - DeepSpeed Model and Optimizer saved to output dir ./outputs/step-600/pytorch_model
+12/08/2024 11:06:45 - INFO - accelerate.checkpointing - Scheduler state saved in outputs/step-600/scheduler.bin
+12/08/2024 11:06:45 - INFO - accelerate.checkpointing - Sampler state for dataloader 0 saved in outputs/step-600/sampler.bin
+12/08/2024 11:06:45 - INFO - accelerate.checkpointing - Random states saved in outputs/step-600/random_states_0.pkl
+tokenizer config file saved in ./outputs/step-600/tokenizer_config.json
+Special tokens file saved in ./outputs/step-600/special_tokens_map.json
+ 47%|████▋     | 601/1276 [31:36<2:27:50, 13.14s/it]12/08/2024 11:06:48 - INFO - __main__ -   Step: 601, LR: 1.0905050505050505e-05, Loss: 0.8974627256393433
+ 47%|████▋     | 602/1276 [31:39<1:52:41, 10.03s/it]12/08/2024 11:06:51 - INFO - __main__ -   Step: 602, LR: 1.088888888888889e-05, Loss: 0.8204795122146606
+ 47%|████▋     | 603/1276 [31:42<1:30:45,  8.09s/it]12/08/2024 11:06:55 - INFO - __main__ -   Step: 603, LR: 1.0872727272727273e-05, Loss: 0.8839048147201538
+ 47%|████▋     | 604/1276 [31:47<1:17:56,  6.96s/it]12/08/2024 11:06:59 - INFO - __main__ -   Step: 604, LR: 1.0856565656565659e-05, Loss: 0.8529003858566284
+ 47%|████▋     | 605/1276 [31:49<1:01:48,  5.53s/it]12/08/2024 11:07:01 - INFO - __main__ -   Step: 605, LR: 1.0840404040404042e-05, Loss: 0.6823076009750366
+ 47%|████▋     | 606/1276 [31:52<53:36,  4.80s/it]  12/08/2024 11:07:04 - INFO - __main__ -   Step: 606, LR: 1.0824242424242425e-05, Loss: 0.92081618309021
+ 48%|████▊     | 607/1276 [31:55<48:33,  4.35s/it]12/08/2024 11:07:07 - INFO - __main__ -   Step: 607, LR: 1.080808080808081e-05, Loss: 0.8047311305999756
+ 48%|████▊     | 608/1276 [31:58<43:32,  3.91s/it]12/08/2024 11:07:10 - INFO - __main__ -   Step: 608, LR: 1.0791919191919193e-05, Loss: 0.8294386863708496
+ 48%|████▊     | 609/1276 [32:01<39:16,  3.53s/it]12/08/2024 11:07:13 - INFO - __main__ -   Step: 609, LR: 1.0775757575757578e-05, Loss: 0.8277610540390015
+ 48%|████▊     | 610/1276 [32:04<38:22,  3.46s/it]12/08/2024 11:07:16 - INFO - __main__ -   Step: 610, LR: 1.0759595959595961e-05, Loss: 0.8435384035110474
+ 48%|████▊     | 611/1276 [32:07<35:15,  3.18s/it]12/08/2024 11:07:19 - INFO - __main__ -   Step: 611, LR: 1.0743434343434344e-05, Loss: 0.8069760799407959
+ 48%|████▊     | 612/1276 [32:09<33:36,  3.04s/it]12/08/2024 11:07:21 - INFO - __main__ -   Step: 612, LR: 1.0727272727272729e-05, Loss: 0.7473732233047485
+ 48%|████▊     | 613/1276 [32:13<37:16,  3.37s/it]12/08/2024 11:07:26 - INFO - __main__ -   Step: 613, LR: 1.0711111111111112e-05, Loss: 0.8796555995941162
+ 48%|████▊     | 614/1276 [32:16<35:00,  3.17s/it]12/08/2024 11:07:28 - INFO - __main__ -   Step: 614, LR: 1.0694949494949495e-05, Loss: 0.6943937540054321
+ 48%|████▊     | 615/1276 [32:19<33:45,  3.06s/it]12/08/2024 11:07:31 - INFO - __main__ -   Step: 615, LR: 1.067878787878788e-05, Loss: 0.887865424156189
+ 48%|████▊     | 616/1276 [32:23<35:35,  3.24s/it]12/08/2024 11:07:35 - INFO - __main__ -   Step: 616, LR: 1.0662626262626263e-05, Loss: 0.9193097352981567
+ 48%|████▊     | 617/1276 [32:25<34:25,  3.13s/it]12/08/2024 11:07:38 - INFO - __main__ -   Step: 617, LR: 1.0646464646464648e-05, Loss: 0.8443830013275146
+ 48%|████▊     | 618/1276 [32:29<35:02,  3.19s/it]12/08/2024 11:07:41 - INFO - __main__ -   Step: 618, LR: 1.0630303030303031e-05, Loss: 0.9350266456604004
+ 49%|████▊     | 619/1276 [32:32<34:18,  3.13s/it]12/08/2024 11:07:44 - INFO - __main__ -   Step: 619, LR: 1.0614141414141414e-05, Loss: 0.7382199764251709
+ 49%|████▊     | 620/1276 [32:35<34:20,  3.14s/it]12/08/2024 11:07:47 - INFO - __main__ -   Step: 620, LR: 1.0597979797979799e-05, Loss: 0.8327111005783081
+ 49%|████▊     | 621/1276 [32:38<33:20,  3.05s/it]12/08/2024 11:07:50 - INFO - __main__ -   Step: 621, LR: 1.0581818181818182e-05, Loss: 0.7418640851974487
+ 49%|████▊     | 622/1276 [32:41<34:38,  3.18s/it]12/08/2024 11:07:53 - INFO - __main__ -   Step: 622, LR: 1.0565656565656565e-05, Loss: 0.7341685891151428
+ 49%|████▉     | 623/1276 [32:44<31:53,  2.93s/it]12/08/2024 11:07:56 - INFO - __main__ -   Step: 623, LR: 1.054949494949495e-05, Loss: 0.8485339879989624
+ 49%|████▉     | 624/1276 [32:47<33:12,  3.06s/it]12/08/2024 11:07:59 - INFO - __main__ -   Step: 624, LR: 1.0533333333333333e-05, Loss: 0.8429412841796875
+ 49%|████▉     | 625/1276 [32:50<32:33,  3.00s/it]12/08/2024 11:08:02 - INFO - __main__ -   Step: 625, LR: 1.051717171717172e-05, Loss: 0.9993401765823364
+ 49%|████▉     | 626/1276 [32:52<31:25,  2.90s/it]12/08/2024 11:08:05 - INFO - __main__ -   Step: 626, LR: 1.0501010101010103e-05, Loss: 0.852493166923523
+ 49%|████▉     | 627/1276 [32:56<32:14,  2.98s/it]12/08/2024 11:08:08 - INFO - __main__ -   Step: 627, LR: 1.0484848484848487e-05, Loss: 0.7662944793701172
+ 49%|████▉     | 628/1276 [32:59<32:17,  2.99s/it]12/08/2024 11:08:11 - INFO - __main__ -   Step: 628, LR: 1.046868686868687e-05, Loss: 0.7667807340621948
+ 49%|████▉     | 629/1276 [33:02<33:04,  3.07s/it]12/08/2024 11:08:14 - INFO - __main__ -   Step: 629, LR: 1.0452525252525254e-05, Loss: 0.9168120622634888
+ 49%|████▉     | 630/1276 [33:05<32:11,  2.99s/it]12/08/2024 11:08:17 - INFO - __main__ -   Step: 630, LR: 1.0436363636363638e-05, Loss: 0.7510466575622559
+ 49%|████▉     | 631/1276 [33:08<32:30,  3.02s/it]12/08/2024 11:08:20 - INFO - __main__ -   Step: 631, LR: 1.0420202020202021e-05, Loss: 0.7872813940048218
+ 50%|████▉     | 632/1276 [33:11<33:02,  3.08s/it]12/08/2024 11:08:23 - INFO - __main__ -   Step: 632, LR: 1.0404040404040405e-05, Loss: 0.8983144760131836
+ 50%|████▉     | 633/1276 [33:14<32:24,  3.02s/it]12/08/2024 11:08:26 - INFO - __main__ -   Step: 633, LR: 1.038787878787879e-05, Loss: 0.8466298580169678
+ 50%|████▉     | 634/1276 [33:17<33:14,  3.11s/it]12/08/2024 11:08:29 - INFO - __main__ -   Step: 634, LR: 1.0371717171717173e-05, Loss: 0.7484756112098694
+ 50%|████▉     | 635/1276 [33:20<32:01,  3.00s/it]12/08/2024 11:08:32 - INFO - __main__ -   Step: 635, LR: 1.0355555555555557e-05, Loss: 0.8001353144645691
+ 50%|████▉     | 636/1276 [33:23<31:10,  2.92s/it]12/08/2024 11:08:35 - INFO - __main__ -   Step: 636, LR: 1.033939393939394e-05, Loss: 0.9180113077163696
+ 50%|████▉     | 637/1276 [33:26<31:07,  2.92s/it]12/08/2024 11:08:38 - INFO - __main__ -   Step: 637, LR: 1.0323232323232324e-05, Loss: 0.8399356603622437
+ 50%|█████     | 638/1276 [33:28<29:38,  2.79s/it]12/08/2024 11:08:40 - INFO - __main__ -   Step: 638, LR: 1.0307070707070708e-05, Loss: 0.7021821737289429
+ 50%|█████     | 639/1276 [33:30<28:19,  2.67s/it]12/08/2024 11:08:43 - INFO - __main__ -   Step: 639, LR: 1.0290909090909091e-05, Loss: 0.850985050201416
+ 50%|█████     | 640/1276 [33:34<29:48,  2.81s/it]12/08/2024 11:08:46 - INFO - __main__ -   Step: 640, LR: 1.0274747474747475e-05, Loss: 0.8472739458084106
+ 50%|█████     | 641/1276 [33:37<30:29,  2.88s/it]12/08/2024 11:08:49 - INFO - __main__ -   Step: 641, LR: 1.025858585858586e-05, Loss: 0.7916616201400757
+ 50%|█████     | 642/1276 [33:39<29:44,  2.82s/it]12/08/2024 11:08:52 - INFO - __main__ -   Step: 642, LR: 1.0242424242424242e-05, Loss: 0.8194173574447632
+ 50%|█████     | 643/1276 [33:43<30:48,  2.92s/it]12/08/2024 11:08:55 - INFO - __main__ -   Step: 643, LR: 1.0226262626262626e-05, Loss: 0.8943489789962769
+ 50%|█████     | 644/1276 [33:45<29:29,  2.80s/it]12/08/2024 11:08:57 - INFO - __main__ -   Step: 644, LR: 1.021010101010101e-05, Loss: 0.6468176245689392
+ 51%|█████     | 645/1276 [33:48<29:27,  2.80s/it]12/08/2024 11:09:00 - INFO - __main__ -   Step: 645, LR: 1.0193939393939393e-05, Loss: 0.8818612694740295
+ 51%|█████     | 646/1276 [33:50<28:47,  2.74s/it]12/08/2024 11:09:03 - INFO - __main__ -   Step: 646, LR: 1.0177777777777778e-05, Loss: 0.7245694398880005
+ 51%|█████     | 647/1276 [33:54<30:56,  2.95s/it]12/08/2024 11:09:06 - INFO - __main__ -   Step: 647, LR: 1.0161616161616163e-05, Loss: 0.7989546060562134
+ 51%|█████     | 648/1276 [33:57<30:30,  2.91s/it]12/08/2024 11:09:09 - INFO - __main__ -   Step: 648, LR: 1.0145454545454548e-05, Loss: 0.8282619714736938
+ 51%|█████     | 649/1276 [33:59<29:41,  2.84s/it]12/08/2024 11:09:12 - INFO - __main__ -   Step: 649, LR: 1.0129292929292931e-05, Loss: 0.7595618367195129
+ 51%|█████     | 650/1276 [34:03<30:45,  2.95s/it]12/08/2024 11:09:15 - INFO - __main__ -   Step: 650, LR: 1.0113131313131314e-05, Loss: 0.7215955257415771
+ 51%|█████     | 651/1276 [34:06<33:32,  3.22s/it]12/08/2024 11:09:19 - INFO - __main__ -   Step: 651, LR: 1.0096969696969699e-05, Loss: 0.7421454191207886
+ 51%|█████     | 652/1276 [34:09<31:08,  2.99s/it]12/08/2024 11:09:21 - INFO - __main__ -   Step: 652, LR: 1.0080808080808082e-05, Loss: 0.7675812244415283
+ 51%|█████     | 653/1276 [34:11<29:33,  2.85s/it]12/08/2024 11:09:24 - INFO - __main__ -   Step: 653, LR: 1.0064646464646467e-05, Loss: 0.9063827991485596
+ 51%|█████▏    | 654/1276 [34:15<31:52,  3.07s/it]12/08/2024 11:09:27 - INFO - __main__ -   Step: 654, LR: 1.004848484848485e-05, Loss: 0.7921537756919861
+ 51%|█████▏    | 655/1276 [34:17<29:34,  2.86s/it]12/08/2024 11:09:30 - INFO - __main__ -   Step: 655, LR: 1.0032323232323233e-05, Loss: 0.8005863428115845
+ 51%|█████▏    | 656/1276 [34:20<28:48,  2.79s/it]12/08/2024 11:09:32 - INFO - __main__ -   Step: 656, LR: 1.0016161616161618e-05, Loss: 0.7852520942687988
+ 51%|█████▏    | 657/1276 [34:23<30:08,  2.92s/it]12/08/2024 11:09:35 - INFO - __main__ -   Step: 657, LR: 1e-05, Loss: 0.8472063541412354
+ 52%|█████▏    | 658/1276 [34:26<29:33,  2.87s/it]12/08/2024 11:09:38 - INFO - __main__ -   Step: 658, LR: 9.983838383838384e-06, Loss: 0.9042792320251465
+ 52%|█████▏    | 659/1276 [34:28<27:28,  2.67s/it]12/08/2024 11:09:40 - INFO - __main__ -   Step: 659, LR: 9.967676767676769e-06, Loss: 0.7381261587142944
+ 52%|█████▏    | 660/1276 [34:31<27:46,  2.71s/it]12/08/2024 11:09:43 - INFO - __main__ -   Step: 660, LR: 9.951515151515152e-06, Loss: 0.7949703335762024
+ 52%|█████▏    | 661/1276 [34:34<28:33,  2.79s/it]12/08/2024 11:09:46 - INFO - __main__ -   Step: 661, LR: 9.935353535353535e-06, Loss: 0.7977940440177917
+ 52%|█████▏    | 662/1276 [34:37<30:09,  2.95s/it]12/08/2024 11:09:50 - INFO - __main__ -   Step: 662, LR: 9.91919191919192e-06, Loss: 0.7743106484413147
+ 52%|█████▏    | 663/1276 [34:41<31:24,  3.07s/it]12/08/2024 11:09:53 - INFO - __main__ -   Step: 663, LR: 9.903030303030305e-06, Loss: 0.7942441701889038
+ 52%|█████▏    | 664/1276 [34:44<32:19,  3.17s/it]12/08/2024 11:09:56 - INFO - __main__ -   Step: 664, LR: 9.886868686868688e-06, Loss: 0.818088173866272
+ 52%|█████▏    | 665/1276 [34:47<30:55,  3.04s/it]12/08/2024 11:09:59 - INFO - __main__ -   Step: 665, LR: 9.870707070707072e-06, Loss: 0.7960165739059448
+ 52%|█████▏    | 666/1276 [34:49<29:28,  2.90s/it]12/08/2024 11:10:02 - INFO - __main__ -   Step: 666, LR: 9.854545454545456e-06, Loss: 0.6980559229850769
+ 52%|█████▏    | 667/1276 [34:53<31:19,  3.09s/it]12/08/2024 11:10:05 - INFO - __main__ -   Step: 667, LR: 9.838383838383839e-06, Loss: 0.8953862190246582
+ 52%|█████▏    | 668/1276 [34:56<30:24,  3.00s/it]12/08/2024 11:10:08 - INFO - __main__ -   Step: 668, LR: 9.822222222222223e-06, Loss: 0.7892613410949707
+ 52%|█████▏    | 669/1276 [34:59<30:01,  2.97s/it]12/08/2024 11:10:11 - INFO - __main__ -   Step: 669, LR: 9.806060606060607e-06, Loss: 0.869488000869751
+ 53%|█████▎    | 670/1276 [35:01<28:10,  2.79s/it]12/08/2024 11:10:13 - INFO - __main__ -   Step: 670, LR: 9.78989898989899e-06, Loss: 0.7542475461959839
+ 53%|█████▎    | 671/1276 [35:04<28:34,  2.83s/it]12/08/2024 11:10:16 - INFO - __main__ -   Step: 671, LR: 9.773737373737374e-06, Loss: 0.8585661053657532
+ 53%|█████▎    | 672/1276 [35:07<29:23,  2.92s/it]12/08/2024 11:10:19 - INFO - __main__ -   Step: 672, LR: 9.757575757575758e-06, Loss: 0.6201375126838684
+ 53%|█████▎    | 673/1276 [35:10<30:09,  3.00s/it]12/08/2024 11:10:22 - INFO - __main__ -   Step: 673, LR: 9.741414141414142e-06, Loss: 0.7863835096359253
+ 53%|█████▎    | 674/1276 [35:13<29:16,  2.92s/it]12/08/2024 11:10:25 - INFO - __main__ -   Step: 674, LR: 9.725252525252527e-06, Loss: 0.7788028120994568
+ 53%|█████▎    | 675/1276 [35:15<28:00,  2.80s/it]12/08/2024 11:10:28 - INFO - __main__ -   Step: 675, LR: 9.70909090909091e-06, Loss: 0.7351481318473816
+ 53%|█████▎    | 676/1276 [35:18<27:55,  2.79s/it]12/08/2024 11:10:30 - INFO - __main__ -   Step: 676, LR: 9.692929292929293e-06, Loss: 0.8632692098617554
+ 53%|█████▎    | 677/1276 [35:21<28:21,  2.84s/it]12/08/2024 11:10:33 - INFO - __main__ -   Step: 677, LR: 9.676767676767678e-06, Loss: 0.635877251625061
+ 53%|█████▎    | 678/1276 [35:24<28:08,  2.82s/it]12/08/2024 11:10:36 - INFO - __main__ -   Step: 678, LR: 9.660606060606061e-06, Loss: 0.8047293424606323
+ 53%|█████▎    | 679/1276 [35:27<27:35,  2.77s/it]12/08/2024 11:10:39 - INFO - __main__ -   Step: 679, LR: 9.644444444444444e-06, Loss: 0.9594998359680176
+ 53%|█████▎    | 680/1276 [35:29<27:54,  2.81s/it]12/08/2024 11:10:42 - INFO - __main__ -   Step: 680, LR: 9.628282828282829e-06, Loss: 0.8409355282783508
+ 53%|█████▎    | 681/1276 [35:32<28:27,  2.87s/it]12/08/2024 11:10:45 - INFO - __main__ -   Step: 681, LR: 9.612121212121212e-06, Loss: 0.6904870271682739
+ 53%|█████▎    | 682/1276 [35:35<27:31,  2.78s/it]12/08/2024 11:10:47 - INFO - __main__ -   Step: 682, LR: 9.595959595959597e-06, Loss: 0.7779416441917419
+ 54%|█████▎    | 683/1276 [35:39<31:06,  3.15s/it]12/08/2024 11:10:51 - INFO - __main__ -   Step: 683, LR: 9.57979797979798e-06, Loss: 0.7384677529335022
+ 54%|█████▎    | 684/1276 [35:42<30:37,  3.10s/it]12/08/2024 11:10:54 - INFO - __main__ -   Step: 684, LR: 9.563636363636365e-06, Loss: 0.7663859128952026
+ 54%|█████▎    | 685/1276 [35:45<30:41,  3.12s/it]12/08/2024 11:10:57 - INFO - __main__ -   Step: 685, LR: 9.547474747474748e-06, Loss: 0.795004665851593
+ 54%|█████▍    | 686/1276 [35:48<30:29,  3.10s/it]12/08/2024 11:11:01 - INFO - __main__ -   Step: 686, LR: 9.531313131313133e-06, Loss: 0.7990092039108276
+ 54%|█████▍    | 687/1276 [35:52<30:59,  3.16s/it]12/08/2024 11:11:04 - INFO - __main__ -   Step: 687, LR: 9.515151515151516e-06, Loss: 0.8335676789283752
+ 54%|█████▍    | 688/1276 [35:54<28:57,  2.95s/it]12/08/2024 11:11:06 - INFO - __main__ -   Step: 688, LR: 9.498989898989899e-06, Loss: 0.8509598970413208
+ 54%|█████▍    | 689/1276 [35:58<30:30,  3.12s/it]12/08/2024 11:11:10 - INFO - __main__ -   Step: 689, LR: 9.482828282828284e-06, Loss: 0.8970775008201599
+ 54%|█████▍    | 690/1276 [36:01<30:51,  3.16s/it]12/08/2024 11:11:13 - INFO - __main__ -   Step: 690, LR: 9.466666666666667e-06, Loss: 0.8955882787704468
+ 54%|█████▍    | 691/1276 [36:04<30:17,  3.11s/it]12/08/2024 11:11:16 - INFO - __main__ -   Step: 691, LR: 9.450505050505052e-06, Loss: 0.8777148723602295
+ 54%|█████▍    | 692/1276 [36:07<29:50,  3.07s/it]12/08/2024 11:11:19 - INFO - __main__ -   Step: 692, LR: 9.434343434343435e-06, Loss: 0.8440057039260864
+ 54%|█████▍    | 693/1276 [36:09<28:37,  2.95s/it]12/08/2024 11:11:22 - INFO - __main__ -   Step: 693, LR: 9.418181818181818e-06, Loss: 0.7558419704437256
+ 54%|█████▍    | 694/1276 [36:12<27:11,  2.80s/it]12/08/2024 11:11:24 - INFO - __main__ -   Step: 694, LR: 9.402020202020203e-06, Loss: 0.6866930723190308
+ 54%|█████▍    | 695/1276 [36:15<27:35,  2.85s/it]12/08/2024 11:11:27 - INFO - __main__ -   Step: 695, LR: 9.385858585858588e-06, Loss: 0.7855406999588013
+ 55%|█████▍    | 696/1276 [36:18<28:01,  2.90s/it]12/08/2024 11:11:30 - INFO - __main__ -   Step: 696, LR: 9.36969696969697e-06, Loss: 0.826435387134552
+ 55%|█████▍    | 697/1276 [36:21<29:06,  3.02s/it]12/08/2024 11:11:33 - INFO - __main__ -   Step: 697, LR: 9.353535353535354e-06, Loss: 0.853962242603302
+ 55%|█████▍    | 698/1276 [36:24<29:24,  3.05s/it]12/08/2024 11:11:37 - INFO - __main__ -   Step: 698, LR: 9.337373737373739e-06, Loss: 0.6839307546615601
+ 55%|█████▍    | 699/1276 [36:28<30:16,  3.15s/it]12/08/2024 11:11:40 - INFO - __main__ -   Step: 699, LR: 9.321212121212122e-06, Loss: 0.7340295314788818
+ 55%|█████▍    | 700/1276 [36:30<27:58,  2.91s/it]12/08/2024 11:11:42 - INFO - __main__ -   Step: 700, LR: 9.305050505050506e-06, Loss: 0.6743642091751099
+ 55%|█████▍    | 701/1276 [36:33<28:29,  2.97s/it]12/08/2024 11:11:45 - INFO - __main__ -   Step: 701, LR: 9.28888888888889e-06, Loss: 0.6833698749542236
+ 55%|█████▌    | 702/1276 [36:36<27:42,  2.90s/it]12/08/2024 11:11:48 - INFO - __main__ -   Step: 702, LR: 9.272727272727273e-06, Loss: 0.6777374148368835
+ 55%|█████▌    | 703/1276 [36:39<29:48,  3.12s/it]12/08/2024 11:11:52 - INFO - __main__ -   Step: 703, LR: 9.256565656565657e-06, Loss: 0.8987874388694763
+ 55%|█████▌    | 704/1276 [36:42<28:26,  2.98s/it]12/08/2024 11:11:54 - INFO - __main__ -   Step: 704, LR: 9.24040404040404e-06, Loss: 0.8706035017967224
+ 55%|█████▌    | 705/1276 [36:45<29:16,  3.08s/it]12/08/2024 11:11:58 - INFO - __main__ -   Step: 705, LR: 9.224242424242424e-06, Loss: 0.84881591796875
+ 55%|█████▌    | 706/1276 [36:49<29:24,  3.10s/it]12/08/2024 11:12:01 - INFO - __main__ -   Step: 706, LR: 9.208080808080808e-06, Loss: 0.805544912815094
+ 55%|█████▌    | 707/1276 [36:51<28:11,  2.97s/it]12/08/2024 11:12:04 - INFO - __main__ -   Step: 707, LR: 9.191919191919193e-06, Loss: 0.8600649237632751
+ 55%|█████▌    | 708/1276 [36:54<27:38,  2.92s/it]12/08/2024 11:12:06 - INFO - __main__ -   Step: 708, LR: 9.175757575757576e-06, Loss: 0.7467728853225708
+ 56%|█████▌    | 709/1276 [36:57<26:22,  2.79s/it]12/08/2024 11:12:09 - INFO - __main__ -   Step: 709, LR: 9.159595959595961e-06, Loss: 0.7207332849502563
+ 56%|█████▌    | 710/1276 [36:59<25:32,  2.71s/it]12/08/2024 11:12:11 - INFO - __main__ -   Step: 710, LR: 9.143434343434344e-06, Loss: 0.6965036392211914
+ 56%|█████▌    | 711/1276 [37:02<26:30,  2.82s/it]12/08/2024 11:12:14 - INFO - __main__ -   Step: 711, LR: 9.127272727272727e-06, Loss: 0.7229063510894775
+ 56%|█████▌    | 712/1276 [37:05<26:25,  2.81s/it]12/08/2024 11:12:17 - INFO - __main__ -   Step: 712, LR: 9.111111111111112e-06, Loss: 0.8048253059387207
+ 56%|█████▌    | 713/1276 [37:09<28:41,  3.06s/it]12/08/2024 11:12:21 - INFO - __main__ -   Step: 713, LR: 9.094949494949495e-06, Loss: 0.9392263889312744
+ 56%|█████▌    | 714/1276 [37:11<28:01,  2.99s/it]12/08/2024 11:12:24 - INFO - __main__ -   Step: 714, LR: 9.078787878787878e-06, Loss: 0.6829808950424194
+ 56%|█████▌    | 715/1276 [37:14<27:12,  2.91s/it]12/08/2024 11:12:26 - INFO - __main__ -   Step: 715, LR: 9.062626262626263e-06, Loss: 0.7715396285057068
+ 56%|█████▌    | 716/1276 [37:17<26:56,  2.89s/it]12/08/2024 11:12:29 - INFO - __main__ -   Step: 716, LR: 9.046464646464648e-06, Loss: 0.7891398072242737
+ 56%|█████▌    | 717/1276 [37:20<27:21,  2.94s/it]12/08/2024 11:12:32 - INFO - __main__ -   Step: 717, LR: 9.030303030303031e-06, Loss: 0.8672786951065063
+ 56%|█████▋    | 718/1276 [37:24<28:53,  3.11s/it]12/08/2024 11:12:36 - INFO - __main__ -   Step: 718, LR: 9.014141414141416e-06, Loss: 0.9011341333389282
+ 56%|█████▋    | 719/1276 [37:28<32:18,  3.48s/it]12/08/2024 11:12:40 - INFO - __main__ -   Step: 719, LR: 8.997979797979799e-06, Loss: 0.8100420832633972
+ 56%|█████▋    | 720/1276 [37:30<28:39,  3.09s/it]12/08/2024 11:12:42 - INFO - __main__ -   Step: 720, LR: 8.981818181818182e-06, Loss: 0.7796867489814758
+ 57%|█████▋    | 721/1276 [37:33<26:48,  2.90s/it]12/08/2024 11:12:45 - INFO - __main__ -   Step: 721, LR: 8.965656565656567e-06, Loss: 0.8367513418197632
+ 57%|█████▋    | 722/1276 [37:36<27:33,  2.98s/it]12/08/2024 11:12:48 - INFO - __main__ -   Step: 722, LR: 8.94949494949495e-06, Loss: 0.9101963639259338
+ 57%|█████▋    | 723/1276 [37:39<27:28,  2.98s/it]12/08/2024 11:12:51 - INFO - __main__ -   Step: 723, LR: 8.933333333333333e-06, Loss: 0.8994771242141724
+ 57%|█████▋    | 724/1276 [37:41<26:19,  2.86s/it]12/08/2024 11:12:54 - INFO - __main__ -   Step: 724, LR: 8.917171717171718e-06, Loss: 0.6747937202453613
+ 57%|█████▋    | 725/1276 [37:45<27:49,  3.03s/it]12/08/2024 11:12:57 - INFO - __main__ -   Step: 725, LR: 8.901010101010101e-06, Loss: 0.7479379773139954
+ 57%|█████▋    | 726/1276 [37:47<26:40,  2.91s/it]12/08/2024 11:13:00 - INFO - __main__ -   Step: 726, LR: 8.884848484848486e-06, Loss: 0.6540260314941406
+ 57%|█████▋    | 727/1276 [37:50<24:53,  2.72s/it]12/08/2024 11:13:02 - INFO - __main__ -   Step: 727, LR: 8.86868686868687e-06, Loss: 0.8366363048553467
+ 57%|█████▋    | 728/1276 [37:53<26:40,  2.92s/it]12/08/2024 11:13:05 - INFO - __main__ -   Step: 728, LR: 8.852525252525254e-06, Loss: 0.8777479529380798
+ 57%|█████▋    | 729/1276 [37:55<25:23,  2.79s/it]12/08/2024 11:13:08 - INFO - __main__ -   Step: 729, LR: 8.836363636363637e-06, Loss: 0.7284928560256958
+ 57%|█████▋    | 730/1276 [37:58<25:22,  2.79s/it]12/08/2024 11:13:10 - INFO - __main__ -   Step: 730, LR: 8.820202020202022e-06, Loss: 0.7665380239486694
+ 57%|█████▋    | 731/1276 [38:01<25:08,  2.77s/it]12/08/2024 11:13:13 - INFO - __main__ -   Step: 731, LR: 8.804040404040405e-06, Loss: 0.9749409556388855
+ 57%|█████▋    | 732/1276 [38:04<25:30,  2.81s/it]12/08/2024 11:13:16 - INFO - __main__ -   Step: 732, LR: 8.787878787878788e-06, Loss: 0.7755192518234253
+ 57%|█████▋    | 733/1276 [38:07<26:53,  2.97s/it]12/08/2024 11:13:19 - INFO - __main__ -   Step: 733, LR: 8.771717171717173e-06, Loss: 0.7412222027778625
+ 58%|█████▊    | 734/1276 [38:10<26:51,  2.97s/it]12/08/2024 11:13:22 - INFO - __main__ -   Step: 734, LR: 8.755555555555556e-06, Loss: 0.804904580116272
+ 58%|█████▊    | 735/1276 [38:13<26:05,  2.89s/it]12/08/2024 11:13:25 - INFO - __main__ -   Step: 735, LR: 8.73939393939394e-06, Loss: 0.8234970569610596
+ 58%|█████▊    | 736/1276 [38:15<25:11,  2.80s/it]12/08/2024 11:13:28 - INFO - __main__ -   Step: 736, LR: 8.723232323232324e-06, Loss: 0.7679898738861084
+ 58%|█████▊    | 737/1276 [38:18<25:07,  2.80s/it]12/08/2024 11:13:31 - INFO - __main__ -   Step: 737, LR: 8.707070707070707e-06, Loss: 0.8259299993515015
+ 58%|█████▊    | 738/1276 [38:21<24:51,  2.77s/it]12/08/2024 11:13:33 - INFO - __main__ -   Step: 738, LR: 8.690909090909091e-06, Loss: 0.8440953493118286
+ 58%|█████▊    | 739/1276 [38:24<24:56,  2.79s/it]12/08/2024 11:13:36 - INFO - __main__ -   Step: 739, LR: 8.674747474747476e-06, Loss: 0.8796577453613281
+ 58%|█████▊    | 740/1276 [38:27<25:48,  2.89s/it]12/08/2024 11:13:39 - INFO - __main__ -   Step: 740, LR: 8.65858585858586e-06, Loss: 0.8666256666183472
+ 58%|█████▊    | 741/1276 [38:30<26:42,  2.99s/it]12/08/2024 11:13:42 - INFO - __main__ -   Step: 741, LR: 8.642424242424242e-06, Loss: 0.7897781729698181
+ 58%|█████▊    | 742/1276 [38:34<28:07,  3.16s/it]12/08/2024 11:13:46 - INFO - __main__ -   Step: 742, LR: 8.626262626262627e-06, Loss: 0.8287748694419861
+ 58%|█████▊    | 743/1276 [38:37<27:09,  3.06s/it]12/08/2024 11:13:49 - INFO - __main__ -   Step: 743, LR: 8.61010101010101e-06, Loss: 0.7860357165336609
+ 58%|█████▊    | 744/1276 [38:39<26:35,  3.00s/it]12/08/2024 11:13:52 - INFO - __main__ -   Step: 744, LR: 8.593939393939395e-06, Loss: 0.6216784119606018
+ 58%|█████▊    | 745/1276 [38:42<25:26,  2.88s/it]12/08/2024 11:13:54 - INFO - __main__ -   Step: 745, LR: 8.577777777777778e-06, Loss: 0.7639377117156982
+ 58%|█████▊    | 746/1276 [38:45<25:16,  2.86s/it]12/08/2024 11:13:57 - INFO - __main__ -   Step: 746, LR: 8.561616161616161e-06, Loss: 0.848576009273529
+ 59%|█████▊    | 747/1276 [38:47<24:34,  2.79s/it]12/08/2024 11:14:00 - INFO - __main__ -   Step: 747, LR: 8.545454545454546e-06, Loss: 0.7551698684692383
+ 59%|█████▊    | 748/1276 [38:50<24:40,  2.80s/it]12/08/2024 11:14:03 - INFO - __main__ -   Step: 748, LR: 8.529292929292931e-06, Loss: 0.7554060816764832
+ 59%|█████▊    | 749/1276 [38:53<25:04,  2.85s/it]12/08/2024 11:14:06 - INFO - __main__ -   Step: 749, LR: 8.513131313131314e-06, Loss: 0.7279040813446045
+ 59%|█████▉    | 750/1276 [38:57<26:11,  2.99s/it]12/08/2024 11:14:09 - INFO - __main__ -   Step: 750, LR: 8.496969696969697e-06, Loss: 1.0828863382339478
+ 59%|█████▉    | 751/1276 [38:59<25:34,  2.92s/it]12/08/2024 11:14:12 - INFO - __main__ -   Step: 751, LR: 8.480808080808082e-06, Loss: 0.7726617455482483
+ 59%|█████▉    | 752/1276 [39:03<28:15,  3.24s/it]12/08/2024 11:14:16 - INFO - __main__ -   Step: 752, LR: 8.464646464646465e-06, Loss: 0.7770822644233704
+ 59%|█████▉    | 753/1276 [39:06<26:29,  3.04s/it]12/08/2024 11:14:18 - INFO - __main__ -   Step: 753, LR: 8.44848484848485e-06, Loss: 0.7699601650238037
+ 59%|█████▉    | 754/1276 [39:09<25:40,  2.95s/it]12/08/2024 11:14:21 - INFO - __main__ -   Step: 754, LR: 8.432323232323233e-06, Loss: 0.7392174005508423
+ 59%|█████▉    | 755/1276 [39:12<27:54,  3.21s/it]12/08/2024 11:14:25 - INFO - __main__ -   Step: 755, LR: 8.416161616161616e-06, Loss: 0.6843026876449585
+ 59%|█████▉    | 756/1276 [39:15<26:00,  3.00s/it]12/08/2024 11:14:27 - INFO - __main__ -   Step: 756, LR: 8.400000000000001e-06, Loss: 0.7959438562393188
+ 59%|█████▉    | 757/1276 [39:18<25:59,  3.01s/it]12/08/2024 11:14:30 - INFO - __main__ -   Step: 757, LR: 8.383838383838384e-06, Loss: 0.8471144437789917
+ 59%|█████▉    | 758/1276 [39:20<24:03,  2.79s/it]12/08/2024 11:14:32 - INFO - __main__ -   Step: 758, LR: 8.367676767676767e-06, Loss: 0.6982194781303406
+ 59%|█████▉    | 759/1276 [39:24<25:34,  2.97s/it]12/08/2024 11:14:36 - INFO - __main__ -   Step: 759, LR: 8.351515151515152e-06, Loss: 0.7655805349349976
+ 60%|█████▉    | 760/1276 [39:27<26:39,  3.10s/it]12/08/2024 11:14:39 - INFO - __main__ -   Step: 760, LR: 8.335353535353537e-06, Loss: 0.5553591847419739
+ 60%|█████▉    | 761/1276 [39:30<26:45,  3.12s/it]12/08/2024 11:14:42 - INFO - __main__ -   Step: 761, LR: 8.31919191919192e-06, Loss: 0.7101649045944214
+ 60%|█████▉    | 762/1276 [39:33<25:39,  3.00s/it]12/08/2024 11:14:45 - INFO - __main__ -   Step: 762, LR: 8.303030303030305e-06, Loss: 0.8444699048995972
+ 60%|█████▉    | 763/1276 [39:35<24:04,  2.82s/it]12/08/2024 11:14:48 - INFO - __main__ -   Step: 763, LR: 8.286868686868688e-06, Loss: 0.6712160110473633
+ 60%|█████▉    | 764/1276 [39:38<24:51,  2.91s/it]12/08/2024 11:14:51 - INFO - __main__ -   Step: 764, LR: 8.27070707070707e-06, Loss: 0.7146445512771606
+ 60%|█████▉    | 765/1276 [39:42<27:00,  3.17s/it]12/08/2024 11:14:54 - INFO - __main__ -   Step: 765, LR: 8.254545454545456e-06, Loss: 0.798353374004364
+ 60%|██████    | 766/1276 [39:46<27:43,  3.26s/it]12/08/2024 11:14:58 - INFO - __main__ -   Step: 766, LR: 8.238383838383839e-06, Loss: 0.7514173984527588
+ 60%|██████    | 767/1276 [39:49<26:44,  3.15s/it]12/08/2024 11:15:01 - INFO - __main__ -   Step: 767, LR: 8.222222222222222e-06, Loss: 0.7338885068893433
+ 60%|██████    | 768/1276 [39:51<25:10,  2.97s/it]12/08/2024 11:15:03 - INFO - __main__ -   Step: 768, LR: 8.206060606060607e-06, Loss: 0.7826589345932007
+ 60%|██████    | 769/1276 [39:54<25:29,  3.02s/it]12/08/2024 11:15:07 - INFO - __main__ -   Step: 769, LR: 8.18989898989899e-06, Loss: 0.7679125070571899
+ 60%|██████    | 770/1276 [39:58<26:45,  3.17s/it]12/08/2024 11:15:10 - INFO - __main__ -   Step: 770, LR: 8.173737373737375e-06, Loss: 0.8550698161125183
+ 60%|██████    | 771/1276 [40:00<24:30,  2.91s/it]12/08/2024 11:15:12 - INFO - __main__ -   Step: 771, LR: 8.15757575757576e-06, Loss: 0.7841793298721313
+ 61%|██████    | 772/1276 [40:03<23:15,  2.77s/it]12/08/2024 11:15:15 - INFO - __main__ -   Step: 772, LR: 8.141414141414142e-06, Loss: 0.6919584274291992
+ 61%|██████    | 773/1276 [40:05<23:34,  2.81s/it]12/08/2024 11:15:18 - INFO - __main__ -   Step: 773, LR: 8.125252525252526e-06, Loss: 0.8268812298774719
+ 61%|██████    | 774/1276 [40:08<23:32,  2.81s/it]12/08/2024 11:15:21 - INFO - __main__ -   Step: 774, LR: 8.10909090909091e-06, Loss: 0.8720288872718811
+ 61%|██████    | 775/1276 [40:11<22:30,  2.69s/it]12/08/2024 11:15:23 - INFO - __main__ -   Step: 775, LR: 8.092929292929293e-06, Loss: 0.8887524604797363
+ 61%|██████    | 776/1276 [40:14<24:01,  2.88s/it]12/08/2024 11:15:26 - INFO - __main__ -   Step: 776, LR: 8.076767676767677e-06, Loss: 0.6515584588050842
+ 61%|██████    | 777/1276 [40:17<24:03,  2.89s/it]12/08/2024 11:15:29 - INFO - __main__ -   Step: 777, LR: 8.060606060606061e-06, Loss: 0.7691032886505127
+ 61%|██████    | 778/1276 [40:20<24:10,  2.91s/it]12/08/2024 11:15:32 - INFO - __main__ -   Step: 778, LR: 8.044444444444444e-06, Loss: 0.7109100818634033
+ 61%|██████    | 779/1276 [40:23<23:36,  2.85s/it]12/08/2024 11:15:35 - INFO - __main__ -   Step: 779, LR: 8.02828282828283e-06, Loss: 0.736163854598999
+ 61%|██████    | 780/1276 [40:25<22:52,  2.77s/it]12/08/2024 11:15:37 - INFO - __main__ -   Step: 780, LR: 8.012121212121214e-06, Loss: 0.8146293759346008
+ 61%|██████    | 781/1276 [40:28<24:04,  2.92s/it]12/08/2024 11:15:41 - INFO - __main__ -   Step: 781, LR: 7.995959595959597e-06, Loss: 0.74494469165802
+ 61%|██████▏   | 782/1276 [40:31<23:28,  2.85s/it]12/08/2024 11:15:43 - INFO - __main__ -   Step: 782, LR: 7.97979797979798e-06, Loss: 0.8437566757202148
+ 61%|██████▏   | 783/1276 [40:34<23:53,  2.91s/it]12/08/2024 11:15:46 - INFO - __main__ -   Step: 783, LR: 7.963636363636365e-06, Loss: 0.8462432622909546
+ 61%|██████▏   | 784/1276 [40:37<23:58,  2.92s/it]12/08/2024 11:15:49 - INFO - __main__ -   Step: 784, LR: 7.947474747474748e-06, Loss: 0.9023000001907349
+ 62%|██████▏   | 785/1276 [40:40<23:14,  2.84s/it]12/08/2024 11:15:52 - INFO - __main__ -   Step: 785, LR: 7.931313131313131e-06, Loss: 0.7626138925552368
+ 62%|██████▏   | 786/1276 [40:43<23:53,  2.93s/it]12/08/2024 11:15:55 - INFO - __main__ -   Step: 786, LR: 7.915151515151516e-06, Loss: 1.0216591358184814
+ 62%|██████▏   | 787/1276 [40:46<23:35,  2.89s/it]12/08/2024 11:15:58 - INFO - __main__ -   Step: 787, LR: 7.898989898989899e-06, Loss: 0.685335636138916
+ 62%|██████▏   | 788/1276 [40:48<22:58,  2.82s/it]12/08/2024 11:16:01 - INFO - __main__ -   Step: 788, LR: 7.882828282828284e-06, Loss: 0.9458121657371521
+ 62%|██████▏   | 789/1276 [40:51<22:36,  2.78s/it]12/08/2024 11:16:03 - INFO - __main__ -   Step: 789, LR: 7.866666666666667e-06, Loss: 0.8377783894538879
+ 62%|██████▏   | 790/1276 [40:53<21:40,  2.68s/it]12/08/2024 11:16:06 - INFO - __main__ -   Step: 790, LR: 7.85050505050505e-06, Loss: 0.6252910494804382
+ 62%|██████▏   | 791/1276 [40:57<23:34,  2.92s/it]12/08/2024 11:16:09 - INFO - __main__ -   Step: 791, LR: 7.834343434343435e-06, Loss: 0.8424582481384277
+ 62%|██████▏   | 792/1276 [41:00<23:02,  2.86s/it]12/08/2024 11:16:12 - INFO - __main__ -   Step: 792, LR: 7.81818181818182e-06, Loss: 0.6321307420730591
+ 62%|██████▏   | 793/1276 [41:02<22:21,  2.78s/it]12/08/2024 11:16:15 - INFO - __main__ -   Step: 793, LR: 7.802020202020203e-06, Loss: 0.7734158635139465
+ 62%|██████▏   | 794/1276 [41:05<22:41,  2.82s/it]12/08/2024 11:16:17 - INFO - __main__ -   Step: 794, LR: 7.785858585858586e-06, Loss: 0.680334746837616
+ 62%|██████▏   | 795/1276 [41:09<24:58,  3.11s/it]12/08/2024 11:16:21 - INFO - __main__ -   Step: 795, LR: 7.76969696969697e-06, Loss: 0.6932825446128845
+ 62%|██████▏   | 796/1276 [41:12<24:22,  3.05s/it]12/08/2024 11:16:24 - INFO - __main__ -   Step: 796, LR: 7.753535353535354e-06, Loss: 0.8458294868469238
+ 62%|██████▏   | 797/1276 [41:15<23:23,  2.93s/it]12/08/2024 11:16:27 - INFO - __main__ -   Step: 797, LR: 7.737373737373739e-06, Loss: 0.8944540023803711
+ 63%|██████▎   | 798/1276 [41:18<23:40,  2.97s/it]12/08/2024 11:16:30 - INFO - __main__ -   Step: 798, LR: 7.721212121212122e-06, Loss: 1.0303857326507568
+ 63%|██████▎   | 799/1276 [41:21<24:19,  3.06s/it]12/08/2024 11:16:33 - INFO - __main__ -   Step: 799, LR: 7.705050505050505e-06, Loss: 0.7814391851425171
+ 63%|██████▎   | 800/1276 [41:24<24:26,  3.08s/it]12/08/2024 11:16:36 - INFO - __main__ -   Step: 800, LR: 7.68888888888889e-06, Loss: 0.7483136653900146
+12/08/2024 11:16:36 - INFO - __main__ - glob_checkpoints : ['./outputs/step-600', './outputs/step-800']
+12/08/2024 11:16:36 - INFO - __main__ - ordering_and_checkpoint_path: [(600, './outputs/step-600'), (800, './outputs/step-800')]
+12/08/2024 11:16:36 - INFO - __main__ - checkpoints_to_be_deleted:['./outputs/step-600']
+12/08/2024 11:16:36 - INFO - __main__ - Deleting older checkpoint [./outputs/step-600] due to args.save_total_limit
+12/08/2024 11:16:36 - INFO - accelerate.accelerator - Saving current state to ./outputs/step-800
+12/08/2024 11:16:36 - INFO - accelerate.accelerator - Saving DeepSpeed Model and Optimizer
+[2024-12-08 11:16:36,786] [INFO] [logging.py:128:log_dist] [Rank 0] [Torch] Checkpoint pytorch_model is about to be saved!
+[2024-12-08 11:16:36,815] [INFO] [logging.py:128:log_dist] [Rank 0] Saving model checkpoint: ./outputs/step-800/pytorch_model/mp_rank_00_model_states.pt
+[2024-12-08 11:16:36,815] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving ./outputs/step-800/pytorch_model/mp_rank_00_model_states.pt...
+[2024-12-08 11:16:51,766] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved ./outputs/step-800/pytorch_model/mp_rank_00_model_states.pt.
+[2024-12-08 11:16:51,771] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving ./outputs/step-800/pytorch_model/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt...
+[2024-12-08 11:16:51,771] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving ./outputs/step-800/pytorch_model/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt...
+[2024-12-08 11:16:51,771] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving ./outputs/step-800/pytorch_model/bf16_zero_pp_rank_7_mp_rank_00_optim_states.pt...
+[2024-12-08 11:16:51,771] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving ./outputs/step-800/pytorch_model/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt...
+[2024-12-08 11:16:51,771] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving ./outputs/step-800/pytorch_model/bf16_zero_pp_rank_6_mp_rank_00_optim_states.pt...
+[2024-12-08 11:16:51,771] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving ./outputs/step-800/pytorch_model/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt...
+[2024-12-08 11:16:51,771] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving ./outputs/step-800/pytorch_model/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt...
+[2024-12-08 11:16:51,771] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving ./outputs/step-800/pytorch_model/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt...
+[2024-12-08 11:17:09,302] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved ./outputs/step-800/pytorch_model/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt.
+[2024-12-08 11:17:09,302] [INFO] [engine.py:3536:_save_zero_checkpoint] zero checkpoint saved ./outputs/step-800/pytorch_model/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt
+[2024-12-08 11:17:09,302] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint pytorch_model is ready now!
+[2024-12-08 11:17:09,588] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved ./outputs/step-800/pytorch_model/bf16_zero_pp_rank_7_mp_rank_00_optim_states.pt.
+[2024-12-08 11:17:09,588] [INFO] [engine.py:3536:_save_zero_checkpoint] zero checkpoint saved ./outputs/step-800/pytorch_model/bf16_zero_pp_rank_7_mp_rank_00_optim_states.pt
+[2024-12-08 11:17:09,588] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint pytorch_model is ready now!
+[2024-12-08 11:17:09,686] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved ./outputs/step-800/pytorch_model/bf16_zero_pp_rank_6_mp_rank_00_optim_states.pt.
+[2024-12-08 11:17:09,687] [INFO] [engine.py:3536:_save_zero_checkpoint] zero checkpoint saved ./outputs/step-800/pytorch_model/bf16_zero_pp_rank_6_mp_rank_00_optim_states.pt
+[2024-12-08 11:17:09,687] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint pytorch_model is ready now!
+[2024-12-08 11:17:09,824] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved ./outputs/step-800/pytorch_model/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt.
+[2024-12-08 11:17:09,824] [INFO] [engine.py:3536:_save_zero_checkpoint] zero checkpoint saved ./outputs/step-800/pytorch_model/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt
+[2024-12-08 11:17:09,824] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint pytorch_model is ready now!
+[2024-12-08 11:17:10,053] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved ./outputs/step-800/pytorch_model/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt.
+[2024-12-08 11:17:10,058] [INFO] [engine.py:3536:_save_zero_checkpoint] zero checkpoint saved ./outputs/step-800/pytorch_model/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt
+[2024-12-08 11:17:10,059] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint pytorch_model is ready now!
+[2024-12-08 11:17:10,205] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved ./outputs/step-800/pytorch_model/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt.
+[2024-12-08 11:17:10,205] [INFO] [engine.py:3536:_save_zero_checkpoint] zero checkpoint saved ./outputs/step-800/pytorch_model/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt
+[2024-12-08 11:17:10,205] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint pytorch_model is ready now!
+[2024-12-08 11:17:10,208] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved ./outputs/step-800/pytorch_model/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt.
+[2024-12-08 11:17:10,209] [INFO] [engine.py:3536:_save_zero_checkpoint] zero checkpoint saved ./outputs/step-800/pytorch_model/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt
+[2024-12-08 11:17:10,209] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint pytorch_model is ready now!
+[2024-12-08 11:17:10,474] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved ./outputs/step-800/pytorch_model/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt.
+[2024-12-08 11:17:10,474] [INFO] [engine.py:3536:_save_zero_checkpoint] zero checkpoint saved ./outputs/step-800/pytorch_model/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt
+[2024-12-08 11:17:10,474] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint pytorch_model is ready now!
+12/08/2024 11:17:10 - INFO - accelerate.accelerator - DeepSpeed Model and Optimizer saved to output dir ./outputs/step-800/pytorch_model
+12/08/2024 11:17:10 - INFO - accelerate.checkpointing - Scheduler state saved in outputs/step-800/scheduler.bin
+12/08/2024 11:17:10 - INFO - accelerate.checkpointing - Sampler state for dataloader 0 saved in outputs/step-800/sampler.bin
+12/08/2024 11:17:10 - INFO - accelerate.checkpointing - Random states saved in outputs/step-800/random_states_0.pkl
+tokenizer config file saved in ./outputs/step-800/tokenizer_config.json
+Special tokens file saved in ./outputs/step-800/special_tokens_map.json
+ 63%|██████▎   | 801/1276 [42:01<1:44:37, 13.22s/it]12/08/2024 11:17:13 - INFO - __main__ -   Step: 801, LR: 7.672727272727273e-06, Loss: 0.8654620051383972
+ 63%|██████▎   | 802/1276 [42:04<1:21:28, 10.31s/it]12/08/2024 11:17:17 - INFO - __main__ -   Step: 802, LR: 7.656565656565658e-06, Loss: 0.7919036149978638
+ 63%|██████▎   | 803/1276 [42:07<1:03:58,  8.12s/it]12/08/2024 11:17:20 - INFO - __main__ -   Step: 803, LR: 7.64040404040404e-06, Loss: 0.8507137298583984
+ 63%|██████▎   | 804/1276 [42:10<51:03,  6.49s/it]  12/08/2024 11:17:22 - INFO - __main__ -   Step: 804, LR: 7.6242424242424254e-06, Loss: 0.8231717348098755
+ 63%|██████▎   | 805/1276 [42:13<43:03,  5.49s/it]12/08/2024 11:17:26 - INFO - __main__ -   Step: 805, LR: 7.6080808080808085e-06, Loss: 0.8465381860733032
+ 63%|██████▎   | 806/1276 [42:16<36:12,  4.62s/it]12/08/2024 11:17:28 - INFO - __main__ -   Step: 806, LR: 7.5919191919191925e-06, Loss: 0.6823117733001709
+ 63%|██████▎   | 807/1276 [42:18<30:47,  3.94s/it]12/08/2024 11:17:30 - INFO - __main__ -   Step: 807, LR: 7.5757575757575764e-06, Loss: 0.8937650918960571
+ 63%|██████▎   | 808/1276 [42:21<27:37,  3.54s/it]12/08/2024 11:17:33 - INFO - __main__ -   Step: 808, LR: 7.55959595959596e-06, Loss: 0.7810930609703064
+ 63%|██████▎   | 809/1276 [42:23<25:17,  3.25s/it]12/08/2024 11:17:36 - INFO - __main__ -   Step: 809, LR: 7.5434343434343435e-06, Loss: 0.6376233100891113
+ 63%|██████▎   | 810/1276 [42:26<23:49,  3.07s/it]12/08/2024 11:17:38 - INFO - __main__ -   Step: 810, LR: 7.5272727272727274e-06, Loss: 0.8446223735809326
+ 64%|██████▎   | 811/1276 [42:28<22:13,  2.87s/it]12/08/2024 11:17:41 - INFO - __main__ -   Step: 811, LR: 7.511111111111111e-06, Loss: 0.7270467281341553
+ 64%|██████▎   | 812/1276 [42:32<24:53,  3.22s/it]12/08/2024 11:17:45 - INFO - __main__ -   Step: 812, LR: 7.494949494949496e-06, Loss: 0.7294740676879883
+ 64%|██████▎   | 813/1276 [42:35<23:42,  3.07s/it]12/08/2024 11:17:47 - INFO - __main__ -   Step: 813, LR: 7.47878787878788e-06, Loss: 0.7747286558151245
+ 64%|██████▍   | 814/1276 [42:38<23:17,  3.03s/it]12/08/2024 11:17:50 - INFO - __main__ -   Step: 814, LR: 7.462626262626263e-06, Loss: 0.7438467741012573
+ 64%|██████▍   | 815/1276 [42:41<23:41,  3.08s/it]12/08/2024 11:17:54 - INFO - __main__ -   Step: 815, LR: 7.446464646464647e-06, Loss: 0.8031464219093323
+ 64%|██████▍   | 816/1276 [42:44<23:21,  3.05s/it]12/08/2024 11:17:57 - INFO - __main__ -   Step: 816, LR: 7.430303030303031e-06, Loss: 0.8557400703430176
+ 64%|██████▍   | 817/1276 [42:47<23:05,  3.02s/it]12/08/2024 11:17:59 - INFO - __main__ -   Step: 817, LR: 7.414141414141415e-06, Loss: 0.6467505097389221
+ 64%|██████▍   | 818/1276 [42:50<22:20,  2.93s/it]12/08/2024 11:18:02 - INFO - __main__ -   Step: 818, LR: 7.397979797979798e-06, Loss: 0.8558664321899414
+ 64%|██████▍   | 819/1276 [42:53<23:07,  3.04s/it]12/08/2024 11:18:06 - INFO - __main__ -   Step: 819, LR: 7.381818181818182e-06, Loss: 0.7154754400253296
+ 64%|██████▍   | 820/1276 [42:56<22:56,  3.02s/it]12/08/2024 11:18:08 - INFO - __main__ -   Step: 820, LR: 7.365656565656566e-06, Loss: 0.7321388721466064
+ 64%|██████▍   | 821/1276 [42:59<23:20,  3.08s/it]12/08/2024 11:18:12 - INFO - __main__ -   Step: 821, LR: 7.34949494949495e-06, Loss: 0.7810986042022705
+ 64%|██████▍   | 822/1276 [43:02<21:58,  2.90s/it]12/08/2024 11:18:14 - INFO - __main__ -   Step: 822, LR: 7.333333333333333e-06, Loss: 0.8229953050613403
+ 64%|██████▍   | 823/1276 [43:05<22:14,  2.95s/it]12/08/2024 11:18:17 - INFO - __main__ -   Step: 823, LR: 7.317171717171718e-06, Loss: 0.7640540599822998
+ 65%|██████▍   | 824/1276 [43:08<22:03,  2.93s/it]12/08/2024 11:18:20 - INFO - __main__ -   Step: 824, LR: 7.301010101010102e-06, Loss: 0.7870763540267944
+ 65%|██████▍   | 825/1276 [43:11<22:09,  2.95s/it]12/08/2024 11:18:23 - INFO - __main__ -   Step: 825, LR: 7.284848484848486e-06, Loss: 0.8193778991699219
+ 65%|██████▍   | 826/1276 [43:14<21:41,  2.89s/it]12/08/2024 11:18:26 - INFO - __main__ -   Step: 826, LR: 7.26868686868687e-06, Loss: 0.7049804925918579
+ 65%|██████▍   | 827/1276 [43:16<21:15,  2.84s/it]12/08/2024 11:18:29 - INFO - __main__ -   Step: 827, LR: 7.252525252525253e-06, Loss: 0.6739814281463623
+ 65%|██████▍   | 828/1276 [43:19<21:45,  2.91s/it]12/08/2024 11:18:32 - INFO - __main__ -   Step: 828, LR: 7.236363636363637e-06, Loss: 0.7666459083557129
+ 65%|██████▍   | 829/1276 [43:22<21:45,  2.92s/it]12/08/2024 11:18:35 - INFO - __main__ -   Step: 829, LR: 7.220202020202021e-06, Loss: 0.7185623645782471
+ 65%|██████▌   | 830/1276 [43:25<21:24,  2.88s/it]12/08/2024 11:18:37 - INFO - __main__ -   Step: 830, LR: 7.204040404040405e-06, Loss: 0.7669756412506104
+ 65%|██████▌   | 831/1276 [43:28<21:10,  2.85s/it]12/08/2024 11:18:40 - INFO - __main__ -   Step: 831, LR: 7.187878787878788e-06, Loss: 0.763130784034729
+ 65%|██████▌   | 832/1276 [43:31<20:47,  2.81s/it]12/08/2024 11:18:43 - INFO - __main__ -   Step: 832, LR: 7.171717171717172e-06, Loss: 0.8433780074119568
+ 65%|██████▌   | 833/1276 [43:33<20:16,  2.75s/it]12/08/2024 11:18:46 - INFO - __main__ -   Step: 833, LR: 7.155555555555556e-06, Loss: 0.7171117067337036
+ 65%|██████▌   | 834/1276 [43:36<20:55,  2.84s/it]12/08/2024 11:18:49 - INFO - __main__ -   Step: 834, LR: 7.1393939393939405e-06, Loss: 0.8901813626289368
+ 65%|██████▌   | 835/1276 [43:39<20:14,  2.75s/it]12/08/2024 11:18:51 - INFO - __main__ -   Step: 835, LR: 7.1232323232323245e-06, Loss: 0.790198564529419
+ 66%|██████▌   | 836/1276 [43:42<20:07,  2.75s/it]12/08/2024 11:18:54 - INFO - __main__ -   Step: 836, LR: 7.107070707070708e-06, Loss: 0.5716512799263
+ 66%|██████▌   | 837/1276 [43:44<20:01,  2.74s/it]12/08/2024 11:18:57 - INFO - __main__ -   Step: 837, LR: 7.0909090909090916e-06, Loss: 0.7737154960632324
+ 66%|██████▌   | 838/1276 [43:47<19:24,  2.66s/it]12/08/2024 11:18:59 - INFO - __main__ -   Step: 838, LR: 7.0747474747474755e-06, Loss: 0.726734459400177
+ 66%|██████▌   | 839/1276 [43:50<19:56,  2.74s/it]12/08/2024 11:19:02 - INFO - __main__ -   Step: 839, LR: 7.0585858585858595e-06, Loss: 0.7714075446128845
+ 66%|██████▌   | 840/1276 [43:53<20:14,  2.78s/it]12/08/2024 11:19:05 - INFO - __main__ -   Step: 840, LR: 7.0424242424242426e-06, Loss: 0.8716002702713013
+ 66%|██████▌   | 841/1276 [43:55<20:09,  2.78s/it]12/08/2024 11:19:08 - INFO - __main__ -   Step: 841, LR: 7.0262626262626265e-06, Loss: 0.7244415283203125
+ 66%|██████▌   | 842/1276 [43:59<22:12,  3.07s/it]12/08/2024 11:19:11 - INFO - __main__ -   Step: 842, LR: 7.0101010101010105e-06, Loss: 0.7431766390800476
+ 66%|██████▌   | 843/1276 [44:02<21:59,  3.05s/it]12/08/2024 11:19:14 - INFO - __main__ -   Step: 843, LR: 6.993939393939394e-06, Loss: 0.7119728326797485
+ 66%|██████▌   | 844/1276 [44:05<22:04,  3.07s/it]12/08/2024 11:19:17 - INFO - __main__ -   Step: 844, LR: 6.977777777777779e-06, Loss: 0.796985924243927
+ 66%|██████▌   | 845/1276 [44:08<22:06,  3.08s/it]12/08/2024 11:19:21 - INFO - __main__ -   Step: 845, LR: 6.961616161616162e-06, Loss: 0.8436837196350098
+ 66%|██████▋   | 846/1276 [44:11<21:17,  2.97s/it]12/08/2024 11:19:23 - INFO - __main__ -   Step: 846, LR: 6.945454545454546e-06, Loss: 0.94771409034729
+ 66%|██████▋   | 847/1276 [44:14<21:50,  3.05s/it]12/08/2024 11:19:27 - INFO - __main__ -   Step: 847, LR: 6.92929292929293e-06, Loss: 0.7595880031585693
+ 66%|██████▋   | 848/1276 [44:17<21:46,  3.05s/it]12/08/2024 11:19:30 - INFO - __main__ -   Step: 848, LR: 6.913131313131314e-06, Loss: 0.6648063659667969
+ 67%|██████▋   | 849/1276 [44:20<21:08,  2.97s/it]12/08/2024 11:19:32 - INFO - __main__ -   Step: 849, LR: 6.896969696969697e-06, Loss: 0.8019745945930481
+ 67%|██████▋   | 850/1276 [44:23<20:06,  2.83s/it]12/08/2024 11:19:35 - INFO - __main__ -   Step: 850, LR: 6.880808080808081e-06, Loss: 0.8793402910232544
+ 67%|██████▋   | 851/1276 [44:26<21:59,  3.11s/it]12/08/2024 11:19:39 - INFO - __main__ -   Step: 851, LR: 6.864646464646465e-06, Loss: 0.6294021010398865
+ 67%|██████▋   | 852/1276 [44:29<21:03,  2.98s/it]12/08/2024 11:19:41 - INFO - __main__ -   Step: 852, LR: 6.848484848484849e-06, Loss: 0.6585923433303833
+ 67%|██████▋   | 853/1276 [44:32<21:29,  3.05s/it]12/08/2024 11:19:45 - INFO - __main__ -   Step: 853, LR: 6.832323232323232e-06, Loss: 0.7894360423088074
+ 67%|██████▋   | 854/1276 [44:36<21:49,  3.10s/it]12/08/2024 11:19:48 - INFO - __main__ -   Step: 854, LR: 6.816161616161616e-06, Loss: 0.7922061681747437
+ 67%|██████▋   | 855/1276 [44:38<20:00,  2.85s/it]12/08/2024 11:19:50 - INFO - __main__ -   Step: 855, LR: 6.800000000000001e-06, Loss: 0.7051500082015991
+ 67%|██████▋   | 856/1276 [44:40<19:29,  2.79s/it]12/08/2024 11:19:53 - INFO - __main__ -   Step: 856, LR: 6.783838383838385e-06, Loss: 0.8501516580581665
+ 67%|██████▋   | 857/1276 [44:43<19:18,  2.77s/it]12/08/2024 11:19:55 - INFO - __main__ -   Step: 857, LR: 6.767676767676769e-06, Loss: 1.0240209102630615
+ 67%|██████▋   | 858/1276 [44:47<20:58,  3.01s/it]12/08/2024 11:19:59 - INFO - __main__ -   Step: 858, LR: 6.751515151515152e-06, Loss: 0.6510815024375916
+ 67%|██████▋   | 859/1276 [44:50<21:40,  3.12s/it]12/08/2024 11:20:02 - INFO - __main__ -   Step: 859, LR: 6.735353535353536e-06, Loss: 0.666777491569519
+ 67%|██████▋   | 860/1276 [44:53<21:19,  3.08s/it]12/08/2024 11:20:05 - INFO - __main__ -   Step: 860, LR: 6.71919191919192e-06, Loss: 0.7839903831481934
+ 67%|██████▋   | 861/1276 [44:56<21:29,  3.11s/it]12/08/2024 11:20:08 - INFO - __main__ -   Step: 861, LR: 6.703030303030304e-06, Loss: 0.8595138788223267
+ 68%|██████▊   | 862/1276 [45:00<23:07,  3.35s/it]12/08/2024 11:20:12 - INFO - __main__ -   Step: 862, LR: 6.686868686868687e-06, Loss: 0.7835738658905029
+ 68%|██████▊   | 863/1276 [45:03<21:19,  3.10s/it]12/08/2024 11:20:15 - INFO - __main__ -   Step: 863, LR: 6.670707070707071e-06, Loss: 0.5499041080474854
+ 68%|██████▊   | 864/1276 [45:06<20:49,  3.03s/it]12/08/2024 11:20:18 - INFO - __main__ -   Step: 864, LR: 6.654545454545455e-06, Loss: 0.7286891341209412
+ 68%|██████▊   | 865/1276 [45:09<20:58,  3.06s/it]12/08/2024 11:20:21 - INFO - __main__ -   Step: 865, LR: 6.638383838383839e-06, Loss: 0.7611972093582153
+ 68%|██████▊   | 866/1276 [45:12<20:47,  3.04s/it]12/08/2024 11:20:24 - INFO - __main__ -   Step: 866, LR: 6.6222222222222236e-06, Loss: 0.9223564863204956
+ 68%|██████▊   | 867/1276 [45:15<20:40,  3.03s/it]12/08/2024 11:20:27 - INFO - __main__ -   Step: 867, LR: 6.606060606060607e-06, Loss: 0.8131638765335083
+ 68%|██████▊   | 868/1276 [45:18<20:42,  3.04s/it]12/08/2024 11:20:30 - INFO - __main__ -   Step: 868, LR: 6.589898989898991e-06, Loss: 0.7484217286109924
+ 68%|██████▊   | 869/1276 [45:21<20:49,  3.07s/it]12/08/2024 11:20:33 - INFO - __main__ -   Step: 869, LR: 6.5737373737373746e-06, Loss: 0.8744144439697266
+ 68%|██████▊   | 870/1276 [45:24<20:56,  3.10s/it]12/08/2024 11:20:36 - INFO - __main__ -   Step: 870, LR: 6.5575757575757585e-06, Loss: 0.7447582483291626
+ 68%|██████▊   | 871/1276 [45:27<20:29,  3.04s/it]12/08/2024 11:20:39 - INFO - __main__ -   Step: 871, LR: 6.541414141414142e-06, Loss: 0.6817704439163208
+ 68%|██████▊   | 872/1276 [45:30<20:15,  3.01s/it]12/08/2024 11:20:42 - INFO - __main__ -   Step: 872, LR: 6.525252525252526e-06, Loss: 0.9535168409347534
+ 68%|██████▊   | 873/1276 [45:33<19:50,  2.95s/it]12/08/2024 11:20:45 - INFO - __main__ -   Step: 873, LR: 6.5090909090909095e-06, Loss: 0.8200312852859497
+ 68%|██████▊   | 874/1276 [45:36<20:18,  3.03s/it]12/08/2024 11:20:48 - INFO - __main__ -   Step: 874, LR: 6.4929292929292935e-06, Loss: 0.6059428453445435
+ 69%|██████▊   | 875/1276 [45:39<20:35,  3.08s/it]12/08/2024 11:20:51 - INFO - __main__ -   Step: 875, LR: 6.476767676767677e-06, Loss: 0.868547797203064
+ 69%|██████▊   | 876/1276 [45:42<19:51,  2.98s/it]12/08/2024 11:20:54 - INFO - __main__ -   Step: 876, LR: 6.460606060606061e-06, Loss: 0.9635869860649109
+ 69%|██████▊   | 877/1276 [45:45<19:45,  2.97s/it]12/08/2024 11:20:57 - INFO - __main__ -   Step: 877, LR: 6.444444444444445e-06, Loss: 0.8963879346847534
+ 69%|██████▉   | 878/1276 [45:48<19:47,  2.98s/it]12/08/2024 11:21:00 - INFO - __main__ -   Step: 878, LR: 6.428282828282829e-06, Loss: 0.8580749034881592
+ 69%|██████▉   | 879/1276 [45:51<19:30,  2.95s/it]12/08/2024 11:21:03 - INFO - __main__ -   Step: 879, LR: 6.412121212121213e-06, Loss: 0.8011524677276611
+ 69%|██████▉   | 880/1276 [45:54<19:17,  2.92s/it]12/08/2024 11:21:06 - INFO - __main__ -   Step: 880, LR: 6.395959595959596e-06, Loss: 0.7287931442260742
+ 69%|██████▉   | 881/1276 [45:56<19:00,  2.89s/it]12/08/2024 11:21:09 - INFO - __main__ -   Step: 881, LR: 6.37979797979798e-06, Loss: 0.6935116052627563
+ 69%|██████▉   | 882/1276 [45:59<19:25,  2.96s/it]12/08/2024 11:21:12 - INFO - __main__ -   Step: 882, LR: 6.363636363636364e-06, Loss: 0.7803897857666016
+ 69%|██████▉   | 883/1276 [46:02<19:29,  2.98s/it]12/08/2024 11:21:15 - INFO - __main__ -   Step: 883, LR: 6.347474747474748e-06, Loss: 0.9720478057861328
+ 69%|██████▉   | 884/1276 [46:05<18:32,  2.84s/it]12/08/2024 11:21:17 - INFO - __main__ -   Step: 884, LR: 6.331313131313131e-06, Loss: 0.8151977062225342
+ 69%|██████▉   | 885/1276 [46:08<19:06,  2.93s/it]12/08/2024 11:21:20 - INFO - __main__ -   Step: 885, LR: 6.315151515151515e-06, Loss: 0.8371175527572632
+ 69%|██████▉   | 886/1276 [46:11<19:28,  3.00s/it]12/08/2024 11:21:24 - INFO - __main__ -   Step: 886, LR: 6.298989898989899e-06, Loss: 0.8439988493919373
+ 70%|██████▉   | 887/1276 [46:14<18:24,  2.84s/it]12/08/2024 11:21:26 - INFO - __main__ -   Step: 887, LR: 6.282828282828284e-06, Loss: 0.7181569933891296
+ 70%|██████▉   | 888/1276 [46:16<18:02,  2.79s/it]12/08/2024 11:21:29 - INFO - __main__ -   Step: 888, LR: 6.266666666666668e-06, Loss: 0.8147862553596497
+ 70%|██████▉   | 889/1276 [46:19<18:24,  2.85s/it]12/08/2024 11:21:32 - INFO - __main__ -   Step: 889, LR: 6.250505050505051e-06, Loss: 0.883024275302887
+ 70%|██████▉   | 890/1276 [46:23<19:03,  2.96s/it]12/08/2024 11:21:35 - INFO - __main__ -   Step: 890, LR: 6.234343434343435e-06, Loss: 0.8101468682289124
+ 70%|██████▉   | 891/1276 [46:26<19:13,  3.00s/it]12/08/2024 11:21:38 - INFO - __main__ -   Step: 891, LR: 6.218181818181819e-06, Loss: 0.7170296907424927
+ 70%|██████▉   | 892/1276 [46:29<19:01,  2.97s/it]12/08/2024 11:21:41 - INFO - __main__ -   Step: 892, LR: 6.202020202020203e-06, Loss: 0.7524452209472656
+ 70%|██████▉   | 893/1276 [46:31<18:08,  2.84s/it]12/08/2024 11:21:43 - INFO - __main__ -   Step: 893, LR: 6.185858585858586e-06, Loss: 0.6473301649093628
+ 70%|███████   | 894/1276 [46:34<18:15,  2.87s/it]12/08/2024 11:21:46 - INFO - __main__ -   Step: 894, LR: 6.16969696969697e-06, Loss: 0.8809806108474731
+ 70%|███████   | 895/1276 [46:37<18:56,  2.98s/it]12/08/2024 11:21:50 - INFO - __main__ -   Step: 895, LR: 6.153535353535354e-06, Loss: 0.7464596033096313
+ 70%|███████   | 896/1276 [46:40<18:45,  2.96s/it]12/08/2024 11:21:53 - INFO - __main__ -   Step: 896, LR: 6.137373737373738e-06, Loss: 0.6511839628219604
+ 70%|███████   | 897/1276 [46:43<18:14,  2.89s/it]12/08/2024 11:21:55 - INFO - __main__ -   Step: 897, LR: 6.121212121212121e-06, Loss: 0.7507247924804688
+ 70%|███████   | 898/1276 [46:46<18:00,  2.86s/it]12/08/2024 11:21:58 - INFO - __main__ -   Step: 898, LR: 6.105050505050506e-06, Loss: 0.6842886209487915
+ 70%|███████   | 899/1276 [46:49<18:26,  2.94s/it]12/08/2024 11:22:01 - INFO - __main__ -   Step: 899, LR: 6.08888888888889e-06, Loss: 0.7917443513870239
+ 71%|███████   | 900/1276 [46:51<17:06,  2.73s/it]12/08/2024 11:22:03 - INFO - __main__ -   Step: 900, LR: 6.072727272727274e-06, Loss: 0.6979984045028687
+ 71%|███████   | 901/1276 [46:54<17:15,  2.76s/it]12/08/2024 11:22:06 - INFO - __main__ -   Step: 901, LR: 6.056565656565658e-06, Loss: 0.732917070388794
+ 71%|███████   | 902/1276 [46:58<19:31,  3.13s/it]12/08/2024 11:22:10 - INFO - __main__ -   Step: 902, LR: 6.040404040404041e-06, Loss: 0.7662651538848877
+ 71%|███████   | 903/1276 [47:00<18:12,  2.93s/it]12/08/2024 11:22:13 - INFO - __main__ -   Step: 903, LR: 6.024242424242425e-06, Loss: 0.8094894289970398
+ 71%|███████   | 904/1276 [47:03<17:23,  2.80s/it]12/08/2024 11:22:15 - INFO - __main__ -   Step: 904, LR: 6.008080808080809e-06, Loss: 0.6860641837120056
+ 71%|███████   | 905/1276 [47:07<19:07,  3.09s/it]12/08/2024 11:22:19 - INFO - __main__ -   Step: 905, LR: 5.9919191919191926e-06, Loss: 0.7247481942176819
+ 71%|███████   | 906/1276 [47:10<19:23,  3.14s/it]12/08/2024 11:22:22 - INFO - __main__ -   Step: 906, LR: 5.975757575757576e-06, Loss: 0.6494046449661255
+ 71%|███████   | 907/1276 [47:13<18:47,  3.05s/it]12/08/2024 11:22:25 - INFO - __main__ -   Step: 907, LR: 5.95959595959596e-06, Loss: 0.6938532590866089
+ 71%|███████   | 908/1276 [47:16<18:10,  2.96s/it]12/08/2024 11:22:28 - INFO - __main__ -   Step: 908, LR: 5.943434343434344e-06, Loss: 0.8336864709854126
+ 71%|███████   | 909/1276 [47:18<17:56,  2.93s/it]12/08/2024 11:22:31 - INFO - __main__ -   Step: 909, LR: 5.927272727272728e-06, Loss: 0.7993050813674927
+ 71%|███████▏  | 910/1276 [47:22<18:35,  3.05s/it]12/08/2024 11:22:34 - INFO - __main__ -   Step: 910, LR: 5.911111111111112e-06, Loss: 0.643141508102417
+ 71%|███████▏  | 911/1276 [47:24<17:30,  2.88s/it]12/08/2024 11:22:37 - INFO - __main__ -   Step: 911, LR: 5.894949494949495e-06, Loss: 0.7507585287094116
+ 71%|███████▏  | 912/1276 [47:27<16:59,  2.80s/it]12/08/2024 11:22:39 - INFO - __main__ -   Step: 912, LR: 5.878787878787879e-06, Loss: 0.762886643409729
+ 72%|███████▏  | 913/1276 [47:30<17:15,  2.85s/it]12/08/2024 11:22:42 - INFO - __main__ -   Step: 913, LR: 5.862626262626263e-06, Loss: 0.7784391045570374
+ 72%|███████▏  | 914/1276 [47:34<19:06,  3.17s/it]12/08/2024 11:22:46 - INFO - __main__ -   Step: 914, LR: 5.846464646464647e-06, Loss: 0.7142713665962219
+ 72%|███████▏  | 915/1276 [47:36<18:13,  3.03s/it]12/08/2024 11:22:49 - INFO - __main__ -   Step: 915, LR: 5.83030303030303e-06, Loss: 0.6766709089279175
+ 72%|███████▏  | 916/1276 [47:40<19:30,  3.25s/it]12/08/2024 11:22:52 - INFO - __main__ -   Step: 916, LR: 5.814141414141414e-06, Loss: 0.7457170486450195
+ 72%|███████▏  | 917/1276 [47:42<17:19,  2.89s/it]12/08/2024 11:22:55 - INFO - __main__ -   Step: 917, LR: 5.797979797979798e-06, Loss: 0.6316745281219482
+ 72%|███████▏  | 918/1276 [47:45<17:33,  2.94s/it]12/08/2024 11:22:58 - INFO - __main__ -   Step: 918, LR: 5.781818181818181e-06, Loss: 0.6249711513519287
+ 72%|███████▏  | 919/1276 [47:48<16:56,  2.85s/it]12/08/2024 11:23:00 - INFO - __main__ -   Step: 919, LR: 5.765656565656567e-06, Loss: 0.701921284198761
+ 72%|███████▏  | 920/1276 [47:51<16:25,  2.77s/it]12/08/2024 11:23:03 - INFO - __main__ -   Step: 920, LR: 5.74949494949495e-06, Loss: 0.8627495169639587
+ 72%|███████▏  | 921/1276 [47:54<16:58,  2.87s/it]12/08/2024 11:23:06 - INFO - __main__ -   Step: 921, LR: 5.733333333333334e-06, Loss: 0.7968130111694336
+ 72%|███████▏  | 922/1276 [47:57<17:40,  3.00s/it]12/08/2024 11:23:09 - INFO - __main__ -   Step: 922, LR: 5.717171717171718e-06, Loss: 0.7099003791809082
+ 72%|███████▏  | 923/1276 [48:00<17:53,  3.04s/it]12/08/2024 11:23:12 - INFO - __main__ -   Step: 923, LR: 5.701010101010102e-06, Loss: 0.5575281381607056
+ 72%|███████▏  | 924/1276 [48:03<18:01,  3.07s/it]12/08/2024 11:23:15 - INFO - __main__ -   Step: 924, LR: 5.684848484848485e-06, Loss: 0.685705304145813
+ 72%|███████▏  | 925/1276 [48:06<17:13,  2.95s/it]12/08/2024 11:23:18 - INFO - __main__ -   Step: 925, LR: 5.668686868686869e-06, Loss: 0.8726798295974731
+ 73%|███████▎  | 926/1276 [48:09<16:56,  2.90s/it]12/08/2024 11:23:21 - INFO - __main__ -   Step: 926, LR: 5.652525252525253e-06, Loss: 0.7280025482177734
+ 73%|███████▎  | 927/1276 [48:12<16:54,  2.91s/it]12/08/2024 11:23:24 - INFO - __main__ -   Step: 927, LR: 5.636363636363636e-06, Loss: 0.683560848236084
+ 73%|███████▎  | 928/1276 [48:14<16:01,  2.76s/it]12/08/2024 11:23:26 - INFO - __main__ -   Step: 928, LR: 5.62020202020202e-06, Loss: 0.6930418610572815
+ 73%|███████▎  | 929/1276 [48:17<15:51,  2.74s/it]12/08/2024 11:23:29 - INFO - __main__ -   Step: 929, LR: 5.604040404040404e-06, Loss: 0.7655029892921448
+ 73%|███████▎  | 930/1276 [48:20<16:00,  2.78s/it]12/08/2024 11:23:32 - INFO - __main__ -   Step: 930, LR: 5.587878787878789e-06, Loss: 0.8808374404907227
+ 73%|███████▎  | 931/1276 [48:23<17:03,  2.97s/it]12/08/2024 11:23:35 - INFO - __main__ -   Step: 931, LR: 5.571717171717173e-06, Loss: 0.7825918197631836
+ 73%|███████▎  | 932/1276 [48:27<18:02,  3.15s/it]12/08/2024 11:23:39 - INFO - __main__ -   Step: 932, LR: 5.555555555555557e-06, Loss: 0.7734348773956299
+ 73%|███████▎  | 933/1276 [48:30<18:41,  3.27s/it]12/08/2024 11:23:42 - INFO - __main__ -   Step: 933, LR: 5.53939393939394e-06, Loss: 0.871814489364624
+ 73%|███████▎  | 934/1276 [48:33<17:14,  3.03s/it]12/08/2024 11:23:45 - INFO - __main__ -   Step: 934, LR: 5.523232323232324e-06, Loss: 0.9891898036003113
+ 73%|███████▎  | 935/1276 [48:35<16:41,  2.94s/it]12/08/2024 11:23:48 - INFO - __main__ -   Step: 935, LR: 5.507070707070708e-06, Loss: 0.8996754884719849
+ 73%|███████▎  | 936/1276 [48:38<16:52,  2.98s/it]12/08/2024 11:23:51 - INFO - __main__ -   Step: 936, LR: 5.490909090909091e-06, Loss: 0.7934063673019409
+ 73%|███████▎  | 937/1276 [48:41<16:24,  2.90s/it]12/08/2024 11:23:53 - INFO - __main__ -   Step: 937, LR: 5.474747474747475e-06, Loss: 0.7351316213607788
+ 74%|███████▎  | 938/1276 [48:44<15:49,  2.81s/it]12/08/2024 11:23:56 - INFO - __main__ -   Step: 938, LR: 5.458585858585859e-06, Loss: 0.8264817595481873
+ 74%|███████▎  | 939/1276 [48:47<16:01,  2.85s/it]12/08/2024 11:23:59 - INFO - __main__ -   Step: 939, LR: 5.442424242424243e-06, Loss: 0.7834478616714478
+ 74%|███████▎  | 940/1276 [48:50<16:48,  3.00s/it]12/08/2024 11:24:02 - INFO - __main__ -   Step: 940, LR: 5.4262626262626274e-06, Loss: 0.8137088418006897
+ 74%|███████▎  | 941/1276 [48:52<15:49,  2.83s/it]12/08/2024 11:24:05 - INFO - __main__ -   Step: 941, LR: 5.410101010101011e-06, Loss: 0.7950267791748047
+ 74%|███████▍  | 942/1276 [48:56<16:17,  2.93s/it]12/08/2024 11:24:08 - INFO - __main__ -   Step: 942, LR: 5.3939393939393945e-06, Loss: 0.7096163034439087
+ 74%|███████▍  | 943/1276 [48:58<15:44,  2.84s/it]12/08/2024 11:24:10 - INFO - __main__ -   Step: 943, LR: 5.3777777777777784e-06, Loss: 0.9964465498924255
+ 74%|███████▍  | 944/1276 [49:01<15:56,  2.88s/it]12/08/2024 11:24:13 - INFO - __main__ -   Step: 944, LR: 5.361616161616162e-06, Loss: 0.7288278937339783
+ 74%|███████▍  | 945/1276 [49:05<17:03,  3.09s/it]12/08/2024 11:24:17 - INFO - __main__ -   Step: 945, LR: 5.3454545454545455e-06, Loss: 0.7697495222091675
+ 74%|███████▍  | 946/1276 [49:08<17:38,  3.21s/it]12/08/2024 11:24:21 - INFO - __main__ -   Step: 946, LR: 5.3292929292929294e-06, Loss: 0.8508481979370117
+ 74%|███████▍  | 947/1276 [49:11<16:29,  3.01s/it]12/08/2024 11:24:23 - INFO - __main__ -   Step: 947, LR: 5.313131313131313e-06, Loss: 0.8458635210990906
+ 74%|███████▍  | 948/1276 [49:14<16:22,  3.00s/it]12/08/2024 11:24:26 - INFO - __main__ -   Step: 948, LR: 5.296969696969697e-06, Loss: 0.8522448539733887
+ 74%|███████▍  | 949/1276 [49:16<15:17,  2.80s/it]12/08/2024 11:24:28 - INFO - __main__ -   Step: 949, LR: 5.2808080808080804e-06, Loss: 0.6751601696014404
+ 74%|███████▍  | 950/1276 [49:19<14:53,  2.74s/it]12/08/2024 11:24:31 - INFO - __main__ -   Step: 950, LR: 5.264646464646464e-06, Loss: 0.7400888204574585
+ 75%|███████▍  | 951/1276 [49:21<14:27,  2.67s/it]12/08/2024 11:24:33 - INFO - __main__ -   Step: 951, LR: 5.248484848484849e-06, Loss: 0.8370643258094788
+ 75%|███████▍  | 952/1276 [49:24<14:57,  2.77s/it]12/08/2024 11:24:36 - INFO - __main__ -   Step: 952, LR: 5.232323232323233e-06, Loss: 0.8859612941741943
+ 75%|███████▍  | 953/1276 [49:27<14:31,  2.70s/it]12/08/2024 11:24:39 - INFO - __main__ -   Step: 953, LR: 5.216161616161617e-06, Loss: 0.6921341419219971
+ 75%|███████▍  | 954/1276 [49:29<14:29,  2.70s/it]12/08/2024 11:24:42 - INFO - __main__ -   Step: 954, LR: 5.2e-06, Loss: 0.810423731803894
+ 75%|███████▍  | 955/1276 [49:32<14:49,  2.77s/it]12/08/2024 11:24:45 - INFO - __main__ -   Step: 955, LR: 5.183838383838384e-06, Loss: 0.7695225477218628
+ 75%|███████▍  | 956/1276 [49:36<15:34,  2.92s/it]12/08/2024 11:24:48 - INFO - __main__ -   Step: 956, LR: 5.167676767676768e-06, Loss: 0.8193429708480835
+ 75%|███████▌  | 957/1276 [49:38<15:05,  2.84s/it]12/08/2024 11:24:51 - INFO - __main__ -   Step: 957, LR: 5.151515151515152e-06, Loss: 0.7731437683105469
+ 75%|███████▌  | 958/1276 [49:40<14:00,  2.64s/it]12/08/2024 11:24:53 - INFO - __main__ -   Step: 958, LR: 5.135353535353535e-06, Loss: 0.7326316833496094
+ 75%|███████▌  | 959/1276 [49:43<14:25,  2.73s/it]12/08/2024 11:24:56 - INFO - __main__ -   Step: 959, LR: 5.119191919191919e-06, Loss: 0.9071581959724426
+ 75%|███████▌  | 960/1276 [49:46<14:27,  2.74s/it]12/08/2024 11:24:58 - INFO - __main__ -   Step: 960, LR: 5.103030303030303e-06, Loss: 0.7233051657676697
+ 75%|███████▌  | 961/1276 [49:49<14:08,  2.69s/it]12/08/2024 11:25:01 - INFO - __main__ -   Step: 961, LR: 5.086868686868687e-06, Loss: 0.8020584583282471
+ 75%|███████▌  | 962/1276 [49:52<14:57,  2.86s/it]12/08/2024 11:25:04 - INFO - __main__ -   Step: 962, LR: 5.070707070707072e-06, Loss: 0.8802716732025146
+ 75%|███████▌  | 963/1276 [49:55<15:02,  2.88s/it]12/08/2024 11:25:07 - INFO - __main__ -   Step: 963, LR: 5.054545454545455e-06, Loss: 0.7366408109664917
+ 76%|███████▌  | 964/1276 [49:58<15:43,  3.02s/it]12/08/2024 11:25:11 - INFO - __main__ -   Step: 964, LR: 5.038383838383839e-06, Loss: 1.0432395935058594
+ 76%|███████▌  | 965/1276 [50:02<16:27,  3.18s/it]12/08/2024 11:25:14 - INFO - __main__ -   Step: 965, LR: 5.022222222222223e-06, Loss: 0.7877703905105591
+ 76%|███████▌  | 966/1276 [50:06<17:31,  3.39s/it]12/08/2024 11:25:18 - INFO - __main__ -   Step: 966, LR: 5.006060606060607e-06, Loss: 0.6885089874267578
+ 76%|███████▌  | 967/1276 [50:09<17:11,  3.34s/it]12/08/2024 11:25:21 - INFO - __main__ -   Step: 967, LR: 4.98989898989899e-06, Loss: 0.8271964192390442
+ 76%|███████▌  | 968/1276 [50:12<16:14,  3.16s/it]12/08/2024 11:25:24 - INFO - __main__ -   Step: 968, LR: 4.973737373737374e-06, Loss: 0.7427286505699158
+ 76%|███████▌  | 969/1276 [50:15<15:37,  3.05s/it]12/08/2024 11:25:27 - INFO - __main__ -   Step: 969, LR: 4.957575757575758e-06, Loss: 0.6929015517234802
+ 76%|███████▌  | 970/1276 [50:18<15:44,  3.09s/it]12/08/2024 11:25:30 - INFO - __main__ -   Step: 970, LR: 4.941414141414142e-06, Loss: 0.9626719951629639
+ 76%|███████▌  | 971/1276 [50:20<15:16,  3.01s/it]12/08/2024 11:25:33 - INFO - __main__ -   Step: 971, LR: 4.925252525252526e-06, Loss: 0.5902804136276245
+ 76%|███████▌  | 972/1276 [50:24<15:37,  3.08s/it]12/08/2024 11:25:36 - INFO - __main__ -   Step: 972, LR: 4.90909090909091e-06, Loss: 0.7645376920700073
+ 76%|███████▋  | 973/1276 [50:27<15:04,  2.99s/it]12/08/2024 11:25:39 - INFO - __main__ -   Step: 973, LR: 4.8929292929292936e-06, Loss: 0.7653946876525879
+ 76%|███████▋  | 974/1276 [50:30<15:32,  3.09s/it]12/08/2024 11:25:42 - INFO - __main__ -   Step: 974, LR: 4.876767676767677e-06, Loss: 0.6553083658218384
+ 76%|███████▋  | 975/1276 [50:33<15:06,  3.01s/it]12/08/2024 11:25:45 - INFO - __main__ -   Step: 975, LR: 4.8606060606060615e-06, Loss: 0.6253150701522827
+ 76%|███████▋  | 976/1276 [50:35<14:36,  2.92s/it]12/08/2024 11:25:48 - INFO - __main__ -   Step: 976, LR: 4.8444444444444446e-06, Loss: 0.6548284292221069
+ 77%|███████▋  | 977/1276 [50:39<15:27,  3.10s/it]12/08/2024 11:25:51 - INFO - __main__ -   Step: 977, LR: 4.8282828282828285e-06, Loss: 0.6714972257614136
+ 77%|███████▋  | 978/1276 [50:42<14:52,  2.99s/it]12/08/2024 11:25:54 - INFO - __main__ -   Step: 978, LR: 4.8121212121212125e-06, Loss: 0.7521610260009766
+ 77%|███████▋  | 979/1276 [50:44<13:57,  2.82s/it]12/08/2024 11:25:56 - INFO - __main__ -   Step: 979, LR: 4.795959595959596e-06, Loss: 0.772738516330719
+ 77%|███████▋  | 980/1276 [50:47<14:19,  2.91s/it]12/08/2024 11:25:59 - INFO - __main__ -   Step: 980, LR: 4.77979797979798e-06, Loss: 0.8161270618438721
+ 77%|███████▋  | 981/1276 [50:50<14:45,  3.00s/it]12/08/2024 11:26:03 - INFO - __main__ -   Step: 981, LR: 4.763636363636364e-06, Loss: 0.6815635561943054
+ 77%|███████▋  | 982/1276 [50:54<15:21,  3.13s/it]12/08/2024 11:26:06 - INFO - __main__ -   Step: 982, LR: 4.747474747474748e-06, Loss: 0.883733868598938
+ 77%|███████▋  | 983/1276 [50:57<15:11,  3.11s/it]12/08/2024 11:26:09 - INFO - __main__ -   Step: 983, LR: 4.731313131313131e-06, Loss: 0.7113447189331055
+ 77%|███████▋  | 984/1276 [51:00<15:16,  3.14s/it]12/08/2024 11:26:12 - INFO - __main__ -   Step: 984, LR: 4.715151515151515e-06, Loss: 0.7053223848342896
+ 77%|███████▋  | 985/1276 [51:03<14:46,  3.05s/it]12/08/2024 11:26:15 - INFO - __main__ -   Step: 985, LR: 4.698989898989899e-06, Loss: 0.8377911448478699
+ 77%|███████▋  | 986/1276 [51:05<13:58,  2.89s/it]12/08/2024 11:26:18 - INFO - __main__ -   Step: 986, LR: 4.682828282828283e-06, Loss: 0.7642593383789062
+ 77%|███████▋  | 987/1276 [51:08<13:24,  2.78s/it]12/08/2024 11:26:20 - INFO - __main__ -   Step: 987, LR: 4.666666666666667e-06, Loss: 0.8915601968765259
+ 77%|███████▋  | 988/1276 [51:10<12:53,  2.68s/it]12/08/2024 11:26:23 - INFO - __main__ -   Step: 988, LR: 4.650505050505051e-06, Loss: 0.7041085958480835
+ 78%|███████▊  | 989/1276 [51:14<13:27,  2.81s/it]12/08/2024 11:26:26 - INFO - __main__ -   Step: 989, LR: 4.634343434343434e-06, Loss: 0.7694681882858276
+ 78%|███████▊  | 990/1276 [51:17<13:55,  2.92s/it]12/08/2024 11:26:29 - INFO - __main__ -   Step: 990, LR: 4.618181818181818e-06, Loss: 0.6072460412979126
+ 78%|███████▊  | 991/1276 [51:20<14:02,  2.95s/it]12/08/2024 11:26:32 - INFO - __main__ -   Step: 991, LR: 4.602020202020203e-06, Loss: 0.7159603238105774
+ 78%|███████▊  | 992/1276 [51:22<13:32,  2.86s/it]12/08/2024 11:26:35 - INFO - __main__ -   Step: 992, LR: 4.585858585858586e-06, Loss: 0.7882999777793884
+ 78%|███████▊  | 993/1276 [51:25<13:37,  2.89s/it]12/08/2024 11:26:38 - INFO - __main__ -   Step: 993, LR: 4.56969696969697e-06, Loss: 0.7284389138221741
+ 78%|███████▊  | 994/1276 [51:28<13:10,  2.80s/it]12/08/2024 11:26:40 - INFO - __main__ -   Step: 994, LR: 4.553535353535354e-06, Loss: 0.6591836810112
+ 78%|███████▊  | 995/1276 [51:31<14:00,  2.99s/it]12/08/2024 11:26:44 - INFO - __main__ -   Step: 995, LR: 4.537373737373738e-06, Loss: 0.8689616918563843
+ 78%|███████▊  | 996/1276 [51:34<13:27,  2.88s/it]12/08/2024 11:26:46 - INFO - __main__ -   Step: 996, LR: 4.521212121212122e-06, Loss: 0.9173871278762817
+ 78%|███████▊  | 997/1276 [51:37<13:11,  2.84s/it]12/08/2024 11:26:49 - INFO - __main__ -   Step: 997, LR: 4.505050505050506e-06, Loss: 0.6595174074172974
+ 78%|███████▊  | 998/1276 [51:39<12:43,  2.75s/it]12/08/2024 11:26:52 - INFO - __main__ -   Step: 998, LR: 4.488888888888889e-06, Loss: 0.7445048093795776
+ 78%|███████▊  | 999/1276 [51:42<12:06,  2.62s/it]12/08/2024 11:26:54 - INFO - __main__ -   Step: 999, LR: 4.472727272727273e-06, Loss: 0.6608188152313232
+ 78%|███████▊  | 1000/1276 [51:44<11:42,  2.54s/it]12/08/2024 11:26:56 - INFO - __main__ -   Step: 1000, LR: 4.456565656565657e-06, Loss: 0.9302124381065369
+12/08/2024 11:26:56 - INFO - __main__ - glob_checkpoints : ['./outputs/step-1000', './outputs/step-800']
+12/08/2024 11:26:56 - INFO - __main__ - ordering_and_checkpoint_path: [(1000, './outputs/step-1000'), (800, './outputs/step-800')]
+12/08/2024 11:26:56 - INFO - __main__ - checkpoints_to_be_deleted:['./outputs/step-800']
+12/08/2024 11:26:56 - INFO - __main__ - Deleting older checkpoint [./outputs/step-800] due to args.save_total_limit
+12/08/2024 11:26:56 - INFO - accelerate.accelerator - Saving current state to ./outputs/step-1000
+12/08/2024 11:26:56 - INFO - accelerate.accelerator - Saving DeepSpeed Model and Optimizer
+[2024-12-08 11:26:56,754] [INFO] [logging.py:128:log_dist] [Rank 0] [Torch] Checkpoint pytorch_model is about to be saved!
+[2024-12-08 11:26:56,761] [INFO] [logging.py:128:log_dist] [Rank 0] Saving model checkpoint: ./outputs/step-1000/pytorch_model/mp_rank_00_model_states.pt
+[2024-12-08 11:26:56,761] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving ./outputs/step-1000/pytorch_model/mp_rank_00_model_states.pt...
+[2024-12-08 11:27:12,950] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved ./outputs/step-1000/pytorch_model/mp_rank_00_model_states.pt.
+[2024-12-08 11:27:12,955] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving ./outputs/step-1000/pytorch_model/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt...
+[2024-12-08 11:27:12,955] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving ./outputs/step-1000/pytorch_model/bf16_zero_pp_rank_7_mp_rank_00_optim_states.pt...
+[2024-12-08 11:27:12,955] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving ./outputs/step-1000/pytorch_model/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt...
+[2024-12-08 11:27:12,955] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving ./outputs/step-1000/pytorch_model/bf16_zero_pp_rank_6_mp_rank_00_optim_states.pt...
+[2024-12-08 11:27:12,955] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving ./outputs/step-1000/pytorch_model/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt...
+[2024-12-08 11:27:12,955] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving ./outputs/step-1000/pytorch_model/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt...
+[2024-12-08 11:27:12,955] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving ./outputs/step-1000/pytorch_model/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt...
+[2024-12-08 11:27:12,955] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving ./outputs/step-1000/pytorch_model/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt...
+[2024-12-08 11:27:30,065] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved ./outputs/step-1000/pytorch_model/bf16_zero_pp_rank_6_mp_rank_00_optim_states.pt.
+[2024-12-08 11:27:30,065] [INFO] [engine.py:3536:_save_zero_checkpoint] zero checkpoint saved ./outputs/step-1000/pytorch_model/bf16_zero_pp_rank_6_mp_rank_00_optim_states.pt
+[2024-12-08 11:27:30,065] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint pytorch_model is ready now!
+[2024-12-08 11:27:30,649] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved ./outputs/step-1000/pytorch_model/bf16_zero_pp_rank_7_mp_rank_00_optim_states.pt.
+[2024-12-08 11:27:30,649] [INFO] [engine.py:3536:_save_zero_checkpoint] zero checkpoint saved ./outputs/step-1000/pytorch_model/bf16_zero_pp_rank_7_mp_rank_00_optim_states.pt
+[2024-12-08 11:27:30,649] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint pytorch_model is ready now!
+[2024-12-08 11:27:30,860] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved ./outputs/step-1000/pytorch_model/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt.
+[2024-12-08 11:27:30,860] [INFO] [engine.py:3536:_save_zero_checkpoint] zero checkpoint saved ./outputs/step-1000/pytorch_model/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt
+[2024-12-08 11:27:30,861] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint pytorch_model is ready now!
+[2024-12-08 11:27:30,931] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved ./outputs/step-1000/pytorch_model/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt.
+[2024-12-08 11:27:30,931] [INFO] [engine.py:3536:_save_zero_checkpoint] zero checkpoint saved ./outputs/step-1000/pytorch_model/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt
+[2024-12-08 11:27:30,931] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint pytorch_model is ready now!
+[2024-12-08 11:27:31,224] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved ./outputs/step-1000/pytorch_model/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt.
+[2024-12-08 11:27:31,224] [INFO] [engine.py:3536:_save_zero_checkpoint] zero checkpoint saved ./outputs/step-1000/pytorch_model/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt
+[2024-12-08 11:27:31,224] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint pytorch_model is ready now!
+[2024-12-08 11:27:31,305] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved ./outputs/step-1000/pytorch_model/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt.
+[2024-12-08 11:27:31,305] [INFO] [engine.py:3536:_save_zero_checkpoint] zero checkpoint saved ./outputs/step-1000/pytorch_model/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt
+[2024-12-08 11:27:31,305] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint pytorch_model is ready now!
+[2024-12-08 11:27:31,428] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved ./outputs/step-1000/pytorch_model/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt.
+[2024-12-08 11:27:31,428] [INFO] [engine.py:3536:_save_zero_checkpoint] zero checkpoint saved ./outputs/step-1000/pytorch_model/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt
+[2024-12-08 11:27:31,428] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint pytorch_model is ready now!
+[2024-12-08 11:27:31,449] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved ./outputs/step-1000/pytorch_model/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt.
+[2024-12-08 11:27:31,455] [INFO] [engine.py:3536:_save_zero_checkpoint] zero checkpoint saved ./outputs/step-1000/pytorch_model/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt
+[2024-12-08 11:27:31,455] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint pytorch_model is ready now!
+12/08/2024 11:27:31 - INFO - accelerate.accelerator - DeepSpeed Model and Optimizer saved to output dir ./outputs/step-1000/pytorch_model
+12/08/2024 11:27:31 - INFO - accelerate.checkpointing - Scheduler state saved in outputs/step-1000/scheduler.bin
+12/08/2024 11:27:31 - INFO - accelerate.checkpointing - Sampler state for dataloader 0 saved in outputs/step-1000/sampler.bin
+12/08/2024 11:27:31 - INFO - accelerate.checkpointing - Random states saved in outputs/step-1000/random_states_0.pkl
+tokenizer config file saved in ./outputs/step-1000/tokenizer_config.json
+Special tokens file saved in ./outputs/step-1000/special_tokens_map.json
+ 78%|███████▊  | 1001/1276 [52:22<1:00:08, 13.12s/it]12/08/2024 11:27:34 - INFO - __main__ -   Step: 1001, LR: 4.440404040404041e-06, Loss: 0.8570327758789062
+ 79%|███████▊  | 1002/1276 [52:25<46:53, 10.27s/it]  12/08/2024 11:27:38 - INFO - __main__ -   Step: 1002, LR: 4.424242424242425e-06, Loss: 0.6387131810188293
+ 79%|███████▊  | 1003/1276 [52:28<36:17,  7.98s/it]12/08/2024 11:27:40 - INFO - __main__ -   Step: 1003, LR: 4.408080808080809e-06, Loss: 0.7424283027648926
+ 79%|███████▊  | 1004/1276 [52:30<28:33,  6.30s/it]12/08/2024 11:27:43 - INFO - __main__ -   Step: 1004, LR: 4.391919191919193e-06, Loss: 0.6874244213104248
+ 79%|███████▉  | 1005/1276 [52:33<23:54,  5.29s/it]12/08/2024 11:27:46 - INFO - __main__ -   Step: 1005, LR: 4.375757575757576e-06, Loss: 0.828515887260437
+ 79%|███████▉  | 1006/1276 [52:36<20:44,  4.61s/it]12/08/2024 11:27:49 - INFO - __main__ -   Step: 1006, LR: 4.35959595959596e-06, Loss: 0.806000292301178
+ 79%|███████▉  | 1007/1276 [52:39<18:35,  4.15s/it]12/08/2024 11:27:52 - INFO - __main__ -   Step: 1007, LR: 4.343434343434344e-06, Loss: 0.7795703411102295
+ 79%|███████▉  | 1008/1276 [52:43<17:27,  3.91s/it]12/08/2024 11:27:55 - INFO - __main__ -   Step: 1008, LR: 4.327272727272728e-06, Loss: 0.6706017851829529
+ 79%|███████▉  | 1009/1276 [52:45<15:46,  3.54s/it]12/08/2024 11:27:58 - INFO - __main__ -   Step: 1009, LR: 4.3111111111111115e-06, Loss: 0.8304517269134521
+ 79%|███████▉  | 1010/1276 [52:48<14:50,  3.35s/it]12/08/2024 11:28:01 - INFO - __main__ -   Step: 1010, LR: 4.2949494949494955e-06, Loss: 0.7387107014656067
+ 79%|███████▉  | 1011/1276 [52:51<14:20,  3.25s/it]12/08/2024 11:28:04 - INFO - __main__ -   Step: 1011, LR: 4.278787878787879e-06, Loss: 0.7747607231140137
+ 79%|███████▉  | 1012/1276 [52:54<13:25,  3.05s/it]12/08/2024 11:28:06 - INFO - __main__ -   Step: 1012, LR: 4.262626262626263e-06, Loss: 0.7429891228675842
+ 79%|███████▉  | 1013/1276 [52:57<13:46,  3.14s/it]12/08/2024 11:28:10 - INFO - __main__ -   Step: 1013, LR: 4.246464646464647e-06, Loss: 0.7306065559387207
+ 79%|███████▉  | 1014/1276 [53:01<14:01,  3.21s/it]12/08/2024 11:28:13 - INFO - __main__ -   Step: 1014, LR: 4.2303030303030304e-06, Loss: 0.709536075592041
+ 80%|███████▉  | 1015/1276 [53:04<13:55,  3.20s/it]12/08/2024 11:28:16 - INFO - __main__ -   Step: 1015, LR: 4.214141414141414e-06, Loss: 0.8047811985015869
+ 80%|███████▉  | 1016/1276 [53:07<14:04,  3.25s/it]12/08/2024 11:28:19 - INFO - __main__ -   Step: 1016, LR: 4.197979797979798e-06, Loss: 0.7167460918426514
+ 80%|███████▉  | 1017/1276 [53:10<13:44,  3.18s/it]12/08/2024 11:28:23 - INFO - __main__ -   Step: 1017, LR: 4.181818181818182e-06, Loss: 0.6652457118034363
+ 80%|███████▉  | 1018/1276 [53:14<13:49,  3.22s/it]12/08/2024 11:28:26 - INFO - __main__ -   Step: 1018, LR: 4.165656565656566e-06, Loss: 0.6331278085708618
+ 80%|███████▉  | 1019/1276 [53:16<13:07,  3.06s/it]12/08/2024 11:28:29 - INFO - __main__ -   Step: 1019, LR: 4.14949494949495e-06, Loss: 0.905605673789978
+ 80%|███████▉  | 1020/1276 [53:19<12:55,  3.03s/it]12/08/2024 11:28:31 - INFO - __main__ -   Step: 1020, LR: 4.133333333333333e-06, Loss: 0.734013557434082
+ 80%|████████  | 1021/1276 [53:22<12:41,  2.99s/it]12/08/2024 11:28:34 - INFO - __main__ -   Step: 1021, LR: 4.117171717171717e-06, Loss: 0.6919412612915039
+ 80%|████████  | 1022/1276 [53:25<12:17,  2.90s/it]12/08/2024 11:28:37 - INFO - __main__ -   Step: 1022, LR: 4.101010101010101e-06, Loss: 0.8083345890045166
+ 80%|████████  | 1023/1276 [53:28<12:40,  3.01s/it]12/08/2024 11:28:40 - INFO - __main__ -   Step: 1023, LR: 4.084848484848485e-06, Loss: 0.6989923715591431
+ 80%|████████  | 1024/1276 [53:31<13:03,  3.11s/it]12/08/2024 11:28:44 - INFO - __main__ -   Step: 1024, LR: 4.068686868686869e-06, Loss: 0.6782720685005188
+ 80%|████████  | 1025/1276 [53:34<12:06,  2.89s/it]12/08/2024 11:28:46 - INFO - __main__ -   Step: 1025, LR: 4.052525252525253e-06, Loss: 0.9150058031082153
+ 80%|████████  | 1026/1276 [53:37<11:50,  2.84s/it]12/08/2024 11:28:49 - INFO - __main__ -   Step: 1026, LR: 4.036363636363637e-06, Loss: 0.7256333827972412
+ 80%|████████  | 1027/1276 [53:39<11:44,  2.83s/it]12/08/2024 11:28:52 - INFO - __main__ -   Step: 1027, LR: 4.02020202020202e-06, Loss: 0.8131138682365417
+ 81%|████████  | 1028/1276 [53:42<11:37,  2.81s/it]12/08/2024 11:28:54 - INFO - __main__ -   Step: 1028, LR: 4.004040404040405e-06, Loss: 0.608483076095581
+ 81%|████████  | 1029/1276 [53:45<11:26,  2.78s/it]12/08/2024 11:28:57 - INFO - __main__ -   Step: 1029, LR: 3.987878787878788e-06, Loss: 0.6999531984329224
+ 81%|████████  | 1030/1276 [53:48<11:20,  2.77s/it]12/08/2024 11:29:00 - INFO - __main__ -   Step: 1030, LR: 3.971717171717172e-06, Loss: 0.880522608757019
+ 81%|████████  | 1031/1276 [53:51<11:54,  2.92s/it]12/08/2024 11:29:03 - INFO - __main__ -   Step: 1031, LR: 3.955555555555556e-06, Loss: 0.6795048713684082
+ 81%|████████  | 1032/1276 [53:54<12:19,  3.03s/it]12/08/2024 11:29:06 - INFO - __main__ -   Step: 1032, LR: 3.93939393939394e-06, Loss: 0.5930517911911011
+ 81%|████████  | 1033/1276 [53:57<11:51,  2.93s/it]12/08/2024 11:29:09 - INFO - __main__ -   Step: 1033, LR: 3.923232323232323e-06, Loss: 0.8118091821670532
+ 81%|████████  | 1034/1276 [54:00<11:50,  2.94s/it]12/08/2024 11:29:12 - INFO - __main__ -   Step: 1034, LR: 3.907070707070708e-06, Loss: 0.6924227476119995
+ 81%|████████  | 1035/1276 [54:03<11:39,  2.90s/it]12/08/2024 11:29:15 - INFO - __main__ -   Step: 1035, LR: 3.890909090909092e-06, Loss: 0.7690759301185608
+ 81%|████████  | 1036/1276 [54:05<11:02,  2.76s/it]12/08/2024 11:29:17 - INFO - __main__ -   Step: 1036, LR: 3.874747474747475e-06, Loss: 0.690163254737854
+ 81%|████████▏ | 1037/1276 [54:08<11:06,  2.79s/it]12/08/2024 11:29:20 - INFO - __main__ -   Step: 1037, LR: 3.858585858585859e-06, Loss: 0.928800642490387
+ 81%|████████▏ | 1038/1276 [54:11<11:03,  2.79s/it]12/08/2024 11:29:23 - INFO - __main__ -   Step: 1038, LR: 3.842424242424243e-06, Loss: 0.642950177192688
+ 81%|████████▏ | 1039/1276 [54:13<10:45,  2.72s/it]12/08/2024 11:29:25 - INFO - __main__ -   Step: 1039, LR: 3.826262626262627e-06, Loss: 0.7456989288330078
+ 82%|████████▏ | 1040/1276 [54:17<11:40,  2.97s/it]12/08/2024 11:29:29 - INFO - __main__ -   Step: 1040, LR: 3.8101010101010106e-06, Loss: 0.6528171300888062
+ 82%|████████▏ | 1041/1276 [54:20<11:37,  2.97s/it]12/08/2024 11:29:32 - INFO - __main__ -   Step: 1041, LR: 3.793939393939394e-06, Loss: 0.8868042230606079
+ 82%|████████▏ | 1042/1276 [54:22<11:06,  2.85s/it]12/08/2024 11:29:35 - INFO - __main__ -   Step: 1042, LR: 3.777777777777778e-06, Loss: 0.7572615742683411
+ 82%|████████▏ | 1043/1276 [54:25<10:33,  2.72s/it]12/08/2024 11:29:37 - INFO - __main__ -   Step: 1043, LR: 3.7616161616161616e-06, Loss: 0.8305007815361023
+ 82%|████████▏ | 1044/1276 [54:28<11:10,  2.89s/it]12/08/2024 11:29:40 - INFO - __main__ -   Step: 1044, LR: 3.745454545454546e-06, Loss: 0.7733331918716431
+ 82%|████████▏ | 1045/1276 [54:31<11:12,  2.91s/it]12/08/2024 11:29:43 - INFO - __main__ -   Step: 1045, LR: 3.72929292929293e-06, Loss: 0.7658299207687378
+ 82%|████████▏ | 1046/1276 [54:35<12:16,  3.20s/it]12/08/2024 11:29:47 - INFO - __main__ -   Step: 1046, LR: 3.7131313131313135e-06, Loss: 0.9377039074897766
+ 82%|████████▏ | 1047/1276 [54:38<11:41,  3.06s/it]12/08/2024 11:29:50 - INFO - __main__ -   Step: 1047, LR: 3.6969696969696974e-06, Loss: 0.7667480707168579
+ 82%|████████▏ | 1048/1276 [54:40<11:13,  2.95s/it]12/08/2024 11:29:53 - INFO - __main__ -   Step: 1048, LR: 3.680808080808081e-06, Loss: 0.7839742302894592
+ 82%|████████▏ | 1049/1276 [54:43<10:53,  2.88s/it]12/08/2024 11:29:55 - INFO - __main__ -   Step: 1049, LR: 3.664646464646465e-06, Loss: 0.7226696014404297
+ 82%|████████▏ | 1050/1276 [54:46<11:17,  3.00s/it]12/08/2024 11:29:58 - INFO - __main__ -   Step: 1050, LR: 3.648484848484849e-06, Loss: 0.6737266778945923
+ 82%|████████▏ | 1051/1276 [54:50<11:58,  3.19s/it]12/08/2024 11:30:02 - INFO - __main__ -   Step: 1051, LR: 3.6323232323232328e-06, Loss: 0.7163602113723755
+ 82%|████████▏ | 1052/1276 [54:52<10:51,  2.91s/it]12/08/2024 11:30:04 - INFO - __main__ -   Step: 1052, LR: 3.6161616161616163e-06, Loss: 0.5576744675636292
+ 83%|████████▎ | 1053/1276 [54:55<10:22,  2.79s/it]12/08/2024 11:30:07 - INFO - __main__ -   Step: 1053, LR: 3.6000000000000003e-06, Loss: 0.8350139856338501
+ 83%|████████▎ | 1054/1276 [54:57<10:12,  2.76s/it]12/08/2024 11:30:10 - INFO - __main__ -   Step: 1054, LR: 3.5838383838383838e-06, Loss: 0.7835245728492737
+ 83%|████████▎ | 1055/1276 [55:00<10:04,  2.73s/it]12/08/2024 11:30:12 - INFO - __main__ -   Step: 1055, LR: 3.567676767676768e-06, Loss: 0.8398361802101135
+ 83%|████████▎ | 1056/1276 [55:04<11:03,  3.02s/it]12/08/2024 11:30:16 - INFO - __main__ -   Step: 1056, LR: 3.551515151515152e-06, Loss: 0.877613365650177
+ 83%|████████▎ | 1057/1276 [55:06<10:37,  2.91s/it]12/08/2024 11:30:19 - INFO - __main__ -   Step: 1057, LR: 3.5353535353535356e-06, Loss: 0.7128707766532898
+ 83%|████████▎ | 1058/1276 [55:10<10:54,  3.00s/it]12/08/2024 11:30:22 - INFO - __main__ -   Step: 1058, LR: 3.5191919191919196e-06, Loss: 0.9406181573867798
+ 83%|████████▎ | 1059/1276 [55:12<10:33,  2.92s/it]12/08/2024 11:30:25 - INFO - __main__ -   Step: 1059, LR: 3.503030303030303e-06, Loss: 0.8522837162017822
+ 83%|████████▎ | 1060/1276 [55:16<11:19,  3.15s/it]12/08/2024 11:30:28 - INFO - __main__ -   Step: 1060, LR: 3.4868686868686875e-06, Loss: 0.753052830696106
+ 83%|████████▎ | 1061/1276 [55:19<11:10,  3.12s/it]12/08/2024 11:30:31 - INFO - __main__ -   Step: 1061, LR: 3.470707070707071e-06, Loss: 0.818875789642334
+ 83%|████████▎ | 1062/1276 [55:22<10:31,  2.95s/it]12/08/2024 11:30:34 - INFO - __main__ -   Step: 1062, LR: 3.454545454545455e-06, Loss: 0.8742700815200806
+ 83%|████████▎ | 1063/1276 [55:25<10:44,  3.03s/it]12/08/2024 11:30:37 - INFO - __main__ -   Step: 1063, LR: 3.4383838383838385e-06, Loss: 0.7863079309463501
+ 83%|████████▎ | 1064/1276 [55:28<10:34,  2.99s/it]12/08/2024 11:30:40 - INFO - __main__ -   Step: 1064, LR: 3.4222222222222224e-06, Loss: 0.7206973433494568
+ 83%|████████▎ | 1065/1276 [55:31<10:29,  2.98s/it]12/08/2024 11:30:43 - INFO - __main__ -   Step: 1065, LR: 3.406060606060606e-06, Loss: 0.791637659072876
+ 84%|████████▎ | 1066/1276 [55:34<10:19,  2.95s/it]12/08/2024 11:30:46 - INFO - __main__ -   Step: 1066, LR: 3.3898989898989903e-06, Loss: 0.6735385060310364
+ 84%|████████▎ | 1067/1276 [55:37<10:38,  3.06s/it]12/08/2024 11:30:49 - INFO - __main__ -   Step: 1067, LR: 3.3737373737373743e-06, Loss: 0.8386834859848022
+ 84%|████████▎ | 1068/1276 [55:40<11:00,  3.17s/it]12/08/2024 11:30:53 - INFO - __main__ -   Step: 1068, LR: 3.357575757575758e-06, Loss: 0.7564167976379395
+ 84%|████████▍ | 1069/1276 [55:43<10:53,  3.16s/it]12/08/2024 11:30:56 - INFO - __main__ -   Step: 1069, LR: 3.3414141414141413e-06, Loss: 0.8762946724891663
+ 84%|████████▍ | 1070/1276 [55:46<10:06,  2.94s/it]12/08/2024 11:30:58 - INFO - __main__ -   Step: 1070, LR: 3.3252525252525253e-06, Loss: 0.7321703433990479
+ 84%|████████▍ | 1071/1276 [55:48<09:41,  2.84s/it]12/08/2024 11:31:01 - INFO - __main__ -   Step: 1071, LR: 3.3090909090909097e-06, Loss: 0.7114879488945007
+ 84%|████████▍ | 1072/1276 [55:52<10:35,  3.11s/it]12/08/2024 11:31:04 - INFO - __main__ -   Step: 1072, LR: 3.292929292929293e-06, Loss: 0.7548189759254456
+ 84%|████████▍ | 1073/1276 [55:55<10:29,  3.10s/it]12/08/2024 11:31:08 - INFO - __main__ -   Step: 1073, LR: 3.276767676767677e-06, Loss: 0.8837805986404419
+ 84%|████████▍ | 1074/1276 [55:58<09:38,  2.86s/it]12/08/2024 11:31:10 - INFO - __main__ -   Step: 1074, LR: 3.2606060606060607e-06, Loss: 0.6968085765838623
+ 84%|████████▍ | 1075/1276 [56:01<10:18,  3.07s/it]12/08/2024 11:31:13 - INFO - __main__ -   Step: 1075, LR: 3.2444444444444446e-06, Loss: 0.804623007774353
+ 84%|████████▍ | 1076/1276 [56:04<09:59,  3.00s/it]12/08/2024 11:31:16 - INFO - __main__ -   Step: 1076, LR: 3.228282828282829e-06, Loss: 0.7726360559463501
+ 84%|████████▍ | 1077/1276 [56:07<09:47,  2.95s/it]12/08/2024 11:31:19 - INFO - __main__ -   Step: 1077, LR: 3.2121212121212125e-06, Loss: 0.6110520958900452
+ 84%|████████▍ | 1078/1276 [56:10<09:34,  2.90s/it]12/08/2024 11:31:22 - INFO - __main__ -   Step: 1078, LR: 3.195959595959596e-06, Loss: 0.6215705871582031
+ 85%|████████▍ | 1079/1276 [56:13<09:42,  2.96s/it]12/08/2024 11:31:25 - INFO - __main__ -   Step: 1079, LR: 3.17979797979798e-06, Loss: 0.8119648694992065
+ 85%|████████▍ | 1080/1276 [56:15<09:24,  2.88s/it]12/08/2024 11:31:28 - INFO - __main__ -   Step: 1080, LR: 3.1636363636363635e-06, Loss: 0.6558482646942139
+ 85%|████████▍ | 1081/1276 [56:18<08:57,  2.76s/it]12/08/2024 11:31:30 - INFO - __main__ -   Step: 1081, LR: 3.1474747474747475e-06, Loss: 0.9125975370407104
+ 85%|████████▍ | 1082/1276 [56:21<09:14,  2.86s/it]12/08/2024 11:31:33 - INFO - __main__ -   Step: 1082, LR: 3.131313131313132e-06, Loss: 0.647761881351471
+ 85%|████████▍ | 1083/1276 [56:24<09:09,  2.85s/it]12/08/2024 11:31:36 - INFO - __main__ -   Step: 1083, LR: 3.1151515151515154e-06, Loss: 0.6343480348587036
+ 85%|████████▍ | 1084/1276 [56:27<09:34,  2.99s/it]12/08/2024 11:31:39 - INFO - __main__ -   Step: 1084, LR: 3.0989898989898993e-06, Loss: 0.8445529937744141
+ 85%|████████▌ | 1085/1276 [56:30<09:39,  3.03s/it]12/08/2024 11:31:42 - INFO - __main__ -   Step: 1085, LR: 3.082828282828283e-06, Loss: 0.698743462562561
+ 85%|████████▌ | 1086/1276 [56:33<09:20,  2.95s/it]12/08/2024 11:31:45 - INFO - __main__ -   Step: 1086, LR: 3.066666666666667e-06, Loss: 0.7425452470779419
+ 85%|████████▌ | 1087/1276 [56:36<09:07,  2.90s/it]12/08/2024 11:31:48 - INFO - __main__ -   Step: 1087, LR: 3.0505050505050508e-06, Loss: 0.7739078998565674
+ 85%|████████▌ | 1088/1276 [56:39<08:58,  2.86s/it]12/08/2024 11:31:51 - INFO - __main__ -   Step: 1088, LR: 3.0343434343434347e-06, Loss: 0.7146624326705933
+ 85%|████████▌ | 1089/1276 [56:41<08:38,  2.77s/it]12/08/2024 11:31:53 - INFO - __main__ -   Step: 1089, LR: 3.0181818181818182e-06, Loss: 0.7341621518135071
+ 85%|████████▌ | 1090/1276 [56:44<08:38,  2.79s/it]12/08/2024 11:31:56 - INFO - __main__ -   Step: 1090, LR: 3.002020202020202e-06, Loss: 0.8481921553611755
+ 86%|████████▌ | 1091/1276 [56:47<08:31,  2.77s/it]12/08/2024 11:31:59 - INFO - __main__ -   Step: 1091, LR: 2.9858585858585857e-06, Loss: 0.8637486100196838
+ 86%|████████▌ | 1092/1276 [56:50<08:46,  2.86s/it]12/08/2024 11:32:02 - INFO - __main__ -   Step: 1092, LR: 2.96969696969697e-06, Loss: 0.702251672744751
+ 86%|████████▌ | 1093/1276 [56:53<08:53,  2.91s/it]12/08/2024 11:32:05 - INFO - __main__ -   Step: 1093, LR: 2.953535353535354e-06, Loss: 0.6791415214538574
+ 86%|████████▌ | 1094/1276 [56:56<09:34,  3.16s/it]12/08/2024 11:32:09 - INFO - __main__ -   Step: 1094, LR: 2.9373737373737376e-06, Loss: 0.6364454627037048
+ 86%|████████▌ | 1095/1276 [56:59<09:10,  3.04s/it]12/08/2024 11:32:12 - INFO - __main__ -   Step: 1095, LR: 2.9212121212121215e-06, Loss: 0.743389904499054
+ 86%|████████▌ | 1096/1276 [57:02<08:41,  2.90s/it]12/08/2024 11:32:14 - INFO - __main__ -   Step: 1096, LR: 2.905050505050505e-06, Loss: 0.6765990853309631
+ 86%|████████▌ | 1097/1276 [57:05<08:45,  2.94s/it]12/08/2024 11:32:17 - INFO - __main__ -   Step: 1097, LR: 2.888888888888889e-06, Loss: 0.8541039228439331
+ 86%|████████▌ | 1098/1276 [57:09<09:36,  3.24s/it]12/08/2024 11:32:21 - INFO - __main__ -   Step: 1098, LR: 2.872727272727273e-06, Loss: 0.6304954290390015
+ 86%|████████▌ | 1099/1276 [57:12<09:35,  3.25s/it]12/08/2024 11:32:24 - INFO - __main__ -   Step: 1099, LR: 2.856565656565657e-06, Loss: 0.7314876317977905
+ 86%|████████▌ | 1100/1276 [57:15<09:08,  3.11s/it]12/08/2024 11:32:27 - INFO - __main__ -   Step: 1100, LR: 2.8404040404040404e-06, Loss: 0.9215179681777954
+ 86%|████████▋ | 1101/1276 [57:17<08:31,  2.92s/it]12/08/2024 11:32:30 - INFO - __main__ -   Step: 1101, LR: 2.8242424242424244e-06, Loss: 0.6465804576873779
+ 86%|████████▋ | 1102/1276 [57:21<09:07,  3.15s/it]12/08/2024 11:32:33 - INFO - __main__ -   Step: 1102, LR: 2.808080808080808e-06, Loss: 0.9166805148124695
+ 86%|████████▋ | 1103/1276 [57:24<08:40,  3.01s/it]12/08/2024 11:32:36 - INFO - __main__ -   Step: 1103, LR: 2.7919191919191923e-06, Loss: 0.6056467294692993
+ 87%|████████▋ | 1104/1276 [57:26<07:59,  2.79s/it]12/08/2024 11:32:38 - INFO - __main__ -   Step: 1104, LR: 2.7757575757575762e-06, Loss: 0.7127074599266052
+ 87%|████████▋ | 1105/1276 [57:29<07:49,  2.75s/it]12/08/2024 11:32:41 - INFO - __main__ -   Step: 1105, LR: 2.7595959595959597e-06, Loss: 0.8287098407745361
+ 87%|████████▋ | 1106/1276 [57:31<07:49,  2.76s/it]12/08/2024 11:32:44 - INFO - __main__ -   Step: 1106, LR: 2.7434343434343437e-06, Loss: 0.767756998538971
+ 87%|████████▋ | 1107/1276 [57:34<07:47,  2.77s/it]12/08/2024 11:32:46 - INFO - __main__ -   Step: 1107, LR: 2.7272727272727272e-06, Loss: 0.735144853591919
+ 87%|████████▋ | 1108/1276 [57:37<07:54,  2.82s/it]12/08/2024 11:32:49 - INFO - __main__ -   Step: 1108, LR: 2.7111111111111116e-06, Loss: 0.7168999910354614
+ 87%|████████▋ | 1109/1276 [57:40<07:59,  2.87s/it]12/08/2024 11:32:52 - INFO - __main__ -   Step: 1109, LR: 2.694949494949495e-06, Loss: 0.7002354860305786
+ 87%|████████▋ | 1110/1276 [57:43<07:53,  2.85s/it]12/08/2024 11:32:55 - INFO - __main__ -   Step: 1110, LR: 2.678787878787879e-06, Loss: 0.7315903306007385
+ 87%|████████▋ | 1111/1276 [57:47<08:35,  3.13s/it]12/08/2024 11:32:59 - INFO - __main__ -   Step: 1111, LR: 2.6626262626262626e-06, Loss: 0.8095835447311401
+ 87%|███████��▋ | 1112/1276 [57:50<08:32,  3.13s/it]12/08/2024 11:33:02 - INFO - __main__ -   Step: 1112, LR: 2.6464646464646466e-06, Loss: 0.6945005655288696
+ 87%|████████▋ | 1113/1276 [57:53<08:33,  3.15s/it]12/08/2024 11:33:05 - INFO - __main__ -   Step: 1113, LR: 2.63030303030303e-06, Loss: 0.7743011116981506
+ 87%|████████▋ | 1114/1276 [57:56<08:14,  3.05s/it]12/08/2024 11:33:08 - INFO - __main__ -   Step: 1114, LR: 2.6141414141414145e-06, Loss: 0.7022697925567627
+ 87%|████████▋ | 1115/1276 [57:59<08:23,  3.13s/it]12/08/2024 11:33:11 - INFO - __main__ -   Step: 1115, LR: 2.5979797979797984e-06, Loss: 0.7957134246826172
+ 87%|████████▋ | 1116/1276 [58:02<07:47,  2.92s/it]12/08/2024 11:33:14 - INFO - __main__ -   Step: 1116, LR: 2.581818181818182e-06, Loss: 0.7976930141448975
+ 88%|████████▊ | 1117/1276 [58:05<07:56,  3.00s/it]12/08/2024 11:33:17 - INFO - __main__ -   Step: 1117, LR: 2.565656565656566e-06, Loss: 0.9062857031822205
+ 88%|████████▊ | 1118/1276 [58:08<07:54,  3.00s/it]12/08/2024 11:33:20 - INFO - __main__ -   Step: 1118, LR: 2.5494949494949494e-06, Loss: 0.6712580323219299
+ 88%|████████▊ | 1119/1276 [58:11<07:42,  2.94s/it]12/08/2024 11:33:23 - INFO - __main__ -   Step: 1119, LR: 2.5333333333333338e-06, Loss: 0.6882437467575073
+ 88%|████████▊ | 1120/1276 [58:13<07:17,  2.80s/it]12/08/2024 11:33:25 - INFO - __main__ -   Step: 1120, LR: 2.5171717171717173e-06, Loss: 0.9214731454849243
+ 88%|████████▊ | 1121/1276 [58:17<07:53,  3.05s/it]12/08/2024 11:33:29 - INFO - __main__ -   Step: 1121, LR: 2.5010101010101013e-06, Loss: 0.8041051030158997
+ 88%|████████▊ | 1122/1276 [58:19<07:34,  2.95s/it]12/08/2024 11:33:32 - INFO - __main__ -   Step: 1122, LR: 2.4848484848484848e-06, Loss: 0.8019390106201172
+ 88%|████████▊ | 1123/1276 [58:23<07:44,  3.04s/it]12/08/2024 11:33:35 - INFO - __main__ -   Step: 1123, LR: 2.468686868686869e-06, Loss: 0.917323887348175
+ 88%|████████▊ | 1124/1276 [58:25<07:16,  2.87s/it]12/08/2024 11:33:37 - INFO - __main__ -   Step: 1124, LR: 2.4525252525252527e-06, Loss: 0.6781654357910156
+ 88%|████████▊ | 1125/1276 [58:28<07:06,  2.82s/it]12/08/2024 11:33:40 - INFO - __main__ -   Step: 1125, LR: 2.4363636363636366e-06, Loss: 0.8348093032836914
+ 88%|████████▊ | 1126/1276 [58:30<06:54,  2.76s/it]12/08/2024 11:33:43 - INFO - __main__ -   Step: 1126, LR: 2.4202020202020206e-06, Loss: 0.7001713514328003
+ 88%|████████▊ | 1127/1276 [58:33<06:50,  2.76s/it]12/08/2024 11:33:45 - INFO - __main__ -   Step: 1127, LR: 2.404040404040404e-06, Loss: 0.8128476142883301
+ 88%|████████▊ | 1128/1276 [58:37<07:22,  2.99s/it]12/08/2024 11:33:49 - INFO - __main__ -   Step: 1128, LR: 2.387878787878788e-06, Loss: 0.7592833042144775
+ 88%|████████▊ | 1129/1276 [58:39<06:52,  2.81s/it]12/08/2024 11:33:51 - INFO - __main__ -   Step: 1129, LR: 2.371717171717172e-06, Loss: 0.9072278738021851
+ 89%|████████▊ | 1130/1276 [58:42<06:55,  2.84s/it]12/08/2024 11:33:54 - INFO - __main__ -   Step: 1130, LR: 2.3555555555555555e-06, Loss: 0.6323891282081604
+ 89%|████████▊ | 1131/1276 [58:45<06:36,  2.74s/it]12/08/2024 11:33:57 - INFO - __main__ -   Step: 1131, LR: 2.3393939393939395e-06, Loss: 0.65293288230896
+ 89%|████████▊ | 1132/1276 [58:48<06:57,  2.90s/it]12/08/2024 11:34:00 - INFO - __main__ -   Step: 1132, LR: 2.3232323232323234e-06, Loss: 0.6837724447250366
+ 89%|████████▉ | 1133/1276 [58:51<06:50,  2.87s/it]12/08/2024 11:34:03 - INFO - __main__ -   Step: 1133, LR: 2.307070707070707e-06, Loss: 0.7821364402770996
+ 89%|████████▉ | 1134/1276 [58:53<06:30,  2.75s/it]12/08/2024 11:34:05 - INFO - __main__ -   Step: 1134, LR: 2.2909090909090913e-06, Loss: 0.7623002529144287
+ 89%|████████▉ | 1135/1276 [58:56<06:25,  2.74s/it]12/08/2024 11:34:08 - INFO - __main__ -   Step: 1135, LR: 2.274747474747475e-06, Loss: 0.7423295974731445
+ 89%|████████▉ | 1136/1276 [58:59<06:32,  2.81s/it]12/08/2024 11:34:11 - INFO - __main__ -   Step: 1136, LR: 2.258585858585859e-06, Loss: 0.7582699060440063
+ 89%|████████▉ | 1137/1276 [59:02<06:36,  2.85s/it]12/08/2024 11:34:14 - INFO - __main__ -   Step: 1137, LR: 2.2424242424242428e-06, Loss: 0.6678696870803833
+ 89%|████████▉ | 1138/1276 [59:05<06:36,  2.87s/it]12/08/2024 11:34:17 - INFO - __main__ -   Step: 1138, LR: 2.2262626262626263e-06, Loss: 0.7508673667907715
+ 89%|████████▉ | 1139/1276 [59:07<06:10,  2.70s/it]12/08/2024 11:34:19 - INFO - __main__ -   Step: 1139, LR: 2.2101010101010102e-06, Loss: 0.6303497552871704
+ 89%|████████▉ | 1140/1276 [59:09<05:55,  2.62s/it]12/08/2024 11:34:22 - INFO - __main__ -   Step: 1140, LR: 2.193939393939394e-06, Loss: 0.7918471097946167
+ 89%|████████▉ | 1141/1276 [59:12<05:58,  2.66s/it]12/08/2024 11:34:24 - INFO - __main__ -   Step: 1141, LR: 2.1777777777777777e-06, Loss: 0.6399282813072205
+ 89%|████████▉ | 1142/1276 [59:15<06:04,  2.72s/it]12/08/2024 11:34:27 - INFO - __main__ -   Step: 1142, LR: 2.1616161616161617e-06, Loss: 0.7988555431365967
+ 90%|████████▉ | 1143/1276 [59:17<05:46,  2.61s/it]12/08/2024 11:34:30 - INFO - __main__ -   Step: 1143, LR: 2.1454545454545456e-06, Loss: 0.6698192954063416
+ 90%|████████▉ | 1144/1276 [59:21<06:22,  2.90s/it]12/08/2024 11:34:33 - INFO - __main__ -   Step: 1144, LR: 2.1292929292929296e-06, Loss: 0.6856135725975037
+ 90%|████████▉ | 1145/1276 [59:24<06:09,  2.82s/it]12/08/2024 11:34:36 - INFO - __main__ -   Step: 1145, LR: 2.113131313131313e-06, Loss: 0.6605970859527588
+ 90%|████████▉ | 1146/1276 [59:26<05:59,  2.76s/it]12/08/2024 11:34:38 - INFO - __main__ -   Step: 1146, LR: 2.096969696969697e-06, Loss: 0.6958867907524109
+ 90%|████████▉ | 1147/1276 [59:29<06:03,  2.82s/it]12/08/2024 11:34:41 - INFO - __main__ -   Step: 1147, LR: 2.080808080808081e-06, Loss: 0.6381064057350159
+ 90%|████████▉ | 1148/1276 [59:32<06:08,  2.88s/it]12/08/2024 11:34:44 - INFO - __main__ -   Step: 1148, LR: 2.064646464646465e-06, Loss: 0.7868505716323853
+ 90%|█████████ | 1149/1276 [59:35<06:10,  2.92s/it]12/08/2024 11:34:47 - INFO - __main__ -   Step: 1149, LR: 2.0484848484848485e-06, Loss: 0.7981885671615601
+ 90%|█████████ | 1150/1276 [59:38<06:16,  2.99s/it]12/08/2024 11:34:51 - INFO - __main__ -   Step: 1150, LR: 2.0323232323232324e-06, Loss: 0.7716017961502075
+ 90%|█████████ | 1151/1276 [59:41<06:07,  2.94s/it]12/08/2024 11:34:53 - INFO - __main__ -   Step: 1151, LR: 2.0161616161616164e-06, Loss: 0.7775851488113403
+ 90%|█████████ | 1152/1276 [59:44<05:58,  2.89s/it]12/08/2024 11:34:56 - INFO - __main__ -   Step: 1152, LR: 2.0000000000000003e-06, Loss: 0.6150281429290771
+ 90%|█████████ | 1153/1276 [59:47<06:03,  2.95s/it]12/08/2024 11:34:59 - INFO - __main__ -   Step: 1153, LR: 1.983838383838384e-06, Loss: 0.7861518859863281
+ 90%|█████████ | 1154/1276 [59:50<05:53,  2.90s/it]12/08/2024 11:35:02 - INFO - __main__ -   Step: 1154, LR: 1.967676767676768e-06, Loss: 0.6191034317016602
+ 91%|█████████ | 1155/1276 [59:53<06:00,  2.98s/it]12/08/2024 11:35:05 - INFO - __main__ -   Step: 1155, LR: 1.9515151515151518e-06, Loss: 0.7953527569770813
+ 91%|█████████ | 1156/1276 [59:56<05:46,  2.89s/it]12/08/2024 11:35:08 - INFO - __main__ -   Step: 1156, LR: 1.9353535353535353e-06, Loss: 0.7027461528778076
+ 91%|█████████ | 1157/1276 [59:59<06:07,  3.09s/it]12/08/2024 11:35:11 - INFO - __main__ -   Step: 1157, LR: 1.9191919191919192e-06, Loss: 0.6654661893844604
+ 91%|█████████ | 1158/1276 [1:00:01<05:32,  2.82s/it]12/08/2024 11:35:14 - INFO - __main__ -   Step: 1158, LR: 1.9030303030303032e-06, Loss: 0.8186923861503601
+ 91%|█████████ | 1159/1276 [1:00:04<05:39,  2.90s/it]12/08/2024 11:35:17 - INFO - __main__ -   Step: 1159, LR: 1.886868686868687e-06, Loss: 0.9528500437736511
+ 91%|█████████ | 1160/1276 [1:00:07<05:22,  2.78s/it]12/08/2024 11:35:19 - INFO - __main__ -   Step: 1160, LR: 1.8707070707070709e-06, Loss: 0.7548971176147461
+ 91%|█████████ | 1161/1276 [1:00:11<05:50,  3.05s/it]12/08/2024 11:35:23 - INFO - __main__ -   Step: 1161, LR: 1.8545454545454546e-06, Loss: 0.8562946319580078
+ 91%|█████████ | 1162/1276 [1:00:14<05:52,  3.09s/it]12/08/2024 11:35:26 - INFO - __main__ -   Step: 1162, LR: 1.8383838383838384e-06, Loss: 0.7504739761352539
+ 91%|█████████ | 1163/1276 [1:00:16<05:21,  2.85s/it]12/08/2024 11:35:28 - INFO - __main__ -   Step: 1163, LR: 1.8222222222222225e-06, Loss: 0.6332201957702637
+ 91%|█████████ | 1164/1276 [1:00:19<05:16,  2.82s/it]12/08/2024 11:35:31 - INFO - __main__ -   Step: 1164, LR: 1.8060606060606063e-06, Loss: 0.5490975975990295
+ 91%|█████████▏| 1165/1276 [1:00:22<05:34,  3.01s/it]12/08/2024 11:35:35 - INFO - __main__ -   Step: 1165, LR: 1.78989898989899e-06, Loss: 0.8466571569442749
+ 91%|█████████▏| 1166/1276 [1:00:25<05:22,  2.93s/it]12/08/2024 11:35:37 - INFO - __main__ -   Step: 1166, LR: 1.773737373737374e-06, Loss: 0.5419955253601074
+ 91%|█████████▏| 1167/1276 [1:00:28<05:10,  2.85s/it]12/08/2024 11:35:40 - INFO - __main__ -   Step: 1167, LR: 1.7575757575757577e-06, Loss: 0.6690171957015991
+ 92%|█████████▏| 1168/1276 [1:00:30<05:01,  2.79s/it]12/08/2024 11:35:43 - INFO - __main__ -   Step: 1168, LR: 1.7414141414141416e-06, Loss: 0.7785520553588867
+ 92%|█████████▏| 1169/1276 [1:00:33<04:59,  2.79s/it]12/08/2024 11:35:45 - INFO - __main__ -   Step: 1169, LR: 1.7252525252525254e-06, Loss: 0.6668184399604797
+ 92%|█████████▏| 1170/1276 [1:00:36<04:48,  2.72s/it]12/08/2024 11:35:48 - INFO - __main__ -   Step: 1170, LR: 1.7090909090909091e-06, Loss: 0.7957103252410889
+ 92%|█████████▏| 1171/1276 [1:00:39<04:52,  2.79s/it]12/08/2024 11:35:51 - INFO - __main__ -   Step: 1171, LR: 1.692929292929293e-06, Loss: 0.8262506723403931
+ 92%|█████████▏| 1172/1276 [1:00:42<04:52,  2.81s/it]12/08/2024 11:35:54 - INFO - __main__ -   Step: 1172, LR: 1.6767676767676768e-06, Loss: 0.8014339208602905
+ 92%|█████████▏| 1173/1276 [1:00:45<05:12,  3.03s/it]12/08/2024 11:35:57 - INFO - __main__ -   Step: 1173, LR: 1.6606060606060605e-06, Loss: 0.7082414627075195
+ 92%|█████████▏| 1174/1276 [1:00:47<04:47,  2.82s/it]12/08/2024 11:36:00 - INFO - __main__ -   Step: 1174, LR: 1.6444444444444447e-06, Loss: 0.7726943492889404
+ 92%|█████████▏| 1175/1276 [1:00:51<05:09,  3.07s/it]12/08/2024 11:36:03 - INFO - __main__ -   Step: 1175, LR: 1.6282828282828284e-06, Loss: 0.6642922163009644
+ 92%|█████████▏| 1176/1276 [1:00:55<05:28,  3.29s/it]12/08/2024 11:36:07 - INFO - __main__ -   Step: 1176, LR: 1.6121212121212124e-06, Loss: 0.7124289274215698
+ 92%|█████████▏| 1177/1276 [1:00:58<05:20,  3.24s/it]12/08/2024 11:36:10 - INFO - __main__ -   Step: 1177, LR: 1.5959595959595961e-06, Loss: 0.6423770189285278
+ 92%|█████████▏| 1178/1276 [1:01:00<04:51,  2.98s/it]12/08/2024 11:36:13 - INFO - __main__ -   Step: 1178, LR: 1.5797979797979799e-06, Loss: 0.5597351789474487
+ 92%|█████████▏| 1179/1276 [1:01:03<04:48,  2.97s/it]12/08/2024 11:36:16 - INFO - __main__ -   Step: 1179, LR: 1.5636363636363638e-06, Loss: 0.686453640460968
+ 92%|█████████▏| 1180/1276 [1:01:07<04:57,  3.10s/it]12/08/2024 11:36:19 - INFO - __main__ -   Step: 1180, LR: 1.5474747474747476e-06, Loss: 0.7588422298431396
+ 93%|█████████▎| 1181/1276 [1:01:10<04:48,  3.04s/it]12/08/2024 11:36:22 - INFO - __main__ -   Step: 1181, LR: 1.5313131313131313e-06, Loss: 0.6800302267074585
+ 93%|█████████▎| 1182/1276 [1:01:12<04:38,  2.97s/it]12/08/2024 11:36:25 - INFO - __main__ -   Step: 1182, LR: 1.5151515151515152e-06, Loss: 0.7591153383255005
+ 93%|█████████▎| 1183/1276 [1:01:16<04:47,  3.09s/it]12/08/2024 11:36:28 - INFO - __main__ -   Step: 1183, LR: 1.498989898989899e-06, Loss: 0.6708906292915344
+ 93%|█████████▎| 1184/1276 [1:01:19<04:41,  3.06s/it]12/08/2024 11:36:31 - INFO - __main__ -   Step: 1184, LR: 1.4828282828282831e-06, Loss: 0.9006177186965942
+ 93%|█████████▎| 1185/1276 [1:01:21<04:24,  2.90s/it]12/08/2024 11:36:34 - INFO - __main__ -   Step: 1185, LR: 1.4666666666666669e-06, Loss: 0.7874500751495361
+ 93%|█████████▎| 1186/1276 [1:01:25<04:31,  3.02s/it]12/08/2024 11:36:37 - INFO - __main__ -   Step: 1186, LR: 1.4505050505050506e-06, Loss: 0.6793739795684814
+ 93%|█████████▎| 1187/1276 [1:01:28<04:39,  3.14s/it]12/08/2024 11:36:40 - INFO - __main__ -   Step: 1187, LR: 1.4343434343434346e-06, Loss: 0.7678152918815613
+ 93%|█████████▎| 1188/1276 [1:01:31<04:30,  3.07s/it]12/08/2024 11:36:43 - INFO - __main__ -   Step: 1188, LR: 1.4181818181818183e-06, Loss: 0.7110361456871033
+ 93%|█████████▎| 1189/1276 [1:01:33<04:13,  2.92s/it]12/08/2024 11:36:46 - INFO - __main__ -   Step: 1189, LR: 1.402020202020202e-06, Loss: 0.8102335929870605
+ 93%|█████████▎| 1190/1276 [1:01:37<04:18,  3.01s/it]12/08/2024 11:36:49 - INFO - __main__ -   Step: 1190, LR: 1.385858585858586e-06, Loss: 0.7865623831748962
+ 93%|█████████▎| 1191/1276 [1:01:40<04:11,  2.96s/it]12/08/2024 11:36:52 - INFO - __main__ -   Step: 1191, LR: 1.3696969696969697e-06, Loss: 0.5625062584877014
+ 93%|█████████▎| 1192/1276 [1:01:42<04:07,  2.94s/it]12/08/2024 11:36:55 - INFO - __main__ -   Step: 1192, LR: 1.3535353535353537e-06, Loss: 0.7793229818344116
+ 93%|█████████▎| 1193/1276 [1:01:45<03:56,  2.84s/it]12/08/2024 11:36:57 - INFO - __main__ -   Step: 1193, LR: 1.3373737373737374e-06, Loss: 0.5785647630691528
+ 94%|█████████▎| 1194/1276 [1:01:48<04:01,  2.95s/it]12/08/2024 11:37:01 - INFO - __main__ -   Step: 1194, LR: 1.3212121212121212e-06, Loss: 0.7626391649246216
+ 94%|█████████▎| 1195/1276 [1:01:51<03:48,  2.82s/it]12/08/2024 11:37:03 - INFO - __main__ -   Step: 1195, LR: 1.3050505050505053e-06, Loss: 0.7400031089782715
+ 94%|█████████▎| 1196/1276 [1:01:53<03:43,  2.79s/it]12/08/2024 11:37:06 - INFO - __main__ -   Step: 1196, LR: 1.288888888888889e-06, Loss: 0.6298377513885498
+ 94%|█████████▍| 1197/1276 [1:01:57<03:47,  2.88s/it]12/08/2024 11:37:09 - INFO - __main__ -   Step: 1197, LR: 1.2727272727272728e-06, Loss: 0.768255352973938
+ 94%|█████████▍| 1198/1276 [1:02:00<03:54,  3.01s/it]12/08/2024 11:37:12 - INFO - __main__ -   Step: 1198, LR: 1.2565656565656568e-06, Loss: 0.8724184036254883
+ 94%|█████████▍| 1199/1276 [1:02:03<03:53,  3.03s/it]12/08/2024 11:37:15 - INFO - __main__ -   Step: 1199, LR: 1.2404040404040405e-06, Loss: 0.7739158868789673
+ 94%|█████████▍| 1200/1276 [1:02:06<03:41,  2.91s/it]12/08/2024 11:37:18 - INFO - __main__ -   Step: 1200, LR: 1.2242424242424242e-06, Loss: 0.6195275783538818
+12/08/2024 11:37:18 - INFO - __main__ - glob_checkpoints : ['./outputs/step-1200', './outputs/step-1000']
+12/08/2024 11:37:18 - INFO - __main__ - ordering_and_checkpoint_path: [(1200, './outputs/step-1200'), (1000, './outputs/step-1000')]
+12/08/2024 11:37:18 - INFO - __main__ - checkpoints_to_be_deleted:['./outputs/step-1000']
+12/08/2024 11:37:18 - INFO - __main__ - Deleting older checkpoint [./outputs/step-1000] due to args.save_total_limit
+12/08/2024 11:37:18 - INFO - accelerate.accelerator - Saving current state to ./outputs/step-1200
+12/08/2024 11:37:18 - INFO - accelerate.accelerator - Saving DeepSpeed Model and Optimizer
+[2024-12-08 11:37:18,378] [INFO] [logging.py:128:log_dist] [Rank 0] [Torch] Checkpoint pytorch_model is about to be saved!
+[2024-12-08 11:37:18,385] [INFO] [logging.py:128:log_dist] [Rank 0] Saving model checkpoint: ./outputs/step-1200/pytorch_model/mp_rank_00_model_states.pt
+[2024-12-08 11:37:18,385] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving ./outputs/step-1200/pytorch_model/mp_rank_00_model_states.pt...
+[2024-12-08 11:37:34,544] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved ./outputs/step-1200/pytorch_model/mp_rank_00_model_states.pt.
+[2024-12-08 11:37:34,549] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving ./outputs/step-1200/pytorch_model/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt...
+[2024-12-08 11:37:34,549] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving ./outputs/step-1200/pytorch_model/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt...
+[2024-12-08 11:37:34,549] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving ./outputs/step-1200/pytorch_model/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt...
+[2024-12-08 11:37:34,549] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving ./outputs/step-1200/pytorch_model/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt...
+[2024-12-08 11:37:34,549] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving ./outputs/step-1200/pytorch_model/bf16_zero_pp_rank_6_mp_rank_00_optim_states.pt...
+[2024-12-08 11:37:34,549] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving ./outputs/step-1200/pytorch_model/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt...
+[2024-12-08 11:37:34,549] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving ./outputs/step-1200/pytorch_model/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt...
+[2024-12-08 11:37:34,549] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving ./outputs/step-1200/pytorch_model/bf16_zero_pp_rank_7_mp_rank_00_optim_states.pt...
+[2024-12-08 11:37:51,453] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved ./outputs/step-1200/pytorch_model/bf16_zero_pp_rank_7_mp_rank_00_optim_states.pt.
+[2024-12-08 11:37:51,454] [INFO] [engine.py:3536:_save_zero_checkpoint] zero checkpoint saved ./outputs/step-1200/pytorch_model/bf16_zero_pp_rank_7_mp_rank_00_optim_states.pt
+[2024-12-08 11:37:51,454] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint pytorch_model is ready now!
+[2024-12-08 11:37:51,480] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved ./outputs/step-1200/pytorch_model/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt.
+[2024-12-08 11:37:51,480] [INFO] [engine.py:3536:_save_zero_checkpoint] zero checkpoint saved ./outputs/step-1200/pytorch_model/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt
+[2024-12-08 11:37:51,480] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint pytorch_model is ready now!
+[2024-12-08 11:37:52,365] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved ./outputs/step-1200/pytorch_model/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt.
+[2024-12-08 11:37:52,365] [INFO] [engine.py:3536:_save_zero_checkpoint] zero checkpoint saved ./outputs/step-1200/pytorch_model/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt
+[2024-12-08 11:37:52,365] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint pytorch_model is ready now!
+[2024-12-08 11:37:52,679] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved ./outputs/step-1200/pytorch_model/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt.
+[2024-12-08 11:37:52,685] [INFO] [engine.py:3536:_save_zero_checkpoint] zero checkpoint saved ./outputs/step-1200/pytorch_model/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt
+[2024-12-08 11:37:52,685] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint pytorch_model is ready now!
+[2024-12-08 11:37:52,739] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved ./outputs/step-1200/pytorch_model/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt.
+[2024-12-08 11:37:52,740] [INFO] [engine.py:3536:_save_zero_checkpoint] zero checkpoint saved ./outputs/step-1200/pytorch_model/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt
+[2024-12-08 11:37:52,740] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint pytorch_model is ready now!
+[2024-12-08 11:37:52,823] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved ./outputs/step-1200/pytorch_model/bf16_zero_pp_rank_6_mp_rank_00_optim_states.pt.
+[2024-12-08 11:37:52,823] [INFO] [engine.py:3536:_save_zero_checkpoint] zero checkpoint saved ./outputs/step-1200/pytorch_model/bf16_zero_pp_rank_6_mp_rank_00_optim_states.pt
+[2024-12-08 11:37:52,823] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint pytorch_model is ready now!
+[2024-12-08 11:37:52,877] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved ./outputs/step-1200/pytorch_model/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt.
+[2024-12-08 11:37:52,877] [INFO] [engine.py:3536:_save_zero_checkpoint] zero checkpoint saved ./outputs/step-1200/pytorch_model/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt
+[2024-12-08 11:37:52,877] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint pytorch_model is ready now!
+[2024-12-08 11:37:53,097] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved ./outputs/step-1200/pytorch_model/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt.
+[2024-12-08 11:37:53,097] [INFO] [engine.py:3536:_save_zero_checkpoint] zero checkpoint saved ./outputs/step-1200/pytorch_model/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt
+[2024-12-08 11:37:53,097] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint pytorch_model is ready now!
+12/08/2024 11:37:53 - INFO - accelerate.accelerator - DeepSpeed Model and Optimizer saved to output dir ./outputs/step-1200/pytorch_model
+12/08/2024 11:37:53 - INFO - accelerate.checkpointing - Scheduler state saved in outputs/step-1200/scheduler.bin
+12/08/2024 11:37:53 - INFO - accelerate.checkpointing - Sampler state for dataloader 0 saved in outputs/step-1200/sampler.bin
+12/08/2024 11:37:53 - INFO - accelerate.checkpointing - Random states saved in outputs/step-1200/random_states_0.pkl
+tokenizer config file saved in ./outputs/step-1200/tokenizer_config.json
+Special tokens file saved in ./outputs/step-1200/special_tokens_map.json
+ 94%|█████████▍| 1201/1276 [1:02:43<16:36, 13.29s/it]12/08/2024 11:37:55 - INFO - __main__ -   Step: 1201, LR: 1.2080808080808082e-06, Loss: 0.6622059345245361
+ 94%|█████████▍| 1202/1276 [1:02:46<12:27, 10.10s/it]12/08/2024 11:37:58 - INFO - __main__ -   Step: 1202, LR: 1.1919191919191921e-06, Loss: 0.7962137460708618
+ 94%|█████████▍| 1203/1276 [1:02:48<09:31,  7.82s/it]12/08/2024 11:38:01 - INFO - __main__ -   Step: 1203, LR: 1.1757575757575759e-06, Loss: 0.7354885339736938
+ 94%|█████████▍| 1204/1276 [1:02:51<07:26,  6.20s/it]12/08/2024 11:38:03 - INFO - __main__ -   Step: 1204, LR: 1.1595959595959596e-06, Loss: 0.7063165903091431
+ 94%|█████████▍| 1205/1276 [1:02:54<06:11,  5.24s/it]12/08/2024 11:38:06 - INFO - __main__ -   Step: 1205, LR: 1.1434343434343436e-06, Loss: 0.706294059753418
+ 95%|█████████▍| 1206/1276 [1:02:56<05:10,  4.43s/it]12/08/2024 11:38:08 - INFO - __main__ -   Step: 1206, LR: 1.1272727272727275e-06, Loss: 0.7651685476303101
+ 95%|█████████▍| 1207/1276 [1:02:59<04:39,  4.05s/it]12/08/2024 11:38:12 - INFO - __main__ -   Step: 1207, LR: 1.111111111111111e-06, Loss: 0.7999094724655151
+ 95%|█████████▍| 1208/1276 [1:03:03<04:20,  3.83s/it]12/08/2024 11:38:15 - INFO - __main__ -   Step: 1208, LR: 1.094949494949495e-06, Loss: 0.747505784034729
+ 95%|█████████▍| 1209/1276 [1:03:05<03:55,  3.51s/it]12/08/2024 11:38:18 - INFO - __main__ -   Step: 1209, LR: 1.078787878787879e-06, Loss: 0.8370426893234253
+ 95%|█████████▍| 1210/1276 [1:03:09<03:54,  3.55s/it]12/08/2024 11:38:21 - INFO - __main__ -   Step: 1210, LR: 1.0626262626262627e-06, Loss: 0.7744501829147339
+ 95%|█████████▍| 1211/1276 [1:03:12<03:40,  3.39s/it]12/08/2024 11:38:24 - INFO - __main__ -   Step: 1211, LR: 1.0464646464646464e-06, Loss: 0.7689154148101807
+ 95%|█████████▍| 1212/1276 [1:03:16<03:36,  3.38s/it]12/08/2024 11:38:28 - INFO - __main__ -   Step: 1212, LR: 1.0303030303030304e-06, Loss: 0.8751592040061951
+ 95%|█████████▌| 1213/1276 [1:03:19<03:32,  3.38s/it]12/08/2024 11:38:31 - INFO - __main__ -   Step: 1213, LR: 1.0141414141414143e-06, Loss: 0.7104265689849854
+ 95%|█████████▌| 1214/1276 [1:03:22<03:22,  3.27s/it]12/08/2024 11:38:34 - INFO - __main__ -   Step: 1214, LR: 9.97979797979798e-07, Loss: 0.583661675453186
+ 95%|█████████▌| 1215/1276 [1:03:24<03:02,  2.99s/it]12/08/2024 11:38:36 - INFO - __main__ -   Step: 1215, LR: 9.818181818181818e-07, Loss: 0.7934238314628601
+ 95%|██���██████▌| 1216/1276 [1:03:27<02:53,  2.90s/it]12/08/2024 11:38:39 - INFO - __main__ -   Step: 1216, LR: 9.656565656565657e-07, Loss: 0.7749341726303101
+ 95%|█████████▌| 1217/1276 [1:03:30<02:47,  2.83s/it]12/08/2024 11:38:42 - INFO - __main__ -   Step: 1217, LR: 9.494949494949496e-07, Loss: 0.7287274599075317
+ 95%|█████████▌| 1218/1276 [1:03:32<02:43,  2.83s/it]12/08/2024 11:38:45 - INFO - __main__ -   Step: 1218, LR: 9.333333333333334e-07, Loss: 0.5946435332298279
+ 96%|█████████▌| 1219/1276 [1:03:36<02:51,  3.02s/it]12/08/2024 11:38:48 - INFO - __main__ -   Step: 1219, LR: 9.171717171717172e-07, Loss: 0.6908208727836609
+ 96%|█████████▌| 1220/1276 [1:03:39<02:47,  2.98s/it]12/08/2024 11:38:51 - INFO - __main__ -   Step: 1220, LR: 9.01010101010101e-07, Loss: 0.6893500089645386
+ 96%|█████████▌| 1221/1276 [1:03:42<02:41,  2.94s/it]12/08/2024 11:38:54 - INFO - __main__ -   Step: 1221, LR: 8.84848484848485e-07, Loss: 0.8183390498161316
+ 96%|█████████▌| 1222/1276 [1:03:44<02:30,  2.78s/it]12/08/2024 11:38:56 - INFO - __main__ -   Step: 1222, LR: 8.686868686868688e-07, Loss: 0.702727735042572
+ 96%|█████████▌| 1223/1276 [1:03:47<02:23,  2.71s/it]12/08/2024 11:38:59 - INFO - __main__ -   Step: 1223, LR: 8.525252525252525e-07, Loss: 0.6738910675048828
+ 96%|█████████▌| 1224/1276 [1:03:49<02:20,  2.69s/it]12/08/2024 11:39:01 - INFO - __main__ -   Step: 1224, LR: 8.363636363636364e-07, Loss: 0.7441225647926331
+ 96%|█████████▌| 1225/1276 [1:03:52<02:15,  2.66s/it]12/08/2024 11:39:04 - INFO - __main__ -   Step: 1225, LR: 8.202020202020202e-07, Loss: 0.8650725483894348
+ 96%|█████████▌| 1226/1276 [1:03:55<02:17,  2.75s/it]12/08/2024 11:39:07 - INFO - __main__ -   Step: 1226, LR: 8.040404040404042e-07, Loss: 0.6196142435073853
+ 96%|█████████▌| 1227/1276 [1:03:57<02:11,  2.69s/it]12/08/2024 11:39:10 - INFO - __main__ -   Step: 1227, LR: 7.878787878787879e-07, Loss: 0.7825971245765686
+ 96%|█████████▌| 1228/1276 [1:04:00<02:07,  2.67s/it]12/08/2024 11:39:12 - INFO - __main__ -   Step: 1228, LR: 7.717171717171718e-07, Loss: 0.750928521156311
+ 96%|█████████▋| 1229/1276 [1:04:03<02:12,  2.81s/it]12/08/2024 11:39:15 - INFO - __main__ -   Step: 1229, LR: 7.555555555555556e-07, Loss: 0.6943577527999878
+ 96%|█████████▋| 1230/1276 [1:04:06<02:11,  2.86s/it]12/08/2024 11:39:18 - INFO - __main__ -   Step: 1230, LR: 7.393939393939395e-07, Loss: 0.783195972442627
+ 96%|█████████▋| 1231/1276 [1:04:09<02:08,  2.85s/it]12/08/2024 11:39:21 - INFO - __main__ -   Step: 1231, LR: 7.232323232323232e-07, Loss: 0.6351879239082336
+ 97%|█████████▋| 1232/1276 [1:04:11<02:00,  2.75s/it]12/08/2024 11:39:24 - INFO - __main__ -   Step: 1232, LR: 7.070707070707071e-07, Loss: 0.839906632900238
+ 97%|█████████▋| 1233/1276 [1:04:15<02:04,  2.90s/it]12/08/2024 11:39:27 - INFO - __main__ -   Step: 1233, LR: 6.90909090909091e-07, Loss: 0.8113847970962524
+ 97%|█████████▋| 1234/1276 [1:04:17<01:58,  2.82s/it]12/08/2024 11:39:30 - INFO - __main__ -   Step: 1234, LR: 6.747474747474748e-07, Loss: 0.6934722065925598
+ 97%|█████████▋| 1235/1276 [1:04:20<01:53,  2.76s/it]12/08/2024 11:39:32 - INFO - __main__ -   Step: 1235, LR: 6.585858585858586e-07, Loss: 0.7312805652618408
+ 97%|█████████▋| 1236/1276 [1:04:24<02:01,  3.04s/it]12/08/2024 11:39:36 - INFO - __main__ -   Step: 1236, LR: 6.424242424242424e-07, Loss: 0.7602543234825134
+ 97%|█████████▋| 1237/1276 [1:04:26<01:54,  2.94s/it]12/08/2024 11:39:39 - INFO - __main__ -   Step: 1237, LR: 6.262626262626264e-07, Loss: 0.6424907445907593
+ 97%|█████████▋| 1238/1276 [1:04:30<01:54,  3.03s/it]12/08/2024 11:39:42 - INFO - __main__ -   Step: 1238, LR: 6.101010101010101e-07, Loss: 0.7104499340057373
+ 97%|█████████▋| 1239/1276 [1:04:32<01:48,  2.92s/it]12/08/2024 11:39:44 - INFO - __main__ -   Step: 1239, LR: 5.93939393939394e-07, Loss: 0.7075863480567932
+ 97%|█████████▋| 1240/1276 [1:04:36<01:50,  3.08s/it]12/08/2024 11:39:48 - INFO - __main__ -   Step: 1240, LR: 5.777777777777778e-07, Loss: 0.7130570411682129
+ 97%|█████████▋| 1241/1276 [1:04:39<01:46,  3.05s/it]12/08/2024 11:39:51 - INFO - __main__ -   Step: 1241, LR: 5.616161616161616e-07, Loss: 0.8449028730392456
+ 97%|█████████▋| 1242/1276 [1:04:41<01:41,  2.99s/it]12/08/2024 11:39:54 - INFO - __main__ -   Step: 1242, LR: 5.454545454545455e-07, Loss: 0.6256513595581055
+ 97%|█████████▋| 1243/1276 [1:04:45<01:41,  3.08s/it]12/08/2024 11:39:57 - INFO - __main__ -   Step: 1243, LR: 5.292929292929293e-07, Loss: 0.6840605139732361
+ 97%|█████████▋| 1244/1276 [1:04:47<01:33,  2.91s/it]12/08/2024 11:40:00 - INFO - __main__ -   Step: 1244, LR: 5.131313131313132e-07, Loss: 0.6713078022003174
+ 98%|█████████▊| 1245/1276 [1:04:50<01:30,  2.91s/it]12/08/2024 11:40:02 - INFO - __main__ -   Step: 1245, LR: 4.96969696969697e-07, Loss: 0.6036823391914368
+ 98%|█████████▊| 1246/1276 [1:04:53<01:29,  2.98s/it]12/08/2024 11:40:06 - INFO - __main__ -   Step: 1246, LR: 4.808080808080809e-07, Loss: 0.7111778259277344
+ 98%|█████████▊| 1247/1276 [1:04:56<01:23,  2.89s/it]12/08/2024 11:40:08 - INFO - __main__ -   Step: 1247, LR: 4.646464646464647e-07, Loss: 0.6958110332489014
+ 98%|█████████▊| 1248/1276 [1:04:59<01:20,  2.87s/it]12/08/2024 11:40:11 - INFO - __main__ -   Step: 1248, LR: 4.484848484848485e-07, Loss: 0.6984556913375854
+ 98%|█████████▊| 1249/1276 [1:05:02<01:16,  2.83s/it]12/08/2024 11:40:14 - INFO - __main__ -   Step: 1249, LR: 4.3232323232323235e-07, Loss: 0.6236598491668701
+ 98%|█████████▊| 1250/1276 [1:05:05<01:14,  2.87s/it]12/08/2024 11:40:17 - INFO - __main__ -   Step: 1250, LR: 4.161616161616162e-07, Loss: 0.6773563623428345
+ 98%|█████████▊| 1251/1276 [1:05:07<01:10,  2.83s/it]12/08/2024 11:40:20 - INFO - __main__ -   Step: 1251, LR: 4.0000000000000003e-07, Loss: 0.7295483350753784
+ 98%|█████████▊| 1252/1276 [1:05:10<01:07,  2.80s/it]12/08/2024 11:40:22 - INFO - __main__ -   Step: 1252, LR: 3.838383838383838e-07, Loss: 0.6292178630828857
+ 98%|█████████▊| 1253/1276 [1:05:13<01:02,  2.71s/it]12/08/2024 11:40:25 - INFO - __main__ -   Step: 1253, LR: 3.676767676767677e-07, Loss: 0.82172030210495
+ 98%|█████████▊| 1254/1276 [1:05:15<01:00,  2.76s/it]12/08/2024 11:40:28 - INFO - __main__ -   Step: 1254, LR: 3.515151515151515e-07, Loss: 0.8530375957489014
+ 98%|█████████▊| 1255/1276 [1:05:19<01:03,  3.03s/it]12/08/2024 11:40:31 - INFO - __main__ -   Step: 1255, LR: 3.353535353535354e-07, Loss: 0.7830747365951538
+ 98%|█████████▊| 1256/1276 [1:05:22<00:57,  2.88s/it]12/08/2024 11:40:34 - INFO - __main__ -   Step: 1256, LR: 3.191919191919192e-07, Loss: 0.6442693471908569
+ 99%|█████████▊| 1257/1276 [1:05:25<00:58,  3.09s/it]12/08/2024 11:40:37 - INFO - __main__ -   Step: 1257, LR: 3.0303030303030305e-07, Loss: 0.7877510190010071
+ 99%|█████████▊| 1258/1276 [1:05:28<00:53,  2.99s/it]12/08/2024 11:40:40 - INFO - __main__ -   Step: 1258, LR: 2.868686868686869e-07, Loss: 0.8100487589836121
+ 99%|█████████▊| 1259/1276 [1:05:31<00:52,  3.08s/it]12/08/2024 11:40:43 - INFO - __main__ -   Step: 1259, LR: 2.7070707070707074e-07, Loss: 0.791649341583252
+ 99%|█████████▊| 1260/1276 [1:05:34<00:46,  2.93s/it]12/08/2024 11:40:46 - INFO - __main__ -   Step: 1260, LR: 2.545454545454546e-07, Loss: 0.6220853328704834
+ 99%|█████████▉| 1261/1276 [1:05:37<00:44,  2.98s/it]12/08/2024 11:40:49 - INFO - __main__ -   Step: 1261, LR: 2.383838383838384e-07, Loss: 0.7369918823242188
+ 99%|█████████▉| 1262/1276 [1:05:39<00:40,  2.87s/it]12/08/2024 11:40:52 - INFO - __main__ -   Step: 1262, LR: 2.2222222222222224e-07, Loss: 0.7323675155639648
+ 99%|█████████▉| 1263/1276 [1:05:43<00:39,  3.05s/it]12/08/2024 11:40:55 - INFO - __main__ -   Step: 1263, LR: 2.060606060606061e-07, Loss: 0.6663811206817627
+ 99%|█████████▉| 1264/1276 [1:05:46<00:37,  3.11s/it]12/08/2024 11:40:58 - INFO - __main__ -   Step: 1264, LR: 1.8989898989898993e-07, Loss: 0.63962721824646
+ 99%|█████████▉| 1265/1276 [1:05:50<00:36,  3.33s/it]12/08/2024 11:41:02 - INFO - __main__ -   Step: 1265, LR: 1.7373737373737375e-07, Loss: 0.8314509391784668
+ 99%|█████████▉| 1266/1276 [1:05:54<00:34,  3.46s/it]12/08/2024 11:41:06 - INFO - __main__ -   Step: 1266, LR: 1.575757575757576e-07, Loss: 0.7131386995315552
+ 99%|█████████▉| 1267/1276 [1:05:57<00:30,  3.43s/it]12/08/2024 11:41:09 - INFO - __main__ -   Step: 1267, LR: 1.4141414141414144e-07, Loss: 0.842353343963623
+ 99%|█████████▉| 1268/1276 [1:06:00<00:25,  3.13s/it]12/08/2024 11:41:12 - INFO - __main__ -   Step: 1268, LR: 1.2525252525252526e-07, Loss: 0.7528831958770752
+ 99%|█████████▉| 1269/1276 [1:06:03<00:22,  3.24s/it]12/08/2024 11:41:15 - INFO - __main__ -   Step: 1269, LR: 1.090909090909091e-07, Loss: 0.861657977104187
+100%|█████████▉| 1270/1276 [1:06:07<00:20,  3.38s/it]12/08/2024 11:41:19 - INFO - __main__ -   Step: 1270, LR: 9.292929292929295e-08, Loss: 0.7002421021461487
+100%|█████████▉| 1271/1276 [1:06:10<00:16,  3.31s/it]12/08/2024 11:41:22 - INFO - __main__ -   Step: 1271, LR: 7.676767676767678e-08, Loss: 0.7894760370254517
+100%|█████████▉| 1272/1276 [1:06:13<00:12,  3.09s/it]12/08/2024 11:41:25 - INFO - __main__ -   Step: 1272, LR: 6.060606060606061e-08, Loss: 0.7631642818450928
+100%|█████████▉| 1273/1276 [1:06:15<00:09,  3.05s/it]12/08/2024 11:41:28 - INFO - __main__ -   Step: 1273, LR: 4.444444444444445e-08, Loss: 0.9507110118865967
+100%|█████████▉| 1274/1276 [1:06:18<00:05,  2.96s/it]12/08/2024 11:41:30 - INFO - __main__ -   Step: 1274, LR: 2.8282828282828285e-08, Loss: 0.6687309145927429
+100%|█████████▉| 1275/1276 [1:06:22<00:03,  3.08s/it]12/08/2024 11:41:34 - INFO - __main__ -   Step: 1275, LR: 1.2121212121212122e-08, Loss: 0.5850068926811218
+100%|██████████| 1276/1276 [1:06:23<00:00,  2.65s/it]12/08/2024 11:41:35 - INFO - __main__ -   Step: 1276, LR: 0.0, Loss: 0.5603160858154297
+tokenizer config file saved in ./outputs/tokenizer_config.json
+Special tokens file saved in ./outputs/special_tokens_map.json
+Configuration saved in ./outputs/config.json
+Configuration saved in ./outputs/generation_config.json
+The model is bigger than the maximum size per checkpoint (5GB) and is going to be split in 4 checkpoint shards. You can find where each parameters has been saved in the index located at ./outputs/pytorch_model.bin.index.json.
+100%|██████████| 1276/1276 [1:06:42<00:00,  3.14s/it]