Training in progress, step 30, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +116 -3

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0356e2d45181d9bfc59eef8268a1682cedbf6a4fe1d1962dc8fc4b60fc0de8a6
 size 90365754

 version https://git-lfs.github.com/spec/v1
+oid sha256:2f801add4c0d2e08fe2b55e70f53bea6aef21a176c0657a3e820c530d88b29ca
 size 90365754

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:be1f464f5148cadad2eb6ce0c98da4db9cbea74da6558df564b870bb2d05b79a
 size 14512

 version https://git-lfs.github.com/spec/v1
+oid sha256:72a607a89f29f579bb7e3b03d01051406f784e1383419ed5b710137e9d12493e
 size 14512

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4076be35501e6f142268aafb53d7dd402a55fe1fab08306a4a1b945caeef0c2b
 size 14512

 version https://git-lfs.github.com/spec/v1
+oid sha256:3ec16933bc3b62330056ce3e53e0d229a8971f7e3969b0b72440ffdd637e6216
 size 14512

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:88de868c96c0a10245aeff16f0aa4d46e50213f783416c2c0d07e645991cb38e
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:4a73e1ff9beffc13aa54f4adf4df9ed4ad8819cc503c53ddfd100ef74e91d520
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.25477707006369427,
   "eval_steps": 15,
-  "global_step": 15,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -128,6 +128,119 @@
       "eval_samples_per_second": 23.719,
       "eval_steps_per_second": 5.93,
       "step": 15
     }
   ],
   "logging_steps": 1,
@@ -147,7 +260,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 5806335417384960.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.5095541401273885,
   "eval_steps": 15,
+  "global_step": 30,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 23.719,
       "eval_steps_per_second": 5.93,
       "step": 15
+    },
+    {
+      "epoch": 0.27176220806794055,
+      "grad_norm": NaN,
+      "learning_rate": 3.2000000000000005e-05,
+      "loss": 0.0,
+      "step": 16
+    },
+    {
+      "epoch": 0.28874734607218683,
+      "grad_norm": NaN,
+      "learning_rate": 3.4000000000000007e-05,
+      "loss": 0.0,
+      "step": 17
+    },
+    {
+      "epoch": 0.3057324840764331,
+      "grad_norm": NaN,
+      "learning_rate": 3.6e-05,
+      "loss": 0.0,
+      "step": 18
+    },
+    {
+      "epoch": 0.3227176220806794,
+      "grad_norm": NaN,
+      "learning_rate": 3.8e-05,
+      "loss": 0.0,
+      "step": 19
+    },
+    {
+      "epoch": 0.33970276008492567,
+      "grad_norm": NaN,
+      "learning_rate": 4e-05,
+      "loss": 0.0,
+      "step": 20
+    },
+    {
+      "epoch": 0.35668789808917195,
+      "grad_norm": NaN,
+      "learning_rate": 4.2e-05,
+      "loss": 0.0,
+      "step": 21
+    },
+    {
+      "epoch": 0.37367303609341823,
+      "grad_norm": NaN,
+      "learning_rate": 4.4000000000000006e-05,
+      "loss": 0.0,
+      "step": 22
+    },
+    {
+      "epoch": 0.39065817409766457,
+      "grad_norm": NaN,
+      "learning_rate": 4.600000000000001e-05,
+      "loss": 0.0,
+      "step": 23
+    },
+    {
+      "epoch": 0.40764331210191085,
+      "grad_norm": NaN,
+      "learning_rate": 4.8e-05,
+      "loss": 0.0,
+      "step": 24
+    },
+    {
+      "epoch": 0.42462845010615713,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 25
+    },
+    {
+      "epoch": 0.4416135881104034,
+      "grad_norm": NaN,
+      "learning_rate": 5.2000000000000004e-05,
+      "loss": 0.0,
+      "step": 26
+    },
+    {
+      "epoch": 0.4585987261146497,
+      "grad_norm": NaN,
+      "learning_rate": 5.4000000000000005e-05,
+      "loss": 0.0,
+      "step": 27
+    },
+    {
+      "epoch": 0.47558386411889597,
+      "grad_norm": NaN,
+      "learning_rate": 5.6000000000000006e-05,
+      "loss": 0.0,
+      "step": 28
+    },
+    {
+      "epoch": 0.49256900212314225,
+      "grad_norm": NaN,
+      "learning_rate": 5.8e-05,
+      "loss": 0.0,
+      "step": 29
+    },
+    {
+      "epoch": 0.5095541401273885,
+      "grad_norm": NaN,
+      "learning_rate": 6e-05,
+      "loss": 0.0,
+      "step": 30
+    },
+    {
+      "epoch": 0.5095541401273885,
+      "eval_loss": NaN,
+      "eval_runtime": 4.2146,
+      "eval_samples_per_second": 23.727,
+      "eval_steps_per_second": 5.932,
+      "step": 30
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 1.161267083476992e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null