End of training

Files changed (4) hide show

all_results.json CHANGED Viewed

@@ -1,14 +1,14 @@
 {
-    "epoch": 1.0,
-    "eval_loss": 2.143171787261963,
-    "eval_runtime": 15.5445,
     "eval_samples": 1000,
-    "eval_samples_per_second": 64.332,
-    "eval_steps_per_second": 8.041,
-    "perplexity": 8.52643883529601,
-    "train_loss": 2.1925529711174243,
-    "train_runtime": 1129.3473,
     "train_samples": 19004,
-    "train_samples_per_second": 16.827,
-    "train_steps_per_second": 0.263
 }

 {
+    "epoch": 3.0,
+    "eval_loss": 2.030430555343628,
+    "eval_runtime": 15.4256,
     "eval_samples": 1000,
+    "eval_samples_per_second": 64.827,
+    "eval_steps_per_second": 8.103,
+    "perplexity": 7.617365350191575,
+    "train_loss": 2.1000711460306185,
+    "train_runtime": 3427.7755,
     "train_samples": 19004,
+    "train_samples_per_second": 16.632,
+    "train_steps_per_second": 0.26
 }

eval_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 1.0,
-    "eval_loss": 2.143171787261963,
-    "eval_runtime": 15.5445,
     "eval_samples": 1000,
-    "eval_samples_per_second": 64.332,
-    "eval_steps_per_second": 8.041,
-    "perplexity": 8.52643883529601
 }

 {
+    "epoch": 3.0,
+    "eval_loss": 2.030430555343628,
+    "eval_runtime": 15.4256,
     "eval_samples": 1000,
+    "eval_samples_per_second": 64.827,
+    "eval_steps_per_second": 8.103,
+    "perplexity": 7.617365350191575
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 1.0,
-    "train_loss": 2.1925529711174243,
-    "train_runtime": 1129.3473,
     "train_samples": 19004,
-    "train_samples_per_second": 16.827,
-    "train_steps_per_second": 0.263
 }

 {
+    "epoch": 3.0,
+    "train_loss": 2.1000711460306185,
+    "train_runtime": 3427.7755,
     "train_samples": 19004,
+    "train_samples_per_second": 16.632,
+    "train_steps_per_second": 0.26
 }

trainer_state.json CHANGED Viewed

@@ -1,33 +1,55 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.0,
-  "global_step": 297,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
-      "eval_loss": 2.1746253967285156,
-      "eval_runtime": 15.7469,
-      "eval_samples_per_second": 63.505,
-      "eval_steps_per_second": 7.938,
       "step": 297
     },
     {
-      "epoch": 1.0,
-      "step": 297,
-      "total_flos": 5001918049701888.0,
-      "train_loss": 2.1925529711174243,
-      "train_runtime": 1129.3473,
-      "train_samples_per_second": 16.827,
-      "train_steps_per_second": 0.263
     }
   ],
-  "max_steps": 297,
-  "num_train_epochs": 1,
-  "total_flos": 5001918049701888.0,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 3.0,
+  "global_step": 891,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
+      "eval_loss": 2.170140027999878,
+      "eval_runtime": 15.6956,
+      "eval_samples_per_second": 63.712,
+      "eval_steps_per_second": 7.964,
       "step": 297
     },
     {
+      "epoch": 1.68,
+      "learning_rate": 8.77665544332211e-06,
+      "loss": 2.1401,
+      "step": 500
+    },
+    {
+      "epoch": 2.0,
+      "eval_loss": 2.0152316093444824,
+      "eval_runtime": 15.6747,
+      "eval_samples_per_second": 63.797,
+      "eval_steps_per_second": 7.975,
+      "step": 594
+    },
+    {
+      "epoch": 3.0,
+      "eval_loss": 2.1160194873809814,
+      "eval_runtime": 15.6683,
+      "eval_samples_per_second": 63.823,
+      "eval_steps_per_second": 7.978,
+      "step": 891
+    },
+    {
+      "epoch": 3.0,
+      "step": 891,
+      "total_flos": 1.5005754149105664e+16,
+      "train_loss": 2.1000711460306185,
+      "train_runtime": 3427.7755,
+      "train_samples_per_second": 16.632,
+      "train_steps_per_second": 0.26
     }
   ],
+  "max_steps": 891,
+  "num_train_epochs": 3,
+  "total_flos": 1.5005754149105664e+16,
   "trial_name": null,
   "trial_params": null
 }