YL95
/

copa_v_wright_CPT_mistral_file_folder_path_checkpoint

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

YL95 commited on Jul 22

Commit

d117e5b

•

1 Parent(s): 4dd0882

training state at step 100

Files changed (1) hide show

trainer_state.json +78 -3

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.3103448275862069,
   "eval_steps": 1,
-  "global_step": 95,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1387,6 +1387,81 @@
       "eval_samples_per_second": 1.098,
       "eval_steps_per_second": 0.549,
       "step": 94
     }
   ],
   "logging_steps": 1,
@@ -1406,7 +1481,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.2071987453003366e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.3793103448275863,
   "eval_steps": 1,
+  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 1.098,
       "eval_steps_per_second": 0.549,
       "step": 94
+    },
+    {
+      "epoch": 1.3103448275862069,
+      "grad_norm": 2.077143669128418,
+      "learning_rate": 4.894543310469968e-05,
+      "loss": 1.2378,
+      "step": 95
+    },
+    {
+      "epoch": 1.3103448275862069,
+      "eval_loss": 0.6547893285751343,
+      "eval_runtime": 18.7488,
+      "eval_samples_per_second": 1.067,
+      "eval_steps_per_second": 0.533,
+      "step": 95
+    },
+    {
+      "epoch": 1.3241379310344827,
+      "grad_norm": 1.9517972469329834,
+      "learning_rate": 4.882595527372152e-05,
+      "loss": 1.0997,
+      "step": 96
+    },
+    {
+      "epoch": 1.3241379310344827,
+      "eval_loss": 0.6498640775680542,
+      "eval_runtime": 18.4304,
+      "eval_samples_per_second": 1.085,
+      "eval_steps_per_second": 0.543,
+      "step": 96
+    },
+    {
+      "epoch": 1.3379310344827586,
+      "grad_norm": 2.0447959899902344,
+      "learning_rate": 4.870022949890676e-05,
+      "loss": 0.9613,
+      "step": 97
+    },
+    {
+      "epoch": 1.3379310344827586,
+      "eval_loss": 0.6370054483413696,
+      "eval_runtime": 18.252,
+      "eval_samples_per_second": 1.096,
+      "eval_steps_per_second": 0.548,
+      "step": 97
+    },
+    {
+      "epoch": 1.3517241379310345,
+      "grad_norm": 2.078657865524292,
+      "learning_rate": 4.856828874966086e-05,
+      "loss": 1.1216,
+      "step": 98
+    },
+    {
+      "epoch": 1.3517241379310345,
+      "eval_loss": 0.6291982531547546,
+      "eval_runtime": 18.2386,
+      "eval_samples_per_second": 1.097,
+      "eval_steps_per_second": 0.548,
+      "step": 98
+    },
+    {
+      "epoch": 1.3655172413793104,
+      "grad_norm": 2.0556623935699463,
+      "learning_rate": 4.8430167625158595e-05,
+      "loss": 1.0718,
+      "step": 99
+    },
+    {
+      "epoch": 1.3655172413793104,
+      "eval_loss": 0.6218433380126953,
+      "eval_runtime": 18.1671,
+      "eval_samples_per_second": 1.101,
+      "eval_steps_per_second": 0.55,
+      "step": 99
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 1.2709753377329971e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null