Training in progress, step 168, checkpoint

Browse files

Files changed (8) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +109 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:57c0bd7798cb777e4cb645cdce79a7f5a0177461ff6e9a28795ba495d6e6be1f
 size 251748704

 version https://git-lfs.github.com/spec/v1
+oid sha256:91f844815a99969d53bc2b5482574dd9b19e68159754e281af8560e82a8e6d24
 size 251748704

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0ab326e31c608b36fa871495286a54d0d8604d59cf05d295437b5f4d1c7bb964
 size 128584660

 version https://git-lfs.github.com/spec/v1
+oid sha256:9618c84c860f05c85c4d1d721835f8ba7b9f55d9737a97624f4e3d41b076837f
 size 128584660

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d00f08f46cab7c796faa5480c61abb8e23c74fcb8ddbe7431f3614a710446503
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:de714458b8c60cd70dc5898863dcb9f93dd49a3f8feee11facdafd7c4100efa2
 size 14960

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:19d6d72c2c51ccc3548d10037b323ca86a813698e5650ced239953f4b96f9adc
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:d4f64720d8d0d269c8858be2aa4bd6e8b33e03737c0a24854963da8ae0ad210a
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:696c00fdd61a8192b661a93c1ace01a9afdfe1d6362be739cce62ce0e21c5952
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:284ec0e14baeb59b8e0a8e1045d504ab9e19f0c0329738d0ae614878482b08a6
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3c15eca3ab6fc97dcdd8cfaa6acab1138df9e2b074b50252115ca9b197a55569
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:e44c8ce92df8c0fd5b8022970525acf2e72a262c19b8760135eca567e033e880
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5d6789ad2e7141c857db1a1b89c580a274f669224bfc6f48fb1745262d15c182
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:79783dc253db8561cbce9475c59c8adb4831f213eda27032651f04af31d6a595
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.44366197183098594,
   "eval_steps": 42,
-  "global_step": 126,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -333,6 +333,112 @@
       "eval_samples_per_second": 56.959,
       "eval_steps_per_second": 1.786,
       "step": 126
     }
   ],
   "logging_steps": 3,
@@ -352,7 +458,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.0566375634202788e+18,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.5915492957746479,
   "eval_steps": 42,
+  "global_step": 168,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 56.959,
       "eval_steps_per_second": 1.786,
       "step": 126
+    },
+    {
+      "epoch": 0.45422535211267606,
+      "grad_norm": 2.5988810062408447,
+      "learning_rate": 4.306987159568479e-05,
+      "loss": 0.618,
+      "step": 129
+    },
+    {
+      "epoch": 0.4647887323943662,
+      "grad_norm": 1.7022452354431152,
+      "learning_rate": 4.273424802513145e-05,
+      "loss": 0.5488,
+      "step": 132
+    },
+    {
+      "epoch": 0.4753521126760563,
+      "grad_norm": 7.090500831604004,
+      "learning_rate": 4.239206376508717e-05,
+      "loss": 0.6025,
+      "step": 135
+    },
+    {
+      "epoch": 0.4859154929577465,
+      "grad_norm": 13.125855445861816,
+      "learning_rate": 4.204344540477499e-05,
+      "loss": 0.5575,
+      "step": 138
+    },
+    {
+      "epoch": 0.4964788732394366,
+      "grad_norm": 2.1748900413513184,
+      "learning_rate": 4.16885219136787e-05,
+      "loss": 0.5685,
+      "step": 141
+    },
+    {
+      "epoch": 0.5070422535211268,
+      "grad_norm": 1.8787870407104492,
+      "learning_rate": 4.132742459383122e-05,
+      "loss": 0.5615,
+      "step": 144
+    },
+    {
+      "epoch": 0.5176056338028169,
+      "grad_norm": 1.8326219320297241,
+      "learning_rate": 4.096028703124014e-05,
+      "loss": 0.5695,
+      "step": 147
+    },
+    {
+      "epoch": 0.528169014084507,
+      "grad_norm": 1.6756395101547241,
+      "learning_rate": 4.058724504646834e-05,
+      "loss": 0.5926,
+      "step": 150
+    },
+    {
+      "epoch": 0.5387323943661971,
+      "grad_norm": 1.572495937347412,
+      "learning_rate": 4.0208436644387834e-05,
+      "loss": 0.6206,
+      "step": 153
+    },
+    {
+      "epoch": 0.5492957746478874,
+      "grad_norm": 1.5724139213562012,
+      "learning_rate": 3.982400196312564e-05,
+      "loss": 0.6059,
+      "step": 156
+    },
+    {
+      "epoch": 0.5598591549295775,
+      "grad_norm": 2.1546130180358887,
+      "learning_rate": 3.943408322222049e-05,
+      "loss": 0.6087,
+      "step": 159
+    },
+    {
+      "epoch": 0.5704225352112676,
+      "grad_norm": 1.74432373046875,
+      "learning_rate": 3.903882467000937e-05,
+      "loss": 0.5395,
+      "step": 162
+    },
+    {
+      "epoch": 0.5809859154929577,
+      "grad_norm": 2.2862908840179443,
+      "learning_rate": 3.8638372530263715e-05,
+      "loss": 0.5786,
+      "step": 165
+    },
+    {
+      "epoch": 0.5915492957746479,
+      "grad_norm": 1.8650025129318237,
+      "learning_rate": 3.823287494809469e-05,
+      "loss": 0.5783,
+      "step": 168
+    },
+    {
+      "epoch": 0.5915492957746479,
+      "eval_loss": 0.14048069715499878,
+      "eval_runtime": 33.5379,
+      "eval_samples_per_second": 57.04,
+      "eval_steps_per_second": 1.789,
+      "step": 168
     }
   ],
   "logging_steps": 3,
       "attributes": {}
     }
   },
+  "total_flos": 1.4088500845603717e+18,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null