Training in progress, step 375, checkpoint

Browse files

Files changed (8) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +2 -2
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +186 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4f27b8b80d334d2066d5e3ba4a598ec87bfa2723f7cc021f8322176c38ae6a0d
 size 9823216

 version https://git-lfs.github.com/spec/v1
+oid sha256:f3e3b73a39232a2414041333637ebab688f39c958d5d96f17b60e392e09f12fa
 size 9823216

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ff060b07a09f9be73416a05f6fc0053d6fa781f8dd8a9f8e7524ea3e947116d1
-size 5962860

 version https://git-lfs.github.com/spec/v1
+oid sha256:532dd76ad76481ae2b6558ea671c20f889a5e40aa56f9c9420f1a39db26cbdf6
+size 5963308

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dc3cd544df75518acc39b1bd0a83a4213ccee0385ffb5f2e3c177062df280884
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:90e54d171ed44fce507d7399ea3fb5487ff9bdb6c8ea364ed7fec19eb88c9504
 size 14960

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ac8b5d17c74159060c343eae005d4ee310e607299893d1e6bd56368f9a4576f8
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:43f67ac88f6ab96777a4b6eac762dec0025e0025fbeec2ea84dfdf2e53f9d3f3
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:750a829250c1db0163207822acfc93fd30fed2b39c445bbcc2476956a5a31665
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:b28ac22428360569c5d2db5ae111d45bce664ad777bace2bb77c4ee694928a37
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:173c953847af977989744eb101ba3739481decbf9d321ae03f9658e11078c996
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:74f7952926915f7eed9aaef89269c11e94d5ae7c6014532f9b4d6ef6cdb48f1c
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d90c730646140ec36d7749c40daa51b09c4e3a0b620d5c95eeda7764b46e3d79
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:128e0b0294b5389dce5b958620f0aba512ba88459c3fb7de261ee4ac77eb7fa5
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.3394433129667346,
   "eval_steps": 125,
-  "global_step": 250,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -381,6 +381,189 @@
       "eval_samples_per_second": 160.71,
       "eval_steps_per_second": 20.202,
       "step": 250
     }
   ],
   "logging_steps": 5,
@@ -400,7 +583,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 5341488498081792.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.5091649694501018,
   "eval_steps": 125,
+  "global_step": 375,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 160.71,
       "eval_steps_per_second": 20.202,
       "step": 250
+    },
+    {
+      "epoch": 0.34623217922606925,
+      "grad_norm": 0.22694501280784607,
+      "learning_rate": 5e-05,
+      "loss": 1.4285,
+      "step": 255
+    },
+    {
+      "epoch": 0.3530210454854039,
+      "grad_norm": 0.23925504088401794,
+      "learning_rate": 4.839742112141724e-05,
+      "loss": 1.4588,
+      "step": 260
+    },
+    {
+      "epoch": 0.35980991174473864,
+      "grad_norm": 0.2735687494277954,
+      "learning_rate": 4.679648900096436e-05,
+      "loss": 1.4691,
+      "step": 265
+    },
+    {
+      "epoch": 0.3665987780040733,
+      "grad_norm": 0.29210373759269714,
+      "learning_rate": 4.5198848704615914e-05,
+      "loss": 1.441,
+      "step": 270
+    },
+    {
+      "epoch": 0.37338764426340804,
+      "grad_norm": 0.2414471060037613,
+      "learning_rate": 4.3606141915774693e-05,
+      "loss": 1.4356,
+      "step": 275
+    },
+    {
+      "epoch": 0.3801765105227427,
+      "grad_norm": 0.23838582634925842,
+      "learning_rate": 4.2020005248331054e-05,
+      "loss": 1.4412,
+      "step": 280
+    },
+    {
+      "epoch": 0.3869653767820774,
+      "grad_norm": 0.22352631390094757,
+      "learning_rate": 4.04420685649314e-05,
+      "loss": 1.459,
+      "step": 285
+    },
+    {
+      "epoch": 0.3937542430414121,
+      "grad_norm": 0.25490501523017883,
+      "learning_rate": 3.887395330218429e-05,
+      "loss": 1.4208,
+      "step": 290
+    },
+    {
+      "epoch": 0.40054310930074677,
+      "grad_norm": 0.26434803009033203,
+      "learning_rate": 3.731727080452464e-05,
+      "loss": 1.4264,
+      "step": 295
+    },
+    {
+      "epoch": 0.4073319755600815,
+      "grad_norm": 0.23617196083068848,
+      "learning_rate": 3.5773620668448384e-05,
+      "loss": 1.3935,
+      "step": 300
+    },
+    {
+      "epoch": 0.41412084181941616,
+      "grad_norm": 0.23081578314304352,
+      "learning_rate": 3.424458909881897e-05,
+      "loss": 1.4113,
+      "step": 305
+    },
+    {
+      "epoch": 0.42090970807875083,
+      "grad_norm": 0.24254988133907318,
+      "learning_rate": 3.273174727893463e-05,
+      "loss": 1.4908,
+      "step": 310
+    },
+    {
+      "epoch": 0.42769857433808556,
+      "grad_norm": 0.21009749174118042,
+      "learning_rate": 3.12366497560313e-05,
+      "loss": 1.4607,
+      "step": 315
+    },
+    {
+      "epoch": 0.4344874405974202,
+      "grad_norm": 0.2565441131591797,
+      "learning_rate": 2.976083284388031e-05,
+      "loss": 1.4664,
+      "step": 320
+    },
+    {
+      "epoch": 0.4412763068567549,
+      "grad_norm": 0.2448188215494156,
+      "learning_rate": 2.8305813044122097e-05,
+      "loss": 1.4369,
+      "step": 325
+    },
+    {
+      "epoch": 0.4480651731160896,
+      "grad_norm": 0.19102215766906738,
+      "learning_rate": 2.687308548795825e-05,
+      "loss": 1.3941,
+      "step": 330
+    },
+    {
+      "epoch": 0.4548540393754243,
+      "grad_norm": 0.23744595050811768,
+      "learning_rate": 2.5464122399803125e-05,
+      "loss": 1.4053,
+      "step": 335
+    },
+    {
+      "epoch": 0.461642905634759,
+      "grad_norm": 0.25465700030326843,
+      "learning_rate": 2.4080371584473748e-05,
+      "loss": 1.4054,
+      "step": 340
+    },
+    {
+      "epoch": 0.4684317718940937,
+      "grad_norm": 0.26104259490966797,
+      "learning_rate": 2.272325493947257e-05,
+      "loss": 1.4511,
+      "step": 345
+    },
+    {
+      "epoch": 0.47522063815342835,
+      "grad_norm": 0.22542956471443176,
+      "learning_rate": 2.139416699389153e-05,
+      "loss": 1.4673,
+      "step": 350
+    },
+    {
+      "epoch": 0.4820095044127631,
+      "grad_norm": 0.2605678141117096,
+      "learning_rate": 2.0094473475439202e-05,
+      "loss": 1.3932,
+      "step": 355
+    },
+    {
+      "epoch": 0.48879837067209775,
+      "grad_norm": 0.24848726391792297,
+      "learning_rate": 1.8825509907063327e-05,
+      "loss": 1.4204,
+      "step": 360
+    },
+    {
+      "epoch": 0.4955872369314325,
+      "grad_norm": 0.2906915843486786,
+      "learning_rate": 1.758858023461059e-05,
+      "loss": 1.3734,
+      "step": 365
+    },
+    {
+      "epoch": 0.5023761031907671,
+      "grad_norm": 0.25691258907318115,
+      "learning_rate": 1.6384955486934156e-05,
+      "loss": 1.4086,
+      "step": 370
+    },
+    {
+      "epoch": 0.5091649694501018,
+      "grad_norm": 0.2475077509880066,
+      "learning_rate": 1.5215872469825682e-05,
+      "loss": 1.4393,
+      "step": 375
+    },
+    {
+      "epoch": 0.5091649694501018,
+      "eval_loss": 1.4588358402252197,
+      "eval_runtime": 7.7286,
+      "eval_samples_per_second": 160.573,
+      "eval_steps_per_second": 20.185,
+      "step": 375
     }
   ],
   "logging_steps": 5,
       "attributes": {}
     }
   },
+  "total_flos": 8011565227835392.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null