Training in progress, step 50, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +202 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4aed54e71e19f9f28ee512d12a72908af227fec4bdbc3aafb392e447b5312ef7
 size 50503544

 version https://git-lfs.github.com/spec/v1
+oid sha256:cbc78164d3c21e8fc9898d3790d000a704d81088fb1af623d2f22911df32cd8e
 size 50503544

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4d7c8aa0d2cac1718a08dcf49d845ecfe927e8a3a8e9b92439d0de7c2990137c
 size 101184122

 version https://git-lfs.github.com/spec/v1
+oid sha256:39570c8d1990b479f1a99160d1e4ae91a2a81a454266186d1619fe4a88f7c5a9
 size 101184122

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f08b5e52b0fa4353f52e15f0ed12a3218a82410f3a186af6d5309b9f733aa130
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:11514b197853b462348465f3dc339beef02f4f254b0c41ac5a64915cdbed9ea0
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8c931ece4da598a541d357f6c98f67481603252e193960022d37ddd49c584b1f
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:a89ffc445067fef9d6d02bb3ff9e61d5e3209e6fa67c7259b3b364b90dbaa2cd
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.0023502867349816676,
   "eval_steps": 9,
-  "global_step": 25,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -206,6 +206,205 @@
       "learning_rate": 9.330127018922194e-05,
       "loss": 1.3529,
       "step": 25
     }
   ],
   "logging_steps": 1,
@@ -225,7 +424,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2573421930086400.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.004700573469963335,
   "eval_steps": 9,
+  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 9.330127018922194e-05,
       "loss": 1.3529,
       "step": 25
+    },
+    {
+      "epoch": 0.0024442982043809346,
+      "grad_norm": 1.1066913604736328,
+      "learning_rate": 9.24024048078213e-05,
+      "loss": 1.4648,
+      "step": 26
+    },
+    {
+      "epoch": 0.002538309673780201,
+      "grad_norm": 1.1527578830718994,
+      "learning_rate": 9.145187862775209e-05,
+      "loss": 1.2047,
+      "step": 27
+    },
+    {
+      "epoch": 0.002538309673780201,
+      "eval_loss": 1.295229196548462,
+      "eval_runtime": 252.4175,
+      "eval_samples_per_second": 35.489,
+      "eval_steps_per_second": 4.437,
+      "step": 27
+    },
+    {
+      "epoch": 0.002632321143179468,
+      "grad_norm": 1.4122720956802368,
+      "learning_rate": 9.045084971874738e-05,
+      "loss": 1.4598,
+      "step": 28
+    },
+    {
+      "epoch": 0.0027263326125787344,
+      "grad_norm": 1.1315748691558838,
+      "learning_rate": 8.940053768033609e-05,
+      "loss": 1.2364,
+      "step": 29
+    },
+    {
+      "epoch": 0.0028203440819780014,
+      "grad_norm": 1.089930772781372,
+      "learning_rate": 8.83022221559489e-05,
+      "loss": 1.2123,
+      "step": 30
+    },
+    {
+      "epoch": 0.002914355551377268,
+      "grad_norm": 1.0383858680725098,
+      "learning_rate": 8.715724127386972e-05,
+      "loss": 1.1399,
+      "step": 31
+    },
+    {
+      "epoch": 0.0030083670207765346,
+      "grad_norm": 0.978026807308197,
+      "learning_rate": 8.596699001693255e-05,
+      "loss": 0.9636,
+      "step": 32
+    },
+    {
+      "epoch": 0.0031023784901758012,
+      "grad_norm": 0.9167242050170898,
+      "learning_rate": 8.473291852294987e-05,
+      "loss": 0.8764,
+      "step": 33
+    },
+    {
+      "epoch": 0.0031963899595750683,
+      "grad_norm": 1.2081202268600464,
+      "learning_rate": 8.345653031794292e-05,
+      "loss": 1.0168,
+      "step": 34
+    },
+    {
+      "epoch": 0.003290401428974335,
+      "grad_norm": 1.3978822231292725,
+      "learning_rate": 8.213938048432697e-05,
+      "loss": 0.9602,
+      "step": 35
+    },
+    {
+      "epoch": 0.0033844128983736015,
+      "grad_norm": 1.0774189233779907,
+      "learning_rate": 8.07830737662829e-05,
+      "loss": 0.8812,
+      "step": 36
+    },
+    {
+      "epoch": 0.0033844128983736015,
+      "eval_loss": 0.842465341091156,
+      "eval_runtime": 252.46,
+      "eval_samples_per_second": 35.483,
+      "eval_steps_per_second": 4.436,
+      "step": 36
+    },
+    {
+      "epoch": 0.003478424367772868,
+      "grad_norm": 1.4241242408752441,
+      "learning_rate": 7.938926261462366e-05,
+      "loss": 0.8564,
+      "step": 37
+    },
+    {
+      "epoch": 0.003572435837172135,
+      "grad_norm": 1.0194820165634155,
+      "learning_rate": 7.795964517353735e-05,
+      "loss": 0.7914,
+      "step": 38
+    },
+    {
+      "epoch": 0.0036664473065714017,
+      "grad_norm": 0.9767679572105408,
+      "learning_rate": 7.649596321166024e-05,
+      "loss": 0.8322,
+      "step": 39
+    },
+    {
+      "epoch": 0.0037604587759706683,
+      "grad_norm": 1.0500026941299438,
+      "learning_rate": 7.500000000000001e-05,
+      "loss": 0.7714,
+      "step": 40
+    },
+    {
+      "epoch": 0.0038544702453699353,
+      "grad_norm": 0.8121858239173889,
+      "learning_rate": 7.347357813929454e-05,
+      "loss": 0.6804,
+      "step": 41
+    },
+    {
+      "epoch": 0.0039484817147692015,
+      "grad_norm": 0.8457009792327881,
+      "learning_rate": 7.191855733945387e-05,
+      "loss": 0.6827,
+      "step": 42
+    },
+    {
+      "epoch": 0.004042493184168469,
+      "grad_norm": 0.7305456399917603,
+      "learning_rate": 7.033683215379002e-05,
+      "loss": 0.6149,
+      "step": 43
+    },
+    {
+      "epoch": 0.004136504653567736,
+      "grad_norm": 0.9492170810699463,
+      "learning_rate": 6.873032967079561e-05,
+      "loss": 0.5956,
+      "step": 44
+    },
+    {
+      "epoch": 0.004230516122967002,
+      "grad_norm": 0.8870730996131897,
+      "learning_rate": 6.710100716628344e-05,
+      "loss": 0.7184,
+      "step": 45
+    },
+    {
+      "epoch": 0.004230516122967002,
+      "eval_loss": 0.650706946849823,
+      "eval_runtime": 252.9778,
+      "eval_samples_per_second": 35.41,
+      "eval_steps_per_second": 4.427,
+      "step": 45
+    },
+    {
+      "epoch": 0.004324527592366269,
+      "grad_norm": 0.9316329956054688,
+      "learning_rate": 6.545084971874738e-05,
+      "loss": 0.5832,
+      "step": 46
+    },
+    {
+      "epoch": 0.004418539061765535,
+      "grad_norm": 0.7315248250961304,
+      "learning_rate": 6.378186779084995e-05,
+      "loss": 0.5629,
+      "step": 47
+    },
+    {
+      "epoch": 0.004512550531164802,
+      "grad_norm": 0.9830067753791809,
+      "learning_rate": 6.209609477998338e-05,
+      "loss": 0.7129,
+      "step": 48
+    },
+    {
+      "epoch": 0.004606562000564069,
+      "grad_norm": 1.0499166250228882,
+      "learning_rate": 6.0395584540887963e-05,
+      "loss": 0.5431,
+      "step": 49
+    },
+    {
+      "epoch": 0.004700573469963335,
+      "grad_norm": 0.7427704930305481,
+      "learning_rate": 5.868240888334653e-05,
+      "loss": 0.5814,
+      "step": 50
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 5146843860172800.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null