Training in progress, step 50, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +202 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:48f5e879bd67010b0ba71b8e4c6f9fc967be3d971da376788ef436a89c3031d4
 size 167832240

 version https://git-lfs.github.com/spec/v1
+oid sha256:08d64a4bb43242d4c403d27ddb407d4e18311c02495986c7ac9b34fa990b4e52
 size 167832240

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3ea15c6412f35ade37a2926ad922da04000d3e439840f128c27f9538c313d3a7
 size 335922386

 version https://git-lfs.github.com/spec/v1
+oid sha256:2eee7058997c4fe9b77bdb64b6dc93eec5a74e984b24ccc1ab51ddd3339f2099
 size 335922386

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0f7b075641bba34b68a539722c96c2b2561dcd36ad0c568f634471225344f76f
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:4253dace03c2bbc93981228fd26ac6c0cd235e555b7edb4597567f488ad8806f
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8c931ece4da598a541d357f6c98f67481603252e193960022d37ddd49c584b1f
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:a89ffc445067fef9d6d02bb3ff9e61d5e3209e6fa67c7259b3b364b90dbaa2cd
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.03382949932341001,
   "eval_steps": 9,
-  "global_step": 25,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -206,6 +206,205 @@
       "learning_rate": 9.330127018922194e-05,
       "loss": 0.0075,
       "step": 25
     }
   ],
   "logging_steps": 1,
@@ -225,7 +424,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.85471820890112e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.06765899864682003,
   "eval_steps": 9,
+  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 9.330127018922194e-05,
       "loss": 0.0075,
       "step": 25
+    },
+    {
+      "epoch": 0.035182679296346414,
+      "grad_norm": 0.23756200075149536,
+      "learning_rate": 9.24024048078213e-05,
+      "loss": 0.0165,
+      "step": 26
+    },
+    {
+      "epoch": 0.036535859269282815,
+      "grad_norm": 0.12324630469083786,
+      "learning_rate": 9.145187862775209e-05,
+      "loss": 0.0029,
+      "step": 27
+    },
+    {
+      "epoch": 0.036535859269282815,
+      "eval_loss": 0.020997991785407066,
+      "eval_runtime": 32.6042,
+      "eval_samples_per_second": 19.108,
+      "eval_steps_per_second": 2.392,
+      "step": 27
+    },
+    {
+      "epoch": 0.037889039242219216,
+      "grad_norm": 0.08755990862846375,
+      "learning_rate": 9.045084971874738e-05,
+      "loss": 0.0074,
+      "step": 28
+    },
+    {
+      "epoch": 0.03924221921515562,
+      "grad_norm": 0.18577858805656433,
+      "learning_rate": 8.940053768033609e-05,
+      "loss": 0.0084,
+      "step": 29
+    },
+    {
+      "epoch": 0.04059539918809202,
+      "grad_norm": 0.09318247437477112,
+      "learning_rate": 8.83022221559489e-05,
+      "loss": 0.0049,
+      "step": 30
+    },
+    {
+      "epoch": 0.04194857916102842,
+      "grad_norm": 0.2695228159427643,
+      "learning_rate": 8.715724127386972e-05,
+      "loss": 0.0159,
+      "step": 31
+    },
+    {
+      "epoch": 0.04330175913396482,
+      "grad_norm": 0.08464854955673218,
+      "learning_rate": 8.596699001693255e-05,
+      "loss": 0.0065,
+      "step": 32
+    },
+    {
+      "epoch": 0.044654939106901215,
+      "grad_norm": 0.17591221630573273,
+      "learning_rate": 8.473291852294987e-05,
+      "loss": 0.0049,
+      "step": 33
+    },
+    {
+      "epoch": 0.046008119079837616,
+      "grad_norm": 0.2792809009552002,
+      "learning_rate": 8.345653031794292e-05,
+      "loss": 0.0171,
+      "step": 34
+    },
+    {
+      "epoch": 0.04736129905277402,
+      "grad_norm": 0.12685370445251465,
+      "learning_rate": 8.213938048432697e-05,
+      "loss": 0.0043,
+      "step": 35
+    },
+    {
+      "epoch": 0.04871447902571042,
+      "grad_norm": 0.5813450813293457,
+      "learning_rate": 8.07830737662829e-05,
+      "loss": 0.0135,
+      "step": 36
+    },
+    {
+      "epoch": 0.04871447902571042,
+      "eval_loss": 0.019910942763090134,
+      "eval_runtime": 32.5995,
+      "eval_samples_per_second": 19.111,
+      "eval_steps_per_second": 2.393,
+      "step": 36
+    },
+    {
+      "epoch": 0.05006765899864682,
+      "grad_norm": 0.08670137077569962,
+      "learning_rate": 7.938926261462366e-05,
+      "loss": 0.0062,
+      "step": 37
+    },
+    {
+      "epoch": 0.05142083897158322,
+      "grad_norm": 0.09463904052972794,
+      "learning_rate": 7.795964517353735e-05,
+      "loss": 0.0021,
+      "step": 38
+    },
+    {
+      "epoch": 0.05277401894451962,
+      "grad_norm": 0.05870044231414795,
+      "learning_rate": 7.649596321166024e-05,
+      "loss": 0.006,
+      "step": 39
+    },
+    {
+      "epoch": 0.05412719891745602,
+      "grad_norm": 0.09653154015541077,
+      "learning_rate": 7.500000000000001e-05,
+      "loss": 0.007,
+      "step": 40
+    },
+    {
+      "epoch": 0.05548037889039242,
+      "grad_norm": 0.06797784566879272,
+      "learning_rate": 7.347357813929454e-05,
+      "loss": 0.0094,
+      "step": 41
+    },
+    {
+      "epoch": 0.056833558863328824,
+      "grad_norm": 0.9252069592475891,
+      "learning_rate": 7.191855733945387e-05,
+      "loss": 0.0755,
+      "step": 42
+    },
+    {
+      "epoch": 0.058186738836265225,
+      "grad_norm": 0.08743719756603241,
+      "learning_rate": 7.033683215379002e-05,
+      "loss": 0.007,
+      "step": 43
+    },
+    {
+      "epoch": 0.05953991880920163,
+      "grad_norm": 0.22028687596321106,
+      "learning_rate": 6.873032967079561e-05,
+      "loss": 0.0107,
+      "step": 44
+    },
+    {
+      "epoch": 0.06089309878213803,
+      "grad_norm": 0.24319298565387726,
+      "learning_rate": 6.710100716628344e-05,
+      "loss": 0.0168,
+      "step": 45
+    },
+    {
+      "epoch": 0.06089309878213803,
+      "eval_loss": 0.019319333136081696,
+      "eval_runtime": 32.603,
+      "eval_samples_per_second": 19.109,
+      "eval_steps_per_second": 2.392,
+      "step": 45
+    },
+    {
+      "epoch": 0.06224627875507442,
+      "grad_norm": 0.6694943904876709,
+      "learning_rate": 6.545084971874738e-05,
+      "loss": 0.081,
+      "step": 46
+    },
+    {
+      "epoch": 0.06359945872801083,
+      "grad_norm": 0.06383314728736877,
+      "learning_rate": 6.378186779084995e-05,
+      "loss": 0.0016,
+      "step": 47
+    },
+    {
+      "epoch": 0.06495263870094722,
+      "grad_norm": 0.05941140279173851,
+      "learning_rate": 6.209609477998338e-05,
+      "loss": 0.0045,
+      "step": 48
+    },
+    {
+      "epoch": 0.06630581867388363,
+      "grad_norm": 0.19987758994102478,
+      "learning_rate": 6.0395584540887963e-05,
+      "loss": 0.0132,
+      "step": 49
+    },
+    {
+      "epoch": 0.06765899864682003,
+      "grad_norm": 0.11729590594768524,
+      "learning_rate": 5.868240888334653e-05,
+      "loss": 0.0058,
+      "step": 50
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 3.70943641780224e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null