Training in progress, step 378, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +109 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:abb56d38a89e7b62a7798d623f95ec7bceb0800b1e0e250ab37ccd5fc69a012a
 size 201892112

 version https://git-lfs.github.com/spec/v1
+oid sha256:80ababc76d414a3afda1e50007a605bd4376359db0b794d4bc845165b4cecd9b
 size 201892112

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e53496acb3ee81f29db8e8dd644eb76ba4b47ccf9f2ab343ac4a3ae57576051b
 size 102864868

 version https://git-lfs.github.com/spec/v1
+oid sha256:3023e0d5ddef1baf9cb4c5e49655a72087a416ca4f489e97d5bc70ad963d8b1e
 size 102864868

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:207840526dea4fa9627489a495e4077d47d6217bc1c29fded5fdb4cce6503140
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:0c3a22211f7dda4b0e0f527fa4802e452b6112cd704d0429874313a62a33ed2b
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:10affc9ced28dcfaf0d40e3497a97c8e7416bd057324538f99a7e1756fd84408
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:6ac207b57c6cefba3838e335ba7ebf320ffdaee8162f1c0afc72ea9ad9f0725f
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.07043286867204696,
   "eval_steps": 42,
-  "global_step": 336,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -863,6 +863,112 @@
       "eval_samples_per_second": 48.692,
       "eval_steps_per_second": 6.09,
       "step": 336
     }
   ],
   "logging_steps": 3,
@@ -882,7 +988,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 7.167376784306995e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.07923697725605282,
   "eval_steps": 42,
+  "global_step": 378,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 48.692,
       "eval_steps_per_second": 6.09,
       "step": 336
+    },
+    {
+      "epoch": 0.07106173357090452,
+      "grad_norm": 0.4022517502307892,
+      "learning_rate": 2.43550361297047e-05,
+      "loss": 1.0749,
+      "step": 339
+    },
+    {
+      "epoch": 0.07169059846976208,
+      "grad_norm": 0.35164332389831543,
+      "learning_rate": 2.353425010381063e-05,
+      "loss": 1.0352,
+      "step": 342
+    },
+    {
+      "epoch": 0.07231946336861964,
+      "grad_norm": 0.40566059947013855,
+      "learning_rate": 2.272325493947257e-05,
+      "loss": 1.0625,
+      "step": 345
+    },
+    {
+      "epoch": 0.0729483282674772,
+      "grad_norm": 0.37188711762428284,
+      "learning_rate": 2.192235065998126e-05,
+      "loss": 1.072,
+      "step": 348
+    },
+    {
+      "epoch": 0.07357719316633476,
+      "grad_norm": 0.3737729489803314,
+      "learning_rate": 2.1131833555559037e-05,
+      "loss": 1.0546,
+      "step": 351
+    },
+    {
+      "epoch": 0.07420605806519233,
+      "grad_norm": 0.35681530833244324,
+      "learning_rate": 2.0351996073748713e-05,
+      "loss": 1.0669,
+      "step": 354
+    },
+    {
+      "epoch": 0.0748349229640499,
+      "grad_norm": 0.3745366334915161,
+      "learning_rate": 1.9583126711224343e-05,
+      "loss": 1.0731,
+      "step": 357
+    },
+    {
+      "epoch": 0.07546378786290746,
+      "grad_norm": 0.3998556137084961,
+      "learning_rate": 1.8825509907063327e-05,
+      "loss": 1.1069,
+      "step": 360
+    },
+    {
+      "epoch": 0.07609265276176501,
+      "grad_norm": 0.4358106255531311,
+      "learning_rate": 1.807942593751973e-05,
+      "loss": 1.0876,
+      "step": 363
+    },
+    {
+      "epoch": 0.07672151766062257,
+      "grad_norm": 0.3841058313846588,
+      "learning_rate": 1.7345150812337564e-05,
+      "loss": 1.0822,
+      "step": 366
+    },
+    {
+      "epoch": 0.07735038255948014,
+      "grad_norm": 0.4276648759841919,
+      "learning_rate": 1.66229561726426e-05,
+      "loss": 1.0894,
+      "step": 369
+    },
+    {
+      "epoch": 0.0779792474583377,
+      "grad_norm": 0.40756258368492126,
+      "learning_rate": 1.5913109190450032e-05,
+      "loss": 1.0673,
+      "step": 372
+    },
+    {
+      "epoch": 0.07860811235719527,
+      "grad_norm": 0.34232285618782043,
+      "learning_rate": 1.5215872469825682e-05,
+      "loss": 1.0659,
+      "step": 375
+    },
+    {
+      "epoch": 0.07923697725605282,
+      "grad_norm": 0.35964226722717285,
+      "learning_rate": 1.4531503949737108e-05,
+      "loss": 1.0067,
+      "step": 378
+    },
+    {
+      "epoch": 0.07923697725605282,
+      "eval_loss": 1.0661753416061401,
+      "eval_runtime": 165.0357,
+      "eval_samples_per_second": 48.686,
+      "eval_steps_per_second": 6.09,
+      "step": 378
     }
   ],
   "logging_steps": 3,
       "attributes": {}
     }
   },
+  "total_flos": 8.06329888234537e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null