Training in progress, step 29000

Browse files

Files changed (12) hide show

adapter_model.bin +1 -1
{checkpoint-25000 → checkpoint-28000/adapter_model}/README.md +0 -0
{checkpoint-25000 → checkpoint-28000/adapter_model}/adapter_config.json +0 -0
{checkpoint-25000 → checkpoint-28000/adapter_model}/adapter_model.bin +1 -1
{checkpoint-25000/adapter_model → checkpoint-29000}/README.md +0 -0
{checkpoint-25000/adapter_model → checkpoint-29000}/adapter_config.json +0 -0
{checkpoint-25000/adapter_model → checkpoint-29000}/adapter_model.bin +1 -1
{checkpoint-25000 → checkpoint-29000}/optimizer.pt +1 -1
{checkpoint-25000 → checkpoint-29000}/rng_state.pth +1 -1
{checkpoint-25000 → checkpoint-29000}/scheduler.pt +1 -1
{checkpoint-25000 → checkpoint-29000}/trainer_state.json +277 -5
{checkpoint-25000 → checkpoint-29000}/training_args.bin +0 -0

adapter_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:196c1d0349fe865fe652da8fb5f0318dc7fea1691a4f6b9ce949ba1d8fc568d2
 size 500897101

 version https://git-lfs.github.com/spec/v1
+oid sha256:bfba69a38235688144762f0028225bf75ceb8ed54f934556abed7f29749c0a1c
 size 500897101

{checkpoint-25000 → checkpoint-28000/adapter_model}/README.md RENAMED Viewed

File without changes

{checkpoint-25000 → checkpoint-28000/adapter_model}/adapter_config.json RENAMED Viewed

File without changes

{checkpoint-25000 → checkpoint-28000/adapter_model}/adapter_model.bin RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e8c2bc1b0742a9846ba8422b26d8c01eefc4db7cfed8f3b0f57ff4cb0ca36737
 size 500897101

 version https://git-lfs.github.com/spec/v1
+oid sha256:196c1d0349fe865fe652da8fb5f0318dc7fea1691a4f6b9ce949ba1d8fc568d2
 size 500897101

{checkpoint-25000/adapter_model → checkpoint-29000}/README.md RENAMED Viewed

File without changes

{checkpoint-25000/adapter_model → checkpoint-29000}/adapter_config.json RENAMED Viewed

File without changes

{checkpoint-25000/adapter_model → checkpoint-29000}/adapter_model.bin RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e8c2bc1b0742a9846ba8422b26d8c01eefc4db7cfed8f3b0f57ff4cb0ca36737
 size 500897101

 version https://git-lfs.github.com/spec/v1
+oid sha256:bfba69a38235688144762f0028225bf75ceb8ed54f934556abed7f29749c0a1c
 size 500897101

{checkpoint-25000 → checkpoint-29000}/optimizer.pt RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e74c891d56897c0b02740eeeace0d9ae8070e3f14d7a6244df64ddb88ba79e38
 size 1001723453

 version https://git-lfs.github.com/spec/v1
+oid sha256:c38cecc477586e96952b6fa6d1999766615cbde5d62f009e1485539b7febd398
 size 1001723453

{checkpoint-25000 → checkpoint-29000}/rng_state.pth RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:629e0e9594e58952b7c72ab80b4684281712821515b182bc6bccbc5f679fe7a2
 size 14575

 version https://git-lfs.github.com/spec/v1
+oid sha256:5fbefb1656f1ff612ca4102ba7149fb51afc251478e6c2b38858db29d4dbce09
 size 14575

{checkpoint-25000 → checkpoint-29000}/scheduler.pt RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:88e0bf9cf69ff1eacc409b75f32fab7577ca257cb9a30972758ae80dacd7ec2e
 size 627

 version https://git-lfs.github.com/spec/v1
+oid sha256:89994c4455e86b6de985533c4029b82858746f868501ad2119541b04d3058514
 size 627

{checkpoint-25000 → checkpoint-29000}/trainer_state.json RENAMED Viewed

@@ -1,8 +1,8 @@
 {
-  "best_metric": 0.6086174249649048,
-  "best_model_checkpoint": "./qlora-out/checkpoint-25000",
-  "epoch": 0.9321054397673465,
-  "global_step": 25000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1706,11 +1706,283 @@
       "eval_samples_per_second": 0.43,
       "eval_steps_per_second": 0.43,
       "step": 25000
     }
   ],
   "max_steps": 80463,
   "num_train_epochs": 3,
-  "total_flos": 7.008735568518267e+18,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 0.5910914540290833,
+  "best_model_checkpoint": "./qlora-out/checkpoint-29000",
+  "epoch": 1.0812423101301218,
+  "global_step": 29000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 0.43,
       "eval_steps_per_second": 0.43,
       "step": 25000
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 0.00015572432311170096,
+      "loss": 0.597,
+      "step": 25100
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 0.00015539965769593894,
+      "loss": 0.5657,
+      "step": 25200
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 0.0001550741475426484,
+      "loss": 0.6081,
+      "step": 25300
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 0.00015474779761522894,
+      "loss": 0.5957,
+      "step": 25400
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 0.00015442061288988525,
+      "loss": 0.6032,
+      "step": 25500
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 0.00015409259835555089,
+      "loss": 0.5662,
+      "step": 25600
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 0.00015376375901381256,
+      "loss": 0.5607,
+      "step": 25700
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 0.00015343409987883354,
+      "loss": 0.5727,
+      "step": 25800
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 0.00015310362597727747,
+      "loss": 0.5762,
+      "step": 25900
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 0.00015277234234823154,
+      "loss": 0.5841,
+      "step": 26000
+    },
+    {
+      "epoch": 0.97,
+      "eval_loss": 0.6026987433433533,
+      "eval_runtime": 1292.1515,
+      "eval_samples_per_second": 0.419,
+      "eval_steps_per_second": 0.419,
+      "step": 26000
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 0.00015244025404312974,
+      "loss": 0.6015,
+      "step": 26100
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 0.00015210736612567588,
+      "loss": 0.5914,
+      "step": 26200
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 0.00015177368367176616,
+      "loss": 0.5799,
+      "step": 26300
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 0.00015143921176941205,
+      "loss": 0.6037,
+      "step": 26400
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 0.00015110395551866255,
+      "loss": 0.5876,
+      "step": 26500
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 0.0001507679200315264,
+      "loss": 0.5973,
+      "step": 26600
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 0.00015043111043189423,
+      "loss": 0.5957,
+      "step": 26700
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 0.00015009353185546046,
+      "loss": 0.5696,
+      "step": 26800
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 0.00014975518944964478,
+      "loss": 0.5523,
+      "step": 26900
+    },
+    {
+      "epoch": 1.01,
+      "learning_rate": 0.0001494160883735139,
+      "loss": 0.5144,
+      "step": 27000
+    },
+    {
+      "epoch": 1.01,
+      "eval_loss": 0.5985096096992493,
+      "eval_runtime": 1314.8131,
+      "eval_samples_per_second": 0.412,
+      "eval_steps_per_second": 0.412,
+      "step": 27000
+    },
+    {
+      "epoch": 1.01,
+      "learning_rate": 0.00014907623379770263,
+      "loss": 0.5743,
+      "step": 27100
+    },
+    {
+      "epoch": 1.01,
+      "learning_rate": 0.00014873563090433547,
+      "loss": 0.5095,
+      "step": 27200
+    },
+    {
+      "epoch": 1.02,
+      "learning_rate": 0.00014839428488694706,
+      "loss": 0.5391,
+      "step": 27300
+    },
+    {
+      "epoch": 1.02,
+      "learning_rate": 0.00014805220095040334,
+      "loss": 0.5532,
+      "step": 27400
+    },
+    {
+      "epoch": 1.03,
+      "learning_rate": 0.00014770938431082212,
+      "loss": 0.536,
+      "step": 27500
+    },
+    {
+      "epoch": 1.03,
+      "learning_rate": 0.00014736584019549342,
+      "loss": 0.5204,
+      "step": 27600
+    },
+    {
+      "epoch": 1.03,
+      "learning_rate": 0.00014702157384279997,
+      "loss": 0.5026,
+      "step": 27700
+    },
+    {
+      "epoch": 1.04,
+      "learning_rate": 0.0001466765905021371,
+      "loss": 0.5319,
+      "step": 27800
+    },
+    {
+      "epoch": 1.04,
+      "learning_rate": 0.00014633089543383295,
+      "loss": 0.5112,
+      "step": 27900
+    },
+    {
+      "epoch": 1.04,
+      "learning_rate": 0.00014598449390906804,
+      "loss": 0.5146,
+      "step": 28000
+    },
+    {
+      "epoch": 1.04,
+      "eval_loss": 0.5959522128105164,
+      "eval_runtime": 1288.6066,
+      "eval_samples_per_second": 0.421,
+      "eval_steps_per_second": 0.421,
+      "step": 28000
+    },
+    {
+      "epoch": 1.05,
+      "learning_rate": 0.00014563739120979497,
+      "loss": 0.5262,
+      "step": 28100
+    },
+    {
+      "epoch": 1.05,
+      "learning_rate": 0.00014528959262865798,
+      "loss": 0.5082,
+      "step": 28200
+    },
+    {
+      "epoch": 1.06,
+      "learning_rate": 0.00014494110346891206,
+      "loss": 0.5094,
+      "step": 28300
+    },
+    {
+      "epoch": 1.06,
+      "learning_rate": 0.00014459192904434226,
+      "loss": 0.5012,
+      "step": 28400
+    },
+    {
+      "epoch": 1.06,
+      "learning_rate": 0.0001442420746791826,
+      "loss": 0.4946,
+      "step": 28500
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 0.00014389154570803477,
+      "loss": 0.5138,
+      "step": 28600
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 0.000143540347475787,
+      "loss": 0.5082,
+      "step": 28700
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 0.0001431884853375325,
+      "loss": 0.4842,
+      "step": 28800
+    },
+    {
+      "epoch": 1.08,
+      "learning_rate": 0.0001428359646584876,
+      "loss": 0.5143,
+      "step": 28900
+    },
+    {
+      "epoch": 1.08,
+      "learning_rate": 0.00014248279081391022,
+      "loss": 0.5029,
+      "step": 29000
+    },
+    {
+      "epoch": 1.08,
+      "eval_loss": 0.5910914540290833,
+      "eval_runtime": 1278.8257,
+      "eval_samples_per_second": 0.424,
+      "eval_steps_per_second": 0.424,
+      "step": 29000
     }
   ],
   "max_steps": 80463,
   "num_train_epochs": 3,
+  "total_flos": 8.134006163484918e+18,
   "trial_name": null,
   "trial_params": null
 }

{checkpoint-25000 → checkpoint-29000}/training_args.bin RENAMED Viewed

File without changes