Training in progress, step 26000

Browse files

Files changed (12) hide show

adapter_model.bin +1 -1
{checkpoint-22000 → checkpoint-25000/adapter_model}/README.md +0 -0
{checkpoint-22000 → checkpoint-25000/adapter_model}/adapter_config.json +0 -0
{checkpoint-22000 → checkpoint-25000/adapter_model}/adapter_model.bin +1 -1
{checkpoint-22000/adapter_model → checkpoint-26000}/README.md +0 -0
{checkpoint-22000/adapter_model → checkpoint-26000}/adapter_config.json +0 -0
{checkpoint-22000/adapter_model → checkpoint-26000}/adapter_model.bin +1 -1
{checkpoint-22000 → checkpoint-26000}/optimizer.pt +1 -1
{checkpoint-22000 → checkpoint-26000}/rng_state.pth +1 -1
{checkpoint-22000 → checkpoint-26000}/scheduler.pt +1 -1
{checkpoint-22000 → checkpoint-26000}/trainer_state.json +277 -5
{checkpoint-22000 → checkpoint-26000}/training_args.bin +0 -0

adapter_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e8c2bc1b0742a9846ba8422b26d8c01eefc4db7cfed8f3b0f57ff4cb0ca36737
 size 500897101

 version https://git-lfs.github.com/spec/v1
+oid sha256:db604a690ace9df3e57323e7728a62d95ca6fe945a7a4f0390b60803c2b0d0f0
 size 500897101

{checkpoint-22000 → checkpoint-25000/adapter_model}/README.md RENAMED Viewed

File without changes

{checkpoint-22000 → checkpoint-25000/adapter_model}/adapter_config.json RENAMED Viewed

File without changes

{checkpoint-22000 → checkpoint-25000/adapter_model}/adapter_model.bin RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8d90531691a4bd22a7fc951651aaad0da90ed5d3154cec0eed731f4f8c1da5c1
 size 500897101

 version https://git-lfs.github.com/spec/v1
+oid sha256:e8c2bc1b0742a9846ba8422b26d8c01eefc4db7cfed8f3b0f57ff4cb0ca36737
 size 500897101

{checkpoint-22000/adapter_model → checkpoint-26000}/README.md RENAMED Viewed

File without changes

{checkpoint-22000/adapter_model → checkpoint-26000}/adapter_config.json RENAMED Viewed

File without changes

{checkpoint-22000/adapter_model → checkpoint-26000}/adapter_model.bin RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8d90531691a4bd22a7fc951651aaad0da90ed5d3154cec0eed731f4f8c1da5c1
 size 500897101

 version https://git-lfs.github.com/spec/v1
+oid sha256:db604a690ace9df3e57323e7728a62d95ca6fe945a7a4f0390b60803c2b0d0f0
 size 500897101

{checkpoint-22000 → checkpoint-26000}/optimizer.pt RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:32d1d8e706f824a607393e4770716b98e3e14380a36b3d7dd013d1899e28d004
 size 1001723453

 version https://git-lfs.github.com/spec/v1
+oid sha256:27e0a8d1f02955048c81208b54b8e952c63d97fda72aa75ae96fcfc8f35af7cb
 size 1001723453

{checkpoint-22000 → checkpoint-26000}/rng_state.pth RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b542bc6d6985311dc1f25608b1f96d66e1395f22a48f78d5c5c683d2d8fdde5b
 size 14575

 version https://git-lfs.github.com/spec/v1
+oid sha256:23c71a7c504ad8a21f65a57923dde0238456dda222b9af4b24d2bfc5f74e422c
 size 14575

{checkpoint-22000 → checkpoint-26000}/scheduler.pt RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e1276f4059dba941483dcef8d87faad5b272a9ed0c06d8c247d04b1898961557
 size 627

 version https://git-lfs.github.com/spec/v1
+oid sha256:8a9f0595f0fbccf1fcdc4c120788726227aa9e6442e4233fc3c71485b74b1e4e
 size 627

{checkpoint-22000 → checkpoint-26000}/trainer_state.json RENAMED Viewed

@@ -1,8 +1,8 @@
 {
-  "best_metric": 0.6218891143798828,
-  "best_model_checkpoint": "./qlora-out/checkpoint-22000",
-  "epoch": 0.8202527869952649,
-  "global_step": 22000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1502,11 +1502,283 @@
       "eval_samples_per_second": 0.418,
       "eval_steps_per_second": 0.418,
       "step": 22000
     }
   ],
   "max_steps": 80463,
   "num_train_epochs": 3,
-  "total_flos": 6.16734700814082e+18,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 0.6026987433433533,
+  "best_model_checkpoint": "./qlora-out/checkpoint-26000",
+  "epoch": 0.9693896573580404,
+  "global_step": 26000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 0.418,
       "eval_steps_per_second": 0.418,
       "step": 22000
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 0.00016504740893793512,
+      "loss": 0.6145,
+      "step": 22100
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 0.00016475032706738023,
+      "loss": 0.6109,
+      "step": 22200
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 0.0001644522578796914,
+      "loss": 0.608,
+      "step": 22300
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 0.0001641532059198466,
+      "loss": 0.565,
+      "step": 22400
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 0.00016385317574780942,
+      "loss": 0.6139,
+      "step": 22500
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 0.000163552171938459,
+      "loss": 0.5888,
+      "step": 22600
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 0.00016325019908152078,
+      "loss": 0.6065,
+      "step": 22700
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 0.0001629472617814962,
+      "loss": 0.5959,
+      "step": 22800
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 0.00016264336465759258,
+      "loss": 0.5918,
+      "step": 22900
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 0.0001623385123436528,
+      "loss": 0.6083,
+      "step": 23000
+    },
+    {
+      "epoch": 0.86,
+      "eval_loss": 0.6180054545402527,
+      "eval_runtime": 1278.5639,
+      "eval_samples_per_second": 0.424,
+      "eval_steps_per_second": 0.424,
+      "step": 23000
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 0.0001620327094880844,
+      "loss": 0.5795,
+      "step": 23100
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 0.00016172596075378893,
+      "loss": 0.6025,
+      "step": 23200
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 0.00016141827081809075,
+      "loss": 0.5669,
+      "step": 23300
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 0.00016110964437266568,
+      "loss": 0.6172,
+      "step": 23400
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 0.00016080008612346955,
+      "loss": 0.5899,
+      "step": 23500
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 0.00016048960079066636,
+      "loss": 0.5889,
+      "step": 23600
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 0.00016017819310855632,
+      "loss": 0.5893,
+      "step": 23700
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 0.00015986586782550376,
+      "loss": 0.6363,
+      "step": 23800
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 0.00015955262970386458,
+      "loss": 0.5876,
+      "step": 23900
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 0.00015923848351991372,
+      "loss": 0.5964,
+      "step": 24000
+    },
+    {
+      "epoch": 0.89,
+      "eval_loss": 0.6122664213180542,
+      "eval_runtime": 1255.2341,
+      "eval_samples_per_second": 0.432,
+      "eval_steps_per_second": 0.432,
+      "step": 24000
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 0.00015892343406377225,
+      "loss": 0.5943,
+      "step": 24100
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 0.00015860748613933455,
+      "loss": 0.6008,
+      "step": 24200
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 0.00015829064456419477,
+      "loss": 0.6123,
+      "step": 24300
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 0.00015797291416957355,
+      "loss": 0.5819,
+      "step": 24400
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 0.00015765429980024425,
+      "loss": 0.5731,
+      "step": 24500
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 0.00015733480631445926,
+      "loss": 0.593,
+      "step": 24600
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 0.00015701443858387562,
+      "loss": 0.5764,
+      "step": 24700
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 0.00015669320149348104,
+      "loss": 0.6037,
+      "step": 24800
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 0.0001563710999415193,
+      "loss": 0.5958,
+      "step": 24900
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 0.00015604813883941535,
+      "loss": 0.6186,
+      "step": 25000
+    },
+    {
+      "epoch": 0.93,
+      "eval_loss": 0.6086174249649048,
+      "eval_runtime": 1260.3923,
+      "eval_samples_per_second": 0.43,
+      "eval_steps_per_second": 0.43,
+      "step": 25000
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 0.00015572432311170096,
+      "loss": 0.597,
+      "step": 25100
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 0.00015539965769593894,
+      "loss": 0.5657,
+      "step": 25200
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 0.0001550741475426484,
+      "loss": 0.6081,
+      "step": 25300
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 0.00015474779761522894,
+      "loss": 0.5957,
+      "step": 25400
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 0.00015442061288988525,
+      "loss": 0.6032,
+      "step": 25500
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 0.00015409259835555089,
+      "loss": 0.5662,
+      "step": 25600
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 0.00015376375901381256,
+      "loss": 0.5607,
+      "step": 25700
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 0.00015343409987883354,
+      "loss": 0.5727,
+      "step": 25800
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 0.00015310362597727747,
+      "loss": 0.5762,
+      "step": 25900
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 0.00015277234234823154,
+      "loss": 0.5841,
+      "step": 26000
+    },
+    {
+      "epoch": 0.97,
+      "eval_loss": 0.6026987433433533,
+      "eval_runtime": 1292.1515,
+      "eval_samples_per_second": 0.419,
+      "eval_steps_per_second": 0.419,
+      "step": 26000
     }
   ],
   "max_steps": 80463,
   "num_train_epochs": 3,
+  "total_flos": 7.289703933515858e+18,
   "trial_name": null,
   "trial_params": null
 }

{checkpoint-22000 → checkpoint-26000}/training_args.bin RENAMED Viewed

File without changes