Training in progress, step 28000

Browse files

Files changed (12) hide show

adapter_model.bin +1 -1
{checkpoint-24000 → checkpoint-27000/adapter_model}/README.md +0 -0
{checkpoint-24000 → checkpoint-27000/adapter_model}/adapter_config.json +0 -0
{checkpoint-24000 → checkpoint-27000/adapter_model}/adapter_model.bin +1 -1
{checkpoint-24000/adapter_model → checkpoint-28000}/README.md +0 -0
{checkpoint-24000/adapter_model → checkpoint-28000}/adapter_config.json +0 -0
{checkpoint-24000/adapter_model → checkpoint-28000}/adapter_model.bin +1 -1
{checkpoint-24000 → checkpoint-28000}/optimizer.pt +1 -1
{checkpoint-24000 → checkpoint-28000}/rng_state.pth +1 -1
{checkpoint-24000 → checkpoint-28000}/scheduler.pt +1 -1
{checkpoint-24000 → checkpoint-28000}/trainer_state.json +277 -5
{checkpoint-24000 → checkpoint-28000}/training_args.bin +0 -0

adapter_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:738e63d241a0a1440d6120083eea9c47e57d65e6d8cb770ded25c0d8154e9153
 size 500897101

 version https://git-lfs.github.com/spec/v1
+oid sha256:196c1d0349fe865fe652da8fb5f0318dc7fea1691a4f6b9ce949ba1d8fc568d2
 size 500897101

{checkpoint-24000 → checkpoint-27000/adapter_model}/README.md RENAMED Viewed

File without changes

{checkpoint-24000 → checkpoint-27000/adapter_model}/adapter_config.json RENAMED Viewed

File without changes

{checkpoint-24000 → checkpoint-27000/adapter_model}/adapter_model.bin RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0e5f593687f6b7f35b8db5be08cd3d3eabc5b69e4a5f70590ddb55cde4f73c64
 size 500897101

 version https://git-lfs.github.com/spec/v1
+oid sha256:738e63d241a0a1440d6120083eea9c47e57d65e6d8cb770ded25c0d8154e9153
 size 500897101

{checkpoint-24000/adapter_model → checkpoint-28000}/README.md RENAMED Viewed

File without changes

{checkpoint-24000/adapter_model → checkpoint-28000}/adapter_config.json RENAMED Viewed

File without changes

{checkpoint-24000/adapter_model → checkpoint-28000}/adapter_model.bin RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0e5f593687f6b7f35b8db5be08cd3d3eabc5b69e4a5f70590ddb55cde4f73c64
 size 500897101

 version https://git-lfs.github.com/spec/v1
+oid sha256:196c1d0349fe865fe652da8fb5f0318dc7fea1691a4f6b9ce949ba1d8fc568d2
 size 500897101

{checkpoint-24000 → checkpoint-28000}/optimizer.pt RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:41c516a1cda2f637391a4cc14345088f2c9231c0a65bc15aa25db213427b391e
 size 1001723453

 version https://git-lfs.github.com/spec/v1
+oid sha256:04d78b2c094992c84dfe56222bca52d649375e78ba1b620b3066065ac043d46c
 size 1001723453

{checkpoint-24000 → checkpoint-28000}/rng_state.pth RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a6a0c20bcdf319a5ffb4a98f7ca699fd1efef2927f5c6f105ca13297f084ba02
 size 14575

 version https://git-lfs.github.com/spec/v1
+oid sha256:a4463358c0b4ae7957b6ac92cc6e7a3966deed18d8592e7b96d0b5329e30e9c3
 size 14575

{checkpoint-24000 → checkpoint-28000}/scheduler.pt RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fd7a0be07ab26faaad77ee68b49800320fcb18c774f44c984bf819516ecfa521
 size 627

 version https://git-lfs.github.com/spec/v1
+oid sha256:f454f0dd53d23ae46c76eed24d3b8210f5bc3588acc88def4db4574c3744dffb
 size 627

{checkpoint-24000 → checkpoint-28000}/trainer_state.json RENAMED Viewed

@@ -1,8 +1,8 @@
 {
-  "best_metric": 0.6122664213180542,
-  "best_model_checkpoint": "./qlora-out/checkpoint-24000",
-  "epoch": 0.8948212221766526,
-  "global_step": 24000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1638,11 +1638,283 @@
       "eval_samples_per_second": 0.432,
       "eval_steps_per_second": 0.432,
       "step": 24000
     }
   ],
   "max_steps": 80463,
   "num_train_epochs": 3,
-  "total_flos": 6.727787581059072e+18,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 0.5959522128105164,
+  "best_model_checkpoint": "./qlora-out/checkpoint-28000",
+  "epoch": 1.043958092539428,
+  "global_step": 28000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 0.432,
       "eval_steps_per_second": 0.432,
       "step": 24000
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 0.00015892343406377225,
+      "loss": 0.5943,
+      "step": 24100
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 0.00015860748613933455,
+      "loss": 0.6008,
+      "step": 24200
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 0.00015829064456419477,
+      "loss": 0.6123,
+      "step": 24300
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 0.00015797291416957355,
+      "loss": 0.5819,
+      "step": 24400
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 0.00015765429980024425,
+      "loss": 0.5731,
+      "step": 24500
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 0.00015733480631445926,
+      "loss": 0.593,
+      "step": 24600
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 0.00015701443858387562,
+      "loss": 0.5764,
+      "step": 24700
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 0.00015669320149348104,
+      "loss": 0.6037,
+      "step": 24800
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 0.0001563710999415193,
+      "loss": 0.5958,
+      "step": 24900
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 0.00015604813883941535,
+      "loss": 0.6186,
+      "step": 25000
+    },
+    {
+      "epoch": 0.93,
+      "eval_loss": 0.6086174249649048,
+      "eval_runtime": 1260.3923,
+      "eval_samples_per_second": 0.43,
+      "eval_steps_per_second": 0.43,
+      "step": 25000
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 0.00015572432311170096,
+      "loss": 0.597,
+      "step": 25100
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 0.00015539965769593894,
+      "loss": 0.5657,
+      "step": 25200
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 0.0001550741475426484,
+      "loss": 0.6081,
+      "step": 25300
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 0.00015474779761522894,
+      "loss": 0.5957,
+      "step": 25400
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 0.00015442061288988525,
+      "loss": 0.6032,
+      "step": 25500
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 0.00015409259835555089,
+      "loss": 0.5662,
+      "step": 25600
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 0.00015376375901381256,
+      "loss": 0.5607,
+      "step": 25700
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 0.00015343409987883354,
+      "loss": 0.5727,
+      "step": 25800
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 0.00015310362597727747,
+      "loss": 0.5762,
+      "step": 25900
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 0.00015277234234823154,
+      "loss": 0.5841,
+      "step": 26000
+    },
+    {
+      "epoch": 0.97,
+      "eval_loss": 0.6026987433433533,
+      "eval_runtime": 1292.1515,
+      "eval_samples_per_second": 0.419,
+      "eval_steps_per_second": 0.419,
+      "step": 26000
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 0.00015244025404312974,
+      "loss": 0.6015,
+      "step": 26100
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 0.00015210736612567588,
+      "loss": 0.5914,
+      "step": 26200
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 0.00015177368367176616,
+      "loss": 0.5799,
+      "step": 26300
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 0.00015143921176941205,
+      "loss": 0.6037,
+      "step": 26400
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 0.00015110395551866255,
+      "loss": 0.5876,
+      "step": 26500
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 0.0001507679200315264,
+      "loss": 0.5973,
+      "step": 26600
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 0.00015043111043189423,
+      "loss": 0.5957,
+      "step": 26700
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 0.00015009353185546046,
+      "loss": 0.5696,
+      "step": 26800
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 0.00014975518944964478,
+      "loss": 0.5523,
+      "step": 26900
+    },
+    {
+      "epoch": 1.01,
+      "learning_rate": 0.0001494160883735139,
+      "loss": 0.5144,
+      "step": 27000
+    },
+    {
+      "epoch": 1.01,
+      "eval_loss": 0.5985096096992493,
+      "eval_runtime": 1314.8131,
+      "eval_samples_per_second": 0.412,
+      "eval_steps_per_second": 0.412,
+      "step": 27000
+    },
+    {
+      "epoch": 1.01,
+      "learning_rate": 0.00014907623379770263,
+      "loss": 0.5743,
+      "step": 27100
+    },
+    {
+      "epoch": 1.01,
+      "learning_rate": 0.00014873563090433547,
+      "loss": 0.5095,
+      "step": 27200
+    },
+    {
+      "epoch": 1.02,
+      "learning_rate": 0.00014839428488694706,
+      "loss": 0.5391,
+      "step": 27300
+    },
+    {
+      "epoch": 1.02,
+      "learning_rate": 0.00014805220095040334,
+      "loss": 0.5532,
+      "step": 27400
+    },
+    {
+      "epoch": 1.03,
+      "learning_rate": 0.00014770938431082212,
+      "loss": 0.536,
+      "step": 27500
+    },
+    {
+      "epoch": 1.03,
+      "learning_rate": 0.00014736584019549342,
+      "loss": 0.5204,
+      "step": 27600
+    },
+    {
+      "epoch": 1.03,
+      "learning_rate": 0.00014702157384279997,
+      "loss": 0.5026,
+      "step": 27700
+    },
+    {
+      "epoch": 1.04,
+      "learning_rate": 0.0001466765905021371,
+      "loss": 0.5319,
+      "step": 27800
+    },
+    {
+      "epoch": 1.04,
+      "learning_rate": 0.00014633089543383295,
+      "loss": 0.5112,
+      "step": 27900
+    },
+    {
+      "epoch": 1.04,
+      "learning_rate": 0.00014598449390906804,
+      "loss": 0.5146,
+      "step": 28000
+    },
+    {
+      "epoch": 1.04,
+      "eval_loss": 0.5959522128105164,
+      "eval_runtime": 1288.6066,
+      "eval_samples_per_second": 0.421,
+      "eval_steps_per_second": 0.421,
+      "step": 28000
     }
   ],
   "max_steps": 80463,
   "num_train_epochs": 3,
+  "total_flos": 7.852151375567094e+18,
   "trial_name": null,
   "trial_params": null
 }

{checkpoint-24000 → checkpoint-28000}/training_args.bin RENAMED Viewed

File without changes