Training in progress, step 23000

Browse files

Files changed (12) hide show

adapter_model.bin +1 -1
{checkpoint-19000 → checkpoint-22000/adapter_model}/README.md +0 -0
{checkpoint-19000 → checkpoint-22000/adapter_model}/adapter_config.json +0 -0
{checkpoint-19000 → checkpoint-22000/adapter_model}/adapter_model.bin +1 -1
{checkpoint-19000/adapter_model → checkpoint-23000}/README.md +0 -0
{checkpoint-19000/adapter_model → checkpoint-23000}/adapter_config.json +0 -0
{checkpoint-19000/adapter_model → checkpoint-23000}/adapter_model.bin +1 -1
{checkpoint-19000 → checkpoint-23000}/optimizer.pt +1 -1
{checkpoint-19000 → checkpoint-23000}/rng_state.pth +1 -1
{checkpoint-19000 → checkpoint-23000}/scheduler.pt +1 -1
{checkpoint-19000 → checkpoint-23000}/trainer_state.json +277 -5
{checkpoint-19000 → checkpoint-23000}/training_args.bin +0 -0

adapter_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8d90531691a4bd22a7fc951651aaad0da90ed5d3154cec0eed731f4f8c1da5c1
 size 500897101

 version https://git-lfs.github.com/spec/v1
+oid sha256:b09fbcc84f52583b6b795b011e1c5f0c43a3db60e66b9f20591fcc7e4f4c5a5c
 size 500897101

{checkpoint-19000 → checkpoint-22000/adapter_model}/README.md RENAMED Viewed

File without changes

{checkpoint-19000 → checkpoint-22000/adapter_model}/adapter_config.json RENAMED Viewed

File without changes

{checkpoint-19000 → checkpoint-22000/adapter_model}/adapter_model.bin RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bb683e1ef26fb6759ee6f8f26fd71fa321318d9618b1721b67182a9ba22c4bed
 size 500897101

 version https://git-lfs.github.com/spec/v1
+oid sha256:8d90531691a4bd22a7fc951651aaad0da90ed5d3154cec0eed731f4f8c1da5c1
 size 500897101

{checkpoint-19000/adapter_model → checkpoint-23000}/README.md RENAMED Viewed

File without changes

{checkpoint-19000/adapter_model → checkpoint-23000}/adapter_config.json RENAMED Viewed

File without changes

{checkpoint-19000/adapter_model → checkpoint-23000}/adapter_model.bin RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bb683e1ef26fb6759ee6f8f26fd71fa321318d9618b1721b67182a9ba22c4bed
 size 500897101

 version https://git-lfs.github.com/spec/v1
+oid sha256:b09fbcc84f52583b6b795b011e1c5f0c43a3db60e66b9f20591fcc7e4f4c5a5c
 size 500897101

{checkpoint-19000 → checkpoint-23000}/optimizer.pt RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f9516e9c48e0b063f0894fa36644ed81a9950c2ccb238710e075ac900e1c691a
 size 1001723453

 version https://git-lfs.github.com/spec/v1
+oid sha256:cbfed6747bc76cf76b9beff591f4900ea3c29204b46ce6523ace5f8336472f0d
 size 1001723453

{checkpoint-19000 → checkpoint-23000}/rng_state.pth RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fe0caf0c3a09c83e2a6569bdf628a23d4ab8e1894b17df4aac29861e99504483
 size 14575

 version https://git-lfs.github.com/spec/v1
+oid sha256:ed2325c64a2e205df19d31c415cd90ef5d3f44b07c5241eed503aa4caf9c6bce
 size 14575

{checkpoint-19000 → checkpoint-23000}/scheduler.pt RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5ebd653f1bd02557ed5a069aef9f43482462db6edb223607dfd50441b1ab368a
 size 627

 version https://git-lfs.github.com/spec/v1
+oid sha256:43a0198723866985e385225cfff961adcdcef3bedd49c15e274c7317774fe0f2
 size 627

{checkpoint-19000 → checkpoint-23000}/trainer_state.json RENAMED Viewed

@@ -1,8 +1,8 @@
 {
-  "best_metric": 0.6378119587898254,
-  "best_model_checkpoint": "./qlora-out/checkpoint-19000",
-  "epoch": 0.7084001342231834,
-  "global_step": 19000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1298,11 +1298,283 @@
       "eval_samples_per_second": 0.422,
       "eval_steps_per_second": 0.422,
       "step": 19000
     }
   ],
   "max_steps": 80463,
   "num_train_epochs": 3,
-  "total_flos": 5.326473617405952e+18,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 0.6180054545402527,
+  "best_model_checkpoint": "./qlora-out/checkpoint-23000",
+  "epoch": 0.8575370045859587,
+  "global_step": 23000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 0.422,
       "eval_steps_per_second": 0.422,
       "step": 19000
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 0.00017347885166694825,
+      "loss": 0.6213,
+      "step": 19100
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 0.00017321342561755297,
+      "loss": 0.6217,
+      "step": 19200
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 0.00017294688320515506,
+      "loss": 0.6127,
+      "step": 19300
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 0.00017267922849401024,
+      "loss": 0.6145,
+      "step": 19400
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 0.00017241046556533472,
+      "loss": 0.5936,
+      "step": 19500
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 0.0001721405985172428,
+      "loss": 0.6273,
+      "step": 19600
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 0.0001718696314646846,
+      "loss": 0.6059,
+      "step": 19700
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 0.000171597568539383,
+      "loss": 0.5934,
+      "step": 19800
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 0.000171324413889771,
+      "loss": 0.6243,
+      "step": 19900
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 0.00017105017168092808,
+      "loss": 0.6164,
+      "step": 20000
+    },
+    {
+      "epoch": 0.75,
+      "eval_loss": 0.6324757933616638,
+      "eval_runtime": 1266.6769,
+      "eval_samples_per_second": 0.428,
+      "eval_steps_per_second": 0.428,
+      "step": 20000
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 0.0001707748460945171,
+      "loss": 0.5953,
+      "step": 20100
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 0.0001704984413287202,
+      "loss": 0.6329,
+      "step": 20200
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 0.00017022096159817493,
+      "loss": 0.6227,
+      "step": 20300
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 0.00016994241113391003,
+      "loss": 0.6022,
+      "step": 20400
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 0.0001696627941832808,
+      "loss": 0.604,
+      "step": 20500
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 0.0001693821150099044,
+      "loss": 0.6101,
+      "step": 20600
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 0.00016910037789359485,
+      "loss": 0.6242,
+      "step": 20700
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 0.00016881758713029776,
+      "loss": 0.6096,
+      "step": 20800
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 0.0001685337470320248,
+      "loss": 0.5948,
+      "step": 20900
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 0.0001682488619267879,
+      "loss": 0.5911,
+      "step": 21000
+    },
+    {
+      "epoch": 0.78,
+      "eval_loss": 0.6282580494880676,
+      "eval_runtime": 1313.1215,
+      "eval_samples_per_second": 0.413,
+      "eval_steps_per_second": 0.413,
+      "step": 21000
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 0.0001679629361585335,
+      "loss": 0.5716,
+      "step": 21100
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 0.00016767597408707594,
+      "loss": 0.5957,
+      "step": 21200
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 0.00016738798008803128,
+      "loss": 0.6308,
+      "step": 21300
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 0.00016709895855275048,
+      "loss": 0.5891,
+      "step": 21400
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 0.00016680891388825243,
+      "loss": 0.6104,
+      "step": 21500
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 0.00016651785051715674,
+      "loss": 0.6344,
+      "step": 21600
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 0.0001662257728776163,
+      "loss": 0.604,
+      "step": 21700
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 0.0001659326854232497,
+      "loss": 0.6066,
+      "step": 21800
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 0.0001656385926230732,
+      "loss": 0.6324,
+      "step": 21900
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 0.00016534349896143264,
+      "loss": 0.5819,
+      "step": 22000
+    },
+    {
+      "epoch": 0.82,
+      "eval_loss": 0.6218891143798828,
+      "eval_runtime": 1296.6038,
+      "eval_samples_per_second": 0.418,
+      "eval_steps_per_second": 0.418,
+      "step": 22000
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 0.00016504740893793512,
+      "loss": 0.6145,
+      "step": 22100
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 0.00016475032706738023,
+      "loss": 0.6109,
+      "step": 22200
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 0.0001644522578796914,
+      "loss": 0.608,
+      "step": 22300
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 0.0001641532059198466,
+      "loss": 0.565,
+      "step": 22400
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 0.00016385317574780942,
+      "loss": 0.6139,
+      "step": 22500
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 0.000163552171938459,
+      "loss": 0.5888,
+      "step": 22600
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 0.00016325019908152078,
+      "loss": 0.6065,
+      "step": 22700
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 0.0001629472617814962,
+      "loss": 0.5959,
+      "step": 22800
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 0.00016264336465759258,
+      "loss": 0.5918,
+      "step": 22900
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 0.0001623385123436528,
+      "loss": 0.6083,
+      "step": 23000
+    },
+    {
+      "epoch": 0.86,
+      "eval_loss": 0.6180054545402527,
+      "eval_runtime": 1278.5639,
+      "eval_samples_per_second": 0.424,
+      "eval_steps_per_second": 0.424,
+      "step": 23000
     }
   ],
   "max_steps": 80463,
   "num_train_epochs": 3,
+  "total_flos": 6.446449236379976e+18,
   "trial_name": null,
   "trial_params": null
 }

{checkpoint-19000 → checkpoint-23000}/training_args.bin RENAMED Viewed

File without changes