Training in progress, step 35000

Browse files

Files changed (12) hide show

adapter_model.bin +1 -1
{checkpoint-31000 → checkpoint-34000/adapter_model}/README.md +0 -0
{checkpoint-31000 → checkpoint-34000/adapter_model}/adapter_config.json +0 -0
{checkpoint-31000 → checkpoint-34000/adapter_model}/adapter_model.bin +1 -1
{checkpoint-31000/adapter_model → checkpoint-35000}/README.md +0 -0
{checkpoint-31000/adapter_model → checkpoint-35000}/adapter_config.json +0 -0
{checkpoint-31000/adapter_model → checkpoint-35000}/adapter_model.bin +1 -1
{checkpoint-31000 → checkpoint-35000}/optimizer.pt +1 -1
{checkpoint-31000 → checkpoint-35000}/rng_state.pth +1 -1
{checkpoint-31000 → checkpoint-35000}/scheduler.pt +1 -1
{checkpoint-31000 → checkpoint-35000}/trainer_state.json +277 -5
{checkpoint-31000 → checkpoint-35000}/training_args.bin +0 -0

adapter_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7511e65b55d29a7e86c8b6b83356365ea688292ba79d0f3a40289fa0d34e9a8c
 size 500897101

 version https://git-lfs.github.com/spec/v1
+oid sha256:3bcaf4cf9f9bc20718f7e19c06c7145a78a3a5c6c1ca1a845231e7f1741b7f0e
 size 500897101

{checkpoint-31000 → checkpoint-34000/adapter_model}/README.md RENAMED Viewed

File without changes

{checkpoint-31000 → checkpoint-34000/adapter_model}/adapter_config.json RENAMED Viewed

File without changes

{checkpoint-31000 → checkpoint-34000/adapter_model}/adapter_model.bin RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:aab37ed994bf1726713cdc1d84b9560a915246c4a4028a868388ed725770a29f
 size 500897101

 version https://git-lfs.github.com/spec/v1
+oid sha256:7511e65b55d29a7e86c8b6b83356365ea688292ba79d0f3a40289fa0d34e9a8c
 size 500897101

{checkpoint-31000/adapter_model → checkpoint-35000}/README.md RENAMED Viewed

File without changes

{checkpoint-31000/adapter_model → checkpoint-35000}/adapter_config.json RENAMED Viewed

File without changes

{checkpoint-31000/adapter_model → checkpoint-35000}/adapter_model.bin RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:aab37ed994bf1726713cdc1d84b9560a915246c4a4028a868388ed725770a29f
 size 500897101

 version https://git-lfs.github.com/spec/v1
+oid sha256:3bcaf4cf9f9bc20718f7e19c06c7145a78a3a5c6c1ca1a845231e7f1741b7f0e
 size 500897101

{checkpoint-31000 → checkpoint-35000}/optimizer.pt RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6744b3d4cba5318614d3585f0a827cdfe30350a5eee8ea7ce4ae59a497f8b7d4
 size 1001723453

 version https://git-lfs.github.com/spec/v1
+oid sha256:021299a59b6ef922c41c510f3f8b93b7333417d0f6d05edbc3721b651b76908a
 size 1001723453

{checkpoint-31000 → checkpoint-35000}/rng_state.pth RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1d969796cab52300f6ffd6656a35cf7978e5664a3693183be68bcb0ae74d67a0
 size 14575

 version https://git-lfs.github.com/spec/v1
+oid sha256:e07a8bcb98397480852e842446a8ddbd7b1c726fe43695a8f26d8722c832cf30
 size 14575

{checkpoint-31000 → checkpoint-35000}/scheduler.pt RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:328b81c248c0e7203f70f9754413682ae0e11fa74f4beec41dcb9e104d993f01
 size 627

 version https://git-lfs.github.com/spec/v1
+oid sha256:70880cdf77014daa95aad41e2ce4c4dffd35eef0882e2600a10e5ef00bca6a86
 size 627

{checkpoint-31000 → checkpoint-35000}/trainer_state.json RENAMED Viewed

@@ -1,8 +1,8 @@
 {
-  "best_metric": 0.5811149477958679,
-  "best_model_checkpoint": "./qlora-out/checkpoint-31000",
-  "epoch": 1.1558107453115096,
-  "global_step": 31000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2114,11 +2114,283 @@
       "eval_samples_per_second": 0.417,
       "eval_steps_per_second": 0.417,
       "step": 31000
     }
   ],
   "max_steps": 80463,
   "num_train_epochs": 3,
-  "total_flos": 8.693892403678986e+18,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 0.562954843044281,
+  "best_model_checkpoint": "./qlora-out/checkpoint-35000",
+  "epoch": 1.3049476156742852,
+  "global_step": 35000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 0.417,
       "eval_steps_per_second": 0.417,
       "step": 31000
+    },
+    {
+      "epoch": 1.16,
+      "learning_rate": 0.00013492488074124366,
+      "loss": 0.5295,
+      "step": 31100
+    },
+    {
+      "epoch": 1.16,
+      "learning_rate": 0.00013455871647446923,
+      "loss": 0.539,
+      "step": 31200
+    },
+    {
+      "epoch": 1.17,
+      "learning_rate": 0.00013419202525417277,
+      "loss": 0.5217,
+      "step": 31300
+    },
+    {
+      "epoch": 1.17,
+      "learning_rate": 0.0001338248126716854,
+      "loss": 0.5197,
+      "step": 31400
+    },
+    {
+      "epoch": 1.17,
+      "learning_rate": 0.00013345708432628824,
+      "loss": 0.4991,
+      "step": 31500
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 0.00013308884582512647,
+      "loss": 0.5239,
+      "step": 31600
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 0.00013272010278312453,
+      "loss": 0.4899,
+      "step": 31700
+    },
+    {
+      "epoch": 1.19,
+      "learning_rate": 0.00013235086082289977,
+      "loss": 0.5088,
+      "step": 31800
+    },
+    {
+      "epoch": 1.19,
+      "learning_rate": 0.00013198112557467732,
+      "loss": 0.5497,
+      "step": 31900
+    },
+    {
+      "epoch": 1.19,
+      "learning_rate": 0.00013161090267620396,
+      "loss": 0.5024,
+      "step": 32000
+    },
+    {
+      "epoch": 1.19,
+      "eval_loss": 0.5758991241455078,
+      "eval_runtime": 1292.3362,
+      "eval_samples_per_second": 0.419,
+      "eval_steps_per_second": 0.419,
+      "step": 32000
+    },
+    {
+      "epoch": 1.2,
+      "learning_rate": 0.0001312401977726621,
+      "loss": 0.534,
+      "step": 32100
+    },
+    {
+      "epoch": 1.2,
+      "learning_rate": 0.0001308690165165839,
+      "loss": 0.4936,
+      "step": 32200
+    },
+    {
+      "epoch": 1.2,
+      "learning_rate": 0.00013049736456776485,
+      "loss": 0.4999,
+      "step": 32300
+    },
+    {
+      "epoch": 1.21,
+      "learning_rate": 0.00013012524759317774,
+      "loss": 0.5238,
+      "step": 32400
+    },
+    {
+      "epoch": 1.21,
+      "learning_rate": 0.000129752671266886,
+      "loss": 0.4959,
+      "step": 32500
+    },
+    {
+      "epoch": 1.22,
+      "learning_rate": 0.00012937964126995727,
+      "loss": 0.514,
+      "step": 32600
+    },
+    {
+      "epoch": 1.22,
+      "learning_rate": 0.00012900616329037694,
+      "loss": 0.4964,
+      "step": 32700
+    },
+    {
+      "epoch": 1.22,
+      "learning_rate": 0.00012863224302296107,
+      "loss": 0.5054,
+      "step": 32800
+    },
+    {
+      "epoch": 1.23,
+      "learning_rate": 0.0001282578861692699,
+      "loss": 0.5079,
+      "step": 32900
+    },
+    {
+      "epoch": 1.23,
+      "learning_rate": 0.0001278830984375206,
+      "loss": 0.4929,
+      "step": 33000
+    },
+    {
+      "epoch": 1.23,
+      "eval_loss": 0.5719351172447205,
+      "eval_runtime": 1267.7603,
+      "eval_samples_per_second": 0.428,
+      "eval_steps_per_second": 0.428,
+      "step": 33000
+    },
+    {
+      "epoch": 1.23,
+      "learning_rate": 0.0001275078855425007,
+      "loss": 0.4971,
+      "step": 33100
+    },
+    {
+      "epoch": 1.24,
+      "learning_rate": 0.0001271322532054803,
+      "loss": 0.4977,
+      "step": 33200
+    },
+    {
+      "epoch": 1.24,
+      "learning_rate": 0.0001267562071541254,
+      "loss": 0.499,
+      "step": 33300
+    },
+    {
+      "epoch": 1.25,
+      "learning_rate": 0.00012637975312241022,
+      "loss": 0.5044,
+      "step": 33400
+    },
+    {
+      "epoch": 1.25,
+      "learning_rate": 0.00012600289685052996,
+      "loss": 0.5019,
+      "step": 33500
+    },
+    {
+      "epoch": 1.25,
+      "learning_rate": 0.00012562564408481327,
+      "loss": 0.5225,
+      "step": 33600
+    },
+    {
+      "epoch": 1.26,
+      "learning_rate": 0.00012524800057763438,
+      "loss": 0.5503,
+      "step": 33700
+    },
+    {
+      "epoch": 1.26,
+      "learning_rate": 0.00012486997208732573,
+      "loss": 0.5025,
+      "step": 33800
+    },
+    {
+      "epoch": 1.26,
+      "learning_rate": 0.0001244915643780899,
+      "loss": 0.5187,
+      "step": 33900
+    },
+    {
+      "epoch": 1.27,
+      "learning_rate": 0.00012411278321991195,
+      "loss": 0.5199,
+      "step": 34000
+    },
+    {
+      "epoch": 1.27,
+      "eval_loss": 0.5665221810340881,
+      "eval_runtime": 1263.0264,
+      "eval_samples_per_second": 0.429,
+      "eval_steps_per_second": 0.429,
+      "step": 34000
+    },
+    {
+      "epoch": 1.27,
+      "learning_rate": 0.00012373363438847117,
+      "loss": 0.5135,
+      "step": 34100
+    },
+    {
+      "epoch": 1.28,
+      "learning_rate": 0.00012335412366505324,
+      "loss": 0.5065,
+      "step": 34200
+    },
+    {
+      "epoch": 1.28,
+      "learning_rate": 0.000122974256836462,
+      "loss": 0.5223,
+      "step": 34300
+    },
+    {
+      "epoch": 1.28,
+      "learning_rate": 0.00012259403969493114,
+      "loss": 0.4946,
+      "step": 34400
+    },
+    {
+      "epoch": 1.29,
+      "learning_rate": 0.00012221347803803605,
+      "loss": 0.5105,
+      "step": 34500
+    },
+    {
+      "epoch": 1.29,
+      "learning_rate": 0.00012183257766860514,
+      "loss": 0.4812,
+      "step": 34600
+    },
+    {
+      "epoch": 1.29,
+      "learning_rate": 0.00012145134439463178,
+      "loss": 0.4981,
+      "step": 34700
+    },
+    {
+      "epoch": 1.3,
+      "learning_rate": 0.0001210697840291852,
+      "loss": 0.5038,
+      "step": 34800
+    },
+    {
+      "epoch": 1.3,
+      "learning_rate": 0.00012068790239032241,
+      "loss": 0.5551,
+      "step": 34900
+    },
+    {
+      "epoch": 1.3,
+      "learning_rate": 0.00012030570530099902,
+      "loss": 0.4964,
+      "step": 35000
+    },
+    {
+      "epoch": 1.3,
+      "eval_loss": 0.562954843044281,
+      "eval_runtime": 1252.1434,
+      "eval_samples_per_second": 0.433,
+      "eval_steps_per_second": 0.433,
+      "step": 35000
     }
   ],
   "max_steps": 80463,
   "num_train_epochs": 3,
+  "total_flos": 9.815104047716352e+18,
   "trial_name": null,
   "trial_params": null
 }

{checkpoint-31000 → checkpoint-35000}/training_args.bin RENAMED Viewed

File without changes