Training in progress, step 32000

Browse files

Files changed (12) hide show

adapter_model.bin +1 -1
{checkpoint-28000 → checkpoint-31000/adapter_model}/README.md +0 -0
{checkpoint-28000 → checkpoint-31000/adapter_model}/adapter_config.json +0 -0
{checkpoint-28000 → checkpoint-31000/adapter_model}/adapter_model.bin +1 -1
{checkpoint-28000/adapter_model → checkpoint-32000}/README.md +0 -0
{checkpoint-28000/adapter_model → checkpoint-32000}/adapter_config.json +0 -0
{checkpoint-28000/adapter_model → checkpoint-32000}/adapter_model.bin +1 -1
{checkpoint-28000 → checkpoint-32000}/optimizer.pt +1 -1
{checkpoint-28000 → checkpoint-32000}/rng_state.pth +1 -1
{checkpoint-28000 → checkpoint-32000}/scheduler.pt +1 -1
{checkpoint-28000 → checkpoint-32000}/trainer_state.json +277 -5
{checkpoint-28000 → checkpoint-32000}/training_args.bin +0 -0

adapter_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:aab37ed994bf1726713cdc1d84b9560a915246c4a4028a868388ed725770a29f
 size 500897101

 version https://git-lfs.github.com/spec/v1
+oid sha256:1cd53296eb8a21ba14a04ebafc8d98535866046120ab70e3a5896c0601a199c0
 size 500897101

{checkpoint-28000 → checkpoint-31000/adapter_model}/README.md RENAMED Viewed

File without changes

{checkpoint-28000 → checkpoint-31000/adapter_model}/adapter_config.json RENAMED Viewed

File without changes

{checkpoint-28000 → checkpoint-31000/adapter_model}/adapter_model.bin RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:196c1d0349fe865fe652da8fb5f0318dc7fea1691a4f6b9ce949ba1d8fc568d2
 size 500897101

 version https://git-lfs.github.com/spec/v1
+oid sha256:aab37ed994bf1726713cdc1d84b9560a915246c4a4028a868388ed725770a29f
 size 500897101

{checkpoint-28000/adapter_model → checkpoint-32000}/README.md RENAMED Viewed

File without changes

{checkpoint-28000/adapter_model → checkpoint-32000}/adapter_config.json RENAMED Viewed

File without changes

{checkpoint-28000/adapter_model → checkpoint-32000}/adapter_model.bin RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:196c1d0349fe865fe652da8fb5f0318dc7fea1691a4f6b9ce949ba1d8fc568d2
 size 500897101

 version https://git-lfs.github.com/spec/v1
+oid sha256:1cd53296eb8a21ba14a04ebafc8d98535866046120ab70e3a5896c0601a199c0
 size 500897101

{checkpoint-28000 → checkpoint-32000}/optimizer.pt RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:04d78b2c094992c84dfe56222bca52d649375e78ba1b620b3066065ac043d46c
 size 1001723453

 version https://git-lfs.github.com/spec/v1
+oid sha256:3237a6e7d87456a67a6d80fd741d50e0bff0a09db16b732bfb6a6221adc94de0
 size 1001723453

{checkpoint-28000 → checkpoint-32000}/rng_state.pth RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a4463358c0b4ae7957b6ac92cc6e7a3966deed18d8592e7b96d0b5329e30e9c3
 size 14575

 version https://git-lfs.github.com/spec/v1
+oid sha256:97f4034592e6327496d0e86e02fdeb322ac2850e71e98c7091c4e86f80ea32c4
 size 14575

{checkpoint-28000 → checkpoint-32000}/scheduler.pt RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f454f0dd53d23ae46c76eed24d3b8210f5bc3588acc88def4db4574c3744dffb
 size 627

 version https://git-lfs.github.com/spec/v1
+oid sha256:25644fa9672216c7372c64ae67805d0d353dcf7228893c13f2f02bf1f0c031e7
 size 627

{checkpoint-28000 → checkpoint-32000}/trainer_state.json RENAMED Viewed

@@ -1,8 +1,8 @@
 {
-  "best_metric": 0.5959522128105164,
-  "best_model_checkpoint": "./qlora-out/checkpoint-28000",
-  "epoch": 1.043958092539428,
-  "global_step": 28000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1910,11 +1910,283 @@
       "eval_samples_per_second": 0.421,
       "eval_steps_per_second": 0.421,
       "step": 28000
     }
   ],
   "max_steps": 80463,
   "num_train_epochs": 3,
-  "total_flos": 7.852151375567094e+18,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 0.5758991241455078,
+  "best_model_checkpoint": "./qlora-out/checkpoint-32000",
+  "epoch": 1.1930949629022034,
+  "global_step": 32000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 0.421,
       "eval_steps_per_second": 0.421,
       "step": 28000
+    },
+    {
+      "epoch": 1.05,
+      "learning_rate": 0.00014563739120979497,
+      "loss": 0.5262,
+      "step": 28100
+    },
+    {
+      "epoch": 1.05,
+      "learning_rate": 0.00014528959262865798,
+      "loss": 0.5082,
+      "step": 28200
+    },
+    {
+      "epoch": 1.06,
+      "learning_rate": 0.00014494110346891206,
+      "loss": 0.5094,
+      "step": 28300
+    },
+    {
+      "epoch": 1.06,
+      "learning_rate": 0.00014459192904434226,
+      "loss": 0.5012,
+      "step": 28400
+    },
+    {
+      "epoch": 1.06,
+      "learning_rate": 0.0001442420746791826,
+      "loss": 0.4946,
+      "step": 28500
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 0.00014389154570803477,
+      "loss": 0.5138,
+      "step": 28600
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 0.000143540347475787,
+      "loss": 0.5082,
+      "step": 28700
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 0.0001431884853375325,
+      "loss": 0.4842,
+      "step": 28800
+    },
+    {
+      "epoch": 1.08,
+      "learning_rate": 0.0001428359646584876,
+      "loss": 0.5143,
+      "step": 28900
+    },
+    {
+      "epoch": 1.08,
+      "learning_rate": 0.00014248279081391022,
+      "loss": 0.5029,
+      "step": 29000
+    },
+    {
+      "epoch": 1.08,
+      "eval_loss": 0.5910914540290833,
+      "eval_runtime": 1278.8257,
+      "eval_samples_per_second": 0.424,
+      "eval_steps_per_second": 0.424,
+      "step": 29000
+    },
+    {
+      "epoch": 1.08,
+      "learning_rate": 0.00014212896918901774,
+      "loss": 0.5003,
+      "step": 29100
+    },
+    {
+      "epoch": 1.09,
+      "learning_rate": 0.00014177450517890503,
+      "loss": 0.5102,
+      "step": 29200
+    },
+    {
+      "epoch": 1.09,
+      "learning_rate": 0.0001414194041884619,
+      "loss": 0.524,
+      "step": 29300
+    },
+    {
+      "epoch": 1.1,
+      "learning_rate": 0.0001410636716322911,
+      "loss": 0.5168,
+      "step": 29400
+    },
+    {
+      "epoch": 1.1,
+      "learning_rate": 0.0001407073129346254,
+      "loss": 0.514,
+      "step": 29500
+    },
+    {
+      "epoch": 1.1,
+      "learning_rate": 0.00014035033352924502,
+      "loss": 0.5084,
+      "step": 29600
+    },
+    {
+      "epoch": 1.11,
+      "learning_rate": 0.0001399927388593948,
+      "loss": 0.5203,
+      "step": 29700
+    },
+    {
+      "epoch": 1.11,
+      "learning_rate": 0.00013963453437770119,
+      "loss": 0.5226,
+      "step": 29800
+    },
+    {
+      "epoch": 1.11,
+      "learning_rate": 0.000139275725546089,
+      "loss": 0.5055,
+      "step": 29900
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 0.00013891631783569838,
+      "loss": 0.5303,
+      "step": 30000
+    },
+    {
+      "epoch": 1.12,
+      "eval_loss": 0.5869857668876648,
+      "eval_runtime": 1272.0282,
+      "eval_samples_per_second": 0.426,
+      "eval_steps_per_second": 0.426,
+      "step": 30000
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 0.00013855631672680106,
+      "loss": 0.5243,
+      "step": 30100
+    },
+    {
+      "epoch": 1.13,
+      "learning_rate": 0.00013819572770871702,
+      "loss": 0.5148,
+      "step": 30200
+    },
+    {
+      "epoch": 1.13,
+      "learning_rate": 0.00013783455627973062,
+      "loss": 0.522,
+      "step": 30300
+    },
+    {
+      "epoch": 1.13,
+      "learning_rate": 0.00013747280794700707,
+      "loss": 0.5289,
+      "step": 30400
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 0.00013711048822650802,
+      "loss": 0.4996,
+      "step": 30500
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 0.00013674760264290785,
+      "loss": 0.5099,
+      "step": 30600
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 0.0001363841567295091,
+      "loss": 0.5219,
+      "step": 30700
+    },
+    {
+      "epoch": 1.15,
+      "learning_rate": 0.00013602015602815837,
+      "loss": 0.5297,
+      "step": 30800
+    },
+    {
+      "epoch": 1.15,
+      "learning_rate": 0.00013565560608916165,
+      "loss": 0.5029,
+      "step": 30900
+    },
+    {
+      "epoch": 1.16,
+      "learning_rate": 0.0001352905124711998,
+      "loss": 0.5266,
+      "step": 31000
+    },
+    {
+      "epoch": 1.16,
+      "eval_loss": 0.5811149477958679,
+      "eval_runtime": 1300.1475,
+      "eval_samples_per_second": 0.417,
+      "eval_steps_per_second": 0.417,
+      "step": 31000
+    },
+    {
+      "epoch": 1.16,
+      "learning_rate": 0.00013492488074124366,
+      "loss": 0.5295,
+      "step": 31100
+    },
+    {
+      "epoch": 1.16,
+      "learning_rate": 0.00013455871647446923,
+      "loss": 0.539,
+      "step": 31200
+    },
+    {
+      "epoch": 1.17,
+      "learning_rate": 0.00013419202525417277,
+      "loss": 0.5217,
+      "step": 31300
+    },
+    {
+      "epoch": 1.17,
+      "learning_rate": 0.0001338248126716854,
+      "loss": 0.5197,
+      "step": 31400
+    },
+    {
+      "epoch": 1.17,
+      "learning_rate": 0.00013345708432628824,
+      "loss": 0.4991,
+      "step": 31500
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 0.00013308884582512647,
+      "loss": 0.5239,
+      "step": 31600
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 0.00013272010278312453,
+      "loss": 0.4899,
+      "step": 31700
+    },
+    {
+      "epoch": 1.19,
+      "learning_rate": 0.00013235086082289977,
+      "loss": 0.5088,
+      "step": 31800
+    },
+    {
+      "epoch": 1.19,
+      "learning_rate": 0.00013198112557467732,
+      "loss": 0.5497,
+      "step": 31900
+    },
+    {
+      "epoch": 1.19,
+      "learning_rate": 0.00013161090267620396,
+      "loss": 0.5024,
+      "step": 32000
+    },
+    {
+      "epoch": 1.19,
+      "eval_loss": 0.5758991241455078,
+      "eval_runtime": 1292.3362,
+      "eval_samples_per_second": 0.419,
+      "eval_steps_per_second": 0.419,
+      "step": 32000
     }
   ],
   "max_steps": 80463,
   "num_train_epochs": 3,
+  "total_flos": 8.975876780005048e+18,
   "trial_name": null,
   "trial_params": null
 }

{checkpoint-28000 → checkpoint-32000}/training_args.bin RENAMED Viewed

File without changes