ZeroUniqueness commited on Aug 18, 2023

Commit

1823816

1 Parent(s): f967b08

almost donezies

Browse files

Files changed (49) hide show

adapter_model.bin +1 -1
checkpoint-70000/adapter_model.bin +0 -3
checkpoint-70000/adapter_model/adapter_model.bin +0 -3
checkpoint-70500/adapter_model.bin +0 -3
checkpoint-70500/adapter_model/adapter_model.bin +0 -3
{checkpoint-69000 → checkpoint-76500}/README.md +0 -0
{checkpoint-69000 → checkpoint-76500}/adapter_config.json +0 -0
{checkpoint-69000 → checkpoint-76500}/adapter_model.bin +1 -1
{checkpoint-69000 → checkpoint-76500}/adapter_model/README.md +0 -0
{checkpoint-69000 → checkpoint-76500}/adapter_model/adapter_config.json +0 -0
{checkpoint-69000 → checkpoint-76500}/adapter_model/adapter_model.bin +1 -1
{checkpoint-69500 → checkpoint-76500}/optimizer.pt +1 -1
{checkpoint-69500 → checkpoint-76500}/rng_state.pth +1 -1
{checkpoint-70000 → checkpoint-76500}/scheduler.pt +1 -1
{checkpoint-70500 → checkpoint-76500}/trainer_state.json +173 -5
{checkpoint-69000 → checkpoint-76500}/training_args.bin +0 -0
{checkpoint-69500 → checkpoint-77000}/README.md +0 -0
{checkpoint-69500 → checkpoint-77000}/adapter_config.json +0 -0
{checkpoint-69500 → checkpoint-77000}/adapter_model.bin +1 -1
{checkpoint-69500 → checkpoint-77000}/adapter_model/README.md +0 -0
{checkpoint-69500 → checkpoint-77000}/adapter_model/adapter_config.json +0 -0
{checkpoint-69500 → checkpoint-77000}/adapter_model/adapter_model.bin +1 -1
{checkpoint-70000 → checkpoint-77000}/optimizer.pt +1 -1
{checkpoint-70000 → checkpoint-77000}/rng_state.pth +1 -1
{checkpoint-69500 → checkpoint-77000}/scheduler.pt +1 -1
{checkpoint-70000 → checkpoint-77000}/trainer_state.json +201 -5
{checkpoint-69500 → checkpoint-77000}/training_args.bin +0 -0
{checkpoint-70000 → checkpoint-77500}/README.md +0 -0
{checkpoint-70000 → checkpoint-77500}/adapter_config.json +0 -0
checkpoint-77500/adapter_model.bin +3 -0
{checkpoint-70000 → checkpoint-77500}/adapter_model/README.md +0 -0
{checkpoint-70000 → checkpoint-77500}/adapter_model/adapter_config.json +0 -0
checkpoint-77500/adapter_model/adapter_model.bin +3 -0
{checkpoint-69000 → checkpoint-77500}/optimizer.pt +1 -1
{checkpoint-70500 → checkpoint-77500}/rng_state.pth +1 -1
{checkpoint-69000 → checkpoint-77500}/scheduler.pt +1 -1
{checkpoint-69500 → checkpoint-77500}/trainer_state.json +229 -5
{checkpoint-70000 → checkpoint-77500}/training_args.bin +0 -0
{checkpoint-70500 → checkpoint-78000}/README.md +0 -0
{checkpoint-70500 → checkpoint-78000}/adapter_config.json +0 -0
checkpoint-78000/adapter_model.bin +3 -0
{checkpoint-70500 → checkpoint-78000}/adapter_model/README.md +0 -0
{checkpoint-70500 → checkpoint-78000}/adapter_model/adapter_config.json +0 -0
checkpoint-78000/adapter_model/adapter_model.bin +3 -0
{checkpoint-70500 → checkpoint-78000}/optimizer.pt +1 -1
{checkpoint-69000 → checkpoint-78000}/rng_state.pth +1 -1
{checkpoint-70500 → checkpoint-78000}/scheduler.pt +1 -1
{checkpoint-69000 → checkpoint-78000}/trainer_state.json +257 -5
{checkpoint-70500 → checkpoint-78000}/training_args.bin +0 -0

adapter_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8a26259b6c7f10eacd37169a51779a24aa9d6a76d8fdef027422bdcbf2557c2f
 size 500897101

 version https://git-lfs.github.com/spec/v1
+oid sha256:8a95e49326f95cbf72dea87596b1fd0bcc1abcccd06310612c0ac6bdb3314bc1
 size 500897101

checkpoint-70000/adapter_model.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:35b27172603bfaa42af020910d0f3a0724656396738e74f39eebef1c4c53cd6c
-size 500897101

checkpoint-70000/adapter_model/adapter_model.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:35b27172603bfaa42af020910d0f3a0724656396738e74f39eebef1c4c53cd6c
-size 500897101

checkpoint-70500/adapter_model.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:8a26259b6c7f10eacd37169a51779a24aa9d6a76d8fdef027422bdcbf2557c2f
-size 500897101

checkpoint-70500/adapter_model/adapter_model.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:8a26259b6c7f10eacd37169a51779a24aa9d6a76d8fdef027422bdcbf2557c2f
-size 500897101

{checkpoint-69000 → checkpoint-76500}/README.md RENAMED Viewed

File without changes

{checkpoint-69000 → checkpoint-76500}/adapter_config.json RENAMED Viewed

File without changes

{checkpoint-69000 → checkpoint-76500}/adapter_model.bin RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:16127581d1b65765200af747a5c98d27b237b49430e306dfd23a9c3ad6af3b9c
 size 500897101

 version https://git-lfs.github.com/spec/v1
+oid sha256:3aac0f31027f89872a0b3f8a0a220bec95e100567f0e22fd44826f62a28c01a6
 size 500897101

{checkpoint-69000 → checkpoint-76500}/adapter_model/README.md RENAMED Viewed

File without changes

{checkpoint-69000 → checkpoint-76500}/adapter_model/adapter_config.json RENAMED Viewed

File without changes

{checkpoint-69000 → checkpoint-76500}/adapter_model/adapter_model.bin RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:16127581d1b65765200af747a5c98d27b237b49430e306dfd23a9c3ad6af3b9c
 size 500897101

 version https://git-lfs.github.com/spec/v1
+oid sha256:3aac0f31027f89872a0b3f8a0a220bec95e100567f0e22fd44826f62a28c01a6
 size 500897101

{checkpoint-69500 → checkpoint-76500}/optimizer.pt RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a0df421a10c3784a131b0ab37e1485ed063b6fa56024cc56104f9dbaad09ebe1
 size 1001724605

 version https://git-lfs.github.com/spec/v1
+oid sha256:dbbb89893d47261fd01a9f3778a4172d980e5d5d899645ffb5c27307d67df6b6
 size 1001724605

{checkpoint-69500 → checkpoint-76500}/rng_state.pth RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c9ee221e71303f97217b0d58a1364dcc9e4c1fac4ba0baf829b9e79b7ae1680b
 size 14575

 version https://git-lfs.github.com/spec/v1
+oid sha256:77cc93baddf8ab32d29af2c1c219f38a87a8af2868d723737c13df696ee1f2ad
 size 14575

{checkpoint-70000 → checkpoint-76500}/scheduler.pt RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d978803312071ed04341fcce57866c271d97c1ced7225c7be19f70453e4d9836
 size 627

 version https://git-lfs.github.com/spec/v1
+oid sha256:220829e44432d3fbc0f85c119c5401ba1c2989f858b8188acbaba28a1379d42e
 size 627

{checkpoint-70500 → checkpoint-76500}/trainer_state.json RENAMED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.4780386686325073,
-  "best_model_checkpoint": "./qlora-out/checkpoint-70500",
-  "epoch": 2.628537340143917,
   "eval_steps": 500,
-  "global_step": 70500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -4341,13 +4341,181 @@
       "eval_samples_per_second": 0.42,
       "eval_steps_per_second": 0.42,
       "step": 70500
     }
   ],
   "logging_steps": 500,
   "max_steps": 80463,
   "num_train_epochs": 3,
   "save_steps": 500,
-  "total_flos": 1.978819419542102e+19,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 0.4760077893733978,
+  "best_model_checkpoint": "./qlora-out/checkpoint-76500",
+  "epoch": 2.8522426456880803,
   "eval_steps": 500,
+  "global_step": 76500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 0.42,
       "eval_steps_per_second": 0.42,
       "step": 70500
+    },
+    {
+      "epoch": 2.65,
+      "learning_rate": 6.749873173827314e-06,
+      "loss": 0.3746,
+      "step": 71000
+    },
+    {
+      "epoch": 2.65,
+      "eval_loss": 0.47773027420043945,
+      "eval_runtime": 1293.7698,
+      "eval_samples_per_second": 0.419,
+      "eval_steps_per_second": 0.419,
+      "step": 71000
+    },
+    {
+      "epoch": 2.67,
+      "learning_rate": 6.0625347721849805e-06,
+      "loss": 0.365,
+      "step": 71500
+    },
+    {
+      "epoch": 2.67,
+      "eval_loss": 0.47759953141212463,
+      "eval_runtime": 1287.2533,
+      "eval_samples_per_second": 0.421,
+      "eval_steps_per_second": 0.421,
+      "step": 71500
+    },
+    {
+      "epoch": 2.68,
+      "learning_rate": 5.411004390662034e-06,
+      "loss": 0.3614,
+      "step": 72000
+    },
+    {
+      "epoch": 2.68,
+      "eval_loss": 0.4774133861064911,
+      "eval_runtime": 1290.2562,
+      "eval_samples_per_second": 0.42,
+      "eval_steps_per_second": 0.42,
+      "step": 72000
+    },
+    {
+      "epoch": 2.7,
+      "learning_rate": 4.795530386109038e-06,
+      "loss": 0.3672,
+      "step": 72500
+    },
+    {
+      "epoch": 2.7,
+      "eval_loss": 0.4771479070186615,
+      "eval_runtime": 1313.3814,
+      "eval_samples_per_second": 0.413,
+      "eval_steps_per_second": 0.413,
+      "step": 72500
+    },
+    {
+      "epoch": 2.72,
+      "learning_rate": 4.2163473710470355e-06,
+      "loss": 0.3536,
+      "step": 73000
+    },
+    {
+      "epoch": 2.72,
+      "eval_loss": 0.4770236909389496,
+      "eval_runtime": 1301.9499,
+      "eval_samples_per_second": 0.416,
+      "eval_steps_per_second": 0.416,
+      "step": 73000
+    },
+    {
+      "epoch": 2.74,
+      "learning_rate": 3.67367612423567e-06,
+      "loss": 0.3693,
+      "step": 73500
+    },
+    {
+      "epoch": 2.74,
+      "eval_loss": 0.4766899645328522,
+      "eval_runtime": 1310.5415,
+      "eval_samples_per_second": 0.414,
+      "eval_steps_per_second": 0.414,
+      "step": 73500
+    },
+    {
+      "epoch": 2.76,
+      "learning_rate": 3.1677235065144862e-06,
+      "loss": 0.358,
+      "step": 74000
+    },
+    {
+      "epoch": 2.76,
+      "eval_loss": 0.47646036744117737,
+      "eval_runtime": 1327.3256,
+      "eval_samples_per_second": 0.408,
+      "eval_steps_per_second": 0.408,
+      "step": 74000
+    },
+    {
+      "epoch": 2.78,
+      "learning_rate": 2.6986823819497353e-06,
+      "loss": 0.3653,
+      "step": 74500
+    },
+    {
+      "epoch": 2.78,
+      "eval_loss": 0.47627386450767517,
+      "eval_runtime": 1332.1149,
+      "eval_samples_per_second": 0.407,
+      "eval_steps_per_second": 0.407,
+      "step": 74500
+    },
+    {
+      "epoch": 2.8,
+      "learning_rate": 2.266731544316425e-06,
+      "loss": 0.3743,
+      "step": 75000
+    },
+    {
+      "epoch": 2.8,
+      "eval_loss": 0.47608959674835205,
+      "eval_runtime": 1305.4101,
+      "eval_samples_per_second": 0.415,
+      "eval_steps_per_second": 0.415,
+      "step": 75000
+    },
+    {
+      "epoch": 2.81,
+      "learning_rate": 1.872035648944026e-06,
+      "loss": 0.3659,
+      "step": 75500
+    },
+    {
+      "epoch": 2.81,
+      "eval_loss": 0.476179838180542,
+      "eval_runtime": 1301.8331,
+      "eval_samples_per_second": 0.416,
+      "eval_steps_per_second": 0.416,
+      "step": 75500
+    },
+    {
+      "epoch": 2.83,
+      "learning_rate": 1.5147451499514353e-06,
+      "loss": 0.3678,
+      "step": 76000
+    },
+    {
+      "epoch": 2.83,
+      "eval_loss": 0.4760454595088959,
+      "eval_runtime": 1297.73,
+      "eval_samples_per_second": 0.418,
+      "eval_steps_per_second": 0.418,
+      "step": 76000
+    },
+    {
+      "epoch": 2.85,
+      "learning_rate": 1.1949962428953965e-06,
+      "loss": 0.3672,
+      "step": 76500
+    },
+    {
+      "epoch": 2.85,
+      "eval_loss": 0.4760077893733978,
+      "eval_runtime": 1293.9854,
+      "eval_samples_per_second": 0.419,
+      "eval_steps_per_second": 0.419,
+      "step": 76500
     }
   ],
   "logging_steps": 500,
   "max_steps": 80463,
   "num_train_epochs": 3,
   "save_steps": 500,
+  "total_flos": 2.14853629526682e+19,
   "trial_name": null,
   "trial_params": null
 }

{checkpoint-69000 → checkpoint-76500}/training_args.bin RENAMED Viewed

File without changes

{checkpoint-69500 → checkpoint-77000}/README.md RENAMED Viewed

File without changes

{checkpoint-69500 → checkpoint-77000}/adapter_config.json RENAMED Viewed

File without changes

{checkpoint-69500 → checkpoint-77000}/adapter_model.bin RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3d536051f2a1ab536e6e716808efa406b8fc4bc641ebcf6102a663de9eab5ffe
 size 500897101

 version https://git-lfs.github.com/spec/v1
+oid sha256:1427c39ed89366176a26d42309badaecc4eaac4173d3df01371a38612540cbce
 size 500897101

{checkpoint-69500 → checkpoint-77000}/adapter_model/README.md RENAMED Viewed

File without changes

{checkpoint-69500 → checkpoint-77000}/adapter_model/adapter_config.json RENAMED Viewed

File without changes

{checkpoint-69500 → checkpoint-77000}/adapter_model/adapter_model.bin RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3d536051f2a1ab536e6e716808efa406b8fc4bc641ebcf6102a663de9eab5ffe
 size 500897101

 version https://git-lfs.github.com/spec/v1
+oid sha256:1427c39ed89366176a26d42309badaecc4eaac4173d3df01371a38612540cbce
 size 500897101

{checkpoint-70000 → checkpoint-77000}/optimizer.pt RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3757834dca752ceb36448c74c65b6c698a3cf7eac3b443be1d20520a1ef75c80
 size 1001724605

 version https://git-lfs.github.com/spec/v1
+oid sha256:b09958ee930a5c1cdb447dc5ca98b44b0a8ac3e23351c47128a6daf915aa3809
 size 1001724605

{checkpoint-70000 → checkpoint-77000}/rng_state.pth RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e3b4a721a0714cca4311a027981bf55d9c240a69a7f46c912f368eb795c5d17f
 size 14575

 version https://git-lfs.github.com/spec/v1
+oid sha256:f162395a6f7d2e1af70b53e882440048027967f43d5301d750609c6c591e4ca3
 size 14575

{checkpoint-69500 → checkpoint-77000}/scheduler.pt RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bca69d6e74edb4d1fa3e9c45efbdb18d22e7412cb25b7cb947ef97719376c1f2
 size 627

 version https://git-lfs.github.com/spec/v1
+oid sha256:35a18202efac039c56b779ce26337552adb710311faff67d76d05cf3142d22af
 size 627

{checkpoint-70000 → checkpoint-77000}/trainer_state.json RENAMED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.47838443517684937,
-  "best_model_checkpoint": "./qlora-out/checkpoint-70000",
-  "epoch": 2.6098952313485704,
   "eval_steps": 500,
-  "global_step": 70000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -4327,13 +4327,209 @@
       "eval_samples_per_second": 0.415,
       "eval_steps_per_second": 0.415,
       "step": 70000
     }
   ],
   "logging_steps": 500,
   "max_steps": 80463,
   "num_train_epochs": 3,
   "save_steps": 500,
-  "total_flos": 1.96476655962565e+19,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 0.47582224011421204,
+  "best_model_checkpoint": "./qlora-out/checkpoint-77000",
+  "epoch": 2.870884754483427,
   "eval_steps": 500,
+  "global_step": 77000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 0.415,
       "eval_steps_per_second": 0.415,
       "step": 70000
+    },
+    {
+      "epoch": 2.63,
+      "learning_rate": 7.472757589080226e-06,
+      "loss": 0.3614,
+      "step": 70500
+    },
+    {
+      "epoch": 2.63,
+      "eval_loss": 0.4780386686325073,
+      "eval_runtime": 1290.4017,
+      "eval_samples_per_second": 0.42,
+      "eval_steps_per_second": 0.42,
+      "step": 70500
+    },
+    {
+      "epoch": 2.65,
+      "learning_rate": 6.749873173827314e-06,
+      "loss": 0.3746,
+      "step": 71000
+    },
+    {
+      "epoch": 2.65,
+      "eval_loss": 0.47773027420043945,
+      "eval_runtime": 1293.7698,
+      "eval_samples_per_second": 0.419,
+      "eval_steps_per_second": 0.419,
+      "step": 71000
+    },
+    {
+      "epoch": 2.67,
+      "learning_rate": 6.0625347721849805e-06,
+      "loss": 0.365,
+      "step": 71500
+    },
+    {
+      "epoch": 2.67,
+      "eval_loss": 0.47759953141212463,
+      "eval_runtime": 1287.2533,
+      "eval_samples_per_second": 0.421,
+      "eval_steps_per_second": 0.421,
+      "step": 71500
+    },
+    {
+      "epoch": 2.68,
+      "learning_rate": 5.411004390662034e-06,
+      "loss": 0.3614,
+      "step": 72000
+    },
+    {
+      "epoch": 2.68,
+      "eval_loss": 0.4774133861064911,
+      "eval_runtime": 1290.2562,
+      "eval_samples_per_second": 0.42,
+      "eval_steps_per_second": 0.42,
+      "step": 72000
+    },
+    {
+      "epoch": 2.7,
+      "learning_rate": 4.795530386109038e-06,
+      "loss": 0.3672,
+      "step": 72500
+    },
+    {
+      "epoch": 2.7,
+      "eval_loss": 0.4771479070186615,
+      "eval_runtime": 1313.3814,
+      "eval_samples_per_second": 0.413,
+      "eval_steps_per_second": 0.413,
+      "step": 72500
+    },
+    {
+      "epoch": 2.72,
+      "learning_rate": 4.2163473710470355e-06,
+      "loss": 0.3536,
+      "step": 73000
+    },
+    {
+      "epoch": 2.72,
+      "eval_loss": 0.4770236909389496,
+      "eval_runtime": 1301.9499,
+      "eval_samples_per_second": 0.416,
+      "eval_steps_per_second": 0.416,
+      "step": 73000
+    },
+    {
+      "epoch": 2.74,
+      "learning_rate": 3.67367612423567e-06,
+      "loss": 0.3693,
+      "step": 73500
+    },
+    {
+      "epoch": 2.74,
+      "eval_loss": 0.4766899645328522,
+      "eval_runtime": 1310.5415,
+      "eval_samples_per_second": 0.414,
+      "eval_steps_per_second": 0.414,
+      "step": 73500
+    },
+    {
+      "epoch": 2.76,
+      "learning_rate": 3.1677235065144862e-06,
+      "loss": 0.358,
+      "step": 74000
+    },
+    {
+      "epoch": 2.76,
+      "eval_loss": 0.47646036744117737,
+      "eval_runtime": 1327.3256,
+      "eval_samples_per_second": 0.408,
+      "eval_steps_per_second": 0.408,
+      "step": 74000
+    },
+    {
+      "epoch": 2.78,
+      "learning_rate": 2.6986823819497353e-06,
+      "loss": 0.3653,
+      "step": 74500
+    },
+    {
+      "epoch": 2.78,
+      "eval_loss": 0.47627386450767517,
+      "eval_runtime": 1332.1149,
+      "eval_samples_per_second": 0.407,
+      "eval_steps_per_second": 0.407,
+      "step": 74500
+    },
+    {
+      "epoch": 2.8,
+      "learning_rate": 2.266731544316425e-06,
+      "loss": 0.3743,
+      "step": 75000
+    },
+    {
+      "epoch": 2.8,
+      "eval_loss": 0.47608959674835205,
+      "eval_runtime": 1305.4101,
+      "eval_samples_per_second": 0.415,
+      "eval_steps_per_second": 0.415,
+      "step": 75000
+    },
+    {
+      "epoch": 2.81,
+      "learning_rate": 1.872035648944026e-06,
+      "loss": 0.3659,
+      "step": 75500
+    },
+    {
+      "epoch": 2.81,
+      "eval_loss": 0.476179838180542,
+      "eval_runtime": 1301.8331,
+      "eval_samples_per_second": 0.416,
+      "eval_steps_per_second": 0.416,
+      "step": 75500
+    },
+    {
+      "epoch": 2.83,
+      "learning_rate": 1.5147451499514353e-06,
+      "loss": 0.3678,
+      "step": 76000
+    },
+    {
+      "epoch": 2.83,
+      "eval_loss": 0.4760454595088959,
+      "eval_runtime": 1297.73,
+      "eval_samples_per_second": 0.418,
+      "eval_steps_per_second": 0.418,
+      "step": 76000
+    },
+    {
+      "epoch": 2.85,
+      "learning_rate": 1.1949962428953965e-06,
+      "loss": 0.3672,
+      "step": 76500
+    },
+    {
+      "epoch": 2.85,
+      "eval_loss": 0.4760077893733978,
+      "eval_runtime": 1293.9854,
+      "eval_samples_per_second": 0.419,
+      "eval_steps_per_second": 0.419,
+      "step": 76500
+    },
+    {
+      "epoch": 2.87,
+      "learning_rate": 9.129108128541176e-07,
+      "loss": 0.3658,
+      "step": 77000
+    },
+    {
+      "epoch": 2.87,
+      "eval_loss": 0.47582224011421204,
+      "eval_runtime": 1293.6591,
+      "eval_samples_per_second": 0.419,
+      "eval_steps_per_second": 0.419,
+      "step": 77000
     }
   ],
   "logging_steps": 500,
   "max_steps": 80463,
   "num_train_epochs": 3,
   "save_steps": 500,
+  "total_flos": 2.1626487594830807e+19,
   "trial_name": null,
   "trial_params": null
 }

{checkpoint-69500 → checkpoint-77000}/training_args.bin RENAMED Viewed

File without changes

{checkpoint-70000 → checkpoint-77500}/README.md RENAMED Viewed

File without changes

{checkpoint-70000 → checkpoint-77500}/adapter_config.json RENAMED Viewed

File without changes

checkpoint-77500/adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a884eb86c6d63307c9acb52dd6a2b1b5697accc52a54a952355462a2d1ff4bb1
+size 500897101

{checkpoint-70000 → checkpoint-77500}/adapter_model/README.md RENAMED Viewed

File without changes

{checkpoint-70000 → checkpoint-77500}/adapter_model/adapter_config.json RENAMED Viewed

File without changes

checkpoint-77500/adapter_model/adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a884eb86c6d63307c9acb52dd6a2b1b5697accc52a54a952355462a2d1ff4bb1
+size 500897101

{checkpoint-69000 → checkpoint-77500}/optimizer.pt RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:52478f59ec5c65d4db6d79009fc0c477e003ba9db2b5648781779b6963bc40cb
 size 1001724605

 version https://git-lfs.github.com/spec/v1
+oid sha256:21a191193d80b976badbd98b5f53b496006b6f2a29af8b6d8dca0b1e0b7ecbe4
 size 1001724605

{checkpoint-70500 → checkpoint-77500}/rng_state.pth RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2a8693cacc78c05a4720cdf55aa732a0282b2cc8d97e8bde33f65f1b59bbf12e
 size 14575

 version https://git-lfs.github.com/spec/v1
+oid sha256:077d679486328cc243c50097dc890c036a89503397938038ef9689bd7097c327
 size 14575

{checkpoint-69000 → checkpoint-77500}/scheduler.pt RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f0f5690258b17f07cbd583d2e586e1be27217d957aa1adadeb296ee58f808a87
 size 627

 version https://git-lfs.github.com/spec/v1
+oid sha256:ea97f91717d4e226e2157501dd3a83bc130311da389f901511bd22351a008c26
 size 627

{checkpoint-69500 → checkpoint-77500}/trainer_state.json RENAMED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.47866225242614746,
-  "best_model_checkpoint": "./qlora-out/checkpoint-69500",
-  "epoch": 2.591253122553223,
   "eval_steps": 500,
-  "global_step": 69500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -4313,13 +4313,237 @@
       "eval_samples_per_second": 0.412,
       "eval_steps_per_second": 0.412,
       "step": 69500
     }
   ],
   "logging_steps": 500,
   "max_steps": 80463,
   "num_train_epochs": 3,
   "save_steps": 500,
-  "total_flos": 1.950603151563399e+19,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 0.47582224011421204,
+  "best_model_checkpoint": "./qlora-out/checkpoint-77000",
+  "epoch": 2.889526863278774,
   "eval_steps": 500,
+  "global_step": 77500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 0.412,
       "eval_steps_per_second": 0.412,
       "step": 69500
+    },
+    {
+      "epoch": 2.61,
+      "learning_rate": 8.230912461650797e-06,
+      "loss": 0.3601,
+      "step": 70000
+    },
+    {
+      "epoch": 2.61,
+      "eval_loss": 0.47838443517684937,
+      "eval_runtime": 1306.7325,
+      "eval_samples_per_second": 0.415,
+      "eval_steps_per_second": 0.415,
+      "step": 70000
+    },
+    {
+      "epoch": 2.63,
+      "learning_rate": 7.472757589080226e-06,
+      "loss": 0.3614,
+      "step": 70500
+    },
+    {
+      "epoch": 2.63,
+      "eval_loss": 0.4780386686325073,
+      "eval_runtime": 1290.4017,
+      "eval_samples_per_second": 0.42,
+      "eval_steps_per_second": 0.42,
+      "step": 70500
+    },
+    {
+      "epoch": 2.65,
+      "learning_rate": 6.749873173827314e-06,
+      "loss": 0.3746,
+      "step": 71000
+    },
+    {
+      "epoch": 2.65,
+      "eval_loss": 0.47773027420043945,
+      "eval_runtime": 1293.7698,
+      "eval_samples_per_second": 0.419,
+      "eval_steps_per_second": 0.419,
+      "step": 71000
+    },
+    {
+      "epoch": 2.67,
+      "learning_rate": 6.0625347721849805e-06,
+      "loss": 0.365,
+      "step": 71500
+    },
+    {
+      "epoch": 2.67,
+      "eval_loss": 0.47759953141212463,
+      "eval_runtime": 1287.2533,
+      "eval_samples_per_second": 0.421,
+      "eval_steps_per_second": 0.421,
+      "step": 71500
+    },
+    {
+      "epoch": 2.68,
+      "learning_rate": 5.411004390662034e-06,
+      "loss": 0.3614,
+      "step": 72000
+    },
+    {
+      "epoch": 2.68,
+      "eval_loss": 0.4774133861064911,
+      "eval_runtime": 1290.2562,
+      "eval_samples_per_second": 0.42,
+      "eval_steps_per_second": 0.42,
+      "step": 72000
+    },
+    {
+      "epoch": 2.7,
+      "learning_rate": 4.795530386109038e-06,
+      "loss": 0.3672,
+      "step": 72500
+    },
+    {
+      "epoch": 2.7,
+      "eval_loss": 0.4771479070186615,
+      "eval_runtime": 1313.3814,
+      "eval_samples_per_second": 0.413,
+      "eval_steps_per_second": 0.413,
+      "step": 72500
+    },
+    {
+      "epoch": 2.72,
+      "learning_rate": 4.2163473710470355e-06,
+      "loss": 0.3536,
+      "step": 73000
+    },
+    {
+      "epoch": 2.72,
+      "eval_loss": 0.4770236909389496,
+      "eval_runtime": 1301.9499,
+      "eval_samples_per_second": 0.416,
+      "eval_steps_per_second": 0.416,
+      "step": 73000
+    },
+    {
+      "epoch": 2.74,
+      "learning_rate": 3.67367612423567e-06,
+      "loss": 0.3693,
+      "step": 73500
+    },
+    {
+      "epoch": 2.74,
+      "eval_loss": 0.4766899645328522,
+      "eval_runtime": 1310.5415,
+      "eval_samples_per_second": 0.414,
+      "eval_steps_per_second": 0.414,
+      "step": 73500
+    },
+    {
+      "epoch": 2.76,
+      "learning_rate": 3.1677235065144862e-06,
+      "loss": 0.358,
+      "step": 74000
+    },
+    {
+      "epoch": 2.76,
+      "eval_loss": 0.47646036744117737,
+      "eval_runtime": 1327.3256,
+      "eval_samples_per_second": 0.408,
+      "eval_steps_per_second": 0.408,
+      "step": 74000
+    },
+    {
+      "epoch": 2.78,
+      "learning_rate": 2.6986823819497353e-06,
+      "loss": 0.3653,
+      "step": 74500
+    },
+    {
+      "epoch": 2.78,
+      "eval_loss": 0.47627386450767517,
+      "eval_runtime": 1332.1149,
+      "eval_samples_per_second": 0.407,
+      "eval_steps_per_second": 0.407,
+      "step": 74500
+    },
+    {
+      "epoch": 2.8,
+      "learning_rate": 2.266731544316425e-06,
+      "loss": 0.3743,
+      "step": 75000
+    },
+    {
+      "epoch": 2.8,
+      "eval_loss": 0.47608959674835205,
+      "eval_runtime": 1305.4101,
+      "eval_samples_per_second": 0.415,
+      "eval_steps_per_second": 0.415,
+      "step": 75000
+    },
+    {
+      "epoch": 2.81,
+      "learning_rate": 1.872035648944026e-06,
+      "loss": 0.3659,
+      "step": 75500
+    },
+    {
+      "epoch": 2.81,
+      "eval_loss": 0.476179838180542,
+      "eval_runtime": 1301.8331,
+      "eval_samples_per_second": 0.416,
+      "eval_steps_per_second": 0.416,
+      "step": 75500
+    },
+    {
+      "epoch": 2.83,
+      "learning_rate": 1.5147451499514353e-06,
+      "loss": 0.3678,
+      "step": 76000
+    },
+    {
+      "epoch": 2.83,
+      "eval_loss": 0.4760454595088959,
+      "eval_runtime": 1297.73,
+      "eval_samples_per_second": 0.418,
+      "eval_steps_per_second": 0.418,
+      "step": 76000
+    },
+    {
+      "epoch": 2.85,
+      "learning_rate": 1.1949962428953965e-06,
+      "loss": 0.3672,
+      "step": 76500
+    },
+    {
+      "epoch": 2.85,
+      "eval_loss": 0.4760077893733978,
+      "eval_runtime": 1293.9854,
+      "eval_samples_per_second": 0.419,
+      "eval_steps_per_second": 0.419,
+      "step": 76500
+    },
+    {
+      "epoch": 2.87,
+      "learning_rate": 9.129108128541176e-07,
+      "loss": 0.3658,
+      "step": 77000
+    },
+    {
+      "epoch": 2.87,
+      "eval_loss": 0.47582224011421204,
+      "eval_runtime": 1293.6591,
+      "eval_samples_per_second": 0.419,
+      "eval_steps_per_second": 0.419,
+      "step": 77000
+    },
+    {
+      "epoch": 2.89,
+      "learning_rate": 6.685963879659362e-07,
+      "loss": 0.3675,
+      "step": 77500
+    },
+    {
+      "epoch": 2.89,
+      "eval_loss": 0.4758478105068207,
+      "eval_runtime": 1311.0096,
+      "eval_samples_per_second": 0.413,
+      "eval_steps_per_second": 0.413,
+      "step": 77500
     }
   ],
   "logging_steps": 500,
   "max_steps": 80463,
   "num_train_epochs": 3,
   "save_steps": 500,
+  "total_flos": 2.1768185355260805e+19,
   "trial_name": null,
   "trial_params": null
 }

{checkpoint-70000 → checkpoint-77500}/training_args.bin RENAMED Viewed

File without changes

{checkpoint-70500 → checkpoint-78000}/README.md RENAMED Viewed

File without changes

{checkpoint-70500 → checkpoint-78000}/adapter_config.json RENAMED Viewed

File without changes

checkpoint-78000/adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8a95e49326f95cbf72dea87596b1fd0bcc1abcccd06310612c0ac6bdb3314bc1
+size 500897101

{checkpoint-70500 → checkpoint-78000}/adapter_model/README.md RENAMED Viewed

File without changes

{checkpoint-70500 → checkpoint-78000}/adapter_model/adapter_config.json RENAMED Viewed

File without changes

checkpoint-78000/adapter_model/adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8a95e49326f95cbf72dea87596b1fd0bcc1abcccd06310612c0ac6bdb3314bc1
+size 500897101

{checkpoint-70500 → checkpoint-78000}/optimizer.pt RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e892af212f732e9530af52f246a0ac8cce7e5fdd232039bb0e4c90cdd7fa3e74
 size 1001724605

 version https://git-lfs.github.com/spec/v1
+oid sha256:ad0ade3b6ce4741aa4976bb9b0aae8b16a0605bea6020968a870961a9dc6cf7f
 size 1001724605

{checkpoint-69000 → checkpoint-78000}/rng_state.pth RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b7732edd0ae5999edb700e14bae64e828df5241beb83fbee05815f6c10b73570
 size 14575

 version https://git-lfs.github.com/spec/v1
+oid sha256:cae952b189b908268d157bce31712cd2487d9ad50a53ef0ae319c8f965d6c13c
 size 14575

{checkpoint-70500 → checkpoint-78000}/scheduler.pt RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d97c294b2bc2150ad9018c4136e33bcd18ab0fac2dca93dc8eff3b34e709e5be
 size 627

 version https://git-lfs.github.com/spec/v1
+oid sha256:495a1512040b6a087956ab3f68fd532032c899c1dae932d93c4b1ba403b50d1d
 size 627

{checkpoint-69000 → checkpoint-78000}/trainer_state.json RENAMED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.4789520502090454,
-  "best_model_checkpoint": "./qlora-out/checkpoint-69000",
-  "epoch": 2.5726110137578764,
   "eval_steps": 500,
-  "global_step": 69000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -4299,13 +4299,265 @@
       "eval_samples_per_second": 0.403,
       "eval_steps_per_second": 0.403,
       "step": 69000
     }
   ],
   "logging_steps": 500,
   "max_steps": 80463,
   "num_train_epochs": 3,
   "save_steps": 500,
-  "total_flos": 1.9364073941589443e+19,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 0.4757947325706482,
+  "best_model_checkpoint": "./qlora-out/checkpoint-78000",
+  "epoch": 2.908168972074121,
   "eval_steps": 500,
+  "global_step": 78000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 0.403,
       "eval_steps_per_second": 0.403,
       "step": 69000
+    },
+    {
+      "epoch": 2.59,
+      "learning_rate": 9.024048790501272e-06,
+      "loss": 0.3594,
+      "step": 69500
+    },
+    {
+      "epoch": 2.59,
+      "eval_loss": 0.47866225242614746,
+      "eval_runtime": 1316.9883,
+      "eval_samples_per_second": 0.412,
+      "eval_steps_per_second": 0.412,
+      "step": 69500
+    },
+    {
+      "epoch": 2.61,
+      "learning_rate": 8.230912461650797e-06,
+      "loss": 0.3601,
+      "step": 70000
+    },
+    {
+      "epoch": 2.61,
+      "eval_loss": 0.47838443517684937,
+      "eval_runtime": 1306.7325,
+      "eval_samples_per_second": 0.415,
+      "eval_steps_per_second": 0.415,
+      "step": 70000
+    },
+    {
+      "epoch": 2.63,
+      "learning_rate": 7.472757589080226e-06,
+      "loss": 0.3614,
+      "step": 70500
+    },
+    {
+      "epoch": 2.63,
+      "eval_loss": 0.4780386686325073,
+      "eval_runtime": 1290.4017,
+      "eval_samples_per_second": 0.42,
+      "eval_steps_per_second": 0.42,
+      "step": 70500
+    },
+    {
+      "epoch": 2.65,
+      "learning_rate": 6.749873173827314e-06,
+      "loss": 0.3746,
+      "step": 71000
+    },
+    {
+      "epoch": 2.65,
+      "eval_loss": 0.47773027420043945,
+      "eval_runtime": 1293.7698,
+      "eval_samples_per_second": 0.419,
+      "eval_steps_per_second": 0.419,
+      "step": 71000
+    },
+    {
+      "epoch": 2.67,
+      "learning_rate": 6.0625347721849805e-06,
+      "loss": 0.365,
+      "step": 71500
+    },
+    {
+      "epoch": 2.67,
+      "eval_loss": 0.47759953141212463,
+      "eval_runtime": 1287.2533,
+      "eval_samples_per_second": 0.421,
+      "eval_steps_per_second": 0.421,
+      "step": 71500
+    },
+    {
+      "epoch": 2.68,
+      "learning_rate": 5.411004390662034e-06,
+      "loss": 0.3614,
+      "step": 72000
+    },
+    {
+      "epoch": 2.68,
+      "eval_loss": 0.4774133861064911,
+      "eval_runtime": 1290.2562,
+      "eval_samples_per_second": 0.42,
+      "eval_steps_per_second": 0.42,
+      "step": 72000
+    },
+    {
+      "epoch": 2.7,
+      "learning_rate": 4.795530386109038e-06,
+      "loss": 0.3672,
+      "step": 72500
+    },
+    {
+      "epoch": 2.7,
+      "eval_loss": 0.4771479070186615,
+      "eval_runtime": 1313.3814,
+      "eval_samples_per_second": 0.413,
+      "eval_steps_per_second": 0.413,
+      "step": 72500
+    },
+    {
+      "epoch": 2.72,
+      "learning_rate": 4.2163473710470355e-06,
+      "loss": 0.3536,
+      "step": 73000
+    },
+    {
+      "epoch": 2.72,
+      "eval_loss": 0.4770236909389496,
+      "eval_runtime": 1301.9499,
+      "eval_samples_per_second": 0.416,
+      "eval_steps_per_second": 0.416,
+      "step": 73000
+    },
+    {
+      "epoch": 2.74,
+      "learning_rate": 3.67367612423567e-06,
+      "loss": 0.3693,
+      "step": 73500
+    },
+    {
+      "epoch": 2.74,
+      "eval_loss": 0.4766899645328522,
+      "eval_runtime": 1310.5415,
+      "eval_samples_per_second": 0.414,
+      "eval_steps_per_second": 0.414,
+      "step": 73500
+    },
+    {
+      "epoch": 2.76,
+      "learning_rate": 3.1677235065144862e-06,
+      "loss": 0.358,
+      "step": 74000
+    },
+    {
+      "epoch": 2.76,
+      "eval_loss": 0.47646036744117737,
+      "eval_runtime": 1327.3256,
+      "eval_samples_per_second": 0.408,
+      "eval_steps_per_second": 0.408,
+      "step": 74000
+    },
+    {
+      "epoch": 2.78,
+      "learning_rate": 2.6986823819497353e-06,
+      "loss": 0.3653,
+      "step": 74500
+    },
+    {
+      "epoch": 2.78,
+      "eval_loss": 0.47627386450767517,
+      "eval_runtime": 1332.1149,
+      "eval_samples_per_second": 0.407,
+      "eval_steps_per_second": 0.407,
+      "step": 74500
+    },
+    {
+      "epoch": 2.8,
+      "learning_rate": 2.266731544316425e-06,
+      "loss": 0.3743,
+      "step": 75000
+    },
+    {
+      "epoch": 2.8,
+      "eval_loss": 0.47608959674835205,
+      "eval_runtime": 1305.4101,
+      "eval_samples_per_second": 0.415,
+      "eval_steps_per_second": 0.415,
+      "step": 75000
+    },
+    {
+      "epoch": 2.81,
+      "learning_rate": 1.872035648944026e-06,
+      "loss": 0.3659,
+      "step": 75500
+    },
+    {
+      "epoch": 2.81,
+      "eval_loss": 0.476179838180542,
+      "eval_runtime": 1301.8331,
+      "eval_samples_per_second": 0.416,
+      "eval_steps_per_second": 0.416,
+      "step": 75500
+    },
+    {
+      "epoch": 2.83,
+      "learning_rate": 1.5147451499514353e-06,
+      "loss": 0.3678,
+      "step": 76000
+    },
+    {
+      "epoch": 2.83,
+      "eval_loss": 0.4760454595088959,
+      "eval_runtime": 1297.73,
+      "eval_samples_per_second": 0.418,
+      "eval_steps_per_second": 0.418,
+      "step": 76000
+    },
+    {
+      "epoch": 2.85,
+      "learning_rate": 1.1949962428953965e-06,
+      "loss": 0.3672,
+      "step": 76500
+    },
+    {
+      "epoch": 2.85,
+      "eval_loss": 0.4760077893733978,
+      "eval_runtime": 1293.9854,
+      "eval_samples_per_second": 0.419,
+      "eval_steps_per_second": 0.419,
+      "step": 76500
+    },
+    {
+      "epoch": 2.87,
+      "learning_rate": 9.129108128541176e-07,
+      "loss": 0.3658,
+      "step": 77000
+    },
+    {
+      "epoch": 2.87,
+      "eval_loss": 0.47582224011421204,
+      "eval_runtime": 1293.6591,
+      "eval_samples_per_second": 0.419,
+      "eval_steps_per_second": 0.419,
+      "step": 77000
+    },
+    {
+      "epoch": 2.89,
+      "learning_rate": 6.685963879659362e-07,
+      "loss": 0.3675,
+      "step": 77500
+    },
+    {
+      "epoch": 2.89,
+      "eval_loss": 0.4758478105068207,
+      "eval_runtime": 1311.0096,
+      "eval_samples_per_second": 0.413,
+      "eval_steps_per_second": 0.413,
+      "step": 77500
+    },
+    {
+      "epoch": 2.91,
+      "learning_rate": 4.6214609844061894e-07,
+      "loss": 0.3696,
+      "step": 78000
+    },
+    {
+      "epoch": 2.91,
+      "eval_loss": 0.4757947325706482,
+      "eval_runtime": 1268.9631,
+      "eval_samples_per_second": 0.427,
+      "eval_steps_per_second": 0.427,
+      "step": 78000
     }
   ],
   "logging_steps": 500,
   "max_steps": 80463,
   "num_train_epochs": 3,
   "save_steps": 500,
+  "total_flos": 2.1910553027265577e+19,
   "trial_name": null,
   "trial_params": null
 }

{checkpoint-70500 → checkpoint-78000}/training_args.bin RENAMED Viewed

File without changes