Training in progress, step 25, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_config.json +4 -4
last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/trainer_state.json +56 -56
last-checkpoint/training_args.bin +1 -1

last-checkpoint/adapter_config.json CHANGED Viewed

@@ -20,13 +20,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "q_proj",
     "gate_proj",
     "k_proj",
     "v_proj",
-    "o_proj",
-    "up_proj",
-    "down_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "o_proj",
+    "up_proj",
     "gate_proj",
     "k_proj",
     "v_proj",
+    "down_proj",
+    "q_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c3bf6851a5f233936f53e90c29454c3cf36b0b154938e04e46cf95068c77ba3a
 size 147770496

 version https://git-lfs.github.com/spec/v1
+oid sha256:c61a703063bdea486693851863e68745b7a939572411f162d7fb1d83d090fa13
 size 147770496

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0a7d98b9200f80251eb682ee15ae8332c8e187fd4f843fb5ea278b6d76260fd6
 size 295765866

 version https://git-lfs.github.com/spec/v1
+oid sha256:9926a337f66cc81f24896109f30b46a70004608b82acded2d4bd3335ce0a2b56
 size 295765866

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "best_metric": 0.28585025668144226,
   "best_model_checkpoint": "miner_id_24/checkpoint-25",
   "epoch": 0.24721878862793573,
   "eval_steps": 25,
@@ -10,7 +10,7 @@
   "log_history": [
     {
       "epoch": 0.009888751545117428,
-      "grad_norm": 0.9270037412643433,
       "learning_rate": 5e-05,
       "loss": 1.0219,
       "step": 1
@@ -18,185 +18,185 @@
     {
       "epoch": 0.009888751545117428,
       "eval_loss": 1.3110345602035522,
-      "eval_runtime": 7.8638,
-      "eval_samples_per_second": 86.6,
-      "eval_steps_per_second": 10.936,
       "step": 1
     },
     {
       "epoch": 0.019777503090234856,
-      "grad_norm": 0.9792912602424622,
       "learning_rate": 0.0001,
       "loss": 1.1021,
       "step": 2
     },
     {
       "epoch": 0.029666254635352288,
-      "grad_norm": 0.8936651349067688,
       "learning_rate": 9.989294616193017e-05,
-      "loss": 1.0866,
       "step": 3
     },
     {
       "epoch": 0.03955500618046971,
-      "grad_norm": 0.7842883467674255,
       "learning_rate": 9.957224306869053e-05,
-      "loss": 0.9722,
       "step": 4
     },
     {
       "epoch": 0.049443757725587144,
-      "grad_norm": 0.7236300706863403,
       "learning_rate": 9.903926402016153e-05,
-      "loss": 0.9149,
       "step": 5
     },
     {
       "epoch": 0.059332509270704575,
-      "grad_norm": 0.7401460409164429,
       "learning_rate": 9.829629131445342e-05,
-      "loss": 0.8607,
       "step": 6
     },
     {
       "epoch": 0.069221260815822,
-      "grad_norm": 0.8092033863067627,
       "learning_rate": 9.73465064747553e-05,
-      "loss": 0.7949,
       "step": 7
     },
     {
       "epoch": 0.07911001236093942,
-      "grad_norm": 0.8464013338088989,
       "learning_rate": 9.619397662556435e-05,
-      "loss": 0.7863,
       "step": 8
     },
     {
       "epoch": 0.08899876390605686,
-      "grad_norm": 1.0086783170700073,
       "learning_rate": 9.484363707663442e-05,
-      "loss": 0.7098,
       "step": 9
     },
     {
       "epoch": 0.09888751545117429,
-      "grad_norm": 1.0078625679016113,
       "learning_rate": 9.330127018922194e-05,
-      "loss": 0.5894,
       "step": 10
     },
     {
       "epoch": 0.10877626699629171,
-      "grad_norm": 1.1876660585403442,
       "learning_rate": 9.157348061512727e-05,
-      "loss": 0.5661,
       "step": 11
     },
     {
       "epoch": 0.11866501854140915,
-      "grad_norm": 2.1976397037506104,
       "learning_rate": 8.966766701456177e-05,
-      "loss": 0.7176,
       "step": 12
     },
     {
       "epoch": 0.12855377008652658,
-      "grad_norm": 1.201209545135498,
       "learning_rate": 8.759199037394887e-05,
-      "loss": 0.605,
       "step": 13
     },
     {
       "epoch": 0.138442521631644,
-      "grad_norm": 0.7381742000579834,
       "learning_rate": 8.535533905932738e-05,
-      "loss": 0.3627,
       "step": 14
     },
     {
       "epoch": 0.14833127317676142,
-      "grad_norm": 0.6524677872657776,
       "learning_rate": 8.296729075500344e-05,
-      "loss": 0.3756,
       "step": 15
     },
     {
       "epoch": 0.15822002472187885,
-      "grad_norm": 0.8802517056465149,
       "learning_rate": 8.043807145043604e-05,
-      "loss": 0.344,
       "step": 16
     },
     {
       "epoch": 0.1681087762669963,
-      "grad_norm": 0.710600733757019,
       "learning_rate": 7.777851165098012e-05,
-      "loss": 0.3453,
       "step": 17
     },
     {
       "epoch": 0.17799752781211373,
-      "grad_norm": 0.4289000332355499,
       "learning_rate": 7.500000000000001e-05,
-      "loss": 0.3075,
       "step": 18
     },
     {
       "epoch": 0.18788627935723115,
-      "grad_norm": 0.39907172322273254,
       "learning_rate": 7.211443451095007e-05,
-      "loss": 0.304,
       "step": 19
     },
     {
       "epoch": 0.19777503090234858,
-      "grad_norm": 0.4773022532463074,
       "learning_rate": 6.91341716182545e-05,
-      "loss": 0.3357,
       "step": 20
     },
     {
       "epoch": 0.207663782447466,
-      "grad_norm": 0.4713442921638489,
       "learning_rate": 6.607197326515808e-05,
-      "loss": 0.3029,
       "step": 21
     },
     {
       "epoch": 0.21755253399258342,
-      "grad_norm": 0.40293270349502563,
       "learning_rate": 6.294095225512603e-05,
-      "loss": 0.3048,
       "step": 22
     },
     {
       "epoch": 0.22744128553770088,
-      "grad_norm": 0.3828917443752289,
       "learning_rate": 5.9754516100806423e-05,
-      "loss": 0.2858,
       "step": 23
     },
     {
       "epoch": 0.2373300370828183,
-      "grad_norm": 0.39708393812179565,
       "learning_rate": 5.6526309611002594e-05,
-      "loss": 0.2794,
       "step": 24
     },
     {
       "epoch": 0.24721878862793573,
-      "grad_norm": 0.6134014129638672,
       "learning_rate": 5.327015646150716e-05,
-      "loss": 0.4663,
       "step": 25
     },
     {
       "epoch": 0.24721878862793573,
-      "eval_loss": 0.28585025668144226,
-      "eval_runtime": 7.8892,
-      "eval_samples_per_second": 86.32,
-      "eval_steps_per_second": 10.901,
       "step": 25
     }
   ],

 {
+  "best_metric": 0.2869703769683838,
   "best_model_checkpoint": "miner_id_24/checkpoint-25",
   "epoch": 0.24721878862793573,
   "eval_steps": 25,
   "log_history": [
     {
       "epoch": 0.009888751545117428,
+      "grad_norm": 0.9529975652694702,
       "learning_rate": 5e-05,
       "loss": 1.0219,
       "step": 1
     {
       "epoch": 0.009888751545117428,
       "eval_loss": 1.3110345602035522,
+      "eval_runtime": 7.7724,
+      "eval_samples_per_second": 87.617,
+      "eval_steps_per_second": 11.065,
       "step": 1
     },
     {
       "epoch": 0.019777503090234856,
+      "grad_norm": 1.0081549882888794,
       "learning_rate": 0.0001,
       "loss": 1.1021,
       "step": 2
     },
     {
       "epoch": 0.029666254635352288,
+      "grad_norm": 0.9224106669425964,
       "learning_rate": 9.989294616193017e-05,
+      "loss": 1.086,
       "step": 3
     },
     {
       "epoch": 0.03955500618046971,
+      "grad_norm": 0.7995649576187134,
       "learning_rate": 9.957224306869053e-05,
+      "loss": 0.9693,
       "step": 4
     },
     {
       "epoch": 0.049443757725587144,
+      "grad_norm": 0.7404234409332275,
       "learning_rate": 9.903926402016153e-05,
+      "loss": 0.9118,
       "step": 5
     },
     {
       "epoch": 0.059332509270704575,
+      "grad_norm": 0.7574806213378906,
       "learning_rate": 9.829629131445342e-05,
+      "loss": 0.8586,
       "step": 6
     },
     {
       "epoch": 0.069221260815822,
+      "grad_norm": 0.821106493473053,
       "learning_rate": 9.73465064747553e-05,
+      "loss": 0.7926,
       "step": 7
     },
     {
       "epoch": 0.07911001236093942,
+      "grad_norm": 0.8635395169258118,
       "learning_rate": 9.619397662556435e-05,
+      "loss": 0.783,
       "step": 8
     },
     {
       "epoch": 0.08899876390605686,
+      "grad_norm": 1.0159235000610352,
       "learning_rate": 9.484363707663442e-05,
+      "loss": 0.7064,
       "step": 9
     },
     {
       "epoch": 0.09888751545117429,
+      "grad_norm": 1.0130189657211304,
       "learning_rate": 9.330127018922194e-05,
+      "loss": 0.589,
       "step": 10
     },
     {
       "epoch": 0.10877626699629171,
+      "grad_norm": 1.2768349647521973,
       "learning_rate": 9.157348061512727e-05,
+      "loss": 0.5688,
       "step": 11
     },
     {
       "epoch": 0.11866501854140915,
+      "grad_norm": 2.3141722679138184,
       "learning_rate": 8.966766701456177e-05,
+      "loss": 0.7207,
       "step": 12
     },
     {
       "epoch": 0.12855377008652658,
+      "grad_norm": 1.249726414680481,
       "learning_rate": 8.759199037394887e-05,
+      "loss": 0.6056,
       "step": 13
     },
     {
       "epoch": 0.138442521631644,
+      "grad_norm": 0.7423824071884155,
       "learning_rate": 8.535533905932738e-05,
+      "loss": 0.3629,
       "step": 14
     },
     {
       "epoch": 0.14833127317676142,
+      "grad_norm": 0.679111897945404,
       "learning_rate": 8.296729075500344e-05,
+      "loss": 0.3774,
       "step": 15
     },
     {
       "epoch": 0.15822002472187885,
+      "grad_norm": 0.9115525484085083,
       "learning_rate": 8.043807145043604e-05,
+      "loss": 0.3451,
       "step": 16
     },
     {
       "epoch": 0.1681087762669963,
+      "grad_norm": 0.712714672088623,
       "learning_rate": 7.777851165098012e-05,
+      "loss": 0.3456,
       "step": 17
     },
     {
       "epoch": 0.17799752781211373,
+      "grad_norm": 0.4200282394886017,
       "learning_rate": 7.500000000000001e-05,
+      "loss": 0.308,
       "step": 18
     },
     {
       "epoch": 0.18788627935723115,
+      "grad_norm": 0.3945173919200897,
       "learning_rate": 7.211443451095007e-05,
+      "loss": 0.3046,
       "step": 19
     },
     {
       "epoch": 0.19777503090234858,
+      "grad_norm": 0.46987950801849365,
       "learning_rate": 6.91341716182545e-05,
+      "loss": 0.3372,
       "step": 20
     },
     {
       "epoch": 0.207663782447466,
+      "grad_norm": 0.47412583231925964,
       "learning_rate": 6.607197326515808e-05,
+      "loss": 0.305,
       "step": 21
     },
     {
       "epoch": 0.21755253399258342,
+      "grad_norm": 0.4029322862625122,
       "learning_rate": 6.294095225512603e-05,
+      "loss": 0.3065,
       "step": 22
     },
     {
       "epoch": 0.22744128553770088,
+      "grad_norm": 0.4010602533817291,
       "learning_rate": 5.9754516100806423e-05,
+      "loss": 0.2876,
       "step": 23
     },
     {
       "epoch": 0.2373300370828183,
+      "grad_norm": 0.4016035795211792,
       "learning_rate": 5.6526309611002594e-05,
+      "loss": 0.2817,
       "step": 24
     },
     {
       "epoch": 0.24721878862793573,
+      "grad_norm": 0.6217444539070129,
       "learning_rate": 5.327015646150716e-05,
+      "loss": 0.4688,
       "step": 25
     },
     {
       "epoch": 0.24721878862793573,
+      "eval_loss": 0.2869703769683838,
+      "eval_runtime": 7.8213,
+      "eval_samples_per_second": 87.07,
+      "eval_steps_per_second": 10.996,
       "step": 25
     }
   ],

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2fffa403338c34b764a434c6a622e84733739871feeb07b89e87b6e2503f8f06
 size 6776

 version https://git-lfs.github.com/spec/v1
+oid sha256:59b265d13211b75297ab419de4a75d8f881d2ff067a757da0360af522259e6af
 size 6776