Training in progress, step 50, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_config.json +4 -4
last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/trainer_state.json +110 -110
last-checkpoint/training_args.bin +1 -1

last-checkpoint/adapter_config.json CHANGED Viewed

@@ -20,13 +20,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "o_proj",
-    "up_proj",
     "gate_proj",
     "k_proj",
     "v_proj",
-    "down_proj",
-    "q_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "q_proj",
     "gate_proj",
     "k_proj",
     "v_proj",
+    "o_proj",
+    "up_proj",
+    "down_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6628c07e632a154792d1c63a45e296337c556fd1251face0659bd3d5b1367340
 size 147770496

 version https://git-lfs.github.com/spec/v1
+oid sha256:919c8484bf6e987c96c7843faece2bf9df6f3f371220a7b1773a974f49cf4c36
 size 147770496

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e786d55905a609db6ab2a917d3e97a8e714ff52be0498de565aa710db0f21e29
 size 295765866

 version https://git-lfs.github.com/spec/v1
+oid sha256:64ad1f2d5127facbe6a1590a366b1fa098a60278b15736ba1bddec1d11bff405
 size 295765866

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "best_metric": 0.22514864802360535,
   "best_model_checkpoint": "miner_id_24/checkpoint-50",
   "epoch": 0.49443757725587145,
   "eval_steps": 25,
@@ -10,7 +10,7 @@
   "log_history": [
     {
       "epoch": 0.009888751545117428,
-      "grad_norm": 0.9529975652694702,
       "learning_rate": 5e-05,
       "loss": 1.0219,
       "step": 1
@@ -18,368 +18,368 @@
     {
       "epoch": 0.009888751545117428,
       "eval_loss": 1.3110345602035522,
-      "eval_runtime": 7.7724,
-      "eval_samples_per_second": 87.617,
-      "eval_steps_per_second": 11.065,
       "step": 1
     },
     {
       "epoch": 0.019777503090234856,
-      "grad_norm": 1.0081549882888794,
       "learning_rate": 0.0001,
       "loss": 1.1021,
       "step": 2
     },
     {
       "epoch": 0.029666254635352288,
-      "grad_norm": 0.9224106669425964,
       "learning_rate": 9.989294616193017e-05,
-      "loss": 1.086,
       "step": 3
     },
     {
       "epoch": 0.03955500618046971,
-      "grad_norm": 0.7995649576187134,
       "learning_rate": 9.957224306869053e-05,
-      "loss": 0.9693,
       "step": 4
     },
     {
       "epoch": 0.049443757725587144,
-      "grad_norm": 0.7404234409332275,
       "learning_rate": 9.903926402016153e-05,
-      "loss": 0.9118,
       "step": 5
     },
     {
       "epoch": 0.059332509270704575,
-      "grad_norm": 0.7574806213378906,
       "learning_rate": 9.829629131445342e-05,
-      "loss": 0.8586,
       "step": 6
     },
     {
       "epoch": 0.069221260815822,
-      "grad_norm": 0.821106493473053,
       "learning_rate": 9.73465064747553e-05,
-      "loss": 0.7926,
       "step": 7
     },
     {
       "epoch": 0.07911001236093942,
-      "grad_norm": 0.8635395169258118,
       "learning_rate": 9.619397662556435e-05,
-      "loss": 0.783,
       "step": 8
     },
     {
       "epoch": 0.08899876390605686,
-      "grad_norm": 1.0159235000610352,
       "learning_rate": 9.484363707663442e-05,
-      "loss": 0.7064,
       "step": 9
     },
     {
       "epoch": 0.09888751545117429,
-      "grad_norm": 1.0130189657211304,
       "learning_rate": 9.330127018922194e-05,
-      "loss": 0.589,
       "step": 10
     },
     {
       "epoch": 0.10877626699629171,
-      "grad_norm": 1.2768349647521973,
       "learning_rate": 9.157348061512727e-05,
-      "loss": 0.5688,
       "step": 11
     },
     {
       "epoch": 0.11866501854140915,
-      "grad_norm": 2.3141722679138184,
       "learning_rate": 8.966766701456177e-05,
-      "loss": 0.7207,
       "step": 12
     },
     {
       "epoch": 0.12855377008652658,
-      "grad_norm": 1.249726414680481,
       "learning_rate": 8.759199037394887e-05,
-      "loss": 0.6056,
       "step": 13
     },
     {
       "epoch": 0.138442521631644,
-      "grad_norm": 0.7423824071884155,
       "learning_rate": 8.535533905932738e-05,
-      "loss": 0.3629,
       "step": 14
     },
     {
       "epoch": 0.14833127317676142,
-      "grad_norm": 0.679111897945404,
       "learning_rate": 8.296729075500344e-05,
-      "loss": 0.3774,
       "step": 15
     },
     {
       "epoch": 0.15822002472187885,
-      "grad_norm": 0.9115525484085083,
       "learning_rate": 8.043807145043604e-05,
-      "loss": 0.3451,
       "step": 16
     },
     {
       "epoch": 0.1681087762669963,
-      "grad_norm": 0.712714672088623,
       "learning_rate": 7.777851165098012e-05,
-      "loss": 0.3456,
       "step": 17
     },
     {
       "epoch": 0.17799752781211373,
-      "grad_norm": 0.4200282394886017,
       "learning_rate": 7.500000000000001e-05,
-      "loss": 0.308,
       "step": 18
     },
     {
       "epoch": 0.18788627935723115,
-      "grad_norm": 0.3945173919200897,
       "learning_rate": 7.211443451095007e-05,
-      "loss": 0.3046,
       "step": 19
     },
     {
       "epoch": 0.19777503090234858,
-      "grad_norm": 0.46987950801849365,
       "learning_rate": 6.91341716182545e-05,
-      "loss": 0.3372,
       "step": 20
     },
     {
       "epoch": 0.207663782447466,
-      "grad_norm": 0.47412583231925964,
       "learning_rate": 6.607197326515808e-05,
-      "loss": 0.305,
       "step": 21
     },
     {
       "epoch": 0.21755253399258342,
-      "grad_norm": 0.4029322862625122,
       "learning_rate": 6.294095225512603e-05,
-      "loss": 0.3065,
       "step": 22
     },
     {
       "epoch": 0.22744128553770088,
-      "grad_norm": 0.4010602533817291,
       "learning_rate": 5.9754516100806423e-05,
-      "loss": 0.2876,
       "step": 23
     },
     {
       "epoch": 0.2373300370828183,
-      "grad_norm": 0.4016035795211792,
       "learning_rate": 5.6526309611002594e-05,
-      "loss": 0.2817,
       "step": 24
     },
     {
       "epoch": 0.24721878862793573,
-      "grad_norm": 0.6217444539070129,
       "learning_rate": 5.327015646150716e-05,
-      "loss": 0.4688,
       "step": 25
     },
     {
       "epoch": 0.24721878862793573,
-      "eval_loss": 0.2869703769683838,
-      "eval_runtime": 7.8213,
-      "eval_samples_per_second": 87.07,
-      "eval_steps_per_second": 10.996,
       "step": 25
     },
     {
       "epoch": 0.25710754017305315,
-      "grad_norm": 0.2917296588420868,
       "learning_rate": 5e-05,
-      "loss": 0.1985,
       "step": 26
     },
     {
       "epoch": 0.2669962917181706,
-      "grad_norm": 0.33820563554763794,
       "learning_rate": 4.6729843538492847e-05,
-      "loss": 0.21,
       "step": 27
     },
     {
       "epoch": 0.276885043263288,
-      "grad_norm": 0.3485124707221985,
       "learning_rate": 4.347369038899744e-05,
-      "loss": 0.2332,
       "step": 28
     },
     {
       "epoch": 0.2867737948084054,
-      "grad_norm": 0.3025939166545868,
       "learning_rate": 4.0245483899193595e-05,
-      "loss": 0.2189,
       "step": 29
     },
     {
       "epoch": 0.29666254635352285,
-      "grad_norm": 0.31494253873825073,
       "learning_rate": 3.705904774487396e-05,
-      "loss": 0.2142,
       "step": 30
     },
     {
       "epoch": 0.3065512978986403,
-      "grad_norm": 0.4657946527004242,
       "learning_rate": 3.392802673484193e-05,
-      "loss": 0.2213,
       "step": 31
     },
     {
       "epoch": 0.3164400494437577,
-      "grad_norm": 0.3799411356449127,
       "learning_rate": 3.086582838174551e-05,
-      "loss": 0.2193,
       "step": 32
     },
     {
       "epoch": 0.3263288009888752,
-      "grad_norm": 0.2840307950973511,
       "learning_rate": 2.7885565489049946e-05,
-      "loss": 0.2112,
       "step": 33
     },
     {
       "epoch": 0.3362175525339926,
-      "grad_norm": 0.35816898941993713,
       "learning_rate": 2.500000000000001e-05,
-      "loss": 0.2486,
       "step": 34
     },
     {
       "epoch": 0.34610630407911,
-      "grad_norm": 0.35439935326576233,
       "learning_rate": 2.2221488349019903e-05,
-      "loss": 0.2388,
       "step": 35
     },
     {
       "epoch": 0.35599505562422745,
-      "grad_norm": 0.4249046742916107,
       "learning_rate": 1.9561928549563968e-05,
-      "loss": 0.2357,
       "step": 36
     },
     {
       "epoch": 0.3658838071693449,
-      "grad_norm": 0.4100884199142456,
       "learning_rate": 1.703270924499656e-05,
-      "loss": 0.284,
       "step": 37
     },
     {
       "epoch": 0.3757725587144623,
-      "grad_norm": 0.4879622161388397,
       "learning_rate": 1.4644660940672627e-05,
-      "loss": 0.298,
       "step": 38
     },
     {
       "epoch": 0.3856613102595797,
-      "grad_norm": 0.3166544735431671,
       "learning_rate": 1.2408009626051137e-05,
-      "loss": 0.1693,
       "step": 39
     },
     {
       "epoch": 0.39555006180469715,
-      "grad_norm": 0.3027257025241852,
       "learning_rate": 1.0332332985438248e-05,
-      "loss": 0.187,
       "step": 40
     },
     {
       "epoch": 0.4054388133498146,
-      "grad_norm": 0.2633449137210846,
       "learning_rate": 8.426519384872733e-06,
-      "loss": 0.1846,
       "step": 41
     },
     {
       "epoch": 0.415327564894932,
-      "grad_norm": 0.2582716643810272,
       "learning_rate": 6.698729810778065e-06,
-      "loss": 0.195,
       "step": 42
     },
     {
       "epoch": 0.4252163164400494,
-      "grad_norm": 0.24600811302661896,
       "learning_rate": 5.156362923365588e-06,
-      "loss": 0.173,
       "step": 43
     },
     {
       "epoch": 0.43510506798516685,
-      "grad_norm": 0.29672151803970337,
       "learning_rate": 3.8060233744356633e-06,
-      "loss": 0.197,
       "step": 44
     },
     {
       "epoch": 0.44499381953028433,
-      "grad_norm": 0.3242957890033722,
       "learning_rate": 2.653493525244721e-06,
-      "loss": 0.1931,
       "step": 45
     },
     {
       "epoch": 0.45488257107540175,
-      "grad_norm": 0.3718074858188629,
       "learning_rate": 1.70370868554659e-06,
-      "loss": 0.2209,
       "step": 46
     },
     {
       "epoch": 0.4647713226205192,
-      "grad_norm": 0.3563547134399414,
       "learning_rate": 9.607359798384785e-07,
-      "loss": 0.2031,
       "step": 47
     },
     {
       "epoch": 0.4746600741656366,
-      "grad_norm": 0.360695481300354,
       "learning_rate": 4.277569313094809e-07,
-      "loss": 0.2244,
       "step": 48
     },
     {
       "epoch": 0.484548825710754,
-      "grad_norm": 0.3732745349407196,
       "learning_rate": 1.0705383806982606e-07,
-      "loss": 0.2263,
       "step": 49
     },
     {
       "epoch": 0.49443757725587145,
-      "grad_norm": 1.110573649406433,
       "learning_rate": 0.0,
-      "loss": 0.4603,
       "step": 50
     },
     {
       "epoch": 0.49443757725587145,
-      "eval_loss": 0.22514864802360535,
-      "eval_runtime": 7.7671,
-      "eval_samples_per_second": 87.678,
-      "eval_steps_per_second": 11.072,
       "step": 50
     }
   ],

 {
+  "best_metric": 0.22396564483642578,
   "best_model_checkpoint": "miner_id_24/checkpoint-50",
   "epoch": 0.49443757725587145,
   "eval_steps": 25,
   "log_history": [
     {
       "epoch": 0.009888751545117428,
+      "grad_norm": 0.9270037412643433,
       "learning_rate": 5e-05,
       "loss": 1.0219,
       "step": 1
     {
       "epoch": 0.009888751545117428,
       "eval_loss": 1.3110345602035522,
+      "eval_runtime": 7.8638,
+      "eval_samples_per_second": 86.6,
+      "eval_steps_per_second": 10.936,
       "step": 1
     },
     {
       "epoch": 0.019777503090234856,
+      "grad_norm": 0.9792912602424622,
       "learning_rate": 0.0001,
       "loss": 1.1021,
       "step": 2
     },
     {
       "epoch": 0.029666254635352288,
+      "grad_norm": 0.8936651349067688,
       "learning_rate": 9.989294616193017e-05,
+      "loss": 1.0866,
       "step": 3
     },
     {
       "epoch": 0.03955500618046971,
+      "grad_norm": 0.7842883467674255,
       "learning_rate": 9.957224306869053e-05,
+      "loss": 0.9722,
       "step": 4
     },
     {
       "epoch": 0.049443757725587144,
+      "grad_norm": 0.7236300706863403,
       "learning_rate": 9.903926402016153e-05,
+      "loss": 0.9149,
       "step": 5
     },
     {
       "epoch": 0.059332509270704575,
+      "grad_norm": 0.7401460409164429,
       "learning_rate": 9.829629131445342e-05,
+      "loss": 0.8607,
       "step": 6
     },
     {
       "epoch": 0.069221260815822,
+      "grad_norm": 0.8092033863067627,
       "learning_rate": 9.73465064747553e-05,
+      "loss": 0.7949,
       "step": 7
     },
     {
       "epoch": 0.07911001236093942,
+      "grad_norm": 0.8464013338088989,
       "learning_rate": 9.619397662556435e-05,
+      "loss": 0.7863,
       "step": 8
     },
     {
       "epoch": 0.08899876390605686,
+      "grad_norm": 1.0086783170700073,
       "learning_rate": 9.484363707663442e-05,
+      "loss": 0.7098,
       "step": 9
     },
     {
       "epoch": 0.09888751545117429,
+      "grad_norm": 1.0078625679016113,
       "learning_rate": 9.330127018922194e-05,
+      "loss": 0.5894,
       "step": 10
     },
     {
       "epoch": 0.10877626699629171,
+      "grad_norm": 1.1876660585403442,
       "learning_rate": 9.157348061512727e-05,
+      "loss": 0.5661,
       "step": 11
     },
     {
       "epoch": 0.11866501854140915,
+      "grad_norm": 2.1976397037506104,
       "learning_rate": 8.966766701456177e-05,
+      "loss": 0.7176,
       "step": 12
     },
     {
       "epoch": 0.12855377008652658,
+      "grad_norm": 1.201209545135498,
       "learning_rate": 8.759199037394887e-05,
+      "loss": 0.605,
       "step": 13
     },
     {
       "epoch": 0.138442521631644,
+      "grad_norm": 0.7381742000579834,
       "learning_rate": 8.535533905932738e-05,
+      "loss": 0.3627,
       "step": 14
     },
     {
       "epoch": 0.14833127317676142,
+      "grad_norm": 0.6524677872657776,
       "learning_rate": 8.296729075500344e-05,
+      "loss": 0.3756,
       "step": 15
     },
     {
       "epoch": 0.15822002472187885,
+      "grad_norm": 0.8802517056465149,
       "learning_rate": 8.043807145043604e-05,
+      "loss": 0.344,
       "step": 16
     },
     {
       "epoch": 0.1681087762669963,
+      "grad_norm": 0.710600733757019,
       "learning_rate": 7.777851165098012e-05,
+      "loss": 0.3453,
       "step": 17
     },
     {
       "epoch": 0.17799752781211373,
+      "grad_norm": 0.4289000332355499,
       "learning_rate": 7.500000000000001e-05,
+      "loss": 0.3075,
       "step": 18
     },
     {
       "epoch": 0.18788627935723115,
+      "grad_norm": 0.39907172322273254,
       "learning_rate": 7.211443451095007e-05,
+      "loss": 0.304,
       "step": 19
     },
     {
       "epoch": 0.19777503090234858,
+      "grad_norm": 0.4773022532463074,
       "learning_rate": 6.91341716182545e-05,
+      "loss": 0.3357,
       "step": 20
     },
     {
       "epoch": 0.207663782447466,
+      "grad_norm": 0.4713442921638489,
       "learning_rate": 6.607197326515808e-05,
+      "loss": 0.3029,
       "step": 21
     },
     {
       "epoch": 0.21755253399258342,
+      "grad_norm": 0.40293270349502563,
       "learning_rate": 6.294095225512603e-05,
+      "loss": 0.3048,
       "step": 22
     },
     {
       "epoch": 0.22744128553770088,
+      "grad_norm": 0.3828917443752289,
       "learning_rate": 5.9754516100806423e-05,
+      "loss": 0.2858,
       "step": 23
     },
     {
       "epoch": 0.2373300370828183,
+      "grad_norm": 0.39708393812179565,
       "learning_rate": 5.6526309611002594e-05,
+      "loss": 0.2794,
       "step": 24
     },
     {
       "epoch": 0.24721878862793573,
+      "grad_norm": 0.6134014129638672,
       "learning_rate": 5.327015646150716e-05,
+      "loss": 0.4663,
       "step": 25
     },
     {
       "epoch": 0.24721878862793573,
+      "eval_loss": 0.28585025668144226,
+      "eval_runtime": 7.8892,
+      "eval_samples_per_second": 86.32,
+      "eval_steps_per_second": 10.901,
       "step": 25
     },
     {
       "epoch": 0.25710754017305315,
+      "grad_norm": 0.2855299115180969,
       "learning_rate": 5e-05,
+      "loss": 0.1977,
       "step": 26
     },
     {
       "epoch": 0.2669962917181706,
+      "grad_norm": 0.3362813889980316,
       "learning_rate": 4.6729843538492847e-05,
+      "loss": 0.2081,
       "step": 27
     },
     {
       "epoch": 0.276885043263288,
+      "grad_norm": 0.36478468775749207,
       "learning_rate": 4.347369038899744e-05,
+      "loss": 0.2323,
       "step": 28
     },
     {
       "epoch": 0.2867737948084054,
+      "grad_norm": 0.3040948808193207,
       "learning_rate": 4.0245483899193595e-05,
+      "loss": 0.2165,
       "step": 29
     },
     {
       "epoch": 0.29666254635352285,
+      "grad_norm": 0.32656049728393555,
       "learning_rate": 3.705904774487396e-05,
+      "loss": 0.2123,
       "step": 30
     },
     {
       "epoch": 0.3065512978986403,
+      "grad_norm": 0.3507472574710846,
       "learning_rate": 3.392802673484193e-05,
+      "loss": 0.2207,
       "step": 31
     },
     {
       "epoch": 0.3164400494437577,
+      "grad_norm": 0.3757183253765106,
       "learning_rate": 3.086582838174551e-05,
+      "loss": 0.2175,
       "step": 32
     },
     {
       "epoch": 0.3263288009888752,
+      "grad_norm": 0.2881447672843933,
       "learning_rate": 2.7885565489049946e-05,
+      "loss": 0.2108,
       "step": 33
     },
     {
       "epoch": 0.3362175525339926,
+      "grad_norm": 0.39557623863220215,
       "learning_rate": 2.500000000000001e-05,
+      "loss": 0.2491,
       "step": 34
     },
     {
       "epoch": 0.34610630407911,
+      "grad_norm": 0.3497767746448517,
       "learning_rate": 2.2221488349019903e-05,
+      "loss": 0.237,
       "step": 35
     },
     {
       "epoch": 0.35599505562422745,
+      "grad_norm": 0.41600528359413147,
       "learning_rate": 1.9561928549563968e-05,
+      "loss": 0.2337,
       "step": 36
     },
     {
       "epoch": 0.3658838071693449,
+      "grad_norm": 0.40001213550567627,
       "learning_rate": 1.703270924499656e-05,
+      "loss": 0.2811,
       "step": 37
     },
     {
       "epoch": 0.3757725587144623,
+      "grad_norm": 0.49458879232406616,
       "learning_rate": 1.4644660940672627e-05,
+      "loss": 0.2963,
       "step": 38
     },
     {
       "epoch": 0.3856613102595797,
+      "grad_norm": 0.3023322820663452,
       "learning_rate": 1.2408009626051137e-05,
+      "loss": 0.1681,
       "step": 39
     },
     {
       "epoch": 0.39555006180469715,
+      "grad_norm": 0.29773691296577454,
       "learning_rate": 1.0332332985438248e-05,
+      "loss": 0.185,
       "step": 40
     },
     {
       "epoch": 0.4054388133498146,
+      "grad_norm": 0.26397544145584106,
       "learning_rate": 8.426519384872733e-06,
+      "loss": 0.1838,
       "step": 41
     },
     {
       "epoch": 0.415327564894932,
+      "grad_norm": 0.257038414478302,
       "learning_rate": 6.698729810778065e-06,
+      "loss": 0.1936,
       "step": 42
     },
     {
       "epoch": 0.4252163164400494,
+      "grad_norm": 0.2425549328327179,
       "learning_rate": 5.156362923365588e-06,
+      "loss": 0.1715,
       "step": 43
     },
     {
       "epoch": 0.43510506798516685,
+      "grad_norm": 0.294796347618103,
       "learning_rate": 3.8060233744356633e-06,
+      "loss": 0.1958,
       "step": 44
     },
     {
       "epoch": 0.44499381953028433,
+      "grad_norm": 0.34366703033447266,
       "learning_rate": 2.653493525244721e-06,
+      "loss": 0.1909,
       "step": 45
     },
     {
       "epoch": 0.45488257107540175,
+      "grad_norm": 0.43955957889556885,
       "learning_rate": 1.70370868554659e-06,
+      "loss": 0.2184,
       "step": 46
     },
     {
       "epoch": 0.4647713226205192,
+      "grad_norm": 0.35675230622291565,
       "learning_rate": 9.607359798384785e-07,
+      "loss": 0.202,
       "step": 47
     },
     {
       "epoch": 0.4746600741656366,
+      "grad_norm": 0.3677556812763214,
       "learning_rate": 4.277569313094809e-07,
+      "loss": 0.221,
       "step": 48
     },
     {
       "epoch": 0.484548825710754,
+      "grad_norm": 0.37708666920661926,
       "learning_rate": 1.0705383806982606e-07,
+      "loss": 0.2253,
       "step": 49
     },
     {
       "epoch": 0.49443757725587145,
+      "grad_norm": 1.0996261835098267,
       "learning_rate": 0.0,
+      "loss": 0.4577,
       "step": 50
     },
     {
       "epoch": 0.49443757725587145,
+      "eval_loss": 0.22396564483642578,
+      "eval_runtime": 7.9035,
+      "eval_samples_per_second": 86.164,
+      "eval_steps_per_second": 10.881,
       "step": 50
     }
   ],

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:59b265d13211b75297ab419de4a75d8f881d2ff067a757da0360af522259e6af
 size 6776

 version https://git-lfs.github.com/spec/v1
+oid sha256:2fffa403338c34b764a434c6a622e84733739871feeb07b89e87b6e2503f8f06
 size 6776