Training in progress, step 100, checkpoint

Browse files

Files changed (8) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +371 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e1ab32ae0d4399cb012133bb11b6e9faa79b6a3c6703a480647c30a55b6d855e
 size 13587864

 version https://git-lfs.github.com/spec/v1
+oid sha256:18fc12de5654e0323293b5dd1ac28814fb994a9658fb252a535bc41258c43b46
 size 13587864

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3cf790de50f1c78d7f431983db6a779b7c0901de7d7a91f1d6726c03b25151f0
 size 27273018

 version https://git-lfs.github.com/spec/v1
+oid sha256:d024d96a36897f201c8fa7589476419b4311211f4a208ffc2d9a459bb98de426
 size 27273018

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a67f0c9d18949d6ab4ca34299948b93c64d14bb0937f0d840c45b02ff0c13c29
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:a0e862751a4e0db817da07bf59527ac4af8750f08140f75db069d784ab7ae078
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:572e5528001fbc97395c4945b42d8240949671b65b7cc8db72e1abea7be6841b
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:c5b2961bbcc1830d54960d6ae6bf069daa40b1ae66346ee47b349dc68099d8ee
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:faa85973f54e4029ff03e236c546a15786b9d3895a290dcafb3c27938c85ea80
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:3d9faa3e71f84c7c46366efe1c0a99a95347d103fa5203e0f64b50cc02d8b031
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:080c6565aee455008a75927fca0b75f89d095ce4b02c008c692fdfd4864ad224
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:831873b8ec47d858edb49aabcab94a7eded7500ba341e5a8727949745145665c
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e443da8b3fe54273fec3c28cdbc4ca0128af804b14bea3913a81333231fc0282
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:f5153517b1f7cd2d77a0f7948024c5ad6d674c6b3cf70e1337dc0d8c2248ef01
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.3283706307411194,
-  "best_model_checkpoint": "miner_id_24/checkpoint-50",
-  "epoch": 0.1498618461106168,
   "eval_steps": 25,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -381,6 +381,372 @@
       "eval_samples_per_second": 173.489,
       "eval_steps_per_second": 45.107,
       "step": 50
     }
   ],
   "logging_steps": 1,
@@ -409,7 +775,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.296200128626688e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.14205443859100342,
+  "best_model_checkpoint": "miner_id_24/checkpoint-100",
+  "epoch": 0.2997236922212336,
   "eval_steps": 25,
+  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 173.489,
       "eval_steps_per_second": 45.107,
       "step": 50
+    },
+    {
+      "epoch": 0.1528590830328291,
+      "grad_norm": 4.228235721588135,
+      "learning_rate": 0.0002984781941052967,
+      "loss": 1.0819,
+      "step": 51
+    },
+    {
+      "epoch": 0.15585631995504146,
+      "grad_norm": 3.424924612045288,
+      "learning_rate": 0.0002983786296793692,
+      "loss": 0.5749,
+      "step": 52
+    },
+    {
+      "epoch": 0.15885355687725378,
+      "grad_norm": 3.9904696941375732,
+      "learning_rate": 0.00029827593027084546,
+      "loss": 0.5831,
+      "step": 53
+    },
+    {
+      "epoch": 0.16185079379946612,
+      "grad_norm": 2.694119930267334,
+      "learning_rate": 0.00029817009829361196,
+      "loss": 0.4457,
+      "step": 54
+    },
+    {
+      "epoch": 0.16484803072167845,
+      "grad_norm": 1.2387803792953491,
+      "learning_rate": 0.00029806113623518407,
+      "loss": 0.3431,
+      "step": 55
+    },
+    {
+      "epoch": 0.1678452676438908,
+      "grad_norm": 1.6821039915084839,
+      "learning_rate": 0.0002979490466566481,
+      "loss": 0.3905,
+      "step": 56
+    },
+    {
+      "epoch": 0.17084250456610311,
+      "grad_norm": 0.6684949994087219,
+      "learning_rate": 0.00029783383219260037,
+      "loss": 0.3056,
+      "step": 57
+    },
+    {
+      "epoch": 0.17383974148831546,
+      "grad_norm": 0.7967026233673096,
+      "learning_rate": 0.0002977154955510861,
+      "loss": 0.3333,
+      "step": 58
+    },
+    {
+      "epoch": 0.17683697841052778,
+      "grad_norm": 0.5187807083129883,
+      "learning_rate": 0.0002975940395135351,
+      "loss": 0.2867,
+      "step": 59
+    },
+    {
+      "epoch": 0.17983421533274013,
+      "grad_norm": 7.2272138595581055,
+      "learning_rate": 0.00029746946693469693,
+      "loss": 1.0056,
+      "step": 60
+    },
+    {
+      "epoch": 0.18283145225495245,
+      "grad_norm": 8.9348726272583,
+      "learning_rate": 0.00029734178074257325,
+      "loss": 0.7786,
+      "step": 61
+    },
+    {
+      "epoch": 0.1858286891771648,
+      "grad_norm": 8.19704532623291,
+      "learning_rate": 0.0002972109839383494,
+      "loss": 0.3928,
+      "step": 62
+    },
+    {
+      "epoch": 0.18882592609937715,
+      "grad_norm": 4.3927483558654785,
+      "learning_rate": 0.00029707707959632386,
+      "loss": 0.7528,
+      "step": 63
+    },
+    {
+      "epoch": 0.19182316302158947,
+      "grad_norm": 2.271043539047241,
+      "learning_rate": 0.0002969400708638358,
+      "loss": 0.4877,
+      "step": 64
+    },
+    {
+      "epoch": 0.19482039994380182,
+      "grad_norm": 1.3864595890045166,
+      "learning_rate": 0.000296799960961191,
+      "loss": 0.2625,
+      "step": 65
+    },
+    {
+      "epoch": 0.19781763686601414,
+      "grad_norm": 2.2087323665618896,
+      "learning_rate": 0.00029665675318158656,
+      "loss": 0.2945,
+      "step": 66
+    },
+    {
+      "epoch": 0.2008148737882265,
+      "grad_norm": 3.766403913497925,
+      "learning_rate": 0.00029651045089103316,
+      "loss": 0.3807,
+      "step": 67
+    },
+    {
+      "epoch": 0.2038121107104388,
+      "grad_norm": 2.598832368850708,
+      "learning_rate": 0.0002963610575282762,
+      "loss": 0.3149,
+      "step": 68
+    },
+    {
+      "epoch": 0.20680934763265116,
+      "grad_norm": 0.677237331867218,
+      "learning_rate": 0.0002962085766047146,
+      "loss": 0.346,
+      "step": 69
+    },
+    {
+      "epoch": 0.20980658455486348,
+      "grad_norm": 0.5142577886581421,
+      "learning_rate": 0.00029605301170431867,
+      "loss": 0.2855,
+      "step": 70
+    },
+    {
+      "epoch": 0.21280382147707583,
+      "grad_norm": 0.5518949031829834,
+      "learning_rate": 0.00029589436648354566,
+      "loss": 0.3163,
+      "step": 71
+    },
+    {
+      "epoch": 0.21580105839928815,
+      "grad_norm": 0.336823046207428,
+      "learning_rate": 0.00029573264467125377,
+      "loss": 0.16,
+      "step": 72
+    },
+    {
+      "epoch": 0.2187982953215005,
+      "grad_norm": 0.2474360167980194,
+      "learning_rate": 0.0002955678500686147,
+      "loss": 0.0297,
+      "step": 73
+    },
+    {
+      "epoch": 0.22179553224371282,
+      "grad_norm": 0.18458165228366852,
+      "learning_rate": 0.0002953999865490242,
+      "loss": 0.0609,
+      "step": 74
+    },
+    {
+      "epoch": 0.22479276916592517,
+      "grad_norm": 0.36120983958244324,
+      "learning_rate": 0.0002952290580580109,
+      "loss": 0.0862,
+      "step": 75
+    },
+    {
+      "epoch": 0.22479276916592517,
+      "eval_loss": 0.16452732682228088,
+      "eval_runtime": 0.2888,
+      "eval_samples_per_second": 173.11,
+      "eval_steps_per_second": 45.009,
+      "step": 75
+    },
+    {
+      "epoch": 0.2277900060881375,
+      "grad_norm": 1.3333512544631958,
+      "learning_rate": 0.0002950550686131438,
+      "loss": 0.6146,
+      "step": 76
+    },
+    {
+      "epoch": 0.23078724301034984,
+      "grad_norm": 1.2993559837341309,
+      "learning_rate": 0.00029487802230393777,
+      "loss": 0.2574,
+      "step": 77
+    },
+    {
+      "epoch": 0.23378447993256216,
+      "grad_norm": 1.2781016826629639,
+      "learning_rate": 0.00029469792329175725,
+      "loss": 0.2978,
+      "step": 78
+    },
+    {
+      "epoch": 0.2367817168547745,
+      "grad_norm": 5.145886421203613,
+      "learning_rate": 0.0002945147758097187,
+      "loss": 0.3251,
+      "step": 79
+    },
+    {
+      "epoch": 0.23977895377698685,
+      "grad_norm": 5.573575019836426,
+      "learning_rate": 0.00029432858416259097,
+      "loss": 0.3483,
+      "step": 80
+    },
+    {
+      "epoch": 0.24277619069919917,
+      "grad_norm": 2.6032469272613525,
+      "learning_rate": 0.0002941393527266941,
+      "loss": 0.306,
+      "step": 81
+    },
+    {
+      "epoch": 0.24577342762141152,
+      "grad_norm": 0.6271111965179443,
+      "learning_rate": 0.00029394708594979657,
+      "loss": 0.318,
+      "step": 82
+    },
+    {
+      "epoch": 0.24877066454362384,
+      "grad_norm": 0.5439050793647766,
+      "learning_rate": 0.0002937517883510106,
+      "loss": 0.2547,
+      "step": 83
+    },
+    {
+      "epoch": 0.25176790146583616,
+      "grad_norm": 0.5188155770301819,
+      "learning_rate": 0.0002935534645206861,
+      "loss": 0.2402,
+      "step": 84
+    },
+    {
+      "epoch": 0.25476513838804854,
+      "grad_norm": 1.3832889795303345,
+      "learning_rate": 0.00029335211912030247,
+      "loss": 0.147,
+      "step": 85
+    },
+    {
+      "epoch": 0.25776237531026086,
+      "grad_norm": 0.20522421598434448,
+      "learning_rate": 0.0002931477568823596,
+      "loss": 0.0365,
+      "step": 86
+    },
+    {
+      "epoch": 0.2607596122324732,
+      "grad_norm": 0.07317493855953217,
+      "learning_rate": 0.00029294038261026595,
+      "loss": 0.0178,
+      "step": 87
+    },
+    {
+      "epoch": 0.2637568491546855,
+      "grad_norm": 5.754029273986816,
+      "learning_rate": 0.0002927300011782263,
+      "loss": 0.5049,
+      "step": 88
+    },
+    {
+      "epoch": 0.2667540860768979,
+      "grad_norm": 1.9069617986679077,
+      "learning_rate": 0.0002925166175311266,
+      "loss": 0.297,
+      "step": 89
+    },
+    {
+      "epoch": 0.2697513229991102,
+      "grad_norm": 1.4803589582443237,
+      "learning_rate": 0.0002923002366844182,
+      "loss": 0.2419,
+      "step": 90
+    },
+    {
+      "epoch": 0.2727485599213225,
+      "grad_norm": 1.1726033687591553,
+      "learning_rate": 0.0002920808637239998,
+      "loss": 0.2449,
+      "step": 91
+    },
+    {
+      "epoch": 0.27574579684353484,
+      "grad_norm": 1.1483900547027588,
+      "learning_rate": 0.00029185850380609757,
+      "loss": 0.2845,
+      "step": 92
+    },
+    {
+      "epoch": 0.2787430337657472,
+      "grad_norm": 0.6498438715934753,
+      "learning_rate": 0.00029163316215714477,
+      "loss": 0.3168,
+      "step": 93
+    },
+    {
+      "epoch": 0.28174027068795954,
+      "grad_norm": 3.8744821548461914,
+      "learning_rate": 0.00029140484407365807,
+      "loss": 0.3098,
+      "step": 94
+    },
+    {
+      "epoch": 0.28473750761017186,
+      "grad_norm": 5.238924026489258,
+      "learning_rate": 0.00029117355492211345,
+      "loss": 0.3747,
+      "step": 95
+    },
+    {
+      "epoch": 0.28773474453238423,
+      "grad_norm": 4.835148334503174,
+      "learning_rate": 0.0002909393001388201,
+      "loss": 0.311,
+      "step": 96
+    },
+    {
+      "epoch": 0.29073198145459656,
+      "grad_norm": 3.1126749515533447,
+      "learning_rate": 0.00029070208522979246,
+      "loss": 0.1933,
+      "step": 97
+    },
+    {
+      "epoch": 0.2937292183768089,
+      "grad_norm": 0.31741341948509216,
+      "learning_rate": 0.000290461915770621,
+      "loss": 0.0311,
+      "step": 98
+    },
+    {
+      "epoch": 0.2967264552990212,
+      "grad_norm": 0.13816803693771362,
+      "learning_rate": 0.00029021879740634106,
+      "loss": 0.0489,
+      "step": 99
+    },
+    {
+      "epoch": 0.2997236922212336,
+      "grad_norm": 0.16050726175308228,
+      "learning_rate": 0.0002899727358513002,
+      "loss": 0.0421,
+      "step": 100
+    },
+    {
+      "epoch": 0.2997236922212336,
+      "eval_loss": 0.14205443859100342,
+      "eval_runtime": 0.2881,
+      "eval_samples_per_second": 173.58,
+      "eval_steps_per_second": 45.131,
+      "step": 100
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 4.592226717086515e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null