Training in progress, step 88, checkpoint

Browse files

Files changed (8) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +278 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c4b99b6435bdbda33125afd7fe238d3ed28f782b15ba364c99d51263a904f084
 size 13587864

 version https://git-lfs.github.com/spec/v1
+oid sha256:7895063bc153429fb44800b2c3252440c135b7a6bc7fa23b3cc0f163c4638654
 size 13587864

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7638555db4d48919c88fa87a5bb83b47fb091a92f85aa1fe191201b7954aca4b
 size 27273018

 version https://git-lfs.github.com/spec/v1
+oid sha256:fcb0cda1ac662978d3072180eff8a5caa6bf351e8ed6212498565e562b3dc76f
 size 27273018

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4a11260a573a7e812b0f124ada989da776530c9fb5fbad96a536627e3c118a7e
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:4700b6487422ef8ab6e86454d16ee872c60505b20ded39d6a1b9e8be3d2168ab
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:446f393ad01ec616f7cc05c80366d751e89dbc85b76d83870c310e59e6c835f3
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:0bd443eb75c362a6b4a0030ef7f8a0b5f18deaf25f00080ceab6771adbb305bf
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:999c82ad0e9a3671d352858fcb74199f3c15fb5b86fff3307d5d249836ea915b
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:0ce5e023beb7bd14d822f65f919e0026ee018c9b2f1369b8ca98d304a04fb864
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5485f013c0be7e42efb4385ed27f58c1a8ab907eab8f5ae8c382b84b1a3d7c12
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:b8e7abd048f13572298538e3bfc0ceb6d606481ac0501f87d4647218380bab91
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f216e6b722b1c31e52ee2520a6fefbf2571d53970bd2683b508b5b2d9eb6051b
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:57777f406d2869170e5875b2991a1e3a92ec1440f7320c85a571752c42f8b802
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.11645537614822388,
   "best_model_checkpoint": "miner_id_24/checkpoint-50",
-  "epoch": 1.1429587482219061,
   "eval_steps": 25,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -381,6 +381,280 @@
       "eval_samples_per_second": 174.617,
       "eval_steps_per_second": 45.4,
       "step": 50
     }
   ],
   "logging_steps": 1,
@@ -404,12 +678,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 2.22140137734144e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.11645537614822388,
   "best_model_checkpoint": "miner_id_24/checkpoint-50",
+  "epoch": 2.012802275960171,
   "eval_steps": 25,
+  "global_step": 88,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 174.617,
       "eval_steps_per_second": 45.4,
       "step": 50
+    },
+    {
+      "epoch": 1.1657183499288761,
+      "grad_norm": 0.35609501600265503,
+      "learning_rate": 0.00013564692629648982,
+      "loss": 0.0858,
+      "step": 51
+    },
+    {
+      "epoch": 1.1884779516358464,
+      "grad_norm": 0.1918356865644455,
+      "learning_rate": 0.00013085399337712307,
+      "loss": 0.0959,
+      "step": 52
+    },
+    {
+      "epoch": 1.2112375533428166,
+      "grad_norm": 0.2323223352432251,
+      "learning_rate": 0.00012610662158569293,
+      "loss": 0.0919,
+      "step": 53
+    },
+    {
+      "epoch": 1.2339971550497866,
+      "grad_norm": 0.2522870600223541,
+      "learning_rate": 0.0001214111453558548,
+      "loss": 0.0706,
+      "step": 54
+    },
+    {
+      "epoch": 1.2567567567567568,
+      "grad_norm": 0.29997286200523376,
+      "learning_rate": 0.00011677382987684708,
+      "loss": 0.1814,
+      "step": 55
+    },
+    {
+      "epoch": 1.2795163584637268,
+      "grad_norm": 0.30940982699394226,
+      "learning_rate": 0.00011220086273382896,
+      "loss": 0.1421,
+      "step": 56
+    },
+    {
+      "epoch": 1.302275960170697,
+      "grad_norm": 0.37868553400039673,
+      "learning_rate": 0.00010769834565176498,
+      "loss": 0.1265,
+      "step": 57
+    },
+    {
+      "epoch": 1.3250355618776672,
+      "grad_norm": 0.23006294667720795,
+      "learning_rate": 0.0001032722863538738,
+      "loss": 0.1177,
+      "step": 58
+    },
+    {
+      "epoch": 1.3477951635846372,
+      "grad_norm": 0.26485735177993774,
+      "learning_rate": 9.892859054550347e-05,
+      "loss": 0.1212,
+      "step": 59
+    },
+    {
+      "epoch": 1.3705547652916075,
+      "grad_norm": 0.31136396527290344,
+      "learning_rate": 9.467305403412942e-05,
+      "loss": 0.1419,
+      "step": 60
+    },
+    {
+      "epoch": 1.3933143669985775,
+      "grad_norm": 0.2314603179693222,
+      "learning_rate": 9.05113549959898e-05,
+      "loss": 0.0957,
+      "step": 61
+    },
+    {
+      "epoch": 1.4160739687055477,
+      "grad_norm": 0.19551394879817963,
+      "learning_rate": 8.644904639967639e-05,
+      "loss": 0.0842,
+      "step": 62
+    },
+    {
+      "epoch": 1.438833570412518,
+      "grad_norm": 0.28223028779029846,
+      "learning_rate": 8.249154859679033e-05,
+      "loss": 0.0833,
+      "step": 63
+    },
+    {
+      "epoch": 1.461593172119488,
+      "grad_norm": 0.2497485727071762,
+      "learning_rate": 7.864414208954971e-05,
+      "loss": 0.0865,
+      "step": 64
+    },
+    {
+      "epoch": 1.484352773826458,
+      "grad_norm": 0.20309872925281525,
+      "learning_rate": 7.491196048499769e-05,
+      "loss": 0.0712,
+      "step": 65
+    },
+    {
+      "epoch": 1.5071123755334281,
+      "grad_norm": 0.33666595816612244,
+      "learning_rate": 7.12999836452144e-05,
+      "loss": 0.135,
+      "step": 66
+    },
+    {
+      "epoch": 1.5298719772403984,
+      "grad_norm": 0.24082504212856293,
+      "learning_rate": 6.781303104267059e-05,
+      "loss": 0.1203,
+      "step": 67
+    },
+    {
+      "epoch": 1.5526315789473686,
+      "grad_norm": 0.1645207554101944,
+      "learning_rate": 6.445575532958945e-05,
+      "loss": 0.0944,
+      "step": 68
+    },
+    {
+      "epoch": 1.5753911806543386,
+      "grad_norm": 0.1779041886329651,
+      "learning_rate": 6.123263612989815e-05,
+      "loss": 0.1227,
+      "step": 69
+    },
+    {
+      "epoch": 1.5981507823613086,
+      "grad_norm": 0.21718856692314148,
+      "learning_rate": 5.81479740620507e-05,
+      "loss": 0.1008,
+      "step": 70
+    },
+    {
+      "epoch": 1.6209103840682788,
+      "grad_norm": 0.23834489285945892,
+      "learning_rate": 5.520588500069867e-05,
+      "loss": 0.124,
+      "step": 71
+    },
+    {
+      "epoch": 1.643669985775249,
+      "grad_norm": 0.22460603713989258,
+      "learning_rate": 5.241029458486649e-05,
+      "loss": 0.0758,
+      "step": 72
+    },
+    {
+      "epoch": 1.666429587482219,
+      "grad_norm": 0.13075967133045197,
+      "learning_rate": 4.976493297995823e-05,
+      "loss": 0.0748,
+      "step": 73
+    },
+    {
+      "epoch": 1.689189189189189,
+      "grad_norm": 0.1683950275182724,
+      "learning_rate": 4.7273329900585954e-05,
+      "loss": 0.0806,
+      "step": 74
+    },
+    {
+      "epoch": 1.7119487908961593,
+      "grad_norm": 0.13967812061309814,
+      "learning_rate": 4.4938809900859955e-05,
+      "loss": 0.0732,
+      "step": 75
+    },
+    {
+      "epoch": 1.7119487908961593,
+      "eval_loss": 0.09383056312799454,
+      "eval_runtime": 0.284,
+      "eval_samples_per_second": 176.043,
+      "eval_steps_per_second": 45.771,
+      "step": 75
+    },
+    {
+      "epoch": 1.7347083926031295,
+      "grad_norm": 0.1622483730316162,
+      "learning_rate": 4.2764487938425205e-05,
+      "loss": 0.0564,
+      "step": 76
+    },
+    {
+      "epoch": 1.7574679943100997,
+      "grad_norm": 0.26513513922691345,
+      "learning_rate": 4.0753265218163486e-05,
+      "loss": 0.1552,
+      "step": 77
+    },
+    {
+      "epoch": 1.7802275960170697,
+      "grad_norm": 0.25839948654174805,
+      "learning_rate": 3.890782532110603e-05,
+      "loss": 0.1107,
+      "step": 78
+    },
+    {
+      "epoch": 1.8029871977240397,
+      "grad_norm": 0.24427573382854462,
+      "learning_rate": 3.7230630623722724e-05,
+      "loss": 0.1011,
+      "step": 79
+    },
+    {
+      "epoch": 1.82574679943101,
+      "grad_norm": 0.22686628997325897,
+      "learning_rate": 3.572391901236521e-05,
+      "loss": 0.1001,
+      "step": 80
+    },
+    {
+      "epoch": 1.8485064011379801,
+      "grad_norm": 0.15434470772743225,
+      "learning_rate": 3.4389700897247595e-05,
+      "loss": 0.0999,
+      "step": 81
+    },
+    {
+      "epoch": 1.8712660028449504,
+      "grad_norm": 0.15275193750858307,
+      "learning_rate": 3.322975652994985e-05,
+      "loss": 0.0832,
+      "step": 82
+    },
+    {
+      "epoch": 1.8940256045519204,
+      "grad_norm": 0.28379786014556885,
+      "learning_rate": 3.2245633628022074e-05,
+      "loss": 0.0678,
+      "step": 83
+    },
+    {
+      "epoch": 1.9167852062588904,
+      "grad_norm": 0.11858035624027252,
+      "learning_rate": 3.143864530986012e-05,
+      "loss": 0.071,
+      "step": 84
+    },
+    {
+      "epoch": 1.9395448079658606,
+      "grad_norm": 0.1222662478685379,
+      "learning_rate": 3.08098683426073e-05,
+      "loss": 0.0855,
+      "step": 85
+    },
+    {
+      "epoch": 1.9623044096728308,
+      "grad_norm": 0.2606646418571472,
+      "learning_rate": 3.0360141705420527e-05,
+      "loss": 0.0727,
+      "step": 86
+    },
+    {
+      "epoch": 1.9850640113798008,
+      "grad_norm": 0.21433259546756744,
+      "learning_rate": 3.009006547001768e-05,
+      "loss": 0.0841,
+      "step": 87
+    },
+    {
+      "epoch": 2.012802275960171,
+      "grad_norm": 0.21917670965194702,
+      "learning_rate": 2.9999999999999997e-05,
+      "loss": 0.1182,
+      "step": 88
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 3.909666424120934e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null