Training in progress, step 100, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +371 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ae9ba9b547939ac37d89d39643bdd24fa83b41190d3d961ce9f8cd9772fc8db8
 size 26008

 version https://git-lfs.github.com/spec/v1
+oid sha256:7944f994489c2c068d96de686b1a9bbdd82df3fbdf08abb6a3d9cbca897e2b02
 size 26008

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fe92470c12a81bf56dff271e123a691173f2dc1213285b95f5af406045732962
 size 68874

 version https://git-lfs.github.com/spec/v1
+oid sha256:ac5041f513a7e1aa815083325c3b84c35f2d04e9e3a751578591a38ac8532a4e
 size 68874

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e1b2b6530a288400ca76cf3eb6ef62afb57fa4cdafb523057742f17593a2df4c
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:e57b716a471d711e28da2c0c922e88640504f0c955233e3c3b5408b593a43eb6
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7ad2841b888ce0ae948634757c3fcacf0119c249e0fec8f3ca61ea266369ef92
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:c5d2a6c6aafc669cea03b9634666f204de949a3d45ce2f48a07e7e3eaf18c715
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 11.922983169555664,
-  "best_model_checkpoint": "miner_id_24/checkpoint-50",
-  "epoch": 0.015458339774308239,
   "eval_steps": 25,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -381,6 +381,372 @@
       "eval_samples_per_second": 160.278,
       "eval_steps_per_second": 22.439,
       "step": 50
     }
   ],
   "logging_steps": 1,
@@ -409,7 +775,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 79631155200.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 11.920659065246582,
+  "best_model_checkpoint": "miner_id_24/checkpoint-100",
+  "epoch": 0.030916679548616478,
   "eval_steps": 25,
+  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 160.278,
       "eval_steps_per_second": 22.439,
       "step": 50
+    },
+    {
+      "epoch": 0.015767506569794403,
+      "grad_norm": 0.031208673492074013,
+      "learning_rate": 0.0002668315918143169,
+      "loss": 11.9262,
+      "step": 51
+    },
+    {
+      "epoch": 0.01607667336528057,
+      "grad_norm": 0.0354318805038929,
+      "learning_rate": 0.00026526016662852886,
+      "loss": 11.9228,
+      "step": 52
+    },
+    {
+      "epoch": 0.016385840160766732,
+      "grad_norm": 0.030587337911128998,
+      "learning_rate": 0.00026365723046405023,
+      "loss": 11.9219,
+      "step": 53
+    },
+    {
+      "epoch": 0.016695006956252898,
+      "grad_norm": 0.03195672482252121,
+      "learning_rate": 0.0002620232215476231,
+      "loss": 11.9218,
+      "step": 54
+    },
+    {
+      "epoch": 0.017004173751739064,
+      "grad_norm": 0.0215512253344059,
+      "learning_rate": 0.0002603585866009697,
+      "loss": 11.9224,
+      "step": 55
+    },
+    {
+      "epoch": 0.017313340547225227,
+      "grad_norm": 0.022623790428042412,
+      "learning_rate": 0.00025866378071866334,
+      "loss": 11.9209,
+      "step": 56
+    },
+    {
+      "epoch": 0.017622507342711393,
+      "grad_norm": 0.01941165328025818,
+      "learning_rate": 0.00025693926724370956,
+      "loss": 11.9218,
+      "step": 57
+    },
+    {
+      "epoch": 0.01793167413819756,
+      "grad_norm": 0.026768945157527924,
+      "learning_rate": 0.00025518551764087326,
+      "loss": 11.9228,
+      "step": 58
+    },
+    {
+      "epoch": 0.018240840933683722,
+      "grad_norm": 0.02009095624089241,
+      "learning_rate": 0.00025340301136778483,
+      "loss": 11.9226,
+      "step": 59
+    },
+    {
+      "epoch": 0.018550007729169888,
+      "grad_norm": 0.025961967185139656,
+      "learning_rate": 0.00025159223574386114,
+      "loss": 11.9202,
+      "step": 60
+    },
+    {
+      "epoch": 0.01885917452465605,
+      "grad_norm": 0.018053073436021805,
+      "learning_rate": 0.0002497536858170772,
+      "loss": 11.9212,
+      "step": 61
+    },
+    {
+      "epoch": 0.019168341320142217,
+      "grad_norm": 0.018706616014242172,
+      "learning_rate": 0.00024788786422862526,
+      "loss": 11.921,
+      "step": 62
+    },
+    {
+      "epoch": 0.019477508115628383,
+      "grad_norm": 0.01734154112637043,
+      "learning_rate": 0.00024599528107549745,
+      "loss": 11.9215,
+      "step": 63
+    },
+    {
+      "epoch": 0.019786674911114546,
+      "grad_norm": 0.0244760625064373,
+      "learning_rate": 0.00024407645377103054,
+      "loss": 11.9225,
+      "step": 64
+    },
+    {
+      "epoch": 0.02009584170660071,
+      "grad_norm": 0.021497942507267,
+      "learning_rate": 0.00024213190690345018,
+      "loss": 11.9235,
+      "step": 65
+    },
+    {
+      "epoch": 0.020405008502086874,
+      "grad_norm": 0.02055254578590393,
+      "learning_rate": 0.00024016217209245374,
+      "loss": 11.9207,
+      "step": 66
+    },
+    {
+      "epoch": 0.02071417529757304,
+      "grad_norm": 0.012986048124730587,
+      "learning_rate": 0.00023816778784387094,
+      "loss": 11.9197,
+      "step": 67
+    },
+    {
+      "epoch": 0.021023342093059207,
+      "grad_norm": 0.018432628363370895,
+      "learning_rate": 0.0002361492994024415,
+      "loss": 11.9214,
+      "step": 68
+    },
+    {
+      "epoch": 0.02133250888854537,
+      "grad_norm": 0.019169418141245842,
+      "learning_rate": 0.0002341072586027509,
+      "loss": 11.9201,
+      "step": 69
+    },
+    {
+      "epoch": 0.021641675684031535,
+      "grad_norm": 0.013602902181446552,
+      "learning_rate": 0.00023204222371836405,
+      "loss": 11.9208,
+      "step": 70
+    },
+    {
+      "epoch": 0.0219508424795177,
+      "grad_norm": 0.018773363903164864,
+      "learning_rate": 0.00022995475930919905,
+      "loss": 11.9222,
+      "step": 71
+    },
+    {
+      "epoch": 0.022260009275003864,
+      "grad_norm": 0.01886664144694805,
+      "learning_rate": 0.00022784543606718227,
+      "loss": 11.9218,
+      "step": 72
+    },
+    {
+      "epoch": 0.02256917607049003,
+      "grad_norm": 0.03048502467572689,
+      "learning_rate": 0.00022571483066022657,
+      "loss": 11.9205,
+      "step": 73
+    },
+    {
+      "epoch": 0.022878342865976193,
+      "grad_norm": 0.024672266095876694,
+      "learning_rate": 0.0002235635255745762,
+      "loss": 11.9238,
+      "step": 74
+    },
+    {
+      "epoch": 0.02318750966146236,
+      "grad_norm": 0.015406430698931217,
+      "learning_rate": 0.00022139210895556104,
+      "loss": 11.9207,
+      "step": 75
+    },
+    {
+      "epoch": 0.02318750966146236,
+      "eval_loss": 11.921063423156738,
+      "eval_runtime": 0.3135,
+      "eval_samples_per_second": 159.472,
+      "eval_steps_per_second": 22.326,
+      "step": 75
+    },
+    {
+      "epoch": 0.023496676456948525,
+      "grad_norm": 0.018032951280474663,
+      "learning_rate": 0.00021920117444680317,
+      "loss": 11.9235,
+      "step": 76
+    },
+    {
+      "epoch": 0.023805843252434688,
+      "grad_norm": 0.01647859252989292,
+      "learning_rate": 0.00021699132102792097,
+      "loss": 11.923,
+      "step": 77
+    },
+    {
+      "epoch": 0.024115010047920854,
+      "grad_norm": 0.019747408106923103,
+      "learning_rate": 0.0002147631528507739,
+      "loss": 11.922,
+      "step": 78
+    },
+    {
+      "epoch": 0.024424176843407017,
+      "grad_norm": 0.01621292717754841,
+      "learning_rate": 0.00021251727907429355,
+      "loss": 11.9214,
+      "step": 79
+    },
+    {
+      "epoch": 0.024733343638893183,
+      "grad_norm": 0.02479792758822441,
+      "learning_rate": 0.0002102543136979454,
+      "loss": 11.9244,
+      "step": 80
+    },
+    {
+      "epoch": 0.02504251043437935,
+      "grad_norm": 0.014410406351089478,
+      "learning_rate": 0.0002079748753938678,
+      "loss": 11.9194,
+      "step": 81
+    },
+    {
+      "epoch": 0.02535167722986551,
+      "grad_norm": 0.021437469869852066,
+      "learning_rate": 0.0002056795873377331,
+      "loss": 11.9216,
+      "step": 82
+    },
+    {
+      "epoch": 0.025660844025351678,
+      "grad_norm": 0.019916469231247902,
+      "learning_rate": 0.00020336907703837748,
+      "loss": 11.9208,
+      "step": 83
+    },
+    {
+      "epoch": 0.02597001082083784,
+      "grad_norm": 0.012713909149169922,
+      "learning_rate": 0.00020104397616624645,
+      "loss": 11.9202,
+      "step": 84
+    },
+    {
+      "epoch": 0.026279177616324007,
+      "grad_norm": 0.013600163161754608,
+      "learning_rate": 0.00019870492038070252,
+      "loss": 11.9218,
+      "step": 85
+    },
+    {
+      "epoch": 0.026588344411810173,
+      "grad_norm": 0.01585683971643448,
+      "learning_rate": 0.0001963525491562421,
+      "loss": 11.9209,
+      "step": 86
+    },
+    {
+      "epoch": 0.026897511207296335,
+      "grad_norm": 0.01941349171102047,
+      "learning_rate": 0.0001939875056076697,
+      "loss": 11.9209,
+      "step": 87
+    },
+    {
+      "epoch": 0.0272066780027825,
+      "grad_norm": 0.0167936310172081,
+      "learning_rate": 0.00019161043631427666,
+      "loss": 11.9213,
+      "step": 88
+    },
+    {
+      "epoch": 0.027515844798268668,
+      "grad_norm": 0.01990320347249508,
+      "learning_rate": 0.00018922199114307294,
+      "loss": 11.9225,
+      "step": 89
+    },
+    {
+      "epoch": 0.02782501159375483,
+      "grad_norm": 0.01512246485799551,
+      "learning_rate": 0.00018682282307111987,
+      "loss": 11.9201,
+      "step": 90
+    },
+    {
+      "epoch": 0.028134178389240996,
+      "grad_norm": 0.015815284103155136,
+      "learning_rate": 0.00018441358800701273,
+      "loss": 11.9207,
+      "step": 91
+    },
+    {
+      "epoch": 0.02844334518472716,
+      "grad_norm": 0.01741873286664486,
+      "learning_rate": 0.00018199494461156203,
+      "loss": 11.9188,
+      "step": 92
+    },
+    {
+      "epoch": 0.028752511980213325,
+      "grad_norm": 0.013978100381791592,
+      "learning_rate": 0.000179567554117722,
+      "loss": 11.9198,
+      "step": 93
+    },
+    {
+      "epoch": 0.02906167877569949,
+      "grad_norm": 0.022170469164848328,
+      "learning_rate": 0.00017713208014981648,
+      "loss": 11.9207,
+      "step": 94
+    },
+    {
+      "epoch": 0.029370845571185654,
+      "grad_norm": 0.020483536645770073,
+      "learning_rate": 0.00017468918854211007,
+      "loss": 11.9209,
+      "step": 95
+    },
+    {
+      "epoch": 0.02968001236667182,
+      "grad_norm": 0.015020486898720264,
+      "learning_rate": 0.00017223954715677627,
+      "loss": 11.9203,
+      "step": 96
+    },
+    {
+      "epoch": 0.029989179162157983,
+      "grad_norm": 0.023938920348882675,
+      "learning_rate": 0.00016978382570131034,
+      "loss": 11.9204,
+      "step": 97
+    },
+    {
+      "epoch": 0.03029834595764415,
+      "grad_norm": 0.01607600599527359,
+      "learning_rate": 0.00016732269554543794,
+      "loss": 11.9194,
+      "step": 98
+    },
+    {
+      "epoch": 0.030607512753130315,
+      "grad_norm": 0.019864091649651527,
+      "learning_rate": 0.00016485682953756942,
+      "loss": 11.9219,
+      "step": 99
+    },
+    {
+      "epoch": 0.030916679548616478,
+      "grad_norm": 0.036099571734666824,
+      "learning_rate": 0.00016238690182084986,
+      "loss": 11.9224,
+      "step": 100
+    },
+    {
+      "epoch": 0.030916679548616478,
+      "eval_loss": 11.920659065246582,
+      "eval_runtime": 0.3122,
+      "eval_samples_per_second": 160.146,
+      "eval_steps_per_second": 22.42,
+      "step": 100
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 159262310400.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null