{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 3.0035087719298246,
  "eval_steps": 36,
  "global_step": 428,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.007017543859649123,
      "eval_loss": 0.6692813038825989,
      "eval_runtime": 46.9815,
      "eval_samples_per_second": 5.108,
      "eval_steps_per_second": 0.639,
      "step": 1
    },
    {
      "epoch": 0.021052631578947368,
      "grad_norm": 9.726601600646973,
      "learning_rate": 1.5e-05,
      "loss": 2.4103,
      "step": 3
    },
    {
      "epoch": 0.042105263157894736,
      "grad_norm": 6.305670738220215,
      "learning_rate": 3e-05,
      "loss": 2.7525,
      "step": 6
    },
    {
      "epoch": 0.06315789473684211,
      "grad_norm": 4.551560401916504,
      "learning_rate": 4.5e-05,
      "loss": 2.5999,
      "step": 9
    },
    {
      "epoch": 0.08421052631578947,
      "grad_norm": 4.885453701019287,
      "learning_rate": 4.999717571181742e-05,
      "loss": 2.2257,
      "step": 12
    },
    {
      "epoch": 0.10526315789473684,
      "grad_norm": 4.619503498077393,
      "learning_rate": 4.998234994371135e-05,
      "loss": 2.0927,
      "step": 15
    },
    {
      "epoch": 0.12631578947368421,
      "grad_norm": 4.877598285675049,
      "learning_rate": 4.995482415049123e-05,
      "loss": 2.3476,
      "step": 18
    },
    {
      "epoch": 0.14736842105263157,
      "grad_norm": 6.852722644805908,
      "learning_rate": 4.991461232516675e-05,
      "loss": 2.028,
      "step": 21
    },
    {
      "epoch": 0.16842105263157894,
      "grad_norm": 6.002420902252197,
      "learning_rate": 4.986173490981773e-05,
      "loss": 1.6801,
      "step": 24
    },
    {
      "epoch": 0.18947368421052632,
      "grad_norm": 5.471989631652832,
      "learning_rate": 4.979621878520216e-05,
      "loss": 1.4341,
      "step": 27
    },
    {
      "epoch": 0.21052631578947367,
      "grad_norm": 5.2608489990234375,
      "learning_rate": 4.971809725709112e-05,
      "loss": 1.8805,
      "step": 30
    },
    {
      "epoch": 0.23157894736842105,
      "grad_norm": 3.3612749576568604,
      "learning_rate": 4.962741003933742e-05,
      "loss": 1.6929,
      "step": 33
    },
    {
      "epoch": 0.25263157894736843,
      "grad_norm": 4.646411895751953,
      "learning_rate": 4.952420323368673e-05,
      "loss": 1.5576,
      "step": 36
    },
    {
      "epoch": 0.25263157894736843,
      "eval_loss": 0.37584158778190613,
      "eval_runtime": 47.717,
      "eval_samples_per_second": 5.03,
      "eval_steps_per_second": 0.629,
      "step": 36
    },
    {
      "epoch": 0.2736842105263158,
      "grad_norm": 4.316969394683838,
      "learning_rate": 4.9408529306341255e-05,
      "loss": 1.8731,
      "step": 39
    },
    {
      "epoch": 0.29473684210526313,
      "grad_norm": 4.682113170623779,
      "learning_rate": 4.928044706128803e-05,
      "loss": 1.8301,
      "step": 42
    },
    {
      "epoch": 0.3157894736842105,
      "grad_norm": 3.629147529602051,
      "learning_rate": 4.9140021610405326e-05,
      "loss": 1.2944,
      "step": 45
    },
    {
      "epoch": 0.3368421052631579,
      "grad_norm": 7.077390193939209,
      "learning_rate": 4.898732434036244e-05,
      "loss": 2.0447,
      "step": 48
    },
    {
      "epoch": 0.35789473684210527,
      "grad_norm": 4.48635196685791,
      "learning_rate": 4.882243287632947e-05,
      "loss": 1.4274,
      "step": 51
    },
    {
      "epoch": 0.37894736842105264,
      "grad_norm": 4.4893388748168945,
      "learning_rate": 4.864543104251587e-05,
      "loss": 1.7248,
      "step": 54
    },
    {
      "epoch": 0.4,
      "grad_norm": 5.431076526641846,
      "learning_rate": 4.8456408819557564e-05,
      "loss": 1.6822,
      "step": 57
    },
    {
      "epoch": 0.42105263157894735,
      "grad_norm": 3.690011501312256,
      "learning_rate": 4.825546229877439e-05,
      "loss": 1.7077,
      "step": 60
    },
    {
      "epoch": 0.4421052631578947,
      "grad_norm": 5.592578411102295,
      "learning_rate": 4.804269363332112e-05,
      "loss": 1.836,
      "step": 63
    },
    {
      "epoch": 0.4631578947368421,
      "grad_norm": 5.439390182495117,
      "learning_rate": 4.78182109862569e-05,
      "loss": 1.2283,
      "step": 66
    },
    {
      "epoch": 0.4842105263157895,
      "grad_norm": 4.344250202178955,
      "learning_rate": 4.758212847555953e-05,
      "loss": 1.6078,
      "step": 69
    },
    {
      "epoch": 0.5052631578947369,
      "grad_norm": 5.0562825202941895,
      "learning_rate": 4.733456611611233e-05,
      "loss": 1.858,
      "step": 72
    },
    {
      "epoch": 0.5052631578947369,
      "eval_loss": 0.3427739441394806,
      "eval_runtime": 47.7477,
      "eval_samples_per_second": 5.026,
      "eval_steps_per_second": 0.628,
      "step": 72
    },
    {
      "epoch": 0.5263157894736842,
      "grad_norm": 4.3865838050842285,
      "learning_rate": 4.7075649758693565e-05,
      "loss": 1.2519,
      "step": 75
    },
    {
      "epoch": 0.5473684210526316,
      "grad_norm": 2.8480889797210693,
      "learning_rate": 4.68055110259988e-05,
      "loss": 1.6193,
      "step": 78
    },
    {
      "epoch": 0.5684210526315789,
      "grad_norm": 3.4718546867370605,
      "learning_rate": 4.6524287245729295e-05,
      "loss": 1.4091,
      "step": 81
    },
    {
      "epoch": 0.5894736842105263,
      "grad_norm": 4.449820041656494,
      "learning_rate": 4.6232121380780034e-05,
      "loss": 1.484,
      "step": 84
    },
    {
      "epoch": 0.6105263157894737,
      "grad_norm": 3.7628002166748047,
      "learning_rate": 4.592916195656322e-05,
      "loss": 1.3605,
      "step": 87
    },
    {
      "epoch": 0.631578947368421,
      "grad_norm": 3.6203603744506836,
      "learning_rate": 4.561556298550379e-05,
      "loss": 1.4026,
      "step": 90
    },
    {
      "epoch": 0.6526315789473685,
      "grad_norm": 3.6984612941741943,
      "learning_rate": 4.529148388874577e-05,
      "loss": 1.1724,
      "step": 93
    },
    {
      "epoch": 0.6736842105263158,
      "grad_norm": 3.412766933441162,
      "learning_rate": 4.49570894151089e-05,
      "loss": 1.5515,
      "step": 96
    },
    {
      "epoch": 0.6947368421052632,
      "grad_norm": 2.684919595718384,
      "learning_rate": 4.4612549557336974e-05,
      "loss": 1.2596,
      "step": 99
    },
    {
      "epoch": 0.7157894736842105,
      "grad_norm": 4.008241176605225,
      "learning_rate": 4.4258039465680326e-05,
      "loss": 1.1391,
      "step": 102
    },
    {
      "epoch": 0.7368421052631579,
      "grad_norm": 4.187386989593506,
      "learning_rate": 4.389373935885646e-05,
      "loss": 1.1588,
      "step": 105
    },
    {
      "epoch": 0.7578947368421053,
      "grad_norm": 4.869933605194092,
      "learning_rate": 4.351983443243409e-05,
      "loss": 1.5655,
      "step": 108
    },
    {
      "epoch": 0.7578947368421053,
      "eval_loss": 0.322973370552063,
      "eval_runtime": 47.6997,
      "eval_samples_per_second": 5.031,
      "eval_steps_per_second": 0.629,
      "step": 108
    },
    {
      "epoch": 0.7789473684210526,
      "grad_norm": 3.7822816371917725,
      "learning_rate": 4.313651476468715e-05,
      "loss": 1.5809,
      "step": 111
    },
    {
      "epoch": 0.8,
      "grad_norm": 2.936788320541382,
      "learning_rate": 4.274397521996658e-05,
      "loss": 1.0463,
      "step": 114
    },
    {
      "epoch": 0.8210526315789474,
      "grad_norm": 4.922979831695557,
      "learning_rate": 4.234241534963916e-05,
      "loss": 1.2287,
      "step": 117
    },
    {
      "epoch": 0.8421052631578947,
      "grad_norm": 5.986371040344238,
      "learning_rate": 4.193203929064353e-05,
      "loss": 1.3477,
      "step": 120
    },
    {
      "epoch": 0.8631578947368421,
      "grad_norm": 3.4700145721435547,
      "learning_rate": 4.1513055661715214e-05,
      "loss": 0.9548,
      "step": 123
    },
    {
      "epoch": 0.8842105263157894,
      "grad_norm": 4.394268035888672,
      "learning_rate": 4.108567745733318e-05,
      "loss": 1.2286,
      "step": 126
    },
    {
      "epoch": 0.9052631578947369,
      "grad_norm": 4.035145282745361,
      "learning_rate": 4.065012193944201e-05,
      "loss": 1.1731,
      "step": 129
    },
    {
      "epoch": 0.9263157894736842,
      "grad_norm": 3.933317184448242,
      "learning_rate": 4.020661052700461e-05,
      "loss": 1.6722,
      "step": 132
    },
    {
      "epoch": 0.9473684210526315,
      "grad_norm": 3.2603344917297363,
      "learning_rate": 3.9755368683441735e-05,
      "loss": 1.3816,
      "step": 135
    },
    {
      "epoch": 0.968421052631579,
      "grad_norm": 6.198463439941406,
      "learning_rate": 3.9296625802015356e-05,
      "loss": 1.2843,
      "step": 138
    },
    {
      "epoch": 0.9894736842105263,
      "grad_norm": 4.392797470092773,
      "learning_rate": 3.883061508921439e-05,
      "loss": 1.5944,
      "step": 141
    },
    {
      "epoch": 1.0105263157894737,
      "grad_norm": 3.6408369541168213,
      "learning_rate": 3.8357573446201825e-05,
      "loss": 1.1528,
      "step": 144
    },
    {
      "epoch": 1.0105263157894737,
      "eval_loss": 0.31307944655418396,
      "eval_runtime": 47.7481,
      "eval_samples_per_second": 5.026,
      "eval_steps_per_second": 0.628,
      "step": 144
    },
    {
      "epoch": 1.0315789473684212,
      "grad_norm": 3.727839946746826,
      "learning_rate": 3.78777413483837e-05,
      "loss": 1.3407,
      "step": 147
    },
    {
      "epoch": 1.0526315789473684,
      "grad_norm": 4.318253517150879,
      "learning_rate": 3.739136272316102e-05,
      "loss": 1.274,
      "step": 150
    },
    {
      "epoch": 1.0736842105263158,
      "grad_norm": 3.0407471656799316,
      "learning_rate": 3.689868482592684e-05,
      "loss": 1.0978,
      "step": 153
    },
    {
      "epoch": 1.0947368421052632,
      "grad_norm": 3.2110660076141357,
      "learning_rate": 3.6399958114371595e-05,
      "loss": 0.9378,
      "step": 156
    },
    {
      "epoch": 1.1157894736842104,
      "grad_norm": 4.471799373626709,
      "learning_rate": 3.5895436121160386e-05,
      "loss": 1.334,
      "step": 159
    },
    {
      "epoch": 1.1368421052631579,
      "grad_norm": 2.7536613941192627,
      "learning_rate": 3.5385375325047166e-05,
      "loss": 1.5206,
      "step": 162
    },
    {
      "epoch": 1.1578947368421053,
      "grad_norm": 3.1631388664245605,
      "learning_rate": 3.487003502049122e-05,
      "loss": 0.9874,
      "step": 165
    },
    {
      "epoch": 1.1789473684210527,
      "grad_norm": 3.0744566917419434,
      "learning_rate": 3.4349677185842245e-05,
      "loss": 1.2542,
      "step": 168
    },
    {
      "epoch": 1.2,
      "grad_norm": 3.199769973754883,
      "learning_rate": 3.38245663501611e-05,
      "loss": 1.0781,
      "step": 171
    },
    {
      "epoch": 1.2210526315789474,
      "grad_norm": 3.3641140460968018,
      "learning_rate": 3.32949694587438e-05,
      "loss": 1.0915,
      "step": 174
    },
    {
      "epoch": 1.2421052631578948,
      "grad_norm": 2.533961057662964,
      "learning_rate": 3.276115573741724e-05,
      "loss": 1.2862,
      "step": 177
    },
    {
      "epoch": 1.263157894736842,
      "grad_norm": 4.081838130950928,
      "learning_rate": 3.222339655567556e-05,
      "loss": 1.2205,
      "step": 180
    },
    {
      "epoch": 1.263157894736842,
      "eval_loss": 0.3107610046863556,
      "eval_runtime": 47.7384,
      "eval_samples_per_second": 5.027,
      "eval_steps_per_second": 0.628,
      "step": 180
    },
    {
      "epoch": 1.2842105263157895,
      "grad_norm": 2.3932526111602783,
      "learning_rate": 3.168196528872682e-05,
      "loss": 1.0431,
      "step": 183
    },
    {
      "epoch": 1.305263157894737,
      "grad_norm": 2.7691686153411865,
      "learning_rate": 3.1137137178519985e-05,
      "loss": 1.314,
      "step": 186
    },
    {
      "epoch": 1.3263157894736843,
      "grad_norm": 3.8344638347625732,
      "learning_rate": 3.0589189193822895e-05,
      "loss": 0.8119,
      "step": 189
    },
    {
      "epoch": 1.3473684210526315,
      "grad_norm": 4.127139568328857,
      "learning_rate": 3.0038399889422553e-05,
      "loss": 1.1671,
      "step": 192
    },
    {
      "epoch": 1.368421052631579,
      "grad_norm": 3.597393035888672,
      "learning_rate": 2.948504926451896e-05,
      "loss": 1.4459,
      "step": 195
    },
    {
      "epoch": 1.3894736842105262,
      "grad_norm": 3.0417675971984863,
      "learning_rate": 2.8929418620384753e-05,
      "loss": 1.0606,
      "step": 198
    },
    {
      "epoch": 1.4105263157894736,
      "grad_norm": 4.269920825958252,
      "learning_rate": 2.8371790417362987e-05,
      "loss": 0.8091,
      "step": 201
    },
    {
      "epoch": 1.431578947368421,
      "grad_norm": 4.4791789054870605,
      "learning_rate": 2.781244813127552e-05,
      "loss": 1.4956,
      "step": 204
    },
    {
      "epoch": 1.4526315789473685,
      "grad_norm": 4.570736885070801,
      "learning_rate": 2.7251676109315338e-05,
      "loss": 0.791,
      "step": 207
    },
    {
      "epoch": 1.4736842105263157,
      "grad_norm": 4.790010929107666,
      "learning_rate": 2.668975942549583e-05,
      "loss": 1.2485,
      "step": 210
    },
    {
      "epoch": 1.4947368421052631,
      "grad_norm": 3.679155111312866,
      "learning_rate": 2.612698373573056e-05,
      "loss": 0.9622,
      "step": 213
    },
    {
      "epoch": 1.5157894736842106,
      "grad_norm": 3.991124153137207,
      "learning_rate": 2.5563635132617302e-05,
      "loss": 0.7821,
      "step": 216
    },
    {
      "epoch": 1.5157894736842106,
      "eval_loss": 0.30537185072898865,
      "eval_runtime": 47.7614,
      "eval_samples_per_second": 5.025,
      "eval_steps_per_second": 0.628,
      "step": 216
    },
    {
      "epoch": 1.5368421052631578,
      "grad_norm": 5.918197154998779,
      "learning_rate": 2.5e-05,
      "loss": 0.7552,
      "step": 219
    },
    {
      "epoch": 1.5578947368421052,
      "grad_norm": 6.4377241134643555,
      "learning_rate": 2.44363648673827e-05,
      "loss": 1.13,
      "step": 222
    },
    {
      "epoch": 1.5789473684210527,
      "grad_norm": 3.93595814704895,
      "learning_rate": 2.387301626426944e-05,
      "loss": 0.9218,
      "step": 225
    },
    {
      "epoch": 1.6,
      "grad_norm": 5.706233978271484,
      "learning_rate": 2.3310240574504185e-05,
      "loss": 1.1022,
      "step": 228
    },
    {
      "epoch": 1.6210526315789475,
      "grad_norm": 2.740601062774658,
      "learning_rate": 2.2748323890684665e-05,
      "loss": 1.2584,
      "step": 231
    },
    {
      "epoch": 1.6421052631578947,
      "grad_norm": 4.44104528427124,
      "learning_rate": 2.2187551868724485e-05,
      "loss": 1.0941,
      "step": 234
    },
    {
      "epoch": 1.663157894736842,
      "grad_norm": 4.569465160369873,
      "learning_rate": 2.1628209582637022e-05,
      "loss": 1.1554,
      "step": 237
    },
    {
      "epoch": 1.6842105263157894,
      "grad_norm": 4.33217191696167,
      "learning_rate": 2.1070581379615253e-05,
      "loss": 0.5728,
      "step": 240
    },
    {
      "epoch": 1.7052631578947368,
      "grad_norm": 4.296968936920166,
      "learning_rate": 2.0514950735481052e-05,
      "loss": 1.0808,
      "step": 243
    },
    {
      "epoch": 1.7263157894736842,
      "grad_norm": 3.474714994430542,
      "learning_rate": 1.9961600110577456e-05,
      "loss": 1.2945,
      "step": 246
    },
    {
      "epoch": 1.7473684210526317,
      "grad_norm": 3.817056655883789,
      "learning_rate": 1.9410810806177104e-05,
      "loss": 1.4233,
      "step": 249
    },
    {
      "epoch": 1.768421052631579,
      "grad_norm": 3.0018868446350098,
      "learning_rate": 1.8862862821480025e-05,
      "loss": 1.0385,
      "step": 252
    },
    {
      "epoch": 1.768421052631579,
      "eval_loss": 0.3030892610549927,
      "eval_runtime": 47.7428,
      "eval_samples_per_second": 5.027,
      "eval_steps_per_second": 0.628,
      "step": 252
    },
    {
      "epoch": 1.7894736842105263,
      "grad_norm": 3.522315502166748,
      "learning_rate": 1.831803471127318e-05,
      "loss": 1.1658,
      "step": 255
    },
    {
      "epoch": 1.8105263157894735,
      "grad_norm": 3.5018210411071777,
      "learning_rate": 1.7776603444324445e-05,
      "loss": 1.0903,
      "step": 258
    },
    {
      "epoch": 1.831578947368421,
      "grad_norm": 4.468841552734375,
      "learning_rate": 1.723884426258277e-05,
      "loss": 1.1171,
      "step": 261
    },
    {
      "epoch": 1.8526315789473684,
      "grad_norm": 3.999666452407837,
      "learning_rate": 1.670503054125621e-05,
      "loss": 1.2162,
      "step": 264
    },
    {
      "epoch": 1.8736842105263158,
      "grad_norm": 3.463674783706665,
      "learning_rate": 1.61754336498389e-05,
      "loss": 0.8498,
      "step": 267
    },
    {
      "epoch": 1.8947368421052633,
      "grad_norm": 3.4514553546905518,
      "learning_rate": 1.5650322814157764e-05,
      "loss": 1.2623,
      "step": 270
    },
    {
      "epoch": 1.9157894736842105,
      "grad_norm": 3.6156108379364014,
      "learning_rate": 1.5129964979508792e-05,
      "loss": 0.8503,
      "step": 273
    },
    {
      "epoch": 1.936842105263158,
      "grad_norm": 3.3259615898132324,
      "learning_rate": 1.4614624674952842e-05,
      "loss": 0.9937,
      "step": 276
    },
    {
      "epoch": 1.9578947368421051,
      "grad_norm": 5.9854230880737305,
      "learning_rate": 1.4104563878839621e-05,
      "loss": 0.9689,
      "step": 279
    },
    {
      "epoch": 1.9789473684210526,
      "grad_norm": 2.22936749458313,
      "learning_rate": 1.3600041885628409e-05,
      "loss": 0.9137,
      "step": 282
    },
    {
      "epoch": 2.0,
      "grad_norm": 3.004664897918701,
      "learning_rate": 1.3101315174073162e-05,
      "loss": 0.6448,
      "step": 285
    },
    {
      "epoch": 2.0210526315789474,
      "grad_norm": 6.208250522613525,
      "learning_rate": 1.2608637276838986e-05,
      "loss": 1.319,
      "step": 288
    },
    {
      "epoch": 2.0210526315789474,
      "eval_loss": 0.30173683166503906,
      "eval_runtime": 47.7589,
      "eval_samples_per_second": 5.025,
      "eval_steps_per_second": 0.628,
      "step": 288
    },
    {
      "epoch": 2.042105263157895,
      "grad_norm": 2.969910144805908,
      "learning_rate": 1.2122258651616306e-05,
      "loss": 0.8383,
      "step": 291
    },
    {
      "epoch": 2.0631578947368423,
      "grad_norm": 2.5157318115234375,
      "learning_rate": 1.1642426553798174e-05,
      "loss": 0.7519,
      "step": 294
    },
    {
      "epoch": 2.0842105263157893,
      "grad_norm": 3.564941167831421,
      "learning_rate": 1.1169384910785614e-05,
      "loss": 0.5701,
      "step": 297
    },
    {
      "epoch": 2.1052631578947367,
      "grad_norm": 3.544473886489868,
      "learning_rate": 1.0703374197984653e-05,
      "loss": 0.7366,
      "step": 300
    },
    {
      "epoch": 2.126315789473684,
      "grad_norm": 2.952383041381836,
      "learning_rate": 1.0244631316558267e-05,
      "loss": 0.6928,
      "step": 303
    },
    {
      "epoch": 2.1473684210526316,
      "grad_norm": 3.4289209842681885,
      "learning_rate": 9.793389472995393e-06,
      "loss": 0.7361,
      "step": 306
    },
    {
      "epoch": 2.168421052631579,
      "grad_norm": 3.7741119861602783,
      "learning_rate": 9.349878060557999e-06,
      "loss": 0.7777,
      "step": 309
    },
    {
      "epoch": 2.1894736842105265,
      "grad_norm": 4.074053764343262,
      "learning_rate": 8.914322542666822e-06,
      "loss": 0.9209,
      "step": 312
    },
    {
      "epoch": 2.2105263157894735,
      "grad_norm": 4.839679718017578,
      "learning_rate": 8.486944338284797e-06,
      "loss": 0.937,
      "step": 315
    },
    {
      "epoch": 2.231578947368421,
      "grad_norm": 3.5984749794006348,
      "learning_rate": 8.067960709356478e-06,
      "loss": 1.0567,
      "step": 318
    },
    {
      "epoch": 2.2526315789473683,
      "grad_norm": 4.226260185241699,
      "learning_rate": 7.657584650360847e-06,
      "loss": 0.8969,
      "step": 321
    },
    {
      "epoch": 2.2736842105263158,
      "grad_norm": 2.624924421310425,
      "learning_rate": 7.256024780033418e-06,
      "loss": 0.7665,
      "step": 324
    },
    {
      "epoch": 2.2736842105263158,
      "eval_loss": 0.3099728524684906,
      "eval_runtime": 47.753,
      "eval_samples_per_second": 5.026,
      "eval_steps_per_second": 0.628,
      "step": 324
    },
    {
      "epoch": 2.294736842105263,
      "grad_norm": 3.7707293033599854,
      "learning_rate": 6.863485235312853e-06,
      "loss": 0.7157,
      "step": 327
    },
    {
      "epoch": 2.3157894736842106,
      "grad_norm": 3.5063211917877197,
      "learning_rate": 6.480165567565913e-06,
      "loss": 0.7941,
      "step": 330
    },
    {
      "epoch": 2.336842105263158,
      "grad_norm": 5.289640426635742,
      "learning_rate": 6.106260641143546e-06,
      "loss": 1.022,
      "step": 333
    },
    {
      "epoch": 2.3578947368421055,
      "grad_norm": 3.4733479022979736,
      "learning_rate": 5.741960534319677e-06,
      "loss": 0.8732,
      "step": 336
    },
    {
      "epoch": 2.3789473684210525,
      "grad_norm": 2.74438214302063,
      "learning_rate": 5.387450442663025e-06,
      "loss": 0.488,
      "step": 339
    },
    {
      "epoch": 2.4,
      "grad_norm": 3.423187732696533,
      "learning_rate": 5.0429105848911e-06,
      "loss": 1.0244,
      "step": 342
    },
    {
      "epoch": 2.4210526315789473,
      "grad_norm": 3.875284194946289,
      "learning_rate": 4.708516111254238e-06,
      "loss": 0.9071,
      "step": 345
    },
    {
      "epoch": 2.442105263157895,
      "grad_norm": 4.707957744598389,
      "learning_rate": 4.384437014496215e-06,
      "loss": 0.8664,
      "step": 348
    },
    {
      "epoch": 2.463157894736842,
      "grad_norm": 4.914385795593262,
      "learning_rate": 4.070838043436786e-06,
      "loss": 0.6006,
      "step": 351
    },
    {
      "epoch": 2.4842105263157896,
      "grad_norm": 3.2543418407440186,
      "learning_rate": 3.7678786192199694e-06,
      "loss": 0.5789,
      "step": 354
    },
    {
      "epoch": 2.5052631578947366,
      "grad_norm": 2.9000864028930664,
      "learning_rate": 3.475712754270716e-06,
      "loss": 0.5431,
      "step": 357
    },
    {
      "epoch": 2.526315789473684,
      "grad_norm": 4.2075886726379395,
      "learning_rate": 3.194488974001203e-06,
      "loss": 0.6753,
      "step": 360
    },
    {
      "epoch": 2.526315789473684,
      "eval_loss": 0.3118632733821869,
      "eval_runtime": 47.721,
      "eval_samples_per_second": 5.029,
      "eval_steps_per_second": 0.629,
      "step": 360
    },
    {
      "epoch": 2.5473684210526315,
      "grad_norm": 5.408112049102783,
      "learning_rate": 2.9243502413064368e-06,
      "loss": 0.6439,
      "step": 363
    },
    {
      "epoch": 2.568421052631579,
      "grad_norm": 3.7381534576416016,
      "learning_rate": 2.6654338838876665e-06,
      "loss": 0.9288,
      "step": 366
    },
    {
      "epoch": 2.5894736842105264,
      "grad_norm": 4.740654468536377,
      "learning_rate": 2.4178715244404794e-06,
      "loss": 0.9505,
      "step": 369
    },
    {
      "epoch": 2.610526315789474,
      "grad_norm": 4.9893364906311035,
      "learning_rate": 2.1817890137430934e-06,
      "loss": 1.046,
      "step": 372
    },
    {
      "epoch": 2.6315789473684212,
      "grad_norm": 4.344699382781982,
      "learning_rate": 1.9573063666788875e-06,
      "loss": 0.8301,
      "step": 375
    },
    {
      "epoch": 2.6526315789473687,
      "grad_norm": 2.871662139892578,
      "learning_rate": 1.7445377012256126e-06,
      "loss": 0.6642,
      "step": 378
    },
    {
      "epoch": 2.6736842105263157,
      "grad_norm": 3.569286346435547,
      "learning_rate": 1.5435911804424357e-06,
      "loss": 0.8558,
      "step": 381
    },
    {
      "epoch": 2.694736842105263,
      "grad_norm": 4.009424209594727,
      "learning_rate": 1.3545689574841342e-06,
      "loss": 0.8686,
      "step": 384
    },
    {
      "epoch": 2.7157894736842105,
      "grad_norm": 3.5932652950286865,
      "learning_rate": 1.1775671236705365e-06,
      "loss": 1.0848,
      "step": 387
    },
    {
      "epoch": 2.736842105263158,
      "grad_norm": 4.354364395141602,
      "learning_rate": 1.0126756596375686e-06,
      "loss": 1.1122,
      "step": 390
    },
    {
      "epoch": 2.7578947368421054,
      "grad_norm": 3.184096336364746,
      "learning_rate": 8.599783895946761e-07,
      "loss": 0.8129,
      "step": 393
    },
    {
      "epoch": 2.7789473684210524,
      "grad_norm": 4.265777587890625,
      "learning_rate": 7.195529387119815e-07,
      "loss": 0.7224,
      "step": 396
    },
    {
      "epoch": 2.7789473684210524,
      "eval_loss": 0.3112446963787079,
      "eval_runtime": 47.7893,
      "eval_samples_per_second": 5.022,
      "eval_steps_per_second": 0.628,
      "step": 396
    },
    {
      "epoch": 2.8,
      "grad_norm": 3.4699087142944336,
      "learning_rate": 5.914706936587494e-07,
      "loss": 0.614,
      "step": 399
    },
    {
      "epoch": 2.8210526315789473,
      "grad_norm": 2.6950035095214844,
      "learning_rate": 4.75796766313269e-07,
      "loss": 0.9641,
      "step": 402
    },
    {
      "epoch": 2.8421052631578947,
      "grad_norm": 4.25594425201416,
      "learning_rate": 3.7258996066258103e-07,
      "loss": 0.736,
      "step": 405
    },
    {
      "epoch": 2.863157894736842,
      "grad_norm": 3.8812239170074463,
      "learning_rate": 2.819027429088822e-07,
      "loss": 0.7287,
      "step": 408
    },
    {
      "epoch": 2.8842105263157896,
      "grad_norm": 4.651484966278076,
      "learning_rate": 2.0378121479783796e-07,
      "loss": 0.8938,
      "step": 411
    },
    {
      "epoch": 2.905263157894737,
      "grad_norm": 4.784148216247559,
      "learning_rate": 1.3826509018227128e-07,
      "loss": 0.9602,
      "step": 414
    },
    {
      "epoch": 2.9263157894736844,
      "grad_norm": 4.499444007873535,
      "learning_rate": 8.538767483325383e-08,
      "loss": 0.985,
      "step": 417
    },
    {
      "epoch": 2.9473684210526314,
      "grad_norm": 5.214015483856201,
      "learning_rate": 4.517584950877452e-08,
      "loss": 0.9054,
      "step": 420
    },
    {
      "epoch": 2.968421052631579,
      "grad_norm": 3.8694188594818115,
      "learning_rate": 1.7650056288651127e-08,
      "loss": 0.651,
      "step": 423
    },
    {
      "epoch": 2.9894736842105263,
      "grad_norm": 3.8104214668273926,
      "learning_rate": 2.8242881825846223e-09,
      "loss": 0.8252,
      "step": 426
    }
  ],
  "logging_steps": 3,
  "max_steps": 428,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 4,
  "save_steps": 36,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 1.7558214228836352e+18,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}