{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.999936,
  "eval_steps": 500,
  "global_step": 7812,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0,
      "grad_norm": 66.2013931274414,
      "learning_rate": 2.1276595744680853e-06,
      "loss": 10.2652,
      "step": 1
    },
    {
      "epoch": 0.0,
      "grad_norm": 67.2675552368164,
      "learning_rate": 4.255319148936171e-06,
      "loss": 10.2672,
      "step": 2
    },
    {
      "epoch": 0.0,
      "grad_norm": 62.19249725341797,
      "learning_rate": 6.3829787234042555e-06,
      "loss": 10.1781,
      "step": 3
    },
    {
      "epoch": 0.0,
      "grad_norm": 60.29872512817383,
      "learning_rate": 8.510638297872341e-06,
      "loss": 10.0182,
      "step": 4
    },
    {
      "epoch": 0.0,
      "grad_norm": 60.89796829223633,
      "learning_rate": 1.0638297872340426e-05,
      "loss": 9.8218,
      "step": 5
    },
    {
      "epoch": 0.0,
      "grad_norm": 44.79897689819336,
      "learning_rate": 1.2765957446808511e-05,
      "loss": 9.5442,
      "step": 6
    },
    {
      "epoch": 0.0,
      "grad_norm": 50.130828857421875,
      "learning_rate": 1.4893617021276598e-05,
      "loss": 8.3801,
      "step": 7
    },
    {
      "epoch": 0.0,
      "grad_norm": 45.67203140258789,
      "learning_rate": 1.7021276595744682e-05,
      "loss": 8.3836,
      "step": 8
    },
    {
      "epoch": 0.0,
      "grad_norm": 40.70806121826172,
      "learning_rate": 1.9148936170212766e-05,
      "loss": 7.8469,
      "step": 9
    },
    {
      "epoch": 0.0,
      "grad_norm": 19.798908233642578,
      "learning_rate": 2.1276595744680852e-05,
      "loss": 6.8472,
      "step": 10
    },
    {
      "epoch": 0.0,
      "grad_norm": 16.663864135742188,
      "learning_rate": 2.3404255319148935e-05,
      "loss": 6.4923,
      "step": 11
    },
    {
      "epoch": 0.0,
      "grad_norm": 14.256299018859863,
      "learning_rate": 2.5531914893617022e-05,
      "loss": 6.3542,
      "step": 12
    },
    {
      "epoch": 0.0,
      "grad_norm": 15.111146926879883,
      "learning_rate": 2.7659574468085105e-05,
      "loss": 6.2619,
      "step": 13
    },
    {
      "epoch": 0.0,
      "grad_norm": 12.653669357299805,
      "learning_rate": 2.9787234042553195e-05,
      "loss": 5.952,
      "step": 14
    },
    {
      "epoch": 0.0,
      "grad_norm": 12.296918869018555,
      "learning_rate": 3.1914893617021275e-05,
      "loss": 5.6639,
      "step": 15
    },
    {
      "epoch": 0.0,
      "grad_norm": 11.443110466003418,
      "learning_rate": 3.4042553191489365e-05,
      "loss": 5.3989,
      "step": 16
    },
    {
      "epoch": 0.0,
      "grad_norm": 10.66888427734375,
      "learning_rate": 3.617021276595744e-05,
      "loss": 5.3316,
      "step": 17
    },
    {
      "epoch": 0.0,
      "grad_norm": 9.941892623901367,
      "learning_rate": 3.829787234042553e-05,
      "loss": 5.1584,
      "step": 18
    },
    {
      "epoch": 0.0,
      "grad_norm": 8.901494026184082,
      "learning_rate": 4.042553191489362e-05,
      "loss": 4.9406,
      "step": 19
    },
    {
      "epoch": 0.0,
      "grad_norm": 7.984507083892822,
      "learning_rate": 4.2553191489361704e-05,
      "loss": 4.8559,
      "step": 20
    },
    {
      "epoch": 0.0,
      "grad_norm": 6.717487335205078,
      "learning_rate": 4.468085106382979e-05,
      "loss": 4.7572,
      "step": 21
    },
    {
      "epoch": 0.0,
      "grad_norm": 5.239010810852051,
      "learning_rate": 4.680851063829787e-05,
      "loss": 4.6637,
      "step": 22
    },
    {
      "epoch": 0.0,
      "grad_norm": 4.611085891723633,
      "learning_rate": 4.893617021276596e-05,
      "loss": 4.5263,
      "step": 23
    },
    {
      "epoch": 0.0,
      "grad_norm": 3.7085413932800293,
      "learning_rate": 5.1063829787234044e-05,
      "loss": 4.312,
      "step": 24
    },
    {
      "epoch": 0.0,
      "grad_norm": 2.8592677116394043,
      "learning_rate": 5.319148936170213e-05,
      "loss": 4.5054,
      "step": 25
    },
    {
      "epoch": 0.0,
      "grad_norm": 2.6216609477996826,
      "learning_rate": 5.531914893617021e-05,
      "loss": 4.5818,
      "step": 26
    },
    {
      "epoch": 0.0,
      "grad_norm": 2.1185429096221924,
      "learning_rate": 5.74468085106383e-05,
      "loss": 4.2476,
      "step": 27
    },
    {
      "epoch": 0.0,
      "grad_norm": 2.1026623249053955,
      "learning_rate": 5.957446808510639e-05,
      "loss": 4.2895,
      "step": 28
    },
    {
      "epoch": 0.0,
      "grad_norm": 2.1222243309020996,
      "learning_rate": 6.170212765957447e-05,
      "loss": 4.2456,
      "step": 29
    },
    {
      "epoch": 0.0,
      "grad_norm": 2.177839517593384,
      "learning_rate": 6.382978723404255e-05,
      "loss": 4.3225,
      "step": 30
    },
    {
      "epoch": 0.0,
      "grad_norm": 2.1735191345214844,
      "learning_rate": 6.595744680851063e-05,
      "loss": 4.3763,
      "step": 31
    },
    {
      "epoch": 0.0,
      "grad_norm": 1.9274977445602417,
      "learning_rate": 6.808510638297873e-05,
      "loss": 4.3253,
      "step": 32
    },
    {
      "epoch": 0.0,
      "grad_norm": 1.738281011581421,
      "learning_rate": 7.021276595744681e-05,
      "loss": 4.2068,
      "step": 33
    },
    {
      "epoch": 0.0,
      "grad_norm": 1.8140920400619507,
      "learning_rate": 7.234042553191488e-05,
      "loss": 4.2725,
      "step": 34
    },
    {
      "epoch": 0.0,
      "grad_norm": 1.5480709075927734,
      "learning_rate": 7.446808510638298e-05,
      "loss": 4.1281,
      "step": 35
    },
    {
      "epoch": 0.0,
      "grad_norm": 1.4067186117172241,
      "learning_rate": 7.659574468085106e-05,
      "loss": 4.0037,
      "step": 36
    },
    {
      "epoch": 0.0,
      "grad_norm": 1.271905779838562,
      "learning_rate": 7.872340425531916e-05,
      "loss": 4.0719,
      "step": 37
    },
    {
      "epoch": 0.0,
      "grad_norm": 1.1766955852508545,
      "learning_rate": 8.085106382978724e-05,
      "loss": 4.146,
      "step": 38
    },
    {
      "epoch": 0.0,
      "grad_norm": 1.1398943662643433,
      "learning_rate": 8.297872340425531e-05,
      "loss": 4.1669,
      "step": 39
    },
    {
      "epoch": 0.01,
      "grad_norm": 1.0141520500183105,
      "learning_rate": 8.510638297872341e-05,
      "loss": 4.0598,
      "step": 40
    },
    {
      "epoch": 0.01,
      "grad_norm": 1.0668827295303345,
      "learning_rate": 8.723404255319149e-05,
      "loss": 3.9564,
      "step": 41
    },
    {
      "epoch": 0.01,
      "grad_norm": 1.0816271305084229,
      "learning_rate": 8.936170212765958e-05,
      "loss": 4.1971,
      "step": 42
    },
    {
      "epoch": 0.01,
      "grad_norm": 1.0241141319274902,
      "learning_rate": 9.148936170212766e-05,
      "loss": 4.2399,
      "step": 43
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.9673445820808411,
      "learning_rate": 9.361702127659574e-05,
      "loss": 4.1486,
      "step": 44
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.9528337121009827,
      "learning_rate": 9.574468085106382e-05,
      "loss": 4.0984,
      "step": 45
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.8772314190864563,
      "learning_rate": 9.787234042553192e-05,
      "loss": 4.1385,
      "step": 46
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.9184028506278992,
      "learning_rate": 0.0001,
      "loss": 4.0892,
      "step": 47
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.8773337602615356,
      "learning_rate": 0.00010212765957446809,
      "loss": 4.1165,
      "step": 48
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.8567172884941101,
      "learning_rate": 0.00010425531914893617,
      "loss": 3.9732,
      "step": 49
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.8544157147407532,
      "learning_rate": 0.00010638297872340425,
      "loss": 3.9331,
      "step": 50
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.7989184856414795,
      "learning_rate": 0.00010851063829787235,
      "loss": 4.118,
      "step": 51
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.8048833608627319,
      "learning_rate": 0.00011063829787234042,
      "loss": 4.0061,
      "step": 52
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.7866190671920776,
      "learning_rate": 0.0001127659574468085,
      "loss": 4.1323,
      "step": 53
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.7440871000289917,
      "learning_rate": 0.0001148936170212766,
      "loss": 4.1487,
      "step": 54
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.6773187518119812,
      "learning_rate": 0.00011702127659574468,
      "loss": 4.0175,
      "step": 55
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.7259231805801392,
      "learning_rate": 0.00011914893617021278,
      "loss": 4.0805,
      "step": 56
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.6913698315620422,
      "learning_rate": 0.00012127659574468085,
      "loss": 4.0163,
      "step": 57
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.6823388934135437,
      "learning_rate": 0.00012340425531914893,
      "loss": 4.0567,
      "step": 58
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.6369395852088928,
      "learning_rate": 0.00012553191489361702,
      "loss": 3.9532,
      "step": 59
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.6701176166534424,
      "learning_rate": 0.0001276595744680851,
      "loss": 3.956,
      "step": 60
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.6703398823738098,
      "learning_rate": 0.00012978723404255318,
      "loss": 3.9604,
      "step": 61
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.7128766179084778,
      "learning_rate": 0.00013191489361702127,
      "loss": 4.0744,
      "step": 62
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.6529684662818909,
      "learning_rate": 0.00013404255319148938,
      "loss": 4.1499,
      "step": 63
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.6797465682029724,
      "learning_rate": 0.00013617021276595746,
      "loss": 4.0433,
      "step": 64
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.622115969657898,
      "learning_rate": 0.00013829787234042554,
      "loss": 4.0851,
      "step": 65
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.58196622133255,
      "learning_rate": 0.00014042553191489363,
      "loss": 3.8819,
      "step": 66
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.653477668762207,
      "learning_rate": 0.0001425531914893617,
      "loss": 4.1541,
      "step": 67
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5807105898857117,
      "learning_rate": 0.00014468085106382977,
      "loss": 3.9911,
      "step": 68
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.590411365032196,
      "learning_rate": 0.00014680851063829788,
      "loss": 3.9204,
      "step": 69
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.6441339254379272,
      "learning_rate": 0.00014893617021276596,
      "loss": 4.0175,
      "step": 70
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.6907050013542175,
      "learning_rate": 0.00015106382978723404,
      "loss": 4.0859,
      "step": 71
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.6273537874221802,
      "learning_rate": 0.00015319148936170213,
      "loss": 3.8568,
      "step": 72
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.6473478078842163,
      "learning_rate": 0.0001553191489361702,
      "loss": 4.0619,
      "step": 73
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5779252648353577,
      "learning_rate": 0.00015744680851063832,
      "loss": 4.0152,
      "step": 74
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5892084240913391,
      "learning_rate": 0.0001595744680851064,
      "loss": 3.987,
      "step": 75
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5812687277793884,
      "learning_rate": 0.00016170212765957449,
      "loss": 4.0994,
      "step": 76
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5542885661125183,
      "learning_rate": 0.00016382978723404254,
      "loss": 3.9593,
      "step": 77
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5871756076812744,
      "learning_rate": 0.00016595744680851062,
      "loss": 3.9233,
      "step": 78
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5809739232063293,
      "learning_rate": 0.0001680851063829787,
      "loss": 3.9743,
      "step": 79
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5635313391685486,
      "learning_rate": 0.00017021276595744682,
      "loss": 4.0177,
      "step": 80
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.6076342463493347,
      "learning_rate": 0.0001723404255319149,
      "loss": 3.9156,
      "step": 81
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5712680816650391,
      "learning_rate": 0.00017446808510638298,
      "loss": 4.0493,
      "step": 82
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5657944083213806,
      "learning_rate": 0.00017659574468085107,
      "loss": 4.0178,
      "step": 83
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.581068754196167,
      "learning_rate": 0.00017872340425531915,
      "loss": 3.9997,
      "step": 84
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5494338870048523,
      "learning_rate": 0.00018085106382978726,
      "loss": 3.976,
      "step": 85
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5530975461006165,
      "learning_rate": 0.00018297872340425532,
      "loss": 3.9231,
      "step": 86
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5569669604301453,
      "learning_rate": 0.0001851063829787234,
      "loss": 4.028,
      "step": 87
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5991533994674683,
      "learning_rate": 0.00018723404255319148,
      "loss": 4.0061,
      "step": 88
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.518521785736084,
      "learning_rate": 0.00018936170212765957,
      "loss": 4.1542,
      "step": 89
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5902436971664429,
      "learning_rate": 0.00019148936170212765,
      "loss": 4.1334,
      "step": 90
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5584141612052917,
      "learning_rate": 0.00019361702127659576,
      "loss": 4.0557,
      "step": 91
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5695877075195312,
      "learning_rate": 0.00019574468085106384,
      "loss": 3.9141,
      "step": 92
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5214635133743286,
      "learning_rate": 0.00019787234042553193,
      "loss": 3.895,
      "step": 93
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5036593675613403,
      "learning_rate": 0.0002,
      "loss": 3.9304,
      "step": 94
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5529872179031372,
      "learning_rate": 0.00020212765957446807,
      "loss": 3.9429,
      "step": 95
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5435147285461426,
      "learning_rate": 0.00020425531914893618,
      "loss": 3.8841,
      "step": 96
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5493366718292236,
      "learning_rate": 0.00020638297872340426,
      "loss": 3.8215,
      "step": 97
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5658342838287354,
      "learning_rate": 0.00020851063829787234,
      "loss": 4.0299,
      "step": 98
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5450778007507324,
      "learning_rate": 0.00021063829787234043,
      "loss": 3.9594,
      "step": 99
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5194315910339355,
      "learning_rate": 0.0002127659574468085,
      "loss": 3.9135,
      "step": 100
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5151494741439819,
      "learning_rate": 0.0002148936170212766,
      "loss": 3.9802,
      "step": 101
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5274609923362732,
      "learning_rate": 0.0002170212765957447,
      "loss": 3.808,
      "step": 102
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5467295050621033,
      "learning_rate": 0.00021914893617021279,
      "loss": 3.9157,
      "step": 103
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.4629024565219879,
      "learning_rate": 0.00022127659574468084,
      "loss": 3.7116,
      "step": 104
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.518493115901947,
      "learning_rate": 0.00022340425531914892,
      "loss": 3.8713,
      "step": 105
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5256282091140747,
      "learning_rate": 0.000225531914893617,
      "loss": 3.9921,
      "step": 106
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5310911536216736,
      "learning_rate": 0.00022765957446808512,
      "loss": 3.8558,
      "step": 107
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5031483173370361,
      "learning_rate": 0.0002297872340425532,
      "loss": 3.9171,
      "step": 108
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.499146431684494,
      "learning_rate": 0.00023191489361702128,
      "loss": 3.896,
      "step": 109
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5645596385002136,
      "learning_rate": 0.00023404255319148937,
      "loss": 3.985,
      "step": 110
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.527366042137146,
      "learning_rate": 0.00023617021276595745,
      "loss": 3.7875,
      "step": 111
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.4565502405166626,
      "learning_rate": 0.00023829787234042556,
      "loss": 3.7705,
      "step": 112
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5086990594863892,
      "learning_rate": 0.00024042553191489362,
      "loss": 4.057,
      "step": 113
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.49000969529151917,
      "learning_rate": 0.0002425531914893617,
      "loss": 3.9745,
      "step": 114
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5263953804969788,
      "learning_rate": 0.0002446808510638298,
      "loss": 3.9484,
      "step": 115
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5623803734779358,
      "learning_rate": 0.00024680851063829787,
      "loss": 3.9165,
      "step": 116
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5837429165840149,
      "learning_rate": 0.000248936170212766,
      "loss": 4.0214,
      "step": 117
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5572398900985718,
      "learning_rate": 0.00025106382978723403,
      "loss": 4.0186,
      "step": 118
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5007012486457825,
      "learning_rate": 0.0002531914893617021,
      "loss": 3.9794,
      "step": 119
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5164663791656494,
      "learning_rate": 0.0002553191489361702,
      "loss": 3.7892,
      "step": 120
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5327450037002563,
      "learning_rate": 0.0002574468085106383,
      "loss": 3.9153,
      "step": 121
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.4968028664588928,
      "learning_rate": 0.00025957446808510637,
      "loss": 3.8855,
      "step": 122
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.523006021976471,
      "learning_rate": 0.0002617021276595745,
      "loss": 3.9631,
      "step": 123
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5801581740379333,
      "learning_rate": 0.00026382978723404253,
      "loss": 4.0699,
      "step": 124
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.49576807022094727,
      "learning_rate": 0.00026595744680851064,
      "loss": 3.7719,
      "step": 125
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.6109489798545837,
      "learning_rate": 0.00026808510638297875,
      "loss": 3.8818,
      "step": 126
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5182757377624512,
      "learning_rate": 0.0002702127659574468,
      "loss": 3.9495,
      "step": 127
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5639579892158508,
      "learning_rate": 0.0002723404255319149,
      "loss": 4.0954,
      "step": 128
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5462976694107056,
      "learning_rate": 0.000274468085106383,
      "loss": 3.9097,
      "step": 129
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5365457534790039,
      "learning_rate": 0.0002765957446808511,
      "loss": 3.9419,
      "step": 130
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5530396699905396,
      "learning_rate": 0.00027872340425531914,
      "loss": 3.9639,
      "step": 131
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5990042686462402,
      "learning_rate": 0.00028085106382978725,
      "loss": 3.9145,
      "step": 132
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.6415284872055054,
      "learning_rate": 0.00028297872340425536,
      "loss": 4.0963,
      "step": 133
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.555779218673706,
      "learning_rate": 0.0002851063829787234,
      "loss": 4.0155,
      "step": 134
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.6636850237846375,
      "learning_rate": 0.00028723404255319153,
      "loss": 3.8578,
      "step": 135
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5373653769493103,
      "learning_rate": 0.00028936170212765953,
      "loss": 3.9108,
      "step": 136
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5914272665977478,
      "learning_rate": 0.00029148936170212764,
      "loss": 3.84,
      "step": 137
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.626366376876831,
      "learning_rate": 0.00029361702127659575,
      "loss": 3.7988,
      "step": 138
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.6290276050567627,
      "learning_rate": 0.0002957446808510638,
      "loss": 3.8432,
      "step": 139
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.6310577988624573,
      "learning_rate": 0.0002978723404255319,
      "loss": 3.9625,
      "step": 140
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.6234248280525208,
      "learning_rate": 0.0003,
      "loss": 3.9595,
      "step": 141
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.6231244206428528,
      "learning_rate": 0.0003021276595744681,
      "loss": 3.9915,
      "step": 142
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.611179769039154,
      "learning_rate": 0.0003042553191489362,
      "loss": 3.925,
      "step": 143
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.6610672473907471,
      "learning_rate": 0.00030638297872340425,
      "loss": 3.8709,
      "step": 144
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.6159443259239197,
      "learning_rate": 0.00030851063829787236,
      "loss": 3.7075,
      "step": 145
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.7432205677032471,
      "learning_rate": 0.0003106382978723404,
      "loss": 3.9137,
      "step": 146
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.7952967882156372,
      "learning_rate": 0.0003127659574468085,
      "loss": 3.693,
      "step": 147
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.6825715899467468,
      "learning_rate": 0.00031489361702127664,
      "loss": 3.8648,
      "step": 148
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.7632530331611633,
      "learning_rate": 0.0003170212765957447,
      "loss": 3.7264,
      "step": 149
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.7381057739257812,
      "learning_rate": 0.0003191489361702128,
      "loss": 3.8611,
      "step": 150
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.7616337537765503,
      "learning_rate": 0.00032127659574468086,
      "loss": 3.7865,
      "step": 151
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.75047367811203,
      "learning_rate": 0.00032340425531914897,
      "loss": 3.7453,
      "step": 152
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.7554873824119568,
      "learning_rate": 0.0003255319148936171,
      "loss": 3.7243,
      "step": 153
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.9101055264472961,
      "learning_rate": 0.0003276595744680851,
      "loss": 3.8892,
      "step": 154
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.8463817238807678,
      "learning_rate": 0.0003297872340425532,
      "loss": 3.8224,
      "step": 155
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.8480867743492126,
      "learning_rate": 0.00033191489361702125,
      "loss": 3.8277,
      "step": 156
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.904416024684906,
      "learning_rate": 0.00033404255319148936,
      "loss": 3.7007,
      "step": 157
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.0665180683135986,
      "learning_rate": 0.0003361702127659574,
      "loss": 3.7843,
      "step": 158
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.1557427644729614,
      "learning_rate": 0.0003382978723404255,
      "loss": 3.9729,
      "step": 159
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.9161776900291443,
      "learning_rate": 0.00034042553191489364,
      "loss": 3.8129,
      "step": 160
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.9013697504997253,
      "learning_rate": 0.0003425531914893617,
      "loss": 3.6349,
      "step": 161
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.9320926070213318,
      "learning_rate": 0.0003446808510638298,
      "loss": 3.7305,
      "step": 162
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.0531585216522217,
      "learning_rate": 0.00034680851063829786,
      "loss": 3.8517,
      "step": 163
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.9589135646820068,
      "learning_rate": 0.00034893617021276597,
      "loss": 3.6403,
      "step": 164
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.0866819620132446,
      "learning_rate": 0.0003510638297872341,
      "loss": 3.8003,
      "step": 165
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.0979450941085815,
      "learning_rate": 0.00035319148936170213,
      "loss": 3.7353,
      "step": 166
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.9046030640602112,
      "learning_rate": 0.00035531914893617025,
      "loss": 3.745,
      "step": 167
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.4248862266540527,
      "learning_rate": 0.0003574468085106383,
      "loss": 3.7103,
      "step": 168
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.0953489542007446,
      "learning_rate": 0.0003595744680851064,
      "loss": 3.8399,
      "step": 169
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.1487748622894287,
      "learning_rate": 0.0003617021276595745,
      "loss": 3.6664,
      "step": 170
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.015674352645874,
      "learning_rate": 0.0003638297872340426,
      "loss": 3.7427,
      "step": 171
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.061633825302124,
      "learning_rate": 0.00036595744680851063,
      "loss": 3.7191,
      "step": 172
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.042446255683899,
      "learning_rate": 0.0003680851063829787,
      "loss": 3.6442,
      "step": 173
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.0471997261047363,
      "learning_rate": 0.0003702127659574468,
      "loss": 3.7682,
      "step": 174
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.0940803289413452,
      "learning_rate": 0.0003723404255319149,
      "loss": 3.8137,
      "step": 175
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.1006972789764404,
      "learning_rate": 0.00037446808510638297,
      "loss": 3.5462,
      "step": 176
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.0270376205444336,
      "learning_rate": 0.0003765957446808511,
      "loss": 3.815,
      "step": 177
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.991428017616272,
      "learning_rate": 0.00037872340425531913,
      "loss": 3.5895,
      "step": 178
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.0168769359588623,
      "learning_rate": 0.00038085106382978724,
      "loss": 3.6583,
      "step": 179
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.080354928970337,
      "learning_rate": 0.0003829787234042553,
      "loss": 3.653,
      "step": 180
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.9446303844451904,
      "learning_rate": 0.0003851063829787234,
      "loss": 3.7,
      "step": 181
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.9714552760124207,
      "learning_rate": 0.0003872340425531915,
      "loss": 3.6518,
      "step": 182
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.0247268676757812,
      "learning_rate": 0.0003893617021276596,
      "loss": 3.58,
      "step": 183
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.0251508951187134,
      "learning_rate": 0.0003914893617021277,
      "loss": 3.6228,
      "step": 184
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.9328943490982056,
      "learning_rate": 0.00039361702127659574,
      "loss": 3.7006,
      "step": 185
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.9305828213691711,
      "learning_rate": 0.00039574468085106385,
      "loss": 3.6778,
      "step": 186
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.0074857473373413,
      "learning_rate": 0.00039787234042553196,
      "loss": 3.6307,
      "step": 187
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.9542426466941833,
      "learning_rate": 0.0004,
      "loss": 3.6303,
      "step": 188
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.974981963634491,
      "learning_rate": 0.00040212765957446813,
      "loss": 3.6357,
      "step": 189
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.0121289491653442,
      "learning_rate": 0.00040425531914893613,
      "loss": 3.6957,
      "step": 190
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.0694776773452759,
      "learning_rate": 0.00040638297872340424,
      "loss": 3.5721,
      "step": 191
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.0205349922180176,
      "learning_rate": 0.00040851063829787235,
      "loss": 3.6407,
      "step": 192
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.0277725458145142,
      "learning_rate": 0.0004106382978723404,
      "loss": 3.727,
      "step": 193
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.0771600008010864,
      "learning_rate": 0.0004127659574468085,
      "loss": 3.6499,
      "step": 194
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.1147857904434204,
      "learning_rate": 0.0004148936170212766,
      "loss": 3.7813,
      "step": 195
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.9302230477333069,
      "learning_rate": 0.0004170212765957447,
      "loss": 3.629,
      "step": 196
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.1916840076446533,
      "learning_rate": 0.0004191489361702128,
      "loss": 3.5666,
      "step": 197
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.0070656538009644,
      "learning_rate": 0.00042127659574468085,
      "loss": 3.5978,
      "step": 198
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.9050673246383667,
      "learning_rate": 0.00042340425531914896,
      "loss": 3.6429,
      "step": 199
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.0764756202697754,
      "learning_rate": 0.000425531914893617,
      "loss": 3.6635,
      "step": 200
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.9748952984809875,
      "learning_rate": 0.00042765957446808513,
      "loss": 3.6063,
      "step": 201
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.0928254127502441,
      "learning_rate": 0.0004297872340425532,
      "loss": 3.6204,
      "step": 202
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.9457529187202454,
      "learning_rate": 0.0004319148936170213,
      "loss": 3.6449,
      "step": 203
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.9426815509796143,
      "learning_rate": 0.0004340425531914894,
      "loss": 3.6416,
      "step": 204
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.9943705797195435,
      "learning_rate": 0.00043617021276595746,
      "loss": 3.6189,
      "step": 205
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.9159446954727173,
      "learning_rate": 0.00043829787234042557,
      "loss": 3.4736,
      "step": 206
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.0196443796157837,
      "learning_rate": 0.0004404255319148936,
      "loss": 3.5293,
      "step": 207
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.9505741000175476,
      "learning_rate": 0.0004425531914893617,
      "loss": 3.5132,
      "step": 208
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.0899678468704224,
      "learning_rate": 0.0004446808510638298,
      "loss": 3.5931,
      "step": 209
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.8919481039047241,
      "learning_rate": 0.00044680851063829785,
      "loss": 3.572,
      "step": 210
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.9126121401786804,
      "learning_rate": 0.00044893617021276596,
      "loss": 3.5227,
      "step": 211
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.2389638423919678,
      "learning_rate": 0.000451063829787234,
      "loss": 3.5329,
      "step": 212
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.8986654281616211,
      "learning_rate": 0.0004531914893617021,
      "loss": 3.5109,
      "step": 213
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.9895931482315063,
      "learning_rate": 0.00045531914893617024,
      "loss": 3.4885,
      "step": 214
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.1017893552780151,
      "learning_rate": 0.0004574468085106383,
      "loss": 3.4984,
      "step": 215
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.9655163288116455,
      "learning_rate": 0.0004595744680851064,
      "loss": 3.4351,
      "step": 216
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.9567735195159912,
      "learning_rate": 0.00046170212765957446,
      "loss": 3.5429,
      "step": 217
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.9562842845916748,
      "learning_rate": 0.00046382978723404257,
      "loss": 3.446,
      "step": 218
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.1004753112792969,
      "learning_rate": 0.0004659574468085107,
      "loss": 3.4064,
      "step": 219
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.975059449672699,
      "learning_rate": 0.00046808510638297874,
      "loss": 3.6737,
      "step": 220
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.9980708360671997,
      "learning_rate": 0.00047021276595744685,
      "loss": 3.6581,
      "step": 221
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.2402470111846924,
      "learning_rate": 0.0004723404255319149,
      "loss": 3.6429,
      "step": 222
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.9988480806350708,
      "learning_rate": 0.000474468085106383,
      "loss": 3.4434,
      "step": 223
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.9752873182296753,
      "learning_rate": 0.0004765957446808511,
      "loss": 3.5576,
      "step": 224
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.0023137331008911,
      "learning_rate": 0.0004787234042553192,
      "loss": 3.4683,
      "step": 225
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.9994853734970093,
      "learning_rate": 0.00048085106382978723,
      "loss": 3.571,
      "step": 226
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.9317420721054077,
      "learning_rate": 0.0004829787234042553,
      "loss": 3.4537,
      "step": 227
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.9578836560249329,
      "learning_rate": 0.0004851063829787234,
      "loss": 3.5693,
      "step": 228
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.9582533240318298,
      "learning_rate": 0.00048723404255319146,
      "loss": 3.5262,
      "step": 229
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.9464156031608582,
      "learning_rate": 0.0004893617021276596,
      "loss": 3.3422,
      "step": 230
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.0704267024993896,
      "learning_rate": 0.0004914893617021277,
      "loss": 3.5404,
      "step": 231
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.9614070653915405,
      "learning_rate": 0.0004936170212765957,
      "loss": 3.6041,
      "step": 232
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.9848872423171997,
      "learning_rate": 0.0004957446808510638,
      "loss": 3.5554,
      "step": 233
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.9620774388313293,
      "learning_rate": 0.000497872340425532,
      "loss": 3.3855,
      "step": 234
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.9777523279190063,
      "learning_rate": 0.0005,
      "loss": 3.5064,
      "step": 235
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.9599155187606812,
      "learning_rate": 0.0004999999785110509,
      "loss": 3.4513,
      "step": 236
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.9435796141624451,
      "learning_rate": 0.0004999999140442072,
      "loss": 3.4904,
      "step": 237
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.9566118121147156,
      "learning_rate": 0.0004999998065994801,
      "loss": 3.5624,
      "step": 238
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.168676495552063,
      "learning_rate": 0.0004999996561768879,
      "loss": 3.6189,
      "step": 239
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.8724344372749329,
      "learning_rate": 0.0004999994627764566,
      "loss": 3.4698,
      "step": 240
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.0216654539108276,
      "learning_rate": 0.0004999992263982194,
      "loss": 3.5017,
      "step": 241
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.0007438659667969,
      "learning_rate": 0.000499998947042217,
      "loss": 3.392,
      "step": 242
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.939277708530426,
      "learning_rate": 0.0004999986247084974,
      "loss": 3.4828,
      "step": 243
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.8991924524307251,
      "learning_rate": 0.0004999982593971157,
      "loss": 3.5825,
      "step": 244
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.1216328144073486,
      "learning_rate": 0.0004999978511081353,
      "loss": 3.4662,
      "step": 245
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.8430144190788269,
      "learning_rate": 0.0004999973998416259,
      "loss": 3.4679,
      "step": 246
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.922700047492981,
      "learning_rate": 0.0004999969055976653,
      "loss": 3.5036,
      "step": 247
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.9226689338684082,
      "learning_rate": 0.0004999963683763384,
      "loss": 3.3931,
      "step": 248
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.8761870861053467,
      "learning_rate": 0.0004999957881777376,
      "loss": 3.4048,
      "step": 249
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.9697345495223999,
      "learning_rate": 0.0004999951650019627,
      "loss": 3.6853,
      "step": 250
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.9751603603363037,
      "learning_rate": 0.0004999944988491207,
      "loss": 3.3988,
      "step": 251
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.9732135534286499,
      "learning_rate": 0.000499993789719326,
      "loss": 3.6167,
      "step": 252
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.000067949295044,
      "learning_rate": 0.0004999930376127007,
      "loss": 3.487,
      "step": 253
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.002168893814087,
      "learning_rate": 0.0004999922425293743,
      "loss": 3.4262,
      "step": 254
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.9353196620941162,
      "learning_rate": 0.000499991404469483,
      "loss": 3.531,
      "step": 255
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.0763756036758423,
      "learning_rate": 0.0004999905234331712,
      "loss": 3.4429,
      "step": 256
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.9798111319541931,
      "learning_rate": 0.0004999895994205903,
      "loss": 3.4992,
      "step": 257
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.0944926738739014,
      "learning_rate": 0.0004999886324318992,
      "loss": 3.4352,
      "step": 258
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.9414130449295044,
      "learning_rate": 0.000499987622467264,
      "loss": 3.5046,
      "step": 259
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.9587576985359192,
      "learning_rate": 0.0004999865695268584,
      "loss": 3.4303,
      "step": 260
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.0147631168365479,
      "learning_rate": 0.0004999854736108633,
      "loss": 3.4557,
      "step": 261
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.014939308166504,
      "learning_rate": 0.0004999843347194674,
      "loss": 3.5191,
      "step": 262
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.9217568635940552,
      "learning_rate": 0.0004999831528528662,
      "loss": 3.4506,
      "step": 263
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.0854125022888184,
      "learning_rate": 0.0004999819280112629,
      "loss": 3.4921,
      "step": 264
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.8900398015975952,
      "learning_rate": 0.0004999806601948682,
      "loss": 3.4204,
      "step": 265
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.0264781713485718,
      "learning_rate": 0.0004999793494039,
      "loss": 3.5305,
      "step": 266
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.9906717538833618,
      "learning_rate": 0.0004999779956385836,
      "loss": 3.4764,
      "step": 267
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.8724485635757446,
      "learning_rate": 0.0004999765988991518,
      "loss": 3.3778,
      "step": 268
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.9293751120567322,
      "learning_rate": 0.0004999751591858447,
      "loss": 3.3411,
      "step": 269
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.8974581360816956,
      "learning_rate": 0.0004999736764989096,
      "loss": 3.35,
      "step": 270
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.891159176826477,
      "learning_rate": 0.0004999721508386018,
      "loss": 3.4601,
      "step": 271
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.9439736604690552,
      "learning_rate": 0.0004999705822051832,
      "loss": 3.4851,
      "step": 272
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.0806844234466553,
      "learning_rate": 0.0004999689705989237,
      "loss": 3.5475,
      "step": 273
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.9624617695808411,
      "learning_rate": 0.0004999673160201001,
      "loss": 3.3447,
      "step": 274
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.9960342645645142,
      "learning_rate": 0.0004999656184689972,
      "loss": 3.5188,
      "step": 275
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.9541732668876648,
      "learning_rate": 0.0004999638779459065,
      "loss": 3.4322,
      "step": 276
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.8062582015991211,
      "learning_rate": 0.0004999620944511274,
      "loss": 3.4061,
      "step": 277
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.9844564199447632,
      "learning_rate": 0.0004999602679849665,
      "loss": 3.4321,
      "step": 278
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.8963137269020081,
      "learning_rate": 0.0004999583985477377,
      "loss": 3.3615,
      "step": 279
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.9515177011489868,
      "learning_rate": 0.0004999564861397624,
      "loss": 3.3524,
      "step": 280
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.9793287515640259,
      "learning_rate": 0.0004999545307613695,
      "loss": 3.5867,
      "step": 281
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.9448627233505249,
      "learning_rate": 0.0004999525324128949,
      "loss": 3.2861,
      "step": 282
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.1169896125793457,
      "learning_rate": 0.0004999504910946824,
      "loss": 3.4526,
      "step": 283
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.9453034400939941,
      "learning_rate": 0.0004999484068070827,
      "loss": 3.3851,
      "step": 284
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.9027736186981201,
      "learning_rate": 0.0004999462795504542,
      "loss": 3.3549,
      "step": 285
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.8259811997413635,
      "learning_rate": 0.0004999441093251627,
      "loss": 3.4628,
      "step": 286
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.9527153372764587,
      "learning_rate": 0.0004999418961315812,
      "loss": 3.3898,
      "step": 287
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.8943353891372681,
      "learning_rate": 0.0004999396399700902,
      "loss": 3.4391,
      "step": 288
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.9945071935653687,
      "learning_rate": 0.0004999373408410775,
      "loss": 3.4704,
      "step": 289
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.904714822769165,
      "learning_rate": 0.0004999349987449384,
      "loss": 3.5246,
      "step": 290
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.8907085061073303,
      "learning_rate": 0.0004999326136820754,
      "loss": 3.4557,
      "step": 291
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.9200391173362732,
      "learning_rate": 0.0004999301856528989,
      "loss": 3.4757,
      "step": 292
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.9234358072280884,
      "learning_rate": 0.0004999277146578258,
      "loss": 3.2846,
      "step": 293
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.8164225220680237,
      "learning_rate": 0.0004999252006972813,
      "loss": 3.3768,
      "step": 294
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.9319835305213928,
      "learning_rate": 0.0004999226437716974,
      "loss": 3.3981,
      "step": 295
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.8964455127716064,
      "learning_rate": 0.0004999200438815136,
      "loss": 3.3153,
      "step": 296
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.9230231046676636,
      "learning_rate": 0.000499917401027177,
      "loss": 3.292,
      "step": 297
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.9058669209480286,
      "learning_rate": 0.0004999147152091419,
      "loss": 3.4774,
      "step": 298
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.839122474193573,
      "learning_rate": 0.0004999119864278699,
      "loss": 3.2953,
      "step": 299
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.8236445188522339,
      "learning_rate": 0.0004999092146838302,
      "loss": 3.3954,
      "step": 300
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.0143119096755981,
      "learning_rate": 0.0004999063999774994,
      "loss": 3.4543,
      "step": 301
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.899919867515564,
      "learning_rate": 0.0004999035423093612,
      "loss": 3.4126,
      "step": 302
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.9080277681350708,
      "learning_rate": 0.000499900641679907,
      "loss": 3.3995,
      "step": 303
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.9000808000564575,
      "learning_rate": 0.0004998976980896354,
      "loss": 3.4409,
      "step": 304
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.9032703042030334,
      "learning_rate": 0.0004998947115390524,
      "loss": 3.5522,
      "step": 305
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.9039821624755859,
      "learning_rate": 0.0004998916820286714,
      "loss": 3.4353,
      "step": 306
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.8394962549209595,
      "learning_rate": 0.0004998886095590134,
      "loss": 3.4911,
      "step": 307
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.8231056332588196,
      "learning_rate": 0.0004998854941306064,
      "loss": 3.4057,
      "step": 308
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.8445539474487305,
      "learning_rate": 0.000499882335743986,
      "loss": 3.4326,
      "step": 309
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.9432405829429626,
      "learning_rate": 0.0004998791343996952,
      "loss": 3.3206,
      "step": 310
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.864345908164978,
      "learning_rate": 0.0004998758900982845,
      "loss": 3.3006,
      "step": 311
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.9553472399711609,
      "learning_rate": 0.0004998726028403114,
      "loss": 3.3568,
      "step": 312
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.9069563746452332,
      "learning_rate": 0.000499869272626341,
      "loss": 3.3351,
      "step": 313
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.9137377142906189,
      "learning_rate": 0.0004998658994569459,
      "loss": 3.4256,
      "step": 314
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.951225757598877,
      "learning_rate": 0.0004998624833327061,
      "loss": 3.3676,
      "step": 315
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.91324383020401,
      "learning_rate": 0.0004998590242542087,
      "loss": 3.4324,
      "step": 316
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.9190706014633179,
      "learning_rate": 0.0004998555222220485,
      "loss": 3.4608,
      "step": 317
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.8614435195922852,
      "learning_rate": 0.0004998519772368273,
      "loss": 3.4497,
      "step": 318
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.837529718875885,
      "learning_rate": 0.0004998483892991549,
      "loss": 3.2521,
      "step": 319
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.9057574272155762,
      "learning_rate": 0.0004998447584096477,
      "loss": 3.4812,
      "step": 320
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.8252586126327515,
      "learning_rate": 0.0004998410845689301,
      "loss": 3.3396,
      "step": 321
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.8661255240440369,
      "learning_rate": 0.0004998373677776337,
      "loss": 3.3661,
      "step": 322
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.874665379524231,
      "learning_rate": 0.0004998336080363975,
      "loss": 3.2772,
      "step": 323
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.9108087420463562,
      "learning_rate": 0.0004998298053458676,
      "loss": 3.4242,
      "step": 324
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.8055238127708435,
      "learning_rate": 0.000499825959706698,
      "loss": 3.2476,
      "step": 325
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.9248234033584595,
      "learning_rate": 0.0004998220711195496,
      "loss": 3.4082,
      "step": 326
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.98225337266922,
      "learning_rate": 0.0004998181395850911,
      "loss": 3.3088,
      "step": 327
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.9588015675544739,
      "learning_rate": 0.0004998141651039982,
      "loss": 3.355,
      "step": 328
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.9693260788917542,
      "learning_rate": 0.0004998101476769542,
      "loss": 3.4542,
      "step": 329
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.9726523160934448,
      "learning_rate": 0.0004998060873046498,
      "loss": 3.485,
      "step": 330
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.8880998492240906,
      "learning_rate": 0.000499801983987783,
      "loss": 3.3042,
      "step": 331
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.8584858775138855,
      "learning_rate": 0.0004997978377270591,
      "loss": 3.2831,
      "step": 332
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.8802865147590637,
      "learning_rate": 0.0004997936485231911,
      "loss": 3.4587,
      "step": 333
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.888714075088501,
      "learning_rate": 0.0004997894163768992,
      "loss": 3.3754,
      "step": 334
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.9015646576881409,
      "learning_rate": 0.0004997851412889106,
      "loss": 3.3028,
      "step": 335
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.8501845598220825,
      "learning_rate": 0.0004997808232599604,
      "loss": 3.2853,
      "step": 336
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.8275288939476013,
      "learning_rate": 0.0004997764622907911,
      "loss": 3.3261,
      "step": 337
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.925695538520813,
      "learning_rate": 0.0004997720583821523,
      "loss": 3.3,
      "step": 338
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.900200366973877,
      "learning_rate": 0.000499767611534801,
      "loss": 3.3832,
      "step": 339
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.9407280087471008,
      "learning_rate": 0.0004997631217495018,
      "loss": 3.3678,
      "step": 340
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.8436535596847534,
      "learning_rate": 0.0004997585890270265,
      "loss": 3.4129,
      "step": 341
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.9482797384262085,
      "learning_rate": 0.0004997540133681541,
      "loss": 3.2915,
      "step": 342
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.8557898998260498,
      "learning_rate": 0.0004997493947736715,
      "loss": 3.3486,
      "step": 343
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.8537076711654663,
      "learning_rate": 0.0004997447332443727,
      "loss": 3.3288,
      "step": 344
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.8827608227729797,
      "learning_rate": 0.0004997400287810587,
      "loss": 3.402,
      "step": 345
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.9309095740318298,
      "learning_rate": 0.0004997352813845388,
      "loss": 3.3223,
      "step": 346
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.8534759879112244,
      "learning_rate": 0.0004997304910556288,
      "loss": 3.3359,
      "step": 347
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.0045480728149414,
      "learning_rate": 0.0004997256577951521,
      "loss": 3.3714,
      "step": 348
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.9347639083862305,
      "learning_rate": 0.0004997207816039398,
      "loss": 3.2939,
      "step": 349
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.9422224164009094,
      "learning_rate": 0.0004997158624828303,
      "loss": 3.2611,
      "step": 350
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.9286894798278809,
      "learning_rate": 0.000499710900432669,
      "loss": 3.3284,
      "step": 351
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.0035287141799927,
      "learning_rate": 0.0004997058954543089,
      "loss": 3.3931,
      "step": 352
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.8783855438232422,
      "learning_rate": 0.0004997008475486107,
      "loss": 3.2929,
      "step": 353
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.8703070282936096,
      "learning_rate": 0.000499695756716442,
      "loss": 3.3557,
      "step": 354
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.9003591537475586,
      "learning_rate": 0.0004996906229586778,
      "loss": 3.3284,
      "step": 355
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.9283729791641235,
      "learning_rate": 0.000499685446276201,
      "loss": 3.2886,
      "step": 356
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.851082980632782,
      "learning_rate": 0.0004996802266699014,
      "loss": 3.29,
      "step": 357
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.8698976635932922,
      "learning_rate": 0.0004996749641406763,
      "loss": 3.3251,
      "step": 358
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.9044091105461121,
      "learning_rate": 0.0004996696586894304,
      "loss": 3.4374,
      "step": 359
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.8700963854789734,
      "learning_rate": 0.0004996643103170757,
      "loss": 3.3422,
      "step": 360
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.8588965535163879,
      "learning_rate": 0.0004996589190245318,
      "loss": 3.5049,
      "step": 361
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.8260053396224976,
      "learning_rate": 0.0004996534848127253,
      "loss": 3.2336,
      "step": 362
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.9005407691001892,
      "learning_rate": 0.0004996480076825906,
      "loss": 3.414,
      "step": 363
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.8628164529800415,
      "learning_rate": 0.0004996424876350692,
      "loss": 3.3147,
      "step": 364
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.7861232757568359,
      "learning_rate": 0.00049963692467111,
      "loss": 3.2516,
      "step": 365
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.8467465043067932,
      "learning_rate": 0.0004996313187916694,
      "loss": 3.3397,
      "step": 366
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.9023212194442749,
      "learning_rate": 0.0004996256699977112,
      "loss": 3.3012,
      "step": 367
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.8666999340057373,
      "learning_rate": 0.0004996199782902064,
      "loss": 3.1655,
      "step": 368
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.9057793021202087,
      "learning_rate": 0.0004996142436701336,
      "loss": 3.2696,
      "step": 369
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.0284768342971802,
      "learning_rate": 0.0004996084661384783,
      "loss": 3.4145,
      "step": 370
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.8676618933677673,
      "learning_rate": 0.0004996026456962341,
      "loss": 3.3926,
      "step": 371
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.8818458914756775,
      "learning_rate": 0.0004995967823444015,
      "loss": 3.2894,
      "step": 372
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.8763004541397095,
      "learning_rate": 0.0004995908760839884,
      "loss": 3.4059,
      "step": 373
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.8701231479644775,
      "learning_rate": 0.0004995849269160102,
      "loss": 3.4619,
      "step": 374
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.8816999197006226,
      "learning_rate": 0.0004995789348414897,
      "loss": 3.2222,
      "step": 375
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.8883576393127441,
      "learning_rate": 0.0004995728998614567,
      "loss": 3.3708,
      "step": 376
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.8523690104484558,
      "learning_rate": 0.0004995668219769492,
      "loss": 3.3789,
      "step": 377
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.9049479961395264,
      "learning_rate": 0.0004995607011890115,
      "loss": 3.2446,
      "step": 378
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.878680408000946,
      "learning_rate": 0.0004995545374986963,
      "loss": 3.3079,
      "step": 379
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.9740517139434814,
      "learning_rate": 0.000499548330907063,
      "loss": 3.425,
      "step": 380
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.9445939660072327,
      "learning_rate": 0.0004995420814151786,
      "loss": 3.3164,
      "step": 381
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.8564472198486328,
      "learning_rate": 0.0004995357890241174,
      "loss": 3.2646,
      "step": 382
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.9593047499656677,
      "learning_rate": 0.0004995294537349612,
      "loss": 3.3889,
      "step": 383
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.8338291049003601,
      "learning_rate": 0.0004995230755487992,
      "loss": 3.3768,
      "step": 384
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.8052313923835754,
      "learning_rate": 0.0004995166544667278,
      "loss": 3.292,
      "step": 385
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.8226228356361389,
      "learning_rate": 0.0004995101904898507,
      "loss": 3.2732,
      "step": 386
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.8201104998588562,
      "learning_rate": 0.0004995036836192793,
      "loss": 3.2958,
      "step": 387
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.8884427547454834,
      "learning_rate": 0.0004994971338561323,
      "loss": 3.3039,
      "step": 388
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.8893910050392151,
      "learning_rate": 0.0004994905412015356,
      "loss": 3.2966,
      "step": 389
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.8998570442199707,
      "learning_rate": 0.0004994839056566225,
      "loss": 3.3643,
      "step": 390
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.8309845328330994,
      "learning_rate": 0.0004994772272225337,
      "loss": 3.3389,
      "step": 391
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.9019764065742493,
      "learning_rate": 0.0004994705059004174,
      "loss": 3.2044,
      "step": 392
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.8544824719429016,
      "learning_rate": 0.000499463741691429,
      "loss": 3.331,
      "step": 393
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.9328374266624451,
      "learning_rate": 0.0004994569345967314,
      "loss": 3.2847,
      "step": 394
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.9413173794746399,
      "learning_rate": 0.0004994500846174947,
      "loss": 3.4121,
      "step": 395
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.96828293800354,
      "learning_rate": 0.0004994431917548966,
      "loss": 3.2471,
      "step": 396
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.7860639095306396,
      "learning_rate": 0.0004994362560101221,
      "loss": 3.3058,
      "step": 397
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.851533055305481,
      "learning_rate": 0.0004994292773843635,
      "loss": 3.2459,
      "step": 398
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.8600687384605408,
      "learning_rate": 0.0004994222558788204,
      "loss": 3.3965,
      "step": 399
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.8783775568008423,
      "learning_rate": 0.0004994151914947001,
      "loss": 3.1877,
      "step": 400
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.9203815460205078,
      "learning_rate": 0.0004994080842332168,
      "loss": 3.3596,
      "step": 401
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.873682975769043,
      "learning_rate": 0.0004994009340955924,
      "loss": 3.3912,
      "step": 402
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.8283637762069702,
      "learning_rate": 0.0004993937410830561,
      "loss": 3.29,
      "step": 403
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.8804185390472412,
      "learning_rate": 0.0004993865051968447,
      "loss": 3.3269,
      "step": 404
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.9361125826835632,
      "learning_rate": 0.0004993792264382017,
      "loss": 3.2093,
      "step": 405
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.8902988433837891,
      "learning_rate": 0.0004993719048083788,
      "loss": 3.2134,
      "step": 406
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.9067161083221436,
      "learning_rate": 0.0004993645403086344,
      "loss": 3.304,
      "step": 407
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.89499831199646,
      "learning_rate": 0.0004993571329402346,
      "loss": 3.3628,
      "step": 408
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.8641107082366943,
      "learning_rate": 0.0004993496827044529,
      "loss": 3.3204,
      "step": 409
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.8516560792922974,
      "learning_rate": 0.00049934218960257,
      "loss": 3.3807,
      "step": 410
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.8112964034080505,
      "learning_rate": 0.0004993346536358742,
      "loss": 3.2695,
      "step": 411
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.7770432829856873,
      "learning_rate": 0.0004993270748056607,
      "loss": 3.3173,
      "step": 412
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.8118311762809753,
      "learning_rate": 0.0004993194531132328,
      "loss": 3.3057,
      "step": 413
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.8164411783218384,
      "learning_rate": 0.0004993117885599004,
      "loss": 3.2191,
      "step": 414
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.7953284978866577,
      "learning_rate": 0.0004993040811469815,
      "loss": 3.2439,
      "step": 415
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.8903238773345947,
      "learning_rate": 0.0004992963308758006,
      "loss": 3.3746,
      "step": 416
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.8366446495056152,
      "learning_rate": 0.0004992885377476904,
      "loss": 3.3409,
      "step": 417
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.7893164753913879,
      "learning_rate": 0.0004992807017639906,
      "loss": 3.1698,
      "step": 418
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.948053240776062,
      "learning_rate": 0.0004992728229260484,
      "loss": 3.3599,
      "step": 419
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.9189316034317017,
      "learning_rate": 0.000499264901235218,
      "loss": 3.2682,
      "step": 420
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.8456563353538513,
      "learning_rate": 0.0004992569366928612,
      "loss": 3.1996,
      "step": 421
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.9652197957038879,
      "learning_rate": 0.0004992489293003475,
      "loss": 3.2399,
      "step": 422
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.8646621108055115,
      "learning_rate": 0.0004992408790590534,
      "loss": 3.2877,
      "step": 423
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.8752239346504211,
      "learning_rate": 0.0004992327859703626,
      "loss": 3.3071,
      "step": 424
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.8467066884040833,
      "learning_rate": 0.0004992246500356665,
      "loss": 3.2315,
      "step": 425
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.8918457627296448,
      "learning_rate": 0.0004992164712563639,
      "loss": 3.2951,
      "step": 426
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.9143480062484741,
      "learning_rate": 0.0004992082496338607,
      "loss": 3.3473,
      "step": 427
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.8318435549736023,
      "learning_rate": 0.0004991999851695704,
      "loss": 3.2649,
      "step": 428
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.8219277858734131,
      "learning_rate": 0.0004991916778649135,
      "loss": 3.3573,
      "step": 429
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.8015074133872986,
      "learning_rate": 0.0004991833277213183,
      "loss": 3.3433,
      "step": 430
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.8743427991867065,
      "learning_rate": 0.0004991749347402205,
      "loss": 3.3495,
      "step": 431
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.0043267011642456,
      "learning_rate": 0.0004991664989230626,
      "loss": 3.4153,
      "step": 432
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.8166640996932983,
      "learning_rate": 0.0004991580202712949,
      "loss": 3.2143,
      "step": 433
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.8351383805274963,
      "learning_rate": 0.0004991494987863751,
      "loss": 3.3188,
      "step": 434
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.8826021552085876,
      "learning_rate": 0.0004991409344697681,
      "loss": 3.3501,
      "step": 435
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.8635115623474121,
      "learning_rate": 0.0004991323273229461,
      "loss": 3.1531,
      "step": 436
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.8257781267166138,
      "learning_rate": 0.0004991236773473889,
      "loss": 3.3321,
      "step": 437
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.9497929215431213,
      "learning_rate": 0.0004991149845445834,
      "loss": 3.2072,
      "step": 438
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.8480918407440186,
      "learning_rate": 0.0004991062489160241,
      "loss": 3.2891,
      "step": 439
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.8376510143280029,
      "learning_rate": 0.0004990974704632128,
      "loss": 3.3074,
      "step": 440
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.8785485625267029,
      "learning_rate": 0.0004990886491876583,
      "loss": 3.3351,
      "step": 441
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.8330756425857544,
      "learning_rate": 0.0004990797850908775,
      "loss": 3.3235,
      "step": 442
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.7930209636688232,
      "learning_rate": 0.0004990708781743942,
      "loss": 3.2869,
      "step": 443
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.820327639579773,
      "learning_rate": 0.0004990619284397393,
      "loss": 3.3373,
      "step": 444
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.7689661383628845,
      "learning_rate": 0.0004990529358884515,
      "loss": 3.3068,
      "step": 445
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.8465613722801208,
      "learning_rate": 0.0004990439005220768,
      "loss": 3.3243,
      "step": 446
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.8027602434158325,
      "learning_rate": 0.0004990348223421685,
      "loss": 3.2767,
      "step": 447
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.7947962284088135,
      "learning_rate": 0.0004990257013502871,
      "loss": 3.3095,
      "step": 448
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.7623792886734009,
      "learning_rate": 0.0004990165375480007,
      "loss": 3.2775,
      "step": 449
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.8369211554527283,
      "learning_rate": 0.0004990073309368847,
      "loss": 3.2574,
      "step": 450
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.7849658727645874,
      "learning_rate": 0.0004989980815185217,
      "loss": 3.276,
      "step": 451
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.894970178604126,
      "learning_rate": 0.0004989887892945018,
      "loss": 3.2575,
      "step": 452
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.8640308380126953,
      "learning_rate": 0.0004989794542664226,
      "loss": 3.3411,
      "step": 453
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.8278290629386902,
      "learning_rate": 0.0004989700764358888,
      "loss": 3.257,
      "step": 454
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.9165630340576172,
      "learning_rate": 0.0004989606558045126,
      "loss": 3.2224,
      "step": 455
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.8843680620193481,
      "learning_rate": 0.0004989511923739133,
      "loss": 3.2151,
      "step": 456
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.9021055698394775,
      "learning_rate": 0.0004989416861457181,
      "loss": 3.3324,
      "step": 457
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.831806480884552,
      "learning_rate": 0.000498932137121561,
      "loss": 3.3134,
      "step": 458
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.8513107299804688,
      "learning_rate": 0.0004989225453030837,
      "loss": 3.227,
      "step": 459
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.7914179563522339,
      "learning_rate": 0.000498912910691935,
      "loss": 3.2605,
      "step": 460
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.9145931601524353,
      "learning_rate": 0.0004989032332897714,
      "loss": 3.3528,
      "step": 461
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.8284948468208313,
      "learning_rate": 0.0004988935130982564,
      "loss": 3.2923,
      "step": 462
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.8581632375717163,
      "learning_rate": 0.000498883750119061,
      "loss": 3.2563,
      "step": 463
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.8162437081336975,
      "learning_rate": 0.0004988739443538638,
      "loss": 3.2616,
      "step": 464
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.9368686676025391,
      "learning_rate": 0.0004988640958043504,
      "loss": 3.3089,
      "step": 465
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.8904808759689331,
      "learning_rate": 0.0004988542044722138,
      "loss": 3.2648,
      "step": 466
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.8685797452926636,
      "learning_rate": 0.0004988442703591545,
      "loss": 3.2616,
      "step": 467
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.8501156568527222,
      "learning_rate": 0.0004988342934668801,
      "loss": 3.3017,
      "step": 468
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.812736451625824,
      "learning_rate": 0.0004988242737971061,
      "loss": 3.2484,
      "step": 469
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.7889308333396912,
      "learning_rate": 0.0004988142113515548,
      "loss": 3.279,
      "step": 470
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.8524118661880493,
      "learning_rate": 0.000498804106131956,
      "loss": 3.2673,
      "step": 471
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.8437165021896362,
      "learning_rate": 0.000498793958140047,
      "loss": 3.3428,
      "step": 472
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.7721450328826904,
      "learning_rate": 0.0004987837673775723,
      "loss": 3.2706,
      "step": 473
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.8527876734733582,
      "learning_rate": 0.000498773533846284,
      "loss": 3.2884,
      "step": 474
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.8540341854095459,
      "learning_rate": 0.000498763257547941,
      "loss": 3.2935,
      "step": 475
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.7813804149627686,
      "learning_rate": 0.0004987529384843102,
      "loss": 3.1505,
      "step": 476
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.8047890663146973,
      "learning_rate": 0.0004987425766571655,
      "loss": 3.2426,
      "step": 477
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.833784282207489,
      "learning_rate": 0.0004987321720682882,
      "loss": 3.2633,
      "step": 478
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.8830088376998901,
      "learning_rate": 0.000498721724719467,
      "loss": 3.3986,
      "step": 479
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.8627099394798279,
      "learning_rate": 0.0004987112346124978,
      "loss": 3.1944,
      "step": 480
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.8232061862945557,
      "learning_rate": 0.0004987007017491842,
      "loss": 3.1818,
      "step": 481
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.9497818350791931,
      "learning_rate": 0.0004986901261313366,
      "loss": 3.3873,
      "step": 482
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.9051064848899841,
      "learning_rate": 0.0004986795077607733,
      "loss": 3.3175,
      "step": 483
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.773707389831543,
      "learning_rate": 0.0004986688466393198,
      "loss": 3.125,
      "step": 484
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.8291359543800354,
      "learning_rate": 0.0004986581427688086,
      "loss": 3.3262,
      "step": 485
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.8678820729255676,
      "learning_rate": 0.0004986473961510801,
      "loss": 3.2327,
      "step": 486
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.8286749124526978,
      "learning_rate": 0.0004986366067879815,
      "loss": 3.3658,
      "step": 487
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.843891441822052,
      "learning_rate": 0.0004986257746813678,
      "loss": 3.2609,
      "step": 488
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.7924721837043762,
      "learning_rate": 0.0004986148998331011,
      "loss": 3.2316,
      "step": 489
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.8056188821792603,
      "learning_rate": 0.0004986039822450509,
      "loss": 3.2613,
      "step": 490
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.919771134853363,
      "learning_rate": 0.0004985930219190942,
      "loss": 3.3141,
      "step": 491
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.7816137075424194,
      "learning_rate": 0.0004985820188571151,
      "loss": 3.1518,
      "step": 492
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.7800230979919434,
      "learning_rate": 0.0004985709730610051,
      "loss": 3.3061,
      "step": 493
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.8213257789611816,
      "learning_rate": 0.0004985598845326631,
      "loss": 3.2373,
      "step": 494
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.9460952877998352,
      "learning_rate": 0.0004985487532739955,
      "loss": 3.3279,
      "step": 495
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.844272792339325,
      "learning_rate": 0.0004985375792869157,
      "loss": 3.2704,
      "step": 496
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.8031860589981079,
      "learning_rate": 0.0004985263625733447,
      "loss": 3.1637,
      "step": 497
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.807299017906189,
      "learning_rate": 0.0004985151031352108,
      "loss": 3.2909,
      "step": 498
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.775915801525116,
      "learning_rate": 0.0004985038009744498,
      "loss": 3.2673,
      "step": 499
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.9571090936660767,
      "learning_rate": 0.0004984924560930044,
      "loss": 3.2792,
      "step": 500
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.8637433648109436,
      "learning_rate": 0.0004984810684928251,
      "loss": 3.325,
      "step": 501
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.8056181073188782,
      "learning_rate": 0.0004984696381758693,
      "loss": 3.2291,
      "step": 502
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.8031018972396851,
      "learning_rate": 0.0004984581651441024,
      "loss": 3.2343,
      "step": 503
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.8255301117897034,
      "learning_rate": 0.0004984466493994964,
      "loss": 3.2639,
      "step": 504
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.8152415156364441,
      "learning_rate": 0.0004984350909440311,
      "loss": 3.0767,
      "step": 505
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.861996591091156,
      "learning_rate": 0.0004984234897796937,
      "loss": 3.3169,
      "step": 506
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.786068856716156,
      "learning_rate": 0.0004984118459084783,
      "loss": 3.3009,
      "step": 507
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.9405472278594971,
      "learning_rate": 0.0004984001593323868,
      "loss": 3.2064,
      "step": 508
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.0332661867141724,
      "learning_rate": 0.0004983884300534283,
      "loss": 3.3075,
      "step": 509
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.836112380027771,
      "learning_rate": 0.000498376658073619,
      "loss": 3.1384,
      "step": 510
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.8535223007202148,
      "learning_rate": 0.0004983648433949828,
      "loss": 3.1941,
      "step": 511
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.8657870888710022,
      "learning_rate": 0.0004983529860195507,
      "loss": 3.2627,
      "step": 512
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.7683111429214478,
      "learning_rate": 0.0004983410859493611,
      "loss": 3.2194,
      "step": 513
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.8012915253639221,
      "learning_rate": 0.0004983291431864599,
      "loss": 3.2215,
      "step": 514
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.7984098792076111,
      "learning_rate": 0.0004983171577329001,
      "loss": 3.2215,
      "step": 515
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.8070016503334045,
      "learning_rate": 0.0004983051295907421,
      "loss": 3.3799,
      "step": 516
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.8680800795555115,
      "learning_rate": 0.0004982930587620537,
      "loss": 3.2552,
      "step": 517
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.8166979551315308,
      "learning_rate": 0.0004982809452489101,
      "loss": 3.2654,
      "step": 518
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.7748281359672546,
      "learning_rate": 0.0004982687890533936,
      "loss": 3.1556,
      "step": 519
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.8909294009208679,
      "learning_rate": 0.0004982565901775943,
      "loss": 3.3611,
      "step": 520
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.839682936668396,
      "learning_rate": 0.0004982443486236089,
      "loss": 3.2648,
      "step": 521
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.8947681784629822,
      "learning_rate": 0.0004982320643935421,
      "loss": 3.3666,
      "step": 522
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.8308464288711548,
      "learning_rate": 0.0004982197374895058,
      "loss": 3.2477,
      "step": 523
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.8223453760147095,
      "learning_rate": 0.0004982073679136189,
      "loss": 3.2693,
      "step": 524
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.7829692959785461,
      "learning_rate": 0.000498194955668008,
      "loss": 3.2371,
      "step": 525
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.795447051525116,
      "learning_rate": 0.000498182500754807,
      "loss": 3.1708,
      "step": 526
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.7705665230751038,
      "learning_rate": 0.0004981700031761567,
      "loss": 3.174,
      "step": 527
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.8146736025810242,
      "learning_rate": 0.0004981574629342061,
      "loss": 3.2747,
      "step": 528
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.8919797539710999,
      "learning_rate": 0.0004981448800311105,
      "loss": 3.2809,
      "step": 529
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.9015936255455017,
      "learning_rate": 0.0004981322544690335,
      "loss": 3.2471,
      "step": 530
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.8186083436012268,
      "learning_rate": 0.0004981195862501452,
      "loss": 3.1869,
      "step": 531
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.8392126560211182,
      "learning_rate": 0.0004981068753766237,
      "loss": 3.3615,
      "step": 532
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.8766223788261414,
      "learning_rate": 0.000498094121850654,
      "loss": 3.3064,
      "step": 533
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.881683349609375,
      "learning_rate": 0.0004980813256744286,
      "loss": 3.196,
      "step": 534
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.8488377928733826,
      "learning_rate": 0.0004980684868501472,
      "loss": 3.1985,
      "step": 535
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.7779845595359802,
      "learning_rate": 0.0004980556053800171,
      "loss": 3.2469,
      "step": 536
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.7623121738433838,
      "learning_rate": 0.0004980426812662527,
      "loss": 3.1101,
      "step": 537
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.8515347838401794,
      "learning_rate": 0.0004980297145110759,
      "loss": 3.2255,
      "step": 538
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.7432550191879272,
      "learning_rate": 0.0004980167051167158,
      "loss": 3.3136,
      "step": 539
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.8080678582191467,
      "learning_rate": 0.0004980036530854088,
      "loss": 3.1869,
      "step": 540
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.798193097114563,
      "learning_rate": 0.0004979905584193986,
      "loss": 3.2416,
      "step": 541
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.8141771554946899,
      "learning_rate": 0.0004979774211209367,
      "loss": 3.1966,
      "step": 542
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.82159823179245,
      "learning_rate": 0.0004979642411922811,
      "loss": 3.2225,
      "step": 543
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.8047246336936951,
      "learning_rate": 0.0004979510186356979,
      "loss": 3.293,
      "step": 544
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.8410893082618713,
      "learning_rate": 0.00049793775345346,
      "loss": 3.2685,
      "step": 545
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.8655613660812378,
      "learning_rate": 0.000497924445647848,
      "loss": 3.3542,
      "step": 546
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.8876256346702576,
      "learning_rate": 0.0004979110952211496,
      "loss": 3.2614,
      "step": 547
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.7986350059509277,
      "learning_rate": 0.00049789770217566,
      "loss": 3.1041,
      "step": 548
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.8286342024803162,
      "learning_rate": 0.0004978842665136814,
      "loss": 3.2115,
      "step": 549
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.8383080363273621,
      "learning_rate": 0.0004978707882375237,
      "loss": 3.3019,
      "step": 550
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.7958462238311768,
      "learning_rate": 0.000497857267349504,
      "loss": 3.2788,
      "step": 551
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.7739264369010925,
      "learning_rate": 0.0004978437038519465,
      "loss": 3.2204,
      "step": 552
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.7969443202018738,
      "learning_rate": 0.0004978300977471832,
      "loss": 3.4158,
      "step": 553
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.7698274850845337,
      "learning_rate": 0.0004978164490375529,
      "loss": 3.3193,
      "step": 554
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.7515177726745605,
      "learning_rate": 0.000497802757725402,
      "loss": 3.1876,
      "step": 555
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.7456156611442566,
      "learning_rate": 0.0004977890238130844,
      "loss": 3.2232,
      "step": 556
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.8401142954826355,
      "learning_rate": 0.000497775247302961,
      "loss": 3.2079,
      "step": 557
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.8884381651878357,
      "learning_rate": 0.0004977614281974002,
      "loss": 3.2808,
      "step": 558
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.7889826893806458,
      "learning_rate": 0.0004977475664987773,
      "loss": 3.2378,
      "step": 559
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.868035078048706,
      "learning_rate": 0.0004977336622094759,
      "loss": 3.1606,
      "step": 560
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.8310713768005371,
      "learning_rate": 0.0004977197153318858,
      "loss": 3.2218,
      "step": 561
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.8112058043479919,
      "learning_rate": 0.000497705725868405,
      "loss": 3.253,
      "step": 562
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.8138726949691772,
      "learning_rate": 0.0004976916938214381,
      "loss": 3.2527,
      "step": 563
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.7819399833679199,
      "learning_rate": 0.0004976776191933976,
      "loss": 3.2059,
      "step": 564
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.1201688051223755,
      "learning_rate": 0.000497663501986703,
      "loss": 3.2203,
      "step": 565
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.8240514397621155,
      "learning_rate": 0.0004976493422037813,
      "loss": 3.2391,
      "step": 566
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.858668863773346,
      "learning_rate": 0.0004976351398470667,
      "loss": 3.2667,
      "step": 567
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.8436779975891113,
      "learning_rate": 0.0004976208949190007,
      "loss": 3.2324,
      "step": 568
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.8614015579223633,
      "learning_rate": 0.0004976066074220322,
      "loss": 3.3872,
      "step": 569
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.8754225373268127,
      "learning_rate": 0.0004975922773586173,
      "loss": 3.2783,
      "step": 570
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.8181993961334229,
      "learning_rate": 0.0004975779047312198,
      "loss": 3.203,
      "step": 571
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.8257197737693787,
      "learning_rate": 0.0004975634895423101,
      "loss": 3.3017,
      "step": 572
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.8339946866035461,
      "learning_rate": 0.0004975490317943666,
      "loss": 3.3193,
      "step": 573
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.7927084565162659,
      "learning_rate": 0.0004975345314898747,
      "loss": 3.132,
      "step": 574
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.8569142818450928,
      "learning_rate": 0.0004975199886313272,
      "loss": 3.2178,
      "step": 575
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.860379695892334,
      "learning_rate": 0.0004975054032212241,
      "loss": 3.247,
      "step": 576
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.813940703868866,
      "learning_rate": 0.0004974907752620729,
      "loss": 3.244,
      "step": 577
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.8270849585533142,
      "learning_rate": 0.0004974761047563883,
      "loss": 3.1113,
      "step": 578
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.8120140433311462,
      "learning_rate": 0.0004974613917066923,
      "loss": 3.2354,
      "step": 579
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.864897608757019,
      "learning_rate": 0.0004974466361155141,
      "loss": 3.2208,
      "step": 580
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.7876554131507874,
      "learning_rate": 0.0004974318379853907,
      "loss": 3.2412,
      "step": 581
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.8355843424797058,
      "learning_rate": 0.0004974169973188658,
      "loss": 3.2162,
      "step": 582
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.808760941028595,
      "learning_rate": 0.0004974021141184908,
      "loss": 3.3244,
      "step": 583
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.834763765335083,
      "learning_rate": 0.0004973871883868242,
      "loss": 3.1541,
      "step": 584
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.874336302280426,
      "learning_rate": 0.0004973722201264319,
      "loss": 3.2559,
      "step": 585
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.7951452732086182,
      "learning_rate": 0.0004973572093398873,
      "loss": 3.2643,
      "step": 586
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.8048135042190552,
      "learning_rate": 0.0004973421560297707,
      "loss": 3.1791,
      "step": 587
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.8055500388145447,
      "learning_rate": 0.00049732706019867,
      "loss": 3.1012,
      "step": 588
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.8155314922332764,
      "learning_rate": 0.0004973119218491805,
      "loss": 3.2123,
      "step": 589
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.9198393225669861,
      "learning_rate": 0.0004972967409839045,
      "loss": 3.2959,
      "step": 590
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.8432374000549316,
      "learning_rate": 0.0004972815176054519,
      "loss": 3.1989,
      "step": 591
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.8124526739120483,
      "learning_rate": 0.0004972662517164396,
      "loss": 3.1816,
      "step": 592
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.7908508777618408,
      "learning_rate": 0.0004972509433194922,
      "loss": 3.2921,
      "step": 593
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.7466565370559692,
      "learning_rate": 0.0004972355924172411,
      "loss": 3.1575,
      "step": 594
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.9016310572624207,
      "learning_rate": 0.0004972201990123255,
      "loss": 3.1871,
      "step": 595
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.8503539562225342,
      "learning_rate": 0.0004972047631073917,
      "loss": 3.343,
      "step": 596
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.8097341060638428,
      "learning_rate": 0.0004971892847050933,
      "loss": 3.2412,
      "step": 597
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.7945522665977478,
      "learning_rate": 0.0004971737638080912,
      "loss": 3.1145,
      "step": 598
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.7693326473236084,
      "learning_rate": 0.0004971582004190536,
      "loss": 3.2277,
      "step": 599
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.7978106737136841,
      "learning_rate": 0.000497142594540656,
      "loss": 3.2583,
      "step": 600
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.794918417930603,
      "learning_rate": 0.0004971269461755813,
      "loss": 3.1863,
      "step": 601
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.7963128685951233,
      "learning_rate": 0.0004971112553265195,
      "loss": 3.2015,
      "step": 602
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.8417297005653381,
      "learning_rate": 0.0004970955219961683,
      "loss": 3.3934,
      "step": 603
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.807292103767395,
      "learning_rate": 0.0004970797461872323,
      "loss": 3.3487,
      "step": 604
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.8709632754325867,
      "learning_rate": 0.0004970639279024235,
      "loss": 3.2969,
      "step": 605
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.7998602986335754,
      "learning_rate": 0.0004970480671444613,
      "loss": 3.2673,
      "step": 606
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.8719452619552612,
      "learning_rate": 0.0004970321639160723,
      "loss": 3.2452,
      "step": 607
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.8391087651252747,
      "learning_rate": 0.0004970162182199904,
      "loss": 3.1245,
      "step": 608
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.8634110689163208,
      "learning_rate": 0.0004970002300589571,
      "loss": 3.2541,
      "step": 609
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.78258216381073,
      "learning_rate": 0.0004969841994357207,
      "loss": 3.256,
      "step": 610
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.7991787791252136,
      "learning_rate": 0.0004969681263530372,
      "loss": 3.1573,
      "step": 611
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.8331456184387207,
      "learning_rate": 0.0004969520108136696,
      "loss": 3.2776,
      "step": 612
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.7718057036399841,
      "learning_rate": 0.0004969358528203884,
      "loss": 3.2457,
      "step": 613
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.816456139087677,
      "learning_rate": 0.0004969196523759713,
      "loss": 3.2116,
      "step": 614
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.7798833847045898,
      "learning_rate": 0.0004969034094832036,
      "loss": 3.1882,
      "step": 615
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.8788123726844788,
      "learning_rate": 0.0004968871241448774,
      "loss": 3.2541,
      "step": 616
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.7762243747711182,
      "learning_rate": 0.0004968707963637924,
      "loss": 3.1731,
      "step": 617
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.8049880862236023,
      "learning_rate": 0.0004968544261427555,
      "loss": 3.2852,
      "step": 618
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.8399670124053955,
      "learning_rate": 0.0004968380134845811,
      "loss": 3.3206,
      "step": 619
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.7705085277557373,
      "learning_rate": 0.0004968215583920903,
      "loss": 3.1524,
      "step": 620
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.7442877292633057,
      "learning_rate": 0.0004968050608681125,
      "loss": 3.139,
      "step": 621
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.8314988613128662,
      "learning_rate": 0.0004967885209154833,
      "loss": 3.2401,
      "step": 622
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.7484127283096313,
      "learning_rate": 0.0004967719385370465,
      "loss": 3.1256,
      "step": 623
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.8102453947067261,
      "learning_rate": 0.0004967553137356527,
      "loss": 3.3109,
      "step": 624
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.8288254737854004,
      "learning_rate": 0.0004967386465141596,
      "loss": 3.1062,
      "step": 625
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.7331878542900085,
      "learning_rate": 0.0004967219368754329,
      "loss": 3.1685,
      "step": 626
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.8076781034469604,
      "learning_rate": 0.000496705184822345,
      "loss": 3.1563,
      "step": 627
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.8341305255889893,
      "learning_rate": 0.0004966883903577757,
      "loss": 3.1277,
      "step": 628
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.7554053068161011,
      "learning_rate": 0.0004966715534846123,
      "loss": 3.2519,
      "step": 629
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.8180379867553711,
      "learning_rate": 0.0004966546742057491,
      "loss": 3.2483,
      "step": 630
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.7938683032989502,
      "learning_rate": 0.000496637752524088,
      "loss": 3.2151,
      "step": 631
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.8008993864059448,
      "learning_rate": 0.000496620788442538,
      "loss": 3.0753,
      "step": 632
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.8423058986663818,
      "learning_rate": 0.0004966037819640153,
      "loss": 3.2023,
      "step": 633
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.7570742964744568,
      "learning_rate": 0.0004965867330914437,
      "loss": 3.2184,
      "step": 634
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.8164113163948059,
      "learning_rate": 0.000496569641827754,
      "loss": 3.277,
      "step": 635
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.7356129288673401,
      "learning_rate": 0.0004965525081758843,
      "loss": 3.314,
      "step": 636
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.7840850353240967,
      "learning_rate": 0.0004965353321387803,
      "loss": 3.1733,
      "step": 637
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.8404614925384521,
      "learning_rate": 0.0004965181137193946,
      "loss": 3.1734,
      "step": 638
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.7985842227935791,
      "learning_rate": 0.0004965008529206872,
      "loss": 3.0227,
      "step": 639
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.7843669652938843,
      "learning_rate": 0.0004964835497456255,
      "loss": 3.2228,
      "step": 640
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.8062067031860352,
      "learning_rate": 0.0004964662041971841,
      "loss": 3.1732,
      "step": 641
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.7828726172447205,
      "learning_rate": 0.000496448816278345,
      "loss": 3.1282,
      "step": 642
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.7727421522140503,
      "learning_rate": 0.0004964313859920972,
      "loss": 3.249,
      "step": 643
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.8095303773880005,
      "learning_rate": 0.0004964139133414373,
      "loss": 3.2348,
      "step": 644
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.7866719365119934,
      "learning_rate": 0.0004963963983293691,
      "loss": 3.2349,
      "step": 645
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.786817193031311,
      "learning_rate": 0.0004963788409589035,
      "loss": 3.1489,
      "step": 646
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.8595362305641174,
      "learning_rate": 0.0004963612412330589,
      "loss": 3.1822,
      "step": 647
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.8550577163696289,
      "learning_rate": 0.0004963435991548608,
      "loss": 3.2437,
      "step": 648
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.8778298497200012,
      "learning_rate": 0.0004963259147273422,
      "loss": 3.3029,
      "step": 649
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.7473272681236267,
      "learning_rate": 0.0004963081879535431,
      "loss": 3.178,
      "step": 650
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.736461877822876,
      "learning_rate": 0.0004962904188365112,
      "loss": 3.2642,
      "step": 651
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.7913596630096436,
      "learning_rate": 0.000496272607379301,
      "loss": 3.1961,
      "step": 652
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.7856170535087585,
      "learning_rate": 0.0004962547535849745,
      "loss": 3.1857,
      "step": 653
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.8391384482383728,
      "learning_rate": 0.0004962368574566011,
      "loss": 3.2375,
      "step": 654
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.814515233039856,
      "learning_rate": 0.0004962189189972573,
      "loss": 3.2312,
      "step": 655
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.8239343762397766,
      "learning_rate": 0.0004962009382100268,
      "loss": 3.2155,
      "step": 656
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.8467811942100525,
      "learning_rate": 0.0004961829150980009,
      "loss": 3.2932,
      "step": 657
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.8277666568756104,
      "learning_rate": 0.0004961648496642778,
      "loss": 3.2032,
      "step": 658
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.9125193953514099,
      "learning_rate": 0.0004961467419119634,
      "loss": 3.2455,
      "step": 659
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.8114781379699707,
      "learning_rate": 0.0004961285918441704,
      "loss": 3.1853,
      "step": 660
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.8168928623199463,
      "learning_rate": 0.0004961103994640192,
      "loss": 3.1058,
      "step": 661
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.8055258989334106,
      "learning_rate": 0.000496092164774637,
      "loss": 3.1691,
      "step": 662
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.8372176885604858,
      "learning_rate": 0.0004960738877791589,
      "loss": 3.1531,
      "step": 663
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.8378590941429138,
      "learning_rate": 0.0004960555684807266,
      "loss": 3.2356,
      "step": 664
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.7405421733856201,
      "learning_rate": 0.0004960372068824896,
      "loss": 3.1774,
      "step": 665
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.783378005027771,
      "learning_rate": 0.0004960188029876044,
      "loss": 3.2246,
      "step": 666
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.7834306359291077,
      "learning_rate": 0.000496000356799235,
      "loss": 3.2274,
      "step": 667
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.7974038124084473,
      "learning_rate": 0.0004959818683205523,
      "loss": 3.3185,
      "step": 668
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.8146881461143494,
      "learning_rate": 0.0004959633375547348,
      "loss": 3.2628,
      "step": 669
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.8136074542999268,
      "learning_rate": 0.0004959447645049681,
      "loss": 3.2247,
      "step": 670
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.783885657787323,
      "learning_rate": 0.0004959261491744452,
      "loss": 3.181,
      "step": 671
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.8300818800926208,
      "learning_rate": 0.0004959074915663661,
      "loss": 3.1001,
      "step": 672
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.8619693517684937,
      "learning_rate": 0.0004958887916839386,
      "loss": 3.2506,
      "step": 673
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.8219271898269653,
      "learning_rate": 0.000495870049530377,
      "loss": 3.3257,
      "step": 674
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.7955989837646484,
      "learning_rate": 0.0004958512651089036,
      "loss": 3.2077,
      "step": 675
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.7899826765060425,
      "learning_rate": 0.0004958324384227477,
      "loss": 3.1225,
      "step": 676
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.7637763619422913,
      "learning_rate": 0.0004958135694751455,
      "loss": 3.1964,
      "step": 677
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.7975013852119446,
      "learning_rate": 0.0004957946582693412,
      "loss": 3.2865,
      "step": 678
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.7904663681983948,
      "learning_rate": 0.0004957757048085856,
      "loss": 3.2296,
      "step": 679
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.7632079124450684,
      "learning_rate": 0.0004957567090961369,
      "loss": 3.2538,
      "step": 680
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.7954661250114441,
      "learning_rate": 0.000495737671135261,
      "loss": 3.2804,
      "step": 681
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.7962507605552673,
      "learning_rate": 0.0004957185909292306,
      "loss": 3.2089,
      "step": 682
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.7939118146896362,
      "learning_rate": 0.0004956994684813257,
      "loss": 3.1647,
      "step": 683
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.8056735992431641,
      "learning_rate": 0.0004956803037948338,
      "loss": 3.2442,
      "step": 684
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.8578899502754211,
      "learning_rate": 0.0004956610968730495,
      "loss": 3.3057,
      "step": 685
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.8003067374229431,
      "learning_rate": 0.0004956418477192748,
      "loss": 3.1898,
      "step": 686
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.8386518359184265,
      "learning_rate": 0.0004956225563368187,
      "loss": 3.2508,
      "step": 687
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.8830059170722961,
      "learning_rate": 0.0004956032227289976,
      "loss": 3.2517,
      "step": 688
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.8550218343734741,
      "learning_rate": 0.0004955838468991353,
      "loss": 3.1961,
      "step": 689
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.829289972782135,
      "learning_rate": 0.0004955644288505627,
      "loss": 3.2267,
      "step": 690
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.8229622840881348,
      "learning_rate": 0.0004955449685866179,
      "loss": 3.2138,
      "step": 691
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.7815004587173462,
      "learning_rate": 0.0004955254661106464,
      "loss": 3.1683,
      "step": 692
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.7458616495132446,
      "learning_rate": 0.000495505921426001,
      "loss": 3.0919,
      "step": 693
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.8131930828094482,
      "learning_rate": 0.0004954863345360414,
      "loss": 3.1049,
      "step": 694
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.8579103350639343,
      "learning_rate": 0.000495466705444135,
      "loss": 3.1359,
      "step": 695
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.7686862945556641,
      "learning_rate": 0.0004954470341536563,
      "loss": 3.1559,
      "step": 696
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.8515976071357727,
      "learning_rate": 0.000495427320667987,
      "loss": 3.1993,
      "step": 697
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.7668020725250244,
      "learning_rate": 0.000495407564990516,
      "loss": 3.1744,
      "step": 698
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.7823561429977417,
      "learning_rate": 0.0004953877671246395,
      "loss": 3.1262,
      "step": 699
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.8314328789710999,
      "learning_rate": 0.0004953679270737611,
      "loss": 3.3558,
      "step": 700
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.91652911901474,
      "learning_rate": 0.0004953480448412914,
      "loss": 3.1508,
      "step": 701
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.75039142370224,
      "learning_rate": 0.0004953281204306487,
      "loss": 3.0776,
      "step": 702
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.8023678660392761,
      "learning_rate": 0.0004953081538452579,
      "loss": 2.9605,
      "step": 703
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.7981593608856201,
      "learning_rate": 0.0004952881450885515,
      "loss": 3.302,
      "step": 704
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.8137184381484985,
      "learning_rate": 0.0004952680941639694,
      "loss": 3.2335,
      "step": 705
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.812974214553833,
      "learning_rate": 0.0004952480010749585,
      "loss": 3.1878,
      "step": 706
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.7773376107215881,
      "learning_rate": 0.0004952278658249731,
      "loss": 3.1713,
      "step": 707
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.7899234294891357,
      "learning_rate": 0.0004952076884174746,
      "loss": 3.1538,
      "step": 708
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.8097374439239502,
      "learning_rate": 0.0004951874688559318,
      "loss": 3.1532,
      "step": 709
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.8037636280059814,
      "learning_rate": 0.0004951672071438207,
      "loss": 3.2325,
      "step": 710
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.8517177104949951,
      "learning_rate": 0.0004951469032846243,
      "loss": 3.2643,
      "step": 711
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.9656453728675842,
      "learning_rate": 0.0004951265572818334,
      "loss": 3.2095,
      "step": 712
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.8388636112213135,
      "learning_rate": 0.0004951061691389455,
      "loss": 3.0699,
      "step": 713
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.8784646391868591,
      "learning_rate": 0.0004950857388594656,
      "loss": 3.196,
      "step": 714
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.8561444282531738,
      "learning_rate": 0.0004950652664469059,
      "loss": 3.1419,
      "step": 715
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.8257221579551697,
      "learning_rate": 0.000495044751904786,
      "loss": 3.1843,
      "step": 716
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.785919189453125,
      "learning_rate": 0.0004950241952366322,
      "loss": 3.2388,
      "step": 717
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.7487921714782715,
      "learning_rate": 0.0004950035964459789,
      "loss": 3.1254,
      "step": 718
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.7594534754753113,
      "learning_rate": 0.0004949829555363669,
      "loss": 3.1767,
      "step": 719
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.7179408073425293,
      "learning_rate": 0.0004949622725113448,
      "loss": 3.095,
      "step": 720
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.7371621131896973,
      "learning_rate": 0.0004949415473744683,
      "loss": 3.1609,
      "step": 721
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.8186366558074951,
      "learning_rate": 0.0004949207801293001,
      "loss": 3.1598,
      "step": 722
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.7889405488967896,
      "learning_rate": 0.0004948999707794105,
      "loss": 3.1483,
      "step": 723
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.795632541179657,
      "learning_rate": 0.0004948791193283765,
      "loss": 3.176,
      "step": 724
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.7957006692886353,
      "learning_rate": 0.0004948582257797834,
      "loss": 3.1701,
      "step": 725
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.756449282169342,
      "learning_rate": 0.0004948372901372224,
      "loss": 3.036,
      "step": 726
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.8057912588119507,
      "learning_rate": 0.000494816312404293,
      "loss": 3.2078,
      "step": 727
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.8147281408309937,
      "learning_rate": 0.0004947952925846013,
      "loss": 3.0595,
      "step": 728
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.775390088558197,
      "learning_rate": 0.0004947742306817608,
      "loss": 3.1465,
      "step": 729
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.8007650375366211,
      "learning_rate": 0.0004947531266993924,
      "loss": 3.1413,
      "step": 730
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.7899179458618164,
      "learning_rate": 0.0004947319806411243,
      "loss": 3.1775,
      "step": 731
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.7413837909698486,
      "learning_rate": 0.0004947107925105912,
      "loss": 3.1088,
      "step": 732
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.7642733454704285,
      "learning_rate": 0.0004946895623114362,
      "loss": 3.1822,
      "step": 733
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.8019469380378723,
      "learning_rate": 0.0004946682900473087,
      "loss": 3.194,
      "step": 734
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.8296893835067749,
      "learning_rate": 0.0004946469757218657,
      "loss": 3.2595,
      "step": 735
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.8006435632705688,
      "learning_rate": 0.0004946256193387714,
      "loss": 3.1991,
      "step": 736
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.7920798063278198,
      "learning_rate": 0.000494604220901697,
      "loss": 3.1178,
      "step": 737
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.8573008179664612,
      "learning_rate": 0.0004945827804143216,
      "loss": 3.2479,
      "step": 738
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.8149808049201965,
      "learning_rate": 0.0004945612978803307,
      "loss": 3.0455,
      "step": 739
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.8645340204238892,
      "learning_rate": 0.0004945397733034175,
      "loss": 3.194,
      "step": 740
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.7752776145935059,
      "learning_rate": 0.0004945182066872823,
      "loss": 3.116,
      "step": 741
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.8001033067703247,
      "learning_rate": 0.0004944965980356326,
      "loss": 3.1686,
      "step": 742
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.740094006061554,
      "learning_rate": 0.0004944749473521834,
      "loss": 3.2025,
      "step": 743
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.7618904113769531,
      "learning_rate": 0.0004944532546406565,
      "loss": 3.1952,
      "step": 744
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.8167763352394104,
      "learning_rate": 0.0004944315199047812,
      "loss": 3.2124,
      "step": 745
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.7856079936027527,
      "learning_rate": 0.0004944097431482939,
      "loss": 3.1972,
      "step": 746
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.8128622770309448,
      "learning_rate": 0.0004943879243749382,
      "loss": 3.2235,
      "step": 747
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.7755566835403442,
      "learning_rate": 0.0004943660635884652,
      "loss": 3.1448,
      "step": 748
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.8046150803565979,
      "learning_rate": 0.000494344160792633,
      "loss": 3.2077,
      "step": 749
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.7740402817726135,
      "learning_rate": 0.0004943222159912069,
      "loss": 3.1259,
      "step": 750
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.7699066400527954,
      "learning_rate": 0.0004943002291879593,
      "loss": 3.2091,
      "step": 751
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.7561420798301697,
      "learning_rate": 0.0004942782003866703,
      "loss": 3.2115,
      "step": 752
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.7682875394821167,
      "learning_rate": 0.0004942561295911267,
      "loss": 3.1517,
      "step": 753
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.057737112045288,
      "learning_rate": 0.0004942340168051226,
      "loss": 3.2063,
      "step": 754
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.7850863933563232,
      "learning_rate": 0.0004942118620324597,
      "loss": 3.1335,
      "step": 755
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.8603472709655762,
      "learning_rate": 0.0004941896652769466,
      "loss": 3.2415,
      "step": 756
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.8079708814620972,
      "learning_rate": 0.0004941674265423992,
      "loss": 3.0962,
      "step": 757
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.7889184951782227,
      "learning_rate": 0.0004941451458326404,
      "loss": 3.297,
      "step": 758
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.7808980941772461,
      "learning_rate": 0.0004941228231515008,
      "loss": 3.0623,
      "step": 759
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.7479590773582458,
      "learning_rate": 0.0004941004585028177,
      "loss": 3.1338,
      "step": 760
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.7709935307502747,
      "learning_rate": 0.000494078051890436,
      "loss": 3.1188,
      "step": 761
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.7622881531715393,
      "learning_rate": 0.0004940556033182075,
      "loss": 3.1126,
      "step": 762
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.7673145532608032,
      "learning_rate": 0.0004940331127899915,
      "loss": 3.2596,
      "step": 763
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.7565401792526245,
      "learning_rate": 0.0004940105803096544,
      "loss": 3.0244,
      "step": 764
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.8701707720756531,
      "learning_rate": 0.0004939880058810696,
      "loss": 3.1448,
      "step": 765
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.906973659992218,
      "learning_rate": 0.0004939653895081181,
      "loss": 3.0756,
      "step": 766
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.8255272507667542,
      "learning_rate": 0.000493942731194688,
      "loss": 3.075,
      "step": 767
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.7980096936225891,
      "learning_rate": 0.0004939200309446741,
      "loss": 3.1606,
      "step": 768
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.7460808157920837,
      "learning_rate": 0.0004938972887619793,
      "loss": 3.17,
      "step": 769
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.7725154757499695,
      "learning_rate": 0.0004938745046505129,
      "loss": 3.1927,
      "step": 770
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.8257179260253906,
      "learning_rate": 0.0004938516786141921,
      "loss": 3.255,
      "step": 771
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.8080815672874451,
      "learning_rate": 0.0004938288106569407,
      "loss": 3.2984,
      "step": 772
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.7528979182243347,
      "learning_rate": 0.0004938059007826901,
      "loss": 3.0602,
      "step": 773
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.742385983467102,
      "learning_rate": 0.0004937829489953787,
      "loss": 3.2376,
      "step": 774
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.7721338272094727,
      "learning_rate": 0.0004937599552989521,
      "loss": 3.1621,
      "step": 775
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.8247908353805542,
      "learning_rate": 0.0004937369196973633,
      "loss": 3.1878,
      "step": 776
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.73881596326828,
      "learning_rate": 0.0004937138421945724,
      "loss": 3.1463,
      "step": 777
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.8279528021812439,
      "learning_rate": 0.0004936907227945467,
      "loss": 3.1983,
      "step": 778
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.8558707237243652,
      "learning_rate": 0.0004936675615012606,
      "loss": 3.1649,
      "step": 779
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.7790194749832153,
      "learning_rate": 0.0004936443583186958,
      "loss": 3.1971,
      "step": 780
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.7925096750259399,
      "learning_rate": 0.0004936211132508413,
      "loss": 3.1487,
      "step": 781
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.7954431772232056,
      "learning_rate": 0.0004935978263016931,
      "loss": 3.0596,
      "step": 782
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.7861834764480591,
      "learning_rate": 0.0004935744974752546,
      "loss": 3.1573,
      "step": 783
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.8545987606048584,
      "learning_rate": 0.0004935511267755361,
      "loss": 3.0491,
      "step": 784
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.7023817300796509,
      "learning_rate": 0.0004935277142065556,
      "loss": 3.0877,
      "step": 785
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.7357751727104187,
      "learning_rate": 0.0004935042597723376,
      "loss": 3.1761,
      "step": 786
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.8413501977920532,
      "learning_rate": 0.0004934807634769145,
      "loss": 3.2087,
      "step": 787
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.8705039620399475,
      "learning_rate": 0.0004934572253243255,
      "loss": 3.1102,
      "step": 788
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.8261702656745911,
      "learning_rate": 0.0004934336453186171,
      "loss": 3.1836,
      "step": 789
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.7816116809844971,
      "learning_rate": 0.0004934100234638429,
      "loss": 3.2509,
      "step": 790
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.8050895929336548,
      "learning_rate": 0.0004933863597640638,
      "loss": 3.1609,
      "step": 791
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.864373505115509,
      "learning_rate": 0.0004933626542233478,
      "loss": 3.2794,
      "step": 792
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.751215398311615,
      "learning_rate": 0.0004933389068457704,
      "loss": 3.1138,
      "step": 793
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.7910088300704956,
      "learning_rate": 0.0004933151176354138,
      "loss": 3.1919,
      "step": 794
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.8344417810440063,
      "learning_rate": 0.0004932912865963677,
      "loss": 3.2236,
      "step": 795
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.7785961031913757,
      "learning_rate": 0.000493267413732729,
      "loss": 3.1768,
      "step": 796
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.7941307425498962,
      "learning_rate": 0.0004932434990486017,
      "loss": 3.0957,
      "step": 797
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.7781978845596313,
      "learning_rate": 0.000493219542548097,
      "loss": 3.019,
      "step": 798
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.7923656702041626,
      "learning_rate": 0.0004931955442353333,
      "loss": 3.3007,
      "step": 799
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.7769149541854858,
      "learning_rate": 0.0004931715041144361,
      "loss": 3.2361,
      "step": 800
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.7888388633728027,
      "learning_rate": 0.0004931474221895383,
      "loss": 3.0934,
      "step": 801
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.783631443977356,
      "learning_rate": 0.0004931232984647798,
      "loss": 3.1387,
      "step": 802
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.8145928382873535,
      "learning_rate": 0.0004930991329443079,
      "loss": 3.1696,
      "step": 803
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.8144843578338623,
      "learning_rate": 0.0004930749256322766,
      "loss": 3.2823,
      "step": 804
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.8048643469810486,
      "learning_rate": 0.0004930506765328477,
      "loss": 3.2049,
      "step": 805
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.7295867800712585,
      "learning_rate": 0.0004930263856501899,
      "loss": 3.0398,
      "step": 806
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.8474783897399902,
      "learning_rate": 0.0004930020529884789,
      "loss": 3.218,
      "step": 807
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.7492343783378601,
      "learning_rate": 0.000492977678551898,
      "loss": 3.232,
      "step": 808
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.7961130738258362,
      "learning_rate": 0.0004929532623446372,
      "loss": 3.0951,
      "step": 809
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.6812546253204346,
      "learning_rate": 0.000492928804370894,
      "loss": 3.091,
      "step": 810
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.7466310858726501,
      "learning_rate": 0.0004929043046348732,
      "loss": 3.1434,
      "step": 811
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.7959017753601074,
      "learning_rate": 0.0004928797631407863,
      "loss": 3.1686,
      "step": 812
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.7666565179824829,
      "learning_rate": 0.0004928551798928525,
      "loss": 3.163,
      "step": 813
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.7448673844337463,
      "learning_rate": 0.0004928305548952978,
      "loss": 3.0824,
      "step": 814
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.7981181740760803,
      "learning_rate": 0.0004928058881523557,
      "loss": 3.2545,
      "step": 815
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.7950250506401062,
      "learning_rate": 0.0004927811796682666,
      "loss": 3.2627,
      "step": 816
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.7991318106651306,
      "learning_rate": 0.000492756429447278,
      "loss": 3.0886,
      "step": 817
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.8313645124435425,
      "learning_rate": 0.0004927316374936449,
      "loss": 3.1757,
      "step": 818
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.7800725102424622,
      "learning_rate": 0.0004927068038116293,
      "loss": 3.1459,
      "step": 819
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.8354823589324951,
      "learning_rate": 0.0004926819284055006,
      "loss": 3.2173,
      "step": 820
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.8211414217948914,
      "learning_rate": 0.0004926570112795349,
      "loss": 3.2308,
      "step": 821
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.8093313574790955,
      "learning_rate": 0.0004926320524380159,
      "loss": 3.185,
      "step": 822
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.7901273369789124,
      "learning_rate": 0.0004926070518852341,
      "loss": 3.0252,
      "step": 823
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.7748168706893921,
      "learning_rate": 0.0004925820096254877,
      "loss": 3.007,
      "step": 824
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.8025330305099487,
      "learning_rate": 0.0004925569256630816,
      "loss": 3.2224,
      "step": 825
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.7763780951499939,
      "learning_rate": 0.0004925318000023279,
      "loss": 3.1017,
      "step": 826
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.7835895419120789,
      "learning_rate": 0.0004925066326475461,
      "loss": 3.0929,
      "step": 827
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.8720480799674988,
      "learning_rate": 0.0004924814236030629,
      "loss": 3.1613,
      "step": 828
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.8260117769241333,
      "learning_rate": 0.0004924561728732118,
      "loss": 3.1239,
      "step": 829
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.7707617878913879,
      "learning_rate": 0.0004924308804623339,
      "loss": 3.1187,
      "step": 830
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.8105254173278809,
      "learning_rate": 0.0004924055463747769,
      "loss": 3.0723,
      "step": 831
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.840761661529541,
      "learning_rate": 0.0004923801706148965,
      "loss": 3.0262,
      "step": 832
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.8167963624000549,
      "learning_rate": 0.0004923547531870548,
      "loss": 3.2199,
      "step": 833
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.8133165836334229,
      "learning_rate": 0.0004923292940956215,
      "loss": 3.151,
      "step": 834
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.0000311136245728,
      "learning_rate": 0.0004923037933449731,
      "loss": 3.1477,
      "step": 835
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.7415192127227783,
      "learning_rate": 0.0004922782509394937,
      "loss": 3.1456,
      "step": 836
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.7351272702217102,
      "learning_rate": 0.0004922526668835741,
      "loss": 3.0967,
      "step": 837
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.7849854826927185,
      "learning_rate": 0.0004922270411816126,
      "loss": 3.1831,
      "step": 838
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.762831449508667,
      "learning_rate": 0.0004922013738380147,
      "loss": 3.1839,
      "step": 839
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.8621921539306641,
      "learning_rate": 0.0004921756648571928,
      "loss": 3.174,
      "step": 840
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.7346796989440918,
      "learning_rate": 0.0004921499142435666,
      "loss": 3.1659,
      "step": 841
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.7643696069717407,
      "learning_rate": 0.0004921241220015627,
      "loss": 3.2075,
      "step": 842
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.8010022640228271,
      "learning_rate": 0.0004920982881356156,
      "loss": 3.1434,
      "step": 843
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.7779141068458557,
      "learning_rate": 0.0004920724126501659,
      "loss": 3.1683,
      "step": 844
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.9410672187805176,
      "learning_rate": 0.0004920464955496622,
      "loss": 3.1736,
      "step": 845
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.8751270771026611,
      "learning_rate": 0.0004920205368385598,
      "loss": 3.0029,
      "step": 846
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.7661620378494263,
      "learning_rate": 0.0004919945365213214,
      "loss": 3.1431,
      "step": 847
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.7846100330352783,
      "learning_rate": 0.0004919684946024168,
      "loss": 3.3073,
      "step": 848
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.7364773154258728,
      "learning_rate": 0.0004919424110863227,
      "loss": 3.1152,
      "step": 849
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.7084578275680542,
      "learning_rate": 0.0004919162859775235,
      "loss": 3.2034,
      "step": 850
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.8387327194213867,
      "learning_rate": 0.00049189011928051,
      "loss": 3.1534,
      "step": 851
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.7454947233200073,
      "learning_rate": 0.0004918639109997809,
      "loss": 3.2135,
      "step": 852
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.8473480939865112,
      "learning_rate": 0.0004918376611398415,
      "loss": 3.151,
      "step": 853
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.8050231337547302,
      "learning_rate": 0.0004918113697052046,
      "loss": 3.1616,
      "step": 854
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.7630332112312317,
      "learning_rate": 0.0004917850367003898,
      "loss": 3.145,
      "step": 855
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.8094182014465332,
      "learning_rate": 0.0004917586621299243,
      "loss": 3.1789,
      "step": 856
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.7529363036155701,
      "learning_rate": 0.0004917322459983421,
      "loss": 3.0673,
      "step": 857
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.8072242736816406,
      "learning_rate": 0.0004917057883101843,
      "loss": 3.1129,
      "step": 858
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.7652333974838257,
      "learning_rate": 0.0004916792890699995,
      "loss": 3.0731,
      "step": 859
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.799247682094574,
      "learning_rate": 0.000491652748282343,
      "loss": 3.2174,
      "step": 860
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.729888916015625,
      "learning_rate": 0.0004916261659517777,
      "loss": 3.2052,
      "step": 861
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.6973723769187927,
      "learning_rate": 0.0004915995420828732,
      "loss": 3.0379,
      "step": 862
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.8033698797225952,
      "learning_rate": 0.0004915728766802066,
      "loss": 3.1742,
      "step": 863
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.8083155155181885,
      "learning_rate": 0.000491546169748362,
      "loss": 3.0852,
      "step": 864
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.8475053906440735,
      "learning_rate": 0.0004915194212919305,
      "loss": 3.2537,
      "step": 865
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.8709810376167297,
      "learning_rate": 0.0004914926313155106,
      "loss": 2.9917,
      "step": 866
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.8336658477783203,
      "learning_rate": 0.0004914657998237078,
      "loss": 3.1547,
      "step": 867
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.833356499671936,
      "learning_rate": 0.0004914389268211346,
      "loss": 3.2012,
      "step": 868
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.7379767894744873,
      "learning_rate": 0.0004914120123124108,
      "loss": 3.2168,
      "step": 869
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.8554695844650269,
      "learning_rate": 0.0004913850563021636,
      "loss": 3.2654,
      "step": 870
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.8119440674781799,
      "learning_rate": 0.0004913580587950267,
      "loss": 3.0795,
      "step": 871
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.734264612197876,
      "learning_rate": 0.0004913310197956416,
      "loss": 3.1289,
      "step": 872
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.7747043371200562,
      "learning_rate": 0.0004913039393086563,
      "loss": 3.0985,
      "step": 873
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.7631490230560303,
      "learning_rate": 0.0004912768173387264,
      "loss": 3.1015,
      "step": 874
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.8074944615364075,
      "learning_rate": 0.0004912496538905145,
      "loss": 3.1843,
      "step": 875
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.7871323823928833,
      "learning_rate": 0.0004912224489686903,
      "loss": 2.9556,
      "step": 876
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.8650678992271423,
      "learning_rate": 0.0004911952025779306,
      "loss": 3.2123,
      "step": 877
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.872832715511322,
      "learning_rate": 0.0004911679147229194,
      "loss": 3.2633,
      "step": 878
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.7428544759750366,
      "learning_rate": 0.0004911405854083479,
      "loss": 3.1638,
      "step": 879
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.7209845781326294,
      "learning_rate": 0.0004911132146389141,
      "loss": 3.1377,
      "step": 880
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.7713220119476318,
      "learning_rate": 0.0004910858024193236,
      "loss": 3.0897,
      "step": 881
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.8399434685707092,
      "learning_rate": 0.0004910583487542886,
      "loss": 3.2712,
      "step": 882
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.7287729978561401,
      "learning_rate": 0.0004910308536485291,
      "loss": 3.0137,
      "step": 883
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.7791381478309631,
      "learning_rate": 0.0004910033171067713,
      "loss": 3.1167,
      "step": 884
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.747153103351593,
      "learning_rate": 0.0004909757391337496,
      "loss": 3.1147,
      "step": 885
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.731013834476471,
      "learning_rate": 0.0004909481197342046,
      "loss": 3.1314,
      "step": 886
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.77869713306427,
      "learning_rate": 0.0004909204589128845,
      "loss": 3.1649,
      "step": 887
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.82084059715271,
      "learning_rate": 0.0004908927566745446,
      "loss": 3.1224,
      "step": 888
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.8677763342857361,
      "learning_rate": 0.000490865013023947,
      "loss": 3.0957,
      "step": 889
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.7987636923789978,
      "learning_rate": 0.0004908372279658614,
      "loss": 3.0795,
      "step": 890
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.8148035407066345,
      "learning_rate": 0.0004908094015050643,
      "loss": 3.0889,
      "step": 891
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.7468644976615906,
      "learning_rate": 0.0004907815336463394,
      "loss": 3.1741,
      "step": 892
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.7790436148643494,
      "learning_rate": 0.0004907536243944774,
      "loss": 3.2578,
      "step": 893
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.7722559571266174,
      "learning_rate": 0.0004907256737542765,
      "loss": 3.0795,
      "step": 894
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.7494322657585144,
      "learning_rate": 0.0004906976817305413,
      "loss": 3.0857,
      "step": 895
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.8428046107292175,
      "learning_rate": 0.0004906696483280844,
      "loss": 3.143,
      "step": 896
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.7788102626800537,
      "learning_rate": 0.0004906415735517248,
      "loss": 3.1755,
      "step": 897
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.7331585884094238,
      "learning_rate": 0.0004906134574062888,
      "loss": 3.0858,
      "step": 898
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.8423627614974976,
      "learning_rate": 0.0004905852998966102,
      "loss": 3.105,
      "step": 899
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.7281811833381653,
      "learning_rate": 0.0004905571010275295,
      "loss": 3.0116,
      "step": 900
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.7760056257247925,
      "learning_rate": 0.0004905288608038943,
      "loss": 3.1262,
      "step": 901
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.8538889288902283,
      "learning_rate": 0.0004905005792305595,
      "loss": 3.2047,
      "step": 902
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.7817329168319702,
      "learning_rate": 0.0004904722563123869,
      "loss": 3.0583,
      "step": 903
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.7917819023132324,
      "learning_rate": 0.0004904438920542457,
      "loss": 3.1262,
      "step": 904
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.7621670961380005,
      "learning_rate": 0.000490415486461012,
      "loss": 3.13,
      "step": 905
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.7309154868125916,
      "learning_rate": 0.0004903870395375691,
      "loss": 2.9955,
      "step": 906
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.769264280796051,
      "learning_rate": 0.0004903585512888072,
      "loss": 3.0836,
      "step": 907
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.8221547603607178,
      "learning_rate": 0.0004903300217196239,
      "loss": 3.1869,
      "step": 908
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.7781970500946045,
      "learning_rate": 0.0004903014508349237,
      "loss": 3.1294,
      "step": 909
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.7950343489646912,
      "learning_rate": 0.0004902728386396184,
      "loss": 3.1693,
      "step": 910
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.8096061944961548,
      "learning_rate": 0.0004902441851386266,
      "loss": 3.1495,
      "step": 911
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.9188563823699951,
      "learning_rate": 0.0004902154903368741,
      "loss": 3.0722,
      "step": 912
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.7768486142158508,
      "learning_rate": 0.0004901867542392942,
      "loss": 3.1129,
      "step": 913
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.8074750900268555,
      "learning_rate": 0.0004901579768508265,
      "loss": 3.187,
      "step": 914
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.8133316040039062,
      "learning_rate": 0.0004901291581764186,
      "loss": 3.1819,
      "step": 915
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.8097006678581238,
      "learning_rate": 0.0004901002982210246,
      "loss": 3.1903,
      "step": 916
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.7193455100059509,
      "learning_rate": 0.0004900713969896059,
      "loss": 3.1282,
      "step": 917
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.8299717307090759,
      "learning_rate": 0.0004900424544871308,
      "loss": 3.1745,
      "step": 918
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.7765989899635315,
      "learning_rate": 0.0004900134707185751,
      "loss": 3.1353,
      "step": 919
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.7559002637863159,
      "learning_rate": 0.000489984445688921,
      "loss": 3.1855,
      "step": 920
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.791396975517273,
      "learning_rate": 0.0004899553794031589,
      "loss": 3.0641,
      "step": 921
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.7761039137840271,
      "learning_rate": 0.0004899262718662851,
      "loss": 3.327,
      "step": 922
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.7844943404197693,
      "learning_rate": 0.0004898971230833037,
      "loss": 3.1982,
      "step": 923
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.853265643119812,
      "learning_rate": 0.0004898679330592259,
      "loss": 3.1116,
      "step": 924
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.7901793718338013,
      "learning_rate": 0.0004898387017990694,
      "loss": 3.0633,
      "step": 925
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.7637305855751038,
      "learning_rate": 0.0004898094293078597,
      "loss": 3.2055,
      "step": 926
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.8082703948020935,
      "learning_rate": 0.000489780115590629,
      "loss": 2.944,
      "step": 927
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.7899450659751892,
      "learning_rate": 0.0004897507606524167,
      "loss": 3.1498,
      "step": 928
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.7653767466545105,
      "learning_rate": 0.0004897213644982691,
      "loss": 3.0368,
      "step": 929
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.7487985491752625,
      "learning_rate": 0.0004896919271332399,
      "loss": 3.0444,
      "step": 930
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.7626094818115234,
      "learning_rate": 0.0004896624485623896,
      "loss": 3.0787,
      "step": 931
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.7830517888069153,
      "learning_rate": 0.0004896329287907862,
      "loss": 3.039,
      "step": 932
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.7736455202102661,
      "learning_rate": 0.0004896033678235041,
      "loss": 3.1842,
      "step": 933
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.7358384728431702,
      "learning_rate": 0.0004895737656656254,
      "loss": 3.111,
      "step": 934
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.7668057680130005,
      "learning_rate": 0.000489544122322239,
      "loss": 3.127,
      "step": 935
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.7681951522827148,
      "learning_rate": 0.000489514437798441,
      "loss": 3.122,
      "step": 936
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.7263529300689697,
      "learning_rate": 0.0004894847120993344,
      "loss": 3.0477,
      "step": 937
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.7892306447029114,
      "learning_rate": 0.0004894549452300294,
      "loss": 3.1295,
      "step": 938
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.8354294300079346,
      "learning_rate": 0.0004894251371956433,
      "loss": 3.1428,
      "step": 939
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.801366925239563,
      "learning_rate": 0.0004893952880013005,
      "loss": 3.0956,
      "step": 940
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.7396368980407715,
      "learning_rate": 0.0004893653976521325,
      "loss": 3.0575,
      "step": 941
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.759361743927002,
      "learning_rate": 0.0004893354661532776,
      "loss": 3.0964,
      "step": 942
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.7550902366638184,
      "learning_rate": 0.0004893054935098814,
      "loss": 3.1352,
      "step": 943
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.8046644926071167,
      "learning_rate": 0.0004892754797270967,
      "loss": 3.0879,
      "step": 944
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.8123927116394043,
      "learning_rate": 0.000489245424810083,
      "loss": 3.1788,
      "step": 945
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.7839690446853638,
      "learning_rate": 0.0004892153287640072,
      "loss": 3.14,
      "step": 946
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.7610663771629333,
      "learning_rate": 0.0004891851915940433,
      "loss": 3.0407,
      "step": 947
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.8221336007118225,
      "learning_rate": 0.000489155013305372,
      "loss": 3.1143,
      "step": 948
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.7729817032814026,
      "learning_rate": 0.0004891247939031814,
      "loss": 3.0672,
      "step": 949
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.7808171510696411,
      "learning_rate": 0.0004890945333926665,
      "loss": 3.1579,
      "step": 950
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.7934726476669312,
      "learning_rate": 0.0004890642317790296,
      "loss": 3.1127,
      "step": 951
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.8210808634757996,
      "learning_rate": 0.0004890338890674797,
      "loss": 3.138,
      "step": 952
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.8331936597824097,
      "learning_rate": 0.0004890035052632333,
      "loss": 3.1105,
      "step": 953
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.7279844284057617,
      "learning_rate": 0.0004889730803715133,
      "loss": 3.2038,
      "step": 954
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.8052589297294617,
      "learning_rate": 0.0004889426143975507,
      "loss": 3.1431,
      "step": 955
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.8468417525291443,
      "learning_rate": 0.0004889121073465825,
      "loss": 3.1754,
      "step": 956
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.7418417930603027,
      "learning_rate": 0.0004888815592238532,
      "loss": 3.1019,
      "step": 957
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.7582772970199585,
      "learning_rate": 0.0004888509700346146,
      "loss": 3.0572,
      "step": 958
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.8100149035453796,
      "learning_rate": 0.0004888203397841253,
      "loss": 3.0909,
      "step": 959
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.8106011748313904,
      "learning_rate": 0.0004887896684776508,
      "loss": 3.0482,
      "step": 960
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.7839148044586182,
      "learning_rate": 0.0004887589561204642,
      "loss": 3.0196,
      "step": 961
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.7434236407279968,
      "learning_rate": 0.000488728202717845,
      "loss": 3.0536,
      "step": 962
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.7032672166824341,
      "learning_rate": 0.0004886974082750803,
      "loss": 3.07,
      "step": 963
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.7583878040313721,
      "learning_rate": 0.0004886665727974638,
      "loss": 3.0388,
      "step": 964
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.8290040493011475,
      "learning_rate": 0.0004886356962902965,
      "loss": 3.1484,
      "step": 965
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.8580990433692932,
      "learning_rate": 0.0004886047787588866,
      "loss": 3.1606,
      "step": 966
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.8086223602294922,
      "learning_rate": 0.0004885738202085491,
      "loss": 3.1575,
      "step": 967
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.7773696780204773,
      "learning_rate": 0.0004885428206446061,
      "loss": 3.1195,
      "step": 968
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.7840057015419006,
      "learning_rate": 0.0004885117800723869,
      "loss": 3.2235,
      "step": 969
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.8571383357048035,
      "learning_rate": 0.0004884806984972274,
      "loss": 3.123,
      "step": 970
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.8199949264526367,
      "learning_rate": 0.0004884495759244713,
      "loss": 3.119,
      "step": 971
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.8052157163619995,
      "learning_rate": 0.0004884184123594687,
      "loss": 3.1173,
      "step": 972
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.7803748846054077,
      "learning_rate": 0.0004883872078075771,
      "loss": 3.0533,
      "step": 973
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.8084946870803833,
      "learning_rate": 0.0004883559622741607,
      "loss": 3.1403,
      "step": 974
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.7928147315979004,
      "learning_rate": 0.0004883246757645914,
      "loss": 3.2023,
      "step": 975
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.8132579922676086,
      "learning_rate": 0.0004882933482842472,
      "loss": 3.0451,
      "step": 976
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.6919471025466919,
      "learning_rate": 0.00048826197983851396,
      "loss": 3.1093,
      "step": 977
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.842451810836792,
      "learning_rate": 0.00048823057043278427,
      "loss": 3.1859,
      "step": 978
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.7945736050605774,
      "learning_rate": 0.00048819912007245765,
      "loss": 3.1691,
      "step": 979
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.755107045173645,
      "learning_rate": 0.0004881676287629409,
      "loss": 3.0806,
      "step": 980
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.7409391403198242,
      "learning_rate": 0.0004881360965096476,
      "loss": 3.0766,
      "step": 981
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.6774417757987976,
      "learning_rate": 0.0004881045233179987,
      "loss": 3.0232,
      "step": 982
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.8147912621498108,
      "learning_rate": 0.00048807290919342187,
      "loss": 3.1716,
      "step": 983
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.803291380405426,
      "learning_rate": 0.00048804125414135194,
      "loss": 3.1489,
      "step": 984
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.7309107184410095,
      "learning_rate": 0.00048800955816723083,
      "loss": 2.9333,
      "step": 985
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.7794837355613708,
      "learning_rate": 0.0004879778212765075,
      "loss": 3.0318,
      "step": 986
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.7952728867530823,
      "learning_rate": 0.0004879460434746377,
      "loss": 3.0589,
      "step": 987
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.7925462126731873,
      "learning_rate": 0.0004879142247670846,
      "loss": 3.1304,
      "step": 988
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.7720109224319458,
      "learning_rate": 0.00048788236515931807,
      "loss": 3.1341,
      "step": 989
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.7599992156028748,
      "learning_rate": 0.00048785046465681515,
      "loss": 3.0615,
      "step": 990
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.778078019618988,
      "learning_rate": 0.00048781852326506,
      "loss": 3.1009,
      "step": 991
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.8170377016067505,
      "learning_rate": 0.0004877865409895438,
      "loss": 3.236,
      "step": 992
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.7491022348403931,
      "learning_rate": 0.0004877545178357644,
      "loss": 3.0984,
      "step": 993
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.8982537984848022,
      "learning_rate": 0.0004877224538092271,
      "loss": 3.1435,
      "step": 994
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.7958955764770508,
      "learning_rate": 0.00048769034891544416,
      "loss": 3.1679,
      "step": 995
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.849711000919342,
      "learning_rate": 0.00048765820315993465,
      "loss": 3.1489,
      "step": 996
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.7979795932769775,
      "learning_rate": 0.0004876260165482248,
      "loss": 3.1031,
      "step": 997
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.7730197906494141,
      "learning_rate": 0.000487593789085848,
      "loss": 3.0343,
      "step": 998
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.7760541439056396,
      "learning_rate": 0.00048756152077834435,
      "loss": 3.2742,
      "step": 999
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.7497321963310242,
      "learning_rate": 0.0004875292116312613,
      "loss": 3.193,
      "step": 1000
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.7299588918685913,
      "learning_rate": 0.00048749686165015305,
      "loss": 2.9501,
      "step": 1001
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.7249839901924133,
      "learning_rate": 0.00048746447084058105,
      "loss": 3.0394,
      "step": 1002
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.7334098815917969,
      "learning_rate": 0.0004874320392081135,
      "loss": 3.1747,
      "step": 1003
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.7603378295898438,
      "learning_rate": 0.00048739956675832594,
      "loss": 3.1266,
      "step": 1004
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.8326918482780457,
      "learning_rate": 0.00048736705349680063,
      "loss": 3.0335,
      "step": 1005
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.8327146172523499,
      "learning_rate": 0.000487334499429127,
      "loss": 3.1406,
      "step": 1006
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.8237720131874084,
      "learning_rate": 0.00048730190456090154,
      "loss": 3.0839,
      "step": 1007
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.7605228424072266,
      "learning_rate": 0.00048726926889772773,
      "loss": 3.0614,
      "step": 1008
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.7807241678237915,
      "learning_rate": 0.00048723659244521576,
      "loss": 3.0919,
      "step": 1009
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.791576623916626,
      "learning_rate": 0.00048720387520898343,
      "loss": 3.0732,
      "step": 1010
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.7735304236412048,
      "learning_rate": 0.0004871711171946549,
      "loss": 3.1267,
      "step": 1011
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.7510581016540527,
      "learning_rate": 0.00048713831840786195,
      "loss": 3.1343,
      "step": 1012
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.7346678972244263,
      "learning_rate": 0.0004871054788542428,
      "loss": 3.1519,
      "step": 1013
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.7236524820327759,
      "learning_rate": 0.0004870725985394431,
      "loss": 2.9618,
      "step": 1014
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.7763303518295288,
      "learning_rate": 0.00048703967746911535,
      "loss": 3.2793,
      "step": 1015
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.7871259450912476,
      "learning_rate": 0.0004870067156489191,
      "loss": 3.1612,
      "step": 1016
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.7219665050506592,
      "learning_rate": 0.00048697371308452077,
      "loss": 3.1188,
      "step": 1017
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.8086324334144592,
      "learning_rate": 0.0004869406697815939,
      "loss": 3.1199,
      "step": 1018
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.7763650417327881,
      "learning_rate": 0.00048690758574581905,
      "loss": 2.9123,
      "step": 1019
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.7999944686889648,
      "learning_rate": 0.00048687446098288374,
      "loss": 3.0696,
      "step": 1020
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.8003079891204834,
      "learning_rate": 0.0004868412954984825,
      "loss": 3.0608,
      "step": 1021
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.7624586224555969,
      "learning_rate": 0.0004868080892983169,
      "loss": 3.195,
      "step": 1022
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.7760161757469177,
      "learning_rate": 0.0004867748423880954,
      "loss": 3.0976,
      "step": 1023
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.7810815572738647,
      "learning_rate": 0.00048674155477353354,
      "loss": 3.0766,
      "step": 1024
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.7645638585090637,
      "learning_rate": 0.00048670822646035397,
      "loss": 3.0209,
      "step": 1025
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.8140057921409607,
      "learning_rate": 0.00048667485745428594,
      "loss": 3.0718,
      "step": 1026
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.7820358872413635,
      "learning_rate": 0.00048664144776106635,
      "loss": 3.0944,
      "step": 1027
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.7338622808456421,
      "learning_rate": 0.00048660799738643837,
      "loss": 3.0685,
      "step": 1028
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.7060651779174805,
      "learning_rate": 0.0004865745063361526,
      "loss": 2.9776,
      "step": 1029
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.7445093989372253,
      "learning_rate": 0.00048654097461596675,
      "loss": 3.1171,
      "step": 1030
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.710721492767334,
      "learning_rate": 0.00048650740223164503,
      "loss": 3.0799,
      "step": 1031
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.7137072086334229,
      "learning_rate": 0.00048647378918895904,
      "loss": 3.1706,
      "step": 1032
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.7708083391189575,
      "learning_rate": 0.0004864401354936873,
      "loss": 3.0555,
      "step": 1033
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.7968358397483826,
      "learning_rate": 0.00048640644115161523,
      "loss": 3.108,
      "step": 1034
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.7575024366378784,
      "learning_rate": 0.00048637270616853527,
      "loss": 3.0832,
      "step": 1035
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.7828728556632996,
      "learning_rate": 0.0004863389305502467,
      "loss": 3.1494,
      "step": 1036
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.7804394960403442,
      "learning_rate": 0.0004863051143025563,
      "loss": 3.1214,
      "step": 1037
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.7221829891204834,
      "learning_rate": 0.0004862712574312771,
      "loss": 3.0699,
      "step": 1038
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.7933685183525085,
      "learning_rate": 0.00048623735994222976,
      "loss": 3.1999,
      "step": 1039
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.8902670741081238,
      "learning_rate": 0.00048620342184124156,
      "loss": 3.1785,
      "step": 1040
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.6985933780670166,
      "learning_rate": 0.0004861694431341468,
      "loss": 2.9699,
      "step": 1041
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.8038967251777649,
      "learning_rate": 0.0004861354238267868,
      "loss": 3.1442,
      "step": 1042
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.7406994700431824,
      "learning_rate": 0.00048610136392501004,
      "loss": 3.162,
      "step": 1043
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.8267145156860352,
      "learning_rate": 0.0004860672634346716,
      "loss": 3.1413,
      "step": 1044
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.7060551643371582,
      "learning_rate": 0.0004860331223616339,
      "loss": 3.1587,
      "step": 1045
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.7671679854393005,
      "learning_rate": 0.0004859989407117661,
      "loss": 3.1332,
      "step": 1046
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.7579827904701233,
      "learning_rate": 0.0004859647184909445,
      "loss": 3.1644,
      "step": 1047
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.7998136878013611,
      "learning_rate": 0.00048593045570505223,
      "loss": 3.1107,
      "step": 1048
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.7739803194999695,
      "learning_rate": 0.00048589615235997954,
      "loss": 2.9749,
      "step": 1049
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.7785820364952087,
      "learning_rate": 0.0004858618084616234,
      "loss": 3.1849,
      "step": 1050
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.7292596697807312,
      "learning_rate": 0.00048582742401588814,
      "loss": 3.0165,
      "step": 1051
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.7664960622787476,
      "learning_rate": 0.0004857929990286847,
      "loss": 3.1389,
      "step": 1052
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.7895926833152771,
      "learning_rate": 0.0004857585335059312,
      "loss": 3.0099,
      "step": 1053
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.7723815441131592,
      "learning_rate": 0.0004857240274535526,
      "loss": 3.0919,
      "step": 1054
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.7742944955825806,
      "learning_rate": 0.000485689480877481,
      "loss": 3.0364,
      "step": 1055
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.7453765273094177,
      "learning_rate": 0.00048565489378365524,
      "loss": 3.0615,
      "step": 1056
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.7576524615287781,
      "learning_rate": 0.00048562026617802133,
      "loss": 3.0786,
      "step": 1057
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.7480469942092896,
      "learning_rate": 0.00048558559806653214,
      "loss": 3.0593,
      "step": 1058
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.7939931154251099,
      "learning_rate": 0.0004855508894551474,
      "loss": 3.1952,
      "step": 1059
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.8265641927719116,
      "learning_rate": 0.0004855161403498341,
      "loss": 3.1979,
      "step": 1060
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.7637991905212402,
      "learning_rate": 0.00048548135075656595,
      "loss": 3.1533,
      "step": 1061
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.8399221301078796,
      "learning_rate": 0.00048544652068132363,
      "loss": 3.1229,
      "step": 1062
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.7243072390556335,
      "learning_rate": 0.0004854116501300949,
      "loss": 2.9965,
      "step": 1063
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.763245165348053,
      "learning_rate": 0.00048537673910887435,
      "loss": 3.1064,
      "step": 1064
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.7408766746520996,
      "learning_rate": 0.00048534178762366364,
      "loss": 3.1574,
      "step": 1065
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.7566934823989868,
      "learning_rate": 0.0004853067956804713,
      "loss": 3.1127,
      "step": 1066
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.771052896976471,
      "learning_rate": 0.0004852717632853129,
      "loss": 3.0034,
      "step": 1067
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.7717300653457642,
      "learning_rate": 0.0004852366904442109,
      "loss": 3.1497,
      "step": 1068
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.7442424893379211,
      "learning_rate": 0.00048520157716319467,
      "loss": 3.0311,
      "step": 1069
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.7340958714485168,
      "learning_rate": 0.00048516642344830077,
      "loss": 3.1554,
      "step": 1070
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.7184415459632874,
      "learning_rate": 0.0004851312293055722,
      "loss": 3.0686,
      "step": 1071
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.8357366323471069,
      "learning_rate": 0.0004850959947410596,
      "loss": 3.126,
      "step": 1072
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.7495081424713135,
      "learning_rate": 0.00048506071976081995,
      "loss": 3.1086,
      "step": 1073
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.7783727049827576,
      "learning_rate": 0.00048502540437091754,
      "loss": 3.097,
      "step": 1074
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.7295953631401062,
      "learning_rate": 0.00048499004857742347,
      "loss": 3.0663,
      "step": 1075
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.7974899411201477,
      "learning_rate": 0.0004849546523864158,
      "loss": 3.1467,
      "step": 1076
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.7570532560348511,
      "learning_rate": 0.00048491921580397956,
      "loss": 3.1165,
      "step": 1077
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.695073127746582,
      "learning_rate": 0.00048488373883620676,
      "loss": 3.0999,
      "step": 1078
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.7731357216835022,
      "learning_rate": 0.00048484822148919614,
      "loss": 3.0816,
      "step": 1079
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.8031473159790039,
      "learning_rate": 0.0004848126637690537,
      "loss": 3.1166,
      "step": 1080
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.7230938076972961,
      "learning_rate": 0.00048477706568189215,
      "loss": 3.093,
      "step": 1081
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.73542320728302,
      "learning_rate": 0.0004847414272338313,
      "loss": 3.1655,
      "step": 1082
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.7013386487960815,
      "learning_rate": 0.0004847057484309977,
      "loss": 3.0338,
      "step": 1083
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.725774884223938,
      "learning_rate": 0.00048467002927952507,
      "loss": 2.9241,
      "step": 1084
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.706383466720581,
      "learning_rate": 0.0004846342697855538,
      "loss": 2.9962,
      "step": 1085
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.7732527852058411,
      "learning_rate": 0.0004845984699552315,
      "loss": 3.0767,
      "step": 1086
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.7635534405708313,
      "learning_rate": 0.0004845626297947125,
      "loss": 2.9462,
      "step": 1087
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.7711013555526733,
      "learning_rate": 0.0004845267493101582,
      "loss": 3.0613,
      "step": 1088
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.7221233248710632,
      "learning_rate": 0.0004844908285077367,
      "loss": 3.1099,
      "step": 1089
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.7480862736701965,
      "learning_rate": 0.00048445486739362345,
      "loss": 2.9979,
      "step": 1090
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.7466799020767212,
      "learning_rate": 0.00048441886597400043,
      "loss": 3.038,
      "step": 1091
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.7502163052558899,
      "learning_rate": 0.0004843828242550566,
      "loss": 3.0783,
      "step": 1092
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.742998480796814,
      "learning_rate": 0.00048434674224298824,
      "loss": 3.116,
      "step": 1093
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.773932158946991,
      "learning_rate": 0.0004843106199439981,
      "loss": 3.2471,
      "step": 1094
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.758937418460846,
      "learning_rate": 0.000484274457364296,
      "loss": 3.1651,
      "step": 1095
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.7495011687278748,
      "learning_rate": 0.0004842382545100987,
      "loss": 3.0324,
      "step": 1096
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.8457615375518799,
      "learning_rate": 0.00048420201138762997,
      "loss": 3.1337,
      "step": 1097
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.7523300647735596,
      "learning_rate": 0.0004841657280031204,
      "loss": 2.917,
      "step": 1098
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.737149715423584,
      "learning_rate": 0.0004841294043628074,
      "loss": 3.145,
      "step": 1099
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.8060630559921265,
      "learning_rate": 0.00048409304047293566,
      "loss": 3.0202,
      "step": 1100
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.7310526371002197,
      "learning_rate": 0.0004840566363397564,
      "loss": 3.152,
      "step": 1101
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.7755499482154846,
      "learning_rate": 0.00048402019196952783,
      "loss": 3.0999,
      "step": 1102
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.7423980236053467,
      "learning_rate": 0.0004839837073685154,
      "loss": 3.0953,
      "step": 1103
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.7486172318458557,
      "learning_rate": 0.00048394718254299096,
      "loss": 3.0985,
      "step": 1104
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.6888158917427063,
      "learning_rate": 0.0004839106174992338,
      "loss": 2.9456,
      "step": 1105
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.7079006433486938,
      "learning_rate": 0.0004838740122435298,
      "loss": 3.0245,
      "step": 1106
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.7250379920005798,
      "learning_rate": 0.00048383736678217173,
      "loss": 3.0692,
      "step": 1107
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.797798752784729,
      "learning_rate": 0.00048380068112145936,
      "loss": 3.0799,
      "step": 1108
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.7028024792671204,
      "learning_rate": 0.0004837639552676996,
      "loss": 3.071,
      "step": 1109
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.705637514591217,
      "learning_rate": 0.00048372718922720583,
      "loss": 3.1654,
      "step": 1110
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.7669064998626709,
      "learning_rate": 0.00048369038300629866,
      "loss": 3.0227,
      "step": 1111
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.7768532633781433,
      "learning_rate": 0.0004836535366113054,
      "loss": 3.0188,
      "step": 1112
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.7264866232872009,
      "learning_rate": 0.0004836166500485605,
      "loss": 3.039,
      "step": 1113
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.8339799642562866,
      "learning_rate": 0.0004835797233244052,
      "loss": 3.0202,
      "step": 1114
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.76205974817276,
      "learning_rate": 0.0004835427564451875,
      "loss": 3.101,
      "step": 1115
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.7144308686256409,
      "learning_rate": 0.0004835057494172625,
      "loss": 3.0179,
      "step": 1116
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.7730131149291992,
      "learning_rate": 0.00048346870224699225,
      "loss": 3.0796,
      "step": 1117
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.7159632444381714,
      "learning_rate": 0.0004834316149407454,
      "loss": 2.9714,
      "step": 1118
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.7977166175842285,
      "learning_rate": 0.0004833944875048978,
      "loss": 3.0748,
      "step": 1119
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.7036212682723999,
      "learning_rate": 0.000483357319945832,
      "loss": 3.1068,
      "step": 1120
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.8037140369415283,
      "learning_rate": 0.0004833201122699377,
      "loss": 3.1666,
      "step": 1121
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.7874569296836853,
      "learning_rate": 0.0004832828644836111,
      "loss": 3.0142,
      "step": 1122
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.7858064770698547,
      "learning_rate": 0.0004832455765932557,
      "loss": 3.2006,
      "step": 1123
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.7644646763801575,
      "learning_rate": 0.00048320824860528165,
      "loss": 3.0572,
      "step": 1124
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.7699077725410461,
      "learning_rate": 0.0004831708805261061,
      "loss": 3.1414,
      "step": 1125
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.6879233717918396,
      "learning_rate": 0.00048313347236215304,
      "loss": 3.0561,
      "step": 1126
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.7542356848716736,
      "learning_rate": 0.0004830960241198534,
      "loss": 3.0847,
      "step": 1127
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.7834572792053223,
      "learning_rate": 0.00048305853580564483,
      "loss": 3.1057,
      "step": 1128
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.6444830894470215,
      "learning_rate": 0.0004830210074259722,
      "loss": 3.0636,
      "step": 1129
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.7323717474937439,
      "learning_rate": 0.000482983438987287,
      "loss": 3.0128,
      "step": 1130
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.696524441242218,
      "learning_rate": 0.00048294583049604756,
      "loss": 3.1283,
      "step": 1131
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.6935347318649292,
      "learning_rate": 0.00048290818195871946,
      "loss": 3.0785,
      "step": 1132
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.748139500617981,
      "learning_rate": 0.0004828704933817746,
      "loss": 3.0664,
      "step": 1133
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.731393575668335,
      "learning_rate": 0.0004828327647716924,
      "loss": 3.179,
      "step": 1134
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.7729582190513611,
      "learning_rate": 0.0004827949961349587,
      "loss": 3.1265,
      "step": 1135
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.7873495817184448,
      "learning_rate": 0.0004827571874780663,
      "loss": 3.032,
      "step": 1136
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.7621980905532837,
      "learning_rate": 0.0004827193388075151,
      "loss": 3.0363,
      "step": 1137
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.7189610004425049,
      "learning_rate": 0.00048268145012981157,
      "loss": 3.0202,
      "step": 1138
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.7817683219909668,
      "learning_rate": 0.0004826435214514693,
      "loss": 3.0295,
      "step": 1139
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.7240737080574036,
      "learning_rate": 0.0004826055527790087,
      "loss": 3.1219,
      "step": 1140
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.7819333672523499,
      "learning_rate": 0.00048256754411895697,
      "loss": 3.0158,
      "step": 1141
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.7505083680152893,
      "learning_rate": 0.0004825294954778482,
      "loss": 3.2429,
      "step": 1142
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.7607518434524536,
      "learning_rate": 0.0004824914068622235,
      "loss": 3.0621,
      "step": 1143
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.7715104222297668,
      "learning_rate": 0.0004824532782786307,
      "loss": 3.2079,
      "step": 1144
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.773706316947937,
      "learning_rate": 0.00048241510973362446,
      "loss": 3.1337,
      "step": 1145
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.7309176921844482,
      "learning_rate": 0.00048237690123376656,
      "loss": 3.0949,
      "step": 1146
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.7223085165023804,
      "learning_rate": 0.0004823386527856253,
      "loss": 3.0628,
      "step": 1147
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.6786168813705444,
      "learning_rate": 0.00048230036439577615,
      "loss": 2.9928,
      "step": 1148
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.7452524304389954,
      "learning_rate": 0.0004822620360708014,
      "loss": 3.0797,
      "step": 1149
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.7946025133132935,
      "learning_rate": 0.00048222366781729,
      "loss": 3.2294,
      "step": 1150
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.8094255328178406,
      "learning_rate": 0.0004821852596418379,
      "loss": 3.0801,
      "step": 1151
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.7519418597221375,
      "learning_rate": 0.0004821468115510479,
      "loss": 3.1731,
      "step": 1152
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.763772189617157,
      "learning_rate": 0.0004821083235515298,
      "loss": 3.1251,
      "step": 1153
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.7714083790779114,
      "learning_rate": 0.0004820697956499,
      "loss": 3.1672,
      "step": 1154
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.7438388466835022,
      "learning_rate": 0.00048203122785278195,
      "loss": 3.099,
      "step": 1155
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.694920539855957,
      "learning_rate": 0.0004819926201668059,
      "loss": 3.0956,
      "step": 1156
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.6959384083747864,
      "learning_rate": 0.00048195397259860894,
      "loss": 3.0713,
      "step": 1157
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.7273842096328735,
      "learning_rate": 0.00048191528515483504,
      "loss": 3.1914,
      "step": 1158
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.7269103527069092,
      "learning_rate": 0.0004818765578421351,
      "loss": 3.1113,
      "step": 1159
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.6814438104629517,
      "learning_rate": 0.0004818377906671667,
      "loss": 3.1407,
      "step": 1160
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.7468187808990479,
      "learning_rate": 0.00048179898363659435,
      "loss": 3.0671,
      "step": 1161
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.7134335041046143,
      "learning_rate": 0.0004817601367570895,
      "loss": 3.0776,
      "step": 1162
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.7577902674674988,
      "learning_rate": 0.00048172125003533034,
      "loss": 3.2307,
      "step": 1163
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.7364833950996399,
      "learning_rate": 0.00048168232347800197,
      "loss": 3.0157,
      "step": 1164
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.7323811650276184,
      "learning_rate": 0.0004816433570917963,
      "loss": 2.9997,
      "step": 1165
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.7886890172958374,
      "learning_rate": 0.000481604350883412,
      "loss": 3.0659,
      "step": 1166
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.7558408379554749,
      "learning_rate": 0.00048156530485955496,
      "loss": 3.0262,
      "step": 1167
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.7757092714309692,
      "learning_rate": 0.0004815262190269374,
      "loss": 2.9989,
      "step": 1168
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.7375448346138,
      "learning_rate": 0.00048148709339227867,
      "loss": 3.1179,
      "step": 1169
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.754155158996582,
      "learning_rate": 0.000481447927962305,
      "loss": 3.0241,
      "step": 1170
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.7463984489440918,
      "learning_rate": 0.00048140872274374935,
      "loss": 3.0526,
      "step": 1171
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.7194945216178894,
      "learning_rate": 0.00048136947774335154,
      "loss": 3.0982,
      "step": 1172
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.7361137270927429,
      "learning_rate": 0.00048133019296785825,
      "loss": 3.1887,
      "step": 1173
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.7287383675575256,
      "learning_rate": 0.0004812908684240229,
      "loss": 2.978,
      "step": 1174
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.7714939713478088,
      "learning_rate": 0.000481251504118606,
      "loss": 3.1109,
      "step": 1175
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.7787573337554932,
      "learning_rate": 0.00048121210005837463,
      "loss": 3.1443,
      "step": 1176
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.8262869119644165,
      "learning_rate": 0.0004811726562501028,
      "loss": 3.0386,
      "step": 1177
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.7888185381889343,
      "learning_rate": 0.00048113317270057136,
      "loss": 3.1404,
      "step": 1178
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.7587765455245972,
      "learning_rate": 0.0004810936494165681,
      "loss": 3.1153,
      "step": 1179
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.792086660861969,
      "learning_rate": 0.00048105408640488733,
      "loss": 2.9745,
      "step": 1180
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.743305504322052,
      "learning_rate": 0.0004810144836723305,
      "loss": 3.0513,
      "step": 1181
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.7128602862358093,
      "learning_rate": 0.00048097484122570585,
      "loss": 2.9488,
      "step": 1182
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.7249508500099182,
      "learning_rate": 0.0004809351590718283,
      "loss": 3.1934,
      "step": 1183
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.7083323001861572,
      "learning_rate": 0.00048089543721751963,
      "loss": 3.0548,
      "step": 1184
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.8072847127914429,
      "learning_rate": 0.0004808556756696085,
      "loss": 3.1851,
      "step": 1185
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.7673034071922302,
      "learning_rate": 0.00048081587443493044,
      "loss": 3.0648,
      "step": 1186
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.797808825969696,
      "learning_rate": 0.0004807760335203277,
      "loss": 3.0436,
      "step": 1187
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.7144060730934143,
      "learning_rate": 0.0004807361529326495,
      "loss": 3.0338,
      "step": 1188
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.7861458659172058,
      "learning_rate": 0.0004806962326787516,
      "loss": 3.0376,
      "step": 1189
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.7093377113342285,
      "learning_rate": 0.00048065627276549697,
      "loss": 3.0108,
      "step": 1190
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.773105800151825,
      "learning_rate": 0.00048061627319975493,
      "loss": 3.1067,
      "step": 1191
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.7849010825157166,
      "learning_rate": 0.000480576233988402,
      "loss": 3.0777,
      "step": 1192
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.7838633060455322,
      "learning_rate": 0.0004805361551383214,
      "loss": 3.0861,
      "step": 1193
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.726533830165863,
      "learning_rate": 0.0004804960366564032,
      "loss": 3.0343,
      "step": 1194
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.6995497345924377,
      "learning_rate": 0.000480455878549544,
      "loss": 2.9536,
      "step": 1195
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.7569481134414673,
      "learning_rate": 0.00048041568082464773,
      "loss": 2.9917,
      "step": 1196
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.6879639029502869,
      "learning_rate": 0.00048037544348862474,
      "loss": 2.9426,
      "step": 1197
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.6422512531280518,
      "learning_rate": 0.00048033516654839213,
      "loss": 3.0881,
      "step": 1198
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.6780503392219543,
      "learning_rate": 0.0004802948500108743,
      "loss": 3.037,
      "step": 1199
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.705553412437439,
      "learning_rate": 0.0004802544938830018,
      "loss": 3.1608,
      "step": 1200
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.7269657850265503,
      "learning_rate": 0.0004802140981717125,
      "loss": 3.1667,
      "step": 1201
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.7335153818130493,
      "learning_rate": 0.0004801736628839509,
      "loss": 3.082,
      "step": 1202
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.7648997902870178,
      "learning_rate": 0.0004801331880266682,
      "loss": 3.0187,
      "step": 1203
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.7631933689117432,
      "learning_rate": 0.0004800926736068225,
      "loss": 3.1495,
      "step": 1204
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.8027309775352478,
      "learning_rate": 0.0004800521196313788,
      "loss": 2.9942,
      "step": 1205
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.7467538714408875,
      "learning_rate": 0.0004800115261073088,
      "loss": 3.0342,
      "step": 1206
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.7526576519012451,
      "learning_rate": 0.00047997089304159085,
      "loss": 3.0806,
      "step": 1207
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.7956209778785706,
      "learning_rate": 0.00047993022044121036,
      "loss": 3.1217,
      "step": 1208
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.742404043674469,
      "learning_rate": 0.00047988950831315947,
      "loss": 3.1242,
      "step": 1209
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.7421453595161438,
      "learning_rate": 0.0004798487566644369,
      "loss": 3.1868,
      "step": 1210
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.6776463985443115,
      "learning_rate": 0.00047980796550204844,
      "loss": 2.9903,
      "step": 1211
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.7641153931617737,
      "learning_rate": 0.0004797671348330066,
      "loss": 3.1303,
      "step": 1212
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.7247929573059082,
      "learning_rate": 0.0004797262646643305,
      "loss": 3.1244,
      "step": 1213
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.7034195065498352,
      "learning_rate": 0.0004796853550030463,
      "loss": 2.9962,
      "step": 1214
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.7082169651985168,
      "learning_rate": 0.000479644405856187,
      "loss": 3.0605,
      "step": 1215
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.7327291369438171,
      "learning_rate": 0.00047960341723079185,
      "loss": 3.0089,
      "step": 1216
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.7384265661239624,
      "learning_rate": 0.0004795623891339076,
      "loss": 2.9955,
      "step": 1217
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.7439534664154053,
      "learning_rate": 0.0004795213215725873,
      "loss": 3.12,
      "step": 1218
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.7556359171867371,
      "learning_rate": 0.000479480214553891,
      "loss": 3.1357,
      "step": 1219
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.7653368711471558,
      "learning_rate": 0.00047943906808488546,
      "loss": 2.9372,
      "step": 1220
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.8148015737533569,
      "learning_rate": 0.00047939788217264424,
      "loss": 3.122,
      "step": 1221
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.8016570806503296,
      "learning_rate": 0.00047935665682424767,
      "loss": 3.0478,
      "step": 1222
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.7946497201919556,
      "learning_rate": 0.00047931539204678286,
      "loss": 2.9928,
      "step": 1223
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.7425614595413208,
      "learning_rate": 0.0004792740878473437,
      "loss": 3.1343,
      "step": 1224
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.7297391295433044,
      "learning_rate": 0.0004792327442330309,
      "loss": 2.9585,
      "step": 1225
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.7708442807197571,
      "learning_rate": 0.00047919136121095173,
      "loss": 3.0427,
      "step": 1226
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.7294567823410034,
      "learning_rate": 0.00047914993878822067,
      "loss": 3.1525,
      "step": 1227
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.6797768473625183,
      "learning_rate": 0.0004791084769719586,
      "loss": 3.0246,
      "step": 1228
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.6786507368087769,
      "learning_rate": 0.00047906697576929327,
      "loss": 3.1228,
      "step": 1229
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.693592369556427,
      "learning_rate": 0.0004790254351873592,
      "loss": 3.0536,
      "step": 1230
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.7393055558204651,
      "learning_rate": 0.0004789838552332978,
      "loss": 3.101,
      "step": 1231
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.7002912163734436,
      "learning_rate": 0.000478942235914257,
      "loss": 3.0381,
      "step": 1232
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.8491383790969849,
      "learning_rate": 0.00047890057723739177,
      "loss": 3.1012,
      "step": 1233
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.7004095315933228,
      "learning_rate": 0.0004788588792098637,
      "loss": 3.1197,
      "step": 1234
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.7741010189056396,
      "learning_rate": 0.00047881714183884105,
      "loss": 3.1659,
      "step": 1235
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.791734516620636,
      "learning_rate": 0.0004787753651314991,
      "loss": 3.1749,
      "step": 1236
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.7225682139396667,
      "learning_rate": 0.00047873354909501963,
      "loss": 2.9966,
      "step": 1237
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.7913669347763062,
      "learning_rate": 0.00047869169373659145,
      "loss": 2.9363,
      "step": 1238
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.7057070136070251,
      "learning_rate": 0.0004786497990634099,
      "loss": 3.1459,
      "step": 1239
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.822976291179657,
      "learning_rate": 0.0004786078650826771,
      "loss": 3.1224,
      "step": 1240
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.7161194086074829,
      "learning_rate": 0.00047856589180160204,
      "loss": 3.0394,
      "step": 1241
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.7702390551567078,
      "learning_rate": 0.00047852387922740037,
      "loss": 2.9935,
      "step": 1242
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.7698482275009155,
      "learning_rate": 0.0004784818273672947,
      "loss": 2.9826,
      "step": 1243
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.8169026374816895,
      "learning_rate": 0.00047843973622851407,
      "loss": 3.094,
      "step": 1244
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.7848525047302246,
      "learning_rate": 0.00047839760581829444,
      "loss": 3.0399,
      "step": 1245
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.7787917852401733,
      "learning_rate": 0.0004783554361438786,
      "loss": 3.1276,
      "step": 1246
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.7670872211456299,
      "learning_rate": 0.0004783132272125159,
      "loss": 3.0995,
      "step": 1247
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.7116165161132812,
      "learning_rate": 0.00047827097903146266,
      "loss": 2.9867,
      "step": 1248
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.8042140007019043,
      "learning_rate": 0.00047822869160798185,
      "loss": 3.0654,
      "step": 1249
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.705741822719574,
      "learning_rate": 0.00047818636494934295,
      "loss": 3.1135,
      "step": 1250
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.7248615622520447,
      "learning_rate": 0.0004781439990628227,
      "loss": 3.118,
      "step": 1251
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.713301420211792,
      "learning_rate": 0.00047810159395570405,
      "loss": 3.1375,
      "step": 1252
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.7176901698112488,
      "learning_rate": 0.00047805914963527707,
      "loss": 3.0499,
      "step": 1253
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.7110118865966797,
      "learning_rate": 0.00047801666610883833,
      "loss": 2.9377,
      "step": 1254
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.7411170601844788,
      "learning_rate": 0.00047797414338369125,
      "loss": 3.0548,
      "step": 1255
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.7610369920730591,
      "learning_rate": 0.0004779315814671461,
      "loss": 3.1647,
      "step": 1256
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.7797338962554932,
      "learning_rate": 0.00047788898036651967,
      "loss": 3.1983,
      "step": 1257
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.7241222262382507,
      "learning_rate": 0.00047784634008913565,
      "loss": 3.1793,
      "step": 1258
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.744871973991394,
      "learning_rate": 0.00047780366064232427,
      "loss": 2.968,
      "step": 1259
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.7493784427642822,
      "learning_rate": 0.0004777609420334227,
      "loss": 3.0752,
      "step": 1260
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.7152376770973206,
      "learning_rate": 0.00047771818426977475,
      "loss": 3.07,
      "step": 1261
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.7364268898963928,
      "learning_rate": 0.0004776753873587311,
      "loss": 3.124,
      "step": 1262
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.7866755723953247,
      "learning_rate": 0.0004776325513076488,
      "loss": 3.0227,
      "step": 1263
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.7443002462387085,
      "learning_rate": 0.00047758967612389206,
      "loss": 3.0124,
      "step": 1264
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.779866635799408,
      "learning_rate": 0.00047754676181483146,
      "loss": 3.218,
      "step": 1265
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.7304526567459106,
      "learning_rate": 0.0004775038083878446,
      "loss": 3.1088,
      "step": 1266
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.7370004653930664,
      "learning_rate": 0.00047746081585031566,
      "loss": 3.0365,
      "step": 1267
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.749221920967102,
      "learning_rate": 0.00047741778420963554,
      "loss": 3.0667,
      "step": 1268
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.7452529668807983,
      "learning_rate": 0.0004773747134732018,
      "loss": 3.2042,
      "step": 1269
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.767954409122467,
      "learning_rate": 0.0004773316036484189,
      "loss": 3.12,
      "step": 1270
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.7364294528961182,
      "learning_rate": 0.0004772884547426979,
      "loss": 3.1224,
      "step": 1271
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.6730829477310181,
      "learning_rate": 0.0004772452667634565,
      "loss": 2.934,
      "step": 1272
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.7099725604057312,
      "learning_rate": 0.0004772020397181194,
      "loss": 3.1141,
      "step": 1273
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.7695244550704956,
      "learning_rate": 0.0004771587736141176,
      "loss": 3.0602,
      "step": 1274
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.7284647226333618,
      "learning_rate": 0.0004771154684588892,
      "loss": 3.1167,
      "step": 1275
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.7074048519134521,
      "learning_rate": 0.00047707212425987885,
      "loss": 3.0343,
      "step": 1276
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.80001300573349,
      "learning_rate": 0.00047702874102453785,
      "loss": 2.9194,
      "step": 1277
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.7386425137519836,
      "learning_rate": 0.00047698531876032437,
      "loss": 3.0387,
      "step": 1278
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.7547780871391296,
      "learning_rate": 0.0004769418574747032,
      "loss": 3.1026,
      "step": 1279
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.7274973392486572,
      "learning_rate": 0.00047689835717514576,
      "loss": 2.9688,
      "step": 1280
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.8266005516052246,
      "learning_rate": 0.0004768548178691302,
      "loss": 3.1802,
      "step": 1281
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.807757556438446,
      "learning_rate": 0.00047681123956414164,
      "loss": 3.0829,
      "step": 1282
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.7946954369544983,
      "learning_rate": 0.0004767676222676715,
      "loss": 3.181,
      "step": 1283
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.7130042910575867,
      "learning_rate": 0.00047672396598721824,
      "loss": 3.1018,
      "step": 1284
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.7091209888458252,
      "learning_rate": 0.00047668027073028676,
      "loss": 3.1281,
      "step": 1285
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.7412534952163696,
      "learning_rate": 0.0004766365365043889,
      "loss": 3.0015,
      "step": 1286
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.7119646668434143,
      "learning_rate": 0.00047659276331704295,
      "loss": 2.9065,
      "step": 1287
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.7395952343940735,
      "learning_rate": 0.00047654895117577414,
      "loss": 3.0344,
      "step": 1288
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.7490963935852051,
      "learning_rate": 0.0004765051000881142,
      "loss": 3.1697,
      "step": 1289
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.6732103824615479,
      "learning_rate": 0.0004764612100616017,
      "loss": 3.1247,
      "step": 1290
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.7050426602363586,
      "learning_rate": 0.0004764172811037818,
      "loss": 3.0924,
      "step": 1291
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.783596932888031,
      "learning_rate": 0.0004763733132222065,
      "loss": 2.9552,
      "step": 1292
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.7182682156562805,
      "learning_rate": 0.0004763293064244343,
      "loss": 3.1422,
      "step": 1293
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.8232088685035706,
      "learning_rate": 0.00047628526071803046,
      "loss": 3.0915,
      "step": 1294
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.770020067691803,
      "learning_rate": 0.00047624117611056696,
      "loss": 2.9644,
      "step": 1295
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.7485955357551575,
      "learning_rate": 0.0004761970526096225,
      "loss": 3.1824,
      "step": 1296
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.7070023417472839,
      "learning_rate": 0.0004761528902227824,
      "loss": 3.0802,
      "step": 1297
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.70122230052948,
      "learning_rate": 0.00047610868895763865,
      "loss": 3.0735,
      "step": 1298
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.7304626703262329,
      "learning_rate": 0.00047606444882179,
      "loss": 3.1979,
      "step": 1299
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.7107997536659241,
      "learning_rate": 0.0004760201698228419,
      "loss": 2.9373,
      "step": 1300
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.7475679516792297,
      "learning_rate": 0.0004759758519684063,
      "loss": 3.174,
      "step": 1301
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.7884742617607117,
      "learning_rate": 0.000475931495266102,
      "loss": 3.1048,
      "step": 1302
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.7318839430809021,
      "learning_rate": 0.0004758870997235545,
      "loss": 3.0715,
      "step": 1303
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.7363231778144836,
      "learning_rate": 0.00047584266534839577,
      "loss": 3.0538,
      "step": 1304
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.7179223299026489,
      "learning_rate": 0.0004757981921482647,
      "loss": 3.0142,
      "step": 1305
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.7662374377250671,
      "learning_rate": 0.00047575368013080675,
      "loss": 2.9963,
      "step": 1306
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.7183262705802917,
      "learning_rate": 0.000475709129303674,
      "loss": 3.1357,
      "step": 1307
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.6890456676483154,
      "learning_rate": 0.0004756645396745253,
      "loss": 3.036,
      "step": 1308
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.7771228551864624,
      "learning_rate": 0.0004756199112510261,
      "loss": 3.0263,
      "step": 1309
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.6915985345840454,
      "learning_rate": 0.0004755752440408485,
      "loss": 3.1232,
      "step": 1310
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.6902675032615662,
      "learning_rate": 0.00047553053805167136,
      "loss": 3.0365,
      "step": 1311
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.7218324542045593,
      "learning_rate": 0.0004754857932911802,
      "loss": 3.0337,
      "step": 1312
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.7408181428909302,
      "learning_rate": 0.0004754410097670671,
      "loss": 2.9977,
      "step": 1313
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.7406814098358154,
      "learning_rate": 0.0004753961874870309,
      "loss": 2.9588,
      "step": 1314
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.6996260285377502,
      "learning_rate": 0.000475351326458777,
      "loss": 2.9688,
      "step": 1315
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.731144905090332,
      "learning_rate": 0.0004753064266900177,
      "loss": 3.0321,
      "step": 1316
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.7029621601104736,
      "learning_rate": 0.00047526148818847157,
      "loss": 2.9647,
      "step": 1317
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.7992318272590637,
      "learning_rate": 0.00047521651096186417,
      "loss": 3.1516,
      "step": 1318
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.6984650492668152,
      "learning_rate": 0.00047517149501792767,
      "loss": 3.1879,
      "step": 1319
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.7128574252128601,
      "learning_rate": 0.0004751264403644007,
      "loss": 3.0038,
      "step": 1320
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.7298516035079956,
      "learning_rate": 0.00047508134700902874,
      "loss": 3.0998,
      "step": 1321
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.6970351934432983,
      "learning_rate": 0.0004750362149595639,
      "loss": 3.0076,
      "step": 1322
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.7107647061347961,
      "learning_rate": 0.0004749910442237648,
      "loss": 2.9389,
      "step": 1323
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.7487685680389404,
      "learning_rate": 0.000474945834809397,
      "loss": 3.0538,
      "step": 1324
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.7255610227584839,
      "learning_rate": 0.0004749005867242323,
      "loss": 3.0751,
      "step": 1325
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.7465859651565552,
      "learning_rate": 0.00047485529997604947,
      "loss": 3.0916,
      "step": 1326
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.7585238218307495,
      "learning_rate": 0.00047480997457263394,
      "loss": 3.0809,
      "step": 1327
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.7224910855293274,
      "learning_rate": 0.0004747646105217774,
      "loss": 3.0005,
      "step": 1328
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.7669752240180969,
      "learning_rate": 0.00047471920783127874,
      "loss": 3.0725,
      "step": 1329
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.7768695950508118,
      "learning_rate": 0.000474673766508943,
      "loss": 3.1699,
      "step": 1330
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.8335745930671692,
      "learning_rate": 0.0004746282865625822,
      "loss": 3.2374,
      "step": 1331
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.6764012575149536,
      "learning_rate": 0.00047458276800001485,
      "loss": 3.0609,
      "step": 1332
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.7897650003433228,
      "learning_rate": 0.0004745372108290661,
      "loss": 3.0404,
      "step": 1333
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.7508013248443604,
      "learning_rate": 0.00047449161505756766,
      "loss": 3.0431,
      "step": 1334
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.6415502429008484,
      "learning_rate": 0.0004744459806933581,
      "loss": 2.9407,
      "step": 1335
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.7291091084480286,
      "learning_rate": 0.0004744003077442825,
      "loss": 3.089,
      "step": 1336
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.7406381368637085,
      "learning_rate": 0.00047435459621819257,
      "loss": 3.1157,
      "step": 1337
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.7397035360336304,
      "learning_rate": 0.00047430884612294645,
      "loss": 3.0256,
      "step": 1338
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.7433063983917236,
      "learning_rate": 0.0004742630574664094,
      "loss": 2.9658,
      "step": 1339
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.7572182416915894,
      "learning_rate": 0.0004742172302564528,
      "loss": 3.018,
      "step": 1340
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.7354862093925476,
      "learning_rate": 0.00047417136450095504,
      "loss": 3.1352,
      "step": 1341
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.7429304718971252,
      "learning_rate": 0.0004741254602078009,
      "loss": 3.0264,
      "step": 1342
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.6960428357124329,
      "learning_rate": 0.00047407951738488187,
      "loss": 3.0843,
      "step": 1343
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.725834310054779,
      "learning_rate": 0.00047403353604009605,
      "loss": 2.9964,
      "step": 1344
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.777479350566864,
      "learning_rate": 0.0004739875161813481,
      "loss": 3.1574,
      "step": 1345
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.7712906002998352,
      "learning_rate": 0.0004739414578165495,
      "loss": 3.088,
      "step": 1346
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.7775911688804626,
      "learning_rate": 0.00047389536095361807,
      "loss": 3.2286,
      "step": 1347
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.752642810344696,
      "learning_rate": 0.00047384922560047855,
      "loss": 3.0614,
      "step": 1348
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.7244579792022705,
      "learning_rate": 0.00047380305176506203,
      "loss": 3.0222,
      "step": 1349
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.7868677973747253,
      "learning_rate": 0.0004737568394553064,
      "loss": 3.1846,
      "step": 1350
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.7240445613861084,
      "learning_rate": 0.00047371058867915606,
      "loss": 2.9337,
      "step": 1351
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.7391235828399658,
      "learning_rate": 0.000473664299444562,
      "loss": 3.1915,
      "step": 1352
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.7527738809585571,
      "learning_rate": 0.000473617971759482,
      "loss": 3.0346,
      "step": 1353
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.7129140496253967,
      "learning_rate": 0.0004735716056318802,
      "loss": 2.9941,
      "step": 1354
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.7810145020484924,
      "learning_rate": 0.0004735252010697275,
      "loss": 3.1259,
      "step": 1355
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.7029366493225098,
      "learning_rate": 0.00047347875808100145,
      "loss": 3.0849,
      "step": 1356
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.7341828346252441,
      "learning_rate": 0.00047343227667368605,
      "loss": 3.1332,
      "step": 1357
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.749871015548706,
      "learning_rate": 0.0004733857568557721,
      "loss": 3.0852,
      "step": 1358
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.7681909203529358,
      "learning_rate": 0.0004733391986352568,
      "loss": 3.0405,
      "step": 1359
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.789626955986023,
      "learning_rate": 0.0004732926020201441,
      "loss": 3.1156,
      "step": 1360
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.7111496925354004,
      "learning_rate": 0.0004732459670184445,
      "loss": 3.0897,
      "step": 1361
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.7406335473060608,
      "learning_rate": 0.000473199293638175,
      "loss": 3.0929,
      "step": 1362
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.7537781000137329,
      "learning_rate": 0.00047315258188735954,
      "loss": 2.9805,
      "step": 1363
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.7733217477798462,
      "learning_rate": 0.0004731058317740281,
      "loss": 2.8943,
      "step": 1364
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.6815173029899597,
      "learning_rate": 0.0004730590433062178,
      "loss": 2.994,
      "step": 1365
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.7595089077949524,
      "learning_rate": 0.000473012216491972,
      "loss": 3.2204,
      "step": 1366
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.7034287452697754,
      "learning_rate": 0.0004729653513393408,
      "loss": 3.0849,
      "step": 1367
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.7482173442840576,
      "learning_rate": 0.00047291844785638085,
      "loss": 3.1865,
      "step": 1368
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.7771959900856018,
      "learning_rate": 0.0004728715060511555,
      "loss": 3.0769,
      "step": 1369
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.7075852155685425,
      "learning_rate": 0.0004728245259317344,
      "loss": 2.9879,
      "step": 1370
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.688389241695404,
      "learning_rate": 0.00047277750750619415,
      "loss": 3.0194,
      "step": 1371
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.7027156949043274,
      "learning_rate": 0.00047273045078261765,
      "loss": 3.0931,
      "step": 1372
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.7224918603897095,
      "learning_rate": 0.0004726833557690946,
      "loss": 3.1037,
      "step": 1373
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.7186474204063416,
      "learning_rate": 0.0004726362224737211,
      "loss": 3.0707,
      "step": 1374
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.6653236150741577,
      "learning_rate": 0.00047258905090459996,
      "loss": 3.0443,
      "step": 1375
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.6715406775474548,
      "learning_rate": 0.0004725418410698405,
      "loss": 3.0075,
      "step": 1376
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.7392081022262573,
      "learning_rate": 0.0004724945929775586,
      "loss": 3.1419,
      "step": 1377
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.741698682308197,
      "learning_rate": 0.0004724473066358768,
      "loss": 3.0005,
      "step": 1378
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.7133820056915283,
      "learning_rate": 0.00047239998205292425,
      "loss": 3.0738,
      "step": 1379
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.7608349323272705,
      "learning_rate": 0.0004723526192368364,
      "loss": 2.9869,
      "step": 1380
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.7484836578369141,
      "learning_rate": 0.0004723052181957556,
      "loss": 3.0536,
      "step": 1381
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.6954736709594727,
      "learning_rate": 0.00047225777893783054,
      "loss": 3.0333,
      "step": 1382
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.741513192653656,
      "learning_rate": 0.0004722103014712167,
      "loss": 3.0027,
      "step": 1383
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.7389464974403381,
      "learning_rate": 0.00047216278580407603,
      "loss": 3.0659,
      "step": 1384
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.7706246376037598,
      "learning_rate": 0.00047211523194457683,
      "loss": 3.1237,
      "step": 1385
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.7810881733894348,
      "learning_rate": 0.0004720676399008943,
      "loss": 3.0578,
      "step": 1386
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.7183042168617249,
      "learning_rate": 0.00047202000968121007,
      "loss": 3.0794,
      "step": 1387
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.6333359479904175,
      "learning_rate": 0.00047197234129371234,
      "loss": 3.0564,
      "step": 1388
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.72940993309021,
      "learning_rate": 0.00047192463474659576,
      "loss": 3.0905,
      "step": 1389
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.7496063709259033,
      "learning_rate": 0.0004718768900480617,
      "loss": 3.0586,
      "step": 1390
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.7169078588485718,
      "learning_rate": 0.00047182910720631804,
      "loss": 3.0969,
      "step": 1391
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.761879026889801,
      "learning_rate": 0.00047178128622957916,
      "loss": 3.0683,
      "step": 1392
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.7094351053237915,
      "learning_rate": 0.00047173342712606613,
      "loss": 3.1235,
      "step": 1393
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.7543559074401855,
      "learning_rate": 0.00047168552990400637,
      "loss": 3.0691,
      "step": 1394
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.7462800741195679,
      "learning_rate": 0.000471637594571634,
      "loss": 3.0528,
      "step": 1395
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.7262786030769348,
      "learning_rate": 0.0004715896211371897,
      "loss": 2.9526,
      "step": 1396
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.7188666462898254,
      "learning_rate": 0.00047154160960892065,
      "loss": 3.0494,
      "step": 1397
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.7586015462875366,
      "learning_rate": 0.00047149355999508066,
      "loss": 3.1363,
      "step": 1398
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.7354648113250732,
      "learning_rate": 0.0004714454723039299,
      "loss": 3.2191,
      "step": 1399
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.6547449827194214,
      "learning_rate": 0.00047139734654373514,
      "loss": 2.9447,
      "step": 1400
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.7062056660652161,
      "learning_rate": 0.0004713491827227699,
      "loss": 3.1169,
      "step": 1401
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.6880358457565308,
      "learning_rate": 0.00047130098084931406,
      "loss": 3.1025,
      "step": 1402
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.7039914131164551,
      "learning_rate": 0.00047125274093165405,
      "loss": 3.1474,
      "step": 1403
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.7303828597068787,
      "learning_rate": 0.00047120446297808287,
      "loss": 3.0006,
      "step": 1404
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.7686488628387451,
      "learning_rate": 0.00047115614699690014,
      "loss": 3.0527,
      "step": 1405
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.7492138743400574,
      "learning_rate": 0.0004711077929964118,
      "loss": 3.1334,
      "step": 1406
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.6997027397155762,
      "learning_rate": 0.0004710594009849306,
      "loss": 3.0984,
      "step": 1407
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.7665315866470337,
      "learning_rate": 0.0004710109709707757,
      "loss": 3.1581,
      "step": 1408
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.7412660717964172,
      "learning_rate": 0.0004709625029622726,
      "loss": 2.9736,
      "step": 1409
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.7033087015151978,
      "learning_rate": 0.0004709139969677537,
      "loss": 2.8766,
      "step": 1410
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.739605188369751,
      "learning_rate": 0.0004708654529955576,
      "loss": 3.1564,
      "step": 1411
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.7027085423469543,
      "learning_rate": 0.00047081687105402967,
      "loss": 3.0103,
      "step": 1412
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.6918703317642212,
      "learning_rate": 0.00047076825115152166,
      "loss": 3.0886,
      "step": 1413
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.65708327293396,
      "learning_rate": 0.0004707195932963919,
      "loss": 2.9928,
      "step": 1414
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.663154661655426,
      "learning_rate": 0.00047067089749700534,
      "loss": 2.9899,
      "step": 1415
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.7434257864952087,
      "learning_rate": 0.00047062216376173315,
      "loss": 3.0952,
      "step": 1416
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.7394436001777649,
      "learning_rate": 0.0004705733920989534,
      "loss": 2.9738,
      "step": 1417
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.7643237113952637,
      "learning_rate": 0.00047052458251705043,
      "loss": 3.1638,
      "step": 1418
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.7001606822013855,
      "learning_rate": 0.0004704757350244152,
      "loss": 3.1369,
      "step": 1419
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.6948022246360779,
      "learning_rate": 0.0004704268496294451,
      "loss": 3.0599,
      "step": 1420
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.7137816548347473,
      "learning_rate": 0.00047037792634054416,
      "loss": 3.0742,
      "step": 1421
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.7091131806373596,
      "learning_rate": 0.0004703289651661229,
      "loss": 3.1053,
      "step": 1422
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.7129461169242859,
      "learning_rate": 0.0004702799661145981,
      "loss": 2.9992,
      "step": 1423
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.680438220500946,
      "learning_rate": 0.0004702309291943936,
      "loss": 3.1461,
      "step": 1424
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.6932581067085266,
      "learning_rate": 0.00047018185441393914,
      "loss": 3.042,
      "step": 1425
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.7379531264305115,
      "learning_rate": 0.00047013274178167136,
      "loss": 3.0938,
      "step": 1426
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.7520881295204163,
      "learning_rate": 0.00047008359130603326,
      "loss": 3.0823,
      "step": 1427
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.7285428047180176,
      "learning_rate": 0.00047003440299547437,
      "loss": 3.2596,
      "step": 1428
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.6974883675575256,
      "learning_rate": 0.0004699851768584508,
      "loss": 3.0566,
      "step": 1429
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.7604129910469055,
      "learning_rate": 0.0004699359129034251,
      "loss": 3.0273,
      "step": 1430
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.6768219470977783,
      "learning_rate": 0.0004698866111388661,
      "loss": 3.0903,
      "step": 1431
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.6879573464393616,
      "learning_rate": 0.00046983727157324964,
      "loss": 3.0975,
      "step": 1432
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.7104406356811523,
      "learning_rate": 0.0004697878942150575,
      "loss": 2.9701,
      "step": 1433
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.7040915489196777,
      "learning_rate": 0.00046973847907277844,
      "loss": 2.9701,
      "step": 1434
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.6784709095954895,
      "learning_rate": 0.0004696890261549073,
      "loss": 3.0262,
      "step": 1435
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.6958547830581665,
      "learning_rate": 0.00046963953546994583,
      "loss": 2.9467,
      "step": 1436
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.7188208699226379,
      "learning_rate": 0.00046959000702640185,
      "loss": 3.0464,
      "step": 1437
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.745923638343811,
      "learning_rate": 0.00046954044083279004,
      "loss": 3.0069,
      "step": 1438
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.7794771194458008,
      "learning_rate": 0.00046949083689763114,
      "loss": 3.1336,
      "step": 1439
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.7321241497993469,
      "learning_rate": 0.00046944119522945307,
      "loss": 2.9944,
      "step": 1440
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.7060573697090149,
      "learning_rate": 0.0004693915158367894,
      "loss": 3.0184,
      "step": 1441
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.7340528964996338,
      "learning_rate": 0.00046934179872818073,
      "loss": 3.0562,
      "step": 1442
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.756600558757782,
      "learning_rate": 0.00046929204391217414,
      "loss": 3.0206,
      "step": 1443
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.7977562546730042,
      "learning_rate": 0.0004692422513973229,
      "loss": 3.0819,
      "step": 1444
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.7004322409629822,
      "learning_rate": 0.000469192421192187,
      "loss": 2.8699,
      "step": 1445
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.6744036078453064,
      "learning_rate": 0.00046914255330533273,
      "loss": 3.152,
      "step": 1446
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.7380701899528503,
      "learning_rate": 0.00046909264774533307,
      "loss": 3.018,
      "step": 1447
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.8170403242111206,
      "learning_rate": 0.0004690427045207673,
      "loss": 2.9708,
      "step": 1448
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.6898975968360901,
      "learning_rate": 0.00046899272364022126,
      "loss": 3.0008,
      "step": 1449
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.7220766544342041,
      "learning_rate": 0.0004689427051122873,
      "loss": 3.0513,
      "step": 1450
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.6973940134048462,
      "learning_rate": 0.00046889264894556406,
      "loss": 3.0502,
      "step": 1451
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.7070673704147339,
      "learning_rate": 0.00046884255514865694,
      "loss": 3.0223,
      "step": 1452
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.7387010455131531,
      "learning_rate": 0.00046879242373017746,
      "loss": 3.1263,
      "step": 1453
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.7131446003913879,
      "learning_rate": 0.0004687422546987439,
      "loss": 3.2185,
      "step": 1454
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.6967036724090576,
      "learning_rate": 0.00046869204806298094,
      "loss": 3.0256,
      "step": 1455
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.6661267280578613,
      "learning_rate": 0.0004686418038315196,
      "loss": 3.0552,
      "step": 1456
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.6421270966529846,
      "learning_rate": 0.00046859152201299736,
      "loss": 3.0661,
      "step": 1457
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.6670899987220764,
      "learning_rate": 0.0004685412026160584,
      "loss": 2.9995,
      "step": 1458
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.7642361521720886,
      "learning_rate": 0.00046849084564935323,
      "loss": 3.0774,
      "step": 1459
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.7110933661460876,
      "learning_rate": 0.00046844045112153865,
      "loss": 3.0483,
      "step": 1460
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.7407995462417603,
      "learning_rate": 0.0004683900190412782,
      "loss": 3.0315,
      "step": 1461
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.6977312564849854,
      "learning_rate": 0.0004683395494172417,
      "loss": 2.9816,
      "step": 1462
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.7686567902565002,
      "learning_rate": 0.0004682890422581054,
      "loss": 3.1159,
      "step": 1463
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.7579195499420166,
      "learning_rate": 0.0004682384975725522,
      "loss": 2.9632,
      "step": 1464
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.7242471575737,
      "learning_rate": 0.0004681879153692711,
      "loss": 3.016,
      "step": 1465
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.7376114130020142,
      "learning_rate": 0.00046813729565695793,
      "loss": 3.233,
      "step": 1466
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.7306571006774902,
      "learning_rate": 0.0004680866384443149,
      "loss": 3.1699,
      "step": 1467
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.6967161297798157,
      "learning_rate": 0.0004680359437400503,
      "loss": 2.9417,
      "step": 1468
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.6856065392494202,
      "learning_rate": 0.0004679852115528793,
      "loss": 2.9987,
      "step": 1469
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.700463056564331,
      "learning_rate": 0.0004679344418915234,
      "loss": 3.1349,
      "step": 1470
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.8469457626342773,
      "learning_rate": 0.0004678836347647104,
      "loss": 3.1065,
      "step": 1471
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.7559415698051453,
      "learning_rate": 0.0004678327901811746,
      "loss": 3.0647,
      "step": 1472
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.7045068144798279,
      "learning_rate": 0.00046778190814965694,
      "loss": 3.0574,
      "step": 1473
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.6939273476600647,
      "learning_rate": 0.0004677309886789044,
      "loss": 3.0409,
      "step": 1474
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.6723146438598633,
      "learning_rate": 0.0004676800317776708,
      "loss": 3.0561,
      "step": 1475
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.6769609451293945,
      "learning_rate": 0.0004676290374547162,
      "loss": 3.018,
      "step": 1476
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.6932265758514404,
      "learning_rate": 0.0004675780057188071,
      "loss": 3.0038,
      "step": 1477
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.7319507598876953,
      "learning_rate": 0.00046752693657871645,
      "loss": 3.0832,
      "step": 1478
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.7044274806976318,
      "learning_rate": 0.00046747583004322357,
      "loss": 3.1398,
      "step": 1479
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.7157905101776123,
      "learning_rate": 0.0004674246861211143,
      "loss": 3.1118,
      "step": 1480
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.732939600944519,
      "learning_rate": 0.0004673735048211809,
      "loss": 3.1555,
      "step": 1481
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.7261949181556702,
      "learning_rate": 0.00046732228615222203,
      "loss": 3.0525,
      "step": 1482
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.7250249981880188,
      "learning_rate": 0.00046727103012304274,
      "loss": 2.9461,
      "step": 1483
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.6895248293876648,
      "learning_rate": 0.00046721973674245453,
      "loss": 2.9797,
      "step": 1484
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.7095156908035278,
      "learning_rate": 0.00046716840601927534,
      "loss": 3.0867,
      "step": 1485
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.7851700782775879,
      "learning_rate": 0.00046711703796232954,
      "loss": 3.0701,
      "step": 1486
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.6330224871635437,
      "learning_rate": 0.0004670656325804479,
      "loss": 3.0,
      "step": 1487
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.7090932130813599,
      "learning_rate": 0.0004670141898824676,
      "loss": 3.0696,
      "step": 1488
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.6859886050224304,
      "learning_rate": 0.0004669627098772321,
      "loss": 3.1035,
      "step": 1489
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.7182038426399231,
      "learning_rate": 0.0004669111925735916,
      "loss": 3.0064,
      "step": 1490
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.684972882270813,
      "learning_rate": 0.00046685963798040247,
      "loss": 2.987,
      "step": 1491
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.6988853812217712,
      "learning_rate": 0.0004668080461065275,
      "loss": 3.0781,
      "step": 1492
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.7903987169265747,
      "learning_rate": 0.00046675641696083595,
      "loss": 3.0441,
      "step": 1493
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.7488982677459717,
      "learning_rate": 0.00046670475055220347,
      "loss": 2.9662,
      "step": 1494
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.7246271371841431,
      "learning_rate": 0.0004666530468895121,
      "loss": 3.0354,
      "step": 1495
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.688401997089386,
      "learning_rate": 0.0004666013059816503,
      "loss": 3.0449,
      "step": 1496
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.7050315141677856,
      "learning_rate": 0.000466549527837513,
      "loss": 3.0167,
      "step": 1497
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.715996265411377,
      "learning_rate": 0.00046649771246600136,
      "loss": 2.9534,
      "step": 1498
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.6956565380096436,
      "learning_rate": 0.00046644585987602304,
      "loss": 2.9414,
      "step": 1499
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.6948541402816772,
      "learning_rate": 0.0004663939700764923,
      "loss": 3.0613,
      "step": 1500
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.6763587594032288,
      "learning_rate": 0.0004663420430763293,
      "loss": 2.9334,
      "step": 1501
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.7129976153373718,
      "learning_rate": 0.00046629007888446115,
      "loss": 2.9963,
      "step": 1502
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.7356613874435425,
      "learning_rate": 0.00046623807750982094,
      "loss": 2.9788,
      "step": 1503
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.7318869829177856,
      "learning_rate": 0.00046618603896134836,
      "loss": 3.1591,
      "step": 1504
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.762257993221283,
      "learning_rate": 0.00046613396324798943,
      "loss": 3.0593,
      "step": 1505
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.7341693639755249,
      "learning_rate": 0.0004660818503786965,
      "loss": 2.9419,
      "step": 1506
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.7133422493934631,
      "learning_rate": 0.00046602970036242866,
      "loss": 3.1604,
      "step": 1507
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.742303729057312,
      "learning_rate": 0.00046597751320815074,
      "loss": 3.0168,
      "step": 1508
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.7313988208770752,
      "learning_rate": 0.00046592528892483453,
      "loss": 3.0364,
      "step": 1509
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.738627552986145,
      "learning_rate": 0.00046587302752145793,
      "loss": 3.0361,
      "step": 1510
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.6913667321205139,
      "learning_rate": 0.00046582072900700524,
      "loss": 3.0073,
      "step": 1511
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.7388074994087219,
      "learning_rate": 0.00046576839339046726,
      "loss": 3.0538,
      "step": 1512
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.68952876329422,
      "learning_rate": 0.00046571602068084107,
      "loss": 2.9658,
      "step": 1513
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.7211388349533081,
      "learning_rate": 0.00046566361088713016,
      "loss": 3.0263,
      "step": 1514
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.7388349175453186,
      "learning_rate": 0.00046561116401834426,
      "loss": 2.9652,
      "step": 1515
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.6746585965156555,
      "learning_rate": 0.0004655586800834998,
      "loss": 2.9472,
      "step": 1516
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.7486625909805298,
      "learning_rate": 0.0004655061590916191,
      "loss": 3.0336,
      "step": 1517
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.6882131099700928,
      "learning_rate": 0.0004654536010517314,
      "loss": 3.1066,
      "step": 1518
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.6780354380607605,
      "learning_rate": 0.00046540100597287193,
      "loss": 3.0304,
      "step": 1519
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.6416742205619812,
      "learning_rate": 0.00046534837386408236,
      "loss": 2.9107,
      "step": 1520
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.7131175398826599,
      "learning_rate": 0.0004652957047344108,
      "loss": 2.9874,
      "step": 1521
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.72679603099823,
      "learning_rate": 0.00046524299859291164,
      "loss": 3.0464,
      "step": 1522
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.6862263083457947,
      "learning_rate": 0.0004651902554486458,
      "loss": 2.988,
      "step": 1523
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.6956765651702881,
      "learning_rate": 0.0004651374753106803,
      "loss": 3.1274,
      "step": 1524
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.6770020127296448,
      "learning_rate": 0.00046508465818808866,
      "loss": 3.071,
      "step": 1525
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.7578976154327393,
      "learning_rate": 0.00046503180408995085,
      "loss": 3.1603,
      "step": 1526
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.7601607441902161,
      "learning_rate": 0.00046497891302535303,
      "loss": 3.1436,
      "step": 1527
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.7288753390312195,
      "learning_rate": 0.00046492598500338787,
      "loss": 3.0672,
      "step": 1528
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.7098495960235596,
      "learning_rate": 0.0004648730200331542,
      "loss": 3.0504,
      "step": 1529
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.7679570317268372,
      "learning_rate": 0.0004648200181237574,
      "loss": 2.936,
      "step": 1530
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.7614941596984863,
      "learning_rate": 0.000464766979284309,
      "loss": 3.1983,
      "step": 1531
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.6821061372756958,
      "learning_rate": 0.0004647139035239272,
      "loss": 3.09,
      "step": 1532
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.6661115288734436,
      "learning_rate": 0.0004646607908517361,
      "loss": 3.0668,
      "step": 1533
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.7646161913871765,
      "learning_rate": 0.0004646076412768665,
      "loss": 3.1856,
      "step": 1534
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.6975685954093933,
      "learning_rate": 0.00046455445480845543,
      "loss": 3.0562,
      "step": 1535
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.6740922331809998,
      "learning_rate": 0.0004645012314556463,
      "loss": 3.101,
      "step": 1536
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.6511738300323486,
      "learning_rate": 0.0004644479712275887,
      "loss": 3.0234,
      "step": 1537
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.7064876556396484,
      "learning_rate": 0.0004643946741334387,
      "loss": 3.0715,
      "step": 1538
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.7396417856216431,
      "learning_rate": 0.00046434134018235885,
      "loss": 3.1078,
      "step": 1539
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.711353600025177,
      "learning_rate": 0.0004642879693835178,
      "loss": 3.1706,
      "step": 1540
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.7586907744407654,
      "learning_rate": 0.00046423456174609045,
      "loss": 3.1204,
      "step": 1541
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.734082818031311,
      "learning_rate": 0.0004641811172792584,
      "loss": 3.0252,
      "step": 1542
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.7262358069419861,
      "learning_rate": 0.00046412763599220925,
      "loss": 3.1467,
      "step": 1543
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.7085062861442566,
      "learning_rate": 0.00046407411789413714,
      "loss": 3.172,
      "step": 1544
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.7267813086509705,
      "learning_rate": 0.0004640205629942423,
      "loss": 2.9832,
      "step": 1545
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.7361263036727905,
      "learning_rate": 0.00046396697130173165,
      "loss": 2.9638,
      "step": 1546
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.7398743033409119,
      "learning_rate": 0.0004639133428258181,
      "loss": 3.0817,
      "step": 1547
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.6763418912887573,
      "learning_rate": 0.000463859677575721,
      "loss": 2.9915,
      "step": 1548
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.7529777884483337,
      "learning_rate": 0.00046380597556066607,
      "loss": 2.9945,
      "step": 1549
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.7315239310264587,
      "learning_rate": 0.0004637522367898852,
      "loss": 3.0649,
      "step": 1550
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.7255045175552368,
      "learning_rate": 0.00046369846127261696,
      "loss": 3.1032,
      "step": 1551
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.6629146933555603,
      "learning_rate": 0.0004636446490181057,
      "loss": 3.0431,
      "step": 1552
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.7223716378211975,
      "learning_rate": 0.0004635908000356025,
      "loss": 3.1656,
      "step": 1553
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.7407515645027161,
      "learning_rate": 0.00046353691433436464,
      "loss": 3.0848,
      "step": 1554
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.7009113430976868,
      "learning_rate": 0.00046348299192365566,
      "loss": 3.1253,
      "step": 1555
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.7111994624137878,
      "learning_rate": 0.00046342903281274553,
      "loss": 2.9897,
      "step": 1556
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.7139917016029358,
      "learning_rate": 0.00046337503701091026,
      "loss": 3.0587,
      "step": 1557
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.6706182956695557,
      "learning_rate": 0.0004633210045274325,
      "loss": 3.1253,
      "step": 1558
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.7491126656532288,
      "learning_rate": 0.00046326693537160113,
      "loss": 2.9671,
      "step": 1559
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.6572601795196533,
      "learning_rate": 0.0004632128295527111,
      "loss": 3.103,
      "step": 1560
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.6611800789833069,
      "learning_rate": 0.00046315868708006393,
      "loss": 2.878,
      "step": 1561
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.7014332413673401,
      "learning_rate": 0.0004631045079629672,
      "loss": 3.0095,
      "step": 1562
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.7334305047988892,
      "learning_rate": 0.00046305029221073516,
      "loss": 3.127,
      "step": 1563
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.7513758540153503,
      "learning_rate": 0.0004629960398326879,
      "loss": 3.1204,
      "step": 1564
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.7323801517486572,
      "learning_rate": 0.00046294175083815215,
      "loss": 3.0893,
      "step": 1565
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.7188870906829834,
      "learning_rate": 0.0004628874252364609,
      "loss": 3.1151,
      "step": 1566
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.7642369866371155,
      "learning_rate": 0.00046283306303695316,
      "loss": 3.1046,
      "step": 1567
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.7036405205726624,
      "learning_rate": 0.0004627786642489745,
      "loss": 3.0717,
      "step": 1568
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.6986942291259766,
      "learning_rate": 0.0004627242288818767,
      "loss": 2.9509,
      "step": 1569
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.7544679045677185,
      "learning_rate": 0.0004626697569450179,
      "loss": 2.8963,
      "step": 1570
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.7227591276168823,
      "learning_rate": 0.00046261524844776235,
      "loss": 2.9959,
      "step": 1571
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.7345181107521057,
      "learning_rate": 0.0004625607033994808,
      "loss": 3.1501,
      "step": 1572
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.6920554637908936,
      "learning_rate": 0.0004625061218095501,
      "loss": 2.9343,
      "step": 1573
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.7337088584899902,
      "learning_rate": 0.00046245150368735344,
      "loss": 3.116,
      "step": 1574
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.7336483001708984,
      "learning_rate": 0.0004623968490422804,
      "loss": 3.0613,
      "step": 1575
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.7307339906692505,
      "learning_rate": 0.0004623421578837267,
      "loss": 3.0105,
      "step": 1576
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.7266836762428284,
      "learning_rate": 0.0004622874302210943,
      "loss": 3.0881,
      "step": 1577
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.7169706225395203,
      "learning_rate": 0.00046223266606379166,
      "loss": 3.063,
      "step": 1578
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.7381157875061035,
      "learning_rate": 0.0004621778654212333,
      "loss": 3.1577,
      "step": 1579
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.7533493638038635,
      "learning_rate": 0.00046212302830284015,
      "loss": 3.0062,
      "step": 1580
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.6661704778671265,
      "learning_rate": 0.0004620681547180392,
      "loss": 3.0274,
      "step": 1581
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.7513095736503601,
      "learning_rate": 0.00046201324467626405,
      "loss": 3.164,
      "step": 1582
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.7293281555175781,
      "learning_rate": 0.0004619582981869542,
      "loss": 3.0497,
      "step": 1583
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.6883119344711304,
      "learning_rate": 0.00046190331525955566,
      "loss": 3.0467,
      "step": 1584
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.7955284118652344,
      "learning_rate": 0.0004618482959035206,
      "loss": 3.0322,
      "step": 1585
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.7407763004302979,
      "learning_rate": 0.0004617932401283076,
      "loss": 3.0483,
      "step": 1586
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.6747816801071167,
      "learning_rate": 0.0004617381479433813,
      "loss": 2.9509,
      "step": 1587
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.7773367166519165,
      "learning_rate": 0.0004616830193582127,
      "loss": 2.9955,
      "step": 1588
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.7428171038627625,
      "learning_rate": 0.00046162785438227895,
      "loss": 2.9393,
      "step": 1589
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.7011316418647766,
      "learning_rate": 0.0004615726530250637,
      "loss": 3.0108,
      "step": 1590
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.7347299456596375,
      "learning_rate": 0.00046151741529605654,
      "loss": 3.0713,
      "step": 1591
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.7630695104598999,
      "learning_rate": 0.00046146214120475367,
      "loss": 3.1579,
      "step": 1592
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.6659039855003357,
      "learning_rate": 0.0004614068307606572,
      "loss": 3.0478,
      "step": 1593
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.7573621273040771,
      "learning_rate": 0.0004613514839732757,
      "loss": 3.1248,
      "step": 1594
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.7475267648696899,
      "learning_rate": 0.00046129610085212394,
      "loss": 2.9891,
      "step": 1595
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.6870723366737366,
      "learning_rate": 0.00046124068140672284,
      "loss": 3.0252,
      "step": 1596
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.6860678195953369,
      "learning_rate": 0.0004611852256465997,
      "loss": 3.1334,
      "step": 1597
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.6208546757698059,
      "learning_rate": 0.00046112973358128796,
      "loss": 3.0035,
      "step": 1598
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.6562275886535645,
      "learning_rate": 0.0004610742052203275,
      "loss": 3.1298,
      "step": 1599
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.6829034090042114,
      "learning_rate": 0.0004610186405732641,
      "loss": 3.1146,
      "step": 1600
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.7413221597671509,
      "learning_rate": 0.00046096303964965004,
      "loss": 3.0784,
      "step": 1601
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.716238260269165,
      "learning_rate": 0.00046090740245904383,
      "loss": 3.0353,
      "step": 1602
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.6748047471046448,
      "learning_rate": 0.00046085172901101006,
      "loss": 2.9577,
      "step": 1603
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.7308527827262878,
      "learning_rate": 0.0004607960193151197,
      "loss": 3.061,
      "step": 1604
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.6678818464279175,
      "learning_rate": 0.00046074027338094983,
      "loss": 3.0551,
      "step": 1605
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.6868999004364014,
      "learning_rate": 0.0004606844912180839,
      "loss": 3.1501,
      "step": 1606
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.6632732152938843,
      "learning_rate": 0.0004606286728361113,
      "loss": 3.0884,
      "step": 1607
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.7027301788330078,
      "learning_rate": 0.0004605728182446282,
      "loss": 2.9763,
      "step": 1608
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.6867501735687256,
      "learning_rate": 0.0004605169274532364,
      "loss": 3.0181,
      "step": 1609
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.7059956192970276,
      "learning_rate": 0.00046046100047154425,
      "loss": 3.1628,
      "step": 1610
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.6758166551589966,
      "learning_rate": 0.0004604050373091663,
      "loss": 2.8775,
      "step": 1611
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.7159913182258606,
      "learning_rate": 0.0004603490379757232,
      "loss": 3.0987,
      "step": 1612
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.7191547751426697,
      "learning_rate": 0.00046029300248084183,
      "loss": 2.99,
      "step": 1613
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.7003183364868164,
      "learning_rate": 0.0004602369308341555,
      "loss": 2.935,
      "step": 1614
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.7061347961425781,
      "learning_rate": 0.0004601808230453034,
      "loss": 3.1062,
      "step": 1615
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.6806578040122986,
      "learning_rate": 0.00046012467912393126,
      "loss": 2.9665,
      "step": 1616
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.6414398550987244,
      "learning_rate": 0.0004600684990796907,
      "loss": 3.0566,
      "step": 1617
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.7279778718948364,
      "learning_rate": 0.00046001228292223993,
      "loss": 3.1664,
      "step": 1618
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.7218049764633179,
      "learning_rate": 0.00045995603066124305,
      "loss": 2.9324,
      "step": 1619
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.650542140007019,
      "learning_rate": 0.00045989974230637045,
      "loss": 2.9633,
      "step": 1620
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.7353752255439758,
      "learning_rate": 0.0004598434178672988,
      "loss": 3.1809,
      "step": 1621
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.7372921705245972,
      "learning_rate": 0.00045978705735371083,
      "loss": 3.1914,
      "step": 1622
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.6753481030464172,
      "learning_rate": 0.00045973066077529574,
      "loss": 2.9412,
      "step": 1623
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.7060051560401917,
      "learning_rate": 0.00045967422814174863,
      "loss": 2.9984,
      "step": 1624
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.7337760925292969,
      "learning_rate": 0.0004596177594627709,
      "loss": 3.1046,
      "step": 1625
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.7266918420791626,
      "learning_rate": 0.00045956125474807034,
      "loss": 2.9111,
      "step": 1626
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.7498826384544373,
      "learning_rate": 0.0004595047140073605,
      "loss": 3.053,
      "step": 1627
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.7030869722366333,
      "learning_rate": 0.0004594481372503616,
      "loss": 3.0535,
      "step": 1628
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.7246242761611938,
      "learning_rate": 0.00045939152448679977,
      "loss": 3.0465,
      "step": 1629
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.6759396195411682,
      "learning_rate": 0.0004593348757264074,
      "loss": 3.1303,
      "step": 1630
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.7338141202926636,
      "learning_rate": 0.0004592781909789231,
      "loss": 3.081,
      "step": 1631
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.7182146310806274,
      "learning_rate": 0.0004592214702540916,
      "loss": 3.1069,
      "step": 1632
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.7166041135787964,
      "learning_rate": 0.00045916471356166383,
      "loss": 3.0643,
      "step": 1633
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.6726939678192139,
      "learning_rate": 0.000459107920911397,
      "loss": 3.0948,
      "step": 1634
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.6827519536018372,
      "learning_rate": 0.00045905109231305437,
      "loss": 2.906,
      "step": 1635
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.7275521159172058,
      "learning_rate": 0.00045899422777640543,
      "loss": 3.0217,
      "step": 1636
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.7166031002998352,
      "learning_rate": 0.00045893732731122584,
      "loss": 3.0635,
      "step": 1637
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.6744630932807922,
      "learning_rate": 0.0004588803909272975,
      "loss": 3.0342,
      "step": 1638
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.6948614716529846,
      "learning_rate": 0.0004588234186344084,
      "loss": 3.0816,
      "step": 1639
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.7580001950263977,
      "learning_rate": 0.0004587664104423528,
      "loss": 3.0348,
      "step": 1640
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.675808846950531,
      "learning_rate": 0.000458709366360931,
      "loss": 3.129,
      "step": 1641
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.6766045689582825,
      "learning_rate": 0.0004586522863999495,
      "loss": 3.1998,
      "step": 1642
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.7586182951927185,
      "learning_rate": 0.0004585951705692211,
      "loss": 3.1274,
      "step": 1643
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.7126270532608032,
      "learning_rate": 0.0004585380188785646,
      "loss": 2.9591,
      "step": 1644
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.6943696737289429,
      "learning_rate": 0.0004584808313378051,
      "loss": 3.071,
      "step": 1645
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.6792870759963989,
      "learning_rate": 0.0004584236079567738,
      "loss": 3.1922,
      "step": 1646
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.6234495639801025,
      "learning_rate": 0.000458366348745308,
      "loss": 2.9871,
      "step": 1647
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.7906841039657593,
      "learning_rate": 0.00045830905371325125,
      "loss": 3.005,
      "step": 1648
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.7187455296516418,
      "learning_rate": 0.0004582517228704533,
      "loss": 2.9596,
      "step": 1649
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.7168309688568115,
      "learning_rate": 0.00045819435622676985,
      "loss": 3.0975,
      "step": 1650
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.7580092549324036,
      "learning_rate": 0.0004581369537920631,
      "loss": 3.0602,
      "step": 1651
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.7210357189178467,
      "learning_rate": 0.000458079515576201,
      "loss": 3.0932,
      "step": 1652
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.6743665337562561,
      "learning_rate": 0.00045802204158905787,
      "loss": 2.9969,
      "step": 1653
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.6821622252464294,
      "learning_rate": 0.00045796453184051417,
      "loss": 3.0923,
      "step": 1654
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.6820428371429443,
      "learning_rate": 0.0004579069863404566,
      "loss": 3.1069,
      "step": 1655
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.6785312294960022,
      "learning_rate": 0.0004578494050987777,
      "loss": 3.0993,
      "step": 1656
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.7093976736068726,
      "learning_rate": 0.0004577917881253766,
      "loss": 3.0876,
      "step": 1657
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.6960095763206482,
      "learning_rate": 0.0004577341354301581,
      "loss": 3.0093,
      "step": 1658
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.7161036729812622,
      "learning_rate": 0.00045767644702303346,
      "loss": 3.0506,
      "step": 1659
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.6481283903121948,
      "learning_rate": 0.00045761872291392005,
      "loss": 2.9095,
      "step": 1660
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.7012867331504822,
      "learning_rate": 0.00045756096311274123,
      "loss": 3.0228,
      "step": 1661
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.7035225629806519,
      "learning_rate": 0.00045750316762942656,
      "loss": 3.069,
      "step": 1662
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.6779944896697998,
      "learning_rate": 0.0004574453364739118,
      "loss": 2.9128,
      "step": 1663
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.7203949689865112,
      "learning_rate": 0.00045738746965613876,
      "loss": 3.1283,
      "step": 1664
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.758438766002655,
      "learning_rate": 0.0004573295671860555,
      "loss": 3.0887,
      "step": 1665
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.7049234509468079,
      "learning_rate": 0.0004572716290736161,
      "loss": 3.0882,
      "step": 1666
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.7523890137672424,
      "learning_rate": 0.00045721365532878065,
      "loss": 3.0393,
      "step": 1667
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.7231587767601013,
      "learning_rate": 0.0004571556459615157,
      "loss": 3.0162,
      "step": 1668
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.7583860754966736,
      "learning_rate": 0.00045709760098179363,
      "loss": 3.1503,
      "step": 1669
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.7397617101669312,
      "learning_rate": 0.00045703952039959306,
      "loss": 3.1292,
      "step": 1670
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.7552002668380737,
      "learning_rate": 0.00045698140422489875,
      "loss": 3.0276,
      "step": 1671
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.7162460684776306,
      "learning_rate": 0.00045692325246770156,
      "loss": 3.0282,
      "step": 1672
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.731543779373169,
      "learning_rate": 0.0004568650651379984,
      "loss": 3.0849,
      "step": 1673
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.6659482717514038,
      "learning_rate": 0.0004568068422457923,
      "loss": 3.1264,
      "step": 1674
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.6786996126174927,
      "learning_rate": 0.0004567485838010925,
      "loss": 3.0761,
      "step": 1675
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.7082468867301941,
      "learning_rate": 0.00045669028981391434,
      "loss": 3.0324,
      "step": 1676
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.6894600987434387,
      "learning_rate": 0.00045663196029427925,
      "loss": 2.9772,
      "step": 1677
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.7789302468299866,
      "learning_rate": 0.00045657359525221465,
      "loss": 3.0349,
      "step": 1678
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.6918691992759705,
      "learning_rate": 0.0004565151946977542,
      "loss": 3.0604,
      "step": 1679
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.7559880614280701,
      "learning_rate": 0.00045645675864093766,
      "loss": 3.1065,
      "step": 1680
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.6767265796661377,
      "learning_rate": 0.0004563982870918109,
      "loss": 3.0164,
      "step": 1681
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.7108924388885498,
      "learning_rate": 0.00045633978006042575,
      "loss": 3.0854,
      "step": 1682
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.6874114274978638,
      "learning_rate": 0.00045628123755684036,
      "loss": 3.0619,
      "step": 1683
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.6969448924064636,
      "learning_rate": 0.0004562226595911188,
      "loss": 3.073,
      "step": 1684
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.6953869462013245,
      "learning_rate": 0.0004561640461733313,
      "loss": 2.9869,
      "step": 1685
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.7080221176147461,
      "learning_rate": 0.0004561053973135543,
      "loss": 3.031,
      "step": 1686
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.709083080291748,
      "learning_rate": 0.00045604671302187,
      "loss": 3.1474,
      "step": 1687
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.7054653167724609,
      "learning_rate": 0.000455987993308367,
      "loss": 3.0515,
      "step": 1688
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.6836488246917725,
      "learning_rate": 0.00045592923818314014,
      "loss": 2.9814,
      "step": 1689
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.7529832124710083,
      "learning_rate": 0.00045587044765628973,
      "loss": 2.9378,
      "step": 1690
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.6968677639961243,
      "learning_rate": 0.0004558116217379228,
      "loss": 3.0404,
      "step": 1691
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.7860451340675354,
      "learning_rate": 0.00045575276043815203,
      "loss": 3.0836,
      "step": 1692
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.7232091426849365,
      "learning_rate": 0.00045569386376709655,
      "loss": 3.0224,
      "step": 1693
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.7116379141807556,
      "learning_rate": 0.0004556349317348812,
      "loss": 2.9688,
      "step": 1694
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.660794198513031,
      "learning_rate": 0.0004555759643516372,
      "loss": 3.0655,
      "step": 1695
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.723281741142273,
      "learning_rate": 0.0004555169616275017,
      "loss": 3.0314,
      "step": 1696
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.7143163084983826,
      "learning_rate": 0.00045545792357261784,
      "loss": 3.1103,
      "step": 1697
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.6626854538917542,
      "learning_rate": 0.0004553988501971351,
      "loss": 2.9757,
      "step": 1698
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.6946882009506226,
      "learning_rate": 0.00045533974151120896,
      "loss": 2.9805,
      "step": 1699
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.659192681312561,
      "learning_rate": 0.0004552805975250006,
      "loss": 3.0972,
      "step": 1700
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.6809110045433044,
      "learning_rate": 0.0004552214182486777,
      "loss": 2.9538,
      "step": 1701
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.6766699552536011,
      "learning_rate": 0.0004551622036924139,
      "loss": 3.1974,
      "step": 1702
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.6540043354034424,
      "learning_rate": 0.0004551029538663889,
      "loss": 3.1467,
      "step": 1703
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.7252940535545349,
      "learning_rate": 0.00045504366878078826,
      "loss": 2.9763,
      "step": 1704
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.7118241786956787,
      "learning_rate": 0.0004549843484458041,
      "loss": 2.9663,
      "step": 1705
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.6929146647453308,
      "learning_rate": 0.0004549249928716338,
      "loss": 3.0197,
      "step": 1706
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.6835930943489075,
      "learning_rate": 0.0004548656020684817,
      "loss": 2.9389,
      "step": 1707
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.6901854872703552,
      "learning_rate": 0.0004548061760465575,
      "loss": 2.958,
      "step": 1708
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.7702183127403259,
      "learning_rate": 0.00045474671481607744,
      "loss": 3.0238,
      "step": 1709
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.7324495315551758,
      "learning_rate": 0.00045468721838726336,
      "loss": 3.0564,
      "step": 1710
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.6482272744178772,
      "learning_rate": 0.00045462768677034354,
      "loss": 3.0648,
      "step": 1711
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.7266876101493835,
      "learning_rate": 0.00045456811997555215,
      "loss": 3.0325,
      "step": 1712
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.7317029237747192,
      "learning_rate": 0.0004545085180131293,
      "loss": 3.0293,
      "step": 1713
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.7280853390693665,
      "learning_rate": 0.0004544488808933214,
      "loss": 3.0235,
      "step": 1714
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.6878976225852966,
      "learning_rate": 0.0004543892086263807,
      "loss": 2.9679,
      "step": 1715
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.6968247294425964,
      "learning_rate": 0.0004543295012225656,
      "loss": 2.9362,
      "step": 1716
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.7251003980636597,
      "learning_rate": 0.00045426975869214035,
      "loss": 3.0328,
      "step": 1717
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.7350894808769226,
      "learning_rate": 0.0004542099810453755,
      "loss": 3.1076,
      "step": 1718
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.6518924236297607,
      "learning_rate": 0.0004541501682925475,
      "loss": 2.9993,
      "step": 1719
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.7018013596534729,
      "learning_rate": 0.0004540903204439389,
      "loss": 3.1107,
      "step": 1720
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.7306045293807983,
      "learning_rate": 0.0004540304375098382,
      "loss": 3.0816,
      "step": 1721
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.6443167924880981,
      "learning_rate": 0.0004539705195005399,
      "loss": 3.0294,
      "step": 1722
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.7832169532775879,
      "learning_rate": 0.00045391056642634476,
      "loss": 2.8671,
      "step": 1723
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.7385408878326416,
      "learning_rate": 0.00045385057829755925,
      "loss": 2.9374,
      "step": 1724
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.7112632393836975,
      "learning_rate": 0.00045379055512449615,
      "loss": 3.1028,
      "step": 1725
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.6589015126228333,
      "learning_rate": 0.00045373049691747403,
      "loss": 3.1328,
      "step": 1726
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.7662367820739746,
      "learning_rate": 0.0004536704036868177,
      "loss": 2.9629,
      "step": 1727
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.7145506143569946,
      "learning_rate": 0.0004536102754428577,
      "loss": 3.1293,
      "step": 1728
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.6694983839988708,
      "learning_rate": 0.00045355011219593103,
      "loss": 3.0609,
      "step": 1729
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.7859267592430115,
      "learning_rate": 0.00045348991395638026,
      "loss": 3.1613,
      "step": 1730
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.6927302479743958,
      "learning_rate": 0.00045342968073455427,
      "loss": 3.0756,
      "step": 1731
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.6977186799049377,
      "learning_rate": 0.0004533694125408078,
      "loss": 3.0525,
      "step": 1732
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.7101888656616211,
      "learning_rate": 0.00045330910938550157,
      "loss": 3.1434,
      "step": 1733
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.6749675273895264,
      "learning_rate": 0.00045324877127900253,
      "loss": 2.884,
      "step": 1734
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.671518087387085,
      "learning_rate": 0.00045318839823168345,
      "loss": 3.0145,
      "step": 1735
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.7963441014289856,
      "learning_rate": 0.00045312799025392313,
      "loss": 3.0577,
      "step": 1736
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.7032358646392822,
      "learning_rate": 0.00045306754735610643,
      "loss": 3.0001,
      "step": 1737
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.721919059753418,
      "learning_rate": 0.00045300706954862425,
      "loss": 2.9296,
      "step": 1738
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.7373720407485962,
      "learning_rate": 0.00045294655684187325,
      "loss": 3.1429,
      "step": 1739
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.7221983671188354,
      "learning_rate": 0.00045288600924625643,
      "loss": 3.0647,
      "step": 1740
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.7044332027435303,
      "learning_rate": 0.00045282542677218255,
      "loss": 2.9813,
      "step": 1741
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.7108805179595947,
      "learning_rate": 0.00045276480943006646,
      "loss": 3.2013,
      "step": 1742
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.6342809796333313,
      "learning_rate": 0.00045270415723032897,
      "loss": 2.9422,
      "step": 1743
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.7215469479560852,
      "learning_rate": 0.0004526434701833969,
      "loss": 3.1774,
      "step": 1744
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.6915624141693115,
      "learning_rate": 0.000452582748299703,
      "loss": 3.0293,
      "step": 1745
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.6731183528900146,
      "learning_rate": 0.0004525219915896863,
      "loss": 3.0521,
      "step": 1746
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.6913108825683594,
      "learning_rate": 0.00045246120006379125,
      "loss": 3.0536,
      "step": 1747
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.6447322964668274,
      "learning_rate": 0.00045240037373246885,
      "loss": 3.029,
      "step": 1748
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.6998607516288757,
      "learning_rate": 0.0004523395126061757,
      "loss": 3.0059,
      "step": 1749
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.691285252571106,
      "learning_rate": 0.00045227861669537475,
      "loss": 3.0973,
      "step": 1750
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.6976525187492371,
      "learning_rate": 0.0004522176860105345,
      "loss": 3.0435,
      "step": 1751
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.7242314219474792,
      "learning_rate": 0.00045215672056212966,
      "loss": 3.0296,
      "step": 1752
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.7207810878753662,
      "learning_rate": 0.00045209572036064105,
      "loss": 3.1578,
      "step": 1753
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.7246878743171692,
      "learning_rate": 0.00045203468541655514,
      "loss": 2.9477,
      "step": 1754
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.7280980944633484,
      "learning_rate": 0.00045197361574036466,
      "loss": 3.0267,
      "step": 1755
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.7285013198852539,
      "learning_rate": 0.0004519125113425681,
      "loss": 3.1354,
      "step": 1756
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.690707266330719,
      "learning_rate": 0.0004518513722336701,
      "loss": 2.9712,
      "step": 1757
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.7195205092430115,
      "learning_rate": 0.00045179019842418126,
      "loss": 3.1247,
      "step": 1758
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.6930943131446838,
      "learning_rate": 0.0004517289899246178,
      "loss": 3.0036,
      "step": 1759
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.7213300466537476,
      "learning_rate": 0.0004516677467455024,
      "loss": 3.041,
      "step": 1760
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.7199099063873291,
      "learning_rate": 0.00045160646889736333,
      "loss": 3.0511,
      "step": 1761
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.6717321276664734,
      "learning_rate": 0.00045154515639073513,
      "loss": 2.9776,
      "step": 1762
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.6885172724723816,
      "learning_rate": 0.00045148380923615804,
      "loss": 3.0102,
      "step": 1763
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.6647580862045288,
      "learning_rate": 0.0004514224274441783,
      "loss": 3.0757,
      "step": 1764
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.6994330286979675,
      "learning_rate": 0.00045136101102534823,
      "loss": 2.9017,
      "step": 1765
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.7637279033660889,
      "learning_rate": 0.00045129955999022585,
      "loss": 2.9947,
      "step": 1766
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.8274899125099182,
      "learning_rate": 0.0004512380743493756,
      "loss": 3.0775,
      "step": 1767
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.6995633244514465,
      "learning_rate": 0.00045117655411336735,
      "loss": 2.9592,
      "step": 1768
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.7267754077911377,
      "learning_rate": 0.00045111499929277723,
      "loss": 3.0975,
      "step": 1769
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.7371074557304382,
      "learning_rate": 0.0004510534098981872,
      "loss": 2.9278,
      "step": 1770
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.7577613592147827,
      "learning_rate": 0.0004509917859401852,
      "loss": 2.9673,
      "step": 1771
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.6929842233657837,
      "learning_rate": 0.0004509301274293651,
      "loss": 2.9775,
      "step": 1772
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.7174541354179382,
      "learning_rate": 0.00045086843437632673,
      "loss": 2.9717,
      "step": 1773
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.6652145981788635,
      "learning_rate": 0.0004508067067916758,
      "loss": 2.9519,
      "step": 1774
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.7079206109046936,
      "learning_rate": 0.000450744944686024,
      "loss": 3.1034,
      "step": 1775
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.6554901003837585,
      "learning_rate": 0.000450683148069989,
      "loss": 3.0343,
      "step": 1776
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.6623694896697998,
      "learning_rate": 0.00045062131695419434,
      "loss": 3.0631,
      "step": 1777
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.7193904519081116,
      "learning_rate": 0.00045055945134926944,
      "loss": 3.024,
      "step": 1778
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.6811707019805908,
      "learning_rate": 0.00045049755126584987,
      "loss": 2.9698,
      "step": 1779
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.6477283835411072,
      "learning_rate": 0.00045043561671457677,
      "loss": 3.1076,
      "step": 1780
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.6913082599639893,
      "learning_rate": 0.0004503736477060976,
      "loss": 3.0799,
      "step": 1781
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.690434455871582,
      "learning_rate": 0.0004503116442510654,
      "loss": 3.1202,
      "step": 1782
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.6762120127677917,
      "learning_rate": 0.00045024960636013935,
      "loss": 3.0445,
      "step": 1783
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.6925739049911499,
      "learning_rate": 0.00045018753404398444,
      "loss": 3.0298,
      "step": 1784
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.7336492538452148,
      "learning_rate": 0.0004501254273132717,
      "loss": 3.0447,
      "step": 1785
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.7252566814422607,
      "learning_rate": 0.0004500632861786779,
      "loss": 3.0693,
      "step": 1786
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.7155344486236572,
      "learning_rate": 0.00045000111065088597,
      "loss": 3.0112,
      "step": 1787
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.6367480158805847,
      "learning_rate": 0.00044993890074058443,
      "loss": 3.0717,
      "step": 1788
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.6936574578285217,
      "learning_rate": 0.000449876656458468,
      "loss": 3.0535,
      "step": 1789
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.642616331577301,
      "learning_rate": 0.00044981437781523714,
      "loss": 3.0167,
      "step": 1790
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.709062933921814,
      "learning_rate": 0.00044975206482159827,
      "loss": 2.9545,
      "step": 1791
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.6397073268890381,
      "learning_rate": 0.0004496897174882637,
      "loss": 2.9957,
      "step": 1792
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.6400985717773438,
      "learning_rate": 0.0004496273358259517,
      "loss": 3.033,
      "step": 1793
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.6641051173210144,
      "learning_rate": 0.0004495649198453865,
      "loss": 3.095,
      "step": 1794
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.6896367073059082,
      "learning_rate": 0.00044950246955729794,
      "loss": 3.1445,
      "step": 1795
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.6795187592506409,
      "learning_rate": 0.00044943998497242203,
      "loss": 3.1024,
      "step": 1796
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.6393200159072876,
      "learning_rate": 0.00044937746610150065,
      "loss": 2.8981,
      "step": 1797
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.7451847195625305,
      "learning_rate": 0.00044931491295528144,
      "loss": 3.0496,
      "step": 1798
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.6483910083770752,
      "learning_rate": 0.000449252325544518,
      "loss": 2.9589,
      "step": 1799
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.7485527396202087,
      "learning_rate": 0.0004491897038799699,
      "loss": 3.1107,
      "step": 1800
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.7519189119338989,
      "learning_rate": 0.00044912704797240243,
      "loss": 2.9407,
      "step": 1801
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.7113165259361267,
      "learning_rate": 0.000449064357832587,
      "loss": 3.0112,
      "step": 1802
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.7032606601715088,
      "learning_rate": 0.00044900163347130073,
      "loss": 3.0872,
      "step": 1803
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.7093443274497986,
      "learning_rate": 0.0004489388748993266,
      "loss": 2.9806,
      "step": 1804
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.6893507838249207,
      "learning_rate": 0.0004488760821274536,
      "loss": 2.9931,
      "step": 1805
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.6768745183944702,
      "learning_rate": 0.00044881325516647654,
      "loss": 3.1009,
      "step": 1806
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.6864407062530518,
      "learning_rate": 0.00044875039402719606,
      "loss": 3.0136,
      "step": 1807
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.7124894261360168,
      "learning_rate": 0.0004486874987204187,
      "loss": 3.065,
      "step": 1808
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.6985830068588257,
      "learning_rate": 0.0004486245692569569,
      "loss": 2.9674,
      "step": 1809
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.6842364072799683,
      "learning_rate": 0.00044856160564762904,
      "loss": 3.0246,
      "step": 1810
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.6932383179664612,
      "learning_rate": 0.0004484986079032592,
      "loss": 3.0618,
      "step": 1811
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.7440133094787598,
      "learning_rate": 0.00044843557603467754,
      "loss": 2.9265,
      "step": 1812
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.7217841744422913,
      "learning_rate": 0.00044837251005271984,
      "loss": 2.9144,
      "step": 1813
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.7448245882987976,
      "learning_rate": 0.000448309409968228,
      "loss": 3.1476,
      "step": 1814
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.6731448173522949,
      "learning_rate": 0.00044824627579204953,
      "loss": 2.9818,
      "step": 1815
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.7310910224914551,
      "learning_rate": 0.000448183107535038,
      "loss": 2.941,
      "step": 1816
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.6763327121734619,
      "learning_rate": 0.0004481199052080527,
      "loss": 3.048,
      "step": 1817
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.7098370790481567,
      "learning_rate": 0.0004480566688219589,
      "loss": 3.0522,
      "step": 1818
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.6613592505455017,
      "learning_rate": 0.0004479933983876278,
      "loss": 3.0658,
      "step": 1819
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.632495641708374,
      "learning_rate": 0.000447930093915936,
      "loss": 3.0358,
      "step": 1820
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.6451159715652466,
      "learning_rate": 0.00044786675541776653,
      "loss": 2.9918,
      "step": 1821
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.7063199877738953,
      "learning_rate": 0.0004478033829040079,
      "loss": 3.0671,
      "step": 1822
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.6720324158668518,
      "learning_rate": 0.0004477399763855547,
      "loss": 3.0037,
      "step": 1823
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.6871964335441589,
      "learning_rate": 0.0004476765358733071,
      "loss": 2.8989,
      "step": 1824
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.6857723593711853,
      "learning_rate": 0.0004476130613781713,
      "loss": 3.0092,
      "step": 1825
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.6991153359413147,
      "learning_rate": 0.0004475495529110594,
      "loss": 3.1847,
      "step": 1826
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.6913421154022217,
      "learning_rate": 0.00044748601048288906,
      "loss": 3.0302,
      "step": 1827
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.6696919798851013,
      "learning_rate": 0.00044742243410458415,
      "loss": 3.0266,
      "step": 1828
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.6774466037750244,
      "learning_rate": 0.00044735882378707406,
      "loss": 2.9796,
      "step": 1829
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.672466516494751,
      "learning_rate": 0.00044729517954129416,
      "loss": 3.0248,
      "step": 1830
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.6939870715141296,
      "learning_rate": 0.0004472315013781857,
      "loss": 3.117,
      "step": 1831
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.7131253480911255,
      "learning_rate": 0.0004471677893086956,
      "loss": 3.099,
      "step": 1832
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.6707345247268677,
      "learning_rate": 0.00044710404334377684,
      "loss": 2.9793,
      "step": 1833
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.6787939071655273,
      "learning_rate": 0.000447040263494388,
      "loss": 3.1349,
      "step": 1834
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.7167640924453735,
      "learning_rate": 0.00044697644977149346,
      "loss": 3.022,
      "step": 1835
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.746095597743988,
      "learning_rate": 0.0004469126021860637,
      "loss": 3.0119,
      "step": 1836
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.6937185525894165,
      "learning_rate": 0.0004468487207490749,
      "loss": 3.0624,
      "step": 1837
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.686390221118927,
      "learning_rate": 0.00044678480547150886,
      "loss": 3.0084,
      "step": 1838
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.7030346989631653,
      "learning_rate": 0.00044672085636435346,
      "loss": 3.0596,
      "step": 1839
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.7315881252288818,
      "learning_rate": 0.0004466568734386023,
      "loss": 3.0149,
      "step": 1840
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.6522809267044067,
      "learning_rate": 0.00044659285670525464,
      "loss": 2.9929,
      "step": 1841
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.6930204629898071,
      "learning_rate": 0.00044652880617531587,
      "loss": 2.9614,
      "step": 1842
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.6794281601905823,
      "learning_rate": 0.000446464721859797,
      "loss": 3.1642,
      "step": 1843
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.6618517637252808,
      "learning_rate": 0.0004464006037697148,
      "loss": 2.864,
      "step": 1844
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.7300840616226196,
      "learning_rate": 0.000446336451916092,
      "loss": 3.0051,
      "step": 1845
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.627078652381897,
      "learning_rate": 0.0004462722663099569,
      "loss": 2.9959,
      "step": 1846
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.6859202980995178,
      "learning_rate": 0.00044620804696234387,
      "loss": 2.945,
      "step": 1847
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.7338879704475403,
      "learning_rate": 0.0004461437938842929,
      "loss": 3.0554,
      "step": 1848
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.7317975163459778,
      "learning_rate": 0.00044607950708685,
      "loss": 2.9886,
      "step": 1849
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.765166163444519,
      "learning_rate": 0.00044601518658106653,
      "loss": 2.9888,
      "step": 1850
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.6846240162849426,
      "learning_rate": 0.0004459508323780001,
      "loss": 3.1451,
      "step": 1851
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.8458970785140991,
      "learning_rate": 0.00044588644448871395,
      "loss": 2.9949,
      "step": 1852
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.7355089783668518,
      "learning_rate": 0.0004458220229242771,
      "loss": 3.1223,
      "step": 1853
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.6869708895683289,
      "learning_rate": 0.0004457575676957644,
      "loss": 3.0552,
      "step": 1854
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.6931029558181763,
      "learning_rate": 0.0004456930788142563,
      "loss": 2.9786,
      "step": 1855
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.6544385552406311,
      "learning_rate": 0.0004456285562908393,
      "loss": 2.9885,
      "step": 1856
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.6730617880821228,
      "learning_rate": 0.0004455640001366056,
      "loss": 3.1658,
      "step": 1857
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.6770902276039124,
      "learning_rate": 0.00044549941036265306,
      "loss": 3.1376,
      "step": 1858
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.6645932197570801,
      "learning_rate": 0.00044543478698008546,
      "loss": 2.9943,
      "step": 1859
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.6823908090591431,
      "learning_rate": 0.0004453701300000124,
      "loss": 3.0382,
      "step": 1860
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.6686956882476807,
      "learning_rate": 0.00044530543943354896,
      "loss": 3.0385,
      "step": 1861
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.6915236115455627,
      "learning_rate": 0.0004452407152918163,
      "loss": 2.9506,
      "step": 1862
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.6877621412277222,
      "learning_rate": 0.0004451759575859413,
      "loss": 2.9547,
      "step": 1863
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.6602451205253601,
      "learning_rate": 0.0004451111663270565,
      "loss": 3.003,
      "step": 1864
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.6927057504653931,
      "learning_rate": 0.00044504634152630024,
      "loss": 3.1,
      "step": 1865
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.6688457727432251,
      "learning_rate": 0.0004449814831948168,
      "loss": 2.9977,
      "step": 1866
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.7156378626823425,
      "learning_rate": 0.00044491659134375587,
      "loss": 3.1729,
      "step": 1867
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.7013506293296814,
      "learning_rate": 0.0004448516659842733,
      "loss": 3.049,
      "step": 1868
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.6969556212425232,
      "learning_rate": 0.00044478670712753043,
      "loss": 2.9002,
      "step": 1869
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.6665025353431702,
      "learning_rate": 0.0004447217147846944,
      "loss": 3.0301,
      "step": 1870
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.6850698590278625,
      "learning_rate": 0.0004446566889669382,
      "loss": 3.0836,
      "step": 1871
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.7450302839279175,
      "learning_rate": 0.00044459162968544055,
      "loss": 3.0548,
      "step": 1872
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.7293388247489929,
      "learning_rate": 0.00044452653695138585,
      "loss": 3.095,
      "step": 1873
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.7579877376556396,
      "learning_rate": 0.00044446141077596424,
      "loss": 3.1534,
      "step": 1874
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.7288596630096436,
      "learning_rate": 0.00044439625117037183,
      "loss": 2.9514,
      "step": 1875
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.6625778079032898,
      "learning_rate": 0.0004443310581458102,
      "loss": 2.9997,
      "step": 1876
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.7182775139808655,
      "learning_rate": 0.00044426583171348666,
      "loss": 3.0059,
      "step": 1877
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.7251022458076477,
      "learning_rate": 0.0004442005718846147,
      "loss": 3.0813,
      "step": 1878
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.6698102951049805,
      "learning_rate": 0.00044413527867041293,
      "loss": 3.0165,
      "step": 1879
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.6379052996635437,
      "learning_rate": 0.0004440699520821062,
      "loss": 2.9253,
      "step": 1880
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.6926515698432922,
      "learning_rate": 0.00044400459213092487,
      "loss": 2.9814,
      "step": 1881
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.6892373561859131,
      "learning_rate": 0.0004439391988281051,
      "loss": 3.103,
      "step": 1882
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.6984641551971436,
      "learning_rate": 0.00044387377218488863,
      "loss": 3.0034,
      "step": 1883
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.7208858728408813,
      "learning_rate": 0.00044380831221252316,
      "loss": 2.9525,
      "step": 1884
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.7059603333473206,
      "learning_rate": 0.00044374281892226204,
      "loss": 3.0008,
      "step": 1885
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.7192075848579407,
      "learning_rate": 0.00044367729232536423,
      "loss": 3.1754,
      "step": 1886
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.7076382040977478,
      "learning_rate": 0.0004436117324330946,
      "loss": 3.0506,
      "step": 1887
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.6645581126213074,
      "learning_rate": 0.0004435461392567236,
      "loss": 3.2129,
      "step": 1888
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.6654559969902039,
      "learning_rate": 0.00044348051280752756,
      "loss": 2.9921,
      "step": 1889
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.6636964082717896,
      "learning_rate": 0.0004434148530967883,
      "loss": 2.8996,
      "step": 1890
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.7077059149742126,
      "learning_rate": 0.0004433491601357935,
      "loss": 3.0652,
      "step": 1891
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.6650747060775757,
      "learning_rate": 0.0004432834339358367,
      "loss": 2.9054,
      "step": 1892
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.6854481101036072,
      "learning_rate": 0.00044321767450821673,
      "loss": 3.1074,
      "step": 1893
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.691244900226593,
      "learning_rate": 0.0004431518818642386,
      "loss": 2.952,
      "step": 1894
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.7321949005126953,
      "learning_rate": 0.0004430860560152128,
      "loss": 3.0467,
      "step": 1895
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.6924434900283813,
      "learning_rate": 0.00044302019697245546,
      "loss": 3.0246,
      "step": 1896
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.6844168305397034,
      "learning_rate": 0.0004429543047472886,
      "loss": 3.0417,
      "step": 1897
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.6306591033935547,
      "learning_rate": 0.0004428883793510399,
      "loss": 2.9855,
      "step": 1898
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.6496132612228394,
      "learning_rate": 0.0004428224207950425,
      "loss": 3.0412,
      "step": 1899
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.739589273929596,
      "learning_rate": 0.0004427564290906357,
      "loss": 3.0548,
      "step": 1900
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.7220360040664673,
      "learning_rate": 0.00044269040424916407,
      "loss": 3.092,
      "step": 1901
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.758740246295929,
      "learning_rate": 0.00044262434628197805,
      "loss": 3.1283,
      "step": 1902
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.6682054400444031,
      "learning_rate": 0.00044255825520043393,
      "loss": 2.9286,
      "step": 1903
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.688407838344574,
      "learning_rate": 0.00044249213101589323,
      "loss": 2.943,
      "step": 1904
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.6334806084632874,
      "learning_rate": 0.0004424259737397238,
      "loss": 3.0494,
      "step": 1905
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.6415418386459351,
      "learning_rate": 0.00044235978338329863,
      "loss": 3.0297,
      "step": 1906
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.6414481997489929,
      "learning_rate": 0.0004422935599579967,
      "loss": 2.9435,
      "step": 1907
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.6846981644630432,
      "learning_rate": 0.00044222730347520255,
      "loss": 3.0233,
      "step": 1908
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.6906755566596985,
      "learning_rate": 0.0004421610139463064,
      "loss": 2.8794,
      "step": 1909
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.7112076282501221,
      "learning_rate": 0.0004420946913827043,
      "loss": 2.9838,
      "step": 1910
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.6908231377601624,
      "learning_rate": 0.00044202833579579776,
      "loss": 2.8894,
      "step": 1911
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.6781284213066101,
      "learning_rate": 0.0004419619471969941,
      "loss": 2.931,
      "step": 1912
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.7072479724884033,
      "learning_rate": 0.00044189552559770635,
      "loss": 3.0522,
      "step": 1913
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.6721406579017639,
      "learning_rate": 0.0004418290710093531,
      "loss": 3.005,
      "step": 1914
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.6842376589775085,
      "learning_rate": 0.0004417625834433586,
      "loss": 3.171,
      "step": 1915
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.6619329452514648,
      "learning_rate": 0.00044169606291115295,
      "loss": 2.919,
      "step": 1916
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.7197492718696594,
      "learning_rate": 0.0004416295094241718,
      "loss": 2.9113,
      "step": 1917
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.7094364762306213,
      "learning_rate": 0.00044156292299385636,
      "loss": 3.0555,
      "step": 1918
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.657538890838623,
      "learning_rate": 0.0004414963036316537,
      "loss": 3.0673,
      "step": 1919
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.7340434789657593,
      "learning_rate": 0.00044142965134901635,
      "loss": 3.0715,
      "step": 1920
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.684992253780365,
      "learning_rate": 0.0004413629661574028,
      "loss": 2.8045,
      "step": 1921
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.7133004069328308,
      "learning_rate": 0.00044129624806827684,
      "loss": 3.0331,
      "step": 1922
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.6992718577384949,
      "learning_rate": 0.00044122949709310817,
      "loss": 2.9967,
      "step": 1923
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.6838381886482239,
      "learning_rate": 0.00044116271324337196,
      "loss": 2.9579,
      "step": 1924
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.6025605797767639,
      "learning_rate": 0.00044109589653054925,
      "loss": 3.0807,
      "step": 1925
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.697253406047821,
      "learning_rate": 0.0004410290469661266,
      "loss": 3.094,
      "step": 1926
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.634601891040802,
      "learning_rate": 0.0004409621645615961,
      "loss": 2.9434,
      "step": 1927
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.6588597893714905,
      "learning_rate": 0.0004408952493284557,
      "loss": 3.1535,
      "step": 1928
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.6551942825317383,
      "learning_rate": 0.00044082830127820897,
      "loss": 3.0752,
      "step": 1929
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.6871764063835144,
      "learning_rate": 0.0004407613204223648,
      "loss": 3.0084,
      "step": 1930
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.6865718364715576,
      "learning_rate": 0.00044069430677243834,
      "loss": 2.9778,
      "step": 1931
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.7206012010574341,
      "learning_rate": 0.0004406272603399497,
      "loss": 3.0056,
      "step": 1932
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.7130911946296692,
      "learning_rate": 0.00044056018113642514,
      "loss": 3.0121,
      "step": 1933
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.6705386638641357,
      "learning_rate": 0.00044049306917339626,
      "loss": 3.0359,
      "step": 1934
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.6770007610321045,
      "learning_rate": 0.00044042592446240044,
      "loss": 2.9892,
      "step": 1935
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.6612249612808228,
      "learning_rate": 0.0004403587470149806,
      "loss": 3.029,
      "step": 1936
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.6989759802818298,
      "learning_rate": 0.00044029153684268526,
      "loss": 2.9535,
      "step": 1937
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.6408416628837585,
      "learning_rate": 0.0004402242939570687,
      "loss": 2.8847,
      "step": 1938
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.7015443444252014,
      "learning_rate": 0.00044015701836969075,
      "loss": 3.0831,
      "step": 1939
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.6845459342002869,
      "learning_rate": 0.00044008971009211684,
      "loss": 3.0594,
      "step": 1940
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.7924535274505615,
      "learning_rate": 0.0004400223691359181,
      "loss": 3.0014,
      "step": 1941
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.6758960485458374,
      "learning_rate": 0.00043995499551267115,
      "loss": 2.9422,
      "step": 1942
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.6309911608695984,
      "learning_rate": 0.0004398875892339583,
      "loss": 3.0914,
      "step": 1943
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.6285530924797058,
      "learning_rate": 0.0004398201503113675,
      "loss": 3.0646,
      "step": 1944
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.6721481680870056,
      "learning_rate": 0.0004397526787564923,
      "loss": 3.1703,
      "step": 1945
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.6907656788825989,
      "learning_rate": 0.00043968517458093184,
      "loss": 3.0132,
      "step": 1946
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.7233999371528625,
      "learning_rate": 0.0004396176377962908,
      "loss": 3.0393,
      "step": 1947
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.6595874428749084,
      "learning_rate": 0.0004395500684141797,
      "loss": 2.9679,
      "step": 1948
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.6902029514312744,
      "learning_rate": 0.00043948246644621427,
      "loss": 3.0591,
      "step": 1949
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.64506596326828,
      "learning_rate": 0.0004394148319040162,
      "loss": 3.0082,
      "step": 1950
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.7060667276382446,
      "learning_rate": 0.00043934716479921267,
      "loss": 2.9829,
      "step": 1951
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.7007677555084229,
      "learning_rate": 0.00043927946514343635,
      "loss": 3.009,
      "step": 1952
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.6937000751495361,
      "learning_rate": 0.00043921173294832574,
      "loss": 2.8537,
      "step": 1953
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.6927646398544312,
      "learning_rate": 0.0004391439682255247,
      "loss": 2.9705,
      "step": 1954
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.725149929523468,
      "learning_rate": 0.0004390761709866827,
      "loss": 3.0503,
      "step": 1955
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.6758188605308533,
      "learning_rate": 0.000439008341243455,
      "loss": 3.0596,
      "step": 1956
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.7151972055435181,
      "learning_rate": 0.00043894047900750225,
      "loss": 3.021,
      "step": 1957
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.6667088866233826,
      "learning_rate": 0.0004388725842904908,
      "loss": 3.0599,
      "step": 1958
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.6380277872085571,
      "learning_rate": 0.00043880465710409243,
      "loss": 3.0767,
      "step": 1959
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.6794174909591675,
      "learning_rate": 0.0004387366974599848,
      "loss": 3.0553,
      "step": 1960
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.690865695476532,
      "learning_rate": 0.0004386687053698508,
      "loss": 2.9793,
      "step": 1961
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.6682262420654297,
      "learning_rate": 0.0004386006808453792,
      "loss": 3.0114,
      "step": 1962
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.6881473064422607,
      "learning_rate": 0.000438532623898264,
      "loss": 2.9672,
      "step": 1963
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.6834758520126343,
      "learning_rate": 0.00043846453454020513,
      "loss": 3.0416,
      "step": 1964
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.7258277535438538,
      "learning_rate": 0.00043839641278290787,
      "loss": 3.1336,
      "step": 1965
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.6614642143249512,
      "learning_rate": 0.0004383282586380832,
      "loss": 3.0873,
      "step": 1966
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.7555902004241943,
      "learning_rate": 0.0004382600721174477,
      "loss": 3.0011,
      "step": 1967
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.6212427020072937,
      "learning_rate": 0.00043819185323272313,
      "loss": 2.9818,
      "step": 1968
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.6598739624023438,
      "learning_rate": 0.0004381236019956374,
      "loss": 2.9513,
      "step": 1969
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.6629083752632141,
      "learning_rate": 0.00043805531841792345,
      "loss": 3.0433,
      "step": 1970
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.7228472232818604,
      "learning_rate": 0.0004379870025113203,
      "loss": 3.0462,
      "step": 1971
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.674371600151062,
      "learning_rate": 0.00043791865428757196,
      "loss": 2.9045,
      "step": 1972
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.7693037986755371,
      "learning_rate": 0.00043785027375842846,
      "loss": 2.9819,
      "step": 1973
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.6703571677207947,
      "learning_rate": 0.0004377818609356451,
      "loss": 3.0452,
      "step": 1974
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.6391280293464661,
      "learning_rate": 0.00043771341583098293,
      "loss": 2.9891,
      "step": 1975
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.6850696206092834,
      "learning_rate": 0.00043764493845620847,
      "loss": 3.1402,
      "step": 1976
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.6523847579956055,
      "learning_rate": 0.00043757642882309364,
      "loss": 3.0125,
      "step": 1977
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.6523373126983643,
      "learning_rate": 0.00043750788694341613,
      "loss": 2.9004,
      "step": 1978
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.6578143239021301,
      "learning_rate": 0.0004374393128289591,
      "loss": 3.0639,
      "step": 1979
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.6405025720596313,
      "learning_rate": 0.0004373707064915112,
      "loss": 2.9385,
      "step": 1980
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.7044962048530579,
      "learning_rate": 0.0004373020679428667,
      "loss": 3.0279,
      "step": 1981
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.6735517978668213,
      "learning_rate": 0.0004372333971948253,
      "loss": 3.1353,
      "step": 1982
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.6923044919967651,
      "learning_rate": 0.0004371646942591924,
      "loss": 2.9429,
      "step": 1983
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.6870329976081848,
      "learning_rate": 0.00043709595914777865,
      "loss": 2.8764,
      "step": 1984
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.6558380126953125,
      "learning_rate": 0.0004370271918724006,
      "loss": 3.1083,
      "step": 1985
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.6822686791419983,
      "learning_rate": 0.00043695839244488,
      "loss": 2.9756,
      "step": 1986
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.7427931427955627,
      "learning_rate": 0.00043688956087704434,
      "loss": 3.0115,
      "step": 1987
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.7260538339614868,
      "learning_rate": 0.0004368206971807266,
      "loss": 3.0105,
      "step": 1988
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.6716169714927673,
      "learning_rate": 0.00043675180136776515,
      "loss": 2.9574,
      "step": 1989
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.6492595076560974,
      "learning_rate": 0.00043668287345000403,
      "loss": 3.083,
      "step": 1990
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.6439700126647949,
      "learning_rate": 0.0004366139134392928,
      "loss": 2.9513,
      "step": 1991
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.667094886302948,
      "learning_rate": 0.00043654492134748634,
      "loss": 2.9939,
      "step": 1992
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.6923630833625793,
      "learning_rate": 0.00043647589718644544,
      "loss": 2.9737,
      "step": 1993
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.730060875415802,
      "learning_rate": 0.00043640684096803585,
      "loss": 2.9496,
      "step": 1994
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.6517854332923889,
      "learning_rate": 0.0004363377527041294,
      "loss": 2.9772,
      "step": 1995
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.7175178527832031,
      "learning_rate": 0.00043626863240660296,
      "loss": 3.1919,
      "step": 1996
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.6873106956481934,
      "learning_rate": 0.0004361994800873392,
      "loss": 2.8686,
      "step": 1997
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.6943506598472595,
      "learning_rate": 0.00043613029575822625,
      "loss": 2.9861,
      "step": 1998
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.6786516308784485,
      "learning_rate": 0.0004360610794311577,
      "loss": 3.0453,
      "step": 1999
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.6935857534408569,
      "learning_rate": 0.0004359918311180325,
      "loss": 3.1526,
      "step": 2000
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.7435336709022522,
      "learning_rate": 0.0004359225508307554,
      "loss": 3.0747,
      "step": 2001
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.6518147587776184,
      "learning_rate": 0.00043585323858123635,
      "loss": 3.0796,
      "step": 2002
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.6589062809944153,
      "learning_rate": 0.000435783894381391,
      "loss": 3.0522,
      "step": 2003
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.6702553033828735,
      "learning_rate": 0.0004357145182431405,
      "loss": 3.0479,
      "step": 2004
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.6621401906013489,
      "learning_rate": 0.00043564511017841123,
      "loss": 2.9216,
      "step": 2005
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.6570513248443604,
      "learning_rate": 0.00043557567019913534,
      "loss": 3.0748,
      "step": 2006
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.6509682536125183,
      "learning_rate": 0.00043550619831725037,
      "loss": 2.9843,
      "step": 2007
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.6398511528968811,
      "learning_rate": 0.00043543669454469935,
      "loss": 2.9336,
      "step": 2008
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.6342372894287109,
      "learning_rate": 0.00043536715889343084,
      "loss": 3.0692,
      "step": 2009
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.6722186207771301,
      "learning_rate": 0.0004352975913753987,
      "loss": 3.0407,
      "step": 2010
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.6848355531692505,
      "learning_rate": 0.0004352279920025624,
      "loss": 2.9814,
      "step": 2011
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.7110775113105774,
      "learning_rate": 0.00043515836078688696,
      "loss": 2.8783,
      "step": 2012
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.7460695505142212,
      "learning_rate": 0.00043508869774034275,
      "loss": 3.0839,
      "step": 2013
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.6720100045204163,
      "learning_rate": 0.0004350190028749057,
      "loss": 2.9619,
      "step": 2014
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.7136877179145813,
      "learning_rate": 0.00043494927620255715,
      "loss": 3.0356,
      "step": 2015
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.6469278931617737,
      "learning_rate": 0.0004348795177352839,
      "loss": 3.027,
      "step": 2016
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.7430943846702576,
      "learning_rate": 0.0004348097274850782,
      "loss": 3.0291,
      "step": 2017
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.6510463356971741,
      "learning_rate": 0.00043473990546393784,
      "loss": 3.1309,
      "step": 2018
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.6746340990066528,
      "learning_rate": 0.0004346700516838661,
      "loss": 3.0391,
      "step": 2019
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.6895470023155212,
      "learning_rate": 0.0004346001661568715,
      "loss": 3.0942,
      "step": 2020
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.6448225378990173,
      "learning_rate": 0.0004345302488949684,
      "loss": 2.9447,
      "step": 2021
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.704870879650116,
      "learning_rate": 0.0004344602999101761,
      "loss": 3.1508,
      "step": 2022
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.6078218221664429,
      "learning_rate": 0.00043439031921451994,
      "loss": 2.8949,
      "step": 2023
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.6834395527839661,
      "learning_rate": 0.0004343203068200302,
      "loss": 2.9304,
      "step": 2024
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.6603641510009766,
      "learning_rate": 0.0004342502627387429,
      "loss": 3.0202,
      "step": 2025
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.6692746877670288,
      "learning_rate": 0.00043418018698269945,
      "loss": 2.9896,
      "step": 2026
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.6469975709915161,
      "learning_rate": 0.00043411007956394666,
      "loss": 2.9241,
      "step": 2027
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.6756539344787598,
      "learning_rate": 0.0004340399404945368,
      "loss": 3.0438,
      "step": 2028
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.6650523543357849,
      "learning_rate": 0.0004339697697865276,
      "loss": 2.963,
      "step": 2029
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.7051638960838318,
      "learning_rate": 0.0004338995674519822,
      "loss": 3.1441,
      "step": 2030
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.7210425734519958,
      "learning_rate": 0.00043382933350296916,
      "loss": 2.9926,
      "step": 2031
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.6920331716537476,
      "learning_rate": 0.0004337590679515626,
      "loss": 3.012,
      "step": 2032
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.6646265983581543,
      "learning_rate": 0.00043368877080984195,
      "loss": 3.036,
      "step": 2033
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.6790032982826233,
      "learning_rate": 0.0004336184420898921,
      "loss": 2.9975,
      "step": 2034
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.716327965259552,
      "learning_rate": 0.00043354808180380333,
      "loss": 3.0367,
      "step": 2035
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.6878616809844971,
      "learning_rate": 0.0004334776899636714,
      "loss": 3.0636,
      "step": 2036
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.7329118251800537,
      "learning_rate": 0.00043340726658159764,
      "loss": 2.9399,
      "step": 2037
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.644004762172699,
      "learning_rate": 0.0004333368116696884,
      "loss": 2.989,
      "step": 2038
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.6738409996032715,
      "learning_rate": 0.00043326632524005583,
      "loss": 3.0183,
      "step": 2039
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.6400219202041626,
      "learning_rate": 0.0004331958073048174,
      "loss": 3.1073,
      "step": 2040
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.7217400074005127,
      "learning_rate": 0.0004331252578760959,
      "loss": 3.1236,
      "step": 2041
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.7097570896148682,
      "learning_rate": 0.00043305467696601953,
      "loss": 3.0699,
      "step": 2042
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.7155790328979492,
      "learning_rate": 0.00043298406458672207,
      "loss": 3.1184,
      "step": 2043
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.6908556222915649,
      "learning_rate": 0.00043291342075034255,
      "loss": 2.9164,
      "step": 2044
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.6537402868270874,
      "learning_rate": 0.00043284274546902555,
      "loss": 3.0746,
      "step": 2045
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.6804934740066528,
      "learning_rate": 0.00043277203875492087,
      "loss": 3.0352,
      "step": 2046
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.7015578150749207,
      "learning_rate": 0.0004327013006201839,
      "loss": 3.0653,
      "step": 2047
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.6379757523536682,
      "learning_rate": 0.00043263053107697524,
      "loss": 3.1415,
      "step": 2048
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.660495936870575,
      "learning_rate": 0.0004325597301374611,
      "loss": 3.057,
      "step": 2049
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.6657283902168274,
      "learning_rate": 0.00043248889781381285,
      "loss": 2.9789,
      "step": 2050
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.6392351984977722,
      "learning_rate": 0.00043241803411820756,
      "loss": 2.8435,
      "step": 2051
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.6961400508880615,
      "learning_rate": 0.0004323471390628274,
      "loss": 2.8275,
      "step": 2052
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.6735837459564209,
      "learning_rate": 0.00043227621265986004,
      "loss": 3.0298,
      "step": 2053
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.6817244291305542,
      "learning_rate": 0.0004322052549214987,
      "loss": 2.9575,
      "step": 2054
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.7055158615112305,
      "learning_rate": 0.0004321342658599416,
      "loss": 3.0487,
      "step": 2055
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.6550085544586182,
      "learning_rate": 0.0004320632454873929,
      "loss": 2.9308,
      "step": 2056
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.623667299747467,
      "learning_rate": 0.00043199219381606153,
      "loss": 3.0577,
      "step": 2057
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.6569415330886841,
      "learning_rate": 0.0004319211108581622,
      "loss": 3.0074,
      "step": 2058
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.6697847843170166,
      "learning_rate": 0.000431849996625915,
      "loss": 3.0509,
      "step": 2059
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.6906603574752808,
      "learning_rate": 0.00043177885113154503,
      "loss": 3.0095,
      "step": 2060
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.6624742746353149,
      "learning_rate": 0.0004317076743872833,
      "loss": 2.9511,
      "step": 2061
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.6640082597732544,
      "learning_rate": 0.0004316364664053658,
      "loss": 2.9764,
      "step": 2062
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.7216699123382568,
      "learning_rate": 0.000431565227198034,
      "loss": 3.1571,
      "step": 2063
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.6297640204429626,
      "learning_rate": 0.0004314939567775347,
      "loss": 3.0485,
      "step": 2064
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.6124267578125,
      "learning_rate": 0.0004314226551561202,
      "loss": 2.9982,
      "step": 2065
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.6511006951332092,
      "learning_rate": 0.00043135132234604814,
      "loss": 3.0122,
      "step": 2066
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.7386087775230408,
      "learning_rate": 0.0004312799583595813,
      "loss": 3.085,
      "step": 2067
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.6944015026092529,
      "learning_rate": 0.00043120856320898806,
      "loss": 2.9872,
      "step": 2068
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.760061502456665,
      "learning_rate": 0.000431137136906542,
      "loss": 3.0412,
      "step": 2069
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.7438852787017822,
      "learning_rate": 0.00043106567946452225,
      "loss": 3.1137,
      "step": 2070
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.6884034276008606,
      "learning_rate": 0.0004309941908952131,
      "loss": 3.0616,
      "step": 2071
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.740062415599823,
      "learning_rate": 0.0004309226712109042,
      "loss": 2.9222,
      "step": 2072
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.6845217943191528,
      "learning_rate": 0.00043085112042389075,
      "loss": 3.1549,
      "step": 2073
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.7431649565696716,
      "learning_rate": 0.000430779538546473,
      "loss": 3.0971,
      "step": 2074
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.7080196142196655,
      "learning_rate": 0.0004307079255909569,
      "loss": 3.0012,
      "step": 2075
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.6352648735046387,
      "learning_rate": 0.0004306362815696534,
      "loss": 3.082,
      "step": 2076
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.6421748995780945,
      "learning_rate": 0.00043056460649487904,
      "loss": 2.9619,
      "step": 2077
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.6438910365104675,
      "learning_rate": 0.0004304929003789555,
      "loss": 2.9546,
      "step": 2078
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.6522185802459717,
      "learning_rate": 0.0004304211632342099,
      "loss": 2.8752,
      "step": 2079
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.6786660552024841,
      "learning_rate": 0.0004303493950729748,
      "loss": 2.9032,
      "step": 2080
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.6551465392112732,
      "learning_rate": 0.0004302775959075878,
      "loss": 2.929,
      "step": 2081
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.6426376700401306,
      "learning_rate": 0.00043020576575039215,
      "loss": 2.9899,
      "step": 2082
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.6557079553604126,
      "learning_rate": 0.00043013390461373626,
      "loss": 2.9534,
      "step": 2083
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.7068537473678589,
      "learning_rate": 0.0004300620125099738,
      "loss": 3.0177,
      "step": 2084
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.6934784054756165,
      "learning_rate": 0.000429990089451464,
      "loss": 3.0388,
      "step": 2085
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.6755526065826416,
      "learning_rate": 0.0004299181354505712,
      "loss": 2.9899,
      "step": 2086
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.7191358208656311,
      "learning_rate": 0.00042984615051966515,
      "loss": 3.0377,
      "step": 2087
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.7096887230873108,
      "learning_rate": 0.00042977413467112084,
      "loss": 3.1914,
      "step": 2088
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.6689138412475586,
      "learning_rate": 0.00042970208791731857,
      "loss": 2.9393,
      "step": 2089
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.6012269258499146,
      "learning_rate": 0.00042963001027064416,
      "loss": 3.077,
      "step": 2090
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.6501930356025696,
      "learning_rate": 0.00042955790174348864,
      "loss": 3.1018,
      "step": 2091
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.6917785406112671,
      "learning_rate": 0.0004294857623482481,
      "loss": 3.0748,
      "step": 2092
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.6896997690200806,
      "learning_rate": 0.0004294135920973242,
      "loss": 3.0185,
      "step": 2093
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.6786856055259705,
      "learning_rate": 0.000429341391003124,
      "loss": 3.0712,
      "step": 2094
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.7485440969467163,
      "learning_rate": 0.0004292691590780595,
      "loss": 3.041,
      "step": 2095
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.7170221209526062,
      "learning_rate": 0.00042919689633454827,
      "loss": 2.9979,
      "step": 2096
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.6827254891395569,
      "learning_rate": 0.0004291246027850132,
      "loss": 3.0749,
      "step": 2097
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.6663123965263367,
      "learning_rate": 0.00042905227844188226,
      "loss": 2.9176,
      "step": 2098
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.65659099817276,
      "learning_rate": 0.00042897992331758896,
      "loss": 3.0511,
      "step": 2099
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.6900967359542847,
      "learning_rate": 0.0004289075374245719,
      "loss": 2.9107,
      "step": 2100
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.6324863433837891,
      "learning_rate": 0.00042883512077527506,
      "loss": 3.1159,
      "step": 2101
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.6915945410728455,
      "learning_rate": 0.0004287626733821477,
      "loss": 2.9951,
      "step": 2102
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.691724419593811,
      "learning_rate": 0.0004286901952576445,
      "loss": 3.0331,
      "step": 2103
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.6750020980834961,
      "learning_rate": 0.00042861768641422505,
      "loss": 2.9994,
      "step": 2104
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.6738418340682983,
      "learning_rate": 0.0004285451468643546,
      "loss": 3.131,
      "step": 2105
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.6569792628288269,
      "learning_rate": 0.0004284725766205037,
      "loss": 2.9897,
      "step": 2106
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.6621097922325134,
      "learning_rate": 0.00042839997569514766,
      "loss": 3.0844,
      "step": 2107
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.6919304728507996,
      "learning_rate": 0.0004283273441007677,
      "loss": 2.8299,
      "step": 2108
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.7160574793815613,
      "learning_rate": 0.00042825468184984995,
      "loss": 2.9418,
      "step": 2109
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.698518693447113,
      "learning_rate": 0.0004281819889548858,
      "loss": 2.9776,
      "step": 2110
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.7396730780601501,
      "learning_rate": 0.00042810926542837213,
      "loss": 3.0337,
      "step": 2111
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.75089430809021,
      "learning_rate": 0.000428036511282811,
      "loss": 2.9757,
      "step": 2112
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.7253981828689575,
      "learning_rate": 0.00042796372653070946,
      "loss": 3.0946,
      "step": 2113
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.6653984785079956,
      "learning_rate": 0.00042789091118458037,
      "loss": 2.979,
      "step": 2114
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.6262452602386475,
      "learning_rate": 0.00042781806525694124,
      "loss": 3.0571,
      "step": 2115
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.6982781291007996,
      "learning_rate": 0.0004277451887603152,
      "loss": 2.9657,
      "step": 2116
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.6747006177902222,
      "learning_rate": 0.0004276722817072307,
      "loss": 2.958,
      "step": 2117
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.6855087876319885,
      "learning_rate": 0.0004275993441102212,
      "loss": 3.0092,
      "step": 2118
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.677252471446991,
      "learning_rate": 0.00042752637598182555,
      "loss": 3.0398,
      "step": 2119
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.6136276721954346,
      "learning_rate": 0.0004274533773345878,
      "loss": 3.0238,
      "step": 2120
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.6045072674751282,
      "learning_rate": 0.0004273803481810573,
      "loss": 3.0274,
      "step": 2121
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.6794404983520508,
      "learning_rate": 0.0004273072885337885,
      "loss": 3.0533,
      "step": 2122
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.6826307773590088,
      "learning_rate": 0.0004272341984053413,
      "loss": 2.9964,
      "step": 2123
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.6613157987594604,
      "learning_rate": 0.0004271610778082807,
      "loss": 3.0485,
      "step": 2124
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.6413363218307495,
      "learning_rate": 0.00042708792675517703,
      "loss": 3.0831,
      "step": 2125
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.6973828077316284,
      "learning_rate": 0.00042701474525860583,
      "loss": 3.0706,
      "step": 2126
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.7789562344551086,
      "learning_rate": 0.0004269415333311477,
      "loss": 2.9722,
      "step": 2127
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.6516826748847961,
      "learning_rate": 0.0004268682909853888,
      "loss": 2.9829,
      "step": 2128
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.6805567145347595,
      "learning_rate": 0.0004267950182339201,
      "loss": 3.0056,
      "step": 2129
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.6863700151443481,
      "learning_rate": 0.0004267217150893383,
      "loss": 2.9635,
      "step": 2130
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.6528772711753845,
      "learning_rate": 0.0004266483815642449,
      "loss": 2.9745,
      "step": 2131
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.6372764110565186,
      "learning_rate": 0.00042657501767124685,
      "loss": 2.9535,
      "step": 2132
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.7073632478713989,
      "learning_rate": 0.0004265016234229563,
      "loss": 2.9788,
      "step": 2133
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.7103164196014404,
      "learning_rate": 0.00042642819883199033,
      "loss": 3.0385,
      "step": 2134
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.650185227394104,
      "learning_rate": 0.0004263547439109717,
      "loss": 2.9145,
      "step": 2135
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.6295358538627625,
      "learning_rate": 0.0004262812586725282,
      "loss": 3.0636,
      "step": 2136
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.6750199198722839,
      "learning_rate": 0.00042620774312929265,
      "loss": 3.0537,
      "step": 2137
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.6824026703834534,
      "learning_rate": 0.0004261341972939033,
      "loss": 2.9656,
      "step": 2138
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.6717810034751892,
      "learning_rate": 0.0004260606211790035,
      "loss": 2.9205,
      "step": 2139
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.7006207704544067,
      "learning_rate": 0.0004259870147972419,
      "loss": 3.0398,
      "step": 2140
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.6416865587234497,
      "learning_rate": 0.0004259133781612722,
      "loss": 3.0764,
      "step": 2141
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.6752409934997559,
      "learning_rate": 0.0004258397112837534,
      "loss": 3.1119,
      "step": 2142
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.6325017809867859,
      "learning_rate": 0.0004257660141773497,
      "loss": 3.0369,
      "step": 2143
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.6367295384407043,
      "learning_rate": 0.0004256922868547306,
      "loss": 2.9766,
      "step": 2144
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.6907945275306702,
      "learning_rate": 0.00042561852932857045,
      "loss": 3.0343,
      "step": 2145
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.6334707140922546,
      "learning_rate": 0.00042554474161154933,
      "loss": 3.0279,
      "step": 2146
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.6643816828727722,
      "learning_rate": 0.000425470923716352,
      "loss": 3.0454,
      "step": 2147
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.6588155627250671,
      "learning_rate": 0.0004253970756556685,
      "loss": 2.9975,
      "step": 2148
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.6607682108879089,
      "learning_rate": 0.0004253231974421945,
      "loss": 3.0142,
      "step": 2149
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.6690818667411804,
      "learning_rate": 0.00042524928908863025,
      "loss": 3.0629,
      "step": 2150
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.6596609950065613,
      "learning_rate": 0.0004251753506076816,
      "loss": 3.0229,
      "step": 2151
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.6167235374450684,
      "learning_rate": 0.00042510138201205935,
      "loss": 3.1439,
      "step": 2152
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.7139007449150085,
      "learning_rate": 0.0004250273833144795,
      "loss": 3.0801,
      "step": 2153
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.662459135055542,
      "learning_rate": 0.00042495335452766346,
      "loss": 3.1017,
      "step": 2154
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.6412653923034668,
      "learning_rate": 0.0004248792956643376,
      "loss": 3.1043,
      "step": 2155
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.7409300208091736,
      "learning_rate": 0.00042480520673723334,
      "loss": 3.1453,
      "step": 2156
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.6970774531364441,
      "learning_rate": 0.0004247310877590875,
      "loss": 2.9013,
      "step": 2157
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.7288874387741089,
      "learning_rate": 0.00042465693874264203,
      "loss": 3.0034,
      "step": 2158
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.6848511695861816,
      "learning_rate": 0.00042458275970064404,
      "loss": 2.9428,
      "step": 2159
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.6338706016540527,
      "learning_rate": 0.0004245085506458457,
      "loss": 3.023,
      "step": 2160
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.6627834439277649,
      "learning_rate": 0.0004244343115910044,
      "loss": 3.0017,
      "step": 2161
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.7328048944473267,
      "learning_rate": 0.00042436004254888286,
      "loss": 2.9878,
      "step": 2162
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.6621237397193909,
      "learning_rate": 0.00042428574353224846,
      "loss": 2.8968,
      "step": 2163
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.6704890131950378,
      "learning_rate": 0.0004242114145538744,
      "loss": 2.9475,
      "step": 2164
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.6684661507606506,
      "learning_rate": 0.00042413705562653847,
      "loss": 2.9753,
      "step": 2165
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.6294310092926025,
      "learning_rate": 0.0004240626667630239,
      "loss": 3.0026,
      "step": 2166
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.6252509355545044,
      "learning_rate": 0.000423988247976119,
      "loss": 2.9962,
      "step": 2167
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.664192259311676,
      "learning_rate": 0.0004239137992786173,
      "loss": 2.9845,
      "step": 2168
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.7039780616760254,
      "learning_rate": 0.00042383932068331727,
      "loss": 2.9622,
      "step": 2169
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.6899921894073486,
      "learning_rate": 0.0004237648122030227,
      "loss": 2.9108,
      "step": 2170
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.7605860829353333,
      "learning_rate": 0.00042369027385054245,
      "loss": 2.9267,
      "step": 2171
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.6712865829467773,
      "learning_rate": 0.00042361570563869056,
      "loss": 3.0827,
      "step": 2172
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.7043560743331909,
      "learning_rate": 0.00042354110758028614,
      "loss": 3.0234,
      "step": 2173
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.6379777789115906,
      "learning_rate": 0.00042346647968815346,
      "loss": 2.8649,
      "step": 2174
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.7111920118331909,
      "learning_rate": 0.00042339182197512193,
      "loss": 3.1025,
      "step": 2175
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.6449944376945496,
      "learning_rate": 0.000423317134454026,
      "loss": 3.0619,
      "step": 2176
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.6606671214103699,
      "learning_rate": 0.0004232424171377055,
      "loss": 2.8807,
      "step": 2177
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.6824970245361328,
      "learning_rate": 0.00042316767003900503,
      "loss": 3.0864,
      "step": 2178
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.7310360670089722,
      "learning_rate": 0.0004230928931707746,
      "loss": 3.0314,
      "step": 2179
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.6888914108276367,
      "learning_rate": 0.00042301808654586915,
      "loss": 3.0251,
      "step": 2180
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.6835572123527527,
      "learning_rate": 0.00042294325017714875,
      "loss": 3.1253,
      "step": 2181
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.7331456542015076,
      "learning_rate": 0.00042286838407747877,
      "loss": 3.144,
      "step": 2182
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.6720030307769775,
      "learning_rate": 0.00042279348825972955,
      "loss": 2.9585,
      "step": 2183
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.7429183721542358,
      "learning_rate": 0.0004227185627367765,
      "loss": 2.9663,
      "step": 2184
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.6706445217132568,
      "learning_rate": 0.0004226436075215001,
      "loss": 2.957,
      "step": 2185
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.706993043422699,
      "learning_rate": 0.0004225686226267862,
      "loss": 3.0397,
      "step": 2186
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.6433806419372559,
      "learning_rate": 0.0004224936080655255,
      "loss": 3.0639,
      "step": 2187
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.6798406839370728,
      "learning_rate": 0.0004224185638506138,
      "loss": 3.0114,
      "step": 2188
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.6946418881416321,
      "learning_rate": 0.0004223434899949521,
      "loss": 2.92,
      "step": 2189
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.6481542587280273,
      "learning_rate": 0.0004222683865114465,
      "loss": 3.0139,
      "step": 2190
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.6334397792816162,
      "learning_rate": 0.0004221932534130082,
      "loss": 3.0122,
      "step": 2191
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.6826972961425781,
      "learning_rate": 0.00042211809071255344,
      "loss": 2.9296,
      "step": 2192
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.6761589050292969,
      "learning_rate": 0.00042204289842300344,
      "loss": 2.9755,
      "step": 2193
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.6844911575317383,
      "learning_rate": 0.00042196767655728473,
      "loss": 3.1382,
      "step": 2194
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.6784887909889221,
      "learning_rate": 0.00042189242512832875,
      "loss": 3.0339,
      "step": 2195
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.7037516236305237,
      "learning_rate": 0.00042181714414907224,
      "loss": 3.006,
      "step": 2196
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.6779505610466003,
      "learning_rate": 0.00042174183363245674,
      "loss": 3.0106,
      "step": 2197
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.7073076963424683,
      "learning_rate": 0.0004216664935914291,
      "loss": 3.1168,
      "step": 2198
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.6758071184158325,
      "learning_rate": 0.0004215911240389409,
      "loss": 2.9176,
      "step": 2199
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.6611049771308899,
      "learning_rate": 0.0004215157249879493,
      "loss": 2.9706,
      "step": 2200
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.6311513781547546,
      "learning_rate": 0.0004214402964514163,
      "loss": 2.9037,
      "step": 2201
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.6669371724128723,
      "learning_rate": 0.00042136483844230877,
      "loss": 3.0507,
      "step": 2202
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.6753813028335571,
      "learning_rate": 0.0004212893509735989,
      "loss": 2.89,
      "step": 2203
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.6202765703201294,
      "learning_rate": 0.00042121383405826373,
      "loss": 2.9913,
      "step": 2204
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.623723566532135,
      "learning_rate": 0.00042113828770928575,
      "loss": 2.98,
      "step": 2205
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.7560808658599854,
      "learning_rate": 0.000421062711939652,
      "loss": 2.9498,
      "step": 2206
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.6663451790809631,
      "learning_rate": 0.000420987106762355,
      "loss": 3.0781,
      "step": 2207
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.6337525844573975,
      "learning_rate": 0.00042091147219039203,
      "loss": 2.9196,
      "step": 2208
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.6585716009140015,
      "learning_rate": 0.0004208358082367657,
      "loss": 2.9857,
      "step": 2209
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.7135908603668213,
      "learning_rate": 0.0004207601149144834,
      "loss": 3.0815,
      "step": 2210
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.6656655073165894,
      "learning_rate": 0.00042068439223655774,
      "loss": 3.0249,
      "step": 2211
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.6527424454689026,
      "learning_rate": 0.0004206086402160063,
      "loss": 2.9141,
      "step": 2212
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.6545154452323914,
      "learning_rate": 0.0004205328588658517,
      "loss": 3.0358,
      "step": 2213
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.6574081182479858,
      "learning_rate": 0.0004204570481991217,
      "loss": 2.9736,
      "step": 2214
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.6544390916824341,
      "learning_rate": 0.00042038120822884904,
      "loss": 2.9225,
      "step": 2215
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.6624955534934998,
      "learning_rate": 0.00042030533896807143,
      "loss": 3.0272,
      "step": 2216
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.6345937848091125,
      "learning_rate": 0.0004202294404298317,
      "loss": 3.025,
      "step": 2217
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.6572445034980774,
      "learning_rate": 0.0004201535126271777,
      "loss": 3.0465,
      "step": 2218
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.609488308429718,
      "learning_rate": 0.0004200775555731623,
      "loss": 3.0294,
      "step": 2219
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.690848171710968,
      "learning_rate": 0.00042000156928084336,
      "loss": 3.0843,
      "step": 2220
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.7052217721939087,
      "learning_rate": 0.00041992555376328385,
      "loss": 3.1072,
      "step": 2221
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.6696634292602539,
      "learning_rate": 0.00041984950903355166,
      "loss": 2.9989,
      "step": 2222
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.7026999592781067,
      "learning_rate": 0.0004197734351047199,
      "loss": 2.9658,
      "step": 2223
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.6830130815505981,
      "learning_rate": 0.0004196973319898664,
      "loss": 2.9783,
      "step": 2224
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.6595985293388367,
      "learning_rate": 0.0004196211997020742,
      "loss": 3.0859,
      "step": 2225
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.6331132054328918,
      "learning_rate": 0.0004195450382544315,
      "loss": 2.974,
      "step": 2226
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.6533574461936951,
      "learning_rate": 0.000419468847660031,
      "loss": 2.9644,
      "step": 2227
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.6276329159736633,
      "learning_rate": 0.00041939262793197105,
      "loss": 2.9384,
      "step": 2228
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.6738256216049194,
      "learning_rate": 0.00041931637908335453,
      "loss": 2.9933,
      "step": 2229
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.6559457182884216,
      "learning_rate": 0.0004192401011272896,
      "loss": 2.8549,
      "step": 2230
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.6577086448669434,
      "learning_rate": 0.0004191637940768893,
      "loss": 3.0406,
      "step": 2231
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.6755517721176147,
      "learning_rate": 0.0004190874579452716,
      "loss": 2.9143,
      "step": 2232
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.6151973605155945,
      "learning_rate": 0.0004190110927455597,
      "loss": 2.9817,
      "step": 2233
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.7379088997840881,
      "learning_rate": 0.0004189346984908816,
      "loss": 2.8472,
      "step": 2234
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.6859442591667175,
      "learning_rate": 0.00041885827519437047,
      "loss": 2.9298,
      "step": 2235
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.6540024280548096,
      "learning_rate": 0.0004187818228691641,
      "loss": 3.0708,
      "step": 2236
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.6404811143875122,
      "learning_rate": 0.0004187053415284058,
      "loss": 2.9383,
      "step": 2237
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.65574049949646,
      "learning_rate": 0.0004186288311852435,
      "loss": 2.9248,
      "step": 2238
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.6510602831840515,
      "learning_rate": 0.0004185522918528302,
      "loss": 3.0852,
      "step": 2239
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.6664753556251526,
      "learning_rate": 0.0004184757235443238,
      "loss": 2.9081,
      "step": 2240
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.7098126411437988,
      "learning_rate": 0.0004183991262728875,
      "loss": 3.0008,
      "step": 2241
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.6223118305206299,
      "learning_rate": 0.0004183225000516891,
      "loss": 2.9358,
      "step": 2242
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.7013711333274841,
      "learning_rate": 0.0004182458448939016,
      "loss": 2.9678,
      "step": 2243
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.6746425032615662,
      "learning_rate": 0.00041816916081270286,
      "loss": 3.0995,
      "step": 2244
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.6439040303230286,
      "learning_rate": 0.00041809244782127573,
      "loss": 2.9681,
      "step": 2245
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.6752887964248657,
      "learning_rate": 0.00041801570593280824,
      "loss": 2.9295,
      "step": 2246
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.6420963406562805,
      "learning_rate": 0.00041793893516049307,
      "loss": 3.0309,
      "step": 2247
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.616414487361908,
      "learning_rate": 0.00041786213551752804,
      "loss": 2.9473,
      "step": 2248
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.6269171833992004,
      "learning_rate": 0.0004177853070171159,
      "loss": 2.9152,
      "step": 2249
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.7009820342063904,
      "learning_rate": 0.00041770844967246423,
      "loss": 2.9498,
      "step": 2250
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.6631125211715698,
      "learning_rate": 0.0004176315634967859,
      "loss": 3.0681,
      "step": 2251
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.6562086939811707,
      "learning_rate": 0.00041755464850329847,
      "loss": 3.0816,
      "step": 2252
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.6548073291778564,
      "learning_rate": 0.0004174777047052245,
      "loss": 2.9551,
      "step": 2253
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.6446718573570251,
      "learning_rate": 0.00041740073211579156,
      "loss": 3.0773,
      "step": 2254
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.6549122929573059,
      "learning_rate": 0.00041732373074823204,
      "loss": 3.0819,
      "step": 2255
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.6484540700912476,
      "learning_rate": 0.0004172467006157834,
      "loss": 2.9911,
      "step": 2256
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.6822767853736877,
      "learning_rate": 0.00041716964173168803,
      "loss": 2.9012,
      "step": 2257
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.618125319480896,
      "learning_rate": 0.00041709255410919335,
      "loss": 3.0057,
      "step": 2258
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.6157116889953613,
      "learning_rate": 0.00041701543776155136,
      "loss": 3.0512,
      "step": 2259
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.6993845701217651,
      "learning_rate": 0.0004169382927020196,
      "loss": 2.9493,
      "step": 2260
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.6588079929351807,
      "learning_rate": 0.0004168611189438598,
      "loss": 3.0073,
      "step": 2261
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.6918072700500488,
      "learning_rate": 0.00041678391650033943,
      "loss": 2.9889,
      "step": 2262
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.6890323162078857,
      "learning_rate": 0.0004167066853847302,
      "loss": 3.0454,
      "step": 2263
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.6982725262641907,
      "learning_rate": 0.00041662942561030905,
      "loss": 3.1861,
      "step": 2264
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.6885851621627808,
      "learning_rate": 0.000416552137190358,
      "loss": 3.1178,
      "step": 2265
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.6845220327377319,
      "learning_rate": 0.00041647482013816366,
      "loss": 3.0119,
      "step": 2266
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.6422855257987976,
      "learning_rate": 0.0004163974744670179,
      "loss": 2.9492,
      "step": 2267
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.6634688973426819,
      "learning_rate": 0.00041632010019021715,
      "loss": 2.9269,
      "step": 2268
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.7076554298400879,
      "learning_rate": 0.000416242697321063,
      "loss": 2.8517,
      "step": 2269
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.6478716135025024,
      "learning_rate": 0.000416165265872862,
      "loss": 3.0003,
      "step": 2270
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.6771476864814758,
      "learning_rate": 0.0004160878058589255,
      "loss": 3.0451,
      "step": 2271
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.6775364875793457,
      "learning_rate": 0.00041601031729256963,
      "loss": 2.9163,
      "step": 2272
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.6800869107246399,
      "learning_rate": 0.00041593280018711567,
      "loss": 3.0328,
      "step": 2273
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.7151772975921631,
      "learning_rate": 0.0004158552545558897,
      "loss": 3.0191,
      "step": 2274
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.6757957339286804,
      "learning_rate": 0.00041577768041222265,
      "loss": 2.8931,
      "step": 2275
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.6590241193771362,
      "learning_rate": 0.0004157000777694506,
      "loss": 2.8358,
      "step": 2276
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.6273943185806274,
      "learning_rate": 0.0004156224466409141,
      "loss": 3.009,
      "step": 2277
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.676981508731842,
      "learning_rate": 0.00041554478703995903,
      "loss": 3.163,
      "step": 2278
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.6444143056869507,
      "learning_rate": 0.00041546709897993594,
      "loss": 2.9607,
      "step": 2279
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.6305920481681824,
      "learning_rate": 0.0004153893824742002,
      "loss": 3.15,
      "step": 2280
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.6278328895568848,
      "learning_rate": 0.00041531163753611236,
      "loss": 3.0312,
      "step": 2281
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.7047253847122192,
      "learning_rate": 0.00041523386417903745,
      "loss": 3.0074,
      "step": 2282
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.6744482517242432,
      "learning_rate": 0.00041515606241634577,
      "loss": 2.9553,
      "step": 2283
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.6329740881919861,
      "learning_rate": 0.0004150782322614124,
      "loss": 3.0093,
      "step": 2284
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.6662378311157227,
      "learning_rate": 0.00041500037372761705,
      "loss": 3.0241,
      "step": 2285
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.6937238574028015,
      "learning_rate": 0.00041492248682834464,
      "loss": 2.9646,
      "step": 2286
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.6761760115623474,
      "learning_rate": 0.00041484457157698473,
      "loss": 3.1231,
      "step": 2287
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.6500733494758606,
      "learning_rate": 0.00041476662798693205,
      "loss": 3.0183,
      "step": 2288
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.7215396165847778,
      "learning_rate": 0.0004146886560715858,
      "loss": 3.1457,
      "step": 2289
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.7340363264083862,
      "learning_rate": 0.0004146106558443504,
      "loss": 3.0312,
      "step": 2290
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.6879199743270874,
      "learning_rate": 0.0004145326273186348,
      "loss": 2.972,
      "step": 2291
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.6799417734146118,
      "learning_rate": 0.0004144545705078533,
      "loss": 3.1109,
      "step": 2292
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.7206618189811707,
      "learning_rate": 0.0004143764854254245,
      "loss": 2.8904,
      "step": 2293
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.6746906042098999,
      "learning_rate": 0.0004142983720847723,
      "loss": 2.9398,
      "step": 2294
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.7038147449493408,
      "learning_rate": 0.0004142202304993252,
      "loss": 3.0336,
      "step": 2295
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.649416446685791,
      "learning_rate": 0.0004141420606825166,
      "loss": 2.9246,
      "step": 2296
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.6353321075439453,
      "learning_rate": 0.00041406386264778496,
      "loss": 2.913,
      "step": 2297
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.6425062417984009,
      "learning_rate": 0.0004139856364085733,
      "loss": 3.0718,
      "step": 2298
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.6182936429977417,
      "learning_rate": 0.00041390738197832975,
      "loss": 3.0879,
      "step": 2299
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.6469740271568298,
      "learning_rate": 0.00041382909937050694,
      "loss": 3.0431,
      "step": 2300
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.7066648006439209,
      "learning_rate": 0.00041375078859856275,
      "loss": 2.9006,
      "step": 2301
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.6406915783882141,
      "learning_rate": 0.00041367244967595963,
      "loss": 2.9658,
      "step": 2302
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.7008850574493408,
      "learning_rate": 0.0004135940826161649,
      "loss": 2.9886,
      "step": 2303
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.6434320211410522,
      "learning_rate": 0.0004135156874326509,
      "loss": 2.9388,
      "step": 2304
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.6604188680648804,
      "learning_rate": 0.0004134372641388946,
      "loss": 3.0976,
      "step": 2305
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.6147854328155518,
      "learning_rate": 0.0004133588127483778,
      "loss": 3.0669,
      "step": 2306
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.7605496048927307,
      "learning_rate": 0.00041328033327458726,
      "loss": 2.8441,
      "step": 2307
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.6784416437149048,
      "learning_rate": 0.00041320182573101463,
      "loss": 2.8761,
      "step": 2308
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.7026697993278503,
      "learning_rate": 0.0004131232901311561,
      "loss": 2.9732,
      "step": 2309
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.6124657988548279,
      "learning_rate": 0.00041304472648851285,
      "loss": 2.8994,
      "step": 2310
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.7163093686103821,
      "learning_rate": 0.00041296613481659096,
      "loss": 2.9131,
      "step": 2311
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.6436629891395569,
      "learning_rate": 0.0004128875151289013,
      "loss": 3.106,
      "step": 2312
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.6630324721336365,
      "learning_rate": 0.0004128088674389594,
      "loss": 3.0664,
      "step": 2313
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.7428042888641357,
      "learning_rate": 0.0004127301917602857,
      "loss": 3.065,
      "step": 2314
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.6651397943496704,
      "learning_rate": 0.0004126514881064055,
      "loss": 3.021,
      "step": 2315
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.6107909083366394,
      "learning_rate": 0.00041257275649084896,
      "loss": 2.9961,
      "step": 2316
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.661644458770752,
      "learning_rate": 0.00041249399692715085,
      "loss": 2.8763,
      "step": 2317
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.6570852994918823,
      "learning_rate": 0.00041241520942885085,
      "loss": 3.0178,
      "step": 2318
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.7135264277458191,
      "learning_rate": 0.00041233639400949345,
      "loss": 3.0848,
      "step": 2319
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.6907715201377869,
      "learning_rate": 0.00041225755068262804,
      "loss": 3.1368,
      "step": 2320
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.7136870622634888,
      "learning_rate": 0.00041217867946180856,
      "loss": 3.0495,
      "step": 2321
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.6716059446334839,
      "learning_rate": 0.00041209978036059393,
      "loss": 2.9595,
      "step": 2322
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.7093339562416077,
      "learning_rate": 0.00041202085339254785,
      "loss": 3.0695,
      "step": 2323
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.6507720947265625,
      "learning_rate": 0.00041194189857123877,
      "loss": 3.0557,
      "step": 2324
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.6769500374794006,
      "learning_rate": 0.00041186291591023994,
      "loss": 3.0995,
      "step": 2325
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.6728584170341492,
      "learning_rate": 0.00041178390542312936,
      "loss": 2.9046,
      "step": 2326
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.6930718421936035,
      "learning_rate": 0.0004117048671234899,
      "loss": 2.9566,
      "step": 2327
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.6436777114868164,
      "learning_rate": 0.00041162580102490915,
      "loss": 2.9035,
      "step": 2328
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.6380375623703003,
      "learning_rate": 0.0004115467071409794,
      "loss": 2.9585,
      "step": 2329
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.6853612661361694,
      "learning_rate": 0.000411467585485298,
      "loss": 2.9063,
      "step": 2330
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.6923035383224487,
      "learning_rate": 0.0004113884360714667,
      "loss": 2.9829,
      "step": 2331
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.6987495422363281,
      "learning_rate": 0.0004113092589130923,
      "loss": 2.9815,
      "step": 2332
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.6670351028442383,
      "learning_rate": 0.00041123005402378615,
      "loss": 2.9851,
      "step": 2333
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.6629310846328735,
      "learning_rate": 0.00041115082141716464,
      "loss": 3.0046,
      "step": 2334
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.6647533774375916,
      "learning_rate": 0.00041107156110684875,
      "loss": 2.9741,
      "step": 2335
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.6397143006324768,
      "learning_rate": 0.00041099227310646415,
      "loss": 3.0954,
      "step": 2336
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.6730625033378601,
      "learning_rate": 0.0004109129574296414,
      "loss": 2.8896,
      "step": 2337
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.6489852070808411,
      "learning_rate": 0.0004108336140900158,
      "loss": 2.9739,
      "step": 2338
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.6267568469047546,
      "learning_rate": 0.00041075424310122745,
      "loss": 2.9828,
      "step": 2339
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.6435975432395935,
      "learning_rate": 0.00041067484447692104,
      "loss": 3.0597,
      "step": 2340
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.6868777871131897,
      "learning_rate": 0.0004105954182307462,
      "loss": 3.111,
      "step": 2341
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.65798419713974,
      "learning_rate": 0.00041051596437635717,
      "loss": 2.9112,
      "step": 2342
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.6430361866950989,
      "learning_rate": 0.000410436482927413,
      "loss": 3.0125,
      "step": 2343
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.6033899784088135,
      "learning_rate": 0.00041035697389757745,
      "loss": 2.9805,
      "step": 2344
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.6896268725395203,
      "learning_rate": 0.0004102774373005191,
      "loss": 2.9608,
      "step": 2345
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.6835456490516663,
      "learning_rate": 0.0004101978731499112,
      "loss": 3.0543,
      "step": 2346
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.6278208494186401,
      "learning_rate": 0.00041011828145943167,
      "loss": 2.9904,
      "step": 2347
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.689182698726654,
      "learning_rate": 0.00041003866224276333,
      "loss": 3.0261,
      "step": 2348
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.6302535533905029,
      "learning_rate": 0.00040995901551359366,
      "loss": 3.0483,
      "step": 2349
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.6084906458854675,
      "learning_rate": 0.00040987934128561477,
      "loss": 3.0292,
      "step": 2350
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.6653648614883423,
      "learning_rate": 0.0004097996395725237,
      "loss": 2.9554,
      "step": 2351
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.6194577813148499,
      "learning_rate": 0.0004097199103880219,
      "loss": 2.9233,
      "step": 2352
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.6589596271514893,
      "learning_rate": 0.00040964015374581606,
      "loss": 3.1066,
      "step": 2353
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.6039225459098816,
      "learning_rate": 0.00040956036965961694,
      "loss": 3.0957,
      "step": 2354
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.6740331649780273,
      "learning_rate": 0.0004094805581431406,
      "loss": 3.0897,
      "step": 2355
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.659689724445343,
      "learning_rate": 0.00040940071921010735,
      "loss": 2.9633,
      "step": 2356
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.7030015587806702,
      "learning_rate": 0.0004093208528742426,
      "loss": 2.9555,
      "step": 2357
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.647982120513916,
      "learning_rate": 0.0004092409591492762,
      "loss": 3.0022,
      "step": 2358
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.7058887481689453,
      "learning_rate": 0.0004091610380489429,
      "loss": 2.9235,
      "step": 2359
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.6221885681152344,
      "learning_rate": 0.000409081089586982,
      "loss": 3.0933,
      "step": 2360
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.6591102480888367,
      "learning_rate": 0.00040900111377713743,
      "loss": 3.1257,
      "step": 2361
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.7289895415306091,
      "learning_rate": 0.0004089211106331583,
      "loss": 3.0126,
      "step": 2362
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.659548819065094,
      "learning_rate": 0.0004088410801687977,
      "loss": 2.9809,
      "step": 2363
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.6892966032028198,
      "learning_rate": 0.00040876102239781407,
      "loss": 2.9665,
      "step": 2364
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.6472707390785217,
      "learning_rate": 0.0004086809373339703,
      "loss": 3.033,
      "step": 2365
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.6856099367141724,
      "learning_rate": 0.00040860082499103356,
      "loss": 3.1686,
      "step": 2366
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.7645410895347595,
      "learning_rate": 0.0004085206853827765,
      "loss": 3.0428,
      "step": 2367
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.6767497658729553,
      "learning_rate": 0.0004084405185229759,
      "loss": 2.9499,
      "step": 2368
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.6846610307693481,
      "learning_rate": 0.0004083603244254134,
      "loss": 3.032,
      "step": 2369
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.6483734250068665,
      "learning_rate": 0.0004082801031038751,
      "loss": 3.0271,
      "step": 2370
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.6536853909492493,
      "learning_rate": 0.00040819985457215223,
      "loss": 2.8956,
      "step": 2371
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.7938015460968018,
      "learning_rate": 0.0004081195788440404,
      "loss": 3.0067,
      "step": 2372
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.6996791362762451,
      "learning_rate": 0.0004080392759333398,
      "loss": 2.9492,
      "step": 2373
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.6626737713813782,
      "learning_rate": 0.00040795894585385557,
      "loss": 3.0072,
      "step": 2374
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.6821273565292358,
      "learning_rate": 0.0004078785886193973,
      "loss": 2.948,
      "step": 2375
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.7104920148849487,
      "learning_rate": 0.00040779820424377935,
      "loss": 3.0534,
      "step": 2376
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.7201179265975952,
      "learning_rate": 0.0004077177927408208,
      "loss": 3.1113,
      "step": 2377
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.7597175240516663,
      "learning_rate": 0.0004076373541243452,
      "loss": 3.0941,
      "step": 2378
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.6856766939163208,
      "learning_rate": 0.00040755688840818095,
      "loss": 3.0141,
      "step": 2379
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.6259262561798096,
      "learning_rate": 0.000407476395606161,
      "loss": 3.0259,
      "step": 2380
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.694747269153595,
      "learning_rate": 0.0004073958757321231,
      "loss": 2.9605,
      "step": 2381
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.6387988328933716,
      "learning_rate": 0.0004073153287999094,
      "loss": 3.029,
      "step": 2382
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.603809118270874,
      "learning_rate": 0.00040723475482336703,
      "loss": 3.0599,
      "step": 2383
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.6393113732337952,
      "learning_rate": 0.00040715415381634737,
      "loss": 3.0799,
      "step": 2384
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.6262668967247009,
      "learning_rate": 0.0004070735257927068,
      "loss": 2.9043,
      "step": 2385
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.6355147361755371,
      "learning_rate": 0.0004069928707663062,
      "loss": 3.0066,
      "step": 2386
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.6538029909133911,
      "learning_rate": 0.00040691218875101113,
      "loss": 2.9705,
      "step": 2387
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.7202096581459045,
      "learning_rate": 0.0004068314797606917,
      "loss": 2.9504,
      "step": 2388
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.6426859498023987,
      "learning_rate": 0.0004067507438092227,
      "loss": 2.981,
      "step": 2389
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.7128248810768127,
      "learning_rate": 0.0004066699809104837,
      "loss": 3.0647,
      "step": 2390
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.6787000298500061,
      "learning_rate": 0.0004065891910783587,
      "loss": 2.9596,
      "step": 2391
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.6760520339012146,
      "learning_rate": 0.00040650837432673647,
      "loss": 2.9769,
      "step": 2392
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.7030171751976013,
      "learning_rate": 0.00040642753066951024,
      "loss": 3.08,
      "step": 2393
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.697359025478363,
      "learning_rate": 0.00040634666012057797,
      "loss": 2.9408,
      "step": 2394
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.6647858023643494,
      "learning_rate": 0.00040626576269384244,
      "loss": 2.9561,
      "step": 2395
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.6457877159118652,
      "learning_rate": 0.0004061848384032106,
      "loss": 2.9288,
      "step": 2396
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.6658750176429749,
      "learning_rate": 0.0004061038872625944,
      "loss": 2.9604,
      "step": 2397
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.6399839520454407,
      "learning_rate": 0.00040602290928591026,
      "loss": 3.0061,
      "step": 2398
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.6668304800987244,
      "learning_rate": 0.00040594190448707925,
      "loss": 2.8167,
      "step": 2399
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.6535992622375488,
      "learning_rate": 0.00040586087288002707,
      "loss": 2.9554,
      "step": 2400
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.6655476689338684,
      "learning_rate": 0.0004057798144786839,
      "loss": 3.025,
      "step": 2401
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.660531222820282,
      "learning_rate": 0.0004056987292969847,
      "loss": 2.9909,
      "step": 2402
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.6448853611946106,
      "learning_rate": 0.00040561761734886885,
      "loss": 3.0671,
      "step": 2403
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.629567563533783,
      "learning_rate": 0.0004055364786482806,
      "loss": 2.9973,
      "step": 2404
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.6942331790924072,
      "learning_rate": 0.00040545531320916844,
      "loss": 3.0079,
      "step": 2405
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.6371753811836243,
      "learning_rate": 0.0004053741210454859,
      "loss": 2.9613,
      "step": 2406
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.6433809399604797,
      "learning_rate": 0.00040529290217119053,
      "loss": 3.0399,
      "step": 2407
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.6885784268379211,
      "learning_rate": 0.00040521165660024503,
      "loss": 3.1197,
      "step": 2408
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.6476050615310669,
      "learning_rate": 0.0004051303843466164,
      "loss": 3.0291,
      "step": 2409
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.6562504172325134,
      "learning_rate": 0.0004050490854242763,
      "loss": 2.8961,
      "step": 2410
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.6931854486465454,
      "learning_rate": 0.0004049677598472009,
      "loss": 2.9723,
      "step": 2411
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.6834783554077148,
      "learning_rate": 0.000404886407629371,
      "loss": 3.0617,
      "step": 2412
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.6611762642860413,
      "learning_rate": 0.0004048050287847721,
      "loss": 2.9825,
      "step": 2413
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.6211848855018616,
      "learning_rate": 0.0004047236233273941,
      "loss": 3.1021,
      "step": 2414
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.6207467913627625,
      "learning_rate": 0.00040464219127123147,
      "loss": 3.0712,
      "step": 2415
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.6667750477790833,
      "learning_rate": 0.00040456073263028347,
      "loss": 3.0561,
      "step": 2416
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.6521807909011841,
      "learning_rate": 0.0004044792474185537,
      "loss": 3.1114,
      "step": 2417
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.6150417923927307,
      "learning_rate": 0.00040439773565005034,
      "loss": 2.9129,
      "step": 2418
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.6645765900611877,
      "learning_rate": 0.00040431619733878637,
      "loss": 2.9969,
      "step": 2419
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.6827164888381958,
      "learning_rate": 0.0004042346324987791,
      "loss": 2.8294,
      "step": 2420
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.680113673210144,
      "learning_rate": 0.0004041530411440504,
      "loss": 3.0656,
      "step": 2421
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.6511340737342834,
      "learning_rate": 0.0004040714232886269,
      "loss": 3.0847,
      "step": 2422
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.656265914440155,
      "learning_rate": 0.00040398977894653954,
      "loss": 2.9553,
      "step": 2423
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.6558182239532471,
      "learning_rate": 0.000403908108131824,
      "loss": 2.9935,
      "step": 2424
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.671335756778717,
      "learning_rate": 0.0004038264108585204,
      "loss": 2.94,
      "step": 2425
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.6042911410331726,
      "learning_rate": 0.00040374468714067345,
      "loss": 3.0262,
      "step": 2426
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.7121661305427551,
      "learning_rate": 0.00040366293699233246,
      "loss": 3.0151,
      "step": 2427
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.6593887209892273,
      "learning_rate": 0.00040358116042755115,
      "loss": 2.9326,
      "step": 2428
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.6598098278045654,
      "learning_rate": 0.00040349935746038793,
      "loss": 2.997,
      "step": 2429
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.6166862845420837,
      "learning_rate": 0.0004034175281049056,
      "loss": 2.9846,
      "step": 2430
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.679965615272522,
      "learning_rate": 0.00040333567237517165,
      "loss": 2.9513,
      "step": 2431
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.6604962348937988,
      "learning_rate": 0.000403253790285258,
      "loss": 3.0,
      "step": 2432
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.6427528858184814,
      "learning_rate": 0.00040317188184924116,
      "loss": 2.865,
      "step": 2433
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.6856861710548401,
      "learning_rate": 0.00040308994708120207,
      "loss": 2.9705,
      "step": 2434
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.6625736951828003,
      "learning_rate": 0.00040300798599522626,
      "loss": 2.8616,
      "step": 2435
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.6302908062934875,
      "learning_rate": 0.00040292599860540393,
      "loss": 3.0532,
      "step": 2436
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.720018208026886,
      "learning_rate": 0.00040284398492582954,
      "loss": 3.0209,
      "step": 2437
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.6781893968582153,
      "learning_rate": 0.00040276194497060227,
      "loss": 2.964,
      "step": 2438
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.6578341126441956,
      "learning_rate": 0.0004026798787538256,
      "loss": 3.0006,
      "step": 2439
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.649915874004364,
      "learning_rate": 0.00040259778628960773,
      "loss": 2.9909,
      "step": 2440
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.6327816843986511,
      "learning_rate": 0.0004025156675920614,
      "loss": 2.9943,
      "step": 2441
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.6417299509048462,
      "learning_rate": 0.0004024335226753037,
      "loss": 2.9553,
      "step": 2442
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.7111780643463135,
      "learning_rate": 0.0004023513515534563,
      "loss": 2.9141,
      "step": 2443
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.6382491588592529,
      "learning_rate": 0.0004022691542406453,
      "loss": 3.0702,
      "step": 2444
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.620915412902832,
      "learning_rate": 0.00040218693075100146,
      "loss": 2.9198,
      "step": 2445
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.6776530742645264,
      "learning_rate": 0.0004021046810986599,
      "loss": 3.0107,
      "step": 2446
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.6102465987205505,
      "learning_rate": 0.0004020224052977604,
      "loss": 3.065,
      "step": 2447
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.6458097100257874,
      "learning_rate": 0.00040194010336244696,
      "loss": 2.9807,
      "step": 2448
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.6198811531066895,
      "learning_rate": 0.0004018577753068683,
      "loss": 2.8302,
      "step": 2449
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.6983223557472229,
      "learning_rate": 0.00040177542114517765,
      "loss": 3.0693,
      "step": 2450
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.6859588027000427,
      "learning_rate": 0.0004016930408915325,
      "loss": 2.9646,
      "step": 2451
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.6083962917327881,
      "learning_rate": 0.00040161063456009506,
      "loss": 2.9173,
      "step": 2452
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.6311429738998413,
      "learning_rate": 0.00040152820216503196,
      "loss": 3.0115,
      "step": 2453
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.6373772621154785,
      "learning_rate": 0.00040144574372051416,
      "loss": 2.978,
      "step": 2454
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.632335901260376,
      "learning_rate": 0.0004013632592407174,
      "loss": 2.9848,
      "step": 2455
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.6554983258247375,
      "learning_rate": 0.00040128074873982156,
      "loss": 3.01,
      "step": 2456
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.623657763004303,
      "learning_rate": 0.0004011982122320112,
      "loss": 2.8731,
      "step": 2457
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.6337506175041199,
      "learning_rate": 0.0004011156497314754,
      "loss": 2.9043,
      "step": 2458
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.6541845798492432,
      "learning_rate": 0.00040103306125240746,
      "loss": 3.1205,
      "step": 2459
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.6060770750045776,
      "learning_rate": 0.0004009504468090054,
      "loss": 3.0208,
      "step": 2460
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.6992022395133972,
      "learning_rate": 0.00040086780641547157,
      "loss": 2.9277,
      "step": 2461
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.6859998106956482,
      "learning_rate": 0.00040078514008601274,
      "loss": 2.9811,
      "step": 2462
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.6780966520309448,
      "learning_rate": 0.00040070244783484035,
      "loss": 2.9354,
      "step": 2463
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.6297109127044678,
      "learning_rate": 0.00040061972967617013,
      "loss": 2.9515,
      "step": 2464
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.6344056129455566,
      "learning_rate": 0.00040053698562422216,
      "loss": 3.0438,
      "step": 2465
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.6213021278381348,
      "learning_rate": 0.00040045421569322116,
      "loss": 2.9013,
      "step": 2466
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.6619167327880859,
      "learning_rate": 0.00040037141989739626,
      "loss": 2.896,
      "step": 2467
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.6933922171592712,
      "learning_rate": 0.0004002885982509811,
      "loss": 2.9341,
      "step": 2468
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.7051197290420532,
      "learning_rate": 0.0004002057507682136,
      "loss": 3.0608,
      "step": 2469
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.7278985977172852,
      "learning_rate": 0.0004001228774633362,
      "loss": 2.9998,
      "step": 2470
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.7090277075767517,
      "learning_rate": 0.0004000399783505957,
      "loss": 2.9549,
      "step": 2471
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.6712924242019653,
      "learning_rate": 0.0003999570534442436,
      "loss": 2.9782,
      "step": 2472
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.6816084384918213,
      "learning_rate": 0.0003998741027585356,
      "loss": 3.0409,
      "step": 2473
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.731820821762085,
      "learning_rate": 0.0003997911263077318,
      "loss": 2.9595,
      "step": 2474
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.6765968203544617,
      "learning_rate": 0.0003997081241060968,
      "loss": 3.1054,
      "step": 2475
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.6223145127296448,
      "learning_rate": 0.00039962509616789984,
      "loss": 2.7751,
      "step": 2476
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.6163656711578369,
      "learning_rate": 0.0003995420425074141,
      "loss": 2.9358,
      "step": 2477
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.6294968724250793,
      "learning_rate": 0.00039945896313891774,
      "loss": 2.8672,
      "step": 2478
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.6662341952323914,
      "learning_rate": 0.00039937585807669286,
      "loss": 2.9289,
      "step": 2479
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.6577697992324829,
      "learning_rate": 0.00039929272733502623,
      "loss": 3.0842,
      "step": 2480
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.7394401431083679,
      "learning_rate": 0.0003992095709282091,
      "loss": 2.9601,
      "step": 2481
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.6850014925003052,
      "learning_rate": 0.0003991263888705369,
      "loss": 2.9793,
      "step": 2482
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.726797342300415,
      "learning_rate": 0.00039904318117630965,
      "loss": 3.1679,
      "step": 2483
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.7026318907737732,
      "learning_rate": 0.0003989599478598317,
      "loss": 2.8897,
      "step": 2484
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.5975750088691711,
      "learning_rate": 0.0003988766889354118,
      "loss": 3.0099,
      "step": 2485
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.6694080233573914,
      "learning_rate": 0.00039879340441736314,
      "loss": 2.9698,
      "step": 2486
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.6045278906822205,
      "learning_rate": 0.0003987100943200033,
      "loss": 3.041,
      "step": 2487
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.694227933883667,
      "learning_rate": 0.0003986267586576543,
      "loss": 2.9894,
      "step": 2488
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.663388192653656,
      "learning_rate": 0.0003985433974446424,
      "loss": 3.0454,
      "step": 2489
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.6802916526794434,
      "learning_rate": 0.0003984600106952985,
      "loss": 2.8176,
      "step": 2490
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.6620681285858154,
      "learning_rate": 0.00039837659842395756,
      "loss": 3.0866,
      "step": 2491
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.6514615416526794,
      "learning_rate": 0.0003982931606449592,
      "loss": 3.0532,
      "step": 2492
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.6615667939186096,
      "learning_rate": 0.00039820969737264743,
      "loss": 2.9674,
      "step": 2493
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.6237515211105347,
      "learning_rate": 0.00039812620862137056,
      "loss": 3.0163,
      "step": 2494
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.6005732417106628,
      "learning_rate": 0.0003980426944054811,
      "loss": 2.87,
      "step": 2495
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.6538258194923401,
      "learning_rate": 0.00039795915473933623,
      "loss": 3.1076,
      "step": 2496
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.6527050137519836,
      "learning_rate": 0.00039787558963729744,
      "loss": 2.878,
      "step": 2497
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.7015457153320312,
      "learning_rate": 0.0003977919991137304,
      "loss": 2.9793,
      "step": 2498
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.6989335417747498,
      "learning_rate": 0.0003977083831830054,
      "loss": 2.9009,
      "step": 2499
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.6616939306259155,
      "learning_rate": 0.00039762474185949686,
      "loss": 2.9986,
      "step": 2500
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.6592559814453125,
      "learning_rate": 0.0003975410751575839,
      "loss": 3.108,
      "step": 2501
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.6697366833686829,
      "learning_rate": 0.0003974573830916496,
      "loss": 3.117,
      "step": 2502
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.6575636863708496,
      "learning_rate": 0.0003973736656760817,
      "loss": 3.1581,
      "step": 2503
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.6846112608909607,
      "learning_rate": 0.0003972899229252721,
      "loss": 2.9865,
      "step": 2504
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.6247467398643494,
      "learning_rate": 0.00039720615485361733,
      "loss": 3.0409,
      "step": 2505
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.6620818972587585,
      "learning_rate": 0.00039712236147551795,
      "loss": 2.9786,
      "step": 2506
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.6357340812683105,
      "learning_rate": 0.000397038542805379,
      "loss": 3.0789,
      "step": 2507
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.6666430234909058,
      "learning_rate": 0.00039695469885761,
      "loss": 2.9109,
      "step": 2508
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.6232125163078308,
      "learning_rate": 0.0003968708296466245,
      "loss": 2.934,
      "step": 2509
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.6343709826469421,
      "learning_rate": 0.00039678693518684083,
      "loss": 2.9382,
      "step": 2510
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.6132375001907349,
      "learning_rate": 0.0003967030154926813,
      "loss": 2.9849,
      "step": 2511
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.6315023303031921,
      "learning_rate": 0.00039661907057857263,
      "loss": 2.9778,
      "step": 2512
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.7385218143463135,
      "learning_rate": 0.0003965351004589459,
      "loss": 2.9825,
      "step": 2513
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.6660847067832947,
      "learning_rate": 0.0003964511051482367,
      "loss": 2.9347,
      "step": 2514
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.6790717244148254,
      "learning_rate": 0.00039636708466088476,
      "loss": 3.0198,
      "step": 2515
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.6345413327217102,
      "learning_rate": 0.00039628303901133413,
      "loss": 3.0483,
      "step": 2516
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.6219223141670227,
      "learning_rate": 0.00039619896821403315,
      "loss": 2.9765,
      "step": 2517
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.6114223003387451,
      "learning_rate": 0.0003961148722834347,
      "loss": 2.9427,
      "step": 2518
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.603432297706604,
      "learning_rate": 0.0003960307512339958,
      "loss": 2.9542,
      "step": 2519
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.6398842930793762,
      "learning_rate": 0.00039594660508017774,
      "loss": 3.0066,
      "step": 2520
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.6911870837211609,
      "learning_rate": 0.00039586243383644645,
      "loss": 2.9346,
      "step": 2521
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.6999120116233826,
      "learning_rate": 0.00039577823751727175,
      "loss": 3.0149,
      "step": 2522
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.6256267428398132,
      "learning_rate": 0.00039569401613712797,
      "loss": 2.9843,
      "step": 2523
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.6696797609329224,
      "learning_rate": 0.00039560976971049386,
      "loss": 2.8864,
      "step": 2524
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.6458109617233276,
      "learning_rate": 0.00039552549825185224,
      "loss": 2.9749,
      "step": 2525
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.6340250968933105,
      "learning_rate": 0.0003954412017756904,
      "loss": 3.0288,
      "step": 2526
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.6635157465934753,
      "learning_rate": 0.00039535688029649984,
      "loss": 2.9584,
      "step": 2527
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.6980265378952026,
      "learning_rate": 0.0003952725338287765,
      "loss": 2.9908,
      "step": 2528
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.6844644546508789,
      "learning_rate": 0.0003951881623870204,
      "loss": 3.0054,
      "step": 2529
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.6751075387001038,
      "learning_rate": 0.00039510376598573605,
      "loss": 2.952,
      "step": 2530
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.6679718494415283,
      "learning_rate": 0.0003950193446394321,
      "loss": 3.1053,
      "step": 2531
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.601050853729248,
      "learning_rate": 0.00039493489836262165,
      "loss": 2.9777,
      "step": 2532
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.6295939683914185,
      "learning_rate": 0.0003948504271698219,
      "loss": 3.0014,
      "step": 2533
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.6427661180496216,
      "learning_rate": 0.0003947659310755545,
      "loss": 2.9614,
      "step": 2534
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.6116310954093933,
      "learning_rate": 0.00039468141009434533,
      "loss": 3.0419,
      "step": 2535
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.6759223937988281,
      "learning_rate": 0.0003945968642407244,
      "loss": 2.9813,
      "step": 2536
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.6467927694320679,
      "learning_rate": 0.0003945122935292261,
      "loss": 2.9414,
      "step": 2537
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.6657295823097229,
      "learning_rate": 0.00039442769797438937,
      "loss": 3.0491,
      "step": 2538
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.6766747832298279,
      "learning_rate": 0.0003943430775907569,
      "loss": 2.9167,
      "step": 2539
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.6443061828613281,
      "learning_rate": 0.0003942584323928762,
      "loss": 3.0174,
      "step": 2540
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.6436951756477356,
      "learning_rate": 0.00039417376239529847,
      "loss": 2.9874,
      "step": 2541
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.6829081177711487,
      "learning_rate": 0.00039408906761257957,
      "loss": 3.0123,
      "step": 2542
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.6647595167160034,
      "learning_rate": 0.00039400434805927947,
      "loss": 3.0994,
      "step": 2543
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.6040409207344055,
      "learning_rate": 0.00039391960374996263,
      "loss": 2.929,
      "step": 2544
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.6878780722618103,
      "learning_rate": 0.0003938348346991973,
      "loss": 3.0482,
      "step": 2545
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.66171795129776,
      "learning_rate": 0.0003937500409215565,
      "loss": 3.007,
      "step": 2546
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.623146116733551,
      "learning_rate": 0.0003936652224316172,
      "loss": 2.9126,
      "step": 2547
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.6283636093139648,
      "learning_rate": 0.00039358037924396055,
      "loss": 2.9625,
      "step": 2548
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.6390171051025391,
      "learning_rate": 0.0003934955113731723,
      "loss": 2.9535,
      "step": 2549
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.6322492361068726,
      "learning_rate": 0.000393410618833842,
      "loss": 3.0507,
      "step": 2550
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.6653038263320923,
      "learning_rate": 0.0003933257016405638,
      "loss": 2.9433,
      "step": 2551
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.7741633653640747,
      "learning_rate": 0.0003932407598079359,
      "loss": 2.9493,
      "step": 2552
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.6484440565109253,
      "learning_rate": 0.0003931557933505608,
      "loss": 2.8805,
      "step": 2553
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.6563732028007507,
      "learning_rate": 0.00039307080228304526,
      "loss": 3.0398,
      "step": 2554
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.6151111125946045,
      "learning_rate": 0.0003929857866200002,
      "loss": 2.9142,
      "step": 2555
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.7005769610404968,
      "learning_rate": 0.0003929007463760407,
      "loss": 3.0235,
      "step": 2556
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.6506918668746948,
      "learning_rate": 0.0003928156815657863,
      "loss": 2.9991,
      "step": 2557
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.6442384719848633,
      "learning_rate": 0.00039273059220386065,
      "loss": 3.1311,
      "step": 2558
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.629844069480896,
      "learning_rate": 0.0003926454783048914,
      "loss": 3.0004,
      "step": 2559
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.6922647953033447,
      "learning_rate": 0.0003925603398835108,
      "loss": 2.9028,
      "step": 2560
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.6640673279762268,
      "learning_rate": 0.00039247517695435507,
      "loss": 2.9052,
      "step": 2561
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.6407484412193298,
      "learning_rate": 0.00039238998953206473,
      "loss": 2.9619,
      "step": 2562
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.6655325293540955,
      "learning_rate": 0.0003923047776312844,
      "loss": 3.0603,
      "step": 2563
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.6781975626945496,
      "learning_rate": 0.00039221954126666313,
      "loss": 3.0936,
      "step": 2564
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.6097453236579895,
      "learning_rate": 0.00039213428045285385,
      "loss": 2.9227,
      "step": 2565
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.6822124123573303,
      "learning_rate": 0.0003920489952045141,
      "loss": 2.9022,
      "step": 2566
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.6457365155220032,
      "learning_rate": 0.00039196368553630535,
      "loss": 2.8934,
      "step": 2567
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.6376696228981018,
      "learning_rate": 0.0003918783514628932,
      "loss": 2.9597,
      "step": 2568
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.6456822156906128,
      "learning_rate": 0.0003917929929989476,
      "loss": 2.9519,
      "step": 2569
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.6397790312767029,
      "learning_rate": 0.0003917076101591427,
      "loss": 3.1252,
      "step": 2570
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.6363022923469543,
      "learning_rate": 0.00039162220295815684,
      "loss": 3.0299,
      "step": 2571
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.6262412071228027,
      "learning_rate": 0.00039153677141067254,
      "loss": 2.9489,
      "step": 2572
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.6975336074829102,
      "learning_rate": 0.0003914513155313763,
      "loss": 3.0433,
      "step": 2573
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.6708138585090637,
      "learning_rate": 0.00039136583533495905,
      "loss": 2.939,
      "step": 2574
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.6541686654090881,
      "learning_rate": 0.0003912803308361159,
      "loss": 3.1958,
      "step": 2575
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.7046639323234558,
      "learning_rate": 0.00039119480204954606,
      "loss": 3.0736,
      "step": 2576
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.6903644800186157,
      "learning_rate": 0.00039110924898995284,
      "loss": 3.0107,
      "step": 2577
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.7207477688789368,
      "learning_rate": 0.0003910236716720438,
      "loss": 2.9993,
      "step": 2578
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.6062509417533875,
      "learning_rate": 0.00039093807011053073,
      "loss": 3.0319,
      "step": 2579
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.6001321077346802,
      "learning_rate": 0.0003908524443201296,
      "loss": 2.8762,
      "step": 2580
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.6092044115066528,
      "learning_rate": 0.0003907667943155603,
      "loss": 2.9693,
      "step": 2581
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.6071337461471558,
      "learning_rate": 0.00039068112011154715,
      "loss": 2.9785,
      "step": 2582
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.6265439391136169,
      "learning_rate": 0.0003905954217228186,
      "loss": 2.8157,
      "step": 2583
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.6873365044593811,
      "learning_rate": 0.0003905096991641071,
      "loss": 2.9446,
      "step": 2584
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.6699627637863159,
      "learning_rate": 0.00039042395245014933,
      "loss": 3.0233,
      "step": 2585
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.6697744131088257,
      "learning_rate": 0.00039033818159568624,
      "loss": 2.9706,
      "step": 2586
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.6963576674461365,
      "learning_rate": 0.0003902523866154628,
      "loss": 2.876,
      "step": 2587
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.6386752128601074,
      "learning_rate": 0.00039016656752422814,
      "loss": 2.949,
      "step": 2588
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.6172628402709961,
      "learning_rate": 0.00039008072433673556,
      "loss": 2.9322,
      "step": 2589
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.70719975233078,
      "learning_rate": 0.00038999485706774263,
      "loss": 2.9999,
      "step": 2590
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.6775801181793213,
      "learning_rate": 0.0003899089657320107,
      "loss": 3.0349,
      "step": 2591
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.6773812174797058,
      "learning_rate": 0.0003898230503443055,
      "loss": 2.9983,
      "step": 2592
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.6147326231002808,
      "learning_rate": 0.0003897371109193972,
      "loss": 2.9834,
      "step": 2593
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.604408323764801,
      "learning_rate": 0.00038965114747205944,
      "loss": 2.9184,
      "step": 2594
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.684168815612793,
      "learning_rate": 0.0003895651600170705,
      "loss": 3.0839,
      "step": 2595
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.64366614818573,
      "learning_rate": 0.0003894791485692125,
      "loss": 3.0195,
      "step": 2596
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.6203216910362244,
      "learning_rate": 0.0003893931131432719,
      "loss": 2.8894,
      "step": 2597
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.623183012008667,
      "learning_rate": 0.00038930705375403923,
      "loss": 3.0077,
      "step": 2598
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.6301890015602112,
      "learning_rate": 0.000389220970416309,
      "loss": 3.0077,
      "step": 2599
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.6925790905952454,
      "learning_rate": 0.00038913486314488,
      "loss": 2.9591,
      "step": 2600
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.6741375923156738,
      "learning_rate": 0.000389048731954555,
      "loss": 3.0765,
      "step": 2601
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.6185359954833984,
      "learning_rate": 0.0003889625768601409,
      "loss": 2.9541,
      "step": 2602
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.6811292171478271,
      "learning_rate": 0.00038887639787644904,
      "loss": 3.0155,
      "step": 2603
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.6920362114906311,
      "learning_rate": 0.00038879019501829423,
      "loss": 2.888,
      "step": 2604
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.6170023679733276,
      "learning_rate": 0.00038870396830049595,
      "loss": 3.0236,
      "step": 2605
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.6574819087982178,
      "learning_rate": 0.00038861771773787744,
      "loss": 2.9793,
      "step": 2606
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.6574527621269226,
      "learning_rate": 0.00038853144334526643,
      "loss": 2.9784,
      "step": 2607
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.6617682576179504,
      "learning_rate": 0.0003884451451374942,
      "loss": 2.981,
      "step": 2608
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.621701717376709,
      "learning_rate": 0.00038835882312939656,
      "loss": 3.0214,
      "step": 2609
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.6149619817733765,
      "learning_rate": 0.0003882724773358133,
      "loss": 2.8203,
      "step": 2610
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.7265925407409668,
      "learning_rate": 0.00038818610777158804,
      "loss": 2.9358,
      "step": 2611
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.659834086894989,
      "learning_rate": 0.000388099714451569,
      "loss": 2.9679,
      "step": 2612
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.6186961531639099,
      "learning_rate": 0.000388013297390608,
      "loss": 2.9563,
      "step": 2613
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.6329547762870789,
      "learning_rate": 0.0003879268566035612,
      "loss": 2.9473,
      "step": 2614
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.7637825608253479,
      "learning_rate": 0.0003878403921052887,
      "loss": 2.9551,
      "step": 2615
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.7545997500419617,
      "learning_rate": 0.0003877539039106549,
      "loss": 2.9751,
      "step": 2616
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.6594221591949463,
      "learning_rate": 0.000387667392034528,
      "loss": 2.993,
      "step": 2617
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.6501118540763855,
      "learning_rate": 0.00038758085649178044,
      "loss": 3.03,
      "step": 2618
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.6277358531951904,
      "learning_rate": 0.0003874942972972887,
      "loss": 2.9387,
      "step": 2619
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.6771356463432312,
      "learning_rate": 0.00038740771446593323,
      "loss": 3.093,
      "step": 2620
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.6413803100585938,
      "learning_rate": 0.00038732110801259874,
      "loss": 2.9588,
      "step": 2621
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.6622651815414429,
      "learning_rate": 0.00038723447795217374,
      "loss": 3.0085,
      "step": 2622
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.6296447515487671,
      "learning_rate": 0.0003871478242995511,
      "loss": 3.0283,
      "step": 2623
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.6736054420471191,
      "learning_rate": 0.0003870611470696275,
      "loss": 2.8978,
      "step": 2624
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.574993371963501,
      "learning_rate": 0.00038697444627730374,
      "loss": 2.9719,
      "step": 2625
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.6511809229850769,
      "learning_rate": 0.00038688772193748466,
      "loss": 2.9735,
      "step": 2626
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.6442992687225342,
      "learning_rate": 0.0003868009740650794,
      "loss": 3.0188,
      "step": 2627
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.6678422093391418,
      "learning_rate": 0.00038671420267500067,
      "loss": 2.9579,
      "step": 2628
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.6605773568153381,
      "learning_rate": 0.0003866274077821655,
      "loss": 3.105,
      "step": 2629
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.671444833278656,
      "learning_rate": 0.0003865405894014951,
      "loss": 2.9872,
      "step": 2630
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.6905514597892761,
      "learning_rate": 0.00038645374754791445,
      "loss": 3.0657,
      "step": 2631
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.674486517906189,
      "learning_rate": 0.00038636688223635273,
      "loss": 3.081,
      "step": 2632
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.6357333660125732,
      "learning_rate": 0.000386279993481743,
      "loss": 2.9993,
      "step": 2633
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.6889569163322449,
      "learning_rate": 0.0003861930812990225,
      "loss": 3.0394,
      "step": 2634
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.6313343644142151,
      "learning_rate": 0.00038610614570313244,
      "loss": 2.9754,
      "step": 2635
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.6405973434448242,
      "learning_rate": 0.00038601918670901807,
      "loss": 2.9882,
      "step": 2636
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.7012454867362976,
      "learning_rate": 0.0003859322043316287,
      "loss": 3.0629,
      "step": 2637
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.6231305599212646,
      "learning_rate": 0.0003858451985859175,
      "loss": 3.037,
      "step": 2638
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.6152665615081787,
      "learning_rate": 0.0003857581694868417,
      "loss": 2.913,
      "step": 2639
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.7043142318725586,
      "learning_rate": 0.00038567111704936285,
      "loss": 2.9488,
      "step": 2640
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.6431323885917664,
      "learning_rate": 0.00038558404128844604,
      "loss": 3.0078,
      "step": 2641
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.6222760081291199,
      "learning_rate": 0.00038549694221906084,
      "loss": 2.9893,
      "step": 2642
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.6549332737922668,
      "learning_rate": 0.00038540981985618036,
      "loss": 3.0023,
      "step": 2643
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.6807793378829956,
      "learning_rate": 0.00038532267421478205,
      "loss": 3.0915,
      "step": 2644
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.705514669418335,
      "learning_rate": 0.0003852355053098473,
      "loss": 2.9074,
      "step": 2645
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.6604875326156616,
      "learning_rate": 0.00038514831315636134,
      "loss": 2.9974,
      "step": 2646
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.6672583222389221,
      "learning_rate": 0.00038506109776931366,
      "loss": 2.9438,
      "step": 2647
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.6608531475067139,
      "learning_rate": 0.0003849738591636974,
      "loss": 2.965,
      "step": 2648
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.6278418302536011,
      "learning_rate": 0.00038488659735451,
      "loss": 3.0437,
      "step": 2649
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.6434205770492554,
      "learning_rate": 0.00038479931235675294,
      "loss": 3.0361,
      "step": 2650
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.6304866075515747,
      "learning_rate": 0.0003847120041854312,
      "loss": 3.0412,
      "step": 2651
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.6926174759864807,
      "learning_rate": 0.00038462467285555423,
      "loss": 3.0633,
      "step": 2652
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.6134527921676636,
      "learning_rate": 0.00038453731838213533,
      "loss": 3.0092,
      "step": 2653
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.6408197283744812,
      "learning_rate": 0.0003844499407801918,
      "loss": 2.9436,
      "step": 2654
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.6000586748123169,
      "learning_rate": 0.0003843625400647446,
      "loss": 3.1352,
      "step": 2655
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.6405069231987,
      "learning_rate": 0.00038427511625081925,
      "loss": 3.0144,
      "step": 2656
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.658514678478241,
      "learning_rate": 0.00038418766935344466,
      "loss": 3.1363,
      "step": 2657
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.6206108927726746,
      "learning_rate": 0.00038410019938765413,
      "loss": 3.0079,
      "step": 2658
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.6098486185073853,
      "learning_rate": 0.00038401270636848474,
      "loss": 3.0281,
      "step": 2659
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.6522559523582458,
      "learning_rate": 0.00038392519031097745,
      "loss": 2.9263,
      "step": 2660
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.6095989942550659,
      "learning_rate": 0.0003838376512301773,
      "loss": 2.9518,
      "step": 2661
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.6559978723526001,
      "learning_rate": 0.0003837500891411334,
      "loss": 3.0273,
      "step": 2662
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.650389552116394,
      "learning_rate": 0.0003836625040588986,
      "loss": 2.9883,
      "step": 2663
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.6741265654563904,
      "learning_rate": 0.00038357489599852984,
      "loss": 3.004,
      "step": 2664
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.6159067749977112,
      "learning_rate": 0.0003834872649750879,
      "loss": 2.8617,
      "step": 2665
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.626867413520813,
      "learning_rate": 0.00038339961100363753,
      "loss": 2.9892,
      "step": 2666
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.6710576415061951,
      "learning_rate": 0.0003833119340992476,
      "loss": 3.096,
      "step": 2667
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.6304817795753479,
      "learning_rate": 0.0003832242342769907,
      "loss": 2.9616,
      "step": 2668
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.6583771705627441,
      "learning_rate": 0.00038313651155194345,
      "loss": 2.9064,
      "step": 2669
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.6634743809700012,
      "learning_rate": 0.00038304876593918646,
      "loss": 2.9548,
      "step": 2670
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.6886206865310669,
      "learning_rate": 0.0003829609974538041,
      "loss": 3.0442,
      "step": 2671
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.6699473857879639,
      "learning_rate": 0.00038287320611088486,
      "loss": 2.9582,
      "step": 2672
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.6716246008872986,
      "learning_rate": 0.00038278539192552113,
      "loss": 2.9459,
      "step": 2673
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.6058833003044128,
      "learning_rate": 0.00038269755491280916,
      "loss": 2.9416,
      "step": 2674
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.6377160549163818,
      "learning_rate": 0.00038260969508784916,
      "loss": 3.011,
      "step": 2675
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.5630903244018555,
      "learning_rate": 0.00038252181246574516,
      "loss": 2.9648,
      "step": 2676
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.6392728090286255,
      "learning_rate": 0.0003824339070616053,
      "loss": 2.9805,
      "step": 2677
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.6302230358123779,
      "learning_rate": 0.0003823459788905415,
      "loss": 3.0911,
      "step": 2678
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.6233479380607605,
      "learning_rate": 0.00038225802796766964,
      "loss": 3.1567,
      "step": 2679
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.7020156979560852,
      "learning_rate": 0.0003821700543081095,
      "loss": 3.089,
      "step": 2680
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.6734938025474548,
      "learning_rate": 0.00038208205792698483,
      "loss": 2.8888,
      "step": 2681
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.6899421811103821,
      "learning_rate": 0.0003819940388394232,
      "loss": 2.9265,
      "step": 2682
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.6008552312850952,
      "learning_rate": 0.00038190599706055595,
      "loss": 3.0398,
      "step": 2683
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.7621938586235046,
      "learning_rate": 0.00038181793260551875,
      "loss": 3.0025,
      "step": 2684
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.5945797562599182,
      "learning_rate": 0.00038172984548945067,
      "loss": 2.9003,
      "step": 2685
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.6260895729064941,
      "learning_rate": 0.00038164173572749504,
      "loss": 2.9021,
      "step": 2686
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.6494467854499817,
      "learning_rate": 0.0003815536033347989,
      "loss": 3.0786,
      "step": 2687
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.6463684439659119,
      "learning_rate": 0.0003814654483265134,
      "loss": 2.964,
      "step": 2688
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.6896253824234009,
      "learning_rate": 0.00038137727071779304,
      "loss": 3.0711,
      "step": 2689
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.6002032160758972,
      "learning_rate": 0.0003812890705237969,
      "loss": 3.0448,
      "step": 2690
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.6035925149917603,
      "learning_rate": 0.0003812008477596875,
      "loss": 3.0048,
      "step": 2691
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.6246645450592041,
      "learning_rate": 0.0003811126024406314,
      "loss": 2.8817,
      "step": 2692
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.6186734437942505,
      "learning_rate": 0.00038102433458179883,
      "loss": 3.0821,
      "step": 2693
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.6325531005859375,
      "learning_rate": 0.0003809360441983643,
      "loss": 2.8893,
      "step": 2694
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.6650136113166809,
      "learning_rate": 0.00038084773130550576,
      "loss": 2.8459,
      "step": 2695
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.5922477841377258,
      "learning_rate": 0.0003807593959184053,
      "loss": 3.0733,
      "step": 2696
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.6507846713066101,
      "learning_rate": 0.0003806710380522488,
      "loss": 2.8908,
      "step": 2697
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.6729182600975037,
      "learning_rate": 0.000380582657722226,
      "loss": 3.0643,
      "step": 2698
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.6509065628051758,
      "learning_rate": 0.00038049425494353047,
      "loss": 3.0696,
      "step": 2699
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.635250985622406,
      "learning_rate": 0.00038040582973135974,
      "loss": 2.9835,
      "step": 2700
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.591624915599823,
      "learning_rate": 0.00038031738210091506,
      "loss": 2.9152,
      "step": 2701
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.6125686168670654,
      "learning_rate": 0.0003802289120674016,
      "loss": 2.9583,
      "step": 2702
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.6313697099685669,
      "learning_rate": 0.00038014041964602843,
      "loss": 3.0143,
      "step": 2703
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.6039209365844727,
      "learning_rate": 0.00038005190485200844,
      "loss": 3.1385,
      "step": 2704
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.6411006450653076,
      "learning_rate": 0.0003799633677005583,
      "loss": 2.9996,
      "step": 2705
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.6313818693161011,
      "learning_rate": 0.0003798748082068986,
      "loss": 2.9948,
      "step": 2706
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.6570543646812439,
      "learning_rate": 0.0003797862263862537,
      "loss": 3.0865,
      "step": 2707
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.6891459822654724,
      "learning_rate": 0.00037969762225385176,
      "loss": 3.0978,
      "step": 2708
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.6210058331489563,
      "learning_rate": 0.00037960899582492515,
      "loss": 2.9111,
      "step": 2709
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.6256481409072876,
      "learning_rate": 0.00037952034711470953,
      "loss": 2.9536,
      "step": 2710
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.7178635001182556,
      "learning_rate": 0.00037943167613844477,
      "loss": 3.0412,
      "step": 2711
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.6076297760009766,
      "learning_rate": 0.0003793429829113743,
      "loss": 2.8641,
      "step": 2712
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.6636669039726257,
      "learning_rate": 0.0003792542674487456,
      "loss": 3.067,
      "step": 2713
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.6460772156715393,
      "learning_rate": 0.00037916552976580993,
      "loss": 2.9621,
      "step": 2714
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.6559348702430725,
      "learning_rate": 0.00037907676987782225,
      "loss": 2.8962,
      "step": 2715
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.6497954726219177,
      "learning_rate": 0.0003789879878000415,
      "loss": 2.8928,
      "step": 2716
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.6319075226783752,
      "learning_rate": 0.00037889918354773016,
      "loss": 2.8308,
      "step": 2717
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.6221721768379211,
      "learning_rate": 0.00037881035713615495,
      "loss": 2.9164,
      "step": 2718
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.5950340628623962,
      "learning_rate": 0.000378721508580586,
      "loss": 2.7621,
      "step": 2719
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.692423939704895,
      "learning_rate": 0.00037863263789629753,
      "loss": 2.9709,
      "step": 2720
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.673092782497406,
      "learning_rate": 0.00037854374509856733,
      "loss": 2.9535,
      "step": 2721
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.648454487323761,
      "learning_rate": 0.00037845483020267713,
      "loss": 3.0949,
      "step": 2722
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.6429960131645203,
      "learning_rate": 0.00037836589322391234,
      "loss": 2.8633,
      "step": 2723
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.6607309579849243,
      "learning_rate": 0.00037827693417756254,
      "loss": 2.9525,
      "step": 2724
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.6319472193717957,
      "learning_rate": 0.00037818795307892057,
      "loss": 3.0162,
      "step": 2725
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.6336129903793335,
      "learning_rate": 0.0003780989499432833,
      "loss": 2.9056,
      "step": 2726
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.6102782487869263,
      "learning_rate": 0.0003780099247859516,
      "loss": 2.9499,
      "step": 2727
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.6723735332489014,
      "learning_rate": 0.0003779208776222298,
      "loss": 2.9328,
      "step": 2728
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.5914614796638489,
      "learning_rate": 0.00037783180846742617,
      "loss": 2.9727,
      "step": 2729
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.6919203400611877,
      "learning_rate": 0.0003777427173368526,
      "loss": 2.991,
      "step": 2730
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.5991362929344177,
      "learning_rate": 0.000377653604245825,
      "loss": 3.0523,
      "step": 2731
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.6287662386894226,
      "learning_rate": 0.00037756446920966303,
      "loss": 2.9205,
      "step": 2732
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.6542381644248962,
      "learning_rate": 0.00037747531224368994,
      "loss": 3.0056,
      "step": 2733
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.6352069973945618,
      "learning_rate": 0.0003773861333632328,
      "loss": 3.0837,
      "step": 2734
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.6382330656051636,
      "learning_rate": 0.00037729693258362263,
      "loss": 2.9261,
      "step": 2735
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.6730591654777527,
      "learning_rate": 0.00037720770992019393,
      "loss": 2.9982,
      "step": 2736
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.647857129573822,
      "learning_rate": 0.0003771184653882852,
      "loss": 3.0203,
      "step": 2737
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.6467387080192566,
      "learning_rate": 0.00037702919900323856,
      "loss": 2.9923,
      "step": 2738
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.6965978741645813,
      "learning_rate": 0.0003769399107804,
      "loss": 2.9235,
      "step": 2739
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.6008678674697876,
      "learning_rate": 0.0003768506007351191,
      "loss": 2.9561,
      "step": 2740
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.6555572748184204,
      "learning_rate": 0.00037676126888274943,
      "loss": 2.9629,
      "step": 2741
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.6388373374938965,
      "learning_rate": 0.0003766719152386481,
      "loss": 2.9533,
      "step": 2742
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.6523964405059814,
      "learning_rate": 0.00037658253981817603,
      "loss": 2.9285,
      "step": 2743
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.5879881978034973,
      "learning_rate": 0.00037649314263669785,
      "loss": 3.0382,
      "step": 2744
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.6263067126274109,
      "learning_rate": 0.000376403723709582,
      "loss": 2.9438,
      "step": 2745
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.6467015743255615,
      "learning_rate": 0.0003763142830522007,
      "loss": 2.9428,
      "step": 2746
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.743547797203064,
      "learning_rate": 0.00037622482067992976,
      "loss": 3.0655,
      "step": 2747
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.6303271055221558,
      "learning_rate": 0.0003761353366081488,
      "loss": 3.1021,
      "step": 2748
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.6194095611572266,
      "learning_rate": 0.00037604583085224126,
      "loss": 3.0777,
      "step": 2749
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.6366248726844788,
      "learning_rate": 0.0003759563034275941,
      "loss": 3.0102,
      "step": 2750
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.7140264511108398,
      "learning_rate": 0.0003758667543495982,
      "loss": 3.098,
      "step": 2751
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.6370211839675903,
      "learning_rate": 0.000375777183633648,
      "loss": 3.1617,
      "step": 2752
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.5810704827308655,
      "learning_rate": 0.00037568759129514185,
      "loss": 2.8654,
      "step": 2753
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.6670437455177307,
      "learning_rate": 0.0003755979773494816,
      "loss": 2.9217,
      "step": 2754
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.643210232257843,
      "learning_rate": 0.000375508341812073,
      "loss": 3.0691,
      "step": 2755
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.6111137270927429,
      "learning_rate": 0.00037541868469832547,
      "loss": 2.9341,
      "step": 2756
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.6118422150611877,
      "learning_rate": 0.00037532900602365205,
      "loss": 3.0027,
      "step": 2757
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.6543384194374084,
      "learning_rate": 0.00037523930580346955,
      "loss": 3.0235,
      "step": 2758
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.7127813696861267,
      "learning_rate": 0.00037514958405319846,
      "loss": 3.0921,
      "step": 2759
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.6464347839355469,
      "learning_rate": 0.00037505984078826303,
      "loss": 2.9679,
      "step": 2760
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.6124559640884399,
      "learning_rate": 0.0003749700760240912,
      "loss": 2.9482,
      "step": 2761
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.6466760039329529,
      "learning_rate": 0.0003748802897761144,
      "loss": 2.9372,
      "step": 2762
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.6778368353843689,
      "learning_rate": 0.0003747904820597682,
      "loss": 2.9176,
      "step": 2763
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.6606308221817017,
      "learning_rate": 0.00037470065289049135,
      "loss": 2.9821,
      "step": 2764
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.636673629283905,
      "learning_rate": 0.0003746108022837266,
      "loss": 3.019,
      "step": 2765
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.6392419934272766,
      "learning_rate": 0.0003745209302549204,
      "loss": 2.914,
      "step": 2766
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.6600818037986755,
      "learning_rate": 0.0003744310368195227,
      "loss": 2.9335,
      "step": 2767
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.6459798812866211,
      "learning_rate": 0.0003743411219929872,
      "loss": 2.9052,
      "step": 2768
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.6506227850914001,
      "learning_rate": 0.0003742511857907713,
      "loss": 2.9777,
      "step": 2769
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.6450899243354797,
      "learning_rate": 0.0003741612282283362,
      "loss": 3.0344,
      "step": 2770
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.6581892967224121,
      "learning_rate": 0.0003740712493211466,
      "loss": 2.9314,
      "step": 2771
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.6433488130569458,
      "learning_rate": 0.0003739812490846708,
      "loss": 2.9674,
      "step": 2772
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.5852978229522705,
      "learning_rate": 0.000373891227534381,
      "loss": 2.8127,
      "step": 2773
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.6278674006462097,
      "learning_rate": 0.0003738011846857529,
      "loss": 2.9468,
      "step": 2774
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.6691103577613831,
      "learning_rate": 0.000373711120554266,
      "loss": 3.0852,
      "step": 2775
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.6646290421485901,
      "learning_rate": 0.0003736210351554032,
      "loss": 3.0679,
      "step": 2776
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.6729357838630676,
      "learning_rate": 0.0003735309285046513,
      "loss": 3.1096,
      "step": 2777
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.6052396297454834,
      "learning_rate": 0.0003734408006175008,
      "loss": 2.9033,
      "step": 2778
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.668437123298645,
      "learning_rate": 0.00037335065150944556,
      "loss": 2.9781,
      "step": 2779
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.6455118656158447,
      "learning_rate": 0.0003732604811959834,
      "loss": 3.0769,
      "step": 2780
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.6235284805297852,
      "learning_rate": 0.00037317028969261547,
      "loss": 2.9206,
      "step": 2781
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.6382322907447815,
      "learning_rate": 0.00037308007701484684,
      "loss": 2.9328,
      "step": 2782
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.629676103591919,
      "learning_rate": 0.00037298984317818613,
      "loss": 3.1196,
      "step": 2783
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.6092097759246826,
      "learning_rate": 0.00037289958819814557,
      "loss": 2.9659,
      "step": 2784
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.6397905349731445,
      "learning_rate": 0.00037280931209024106,
      "loss": 3.0594,
      "step": 2785
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.6544755101203918,
      "learning_rate": 0.000372719014869992,
      "loss": 2.9051,
      "step": 2786
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.6789075136184692,
      "learning_rate": 0.0003726286965529216,
      "loss": 2.9559,
      "step": 2787
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.6459134221076965,
      "learning_rate": 0.00037253835715455664,
      "loss": 3.0105,
      "step": 2788
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.613210916519165,
      "learning_rate": 0.00037244799669042754,
      "loss": 2.9961,
      "step": 2789
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.6203604936599731,
      "learning_rate": 0.00037235761517606826,
      "loss": 2.9417,
      "step": 2790
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.7005742788314819,
      "learning_rate": 0.00037226721262701633,
      "loss": 2.9434,
      "step": 2791
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.6464757323265076,
      "learning_rate": 0.00037217678905881324,
      "loss": 3.028,
      "step": 2792
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.5922912955284119,
      "learning_rate": 0.00037208634448700374,
      "loss": 2.8584,
      "step": 2793
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.6276248693466187,
      "learning_rate": 0.00037199587892713617,
      "loss": 2.9468,
      "step": 2794
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.6527490019798279,
      "learning_rate": 0.0003719053923947628,
      "loss": 2.9028,
      "step": 2795
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.6122103929519653,
      "learning_rate": 0.0003718148849054391,
      "loss": 2.9011,
      "step": 2796
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.6530919671058655,
      "learning_rate": 0.00037172435647472466,
      "loss": 2.9767,
      "step": 2797
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.653990626335144,
      "learning_rate": 0.0003716338071181821,
      "loss": 3.0977,
      "step": 2798
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.5988401770591736,
      "learning_rate": 0.00037154323685137803,
      "loss": 3.0154,
      "step": 2799
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.6411080956459045,
      "learning_rate": 0.0003714526456898824,
      "loss": 3.0168,
      "step": 2800
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.627923846244812,
      "learning_rate": 0.000371362033649269,
      "loss": 2.9644,
      "step": 2801
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.5996809005737305,
      "learning_rate": 0.00037127140074511516,
      "loss": 2.9888,
      "step": 2802
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.6422410607337952,
      "learning_rate": 0.0003711807469930016,
      "loss": 2.9727,
      "step": 2803
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.6142440438270569,
      "learning_rate": 0.0003710900724085128,
      "loss": 2.9491,
      "step": 2804
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.5752248167991638,
      "learning_rate": 0.00037099937700723663,
      "loss": 2.8412,
      "step": 2805
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.588208794593811,
      "learning_rate": 0.00037090866080476495,
      "loss": 2.9793,
      "step": 2806
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.5941091775894165,
      "learning_rate": 0.00037081792381669275,
      "loss": 2.9595,
      "step": 2807
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.6568230986595154,
      "learning_rate": 0.0003707271660586188,
      "loss": 2.9673,
      "step": 2808
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.6442082524299622,
      "learning_rate": 0.0003706363875461454,
      "loss": 3.0246,
      "step": 2809
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.6723203659057617,
      "learning_rate": 0.00037054558829487837,
      "loss": 3.0124,
      "step": 2810
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.6235777139663696,
      "learning_rate": 0.00037045476832042734,
      "loss": 2.8781,
      "step": 2811
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.6784981489181519,
      "learning_rate": 0.00037036392763840513,
      "loss": 2.9854,
      "step": 2812
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.5888157486915588,
      "learning_rate": 0.00037027306626442847,
      "loss": 2.9311,
      "step": 2813
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.6569722890853882,
      "learning_rate": 0.0003701821842141173,
      "loss": 3.0395,
      "step": 2814
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.6088583469390869,
      "learning_rate": 0.0003700912815030955,
      "loss": 2.9725,
      "step": 2815
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.615674614906311,
      "learning_rate": 0.0003700003581469901,
      "loss": 2.9796,
      "step": 2816
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.6363441944122314,
      "learning_rate": 0.000369909414161432,
      "loss": 3.0292,
      "step": 2817
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.6967085599899292,
      "learning_rate": 0.0003698184495620555,
      "loss": 3.0772,
      "step": 2818
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.6307243704795837,
      "learning_rate": 0.00036972746436449844,
      "loss": 3.0269,
      "step": 2819
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.6332827806472778,
      "learning_rate": 0.0003696364585844023,
      "loss": 3.0495,
      "step": 2820
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.620093822479248,
      "learning_rate": 0.000369545432237412,
      "loss": 3.0299,
      "step": 2821
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.6342968940734863,
      "learning_rate": 0.0003694543853391759,
      "loss": 2.8247,
      "step": 2822
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.6283955574035645,
      "learning_rate": 0.0003693633179053462,
      "loss": 2.8789,
      "step": 2823
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.6296131014823914,
      "learning_rate": 0.00036927222995157837,
      "loss": 3.0347,
      "step": 2824
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.683546245098114,
      "learning_rate": 0.0003691811214935315,
      "loss": 2.9105,
      "step": 2825
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.6680705547332764,
      "learning_rate": 0.00036908999254686817,
      "loss": 3.071,
      "step": 2826
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.6890556216239929,
      "learning_rate": 0.00036899884312725453,
      "loss": 3.0365,
      "step": 2827
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.6296967267990112,
      "learning_rate": 0.0003689076732503601,
      "loss": 3.0627,
      "step": 2828
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.6504545211791992,
      "learning_rate": 0.0003688164829318583,
      "loss": 3.0021,
      "step": 2829
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.6342648267745972,
      "learning_rate": 0.00036872527218742557,
      "loss": 2.8779,
      "step": 2830
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.6886934638023376,
      "learning_rate": 0.00036863404103274215,
      "loss": 2.9539,
      "step": 2831
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.591508150100708,
      "learning_rate": 0.00036854278948349184,
      "loss": 2.9813,
      "step": 2832
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.5891197919845581,
      "learning_rate": 0.0003684515175553616,
      "loss": 2.9868,
      "step": 2833
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.6907852292060852,
      "learning_rate": 0.00036836022526404237,
      "loss": 3.0363,
      "step": 2834
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.5861983299255371,
      "learning_rate": 0.0003682689126252283,
      "loss": 2.9732,
      "step": 2835
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.6394719481468201,
      "learning_rate": 0.0003681775796546171,
      "loss": 3.0144,
      "step": 2836
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.6587927341461182,
      "learning_rate": 0.0003680862263679097,
      "loss": 2.885,
      "step": 2837
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.6298441886901855,
      "learning_rate": 0.00036799485278081126,
      "loss": 3.0649,
      "step": 2838
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.5987547636032104,
      "learning_rate": 0.0003679034589090296,
      "loss": 2.991,
      "step": 2839
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.5759024620056152,
      "learning_rate": 0.0003678120447682765,
      "loss": 2.8089,
      "step": 2840
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.6297842264175415,
      "learning_rate": 0.0003677206103742671,
      "loss": 3.0447,
      "step": 2841
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.6047772765159607,
      "learning_rate": 0.0003676291557427201,
      "loss": 2.9203,
      "step": 2842
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.6157507300376892,
      "learning_rate": 0.0003675376808893575,
      "loss": 3.0813,
      "step": 2843
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.614856481552124,
      "learning_rate": 0.00036744618582990496,
      "loss": 2.8643,
      "step": 2844
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.6376237869262695,
      "learning_rate": 0.00036735467058009153,
      "loss": 3.0761,
      "step": 2845
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.6637969613075256,
      "learning_rate": 0.0003672631351556498,
      "loss": 2.9502,
      "step": 2846
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.6458167433738708,
      "learning_rate": 0.0003671715795723156,
      "loss": 3.0196,
      "step": 2847
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.7102057337760925,
      "learning_rate": 0.00036708000384582854,
      "loss": 2.8562,
      "step": 2848
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.6966668367385864,
      "learning_rate": 0.00036698840799193153,
      "loss": 3.1251,
      "step": 2849
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.6455587148666382,
      "learning_rate": 0.00036689679202637094,
      "loss": 3.0419,
      "step": 2850
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.5895678400993347,
      "learning_rate": 0.0003668051559648965,
      "loss": 3.0373,
      "step": 2851
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.7195218205451965,
      "learning_rate": 0.00036671349982326173,
      "loss": 2.904,
      "step": 2852
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.6860653758049011,
      "learning_rate": 0.00036662182361722333,
      "loss": 2.9051,
      "step": 2853
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.6109091639518738,
      "learning_rate": 0.00036653012736254136,
      "loss": 3.0384,
      "step": 2854
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.6579028367996216,
      "learning_rate": 0.0003664384110749797,
      "loss": 3.0078,
      "step": 2855
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.637737512588501,
      "learning_rate": 0.00036634667477030515,
      "loss": 2.9665,
      "step": 2856
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.664143443107605,
      "learning_rate": 0.0003662549184642885,
      "loss": 2.9852,
      "step": 2857
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.6065281629562378,
      "learning_rate": 0.00036616314217270354,
      "loss": 3.004,
      "step": 2858
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.5704931616783142,
      "learning_rate": 0.00036607134591132783,
      "loss": 2.9348,
      "step": 2859
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.638206958770752,
      "learning_rate": 0.00036597952969594217,
      "loss": 3.0801,
      "step": 2860
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.6344573497772217,
      "learning_rate": 0.0003658876935423307,
      "loss": 3.0245,
      "step": 2861
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.6462388038635254,
      "learning_rate": 0.00036579583746628125,
      "loss": 3.0109,
      "step": 2862
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.6395873427391052,
      "learning_rate": 0.00036570396148358496,
      "loss": 2.98,
      "step": 2863
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.6641700863838196,
      "learning_rate": 0.00036561206561003636,
      "loss": 3.0309,
      "step": 2864
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.6774070858955383,
      "learning_rate": 0.00036552014986143336,
      "loss": 2.9748,
      "step": 2865
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.6050693392753601,
      "learning_rate": 0.0003654282142535773,
      "loss": 3.021,
      "step": 2866
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.5907654762268066,
      "learning_rate": 0.0003653362588022732,
      "loss": 2.9617,
      "step": 2867
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.6430883407592773,
      "learning_rate": 0.0003652442835233291,
      "loss": 2.8914,
      "step": 2868
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.6865313053131104,
      "learning_rate": 0.0003651522884325565,
      "loss": 2.8622,
      "step": 2869
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.5903727412223816,
      "learning_rate": 0.0003650602735457706,
      "loss": 2.8788,
      "step": 2870
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.604966402053833,
      "learning_rate": 0.0003649682388787898,
      "loss": 2.9349,
      "step": 2871
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.621342658996582,
      "learning_rate": 0.000364876184447436,
      "loss": 2.896,
      "step": 2872
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.6500858068466187,
      "learning_rate": 0.0003647841102675342,
      "loss": 2.9337,
      "step": 2873
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.6787153482437134,
      "learning_rate": 0.0003646920163549132,
      "loss": 2.9878,
      "step": 2874
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.6854770183563232,
      "learning_rate": 0.00036459990272540507,
      "loss": 2.9872,
      "step": 2875
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.629781186580658,
      "learning_rate": 0.00036450776939484495,
      "loss": 3.01,
      "step": 2876
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.6077507138252258,
      "learning_rate": 0.0003644156163790719,
      "loss": 3.0757,
      "step": 2877
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.6330881714820862,
      "learning_rate": 0.00036432344369392795,
      "loss": 2.933,
      "step": 2878
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.6448914408683777,
      "learning_rate": 0.0003642312513552586,
      "loss": 3.0071,
      "step": 2879
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.637868344783783,
      "learning_rate": 0.0003641390393789129,
      "loss": 2.873,
      "step": 2880
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.6241669058799744,
      "learning_rate": 0.00036404680778074315,
      "loss": 2.9559,
      "step": 2881
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.6560571789741516,
      "learning_rate": 0.00036395455657660505,
      "loss": 2.977,
      "step": 2882
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.6537567973136902,
      "learning_rate": 0.0003638622857823575,
      "loss": 3.0441,
      "step": 2883
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.6268872618675232,
      "learning_rate": 0.000363769995413863,
      "loss": 3.0449,
      "step": 2884
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.7113938331604004,
      "learning_rate": 0.00036367768548698745,
      "loss": 3.0087,
      "step": 2885
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.6181495785713196,
      "learning_rate": 0.0003635853560175998,
      "loss": 3.0156,
      "step": 2886
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.616899847984314,
      "learning_rate": 0.0003634930070215727,
      "loss": 3.0769,
      "step": 2887
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.6438397765159607,
      "learning_rate": 0.000363400638514782,
      "loss": 2.8521,
      "step": 2888
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.6911697387695312,
      "learning_rate": 0.0003633082505131069,
      "loss": 2.9885,
      "step": 2889
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.6970247626304626,
      "learning_rate": 0.0003632158430324299,
      "loss": 2.9216,
      "step": 2890
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.6338900327682495,
      "learning_rate": 0.000363123416088637,
      "loss": 2.9011,
      "step": 2891
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.6670723557472229,
      "learning_rate": 0.0003630309696976175,
      "loss": 3.0295,
      "step": 2892
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.6633889079093933,
      "learning_rate": 0.00036293850387526377,
      "loss": 2.9921,
      "step": 2893
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.8603575825691223,
      "learning_rate": 0.000362846018637472,
      "loss": 2.91,
      "step": 2894
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.6548684239387512,
      "learning_rate": 0.00036275351400014144,
      "loss": 2.8816,
      "step": 2895
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.614702045917511,
      "learning_rate": 0.00036266098997917476,
      "loss": 2.9164,
      "step": 2896
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.6150608658790588,
      "learning_rate": 0.00036256844659047767,
      "loss": 2.99,
      "step": 2897
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.6583741903305054,
      "learning_rate": 0.0003624758838499596,
      "loss": 3.0739,
      "step": 2898
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.6326345801353455,
      "learning_rate": 0.0003623833017735333,
      "loss": 2.9213,
      "step": 2899
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.6099238395690918,
      "learning_rate": 0.00036229070037711446,
      "loss": 2.7931,
      "step": 2900
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.6736881136894226,
      "learning_rate": 0.0003621980796766225,
      "loss": 3.0205,
      "step": 2901
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.6013690829277039,
      "learning_rate": 0.0003621054396879798,
      "loss": 2.8977,
      "step": 2902
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.6520102620124817,
      "learning_rate": 0.00036201278042711257,
      "loss": 3.0553,
      "step": 2903
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.5911760330200195,
      "learning_rate": 0.0003619201019099497,
      "loss": 3.0506,
      "step": 2904
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.7234282493591309,
      "learning_rate": 0.0003618274041524239,
      "loss": 2.9953,
      "step": 2905
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.6746459007263184,
      "learning_rate": 0.00036173468717047086,
      "loss": 3.0709,
      "step": 2906
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.638144314289093,
      "learning_rate": 0.0003616419509800297,
      "loss": 2.9854,
      "step": 2907
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.6400108933448792,
      "learning_rate": 0.00036154919559704303,
      "loss": 2.8407,
      "step": 2908
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.6510490775108337,
      "learning_rate": 0.0003614564210374563,
      "loss": 2.9204,
      "step": 2909
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.5975452661514282,
      "learning_rate": 0.00036136362731721886,
      "loss": 2.9579,
      "step": 2910
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.6431906223297119,
      "learning_rate": 0.0003612708144522827,
      "loss": 3.0901,
      "step": 2911
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.6527563333511353,
      "learning_rate": 0.00036117798245860364,
      "loss": 2.902,
      "step": 2912
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.6532744765281677,
      "learning_rate": 0.0003610851313521405,
      "loss": 3.0414,
      "step": 2913
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.6313612461090088,
      "learning_rate": 0.00036099226114885545,
      "loss": 2.972,
      "step": 2914
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.6565082669258118,
      "learning_rate": 0.000360899371864714,
      "loss": 3.087,
      "step": 2915
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.6403608918190002,
      "learning_rate": 0.00036080646351568485,
      "loss": 2.9282,
      "step": 2916
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.6174229383468628,
      "learning_rate": 0.0003607135361177401,
      "loss": 2.9017,
      "step": 2917
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.640329897403717,
      "learning_rate": 0.000360620589686855,
      "loss": 2.933,
      "step": 2918
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.6273075342178345,
      "learning_rate": 0.000360527624239008,
      "loss": 2.9369,
      "step": 2919
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.654655396938324,
      "learning_rate": 0.0003604346397901811,
      "loss": 2.9807,
      "step": 2920
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.6269595623016357,
      "learning_rate": 0.0003603416363563593,
      "loss": 2.9415,
      "step": 2921
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.660625696182251,
      "learning_rate": 0.0003602486139535311,
      "loss": 2.9635,
      "step": 2922
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.7388317584991455,
      "learning_rate": 0.000360155572597688,
      "loss": 2.9492,
      "step": 2923
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.621219277381897,
      "learning_rate": 0.000360062512304825,
      "loss": 3.0179,
      "step": 2924
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.6770910620689392,
      "learning_rate": 0.0003599694330909401,
      "loss": 3.0333,
      "step": 2925
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.6324627995491028,
      "learning_rate": 0.00035987633497203483,
      "loss": 2.7938,
      "step": 2926
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.6721035838127136,
      "learning_rate": 0.00035978321796411374,
      "loss": 2.9541,
      "step": 2927
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.6578993201255798,
      "learning_rate": 0.00035969008208318483,
      "loss": 2.954,
      "step": 2928
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.6193016171455383,
      "learning_rate": 0.0003595969273452591,
      "loss": 2.8612,
      "step": 2929
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.5987785458564758,
      "learning_rate": 0.00035950375376635104,
      "loss": 3.0594,
      "step": 2930
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.6373924016952515,
      "learning_rate": 0.00035941056136247826,
      "loss": 2.9387,
      "step": 2931
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.787034273147583,
      "learning_rate": 0.0003593173501496616,
      "loss": 2.9745,
      "step": 2932
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.68941330909729,
      "learning_rate": 0.00035922412014392503,
      "loss": 2.9819,
      "step": 2933
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.609623908996582,
      "learning_rate": 0.0003591308713612961,
      "loss": 3.0903,
      "step": 2934
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.6609463691711426,
      "learning_rate": 0.0003590376038178051,
      "loss": 2.9401,
      "step": 2935
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.6537840962409973,
      "learning_rate": 0.00035894431752948603,
      "loss": 3.015,
      "step": 2936
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.6768396496772766,
      "learning_rate": 0.0003588510125123757,
      "loss": 3.0396,
      "step": 2937
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.5948951244354248,
      "learning_rate": 0.00035875768878251444,
      "loss": 3.0476,
      "step": 2938
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.6745067834854126,
      "learning_rate": 0.0003586643463559457,
      "loss": 3.0193,
      "step": 2939
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.6417799592018127,
      "learning_rate": 0.000358570985248716,
      "loss": 3.1131,
      "step": 2940
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.6204367876052856,
      "learning_rate": 0.00035847760547687535,
      "loss": 2.8961,
      "step": 2941
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.6753907203674316,
      "learning_rate": 0.0003583842070564768,
      "loss": 3.0242,
      "step": 2942
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.6278362274169922,
      "learning_rate": 0.00035829079000357643,
      "loss": 3.0393,
      "step": 2943
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.6648320555686951,
      "learning_rate": 0.0003581973543342338,
      "loss": 2.9673,
      "step": 2944
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.6467199325561523,
      "learning_rate": 0.00035810390006451177,
      "loss": 2.9307,
      "step": 2945
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.6612059473991394,
      "learning_rate": 0.00035801042721047606,
      "loss": 3.0248,
      "step": 2946
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.5695140361785889,
      "learning_rate": 0.00035791693578819564,
      "loss": 2.8908,
      "step": 2947
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.6201608777046204,
      "learning_rate": 0.00035782342581374294,
      "loss": 3.021,
      "step": 2948
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.6690618395805359,
      "learning_rate": 0.0003577298973031933,
      "loss": 2.8458,
      "step": 2949
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.6716721057891846,
      "learning_rate": 0.0003576363502726255,
      "loss": 3.0456,
      "step": 2950
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.6642872095108032,
      "learning_rate": 0.0003575427847381212,
      "loss": 3.016,
      "step": 2951
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.5860218405723572,
      "learning_rate": 0.0003574492007157655,
      "loss": 2.9942,
      "step": 2952
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.6663722991943359,
      "learning_rate": 0.0003573555982216465,
      "loss": 2.9715,
      "step": 2953
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.6186554431915283,
      "learning_rate": 0.0003572619772718556,
      "loss": 3.135,
      "step": 2954
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.628612756729126,
      "learning_rate": 0.0003571683378824873,
      "loss": 2.8668,
      "step": 2955
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.615999162197113,
      "learning_rate": 0.00035707468006963936,
      "loss": 2.9108,
      "step": 2956
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.5980787873268127,
      "learning_rate": 0.00035698100384941257,
      "loss": 2.8929,
      "step": 2957
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.6371614336967468,
      "learning_rate": 0.0003568873092379109,
      "loss": 3.0225,
      "step": 2958
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.6133118867874146,
      "learning_rate": 0.00035679359625124174,
      "loss": 3.0187,
      "step": 2959
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.6323845386505127,
      "learning_rate": 0.00035669986490551535,
      "loss": 3.0574,
      "step": 2960
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.7117379307746887,
      "learning_rate": 0.00035660611521684516,
      "loss": 3.1152,
      "step": 2961
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.6293267607688904,
      "learning_rate": 0.0003565123472013478,
      "loss": 2.9299,
      "step": 2962
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.6271579265594482,
      "learning_rate": 0.00035641856087514337,
      "loss": 2.917,
      "step": 2963
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.6258957386016846,
      "learning_rate": 0.0003563247562543545,
      "loss": 2.8912,
      "step": 2964
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.5985299348831177,
      "learning_rate": 0.00035623093335510736,
      "loss": 2.8794,
      "step": 2965
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.6422827839851379,
      "learning_rate": 0.0003561370921935313,
      "loss": 2.8429,
      "step": 2966
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.6560912728309631,
      "learning_rate": 0.00035604323278575856,
      "loss": 2.9391,
      "step": 2967
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.6512738466262817,
      "learning_rate": 0.0003559493551479249,
      "loss": 3.0303,
      "step": 2968
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.6719163656234741,
      "learning_rate": 0.00035585545929616867,
      "loss": 2.9309,
      "step": 2969
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.6587206125259399,
      "learning_rate": 0.0003557615452466319,
      "loss": 3.1122,
      "step": 2970
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.6222382187843323,
      "learning_rate": 0.0003556676130154594,
      "loss": 2.8867,
      "step": 2971
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.6145523190498352,
      "learning_rate": 0.00035557366261879916,
      "loss": 2.8835,
      "step": 2972
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.58514004945755,
      "learning_rate": 0.0003554796940728024,
      "loss": 2.8696,
      "step": 2973
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.6586902141571045,
      "learning_rate": 0.0003553857073936235,
      "loss": 3.1025,
      "step": 2974
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.6333884596824646,
      "learning_rate": 0.00035529170259741973,
      "loss": 2.8925,
      "step": 2975
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.7280422449111938,
      "learning_rate": 0.00035519767970035147,
      "loss": 2.9297,
      "step": 2976
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.6402463316917419,
      "learning_rate": 0.0003551036387185827,
      "loss": 2.8854,
      "step": 2977
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.6562309265136719,
      "learning_rate": 0.00035500957966827994,
      "loss": 3.1106,
      "step": 2978
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.6611832976341248,
      "learning_rate": 0.000354915502565613,
      "loss": 2.9902,
      "step": 2979
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.6965378522872925,
      "learning_rate": 0.000354821407426755,
      "loss": 2.925,
      "step": 2980
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.6176499724388123,
      "learning_rate": 0.00035472729426788176,
      "loss": 3.0143,
      "step": 2981
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.6043645739555359,
      "learning_rate": 0.0003546331631051726,
      "loss": 2.8319,
      "step": 2982
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.6519999504089355,
      "learning_rate": 0.0003545390139548096,
      "loss": 2.9504,
      "step": 2983
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.6346640586853027,
      "learning_rate": 0.0003544448468329783,
      "loss": 3.0372,
      "step": 2984
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.6485238671302795,
      "learning_rate": 0.0003543506617558669,
      "loss": 2.9882,
      "step": 2985
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.671390175819397,
      "learning_rate": 0.0003542564587396671,
      "loss": 2.9517,
      "step": 2986
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.6288408041000366,
      "learning_rate": 0.0003541622378005733,
      "loss": 2.9351,
      "step": 2987
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.6144546866416931,
      "learning_rate": 0.0003540679989547833,
      "loss": 2.8568,
      "step": 2988
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.705268919467926,
      "learning_rate": 0.00035397374221849786,
      "loss": 3.1271,
      "step": 2989
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.7689818739891052,
      "learning_rate": 0.00035387946760792073,
      "loss": 3.1226,
      "step": 2990
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.6434547901153564,
      "learning_rate": 0.00035378517513925885,
      "loss": 2.8876,
      "step": 2991
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.7220054864883423,
      "learning_rate": 0.0003536908648287222,
      "loss": 3.0388,
      "step": 2992
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.5871808528900146,
      "learning_rate": 0.0003535965366925238,
      "loss": 3.0511,
      "step": 2993
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.5887243747711182,
      "learning_rate": 0.0003535021907468797,
      "loss": 2.7843,
      "step": 2994
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.6233441829681396,
      "learning_rate": 0.0003534078270080091,
      "loss": 2.9412,
      "step": 2995
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.6407126188278198,
      "learning_rate": 0.00035331344549213435,
      "loss": 2.9144,
      "step": 2996
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.6708391308784485,
      "learning_rate": 0.0003532190462154805,
      "loss": 2.9916,
      "step": 2997
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.6102462410926819,
      "learning_rate": 0.000353124629194276,
      "loss": 2.9309,
      "step": 2998
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.6780404448509216,
      "learning_rate": 0.00035303019444475224,
      "loss": 2.9937,
      "step": 2999
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.659808874130249,
      "learning_rate": 0.0003529357419831437,
      "loss": 2.9603,
      "step": 3000
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.6589910984039307,
      "learning_rate": 0.00035284127182568767,
      "loss": 2.9127,
      "step": 3001
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.6079039573669434,
      "learning_rate": 0.0003527467839886248,
      "loss": 2.8768,
      "step": 3002
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.6181300282478333,
      "learning_rate": 0.00035265227848819866,
      "loss": 3.0579,
      "step": 3003
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.5723220109939575,
      "learning_rate": 0.0003525577553406557,
      "loss": 3.0155,
      "step": 3004
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.663277268409729,
      "learning_rate": 0.0003524632145622457,
      "loss": 2.9681,
      "step": 3005
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.6407107710838318,
      "learning_rate": 0.0003523686561692213,
      "loss": 3.0204,
      "step": 3006
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.5770390629768372,
      "learning_rate": 0.00035227408017783813,
      "loss": 2.9023,
      "step": 3007
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.6325090527534485,
      "learning_rate": 0.0003521794866043549,
      "loss": 2.9948,
      "step": 3008
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.6281672716140747,
      "learning_rate": 0.0003520848754650333,
      "loss": 2.9872,
      "step": 3009
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.6207146644592285,
      "learning_rate": 0.00035199024677613826,
      "loss": 3.0937,
      "step": 3010
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.5553978681564331,
      "learning_rate": 0.00035189560055393744,
      "loss": 2.9391,
      "step": 3011
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.6615292429924011,
      "learning_rate": 0.0003518009368147015,
      "loss": 3.0466,
      "step": 3012
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.5777962803840637,
      "learning_rate": 0.00035170625557470433,
      "loss": 2.9797,
      "step": 3013
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.6277247667312622,
      "learning_rate": 0.0003516115568502228,
      "loss": 2.947,
      "step": 3014
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.6441367268562317,
      "learning_rate": 0.00035151684065753665,
      "loss": 2.9497,
      "step": 3015
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.7116608619689941,
      "learning_rate": 0.00035142210701292873,
      "loss": 3.0674,
      "step": 3016
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.6522893309593201,
      "learning_rate": 0.0003513273559326848,
      "loss": 2.9054,
      "step": 3017
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.639404296875,
      "learning_rate": 0.00035123258743309375,
      "loss": 2.8814,
      "step": 3018
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.6506860256195068,
      "learning_rate": 0.0003511378015304473,
      "loss": 3.0962,
      "step": 3019
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.6651582717895508,
      "learning_rate": 0.00035104299824104026,
      "loss": 2.947,
      "step": 3020
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.6435773968696594,
      "learning_rate": 0.0003509481775811705,
      "loss": 2.983,
      "step": 3021
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.6828753352165222,
      "learning_rate": 0.0003508533395671386,
      "loss": 2.991,
      "step": 3022
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.6245230436325073,
      "learning_rate": 0.00035075848421524847,
      "loss": 2.9708,
      "step": 3023
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.6516559720039368,
      "learning_rate": 0.0003506636115418069,
      "loss": 3.0572,
      "step": 3024
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.6398271918296814,
      "learning_rate": 0.0003505687215631235,
      "loss": 3.0466,
      "step": 3025
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.6806945204734802,
      "learning_rate": 0.0003504738142955109,
      "loss": 3.0268,
      "step": 3026
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.6238162517547607,
      "learning_rate": 0.0003503788897552848,
      "loss": 2.9984,
      "step": 3027
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.6684227585792542,
      "learning_rate": 0.00035028394795876396,
      "loss": 3.0799,
      "step": 3028
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.6127784848213196,
      "learning_rate": 0.00035018898892226984,
      "loss": 2.9351,
      "step": 3029
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.6523650884628296,
      "learning_rate": 0.00035009401266212706,
      "loss": 2.9767,
      "step": 3030
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.6059260368347168,
      "learning_rate": 0.00034999901919466304,
      "loss": 2.8256,
      "step": 3031
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.6095693707466125,
      "learning_rate": 0.00034990400853620836,
      "loss": 3.0207,
      "step": 3032
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.6676154136657715,
      "learning_rate": 0.00034980898070309643,
      "loss": 2.9627,
      "step": 3033
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.6545964479446411,
      "learning_rate": 0.0003497139357116637,
      "loss": 2.9087,
      "step": 3034
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.652844250202179,
      "learning_rate": 0.00034961887357824934,
      "loss": 2.9678,
      "step": 3035
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.6359686851501465,
      "learning_rate": 0.0003495237943191957,
      "loss": 2.9121,
      "step": 3036
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.6129885911941528,
      "learning_rate": 0.00034942869795084815,
      "loss": 3.0005,
      "step": 3037
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.6195231080055237,
      "learning_rate": 0.0003493335844895547,
      "loss": 2.9078,
      "step": 3038
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.6299304366111755,
      "learning_rate": 0.00034923845395166655,
      "loss": 3.0757,
      "step": 3039
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.6043664813041687,
      "learning_rate": 0.00034914330635353765,
      "loss": 2.9481,
      "step": 3040
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.624266505241394,
      "learning_rate": 0.00034904814171152497,
      "loss": 3.0052,
      "step": 3041
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.6743258237838745,
      "learning_rate": 0.00034895296004198854,
      "loss": 2.933,
      "step": 3042
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.651587724685669,
      "learning_rate": 0.0003488577613612911,
      "loss": 2.9848,
      "step": 3043
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.6255931854248047,
      "learning_rate": 0.0003487625456857984,
      "loss": 2.9153,
      "step": 3044
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.6145180463790894,
      "learning_rate": 0.00034866731303187916,
      "loss": 3.0086,
      "step": 3045
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.6332149505615234,
      "learning_rate": 0.00034857206341590497,
      "loss": 2.8676,
      "step": 3046
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.6537582278251648,
      "learning_rate": 0.00034847679685425024,
      "loss": 3.0646,
      "step": 3047
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.6598392128944397,
      "learning_rate": 0.00034838151336329267,
      "loss": 3.0847,
      "step": 3048
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.645133912563324,
      "learning_rate": 0.0003482862129594123,
      "loss": 2.9489,
      "step": 3049
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.611183762550354,
      "learning_rate": 0.00034819089565899246,
      "loss": 2.9024,
      "step": 3050
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.6133957505226135,
      "learning_rate": 0.00034809556147841935,
      "loss": 3.0227,
      "step": 3051
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.628145158290863,
      "learning_rate": 0.0003480002104340821,
      "loss": 3.0056,
      "step": 3052
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.6583670973777771,
      "learning_rate": 0.0003479048425423725,
      "loss": 3.0627,
      "step": 3053
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.7333709597587585,
      "learning_rate": 0.0003478094578196854,
      "loss": 2.8867,
      "step": 3054
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.6008195877075195,
      "learning_rate": 0.00034771405628241867,
      "loss": 3.0066,
      "step": 3055
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.5937952995300293,
      "learning_rate": 0.00034761863794697287,
      "loss": 3.0278,
      "step": 3056
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.6457722187042236,
      "learning_rate": 0.00034752320282975145,
      "loss": 2.9304,
      "step": 3057
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.6716176867485046,
      "learning_rate": 0.00034742775094716093,
      "loss": 3.0258,
      "step": 3058
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.6114767789840698,
      "learning_rate": 0.00034733228231561056,
      "loss": 2.8543,
      "step": 3059
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.6047925353050232,
      "learning_rate": 0.00034723679695151244,
      "loss": 3.0495,
      "step": 3060
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.6529095768928528,
      "learning_rate": 0.00034714129487128166,
      "loss": 2.9601,
      "step": 3061
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.6648314595222473,
      "learning_rate": 0.00034704577609133614,
      "loss": 2.9968,
      "step": 3062
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.6293418407440186,
      "learning_rate": 0.00034695024062809666,
      "loss": 2.994,
      "step": 3063
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.6096731424331665,
      "learning_rate": 0.0003468546884979868,
      "loss": 2.8882,
      "step": 3064
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.617557942867279,
      "learning_rate": 0.0003467591197174332,
      "loss": 2.8251,
      "step": 3065
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.6802918910980225,
      "learning_rate": 0.00034666353430286534,
      "loss": 2.8683,
      "step": 3066
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.6440491080284119,
      "learning_rate": 0.0003465679322707152,
      "loss": 3.0705,
      "step": 3067
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.6609324216842651,
      "learning_rate": 0.00034647231363741797,
      "loss": 2.8978,
      "step": 3068
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.6592904925346375,
      "learning_rate": 0.00034637667841941154,
      "loss": 3.0642,
      "step": 3069
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.6162716746330261,
      "learning_rate": 0.000346281026633137,
      "loss": 2.9648,
      "step": 3070
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.6062689423561096,
      "learning_rate": 0.0003461853582950377,
      "loss": 2.9525,
      "step": 3071
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.6060361266136169,
      "learning_rate": 0.00034608967342156016,
      "loss": 2.8839,
      "step": 3072
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.6998687386512756,
      "learning_rate": 0.00034599397202915384,
      "loss": 2.9231,
      "step": 3073
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.5821869373321533,
      "learning_rate": 0.0003458982541342709,
      "loss": 2.912,
      "step": 3074
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.6124427318572998,
      "learning_rate": 0.00034580251975336636,
      "loss": 2.957,
      "step": 3075
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.5532401204109192,
      "learning_rate": 0.00034570676890289794,
      "loss": 2.9344,
      "step": 3076
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.6211714744567871,
      "learning_rate": 0.00034561100159932653,
      "loss": 3.0355,
      "step": 3077
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.6469728350639343,
      "learning_rate": 0.00034551521785911537,
      "loss": 3.0164,
      "step": 3078
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.6726168990135193,
      "learning_rate": 0.0003454194176987311,
      "loss": 2.8706,
      "step": 3079
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.6279264092445374,
      "learning_rate": 0.0003453236011346427,
      "loss": 2.9355,
      "step": 3080
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.641785204410553,
      "learning_rate": 0.0003452277681833221,
      "loss": 2.9457,
      "step": 3081
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.6328943371772766,
      "learning_rate": 0.0003451319188612443,
      "loss": 3.0562,
      "step": 3082
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.6175084710121155,
      "learning_rate": 0.0003450360531848866,
      "loss": 3.0076,
      "step": 3083
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.6082697510719299,
      "learning_rate": 0.00034494017117072973,
      "loss": 2.8859,
      "step": 3084
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.6409485340118408,
      "learning_rate": 0.00034484427283525685,
      "loss": 2.9867,
      "step": 3085
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.6237016916275024,
      "learning_rate": 0.0003447483581949538,
      "loss": 2.9982,
      "step": 3086
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.6601625084877014,
      "learning_rate": 0.0003446524272663096,
      "loss": 2.9796,
      "step": 3087
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.7021874785423279,
      "learning_rate": 0.0003445564800658159,
      "loss": 3.0181,
      "step": 3088
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.6777801513671875,
      "learning_rate": 0.00034446051660996714,
      "loss": 3.1065,
      "step": 3089
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.6471355557441711,
      "learning_rate": 0.00034436453691526035,
      "loss": 3.0278,
      "step": 3090
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.6557207107543945,
      "learning_rate": 0.00034426854099819584,
      "loss": 2.947,
      "step": 3091
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.6099721789360046,
      "learning_rate": 0.00034417252887527616,
      "loss": 2.9084,
      "step": 3092
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.6325020790100098,
      "learning_rate": 0.0003440765005630071,
      "loss": 3.0299,
      "step": 3093
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.6634006500244141,
      "learning_rate": 0.0003439804560778968,
      "loss": 2.9414,
      "step": 3094
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.6455159783363342,
      "learning_rate": 0.00034388439543645683,
      "loss": 3.1,
      "step": 3095
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.6301365494728088,
      "learning_rate": 0.0003437883186552008,
      "loss": 2.9746,
      "step": 3096
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.615868330001831,
      "learning_rate": 0.0003436922257506454,
      "loss": 2.8593,
      "step": 3097
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.6019251942634583,
      "learning_rate": 0.00034359611673931027,
      "loss": 3.0078,
      "step": 3098
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.5821208953857422,
      "learning_rate": 0.0003434999916377177,
      "loss": 3.0558,
      "step": 3099
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.641412079334259,
      "learning_rate": 0.0003434038504623926,
      "loss": 2.9987,
      "step": 3100
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.5755829215049744,
      "learning_rate": 0.00034330769322986267,
      "loss": 2.9687,
      "step": 3101
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.6117963194847107,
      "learning_rate": 0.0003432115199566586,
      "loss": 2.9527,
      "step": 3102
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.5993009805679321,
      "learning_rate": 0.00034311533065931374,
      "loss": 3.1044,
      "step": 3103
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.583659291267395,
      "learning_rate": 0.00034301912535436395,
      "loss": 3.0535,
      "step": 3104
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.6611855626106262,
      "learning_rate": 0.0003429229040583482,
      "loss": 3.0434,
      "step": 3105
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.6316136717796326,
      "learning_rate": 0.0003428266667878079,
      "loss": 2.9534,
      "step": 3106
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.6783269643783569,
      "learning_rate": 0.0003427304135592876,
      "loss": 2.9627,
      "step": 3107
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.6706042289733887,
      "learning_rate": 0.00034263414438933407,
      "loss": 3.0792,
      "step": 3108
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.6382450461387634,
      "learning_rate": 0.00034253785929449723,
      "loss": 3.035,
      "step": 3109
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.6734051704406738,
      "learning_rate": 0.00034244155829132953,
      "loss": 3.0429,
      "step": 3110
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.6234320998191833,
      "learning_rate": 0.0003423452413963864,
      "loss": 2.9364,
      "step": 3111
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.630573570728302,
      "learning_rate": 0.00034224890862622566,
      "loss": 3.0756,
      "step": 3112
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.6377266049385071,
      "learning_rate": 0.00034215255999740806,
      "loss": 2.9603,
      "step": 3113
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.630804717540741,
      "learning_rate": 0.00034205619552649715,
      "loss": 3.0911,
      "step": 3114
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.6197720766067505,
      "learning_rate": 0.00034195981523005894,
      "loss": 2.9237,
      "step": 3115
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.6189123392105103,
      "learning_rate": 0.0003418634191246624,
      "loss": 2.9938,
      "step": 3116
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.5927630662918091,
      "learning_rate": 0.0003417670072268792,
      "loss": 3.0216,
      "step": 3117
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.6153714656829834,
      "learning_rate": 0.00034167057955328365,
      "loss": 3.0587,
      "step": 3118
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.6278008222579956,
      "learning_rate": 0.0003415741361204526,
      "loss": 3.0257,
      "step": 3119
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.625957190990448,
      "learning_rate": 0.00034147767694496604,
      "loss": 2.9862,
      "step": 3120
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.6502521634101868,
      "learning_rate": 0.00034138120204340623,
      "loss": 2.9804,
      "step": 3121
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.6030773520469666,
      "learning_rate": 0.00034128471143235847,
      "loss": 3.0917,
      "step": 3122
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.6089730262756348,
      "learning_rate": 0.00034118820512841054,
      "loss": 2.9711,
      "step": 3123
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.6380786895751953,
      "learning_rate": 0.000341091683148153,
      "loss": 2.9885,
      "step": 3124
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.6960343718528748,
      "learning_rate": 0.00034099514550817904,
      "loss": 2.9733,
      "step": 3125
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.6442509293556213,
      "learning_rate": 0.00034089859222508474,
      "loss": 3.1206,
      "step": 3126
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.577269434928894,
      "learning_rate": 0.0003408020233154686,
      "loss": 2.8781,
      "step": 3127
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.6187230348587036,
      "learning_rate": 0.00034070543879593206,
      "loss": 2.877,
      "step": 3128
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.6160730123519897,
      "learning_rate": 0.00034060883868307893,
      "loss": 2.858,
      "step": 3129
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.6122987270355225,
      "learning_rate": 0.0003405122229935161,
      "loss": 2.9563,
      "step": 3130
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.6733666062355042,
      "learning_rate": 0.0003404155917438528,
      "loss": 3.0002,
      "step": 3131
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.5685908794403076,
      "learning_rate": 0.0003403189449507012,
      "loss": 2.9335,
      "step": 3132
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.5908015966415405,
      "learning_rate": 0.0003402222826306757,
      "loss": 2.9806,
      "step": 3133
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.6424357891082764,
      "learning_rate": 0.0003401256048003939,
      "loss": 2.9492,
      "step": 3134
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.6177055239677429,
      "learning_rate": 0.0003400289114764759,
      "loss": 3.0325,
      "step": 3135
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.5939059257507324,
      "learning_rate": 0.0003399322026755443,
      "loss": 3.0367,
      "step": 3136
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.6136392951011658,
      "learning_rate": 0.0003398354784142244,
      "loss": 3.0131,
      "step": 3137
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.608023464679718,
      "learning_rate": 0.00033973873870914433,
      "loss": 3.0417,
      "step": 3138
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.6261163949966431,
      "learning_rate": 0.00033964198357693475,
      "loss": 3.0371,
      "step": 3139
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.586860716342926,
      "learning_rate": 0.00033954521303422905,
      "loss": 2.9426,
      "step": 3140
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.613642156124115,
      "learning_rate": 0.00033944842709766307,
      "loss": 2.9665,
      "step": 3141
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.6154567003250122,
      "learning_rate": 0.00033935162578387545,
      "loss": 2.9565,
      "step": 3142
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.6285164952278137,
      "learning_rate": 0.00033925480910950757,
      "loss": 3.0205,
      "step": 3143
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.6333892941474915,
      "learning_rate": 0.0003391579770912032,
      "loss": 3.0346,
      "step": 3144
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.683436930179596,
      "learning_rate": 0.00033906112974560904,
      "loss": 2.9395,
      "step": 3145
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.6151965856552124,
      "learning_rate": 0.0003389642670893742,
      "loss": 2.9665,
      "step": 3146
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.6912992000579834,
      "learning_rate": 0.0003388673891391504,
      "loss": 2.8357,
      "step": 3147
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.614960789680481,
      "learning_rate": 0.00033877049591159213,
      "loss": 2.9381,
      "step": 3148
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.6051913499832153,
      "learning_rate": 0.00033867358742335665,
      "loss": 2.8952,
      "step": 3149
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.6324425935745239,
      "learning_rate": 0.0003385766636911035,
      "loss": 2.9414,
      "step": 3150
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.6421461701393127,
      "learning_rate": 0.00033847972473149485,
      "loss": 2.9819,
      "step": 3151
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.6216432452201843,
      "learning_rate": 0.0003383827705611958,
      "loss": 2.866,
      "step": 3152
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.6085025072097778,
      "learning_rate": 0.00033828580119687395,
      "loss": 3.0252,
      "step": 3153
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.6723681092262268,
      "learning_rate": 0.0003381888166551994,
      "loss": 2.9817,
      "step": 3154
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.6173689961433411,
      "learning_rate": 0.0003380918169528448,
      "loss": 2.9488,
      "step": 3155
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.6411435604095459,
      "learning_rate": 0.00033799480210648566,
      "loss": 2.9252,
      "step": 3156
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.6396302580833435,
      "learning_rate": 0.0003378977721327999,
      "loss": 2.9722,
      "step": 3157
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.6158552765846252,
      "learning_rate": 0.0003378007270484681,
      "loss": 3.0772,
      "step": 3158
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.6327378749847412,
      "learning_rate": 0.00033770366687017346,
      "loss": 2.9946,
      "step": 3159
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.6237801909446716,
      "learning_rate": 0.00033760659161460177,
      "loss": 2.9698,
      "step": 3160
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.6179971098899841,
      "learning_rate": 0.00033750950129844134,
      "loss": 2.9072,
      "step": 3161
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.6172190308570862,
      "learning_rate": 0.0003374123959383831,
      "loss": 2.9139,
      "step": 3162
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.6180530786514282,
      "learning_rate": 0.0003373152755511207,
      "loss": 3.0134,
      "step": 3163
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.5947527885437012,
      "learning_rate": 0.0003372181401533501,
      "loss": 2.9101,
      "step": 3164
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.6068137288093567,
      "learning_rate": 0.00033712098976177015,
      "loss": 3.0489,
      "step": 3165
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.680889904499054,
      "learning_rate": 0.000337023824393082,
      "loss": 2.9798,
      "step": 3166
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.6463121771812439,
      "learning_rate": 0.0003369266440639897,
      "loss": 3.0208,
      "step": 3167
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.648933470249176,
      "learning_rate": 0.0003368294487911995,
      "loss": 2.9547,
      "step": 3168
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.6157978773117065,
      "learning_rate": 0.00033673223859142034,
      "loss": 2.9118,
      "step": 3169
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.660104513168335,
      "learning_rate": 0.0003366350134813639,
      "loss": 3.0303,
      "step": 3170
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.6509300470352173,
      "learning_rate": 0.0003365377734777444,
      "loss": 2.9583,
      "step": 3171
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.6550328135490417,
      "learning_rate": 0.0003364405185972783,
      "loss": 2.9666,
      "step": 3172
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.5932565331459045,
      "learning_rate": 0.000336343248856685,
      "loss": 2.9541,
      "step": 3173
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.6918292045593262,
      "learning_rate": 0.00033624596427268627,
      "loss": 3.0019,
      "step": 3174
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.6651254892349243,
      "learning_rate": 0.00033614866486200636,
      "loss": 2.9827,
      "step": 3175
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.6365386843681335,
      "learning_rate": 0.0003360513506413722,
      "loss": 2.8816,
      "step": 3176
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.6734818816184998,
      "learning_rate": 0.00033595402162751344,
      "loss": 2.9359,
      "step": 3177
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.6633291840553284,
      "learning_rate": 0.00033585667783716177,
      "loss": 3.0531,
      "step": 3178
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.6156481504440308,
      "learning_rate": 0.00033575931928705186,
      "loss": 2.9555,
      "step": 3179
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.5973970890045166,
      "learning_rate": 0.00033566194599392074,
      "loss": 2.9196,
      "step": 3180
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.6413211822509766,
      "learning_rate": 0.00033556455797450807,
      "loss": 3.0243,
      "step": 3181
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.5936204791069031,
      "learning_rate": 0.00033546715524555593,
      "loss": 2.8683,
      "step": 3182
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.7638174891471863,
      "learning_rate": 0.00033536973782380896,
      "loss": 2.9014,
      "step": 3183
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.5866785049438477,
      "learning_rate": 0.0003352723057260144,
      "loss": 3.0188,
      "step": 3184
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.6817455887794495,
      "learning_rate": 0.0003351748589689219,
      "loss": 2.9256,
      "step": 3185
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.6054916381835938,
      "learning_rate": 0.00033507739756928373,
      "loss": 2.9369,
      "step": 3186
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.6376059055328369,
      "learning_rate": 0.0003349799215438546,
      "loss": 3.0407,
      "step": 3187
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.621512770652771,
      "learning_rate": 0.0003348824309093918,
      "loss": 2.9092,
      "step": 3188
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.6422595381736755,
      "learning_rate": 0.00033478492568265507,
      "loss": 3.0222,
      "step": 3189
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.7049095034599304,
      "learning_rate": 0.00033468740588040667,
      "loss": 2.9838,
      "step": 3190
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.6166670322418213,
      "learning_rate": 0.0003345898715194115,
      "loss": 2.8928,
      "step": 3191
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.5983990430831909,
      "learning_rate": 0.00033449232261643675,
      "loss": 2.8334,
      "step": 3192
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.6348035335540771,
      "learning_rate": 0.00033439475918825215,
      "loss": 2.8714,
      "step": 3193
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.6169700026512146,
      "learning_rate": 0.00033429718125163013,
      "loss": 3.006,
      "step": 3194
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.5835381746292114,
      "learning_rate": 0.0003341995888233453,
      "loss": 3.0051,
      "step": 3195
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.6322741508483887,
      "learning_rate": 0.00033410198192017517,
      "loss": 2.8794,
      "step": 3196
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.5939614176750183,
      "learning_rate": 0.00033400436055889925,
      "loss": 2.9307,
      "step": 3197
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.6371294856071472,
      "learning_rate": 0.0003339067247562999,
      "loss": 3.0219,
      "step": 3198
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.6016914248466492,
      "learning_rate": 0.0003338090745291619,
      "loss": 2.8353,
      "step": 3199
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.6594482064247131,
      "learning_rate": 0.0003337114098942723,
      "loss": 3.0082,
      "step": 3200
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.5922784209251404,
      "learning_rate": 0.0003336137308684209,
      "loss": 2.848,
      "step": 3201
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.659350574016571,
      "learning_rate": 0.00033351603746839987,
      "loss": 2.9362,
      "step": 3202
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.6117017269134521,
      "learning_rate": 0.00033341832971100376,
      "loss": 2.8994,
      "step": 3203
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.6194760799407959,
      "learning_rate": 0.00033332060761302973,
      "loss": 3.0237,
      "step": 3204
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.6053342819213867,
      "learning_rate": 0.0003332228711912773,
      "loss": 3.0827,
      "step": 3205
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.658109188079834,
      "learning_rate": 0.0003331251204625485,
      "loss": 2.9793,
      "step": 3206
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.6290798187255859,
      "learning_rate": 0.00033302735544364794,
      "loss": 2.9119,
      "step": 3207
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.6082347631454468,
      "learning_rate": 0.0003329295761513822,
      "loss": 3.0328,
      "step": 3208
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.5973544716835022,
      "learning_rate": 0.0003328317826025611,
      "loss": 2.9141,
      "step": 3209
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.6271673440933228,
      "learning_rate": 0.0003327339748139963,
      "loss": 2.9535,
      "step": 3210
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.6417125463485718,
      "learning_rate": 0.000332636152802502,
      "loss": 2.9226,
      "step": 3211
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.6246997117996216,
      "learning_rate": 0.0003325383165848951,
      "loss": 3.0007,
      "step": 3212
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.6581385135650635,
      "learning_rate": 0.00033244046617799473,
      "loss": 2.8877,
      "step": 3213
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.6163406372070312,
      "learning_rate": 0.00033234260159862244,
      "loss": 2.9108,
      "step": 3214
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.5944095253944397,
      "learning_rate": 0.00033224472286360235,
      "loss": 2.8705,
      "step": 3215
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.6124986410140991,
      "learning_rate": 0.00033214682998976096,
      "loss": 3.023,
      "step": 3216
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.6279669404029846,
      "learning_rate": 0.00033204892299392715,
      "loss": 2.9192,
      "step": 3217
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.5859410166740417,
      "learning_rate": 0.0003319510018929323,
      "loss": 2.8642,
      "step": 3218
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.6086492538452148,
      "learning_rate": 0.00033185306670361015,
      "loss": 2.9773,
      "step": 3219
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.568772554397583,
      "learning_rate": 0.00033175511744279695,
      "loss": 2.9196,
      "step": 3220
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.6191741228103638,
      "learning_rate": 0.0003316571541273312,
      "loss": 2.9059,
      "step": 3221
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.5690531730651855,
      "learning_rate": 0.00033155917677405404,
      "loss": 2.9745,
      "step": 3222
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.6307303309440613,
      "learning_rate": 0.00033146118539980886,
      "loss": 2.9514,
      "step": 3223
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.6059355139732361,
      "learning_rate": 0.0003313631800214416,
      "loss": 2.971,
      "step": 3224
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.6420977115631104,
      "learning_rate": 0.0003312651606558004,
      "loss": 2.98,
      "step": 3225
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.586830198764801,
      "learning_rate": 0.00033116712731973597,
      "loss": 2.8651,
      "step": 3226
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.6499678492546082,
      "learning_rate": 0.0003310690800301014,
      "loss": 3.0388,
      "step": 3227
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.6296417713165283,
      "learning_rate": 0.0003309710188037521,
      "loss": 2.8597,
      "step": 3228
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.6271523237228394,
      "learning_rate": 0.00033087294365754605,
      "loss": 3.0847,
      "step": 3229
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.6411250829696655,
      "learning_rate": 0.0003307748546083434,
      "loss": 3.138,
      "step": 3230
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.623053789138794,
      "learning_rate": 0.00033067675167300673,
      "loss": 2.9321,
      "step": 3231
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.6452825665473938,
      "learning_rate": 0.0003305786348684013,
      "loss": 3.1003,
      "step": 3232
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.6415877938270569,
      "learning_rate": 0.0003304805042113943,
      "loss": 2.928,
      "step": 3233
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.5850837826728821,
      "learning_rate": 0.00033038235971885566,
      "loss": 3.0362,
      "step": 3234
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.6467428803443909,
      "learning_rate": 0.00033028420140765745,
      "loss": 3.005,
      "step": 3235
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.612112820148468,
      "learning_rate": 0.0003301860292946743,
      "loss": 3.0099,
      "step": 3236
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.633980393409729,
      "learning_rate": 0.0003300878433967832,
      "loss": 2.9644,
      "step": 3237
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.6623996496200562,
      "learning_rate": 0.0003299896437308633,
      "loss": 2.9379,
      "step": 3238
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.6627904176712036,
      "learning_rate": 0.0003298914303137964,
      "loss": 2.9341,
      "step": 3239
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.5779767036437988,
      "learning_rate": 0.0003297932031624663,
      "loss": 2.9027,
      "step": 3240
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.636271595954895,
      "learning_rate": 0.0003296949622937596,
      "loss": 2.9322,
      "step": 3241
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.6053252816200256,
      "learning_rate": 0.000329596707724565,
      "loss": 2.9251,
      "step": 3242
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.6274349689483643,
      "learning_rate": 0.0003294984394717736,
      "loss": 2.9653,
      "step": 3243
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.6352441310882568,
      "learning_rate": 0.0003294001575522788,
      "loss": 2.8662,
      "step": 3244
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.7422458529472351,
      "learning_rate": 0.0003293018619829764,
      "loss": 2.9622,
      "step": 3245
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.6426913142204285,
      "learning_rate": 0.00032920355278076466,
      "loss": 2.8945,
      "step": 3246
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.6706768870353699,
      "learning_rate": 0.0003291052299625439,
      "loss": 3.0497,
      "step": 3247
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.6564351320266724,
      "learning_rate": 0.00032900689354521705,
      "loss": 2.9257,
      "step": 3248
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.6484770178794861,
      "learning_rate": 0.00032890854354568935,
      "loss": 2.9753,
      "step": 3249
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.6714601516723633,
      "learning_rate": 0.00032881017998086817,
      "loss": 3.0096,
      "step": 3250
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.6788285374641418,
      "learning_rate": 0.0003287118028676634,
      "loss": 2.9689,
      "step": 3251
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.6195362210273743,
      "learning_rate": 0.00032861341222298725,
      "loss": 2.8433,
      "step": 3252
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.6226679682731628,
      "learning_rate": 0.0003285150080637542,
      "loss": 2.9824,
      "step": 3253
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.6022130250930786,
      "learning_rate": 0.00032841659040688093,
      "loss": 2.8711,
      "step": 3254
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.654772937297821,
      "learning_rate": 0.00032831815926928675,
      "loss": 3.0498,
      "step": 3255
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.6192157864570618,
      "learning_rate": 0.00032821971466789304,
      "loss": 2.9007,
      "step": 3256
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.6282936930656433,
      "learning_rate": 0.0003281212566196236,
      "loss": 3.1038,
      "step": 3257
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.6239399313926697,
      "learning_rate": 0.00032802278514140444,
      "loss": 3.012,
      "step": 3258
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.6676437854766846,
      "learning_rate": 0.0003279243002501641,
      "loss": 3.056,
      "step": 3259
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.6179390549659729,
      "learning_rate": 0.00032782580196283307,
      "loss": 2.9477,
      "step": 3260
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.5905378460884094,
      "learning_rate": 0.0003277272902963445,
      "loss": 3.1022,
      "step": 3261
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.570556104183197,
      "learning_rate": 0.00032762876526763355,
      "loss": 2.987,
      "step": 3262
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.6740639805793762,
      "learning_rate": 0.00032753022689363797,
      "loss": 2.8756,
      "step": 3263
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.630057692527771,
      "learning_rate": 0.0003274316751912976,
      "loss": 2.9949,
      "step": 3264
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.5841471552848816,
      "learning_rate": 0.0003273331101775546,
      "loss": 2.8134,
      "step": 3265
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.5968456864356995,
      "learning_rate": 0.0003272345318693534,
      "loss": 3.037,
      "step": 3266
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.6423774361610413,
      "learning_rate": 0.0003271359402836408,
      "loss": 2.8721,
      "step": 3267
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.6179144382476807,
      "learning_rate": 0.00032703733543736584,
      "loss": 3.0493,
      "step": 3268
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.655820906162262,
      "learning_rate": 0.00032693871734747984,
      "loss": 2.8778,
      "step": 3269
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.6811512112617493,
      "learning_rate": 0.00032684008603093634,
      "loss": 2.9148,
      "step": 3270
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.6163387894630432,
      "learning_rate": 0.00032674144150469133,
      "loss": 2.9773,
      "step": 3271
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.6104346513748169,
      "learning_rate": 0.0003266427837857027,
      "loss": 2.8069,
      "step": 3272
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.6269919872283936,
      "learning_rate": 0.0003265441128909311,
      "loss": 3.0368,
      "step": 3273
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.6488428711891174,
      "learning_rate": 0.0003264454288373392,
      "loss": 3.0704,
      "step": 3274
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.6886434555053711,
      "learning_rate": 0.00032634673164189175,
      "loss": 3.0072,
      "step": 3275
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.6596329808235168,
      "learning_rate": 0.0003262480213215561,
      "loss": 2.9197,
      "step": 3276
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.6693066358566284,
      "learning_rate": 0.0003261492978933016,
      "loss": 2.9614,
      "step": 3277
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.6071957349777222,
      "learning_rate": 0.0003260505613741,
      "loss": 3.0495,
      "step": 3278
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.6339178085327148,
      "learning_rate": 0.00032595181178092525,
      "loss": 3.021,
      "step": 3279
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.6748530864715576,
      "learning_rate": 0.00032585304913075353,
      "loss": 3.1099,
      "step": 3280
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.646429181098938,
      "learning_rate": 0.0003257542734405634,
      "loss": 2.9935,
      "step": 3281
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.5866207480430603,
      "learning_rate": 0.0003256554847273353,
      "loss": 2.9155,
      "step": 3282
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.6191087365150452,
      "learning_rate": 0.00032555668300805236,
      "loss": 3.0102,
      "step": 3283
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.6270511150360107,
      "learning_rate": 0.0003254578682996997,
      "loss": 2.8232,
      "step": 3284
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.6410936117172241,
      "learning_rate": 0.00032535904061926473,
      "loss": 3.0115,
      "step": 3285
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.609365701675415,
      "learning_rate": 0.000325260199983737,
      "loss": 2.9657,
      "step": 3286
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.6173999309539795,
      "learning_rate": 0.00032516134641010836,
      "loss": 2.9063,
      "step": 3287
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.676877498626709,
      "learning_rate": 0.000325062479915373,
      "loss": 2.9372,
      "step": 3288
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.6569653153419495,
      "learning_rate": 0.00032496360051652713,
      "loss": 3.0301,
      "step": 3289
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.6103960871696472,
      "learning_rate": 0.00032486470823056925,
      "loss": 2.8876,
      "step": 3290
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.6254950165748596,
      "learning_rate": 0.0003247658030745001,
      "loss": 2.9058,
      "step": 3291
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.6369001865386963,
      "learning_rate": 0.0003246668850653227,
      "loss": 3.0596,
      "step": 3292
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.6059572100639343,
      "learning_rate": 0.00032456795422004217,
      "loss": 3.0641,
      "step": 3293
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.6099447011947632,
      "learning_rate": 0.00032446901055566574,
      "loss": 3.0755,
      "step": 3294
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.6111432909965515,
      "learning_rate": 0.0003243700540892031,
      "loss": 2.9441,
      "step": 3295
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.6421670913696289,
      "learning_rate": 0.000324271084837666,
      "loss": 2.9806,
      "step": 3296
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.6326009631156921,
      "learning_rate": 0.0003241721028180684,
      "loss": 2.9635,
      "step": 3297
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.6519527435302734,
      "learning_rate": 0.0003240731080474265,
      "loss": 2.8545,
      "step": 3298
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.5871513485908508,
      "learning_rate": 0.0003239741005427586,
      "loss": 2.9577,
      "step": 3299
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.6678541898727417,
      "learning_rate": 0.0003238750803210851,
      "loss": 3.0364,
      "step": 3300
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.6499763131141663,
      "learning_rate": 0.000323776047399429,
      "loss": 2.9697,
      "step": 3301
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.6175904273986816,
      "learning_rate": 0.000323677001794815,
      "loss": 3.0014,
      "step": 3302
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.6062787771224976,
      "learning_rate": 0.00032357794352427035,
      "loss": 2.8036,
      "step": 3303
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.6147274374961853,
      "learning_rate": 0.0003234788726048241,
      "loss": 2.9076,
      "step": 3304
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.6642062664031982,
      "learning_rate": 0.00032337978905350786,
      "loss": 2.9329,
      "step": 3305
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.6049988865852356,
      "learning_rate": 0.0003232806928873552,
      "loss": 2.8047,
      "step": 3306
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.5937785506248474,
      "learning_rate": 0.00032318158412340185,
      "loss": 2.9044,
      "step": 3307
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.5625776648521423,
      "learning_rate": 0.0003230824627786858,
      "loss": 3.11,
      "step": 3308
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.6123438477516174,
      "learning_rate": 0.00032298332887024716,
      "loss": 2.986,
      "step": 3309
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.5866206288337708,
      "learning_rate": 0.00032288418241512826,
      "loss": 2.8814,
      "step": 3310
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.5878468155860901,
      "learning_rate": 0.00032278502343037344,
      "loss": 2.9116,
      "step": 3311
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.5855655670166016,
      "learning_rate": 0.0003226858519330292,
      "loss": 2.983,
      "step": 3312
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.568382203578949,
      "learning_rate": 0.0003225866679401444,
      "loss": 2.8987,
      "step": 3313
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.5833541750907898,
      "learning_rate": 0.0003224874714687699,
      "loss": 2.9197,
      "step": 3314
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.6434159278869629,
      "learning_rate": 0.0003223882625359587,
      "loss": 2.9179,
      "step": 3315
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.6150075197219849,
      "learning_rate": 0.00032228904115876603,
      "loss": 3.0028,
      "step": 3316
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.615053653717041,
      "learning_rate": 0.00032218980735424906,
      "loss": 3.061,
      "step": 3317
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.6234030723571777,
      "learning_rate": 0.00032209056113946733,
      "loss": 3.0765,
      "step": 3318
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.6095613241195679,
      "learning_rate": 0.0003219913025314824,
      "loss": 2.8452,
      "step": 3319
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.6313549280166626,
      "learning_rate": 0.00032189203154735804,
      "loss": 2.9174,
      "step": 3320
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.6019653081893921,
      "learning_rate": 0.0003217927482041599,
      "loss": 2.8681,
      "step": 3321
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.6328898668289185,
      "learning_rate": 0.0003216934525189561,
      "loss": 2.9959,
      "step": 3322
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.6111900210380554,
      "learning_rate": 0.00032159414450881667,
      "loss": 3.0254,
      "step": 3323
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.5957054495811462,
      "learning_rate": 0.0003214948241908138,
      "loss": 3.0916,
      "step": 3324
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.6275640726089478,
      "learning_rate": 0.00032139549158202187,
      "loss": 3.1051,
      "step": 3325
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.6439972519874573,
      "learning_rate": 0.00032129614669951717,
      "loss": 2.9843,
      "step": 3326
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.6385012865066528,
      "learning_rate": 0.0003211967895603784,
      "loss": 3.1211,
      "step": 3327
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.6049081683158875,
      "learning_rate": 0.00032109742018168605,
      "loss": 2.9321,
      "step": 3328
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.6607651710510254,
      "learning_rate": 0.000320998038580523,
      "loss": 2.9807,
      "step": 3329
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.5811256170272827,
      "learning_rate": 0.000320898644773974,
      "loss": 2.8529,
      "step": 3330
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.6528181433677673,
      "learning_rate": 0.00032079923877912606,
      "loss": 2.9788,
      "step": 3331
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.5837021470069885,
      "learning_rate": 0.00032069982061306814,
      "loss": 2.9834,
      "step": 3332
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.5950526595115662,
      "learning_rate": 0.0003206003902928914,
      "loss": 2.8747,
      "step": 3333
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.5848549604415894,
      "learning_rate": 0.00032050094783568915,
      "loss": 2.8632,
      "step": 3334
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.5956016182899475,
      "learning_rate": 0.0003204014932585567,
      "loss": 2.8687,
      "step": 3335
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.6389779448509216,
      "learning_rate": 0.0003203020265785914,
      "loss": 2.968,
      "step": 3336
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.6259580850601196,
      "learning_rate": 0.0003202025478128926,
      "loss": 2.8984,
      "step": 3337
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.656907320022583,
      "learning_rate": 0.00032010305697856214,
      "loss": 2.9959,
      "step": 3338
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.6258733868598938,
      "learning_rate": 0.0003200035540927034,
      "loss": 3.1093,
      "step": 3339
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.6557144522666931,
      "learning_rate": 0.0003199040391724221,
      "loss": 2.9121,
      "step": 3340
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.6088171601295471,
      "learning_rate": 0.00031980451223482615,
      "loss": 2.9111,
      "step": 3341
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.5702844858169556,
      "learning_rate": 0.00031970497329702525,
      "loss": 2.9202,
      "step": 3342
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.6159047484397888,
      "learning_rate": 0.00031960542237613145,
      "loss": 3.0366,
      "step": 3343
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.6520219445228577,
      "learning_rate": 0.0003195058594892585,
      "loss": 2.9496,
      "step": 3344
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.633330762386322,
      "learning_rate": 0.00031940628465352254,
      "loss": 2.9981,
      "step": 3345
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.644922137260437,
      "learning_rate": 0.0003193066978860416,
      "loss": 2.9103,
      "step": 3346
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.6256193518638611,
      "learning_rate": 0.00031920709920393593,
      "loss": 2.9368,
      "step": 3347
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.5891339182853699,
      "learning_rate": 0.0003191074886243275,
      "loss": 2.9263,
      "step": 3348
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.6088421940803528,
      "learning_rate": 0.0003190078661643406,
      "loss": 2.9632,
      "step": 3349
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.610300600528717,
      "learning_rate": 0.0003189082318411016,
      "loss": 3.0439,
      "step": 3350
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.6321401596069336,
      "learning_rate": 0.00031880858567173855,
      "loss": 3.0045,
      "step": 3351
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.6393444538116455,
      "learning_rate": 0.00031870892767338197,
      "loss": 3.007,
      "step": 3352
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.6031936407089233,
      "learning_rate": 0.0003186092578631643,
      "loss": 2.933,
      "step": 3353
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.6160004734992981,
      "learning_rate": 0.0003185095762582197,
      "loss": 3.036,
      "step": 3354
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.6088173389434814,
      "learning_rate": 0.00031840988287568474,
      "loss": 2.9752,
      "step": 3355
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.5992969274520874,
      "learning_rate": 0.00031831017773269784,
      "loss": 2.9496,
      "step": 3356
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.6339069604873657,
      "learning_rate": 0.0003182104608463995,
      "loss": 3.0195,
      "step": 3357
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.5854044556617737,
      "learning_rate": 0.00031811073223393205,
      "loss": 2.8988,
      "step": 3358
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.5773810148239136,
      "learning_rate": 0.0003180109919124403,
      "loss": 2.9916,
      "step": 3359
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.5728424191474915,
      "learning_rate": 0.00031791123989907043,
      "loss": 2.7979,
      "step": 3360
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.6206679940223694,
      "learning_rate": 0.00031781147621097125,
      "loss": 3.0164,
      "step": 3361
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.6098557114601135,
      "learning_rate": 0.0003177117008652931,
      "loss": 2.942,
      "step": 3362
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.6527367830276489,
      "learning_rate": 0.00031761191387918867,
      "loss": 2.9123,
      "step": 3363
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.634118378162384,
      "learning_rate": 0.00031751211526981235,
      "loss": 3.0395,
      "step": 3364
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.5925170183181763,
      "learning_rate": 0.00031741230505432066,
      "loss": 2.9878,
      "step": 3365
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.6207724213600159,
      "learning_rate": 0.0003173124832498724,
      "loss": 2.947,
      "step": 3366
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.6227548122406006,
      "learning_rate": 0.0003172126498736278,
      "loss": 2.9806,
      "step": 3367
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.6338317394256592,
      "learning_rate": 0.0003171128049427496,
      "loss": 2.8874,
      "step": 3368
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.6250344514846802,
      "learning_rate": 0.00031701294847440197,
      "loss": 2.9905,
      "step": 3369
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.590683102607727,
      "learning_rate": 0.00031691308048575185,
      "loss": 3.0304,
      "step": 3370
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.6267709732055664,
      "learning_rate": 0.0003168132009939674,
      "loss": 2.9446,
      "step": 3371
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.6069777607917786,
      "learning_rate": 0.00031671331001621906,
      "loss": 2.9466,
      "step": 3372
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.6472124457359314,
      "learning_rate": 0.00031661340756967943,
      "loss": 2.9944,
      "step": 3373
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.6358288526535034,
      "learning_rate": 0.0003165134936715227,
      "loss": 2.8923,
      "step": 3374
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.6544528007507324,
      "learning_rate": 0.00031641356833892544,
      "loss": 2.9687,
      "step": 3375
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.6244363188743591,
      "learning_rate": 0.0003163136315890657,
      "loss": 2.885,
      "step": 3376
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.7096607089042664,
      "learning_rate": 0.000316213683439124,
      "loss": 2.9197,
      "step": 3377
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.6053742170333862,
      "learning_rate": 0.0003161137239062825,
      "loss": 2.864,
      "step": 3378
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.6010931134223938,
      "learning_rate": 0.00031601375300772537,
      "loss": 3.0018,
      "step": 3379
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.6117221117019653,
      "learning_rate": 0.0003159137707606388,
      "loss": 2.849,
      "step": 3380
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.638340950012207,
      "learning_rate": 0.0003158137771822109,
      "loss": 3.0081,
      "step": 3381
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.5886585116386414,
      "learning_rate": 0.00031571377228963184,
      "loss": 2.9364,
      "step": 3382
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.631519615650177,
      "learning_rate": 0.0003156137561000933,
      "loss": 3.0272,
      "step": 3383
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.590035080909729,
      "learning_rate": 0.00031551372863078956,
      "loss": 2.8513,
      "step": 3384
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.6417936682701111,
      "learning_rate": 0.0003154136898989164,
      "loss": 3.0503,
      "step": 3385
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.6504627466201782,
      "learning_rate": 0.0003153136399216715,
      "loss": 2.8443,
      "step": 3386
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.6274528503417969,
      "learning_rate": 0.0003152135787162548,
      "loss": 2.8607,
      "step": 3387
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.6519659161567688,
      "learning_rate": 0.0003151135062998678,
      "loss": 2.9114,
      "step": 3388
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.6193164587020874,
      "learning_rate": 0.00031501342268971434,
      "loss": 2.9575,
      "step": 3389
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.6646560430526733,
      "learning_rate": 0.00031491332790299973,
      "loss": 2.9111,
      "step": 3390
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.6873776316642761,
      "learning_rate": 0.0003148132219569315,
      "loss": 2.9639,
      "step": 3391
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.634954571723938,
      "learning_rate": 0.0003147131048687191,
      "loss": 2.9315,
      "step": 3392
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.6203616857528687,
      "learning_rate": 0.0003146129766555737,
      "loss": 2.941,
      "step": 3393
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.6677122712135315,
      "learning_rate": 0.0003145128373347086,
      "loss": 3.022,
      "step": 3394
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.6526708602905273,
      "learning_rate": 0.0003144126869233389,
      "loss": 2.8934,
      "step": 3395
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.6609876155853271,
      "learning_rate": 0.0003143125254386815,
      "loss": 3.0742,
      "step": 3396
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.6121460199356079,
      "learning_rate": 0.00031421235289795534,
      "loss": 3.1701,
      "step": 3397
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.615949273109436,
      "learning_rate": 0.0003141121693183814,
      "loss": 2.9152,
      "step": 3398
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.7134504914283752,
      "learning_rate": 0.00031401197471718235,
      "loss": 2.9215,
      "step": 3399
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.6246722340583801,
      "learning_rate": 0.0003139117691115827,
      "loss": 2.9995,
      "step": 3400
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.6140243411064148,
      "learning_rate": 0.000313811552518809,
      "loss": 2.9991,
      "step": 3401
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.6904109120368958,
      "learning_rate": 0.0003137113249560896,
      "loss": 2.9233,
      "step": 3402
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.5849998593330383,
      "learning_rate": 0.00031361108644065497,
      "loss": 2.9541,
      "step": 3403
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.6374346017837524,
      "learning_rate": 0.00031351083698973704,
      "loss": 2.8292,
      "step": 3404
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.6327627897262573,
      "learning_rate": 0.00031341057662057,
      "loss": 2.9647,
      "step": 3405
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.6071406006813049,
      "learning_rate": 0.00031331030535038963,
      "loss": 3.007,
      "step": 3406
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.6145278215408325,
      "learning_rate": 0.00031321002319643394,
      "loss": 2.8624,
      "step": 3407
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.6289016008377075,
      "learning_rate": 0.00031310973017594233,
      "loss": 3.0539,
      "step": 3408
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.6264330148696899,
      "learning_rate": 0.00031300942630615666,
      "loss": 2.9873,
      "step": 3409
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.6678977608680725,
      "learning_rate": 0.00031290911160432,
      "loss": 3.0289,
      "step": 3410
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.7041832208633423,
      "learning_rate": 0.0003128087860876778,
      "loss": 2.8312,
      "step": 3411
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.6200353503227234,
      "learning_rate": 0.00031270844977347706,
      "loss": 3.0764,
      "step": 3412
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.6011857390403748,
      "learning_rate": 0.00031260810267896686,
      "loss": 2.8906,
      "step": 3413
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.5790718197822571,
      "learning_rate": 0.0003125077448213981,
      "loss": 2.9964,
      "step": 3414
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.6127317547798157,
      "learning_rate": 0.0003124073762180232,
      "loss": 2.9901,
      "step": 3415
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.6390609741210938,
      "learning_rate": 0.00031230699688609693,
      "loss": 2.8452,
      "step": 3416
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.6495018601417542,
      "learning_rate": 0.0003122066068428756,
      "loss": 2.9721,
      "step": 3417
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.5783096551895142,
      "learning_rate": 0.00031210620610561736,
      "loss": 2.95,
      "step": 3418
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.628566324710846,
      "learning_rate": 0.0003120057946915822,
      "loss": 2.9705,
      "step": 3419
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.620925784111023,
      "learning_rate": 0.00031190537261803215,
      "loss": 3.0151,
      "step": 3420
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.6703442335128784,
      "learning_rate": 0.0003118049399022309,
      "loss": 2.9313,
      "step": 3421
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.6466549038887024,
      "learning_rate": 0.000311704496561444,
      "loss": 2.9628,
      "step": 3422
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.643225371837616,
      "learning_rate": 0.0003116040426129388,
      "loss": 2.9705,
      "step": 3423
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.6455519199371338,
      "learning_rate": 0.0003115035780739845,
      "loss": 2.9653,
      "step": 3424
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.6413534283638,
      "learning_rate": 0.000311403102961852,
      "loss": 2.8765,
      "step": 3425
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.6270089149475098,
      "learning_rate": 0.0003113026172938144,
      "loss": 2.9863,
      "step": 3426
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.606220006942749,
      "learning_rate": 0.0003112021210871462,
      "loss": 2.8798,
      "step": 3427
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.5916603803634644,
      "learning_rate": 0.00031110161435912384,
      "loss": 2.9972,
      "step": 3428
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.6642346382141113,
      "learning_rate": 0.0003110010971270256,
      "loss": 2.9702,
      "step": 3429
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.5878081321716309,
      "learning_rate": 0.0003109005694081315,
      "loss": 2.8014,
      "step": 3430
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.6141951084136963,
      "learning_rate": 0.0003108000312197236,
      "loss": 2.9839,
      "step": 3431
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.6172873973846436,
      "learning_rate": 0.0003106994825790855,
      "loss": 3.0325,
      "step": 3432
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.6678783297538757,
      "learning_rate": 0.0003105989235035026,
      "loss": 2.9079,
      "step": 3433
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.5985219478607178,
      "learning_rate": 0.0003104983540102622,
      "loss": 2.9333,
      "step": 3434
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.6010972857475281,
      "learning_rate": 0.0003103977741166535,
      "loss": 2.8352,
      "step": 3435
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.5778636336326599,
      "learning_rate": 0.0003102971838399672,
      "loss": 3.0361,
      "step": 3436
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.5999298691749573,
      "learning_rate": 0.0003101965831974959,
      "loss": 2.8595,
      "step": 3437
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.6177551746368408,
      "learning_rate": 0.00031009597220653417,
      "loss": 2.9755,
      "step": 3438
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.6132794618606567,
      "learning_rate": 0.00030999535088437806,
      "loss": 2.9959,
      "step": 3439
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.6599847674369812,
      "learning_rate": 0.0003098947192483256,
      "loss": 2.8768,
      "step": 3440
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.6351909637451172,
      "learning_rate": 0.0003097940773156766,
      "loss": 3.0255,
      "step": 3441
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.6274530291557312,
      "learning_rate": 0.00030969342510373253,
      "loss": 2.9602,
      "step": 3442
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.6286229491233826,
      "learning_rate": 0.00030959276262979663,
      "loss": 3.0076,
      "step": 3443
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.5883458256721497,
      "learning_rate": 0.00030949208991117396,
      "loss": 2.9159,
      "step": 3444
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.6121379733085632,
      "learning_rate": 0.00030939140696517137,
      "loss": 2.8243,
      "step": 3445
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.6347639560699463,
      "learning_rate": 0.0003092907138090974,
      "loss": 2.9587,
      "step": 3446
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.6469246745109558,
      "learning_rate": 0.0003091900104602623,
      "loss": 2.9641,
      "step": 3447
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.6063456535339355,
      "learning_rate": 0.00030908929693597827,
      "loss": 2.9749,
      "step": 3448
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.5954564809799194,
      "learning_rate": 0.00030898857325355905,
      "loss": 2.9986,
      "step": 3449
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.6184382438659668,
      "learning_rate": 0.00030888783943032027,
      "loss": 2.8529,
      "step": 3450
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.6145403981208801,
      "learning_rate": 0.0003087870954835792,
      "loss": 3.0179,
      "step": 3451
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.6466856002807617,
      "learning_rate": 0.00030868634143065487,
      "loss": 2.9523,
      "step": 3452
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.6154705286026001,
      "learning_rate": 0.00030858557728886813,
      "loss": 2.9177,
      "step": 3453
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.6007172465324402,
      "learning_rate": 0.0003084848030755415,
      "loss": 2.9451,
      "step": 3454
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.6110173463821411,
      "learning_rate": 0.0003083840188079991,
      "loss": 3.0316,
      "step": 3455
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.5699637532234192,
      "learning_rate": 0.0003082832245035671,
      "loss": 3.0208,
      "step": 3456
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.6443095207214355,
      "learning_rate": 0.0003081824201795731,
      "loss": 2.9539,
      "step": 3457
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.6219473481178284,
      "learning_rate": 0.00030808160585334653,
      "loss": 2.9516,
      "step": 3458
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.6372652053833008,
      "learning_rate": 0.0003079807815422187,
      "loss": 3.0187,
      "step": 3459
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.6066597700119019,
      "learning_rate": 0.0003078799472635223,
      "loss": 2.9408,
      "step": 3460
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.558412492275238,
      "learning_rate": 0.00030777910303459187,
      "loss": 2.9234,
      "step": 3461
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.5996758937835693,
      "learning_rate": 0.00030767824887276385,
      "loss": 2.8137,
      "step": 3462
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.6523503065109253,
      "learning_rate": 0.00030757738479537624,
      "loss": 3.1087,
      "step": 3463
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.6112552285194397,
      "learning_rate": 0.0003074765108197687,
      "loss": 2.9416,
      "step": 3464
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.640687108039856,
      "learning_rate": 0.00030737562696328254,
      "loss": 3.0614,
      "step": 3465
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.6394160985946655,
      "learning_rate": 0.000307274733243261,
      "loss": 3.0238,
      "step": 3466
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.6371772885322571,
      "learning_rate": 0.0003071738296770488,
      "loss": 3.051,
      "step": 3467
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.6359009146690369,
      "learning_rate": 0.0003070729162819925,
      "loss": 2.9841,
      "step": 3468
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.5700575709342957,
      "learning_rate": 0.00030697199307544014,
      "loss": 2.9155,
      "step": 3469
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.6200371384620667,
      "learning_rate": 0.0003068710600747418,
      "loss": 3.005,
      "step": 3470
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.6120996475219727,
      "learning_rate": 0.0003067701172972489,
      "loss": 2.9521,
      "step": 3471
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.6266417503356934,
      "learning_rate": 0.0003066691647603147,
      "loss": 2.9277,
      "step": 3472
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.6610388159751892,
      "learning_rate": 0.0003065682024812941,
      "loss": 2.9358,
      "step": 3473
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.6732571721076965,
      "learning_rate": 0.0003064672304775438,
      "loss": 2.9642,
      "step": 3474
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.5762091279029846,
      "learning_rate": 0.0003063662487664218,
      "loss": 2.9865,
      "step": 3475
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.5942025184631348,
      "learning_rate": 0.0003062652573652882,
      "loss": 2.9307,
      "step": 3476
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.6391128301620483,
      "learning_rate": 0.00030616425629150467,
      "loss": 2.8968,
      "step": 3477
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.6004207730293274,
      "learning_rate": 0.00030606324556243435,
      "loss": 2.9096,
      "step": 3478
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.6541340351104736,
      "learning_rate": 0.00030596222519544216,
      "loss": 3.0104,
      "step": 3479
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.6335639357566833,
      "learning_rate": 0.00030586119520789465,
      "loss": 2.9574,
      "step": 3480
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.6038545966148376,
      "learning_rate": 0.00030576015561716014,
      "loss": 2.8747,
      "step": 3481
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.6368190050125122,
      "learning_rate": 0.00030565910644060845,
      "loss": 3.0196,
      "step": 3482
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.675447404384613,
      "learning_rate": 0.00030555804769561107,
      "loss": 2.8893,
      "step": 3483
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.6135276556015015,
      "learning_rate": 0.00030545697939954124,
      "loss": 2.8424,
      "step": 3484
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.6133180260658264,
      "learning_rate": 0.00030535590156977375,
      "loss": 2.9017,
      "step": 3485
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.6205835342407227,
      "learning_rate": 0.00030525481422368503,
      "loss": 2.9856,
      "step": 3486
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.6181961894035339,
      "learning_rate": 0.00030515371737865313,
      "loss": 2.9284,
      "step": 3487
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.5995535254478455,
      "learning_rate": 0.00030505261105205785,
      "loss": 3.0721,
      "step": 3488
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.6491031050682068,
      "learning_rate": 0.00030495149526128053,
      "loss": 2.9487,
      "step": 3489
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.6377763152122498,
      "learning_rate": 0.000304850370023704,
      "loss": 2.8761,
      "step": 3490
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.6471988558769226,
      "learning_rate": 0.0003047492353567131,
      "loss": 2.9936,
      "step": 3491
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.6012880206108093,
      "learning_rate": 0.000304648091277694,
      "loss": 2.7933,
      "step": 3492
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.6192984580993652,
      "learning_rate": 0.0003045469378040344,
      "loss": 2.9602,
      "step": 3493
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.6143975853919983,
      "learning_rate": 0.00030444577495312373,
      "loss": 2.9325,
      "step": 3494
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.5896430015563965,
      "learning_rate": 0.0003043446027423533,
      "loss": 2.9033,
      "step": 3495
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.6085362434387207,
      "learning_rate": 0.0003042434211891156,
      "loss": 3.0164,
      "step": 3496
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.8851892352104187,
      "learning_rate": 0.0003041422303108049,
      "loss": 3.0928,
      "step": 3497
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.5977389812469482,
      "learning_rate": 0.0003040410301248172,
      "loss": 2.9605,
      "step": 3498
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.5675445199012756,
      "learning_rate": 0.00030393982064854985,
      "loss": 2.8178,
      "step": 3499
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.6402919888496399,
      "learning_rate": 0.0003038386018994021,
      "loss": 2.9787,
      "step": 3500
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.574481725692749,
      "learning_rate": 0.00030373737389477446,
      "loss": 3.0683,
      "step": 3501
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.6010298132896423,
      "learning_rate": 0.00030363613665206936,
      "loss": 3.0482,
      "step": 3502
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.585927426815033,
      "learning_rate": 0.0003035348901886905,
      "loss": 2.9791,
      "step": 3503
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.591770350933075,
      "learning_rate": 0.00030343363452204334,
      "loss": 2.91,
      "step": 3504
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.595093846321106,
      "learning_rate": 0.000303332369669535,
      "loss": 2.9365,
      "step": 3505
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.641280472278595,
      "learning_rate": 0.0003032310956485741,
      "loss": 2.9695,
      "step": 3506
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.6106151342391968,
      "learning_rate": 0.0003031298124765707,
      "loss": 2.9144,
      "step": 3507
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.6113627552986145,
      "learning_rate": 0.00030302852017093654,
      "loss": 3.0795,
      "step": 3508
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.6296617984771729,
      "learning_rate": 0.000302927218749085,
      "loss": 2.9713,
      "step": 3509
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.6119403839111328,
      "learning_rate": 0.0003028259082284311,
      "loss": 2.93,
      "step": 3510
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.6048611998558044,
      "learning_rate": 0.00030272458862639105,
      "loss": 3.0106,
      "step": 3511
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.6342498064041138,
      "learning_rate": 0.00030262325996038305,
      "loss": 2.8744,
      "step": 3512
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.6337277293205261,
      "learning_rate": 0.00030252192224782654,
      "loss": 2.8045,
      "step": 3513
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.586313784122467,
      "learning_rate": 0.00030242057550614276,
      "loss": 2.9581,
      "step": 3514
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.6615822315216064,
      "learning_rate": 0.0003023192197527543,
      "loss": 2.9209,
      "step": 3515
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.558715283870697,
      "learning_rate": 0.0003022178550050855,
      "loss": 2.857,
      "step": 3516
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.6038289070129395,
      "learning_rate": 0.00030211648128056196,
      "loss": 3.0435,
      "step": 3517
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.6513171195983887,
      "learning_rate": 0.0003020150985966111,
      "loss": 3.0006,
      "step": 3518
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.6015400290489197,
      "learning_rate": 0.00030191370697066187,
      "loss": 2.9872,
      "step": 3519
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.646206259727478,
      "learning_rate": 0.00030181230642014456,
      "loss": 2.8968,
      "step": 3520
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.6440854668617249,
      "learning_rate": 0.0003017108969624911,
      "loss": 3.0314,
      "step": 3521
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.6296659708023071,
      "learning_rate": 0.000301609478615135,
      "loss": 2.9287,
      "step": 3522
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.5936943292617798,
      "learning_rate": 0.00030150805139551114,
      "loss": 2.8544,
      "step": 3523
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.635655403137207,
      "learning_rate": 0.0003014066153210562,
      "loss": 2.9885,
      "step": 3524
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.607509970664978,
      "learning_rate": 0.0003013051704092081,
      "loss": 2.9624,
      "step": 3525
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.5982818603515625,
      "learning_rate": 0.0003012037166774063,
      "loss": 3.0471,
      "step": 3526
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.6145432591438293,
      "learning_rate": 0.00030110225414309213,
      "loss": 2.9748,
      "step": 3527
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.6691197156906128,
      "learning_rate": 0.00030100078282370804,
      "loss": 2.9315,
      "step": 3528
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.6064765453338623,
      "learning_rate": 0.0003008993027366981,
      "loss": 2.8783,
      "step": 3529
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.645180881023407,
      "learning_rate": 0.000300797813899508,
      "loss": 2.9022,
      "step": 3530
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.5834723711013794,
      "learning_rate": 0.00030069631632958474,
      "loss": 2.9374,
      "step": 3531
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.5896921753883362,
      "learning_rate": 0.00030059481004437696,
      "loss": 2.8877,
      "step": 3532
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.6456328630447388,
      "learning_rate": 0.00030049329506133483,
      "loss": 2.9078,
      "step": 3533
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.62889564037323,
      "learning_rate": 0.0003003917713979099,
      "loss": 3.1307,
      "step": 3534
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.6423104405403137,
      "learning_rate": 0.0003002902390715553,
      "loss": 2.9622,
      "step": 3535
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.59879469871521,
      "learning_rate": 0.00030018869809972555,
      "loss": 2.8885,
      "step": 3536
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.6440056562423706,
      "learning_rate": 0.0003000871484998767,
      "loss": 2.951,
      "step": 3537
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.6214630603790283,
      "learning_rate": 0.00029998559028946646,
      "loss": 2.911,
      "step": 3538
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.6738094091415405,
      "learning_rate": 0.0002998840234859538,
      "loss": 2.8871,
      "step": 3539
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.6463626623153687,
      "learning_rate": 0.00029978244810679913,
      "loss": 2.9955,
      "step": 3540
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.6412308216094971,
      "learning_rate": 0.0002996808641694644,
      "loss": 3.0155,
      "step": 3541
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.5809382796287537,
      "learning_rate": 0.00029957927169141336,
      "loss": 2.867,
      "step": 3542
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.6736504435539246,
      "learning_rate": 0.0002994776706901107,
      "loss": 2.914,
      "step": 3543
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.6566799283027649,
      "learning_rate": 0.0002993760611830228,
      "loss": 2.8493,
      "step": 3544
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.6789855360984802,
      "learning_rate": 0.00029927444318761755,
      "loss": 2.807,
      "step": 3545
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.604779064655304,
      "learning_rate": 0.0002991728167213643,
      "loss": 2.8521,
      "step": 3546
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.6057334542274475,
      "learning_rate": 0.0002990711818017338,
      "loss": 2.8964,
      "step": 3547
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.6717020273208618,
      "learning_rate": 0.00029896953844619833,
      "loss": 3.1143,
      "step": 3548
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.6438760161399841,
      "learning_rate": 0.0002988678866722315,
      "loss": 2.878,
      "step": 3549
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.6182299852371216,
      "learning_rate": 0.0002987662264973083,
      "loss": 3.0155,
      "step": 3550
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.6590117812156677,
      "learning_rate": 0.00029866455793890544,
      "loss": 2.9488,
      "step": 3551
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.6008513569831848,
      "learning_rate": 0.000298562881014501,
      "loss": 3.0108,
      "step": 3552
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.645715057849884,
      "learning_rate": 0.0002984611957415743,
      "loss": 2.9528,
      "step": 3553
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.6362037658691406,
      "learning_rate": 0.0002983595021376062,
      "loss": 2.8861,
      "step": 3554
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.6295570135116577,
      "learning_rate": 0.000298257800220079,
      "loss": 3.0194,
      "step": 3555
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.6292629241943359,
      "learning_rate": 0.0002981560900064766,
      "loss": 3.01,
      "step": 3556
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.5983242988586426,
      "learning_rate": 0.00029805437151428403,
      "loss": 2.9331,
      "step": 3557
    },
    {
      "epoch": 0.46,
      "grad_norm": 2.4234960079193115,
      "learning_rate": 0.00029795264476098786,
      "loss": 2.9671,
      "step": 3558
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.575033962726593,
      "learning_rate": 0.00029785090976407614,
      "loss": 2.9171,
      "step": 3559
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.6314557194709778,
      "learning_rate": 0.0002977491665410383,
      "loss": 3.0417,
      "step": 3560
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.6149187088012695,
      "learning_rate": 0.0002976474151093653,
      "loss": 2.8967,
      "step": 3561
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.6050135493278503,
      "learning_rate": 0.0002975456554865491,
      "loss": 2.9281,
      "step": 3562
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.6080098152160645,
      "learning_rate": 0.00029744388769008365,
      "loss": 3.0126,
      "step": 3563
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.6106235980987549,
      "learning_rate": 0.0002973421117374637,
      "loss": 2.8665,
      "step": 3564
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.6016069650650024,
      "learning_rate": 0.00029724032764618605,
      "loss": 2.9795,
      "step": 3565
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.6461997032165527,
      "learning_rate": 0.00029713853543374846,
      "loss": 3.0626,
      "step": 3566
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.6159694790840149,
      "learning_rate": 0.0002970367351176501,
      "loss": 2.9512,
      "step": 3567
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.5883950591087341,
      "learning_rate": 0.00029693492671539165,
      "loss": 2.944,
      "step": 3568
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.5660788416862488,
      "learning_rate": 0.0002968331102444752,
      "loss": 2.9433,
      "step": 3569
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.6317031383514404,
      "learning_rate": 0.0002967312857224042,
      "loss": 2.9249,
      "step": 3570
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.622561514377594,
      "learning_rate": 0.0002966294531666834,
      "loss": 3.0385,
      "step": 3571
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.6095204949378967,
      "learning_rate": 0.000296527612594819,
      "loss": 3.0478,
      "step": 3572
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.6303475499153137,
      "learning_rate": 0.0002964257640243186,
      "loss": 2.9803,
      "step": 3573
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.6324354410171509,
      "learning_rate": 0.00029632390747269115,
      "loss": 2.9371,
      "step": 3574
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.5863878130912781,
      "learning_rate": 0.000296222042957447,
      "loss": 2.8991,
      "step": 3575
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.6099480390548706,
      "learning_rate": 0.0002961201704960978,
      "loss": 3.05,
      "step": 3576
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.6310124397277832,
      "learning_rate": 0.00029601829010615665,
      "loss": 3.0934,
      "step": 3577
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.6022701263427734,
      "learning_rate": 0.0002959164018051379,
      "loss": 2.9631,
      "step": 3578
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.5921737551689148,
      "learning_rate": 0.0002958145056105575,
      "loss": 3.0234,
      "step": 3579
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.5931786894798279,
      "learning_rate": 0.00029571260153993224,
      "loss": 2.8491,
      "step": 3580
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.6081305742263794,
      "learning_rate": 0.000295610689610781,
      "loss": 2.8722,
      "step": 3581
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.6111680865287781,
      "learning_rate": 0.00029550876984062337,
      "loss": 2.9281,
      "step": 3582
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.6588103175163269,
      "learning_rate": 0.00029540684224698056,
      "loss": 3.0475,
      "step": 3583
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.610142707824707,
      "learning_rate": 0.0002953049068473753,
      "loss": 2.9038,
      "step": 3584
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.589699387550354,
      "learning_rate": 0.0002952029636593313,
      "loss": 2.8721,
      "step": 3585
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.6097349524497986,
      "learning_rate": 0.00029510101270037377,
      "loss": 2.9877,
      "step": 3586
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.5988627076148987,
      "learning_rate": 0.00029499905398802927,
      "loss": 2.9827,
      "step": 3587
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.617135763168335,
      "learning_rate": 0.0002948970875398258,
      "loss": 3.0541,
      "step": 3588
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.5989255905151367,
      "learning_rate": 0.0002947951133732925,
      "loss": 2.8735,
      "step": 3589
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.5950316190719604,
      "learning_rate": 0.00029469313150595983,
      "loss": 3.0608,
      "step": 3590
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.6002109050750732,
      "learning_rate": 0.00029459114195535977,
      "loss": 3.0143,
      "step": 3591
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.5961757302284241,
      "learning_rate": 0.00029448914473902544,
      "loss": 2.9601,
      "step": 3592
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.6158333420753479,
      "learning_rate": 0.0002943871398744914,
      "loss": 3.0495,
      "step": 3593
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.6098895072937012,
      "learning_rate": 0.00029428512737929334,
      "loss": 2.9185,
      "step": 3594
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.5883970260620117,
      "learning_rate": 0.00029418310727096864,
      "loss": 3.01,
      "step": 3595
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.6178184151649475,
      "learning_rate": 0.00029408107956705544,
      "loss": 2.7473,
      "step": 3596
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.6279255151748657,
      "learning_rate": 0.0002939790442850937,
      "loss": 2.9196,
      "step": 3597
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.5451629161834717,
      "learning_rate": 0.0002938770014426244,
      "loss": 2.862,
      "step": 3598
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.5972615480422974,
      "learning_rate": 0.00029377495105718993,
      "loss": 3.0626,
      "step": 3599
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.563639223575592,
      "learning_rate": 0.00029367289314633383,
      "loss": 2.9372,
      "step": 3600
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.676281213760376,
      "learning_rate": 0.00029357082772760103,
      "loss": 2.9606,
      "step": 3601
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.5725522041320801,
      "learning_rate": 0.000293468754818538,
      "loss": 2.883,
      "step": 3602
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.6496027708053589,
      "learning_rate": 0.00029336667443669197,
      "loss": 2.9469,
      "step": 3603
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.7076320052146912,
      "learning_rate": 0.0002932645865996119,
      "loss": 2.9162,
      "step": 3604
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.6561512351036072,
      "learning_rate": 0.00029316249132484775,
      "loss": 2.9936,
      "step": 3605
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.5900025963783264,
      "learning_rate": 0.000293060388629951,
      "loss": 2.9598,
      "step": 3606
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.5910026431083679,
      "learning_rate": 0.0002929582785324743,
      "loss": 2.9805,
      "step": 3607
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.6685965061187744,
      "learning_rate": 0.0002928561610499714,
      "loss": 2.9291,
      "step": 3608
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.6303703188896179,
      "learning_rate": 0.0002927540361999977,
      "loss": 2.968,
      "step": 3609
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.603285551071167,
      "learning_rate": 0.0002926519040001094,
      "loss": 2.8084,
      "step": 3610
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.604529857635498,
      "learning_rate": 0.00029254976446786447,
      "loss": 2.8878,
      "step": 3611
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.5742701292037964,
      "learning_rate": 0.00029244761762082166,
      "loss": 2.9181,
      "step": 3612
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.6381419897079468,
      "learning_rate": 0.00029234546347654133,
      "loss": 2.9222,
      "step": 3613
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.6047950983047485,
      "learning_rate": 0.0002922433020525849,
      "loss": 2.9904,
      "step": 3614
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.6362344622612,
      "learning_rate": 0.0002921411333665151,
      "loss": 3.0164,
      "step": 3615
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.5670145153999329,
      "learning_rate": 0.00029203895743589597,
      "loss": 2.9543,
      "step": 3616
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.568458080291748,
      "learning_rate": 0.00029193677427829276,
      "loss": 2.936,
      "step": 3617
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.6721227169036865,
      "learning_rate": 0.0002918345839112717,
      "loss": 2.9215,
      "step": 3618
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.620711624622345,
      "learning_rate": 0.0002917323863524008,
      "loss": 2.937,
      "step": 3619
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.6093528270721436,
      "learning_rate": 0.00029163018161924885,
      "loss": 2.9944,
      "step": 3620
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.571153998374939,
      "learning_rate": 0.0002915279697293862,
      "loss": 2.8232,
      "step": 3621
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.638738214969635,
      "learning_rate": 0.0002914257507003839,
      "loss": 2.9432,
      "step": 3622
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.6096646785736084,
      "learning_rate": 0.0002913235245498149,
      "loss": 2.9736,
      "step": 3623
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.5824998617172241,
      "learning_rate": 0.000291221291295253,
      "loss": 2.9125,
      "step": 3624
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.6399387121200562,
      "learning_rate": 0.00029111905095427325,
      "loss": 2.9338,
      "step": 3625
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.6264178156852722,
      "learning_rate": 0.00029101680354445185,
      "loss": 2.9278,
      "step": 3626
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.5876225829124451,
      "learning_rate": 0.0002909145490833666,
      "loss": 2.9288,
      "step": 3627
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.6041621565818787,
      "learning_rate": 0.00029081228758859583,
      "loss": 2.9686,
      "step": 3628
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.6184371709823608,
      "learning_rate": 0.00029071001907771983,
      "loss": 3.0727,
      "step": 3629
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.5895951390266418,
      "learning_rate": 0.00029060774356831946,
      "loss": 2.9062,
      "step": 3630
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.5780163407325745,
      "learning_rate": 0.0002905054610779774,
      "loss": 2.9086,
      "step": 3631
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.6299315690994263,
      "learning_rate": 0.00029040317162427686,
      "loss": 2.9652,
      "step": 3632
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.6198425889015198,
      "learning_rate": 0.0002903008752248027,
      "loss": 2.9447,
      "step": 3633
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.6156931519508362,
      "learning_rate": 0.00029019857189714095,
      "loss": 2.8986,
      "step": 3634
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.6415172815322876,
      "learning_rate": 0.0002900962616588787,
      "loss": 2.9069,
      "step": 3635
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.5970029234886169,
      "learning_rate": 0.00028999394452760413,
      "loss": 2.9411,
      "step": 3636
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.6303966641426086,
      "learning_rate": 0.000289891620520907,
      "loss": 2.8507,
      "step": 3637
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.726269543170929,
      "learning_rate": 0.0002897892896563777,
      "loss": 3.0232,
      "step": 3638
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.6009268164634705,
      "learning_rate": 0.00028968695195160824,
      "loss": 3.0138,
      "step": 3639
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.6434032320976257,
      "learning_rate": 0.0002895846074241917,
      "loss": 2.9965,
      "step": 3640
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.609071671962738,
      "learning_rate": 0.00028948225609172224,
      "loss": 2.8915,
      "step": 3641
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.6167941689491272,
      "learning_rate": 0.0002893798979717952,
      "loss": 3.0159,
      "step": 3642
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.6265912055969238,
      "learning_rate": 0.0002892775330820072,
      "loss": 2.9164,
      "step": 3643
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.5988568067550659,
      "learning_rate": 0.00028917516143995594,
      "loss": 2.9993,
      "step": 3644
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.5840495228767395,
      "learning_rate": 0.00028907278306324025,
      "loss": 2.9711,
      "step": 3645
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.6444365382194519,
      "learning_rate": 0.0002889703979694602,
      "loss": 2.9967,
      "step": 3646
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.601607084274292,
      "learning_rate": 0.0002888680061762169,
      "loss": 2.9011,
      "step": 3647
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.5641135573387146,
      "learning_rate": 0.00028876560770111276,
      "loss": 2.9461,
      "step": 3648
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.5900180339813232,
      "learning_rate": 0.00028866320256175126,
      "loss": 2.9852,
      "step": 3649
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.6265780329704285,
      "learning_rate": 0.00028856079077573704,
      "loss": 2.9409,
      "step": 3650
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.6091045141220093,
      "learning_rate": 0.00028845837236067583,
      "loss": 2.8711,
      "step": 3651
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.6002077460289001,
      "learning_rate": 0.00028835594733417455,
      "loss": 2.9839,
      "step": 3652
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.6172164082527161,
      "learning_rate": 0.0002882535157138413,
      "loss": 2.9502,
      "step": 3653
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.6366846561431885,
      "learning_rate": 0.0002881510775172851,
      "loss": 2.9813,
      "step": 3654
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.5970963835716248,
      "learning_rate": 0.0002880486327621166,
      "loss": 3.0425,
      "step": 3655
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.6174913048744202,
      "learning_rate": 0.00028794618146594684,
      "loss": 3.0552,
      "step": 3656
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.6432133913040161,
      "learning_rate": 0.0002878437236463887,
      "loss": 2.9284,
      "step": 3657
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.5875210762023926,
      "learning_rate": 0.00028774125932105567,
      "loss": 2.9973,
      "step": 3658
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.5879389643669128,
      "learning_rate": 0.0002876387885075627,
      "loss": 2.8818,
      "step": 3659
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.589461088180542,
      "learning_rate": 0.00028753631122352565,
      "loss": 2.9699,
      "step": 3660
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.6472694873809814,
      "learning_rate": 0.00028743382748656145,
      "loss": 2.9604,
      "step": 3661
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.6212313175201416,
      "learning_rate": 0.00028733133731428836,
      "loss": 2.9608,
      "step": 3662
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.6215013265609741,
      "learning_rate": 0.0002872288407243256,
      "loss": 3.0579,
      "step": 3663
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.5881945490837097,
      "learning_rate": 0.00028712633773429356,
      "loss": 2.8906,
      "step": 3664
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.6060342192649841,
      "learning_rate": 0.0002870238283618136,
      "loss": 3.0514,
      "step": 3665
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.6103910207748413,
      "learning_rate": 0.0002869213126245084,
      "loss": 2.9745,
      "step": 3666
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.5934149622917175,
      "learning_rate": 0.0002868187905400015,
      "loss": 2.8526,
      "step": 3667
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.6345524191856384,
      "learning_rate": 0.0002867162621259177,
      "loss": 2.9642,
      "step": 3668
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.6241671442985535,
      "learning_rate": 0.00028661372739988275,
      "loss": 3.0174,
      "step": 3669
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.6199241280555725,
      "learning_rate": 0.00028651118637952356,
      "loss": 2.9301,
      "step": 3670
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.5988012552261353,
      "learning_rate": 0.00028640863908246825,
      "loss": 2.9603,
      "step": 3671
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.6661796569824219,
      "learning_rate": 0.00028630608552634567,
      "loss": 2.9787,
      "step": 3672
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.5943989753723145,
      "learning_rate": 0.0002862035257287862,
      "loss": 2.9039,
      "step": 3673
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.6055307388305664,
      "learning_rate": 0.00028610095970742097,
      "loss": 2.9708,
      "step": 3674
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.6056588888168335,
      "learning_rate": 0.00028599838747988215,
      "loss": 2.9132,
      "step": 3675
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.6178988218307495,
      "learning_rate": 0.00028589580906380324,
      "loss": 2.946,
      "step": 3676
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.6207180023193359,
      "learning_rate": 0.0002857932244768186,
      "loss": 3.0626,
      "step": 3677
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.5791420936584473,
      "learning_rate": 0.0002856906337365638,
      "loss": 2.9701,
      "step": 3678
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.5798783898353577,
      "learning_rate": 0.0002855880368606752,
      "loss": 2.8886,
      "step": 3679
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.6224749684333801,
      "learning_rate": 0.0002854854338667905,
      "loss": 3.0575,
      "step": 3680
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.6366544365882874,
      "learning_rate": 0.0002853828247725484,
      "loss": 2.9504,
      "step": 3681
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.5933722853660583,
      "learning_rate": 0.0002852802095955885,
      "loss": 3.0596,
      "step": 3682
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.6394984722137451,
      "learning_rate": 0.0002851775883535515,
      "loss": 2.9375,
      "step": 3683
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.6099306344985962,
      "learning_rate": 0.0002850749610640793,
      "loss": 2.9068,
      "step": 3684
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.6362748146057129,
      "learning_rate": 0.00028497232774481467,
      "loss": 3.0751,
      "step": 3685
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.6626014709472656,
      "learning_rate": 0.0002848696884134016,
      "loss": 3.0072,
      "step": 3686
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.6314862966537476,
      "learning_rate": 0.00028476704308748465,
      "loss": 2.9072,
      "step": 3687
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.6098029613494873,
      "learning_rate": 0.00028466439178471,
      "loss": 2.83,
      "step": 3688
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.6385564804077148,
      "learning_rate": 0.00028456173452272456,
      "loss": 2.9524,
      "step": 3689
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.6069196462631226,
      "learning_rate": 0.0002844590713191762,
      "loss": 2.9751,
      "step": 3690
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.6150919198989868,
      "learning_rate": 0.0002843564021917141,
      "loss": 2.8587,
      "step": 3691
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.6380376219749451,
      "learning_rate": 0.00028425372715798816,
      "loss": 3.0652,
      "step": 3692
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.6389625072479248,
      "learning_rate": 0.0002841510462356494,
      "loss": 2.9941,
      "step": 3693
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.6268028020858765,
      "learning_rate": 0.0002840483594423498,
      "loss": 3.014,
      "step": 3694
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.6224381923675537,
      "learning_rate": 0.00028394566679574256,
      "loss": 3.0142,
      "step": 3695
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.578429639339447,
      "learning_rate": 0.0002838429683134817,
      "loss": 2.8694,
      "step": 3696
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.6468895077705383,
      "learning_rate": 0.00028374026401322224,
      "loss": 2.8849,
      "step": 3697
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.629988431930542,
      "learning_rate": 0.00028363755391262014,
      "loss": 2.8727,
      "step": 3698
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.6660338640213013,
      "learning_rate": 0.00028353483802933267,
      "loss": 3.1,
      "step": 3699
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.581794261932373,
      "learning_rate": 0.0002834321163810178,
      "loss": 2.8923,
      "step": 3700
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.6127686500549316,
      "learning_rate": 0.0002833293889853345,
      "loss": 2.8623,
      "step": 3701
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.6048281192779541,
      "learning_rate": 0.0002832266558599428,
      "loss": 2.8633,
      "step": 3702
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.6268517374992371,
      "learning_rate": 0.0002831239170225038,
      "loss": 2.7766,
      "step": 3703
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.5853254199028015,
      "learning_rate": 0.0002830211724906794,
      "loss": 2.9987,
      "step": 3704
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.5946422219276428,
      "learning_rate": 0.0002829184222821327,
      "loss": 2.896,
      "step": 3705
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.6266127228736877,
      "learning_rate": 0.00028281566641452763,
      "loss": 2.9598,
      "step": 3706
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.5944366455078125,
      "learning_rate": 0.000282712904905529,
      "loss": 2.9363,
      "step": 3707
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.6097230315208435,
      "learning_rate": 0.00028261013777280275,
      "loss": 3.0231,
      "step": 3708
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.6015585064888,
      "learning_rate": 0.00028250736503401586,
      "loss": 2.933,
      "step": 3709
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.583013117313385,
      "learning_rate": 0.000282404586706836,
      "loss": 2.8068,
      "step": 3710
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.5819244384765625,
      "learning_rate": 0.000282301802808932,
      "loss": 3.0113,
      "step": 3711
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.5555791258811951,
      "learning_rate": 0.00028219901335797365,
      "loss": 3.015,
      "step": 3712
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.6021656394004822,
      "learning_rate": 0.00028209621837163167,
      "loss": 3.0566,
      "step": 3713
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.6166825890541077,
      "learning_rate": 0.00028199341786757764,
      "loss": 2.8401,
      "step": 3714
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.6062285304069519,
      "learning_rate": 0.0002818906118634841,
      "loss": 3.0945,
      "step": 3715
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.5784920454025269,
      "learning_rate": 0.0002817878003770247,
      "loss": 3.0373,
      "step": 3716
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.6135212182998657,
      "learning_rate": 0.000281684983425874,
      "loss": 2.9253,
      "step": 3717
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.5916345715522766,
      "learning_rate": 0.0002815821610277073,
      "loss": 2.9754,
      "step": 3718
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.5909318923950195,
      "learning_rate": 0.00028147933320020084,
      "loss": 2.9145,
      "step": 3719
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.6094480156898499,
      "learning_rate": 0.0002813764999610322,
      "loss": 2.9204,
      "step": 3720
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.5969849824905396,
      "learning_rate": 0.0002812736613278794,
      "loss": 2.9047,
      "step": 3721
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.6514359712600708,
      "learning_rate": 0.0002811708173184217,
      "loss": 2.9924,
      "step": 3722
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.5733931064605713,
      "learning_rate": 0.00028106796795033916,
      "loss": 2.8627,
      "step": 3723
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.6449311375617981,
      "learning_rate": 0.00028096511324131275,
      "loss": 2.9199,
      "step": 3724
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.7085817456245422,
      "learning_rate": 0.0002808622532090244,
      "loss": 3.0547,
      "step": 3725
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.6099315285682678,
      "learning_rate": 0.00028075938787115685,
      "loss": 2.8928,
      "step": 3726
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.6486427783966064,
      "learning_rate": 0.00028065651724539404,
      "loss": 2.8726,
      "step": 3727
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.612903356552124,
      "learning_rate": 0.00028055364134942047,
      "loss": 2.9009,
      "step": 3728
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.6054706573486328,
      "learning_rate": 0.00028045076020092176,
      "loss": 2.853,
      "step": 3729
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.5789936780929565,
      "learning_rate": 0.00028034787381758433,
      "loss": 2.9314,
      "step": 3730
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.6160373091697693,
      "learning_rate": 0.00028024498221709555,
      "loss": 2.8728,
      "step": 3731
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.6732138395309448,
      "learning_rate": 0.0002801420854171438,
      "loss": 2.9615,
      "step": 3732
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.7211148142814636,
      "learning_rate": 0.000280039183435418,
      "loss": 3.0325,
      "step": 3733
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.5969041585922241,
      "learning_rate": 0.0002799362762896084,
      "loss": 2.9786,
      "step": 3734
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.5758945345878601,
      "learning_rate": 0.00027983336399740584,
      "loss": 3.0292,
      "step": 3735
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.5985481142997742,
      "learning_rate": 0.00027973044657650213,
      "loss": 2.9288,
      "step": 3736
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.6116333603858948,
      "learning_rate": 0.00027962752404459,
      "loss": 2.9356,
      "step": 3737
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.6626201868057251,
      "learning_rate": 0.0002795245964193631,
      "loss": 2.9103,
      "step": 3738
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.6177436709403992,
      "learning_rate": 0.00027942166371851566,
      "loss": 2.9877,
      "step": 3739
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.5892031192779541,
      "learning_rate": 0.0002793187259597432,
      "loss": 2.9819,
      "step": 3740
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.616186261177063,
      "learning_rate": 0.0002792157831607418,
      "loss": 2.906,
      "step": 3741
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.6024999618530273,
      "learning_rate": 0.00027911283533920865,
      "loss": 2.9528,
      "step": 3742
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.6077515482902527,
      "learning_rate": 0.0002790098825128416,
      "loss": 2.9165,
      "step": 3743
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.599138081073761,
      "learning_rate": 0.0002789069246993394,
      "loss": 2.8948,
      "step": 3744
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.6352767944335938,
      "learning_rate": 0.0002788039619164017,
      "loss": 3.0078,
      "step": 3745
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.6196271181106567,
      "learning_rate": 0.0002787009941817291,
      "loss": 3.0646,
      "step": 3746
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.6407674551010132,
      "learning_rate": 0.0002785980215130228,
      "loss": 2.9633,
      "step": 3747
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.567623496055603,
      "learning_rate": 0.0002784950439279852,
      "loss": 3.0516,
      "step": 3748
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.6272748112678528,
      "learning_rate": 0.00027839206144431906,
      "loss": 2.9335,
      "step": 3749
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.6030110120773315,
      "learning_rate": 0.0002782890740797285,
      "loss": 2.9859,
      "step": 3750
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.5959221124649048,
      "learning_rate": 0.0002781860818519181,
      "loss": 3.0768,
      "step": 3751
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.6241797804832458,
      "learning_rate": 0.0002780830847785935,
      "loss": 3.0306,
      "step": 3752
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.6138156652450562,
      "learning_rate": 0.00027798008287746096,
      "loss": 2.9676,
      "step": 3753
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.6178674697875977,
      "learning_rate": 0.0002778770761662279,
      "loss": 3.0062,
      "step": 3754
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.6274242997169495,
      "learning_rate": 0.0002777740646626022,
      "loss": 2.9855,
      "step": 3755
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.6332784295082092,
      "learning_rate": 0.00027767104838429283,
      "loss": 2.9711,
      "step": 3756
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.1863716840744019,
      "learning_rate": 0.00027756802734900957,
      "loss": 2.9944,
      "step": 3757
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.6612849831581116,
      "learning_rate": 0.0002774650015744626,
      "loss": 2.9542,
      "step": 3758
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.604479968547821,
      "learning_rate": 0.00027736197107836356,
      "loss": 2.9511,
      "step": 3759
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.6447566747665405,
      "learning_rate": 0.00027725893587842457,
      "loss": 2.9334,
      "step": 3760
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.5931410193443298,
      "learning_rate": 0.00027715589599235834,
      "loss": 3.0167,
      "step": 3761
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.5722781419754028,
      "learning_rate": 0.0002770528514378788,
      "loss": 3.0789,
      "step": 3762
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.6146397590637207,
      "learning_rate": 0.00027694980223270054,
      "loss": 2.9733,
      "step": 3763
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.6874955296516418,
      "learning_rate": 0.00027684674839453886,
      "loss": 3.0168,
      "step": 3764
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.5665222406387329,
      "learning_rate": 0.0002767436899411098,
      "loss": 2.9481,
      "step": 3765
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.6665346622467041,
      "learning_rate": 0.00027664062689013055,
      "loss": 2.9155,
      "step": 3766
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.6439955830574036,
      "learning_rate": 0.0002765375592593186,
      "loss": 2.9115,
      "step": 3767
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.6287325620651245,
      "learning_rate": 0.0002764344870663925,
      "loss": 2.9311,
      "step": 3768
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.6545403599739075,
      "learning_rate": 0.00027633141032907166,
      "loss": 3.0847,
      "step": 3769
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.5439910888671875,
      "learning_rate": 0.00027622832906507624,
      "loss": 2.8474,
      "step": 3770
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.6638146042823792,
      "learning_rate": 0.00027612524329212685,
      "loss": 2.9368,
      "step": 3771
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.6501027345657349,
      "learning_rate": 0.0002760221530279453,
      "loss": 2.9687,
      "step": 3772
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.6059489250183105,
      "learning_rate": 0.000275919058290254,
      "loss": 3.116,
      "step": 3773
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.6463274955749512,
      "learning_rate": 0.00027581595909677607,
      "loss": 2.939,
      "step": 3774
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.6120335459709167,
      "learning_rate": 0.00027571285546523555,
      "loss": 2.8831,
      "step": 3775
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.6292805075645447,
      "learning_rate": 0.00027560974741335696,
      "loss": 2.9216,
      "step": 3776
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.6102002263069153,
      "learning_rate": 0.000275506634958866,
      "loss": 3.0149,
      "step": 3777
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.5948127508163452,
      "learning_rate": 0.0002754035181194888,
      "loss": 2.9817,
      "step": 3778
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.6158462166786194,
      "learning_rate": 0.00027530039691295224,
      "loss": 2.9097,
      "step": 3779
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.5911230444908142,
      "learning_rate": 0.0002751972713569842,
      "loss": 2.8871,
      "step": 3780
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.5814444422721863,
      "learning_rate": 0.00027509414146931313,
      "loss": 2.9274,
      "step": 3781
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.6097106337547302,
      "learning_rate": 0.00027499100726766817,
      "loss": 2.9213,
      "step": 3782
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.6021100878715515,
      "learning_rate": 0.0002748878687697794,
      "loss": 2.892,
      "step": 3783
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.6108913421630859,
      "learning_rate": 0.0002747847259933774,
      "loss": 3.0056,
      "step": 3784
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.6384467482566833,
      "learning_rate": 0.0002746815789561938,
      "loss": 3.0577,
      "step": 3785
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.6313115358352661,
      "learning_rate": 0.0002745784276759605,
      "loss": 2.9871,
      "step": 3786
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.6093031167984009,
      "learning_rate": 0.00027447527217041055,
      "loss": 3.0115,
      "step": 3787
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.6843194365501404,
      "learning_rate": 0.00027437211245727764,
      "loss": 2.9883,
      "step": 3788
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.6116477251052856,
      "learning_rate": 0.0002742689485542961,
      "loss": 2.9887,
      "step": 3789
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.6183964014053345,
      "learning_rate": 0.0002741657804792008,
      "loss": 2.7872,
      "step": 3790
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.5732274055480957,
      "learning_rate": 0.0002740626082497277,
      "loss": 2.9004,
      "step": 3791
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.6605201959609985,
      "learning_rate": 0.00027395943188361345,
      "loss": 3.0026,
      "step": 3792
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.6186334490776062,
      "learning_rate": 0.000273856251398595,
      "loss": 3.0184,
      "step": 3793
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.5699488520622253,
      "learning_rate": 0.0002737530668124104,
      "loss": 3.0049,
      "step": 3794
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.5721125602722168,
      "learning_rate": 0.0002736498781427981,
      "loss": 2.8082,
      "step": 3795
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.6080161929130554,
      "learning_rate": 0.00027354668540749774,
      "loss": 2.8727,
      "step": 3796
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.6067801713943481,
      "learning_rate": 0.0002734434886242491,
      "loss": 2.8987,
      "step": 3797
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.6112497448921204,
      "learning_rate": 0.000273340287810793,
      "loss": 2.8778,
      "step": 3798
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.6374089121818542,
      "learning_rate": 0.00027323708298487094,
      "loss": 2.9286,
      "step": 3799
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.6432404518127441,
      "learning_rate": 0.0002731338741642248,
      "loss": 2.9492,
      "step": 3800
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.6440799832344055,
      "learning_rate": 0.0002730306613665975,
      "loss": 2.9628,
      "step": 3801
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.5945125818252563,
      "learning_rate": 0.00027292744460973256,
      "loss": 2.9051,
      "step": 3802
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.6095211505889893,
      "learning_rate": 0.0002728242239113741,
      "loss": 2.9365,
      "step": 3803
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.566519021987915,
      "learning_rate": 0.00027272099928926695,
      "loss": 2.9106,
      "step": 3804
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.59978848695755,
      "learning_rate": 0.00027261777076115657,
      "loss": 2.9684,
      "step": 3805
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.622164785861969,
      "learning_rate": 0.0002725145383447893,
      "loss": 2.999,
      "step": 3806
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.5568637251853943,
      "learning_rate": 0.0002724113020579118,
      "loss": 2.8238,
      "step": 3807
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.612868070602417,
      "learning_rate": 0.00027230806191827164,
      "loss": 2.979,
      "step": 3808
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.6038264036178589,
      "learning_rate": 0.00027220481794361704,
      "loss": 2.9692,
      "step": 3809
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.6093004941940308,
      "learning_rate": 0.00027210157015169687,
      "loss": 2.8156,
      "step": 3810
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.5728479623794556,
      "learning_rate": 0.00027199831856026044,
      "loss": 2.7535,
      "step": 3811
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.659058690071106,
      "learning_rate": 0.00027189506318705815,
      "loss": 2.8708,
      "step": 3812
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.6059697866439819,
      "learning_rate": 0.0002717918040498406,
      "loss": 2.9055,
      "step": 3813
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.6104544997215271,
      "learning_rate": 0.0002716885411663593,
      "loss": 3.0779,
      "step": 3814
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.5838839411735535,
      "learning_rate": 0.0002715852745543663,
      "loss": 2.9838,
      "step": 3815
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.6205176711082458,
      "learning_rate": 0.0002714820042316145,
      "loss": 2.8254,
      "step": 3816
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.6175028681755066,
      "learning_rate": 0.0002713787302158571,
      "loss": 2.9062,
      "step": 3817
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.6298617124557495,
      "learning_rate": 0.000271275452524848,
      "loss": 2.8989,
      "step": 3818
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.6329352855682373,
      "learning_rate": 0.00027117217117634206,
      "loss": 3.0021,
      "step": 3819
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.6576290726661682,
      "learning_rate": 0.0002710688861880945,
      "loss": 3.031,
      "step": 3820
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.6088535189628601,
      "learning_rate": 0.0002709655975778611,
      "loss": 2.9755,
      "step": 3821
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.6398269534111023,
      "learning_rate": 0.0002708623053633984,
      "loss": 2.9313,
      "step": 3822
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.5883299708366394,
      "learning_rate": 0.00027075900956246353,
      "loss": 2.8643,
      "step": 3823
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.60724276304245,
      "learning_rate": 0.0002706557101928143,
      "loss": 2.8665,
      "step": 3824
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.5729139447212219,
      "learning_rate": 0.0002705524072722091,
      "loss": 2.9767,
      "step": 3825
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.6033673882484436,
      "learning_rate": 0.00027044910081840665,
      "loss": 2.9617,
      "step": 3826
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.6182747483253479,
      "learning_rate": 0.0002703457908491668,
      "loss": 2.9181,
      "step": 3827
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.6681275963783264,
      "learning_rate": 0.0002702424773822497,
      "loss": 2.9141,
      "step": 3828
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.6071639060974121,
      "learning_rate": 0.00027013916043541595,
      "loss": 2.8626,
      "step": 3829
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.631972074508667,
      "learning_rate": 0.0002700358400264271,
      "loss": 3.0363,
      "step": 3830
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.5945940017700195,
      "learning_rate": 0.00026993251617304513,
      "loss": 2.9631,
      "step": 3831
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.5741074681282043,
      "learning_rate": 0.0002698291888930325,
      "loss": 2.9976,
      "step": 3832
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.6411799192428589,
      "learning_rate": 0.00026972585820415234,
      "loss": 2.9639,
      "step": 3833
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.6285744309425354,
      "learning_rate": 0.0002696225241241686,
      "loss": 2.9662,
      "step": 3834
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.5942161083221436,
      "learning_rate": 0.00026951918667084547,
      "loss": 2.8513,
      "step": 3835
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.5664692521095276,
      "learning_rate": 0.00026941584586194777,
      "loss": 2.9578,
      "step": 3836
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.5721989870071411,
      "learning_rate": 0.00026931250171524114,
      "loss": 2.9841,
      "step": 3837
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.6202256679534912,
      "learning_rate": 0.00026920915424849155,
      "loss": 2.9529,
      "step": 3838
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.6599987149238586,
      "learning_rate": 0.00026910580347946575,
      "loss": 3.036,
      "step": 3839
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.5886691212654114,
      "learning_rate": 0.00026900244942593067,
      "loss": 2.881,
      "step": 3840
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.6404657363891602,
      "learning_rate": 0.00026889909210565434,
      "loss": 3.0201,
      "step": 3841
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.6076868772506714,
      "learning_rate": 0.00026879573153640497,
      "loss": 3.0454,
      "step": 3842
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.5611618161201477,
      "learning_rate": 0.00026869236773595145,
      "loss": 2.9225,
      "step": 3843
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.6002106666564941,
      "learning_rate": 0.0002685890007220632,
      "loss": 2.8875,
      "step": 3844
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.6320683360099792,
      "learning_rate": 0.0002684856305125103,
      "loss": 2.8966,
      "step": 3845
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.5893837213516235,
      "learning_rate": 0.0002683822571250631,
      "loss": 2.9397,
      "step": 3846
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.5958678722381592,
      "learning_rate": 0.00026827888057749275,
      "loss": 2.83,
      "step": 3847
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.5928441882133484,
      "learning_rate": 0.0002681755008875711,
      "loss": 2.9177,
      "step": 3848
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.5677928924560547,
      "learning_rate": 0.0002680721180730701,
      "loss": 2.9701,
      "step": 3849
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.6066641807556152,
      "learning_rate": 0.0002679687321517624,
      "loss": 3.0045,
      "step": 3850
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.5995691418647766,
      "learning_rate": 0.00026786534314142136,
      "loss": 2.9772,
      "step": 3851
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.6566069722175598,
      "learning_rate": 0.0002677619510598208,
      "loss": 2.9445,
      "step": 3852
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.5931857824325562,
      "learning_rate": 0.0002676585559247349,
      "loss": 2.8411,
      "step": 3853
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.590118408203125,
      "learning_rate": 0.0002675551577539384,
      "loss": 2.8093,
      "step": 3854
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.6533594727516174,
      "learning_rate": 0.0002674517565652069,
      "loss": 2.7718,
      "step": 3855
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.5978877544403076,
      "learning_rate": 0.00026734835237631605,
      "loss": 2.9563,
      "step": 3856
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.598373532295227,
      "learning_rate": 0.0002672449452050424,
      "loss": 2.9831,
      "step": 3857
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.5808767676353455,
      "learning_rate": 0.0002671415350691627,
      "loss": 2.8944,
      "step": 3858
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.6169744729995728,
      "learning_rate": 0.0002670381219864544,
      "loss": 2.9736,
      "step": 3859
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.5734256505966187,
      "learning_rate": 0.0002669347059746954,
      "loss": 2.9211,
      "step": 3860
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.6161428093910217,
      "learning_rate": 0.00026683128705166416,
      "loss": 2.8762,
      "step": 3861
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.6160618662834167,
      "learning_rate": 0.00026672786523513947,
      "loss": 2.9113,
      "step": 3862
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.6468607187271118,
      "learning_rate": 0.00026662444054290085,
      "loss": 2.9144,
      "step": 3863
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.6647085547447205,
      "learning_rate": 0.0002665210129927282,
      "loss": 2.9673,
      "step": 3864
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.6037184000015259,
      "learning_rate": 0.00026641758260240184,
      "loss": 3.0736,
      "step": 3865
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.6564996242523193,
      "learning_rate": 0.0002663141493897028,
      "loss": 2.9748,
      "step": 3866
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.5800567269325256,
      "learning_rate": 0.00026621071337241226,
      "loss": 2.9231,
      "step": 3867
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.6734585165977478,
      "learning_rate": 0.00026610727456831217,
      "loss": 2.8826,
      "step": 3868
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.5946572422981262,
      "learning_rate": 0.0002660038329951849,
      "loss": 2.894,
      "step": 3869
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.584523618221283,
      "learning_rate": 0.00026590038867081316,
      "loss": 2.8837,
      "step": 3870
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.6377145051956177,
      "learning_rate": 0.0002657969416129803,
      "loss": 2.9006,
      "step": 3871
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.5891445279121399,
      "learning_rate": 0.00026569349183947,
      "loss": 2.8995,
      "step": 3872
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.5899426937103271,
      "learning_rate": 0.0002655900393680666,
      "loss": 3.0001,
      "step": 3873
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.5963461995124817,
      "learning_rate": 0.00026548658421655464,
      "loss": 2.9847,
      "step": 3874
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.6274058222770691,
      "learning_rate": 0.00026538312640271935,
      "loss": 3.0149,
      "step": 3875
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.6069022417068481,
      "learning_rate": 0.0002652796659443462,
      "loss": 3.0691,
      "step": 3876
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.6070377826690674,
      "learning_rate": 0.00026517620285922144,
      "loss": 2.9456,
      "step": 3877
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.5905126929283142,
      "learning_rate": 0.00026507273716513144,
      "loss": 2.9226,
      "step": 3878
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.6138250231742859,
      "learning_rate": 0.00026496926887986324,
      "loss": 2.9485,
      "step": 3879
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.603581964969635,
      "learning_rate": 0.00026486579802120406,
      "loss": 2.9088,
      "step": 3880
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.6367437243461609,
      "learning_rate": 0.00026476232460694195,
      "loss": 2.8701,
      "step": 3881
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.5498884320259094,
      "learning_rate": 0.0002646588486548651,
      "loss": 2.9812,
      "step": 3882
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.6179314851760864,
      "learning_rate": 0.0002645553701827621,
      "loss": 3.0012,
      "step": 3883
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.626007080078125,
      "learning_rate": 0.0002644518892084224,
      "loss": 3.0162,
      "step": 3884
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.5851833820343018,
      "learning_rate": 0.0002643484057496353,
      "loss": 2.9342,
      "step": 3885
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.6246249675750732,
      "learning_rate": 0.00026424491982419095,
      "loss": 3.0143,
      "step": 3886
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.6033638715744019,
      "learning_rate": 0.00026414143144987975,
      "loss": 3.0575,
      "step": 3887
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.668095052242279,
      "learning_rate": 0.0002640379406444925,
      "loss": 2.947,
      "step": 3888
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.5951277613639832,
      "learning_rate": 0.0002639344474258206,
      "loss": 2.8836,
      "step": 3889
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.574365496635437,
      "learning_rate": 0.00026383095181165553,
      "loss": 2.8467,
      "step": 3890
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.6174763441085815,
      "learning_rate": 0.0002637274538197896,
      "loss": 2.9611,
      "step": 3891
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.5733680129051208,
      "learning_rate": 0.0002636239534680151,
      "loss": 2.8888,
      "step": 3892
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.6469135284423828,
      "learning_rate": 0.00026352045077412516,
      "loss": 2.9918,
      "step": 3893
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.5845389366149902,
      "learning_rate": 0.0002634169457559129,
      "loss": 3.0277,
      "step": 3894
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.6664512753486633,
      "learning_rate": 0.0002633134384311722,
      "loss": 2.9939,
      "step": 3895
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.5839046239852905,
      "learning_rate": 0.0002632099288176971,
      "loss": 2.9777,
      "step": 3896
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.6056178212165833,
      "learning_rate": 0.00026310641693328205,
      "loss": 3.0388,
      "step": 3897
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.6004405617713928,
      "learning_rate": 0.000263002902795722,
      "loss": 2.8917,
      "step": 3898
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.6283935308456421,
      "learning_rate": 0.0002628993864228122,
      "loss": 2.9673,
      "step": 3899
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.6058457493782043,
      "learning_rate": 0.0002627958678323484,
      "loss": 2.7873,
      "step": 3900
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.6117200255393982,
      "learning_rate": 0.0002626923470421264,
      "loss": 3.0595,
      "step": 3901
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.6365820169448853,
      "learning_rate": 0.000262588824069943,
      "loss": 3.0028,
      "step": 3902
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.6000595092773438,
      "learning_rate": 0.00026248529893359475,
      "loss": 2.9236,
      "step": 3903
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.6030445694923401,
      "learning_rate": 0.0002623817716508788,
      "loss": 2.9956,
      "step": 3904
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.6193148493766785,
      "learning_rate": 0.00026227824223959287,
      "loss": 2.9601,
      "step": 3905
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.6087068915367126,
      "learning_rate": 0.00026217471071753463,
      "loss": 2.8321,
      "step": 3906
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.5790747404098511,
      "learning_rate": 0.00026207117710250254,
      "loss": 2.9454,
      "step": 3907
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.6313025951385498,
      "learning_rate": 0.0002619676414122952,
      "loss": 2.9693,
      "step": 3908
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.5981582403182983,
      "learning_rate": 0.0002618641036647115,
      "loss": 2.9071,
      "step": 3909
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.6014620661735535,
      "learning_rate": 0.0002617605638775509,
      "loss": 2.929,
      "step": 3910
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.640153169631958,
      "learning_rate": 0.000261657022068613,
      "loss": 3.0147,
      "step": 3911
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.6022208333015442,
      "learning_rate": 0.00026155347825569783,
      "loss": 2.8439,
      "step": 3912
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.6017699241638184,
      "learning_rate": 0.0002614499324566059,
      "loss": 2.9517,
      "step": 3913
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.6468719244003296,
      "learning_rate": 0.0002613463846891377,
      "loss": 3.0298,
      "step": 3914
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.683030903339386,
      "learning_rate": 0.00026124283497109445,
      "loss": 3.1203,
      "step": 3915
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.6004468202590942,
      "learning_rate": 0.00026113928332027763,
      "loss": 2.8875,
      "step": 3916
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.566138744354248,
      "learning_rate": 0.00026103572975448884,
      "loss": 2.8443,
      "step": 3917
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.6874156594276428,
      "learning_rate": 0.0002609321742915302,
      "loss": 2.9523,
      "step": 3918
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.6367086172103882,
      "learning_rate": 0.000260828616949204,
      "loss": 2.8477,
      "step": 3919
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.6186424493789673,
      "learning_rate": 0.00026072505774531304,
      "loss": 2.8726,
      "step": 3920
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.6008095741271973,
      "learning_rate": 0.0002606214966976603,
      "loss": 2.9905,
      "step": 3921
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.5599708557128906,
      "learning_rate": 0.00026051793382404916,
      "loss": 2.956,
      "step": 3922
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.6121516227722168,
      "learning_rate": 0.0002604143691422833,
      "loss": 2.8443,
      "step": 3923
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.6624613404273987,
      "learning_rate": 0.00026031080267016664,
      "loss": 2.9961,
      "step": 3924
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.5951286554336548,
      "learning_rate": 0.0002602072344255034,
      "loss": 2.8861,
      "step": 3925
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.6499630808830261,
      "learning_rate": 0.0002601036644260982,
      "loss": 2.9742,
      "step": 3926
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.6002294421195984,
      "learning_rate": 0.00026000009268975613,
      "loss": 3.0342,
      "step": 3927
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.5925780534744263,
      "learning_rate": 0.0002598965192342821,
      "loss": 2.8433,
      "step": 3928
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.6153067350387573,
      "learning_rate": 0.0002597929440774816,
      "loss": 3.1071,
      "step": 3929
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.6710523366928101,
      "learning_rate": 0.0002596893672371605,
      "loss": 2.9124,
      "step": 3930
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.6440608501434326,
      "learning_rate": 0.00025958578873112496,
      "loss": 3.0817,
      "step": 3931
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.5881731510162354,
      "learning_rate": 0.0002594822085771812,
      "loss": 2.8874,
      "step": 3932
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.5501478314399719,
      "learning_rate": 0.00025937862679313573,
      "loss": 2.9634,
      "step": 3933
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.5925726294517517,
      "learning_rate": 0.00025927504339679565,
      "loss": 2.8667,
      "step": 3934
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.5532252788543701,
      "learning_rate": 0.0002591714584059681,
      "loss": 2.984,
      "step": 3935
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.5732356905937195,
      "learning_rate": 0.0002590678718384605,
      "loss": 2.9459,
      "step": 3936
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.5850982069969177,
      "learning_rate": 0.0002589642837120807,
      "loss": 2.9851,
      "step": 3937
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.5821860432624817,
      "learning_rate": 0.00025886069404463646,
      "loss": 3.0114,
      "step": 3938
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.641854465007782,
      "learning_rate": 0.00025875710285393634,
      "loss": 3.0544,
      "step": 3939
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.5618529915809631,
      "learning_rate": 0.0002586535101577886,
      "loss": 2.9125,
      "step": 3940
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.6126790642738342,
      "learning_rate": 0.00025854991597400217,
      "loss": 2.8846,
      "step": 3941
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.5868883728981018,
      "learning_rate": 0.0002584463203203861,
      "loss": 2.8828,
      "step": 3942
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.6201269626617432,
      "learning_rate": 0.00025834272321474964,
      "loss": 2.9167,
      "step": 3943
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.5931774377822876,
      "learning_rate": 0.0002582391246749023,
      "loss": 3.0067,
      "step": 3944
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.573501467704773,
      "learning_rate": 0.000258135524718654,
      "loss": 2.8944,
      "step": 3945
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.6062823534011841,
      "learning_rate": 0.00025803192336381465,
      "loss": 2.8377,
      "step": 3946
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.6274380683898926,
      "learning_rate": 0.0002579283206281945,
      "loss": 3.0161,
      "step": 3947
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.6201508641242981,
      "learning_rate": 0.0002578247165296041,
      "loss": 2.9202,
      "step": 3948
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.6461248993873596,
      "learning_rate": 0.0002577211110858543,
      "loss": 3.0751,
      "step": 3949
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.5818858742713928,
      "learning_rate": 0.00025761750431475605,
      "loss": 2.8138,
      "step": 3950
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.582101047039032,
      "learning_rate": 0.0002575138962341204,
      "loss": 2.9888,
      "step": 3951
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.5789836645126343,
      "learning_rate": 0.00025741028686175887,
      "loss": 2.925,
      "step": 3952
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.5803152322769165,
      "learning_rate": 0.0002573066762154832,
      "loss": 2.9606,
      "step": 3953
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.6121762990951538,
      "learning_rate": 0.0002572030643131051,
      "loss": 2.9614,
      "step": 3954
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.633686363697052,
      "learning_rate": 0.00025709945117243676,
      "loss": 2.8605,
      "step": 3955
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.5907959342002869,
      "learning_rate": 0.0002569958368112905,
      "loss": 2.9741,
      "step": 3956
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.6289451718330383,
      "learning_rate": 0.00025689222124747877,
      "loss": 2.9787,
      "step": 3957
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.6192685961723328,
      "learning_rate": 0.00025678860449881427,
      "loss": 2.8992,
      "step": 3958
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.6002392768859863,
      "learning_rate": 0.00025668498658311,
      "loss": 2.9944,
      "step": 3959
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.6101029515266418,
      "learning_rate": 0.00025658136751817906,
      "loss": 3.0098,
      "step": 3960
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.59379643201828,
      "learning_rate": 0.0002564777473218347,
      "loss": 2.8015,
      "step": 3961
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.6131369471549988,
      "learning_rate": 0.0002563741260118904,
      "loss": 2.9925,
      "step": 3962
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.6452305912971497,
      "learning_rate": 0.0002562705036061601,
      "loss": 3.0443,
      "step": 3963
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.5789313912391663,
      "learning_rate": 0.0002561668801224575,
      "loss": 3.0808,
      "step": 3964
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.6376837491989136,
      "learning_rate": 0.00025606325557859665,
      "loss": 2.9853,
      "step": 3965
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.5751471519470215,
      "learning_rate": 0.00025595962999239185,
      "loss": 2.9298,
      "step": 3966
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.6324475407600403,
      "learning_rate": 0.00025585600338165764,
      "loss": 3.1783,
      "step": 3967
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.6090250015258789,
      "learning_rate": 0.00025575237576420864,
      "loss": 2.9631,
      "step": 3968
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.5866228342056274,
      "learning_rate": 0.00025564874715785943,
      "loss": 2.8111,
      "step": 3969
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.6105037331581116,
      "learning_rate": 0.00025554511758042514,
      "loss": 2.6954,
      "step": 3970
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.611310601234436,
      "learning_rate": 0.00025544148704972084,
      "loss": 2.9241,
      "step": 3971
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.6080861687660217,
      "learning_rate": 0.00025533785558356175,
      "loss": 2.8521,
      "step": 3972
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.590385913848877,
      "learning_rate": 0.00025523422319976354,
      "loss": 2.9469,
      "step": 3973
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.5942552089691162,
      "learning_rate": 0.00025513058991614166,
      "loss": 3.0685,
      "step": 3974
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.5677163004875183,
      "learning_rate": 0.0002550269557505118,
      "loss": 2.8228,
      "step": 3975
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.5950755476951599,
      "learning_rate": 0.00025492332072069,
      "loss": 2.9044,
      "step": 3976
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.6068591475486755,
      "learning_rate": 0.00025481968484449236,
      "loss": 2.8882,
      "step": 3977
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.6244377493858337,
      "learning_rate": 0.00025471604813973503,
      "loss": 2.9656,
      "step": 3978
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.654833197593689,
      "learning_rate": 0.0002546124106242343,
      "loss": 3.029,
      "step": 3979
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.5528206825256348,
      "learning_rate": 0.00025450877231580665,
      "loss": 2.9808,
      "step": 3980
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.632676899433136,
      "learning_rate": 0.0002544051332322689,
      "loss": 2.936,
      "step": 3981
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.5742250084877014,
      "learning_rate": 0.0002543014933914376,
      "loss": 2.9747,
      "step": 3982
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.6100073456764221,
      "learning_rate": 0.0002541978528111297,
      "loss": 3.0113,
      "step": 3983
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.5894581079483032,
      "learning_rate": 0.00025409421150916235,
      "loss": 2.8983,
      "step": 3984
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.610115110874176,
      "learning_rate": 0.0002539905695033524,
      "loss": 2.8949,
      "step": 3985
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.5801562070846558,
      "learning_rate": 0.0002538869268115175,
      "loss": 2.8957,
      "step": 3986
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.610541045665741,
      "learning_rate": 0.0002537832834514747,
      "loss": 2.8806,
      "step": 3987
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.6043915748596191,
      "learning_rate": 0.0002536796394410416,
      "loss": 2.9403,
      "step": 3988
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.6260506510734558,
      "learning_rate": 0.00025357599479803586,
      "loss": 2.9389,
      "step": 3989
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.5648842453956604,
      "learning_rate": 0.00025347234954027506,
      "loss": 2.8876,
      "step": 3990
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.5717801451683044,
      "learning_rate": 0.0002533687036855772,
      "loss": 2.9382,
      "step": 3991
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.5769204497337341,
      "learning_rate": 0.0002532650572517602,
      "loss": 2.9215,
      "step": 3992
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.6074619293212891,
      "learning_rate": 0.00025316141025664193,
      "loss": 2.8733,
      "step": 3993
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.6332666873931885,
      "learning_rate": 0.0002530577627180405,
      "loss": 3.0086,
      "step": 3994
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.6255427598953247,
      "learning_rate": 0.0002529541146537743,
      "loss": 2.9086,
      "step": 3995
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.6384280920028687,
      "learning_rate": 0.00025285046608166165,
      "loss": 3.0071,
      "step": 3996
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.5906675457954407,
      "learning_rate": 0.0002527468170195207,
      "loss": 2.8501,
      "step": 3997
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.5902729630470276,
      "learning_rate": 0.0002526431674851701,
      "loss": 2.9553,
      "step": 3998
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.6018494963645935,
      "learning_rate": 0.0002525395174964283,
      "loss": 3.0882,
      "step": 3999
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.6019244194030762,
      "learning_rate": 0.0002524358670711141,
      "loss": 3.1341,
      "step": 4000
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.6058797836303711,
      "learning_rate": 0.00025233221622704606,
      "loss": 2.8816,
      "step": 4001
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.5608034133911133,
      "learning_rate": 0.000252228564982043,
      "loss": 3.0201,
      "step": 4002
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.6156141757965088,
      "learning_rate": 0.0002521249133539238,
      "loss": 2.9455,
      "step": 4003
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.5752647519111633,
      "learning_rate": 0.0002520212613605074,
      "loss": 2.8198,
      "step": 4004
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.5589380264282227,
      "learning_rate": 0.0002519176090196127,
      "loss": 2.902,
      "step": 4005
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.6397976279258728,
      "learning_rate": 0.0002518139563490588,
      "loss": 2.8852,
      "step": 4006
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.5724208354949951,
      "learning_rate": 0.0002517103033666648,
      "loss": 2.8717,
      "step": 4007
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.6004722714424133,
      "learning_rate": 0.0002516066500902497,
      "loss": 2.8114,
      "step": 4008
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.5959789752960205,
      "learning_rate": 0.0002515029965376329,
      "loss": 2.8038,
      "step": 4009
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.60777348279953,
      "learning_rate": 0.0002513993427266336,
      "loss": 3.023,
      "step": 4010
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.5947540998458862,
      "learning_rate": 0.00025129568867507103,
      "loss": 3.018,
      "step": 4011
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.6287644505500793,
      "learning_rate": 0.00025119203440076453,
      "loss": 2.9378,
      "step": 4012
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.6223940253257751,
      "learning_rate": 0.00025108837992153353,
      "loss": 3.0344,
      "step": 4013
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.6557832956314087,
      "learning_rate": 0.0002509847252551974,
      "loss": 2.9546,
      "step": 4014
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.671099066734314,
      "learning_rate": 0.00025088107041957566,
      "loss": 2.9536,
      "step": 4015
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.5480597615242004,
      "learning_rate": 0.0002507774154324876,
      "loss": 2.9131,
      "step": 4016
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.6115483641624451,
      "learning_rate": 0.0002506737603117528,
      "loss": 2.9695,
      "step": 4017
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.6047357320785522,
      "learning_rate": 0.0002505701050751909,
      "loss": 2.8476,
      "step": 4018
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.5846441388130188,
      "learning_rate": 0.00025046644974062123,
      "loss": 2.9209,
      "step": 4019
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.6513275504112244,
      "learning_rate": 0.0002503627943258635,
      "loss": 2.8354,
      "step": 4020
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.5879514813423157,
      "learning_rate": 0.00025025913884873727,
      "loss": 2.9527,
      "step": 4021
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.5799499154090881,
      "learning_rate": 0.0002501554833270619,
      "loss": 2.9938,
      "step": 4022
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.6449344754219055,
      "learning_rate": 0.00025005182777865725,
      "loss": 2.8265,
      "step": 4023
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.6408109068870544,
      "learning_rate": 0.00024994817222134276,
      "loss": 2.8939,
      "step": 4024
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.6155521273612976,
      "learning_rate": 0.0002498445166729381,
      "loss": 2.8868,
      "step": 4025
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.5922175645828247,
      "learning_rate": 0.0002497408611512628,
      "loss": 3.0049,
      "step": 4026
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.6362659931182861,
      "learning_rate": 0.0002496372056741365,
      "loss": 3.0269,
      "step": 4027
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.5838228464126587,
      "learning_rate": 0.0002495335502593788,
      "loss": 2.9056,
      "step": 4028
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.6294785737991333,
      "learning_rate": 0.00024942989492480913,
      "loss": 2.9615,
      "step": 4029
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.6197612285614014,
      "learning_rate": 0.00024932623968824724,
      "loss": 2.8773,
      "step": 4030
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.5676149725914001,
      "learning_rate": 0.00024922258456751246,
      "loss": 2.9198,
      "step": 4031
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.5992558002471924,
      "learning_rate": 0.0002491189295804244,
      "loss": 2.9565,
      "step": 4032
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.6364536285400391,
      "learning_rate": 0.0002490152747448026,
      "loss": 2.997,
      "step": 4033
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.5660727620124817,
      "learning_rate": 0.0002489116200784664,
      "loss": 2.8668,
      "step": 4034
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.5740717649459839,
      "learning_rate": 0.0002488079655992355,
      "loss": 2.9594,
      "step": 4035
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.6381372213363647,
      "learning_rate": 0.00024870431132492904,
      "loss": 2.919,
      "step": 4036
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.5870689153671265,
      "learning_rate": 0.00024860065727336646,
      "loss": 3.0435,
      "step": 4037
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.6183874607086182,
      "learning_rate": 0.00024849700346236714,
      "loss": 2.9133,
      "step": 4038
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.6099329590797424,
      "learning_rate": 0.0002483933499097504,
      "loss": 2.9464,
      "step": 4039
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.5755846500396729,
      "learning_rate": 0.00024828969663333533,
      "loss": 2.9202,
      "step": 4040
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.6031346917152405,
      "learning_rate": 0.0002481860436509413,
      "loss": 3.0922,
      "step": 4041
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.6374406814575195,
      "learning_rate": 0.00024808239098038744,
      "loss": 3.0087,
      "step": 4042
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.6005755066871643,
      "learning_rate": 0.00024797873863949266,
      "loss": 2.906,
      "step": 4043
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.5638880133628845,
      "learning_rate": 0.0002478750866460762,
      "loss": 2.919,
      "step": 4044
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.5703853368759155,
      "learning_rate": 0.000247771435017957,
      "loss": 3.0245,
      "step": 4045
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.6182522177696228,
      "learning_rate": 0.000247667783772954,
      "loss": 2.9228,
      "step": 4046
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.600109875202179,
      "learning_rate": 0.0002475641329288859,
      "loss": 2.9146,
      "step": 4047
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.8124662041664124,
      "learning_rate": 0.00024746048250357173,
      "loss": 2.9003,
      "step": 4048
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.6518203616142273,
      "learning_rate": 0.00024735683251483003,
      "loss": 2.9891,
      "step": 4049
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.670754611492157,
      "learning_rate": 0.00024725318298047936,
      "loss": 2.9376,
      "step": 4050
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.6068745255470276,
      "learning_rate": 0.00024714953391833847,
      "loss": 2.8858,
      "step": 4051
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.5984342694282532,
      "learning_rate": 0.00024704588534622563,
      "loss": 2.9636,
      "step": 4052
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.6185572147369385,
      "learning_rate": 0.0002469422372819595,
      "loss": 3.0336,
      "step": 4053
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.6048758029937744,
      "learning_rate": 0.00024683858974335814,
      "loss": 2.9175,
      "step": 4054
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.5751758217811584,
      "learning_rate": 0.00024673494274823985,
      "loss": 2.9415,
      "step": 4055
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.631719708442688,
      "learning_rate": 0.0002466312963144228,
      "loss": 3.1072,
      "step": 4056
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.6253536939620972,
      "learning_rate": 0.00024652765045972495,
      "loss": 2.9993,
      "step": 4057
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.5956352353096008,
      "learning_rate": 0.0002464240052019642,
      "loss": 3.0149,
      "step": 4058
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.601821780204773,
      "learning_rate": 0.0002463203605589585,
      "loss": 2.8555,
      "step": 4059
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.6066179275512695,
      "learning_rate": 0.00024621671654852543,
      "loss": 2.8593,
      "step": 4060
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.5827671885490417,
      "learning_rate": 0.00024611307318848257,
      "loss": 3.0275,
      "step": 4061
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.6032078266143799,
      "learning_rate": 0.00024600943049664755,
      "loss": 2.7982,
      "step": 4062
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.6465663313865662,
      "learning_rate": 0.0002459057884908377,
      "loss": 2.8739,
      "step": 4063
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.5920922756195068,
      "learning_rate": 0.0002458021471888703,
      "loss": 2.9429,
      "step": 4064
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.5770861506462097,
      "learning_rate": 0.0002456985066085624,
      "loss": 2.9775,
      "step": 4065
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.620389997959137,
      "learning_rate": 0.0002455948667677312,
      "loss": 2.9791,
      "step": 4066
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.5667849779129028,
      "learning_rate": 0.00024549122768419336,
      "loss": 2.9664,
      "step": 4067
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.6151582598686218,
      "learning_rate": 0.00024538758937576576,
      "loss": 2.8966,
      "step": 4068
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.568040668964386,
      "learning_rate": 0.0002452839518602651,
      "loss": 2.9018,
      "step": 4069
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.6470906138420105,
      "learning_rate": 0.0002451803151555076,
      "loss": 2.9265,
      "step": 4070
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.5893070101737976,
      "learning_rate": 0.00024507667927930993,
      "loss": 2.847,
      "step": 4071
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.5957764387130737,
      "learning_rate": 0.0002449730442494882,
      "loss": 2.946,
      "step": 4072
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.6337040066719055,
      "learning_rate": 0.0002448694100838584,
      "loss": 2.9392,
      "step": 4073
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.6279959678649902,
      "learning_rate": 0.0002447657768002365,
      "loss": 2.8978,
      "step": 4074
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.5824224948883057,
      "learning_rate": 0.00024466214441643826,
      "loss": 2.9277,
      "step": 4075
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.6517646312713623,
      "learning_rate": 0.00024455851295027923,
      "loss": 3.0534,
      "step": 4076
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.6610230207443237,
      "learning_rate": 0.000244454882419575,
      "loss": 2.9161,
      "step": 4077
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.5926963686943054,
      "learning_rate": 0.0002443512528421407,
      "loss": 2.9598,
      "step": 4078
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.6053564548492432,
      "learning_rate": 0.0002442476242357915,
      "loss": 2.9091,
      "step": 4079
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.6075486540794373,
      "learning_rate": 0.0002441439966183423,
      "loss": 2.9451,
      "step": 4080
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.5832430124282837,
      "learning_rate": 0.0002440403700076081,
      "loss": 2.9747,
      "step": 4081
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.6105602383613586,
      "learning_rate": 0.0002439367444214034,
      "loss": 2.9617,
      "step": 4082
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.6160913109779358,
      "learning_rate": 0.00024383311987754254,
      "loss": 2.9526,
      "step": 4083
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.629187285900116,
      "learning_rate": 0.00024372949639383992,
      "loss": 3.0537,
      "step": 4084
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.5852336287498474,
      "learning_rate": 0.00024362587398810959,
      "loss": 2.9012,
      "step": 4085
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.5722115635871887,
      "learning_rate": 0.00024352225267816537,
      "loss": 2.8829,
      "step": 4086
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.7567673325538635,
      "learning_rate": 0.00024341863248182103,
      "loss": 2.8777,
      "step": 4087
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.5977490544319153,
      "learning_rate": 0.00024331501341689007,
      "loss": 2.9204,
      "step": 4088
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.6031055450439453,
      "learning_rate": 0.00024321139550118572,
      "loss": 2.8775,
      "step": 4089
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.5724194645881653,
      "learning_rate": 0.00024310777875252127,
      "loss": 2.8238,
      "step": 4090
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.616533100605011,
      "learning_rate": 0.0002430041631887095,
      "loss": 2.8953,
      "step": 4091
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.605926513671875,
      "learning_rate": 0.00024290054882756325,
      "loss": 2.8976,
      "step": 4092
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.6110485792160034,
      "learning_rate": 0.00024279693568689495,
      "loss": 3.0469,
      "step": 4093
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.5898532271385193,
      "learning_rate": 0.00024269332378451687,
      "loss": 2.983,
      "step": 4094
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.6934055089950562,
      "learning_rate": 0.00024258971313824115,
      "loss": 2.9645,
      "step": 4095
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.6106328368186951,
      "learning_rate": 0.00024248610376587971,
      "loss": 2.9125,
      "step": 4096
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.5889904499053955,
      "learning_rate": 0.00024238249568524404,
      "loss": 2.9437,
      "step": 4097
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.5578597784042358,
      "learning_rate": 0.00024227888891414562,
      "loss": 2.7694,
      "step": 4098
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.603270411491394,
      "learning_rate": 0.00024217528347039583,
      "loss": 3.007,
      "step": 4099
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.6226148009300232,
      "learning_rate": 0.0002420716793718055,
      "loss": 2.911,
      "step": 4100
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.6484464406967163,
      "learning_rate": 0.0002419680766361854,
      "loss": 2.8944,
      "step": 4101
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.6280710101127625,
      "learning_rate": 0.00024186447528134605,
      "loss": 3.0007,
      "step": 4102
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.6862963438034058,
      "learning_rate": 0.0002417608753250977,
      "loss": 3.0003,
      "step": 4103
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.6069813966751099,
      "learning_rate": 0.0002416572767852504,
      "loss": 2.9518,
      "step": 4104
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.5994670391082764,
      "learning_rate": 0.00024155367967961395,
      "loss": 2.9332,
      "step": 4105
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.607991635799408,
      "learning_rate": 0.0002414500840259979,
      "loss": 2.8871,
      "step": 4106
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.5745207071304321,
      "learning_rate": 0.0002413464898422114,
      "loss": 2.7984,
      "step": 4107
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.5850706100463867,
      "learning_rate": 0.00024124289714606368,
      "loss": 2.9642,
      "step": 4108
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.6459736227989197,
      "learning_rate": 0.00024113930595536353,
      "loss": 3.0147,
      "step": 4109
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.6392499208450317,
      "learning_rate": 0.00024103571628791937,
      "loss": 2.9124,
      "step": 4110
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.5551803708076477,
      "learning_rate": 0.00024093212816153953,
      "loss": 3.0247,
      "step": 4111
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.702626645565033,
      "learning_rate": 0.00024082854159403192,
      "loss": 3.0543,
      "step": 4112
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.6789801120758057,
      "learning_rate": 0.00024072495660320439,
      "loss": 2.9379,
      "step": 4113
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.594066321849823,
      "learning_rate": 0.00024062137320686436,
      "loss": 2.9472,
      "step": 4114
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.6241922974586487,
      "learning_rate": 0.00024051779142281892,
      "loss": 2.9676,
      "step": 4115
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.5837941765785217,
      "learning_rate": 0.00024041421126887514,
      "loss": 2.898,
      "step": 4116
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.561454713344574,
      "learning_rate": 0.00024031063276283945,
      "loss": 2.8841,
      "step": 4117
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.6285220384597778,
      "learning_rate": 0.00024020705592251842,
      "loss": 2.9002,
      "step": 4118
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.5992267727851868,
      "learning_rate": 0.00024010348076571798,
      "loss": 2.8874,
      "step": 4119
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.6011517643928528,
      "learning_rate": 0.00023999990731024396,
      "loss": 2.9871,
      "step": 4120
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.5957316756248474,
      "learning_rate": 0.0002398963355739018,
      "loss": 2.8726,
      "step": 4121
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.566772997379303,
      "learning_rate": 0.00023979276557449663,
      "loss": 2.8502,
      "step": 4122
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.6135253310203552,
      "learning_rate": 0.00023968919732983345,
      "loss": 2.9261,
      "step": 4123
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.6037373542785645,
      "learning_rate": 0.0002395856308577168,
      "loss": 2.8315,
      "step": 4124
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.6225576400756836,
      "learning_rate": 0.00023948206617595088,
      "loss": 2.7304,
      "step": 4125
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.6825723648071289,
      "learning_rate": 0.00023937850330233966,
      "loss": 3.0047,
      "step": 4126
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.6384209394454956,
      "learning_rate": 0.00023927494225468694,
      "loss": 2.9401,
      "step": 4127
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.7017212510108948,
      "learning_rate": 0.000239171383050796,
      "loss": 3.0415,
      "step": 4128
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.6271949410438538,
      "learning_rate": 0.0002390678257084698,
      "loss": 2.8913,
      "step": 4129
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.5811274647712708,
      "learning_rate": 0.00023896427024551115,
      "loss": 3.0255,
      "step": 4130
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.5780445337295532,
      "learning_rate": 0.0002388607166797224,
      "loss": 2.9989,
      "step": 4131
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.6331136226654053,
      "learning_rate": 0.00023875716502890556,
      "loss": 2.9735,
      "step": 4132
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.6094861626625061,
      "learning_rate": 0.00023865361531086234,
      "loss": 3.0148,
      "step": 4133
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.5898538827896118,
      "learning_rate": 0.00023855006754339424,
      "loss": 2.9056,
      "step": 4134
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.5623264312744141,
      "learning_rate": 0.00023844652174430218,
      "loss": 3.0163,
      "step": 4135
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.6493767499923706,
      "learning_rate": 0.00023834297793138708,
      "loss": 2.9297,
      "step": 4136
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.5599499344825745,
      "learning_rate": 0.00023823943612244914,
      "loss": 2.9638,
      "step": 4137
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.6272398233413696,
      "learning_rate": 0.00023813589633528854,
      "loss": 2.9355,
      "step": 4138
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.6358513236045837,
      "learning_rate": 0.00023803235858770489,
      "loss": 2.8676,
      "step": 4139
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.5963408350944519,
      "learning_rate": 0.00023792882289749747,
      "loss": 2.8525,
      "step": 4140
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.5830552577972412,
      "learning_rate": 0.0002378252892824654,
      "loss": 2.8113,
      "step": 4141
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.651419997215271,
      "learning_rate": 0.00023772175776040727,
      "loss": 3.0146,
      "step": 4142
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.5618594288825989,
      "learning_rate": 0.00023761822834912126,
      "loss": 2.7078,
      "step": 4143
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.6058513522148132,
      "learning_rate": 0.00023751470106640526,
      "loss": 2.8087,
      "step": 4144
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.6107233762741089,
      "learning_rate": 0.00023741117593005702,
      "loss": 3.0245,
      "step": 4145
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.6902838945388794,
      "learning_rate": 0.00023730765295787356,
      "loss": 2.8995,
      "step": 4146
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.6350294351577759,
      "learning_rate": 0.00023720413216765166,
      "loss": 3.0232,
      "step": 4147
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.618079662322998,
      "learning_rate": 0.00023710061357718783,
      "loss": 2.9394,
      "step": 4148
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.6147561073303223,
      "learning_rate": 0.00023699709720427807,
      "loss": 2.8914,
      "step": 4149
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.5826322436332703,
      "learning_rate": 0.000236893583066718,
      "loss": 2.8561,
      "step": 4150
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.5779064893722534,
      "learning_rate": 0.000236790071182303,
      "loss": 3.0123,
      "step": 4151
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.598785400390625,
      "learning_rate": 0.00023668656156882787,
      "loss": 3.0318,
      "step": 4152
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.6891517043113708,
      "learning_rate": 0.00023658305424408718,
      "loss": 3.0105,
      "step": 4153
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.5816511511802673,
      "learning_rate": 0.0002364795492258749,
      "loss": 2.9156,
      "step": 4154
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.6193990707397461,
      "learning_rate": 0.0002363760465319849,
      "loss": 3.0036,
      "step": 4155
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.6221030950546265,
      "learning_rate": 0.00023627254618021048,
      "loss": 2.9102,
      "step": 4156
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.5638359785079956,
      "learning_rate": 0.00023616904818834453,
      "loss": 2.9689,
      "step": 4157
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.6010490655899048,
      "learning_rate": 0.0002360655525741795,
      "loss": 2.9204,
      "step": 4158
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.9325563907623291,
      "learning_rate": 0.00023596205935550756,
      "loss": 2.9767,
      "step": 4159
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.6108648180961609,
      "learning_rate": 0.00023585856855012037,
      "loss": 2.9977,
      "step": 4160
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.6116995811462402,
      "learning_rate": 0.0002357550801758091,
      "loss": 2.8944,
      "step": 4161
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.578167200088501,
      "learning_rate": 0.0002356515942503648,
      "loss": 2.851,
      "step": 4162
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.6190915703773499,
      "learning_rate": 0.00023554811079157763,
      "loss": 2.9494,
      "step": 4163
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.6253678798675537,
      "learning_rate": 0.00023544462981723788,
      "loss": 3.0011,
      "step": 4164
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.6222251057624817,
      "learning_rate": 0.00023534115134513496,
      "loss": 2.9185,
      "step": 4165
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.6101688146591187,
      "learning_rate": 0.0002352376753930581,
      "loss": 2.8536,
      "step": 4166
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.6378574371337891,
      "learning_rate": 0.00023513420197879598,
      "loss": 2.7713,
      "step": 4167
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.6173222064971924,
      "learning_rate": 0.00023503073112013685,
      "loss": 2.933,
      "step": 4168
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.6857949495315552,
      "learning_rate": 0.00023492726283486862,
      "loss": 3.0611,
      "step": 4169
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.553196907043457,
      "learning_rate": 0.00023482379714077865,
      "loss": 3.0404,
      "step": 4170
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.6298967599868774,
      "learning_rate": 0.00023472033405565388,
      "loss": 2.8786,
      "step": 4171
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.628118097782135,
      "learning_rate": 0.00023461687359728071,
      "loss": 2.9121,
      "step": 4172
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.6144205331802368,
      "learning_rate": 0.00023451341578344538,
      "loss": 2.8717,
      "step": 4173
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.5835875868797302,
      "learning_rate": 0.00023440996063193344,
      "loss": 2.8905,
      "step": 4174
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.6025814414024353,
      "learning_rate": 0.00023430650816053,
      "loss": 2.9473,
      "step": 4175
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.6155322790145874,
      "learning_rate": 0.00023420305838701971,
      "loss": 3.0827,
      "step": 4176
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.5916576385498047,
      "learning_rate": 0.00023409961132918688,
      "loss": 2.8863,
      "step": 4177
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.6130521893501282,
      "learning_rate": 0.00023399616700481518,
      "loss": 3.0186,
      "step": 4178
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.6415590047836304,
      "learning_rate": 0.00023389272543168784,
      "loss": 3.0213,
      "step": 4179
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.5850638151168823,
      "learning_rate": 0.0002337892866275878,
      "loss": 2.9166,
      "step": 4180
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.5833736062049866,
      "learning_rate": 0.00023368585061029723,
      "loss": 2.9699,
      "step": 4181
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.5815670490264893,
      "learning_rate": 0.00023358241739759815,
      "loss": 2.876,
      "step": 4182
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.595477283000946,
      "learning_rate": 0.0002334789870072718,
      "loss": 2.9449,
      "step": 4183
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.6035388112068176,
      "learning_rate": 0.00023337555945709916,
      "loss": 2.883,
      "step": 4184
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.6144272089004517,
      "learning_rate": 0.0002332721347648606,
      "loss": 2.9891,
      "step": 4185
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.617546796798706,
      "learning_rate": 0.0002331687129483359,
      "loss": 2.873,
      "step": 4186
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.7548595070838928,
      "learning_rate": 0.00023306529402530467,
      "loss": 2.9384,
      "step": 4187
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.6409430503845215,
      "learning_rate": 0.0002329618780135457,
      "loss": 2.976,
      "step": 4188
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.6291634440422058,
      "learning_rate": 0.00023285846493083736,
      "loss": 2.9051,
      "step": 4189
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.6600679755210876,
      "learning_rate": 0.00023275505479495768,
      "loss": 3.0441,
      "step": 4190
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.5907290577888489,
      "learning_rate": 0.0002326516476236839,
      "loss": 2.8852,
      "step": 4191
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.6324024796485901,
      "learning_rate": 0.00023254824343479314,
      "loss": 2.9631,
      "step": 4192
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.6165326833724976,
      "learning_rate": 0.0002324448422460616,
      "loss": 3.0361,
      "step": 4193
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.6662276387214661,
      "learning_rate": 0.0002323414440752652,
      "loss": 2.924,
      "step": 4194
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.6006675362586975,
      "learning_rate": 0.0002322380489401793,
      "loss": 2.8312,
      "step": 4195
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.655917763710022,
      "learning_rate": 0.0002321346568585787,
      "loss": 2.8564,
      "step": 4196
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.6182015538215637,
      "learning_rate": 0.00023203126784823765,
      "loss": 2.8684,
      "step": 4197
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.5976622700691223,
      "learning_rate": 0.00023192788192693002,
      "loss": 2.9596,
      "step": 4198
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.598865270614624,
      "learning_rate": 0.000231824499112429,
      "loss": 2.7653,
      "step": 4199
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.5919581651687622,
      "learning_rate": 0.00023172111942250717,
      "loss": 2.7779,
      "step": 4200
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.5779571533203125,
      "learning_rate": 0.0002316177428749369,
      "loss": 3.0255,
      "step": 4201
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.6315556764602661,
      "learning_rate": 0.00023151436948748978,
      "loss": 2.925,
      "step": 4202
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.6133530139923096,
      "learning_rate": 0.00023141099927793683,
      "loss": 3.0384,
      "step": 4203
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.6068502068519592,
      "learning_rate": 0.00023130763226404858,
      "loss": 2.9402,
      "step": 4204
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.609553873538971,
      "learning_rate": 0.00023120426846359507,
      "loss": 2.9642,
      "step": 4205
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.6195152401924133,
      "learning_rate": 0.00023110090789434573,
      "loss": 2.9159,
      "step": 4206
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.6213117837905884,
      "learning_rate": 0.00023099755057406934,
      "loss": 2.8832,
      "step": 4207
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.6932199597358704,
      "learning_rate": 0.0002308941965205344,
      "loss": 3.0473,
      "step": 4208
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.6514041423797607,
      "learning_rate": 0.00023079084575150844,
      "loss": 2.8655,
      "step": 4209
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.6635711789131165,
      "learning_rate": 0.00023068749828475887,
      "loss": 2.8734,
      "step": 4210
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.5633000135421753,
      "learning_rate": 0.00023058415413805227,
      "loss": 3.0398,
      "step": 4211
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.6406816244125366,
      "learning_rate": 0.0002304808133291546,
      "loss": 2.9984,
      "step": 4212
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.5931169986724854,
      "learning_rate": 0.00023037747587583145,
      "loss": 2.998,
      "step": 4213
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.6022500395774841,
      "learning_rate": 0.0002302741417958477,
      "loss": 2.912,
      "step": 4214
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.5830609202384949,
      "learning_rate": 0.0002301708111069676,
      "loss": 2.9765,
      "step": 4215
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.6008358597755432,
      "learning_rate": 0.00023006748382695496,
      "loss": 3.0112,
      "step": 4216
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.6244275569915771,
      "learning_rate": 0.00022996415997357297,
      "loss": 2.8717,
      "step": 4217
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.5990840196609497,
      "learning_rate": 0.00022986083956458403,
      "loss": 2.8677,
      "step": 4218
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.5670037269592285,
      "learning_rate": 0.0002297575226177503,
      "loss": 2.9284,
      "step": 4219
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.6314175128936768,
      "learning_rate": 0.0002296542091508332,
      "loss": 3.0218,
      "step": 4220
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.6372952461242676,
      "learning_rate": 0.00022955089918159333,
      "loss": 2.9451,
      "step": 4221
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.6518940329551697,
      "learning_rate": 0.00022944759272779098,
      "loss": 2.9888,
      "step": 4222
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.5688896775245667,
      "learning_rate": 0.00022934428980718571,
      "loss": 2.8603,
      "step": 4223
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.624879777431488,
      "learning_rate": 0.00022924099043753648,
      "loss": 3.1327,
      "step": 4224
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.6289984583854675,
      "learning_rate": 0.00022913769463660163,
      "loss": 3.0153,
      "step": 4225
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.6053119897842407,
      "learning_rate": 0.000229034402422139,
      "loss": 2.9492,
      "step": 4226
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.6022698879241943,
      "learning_rate": 0.00022893111381190563,
      "loss": 2.8487,
      "step": 4227
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.580309271812439,
      "learning_rate": 0.0002288278288236579,
      "loss": 2.8636,
      "step": 4228
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.5818544626235962,
      "learning_rate": 0.00022872454747515197,
      "loss": 2.8808,
      "step": 4229
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.6319147944450378,
      "learning_rate": 0.00022862126978414295,
      "loss": 3.0325,
      "step": 4230
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.722757875919342,
      "learning_rate": 0.00022851799576838552,
      "loss": 2.9361,
      "step": 4231
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.5731413960456848,
      "learning_rate": 0.00022841472544563368,
      "loss": 2.8575,
      "step": 4232
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.629044234752655,
      "learning_rate": 0.0002283114588336407,
      "loss": 2.8342,
      "step": 4233
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.6233080625534058,
      "learning_rate": 0.00022820819595015945,
      "loss": 2.9165,
      "step": 4234
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.6481502056121826,
      "learning_rate": 0.00022810493681294197,
      "loss": 2.9784,
      "step": 4235
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.6000126600265503,
      "learning_rate": 0.0002280016814397396,
      "loss": 2.8969,
      "step": 4236
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.5488885045051575,
      "learning_rate": 0.00022789842984830317,
      "loss": 2.9243,
      "step": 4237
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.5594921112060547,
      "learning_rate": 0.00022779518205638297,
      "loss": 2.8528,
      "step": 4238
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.654016375541687,
      "learning_rate": 0.00022769193808172843,
      "loss": 3.0214,
      "step": 4239
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.5835364460945129,
      "learning_rate": 0.00022758869794208824,
      "loss": 2.8722,
      "step": 4240
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.616186797618866,
      "learning_rate": 0.00022748546165521079,
      "loss": 3.0685,
      "step": 4241
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.6432662010192871,
      "learning_rate": 0.00022738222923884347,
      "loss": 2.846,
      "step": 4242
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.5809321999549866,
      "learning_rate": 0.00022727900071073308,
      "loss": 2.9577,
      "step": 4243
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.5813358426094055,
      "learning_rate": 0.00022717577608862596,
      "loss": 3.0167,
      "step": 4244
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.6121474504470825,
      "learning_rate": 0.00022707255539026753,
      "loss": 2.9504,
      "step": 4245
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.6216932535171509,
      "learning_rate": 0.0002269693386334025,
      "loss": 2.9799,
      "step": 4246
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.5827667117118835,
      "learning_rate": 0.00022686612583577525,
      "loss": 2.9916,
      "step": 4247
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.5576903223991394,
      "learning_rate": 0.00022676291701512912,
      "loss": 2.905,
      "step": 4248
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.5967016816139221,
      "learning_rate": 0.000226659712189207,
      "loss": 2.8619,
      "step": 4249
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.553752064704895,
      "learning_rate": 0.00022655651137575095,
      "loss": 2.916,
      "step": 4250
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.6096183061599731,
      "learning_rate": 0.00022645331459250233,
      "loss": 3.0076,
      "step": 4251
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.6655985116958618,
      "learning_rate": 0.00022635012185720193,
      "loss": 2.945,
      "step": 4252
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.6682869791984558,
      "learning_rate": 0.00022624693318758977,
      "loss": 3.0857,
      "step": 4253
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.6346508264541626,
      "learning_rate": 0.00022614374860140511,
      "loss": 2.9173,
      "step": 4254
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.5824097990989685,
      "learning_rate": 0.00022604056811638656,
      "loss": 2.913,
      "step": 4255
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.6357290148735046,
      "learning_rate": 0.00022593739175027222,
      "loss": 3.0103,
      "step": 4256
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.5974647402763367,
      "learning_rate": 0.00022583421952079925,
      "loss": 2.9516,
      "step": 4257
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.5826137065887451,
      "learning_rate": 0.000225731051445704,
      "loss": 2.8646,
      "step": 4258
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.6271923184394836,
      "learning_rate": 0.0002256278875427224,
      "loss": 3.0461,
      "step": 4259
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.6456953883171082,
      "learning_rate": 0.0002255247278295895,
      "loss": 3.0555,
      "step": 4260
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.5936803221702576,
      "learning_rate": 0.00022542157232403957,
      "loss": 2.9214,
      "step": 4261
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.6264790892601013,
      "learning_rate": 0.00022531842104380633,
      "loss": 2.9098,
      "step": 4262
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.6212166547775269,
      "learning_rate": 0.00022521527400662267,
      "loss": 2.9306,
      "step": 4263
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.5672885179519653,
      "learning_rate": 0.00022511213123022067,
      "loss": 2.8479,
      "step": 4264
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.5726655125617981,
      "learning_rate": 0.00022500899273233184,
      "loss": 2.9872,
      "step": 4265
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.59864741563797,
      "learning_rate": 0.00022490585853068688,
      "loss": 2.9568,
      "step": 4266
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.5676631331443787,
      "learning_rate": 0.00022480272864301582,
      "loss": 2.9178,
      "step": 4267
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.6027598977088928,
      "learning_rate": 0.0002246996030870478,
      "loss": 3.1141,
      "step": 4268
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.611309826374054,
      "learning_rate": 0.00022459648188051127,
      "loss": 2.9827,
      "step": 4269
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.5950155258178711,
      "learning_rate": 0.00022449336504113405,
      "loss": 2.9275,
      "step": 4270
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.5845668315887451,
      "learning_rate": 0.0002243902525866431,
      "loss": 2.9201,
      "step": 4271
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.6385722160339355,
      "learning_rate": 0.00022428714453476457,
      "loss": 2.915,
      "step": 4272
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.7076265811920166,
      "learning_rate": 0.00022418404090322403,
      "loss": 2.9106,
      "step": 4273
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.5924253463745117,
      "learning_rate": 0.00022408094170974603,
      "loss": 2.9917,
      "step": 4274
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.5945460796356201,
      "learning_rate": 0.00022397784697205473,
      "loss": 3.0004,
      "step": 4275
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.6066201329231262,
      "learning_rate": 0.00022387475670787317,
      "loss": 2.7256,
      "step": 4276
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.6116681694984436,
      "learning_rate": 0.00022377167093492385,
      "loss": 3.0192,
      "step": 4277
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.6179140210151672,
      "learning_rate": 0.00022366858967092835,
      "loss": 2.964,
      "step": 4278
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.5927272439002991,
      "learning_rate": 0.0002235655129336075,
      "loss": 2.9228,
      "step": 4279
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.6212016344070435,
      "learning_rate": 0.0002234624407406815,
      "loss": 2.9956,
      "step": 4280
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.5660213828086853,
      "learning_rate": 0.0002233593731098696,
      "loss": 2.799,
      "step": 4281
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.5687747597694397,
      "learning_rate": 0.00022325631005889023,
      "loss": 2.9818,
      "step": 4282
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.5658725500106812,
      "learning_rate": 0.00022315325160546118,
      "loss": 2.849,
      "step": 4283
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.623985230922699,
      "learning_rate": 0.00022305019776729942,
      "loss": 2.8822,
      "step": 4284
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.640204131603241,
      "learning_rate": 0.00022294714856212116,
      "loss": 2.9438,
      "step": 4285
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.6484012007713318,
      "learning_rate": 0.0002228441040076417,
      "loss": 2.9819,
      "step": 4286
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.6227154731750488,
      "learning_rate": 0.00022274106412157552,
      "loss": 3.0282,
      "step": 4287
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.6404750943183899,
      "learning_rate": 0.00022263802892163645,
      "loss": 2.9836,
      "step": 4288
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.6081241369247437,
      "learning_rate": 0.00022253499842553746,
      "loss": 3.0229,
      "step": 4289
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.6231653690338135,
      "learning_rate": 0.00022243197265099058,
      "loss": 2.9506,
      "step": 4290
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.6333639025688171,
      "learning_rate": 0.00022232895161570723,
      "loss": 2.9809,
      "step": 4291
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.5794960856437683,
      "learning_rate": 0.0002222259353373978,
      "loss": 2.8895,
      "step": 4292
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.6537144780158997,
      "learning_rate": 0.00022212292383377215,
      "loss": 2.8804,
      "step": 4293
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.6084392666816711,
      "learning_rate": 0.00022201991712253905,
      "loss": 2.8364,
      "step": 4294
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.5696072578430176,
      "learning_rate": 0.0002219169152214066,
      "loss": 2.9546,
      "step": 4295
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.6069217324256897,
      "learning_rate": 0.000221813918148082,
      "loss": 2.9563,
      "step": 4296
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.5832633376121521,
      "learning_rate": 0.00022171092592027157,
      "loss": 2.9322,
      "step": 4297
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.5928251147270203,
      "learning_rate": 0.00022160793855568098,
      "loss": 3.0706,
      "step": 4298
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.564638078212738,
      "learning_rate": 0.00022150495607201493,
      "loss": 2.9275,
      "step": 4299
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.589559018611908,
      "learning_rate": 0.00022140197848697718,
      "loss": 2.8329,
      "step": 4300
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.6060275435447693,
      "learning_rate": 0.00022129900581827094,
      "loss": 2.9364,
      "step": 4301
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.5553568005561829,
      "learning_rate": 0.00022119603808359823,
      "loss": 2.9394,
      "step": 4302
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.5870547890663147,
      "learning_rate": 0.00022109307530066062,
      "loss": 3.044,
      "step": 4303
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.6091495156288147,
      "learning_rate": 0.00022099011748715844,
      "loss": 2.9392,
      "step": 4304
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.640484631061554,
      "learning_rate": 0.00022088716466079134,
      "loss": 3.0145,
      "step": 4305
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.6205814480781555,
      "learning_rate": 0.0002207842168392582,
      "loss": 2.9029,
      "step": 4306
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.5727723836898804,
      "learning_rate": 0.0002206812740402569,
      "loss": 2.9043,
      "step": 4307
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.65570467710495,
      "learning_rate": 0.0002205783362814844,
      "loss": 2.8904,
      "step": 4308
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.6531292200088501,
      "learning_rate": 0.00022047540358063707,
      "loss": 2.9216,
      "step": 4309
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.649431586265564,
      "learning_rate": 0.0002203724759554101,
      "loss": 2.7944,
      "step": 4310
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.6034556031227112,
      "learning_rate": 0.00022026955342349788,
      "loss": 2.8708,
      "step": 4311
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.5655530095100403,
      "learning_rate": 0.00022016663600259417,
      "loss": 2.9897,
      "step": 4312
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.5818241238594055,
      "learning_rate": 0.00022006372371039163,
      "loss": 2.9212,
      "step": 4313
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.6040982604026794,
      "learning_rate": 0.00021996081656458204,
      "loss": 2.9181,
      "step": 4314
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.598027229309082,
      "learning_rate": 0.00021985791458285626,
      "loss": 3.0337,
      "step": 4315
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.6006172299385071,
      "learning_rate": 0.00021975501778290446,
      "loss": 2.9519,
      "step": 4316
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.6262054443359375,
      "learning_rate": 0.00021965212618241576,
      "loss": 2.9556,
      "step": 4317
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.6033239960670471,
      "learning_rate": 0.0002195492397990783,
      "loss": 3.0113,
      "step": 4318
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.5676574110984802,
      "learning_rate": 0.0002194463586505796,
      "loss": 2.8462,
      "step": 4319
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.5764749646186829,
      "learning_rate": 0.00021934348275460597,
      "loss": 2.8587,
      "step": 4320
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.6113949418067932,
      "learning_rate": 0.00021924061212884313,
      "loss": 2.9304,
      "step": 4321
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.6167397499084473,
      "learning_rate": 0.00021913774679097568,
      "loss": 2.9625,
      "step": 4322
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.5502795577049255,
      "learning_rate": 0.00021903488675868726,
      "loss": 2.8681,
      "step": 4323
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.6368789672851562,
      "learning_rate": 0.00021893203204966088,
      "loss": 3.068,
      "step": 4324
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.5664580464363098,
      "learning_rate": 0.00021882918268157834,
      "loss": 2.9359,
      "step": 4325
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.7704362273216248,
      "learning_rate": 0.0002187263386721206,
      "loss": 2.9436,
      "step": 4326
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.6045292615890503,
      "learning_rate": 0.00021862350003896787,
      "loss": 2.9049,
      "step": 4327
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.5817524790763855,
      "learning_rate": 0.00021852066679979923,
      "loss": 2.984,
      "step": 4328
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.5901711583137512,
      "learning_rate": 0.00021841783897229278,
      "loss": 2.9624,
      "step": 4329
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.5841627717018127,
      "learning_rate": 0.000218315016574126,
      "loss": 2.884,
      "step": 4330
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.585150957107544,
      "learning_rate": 0.00021821219962297529,
      "loss": 2.8084,
      "step": 4331
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.6068496704101562,
      "learning_rate": 0.00021810938813651592,
      "loss": 2.953,
      "step": 4332
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.5896062254905701,
      "learning_rate": 0.00021800658213242243,
      "loss": 2.9322,
      "step": 4333
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.6026886701583862,
      "learning_rate": 0.00021790378162836837,
      "loss": 2.9697,
      "step": 4334
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.6070558428764343,
      "learning_rate": 0.0002178009866420264,
      "loss": 2.9125,
      "step": 4335
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.5824732780456543,
      "learning_rate": 0.000217698197191068,
      "loss": 2.9108,
      "step": 4336
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.5688912868499756,
      "learning_rate": 0.00021759541329316408,
      "loss": 2.9427,
      "step": 4337
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.5809234380722046,
      "learning_rate": 0.00021749263496598426,
      "loss": 3.0583,
      "step": 4338
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.6165447235107422,
      "learning_rate": 0.00021738986222719723,
      "loss": 2.9029,
      "step": 4339
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.6282555460929871,
      "learning_rate": 0.00021728709509447102,
      "loss": 2.9055,
      "step": 4340
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.5621004104614258,
      "learning_rate": 0.0002171843335854724,
      "loss": 2.8336,
      "step": 4341
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.6354215145111084,
      "learning_rate": 0.00021708157771786732,
      "loss": 2.9884,
      "step": 4342
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.6251610517501831,
      "learning_rate": 0.00021697882750932064,
      "loss": 2.9261,
      "step": 4343
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.5601063966751099,
      "learning_rate": 0.00021687608297749625,
      "loss": 2.8051,
      "step": 4344
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.6036302447319031,
      "learning_rate": 0.0002167733441400573,
      "loss": 2.8329,
      "step": 4345
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.5853886604309082,
      "learning_rate": 0.00021667061101466565,
      "loss": 2.9839,
      "step": 4346
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.6335777044296265,
      "learning_rate": 0.0002165678836189823,
      "loss": 2.8669,
      "step": 4347
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.5950345396995544,
      "learning_rate": 0.0002164651619706673,
      "loss": 2.9465,
      "step": 4348
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.5444701910018921,
      "learning_rate": 0.00021636244608737982,
      "loss": 2.8426,
      "step": 4349
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.586561918258667,
      "learning_rate": 0.00021625973598677785,
      "loss": 2.8955,
      "step": 4350
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.6019048690795898,
      "learning_rate": 0.00021615703168651832,
      "loss": 3.0577,
      "step": 4351
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.6447362899780273,
      "learning_rate": 0.00021605433320425743,
      "loss": 2.9023,
      "step": 4352
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.5855159163475037,
      "learning_rate": 0.00021595164055765022,
      "loss": 2.902,
      "step": 4353
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.6102611422538757,
      "learning_rate": 0.00021584895376435068,
      "loss": 2.921,
      "step": 4354
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.583280086517334,
      "learning_rate": 0.00021574627284201193,
      "loss": 2.8573,
      "step": 4355
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.5835037231445312,
      "learning_rate": 0.00021564359780828598,
      "loss": 2.8682,
      "step": 4356
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.6255019307136536,
      "learning_rate": 0.0002155409286808238,
      "loss": 2.9958,
      "step": 4357
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.5811057090759277,
      "learning_rate": 0.00021543826547727545,
      "loss": 2.8604,
      "step": 4358
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.5885038375854492,
      "learning_rate": 0.00021533560821529002,
      "loss": 2.8928,
      "step": 4359
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.6111804842948914,
      "learning_rate": 0.00021523295691251544,
      "loss": 2.9316,
      "step": 4360
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.5947489738464355,
      "learning_rate": 0.00021513031158659852,
      "loss": 3.029,
      "step": 4361
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.6300533413887024,
      "learning_rate": 0.00021502767225518532,
      "loss": 2.9347,
      "step": 4362
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.622452974319458,
      "learning_rate": 0.00021492503893592074,
      "loss": 2.9301,
      "step": 4363
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.6212379336357117,
      "learning_rate": 0.00021482241164644855,
      "loss": 2.9189,
      "step": 4364
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.6555059552192688,
      "learning_rate": 0.0002147197904044116,
      "loss": 2.86,
      "step": 4365
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.6467570662498474,
      "learning_rate": 0.00021461717522745162,
      "loss": 3.0536,
      "step": 4366
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.6420671343803406,
      "learning_rate": 0.0002145145661332095,
      "loss": 2.921,
      "step": 4367
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.6282005906105042,
      "learning_rate": 0.00021441196313932485,
      "loss": 2.9491,
      "step": 4368
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.6338900923728943,
      "learning_rate": 0.00021430936626343626,
      "loss": 2.8755,
      "step": 4369
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.5848654508590698,
      "learning_rate": 0.00021420677552318141,
      "loss": 3.0135,
      "step": 4370
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.5786486268043518,
      "learning_rate": 0.00021410419093619682,
      "loss": 2.7743,
      "step": 4371
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.6340351104736328,
      "learning_rate": 0.00021400161252011786,
      "loss": 2.9069,
      "step": 4372
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.6810070872306824,
      "learning_rate": 0.00021389904029257912,
      "loss": 2.9414,
      "step": 4373
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.597723662853241,
      "learning_rate": 0.00021379647427121387,
      "loss": 3.0237,
      "step": 4374
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.6340454816818237,
      "learning_rate": 0.00021369391447365437,
      "loss": 2.9524,
      "step": 4375
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.5688413381576538,
      "learning_rate": 0.00021359136091753176,
      "loss": 2.8944,
      "step": 4376
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.6060488224029541,
      "learning_rate": 0.00021348881362047643,
      "loss": 2.8552,
      "step": 4377
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.6166259050369263,
      "learning_rate": 0.00021338627260011732,
      "loss": 2.8911,
      "step": 4378
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.5852840542793274,
      "learning_rate": 0.00021328373787408235,
      "loss": 3.0553,
      "step": 4379
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.5945340394973755,
      "learning_rate": 0.00021318120945999853,
      "loss": 2.9628,
      "step": 4380
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.6257489323616028,
      "learning_rate": 0.00021307868737549166,
      "loss": 2.8189,
      "step": 4381
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.586519181728363,
      "learning_rate": 0.00021297617163818639,
      "loss": 2.8166,
      "step": 4382
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.5974611639976501,
      "learning_rate": 0.0002128736622657065,
      "loss": 2.8565,
      "step": 4383
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.5870640277862549,
      "learning_rate": 0.00021277115927567446,
      "loss": 2.9146,
      "step": 4384
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.6883594393730164,
      "learning_rate": 0.00021266866268571168,
      "loss": 2.9842,
      "step": 4385
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.6028304100036621,
      "learning_rate": 0.00021256617251343862,
      "loss": 2.9436,
      "step": 4386
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.6326954960823059,
      "learning_rate": 0.00021246368877647442,
      "loss": 2.8868,
      "step": 4387
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.6045038104057312,
      "learning_rate": 0.00021236121149243733,
      "loss": 2.9175,
      "step": 4388
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.5948008894920349,
      "learning_rate": 0.00021225874067894434,
      "loss": 2.7468,
      "step": 4389
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.5691997408866882,
      "learning_rate": 0.00021215627635361135,
      "loss": 2.9818,
      "step": 4390
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.5902212262153625,
      "learning_rate": 0.00021205381853405317,
      "loss": 3.0272,
      "step": 4391
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.579111635684967,
      "learning_rate": 0.0002119513672378835,
      "loss": 2.8735,
      "step": 4392
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.615760862827301,
      "learning_rate": 0.00021184892248271489,
      "loss": 2.8973,
      "step": 4393
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.5821262001991272,
      "learning_rate": 0.0002117464842861587,
      "loss": 2.9942,
      "step": 4394
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.5584412217140198,
      "learning_rate": 0.00021164405266582546,
      "loss": 3.0197,
      "step": 4395
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.5660685896873474,
      "learning_rate": 0.0002115416276393242,
      "loss": 2.8712,
      "step": 4396
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.6027223467826843,
      "learning_rate": 0.00021143920922426298,
      "loss": 2.9571,
      "step": 4397
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.6227790117263794,
      "learning_rate": 0.00021133679743824877,
      "loss": 3.0778,
      "step": 4398
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.6127493977546692,
      "learning_rate": 0.0002112343922988873,
      "loss": 2.9265,
      "step": 4399
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.5367628335952759,
      "learning_rate": 0.00021113199382378312,
      "loss": 3.012,
      "step": 4400
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.6231443881988525,
      "learning_rate": 0.0002110296020305399,
      "loss": 2.831,
      "step": 4401
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.6192982196807861,
      "learning_rate": 0.00021092721693675984,
      "loss": 2.9117,
      "step": 4402
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.5959701538085938,
      "learning_rate": 0.00021082483856004405,
      "loss": 3.0464,
      "step": 4403
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.6544879674911499,
      "learning_rate": 0.0002107224669179928,
      "loss": 2.935,
      "step": 4404
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.5788587331771851,
      "learning_rate": 0.00021062010202820477,
      "loss": 2.8257,
      "step": 4405
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.6155993938446045,
      "learning_rate": 0.00021051774390827777,
      "loss": 2.8685,
      "step": 4406
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.6280364990234375,
      "learning_rate": 0.00021041539257580832,
      "loss": 2.9659,
      "step": 4407
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.5905808806419373,
      "learning_rate": 0.00021031304804839177,
      "loss": 2.8761,
      "step": 4408
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.6546719670295715,
      "learning_rate": 0.0002102107103436224,
      "loss": 2.9691,
      "step": 4409
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.594760000705719,
      "learning_rate": 0.00021010837947909314,
      "loss": 2.811,
      "step": 4410
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.5597937107086182,
      "learning_rate": 0.0002100060554723959,
      "loss": 2.9557,
      "step": 4411
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.5930885076522827,
      "learning_rate": 0.00020990373834112142,
      "loss": 2.8548,
      "step": 4412
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.6344664096832275,
      "learning_rate": 0.00020980142810285904,
      "loss": 2.971,
      "step": 4413
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.5569533109664917,
      "learning_rate": 0.00020969912477519732,
      "loss": 2.9146,
      "step": 4414
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.6139053106307983,
      "learning_rate": 0.00020959682837572318,
      "loss": 3.0325,
      "step": 4415
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.6637125611305237,
      "learning_rate": 0.0002094945389220227,
      "loss": 2.9365,
      "step": 4416
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.5762829184532166,
      "learning_rate": 0.00020939225643168055,
      "loss": 2.8405,
      "step": 4417
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.5968626737594604,
      "learning_rate": 0.00020928998092228023,
      "loss": 2.8021,
      "step": 4418
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.5734029412269592,
      "learning_rate": 0.00020918771241140423,
      "loss": 2.9877,
      "step": 4419
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.6068777441978455,
      "learning_rate": 0.00020908545091663356,
      "loss": 2.8894,
      "step": 4420
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.5631874203681946,
      "learning_rate": 0.00020898319645554816,
      "loss": 2.8952,
      "step": 4421
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.5807081460952759,
      "learning_rate": 0.0002088809490457268,
      "loss": 2.8538,
      "step": 4422
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.6312557458877563,
      "learning_rate": 0.000208778708704747,
      "loss": 2.8172,
      "step": 4423
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.6805749535560608,
      "learning_rate": 0.0002086764754501851,
      "loss": 2.9953,
      "step": 4424
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.5850954055786133,
      "learning_rate": 0.00020857424929961613,
      "loss": 2.9736,
      "step": 4425
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.5984492897987366,
      "learning_rate": 0.0002084720302706139,
      "loss": 2.9398,
      "step": 4426
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.6063340306282043,
      "learning_rate": 0.00020836981838075113,
      "loss": 3.0998,
      "step": 4427
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.5634285807609558,
      "learning_rate": 0.00020826761364759925,
      "loss": 2.9403,
      "step": 4428
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.5975183844566345,
      "learning_rate": 0.0002081654160887283,
      "loss": 2.9461,
      "step": 4429
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.5875067710876465,
      "learning_rate": 0.0002080632257217074,
      "loss": 2.9035,
      "step": 4430
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.6506078243255615,
      "learning_rate": 0.000207961042564104,
      "loss": 2.9832,
      "step": 4431
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.6273890137672424,
      "learning_rate": 0.00020785886663348492,
      "loss": 3.0025,
      "step": 4432
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.583132266998291,
      "learning_rate": 0.00020775669794741508,
      "loss": 2.9204,
      "step": 4433
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.6121016144752502,
      "learning_rate": 0.0002076545365234587,
      "loss": 2.8112,
      "step": 4434
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.6085924506187439,
      "learning_rate": 0.0002075523823791784,
      "loss": 3.0218,
      "step": 4435
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.5982307195663452,
      "learning_rate": 0.00020745023553213557,
      "loss": 2.8426,
      "step": 4436
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.5449528694152832,
      "learning_rate": 0.00020734809599989062,
      "loss": 2.8556,
      "step": 4437
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.6119276881217957,
      "learning_rate": 0.0002072459638000024,
      "loss": 2.9869,
      "step": 4438
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.6309042572975159,
      "learning_rate": 0.00020714383895002863,
      "loss": 3.0337,
      "step": 4439
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.598045825958252,
      "learning_rate": 0.00020704172146752576,
      "loss": 2.9703,
      "step": 4440
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.6042066812515259,
      "learning_rate": 0.000206939611370049,
      "loss": 2.9939,
      "step": 4441
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.6035839915275574,
      "learning_rate": 0.00020683750867515226,
      "loss": 2.9163,
      "step": 4442
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.6111597418785095,
      "learning_rate": 0.0002067354134003882,
      "loss": 3.0876,
      "step": 4443
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.6000173687934875,
      "learning_rate": 0.00020663332556330807,
      "loss": 2.8509,
      "step": 4444
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.5955182313919067,
      "learning_rate": 0.0002065312451814621,
      "loss": 2.9888,
      "step": 4445
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.592673122882843,
      "learning_rate": 0.00020642917227239898,
      "loss": 2.8344,
      "step": 4446
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.5646455883979797,
      "learning_rate": 0.00020632710685366623,
      "loss": 2.9184,
      "step": 4447
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.5869572162628174,
      "learning_rate": 0.00020622504894281018,
      "loss": 3.0251,
      "step": 4448
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.6141806840896606,
      "learning_rate": 0.0002061229985573757,
      "loss": 2.9847,
      "step": 4449
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.5983014702796936,
      "learning_rate": 0.0002060209557149063,
      "loss": 2.9699,
      "step": 4450
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.5764960646629333,
      "learning_rate": 0.00020591892043294452,
      "loss": 2.8763,
      "step": 4451
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.6291399002075195,
      "learning_rate": 0.00020581689272903143,
      "loss": 2.9993,
      "step": 4452
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.5922412276268005,
      "learning_rate": 0.00020571487262070664,
      "loss": 2.863,
      "step": 4453
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.6177401542663574,
      "learning_rate": 0.00020561286012550864,
      "loss": 2.9269,
      "step": 4454
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.5918226838111877,
      "learning_rate": 0.0002055108552609746,
      "loss": 2.8319,
      "step": 4455
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.6087290644645691,
      "learning_rate": 0.00020540885804464033,
      "loss": 2.9191,
      "step": 4456
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.5531299710273743,
      "learning_rate": 0.0002053068684940402,
      "loss": 2.8286,
      "step": 4457
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.6009397506713867,
      "learning_rate": 0.0002052048866267076,
      "loss": 2.9259,
      "step": 4458
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.6477354168891907,
      "learning_rate": 0.00020510291246017415,
      "loss": 3.0156,
      "step": 4459
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.5982996821403503,
      "learning_rate": 0.0002050009460119707,
      "loss": 3.0015,
      "step": 4460
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.602246880531311,
      "learning_rate": 0.00020489898729962627,
      "loss": 3.0554,
      "step": 4461
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.5667693614959717,
      "learning_rate": 0.00020479703634066873,
      "loss": 2.8875,
      "step": 4462
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.5791898965835571,
      "learning_rate": 0.00020469509315262474,
      "loss": 2.9377,
      "step": 4463
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.5940645337104797,
      "learning_rate": 0.00020459315775301945,
      "loss": 2.9585,
      "step": 4464
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.5481541752815247,
      "learning_rate": 0.0002044912301593767,
      "loss": 2.9386,
      "step": 4465
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.581466019153595,
      "learning_rate": 0.00020438931038921913,
      "loss": 2.9759,
      "step": 4466
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.571045458316803,
      "learning_rate": 0.00020428739846006783,
      "loss": 2.9396,
      "step": 4467
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.6136130094528198,
      "learning_rate": 0.00020418549438944262,
      "loss": 2.9158,
      "step": 4468
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.5982814431190491,
      "learning_rate": 0.00020408359819486206,
      "loss": 2.9474,
      "step": 4469
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.577853798866272,
      "learning_rate": 0.00020398170989384336,
      "loss": 2.8099,
      "step": 4470
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.5629253387451172,
      "learning_rate": 0.00020387982950390222,
      "loss": 2.8648,
      "step": 4471
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.5791075825691223,
      "learning_rate": 0.000203777957042553,
      "loss": 2.7946,
      "step": 4472
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.5970788598060608,
      "learning_rate": 0.00020367609252730886,
      "loss": 3.1924,
      "step": 4473
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.6180667281150818,
      "learning_rate": 0.00020357423597568147,
      "loss": 3.0058,
      "step": 4474
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.6330145001411438,
      "learning_rate": 0.00020347238740518107,
      "loss": 2.8683,
      "step": 4475
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.5319344401359558,
      "learning_rate": 0.00020337054683331672,
      "loss": 2.836,
      "step": 4476
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.5793017745018005,
      "learning_rate": 0.00020326871427759583,
      "loss": 2.8658,
      "step": 4477
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.6238328814506531,
      "learning_rate": 0.00020316688975552483,
      "loss": 2.8015,
      "step": 4478
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.6103793978691101,
      "learning_rate": 0.00020306507328460838,
      "loss": 2.9536,
      "step": 4479
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.5994619727134705,
      "learning_rate": 0.00020296326488234996,
      "loss": 2.9076,
      "step": 4480
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.6117439270019531,
      "learning_rate": 0.0002028614645662516,
      "loss": 2.8924,
      "step": 4481
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.6430914998054504,
      "learning_rate": 0.00020275967235381398,
      "loss": 2.9581,
      "step": 4482
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.575411856174469,
      "learning_rate": 0.00020265788826253627,
      "loss": 2.9212,
      "step": 4483
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.6099157333374023,
      "learning_rate": 0.0002025561123099165,
      "loss": 2.8854,
      "step": 4484
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.6817179918289185,
      "learning_rate": 0.00020245434451345102,
      "loss": 2.8396,
      "step": 4485
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.5638992786407471,
      "learning_rate": 0.00020235258489063486,
      "loss": 2.9954,
      "step": 4486
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.641511857509613,
      "learning_rate": 0.00020225083345896163,
      "loss": 2.902,
      "step": 4487
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.5831401348114014,
      "learning_rate": 0.00020214909023592387,
      "loss": 2.8748,
      "step": 4488
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.6274062991142273,
      "learning_rate": 0.00020204735523901218,
      "loss": 2.9675,
      "step": 4489
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.583905041217804,
      "learning_rate": 0.000201945628485716,
      "loss": 2.9749,
      "step": 4490
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.6031627058982849,
      "learning_rate": 0.00020184390999352346,
      "loss": 2.9329,
      "step": 4491
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.5666558742523193,
      "learning_rate": 0.00020174219977992102,
      "loss": 3.0074,
      "step": 4492
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.6242040991783142,
      "learning_rate": 0.00020164049786239386,
      "loss": 2.8726,
      "step": 4493
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.6027845740318298,
      "learning_rate": 0.0002015388042584258,
      "loss": 2.8172,
      "step": 4494
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.5993077754974365,
      "learning_rate": 0.0002014371189854991,
      "loss": 2.9847,
      "step": 4495
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.5789542198181152,
      "learning_rate": 0.0002013354420610945,
      "loss": 2.8707,
      "step": 4496
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.6453204154968262,
      "learning_rate": 0.00020123377350269176,
      "loss": 2.9987,
      "step": 4497
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.6143198013305664,
      "learning_rate": 0.0002011321133277686,
      "loss": 3.0203,
      "step": 4498
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.6118292212486267,
      "learning_rate": 0.00020103046155380173,
      "loss": 3.0187,
      "step": 4499
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.5878288745880127,
      "learning_rate": 0.00020092881819826623,
      "loss": 2.8446,
      "step": 4500
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.5731764435768127,
      "learning_rate": 0.0002008271832786357,
      "loss": 2.9126,
      "step": 4501
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.5676036477088928,
      "learning_rate": 0.0002007255568123825,
      "loss": 3.0219,
      "step": 4502
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.5768969655036926,
      "learning_rate": 0.00020062393881697732,
      "loss": 2.87,
      "step": 4503
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.5867488980293274,
      "learning_rate": 0.0002005223293098894,
      "loss": 2.9947,
      "step": 4504
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.6060941815376282,
      "learning_rate": 0.00020042072830858663,
      "loss": 2.9724,
      "step": 4505
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.5587060451507568,
      "learning_rate": 0.0002003191358305355,
      "loss": 3.0224,
      "step": 4506
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.5923143625259399,
      "learning_rate": 0.00020021755189320096,
      "loss": 2.9865,
      "step": 4507
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.6512538194656372,
      "learning_rate": 0.00020011597651404625,
      "loss": 2.88,
      "step": 4508
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.5772218108177185,
      "learning_rate": 0.00020001440971053355,
      "loss": 2.8656,
      "step": 4509
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.619769811630249,
      "learning_rate": 0.00019991285150012332,
      "loss": 2.9088,
      "step": 4510
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.6154170036315918,
      "learning_rate": 0.00019981130190027452,
      "loss": 2.9925,
      "step": 4511
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.5946207046508789,
      "learning_rate": 0.0001997097609284448,
      "loss": 2.8809,
      "step": 4512
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.6375470161437988,
      "learning_rate": 0.0001996082286020902,
      "loss": 2.9152,
      "step": 4513
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.6352435350418091,
      "learning_rate": 0.00019950670493866518,
      "loss": 3.0837,
      "step": 4514
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.562251091003418,
      "learning_rate": 0.00019940518995562306,
      "loss": 3.0091,
      "step": 4515
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.6164820790290833,
      "learning_rate": 0.0001993036836704153,
      "loss": 2.9557,
      "step": 4516
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.5728858113288879,
      "learning_rate": 0.00019920218610049205,
      "loss": 2.8762,
      "step": 4517
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.6089682579040527,
      "learning_rate": 0.00019910069726330196,
      "loss": 3.1093,
      "step": 4518
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.5777320265769958,
      "learning_rate": 0.000198999217176292,
      "loss": 2.8592,
      "step": 4519
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.595270574092865,
      "learning_rate": 0.00019889774585690794,
      "loss": 2.8861,
      "step": 4520
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.6022306084632874,
      "learning_rate": 0.00019879628332259376,
      "loss": 2.8458,
      "step": 4521
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.6237134337425232,
      "learning_rate": 0.00019869482959079205,
      "loss": 2.9202,
      "step": 4522
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.5791352391242981,
      "learning_rate": 0.00019859338467894395,
      "loss": 2.9168,
      "step": 4523
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.605596125125885,
      "learning_rate": 0.00019849194860448887,
      "loss": 2.8867,
      "step": 4524
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.5911462903022766,
      "learning_rate": 0.00019839052138486508,
      "loss": 2.9273,
      "step": 4525
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.6062655448913574,
      "learning_rate": 0.0001982891030375089,
      "loss": 2.8158,
      "step": 4526
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.5803020596504211,
      "learning_rate": 0.00019818769357985547,
      "loss": 2.859,
      "step": 4527
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.6284639835357666,
      "learning_rate": 0.00019808629302933817,
      "loss": 3.0038,
      "step": 4528
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.6063072085380554,
      "learning_rate": 0.00019798490140338887,
      "loss": 2.9884,
      "step": 4529
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.6407576203346252,
      "learning_rate": 0.0001978835187194381,
      "loss": 3.0123,
      "step": 4530
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.6020514965057373,
      "learning_rate": 0.00019778214499491462,
      "loss": 2.9154,
      "step": 4531
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.6511081457138062,
      "learning_rate": 0.00019768078024724576,
      "loss": 2.8339,
      "step": 4532
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.5953968167304993,
      "learning_rate": 0.00019757942449385725,
      "loss": 3.0059,
      "step": 4533
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.5905873775482178,
      "learning_rate": 0.00019747807775217344,
      "loss": 3.0199,
      "step": 4534
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.5342364311218262,
      "learning_rate": 0.000197376740039617,
      "loss": 2.9439,
      "step": 4535
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.5735076665878296,
      "learning_rate": 0.000197275411373609,
      "loss": 2.9066,
      "step": 4536
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.5876263380050659,
      "learning_rate": 0.00019717409177156893,
      "loss": 2.8561,
      "step": 4537
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.603127121925354,
      "learning_rate": 0.000197072781250915,
      "loss": 2.8625,
      "step": 4538
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.6112686991691589,
      "learning_rate": 0.00019697147982906355,
      "loss": 2.9216,
      "step": 4539
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.6347570419311523,
      "learning_rate": 0.00019687018752342938,
      "loss": 2.7315,
      "step": 4540
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.5873655080795288,
      "learning_rate": 0.00019676890435142602,
      "loss": 3.0052,
      "step": 4541
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.6149432063102722,
      "learning_rate": 0.00019666763033046497,
      "loss": 2.9283,
      "step": 4542
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.5967090129852295,
      "learning_rate": 0.00019656636547795664,
      "loss": 2.9747,
      "step": 4543
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.6160944700241089,
      "learning_rate": 0.0001964651098113095,
      "loss": 2.9165,
      "step": 4544
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.620993971824646,
      "learning_rate": 0.0001963638633479307,
      "loss": 2.9508,
      "step": 4545
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.5712006092071533,
      "learning_rate": 0.00019626262610522558,
      "loss": 2.9151,
      "step": 4546
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.6695533394813538,
      "learning_rate": 0.00019616139810059793,
      "loss": 3.0301,
      "step": 4547
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.6626425981521606,
      "learning_rate": 0.00019606017935145018,
      "loss": 2.8143,
      "step": 4548
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.599162757396698,
      "learning_rate": 0.00019595896987518292,
      "loss": 3.0399,
      "step": 4549
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.6707580089569092,
      "learning_rate": 0.00019585776968919516,
      "loss": 2.87,
      "step": 4550
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.6007571220397949,
      "learning_rate": 0.0001957565788108844,
      "loss": 2.7821,
      "step": 4551
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.6047395467758179,
      "learning_rate": 0.0001956553972576467,
      "loss": 2.9048,
      "step": 4552
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.585143506526947,
      "learning_rate": 0.00019555422504687625,
      "loss": 2.8852,
      "step": 4553
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.5924348831176758,
      "learning_rate": 0.00019545306219596564,
      "loss": 2.9235,
      "step": 4554
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.6223262548446655,
      "learning_rate": 0.00019535190872230608,
      "loss": 2.9324,
      "step": 4555
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.5986630320549011,
      "learning_rate": 0.0001952507646432869,
      "loss": 3.0424,
      "step": 4556
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.6169386506080627,
      "learning_rate": 0.00019514962997629602,
      "loss": 2.8496,
      "step": 4557
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.6000011563301086,
      "learning_rate": 0.00019504850473871954,
      "loss": 2.8819,
      "step": 4558
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.6040713787078857,
      "learning_rate": 0.00019494738894794222,
      "loss": 2.9225,
      "step": 4559
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.6226524710655212,
      "learning_rate": 0.00019484628262134696,
      "loss": 3.0053,
      "step": 4560
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.5854935050010681,
      "learning_rate": 0.00019474518577631503,
      "loss": 2.885,
      "step": 4561
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.6025106310844421,
      "learning_rate": 0.00019464409843022627,
      "loss": 2.9485,
      "step": 4562
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.5416643023490906,
      "learning_rate": 0.00019454302060045877,
      "loss": 2.8575,
      "step": 4563
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.5488949418067932,
      "learning_rate": 0.00019444195230438897,
      "loss": 2.9456,
      "step": 4564
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.5969215035438538,
      "learning_rate": 0.00019434089355939159,
      "loss": 2.855,
      "step": 4565
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.5812979340553284,
      "learning_rate": 0.0001942398443828399,
      "loss": 2.9008,
      "step": 4566
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.584469735622406,
      "learning_rate": 0.00019413880479210538,
      "loss": 2.9064,
      "step": 4567
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.6361176371574402,
      "learning_rate": 0.0001940377748045579,
      "loss": 2.9133,
      "step": 4568
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.6745198965072632,
      "learning_rate": 0.00019393675443756572,
      "loss": 2.9189,
      "step": 4569
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.632921040058136,
      "learning_rate": 0.00019383574370849532,
      "loss": 2.9722,
      "step": 4570
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.6469236016273499,
      "learning_rate": 0.00019373474263471177,
      "loss": 2.8886,
      "step": 4571
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.601373553276062,
      "learning_rate": 0.0001936337512335782,
      "loss": 2.8756,
      "step": 4572
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.6288405060768127,
      "learning_rate": 0.00019353276952245628,
      "loss": 2.9372,
      "step": 4573
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.5953870415687561,
      "learning_rate": 0.00019343179751870593,
      "loss": 2.9105,
      "step": 4574
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.6928009986877441,
      "learning_rate": 0.0001933308352396853,
      "loss": 2.8271,
      "step": 4575
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.5491717457771301,
      "learning_rate": 0.00019322988270275115,
      "loss": 2.8545,
      "step": 4576
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.5760372281074524,
      "learning_rate": 0.00019312893992525827,
      "loss": 2.9763,
      "step": 4577
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.615977942943573,
      "learning_rate": 0.00019302800692455995,
      "loss": 2.9466,
      "step": 4578
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.6780412793159485,
      "learning_rate": 0.00019292708371800756,
      "loss": 2.9344,
      "step": 4579
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.5775297284126282,
      "learning_rate": 0.00019282617032295122,
      "loss": 2.8537,
      "step": 4580
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.6186625361442566,
      "learning_rate": 0.00019272526675673908,
      "loss": 2.9001,
      "step": 4581
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.576945424079895,
      "learning_rate": 0.00019262437303671753,
      "loss": 2.8259,
      "step": 4582
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.6363429427146912,
      "learning_rate": 0.00019252348918023137,
      "loss": 2.9284,
      "step": 4583
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.5982677936553955,
      "learning_rate": 0.00019242261520462382,
      "loss": 2.8756,
      "step": 4584
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.625644326210022,
      "learning_rate": 0.0001923217511272362,
      "loss": 2.8195,
      "step": 4585
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.6147490739822388,
      "learning_rate": 0.00019222089696540814,
      "loss": 2.8733,
      "step": 4586
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.618248701095581,
      "learning_rate": 0.0001921200527364778,
      "loss": 2.9772,
      "step": 4587
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.6018409132957458,
      "learning_rate": 0.0001920192184577813,
      "loss": 2.8644,
      "step": 4588
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.6035763621330261,
      "learning_rate": 0.0001919183941466534,
      "loss": 2.9863,
      "step": 4589
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.656818151473999,
      "learning_rate": 0.00019181757982042686,
      "loss": 2.9117,
      "step": 4590
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.5940581560134888,
      "learning_rate": 0.00019171677549643292,
      "loss": 2.8317,
      "step": 4591
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.6179757714271545,
      "learning_rate": 0.0001916159811920009,
      "loss": 2.8529,
      "step": 4592
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.5856083035469055,
      "learning_rate": 0.00019151519692445858,
      "loss": 2.9764,
      "step": 4593
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.5848682522773743,
      "learning_rate": 0.0001914144227111319,
      "loss": 2.8503,
      "step": 4594
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.6266141533851624,
      "learning_rate": 0.0001913136585693452,
      "loss": 2.8481,
      "step": 4595
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.6111618876457214,
      "learning_rate": 0.0001912129045164209,
      "loss": 2.994,
      "step": 4596
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.606512725353241,
      "learning_rate": 0.0001911121605696798,
      "loss": 2.9049,
      "step": 4597
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.6302918791770935,
      "learning_rate": 0.0001910114267464409,
      "loss": 2.9596,
      "step": 4598
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.5682210922241211,
      "learning_rate": 0.00019091070306402174,
      "loss": 2.8806,
      "step": 4599
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.5849021077156067,
      "learning_rate": 0.0001908099895397377,
      "loss": 2.9136,
      "step": 4600
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.6184064745903015,
      "learning_rate": 0.00019070928619090266,
      "loss": 2.9299,
      "step": 4601
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.6063818335533142,
      "learning_rate": 0.0001906085930348287,
      "loss": 2.936,
      "step": 4602
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.5996943712234497,
      "learning_rate": 0.00019050791008882613,
      "loss": 2.8243,
      "step": 4603
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.6081569790840149,
      "learning_rate": 0.00019040723737020343,
      "loss": 2.8307,
      "step": 4604
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.6122791767120361,
      "learning_rate": 0.00019030657489626753,
      "loss": 2.8288,
      "step": 4605
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.5775499939918518,
      "learning_rate": 0.00019020592268432346,
      "loss": 2.8777,
      "step": 4606
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.632642924785614,
      "learning_rate": 0.0001901052807516744,
      "loss": 3.1566,
      "step": 4607
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.6470739841461182,
      "learning_rate": 0.00019000464911562192,
      "loss": 2.8697,
      "step": 4608
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.6045817136764526,
      "learning_rate": 0.0001899040277934659,
      "loss": 2.8534,
      "step": 4609
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.5808055996894836,
      "learning_rate": 0.00018980341680250413,
      "loss": 2.9004,
      "step": 4610
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.5833596587181091,
      "learning_rate": 0.00018970281616003285,
      "loss": 2.8799,
      "step": 4611
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.6483572125434875,
      "learning_rate": 0.00018960222588334656,
      "loss": 2.8702,
      "step": 4612
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.5974007248878479,
      "learning_rate": 0.00018950164598973782,
      "loss": 2.8672,
      "step": 4613
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.5959858298301697,
      "learning_rate": 0.00018940107649649743,
      "loss": 2.8898,
      "step": 4614
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.6518356204032898,
      "learning_rate": 0.0001893005174209146,
      "loss": 2.98,
      "step": 4615
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.5531861782073975,
      "learning_rate": 0.00018919996878027635,
      "loss": 2.92,
      "step": 4616
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.6227309703826904,
      "learning_rate": 0.00018909943059186845,
      "loss": 3.0695,
      "step": 4617
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.5767200589179993,
      "learning_rate": 0.0001889989028729745,
      "loss": 2.9635,
      "step": 4618
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.617114245891571,
      "learning_rate": 0.00018889838564087623,
      "loss": 2.957,
      "step": 4619
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.5905764102935791,
      "learning_rate": 0.0001887978789128539,
      "loss": 2.854,
      "step": 4620
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.6105292439460754,
      "learning_rate": 0.00018869738270618566,
      "loss": 2.8961,
      "step": 4621
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.6198693513870239,
      "learning_rate": 0.00018859689703814797,
      "loss": 2.9692,
      "step": 4622
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.5892138481140137,
      "learning_rate": 0.0001884964219260156,
      "loss": 2.8863,
      "step": 4623
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.6162074208259583,
      "learning_rate": 0.0001883959573870613,
      "loss": 3.0539,
      "step": 4624
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.6141701936721802,
      "learning_rate": 0.000188295503438556,
      "loss": 2.881,
      "step": 4625
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.6148221492767334,
      "learning_rate": 0.00018819506009776904,
      "loss": 2.9357,
      "step": 4626
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.5444086790084839,
      "learning_rate": 0.00018809462738196783,
      "loss": 2.9765,
      "step": 4627
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.6083210110664368,
      "learning_rate": 0.0001879942053084178,
      "loss": 3.0284,
      "step": 4628
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.6066069006919861,
      "learning_rate": 0.00018789379389438273,
      "loss": 2.8991,
      "step": 4629
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.5646617412567139,
      "learning_rate": 0.0001877933931571245,
      "loss": 2.9467,
      "step": 4630
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.629346489906311,
      "learning_rate": 0.00018769300311390313,
      "loss": 2.9595,
      "step": 4631
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.6289414763450623,
      "learning_rate": 0.0001875926237819768,
      "loss": 2.9549,
      "step": 4632
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.5574246644973755,
      "learning_rate": 0.000187492255178602,
      "loss": 2.9806,
      "step": 4633
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.5958353877067566,
      "learning_rate": 0.00018739189732103317,
      "loss": 2.903,
      "step": 4634
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.617821991443634,
      "learning_rate": 0.00018729155022652292,
      "loss": 3.024,
      "step": 4635
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.5718900561332703,
      "learning_rate": 0.00018719121391232225,
      "loss": 2.9147,
      "step": 4636
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.6312566995620728,
      "learning_rate": 0.00018709088839568,
      "loss": 2.8481,
      "step": 4637
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.618415892124176,
      "learning_rate": 0.00018699057369384343,
      "loss": 2.8074,
      "step": 4638
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.5958901047706604,
      "learning_rate": 0.00018689026982405765,
      "loss": 2.8869,
      "step": 4639
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.6625494956970215,
      "learning_rate": 0.0001867899768035661,
      "loss": 2.8852,
      "step": 4640
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.6090380549430847,
      "learning_rate": 0.00018668969464961038,
      "loss": 2.7989,
      "step": 4641
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.5846713781356812,
      "learning_rate": 0.00018658942337943012,
      "loss": 2.8269,
      "step": 4642
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.638888955116272,
      "learning_rate": 0.00018648916301026303,
      "loss": 2.9093,
      "step": 4643
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.5940837264060974,
      "learning_rate": 0.00018638891355934504,
      "loss": 2.9245,
      "step": 4644
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.5822955965995789,
      "learning_rate": 0.00018628867504391037,
      "loss": 3.014,
      "step": 4645
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.5946242809295654,
      "learning_rate": 0.00018618844748119107,
      "loss": 2.9739,
      "step": 4646
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.6382384300231934,
      "learning_rate": 0.00018608823088841732,
      "loss": 2.9288,
      "step": 4647
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.6568694114685059,
      "learning_rate": 0.00018598802528281772,
      "loss": 3.0699,
      "step": 4648
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.5597008466720581,
      "learning_rate": 0.00018588783068161863,
      "loss": 2.972,
      "step": 4649
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.582697868347168,
      "learning_rate": 0.00018578764710204467,
      "loss": 3.0351,
      "step": 4650
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.634788453578949,
      "learning_rate": 0.0001856874745613186,
      "loss": 2.9685,
      "step": 4651
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.606387197971344,
      "learning_rate": 0.00018558731307666127,
      "loss": 2.8964,
      "step": 4652
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.6086323857307434,
      "learning_rate": 0.00018548716266529141,
      "loss": 2.7599,
      "step": 4653
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.5469645857810974,
      "learning_rate": 0.00018538702334442632,
      "loss": 2.8992,
      "step": 4654
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.5873766541481018,
      "learning_rate": 0.00018528689513128092,
      "loss": 2.9127,
      "step": 4655
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.6405219435691833,
      "learning_rate": 0.0001851867780430685,
      "loss": 3.0211,
      "step": 4656
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.5606704950332642,
      "learning_rate": 0.00018508667209700034,
      "loss": 2.9544,
      "step": 4657
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.5834994912147522,
      "learning_rate": 0.00018498657731028572,
      "loss": 2.8544,
      "step": 4658
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.5668773055076599,
      "learning_rate": 0.00018488649370013223,
      "loss": 2.9647,
      "step": 4659
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.6022380590438843,
      "learning_rate": 0.0001847864212837453,
      "loss": 2.6952,
      "step": 4660
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.5610690712928772,
      "learning_rate": 0.00018468636007832852,
      "loss": 2.8657,
      "step": 4661
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.598379373550415,
      "learning_rate": 0.00018458631010108363,
      "loss": 2.9457,
      "step": 4662
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.6148386001586914,
      "learning_rate": 0.00018448627136921042,
      "loss": 2.926,
      "step": 4663
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.6094540357589722,
      "learning_rate": 0.00018438624389990665,
      "loss": 2.9568,
      "step": 4664
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.6015912294387817,
      "learning_rate": 0.00018428622771036822,
      "loss": 3.0079,
      "step": 4665
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.604538083076477,
      "learning_rate": 0.00018418622281778907,
      "loss": 2.9628,
      "step": 4666
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.542670726776123,
      "learning_rate": 0.00018408622923936124,
      "loss": 2.7928,
      "step": 4667
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.658300518989563,
      "learning_rate": 0.00018398624699227467,
      "loss": 2.93,
      "step": 4668
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.6133347153663635,
      "learning_rate": 0.00018388627609371757,
      "loss": 3.0041,
      "step": 4669
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.6091778874397278,
      "learning_rate": 0.00018378631656087608,
      "loss": 2.9733,
      "step": 4670
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.6142013072967529,
      "learning_rate": 0.00018368636841093434,
      "loss": 3.009,
      "step": 4671
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.6154387593269348,
      "learning_rate": 0.00018358643166107463,
      "loss": 2.9014,
      "step": 4672
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.6222774982452393,
      "learning_rate": 0.00018348650632847726,
      "loss": 2.8832,
      "step": 4673
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.5861135125160217,
      "learning_rate": 0.00018338659243032063,
      "loss": 2.9053,
      "step": 4674
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.6318659782409668,
      "learning_rate": 0.00018328668998378095,
      "loss": 2.9184,
      "step": 4675
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.624942421913147,
      "learning_rate": 0.00018318679900603265,
      "loss": 3.1069,
      "step": 4676
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.5849083065986633,
      "learning_rate": 0.00018308691951424822,
      "loss": 2.9056,
      "step": 4677
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.5960788726806641,
      "learning_rate": 0.000182987051525598,
      "loss": 2.89,
      "step": 4678
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.5689013600349426,
      "learning_rate": 0.00018288719505725056,
      "loss": 2.9617,
      "step": 4679
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.5981249809265137,
      "learning_rate": 0.00018278735012637227,
      "loss": 2.8617,
      "step": 4680
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.5537523627281189,
      "learning_rate": 0.0001826875167501276,
      "loss": 3.0774,
      "step": 4681
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.592946469783783,
      "learning_rate": 0.00018258769494567932,
      "loss": 2.9768,
      "step": 4682
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.5959548354148865,
      "learning_rate": 0.0001824878847301877,
      "loss": 2.9658,
      "step": 4683
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.5913634300231934,
      "learning_rate": 0.00018238808612081143,
      "loss": 2.9867,
      "step": 4684
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.6053270697593689,
      "learning_rate": 0.00018228829913470695,
      "loss": 2.8645,
      "step": 4685
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.6186524629592896,
      "learning_rate": 0.0001821885237890288,
      "loss": 2.8904,
      "step": 4686
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.5993828773498535,
      "learning_rate": 0.00018208876010092958,
      "loss": 2.9306,
      "step": 4687
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.5961611270904541,
      "learning_rate": 0.0001819890080875598,
      "loss": 2.8754,
      "step": 4688
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.5953525304794312,
      "learning_rate": 0.00018188926776606796,
      "loss": 2.9429,
      "step": 4689
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.6410450339317322,
      "learning_rate": 0.00018178953915360058,
      "loss": 2.9193,
      "step": 4690
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.5697641372680664,
      "learning_rate": 0.0001816898222673022,
      "loss": 2.8215,
      "step": 4691
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.6402564644813538,
      "learning_rate": 0.00018159011712431527,
      "loss": 2.9475,
      "step": 4692
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.5809153914451599,
      "learning_rate": 0.00018149042374178038,
      "loss": 2.892,
      "step": 4693
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.6078273057937622,
      "learning_rate": 0.00018139074213683576,
      "loss": 2.8708,
      "step": 4694
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.6195176243782043,
      "learning_rate": 0.000181291072326618,
      "loss": 2.9029,
      "step": 4695
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.5821822285652161,
      "learning_rate": 0.0001811914143282615,
      "loss": 3.1126,
      "step": 4696
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.5956045985221863,
      "learning_rate": 0.0001810917681588985,
      "loss": 3.0195,
      "step": 4697
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.6205211281776428,
      "learning_rate": 0.00018099213383565945,
      "loss": 2.9863,
      "step": 4698
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.6166074872016907,
      "learning_rate": 0.00018089251137567254,
      "loss": 2.9043,
      "step": 4699
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.6489505171775818,
      "learning_rate": 0.00018079290079606414,
      "loss": 2.9001,
      "step": 4700
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.5310670733451843,
      "learning_rate": 0.00018069330211395833,
      "loss": 2.9078,
      "step": 4701
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.6243301033973694,
      "learning_rate": 0.0001805937153464775,
      "loss": 2.9138,
      "step": 4702
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.5886498689651489,
      "learning_rate": 0.0001804941405107416,
      "loss": 2.9685,
      "step": 4703
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.5794339179992676,
      "learning_rate": 0.00018039457762386864,
      "loss": 2.9357,
      "step": 4704
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.6221832633018494,
      "learning_rate": 0.00018029502670297479,
      "loss": 2.9731,
      "step": 4705
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.6155744194984436,
      "learning_rate": 0.00018019548776517395,
      "loss": 2.8446,
      "step": 4706
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.5825741291046143,
      "learning_rate": 0.00018009596082757794,
      "loss": 2.8901,
      "step": 4707
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.6635065674781799,
      "learning_rate": 0.0001799964459072967,
      "loss": 2.8833,
      "step": 4708
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.570014238357544,
      "learning_rate": 0.00017989694302143788,
      "loss": 2.9788,
      "step": 4709
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.6313019394874573,
      "learning_rate": 0.00017979745218710735,
      "loss": 2.8854,
      "step": 4710
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.5938224196434021,
      "learning_rate": 0.00017969797342140868,
      "loss": 2.9153,
      "step": 4711
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.5900461673736572,
      "learning_rate": 0.0001795985067414433,
      "loss": 2.9142,
      "step": 4712
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.5511295199394226,
      "learning_rate": 0.00017949905216431083,
      "loss": 2.9184,
      "step": 4713
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.5713815689086914,
      "learning_rate": 0.00017939960970710865,
      "loss": 2.886,
      "step": 4714
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.5902937650680542,
      "learning_rate": 0.00017930017938693193,
      "loss": 2.953,
      "step": 4715
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.6338928937911987,
      "learning_rate": 0.0001792007612208741,
      "loss": 2.9924,
      "step": 4716
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.6808838844299316,
      "learning_rate": 0.00017910135522602614,
      "loss": 2.9392,
      "step": 4717
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.605201244354248,
      "learning_rate": 0.00017900196141947705,
      "loss": 2.8868,
      "step": 4718
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.5839626789093018,
      "learning_rate": 0.00017890257981831393,
      "loss": 2.7439,
      "step": 4719
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.6224586367607117,
      "learning_rate": 0.00017880321043962165,
      "loss": 2.9281,
      "step": 4720
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.6102718710899353,
      "learning_rate": 0.00017870385330048284,
      "loss": 2.9049,
      "step": 4721
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.5790992975234985,
      "learning_rate": 0.00017860450841797814,
      "loss": 2.8215,
      "step": 4722
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.6278997659683228,
      "learning_rate": 0.0001785051758091862,
      "loss": 2.9528,
      "step": 4723
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.5982465744018555,
      "learning_rate": 0.00017840585549118337,
      "loss": 2.9968,
      "step": 4724
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.6177582740783691,
      "learning_rate": 0.0001783065474810439,
      "loss": 2.7936,
      "step": 4725
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.61619633436203,
      "learning_rate": 0.00017820725179584014,
      "loss": 3.0279,
      "step": 4726
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.5668683052062988,
      "learning_rate": 0.000178107968452642,
      "loss": 2.9799,
      "step": 4727
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.6178662776947021,
      "learning_rate": 0.00017800869746851757,
      "loss": 2.9501,
      "step": 4728
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.6215609312057495,
      "learning_rate": 0.00017790943886053268,
      "loss": 2.9568,
      "step": 4729
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.9155369997024536,
      "learning_rate": 0.00017781019264575092,
      "loss": 2.9235,
      "step": 4730
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.5873034596443176,
      "learning_rate": 0.00017771095884123404,
      "loss": 2.8934,
      "step": 4731
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.5914981365203857,
      "learning_rate": 0.00017761173746404135,
      "loss": 2.7174,
      "step": 4732
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.6044509410858154,
      "learning_rate": 0.00017751252853123012,
      "loss": 2.8787,
      "step": 4733
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.6061686277389526,
      "learning_rate": 0.00017741333205985565,
      "loss": 2.8109,
      "step": 4734
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.6134814023971558,
      "learning_rate": 0.0001773141480669709,
      "loss": 2.8762,
      "step": 4735
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.6034741997718811,
      "learning_rate": 0.00017721497656962665,
      "loss": 2.9292,
      "step": 4736
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.5769996047019958,
      "learning_rate": 0.00017711581758487178,
      "loss": 2.8668,
      "step": 4737
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.6003275513648987,
      "learning_rate": 0.00017701667112975285,
      "loss": 2.8754,
      "step": 4738
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.624630331993103,
      "learning_rate": 0.00017691753722131424,
      "loss": 3.0035,
      "step": 4739
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.5955365300178528,
      "learning_rate": 0.00017681841587659816,
      "loss": 2.9278,
      "step": 4740
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.5979344844818115,
      "learning_rate": 0.00017671930711264487,
      "loss": 2.8492,
      "step": 4741
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.5572388172149658,
      "learning_rate": 0.00017662021094649223,
      "loss": 2.8912,
      "step": 4742
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.587493896484375,
      "learning_rate": 0.00017652112739517596,
      "loss": 2.8647,
      "step": 4743
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.5655832886695862,
      "learning_rate": 0.00017642205647572975,
      "loss": 2.8917,
      "step": 4744
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.6131731271743774,
      "learning_rate": 0.00017632299820518504,
      "loss": 2.8766,
      "step": 4745
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.5850454568862915,
      "learning_rate": 0.000176223952600571,
      "loss": 2.8219,
      "step": 4746
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.6229978799819946,
      "learning_rate": 0.00017612491967891486,
      "loss": 3.0553,
      "step": 4747
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.58486407995224,
      "learning_rate": 0.00017602589945724144,
      "loss": 2.9148,
      "step": 4748
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.5883601307868958,
      "learning_rate": 0.00017592689195257354,
      "loss": 2.8684,
      "step": 4749
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.6314539909362793,
      "learning_rate": 0.0001758278971819316,
      "loss": 2.9927,
      "step": 4750
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.5959509611129761,
      "learning_rate": 0.00017572891516233398,
      "loss": 2.7754,
      "step": 4751
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.5580880045890808,
      "learning_rate": 0.00017562994591079696,
      "loss": 3.0806,
      "step": 4752
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.5724711418151855,
      "learning_rate": 0.00017553098944433435,
      "loss": 2.863,
      "step": 4753
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.5624236464500427,
      "learning_rate": 0.00017543204577995795,
      "loss": 2.9671,
      "step": 4754
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.6659631729125977,
      "learning_rate": 0.0001753331149346773,
      "loss": 2.8508,
      "step": 4755
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.5891770124435425,
      "learning_rate": 0.00017523419692549988,
      "loss": 2.8909,
      "step": 4756
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.606904923915863,
      "learning_rate": 0.0001751352917694308,
      "loss": 2.9275,
      "step": 4757
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.62166827917099,
      "learning_rate": 0.00017503639948347288,
      "loss": 2.9046,
      "step": 4758
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.6334155201911926,
      "learning_rate": 0.00017493752008462704,
      "loss": 2.9837,
      "step": 4759
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.6331631541252136,
      "learning_rate": 0.00017483865358989168,
      "loss": 2.9798,
      "step": 4760
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.5860608816146851,
      "learning_rate": 0.00017473980001626304,
      "loss": 2.9834,
      "step": 4761
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.5728704929351807,
      "learning_rate": 0.00017464095938073536,
      "loss": 2.9219,
      "step": 4762
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.6308342814445496,
      "learning_rate": 0.00017454213170030037,
      "loss": 2.8486,
      "step": 4763
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.5948942303657532,
      "learning_rate": 0.00017444331699194762,
      "loss": 2.931,
      "step": 4764
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.6178521513938904,
      "learning_rate": 0.00017434451527266465,
      "loss": 2.9909,
      "step": 4765
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.6203275322914124,
      "learning_rate": 0.00017424572655943665,
      "loss": 2.8904,
      "step": 4766
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.5596482157707214,
      "learning_rate": 0.00017414695086924648,
      "loss": 2.927,
      "step": 4767
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.5582188963890076,
      "learning_rate": 0.00017404818821907482,
      "loss": 2.7695,
      "step": 4768
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.6074522733688354,
      "learning_rate": 0.00017394943862590004,
      "loss": 3.0992,
      "step": 4769
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.6271023154258728,
      "learning_rate": 0.0001738507021066985,
      "loss": 2.8833,
      "step": 4770
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.6366825699806213,
      "learning_rate": 0.00017375197867844401,
      "loss": 2.8778,
      "step": 4771
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.7604137659072876,
      "learning_rate": 0.00017365326835810832,
      "loss": 2.9785,
      "step": 4772
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.5629891753196716,
      "learning_rate": 0.0001735545711626608,
      "loss": 2.9102,
      "step": 4773
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.5839506387710571,
      "learning_rate": 0.0001734558871090689,
      "loss": 2.9242,
      "step": 4774
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.5992858409881592,
      "learning_rate": 0.00017335721621429732,
      "loss": 2.9349,
      "step": 4775
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.632178783416748,
      "learning_rate": 0.00017325855849530876,
      "loss": 2.8786,
      "step": 4776
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.6266011595726013,
      "learning_rate": 0.00017315991396906372,
      "loss": 2.9199,
      "step": 4777
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.6178882122039795,
      "learning_rate": 0.00017306128265252025,
      "loss": 2.8958,
      "step": 4778
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.6050684452056885,
      "learning_rate": 0.0001729626645626342,
      "loss": 2.9134,
      "step": 4779
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.6183154582977295,
      "learning_rate": 0.00017286405971635928,
      "loss": 2.9612,
      "step": 4780
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.5636543035507202,
      "learning_rate": 0.0001727654681306467,
      "loss": 2.858,
      "step": 4781
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.5996078848838806,
      "learning_rate": 0.0001726668898224455,
      "loss": 2.9227,
      "step": 4782
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.6155143976211548,
      "learning_rate": 0.00017256832480870237,
      "loss": 2.9626,
      "step": 4783
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.607355535030365,
      "learning_rate": 0.00017246977310636201,
      "loss": 2.9741,
      "step": 4784
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.572522759437561,
      "learning_rate": 0.00017237123473236643,
      "loss": 2.8662,
      "step": 4785
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.6225638389587402,
      "learning_rate": 0.00017227270970365555,
      "loss": 3.0289,
      "step": 4786
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.6260370016098022,
      "learning_rate": 0.00017217419803716697,
      "loss": 2.9677,
      "step": 4787
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.5855111479759216,
      "learning_rate": 0.000172075699749836,
      "loss": 3.0485,
      "step": 4788
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.6071752309799194,
      "learning_rate": 0.00017197721485859562,
      "loss": 3.061,
      "step": 4789
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.6365584135055542,
      "learning_rate": 0.00017187874338037644,
      "loss": 2.9279,
      "step": 4790
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.625572681427002,
      "learning_rate": 0.00017178028533210705,
      "loss": 2.9274,
      "step": 4791
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.5583996176719666,
      "learning_rate": 0.00017168184073071324,
      "loss": 2.8927,
      "step": 4792
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.550644040107727,
      "learning_rate": 0.0001715834095931191,
      "loss": 2.8728,
      "step": 4793
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.5932867527008057,
      "learning_rate": 0.00017148499193624586,
      "loss": 2.8772,
      "step": 4794
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.6116400361061096,
      "learning_rate": 0.0001713865877770128,
      "loss": 2.9089,
      "step": 4795
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.6522529721260071,
      "learning_rate": 0.00017128819713233665,
      "loss": 2.8772,
      "step": 4796
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.6048015356063843,
      "learning_rate": 0.00017118982001913187,
      "loss": 2.8894,
      "step": 4797
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.5868729948997498,
      "learning_rate": 0.00017109145645431074,
      "loss": 2.9271,
      "step": 4798
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.5697145462036133,
      "learning_rate": 0.000170993106454783,
      "loss": 2.973,
      "step": 4799
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.6412238478660583,
      "learning_rate": 0.00017089477003745618,
      "loss": 3.0072,
      "step": 4800
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.6067644357681274,
      "learning_rate": 0.00017079644721923538,
      "loss": 2.9545,
      "step": 4801
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.6251317262649536,
      "learning_rate": 0.00017069813801702362,
      "loss": 3.0549,
      "step": 4802
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.5706448554992676,
      "learning_rate": 0.00017059984244772124,
      "loss": 2.8767,
      "step": 4803
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.5911881327629089,
      "learning_rate": 0.0001705015605282264,
      "loss": 2.9459,
      "step": 4804
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.6058533787727356,
      "learning_rate": 0.000170403292275435,
      "loss": 2.9856,
      "step": 4805
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.6038067936897278,
      "learning_rate": 0.00017030503770624046,
      "loss": 2.9338,
      "step": 4806
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.570495069026947,
      "learning_rate": 0.0001702067968375337,
      "loss": 2.8927,
      "step": 4807
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.5961018800735474,
      "learning_rate": 0.00017010856968620373,
      "loss": 3.0155,
      "step": 4808
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.5928876399993896,
      "learning_rate": 0.00017001035626913678,
      "loss": 2.8974,
      "step": 4809
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.608817458152771,
      "learning_rate": 0.00016991215660321679,
      "loss": 3.0491,
      "step": 4810
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.6167762279510498,
      "learning_rate": 0.00016981397070532566,
      "loss": 3.001,
      "step": 4811
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.5637947916984558,
      "learning_rate": 0.0001697157985923425,
      "loss": 2.8451,
      "step": 4812
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.6275732517242432,
      "learning_rate": 0.00016961764028114437,
      "loss": 2.9703,
      "step": 4813
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.5994163155555725,
      "learning_rate": 0.00016951949578860575,
      "loss": 2.8468,
      "step": 4814
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.6631990671157837,
      "learning_rate": 0.00016942136513159873,
      "loss": 2.7509,
      "step": 4815
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.6196002960205078,
      "learning_rate": 0.00016932324832699325,
      "loss": 3.0229,
      "step": 4816
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.6170933842658997,
      "learning_rate": 0.0001692251453916567,
      "loss": 2.9575,
      "step": 4817
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.6171568036079407,
      "learning_rate": 0.000169127056342454,
      "loss": 2.929,
      "step": 4818
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.6101924777030945,
      "learning_rate": 0.00016902898119624794,
      "loss": 2.8776,
      "step": 4819
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.5780251622200012,
      "learning_rate": 0.0001689309199698986,
      "loss": 2.7895,
      "step": 4820
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.5964234471321106,
      "learning_rate": 0.00016883287268026404,
      "loss": 2.9836,
      "step": 4821
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.5868363380432129,
      "learning_rate": 0.00016873483934419959,
      "loss": 2.9547,
      "step": 4822
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.559313952922821,
      "learning_rate": 0.00016863681997855844,
      "loss": 2.8581,
      "step": 4823
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.6035482287406921,
      "learning_rate": 0.00016853881460019115,
      "loss": 2.9753,
      "step": 4824
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.6296930313110352,
      "learning_rate": 0.00016844082322594597,
      "loss": 2.9024,
      "step": 4825
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.6332481503486633,
      "learning_rate": 0.00016834284587266885,
      "loss": 3.0202,
      "step": 4826
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.5864999294281006,
      "learning_rate": 0.00016824488255720317,
      "loss": 2.8952,
      "step": 4827
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.6506444215774536,
      "learning_rate": 0.00016814693329638992,
      "loss": 2.775,
      "step": 4828
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.6396629214286804,
      "learning_rate": 0.00016804899810706774,
      "loss": 2.8978,
      "step": 4829
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.6103544235229492,
      "learning_rate": 0.00016795107700607286,
      "loss": 2.9019,
      "step": 4830
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.5910111665725708,
      "learning_rate": 0.00016785317001023905,
      "loss": 2.8285,
      "step": 4831
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.6259667277336121,
      "learning_rate": 0.0001677552771363977,
      "loss": 3.01,
      "step": 4832
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.6274648904800415,
      "learning_rate": 0.00016765739840137757,
      "loss": 2.8089,
      "step": 4833
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.5982813239097595,
      "learning_rate": 0.00016755953382200533,
      "loss": 2.9628,
      "step": 4834
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.5867056846618652,
      "learning_rate": 0.00016746168341510499,
      "loss": 2.9561,
      "step": 4835
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.5979020595550537,
      "learning_rate": 0.00016736384719749804,
      "loss": 2.8504,
      "step": 4836
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.5869467258453369,
      "learning_rate": 0.00016726602518600382,
      "loss": 2.8043,
      "step": 4837
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.6193467974662781,
      "learning_rate": 0.00016716821739743887,
      "loss": 2.9955,
      "step": 4838
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.6329807043075562,
      "learning_rate": 0.00016707042384861775,
      "loss": 2.8289,
      "step": 4839
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.6451831459999084,
      "learning_rate": 0.00016697264455635213,
      "loss": 2.8147,
      "step": 4840
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.5895566940307617,
      "learning_rate": 0.0001668748795374515,
      "loss": 2.8301,
      "step": 4841
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.5749270915985107,
      "learning_rate": 0.00016677712880872275,
      "loss": 2.8632,
      "step": 4842
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.5525677800178528,
      "learning_rate": 0.00016667939238697028,
      "loss": 2.9151,
      "step": 4843
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.5996282696723938,
      "learning_rate": 0.0001665816702889963,
      "loss": 2.9491,
      "step": 4844
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.5596216917037964,
      "learning_rate": 0.0001664839625316002,
      "loss": 2.8156,
      "step": 4845
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.6141998767852783,
      "learning_rate": 0.0001663862691315791,
      "loss": 2.9017,
      "step": 4846
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.6278558373451233,
      "learning_rate": 0.00016628859010572771,
      "loss": 2.9569,
      "step": 4847
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.600180983543396,
      "learning_rate": 0.00016619092547083813,
      "loss": 2.9862,
      "step": 4848
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.6227961778640747,
      "learning_rate": 0.00016609327524370012,
      "loss": 2.8831,
      "step": 4849
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.5963515043258667,
      "learning_rate": 0.0001659956394411008,
      "loss": 2.8636,
      "step": 4850
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.590859591960907,
      "learning_rate": 0.00016589801807982487,
      "loss": 2.9052,
      "step": 4851
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.5714976191520691,
      "learning_rate": 0.00016580041117665467,
      "loss": 2.9862,
      "step": 4852
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.6218040585517883,
      "learning_rate": 0.00016570281874836996,
      "loss": 2.8928,
      "step": 4853
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.6885479688644409,
      "learning_rate": 0.0001656052408117479,
      "loss": 2.9713,
      "step": 4854
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.6476315259933472,
      "learning_rate": 0.00016550767738356337,
      "loss": 2.8729,
      "step": 4855
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.6276769042015076,
      "learning_rate": 0.0001654101284805886,
      "loss": 2.7955,
      "step": 4856
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.5782485604286194,
      "learning_rate": 0.00016531259411959332,
      "loss": 2.9184,
      "step": 4857
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.5941575169563293,
      "learning_rate": 0.00016521507431734492,
      "loss": 2.9138,
      "step": 4858
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.6360525488853455,
      "learning_rate": 0.0001651175690906082,
      "loss": 2.917,
      "step": 4859
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.6948818564414978,
      "learning_rate": 0.0001650200784561454,
      "loss": 2.8267,
      "step": 4860
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.5771684646606445,
      "learning_rate": 0.00016492260243071628,
      "loss": 2.8847,
      "step": 4861
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.6407152414321899,
      "learning_rate": 0.00016482514103107813,
      "loss": 2.8682,
      "step": 4862
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.6075615882873535,
      "learning_rate": 0.00016472769427398564,
      "loss": 3.1299,
      "step": 4863
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.6447291374206543,
      "learning_rate": 0.00016463026217619105,
      "loss": 2.851,
      "step": 4864
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.5628468990325928,
      "learning_rate": 0.00016453284475444413,
      "loss": 2.8486,
      "step": 4865
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.5888466835021973,
      "learning_rate": 0.00016443544202549189,
      "loss": 2.9586,
      "step": 4866
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.5745136737823486,
      "learning_rate": 0.00016433805400607924,
      "loss": 2.8465,
      "step": 4867
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.6026867628097534,
      "learning_rate": 0.00016424068071294818,
      "loss": 2.9834,
      "step": 4868
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.6444025635719299,
      "learning_rate": 0.00016414332216283827,
      "loss": 2.9083,
      "step": 4869
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.624642550945282,
      "learning_rate": 0.00016404597837248663,
      "loss": 2.9524,
      "step": 4870
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.6389378905296326,
      "learning_rate": 0.0001639486493586278,
      "loss": 2.9307,
      "step": 4871
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.5793474316596985,
      "learning_rate": 0.00016385133513799368,
      "loss": 2.8621,
      "step": 4872
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.6035468578338623,
      "learning_rate": 0.00016375403572731385,
      "loss": 2.9284,
      "step": 4873
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.60076504945755,
      "learning_rate": 0.00016365675114331512,
      "loss": 3.052,
      "step": 4874
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.6033946871757507,
      "learning_rate": 0.0001635594814027217,
      "loss": 2.9508,
      "step": 4875
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.639981210231781,
      "learning_rate": 0.0001634622265222556,
      "loss": 2.9095,
      "step": 4876
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.6347646117210388,
      "learning_rate": 0.00016336498651863609,
      "loss": 2.975,
      "step": 4877
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.5432354807853699,
      "learning_rate": 0.0001632677614085797,
      "loss": 2.9356,
      "step": 4878
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.5822752714157104,
      "learning_rate": 0.00016317055120880058,
      "loss": 2.9527,
      "step": 4879
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.5993724465370178,
      "learning_rate": 0.00016307335593601036,
      "loss": 3.0806,
      "step": 4880
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.6150175333023071,
      "learning_rate": 0.000162976175606918,
      "loss": 3.0195,
      "step": 4881
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.604119062423706,
      "learning_rate": 0.00016287901023822988,
      "loss": 3.0015,
      "step": 4882
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.6158198714256287,
      "learning_rate": 0.00016278185984664996,
      "loss": 2.956,
      "step": 4883
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.6327382922172546,
      "learning_rate": 0.00016268472444887932,
      "loss": 2.9081,
      "step": 4884
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.5533859729766846,
      "learning_rate": 0.0001625876040616169,
      "loss": 3.013,
      "step": 4885
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.5948017835617065,
      "learning_rate": 0.00016249049870155875,
      "loss": 2.9564,
      "step": 4886
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.6003550887107849,
      "learning_rate": 0.00016239340838539827,
      "loss": 2.7942,
      "step": 4887
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.5764794945716858,
      "learning_rate": 0.00016229633312982655,
      "loss": 2.9694,
      "step": 4888
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.6285303831100464,
      "learning_rate": 0.00016219927295153198,
      "loss": 2.9393,
      "step": 4889
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.5766740441322327,
      "learning_rate": 0.00016210222786720014,
      "loss": 2.9099,
      "step": 4890
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.6098859906196594,
      "learning_rate": 0.00016200519789351443,
      "loss": 2.9655,
      "step": 4891
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.5664116740226746,
      "learning_rate": 0.0001619081830471553,
      "loss": 2.8842,
      "step": 4892
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.6019598245620728,
      "learning_rate": 0.00016181118334480073,
      "loss": 2.9893,
      "step": 4893
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.625906765460968,
      "learning_rate": 0.00016171419880312604,
      "loss": 3.0282,
      "step": 4894
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.5922735929489136,
      "learning_rate": 0.00016161722943880416,
      "loss": 2.8959,
      "step": 4895
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.5916191935539246,
      "learning_rate": 0.00016152027526850519,
      "loss": 2.9051,
      "step": 4896
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.5887705087661743,
      "learning_rate": 0.0001614233363088966,
      "loss": 2.8989,
      "step": 4897
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.6135705709457397,
      "learning_rate": 0.0001613264125766434,
      "loss": 2.8859,
      "step": 4898
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.6046330332756042,
      "learning_rate": 0.00016122950408840785,
      "loss": 2.8802,
      "step": 4899
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.6356459856033325,
      "learning_rate": 0.00016113261086084962,
      "loss": 2.9761,
      "step": 4900
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.5993000268936157,
      "learning_rate": 0.0001610357329106259,
      "loss": 2.9837,
      "step": 4901
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.6307381987571716,
      "learning_rate": 0.00016093887025439105,
      "loss": 3.0005,
      "step": 4902
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.5966848134994507,
      "learning_rate": 0.00016084202290879678,
      "loss": 3.0258,
      "step": 4903
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.6045652627944946,
      "learning_rate": 0.0001607451908904925,
      "loss": 2.8262,
      "step": 4904
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.6852614283561707,
      "learning_rate": 0.00016064837421612456,
      "loss": 2.7908,
      "step": 4905
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.6403023600578308,
      "learning_rate": 0.00016055157290233702,
      "loss": 3.0078,
      "step": 4906
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.6122094392776489,
      "learning_rate": 0.00016045478696577104,
      "loss": 2.957,
      "step": 4907
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.6259307265281677,
      "learning_rate": 0.00016035801642306526,
      "loss": 2.9966,
      "step": 4908
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.5817262530326843,
      "learning_rate": 0.00016026126129085568,
      "loss": 2.9168,
      "step": 4909
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.567750871181488,
      "learning_rate": 0.00016016452158577565,
      "loss": 3.0086,
      "step": 4910
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.6151198744773865,
      "learning_rate": 0.00016006779732445582,
      "loss": 2.8657,
      "step": 4911
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.6367872357368469,
      "learning_rate": 0.0001599710885235241,
      "loss": 2.9874,
      "step": 4912
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.658214271068573,
      "learning_rate": 0.00015987439519960607,
      "loss": 2.914,
      "step": 4913
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.5373759269714355,
      "learning_rate": 0.00015977771736932434,
      "loss": 2.7317,
      "step": 4914
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.6181578040122986,
      "learning_rate": 0.00015968105504929892,
      "loss": 2.943,
      "step": 4915
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.5961195230484009,
      "learning_rate": 0.00015958440825614723,
      "loss": 2.8023,
      "step": 4916
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.614006757736206,
      "learning_rate": 0.00015948777700648396,
      "loss": 2.7951,
      "step": 4917
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.6126930117607117,
      "learning_rate": 0.00015939116131692105,
      "loss": 2.78,
      "step": 4918
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.6634125709533691,
      "learning_rate": 0.000159294561204068,
      "loss": 3.0235,
      "step": 4919
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.6465712189674377,
      "learning_rate": 0.00015919797668453146,
      "loss": 2.9743,
      "step": 4920
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.5681372284889221,
      "learning_rate": 0.00015910140777491527,
      "loss": 2.9172,
      "step": 4921
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.621672511100769,
      "learning_rate": 0.00015900485449182094,
      "loss": 2.9535,
      "step": 4922
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.598736584186554,
      "learning_rate": 0.00015890831685184704,
      "loss": 2.9787,
      "step": 4923
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.560032069683075,
      "learning_rate": 0.00015881179487158952,
      "loss": 2.813,
      "step": 4924
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.6219649910926819,
      "learning_rate": 0.00015871528856764163,
      "loss": 2.9343,
      "step": 4925
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.6364957094192505,
      "learning_rate": 0.00015861879795659378,
      "loss": 2.8407,
      "step": 4926
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.5738208293914795,
      "learning_rate": 0.00015852232305503406,
      "loss": 2.933,
      "step": 4927
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.6187426447868347,
      "learning_rate": 0.0001584258638795475,
      "loss": 2.8615,
      "step": 4928
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.5752542614936829,
      "learning_rate": 0.00015832942044671647,
      "loss": 2.8581,
      "step": 4929
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.5733861327171326,
      "learning_rate": 0.00015823299277312086,
      "loss": 2.8186,
      "step": 4930
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.5584474205970764,
      "learning_rate": 0.00015813658087533757,
      "loss": 3.01,
      "step": 4931
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.6048406958580017,
      "learning_rate": 0.0001580401847699411,
      "loss": 2.9492,
      "step": 4932
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.6137272715568542,
      "learning_rate": 0.00015794380447350288,
      "loss": 2.9156,
      "step": 4933
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.6071436405181885,
      "learning_rate": 0.00015784744000259195,
      "loss": 2.9443,
      "step": 4934
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.5927620530128479,
      "learning_rate": 0.0001577510913737744,
      "loss": 2.8071,
      "step": 4935
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.5931657552719116,
      "learning_rate": 0.00015765475860361365,
      "loss": 3.0042,
      "step": 4936
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.6269633173942566,
      "learning_rate": 0.00015755844170867048,
      "loss": 2.8411,
      "step": 4937
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.593589186668396,
      "learning_rate": 0.00015746214070550286,
      "loss": 2.9879,
      "step": 4938
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.5666017532348633,
      "learning_rate": 0.00015736585561066603,
      "loss": 2.9166,
      "step": 4939
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.5835735201835632,
      "learning_rate": 0.00015726958644071248,
      "loss": 2.9155,
      "step": 4940
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.6142745614051819,
      "learning_rate": 0.00015717333321219206,
      "loss": 3.0063,
      "step": 4941
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.5666898488998413,
      "learning_rate": 0.00015707709594165185,
      "loss": 2.9537,
      "step": 4942
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.611833393573761,
      "learning_rate": 0.0001569808746456361,
      "loss": 2.8154,
      "step": 4943
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.6405168175697327,
      "learning_rate": 0.00015688466934068632,
      "loss": 2.8855,
      "step": 4944
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.6008246541023254,
      "learning_rate": 0.0001567884800433414,
      "loss": 2.8709,
      "step": 4945
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.6112250089645386,
      "learning_rate": 0.0001566923067701374,
      "loss": 2.8073,
      "step": 4946
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.5835061073303223,
      "learning_rate": 0.0001565961495376075,
      "loss": 2.8785,
      "step": 4947
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.6014742851257324,
      "learning_rate": 0.0001565000083622824,
      "loss": 2.8677,
      "step": 4948
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.6774690747261047,
      "learning_rate": 0.00015640388326068969,
      "loss": 2.8753,
      "step": 4949
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.6198733448982239,
      "learning_rate": 0.0001563077742493546,
      "loss": 2.9893,
      "step": 4950
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.5909478068351746,
      "learning_rate": 0.00015621168134479925,
      "loss": 2.9441,
      "step": 4951
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.6095626354217529,
      "learning_rate": 0.00015611560456354323,
      "loss": 2.8498,
      "step": 4952
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.6738644242286682,
      "learning_rate": 0.00015601954392210316,
      "loss": 2.884,
      "step": 4953
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.6294283866882324,
      "learning_rate": 0.00015592349943699296,
      "loss": 2.8819,
      "step": 4954
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.604996383190155,
      "learning_rate": 0.0001558274711247239,
      "loss": 2.9001,
      "step": 4955
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.6139426827430725,
      "learning_rate": 0.0001557314590018043,
      "loss": 2.8089,
      "step": 4956
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.6629430651664734,
      "learning_rate": 0.00015563546308473966,
      "loss": 2.9257,
      "step": 4957
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.5691227316856384,
      "learning_rate": 0.00015553948339003287,
      "loss": 2.8934,
      "step": 4958
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.6311379671096802,
      "learning_rate": 0.00015544351993418404,
      "loss": 2.9417,
      "step": 4959
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.5816090703010559,
      "learning_rate": 0.00015534757273369038,
      "loss": 2.8993,
      "step": 4960
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.6048527956008911,
      "learning_rate": 0.00015525164180504622,
      "loss": 2.9989,
      "step": 4961
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.5766655802726746,
      "learning_rate": 0.00015515572716474322,
      "loss": 2.947,
      "step": 4962
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.6402968764305115,
      "learning_rate": 0.00015505982882927028,
      "loss": 2.8565,
      "step": 4963
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.6132798790931702,
      "learning_rate": 0.00015496394681511344,
      "loss": 2.7478,
      "step": 4964
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.5773895978927612,
      "learning_rate": 0.00015486808113875582,
      "loss": 2.9647,
      "step": 4965
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.6108008623123169,
      "learning_rate": 0.00015477223181667796,
      "loss": 2.8647,
      "step": 4966
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.627514123916626,
      "learning_rate": 0.00015467639886535746,
      "loss": 2.863,
      "step": 4967
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.5644397735595703,
      "learning_rate": 0.00015458058230126892,
      "loss": 2.9812,
      "step": 4968
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.5738797187805176,
      "learning_rate": 0.00015448478214088456,
      "loss": 3.0519,
      "step": 4969
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.5883163213729858,
      "learning_rate": 0.00015438899840067356,
      "loss": 2.8679,
      "step": 4970
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.6189303398132324,
      "learning_rate": 0.00015429323109710207,
      "loss": 2.8833,
      "step": 4971
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.5533765554428101,
      "learning_rate": 0.0001541974802466337,
      "loss": 2.9539,
      "step": 4972
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.6074556708335876,
      "learning_rate": 0.00015410174586572912,
      "loss": 2.8406,
      "step": 4973
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.5629385709762573,
      "learning_rate": 0.0001540060279708462,
      "loss": 2.9275,
      "step": 4974
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.576082170009613,
      "learning_rate": 0.00015391032657843988,
      "loss": 2.8533,
      "step": 4975
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.6036094427108765,
      "learning_rate": 0.0001538146417049624,
      "loss": 2.9256,
      "step": 4976
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.5909063816070557,
      "learning_rate": 0.00015371897336686303,
      "loss": 2.8882,
      "step": 4977
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.6067060232162476,
      "learning_rate": 0.0001536233215805884,
      "loss": 2.8629,
      "step": 4978
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.6742445826530457,
      "learning_rate": 0.000153527686362582,
      "loss": 2.9009,
      "step": 4979
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.5826636552810669,
      "learning_rate": 0.00015343206772928486,
      "loss": 3.0068,
      "step": 4980
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.6389709115028381,
      "learning_rate": 0.00015333646569713473,
      "loss": 2.8533,
      "step": 4981
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.5857740044593811,
      "learning_rate": 0.00015324088028256677,
      "loss": 2.9597,
      "step": 4982
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.586857259273529,
      "learning_rate": 0.00015314531150201316,
      "loss": 2.8475,
      "step": 4983
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.6302806735038757,
      "learning_rate": 0.0001530497593719034,
      "loss": 2.9115,
      "step": 4984
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.5571168065071106,
      "learning_rate": 0.00015295422390866398,
      "loss": 2.8423,
      "step": 4985
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.5866636037826538,
      "learning_rate": 0.00015285870512871835,
      "loss": 2.9643,
      "step": 4986
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.5928894877433777,
      "learning_rate": 0.00015276320304848757,
      "loss": 2.8996,
      "step": 4987
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.6258050799369812,
      "learning_rate": 0.00015266771768438948,
      "loss": 2.9636,
      "step": 4988
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.6110684871673584,
      "learning_rate": 0.00015257224905283913,
      "loss": 2.8225,
      "step": 4989
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.5905330181121826,
      "learning_rate": 0.00015247679717024854,
      "loss": 2.9049,
      "step": 4990
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.6436184644699097,
      "learning_rate": 0.0001523813620530272,
      "loss": 2.8899,
      "step": 4991
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.5525439977645874,
      "learning_rate": 0.00015228594371758137,
      "loss": 2.856,
      "step": 4992
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.6033962965011597,
      "learning_rate": 0.00015219054218031458,
      "loss": 2.86,
      "step": 4993
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.5974245071411133,
      "learning_rate": 0.0001520951574576276,
      "loss": 2.8518,
      "step": 4994
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.5736633539199829,
      "learning_rate": 0.0001519997895659179,
      "loss": 2.8168,
      "step": 4995
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.5528467297554016,
      "learning_rate": 0.00015190443852158058,
      "loss": 2.8294,
      "step": 4996
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.6391164660453796,
      "learning_rate": 0.00015180910434100747,
      "loss": 2.9191,
      "step": 4997
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.5593840479850769,
      "learning_rate": 0.00015171378704058772,
      "loss": 2.8477,
      "step": 4998
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.5934497714042664,
      "learning_rate": 0.0001516184866367074,
      "loss": 2.8592,
      "step": 4999
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.5696947574615479,
      "learning_rate": 0.00015152320314574974,
      "loss": 2.8738,
      "step": 5000
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.6179032325744629,
      "learning_rate": 0.0001514279365840951,
      "loss": 2.883,
      "step": 5001
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.5742866396903992,
      "learning_rate": 0.0001513326869681209,
      "loss": 2.8522,
      "step": 5002
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.5817921757698059,
      "learning_rate": 0.00015123745431420169,
      "loss": 2.9655,
      "step": 5003
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.6001306176185608,
      "learning_rate": 0.000151142238638709,
      "loss": 2.911,
      "step": 5004
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.6082236170768738,
      "learning_rate": 0.00015104703995801145,
      "loss": 2.8752,
      "step": 5005
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.6359339356422424,
      "learning_rate": 0.000150951858288475,
      "loss": 2.9513,
      "step": 5006
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.6090186238288879,
      "learning_rate": 0.00015085669364646242,
      "loss": 2.8798,
      "step": 5007
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.6118746995925903,
      "learning_rate": 0.0001507615460483335,
      "loss": 2.8043,
      "step": 5008
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.6444249153137207,
      "learning_rate": 0.00015066641551044532,
      "loss": 2.8839,
      "step": 5009
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.6515594124794006,
      "learning_rate": 0.00015057130204915192,
      "loss": 2.9701,
      "step": 5010
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.6149318814277649,
      "learning_rate": 0.00015047620568080428,
      "loss": 2.8363,
      "step": 5011
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.6154531240463257,
      "learning_rate": 0.00015038112642175072,
      "loss": 2.7911,
      "step": 5012
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.6121019124984741,
      "learning_rate": 0.00015028606428833645,
      "loss": 2.9626,
      "step": 5013
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.6251667737960815,
      "learning_rate": 0.00015019101929690358,
      "loss": 2.9965,
      "step": 5014
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.6209038496017456,
      "learning_rate": 0.00015009599146379162,
      "loss": 2.9662,
      "step": 5015
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.6078985929489136,
      "learning_rate": 0.00015000098080533697,
      "loss": 2.9079,
      "step": 5016
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.6321352124214172,
      "learning_rate": 0.00014990598733787304,
      "loss": 2.8727,
      "step": 5017
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.5902657508850098,
      "learning_rate": 0.0001498110110777302,
      "loss": 2.7657,
      "step": 5018
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.5609399080276489,
      "learning_rate": 0.00014971605204123608,
      "loss": 2.8979,
      "step": 5019
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.6175565123558044,
      "learning_rate": 0.00014962111024471522,
      "loss": 2.9709,
      "step": 5020
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.6352386474609375,
      "learning_rate": 0.00014952618570448923,
      "loss": 2.9224,
      "step": 5021
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.6352874040603638,
      "learning_rate": 0.00014943127843687658,
      "loss": 2.9341,
      "step": 5022
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.6336969137191772,
      "learning_rate": 0.0001493363884581931,
      "loss": 2.9925,
      "step": 5023
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.6342067718505859,
      "learning_rate": 0.0001492415157847515,
      "loss": 2.8774,
      "step": 5024
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.561484694480896,
      "learning_rate": 0.0001491466604328614,
      "loss": 2.8878,
      "step": 5025
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.6076675057411194,
      "learning_rate": 0.00014905182241882955,
      "loss": 2.8846,
      "step": 5026
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.6064902544021606,
      "learning_rate": 0.00014895700175895978,
      "loss": 2.932,
      "step": 5027
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.613489031791687,
      "learning_rate": 0.00014886219846955276,
      "loss": 2.8232,
      "step": 5028
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.5722355842590332,
      "learning_rate": 0.0001487674125669063,
      "loss": 2.9511,
      "step": 5029
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.6740024089813232,
      "learning_rate": 0.00014867264406731524,
      "loss": 3.0297,
      "step": 5030
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.7092370390892029,
      "learning_rate": 0.00014857789298707133,
      "loss": 2.8908,
      "step": 5031
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.5955025553703308,
      "learning_rate": 0.0001484831593424633,
      "loss": 2.6808,
      "step": 5032
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.589555025100708,
      "learning_rate": 0.00014838844314977719,
      "loss": 3.0706,
      "step": 5033
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.6300276517868042,
      "learning_rate": 0.00014829374442529563,
      "loss": 2.9804,
      "step": 5034
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.6351862549781799,
      "learning_rate": 0.00014819906318529858,
      "loss": 2.9734,
      "step": 5035
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.6326326727867126,
      "learning_rate": 0.00014810439944606263,
      "loss": 2.7902,
      "step": 5036
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.6357560753822327,
      "learning_rate": 0.00014800975322386175,
      "loss": 2.9074,
      "step": 5037
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.5834027528762817,
      "learning_rate": 0.00014791512453496669,
      "loss": 2.9394,
      "step": 5038
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.6182675361633301,
      "learning_rate": 0.00014782051339564512,
      "loss": 3.0165,
      "step": 5039
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.5963327884674072,
      "learning_rate": 0.00014772591982216193,
      "loss": 2.9456,
      "step": 5040
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.5767441987991333,
      "learning_rate": 0.00014763134383077875,
      "loss": 2.943,
      "step": 5041
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.6363420486450195,
      "learning_rate": 0.00014753678543775428,
      "loss": 2.9227,
      "step": 5042
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.5672788023948669,
      "learning_rate": 0.0001474422446593443,
      "loss": 2.9648,
      "step": 5043
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.6094329953193665,
      "learning_rate": 0.0001473477215118014,
      "loss": 2.8841,
      "step": 5044
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.5789600014686584,
      "learning_rate": 0.00014725321601137526,
      "loss": 2.9128,
      "step": 5045
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.65018230676651,
      "learning_rate": 0.00014715872817431242,
      "loss": 2.8929,
      "step": 5046
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.5910133123397827,
      "learning_rate": 0.0001470642580168564,
      "loss": 2.9573,
      "step": 5047
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.6248393058776855,
      "learning_rate": 0.0001469698055552478,
      "loss": 2.9722,
      "step": 5048
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.7605319619178772,
      "learning_rate": 0.00014687537080572405,
      "loss": 2.8608,
      "step": 5049
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.5933259129524231,
      "learning_rate": 0.00014678095378451955,
      "loss": 2.9962,
      "step": 5050
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.6218412518501282,
      "learning_rate": 0.00014668655450786566,
      "loss": 2.8997,
      "step": 5051
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.6324700117111206,
      "learning_rate": 0.00014659217299199084,
      "loss": 2.8811,
      "step": 5052
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.6019564867019653,
      "learning_rate": 0.00014649780925312034,
      "loss": 2.9222,
      "step": 5053
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.5886076092720032,
      "learning_rate": 0.00014640346330747623,
      "loss": 2.9645,
      "step": 5054
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.6495130062103271,
      "learning_rate": 0.00014630913517127786,
      "loss": 2.9098,
      "step": 5055
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.5546932220458984,
      "learning_rate": 0.00014621482486074121,
      "loss": 2.7898,
      "step": 5056
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.6086717844009399,
      "learning_rate": 0.00014612053239207928,
      "loss": 2.9092,
      "step": 5057
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.582682728767395,
      "learning_rate": 0.0001460262577815022,
      "loss": 2.7692,
      "step": 5058
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.5855790972709656,
      "learning_rate": 0.0001459320010452167,
      "loss": 2.8395,
      "step": 5059
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.6395678520202637,
      "learning_rate": 0.00014583776219942665,
      "loss": 2.8924,
      "step": 5060
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.5797140598297119,
      "learning_rate": 0.00014574354126033293,
      "loss": 2.9035,
      "step": 5061
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.5758796334266663,
      "learning_rate": 0.0001456493382441331,
      "loss": 2.8136,
      "step": 5062
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.5838733911514282,
      "learning_rate": 0.00014555515316702175,
      "loss": 2.8563,
      "step": 5063
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.6092048287391663,
      "learning_rate": 0.0001454609860451904,
      "loss": 2.9547,
      "step": 5064
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.5786057114601135,
      "learning_rate": 0.0001453668368948275,
      "loss": 2.7737,
      "step": 5065
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.7159885168075562,
      "learning_rate": 0.00014527270573211823,
      "loss": 2.9037,
      "step": 5066
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.5612867474555969,
      "learning_rate": 0.00014517859257324507,
      "loss": 2.8362,
      "step": 5067
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.6232160329818726,
      "learning_rate": 0.000145084497434387,
      "loss": 2.8871,
      "step": 5068
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.606444239616394,
      "learning_rate": 0.00014499042033172,
      "loss": 2.8007,
      "step": 5069
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.5924754738807678,
      "learning_rate": 0.00014489636128141726,
      "loss": 2.9297,
      "step": 5070
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.6456202864646912,
      "learning_rate": 0.00014480232029964849,
      "loss": 2.9287,
      "step": 5071
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.5733287930488586,
      "learning_rate": 0.0001447082974025804,
      "loss": 2.8984,
      "step": 5072
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.6380754709243774,
      "learning_rate": 0.0001446142926063766,
      "loss": 2.886,
      "step": 5073
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.5967713594436646,
      "learning_rate": 0.00014452030592719756,
      "loss": 2.782,
      "step": 5074
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.6087301969528198,
      "learning_rate": 0.00014442633738120087,
      "loss": 2.903,
      "step": 5075
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.6254567503929138,
      "learning_rate": 0.0001443323869845407,
      "loss": 2.9645,
      "step": 5076
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.614948034286499,
      "learning_rate": 0.0001442384547533682,
      "loss": 2.9082,
      "step": 5077
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.5935119390487671,
      "learning_rate": 0.00014414454070383142,
      "loss": 2.9161,
      "step": 5078
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.6195140480995178,
      "learning_rate": 0.00014405064485207517,
      "loss": 2.8108,
      "step": 5079
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.5824965238571167,
      "learning_rate": 0.00014395676721424145,
      "loss": 2.935,
      "step": 5080
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.5809839963912964,
      "learning_rate": 0.00014386290780646872,
      "loss": 2.9805,
      "step": 5081
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.5759933590888977,
      "learning_rate": 0.00014376906664489265,
      "loss": 3.0023,
      "step": 5082
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.5720165371894836,
      "learning_rate": 0.00014367524374564556,
      "loss": 2.8162,
      "step": 5083
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.6056188941001892,
      "learning_rate": 0.00014358143912485672,
      "loss": 2.9116,
      "step": 5084
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.5904578566551208,
      "learning_rate": 0.0001434876527986522,
      "loss": 2.9321,
      "step": 5085
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.5972638726234436,
      "learning_rate": 0.00014339388478315496,
      "loss": 2.8245,
      "step": 5086
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.6310099363327026,
      "learning_rate": 0.00014330013509448468,
      "loss": 3.0207,
      "step": 5087
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.6133530735969543,
      "learning_rate": 0.00014320640374875827,
      "loss": 2.8611,
      "step": 5088
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.5723567008972168,
      "learning_rate": 0.00014311269076208903,
      "loss": 3.0363,
      "step": 5089
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.655795693397522,
      "learning_rate": 0.00014301899615058747,
      "loss": 2.8503,
      "step": 5090
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.5894853472709656,
      "learning_rate": 0.0001429253199303607,
      "loss": 2.9611,
      "step": 5091
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.5958889722824097,
      "learning_rate": 0.00014283166211751276,
      "loss": 2.8718,
      "step": 5092
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.614925742149353,
      "learning_rate": 0.0001427380227281445,
      "loss": 2.7286,
      "step": 5093
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.588752806186676,
      "learning_rate": 0.00014264440177835363,
      "loss": 2.8675,
      "step": 5094
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.6015784740447998,
      "learning_rate": 0.00014255079928423455,
      "loss": 2.8809,
      "step": 5095
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.5865603685379028,
      "learning_rate": 0.00014245721526187882,
      "loss": 2.9773,
      "step": 5096
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.5886864066123962,
      "learning_rate": 0.00014236364972737447,
      "loss": 2.9038,
      "step": 5097
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.5769251585006714,
      "learning_rate": 0.00014227010269680663,
      "loss": 2.9424,
      "step": 5098
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.6113880276679993,
      "learning_rate": 0.00014217657418625707,
      "loss": 2.8893,
      "step": 5099
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.5767626166343689,
      "learning_rate": 0.0001420830642118044,
      "loss": 2.8798,
      "step": 5100
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.5970311760902405,
      "learning_rate": 0.00014198957278952406,
      "loss": 2.9056,
      "step": 5101
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.5759143829345703,
      "learning_rate": 0.00014189609993548824,
      "loss": 2.9067,
      "step": 5102
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.6146707534790039,
      "learning_rate": 0.00014180264566576617,
      "loss": 2.8821,
      "step": 5103
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.6745862364768982,
      "learning_rate": 0.0001417092099964236,
      "loss": 2.8838,
      "step": 5104
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.6297679543495178,
      "learning_rate": 0.00014161579294352333,
      "loss": 2.9607,
      "step": 5105
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.6154996752738953,
      "learning_rate": 0.0001415223945231246,
      "loss": 2.9231,
      "step": 5106
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.5959582328796387,
      "learning_rate": 0.00014142901475128395,
      "loss": 2.8618,
      "step": 5107
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.6314557194709778,
      "learning_rate": 0.00014133565364405433,
      "loss": 2.945,
      "step": 5108
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.5587007403373718,
      "learning_rate": 0.0001412423112174856,
      "loss": 2.8382,
      "step": 5109
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.5581263899803162,
      "learning_rate": 0.0001411489874876243,
      "loss": 2.928,
      "step": 5110
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.6144130229949951,
      "learning_rate": 0.00014105568247051403,
      "loss": 2.9549,
      "step": 5111
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.6195432543754578,
      "learning_rate": 0.00014096239618219492,
      "loss": 2.9827,
      "step": 5112
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.5973202586174011,
      "learning_rate": 0.00014086912863870403,
      "loss": 2.7493,
      "step": 5113
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.5931268334388733,
      "learning_rate": 0.00014077587985607504,
      "loss": 2.989,
      "step": 5114
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.6071292757987976,
      "learning_rate": 0.00014068264985033857,
      "loss": 2.9046,
      "step": 5115
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.5813962817192078,
      "learning_rate": 0.00014058943863752178,
      "loss": 2.8068,
      "step": 5116
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.5864410400390625,
      "learning_rate": 0.0001404962462336489,
      "loss": 2.9043,
      "step": 5117
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.6271142959594727,
      "learning_rate": 0.00014040307265474086,
      "loss": 2.8418,
      "step": 5118
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.614661455154419,
      "learning_rate": 0.00014030991791681518,
      "loss": 2.9575,
      "step": 5119
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.590877890586853,
      "learning_rate": 0.00014021678203588627,
      "loss": 2.8716,
      "step": 5120
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.5736253261566162,
      "learning_rate": 0.00014012366502796526,
      "loss": 2.7782,
      "step": 5121
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.5862988829612732,
      "learning_rate": 0.00014003056690906,
      "loss": 2.8344,
      "step": 5122
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.5710417032241821,
      "learning_rate": 0.00013993748769517507,
      "loss": 3.0518,
      "step": 5123
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.6071030497550964,
      "learning_rate": 0.00013984442740231203,
      "loss": 2.8766,
      "step": 5124
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.5753281712532043,
      "learning_rate": 0.00013975138604646888,
      "loss": 3.019,
      "step": 5125
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.6017452478408813,
      "learning_rate": 0.00013965836364364067,
      "loss": 2.8311,
      "step": 5126
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.579336941242218,
      "learning_rate": 0.00013956536020981897,
      "loss": 2.8276,
      "step": 5127
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.7051551938056946,
      "learning_rate": 0.0001394723757609921,
      "loss": 2.9962,
      "step": 5128
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.6734923720359802,
      "learning_rate": 0.00013937941031314516,
      "loss": 2.8992,
      "step": 5129
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.6044327020645142,
      "learning_rate": 0.00013928646388226002,
      "loss": 2.8882,
      "step": 5130
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.6064525842666626,
      "learning_rate": 0.00013919353648431516,
      "loss": 2.8955,
      "step": 5131
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.5875888466835022,
      "learning_rate": 0.00013910062813528605,
      "loss": 2.8926,
      "step": 5132
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.6096900105476379,
      "learning_rate": 0.0001390077388511446,
      "loss": 3.0344,
      "step": 5133
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.5751140117645264,
      "learning_rate": 0.0001389148686478595,
      "loss": 2.8931,
      "step": 5134
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.6195797324180603,
      "learning_rate": 0.00013882201754139638,
      "loss": 2.9302,
      "step": 5135
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.5913642644882202,
      "learning_rate": 0.0001387291855477173,
      "loss": 2.8523,
      "step": 5136
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.617129385471344,
      "learning_rate": 0.00013863637268278123,
      "loss": 2.8405,
      "step": 5137
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.7419106364250183,
      "learning_rate": 0.0001385435789625436,
      "loss": 2.9379,
      "step": 5138
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.5841633081436157,
      "learning_rate": 0.00013845080440295698,
      "loss": 2.9567,
      "step": 5139
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.6462574601173401,
      "learning_rate": 0.00013835804901997029,
      "loss": 3.0917,
      "step": 5140
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.5999001860618591,
      "learning_rate": 0.0001382653128295292,
      "loss": 2.8191,
      "step": 5141
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.5861600637435913,
      "learning_rate": 0.00013817259584757619,
      "loss": 2.9195,
      "step": 5142
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.5727213621139526,
      "learning_rate": 0.0001380798980900503,
      "loss": 2.9207,
      "step": 5143
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.5790125131607056,
      "learning_rate": 0.00013798721957288747,
      "loss": 3.0289,
      "step": 5144
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.5885483622550964,
      "learning_rate": 0.0001378945603120202,
      "loss": 2.8803,
      "step": 5145
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.6557987332344055,
      "learning_rate": 0.00013780192032337752,
      "loss": 2.8531,
      "step": 5146
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.5684443116188049,
      "learning_rate": 0.00013770929962288552,
      "loss": 2.9232,
      "step": 5147
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.6009279489517212,
      "learning_rate": 0.00013761669822646676,
      "loss": 2.8043,
      "step": 5148
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.5776505470275879,
      "learning_rate": 0.0001375241161500404,
      "loss": 2.8375,
      "step": 5149
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.6474059224128723,
      "learning_rate": 0.00013743155340952242,
      "loss": 2.8874,
      "step": 5150
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.6887671947479248,
      "learning_rate": 0.00013733901002082544,
      "loss": 2.8942,
      "step": 5151
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.6123531460762024,
      "learning_rate": 0.00013724648599985857,
      "loss": 2.8987,
      "step": 5152
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.6120918989181519,
      "learning_rate": 0.00013715398136252794,
      "loss": 2.991,
      "step": 5153
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.5966280698776245,
      "learning_rate": 0.0001370614961247362,
      "loss": 3.0463,
      "step": 5154
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.6172887086868286,
      "learning_rate": 0.00013696903030238262,
      "loss": 2.8692,
      "step": 5155
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.5996779203414917,
      "learning_rate": 0.00013687658391136305,
      "loss": 3.0486,
      "step": 5156
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.5899050235748291,
      "learning_rate": 0.00013678415696757016,
      "loss": 2.8426,
      "step": 5157
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.5890079140663147,
      "learning_rate": 0.00013669174948689318,
      "loss": 2.8049,
      "step": 5158
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.5620100498199463,
      "learning_rate": 0.000136599361485218,
      "loss": 2.9802,
      "step": 5159
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.6234502196311951,
      "learning_rate": 0.0001365069929784273,
      "loss": 2.9065,
      "step": 5160
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.5746849775314331,
      "learning_rate": 0.00013641464398240021,
      "loss": 2.9511,
      "step": 5161
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.5523574352264404,
      "learning_rate": 0.00013632231451301256,
      "loss": 2.9077,
      "step": 5162
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.5859643816947937,
      "learning_rate": 0.000136230004586137,
      "loss": 2.9722,
      "step": 5163
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.6034521460533142,
      "learning_rate": 0.00013613771421764254,
      "loss": 2.9501,
      "step": 5164
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.5896698236465454,
      "learning_rate": 0.00013604544342339506,
      "loss": 2.8786,
      "step": 5165
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.6108468770980835,
      "learning_rate": 0.0001359531922192569,
      "loss": 2.8761,
      "step": 5166
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.5792279243469238,
      "learning_rate": 0.0001358609606210871,
      "loss": 2.9547,
      "step": 5167
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.625203013420105,
      "learning_rate": 0.00013576874864474142,
      "loss": 2.9013,
      "step": 5168
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.5943741798400879,
      "learning_rate": 0.0001356765563060721,
      "loss": 2.933,
      "step": 5169
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.6068574786186218,
      "learning_rate": 0.00013558438362092816,
      "loss": 2.986,
      "step": 5170
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.6847326159477234,
      "learning_rate": 0.00013549223060515503,
      "loss": 2.9227,
      "step": 5171
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.5795949697494507,
      "learning_rate": 0.000135400097274595,
      "loss": 2.9207,
      "step": 5172
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.5816351771354675,
      "learning_rate": 0.00013530798364508678,
      "loss": 3.0362,
      "step": 5173
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.6023902893066406,
      "learning_rate": 0.00013521588973246573,
      "loss": 2.7771,
      "step": 5174
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.6107279658317566,
      "learning_rate": 0.00013512381555256403,
      "loss": 2.7982,
      "step": 5175
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.6344308853149414,
      "learning_rate": 0.0001350317611212102,
      "loss": 2.8965,
      "step": 5176
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.5780957341194153,
      "learning_rate": 0.00013493972645422942,
      "loss": 2.8571,
      "step": 5177
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.6230885982513428,
      "learning_rate": 0.00013484771156744356,
      "loss": 3.0128,
      "step": 5178
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.5975049138069153,
      "learning_rate": 0.0001347557164766711,
      "loss": 2.8977,
      "step": 5179
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.6472616195678711,
      "learning_rate": 0.00013466374119772685,
      "loss": 2.8693,
      "step": 5180
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.6141415238380432,
      "learning_rate": 0.0001345717857464226,
      "loss": 2.888,
      "step": 5181
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.6140910983085632,
      "learning_rate": 0.00013447985013856665,
      "loss": 2.9808,
      "step": 5182
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.5982764363288879,
      "learning_rate": 0.00013438793438996365,
      "loss": 2.9117,
      "step": 5183
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.5862250328063965,
      "learning_rate": 0.00013429603851641505,
      "loss": 2.9008,
      "step": 5184
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.6450977325439453,
      "learning_rate": 0.0001342041625337188,
      "loss": 2.7373,
      "step": 5185
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.5673946142196655,
      "learning_rate": 0.00013411230645766936,
      "loss": 2.7642,
      "step": 5186
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.5854834914207458,
      "learning_rate": 0.000134020470304058,
      "loss": 2.9633,
      "step": 5187
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.5993738770484924,
      "learning_rate": 0.00013392865408867223,
      "loss": 2.8823,
      "step": 5188
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.5888094305992126,
      "learning_rate": 0.0001338368578272965,
      "loss": 2.9343,
      "step": 5189
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.5809560418128967,
      "learning_rate": 0.00013374508153571153,
      "loss": 2.8096,
      "step": 5190
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.6228451728820801,
      "learning_rate": 0.00013365332522969486,
      "loss": 2.9429,
      "step": 5191
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.5925447940826416,
      "learning_rate": 0.00013356158892502038,
      "loss": 2.9086,
      "step": 5192
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.6127628684043884,
      "learning_rate": 0.00013346987263745862,
      "loss": 2.8343,
      "step": 5193
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.6118488907814026,
      "learning_rate": 0.00013337817638277673,
      "loss": 2.9513,
      "step": 5194
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.5937718749046326,
      "learning_rate": 0.0001332865001767382,
      "loss": 2.8991,
      "step": 5195
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.6054776906967163,
      "learning_rate": 0.00013319484403510345,
      "loss": 2.9012,
      "step": 5196
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.5692439079284668,
      "learning_rate": 0.00013310320797362915,
      "loss": 2.9767,
      "step": 5197
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.6352943181991577,
      "learning_rate": 0.00013301159200806856,
      "loss": 2.9282,
      "step": 5198
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.5963789820671082,
      "learning_rate": 0.00013291999615417147,
      "loss": 2.9611,
      "step": 5199
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.5947147011756897,
      "learning_rate": 0.00013282842042768446,
      "loss": 2.8552,
      "step": 5200
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.5856333374977112,
      "learning_rate": 0.0001327368648443503,
      "loss": 2.9546,
      "step": 5201
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.5626983046531677,
      "learning_rate": 0.00013264532941990853,
      "loss": 2.9213,
      "step": 5202
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.5893184542655945,
      "learning_rate": 0.00013255381417009502,
      "loss": 2.8558,
      "step": 5203
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.574026882648468,
      "learning_rate": 0.0001324623191106425,
      "loss": 2.8334,
      "step": 5204
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.6282086968421936,
      "learning_rate": 0.00013237084425727995,
      "loss": 2.9675,
      "step": 5205
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.5845437049865723,
      "learning_rate": 0.00013227938962573295,
      "loss": 2.8967,
      "step": 5206
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.6331769824028015,
      "learning_rate": 0.0001321879552317236,
      "loss": 2.9114,
      "step": 5207
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.5489789247512817,
      "learning_rate": 0.00013209654109097043,
      "loss": 2.9144,
      "step": 5208
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.558308482170105,
      "learning_rate": 0.00013200514721918883,
      "loss": 2.7544,
      "step": 5209
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.6326895952224731,
      "learning_rate": 0.00013191377363209022,
      "loss": 2.8873,
      "step": 5210
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.6109159588813782,
      "learning_rate": 0.000131822420345383,
      "loss": 2.8706,
      "step": 5211
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.57683926820755,
      "learning_rate": 0.00013173108737477173,
      "loss": 2.9532,
      "step": 5212
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.6792654991149902,
      "learning_rate": 0.00013163977473595767,
      "loss": 2.9315,
      "step": 5213
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.5928983688354492,
      "learning_rate": 0.00013154848244463846,
      "loss": 2.9279,
      "step": 5214
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.6293594837188721,
      "learning_rate": 0.00013145721051650833,
      "loss": 2.9468,
      "step": 5215
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.5768222808837891,
      "learning_rate": 0.00013136595896725786,
      "loss": 2.8991,
      "step": 5216
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.5695278644561768,
      "learning_rate": 0.00013127472781257439,
      "loss": 2.9346,
      "step": 5217
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.595574676990509,
      "learning_rate": 0.0001311835170681417,
      "loss": 2.8652,
      "step": 5218
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.612609326839447,
      "learning_rate": 0.00013109232674963982,
      "loss": 2.9204,
      "step": 5219
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.6440353989601135,
      "learning_rate": 0.0001310011568727455,
      "loss": 2.8655,
      "step": 5220
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.5993083715438843,
      "learning_rate": 0.00013091000745313187,
      "loss": 2.8385,
      "step": 5221
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.6588387489318848,
      "learning_rate": 0.00013081887850646857,
      "loss": 2.9018,
      "step": 5222
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.5894858241081238,
      "learning_rate": 0.0001307277700484217,
      "loss": 2.8816,
      "step": 5223
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.6501044034957886,
      "learning_rate": 0.0001306366820946538,
      "loss": 3.0339,
      "step": 5224
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.5743341445922852,
      "learning_rate": 0.00013054561466082411,
      "loss": 2.9133,
      "step": 5225
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.6044813394546509,
      "learning_rate": 0.00013045456776258812,
      "loss": 3.0842,
      "step": 5226
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.6851745247840881,
      "learning_rate": 0.0001303635414155977,
      "loss": 2.9296,
      "step": 5227
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.612192690372467,
      "learning_rate": 0.00013027253563550157,
      "loss": 2.9536,
      "step": 5228
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.6142910718917847,
      "learning_rate": 0.00013018155043794454,
      "loss": 2.8029,
      "step": 5229
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.6376770734786987,
      "learning_rate": 0.00013009058583856808,
      "loss": 2.9722,
      "step": 5230
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.6116912364959717,
      "learning_rate": 0.0001299996418530099,
      "loss": 2.9389,
      "step": 5231
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.5670391917228699,
      "learning_rate": 0.00012990871849690455,
      "loss": 2.8748,
      "step": 5232
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.6312307715415955,
      "learning_rate": 0.0001298178157858827,
      "loss": 2.8984,
      "step": 5233
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.591797411441803,
      "learning_rate": 0.0001297269337355716,
      "loss": 2.8073,
      "step": 5234
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.5824756622314453,
      "learning_rate": 0.0001296360723615949,
      "loss": 2.9582,
      "step": 5235
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.5984552502632141,
      "learning_rate": 0.00012954523167957267,
      "loss": 3.0252,
      "step": 5236
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.6048779487609863,
      "learning_rate": 0.0001294544117051216,
      "loss": 2.9146,
      "step": 5237
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.6290403008460999,
      "learning_rate": 0.00012936361245385457,
      "loss": 2.8825,
      "step": 5238
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.5828866958618164,
      "learning_rate": 0.00012927283394138122,
      "loss": 2.8982,
      "step": 5239
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.6083387732505798,
      "learning_rate": 0.0001291820761833073,
      "loss": 2.7838,
      "step": 5240
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.5949163436889648,
      "learning_rate": 0.0001290913391952351,
      "loss": 2.8661,
      "step": 5241
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.6132102012634277,
      "learning_rate": 0.00012900062299276338,
      "loss": 2.9444,
      "step": 5242
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.6048924922943115,
      "learning_rate": 0.00012890992759148734,
      "loss": 3.046,
      "step": 5243
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.670432448387146,
      "learning_rate": 0.00012881925300699853,
      "loss": 2.9139,
      "step": 5244
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.5797538161277771,
      "learning_rate": 0.00012872859925488488,
      "loss": 2.8467,
      "step": 5245
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.5664755702018738,
      "learning_rate": 0.0001286379663507309,
      "loss": 2.7263,
      "step": 5246
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.617440402507782,
      "learning_rate": 0.00012854735431011758,
      "loss": 2.9195,
      "step": 5247
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.6050596237182617,
      "learning_rate": 0.00012845676314862203,
      "loss": 3.0269,
      "step": 5248
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.6212728023529053,
      "learning_rate": 0.00012836619288181795,
      "loss": 2.8365,
      "step": 5249
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.5783978700637817,
      "learning_rate": 0.00012827564352527543,
      "loss": 2.9157,
      "step": 5250
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.5936064720153809,
      "learning_rate": 0.00012818511509456092,
      "loss": 2.8909,
      "step": 5251
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.6279463171958923,
      "learning_rate": 0.0001280946076052372,
      "loss": 2.9485,
      "step": 5252
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.5654323697090149,
      "learning_rate": 0.00012800412107286384,
      "loss": 2.8798,
      "step": 5253
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.5901085734367371,
      "learning_rate": 0.00012791365551299624,
      "loss": 2.8866,
      "step": 5254
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.6089218258857727,
      "learning_rate": 0.00012782321094118672,
      "loss": 2.9089,
      "step": 5255
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.5795671939849854,
      "learning_rate": 0.0001277327873729836,
      "loss": 2.8719,
      "step": 5256
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.6124262809753418,
      "learning_rate": 0.0001276423848239318,
      "loss": 2.962,
      "step": 5257
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.5768418908119202,
      "learning_rate": 0.0001275520033095725,
      "loss": 2.8347,
      "step": 5258
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.6664753556251526,
      "learning_rate": 0.00012746164284544332,
      "loss": 2.8778,
      "step": 5259
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.608439028263092,
      "learning_rate": 0.00012737130344707843,
      "loss": 3.0028,
      "step": 5260
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.6771724224090576,
      "learning_rate": 0.00012728098513000805,
      "loss": 2.7816,
      "step": 5261
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.5762157440185547,
      "learning_rate": 0.00012719068790975906,
      "loss": 2.9676,
      "step": 5262
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.6554642915725708,
      "learning_rate": 0.0001271004118018545,
      "loss": 2.9006,
      "step": 5263
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.6183274984359741,
      "learning_rate": 0.00012701015682181385,
      "loss": 2.8827,
      "step": 5264
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.6552883982658386,
      "learning_rate": 0.00012691992298515317,
      "loss": 3.0097,
      "step": 5265
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.5962399840354919,
      "learning_rate": 0.0001268297103073846,
      "loss": 2.9086,
      "step": 5266
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.5760394334793091,
      "learning_rate": 0.00012673951880401663,
      "loss": 2.9433,
      "step": 5267
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.5930998921394348,
      "learning_rate": 0.00012664934849055442,
      "loss": 2.9691,
      "step": 5268
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.59547358751297,
      "learning_rate": 0.00012655919938249922,
      "loss": 2.7633,
      "step": 5269
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.599932849407196,
      "learning_rate": 0.0001264690714953487,
      "loss": 2.9541,
      "step": 5270
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.5699630379676819,
      "learning_rate": 0.00012637896484459687,
      "loss": 2.8746,
      "step": 5271
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.6345856785774231,
      "learning_rate": 0.00012628887944573413,
      "loss": 2.9197,
      "step": 5272
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.5893436074256897,
      "learning_rate": 0.00012619881531424713,
      "loss": 2.9179,
      "step": 5273
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.599696934223175,
      "learning_rate": 0.00012610877246561897,
      "loss": 2.9085,
      "step": 5274
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.580214262008667,
      "learning_rate": 0.0001260187509153292,
      "loss": 2.8085,
      "step": 5275
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.5779206156730652,
      "learning_rate": 0.00012592875067885345,
      "loss": 2.8795,
      "step": 5276
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.587709903717041,
      "learning_rate": 0.0001258387717716638,
      "loss": 2.879,
      "step": 5277
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.5838705897331238,
      "learning_rate": 0.00012574881420922873,
      "loss": 2.8182,
      "step": 5278
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.5921867489814758,
      "learning_rate": 0.00012565887800701291,
      "loss": 2.8529,
      "step": 5279
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.5602889657020569,
      "learning_rate": 0.00012556896318047733,
      "loss": 2.9441,
      "step": 5280
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.598645806312561,
      "learning_rate": 0.00012547906974507968,
      "loss": 2.9293,
      "step": 5281
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.6448558568954468,
      "learning_rate": 0.00012538919771627334,
      "loss": 2.8711,
      "step": 5282
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.5703883171081543,
      "learning_rate": 0.00012529934710950864,
      "loss": 2.9794,
      "step": 5283
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.08464777469635,
      "learning_rate": 0.00012520951794023184,
      "loss": 2.9269,
      "step": 5284
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.6150392889976501,
      "learning_rate": 0.00012511971022388557,
      "loss": 2.8431,
      "step": 5285
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.6278603672981262,
      "learning_rate": 0.0001250299239759089,
      "loss": 2.9547,
      "step": 5286
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.6299866437911987,
      "learning_rate": 0.00012494015921173704,
      "loss": 2.9056,
      "step": 5287
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.5984632968902588,
      "learning_rate": 0.00012485041594680155,
      "loss": 2.9181,
      "step": 5288
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.5761731863021851,
      "learning_rate": 0.0001247606941965305,
      "loss": 3.0639,
      "step": 5289
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.5962022542953491,
      "learning_rate": 0.00012467099397634802,
      "loss": 2.9003,
      "step": 5290
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.5830286741256714,
      "learning_rate": 0.00012458131530167452,
      "loss": 2.9285,
      "step": 5291
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.5675240755081177,
      "learning_rate": 0.000124491658187927,
      "loss": 2.9524,
      "step": 5292
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.5913161635398865,
      "learning_rate": 0.00012440202265051844,
      "loss": 2.9512,
      "step": 5293
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.6074075698852539,
      "learning_rate": 0.00012431240870485824,
      "loss": 2.9041,
      "step": 5294
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.6252782940864563,
      "learning_rate": 0.00012422281636635202,
      "loss": 2.9643,
      "step": 5295
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.5854175090789795,
      "learning_rate": 0.00012413324565040186,
      "loss": 2.8844,
      "step": 5296
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.5726292729377747,
      "learning_rate": 0.00012404369657240596,
      "loss": 3.0264,
      "step": 5297
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.6848312616348267,
      "learning_rate": 0.0001239541691477588,
      "loss": 2.9369,
      "step": 5298
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.6084685325622559,
      "learning_rate": 0.00012386466339185125,
      "loss": 3.0809,
      "step": 5299
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.6115013360977173,
      "learning_rate": 0.00012377517932007033,
      "loss": 2.9704,
      "step": 5300
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.5710967183113098,
      "learning_rate": 0.00012368571694779934,
      "loss": 2.9349,
      "step": 5301
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.5769869685173035,
      "learning_rate": 0.00012359627629041805,
      "loss": 2.8142,
      "step": 5302
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.6220636963844299,
      "learning_rate": 0.00012350685736330216,
      "loss": 2.9432,
      "step": 5303
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.6148094534873962,
      "learning_rate": 0.000123417460181824,
      "loss": 2.814,
      "step": 5304
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.6234908103942871,
      "learning_rate": 0.00012332808476135193,
      "loss": 2.8749,
      "step": 5305
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.6309216618537903,
      "learning_rate": 0.00012323873111725063,
      "loss": 2.9923,
      "step": 5306
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.622292160987854,
      "learning_rate": 0.00012314939926488095,
      "loss": 2.8911,
      "step": 5307
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.585644006729126,
      "learning_rate": 0.0001230600892196001,
      "loss": 2.9338,
      "step": 5308
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.6069642305374146,
      "learning_rate": 0.00012297080099676146,
      "loss": 2.9428,
      "step": 5309
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.573518693447113,
      "learning_rate": 0.0001228815346117148,
      "loss": 2.8445,
      "step": 5310
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.6151034235954285,
      "learning_rate": 0.00012279229007980605,
      "loss": 3.0255,
      "step": 5311
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.6081961989402771,
      "learning_rate": 0.0001227030674163774,
      "loss": 2.9064,
      "step": 5312
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.5659429430961609,
      "learning_rate": 0.00012261386663676722,
      "loss": 2.8981,
      "step": 5313
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.5935141444206238,
      "learning_rate": 0.00012252468775631012,
      "loss": 2.8205,
      "step": 5314
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.596710741519928,
      "learning_rate": 0.00012243553079033703,
      "loss": 2.9395,
      "step": 5315
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.5856487154960632,
      "learning_rate": 0.00012234639575417497,
      "loss": 2.9685,
      "step": 5316
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.6144005060195923,
      "learning_rate": 0.00012225728266314746,
      "loss": 2.9406,
      "step": 5317
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.6321184039115906,
      "learning_rate": 0.00012216819153257398,
      "loss": 2.8072,
      "step": 5318
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.6141030788421631,
      "learning_rate": 0.00012207912237777022,
      "loss": 3.0266,
      "step": 5319
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.5991215109825134,
      "learning_rate": 0.0001219900752140484,
      "loss": 2.8246,
      "step": 5320
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.5862281322479248,
      "learning_rate": 0.0001219010500567167,
      "loss": 2.9232,
      "step": 5321
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.5625575184822083,
      "learning_rate": 0.00012181204692107952,
      "loss": 2.9905,
      "step": 5322
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.5734854340553284,
      "learning_rate": 0.00012172306582243756,
      "loss": 2.9166,
      "step": 5323
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.5982785820960999,
      "learning_rate": 0.0001216341067760876,
      "loss": 2.8596,
      "step": 5324
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.593723475933075,
      "learning_rate": 0.00012154516979732295,
      "loss": 2.7441,
      "step": 5325
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.5705528259277344,
      "learning_rate": 0.00012145625490143275,
      "loss": 2.8962,
      "step": 5326
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.5693665146827698,
      "learning_rate": 0.00012136736210370255,
      "loss": 2.8243,
      "step": 5327
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.6444319486618042,
      "learning_rate": 0.00012127849141941396,
      "loss": 2.8787,
      "step": 5328
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.5857589840888977,
      "learning_rate": 0.00012118964286384506,
      "loss": 2.9528,
      "step": 5329
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.5838067531585693,
      "learning_rate": 0.00012110081645226986,
      "loss": 2.8488,
      "step": 5330
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.618828535079956,
      "learning_rate": 0.00012101201219995853,
      "loss": 2.811,
      "step": 5331
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.6021440625190735,
      "learning_rate": 0.00012092323012217774,
      "loss": 2.9287,
      "step": 5332
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.6547493934631348,
      "learning_rate": 0.00012083447023419009,
      "loss": 2.9125,
      "step": 5333
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.601311981678009,
      "learning_rate": 0.00012074573255125442,
      "loss": 2.809,
      "step": 5334
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.6142562031745911,
      "learning_rate": 0.00012065701708862578,
      "loss": 2.927,
      "step": 5335
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.6562340259552002,
      "learning_rate": 0.00012056832386155536,
      "loss": 2.883,
      "step": 5336
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.616973876953125,
      "learning_rate": 0.0001204796528852905,
      "loss": 2.8792,
      "step": 5337
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.5967327952384949,
      "learning_rate": 0.0001203910041750749,
      "loss": 2.9917,
      "step": 5338
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.6030439734458923,
      "learning_rate": 0.00012030237774614816,
      "loss": 3.0391,
      "step": 5339
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.644309401512146,
      "learning_rate": 0.00012021377361374636,
      "loss": 2.9104,
      "step": 5340
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.6237565279006958,
      "learning_rate": 0.0001201251917931015,
      "loss": 2.9917,
      "step": 5341
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.5932435989379883,
      "learning_rate": 0.00012003663229944178,
      "loss": 2.9408,
      "step": 5342
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.6108154058456421,
      "learning_rate": 0.00011994809514799166,
      "loss": 2.9198,
      "step": 5343
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.6291407346725464,
      "learning_rate": 0.00011985958035397169,
      "loss": 2.8583,
      "step": 5344
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.557366669178009,
      "learning_rate": 0.00011977108793259845,
      "loss": 2.8679,
      "step": 5345
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.572282612323761,
      "learning_rate": 0.00011968261789908502,
      "loss": 2.8446,
      "step": 5346
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.6048418283462524,
      "learning_rate": 0.00011959417026864025,
      "loss": 2.924,
      "step": 5347
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.5920541286468506,
      "learning_rate": 0.00011950574505646952,
      "loss": 2.9844,
      "step": 5348
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.6158856153488159,
      "learning_rate": 0.00011941734227777403,
      "loss": 2.9178,
      "step": 5349
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.6175451874732971,
      "learning_rate": 0.00011932896194775125,
      "loss": 2.9054,
      "step": 5350
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.6117708683013916,
      "learning_rate": 0.00011924060408159477,
      "loss": 3.0475,
      "step": 5351
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.6320011019706726,
      "learning_rate": 0.00011915226869449425,
      "loss": 2.9263,
      "step": 5352
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.6339372396469116,
      "learning_rate": 0.00011906395580163576,
      "loss": 2.8744,
      "step": 5353
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.6233684420585632,
      "learning_rate": 0.0001189756654182012,
      "loss": 2.9294,
      "step": 5354
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.5755069255828857,
      "learning_rate": 0.00011888739755936873,
      "loss": 3.0019,
      "step": 5355
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.6179298758506775,
      "learning_rate": 0.00011879915224031249,
      "loss": 2.9723,
      "step": 5356
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.573494017124176,
      "learning_rate": 0.0001187109294762031,
      "loss": 2.8352,
      "step": 5357
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.7008303999900818,
      "learning_rate": 0.00011862272928220696,
      "loss": 2.9569,
      "step": 5358
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.5753492116928101,
      "learning_rate": 0.00011853455167348673,
      "loss": 2.8361,
      "step": 5359
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.5847108364105225,
      "learning_rate": 0.00011844639666520105,
      "loss": 2.9174,
      "step": 5360
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.5936180949211121,
      "learning_rate": 0.00011835826427250496,
      "loss": 3.0073,
      "step": 5361
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.5976806879043579,
      "learning_rate": 0.00011827015451054937,
      "loss": 2.9002,
      "step": 5362
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.6111578941345215,
      "learning_rate": 0.00011818206739448137,
      "loss": 2.8807,
      "step": 5363
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.6029756665229797,
      "learning_rate": 0.00011809400293944414,
      "loss": 2.7575,
      "step": 5364
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.586814820766449,
      "learning_rate": 0.00011800596116057688,
      "loss": 2.8011,
      "step": 5365
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.5846905708312988,
      "learning_rate": 0.00011791794207301524,
      "loss": 2.9676,
      "step": 5366
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.6052501201629639,
      "learning_rate": 0.00011782994569189045,
      "loss": 2.9023,
      "step": 5367
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.5854985117912292,
      "learning_rate": 0.00011774197203233037,
      "loss": 2.9238,
      "step": 5368
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.5668078064918518,
      "learning_rate": 0.00011765402110945852,
      "loss": 2.8622,
      "step": 5369
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.6016255021095276,
      "learning_rate": 0.00011756609293839477,
      "loss": 2.91,
      "step": 5370
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.6406950354576111,
      "learning_rate": 0.00011747818753425493,
      "loss": 2.7889,
      "step": 5371
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.6652544736862183,
      "learning_rate": 0.00011739030491215097,
      "loss": 2.9035,
      "step": 5372
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.6275023818016052,
      "learning_rate": 0.00011730244508719087,
      "loss": 2.9414,
      "step": 5373
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.5733817219734192,
      "learning_rate": 0.00011721460807447889,
      "loss": 2.8804,
      "step": 5374
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.5677391290664673,
      "learning_rate": 0.0001171267938891151,
      "loss": 2.833,
      "step": 5375
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.5863094925880432,
      "learning_rate": 0.0001170390025461959,
      "loss": 2.9307,
      "step": 5376
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.6450762152671814,
      "learning_rate": 0.00011695123406081359,
      "loss": 3.0182,
      "step": 5377
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.6408467888832092,
      "learning_rate": 0.00011686348844805659,
      "loss": 2.9132,
      "step": 5378
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.6488192677497864,
      "learning_rate": 0.00011677576572300935,
      "loss": 2.9281,
      "step": 5379
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.6512842178344727,
      "learning_rate": 0.00011668806590075248,
      "loss": 2.9162,
      "step": 5380
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.5865322947502136,
      "learning_rate": 0.00011660038899636247,
      "loss": 2.8953,
      "step": 5381
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.6155427694320679,
      "learning_rate": 0.00011651273502491216,
      "loss": 2.9406,
      "step": 5382
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.5878878831863403,
      "learning_rate": 0.00011642510400147025,
      "loss": 2.8855,
      "step": 5383
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.5738050937652588,
      "learning_rate": 0.00011633749594110139,
      "loss": 2.8164,
      "step": 5384
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.6016598343849182,
      "learning_rate": 0.00011624991085886661,
      "loss": 2.904,
      "step": 5385
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.6233713030815125,
      "learning_rate": 0.0001161623487698227,
      "loss": 2.9201,
      "step": 5386
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.5965919494628906,
      "learning_rate": 0.00011607480968902264,
      "loss": 2.8194,
      "step": 5387
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.6536330580711365,
      "learning_rate": 0.0001159872936315153,
      "loss": 2.9496,
      "step": 5388
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.6129851937294006,
      "learning_rate": 0.00011589980061234587,
      "loss": 2.7832,
      "step": 5389
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.5864711999893188,
      "learning_rate": 0.00011581233064655536,
      "loss": 2.9399,
      "step": 5390
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.5867738723754883,
      "learning_rate": 0.00011572488374918083,
      "loss": 2.9254,
      "step": 5391
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.6779180765151978,
      "learning_rate": 0.00011563745993525543,
      "loss": 2.963,
      "step": 5392
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.6052826046943665,
      "learning_rate": 0.00011555005921980825,
      "loss": 2.8997,
      "step": 5393
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.6366022825241089,
      "learning_rate": 0.00011546268161786466,
      "loss": 2.85,
      "step": 5394
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.5971664190292358,
      "learning_rate": 0.0001153753271444458,
      "loss": 2.9277,
      "step": 5395
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.6738603711128235,
      "learning_rate": 0.00011528799581456878,
      "loss": 2.8463,
      "step": 5396
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.6221867799758911,
      "learning_rate": 0.00011520068764324712,
      "loss": 2.9972,
      "step": 5397
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.569963812828064,
      "learning_rate": 0.00011511340264548997,
      "loss": 2.8726,
      "step": 5398
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.6474589109420776,
      "learning_rate": 0.00011502614083630264,
      "loss": 3.1173,
      "step": 5399
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.585931122303009,
      "learning_rate": 0.00011493890223068646,
      "loss": 3.0246,
      "step": 5400
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.6228200793266296,
      "learning_rate": 0.00011485168684363876,
      "loss": 2.9094,
      "step": 5401
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.5869488716125488,
      "learning_rate": 0.00011476449469015276,
      "loss": 2.977,
      "step": 5402
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.594357967376709,
      "learning_rate": 0.0001146773257852179,
      "loss": 2.8494,
      "step": 5403
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.5978077054023743,
      "learning_rate": 0.00011459018014381963,
      "loss": 2.9297,
      "step": 5404
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.6686728000640869,
      "learning_rate": 0.0001145030577809392,
      "loss": 2.9473,
      "step": 5405
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.6123685240745544,
      "learning_rate": 0.00011441595871155397,
      "loss": 2.9024,
      "step": 5406
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.6204121708869934,
      "learning_rate": 0.00011432888295063723,
      "loss": 2.84,
      "step": 5407
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.6346277594566345,
      "learning_rate": 0.00011424183051315837,
      "loss": 2.8131,
      "step": 5408
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.6294842958450317,
      "learning_rate": 0.00011415480141408258,
      "loss": 2.9085,
      "step": 5409
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.6729118824005127,
      "learning_rate": 0.00011406779566837139,
      "loss": 2.9446,
      "step": 5410
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.6117194294929504,
      "learning_rate": 0.00011398081329098198,
      "loss": 3.0056,
      "step": 5411
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.5890430808067322,
      "learning_rate": 0.00011389385429686752,
      "loss": 2.806,
      "step": 5412
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.704800546169281,
      "learning_rate": 0.0001138069187009775,
      "loss": 2.9493,
      "step": 5413
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.6278544664382935,
      "learning_rate": 0.00011372000651825703,
      "loss": 2.9439,
      "step": 5414
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.6050348281860352,
      "learning_rate": 0.00011363311776364735,
      "loss": 2.9211,
      "step": 5415
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.5696675181388855,
      "learning_rate": 0.0001135462524520856,
      "loss": 2.8987,
      "step": 5416
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.5855618119239807,
      "learning_rate": 0.0001134594105985049,
      "loss": 2.8688,
      "step": 5417
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.6494256258010864,
      "learning_rate": 0.00011337259221783453,
      "loss": 2.9531,
      "step": 5418
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.6385889053344727,
      "learning_rate": 0.00011328579732499944,
      "loss": 2.9194,
      "step": 5419
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.5767003893852234,
      "learning_rate": 0.00011319902593492074,
      "loss": 2.8993,
      "step": 5420
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.6064894199371338,
      "learning_rate": 0.00011311227806251531,
      "loss": 2.828,
      "step": 5421
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.5621690154075623,
      "learning_rate": 0.00011302555372269633,
      "loss": 2.8716,
      "step": 5422
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.5488964915275574,
      "learning_rate": 0.00011293885293037259,
      "loss": 2.9797,
      "step": 5423
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.5839499831199646,
      "learning_rate": 0.0001128521757004489,
      "loss": 2.7942,
      "step": 5424
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.6176460385322571,
      "learning_rate": 0.00011276552204782625,
      "loss": 3.0497,
      "step": 5425
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.5659562945365906,
      "learning_rate": 0.00011267889198740131,
      "loss": 2.9087,
      "step": 5426
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.5753097534179688,
      "learning_rate": 0.0001125922855340668,
      "loss": 2.8428,
      "step": 5427
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.5927407145500183,
      "learning_rate": 0.0001125057027027114,
      "loss": 2.6866,
      "step": 5428
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.6103492975234985,
      "learning_rate": 0.00011241914350821967,
      "loss": 2.9903,
      "step": 5429
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.6147860884666443,
      "learning_rate": 0.00011233260796547201,
      "loss": 2.9174,
      "step": 5430
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.5990923643112183,
      "learning_rate": 0.00011224609608934505,
      "loss": 2.9137,
      "step": 5431
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.5740587711334229,
      "learning_rate": 0.00011215960789471125,
      "loss": 2.8357,
      "step": 5432
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.673095166683197,
      "learning_rate": 0.00011207314339643884,
      "loss": 3.0458,
      "step": 5433
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.56982421875,
      "learning_rate": 0.00011198670260939206,
      "loss": 2.8491,
      "step": 5434
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.5787140727043152,
      "learning_rate": 0.00011190028554843107,
      "loss": 2.8669,
      "step": 5435
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.6632564663887024,
      "learning_rate": 0.00011181389222841201,
      "loss": 2.9675,
      "step": 5436
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.616145133972168,
      "learning_rate": 0.00011172752266418684,
      "loss": 2.9404,
      "step": 5437
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.6270097494125366,
      "learning_rate": 0.00011164117687060346,
      "loss": 2.9712,
      "step": 5438
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.6086425185203552,
      "learning_rate": 0.00011155485486250574,
      "loss": 2.8463,
      "step": 5439
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.6346774697303772,
      "learning_rate": 0.00011146855665473355,
      "loss": 2.9331,
      "step": 5440
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.6023135781288147,
      "learning_rate": 0.00011138228226212249,
      "loss": 2.9706,
      "step": 5441
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.6156273484230042,
      "learning_rate": 0.00011129603169950409,
      "loss": 3.001,
      "step": 5442
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.6398141384124756,
      "learning_rate": 0.00011120980498170583,
      "loss": 2.9392,
      "step": 5443
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.5910387635231018,
      "learning_rate": 0.0001111236021235511,
      "loss": 2.9219,
      "step": 5444
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.5824592709541321,
      "learning_rate": 0.00011103742313985906,
      "loss": 2.9037,
      "step": 5445
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.569983959197998,
      "learning_rate": 0.00011095126804544505,
      "loss": 2.7713,
      "step": 5446
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.6241178512573242,
      "learning_rate": 0.0001108651368551201,
      "loss": 3.0624,
      "step": 5447
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.5750749111175537,
      "learning_rate": 0.00011077902958369106,
      "loss": 2.8555,
      "step": 5448
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.621406078338623,
      "learning_rate": 0.00011069294624596077,
      "loss": 2.7825,
      "step": 5449
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.6359707117080688,
      "learning_rate": 0.0001106068868567281,
      "loss": 2.9314,
      "step": 5450
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.5814835429191589,
      "learning_rate": 0.00011052085143078752,
      "loss": 2.8987,
      "step": 5451
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.6256855726242065,
      "learning_rate": 0.00011043483998292949,
      "loss": 2.847,
      "step": 5452
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.6307448744773865,
      "learning_rate": 0.00011034885252794056,
      "loss": 2.8614,
      "step": 5453
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.6030552387237549,
      "learning_rate": 0.00011026288908060284,
      "loss": 2.7755,
      "step": 5454
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.630754828453064,
      "learning_rate": 0.00011017694965569447,
      "loss": 2.9031,
      "step": 5455
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.5966871976852417,
      "learning_rate": 0.00011009103426798939,
      "loss": 2.9611,
      "step": 5456
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.5683115124702454,
      "learning_rate": 0.0001100051429322575,
      "loss": 2.9153,
      "step": 5457
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.6105042695999146,
      "learning_rate": 0.00010991927566326443,
      "loss": 2.8507,
      "step": 5458
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.6374151110649109,
      "learning_rate": 0.00010983343247577187,
      "loss": 2.8937,
      "step": 5459
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.6057537198066711,
      "learning_rate": 0.00010974761338453718,
      "loss": 2.8139,
      "step": 5460
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.6391171813011169,
      "learning_rate": 0.00010966181840431375,
      "loss": 2.9495,
      "step": 5461
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.6215466260910034,
      "learning_rate": 0.0001095760475498507,
      "loss": 2.9416,
      "step": 5462
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.608860194683075,
      "learning_rate": 0.000109490300835893,
      "loss": 2.9079,
      "step": 5463
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.5856780409812927,
      "learning_rate": 0.00010940457827718151,
      "loss": 2.8122,
      "step": 5464
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.5893174409866333,
      "learning_rate": 0.00010931887988845294,
      "loss": 2.893,
      "step": 5465
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.616634726524353,
      "learning_rate": 0.00010923320568443972,
      "loss": 2.9195,
      "step": 5466
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.6208804249763489,
      "learning_rate": 0.0001091475556798704,
      "loss": 2.943,
      "step": 5467
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.6857827305793762,
      "learning_rate": 0.00010906192988946922,
      "loss": 2.9125,
      "step": 5468
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.6080222129821777,
      "learning_rate": 0.00010897632832795618,
      "loss": 2.8534,
      "step": 5469
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.6384547352790833,
      "learning_rate": 0.0001088907510100472,
      "loss": 2.8812,
      "step": 5470
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.5703654289245605,
      "learning_rate": 0.00010880519795045399,
      "loss": 2.8456,
      "step": 5471
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.5699140429496765,
      "learning_rate": 0.00010871966916388415,
      "loss": 2.8907,
      "step": 5472
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.5924664735794067,
      "learning_rate": 0.00010863416466504092,
      "loss": 2.9227,
      "step": 5473
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.6442660093307495,
      "learning_rate": 0.00010854868446862373,
      "loss": 3.0384,
      "step": 5474
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.6009081602096558,
      "learning_rate": 0.00010846322858932756,
      "loss": 2.8362,
      "step": 5475
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.5961310267448425,
      "learning_rate": 0.00010837779704184311,
      "loss": 2.9032,
      "step": 5476
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.659799337387085,
      "learning_rate": 0.00010829238984085727,
      "loss": 2.9121,
      "step": 5477
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.6046723127365112,
      "learning_rate": 0.00010820700700105244,
      "loss": 2.8612,
      "step": 5478
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.5593159794807434,
      "learning_rate": 0.00010812164853710687,
      "loss": 2.8097,
      "step": 5479
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.6449506282806396,
      "learning_rate": 0.00010803631446369477,
      "loss": 2.8614,
      "step": 5480
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.5663732290267944,
      "learning_rate": 0.00010795100479548586,
      "loss": 2.8772,
      "step": 5481
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.616836667060852,
      "learning_rate": 0.00010786571954714613,
      "loss": 2.8894,
      "step": 5482
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.5921893119812012,
      "learning_rate": 0.00010778045873333695,
      "loss": 2.8613,
      "step": 5483
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.6031481027603149,
      "learning_rate": 0.00010769522236871568,
      "loss": 2.8401,
      "step": 5484
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.6325654983520508,
      "learning_rate": 0.00010761001046793539,
      "loss": 2.9509,
      "step": 5485
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.6168055534362793,
      "learning_rate": 0.00010752482304564495,
      "loss": 2.8787,
      "step": 5486
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.5822716951370239,
      "learning_rate": 0.00010743966011648926,
      "loss": 2.8408,
      "step": 5487
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.6154190897941589,
      "learning_rate": 0.0001073545216951086,
      "loss": 2.8844,
      "step": 5488
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.6213515996932983,
      "learning_rate": 0.00010726940779613942,
      "loss": 2.9042,
      "step": 5489
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.6169475317001343,
      "learning_rate": 0.0001071843184342137,
      "loss": 2.9258,
      "step": 5490
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.6150160431861877,
      "learning_rate": 0.00010709925362395933,
      "loss": 2.8176,
      "step": 5491
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.5968570113182068,
      "learning_rate": 0.0001070142133799999,
      "loss": 2.8884,
      "step": 5492
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.6094436645507812,
      "learning_rate": 0.00010692919771695483,
      "loss": 2.8683,
      "step": 5493
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.6344820857048035,
      "learning_rate": 0.0001068442066494392,
      "loss": 2.9658,
      "step": 5494
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.6173272728919983,
      "learning_rate": 0.00010675924019206415,
      "loss": 2.9149,
      "step": 5495
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.5719384551048279,
      "learning_rate": 0.00010667429835943617,
      "loss": 2.9894,
      "step": 5496
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.5988147854804993,
      "learning_rate": 0.00010658938116615802,
      "loss": 2.9674,
      "step": 5497
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.573928952217102,
      "learning_rate": 0.00010650448862682777,
      "loss": 3.0043,
      "step": 5498
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.6229873299598694,
      "learning_rate": 0.00010641962075603948,
      "loss": 2.8011,
      "step": 5499
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.6164451241493225,
      "learning_rate": 0.00010633477756838292,
      "loss": 2.8096,
      "step": 5500
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.6563376784324646,
      "learning_rate": 0.0001062499590784436,
      "loss": 3.0061,
      "step": 5501
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.6144809722900391,
      "learning_rate": 0.00010616516530080269,
      "loss": 2.8968,
      "step": 5502
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.5592175126075745,
      "learning_rate": 0.00010608039625003746,
      "loss": 2.8265,
      "step": 5503
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.6158186197280884,
      "learning_rate": 0.00010599565194072047,
      "loss": 2.9698,
      "step": 5504
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.5815454125404358,
      "learning_rate": 0.00010591093238742047,
      "loss": 2.8627,
      "step": 5505
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.5982940196990967,
      "learning_rate": 0.00010582623760470159,
      "loss": 3.0078,
      "step": 5506
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.5768428444862366,
      "learning_rate": 0.00010574156760712389,
      "loss": 2.8626,
      "step": 5507
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.5985810160636902,
      "learning_rate": 0.00010565692240924307,
      "loss": 2.9361,
      "step": 5508
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.5829513072967529,
      "learning_rate": 0.0001055723020256106,
      "loss": 2.8556,
      "step": 5509
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.573172390460968,
      "learning_rate": 0.00010548770647077385,
      "loss": 2.8322,
      "step": 5510
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.5988531112670898,
      "learning_rate": 0.00010540313575927568,
      "loss": 2.8742,
      "step": 5511
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.578666627407074,
      "learning_rate": 0.00010531858990565477,
      "loss": 2.8413,
      "step": 5512
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.6075744032859802,
      "learning_rate": 0.00010523406892444549,
      "loss": 2.9304,
      "step": 5513
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.5606421232223511,
      "learning_rate": 0.00010514957283017809,
      "loss": 2.7712,
      "step": 5514
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.5914613008499146,
      "learning_rate": 0.0001050651016373784,
      "loss": 2.9026,
      "step": 5515
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.5781235694885254,
      "learning_rate": 0.00010498065536056794,
      "loss": 3.0239,
      "step": 5516
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.5779512524604797,
      "learning_rate": 0.00010489623401426396,
      "loss": 2.9187,
      "step": 5517
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.6211522817611694,
      "learning_rate": 0.00010481183761297961,
      "loss": 2.9378,
      "step": 5518
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.6255759000778198,
      "learning_rate": 0.00010472746617122356,
      "loss": 2.8578,
      "step": 5519
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.6114171743392944,
      "learning_rate": 0.00010464311970350021,
      "loss": 2.6958,
      "step": 5520
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.6172126531600952,
      "learning_rate": 0.00010455879822430969,
      "loss": 2.8928,
      "step": 5521
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.5835433006286621,
      "learning_rate": 0.00010447450174814787,
      "loss": 2.9096,
      "step": 5522
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.5807967185974121,
      "learning_rate": 0.0001043902302895062,
      "loss": 2.8003,
      "step": 5523
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.6464884877204895,
      "learning_rate": 0.00010430598386287199,
      "loss": 2.7601,
      "step": 5524
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.589581310749054,
      "learning_rate": 0.00010422176248272825,
      "loss": 2.8622,
      "step": 5525
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.5804510116577148,
      "learning_rate": 0.00010413756616355358,
      "loss": 2.9583,
      "step": 5526
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.5943828225135803,
      "learning_rate": 0.00010405339491982224,
      "loss": 2.8558,
      "step": 5527
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.5739282369613647,
      "learning_rate": 0.00010396924876600428,
      "loss": 2.996,
      "step": 5528
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.6047576069831848,
      "learning_rate": 0.00010388512771656539,
      "loss": 2.8251,
      "step": 5529
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.6380951404571533,
      "learning_rate": 0.00010380103178596686,
      "loss": 2.981,
      "step": 5530
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.6334896087646484,
      "learning_rate": 0.00010371696098866596,
      "loss": 2.9405,
      "step": 5531
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.5923832654953003,
      "learning_rate": 0.00010363291533911523,
      "loss": 2.9345,
      "step": 5532
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.6271449327468872,
      "learning_rate": 0.00010354889485176328,
      "loss": 2.908,
      "step": 5533
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.5962981581687927,
      "learning_rate": 0.0001034648995410541,
      "loss": 2.8489,
      "step": 5534
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.6605640053749084,
      "learning_rate": 0.00010338092942142746,
      "loss": 3.0237,
      "step": 5535
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.6125603914260864,
      "learning_rate": 0.0001032969845073188,
      "loss": 2.8638,
      "step": 5536
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.622675895690918,
      "learning_rate": 0.00010321306481315926,
      "loss": 2.8845,
      "step": 5537
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.589897871017456,
      "learning_rate": 0.00010312917035337546,
      "loss": 2.9117,
      "step": 5538
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.6030648946762085,
      "learning_rate": 0.00010304530114239008,
      "loss": 2.9105,
      "step": 5539
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.5465438961982727,
      "learning_rate": 0.00010296145719462105,
      "loss": 2.8571,
      "step": 5540
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.6192122101783752,
      "learning_rate": 0.00010287763852448207,
      "loss": 2.9164,
      "step": 5541
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.5832358598709106,
      "learning_rate": 0.00010279384514638268,
      "loss": 2.8678,
      "step": 5542
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.6224566102027893,
      "learning_rate": 0.00010271007707472788,
      "loss": 2.9242,
      "step": 5543
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.5859070420265198,
      "learning_rate": 0.00010262633432391838,
      "loss": 2.8452,
      "step": 5544
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.5830694437026978,
      "learning_rate": 0.0001025426169083504,
      "loss": 2.8792,
      "step": 5545
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.5935717821121216,
      "learning_rate": 0.00010245892484241615,
      "loss": 2.8892,
      "step": 5546
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.60318922996521,
      "learning_rate": 0.00010237525814050316,
      "loss": 2.864,
      "step": 5547
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.6183500289916992,
      "learning_rate": 0.0001022916168169947,
      "loss": 2.8094,
      "step": 5548
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.6453438401222229,
      "learning_rate": 0.00010220800088626969,
      "loss": 2.8792,
      "step": 5549
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.6049438118934631,
      "learning_rate": 0.00010212441036270271,
      "loss": 2.9331,
      "step": 5550
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.6107097268104553,
      "learning_rate": 0.0001020408452606638,
      "loss": 2.9009,
      "step": 5551
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.6083604097366333,
      "learning_rate": 0.00010195730559451893,
      "loss": 2.8642,
      "step": 5552
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.5762770771980286,
      "learning_rate": 0.00010187379137862945,
      "loss": 2.8522,
      "step": 5553
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.5906000137329102,
      "learning_rate": 0.00010179030262735254,
      "loss": 2.8798,
      "step": 5554
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.62199866771698,
      "learning_rate": 0.00010170683935504077,
      "loss": 2.9637,
      "step": 5555
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.5802721381187439,
      "learning_rate": 0.00010162340157604252,
      "loss": 2.8617,
      "step": 5556
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.6055814623832703,
      "learning_rate": 0.00010153998930470165,
      "loss": 2.7964,
      "step": 5557
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.6513465642929077,
      "learning_rate": 0.00010145660255535771,
      "loss": 3.013,
      "step": 5558
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.5465790033340454,
      "learning_rate": 0.00010137324134234577,
      "loss": 2.9438,
      "step": 5559
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.6173880100250244,
      "learning_rate": 0.00010128990567999666,
      "loss": 2.8557,
      "step": 5560
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.5840749740600586,
      "learning_rate": 0.00010120659558263687,
      "loss": 2.9221,
      "step": 5561
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.597337543964386,
      "learning_rate": 0.00010112331106458825,
      "loss": 2.9215,
      "step": 5562
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.6657906174659729,
      "learning_rate": 0.00010104005214016837,
      "loss": 2.8708,
      "step": 5563
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.6283421516418457,
      "learning_rate": 0.00010095681882369042,
      "loss": 3.0449,
      "step": 5564
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.6329941153526306,
      "learning_rate": 0.00010087361112946319,
      "loss": 2.9328,
      "step": 5565
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.6456463932991028,
      "learning_rate": 0.00010079042907179092,
      "loss": 2.9069,
      "step": 5566
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.6225124001502991,
      "learning_rate": 0.0001007072726649738,
      "loss": 2.9139,
      "step": 5567
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.5641863942146301,
      "learning_rate": 0.00010062414192330724,
      "loss": 2.8832,
      "step": 5568
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.611295223236084,
      "learning_rate": 0.00010054103686108229,
      "loss": 2.9852,
      "step": 5569
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.6009633541107178,
      "learning_rate": 0.0001004579574925859,
      "loss": 2.8475,
      "step": 5570
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.6382600665092468,
      "learning_rate": 0.00010037490383210024,
      "loss": 2.9965,
      "step": 5571
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.630325436592102,
      "learning_rate": 0.0001002918758939032,
      "loss": 3.0233,
      "step": 5572
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.590212345123291,
      "learning_rate": 0.0001002088736922683,
      "loss": 2.8689,
      "step": 5573
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.5971090793609619,
      "learning_rate": 0.00010012589724146443,
      "loss": 2.8928,
      "step": 5574
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.547845721244812,
      "learning_rate": 0.00010004294655575639,
      "loss": 2.8985,
      "step": 5575
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.6321319937705994,
      "learning_rate": 9.996002164940429e-05,
      "loss": 2.9966,
      "step": 5576
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.5675457715988159,
      "learning_rate": 9.98771225366639e-05,
      "loss": 2.9323,
      "step": 5577
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.5649484395980835,
      "learning_rate": 9.979424923178643e-05,
      "loss": 2.889,
      "step": 5578
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.6079064607620239,
      "learning_rate": 9.971140174901891e-05,
      "loss": 2.8317,
      "step": 5579
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.5829491019248962,
      "learning_rate": 9.962858010260376e-05,
      "loss": 2.846,
      "step": 5580
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.5915316343307495,
      "learning_rate": 9.954578430677882e-05,
      "loss": 2.9251,
      "step": 5581
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.6280401349067688,
      "learning_rate": 9.94630143757779e-05,
      "loss": 2.9795,
      "step": 5582
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.5918592810630798,
      "learning_rate": 9.938027032382996e-05,
      "loss": 2.9892,
      "step": 5583
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.6289482116699219,
      "learning_rate": 9.92975521651597e-05,
      "loss": 2.9358,
      "step": 5584
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.6152689456939697,
      "learning_rate": 9.92148599139873e-05,
      "loss": 2.9061,
      "step": 5585
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.6305226683616638,
      "learning_rate": 9.913219358452855e-05,
      "loss": 2.9278,
      "step": 5586
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.6191518902778625,
      "learning_rate": 9.904955319099462e-05,
      "loss": 2.8054,
      "step": 5587
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.6240803003311157,
      "learning_rate": 9.896693874759257e-05,
      "loss": 2.9913,
      "step": 5588
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.6416599750518799,
      "learning_rate": 9.888435026852458e-05,
      "loss": 2.8405,
      "step": 5589
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.5835553407669067,
      "learning_rate": 9.880178776798876e-05,
      "loss": 2.8553,
      "step": 5590
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.6078431606292725,
      "learning_rate": 9.871925126017845e-05,
      "loss": 2.7773,
      "step": 5591
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.6319090723991394,
      "learning_rate": 9.863674075928267e-05,
      "loss": 2.8031,
      "step": 5592
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.6784105896949768,
      "learning_rate": 9.855425627948587e-05,
      "loss": 2.9791,
      "step": 5593
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.6068207025527954,
      "learning_rate": 9.847179783496815e-05,
      "loss": 2.8876,
      "step": 5594
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.6584144234657288,
      "learning_rate": 9.838936543990495e-05,
      "loss": 2.959,
      "step": 5595
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.6124942898750305,
      "learning_rate": 9.830695910846754e-05,
      "loss": 2.8842,
      "step": 5596
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.6146712899208069,
      "learning_rate": 9.822457885482237e-05,
      "loss": 2.8753,
      "step": 5597
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.6575988531112671,
      "learning_rate": 9.814222469313166e-05,
      "loss": 2.8901,
      "step": 5598
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.585684597492218,
      "learning_rate": 9.805989663755308e-05,
      "loss": 3.0032,
      "step": 5599
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.5958890318870544,
      "learning_rate": 9.797759470223966e-05,
      "loss": 2.911,
      "step": 5600
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.6332409381866455,
      "learning_rate": 9.789531890134012e-05,
      "loss": 2.939,
      "step": 5601
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.6130802631378174,
      "learning_rate": 9.781306924899852e-05,
      "loss": 2.9328,
      "step": 5602
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.5704877972602844,
      "learning_rate": 9.773084575935471e-05,
      "loss": 2.7835,
      "step": 5603
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.5885919332504272,
      "learning_rate": 9.764864844654379e-05,
      "loss": 2.9792,
      "step": 5604
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.5300917029380798,
      "learning_rate": 9.756647732469636e-05,
      "loss": 2.7508,
      "step": 5605
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.5938370823860168,
      "learning_rate": 9.748433240793858e-05,
      "loss": 2.9921,
      "step": 5606
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.5851560831069946,
      "learning_rate": 9.740221371039226e-05,
      "loss": 2.8721,
      "step": 5607
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.6032392382621765,
      "learning_rate": 9.732012124617449e-05,
      "loss": 2.9458,
      "step": 5608
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.5964647531509399,
      "learning_rate": 9.723805502939786e-05,
      "loss": 2.9486,
      "step": 5609
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.5828604102134705,
      "learning_rate": 9.715601507417046e-05,
      "loss": 2.9402,
      "step": 5610
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.5802416205406189,
      "learning_rate": 9.70740013945961e-05,
      "loss": 2.8225,
      "step": 5611
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.6251820921897888,
      "learning_rate": 9.699201400477372e-05,
      "loss": 2.852,
      "step": 5612
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.5968950986862183,
      "learning_rate": 9.691005291879801e-05,
      "loss": 2.8749,
      "step": 5613
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.6319648623466492,
      "learning_rate": 9.682811815075895e-05,
      "loss": 2.8249,
      "step": 5614
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.6052490472793579,
      "learning_rate": 9.674620971474202e-05,
      "loss": 2.7634,
      "step": 5615
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.5956456661224365,
      "learning_rate": 9.666432762482838e-05,
      "loss": 2.867,
      "step": 5616
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.5842503905296326,
      "learning_rate": 9.658247189509436e-05,
      "loss": 2.8526,
      "step": 5617
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.6012613773345947,
      "learning_rate": 9.650064253961208e-05,
      "loss": 3.0038,
      "step": 5618
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.6071532368659973,
      "learning_rate": 9.641883957244887e-05,
      "loss": 2.8122,
      "step": 5619
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.5859470367431641,
      "learning_rate": 9.633706300766759e-05,
      "loss": 3.0407,
      "step": 5620
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.703190267086029,
      "learning_rate": 9.62553128593266e-05,
      "loss": 2.9893,
      "step": 5621
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.5917009115219116,
      "learning_rate": 9.617358914147969e-05,
      "loss": 2.8766,
      "step": 5622
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.6356797814369202,
      "learning_rate": 9.609189186817604e-05,
      "loss": 2.8425,
      "step": 5623
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.5728450417518616,
      "learning_rate": 9.60102210534605e-05,
      "loss": 2.9733,
      "step": 5624
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.6452234387397766,
      "learning_rate": 9.59285767113731e-05,
      "loss": 3.0125,
      "step": 5625
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.6027868390083313,
      "learning_rate": 9.584695885594957e-05,
      "loss": 2.9404,
      "step": 5626
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.5932797193527222,
      "learning_rate": 9.576536750122094e-05,
      "loss": 2.8366,
      "step": 5627
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.5932531952857971,
      "learning_rate": 9.568380266121366e-05,
      "loss": 2.8143,
      "step": 5628
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.5601810216903687,
      "learning_rate": 9.56022643499497e-05,
      "loss": 2.8794,
      "step": 5629
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.5902358293533325,
      "learning_rate": 9.55207525814464e-05,
      "loss": 2.9207,
      "step": 5630
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.5303822159767151,
      "learning_rate": 9.543926736971656e-05,
      "loss": 2.8144,
      "step": 5631
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.6356579661369324,
      "learning_rate": 9.535780872876857e-05,
      "loss": 2.9651,
      "step": 5632
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.5798702239990234,
      "learning_rate": 9.5276376672606e-05,
      "loss": 2.8429,
      "step": 5633
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.6129204630851746,
      "learning_rate": 9.519497121522791e-05,
      "loss": 2.9232,
      "step": 5634
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.5854585766792297,
      "learning_rate": 9.5113592370629e-05,
      "loss": 2.9977,
      "step": 5635
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.6026589274406433,
      "learning_rate": 9.503224015279916e-05,
      "loss": 2.8667,
      "step": 5636
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.6235987544059753,
      "learning_rate": 9.49509145757238e-05,
      "loss": 2.9034,
      "step": 5637
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.6327655911445618,
      "learning_rate": 9.48696156533836e-05,
      "loss": 2.9041,
      "step": 5638
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.5945468544960022,
      "learning_rate": 9.478834339975498e-05,
      "loss": 2.9204,
      "step": 5639
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.6265591979026794,
      "learning_rate": 9.470709782880952e-05,
      "loss": 2.8757,
      "step": 5640
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.5730682611465454,
      "learning_rate": 9.462587895451424e-05,
      "loss": 2.8746,
      "step": 5641
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.6224010586738586,
      "learning_rate": 9.454468679083161e-05,
      "loss": 2.9995,
      "step": 5642
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.6215348839759827,
      "learning_rate": 9.446352135171943e-05,
      "loss": 2.7668,
      "step": 5643
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.5867854356765747,
      "learning_rate": 9.438238265113116e-05,
      "loss": 2.8294,
      "step": 5644
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.6484853625297546,
      "learning_rate": 9.43012707030153e-05,
      "loss": 2.9505,
      "step": 5645
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.5936121344566345,
      "learning_rate": 9.422018552131611e-05,
      "loss": 3.0097,
      "step": 5646
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.5976696014404297,
      "learning_rate": 9.413912711997297e-05,
      "loss": 2.9741,
      "step": 5647
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.6093149185180664,
      "learning_rate": 9.405809551292077e-05,
      "loss": 2.7717,
      "step": 5648
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.6221336126327515,
      "learning_rate": 9.39770907140898e-05,
      "loss": 3.0063,
      "step": 5649
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.621170163154602,
      "learning_rate": 9.38961127374057e-05,
      "loss": 2.9736,
      "step": 5650
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.615749716758728,
      "learning_rate": 9.381516159678955e-05,
      "loss": 2.876,
      "step": 5651
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.5789178609848022,
      "learning_rate": 9.373423730615766e-05,
      "loss": 2.9921,
      "step": 5652
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.6446044445037842,
      "learning_rate": 9.365333987942199e-05,
      "loss": 2.8484,
      "step": 5653
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.6141321063041687,
      "learning_rate": 9.357246933048977e-05,
      "loss": 3.102,
      "step": 5654
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.6162065267562866,
      "learning_rate": 9.349162567326355e-05,
      "loss": 2.8392,
      "step": 5655
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.6273772716522217,
      "learning_rate": 9.34108089216413e-05,
      "loss": 2.9524,
      "step": 5656
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.5958154797554016,
      "learning_rate": 9.333001908951633e-05,
      "loss": 2.9405,
      "step": 5657
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.5634385347366333,
      "learning_rate": 9.324925619077732e-05,
      "loss": 3.0529,
      "step": 5658
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.564691960811615,
      "learning_rate": 9.316852023930832e-05,
      "loss": 2.7702,
      "step": 5659
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.569801390171051,
      "learning_rate": 9.308781124898894e-05,
      "loss": 2.8811,
      "step": 5660
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.5828489065170288,
      "learning_rate": 9.300712923369387e-05,
      "loss": 2.8526,
      "step": 5661
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.5742711424827576,
      "learning_rate": 9.29264742072932e-05,
      "loss": 2.7366,
      "step": 5662
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.5966638326644897,
      "learning_rate": 9.284584618365266e-05,
      "loss": 2.918,
      "step": 5663
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.7101995348930359,
      "learning_rate": 9.276524517663306e-05,
      "loss": 2.8194,
      "step": 5664
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.5782450437545776,
      "learning_rate": 9.268467120009063e-05,
      "loss": 2.8964,
      "step": 5665
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.000655174255371,
      "learning_rate": 9.26041242678769e-05,
      "loss": 2.8739,
      "step": 5666
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.561945378780365,
      "learning_rate": 9.252360439383897e-05,
      "loss": 2.8642,
      "step": 5667
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.6616586446762085,
      "learning_rate": 9.244311159181906e-05,
      "loss": 2.8973,
      "step": 5668
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.559615433216095,
      "learning_rate": 9.236264587565485e-05,
      "loss": 2.943,
      "step": 5669
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.5982924103736877,
      "learning_rate": 9.22822072591793e-05,
      "loss": 2.8635,
      "step": 5670
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.5976632237434387,
      "learning_rate": 9.220179575622065e-05,
      "loss": 2.9741,
      "step": 5671
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.6169413924217224,
      "learning_rate": 9.212141138060273e-05,
      "loss": 2.9365,
      "step": 5672
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.5831728577613831,
      "learning_rate": 9.20410541461445e-05,
      "loss": 2.9588,
      "step": 5673
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.6088934540748596,
      "learning_rate": 9.19607240666602e-05,
      "loss": 2.8316,
      "step": 5674
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.5877285599708557,
      "learning_rate": 9.188042115595966e-05,
      "loss": 2.923,
      "step": 5675
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.6048992276191711,
      "learning_rate": 9.180014542784779e-05,
      "loss": 2.8717,
      "step": 5676
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.63478684425354,
      "learning_rate": 9.171989689612495e-05,
      "loss": 2.9649,
      "step": 5677
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.6325618624687195,
      "learning_rate": 9.163967557458675e-05,
      "loss": 2.8079,
      "step": 5678
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.5683387517929077,
      "learning_rate": 9.155948147702419e-05,
      "loss": 2.7253,
      "step": 5679
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.5948339104652405,
      "learning_rate": 9.14793146172235e-05,
      "loss": 2.9675,
      "step": 5680
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.597065269947052,
      "learning_rate": 9.139917500896635e-05,
      "loss": 2.8811,
      "step": 5681
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.6436982154846191,
      "learning_rate": 9.131906266602977e-05,
      "loss": 2.8923,
      "step": 5682
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.5875197052955627,
      "learning_rate": 9.123897760218589e-05,
      "loss": 2.93,
      "step": 5683
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.6134414672851562,
      "learning_rate": 9.115891983120228e-05,
      "loss": 2.902,
      "step": 5684
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.5766765475273132,
      "learning_rate": 9.107888936684181e-05,
      "loss": 2.9327,
      "step": 5685
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.6005457043647766,
      "learning_rate": 9.099888622286262e-05,
      "loss": 2.8751,
      "step": 5686
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.6280722618103027,
      "learning_rate": 9.091891041301808e-05,
      "loss": 2.8582,
      "step": 5687
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.6260262727737427,
      "learning_rate": 9.083896195105718e-05,
      "loss": 2.8425,
      "step": 5688
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.6174324750900269,
      "learning_rate": 9.075904085072375e-05,
      "loss": 2.9161,
      "step": 5689
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.6408589482307434,
      "learning_rate": 9.06791471257574e-05,
      "loss": 2.949,
      "step": 5690
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.5875080823898315,
      "learning_rate": 9.059928078989266e-05,
      "loss": 2.9083,
      "step": 5691
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.6129769086837769,
      "learning_rate": 9.051944185685948e-05,
      "loss": 2.9422,
      "step": 5692
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.6258058547973633,
      "learning_rate": 9.04396303403831e-05,
      "loss": 2.9178,
      "step": 5693
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.5928654670715332,
      "learning_rate": 9.035984625418406e-05,
      "loss": 2.9633,
      "step": 5694
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.5968379974365234,
      "learning_rate": 9.028008961197803e-05,
      "loss": 2.9095,
      "step": 5695
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.6357010006904602,
      "learning_rate": 9.020036042747637e-05,
      "loss": 2.9569,
      "step": 5696
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.573566198348999,
      "learning_rate": 9.012065871438527e-05,
      "loss": 2.971,
      "step": 5697
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.6243505477905273,
      "learning_rate": 9.004098448640643e-05,
      "loss": 2.8445,
      "step": 5698
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.6211341023445129,
      "learning_rate": 8.996133775723666e-05,
      "loss": 2.9076,
      "step": 5699
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.6459123492240906,
      "learning_rate": 8.988171854056837e-05,
      "loss": 2.9433,
      "step": 5700
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.5678924918174744,
      "learning_rate": 8.98021268500889e-05,
      "loss": 2.8276,
      "step": 5701
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.5850686430931091,
      "learning_rate": 8.97225626994809e-05,
      "loss": 2.9717,
      "step": 5702
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.6051298379898071,
      "learning_rate": 8.964302610242256e-05,
      "loss": 2.7901,
      "step": 5703
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.5876687169075012,
      "learning_rate": 8.956351707258705e-05,
      "loss": 2.8472,
      "step": 5704
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.6011655926704407,
      "learning_rate": 8.948403562364291e-05,
      "loss": 2.9208,
      "step": 5705
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.5915783047676086,
      "learning_rate": 8.940458176925389e-05,
      "loss": 2.9306,
      "step": 5706
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.5625784993171692,
      "learning_rate": 8.932515552307904e-05,
      "loss": 2.8558,
      "step": 5707
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.6124014854431152,
      "learning_rate": 8.92457568987726e-05,
      "loss": 2.7886,
      "step": 5708
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.6375586986541748,
      "learning_rate": 8.916638590998425e-05,
      "loss": 2.9348,
      "step": 5709
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.592210054397583,
      "learning_rate": 8.90870425703586e-05,
      "loss": 2.8896,
      "step": 5710
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.6333885192871094,
      "learning_rate": 8.900772689353589e-05,
      "loss": 2.902,
      "step": 5711
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.6309861540794373,
      "learning_rate": 8.892843889315133e-05,
      "loss": 2.94,
      "step": 5712
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.5878328084945679,
      "learning_rate": 8.88491785828354e-05,
      "loss": 2.9653,
      "step": 5713
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.550524890422821,
      "learning_rate": 8.876994597621391e-05,
      "loss": 2.9624,
      "step": 5714
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.6045446395874023,
      "learning_rate": 8.869074108690783e-05,
      "loss": 2.9352,
      "step": 5715
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.6039755940437317,
      "learning_rate": 8.861156392853334e-05,
      "loss": 2.9627,
      "step": 5716
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.6126813888549805,
      "learning_rate": 8.853241451470198e-05,
      "loss": 2.7657,
      "step": 5717
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.5901355147361755,
      "learning_rate": 8.845329285902054e-05,
      "loss": 2.8468,
      "step": 5718
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.6535726189613342,
      "learning_rate": 8.837419897509086e-05,
      "loss": 2.9651,
      "step": 5719
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.6296193599700928,
      "learning_rate": 8.829513287651011e-05,
      "loss": 2.9709,
      "step": 5720
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.6190301775932312,
      "learning_rate": 8.821609457687069e-05,
      "loss": 2.8086,
      "step": 5721
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.581587553024292,
      "learning_rate": 8.813708408976015e-05,
      "loss": 3.0727,
      "step": 5722
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.601337194442749,
      "learning_rate": 8.805810142876123e-05,
      "loss": 2.8209,
      "step": 5723
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.619476854801178,
      "learning_rate": 8.797914660745218e-05,
      "loss": 2.8943,
      "step": 5724
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.5990063548088074,
      "learning_rate": 8.790021963940612e-05,
      "loss": 2.9218,
      "step": 5725
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.6148992776870728,
      "learning_rate": 8.782132053819145e-05,
      "loss": 2.9067,
      "step": 5726
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.6092813611030579,
      "learning_rate": 8.774244931737197e-05,
      "loss": 2.8247,
      "step": 5727
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.5925098061561584,
      "learning_rate": 8.766360599050654e-05,
      "loss": 3.014,
      "step": 5728
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.5845574736595154,
      "learning_rate": 8.758479057114917e-05,
      "loss": 2.8092,
      "step": 5729
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.5844080448150635,
      "learning_rate": 8.750600307284922e-05,
      "loss": 2.9499,
      "step": 5730
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.6232170462608337,
      "learning_rate": 8.742724350915102e-05,
      "loss": 2.9986,
      "step": 5731
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.6098038554191589,
      "learning_rate": 8.734851189359447e-05,
      "loss": 2.9003,
      "step": 5732
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.5832481980323792,
      "learning_rate": 8.726980823971434e-05,
      "loss": 2.9041,
      "step": 5733
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.5942091941833496,
      "learning_rate": 8.719113256104069e-05,
      "loss": 2.9178,
      "step": 5734
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.5819841623306274,
      "learning_rate": 8.71124848710988e-05,
      "loss": 2.8869,
      "step": 5735
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.6130026578903198,
      "learning_rate": 8.703386518340902e-05,
      "loss": 3.0108,
      "step": 5736
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.5770087242126465,
      "learning_rate": 8.695527351148719e-05,
      "loss": 2.9932,
      "step": 5737
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.6715231537818909,
      "learning_rate": 8.687670986884394e-05,
      "loss": 2.8772,
      "step": 5738
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.5984427332878113,
      "learning_rate": 8.67981742689854e-05,
      "loss": 2.9624,
      "step": 5739
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.6513969302177429,
      "learning_rate": 8.671966672541273e-05,
      "loss": 2.9817,
      "step": 5740
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.6110220551490784,
      "learning_rate": 8.664118725162226e-05,
      "loss": 2.8948,
      "step": 5741
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.6713213324546814,
      "learning_rate": 8.656273586110549e-05,
      "loss": 3.0284,
      "step": 5742
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.5888002514839172,
      "learning_rate": 8.648431256734918e-05,
      "loss": 2.8355,
      "step": 5743
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.6129421591758728,
      "learning_rate": 8.640591738383507e-05,
      "loss": 2.9346,
      "step": 5744
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.5964431762695312,
      "learning_rate": 8.632755032404041e-05,
      "loss": 2.9357,
      "step": 5745
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.5840774774551392,
      "learning_rate": 8.624921140143722e-05,
      "loss": 2.7196,
      "step": 5746
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.5789781212806702,
      "learning_rate": 8.617090062949303e-05,
      "loss": 2.9172,
      "step": 5747
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.6133196353912354,
      "learning_rate": 8.609261802167029e-05,
      "loss": 2.9427,
      "step": 5748
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.6388981938362122,
      "learning_rate": 8.60143635914267e-05,
      "loss": 2.9216,
      "step": 5749
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.6159499287605286,
      "learning_rate": 8.593613735221506e-05,
      "loss": 3.0364,
      "step": 5750
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.5862529873847961,
      "learning_rate": 8.585793931748343e-05,
      "loss": 2.8482,
      "step": 5751
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.5941091775894165,
      "learning_rate": 8.577976950067484e-05,
      "loss": 2.8952,
      "step": 5752
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.6103610396385193,
      "learning_rate": 8.570162791522776e-05,
      "loss": 3.1092,
      "step": 5753
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.6141625642776489,
      "learning_rate": 8.562351457457549e-05,
      "loss": 3.0349,
      "step": 5754
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.6125213503837585,
      "learning_rate": 8.554542949214672e-05,
      "loss": 2.8653,
      "step": 5755
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.6365535259246826,
      "learning_rate": 8.546737268136518e-05,
      "loss": 2.9953,
      "step": 5756
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.6280431151390076,
      "learning_rate": 8.538934415564966e-05,
      "loss": 2.9242,
      "step": 5757
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.6540246605873108,
      "learning_rate": 8.531134392841424e-05,
      "loss": 2.94,
      "step": 5758
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.5968772768974304,
      "learning_rate": 8.523337201306796e-05,
      "loss": 2.9745,
      "step": 5759
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.6023451089859009,
      "learning_rate": 8.515542842301524e-05,
      "loss": 2.7923,
      "step": 5760
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.5920913219451904,
      "learning_rate": 8.507751317165541e-05,
      "loss": 2.92,
      "step": 5761
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.5927397608757019,
      "learning_rate": 8.499962627238302e-05,
      "loss": 2.9031,
      "step": 5762
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.6398950219154358,
      "learning_rate": 8.492176773858765e-05,
      "loss": 2.8841,
      "step": 5763
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.6141178607940674,
      "learning_rate": 8.484393758365422e-05,
      "loss": 2.9734,
      "step": 5764
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.5930455923080444,
      "learning_rate": 8.476613582096257e-05,
      "loss": 2.846,
      "step": 5765
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.6230756640434265,
      "learning_rate": 8.468836246388772e-05,
      "loss": 3.003,
      "step": 5766
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.6363379955291748,
      "learning_rate": 8.461061752579976e-05,
      "loss": 2.9354,
      "step": 5767
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.6111721396446228,
      "learning_rate": 8.453290102006408e-05,
      "loss": 2.8289,
      "step": 5768
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.6047484874725342,
      "learning_rate": 8.445521296004099e-05,
      "loss": 2.8793,
      "step": 5769
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.5608225464820862,
      "learning_rate": 8.437755335908592e-05,
      "loss": 2.8406,
      "step": 5770
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.6394740343093872,
      "learning_rate": 8.429992223054952e-05,
      "loss": 3.0208,
      "step": 5771
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.6166107058525085,
      "learning_rate": 8.422231958777743e-05,
      "loss": 2.9853,
      "step": 5772
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.5877712368965149,
      "learning_rate": 8.414474544411038e-05,
      "loss": 2.9234,
      "step": 5773
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.6414718627929688,
      "learning_rate": 8.406719981288436e-05,
      "loss": 2.9204,
      "step": 5774
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.5831221342086792,
      "learning_rate": 8.398968270743041e-05,
      "loss": 2.9457,
      "step": 5775
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.5716210603713989,
      "learning_rate": 8.391219414107456e-05,
      "loss": 2.9362,
      "step": 5776
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.6168118715286255,
      "learning_rate": 8.383473412713802e-05,
      "loss": 2.8349,
      "step": 5777
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.6202545762062073,
      "learning_rate": 8.375730267893703e-05,
      "loss": 2.6908,
      "step": 5778
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.5983021259307861,
      "learning_rate": 8.367989980978294e-05,
      "loss": 2.9577,
      "step": 5779
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.5922821760177612,
      "learning_rate": 8.360252553298214e-05,
      "loss": 2.849,
      "step": 5780
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.5987086296081543,
      "learning_rate": 8.352517986183636e-05,
      "loss": 2.9812,
      "step": 5781
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.6160838007926941,
      "learning_rate": 8.344786280964197e-05,
      "loss": 2.8976,
      "step": 5782
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.6127829551696777,
      "learning_rate": 8.337057438969092e-05,
      "loss": 2.886,
      "step": 5783
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.5663377642631531,
      "learning_rate": 8.329331461526988e-05,
      "loss": 2.9301,
      "step": 5784
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.5764881372451782,
      "learning_rate": 8.321608349966065e-05,
      "loss": 2.9022,
      "step": 5785
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.552696704864502,
      "learning_rate": 8.31388810561402e-05,
      "loss": 2.8383,
      "step": 5786
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.5991929173469543,
      "learning_rate": 8.306170729798054e-05,
      "loss": 2.8991,
      "step": 5787
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.6024114489555359,
      "learning_rate": 8.29845622384486e-05,
      "loss": 2.7752,
      "step": 5788
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.5881648063659668,
      "learning_rate": 8.290744589080674e-05,
      "loss": 2.9835,
      "step": 5789
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.5850170850753784,
      "learning_rate": 8.283035826831201e-05,
      "loss": 2.8338,
      "step": 5790
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.6005973219871521,
      "learning_rate": 8.275329938421658e-05,
      "loss": 2.9343,
      "step": 5791
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.5905548334121704,
      "learning_rate": 8.2676269251768e-05,
      "loss": 2.9258,
      "step": 5792
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.5699524879455566,
      "learning_rate": 8.25992678842085e-05,
      "loss": 2.7751,
      "step": 5793
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.5769228935241699,
      "learning_rate": 8.252229529477554e-05,
      "loss": 2.7573,
      "step": 5794
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.5963818430900574,
      "learning_rate": 8.244535149670148e-05,
      "loss": 2.7757,
      "step": 5795
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.6127151250839233,
      "learning_rate": 8.236843650321408e-05,
      "loss": 2.8465,
      "step": 5796
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.5809361338615417,
      "learning_rate": 8.229155032753577e-05,
      "loss": 2.8612,
      "step": 5797
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.6487830281257629,
      "learning_rate": 8.221469298288419e-05,
      "loss": 3.0053,
      "step": 5798
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.6064307689666748,
      "learning_rate": 8.213786448247205e-05,
      "loss": 2.9652,
      "step": 5799
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.6071839332580566,
      "learning_rate": 8.206106483950693e-05,
      "loss": 2.9811,
      "step": 5800
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.5988813638687134,
      "learning_rate": 8.198429406719177e-05,
      "loss": 2.8211,
      "step": 5801
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.6287129521369934,
      "learning_rate": 8.190755217872425e-05,
      "loss": 3.0388,
      "step": 5802
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.6207995414733887,
      "learning_rate": 8.183083918729713e-05,
      "loss": 3.0126,
      "step": 5803
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.5786839723587036,
      "learning_rate": 8.175415510609843e-05,
      "loss": 2.8544,
      "step": 5804
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.5932872295379639,
      "learning_rate": 8.167749994831092e-05,
      "loss": 2.8749,
      "step": 5805
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.5847874879837036,
      "learning_rate": 8.160087372711256e-05,
      "loss": 2.909,
      "step": 5806
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.6166829466819763,
      "learning_rate": 8.152427645567622e-05,
      "loss": 2.8875,
      "step": 5807
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.5928928256034851,
      "learning_rate": 8.144770814716993e-05,
      "loss": 2.7886,
      "step": 5808
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.5905416011810303,
      "learning_rate": 8.137116881475653e-05,
      "loss": 2.9205,
      "step": 5809
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.5740871429443359,
      "learning_rate": 8.129465847159414e-05,
      "loss": 2.8544,
      "step": 5810
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.5611318349838257,
      "learning_rate": 8.121817713083584e-05,
      "loss": 2.8355,
      "step": 5811
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.6088894605636597,
      "learning_rate": 8.114172480562957e-05,
      "loss": 2.9578,
      "step": 5812
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.6077582240104675,
      "learning_rate": 8.106530150911837e-05,
      "loss": 2.9191,
      "step": 5813
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.6019147634506226,
      "learning_rate": 8.098890725444033e-05,
      "loss": 2.913,
      "step": 5814
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.549239456653595,
      "learning_rate": 8.091254205472846e-05,
      "loss": 2.8018,
      "step": 5815
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.613438606262207,
      "learning_rate": 8.083620592311075e-05,
      "loss": 2.8707,
      "step": 5816
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.629952609539032,
      "learning_rate": 8.075989887271043e-05,
      "loss": 2.9304,
      "step": 5817
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.6572439074516296,
      "learning_rate": 8.068362091664552e-05,
      "loss": 2.8739,
      "step": 5818
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.6128849387168884,
      "learning_rate": 8.060737206802896e-05,
      "loss": 2.8485,
      "step": 5819
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.5950362682342529,
      "learning_rate": 8.0531152339969e-05,
      "loss": 2.9587,
      "step": 5820
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.5993843078613281,
      "learning_rate": 8.04549617455686e-05,
      "loss": 2.897,
      "step": 5821
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.6098502278327942,
      "learning_rate": 8.037880029792582e-05,
      "loss": 2.9515,
      "step": 5822
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.5437069535255432,
      "learning_rate": 8.030266801013366e-05,
      "loss": 2.9665,
      "step": 5823
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.5973029732704163,
      "learning_rate": 8.022656489528013e-05,
      "loss": 3.016,
      "step": 5824
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.620657205581665,
      "learning_rate": 8.015049096644833e-05,
      "loss": 2.943,
      "step": 5825
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.5677754282951355,
      "learning_rate": 8.007444623671619e-05,
      "loss": 2.8763,
      "step": 5826
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.6799152493476868,
      "learning_rate": 7.999843071915671e-05,
      "loss": 2.8766,
      "step": 5827
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.621218204498291,
      "learning_rate": 7.992244442683771e-05,
      "loss": 2.9857,
      "step": 5828
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.6267988681793213,
      "learning_rate": 7.984648737282232e-05,
      "loss": 2.9804,
      "step": 5829
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.6363998055458069,
      "learning_rate": 7.977055957016835e-05,
      "loss": 2.8222,
      "step": 5830
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.5724127292633057,
      "learning_rate": 7.969466103192858e-05,
      "loss": 2.7981,
      "step": 5831
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.5577410459518433,
      "learning_rate": 7.961879177115097e-05,
      "loss": 2.7961,
      "step": 5832
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.5728530883789062,
      "learning_rate": 7.954295180087831e-05,
      "loss": 2.8748,
      "step": 5833
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.583642303943634,
      "learning_rate": 7.946714113414836e-05,
      "loss": 2.9116,
      "step": 5834
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.6201500296592712,
      "learning_rate": 7.939135978399382e-05,
      "loss": 2.9409,
      "step": 5835
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.6169511079788208,
      "learning_rate": 7.931560776344238e-05,
      "loss": 2.9814,
      "step": 5836
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.6371758580207825,
      "learning_rate": 7.923988508551663e-05,
      "loss": 2.9319,
      "step": 5837
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.6371580362319946,
      "learning_rate": 7.916419176323428e-05,
      "loss": 2.9026,
      "step": 5838
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.5776484608650208,
      "learning_rate": 7.908852780960794e-05,
      "loss": 2.9464,
      "step": 5839
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.6223485469818115,
      "learning_rate": 7.901289323764502e-05,
      "loss": 2.9197,
      "step": 5840
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.6080602407455444,
      "learning_rate": 7.893728806034803e-05,
      "loss": 2.7253,
      "step": 5841
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.5917516946792603,
      "learning_rate": 7.886171229071434e-05,
      "loss": 2.9062,
      "step": 5842
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.5556855201721191,
      "learning_rate": 7.878616594173632e-05,
      "loss": 2.8522,
      "step": 5843
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.620607316493988,
      "learning_rate": 7.871064902640124e-05,
      "loss": 2.7982,
      "step": 5844
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.6153578162193298,
      "learning_rate": 7.863516155769129e-05,
      "loss": 2.8432,
      "step": 5845
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.6364638805389404,
      "learning_rate": 7.855970354858378e-05,
      "loss": 2.8627,
      "step": 5846
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.6173115372657776,
      "learning_rate": 7.848427501205064e-05,
      "loss": 2.8819,
      "step": 5847
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.5787822604179382,
      "learning_rate": 7.840887596105909e-05,
      "loss": 2.8656,
      "step": 5848
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.5866991281509399,
      "learning_rate": 7.833350640857101e-05,
      "loss": 2.978,
      "step": 5849
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.644981861114502,
      "learning_rate": 7.825816636754333e-05,
      "loss": 2.9357,
      "step": 5850
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.6093218326568604,
      "learning_rate": 7.818285585092783e-05,
      "loss": 2.7663,
      "step": 5851
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.6115422248840332,
      "learning_rate": 7.810757487167122e-05,
      "loss": 2.8009,
      "step": 5852
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.5933688879013062,
      "learning_rate": 7.803232344271532e-05,
      "loss": 2.9627,
      "step": 5853
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.6128420233726501,
      "learning_rate": 7.795710157699662e-05,
      "loss": 2.828,
      "step": 5854
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.6284016966819763,
      "learning_rate": 7.788190928744668e-05,
      "loss": 2.9525,
      "step": 5855
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.5887940526008606,
      "learning_rate": 7.78067465869918e-05,
      "loss": 3.0597,
      "step": 5856
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.5924496650695801,
      "learning_rate": 7.773161348855349e-05,
      "loss": 2.9039,
      "step": 5857
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.6134088635444641,
      "learning_rate": 7.765651000504795e-05,
      "loss": 2.8876,
      "step": 5858
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.6116275787353516,
      "learning_rate": 7.758143614938621e-05,
      "loss": 2.9811,
      "step": 5859
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.5993618369102478,
      "learning_rate": 7.750639193447454e-05,
      "loss": 3.0081,
      "step": 5860
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.5587601065635681,
      "learning_rate": 7.743137737321381e-05,
      "loss": 2.8659,
      "step": 5861
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.7086719274520874,
      "learning_rate": 7.73563924784999e-05,
      "loss": 2.8497,
      "step": 5862
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.6111708879470825,
      "learning_rate": 7.728143726322359e-05,
      "loss": 2.9157,
      "step": 5863
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.5945340394973755,
      "learning_rate": 7.720651174027051e-05,
      "loss": 2.817,
      "step": 5864
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.6395179033279419,
      "learning_rate": 7.713161592252121e-05,
      "loss": 2.8614,
      "step": 5865
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.5677781105041504,
      "learning_rate": 7.705674982285127e-05,
      "loss": 2.8303,
      "step": 5866
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.6177575588226318,
      "learning_rate": 7.698191345413086e-05,
      "loss": 2.8616,
      "step": 5867
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.6049637198448181,
      "learning_rate": 7.690710682922541e-05,
      "loss": 3.0269,
      "step": 5868
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.5856503844261169,
      "learning_rate": 7.683232996099498e-05,
      "loss": 2.8256,
      "step": 5869
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.6179240942001343,
      "learning_rate": 7.675758286229456e-05,
      "loss": 2.8994,
      "step": 5870
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.5978311896324158,
      "learning_rate": 7.668286554597404e-05,
      "loss": 2.8433,
      "step": 5871
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.6075137257575989,
      "learning_rate": 7.660817802487819e-05,
      "loss": 2.9624,
      "step": 5872
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.6121248602867126,
      "learning_rate": 7.65335203118466e-05,
      "loss": 2.9759,
      "step": 5873
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.5457046031951904,
      "learning_rate": 7.645889241971384e-05,
      "loss": 2.7573,
      "step": 5874
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.5699142217636108,
      "learning_rate": 7.638429436130945e-05,
      "loss": 2.7762,
      "step": 5875
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.6103056073188782,
      "learning_rate": 7.630972614945756e-05,
      "loss": 2.9717,
      "step": 5876
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.6571139693260193,
      "learning_rate": 7.623518779697733e-05,
      "loss": 3.0453,
      "step": 5877
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.6291448473930359,
      "learning_rate": 7.616067931668277e-05,
      "loss": 2.9039,
      "step": 5878
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.642937183380127,
      "learning_rate": 7.608620072138278e-05,
      "loss": 2.949,
      "step": 5879
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.6206881999969482,
      "learning_rate": 7.601175202388097e-05,
      "loss": 2.9176,
      "step": 5880
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.6340224146842957,
      "learning_rate": 7.593733323697613e-05,
      "loss": 2.9294,
      "step": 5881
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.62127685546875,
      "learning_rate": 7.586294437346158e-05,
      "loss": 2.873,
      "step": 5882
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.6019945740699768,
      "learning_rate": 7.578858544612571e-05,
      "loss": 2.8129,
      "step": 5883
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.6077594757080078,
      "learning_rate": 7.571425646775151e-05,
      "loss": 2.8948,
      "step": 5884
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.6587233543395996,
      "learning_rate": 7.563995745111724e-05,
      "loss": 2.9285,
      "step": 5885
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.6583824157714844,
      "learning_rate": 7.55656884089956e-05,
      "loss": 2.8431,
      "step": 5886
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.6160841584205627,
      "learning_rate": 7.549144935415434e-05,
      "loss": 2.9393,
      "step": 5887
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.5997230410575867,
      "learning_rate": 7.541724029935596e-05,
      "loss": 2.8698,
      "step": 5888
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.6389141082763672,
      "learning_rate": 7.534306125735796e-05,
      "loss": 2.8496,
      "step": 5889
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.6701404452323914,
      "learning_rate": 7.526891224091254e-05,
      "loss": 2.8881,
      "step": 5890
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.6327929496765137,
      "learning_rate": 7.519479326276677e-05,
      "loss": 2.9906,
      "step": 5891
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.6254627704620361,
      "learning_rate": 7.512070433566253e-05,
      "loss": 2.9749,
      "step": 5892
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.5989352464675903,
      "learning_rate": 7.504664547233655e-05,
      "loss": 2.9044,
      "step": 5893
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.6301447749137878,
      "learning_rate": 7.497261668552049e-05,
      "loss": 2.8658,
      "step": 5894
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.5693259239196777,
      "learning_rate": 7.489861798794065e-05,
      "loss": 2.8799,
      "step": 5895
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.6356788873672485,
      "learning_rate": 7.482464939231842e-05,
      "loss": 2.9993,
      "step": 5896
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.5473048090934753,
      "learning_rate": 7.475071091136973e-05,
      "loss": 2.8728,
      "step": 5897
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.583679735660553,
      "learning_rate": 7.467680255780555e-05,
      "loss": 2.7952,
      "step": 5898
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.6078197360038757,
      "learning_rate": 7.460292434433147e-05,
      "loss": 2.9394,
      "step": 5899
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.6453676223754883,
      "learning_rate": 7.45290762836481e-05,
      "loss": 2.9347,
      "step": 5900
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.6003443598747253,
      "learning_rate": 7.445525838845076e-05,
      "loss": 2.8307,
      "step": 5901
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.6113272309303284,
      "learning_rate": 7.43814706714295e-05,
      "loss": 2.8175,
      "step": 5902
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.6162131428718567,
      "learning_rate": 7.43077131452694e-05,
      "loss": 2.9885,
      "step": 5903
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.6317225694656372,
      "learning_rate": 7.423398582265026e-05,
      "loss": 2.8923,
      "step": 5904
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.6330718398094177,
      "learning_rate": 7.416028871624664e-05,
      "loss": 2.8162,
      "step": 5905
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.6480199694633484,
      "learning_rate": 7.408662183872786e-05,
      "loss": 2.9432,
      "step": 5906
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.6454955339431763,
      "learning_rate": 7.401298520275817e-05,
      "loss": 2.835,
      "step": 5907
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.6138383746147156,
      "learning_rate": 7.393937882099656e-05,
      "loss": 2.9716,
      "step": 5908
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.6141111850738525,
      "learning_rate": 7.386580270609669e-05,
      "loss": 2.7906,
      "step": 5909
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.6388584971427917,
      "learning_rate": 7.379225687070734e-05,
      "loss": 2.9359,
      "step": 5910
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.6247603297233582,
      "learning_rate": 7.371874132747175e-05,
      "loss": 2.9265,
      "step": 5911
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.6045743823051453,
      "learning_rate": 7.364525608902823e-05,
      "loss": 2.8116,
      "step": 5912
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.6247946619987488,
      "learning_rate": 7.357180116800965e-05,
      "loss": 2.9339,
      "step": 5913
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.5594050288200378,
      "learning_rate": 7.349837657704378e-05,
      "loss": 2.9631,
      "step": 5914
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.6587271094322205,
      "learning_rate": 7.342498232875319e-05,
      "loss": 2.9582,
      "step": 5915
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.6409364938735962,
      "learning_rate": 7.335161843575505e-05,
      "loss": 2.9255,
      "step": 5916
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.6855226755142212,
      "learning_rate": 7.327828491066169e-05,
      "loss": 2.9392,
      "step": 5917
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.5959542393684387,
      "learning_rate": 7.32049817660799e-05,
      "loss": 2.9189,
      "step": 5918
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.5839795470237732,
      "learning_rate": 7.31317090146113e-05,
      "loss": 2.8443,
      "step": 5919
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.5760962963104248,
      "learning_rate": 7.305846666885236e-05,
      "loss": 2.9146,
      "step": 5920
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.6063957214355469,
      "learning_rate": 7.298525474139419e-05,
      "loss": 2.9348,
      "step": 5921
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.5918317437171936,
      "learning_rate": 7.291207324482296e-05,
      "loss": 2.9514,
      "step": 5922
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.6397513747215271,
      "learning_rate": 7.283892219171933e-05,
      "loss": 2.9237,
      "step": 5923
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.5895851254463196,
      "learning_rate": 7.27658015946587e-05,
      "loss": 2.7972,
      "step": 5924
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.5546084046363831,
      "learning_rate": 7.269271146621153e-05,
      "loss": 2.9026,
      "step": 5925
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.6276286244392395,
      "learning_rate": 7.26196518189428e-05,
      "loss": 2.9835,
      "step": 5926
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.5769088268280029,
      "learning_rate": 7.254662266541229e-05,
      "loss": 2.8626,
      "step": 5927
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.5812312364578247,
      "learning_rate": 7.247362401817456e-05,
      "loss": 2.9985,
      "step": 5928
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.6161739230155945,
      "learning_rate": 7.24006558897789e-05,
      "loss": 2.9072,
      "step": 5929
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.5740492343902588,
      "learning_rate": 7.232771829276935e-05,
      "loss": 2.8739,
      "step": 5930
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.6199886798858643,
      "learning_rate": 7.225481123968475e-05,
      "loss": 2.9923,
      "step": 5931
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.5908575057983398,
      "learning_rate": 7.218193474305881e-05,
      "loss": 2.9361,
      "step": 5932
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.6260107755661011,
      "learning_rate": 7.21090888154197e-05,
      "loss": 2.9611,
      "step": 5933
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.6062882542610168,
      "learning_rate": 7.203627346929053e-05,
      "loss": 2.8921,
      "step": 5934
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.631515622138977,
      "learning_rate": 7.196348871718907e-05,
      "loss": 2.9424,
      "step": 5935
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.6215429902076721,
      "learning_rate": 7.18907345716279e-05,
      "loss": 2.8726,
      "step": 5936
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.6356574892997742,
      "learning_rate": 7.181801104511417e-05,
      "loss": 2.9825,
      "step": 5937
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.5844954252243042,
      "learning_rate": 7.174531815015009e-05,
      "loss": 2.7952,
      "step": 5938
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.6013663411140442,
      "learning_rate": 7.167265589923228e-05,
      "loss": 2.804,
      "step": 5939
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.6075538396835327,
      "learning_rate": 7.16000243048523e-05,
      "loss": 2.8933,
      "step": 5940
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.6154350638389587,
      "learning_rate": 7.152742337949636e-05,
      "loss": 2.8879,
      "step": 5941
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.5961945056915283,
      "learning_rate": 7.145485313564536e-05,
      "loss": 2.8791,
      "step": 5942
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.6147776246070862,
      "learning_rate": 7.138231358577498e-05,
      "loss": 2.8267,
      "step": 5943
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.6005421876907349,
      "learning_rate": 7.13098047423556e-05,
      "loss": 2.8392,
      "step": 5944
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.618674099445343,
      "learning_rate": 7.12373266178523e-05,
      "loss": 2.9119,
      "step": 5945
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.5745059847831726,
      "learning_rate": 7.116487922472498e-05,
      "loss": 2.824,
      "step": 5946
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.6240242719650269,
      "learning_rate": 7.109246257542817e-05,
      "loss": 2.9503,
      "step": 5947
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.6164361834526062,
      "learning_rate": 7.102007668241107e-05,
      "loss": 2.9947,
      "step": 5948
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.6295279860496521,
      "learning_rate": 7.094772155811774e-05,
      "loss": 3.0048,
      "step": 5949
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.6055328845977783,
      "learning_rate": 7.087539721498684e-05,
      "loss": 2.785,
      "step": 5950
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.6209838390350342,
      "learning_rate": 7.080310366545176e-05,
      "loss": 2.8389,
      "step": 5951
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.5987129807472229,
      "learning_rate": 7.073084092194049e-05,
      "loss": 2.9051,
      "step": 5952
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.6598445773124695,
      "learning_rate": 7.065860899687604e-05,
      "loss": 2.9851,
      "step": 5953
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.5754420161247253,
      "learning_rate": 7.05864079026758e-05,
      "loss": 2.8909,
      "step": 5954
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.5446411371231079,
      "learning_rate": 7.051423765175194e-05,
      "loss": 2.864,
      "step": 5955
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.5850901007652283,
      "learning_rate": 7.044209825651143e-05,
      "loss": 2.8965,
      "step": 5956
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.5564174056053162,
      "learning_rate": 7.036998972935585e-05,
      "loss": 2.847,
      "step": 5957
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.5800950527191162,
      "learning_rate": 7.02979120826814e-05,
      "loss": 2.8883,
      "step": 5958
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.6251789927482605,
      "learning_rate": 7.022586532887926e-05,
      "loss": 3.039,
      "step": 5959
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.553671658039093,
      "learning_rate": 7.015384948033487e-05,
      "loss": 2.8466,
      "step": 5960
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.5975834727287292,
      "learning_rate": 7.00818645494288e-05,
      "loss": 2.9798,
      "step": 5961
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.5591084361076355,
      "learning_rate": 7.0009910548536e-05,
      "loss": 2.6843,
      "step": 5962
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.6084539890289307,
      "learning_rate": 6.993798749002622e-05,
      "loss": 3.0061,
      "step": 5963
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.5866227746009827,
      "learning_rate": 6.986609538626384e-05,
      "loss": 2.9283,
      "step": 5964
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.5636305809020996,
      "learning_rate": 6.979423424960795e-05,
      "loss": 2.8628,
      "step": 5965
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.608601450920105,
      "learning_rate": 6.972240409241224e-05,
      "loss": 2.8425,
      "step": 5966
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.5894788503646851,
      "learning_rate": 6.965060492702525e-05,
      "loss": 2.8971,
      "step": 5967
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.6128261089324951,
      "learning_rate": 6.95788367657901e-05,
      "loss": 2.9077,
      "step": 5968
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.5766503214836121,
      "learning_rate": 6.950709962104454e-05,
      "loss": 2.9547,
      "step": 5969
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.5718755722045898,
      "learning_rate": 6.943539350512101e-05,
      "loss": 2.8543,
      "step": 5970
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.5630578994750977,
      "learning_rate": 6.936371843034663e-05,
      "loss": 2.9065,
      "step": 5971
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.6253065466880798,
      "learning_rate": 6.929207440904318e-05,
      "loss": 2.843,
      "step": 5972
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.6013002991676331,
      "learning_rate": 6.922046145352698e-05,
      "loss": 2.8618,
      "step": 5973
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.5751497745513916,
      "learning_rate": 6.91488795761093e-05,
      "loss": 2.9252,
      "step": 5974
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.6152635216712952,
      "learning_rate": 6.907732878909587e-05,
      "loss": 2.9726,
      "step": 5975
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.6266344785690308,
      "learning_rate": 6.900580910478693e-05,
      "loss": 2.9018,
      "step": 5976
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.5866079330444336,
      "learning_rate": 6.89343205354778e-05,
      "loss": 2.7794,
      "step": 5977
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.6746072173118591,
      "learning_rate": 6.886286309345801e-05,
      "loss": 2.8333,
      "step": 5978
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.5927273035049438,
      "learning_rate": 6.879143679101202e-05,
      "loss": 3.0117,
      "step": 5979
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.5931944847106934,
      "learning_rate": 6.872004164041878e-05,
      "loss": 2.8885,
      "step": 5980
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.5904546976089478,
      "learning_rate": 6.864867765395188e-05,
      "loss": 2.9696,
      "step": 5981
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.6344875693321228,
      "learning_rate": 6.857734484387976e-05,
      "loss": 2.9511,
      "step": 5982
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.6226804852485657,
      "learning_rate": 6.850604322246532e-05,
      "loss": 2.7765,
      "step": 5983
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.5925648808479309,
      "learning_rate": 6.843477280196609e-05,
      "loss": 2.9006,
      "step": 5984
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.5796157717704773,
      "learning_rate": 6.836353359463424e-05,
      "loss": 2.9448,
      "step": 5985
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.6236580610275269,
      "learning_rate": 6.829232561271672e-05,
      "loss": 2.8921,
      "step": 5986
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.624589204788208,
      "learning_rate": 6.822114886845498e-05,
      "loss": 2.8122,
      "step": 5987
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.6164042949676514,
      "learning_rate": 6.815000337408506e-05,
      "loss": 2.9161,
      "step": 5988
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.6121686100959778,
      "learning_rate": 6.80788891418378e-05,
      "loss": 3.0465,
      "step": 5989
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.6218280792236328,
      "learning_rate": 6.800780618393851e-05,
      "loss": 2.9248,
      "step": 5990
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.5685011744499207,
      "learning_rate": 6.793675451260717e-05,
      "loss": 2.833,
      "step": 5991
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.5726934671401978,
      "learning_rate": 6.78657341400584e-05,
      "loss": 2.8583,
      "step": 5992
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.587838888168335,
      "learning_rate": 6.779474507850139e-05,
      "loss": 2.9169,
      "step": 5993
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.5968632102012634,
      "learning_rate": 6.772378734013992e-05,
      "loss": 2.8357,
      "step": 5994
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.5937737226486206,
      "learning_rate": 6.765286093717265e-05,
      "loss": 2.9735,
      "step": 5995
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.6178803443908691,
      "learning_rate": 6.758196588179244e-05,
      "loss": 2.8961,
      "step": 5996
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.5565856099128723,
      "learning_rate": 6.751110218618714e-05,
      "loss": 2.7818,
      "step": 5997
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.6427068114280701,
      "learning_rate": 6.744026986253895e-05,
      "loss": 2.9723,
      "step": 5998
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.5903346538543701,
      "learning_rate": 6.736946892302481e-05,
      "loss": 2.8734,
      "step": 5999
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.5961483716964722,
      "learning_rate": 6.729869937981619e-05,
      "loss": 2.8751,
      "step": 6000
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.6013557314872742,
      "learning_rate": 6.72279612450792e-05,
      "loss": 2.7643,
      "step": 6001
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.573266863822937,
      "learning_rate": 6.715725453097446e-05,
      "loss": 2.9122,
      "step": 6002
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.6319908499717712,
      "learning_rate": 6.708657924965746e-05,
      "loss": 2.8773,
      "step": 6003
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.6204606890678406,
      "learning_rate": 6.701593541327792e-05,
      "loss": 2.8711,
      "step": 6004
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.5951921343803406,
      "learning_rate": 6.694532303398048e-05,
      "loss": 2.9131,
      "step": 6005
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.6186400055885315,
      "learning_rate": 6.687474212390418e-05,
      "loss": 2.8743,
      "step": 6006
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.6071096658706665,
      "learning_rate": 6.680419269518265e-05,
      "loss": 2.9482,
      "step": 6007
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.5837292075157166,
      "learning_rate": 6.673367475994421e-05,
      "loss": 2.8965,
      "step": 6008
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.5845729112625122,
      "learning_rate": 6.66631883303116e-05,
      "loss": 3.0282,
      "step": 6009
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.6869245767593384,
      "learning_rate": 6.659273341840241e-05,
      "loss": 2.9053,
      "step": 6010
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.6073123812675476,
      "learning_rate": 6.652231003632858e-05,
      "loss": 3.0104,
      "step": 6011
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.6123202443122864,
      "learning_rate": 6.645191819619672e-05,
      "loss": 2.9105,
      "step": 6012
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.5743078589439392,
      "learning_rate": 6.638155791010791e-05,
      "loss": 2.8334,
      "step": 6013
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.6468740105628967,
      "learning_rate": 6.631122919015809e-05,
      "loss": 2.8307,
      "step": 6014
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.5521681904792786,
      "learning_rate": 6.624093204843746e-05,
      "loss": 2.8124,
      "step": 6015
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.6381586790084839,
      "learning_rate": 6.61706664970309e-05,
      "loss": 2.9267,
      "step": 6016
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.6226063966751099,
      "learning_rate": 6.610043254801784e-05,
      "loss": 2.9837,
      "step": 6017
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.6115129590034485,
      "learning_rate": 6.603023021347246e-05,
      "loss": 2.8152,
      "step": 6018
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.5917375087738037,
      "learning_rate": 6.596005950546327e-05,
      "loss": 2.8836,
      "step": 6019
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.6250661611557007,
      "learning_rate": 6.58899204360534e-05,
      "loss": 2.7853,
      "step": 6020
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.5862049460411072,
      "learning_rate": 6.58198130173006e-05,
      "loss": 2.9198,
      "step": 6021
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.5958142280578613,
      "learning_rate": 6.57497372612571e-05,
      "loss": 2.8938,
      "step": 6022
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.6143382787704468,
      "learning_rate": 6.567969317996982e-05,
      "loss": 2.782,
      "step": 6023
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.6156138777732849,
      "learning_rate": 6.560968078548005e-05,
      "loss": 2.8958,
      "step": 6024
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.568025529384613,
      "learning_rate": 6.553970008982385e-05,
      "loss": 2.7783,
      "step": 6025
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.5987101197242737,
      "learning_rate": 6.546975110503164e-05,
      "loss": 2.7872,
      "step": 6026
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.635174572467804,
      "learning_rate": 6.53998338431285e-05,
      "loss": 2.9588,
      "step": 6027
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.6278521418571472,
      "learning_rate": 6.532994831613398e-05,
      "loss": 3.0155,
      "step": 6028
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.6418352723121643,
      "learning_rate": 6.526009453606224e-05,
      "loss": 2.9333,
      "step": 6029
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.7058039307594299,
      "learning_rate": 6.519027251492185e-05,
      "loss": 2.9762,
      "step": 6030
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.6498100161552429,
      "learning_rate": 6.512048226471617e-05,
      "loss": 2.888,
      "step": 6031
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.6551867127418518,
      "learning_rate": 6.505072379744283e-05,
      "loss": 2.917,
      "step": 6032
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.5834445953369141,
      "learning_rate": 6.498099712509428e-05,
      "loss": 2.8868,
      "step": 6033
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.6076505780220032,
      "learning_rate": 6.491130225965722e-05,
      "loss": 2.9442,
      "step": 6034
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.595348596572876,
      "learning_rate": 6.484163921311306e-05,
      "loss": 2.8584,
      "step": 6035
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.6468437910079956,
      "learning_rate": 6.477200799743766e-05,
      "loss": 2.8834,
      "step": 6036
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.5905421376228333,
      "learning_rate": 6.470240862460142e-05,
      "loss": 2.8054,
      "step": 6037
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.6074713468551636,
      "learning_rate": 6.46328411065692e-05,
      "loss": 2.9551,
      "step": 6038
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.6193002462387085,
      "learning_rate": 6.456330545530065e-05,
      "loss": 3.0364,
      "step": 6039
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.6226275563240051,
      "learning_rate": 6.449380168274965e-05,
      "loss": 2.8368,
      "step": 6040
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.6330537796020508,
      "learning_rate": 6.442432980086466e-05,
      "loss": 2.8905,
      "step": 6041
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.5687089562416077,
      "learning_rate": 6.43548898215888e-05,
      "loss": 2.803,
      "step": 6042
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.6400309801101685,
      "learning_rate": 6.428548175685958e-05,
      "loss": 2.9543,
      "step": 6043
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.6011436581611633,
      "learning_rate": 6.421610561860902e-05,
      "loss": 2.8755,
      "step": 6044
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.5843335390090942,
      "learning_rate": 6.414676141876363e-05,
      "loss": 2.9132,
      "step": 6045
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.6521393060684204,
      "learning_rate": 6.407744916924463e-05,
      "loss": 3.0542,
      "step": 6046
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.6277251243591309,
      "learning_rate": 6.400816888196751e-05,
      "loss": 2.7694,
      "step": 6047
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.5691564083099365,
      "learning_rate": 6.393892056884234e-05,
      "loss": 2.8475,
      "step": 6048
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.5899291038513184,
      "learning_rate": 6.386970424177376e-05,
      "loss": 2.8907,
      "step": 6049
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.6356521248817444,
      "learning_rate": 6.380051991266075e-05,
      "loss": 2.962,
      "step": 6050
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.6054366827011108,
      "learning_rate": 6.373136759339704e-05,
      "loss": 2.9548,
      "step": 6051
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.6442473530769348,
      "learning_rate": 6.366224729587067e-05,
      "loss": 2.8051,
      "step": 6052
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.5862785577774048,
      "learning_rate": 6.359315903196411e-05,
      "loss": 2.7931,
      "step": 6053
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.6284540295600891,
      "learning_rate": 6.352410281355461e-05,
      "loss": 2.8638,
      "step": 6054
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.6379223465919495,
      "learning_rate": 6.345507865251366e-05,
      "loss": 2.943,
      "step": 6055
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.5697833299636841,
      "learning_rate": 6.338608656070727e-05,
      "loss": 2.8434,
      "step": 6056
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.6092053055763245,
      "learning_rate": 6.331712654999602e-05,
      "loss": 2.8502,
      "step": 6057
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.593065619468689,
      "learning_rate": 6.324819863223497e-05,
      "loss": 2.9162,
      "step": 6058
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.6034132838249207,
      "learning_rate": 6.317930281927348e-05,
      "loss": 2.947,
      "step": 6059
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.6236809492111206,
      "learning_rate": 6.311043912295563e-05,
      "loss": 2.81,
      "step": 6060
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.6164972186088562,
      "learning_rate": 6.304160755512003e-05,
      "loss": 2.9667,
      "step": 6061
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.6146429181098938,
      "learning_rate": 6.297280812759945e-05,
      "loss": 2.9336,
      "step": 6062
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.6097342371940613,
      "learning_rate": 6.29040408522214e-05,
      "loss": 2.9437,
      "step": 6063
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.5959833264350891,
      "learning_rate": 6.28353057408077e-05,
      "loss": 2.9086,
      "step": 6064
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.5960404276847839,
      "learning_rate": 6.276660280517477e-05,
      "loss": 2.8453,
      "step": 6065
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.5972267985343933,
      "learning_rate": 6.269793205713331e-05,
      "loss": 2.8937,
      "step": 6066
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.569076657295227,
      "learning_rate": 6.262929350848881e-05,
      "loss": 2.822,
      "step": 6067
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.5844124555587769,
      "learning_rate": 6.256068717104093e-05,
      "loss": 2.9444,
      "step": 6068
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.6079303026199341,
      "learning_rate": 6.249211305658384e-05,
      "loss": 2.7261,
      "step": 6069
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.6243332624435425,
      "learning_rate": 6.242357117690639e-05,
      "loss": 2.8151,
      "step": 6070
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.5723774433135986,
      "learning_rate": 6.235506154379161e-05,
      "loss": 2.8526,
      "step": 6071
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.5718258619308472,
      "learning_rate": 6.228658416901711e-05,
      "loss": 2.8265,
      "step": 6072
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.6349588632583618,
      "learning_rate": 6.221813906435494e-05,
      "loss": 2.8577,
      "step": 6073
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.5820194482803345,
      "learning_rate": 6.214972624157159e-05,
      "loss": 2.9693,
      "step": 6074
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.624968945980072,
      "learning_rate": 6.208134571242808e-05,
      "loss": 2.755,
      "step": 6075
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.5758111476898193,
      "learning_rate": 6.20129974886798e-05,
      "loss": 2.8052,
      "step": 6076
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.5863784551620483,
      "learning_rate": 6.194468158207659e-05,
      "loss": 2.8774,
      "step": 6077
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.6735400557518005,
      "learning_rate": 6.187639800436265e-05,
      "loss": 2.8871,
      "step": 6078
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.6012241840362549,
      "learning_rate": 6.18081467672769e-05,
      "loss": 2.9083,
      "step": 6079
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.6075917482376099,
      "learning_rate": 6.17399278825524e-05,
      "loss": 2.996,
      "step": 6080
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.606941282749176,
      "learning_rate": 6.167174136191675e-05,
      "loss": 2.8741,
      "step": 6081
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.6132409572601318,
      "learning_rate": 6.160358721709212e-05,
      "loss": 2.8299,
      "step": 6082
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.6048531532287598,
      "learning_rate": 6.15354654597949e-05,
      "loss": 2.9567,
      "step": 6083
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.6095747947692871,
      "learning_rate": 6.146737610173606e-05,
      "loss": 2.9279,
      "step": 6084
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.6316377520561218,
      "learning_rate": 6.13993191546209e-05,
      "loss": 2.8201,
      "step": 6085
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.605648398399353,
      "learning_rate": 6.133129463014924e-05,
      "loss": 2.9364,
      "step": 6086
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.6163253784179688,
      "learning_rate": 6.126330254001522e-05,
      "loss": 2.8717,
      "step": 6087
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.6234620213508606,
      "learning_rate": 6.119534289590747e-05,
      "loss": 2.7149,
      "step": 6088
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.5921696424484253,
      "learning_rate": 6.112741570950919e-05,
      "loss": 2.9001,
      "step": 6089
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.6386547088623047,
      "learning_rate": 6.105952099249776e-05,
      "loss": 2.891,
      "step": 6090
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.5717970728874207,
      "learning_rate": 6.099165875654503e-05,
      "loss": 2.9231,
      "step": 6091
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.6043606996536255,
      "learning_rate": 6.092382901331733e-05,
      "loss": 2.8185,
      "step": 6092
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.6950952410697937,
      "learning_rate": 6.0856031774475407e-05,
      "loss": 2.9366,
      "step": 6093
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.5856122374534607,
      "learning_rate": 6.078826705167437e-05,
      "loss": 2.8529,
      "step": 6094
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.6186961531639099,
      "learning_rate": 6.072053485656365e-05,
      "loss": 2.9233,
      "step": 6095
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.6240620017051697,
      "learning_rate": 6.065283520078732e-05,
      "loss": 2.9233,
      "step": 6096
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.6538949012756348,
      "learning_rate": 6.05851680959838e-05,
      "loss": 2.9669,
      "step": 6097
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.6864875555038452,
      "learning_rate": 6.051753355378578e-05,
      "loss": 2.7626,
      "step": 6098
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.5808729529380798,
      "learning_rate": 6.044993158582038e-05,
      "loss": 2.8049,
      "step": 6099
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.6862858533859253,
      "learning_rate": 6.038236220370921e-05,
      "loss": 2.937,
      "step": 6100
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.6190650463104248,
      "learning_rate": 6.031482541906821e-05,
      "loss": 3.0788,
      "step": 6101
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.5803014636039734,
      "learning_rate": 6.024732124350768e-05,
      "loss": 2.9519,
      "step": 6102
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.6393992900848389,
      "learning_rate": 6.017984968863249e-05,
      "loss": 2.9289,
      "step": 6103
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.5753846764564514,
      "learning_rate": 6.0112410766041735e-05,
      "loss": 2.8116,
      "step": 6104
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.6252087354660034,
      "learning_rate": 6.0045004487328917e-05,
      "loss": 2.8083,
      "step": 6105
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.6718177199363708,
      "learning_rate": 5.997763086408192e-05,
      "loss": 2.812,
      "step": 6106
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.5630013346672058,
      "learning_rate": 5.991028990788316e-05,
      "loss": 2.8921,
      "step": 6107
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.5897088646888733,
      "learning_rate": 5.984298163030929e-05,
      "loss": 2.8382,
      "step": 6108
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.6292710900306702,
      "learning_rate": 5.977570604293128e-05,
      "loss": 2.9269,
      "step": 6109
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.588532567024231,
      "learning_rate": 5.9708463157314765e-05,
      "loss": 2.935,
      "step": 6110
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.5945379137992859,
      "learning_rate": 5.964125298501946e-05,
      "loss": 2.8336,
      "step": 6111
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.656666100025177,
      "learning_rate": 5.957407553759961e-05,
      "loss": 2.8961,
      "step": 6112
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.6246365904808044,
      "learning_rate": 5.950693082660377e-05,
      "loss": 2.9353,
      "step": 6113
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.627824604511261,
      "learning_rate": 5.9439818863574913e-05,
      "loss": 2.8325,
      "step": 6114
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.6050363779067993,
      "learning_rate": 5.937273966005028e-05,
      "loss": 2.8766,
      "step": 6115
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.6438038945198059,
      "learning_rate": 5.9305693227561715e-05,
      "loss": 2.854,
      "step": 6116
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.6107856631278992,
      "learning_rate": 5.923867957763512e-05,
      "loss": 2.8668,
      "step": 6117
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.6244044899940491,
      "learning_rate": 5.917169872179109e-05,
      "loss": 2.9334,
      "step": 6118
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.607128381729126,
      "learning_rate": 5.91047506715443e-05,
      "loss": 2.8764,
      "step": 6119
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.6068030595779419,
      "learning_rate": 5.903783543840393e-05,
      "loss": 2.8282,
      "step": 6120
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.5865399241447449,
      "learning_rate": 5.8970953033873484e-05,
      "loss": 2.7494,
      "step": 6121
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.6180712580680847,
      "learning_rate": 5.89041034694508e-05,
      "loss": 2.9207,
      "step": 6122
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.5602871179580688,
      "learning_rate": 5.8837286756628025e-05,
      "loss": 2.7828,
      "step": 6123
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.5775691270828247,
      "learning_rate": 5.877050290689182e-05,
      "loss": 2.814,
      "step": 6124
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.591745913028717,
      "learning_rate": 5.870375193172314e-05,
      "loss": 2.9243,
      "step": 6125
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.6337698101997375,
      "learning_rate": 5.8637033842597224e-05,
      "loss": 2.8636,
      "step": 6126
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.6101004481315613,
      "learning_rate": 5.857034865098365e-05,
      "loss": 2.8224,
      "step": 6127
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.589016318321228,
      "learning_rate": 5.8503696368346374e-05,
      "loss": 2.8049,
      "step": 6128
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.5633822083473206,
      "learning_rate": 5.84370770061437e-05,
      "loss": 2.8929,
      "step": 6129
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.6597014665603638,
      "learning_rate": 5.8370490575828216e-05,
      "loss": 2.8259,
      "step": 6130
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.6275294423103333,
      "learning_rate": 5.8303937088847045e-05,
      "loss": 2.9002,
      "step": 6131
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.6203322410583496,
      "learning_rate": 5.823741655664141e-05,
      "loss": 3.0066,
      "step": 6132
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.6174474358558655,
      "learning_rate": 5.817092899064691e-05,
      "loss": 2.994,
      "step": 6133
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.5991021394729614,
      "learning_rate": 5.810447440229366e-05,
      "loss": 2.871,
      "step": 6134
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.6105661988258362,
      "learning_rate": 5.8038052803005894e-05,
      "loss": 2.9175,
      "step": 6135
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.6269676685333252,
      "learning_rate": 5.797166420420228e-05,
      "loss": 2.8899,
      "step": 6136
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.6319689154624939,
      "learning_rate": 5.790530861729576e-05,
      "loss": 2.807,
      "step": 6137
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.5753397941589355,
      "learning_rate": 5.783898605369356e-05,
      "loss": 2.8893,
      "step": 6138
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.6442521214485168,
      "learning_rate": 5.777269652479747e-05,
      "loss": 2.8508,
      "step": 6139
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.6131872534751892,
      "learning_rate": 5.770644004200332e-05,
      "loss": 2.87,
      "step": 6140
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.6288615465164185,
      "learning_rate": 5.764021661670141e-05,
      "loss": 2.8772,
      "step": 6141
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.5954123139381409,
      "learning_rate": 5.757402626027625e-05,
      "loss": 2.8674,
      "step": 6142
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.6068294048309326,
      "learning_rate": 5.750786898410673e-05,
      "loss": 2.8912,
      "step": 6143
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.6248689889907837,
      "learning_rate": 5.744174479956615e-05,
      "loss": 2.908,
      "step": 6144
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.6159309148788452,
      "learning_rate": 5.737565371802189e-05,
      "loss": 2.8439,
      "step": 6145
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.6099796891212463,
      "learning_rate": 5.730959575083594e-05,
      "loss": 2.8309,
      "step": 6146
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.6121202111244202,
      "learning_rate": 5.7243570909364326e-05,
      "loss": 2.7692,
      "step": 6147
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.5957723259925842,
      "learning_rate": 5.71775792049575e-05,
      "loss": 2.7327,
      "step": 6148
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.6175190806388855,
      "learning_rate": 5.711162064896019e-05,
      "loss": 2.8893,
      "step": 6149
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.5968576669692993,
      "learning_rate": 5.7045695252711475e-05,
      "loss": 2.7887,
      "step": 6150
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.6023911237716675,
      "learning_rate": 5.697980302754458e-05,
      "loss": 2.9016,
      "step": 6151
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.5862206220626831,
      "learning_rate": 5.691394398478727e-05,
      "loss": 2.8292,
      "step": 6152
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.5957248210906982,
      "learning_rate": 5.684811813576138e-05,
      "loss": 2.9523,
      "step": 6153
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.6312345266342163,
      "learning_rate": 5.678232549178328e-05,
      "loss": 3.0481,
      "step": 6154
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.6083499789237976,
      "learning_rate": 5.671656606416337e-05,
      "loss": 2.8191,
      "step": 6155
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.6211135387420654,
      "learning_rate": 5.6650839864206496e-05,
      "loss": 2.9347,
      "step": 6156
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.5991479754447937,
      "learning_rate": 5.658514690321176e-05,
      "loss": 2.9177,
      "step": 6157
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.6200006604194641,
      "learning_rate": 5.651948719247252e-05,
      "loss": 2.7491,
      "step": 6158
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.5832414627075195,
      "learning_rate": 5.645386074327638e-05,
      "loss": 2.8381,
      "step": 6159
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.6684548854827881,
      "learning_rate": 5.63882675669054e-05,
      "loss": 2.9265,
      "step": 6160
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.6095465421676636,
      "learning_rate": 5.6322707674635736e-05,
      "loss": 2.9635,
      "step": 6161
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.594535231590271,
      "learning_rate": 5.6257181077737975e-05,
      "loss": 2.8097,
      "step": 6162
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.6169964671134949,
      "learning_rate": 5.619168778747685e-05,
      "loss": 2.869,
      "step": 6163
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.587577760219574,
      "learning_rate": 5.6126227815111425e-05,
      "loss": 2.9611,
      "step": 6164
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.5865127444267273,
      "learning_rate": 5.6060801171894996e-05,
      "loss": 2.8525,
      "step": 6165
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.5820415616035461,
      "learning_rate": 5.599540786907512e-05,
      "loss": 3.0286,
      "step": 6166
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.5687500834465027,
      "learning_rate": 5.59300479178938e-05,
      "loss": 2.8974,
      "step": 6167
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.5906420350074768,
      "learning_rate": 5.5864721329587084e-05,
      "loss": 2.7944,
      "step": 6168
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.545009970664978,
      "learning_rate": 5.579942811538538e-05,
      "loss": 2.8754,
      "step": 6169
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.5928789973258972,
      "learning_rate": 5.573416828651329e-05,
      "loss": 3.0265,
      "step": 6170
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.6330020427703857,
      "learning_rate": 5.566894185418986e-05,
      "loss": 3.0,
      "step": 6171
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.6761568784713745,
      "learning_rate": 5.560374882962821e-05,
      "loss": 2.9195,
      "step": 6172
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.640342116355896,
      "learning_rate": 5.553858922403576e-05,
      "loss": 2.8674,
      "step": 6173
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.5882207751274109,
      "learning_rate": 5.5473463048614144e-05,
      "loss": 2.9448,
      "step": 6174
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.65006422996521,
      "learning_rate": 5.540837031455945e-05,
      "loss": 2.9426,
      "step": 6175
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.6083439588546753,
      "learning_rate": 5.534331103306181e-05,
      "loss": 2.8939,
      "step": 6176
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.6022304892539978,
      "learning_rate": 5.527828521530562e-05,
      "loss": 2.9619,
      "step": 6177
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.6433784365653992,
      "learning_rate": 5.521329287246965e-05,
      "loss": 2.8056,
      "step": 6178
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.5997845530509949,
      "learning_rate": 5.5148334015726774e-05,
      "loss": 2.815,
      "step": 6179
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.5974776744842529,
      "learning_rate": 5.5083408656244146e-05,
      "loss": 2.7869,
      "step": 6180
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.6421350240707397,
      "learning_rate": 5.501851680518322e-05,
      "loss": 2.995,
      "step": 6181
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.6013021469116211,
      "learning_rate": 5.4953658473699734e-05,
      "loss": 2.9429,
      "step": 6182
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.6315083503723145,
      "learning_rate": 5.488883367294353e-05,
      "loss": 2.9292,
      "step": 6183
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.6597678065299988,
      "learning_rate": 5.482404241405875e-05,
      "loss": 2.8391,
      "step": 6184
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.6039095520973206,
      "learning_rate": 5.4759284708183755e-05,
      "loss": 2.8626,
      "step": 6185
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.5726359486579895,
      "learning_rate": 5.469456056645114e-05,
      "loss": 2.8764,
      "step": 6186
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.5705135464668274,
      "learning_rate": 5.4629869999987675e-05,
      "loss": 2.8486,
      "step": 6187
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.6086112856864929,
      "learning_rate": 5.4565213019914544e-05,
      "loss": 2.9389,
      "step": 6188
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.5967490673065186,
      "learning_rate": 5.450058963734691e-05,
      "loss": 2.9752,
      "step": 6189
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.6125069260597229,
      "learning_rate": 5.44359998633944e-05,
      "loss": 3.0244,
      "step": 6190
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.6115397214889526,
      "learning_rate": 5.437144370916069e-05,
      "loss": 2.9418,
      "step": 6191
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.5954710841178894,
      "learning_rate": 5.430692118574374e-05,
      "loss": 2.9969,
      "step": 6192
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.5893006324768066,
      "learning_rate": 5.424243230423567e-05,
      "loss": 2.8844,
      "step": 6193
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.6100807785987854,
      "learning_rate": 5.417797707572294e-05,
      "loss": 2.7294,
      "step": 6194
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.6391273736953735,
      "learning_rate": 5.411355551128602e-05,
      "loss": 2.8599,
      "step": 6195
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.6379446983337402,
      "learning_rate": 5.404916762199991e-05,
      "loss": 2.9609,
      "step": 6196
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.6320903897285461,
      "learning_rate": 5.3984813418933545e-05,
      "loss": 2.9514,
      "step": 6197
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.630722165107727,
      "learning_rate": 5.3920492913150074e-05,
      "loss": 2.8215,
      "step": 6198
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.6193430423736572,
      "learning_rate": 5.3856206115707077e-05,
      "loss": 2.7823,
      "step": 6199
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.6218324303627014,
      "learning_rate": 5.379195303765616e-05,
      "loss": 2.8611,
      "step": 6200
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.6039642095565796,
      "learning_rate": 5.372773369004314e-05,
      "loss": 2.7239,
      "step": 6201
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.6822304725646973,
      "learning_rate": 5.366354808390803e-05,
      "loss": 2.8315,
      "step": 6202
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.5940309166908264,
      "learning_rate": 5.35993962302852e-05,
      "loss": 2.8215,
      "step": 6203
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.6189612746238708,
      "learning_rate": 5.353527814020301e-05,
      "loss": 2.8967,
      "step": 6204
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.6369777917861938,
      "learning_rate": 5.347119382468413e-05,
      "loss": 2.809,
      "step": 6205
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.6278876662254333,
      "learning_rate": 5.340714329474541e-05,
      "loss": 2.8098,
      "step": 6206
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.6276265978813171,
      "learning_rate": 5.3343126561397756e-05,
      "loss": 2.8936,
      "step": 6207
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.5948280692100525,
      "learning_rate": 5.327914363564659e-05,
      "loss": 2.9931,
      "step": 6208
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.5961166620254517,
      "learning_rate": 5.3215194528491186e-05,
      "loss": 2.8646,
      "step": 6209
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.6571324467658997,
      "learning_rate": 5.315127925092511e-05,
      "loss": 2.9345,
      "step": 6210
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.5916805863380432,
      "learning_rate": 5.308739781393629e-05,
      "loss": 2.7432,
      "step": 6211
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.6345484852790833,
      "learning_rate": 5.302355022850655e-05,
      "loss": 2.8871,
      "step": 6212
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.635118305683136,
      "learning_rate": 5.295973650561212e-05,
      "loss": 2.9297,
      "step": 6213
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.6041489839553833,
      "learning_rate": 5.289595665622324e-05,
      "loss": 2.9117,
      "step": 6214
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.5656254291534424,
      "learning_rate": 5.283221069130442e-05,
      "loss": 3.0055,
      "step": 6215
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.6246512532234192,
      "learning_rate": 5.276849862181432e-05,
      "loss": 3.035,
      "step": 6216
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.6173117160797119,
      "learning_rate": 5.2704820458705785e-05,
      "loss": 2.7922,
      "step": 6217
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.6434284448623657,
      "learning_rate": 5.264117621292594e-05,
      "loss": 2.7027,
      "step": 6218
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.5623660087585449,
      "learning_rate": 5.2577565895415876e-05,
      "loss": 2.8508,
      "step": 6219
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.6163188219070435,
      "learning_rate": 5.251398951711095e-05,
      "loss": 2.996,
      "step": 6220
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.5938271880149841,
      "learning_rate": 5.245044708894067e-05,
      "loss": 2.8892,
      "step": 6221
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.633427619934082,
      "learning_rate": 5.238693862182875e-05,
      "loss": 2.8039,
      "step": 6222
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.5980455875396729,
      "learning_rate": 5.232346412669292e-05,
      "loss": 3.01,
      "step": 6223
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.622942328453064,
      "learning_rate": 5.2260023614445344e-05,
      "loss": 3.0126,
      "step": 6224
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.6048003435134888,
      "learning_rate": 5.2196617095992103e-05,
      "loss": 2.8847,
      "step": 6225
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.6098076105117798,
      "learning_rate": 5.213324458223345e-05,
      "loss": 2.853,
      "step": 6226
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.6301916837692261,
      "learning_rate": 5.2069906084064006e-05,
      "loss": 2.9995,
      "step": 6227
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.6123011112213135,
      "learning_rate": 5.200660161237228e-05,
      "loss": 2.8136,
      "step": 6228
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.6445700526237488,
      "learning_rate": 5.1943331178041094e-05,
      "loss": 2.9115,
      "step": 6229
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.5993559956550598,
      "learning_rate": 5.188009479194736e-05,
      "loss": 2.9436,
      "step": 6230
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.6055607795715332,
      "learning_rate": 5.1816892464962046e-05,
      "loss": 2.9184,
      "step": 6231
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.6095869541168213,
      "learning_rate": 5.1753724207950517e-05,
      "loss": 2.8434,
      "step": 6232
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.6403312087059021,
      "learning_rate": 5.1690590031772066e-05,
      "loss": 2.9152,
      "step": 6233
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.5918086767196655,
      "learning_rate": 5.16274899472802e-05,
      "loss": 2.8997,
      "step": 6234
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.6352443099021912,
      "learning_rate": 5.156442396532246e-05,
      "loss": 2.9258,
      "step": 6235
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.5771151781082153,
      "learning_rate": 5.150139209674079e-05,
      "loss": 2.9383,
      "step": 6236
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.5906949639320374,
      "learning_rate": 5.1438394352370994e-05,
      "loss": 2.9207,
      "step": 6237
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.5860062837600708,
      "learning_rate": 5.137543074304307e-05,
      "loss": 3.0035,
      "step": 6238
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.5492697954177856,
      "learning_rate": 5.131250127958134e-05,
      "loss": 2.8401,
      "step": 6239
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.6391189694404602,
      "learning_rate": 5.124960597280401e-05,
      "loss": 2.8855,
      "step": 6240
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.6239864826202393,
      "learning_rate": 5.1186744833523533e-05,
      "loss": 2.9561,
      "step": 6241
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.6099718809127808,
      "learning_rate": 5.112391787254645e-05,
      "loss": 2.9317,
      "step": 6242
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.6144788861274719,
      "learning_rate": 5.106112510067346e-05,
      "loss": 2.8497,
      "step": 6243
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.6168696880340576,
      "learning_rate": 5.0998366528699266e-05,
      "loss": 2.8487,
      "step": 6244
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.6295859217643738,
      "learning_rate": 5.0935642167413e-05,
      "loss": 3.0582,
      "step": 6245
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.5536958575248718,
      "learning_rate": 5.087295202759751e-05,
      "loss": 2.9376,
      "step": 6246
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.5872915387153625,
      "learning_rate": 5.081029612003013e-05,
      "loss": 2.8858,
      "step": 6247
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.6014330387115479,
      "learning_rate": 5.074767445548204e-05,
      "loss": 2.9539,
      "step": 6248
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.6079274415969849,
      "learning_rate": 5.0685087044718635e-05,
      "loss": 2.8774,
      "step": 6249
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.5765332579612732,
      "learning_rate": 5.062253389849941e-05,
      "loss": 2.7988,
      "step": 6250
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.6069732904434204,
      "learning_rate": 5.056001502757801e-05,
      "loss": 2.8988,
      "step": 6251
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.5525557994842529,
      "learning_rate": 5.0497530442702086e-05,
      "loss": 2.8643,
      "step": 6252
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.631000816822052,
      "learning_rate": 5.043508015461354e-05,
      "loss": 2.8737,
      "step": 6253
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.6515928506851196,
      "learning_rate": 5.037266417404823e-05,
      "loss": 2.8187,
      "step": 6254
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.5939873456954956,
      "learning_rate": 5.031028251173628e-05,
      "loss": 2.7697,
      "step": 6255
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.6178735494613647,
      "learning_rate": 5.024793517840176e-05,
      "loss": 2.8502,
      "step": 6256
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.6251512169837952,
      "learning_rate": 5.018562218476294e-05,
      "loss": 2.8975,
      "step": 6257
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.6045218110084534,
      "learning_rate": 5.012334354153208e-05,
      "loss": 2.821,
      "step": 6258
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.5396243333816528,
      "learning_rate": 5.00610992594156e-05,
      "loss": 2.9832,
      "step": 6259
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.6281202435493469,
      "learning_rate": 4.999888934911409e-05,
      "loss": 2.8458,
      "step": 6260
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.6056246161460876,
      "learning_rate": 4.993671382132212e-05,
      "loss": 2.8531,
      "step": 6261
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.6603124737739563,
      "learning_rate": 4.987457268672837e-05,
      "loss": 3.0092,
      "step": 6262
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.6089984774589539,
      "learning_rate": 4.981246595601555e-05,
      "loss": 2.8746,
      "step": 6263
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.6085401177406311,
      "learning_rate": 4.9750393639860694e-05,
      "loss": 2.8612,
      "step": 6264
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.6129029393196106,
      "learning_rate": 4.9688355748934654e-05,
      "loss": 2.8729,
      "step": 6265
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.5865370035171509,
      "learning_rate": 4.9626352293902474e-05,
      "loss": 3.0363,
      "step": 6266
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.6016789674758911,
      "learning_rate": 4.9564383285423204e-05,
      "loss": 2.9605,
      "step": 6267
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.6296460032463074,
      "learning_rate": 4.950244873415016e-05,
      "loss": 2.8523,
      "step": 6268
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.6028044819831848,
      "learning_rate": 4.9440548650730555e-05,
      "loss": 2.8873,
      "step": 6269
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.6552127003669739,
      "learning_rate": 4.93786830458057e-05,
      "loss": 2.8756,
      "step": 6270
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.6298415660858154,
      "learning_rate": 4.931685193001106e-05,
      "loss": 2.8564,
      "step": 6271
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.6217722296714783,
      "learning_rate": 4.9255055313976003e-05,
      "loss": 3.0062,
      "step": 6272
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.616239070892334,
      "learning_rate": 4.9193293208324246e-05,
      "loss": 2.982,
      "step": 6273
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.5853167772293091,
      "learning_rate": 4.9131565623673266e-05,
      "loss": 2.9373,
      "step": 6274
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.6417067646980286,
      "learning_rate": 4.906987257063489e-05,
      "loss": 2.9711,
      "step": 6275
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.5889032483100891,
      "learning_rate": 4.900821405981482e-05,
      "loss": 2.9419,
      "step": 6276
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.6126071810722351,
      "learning_rate": 4.894659010181282e-05,
      "loss": 2.7884,
      "step": 6277
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.7261106967926025,
      "learning_rate": 4.888500070722282e-05,
      "loss": 2.9346,
      "step": 6278
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.6049128770828247,
      "learning_rate": 4.882344588663271e-05,
      "loss": 2.856,
      "step": 6279
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.5740746259689331,
      "learning_rate": 4.87619256506244e-05,
      "loss": 2.8136,
      "step": 6280
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.5892940163612366,
      "learning_rate": 4.870044000977406e-05,
      "loss": 2.8183,
      "step": 6281
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.6106640100479126,
      "learning_rate": 4.86389889746518e-05,
      "loss": 2.7682,
      "step": 6282
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.6197496652603149,
      "learning_rate": 4.857757255582171e-05,
      "loss": 2.779,
      "step": 6283
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.6355311274528503,
      "learning_rate": 4.851619076384201e-05,
      "loss": 2.9214,
      "step": 6284
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.5957673788070679,
      "learning_rate": 4.845484360926489e-05,
      "loss": 2.8602,
      "step": 6285
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.7419360876083374,
      "learning_rate": 4.8393531102636664e-05,
      "loss": 2.939,
      "step": 6286
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.5927866101264954,
      "learning_rate": 4.8332253254497665e-05,
      "loss": 2.8971,
      "step": 6287
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.5728574991226196,
      "learning_rate": 4.8271010075382205e-05,
      "loss": 2.7679,
      "step": 6288
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.5868077278137207,
      "learning_rate": 4.8209801575818835e-05,
      "loss": 2.7894,
      "step": 6289
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.6371704936027527,
      "learning_rate": 4.8148627766329914e-05,
      "loss": 3.0371,
      "step": 6290
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.6191597580909729,
      "learning_rate": 4.808748865743187e-05,
      "loss": 2.9151,
      "step": 6291
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.6386900544166565,
      "learning_rate": 4.802638425963537e-05,
      "loss": 2.8987,
      "step": 6292
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.6802377104759216,
      "learning_rate": 4.796531458344491e-05,
      "loss": 2.883,
      "step": 6293
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.6082785129547119,
      "learning_rate": 4.790427963935903e-05,
      "loss": 2.9133,
      "step": 6294
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.6166848540306091,
      "learning_rate": 4.784327943787034e-05,
      "loss": 2.8738,
      "step": 6295
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.6674941778182983,
      "learning_rate": 4.7782313989465556e-05,
      "loss": 2.8914,
      "step": 6296
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.6135963201522827,
      "learning_rate": 4.772138330462533e-05,
      "loss": 2.7403,
      "step": 6297
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.594492495059967,
      "learning_rate": 4.766048739382431e-05,
      "loss": 2.883,
      "step": 6298
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.6542236804962158,
      "learning_rate": 4.7599626267531225e-05,
      "loss": 2.9386,
      "step": 6299
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.6339329481124878,
      "learning_rate": 4.753879993620877e-05,
      "loss": 2.839,
      "step": 6300
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.6241506338119507,
      "learning_rate": 4.7478008410313775e-05,
      "loss": 2.7318,
      "step": 6301
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.6163082718849182,
      "learning_rate": 4.741725170029693e-05,
      "loss": 2.9148,
      "step": 6302
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.6309171319007874,
      "learning_rate": 4.73565298166031e-05,
      "loss": 2.9389,
      "step": 6303
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.5864576101303101,
      "learning_rate": 4.7295842769671053e-05,
      "loss": 2.8659,
      "step": 6304
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.5966854095458984,
      "learning_rate": 4.723519056993358e-05,
      "loss": 2.8681,
      "step": 6305
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.5944784879684448,
      "learning_rate": 4.717457322781749e-05,
      "loss": 2.8497,
      "step": 6306
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.6830857396125793,
      "learning_rate": 4.711399075374362e-05,
      "loss": 2.8225,
      "step": 6307
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.5995562672615051,
      "learning_rate": 4.705344315812682e-05,
      "loss": 2.87,
      "step": 6308
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.6351878643035889,
      "learning_rate": 4.699293045137582e-05,
      "loss": 2.959,
      "step": 6309
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.6056002974510193,
      "learning_rate": 4.693245264389351e-05,
      "loss": 2.9512,
      "step": 6310
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.6237544417381287,
      "learning_rate": 4.687200974607683e-05,
      "loss": 2.9959,
      "step": 6311
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.6060187220573425,
      "learning_rate": 4.6811601768316556e-05,
      "loss": 2.9934,
      "step": 6312
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.6193540692329407,
      "learning_rate": 4.675122872099749e-05,
      "loss": 2.8527,
      "step": 6313
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.5866901874542236,
      "learning_rate": 4.6690890614498466e-05,
      "loss": 2.8253,
      "step": 6314
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.5842534303665161,
      "learning_rate": 4.66305874591923e-05,
      "loss": 2.9535,
      "step": 6315
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.6212218999862671,
      "learning_rate": 4.657031926544575e-05,
      "loss": 2.9008,
      "step": 6316
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.6423836946487427,
      "learning_rate": 4.651008604361975e-05,
      "loss": 2.9242,
      "step": 6317
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.9771425724029541,
      "learning_rate": 4.6449887804068944e-05,
      "loss": 2.9266,
      "step": 6318
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.6791874766349792,
      "learning_rate": 4.638972455714224e-05,
      "loss": 2.8903,
      "step": 6319
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.6030334234237671,
      "learning_rate": 4.632959631318234e-05,
      "loss": 2.8003,
      "step": 6320
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.6067480444908142,
      "learning_rate": 4.6269503082526e-05,
      "loss": 2.8423,
      "step": 6321
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.6570091247558594,
      "learning_rate": 4.620944487550391e-05,
      "loss": 2.9968,
      "step": 6322
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.6885324716567993,
      "learning_rate": 4.6149421702440743e-05,
      "loss": 2.8038,
      "step": 6323
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.5968097448348999,
      "learning_rate": 4.6089433573655276e-05,
      "loss": 2.7989,
      "step": 6324
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.6175678968429565,
      "learning_rate": 4.6029480499460095e-05,
      "loss": 2.8923,
      "step": 6325
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.5557382702827454,
      "learning_rate": 4.596956249016188e-05,
      "loss": 2.7942,
      "step": 6326
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.6094926595687866,
      "learning_rate": 4.590967955606115e-05,
      "loss": 2.7943,
      "step": 6327
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.6527033448219299,
      "learning_rate": 4.5849831707452496e-05,
      "loss": 2.8443,
      "step": 6328
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.5979165434837341,
      "learning_rate": 4.579001895462453e-05,
      "loss": 2.841,
      "step": 6329
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.6055772304534912,
      "learning_rate": 4.573024130785972e-05,
      "loss": 2.7837,
      "step": 6330
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.6344488859176636,
      "learning_rate": 4.5670498777434456e-05,
      "loss": 2.8401,
      "step": 6331
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.5995519757270813,
      "learning_rate": 4.561079137361932e-05,
      "loss": 2.8825,
      "step": 6332
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.6132795214653015,
      "learning_rate": 4.555111910667861e-05,
      "loss": 3.0685,
      "step": 6333
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.583118736743927,
      "learning_rate": 4.5491481986870726e-05,
      "loss": 2.6797,
      "step": 6334
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.6261501908302307,
      "learning_rate": 4.543188002444795e-05,
      "loss": 2.9133,
      "step": 6335
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.5988366603851318,
      "learning_rate": 4.537231322965654e-05,
      "loss": 2.9898,
      "step": 6336
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.6124528646469116,
      "learning_rate": 4.531278161273667e-05,
      "loss": 2.8636,
      "step": 6337
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.6539961099624634,
      "learning_rate": 4.5253285183922574e-05,
      "loss": 3.0342,
      "step": 6338
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.5833355784416199,
      "learning_rate": 4.519382395344246e-05,
      "loss": 2.8585,
      "step": 6339
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.6096019744873047,
      "learning_rate": 4.513439793151833e-05,
      "loss": 2.9775,
      "step": 6340
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.6501209735870361,
      "learning_rate": 4.507500712836621e-05,
      "loss": 2.8891,
      "step": 6341
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.6443206667900085,
      "learning_rate": 4.5015651554196015e-05,
      "loss": 2.9232,
      "step": 6342
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.555853545665741,
      "learning_rate": 4.495633121921175e-05,
      "loss": 2.8866,
      "step": 6343
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.6525262594223022,
      "learning_rate": 4.489704613361112e-05,
      "loss": 3.0209,
      "step": 6344
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.65384441614151,
      "learning_rate": 4.4837796307586085e-05,
      "loss": 2.9226,
      "step": 6345
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.621354877948761,
      "learning_rate": 4.477858175132227e-05,
      "loss": 2.7404,
      "step": 6346
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.6005956530570984,
      "learning_rate": 4.4719402474999424e-05,
      "loss": 2.8438,
      "step": 6347
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.6150113344192505,
      "learning_rate": 4.4660258488791125e-05,
      "loss": 2.8951,
      "step": 6348
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.5942885279655457,
      "learning_rate": 4.4601149802864864e-05,
      "loss": 2.9679,
      "step": 6349
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.6203141212463379,
      "learning_rate": 4.454207642738217e-05,
      "loss": 2.8483,
      "step": 6350
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.6199586987495422,
      "learning_rate": 4.4483038372498397e-05,
      "loss": 2.9457,
      "step": 6351
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.6380874514579773,
      "learning_rate": 4.4424035648362836e-05,
      "loss": 2.9043,
      "step": 6352
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.5926231145858765,
      "learning_rate": 4.4365068265118825e-05,
      "loss": 2.918,
      "step": 6353
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.5664591789245605,
      "learning_rate": 4.4306136232903524e-05,
      "loss": 2.8054,
      "step": 6354
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.621228039264679,
      "learning_rate": 4.424723956184795e-05,
      "loss": 2.9035,
      "step": 6355
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.6019294261932373,
      "learning_rate": 4.418837826207725e-05,
      "loss": 2.9292,
      "step": 6356
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.6098965406417847,
      "learning_rate": 4.41295523437103e-05,
      "loss": 2.9275,
      "step": 6357
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.612373948097229,
      "learning_rate": 4.407076181685996e-05,
      "loss": 2.8448,
      "step": 6358
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.6345899105072021,
      "learning_rate": 4.401200669163291e-05,
      "loss": 3.0043,
      "step": 6359
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.5679296255111694,
      "learning_rate": 4.3953286978130005e-05,
      "loss": 2.8083,
      "step": 6360
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.6071072816848755,
      "learning_rate": 4.389460268644577e-05,
      "loss": 2.8736,
      "step": 6361
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.6270517110824585,
      "learning_rate": 4.383595382666872e-05,
      "loss": 2.8336,
      "step": 6362
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.5913156867027283,
      "learning_rate": 4.3777340408881263e-05,
      "loss": 2.8974,
      "step": 6363
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.6576864719390869,
      "learning_rate": 4.3718762443159725e-05,
      "loss": 2.9356,
      "step": 6364
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.6017392873764038,
      "learning_rate": 4.366021993957428e-05,
      "loss": 2.8314,
      "step": 6365
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.6082044243812561,
      "learning_rate": 4.360171290818918e-05,
      "loss": 2.8742,
      "step": 6366
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.5857778787612915,
      "learning_rate": 4.354324135906235e-05,
      "loss": 2.9107,
      "step": 6367
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.6007295250892639,
      "learning_rate": 4.3484805302245826e-05,
      "loss": 2.8625,
      "step": 6368
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.5899729132652283,
      "learning_rate": 4.342640474778542e-05,
      "loss": 2.8212,
      "step": 6369
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.5769587755203247,
      "learning_rate": 4.3368039705720844e-05,
      "loss": 2.9269,
      "step": 6370
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.6025134325027466,
      "learning_rate": 4.33097101860857e-05,
      "loss": 2.8912,
      "step": 6371
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.6262272000312805,
      "learning_rate": 4.3251416198907576e-05,
      "loss": 2.9063,
      "step": 6372
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.6170023083686829,
      "learning_rate": 4.319315775420776e-05,
      "loss": 2.8215,
      "step": 6373
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.5690220594406128,
      "learning_rate": 4.3134934862001624e-05,
      "loss": 2.8191,
      "step": 6374
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.655188798904419,
      "learning_rate": 4.307674753229846e-05,
      "loss": 3.0456,
      "step": 6375
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.6127761602401733,
      "learning_rate": 4.301859577510123e-05,
      "loss": 2.7699,
      "step": 6376
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.6022809147834778,
      "learning_rate": 4.2960479600406917e-05,
      "loss": 2.9218,
      "step": 6377
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.584224283695221,
      "learning_rate": 4.290239901820639e-05,
      "loss": 2.9352,
      "step": 6378
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.5413339138031006,
      "learning_rate": 4.284435403848436e-05,
      "loss": 2.8142,
      "step": 6379
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.564441442489624,
      "learning_rate": 4.2786344671219334e-05,
      "loss": 2.8091,
      "step": 6380
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.5908548831939697,
      "learning_rate": 4.2728370926383956e-05,
      "loss": 2.8536,
      "step": 6381
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.6434381604194641,
      "learning_rate": 4.267043281394453e-05,
      "loss": 2.9204,
      "step": 6382
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.6182896494865417,
      "learning_rate": 4.26125303438612e-05,
      "loss": 2.9792,
      "step": 6383
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.6125123500823975,
      "learning_rate": 4.255466352608822e-05,
      "loss": 2.876,
      "step": 6384
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.6307775974273682,
      "learning_rate": 4.2496832370573476e-05,
      "loss": 2.9004,
      "step": 6385
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.6464799642562866,
      "learning_rate": 4.2439036887258837e-05,
      "loss": 2.7738,
      "step": 6386
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.6380693912506104,
      "learning_rate": 4.2381277086080026e-05,
      "loss": 2.8634,
      "step": 6387
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.5880800485610962,
      "learning_rate": 4.2323552976966525e-05,
      "loss": 2.9992,
      "step": 6388
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.582073986530304,
      "learning_rate": 4.226586456984191e-05,
      "loss": 2.8067,
      "step": 6389
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.5866662263870239,
      "learning_rate": 4.220821187462345e-05,
      "loss": 2.7526,
      "step": 6390
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.5828387141227722,
      "learning_rate": 4.2150594901222306e-05,
      "loss": 2.858,
      "step": 6391
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.5653770565986633,
      "learning_rate": 4.209301365954343e-05,
      "loss": 2.7908,
      "step": 6392
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.5637421011924744,
      "learning_rate": 4.2035468159485835e-05,
      "loss": 2.8899,
      "step": 6393
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.6069524884223938,
      "learning_rate": 4.197795841094221e-05,
      "loss": 2.8396,
      "step": 6394
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.6396598219871521,
      "learning_rate": 4.192048442379903e-05,
      "loss": 2.9615,
      "step": 6395
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.5964542031288147,
      "learning_rate": 4.1863046207936934e-05,
      "loss": 2.9127,
      "step": 6396
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.637590765953064,
      "learning_rate": 4.180564377323012e-05,
      "loss": 2.8057,
      "step": 6397
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.6449507474899292,
      "learning_rate": 4.1748277129546735e-05,
      "loss": 2.9785,
      "step": 6398
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.6208088397979736,
      "learning_rate": 4.169094628674877e-05,
      "loss": 2.894,
      "step": 6399
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.589199423789978,
      "learning_rate": 4.163365125469207e-05,
      "loss": 2.7787,
      "step": 6400
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.6608066558837891,
      "learning_rate": 4.157639204322625e-05,
      "loss": 2.9571,
      "step": 6401
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.6007354259490967,
      "learning_rate": 4.1519168662194935e-05,
      "loss": 2.8788,
      "step": 6402
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.5805214643478394,
      "learning_rate": 4.14619811214354e-05,
      "loss": 2.9309,
      "step": 6403
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.6156038641929626,
      "learning_rate": 4.140482943077895e-05,
      "loss": 2.9236,
      "step": 6404
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.6327401399612427,
      "learning_rate": 4.1347713600050547e-05,
      "loss": 2.8116,
      "step": 6405
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.6261988282203674,
      "learning_rate": 4.12906336390691e-05,
      "loss": 2.9042,
      "step": 6406
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.6372010111808777,
      "learning_rate": 4.123358955764728e-05,
      "loss": 2.9587,
      "step": 6407
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.6783491969108582,
      "learning_rate": 4.117658136559166e-05,
      "loss": 2.9156,
      "step": 6408
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.5944983959197998,
      "learning_rate": 4.1119609072702515e-05,
      "loss": 2.7998,
      "step": 6409
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.5816227197647095,
      "learning_rate": 4.10626726887742e-05,
      "loss": 2.7476,
      "step": 6410
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.6361088752746582,
      "learning_rate": 4.1005772223594583e-05,
      "loss": 2.9314,
      "step": 6411
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.6004343628883362,
      "learning_rate": 4.0948907686945675e-05,
      "loss": 2.9816,
      "step": 6412
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.6126981377601624,
      "learning_rate": 4.089207908860304e-05,
      "loss": 2.8643,
      "step": 6413
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.592195987701416,
      "learning_rate": 4.08352864383362e-05,
      "loss": 2.914,
      "step": 6414
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.6370667219161987,
      "learning_rate": 4.077852974590846e-05,
      "loss": 2.9169,
      "step": 6415
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.6088472008705139,
      "learning_rate": 4.0721809021076916e-05,
      "loss": 2.9623,
      "step": 6416
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.6251697540283203,
      "learning_rate": 4.066512427359262e-05,
      "loss": 2.8275,
      "step": 6417
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.6255239844322205,
      "learning_rate": 4.060847551320027e-05,
      "loss": 2.8874,
      "step": 6418
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.681222140789032,
      "learning_rate": 4.055186274963846e-05,
      "loss": 2.8388,
      "step": 6419
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.5964900851249695,
      "learning_rate": 4.0495285992639494e-05,
      "loss": 2.8965,
      "step": 6420
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.6412926912307739,
      "learning_rate": 4.0438745251929756e-05,
      "loss": 2.8606,
      "step": 6421
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.5993625521659851,
      "learning_rate": 4.038224053722911e-05,
      "loss": 2.8565,
      "step": 6422
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.59772127866745,
      "learning_rate": 4.0325771858251424e-05,
      "loss": 2.8462,
      "step": 6423
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.5857152938842773,
      "learning_rate": 4.026933922470427e-05,
      "loss": 2.8523,
      "step": 6424
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.5981584191322327,
      "learning_rate": 4.021294264628914e-05,
      "loss": 2.9662,
      "step": 6425
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.6052728295326233,
      "learning_rate": 4.015658213270126e-05,
      "loss": 2.9281,
      "step": 6426
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.6674900054931641,
      "learning_rate": 4.01002576936296e-05,
      "loss": 2.864,
      "step": 6427
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.6022115349769592,
      "learning_rate": 4.004396933875701e-05,
      "loss": 2.8108,
      "step": 6428
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.5815674662590027,
      "learning_rate": 3.9987717077760054e-05,
      "loss": 2.9165,
      "step": 6429
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.6101269125938416,
      "learning_rate": 3.993150092030928e-05,
      "loss": 2.9203,
      "step": 6430
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.5760166645050049,
      "learning_rate": 3.987532087606874e-05,
      "loss": 2.8936,
      "step": 6431
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.5827056765556335,
      "learning_rate": 3.981917695469658e-05,
      "loss": 2.8571,
      "step": 6432
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.587863564491272,
      "learning_rate": 3.9763069165844546e-05,
      "loss": 2.9695,
      "step": 6433
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.5542702674865723,
      "learning_rate": 3.9706997519158185e-05,
      "loss": 2.8268,
      "step": 6434
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.5916831493377686,
      "learning_rate": 3.965096202427687e-05,
      "loss": 2.7758,
      "step": 6435
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.6238515377044678,
      "learning_rate": 3.959496269083376e-05,
      "loss": 3.0489,
      "step": 6436
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.6005311608314514,
      "learning_rate": 3.953899952845572e-05,
      "loss": 2.8381,
      "step": 6437
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.6076514720916748,
      "learning_rate": 3.9483072546763615e-05,
      "loss": 2.8195,
      "step": 6438
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.6129635572433472,
      "learning_rate": 3.9427181755371774e-05,
      "loss": 2.8543,
      "step": 6439
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.5812982320785522,
      "learning_rate": 3.937132716388864e-05,
      "loss": 2.9099,
      "step": 6440
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.6236760020256042,
      "learning_rate": 3.931550878191617e-05,
      "loss": 2.8398,
      "step": 6441
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.6333508491516113,
      "learning_rate": 3.9259726619050225e-05,
      "loss": 2.8749,
      "step": 6442
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.6062077879905701,
      "learning_rate": 3.920398068488037e-05,
      "loss": 2.8265,
      "step": 6443
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.588014543056488,
      "learning_rate": 3.914827098898999e-05,
      "loss": 2.9172,
      "step": 6444
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.589052140712738,
      "learning_rate": 3.909259754095617e-05,
      "loss": 2.9111,
      "step": 6445
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.6094609498977661,
      "learning_rate": 3.9036960350349954e-05,
      "loss": 2.9936,
      "step": 6446
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.5856770873069763,
      "learning_rate": 3.8981359426735945e-05,
      "loss": 2.8621,
      "step": 6447
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.6272731423377991,
      "learning_rate": 3.892579477967253e-05,
      "loss": 2.9762,
      "step": 6448
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.6090191006660461,
      "learning_rate": 3.887026641871203e-05,
      "loss": 2.8492,
      "step": 6449
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.6181803345680237,
      "learning_rate": 3.8814774353400335e-05,
      "loss": 3.0228,
      "step": 6450
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.6085913181304932,
      "learning_rate": 3.875931859327722e-05,
      "loss": 2.9566,
      "step": 6451
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.6111300587654114,
      "learning_rate": 3.870389914787609e-05,
      "loss": 2.9495,
      "step": 6452
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.5950721502304077,
      "learning_rate": 3.8648516026724314e-05,
      "loss": 2.9626,
      "step": 6453
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.6447514891624451,
      "learning_rate": 3.859316923934284e-05,
      "loss": 2.91,
      "step": 6454
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.6149957776069641,
      "learning_rate": 3.8537858795246404e-05,
      "loss": 2.8207,
      "step": 6455
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.5984472632408142,
      "learning_rate": 3.84825847039435e-05,
      "loss": 2.8663,
      "step": 6456
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.6776888370513916,
      "learning_rate": 3.8427346974936355e-05,
      "loss": 2.855,
      "step": 6457
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.5856307148933411,
      "learning_rate": 3.837214561772109e-05,
      "loss": 2.9517,
      "step": 6458
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.6246632933616638,
      "learning_rate": 3.83169806417874e-05,
      "loss": 2.9271,
      "step": 6459
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.59162837266922,
      "learning_rate": 3.826185205661872e-05,
      "loss": 2.833,
      "step": 6460
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.5505021810531616,
      "learning_rate": 3.820675987169239e-05,
      "loss": 2.8078,
      "step": 6461
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.634049117565155,
      "learning_rate": 3.815170409647939e-05,
      "loss": 2.8943,
      "step": 6462
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.6002760529518127,
      "learning_rate": 3.8096684740444395e-05,
      "loss": 2.8972,
      "step": 6463
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.5983709096908569,
      "learning_rate": 3.804170181304587e-05,
      "loss": 2.9219,
      "step": 6464
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.6376137137413025,
      "learning_rate": 3.798675532373605e-05,
      "loss": 2.9195,
      "step": 6465
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.5961285829544067,
      "learning_rate": 3.7931845281960807e-05,
      "loss": 2.8511,
      "step": 6466
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.6038761138916016,
      "learning_rate": 3.787697169715984e-05,
      "loss": 3.0166,
      "step": 6467
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.6115031242370605,
      "learning_rate": 3.7822134578766654e-05,
      "loss": 2.8207,
      "step": 6468
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.6450868248939514,
      "learning_rate": 3.776733393620832e-05,
      "loss": 2.8189,
      "step": 6469
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.6182512044906616,
      "learning_rate": 3.771256977890569e-05,
      "loss": 2.8378,
      "step": 6470
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.6293094158172607,
      "learning_rate": 3.765784211627335e-05,
      "loss": 2.8658,
      "step": 6471
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.6111780405044556,
      "learning_rate": 3.760315095771966e-05,
      "loss": 2.8541,
      "step": 6472
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.5662930011749268,
      "learning_rate": 3.754849631264653e-05,
      "loss": 2.8983,
      "step": 6473
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.6111154556274414,
      "learning_rate": 3.749387819044994e-05,
      "loss": 3.0218,
      "step": 6474
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.5823794603347778,
      "learning_rate": 3.743929660051923e-05,
      "loss": 2.8525,
      "step": 6475
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.6487346291542053,
      "learning_rate": 3.738475155223761e-05,
      "loss": 2.8716,
      "step": 6476
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.5802479386329651,
      "learning_rate": 3.7330243054982116e-05,
      "loss": 2.9582,
      "step": 6477
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.5951517820358276,
      "learning_rate": 3.7275771118123305e-05,
      "loss": 2.8129,
      "step": 6478
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.6251822710037231,
      "learning_rate": 3.722133575102554e-05,
      "loss": 2.9057,
      "step": 6479
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.5811225771903992,
      "learning_rate": 3.7166936963046933e-05,
      "loss": 2.7972,
      "step": 6480
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.5622759461402893,
      "learning_rate": 3.711257476353916e-05,
      "loss": 2.9105,
      "step": 6481
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.6165366768836975,
      "learning_rate": 3.705824916184783e-05,
      "loss": 2.8718,
      "step": 6482
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.5806381702423096,
      "learning_rate": 3.700396016731214e-05,
      "loss": 2.7487,
      "step": 6483
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.6595315933227539,
      "learning_rate": 3.694970778926493e-05,
      "loss": 2.8707,
      "step": 6484
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.5851258039474487,
      "learning_rate": 3.6895492037032766e-05,
      "loss": 2.8057,
      "step": 6485
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.5912063121795654,
      "learning_rate": 3.684131291993614e-05,
      "loss": 2.9233,
      "step": 6486
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.5958673357963562,
      "learning_rate": 3.678717044728894e-05,
      "loss": 2.8801,
      "step": 6487
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.6154419183731079,
      "learning_rate": 3.6733064628398874e-05,
      "loss": 2.8063,
      "step": 6488
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.5959519743919373,
      "learning_rate": 3.667899547256745e-05,
      "loss": 2.9422,
      "step": 6489
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.651703417301178,
      "learning_rate": 3.6624962989089736e-05,
      "loss": 3.0794,
      "step": 6490
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.5782507658004761,
      "learning_rate": 3.657096718725456e-05,
      "loss": 2.8985,
      "step": 6491
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.6028313636779785,
      "learning_rate": 3.651700807634439e-05,
      "loss": 2.9668,
      "step": 6492
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.6263396143913269,
      "learning_rate": 3.646308566563541e-05,
      "loss": 2.8974,
      "step": 6493
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.6435405611991882,
      "learning_rate": 3.640919996439751e-05,
      "loss": 3.0089,
      "step": 6494
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.596113920211792,
      "learning_rate": 3.63553509818943e-05,
      "loss": 2.7486,
      "step": 6495
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.5938668847084045,
      "learning_rate": 3.6301538727383094e-05,
      "loss": 2.9706,
      "step": 6496
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.6633740663528442,
      "learning_rate": 3.624776321011478e-05,
      "loss": 2.8629,
      "step": 6497
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.6122718453407288,
      "learning_rate": 3.619402443933398e-05,
      "loss": 2.7885,
      "step": 6498
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.6187843680381775,
      "learning_rate": 3.614032242427903e-05,
      "loss": 2.9597,
      "step": 6499
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.5831249952316284,
      "learning_rate": 3.608665717418197e-05,
      "loss": 2.8598,
      "step": 6500
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.5542355179786682,
      "learning_rate": 3.603302869826841e-05,
      "loss": 2.893,
      "step": 6501
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.6360551714897156,
      "learning_rate": 3.5979437005757674e-05,
      "loss": 2.7833,
      "step": 6502
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.6115818619728088,
      "learning_rate": 3.592588210586287e-05,
      "loss": 2.8996,
      "step": 6503
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.6120206713676453,
      "learning_rate": 3.587236400779073e-05,
      "loss": 2.7964,
      "step": 6504
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.6641265749931335,
      "learning_rate": 3.58188827207416e-05,
      "loss": 2.8979,
      "step": 6505
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.6098945140838623,
      "learning_rate": 3.576543825390954e-05,
      "loss": 2.9326,
      "step": 6506
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.6705684661865234,
      "learning_rate": 3.571203061648226e-05,
      "loss": 2.9281,
      "step": 6507
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.5782559514045715,
      "learning_rate": 3.565865981764116e-05,
      "loss": 2.7812,
      "step": 6508
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.6048989295959473,
      "learning_rate": 3.560532586656126e-05,
      "loss": 2.9489,
      "step": 6509
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.6125874519348145,
      "learning_rate": 3.555202877241134e-05,
      "loss": 2.7998,
      "step": 6510
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.6303995847702026,
      "learning_rate": 3.54987685443538e-05,
      "loss": 2.9272,
      "step": 6511
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.6182762384414673,
      "learning_rate": 3.544554519154464e-05,
      "loss": 2.8796,
      "step": 6512
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.6010808348655701,
      "learning_rate": 3.539235872313354e-05,
      "loss": 2.952,
      "step": 6513
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.6351417303085327,
      "learning_rate": 3.533920914826397e-05,
      "loss": 2.8858,
      "step": 6514
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.6210250854492188,
      "learning_rate": 3.528609647607289e-05,
      "loss": 2.8349,
      "step": 6515
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.660297155380249,
      "learning_rate": 3.523302071569098e-05,
      "loss": 2.8143,
      "step": 6516
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.6084439158439636,
      "learning_rate": 3.5179981876242634e-05,
      "loss": 2.922,
      "step": 6517
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.6072345972061157,
      "learning_rate": 3.5126979966845826e-05,
      "loss": 2.9156,
      "step": 6518
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.6157341003417969,
      "learning_rate": 3.50740149966122e-05,
      "loss": 2.8887,
      "step": 6519
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.6267008781433105,
      "learning_rate": 3.502108697464701e-05,
      "loss": 2.8344,
      "step": 6520
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.590050995349884,
      "learning_rate": 3.496819591004921e-05,
      "loss": 2.8984,
      "step": 6521
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.5988780856132507,
      "learning_rate": 3.491534181191136e-05,
      "loss": 2.864,
      "step": 6522
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.6225196719169617,
      "learning_rate": 3.4862524689319776e-05,
      "loss": 2.9084,
      "step": 6523
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.6362006664276123,
      "learning_rate": 3.480974455135422e-05,
      "loss": 2.8378,
      "step": 6524
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.5906974077224731,
      "learning_rate": 3.4757001407088346e-05,
      "loss": 2.8284,
      "step": 6525
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.569987952709198,
      "learning_rate": 3.470429526558921e-05,
      "loss": 2.8648,
      "step": 6526
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.5732619166374207,
      "learning_rate": 3.465162613591769e-05,
      "loss": 2.9189,
      "step": 6527
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.5729525089263916,
      "learning_rate": 3.459899402712813e-05,
      "loss": 2.8375,
      "step": 6528
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.6245707273483276,
      "learning_rate": 3.4546398948268665e-05,
      "loss": 2.9098,
      "step": 6529
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.6236985921859741,
      "learning_rate": 3.4493840908380895e-05,
      "loss": 2.9042,
      "step": 6530
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.6059319376945496,
      "learning_rate": 3.444131991650024e-05,
      "loss": 2.817,
      "step": 6531
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.5901337265968323,
      "learning_rate": 3.4388835981655737e-05,
      "loss": 2.8519,
      "step": 6532
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.614462673664093,
      "learning_rate": 3.433638911286987e-05,
      "loss": 2.8713,
      "step": 6533
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.6084569692611694,
      "learning_rate": 3.428397931915894e-05,
      "loss": 2.8564,
      "step": 6534
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.6027233004570007,
      "learning_rate": 3.423160660953276e-05,
      "loss": 2.8155,
      "step": 6535
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.6474199295043945,
      "learning_rate": 3.417927099299478e-05,
      "loss": 2.8249,
      "step": 6536
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.6624813675880432,
      "learning_rate": 3.4126972478542076e-05,
      "loss": 2.9227,
      "step": 6537
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.657986044883728,
      "learning_rate": 3.407471107516549e-05,
      "loss": 2.8616,
      "step": 6538
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.6172589659690857,
      "learning_rate": 3.402248679184927e-05,
      "loss": 2.8059,
      "step": 6539
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.5972722768783569,
      "learning_rate": 3.397029963757134e-05,
      "loss": 2.9124,
      "step": 6540
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.5663143992424011,
      "learning_rate": 3.391814962130341e-05,
      "loss": 2.7882,
      "step": 6541
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.6048926711082458,
      "learning_rate": 3.3866036752010585e-05,
      "loss": 2.9208,
      "step": 6542
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.5579241514205933,
      "learning_rate": 3.381396103865167e-05,
      "loss": 2.7514,
      "step": 6543
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.6222407817840576,
      "learning_rate": 3.376192249017912e-05,
      "loss": 2.9799,
      "step": 6544
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.5860356688499451,
      "learning_rate": 3.370992111553886e-05,
      "loss": 2.8087,
      "step": 6545
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.6723719835281372,
      "learning_rate": 3.365795692367069e-05,
      "loss": 2.7049,
      "step": 6546
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.6307605504989624,
      "learning_rate": 3.360602992350775e-05,
      "loss": 2.9042,
      "step": 6547
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.6283950209617615,
      "learning_rate": 3.3554140123976954e-05,
      "loss": 2.9664,
      "step": 6548
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.583537220954895,
      "learning_rate": 3.35022875339987e-05,
      "loss": 2.8887,
      "step": 6549
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.5952200889587402,
      "learning_rate": 3.345047216248703e-05,
      "loss": 2.8405,
      "step": 6550
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.6235155463218689,
      "learning_rate": 3.3398694018349715e-05,
      "loss": 2.8701,
      "step": 6551
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.5839401483535767,
      "learning_rate": 3.334695311048788e-05,
      "loss": 2.9531,
      "step": 6552
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.6440212726593018,
      "learning_rate": 3.329524944779655e-05,
      "loss": 2.9233,
      "step": 6553
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.5944395065307617,
      "learning_rate": 3.3243583039164054e-05,
      "loss": 2.9395,
      "step": 6554
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.5841595530509949,
      "learning_rate": 3.319195389347251e-05,
      "loss": 2.8877,
      "step": 6555
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.6393378376960754,
      "learning_rate": 3.314036201959755e-05,
      "loss": 2.9234,
      "step": 6556
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.5897426605224609,
      "learning_rate": 3.3088807426408434e-05,
      "loss": 2.7921,
      "step": 6557
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.598871111869812,
      "learning_rate": 3.3037290122767873e-05,
      "loss": 2.8782,
      "step": 6558
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.6050645112991333,
      "learning_rate": 3.298581011753246e-05,
      "loss": 2.9721,
      "step": 6559
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.632867157459259,
      "learning_rate": 3.293436741955208e-05,
      "loss": 2.8818,
      "step": 6560
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.6058638691902161,
      "learning_rate": 3.288296203767044e-05,
      "loss": 2.9057,
      "step": 6561
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.6061277389526367,
      "learning_rate": 3.2831593980724664e-05,
      "loss": 3.0724,
      "step": 6562
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.6222352981567383,
      "learning_rate": 3.278026325754552e-05,
      "loss": 2.8458,
      "step": 6563
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.629996120929718,
      "learning_rate": 3.272896987695734e-05,
      "loss": 2.9956,
      "step": 6564
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.6188691258430481,
      "learning_rate": 3.267771384777804e-05,
      "loss": 3.0177,
      "step": 6565
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.5870665907859802,
      "learning_rate": 3.2626495178819134e-05,
      "loss": 2.765,
      "step": 6566
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.6523452997207642,
      "learning_rate": 3.257531387888574e-05,
      "loss": 2.995,
      "step": 6567
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.6018666625022888,
      "learning_rate": 3.252416995677646e-05,
      "loss": 2.8623,
      "step": 6568
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.5487847924232483,
      "learning_rate": 3.247306342128359e-05,
      "loss": 2.8076,
      "step": 6569
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.581628680229187,
      "learning_rate": 3.2421994281192915e-05,
      "loss": 2.972,
      "step": 6570
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.5941046476364136,
      "learning_rate": 3.23709625452838e-05,
      "loss": 2.7972,
      "step": 6571
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.6098673343658447,
      "learning_rate": 3.2319968222329216e-05,
      "loss": 2.7939,
      "step": 6572
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.6347067952156067,
      "learning_rate": 3.226901132109558e-05,
      "loss": 2.8843,
      "step": 6573
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.629441499710083,
      "learning_rate": 3.221809185034311e-05,
      "loss": 2.9132,
      "step": 6574
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.6133546829223633,
      "learning_rate": 3.21672098188254e-05,
      "loss": 2.8673,
      "step": 6575
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.6335952877998352,
      "learning_rate": 3.211636523528966e-05,
      "loss": 2.7745,
      "step": 6576
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.5931317210197449,
      "learning_rate": 3.2065558108476615e-05,
      "loss": 2.9713,
      "step": 6577
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.6276363730430603,
      "learning_rate": 3.201478844712069e-05,
      "loss": 2.8874,
      "step": 6578
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.6139026284217834,
      "learning_rate": 3.196405625994972e-05,
      "loss": 2.8491,
      "step": 6579
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.5866451859474182,
      "learning_rate": 3.1913361555685196e-05,
      "loss": 2.8146,
      "step": 6580
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.6536974310874939,
      "learning_rate": 3.1862704343042e-05,
      "loss": 2.8984,
      "step": 6581
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.5695573687553406,
      "learning_rate": 3.181208463072888e-05,
      "loss": 2.953,
      "step": 6582
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.6561467051506042,
      "learning_rate": 3.1761502427447855e-05,
      "loss": 2.9651,
      "step": 6583
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.6317082643508911,
      "learning_rate": 3.1710957741894614e-05,
      "loss": 2.8221,
      "step": 6584
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.5909701585769653,
      "learning_rate": 3.166045058275835e-05,
      "loss": 2.858,
      "step": 6585
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.5992786884307861,
      "learning_rate": 3.160998095872183e-05,
      "loss": 2.9154,
      "step": 6586
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.6190424561500549,
      "learning_rate": 3.1559548878461325e-05,
      "loss": 2.7158,
      "step": 6587
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.5991330146789551,
      "learning_rate": 3.1509154350646745e-05,
      "loss": 2.904,
      "step": 6588
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.6696912050247192,
      "learning_rate": 3.145879738394156e-05,
      "loss": 2.9134,
      "step": 6589
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.5976508855819702,
      "learning_rate": 3.140847798700267e-05,
      "loss": 2.7205,
      "step": 6590
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.6059588193893433,
      "learning_rate": 3.1358196168480515e-05,
      "loss": 2.9133,
      "step": 6591
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.6414749622344971,
      "learning_rate": 3.130795193701916e-05,
      "loss": 2.8372,
      "step": 6592
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.5886614322662354,
      "learning_rate": 3.1257745301256165e-05,
      "loss": 2.9065,
      "step": 6593
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.6078683733940125,
      "learning_rate": 3.1207576269822566e-05,
      "loss": 2.8757,
      "step": 6594
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.614561140537262,
      "learning_rate": 3.115744485134314e-05,
      "loss": 2.7654,
      "step": 6595
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.5888040065765381,
      "learning_rate": 3.1107351054435906e-05,
      "loss": 2.9837,
      "step": 6596
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.599628210067749,
      "learning_rate": 3.105729488771272e-05,
      "loss": 3.0376,
      "step": 6597
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.6081861853599548,
      "learning_rate": 3.100727635977873e-05,
      "loss": 3.0189,
      "step": 6598
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.6073444485664368,
      "learning_rate": 3.095729547923273e-05,
      "loss": 2.8402,
      "step": 6599
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.6107819080352783,
      "learning_rate": 3.0907352254666985e-05,
      "loss": 2.9392,
      "step": 6600
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.6068793535232544,
      "learning_rate": 3.085744669466733e-05,
      "loss": 2.7732,
      "step": 6601
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.6156474351882935,
      "learning_rate": 3.080757880781307e-05,
      "loss": 2.9996,
      "step": 6602
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.5458620190620422,
      "learning_rate": 3.075774860267716e-05,
      "loss": 2.8673,
      "step": 6603
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.644859254360199,
      "learning_rate": 3.0707956087825923e-05,
      "loss": 2.8757,
      "step": 6604
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.6091293096542358,
      "learning_rate": 3.065820127181923e-05,
      "loss": 2.8424,
      "step": 6605
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.6744683384895325,
      "learning_rate": 3.060848416321063e-05,
      "loss": 2.9346,
      "step": 6606
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.6507529020309448,
      "learning_rate": 3.055880477054701e-05,
      "loss": 2.8566,
      "step": 6607
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.641799807548523,
      "learning_rate": 3.0509163102368815e-05,
      "loss": 3.0009,
      "step": 6608
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.6303996443748474,
      "learning_rate": 3.0459559167209993e-05,
      "loss": 3.0009,
      "step": 6609
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.5829835534095764,
      "learning_rate": 3.0409992973598145e-05,
      "loss": 2.8297,
      "step": 6610
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.62327641248703,
      "learning_rate": 3.03604645300542e-05,
      "loss": 2.9028,
      "step": 6611
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.5939833521842957,
      "learning_rate": 3.031097384509271e-05,
      "loss": 3.0181,
      "step": 6612
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.6439440846443176,
      "learning_rate": 3.0261520927221647e-05,
      "loss": 2.9566,
      "step": 6613
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.6032091975212097,
      "learning_rate": 3.021210578494249e-05,
      "loss": 2.9076,
      "step": 6614
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.6238938570022583,
      "learning_rate": 3.016272842675044e-05,
      "loss": 2.8844,
      "step": 6615
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.641586184501648,
      "learning_rate": 3.0113388861133907e-05,
      "loss": 2.9714,
      "step": 6616
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.6311158537864685,
      "learning_rate": 3.006408709657496e-05,
      "loss": 2.758,
      "step": 6617
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.6218175888061523,
      "learning_rate": 3.0014823141549186e-05,
      "loss": 2.8039,
      "step": 6618
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.718245267868042,
      "learning_rate": 2.9965597004525614e-05,
      "loss": 2.8642,
      "step": 6619
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.609612226486206,
      "learning_rate": 2.991640869396675e-05,
      "loss": 2.9174,
      "step": 6620
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.5863890647888184,
      "learning_rate": 2.9867258218328668e-05,
      "loss": 2.8656,
      "step": 6621
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.581062912940979,
      "learning_rate": 2.9818145586060912e-05,
      "loss": 2.9437,
      "step": 6622
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.5833013653755188,
      "learning_rate": 2.976907080560645e-05,
      "loss": 2.7032,
      "step": 6623
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.5880540609359741,
      "learning_rate": 2.9720033885401816e-05,
      "loss": 2.8652,
      "step": 6624
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.6521228551864624,
      "learning_rate": 2.9671034833877147e-05,
      "loss": 2.7851,
      "step": 6625
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.5777705907821655,
      "learning_rate": 2.962207365945585e-05,
      "loss": 2.9115,
      "step": 6626
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.643184244632721,
      "learning_rate": 2.9573150370554942e-05,
      "loss": 2.8408,
      "step": 6627
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.6413376927375793,
      "learning_rate": 2.9524264975584887e-05,
      "loss": 2.8452,
      "step": 6628
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.603073239326477,
      "learning_rate": 2.9475417482949657e-05,
      "loss": 2.9009,
      "step": 6629
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.6413037776947021,
      "learning_rate": 2.9426607901046622e-05,
      "loss": 3.0074,
      "step": 6630
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.590211808681488,
      "learning_rate": 2.937783623826687e-05,
      "loss": 2.7866,
      "step": 6631
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.6309384107589722,
      "learning_rate": 2.9329102502994753e-05,
      "loss": 2.9521,
      "step": 6632
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.6059582829475403,
      "learning_rate": 2.92804067036081e-05,
      "loss": 2.9804,
      "step": 6633
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.5922420620918274,
      "learning_rate": 2.9231748848478373e-05,
      "loss": 2.8025,
      "step": 6634
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.591201901435852,
      "learning_rate": 2.918312894597039e-05,
      "loss": 2.8488,
      "step": 6635
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.6354460120201111,
      "learning_rate": 2.9134547004442456e-05,
      "loss": 2.8988,
      "step": 6636
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.6168637275695801,
      "learning_rate": 2.90860030322464e-05,
      "loss": 2.9466,
      "step": 6637
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.5942743420600891,
      "learning_rate": 2.903749703772743e-05,
      "loss": 2.8646,
      "step": 6638
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.6034753322601318,
      "learning_rate": 2.8989029029224374e-05,
      "loss": 2.9665,
      "step": 6639
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.627217173576355,
      "learning_rate": 2.8940599015069403e-05,
      "loss": 2.8129,
      "step": 6640
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.6493772268295288,
      "learning_rate": 2.8892207003588218e-05,
      "loss": 2.7631,
      "step": 6641
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.626541793346405,
      "learning_rate": 2.8843853003099885e-05,
      "loss": 2.9664,
      "step": 6642
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.5967797040939331,
      "learning_rate": 2.8795537021917144e-05,
      "loss": 2.8414,
      "step": 6643
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.5630081295967102,
      "learning_rate": 2.874725906834602e-05,
      "loss": 2.8683,
      "step": 6644
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.6322318315505981,
      "learning_rate": 2.8699019150685958e-05,
      "loss": 2.8313,
      "step": 6645
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.5883893966674805,
      "learning_rate": 2.8650817277230123e-05,
      "loss": 2.8805,
      "step": 6646
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.5754980444908142,
      "learning_rate": 2.8602653456264893e-05,
      "loss": 2.8248,
      "step": 6647
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.5578055381774902,
      "learning_rate": 2.85545276960702e-05,
      "loss": 2.8763,
      "step": 6648
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.6165797710418701,
      "learning_rate": 2.850644000491942e-05,
      "loss": 2.8722,
      "step": 6649
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.6623309254646301,
      "learning_rate": 2.8458390391079365e-05,
      "loss": 2.9231,
      "step": 6650
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.5809727907180786,
      "learning_rate": 2.8410378862810255e-05,
      "loss": 2.8579,
      "step": 6651
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.699401319026947,
      "learning_rate": 2.836240542836599e-05,
      "loss": 2.9854,
      "step": 6652
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.5903270840644836,
      "learning_rate": 2.831447009599361e-05,
      "loss": 2.7729,
      "step": 6653
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.6402884721755981,
      "learning_rate": 2.826657287393389e-05,
      "loss": 2.8718,
      "step": 6654
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.5981160402297974,
      "learning_rate": 2.8218713770420816e-05,
      "loss": 2.9565,
      "step": 6655
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.6059872508049011,
      "learning_rate": 2.8170892793681984e-05,
      "loss": 2.8767,
      "step": 6656
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.6203160285949707,
      "learning_rate": 2.812310995193834e-05,
      "loss": 2.8832,
      "step": 6657
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.6298789381980896,
      "learning_rate": 2.807536525340429e-05,
      "loss": 2.8454,
      "step": 6658
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.657307505607605,
      "learning_rate": 2.8027658706287677e-05,
      "loss": 2.9618,
      "step": 6659
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.6176254153251648,
      "learning_rate": 2.7979990318789922e-05,
      "loss": 2.7402,
      "step": 6660
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.6011577248573303,
      "learning_rate": 2.7932360099105658e-05,
      "loss": 2.9269,
      "step": 6661
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.6186882257461548,
      "learning_rate": 2.7884768055423172e-05,
      "loss": 2.925,
      "step": 6662
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.6517519354820251,
      "learning_rate": 2.7837214195924027e-05,
      "loss": 2.8276,
      "step": 6663
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.5971798300743103,
      "learning_rate": 2.7789698528783323e-05,
      "loss": 2.8221,
      "step": 6664
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.6054587364196777,
      "learning_rate": 2.7742221062169505e-05,
      "loss": 2.9446,
      "step": 6665
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.6320469975471497,
      "learning_rate": 2.769478180424445e-05,
      "loss": 2.9161,
      "step": 6666
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.610161304473877,
      "learning_rate": 2.7647380763163673e-05,
      "loss": 2.8945,
      "step": 6667
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.6158453226089478,
      "learning_rate": 2.760001794707584e-05,
      "loss": 2.7277,
      "step": 6668
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.6146360635757446,
      "learning_rate": 2.755269336412322e-05,
      "loss": 2.8194,
      "step": 6669
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.6327093839645386,
      "learning_rate": 2.750540702244139e-05,
      "loss": 2.839,
      "step": 6670
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.6299848556518555,
      "learning_rate": 2.7458158930159516e-05,
      "loss": 2.8258,
      "step": 6671
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.6332393288612366,
      "learning_rate": 2.7410949095400067e-05,
      "loss": 2.7593,
      "step": 6672
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.5933388471603394,
      "learning_rate": 2.7363777526278915e-05,
      "loss": 2.8973,
      "step": 6673
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.6449874043464661,
      "learning_rate": 2.731664423090541e-05,
      "loss": 2.9097,
      "step": 6674
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.6188400387763977,
      "learning_rate": 2.726954921738234e-05,
      "loss": 2.9546,
      "step": 6675
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.594290018081665,
      "learning_rate": 2.72224924938059e-05,
      "loss": 2.9026,
      "step": 6676
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.6058158278465271,
      "learning_rate": 2.7175474068265648e-05,
      "loss": 2.9036,
      "step": 6677
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.6453074216842651,
      "learning_rate": 2.7128493948844617e-05,
      "loss": 3.0605,
      "step": 6678
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.6250460743904114,
      "learning_rate": 2.708155214361918e-05,
      "loss": 2.7211,
      "step": 6679
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.6221566200256348,
      "learning_rate": 2.7034648660659246e-05,
      "loss": 2.9256,
      "step": 6680
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.6072980165481567,
      "learning_rate": 2.6987783508028023e-05,
      "loss": 2.7984,
      "step": 6681
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.629131555557251,
      "learning_rate": 2.6940956693782215e-05,
      "loss": 2.9211,
      "step": 6682
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.5871872901916504,
      "learning_rate": 2.6894168225971876e-05,
      "loss": 2.873,
      "step": 6683
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.6596479415893555,
      "learning_rate": 2.684741811264052e-05,
      "loss": 2.8035,
      "step": 6684
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.6222800016403198,
      "learning_rate": 2.6800706361824966e-05,
      "loss": 2.8423,
      "step": 6685
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.5842102766036987,
      "learning_rate": 2.6754032981555544e-05,
      "loss": 2.8349,
      "step": 6686
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.5819941759109497,
      "learning_rate": 2.6707397979855885e-05,
      "loss": 2.8582,
      "step": 6687
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.6014747619628906,
      "learning_rate": 2.6660801364743138e-05,
      "loss": 3.0025,
      "step": 6688
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.6599229574203491,
      "learning_rate": 2.661424314422789e-05,
      "loss": 2.8147,
      "step": 6689
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.5727285146713257,
      "learning_rate": 2.656772332631391e-05,
      "loss": 2.989,
      "step": 6690
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.6196841597557068,
      "learning_rate": 2.6521241918998572e-05,
      "loss": 2.8074,
      "step": 6691
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.6339064240455627,
      "learning_rate": 2.647479893027252e-05,
      "loss": 2.8191,
      "step": 6692
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.5862623453140259,
      "learning_rate": 2.642839436811986e-05,
      "loss": 2.7574,
      "step": 6693
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.6005656123161316,
      "learning_rate": 2.638202824051808e-05,
      "loss": 3.0143,
      "step": 6694
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.6310577988624573,
      "learning_rate": 2.633570055543802e-05,
      "loss": 2.8966,
      "step": 6695
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.6398541927337646,
      "learning_rate": 2.6289411320843974e-05,
      "loss": 2.8768,
      "step": 6696
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.6056934595108032,
      "learning_rate": 2.624316054469364e-05,
      "loss": 2.8278,
      "step": 6697
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.605485737323761,
      "learning_rate": 2.6196948234937955e-05,
      "loss": 2.8917,
      "step": 6698
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.6052162647247314,
      "learning_rate": 2.615077439952146e-05,
      "loss": 2.8461,
      "step": 6699
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.637261152267456,
      "learning_rate": 2.6104639046381912e-05,
      "loss": 2.8837,
      "step": 6700
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.6326543092727661,
      "learning_rate": 2.605854218345055e-05,
      "loss": 2.8498,
      "step": 6701
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.6282380819320679,
      "learning_rate": 2.60124838186519e-05,
      "loss": 2.8335,
      "step": 6702
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.6164196133613586,
      "learning_rate": 2.5966463959904013e-05,
      "loss": 2.9666,
      "step": 6703
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.6472359895706177,
      "learning_rate": 2.5920482615118173e-05,
      "loss": 2.928,
      "step": 6704
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.6154838800430298,
      "learning_rate": 2.5874539792199142e-05,
      "loss": 2.937,
      "step": 6705
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.60123211145401,
      "learning_rate": 2.582863549904499e-05,
      "loss": 2.7845,
      "step": 6706
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.6064770221710205,
      "learning_rate": 2.578276974354718e-05,
      "loss": 2.7933,
      "step": 6707
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.6007174849510193,
      "learning_rate": 2.573694253359063e-05,
      "loss": 2.7257,
      "step": 6708
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.6272594332695007,
      "learning_rate": 2.5691153877053564e-05,
      "loss": 2.8846,
      "step": 6709
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.6008425951004028,
      "learning_rate": 2.5645403781807492e-05,
      "loss": 2.9248,
      "step": 6710
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.6470746397972107,
      "learning_rate": 2.5599692255717512e-05,
      "loss": 2.8031,
      "step": 6711
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.6167011857032776,
      "learning_rate": 2.555401930664189e-05,
      "loss": 2.951,
      "step": 6712
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.5823095440864563,
      "learning_rate": 2.550838494243235e-05,
      "loss": 2.934,
      "step": 6713
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.6443906426429749,
      "learning_rate": 2.5462789170933976e-05,
      "loss": 2.7996,
      "step": 6714
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.6523038148880005,
      "learning_rate": 2.541723199998522e-05,
      "loss": 3.0413,
      "step": 6715
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.6094244122505188,
      "learning_rate": 2.5371713437417787e-05,
      "loss": 2.7624,
      "step": 6716
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.6507957577705383,
      "learning_rate": 2.5326233491056948e-05,
      "loss": 2.9112,
      "step": 6717
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.6320531368255615,
      "learning_rate": 2.5280792168721257e-05,
      "loss": 2.88,
      "step": 6718
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.6329361796379089,
      "learning_rate": 2.523538947822257e-05,
      "loss": 3.0103,
      "step": 6719
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.6703271865844727,
      "learning_rate": 2.519002542736612e-05,
      "loss": 2.7737,
      "step": 6720
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.6083654761314392,
      "learning_rate": 2.5144700023950527e-05,
      "loss": 2.8347,
      "step": 6721
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.607578456401825,
      "learning_rate": 2.509941327576773e-05,
      "loss": 2.8899,
      "step": 6722
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.6210556626319885,
      "learning_rate": 2.5054165190603022e-05,
      "loss": 2.7899,
      "step": 6723
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.5712509155273438,
      "learning_rate": 2.500895577623516e-05,
      "loss": 2.7777,
      "step": 6724
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.5945262312889099,
      "learning_rate": 2.4963785040436088e-05,
      "loss": 3.0493,
      "step": 6725
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.6033172607421875,
      "learning_rate": 2.4918652990971236e-05,
      "loss": 2.8156,
      "step": 6726
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.5799077749252319,
      "learning_rate": 2.4873559635599313e-05,
      "loss": 2.8375,
      "step": 6727
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.6297284364700317,
      "learning_rate": 2.4828504982072397e-05,
      "loss": 2.8492,
      "step": 6728
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.5968524217605591,
      "learning_rate": 2.4783489038135847e-05,
      "loss": 2.921,
      "step": 6729
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.5668222904205322,
      "learning_rate": 2.47385118115285e-05,
      "loss": 2.898,
      "step": 6730
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.6215090751647949,
      "learning_rate": 2.4693573309982342e-05,
      "loss": 2.9798,
      "step": 6731
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.6344895362854004,
      "learning_rate": 2.4648673541222994e-05,
      "loss": 2.9647,
      "step": 6732
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.6480873823165894,
      "learning_rate": 2.4603812512969142e-05,
      "loss": 2.9408,
      "step": 6733
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.6279791593551636,
      "learning_rate": 2.4558990232932955e-05,
      "loss": 2.9003,
      "step": 6734
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.5890988111495972,
      "learning_rate": 2.451420670881982e-05,
      "loss": 2.9207,
      "step": 6735
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.5610169172286987,
      "learning_rate": 2.4469461948328635e-05,
      "loss": 2.8043,
      "step": 6736
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.6351892948150635,
      "learning_rate": 2.4424755959151558e-05,
      "loss": 2.8631,
      "step": 6737
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.6211206912994385,
      "learning_rate": 2.4380088748973933e-05,
      "loss": 2.8479,
      "step": 6738
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.6014573574066162,
      "learning_rate": 2.4335460325474736e-05,
      "loss": 2.8928,
      "step": 6739
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.5913691520690918,
      "learning_rate": 2.4290870696326046e-05,
      "loss": 3.0247,
      "step": 6740
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.6186211705207825,
      "learning_rate": 2.424631986919332e-05,
      "loss": 3.0911,
      "step": 6741
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.6638690829277039,
      "learning_rate": 2.420180785173534e-05,
      "loss": 2.9535,
      "step": 6742
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.6299459934234619,
      "learning_rate": 2.4157334651604302e-05,
      "loss": 2.8473,
      "step": 6743
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.6145114898681641,
      "learning_rate": 2.411290027644558e-05,
      "loss": 2.8412,
      "step": 6744
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.5726317763328552,
      "learning_rate": 2.4068504733897988e-05,
      "loss": 2.8122,
      "step": 6745
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.6332108974456787,
      "learning_rate": 2.4024148031593723e-05,
      "loss": 2.8318,
      "step": 6746
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.591896116733551,
      "learning_rate": 2.397983017715813e-05,
      "loss": 2.8518,
      "step": 6747
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.5916961431503296,
      "learning_rate": 2.3935551178210004e-05,
      "loss": 2.7955,
      "step": 6748
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.5817351937294006,
      "learning_rate": 2.3891311042361364e-05,
      "loss": 2.8403,
      "step": 6749
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.5819144248962402,
      "learning_rate": 2.3847109777217658e-05,
      "loss": 2.9352,
      "step": 6750
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.5724178552627563,
      "learning_rate": 2.3802947390377554e-05,
      "loss": 2.7359,
      "step": 6751
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.592857837677002,
      "learning_rate": 2.375882388943307e-05,
      "loss": 2.8422,
      "step": 6752
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.5755016207695007,
      "learning_rate": 2.3714739281969545e-05,
      "loss": 2.9251,
      "step": 6753
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.6350381374359131,
      "learning_rate": 2.3670693575565726e-05,
      "loss": 2.8936,
      "step": 6754
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.6197687387466431,
      "learning_rate": 2.3626686777793503e-05,
      "loss": 2.8045,
      "step": 6755
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.6612133383750916,
      "learning_rate": 2.3582718896218185e-05,
      "loss": 2.8993,
      "step": 6756
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.6106334924697876,
      "learning_rate": 2.3538789938398335e-05,
      "loss": 3.0529,
      "step": 6757
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.5792273283004761,
      "learning_rate": 2.3494899911885857e-05,
      "loss": 2.8489,
      "step": 6758
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.6010299324989319,
      "learning_rate": 2.3451048824225912e-05,
      "loss": 2.8796,
      "step": 6759
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.6288058757781982,
      "learning_rate": 2.3407236682957106e-05,
      "loss": 2.8591,
      "step": 6760
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.5627925992012024,
      "learning_rate": 2.336346349561119e-05,
      "loss": 2.7769,
      "step": 6761
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.6092016696929932,
      "learning_rate": 2.3319729269713263e-05,
      "loss": 2.7582,
      "step": 6762
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.6506273150444031,
      "learning_rate": 2.3276034012781803e-05,
      "loss": 2.812,
      "step": 6763
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.6168651580810547,
      "learning_rate": 2.323237773232853e-05,
      "loss": 2.8953,
      "step": 6764
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.5886247754096985,
      "learning_rate": 2.3188760435858436e-05,
      "loss": 3.0284,
      "step": 6765
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.6209392547607422,
      "learning_rate": 2.3145182130869772e-05,
      "loss": 2.9829,
      "step": 6766
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.6092126369476318,
      "learning_rate": 2.3101642824854302e-05,
      "loss": 2.9529,
      "step": 6767
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.5656036138534546,
      "learning_rate": 2.3058142525296864e-05,
      "loss": 2.7932,
      "step": 6768
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.5961635708808899,
      "learning_rate": 2.301468123967565e-05,
      "loss": 2.9006,
      "step": 6769
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.5684672594070435,
      "learning_rate": 2.297125897546215e-05,
      "loss": 2.833,
      "step": 6770
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.6112043857574463,
      "learning_rate": 2.29278757401212e-05,
      "loss": 2.8034,
      "step": 6771
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.6064686179161072,
      "learning_rate": 2.288453154111081e-05,
      "loss": 2.8999,
      "step": 6772
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.6146308779716492,
      "learning_rate": 2.284122638588243e-05,
      "loss": 3.0627,
      "step": 6773
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.5868263840675354,
      "learning_rate": 2.2797960281880664e-05,
      "loss": 2.9154,
      "step": 6774
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.619149923324585,
      "learning_rate": 2.2754733236543506e-05,
      "loss": 2.891,
      "step": 6775
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.6001777648925781,
      "learning_rate": 2.2711545257302152e-05,
      "loss": 2.7803,
      "step": 6776
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.6280390024185181,
      "learning_rate": 2.2668396351581134e-05,
      "loss": 2.9491,
      "step": 6777
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.5960100889205933,
      "learning_rate": 2.262528652679824e-05,
      "loss": 2.8895,
      "step": 6778
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.5908474326133728,
      "learning_rate": 2.2582215790364542e-05,
      "loss": 3.0805,
      "step": 6779
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.5997489094734192,
      "learning_rate": 2.2539184149684338e-05,
      "loss": 2.8507,
      "step": 6780
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.600884735584259,
      "learning_rate": 2.2496191612155355e-05,
      "loss": 2.9019,
      "step": 6781
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.6125240921974182,
      "learning_rate": 2.2453238185168505e-05,
      "loss": 2.9699,
      "step": 6782
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.6066189408302307,
      "learning_rate": 2.2410323876107974e-05,
      "loss": 2.8973,
      "step": 6783
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.5293740034103394,
      "learning_rate": 2.2367448692351216e-05,
      "loss": 2.8155,
      "step": 6784
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.6371981501579285,
      "learning_rate": 2.2324612641268975e-05,
      "loss": 2.8475,
      "step": 6785
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.6234071254730225,
      "learning_rate": 2.2281815730225252e-05,
      "loss": 2.9615,
      "step": 6786
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.6023865342140198,
      "learning_rate": 2.2239057966577297e-05,
      "loss": 2.7941,
      "step": 6787
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.6090784072875977,
      "learning_rate": 2.219633935767576e-05,
      "loss": 2.9215,
      "step": 6788
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.5813288688659668,
      "learning_rate": 2.215365991086443e-05,
      "loss": 2.8123,
      "step": 6789
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.6284481287002563,
      "learning_rate": 2.2111019633480306e-05,
      "loss": 2.9431,
      "step": 6790
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.6114689707756042,
      "learning_rate": 2.2068418532853878e-05,
      "loss": 2.852,
      "step": 6791
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.6381521821022034,
      "learning_rate": 2.202585661630871e-05,
      "loss": 2.7572,
      "step": 6792
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.6266226172447205,
      "learning_rate": 2.198333389116172e-05,
      "loss": 2.8934,
      "step": 6793
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.6382235884666443,
      "learning_rate": 2.1940850364723014e-05,
      "loss": 2.8644,
      "step": 6794
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.6205055713653564,
      "learning_rate": 2.1898406044295964e-05,
      "loss": 2.8019,
      "step": 6795
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.583761990070343,
      "learning_rate": 2.185600093717735e-05,
      "loss": 2.9375,
      "step": 6796
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.6430565714836121,
      "learning_rate": 2.1813635050657032e-05,
      "loss": 2.7973,
      "step": 6797
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.6430116295814514,
      "learning_rate": 2.1771308392018213e-05,
      "loss": 2.896,
      "step": 6798
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.6379782557487488,
      "learning_rate": 2.1729020968537296e-05,
      "loss": 2.8636,
      "step": 6799
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.5703231692314148,
      "learning_rate": 2.1686772787484072e-05,
      "loss": 2.8476,
      "step": 6800
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.5901771187782288,
      "learning_rate": 2.164456385612143e-05,
      "loss": 2.8131,
      "step": 6801
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.6496500372886658,
      "learning_rate": 2.1602394181705564e-05,
      "loss": 2.9034,
      "step": 6802
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.6162808537483215,
      "learning_rate": 2.1560263771485983e-05,
      "loss": 2.936,
      "step": 6803
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.6531760096549988,
      "learning_rate": 2.1518172632705334e-05,
      "loss": 2.9255,
      "step": 6804
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.5956884622573853,
      "learning_rate": 2.1476120772599613e-05,
      "loss": 2.8742,
      "step": 6805
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.6733749508857727,
      "learning_rate": 2.1434108198398027e-05,
      "loss": 2.906,
      "step": 6806
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.6268380284309387,
      "learning_rate": 2.1392134917322975e-05,
      "loss": 2.8051,
      "step": 6807
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.6106151938438416,
      "learning_rate": 2.1350200936590152e-05,
      "loss": 2.8538,
      "step": 6808
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.5804644823074341,
      "learning_rate": 2.130830626340857e-05,
      "loss": 2.8795,
      "step": 6809
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.5985588431358337,
      "learning_rate": 2.1266450904980335e-05,
      "loss": 2.8723,
      "step": 6810
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.5714897513389587,
      "learning_rate": 2.1224634868500902e-05,
      "loss": 2.9258,
      "step": 6811
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.6598519682884216,
      "learning_rate": 2.1182858161158947e-05,
      "loss": 2.945,
      "step": 6812
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.5917298197746277,
      "learning_rate": 2.114112079013636e-05,
      "loss": 2.9272,
      "step": 6813
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.6124751567840576,
      "learning_rate": 2.1099422762608262e-05,
      "loss": 2.8795,
      "step": 6814
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.6440128684043884,
      "learning_rate": 2.105776408574303e-05,
      "loss": 2.826,
      "step": 6815
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.6362738609313965,
      "learning_rate": 2.1016144766702217e-05,
      "loss": 2.8613,
      "step": 6816
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.6200204491615295,
      "learning_rate": 2.097456481264079e-05,
      "loss": 2.8386,
      "step": 6817
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.5935410857200623,
      "learning_rate": 2.0933024230706726e-05,
      "loss": 2.8685,
      "step": 6818
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.6169606447219849,
      "learning_rate": 2.08915230280414e-05,
      "loss": 2.9438,
      "step": 6819
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.615898072719574,
      "learning_rate": 2.085006121177932e-05,
      "loss": 2.8589,
      "step": 6820
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.6334500312805176,
      "learning_rate": 2.0808638789048263e-05,
      "loss": 2.7771,
      "step": 6821
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.6545356512069702,
      "learning_rate": 2.0767255766969195e-05,
      "loss": 2.9577,
      "step": 6822
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.598917543888092,
      "learning_rate": 2.0725912152656317e-05,
      "loss": 2.8192,
      "step": 6823
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.6164675354957581,
      "learning_rate": 2.0684607953217164e-05,
      "loss": 3.004,
      "step": 6824
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.6421658992767334,
      "learning_rate": 2.0643343175752367e-05,
      "loss": 2.8751,
      "step": 6825
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.6207795143127441,
      "learning_rate": 2.060211782735577e-05,
      "loss": 2.9583,
      "step": 6826
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.5887994766235352,
      "learning_rate": 2.0560931915114518e-05,
      "loss": 3.0477,
      "step": 6827
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.8072013258934021,
      "learning_rate": 2.0519785446108996e-05,
      "loss": 2.9447,
      "step": 6828
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.6208563446998596,
      "learning_rate": 2.0478678427412718e-05,
      "loss": 2.9632,
      "step": 6829
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.6546832919120789,
      "learning_rate": 2.0437610866092442e-05,
      "loss": 2.9171,
      "step": 6830
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.6303561329841614,
      "learning_rate": 2.0396582769208137e-05,
      "loss": 2.8947,
      "step": 6831
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.6042535901069641,
      "learning_rate": 2.0355594143813078e-05,
      "loss": 2.7975,
      "step": 6832
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.6172791719436646,
      "learning_rate": 2.031464499695368e-05,
      "loss": 2.8179,
      "step": 6833
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.6057801842689514,
      "learning_rate": 2.0273735335669536e-05,
      "loss": 2.9347,
      "step": 6834
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.6301005482673645,
      "learning_rate": 2.0232865166993492e-05,
      "loss": 2.828,
      "step": 6835
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.545813262462616,
      "learning_rate": 2.0192034497951566e-05,
      "loss": 2.8558,
      "step": 6836
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.613618016242981,
      "learning_rate": 2.0151243335563146e-05,
      "loss": 2.8855,
      "step": 6837
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.6163411140441895,
      "learning_rate": 2.0110491686840564e-05,
      "loss": 2.9722,
      "step": 6838
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.6375294327735901,
      "learning_rate": 2.006977955878961e-05,
      "loss": 2.8067,
      "step": 6839
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.6204277276992798,
      "learning_rate": 2.0029106958409148e-05,
      "loss": 2.8118,
      "step": 6840
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.6351505517959595,
      "learning_rate": 1.9988473892691235e-05,
      "loss": 2.8973,
      "step": 6841
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.6312253475189209,
      "learning_rate": 1.994788036862119e-05,
      "loss": 2.8636,
      "step": 6842
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.597537100315094,
      "learning_rate": 1.990732639317752e-05,
      "loss": 2.9051,
      "step": 6843
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.6456419229507446,
      "learning_rate": 1.9866811973331846e-05,
      "loss": 2.9657,
      "step": 6844
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.5787249207496643,
      "learning_rate": 1.982633711604917e-05,
      "loss": 3.0098,
      "step": 6845
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.6088311672210693,
      "learning_rate": 1.978590182828749e-05,
      "loss": 2.9844,
      "step": 6846
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.5869612693786621,
      "learning_rate": 1.9745506116998214e-05,
      "loss": 2.7968,
      "step": 6847
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.5632466077804565,
      "learning_rate": 1.970514998912576e-05,
      "loss": 2.8273,
      "step": 6848
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.6056797504425049,
      "learning_rate": 1.9664833451607856e-05,
      "loss": 2.8232,
      "step": 6849
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.5925146341323853,
      "learning_rate": 1.9624556511375347e-05,
      "loss": 2.8561,
      "step": 6850
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.6022791266441345,
      "learning_rate": 1.9584319175352307e-05,
      "loss": 2.8198,
      "step": 6851
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.5961171388626099,
      "learning_rate": 1.9544121450455976e-05,
      "loss": 2.7459,
      "step": 6852
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.5649843811988831,
      "learning_rate": 1.950396334359686e-05,
      "loss": 2.8952,
      "step": 6853
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.5912333130836487,
      "learning_rate": 1.9463844861678627e-05,
      "loss": 2.8464,
      "step": 6854
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.5827465057373047,
      "learning_rate": 1.942376601159798e-05,
      "loss": 2.7376,
      "step": 6855
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.6237519383430481,
      "learning_rate": 1.9383726800245083e-05,
      "loss": 2.8004,
      "step": 6856
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.613745391368866,
      "learning_rate": 1.934372723450309e-05,
      "loss": 2.9123,
      "step": 6857
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.6013121604919434,
      "learning_rate": 1.9303767321248388e-05,
      "loss": 2.8034,
      "step": 6858
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.5985212326049805,
      "learning_rate": 1.926384706735049e-05,
      "loss": 2.9265,
      "step": 6859
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.6311769485473633,
      "learning_rate": 1.9223966479672255e-05,
      "loss": 2.9505,
      "step": 6860
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.6223894953727722,
      "learning_rate": 1.9184125565069543e-05,
      "loss": 2.8409,
      "step": 6861
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.5942933559417725,
      "learning_rate": 1.914432433039151e-05,
      "loss": 2.8533,
      "step": 6862
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.6169700026512146,
      "learning_rate": 1.9104562782480434e-05,
      "loss": 2.8508,
      "step": 6863
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.6467660665512085,
      "learning_rate": 1.906484092817176e-05,
      "loss": 2.8362,
      "step": 6864
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.6110240817070007,
      "learning_rate": 1.902515877429417e-05,
      "loss": 2.8301,
      "step": 6865
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.6881111860275269,
      "learning_rate": 1.8985516327669512e-05,
      "loss": 2.9274,
      "step": 6866
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.6088176965713501,
      "learning_rate": 1.894591359511269e-05,
      "loss": 2.7953,
      "step": 6867
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.588191568851471,
      "learning_rate": 1.890635058343196e-05,
      "loss": 2.7387,
      "step": 6868
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.5779693722724915,
      "learning_rate": 1.886682729942865e-05,
      "loss": 2.8837,
      "step": 6869
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.5844122171401978,
      "learning_rate": 1.8827343749897224e-05,
      "loss": 2.8797,
      "step": 6870
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.5804224610328674,
      "learning_rate": 1.8787899941625413e-05,
      "loss": 2.8672,
      "step": 6871
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.5963438153266907,
      "learning_rate": 1.8748495881394046e-05,
      "loss": 2.8296,
      "step": 6872
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.5728562474250793,
      "learning_rate": 1.870913157597709e-05,
      "loss": 2.7946,
      "step": 6873
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.6102032661437988,
      "learning_rate": 1.866980703214177e-05,
      "loss": 2.9196,
      "step": 6874
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.5664805173873901,
      "learning_rate": 1.8630522256648463e-05,
      "loss": 2.7884,
      "step": 6875
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.5825651288032532,
      "learning_rate": 1.8591277256250648e-05,
      "loss": 2.8025,
      "step": 6876
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.6111623048782349,
      "learning_rate": 1.855207203769499e-05,
      "loss": 2.931,
      "step": 6877
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.6378123760223389,
      "learning_rate": 1.8512906607721342e-05,
      "loss": 2.9407,
      "step": 6878
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.604290246963501,
      "learning_rate": 1.8473780973062655e-05,
      "loss": 2.7981,
      "step": 6879
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.6119503974914551,
      "learning_rate": 1.8434695140445074e-05,
      "loss": 2.7829,
      "step": 6880
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.5908094048500061,
      "learning_rate": 1.8395649116587974e-05,
      "loss": 2.9248,
      "step": 6881
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.6257737278938293,
      "learning_rate": 1.8356642908203767e-05,
      "loss": 2.8165,
      "step": 6882
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.6164432764053345,
      "learning_rate": 1.8317676521998033e-05,
      "loss": 2.8745,
      "step": 6883
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.5778334140777588,
      "learning_rate": 1.827874996466966e-05,
      "loss": 2.965,
      "step": 6884
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.6330704689025879,
      "learning_rate": 1.823986324291052e-05,
      "loss": 2.9438,
      "step": 6885
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.6223654747009277,
      "learning_rate": 1.8201016363405653e-05,
      "loss": 2.9488,
      "step": 6886
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.6181127429008484,
      "learning_rate": 1.816220933283336e-05,
      "loss": 2.9391,
      "step": 6887
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.6406293511390686,
      "learning_rate": 1.8123442157864907e-05,
      "loss": 2.7535,
      "step": 6888
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.5872616767883301,
      "learning_rate": 1.8084714845164912e-05,
      "loss": 2.8642,
      "step": 6889
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.6253260374069214,
      "learning_rate": 1.804602740139105e-05,
      "loss": 2.9653,
      "step": 6890
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.6455243825912476,
      "learning_rate": 1.8007379833194142e-05,
      "loss": 2.7324,
      "step": 6891
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.6823452711105347,
      "learning_rate": 1.7968772147218067e-05,
      "loss": 2.9124,
      "step": 6892
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.6341084837913513,
      "learning_rate": 1.793020435010004e-05,
      "loss": 2.9912,
      "step": 6893
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.5813291072845459,
      "learning_rate": 1.7891676448470255e-05,
      "loss": 2.8986,
      "step": 6894
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.7192736864089966,
      "learning_rate": 1.785318844895209e-05,
      "loss": 2.8079,
      "step": 6895
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.605972409248352,
      "learning_rate": 1.7814740358162136e-05,
      "loss": 2.9478,
      "step": 6896
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.6389985084533691,
      "learning_rate": 1.7776332182710047e-05,
      "loss": 2.9939,
      "step": 6897
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.6214745044708252,
      "learning_rate": 1.773796392919863e-05,
      "loss": 2.8312,
      "step": 6898
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.5987978577613831,
      "learning_rate": 1.769963560422383e-05,
      "loss": 2.9955,
      "step": 6899
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.585748553276062,
      "learning_rate": 1.7661347214374706e-05,
      "loss": 2.8738,
      "step": 6900
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.6652504801750183,
      "learning_rate": 1.762309876623347e-05,
      "loss": 2.7811,
      "step": 6901
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.6143453121185303,
      "learning_rate": 1.7584890266375552e-05,
      "loss": 2.9802,
      "step": 6902
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.5977830290794373,
      "learning_rate": 1.7546721721369314e-05,
      "loss": 3.0333,
      "step": 6903
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.6269715428352356,
      "learning_rate": 1.7508593137776503e-05,
      "loss": 2.9102,
      "step": 6904
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.6099761724472046,
      "learning_rate": 1.7470504522151792e-05,
      "loss": 2.9631,
      "step": 6905
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.640303909778595,
      "learning_rate": 1.7432455881043085e-05,
      "loss": 2.9246,
      "step": 6906
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.620853841304779,
      "learning_rate": 1.7394447220991342e-05,
      "loss": 3.0018,
      "step": 6907
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.56595778465271,
      "learning_rate": 1.735647854853073e-05,
      "loss": 2.8279,
      "step": 6908
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.5596922039985657,
      "learning_rate": 1.7318549870188468e-05,
      "loss": 2.8794,
      "step": 6909
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.6179598569869995,
      "learning_rate": 1.728066119248492e-05,
      "loss": 2.9183,
      "step": 6910
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.627678394317627,
      "learning_rate": 1.724281252193369e-05,
      "loss": 2.8389,
      "step": 6911
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.6506308317184448,
      "learning_rate": 1.7205003865041342e-05,
      "loss": 2.8483,
      "step": 6912
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.5952522158622742,
      "learning_rate": 1.7167235228307627e-05,
      "loss": 2.8043,
      "step": 6913
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.6115087270736694,
      "learning_rate": 1.7129506618225376e-05,
      "loss": 2.9688,
      "step": 6914
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.5879002213478088,
      "learning_rate": 1.7091818041280626e-05,
      "loss": 2.9422,
      "step": 6915
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.6095861792564392,
      "learning_rate": 1.7054169503952415e-05,
      "loss": 2.9533,
      "step": 6916
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.5637875199317932,
      "learning_rate": 1.701656101271304e-05,
      "loss": 2.8815,
      "step": 6917
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.594142735004425,
      "learning_rate": 1.6978992574027824e-05,
      "loss": 2.925,
      "step": 6918
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.6213985681533813,
      "learning_rate": 1.6941464194355188e-05,
      "loss": 2.933,
      "step": 6919
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.5875918865203857,
      "learning_rate": 1.6903975880146638e-05,
      "loss": 2.8492,
      "step": 6920
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.6118930578231812,
      "learning_rate": 1.686652763784699e-05,
      "loss": 2.8004,
      "step": 6921
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.6446369886398315,
      "learning_rate": 1.6829119473893927e-05,
      "loss": 2.9598,
      "step": 6922
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.6429325938224792,
      "learning_rate": 1.679175139471839e-05,
      "loss": 2.8547,
      "step": 6923
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.5485145449638367,
      "learning_rate": 1.6754423406744323e-05,
      "loss": 2.963,
      "step": 6924
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.6075908541679382,
      "learning_rate": 1.6717135516388925e-05,
      "loss": 2.8972,
      "step": 6925
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.6382659077644348,
      "learning_rate": 1.6679887730062404e-05,
      "loss": 2.801,
      "step": 6926
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.0075910091400146,
      "learning_rate": 1.6642680054168026e-05,
      "loss": 2.9613,
      "step": 6927
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.5544894337654114,
      "learning_rate": 1.6605512495102282e-05,
      "loss": 2.8356,
      "step": 6928
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.6230507493019104,
      "learning_rate": 1.656838505925462e-05,
      "loss": 2.8658,
      "step": 6929
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.6245678067207336,
      "learning_rate": 1.6531297753007795e-05,
      "loss": 2.8527,
      "step": 6930
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.5758016109466553,
      "learning_rate": 1.649425058273743e-05,
      "loss": 2.8258,
      "step": 6931
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.6463886499404907,
      "learning_rate": 1.6457243554812486e-05,
      "loss": 2.8126,
      "step": 6932
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.639648973941803,
      "learning_rate": 1.6420276675594814e-05,
      "loss": 3.0252,
      "step": 6933
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.6717104911804199,
      "learning_rate": 1.6383349951439475e-05,
      "loss": 2.914,
      "step": 6934
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.626040518283844,
      "learning_rate": 1.634646338869461e-05,
      "loss": 2.8286,
      "step": 6935
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.5972850322723389,
      "learning_rate": 1.6309616993701426e-05,
      "loss": 2.8968,
      "step": 6936
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.6118286848068237,
      "learning_rate": 1.6272810772794218e-05,
      "loss": 2.8201,
      "step": 6937
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.5947738289833069,
      "learning_rate": 1.623604473230042e-05,
      "loss": 2.8994,
      "step": 6938
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.617508590221405,
      "learning_rate": 1.6199318878540593e-05,
      "loss": 2.8782,
      "step": 6939
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.5844649076461792,
      "learning_rate": 1.616263321782832e-05,
      "loss": 2.9131,
      "step": 6940
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.5983946323394775,
      "learning_rate": 1.6125987756470257e-05,
      "loss": 2.7758,
      "step": 6941
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.6031569242477417,
      "learning_rate": 1.6089382500766193e-05,
      "loss": 2.9269,
      "step": 6942
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.5937965512275696,
      "learning_rate": 1.605281745700904e-05,
      "loss": 2.8156,
      "step": 6943
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.6476999521255493,
      "learning_rate": 1.6016292631484684e-05,
      "loss": 2.8726,
      "step": 6944
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.5972068905830383,
      "learning_rate": 1.5979808030472164e-05,
      "loss": 2.7101,
      "step": 6945
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.5936295390129089,
      "learning_rate": 1.5943363660243655e-05,
      "loss": 2.8931,
      "step": 6946
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.6046287417411804,
      "learning_rate": 1.5906959527064334e-05,
      "loss": 2.868,
      "step": 6947
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.6344563961029053,
      "learning_rate": 1.5870595637192535e-05,
      "loss": 2.8613,
      "step": 6948
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.6220548152923584,
      "learning_rate": 1.5834271996879644e-05,
      "loss": 2.7582,
      "step": 6949
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.6232621669769287,
      "learning_rate": 1.579798861237003e-05,
      "loss": 2.8086,
      "step": 6950
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.5824227333068848,
      "learning_rate": 1.5761745489901307e-05,
      "loss": 2.8791,
      "step": 6951
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.5934538841247559,
      "learning_rate": 1.5725542635704026e-05,
      "loss": 2.8147,
      "step": 6952
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.6395796537399292,
      "learning_rate": 1.5689380056001927e-05,
      "loss": 2.9847,
      "step": 6953
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.6284736394882202,
      "learning_rate": 1.5653257757011763e-05,
      "loss": 3.0013,
      "step": 6954
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.6434246301651001,
      "learning_rate": 1.5617175744943368e-05,
      "loss": 2.9321,
      "step": 6955
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.5936614274978638,
      "learning_rate": 1.5581134025999644e-05,
      "loss": 2.948,
      "step": 6956
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.6679204106330872,
      "learning_rate": 1.5545132606376605e-05,
      "loss": 2.9773,
      "step": 6957
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.5903753638267517,
      "learning_rate": 1.5509171492263302e-05,
      "loss": 2.8629,
      "step": 6958
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.6560478806495667,
      "learning_rate": 1.5473250689841843e-05,
      "loss": 2.9214,
      "step": 6959
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.608452320098877,
      "learning_rate": 1.5437370205287515e-05,
      "loss": 2.9917,
      "step": 6960
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.600747287273407,
      "learning_rate": 1.540153004476852e-05,
      "loss": 2.7868,
      "step": 6961
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.619877278804779,
      "learning_rate": 1.5365730214446204e-05,
      "loss": 2.7792,
      "step": 6962
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.6217837333679199,
      "learning_rate": 1.5329970720474985e-05,
      "loss": 2.9076,
      "step": 6963
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.5962021350860596,
      "learning_rate": 1.52942515690023e-05,
      "loss": 2.9138,
      "step": 6964
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.6540637612342834,
      "learning_rate": 1.5258572766168738e-05,
      "loss": 2.9599,
      "step": 6965
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.6138797402381897,
      "learning_rate": 1.5222934318107839e-05,
      "loss": 3.0167,
      "step": 6966
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.6100155711174011,
      "learning_rate": 1.5187336230946285e-05,
      "loss": 2.8551,
      "step": 6967
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.6065272688865662,
      "learning_rate": 1.5151778510803877e-05,
      "loss": 2.936,
      "step": 6968
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.6000376343727112,
      "learning_rate": 1.5116261163793332e-05,
      "loss": 2.732,
      "step": 6969
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.5803471207618713,
      "learning_rate": 1.5080784196020491e-05,
      "loss": 2.8389,
      "step": 6970
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.6614911556243896,
      "learning_rate": 1.5045347613584253e-05,
      "loss": 2.9425,
      "step": 6971
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.6649156808853149,
      "learning_rate": 1.5009951422576607e-05,
      "loss": 2.8788,
      "step": 6972
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.599941074848175,
      "learning_rate": 1.4974595629082488e-05,
      "loss": 2.9022,
      "step": 6973
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.6554269790649414,
      "learning_rate": 1.4939280239180091e-05,
      "loss": 2.8983,
      "step": 6974
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.602749228477478,
      "learning_rate": 1.4904005258940424e-05,
      "loss": 2.9238,
      "step": 6975
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.5867279767990112,
      "learning_rate": 1.4868770694427768e-05,
      "loss": 2.8537,
      "step": 6976
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.5995193719863892,
      "learning_rate": 1.4833576551699285e-05,
      "loss": 2.8929,
      "step": 6977
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.6229358315467834,
      "learning_rate": 1.4798422836805298e-05,
      "loss": 3.016,
      "step": 6978
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.6443018913269043,
      "learning_rate": 1.4763309555789111e-05,
      "loss": 2.8555,
      "step": 6979
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.6418189406394958,
      "learning_rate": 1.4728236714687066e-05,
      "loss": 3.0687,
      "step": 6980
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.6215000748634338,
      "learning_rate": 1.4693204319528696e-05,
      "loss": 2.7177,
      "step": 6981
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.5905917882919312,
      "learning_rate": 1.4658212376336384e-05,
      "loss": 2.87,
      "step": 6982
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.6181666851043701,
      "learning_rate": 1.46232608911257e-05,
      "loss": 3.0052,
      "step": 6983
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.6319834589958191,
      "learning_rate": 1.4588349869905149e-05,
      "loss": 2.9904,
      "step": 6984
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.6178373098373413,
      "learning_rate": 1.4553479318676398e-05,
      "loss": 2.9225,
      "step": 6985
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.5900062918663025,
      "learning_rate": 1.45186492434341e-05,
      "loss": 2.9355,
      "step": 6986
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.623977780342102,
      "learning_rate": 1.4483859650165937e-05,
      "loss": 2.9581,
      "step": 6987
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.571072518825531,
      "learning_rate": 1.4449110544852596e-05,
      "loss": 2.8881,
      "step": 6988
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.6021880507469177,
      "learning_rate": 1.4414401933467907e-05,
      "loss": 2.9611,
      "step": 6989
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.5983783602714539,
      "learning_rate": 1.4379733821978686e-05,
      "loss": 2.9554,
      "step": 6990
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.6107795834541321,
      "learning_rate": 1.4345106216344772e-05,
      "loss": 2.8267,
      "step": 6991
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.642253577709198,
      "learning_rate": 1.4310519122519045e-05,
      "loss": 2.9439,
      "step": 6992
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.6206684112548828,
      "learning_rate": 1.4275972546447412e-05,
      "loss": 2.9344,
      "step": 6993
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.6047283411026001,
      "learning_rate": 1.4241466494068822e-05,
      "loss": 2.7905,
      "step": 6994
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.6075706481933594,
      "learning_rate": 1.4207000971315276e-05,
      "loss": 2.8237,
      "step": 6995
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.64322429895401,
      "learning_rate": 1.4172575984111869e-05,
      "loss": 2.9075,
      "step": 6996
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.6351925730705261,
      "learning_rate": 1.4138191538376587e-05,
      "loss": 2.9209,
      "step": 6997
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.5784696936607361,
      "learning_rate": 1.4103847640020511e-05,
      "loss": 2.8031,
      "step": 6998
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.644600510597229,
      "learning_rate": 1.4069544294947779e-05,
      "loss": 2.8293,
      "step": 6999
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.58085697889328,
      "learning_rate": 1.4035281509055531e-05,
      "loss": 2.8805,
      "step": 7000
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.6025696396827698,
      "learning_rate": 1.4001059288233892e-05,
      "loss": 2.8882,
      "step": 7001
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.6648694276809692,
      "learning_rate": 1.3966877638366127e-05,
      "loss": 3.0846,
      "step": 7002
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.6575800776481628,
      "learning_rate": 1.3932736565328396e-05,
      "loss": 2.8663,
      "step": 7003
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.6224154829978943,
      "learning_rate": 1.389863607498998e-05,
      "loss": 2.974,
      "step": 7004
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.6338141560554504,
      "learning_rate": 1.3864576173213183e-05,
      "loss": 2.9188,
      "step": 7005
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.6080425381660461,
      "learning_rate": 1.3830556865853244e-05,
      "loss": 2.88,
      "step": 7006
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.5878039598464966,
      "learning_rate": 1.3796578158758483e-05,
      "loss": 2.8566,
      "step": 7007
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.5922585129737854,
      "learning_rate": 1.3762640057770253e-05,
      "loss": 2.9004,
      "step": 7008
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.5860818028450012,
      "learning_rate": 1.3728742568722864e-05,
      "loss": 2.8035,
      "step": 7009
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.6301921010017395,
      "learning_rate": 1.369488569744376e-05,
      "loss": 2.8272,
      "step": 7010
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.5946969985961914,
      "learning_rate": 1.366106944975326e-05,
      "loss": 2.882,
      "step": 7011
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.6271191835403442,
      "learning_rate": 1.3627293831464771e-05,
      "loss": 2.9576,
      "step": 7012
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.5759920477867126,
      "learning_rate": 1.3593558848384785e-05,
      "loss": 2.9386,
      "step": 7013
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.6116280555725098,
      "learning_rate": 1.3559864506312691e-05,
      "loss": 2.749,
      "step": 7014
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.5949743390083313,
      "learning_rate": 1.352621081104094e-05,
      "loss": 2.7623,
      "step": 7015
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.6268829703330994,
      "learning_rate": 1.3492597768354959e-05,
      "loss": 2.933,
      "step": 7016
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.5974932312965393,
      "learning_rate": 1.3459025384033264e-05,
      "loss": 2.7079,
      "step": 7017
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.6028403639793396,
      "learning_rate": 1.3425493663847349e-05,
      "loss": 2.7875,
      "step": 7018
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.6041371822357178,
      "learning_rate": 1.339200261356166e-05,
      "loss": 2.7843,
      "step": 7019
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.5961588621139526,
      "learning_rate": 1.335855223893373e-05,
      "loss": 2.8447,
      "step": 7020
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.6132106184959412,
      "learning_rate": 1.3325142545714014e-05,
      "loss": 2.8697,
      "step": 7021
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.5763506293296814,
      "learning_rate": 1.3291773539646112e-05,
      "loss": 2.7593,
      "step": 7022
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.6748680472373962,
      "learning_rate": 1.3258445226466464e-05,
      "loss": 2.8385,
      "step": 7023
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.679523229598999,
      "learning_rate": 1.3225157611904625e-05,
      "loss": 3.0268,
      "step": 7024
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.6253867149353027,
      "learning_rate": 1.3191910701683129e-05,
      "loss": 2.8926,
      "step": 7025
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.6402625441551208,
      "learning_rate": 1.3158704501517516e-05,
      "loss": 2.8086,
      "step": 7026
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.6865867972373962,
      "learning_rate": 1.31255390171163e-05,
      "loss": 2.8982,
      "step": 7027
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.6242331266403198,
      "learning_rate": 1.3092414254181006e-05,
      "loss": 2.8602,
      "step": 7028
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.5967576503753662,
      "learning_rate": 1.3059330218406162e-05,
      "loss": 2.9238,
      "step": 7029
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.7572259306907654,
      "learning_rate": 1.3026286915479273e-05,
      "loss": 2.9346,
      "step": 7030
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.6013875007629395,
      "learning_rate": 1.2993284351080909e-05,
      "loss": 2.8483,
      "step": 7031
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.5773710012435913,
      "learning_rate": 1.296032253088461e-05,
      "loss": 2.9165,
      "step": 7032
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.6079414486885071,
      "learning_rate": 1.2927401460556876e-05,
      "loss": 2.824,
      "step": 7033
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.7278427481651306,
      "learning_rate": 1.2894521145757205e-05,
      "loss": 2.9133,
      "step": 7034
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.6144902110099792,
      "learning_rate": 1.2861681592138103e-05,
      "loss": 2.7419,
      "step": 7035
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.6439233422279358,
      "learning_rate": 1.282888280534511e-05,
      "loss": 2.9428,
      "step": 7036
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.5927305817604065,
      "learning_rate": 1.2796124791016605e-05,
      "loss": 2.7976,
      "step": 7037
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.6231435537338257,
      "learning_rate": 1.2763407554784223e-05,
      "loss": 2.8496,
      "step": 7038
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.6598623394966125,
      "learning_rate": 1.2730731102272352e-05,
      "loss": 2.9702,
      "step": 7039
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.5961053967475891,
      "learning_rate": 1.2698095439098445e-05,
      "loss": 2.8357,
      "step": 7040
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.6884858012199402,
      "learning_rate": 1.2665500570872984e-05,
      "loss": 2.9371,
      "step": 7041
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.638116180896759,
      "learning_rate": 1.2632946503199406e-05,
      "loss": 2.9079,
      "step": 7042
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.6337527632713318,
      "learning_rate": 1.260043324167412e-05,
      "loss": 2.8859,
      "step": 7043
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.6015546917915344,
      "learning_rate": 1.2567960791886518e-05,
      "loss": 2.9447,
      "step": 7044
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.6234078407287598,
      "learning_rate": 1.2535529159418968e-05,
      "loss": 2.878,
      "step": 7045
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.5783976316452026,
      "learning_rate": 1.2503138349846926e-05,
      "loss": 2.9437,
      "step": 7046
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.6389879584312439,
      "learning_rate": 1.2470788368738717e-05,
      "loss": 2.7273,
      "step": 7047
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.6649211645126343,
      "learning_rate": 1.2438479221655641e-05,
      "loss": 2.9258,
      "step": 7048
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.640664279460907,
      "learning_rate": 1.2406210914152005e-05,
      "loss": 2.78,
      "step": 7049
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.6200293302536011,
      "learning_rate": 1.2373983451775179e-05,
      "loss": 2.756,
      "step": 7050
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.6195070743560791,
      "learning_rate": 1.2341796840065366e-05,
      "loss": 2.8867,
      "step": 7051
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.651322603225708,
      "learning_rate": 1.230965108455584e-05,
      "loss": 2.9382,
      "step": 7052
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.5768142938613892,
      "learning_rate": 1.227754619077287e-05,
      "loss": 2.9165,
      "step": 7053
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.5932169556617737,
      "learning_rate": 1.2245482164235627e-05,
      "loss": 2.8989,
      "step": 7054
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.5809885859489441,
      "learning_rate": 1.2213459010456285e-05,
      "loss": 2.7936,
      "step": 7055
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.6243155002593994,
      "learning_rate": 1.2181476734939968e-05,
      "loss": 2.8659,
      "step": 7056
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.682135820388794,
      "learning_rate": 1.2149535343184858e-05,
      "loss": 2.9112,
      "step": 7057
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.599362850189209,
      "learning_rate": 1.2117634840681984e-05,
      "loss": 2.8048,
      "step": 7058
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.5835798978805542,
      "learning_rate": 1.2085775232915485e-05,
      "loss": 2.9549,
      "step": 7059
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.6199065446853638,
      "learning_rate": 1.2053956525362314e-05,
      "loss": 2.921,
      "step": 7060
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.627217173576355,
      "learning_rate": 1.2022178723492566e-05,
      "loss": 3.0046,
      "step": 7061
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.5910221338272095,
      "learning_rate": 1.1990441832769178e-05,
      "loss": 2.9176,
      "step": 7062
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.624899685382843,
      "learning_rate": 1.195874585864809e-05,
      "loss": 2.837,
      "step": 7063
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.5938502550125122,
      "learning_rate": 1.1927090806578195e-05,
      "loss": 2.859,
      "step": 7064
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.6235011219978333,
      "learning_rate": 1.189547668200136e-05,
      "loss": 2.8364,
      "step": 7065
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.6195239424705505,
      "learning_rate": 1.1863903490352379e-05,
      "loss": 2.9742,
      "step": 7066
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.6160857081413269,
      "learning_rate": 1.1832371237059158e-05,
      "loss": 2.8543,
      "step": 7067
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.6009746789932251,
      "learning_rate": 1.1800879927542335e-05,
      "loss": 2.8992,
      "step": 7068
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.6363009214401245,
      "learning_rate": 1.1769429567215773e-05,
      "loss": 2.7668,
      "step": 7069
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.6107715368270874,
      "learning_rate": 1.1738020161486035e-05,
      "loss": 2.7635,
      "step": 7070
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.6415690183639526,
      "learning_rate": 1.1706651715752803e-05,
      "loss": 2.876,
      "step": 7071
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.5946127772331238,
      "learning_rate": 1.1675324235408707e-05,
      "loss": 2.9266,
      "step": 7072
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.6214518547058105,
      "learning_rate": 1.164403772583919e-05,
      "loss": 2.903,
      "step": 7073
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.5945683121681213,
      "learning_rate": 1.1612792192422922e-05,
      "loss": 2.856,
      "step": 7074
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.5808107256889343,
      "learning_rate": 1.1581587640531272e-05,
      "loss": 2.8497,
      "step": 7075
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.6702935099601746,
      "learning_rate": 1.1550424075528697e-05,
      "loss": 2.8305,
      "step": 7076
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.6667296290397644,
      "learning_rate": 1.1519301502772556e-05,
      "loss": 2.9624,
      "step": 7077
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.6353238821029663,
      "learning_rate": 1.1488219927613202e-05,
      "loss": 2.8859,
      "step": 7078
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.6026940941810608,
      "learning_rate": 1.145717935539392e-05,
      "loss": 2.9264,
      "step": 7079
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.5867191553115845,
      "learning_rate": 1.1426179791450913e-05,
      "loss": 2.9324,
      "step": 7080
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.6228347420692444,
      "learning_rate": 1.1395221241113363e-05,
      "loss": 2.8506,
      "step": 7081
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.6550462245941162,
      "learning_rate": 1.1364303709703482e-05,
      "loss": 2.9752,
      "step": 7082
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.6290247440338135,
      "learning_rate": 1.1333427202536273e-05,
      "loss": 2.8296,
      "step": 7083
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.5965231657028198,
      "learning_rate": 1.1302591724919791e-05,
      "loss": 2.9839,
      "step": 7084
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.6224822402000427,
      "learning_rate": 1.1271797282154994e-05,
      "loss": 2.8749,
      "step": 7085
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.6150089502334595,
      "learning_rate": 1.1241043879535811e-05,
      "loss": 2.7812,
      "step": 7086
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.6172619462013245,
      "learning_rate": 1.1210331522349126e-05,
      "loss": 2.8542,
      "step": 7087
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.586040735244751,
      "learning_rate": 1.1179660215874715e-05,
      "loss": 2.8255,
      "step": 7088
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.6425120234489441,
      "learning_rate": 1.1149029965385416e-05,
      "loss": 2.8213,
      "step": 7089
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.6304531693458557,
      "learning_rate": 1.1118440776146821e-05,
      "loss": 2.8046,
      "step": 7090
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.6433385014533997,
      "learning_rate": 1.1087892653417642e-05,
      "loss": 2.8182,
      "step": 7091
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.6022738814353943,
      "learning_rate": 1.10573856024494e-05,
      "loss": 2.7661,
      "step": 7092
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.6601391434669495,
      "learning_rate": 1.1026919628486647e-05,
      "loss": 2.8443,
      "step": 7093
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.6285477876663208,
      "learning_rate": 1.0996494736766782e-05,
      "loss": 2.7894,
      "step": 7094
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.6164677739143372,
      "learning_rate": 1.0966110932520285e-05,
      "loss": 2.7509,
      "step": 7095
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.5768316388130188,
      "learning_rate": 1.0935768220970393e-05,
      "loss": 2.8049,
      "step": 7096
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.6889186501502991,
      "learning_rate": 1.0905466607333465e-05,
      "loss": 2.8623,
      "step": 7097
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.669727087020874,
      "learning_rate": 1.0875206096818607e-05,
      "loss": 2.7774,
      "step": 7098
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.6108246445655823,
      "learning_rate": 1.0844986694628022e-05,
      "loss": 2.887,
      "step": 7099
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.6028419137001038,
      "learning_rate": 1.081480840595675e-05,
      "loss": 2.8955,
      "step": 7100
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.6178076267242432,
      "learning_rate": 1.0784671235992777e-05,
      "loss": 2.8809,
      "step": 7101
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.6217342019081116,
      "learning_rate": 1.0754575189917015e-05,
      "loss": 2.8429,
      "step": 7102
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.5949498414993286,
      "learning_rate": 1.0724520272903382e-05,
      "loss": 2.8982,
      "step": 7103
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.6629126071929932,
      "learning_rate": 1.0694506490118632e-05,
      "loss": 2.8184,
      "step": 7104
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.6260748505592346,
      "learning_rate": 1.0664533846722447e-05,
      "loss": 2.8736,
      "step": 7105
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.6192151308059692,
      "learning_rate": 1.0634602347867533e-05,
      "loss": 2.8769,
      "step": 7106
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.6106946468353271,
      "learning_rate": 1.0604711998699445e-05,
      "loss": 2.7905,
      "step": 7107
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.6464639902114868,
      "learning_rate": 1.0574862804356683e-05,
      "loss": 2.9038,
      "step": 7108
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.6723792552947998,
      "learning_rate": 1.0545054769970614e-05,
      "loss": 3.0599,
      "step": 7109
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.5866127610206604,
      "learning_rate": 1.0515287900665666e-05,
      "loss": 2.7953,
      "step": 7110
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.5895555019378662,
      "learning_rate": 1.0485562201559079e-05,
      "loss": 2.8908,
      "step": 7111
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.6346862316131592,
      "learning_rate": 1.0455877677761044e-05,
      "loss": 2.8757,
      "step": 7112
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.6306242346763611,
      "learning_rate": 1.0426234334374647e-05,
      "loss": 2.8407,
      "step": 7113
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.655307412147522,
      "learning_rate": 1.0396632176495946e-05,
      "loss": 2.8689,
      "step": 7114
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.6094180941581726,
      "learning_rate": 1.0367071209213902e-05,
      "loss": 2.9612,
      "step": 7115
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.6212414503097534,
      "learning_rate": 1.0337551437610365e-05,
      "loss": 2.9497,
      "step": 7116
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.6438944935798645,
      "learning_rate": 1.0308072866760137e-05,
      "loss": 2.8362,
      "step": 7117
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.6037218570709229,
      "learning_rate": 1.027863550173097e-05,
      "loss": 2.9784,
      "step": 7118
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.6287419199943542,
      "learning_rate": 1.0249239347583428e-05,
      "loss": 2.8841,
      "step": 7119
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.6482274532318115,
      "learning_rate": 1.0219884409371077e-05,
      "loss": 2.8502,
      "step": 7120
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.659905731678009,
      "learning_rate": 1.0190570692140355e-05,
      "loss": 2.8666,
      "step": 7121
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.5799582600593567,
      "learning_rate": 1.0161298200930647e-05,
      "loss": 2.9092,
      "step": 7122
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.558062732219696,
      "learning_rate": 1.0132066940774203e-05,
      "loss": 2.836,
      "step": 7123
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.6323315501213074,
      "learning_rate": 1.010287691669623e-05,
      "loss": 2.894,
      "step": 7124
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.587162971496582,
      "learning_rate": 1.0073728133714877e-05,
      "loss": 2.8381,
      "step": 7125
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.5566256642341614,
      "learning_rate": 1.0044620596841136e-05,
      "loss": 2.7389,
      "step": 7126
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.6310662031173706,
      "learning_rate": 1.0015554311078895e-05,
      "loss": 2.9196,
      "step": 7127
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.587407648563385,
      "learning_rate": 9.986529281425016e-06,
      "loss": 2.9585,
      "step": 7128
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.6474011540412903,
      "learning_rate": 9.957545512869231e-06,
      "loss": 2.8394,
      "step": 7129
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.616880476474762,
      "learning_rate": 9.928603010394138e-06,
      "loss": 2.8385,
      "step": 7130
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.600427508354187,
      "learning_rate": 9.899701778975395e-06,
      "loss": 2.7636,
      "step": 7131
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.6500634551048279,
      "learning_rate": 9.870841823581362e-06,
      "loss": 2.8305,
      "step": 7132
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.6501308083534241,
      "learning_rate": 9.842023149173428e-06,
      "loss": 2.9765,
      "step": 7133
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.6610580086708069,
      "learning_rate": 9.813245760705886e-06,
      "loss": 2.9492,
      "step": 7134
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.6086810231208801,
      "learning_rate": 9.784509663125884e-06,
      "loss": 2.9389,
      "step": 7135
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.6379748582839966,
      "learning_rate": 9.755814861373502e-06,
      "loss": 2.7292,
      "step": 7136
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.6196752190589905,
      "learning_rate": 9.727161360381681e-06,
      "loss": 2.9324,
      "step": 7137
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.6060861349105835,
      "learning_rate": 9.69854916507626e-06,
      "loss": 2.8631,
      "step": 7138
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.6066310405731201,
      "learning_rate": 9.669978280376107e-06,
      "loss": 2.796,
      "step": 7139
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.6065234541893005,
      "learning_rate": 9.641448711192796e-06,
      "loss": 2.7909,
      "step": 7140
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.6049287915229797,
      "learning_rate": 9.61296046243096e-06,
      "loss": 2.8146,
      "step": 7141
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.660567045211792,
      "learning_rate": 9.584513538987983e-06,
      "loss": 2.8835,
      "step": 7142
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.6038161516189575,
      "learning_rate": 9.556107945754316e-06,
      "loss": 2.9033,
      "step": 7143
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.5993571281433105,
      "learning_rate": 9.527743687613138e-06,
      "loss": 2.8514,
      "step": 7144
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.6087870001792908,
      "learning_rate": 9.499420769440576e-06,
      "loss": 2.8733,
      "step": 7145
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.6504748463630676,
      "learning_rate": 9.471139196105732e-06,
      "loss": 2.9133,
      "step": 7146
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.6018173098564148,
      "learning_rate": 9.442898972470526e-06,
      "loss": 2.8659,
      "step": 7147
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.627859354019165,
      "learning_rate": 9.414700103389768e-06,
      "loss": 2.8484,
      "step": 7148
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.6568171977996826,
      "learning_rate": 9.386542593711162e-06,
      "loss": 2.9594,
      "step": 7149
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.5813631415367126,
      "learning_rate": 9.358426448275309e-06,
      "loss": 2.7761,
      "step": 7150
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.6094374060630798,
      "learning_rate": 9.330351671915676e-06,
      "loss": 2.928,
      "step": 7151
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.6341586112976074,
      "learning_rate": 9.302318269458682e-06,
      "loss": 2.8039,
      "step": 7152
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.547390341758728,
      "learning_rate": 9.274326245723607e-06,
      "loss": 2.7822,
      "step": 7153
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.5906939506530762,
      "learning_rate": 9.246375605522578e-06,
      "loss": 3.0232,
      "step": 7154
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.6038634181022644,
      "learning_rate": 9.218466353660637e-06,
      "loss": 2.8983,
      "step": 7155
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.5740371942520142,
      "learning_rate": 9.190598494935726e-06,
      "loss": 2.7982,
      "step": 7156
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.5888221263885498,
      "learning_rate": 9.162772034138623e-06,
      "loss": 2.9217,
      "step": 7157
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.5860350728034973,
      "learning_rate": 9.134986976053028e-06,
      "loss": 2.7231,
      "step": 7158
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.5944024324417114,
      "learning_rate": 9.10724332545551e-06,
      "loss": 2.9269,
      "step": 7159
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.59923255443573,
      "learning_rate": 9.079541087115506e-06,
      "loss": 2.8544,
      "step": 7160
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.6576172113418579,
      "learning_rate": 9.051880265795426e-06,
      "loss": 2.9338,
      "step": 7161
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.6271830797195435,
      "learning_rate": 9.024260866250439e-06,
      "loss": 2.8015,
      "step": 7162
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.6820851564407349,
      "learning_rate": 8.996682893228609e-06,
      "loss": 2.7793,
      "step": 7163
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.6166574954986572,
      "learning_rate": 8.969146351470974e-06,
      "loss": 2.9322,
      "step": 7164
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.6153088212013245,
      "learning_rate": 8.941651245711336e-06,
      "loss": 2.7738,
      "step": 7165
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.5914295315742493,
      "learning_rate": 8.914197580676409e-06,
      "loss": 2.8785,
      "step": 7166
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.5966658592224121,
      "learning_rate": 8.886785361085865e-06,
      "loss": 2.8467,
      "step": 7167
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.6184875965118408,
      "learning_rate": 8.859414591652126e-06,
      "loss": 2.765,
      "step": 7168
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.6227469444274902,
      "learning_rate": 8.832085277080571e-06,
      "loss": 2.8049,
      "step": 7169
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.621095597743988,
      "learning_rate": 8.804797422069383e-06,
      "loss": 2.8668,
      "step": 7170
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.6162126660346985,
      "learning_rate": 8.777551031309727e-06,
      "loss": 2.8195,
      "step": 7171
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.5890552997589111,
      "learning_rate": 8.750346109485525e-06,
      "loss": 2.8213,
      "step": 7172
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.6150031685829163,
      "learning_rate": 8.723182661273615e-06,
      "loss": 2.9816,
      "step": 7173
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.5727670788764954,
      "learning_rate": 8.696060691343765e-06,
      "loss": 2.8203,
      "step": 7174
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.6321266889572144,
      "learning_rate": 8.668980204358496e-06,
      "loss": 2.9822,
      "step": 7175
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.6361261010169983,
      "learning_rate": 8.641941204973274e-06,
      "loss": 2.9555,
      "step": 7176
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.62208491563797,
      "learning_rate": 8.61494369783644e-06,
      "loss": 2.9846,
      "step": 7177
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.6733516454696655,
      "learning_rate": 8.587987687589172e-06,
      "loss": 2.9223,
      "step": 7178
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.6267053484916687,
      "learning_rate": 8.561073178865453e-06,
      "loss": 2.9442,
      "step": 7179
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.6017633080482483,
      "learning_rate": 8.534200176292305e-06,
      "loss": 2.8867,
      "step": 7180
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.5976665019989014,
      "learning_rate": 8.507368684489397e-06,
      "loss": 2.8189,
      "step": 7181
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.5848158001899719,
      "learning_rate": 8.48057870806951e-06,
      "loss": 2.8986,
      "step": 7182
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.6111496686935425,
      "learning_rate": 8.45383025163804e-06,
      "loss": 2.9116,
      "step": 7183
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.7165451049804688,
      "learning_rate": 8.427123319793395e-06,
      "loss": 2.9481,
      "step": 7184
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.6024070978164673,
      "learning_rate": 8.400457917126819e-06,
      "loss": 2.8099,
      "step": 7185
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.6048922538757324,
      "learning_rate": 8.373834048222394e-06,
      "loss": 2.9568,
      "step": 7186
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.6507052779197693,
      "learning_rate": 8.347251717657018e-06,
      "loss": 2.9248,
      "step": 7187
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.6290716528892517,
      "learning_rate": 8.320710930000586e-06,
      "loss": 2.8888,
      "step": 7188
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.6056583523750305,
      "learning_rate": 8.294211689815729e-06,
      "loss": 2.9381,
      "step": 7189
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.611879825592041,
      "learning_rate": 8.267754001657969e-06,
      "loss": 2.8297,
      "step": 7190
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.5895617008209229,
      "learning_rate": 8.241337870075721e-06,
      "loss": 2.8805,
      "step": 7191
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.6100426316261292,
      "learning_rate": 8.214963299610189e-06,
      "loss": 3.0268,
      "step": 7192
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.6170334815979004,
      "learning_rate": 8.188630294795469e-06,
      "loss": 2.7993,
      "step": 7193
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.5506897568702698,
      "learning_rate": 8.16233886015852e-06,
      "loss": 2.8339,
      "step": 7194
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.592420756816864,
      "learning_rate": 8.136089000219144e-06,
      "loss": 2.8468,
      "step": 7195
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.619585394859314,
      "learning_rate": 8.10988071949001e-06,
      "loss": 2.8284,
      "step": 7196
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.6082891821861267,
      "learning_rate": 8.083714022476568e-06,
      "loss": 2.8541,
      "step": 7197
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.6224139928817749,
      "learning_rate": 8.057588913677277e-06,
      "loss": 2.703,
      "step": 7198
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.60914546251297,
      "learning_rate": 8.031505397583267e-06,
      "loss": 2.8641,
      "step": 7199
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.5350650548934937,
      "learning_rate": 8.005463478678615e-06,
      "loss": 2.9158,
      "step": 7200
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.6404503583908081,
      "learning_rate": 7.979463161440242e-06,
      "loss": 2.7398,
      "step": 7201
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.607257068157196,
      "learning_rate": 7.953504450337879e-06,
      "loss": 2.8668,
      "step": 7202
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.6954349279403687,
      "learning_rate": 7.927587349834148e-06,
      "loss": 2.863,
      "step": 7203
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.5844132900238037,
      "learning_rate": 7.901711864384515e-06,
      "loss": 2.8432,
      "step": 7204
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.608846127986908,
      "learning_rate": 7.875877998437226e-06,
      "loss": 2.8195,
      "step": 7205
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.6308537721633911,
      "learning_rate": 7.850085756433478e-06,
      "loss": 2.8708,
      "step": 7206
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.6234666109085083,
      "learning_rate": 7.824335142807198e-06,
      "loss": 2.8946,
      "step": 7207
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.6835870146751404,
      "learning_rate": 7.79862616198529e-06,
      "loss": 2.8148,
      "step": 7208
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.607970118522644,
      "learning_rate": 7.772958818387326e-06,
      "loss": 2.9952,
      "step": 7209
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.6200532913208008,
      "learning_rate": 7.747333116425947e-06,
      "loss": 2.9704,
      "step": 7210
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.5752821564674377,
      "learning_rate": 7.721749060506406e-06,
      "loss": 2.7407,
      "step": 7211
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.6109746694564819,
      "learning_rate": 7.696206655026933e-06,
      "loss": 2.9493,
      "step": 7212
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.5859169960021973,
      "learning_rate": 7.670705904378572e-06,
      "loss": 2.7419,
      "step": 7213
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.646858274936676,
      "learning_rate": 7.645246812945206e-06,
      "loss": 2.8772,
      "step": 7214
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.6041291356086731,
      "learning_rate": 7.6198293851034715e-06,
      "loss": 2.6684,
      "step": 7215
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.5800033807754517,
      "learning_rate": 7.594453625223013e-06,
      "loss": 2.7835,
      "step": 7216
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.5912052989006042,
      "learning_rate": 7.569119537666175e-06,
      "loss": 2.895,
      "step": 7217
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.6399498581886292,
      "learning_rate": 7.543827126788194e-06,
      "loss": 2.8655,
      "step": 7218
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.5955439209938049,
      "learning_rate": 7.5185763969371215e-06,
      "loss": 2.7621,
      "step": 7219
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.6377804279327393,
      "learning_rate": 7.493367352453873e-06,
      "loss": 2.9777,
      "step": 7220
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.607123076915741,
      "learning_rate": 7.468199997672148e-06,
      "loss": 2.8253,
      "step": 7221
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.6103698015213013,
      "learning_rate": 7.443074336918487e-06,
      "loss": 2.8643,
      "step": 7222
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.5933362245559692,
      "learning_rate": 7.417990374512296e-06,
      "loss": 2.9039,
      "step": 7223
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.5984829068183899,
      "learning_rate": 7.392948114765846e-06,
      "loss": 2.8486,
      "step": 7224
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.6198678016662598,
      "learning_rate": 7.36794756198414e-06,
      "loss": 2.9084,
      "step": 7225
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.6109316349029541,
      "learning_rate": 7.3429887204650994e-06,
      "loss": 2.9096,
      "step": 7226
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.6000677347183228,
      "learning_rate": 7.318071594499403e-06,
      "loss": 2.8966,
      "step": 7227
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.5867007374763489,
      "learning_rate": 7.293196188370627e-06,
      "loss": 2.867,
      "step": 7228
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.6732906103134155,
      "learning_rate": 7.268362506355125e-06,
      "loss": 2.9392,
      "step": 7229
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.6029717922210693,
      "learning_rate": 7.243570552722067e-06,
      "loss": 2.7636,
      "step": 7230
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.6434046626091003,
      "learning_rate": 7.2188203317335165e-06,
      "loss": 2.8744,
      "step": 7231
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.5850402116775513,
      "learning_rate": 7.194111847644347e-06,
      "loss": 2.7294,
      "step": 7232
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.582291841506958,
      "learning_rate": 7.16944510470216e-06,
      "loss": 2.8449,
      "step": 7233
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.659702479839325,
      "learning_rate": 7.144820107147482e-06,
      "loss": 2.9794,
      "step": 7234
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.6495422720909119,
      "learning_rate": 7.120236859213674e-06,
      "loss": 2.9474,
      "step": 7235
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.6384479403495789,
      "learning_rate": 7.095695365126858e-06,
      "loss": 2.8237,
      "step": 7236
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.6235607266426086,
      "learning_rate": 7.071195629105992e-06,
      "loss": 2.807,
      "step": 7237
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.6281644105911255,
      "learning_rate": 7.046737655362845e-06,
      "loss": 3.0007,
      "step": 7238
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.6085778474807739,
      "learning_rate": 7.0223214481020535e-06,
      "loss": 2.8656,
      "step": 7239
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.6138889789581299,
      "learning_rate": 6.997947011521067e-06,
      "loss": 2.8837,
      "step": 7240
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.5919896364212036,
      "learning_rate": 6.973614349810115e-06,
      "loss": 2.8632,
      "step": 7241
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.5747616291046143,
      "learning_rate": 6.949323467152269e-06,
      "loss": 2.785,
      "step": 7242
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.6579853296279907,
      "learning_rate": 6.925074367723383e-06,
      "loss": 2.9142,
      "step": 7243
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.614602267742157,
      "learning_rate": 6.90086705569215e-06,
      "loss": 2.8661,
      "step": 7244
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.769230842590332,
      "learning_rate": 6.876701535220131e-06,
      "loss": 2.7781,
      "step": 7245
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.6049779653549194,
      "learning_rate": 6.8525778104616685e-06,
      "loss": 3.0503,
      "step": 7246
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.639485776424408,
      "learning_rate": 6.82849588556389e-06,
      "loss": 2.7889,
      "step": 7247
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.6226232647895813,
      "learning_rate": 6.804455764666733e-06,
      "loss": 3.0287,
      "step": 7248
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.6532913446426392,
      "learning_rate": 6.7804574519030325e-06,
      "loss": 2.819,
      "step": 7249
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.6141044497489929,
      "learning_rate": 6.75650095139832e-06,
      "loss": 2.9404,
      "step": 7250
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.6179120540618896,
      "learning_rate": 6.732586267270968e-06,
      "loss": 2.964,
      "step": 7251
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.5626218914985657,
      "learning_rate": 6.708713403632299e-06,
      "loss": 2.8741,
      "step": 7252
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.6207974553108215,
      "learning_rate": 6.684882364586226e-06,
      "loss": 2.8824,
      "step": 7253
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.6241018176078796,
      "learning_rate": 6.661093154229636e-06,
      "loss": 2.8365,
      "step": 7254
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.6055735945701599,
      "learning_rate": 6.637345776652176e-06,
      "loss": 2.8898,
      "step": 7255
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.632073163986206,
      "learning_rate": 6.613640235936275e-06,
      "loss": 2.9787,
      "step": 7256
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.6006917953491211,
      "learning_rate": 6.589976536157199e-06,
      "loss": 2.8261,
      "step": 7257
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.6054191589355469,
      "learning_rate": 6.566354681383002e-06,
      "loss": 2.847,
      "step": 7258
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.62863689661026,
      "learning_rate": 6.542774675674546e-06,
      "loss": 2.7561,
      "step": 7259
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.6454865336418152,
      "learning_rate": 6.519236523085531e-06,
      "loss": 2.8782,
      "step": 7260
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.5860879421234131,
      "learning_rate": 6.495740227662445e-06,
      "loss": 2.9454,
      "step": 7261
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.5999819040298462,
      "learning_rate": 6.472285793444499e-06,
      "loss": 2.8215,
      "step": 7262
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.6070120930671692,
      "learning_rate": 6.448873224463914e-06,
      "loss": 2.7986,
      "step": 7263
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.6206629276275635,
      "learning_rate": 6.4255025247454694e-06,
      "loss": 2.8096,
      "step": 7264
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.6221320629119873,
      "learning_rate": 6.402173698306924e-06,
      "loss": 2.9982,
      "step": 7265
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.6064060926437378,
      "learning_rate": 6.378886749158708e-06,
      "loss": 2.8521,
      "step": 7266
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.6113302707672119,
      "learning_rate": 6.355641681304175e-06,
      "loss": 2.9573,
      "step": 7267
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.6064637303352356,
      "learning_rate": 6.332438498739435e-06,
      "loss": 2.9066,
      "step": 7268
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.6154472231864929,
      "learning_rate": 6.309277205453323e-06,
      "loss": 2.7989,
      "step": 7269
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.5758761763572693,
      "learning_rate": 6.2861578054276e-06,
      "loss": 2.9005,
      "step": 7270
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.631868839263916,
      "learning_rate": 6.26308030263667e-06,
      "loss": 2.8361,
      "step": 7271
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.6084253787994385,
      "learning_rate": 6.240044701047915e-06,
      "loss": 2.8856,
      "step": 7272
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.6027844548225403,
      "learning_rate": 6.21705100462136e-06,
      "loss": 2.9685,
      "step": 7273
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.6219777464866638,
      "learning_rate": 6.194099217309901e-06,
      "loss": 2.8207,
      "step": 7274
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.622302234172821,
      "learning_rate": 6.171189343059269e-06,
      "loss": 2.9227,
      "step": 7275
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.675201952457428,
      "learning_rate": 6.14832138580787e-06,
      "loss": 2.9717,
      "step": 7276
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.6083573698997498,
      "learning_rate": 6.125495349487003e-06,
      "loss": 2.9743,
      "step": 7277
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.6252483129501343,
      "learning_rate": 6.102711238020725e-06,
      "loss": 2.7582,
      "step": 7278
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.6363214254379272,
      "learning_rate": 6.079969055325901e-06,
      "loss": 2.8776,
      "step": 7279
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.6260395646095276,
      "learning_rate": 6.057268805312127e-06,
      "loss": 2.7362,
      "step": 7280
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.6279758810997009,
      "learning_rate": 6.0346104918818645e-06,
      "loss": 2.9068,
      "step": 7281
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.6489803791046143,
      "learning_rate": 6.011994118930358e-06,
      "loss": 2.9072,
      "step": 7282
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.7300277948379517,
      "learning_rate": 5.9894196903456376e-06,
      "loss": 2.8873,
      "step": 7283
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.6392766237258911,
      "learning_rate": 5.966887210008487e-06,
      "loss": 2.8735,
      "step": 7284
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.5981981754302979,
      "learning_rate": 5.944396681792474e-06,
      "loss": 2.9396,
      "step": 7285
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.5954062342643738,
      "learning_rate": 5.921948109564035e-06,
      "loss": 2.9637,
      "step": 7286
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.5976818203926086,
      "learning_rate": 5.899541497182276e-06,
      "loss": 2.8325,
      "step": 7287
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.6576851010322571,
      "learning_rate": 5.8771768484992e-06,
      "loss": 2.9226,
      "step": 7288
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.7035197019577026,
      "learning_rate": 5.854854167359564e-06,
      "loss": 2.8297,
      "step": 7289
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.6054304838180542,
      "learning_rate": 5.832573457600826e-06,
      "loss": 2.8644,
      "step": 7290
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.5985308289527893,
      "learning_rate": 5.810334723053367e-06,
      "loss": 3.0062,
      "step": 7291
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.6710129380226135,
      "learning_rate": 5.788137967540269e-06,
      "loss": 2.7935,
      "step": 7292
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.5779542922973633,
      "learning_rate": 5.765983194877394e-06,
      "loss": 2.8173,
      "step": 7293
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.658654510974884,
      "learning_rate": 5.743870408873419e-06,
      "loss": 2.8661,
      "step": 7294
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.6288293600082397,
      "learning_rate": 5.7217996133297476e-06,
      "loss": 2.7809,
      "step": 7295
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.6573801040649414,
      "learning_rate": 5.6997708120406775e-06,
      "loss": 2.9269,
      "step": 7296
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.6601378321647644,
      "learning_rate": 5.677784008793152e-06,
      "loss": 2.8474,
      "step": 7297
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.6314606666564941,
      "learning_rate": 5.655839207367008e-06,
      "loss": 2.9256,
      "step": 7298
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.6242364645004272,
      "learning_rate": 5.633936411534729e-06,
      "loss": 2.8372,
      "step": 7299
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.6352185010910034,
      "learning_rate": 5.612075625061774e-06,
      "loss": 2.7153,
      "step": 7300
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.6406117677688599,
      "learning_rate": 5.590256851706193e-06,
      "loss": 2.967,
      "step": 7301
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.5940058827400208,
      "learning_rate": 5.5684800952188755e-06,
      "loss": 2.8895,
      "step": 7302
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.6378891468048096,
      "learning_rate": 5.546745359343547e-06,
      "loss": 2.7509,
      "step": 7303
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.6217178106307983,
      "learning_rate": 5.525052647816636e-06,
      "loss": 3.0506,
      "step": 7304
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.5718279480934143,
      "learning_rate": 5.503401964367355e-06,
      "loss": 2.9415,
      "step": 7305
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.6196427941322327,
      "learning_rate": 5.481793312717753e-06,
      "loss": 2.8519,
      "step": 7306
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.5981830358505249,
      "learning_rate": 5.460226696582555e-06,
      "loss": 2.8957,
      "step": 7307
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.5890849232673645,
      "learning_rate": 5.43870211966932e-06,
      "loss": 2.8224,
      "step": 7308
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.673932671546936,
      "learning_rate": 5.417219585678423e-06,
      "loss": 2.9598,
      "step": 7309
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.6088560223579407,
      "learning_rate": 5.395779098302911e-06,
      "loss": 2.9725,
      "step": 7310
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.6454181671142578,
      "learning_rate": 5.374380661228667e-06,
      "loss": 2.7978,
      "step": 7311
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.628230631351471,
      "learning_rate": 5.353024278134333e-06,
      "loss": 2.8843,
      "step": 7312
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.6711210012435913,
      "learning_rate": 5.331709952691333e-06,
      "loss": 2.7557,
      "step": 7313
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.6027138829231262,
      "learning_rate": 5.3104376885638185e-06,
      "loss": 2.9624,
      "step": 7314
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.6409162878990173,
      "learning_rate": 5.289207489408754e-06,
      "loss": 2.7965,
      "step": 7315
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.5915313363075256,
      "learning_rate": 5.268019358875803e-06,
      "loss": 2.998,
      "step": 7316
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.6508776545524597,
      "learning_rate": 5.246873300607552e-06,
      "loss": 2.8905,
      "step": 7317
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.634735643863678,
      "learning_rate": 5.225769318239177e-06,
      "loss": 2.9339,
      "step": 7318
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.6107182502746582,
      "learning_rate": 5.2047074153987465e-06,
      "loss": 2.7858,
      "step": 7319
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.5969059467315674,
      "learning_rate": 5.183687595707032e-06,
      "loss": 2.8202,
      "step": 7320
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.5983790755271912,
      "learning_rate": 5.1627098627775594e-06,
      "loss": 2.8915,
      "step": 7321
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.655687153339386,
      "learning_rate": 5.1417742202166665e-06,
      "loss": 3.01,
      "step": 7322
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.6470479369163513,
      "learning_rate": 5.12088067162339e-06,
      "loss": 2.8022,
      "step": 7323
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.6320420503616333,
      "learning_rate": 5.100029220589636e-06,
      "loss": 2.9547,
      "step": 7324
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.622452437877655,
      "learning_rate": 5.07921987069998e-06,
      "loss": 2.8421,
      "step": 7325
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.6315571665763855,
      "learning_rate": 5.058452625531812e-06,
      "loss": 2.8759,
      "step": 7326
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.5697451829910278,
      "learning_rate": 5.037727488655192e-06,
      "loss": 3.0387,
      "step": 7327
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.6132329702377319,
      "learning_rate": 5.0170444636331025e-06,
      "loss": 2.886,
      "step": 7328
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.6232838034629822,
      "learning_rate": 4.996403554021145e-06,
      "loss": 2.8837,
      "step": 7329
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.6449490189552307,
      "learning_rate": 4.975804763367758e-06,
      "loss": 3.0091,
      "step": 7330
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.6265321373939514,
      "learning_rate": 4.955248095214082e-06,
      "loss": 2.7944,
      "step": 7331
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.5936333537101746,
      "learning_rate": 4.934733553094068e-06,
      "loss": 2.9569,
      "step": 7332
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.6695988774299622,
      "learning_rate": 4.914261140534393e-06,
      "loss": 2.8975,
      "step": 7333
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.6579756736755371,
      "learning_rate": 4.8938308610544935e-06,
      "loss": 2.9219,
      "step": 7334
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.5881986618041992,
      "learning_rate": 4.8734427181666156e-06,
      "loss": 2.776,
      "step": 7335
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.6021029353141785,
      "learning_rate": 4.853096715375649e-06,
      "loss": 2.8896,
      "step": 7336
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.7084947228431702,
      "learning_rate": 4.8327928561793525e-06,
      "loss": 3.0586,
      "step": 7337
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.6113321185112,
      "learning_rate": 4.812531144068183e-06,
      "loss": 2.749,
      "step": 7338
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.6218149065971375,
      "learning_rate": 4.792311582525383e-06,
      "loss": 2.846,
      "step": 7339
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.6876362562179565,
      "learning_rate": 4.772134175026921e-06,
      "loss": 2.9266,
      "step": 7340
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.6021435856819153,
      "learning_rate": 4.751998925041495e-06,
      "loss": 2.8832,
      "step": 7341
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.6909647583961487,
      "learning_rate": 4.731905836030642e-06,
      "loss": 2.8644,
      "step": 7342
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.6052161455154419,
      "learning_rate": 4.711854911448543e-06,
      "loss": 2.9263,
      "step": 7343
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.6345333456993103,
      "learning_rate": 4.691846154742191e-06,
      "loss": 3.0054,
      "step": 7344
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.6738622188568115,
      "learning_rate": 4.671879569351362e-06,
      "loss": 2.8158,
      "step": 7345
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.6099292635917664,
      "learning_rate": 4.651955158708532e-06,
      "loss": 2.7873,
      "step": 7346
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.5719600915908813,
      "learning_rate": 4.632072926238934e-06,
      "loss": 2.8428,
      "step": 7347
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.5907663106918335,
      "learning_rate": 4.612232875360528e-06,
      "loss": 2.8614,
      "step": 7348
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.6552847623825073,
      "learning_rate": 4.592435009484086e-06,
      "loss": 3.0636,
      "step": 7349
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.6865028142929077,
      "learning_rate": 4.57267933201308e-06,
      "loss": 3.0731,
      "step": 7350
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.5914984345436096,
      "learning_rate": 4.552965846343709e-06,
      "loss": 2.9557,
      "step": 7351
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.6437352895736694,
      "learning_rate": 4.533294555864986e-06,
      "loss": 2.9788,
      "step": 7352
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.6426526308059692,
      "learning_rate": 4.513665463958621e-06,
      "loss": 2.8119,
      "step": 7353
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.6572856307029724,
      "learning_rate": 4.494078573999111e-06,
      "loss": 2.8793,
      "step": 7354
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.6081548929214478,
      "learning_rate": 4.474533889353594e-06,
      "loss": 2.8559,
      "step": 7355
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.6103885173797607,
      "learning_rate": 4.455031413382104e-06,
      "loss": 2.8623,
      "step": 7356
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.6407175660133362,
      "learning_rate": 4.435571149437323e-06,
      "loss": 2.9387,
      "step": 7357
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.6026384830474854,
      "learning_rate": 4.416153100864684e-06,
      "loss": 2.8066,
      "step": 7358
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.6264025568962097,
      "learning_rate": 4.396777271002378e-06,
      "loss": 2.87,
      "step": 7359
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.6400524973869324,
      "learning_rate": 4.377443663181324e-06,
      "loss": 2.9991,
      "step": 7360
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.6817080974578857,
      "learning_rate": 4.358152280725225e-06,
      "loss": 2.8803,
      "step": 7361
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.6897242665290833,
      "learning_rate": 4.338903126950483e-06,
      "loss": 2.8543,
      "step": 7362
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.6289786696434021,
      "learning_rate": 4.3196962051662014e-06,
      "loss": 2.7419,
      "step": 7363
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.6511363387107849,
      "learning_rate": 4.300531518674322e-06,
      "loss": 2.7946,
      "step": 7364
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.6611976027488708,
      "learning_rate": 4.281409070769487e-06,
      "loss": 2.9916,
      "step": 7365
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.5917394161224365,
      "learning_rate": 4.26232886473904e-06,
      "loss": 2.852,
      "step": 7366
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.5922206044197083,
      "learning_rate": 4.2432909038630785e-06,
      "loss": 2.8094,
      "step": 7367
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.5743394494056702,
      "learning_rate": 4.224295191414512e-06,
      "loss": 2.8022,
      "step": 7368
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.6242404580116272,
      "learning_rate": 4.205341730658841e-06,
      "loss": 2.8936,
      "step": 7369
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.633993923664093,
      "learning_rate": 4.186430524854429e-06,
      "loss": 2.8686,
      "step": 7370
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.6256812214851379,
      "learning_rate": 4.167561577252343e-06,
      "loss": 2.9225,
      "step": 7371
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.6313349604606628,
      "learning_rate": 4.148734891096351e-06,
      "loss": 2.8574,
      "step": 7372
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.6442379355430603,
      "learning_rate": 4.129950469622945e-06,
      "loss": 3.0642,
      "step": 7373
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.6250033378601074,
      "learning_rate": 4.1112083160614326e-06,
      "loss": 2.8282,
      "step": 7374
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.6584578156471252,
      "learning_rate": 4.0925084336338455e-06,
      "loss": 2.7625,
      "step": 7375
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.6576926112174988,
      "learning_rate": 4.073850825554837e-06,
      "loss": 2.9575,
      "step": 7376
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.5984274744987488,
      "learning_rate": 4.0552354950318944e-06,
      "loss": 2.7606,
      "step": 7377
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.6127471327781677,
      "learning_rate": 4.03666244526521e-06,
      "loss": 2.9123,
      "step": 7378
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.6200333833694458,
      "learning_rate": 4.018131679447701e-06,
      "loss": 2.8607,
      "step": 7379
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.6177661418914795,
      "learning_rate": 3.999643200764985e-06,
      "loss": 2.9468,
      "step": 7380
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.612893283367157,
      "learning_rate": 3.981197012395521e-06,
      "loss": 2.8952,
      "step": 7381
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.6410434246063232,
      "learning_rate": 3.962793117510383e-06,
      "loss": 2.8933,
      "step": 7382
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.7468912601470947,
      "learning_rate": 3.944431519273401e-06,
      "loss": 2.9683,
      "step": 7383
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.6026902198791504,
      "learning_rate": 3.926112220841188e-06,
      "loss": 2.874,
      "step": 7384
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.6058633327484131,
      "learning_rate": 3.907835225363005e-06,
      "loss": 2.7363,
      "step": 7385
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.6503452658653259,
      "learning_rate": 3.889600535980892e-06,
      "loss": 2.9753,
      "step": 7386
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.5941595435142517,
      "learning_rate": 3.8714081558295925e-06,
      "loss": 2.8793,
      "step": 7387
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.6116152405738831,
      "learning_rate": 3.853258088036604e-06,
      "loss": 2.8205,
      "step": 7388
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.6088095903396606,
      "learning_rate": 3.835150335722154e-06,
      "loss": 2.8078,
      "step": 7389
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.6244832277297974,
      "learning_rate": 3.817084901999113e-06,
      "loss": 2.909,
      "step": 7390
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.6713164448738098,
      "learning_rate": 3.7990617899731904e-06,
      "loss": 2.8263,
      "step": 7391
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.6347205638885498,
      "learning_rate": 3.7810810027427424e-06,
      "loss": 3.1061,
      "step": 7392
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.5818517804145813,
      "learning_rate": 3.7631425433989062e-06,
      "loss": 2.9086,
      "step": 7393
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.6342183947563171,
      "learning_rate": 3.745246415025466e-06,
      "loss": 3.0239,
      "step": 7394
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.6145045757293701,
      "learning_rate": 3.727392620699016e-06,
      "loss": 2.8143,
      "step": 7395
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.6035537719726562,
      "learning_rate": 3.7095811634887956e-06,
      "loss": 2.7809,
      "step": 7396
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.5872399806976318,
      "learning_rate": 3.691812046456827e-06,
      "loss": 2.8196,
      "step": 7397
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.615995466709137,
      "learning_rate": 3.6740852726578067e-06,
      "loss": 2.855,
      "step": 7398
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.6227489709854126,
      "learning_rate": 3.6564008451392127e-06,
      "loss": 2.8892,
      "step": 7399
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.5849989056587219,
      "learning_rate": 3.6387587669411416e-06,
      "loss": 2.826,
      "step": 7400
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.6548787951469421,
      "learning_rate": 3.6211590410965e-06,
      "loss": 2.9521,
      "step": 7401
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.6203477382659912,
      "learning_rate": 3.603601670630896e-06,
      "loss": 2.9288,
      "step": 7402
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.6101686358451843,
      "learning_rate": 3.5860866585626373e-06,
      "loss": 2.9128,
      "step": 7403
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.6192091107368469,
      "learning_rate": 3.5686140079027598e-06,
      "loss": 2.8352,
      "step": 7404
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.6118690967559814,
      "learning_rate": 3.551183721655027e-06,
      "loss": 2.8966,
      "step": 7405
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.6261047720909119,
      "learning_rate": 3.5337958028158754e-06,
      "loss": 2.8142,
      "step": 7406
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.5631436109542847,
      "learning_rate": 3.5164502543745257e-06,
      "loss": 2.7488,
      "step": 7407
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.6480036377906799,
      "learning_rate": 3.499147079312842e-06,
      "loss": 2.9415,
      "step": 7408
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.6039096117019653,
      "learning_rate": 3.481886280605445e-06,
      "loss": 2.9252,
      "step": 7409
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.6177278757095337,
      "learning_rate": 3.4646678612196837e-06,
      "loss": 2.9207,
      "step": 7410
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.6413236856460571,
      "learning_rate": 3.447491824115606e-06,
      "loss": 2.9807,
      "step": 7411
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.5968138575553894,
      "learning_rate": 3.43035817224599e-06,
      "loss": 2.8748,
      "step": 7412
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.6039878726005554,
      "learning_rate": 3.413266908556256e-06,
      "loss": 2.9428,
      "step": 7413
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.619118869304657,
      "learning_rate": 3.3962180359846386e-06,
      "loss": 2.9294,
      "step": 7414
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.6396347284317017,
      "learning_rate": 3.379211557462014e-06,
      "loss": 2.8933,
      "step": 7415
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.5733934044837952,
      "learning_rate": 3.362247475911989e-06,
      "loss": 2.7942,
      "step": 7416
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.6250717639923096,
      "learning_rate": 3.3453257942508972e-06,
      "loss": 2.925,
      "step": 7417
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.6360214948654175,
      "learning_rate": 3.328446515387773e-06,
      "loss": 2.9129,
      "step": 7418
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.6440059542655945,
      "learning_rate": 3.3116096422243225e-06,
      "loss": 2.8375,
      "step": 7419
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.6090300679206848,
      "learning_rate": 3.294815177655064e-06,
      "loss": 2.7861,
      "step": 7420
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.6056742072105408,
      "learning_rate": 3.2780631245671043e-06,
      "loss": 2.8424,
      "step": 7421
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.580385684967041,
      "learning_rate": 3.2613534858403625e-06,
      "loss": 2.925,
      "step": 7422
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.6153404712677002,
      "learning_rate": 3.244686264347374e-06,
      "loss": 2.9435,
      "step": 7423
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.6244361400604248,
      "learning_rate": 3.2280614629534853e-06,
      "loss": 2.9841,
      "step": 7424
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.6049546599388123,
      "learning_rate": 3.211479084516633e-06,
      "loss": 2.9265,
      "step": 7425
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.6671304702758789,
      "learning_rate": 3.194939131887564e-06,
      "loss": 2.8385,
      "step": 7426
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.5981025695800781,
      "learning_rate": 3.1784416079096433e-06,
      "loss": 2.8755,
      "step": 7427
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.584988534450531,
      "learning_rate": 3.1619865154190186e-06,
      "loss": 2.8718,
      "step": 7428
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.6112203001976013,
      "learning_rate": 3.1455738572444824e-06,
      "loss": 2.967,
      "step": 7429
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.616692841053009,
      "learning_rate": 3.1292036362076117e-06,
      "loss": 2.8892,
      "step": 7430
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.6181330680847168,
      "learning_rate": 3.1128758551225988e-06,
      "loss": 2.8029,
      "step": 7431
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.611182689666748,
      "learning_rate": 3.0965905167963935e-06,
      "loss": 2.89,
      "step": 7432
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.5949994921684265,
      "learning_rate": 3.0803476240286178e-06,
      "loss": 2.7841,
      "step": 7433
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.5939624309539795,
      "learning_rate": 3.064147179611648e-06,
      "loss": 2.8087,
      "step": 7434
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.5990260243415833,
      "learning_rate": 3.04798918633048e-06,
      "loss": 2.8948,
      "step": 7435
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.6476340889930725,
      "learning_rate": 3.0318736469628906e-06,
      "loss": 2.8224,
      "step": 7436
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.6111019849777222,
      "learning_rate": 3.015800564279303e-06,
      "loss": 2.8724,
      "step": 7437
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.5964394211769104,
      "learning_rate": 2.9997699410428956e-06,
      "loss": 2.8059,
      "step": 7438
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.5957039594650269,
      "learning_rate": 2.9837817800095203e-06,
      "loss": 3.0684,
      "step": 7439
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.6225476861000061,
      "learning_rate": 2.9678360839277276e-06,
      "loss": 2.8052,
      "step": 7440
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.621057391166687,
      "learning_rate": 2.9519328555387417e-06,
      "loss": 2.9053,
      "step": 7441
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.6397749185562134,
      "learning_rate": 2.9360720975765144e-06,
      "loss": 2.8377,
      "step": 7442
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.5841686725616455,
      "learning_rate": 2.920253812767698e-06,
      "loss": 2.954,
      "step": 7443
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.5967406034469604,
      "learning_rate": 2.9044780038316456e-06,
      "loss": 2.8251,
      "step": 7444
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.5780780911445618,
      "learning_rate": 2.888744673480437e-06,
      "loss": 2.8499,
      "step": 7445
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.5909687280654907,
      "learning_rate": 2.873053824418742e-06,
      "loss": 2.9066,
      "step": 7446
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.5935238003730774,
      "learning_rate": 2.8574054593440423e-06,
      "loss": 2.8574,
      "step": 7447
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.616187572479248,
      "learning_rate": 2.841799580946464e-06,
      "loss": 2.8618,
      "step": 7448
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.5787433385848999,
      "learning_rate": 2.82623619190886e-06,
      "loss": 2.7919,
      "step": 7449
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.6078908443450928,
      "learning_rate": 2.8107152949067295e-06,
      "loss": 3.0023,
      "step": 7450
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.6198990345001221,
      "learning_rate": 2.795236892608327e-06,
      "loss": 2.7867,
      "step": 7451
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.5974648594856262,
      "learning_rate": 2.779800987674497e-06,
      "loss": 2.8374,
      "step": 7452
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.5602058172225952,
      "learning_rate": 2.764407582758921e-06,
      "loss": 2.8461,
      "step": 7453
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.6324903964996338,
      "learning_rate": 2.7490566805078996e-06,
      "loss": 2.8926,
      "step": 7454
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.6142862439155579,
      "learning_rate": 2.7337482835604056e-06,
      "loss": 2.9381,
      "step": 7455
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.6598412990570068,
      "learning_rate": 2.7184823945481105e-06,
      "loss": 2.8586,
      "step": 7456
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.6017435193061829,
      "learning_rate": 2.7032590160954716e-06,
      "loss": 2.8549,
      "step": 7457
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.6270338296890259,
      "learning_rate": 2.6880781508194784e-06,
      "loss": 2.8297,
      "step": 7458
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.6742686033248901,
      "learning_rate": 2.67293980132996e-06,
      "loss": 2.8561,
      "step": 7459
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.6275309920310974,
      "learning_rate": 2.6578439702293344e-06,
      "loss": 2.8199,
      "step": 7460
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.5607104897499084,
      "learning_rate": 2.642790660112776e-06,
      "loss": 2.7651,
      "step": 7461
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.6331099271774292,
      "learning_rate": 2.6277798735681315e-06,
      "loss": 2.8171,
      "step": 7462
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.6278514862060547,
      "learning_rate": 2.6128116131758918e-06,
      "loss": 2.8852,
      "step": 7463
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.5963516235351562,
      "learning_rate": 2.5978858815093045e-06,
      "loss": 2.924,
      "step": 7464
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.6306907534599304,
      "learning_rate": 2.5830026811342335e-06,
      "loss": 2.8285,
      "step": 7465
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.6220203042030334,
      "learning_rate": 2.5681620146093266e-06,
      "loss": 2.9511,
      "step": 7466
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.6079521775245667,
      "learning_rate": 2.5533638844858486e-06,
      "loss": 2.7752,
      "step": 7467
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.6355292797088623,
      "learning_rate": 2.538608293307765e-06,
      "loss": 2.9164,
      "step": 7468
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.6229289770126343,
      "learning_rate": 2.52389524361174e-06,
      "loss": 2.9886,
      "step": 7469
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.6243200898170471,
      "learning_rate": 2.5092247379271126e-06,
      "loss": 2.8928,
      "step": 7470
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.5563409924507141,
      "learning_rate": 2.494596778775893e-06,
      "loss": 2.8838,
      "step": 7471
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.6360574960708618,
      "learning_rate": 2.4800113686728467e-06,
      "loss": 2.9878,
      "step": 7472
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.6254246830940247,
      "learning_rate": 2.4654685101253014e-06,
      "loss": 2.8989,
      "step": 7473
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.6248732209205627,
      "learning_rate": 2.450968205633425e-06,
      "loss": 2.9506,
      "step": 7474
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.6438881158828735,
      "learning_rate": 2.436510457689917e-06,
      "loss": 2.8642,
      "step": 7475
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.6042194366455078,
      "learning_rate": 2.4220952687802887e-06,
      "loss": 2.9572,
      "step": 7476
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.6290989518165588,
      "learning_rate": 2.4077226413826426e-06,
      "loss": 2.8476,
      "step": 7477
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.600631833076477,
      "learning_rate": 2.3933925779678346e-06,
      "loss": 2.8615,
      "step": 7478
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.6248767971992493,
      "learning_rate": 2.379105080999311e-06,
      "loss": 2.8468,
      "step": 7479
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.6197225451469421,
      "learning_rate": 2.3648601529333014e-06,
      "loss": 2.8345,
      "step": 7480
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.6809114813804626,
      "learning_rate": 2.35065779621868e-06,
      "loss": 2.976,
      "step": 7481
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.6603329181671143,
      "learning_rate": 2.336498013296967e-06,
      "loss": 2.8327,
      "step": 7482
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.6233978867530823,
      "learning_rate": 2.3223808066024086e-06,
      "loss": 2.8251,
      "step": 7483
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.5783773064613342,
      "learning_rate": 2.3083061785618977e-06,
      "loss": 2.9171,
      "step": 7484
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.6153356432914734,
      "learning_rate": 2.2942741315950534e-06,
      "loss": 2.9204,
      "step": 7485
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.5781137347221375,
      "learning_rate": 2.2802846681141685e-06,
      "loss": 2.8067,
      "step": 7486
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.6014444231987,
      "learning_rate": 2.2663377905241257e-06,
      "loss": 2.9151,
      "step": 7487
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.5980560183525085,
      "learning_rate": 2.2524335012225894e-06,
      "loss": 2.7735,
      "step": 7488
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.6406460404396057,
      "learning_rate": 2.238571802599898e-06,
      "loss": 2.9641,
      "step": 7489
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.6088678240776062,
      "learning_rate": 2.2247526970390064e-06,
      "loss": 2.8636,
      "step": 7490
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.6457350850105286,
      "learning_rate": 2.2109761869155697e-06,
      "loss": 2.8246,
      "step": 7491
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.5930227041244507,
      "learning_rate": 2.1972422745979436e-06,
      "loss": 2.8921,
      "step": 7492
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.6018694043159485,
      "learning_rate": 2.1835509624471562e-06,
      "loss": 3.022,
      "step": 7493
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.5836836099624634,
      "learning_rate": 2.1699022528168797e-06,
      "loss": 2.7491,
      "step": 7494
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.6394144892692566,
      "learning_rate": 2.156296148053488e-06,
      "loss": 2.9497,
      "step": 7495
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.5942885279655457,
      "learning_rate": 2.142732650496082e-06,
      "loss": 2.8167,
      "step": 7496
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.5798632502555847,
      "learning_rate": 2.1292117624763243e-06,
      "loss": 2.842,
      "step": 7497
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.6173393726348877,
      "learning_rate": 2.115733486318605e-06,
      "loss": 2.748,
      "step": 7498
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.6528661251068115,
      "learning_rate": 2.102297824340044e-06,
      "loss": 2.8184,
      "step": 7499
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.616534411907196,
      "learning_rate": 2.0889047788503755e-06,
      "loss": 2.8667,
      "step": 7500
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.6095854043960571,
      "learning_rate": 2.0755543521519815e-06,
      "loss": 2.8938,
      "step": 7501
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.6197884678840637,
      "learning_rate": 2.06224654653997e-06,
      "loss": 2.9027,
      "step": 7502
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.5958587527275085,
      "learning_rate": 2.0489813643021493e-06,
      "loss": 2.8559,
      "step": 7503
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.6104689240455627,
      "learning_rate": 2.035758807718918e-06,
      "loss": 2.9112,
      "step": 7504
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.6134492754936218,
      "learning_rate": 2.0225788790633746e-06,
      "loss": 2.8363,
      "step": 7505
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.6026064157485962,
      "learning_rate": 2.0094415806013454e-06,
      "loss": 3.1017,
      "step": 7506
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.6394420266151428,
      "learning_rate": 1.996346914591274e-06,
      "loss": 2.8686,
      "step": 7507
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.5907366275787354,
      "learning_rate": 1.983294883284248e-06,
      "loss": 2.8942,
      "step": 7508
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.5837754607200623,
      "learning_rate": 1.970285488924084e-06,
      "loss": 3.0595,
      "step": 7509
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.6279367804527283,
      "learning_rate": 1.957318733747271e-06,
      "loss": 2.8727,
      "step": 7510
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.6144999861717224,
      "learning_rate": 1.944394619982942e-06,
      "loss": 2.8507,
      "step": 7511
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.6254543662071228,
      "learning_rate": 1.931513149852848e-06,
      "loss": 2.773,
      "step": 7512
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.6153997778892517,
      "learning_rate": 1.9186743255714955e-06,
      "loss": 2.8271,
      "step": 7513
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.6129208207130432,
      "learning_rate": 1.905878149346063e-06,
      "loss": 2.8584,
      "step": 7514
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.5814264416694641,
      "learning_rate": 1.893124623376319e-06,
      "loss": 2.8428,
      "step": 7515
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.6172011494636536,
      "learning_rate": 1.8804137498547592e-06,
      "loss": 2.8071,
      "step": 7516
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.6196990609169006,
      "learning_rate": 1.8677455309664971e-06,
      "loss": 2.8919,
      "step": 7517
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.62831050157547,
      "learning_rate": 1.8551199688894016e-06,
      "loss": 2.9137,
      "step": 7518
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.6124551296234131,
      "learning_rate": 1.842537065793931e-06,
      "loss": 2.8433,
      "step": 7519
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.6282156705856323,
      "learning_rate": 1.8299968238432163e-06,
      "loss": 2.8486,
      "step": 7520
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.5630542039871216,
      "learning_rate": 1.8174992451930605e-06,
      "loss": 2.889,
      "step": 7521
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.6002265214920044,
      "learning_rate": 1.805044331991995e-06,
      "loss": 2.9684,
      "step": 7522
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.618780255317688,
      "learning_rate": 1.7926320863811129e-06,
      "loss": 2.8198,
      "step": 7523
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.5857614874839783,
      "learning_rate": 1.7802625104942627e-06,
      "loss": 2.8122,
      "step": 7524
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.5988560318946838,
      "learning_rate": 1.7679356064578821e-06,
      "loss": 2.82,
      "step": 7525
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.5970174670219421,
      "learning_rate": 1.7556513763911096e-06,
      "loss": 2.8778,
      "step": 7526
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.6198624968528748,
      "learning_rate": 1.7434098224057838e-06,
      "loss": 2.8811,
      "step": 7527
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.5953980088233948,
      "learning_rate": 1.7312109466063597e-06,
      "loss": 2.7331,
      "step": 7528
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.6007891297340393,
      "learning_rate": 1.71905475108991e-06,
      "loss": 2.9671,
      "step": 7529
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.5793772339820862,
      "learning_rate": 1.7069412379462911e-06,
      "loss": 2.7912,
      "step": 7530
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.5818026661872864,
      "learning_rate": 1.6948704092579205e-06,
      "loss": 2.8522,
      "step": 7531
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.5964803695678711,
      "learning_rate": 1.6828422670999432e-06,
      "loss": 2.8121,
      "step": 7532
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.6039433479309082,
      "learning_rate": 1.6708568135401225e-06,
      "loss": 2.8741,
      "step": 7533
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.6417056322097778,
      "learning_rate": 1.6589140506388933e-06,
      "loss": 2.9242,
      "step": 7534
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.624711811542511,
      "learning_rate": 1.6470139804493357e-06,
      "loss": 2.9671,
      "step": 7535
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.6599987745285034,
      "learning_rate": 1.6351566050172573e-06,
      "loss": 2.8283,
      "step": 7536
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.631117045879364,
      "learning_rate": 1.6233419263810278e-06,
      "loss": 2.8053,
      "step": 7537
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.6219046711921692,
      "learning_rate": 1.611569946571745e-06,
      "loss": 2.9193,
      "step": 7538
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.6192832589149475,
      "learning_rate": 1.5998406676131783e-06,
      "loss": 2.8854,
      "step": 7539
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.5880305767059326,
      "learning_rate": 1.5881540915216875e-06,
      "loss": 2.7034,
      "step": 7540
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.627703845500946,
      "learning_rate": 1.5765102203063596e-06,
      "loss": 2.8654,
      "step": 7541
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.5858389139175415,
      "learning_rate": 1.5649090559688716e-06,
      "loss": 2.7975,
      "step": 7542
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.6111748814582825,
      "learning_rate": 1.5533506005036557e-06,
      "loss": 2.9496,
      "step": 7543
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.6434824466705322,
      "learning_rate": 1.5418348558977058e-06,
      "loss": 2.8609,
      "step": 7544
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.6704201102256775,
      "learning_rate": 1.5303618241306883e-06,
      "loss": 2.8123,
      "step": 7545
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.6041962504386902,
      "learning_rate": 1.5189315071749977e-06,
      "loss": 2.7966,
      "step": 7546
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.6064133048057556,
      "learning_rate": 1.5075439069956453e-06,
      "loss": 2.7836,
      "step": 7547
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.6098398566246033,
      "learning_rate": 1.4961990255502323e-06,
      "loss": 2.8816,
      "step": 7548
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.6725685000419617,
      "learning_rate": 1.4848968647891148e-06,
      "loss": 2.9424,
      "step": 7549
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.6235052943229675,
      "learning_rate": 1.4736374266552943e-06,
      "loss": 2.7825,
      "step": 7550
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.5851587057113647,
      "learning_rate": 1.4624207130843336e-06,
      "loss": 2.8156,
      "step": 7551
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.6179718971252441,
      "learning_rate": 1.4512467260045514e-06,
      "loss": 2.8943,
      "step": 7552
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.6357089281082153,
      "learning_rate": 1.4401154673368833e-06,
      "loss": 2.9894,
      "step": 7553
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.6149821877479553,
      "learning_rate": 1.4290269389949095e-06,
      "loss": 2.8487,
      "step": 7554
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.6103542447090149,
      "learning_rate": 1.417981142884911e-06,
      "loss": 2.8948,
      "step": 7555
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.5878794193267822,
      "learning_rate": 1.4069780809057575e-06,
      "loss": 2.8322,
      "step": 7556
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.606178879737854,
      "learning_rate": 1.3960177549489917e-06,
      "loss": 2.9967,
      "step": 7557
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.5884838700294495,
      "learning_rate": 1.3851001668988562e-06,
      "loss": 2.9147,
      "step": 7558
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.6072109341621399,
      "learning_rate": 1.3742253186321829e-06,
      "loss": 2.8381,
      "step": 7559
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.620219349861145,
      "learning_rate": 1.3633932120184766e-06,
      "loss": 2.9574,
      "step": 7560
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.6275356411933899,
      "learning_rate": 1.3526038489199421e-06,
      "loss": 2.9384,
      "step": 7561
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.6226665377616882,
      "learning_rate": 1.3418572311913735e-06,
      "loss": 2.9412,
      "step": 7562
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.565440833568573,
      "learning_rate": 1.3311533606802651e-06,
      "loss": 2.8779,
      "step": 7563
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.6255086064338684,
      "learning_rate": 1.3204922392266728e-06,
      "loss": 2.8647,
      "step": 7564
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.6074023246765137,
      "learning_rate": 1.309873868663436e-06,
      "loss": 2.9643,
      "step": 7565
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.5799524784088135,
      "learning_rate": 1.2992982508159e-06,
      "loss": 2.8719,
      "step": 7566
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.6269646286964417,
      "learning_rate": 1.2887653875021944e-06,
      "loss": 2.9513,
      "step": 7567
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.6133513450622559,
      "learning_rate": 1.2782752805330366e-06,
      "loss": 2.8312,
      "step": 7568
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.642742931842804,
      "learning_rate": 1.2678279317117903e-06,
      "loss": 2.8326,
      "step": 7569
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.6149625778198242,
      "learning_rate": 1.2574233428344905e-06,
      "loss": 3.0087,
      "step": 7570
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.5974159240722656,
      "learning_rate": 1.2470615156897624e-06,
      "loss": 2.8665,
      "step": 7571
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.5987492203712463,
      "learning_rate": 1.2367424520589588e-06,
      "loss": 2.9827,
      "step": 7572
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.6209867596626282,
      "learning_rate": 1.2264661537160492e-06,
      "loss": 2.9249,
      "step": 7573
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.6556026935577393,
      "learning_rate": 1.216232622427621e-06,
      "loss": 2.9807,
      "step": 7574
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.5949196815490723,
      "learning_rate": 1.206041859952961e-06,
      "loss": 2.8885,
      "step": 7575
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.6598038673400879,
      "learning_rate": 1.1958938680439736e-06,
      "loss": 2.8306,
      "step": 7576
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.5864763855934143,
      "learning_rate": 1.1857886484452073e-06,
      "loss": 2.8617,
      "step": 7577
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.6196005940437317,
      "learning_rate": 1.1757262028938842e-06,
      "loss": 2.9476,
      "step": 7578
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.5856505632400513,
      "learning_rate": 1.1657065331198425e-06,
      "loss": 2.7799,
      "step": 7579
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.598408579826355,
      "learning_rate": 1.1557296408455932e-06,
      "loss": 2.8165,
      "step": 7580
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.6305065155029297,
      "learning_rate": 1.1457955277862641e-06,
      "loss": 2.9312,
      "step": 7581
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.641633927822113,
      "learning_rate": 1.1359041956496286e-06,
      "loss": 2.8219,
      "step": 7582
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.6011914014816284,
      "learning_rate": 1.1260556461361592e-06,
      "loss": 2.8934,
      "step": 7583
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.6380683183670044,
      "learning_rate": 1.1162498809389188e-06,
      "loss": 2.7939,
      "step": 7584
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.5872166156768799,
      "learning_rate": 1.106486901743642e-06,
      "loss": 2.8253,
      "step": 7585
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.6119967699050903,
      "learning_rate": 1.0967667102286527e-06,
      "loss": 2.8201,
      "step": 7586
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.6045624613761902,
      "learning_rate": 1.0870893080650313e-06,
      "loss": 2.7329,
      "step": 7587
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.6124868392944336,
      "learning_rate": 1.0774546969163912e-06,
      "loss": 2.8597,
      "step": 7588
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.5576568841934204,
      "learning_rate": 1.0678628784390466e-06,
      "loss": 2.9497,
      "step": 7589
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.6108360886573792,
      "learning_rate": 1.0583138542819558e-06,
      "loss": 2.9451,
      "step": 7590
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.650477945804596,
      "learning_rate": 1.0488076260866952e-06,
      "loss": 2.8503,
      "step": 7591
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.5830013155937195,
      "learning_rate": 1.0393441954874849e-06,
      "loss": 2.9209,
      "step": 7592
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.5943098068237305,
      "learning_rate": 1.0299235641111904e-06,
      "loss": 2.8572,
      "step": 7593
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.5950880646705627,
      "learning_rate": 1.0205457335773493e-06,
      "loss": 2.9091,
      "step": 7594
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.5922031998634338,
      "learning_rate": 1.0112107054981167e-06,
      "loss": 2.9032,
      "step": 7595
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.579445481300354,
      "learning_rate": 1.0019184814782923e-06,
      "loss": 2.8768,
      "step": 7596
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.6248682737350464,
      "learning_rate": 9.9266906311532e-07,
      "loss": 3.0195,
      "step": 7597
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.6013526320457458,
      "learning_rate": 9.834624519992897e-07,
      "loss": 2.8721,
      "step": 7598
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.6072646379470825,
      "learning_rate": 9.742986497128792e-07,
      "loss": 2.898,
      "step": 7599
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.6175492405891418,
      "learning_rate": 9.65177657831523e-07,
      "loss": 2.7153,
      "step": 7600
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.6604600548744202,
      "learning_rate": 9.560994779231613e-07,
      "loss": 2.8415,
      "step": 7601
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.601014256477356,
      "learning_rate": 9.470641115484624e-07,
      "loss": 2.878,
      "step": 7602
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.616154670715332,
      "learning_rate": 9.380715602607115e-07,
      "loss": 2.8866,
      "step": 7603
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.6329870223999023,
      "learning_rate": 9.291218256058387e-07,
      "loss": 3.0147,
      "step": 7604
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.5797061324119568,
      "learning_rate": 9.20214909122391e-07,
      "loss": 2.6979,
      "step": 7605
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.6412871479988098,
      "learning_rate": 9.113508123415881e-07,
      "loss": 2.7937,
      "step": 7606
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.6299868226051331,
      "learning_rate": 9.025295367872665e-07,
      "loss": 2.9133,
      "step": 7607
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.6182780861854553,
      "learning_rate": 8.937510839759078e-07,
      "loss": 2.8014,
      "step": 7608
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.6137514710426331,
      "learning_rate": 8.850154554166101e-07,
      "loss": 2.8828,
      "step": 7609
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.6708769202232361,
      "learning_rate": 8.763226526111723e-07,
      "loss": 2.8473,
      "step": 7610
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.6083004474639893,
      "learning_rate": 8.676726770539267e-07,
      "loss": 2.899,
      "step": 7611
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.589361846446991,
      "learning_rate": 8.590655302319616e-07,
      "loss": 2.8639,
      "step": 7612
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.5621832609176636,
      "learning_rate": 8.505012136249268e-07,
      "loss": 2.8663,
      "step": 7613
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.6179473400115967,
      "learning_rate": 8.41979728705089e-07,
      "loss": 2.8253,
      "step": 7614
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.680286169052124,
      "learning_rate": 8.335010769374429e-07,
      "loss": 2.9186,
      "step": 7615
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.5992842316627502,
      "learning_rate": 8.25065259779545e-07,
      "loss": 2.8626,
      "step": 7616
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.5973209142684937,
      "learning_rate": 8.166722786816239e-07,
      "loss": 2.8896,
      "step": 7617
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.6023364067077637,
      "learning_rate": 8.083221350865256e-07,
      "loss": 2.8408,
      "step": 7618
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.5933442115783691,
      "learning_rate": 8.000148304297128e-07,
      "loss": 2.8885,
      "step": 7619
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.6340377330780029,
      "learning_rate": 7.917503661393211e-07,
      "loss": 2.8264,
      "step": 7620
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.6120426058769226,
      "learning_rate": 7.835287436361305e-07,
      "loss": 2.9823,
      "step": 7621
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.642509937286377,
      "learning_rate": 7.753499643334827e-07,
      "loss": 2.8051,
      "step": 7622
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.6207035779953003,
      "learning_rate": 7.672140296374475e-07,
      "loss": 2.8435,
      "step": 7623
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.6242079138755798,
      "learning_rate": 7.591209409466837e-07,
      "loss": 2.8893,
      "step": 7624
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.6320134401321411,
      "learning_rate": 7.510706996524675e-07,
      "loss": 2.8889,
      "step": 7625
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.6315987706184387,
      "learning_rate": 7.430633071387749e-07,
      "loss": 2.969,
      "step": 7626
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.6283516883850098,
      "learning_rate": 7.350987647820884e-07,
      "loss": 2.9276,
      "step": 7627
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.6484090089797974,
      "learning_rate": 7.271770739516737e-07,
      "loss": 2.8716,
      "step": 7628
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.5908072590827942,
      "learning_rate": 7.19298236009358e-07,
      "loss": 2.8881,
      "step": 7629
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.6565141677856445,
      "learning_rate": 7.114622523095305e-07,
      "loss": 2.6709,
      "step": 7630
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.6521929502487183,
      "learning_rate": 7.036691241993909e-07,
      "loss": 2.9079,
      "step": 7631
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.6100581288337708,
      "learning_rate": 6.9591885301859e-07,
      "loss": 2.9435,
      "step": 7632
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.5888797640800476,
      "learning_rate": 6.882114400995343e-07,
      "loss": 2.865,
      "step": 7633
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.6025514006614685,
      "learning_rate": 6.805468867672193e-07,
      "loss": 2.7559,
      "step": 7634
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.6581975817680359,
      "learning_rate": 6.729251943392301e-07,
      "loss": 2.8647,
      "step": 7635
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.6294992566108704,
      "learning_rate": 6.653463641258517e-07,
      "loss": 2.8385,
      "step": 7636
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.6153014898300171,
      "learning_rate": 6.578103974299588e-07,
      "loss": 2.8828,
      "step": 7637
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.6276757121086121,
      "learning_rate": 6.503172955470982e-07,
      "loss": 2.9477,
      "step": 7638
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.5919466614723206,
      "learning_rate": 6.428670597654062e-07,
      "loss": 2.8657,
      "step": 7639
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.5806512832641602,
      "learning_rate": 6.354596913656363e-07,
      "loss": 2.7741,
      "step": 7640
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.7004684805870056,
      "learning_rate": 6.280951916212418e-07,
      "loss": 2.8532,
      "step": 7641
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.5610856413841248,
      "learning_rate": 6.207735617982657e-07,
      "loss": 2.9699,
      "step": 7642
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.650334894657135,
      "learning_rate": 6.134948031553678e-07,
      "loss": 2.8511,
      "step": 7643
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.6269125938415527,
      "learning_rate": 6.062589169438248e-07,
      "loss": 2.9514,
      "step": 7644
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.5963506698608398,
      "learning_rate": 5.990659044076141e-07,
      "loss": 2.768,
      "step": 7645
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.5972033143043518,
      "learning_rate": 5.919157667832464e-07,
      "loss": 2.847,
      "step": 7646
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.5762356519699097,
      "learning_rate": 5.848085052999885e-07,
      "loss": 2.8886,
      "step": 7647
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.659934937953949,
      "learning_rate": 5.777441211795853e-07,
      "loss": 2.9567,
      "step": 7648
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.6450516581535339,
      "learning_rate": 5.707226156365375e-07,
      "loss": 2.8406,
      "step": 7649
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.6006518006324768,
      "learning_rate": 5.637439898779073e-07,
      "loss": 2.8559,
      "step": 7650
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.6445028185844421,
      "learning_rate": 5.56808245103374e-07,
      "loss": 2.9341,
      "step": 7651
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.6405050158500671,
      "learning_rate": 5.499153825053171e-07,
      "loss": 2.9868,
      "step": 7652
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.5969674587249756,
      "learning_rate": 5.430654032686777e-07,
      "loss": 2.7629,
      "step": 7653
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.6284798979759216,
      "learning_rate": 5.362583085710416e-07,
      "loss": 2.8804,
      "step": 7654
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.6193313598632812,
      "learning_rate": 5.294940995826392e-07,
      "loss": 2.9381,
      "step": 7655
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.5933945775032043,
      "learning_rate": 5.227727774663182e-07,
      "loss": 2.7474,
      "step": 7656
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.6991664171218872,
      "learning_rate": 5.160943433775434e-07,
      "loss": 2.9081,
      "step": 7657
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.6755208969116211,
      "learning_rate": 5.094587984643962e-07,
      "loss": 2.8541,
      "step": 7658
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.5994952917098999,
      "learning_rate": 5.028661438676308e-07,
      "loss": 2.9951,
      "step": 7659
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.634234607219696,
      "learning_rate": 4.963163807205906e-07,
      "loss": 2.9435,
      "step": 7660
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.5840886831283569,
      "learning_rate": 4.898095101492916e-07,
      "loss": 2.8616,
      "step": 7661
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.6139294505119324,
      "learning_rate": 4.833455332722836e-07,
      "loss": 2.9367,
      "step": 7662
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.6119964718818665,
      "learning_rate": 4.769244512008164e-07,
      "loss": 2.8733,
      "step": 7663
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.6293887495994568,
      "learning_rate": 4.7054626503878484e-07,
      "loss": 3.0411,
      "step": 7664
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.6007971167564392,
      "learning_rate": 4.642109758826174e-07,
      "loss": 2.9258,
      "step": 7665
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.5591975450515747,
      "learning_rate": 4.579185848214429e-07,
      "loss": 2.8425,
      "step": 7666
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.6138599514961243,
      "learning_rate": 4.5166909293703487e-07,
      "loss": 2.8824,
      "step": 7667
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.6163057088851929,
      "learning_rate": 4.454625013037006e-07,
      "loss": 2.7184,
      "step": 7668
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.6172084212303162,
      "learning_rate": 4.392988109884477e-07,
      "loss": 2.9969,
      "step": 7669
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.6393521428108215,
      "learning_rate": 4.331780230509008e-07,
      "loss": 2.9389,
      "step": 7670
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.5948509573936462,
      "learning_rate": 4.271001385432738e-07,
      "loss": 2.9832,
      "step": 7671
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.6409779191017151,
      "learning_rate": 4.2106515851042524e-07,
      "loss": 2.7068,
      "step": 7672
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.6178467273712158,
      "learning_rate": 4.150730839898309e-07,
      "loss": 2.8712,
      "step": 7673
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.6887918710708618,
      "learning_rate": 4.0912391601161115e-07,
      "loss": 2.9232,
      "step": 7674
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.636929988861084,
      "learning_rate": 4.032176555985034e-07,
      "loss": 2.8237,
      "step": 7675
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.6298782825469971,
      "learning_rate": 3.9735430376586224e-07,
      "loss": 2.8498,
      "step": 7676
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.6076899766921997,
      "learning_rate": 3.9153386152165905e-07,
      "loss": 2.7439,
      "step": 7677
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.5799235105514526,
      "learning_rate": 3.8575632986648236e-07,
      "loss": 2.8039,
      "step": 7678
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.5750217437744141,
      "learning_rate": 3.800217097935932e-07,
      "loss": 2.8452,
      "step": 7679
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.6024434566497803,
      "learning_rate": 3.7433000228878635e-07,
      "loss": 2.85,
      "step": 7680
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.5919597148895264,
      "learning_rate": 3.6868120833055686e-07,
      "loss": 2.8378,
      "step": 7681
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.642174243927002,
      "learning_rate": 3.630753288900446e-07,
      "loss": 2.8941,
      "step": 7682
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.6211053133010864,
      "learning_rate": 3.575123649308953e-07,
      "loss": 2.9949,
      "step": 7683
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.5880764722824097,
      "learning_rate": 3.5199231740945525e-07,
      "loss": 2.9241,
      "step": 7684
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.6129250526428223,
      "learning_rate": 3.4651518727474294e-07,
      "loss": 2.8658,
      "step": 7685
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.6158447265625,
      "learning_rate": 3.410809754682831e-07,
      "loss": 2.877,
      "step": 7686
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.6138414740562439,
      "learning_rate": 3.356896829243006e-07,
      "loss": 2.7454,
      "step": 7687
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.6514490246772766,
      "learning_rate": 3.303413105696096e-07,
      "loss": 2.8701,
      "step": 7688
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.6784124970436096,
      "learning_rate": 3.250358593236691e-07,
      "loss": 2.8922,
      "step": 7689
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.6637452840805054,
      "learning_rate": 3.19773330098555e-07,
      "loss": 2.8872,
      "step": 7690
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.5780820846557617,
      "learning_rate": 3.1455372379893267e-07,
      "loss": 2.7059,
      "step": 7691
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.6034252047538757,
      "learning_rate": 3.0937704132213975e-07,
      "loss": 2.8391,
      "step": 7692
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.6012634634971619,
      "learning_rate": 3.0424328355810326e-07,
      "loss": 2.922,
      "step": 7693
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.5928614139556885,
      "learning_rate": 2.9915245138933957e-07,
      "loss": 2.9608,
      "step": 7694
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.5989590883255005,
      "learning_rate": 2.9410454569106516e-07,
      "loss": 2.9261,
      "step": 7695
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.6400012373924255,
      "learning_rate": 2.8909956733105815e-07,
      "loss": 2.893,
      "step": 7696
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.5941050052642822,
      "learning_rate": 2.841375171697413e-07,
      "loss": 2.8566,
      "step": 7697
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.6097645163536072,
      "learning_rate": 2.792183960601269e-07,
      "loss": 2.7119,
      "step": 7698
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.6418949365615845,
      "learning_rate": 2.743422048478994e-07,
      "loss": 2.9146,
      "step": 7699
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.6181713938713074,
      "learning_rate": 2.69508944371305e-07,
      "loss": 2.8877,
      "step": 7700
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.6067436337471008,
      "learning_rate": 2.6471861546123465e-07,
      "loss": 2.7533,
      "step": 7701
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.6695713400840759,
      "learning_rate": 2.59971218941224e-07,
      "loss": 2.9036,
      "step": 7702
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.6143978834152222,
      "learning_rate": 2.55266755627398e-07,
      "loss": 2.8591,
      "step": 7703
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.5838505029678345,
      "learning_rate": 2.506052263284986e-07,
      "loss": 2.9692,
      "step": 7704
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.6078206896781921,
      "learning_rate": 2.4598663184591254e-07,
      "loss": 2.8592,
      "step": 7705
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.6519700288772583,
      "learning_rate": 2.414109729736158e-07,
      "loss": 3.042,
      "step": 7706
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.6207031607627869,
      "learning_rate": 2.368782504982292e-07,
      "loss": 2.9104,
      "step": 7707
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.610025942325592,
      "learning_rate": 2.3238846519896274e-07,
      "loss": 2.8895,
      "step": 7708
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.5959651470184326,
      "learning_rate": 2.2794161784769896e-07,
      "loss": 2.813,
      "step": 7709
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.5941688418388367,
      "learning_rate": 2.235377092088542e-07,
      "loss": 2.9351,
      "step": 7710
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.5978637337684631,
      "learning_rate": 2.1917674003954502e-07,
      "loss": 2.9539,
      "step": 7711
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.5926148891448975,
      "learning_rate": 2.1485871108944955e-07,
      "loss": 2.8074,
      "step": 7712
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.6059903502464294,
      "learning_rate": 2.1058362310091837e-07,
      "loss": 2.822,
      "step": 7713
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.6814078092575073,
      "learning_rate": 2.0635147680886368e-07,
      "loss": 2.8791,
      "step": 7714
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.6582357883453369,
      "learning_rate": 2.0216227294084234e-07,
      "loss": 2.9082,
      "step": 7715
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.6000322103500366,
      "learning_rate": 1.9801601221702825e-07,
      "loss": 2.8351,
      "step": 7716
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.6189367175102234,
      "learning_rate": 1.939126953502124e-07,
      "loss": 2.8394,
      "step": 7717
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.6409351229667664,
      "learning_rate": 1.8985232304580268e-07,
      "loss": 2.8923,
      "step": 7718
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.629478394985199,
      "learning_rate": 1.8583489600182413e-07,
      "loss": 2.8336,
      "step": 7719
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.6182193160057068,
      "learning_rate": 1.8186041490894646e-07,
      "loss": 2.853,
      "step": 7720
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.6151663064956665,
      "learning_rate": 1.7792888045037315e-07,
      "loss": 2.9748,
      "step": 7721
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.6215619444847107,
      "learning_rate": 1.7404029330203574e-07,
      "loss": 2.8058,
      "step": 7722
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.5950403213500977,
      "learning_rate": 1.7019465413239955e-07,
      "loss": 2.8835,
      "step": 7723
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.6584219336509705,
      "learning_rate": 1.6639196360257458e-07,
      "loss": 2.8976,
      "step": 7724
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.6398507356643677,
      "learning_rate": 1.6263222236628794e-07,
      "loss": 2.8831,
      "step": 7725
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.6370154619216919,
      "learning_rate": 1.589154310698837e-07,
      "loss": 2.9425,
      "step": 7726
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.5909777283668518,
      "learning_rate": 1.55241590352323e-07,
      "loss": 2.8877,
      "step": 7727
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.6434680819511414,
      "learning_rate": 1.5161070084518392e-07,
      "loss": 2.9058,
      "step": 7728
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.6573894023895264,
      "learning_rate": 1.4802276317266162e-07,
      "loss": 2.9064,
      "step": 7729
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.6256694197654724,
      "learning_rate": 1.444777779515405e-07,
      "loss": 2.9043,
      "step": 7730
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.6252492070198059,
      "learning_rate": 1.4097574579127749e-07,
      "loss": 2.8196,
      "step": 7731
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.5815240144729614,
      "learning_rate": 1.37516667293891e-07,
      "loss": 2.8138,
      "step": 7732
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.5434343218803406,
      "learning_rate": 1.3410054305404428e-07,
      "loss": 2.9318,
      "step": 7733
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.5710508823394775,
      "learning_rate": 1.3072737365901755e-07,
      "loss": 2.893,
      "step": 7734
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.6310078501701355,
      "learning_rate": 1.2739715968868028e-07,
      "loss": 2.8616,
      "step": 7735
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.5676125288009644,
      "learning_rate": 1.241099017155467e-07,
      "loss": 2.8339,
      "step": 7736
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.6433702111244202,
      "learning_rate": 1.2086560030474813e-07,
      "loss": 2.8813,
      "step": 7737
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.6168544888496399,
      "learning_rate": 1.1766425601397734e-07,
      "loss": 2.852,
      "step": 7738
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.6471039056777954,
      "learning_rate": 1.1450586939362739e-07,
      "loss": 2.8816,
      "step": 7739
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.6079813838005066,
      "learning_rate": 1.1139044098662509e-07,
      "loss": 2.8781,
      "step": 7740
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.622934877872467,
      "learning_rate": 1.0831797132854204e-07,
      "loss": 2.9362,
      "step": 7741
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.6457346677780151,
      "learning_rate": 1.0528846094762234e-07,
      "loss": 2.9091,
      "step": 7742
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.57863450050354,
      "learning_rate": 1.0230191036464388e-07,
      "loss": 2.8204,
      "step": 7743
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.6216568350791931,
      "learning_rate": 9.93583200930015e-08,
      "loss": 2.8641,
      "step": 7744
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.5849623680114746,
      "learning_rate": 9.645769063879039e-08,
      "loss": 2.8982,
      "step": 7745
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.6372119188308716,
      "learning_rate": 9.360002250061172e-08,
      "loss": 2.942,
      "step": 7746
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.5813233256340027,
      "learning_rate": 9.078531616976693e-08,
      "loss": 2.9383,
      "step": 7747
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.59348064661026,
      "learning_rate": 8.801357213011896e-08,
      "loss": 2.8628,
      "step": 7748
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.6136904954910278,
      "learning_rate": 8.528479085817554e-08,
      "loss": 2.8043,
      "step": 7749
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.6610960960388184,
      "learning_rate": 8.259897282303363e-08,
      "loss": 2.9875,
      "step": 7750
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.622201144695282,
      "learning_rate": 7.995611848640728e-08,
      "loss": 2.8714,
      "step": 7751
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.6171503663063049,
      "learning_rate": 7.735622830265521e-08,
      "loss": 2.7913,
      "step": 7752
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.6015862822532654,
      "learning_rate": 7.479930271869773e-08,
      "loss": 2.7956,
      "step": 7753
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.6053145527839661,
      "learning_rate": 7.228534217415539e-08,
      "loss": 2.8919,
      "step": 7754
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.6291929483413696,
      "learning_rate": 6.981434710115475e-08,
      "loss": 2.8152,
      "step": 7755
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.6350823044776917,
      "learning_rate": 6.738631792452266e-08,
      "loss": 2.8189,
      "step": 7756
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.6108322143554688,
      "learning_rate": 6.500125506161969e-08,
      "loss": 2.9417,
      "step": 7757
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.5904684662818909,
      "learning_rate": 6.265915892253448e-08,
      "loss": 2.7322,
      "step": 7758
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.6043854355812073,
      "learning_rate": 6.036002990983391e-08,
      "loss": 2.785,
      "step": 7759
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.6046289801597595,
      "learning_rate": 5.810386841878512e-08,
      "loss": 2.8345,
      "step": 7760
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.6849513053894043,
      "learning_rate": 5.5890674837272285e-08,
      "loss": 2.9686,
      "step": 7761
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.6064351797103882,
      "learning_rate": 5.3720449545768826e-08,
      "loss": 2.9427,
      "step": 7762
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.6298645734786987,
      "learning_rate": 5.159319291733744e-08,
      "loss": 2.8568,
      "step": 7763
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.6017290353775024,
      "learning_rate": 4.950890531765784e-08,
      "loss": 2.8599,
      "step": 7764
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.6338615417480469,
      "learning_rate": 4.746758710511001e-08,
      "loss": 2.9735,
      "step": 7765
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.6069139838218689,
      "learning_rate": 4.546923863055219e-08,
      "loss": 2.8846,
      "step": 7766
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.6107558012008667,
      "learning_rate": 4.351386023757064e-08,
      "loss": 2.935,
      "step": 7767
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.56008380651474,
      "learning_rate": 4.1601452262313155e-08,
      "loss": 2.913,
      "step": 7768
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.5764326453208923,
      "learning_rate": 3.973201503351675e-08,
      "loss": 2.9796,
      "step": 7769
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.558915913105011,
      "learning_rate": 3.790554887256326e-08,
      "loss": 2.8629,
      "step": 7770
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.6282009482383728,
      "learning_rate": 3.612205409347924e-08,
      "loss": 2.8801,
      "step": 7771
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.6437585353851318,
      "learning_rate": 3.438153100282504e-08,
      "loss": 2.9544,
      "step": 7772
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.6486802697181702,
      "learning_rate": 3.2683979899833514e-08,
      "loss": 2.8325,
      "step": 7773
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.6303402781486511,
      "learning_rate": 3.1029401076354546e-08,
      "loss": 2.9103,
      "step": 7774
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.5542967915534973,
      "learning_rate": 2.9417794816799515e-08,
      "loss": 2.806,
      "step": 7775
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.6260055303573608,
      "learning_rate": 2.7849161398224575e-08,
      "loss": 2.7864,
      "step": 7776
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.6311245560646057,
      "learning_rate": 2.632350109033066e-08,
      "loss": 2.8056,
      "step": 7777
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.5846065878868103,
      "learning_rate": 2.484081415535244e-08,
      "loss": 2.8082,
      "step": 7778
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.6031561493873596,
      "learning_rate": 2.3401100848197132e-08,
      "loss": 2.866,
      "step": 7779
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.5892522931098938,
      "learning_rate": 2.2004361416361195e-08,
      "loss": 2.9001,
      "step": 7780
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.614888072013855,
      "learning_rate": 2.0650596099985874e-08,
      "loss": 2.9213,
      "step": 7781
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.5927478671073914,
      "learning_rate": 1.9339805131773912e-08,
      "loss": 2.9491,
      "step": 7782
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.6006001830101013,
      "learning_rate": 1.8071988737100585e-08,
      "loss": 2.8203,
      "step": 7783
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.6696375608444214,
      "learning_rate": 1.6847147133847163e-08,
      "loss": 2.8172,
      "step": 7784
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.611217737197876,
      "learning_rate": 1.5665280532650705e-08,
      "loss": 2.9137,
      "step": 7785
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.5970978140830994,
      "learning_rate": 1.4526389136654273e-08,
      "loss": 2.7938,
      "step": 7786
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.6031782031059265,
      "learning_rate": 1.3430473141645694e-08,
      "loss": 2.7903,
      "step": 7787
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.5999855995178223,
      "learning_rate": 1.2377532736057572e-08,
      "loss": 2.8968,
      "step": 7788
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.6136096119880676,
      "learning_rate": 1.1367568100856262e-08,
      "loss": 2.8579,
      "step": 7789
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.6180245876312256,
      "learning_rate": 1.0400579409680643e-08,
      "loss": 2.8848,
      "step": 7790
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.5802303552627563,
      "learning_rate": 9.476566828786615e-09,
      "loss": 2.9121,
      "step": 7791
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.6451939940452576,
      "learning_rate": 8.595530516991579e-09,
      "loss": 2.8019,
      "step": 7792
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.6048731803894043,
      "learning_rate": 7.757470625785467e-09,
      "loss": 2.847,
      "step": 7793
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.6246634125709534,
      "learning_rate": 6.962387299219719e-09,
      "loss": 2.8689,
      "step": 7794
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.5960928201675415,
      "learning_rate": 6.210280674018298e-09,
      "loss": 2.7693,
      "step": 7795
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.6611245274543762,
      "learning_rate": 5.501150879411165e-09,
      "loss": 2.9427,
      "step": 7796
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.6280268430709839,
      "learning_rate": 4.8349980373563195e-09,
      "loss": 2.8502,
      "step": 7797
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.6879075169563293,
      "learning_rate": 4.2118222623455105e-09,
      "loss": 2.7991,
      "step": 7798
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.6381857991218567,
      "learning_rate": 3.6316236615430154e-09,
      "loss": 2.9055,
      "step": 7799
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.6247170567512512,
      "learning_rate": 3.0944023346746175e-09,
      "loss": 2.7737,
      "step": 7800
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.5879492163658142,
      "learning_rate": 2.6001583740553615e-09,
      "loss": 2.8931,
      "step": 7801
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.605059802532196,
      "learning_rate": 2.1488918647283307e-09,
      "loss": 2.8771,
      "step": 7802
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.6122245192527771,
      "learning_rate": 1.7406028842148481e-09,
      "loss": 2.9436,
      "step": 7803
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.6060205698013306,
      "learning_rate": 1.3752915027087642e-09,
      "loss": 2.8714,
      "step": 7804
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.6768988966941833,
      "learning_rate": 1.0529577830209468e-09,
      "loss": 2.91,
      "step": 7805
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.6756672263145447,
      "learning_rate": 7.736017805792805e-10,
      "loss": 2.8809,
      "step": 7806
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.5955219268798828,
      "learning_rate": 5.37223543400911e-10,
      "loss": 2.8111,
      "step": 7807
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.6136636734008789,
      "learning_rate": 3.4382311209224526e-10,
      "loss": 2.9348,
      "step": 7808
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.6247251033782959,
      "learning_rate": 1.9340051995997422e-10,
      "loss": 2.6951,
      "step": 7809
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.633080244064331,
      "learning_rate": 8.595579281678311e-11,
      "loss": 2.8796,
      "step": 7810
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.5902648568153381,
      "learning_rate": 2.1488949120129775e-11,
      "loss": 2.8179,
      "step": 7811
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.5971829295158386,
      "learning_rate": 0.0,
      "loss": 2.9445,
      "step": 7812
    },
    {
      "epoch": 1.0,
      "step": 7812,
      "total_flos": 1.6210437227686134e+18,
      "train_loss": 3.0088094759463533,
      "train_runtime": 35554.6131,
      "train_samples_per_second": 56.251,
      "train_steps_per_second": 0.22
    }
  ],
  "logging_steps": 1.0,
  "max_steps": 7812,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 24000,
  "total_flos": 1.6210437227686134e+18,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}