{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 1.0,
  "eval_steps": 500,
  "global_step": 2181,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0,
      "grad_norm": 9.276778865651476,
      "learning_rate": 1.5151515151515153e-05,
      "loss": 9.3291,
      "step": 1
    },
    {
      "epoch": 0.0,
      "grad_norm": 10.068179249952477,
      "learning_rate": 3.0303030303030306e-05,
      "loss": 9.4088,
      "step": 2
    },
    {
      "epoch": 0.0,
      "grad_norm": 11.92287739236364,
      "learning_rate": 4.545454545454546e-05,
      "loss": 9.2963,
      "step": 3
    },
    {
      "epoch": 0.0,
      "grad_norm": 122.06652477365222,
      "learning_rate": 6.060606060606061e-05,
      "loss": 10.7349,
      "step": 4
    },
    {
      "epoch": 0.0,
      "grad_norm": 415.7047275010486,
      "learning_rate": 7.575757575757576e-05,
      "loss": 12.0559,
      "step": 5
    },
    {
      "epoch": 0.0,
      "grad_norm": 95.80958845282372,
      "learning_rate": 9.090909090909092e-05,
      "loss": 9.2006,
      "step": 6
    },
    {
      "epoch": 0.0,
      "grad_norm": 19.948980827475904,
      "learning_rate": 0.00010606060606060606,
      "loss": 8.5216,
      "step": 7
    },
    {
      "epoch": 0.0,
      "grad_norm": 14.929490251118091,
      "learning_rate": 0.00012121212121212122,
      "loss": 8.3209,
      "step": 8
    },
    {
      "epoch": 0.0,
      "grad_norm": 13.722311117914337,
      "learning_rate": 0.00013636363636363637,
      "loss": 8.1392,
      "step": 9
    },
    {
      "epoch": 0.0,
      "grad_norm": 12.500493123274177,
      "learning_rate": 0.00015151515151515152,
      "loss": 8.0336,
      "step": 10
    },
    {
      "epoch": 0.01,
      "grad_norm": 8.634810401889196,
      "learning_rate": 0.00016666666666666666,
      "loss": 7.8793,
      "step": 11
    },
    {
      "epoch": 0.01,
      "grad_norm": 6.595810633463706,
      "learning_rate": 0.00018181818181818183,
      "loss": 7.8074,
      "step": 12
    },
    {
      "epoch": 0.01,
      "grad_norm": 7.23993464068514,
      "learning_rate": 0.00019696969696969695,
      "loss": 7.7949,
      "step": 13
    },
    {
      "epoch": 0.01,
      "grad_norm": 6.844547288871848,
      "learning_rate": 0.00021212121212121213,
      "loss": 7.7203,
      "step": 14
    },
    {
      "epoch": 0.01,
      "grad_norm": 5.013761192544653,
      "learning_rate": 0.00022727272727272727,
      "loss": 7.6495,
      "step": 15
    },
    {
      "epoch": 0.01,
      "grad_norm": 3.2870875526548478,
      "learning_rate": 0.00024242424242424245,
      "loss": 7.5373,
      "step": 16
    },
    {
      "epoch": 0.01,
      "grad_norm": 2.8559792859946014,
      "learning_rate": 0.00025757575757575756,
      "loss": 7.5026,
      "step": 17
    },
    {
      "epoch": 0.01,
      "grad_norm": 3.0948996554879518,
      "learning_rate": 0.00027272727272727274,
      "loss": 7.4779,
      "step": 18
    },
    {
      "epoch": 0.01,
      "grad_norm": 2.924680843254088,
      "learning_rate": 0.0002878787878787879,
      "loss": 7.5143,
      "step": 19
    },
    {
      "epoch": 0.01,
      "grad_norm": 2.7967506814161327,
      "learning_rate": 0.00030303030303030303,
      "loss": 7.3383,
      "step": 20
    },
    {
      "epoch": 0.01,
      "grad_norm": 2.3157147279041372,
      "learning_rate": 0.0003181818181818182,
      "loss": 7.3903,
      "step": 21
    },
    {
      "epoch": 0.01,
      "grad_norm": 1.8753691357400681,
      "learning_rate": 0.0003333333333333333,
      "loss": 7.4149,
      "step": 22
    },
    {
      "epoch": 0.01,
      "grad_norm": 1.811525848722735,
      "learning_rate": 0.0003484848484848485,
      "loss": 7.4658,
      "step": 23
    },
    {
      "epoch": 0.01,
      "grad_norm": 1.617142435331294,
      "learning_rate": 0.00036363636363636367,
      "loss": 7.3894,
      "step": 24
    },
    {
      "epoch": 0.01,
      "grad_norm": 1.517698266462254,
      "learning_rate": 0.0003787878787878788,
      "loss": 7.3322,
      "step": 25
    },
    {
      "epoch": 0.01,
      "grad_norm": 1.3781838730840346,
      "learning_rate": 0.0003939393939393939,
      "loss": 7.281,
      "step": 26
    },
    {
      "epoch": 0.01,
      "grad_norm": 1.4153908488189944,
      "learning_rate": 0.00040909090909090913,
      "loss": 7.2344,
      "step": 27
    },
    {
      "epoch": 0.01,
      "grad_norm": 1.25372611941598,
      "learning_rate": 0.00042424242424242425,
      "loss": 7.2446,
      "step": 28
    },
    {
      "epoch": 0.01,
      "grad_norm": 1.2035322476548116,
      "learning_rate": 0.0004393939393939394,
      "loss": 7.2649,
      "step": 29
    },
    {
      "epoch": 0.01,
      "grad_norm": 1.2018798041039838,
      "learning_rate": 0.00045454545454545455,
      "loss": 7.1485,
      "step": 30
    },
    {
      "epoch": 0.01,
      "grad_norm": 1.2497689287792706,
      "learning_rate": 0.0004696969696969697,
      "loss": 7.0287,
      "step": 31
    },
    {
      "epoch": 0.01,
      "grad_norm": 1.0865210933936602,
      "learning_rate": 0.0004848484848484849,
      "loss": 7.0542,
      "step": 32
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.0678261226452528,
      "learning_rate": 0.0005,
      "loss": 7.086,
      "step": 33
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.282938584014534,
      "learning_rate": 0.0005151515151515151,
      "loss": 7.0166,
      "step": 34
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.2071863688554345,
      "learning_rate": 0.0005303030303030302,
      "loss": 6.9988,
      "step": 35
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.015391536075209,
      "learning_rate": 0.0005454545454545455,
      "loss": 6.9388,
      "step": 36
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.1054166823203035,
      "learning_rate": 0.0005606060606060606,
      "loss": 6.8466,
      "step": 37
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.2827183930325976,
      "learning_rate": 0.0005757575757575758,
      "loss": 6.94,
      "step": 38
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.5602733307994154,
      "learning_rate": 0.0005909090909090909,
      "loss": 6.8012,
      "step": 39
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.830041415527943,
      "learning_rate": 0.0006060606060606061,
      "loss": 6.763,
      "step": 40
    },
    {
      "epoch": 0.02,
      "grad_norm": 2.687730945448088,
      "learning_rate": 0.0006212121212121212,
      "loss": 6.6156,
      "step": 41
    },
    {
      "epoch": 0.02,
      "grad_norm": 2.947570782496391,
      "learning_rate": 0.0006363636363636364,
      "loss": 6.3367,
      "step": 42
    },
    {
      "epoch": 0.02,
      "grad_norm": 2.28725742442228,
      "learning_rate": 0.0006515151515151515,
      "loss": 6.1758,
      "step": 43
    },
    {
      "epoch": 0.02,
      "grad_norm": 2.7718352801251065,
      "learning_rate": 0.0006666666666666666,
      "loss": 5.9784,
      "step": 44
    },
    {
      "epoch": 0.02,
      "grad_norm": 2.5862921004317454,
      "learning_rate": 0.0006818181818181818,
      "loss": 5.8418,
      "step": 45
    },
    {
      "epoch": 0.02,
      "grad_norm": 3.237794285015446,
      "learning_rate": 0.000696969696969697,
      "loss": 5.4608,
      "step": 46
    },
    {
      "epoch": 0.02,
      "grad_norm": 2.2815972976044954,
      "learning_rate": 0.0007121212121212122,
      "loss": 5.1734,
      "step": 47
    },
    {
      "epoch": 0.02,
      "grad_norm": 2.49926492260167,
      "learning_rate": 0.0007272727272727273,
      "loss": 5.0031,
      "step": 48
    },
    {
      "epoch": 0.02,
      "grad_norm": 2.211303265960809,
      "learning_rate": 0.0007424242424242425,
      "loss": 4.7418,
      "step": 49
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.838716796157688,
      "learning_rate": 0.0007575757575757576,
      "loss": 4.6714,
      "step": 50
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.9195940820865636,
      "learning_rate": 0.0007727272727272727,
      "loss": 4.4359,
      "step": 51
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.5918312602326643,
      "learning_rate": 0.0007878787878787878,
      "loss": 4.4499,
      "step": 52
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.2736632817436415,
      "learning_rate": 0.000803030303030303,
      "loss": 4.2144,
      "step": 53
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.049207857706905,
      "learning_rate": 0.0008181818181818183,
      "loss": 4.1989,
      "step": 54
    },
    {
      "epoch": 0.03,
      "grad_norm": 2.202643931379453,
      "learning_rate": 0.0008333333333333334,
      "loss": 4.0906,
      "step": 55
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.8607226166760582,
      "learning_rate": 0.0008484848484848485,
      "loss": 3.9744,
      "step": 56
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.0825469588864831,
      "learning_rate": 0.0008636363636363636,
      "loss": 3.9182,
      "step": 57
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.7841064930136429,
      "learning_rate": 0.0008787878787878789,
      "loss": 3.8578,
      "step": 58
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.758844328202034,
      "learning_rate": 0.000893939393939394,
      "loss": 3.6288,
      "step": 59
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.6438750933335913,
      "learning_rate": 0.0009090909090909091,
      "loss": 3.6489,
      "step": 60
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5489417983073893,
      "learning_rate": 0.0009242424242424242,
      "loss": 3.7539,
      "step": 61
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.48860682796151816,
      "learning_rate": 0.0009393939393939394,
      "loss": 3.6235,
      "step": 62
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.37603159220295157,
      "learning_rate": 0.0009545454545454546,
      "loss": 3.6487,
      "step": 63
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.3339837419223632,
      "learning_rate": 0.0009696969696969698,
      "loss": 3.5487,
      "step": 64
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.3263180140159836,
      "learning_rate": 0.000984848484848485,
      "loss": 3.465,
      "step": 65
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.30383597716487587,
      "learning_rate": 0.001,
      "loss": 3.4441,
      "step": 66
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.2824319295823937,
      "learning_rate": 0.0009999994484067654,
      "loss": 3.476,
      "step": 67
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.2434432044529776,
      "learning_rate": 0.0009999977936282788,
      "loss": 3.4811,
      "step": 68
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.2634307061345765,
      "learning_rate": 0.0009999950356681913,
      "loss": 3.5241,
      "step": 69
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.31586829956648155,
      "learning_rate": 0.0009999911745325876,
      "loss": 3.4665,
      "step": 70
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.24458173416765733,
      "learning_rate": 0.0009999862102299873,
      "loss": 3.4465,
      "step": 71
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.2105152278183532,
      "learning_rate": 0.0009999801427713433,
      "loss": 3.4103,
      "step": 72
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.18722240637190138,
      "learning_rate": 0.0009999729721700424,
      "loss": 3.3528,
      "step": 73
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.18396418478270757,
      "learning_rate": 0.000999964698441906,
      "loss": 3.379,
      "step": 74
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.18698052283862707,
      "learning_rate": 0.0009999553216051892,
      "loss": 3.3306,
      "step": 75
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.16890742723885532,
      "learning_rate": 0.00099994484168058,
      "loss": 3.4253,
      "step": 76
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.19763850037520042,
      "learning_rate": 0.0009999332586912019,
      "loss": 3.5013,
      "step": 77
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.17469301438705553,
      "learning_rate": 0.0009999205726626108,
      "loss": 3.3526,
      "step": 78
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.14847827136306313,
      "learning_rate": 0.000999906783622797,
      "loss": 3.362,
      "step": 79
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.17486659217855263,
      "learning_rate": 0.0009998918916021842,
      "loss": 3.363,
      "step": 80
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.13084415235059893,
      "learning_rate": 0.0009998758966336297,
      "loss": 3.3653,
      "step": 81
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.19211239032563682,
      "learning_rate": 0.0009998587987524242,
      "loss": 3.359,
      "step": 82
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.1658025510274354,
      "learning_rate": 0.0009998405979962926,
      "loss": 3.3162,
      "step": 83
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.14008825034952763,
      "learning_rate": 0.000999821294405392,
      "loss": 3.4494,
      "step": 84
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.15957755280049488,
      "learning_rate": 0.0009998008880223134,
      "loss": 3.3133,
      "step": 85
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.1770424645669944,
      "learning_rate": 0.000999779378892081,
      "loss": 3.3945,
      "step": 86
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.14490434581191872,
      "learning_rate": 0.0009997567670621522,
      "loss": 3.3528,
      "step": 87
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.17082742143521923,
      "learning_rate": 0.0009997330525824165,
      "loss": 3.3333,
      "step": 88
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.14694834182764782,
      "learning_rate": 0.0009997082355051976,
      "loss": 3.3615,
      "step": 89
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.16319012418457282,
      "learning_rate": 0.000999682315885251,
      "loss": 3.3004,
      "step": 90
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.15527670158783016,
      "learning_rate": 0.0009996552937797645,
      "loss": 3.3652,
      "step": 91
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.15715985763983392,
      "learning_rate": 0.0009996271692483596,
      "loss": 3.3179,
      "step": 92
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.17440290598636224,
      "learning_rate": 0.0009995979423530893,
      "loss": 3.3099,
      "step": 93
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.16836687637136374,
      "learning_rate": 0.000999567613158439,
      "loss": 3.2302,
      "step": 94
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.1489599604456019,
      "learning_rate": 0.0009995361817313263,
      "loss": 3.2752,
      "step": 95
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.1767457317531267,
      "learning_rate": 0.0009995036481411004,
      "loss": 3.3289,
      "step": 96
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.18063494581517642,
      "learning_rate": 0.0009994700124595429,
      "loss": 3.2878,
      "step": 97
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.1802207674037492,
      "learning_rate": 0.0009994352747608663,
      "loss": 3.2735,
      "step": 98
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.15251362444788172,
      "learning_rate": 0.0009993994351217151,
      "loss": 3.3012,
      "step": 99
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.14043739942816147,
      "learning_rate": 0.000999362493621165,
      "loss": 3.2281,
      "step": 100
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.14352265556879854,
      "learning_rate": 0.0009993244503407226,
      "loss": 3.2805,
      "step": 101
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.145457503290338,
      "learning_rate": 0.0009992853053643258,
      "loss": 3.2591,
      "step": 102
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.1800597331964352,
      "learning_rate": 0.0009992450587783426,
      "loss": 3.2641,
      "step": 103
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.14689429581282992,
      "learning_rate": 0.000999203710671572,
      "loss": 3.2155,
      "step": 104
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.13826747237820566,
      "learning_rate": 0.0009991612611352438,
      "loss": 3.2143,
      "step": 105
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.1413255180574283,
      "learning_rate": 0.0009991177102630173,
      "loss": 3.3487,
      "step": 106
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.1443668806091537,
      "learning_rate": 0.0009990730581509817,
      "loss": 3.1744,
      "step": 107
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.15371908083806035,
      "learning_rate": 0.0009990273048976566,
      "loss": 3.2938,
      "step": 108
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.17236581106122348,
      "learning_rate": 0.0009989804506039905,
      "loss": 3.2083,
      "step": 109
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.15613816644320858,
      "learning_rate": 0.0009989324953733614,
      "loss": 3.3496,
      "step": 110
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.1490121131003318,
      "learning_rate": 0.0009988834393115766,
      "loss": 3.2829,
      "step": 111
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.159275050436808,
      "learning_rate": 0.000998833282526872,
      "loss": 3.2769,
      "step": 112
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.14537027217377368,
      "learning_rate": 0.0009987820251299122,
      "loss": 3.3205,
      "step": 113
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.15603068060256758,
      "learning_rate": 0.00099872966723379,
      "loss": 3.2551,
      "step": 114
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.14610600341913593,
      "learning_rate": 0.0009986762089540266,
      "loss": 3.2801,
      "step": 115
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.1568858152643033,
      "learning_rate": 0.0009986216504085709,
      "loss": 3.3111,
      "step": 116
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.14389824895164327,
      "learning_rate": 0.0009985659917177991,
      "loss": 3.2552,
      "step": 117
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.1652854690582564,
      "learning_rate": 0.0009985092330045155,
      "loss": 3.2846,
      "step": 118
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.1585214976831114,
      "learning_rate": 0.0009984513743939508,
      "loss": 3.1457,
      "step": 119
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.1705004071817861,
      "learning_rate": 0.0009983924160137626,
      "loss": 3.2523,
      "step": 120
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.14208266730276778,
      "learning_rate": 0.000998332357994035,
      "loss": 3.2927,
      "step": 121
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.1433404124842588,
      "learning_rate": 0.0009982712004672786,
      "loss": 3.3028,
      "step": 122
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.15988398976161758,
      "learning_rate": 0.0009982089435684295,
      "loss": 3.285,
      "step": 123
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.15535783070244694,
      "learning_rate": 0.0009981455874348499,
      "loss": 3.1888,
      "step": 124
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.17562712796801927,
      "learning_rate": 0.0009980811322063269,
      "loss": 3.2634,
      "step": 125
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.17166556895897642,
      "learning_rate": 0.0009980155780250728,
      "loss": 3.3314,
      "step": 126
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.1666171349839114,
      "learning_rate": 0.0009979489250357243,
      "loss": 3.3132,
      "step": 127
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.16311511725845676,
      "learning_rate": 0.0009978811733853431,
      "loss": 3.2908,
      "step": 128
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.1884157359876535,
      "learning_rate": 0.0009978123232234147,
      "loss": 3.1748,
      "step": 129
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.19706835304048365,
      "learning_rate": 0.000997742374701848,
      "loss": 3.3821,
      "step": 130
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.16227197060816884,
      "learning_rate": 0.0009976713279749754,
      "loss": 3.2233,
      "step": 131
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.15008141049349968,
      "learning_rate": 0.0009975991831995528,
      "loss": 3.2746,
      "step": 132
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.15973548836678955,
      "learning_rate": 0.0009975259405347581,
      "loss": 3.3039,
      "step": 133
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.13667552888656087,
      "learning_rate": 0.0009974516001421926,
      "loss": 3.2345,
      "step": 134
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.15258579796964208,
      "learning_rate": 0.000997376162185878,
      "loss": 3.2183,
      "step": 135
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.17462206311498746,
      "learning_rate": 0.0009972996268322594,
      "loss": 3.3019,
      "step": 136
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.15178201573209105,
      "learning_rate": 0.0009972219942502017,
      "loss": 3.2322,
      "step": 137
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.15810156224325364,
      "learning_rate": 0.0009971432646109918,
      "loss": 3.2248,
      "step": 138
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.14387989938342668,
      "learning_rate": 0.0009970634380883365,
      "loss": 3.2404,
      "step": 139
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.19257216756027765,
      "learning_rate": 0.0009969825148583627,
      "loss": 3.2626,
      "step": 140
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.19628282899028,
      "learning_rate": 0.0009969004950996173,
      "loss": 3.414,
      "step": 141
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.16158460900874674,
      "learning_rate": 0.0009968173789930668,
      "loss": 3.293,
      "step": 142
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.2019956736106604,
      "learning_rate": 0.0009967331667220958,
      "loss": 3.2473,
      "step": 143
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.203563557127421,
      "learning_rate": 0.0009966478584725086,
      "loss": 3.2932,
      "step": 144
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.17724968853706732,
      "learning_rate": 0.0009965614544325263,
      "loss": 3.2889,
      "step": 145
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.22178726386165473,
      "learning_rate": 0.000996473954792789,
      "loss": 3.1759,
      "step": 146
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.20540672656178785,
      "learning_rate": 0.0009963853597463532,
      "loss": 3.216,
      "step": 147
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.1722641634919672,
      "learning_rate": 0.000996295669488693,
      "loss": 3.1793,
      "step": 148
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.20183573252365208,
      "learning_rate": 0.0009962048842176979,
      "loss": 3.3718,
      "step": 149
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.205595337454579,
      "learning_rate": 0.0009961130041336748,
      "loss": 3.2239,
      "step": 150
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.1897401416646045,
      "learning_rate": 0.0009960200294393449,
      "loss": 3.2154,
      "step": 151
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.1727483365667706,
      "learning_rate": 0.0009959259603398453,
      "loss": 3.2565,
      "step": 152
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.16320589742640365,
      "learning_rate": 0.0009958307970427275,
      "loss": 3.2702,
      "step": 153
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.16861313593304172,
      "learning_rate": 0.0009957345397579572,
      "loss": 3.2775,
      "step": 154
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.16703010824869668,
      "learning_rate": 0.0009956371886979138,
      "loss": 3.1912,
      "step": 155
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.1756146603900784,
      "learning_rate": 0.00099553874407739,
      "loss": 3.1625,
      "step": 156
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.16623278160113508,
      "learning_rate": 0.0009954392061135916,
      "loss": 3.3006,
      "step": 157
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.20992701165441835,
      "learning_rate": 0.0009953385750261364,
      "loss": 3.376,
      "step": 158
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.20619838538121768,
      "learning_rate": 0.0009952368510370538,
      "loss": 3.2063,
      "step": 159
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.2068173914228657,
      "learning_rate": 0.0009951340343707852,
      "loss": 3.216,
      "step": 160
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.19178466188639137,
      "learning_rate": 0.0009950301252541823,
      "loss": 3.214,
      "step": 161
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.2005892724564523,
      "learning_rate": 0.0009949251239165075,
      "loss": 3.2156,
      "step": 162
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.20938207278429158,
      "learning_rate": 0.000994819030589433,
      "loss": 3.2947,
      "step": 163
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.15267887418568088,
      "learning_rate": 0.00099471184550704,
      "loss": 3.129,
      "step": 164
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.1785863022442834,
      "learning_rate": 0.0009946035689058189,
      "loss": 3.254,
      "step": 165
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.18920838504728676,
      "learning_rate": 0.0009944942010246681,
      "loss": 3.1662,
      "step": 166
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.180423144504808,
      "learning_rate": 0.0009943837421048942,
      "loss": 3.1439,
      "step": 167
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.14955303622003382,
      "learning_rate": 0.0009942721923902106,
      "loss": 3.1995,
      "step": 168
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.1868136091345193,
      "learning_rate": 0.0009941595521267377,
      "loss": 3.1987,
      "step": 169
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.1586428178149235,
      "learning_rate": 0.0009940458215630017,
      "loss": 3.1995,
      "step": 170
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.2172461665637746,
      "learning_rate": 0.0009939310009499348,
      "loss": 3.2079,
      "step": 171
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.17842312463034998,
      "learning_rate": 0.000993815090540874,
      "loss": 3.2165,
      "step": 172
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.1946077995446912,
      "learning_rate": 0.000993698090591561,
      "loss": 3.2283,
      "step": 173
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.18351147307627155,
      "learning_rate": 0.0009935800013601416,
      "loss": 3.2056,
      "step": 174
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.18469226289438687,
      "learning_rate": 0.000993460823107164,
      "loss": 3.1206,
      "step": 175
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.20826989567480528,
      "learning_rate": 0.0009933405560955803,
      "loss": 3.2654,
      "step": 176
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.20250407179935637,
      "learning_rate": 0.0009932192005907446,
      "loss": 3.208,
      "step": 177
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.21598122201416228,
      "learning_rate": 0.0009930967568604118,
      "loss": 3.2487,
      "step": 178
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.18283866354346864,
      "learning_rate": 0.000992973225174739,
      "loss": 3.2129,
      "step": 179
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.20836591646451316,
      "learning_rate": 0.0009928486058062827,
      "loss": 3.1741,
      "step": 180
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.2007928361058542,
      "learning_rate": 0.0009927228990299999,
      "loss": 3.2085,
      "step": 181
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.20018979628674088,
      "learning_rate": 0.0009925961051232468,
      "loss": 3.1612,
      "step": 182
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.1671554992570511,
      "learning_rate": 0.000992468224365778,
      "loss": 3.2752,
      "step": 183
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.19405859043170406,
      "learning_rate": 0.000992339257039746,
      "loss": 3.2009,
      "step": 184
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.22010978465510905,
      "learning_rate": 0.0009922092034297006,
      "loss": 3.2569,
      "step": 185
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.18347514255082537,
      "learning_rate": 0.0009920780638225891,
      "loss": 3.1392,
      "step": 186
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.14708588199835693,
      "learning_rate": 0.0009919458385077538,
      "loss": 3.1473,
      "step": 187
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.17478024821949137,
      "learning_rate": 0.0009918125277769336,
      "loss": 3.1818,
      "step": 188
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.15793927968470275,
      "learning_rate": 0.0009916781319242614,
      "loss": 3.2005,
      "step": 189
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.16985784162561834,
      "learning_rate": 0.0009915426512462646,
      "loss": 3.1584,
      "step": 190
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.15393951021676644,
      "learning_rate": 0.0009914060860418644,
      "loss": 3.1087,
      "step": 191
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.17126395384943827,
      "learning_rate": 0.000991268436612374,
      "loss": 3.1985,
      "step": 192
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.16085334669465606,
      "learning_rate": 0.0009911297032614997,
      "loss": 3.1943,
      "step": 193
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.1606733310273139,
      "learning_rate": 0.000990989886295339,
      "loss": 3.1845,
      "step": 194
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.1672427221369579,
      "learning_rate": 0.0009908489860223804,
      "loss": 3.2987,
      "step": 195
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.2195831942308356,
      "learning_rate": 0.000990707002753502,
      "loss": 3.2415,
      "step": 196
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.1701314673776262,
      "learning_rate": 0.0009905639368019724,
      "loss": 3.2092,
      "step": 197
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.21286157681348206,
      "learning_rate": 0.0009904197884834482,
      "loss": 3.172,
      "step": 198
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.1922516166996795,
      "learning_rate": 0.0009902745581159742,
      "loss": 3.1653,
      "step": 199
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.1801100935898636,
      "learning_rate": 0.0009901282460199829,
      "loss": 3.2986,
      "step": 200
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.18731639811335776,
      "learning_rate": 0.0009899808525182935,
      "loss": 3.318,
      "step": 201
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.19686201647973092,
      "learning_rate": 0.0009898323779361107,
      "loss": 3.2099,
      "step": 202
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.16190441890144894,
      "learning_rate": 0.000989682822601025,
      "loss": 3.2138,
      "step": 203
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.1607174874920412,
      "learning_rate": 0.0009895321868430113,
      "loss": 3.2068,
      "step": 204
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.15869599071455448,
      "learning_rate": 0.0009893804709944281,
      "loss": 3.2872,
      "step": 205
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.15905594353269417,
      "learning_rate": 0.0009892276753900174,
      "loss": 3.2303,
      "step": 206
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.16359357107014397,
      "learning_rate": 0.0009890738003669028,
      "loss": 3.2739,
      "step": 207
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.20203044331711495,
      "learning_rate": 0.0009889188462645904,
      "loss": 3.2038,
      "step": 208
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.17852035238185185,
      "learning_rate": 0.0009887628134249667,
      "loss": 3.1036,
      "step": 209
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.1613783218704637,
      "learning_rate": 0.0009886057021922983,
      "loss": 3.2067,
      "step": 210
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.20833397446548102,
      "learning_rate": 0.0009884475129132311,
      "loss": 3.2372,
      "step": 211
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.17975759258912732,
      "learning_rate": 0.0009882882459367897,
      "loss": 3.1966,
      "step": 212
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.17585363577107754,
      "learning_rate": 0.0009881279016143766,
      "loss": 3.2069,
      "step": 213
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.2026514083289394,
      "learning_rate": 0.0009879664802997707,
      "loss": 3.195,
      "step": 214
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.20517841028134398,
      "learning_rate": 0.000987803982349128,
      "loss": 3.1572,
      "step": 215
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.19941862311205352,
      "learning_rate": 0.0009876404081209796,
      "loss": 3.1672,
      "step": 216
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.1607763635441475,
      "learning_rate": 0.000987475757976231,
      "loss": 3.186,
      "step": 217
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.23123565151712927,
      "learning_rate": 0.000987310032278162,
      "loss": 3.1569,
      "step": 218
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.17503674601674385,
      "learning_rate": 0.0009871432313924254,
      "loss": 3.2411,
      "step": 219
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.1892633379180223,
      "learning_rate": 0.000986975355687046,
      "loss": 3.2309,
      "step": 220
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.17161354956846966,
      "learning_rate": 0.0009868064055324204,
      "loss": 3.2966,
      "step": 221
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.17277030982096514,
      "learning_rate": 0.0009866363813013153,
      "loss": 3.2053,
      "step": 222
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.1788040095180619,
      "learning_rate": 0.0009864652833688676,
      "loss": 3.1972,
      "step": 223
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.25391229652115505,
      "learning_rate": 0.0009862931121125836,
      "loss": 3.174,
      "step": 224
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.21529323299130607,
      "learning_rate": 0.000986119867912337,
      "loss": 3.1398,
      "step": 225
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.1795181755410962,
      "learning_rate": 0.000985945551150369,
      "loss": 3.2026,
      "step": 226
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.22983592827411284,
      "learning_rate": 0.0009857701622112876,
      "loss": 3.1831,
      "step": 227
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.18094450476661705,
      "learning_rate": 0.000985593701482066,
      "loss": 3.1807,
      "step": 228
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.20941978762642743,
      "learning_rate": 0.0009854161693520424,
      "loss": 3.2192,
      "step": 229
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.18393301701031275,
      "learning_rate": 0.0009852375662129194,
      "loss": 3.2732,
      "step": 230
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.19990970611159192,
      "learning_rate": 0.0009850578924587613,
      "loss": 3.1886,
      "step": 231
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.18817942576346053,
      "learning_rate": 0.000984877148485996,
      "loss": 3.219,
      "step": 232
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.17031156402630176,
      "learning_rate": 0.000984695334693412,
      "loss": 3.1843,
      "step": 233
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.21423150520128442,
      "learning_rate": 0.000984512451482158,
      "loss": 3.1752,
      "step": 234
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.1914338182774644,
      "learning_rate": 0.0009843284992557431,
      "loss": 3.1283,
      "step": 235
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.1940953966172588,
      "learning_rate": 0.000984143478420034,
      "loss": 3.2035,
      "step": 236
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.18428467630379358,
      "learning_rate": 0.0009839573893832563,
      "loss": 3.1239,
      "step": 237
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.17710847068767333,
      "learning_rate": 0.000983770232555991,
      "loss": 3.1593,
      "step": 238
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.16931304273905967,
      "learning_rate": 0.0009835820083511765,
      "loss": 3.122,
      "step": 239
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.1670610009297728,
      "learning_rate": 0.0009833927171841055,
      "loss": 3.1977,
      "step": 240
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.1865137118981211,
      "learning_rate": 0.0009832023594724246,
      "loss": 3.2016,
      "step": 241
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.27613394930069257,
      "learning_rate": 0.0009830109356361344,
      "loss": 3.2065,
      "step": 242
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.18413945618189181,
      "learning_rate": 0.0009828184460975867,
      "loss": 3.2261,
      "step": 243
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.21118488746281094,
      "learning_rate": 0.0009826248912814855,
      "loss": 3.193,
      "step": 244
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.21204859041633747,
      "learning_rate": 0.0009824302716148847,
      "loss": 3.1509,
      "step": 245
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.17773462806924356,
      "learning_rate": 0.0009822345875271884,
      "loss": 3.1754,
      "step": 246
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.21076762605795327,
      "learning_rate": 0.0009820378394501481,
      "loss": 3.2005,
      "step": 247
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.19404809938219755,
      "learning_rate": 0.0009818400278178636,
      "loss": 3.1671,
      "step": 248
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.17231836466807074,
      "learning_rate": 0.0009816411530667814,
      "loss": 3.2304,
      "step": 249
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.21145679982588844,
      "learning_rate": 0.000981441215635693,
      "loss": 3.2356,
      "step": 250
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.2152829640179223,
      "learning_rate": 0.0009812402159657353,
      "loss": 3.2826,
      "step": 251
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.19801760492589077,
      "learning_rate": 0.000981038154500388,
      "loss": 3.2106,
      "step": 252
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.159933721625445,
      "learning_rate": 0.0009808350316854746,
      "loss": 3.214,
      "step": 253
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.20269827933399306,
      "learning_rate": 0.0009806308479691594,
      "loss": 3.1564,
      "step": 254
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.2126150203245518,
      "learning_rate": 0.0009804256038019482,
      "loss": 3.2752,
      "step": 255
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.1978974104693444,
      "learning_rate": 0.0009802192996366857,
      "loss": 3.1889,
      "step": 256
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.17844367881611403,
      "learning_rate": 0.0009800119359285563,
      "loss": 3.1692,
      "step": 257
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.19712438463642218,
      "learning_rate": 0.0009798035131350813,
      "loss": 3.2764,
      "step": 258
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.23540493280613428,
      "learning_rate": 0.0009795940317161194,
      "loss": 3.2119,
      "step": 259
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.2207680013120327,
      "learning_rate": 0.0009793834921338646,
      "loss": 3.2861,
      "step": 260
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.18424327244540628,
      "learning_rate": 0.0009791718948528457,
      "loss": 3.1757,
      "step": 261
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.20391763655327547,
      "learning_rate": 0.0009789592403399252,
      "loss": 3.1607,
      "step": 262
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.20583552579214826,
      "learning_rate": 0.0009787455290642985,
      "loss": 3.296,
      "step": 263
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.2074559744960579,
      "learning_rate": 0.000978530761497492,
      "loss": 3.213,
      "step": 264
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.21518937974988667,
      "learning_rate": 0.0009783149381133633,
      "loss": 3.2205,
      "step": 265
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.2215593421600294,
      "learning_rate": 0.0009780980593880992,
      "loss": 3.2841,
      "step": 266
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.17860257238056557,
      "learning_rate": 0.0009778801258002153,
      "loss": 3.207,
      "step": 267
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.17487477252055755,
      "learning_rate": 0.000977661137830554,
      "loss": 3.1444,
      "step": 268
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.18968899885530588,
      "learning_rate": 0.0009774410959622845,
      "loss": 3.294,
      "step": 269
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.21872132078292497,
      "learning_rate": 0.000977220000680901,
      "loss": 3.2374,
      "step": 270
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.2221523415665638,
      "learning_rate": 0.000976997852474223,
      "loss": 3.2031,
      "step": 271
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.20339135108980755,
      "learning_rate": 0.0009767746518323914,
      "loss": 3.1555,
      "step": 272
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.1846128152177252,
      "learning_rate": 0.0009765503992478704,
      "loss": 3.1553,
      "step": 273
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.16727702215010032,
      "learning_rate": 0.0009763250952154449,
      "loss": 3.1379,
      "step": 274
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.15910424273653478,
      "learning_rate": 0.0009760987402322195,
      "loss": 3.043,
      "step": 275
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.2269202579489782,
      "learning_rate": 0.0009758713347976178,
      "loss": 3.1482,
      "step": 276
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.1847823122802601,
      "learning_rate": 0.000975642879413381,
      "loss": 3.1342,
      "step": 277
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.19846193830121275,
      "learning_rate": 0.0009754133745835665,
      "loss": 3.1896,
      "step": 278
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.18309034315331,
      "learning_rate": 0.0009751828208145482,
      "loss": 3.2502,
      "step": 279
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.19146435858859004,
      "learning_rate": 0.0009749512186150131,
      "loss": 3.1815,
      "step": 280
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.18696554010497488,
      "learning_rate": 0.0009747185684959625,
      "loss": 3.2374,
      "step": 281
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.22814972581291126,
      "learning_rate": 0.000974484870970709,
      "loss": 3.2302,
      "step": 282
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.23276076098342446,
      "learning_rate": 0.0009742501265548767,
      "loss": 3.1499,
      "step": 283
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.20096663907796897,
      "learning_rate": 0.0009740143357663993,
      "loss": 3.1168,
      "step": 284
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.23057435896191725,
      "learning_rate": 0.000973777499125519,
      "loss": 3.2752,
      "step": 285
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.24152674202855956,
      "learning_rate": 0.0009735396171547859,
      "loss": 3.1888,
      "step": 286
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.1867689957073573,
      "learning_rate": 0.0009733006903790564,
      "loss": 3.1756,
      "step": 287
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.18707912754090444,
      "learning_rate": 0.0009730607193254922,
      "loss": 3.1665,
      "step": 288
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.23763846767983193,
      "learning_rate": 0.0009728197045235585,
      "loss": 3.2107,
      "step": 289
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.20285144223155116,
      "learning_rate": 0.0009725776465050242,
      "loss": 3.2027,
      "step": 290
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.1896656962136534,
      "learning_rate": 0.0009723345458039594,
      "loss": 3.174,
      "step": 291
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.2067696806741075,
      "learning_rate": 0.000972090402956735,
      "loss": 3.1745,
      "step": 292
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.19926152185479631,
      "learning_rate": 0.0009718452185020212,
      "loss": 3.092,
      "step": 293
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.19323297771236636,
      "learning_rate": 0.0009715989929807862,
      "loss": 3.1158,
      "step": 294
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.20472825633345743,
      "learning_rate": 0.0009713517269362955,
      "loss": 3.0682,
      "step": 295
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.2181006423416968,
      "learning_rate": 0.0009711034209141101,
      "loss": 3.1173,
      "step": 296
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.23492626882531503,
      "learning_rate": 0.0009708540754620856,
      "loss": 3.1965,
      "step": 297
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.19751236057223465,
      "learning_rate": 0.0009706036911303713,
      "loss": 3.199,
      "step": 298
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.21388292610088175,
      "learning_rate": 0.0009703522684714083,
      "loss": 3.1102,
      "step": 299
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.22089153621540217,
      "learning_rate": 0.0009700998080399286,
      "loss": 3.1675,
      "step": 300
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.18965803598176725,
      "learning_rate": 0.0009698463103929542,
      "loss": 3.1485,
      "step": 301
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.2103089947600173,
      "learning_rate": 0.0009695917760897954,
      "loss": 3.1613,
      "step": 302
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.19521463954434895,
      "learning_rate": 0.0009693362056920501,
      "loss": 3.2509,
      "step": 303
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.15935352509345455,
      "learning_rate": 0.0009690795997636015,
      "loss": 3.276,
      "step": 304
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.2459684333705398,
      "learning_rate": 0.0009688219588706179,
      "loss": 3.1911,
      "step": 305
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.19666907402672074,
      "learning_rate": 0.0009685632835815518,
      "loss": 3.1588,
      "step": 306
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.22060366837949855,
      "learning_rate": 0.0009683035744671367,
      "loss": 3.1045,
      "step": 307
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.19008514474020521,
      "learning_rate": 0.0009680428321003883,
      "loss": 3.1776,
      "step": 308
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.2295011491108523,
      "learning_rate": 0.000967781057056601,
      "loss": 3.0862,
      "step": 309
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.200007906702195,
      "learning_rate": 0.0009675182499133485,
      "loss": 3.1376,
      "step": 310
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.21668208732334857,
      "learning_rate": 0.0009672544112504813,
      "loss": 3.1546,
      "step": 311
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.24879473667553634,
      "learning_rate": 0.0009669895416501257,
      "loss": 3.301,
      "step": 312
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.21627270938349122,
      "learning_rate": 0.0009667236416966833,
      "loss": 3.1969,
      "step": 313
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.22653963658115384,
      "learning_rate": 0.0009664567119768281,
      "loss": 3.0038,
      "step": 314
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.1952513613585992,
      "learning_rate": 0.0009661887530795067,
      "loss": 3.1349,
      "step": 315
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.25551373855495285,
      "learning_rate": 0.0009659197655959365,
      "loss": 3.1966,
      "step": 316
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.19643510633279745,
      "learning_rate": 0.000965649750119604,
      "loss": 3.1119,
      "step": 317
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.21421117550733978,
      "learning_rate": 0.0009653787072462643,
      "loss": 3.2214,
      "step": 318
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.19358542839350648,
      "learning_rate": 0.0009651066375739388,
      "loss": 3.2013,
      "step": 319
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.22925873215276457,
      "learning_rate": 0.000964833541702915,
      "loss": 3.2501,
      "step": 320
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.20616562883223946,
      "learning_rate": 0.0009645594202357438,
      "loss": 3.2035,
      "step": 321
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.23592738501125077,
      "learning_rate": 0.0009642842737772397,
      "loss": 3.0734,
      "step": 322
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.18937241063115817,
      "learning_rate": 0.0009640081029344782,
      "loss": 3.2076,
      "step": 323
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.25567675888398955,
      "learning_rate": 0.0009637309083167956,
      "loss": 3.1069,
      "step": 324
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.29756831600765515,
      "learning_rate": 0.0009634526905357859,
      "loss": 3.1625,
      "step": 325
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.20900660380616576,
      "learning_rate": 0.000963173450205302,
      "loss": 3.1876,
      "step": 326
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.18040984687211184,
      "learning_rate": 0.0009628931879414517,
      "loss": 3.2531,
      "step": 327
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.2756611346860391,
      "learning_rate": 0.0009626119043625983,
      "loss": 3.2692,
      "step": 328
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.2766525105045367,
      "learning_rate": 0.0009623296000893582,
      "loss": 3.1697,
      "step": 329
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.25710645110824404,
      "learning_rate": 0.0009620462757446,
      "loss": 3.2355,
      "step": 330
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.19030365434728358,
      "learning_rate": 0.0009617619319534428,
      "loss": 3.2764,
      "step": 331
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.29759727284964294,
      "learning_rate": 0.000961476569343255,
      "loss": 3.2428,
      "step": 332
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.27112818230186764,
      "learning_rate": 0.0009611901885436529,
      "loss": 3.1464,
      "step": 333
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.20648286383622427,
      "learning_rate": 0.0009609027901864996,
      "loss": 3.1585,
      "step": 334
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.23816418667564013,
      "learning_rate": 0.0009606143749059029,
      "loss": 3.264,
      "step": 335
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.3373352534829842,
      "learning_rate": 0.0009603249433382144,
      "loss": 3.1741,
      "step": 336
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.24508481528231638,
      "learning_rate": 0.0009600344961220282,
      "loss": 3.1485,
      "step": 337
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.21395362103654733,
      "learning_rate": 0.0009597430338981791,
      "loss": 3.1689,
      "step": 338
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.24659749497423397,
      "learning_rate": 0.0009594505573097414,
      "loss": 3.2399,
      "step": 339
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.2888007801434676,
      "learning_rate": 0.0009591570670020277,
      "loss": 3.2037,
      "step": 340
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.2353771021033522,
      "learning_rate": 0.0009588625636225871,
      "loss": 3.2018,
      "step": 341
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.2161434063755741,
      "learning_rate": 0.0009585670478212036,
      "loss": 3.1905,
      "step": 342
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.20228806930926502,
      "learning_rate": 0.0009582705202498956,
      "loss": 3.2163,
      "step": 343
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.21679197933651742,
      "learning_rate": 0.0009579729815629133,
      "loss": 3.2104,
      "step": 344
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.23925965122572385,
      "learning_rate": 0.0009576744324167379,
      "loss": 3.0907,
      "step": 345
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.2047845388690773,
      "learning_rate": 0.0009573748734700804,
      "loss": 3.1686,
      "step": 346
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.209816462954829,
      "learning_rate": 0.0009570743053838796,
      "loss": 3.134,
      "step": 347
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.29721655930666896,
      "learning_rate": 0.0009567727288213005,
      "loss": 3.2818,
      "step": 348
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.2432301535167363,
      "learning_rate": 0.0009564701444477337,
      "loss": 3.1318,
      "step": 349
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.2239639810818572,
      "learning_rate": 0.000956166552930793,
      "loss": 3.1789,
      "step": 350
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.3052268283110208,
      "learning_rate": 0.0009558619549403147,
      "loss": 3.2267,
      "step": 351
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.26256159525828765,
      "learning_rate": 0.0009555563511483555,
      "loss": 3.1942,
      "step": 352
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.2147874084079764,
      "learning_rate": 0.0009552497422291912,
      "loss": 3.3315,
      "step": 353
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.23019884897642498,
      "learning_rate": 0.0009549421288593157,
      "loss": 3.1279,
      "step": 354
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.19647883435172017,
      "learning_rate": 0.0009546335117174385,
      "loss": 3.1844,
      "step": 355
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.1993419245833511,
      "learning_rate": 0.0009543238914844843,
      "loss": 3.1399,
      "step": 356
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.22589146200257237,
      "learning_rate": 0.0009540132688435907,
      "loss": 3.2043,
      "step": 357
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.2202287591405642,
      "learning_rate": 0.0009537016444801074,
      "loss": 3.1072,
      "step": 358
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.22129815178844145,
      "learning_rate": 0.0009533890190815935,
      "loss": 3.1441,
      "step": 359
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.2372011203831702,
      "learning_rate": 0.0009530753933378173,
      "loss": 3.1931,
      "step": 360
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.2108153254313445,
      "learning_rate": 0.0009527607679407545,
      "loss": 3.1173,
      "step": 361
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.2051404875800545,
      "learning_rate": 0.0009524451435845857,
      "loss": 3.1333,
      "step": 362
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.2015559334813884,
      "learning_rate": 0.0009521285209656963,
      "loss": 3.1937,
      "step": 363
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.1853916235540375,
      "learning_rate": 0.0009518109007826734,
      "loss": 3.0971,
      "step": 364
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.28324040296102077,
      "learning_rate": 0.0009514922837363059,
      "loss": 3.1302,
      "step": 365
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.23437717978070788,
      "learning_rate": 0.0009511726705295817,
      "loss": 3.1143,
      "step": 366
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.20054398983188265,
      "learning_rate": 0.000950852061867687,
      "loss": 3.1516,
      "step": 367
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.285683486759051,
      "learning_rate": 0.0009505304584580038,
      "loss": 3.2582,
      "step": 368
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.21242529445921965,
      "learning_rate": 0.0009502078610101092,
      "loss": 3.2055,
      "step": 369
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.24444522357873585,
      "learning_rate": 0.0009498842702357736,
      "loss": 3.2021,
      "step": 370
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.22946311426486118,
      "learning_rate": 0.0009495596868489587,
      "loss": 3.1844,
      "step": 371
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.24458116260429577,
      "learning_rate": 0.0009492341115658167,
      "loss": 3.1765,
      "step": 372
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.3090099260946179,
      "learning_rate": 0.0009489075451046879,
      "loss": 3.3281,
      "step": 373
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.2535690137807467,
      "learning_rate": 0.0009485799881861,
      "loss": 3.2635,
      "step": 374
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.2179033479655905,
      "learning_rate": 0.0009482514415327654,
      "loss": 3.2733,
      "step": 375
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.29740647498514183,
      "learning_rate": 0.000947921905869581,
      "loss": 3.1429,
      "step": 376
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.2427503770503401,
      "learning_rate": 0.0009475913819236248,
      "loss": 3.2404,
      "step": 377
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.2982295805992819,
      "learning_rate": 0.0009472598704241561,
      "loss": 3.1988,
      "step": 378
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.22756512814249397,
      "learning_rate": 0.0009469273721026131,
      "loss": 3.0952,
      "step": 379
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.2781484256901659,
      "learning_rate": 0.0009465938876926111,
      "loss": 3.1698,
      "step": 380
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.26726327144132905,
      "learning_rate": 0.0009462594179299406,
      "loss": 3.1662,
      "step": 381
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.250102977761593,
      "learning_rate": 0.0009459239635525672,
      "loss": 3.1172,
      "step": 382
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.3399718272111521,
      "learning_rate": 0.0009455875253006281,
      "loss": 3.2319,
      "step": 383
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.21598709535333965,
      "learning_rate": 0.0009452501039164315,
      "loss": 3.2339,
      "step": 384
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.29941924385838203,
      "learning_rate": 0.0009449117001444549,
      "loss": 3.1993,
      "step": 385
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.31094074102236396,
      "learning_rate": 0.0009445723147313433,
      "loss": 3.1382,
      "step": 386
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.26419418559588725,
      "learning_rate": 0.0009442319484259074,
      "loss": 3.1763,
      "step": 387
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.28781381703883224,
      "learning_rate": 0.0009438906019791222,
      "loss": 3.2527,
      "step": 388
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.24957941287018637,
      "learning_rate": 0.0009435482761441251,
      "loss": 3.2577,
      "step": 389
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.21467250727771264,
      "learning_rate": 0.000943204971676215,
      "loss": 3.1441,
      "step": 390
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.29459480633265805,
      "learning_rate": 0.0009428606893328493,
      "loss": 3.1606,
      "step": 391
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.22059804597196808,
      "learning_rate": 0.0009425154298736432,
      "loss": 3.1218,
      "step": 392
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.20079815192080466,
      "learning_rate": 0.0009421691940603678,
      "loss": 3.2153,
      "step": 393
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.22935879870863768,
      "learning_rate": 0.0009418219826569488,
      "loss": 3.2541,
      "step": 394
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.26396846503853294,
      "learning_rate": 0.0009414737964294635,
      "loss": 3.1897,
      "step": 395
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.26111763068954336,
      "learning_rate": 0.000941124636146141,
      "loss": 3.2139,
      "step": 396
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.19844147768441298,
      "learning_rate": 0.0009407745025773589,
      "loss": 3.1627,
      "step": 397
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.2377117822673752,
      "learning_rate": 0.0009404233964956423,
      "loss": 3.1082,
      "step": 398
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.2583574847652165,
      "learning_rate": 0.0009400713186756625,
      "loss": 3.1226,
      "step": 399
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.2382966507612862,
      "learning_rate": 0.0009397182698942342,
      "loss": 3.2137,
      "step": 400
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.2660303680250279,
      "learning_rate": 0.0009393642509303149,
      "loss": 3.1332,
      "step": 401
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.33876798193963364,
      "learning_rate": 0.0009390092625650023,
      "loss": 3.216,
      "step": 402
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.21723668424869047,
      "learning_rate": 0.0009386533055815332,
      "loss": 3.0719,
      "step": 403
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.20833358157905785,
      "learning_rate": 0.0009382963807652813,
      "loss": 3.2174,
      "step": 404
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.2697863719073559,
      "learning_rate": 0.000937938488903756,
      "loss": 3.1627,
      "step": 405
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.30146291369348277,
      "learning_rate": 0.0009375796307866003,
      "loss": 3.1996,
      "step": 406
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.3417141203428159,
      "learning_rate": 0.0009372198072055888,
      "loss": 3.1789,
      "step": 407
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.2053427875371621,
      "learning_rate": 0.0009368590189546268,
      "loss": 3.1434,
      "step": 408
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.24885333583322677,
      "learning_rate": 0.0009364972668297474,
      "loss": 3.1712,
      "step": 409
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.3264238243015239,
      "learning_rate": 0.0009361345516291111,
      "loss": 3.1389,
      "step": 410
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.22942290533213686,
      "learning_rate": 0.0009357708741530024,
      "loss": 3.1451,
      "step": 411
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.26159360592556774,
      "learning_rate": 0.00093540623520383,
      "loss": 3.0655,
      "step": 412
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.22019818264522512,
      "learning_rate": 0.000935040635586123,
      "loss": 3.208,
      "step": 413
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.20386892679125898,
      "learning_rate": 0.0009346740761065305,
      "loss": 3.2398,
      "step": 414
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.35344311908067516,
      "learning_rate": 0.0009343065575738197,
      "loss": 3.1304,
      "step": 415
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.3365983476058608,
      "learning_rate": 0.0009339380807988733,
      "loss": 3.2383,
      "step": 416
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.23153893207475207,
      "learning_rate": 0.0009335686465946887,
      "loss": 3.1215,
      "step": 417
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.2333620052971256,
      "learning_rate": 0.0009331982557763754,
      "loss": 3.0886,
      "step": 418
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.3021389203388289,
      "learning_rate": 0.0009328269091611537,
      "loss": 3.1133,
      "step": 419
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.22717407476106738,
      "learning_rate": 0.0009324546075683524,
      "loss": 3.1357,
      "step": 420
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.37149127142715166,
      "learning_rate": 0.0009320813518194083,
      "loss": 3.1836,
      "step": 421
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.3369387650854891,
      "learning_rate": 0.0009317071427378624,
      "loss": 3.1324,
      "step": 422
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.2757084565789776,
      "learning_rate": 0.0009313319811493594,
      "loss": 3.174,
      "step": 423
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.2525562363895359,
      "learning_rate": 0.000930955867881646,
      "loss": 3.1374,
      "step": 424
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.2475257440712994,
      "learning_rate": 0.0009305788037645681,
      "loss": 3.1425,
      "step": 425
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.2573578629505739,
      "learning_rate": 0.0009302007896300697,
      "loss": 3.1398,
      "step": 426
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.25795383823674384,
      "learning_rate": 0.0009298218263121911,
      "loss": 3.1402,
      "step": 427
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.2604058505659066,
      "learning_rate": 0.0009294419146470668,
      "loss": 3.1795,
      "step": 428
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.26267777192813324,
      "learning_rate": 0.0009290610554729234,
      "loss": 3.1906,
      "step": 429
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.24925928573808237,
      "learning_rate": 0.0009286792496300784,
      "loss": 3.1485,
      "step": 430
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.32287791706066016,
      "learning_rate": 0.0009282964979609379,
      "loss": 3.1707,
      "step": 431
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.2545358501738791,
      "learning_rate": 0.0009279128013099947,
      "loss": 3.1452,
      "step": 432
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.2678024037101444,
      "learning_rate": 0.0009275281605238268,
      "loss": 3.2621,
      "step": 433
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.30210899434756283,
      "learning_rate": 0.0009271425764510953,
      "loss": 3.1021,
      "step": 434
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.3523976809393495,
      "learning_rate": 0.0009267560499425423,
      "loss": 3.1084,
      "step": 435
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.28838520611315754,
      "learning_rate": 0.0009263685818509895,
      "loss": 3.2654,
      "step": 436
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.28558363478872245,
      "learning_rate": 0.000925980173031336,
      "loss": 3.1657,
      "step": 437
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.23595743316064954,
      "learning_rate": 0.0009255908243405567,
      "loss": 3.1506,
      "step": 438
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.40592923896053845,
      "learning_rate": 0.0009252005366376996,
      "loss": 3.1237,
      "step": 439
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.39081528995409404,
      "learning_rate": 0.0009248093107838852,
      "loss": 3.0995,
      "step": 440
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.2504807284681843,
      "learning_rate": 0.0009244171476423036,
      "loss": 3.1269,
      "step": 441
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.2595091272791423,
      "learning_rate": 0.0009240240480782129,
      "loss": 3.1219,
      "step": 442
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.27267350944898283,
      "learning_rate": 0.0009236300129589376,
      "loss": 3.278,
      "step": 443
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.24507712424080988,
      "learning_rate": 0.0009232350431538657,
      "loss": 3.1744,
      "step": 444
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.3181024011860653,
      "learning_rate": 0.0009228391395344482,
      "loss": 3.1022,
      "step": 445
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.24406078711654766,
      "learning_rate": 0.000922442302974196,
      "loss": 3.1566,
      "step": 446
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.2549346074451459,
      "learning_rate": 0.0009220445343486785,
      "loss": 3.178,
      "step": 447
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.35624093466353046,
      "learning_rate": 0.0009216458345355217,
      "loss": 3.2067,
      "step": 448
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.21428548307569786,
      "learning_rate": 0.0009212462044144061,
      "loss": 3.1543,
      "step": 449
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.28417753988106415,
      "learning_rate": 0.0009208456448670648,
      "loss": 3.19,
      "step": 450
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.3124862206920549,
      "learning_rate": 0.0009204441567772816,
      "loss": 3.1725,
      "step": 451
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.29202353446496593,
      "learning_rate": 0.0009200417410308888,
      "loss": 3.2128,
      "step": 452
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.2960741029047462,
      "learning_rate": 0.0009196383985157656,
      "loss": 3.081,
      "step": 453
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.249587943174788,
      "learning_rate": 0.000919234130121836,
      "loss": 3.1789,
      "step": 454
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.37427860889110603,
      "learning_rate": 0.0009188289367410672,
      "loss": 3.1504,
      "step": 455
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.3212200212282258,
      "learning_rate": 0.0009184228192674666,
      "loss": 3.1365,
      "step": 456
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4439085047352286,
      "learning_rate": 0.0009180157785970808,
      "loss": 3.1329,
      "step": 457
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.39396296399279085,
      "learning_rate": 0.0009176078156279932,
      "loss": 3.2031,
      "step": 458
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.2779886134954505,
      "learning_rate": 0.0009171989312603226,
      "loss": 3.1514,
      "step": 459
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.3172683531257486,
      "learning_rate": 0.0009167891263962202,
      "loss": 3.0961,
      "step": 460
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.33245713642769403,
      "learning_rate": 0.0009163784019398685,
      "loss": 3.0126,
      "step": 461
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.33098617536066927,
      "learning_rate": 0.0009159667587974785,
      "loss": 3.1843,
      "step": 462
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.2689413321454561,
      "learning_rate": 0.0009155541978772887,
      "loss": 3.1675,
      "step": 463
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.34362620807079997,
      "learning_rate": 0.0009151407200895625,
      "loss": 3.1656,
      "step": 464
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.2851323314784038,
      "learning_rate": 0.000914726326346586,
      "loss": 3.1388,
      "step": 465
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4573046878295977,
      "learning_rate": 0.0009143110175626661,
      "loss": 3.1131,
      "step": 466
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.2740994639473049,
      "learning_rate": 0.0009138947946541291,
      "loss": 3.1123,
      "step": 467
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.3812253140412685,
      "learning_rate": 0.0009134776585393181,
      "loss": 3.2109,
      "step": 468
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.40557096849986124,
      "learning_rate": 0.0009130596101385906,
      "loss": 3.1276,
      "step": 469
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.30448603845382133,
      "learning_rate": 0.0009126406503743174,
      "loss": 3.0748,
      "step": 470
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.33475005318973167,
      "learning_rate": 0.0009122207801708802,
      "loss": 3.1105,
      "step": 471
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.3123559291431612,
      "learning_rate": 0.0009118000004546689,
      "loss": 3.2139,
      "step": 472
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.3695068985481263,
      "learning_rate": 0.0009113783121540807,
      "loss": 3.126,
      "step": 473
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.3550270205846673,
      "learning_rate": 0.0009109557161995172,
      "loss": 3.1544,
      "step": 474
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.41762098920476565,
      "learning_rate": 0.0009105322135233828,
      "loss": 3.1422,
      "step": 475
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.5151512996236348,
      "learning_rate": 0.0009101078050600821,
      "loss": 3.2056,
      "step": 476
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.38439412440937065,
      "learning_rate": 0.0009096824917460186,
      "loss": 3.1342,
      "step": 477
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.2521864104883682,
      "learning_rate": 0.0009092562745195921,
      "loss": 3.1299,
      "step": 478
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.3298280910195643,
      "learning_rate": 0.0009088291543211967,
      "loss": 3.1546,
      "step": 479
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.39504333510064893,
      "learning_rate": 0.0009084011320932188,
      "loss": 3.1608,
      "step": 480
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.2741209365822907,
      "learning_rate": 0.0009079722087800352,
      "loss": 3.1558,
      "step": 481
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.30695625866216286,
      "learning_rate": 0.0009075423853280106,
      "loss": 3.1918,
      "step": 482
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.359831977869451,
      "learning_rate": 0.0009071116626854958,
      "loss": 3.1729,
      "step": 483
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.3246234562188769,
      "learning_rate": 0.0009066800418028256,
      "loss": 3.135,
      "step": 484
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.30510391183903673,
      "learning_rate": 0.0009062475236323168,
      "loss": 3.1719,
      "step": 485
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.434358920764443,
      "learning_rate": 0.0009058141091282656,
      "loss": 3.0884,
      "step": 486
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.35624541011931793,
      "learning_rate": 0.0009053797992469461,
      "loss": 3.1554,
      "step": 487
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.3599181446281783,
      "learning_rate": 0.0009049445949466078,
      "loss": 3.1582,
      "step": 488
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.41654842928009883,
      "learning_rate": 0.0009045084971874737,
      "loss": 3.1928,
      "step": 489
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.42181306169578225,
      "learning_rate": 0.0009040715069317382,
      "loss": 3.1502,
      "step": 490
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.44294871251289736,
      "learning_rate": 0.0009036336251435648,
      "loss": 3.0987,
      "step": 491
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.3112045513362465,
      "learning_rate": 0.0009031948527890839,
      "loss": 3.1569,
      "step": 492
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.38040257196397065,
      "learning_rate": 0.000902755190836391,
      "loss": 3.1799,
      "step": 493
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.3590925830021178,
      "learning_rate": 0.0009023146402555442,
      "loss": 3.0858,
      "step": 494
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.30937872593991206,
      "learning_rate": 0.0009018732020185624,
      "loss": 3.1537,
      "step": 495
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4351394035233339,
      "learning_rate": 0.0009014308770994235,
      "loss": 3.1818,
      "step": 496
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4359519534091449,
      "learning_rate": 0.0009009876664740605,
      "loss": 3.1196,
      "step": 497
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.3786448748989642,
      "learning_rate": 0.0009005435711203618,
      "loss": 3.1871,
      "step": 498
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.23926701653523186,
      "learning_rate": 0.000900098592018167,
      "loss": 3.0942,
      "step": 499
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.44816603841142744,
      "learning_rate": 0.0008996527301492663,
      "loss": 3.1947,
      "step": 500
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.2750603223733048,
      "learning_rate": 0.0008992059864973972,
      "loss": 3.1326,
      "step": 501
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.310218014991326,
      "learning_rate": 0.0008987583620482427,
      "loss": 3.2067,
      "step": 502
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.40202493199064565,
      "learning_rate": 0.0008983098577894292,
      "loss": 3.09,
      "step": 503
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.28256941563934695,
      "learning_rate": 0.0008978604747105246,
      "loss": 3.1781,
      "step": 504
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.3395118103078098,
      "learning_rate": 0.0008974102138030354,
      "loss": 3.0449,
      "step": 505
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.2907292430126411,
      "learning_rate": 0.000896959076060405,
      "loss": 3.1788,
      "step": 506
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.2726620187838186,
      "learning_rate": 0.0008965070624780116,
      "loss": 3.0906,
      "step": 507
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4104128099553342,
      "learning_rate": 0.0008960541740531658,
      "loss": 3.053,
      "step": 508
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.3581971091583905,
      "learning_rate": 0.0008956004117851083,
      "loss": 3.1664,
      "step": 509
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4283050345605017,
      "learning_rate": 0.0008951457766750079,
      "loss": 3.1418,
      "step": 510
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.45360625356610235,
      "learning_rate": 0.0008946902697259593,
      "loss": 3.166,
      "step": 511
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.3933768262570974,
      "learning_rate": 0.0008942338919429805,
      "loss": 3.1572,
      "step": 512
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.5323812026568079,
      "learning_rate": 0.0008937766443330113,
      "loss": 3.1808,
      "step": 513
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.40978391454210294,
      "learning_rate": 0.0008933185279049103,
      "loss": 3.0566,
      "step": 514
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.47839936663018,
      "learning_rate": 0.0008928595436694532,
      "loss": 3.1478,
      "step": 515
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.525572226663093,
      "learning_rate": 0.0008923996926393305,
      "loss": 3.2043,
      "step": 516
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.48749289687225295,
      "learning_rate": 0.0008919389758291449,
      "loss": 3.2158,
      "step": 517
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.47846464847147796,
      "learning_rate": 0.0008914773942554098,
      "loss": 3.1305,
      "step": 518
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.36697970422564763,
      "learning_rate": 0.000891014948936546,
      "loss": 3.185,
      "step": 519
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4755910791952243,
      "learning_rate": 0.0008905516408928804,
      "loss": 3.0756,
      "step": 520
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.5403846914960451,
      "learning_rate": 0.0008900874711466434,
      "loss": 3.1921,
      "step": 521
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.40305268050211124,
      "learning_rate": 0.0008896224407219666,
      "loss": 3.0651,
      "step": 522
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.3057437740956912,
      "learning_rate": 0.0008891565506448804,
      "loss": 3.1528,
      "step": 523
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4271389754462669,
      "learning_rate": 0.0008886898019433122,
      "loss": 3.0927,
      "step": 524
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.5103656287284652,
      "learning_rate": 0.0008882221956470836,
      "loss": 3.0349,
      "step": 525
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.5949827774454726,
      "learning_rate": 0.0008877537327879086,
      "loss": 3.0886,
      "step": 526
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.5229595930192136,
      "learning_rate": 0.0008872844143993908,
      "loss": 3.0994,
      "step": 527
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.48202679367050755,
      "learning_rate": 0.0008868142415170218,
      "loss": 3.0528,
      "step": 528
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.5405260235146906,
      "learning_rate": 0.0008863432151781781,
      "loss": 3.1255,
      "step": 529
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4775127900361481,
      "learning_rate": 0.0008858713364221195,
      "loss": 3.0476,
      "step": 530
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.3416876176581757,
      "learning_rate": 0.0008853986062899868,
      "loss": 3.1449,
      "step": 531
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.828428179442475,
      "learning_rate": 0.0008849250258247986,
      "loss": 3.1207,
      "step": 532
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4909312735576724,
      "learning_rate": 0.0008844505960714503,
      "loss": 3.1181,
      "step": 533
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.5662663803389837,
      "learning_rate": 0.0008839753180767108,
      "loss": 3.1643,
      "step": 534
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.40164804254876363,
      "learning_rate": 0.0008834991928892204,
      "loss": 3.1324,
      "step": 535
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.5344399748873122,
      "learning_rate": 0.000883022221559489,
      "loss": 3.1082,
      "step": 536
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.42839598549285196,
      "learning_rate": 0.0008825444051398934,
      "loss": 3.1982,
      "step": 537
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.5178942050033046,
      "learning_rate": 0.0008820657446846745,
      "loss": 3.2074,
      "step": 538
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.5474015317651445,
      "learning_rate": 0.000881586241249936,
      "loss": 3.1655,
      "step": 539
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.37279370388900357,
      "learning_rate": 0.0008811058958936411,
      "loss": 3.0922,
      "step": 540
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.3612478865026946,
      "learning_rate": 0.000880624709675611,
      "loss": 3.1404,
      "step": 541
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.47343887850320354,
      "learning_rate": 0.000880142683657522,
      "loss": 3.1262,
      "step": 542
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.33498731927929987,
      "learning_rate": 0.0008796598189029029,
      "loss": 3.1405,
      "step": 543
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.49194112022848563,
      "learning_rate": 0.0008791761164771338,
      "loss": 3.1577,
      "step": 544
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.401040013517095,
      "learning_rate": 0.0008786915774474424,
      "loss": 3.0976,
      "step": 545
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4264558147237592,
      "learning_rate": 0.0008782062028829027,
      "loss": 3.1717,
      "step": 546
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.5521261712557172,
      "learning_rate": 0.0008777199938544318,
      "loss": 3.1509,
      "step": 547
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.44224160654745936,
      "learning_rate": 0.0008772329514347883,
      "loss": 3.0769,
      "step": 548
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.3980560552807451,
      "learning_rate": 0.0008767450766985694,
      "loss": 3.1267,
      "step": 549
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.39995611170289247,
      "learning_rate": 0.0008762563707222086,
      "loss": 3.1509,
      "step": 550
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.356283827838323,
      "learning_rate": 0.0008757668345839738,
      "loss": 3.184,
      "step": 551
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4260717702054202,
      "learning_rate": 0.0008752764693639638,
      "loss": 3.2064,
      "step": 552
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.5109973540331774,
      "learning_rate": 0.0008747852761441078,
      "loss": 3.0529,
      "step": 553
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.37970325692668283,
      "learning_rate": 0.0008742932560081607,
      "loss": 3.1028,
      "step": 554
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4061098802401234,
      "learning_rate": 0.0008738004100417025,
      "loss": 3.0892,
      "step": 555
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.42159627862239,
      "learning_rate": 0.0008733067393321355,
      "loss": 3.1218,
      "step": 556
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.40226483965786053,
      "learning_rate": 0.000872812244968681,
      "loss": 3.1957,
      "step": 557
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.39558560875067955,
      "learning_rate": 0.0008723169280423783,
      "loss": 3.1234,
      "step": 558
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4040837893577528,
      "learning_rate": 0.0008718207896460811,
      "loss": 3.0991,
      "step": 559
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.3719424154124765,
      "learning_rate": 0.0008713238308744557,
      "loss": 3.1846,
      "step": 560
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.3651383032802104,
      "learning_rate": 0.0008708260528239789,
      "loss": 3.0798,
      "step": 561
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.625451881528881,
      "learning_rate": 0.000870327456592934,
      "loss": 3.2026,
      "step": 562
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4570242257725124,
      "learning_rate": 0.0008698280432814107,
      "loss": 3.1571,
      "step": 563
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.3363023506196375,
      "learning_rate": 0.000869327813991301,
      "loss": 3.1188,
      "step": 564
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.38534833310757,
      "learning_rate": 0.0008688267698262971,
      "loss": 3.1145,
      "step": 565
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.7294660854894555,
      "learning_rate": 0.0008683249118918894,
      "loss": 3.1035,
      "step": 566
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4063990421102901,
      "learning_rate": 0.0008678222412953637,
      "loss": 3.078,
      "step": 567
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.359000117882911,
      "learning_rate": 0.0008673187591457987,
      "loss": 3.1296,
      "step": 568
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.6354981437655499,
      "learning_rate": 0.0008668144665540639,
      "loss": 3.1385,
      "step": 569
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.5895104411985901,
      "learning_rate": 0.0008663093646328167,
      "loss": 3.1108,
      "step": 570
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.3993345551319198,
      "learning_rate": 0.0008658034544965003,
      "loss": 3.0646,
      "step": 571
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.6352846845430026,
      "learning_rate": 0.0008652967372613412,
      "loss": 3.2202,
      "step": 572
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4338039921742343,
      "learning_rate": 0.0008647892140453466,
      "loss": 3.1617,
      "step": 573
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4789523126675809,
      "learning_rate": 0.0008642808859683021,
      "loss": 3.0599,
      "step": 574
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.5214648031127289,
      "learning_rate": 0.0008637717541517689,
      "loss": 3.1492,
      "step": 575
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.670501416709473,
      "learning_rate": 0.0008632618197190816,
      "loss": 3.1523,
      "step": 576
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.42634251768206227,
      "learning_rate": 0.0008627510837953458,
      "loss": 3.1614,
      "step": 577
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4602479166899142,
      "learning_rate": 0.0008622395475074355,
      "loss": 3.0491,
      "step": 578
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4787768245930285,
      "learning_rate": 0.0008617272119839903,
      "loss": 3.1446,
      "step": 579
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.43428781573681874,
      "learning_rate": 0.0008612140783554136,
      "loss": 3.1574,
      "step": 580
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.440513976621744,
      "learning_rate": 0.0008607001477538696,
      "loss": 3.0166,
      "step": 581
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4186464708142619,
      "learning_rate": 0.0008601854213132807,
      "loss": 3.1071,
      "step": 582
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.5487901699060795,
      "learning_rate": 0.0008596699001693256,
      "loss": 3.0409,
      "step": 583
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.5826449161448319,
      "learning_rate": 0.000859153585459436,
      "loss": 3.1863,
      "step": 584
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.5798959949224554,
      "learning_rate": 0.0008586364783227949,
      "loss": 3.1135,
      "step": 585
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.6978827586267372,
      "learning_rate": 0.0008581185799003332,
      "loss": 3.0785,
      "step": 586
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.5027547614527456,
      "learning_rate": 0.0008575998913347283,
      "loss": 3.0841,
      "step": 587
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.41705972401879876,
      "learning_rate": 0.0008570804137704004,
      "loss": 3.0607,
      "step": 588
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4989104197152702,
      "learning_rate": 0.0008565601483535108,
      "loss": 3.0627,
      "step": 589
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.5442280628702396,
      "learning_rate": 0.0008560390962319591,
      "loss": 3.101,
      "step": 590
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.5213045274456183,
      "learning_rate": 0.0008555172585553804,
      "loss": 3.1441,
      "step": 591
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.5789608225155444,
      "learning_rate": 0.0008549946364751435,
      "loss": 3.1153,
      "step": 592
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.5579734278218899,
      "learning_rate": 0.0008544712311443475,
      "loss": 3.1426,
      "step": 593
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4454004331231764,
      "learning_rate": 0.0008539470437178196,
      "loss": 3.0775,
      "step": 594
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.5071972007481831,
      "learning_rate": 0.000853422075352113,
      "loss": 3.1941,
      "step": 595
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.5537253369897839,
      "learning_rate": 0.0008528963272055035,
      "loss": 3.1385,
      "step": 596
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.42190239372041327,
      "learning_rate": 0.0008523698004379877,
      "loss": 3.1776,
      "step": 597
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4727665347889967,
      "learning_rate": 0.00085184249621128,
      "loss": 3.1059,
      "step": 598
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.3928353360864849,
      "learning_rate": 0.0008513144156888101,
      "loss": 3.1774,
      "step": 599
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.5918752562202262,
      "learning_rate": 0.0008507855600357207,
      "loss": 3.0387,
      "step": 600
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.7217557526518763,
      "learning_rate": 0.0008502559304188644,
      "loss": 3.096,
      "step": 601
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.7234891507933138,
      "learning_rate": 0.0008497255280068019,
      "loss": 3.101,
      "step": 602
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.7191554488062181,
      "learning_rate": 0.0008491943539697986,
      "loss": 3.1391,
      "step": 603
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.6546641928488617,
      "learning_rate": 0.0008486624094798226,
      "loss": 3.1134,
      "step": 604
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4811151723137476,
      "learning_rate": 0.0008481296957105417,
      "loss": 3.1983,
      "step": 605
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.6616410058585228,
      "learning_rate": 0.0008475962138373213,
      "loss": 3.1686,
      "step": 606
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.5720481355610195,
      "learning_rate": 0.0008470619650372211,
      "loss": 3.1026,
      "step": 607
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4417891945833557,
      "learning_rate": 0.0008465269504889934,
      "loss": 3.0539,
      "step": 608
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.5557719125220316,
      "learning_rate": 0.0008459911713730799,
      "loss": 3.2714,
      "step": 609
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.5619930820634486,
      "learning_rate": 0.0008454546288716089,
      "loss": 3.1022,
      "step": 610
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.7173360544618232,
      "learning_rate": 0.0008449173241683935,
      "loss": 3.1248,
      "step": 611
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.6424876355149256,
      "learning_rate": 0.0008443792584489281,
      "loss": 3.0695,
      "step": 612
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.44156740254600424,
      "learning_rate": 0.0008438404329003863,
      "loss": 3.0767,
      "step": 613
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.5084665075807955,
      "learning_rate": 0.0008433008487116183,
      "loss": 3.1134,
      "step": 614
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.6256475455799251,
      "learning_rate": 0.0008427605070731481,
      "loss": 3.2149,
      "step": 615
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.6631616903950996,
      "learning_rate": 0.0008422194091771708,
      "loss": 3.0444,
      "step": 616
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.7792543893854049,
      "learning_rate": 0.0008416775562175503,
      "loss": 3.0803,
      "step": 617
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4366295741617847,
      "learning_rate": 0.000841134949389816,
      "loss": 3.0419,
      "step": 618
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.5822463478526162,
      "learning_rate": 0.0008405915898911611,
      "loss": 3.1503,
      "step": 619
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.638385653569533,
      "learning_rate": 0.0008400474789204396,
      "loss": 3.1064,
      "step": 620
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.5183118726656005,
      "learning_rate": 0.0008395026176781626,
      "loss": 3.095,
      "step": 621
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.440217030940678,
      "learning_rate": 0.0008389570073664976,
      "loss": 3.1127,
      "step": 622
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.4300421577621685,
      "learning_rate": 0.0008384106491892642,
      "loss": 3.0688,
      "step": 623
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.5939028970642765,
      "learning_rate": 0.0008378635443519327,
      "loss": 3.0828,
      "step": 624
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.9421048266267413,
      "learning_rate": 0.0008373156940616199,
      "loss": 3.0352,
      "step": 625
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.9119933118084875,
      "learning_rate": 0.0008367670995270882,
      "loss": 3.0841,
      "step": 626
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.5998608463719503,
      "learning_rate": 0.0008362177619587416,
      "loss": 3.1763,
      "step": 627
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.6461549618357036,
      "learning_rate": 0.0008356676825686238,
      "loss": 3.0499,
      "step": 628
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.8224544382410439,
      "learning_rate": 0.0008351168625704147,
      "loss": 3.1932,
      "step": 629
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.6098325943468047,
      "learning_rate": 0.0008345653031794292,
      "loss": 3.1503,
      "step": 630
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.4347082064004293,
      "learning_rate": 0.0008340130056126125,
      "loss": 3.1747,
      "step": 631
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.5153547528296748,
      "learning_rate": 0.0008334599710885394,
      "loss": 3.2032,
      "step": 632
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.3982397999503348,
      "learning_rate": 0.0008329062008274098,
      "loss": 3.1634,
      "step": 633
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.6183439148037037,
      "learning_rate": 0.000832351696051048,
      "loss": 3.0792,
      "step": 634
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.4904158234697221,
      "learning_rate": 0.000831796457982898,
      "loss": 3.0884,
      "step": 635
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.5813243108051614,
      "learning_rate": 0.0008312404878480222,
      "loss": 3.1036,
      "step": 636
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.6880889040460255,
      "learning_rate": 0.0008306837868730979,
      "loss": 3.05,
      "step": 637
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.5957472510413536,
      "learning_rate": 0.0008301263562864152,
      "loss": 3.1495,
      "step": 638
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.7769390980635645,
      "learning_rate": 0.0008295681973178737,
      "loss": 3.0346,
      "step": 639
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.6009406591474022,
      "learning_rate": 0.0008290093111989804,
      "loss": 3.1422,
      "step": 640
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.6008023783585689,
      "learning_rate": 0.0008284496991628465,
      "loss": 2.9994,
      "step": 641
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.6627988153132027,
      "learning_rate": 0.0008278893624441847,
      "loss": 3.1223,
      "step": 642
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.4741250559831336,
      "learning_rate": 0.000827328302279307,
      "loss": 3.0975,
      "step": 643
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.6421706500009305,
      "learning_rate": 0.0008267665199061211,
      "loss": 3.0764,
      "step": 644
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.6769393337812487,
      "learning_rate": 0.0008262040165641288,
      "loss": 3.1874,
      "step": 645
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.7619816276714552,
      "learning_rate": 0.0008256407934944219,
      "loss": 3.0351,
      "step": 646
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.5438032830385291,
      "learning_rate": 0.0008250768519396807,
      "loss": 3.0544,
      "step": 647
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.7279220116522872,
      "learning_rate": 0.0008245121931441706,
      "loss": 3.1007,
      "step": 648
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.7592546203702065,
      "learning_rate": 0.0008239468183537393,
      "loss": 3.0244,
      "step": 649
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.8999352649384826,
      "learning_rate": 0.0008233807288158146,
      "loss": 3.1442,
      "step": 650
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.621882653759103,
      "learning_rate": 0.0008228139257794012,
      "loss": 3.063,
      "step": 651
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.6597850401802139,
      "learning_rate": 0.0008222464104950778,
      "loss": 3.1826,
      "step": 652
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.7170334951527433,
      "learning_rate": 0.000821678184214995,
      "loss": 3.0622,
      "step": 653
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.6074927467531861,
      "learning_rate": 0.0008211092481928716,
      "loss": 3.1188,
      "step": 654
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.0155543407517131,
      "learning_rate": 0.0008205396036839927,
      "loss": 3.1306,
      "step": 655
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.6213350396136353,
      "learning_rate": 0.0008199692519452069,
      "loss": 3.115,
      "step": 656
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.8117474253275251,
      "learning_rate": 0.0008193981942349224,
      "loss": 3.1267,
      "step": 657
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.7232404281480576,
      "learning_rate": 0.0008188264318131056,
      "loss": 3.0815,
      "step": 658
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.49791790914513295,
      "learning_rate": 0.0008182539659412776,
      "loss": 3.1019,
      "step": 659
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.680441825399491,
      "learning_rate": 0.0008176807978825118,
      "loss": 3.1074,
      "step": 660
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.7747185274137537,
      "learning_rate": 0.0008171069289014306,
      "loss": 3.1126,
      "step": 661
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.7326220461226954,
      "learning_rate": 0.0008165323602642028,
      "loss": 3.0657,
      "step": 662
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.57295069191962,
      "learning_rate": 0.0008159570932385414,
      "loss": 3.1051,
      "step": 663
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.6198636503581162,
      "learning_rate": 0.0008153811290936999,
      "loss": 3.1043,
      "step": 664
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.48237830894227207,
      "learning_rate": 0.0008148044691004698,
      "loss": 3.0925,
      "step": 665
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.966414377850534,
      "learning_rate": 0.0008142271145311783,
      "loss": 3.0778,
      "step": 666
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.5586351526500122,
      "learning_rate": 0.000813649066659685,
      "loss": 3.1273,
      "step": 667
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.022733842257089,
      "learning_rate": 0.0008130703267613787,
      "loss": 3.17,
      "step": 668
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.2042638702795103,
      "learning_rate": 0.0008124908961131759,
      "loss": 3.0911,
      "step": 669
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.5125925919327639,
      "learning_rate": 0.0008119107759935163,
      "loss": 3.0944,
      "step": 670
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.690044962325129,
      "learning_rate": 0.0008113299676823615,
      "loss": 3.0812,
      "step": 671
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.7600944249059308,
      "learning_rate": 0.0008107484724611911,
      "loss": 3.0674,
      "step": 672
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.8602214145730958,
      "learning_rate": 0.0008101662916130006,
      "loss": 3.0529,
      "step": 673
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.9850641017655085,
      "learning_rate": 0.0008095834264222979,
      "loss": 3.0132,
      "step": 674
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.8262161015287041,
      "learning_rate": 0.0008089998781751009,
      "loss": 3.1065,
      "step": 675
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.0894299370611988,
      "learning_rate": 0.0008084156481589349,
      "loss": 3.1562,
      "step": 676
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.5604028316630392,
      "learning_rate": 0.0008078307376628291,
      "loss": 3.1239,
      "step": 677
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.6479669294503198,
      "learning_rate": 0.0008072451479773143,
      "loss": 3.0435,
      "step": 678
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.8103689369543983,
      "learning_rate": 0.0008066588803944195,
      "loss": 3.1225,
      "step": 679
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.8475662420135783,
      "learning_rate": 0.0008060719362076697,
      "loss": 3.0449,
      "step": 680
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.8476179644785584,
      "learning_rate": 0.0008054843167120826,
      "loss": 3.0679,
      "step": 681
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.3184982602720596,
      "learning_rate": 0.0008048960232041663,
      "loss": 3.1444,
      "step": 682
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.851216135283715,
      "learning_rate": 0.0008043070569819153,
      "loss": 3.0679,
      "step": 683
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.8885133734154089,
      "learning_rate": 0.0008037174193448089,
      "loss": 3.0138,
      "step": 684
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.9731641039797077,
      "learning_rate": 0.0008031271115938077,
      "loss": 3.1254,
      "step": 685
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.9365433291417954,
      "learning_rate": 0.0008025361350313505,
      "loss": 3.1051,
      "step": 686
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.9013817056948412,
      "learning_rate": 0.0008019444909613523,
      "loss": 3.1215,
      "step": 687
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.0254095778398309,
      "learning_rate": 0.0008013521806892003,
      "loss": 3.1236,
      "step": 688
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.9234984724931571,
      "learning_rate": 0.000800759205521752,
      "loss": 3.0288,
      "step": 689
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.5679756282366376,
      "learning_rate": 0.0008001655667673318,
      "loss": 3.0365,
      "step": 690
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.8589472696090324,
      "learning_rate": 0.0007995712657357279,
      "loss": 3.1592,
      "step": 691
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.0861790369276483,
      "learning_rate": 0.0007989763037381904,
      "loss": 3.0975,
      "step": 692
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.7975429684566514,
      "learning_rate": 0.0007983806820874271,
      "loss": 3.0902,
      "step": 693
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.41432063392162777,
      "learning_rate": 0.0007977844020976016,
      "loss": 3.2011,
      "step": 694
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.8302058250746285,
      "learning_rate": 0.00079718746508433,
      "loss": 3.0754,
      "step": 695
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.6409710937222022,
      "learning_rate": 0.0007965898723646776,
      "loss": 3.081,
      "step": 696
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.8160927301575682,
      "learning_rate": 0.0007959916252571573,
      "loss": 2.951,
      "step": 697
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.5213319698017431,
      "learning_rate": 0.000795392725081725,
      "loss": 3.0755,
      "step": 698
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.6120073024394054,
      "learning_rate": 0.000794793173159778,
      "loss": 3.0399,
      "step": 699
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.7739876640243992,
      "learning_rate": 0.0007941929708141513,
      "loss": 3.0741,
      "step": 700
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.9668265319060774,
      "learning_rate": 0.0007935921193691153,
      "loss": 3.0603,
      "step": 701
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.49822232275644157,
      "learning_rate": 0.0007929906201503722,
      "loss": 3.0499,
      "step": 702
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.648594874960745,
      "learning_rate": 0.0007923884744850536,
      "loss": 3.1125,
      "step": 703
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.781230127990258,
      "learning_rate": 0.0007917856837017176,
      "loss": 3.0638,
      "step": 704
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.0945153452807383,
      "learning_rate": 0.0007911822491303452,
      "loss": 3.1028,
      "step": 705
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.7080310500196042,
      "learning_rate": 0.0007905781721023382,
      "loss": 3.0673,
      "step": 706
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.7437048846894865,
      "learning_rate": 0.000789973453950516,
      "loss": 3.1077,
      "step": 707
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.3803039074138936,
      "learning_rate": 0.000789368096009112,
      "loss": 3.0882,
      "step": 708
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.8343633672271317,
      "learning_rate": 0.0007887620996137721,
      "loss": 3.0259,
      "step": 709
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.6954984545603159,
      "learning_rate": 0.0007881554661015497,
      "loss": 3.111,
      "step": 710
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.7489925634925705,
      "learning_rate": 0.0007875481968109051,
      "loss": 3.1114,
      "step": 711
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.9864564454141769,
      "learning_rate": 0.0007869402930817007,
      "loss": 3.0453,
      "step": 712
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.6936986420632625,
      "learning_rate": 0.0007863317562551987,
      "loss": 3.0571,
      "step": 713
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.5265732144523966,
      "learning_rate": 0.0007857225876740584,
      "loss": 3.1644,
      "step": 714
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.7537982868490947,
      "learning_rate": 0.0007851127886823327,
      "loss": 2.9873,
      "step": 715
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.9684380701818471,
      "learning_rate": 0.0007845023606254658,
      "loss": 3.0263,
      "step": 716
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.9334651625550676,
      "learning_rate": 0.0007838913048502894,
      "loss": 3.065,
      "step": 717
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.5084791681815448,
      "learning_rate": 0.0007832796227050208,
      "loss": 3.1216,
      "step": 718
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.7455660599071667,
      "learning_rate": 0.0007826673155392587,
      "loss": 3.0955,
      "step": 719
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.6536530495302518,
      "learning_rate": 0.000782054384703981,
      "loss": 3.08,
      "step": 720
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.974693220742685,
      "learning_rate": 0.0007814408315515418,
      "loss": 3.092,
      "step": 721
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.6273480913482802,
      "learning_rate": 0.0007808266574356683,
      "loss": 3.0895,
      "step": 722
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.5614028695658702,
      "learning_rate": 0.0007802118637114573,
      "loss": 3.1087,
      "step": 723
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.9249571371667896,
      "learning_rate": 0.0007795964517353734,
      "loss": 3.0514,
      "step": 724
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.773086934356555,
      "learning_rate": 0.0007789804228652449,
      "loss": 3.1364,
      "step": 725
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.4827901724819663,
      "learning_rate": 0.0007783637784602609,
      "loss": 3.0559,
      "step": 726
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.7777042830076948,
      "learning_rate": 0.0007777465198809692,
      "loss": 3.0552,
      "step": 727
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.1226595834118993,
      "learning_rate": 0.0007771286484892722,
      "loss": 3.0811,
      "step": 728
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.7456658657757811,
      "learning_rate": 0.000776510165648425,
      "loss": 3.0502,
      "step": 729
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.7730714758432915,
      "learning_rate": 0.0007758910727230311,
      "loss": 3.1137,
      "step": 730
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.7569664260875322,
      "learning_rate": 0.0007752713710790404,
      "loss": 2.9635,
      "step": 731
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.5682030187956063,
      "learning_rate": 0.0007746510620837459,
      "loss": 3.0124,
      "step": 732
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.6425258561570404,
      "learning_rate": 0.0007740301471057807,
      "loss": 3.0379,
      "step": 733
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.7995204428956878,
      "learning_rate": 0.0007734086275151146,
      "loss": 3.0366,
      "step": 734
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.5754966560959287,
      "learning_rate": 0.0007727865046830517,
      "loss": 3.0362,
      "step": 735
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.5988776778236491,
      "learning_rate": 0.0007721637799822269,
      "loss": 3.0462,
      "step": 736
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.839562306384734,
      "learning_rate": 0.0007715404547866032,
      "loss": 3.1058,
      "step": 737
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.917307874637213,
      "learning_rate": 0.0007709165304714685,
      "loss": 3.1378,
      "step": 738
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.6311542343411559,
      "learning_rate": 0.0007702920084134324,
      "loss": 3.1115,
      "step": 739
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.8494344282688315,
      "learning_rate": 0.0007696668899904236,
      "loss": 3.0147,
      "step": 740
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.8121491219447075,
      "learning_rate": 0.0007690411765816864,
      "loss": 3.0559,
      "step": 741
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.9302886206559423,
      "learning_rate": 0.0007684148695677778,
      "loss": 3.0281,
      "step": 742
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.6374495849368224,
      "learning_rate": 0.000767787970330565,
      "loss": 3.0535,
      "step": 743
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.9722069338794176,
      "learning_rate": 0.000767160480253221,
      "loss": 3.0962,
      "step": 744
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.9133534111029701,
      "learning_rate": 0.0007665324007202235,
      "loss": 3.0352,
      "step": 745
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.6006049218824031,
      "learning_rate": 0.0007659037331173498,
      "loss": 3.0117,
      "step": 746
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.5729774532288838,
      "learning_rate": 0.0007652744788316752,
      "loss": 3.1411,
      "step": 747
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.6341610925204247,
      "learning_rate": 0.0007646446392515692,
      "loss": 3.0045,
      "step": 748
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.7944433129483031,
      "learning_rate": 0.000764014215766693,
      "loss": 3.2052,
      "step": 749
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.1918688799881505,
      "learning_rate": 0.0007633832097679958,
      "loss": 3.1117,
      "step": 750
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.697214957999937,
      "learning_rate": 0.0007627516226477122,
      "loss": 3.0229,
      "step": 751
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.5947876739152889,
      "learning_rate": 0.0007621194557993589,
      "loss": 3.0501,
      "step": 752
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.8281679715991273,
      "learning_rate": 0.0007614867106177319,
      "loss": 3.0561,
      "step": 753
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.9073620940865942,
      "learning_rate": 0.0007608533884989029,
      "loss": 3.1532,
      "step": 754
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.5750295440673568,
      "learning_rate": 0.0007602194908402166,
      "loss": 3.0941,
      "step": 755
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.6823301177383839,
      "learning_rate": 0.0007595850190402877,
      "loss": 3.1,
      "step": 756
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.7793519844162461,
      "learning_rate": 0.0007589499744989976,
      "loss": 3.0485,
      "step": 757
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.5875664287729365,
      "learning_rate": 0.0007583143586174916,
      "loss": 3.0559,
      "step": 758
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.0480563799291316,
      "learning_rate": 0.000757678172798175,
      "loss": 3.0391,
      "step": 759
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.1416849963054203,
      "learning_rate": 0.0007570414184447112,
      "loss": 3.0328,
      "step": 760
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.9572102624367101,
      "learning_rate": 0.0007564040969620179,
      "loss": 3.0753,
      "step": 761
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.9232831998950545,
      "learning_rate": 0.0007557662097562636,
      "loss": 3.0778,
      "step": 762
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.9166428781511144,
      "learning_rate": 0.0007551277582348658,
      "loss": 3.044,
      "step": 763
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.8954487749467462,
      "learning_rate": 0.0007544887438064862,
      "loss": 3.1158,
      "step": 764
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.225083257890534,
      "learning_rate": 0.0007538491678810294,
      "loss": 3.1145,
      "step": 765
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.5997931515945163,
      "learning_rate": 0.0007532090318696381,
      "loss": 3.0763,
      "step": 766
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.8815674937966207,
      "learning_rate": 0.0007525683371846913,
      "loss": 3.0698,
      "step": 767
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.6637808731931238,
      "learning_rate": 0.0007519270852398001,
      "loss": 3.1034,
      "step": 768
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.6213937956898098,
      "learning_rate": 0.000751285277449806,
      "loss": 3.1882,
      "step": 769
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.205877750958659,
      "learning_rate": 0.0007506429152307756,
      "loss": 3.1959,
      "step": 770
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.8401178342850906,
      "learning_rate": 0.00075,
      "loss": 3.0396,
      "step": 771
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.6797290696542867,
      "learning_rate": 0.00074935653317599,
      "loss": 2.9775,
      "step": 772
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.0870475350920459,
      "learning_rate": 0.000748712516178473,
      "loss": 3.0246,
      "step": 773
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.4996296317055903,
      "learning_rate": 0.0007480679504283911,
      "loss": 3.0217,
      "step": 774
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.7802962424896894,
      "learning_rate": 0.0007474228373478964,
      "loss": 3.1032,
      "step": 775
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.978825933685248,
      "learning_rate": 0.0007467771783603492,
      "loss": 3.1407,
      "step": 776
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.7984681049135318,
      "learning_rate": 0.0007461309748903138,
      "loss": 3.1046,
      "step": 777
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.8338112597099446,
      "learning_rate": 0.0007454842283635562,
      "loss": 3.2084,
      "step": 778
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.1741866684566173,
      "learning_rate": 0.0007448369402070404,
      "loss": 2.9986,
      "step": 779
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.027897214572737,
      "learning_rate": 0.0007441891118489254,
      "loss": 3.1023,
      "step": 780
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.0974478776043228,
      "learning_rate": 0.0007435407447185622,
      "loss": 3.1496,
      "step": 781
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.1170181493373765,
      "learning_rate": 0.0007428918402464908,
      "loss": 3.0727,
      "step": 782
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.7018437937141987,
      "learning_rate": 0.0007422423998644359,
      "loss": 3.0759,
      "step": 783
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.3663240190027865,
      "learning_rate": 0.0007415924250053055,
      "loss": 3.0581,
      "step": 784
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.8119287344042273,
      "learning_rate": 0.0007409419171031865,
      "loss": 3.065,
      "step": 785
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.7535978516036659,
      "learning_rate": 0.0007402908775933419,
      "loss": 3.0088,
      "step": 786
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.147179468996368,
      "learning_rate": 0.0007396393079122077,
      "loss": 3.0336,
      "step": 787
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.0074721391257044,
      "learning_rate": 0.0007389872094973896,
      "loss": 3.0888,
      "step": 788
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.7663677698423786,
      "learning_rate": 0.00073833458378766,
      "loss": 3.2219,
      "step": 789
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.6684699192764932,
      "learning_rate": 0.0007376814322229544,
      "loss": 3.1721,
      "step": 790
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.3501512549159975,
      "learning_rate": 0.0007370277562443688,
      "loss": 3.1102,
      "step": 791
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.9901610908795602,
      "learning_rate": 0.0007363735572941564,
      "loss": 3.0257,
      "step": 792
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.8857869403958696,
      "learning_rate": 0.0007357188368157236,
      "loss": 3.1561,
      "step": 793
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.7644494073102314,
      "learning_rate": 0.0007350635962536284,
      "loss": 2.9284,
      "step": 794
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.6974812055907756,
      "learning_rate": 0.0007344078370535756,
      "loss": 3.0842,
      "step": 795
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.5957236148773911,
      "learning_rate": 0.0007337515606624148,
      "loss": 3.1442,
      "step": 796
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.4951754537749429,
      "learning_rate": 0.0007330947685281362,
      "loss": 3.1268,
      "step": 797
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.811755612841076,
      "learning_rate": 0.0007324374620998682,
      "loss": 3.1073,
      "step": 798
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.6901763531507082,
      "learning_rate": 0.000731779642827874,
      "loss": 2.9489,
      "step": 799
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.6929734172419673,
      "learning_rate": 0.0007311213121635483,
      "loss": 3.0452,
      "step": 800
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.7838036986479511,
      "learning_rate": 0.0007304624715594139,
      "loss": 3.0235,
      "step": 801
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.094259527887381,
      "learning_rate": 0.0007298031224691193,
      "loss": 3.1002,
      "step": 802
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.6176832874942205,
      "learning_rate": 0.0007291432663474339,
      "loss": 3.067,
      "step": 803
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.0483594616933194,
      "learning_rate": 0.0007284829046502467,
      "loss": 3.0116,
      "step": 804
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.0262019015683712,
      "learning_rate": 0.0007278220388345619,
      "loss": 3.0345,
      "step": 805
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.6790193399041404,
      "learning_rate": 0.0007271606703584958,
      "loss": 3.0326,
      "step": 806
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.7008850694944563,
      "learning_rate": 0.000726498800681274,
      "loss": 3.0297,
      "step": 807
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.8050446347826238,
      "learning_rate": 0.0007258364312632279,
      "loss": 3.0622,
      "step": 808
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.9298744363916837,
      "learning_rate": 0.0007251735635657915,
      "loss": 3.0194,
      "step": 809
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.9614884912958616,
      "learning_rate": 0.000724510199051498,
      "loss": 3.002,
      "step": 810
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.7149019508904461,
      "learning_rate": 0.0007238463391839769,
      "loss": 3.0913,
      "step": 811
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.1841644853776054,
      "learning_rate": 0.0007231819854279508,
      "loss": 3.093,
      "step": 812
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.7413505684021946,
      "learning_rate": 0.0007225171392492316,
      "loss": 2.988,
      "step": 813
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.9748596941009725,
      "learning_rate": 0.0007218518021147182,
      "loss": 3.071,
      "step": 814
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.6288502390051711,
      "learning_rate": 0.0007211859754923923,
      "loss": 3.0684,
      "step": 815
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.7239918131162856,
      "learning_rate": 0.0007205196608513158,
      "loss": 3.0989,
      "step": 816
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.6871327635733104,
      "learning_rate": 0.0007198528596616272,
      "loss": 2.9335,
      "step": 817
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.9890924713780428,
      "learning_rate": 0.0007191855733945387,
      "loss": 3.0183,
      "step": 818
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.8776440224622164,
      "learning_rate": 0.0007185178035223327,
      "loss": 3.0516,
      "step": 819
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.6322588944575045,
      "learning_rate": 0.0007178495515183583,
      "loss": 3.0927,
      "step": 820
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.6753782102408875,
      "learning_rate": 0.000717180818857029,
      "loss": 3.0824,
      "step": 821
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.257068014853924,
      "learning_rate": 0.0007165116070138182,
      "loss": 3.1319,
      "step": 822
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.9486296313831521,
      "learning_rate": 0.0007158419174652569,
      "loss": 3.0204,
      "step": 823
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.895532176336413,
      "learning_rate": 0.00071517175168893,
      "loss": 3.0086,
      "step": 824
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.9807253230117718,
      "learning_rate": 0.0007145011111634732,
      "loss": 3.0457,
      "step": 825
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.1890091638005125,
      "learning_rate": 0.0007138299973685694,
      "loss": 3.1438,
      "step": 826
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.7618092440313027,
      "learning_rate": 0.0007131584117849459,
      "loss": 3.0707,
      "step": 827
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.6100533234152714,
      "learning_rate": 0.0007124863558943713,
      "loss": 2.9795,
      "step": 828
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.0191119892236864,
      "learning_rate": 0.0007118138311796514,
      "loss": 3.0224,
      "step": 829
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.2121940281934114,
      "learning_rate": 0.0007111408391246262,
      "loss": 3.1281,
      "step": 830
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.8231926303280136,
      "learning_rate": 0.0007104673812141675,
      "loss": 3.0421,
      "step": 831
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.774751262986796,
      "learning_rate": 0.0007097934589341745,
      "loss": 3.0466,
      "step": 832
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.2368781897130867,
      "learning_rate": 0.0007091190737715711,
      "loss": 2.9992,
      "step": 833
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.1460237151256973,
      "learning_rate": 0.0007084442272143026,
      "loss": 3.073,
      "step": 834
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.7341456801256033,
      "learning_rate": 0.000707768920751332,
      "loss": 3.0841,
      "step": 835
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.5540062295266204,
      "learning_rate": 0.0007070931558726373,
      "loss": 3.0602,
      "step": 836
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.3356725008362993,
      "learning_rate": 0.0007064169340692076,
      "loss": 3.092,
      "step": 837
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.6962162990295651,
      "learning_rate": 0.0007057402568330407,
      "loss": 3.1257,
      "step": 838
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.3579254792831141,
      "learning_rate": 0.0007050631256571389,
      "loss": 3.1441,
      "step": 839
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.0409841938709479,
      "learning_rate": 0.000704385542035506,
      "loss": 3.036,
      "step": 840
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.0531618217850363,
      "learning_rate": 0.000703707507463144,
      "loss": 3.1434,
      "step": 841
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.1268686075750298,
      "learning_rate": 0.0007030290234360505,
      "loss": 3.041,
      "step": 842
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.2372047764932406,
      "learning_rate": 0.0007023500914512139,
      "loss": 3.0252,
      "step": 843
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.0437228476469427,
      "learning_rate": 0.0007016707130066116,
      "loss": 3.0448,
      "step": 844
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.0413053627007904,
      "learning_rate": 0.0007009908896012055,
      "loss": 3.0983,
      "step": 845
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.8581002621992961,
      "learning_rate": 0.0007003106227349399,
      "loss": 3.0569,
      "step": 846
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.9832306853273911,
      "learning_rate": 0.000699629913908737,
      "loss": 3.0128,
      "step": 847
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.1422405070836177,
      "learning_rate": 0.0006989487646244943,
      "loss": 2.9927,
      "step": 848
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.2628320601346612,
      "learning_rate": 0.0006982671763850814,
      "loss": 3.0322,
      "step": 849
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.9918560508910467,
      "learning_rate": 0.0006975851506943359,
      "loss": 2.9986,
      "step": 850
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.1324039152106908,
      "learning_rate": 0.0006969026890570611,
      "loss": 3.1005,
      "step": 851
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.811994545767922,
      "learning_rate": 0.0006962197929790216,
      "loss": 3.0576,
      "step": 852
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.1900787993819086,
      "learning_rate": 0.0006955364639669409,
      "loss": 3.0549,
      "step": 853
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.6759436557376358,
      "learning_rate": 0.0006948527035284978,
      "loss": 3.0498,
      "step": 854
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.2625699359198552,
      "learning_rate": 0.0006941685131723225,
      "loss": 3.0472,
      "step": 855
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.0973283305124302,
      "learning_rate": 0.0006934838944079943,
      "loss": 3.0606,
      "step": 856
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.2750930350656788,
      "learning_rate": 0.0006927988487460378,
      "loss": 2.9664,
      "step": 857
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.0368744635787273,
      "learning_rate": 0.0006921133776979186,
      "loss": 3.0343,
      "step": 858
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.0374654706934465,
      "learning_rate": 0.0006914274827760418,
      "loss": 3.0189,
      "step": 859
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.2850154394032218,
      "learning_rate": 0.0006907411654937475,
      "loss": 3.1337,
      "step": 860
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.9556260403212062,
      "learning_rate": 0.0006900544273653075,
      "loss": 3.0441,
      "step": 861
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.8046486517823036,
      "learning_rate": 0.000689367269905922,
      "loss": 3.0645,
      "step": 862
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.9184573607391454,
      "learning_rate": 0.0006886796946317168,
      "loss": 3.0486,
      "step": 863
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.2985799273135032,
      "learning_rate": 0.0006879917030597397,
      "loss": 3.0772,
      "step": 864
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.2536090281324341,
      "learning_rate": 0.0006873032967079561,
      "loss": 3.1161,
      "step": 865
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.1090299621575732,
      "learning_rate": 0.0006866144770952474,
      "loss": 3.051,
      "step": 866
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.149998859360254,
      "learning_rate": 0.0006859252457414067,
      "loss": 3.0711,
      "step": 867
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.0845006352730593,
      "learning_rate": 0.0006852356041671351,
      "loss": 3.0912,
      "step": 868
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.961139164868516,
      "learning_rate": 0.0006845455538940394,
      "loss": 3.0787,
      "step": 869
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.278125212659707,
      "learning_rate": 0.0006838550964446276,
      "loss": 2.985,
      "step": 870
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.9240307614415421,
      "learning_rate": 0.0006831642333423067,
      "loss": 3.039,
      "step": 871
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.2328272944088656,
      "learning_rate": 0.000682472966111378,
      "loss": 3.0204,
      "step": 872
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.35441236387992,
      "learning_rate": 0.0006817812962770348,
      "loss": 3.1101,
      "step": 873
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.9918487491050125,
      "learning_rate": 0.0006810892253653589,
      "loss": 3.0066,
      "step": 874
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.8782982007080328,
      "learning_rate": 0.0006803967549033167,
      "loss": 3.0516,
      "step": 875
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.8143871868805557,
      "learning_rate": 0.0006797038864187564,
      "loss": 3.0615,
      "step": 876
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.8002194589387503,
      "learning_rate": 0.0006790106214404043,
      "loss": 3.0971,
      "step": 877
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.0030046299429383,
      "learning_rate": 0.0006783169614978614,
      "loss": 3.0533,
      "step": 878
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.9807467164841703,
      "learning_rate": 0.0006776229081216001,
      "loss": 3.0397,
      "step": 879
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.0293478944710763,
      "learning_rate": 0.0006769284628429611,
      "loss": 3.0997,
      "step": 880
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.1629961017167534,
      "learning_rate": 0.0006762336271941498,
      "loss": 3.1087,
      "step": 881
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.9896212485973377,
      "learning_rate": 0.0006755384027082326,
      "loss": 2.9601,
      "step": 882
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.9480625567991826,
      "learning_rate": 0.0006748427909191342,
      "loss": 3.0589,
      "step": 883
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.215394711524761,
      "learning_rate": 0.0006741467933616335,
      "loss": 3.1106,
      "step": 884
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.0019450982017706,
      "learning_rate": 0.0006734504115713604,
      "loss": 2.9112,
      "step": 885
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.014973713779469,
      "learning_rate": 0.0006727536470847932,
      "loss": 2.9713,
      "step": 886
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.314227560467382,
      "learning_rate": 0.000672056501439254,
      "loss": 3.0363,
      "step": 887
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.2924419638145872,
      "learning_rate": 0.0006713589761729063,
      "loss": 3.0002,
      "step": 888
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.784096153324802,
      "learning_rate": 0.0006706610728247508,
      "loss": 2.9746,
      "step": 889
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.7504505594075781,
      "learning_rate": 0.0006699627929346227,
      "loss": 3.0154,
      "step": 890
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.1809835365688972,
      "learning_rate": 0.0006692641380431879,
      "loss": 3.139,
      "step": 891
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.2952275251626135,
      "learning_rate": 0.0006685651096919393,
      "loss": 2.9875,
      "step": 892
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.7422676889252271,
      "learning_rate": 0.0006678657094231944,
      "loss": 3.0379,
      "step": 893
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.2414713352255853,
      "learning_rate": 0.0006671659387800909,
      "loss": 3.0519,
      "step": 894
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.890490407725257,
      "learning_rate": 0.000666465799306584,
      "loss": 3.047,
      "step": 895
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.321610037575985,
      "learning_rate": 0.0006657652925474423,
      "loss": 3.06,
      "step": 896
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.890898749950707,
      "learning_rate": 0.000665064420048245,
      "loss": 3.0479,
      "step": 897
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.9789917030739151,
      "learning_rate": 0.0006643631833553785,
      "loss": 3.0927,
      "step": 898
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.0262322193043223,
      "learning_rate": 0.000663661584016032,
      "loss": 3.0402,
      "step": 899
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.2767208388403983,
      "learning_rate": 0.0006629596235781957,
      "loss": 3.043,
      "step": 900
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.1033893927469427,
      "learning_rate": 0.0006622573035906556,
      "loss": 3.0771,
      "step": 901
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.7743220075169284,
      "learning_rate": 0.0006615546256029921,
      "loss": 2.9391,
      "step": 902
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.1999335176961854,
      "learning_rate": 0.0006608515911655743,
      "loss": 3.0432,
      "step": 903
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.7106908473526138,
      "learning_rate": 0.0006601482018295591,
      "loss": 3.0354,
      "step": 904
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.8054736157154357,
      "learning_rate": 0.0006594444591468851,
      "loss": 3.0323,
      "step": 905
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.9800428140835324,
      "learning_rate": 0.0006587403646702713,
      "loss": 3.0667,
      "step": 906
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.1028950558031188,
      "learning_rate": 0.0006580359199532126,
      "loss": 3.0207,
      "step": 907
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.371806647006107,
      "learning_rate": 0.000657331126549977,
      "loss": 2.987,
      "step": 908
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.9381363653278115,
      "learning_rate": 0.0006566259860156014,
      "loss": 2.9656,
      "step": 909
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.0415986774912505,
      "learning_rate": 0.0006559204999058888,
      "loss": 3.031,
      "step": 910
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.753691612372803,
      "learning_rate": 0.0006552146697774049,
      "loss": 3.0027,
      "step": 911
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.8220619836477832,
      "learning_rate": 0.0006545084971874737,
      "loss": 2.9966,
      "step": 912
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.7459339988039011,
      "learning_rate": 0.0006538019836941758,
      "loss": 3.0151,
      "step": 913
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.9182246768039918,
      "learning_rate": 0.0006530951308563431,
      "loss": 3.0584,
      "step": 914
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.0566145110858618,
      "learning_rate": 0.0006523879402335567,
      "loss": 3.0818,
      "step": 915
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.7851120699894929,
      "learning_rate": 0.0006516804133861429,
      "loss": 3.1742,
      "step": 916
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.060335314310381,
      "learning_rate": 0.0006509725518751698,
      "loss": 2.9732,
      "step": 917
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.080582902493799,
      "learning_rate": 0.0006502643572624438,
      "loss": 2.9717,
      "step": 918
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.2064308264232209,
      "learning_rate": 0.0006495558311105064,
      "loss": 2.9903,
      "step": 919
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.8375400309287372,
      "learning_rate": 0.0006488469749826305,
      "loss": 3.05,
      "step": 920
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.0503264548462976,
      "learning_rate": 0.000648137790442817,
      "loss": 2.9973,
      "step": 921
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.1062105785855931,
      "learning_rate": 0.0006474282790557916,
      "loss": 3.1205,
      "step": 922
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.7719271055890633,
      "learning_rate": 0.000646718442387001,
      "loss": 3.0942,
      "step": 923
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.2346771972422237,
      "learning_rate": 0.0006460082820026094,
      "loss": 3.0094,
      "step": 924
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.7003159082949212,
      "learning_rate": 0.0006452977994694959,
      "loss": 3.0631,
      "step": 925
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.7084547481217481,
      "learning_rate": 0.0006445869963552496,
      "loss": 3.0348,
      "step": 926
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.1825389677676648,
      "learning_rate": 0.0006438758742281672,
      "loss": 3.1146,
      "step": 927
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.9975480226307812,
      "learning_rate": 0.0006431644346572495,
      "loss": 3.0522,
      "step": 928
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.8092421758321783,
      "learning_rate": 0.0006424526792121974,
      "loss": 2.9585,
      "step": 929
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.8458726140320175,
      "learning_rate": 0.0006417406094634089,
      "loss": 3.0322,
      "step": 930
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.0842824757185536,
      "learning_rate": 0.0006410282269819756,
      "loss": 3.1046,
      "step": 931
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.4888754680681482,
      "learning_rate": 0.0006403155333396787,
      "loss": 3.0789,
      "step": 932
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.157532267942475,
      "learning_rate": 0.0006396025301089863,
      "loss": 3.1084,
      "step": 933
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.151232429143797,
      "learning_rate": 0.0006388892188630493,
      "loss": 3.1063,
      "step": 934
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.096140133867002,
      "learning_rate": 0.0006381756011756982,
      "loss": 3.1143,
      "step": 935
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.0381439889757804,
      "learning_rate": 0.0006374616786214403,
      "loss": 3.0152,
      "step": 936
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.0244516538501531,
      "learning_rate": 0.0006367474527754544,
      "loss": 3.0288,
      "step": 937
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.8172102664763912,
      "learning_rate": 0.0006360329252135894,
      "loss": 2.9926,
      "step": 938
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.2059803594235947,
      "learning_rate": 0.0006353180975123595,
      "loss": 3.0351,
      "step": 939
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.979650761099429,
      "learning_rate": 0.0006346029712489413,
      "loss": 3.0368,
      "step": 940
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.804142855291737,
      "learning_rate": 0.0006338875480011698,
      "loss": 3.0502,
      "step": 941
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.0098186343083382,
      "learning_rate": 0.0006331718293475357,
      "loss": 2.976,
      "step": 942
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.0014943674993229,
      "learning_rate": 0.0006324558168671811,
      "loss": 3.1834,
      "step": 943
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.9153587119698048,
      "learning_rate": 0.0006317395121398968,
      "loss": 3.0864,
      "step": 944
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.8625049496933831,
      "learning_rate": 0.0006310229167461179,
      "loss": 3.0208,
      "step": 945
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.211245938454665,
      "learning_rate": 0.0006303060322669214,
      "loss": 3.0388,
      "step": 946
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.2131348433615579,
      "learning_rate": 0.0006295888602840214,
      "loss": 2.9197,
      "step": 947
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.9323293550549856,
      "learning_rate": 0.0006288714023797671,
      "loss": 3.0274,
      "step": 948
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.1337282398470956,
      "learning_rate": 0.000628153660137138,
      "loss": 2.9926,
      "step": 949
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.1946901719117828,
      "learning_rate": 0.0006274356351397413,
      "loss": 2.9962,
      "step": 950
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.7820600167063992,
      "learning_rate": 0.0006267173289718079,
      "loss": 2.9825,
      "step": 951
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.8864132905776537,
      "learning_rate": 0.000625998743218189,
      "loss": 3.0869,
      "step": 952
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.0003254526865544,
      "learning_rate": 0.000625279879464353,
      "loss": 2.9714,
      "step": 953
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.116345286355264,
      "learning_rate": 0.000624560739296381,
      "loss": 3.0626,
      "step": 954
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.2810375261008002,
      "learning_rate": 0.0006238413243009648,
      "loss": 2.9434,
      "step": 955
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.7436787174504278,
      "learning_rate": 0.000623121636065402,
      "loss": 2.9843,
      "step": 956
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.069959935668003,
      "learning_rate": 0.0006224016761775933,
      "loss": 3.0239,
      "step": 957
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.7541174768588093,
      "learning_rate": 0.0006216814462260386,
      "loss": 3.0353,
      "step": 958
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.9812554510975428,
      "learning_rate": 0.0006209609477998338,
      "loss": 3.0713,
      "step": 959
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.8430139060231712,
      "learning_rate": 0.0006202401824886674,
      "loss": 3.032,
      "step": 960
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.476519635114367,
      "learning_rate": 0.0006195191518828162,
      "loss": 3.0622,
      "step": 961
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.6801887981046552,
      "learning_rate": 0.0006187978575731427,
      "loss": 3.0263,
      "step": 962
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.0862959715546732,
      "learning_rate": 0.0006180763011510911,
      "loss": 3.0479,
      "step": 963
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.151376613565372,
      "learning_rate": 0.000617354484208684,
      "loss": 2.9652,
      "step": 964
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.7068313651208857,
      "learning_rate": 0.0006166324083385189,
      "loss": 3.0255,
      "step": 965
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.317045337485843,
      "learning_rate": 0.0006159100751337642,
      "loss": 2.9658,
      "step": 966
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.1979334438153377,
      "learning_rate": 0.0006151874861881565,
      "loss": 3.0283,
      "step": 967
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.9503074059305642,
      "learning_rate": 0.0006144646430959964,
      "loss": 3.0659,
      "step": 968
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.237733886028403,
      "learning_rate": 0.0006137415474521454,
      "loss": 3.068,
      "step": 969
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.8368787419980132,
      "learning_rate": 0.0006130182008520222,
      "loss": 3.0239,
      "step": 970
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.0847123227437867,
      "learning_rate": 0.000612294604891599,
      "loss": 3.0554,
      "step": 971
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.235840957346903,
      "learning_rate": 0.0006115707611673986,
      "loss": 3.0892,
      "step": 972
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.7706957728808084,
      "learning_rate": 0.0006108466712764902,
      "loss": 2.9961,
      "step": 973
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.1111023618607054,
      "learning_rate": 0.0006101223368164858,
      "loss": 3.0763,
      "step": 974
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.0662472271944634,
      "learning_rate": 0.0006093977593855375,
      "loss": 3.0232,
      "step": 975
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.9194953125958982,
      "learning_rate": 0.0006086729405823335,
      "loss": 3.0452,
      "step": 976
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.2544581101308852,
      "learning_rate": 0.0006079478820060943,
      "loss": 3.0486,
      "step": 977
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.8152001378537344,
      "learning_rate": 0.0006072225852565695,
      "loss": 2.9974,
      "step": 978
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.9412785716239754,
      "learning_rate": 0.0006064970519340341,
      "loss": 3.0534,
      "step": 979
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.0002156301617855,
      "learning_rate": 0.0006057712836392856,
      "loss": 3.0093,
      "step": 980
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.7711743117514469,
      "learning_rate": 0.0006050452819736389,
      "loss": 3.0491,
      "step": 981
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.9127820859625132,
      "learning_rate": 0.000604319048538925,
      "loss": 2.963,
      "step": 982
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.7587546217789279,
      "learning_rate": 0.0006035925849374855,
      "loss": 3.0692,
      "step": 983
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.6773452124595345,
      "learning_rate": 0.0006028658927721697,
      "loss": 3.0463,
      "step": 984
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.0187710718071954,
      "learning_rate": 0.0006021389736463321,
      "loss": 3.0571,
      "step": 985
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.1203555593176528,
      "learning_rate": 0.0006014118291638271,
      "loss": 2.9705,
      "step": 986
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.0755739905441777,
      "learning_rate": 0.0006006844609290065,
      "loss": 3.1289,
      "step": 987
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.881840910445344,
      "learning_rate": 0.0005999568705467161,
      "loss": 3.1746,
      "step": 988
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.9985479342775574,
      "learning_rate": 0.0005992290596222915,
      "loss": 2.993,
      "step": 989
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.7840969523197672,
      "learning_rate": 0.0005985010297615551,
      "loss": 3.0446,
      "step": 990
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.1168606737240405,
      "learning_rate": 0.0005977727825708123,
      "loss": 3.084,
      "step": 991
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.8308563941788595,
      "learning_rate": 0.0005970443196568478,
      "loss": 2.9888,
      "step": 992
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.9364061376654895,
      "learning_rate": 0.0005963156426269227,
      "loss": 2.9534,
      "step": 993
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.233456333756502,
      "learning_rate": 0.0005955867530887702,
      "loss": 3.0211,
      "step": 994
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.0162049078576691,
      "learning_rate": 0.0005948576526505923,
      "loss": 2.9898,
      "step": 995
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.2525788455294389,
      "learning_rate": 0.0005941283429210568,
      "loss": 2.9894,
      "step": 996
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.4832728302988836,
      "learning_rate": 0.0005933988255092926,
      "loss": 3.0554,
      "step": 997
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.0384587464890465,
      "learning_rate": 0.0005926691020248874,
      "loss": 2.9751,
      "step": 998
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.9087598249080581,
      "learning_rate": 0.0005919391740778833,
      "loss": 3.0344,
      "step": 999
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.2289937747869917,
      "learning_rate": 0.0005912090432787736,
      "loss": 3.0318,
      "step": 1000
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.203351783431226,
      "learning_rate": 0.000590478711238499,
      "loss": 2.944,
      "step": 1001
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.0174417572024486,
      "learning_rate": 0.0005897481795684446,
      "loss": 3.0261,
      "step": 1002
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.2575220803190061,
      "learning_rate": 0.0005890174498804355,
      "loss": 3.0065,
      "step": 1003
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.8671454746334137,
      "learning_rate": 0.0005882865237867339,
      "loss": 3.0344,
      "step": 1004
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.1214578859446396,
      "learning_rate": 0.0005875554029000353,
      "loss": 3.0206,
      "step": 1005
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.0038873735071587,
      "learning_rate": 0.0005868240888334653,
      "loss": 2.9256,
      "step": 1006
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.9634093200422973,
      "learning_rate": 0.0005860925832005753,
      "loss": 2.9712,
      "step": 1007
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.9387755029106227,
      "learning_rate": 0.0005853608876153395,
      "loss": 3.0702,
      "step": 1008
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.4030636649333863,
      "learning_rate": 0.0005846290036921512,
      "loss": 3.0159,
      "step": 1009
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.2657546040248238,
      "learning_rate": 0.0005838969330458195,
      "loss": 2.9196,
      "step": 1010
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.1570528235841953,
      "learning_rate": 0.0005831646772915651,
      "loss": 3.074,
      "step": 1011
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.0050690484434341,
      "learning_rate": 0.0005824322380450173,
      "loss": 2.9815,
      "step": 1012
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.4231790332517649,
      "learning_rate": 0.0005816996169222102,
      "loss": 3.0922,
      "step": 1013
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.8538888122461703,
      "learning_rate": 0.0005809668155395793,
      "loss": 2.974,
      "step": 1014
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.7404393575502927,
      "learning_rate": 0.0005802338355139578,
      "loss": 3.0092,
      "step": 1015
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.2598922359337505,
      "learning_rate": 0.0005795006784625728,
      "loss": 3.0034,
      "step": 1016
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.2725478313411784,
      "learning_rate": 0.0005787673460030423,
      "loss": 3.0722,
      "step": 1017
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.2801737145834058,
      "learning_rate": 0.000578033839753371,
      "loss": 2.9616,
      "step": 1018
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.1117450539129339,
      "learning_rate": 0.0005773001613319476,
      "loss": 2.9995,
      "step": 1019
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.94288165631608,
      "learning_rate": 0.00057656631235754,
      "loss": 2.981,
      "step": 1020
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.1197240936362658,
      "learning_rate": 0.0005758322944492929,
      "loss": 2.9914,
      "step": 1021
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.027997355187458,
      "learning_rate": 0.0005750981092267237,
      "loss": 3.1128,
      "step": 1022
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.056533446063989,
      "learning_rate": 0.0005743637583097183,
      "loss": 2.9801,
      "step": 1023
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.0030779594490826,
      "learning_rate": 0.0005736292433185291,
      "loss": 3.0381,
      "step": 1024
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.0943688480964302,
      "learning_rate": 0.0005728945658737699,
      "loss": 3.0949,
      "step": 1025
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.0920966103259893,
      "learning_rate": 0.0005721597275964133,
      "loss": 2.9929,
      "step": 1026
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.1338740719837008,
      "learning_rate": 0.0005714247301077865,
      "loss": 2.9888,
      "step": 1027
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.3240458558390469,
      "learning_rate": 0.0005706895750295682,
      "loss": 2.9893,
      "step": 1028
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.9614676322167545,
      "learning_rate": 0.0005699542639837844,
      "loss": 3.04,
      "step": 1029
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.9455443134530495,
      "learning_rate": 0.0005692187985928055,
      "loss": 3.0164,
      "step": 1030
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.0080201337724404,
      "learning_rate": 0.0005684831804793427,
      "loss": 3.0283,
      "step": 1031
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.2453212970700345,
      "learning_rate": 0.0005677474112664438,
      "loss": 3.0777,
      "step": 1032
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.0846902330815869,
      "learning_rate": 0.0005670114925774899,
      "loss": 2.9617,
      "step": 1033
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.0985806238862992,
      "learning_rate": 0.0005662754260361924,
      "loss": 3.1021,
      "step": 1034
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.8329813766636166,
      "learning_rate": 0.0005655392132665884,
      "loss": 3.028,
      "step": 1035
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.3438732223337804,
      "learning_rate": 0.000564802855893038,
      "loss": 3.0284,
      "step": 1036
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.4962206019959985,
      "learning_rate": 0.0005640663555402198,
      "loss": 3.0107,
      "step": 1037
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.070571149895149,
      "learning_rate": 0.0005633297138331285,
      "loss": 2.9369,
      "step": 1038
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.7452216978662243,
      "learning_rate": 0.0005625929323970705,
      "loss": 3.0029,
      "step": 1039
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.0960501364246331,
      "learning_rate": 0.0005618560128576603,
      "loss": 3.0198,
      "step": 1040
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.4592942611996027,
      "learning_rate": 0.0005611189568408173,
      "loss": 2.9748,
      "step": 1041
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.722736111503384,
      "learning_rate": 0.0005603817659727619,
      "loss": 3.0121,
      "step": 1042
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.6290490875182518,
      "learning_rate": 0.0005596444418800121,
      "loss": 3.0582,
      "step": 1043
    },
    {
      "epoch": 0.48,
      "grad_norm": 2.330167047927268,
      "learning_rate": 0.0005589069861893798,
      "loss": 2.9799,
      "step": 1044
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.1792823699783972,
      "learning_rate": 0.0005581694005279673,
      "loss": 3.0395,
      "step": 1045
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.1239715798234948,
      "learning_rate": 0.0005574316865231637,
      "loss": 3.133,
      "step": 1046
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.8521407040423787,
      "learning_rate": 0.0005566938458026411,
      "loss": 3.0581,
      "step": 1047
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.629452918037043,
      "learning_rate": 0.0005559558799943514,
      "loss": 3.062,
      "step": 1048
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.2025257497628856,
      "learning_rate": 0.0005552177907265223,
      "loss": 3.0148,
      "step": 1049
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.2168850507320286,
      "learning_rate": 0.000554479579627654,
      "loss": 2.9543,
      "step": 1050
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.7527391980973843,
      "learning_rate": 0.0005537412483265157,
      "loss": 3.0687,
      "step": 1051
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.7734440553497102,
      "learning_rate": 0.0005530027984521413,
      "loss": 3.0451,
      "step": 1052
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.015877682145645,
      "learning_rate": 0.0005522642316338268,
      "loss": 3.0466,
      "step": 1053
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.668814884381176,
      "learning_rate": 0.0005515255495011259,
      "loss": 2.9686,
      "step": 1054
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.7333226929384624,
      "learning_rate": 0.0005507867536838472,
      "loss": 3.0034,
      "step": 1055
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.912866582047418,
      "learning_rate": 0.0005500478458120492,
      "loss": 3.013,
      "step": 1056
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.2324816074808966,
      "learning_rate": 0.0005493088275160387,
      "loss": 3.0749,
      "step": 1057
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.8928703700393397,
      "learning_rate": 0.0005485697004263657,
      "loss": 3.0248,
      "step": 1058
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.16627911479041,
      "learning_rate": 0.0005478304661738199,
      "loss": 3.0512,
      "step": 1059
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.0483251794183548,
      "learning_rate": 0.0005470911263894279,
      "loss": 2.9172,
      "step": 1060
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.2357500411742743,
      "learning_rate": 0.0005463516827044491,
      "loss": 2.9436,
      "step": 1061
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.9574530345895482,
      "learning_rate": 0.000545612136750372,
      "loss": 3.0535,
      "step": 1062
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.3186004238802678,
      "learning_rate": 0.0005448724901589107,
      "loss": 3.0253,
      "step": 1063
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.9741652749973984,
      "learning_rate": 0.0005441327445620014,
      "loss": 2.9927,
      "step": 1064
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.0311939387723408,
      "learning_rate": 0.0005433929015917988,
      "loss": 2.9904,
      "step": 1065
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.2682587373561474,
      "learning_rate": 0.0005426529628806724,
      "loss": 2.9139,
      "step": 1066
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.3649651966271847,
      "learning_rate": 0.0005419129300612029,
      "loss": 2.9548,
      "step": 1067
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.284514715367255,
      "learning_rate": 0.000541172804766179,
      "loss": 3.0342,
      "step": 1068
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.0364261595803912,
      "learning_rate": 0.0005404325886285927,
      "loss": 2.9461,
      "step": 1069
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.0804606089472508,
      "learning_rate": 0.000539692283281637,
      "loss": 3.0599,
      "step": 1070
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.7434824467625338,
      "learning_rate": 0.0005389518903587017,
      "loss": 3.0597,
      "step": 1071
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.3186604978741094,
      "learning_rate": 0.0005382114114933695,
      "loss": 2.9817,
      "step": 1072
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.8836723167652507,
      "learning_rate": 0.0005374708483194132,
      "loss": 2.949,
      "step": 1073
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.8623566024564875,
      "learning_rate": 0.000536730202470791,
      "loss": 2.9739,
      "step": 1074
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.7289993595970887,
      "learning_rate": 0.0005359894755816443,
      "loss": 2.9947,
      "step": 1075
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.5569041996483064,
      "learning_rate": 0.0005352486692862926,
      "loss": 2.98,
      "step": 1076
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.8330340050665922,
      "learning_rate": 0.0005345077852192307,
      "loss": 3.0318,
      "step": 1077
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.3852761557395015,
      "learning_rate": 0.0005337668250151254,
      "loss": 2.9705,
      "step": 1078
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.3288366812044607,
      "learning_rate": 0.0005330257903088111,
      "loss": 2.9009,
      "step": 1079
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.2806640811608885,
      "learning_rate": 0.000532284682735287,
      "loss": 3.0388,
      "step": 1080
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.8142730047849365,
      "learning_rate": 0.0005315435039297124,
      "loss": 2.9576,
      "step": 1081
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.8052676854541964,
      "learning_rate": 0.0005308022555274046,
      "loss": 2.9918,
      "step": 1082
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.9077835967749256,
      "learning_rate": 0.0005300609391638336,
      "loss": 3.0479,
      "step": 1083
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.7989953614829479,
      "learning_rate": 0.0005293195564746201,
      "loss": 2.9797,
      "step": 1084
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.1017424031286862,
      "learning_rate": 0.0005285781090955304,
      "loss": 3.0127,
      "step": 1085
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.1639821123546497,
      "learning_rate": 0.0005278365986624743,
      "loss": 2.9491,
      "step": 1086
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.9800835010329426,
      "learning_rate": 0.0005270950268115001,
      "loss": 3.0596,
      "step": 1087
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.7572849499905022,
      "learning_rate": 0.0005263533951787919,
      "loss": 2.9768,
      "step": 1088
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.247357536606666,
      "learning_rate": 0.000525611705400666,
      "loss": 3.0571,
      "step": 1089
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.442336782580909,
      "learning_rate": 0.0005248699591135664,
      "loss": 3.0753,
      "step": 1090
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.1785798135930579,
      "learning_rate": 0.0005241281579540618,
      "loss": 2.9758,
      "step": 1091
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.4767367999077146,
      "learning_rate": 0.0005233863035588427,
      "loss": 3.0638,
      "step": 1092
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.091561557799239,
      "learning_rate": 0.0005226443975647161,
      "loss": 3.0503,
      "step": 1093
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.864793589508937,
      "learning_rate": 0.0005219024416086036,
      "loss": 2.9767,
      "step": 1094
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.8283997616443902,
      "learning_rate": 0.0005211604373275366,
      "loss": 3.08,
      "step": 1095
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.8034323425904809,
      "learning_rate": 0.0005204183863586533,
      "loss": 3.0295,
      "step": 1096
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.8681135014290294,
      "learning_rate": 0.0005196762903391951,
      "loss": 3.0293,
      "step": 1097
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.2261960445443572,
      "learning_rate": 0.0005189341509065023,
      "loss": 2.9553,
      "step": 1098
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.9110174122586658,
      "learning_rate": 0.0005181919696980112,
      "loss": 2.9929,
      "step": 1099
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.925613650094956,
      "learning_rate": 0.0005174497483512506,
      "loss": 2.9725,
      "step": 1100
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.0870541713531228,
      "learning_rate": 0.0005167074885038374,
      "loss": 2.9802,
      "step": 1101
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.977519127943935,
      "learning_rate": 0.0005159651917934735,
      "loss": 2.9095,
      "step": 1102
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.8854250828362507,
      "learning_rate": 0.0005152228598579428,
      "loss": 3.0092,
      "step": 1103
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.6357862106410714,
      "learning_rate": 0.000514480494335106,
      "loss": 2.9173,
      "step": 1104
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.467975091807327,
      "learning_rate": 0.0005137380968628983,
      "loss": 3.0512,
      "step": 1105
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.066535416282733,
      "learning_rate": 0.0005129956690793255,
      "loss": 3.0001,
      "step": 1106
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.2963573904764791,
      "learning_rate": 0.0005122532126224601,
      "loss": 2.9438,
      "step": 1107
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.0307274904017747,
      "learning_rate": 0.0005115107291304378,
      "loss": 2.9477,
      "step": 1108
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.9984164862941122,
      "learning_rate": 0.0005107682202414544,
      "loss": 2.9996,
      "step": 1109
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.1299492311030495,
      "learning_rate": 0.0005100256875937613,
      "loss": 3.0071,
      "step": 1110
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.1585001876753809,
      "learning_rate": 0.0005092831328256625,
      "loss": 3.0124,
      "step": 1111
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.28614440379216,
      "learning_rate": 0.0005085405575755105,
      "loss": 3.0433,
      "step": 1112
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.989536924663161,
      "learning_rate": 0.0005077979634817034,
      "loss": 3.0045,
      "step": 1113
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.0313284933148064,
      "learning_rate": 0.0005070553521826808,
      "loss": 3.0618,
      "step": 1114
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.0834588556545282,
      "learning_rate": 0.00050631272531692,
      "loss": 2.9476,
      "step": 1115
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.3942485761542855,
      "learning_rate": 0.0005055700845229327,
      "loss": 3.071,
      "step": 1116
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.028268207053555,
      "learning_rate": 0.000504827431439262,
      "loss": 3.0572,
      "step": 1117
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.0129639077233556,
      "learning_rate": 0.000504084767704477,
      "loss": 2.9479,
      "step": 1118
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.7948943237845351,
      "learning_rate": 0.0005033420949571712,
      "loss": 3.0659,
      "step": 1119
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.391684530717354,
      "learning_rate": 0.0005025994148359574,
      "loss": 2.914,
      "step": 1120
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.0526462214068595,
      "learning_rate": 0.0005018567289794651,
      "loss": 2.9469,
      "step": 1121
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.2458270091342272,
      "learning_rate": 0.0005011140390263362,
      "loss": 3.0403,
      "step": 1122
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.1366059074877786,
      "learning_rate": 0.0005003713466152218,
      "loss": 2.9304,
      "step": 1123
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.011931001163536,
      "learning_rate": 0.0004996286533847783,
      "loss": 2.9657,
      "step": 1124
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.1185118867522932,
      "learning_rate": 0.000498885960973664,
      "loss": 2.9459,
      "step": 1125
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.8805869465730759,
      "learning_rate": 0.000498143271020535,
      "loss": 2.9997,
      "step": 1126
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.1326588540790044,
      "learning_rate": 0.0004974005851640428,
      "loss": 3.0327,
      "step": 1127
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.302882064237759,
      "learning_rate": 0.000496657905042829,
      "loss": 3.1035,
      "step": 1128
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.881497785101922,
      "learning_rate": 0.0004959152322955232,
      "loss": 3.0261,
      "step": 1129
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.3287193365202812,
      "learning_rate": 0.0004951725685607382,
      "loss": 2.9414,
      "step": 1130
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.9889862852894081,
      "learning_rate": 0.0004944299154770673,
      "loss": 2.8991,
      "step": 1131
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.0216843882954132,
      "learning_rate": 0.0004936872746830802,
      "loss": 2.9908,
      "step": 1132
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.8730309732327604,
      "learning_rate": 0.0004929446478173195,
      "loss": 2.9512,
      "step": 1133
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.3074671711187185,
      "learning_rate": 0.0004922020365182968,
      "loss": 2.9992,
      "step": 1134
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.2747428671149872,
      "learning_rate": 0.0004914594424244897,
      "loss": 3.003,
      "step": 1135
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.1017831411424657,
      "learning_rate": 0.0004907168671743376,
      "loss": 2.9932,
      "step": 1136
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.024571852889655,
      "learning_rate": 0.0004899743124062387,
      "loss": 3.0717,
      "step": 1137
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.328641549246994,
      "learning_rate": 0.0004892317797585456,
      "loss": 2.9829,
      "step": 1138
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.2550531339475615,
      "learning_rate": 0.0004884892708695623,
      "loss": 2.9758,
      "step": 1139
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.8507461889559297,
      "learning_rate": 0.0004877467873775402,
      "loss": 2.9527,
      "step": 1140
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.9139599950187713,
      "learning_rate": 0.00048700433092067473,
      "loss": 2.9884,
      "step": 1141
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.2388688467825923,
      "learning_rate": 0.0004862619031371019,
      "loss": 3.0409,
      "step": 1142
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.4580814013236594,
      "learning_rate": 0.0004855195056648942,
      "loss": 3.0068,
      "step": 1143
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.131853851227124,
      "learning_rate": 0.00048477714014205734,
      "loss": 2.9128,
      "step": 1144
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.4314371969030582,
      "learning_rate": 0.00048403480820652644,
      "loss": 2.9644,
      "step": 1145
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.337212033828495,
      "learning_rate": 0.0004832925114961629,
      "loss": 3.0561,
      "step": 1146
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.1451447766349705,
      "learning_rate": 0.0004825502516487497,
      "loss": 2.8996,
      "step": 1147
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.2624365684992922,
      "learning_rate": 0.00048180803030198896,
      "loss": 3.0809,
      "step": 1148
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.0470559908474952,
      "learning_rate": 0.0004810658490934979,
      "loss": 3.0616,
      "step": 1149
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.4766542973349799,
      "learning_rate": 0.000480323709660805,
      "loss": 2.9451,
      "step": 1150
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.1817508911601626,
      "learning_rate": 0.0004795816136413467,
      "loss": 3.0043,
      "step": 1151
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.642350450183038,
      "learning_rate": 0.00047883956267246353,
      "loss": 2.9678,
      "step": 1152
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.6618315091553426,
      "learning_rate": 0.00047809755839139657,
      "loss": 2.9169,
      "step": 1153
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.1858282928567614,
      "learning_rate": 0.0004773556024352841,
      "loss": 3.041,
      "step": 1154
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.055869287507704,
      "learning_rate": 0.00047661369644115754,
      "loss": 3.0852,
      "step": 1155
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.5369539525261342,
      "learning_rate": 0.0004758718420459383,
      "loss": 2.9368,
      "step": 1156
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.2920684496219437,
      "learning_rate": 0.0004751300408864339,
      "loss": 3.0648,
      "step": 1157
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.1653901841424195,
      "learning_rate": 0.00047438829459933414,
      "loss": 2.9524,
      "step": 1158
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.3007374494283348,
      "learning_rate": 0.0004736466048212082,
      "loss": 3.019,
      "step": 1159
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.4447795871046578,
      "learning_rate": 0.0004729049731885002,
      "loss": 2.9876,
      "step": 1160
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.408279697477205,
      "learning_rate": 0.000472163401337526,
      "loss": 2.8849,
      "step": 1161
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.8154695298679647,
      "learning_rate": 0.00047142189090446985,
      "loss": 3.0028,
      "step": 1162
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.2447515976739683,
      "learning_rate": 0.0004706804435253802,
      "loss": 2.892,
      "step": 1163
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.1435707470249472,
      "learning_rate": 0.0004699390608361665,
      "loss": 2.9777,
      "step": 1164
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.8268406156644378,
      "learning_rate": 0.0004691977444725955,
      "loss": 2.9444,
      "step": 1165
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.2562982264648668,
      "learning_rate": 0.0004684564960702877,
      "loss": 3.046,
      "step": 1166
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.0320568458957453,
      "learning_rate": 0.0004677153172647131,
      "loss": 3.0182,
      "step": 1167
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.1626946574832169,
      "learning_rate": 0.00046697420969118894,
      "loss": 2.9534,
      "step": 1168
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.1791853760795743,
      "learning_rate": 0.00046623317498487466,
      "loss": 2.8902,
      "step": 1169
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.8701247968192835,
      "learning_rate": 0.0004654922147807694,
      "loss": 2.9652,
      "step": 1170
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.9731246906207128,
      "learning_rate": 0.00046475133071370757,
      "loss": 2.9225,
      "step": 1171
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.1483870563941636,
      "learning_rate": 0.00046401052441835574,
      "loss": 3.0286,
      "step": 1172
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.8933735040445636,
      "learning_rate": 0.000463269797529209,
      "loss": 2.9526,
      "step": 1173
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.0704124622964502,
      "learning_rate": 0.00046252915168058697,
      "loss": 2.9571,
      "step": 1174
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.0426613641552227,
      "learning_rate": 0.0004617885885066305,
      "loss": 2.9858,
      "step": 1175
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.1303839651518068,
      "learning_rate": 0.0004610481096412984,
      "loss": 3.0062,
      "step": 1176
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.473049776311232,
      "learning_rate": 0.000460307716718363,
      "loss": 3.0479,
      "step": 1177
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.1844850787759678,
      "learning_rate": 0.0004595674113714074,
      "loss": 3.0015,
      "step": 1178
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.0035223962740758,
      "learning_rate": 0.0004588271952338212,
      "loss": 2.9119,
      "step": 1179
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.2919781680946034,
      "learning_rate": 0.00045808706993879714,
      "loss": 2.9219,
      "step": 1180
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.493947060837846,
      "learning_rate": 0.00045734703711932767,
      "loss": 3.0056,
      "step": 1181
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.8483020836959319,
      "learning_rate": 0.0004566070984082013,
      "loss": 3.0578,
      "step": 1182
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.046430755172536,
      "learning_rate": 0.00045586725543799865,
      "loss": 3.0352,
      "step": 1183
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.895113832355005,
      "learning_rate": 0.00045512750984108937,
      "loss": 3.0589,
      "step": 1184
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.0565852368296873,
      "learning_rate": 0.000454387863249628,
      "loss": 3.0044,
      "step": 1185
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.3633439069634767,
      "learning_rate": 0.00045364831729555096,
      "loss": 3.008,
      "step": 1186
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.1629710417733632,
      "learning_rate": 0.0004529088736105721,
      "loss": 3.0598,
      "step": 1187
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.937145839908451,
      "learning_rate": 0.0004521695338261802,
      "loss": 3.0106,
      "step": 1188
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.0720306372773265,
      "learning_rate": 0.0004514302995736344,
      "loss": 2.9727,
      "step": 1189
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.6804877271013188,
      "learning_rate": 0.0004506911724839613,
      "loss": 3.0173,
      "step": 1190
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.2141286881737314,
      "learning_rate": 0.0004499521541879508,
      "loss": 3.0124,
      "step": 1191
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.9429080166765276,
      "learning_rate": 0.00044921324631615303,
      "loss": 2.972,
      "step": 1192
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.3389925957003734,
      "learning_rate": 0.0004484744504988742,
      "loss": 3.0015,
      "step": 1193
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.2422155746179673,
      "learning_rate": 0.00044773576836617336,
      "loss": 2.9637,
      "step": 1194
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.1019307118735802,
      "learning_rate": 0.0004469972015478588,
      "loss": 2.9968,
      "step": 1195
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.2652724978082457,
      "learning_rate": 0.0004462587516734844,
      "loss": 2.9321,
      "step": 1196
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.3797101982204256,
      "learning_rate": 0.00044552042037234596,
      "loss": 3.0348,
      "step": 1197
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.016548038160117,
      "learning_rate": 0.00044478220927347774,
      "loss": 3.0266,
      "step": 1198
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.2779243910084863,
      "learning_rate": 0.00044404412000564875,
      "loss": 2.9357,
      "step": 1199
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.3702240757831365,
      "learning_rate": 0.000443306154197359,
      "loss": 3.0115,
      "step": 1200
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.0325162856085326,
      "learning_rate": 0.00044256831347683646,
      "loss": 3.0389,
      "step": 1201
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.006065279813833,
      "learning_rate": 0.0004418305994720328,
      "loss": 3.0156,
      "step": 1202
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.810986912190493,
      "learning_rate": 0.0004410930138106203,
      "loss": 2.933,
      "step": 1203
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.1380817399741703,
      "learning_rate": 0.000440355558119988,
      "loss": 2.9993,
      "step": 1204
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.9985278489036659,
      "learning_rate": 0.00043961823402723814,
      "loss": 2.9334,
      "step": 1205
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.4687106407615764,
      "learning_rate": 0.0004388810431591829,
      "loss": 2.9574,
      "step": 1206
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.403067150614383,
      "learning_rate": 0.0004381439871423398,
      "loss": 3.0003,
      "step": 1207
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.4026112893929386,
      "learning_rate": 0.00043740706760292966,
      "loss": 2.9982,
      "step": 1208
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.167686561892832,
      "learning_rate": 0.0004366702861668716,
      "loss": 2.988,
      "step": 1209
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.2207310129259947,
      "learning_rate": 0.00043593364445978036,
      "loss": 2.9314,
      "step": 1210
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.2153675950422047,
      "learning_rate": 0.0004351971441069622,
      "loss": 2.9781,
      "step": 1211
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.5102766445660967,
      "learning_rate": 0.0004344607867334116,
      "loss": 2.9996,
      "step": 1212
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.721931292846775,
      "learning_rate": 0.00043372457396380766,
      "loss": 3.0074,
      "step": 1213
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.329759921139111,
      "learning_rate": 0.00043298850742251013,
      "loss": 3.0103,
      "step": 1214
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.2950321177321114,
      "learning_rate": 0.0004322525887335563,
      "loss": 2.9796,
      "step": 1215
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.1806689655368292,
      "learning_rate": 0.00043151681952065734,
      "loss": 2.9715,
      "step": 1216
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.256735210178302,
      "learning_rate": 0.00043078120140719456,
      "loss": 2.9986,
      "step": 1217
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.249490162872374,
      "learning_rate": 0.0004300457360162158,
      "loss": 2.92,
      "step": 1218
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.9689594836238484,
      "learning_rate": 0.0004293104249704319,
      "loss": 2.9675,
      "step": 1219
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.1240975209030921,
      "learning_rate": 0.00042857526989221355,
      "loss": 2.8559,
      "step": 1220
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.232438179236326,
      "learning_rate": 0.00042784027240358674,
      "loss": 3.0078,
      "step": 1221
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.9923662088536136,
      "learning_rate": 0.0004271054341262301,
      "loss": 2.9769,
      "step": 1222
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.2456631826763633,
      "learning_rate": 0.000426370756681471,
      "loss": 3.0094,
      "step": 1223
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.3517727604980692,
      "learning_rate": 0.0004256362416902817,
      "loss": 3.0046,
      "step": 1224
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.4779882317483042,
      "learning_rate": 0.00042490189077327637,
      "loss": 2.9675,
      "step": 1225
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.0916363649354137,
      "learning_rate": 0.00042416770555070703,
      "loss": 2.9917,
      "step": 1226
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.5123967733157535,
      "learning_rate": 0.00042343368764246,
      "loss": 3.0215,
      "step": 1227
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.083452639690772,
      "learning_rate": 0.0004226998386680524,
      "loss": 3.0087,
      "step": 1228
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.0967986057245986,
      "learning_rate": 0.000421966160246629,
      "loss": 3.0289,
      "step": 1229
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.0490516748121286,
      "learning_rate": 0.00042123265399695783,
      "loss": 2.9096,
      "step": 1230
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.3555157621314362,
      "learning_rate": 0.0004204993215374273,
      "loss": 2.9899,
      "step": 1231
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.3952468253315349,
      "learning_rate": 0.00041976616448604226,
      "loss": 3.0386,
      "step": 1232
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.9272644849772315,
      "learning_rate": 0.00041903318446042076,
      "loss": 3.0019,
      "step": 1233
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.5560960435039282,
      "learning_rate": 0.00041830038307778984,
      "loss": 2.9643,
      "step": 1234
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.3051730472107486,
      "learning_rate": 0.0004175677619549828,
      "loss": 3.0013,
      "step": 1235
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.6217765445833905,
      "learning_rate": 0.000416835322708435,
      "loss": 2.9149,
      "step": 1236
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.4134604564057685,
      "learning_rate": 0.00041610306695418056,
      "loss": 2.9178,
      "step": 1237
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.9967660527114117,
      "learning_rate": 0.0004153709963078488,
      "loss": 2.9474,
      "step": 1238
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.5586094351096953,
      "learning_rate": 0.0004146391123846606,
      "loss": 3.0968,
      "step": 1239
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.7714738828721595,
      "learning_rate": 0.0004139074167994249,
      "loss": 2.9586,
      "step": 1240
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.3197181816897052,
      "learning_rate": 0.00041317591116653486,
      "loss": 2.9791,
      "step": 1241
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.5729933348611798,
      "learning_rate": 0.0004124445970999648,
      "loss": 2.9606,
      "step": 1242
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.2266070662915882,
      "learning_rate": 0.00041171347621326627,
      "loss": 3.0798,
      "step": 1243
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.9943246496939951,
      "learning_rate": 0.00041098255011956465,
      "loss": 2.9084,
      "step": 1244
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.9482013340128753,
      "learning_rate": 0.00041025182043155547,
      "loss": 3.0458,
      "step": 1245
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.0398291792712817,
      "learning_rate": 0.000409521288761501,
      "loss": 2.9081,
      "step": 1246
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.7372400554209173,
      "learning_rate": 0.00040879095672122646,
      "loss": 2.9168,
      "step": 1247
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.5804694161818107,
      "learning_rate": 0.0004080608259221167,
      "loss": 2.9628,
      "step": 1248
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.0999866396818225,
      "learning_rate": 0.0004073308979751126,
      "loss": 3.0221,
      "step": 1249
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.7944599745223506,
      "learning_rate": 0.0004066011744907074,
      "loss": 2.9161,
      "step": 1250
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.139554925986253,
      "learning_rate": 0.00040587165707894326,
      "loss": 3.0288,
      "step": 1251
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.3834958793198526,
      "learning_rate": 0.0004051423473494076,
      "loss": 2.9507,
      "step": 1252
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.5539512287834896,
      "learning_rate": 0.0004044132469112299,
      "loss": 2.906,
      "step": 1253
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.9745162962173927,
      "learning_rate": 0.00040368435737307733,
      "loss": 2.9992,
      "step": 1254
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.4507788384790656,
      "learning_rate": 0.00040295568034315224,
      "loss": 3.0756,
      "step": 1255
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.6190337227119678,
      "learning_rate": 0.0004022272174291878,
      "loss": 3.0034,
      "step": 1256
    },
    {
      "epoch": 0.58,
      "grad_norm": 2.097032627175237,
      "learning_rate": 0.0004014989702384449,
      "loss": 2.8683,
      "step": 1257
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.6620702912802847,
      "learning_rate": 0.00040077094037770843,
      "loss": 2.9618,
      "step": 1258
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.948138661203504,
      "learning_rate": 0.0004000431294532838,
      "loss": 3.0128,
      "step": 1259
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.5895615764356072,
      "learning_rate": 0.0003993155390709935,
      "loss": 2.9924,
      "step": 1260
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.4312896972612634,
      "learning_rate": 0.0003985881708361729,
      "loss": 2.999,
      "step": 1261
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.530397144451093,
      "learning_rate": 0.00039786102635366784,
      "loss": 2.9789,
      "step": 1262
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.3717825325787165,
      "learning_rate": 0.0003971341072278302,
      "loss": 2.9216,
      "step": 1263
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.3878062600709022,
      "learning_rate": 0.00039640741506251457,
      "loss": 2.9378,
      "step": 1264
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.2455514968270567,
      "learning_rate": 0.00039568095146107495,
      "loss": 3.1114,
      "step": 1265
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.2632752314461821,
      "learning_rate": 0.00039495471802636096,
      "loss": 2.9696,
      "step": 1266
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.447323204345336,
      "learning_rate": 0.0003942287163607145,
      "loss": 2.9379,
      "step": 1267
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.1685386017767616,
      "learning_rate": 0.0003935029480659658,
      "loss": 2.9306,
      "step": 1268
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.9717752282821299,
      "learning_rate": 0.00039277741474343054,
      "loss": 2.9524,
      "step": 1269
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.8785754175865909,
      "learning_rate": 0.0003920521179939057,
      "loss": 2.9591,
      "step": 1270
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.4640599359745525,
      "learning_rate": 0.00039132705941766644,
      "loss": 2.976,
      "step": 1271
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.0991248425920968,
      "learning_rate": 0.0003906022406144624,
      "loss": 2.8753,
      "step": 1272
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.9678895952576764,
      "learning_rate": 0.0003898776631835143,
      "loss": 2.9413,
      "step": 1273
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.6150616731501384,
      "learning_rate": 0.00038915332872350994,
      "loss": 2.8682,
      "step": 1274
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.948747595660098,
      "learning_rate": 0.00038842923883260135,
      "loss": 2.9576,
      "step": 1275
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.3568917816942612,
      "learning_rate": 0.00038770539510840093,
      "loss": 2.9644,
      "step": 1276
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.3090821278132596,
      "learning_rate": 0.00038698179914797783,
      "loss": 2.9087,
      "step": 1277
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.031737364763377,
      "learning_rate": 0.0003862584525478545,
      "loss": 2.9971,
      "step": 1278
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.2577872001922867,
      "learning_rate": 0.00038553535690400353,
      "loss": 2.9051,
      "step": 1279
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.0307142492077002,
      "learning_rate": 0.00038481251381184355,
      "loss": 2.9063,
      "step": 1280
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.492118159639261,
      "learning_rate": 0.00038408992486623584,
      "loss": 2.936,
      "step": 1281
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.645706378443847,
      "learning_rate": 0.00038336759166148117,
      "loss": 3.0021,
      "step": 1282
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.5769067792643756,
      "learning_rate": 0.0003826455157913159,
      "loss": 2.962,
      "step": 1283
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.9711650211050095,
      "learning_rate": 0.00038192369884890886,
      "loss": 2.9409,
      "step": 1284
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.022506181691665,
      "learning_rate": 0.00038120214242685723,
      "loss": 3.0334,
      "step": 1285
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.0196045663528581,
      "learning_rate": 0.00038048084811718373,
      "loss": 2.9361,
      "step": 1286
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.409679644570649,
      "learning_rate": 0.0003797598175113327,
      "loss": 3.0019,
      "step": 1287
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.4857133215068876,
      "learning_rate": 0.0003790390522001662,
      "loss": 3.0168,
      "step": 1288
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.0262242064281533,
      "learning_rate": 0.0003783185537739615,
      "loss": 3.0042,
      "step": 1289
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.3209703672675075,
      "learning_rate": 0.00037759832382240697,
      "loss": 2.9695,
      "step": 1290
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.3650317036881165,
      "learning_rate": 0.00037687836393459826,
      "loss": 2.9584,
      "step": 1291
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.069059159358304,
      "learning_rate": 0.0003761586756990354,
      "loss": 3.0361,
      "step": 1292
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.020946477122207,
      "learning_rate": 0.0003754392607036191,
      "loss": 2.9722,
      "step": 1293
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.42755385467532,
      "learning_rate": 0.0003747201205356472,
      "loss": 3.0209,
      "step": 1294
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.9914270094105961,
      "learning_rate": 0.0003740012567818111,
      "loss": 2.9504,
      "step": 1295
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.5167707904936878,
      "learning_rate": 0.0003732826710281922,
      "loss": 3.0121,
      "step": 1296
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.2967150085175023,
      "learning_rate": 0.0003725643648602588,
      "loss": 2.9764,
      "step": 1297
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.1894520786987022,
      "learning_rate": 0.0003718463398628621,
      "loss": 2.9264,
      "step": 1298
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.2867269515463562,
      "learning_rate": 0.0003711285976202331,
      "loss": 3.0001,
      "step": 1299
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.8068733425994756,
      "learning_rate": 0.0003704111397159787,
      "loss": 2.9866,
      "step": 1300
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.4977065734388315,
      "learning_rate": 0.0003696939677330788,
      "loss": 2.9171,
      "step": 1301
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.4879148398778743,
      "learning_rate": 0.00036897708325388213,
      "loss": 2.963,
      "step": 1302
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.3218579760421965,
      "learning_rate": 0.0003682604878601034,
      "loss": 2.9123,
      "step": 1303
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.000222606259781,
      "learning_rate": 0.000367544183132819,
      "loss": 2.9133,
      "step": 1304
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.2952976116329036,
      "learning_rate": 0.0003668281706524645,
      "loss": 2.8927,
      "step": 1305
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.2090977698767629,
      "learning_rate": 0.0003661124519988304,
      "loss": 2.9541,
      "step": 1306
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.503761192702993,
      "learning_rate": 0.00036539702875105893,
      "loss": 2.9882,
      "step": 1307
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.017146928638797,
      "learning_rate": 0.0003646819024876406,
      "loss": 2.8875,
      "step": 1308
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.4764270273637257,
      "learning_rate": 0.0003639670747864107,
      "loss": 2.9482,
      "step": 1309
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.5300358289470528,
      "learning_rate": 0.00036325254722454584,
      "loss": 2.9878,
      "step": 1310
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.6756991630886928,
      "learning_rate": 0.00036253832137855997,
      "loss": 2.9223,
      "step": 1311
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.2110769928225853,
      "learning_rate": 0.00036182439882430183,
      "loss": 2.9868,
      "step": 1312
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.2576176337086413,
      "learning_rate": 0.00036111078113695096,
      "loss": 2.9738,
      "step": 1313
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.0638157135670043,
      "learning_rate": 0.0003603974698910139,
      "loss": 3.0148,
      "step": 1314
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.4913101483781803,
      "learning_rate": 0.0003596844666603214,
      "loss": 2.9681,
      "step": 1315
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.2407390940880976,
      "learning_rate": 0.0003589717730180245,
      "loss": 2.9251,
      "step": 1316
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.0642567404170464,
      "learning_rate": 0.00035825939053659117,
      "loss": 2.9698,
      "step": 1317
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.0559592103560687,
      "learning_rate": 0.00035754732078780273,
      "loss": 3.0236,
      "step": 1318
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.4675330201258603,
      "learning_rate": 0.00035683556534275076,
      "loss": 3.0038,
      "step": 1319
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.4297855590494621,
      "learning_rate": 0.00035612412577183303,
      "loss": 2.9163,
      "step": 1320
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.1352710309410619,
      "learning_rate": 0.00035541300364475063,
      "loss": 2.9677,
      "step": 1321
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.8267559115203538,
      "learning_rate": 0.0003547022005305043,
      "loss": 2.9466,
      "step": 1322
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.5642236810397936,
      "learning_rate": 0.0003539917179973907,
      "loss": 2.9672,
      "step": 1323
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.1743354966100596,
      "learning_rate": 0.00035328155761299917,
      "loss": 2.9761,
      "step": 1324
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.94905918991214,
      "learning_rate": 0.0003525717209442085,
      "loss": 3.0157,
      "step": 1325
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.43214081549636,
      "learning_rate": 0.00035186220955718306,
      "loss": 2.9506,
      "step": 1326
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.3066515325827088,
      "learning_rate": 0.0003511530250173696,
      "loss": 2.9918,
      "step": 1327
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.9588705401552859,
      "learning_rate": 0.00035044416888949364,
      "loss": 2.9822,
      "step": 1328
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.3675648697509808,
      "learning_rate": 0.0003497356427375562,
      "loss": 3.0329,
      "step": 1329
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.5794524903901586,
      "learning_rate": 0.00034902744812483034,
      "loss": 3.0346,
      "step": 1330
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.9785325621659215,
      "learning_rate": 0.00034831958661385714,
      "loss": 3.013,
      "step": 1331
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.4581065841507583,
      "learning_rate": 0.0003476120597664434,
      "loss": 2.926,
      "step": 1332
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.2983085417047624,
      "learning_rate": 0.00034690486914365704,
      "loss": 2.9874,
      "step": 1333
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.5069350678168854,
      "learning_rate": 0.00034619801630582435,
      "loss": 2.9157,
      "step": 1334
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.7309540791307263,
      "learning_rate": 0.00034549150281252633,
      "loss": 3.0476,
      "step": 1335
    },
    {
      "epoch": 0.61,
      "grad_norm": 2.1668772178805464,
      "learning_rate": 0.0003447853302225952,
      "loss": 2.9405,
      "step": 1336
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.6643345634537445,
      "learning_rate": 0.00034407950009411126,
      "loss": 3.0256,
      "step": 1337
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.676663047982044,
      "learning_rate": 0.00034337401398439873,
      "loss": 2.9402,
      "step": 1338
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.6326058066402886,
      "learning_rate": 0.00034266887345002305,
      "loss": 2.9657,
      "step": 1339
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.5248529442004377,
      "learning_rate": 0.0003419640800467874,
      "loss": 2.9691,
      "step": 1340
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.666688456779758,
      "learning_rate": 0.0003412596353297288,
      "loss": 2.9209,
      "step": 1341
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.513909153405848,
      "learning_rate": 0.00034055554085311493,
      "loss": 3.0881,
      "step": 1342
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.2166826443140049,
      "learning_rate": 0.00033985179817044105,
      "loss": 3.0069,
      "step": 1343
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.4766545410910454,
      "learning_rate": 0.0003391484088344257,
      "loss": 2.9868,
      "step": 1344
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.5436876435635374,
      "learning_rate": 0.00033844537439700807,
      "loss": 2.8832,
      "step": 1345
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.054072341532608,
      "learning_rate": 0.00033774269640934445,
      "loss": 2.9745,
      "step": 1346
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.3466800476779006,
      "learning_rate": 0.0003370403764218045,
      "loss": 2.9264,
      "step": 1347
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.661061627307263,
      "learning_rate": 0.000336338415983968,
      "loss": 2.9554,
      "step": 1348
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.3298908455362026,
      "learning_rate": 0.00033563681664462155,
      "loss": 2.8935,
      "step": 1349
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.4376648597600263,
      "learning_rate": 0.000334935579951755,
      "loss": 3.0307,
      "step": 1350
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.444757639221355,
      "learning_rate": 0.0003342347074525578,
      "loss": 2.8969,
      "step": 1351
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.3051591641563867,
      "learning_rate": 0.0003335342006934161,
      "loss": 2.9771,
      "step": 1352
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.120217868654419,
      "learning_rate": 0.00033283406121990914,
      "loss": 3.0676,
      "step": 1353
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.4360464518018403,
      "learning_rate": 0.0003321342905768057,
      "loss": 2.9784,
      "step": 1354
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.2865899232395113,
      "learning_rate": 0.00033143489030806086,
      "loss": 2.9227,
      "step": 1355
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.944337649519281,
      "learning_rate": 0.00033073586195681227,
      "loss": 2.9065,
      "step": 1356
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.1981554410051471,
      "learning_rate": 0.00033003720706537736,
      "loss": 2.9344,
      "step": 1357
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.0546963252717774,
      "learning_rate": 0.0003293389271752492,
      "loss": 2.8342,
      "step": 1358
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.0299279468499631,
      "learning_rate": 0.00032864102382709374,
      "loss": 2.9002,
      "step": 1359
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.5126957956015066,
      "learning_rate": 0.000327943498560746,
      "loss": 2.9936,
      "step": 1360
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.2575899575744771,
      "learning_rate": 0.00032724635291520694,
      "loss": 2.9585,
      "step": 1361
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.5419944379287374,
      "learning_rate": 0.00032654958842863967,
      "loss": 2.9278,
      "step": 1362
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.7401634804798856,
      "learning_rate": 0.0003258532066383667,
      "loss": 2.889,
      "step": 1363
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.4083671393513435,
      "learning_rate": 0.000325157209080866,
      "loss": 2.9533,
      "step": 1364
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.6630078144620202,
      "learning_rate": 0.00032446159729176743,
      "loss": 3.0267,
      "step": 1365
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.3999851203169806,
      "learning_rate": 0.0003237663728058502,
      "loss": 2.9617,
      "step": 1366
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.2048452470229476,
      "learning_rate": 0.0003230715371570389,
      "loss": 2.8558,
      "step": 1367
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.3390757475904425,
      "learning_rate": 0.00032237709187839996,
      "loss": 2.972,
      "step": 1368
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.7060648974429315,
      "learning_rate": 0.0003216830385021388,
      "loss": 3.116,
      "step": 1369
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.7877155626218026,
      "learning_rate": 0.0003209893785595959,
      "loss": 2.9761,
      "step": 1370
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.3416749860830623,
      "learning_rate": 0.00032029611358124366,
      "loss": 3.0135,
      "step": 1371
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.311525535246614,
      "learning_rate": 0.00031960324509668336,
      "loss": 2.9594,
      "step": 1372
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.1473635437722327,
      "learning_rate": 0.0003189107746346412,
      "loss": 3.0115,
      "step": 1373
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.3896278633995696,
      "learning_rate": 0.0003182187037229653,
      "loss": 2.9823,
      "step": 1374
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.7367681652116742,
      "learning_rate": 0.0003175270338886221,
      "loss": 3.0056,
      "step": 1375
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.3589044019966359,
      "learning_rate": 0.00031683576665769345,
      "loss": 2.9128,
      "step": 1376
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.340824719280352,
      "learning_rate": 0.0003161449035553724,
      "loss": 2.9715,
      "step": 1377
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.3211042384156284,
      "learning_rate": 0.00031545444610596077,
      "loss": 2.9448,
      "step": 1378
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.2665446751432856,
      "learning_rate": 0.000314764395832865,
      "loss": 2.9873,
      "step": 1379
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.2296413079653998,
      "learning_rate": 0.0003140747542585934,
      "loss": 2.9457,
      "step": 1380
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.2307829509570312,
      "learning_rate": 0.00031338552290475266,
      "loss": 2.9432,
      "step": 1381
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.055923649057895,
      "learning_rate": 0.00031269670329204396,
      "loss": 2.9549,
      "step": 1382
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.9906575681304549,
      "learning_rate": 0.0003120082969402604,
      "loss": 2.9619,
      "step": 1383
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.5300418291300564,
      "learning_rate": 0.00031132030536828314,
      "loss": 3.0591,
      "step": 1384
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.5534235048466045,
      "learning_rate": 0.00031063273009407805,
      "loss": 2.9877,
      "step": 1385
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.3336816742949793,
      "learning_rate": 0.00030994557263469265,
      "loss": 2.9857,
      "step": 1386
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.033646667555507,
      "learning_rate": 0.0003092588345062526,
      "loss": 2.9545,
      "step": 1387
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.3594092066396477,
      "learning_rate": 0.0003085725172239582,
      "loss": 2.959,
      "step": 1388
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.118372796352895,
      "learning_rate": 0.0003078866223020815,
      "loss": 3.0495,
      "step": 1389
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.429117232419888,
      "learning_rate": 0.0003072011512539624,
      "loss": 2.9396,
      "step": 1390
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.6774449550631372,
      "learning_rate": 0.00030651610559200574,
      "loss": 2.9079,
      "step": 1391
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.2720371881808006,
      "learning_rate": 0.00030583148682767757,
      "loss": 2.975,
      "step": 1392
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.1850001557705994,
      "learning_rate": 0.00030514729647150243,
      "loss": 2.9549,
      "step": 1393
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.4023784392740686,
      "learning_rate": 0.0003044635360330592,
      "loss": 2.9572,
      "step": 1394
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.4160621023475355,
      "learning_rate": 0.00030378020702097845,
      "loss": 2.9421,
      "step": 1395
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.3778208993624381,
      "learning_rate": 0.000303097310942939,
      "loss": 2.8506,
      "step": 1396
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.5587993365628818,
      "learning_rate": 0.0003024148493056641,
      "loss": 2.9822,
      "step": 1397
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.537959606895542,
      "learning_rate": 0.00030173282361491865,
      "loss": 3.0011,
      "step": 1398
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.702194666498047,
      "learning_rate": 0.0003010512353755057,
      "loss": 3.0416,
      "step": 1399
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.167498854763047,
      "learning_rate": 0.00030037008609126313,
      "loss": 2.992,
      "step": 1400
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.5142666019983009,
      "learning_rate": 0.0002996893772650602,
      "loss": 3.0152,
      "step": 1401
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.9119981862753503,
      "learning_rate": 0.0002990091103987945,
      "loss": 2.9908,
      "step": 1402
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.533090935102532,
      "learning_rate": 0.0002983292869933886,
      "loss": 3.0565,
      "step": 1403
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.3707707197674974,
      "learning_rate": 0.0002976499085487862,
      "loss": 2.9658,
      "step": 1404
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.2154837212649983,
      "learning_rate": 0.00029697097656394963,
      "loss": 2.9484,
      "step": 1405
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.032798826515554,
      "learning_rate": 0.00029629249253685595,
      "loss": 2.9213,
      "step": 1406
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.651911475736345,
      "learning_rate": 0.00029561445796449416,
      "loss": 2.9902,
      "step": 1407
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.5615862728208392,
      "learning_rate": 0.0002949368743428612,
      "loss": 2.87,
      "step": 1408
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.728102545586697,
      "learning_rate": 0.0002942597431669593,
      "loss": 2.956,
      "step": 1409
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.1648169594770326,
      "learning_rate": 0.0002935830659307924,
      "loss": 2.9857,
      "step": 1410
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.7662657592139555,
      "learning_rate": 0.0002929068441273629,
      "loss": 2.9335,
      "step": 1411
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.5692722880496597,
      "learning_rate": 0.0002922310792486681,
      "loss": 2.9453,
      "step": 1412
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.2350618474832735,
      "learning_rate": 0.00029155577278569745,
      "loss": 2.9128,
      "step": 1413
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.2567830181213941,
      "learning_rate": 0.00029088092622842895,
      "loss": 2.9179,
      "step": 1414
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.185553971674957,
      "learning_rate": 0.00029020654106582544,
      "loss": 2.9991,
      "step": 1415
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.5391112261897235,
      "learning_rate": 0.0002895326187858326,
      "loss": 2.9491,
      "step": 1416
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.5516633241855338,
      "learning_rate": 0.00028885916087537377,
      "loss": 2.8751,
      "step": 1417
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.0305262326599207,
      "learning_rate": 0.00028818616882034877,
      "loss": 2.9982,
      "step": 1418
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.6516749053397073,
      "learning_rate": 0.0002875136441056286,
      "loss": 2.9297,
      "step": 1419
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.4717954424394015,
      "learning_rate": 0.000286841588215054,
      "loss": 2.9251,
      "step": 1420
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.5828743722402958,
      "learning_rate": 0.0002861700026314308,
      "loss": 2.9718,
      "step": 1421
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.6665463320546383,
      "learning_rate": 0.00028549888883652686,
      "loss": 2.9882,
      "step": 1422
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.636252332761623,
      "learning_rate": 0.00028482824831107,
      "loss": 2.8805,
      "step": 1423
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.2365943721648462,
      "learning_rate": 0.000284158082534743,
      "loss": 2.9818,
      "step": 1424
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.2340096112815737,
      "learning_rate": 0.00028348839298618177,
      "loss": 2.9184,
      "step": 1425
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.3304421870530543,
      "learning_rate": 0.0002828191811429709,
      "loss": 2.9464,
      "step": 1426
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.999790128144902,
      "learning_rate": 0.00028215044848164164,
      "loss": 3.032,
      "step": 1427
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.5219186946156202,
      "learning_rate": 0.00028148219647766747,
      "loss": 2.9427,
      "step": 1428
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.2530338745930403,
      "learning_rate": 0.00028081442660546124,
      "loss": 2.9953,
      "step": 1429
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.7826752530065905,
      "learning_rate": 0.0002801471403383728,
      "loss": 2.9377,
      "step": 1430
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.3178178207632,
      "learning_rate": 0.00027948033914868415,
      "loss": 2.8939,
      "step": 1431
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.1903187341107615,
      "learning_rate": 0.00027881402450760775,
      "loss": 2.9495,
      "step": 1432
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.3085649710357596,
      "learning_rate": 0.00027814819788528165,
      "loss": 2.9111,
      "step": 1433
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.8023449191661534,
      "learning_rate": 0.00027748286075076836,
      "loss": 3.0121,
      "step": 1434
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.4044674975091966,
      "learning_rate": 0.00027681801457204937,
      "loss": 2.946,
      "step": 1435
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.1474511806769918,
      "learning_rate": 0.00027615366081602306,
      "loss": 2.9741,
      "step": 1436
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.247799133838227,
      "learning_rate": 0.0002754898009485021,
      "loss": 3.0479,
      "step": 1437
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.3119976425824458,
      "learning_rate": 0.0002748264364342085,
      "loss": 2.93,
      "step": 1438
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.261568805710175,
      "learning_rate": 0.00027416356873677204,
      "loss": 3.0113,
      "step": 1439
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.7112795075088365,
      "learning_rate": 0.0002735011993187258,
      "loss": 2.9664,
      "step": 1440
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.1677789505071567,
      "learning_rate": 0.0002728393296415042,
      "loss": 2.8666,
      "step": 1441
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.1670309591258392,
      "learning_rate": 0.00027217796116543817,
      "loss": 2.9349,
      "step": 1442
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.119406151036921,
      "learning_rate": 0.0002715170953497532,
      "loss": 2.9332,
      "step": 1443
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.4989146521663468,
      "learning_rate": 0.00027085673365256614,
      "loss": 2.922,
      "step": 1444
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.709475665099036,
      "learning_rate": 0.00027019687753088075,
      "loss": 2.8825,
      "step": 1445
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.2722339277596026,
      "learning_rate": 0.00026953752844058597,
      "loss": 2.9971,
      "step": 1446
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.076768332393739,
      "learning_rate": 0.0002688786878364516,
      "loss": 2.8885,
      "step": 1447
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.3707324108027217,
      "learning_rate": 0.00026822035717212597,
      "loss": 2.864,
      "step": 1448
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.6437840239672339,
      "learning_rate": 0.00026756253790013193,
      "loss": 2.9966,
      "step": 1449
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.9188269148143666,
      "learning_rate": 0.0002669052314718641,
      "loss": 2.8887,
      "step": 1450
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.242024496387811,
      "learning_rate": 0.0002662484393375855,
      "loss": 2.973,
      "step": 1451
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.1527069642521008,
      "learning_rate": 0.00026559216294642446,
      "loss": 2.9753,
      "step": 1452
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.0420330950794356,
      "learning_rate": 0.0002649364037463718,
      "loss": 2.9969,
      "step": 1453
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.4015635150017147,
      "learning_rate": 0.0002642811631842764,
      "loss": 2.9666,
      "step": 1454
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.5265565749991479,
      "learning_rate": 0.0002636264427058439,
      "loss": 2.9675,
      "step": 1455
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.5689339046495294,
      "learning_rate": 0.00026297224375563123,
      "loss": 3.0507,
      "step": 1456
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.2853637442892691,
      "learning_rate": 0.00026231856777704575,
      "loss": 2.8885,
      "step": 1457
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.2110795528284322,
      "learning_rate": 0.00026166541621234026,
      "loss": 2.9353,
      "step": 1458
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.9713816200711625,
      "learning_rate": 0.00026101279050261045,
      "loss": 2.9749,
      "step": 1459
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.6945491843159126,
      "learning_rate": 0.00026036069208779247,
      "loss": 2.9722,
      "step": 1460
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.5408031938722706,
      "learning_rate": 0.0002597091224066581,
      "loss": 2.9034,
      "step": 1461
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.2968443977054578,
      "learning_rate": 0.00025905808289681365,
      "loss": 2.9241,
      "step": 1462
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.3160787658013737,
      "learning_rate": 0.0002584075749946946,
      "loss": 2.8545,
      "step": 1463
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.3650943177109756,
      "learning_rate": 0.00025775760013556424,
      "loss": 2.9798,
      "step": 1464
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.585942694151436,
      "learning_rate": 0.0002571081597535095,
      "loss": 2.8914,
      "step": 1465
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.3721521614851278,
      "learning_rate": 0.00025645925528143776,
      "loss": 2.9068,
      "step": 1466
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.380692713640086,
      "learning_rate": 0.0002558108881510747,
      "loss": 3.018,
      "step": 1467
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.4774595976459146,
      "learning_rate": 0.00025516305979295963,
      "loss": 2.961,
      "step": 1468
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.3758832159392518,
      "learning_rate": 0.0002545157716364439,
      "loss": 2.9594,
      "step": 1469
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.2981477568875235,
      "learning_rate": 0.00025386902510968624,
      "loss": 2.9301,
      "step": 1470
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.3482118277815336,
      "learning_rate": 0.00025322282163965095,
      "loss": 2.993,
      "step": 1471
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.443778062288035,
      "learning_rate": 0.00025257716265210384,
      "loss": 2.9471,
      "step": 1472
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.096651813590184,
      "learning_rate": 0.0002519320495716091,
      "loss": 2.8899,
      "step": 1473
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.2958194225227262,
      "learning_rate": 0.00025128748382152716,
      "loss": 2.97,
      "step": 1474
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.1619330344766396,
      "learning_rate": 0.00025064346682401016,
      "loss": 2.8686,
      "step": 1475
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.0620765489800377,
      "learning_rate": 0.0002500000000000001,
      "loss": 3.0273,
      "step": 1476
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.1360968580025783,
      "learning_rate": 0.0002493570847692246,
      "loss": 2.8806,
      "step": 1477
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.3289725893743318,
      "learning_rate": 0.00024871472255019424,
      "loss": 2.9428,
      "step": 1478
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.4473068167585237,
      "learning_rate": 0.00024807291476019994,
      "loss": 2.9681,
      "step": 1479
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.2482405767390878,
      "learning_rate": 0.00024743166281530877,
      "loss": 2.9481,
      "step": 1480
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.3518753651444813,
      "learning_rate": 0.000246790968130362,
      "loss": 2.957,
      "step": 1481
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.3286126152858977,
      "learning_rate": 0.0002461508321189706,
      "loss": 2.9586,
      "step": 1482
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.1695019500833321,
      "learning_rate": 0.00024551125619351385,
      "loss": 2.9456,
      "step": 1483
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.407644816339919,
      "learning_rate": 0.00024487224176513453,
      "loss": 3.0189,
      "step": 1484
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.1635669516766418,
      "learning_rate": 0.0002442337902437365,
      "loss": 2.9213,
      "step": 1485
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.3134331863389128,
      "learning_rate": 0.0002435959030379824,
      "loss": 2.9535,
      "step": 1486
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.2494628793326905,
      "learning_rate": 0.00024295858155528888,
      "loss": 2.9541,
      "step": 1487
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.3748860843731192,
      "learning_rate": 0.00024232182720182523,
      "loss": 2.9525,
      "step": 1488
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.4041917448265906,
      "learning_rate": 0.00024168564138250855,
      "loss": 3.0073,
      "step": 1489
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.544431054125728,
      "learning_rate": 0.00024105002550100246,
      "loss": 2.9862,
      "step": 1490
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.1834524434291709,
      "learning_rate": 0.00024041498095971254,
      "loss": 2.915,
      "step": 1491
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.6586302519699352,
      "learning_rate": 0.0002397805091597835,
      "loss": 2.9515,
      "step": 1492
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.1746009242910023,
      "learning_rate": 0.0002391466115010973,
      "loss": 2.9864,
      "step": 1493
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.134965059053128,
      "learning_rate": 0.00023851328938226808,
      "loss": 2.8696,
      "step": 1494
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.1566240970308428,
      "learning_rate": 0.00023788054420064109,
      "loss": 3.0022,
      "step": 1495
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.136280100682945,
      "learning_rate": 0.00023724837735228773,
      "loss": 2.9587,
      "step": 1496
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.2044605032200595,
      "learning_rate": 0.00023661679023200422,
      "loss": 2.9952,
      "step": 1497
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.187234556840991,
      "learning_rate": 0.00023598578423330714,
      "loss": 2.8806,
      "step": 1498
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.1623366276587168,
      "learning_rate": 0.00023535536074843083,
      "loss": 2.9798,
      "step": 1499
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.0200732988303305,
      "learning_rate": 0.00023472552116832502,
      "loss": 2.9079,
      "step": 1500
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.1946350955836134,
      "learning_rate": 0.0002340962668826503,
      "loss": 2.87,
      "step": 1501
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.5005373864633296,
      "learning_rate": 0.00023346759927977663,
      "loss": 2.8887,
      "step": 1502
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.6286773239703929,
      "learning_rate": 0.0002328395197467789,
      "loss": 2.9146,
      "step": 1503
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.2362139642736554,
      "learning_rate": 0.00023221202966943515,
      "loss": 2.9892,
      "step": 1504
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.3637140763817177,
      "learning_rate": 0.0002315851304322223,
      "loss": 3.0152,
      "step": 1505
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.264703635962731,
      "learning_rate": 0.0002309588234183137,
      "loss": 2.9232,
      "step": 1506
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.3078497373197904,
      "learning_rate": 0.00023033311000957653,
      "loss": 2.9103,
      "step": 1507
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.4879455257213243,
      "learning_rate": 0.00022970799158656758,
      "loss": 2.9197,
      "step": 1508
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.1661317676401004,
      "learning_rate": 0.0002290834695285316,
      "loss": 2.986,
      "step": 1509
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.3069261169646988,
      "learning_rate": 0.00022845954521339678,
      "loss": 2.8837,
      "step": 1510
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.4582013385435693,
      "learning_rate": 0.0002278362200177732,
      "loss": 2.9457,
      "step": 1511
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.1890989976000426,
      "learning_rate": 0.00022721349531694852,
      "loss": 2.889,
      "step": 1512
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.6198143097007593,
      "learning_rate": 0.0002265913724848855,
      "loss": 2.9495,
      "step": 1513
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.2734824873833224,
      "learning_rate": 0.00022596985289421946,
      "loss": 3.0316,
      "step": 1514
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.0644661800973347,
      "learning_rate": 0.00022534893791625405,
      "loss": 2.8672,
      "step": 1515
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.4634553236988412,
      "learning_rate": 0.00022472862892095968,
      "loss": 2.8143,
      "step": 1516
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.4222059686126838,
      "learning_rate": 0.00022410892727696896,
      "loss": 2.9917,
      "step": 1517
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.3416724535589055,
      "learning_rate": 0.0002234898343515751,
      "loss": 2.9959,
      "step": 1518
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.971866035793272,
      "learning_rate": 0.00022287135151072792,
      "loss": 2.8253,
      "step": 1519
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.9043602344087998,
      "learning_rate": 0.00022225348011903096,
      "loss": 2.9133,
      "step": 1520
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.2009970018855713,
      "learning_rate": 0.0002216362215397393,
      "loss": 2.8813,
      "step": 1521
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.4515537343270113,
      "learning_rate": 0.00022101957713475522,
      "loss": 3.0409,
      "step": 1522
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.2938624019183966,
      "learning_rate": 0.00022040354826462666,
      "loss": 2.9895,
      "step": 1523
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.2423734314616957,
      "learning_rate": 0.0002197881362885426,
      "loss": 2.8651,
      "step": 1524
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.0132710789778165,
      "learning_rate": 0.0002191733425643318,
      "loss": 2.9135,
      "step": 1525
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.021988936717564,
      "learning_rate": 0.00021855916844845826,
      "loss": 2.9388,
      "step": 1526
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.170733350390115,
      "learning_rate": 0.00021794561529601898,
      "loss": 2.9486,
      "step": 1527
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.3108721674055939,
      "learning_rate": 0.00021733268446074138,
      "loss": 2.9854,
      "step": 1528
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.590508407276044,
      "learning_rate": 0.00021672037729497917,
      "loss": 2.9906,
      "step": 1529
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.4612277241267675,
      "learning_rate": 0.0002161086951497106,
      "loss": 2.9093,
      "step": 1530
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.8311921923330545,
      "learning_rate": 0.00021549763937453442,
      "loss": 2.8772,
      "step": 1531
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.5816522693171826,
      "learning_rate": 0.00021488721131766736,
      "loss": 2.918,
      "step": 1532
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.390759887937775,
      "learning_rate": 0.00021427741232594183,
      "loss": 2.9762,
      "step": 1533
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.6799392970481644,
      "learning_rate": 0.0002136682437448013,
      "loss": 3.03,
      "step": 1534
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.2678954024774804,
      "learning_rate": 0.0002130597069182994,
      "loss": 2.9022,
      "step": 1535
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.4113114788981667,
      "learning_rate": 0.0002124518031890948,
      "loss": 2.896,
      "step": 1536
    },
    {
      "epoch": 0.7,
      "grad_norm": 2.0416583583943817,
      "learning_rate": 0.0002118445338984502,
      "loss": 2.9668,
      "step": 1537
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.816322053014938,
      "learning_rate": 0.00021123790038622808,
      "loss": 2.8688,
      "step": 1538
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.5119584625730682,
      "learning_rate": 0.0002106319039908879,
      "loss": 2.9695,
      "step": 1539
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.371785229203419,
      "learning_rate": 0.00021002654604948412,
      "loss": 2.9877,
      "step": 1540
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.8983148685960078,
      "learning_rate": 0.00020942182789766172,
      "loss": 2.8947,
      "step": 1541
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.6389056777061275,
      "learning_rate": 0.00020881775086965492,
      "loss": 2.9074,
      "step": 1542
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.6276576337344795,
      "learning_rate": 0.00020821431629828246,
      "loss": 2.8725,
      "step": 1543
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.5007915083930554,
      "learning_rate": 0.00020761152551494643,
      "loss": 3.0786,
      "step": 1544
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.1265386643230977,
      "learning_rate": 0.00020700937984962798,
      "loss": 2.9075,
      "step": 1545
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.3934404058272007,
      "learning_rate": 0.0002064078806308848,
      "loss": 2.899,
      "step": 1546
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.3374718295452839,
      "learning_rate": 0.00020580702918584882,
      "loss": 2.9844,
      "step": 1547
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.4353947421493831,
      "learning_rate": 0.000205206826840222,
      "loss": 2.9348,
      "step": 1548
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.3627889527922457,
      "learning_rate": 0.0002046072749182751,
      "loss": 2.9036,
      "step": 1549
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.3430996661837373,
      "learning_rate": 0.00020400837474284273,
      "loss": 2.8659,
      "step": 1550
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.4134585193941758,
      "learning_rate": 0.0002034101276353224,
      "loss": 2.9168,
      "step": 1551
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.4030276871599916,
      "learning_rate": 0.00020281253491567027,
      "loss": 2.9406,
      "step": 1552
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.3323219938653494,
      "learning_rate": 0.0002022155979023984,
      "loss": 3.0071,
      "step": 1553
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.4341127108379197,
      "learning_rate": 0.000201619317912573,
      "loss": 2.9571,
      "step": 1554
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.534501272832615,
      "learning_rate": 0.00020102369626180962,
      "loss": 2.9861,
      "step": 1555
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.5649765312582968,
      "learning_rate": 0.0002004287342642721,
      "loss": 2.9669,
      "step": 1556
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.66720779081128,
      "learning_rate": 0.00019983443323266824,
      "loss": 2.8893,
      "step": 1557
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.5048234074374258,
      "learning_rate": 0.00019924079447824805,
      "loss": 2.9553,
      "step": 1558
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.2724695183045338,
      "learning_rate": 0.00019864781931079977,
      "loss": 2.9887,
      "step": 1559
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.4439908249497164,
      "learning_rate": 0.00019805550903864773,
      "loss": 3.0366,
      "step": 1560
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.3053787675242914,
      "learning_rate": 0.00019746386496864948,
      "loss": 2.9799,
      "step": 1561
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.8796645662567818,
      "learning_rate": 0.00019687288840619226,
      "loss": 2.9535,
      "step": 1562
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.3117552042269758,
      "learning_rate": 0.0001962825806551911,
      "loss": 2.9682,
      "step": 1563
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.6957901749397428,
      "learning_rate": 0.0001956929430180846,
      "loss": 2.946,
      "step": 1564
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.251385169946402,
      "learning_rate": 0.00019510397679583374,
      "loss": 2.8666,
      "step": 1565
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.142156549298776,
      "learning_rate": 0.0001945156832879174,
      "loss": 2.8834,
      "step": 1566
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.1107141797542726,
      "learning_rate": 0.00019392806379233036,
      "loss": 3.0352,
      "step": 1567
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.2534183588894985,
      "learning_rate": 0.00019334111960558065,
      "loss": 2.9306,
      "step": 1568
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.2322235751320525,
      "learning_rate": 0.00019275485202268573,
      "loss": 2.936,
      "step": 1569
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.743849718204005,
      "learning_rate": 0.00019216926233717085,
      "loss": 2.8936,
      "step": 1570
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.336908141688733,
      "learning_rate": 0.00019158435184106498,
      "loss": 2.9977,
      "step": 1571
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.4075535227925395,
      "learning_rate": 0.00019100012182489905,
      "loss": 2.8828,
      "step": 1572
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.282839380226478,
      "learning_rate": 0.00019041657357770226,
      "loss": 2.86,
      "step": 1573
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.2975591789069219,
      "learning_rate": 0.00018983370838699943,
      "loss": 2.9679,
      "step": 1574
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.278625884031052,
      "learning_rate": 0.00018925152753880892,
      "loss": 3.0241,
      "step": 1575
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.224195501237598,
      "learning_rate": 0.00018867003231763847,
      "loss": 2.9094,
      "step": 1576
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.4283083833167807,
      "learning_rate": 0.00018808922400648375,
      "loss": 2.99,
      "step": 1577
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.8132959221436096,
      "learning_rate": 0.00018750910388682428,
      "loss": 2.9887,
      "step": 1578
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.1331023354401004,
      "learning_rate": 0.00018692967323862125,
      "loss": 2.8597,
      "step": 1579
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.4361977783324194,
      "learning_rate": 0.00018635093334031517,
      "loss": 2.8885,
      "step": 1580
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.3169493038038702,
      "learning_rate": 0.00018577288546882165,
      "loss": 2.9141,
      "step": 1581
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.4059877864919446,
      "learning_rate": 0.00018519553089953023,
      "loss": 2.9425,
      "step": 1582
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.8848536748763525,
      "learning_rate": 0.0001846188709063001,
      "loss": 2.9986,
      "step": 1583
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.683597088232437,
      "learning_rate": 0.00018404290676145857,
      "loss": 2.8515,
      "step": 1584
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.365924892090527,
      "learning_rate": 0.00018346763973579722,
      "loss": 2.94,
      "step": 1585
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.4127504448352672,
      "learning_rate": 0.00018289307109856939,
      "loss": 2.9955,
      "step": 1586
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.603442182047021,
      "learning_rate": 0.0001823192021174882,
      "loss": 2.8923,
      "step": 1587
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.4643392762259844,
      "learning_rate": 0.0001817460340587223,
      "loss": 2.9031,
      "step": 1588
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.6954281062186287,
      "learning_rate": 0.00018117356818689445,
      "loss": 2.9499,
      "step": 1589
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.0905860995301049,
      "learning_rate": 0.00018060180576507756,
      "loss": 2.8679,
      "step": 1590
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.5705728724937924,
      "learning_rate": 0.00018003074805479313,
      "loss": 2.8468,
      "step": 1591
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.1519985495000822,
      "learning_rate": 0.00017946039631600724,
      "loss": 2.9621,
      "step": 1592
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.679220171729084,
      "learning_rate": 0.00017889075180712837,
      "loss": 2.9924,
      "step": 1593
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.7203574675577695,
      "learning_rate": 0.00017832181578500512,
      "loss": 2.7658,
      "step": 1594
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.5026529317202635,
      "learning_rate": 0.0001777535895049221,
      "loss": 3.0362,
      "step": 1595
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.4488024744678996,
      "learning_rate": 0.0001771860742205988,
      "loss": 2.973,
      "step": 1596
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.7599319339445785,
      "learning_rate": 0.00017661927118418525,
      "loss": 2.9622,
      "step": 1597
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.43239409867659,
      "learning_rate": 0.00017605318164626066,
      "loss": 2.8951,
      "step": 1598
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.5170147334667101,
      "learning_rate": 0.00017548780685582949,
      "loss": 2.9489,
      "step": 1599
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.6533465686232294,
      "learning_rate": 0.00017492314806031922,
      "loss": 2.9817,
      "step": 1600
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.310500540425826,
      "learning_rate": 0.00017435920650557806,
      "loss": 2.8737,
      "step": 1601
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.4186878843061903,
      "learning_rate": 0.00017379598343587112,
      "loss": 2.9035,
      "step": 1602
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.4483647547093637,
      "learning_rate": 0.00017323348009387878,
      "loss": 2.9221,
      "step": 1603
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.2655241297202742,
      "learning_rate": 0.0001726716977206929,
      "loss": 2.9272,
      "step": 1604
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.1996342572413754,
      "learning_rate": 0.00017211063755581525,
      "loss": 3.0482,
      "step": 1605
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.3506117644813536,
      "learning_rate": 0.0001715503008371536,
      "loss": 2.9087,
      "step": 1606
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.6170388967649583,
      "learning_rate": 0.0001709906888010196,
      "loss": 3.0161,
      "step": 1607
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.4062430985905034,
      "learning_rate": 0.00017043180268212638,
      "loss": 2.9477,
      "step": 1608
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.3140786614852287,
      "learning_rate": 0.00016987364371358481,
      "loss": 2.8996,
      "step": 1609
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.5162912161576454,
      "learning_rate": 0.00016931621312690214,
      "loss": 3.0561,
      "step": 1610
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.3194814134193926,
      "learning_rate": 0.00016875951215197777,
      "loss": 2.8776,
      "step": 1611
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.039337132813665,
      "learning_rate": 0.00016820354201710214,
      "loss": 3.0183,
      "step": 1612
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.5928933405682346,
      "learning_rate": 0.00016764830394895203,
      "loss": 2.8742,
      "step": 1613
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.41487293096093,
      "learning_rate": 0.00016709379917259027,
      "loss": 2.9099,
      "step": 1614
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.8529062103681742,
      "learning_rate": 0.00016654002891146091,
      "loss": 2.9176,
      "step": 1615
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.5263168993857854,
      "learning_rate": 0.00016598699438738764,
      "loss": 2.9552,
      "step": 1616
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.2939994017253884,
      "learning_rate": 0.00016543469682057105,
      "loss": 3.0004,
      "step": 1617
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.129574860584584,
      "learning_rate": 0.00016488313742958526,
      "loss": 2.8878,
      "step": 1618
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.72687435504058,
      "learning_rate": 0.00016433231743137646,
      "loss": 2.9399,
      "step": 1619
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.5062364721143724,
      "learning_rate": 0.0001637822380412584,
      "loss": 2.9334,
      "step": 1620
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.2611626125730764,
      "learning_rate": 0.00016323290047291195,
      "loss": 2.9817,
      "step": 1621
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.386711966890294,
      "learning_rate": 0.0001626843059383803,
      "loss": 2.9505,
      "step": 1622
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.4271811216072472,
      "learning_rate": 0.00016213645564806752,
      "loss": 2.935,
      "step": 1623
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.6278063761965589,
      "learning_rate": 0.0001615893508107359,
      "loss": 3.0006,
      "step": 1624
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.6943670427930986,
      "learning_rate": 0.00016104299263350252,
      "loss": 2.853,
      "step": 1625
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.2402934007704691,
      "learning_rate": 0.00016049738232183758,
      "loss": 2.935,
      "step": 1626
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.2841091462299954,
      "learning_rate": 0.0001599525210795606,
      "loss": 2.8862,
      "step": 1627
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.2910688221959277,
      "learning_rate": 0.00015940841010883889,
      "loss": 2.9314,
      "step": 1628
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.7689237008284595,
      "learning_rate": 0.00015886505061018413,
      "loss": 2.9857,
      "step": 1629
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.4235149734709873,
      "learning_rate": 0.0001583224437824498,
      "loss": 2.9464,
      "step": 1630
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.262308187023523,
      "learning_rate": 0.0001577805908228293,
      "loss": 2.895,
      "step": 1631
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.4113816700047797,
      "learning_rate": 0.00015723949292685191,
      "loss": 2.9496,
      "step": 1632
    },
    {
      "epoch": 0.75,
      "grad_norm": 2.0043665285757433,
      "learning_rate": 0.0001566991512883818,
      "loss": 2.8869,
      "step": 1633
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.18353166491856,
      "learning_rate": 0.00015615956709961378,
      "loss": 2.9334,
      "step": 1634
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.4436251410311445,
      "learning_rate": 0.00015562074155107215,
      "loss": 3.0243,
      "step": 1635
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.2373055638443176,
      "learning_rate": 0.0001550826758316068,
      "loss": 2.9908,
      "step": 1636
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.2701002610992562,
      "learning_rate": 0.00015454537112839122,
      "loss": 3.001,
      "step": 1637
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.329826576474355,
      "learning_rate": 0.00015400882862692033,
      "loss": 2.8647,
      "step": 1638
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.2367873552018682,
      "learning_rate": 0.00015347304951100665,
      "loss": 2.8862,
      "step": 1639
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.1430917051199987,
      "learning_rate": 0.00015293803496277907,
      "loss": 2.8902,
      "step": 1640
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.5294060093265305,
      "learning_rate": 0.00015240378616267886,
      "loss": 2.9559,
      "step": 1641
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.275053355962234,
      "learning_rate": 0.00015187030428945843,
      "loss": 2.9624,
      "step": 1642
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.2539397245993742,
      "learning_rate": 0.0001513375905201776,
      "loss": 2.8935,
      "step": 1643
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.2315912939774076,
      "learning_rate": 0.00015080564603020142,
      "loss": 3.0136,
      "step": 1644
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.3860431667594084,
      "learning_rate": 0.0001502744719931982,
      "loss": 2.923,
      "step": 1645
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.671483654540461,
      "learning_rate": 0.00014974406958113558,
      "loss": 3.0155,
      "step": 1646
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.676474128578827,
      "learning_rate": 0.00014921443996427947,
      "loss": 2.9764,
      "step": 1647
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.3868471857493847,
      "learning_rate": 0.0001486855843111901,
      "loss": 2.8932,
      "step": 1648
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.4132963342673395,
      "learning_rate": 0.0001481575037887201,
      "loss": 3.0161,
      "step": 1649
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.1318376337430054,
      "learning_rate": 0.00014763019956201253,
      "loss": 2.8875,
      "step": 1650
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.4764670791835446,
      "learning_rate": 0.0001471036727944966,
      "loss": 2.9606,
      "step": 1651
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.2217134575408501,
      "learning_rate": 0.0001465779246478872,
      "loss": 2.8749,
      "step": 1652
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.1558270157518298,
      "learning_rate": 0.00014605295628218045,
      "loss": 2.9966,
      "step": 1653
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.2771528939154613,
      "learning_rate": 0.0001455287688556527,
      "loss": 2.9155,
      "step": 1654
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.3689165468367661,
      "learning_rate": 0.00014500536352485673,
      "loss": 2.9158,
      "step": 1655
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.3047251530242148,
      "learning_rate": 0.00014448274144461965,
      "loss": 3.0261,
      "step": 1656
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.1531103752992173,
      "learning_rate": 0.00014396090376804112,
      "loss": 2.9687,
      "step": 1657
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.3128924083557814,
      "learning_rate": 0.00014343985164648926,
      "loss": 2.8753,
      "step": 1658
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.3579785533883424,
      "learning_rate": 0.00014291958622959973,
      "loss": 2.8953,
      "step": 1659
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.4048085431785893,
      "learning_rate": 0.00014240010866527176,
      "loss": 2.9009,
      "step": 1660
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.3384196636446732,
      "learning_rate": 0.00014188142009966686,
      "loss": 2.9278,
      "step": 1661
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.2947170388188665,
      "learning_rate": 0.0001413635216772053,
      "loss": 2.8929,
      "step": 1662
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.6226560944532462,
      "learning_rate": 0.000140846414540564,
      "loss": 2.8568,
      "step": 1663
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.4742797570130601,
      "learning_rate": 0.00014033009983067452,
      "loss": 2.9847,
      "step": 1664
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.2192510969689374,
      "learning_rate": 0.00013981457868671927,
      "loss": 2.9516,
      "step": 1665
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.3682986822812964,
      "learning_rate": 0.0001392998522461305,
      "loss": 2.9179,
      "step": 1666
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.4415965472063945,
      "learning_rate": 0.00013878592164458635,
      "loss": 2.9539,
      "step": 1667
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.4988324956708794,
      "learning_rate": 0.00013827278801600978,
      "loss": 2.8925,
      "step": 1668
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.396187371232953,
      "learning_rate": 0.0001377604524925647,
      "loss": 3.0105,
      "step": 1669
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.3969893064248649,
      "learning_rate": 0.00013724891620465424,
      "loss": 2.9143,
      "step": 1670
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.353484456542943,
      "learning_rate": 0.0001367381802809185,
      "loss": 2.8664,
      "step": 1671
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.2050923795914343,
      "learning_rate": 0.00013622824584823113,
      "loss": 2.8981,
      "step": 1672
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.258938880899857,
      "learning_rate": 0.00013571911403169795,
      "loss": 2.9355,
      "step": 1673
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.2294203010881029,
      "learning_rate": 0.0001352107859546533,
      "loss": 2.8865,
      "step": 1674
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.5229153346072017,
      "learning_rate": 0.00013470326273865886,
      "loss": 2.9785,
      "step": 1675
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.2400455014732474,
      "learning_rate": 0.00013419654550349985,
      "loss": 2.9576,
      "step": 1676
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.6939639958206465,
      "learning_rate": 0.00013369063536718346,
      "loss": 2.9144,
      "step": 1677
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.3355458107936897,
      "learning_rate": 0.00013318553344593632,
      "loss": 2.8917,
      "step": 1678
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.6864937592615612,
      "learning_rate": 0.00013268124085420136,
      "loss": 2.9886,
      "step": 1679
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.4121228507338668,
      "learning_rate": 0.0001321777587046364,
      "loss": 2.8954,
      "step": 1680
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.3081799333334985,
      "learning_rate": 0.00013167508810811059,
      "loss": 2.9085,
      "step": 1681
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.2965091635912551,
      "learning_rate": 0.0001311732301737029,
      "loss": 2.894,
      "step": 1682
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.5902109023723852,
      "learning_rate": 0.0001306721860086991,
      "loss": 2.9165,
      "step": 1683
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.156062971155447,
      "learning_rate": 0.00013017195671858928,
      "loss": 2.9148,
      "step": 1684
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.3176181200642263,
      "learning_rate": 0.0001296725434070661,
      "loss": 2.9264,
      "step": 1685
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.2914639012430154,
      "learning_rate": 0.00012917394717602121,
      "loss": 2.9289,
      "step": 1686
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.1088872688488889,
      "learning_rate": 0.00012867616912554426,
      "loss": 3.0024,
      "step": 1687
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.0003324289096254,
      "learning_rate": 0.00012817921035391882,
      "loss": 2.9356,
      "step": 1688
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.0722899285177077,
      "learning_rate": 0.00012768307195762168,
      "loss": 3.0093,
      "step": 1689
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.4686830466646277,
      "learning_rate": 0.00012718775503131908,
      "loss": 2.8657,
      "step": 1690
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.2989051387572599,
      "learning_rate": 0.0001266932606678646,
      "loss": 2.9637,
      "step": 1691
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.3944700958052052,
      "learning_rate": 0.00012619958995829756,
      "loss": 2.9198,
      "step": 1692
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.8683935862186047,
      "learning_rate": 0.0001257067439918394,
      "loss": 2.8559,
      "step": 1693
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.3981531917773813,
      "learning_rate": 0.00012521472385589234,
      "loss": 2.911,
      "step": 1694
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.0639530888646436,
      "learning_rate": 0.00012472353063603626,
      "loss": 2.8119,
      "step": 1695
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.3162989463925954,
      "learning_rate": 0.0001242331654160263,
      "loss": 2.9901,
      "step": 1696
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.179554420023492,
      "learning_rate": 0.0001237436292777914,
      "loss": 2.9954,
      "step": 1697
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.6168710985886805,
      "learning_rate": 0.00012325492330143061,
      "loss": 2.9755,
      "step": 1698
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.7940929032292967,
      "learning_rate": 0.00012276704856521175,
      "loss": 2.9007,
      "step": 1699
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.1670534873507992,
      "learning_rate": 0.00012228000614556816,
      "loss": 3.0274,
      "step": 1700
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.4829969835642496,
      "learning_rate": 0.00012179379711709738,
      "loss": 2.9953,
      "step": 1701
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.0813766433399412,
      "learning_rate": 0.0001213084225525577,
      "loss": 2.9004,
      "step": 1702
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.203875923469897,
      "learning_rate": 0.00012082388352286627,
      "loss": 2.96,
      "step": 1703
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.2899994273787772,
      "learning_rate": 0.00012034018109709716,
      "loss": 2.9037,
      "step": 1704
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.5446622120135758,
      "learning_rate": 0.00011985731634247809,
      "loss": 2.8685,
      "step": 1705
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.3126662110501564,
      "learning_rate": 0.00011937529032438904,
      "loss": 3.0069,
      "step": 1706
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.2273921818241262,
      "learning_rate": 0.00011889410410635887,
      "loss": 2.8818,
      "step": 1707
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.57488122204007,
      "learning_rate": 0.0001184137587500641,
      "loss": 2.9453,
      "step": 1708
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.3293027806281508,
      "learning_rate": 0.00011793425531532564,
      "loss": 2.8617,
      "step": 1709
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.5772445890601987,
      "learning_rate": 0.00011745559486010671,
      "loss": 2.9666,
      "step": 1710
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.7900419345645755,
      "learning_rate": 0.00011697777844051105,
      "loss": 2.9587,
      "step": 1711
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.2947197062377342,
      "learning_rate": 0.00011650080711077964,
      "loss": 3.0273,
      "step": 1712
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.3650763730580495,
      "learning_rate": 0.00011602468192328936,
      "loss": 2.831,
      "step": 1713
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.3982402390880928,
      "learning_rate": 0.00011554940392854973,
      "loss": 2.8859,
      "step": 1714
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.6599307003676391,
      "learning_rate": 0.00011507497417520146,
      "loss": 2.9763,
      "step": 1715
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.171250201395492,
      "learning_rate": 0.00011460139371001339,
      "loss": 2.8676,
      "step": 1716
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.6568403893352188,
      "learning_rate": 0.00011412866357788049,
      "loss": 2.888,
      "step": 1717
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.1442812580188357,
      "learning_rate": 0.00011365678482182207,
      "loss": 2.9173,
      "step": 1718
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.357136702058639,
      "learning_rate": 0.0001131857584829783,
      "loss": 2.9649,
      "step": 1719
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.366876107310164,
      "learning_rate": 0.0001127155856006093,
      "loss": 2.8968,
      "step": 1720
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.8921004365141973,
      "learning_rate": 0.00011224626721209141,
      "loss": 2.9342,
      "step": 1721
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.509210925860764,
      "learning_rate": 0.0001117778043529164,
      "loss": 2.9974,
      "step": 1722
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.4528367043821235,
      "learning_rate": 0.0001113101980566879,
      "loss": 2.8849,
      "step": 1723
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.381338044424672,
      "learning_rate": 0.00011084344935511958,
      "loss": 3.032,
      "step": 1724
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.5135278339830138,
      "learning_rate": 0.00011037755927803345,
      "loss": 2.787,
      "step": 1725
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.3089849636835942,
      "learning_rate": 0.00010991252885335651,
      "loss": 2.9643,
      "step": 1726
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.21901260977368,
      "learning_rate": 0.00010944835910711958,
      "loss": 2.9734,
      "step": 1727
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.228576963052698,
      "learning_rate": 0.00010898505106345396,
      "loss": 2.7668,
      "step": 1728
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.531126611525409,
      "learning_rate": 0.00010852260574459022,
      "loss": 2.9466,
      "step": 1729
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.507285476804905,
      "learning_rate": 0.00010806102417085512,
      "loss": 2.8357,
      "step": 1730
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.6388156267210163,
      "learning_rate": 0.00010760030736066951,
      "loss": 2.8919,
      "step": 1731
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.1552594692325735,
      "learning_rate": 0.00010714045633054687,
      "loss": 2.9083,
      "step": 1732
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.216411556568576,
      "learning_rate": 0.00010668147209508971,
      "loss": 2.9262,
      "step": 1733
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.240596507668883,
      "learning_rate": 0.00010622335566698877,
      "loss": 2.9589,
      "step": 1734
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.337726854318389,
      "learning_rate": 0.00010576610805701942,
      "loss": 2.9407,
      "step": 1735
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.0667054125902315,
      "learning_rate": 0.00010530973027404073,
      "loss": 2.9228,
      "step": 1736
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.305305389980957,
      "learning_rate": 0.00010485422332499212,
      "loss": 2.9412,
      "step": 1737
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.1380546135543428,
      "learning_rate": 0.00010439958821489165,
      "loss": 2.8763,
      "step": 1738
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.3606925465084971,
      "learning_rate": 0.00010394582594683428,
      "loss": 2.9216,
      "step": 1739
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.1860880847395106,
      "learning_rate": 0.0001034929375219884,
      "loss": 2.9046,
      "step": 1740
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.3984199074867059,
      "learning_rate": 0.00010304092393959514,
      "loss": 2.9261,
      "step": 1741
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.2374300852615656,
      "learning_rate": 0.00010258978619696468,
      "loss": 2.9023,
      "step": 1742
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.252792299956645,
      "learning_rate": 0.00010213952528947551,
      "loss": 2.9034,
      "step": 1743
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.3098369202895335,
      "learning_rate": 0.00010169014221057089,
      "loss": 3.0143,
      "step": 1744
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.5568320763423769,
      "learning_rate": 0.00010124163795175734,
      "loss": 2.7529,
      "step": 1745
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.3839291394761526,
      "learning_rate": 0.00010079401350260287,
      "loss": 2.9435,
      "step": 1746
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.2948938982930547,
      "learning_rate": 0.00010034726985073362,
      "loss": 3.0007,
      "step": 1747
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.5241232948850625,
      "learning_rate": 9.9901407981833e-05,
      "loss": 3.0021,
      "step": 1748
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.7772408689532435,
      "learning_rate": 9.94564288796384e-05,
      "loss": 2.855,
      "step": 1749
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.320112774041212,
      "learning_rate": 9.901233352593953e-05,
      "loss": 2.9513,
      "step": 1750
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.447327493064572,
      "learning_rate": 9.856912290057668e-05,
      "loss": 2.9008,
      "step": 1751
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.8085086629985219,
      "learning_rate": 9.812679798143748e-05,
      "loss": 2.8072,
      "step": 1752
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.4645941456550493,
      "learning_rate": 9.768535974445586e-05,
      "loss": 2.8704,
      "step": 1753
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.215257099598366,
      "learning_rate": 9.724480916360906e-05,
      "loss": 2.9474,
      "step": 1754
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.6676035087319154,
      "learning_rate": 9.68051472109162e-05,
      "loss": 2.9001,
      "step": 1755
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.3085763169027191,
      "learning_rate": 9.636637485643529e-05,
      "loss": 2.9304,
      "step": 1756
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.4136564103939318,
      "learning_rate": 9.592849306826174e-05,
      "loss": 2.9663,
      "step": 1757
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.1122455896502679,
      "learning_rate": 9.549150281252633e-05,
      "loss": 2.9706,
      "step": 1758
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.3992433512505575,
      "learning_rate": 9.505540505339223e-05,
      "loss": 2.8373,
      "step": 1759
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.8840143405040715,
      "learning_rate": 9.4620200753054e-05,
      "loss": 2.9032,
      "step": 1760
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.2333671320410522,
      "learning_rate": 9.418589087173441e-05,
      "loss": 2.9394,
      "step": 1761
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.289875407999109,
      "learning_rate": 9.375247636768325e-05,
      "loss": 2.9356,
      "step": 1762
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.5088945482144043,
      "learning_rate": 9.331995819717443e-05,
      "loss": 3.0003,
      "step": 1763
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.4540220485101043,
      "learning_rate": 9.288833731450419e-05,
      "loss": 2.9997,
      "step": 1764
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.4597117227094918,
      "learning_rate": 9.245761467198948e-05,
      "loss": 2.9645,
      "step": 1765
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.7898040393148964,
      "learning_rate": 9.20277912199648e-05,
      "loss": 2.8468,
      "step": 1766
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.196412131862231,
      "learning_rate": 9.159886790678123e-05,
      "loss": 2.8805,
      "step": 1767
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.1493371143434008,
      "learning_rate": 9.11708456788033e-05,
      "loss": 2.9214,
      "step": 1768
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.3878770410352947,
      "learning_rate": 9.074372548040793e-05,
      "loss": 3.0202,
      "step": 1769
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.4933347531887537,
      "learning_rate": 9.031750825398145e-05,
      "loss": 2.9566,
      "step": 1770
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.2736938873956416,
      "learning_rate": 8.98921949399179e-05,
      "loss": 2.9427,
      "step": 1771
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.484122574029994,
      "learning_rate": 8.94677864766173e-05,
      "loss": 2.9843,
      "step": 1772
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.337602179019098,
      "learning_rate": 8.904428380048269e-05,
      "loss": 2.9226,
      "step": 1773
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.4379935958912928,
      "learning_rate": 8.862168784591929e-05,
      "loss": 2.8488,
      "step": 1774
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.2889425613599286,
      "learning_rate": 8.819999954533115e-05,
      "loss": 2.9221,
      "step": 1775
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.950012608815871,
      "learning_rate": 8.777921982911996e-05,
      "loss": 2.968,
      "step": 1776
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.0889898629723271,
      "learning_rate": 8.735934962568253e-05,
      "loss": 2.9548,
      "step": 1777
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.4163708579478946,
      "learning_rate": 8.694038986140945e-05,
      "loss": 3.0316,
      "step": 1778
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.5037337683527463,
      "learning_rate": 8.652234146068206e-05,
      "loss": 2.8837,
      "step": 1779
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.4255426177164083,
      "learning_rate": 8.610520534587086e-05,
      "loss": 2.864,
      "step": 1780
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.362129324395796,
      "learning_rate": 8.568898243733397e-05,
      "loss": 2.8618,
      "step": 1781
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.1759088987867143,
      "learning_rate": 8.527367365341409e-05,
      "loss": 3.0023,
      "step": 1782
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.6341659667807296,
      "learning_rate": 8.485927991043757e-05,
      "loss": 2.9541,
      "step": 1783
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.6770018767165884,
      "learning_rate": 8.444580212271125e-05,
      "loss": 3.0155,
      "step": 1784
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.394789224934949,
      "learning_rate": 8.403324120252159e-05,
      "loss": 2.8756,
      "step": 1785
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.3617245873681112,
      "learning_rate": 8.362159806013175e-05,
      "loss": 2.9102,
      "step": 1786
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.5331955141242308,
      "learning_rate": 8.321087360377988e-05,
      "loss": 2.9787,
      "step": 1787
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.279438377339911,
      "learning_rate": 8.280106873967752e-05,
      "loss": 3.0043,
      "step": 1788
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.4146530106272848,
      "learning_rate": 8.239218437200679e-05,
      "loss": 2.8352,
      "step": 1789
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.2354938040432897,
      "learning_rate": 8.198422140291939e-05,
      "loss": 2.9126,
      "step": 1790
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.9867338178363424,
      "learning_rate": 8.157718073253351e-05,
      "loss": 2.9187,
      "step": 1791
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.2022885583098228,
      "learning_rate": 8.117106325893287e-05,
      "loss": 2.8766,
      "step": 1792
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.0332923188337515,
      "learning_rate": 8.076586987816404e-05,
      "loss": 2.9194,
      "step": 1793
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.1548864840451571,
      "learning_rate": 8.036160148423449e-05,
      "loss": 2.8326,
      "step": 1794
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.7733473669119622,
      "learning_rate": 7.995825896911141e-05,
      "loss": 2.9011,
      "step": 1795
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.5735794277955404,
      "learning_rate": 7.955584322271853e-05,
      "loss": 2.9741,
      "step": 1796
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.545110687768169,
      "learning_rate": 7.915435513293523e-05,
      "loss": 2.8285,
      "step": 1797
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.2053540974434895,
      "learning_rate": 7.875379558559387e-05,
      "loss": 2.9227,
      "step": 1798
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.4242538930314195,
      "learning_rate": 7.835416546447838e-05,
      "loss": 2.9389,
      "step": 1799
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.256242907335949,
      "learning_rate": 7.795546565132167e-05,
      "loss": 2.8674,
      "step": 1800
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.4845004478577362,
      "learning_rate": 7.755769702580412e-05,
      "loss": 2.9735,
      "step": 1801
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.4275762365053066,
      "learning_rate": 7.716086046555193e-05,
      "loss": 2.9362,
      "step": 1802
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.2070342714904825,
      "learning_rate": 7.676495684613432e-05,
      "loss": 2.972,
      "step": 1803
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.2363517617737612,
      "learning_rate": 7.636998704106252e-05,
      "loss": 2.9776,
      "step": 1804
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.579495741516853,
      "learning_rate": 7.597595192178702e-05,
      "loss": 2.9598,
      "step": 1805
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.4256439663027902,
      "learning_rate": 7.558285235769646e-05,
      "loss": 2.9104,
      "step": 1806
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.0576929410553877,
      "learning_rate": 7.519068921611494e-05,
      "loss": 2.952,
      "step": 1807
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.394022199282648,
      "learning_rate": 7.479946336230047e-05,
      "loss": 2.9091,
      "step": 1808
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.1720745266223047,
      "learning_rate": 7.440917565944349e-05,
      "loss": 2.7932,
      "step": 1809
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.342755869644257,
      "learning_rate": 7.4019826968664e-05,
      "loss": 2.8519,
      "step": 1810
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.5554761651592595,
      "learning_rate": 7.363141814901053e-05,
      "loss": 2.853,
      "step": 1811
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.5340168259256282,
      "learning_rate": 7.32439500574577e-05,
      "loss": 2.8436,
      "step": 1812
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.7889725531121838,
      "learning_rate": 7.285742354890473e-05,
      "loss": 2.912,
      "step": 1813
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.4017796662027855,
      "learning_rate": 7.247183947617325e-05,
      "loss": 2.9809,
      "step": 1814
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.1707303989781581,
      "learning_rate": 7.20871986900053e-05,
      "loss": 2.9436,
      "step": 1815
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.1145192130589865,
      "learning_rate": 7.170350203906218e-05,
      "loss": 2.9136,
      "step": 1816
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.334154118888798,
      "learning_rate": 7.132075036992158e-05,
      "loss": 2.8607,
      "step": 1817
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.9732131120697927,
      "learning_rate": 7.093894452707666e-05,
      "loss": 2.9048,
      "step": 1818
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.60261814486216,
      "learning_rate": 7.055808535293334e-05,
      "loss": 2.9437,
      "step": 1819
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.424327965489729,
      "learning_rate": 7.017817368780888e-05,
      "loss": 2.8936,
      "step": 1820
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.3146972541972053,
      "learning_rate": 6.979921036993042e-05,
      "loss": 2.8138,
      "step": 1821
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.291262429953917,
      "learning_rate": 6.942119623543202e-05,
      "loss": 2.9694,
      "step": 1822
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.3080431000025117,
      "learning_rate": 6.904413211835414e-05,
      "loss": 2.867,
      "step": 1823
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.355882839351075,
      "learning_rate": 6.866801885064056e-05,
      "loss": 2.9091,
      "step": 1824
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.316823343153112,
      "learning_rate": 6.829285726213769e-05,
      "loss": 2.9278,
      "step": 1825
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.4229971782895718,
      "learning_rate": 6.79186481805918e-05,
      "loss": 2.9042,
      "step": 1826
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.48954043827805,
      "learning_rate": 6.754539243164754e-05,
      "loss": 2.8203,
      "step": 1827
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.4720593090694627,
      "learning_rate": 6.717309083884654e-05,
      "loss": 2.9947,
      "step": 1828
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.6473357597150955,
      "learning_rate": 6.680174422362468e-05,
      "loss": 2.9623,
      "step": 1829
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.4482262287429248,
      "learning_rate": 6.643135340531136e-05,
      "loss": 2.9424,
      "step": 1830
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.3287807506715932,
      "learning_rate": 6.606191920112664e-05,
      "loss": 2.9011,
      "step": 1831
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.42634952884343,
      "learning_rate": 6.569344242618036e-05,
      "loss": 2.9157,
      "step": 1832
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.1415930628370463,
      "learning_rate": 6.532592389346958e-05,
      "loss": 2.9019,
      "step": 1833
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.3700924881684102,
      "learning_rate": 6.495936441387713e-05,
      "loss": 2.9162,
      "step": 1834
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.435659152314621,
      "learning_rate": 6.459376479617013e-05,
      "loss": 2.9758,
      "step": 1835
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.6972480743828058,
      "learning_rate": 6.422912584699752e-05,
      "loss": 2.9229,
      "step": 1836
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.481509213376794,
      "learning_rate": 6.386544837088904e-05,
      "loss": 2.9359,
      "step": 1837
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.3044298201628397,
      "learning_rate": 6.350273317025251e-05,
      "loss": 2.8375,
      "step": 1838
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.4639337267505692,
      "learning_rate": 6.314098104537324e-05,
      "loss": 2.8981,
      "step": 1839
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.0684519939834416,
      "learning_rate": 6.278019279441122e-05,
      "loss": 2.9393,
      "step": 1840
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.3888817140787348,
      "learning_rate": 6.242036921339972e-05,
      "loss": 2.874,
      "step": 1841
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.1506435062339528,
      "learning_rate": 6.206151109624402e-05,
      "loss": 2.849,
      "step": 1842
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.339511451370293,
      "learning_rate": 6.170361923471868e-05,
      "loss": 2.8954,
      "step": 1843
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.2445623012481197,
      "learning_rate": 6.134669441846691e-05,
      "loss": 2.9273,
      "step": 1844
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.2030583283878562,
      "learning_rate": 6.099073743499772e-05,
      "loss": 2.9514,
      "step": 1845
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.9733708963906829,
      "learning_rate": 6.063574906968511e-05,
      "loss": 2.9683,
      "step": 1846
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.5605681972262342,
      "learning_rate": 6.028173010576582e-05,
      "loss": 2.899,
      "step": 1847
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.642744031694476,
      "learning_rate": 5.9928681324337544e-05,
      "loss": 2.7582,
      "step": 1848
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.3320240558781244,
      "learning_rate": 5.957660350435773e-05,
      "loss": 2.9511,
      "step": 1849
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.521926530985707,
      "learning_rate": 5.922549742264122e-05,
      "loss": 2.7565,
      "step": 1850
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.51180155586555,
      "learning_rate": 5.8875363853859166e-05,
      "loss": 2.9231,
      "step": 1851
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.3191002788995383,
      "learning_rate": 5.852620357053651e-05,
      "loss": 2.8943,
      "step": 1852
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.4338460267874265,
      "learning_rate": 5.8178017343051336e-05,
      "loss": 2.9112,
      "step": 1853
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.0338022380035392,
      "learning_rate": 5.783080593963219e-05,
      "loss": 2.9816,
      "step": 1854
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.3164343795311204,
      "learning_rate": 5.748457012635683e-05,
      "loss": 2.8298,
      "step": 1855
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.282861033002723,
      "learning_rate": 5.713931066715078e-05,
      "loss": 2.8847,
      "step": 1856
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.4170845688859448,
      "learning_rate": 5.679502832378497e-05,
      "loss": 2.9347,
      "step": 1857
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.6833787077819424,
      "learning_rate": 5.645172385587482e-05,
      "loss": 2.8476,
      "step": 1858
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.3722904647175191,
      "learning_rate": 5.6109398020877834e-05,
      "loss": 2.9622,
      "step": 1859
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.4936864331407076,
      "learning_rate": 5.576805157409265e-05,
      "loss": 2.9652,
      "step": 1860
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.9942927344166205,
      "learning_rate": 5.542768526865677e-05,
      "loss": 2.9408,
      "step": 1861
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.2065850197924624,
      "learning_rate": 5.508829985554509e-05,
      "loss": 2.8643,
      "step": 1862
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.5615301673896118,
      "learning_rate": 5.474989608356856e-05,
      "loss": 3.0091,
      "step": 1863
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.2465671262128588,
      "learning_rate": 5.441247469937194e-05,
      "loss": 2.9011,
      "step": 1864
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.3358839702457834,
      "learning_rate": 5.407603644743286e-05,
      "loss": 2.944,
      "step": 1865
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.4131300261067425,
      "learning_rate": 5.374058207005944e-05,
      "loss": 2.9024,
      "step": 1866
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.2861304579544626,
      "learning_rate": 5.3406112307389066e-05,
      "loss": 2.9189,
      "step": 1867
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.3443951640733027,
      "learning_rate": 5.3072627897386926e-05,
      "loss": 3.0128,
      "step": 1868
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.4479875864561442,
      "learning_rate": 5.27401295758439e-05,
      "loss": 3.0456,
      "step": 1869
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.4283108873647987,
      "learning_rate": 5.2408618076375315e-05,
      "loss": 2.9159,
      "step": 1870
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.9586480128388798,
      "learning_rate": 5.207809413041914e-05,
      "loss": 2.9643,
      "step": 1871
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.3214142040691557,
      "learning_rate": 5.174855846723459e-05,
      "loss": 2.7835,
      "step": 1872
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.1204757966020698,
      "learning_rate": 5.1420011813900104e-05,
      "loss": 2.9425,
      "step": 1873
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.1135831836234753,
      "learning_rate": 5.109245489531211e-05,
      "loss": 2.9356,
      "step": 1874
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.4105509475752278,
      "learning_rate": 5.0765888434183446e-05,
      "loss": 2.8537,
      "step": 1875
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.6032103566076243,
      "learning_rate": 5.0440313151041364e-05,
      "loss": 2.9228,
      "step": 1876
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.277176136933295,
      "learning_rate": 5.011572976422657e-05,
      "loss": 2.8832,
      "step": 1877
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.1298481126291242,
      "learning_rate": 4.9792138989890825e-05,
      "loss": 3.011,
      "step": 1878
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.6643381471913317,
      "learning_rate": 4.9469541541996234e-05,
      "loss": 2.9217,
      "step": 1879
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.1876721094491824,
      "learning_rate": 4.914793813231305e-05,
      "loss": 2.8685,
      "step": 1880
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.3392480016752306,
      "learning_rate": 4.882732947041818e-05,
      "loss": 2.9544,
      "step": 1881
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.3258089959214663,
      "learning_rate": 4.850771626369416e-05,
      "loss": 2.8881,
      "step": 1882
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.269209094180643,
      "learning_rate": 4.818909921732662e-05,
      "loss": 2.9296,
      "step": 1883
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.3452768412393465,
      "learning_rate": 4.787147903430383e-05,
      "loss": 2.9458,
      "step": 1884
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.3253984263599115,
      "learning_rate": 4.755485641541424e-05,
      "loss": 2.9359,
      "step": 1885
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.2202382528466007,
      "learning_rate": 4.723923205924557e-05,
      "loss": 2.9551,
      "step": 1886
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.5051038178419962,
      "learning_rate": 4.6924606662182736e-05,
      "loss": 2.8617,
      "step": 1887
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.6322019703943367,
      "learning_rate": 4.6610980918406596e-05,
      "loss": 2.9758,
      "step": 1888
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.6853852715366426,
      "learning_rate": 4.629835551989276e-05,
      "loss": 2.9798,
      "step": 1889
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.3279178345764946,
      "learning_rate": 4.5986731156409224e-05,
      "loss": 2.9263,
      "step": 1890
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.1071594705371015,
      "learning_rate": 4.567610851551568e-05,
      "loss": 2.9071,
      "step": 1891
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.1693701971765755,
      "learning_rate": 4.536648828256146e-05,
      "loss": 2.8933,
      "step": 1892
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.3414113852802239,
      "learning_rate": 4.505787114068433e-05,
      "loss": 2.878,
      "step": 1893
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.413264571454929,
      "learning_rate": 4.4750257770808764e-05,
      "loss": 2.9045,
      "step": 1894
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.5754616897054619,
      "learning_rate": 4.444364885164448e-05,
      "loss": 2.945,
      "step": 1895
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.171212898238198,
      "learning_rate": 4.413804505968533e-05,
      "loss": 2.9662,
      "step": 1896
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.3386119018203282,
      "learning_rate": 4.3833447069206944e-05,
      "loss": 2.8811,
      "step": 1897
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.27707924749914,
      "learning_rate": 4.352985555226635e-05,
      "loss": 2.8555,
      "step": 1898
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.4050473618443826,
      "learning_rate": 4.322727117869951e-05,
      "loss": 2.9678,
      "step": 1899
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.0888677479238773,
      "learning_rate": 4.29256946161205e-05,
      "loss": 2.9415,
      "step": 1900
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.4021682511761666,
      "learning_rate": 4.262512652991968e-05,
      "loss": 2.884,
      "step": 1901
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.356599198726248,
      "learning_rate": 4.2325567583262113e-05,
      "loss": 2.9023,
      "step": 1902
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.1948355034308358,
      "learning_rate": 4.2027018437086895e-05,
      "loss": 2.8737,
      "step": 1903
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.305803850908624,
      "learning_rate": 4.172947975010449e-05,
      "loss": 2.8458,
      "step": 1904
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.1170651129471456,
      "learning_rate": 4.143295217879645e-05,
      "loss": 2.8994,
      "step": 1905
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.1901259867279002,
      "learning_rate": 4.113743637741296e-05,
      "loss": 2.8174,
      "step": 1906
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.4019179378471063,
      "learning_rate": 4.084293299797226e-05,
      "loss": 2.8985,
      "step": 1907
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.427242346765218,
      "learning_rate": 4.054944269025862e-05,
      "loss": 2.8597,
      "step": 1908
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.4251819858280546,
      "learning_rate": 4.025696610182095e-05,
      "loss": 2.9897,
      "step": 1909
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.3508836776371491,
      "learning_rate": 3.996550387797187e-05,
      "loss": 2.8727,
      "step": 1910
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.6257272809339653,
      "learning_rate": 3.9675056661785556e-05,
      "loss": 3.0182,
      "step": 1911
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.178298598814271,
      "learning_rate": 3.9385625094097154e-05,
      "loss": 2.8558,
      "step": 1912
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.1576904508076713,
      "learning_rate": 3.909720981350034e-05,
      "loss": 2.9533,
      "step": 1913
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.3909147672534197,
      "learning_rate": 3.880981145634704e-05,
      "loss": 2.8993,
      "step": 1914
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.5696498656599254,
      "learning_rate": 3.852343065674507e-05,
      "loss": 3.0295,
      "step": 1915
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.1639366436997811,
      "learning_rate": 3.8238068046557276e-05,
      "loss": 2.9376,
      "step": 1916
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.5105982636061601,
      "learning_rate": 3.795372425540006e-05,
      "loss": 2.9485,
      "step": 1917
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.5937292156667127,
      "learning_rate": 3.76703999106418e-05,
      "loss": 2.9246,
      "step": 1918
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.4111612498954147,
      "learning_rate": 3.7388095637401754e-05,
      "loss": 2.934,
      "step": 1919
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.5148008892199232,
      "learning_rate": 3.7106812058548376e-05,
      "loss": 3.007,
      "step": 1920
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.3903889951353003,
      "learning_rate": 3.682654979469807e-05,
      "loss": 2.9055,
      "step": 1921
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.094621869373553,
      "learning_rate": 3.654730946421403e-05,
      "loss": 3.012,
      "step": 1922
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.1299677019681011,
      "learning_rate": 3.6269091683204466e-05,
      "loss": 2.9446,
      "step": 1923
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.3516739470608323,
      "learning_rate": 3.5991897065521693e-05,
      "loss": 2.9964,
      "step": 1924
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.1448508717056545,
      "learning_rate": 3.571572622276026e-05,
      "loss": 2.9052,
      "step": 1925
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.7939776172020578,
      "learning_rate": 3.544057976425619e-05,
      "loss": 2.8975,
      "step": 1926
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.3420572596960205,
      "learning_rate": 3.5166458297085146e-05,
      "loss": 2.916,
      "step": 1927
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.2104732610028162,
      "learning_rate": 3.489336242606111e-05,
      "loss": 2.9319,
      "step": 1928
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.4661469746014646,
      "learning_rate": 3.462129275373577e-05,
      "loss": 2.9146,
      "step": 1929
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.3594049569580227,
      "learning_rate": 3.4350249880395924e-05,
      "loss": 2.9692,
      "step": 1930
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.7015958548122416,
      "learning_rate": 3.408023440406355e-05,
      "loss": 2.9503,
      "step": 1931
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.1747706031078102,
      "learning_rate": 3.381124692049331e-05,
      "loss": 2.9817,
      "step": 1932
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.3728266027068072,
      "learning_rate": 3.354328802317197e-05,
      "loss": 2.9353,
      "step": 1933
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.4636798861988276,
      "learning_rate": 3.327635830331677e-05,
      "loss": 2.8496,
      "step": 1934
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.4239553901985142,
      "learning_rate": 3.3010458349874206e-05,
      "loss": 3.004,
      "step": 1935
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.260309630906568,
      "learning_rate": 3.2745588749518775e-05,
      "loss": 2.9221,
      "step": 1936
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.0072248173595442,
      "learning_rate": 3.248175008665161e-05,
      "loss": 2.9611,
      "step": 1937
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.3423858304765823,
      "learning_rate": 3.221894294339911e-05,
      "loss": 2.9129,
      "step": 1938
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.1974600260830572,
      "learning_rate": 3.1957167899611836e-05,
      "loss": 2.9603,
      "step": 1939
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.2635174952429562,
      "learning_rate": 3.169642553286334e-05,
      "loss": 2.9059,
      "step": 1940
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.3285100602146644,
      "learning_rate": 3.143671641844831e-05,
      "loss": 2.8513,
      "step": 1941
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.0498538676039537,
      "learning_rate": 3.117804112938205e-05,
      "loss": 2.7987,
      "step": 1942
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.4002397840284437,
      "learning_rate": 3.092040023639869e-05,
      "loss": 2.8918,
      "step": 1943
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.5795534774025572,
      "learning_rate": 3.066379430795002e-05,
      "loss": 2.8806,
      "step": 1944
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.1372390112202893,
      "learning_rate": 3.040822391020459e-05,
      "loss": 2.8282,
      "step": 1945
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.277122651765064,
      "learning_rate": 3.0153689607045842e-05,
      "loss": 2.9211,
      "step": 1946
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.133122063247643,
      "learning_rate": 2.9900191960071545e-05,
      "loss": 2.9475,
      "step": 1947
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.3350447081971364,
      "learning_rate": 2.9647731528591848e-05,
      "loss": 2.9437,
      "step": 1948
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.574740654389341,
      "learning_rate": 2.9396308869628795e-05,
      "loss": 2.8766,
      "step": 1949
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.4496512073779522,
      "learning_rate": 2.914592453791448e-05,
      "loss": 2.9455,
      "step": 1950
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.2846392120704349,
      "learning_rate": 2.8896579085889994e-05,
      "loss": 3.0003,
      "step": 1951
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.3972946788105771,
      "learning_rate": 2.86482730637046e-05,
      "loss": 2.9957,
      "step": 1952
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.3585457391734848,
      "learning_rate": 2.840100701921383e-05,
      "loss": 2.8647,
      "step": 1953
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.2202989188473883,
      "learning_rate": 2.8154781497978898e-05,
      "loss": 2.9662,
      "step": 1954
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.3175287286214667,
      "learning_rate": 2.7909597043265013e-05,
      "loss": 2.949,
      "step": 1955
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.2887741797619467,
      "learning_rate": 2.7665454196040662e-05,
      "loss": 2.7639,
      "step": 1956
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.459178998327773,
      "learning_rate": 2.7422353494975905e-05,
      "loss": 2.8711,
      "step": 1957
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.4997553741905854,
      "learning_rate": 2.7180295476441573e-05,
      "loss": 2.8584,
      "step": 1958
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.0235648154228683,
      "learning_rate": 2.6939280674508016e-05,
      "loss": 2.9571,
      "step": 1959
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.5388632813426186,
      "learning_rate": 2.669930962094358e-05,
      "loss": 2.8527,
      "step": 1960
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.4899192571914044,
      "learning_rate": 2.6460382845214126e-05,
      "loss": 3.0118,
      "step": 1961
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.1865150588313702,
      "learning_rate": 2.6222500874481025e-05,
      "loss": 2.8757,
      "step": 1962
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.4431977446101254,
      "learning_rate": 2.5985664233600827e-05,
      "loss": 2.9429,
      "step": 1963
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.6284002615493123,
      "learning_rate": 2.574987344512336e-05,
      "loss": 2.9343,
      "step": 1964
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.5213466379108453,
      "learning_rate": 2.5515129029290984e-05,
      "loss": 2.8795,
      "step": 1965
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.047675449726608,
      "learning_rate": 2.5281431504037556e-05,
      "loss": 2.9482,
      "step": 1966
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.3828621677642379,
      "learning_rate": 2.504878138498684e-05,
      "loss": 2.8839,
      "step": 1967
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.4894015791726511,
      "learning_rate": 2.48171791854519e-05,
      "loss": 3.0551,
      "step": 1968
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.221207135743965,
      "learning_rate": 2.4586625416433473e-05,
      "loss": 2.9423,
      "step": 1969
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.2106085148425063,
      "learning_rate": 2.435712058661921e-05,
      "loss": 2.9316,
      "step": 1970
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.4275453404903795,
      "learning_rate": 2.4128665202382327e-05,
      "loss": 2.9203,
      "step": 1971
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.2539729972477551,
      "learning_rate": 2.3901259767780515e-05,
      "loss": 2.9686,
      "step": 1972
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.2005286629573708,
      "learning_rate": 2.367490478455514e-05,
      "loss": 2.9352,
      "step": 1973
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.9638972238961235,
      "learning_rate": 2.3449600752129597e-05,
      "loss": 2.8866,
      "step": 1974
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.2032154699359405,
      "learning_rate": 2.3225348167608685e-05,
      "loss": 2.909,
      "step": 1975
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.242982153173785,
      "learning_rate": 2.3002147525777118e-05,
      "loss": 2.8297,
      "step": 1976
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.053063913227789,
      "learning_rate": 2.2779999319098856e-05,
      "loss": 2.9525,
      "step": 1977
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.3398399344422565,
      "learning_rate": 2.255890403771571e-05,
      "loss": 2.908,
      "step": 1978
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.3740719029821624,
      "learning_rate": 2.233886216944614e-05,
      "loss": 2.8685,
      "step": 1979
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.5466044898556501,
      "learning_rate": 2.211987419978484e-05,
      "loss": 2.927,
      "step": 1980
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.2165887844001604,
      "learning_rate": 2.1901940611900705e-05,
      "loss": 3.0333,
      "step": 1981
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.4675059745290309,
      "learning_rate": 2.168506188663666e-05,
      "loss": 2.8702,
      "step": 1982
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.6516458199893815,
      "learning_rate": 2.1469238502507925e-05,
      "loss": 2.9477,
      "step": 1983
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.179309113999862,
      "learning_rate": 2.125447093570154e-05,
      "loss": 2.9194,
      "step": 1984
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.2385023748692714,
      "learning_rate": 2.1040759660074793e-05,
      "loss": 2.8475,
      "step": 1985
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.483408090544763,
      "learning_rate": 2.0828105147154273e-05,
      "loss": 2.9131,
      "step": 1986
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.184418606924444,
      "learning_rate": 2.061650786613545e-05,
      "loss": 2.9399,
      "step": 1987
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.5326514640905506,
      "learning_rate": 2.040596828388058e-05,
      "loss": 2.9572,
      "step": 1988
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.6279138804686126,
      "learning_rate": 2.019648686491865e-05,
      "loss": 2.8776,
      "step": 1989
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.5160572287493168,
      "learning_rate": 1.9988064071443767e-05,
      "loss": 2.8333,
      "step": 1990
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.6599917435258837,
      "learning_rate": 1.9780700363314253e-05,
      "loss": 2.9846,
      "step": 1991
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.3409716354293437,
      "learning_rate": 1.957439619805196e-05,
      "loss": 2.8399,
      "step": 1992
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.363240336515415,
      "learning_rate": 1.9369152030840554e-05,
      "loss": 2.9346,
      "step": 1993
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.4240528343989054,
      "learning_rate": 1.916496831452552e-05,
      "loss": 2.9661,
      "step": 1994
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.4992096045459078,
      "learning_rate": 1.8961845499611998e-05,
      "loss": 2.9384,
      "step": 1995
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.2464288349924104,
      "learning_rate": 1.8759784034264925e-05,
      "loss": 2.8417,
      "step": 1996
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.0934647980483212,
      "learning_rate": 1.855878436430708e-05,
      "loss": 2.9066,
      "step": 1997
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.9391561627137345,
      "learning_rate": 1.835884693321871e-05,
      "loss": 2.9273,
      "step": 1998
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.7737136907981153,
      "learning_rate": 1.8159972182136386e-05,
      "loss": 2.8502,
      "step": 1999
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.2313934873121977,
      "learning_rate": 1.7962160549851945e-05,
      "loss": 2.9188,
      "step": 2000
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.5948512554437952,
      "learning_rate": 1.776541247281177e-05,
      "loss": 2.8264,
      "step": 2001
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.3191446084700644,
      "learning_rate": 1.7569728385115224e-05,
      "loss": 2.9047,
      "step": 2002
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.446947657866358,
      "learning_rate": 1.7375108718514665e-05,
      "loss": 3.0018,
      "step": 2003
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.5199183674684786,
      "learning_rate": 1.7181553902413438e-05,
      "loss": 2.9013,
      "step": 2004
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.1600411241461606,
      "learning_rate": 1.698906436386577e-05,
      "loss": 2.8403,
      "step": 2005
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.5701602942993966,
      "learning_rate": 1.679764052757532e-05,
      "loss": 2.9357,
      "step": 2006
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.434671449121384,
      "learning_rate": 1.6607282815894464e-05,
      "loss": 3.0742,
      "step": 2007
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.4008773861579504,
      "learning_rate": 1.6417991648823405e-05,
      "loss": 2.9737,
      "step": 2008
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.4183355981030672,
      "learning_rate": 1.6229767444008835e-05,
      "loss": 2.9343,
      "step": 2009
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.373006947406823,
      "learning_rate": 1.604261061674378e-05,
      "loss": 2.9441,
      "step": 2010
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.3096283541694236,
      "learning_rate": 1.5856521579965865e-05,
      "loss": 2.9511,
      "step": 2011
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.3789940921818038,
      "learning_rate": 1.5671500744256938e-05,
      "loss": 2.9419,
      "step": 2012
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.292402354036165,
      "learning_rate": 1.5487548517841953e-05,
      "loss": 2.925,
      "step": 2013
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.2373306180129158,
      "learning_rate": 1.530466530658814e-05,
      "loss": 2.9877,
      "step": 2014
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.161049866952199,
      "learning_rate": 1.5122851514004054e-05,
      "loss": 2.8857,
      "step": 2015
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.5391280370927047,
      "learning_rate": 1.4942107541238703e-05,
      "loss": 2.8897,
      "step": 2016
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.2533487389688123,
      "learning_rate": 1.4762433787080809e-05,
      "loss": 2.9094,
      "step": 2017
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.17613996462448,
      "learning_rate": 1.4583830647957541e-05,
      "loss": 2.939,
      "step": 2018
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.060592129791668,
      "learning_rate": 1.4406298517934068e-05,
      "loss": 2.9397,
      "step": 2019
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.4220983412712092,
      "learning_rate": 1.4229837788712562e-05,
      "loss": 2.9721,
      "step": 2020
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.218354393791291,
      "learning_rate": 1.4054448849631085e-05,
      "loss": 2.828,
      "step": 2021
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.4380497198522466,
      "learning_rate": 1.3880132087663145e-05,
      "loss": 2.9159,
      "step": 2022
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.2378322727801834,
      "learning_rate": 1.3706887887416419e-05,
      "loss": 2.9743,
      "step": 2023
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.2777801242079827,
      "learning_rate": 1.3534716631132316e-05,
      "loss": 2.8676,
      "step": 2024
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.5685548670650564,
      "learning_rate": 1.3363618698684853e-05,
      "loss": 2.8729,
      "step": 2025
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.1037644474745765,
      "learning_rate": 1.3193594467579728e-05,
      "loss": 2.9369,
      "step": 2026
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.3841874031383632,
      "learning_rate": 1.3024644312954026e-05,
      "loss": 2.9201,
      "step": 2027
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.4484486235610263,
      "learning_rate": 1.2856768607574564e-05,
      "loss": 2.888,
      "step": 2028
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.1324779259084254,
      "learning_rate": 1.2689967721837947e-05,
      "loss": 2.9263,
      "step": 2029
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.2488765543803442,
      "learning_rate": 1.2524242023769006e-05,
      "loss": 2.8282,
      "step": 2030
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.0823518137437638,
      "learning_rate": 1.2359591879020526e-05,
      "loss": 2.9491,
      "step": 2031
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.1934038871483736,
      "learning_rate": 1.2196017650872081e-05,
      "loss": 2.9488,
      "step": 2032
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.3999825684046,
      "learning_rate": 1.2033519700229367e-05,
      "loss": 2.8877,
      "step": 2033
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.4693439277987557,
      "learning_rate": 1.1872098385623586e-05,
      "loss": 2.8806,
      "step": 2034
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.2038885488194468,
      "learning_rate": 1.1711754063210289e-05,
      "loss": 2.9299,
      "step": 2035
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.2649383664689269,
      "learning_rate": 1.155248708676887e-05,
      "loss": 2.9404,
      "step": 2036
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.2976399773662488,
      "learning_rate": 1.1394297807701737e-05,
      "loss": 2.8696,
      "step": 2037
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.2206397551945691,
      "learning_rate": 1.1237186575033254e-05,
      "loss": 2.9281,
      "step": 2038
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.5083816457162789,
      "learning_rate": 1.1081153735409522e-05,
      "loss": 2.8962,
      "step": 2039
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.1175195271669913,
      "learning_rate": 1.0926199633097156e-05,
      "loss": 2.8762,
      "step": 2040
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.0431687627274482,
      "learning_rate": 1.0772324609982787e-05,
      "loss": 2.8549,
      "step": 2041
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.456210407690352,
      "learning_rate": 1.0619529005571893e-05,
      "loss": 2.8887,
      "step": 2042
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.3908284189309184,
      "learning_rate": 1.0467813156988748e-05,
      "loss": 2.8968,
      "step": 2043
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.1734742098948094,
      "learning_rate": 1.0317177398975031e-05,
      "loss": 3.0022,
      "step": 2044
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.6070768488143563,
      "learning_rate": 1.0167622063889326e-05,
      "loss": 2.8124,
      "step": 2045
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.2098535529609098,
      "learning_rate": 1.0019147481706625e-05,
      "loss": 2.9221,
      "step": 2046
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.2502479897714602,
      "learning_rate": 9.871753980017051e-06,
      "loss": 2.9413,
      "step": 2047
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.3702995072031858,
      "learning_rate": 9.725441884025855e-06,
      "loss": 2.8876,
      "step": 2048
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.0408302239349552,
      "learning_rate": 9.580211516551862e-06,
      "loss": 2.9118,
      "step": 2049
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.1535420132596177,
      "learning_rate": 9.436063198027589e-06,
      "loss": 2.969,
      "step": 2050
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.4167188366992043,
      "learning_rate": 9.292997246497959e-06,
      "loss": 3.0101,
      "step": 2051
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.0922758917021234,
      "learning_rate": 9.151013977619693e-06,
      "loss": 2.9806,
      "step": 2052
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.119593193655557,
      "learning_rate": 9.010113704661038e-06,
      "loss": 2.8289,
      "step": 2053
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.9893871175612504,
      "learning_rate": 8.870296738500316e-06,
      "loss": 2.9988,
      "step": 2054
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.0624181606768837,
      "learning_rate": 8.731563387626095e-06,
      "loss": 2.9181,
      "step": 2055
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.815343149049455,
      "learning_rate": 8.59391395813569e-06,
      "loss": 2.9035,
      "step": 2056
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.4554724743366048,
      "learning_rate": 8.457348753735328e-06,
      "loss": 2.9236,
      "step": 2057
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.2524685908199207,
      "learning_rate": 8.321868075738593e-06,
      "loss": 2.8937,
      "step": 2058
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.2941099001166023,
      "learning_rate": 8.187472223066371e-06,
      "loss": 2.9347,
      "step": 2059
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.1592996025037325,
      "learning_rate": 8.054161492246136e-06,
      "loss": 2.8053,
      "step": 2060
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.3709542507712285,
      "learning_rate": 7.921936177411049e-06,
      "loss": 2.8717,
      "step": 2061
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.0770203391453779,
      "learning_rate": 7.790796570299463e-06,
      "loss": 2.9003,
      "step": 2062
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.377336392109336,
      "learning_rate": 7.660742960254207e-06,
      "loss": 2.8608,
      "step": 2063
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.5266801930234195,
      "learning_rate": 7.531775634222138e-06,
      "loss": 2.8736,
      "step": 2064
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.4381283038088772,
      "learning_rate": 7.403894876753192e-06,
      "loss": 2.9135,
      "step": 2065
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.0359360661314885,
      "learning_rate": 7.277100970000061e-06,
      "loss": 2.9345,
      "step": 2066
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.424428061336507,
      "learning_rate": 7.151394193717408e-06,
      "loss": 2.9245,
      "step": 2067
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.458499781611792,
      "learning_rate": 7.026774825261151e-06,
      "loss": 3.0096,
      "step": 2068
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.3770642060750315,
      "learning_rate": 6.903243139588233e-06,
      "loss": 2.9866,
      "step": 2069
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.2209315336188833,
      "learning_rate": 6.780799409255522e-06,
      "loss": 2.9579,
      "step": 2070
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.138094000760779,
      "learning_rate": 6.659443904419637e-06,
      "loss": 2.9578,
      "step": 2071
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.1250977067722434,
      "learning_rate": 6.539176892836008e-06,
      "loss": 2.9707,
      "step": 2072
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.4129789725598194,
      "learning_rate": 6.4199986398585375e-06,
      "loss": 2.846,
      "step": 2073
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.0822187026861658,
      "learning_rate": 6.3019094084388884e-06,
      "loss": 2.9019,
      "step": 2074
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.3562512629495522,
      "learning_rate": 6.18490945912592e-06,
      "loss": 2.9437,
      "step": 2075
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.267375830048741,
      "learning_rate": 6.068999050065249e-06,
      "loss": 2.9039,
      "step": 2076
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.3133189172978288,
      "learning_rate": 5.9541784369983586e-06,
      "loss": 2.8158,
      "step": 2077
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.280922648737551,
      "learning_rate": 5.840447873262433e-06,
      "loss": 2.86,
      "step": 2078
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.2922488167392254,
      "learning_rate": 5.727807609789471e-06,
      "loss": 2.8612,
      "step": 2079
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.7821081782057346,
      "learning_rate": 5.616257895105892e-06,
      "loss": 2.9476,
      "step": 2080
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.7177351394739835,
      "learning_rate": 5.505798975331933e-06,
      "loss": 2.9434,
      "step": 2081
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.6365485362526186,
      "learning_rate": 5.396431094181198e-06,
      "loss": 2.8991,
      "step": 2082
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.3633165437470762,
      "learning_rate": 5.288154492960107e-06,
      "loss": 2.9823,
      "step": 2083
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.1285855167432157,
      "learning_rate": 5.1809694105671155e-06,
      "loss": 2.9089,
      "step": 2084
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.1600966122380574,
      "learning_rate": 5.074876083492441e-06,
      "loss": 2.8462,
      "step": 2085
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.4952122364187659,
      "learning_rate": 4.96987474581767e-06,
      "loss": 2.8484,
      "step": 2086
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.2151165249981837,
      "learning_rate": 4.865965629214819e-06,
      "loss": 2.9538,
      "step": 2087
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.2871554655985888,
      "learning_rate": 4.763148962946218e-06,
      "loss": 2.8088,
      "step": 2088
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.1524952020451438,
      "learning_rate": 4.661424973863681e-06,
      "loss": 2.889,
      "step": 2089
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.2772034863116084,
      "learning_rate": 4.560793886408398e-06,
      "loss": 2.9849,
      "step": 2090
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.1539879506683333,
      "learning_rate": 4.461255922609986e-06,
      "loss": 2.91,
      "step": 2091
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.5230011241309769,
      "learning_rate": 4.362811302086267e-06,
      "loss": 2.9323,
      "step": 2092
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.2087828740960898,
      "learning_rate": 4.265460242042885e-06,
      "loss": 2.7781,
      "step": 2093
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.3320736790376602,
      "learning_rate": 4.169202957272522e-06,
      "loss": 2.9407,
      "step": 2094
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.1198258733226782,
      "learning_rate": 4.074039660154738e-06,
      "loss": 2.9313,
      "step": 2095
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.50154385169105,
      "learning_rate": 3.9799705606551325e-06,
      "loss": 2.8826,
      "step": 2096
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.1862701388450851,
      "learning_rate": 3.886995866325294e-06,
      "loss": 2.9709,
      "step": 2097
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.2650412744545325,
      "learning_rate": 3.795115782302072e-06,
      "loss": 2.8744,
      "step": 2098
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.140364902540892,
      "learning_rate": 3.704330511307197e-06,
      "loss": 2.91,
      "step": 2099
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.2208776845232412,
      "learning_rate": 3.614640253646828e-06,
      "loss": 2.8212,
      "step": 2100
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.441626068816821,
      "learning_rate": 3.5260452072110594e-06,
      "loss": 2.8947,
      "step": 2101
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.1398943938029609,
      "learning_rate": 3.4385455674737498e-06,
      "loss": 2.8715,
      "step": 2102
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.10836371169475,
      "learning_rate": 3.3521415274915256e-06,
      "loss": 2.9532,
      "step": 2103
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.228758783152068,
      "learning_rate": 3.2668332779041133e-06,
      "loss": 2.9224,
      "step": 2104
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.191439777928668,
      "learning_rate": 3.1826210069332838e-06,
      "loss": 2.9365,
      "step": 2105
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.373486956370784,
      "learning_rate": 3.0995049003826324e-06,
      "loss": 2.9391,
      "step": 2106
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.079657102884216,
      "learning_rate": 3.017485141637355e-06,
      "loss": 2.8735,
      "step": 2107
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.1109766194989583,
      "learning_rate": 2.9365619116636376e-06,
      "loss": 2.9075,
      "step": 2108
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.3948746899810875,
      "learning_rate": 2.856735389008269e-06,
      "loss": 2.9664,
      "step": 2109
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.0919139829667874,
      "learning_rate": 2.778005749798307e-06,
      "loss": 2.907,
      "step": 2110
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.4386055144985226,
      "learning_rate": 2.700373167740744e-06,
      "loss": 2.8647,
      "step": 2111
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.306579963911579,
      "learning_rate": 2.62383781412201e-06,
      "loss": 2.7846,
      "step": 2112
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.1747276782678657,
      "learning_rate": 2.5483998578076373e-06,
      "loss": 2.9155,
      "step": 2113
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.223690203443148,
      "learning_rate": 2.4740594652418736e-06,
      "loss": 2.9466,
      "step": 2114
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.280441364848328,
      "learning_rate": 2.4008168004472917e-06,
      "loss": 2.886,
      "step": 2115
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.1819585316224248,
      "learning_rate": 2.3286720250246253e-06,
      "loss": 2.9562,
      "step": 2116
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.3120580667260255,
      "learning_rate": 2.2576252981520994e-06,
      "loss": 2.9304,
      "step": 2117
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.2354885457413798,
      "learning_rate": 2.1876767765853233e-06,
      "loss": 2.882,
      "step": 2118
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.0087188190224012,
      "learning_rate": 2.118826614656788e-06,
      "loss": 2.8563,
      "step": 2119
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.2434674855970627,
      "learning_rate": 2.051074964275701e-06,
      "loss": 2.8897,
      "step": 2120
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.2373782080730071,
      "learning_rate": 1.984421974927375e-06,
      "loss": 2.8784,
      "step": 2121
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.0994125476729868,
      "learning_rate": 1.9188677936731734e-06,
      "loss": 2.8887,
      "step": 2122
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.1132857583227602,
      "learning_rate": 1.8544125651501208e-06,
      "loss": 2.9163,
      "step": 2123
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.2957468846202826,
      "learning_rate": 1.7910564315704035e-06,
      "loss": 2.8208,
      "step": 2124
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.4621653683015698,
      "learning_rate": 1.7287995327214257e-06,
      "loss": 3.0491,
      "step": 2125
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.1671983718130767,
      "learning_rate": 1.6676420059649754e-06,
      "loss": 2.9753,
      "step": 2126
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.4964717158454952,
      "learning_rate": 1.6075839862374485e-06,
      "loss": 2.8483,
      "step": 2127
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.552220835983709,
      "learning_rate": 1.5486256060492366e-06,
      "loss": 3.0306,
      "step": 2128
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.1259354413865283,
      "learning_rate": 1.4907669954844495e-06,
      "loss": 2.8988,
      "step": 2129
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.319494782523074,
      "learning_rate": 1.434008282200805e-06,
      "loss": 2.9639,
      "step": 2130
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.1940565911470893,
      "learning_rate": 1.3783495914291844e-06,
      "loss": 2.8564,
      "step": 2131
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.174927271274743,
      "learning_rate": 1.3237910459734104e-06,
      "loss": 2.9481,
      "step": 2132
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.3256317177547476,
      "learning_rate": 1.270332766210025e-06,
      "loss": 2.899,
      "step": 2133
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.508155359104819,
      "learning_rate": 1.2179748700879012e-06,
      "loss": 2.9488,
      "step": 2134
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.9605356334179687,
      "learning_rate": 1.1667174731280205e-06,
      "loss": 2.9085,
      "step": 2135
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.992122539440922,
      "learning_rate": 1.1165606884234182e-06,
      "loss": 2.878,
      "step": 2136
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.4883668821863674,
      "learning_rate": 1.0675046266386268e-06,
      "loss": 2.9052,
      "step": 2137
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.2723378887101715,
      "learning_rate": 1.019549396009567e-06,
      "loss": 2.9538,
      "step": 2138
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.3339668715087438,
      "learning_rate": 9.726951023434348e-07,
      "loss": 2.9633,
      "step": 2139
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.4241857629894625,
      "learning_rate": 9.269418490182591e-07,
      "loss": 2.9729,
      "step": 2140
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.1328330835819584,
      "learning_rate": 8.822897369827332e-07,
      "loss": 2.9198,
      "step": 2141
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.4788360951823996,
      "learning_rate": 8.387388647561611e-07,
      "loss": 2.9565,
      "step": 2142
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.563623415235777,
      "learning_rate": 7.962893284279016e-07,
      "loss": 3.0078,
      "step": 2143
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.4932145285905085,
      "learning_rate": 7.549412216574791e-07,
      "loss": 2.9444,
      "step": 2144
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.5995200311710547,
      "learning_rate": 7.146946356743067e-07,
      "loss": 2.9152,
      "step": 2145
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.2935410010116142,
      "learning_rate": 6.755496592773524e-07,
      "loss": 2.8707,
      "step": 2146
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.5090134429289543,
      "learning_rate": 6.375063788349733e-07,
      "loss": 2.8908,
      "step": 2147
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.1548208833137106,
      "learning_rate": 6.005648782848594e-07,
      "loss": 2.7878,
      "step": 2148
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.4352385208202871,
      "learning_rate": 5.647252391337565e-07,
      "loss": 2.9216,
      "step": 2149
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.1198573299915613,
      "learning_rate": 5.299875404572441e-07,
      "loss": 2.8648,
      "step": 2150
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.139183347455125,
      "learning_rate": 4.963518588996796e-07,
      "loss": 2.9979,
      "step": 2151
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.3848768554971014,
      "learning_rate": 4.638182686738657e-07,
      "loss": 2.9761,
      "step": 2152
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.2938501519156866,
      "learning_rate": 4.3238684156110543e-07,
      "loss": 2.9032,
      "step": 2153
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.3653774050171557,
      "learning_rate": 4.020576469108139e-07,
      "loss": 2.8931,
      "step": 2154
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.3278733509429268,
      "learning_rate": 3.7283075164046274e-07,
      "loss": 2.888,
      "step": 2155
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.3914282652854348,
      "learning_rate": 3.4470622023557995e-07,
      "loss": 2.8683,
      "step": 2156
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.3594128095759817,
      "learning_rate": 3.176841147492504e-07,
      "loss": 2.8028,
      "step": 2157
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.6203087161685865,
      "learning_rate": 2.9176449480244895e-07,
      "loss": 2.9108,
      "step": 2158
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.234880669423215,
      "learning_rate": 2.6694741758342967e-07,
      "loss": 2.8858,
      "step": 2159
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.1180916838167536,
      "learning_rate": 2.432329378478926e-07,
      "loss": 2.9146,
      "step": 2160
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.221650864161316,
      "learning_rate": 2.2062110791892798e-07,
      "loss": 2.9113,
      "step": 2161
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.5880927964596427,
      "learning_rate": 1.9911197768662792e-07,
      "loss": 3.0063,
      "step": 2162
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.2449790359287312,
      "learning_rate": 1.7870559460814173e-07,
      "loss": 2.9493,
      "step": 2163
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.2654345446379984,
      "learning_rate": 1.5940200370750947e-07,
      "loss": 2.7679,
      "step": 2164
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.9591098053328903,
      "learning_rate": 1.4120124757577291e-07,
      "loss": 2.9164,
      "step": 2165
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.42574154542481,
      "learning_rate": 1.2410336637047603e-07,
      "loss": 2.9925,
      "step": 2166
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.5122892606032305,
      "learning_rate": 1.081083978159425e-07,
      "loss": 2.8683,
      "step": 2167
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.156375785779121,
      "learning_rate": 9.321637720310915e-08,
      "loss": 2.8963,
      "step": 2168
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.3013495161676019,
      "learning_rate": 7.942733738924845e-08,
      "loss": 2.9521,
      "step": 2169
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.3460153620693731,
      "learning_rate": 6.6741308798135e-08,
      "loss": 3.0094,
      "step": 2170
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.2439103673206455,
      "learning_rate": 5.5158319419934546e-08,
      "loss": 2.8475,
      "step": 2171
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.111889166855485,
      "learning_rate": 4.4678394810981906e-08,
      "loss": 2.8608,
      "step": 2172
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.1864815507704192,
      "learning_rate": 3.5301558093947527e-08,
      "loss": 2.9787,
      "step": 2173
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.2511631434568353,
      "learning_rate": 2.7027829957559925e-08,
      "loss": 2.9315,
      "step": 2174
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.2520915278641092,
      "learning_rate": 1.985722865682771e-08,
      "loss": 2.9641,
      "step": 2175
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.281001054462828,
      "learning_rate": 1.3789770012762048e-08,
      "loss": 2.8656,
      "step": 2176
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.2635749994639307,
      "learning_rate": 8.825467412376665e-09,
      "loss": 2.8432,
      "step": 2177
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.314245571872036,
      "learning_rate": 4.96433180879885e-09,
      "loss": 2.919,
      "step": 2178
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.3398886035565805,
      "learning_rate": 2.206371721158451e-09,
      "loss": 3.0453,
      "step": 2179
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.09669926439378,
      "learning_rate": 5.515932345323549e-10,
      "loss": 2.9156,
      "step": 2180
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.2302629697478824,
      "learning_rate": 0.0,
      "loss": 2.9813,
      "step": 2181
    },
    {
      "epoch": 1.0,
      "step": 2181,
      "total_flos": 7.099115153601331e+17,
      "train_loss": 3.1358776452179513,
      "train_runtime": 7042.7451,
      "train_samples_per_second": 79.249,
      "train_steps_per_second": 0.31
    }
  ],
  "logging_steps": 1.0,
  "max_steps": 2181,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 1000,
  "total_flos": 7.099115153601331e+17,
  "train_batch_size": 32,
  "trial_name": null,
  "trial_params": null
}