{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.15600928255231186,
  "eval_steps": 500,
  "global_step": 1000,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.00015600928255231187,
      "grad_norm": 0.5937075614929199,
      "learning_rate": 2.666666666666667e-06,
      "loss": 3.7681,
      "step": 1
    },
    {
      "epoch": 0.00031201856510462375,
      "grad_norm": 0.5836828947067261,
      "learning_rate": 5.333333333333334e-06,
      "loss": 3.8601,
      "step": 2
    },
    {
      "epoch": 0.00046802784765693557,
      "grad_norm": 0.6111788749694824,
      "learning_rate": 8.000000000000001e-06,
      "loss": 3.643,
      "step": 3
    },
    {
      "epoch": 0.0006240371302092475,
      "grad_norm": 0.5807424783706665,
      "learning_rate": 1.0666666666666667e-05,
      "loss": 3.724,
      "step": 4
    },
    {
      "epoch": 0.0007800464127615594,
      "grad_norm": 0.5708947777748108,
      "learning_rate": 1.3333333333333333e-05,
      "loss": 3.9727,
      "step": 5
    },
    {
      "epoch": 0.0009360556953138711,
      "grad_norm": 0.5662252902984619,
      "learning_rate": 1.6000000000000003e-05,
      "loss": 3.6801,
      "step": 6
    },
    {
      "epoch": 0.001092064977866183,
      "grad_norm": 0.5653729438781738,
      "learning_rate": 1.866666666666667e-05,
      "loss": 3.6898,
      "step": 7
    },
    {
      "epoch": 0.001248074260418495,
      "grad_norm": 0.5451233983039856,
      "learning_rate": 2.1333333333333335e-05,
      "loss": 3.5484,
      "step": 8
    },
    {
      "epoch": 0.0014040835429708068,
      "grad_norm": 0.5682435035705566,
      "learning_rate": 2.4e-05,
      "loss": 3.538,
      "step": 9
    },
    {
      "epoch": 0.0015600928255231187,
      "grad_norm": 0.6180667877197266,
      "learning_rate": 2.6666666666666667e-05,
      "loss": 3.6757,
      "step": 10
    },
    {
      "epoch": 0.0017161021080754305,
      "grad_norm": 0.6358373165130615,
      "learning_rate": 2.9333333333333336e-05,
      "loss": 3.6489,
      "step": 11
    },
    {
      "epoch": 0.0018721113906277423,
      "grad_norm": 0.6643233895301819,
      "learning_rate": 3.2000000000000005e-05,
      "loss": 3.4313,
      "step": 12
    },
    {
      "epoch": 0.0020281206731800542,
      "grad_norm": 0.6591399908065796,
      "learning_rate": 3.466666666666667e-05,
      "loss": 3.472,
      "step": 13
    },
    {
      "epoch": 0.002184129955732366,
      "grad_norm": 0.8929205536842346,
      "learning_rate": 3.733333333333334e-05,
      "loss": 3.3531,
      "step": 14
    },
    {
      "epoch": 0.0023401392382846778,
      "grad_norm": 1.2845464944839478,
      "learning_rate": 4e-05,
      "loss": 3.143,
      "step": 15
    },
    {
      "epoch": 0.00249614852083699,
      "grad_norm": 1.216373085975647,
      "learning_rate": 4.266666666666667e-05,
      "loss": 3.1297,
      "step": 16
    },
    {
      "epoch": 0.0026521578033893017,
      "grad_norm": 0.9192391633987427,
      "learning_rate": 4.5333333333333335e-05,
      "loss": 2.9826,
      "step": 17
    },
    {
      "epoch": 0.0028081670859416135,
      "grad_norm": 0.8917486667633057,
      "learning_rate": 4.8e-05,
      "loss": 2.9068,
      "step": 18
    },
    {
      "epoch": 0.0029641763684939253,
      "grad_norm": 0.7141512632369995,
      "learning_rate": 5.0666666666666674e-05,
      "loss": 2.7797,
      "step": 19
    },
    {
      "epoch": 0.0031201856510462375,
      "grad_norm": 0.8795380592346191,
      "learning_rate": 5.333333333333333e-05,
      "loss": 2.2265,
      "step": 20
    },
    {
      "epoch": 0.0032761949335985492,
      "grad_norm": 1.047784447669983,
      "learning_rate": 5.6000000000000006e-05,
      "loss": 2.6089,
      "step": 21
    },
    {
      "epoch": 0.003432204216150861,
      "grad_norm": 1.0959978103637695,
      "learning_rate": 5.866666666666667e-05,
      "loss": 2.3416,
      "step": 22
    },
    {
      "epoch": 0.0035882134987031728,
      "grad_norm": 1.283445954322815,
      "learning_rate": 6.133333333333334e-05,
      "loss": 2.0565,
      "step": 23
    },
    {
      "epoch": 0.0037442227812554845,
      "grad_norm": 1.655569314956665,
      "learning_rate": 6.400000000000001e-05,
      "loss": 1.6648,
      "step": 24
    },
    {
      "epoch": 0.0039002320638077967,
      "grad_norm": 1.4048818349838257,
      "learning_rate": 6.666666666666667e-05,
      "loss": 1.7566,
      "step": 25
    },
    {
      "epoch": 0.0040562413463601085,
      "grad_norm": 1.0755441188812256,
      "learning_rate": 6.933333333333334e-05,
      "loss": 1.6591,
      "step": 26
    },
    {
      "epoch": 0.00421225062891242,
      "grad_norm": 0.7240940928459167,
      "learning_rate": 7.2e-05,
      "loss": 2.21,
      "step": 27
    },
    {
      "epoch": 0.004368259911464732,
      "grad_norm": 0.48980680108070374,
      "learning_rate": 7.466666666666667e-05,
      "loss": 1.8157,
      "step": 28
    },
    {
      "epoch": 0.004524269194017044,
      "grad_norm": 0.4145239591598511,
      "learning_rate": 7.733333333333333e-05,
      "loss": 1.8679,
      "step": 29
    },
    {
      "epoch": 0.0046802784765693555,
      "grad_norm": 0.3905705213546753,
      "learning_rate": 8e-05,
      "loss": 1.5733,
      "step": 30
    },
    {
      "epoch": 0.004836287759121667,
      "grad_norm": 0.40969792008399963,
      "learning_rate": 8.266666666666667e-05,
      "loss": 1.531,
      "step": 31
    },
    {
      "epoch": 0.00499229704167398,
      "grad_norm": 0.4269125759601593,
      "learning_rate": 8.533333333333334e-05,
      "loss": 1.3705,
      "step": 32
    },
    {
      "epoch": 0.005148306324226292,
      "grad_norm": 0.5876020789146423,
      "learning_rate": 8.800000000000001e-05,
      "loss": 1.4055,
      "step": 33
    },
    {
      "epoch": 0.0053043156067786035,
      "grad_norm": 0.39753037691116333,
      "learning_rate": 9.066666666666667e-05,
      "loss": 1.5403,
      "step": 34
    },
    {
      "epoch": 0.005460324889330915,
      "grad_norm": 0.4157419800758362,
      "learning_rate": 9.333333333333334e-05,
      "loss": 1.5698,
      "step": 35
    },
    {
      "epoch": 0.005616334171883227,
      "grad_norm": 0.4430864155292511,
      "learning_rate": 9.6e-05,
      "loss": 1.5466,
      "step": 36
    },
    {
      "epoch": 0.005772343454435539,
      "grad_norm": 0.5259338021278381,
      "learning_rate": 9.866666666666668e-05,
      "loss": 1.5878,
      "step": 37
    },
    {
      "epoch": 0.0059283527369878505,
      "grad_norm": 0.4409235417842865,
      "learning_rate": 0.00010133333333333335,
      "loss": 1.4203,
      "step": 38
    },
    {
      "epoch": 0.006084362019540162,
      "grad_norm": 0.5432307124137878,
      "learning_rate": 0.00010400000000000001,
      "loss": 1.3843,
      "step": 39
    },
    {
      "epoch": 0.006240371302092475,
      "grad_norm": 0.5789123177528381,
      "learning_rate": 0.00010666666666666667,
      "loss": 1.4649,
      "step": 40
    },
    {
      "epoch": 0.006396380584644787,
      "grad_norm": 0.5596875548362732,
      "learning_rate": 0.00010933333333333333,
      "loss": 1.3569,
      "step": 41
    },
    {
      "epoch": 0.0065523898671970985,
      "grad_norm": 0.6517161726951599,
      "learning_rate": 0.00011200000000000001,
      "loss": 1.4306,
      "step": 42
    },
    {
      "epoch": 0.00670839914974941,
      "grad_norm": 0.7665486335754395,
      "learning_rate": 0.00011466666666666667,
      "loss": 1.5369,
      "step": 43
    },
    {
      "epoch": 0.006864408432301722,
      "grad_norm": 0.8421632647514343,
      "learning_rate": 0.00011733333333333334,
      "loss": 1.5651,
      "step": 44
    },
    {
      "epoch": 0.007020417714854034,
      "grad_norm": 0.8437005877494812,
      "learning_rate": 0.00012,
      "loss": 1.33,
      "step": 45
    },
    {
      "epoch": 0.0071764269974063455,
      "grad_norm": 0.3544560670852661,
      "learning_rate": 0.00012266666666666668,
      "loss": 1.5436,
      "step": 46
    },
    {
      "epoch": 0.007332436279958657,
      "grad_norm": 0.35725343227386475,
      "learning_rate": 0.00012533333333333334,
      "loss": 1.5792,
      "step": 47
    },
    {
      "epoch": 0.007488445562510969,
      "grad_norm": 0.7203790545463562,
      "learning_rate": 0.00012800000000000002,
      "loss": 1.6707,
      "step": 48
    },
    {
      "epoch": 0.007644454845063282,
      "grad_norm": 0.352791428565979,
      "learning_rate": 0.00013066666666666668,
      "loss": 1.5251,
      "step": 49
    },
    {
      "epoch": 0.0078004641276155934,
      "grad_norm": 0.49014368653297424,
      "learning_rate": 0.00013333333333333334,
      "loss": 1.3478,
      "step": 50
    },
    {
      "epoch": 0.007956473410167905,
      "grad_norm": 0.29890525341033936,
      "learning_rate": 0.00013600000000000003,
      "loss": 1.3164,
      "step": 51
    },
    {
      "epoch": 0.008112482692720217,
      "grad_norm": 0.34632885456085205,
      "learning_rate": 0.00013866666666666669,
      "loss": 1.3785,
      "step": 52
    },
    {
      "epoch": 0.008268491975272529,
      "grad_norm": 0.3631187677383423,
      "learning_rate": 0.00014133333333333334,
      "loss": 1.7873,
      "step": 53
    },
    {
      "epoch": 0.00842450125782484,
      "grad_norm": 0.290487140417099,
      "learning_rate": 0.000144,
      "loss": 1.1681,
      "step": 54
    },
    {
      "epoch": 0.008580510540377152,
      "grad_norm": 0.3136501610279083,
      "learning_rate": 0.00014666666666666666,
      "loss": 1.1332,
      "step": 55
    },
    {
      "epoch": 0.008736519822929464,
      "grad_norm": 0.3708946406841278,
      "learning_rate": 0.00014933333333333335,
      "loss": 1.4316,
      "step": 56
    },
    {
      "epoch": 0.008892529105481776,
      "grad_norm": 0.3645316958427429,
      "learning_rate": 0.000152,
      "loss": 1.3522,
      "step": 57
    },
    {
      "epoch": 0.009048538388034088,
      "grad_norm": 0.4074520170688629,
      "learning_rate": 0.00015466666666666667,
      "loss": 1.5344,
      "step": 58
    },
    {
      "epoch": 0.0092045476705864,
      "grad_norm": 0.3106740713119507,
      "learning_rate": 0.00015733333333333333,
      "loss": 1.2959,
      "step": 59
    },
    {
      "epoch": 0.009360556953138711,
      "grad_norm": 0.32623976469039917,
      "learning_rate": 0.00016,
      "loss": 1.6472,
      "step": 60
    },
    {
      "epoch": 0.009516566235691023,
      "grad_norm": 0.35396724939346313,
      "learning_rate": 0.00016266666666666667,
      "loss": 1.2655,
      "step": 61
    },
    {
      "epoch": 0.009672575518243335,
      "grad_norm": 0.3455830216407776,
      "learning_rate": 0.00016533333333333333,
      "loss": 1.2153,
      "step": 62
    },
    {
      "epoch": 0.009828584800795648,
      "grad_norm": 0.3116808235645294,
      "learning_rate": 0.000168,
      "loss": 1.0851,
      "step": 63
    },
    {
      "epoch": 0.00998459408334796,
      "grad_norm": 0.3416989743709564,
      "learning_rate": 0.00017066666666666668,
      "loss": 1.5828,
      "step": 64
    },
    {
      "epoch": 0.010140603365900272,
      "grad_norm": 0.3509654104709625,
      "learning_rate": 0.00017333333333333334,
      "loss": 1.4832,
      "step": 65
    },
    {
      "epoch": 0.010296612648452583,
      "grad_norm": 0.3034147322177887,
      "learning_rate": 0.00017600000000000002,
      "loss": 1.4326,
      "step": 66
    },
    {
      "epoch": 0.010452621931004895,
      "grad_norm": 0.3084355890750885,
      "learning_rate": 0.00017866666666666668,
      "loss": 1.2452,
      "step": 67
    },
    {
      "epoch": 0.010608631213557207,
      "grad_norm": 0.3001956343650818,
      "learning_rate": 0.00018133333333333334,
      "loss": 1.2484,
      "step": 68
    },
    {
      "epoch": 0.010764640496109519,
      "grad_norm": 0.30605360865592957,
      "learning_rate": 0.00018400000000000003,
      "loss": 1.2137,
      "step": 69
    },
    {
      "epoch": 0.01092064977866183,
      "grad_norm": 0.32967764139175415,
      "learning_rate": 0.0001866666666666667,
      "loss": 1.4,
      "step": 70
    },
    {
      "epoch": 0.011076659061214142,
      "grad_norm": 0.3161776661872864,
      "learning_rate": 0.00018933333333333335,
      "loss": 1.3203,
      "step": 71
    },
    {
      "epoch": 0.011232668343766454,
      "grad_norm": 0.28808867931365967,
      "learning_rate": 0.000192,
      "loss": 1.3034,
      "step": 72
    },
    {
      "epoch": 0.011388677626318766,
      "grad_norm": 0.2804367244243622,
      "learning_rate": 0.0001946666666666667,
      "loss": 1.2753,
      "step": 73
    },
    {
      "epoch": 0.011544686908871078,
      "grad_norm": 0.30980467796325684,
      "learning_rate": 0.00019733333333333335,
      "loss": 1.3733,
      "step": 74
    },
    {
      "epoch": 0.01170069619142339,
      "grad_norm": 0.31240588426589966,
      "learning_rate": 0.0002,
      "loss": 1.1602,
      "step": 75
    },
    {
      "epoch": 0.011856705473975701,
      "grad_norm": 0.28906041383743286,
      "learning_rate": 0.00019999991608372393,
      "loss": 1.3243,
      "step": 76
    },
    {
      "epoch": 0.012012714756528013,
      "grad_norm": 0.2740985155105591,
      "learning_rate": 0.00019999966433503652,
      "loss": 1.1853,
      "step": 77
    },
    {
      "epoch": 0.012168724039080325,
      "grad_norm": 0.30425482988357544,
      "learning_rate": 0.0001999992447543603,
      "loss": 1.3282,
      "step": 78
    },
    {
      "epoch": 0.012324733321632636,
      "grad_norm": 0.3216018080711365,
      "learning_rate": 0.00019999865734239946,
      "loss": 1.3696,
      "step": 79
    },
    {
      "epoch": 0.01248074260418495,
      "grad_norm": 0.34770438075065613,
      "learning_rate": 0.00019999790210013988,
      "loss": 1.261,
      "step": 80
    },
    {
      "epoch": 0.012636751886737262,
      "grad_norm": 0.3883892297744751,
      "learning_rate": 0.0001999969790288491,
      "loss": 1.5873,
      "step": 81
    },
    {
      "epoch": 0.012792761169289573,
      "grad_norm": 0.3061410188674927,
      "learning_rate": 0.00019999588813007633,
      "loss": 1.5559,
      "step": 82
    },
    {
      "epoch": 0.012948770451841885,
      "grad_norm": 0.3044775128364563,
      "learning_rate": 0.00019999462940565243,
      "loss": 1.2439,
      "step": 83
    },
    {
      "epoch": 0.013104779734394197,
      "grad_norm": 0.3562803864479065,
      "learning_rate": 0.00019999320285769,
      "loss": 1.4121,
      "step": 84
    },
    {
      "epoch": 0.013260789016946509,
      "grad_norm": 0.3367731273174286,
      "learning_rate": 0.0001999916084885832,
      "loss": 1.1937,
      "step": 85
    },
    {
      "epoch": 0.01341679829949882,
      "grad_norm": 0.3613661527633667,
      "learning_rate": 0.00019998984630100792,
      "loss": 1.4267,
      "step": 86
    },
    {
      "epoch": 0.013572807582051132,
      "grad_norm": 0.30924999713897705,
      "learning_rate": 0.0001999879162979217,
      "loss": 1.3358,
      "step": 87
    },
    {
      "epoch": 0.013728816864603444,
      "grad_norm": 0.34925562143325806,
      "learning_rate": 0.0001999858184825637,
      "loss": 1.3758,
      "step": 88
    },
    {
      "epoch": 0.013884826147155756,
      "grad_norm": 0.3182036280632019,
      "learning_rate": 0.00019998355285845475,
      "loss": 1.3151,
      "step": 89
    },
    {
      "epoch": 0.014040835429708068,
      "grad_norm": 0.6028950810432434,
      "learning_rate": 0.0001999811194293973,
      "loss": 1.3797,
      "step": 90
    },
    {
      "epoch": 0.01419684471226038,
      "grad_norm": 0.3221015930175781,
      "learning_rate": 0.00019997851819947537,
      "loss": 1.3293,
      "step": 91
    },
    {
      "epoch": 0.014352853994812691,
      "grad_norm": 0.3003532290458679,
      "learning_rate": 0.00019997574917305478,
      "loss": 1.5671,
      "step": 92
    },
    {
      "epoch": 0.014508863277365003,
      "grad_norm": 0.32144418358802795,
      "learning_rate": 0.00019997281235478278,
      "loss": 1.3733,
      "step": 93
    },
    {
      "epoch": 0.014664872559917315,
      "grad_norm": 1.3427015542984009,
      "learning_rate": 0.00019996970774958836,
      "loss": 1.246,
      "step": 94
    },
    {
      "epoch": 0.014820881842469626,
      "grad_norm": 0.3254302144050598,
      "learning_rate": 0.00019996643536268204,
      "loss": 1.3829,
      "step": 95
    },
    {
      "epoch": 0.014976891125021938,
      "grad_norm": 0.2829325795173645,
      "learning_rate": 0.0001999629951995559,
      "loss": 1.2176,
      "step": 96
    },
    {
      "epoch": 0.01513290040757425,
      "grad_norm": 0.2943004071712494,
      "learning_rate": 0.00019995938726598373,
      "loss": 1.4021,
      "step": 97
    },
    {
      "epoch": 0.015288909690126563,
      "grad_norm": 0.2698727548122406,
      "learning_rate": 0.00019995561156802079,
      "loss": 1.2897,
      "step": 98
    },
    {
      "epoch": 0.015444918972678875,
      "grad_norm": 0.32416194677352905,
      "learning_rate": 0.0001999516681120039,
      "loss": 1.218,
      "step": 99
    },
    {
      "epoch": 0.015600928255231187,
      "grad_norm": 0.3309131860733032,
      "learning_rate": 0.00019994755690455152,
      "loss": 1.4658,
      "step": 100
    },
    {
      "epoch": 0.015756937537783497,
      "grad_norm": 0.31126394867897034,
      "learning_rate": 0.0001999432779525635,
      "loss": 1.5518,
      "step": 101
    },
    {
      "epoch": 0.01591294682033581,
      "grad_norm": 0.28427934646606445,
      "learning_rate": 0.0001999388312632214,
      "loss": 1.1435,
      "step": 102
    },
    {
      "epoch": 0.01606895610288812,
      "grad_norm": 0.28065958619117737,
      "learning_rate": 0.00019993421684398824,
      "loss": 1.3537,
      "step": 103
    },
    {
      "epoch": 0.016224965385440434,
      "grad_norm": 0.3787417411804199,
      "learning_rate": 0.00019992943470260844,
      "loss": 1.2151,
      "step": 104
    },
    {
      "epoch": 0.016380974667992744,
      "grad_norm": 0.32704487442970276,
      "learning_rate": 0.00019992448484710797,
      "loss": 1.1383,
      "step": 105
    },
    {
      "epoch": 0.016536983950545057,
      "grad_norm": 0.34436190128326416,
      "learning_rate": 0.00019991936728579437,
      "loss": 1.3949,
      "step": 106
    },
    {
      "epoch": 0.01669299323309737,
      "grad_norm": 0.29938092827796936,
      "learning_rate": 0.00019991408202725655,
      "loss": 1.2821,
      "step": 107
    },
    {
      "epoch": 0.01684900251564968,
      "grad_norm": 0.3192508816719055,
      "learning_rate": 0.0001999086290803649,
      "loss": 1.3655,
      "step": 108
    },
    {
      "epoch": 0.017005011798201995,
      "grad_norm": 0.2626635730266571,
      "learning_rate": 0.00019990300845427125,
      "loss": 1.2366,
      "step": 109
    },
    {
      "epoch": 0.017161021080754305,
      "grad_norm": 0.288725882768631,
      "learning_rate": 0.0001998972201584088,
      "loss": 1.0589,
      "step": 110
    },
    {
      "epoch": 0.017317030363306618,
      "grad_norm": 0.3340204358100891,
      "learning_rate": 0.00019989126420249221,
      "loss": 1.7077,
      "step": 111
    },
    {
      "epoch": 0.017473039645858928,
      "grad_norm": 0.27165043354034424,
      "learning_rate": 0.00019988514059651752,
      "loss": 1.3596,
      "step": 112
    },
    {
      "epoch": 0.01762904892841124,
      "grad_norm": 0.2751217186450958,
      "learning_rate": 0.00019987884935076213,
      "loss": 1.281,
      "step": 113
    },
    {
      "epoch": 0.01778505821096355,
      "grad_norm": 0.2712443172931671,
      "learning_rate": 0.00019987239047578482,
      "loss": 1.2686,
      "step": 114
    },
    {
      "epoch": 0.017941067493515865,
      "grad_norm": 0.2898474931716919,
      "learning_rate": 0.00019986576398242566,
      "loss": 1.2425,
      "step": 115
    },
    {
      "epoch": 0.018097076776068175,
      "grad_norm": 0.29883307218551636,
      "learning_rate": 0.00019985896988180605,
      "loss": 1.6326,
      "step": 116
    },
    {
      "epoch": 0.01825308605862049,
      "grad_norm": 0.2548903524875641,
      "learning_rate": 0.00019985200818532875,
      "loss": 1.317,
      "step": 117
    },
    {
      "epoch": 0.0184090953411728,
      "grad_norm": 0.260768860578537,
      "learning_rate": 0.0001998448789046777,
      "loss": 1.4137,
      "step": 118
    },
    {
      "epoch": 0.018565104623725112,
      "grad_norm": 0.27813923358917236,
      "learning_rate": 0.00019983758205181822,
      "loss": 1.1758,
      "step": 119
    },
    {
      "epoch": 0.018721113906277422,
      "grad_norm": 0.29539602994918823,
      "learning_rate": 0.00019983011763899673,
      "loss": 1.2805,
      "step": 120
    },
    {
      "epoch": 0.018877123188829736,
      "grad_norm": 0.2691763937473297,
      "learning_rate": 0.00019982248567874098,
      "loss": 1.3098,
      "step": 121
    },
    {
      "epoch": 0.019033132471382046,
      "grad_norm": 0.2895521819591522,
      "learning_rate": 0.00019981468618385988,
      "loss": 1.1475,
      "step": 122
    },
    {
      "epoch": 0.01918914175393436,
      "grad_norm": 0.24555402994155884,
      "learning_rate": 0.00019980671916744352,
      "loss": 1.075,
      "step": 123
    },
    {
      "epoch": 0.01934515103648667,
      "grad_norm": 0.29935726523399353,
      "learning_rate": 0.00019979858464286317,
      "loss": 1.278,
      "step": 124
    },
    {
      "epoch": 0.019501160319038983,
      "grad_norm": 0.3469449579715729,
      "learning_rate": 0.00019979028262377118,
      "loss": 1.602,
      "step": 125
    },
    {
      "epoch": 0.019657169601591296,
      "grad_norm": 0.2707567811012268,
      "learning_rate": 0.00019978181312410104,
      "loss": 1.3181,
      "step": 126
    },
    {
      "epoch": 0.019813178884143606,
      "grad_norm": 0.32349273562431335,
      "learning_rate": 0.00019977317615806737,
      "loss": 1.4862,
      "step": 127
    },
    {
      "epoch": 0.01996918816669592,
      "grad_norm": 0.24527911841869354,
      "learning_rate": 0.00019976437174016573,
      "loss": 1.169,
      "step": 128
    },
    {
      "epoch": 0.02012519744924823,
      "grad_norm": 0.2882062494754791,
      "learning_rate": 0.00019975539988517288,
      "loss": 1.275,
      "step": 129
    },
    {
      "epoch": 0.020281206731800543,
      "grad_norm": 0.3206437826156616,
      "learning_rate": 0.00019974626060814647,
      "loss": 1.682,
      "step": 130
    },
    {
      "epoch": 0.020437216014352853,
      "grad_norm": 0.3423447012901306,
      "learning_rate": 0.0001997369539244252,
      "loss": 1.2018,
      "step": 131
    },
    {
      "epoch": 0.020593225296905167,
      "grad_norm": 0.29081955552101135,
      "learning_rate": 0.0001997274798496287,
      "loss": 1.5849,
      "step": 132
    },
    {
      "epoch": 0.020749234579457477,
      "grad_norm": 0.2659798860549927,
      "learning_rate": 0.00019971783839965756,
      "loss": 1.1371,
      "step": 133
    },
    {
      "epoch": 0.02090524386200979,
      "grad_norm": 0.3395417034626007,
      "learning_rate": 0.00019970802959069328,
      "loss": 1.5046,
      "step": 134
    },
    {
      "epoch": 0.0210612531445621,
      "grad_norm": 0.22527103126049042,
      "learning_rate": 0.00019969805343919821,
      "loss": 1.0543,
      "step": 135
    },
    {
      "epoch": 0.021217262427114414,
      "grad_norm": 0.30680522322654724,
      "learning_rate": 0.0001996879099619156,
      "loss": 1.5067,
      "step": 136
    },
    {
      "epoch": 0.021373271709666724,
      "grad_norm": 0.22828875482082367,
      "learning_rate": 0.00019967759917586953,
      "loss": 1.1201,
      "step": 137
    },
    {
      "epoch": 0.021529280992219037,
      "grad_norm": 0.2578384280204773,
      "learning_rate": 0.00019966712109836476,
      "loss": 1.104,
      "step": 138
    },
    {
      "epoch": 0.021685290274771347,
      "grad_norm": 0.23175813257694244,
      "learning_rate": 0.000199656475746987,
      "loss": 0.9706,
      "step": 139
    },
    {
      "epoch": 0.02184129955732366,
      "grad_norm": 0.29308339953422546,
      "learning_rate": 0.00019964566313960264,
      "loss": 1.4769,
      "step": 140
    },
    {
      "epoch": 0.02199730883987597,
      "grad_norm": 0.3059382438659668,
      "learning_rate": 0.0001996346832943587,
      "loss": 1.4555,
      "step": 141
    },
    {
      "epoch": 0.022153318122428284,
      "grad_norm": 0.2929370701313019,
      "learning_rate": 0.00019962353622968295,
      "loss": 1.4051,
      "step": 142
    },
    {
      "epoch": 0.022309327404980598,
      "grad_norm": 0.24365079402923584,
      "learning_rate": 0.00019961222196428378,
      "loss": 1.189,
      "step": 143
    },
    {
      "epoch": 0.022465336687532908,
      "grad_norm": 0.27418485283851624,
      "learning_rate": 0.0001996007405171502,
      "loss": 1.206,
      "step": 144
    },
    {
      "epoch": 0.02262134597008522,
      "grad_norm": 0.2554856836795807,
      "learning_rate": 0.00019958909190755187,
      "loss": 1.4053,
      "step": 145
    },
    {
      "epoch": 0.02277735525263753,
      "grad_norm": 0.2674770951271057,
      "learning_rate": 0.00019957727615503888,
      "loss": 1.2412,
      "step": 146
    },
    {
      "epoch": 0.022933364535189845,
      "grad_norm": 0.3177204728126526,
      "learning_rate": 0.00019956529327944198,
      "loss": 1.4231,
      "step": 147
    },
    {
      "epoch": 0.023089373817742155,
      "grad_norm": 0.2678688168525696,
      "learning_rate": 0.00019955314330087225,
      "loss": 1.2494,
      "step": 148
    },
    {
      "epoch": 0.02324538310029447,
      "grad_norm": 0.28164568543434143,
      "learning_rate": 0.00019954082623972142,
      "loss": 1.2008,
      "step": 149
    },
    {
      "epoch": 0.02340139238284678,
      "grad_norm": 0.2897564172744751,
      "learning_rate": 0.0001995283421166614,
      "loss": 1.463,
      "step": 150
    },
    {
      "epoch": 0.023557401665399092,
      "grad_norm": 0.276509165763855,
      "learning_rate": 0.00019951569095264473,
      "loss": 1.4891,
      "step": 151
    },
    {
      "epoch": 0.023713410947951402,
      "grad_norm": 0.2585453689098358,
      "learning_rate": 0.0001995028727689041,
      "loss": 1.1551,
      "step": 152
    },
    {
      "epoch": 0.023869420230503716,
      "grad_norm": 0.25659292936325073,
      "learning_rate": 0.00019948988758695263,
      "loss": 1.1622,
      "step": 153
    },
    {
      "epoch": 0.024025429513056026,
      "grad_norm": 0.27132928371429443,
      "learning_rate": 0.00019947673542858367,
      "loss": 1.2015,
      "step": 154
    },
    {
      "epoch": 0.02418143879560834,
      "grad_norm": 0.2951599955558777,
      "learning_rate": 0.00019946341631587087,
      "loss": 1.1842,
      "step": 155
    },
    {
      "epoch": 0.02433744807816065,
      "grad_norm": 0.3114786148071289,
      "learning_rate": 0.00019944993027116797,
      "loss": 1.4509,
      "step": 156
    },
    {
      "epoch": 0.024493457360712963,
      "grad_norm": 0.25183674693107605,
      "learning_rate": 0.00019943627731710897,
      "loss": 1.1474,
      "step": 157
    },
    {
      "epoch": 0.024649466643265273,
      "grad_norm": 0.2717629075050354,
      "learning_rate": 0.00019942245747660796,
      "loss": 1.2899,
      "step": 158
    },
    {
      "epoch": 0.024805475925817586,
      "grad_norm": 0.2532605826854706,
      "learning_rate": 0.00019940847077285916,
      "loss": 1.0811,
      "step": 159
    },
    {
      "epoch": 0.0249614852083699,
      "grad_norm": 0.2951716482639313,
      "learning_rate": 0.0001993943172293368,
      "loss": 1.6252,
      "step": 160
    },
    {
      "epoch": 0.02511749449092221,
      "grad_norm": 0.29894542694091797,
      "learning_rate": 0.0001993799968697951,
      "loss": 1.3754,
      "step": 161
    },
    {
      "epoch": 0.025273503773474523,
      "grad_norm": 0.28648853302001953,
      "learning_rate": 0.00019936550971826834,
      "loss": 1.2769,
      "step": 162
    },
    {
      "epoch": 0.025429513056026833,
      "grad_norm": 0.2540144920349121,
      "learning_rate": 0.00019935085579907063,
      "loss": 1.281,
      "step": 163
    },
    {
      "epoch": 0.025585522338579147,
      "grad_norm": 0.30044910311698914,
      "learning_rate": 0.00019933603513679605,
      "loss": 1.1689,
      "step": 164
    },
    {
      "epoch": 0.025741531621131457,
      "grad_norm": 0.31799909472465515,
      "learning_rate": 0.00019932104775631846,
      "loss": 1.287,
      "step": 165
    },
    {
      "epoch": 0.02589754090368377,
      "grad_norm": 0.290565550327301,
      "learning_rate": 0.0001993058936827916,
      "loss": 1.4751,
      "step": 166
    },
    {
      "epoch": 0.02605355018623608,
      "grad_norm": 0.28967443108558655,
      "learning_rate": 0.00019929057294164893,
      "loss": 1.2459,
      "step": 167
    },
    {
      "epoch": 0.026209559468788394,
      "grad_norm": 0.25141966342926025,
      "learning_rate": 0.0001992750855586036,
      "loss": 1.1215,
      "step": 168
    },
    {
      "epoch": 0.026365568751340704,
      "grad_norm": 0.2819644808769226,
      "learning_rate": 0.00019925943155964856,
      "loss": 1.5238,
      "step": 169
    },
    {
      "epoch": 0.026521578033893017,
      "grad_norm": 0.2336016446352005,
      "learning_rate": 0.00019924361097105623,
      "loss": 1.2218,
      "step": 170
    },
    {
      "epoch": 0.026677587316445327,
      "grad_norm": 0.23773479461669922,
      "learning_rate": 0.00019922762381937878,
      "loss": 1.0842,
      "step": 171
    },
    {
      "epoch": 0.02683359659899764,
      "grad_norm": 0.266222208738327,
      "learning_rate": 0.0001992114701314478,
      "loss": 1.2076,
      "step": 172
    },
    {
      "epoch": 0.02698960588154995,
      "grad_norm": 0.29275181889533997,
      "learning_rate": 0.00019919514993437445,
      "loss": 1.3901,
      "step": 173
    },
    {
      "epoch": 0.027145615164102264,
      "grad_norm": 0.2334383726119995,
      "learning_rate": 0.00019917866325554938,
      "loss": 1.2012,
      "step": 174
    },
    {
      "epoch": 0.027301624446654574,
      "grad_norm": 0.293888121843338,
      "learning_rate": 0.00019916201012264254,
      "loss": 1.6131,
      "step": 175
    },
    {
      "epoch": 0.027457633729206888,
      "grad_norm": 0.3042750954627991,
      "learning_rate": 0.0001991451905636033,
      "loss": 1.3144,
      "step": 176
    },
    {
      "epoch": 0.027613643011759198,
      "grad_norm": 0.2652626633644104,
      "learning_rate": 0.00019912820460666044,
      "loss": 1.4368,
      "step": 177
    },
    {
      "epoch": 0.02776965229431151,
      "grad_norm": 0.28741374611854553,
      "learning_rate": 0.00019911105228032186,
      "loss": 1.4643,
      "step": 178
    },
    {
      "epoch": 0.027925661576863825,
      "grad_norm": 0.2808038890361786,
      "learning_rate": 0.00019909373361337476,
      "loss": 1.3013,
      "step": 179
    },
    {
      "epoch": 0.028081670859416135,
      "grad_norm": 0.22930848598480225,
      "learning_rate": 0.0001990762486348855,
      "loss": 1.0587,
      "step": 180
    },
    {
      "epoch": 0.02823768014196845,
      "grad_norm": 0.24289073050022125,
      "learning_rate": 0.00019905859737419956,
      "loss": 1.1174,
      "step": 181
    },
    {
      "epoch": 0.02839368942452076,
      "grad_norm": 0.2626672685146332,
      "learning_rate": 0.00019904077986094152,
      "loss": 1.1746,
      "step": 182
    },
    {
      "epoch": 0.028549698707073072,
      "grad_norm": 0.3174870014190674,
      "learning_rate": 0.00019902279612501493,
      "loss": 1.4464,
      "step": 183
    },
    {
      "epoch": 0.028705707989625382,
      "grad_norm": 0.2851637303829193,
      "learning_rate": 0.0001990046461966024,
      "loss": 1.3527,
      "step": 184
    },
    {
      "epoch": 0.028861717272177696,
      "grad_norm": 0.2576538622379303,
      "learning_rate": 0.00019898633010616542,
      "loss": 1.2546,
      "step": 185
    },
    {
      "epoch": 0.029017726554730006,
      "grad_norm": 0.2922312319278717,
      "learning_rate": 0.0001989678478844443,
      "loss": 1.1445,
      "step": 186
    },
    {
      "epoch": 0.02917373583728232,
      "grad_norm": 0.25312724709510803,
      "learning_rate": 0.00019894919956245824,
      "loss": 1.0533,
      "step": 187
    },
    {
      "epoch": 0.02932974511983463,
      "grad_norm": 0.3193413019180298,
      "learning_rate": 0.00019893038517150525,
      "loss": 1.655,
      "step": 188
    },
    {
      "epoch": 0.029485754402386943,
      "grad_norm": 0.26104092597961426,
      "learning_rate": 0.00019891140474316194,
      "loss": 1.5094,
      "step": 189
    },
    {
      "epoch": 0.029641763684939253,
      "grad_norm": 0.2679871916770935,
      "learning_rate": 0.00019889225830928365,
      "loss": 1.3535,
      "step": 190
    },
    {
      "epoch": 0.029797772967491566,
      "grad_norm": 0.2835332751274109,
      "learning_rate": 0.00019887294590200435,
      "loss": 1.647,
      "step": 191
    },
    {
      "epoch": 0.029953782250043876,
      "grad_norm": 0.2309991866350174,
      "learning_rate": 0.00019885346755373656,
      "loss": 1.1869,
      "step": 192
    },
    {
      "epoch": 0.03010979153259619,
      "grad_norm": 0.28801408410072327,
      "learning_rate": 0.00019883382329717128,
      "loss": 1.4037,
      "step": 193
    },
    {
      "epoch": 0.0302658008151485,
      "grad_norm": 0.309851735830307,
      "learning_rate": 0.00019881401316527793,
      "loss": 1.2832,
      "step": 194
    },
    {
      "epoch": 0.030421810097700813,
      "grad_norm": 0.27529048919677734,
      "learning_rate": 0.0001987940371913044,
      "loss": 1.5466,
      "step": 195
    },
    {
      "epoch": 0.030577819380253127,
      "grad_norm": 0.25759854912757874,
      "learning_rate": 0.00019877389540877687,
      "loss": 1.2432,
      "step": 196
    },
    {
      "epoch": 0.030733828662805437,
      "grad_norm": 0.27557173371315,
      "learning_rate": 0.0001987535878514998,
      "loss": 1.5681,
      "step": 197
    },
    {
      "epoch": 0.03088983794535775,
      "grad_norm": 0.25760918855667114,
      "learning_rate": 0.0001987331145535559,
      "loss": 1.3067,
      "step": 198
    },
    {
      "epoch": 0.03104584722791006,
      "grad_norm": 0.299180269241333,
      "learning_rate": 0.000198712475549306,
      "loss": 1.4642,
      "step": 199
    },
    {
      "epoch": 0.031201856510462374,
      "grad_norm": 0.2398681640625,
      "learning_rate": 0.00019869167087338907,
      "loss": 1.0748,
      "step": 200
    },
    {
      "epoch": 0.03135786579301469,
      "grad_norm": 0.2560211420059204,
      "learning_rate": 0.00019867070056072214,
      "loss": 1.2508,
      "step": 201
    },
    {
      "epoch": 0.031513875075566994,
      "grad_norm": 0.25509408116340637,
      "learning_rate": 0.00019864956464650025,
      "loss": 1.4073,
      "step": 202
    },
    {
      "epoch": 0.03166988435811931,
      "grad_norm": 0.27500587701797485,
      "learning_rate": 0.00019862826316619628,
      "loss": 1.3473,
      "step": 203
    },
    {
      "epoch": 0.03182589364067162,
      "grad_norm": 0.2923906445503235,
      "learning_rate": 0.0001986067961555611,
      "loss": 1.4293,
      "step": 204
    },
    {
      "epoch": 0.031981902923223934,
      "grad_norm": 0.24456267058849335,
      "learning_rate": 0.00019858516365062334,
      "loss": 1.2196,
      "step": 205
    },
    {
      "epoch": 0.03213791220577624,
      "grad_norm": 0.3021962344646454,
      "learning_rate": 0.00019856336568768935,
      "loss": 1.5066,
      "step": 206
    },
    {
      "epoch": 0.032293921488328554,
      "grad_norm": 0.2485729455947876,
      "learning_rate": 0.00019854140230334322,
      "loss": 1.2002,
      "step": 207
    },
    {
      "epoch": 0.03244993077088087,
      "grad_norm": 0.26055216789245605,
      "learning_rate": 0.0001985192735344467,
      "loss": 1.3207,
      "step": 208
    },
    {
      "epoch": 0.03260594005343318,
      "grad_norm": 0.2658592760562897,
      "learning_rate": 0.00019849697941813898,
      "loss": 0.9025,
      "step": 209
    },
    {
      "epoch": 0.03276194933598549,
      "grad_norm": 0.30481112003326416,
      "learning_rate": 0.00019847451999183694,
      "loss": 1.5238,
      "step": 210
    },
    {
      "epoch": 0.0329179586185378,
      "grad_norm": 0.28382736444473267,
      "learning_rate": 0.00019845189529323475,
      "loss": 1.3224,
      "step": 211
    },
    {
      "epoch": 0.033073967901090115,
      "grad_norm": 0.2757686972618103,
      "learning_rate": 0.00019842910536030403,
      "loss": 1.3672,
      "step": 212
    },
    {
      "epoch": 0.03322997718364243,
      "grad_norm": 0.2743508219718933,
      "learning_rate": 0.00019840615023129372,
      "loss": 1.3628,
      "step": 213
    },
    {
      "epoch": 0.03338598646619474,
      "grad_norm": 0.26412197947502136,
      "learning_rate": 0.00019838302994472997,
      "loss": 1.141,
      "step": 214
    },
    {
      "epoch": 0.03354199574874705,
      "grad_norm": 0.2859683632850647,
      "learning_rate": 0.0001983597445394162,
      "loss": 1.1566,
      "step": 215
    },
    {
      "epoch": 0.03369800503129936,
      "grad_norm": 0.24881964921951294,
      "learning_rate": 0.00019833629405443284,
      "loss": 1.2038,
      "step": 216
    },
    {
      "epoch": 0.033854014313851676,
      "grad_norm": 0.25597479939460754,
      "learning_rate": 0.0001983126785291375,
      "loss": 0.9913,
      "step": 217
    },
    {
      "epoch": 0.03401002359640399,
      "grad_norm": 0.26771095395088196,
      "learning_rate": 0.00019828889800316466,
      "loss": 1.5417,
      "step": 218
    },
    {
      "epoch": 0.034166032878956296,
      "grad_norm": 0.2678371071815491,
      "learning_rate": 0.00019826495251642578,
      "loss": 1.208,
      "step": 219
    },
    {
      "epoch": 0.03432204216150861,
      "grad_norm": 0.2947763204574585,
      "learning_rate": 0.00019824084210910925,
      "loss": 1.3908,
      "step": 220
    },
    {
      "epoch": 0.03447805144406092,
      "grad_norm": 0.2821643650531769,
      "learning_rate": 0.00019821656682168012,
      "loss": 1.6573,
      "step": 221
    },
    {
      "epoch": 0.034634060726613236,
      "grad_norm": 0.24507346749305725,
      "learning_rate": 0.00019819212669488026,
      "loss": 1.0647,
      "step": 222
    },
    {
      "epoch": 0.03479007000916554,
      "grad_norm": 0.2718466520309448,
      "learning_rate": 0.00019816752176972813,
      "loss": 1.3013,
      "step": 223
    },
    {
      "epoch": 0.034946079291717856,
      "grad_norm": 0.2902746796607971,
      "learning_rate": 0.0001981427520875188,
      "loss": 1.2212,
      "step": 224
    },
    {
      "epoch": 0.03510208857427017,
      "grad_norm": 0.25822389125823975,
      "learning_rate": 0.0001981178176898239,
      "loss": 1.4543,
      "step": 225
    },
    {
      "epoch": 0.03525809785682248,
      "grad_norm": 0.3506292700767517,
      "learning_rate": 0.00019809271861849145,
      "loss": 1.8549,
      "step": 226
    },
    {
      "epoch": 0.03541410713937479,
      "grad_norm": 0.2610777020454407,
      "learning_rate": 0.00019806745491564586,
      "loss": 1.3161,
      "step": 227
    },
    {
      "epoch": 0.0355701164219271,
      "grad_norm": 0.29803603887557983,
      "learning_rate": 0.0001980420266236878,
      "loss": 1.2983,
      "step": 228
    },
    {
      "epoch": 0.03572612570447942,
      "grad_norm": 0.24572676420211792,
      "learning_rate": 0.0001980164337852943,
      "loss": 1.291,
      "step": 229
    },
    {
      "epoch": 0.03588213498703173,
      "grad_norm": 0.25573092699050903,
      "learning_rate": 0.00019799067644341844,
      "loss": 1.3207,
      "step": 230
    },
    {
      "epoch": 0.036038144269584044,
      "grad_norm": 0.28766271471977234,
      "learning_rate": 0.00019796475464128942,
      "loss": 1.4527,
      "step": 231
    },
    {
      "epoch": 0.03619415355213635,
      "grad_norm": 0.2636454701423645,
      "learning_rate": 0.00019793866842241243,
      "loss": 1.3899,
      "step": 232
    },
    {
      "epoch": 0.036350162834688664,
      "grad_norm": 0.3094368577003479,
      "learning_rate": 0.00019791241783056874,
      "loss": 1.2935,
      "step": 233
    },
    {
      "epoch": 0.03650617211724098,
      "grad_norm": 0.2588469088077545,
      "learning_rate": 0.00019788600290981525,
      "loss": 1.2457,
      "step": 234
    },
    {
      "epoch": 0.03666218139979329,
      "grad_norm": 0.26457706093788147,
      "learning_rate": 0.0001978594237044849,
      "loss": 1.1753,
      "step": 235
    },
    {
      "epoch": 0.0368181906823456,
      "grad_norm": 0.2559141516685486,
      "learning_rate": 0.0001978326802591862,
      "loss": 1.2004,
      "step": 236
    },
    {
      "epoch": 0.03697419996489791,
      "grad_norm": 0.2815738320350647,
      "learning_rate": 0.00019780577261880336,
      "loss": 1.3706,
      "step": 237
    },
    {
      "epoch": 0.037130209247450224,
      "grad_norm": 0.2584588825702667,
      "learning_rate": 0.0001977787008284962,
      "loss": 1.4192,
      "step": 238
    },
    {
      "epoch": 0.03728621853000254,
      "grad_norm": 0.290865421295166,
      "learning_rate": 0.00019775146493369994,
      "loss": 1.2308,
      "step": 239
    },
    {
      "epoch": 0.037442227812554844,
      "grad_norm": 0.2788088023662567,
      "learning_rate": 0.0001977240649801253,
      "loss": 1.2095,
      "step": 240
    },
    {
      "epoch": 0.03759823709510716,
      "grad_norm": 0.28903988003730774,
      "learning_rate": 0.00019769650101375837,
      "loss": 1.5138,
      "step": 241
    },
    {
      "epoch": 0.03775424637765947,
      "grad_norm": 0.29985305666923523,
      "learning_rate": 0.00019766877308086036,
      "loss": 1.4594,
      "step": 242
    },
    {
      "epoch": 0.037910255660211785,
      "grad_norm": 0.3033303916454315,
      "learning_rate": 0.00019764088122796783,
      "loss": 1.6108,
      "step": 243
    },
    {
      "epoch": 0.03806626494276409,
      "grad_norm": 0.2854767143726349,
      "learning_rate": 0.0001976128255018924,
      "loss": 1.377,
      "step": 244
    },
    {
      "epoch": 0.038222274225316405,
      "grad_norm": 0.30725011229515076,
      "learning_rate": 0.00019758460594972068,
      "loss": 1.2651,
      "step": 245
    },
    {
      "epoch": 0.03837828350786872,
      "grad_norm": 0.28218191862106323,
      "learning_rate": 0.00019755622261881427,
      "loss": 1.4354,
      "step": 246
    },
    {
      "epoch": 0.03853429279042103,
      "grad_norm": 0.2794611155986786,
      "learning_rate": 0.00019752767555680968,
      "loss": 1.4666,
      "step": 247
    },
    {
      "epoch": 0.03869030207297334,
      "grad_norm": 0.2824796736240387,
      "learning_rate": 0.00019749896481161808,
      "loss": 1.3645,
      "step": 248
    },
    {
      "epoch": 0.03884631135552565,
      "grad_norm": 0.26165372133255005,
      "learning_rate": 0.00019747009043142555,
      "loss": 1.3445,
      "step": 249
    },
    {
      "epoch": 0.039002320638077966,
      "grad_norm": 0.29985979199409485,
      "learning_rate": 0.00019744105246469263,
      "loss": 1.4558,
      "step": 250
    },
    {
      "epoch": 0.03915832992063028,
      "grad_norm": 0.25439903140068054,
      "learning_rate": 0.00019741185096015448,
      "loss": 1.1075,
      "step": 251
    },
    {
      "epoch": 0.03931433920318259,
      "grad_norm": 0.2533755898475647,
      "learning_rate": 0.00019738248596682078,
      "loss": 1.0891,
      "step": 252
    },
    {
      "epoch": 0.0394703484857349,
      "grad_norm": 0.27487608790397644,
      "learning_rate": 0.0001973529575339755,
      "loss": 1.3128,
      "step": 253
    },
    {
      "epoch": 0.03962635776828721,
      "grad_norm": 0.27824172377586365,
      "learning_rate": 0.00019732326571117703,
      "loss": 1.4045,
      "step": 254
    },
    {
      "epoch": 0.039782367050839526,
      "grad_norm": 0.27959418296813965,
      "learning_rate": 0.00019729341054825782,
      "loss": 1.2169,
      "step": 255
    },
    {
      "epoch": 0.03993837633339184,
      "grad_norm": 0.3103275001049042,
      "learning_rate": 0.00019726339209532462,
      "loss": 1.3043,
      "step": 256
    },
    {
      "epoch": 0.040094385615944146,
      "grad_norm": 0.2712806463241577,
      "learning_rate": 0.00019723321040275815,
      "loss": 1.1747,
      "step": 257
    },
    {
      "epoch": 0.04025039489849646,
      "grad_norm": 0.2961602210998535,
      "learning_rate": 0.0001972028655212131,
      "loss": 1.5744,
      "step": 258
    },
    {
      "epoch": 0.04040640418104877,
      "grad_norm": 0.2686194181442261,
      "learning_rate": 0.00019717235750161806,
      "loss": 1.2442,
      "step": 259
    },
    {
      "epoch": 0.04056241346360109,
      "grad_norm": 0.2742723822593689,
      "learning_rate": 0.00019714168639517544,
      "loss": 1.3225,
      "step": 260
    },
    {
      "epoch": 0.04071842274615339,
      "grad_norm": 0.28742754459381104,
      "learning_rate": 0.00019711085225336132,
      "loss": 1.3711,
      "step": 261
    },
    {
      "epoch": 0.04087443202870571,
      "grad_norm": 0.30374589562416077,
      "learning_rate": 0.00019707985512792543,
      "loss": 1.215,
      "step": 262
    },
    {
      "epoch": 0.04103044131125802,
      "grad_norm": 0.2738686800003052,
      "learning_rate": 0.00019704869507089105,
      "loss": 1.4628,
      "step": 263
    },
    {
      "epoch": 0.041186450593810334,
      "grad_norm": 0.2695278823375702,
      "learning_rate": 0.0001970173721345549,
      "loss": 1.4632,
      "step": 264
    },
    {
      "epoch": 0.04134245987636264,
      "grad_norm": 0.2954547107219696,
      "learning_rate": 0.00019698588637148703,
      "loss": 1.2785,
      "step": 265
    },
    {
      "epoch": 0.041498469158914954,
      "grad_norm": 0.2756305932998657,
      "learning_rate": 0.00019695423783453088,
      "loss": 1.4258,
      "step": 266
    },
    {
      "epoch": 0.04165447844146727,
      "grad_norm": 0.2642769515514374,
      "learning_rate": 0.00019692242657680286,
      "loss": 1.3034,
      "step": 267
    },
    {
      "epoch": 0.04181048772401958,
      "grad_norm": 0.2760365307331085,
      "learning_rate": 0.00019689045265169273,
      "loss": 1.5845,
      "step": 268
    },
    {
      "epoch": 0.041966497006571894,
      "grad_norm": 0.23845522105693817,
      "learning_rate": 0.0001968583161128631,
      "loss": 1.113,
      "step": 269
    },
    {
      "epoch": 0.0421225062891242,
      "grad_norm": 0.2855961322784424,
      "learning_rate": 0.0001968260170142496,
      "loss": 1.4019,
      "step": 270
    },
    {
      "epoch": 0.042278515571676514,
      "grad_norm": 0.26462671160697937,
      "learning_rate": 0.00019679355541006054,
      "loss": 1.2425,
      "step": 271
    },
    {
      "epoch": 0.04243452485422883,
      "grad_norm": 0.28468820452690125,
      "learning_rate": 0.00019676093135477713,
      "loss": 1.6525,
      "step": 272
    },
    {
      "epoch": 0.04259053413678114,
      "grad_norm": 0.3233076333999634,
      "learning_rate": 0.0001967281449031531,
      "loss": 1.2168,
      "step": 273
    },
    {
      "epoch": 0.04274654341933345,
      "grad_norm": 0.2688952684402466,
      "learning_rate": 0.00019669519611021486,
      "loss": 1.3948,
      "step": 274
    },
    {
      "epoch": 0.04290255270188576,
      "grad_norm": 0.25911059975624084,
      "learning_rate": 0.00019666208503126112,
      "loss": 1.2875,
      "step": 275
    },
    {
      "epoch": 0.043058561984438075,
      "grad_norm": 0.2789272964000702,
      "learning_rate": 0.00019662881172186313,
      "loss": 1.257,
      "step": 276
    },
    {
      "epoch": 0.04321457126699039,
      "grad_norm": 0.26854726672172546,
      "learning_rate": 0.00019659537623786428,
      "loss": 1.4554,
      "step": 277
    },
    {
      "epoch": 0.043370580549542695,
      "grad_norm": 0.31813284754753113,
      "learning_rate": 0.00019656177863538026,
      "loss": 1.667,
      "step": 278
    },
    {
      "epoch": 0.04352658983209501,
      "grad_norm": 0.2801772356033325,
      "learning_rate": 0.00019652801897079869,
      "loss": 1.4555,
      "step": 279
    },
    {
      "epoch": 0.04368259911464732,
      "grad_norm": 0.30256757140159607,
      "learning_rate": 0.00019649409730077935,
      "loss": 1.2628,
      "step": 280
    },
    {
      "epoch": 0.043838608397199635,
      "grad_norm": 0.2807087302207947,
      "learning_rate": 0.00019646001368225382,
      "loss": 1.5143,
      "step": 281
    },
    {
      "epoch": 0.04399461767975194,
      "grad_norm": 0.27217531204223633,
      "learning_rate": 0.0001964257681724255,
      "loss": 1.5372,
      "step": 282
    },
    {
      "epoch": 0.044150626962304255,
      "grad_norm": 0.2996511459350586,
      "learning_rate": 0.00019639136082876953,
      "loss": 1.2692,
      "step": 283
    },
    {
      "epoch": 0.04430663624485657,
      "grad_norm": 0.263231098651886,
      "learning_rate": 0.00019635679170903258,
      "loss": 1.2328,
      "step": 284
    },
    {
      "epoch": 0.04446264552740888,
      "grad_norm": 0.3060413897037506,
      "learning_rate": 0.00019632206087123296,
      "loss": 1.5173,
      "step": 285
    },
    {
      "epoch": 0.044618654809961196,
      "grad_norm": 0.25136467814445496,
      "learning_rate": 0.00019628716837366027,
      "loss": 1.1781,
      "step": 286
    },
    {
      "epoch": 0.0447746640925135,
      "grad_norm": 0.27105534076690674,
      "learning_rate": 0.00019625211427487548,
      "loss": 1.4542,
      "step": 287
    },
    {
      "epoch": 0.044930673375065816,
      "grad_norm": 0.27552956342697144,
      "learning_rate": 0.00019621689863371083,
      "loss": 1.3352,
      "step": 288
    },
    {
      "epoch": 0.04508668265761813,
      "grad_norm": 0.26462072134017944,
      "learning_rate": 0.00019618152150926955,
      "loss": 1.2531,
      "step": 289
    },
    {
      "epoch": 0.04524269194017044,
      "grad_norm": 0.2736480236053467,
      "learning_rate": 0.000196145982960926,
      "loss": 1.402,
      "step": 290
    },
    {
      "epoch": 0.04539870122272275,
      "grad_norm": 0.2739974856376648,
      "learning_rate": 0.00019611028304832546,
      "loss": 1.4881,
      "step": 291
    },
    {
      "epoch": 0.04555471050527506,
      "grad_norm": 0.25353673100471497,
      "learning_rate": 0.000196074421831384,
      "loss": 1.3935,
      "step": 292
    },
    {
      "epoch": 0.04571071978782738,
      "grad_norm": 0.2595098614692688,
      "learning_rate": 0.00019603839937028838,
      "loss": 1.3306,
      "step": 293
    },
    {
      "epoch": 0.04586672907037969,
      "grad_norm": 0.27779051661491394,
      "learning_rate": 0.00019600221572549606,
      "loss": 1.5111,
      "step": 294
    },
    {
      "epoch": 0.046022738352932,
      "grad_norm": 0.26458942890167236,
      "learning_rate": 0.00019596587095773495,
      "loss": 1.1354,
      "step": 295
    },
    {
      "epoch": 0.04617874763548431,
      "grad_norm": 0.3711000084877014,
      "learning_rate": 0.00019592936512800342,
      "loss": 1.387,
      "step": 296
    },
    {
      "epoch": 0.046334756918036624,
      "grad_norm": 0.26172423362731934,
      "learning_rate": 0.00019589269829757008,
      "loss": 1.1995,
      "step": 297
    },
    {
      "epoch": 0.04649076620058894,
      "grad_norm": 0.30684447288513184,
      "learning_rate": 0.00019585587052797389,
      "loss": 1.2853,
      "step": 298
    },
    {
      "epoch": 0.046646775483141244,
      "grad_norm": 0.27383920550346375,
      "learning_rate": 0.00019581888188102375,
      "loss": 1.1397,
      "step": 299
    },
    {
      "epoch": 0.04680278476569356,
      "grad_norm": 0.28926682472229004,
      "learning_rate": 0.00019578173241879872,
      "loss": 1.2977,
      "step": 300
    },
    {
      "epoch": 0.04695879404824587,
      "grad_norm": 0.2573678195476532,
      "learning_rate": 0.00019574442220364767,
      "loss": 1.315,
      "step": 301
    },
    {
      "epoch": 0.047114803330798184,
      "grad_norm": 0.286785751581192,
      "learning_rate": 0.00019570695129818926,
      "loss": 1.196,
      "step": 302
    },
    {
      "epoch": 0.0472708126133505,
      "grad_norm": 0.26392433047294617,
      "learning_rate": 0.0001956693197653119,
      "loss": 1.067,
      "step": 303
    },
    {
      "epoch": 0.047426821895902804,
      "grad_norm": 0.29351645708084106,
      "learning_rate": 0.00019563152766817354,
      "loss": 1.2977,
      "step": 304
    },
    {
      "epoch": 0.04758283117845512,
      "grad_norm": 0.3556276857852936,
      "learning_rate": 0.00019559357507020162,
      "loss": 1.1268,
      "step": 305
    },
    {
      "epoch": 0.04773884046100743,
      "grad_norm": 0.3044413924217224,
      "learning_rate": 0.00019555546203509297,
      "loss": 1.3528,
      "step": 306
    },
    {
      "epoch": 0.047894849743559745,
      "grad_norm": 0.25455671548843384,
      "learning_rate": 0.00019551718862681364,
      "loss": 1.2099,
      "step": 307
    },
    {
      "epoch": 0.04805085902611205,
      "grad_norm": 0.2863021492958069,
      "learning_rate": 0.00019547875490959885,
      "loss": 1.514,
      "step": 308
    },
    {
      "epoch": 0.048206868308664365,
      "grad_norm": 0.2713131010532379,
      "learning_rate": 0.00019544016094795295,
      "loss": 1.2479,
      "step": 309
    },
    {
      "epoch": 0.04836287759121668,
      "grad_norm": 0.28673309087753296,
      "learning_rate": 0.00019540140680664913,
      "loss": 1.4822,
      "step": 310
    },
    {
      "epoch": 0.04851888687376899,
      "grad_norm": 0.28506314754486084,
      "learning_rate": 0.00019536249255072948,
      "loss": 1.1714,
      "step": 311
    },
    {
      "epoch": 0.0486748961563213,
      "grad_norm": 0.2814370393753052,
      "learning_rate": 0.00019532341824550479,
      "loss": 1.3045,
      "step": 312
    },
    {
      "epoch": 0.04883090543887361,
      "grad_norm": 0.2505611181259155,
      "learning_rate": 0.0001952841839565544,
      "loss": 1.1565,
      "step": 313
    },
    {
      "epoch": 0.048986914721425925,
      "grad_norm": 0.27159830927848816,
      "learning_rate": 0.0001952447897497263,
      "loss": 1.0939,
      "step": 314
    },
    {
      "epoch": 0.04914292400397824,
      "grad_norm": 0.27552008628845215,
      "learning_rate": 0.00019520523569113677,
      "loss": 1.4382,
      "step": 315
    },
    {
      "epoch": 0.049298933286530545,
      "grad_norm": 0.2567708492279053,
      "learning_rate": 0.00019516552184717037,
      "loss": 1.2241,
      "step": 316
    },
    {
      "epoch": 0.04945494256908286,
      "grad_norm": 0.27663713693618774,
      "learning_rate": 0.00019512564828447988,
      "loss": 1.2449,
      "step": 317
    },
    {
      "epoch": 0.04961095185163517,
      "grad_norm": 0.2683660089969635,
      "learning_rate": 0.0001950856150699861,
      "loss": 1.1652,
      "step": 318
    },
    {
      "epoch": 0.049766961134187486,
      "grad_norm": 0.25226572155952454,
      "learning_rate": 0.0001950454222708778,
      "loss": 1.1307,
      "step": 319
    },
    {
      "epoch": 0.0499229704167398,
      "grad_norm": 0.23380513489246368,
      "learning_rate": 0.0001950050699546116,
      "loss": 1.1257,
      "step": 320
    },
    {
      "epoch": 0.050078979699292106,
      "grad_norm": 0.2385280281305313,
      "learning_rate": 0.0001949645581889118,
      "loss": 0.9917,
      "step": 321
    },
    {
      "epoch": 0.05023498898184442,
      "grad_norm": 0.23746567964553833,
      "learning_rate": 0.00019492388704177036,
      "loss": 1.1364,
      "step": 322
    },
    {
      "epoch": 0.05039099826439673,
      "grad_norm": 0.27820831537246704,
      "learning_rate": 0.00019488305658144667,
      "loss": 1.3707,
      "step": 323
    },
    {
      "epoch": 0.050547007546949047,
      "grad_norm": 0.2663419544696808,
      "learning_rate": 0.00019484206687646753,
      "loss": 1.3662,
      "step": 324
    },
    {
      "epoch": 0.05070301682950135,
      "grad_norm": 0.27196773886680603,
      "learning_rate": 0.00019480091799562704,
      "loss": 1.2766,
      "step": 325
    },
    {
      "epoch": 0.05085902611205367,
      "grad_norm": 0.296779602766037,
      "learning_rate": 0.00019475961000798645,
      "loss": 1.5789,
      "step": 326
    },
    {
      "epoch": 0.05101503539460598,
      "grad_norm": 0.3267677128314972,
      "learning_rate": 0.0001947181429828739,
      "loss": 1.2782,
      "step": 327
    },
    {
      "epoch": 0.051171044677158294,
      "grad_norm": 0.2852894067764282,
      "learning_rate": 0.00019467651698988462,
      "loss": 1.1466,
      "step": 328
    },
    {
      "epoch": 0.0513270539597106,
      "grad_norm": 0.2959722876548767,
      "learning_rate": 0.0001946347320988806,
      "loss": 1.1929,
      "step": 329
    },
    {
      "epoch": 0.051483063242262914,
      "grad_norm": 0.25998443365097046,
      "learning_rate": 0.00019459278837999046,
      "loss": 1.4104,
      "step": 330
    },
    {
      "epoch": 0.05163907252481523,
      "grad_norm": 0.27319809794425964,
      "learning_rate": 0.00019455068590360942,
      "loss": 1.417,
      "step": 331
    },
    {
      "epoch": 0.05179508180736754,
      "grad_norm": 0.22395959496498108,
      "learning_rate": 0.00019450842474039913,
      "loss": 1.2159,
      "step": 332
    },
    {
      "epoch": 0.05195109108991985,
      "grad_norm": 0.24947980046272278,
      "learning_rate": 0.00019446600496128758,
      "loss": 1.1063,
      "step": 333
    },
    {
      "epoch": 0.05210710037247216,
      "grad_norm": 0.235429584980011,
      "learning_rate": 0.00019442342663746902,
      "loss": 1.2234,
      "step": 334
    },
    {
      "epoch": 0.052263109655024474,
      "grad_norm": 0.27443963289260864,
      "learning_rate": 0.00019438068984040365,
      "loss": 1.2038,
      "step": 335
    },
    {
      "epoch": 0.05241911893757679,
      "grad_norm": 0.26688772439956665,
      "learning_rate": 0.00019433779464181778,
      "loss": 1.2956,
      "step": 336
    },
    {
      "epoch": 0.052575128220129094,
      "grad_norm": 0.23804551362991333,
      "learning_rate": 0.00019429474111370352,
      "loss": 0.9525,
      "step": 337
    },
    {
      "epoch": 0.05273113750268141,
      "grad_norm": 0.262890487909317,
      "learning_rate": 0.0001942515293283187,
      "loss": 1.2713,
      "step": 338
    },
    {
      "epoch": 0.05288714678523372,
      "grad_norm": 0.29796820878982544,
      "learning_rate": 0.00019420815935818672,
      "loss": 1.5058,
      "step": 339
    },
    {
      "epoch": 0.053043156067786035,
      "grad_norm": 0.275143563747406,
      "learning_rate": 0.00019416463127609656,
      "loss": 1.2604,
      "step": 340
    },
    {
      "epoch": 0.05319916535033835,
      "grad_norm": 0.27801284193992615,
      "learning_rate": 0.00019412094515510248,
      "loss": 1.2588,
      "step": 341
    },
    {
      "epoch": 0.053355174632890655,
      "grad_norm": 0.2604374885559082,
      "learning_rate": 0.00019407710106852404,
      "loss": 1.1432,
      "step": 342
    },
    {
      "epoch": 0.05351118391544297,
      "grad_norm": 0.2863079011440277,
      "learning_rate": 0.00019403309908994586,
      "loss": 1.4854,
      "step": 343
    },
    {
      "epoch": 0.05366719319799528,
      "grad_norm": 0.2515758275985718,
      "learning_rate": 0.00019398893929321761,
      "loss": 1.1682,
      "step": 344
    },
    {
      "epoch": 0.053823202480547595,
      "grad_norm": 0.27037686109542847,
      "learning_rate": 0.00019394462175245381,
      "loss": 1.3679,
      "step": 345
    },
    {
      "epoch": 0.0539792117630999,
      "grad_norm": 0.2368054836988449,
      "learning_rate": 0.00019390014654203369,
      "loss": 1.1406,
      "step": 346
    },
    {
      "epoch": 0.054135221045652215,
      "grad_norm": 0.27759966254234314,
      "learning_rate": 0.0001938555137366011,
      "loss": 1.1669,
      "step": 347
    },
    {
      "epoch": 0.05429123032820453,
      "grad_norm": 0.3004835546016693,
      "learning_rate": 0.00019381072341106452,
      "loss": 1.4811,
      "step": 348
    },
    {
      "epoch": 0.05444723961075684,
      "grad_norm": 0.30656251311302185,
      "learning_rate": 0.0001937657756405966,
      "loss": 1.515,
      "step": 349
    },
    {
      "epoch": 0.05460324889330915,
      "grad_norm": 0.31442925333976746,
      "learning_rate": 0.00019372067050063438,
      "loss": 1.4848,
      "step": 350
    },
    {
      "epoch": 0.05475925817586146,
      "grad_norm": 0.2230207473039627,
      "learning_rate": 0.00019367540806687893,
      "loss": 0.9535,
      "step": 351
    },
    {
      "epoch": 0.054915267458413776,
      "grad_norm": 0.2552795708179474,
      "learning_rate": 0.0001936299884152954,
      "loss": 1.2254,
      "step": 352
    },
    {
      "epoch": 0.05507127674096609,
      "grad_norm": 0.29775241017341614,
      "learning_rate": 0.0001935844116221127,
      "loss": 1.3821,
      "step": 353
    },
    {
      "epoch": 0.055227286023518396,
      "grad_norm": 0.24480530619621277,
      "learning_rate": 0.00019353867776382354,
      "loss": 1.1073,
      "step": 354
    },
    {
      "epoch": 0.05538329530607071,
      "grad_norm": 0.2612270414829254,
      "learning_rate": 0.00019349278691718427,
      "loss": 1.3114,
      "step": 355
    },
    {
      "epoch": 0.05553930458862302,
      "grad_norm": 0.307085245847702,
      "learning_rate": 0.0001934467391592146,
      "loss": 1.3602,
      "step": 356
    },
    {
      "epoch": 0.055695313871175336,
      "grad_norm": 0.2688599228858948,
      "learning_rate": 0.00019340053456719768,
      "loss": 1.4347,
      "step": 357
    },
    {
      "epoch": 0.05585132315372765,
      "grad_norm": 0.25372791290283203,
      "learning_rate": 0.00019335417321867987,
      "loss": 1.3468,
      "step": 358
    },
    {
      "epoch": 0.05600733243627996,
      "grad_norm": 0.2706502377986908,
      "learning_rate": 0.0001933076551914706,
      "loss": 1.4489,
      "step": 359
    },
    {
      "epoch": 0.05616334171883227,
      "grad_norm": 0.22997525334358215,
      "learning_rate": 0.00019326098056364222,
      "loss": 1.1305,
      "step": 360
    },
    {
      "epoch": 0.056319351001384584,
      "grad_norm": 0.30573347210884094,
      "learning_rate": 0.00019321414941353003,
      "loss": 1.4231,
      "step": 361
    },
    {
      "epoch": 0.0564753602839369,
      "grad_norm": 0.30873847007751465,
      "learning_rate": 0.00019316716181973188,
      "loss": 1.3478,
      "step": 362
    },
    {
      "epoch": 0.056631369566489204,
      "grad_norm": 0.2514902651309967,
      "learning_rate": 0.00019312001786110828,
      "loss": 1.2094,
      "step": 363
    },
    {
      "epoch": 0.05678737884904152,
      "grad_norm": 0.26067742705345154,
      "learning_rate": 0.00019307271761678213,
      "loss": 1.5841,
      "step": 364
    },
    {
      "epoch": 0.05694338813159383,
      "grad_norm": 0.23508694767951965,
      "learning_rate": 0.00019302526116613864,
      "loss": 1.103,
      "step": 365
    },
    {
      "epoch": 0.057099397414146144,
      "grad_norm": 0.24878567457199097,
      "learning_rate": 0.00019297764858882514,
      "loss": 1.0968,
      "step": 366
    },
    {
      "epoch": 0.05725540669669845,
      "grad_norm": 0.23707476258277893,
      "learning_rate": 0.00019292987996475113,
      "loss": 1.0831,
      "step": 367
    },
    {
      "epoch": 0.057411415979250764,
      "grad_norm": 0.2691617012023926,
      "learning_rate": 0.0001928819553740878,
      "loss": 1.2254,
      "step": 368
    },
    {
      "epoch": 0.05756742526180308,
      "grad_norm": 0.26831138134002686,
      "learning_rate": 0.00019283387489726827,
      "loss": 1.3084,
      "step": 369
    },
    {
      "epoch": 0.05772343454435539,
      "grad_norm": 0.281770259141922,
      "learning_rate": 0.00019278563861498723,
      "loss": 1.3377,
      "step": 370
    },
    {
      "epoch": 0.0578794438269077,
      "grad_norm": 0.2634589970111847,
      "learning_rate": 0.00019273724660820088,
      "loss": 1.2648,
      "step": 371
    },
    {
      "epoch": 0.05803545310946001,
      "grad_norm": 0.27592259645462036,
      "learning_rate": 0.00019268869895812672,
      "loss": 1.2751,
      "step": 372
    },
    {
      "epoch": 0.058191462392012325,
      "grad_norm": 0.23107245564460754,
      "learning_rate": 0.00019263999574624355,
      "loss": 1.2651,
      "step": 373
    },
    {
      "epoch": 0.05834747167456464,
      "grad_norm": 0.2582552134990692,
      "learning_rate": 0.0001925911370542912,
      "loss": 1.4914,
      "step": 374
    },
    {
      "epoch": 0.05850348095711695,
      "grad_norm": 0.27152058482170105,
      "learning_rate": 0.00019254212296427044,
      "loss": 1.2227,
      "step": 375
    },
    {
      "epoch": 0.05865949023966926,
      "grad_norm": 0.23554329574108124,
      "learning_rate": 0.00019249295355844285,
      "loss": 1.4113,
      "step": 376
    },
    {
      "epoch": 0.05881549952222157,
      "grad_norm": 0.2793971300125122,
      "learning_rate": 0.00019244362891933077,
      "loss": 1.3325,
      "step": 377
    },
    {
      "epoch": 0.058971508804773885,
      "grad_norm": 0.2800885736942291,
      "learning_rate": 0.00019239414912971696,
      "loss": 1.358,
      "step": 378
    },
    {
      "epoch": 0.0591275180873262,
      "grad_norm": 0.27139201760292053,
      "learning_rate": 0.0001923445142726446,
      "loss": 1.2269,
      "step": 379
    },
    {
      "epoch": 0.059283527369878505,
      "grad_norm": 0.276579886674881,
      "learning_rate": 0.0001922947244314172,
      "loss": 1.1521,
      "step": 380
    },
    {
      "epoch": 0.05943953665243082,
      "grad_norm": 0.28917452692985535,
      "learning_rate": 0.0001922447796895982,
      "loss": 1.2803,
      "step": 381
    },
    {
      "epoch": 0.05959554593498313,
      "grad_norm": 0.28668197989463806,
      "learning_rate": 0.00019219468013101124,
      "loss": 1.4025,
      "step": 382
    },
    {
      "epoch": 0.059751555217535446,
      "grad_norm": 0.2973851263523102,
      "learning_rate": 0.00019214442583973966,
      "loss": 1.5472,
      "step": 383
    },
    {
      "epoch": 0.05990756450008775,
      "grad_norm": 0.25934460759162903,
      "learning_rate": 0.00019209401690012653,
      "loss": 1.2496,
      "step": 384
    },
    {
      "epoch": 0.060063573782640066,
      "grad_norm": 0.22885724902153015,
      "learning_rate": 0.00019204345339677442,
      "loss": 1.2088,
      "step": 385
    },
    {
      "epoch": 0.06021958306519238,
      "grad_norm": 0.28346025943756104,
      "learning_rate": 0.00019199273541454538,
      "loss": 1.1561,
      "step": 386
    },
    {
      "epoch": 0.06037559234774469,
      "grad_norm": 0.2574789822101593,
      "learning_rate": 0.00019194186303856067,
      "loss": 1.3209,
      "step": 387
    },
    {
      "epoch": 0.060531601630297,
      "grad_norm": 0.26535728573799133,
      "learning_rate": 0.00019189083635420075,
      "loss": 1.3022,
      "step": 388
    },
    {
      "epoch": 0.06068761091284931,
      "grad_norm": 0.2844642698764801,
      "learning_rate": 0.00019183965544710495,
      "loss": 1.3881,
      "step": 389
    },
    {
      "epoch": 0.060843620195401626,
      "grad_norm": 0.24562187492847443,
      "learning_rate": 0.00019178832040317155,
      "loss": 1.159,
      "step": 390
    },
    {
      "epoch": 0.06099962947795394,
      "grad_norm": 0.25778669118881226,
      "learning_rate": 0.0001917368313085574,
      "loss": 1.5154,
      "step": 391
    },
    {
      "epoch": 0.061155638760506253,
      "grad_norm": 0.22877171635627747,
      "learning_rate": 0.00019168518824967795,
      "loss": 1.201,
      "step": 392
    },
    {
      "epoch": 0.06131164804305856,
      "grad_norm": 0.2764502465724945,
      "learning_rate": 0.00019163339131320718,
      "loss": 1.4165,
      "step": 393
    },
    {
      "epoch": 0.061467657325610874,
      "grad_norm": 0.23493847250938416,
      "learning_rate": 0.00019158144058607708,
      "loss": 1.1334,
      "step": 394
    },
    {
      "epoch": 0.06162366660816319,
      "grad_norm": 0.2605098783969879,
      "learning_rate": 0.00019152933615547798,
      "loss": 1.1613,
      "step": 395
    },
    {
      "epoch": 0.0617796758907155,
      "grad_norm": 0.23720701038837433,
      "learning_rate": 0.000191477078108858,
      "loss": 1.1966,
      "step": 396
    },
    {
      "epoch": 0.06193568517326781,
      "grad_norm": 0.27043676376342773,
      "learning_rate": 0.00019142466653392318,
      "loss": 1.2793,
      "step": 397
    },
    {
      "epoch": 0.06209169445582012,
      "grad_norm": 0.27630025148391724,
      "learning_rate": 0.0001913721015186372,
      "loss": 1.3858,
      "step": 398
    },
    {
      "epoch": 0.062247703738372434,
      "grad_norm": 0.29454129934310913,
      "learning_rate": 0.0001913193831512213,
      "loss": 1.5234,
      "step": 399
    },
    {
      "epoch": 0.06240371302092475,
      "grad_norm": 0.26943233609199524,
      "learning_rate": 0.00019126651152015403,
      "loss": 1.3181,
      "step": 400
    },
    {
      "epoch": 0.06255972230347706,
      "grad_norm": 0.28831520676612854,
      "learning_rate": 0.0001912134867141712,
      "loss": 1.46,
      "step": 401
    },
    {
      "epoch": 0.06271573158602937,
      "grad_norm": 0.26342567801475525,
      "learning_rate": 0.0001911603088222657,
      "loss": 1.4073,
      "step": 402
    },
    {
      "epoch": 0.06287174086858167,
      "grad_norm": 0.2623300552368164,
      "learning_rate": 0.0001911069779336873,
      "loss": 1.3473,
      "step": 403
    },
    {
      "epoch": 0.06302775015113399,
      "grad_norm": 0.25125861167907715,
      "learning_rate": 0.00019105349413794272,
      "loss": 1.0346,
      "step": 404
    },
    {
      "epoch": 0.0631837594336863,
      "grad_norm": 0.30890092253685,
      "learning_rate": 0.00019099985752479506,
      "loss": 1.5751,
      "step": 405
    },
    {
      "epoch": 0.06333976871623861,
      "grad_norm": 0.31404733657836914,
      "learning_rate": 0.00019094606818426403,
      "loss": 1.5458,
      "step": 406
    },
    {
      "epoch": 0.06349577799879093,
      "grad_norm": 0.2684463858604431,
      "learning_rate": 0.00019089212620662568,
      "loss": 1.2342,
      "step": 407
    },
    {
      "epoch": 0.06365178728134324,
      "grad_norm": 0.2748461365699768,
      "learning_rate": 0.00019083803168241223,
      "loss": 1.3353,
      "step": 408
    },
    {
      "epoch": 0.06380779656389556,
      "grad_norm": 0.3061840832233429,
      "learning_rate": 0.00019078378470241183,
      "loss": 1.3197,
      "step": 409
    },
    {
      "epoch": 0.06396380584644787,
      "grad_norm": 0.25601011514663696,
      "learning_rate": 0.00019072938535766865,
      "loss": 1.3904,
      "step": 410
    },
    {
      "epoch": 0.06411981512900018,
      "grad_norm": 0.2844060957431793,
      "learning_rate": 0.00019067483373948243,
      "loss": 1.42,
      "step": 411
    },
    {
      "epoch": 0.06427582441155248,
      "grad_norm": 0.2969295382499695,
      "learning_rate": 0.00019062012993940859,
      "loss": 1.4255,
      "step": 412
    },
    {
      "epoch": 0.0644318336941048,
      "grad_norm": 0.2655050456523895,
      "learning_rate": 0.00019056527404925789,
      "loss": 1.1618,
      "step": 413
    },
    {
      "epoch": 0.06458784297665711,
      "grad_norm": 0.2571544349193573,
      "learning_rate": 0.00019051026616109638,
      "loss": 1.2064,
      "step": 414
    },
    {
      "epoch": 0.06474385225920942,
      "grad_norm": 0.29847028851509094,
      "learning_rate": 0.0001904551063672452,
      "loss": 1.2847,
      "step": 415
    },
    {
      "epoch": 0.06489986154176174,
      "grad_norm": 0.24265627562999725,
      "learning_rate": 0.00019039979476028043,
      "loss": 1.2745,
      "step": 416
    },
    {
      "epoch": 0.06505587082431405,
      "grad_norm": 0.24038730561733246,
      "learning_rate": 0.000190344331433033,
      "loss": 1.2761,
      "step": 417
    },
    {
      "epoch": 0.06521188010686636,
      "grad_norm": 0.26194193959236145,
      "learning_rate": 0.00019028871647858834,
      "loss": 1.5021,
      "step": 418
    },
    {
      "epoch": 0.06536788938941868,
      "grad_norm": 0.2636980712413788,
      "learning_rate": 0.00019023294999028653,
      "loss": 1.5029,
      "step": 419
    },
    {
      "epoch": 0.06552389867197098,
      "grad_norm": 0.26995277404785156,
      "learning_rate": 0.00019017703206172185,
      "loss": 1.3068,
      "step": 420
    },
    {
      "epoch": 0.06567990795452329,
      "grad_norm": 0.26835623383522034,
      "learning_rate": 0.0001901209627867428,
      "loss": 1.2868,
      "step": 421
    },
    {
      "epoch": 0.0658359172370756,
      "grad_norm": 0.24785400927066803,
      "learning_rate": 0.0001900647422594519,
      "loss": 1.1875,
      "step": 422
    },
    {
      "epoch": 0.06599192651962792,
      "grad_norm": 0.3184250593185425,
      "learning_rate": 0.0001900083705742054,
      "loss": 1.3802,
      "step": 423
    },
    {
      "epoch": 0.06614793580218023,
      "grad_norm": 0.2850029766559601,
      "learning_rate": 0.00018995184782561345,
      "loss": 1.3043,
      "step": 424
    },
    {
      "epoch": 0.06630394508473254,
      "grad_norm": 0.2940841317176819,
      "learning_rate": 0.00018989517410853955,
      "loss": 1.287,
      "step": 425
    },
    {
      "epoch": 0.06645995436728486,
      "grad_norm": 0.2668844163417816,
      "learning_rate": 0.0001898383495181007,
      "loss": 1.3723,
      "step": 426
    },
    {
      "epoch": 0.06661596364983717,
      "grad_norm": 0.2814147472381592,
      "learning_rate": 0.00018978137414966698,
      "loss": 1.2339,
      "step": 427
    },
    {
      "epoch": 0.06677197293238948,
      "grad_norm": 0.3722403049468994,
      "learning_rate": 0.0001897242480988617,
      "loss": 1.2755,
      "step": 428
    },
    {
      "epoch": 0.06692798221494178,
      "grad_norm": 0.2689428925514221,
      "learning_rate": 0.00018966697146156092,
      "loss": 1.4238,
      "step": 429
    },
    {
      "epoch": 0.0670839914974941,
      "grad_norm": 0.29616808891296387,
      "learning_rate": 0.00018960954433389345,
      "loss": 1.3167,
      "step": 430
    },
    {
      "epoch": 0.06724000078004641,
      "grad_norm": 0.2477925419807434,
      "learning_rate": 0.0001895519668122408,
      "loss": 1.1773,
      "step": 431
    },
    {
      "epoch": 0.06739601006259872,
      "grad_norm": 0.23961544036865234,
      "learning_rate": 0.0001894942389932367,
      "loss": 1.1387,
      "step": 432
    },
    {
      "epoch": 0.06755201934515104,
      "grad_norm": 0.26128751039505005,
      "learning_rate": 0.00018943636097376726,
      "loss": 1.0468,
      "step": 433
    },
    {
      "epoch": 0.06770802862770335,
      "grad_norm": 0.33279022574424744,
      "learning_rate": 0.00018937833285097066,
      "loss": 1.8791,
      "step": 434
    },
    {
      "epoch": 0.06786403791025566,
      "grad_norm": 0.2876769006252289,
      "learning_rate": 0.00018932015472223693,
      "loss": 1.3633,
      "step": 435
    },
    {
      "epoch": 0.06802004719280798,
      "grad_norm": 0.24108922481536865,
      "learning_rate": 0.00018926182668520792,
      "loss": 1.2012,
      "step": 436
    },
    {
      "epoch": 0.06817605647536028,
      "grad_norm": 0.29062169790267944,
      "learning_rate": 0.0001892033488377771,
      "loss": 1.3658,
      "step": 437
    },
    {
      "epoch": 0.06833206575791259,
      "grad_norm": 0.26536259055137634,
      "learning_rate": 0.0001891447212780893,
      "loss": 1.2464,
      "step": 438
    },
    {
      "epoch": 0.0684880750404649,
      "grad_norm": 0.2940811514854431,
      "learning_rate": 0.0001890859441045407,
      "loss": 1.4609,
      "step": 439
    },
    {
      "epoch": 0.06864408432301722,
      "grad_norm": 0.27625903487205505,
      "learning_rate": 0.0001890270174157784,
      "loss": 1.4098,
      "step": 440
    },
    {
      "epoch": 0.06880009360556953,
      "grad_norm": 0.2586573362350464,
      "learning_rate": 0.00018896794131070073,
      "loss": 1.3857,
      "step": 441
    },
    {
      "epoch": 0.06895610288812185,
      "grad_norm": 0.28287774324417114,
      "learning_rate": 0.0001889087158884565,
      "loss": 1.2967,
      "step": 442
    },
    {
      "epoch": 0.06911211217067416,
      "grad_norm": 0.2692122459411621,
      "learning_rate": 0.00018884934124844532,
      "loss": 1.5216,
      "step": 443
    },
    {
      "epoch": 0.06926812145322647,
      "grad_norm": 0.3004090189933777,
      "learning_rate": 0.00018878981749031716,
      "loss": 1.1913,
      "step": 444
    },
    {
      "epoch": 0.06942413073577879,
      "grad_norm": 0.253542423248291,
      "learning_rate": 0.00018873014471397224,
      "loss": 1.1299,
      "step": 445
    },
    {
      "epoch": 0.06958014001833109,
      "grad_norm": 0.3034575283527374,
      "learning_rate": 0.00018867032301956088,
      "loss": 1.3577,
      "step": 446
    },
    {
      "epoch": 0.0697361493008834,
      "grad_norm": 0.31302767992019653,
      "learning_rate": 0.00018861035250748343,
      "loss": 1.6029,
      "step": 447
    },
    {
      "epoch": 0.06989215858343571,
      "grad_norm": 0.26993393898010254,
      "learning_rate": 0.00018855023327838983,
      "loss": 1.2035,
      "step": 448
    },
    {
      "epoch": 0.07004816786598803,
      "grad_norm": 0.27148422598838806,
      "learning_rate": 0.00018848996543317982,
      "loss": 1.5843,
      "step": 449
    },
    {
      "epoch": 0.07020417714854034,
      "grad_norm": 0.2631765305995941,
      "learning_rate": 0.00018842954907300236,
      "loss": 1.2641,
      "step": 450
    },
    {
      "epoch": 0.07036018643109265,
      "grad_norm": 0.2621013820171356,
      "learning_rate": 0.00018836898429925585,
      "loss": 1.2167,
      "step": 451
    },
    {
      "epoch": 0.07051619571364497,
      "grad_norm": 0.25064215064048767,
      "learning_rate": 0.0001883082712135877,
      "loss": 1.2631,
      "step": 452
    },
    {
      "epoch": 0.07067220499619728,
      "grad_norm": 0.2558056712150574,
      "learning_rate": 0.00018824740991789415,
      "loss": 0.9964,
      "step": 453
    },
    {
      "epoch": 0.07082821427874958,
      "grad_norm": 0.2675093412399292,
      "learning_rate": 0.00018818640051432035,
      "loss": 1.4953,
      "step": 454
    },
    {
      "epoch": 0.07098422356130189,
      "grad_norm": 0.2550821006298065,
      "learning_rate": 0.0001881252431052599,
      "loss": 1.1283,
      "step": 455
    },
    {
      "epoch": 0.0711402328438542,
      "grad_norm": 0.24893717467784882,
      "learning_rate": 0.00018806393779335483,
      "loss": 1.1725,
      "step": 456
    },
    {
      "epoch": 0.07129624212640652,
      "grad_norm": 0.24471914768218994,
      "learning_rate": 0.00018800248468149543,
      "loss": 1.19,
      "step": 457
    },
    {
      "epoch": 0.07145225140895883,
      "grad_norm": 0.27745166420936584,
      "learning_rate": 0.00018794088387282,
      "loss": 1.6347,
      "step": 458
    },
    {
      "epoch": 0.07160826069151115,
      "grad_norm": 0.2930917739868164,
      "learning_rate": 0.00018787913547071484,
      "loss": 1.5139,
      "step": 459
    },
    {
      "epoch": 0.07176426997406346,
      "grad_norm": 0.2656380534172058,
      "learning_rate": 0.00018781723957881372,
      "loss": 1.1726,
      "step": 460
    },
    {
      "epoch": 0.07192027925661577,
      "grad_norm": 0.27983731031417847,
      "learning_rate": 0.0001877551963009982,
      "loss": 1.3818,
      "step": 461
    },
    {
      "epoch": 0.07207628853916809,
      "grad_norm": 0.2744976580142975,
      "learning_rate": 0.0001876930057413971,
      "loss": 1.2756,
      "step": 462
    },
    {
      "epoch": 0.07223229782172039,
      "grad_norm": 0.2684760093688965,
      "learning_rate": 0.00018763066800438636,
      "loss": 1.2302,
      "step": 463
    },
    {
      "epoch": 0.0723883071042727,
      "grad_norm": 0.25079357624053955,
      "learning_rate": 0.00018756818319458907,
      "loss": 1.1575,
      "step": 464
    },
    {
      "epoch": 0.07254431638682501,
      "grad_norm": 0.2802796959877014,
      "learning_rate": 0.000187505551416875,
      "loss": 1.3711,
      "step": 465
    },
    {
      "epoch": 0.07270032566937733,
      "grad_norm": 0.7640414237976074,
      "learning_rate": 0.0001874427727763607,
      "loss": 1.3431,
      "step": 466
    },
    {
      "epoch": 0.07285633495192964,
      "grad_norm": 0.265717089176178,
      "learning_rate": 0.0001873798473784092,
      "loss": 1.1778,
      "step": 467
    },
    {
      "epoch": 0.07301234423448195,
      "grad_norm": 0.23273074626922607,
      "learning_rate": 0.00018731677532862976,
      "loss": 1.02,
      "step": 468
    },
    {
      "epoch": 0.07316835351703427,
      "grad_norm": 0.248812735080719,
      "learning_rate": 0.00018725355673287778,
      "loss": 1.1423,
      "step": 469
    },
    {
      "epoch": 0.07332436279958658,
      "grad_norm": 0.24919858574867249,
      "learning_rate": 0.00018719019169725472,
      "loss": 1.2377,
      "step": 470
    },
    {
      "epoch": 0.07348037208213888,
      "grad_norm": 0.25503799319267273,
      "learning_rate": 0.00018712668032810768,
      "loss": 1.3236,
      "step": 471
    },
    {
      "epoch": 0.0736363813646912,
      "grad_norm": 0.28893566131591797,
      "learning_rate": 0.00018706302273202943,
      "loss": 1.4662,
      "step": 472
    },
    {
      "epoch": 0.07379239064724351,
      "grad_norm": 0.2384706735610962,
      "learning_rate": 0.00018699921901585813,
      "loss": 1.2817,
      "step": 473
    },
    {
      "epoch": 0.07394839992979582,
      "grad_norm": 0.2527397572994232,
      "learning_rate": 0.0001869352692866772,
      "loss": 1.1766,
      "step": 474
    },
    {
      "epoch": 0.07410440921234814,
      "grad_norm": 0.25340378284454346,
      "learning_rate": 0.00018687117365181512,
      "loss": 1.1876,
      "step": 475
    },
    {
      "epoch": 0.07426041849490045,
      "grad_norm": 0.2570219039916992,
      "learning_rate": 0.00018680693221884517,
      "loss": 1.3472,
      "step": 476
    },
    {
      "epoch": 0.07441642777745276,
      "grad_norm": 0.25267085433006287,
      "learning_rate": 0.00018674254509558544,
      "loss": 1.5048,
      "step": 477
    },
    {
      "epoch": 0.07457243706000508,
      "grad_norm": 0.24603790044784546,
      "learning_rate": 0.00018667801239009846,
      "loss": 1.276,
      "step": 478
    },
    {
      "epoch": 0.07472844634255738,
      "grad_norm": 0.2434520423412323,
      "learning_rate": 0.00018661333421069113,
      "loss": 1.3999,
      "step": 479
    },
    {
      "epoch": 0.07488445562510969,
      "grad_norm": 0.27032792568206787,
      "learning_rate": 0.00018654851066591448,
      "loss": 1.3909,
      "step": 480
    },
    {
      "epoch": 0.075040464907662,
      "grad_norm": 0.26559844613075256,
      "learning_rate": 0.00018648354186456348,
      "loss": 1.2931,
      "step": 481
    },
    {
      "epoch": 0.07519647419021432,
      "grad_norm": 0.2563202679157257,
      "learning_rate": 0.000186418427915677,
      "loss": 1.2773,
      "step": 482
    },
    {
      "epoch": 0.07535248347276663,
      "grad_norm": 0.2463751882314682,
      "learning_rate": 0.00018635316892853741,
      "loss": 1.4017,
      "step": 483
    },
    {
      "epoch": 0.07550849275531894,
      "grad_norm": 0.26452189683914185,
      "learning_rate": 0.00018628776501267052,
      "loss": 1.2236,
      "step": 484
    },
    {
      "epoch": 0.07566450203787126,
      "grad_norm": 0.48540955781936646,
      "learning_rate": 0.0001862222162778454,
      "loss": 1.1676,
      "step": 485
    },
    {
      "epoch": 0.07582051132042357,
      "grad_norm": 0.2931404411792755,
      "learning_rate": 0.0001861565228340742,
      "loss": 1.3877,
      "step": 486
    },
    {
      "epoch": 0.07597652060297588,
      "grad_norm": 0.2707270383834839,
      "learning_rate": 0.00018609068479161182,
      "loss": 1.2828,
      "step": 487
    },
    {
      "epoch": 0.07613252988552818,
      "grad_norm": 0.25902295112609863,
      "learning_rate": 0.00018602470226095603,
      "loss": 1.2393,
      "step": 488
    },
    {
      "epoch": 0.0762885391680805,
      "grad_norm": 0.27907291054725647,
      "learning_rate": 0.00018595857535284692,
      "loss": 1.1944,
      "step": 489
    },
    {
      "epoch": 0.07644454845063281,
      "grad_norm": 0.3079850375652313,
      "learning_rate": 0.00018589230417826697,
      "loss": 1.3686,
      "step": 490
    },
    {
      "epoch": 0.07660055773318512,
      "grad_norm": 0.250303715467453,
      "learning_rate": 0.00018582588884844084,
      "loss": 1.2497,
      "step": 491
    },
    {
      "epoch": 0.07675656701573744,
      "grad_norm": 0.260257750749588,
      "learning_rate": 0.00018575932947483502,
      "loss": 1.4186,
      "step": 492
    },
    {
      "epoch": 0.07691257629828975,
      "grad_norm": 0.2537723481655121,
      "learning_rate": 0.00018569262616915784,
      "loss": 1.28,
      "step": 493
    },
    {
      "epoch": 0.07706858558084206,
      "grad_norm": 0.21861004829406738,
      "learning_rate": 0.00018562577904335912,
      "loss": 0.9705,
      "step": 494
    },
    {
      "epoch": 0.07722459486339438,
      "grad_norm": 0.322566956281662,
      "learning_rate": 0.00018555878820963013,
      "loss": 1.4941,
      "step": 495
    },
    {
      "epoch": 0.07738060414594668,
      "grad_norm": 0.24904873967170715,
      "learning_rate": 0.00018549165378040327,
      "loss": 1.2277,
      "step": 496
    },
    {
      "epoch": 0.07753661342849899,
      "grad_norm": 0.2692057490348816,
      "learning_rate": 0.00018542437586835202,
      "loss": 1.3786,
      "step": 497
    },
    {
      "epoch": 0.0776926227110513,
      "grad_norm": 0.27876508235931396,
      "learning_rate": 0.00018535695458639056,
      "loss": 1.3822,
      "step": 498
    },
    {
      "epoch": 0.07784863199360362,
      "grad_norm": 0.2497495859861374,
      "learning_rate": 0.00018528939004767376,
      "loss": 1.1872,
      "step": 499
    },
    {
      "epoch": 0.07800464127615593,
      "grad_norm": 0.28155678510665894,
      "learning_rate": 0.00018522168236559695,
      "loss": 1.2253,
      "step": 500
    },
    {
      "epoch": 0.07800464127615593,
      "eval_loss": 1.3168833255767822,
      "eval_runtime": 110.9584,
      "eval_samples_per_second": 38.51,
      "eval_steps_per_second": 4.822,
      "step": 500
    },
    {
      "epoch": 0.07816065055870824,
      "grad_norm": 0.25162461400032043,
      "learning_rate": 0.0001851538316537956,
      "loss": 1.2308,
      "step": 501
    },
    {
      "epoch": 0.07831665984126056,
      "grad_norm": 0.33541133999824524,
      "learning_rate": 0.0001850858380261453,
      "loss": 1.2788,
      "step": 502
    },
    {
      "epoch": 0.07847266912381287,
      "grad_norm": 0.29069721698760986,
      "learning_rate": 0.00018501770159676156,
      "loss": 1.4186,
      "step": 503
    },
    {
      "epoch": 0.07862867840636519,
      "grad_norm": 0.24337412416934967,
      "learning_rate": 0.0001849494224799994,
      "loss": 1.2268,
      "step": 504
    },
    {
      "epoch": 0.07878468768891748,
      "grad_norm": 0.2503622770309448,
      "learning_rate": 0.00018488100079045344,
      "loss": 1.1121,
      "step": 505
    },
    {
      "epoch": 0.0789406969714698,
      "grad_norm": 0.3061240017414093,
      "learning_rate": 0.0001848124366429576,
      "loss": 1.4207,
      "step": 506
    },
    {
      "epoch": 0.07909670625402211,
      "grad_norm": 0.3209320902824402,
      "learning_rate": 0.00018474373015258473,
      "loss": 1.3531,
      "step": 507
    },
    {
      "epoch": 0.07925271553657443,
      "grad_norm": 0.26510298252105713,
      "learning_rate": 0.0001846748814346468,
      "loss": 1.1614,
      "step": 508
    },
    {
      "epoch": 0.07940872481912674,
      "grad_norm": 0.24753335118293762,
      "learning_rate": 0.00018460589060469425,
      "loss": 1.2711,
      "step": 509
    },
    {
      "epoch": 0.07956473410167905,
      "grad_norm": 0.2837298512458801,
      "learning_rate": 0.00018453675777851627,
      "loss": 1.2325,
      "step": 510
    },
    {
      "epoch": 0.07972074338423137,
      "grad_norm": 0.30447372794151306,
      "learning_rate": 0.00018446748307214019,
      "loss": 1.2425,
      "step": 511
    },
    {
      "epoch": 0.07987675266678368,
      "grad_norm": 0.27281391620635986,
      "learning_rate": 0.0001843980666018315,
      "loss": 1.3095,
      "step": 512
    },
    {
      "epoch": 0.08003276194933598,
      "grad_norm": 0.27750325202941895,
      "learning_rate": 0.00018432850848409363,
      "loss": 1.5124,
      "step": 513
    },
    {
      "epoch": 0.08018877123188829,
      "grad_norm": 0.32551145553588867,
      "learning_rate": 0.00018425880883566782,
      "loss": 1.5727,
      "step": 514
    },
    {
      "epoch": 0.0803447805144406,
      "grad_norm": 0.29455453157424927,
      "learning_rate": 0.0001841889677735327,
      "loss": 1.1937,
      "step": 515
    },
    {
      "epoch": 0.08050078979699292,
      "grad_norm": 0.271435022354126,
      "learning_rate": 0.00018411898541490434,
      "loss": 1.3523,
      "step": 516
    },
    {
      "epoch": 0.08065679907954523,
      "grad_norm": 0.28192776441574097,
      "learning_rate": 0.0001840488618772359,
      "loss": 1.4196,
      "step": 517
    },
    {
      "epoch": 0.08081280836209755,
      "grad_norm": 0.32622769474983215,
      "learning_rate": 0.00018397859727821748,
      "loss": 1.3939,
      "step": 518
    },
    {
      "epoch": 0.08096881764464986,
      "grad_norm": 0.26916465163230896,
      "learning_rate": 0.00018390819173577598,
      "loss": 1.315,
      "step": 519
    },
    {
      "epoch": 0.08112482692720217,
      "grad_norm": 0.2807716429233551,
      "learning_rate": 0.00018383764536807485,
      "loss": 1.4009,
      "step": 520
    },
    {
      "epoch": 0.08128083620975449,
      "grad_norm": 0.2609405517578125,
      "learning_rate": 0.00018376695829351377,
      "loss": 0.9599,
      "step": 521
    },
    {
      "epoch": 0.08143684549230679,
      "grad_norm": 0.27300071716308594,
      "learning_rate": 0.00018369613063072874,
      "loss": 1.2349,
      "step": 522
    },
    {
      "epoch": 0.0815928547748591,
      "grad_norm": 0.26670917868614197,
      "learning_rate": 0.00018362516249859163,
      "loss": 1.2895,
      "step": 523
    },
    {
      "epoch": 0.08174886405741141,
      "grad_norm": 0.2805304527282715,
      "learning_rate": 0.00018355405401621001,
      "loss": 1.3661,
      "step": 524
    },
    {
      "epoch": 0.08190487333996373,
      "grad_norm": 0.25124502182006836,
      "learning_rate": 0.00018348280530292713,
      "loss": 1.2215,
      "step": 525
    },
    {
      "epoch": 0.08206088262251604,
      "grad_norm": 0.2374117225408554,
      "learning_rate": 0.00018341141647832147,
      "loss": 1.1662,
      "step": 526
    },
    {
      "epoch": 0.08221689190506835,
      "grad_norm": 0.2681942582130432,
      "learning_rate": 0.00018333988766220676,
      "loss": 1.3256,
      "step": 527
    },
    {
      "epoch": 0.08237290118762067,
      "grad_norm": 0.26264506578445435,
      "learning_rate": 0.0001832682189746316,
      "loss": 1.1417,
      "step": 528
    },
    {
      "epoch": 0.08252891047017298,
      "grad_norm": 0.2661115527153015,
      "learning_rate": 0.00018319641053587938,
      "loss": 1.2202,
      "step": 529
    },
    {
      "epoch": 0.08268491975272528,
      "grad_norm": 0.23459146916866302,
      "learning_rate": 0.0001831244624664681,
      "loss": 1.0511,
      "step": 530
    },
    {
      "epoch": 0.0828409290352776,
      "grad_norm": 0.31903690099716187,
      "learning_rate": 0.00018305237488714995,
      "loss": 1.565,
      "step": 531
    },
    {
      "epoch": 0.08299693831782991,
      "grad_norm": 0.28528186678886414,
      "learning_rate": 0.00018298014791891137,
      "loss": 1.5023,
      "step": 532
    },
    {
      "epoch": 0.08315294760038222,
      "grad_norm": 0.2572003901004791,
      "learning_rate": 0.00018290778168297277,
      "loss": 1.1518,
      "step": 533
    },
    {
      "epoch": 0.08330895688293453,
      "grad_norm": 0.27797260880470276,
      "learning_rate": 0.00018283527630078825,
      "loss": 1.344,
      "step": 534
    },
    {
      "epoch": 0.08346496616548685,
      "grad_norm": 0.3142591416835785,
      "learning_rate": 0.0001827626318940454,
      "loss": 1.4126,
      "step": 535
    },
    {
      "epoch": 0.08362097544803916,
      "grad_norm": 0.2703491151332855,
      "learning_rate": 0.00018268984858466522,
      "loss": 1.2156,
      "step": 536
    },
    {
      "epoch": 0.08377698473059147,
      "grad_norm": 0.29505112767219543,
      "learning_rate": 0.00018261692649480175,
      "loss": 1.421,
      "step": 537
    },
    {
      "epoch": 0.08393299401314379,
      "grad_norm": 0.2756875157356262,
      "learning_rate": 0.00018254386574684204,
      "loss": 1.4858,
      "step": 538
    },
    {
      "epoch": 0.08408900329569609,
      "grad_norm": 0.2744990885257721,
      "learning_rate": 0.0001824706664634058,
      "loss": 1.3441,
      "step": 539
    },
    {
      "epoch": 0.0842450125782484,
      "grad_norm": 0.2834165096282959,
      "learning_rate": 0.00018239732876734527,
      "loss": 1.4142,
      "step": 540
    },
    {
      "epoch": 0.08440102186080072,
      "grad_norm": 0.2717669904232025,
      "learning_rate": 0.0001823238527817449,
      "loss": 1.3199,
      "step": 541
    },
    {
      "epoch": 0.08455703114335303,
      "grad_norm": 0.26433441042900085,
      "learning_rate": 0.00018225023862992142,
      "loss": 1.3197,
      "step": 542
    },
    {
      "epoch": 0.08471304042590534,
      "grad_norm": 0.27460265159606934,
      "learning_rate": 0.00018217648643542323,
      "loss": 1.216,
      "step": 543
    },
    {
      "epoch": 0.08486904970845766,
      "grad_norm": 0.26642194390296936,
      "learning_rate": 0.0001821025963220306,
      "loss": 1.1716,
      "step": 544
    },
    {
      "epoch": 0.08502505899100997,
      "grad_norm": 0.2999640703201294,
      "learning_rate": 0.00018202856841375518,
      "loss": 1.394,
      "step": 545
    },
    {
      "epoch": 0.08518106827356228,
      "grad_norm": 0.2676008641719818,
      "learning_rate": 0.00018195440283483988,
      "loss": 1.2725,
      "step": 546
    },
    {
      "epoch": 0.08533707755611458,
      "grad_norm": 0.26116111874580383,
      "learning_rate": 0.0001818800997097587,
      "loss": 1.329,
      "step": 547
    },
    {
      "epoch": 0.0854930868386669,
      "grad_norm": 0.26923874020576477,
      "learning_rate": 0.00018180565916321647,
      "loss": 1.2228,
      "step": 548
    },
    {
      "epoch": 0.08564909612121921,
      "grad_norm": 0.2784603536128998,
      "learning_rate": 0.0001817310813201486,
      "loss": 1.1249,
      "step": 549
    },
    {
      "epoch": 0.08580510540377152,
      "grad_norm": 0.27981552481651306,
      "learning_rate": 0.0001816563663057211,
      "loss": 1.2778,
      "step": 550
    },
    {
      "epoch": 0.08596111468632384,
      "grad_norm": 0.2464422732591629,
      "learning_rate": 0.00018158151424533002,
      "loss": 1.0316,
      "step": 551
    },
    {
      "epoch": 0.08611712396887615,
      "grad_norm": 0.23159442842006683,
      "learning_rate": 0.00018150652526460146,
      "loss": 0.9794,
      "step": 552
    },
    {
      "epoch": 0.08627313325142846,
      "grad_norm": 0.28374752402305603,
      "learning_rate": 0.00018143139948939137,
      "loss": 1.0572,
      "step": 553
    },
    {
      "epoch": 0.08642914253398078,
      "grad_norm": 0.28464943170547485,
      "learning_rate": 0.00018135613704578526,
      "loss": 1.024,
      "step": 554
    },
    {
      "epoch": 0.08658515181653309,
      "grad_norm": 0.23248714208602905,
      "learning_rate": 0.000181280738060098,
      "loss": 0.9151,
      "step": 555
    },
    {
      "epoch": 0.08674116109908539,
      "grad_norm": 0.2613517940044403,
      "learning_rate": 0.00018120520265887363,
      "loss": 1.2155,
      "step": 556
    },
    {
      "epoch": 0.0868971703816377,
      "grad_norm": 0.2925867438316345,
      "learning_rate": 0.00018112953096888516,
      "loss": 1.2136,
      "step": 557
    },
    {
      "epoch": 0.08705317966419002,
      "grad_norm": 0.3145943582057953,
      "learning_rate": 0.00018105372311713432,
      "loss": 1.4368,
      "step": 558
    },
    {
      "epoch": 0.08720918894674233,
      "grad_norm": 0.29513052105903625,
      "learning_rate": 0.0001809777792308513,
      "loss": 1.4516,
      "step": 559
    },
    {
      "epoch": 0.08736519822929464,
      "grad_norm": 0.22099293768405914,
      "learning_rate": 0.00018090169943749476,
      "loss": 1.0234,
      "step": 560
    },
    {
      "epoch": 0.08752120751184696,
      "grad_norm": 0.24346297979354858,
      "learning_rate": 0.0001808254838647513,
      "loss": 1.3492,
      "step": 561
    },
    {
      "epoch": 0.08767721679439927,
      "grad_norm": 0.2770818769931793,
      "learning_rate": 0.00018074913264053545,
      "loss": 1.4692,
      "step": 562
    },
    {
      "epoch": 0.08783322607695158,
      "grad_norm": 0.2789641320705414,
      "learning_rate": 0.00018067264589298945,
      "loss": 1.3942,
      "step": 563
    },
    {
      "epoch": 0.08798923535950388,
      "grad_norm": 0.2892186939716339,
      "learning_rate": 0.00018059602375048293,
      "loss": 1.3621,
      "step": 564
    },
    {
      "epoch": 0.0881452446420562,
      "grad_norm": 0.28431588411331177,
      "learning_rate": 0.00018051926634161282,
      "loss": 1.3073,
      "step": 565
    },
    {
      "epoch": 0.08830125392460851,
      "grad_norm": 0.3204723000526428,
      "learning_rate": 0.00018044237379520305,
      "loss": 1.8154,
      "step": 566
    },
    {
      "epoch": 0.08845726320716082,
      "grad_norm": 0.2658674716949463,
      "learning_rate": 0.0001803653462403043,
      "loss": 1.1807,
      "step": 567
    },
    {
      "epoch": 0.08861327248971314,
      "grad_norm": 0.2409079521894455,
      "learning_rate": 0.0001802881838061939,
      "loss": 1.2165,
      "step": 568
    },
    {
      "epoch": 0.08876928177226545,
      "grad_norm": 0.25896573066711426,
      "learning_rate": 0.00018021088662237552,
      "loss": 1.1993,
      "step": 569
    },
    {
      "epoch": 0.08892529105481776,
      "grad_norm": 0.27663204073905945,
      "learning_rate": 0.00018013345481857903,
      "loss": 1.1241,
      "step": 570
    },
    {
      "epoch": 0.08908130033737008,
      "grad_norm": 0.2892790734767914,
      "learning_rate": 0.00018005588852476015,
      "loss": 1.6163,
      "step": 571
    },
    {
      "epoch": 0.08923730961992239,
      "grad_norm": 0.30898550152778625,
      "learning_rate": 0.00017997818787110042,
      "loss": 1.2483,
      "step": 572
    },
    {
      "epoch": 0.08939331890247469,
      "grad_norm": 0.23732271790504456,
      "learning_rate": 0.0001799003529880068,
      "loss": 1.1204,
      "step": 573
    },
    {
      "epoch": 0.089549328185027,
      "grad_norm": 0.2597337067127228,
      "learning_rate": 0.0001798223840061116,
      "loss": 1.258,
      "step": 574
    },
    {
      "epoch": 0.08970533746757932,
      "grad_norm": 0.31342512369155884,
      "learning_rate": 0.00017974428105627208,
      "loss": 1.4074,
      "step": 575
    },
    {
      "epoch": 0.08986134675013163,
      "grad_norm": 0.30252331495285034,
      "learning_rate": 0.00017966604426957047,
      "loss": 1.2059,
      "step": 576
    },
    {
      "epoch": 0.09001735603268395,
      "grad_norm": 0.29326415061950684,
      "learning_rate": 0.00017958767377731358,
      "loss": 1.4294,
      "step": 577
    },
    {
      "epoch": 0.09017336531523626,
      "grad_norm": 0.2915484607219696,
      "learning_rate": 0.00017950916971103259,
      "loss": 1.3728,
      "step": 578
    },
    {
      "epoch": 0.09032937459778857,
      "grad_norm": 0.2966526746749878,
      "learning_rate": 0.00017943053220248283,
      "loss": 1.5332,
      "step": 579
    },
    {
      "epoch": 0.09048538388034089,
      "grad_norm": 0.24311012029647827,
      "learning_rate": 0.0001793517613836437,
      "loss": 1.1254,
      "step": 580
    },
    {
      "epoch": 0.09064139316289319,
      "grad_norm": 0.2950594127178192,
      "learning_rate": 0.00017927285738671825,
      "loss": 1.7255,
      "step": 581
    },
    {
      "epoch": 0.0907974024454455,
      "grad_norm": 0.24679097533226013,
      "learning_rate": 0.00017919382034413305,
      "loss": 1.2781,
      "step": 582
    },
    {
      "epoch": 0.09095341172799781,
      "grad_norm": 0.2747292220592499,
      "learning_rate": 0.00017911465038853805,
      "loss": 1.3434,
      "step": 583
    },
    {
      "epoch": 0.09110942101055013,
      "grad_norm": 0.30099523067474365,
      "learning_rate": 0.00017903534765280614,
      "loss": 1.4518,
      "step": 584
    },
    {
      "epoch": 0.09126543029310244,
      "grad_norm": 0.2866073548793793,
      "learning_rate": 0.00017895591227003315,
      "loss": 1.1706,
      "step": 585
    },
    {
      "epoch": 0.09142143957565475,
      "grad_norm": 0.28832805156707764,
      "learning_rate": 0.00017887634437353754,
      "loss": 1.2271,
      "step": 586
    },
    {
      "epoch": 0.09157744885820707,
      "grad_norm": 0.3714962601661682,
      "learning_rate": 0.00017879664409686008,
      "loss": 1.4474,
      "step": 587
    },
    {
      "epoch": 0.09173345814075938,
      "grad_norm": 0.30591243505477905,
      "learning_rate": 0.00017871681157376383,
      "loss": 1.0327,
      "step": 588
    },
    {
      "epoch": 0.0918894674233117,
      "grad_norm": 0.3032775819301605,
      "learning_rate": 0.00017863684693823374,
      "loss": 1.6824,
      "step": 589
    },
    {
      "epoch": 0.092045476705864,
      "grad_norm": 0.26961666345596313,
      "learning_rate": 0.00017855675032447648,
      "loss": 1.1249,
      "step": 590
    },
    {
      "epoch": 0.0922014859884163,
      "grad_norm": 0.2679152488708496,
      "learning_rate": 0.00017847652186692026,
      "loss": 1.2182,
      "step": 591
    },
    {
      "epoch": 0.09235749527096862,
      "grad_norm": 0.24089114367961884,
      "learning_rate": 0.00017839616170021452,
      "loss": 1.1095,
      "step": 592
    },
    {
      "epoch": 0.09251350455352093,
      "grad_norm": 0.25100457668304443,
      "learning_rate": 0.00017831566995922985,
      "loss": 1.1441,
      "step": 593
    },
    {
      "epoch": 0.09266951383607325,
      "grad_norm": 0.2766099274158478,
      "learning_rate": 0.0001782350467790575,
      "loss": 1.1893,
      "step": 594
    },
    {
      "epoch": 0.09282552311862556,
      "grad_norm": 0.2666013240814209,
      "learning_rate": 0.00017815429229500946,
      "loss": 1.1802,
      "step": 595
    },
    {
      "epoch": 0.09298153240117787,
      "grad_norm": 0.28148403763771057,
      "learning_rate": 0.00017807340664261802,
      "loss": 1.3232,
      "step": 596
    },
    {
      "epoch": 0.09313754168373019,
      "grad_norm": 0.23684674501419067,
      "learning_rate": 0.00017799238995763568,
      "loss": 1.1869,
      "step": 597
    },
    {
      "epoch": 0.09329355096628249,
      "grad_norm": 0.2614571154117584,
      "learning_rate": 0.00017791124237603477,
      "loss": 1.4023,
      "step": 598
    },
    {
      "epoch": 0.0934495602488348,
      "grad_norm": 0.3051559329032898,
      "learning_rate": 0.00017782996403400736,
      "loss": 1.407,
      "step": 599
    },
    {
      "epoch": 0.09360556953138711,
      "grad_norm": 0.2745681405067444,
      "learning_rate": 0.00017774855506796496,
      "loss": 1.3265,
      "step": 600
    },
    {
      "epoch": 0.09376157881393943,
      "grad_norm": 0.2689257860183716,
      "learning_rate": 0.0001776670156145383,
      "loss": 1.3046,
      "step": 601
    },
    {
      "epoch": 0.09391758809649174,
      "grad_norm": 0.29333195090293884,
      "learning_rate": 0.00017758534581057718,
      "loss": 1.2624,
      "step": 602
    },
    {
      "epoch": 0.09407359737904405,
      "grad_norm": 0.30287420749664307,
      "learning_rate": 0.00017750354579315004,
      "loss": 1.28,
      "step": 603
    },
    {
      "epoch": 0.09422960666159637,
      "grad_norm": 0.27796801924705505,
      "learning_rate": 0.00017742161569954398,
      "loss": 1.3305,
      "step": 604
    },
    {
      "epoch": 0.09438561594414868,
      "grad_norm": 0.2703540325164795,
      "learning_rate": 0.0001773395556672644,
      "loss": 1.4356,
      "step": 605
    },
    {
      "epoch": 0.094541625226701,
      "grad_norm": 0.26395589113235474,
      "learning_rate": 0.0001772573658340347,
      "loss": 1.1984,
      "step": 606
    },
    {
      "epoch": 0.0946976345092533,
      "grad_norm": 0.2784560024738312,
      "learning_rate": 0.0001771750463377962,
      "loss": 1.3625,
      "step": 607
    },
    {
      "epoch": 0.09485364379180561,
      "grad_norm": 0.31962451338768005,
      "learning_rate": 0.00017709259731670774,
      "loss": 1.3956,
      "step": 608
    },
    {
      "epoch": 0.09500965307435792,
      "grad_norm": 0.274460107088089,
      "learning_rate": 0.00017701001890914572,
      "loss": 1.3071,
      "step": 609
    },
    {
      "epoch": 0.09516566235691024,
      "grad_norm": 0.25924167037010193,
      "learning_rate": 0.00017692731125370354,
      "loss": 1.034,
      "step": 610
    },
    {
      "epoch": 0.09532167163946255,
      "grad_norm": 0.3091680705547333,
      "learning_rate": 0.00017684447448919154,
      "loss": 1.4134,
      "step": 611
    },
    {
      "epoch": 0.09547768092201486,
      "grad_norm": 0.25753480195999146,
      "learning_rate": 0.00017676150875463686,
      "loss": 1.2074,
      "step": 612
    },
    {
      "epoch": 0.09563369020456718,
      "grad_norm": 0.27256032824516296,
      "learning_rate": 0.0001766784141892829,
      "loss": 1.3758,
      "step": 613
    },
    {
      "epoch": 0.09578969948711949,
      "grad_norm": 0.24764277040958405,
      "learning_rate": 0.0001765951909325895,
      "loss": 1.0436,
      "step": 614
    },
    {
      "epoch": 0.09594570876967179,
      "grad_norm": 0.2722652554512024,
      "learning_rate": 0.00017651183912423228,
      "loss": 1.3623,
      "step": 615
    },
    {
      "epoch": 0.0961017180522241,
      "grad_norm": 0.27056217193603516,
      "learning_rate": 0.0001764283589041028,
      "loss": 1.2525,
      "step": 616
    },
    {
      "epoch": 0.09625772733477642,
      "grad_norm": 0.27987945079803467,
      "learning_rate": 0.00017634475041230797,
      "loss": 1.5075,
      "step": 617
    },
    {
      "epoch": 0.09641373661732873,
      "grad_norm": 0.29397958517074585,
      "learning_rate": 0.00017626101378917004,
      "loss": 1.3681,
      "step": 618
    },
    {
      "epoch": 0.09656974589988104,
      "grad_norm": 0.2876337766647339,
      "learning_rate": 0.0001761771491752264,
      "loss": 1.5848,
      "step": 619
    },
    {
      "epoch": 0.09672575518243336,
      "grad_norm": 0.237448051571846,
      "learning_rate": 0.0001760931567112291,
      "loss": 1.0918,
      "step": 620
    },
    {
      "epoch": 0.09688176446498567,
      "grad_norm": 0.29513096809387207,
      "learning_rate": 0.0001760090365381449,
      "loss": 1.3236,
      "step": 621
    },
    {
      "epoch": 0.09703777374753798,
      "grad_norm": 0.263920396566391,
      "learning_rate": 0.0001759247887971548,
      "loss": 1.4573,
      "step": 622
    },
    {
      "epoch": 0.0971937830300903,
      "grad_norm": 0.31876271963119507,
      "learning_rate": 0.00017584041362965396,
      "loss": 1.3874,
      "step": 623
    },
    {
      "epoch": 0.0973497923126426,
      "grad_norm": 0.30635690689086914,
      "learning_rate": 0.0001757559111772513,
      "loss": 1.2355,
      "step": 624
    },
    {
      "epoch": 0.09750580159519491,
      "grad_norm": 0.25926241278648376,
      "learning_rate": 0.00017567128158176953,
      "loss": 1.2641,
      "step": 625
    },
    {
      "epoch": 0.09766181087774722,
      "grad_norm": 0.2862091660499573,
      "learning_rate": 0.0001755865249852446,
      "loss": 1.3818,
      "step": 626
    },
    {
      "epoch": 0.09781782016029954,
      "grad_norm": 0.2540535628795624,
      "learning_rate": 0.00017550164152992573,
      "loss": 1.3807,
      "step": 627
    },
    {
      "epoch": 0.09797382944285185,
      "grad_norm": 0.30917900800704956,
      "learning_rate": 0.00017541663135827492,
      "loss": 1.1053,
      "step": 628
    },
    {
      "epoch": 0.09812983872540416,
      "grad_norm": 0.30465036630630493,
      "learning_rate": 0.000175331494612967,
      "loss": 1.4489,
      "step": 629
    },
    {
      "epoch": 0.09828584800795648,
      "grad_norm": 0.3043782711029053,
      "learning_rate": 0.00017524623143688902,
      "loss": 1.4544,
      "step": 630
    },
    {
      "epoch": 0.09844185729050879,
      "grad_norm": 0.2681322991847992,
      "learning_rate": 0.00017516084197314046,
      "loss": 1.1926,
      "step": 631
    },
    {
      "epoch": 0.09859786657306109,
      "grad_norm": 0.33450305461883545,
      "learning_rate": 0.00017507532636503256,
      "loss": 1.4383,
      "step": 632
    },
    {
      "epoch": 0.0987538758556134,
      "grad_norm": 0.2626807987689972,
      "learning_rate": 0.00017498968475608838,
      "loss": 1.1565,
      "step": 633
    },
    {
      "epoch": 0.09890988513816572,
      "grad_norm": 0.2553156912326813,
      "learning_rate": 0.00017490391729004244,
      "loss": 1.1327,
      "step": 634
    },
    {
      "epoch": 0.09906589442071803,
      "grad_norm": 0.23390045762062073,
      "learning_rate": 0.00017481802411084042,
      "loss": 0.9856,
      "step": 635
    },
    {
      "epoch": 0.09922190370327034,
      "grad_norm": 0.29881760478019714,
      "learning_rate": 0.00017473200536263905,
      "loss": 1.362,
      "step": 636
    },
    {
      "epoch": 0.09937791298582266,
      "grad_norm": 0.2904150187969208,
      "learning_rate": 0.0001746458611898058,
      "loss": 1.242,
      "step": 637
    },
    {
      "epoch": 0.09953392226837497,
      "grad_norm": 0.24842409789562225,
      "learning_rate": 0.00017455959173691863,
      "loss": 1.2694,
      "step": 638
    },
    {
      "epoch": 0.09968993155092729,
      "grad_norm": 0.3337212800979614,
      "learning_rate": 0.00017447319714876579,
      "loss": 1.2554,
      "step": 639
    },
    {
      "epoch": 0.0998459408334796,
      "grad_norm": 0.24105407297611237,
      "learning_rate": 0.00017438667757034546,
      "loss": 1.0582,
      "step": 640
    },
    {
      "epoch": 0.1000019501160319,
      "grad_norm": 0.24266989529132843,
      "learning_rate": 0.00017430003314686569,
      "loss": 1.2125,
      "step": 641
    },
    {
      "epoch": 0.10015795939858421,
      "grad_norm": 0.2654808461666107,
      "learning_rate": 0.00017421326402374405,
      "loss": 1.3229,
      "step": 642
    },
    {
      "epoch": 0.10031396868113653,
      "grad_norm": 0.21931445598602295,
      "learning_rate": 0.00017412637034660734,
      "loss": 1.1168,
      "step": 643
    },
    {
      "epoch": 0.10046997796368884,
      "grad_norm": 0.28860512375831604,
      "learning_rate": 0.0001740393522612915,
      "loss": 1.3681,
      "step": 644
    },
    {
      "epoch": 0.10062598724624115,
      "grad_norm": 0.2736460566520691,
      "learning_rate": 0.0001739522099138411,
      "loss": 1.4054,
      "step": 645
    },
    {
      "epoch": 0.10078199652879347,
      "grad_norm": 0.23222267627716064,
      "learning_rate": 0.00017386494345050942,
      "loss": 1.0973,
      "step": 646
    },
    {
      "epoch": 0.10093800581134578,
      "grad_norm": 0.2684474587440491,
      "learning_rate": 0.000173777553017758,
      "loss": 1.0637,
      "step": 647
    },
    {
      "epoch": 0.10109401509389809,
      "grad_norm": 0.2648880183696747,
      "learning_rate": 0.00017369003876225642,
      "loss": 1.5162,
      "step": 648
    },
    {
      "epoch": 0.10125002437645039,
      "grad_norm": 0.26263687014579773,
      "learning_rate": 0.00017360240083088213,
      "loss": 1.3613,
      "step": 649
    },
    {
      "epoch": 0.1014060336590027,
      "grad_norm": 0.2455459088087082,
      "learning_rate": 0.00017351463937072004,
      "loss": 1.3927,
      "step": 650
    },
    {
      "epoch": 0.10156204294155502,
      "grad_norm": 0.273078590631485,
      "learning_rate": 0.00017342675452906248,
      "loss": 1.2485,
      "step": 651
    },
    {
      "epoch": 0.10171805222410733,
      "grad_norm": 0.24480541050434113,
      "learning_rate": 0.00017333874645340884,
      "loss": 1.0656,
      "step": 652
    },
    {
      "epoch": 0.10187406150665965,
      "grad_norm": 0.24994470179080963,
      "learning_rate": 0.0001732506152914653,
      "loss": 1.3653,
      "step": 653
    },
    {
      "epoch": 0.10203007078921196,
      "grad_norm": 0.26110485196113586,
      "learning_rate": 0.00017316236119114463,
      "loss": 1.392,
      "step": 654
    },
    {
      "epoch": 0.10218608007176427,
      "grad_norm": 0.30197709798812866,
      "learning_rate": 0.00017307398430056593,
      "loss": 1.5184,
      "step": 655
    },
    {
      "epoch": 0.10234208935431659,
      "grad_norm": 0.26577743887901306,
      "learning_rate": 0.00017298548476805446,
      "loss": 1.4611,
      "step": 656
    },
    {
      "epoch": 0.10249809863686889,
      "grad_norm": 0.2677333950996399,
      "learning_rate": 0.00017289686274214118,
      "loss": 1.3282,
      "step": 657
    },
    {
      "epoch": 0.1026541079194212,
      "grad_norm": 0.2508523762226105,
      "learning_rate": 0.00017280811837156268,
      "loss": 1.1331,
      "step": 658
    },
    {
      "epoch": 0.10281011720197351,
      "grad_norm": 0.24873429536819458,
      "learning_rate": 0.00017271925180526094,
      "loss": 1.1351,
      "step": 659
    },
    {
      "epoch": 0.10296612648452583,
      "grad_norm": 0.2559413015842438,
      "learning_rate": 0.00017263026319238301,
      "loss": 1.245,
      "step": 660
    },
    {
      "epoch": 0.10312213576707814,
      "grad_norm": 0.29988738894462585,
      "learning_rate": 0.0001725411526822807,
      "loss": 1.4004,
      "step": 661
    },
    {
      "epoch": 0.10327814504963045,
      "grad_norm": 0.29719191789627075,
      "learning_rate": 0.0001724519204245105,
      "loss": 1.5687,
      "step": 662
    },
    {
      "epoch": 0.10343415433218277,
      "grad_norm": 0.30810216069221497,
      "learning_rate": 0.0001723625665688331,
      "loss": 1.3712,
      "step": 663
    },
    {
      "epoch": 0.10359016361473508,
      "grad_norm": 0.2754259407520294,
      "learning_rate": 0.00017227309126521348,
      "loss": 1.2083,
      "step": 664
    },
    {
      "epoch": 0.1037461728972874,
      "grad_norm": 0.26548734307289124,
      "learning_rate": 0.00017218349466382023,
      "loss": 1.2657,
      "step": 665
    },
    {
      "epoch": 0.1039021821798397,
      "grad_norm": 0.26369354128837585,
      "learning_rate": 0.00017209377691502565,
      "loss": 1.3359,
      "step": 666
    },
    {
      "epoch": 0.10405819146239201,
      "grad_norm": 0.2526211440563202,
      "learning_rate": 0.0001720039381694053,
      "loss": 1.0633,
      "step": 667
    },
    {
      "epoch": 0.10421420074494432,
      "grad_norm": 0.2874252498149872,
      "learning_rate": 0.00017191397857773788,
      "loss": 1.2833,
      "step": 668
    },
    {
      "epoch": 0.10437021002749663,
      "grad_norm": 0.26982390880584717,
      "learning_rate": 0.00017182389829100485,
      "loss": 1.1843,
      "step": 669
    },
    {
      "epoch": 0.10452621931004895,
      "grad_norm": 0.29615074396133423,
      "learning_rate": 0.00017173369746039025,
      "loss": 1.2992,
      "step": 670
    },
    {
      "epoch": 0.10468222859260126,
      "grad_norm": 0.29073938727378845,
      "learning_rate": 0.00017164337623728045,
      "loss": 1.5432,
      "step": 671
    },
    {
      "epoch": 0.10483823787515358,
      "grad_norm": 0.2858506143093109,
      "learning_rate": 0.00017155293477326384,
      "loss": 1.4446,
      "step": 672
    },
    {
      "epoch": 0.10499424715770589,
      "grad_norm": 0.2399512678384781,
      "learning_rate": 0.00017146237322013068,
      "loss": 1.1643,
      "step": 673
    },
    {
      "epoch": 0.10515025644025819,
      "grad_norm": 0.2796498239040375,
      "learning_rate": 0.00017137169172987268,
      "loss": 1.3158,
      "step": 674
    },
    {
      "epoch": 0.1053062657228105,
      "grad_norm": 0.26859599351882935,
      "learning_rate": 0.00017128089045468294,
      "loss": 1.1761,
      "step": 675
    },
    {
      "epoch": 0.10546227500536282,
      "grad_norm": 0.2749616503715515,
      "learning_rate": 0.00017118996954695553,
      "loss": 1.0586,
      "step": 676
    },
    {
      "epoch": 0.10561828428791513,
      "grad_norm": 0.27312207221984863,
      "learning_rate": 0.00017109892915928535,
      "loss": 1.1367,
      "step": 677
    },
    {
      "epoch": 0.10577429357046744,
      "grad_norm": 0.29626578092575073,
      "learning_rate": 0.00017100776944446781,
      "loss": 1.4223,
      "step": 678
    },
    {
      "epoch": 0.10593030285301976,
      "grad_norm": 0.24335867166519165,
      "learning_rate": 0.00017091649055549855,
      "loss": 1.1041,
      "step": 679
    },
    {
      "epoch": 0.10608631213557207,
      "grad_norm": 0.3017411530017853,
      "learning_rate": 0.0001708250926455733,
      "loss": 1.2854,
      "step": 680
    },
    {
      "epoch": 0.10624232141812438,
      "grad_norm": 0.2864495515823364,
      "learning_rate": 0.00017073357586808752,
      "loss": 1.2539,
      "step": 681
    },
    {
      "epoch": 0.1063983307006767,
      "grad_norm": 0.27407294511795044,
      "learning_rate": 0.0001706419403766361,
      "loss": 1.3136,
      "step": 682
    },
    {
      "epoch": 0.106554339983229,
      "grad_norm": 0.3100734055042267,
      "learning_rate": 0.00017055018632501325,
      "loss": 1.3231,
      "step": 683
    },
    {
      "epoch": 0.10671034926578131,
      "grad_norm": 0.3091520071029663,
      "learning_rate": 0.00017045831386721213,
      "loss": 1.3513,
      "step": 684
    },
    {
      "epoch": 0.10686635854833362,
      "grad_norm": 0.2930145561695099,
      "learning_rate": 0.00017036632315742462,
      "loss": 1.3292,
      "step": 685
    },
    {
      "epoch": 0.10702236783088594,
      "grad_norm": 0.30808883905410767,
      "learning_rate": 0.00017027421435004112,
      "loss": 1.6094,
      "step": 686
    },
    {
      "epoch": 0.10717837711343825,
      "grad_norm": 0.2715398073196411,
      "learning_rate": 0.00017018198759965016,
      "loss": 1.3641,
      "step": 687
    },
    {
      "epoch": 0.10733438639599056,
      "grad_norm": 0.2844456732273102,
      "learning_rate": 0.00017008964306103823,
      "loss": 1.3933,
      "step": 688
    },
    {
      "epoch": 0.10749039567854288,
      "grad_norm": 0.258504718542099,
      "learning_rate": 0.00016999718088918955,
      "loss": 1.0621,
      "step": 689
    },
    {
      "epoch": 0.10764640496109519,
      "grad_norm": 0.28674831986427307,
      "learning_rate": 0.00016990460123928575,
      "loss": 1.2759,
      "step": 690
    },
    {
      "epoch": 0.10780241424364749,
      "grad_norm": 0.3062899708747864,
      "learning_rate": 0.0001698119042667056,
      "loss": 1.1537,
      "step": 691
    },
    {
      "epoch": 0.1079584235261998,
      "grad_norm": 0.2539708614349365,
      "learning_rate": 0.00016971909012702483,
      "loss": 1.1463,
      "step": 692
    },
    {
      "epoch": 0.10811443280875212,
      "grad_norm": 0.30207210779190063,
      "learning_rate": 0.00016962615897601573,
      "loss": 1.4219,
      "step": 693
    },
    {
      "epoch": 0.10827044209130443,
      "grad_norm": 0.28675806522369385,
      "learning_rate": 0.00016953311096964705,
      "loss": 1.1476,
      "step": 694
    },
    {
      "epoch": 0.10842645137385674,
      "grad_norm": 0.33274316787719727,
      "learning_rate": 0.00016943994626408363,
      "loss": 1.3351,
      "step": 695
    },
    {
      "epoch": 0.10858246065640906,
      "grad_norm": 0.2725004553794861,
      "learning_rate": 0.00016934666501568617,
      "loss": 1.1795,
      "step": 696
    },
    {
      "epoch": 0.10873846993896137,
      "grad_norm": 0.29064077138900757,
      "learning_rate": 0.00016925326738101098,
      "loss": 1.4255,
      "step": 697
    },
    {
      "epoch": 0.10889447922151368,
      "grad_norm": 0.3007811903953552,
      "learning_rate": 0.00016915975351680968,
      "loss": 1.1951,
      "step": 698
    },
    {
      "epoch": 0.109050488504066,
      "grad_norm": 0.26098549365997314,
      "learning_rate": 0.000169066123580029,
      "loss": 1.0585,
      "step": 699
    },
    {
      "epoch": 0.1092064977866183,
      "grad_norm": 0.36355966329574585,
      "learning_rate": 0.00016897237772781044,
      "loss": 1.2911,
      "step": 700
    },
    {
      "epoch": 0.10936250706917061,
      "grad_norm": 0.2830749750137329,
      "learning_rate": 0.00016887851611749005,
      "loss": 1.4469,
      "step": 701
    },
    {
      "epoch": 0.10951851635172292,
      "grad_norm": 0.3175537884235382,
      "learning_rate": 0.00016878453890659814,
      "loss": 1.4589,
      "step": 702
    },
    {
      "epoch": 0.10967452563427524,
      "grad_norm": 0.2898159623146057,
      "learning_rate": 0.0001686904462528591,
      "loss": 1.4318,
      "step": 703
    },
    {
      "epoch": 0.10983053491682755,
      "grad_norm": 0.28991106152534485,
      "learning_rate": 0.000168596238314191,
      "loss": 1.3293,
      "step": 704
    },
    {
      "epoch": 0.10998654419937987,
      "grad_norm": 0.27654772996902466,
      "learning_rate": 0.00016850191524870546,
      "loss": 1.4909,
      "step": 705
    },
    {
      "epoch": 0.11014255348193218,
      "grad_norm": 0.29537513852119446,
      "learning_rate": 0.00016840747721470731,
      "loss": 1.4512,
      "step": 706
    },
    {
      "epoch": 0.11029856276448449,
      "grad_norm": 0.2656291723251343,
      "learning_rate": 0.00016831292437069427,
      "loss": 1.0375,
      "step": 707
    },
    {
      "epoch": 0.11045457204703679,
      "grad_norm": 0.3286688029766083,
      "learning_rate": 0.00016821825687535674,
      "loss": 1.3478,
      "step": 708
    },
    {
      "epoch": 0.1106105813295891,
      "grad_norm": 0.2618601322174072,
      "learning_rate": 0.00016812347488757772,
      "loss": 1.3448,
      "step": 709
    },
    {
      "epoch": 0.11076659061214142,
      "grad_norm": 0.29108762741088867,
      "learning_rate": 0.00016802857856643215,
      "loss": 1.3479,
      "step": 710
    },
    {
      "epoch": 0.11092259989469373,
      "grad_norm": 0.3029685914516449,
      "learning_rate": 0.00016793356807118695,
      "loss": 1.2162,
      "step": 711
    },
    {
      "epoch": 0.11107860917724605,
      "grad_norm": 0.2573980689048767,
      "learning_rate": 0.00016783844356130071,
      "loss": 1.0927,
      "step": 712
    },
    {
      "epoch": 0.11123461845979836,
      "grad_norm": 0.2836451828479767,
      "learning_rate": 0.0001677432051964233,
      "loss": 1.2136,
      "step": 713
    },
    {
      "epoch": 0.11139062774235067,
      "grad_norm": 0.2437037229537964,
      "learning_rate": 0.0001676478531363957,
      "loss": 1.0671,
      "step": 714
    },
    {
      "epoch": 0.11154663702490299,
      "grad_norm": 0.2603608965873718,
      "learning_rate": 0.00016755238754124965,
      "loss": 1.2128,
      "step": 715
    },
    {
      "epoch": 0.1117026463074553,
      "grad_norm": 0.2617943286895752,
      "learning_rate": 0.00016745680857120757,
      "loss": 1.3305,
      "step": 716
    },
    {
      "epoch": 0.1118586555900076,
      "grad_norm": 0.27264609932899475,
      "learning_rate": 0.00016736111638668204,
      "loss": 1.3456,
      "step": 717
    },
    {
      "epoch": 0.11201466487255991,
      "grad_norm": 0.33472567796707153,
      "learning_rate": 0.00016726531114827573,
      "loss": 1.2517,
      "step": 718
    },
    {
      "epoch": 0.11217067415511223,
      "grad_norm": 0.2825791835784912,
      "learning_rate": 0.00016716939301678098,
      "loss": 1.3156,
      "step": 719
    },
    {
      "epoch": 0.11232668343766454,
      "grad_norm": 0.2815983295440674,
      "learning_rate": 0.00016707336215317968,
      "loss": 1.2376,
      "step": 720
    },
    {
      "epoch": 0.11248269272021685,
      "grad_norm": 0.3158409595489502,
      "learning_rate": 0.00016697721871864284,
      "loss": 1.5252,
      "step": 721
    },
    {
      "epoch": 0.11263870200276917,
      "grad_norm": 0.27121129631996155,
      "learning_rate": 0.00016688096287453046,
      "loss": 1.3603,
      "step": 722
    },
    {
      "epoch": 0.11279471128532148,
      "grad_norm": 0.2568758428096771,
      "learning_rate": 0.00016678459478239118,
      "loss": 1.1337,
      "step": 723
    },
    {
      "epoch": 0.1129507205678738,
      "grad_norm": 0.26672929525375366,
      "learning_rate": 0.00016668811460396202,
      "loss": 1.1728,
      "step": 724
    },
    {
      "epoch": 0.1131067298504261,
      "grad_norm": 0.2683919370174408,
      "learning_rate": 0.00016659152250116812,
      "loss": 1.2833,
      "step": 725
    },
    {
      "epoch": 0.11326273913297841,
      "grad_norm": 0.2757527232170105,
      "learning_rate": 0.00016649481863612248,
      "loss": 1.0544,
      "step": 726
    },
    {
      "epoch": 0.11341874841553072,
      "grad_norm": 0.2571371793746948,
      "learning_rate": 0.0001663980031711257,
      "loss": 1.1212,
      "step": 727
    },
    {
      "epoch": 0.11357475769808303,
      "grad_norm": 0.2757047116756439,
      "learning_rate": 0.00016630107626866558,
      "loss": 1.1771,
      "step": 728
    },
    {
      "epoch": 0.11373076698063535,
      "grad_norm": 0.262979120016098,
      "learning_rate": 0.00016620403809141705,
      "loss": 0.9962,
      "step": 729
    },
    {
      "epoch": 0.11388677626318766,
      "grad_norm": 0.26567909121513367,
      "learning_rate": 0.00016610688880224178,
      "loss": 1.3037,
      "step": 730
    },
    {
      "epoch": 0.11404278554573997,
      "grad_norm": 0.27931660413742065,
      "learning_rate": 0.00016600962856418782,
      "loss": 1.1863,
      "step": 731
    },
    {
      "epoch": 0.11419879482829229,
      "grad_norm": 0.25071558356285095,
      "learning_rate": 0.00016591225754048963,
      "loss": 1.1437,
      "step": 732
    },
    {
      "epoch": 0.1143548041108446,
      "grad_norm": 0.2775113880634308,
      "learning_rate": 0.00016581477589456734,
      "loss": 1.2152,
      "step": 733
    },
    {
      "epoch": 0.1145108133933969,
      "grad_norm": 0.25055718421936035,
      "learning_rate": 0.00016571718379002705,
      "loss": 1.1479,
      "step": 734
    },
    {
      "epoch": 0.11466682267594921,
      "grad_norm": 0.25468993186950684,
      "learning_rate": 0.00016561948139065996,
      "loss": 1.148,
      "step": 735
    },
    {
      "epoch": 0.11482283195850153,
      "grad_norm": 0.26385918259620667,
      "learning_rate": 0.00016552166886044253,
      "loss": 1.3473,
      "step": 736
    },
    {
      "epoch": 0.11497884124105384,
      "grad_norm": 0.27051180601119995,
      "learning_rate": 0.00016542374636353604,
      "loss": 1.196,
      "step": 737
    },
    {
      "epoch": 0.11513485052360616,
      "grad_norm": 0.32731276750564575,
      "learning_rate": 0.0001653257140642863,
      "loss": 1.4514,
      "step": 738
    },
    {
      "epoch": 0.11529085980615847,
      "grad_norm": 0.26046180725097656,
      "learning_rate": 0.00016522757212722344,
      "loss": 1.2186,
      "step": 739
    },
    {
      "epoch": 0.11544686908871078,
      "grad_norm": 0.2661746144294739,
      "learning_rate": 0.00016512932071706152,
      "loss": 1.123,
      "step": 740
    },
    {
      "epoch": 0.1156028783712631,
      "grad_norm": 0.25739923119544983,
      "learning_rate": 0.0001650309599986985,
      "loss": 1.1832,
      "step": 741
    },
    {
      "epoch": 0.1157588876538154,
      "grad_norm": 0.30230990052223206,
      "learning_rate": 0.00016493249013721558,
      "loss": 1.5064,
      "step": 742
    },
    {
      "epoch": 0.11591489693636771,
      "grad_norm": 0.25831449031829834,
      "learning_rate": 0.00016483391129787727,
      "loss": 1.1212,
      "step": 743
    },
    {
      "epoch": 0.11607090621892002,
      "grad_norm": 0.24019654095172882,
      "learning_rate": 0.000164735223646131,
      "loss": 1.1555,
      "step": 744
    },
    {
      "epoch": 0.11622691550147234,
      "grad_norm": 0.28396427631378174,
      "learning_rate": 0.0001646364273476067,
      "loss": 1.4754,
      "step": 745
    },
    {
      "epoch": 0.11638292478402465,
      "grad_norm": 0.28211066126823425,
      "learning_rate": 0.00016453752256811674,
      "loss": 1.526,
      "step": 746
    },
    {
      "epoch": 0.11653893406657696,
      "grad_norm": 0.2596474289894104,
      "learning_rate": 0.00016443850947365558,
      "loss": 1.2072,
      "step": 747
    },
    {
      "epoch": 0.11669494334912928,
      "grad_norm": 0.25947293639183044,
      "learning_rate": 0.0001643393882303994,
      "loss": 1.3467,
      "step": 748
    },
    {
      "epoch": 0.11685095263168159,
      "grad_norm": 0.30946600437164307,
      "learning_rate": 0.00016424015900470587,
      "loss": 1.3948,
      "step": 749
    },
    {
      "epoch": 0.1170069619142339,
      "grad_norm": 0.3172161281108856,
      "learning_rate": 0.000164140821963114,
      "loss": 1.745,
      "step": 750
    },
    {
      "epoch": 0.1171629711967862,
      "grad_norm": 0.26674196124076843,
      "learning_rate": 0.00016404137727234365,
      "loss": 1.5021,
      "step": 751
    },
    {
      "epoch": 0.11731898047933852,
      "grad_norm": 0.26941999793052673,
      "learning_rate": 0.00016394182509929536,
      "loss": 1.2651,
      "step": 752
    },
    {
      "epoch": 0.11747498976189083,
      "grad_norm": 0.29353249073028564,
      "learning_rate": 0.00016384216561105014,
      "loss": 1.2397,
      "step": 753
    },
    {
      "epoch": 0.11763099904444314,
      "grad_norm": 0.2547638416290283,
      "learning_rate": 0.000163742398974869,
      "loss": 1.1032,
      "step": 754
    },
    {
      "epoch": 0.11778700832699546,
      "grad_norm": 0.25621354579925537,
      "learning_rate": 0.00016364252535819282,
      "loss": 1.0842,
      "step": 755
    },
    {
      "epoch": 0.11794301760954777,
      "grad_norm": 0.25465261936187744,
      "learning_rate": 0.00016354254492864211,
      "loss": 0.9941,
      "step": 756
    },
    {
      "epoch": 0.11809902689210008,
      "grad_norm": 0.25726544857025146,
      "learning_rate": 0.00016344245785401653,
      "loss": 1.2613,
      "step": 757
    },
    {
      "epoch": 0.1182550361746524,
      "grad_norm": 0.2696760594844818,
      "learning_rate": 0.00016334226430229475,
      "loss": 1.1349,
      "step": 758
    },
    {
      "epoch": 0.1184110454572047,
      "grad_norm": 0.29465997219085693,
      "learning_rate": 0.00016324196444163423,
      "loss": 1.3099,
      "step": 759
    },
    {
      "epoch": 0.11856705473975701,
      "grad_norm": 0.2854841351509094,
      "learning_rate": 0.00016314155844037074,
      "loss": 1.1648,
      "step": 760
    },
    {
      "epoch": 0.11872306402230932,
      "grad_norm": 0.28557366132736206,
      "learning_rate": 0.0001630410464670182,
      "loss": 1.4045,
      "step": 761
    },
    {
      "epoch": 0.11887907330486164,
      "grad_norm": 0.337882936000824,
      "learning_rate": 0.00016294042869026851,
      "loss": 1.4391,
      "step": 762
    },
    {
      "epoch": 0.11903508258741395,
      "grad_norm": 0.25410857796669006,
      "learning_rate": 0.000162839705278991,
      "loss": 1.025,
      "step": 763
    },
    {
      "epoch": 0.11919109186996626,
      "grad_norm": 0.2944369614124298,
      "learning_rate": 0.0001627388764022323,
      "loss": 1.3339,
      "step": 764
    },
    {
      "epoch": 0.11934710115251858,
      "grad_norm": 0.30941835045814514,
      "learning_rate": 0.0001626379422292162,
      "loss": 1.5238,
      "step": 765
    },
    {
      "epoch": 0.11950311043507089,
      "grad_norm": 0.2796765863895416,
      "learning_rate": 0.000162536902929343,
      "loss": 1.1711,
      "step": 766
    },
    {
      "epoch": 0.1196591197176232,
      "grad_norm": 0.2882195711135864,
      "learning_rate": 0.00016243575867218958,
      "loss": 1.2852,
      "step": 767
    },
    {
      "epoch": 0.1198151290001755,
      "grad_norm": 0.29050207138061523,
      "learning_rate": 0.00016233450962750893,
      "loss": 1.2789,
      "step": 768
    },
    {
      "epoch": 0.11997113828272782,
      "grad_norm": 0.2745670974254608,
      "learning_rate": 0.00016223315596522987,
      "loss": 1.2741,
      "step": 769
    },
    {
      "epoch": 0.12012714756528013,
      "grad_norm": 0.29764166474342346,
      "learning_rate": 0.0001621316978554569,
      "loss": 1.3636,
      "step": 770
    },
    {
      "epoch": 0.12028315684783245,
      "grad_norm": 0.29131025075912476,
      "learning_rate": 0.00016203013546846966,
      "loss": 1.5137,
      "step": 771
    },
    {
      "epoch": 0.12043916613038476,
      "grad_norm": 0.3370944857597351,
      "learning_rate": 0.00016192846897472297,
      "loss": 1.5541,
      "step": 772
    },
    {
      "epoch": 0.12059517541293707,
      "grad_norm": 0.2678642272949219,
      "learning_rate": 0.0001618266985448463,
      "loss": 1.2024,
      "step": 773
    },
    {
      "epoch": 0.12075118469548939,
      "grad_norm": 0.27655884623527527,
      "learning_rate": 0.00016172482434964353,
      "loss": 1.1084,
      "step": 774
    },
    {
      "epoch": 0.1209071939780417,
      "grad_norm": 0.23235641419887543,
      "learning_rate": 0.00016162284656009274,
      "loss": 0.8548,
      "step": 775
    },
    {
      "epoch": 0.121063203260594,
      "grad_norm": 0.2860414683818817,
      "learning_rate": 0.00016152076534734584,
      "loss": 1.5026,
      "step": 776
    },
    {
      "epoch": 0.12121921254314631,
      "grad_norm": 0.2980406582355499,
      "learning_rate": 0.00016141858088272837,
      "loss": 1.3692,
      "step": 777
    },
    {
      "epoch": 0.12137522182569863,
      "grad_norm": 0.29564347863197327,
      "learning_rate": 0.00016131629333773908,
      "loss": 1.6193,
      "step": 778
    },
    {
      "epoch": 0.12153123110825094,
      "grad_norm": 0.250028520822525,
      "learning_rate": 0.0001612139028840498,
      "loss": 1.3295,
      "step": 779
    },
    {
      "epoch": 0.12168724039080325,
      "grad_norm": 0.25812971591949463,
      "learning_rate": 0.00016111140969350503,
      "loss": 1.1061,
      "step": 780
    },
    {
      "epoch": 0.12184324967335557,
      "grad_norm": 0.2702666223049164,
      "learning_rate": 0.0001610088139381217,
      "loss": 1.2846,
      "step": 781
    },
    {
      "epoch": 0.12199925895590788,
      "grad_norm": 0.24256417155265808,
      "learning_rate": 0.00016090611579008888,
      "loss": 1.081,
      "step": 782
    },
    {
      "epoch": 0.1221552682384602,
      "grad_norm": 0.3177904784679413,
      "learning_rate": 0.00016080331542176753,
      "loss": 1.5862,
      "step": 783
    },
    {
      "epoch": 0.12231127752101251,
      "grad_norm": 0.25483664870262146,
      "learning_rate": 0.00016070041300569012,
      "loss": 1.1939,
      "step": 784
    },
    {
      "epoch": 0.1224672868035648,
      "grad_norm": 0.23578673601150513,
      "learning_rate": 0.00016059740871456036,
      "loss": 1.0371,
      "step": 785
    },
    {
      "epoch": 0.12262329608611712,
      "grad_norm": 0.28674736618995667,
      "learning_rate": 0.000160494302721253,
      "loss": 1.4739,
      "step": 786
    },
    {
      "epoch": 0.12277930536866943,
      "grad_norm": 0.29090616106987,
      "learning_rate": 0.0001603910951988135,
      "loss": 1.3862,
      "step": 787
    },
    {
      "epoch": 0.12293531465122175,
      "grad_norm": 0.2792899012565613,
      "learning_rate": 0.00016028778632045762,
      "loss": 1.3731,
      "step": 788
    },
    {
      "epoch": 0.12309132393377406,
      "grad_norm": 0.2683924436569214,
      "learning_rate": 0.00016018437625957133,
      "loss": 1.4514,
      "step": 789
    },
    {
      "epoch": 0.12324733321632637,
      "grad_norm": 0.331752747297287,
      "learning_rate": 0.00016008086518971037,
      "loss": 1.0936,
      "step": 790
    },
    {
      "epoch": 0.12340334249887869,
      "grad_norm": 0.32185712456703186,
      "learning_rate": 0.0001599772532846,
      "loss": 1.7093,
      "step": 791
    },
    {
      "epoch": 0.123559351781431,
      "grad_norm": 0.28801560401916504,
      "learning_rate": 0.0001598735407181347,
      "loss": 1.2923,
      "step": 792
    },
    {
      "epoch": 0.1237153610639833,
      "grad_norm": 0.2626672387123108,
      "learning_rate": 0.00015976972766437795,
      "loss": 1.196,
      "step": 793
    },
    {
      "epoch": 0.12387137034653561,
      "grad_norm": 0.30561795830726624,
      "learning_rate": 0.00015966581429756183,
      "loss": 1.5151,
      "step": 794
    },
    {
      "epoch": 0.12402737962908793,
      "grad_norm": 0.2764839828014374,
      "learning_rate": 0.00015956180079208682,
      "loss": 1.231,
      "step": 795
    },
    {
      "epoch": 0.12418338891164024,
      "grad_norm": 0.2506803870201111,
      "learning_rate": 0.00015945768732252144,
      "loss": 1.0394,
      "step": 796
    },
    {
      "epoch": 0.12433939819419255,
      "grad_norm": 0.28655874729156494,
      "learning_rate": 0.00015935347406360192,
      "loss": 1.4689,
      "step": 797
    },
    {
      "epoch": 0.12449540747674487,
      "grad_norm": 0.26048576831817627,
      "learning_rate": 0.00015924916119023212,
      "loss": 1.218,
      "step": 798
    },
    {
      "epoch": 0.12465141675929718,
      "grad_norm": 0.26712656021118164,
      "learning_rate": 0.00015914474887748295,
      "loss": 1.232,
      "step": 799
    },
    {
      "epoch": 0.1248074260418495,
      "grad_norm": 0.2652023434638977,
      "learning_rate": 0.00015904023730059228,
      "loss": 1.0205,
      "step": 800
    },
    {
      "epoch": 0.12496343532440181,
      "grad_norm": 0.3364275097846985,
      "learning_rate": 0.0001589356266349645,
      "loss": 1.4919,
      "step": 801
    },
    {
      "epoch": 0.12511944460695412,
      "grad_norm": 0.218467116355896,
      "learning_rate": 0.00015883091705617045,
      "loss": 0.8939,
      "step": 802
    },
    {
      "epoch": 0.12527545388950642,
      "grad_norm": 0.2554807960987091,
      "learning_rate": 0.00015872610873994685,
      "loss": 1.2568,
      "step": 803
    },
    {
      "epoch": 0.12543146317205875,
      "grad_norm": 0.2742806673049927,
      "learning_rate": 0.00015862120186219613,
      "loss": 1.0565,
      "step": 804
    },
    {
      "epoch": 0.12558747245461105,
      "grad_norm": 0.23994481563568115,
      "learning_rate": 0.00015851619659898623,
      "loss": 0.9631,
      "step": 805
    },
    {
      "epoch": 0.12574348173716335,
      "grad_norm": 0.29549404978752136,
      "learning_rate": 0.00015841109312655016,
      "loss": 1.2073,
      "step": 806
    },
    {
      "epoch": 0.12589949101971568,
      "grad_norm": 0.27470991015434265,
      "learning_rate": 0.00015830589162128572,
      "loss": 1.2345,
      "step": 807
    },
    {
      "epoch": 0.12605550030226798,
      "grad_norm": 0.27652519941329956,
      "learning_rate": 0.00015820059225975531,
      "loss": 1.2456,
      "step": 808
    },
    {
      "epoch": 0.1262115095848203,
      "grad_norm": 0.2571077346801758,
      "learning_rate": 0.0001580951952186856,
      "loss": 1.0009,
      "step": 809
    },
    {
      "epoch": 0.1263675188673726,
      "grad_norm": 0.27721402049064636,
      "learning_rate": 0.000157989700674967,
      "loss": 1.2101,
      "step": 810
    },
    {
      "epoch": 0.12652352814992493,
      "grad_norm": 0.29823631048202515,
      "learning_rate": 0.00015788410880565379,
      "loss": 1.3992,
      "step": 811
    },
    {
      "epoch": 0.12667953743247723,
      "grad_norm": 0.28366366028785706,
      "learning_rate": 0.00015777841978796347,
      "loss": 1.005,
      "step": 812
    },
    {
      "epoch": 0.12683554671502956,
      "grad_norm": 0.3597376048564911,
      "learning_rate": 0.0001576726337992766,
      "loss": 1.6046,
      "step": 813
    },
    {
      "epoch": 0.12699155599758186,
      "grad_norm": 0.27407100796699524,
      "learning_rate": 0.00015756675101713657,
      "loss": 1.0167,
      "step": 814
    },
    {
      "epoch": 0.12714756528013416,
      "grad_norm": 0.3212680220603943,
      "learning_rate": 0.00015746077161924905,
      "loss": 1.4425,
      "step": 815
    },
    {
      "epoch": 0.12730357456268648,
      "grad_norm": 0.25150859355926514,
      "learning_rate": 0.00015735469578348208,
      "loss": 1.2482,
      "step": 816
    },
    {
      "epoch": 0.12745958384523878,
      "grad_norm": 0.2753000855445862,
      "learning_rate": 0.00015724852368786537,
      "loss": 1.3006,
      "step": 817
    },
    {
      "epoch": 0.1276155931277911,
      "grad_norm": 0.27500027418136597,
      "learning_rate": 0.0001571422555105903,
      "loss": 1.2095,
      "step": 818
    },
    {
      "epoch": 0.1277716024103434,
      "grad_norm": 0.2696485221385956,
      "learning_rate": 0.0001570358914300094,
      "loss": 1.1708,
      "step": 819
    },
    {
      "epoch": 0.12792761169289574,
      "grad_norm": 0.2486962080001831,
      "learning_rate": 0.00015692943162463628,
      "loss": 1.0531,
      "step": 820
    },
    {
      "epoch": 0.12808362097544804,
      "grad_norm": 0.265824556350708,
      "learning_rate": 0.00015682287627314515,
      "loss": 1.0712,
      "step": 821
    },
    {
      "epoch": 0.12823963025800036,
      "grad_norm": 0.2963060140609741,
      "learning_rate": 0.00015671622555437053,
      "loss": 1.3806,
      "step": 822
    },
    {
      "epoch": 0.12839563954055266,
      "grad_norm": 0.2849713861942291,
      "learning_rate": 0.00015660947964730708,
      "loss": 1.2242,
      "step": 823
    },
    {
      "epoch": 0.12855164882310496,
      "grad_norm": 0.25108298659324646,
      "learning_rate": 0.0001565026387311092,
      "loss": 1.1128,
      "step": 824
    },
    {
      "epoch": 0.1287076581056573,
      "grad_norm": 0.27622735500335693,
      "learning_rate": 0.00015639570298509064,
      "loss": 1.3599,
      "step": 825
    },
    {
      "epoch": 0.1288636673882096,
      "grad_norm": 0.29195183515548706,
      "learning_rate": 0.0001562886725887245,
      "loss": 1.2931,
      "step": 826
    },
    {
      "epoch": 0.12901967667076192,
      "grad_norm": 0.2943118214607239,
      "learning_rate": 0.00015618154772164256,
      "loss": 1.5802,
      "step": 827
    },
    {
      "epoch": 0.12917568595331422,
      "grad_norm": 0.26325714588165283,
      "learning_rate": 0.00015607432856363525,
      "loss": 1.2455,
      "step": 828
    },
    {
      "epoch": 0.12933169523586655,
      "grad_norm": 0.286743700504303,
      "learning_rate": 0.00015596701529465117,
      "loss": 1.3008,
      "step": 829
    },
    {
      "epoch": 0.12948770451841884,
      "grad_norm": 0.2844702899456024,
      "learning_rate": 0.00015585960809479696,
      "loss": 1.3737,
      "step": 830
    },
    {
      "epoch": 0.12964371380097114,
      "grad_norm": 0.25531789660453796,
      "learning_rate": 0.00015575210714433686,
      "loss": 1.1425,
      "step": 831
    },
    {
      "epoch": 0.12979972308352347,
      "grad_norm": 0.26921185851097107,
      "learning_rate": 0.00015564451262369247,
      "loss": 1.106,
      "step": 832
    },
    {
      "epoch": 0.12995573236607577,
      "grad_norm": 0.28271836042404175,
      "learning_rate": 0.00015553682471344238,
      "loss": 1.3681,
      "step": 833
    },
    {
      "epoch": 0.1301117416486281,
      "grad_norm": 0.26876282691955566,
      "learning_rate": 0.00015542904359432198,
      "loss": 1.112,
      "step": 834
    },
    {
      "epoch": 0.1302677509311804,
      "grad_norm": 0.2895980179309845,
      "learning_rate": 0.00015532116944722308,
      "loss": 1.1285,
      "step": 835
    },
    {
      "epoch": 0.13042376021373273,
      "grad_norm": 0.2612462639808655,
      "learning_rate": 0.00015521320245319363,
      "loss": 1.2669,
      "step": 836
    },
    {
      "epoch": 0.13057976949628503,
      "grad_norm": 0.30689284205436707,
      "learning_rate": 0.00015510514279343734,
      "loss": 1.3512,
      "step": 837
    },
    {
      "epoch": 0.13073577877883735,
      "grad_norm": 0.2981073558330536,
      "learning_rate": 0.00015499699064931355,
      "loss": 1.1284,
      "step": 838
    },
    {
      "epoch": 0.13089178806138965,
      "grad_norm": 0.2637684643268585,
      "learning_rate": 0.00015488874620233674,
      "loss": 1.0698,
      "step": 839
    },
    {
      "epoch": 0.13104779734394195,
      "grad_norm": 0.3048469126224518,
      "learning_rate": 0.0001547804096341763,
      "loss": 1.5209,
      "step": 840
    },
    {
      "epoch": 0.13120380662649428,
      "grad_norm": 0.2396387904882431,
      "learning_rate": 0.00015467198112665632,
      "loss": 0.9584,
      "step": 841
    },
    {
      "epoch": 0.13135981590904658,
      "grad_norm": 0.27103736996650696,
      "learning_rate": 0.0001545634608617551,
      "loss": 1.2846,
      "step": 842
    },
    {
      "epoch": 0.1315158251915989,
      "grad_norm": 0.2971721589565277,
      "learning_rate": 0.00015445484902160491,
      "loss": 1.6074,
      "step": 843
    },
    {
      "epoch": 0.1316718344741512,
      "grad_norm": 0.2440243512392044,
      "learning_rate": 0.00015434614578849188,
      "loss": 1.045,
      "step": 844
    },
    {
      "epoch": 0.13182784375670353,
      "grad_norm": 0.30210787057876587,
      "learning_rate": 0.00015423735134485536,
      "loss": 1.2948,
      "step": 845
    },
    {
      "epoch": 0.13198385303925583,
      "grad_norm": 0.25344711542129517,
      "learning_rate": 0.00015412846587328782,
      "loss": 1.2089,
      "step": 846
    },
    {
      "epoch": 0.13213986232180816,
      "grad_norm": 0.2884974479675293,
      "learning_rate": 0.0001540194895565346,
      "loss": 1.1123,
      "step": 847
    },
    {
      "epoch": 0.13229587160436046,
      "grad_norm": 0.28012582659721375,
      "learning_rate": 0.00015391042257749336,
      "loss": 1.2269,
      "step": 848
    },
    {
      "epoch": 0.13245188088691276,
      "grad_norm": 0.26394879817962646,
      "learning_rate": 0.00015380126511921403,
      "loss": 1.4469,
      "step": 849
    },
    {
      "epoch": 0.1326078901694651,
      "grad_norm": 0.2717582583427429,
      "learning_rate": 0.0001536920173648984,
      "loss": 1.1494,
      "step": 850
    },
    {
      "epoch": 0.1327638994520174,
      "grad_norm": 0.2968549132347107,
      "learning_rate": 0.00015358267949789966,
      "loss": 1.1903,
      "step": 851
    },
    {
      "epoch": 0.13291990873456971,
      "grad_norm": 0.2570381164550781,
      "learning_rate": 0.00015347325170172245,
      "loss": 1.1035,
      "step": 852
    },
    {
      "epoch": 0.133075918017122,
      "grad_norm": 0.3070929944515228,
      "learning_rate": 0.0001533637341600221,
      "loss": 1.4062,
      "step": 853
    },
    {
      "epoch": 0.13323192729967434,
      "grad_norm": 0.2886407971382141,
      "learning_rate": 0.0001532541270566049,
      "loss": 1.3491,
      "step": 854
    },
    {
      "epoch": 0.13338793658222664,
      "grad_norm": 0.2572009861469269,
      "learning_rate": 0.00015314443057542703,
      "loss": 1.2643,
      "step": 855
    },
    {
      "epoch": 0.13354394586477897,
      "grad_norm": 0.2768828272819519,
      "learning_rate": 0.00015303464490059506,
      "loss": 1.1444,
      "step": 856
    },
    {
      "epoch": 0.13369995514733127,
      "grad_norm": 0.3006720542907715,
      "learning_rate": 0.00015292477021636497,
      "loss": 1.2172,
      "step": 857
    },
    {
      "epoch": 0.13385596442988357,
      "grad_norm": 0.24407751858234406,
      "learning_rate": 0.0001528148067071423,
      "loss": 0.9457,
      "step": 858
    },
    {
      "epoch": 0.1340119737124359,
      "grad_norm": 0.25638723373413086,
      "learning_rate": 0.00015270475455748166,
      "loss": 1.1478,
      "step": 859
    },
    {
      "epoch": 0.1341679829949882,
      "grad_norm": 0.24834637343883514,
      "learning_rate": 0.00015259461395208628,
      "loss": 0.9835,
      "step": 860
    },
    {
      "epoch": 0.13432399227754052,
      "grad_norm": 0.2611735463142395,
      "learning_rate": 0.00015248438507580806,
      "loss": 1.125,
      "step": 861
    },
    {
      "epoch": 0.13448000156009282,
      "grad_norm": 0.3239066004753113,
      "learning_rate": 0.00015237406811364682,
      "loss": 1.1973,
      "step": 862
    },
    {
      "epoch": 0.13463601084264515,
      "grad_norm": 0.2662723958492279,
      "learning_rate": 0.0001522636632507504,
      "loss": 1.1115,
      "step": 863
    },
    {
      "epoch": 0.13479202012519745,
      "grad_norm": 0.26053330302238464,
      "learning_rate": 0.00015215317067241414,
      "loss": 1.0885,
      "step": 864
    },
    {
      "epoch": 0.13494802940774975,
      "grad_norm": 0.337984561920166,
      "learning_rate": 0.00015204259056408046,
      "loss": 0.8782,
      "step": 865
    },
    {
      "epoch": 0.13510403869030208,
      "grad_norm": 0.2965889871120453,
      "learning_rate": 0.00015193192311133884,
      "loss": 1.3198,
      "step": 866
    },
    {
      "epoch": 0.13526004797285437,
      "grad_norm": 0.3056474030017853,
      "learning_rate": 0.00015182116849992526,
      "loss": 1.5133,
      "step": 867
    },
    {
      "epoch": 0.1354160572554067,
      "grad_norm": 0.29193446040153503,
      "learning_rate": 0.00015171032691572206,
      "loss": 1.2365,
      "step": 868
    },
    {
      "epoch": 0.135572066537959,
      "grad_norm": 0.28123265504837036,
      "learning_rate": 0.00015159939854475743,
      "loss": 1.1654,
      "step": 869
    },
    {
      "epoch": 0.13572807582051133,
      "grad_norm": 0.3033466041088104,
      "learning_rate": 0.00015148838357320537,
      "loss": 1.5473,
      "step": 870
    },
    {
      "epoch": 0.13588408510306363,
      "grad_norm": 0.26069045066833496,
      "learning_rate": 0.00015137728218738502,
      "loss": 1.2213,
      "step": 871
    },
    {
      "epoch": 0.13604009438561596,
      "grad_norm": 0.3010377883911133,
      "learning_rate": 0.0001512660945737608,
      "loss": 1.1906,
      "step": 872
    },
    {
      "epoch": 0.13619610366816826,
      "grad_norm": 0.2615121304988861,
      "learning_rate": 0.00015115482091894165,
      "loss": 1.0807,
      "step": 873
    },
    {
      "epoch": 0.13635211295072056,
      "grad_norm": 0.27064162492752075,
      "learning_rate": 0.00015104346140968095,
      "loss": 1.3376,
      "step": 874
    },
    {
      "epoch": 0.13650812223327288,
      "grad_norm": 0.26106327772140503,
      "learning_rate": 0.00015093201623287631,
      "loss": 1.2357,
      "step": 875
    },
    {
      "epoch": 0.13666413151582518,
      "grad_norm": 0.26505109667778015,
      "learning_rate": 0.00015082048557556893,
      "loss": 1.4311,
      "step": 876
    },
    {
      "epoch": 0.1368201407983775,
      "grad_norm": 0.2965877950191498,
      "learning_rate": 0.00015070886962494358,
      "loss": 1.3246,
      "step": 877
    },
    {
      "epoch": 0.1369761500809298,
      "grad_norm": 0.3173799216747284,
      "learning_rate": 0.0001505971685683282,
      "loss": 1.4795,
      "step": 878
    },
    {
      "epoch": 0.13713215936348214,
      "grad_norm": 0.2562354505062103,
      "learning_rate": 0.00015048538259319346,
      "loss": 1.0112,
      "step": 879
    },
    {
      "epoch": 0.13728816864603444,
      "grad_norm": 0.2736887037754059,
      "learning_rate": 0.00015037351188715265,
      "loss": 1.3539,
      "step": 880
    },
    {
      "epoch": 0.13744417792858676,
      "grad_norm": 0.30376073718070984,
      "learning_rate": 0.00015026155663796123,
      "loss": 1.2837,
      "step": 881
    },
    {
      "epoch": 0.13760018721113906,
      "grad_norm": 0.3052879869937897,
      "learning_rate": 0.00015014951703351653,
      "loss": 1.3994,
      "step": 882
    },
    {
      "epoch": 0.13775619649369136,
      "grad_norm": 0.25414812564849854,
      "learning_rate": 0.00015003739326185751,
      "loss": 0.9258,
      "step": 883
    },
    {
      "epoch": 0.1379122057762437,
      "grad_norm": 0.33165043592453003,
      "learning_rate": 0.00014992518551116434,
      "loss": 1.4427,
      "step": 884
    },
    {
      "epoch": 0.138068215058796,
      "grad_norm": 0.2764113247394562,
      "learning_rate": 0.00014981289396975817,
      "loss": 1.3084,
      "step": 885
    },
    {
      "epoch": 0.13822422434134832,
      "grad_norm": 0.3221314251422882,
      "learning_rate": 0.0001497005188261007,
      "loss": 1.0262,
      "step": 886
    },
    {
      "epoch": 0.13838023362390062,
      "grad_norm": 0.24285611510276794,
      "learning_rate": 0.0001495880602687941,
      "loss": 1.1275,
      "step": 887
    },
    {
      "epoch": 0.13853624290645294,
      "grad_norm": 0.27305787801742554,
      "learning_rate": 0.00014947551848658034,
      "loss": 1.3409,
      "step": 888
    },
    {
      "epoch": 0.13869225218900524,
      "grad_norm": 0.29822468757629395,
      "learning_rate": 0.00014936289366834123,
      "loss": 1.3696,
      "step": 889
    },
    {
      "epoch": 0.13884826147155757,
      "grad_norm": 0.259112685918808,
      "learning_rate": 0.00014925018600309785,
      "loss": 1.2456,
      "step": 890
    },
    {
      "epoch": 0.13900427075410987,
      "grad_norm": 0.28749990463256836,
      "learning_rate": 0.00014913739568001033,
      "loss": 1.2809,
      "step": 891
    },
    {
      "epoch": 0.13916028003666217,
      "grad_norm": 0.24120725691318512,
      "learning_rate": 0.0001490245228883776,
      "loss": 1.1092,
      "step": 892
    },
    {
      "epoch": 0.1393162893192145,
      "grad_norm": 0.2791595160961151,
      "learning_rate": 0.0001489115678176369,
      "loss": 1.024,
      "step": 893
    },
    {
      "epoch": 0.1394722986017668,
      "grad_norm": 0.260062038898468,
      "learning_rate": 0.00014879853065736365,
      "loss": 1.1766,
      "step": 894
    },
    {
      "epoch": 0.13962830788431912,
      "grad_norm": 0.2642684280872345,
      "learning_rate": 0.00014868541159727096,
      "loss": 1.3869,
      "step": 895
    },
    {
      "epoch": 0.13978431716687142,
      "grad_norm": 0.2463667243719101,
      "learning_rate": 0.00014857221082720948,
      "loss": 1.0662,
      "step": 896
    },
    {
      "epoch": 0.13994032644942375,
      "grad_norm": 0.2916738986968994,
      "learning_rate": 0.0001484589285371669,
      "loss": 1.3209,
      "step": 897
    },
    {
      "epoch": 0.14009633573197605,
      "grad_norm": 0.27236512303352356,
      "learning_rate": 0.0001483455649172678,
      "loss": 1.1833,
      "step": 898
    },
    {
      "epoch": 0.14025234501452835,
      "grad_norm": 0.2619946002960205,
      "learning_rate": 0.0001482321201577733,
      "loss": 1.3137,
      "step": 899
    },
    {
      "epoch": 0.14040835429708068,
      "grad_norm": 0.31396883726119995,
      "learning_rate": 0.00014811859444908052,
      "loss": 1.3727,
      "step": 900
    },
    {
      "epoch": 0.14056436357963298,
      "grad_norm": 0.25572189688682556,
      "learning_rate": 0.0001480049879817226,
      "loss": 1.1046,
      "step": 901
    },
    {
      "epoch": 0.1407203728621853,
      "grad_norm": 0.2937905490398407,
      "learning_rate": 0.0001478913009463682,
      "loss": 1.3542,
      "step": 902
    },
    {
      "epoch": 0.1408763821447376,
      "grad_norm": 0.253520131111145,
      "learning_rate": 0.00014777753353382119,
      "loss": 1.2329,
      "step": 903
    },
    {
      "epoch": 0.14103239142728993,
      "grad_norm": 0.32491999864578247,
      "learning_rate": 0.00014766368593502026,
      "loss": 1.3285,
      "step": 904
    },
    {
      "epoch": 0.14118840070984223,
      "grad_norm": 0.2527139484882355,
      "learning_rate": 0.00014754975834103877,
      "loss": 1.1277,
      "step": 905
    },
    {
      "epoch": 0.14134440999239456,
      "grad_norm": 0.275272399187088,
      "learning_rate": 0.00014743575094308431,
      "loss": 1.4177,
      "step": 906
    },
    {
      "epoch": 0.14150041927494686,
      "grad_norm": 0.26013612747192383,
      "learning_rate": 0.0001473216639324984,
      "loss": 1.2476,
      "step": 907
    },
    {
      "epoch": 0.14165642855749916,
      "grad_norm": 0.28431418538093567,
      "learning_rate": 0.0001472074975007562,
      "loss": 1.3947,
      "step": 908
    },
    {
      "epoch": 0.1418124378400515,
      "grad_norm": 0.2629927396774292,
      "learning_rate": 0.0001470932518394661,
      "loss": 1.1587,
      "step": 909
    },
    {
      "epoch": 0.14196844712260379,
      "grad_norm": 0.2944284975528717,
      "learning_rate": 0.00014697892714036958,
      "loss": 1.342,
      "step": 910
    },
    {
      "epoch": 0.1421244564051561,
      "grad_norm": 0.31365662813186646,
      "learning_rate": 0.00014686452359534066,
      "loss": 1.4326,
      "step": 911
    },
    {
      "epoch": 0.1422804656877084,
      "grad_norm": 0.255875825881958,
      "learning_rate": 0.0001467500413963857,
      "loss": 1.2305,
      "step": 912
    },
    {
      "epoch": 0.14243647497026074,
      "grad_norm": 0.2717350423336029,
      "learning_rate": 0.00014663548073564316,
      "loss": 1.1965,
      "step": 913
    },
    {
      "epoch": 0.14259248425281304,
      "grad_norm": 0.28059136867523193,
      "learning_rate": 0.00014652084180538302,
      "loss": 1.3361,
      "step": 914
    },
    {
      "epoch": 0.14274849353536537,
      "grad_norm": 0.2790951430797577,
      "learning_rate": 0.00014640612479800686,
      "loss": 1.2785,
      "step": 915
    },
    {
      "epoch": 0.14290450281791767,
      "grad_norm": 0.24599488079547882,
      "learning_rate": 0.00014629132990604706,
      "loss": 1.2433,
      "step": 916
    },
    {
      "epoch": 0.14306051210046997,
      "grad_norm": 0.288792222738266,
      "learning_rate": 0.00014617645732216685,
      "loss": 1.1779,
      "step": 917
    },
    {
      "epoch": 0.1432165213830223,
      "grad_norm": 0.3035881221294403,
      "learning_rate": 0.00014606150723915984,
      "loss": 1.3885,
      "step": 918
    },
    {
      "epoch": 0.1433725306655746,
      "grad_norm": 0.28884077072143555,
      "learning_rate": 0.00014594647984994964,
      "loss": 1.3079,
      "step": 919
    },
    {
      "epoch": 0.14352853994812692,
      "grad_norm": 0.26054033637046814,
      "learning_rate": 0.00014583137534758967,
      "loss": 1.1897,
      "step": 920
    },
    {
      "epoch": 0.14368454923067922,
      "grad_norm": 0.31249237060546875,
      "learning_rate": 0.00014571619392526278,
      "loss": 1.4518,
      "step": 921
    },
    {
      "epoch": 0.14384055851323155,
      "grad_norm": 0.27947118878364563,
      "learning_rate": 0.0001456009357762809,
      "loss": 1.2305,
      "step": 922
    },
    {
      "epoch": 0.14399656779578385,
      "grad_norm": 0.2928619980812073,
      "learning_rate": 0.00014548560109408466,
      "loss": 1.3645,
      "step": 923
    },
    {
      "epoch": 0.14415257707833617,
      "grad_norm": 0.2735868990421295,
      "learning_rate": 0.00014537019007224324,
      "loss": 1.4351,
      "step": 924
    },
    {
      "epoch": 0.14430858636088847,
      "grad_norm": 0.30757883191108704,
      "learning_rate": 0.00014525470290445392,
      "loss": 1.4073,
      "step": 925
    },
    {
      "epoch": 0.14446459564344077,
      "grad_norm": 0.28719013929367065,
      "learning_rate": 0.00014513913978454168,
      "loss": 1.2918,
      "step": 926
    },
    {
      "epoch": 0.1446206049259931,
      "grad_norm": 0.2720332145690918,
      "learning_rate": 0.00014502350090645917,
      "loss": 1.2763,
      "step": 927
    },
    {
      "epoch": 0.1447766142085454,
      "grad_norm": 0.24720966815948486,
      "learning_rate": 0.000144907786464286,
      "loss": 1.0549,
      "step": 928
    },
    {
      "epoch": 0.14493262349109773,
      "grad_norm": 0.3164946138858795,
      "learning_rate": 0.0001447919966522287,
      "loss": 1.1007,
      "step": 929
    },
    {
      "epoch": 0.14508863277365003,
      "grad_norm": 0.2940044105052948,
      "learning_rate": 0.00014467613166462023,
      "loss": 1.2818,
      "step": 930
    },
    {
      "epoch": 0.14524464205620236,
      "grad_norm": 0.34050655364990234,
      "learning_rate": 0.00014456019169591978,
      "loss": 1.2618,
      "step": 931
    },
    {
      "epoch": 0.14540065133875466,
      "grad_norm": 0.24612417817115784,
      "learning_rate": 0.0001444441769407124,
      "loss": 0.991,
      "step": 932
    },
    {
      "epoch": 0.14555666062130695,
      "grad_norm": 0.2636529505252838,
      "learning_rate": 0.00014432808759370854,
      "loss": 1.4259,
      "step": 933
    },
    {
      "epoch": 0.14571266990385928,
      "grad_norm": 0.2628234624862671,
      "learning_rate": 0.00014421192384974396,
      "loss": 1.2545,
      "step": 934
    },
    {
      "epoch": 0.14586867918641158,
      "grad_norm": 0.2733708918094635,
      "learning_rate": 0.00014409568590377918,
      "loss": 1.1442,
      "step": 935
    },
    {
      "epoch": 0.1460246884689639,
      "grad_norm": 0.24912774562835693,
      "learning_rate": 0.0001439793739508994,
      "loss": 1.039,
      "step": 936
    },
    {
      "epoch": 0.1461806977515162,
      "grad_norm": 0.2927952706813812,
      "learning_rate": 0.00014386298818631386,
      "loss": 1.179,
      "step": 937
    },
    {
      "epoch": 0.14633670703406854,
      "grad_norm": 0.29066377878189087,
      "learning_rate": 0.0001437465288053558,
      "loss": 1.2024,
      "step": 938
    },
    {
      "epoch": 0.14649271631662084,
      "grad_norm": 0.2862846553325653,
      "learning_rate": 0.00014362999600348196,
      "loss": 1.1401,
      "step": 939
    },
    {
      "epoch": 0.14664872559917316,
      "grad_norm": 0.3009769022464752,
      "learning_rate": 0.00014351338997627234,
      "loss": 1.3966,
      "step": 940
    },
    {
      "epoch": 0.14680473488172546,
      "grad_norm": 0.31753668189048767,
      "learning_rate": 0.00014339671091942978,
      "loss": 1.4626,
      "step": 941
    },
    {
      "epoch": 0.14696074416427776,
      "grad_norm": 0.28623080253601074,
      "learning_rate": 0.0001432799590287797,
      "loss": 1.2841,
      "step": 942
    },
    {
      "epoch": 0.1471167534468301,
      "grad_norm": 0.3344881534576416,
      "learning_rate": 0.00014316313450026986,
      "loss": 1.5589,
      "step": 943
    },
    {
      "epoch": 0.1472727627293824,
      "grad_norm": 0.3132301867008209,
      "learning_rate": 0.00014304623752996973,
      "loss": 1.4286,
      "step": 944
    },
    {
      "epoch": 0.14742877201193472,
      "grad_norm": 0.299078106880188,
      "learning_rate": 0.00014292926831407061,
      "loss": 1.2099,
      "step": 945
    },
    {
      "epoch": 0.14758478129448702,
      "grad_norm": 0.27058905363082886,
      "learning_rate": 0.0001428122270488848,
      "loss": 1.2331,
      "step": 946
    },
    {
      "epoch": 0.14774079057703934,
      "grad_norm": 0.3202461004257202,
      "learning_rate": 0.00014269511393084572,
      "loss": 1.0677,
      "step": 947
    },
    {
      "epoch": 0.14789679985959164,
      "grad_norm": 0.3005964756011963,
      "learning_rate": 0.00014257792915650728,
      "loss": 1.3382,
      "step": 948
    },
    {
      "epoch": 0.14805280914214397,
      "grad_norm": 0.28587067127227783,
      "learning_rate": 0.00014246067292254366,
      "loss": 1.2216,
      "step": 949
    },
    {
      "epoch": 0.14820881842469627,
      "grad_norm": 0.27515730261802673,
      "learning_rate": 0.00014234334542574906,
      "loss": 1.1608,
      "step": 950
    },
    {
      "epoch": 0.14836482770724857,
      "grad_norm": 0.26588740944862366,
      "learning_rate": 0.00014222594686303706,
      "loss": 1.1547,
      "step": 951
    },
    {
      "epoch": 0.1485208369898009,
      "grad_norm": 0.3122014105319977,
      "learning_rate": 0.00014210847743144087,
      "loss": 1.3642,
      "step": 952
    },
    {
      "epoch": 0.1486768462723532,
      "grad_norm": 0.34852224588394165,
      "learning_rate": 0.00014199093732811225,
      "loss": 1.4751,
      "step": 953
    },
    {
      "epoch": 0.14883285555490552,
      "grad_norm": 0.2674144208431244,
      "learning_rate": 0.00014187332675032188,
      "loss": 1.2941,
      "step": 954
    },
    {
      "epoch": 0.14898886483745782,
      "grad_norm": 0.30863744020462036,
      "learning_rate": 0.00014175564589545854,
      "loss": 1.298,
      "step": 955
    },
    {
      "epoch": 0.14914487412001015,
      "grad_norm": 0.26412221789360046,
      "learning_rate": 0.00014163789496102902,
      "loss": 1.218,
      "step": 956
    },
    {
      "epoch": 0.14930088340256245,
      "grad_norm": 0.2920873761177063,
      "learning_rate": 0.0001415200741446577,
      "loss": 1.5198,
      "step": 957
    },
    {
      "epoch": 0.14945689268511475,
      "grad_norm": 0.29869547486305237,
      "learning_rate": 0.00014140218364408632,
      "loss": 1.3896,
      "step": 958
    },
    {
      "epoch": 0.14961290196766708,
      "grad_norm": 0.2696417570114136,
      "learning_rate": 0.00014128422365717347,
      "loss": 1.2046,
      "step": 959
    },
    {
      "epoch": 0.14976891125021938,
      "grad_norm": 0.27298402786254883,
      "learning_rate": 0.0001411661943818944,
      "loss": 1.3599,
      "step": 960
    },
    {
      "epoch": 0.1499249205327717,
      "grad_norm": 0.27962544560432434,
      "learning_rate": 0.0001410480960163407,
      "loss": 1.25,
      "step": 961
    },
    {
      "epoch": 0.150080929815324,
      "grad_norm": 0.2612510323524475,
      "learning_rate": 0.00014092992875871979,
      "loss": 1.1053,
      "step": 962
    },
    {
      "epoch": 0.15023693909787633,
      "grad_norm": 0.27618667483329773,
      "learning_rate": 0.00014081169280735488,
      "loss": 1.3871,
      "step": 963
    },
    {
      "epoch": 0.15039294838042863,
      "grad_norm": 0.24976608157157898,
      "learning_rate": 0.00014069338836068433,
      "loss": 1.2613,
      "step": 964
    },
    {
      "epoch": 0.15054895766298096,
      "grad_norm": 0.267610102891922,
      "learning_rate": 0.00014057501561726157,
      "loss": 1.0631,
      "step": 965
    },
    {
      "epoch": 0.15070496694553326,
      "grad_norm": 0.29677531123161316,
      "learning_rate": 0.00014045657477575448,
      "loss": 1.3567,
      "step": 966
    },
    {
      "epoch": 0.15086097622808556,
      "grad_norm": 0.29539185762405396,
      "learning_rate": 0.0001403380660349455,
      "loss": 1.1386,
      "step": 967
    },
    {
      "epoch": 0.15101698551063789,
      "grad_norm": 0.2691122889518738,
      "learning_rate": 0.00014021948959373076,
      "loss": 1.1089,
      "step": 968
    },
    {
      "epoch": 0.15117299479319019,
      "grad_norm": 0.24394790828227997,
      "learning_rate": 0.0001401008456511202,
      "loss": 1.1893,
      "step": 969
    },
    {
      "epoch": 0.1513290040757425,
      "grad_norm": 0.2849481403827667,
      "learning_rate": 0.0001399821344062369,
      "loss": 1.4775,
      "step": 970
    },
    {
      "epoch": 0.1514850133582948,
      "grad_norm": 0.2634568512439728,
      "learning_rate": 0.00013986335605831705,
      "loss": 1.1655,
      "step": 971
    },
    {
      "epoch": 0.15164102264084714,
      "grad_norm": 0.269879013299942,
      "learning_rate": 0.00013974451080670934,
      "loss": 1.2047,
      "step": 972
    },
    {
      "epoch": 0.15179703192339944,
      "grad_norm": 0.27636033296585083,
      "learning_rate": 0.0001396255988508748,
      "loss": 1.2987,
      "step": 973
    },
    {
      "epoch": 0.15195304120595177,
      "grad_norm": 0.2572225332260132,
      "learning_rate": 0.00013950662039038643,
      "loss": 1.3322,
      "step": 974
    },
    {
      "epoch": 0.15210905048850407,
      "grad_norm": 0.2573801279067993,
      "learning_rate": 0.00013938757562492873,
      "loss": 1.2547,
      "step": 975
    },
    {
      "epoch": 0.15226505977105637,
      "grad_norm": 0.3160158395767212,
      "learning_rate": 0.00013926846475429766,
      "loss": 1.5537,
      "step": 976
    },
    {
      "epoch": 0.1524210690536087,
      "grad_norm": 0.30125337839126587,
      "learning_rate": 0.00013914928797839995,
      "loss": 1.0853,
      "step": 977
    },
    {
      "epoch": 0.152577078336161,
      "grad_norm": 0.25772640109062195,
      "learning_rate": 0.0001390300454972531,
      "loss": 1.198,
      "step": 978
    },
    {
      "epoch": 0.15273308761871332,
      "grad_norm": 0.257586270570755,
      "learning_rate": 0.0001389107375109848,
      "loss": 1.086,
      "step": 979
    },
    {
      "epoch": 0.15288909690126562,
      "grad_norm": 0.2763863205909729,
      "learning_rate": 0.00013879136421983266,
      "loss": 1.2639,
      "step": 980
    },
    {
      "epoch": 0.15304510618381795,
      "grad_norm": 0.2751125991344452,
      "learning_rate": 0.00013867192582414393,
      "loss": 1.2473,
      "step": 981
    },
    {
      "epoch": 0.15320111546637025,
      "grad_norm": 0.3138543367385864,
      "learning_rate": 0.0001385524225243751,
      "loss": 1.3107,
      "step": 982
    },
    {
      "epoch": 0.15335712474892257,
      "grad_norm": 0.27820733189582825,
      "learning_rate": 0.00013843285452109166,
      "loss": 1.048,
      "step": 983
    },
    {
      "epoch": 0.15351313403147487,
      "grad_norm": 0.25756746530532837,
      "learning_rate": 0.00013831322201496757,
      "loss": 1.0374,
      "step": 984
    },
    {
      "epoch": 0.15366914331402717,
      "grad_norm": 0.332603394985199,
      "learning_rate": 0.0001381935252067852,
      "loss": 1.3359,
      "step": 985
    },
    {
      "epoch": 0.1538251525965795,
      "grad_norm": 0.33936744928359985,
      "learning_rate": 0.00013807376429743467,
      "loss": 1.5814,
      "step": 986
    },
    {
      "epoch": 0.1539811618791318,
      "grad_norm": 0.2748062014579773,
      "learning_rate": 0.00013795393948791383,
      "loss": 1.201,
      "step": 987
    },
    {
      "epoch": 0.15413717116168413,
      "grad_norm": 0.26038771867752075,
      "learning_rate": 0.0001378340509793277,
      "loss": 1.2087,
      "step": 988
    },
    {
      "epoch": 0.15429318044423643,
      "grad_norm": 0.24746748805046082,
      "learning_rate": 0.00013771409897288822,
      "loss": 1.0487,
      "step": 989
    },
    {
      "epoch": 0.15444918972678875,
      "grad_norm": 0.270280122756958,
      "learning_rate": 0.0001375940836699139,
      "loss": 1.1529,
      "step": 990
    },
    {
      "epoch": 0.15460519900934105,
      "grad_norm": 0.28278234601020813,
      "learning_rate": 0.00013747400527182953,
      "loss": 1.4292,
      "step": 991
    },
    {
      "epoch": 0.15476120829189335,
      "grad_norm": 0.3091171681880951,
      "learning_rate": 0.0001373538639801657,
      "loss": 1.2118,
      "step": 992
    },
    {
      "epoch": 0.15491721757444568,
      "grad_norm": 0.264275461435318,
      "learning_rate": 0.0001372336599965586,
      "loss": 1.2727,
      "step": 993
    },
    {
      "epoch": 0.15507322685699798,
      "grad_norm": 0.3125738799571991,
      "learning_rate": 0.00013711339352274966,
      "loss": 1.3389,
      "step": 994
    },
    {
      "epoch": 0.1552292361395503,
      "grad_norm": 0.2750801146030426,
      "learning_rate": 0.0001369930647605852,
      "loss": 1.1031,
      "step": 995
    },
    {
      "epoch": 0.1553852454221026,
      "grad_norm": 0.274777889251709,
      "learning_rate": 0.00013687267391201605,
      "loss": 1.4329,
      "step": 996
    },
    {
      "epoch": 0.15554125470465494,
      "grad_norm": 0.28475117683410645,
      "learning_rate": 0.00013675222117909717,
      "loss": 1.1914,
      "step": 997
    },
    {
      "epoch": 0.15569726398720724,
      "grad_norm": 0.27364879846572876,
      "learning_rate": 0.00013663170676398752,
      "loss": 1.1511,
      "step": 998
    },
    {
      "epoch": 0.15585327326975956,
      "grad_norm": 0.310995489358902,
      "learning_rate": 0.00013651113086894952,
      "loss": 1.0349,
      "step": 999
    },
    {
      "epoch": 0.15600928255231186,
      "grad_norm": 0.2910314202308655,
      "learning_rate": 0.00013639049369634876,
      "loss": 1.3302,
      "step": 1000
    },
    {
      "epoch": 0.15600928255231186,
      "eval_loss": 1.2771576642990112,
      "eval_runtime": 110.8263,
      "eval_samples_per_second": 38.556,
      "eval_steps_per_second": 4.827,
      "step": 1000
    }
  ],
  "logging_steps": 1,
  "max_steps": 2500,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 4.144559113202074e+16,
  "train_batch_size": 1,
  "trial_name": null,
  "trial_params": null
}