{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 3.6375757575757577,
  "eval_steps": 618,
  "global_step": 1500,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0024242424242424242,
      "grad_norm": 1.7425179481506348,
      "learning_rate": 4e-05,
      "loss": 1.7657,
      "step": 1
    },
    {
      "epoch": 0.0048484848484848485,
      "grad_norm": 1.6909098625183105,
      "learning_rate": 8e-05,
      "loss": 1.7918,
      "step": 2
    },
    {
      "epoch": 0.007272727272727273,
      "grad_norm": 1.2282295227050781,
      "learning_rate": 0.00012,
      "loss": 1.7756,
      "step": 3
    },
    {
      "epoch": 0.009696969696969697,
      "grad_norm": 1.8810029029846191,
      "learning_rate": 0.00016,
      "loss": 1.6995,
      "step": 4
    },
    {
      "epoch": 0.012121212121212121,
      "grad_norm": 0.9939211010932922,
      "learning_rate": 0.0002,
      "loss": 1.4088,
      "step": 5
    },
    {
      "epoch": 0.014545454545454545,
      "grad_norm": 1.343316912651062,
      "learning_rate": 0.00019990267639902678,
      "loss": 1.2618,
      "step": 6
    },
    {
      "epoch": 0.01696969696969697,
      "grad_norm": 1.3122458457946777,
      "learning_rate": 0.00019980535279805355,
      "loss": 1.0503,
      "step": 7
    },
    {
      "epoch": 0.019393939393939394,
      "grad_norm": 1.8026890754699707,
      "learning_rate": 0.0001997080291970803,
      "loss": 1.071,
      "step": 8
    },
    {
      "epoch": 0.02181818181818182,
      "grad_norm": 0.8950812816619873,
      "learning_rate": 0.00019961070559610706,
      "loss": 0.9272,
      "step": 9
    },
    {
      "epoch": 0.024242424242424242,
      "grad_norm": 0.6290344595909119,
      "learning_rate": 0.00019951338199513383,
      "loss": 0.8546,
      "step": 10
    },
    {
      "epoch": 0.02666666666666667,
      "grad_norm": 1.0111929178237915,
      "learning_rate": 0.0001994160583941606,
      "loss": 0.8405,
      "step": 11
    },
    {
      "epoch": 0.02909090909090909,
      "grad_norm": 0.9520079493522644,
      "learning_rate": 0.00019931873479318737,
      "loss": 0.734,
      "step": 12
    },
    {
      "epoch": 0.03151515151515152,
      "grad_norm": 0.36593878269195557,
      "learning_rate": 0.00019922141119221412,
      "loss": 0.6875,
      "step": 13
    },
    {
      "epoch": 0.03393939393939394,
      "grad_norm": 0.12287554889917374,
      "learning_rate": 0.0001991240875912409,
      "loss": 0.7272,
      "step": 14
    },
    {
      "epoch": 0.03636363636363636,
      "grad_norm": 0.18190374970436096,
      "learning_rate": 0.00019902676399026766,
      "loss": 0.715,
      "step": 15
    },
    {
      "epoch": 0.03878787878787879,
      "grad_norm": 0.17419151961803436,
      "learning_rate": 0.00019892944038929443,
      "loss": 0.7569,
      "step": 16
    },
    {
      "epoch": 0.041212121212121214,
      "grad_norm": 0.2105356752872467,
      "learning_rate": 0.0001988321167883212,
      "loss": 0.7141,
      "step": 17
    },
    {
      "epoch": 0.04363636363636364,
      "grad_norm": 0.1196451410651207,
      "learning_rate": 0.00019873479318734794,
      "loss": 0.667,
      "step": 18
    },
    {
      "epoch": 0.04606060606060606,
      "grad_norm": 0.14296391606330872,
      "learning_rate": 0.0001986374695863747,
      "loss": 0.6317,
      "step": 19
    },
    {
      "epoch": 0.048484848484848485,
      "grad_norm": 0.11963274329900742,
      "learning_rate": 0.00019854014598540148,
      "loss": 0.6304,
      "step": 20
    },
    {
      "epoch": 0.05090909090909091,
      "grad_norm": 0.12816332280635834,
      "learning_rate": 0.00019844282238442825,
      "loss": 0.6017,
      "step": 21
    },
    {
      "epoch": 0.05333333333333334,
      "grad_norm": 0.11013495177030563,
      "learning_rate": 0.00019834549878345502,
      "loss": 0.6208,
      "step": 22
    },
    {
      "epoch": 0.055757575757575756,
      "grad_norm": 0.10363325476646423,
      "learning_rate": 0.00019824817518248176,
      "loss": 0.6037,
      "step": 23
    },
    {
      "epoch": 0.05818181818181818,
      "grad_norm": 0.1047598198056221,
      "learning_rate": 0.00019815085158150853,
      "loss": 0.5931,
      "step": 24
    },
    {
      "epoch": 0.06060606060606061,
      "grad_norm": 0.10422267019748688,
      "learning_rate": 0.0001980535279805353,
      "loss": 0.6402,
      "step": 25
    },
    {
      "epoch": 0.06303030303030303,
      "grad_norm": 0.08431805670261383,
      "learning_rate": 0.00019795620437956205,
      "loss": 0.5861,
      "step": 26
    },
    {
      "epoch": 0.06545454545454546,
      "grad_norm": 0.13943104445934296,
      "learning_rate": 0.00019785888077858882,
      "loss": 0.5996,
      "step": 27
    },
    {
      "epoch": 0.06787878787878789,
      "grad_norm": 0.10621320456266403,
      "learning_rate": 0.0001977615571776156,
      "loss": 0.6052,
      "step": 28
    },
    {
      "epoch": 0.0703030303030303,
      "grad_norm": 0.08163227140903473,
      "learning_rate": 0.00019766423357664233,
      "loss": 0.5941,
      "step": 29
    },
    {
      "epoch": 0.07272727272727272,
      "grad_norm": 0.07070121169090271,
      "learning_rate": 0.0001975669099756691,
      "loss": 0.5825,
      "step": 30
    },
    {
      "epoch": 0.07515151515151515,
      "grad_norm": 0.07085420191287994,
      "learning_rate": 0.00019746958637469587,
      "loss": 0.5675,
      "step": 31
    },
    {
      "epoch": 0.07757575757575758,
      "grad_norm": 0.08051861077547073,
      "learning_rate": 0.00019737226277372262,
      "loss": 0.5848,
      "step": 32
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.08641697466373444,
      "learning_rate": 0.00019727493917274939,
      "loss": 0.6357,
      "step": 33
    },
    {
      "epoch": 0.08242424242424243,
      "grad_norm": 0.07897619158029556,
      "learning_rate": 0.00019717761557177616,
      "loss": 0.6031,
      "step": 34
    },
    {
      "epoch": 0.08484848484848485,
      "grad_norm": 0.0772792249917984,
      "learning_rate": 0.00019708029197080293,
      "loss": 0.6103,
      "step": 35
    },
    {
      "epoch": 0.08727272727272728,
      "grad_norm": 0.07374991476535797,
      "learning_rate": 0.0001969829683698297,
      "loss": 0.6383,
      "step": 36
    },
    {
      "epoch": 0.08969696969696969,
      "grad_norm": 0.0848601683974266,
      "learning_rate": 0.00019688564476885644,
      "loss": 0.5904,
      "step": 37
    },
    {
      "epoch": 0.09212121212121212,
      "grad_norm": 0.15618138015270233,
      "learning_rate": 0.0001967883211678832,
      "loss": 0.6137,
      "step": 38
    },
    {
      "epoch": 0.09454545454545454,
      "grad_norm": 0.08134500682353973,
      "learning_rate": 0.00019669099756690998,
      "loss": 0.5945,
      "step": 39
    },
    {
      "epoch": 0.09696969696969697,
      "grad_norm": 0.06627924740314484,
      "learning_rate": 0.00019659367396593675,
      "loss": 0.5549,
      "step": 40
    },
    {
      "epoch": 0.0993939393939394,
      "grad_norm": 0.0704004094004631,
      "learning_rate": 0.00019649635036496352,
      "loss": 0.5591,
      "step": 41
    },
    {
      "epoch": 0.10181818181818182,
      "grad_norm": 0.6976714134216309,
      "learning_rate": 0.00019639902676399026,
      "loss": 0.6126,
      "step": 42
    },
    {
      "epoch": 0.10424242424242425,
      "grad_norm": 0.07345545291900635,
      "learning_rate": 0.00019630170316301703,
      "loss": 0.6015,
      "step": 43
    },
    {
      "epoch": 0.10666666666666667,
      "grad_norm": 0.25629881024360657,
      "learning_rate": 0.0001962043795620438,
      "loss": 0.5671,
      "step": 44
    },
    {
      "epoch": 0.10909090909090909,
      "grad_norm": 0.17710916697978973,
      "learning_rate": 0.00019610705596107057,
      "loss": 0.6061,
      "step": 45
    },
    {
      "epoch": 0.11151515151515151,
      "grad_norm": 0.06087492033839226,
      "learning_rate": 0.00019600973236009734,
      "loss": 0.5632,
      "step": 46
    },
    {
      "epoch": 0.11393939393939394,
      "grad_norm": 0.11297113448381424,
      "learning_rate": 0.0001959124087591241,
      "loss": 0.5791,
      "step": 47
    },
    {
      "epoch": 0.11636363636363636,
      "grad_norm": 0.06977778673171997,
      "learning_rate": 0.00019581508515815086,
      "loss": 0.5795,
      "step": 48
    },
    {
      "epoch": 0.11878787878787879,
      "grad_norm": 0.07200987637042999,
      "learning_rate": 0.00019571776155717763,
      "loss": 0.6072,
      "step": 49
    },
    {
      "epoch": 0.12121212121212122,
      "grad_norm": 0.08989960700273514,
      "learning_rate": 0.0001956204379562044,
      "loss": 0.5589,
      "step": 50
    },
    {
      "epoch": 0.12363636363636364,
      "grad_norm": 0.5294026136398315,
      "learning_rate": 0.00019552311435523117,
      "loss": 0.5807,
      "step": 51
    },
    {
      "epoch": 0.12606060606060607,
      "grad_norm": 0.08921587467193604,
      "learning_rate": 0.0001954257907542579,
      "loss": 0.5439,
      "step": 52
    },
    {
      "epoch": 0.12848484848484848,
      "grad_norm": 0.07092791050672531,
      "learning_rate": 0.00019532846715328468,
      "loss": 0.5879,
      "step": 53
    },
    {
      "epoch": 0.13090909090909092,
      "grad_norm": 0.07337342947721481,
      "learning_rate": 0.00019523114355231145,
      "loss": 0.5856,
      "step": 54
    },
    {
      "epoch": 0.13333333333333333,
      "grad_norm": 0.5336478352546692,
      "learning_rate": 0.00019513381995133822,
      "loss": 1.679,
      "step": 55
    },
    {
      "epoch": 0.13575757575757577,
      "grad_norm": 0.06451793015003204,
      "learning_rate": 0.000195036496350365,
      "loss": 0.5831,
      "step": 56
    },
    {
      "epoch": 0.13818181818181818,
      "grad_norm": 0.06546330451965332,
      "learning_rate": 0.00019493917274939173,
      "loss": 0.529,
      "step": 57
    },
    {
      "epoch": 0.1406060606060606,
      "grad_norm": 0.06920003890991211,
      "learning_rate": 0.0001948418491484185,
      "loss": 0.5711,
      "step": 58
    },
    {
      "epoch": 0.14303030303030304,
      "grad_norm": 3.3777191638946533,
      "learning_rate": 0.00019474452554744528,
      "loss": 0.5884,
      "step": 59
    },
    {
      "epoch": 0.14545454545454545,
      "grad_norm": 0.09820184111595154,
      "learning_rate": 0.00019464720194647205,
      "loss": 0.5955,
      "step": 60
    },
    {
      "epoch": 0.1478787878787879,
      "grad_norm": 0.06972799450159073,
      "learning_rate": 0.00019454987834549882,
      "loss": 0.608,
      "step": 61
    },
    {
      "epoch": 0.1503030303030303,
      "grad_norm": 0.08447355777025223,
      "learning_rate": 0.00019445255474452556,
      "loss": 0.5647,
      "step": 62
    },
    {
      "epoch": 0.15272727272727274,
      "grad_norm": 0.06691451370716095,
      "learning_rate": 0.00019435523114355233,
      "loss": 0.6071,
      "step": 63
    },
    {
      "epoch": 0.15515151515151515,
      "grad_norm": 0.07997488230466843,
      "learning_rate": 0.0001942579075425791,
      "loss": 0.55,
      "step": 64
    },
    {
      "epoch": 0.15757575757575756,
      "grad_norm": 0.09458561986684799,
      "learning_rate": 0.00019416058394160587,
      "loss": 0.5669,
      "step": 65
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.0648735761642456,
      "learning_rate": 0.0001940632603406326,
      "loss": 0.5622,
      "step": 66
    },
    {
      "epoch": 0.16242424242424242,
      "grad_norm": 0.06812532991170883,
      "learning_rate": 0.00019396593673965938,
      "loss": 0.5565,
      "step": 67
    },
    {
      "epoch": 0.16484848484848486,
      "grad_norm": 0.0666588842868805,
      "learning_rate": 0.00019386861313868615,
      "loss": 0.6002,
      "step": 68
    },
    {
      "epoch": 0.16727272727272727,
      "grad_norm": 0.06052225083112717,
      "learning_rate": 0.0001937712895377129,
      "loss": 0.5874,
      "step": 69
    },
    {
      "epoch": 0.1696969696969697,
      "grad_norm": 0.06878744065761566,
      "learning_rate": 0.00019367396593673967,
      "loss": 0.5814,
      "step": 70
    },
    {
      "epoch": 0.17212121212121212,
      "grad_norm": 0.0665239542722702,
      "learning_rate": 0.00019357664233576644,
      "loss": 0.5692,
      "step": 71
    },
    {
      "epoch": 0.17454545454545456,
      "grad_norm": 0.07615058124065399,
      "learning_rate": 0.00019347931873479318,
      "loss": 0.593,
      "step": 72
    },
    {
      "epoch": 0.17696969696969697,
      "grad_norm": 0.100388303399086,
      "learning_rate": 0.00019338199513381995,
      "loss": 0.6094,
      "step": 73
    },
    {
      "epoch": 0.17939393939393938,
      "grad_norm": 0.06404981017112732,
      "learning_rate": 0.00019328467153284672,
      "loss": 0.5648,
      "step": 74
    },
    {
      "epoch": 0.18181818181818182,
      "grad_norm": 0.0599268339574337,
      "learning_rate": 0.0001931873479318735,
      "loss": 0.5705,
      "step": 75
    },
    {
      "epoch": 0.18424242424242424,
      "grad_norm": 0.07185366749763489,
      "learning_rate": 0.00019309002433090023,
      "loss": 0.5706,
      "step": 76
    },
    {
      "epoch": 0.18666666666666668,
      "grad_norm": 0.07109599560499191,
      "learning_rate": 0.000192992700729927,
      "loss": 0.5911,
      "step": 77
    },
    {
      "epoch": 0.1890909090909091,
      "grad_norm": 0.0685252696275711,
      "learning_rate": 0.00019289537712895377,
      "loss": 0.5534,
      "step": 78
    },
    {
      "epoch": 0.19151515151515153,
      "grad_norm": 0.06272438168525696,
      "learning_rate": 0.00019279805352798054,
      "loss": 0.5589,
      "step": 79
    },
    {
      "epoch": 0.19393939393939394,
      "grad_norm": 0.07795873284339905,
      "learning_rate": 0.00019270072992700731,
      "loss": 0.573,
      "step": 80
    },
    {
      "epoch": 0.19636363636363635,
      "grad_norm": 0.07623926550149918,
      "learning_rate": 0.00019260340632603406,
      "loss": 0.579,
      "step": 81
    },
    {
      "epoch": 0.1987878787878788,
      "grad_norm": 0.08499354869127274,
      "learning_rate": 0.00019250608272506083,
      "loss": 0.5803,
      "step": 82
    },
    {
      "epoch": 0.2012121212121212,
      "grad_norm": 0.0631449818611145,
      "learning_rate": 0.0001924087591240876,
      "loss": 0.5462,
      "step": 83
    },
    {
      "epoch": 0.20363636363636364,
      "grad_norm": 0.06587008386850357,
      "learning_rate": 0.00019231143552311437,
      "loss": 0.555,
      "step": 84
    },
    {
      "epoch": 0.20606060606060606,
      "grad_norm": 0.0610431507229805,
      "learning_rate": 0.00019221411192214114,
      "loss": 0.5618,
      "step": 85
    },
    {
      "epoch": 0.2084848484848485,
      "grad_norm": 0.07323484122753143,
      "learning_rate": 0.00019211678832116788,
      "loss": 0.5598,
      "step": 86
    },
    {
      "epoch": 0.2109090909090909,
      "grad_norm": 0.06744620203971863,
      "learning_rate": 0.00019201946472019465,
      "loss": 0.5689,
      "step": 87
    },
    {
      "epoch": 0.21333333333333335,
      "grad_norm": 0.06995084136724472,
      "learning_rate": 0.00019192214111922142,
      "loss": 0.5544,
      "step": 88
    },
    {
      "epoch": 0.21575757575757576,
      "grad_norm": 0.06571096181869507,
      "learning_rate": 0.0001918248175182482,
      "loss": 0.5606,
      "step": 89
    },
    {
      "epoch": 0.21818181818181817,
      "grad_norm": 0.060402851551771164,
      "learning_rate": 0.00019172749391727496,
      "loss": 0.5732,
      "step": 90
    },
    {
      "epoch": 0.2206060606060606,
      "grad_norm": 0.070176862180233,
      "learning_rate": 0.0001916301703163017,
      "loss": 0.5872,
      "step": 91
    },
    {
      "epoch": 0.22303030303030302,
      "grad_norm": 0.0692034438252449,
      "learning_rate": 0.00019153284671532847,
      "loss": 0.5976,
      "step": 92
    },
    {
      "epoch": 0.22545454545454546,
      "grad_norm": 0.06749644130468369,
      "learning_rate": 0.00019143552311435524,
      "loss": 0.5625,
      "step": 93
    },
    {
      "epoch": 0.22787878787878788,
      "grad_norm": 0.06651509553194046,
      "learning_rate": 0.00019133819951338202,
      "loss": 0.5408,
      "step": 94
    },
    {
      "epoch": 0.23030303030303031,
      "grad_norm": 0.06177860498428345,
      "learning_rate": 0.00019124087591240879,
      "loss": 0.5678,
      "step": 95
    },
    {
      "epoch": 0.23272727272727273,
      "grad_norm": 0.06545785069465637,
      "learning_rate": 0.00019114355231143553,
      "loss": 0.5383,
      "step": 96
    },
    {
      "epoch": 0.23515151515151514,
      "grad_norm": 0.06618417799472809,
      "learning_rate": 0.0001910462287104623,
      "loss": 0.5664,
      "step": 97
    },
    {
      "epoch": 0.23757575757575758,
      "grad_norm": 0.061648230999708176,
      "learning_rate": 0.00019094890510948907,
      "loss": 0.5498,
      "step": 98
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.06203509122133255,
      "learning_rate": 0.00019085158150851584,
      "loss": 0.5755,
      "step": 99
    },
    {
      "epoch": 0.24242424242424243,
      "grad_norm": 0.06885362416505814,
      "learning_rate": 0.00019075425790754258,
      "loss": 0.5642,
      "step": 100
    },
    {
      "epoch": 0.24484848484848484,
      "grad_norm": 0.06191356107592583,
      "learning_rate": 0.00019065693430656935,
      "loss": 0.5454,
      "step": 101
    },
    {
      "epoch": 0.24727272727272728,
      "grad_norm": 0.15593962371349335,
      "learning_rate": 0.00019055961070559612,
      "loss": 0.5988,
      "step": 102
    },
    {
      "epoch": 0.2496969696969697,
      "grad_norm": 0.06816019117832184,
      "learning_rate": 0.0001904622871046229,
      "loss": 0.6034,
      "step": 103
    },
    {
      "epoch": 0.25212121212121213,
      "grad_norm": 0.060558732599020004,
      "learning_rate": 0.00019036496350364966,
      "loss": 0.5684,
      "step": 104
    },
    {
      "epoch": 0.2545454545454545,
      "grad_norm": 0.059038061648607254,
      "learning_rate": 0.0001902676399026764,
      "loss": 0.5216,
      "step": 105
    },
    {
      "epoch": 0.25696969696969696,
      "grad_norm": 0.06160209700465202,
      "learning_rate": 0.00019017031630170318,
      "loss": 0.5284,
      "step": 106
    },
    {
      "epoch": 0.2593939393939394,
      "grad_norm": 0.05982833728194237,
      "learning_rate": 0.00019007299270072995,
      "loss": 0.5436,
      "step": 107
    },
    {
      "epoch": 0.26181818181818184,
      "grad_norm": 0.08275666832923889,
      "learning_rate": 0.00018997566909975672,
      "loss": 0.5366,
      "step": 108
    },
    {
      "epoch": 0.2642424242424242,
      "grad_norm": 0.06408876925706863,
      "learning_rate": 0.00018987834549878346,
      "loss": 0.5642,
      "step": 109
    },
    {
      "epoch": 0.26666666666666666,
      "grad_norm": 0.06569265574216843,
      "learning_rate": 0.00018978102189781023,
      "loss": 0.5486,
      "step": 110
    },
    {
      "epoch": 0.2690909090909091,
      "grad_norm": 0.0659552663564682,
      "learning_rate": 0.000189683698296837,
      "loss": 0.5476,
      "step": 111
    },
    {
      "epoch": 0.27151515151515154,
      "grad_norm": 0.06666216254234314,
      "learning_rate": 0.00018958637469586374,
      "loss": 0.5522,
      "step": 112
    },
    {
      "epoch": 0.2739393939393939,
      "grad_norm": 0.064473956823349,
      "learning_rate": 0.0001894890510948905,
      "loss": 0.5607,
      "step": 113
    },
    {
      "epoch": 0.27636363636363637,
      "grad_norm": 0.07233359664678574,
      "learning_rate": 0.00018939172749391728,
      "loss": 0.5706,
      "step": 114
    },
    {
      "epoch": 0.2787878787878788,
      "grad_norm": 0.061200112104415894,
      "learning_rate": 0.00018929440389294403,
      "loss": 0.5442,
      "step": 115
    },
    {
      "epoch": 0.2812121212121212,
      "grad_norm": 0.060941025614738464,
      "learning_rate": 0.0001891970802919708,
      "loss": 0.5378,
      "step": 116
    },
    {
      "epoch": 0.28363636363636363,
      "grad_norm": 0.0607539638876915,
      "learning_rate": 0.00018909975669099757,
      "loss": 0.5365,
      "step": 117
    },
    {
      "epoch": 0.28606060606060607,
      "grad_norm": 0.12834005057811737,
      "learning_rate": 0.00018900243309002434,
      "loss": 0.5524,
      "step": 118
    },
    {
      "epoch": 0.2884848484848485,
      "grad_norm": 0.06871786713600159,
      "learning_rate": 0.0001889051094890511,
      "loss": 0.5603,
      "step": 119
    },
    {
      "epoch": 0.2909090909090909,
      "grad_norm": 0.06357085704803467,
      "learning_rate": 0.00018880778588807785,
      "loss": 0.5376,
      "step": 120
    },
    {
      "epoch": 0.29333333333333333,
      "grad_norm": 0.07983007282018661,
      "learning_rate": 0.00018871046228710462,
      "loss": 0.5754,
      "step": 121
    },
    {
      "epoch": 0.2957575757575758,
      "grad_norm": 0.06719958037137985,
      "learning_rate": 0.0001886131386861314,
      "loss": 0.5762,
      "step": 122
    },
    {
      "epoch": 0.29818181818181816,
      "grad_norm": 0.06584449857473373,
      "learning_rate": 0.00018851581508515816,
      "loss": 0.5525,
      "step": 123
    },
    {
      "epoch": 0.3006060606060606,
      "grad_norm": 0.08049803972244263,
      "learning_rate": 0.00018841849148418493,
      "loss": 0.5523,
      "step": 124
    },
    {
      "epoch": 0.30303030303030304,
      "grad_norm": 0.08848906308412552,
      "learning_rate": 0.00018832116788321167,
      "loss": 0.5374,
      "step": 125
    },
    {
      "epoch": 0.3054545454545455,
      "grad_norm": 0.07101805508136749,
      "learning_rate": 0.00018822384428223844,
      "loss": 0.5503,
      "step": 126
    },
    {
      "epoch": 0.30787878787878786,
      "grad_norm": 0.06706050038337708,
      "learning_rate": 0.00018812652068126521,
      "loss": 0.5544,
      "step": 127
    },
    {
      "epoch": 0.3103030303030303,
      "grad_norm": 0.06253364682197571,
      "learning_rate": 0.00018802919708029198,
      "loss": 0.5825,
      "step": 128
    },
    {
      "epoch": 0.31272727272727274,
      "grad_norm": 0.0666712075471878,
      "learning_rate": 0.00018793187347931876,
      "loss": 0.5505,
      "step": 129
    },
    {
      "epoch": 0.3151515151515151,
      "grad_norm": 0.06335099041461945,
      "learning_rate": 0.0001878345498783455,
      "loss": 0.566,
      "step": 130
    },
    {
      "epoch": 0.31757575757575757,
      "grad_norm": 0.06576841324567795,
      "learning_rate": 0.00018773722627737227,
      "loss": 0.5576,
      "step": 131
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.06052207574248314,
      "learning_rate": 0.00018763990267639904,
      "loss": 0.5496,
      "step": 132
    },
    {
      "epoch": 0.32242424242424245,
      "grad_norm": 0.06990842521190643,
      "learning_rate": 0.0001875425790754258,
      "loss": 0.5787,
      "step": 133
    },
    {
      "epoch": 0.32484848484848483,
      "grad_norm": 0.06944089382886887,
      "learning_rate": 0.00018744525547445258,
      "loss": 0.5823,
      "step": 134
    },
    {
      "epoch": 0.32727272727272727,
      "grad_norm": 0.05838549882173538,
      "learning_rate": 0.00018734793187347932,
      "loss": 0.5645,
      "step": 135
    },
    {
      "epoch": 0.3296969696969697,
      "grad_norm": 0.06813778728246689,
      "learning_rate": 0.0001872506082725061,
      "loss": 0.5829,
      "step": 136
    },
    {
      "epoch": 0.3321212121212121,
      "grad_norm": 0.0651688352227211,
      "learning_rate": 0.00018715328467153286,
      "loss": 0.5696,
      "step": 137
    },
    {
      "epoch": 0.33454545454545453,
      "grad_norm": 0.058600135147571564,
      "learning_rate": 0.00018705596107055963,
      "loss": 0.5472,
      "step": 138
    },
    {
      "epoch": 0.336969696969697,
      "grad_norm": 0.09631790220737457,
      "learning_rate": 0.00018695863746958638,
      "loss": 0.5452,
      "step": 139
    },
    {
      "epoch": 0.3393939393939394,
      "grad_norm": 0.061679765582084656,
      "learning_rate": 0.00018686131386861315,
      "loss": 0.5637,
      "step": 140
    },
    {
      "epoch": 0.3418181818181818,
      "grad_norm": 0.05879385769367218,
      "learning_rate": 0.00018676399026763992,
      "loss": 0.5413,
      "step": 141
    },
    {
      "epoch": 0.34424242424242424,
      "grad_norm": 0.0700845718383789,
      "learning_rate": 0.0001866666666666667,
      "loss": 0.5391,
      "step": 142
    },
    {
      "epoch": 0.3466666666666667,
      "grad_norm": 0.0675090104341507,
      "learning_rate": 0.00018656934306569346,
      "loss": 0.5535,
      "step": 143
    },
    {
      "epoch": 0.3490909090909091,
      "grad_norm": 0.10042846202850342,
      "learning_rate": 0.0001864720194647202,
      "loss": 0.5643,
      "step": 144
    },
    {
      "epoch": 0.3515151515151515,
      "grad_norm": 0.06561391055583954,
      "learning_rate": 0.00018637469586374697,
      "loss": 0.5535,
      "step": 145
    },
    {
      "epoch": 0.35393939393939394,
      "grad_norm": 0.06090841069817543,
      "learning_rate": 0.00018627737226277374,
      "loss": 0.5658,
      "step": 146
    },
    {
      "epoch": 0.3563636363636364,
      "grad_norm": 0.06215941533446312,
      "learning_rate": 0.0001861800486618005,
      "loss": 0.5333,
      "step": 147
    },
    {
      "epoch": 0.35878787878787877,
      "grad_norm": 0.057674869894981384,
      "learning_rate": 0.00018608272506082728,
      "loss": 0.5822,
      "step": 148
    },
    {
      "epoch": 0.3612121212121212,
      "grad_norm": 0.05976865440607071,
      "learning_rate": 0.00018598540145985402,
      "loss": 0.562,
      "step": 149
    },
    {
      "epoch": 0.36363636363636365,
      "grad_norm": 0.06777815520763397,
      "learning_rate": 0.0001858880778588808,
      "loss": 0.553,
      "step": 150
    },
    {
      "epoch": 0.3660606060606061,
      "grad_norm": 0.0646166056394577,
      "learning_rate": 0.00018579075425790756,
      "loss": 0.5239,
      "step": 151
    },
    {
      "epoch": 0.36848484848484847,
      "grad_norm": 0.12189126014709473,
      "learning_rate": 0.0001856934306569343,
      "loss": 0.5609,
      "step": 152
    },
    {
      "epoch": 0.3709090909090909,
      "grad_norm": 0.06082267314195633,
      "learning_rate": 0.00018559610705596108,
      "loss": 0.5682,
      "step": 153
    },
    {
      "epoch": 0.37333333333333335,
      "grad_norm": 0.07489784806966782,
      "learning_rate": 0.00018549878345498785,
      "loss": 0.5575,
      "step": 154
    },
    {
      "epoch": 0.37575757575757573,
      "grad_norm": 0.06415938585996628,
      "learning_rate": 0.0001854014598540146,
      "loss": 0.5799,
      "step": 155
    },
    {
      "epoch": 0.3781818181818182,
      "grad_norm": 0.0640651062130928,
      "learning_rate": 0.00018530413625304136,
      "loss": 0.5654,
      "step": 156
    },
    {
      "epoch": 0.3806060606060606,
      "grad_norm": 0.06074777990579605,
      "learning_rate": 0.00018520681265206813,
      "loss": 0.5819,
      "step": 157
    },
    {
      "epoch": 0.38303030303030305,
      "grad_norm": 0.060014959424734116,
      "learning_rate": 0.0001851094890510949,
      "loss": 0.5461,
      "step": 158
    },
    {
      "epoch": 0.38545454545454544,
      "grad_norm": 0.06002107262611389,
      "learning_rate": 0.00018501216545012164,
      "loss": 0.5368,
      "step": 159
    },
    {
      "epoch": 0.3878787878787879,
      "grad_norm": 0.061761707067489624,
      "learning_rate": 0.00018491484184914841,
      "loss": 0.5678,
      "step": 160
    },
    {
      "epoch": 0.3903030303030303,
      "grad_norm": 0.06580917537212372,
      "learning_rate": 0.00018481751824817518,
      "loss": 0.5362,
      "step": 161
    },
    {
      "epoch": 0.3927272727272727,
      "grad_norm": 0.06305402517318726,
      "learning_rate": 0.00018472019464720195,
      "loss": 0.566,
      "step": 162
    },
    {
      "epoch": 0.39515151515151514,
      "grad_norm": 0.07035670429468155,
      "learning_rate": 0.00018462287104622873,
      "loss": 0.5765,
      "step": 163
    },
    {
      "epoch": 0.3975757575757576,
      "grad_norm": 0.06285785883665085,
      "learning_rate": 0.00018452554744525547,
      "loss": 0.5454,
      "step": 164
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.06579060107469559,
      "learning_rate": 0.00018442822384428224,
      "loss": 0.5696,
      "step": 165
    },
    {
      "epoch": 0.4024242424242424,
      "grad_norm": 0.06274209171533585,
      "learning_rate": 0.000184330900243309,
      "loss": 0.5406,
      "step": 166
    },
    {
      "epoch": 0.40484848484848485,
      "grad_norm": 0.05804755166172981,
      "learning_rate": 0.00018423357664233578,
      "loss": 0.5294,
      "step": 167
    },
    {
      "epoch": 0.4072727272727273,
      "grad_norm": 0.06430191546678543,
      "learning_rate": 0.00018413625304136255,
      "loss": 0.526,
      "step": 168
    },
    {
      "epoch": 0.40969696969696967,
      "grad_norm": 0.13350482285022736,
      "learning_rate": 0.0001840389294403893,
      "loss": 0.5682,
      "step": 169
    },
    {
      "epoch": 0.4121212121212121,
      "grad_norm": 0.07210890203714371,
      "learning_rate": 0.00018394160583941606,
      "loss": 0.5775,
      "step": 170
    },
    {
      "epoch": 0.41454545454545455,
      "grad_norm": 0.05939320847392082,
      "learning_rate": 0.00018384428223844283,
      "loss": 0.5245,
      "step": 171
    },
    {
      "epoch": 0.416969696969697,
      "grad_norm": 0.06696563214063644,
      "learning_rate": 0.0001837469586374696,
      "loss": 0.5961,
      "step": 172
    },
    {
      "epoch": 0.4193939393939394,
      "grad_norm": 0.05933167412877083,
      "learning_rate": 0.00018364963503649637,
      "loss": 0.5246,
      "step": 173
    },
    {
      "epoch": 0.4218181818181818,
      "grad_norm": 0.08005242049694061,
      "learning_rate": 0.00018355231143552312,
      "loss": 0.5503,
      "step": 174
    },
    {
      "epoch": 0.42424242424242425,
      "grad_norm": 0.06471698731184006,
      "learning_rate": 0.00018345498783454989,
      "loss": 0.5333,
      "step": 175
    },
    {
      "epoch": 0.4266666666666667,
      "grad_norm": 0.05958030745387077,
      "learning_rate": 0.00018335766423357666,
      "loss": 0.5393,
      "step": 176
    },
    {
      "epoch": 0.4290909090909091,
      "grad_norm": 0.05842345580458641,
      "learning_rate": 0.00018326034063260343,
      "loss": 0.5612,
      "step": 177
    },
    {
      "epoch": 0.4315151515151515,
      "grad_norm": 0.0645299032330513,
      "learning_rate": 0.00018316301703163017,
      "loss": 0.5457,
      "step": 178
    },
    {
      "epoch": 0.43393939393939396,
      "grad_norm": 0.06129203736782074,
      "learning_rate": 0.00018306569343065694,
      "loss": 0.5447,
      "step": 179
    },
    {
      "epoch": 0.43636363636363634,
      "grad_norm": 0.0591256208717823,
      "learning_rate": 0.0001829683698296837,
      "loss": 0.5796,
      "step": 180
    },
    {
      "epoch": 0.4387878787878788,
      "grad_norm": 0.06893151998519897,
      "learning_rate": 0.00018287104622871048,
      "loss": 0.5528,
      "step": 181
    },
    {
      "epoch": 0.4412121212121212,
      "grad_norm": 0.06359567493200302,
      "learning_rate": 0.00018277372262773725,
      "loss": 0.5677,
      "step": 182
    },
    {
      "epoch": 0.44363636363636366,
      "grad_norm": 0.059533968567848206,
      "learning_rate": 0.000182676399026764,
      "loss": 0.5554,
      "step": 183
    },
    {
      "epoch": 0.44606060606060605,
      "grad_norm": 0.06985704600811005,
      "learning_rate": 0.00018257907542579076,
      "loss": 0.541,
      "step": 184
    },
    {
      "epoch": 0.4484848484848485,
      "grad_norm": 0.0740571990609169,
      "learning_rate": 0.00018248175182481753,
      "loss": 0.5421,
      "step": 185
    },
    {
      "epoch": 0.4509090909090909,
      "grad_norm": 0.06296324729919434,
      "learning_rate": 0.0001823844282238443,
      "loss": 0.5511,
      "step": 186
    },
    {
      "epoch": 0.4533333333333333,
      "grad_norm": 0.0589432567358017,
      "learning_rate": 0.00018228710462287107,
      "loss": 0.5516,
      "step": 187
    },
    {
      "epoch": 0.45575757575757575,
      "grad_norm": 0.11923418194055557,
      "learning_rate": 0.00018218978102189782,
      "loss": 0.5655,
      "step": 188
    },
    {
      "epoch": 0.4581818181818182,
      "grad_norm": 0.06673496216535568,
      "learning_rate": 0.0001820924574209246,
      "loss": 0.5642,
      "step": 189
    },
    {
      "epoch": 0.46060606060606063,
      "grad_norm": 0.06538072228431702,
      "learning_rate": 0.00018199513381995136,
      "loss": 0.5686,
      "step": 190
    },
    {
      "epoch": 0.463030303030303,
      "grad_norm": 0.06611759960651398,
      "learning_rate": 0.00018189781021897813,
      "loss": 0.5649,
      "step": 191
    },
    {
      "epoch": 0.46545454545454545,
      "grad_norm": 0.06542181223630905,
      "learning_rate": 0.00018180048661800487,
      "loss": 0.5631,
      "step": 192
    },
    {
      "epoch": 0.4678787878787879,
      "grad_norm": 0.06455749273300171,
      "learning_rate": 0.00018170316301703164,
      "loss": 0.5361,
      "step": 193
    },
    {
      "epoch": 0.4703030303030303,
      "grad_norm": 0.0632220059633255,
      "learning_rate": 0.0001816058394160584,
      "loss": 0.5332,
      "step": 194
    },
    {
      "epoch": 0.4727272727272727,
      "grad_norm": 0.06765448302030563,
      "learning_rate": 0.00018150851581508515,
      "loss": 0.5538,
      "step": 195
    },
    {
      "epoch": 0.47515151515151516,
      "grad_norm": 0.0653989240527153,
      "learning_rate": 0.00018141119221411192,
      "loss": 0.5404,
      "step": 196
    },
    {
      "epoch": 0.4775757575757576,
      "grad_norm": 0.0783257856965065,
      "learning_rate": 0.0001813138686131387,
      "loss": 0.5567,
      "step": 197
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.056732699275016785,
      "learning_rate": 0.00018121654501216544,
      "loss": 0.5546,
      "step": 198
    },
    {
      "epoch": 0.4824242424242424,
      "grad_norm": 0.06991420686244965,
      "learning_rate": 0.0001811192214111922,
      "loss": 0.5645,
      "step": 199
    },
    {
      "epoch": 0.48484848484848486,
      "grad_norm": 0.07767068594694138,
      "learning_rate": 0.00018102189781021898,
      "loss": 0.5714,
      "step": 200
    },
    {
      "epoch": 0.48727272727272725,
      "grad_norm": 0.07061710208654404,
      "learning_rate": 0.00018092457420924575,
      "loss": 0.5477,
      "step": 201
    },
    {
      "epoch": 0.4896969696969697,
      "grad_norm": 0.06803636997938156,
      "learning_rate": 0.00018082725060827252,
      "loss": 0.5754,
      "step": 202
    },
    {
      "epoch": 0.4921212121212121,
      "grad_norm": 0.05597437545657158,
      "learning_rate": 0.00018072992700729926,
      "loss": 0.5327,
      "step": 203
    },
    {
      "epoch": 0.49454545454545457,
      "grad_norm": 0.05977711081504822,
      "learning_rate": 0.00018063260340632603,
      "loss": 0.5676,
      "step": 204
    },
    {
      "epoch": 0.49696969696969695,
      "grad_norm": 0.06017453595995903,
      "learning_rate": 0.0001805352798053528,
      "loss": 0.5603,
      "step": 205
    },
    {
      "epoch": 0.4993939393939394,
      "grad_norm": 0.07916443794965744,
      "learning_rate": 0.00018043795620437957,
      "loss": 0.5563,
      "step": 206
    },
    {
      "epoch": 0.5018181818181818,
      "grad_norm": 0.05583438277244568,
      "learning_rate": 0.00018034063260340634,
      "loss": 0.5204,
      "step": 207
    },
    {
      "epoch": 0.5042424242424243,
      "grad_norm": 0.07012349367141724,
      "learning_rate": 0.00018024330900243309,
      "loss": 0.5661,
      "step": 208
    },
    {
      "epoch": 0.5066666666666667,
      "grad_norm": 0.057964831590652466,
      "learning_rate": 0.00018014598540145986,
      "loss": 0.5456,
      "step": 209
    },
    {
      "epoch": 0.509090909090909,
      "grad_norm": 1.3452612161636353,
      "learning_rate": 0.00018004866180048663,
      "loss": 0.5323,
      "step": 210
    },
    {
      "epoch": 0.5115151515151515,
      "grad_norm": 0.06258725374937057,
      "learning_rate": 0.0001799513381995134,
      "loss": 0.5459,
      "step": 211
    },
    {
      "epoch": 0.5139393939393939,
      "grad_norm": 0.06114456430077553,
      "learning_rate": 0.00017985401459854014,
      "loss": 0.5225,
      "step": 212
    },
    {
      "epoch": 0.5163636363636364,
      "grad_norm": 0.06262862682342529,
      "learning_rate": 0.0001797566909975669,
      "loss": 0.5454,
      "step": 213
    },
    {
      "epoch": 0.5187878787878788,
      "grad_norm": 0.09649477154016495,
      "learning_rate": 0.00017965936739659368,
      "loss": 0.546,
      "step": 214
    },
    {
      "epoch": 0.5212121212121212,
      "grad_norm": 0.06361106783151627,
      "learning_rate": 0.00017956204379562045,
      "loss": 0.5355,
      "step": 215
    },
    {
      "epoch": 0.5236363636363637,
      "grad_norm": 0.061119530349969864,
      "learning_rate": 0.00017946472019464722,
      "loss": 0.5451,
      "step": 216
    },
    {
      "epoch": 0.526060606060606,
      "grad_norm": 0.07254000008106232,
      "learning_rate": 0.00017936739659367396,
      "loss": 0.5436,
      "step": 217
    },
    {
      "epoch": 0.5284848484848484,
      "grad_norm": 0.06356175988912582,
      "learning_rate": 0.00017927007299270073,
      "loss": 0.5376,
      "step": 218
    },
    {
      "epoch": 0.5309090909090909,
      "grad_norm": 0.0601746030151844,
      "learning_rate": 0.0001791727493917275,
      "loss": 0.5229,
      "step": 219
    },
    {
      "epoch": 0.5333333333333333,
      "grad_norm": 0.29285281896591187,
      "learning_rate": 0.00017907542579075427,
      "loss": 0.5543,
      "step": 220
    },
    {
      "epoch": 0.5357575757575758,
      "grad_norm": 0.06783048063516617,
      "learning_rate": 0.00017897810218978104,
      "loss": 0.5287,
      "step": 221
    },
    {
      "epoch": 0.5381818181818182,
      "grad_norm": 0.08351709693670273,
      "learning_rate": 0.0001788807785888078,
      "loss": 0.5862,
      "step": 222
    },
    {
      "epoch": 0.5406060606060606,
      "grad_norm": 0.06248465180397034,
      "learning_rate": 0.00017878345498783456,
      "loss": 0.5584,
      "step": 223
    },
    {
      "epoch": 0.5430303030303031,
      "grad_norm": 0.05912860482931137,
      "learning_rate": 0.00017868613138686133,
      "loss": 0.5431,
      "step": 224
    },
    {
      "epoch": 0.5454545454545454,
      "grad_norm": 0.05736866220831871,
      "learning_rate": 0.0001785888077858881,
      "loss": 0.5392,
      "step": 225
    },
    {
      "epoch": 0.5478787878787879,
      "grad_norm": 0.0718221366405487,
      "learning_rate": 0.00017849148418491487,
      "loss": 0.5389,
      "step": 226
    },
    {
      "epoch": 0.5503030303030303,
      "grad_norm": 0.07681471109390259,
      "learning_rate": 0.0001783941605839416,
      "loss": 0.5675,
      "step": 227
    },
    {
      "epoch": 0.5527272727272727,
      "grad_norm": 0.37830424308776855,
      "learning_rate": 0.00017829683698296838,
      "loss": 0.545,
      "step": 228
    },
    {
      "epoch": 0.5551515151515152,
      "grad_norm": 0.07504663616418839,
      "learning_rate": 0.00017819951338199515,
      "loss": 0.5473,
      "step": 229
    },
    {
      "epoch": 0.5575757575757576,
      "grad_norm": 2.0385234355926514,
      "learning_rate": 0.00017810218978102192,
      "loss": 0.5668,
      "step": 230
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.0730227455496788,
      "learning_rate": 0.0001780048661800487,
      "loss": 0.5149,
      "step": 231
    },
    {
      "epoch": 0.5624242424242424,
      "grad_norm": 0.07216502726078033,
      "learning_rate": 0.00017790754257907544,
      "loss": 0.5619,
      "step": 232
    },
    {
      "epoch": 0.5648484848484848,
      "grad_norm": 0.21188175678253174,
      "learning_rate": 0.0001778102189781022,
      "loss": 0.522,
      "step": 233
    },
    {
      "epoch": 0.5672727272727273,
      "grad_norm": 0.08797410875558853,
      "learning_rate": 0.00017771289537712898,
      "loss": 0.5552,
      "step": 234
    },
    {
      "epoch": 0.5696969696969697,
      "grad_norm": 0.105152927339077,
      "learning_rate": 0.00017761557177615572,
      "loss": 0.5466,
      "step": 235
    },
    {
      "epoch": 0.5721212121212121,
      "grad_norm": 0.06970223039388657,
      "learning_rate": 0.0001775182481751825,
      "loss": 0.5509,
      "step": 236
    },
    {
      "epoch": 0.5745454545454546,
      "grad_norm": 0.08145711570978165,
      "learning_rate": 0.00017742092457420926,
      "loss": 0.5635,
      "step": 237
    },
    {
      "epoch": 0.576969696969697,
      "grad_norm": 0.06969096511602402,
      "learning_rate": 0.000177323600973236,
      "loss": 0.5763,
      "step": 238
    },
    {
      "epoch": 0.5793939393939394,
      "grad_norm": 1.7367609739303589,
      "learning_rate": 0.00017722627737226277,
      "loss": 0.5406,
      "step": 239
    },
    {
      "epoch": 0.5818181818181818,
      "grad_norm": 0.07154524326324463,
      "learning_rate": 0.00017712895377128954,
      "loss": 0.5716,
      "step": 240
    },
    {
      "epoch": 0.5842424242424242,
      "grad_norm": 0.0744590312242508,
      "learning_rate": 0.0001770316301703163,
      "loss": 0.5313,
      "step": 241
    },
    {
      "epoch": 0.5866666666666667,
      "grad_norm": 0.07628407329320908,
      "learning_rate": 0.00017693430656934306,
      "loss": 0.541,
      "step": 242
    },
    {
      "epoch": 0.5890909090909091,
      "grad_norm": 0.06648588180541992,
      "learning_rate": 0.00017683698296836983,
      "loss": 0.5349,
      "step": 243
    },
    {
      "epoch": 0.5915151515151515,
      "grad_norm": 0.25192779302597046,
      "learning_rate": 0.0001767396593673966,
      "loss": 0.5606,
      "step": 244
    },
    {
      "epoch": 0.593939393939394,
      "grad_norm": 0.0673336535692215,
      "learning_rate": 0.00017664233576642337,
      "loss": 0.5719,
      "step": 245
    },
    {
      "epoch": 0.5963636363636363,
      "grad_norm": 0.06543178111314774,
      "learning_rate": 0.00017654501216545014,
      "loss": 0.5487,
      "step": 246
    },
    {
      "epoch": 0.5987878787878788,
      "grad_norm": 0.0843130424618721,
      "learning_rate": 0.00017644768856447688,
      "loss": 0.5391,
      "step": 247
    },
    {
      "epoch": 0.6012121212121212,
      "grad_norm": 0.06382573395967484,
      "learning_rate": 0.00017635036496350365,
      "loss": 0.5538,
      "step": 248
    },
    {
      "epoch": 0.6036363636363636,
      "grad_norm": 0.06857671588659286,
      "learning_rate": 0.00017625304136253042,
      "loss": 0.5707,
      "step": 249
    },
    {
      "epoch": 0.6060606060606061,
      "grad_norm": 0.0810059905052185,
      "learning_rate": 0.0001761557177615572,
      "loss": 0.5681,
      "step": 250
    },
    {
      "epoch": 0.6084848484848485,
      "grad_norm": 0.07038403302431107,
      "learning_rate": 0.00017605839416058393,
      "loss": 0.5754,
      "step": 251
    },
    {
      "epoch": 0.610909090909091,
      "grad_norm": 0.08081474900245667,
      "learning_rate": 0.0001759610705596107,
      "loss": 0.582,
      "step": 252
    },
    {
      "epoch": 0.6133333333333333,
      "grad_norm": 0.0683026984333992,
      "learning_rate": 0.00017586374695863747,
      "loss": 0.5282,
      "step": 253
    },
    {
      "epoch": 0.6157575757575757,
      "grad_norm": 0.07140510529279709,
      "learning_rate": 0.00017576642335766424,
      "loss": 0.546,
      "step": 254
    },
    {
      "epoch": 0.6181818181818182,
      "grad_norm": 0.12273766845464706,
      "learning_rate": 0.00017566909975669101,
      "loss": 0.5553,
      "step": 255
    },
    {
      "epoch": 0.6206060606060606,
      "grad_norm": 0.06285770982503891,
      "learning_rate": 0.00017557177615571776,
      "loss": 0.5526,
      "step": 256
    },
    {
      "epoch": 0.623030303030303,
      "grad_norm": 0.07583372294902802,
      "learning_rate": 0.00017547445255474453,
      "loss": 0.5283,
      "step": 257
    },
    {
      "epoch": 0.6254545454545455,
      "grad_norm": 0.06511462479829788,
      "learning_rate": 0.0001753771289537713,
      "loss": 0.5641,
      "step": 258
    },
    {
      "epoch": 0.6278787878787879,
      "grad_norm": 0.059908416122198105,
      "learning_rate": 0.00017527980535279807,
      "loss": 0.5198,
      "step": 259
    },
    {
      "epoch": 0.6303030303030303,
      "grad_norm": 0.10349190980195999,
      "learning_rate": 0.00017518248175182484,
      "loss": 0.5277,
      "step": 260
    },
    {
      "epoch": 0.6327272727272727,
      "grad_norm": 0.069496750831604,
      "learning_rate": 0.00017508515815085158,
      "loss": 0.5344,
      "step": 261
    },
    {
      "epoch": 0.6351515151515151,
      "grad_norm": 0.09573681652545929,
      "learning_rate": 0.00017498783454987835,
      "loss": 0.5292,
      "step": 262
    },
    {
      "epoch": 0.6375757575757576,
      "grad_norm": 0.06820680946111679,
      "learning_rate": 0.00017489051094890512,
      "loss": 0.5712,
      "step": 263
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.1631213277578354,
      "learning_rate": 0.0001747931873479319,
      "loss": 0.5718,
      "step": 264
    },
    {
      "epoch": 0.6424242424242425,
      "grad_norm": 0.19588926434516907,
      "learning_rate": 0.00017469586374695866,
      "loss": 0.5542,
      "step": 265
    },
    {
      "epoch": 0.6448484848484849,
      "grad_norm": 0.0614098384976387,
      "learning_rate": 0.0001745985401459854,
      "loss": 0.5586,
      "step": 266
    },
    {
      "epoch": 0.6472727272727272,
      "grad_norm": 0.05868373438715935,
      "learning_rate": 0.00017450121654501218,
      "loss": 0.5424,
      "step": 267
    },
    {
      "epoch": 0.6496969696969697,
      "grad_norm": 0.10498708486557007,
      "learning_rate": 0.00017440389294403895,
      "loss": 0.5423,
      "step": 268
    },
    {
      "epoch": 0.6521212121212121,
      "grad_norm": 0.06701310724020004,
      "learning_rate": 0.00017430656934306572,
      "loss": 0.5347,
      "step": 269
    },
    {
      "epoch": 0.6545454545454545,
      "grad_norm": 0.07281468063592911,
      "learning_rate": 0.00017420924574209249,
      "loss": 0.5674,
      "step": 270
    },
    {
      "epoch": 0.656969696969697,
      "grad_norm": 0.06737703084945679,
      "learning_rate": 0.00017411192214111923,
      "loss": 0.6011,
      "step": 271
    },
    {
      "epoch": 0.6593939393939394,
      "grad_norm": 0.0630665197968483,
      "learning_rate": 0.000174014598540146,
      "loss": 0.5546,
      "step": 272
    },
    {
      "epoch": 0.6618181818181819,
      "grad_norm": 0.0635378435254097,
      "learning_rate": 0.00017391727493917277,
      "loss": 0.5602,
      "step": 273
    },
    {
      "epoch": 0.6642424242424242,
      "grad_norm": 0.24494418501853943,
      "learning_rate": 0.00017381995133819954,
      "loss": 0.5037,
      "step": 274
    },
    {
      "epoch": 0.6666666666666666,
      "grad_norm": 0.0832589864730835,
      "learning_rate": 0.00017372262773722628,
      "loss": 0.5581,
      "step": 275
    },
    {
      "epoch": 0.6690909090909091,
      "grad_norm": 0.061255015432834625,
      "learning_rate": 0.00017362530413625305,
      "loss": 0.5289,
      "step": 276
    },
    {
      "epoch": 0.6715151515151515,
      "grad_norm": 0.062059953808784485,
      "learning_rate": 0.00017352798053527982,
      "loss": 0.5532,
      "step": 277
    },
    {
      "epoch": 0.673939393939394,
      "grad_norm": 0.08214735239744186,
      "learning_rate": 0.00017343065693430657,
      "loss": 0.5454,
      "step": 278
    },
    {
      "epoch": 0.6763636363636364,
      "grad_norm": 0.07996552437543869,
      "learning_rate": 0.00017333333333333334,
      "loss": 0.5572,
      "step": 279
    },
    {
      "epoch": 0.6787878787878788,
      "grad_norm": 0.06204145774245262,
      "learning_rate": 0.0001732360097323601,
      "loss": 0.558,
      "step": 280
    },
    {
      "epoch": 0.6812121212121212,
      "grad_norm": 0.05966441333293915,
      "learning_rate": 0.00017313868613138685,
      "loss": 0.5419,
      "step": 281
    },
    {
      "epoch": 0.6836363636363636,
      "grad_norm": 0.07609891891479492,
      "learning_rate": 0.00017304136253041362,
      "loss": 0.5771,
      "step": 282
    },
    {
      "epoch": 0.686060606060606,
      "grad_norm": 0.06977101415395737,
      "learning_rate": 0.0001729440389294404,
      "loss": 0.5614,
      "step": 283
    },
    {
      "epoch": 0.6884848484848485,
      "grad_norm": 0.08119616657495499,
      "learning_rate": 0.00017284671532846716,
      "loss": 0.5591,
      "step": 284
    },
    {
      "epoch": 0.6909090909090909,
      "grad_norm": 0.05884050577878952,
      "learning_rate": 0.00017274939172749393,
      "loss": 0.5469,
      "step": 285
    },
    {
      "epoch": 0.6933333333333334,
      "grad_norm": 0.07192666083574295,
      "learning_rate": 0.00017265206812652067,
      "loss": 0.5291,
      "step": 286
    },
    {
      "epoch": 0.6957575757575758,
      "grad_norm": 0.06349042057991028,
      "learning_rate": 0.00017255474452554744,
      "loss": 0.5622,
      "step": 287
    },
    {
      "epoch": 0.6981818181818182,
      "grad_norm": 0.06524200737476349,
      "learning_rate": 0.00017245742092457421,
      "loss": 0.5675,
      "step": 288
    },
    {
      "epoch": 0.7006060606060606,
      "grad_norm": 0.07002637535333633,
      "learning_rate": 0.00017236009732360098,
      "loss": 0.5836,
      "step": 289
    },
    {
      "epoch": 0.703030303030303,
      "grad_norm": 0.06424380838871002,
      "learning_rate": 0.00017226277372262773,
      "loss": 0.5567,
      "step": 290
    },
    {
      "epoch": 0.7054545454545454,
      "grad_norm": 0.06327451020479202,
      "learning_rate": 0.0001721654501216545,
      "loss": 0.5252,
      "step": 291
    },
    {
      "epoch": 0.7078787878787879,
      "grad_norm": 0.11821381747722626,
      "learning_rate": 0.00017206812652068127,
      "loss": 0.5473,
      "step": 292
    },
    {
      "epoch": 0.7103030303030303,
      "grad_norm": 0.05885179713368416,
      "learning_rate": 0.00017197080291970804,
      "loss": 0.5574,
      "step": 293
    },
    {
      "epoch": 0.7127272727272728,
      "grad_norm": 0.07020985335111618,
      "learning_rate": 0.0001718734793187348,
      "loss": 0.5574,
      "step": 294
    },
    {
      "epoch": 0.7151515151515152,
      "grad_norm": 0.06301289051771164,
      "learning_rate": 0.00017177615571776155,
      "loss": 0.5539,
      "step": 295
    },
    {
      "epoch": 0.7175757575757575,
      "grad_norm": 0.06687553972005844,
      "learning_rate": 0.00017167883211678832,
      "loss": 0.5413,
      "step": 296
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.0593469999730587,
      "learning_rate": 0.0001715815085158151,
      "loss": 0.5388,
      "step": 297
    },
    {
      "epoch": 0.7224242424242424,
      "grad_norm": 0.06330721080303192,
      "learning_rate": 0.00017148418491484186,
      "loss": 0.5322,
      "step": 298
    },
    {
      "epoch": 0.7248484848484849,
      "grad_norm": 0.06611055880784988,
      "learning_rate": 0.00017138686131386863,
      "loss": 0.5429,
      "step": 299
    },
    {
      "epoch": 0.7272727272727273,
      "grad_norm": 0.06124502792954445,
      "learning_rate": 0.00017128953771289537,
      "loss": 0.5481,
      "step": 300
    },
    {
      "epoch": 0.7296969696969697,
      "grad_norm": 0.060752421617507935,
      "learning_rate": 0.00017119221411192215,
      "loss": 0.5243,
      "step": 301
    },
    {
      "epoch": 0.7321212121212122,
      "grad_norm": 0.0700276643037796,
      "learning_rate": 0.00017109489051094892,
      "loss": 0.5406,
      "step": 302
    },
    {
      "epoch": 0.7345454545454545,
      "grad_norm": 0.0923948884010315,
      "learning_rate": 0.00017099756690997569,
      "loss": 0.552,
      "step": 303
    },
    {
      "epoch": 0.7369696969696969,
      "grad_norm": 0.059077825397253036,
      "learning_rate": 0.00017090024330900246,
      "loss": 0.5465,
      "step": 304
    },
    {
      "epoch": 0.7393939393939394,
      "grad_norm": 16.5856990814209,
      "learning_rate": 0.0001708029197080292,
      "loss": 0.5525,
      "step": 305
    },
    {
      "epoch": 0.7418181818181818,
      "grad_norm": 0.9094518423080444,
      "learning_rate": 0.00017070559610705597,
      "loss": 0.5344,
      "step": 306
    },
    {
      "epoch": 0.7442424242424243,
      "grad_norm": 0.09564822167158127,
      "learning_rate": 0.00017060827250608274,
      "loss": 0.5459,
      "step": 307
    },
    {
      "epoch": 0.7466666666666667,
      "grad_norm": 0.06621440500020981,
      "learning_rate": 0.0001705109489051095,
      "loss": 0.5614,
      "step": 308
    },
    {
      "epoch": 0.7490909090909091,
      "grad_norm": 0.11044643819332123,
      "learning_rate": 0.00017041362530413628,
      "loss": 0.5778,
      "step": 309
    },
    {
      "epoch": 0.7515151515151515,
      "grad_norm": 0.39716076850891113,
      "learning_rate": 0.00017031630170316302,
      "loss": 0.5552,
      "step": 310
    },
    {
      "epoch": 0.7539393939393939,
      "grad_norm": 0.9215524792671204,
      "learning_rate": 0.0001702189781021898,
      "loss": 0.5514,
      "step": 311
    },
    {
      "epoch": 0.7563636363636363,
      "grad_norm": 0.07326694577932358,
      "learning_rate": 0.00017012165450121656,
      "loss": 0.5381,
      "step": 312
    },
    {
      "epoch": 0.7587878787878788,
      "grad_norm": 0.08419661968946457,
      "learning_rate": 0.00017002433090024333,
      "loss": 0.5415,
      "step": 313
    },
    {
      "epoch": 0.7612121212121212,
      "grad_norm": 0.22310017049312592,
      "learning_rate": 0.0001699270072992701,
      "loss": 0.528,
      "step": 314
    },
    {
      "epoch": 0.7636363636363637,
      "grad_norm": 0.09572742879390717,
      "learning_rate": 0.00016982968369829685,
      "loss": 0.5342,
      "step": 315
    },
    {
      "epoch": 0.7660606060606061,
      "grad_norm": 0.19657564163208008,
      "learning_rate": 0.00016973236009732362,
      "loss": 0.5407,
      "step": 316
    },
    {
      "epoch": 0.7684848484848484,
      "grad_norm": 0.09534162282943726,
      "learning_rate": 0.0001696350364963504,
      "loss": 0.5701,
      "step": 317
    },
    {
      "epoch": 0.7709090909090909,
      "grad_norm": 0.0713532343506813,
      "learning_rate": 0.00016953771289537713,
      "loss": 0.5313,
      "step": 318
    },
    {
      "epoch": 0.7733333333333333,
      "grad_norm": 0.07661478221416473,
      "learning_rate": 0.0001694403892944039,
      "loss": 0.5667,
      "step": 319
    },
    {
      "epoch": 0.7757575757575758,
      "grad_norm": 0.08309673517942429,
      "learning_rate": 0.00016934306569343067,
      "loss": 0.5574,
      "step": 320
    },
    {
      "epoch": 0.7781818181818182,
      "grad_norm": 0.06612791121006012,
      "learning_rate": 0.0001692457420924574,
      "loss": 0.577,
      "step": 321
    },
    {
      "epoch": 0.7806060606060606,
      "grad_norm": 0.08840884268283844,
      "learning_rate": 0.00016914841849148418,
      "loss": 0.5453,
      "step": 322
    },
    {
      "epoch": 0.7830303030303031,
      "grad_norm": 0.08443542569875717,
      "learning_rate": 0.00016905109489051095,
      "loss": 0.5847,
      "step": 323
    },
    {
      "epoch": 0.7854545454545454,
      "grad_norm": 0.14692683517932892,
      "learning_rate": 0.0001689537712895377,
      "loss": 0.5495,
      "step": 324
    },
    {
      "epoch": 0.7878787878787878,
      "grad_norm": 0.1230396255850792,
      "learning_rate": 0.00016885644768856447,
      "loss": 0.5131,
      "step": 325
    },
    {
      "epoch": 0.7903030303030303,
      "grad_norm": 0.060949210077524185,
      "learning_rate": 0.00016875912408759124,
      "loss": 0.5389,
      "step": 326
    },
    {
      "epoch": 0.7927272727272727,
      "grad_norm": 0.06270138919353485,
      "learning_rate": 0.000168661800486618,
      "loss": 0.5574,
      "step": 327
    },
    {
      "epoch": 0.7951515151515152,
      "grad_norm": 0.08615492284297943,
      "learning_rate": 0.00016856447688564478,
      "loss": 0.5307,
      "step": 328
    },
    {
      "epoch": 0.7975757575757576,
      "grad_norm": 0.09964334964752197,
      "learning_rate": 0.00016846715328467152,
      "loss": 0.5778,
      "step": 329
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.06368327140808105,
      "learning_rate": 0.0001683698296836983,
      "loss": 0.5605,
      "step": 330
    },
    {
      "epoch": 0.8024242424242424,
      "grad_norm": 0.21477310359477997,
      "learning_rate": 0.00016827250608272506,
      "loss": 0.5156,
      "step": 331
    },
    {
      "epoch": 0.8048484848484848,
      "grad_norm": 0.06147007271647453,
      "learning_rate": 0.00016817518248175183,
      "loss": 0.5547,
      "step": 332
    },
    {
      "epoch": 0.8072727272727273,
      "grad_norm": 0.06428639590740204,
      "learning_rate": 0.0001680778588807786,
      "loss": 0.5672,
      "step": 333
    },
    {
      "epoch": 0.8096969696969697,
      "grad_norm": 0.08526673913002014,
      "learning_rate": 0.00016798053527980534,
      "loss": 0.5543,
      "step": 334
    },
    {
      "epoch": 0.8121212121212121,
      "grad_norm": 0.06326498091220856,
      "learning_rate": 0.00016788321167883211,
      "loss": 0.5277,
      "step": 335
    },
    {
      "epoch": 0.8145454545454546,
      "grad_norm": 0.07078804820775986,
      "learning_rate": 0.00016778588807785889,
      "loss": 0.5533,
      "step": 336
    },
    {
      "epoch": 0.816969696969697,
      "grad_norm": 0.06639284640550613,
      "learning_rate": 0.00016768856447688566,
      "loss": 0.5511,
      "step": 337
    },
    {
      "epoch": 0.8193939393939393,
      "grad_norm": 0.06346958875656128,
      "learning_rate": 0.00016759124087591243,
      "loss": 0.5338,
      "step": 338
    },
    {
      "epoch": 0.8218181818181818,
      "grad_norm": 0.12766961753368378,
      "learning_rate": 0.00016749391727493917,
      "loss": 0.5598,
      "step": 339
    },
    {
      "epoch": 0.8242424242424242,
      "grad_norm": 0.06857267767190933,
      "learning_rate": 0.00016739659367396594,
      "loss": 0.5511,
      "step": 340
    },
    {
      "epoch": 0.8266666666666667,
      "grad_norm": 0.06484483182430267,
      "learning_rate": 0.0001672992700729927,
      "loss": 0.5483,
      "step": 341
    },
    {
      "epoch": 0.8290909090909091,
      "grad_norm": 0.277243047952652,
      "learning_rate": 0.00016720194647201948,
      "loss": 0.5331,
      "step": 342
    },
    {
      "epoch": 0.8315151515151515,
      "grad_norm": 0.07482493668794632,
      "learning_rate": 0.00016710462287104625,
      "loss": 0.5218,
      "step": 343
    },
    {
      "epoch": 0.833939393939394,
      "grad_norm": 0.1206628829240799,
      "learning_rate": 0.000167007299270073,
      "loss": 0.5884,
      "step": 344
    },
    {
      "epoch": 0.8363636363636363,
      "grad_norm": 0.06652140617370605,
      "learning_rate": 0.00016690997566909976,
      "loss": 0.5488,
      "step": 345
    },
    {
      "epoch": 0.8387878787878787,
      "grad_norm": 0.06260206550359726,
      "learning_rate": 0.00016681265206812653,
      "loss": 0.5402,
      "step": 346
    },
    {
      "epoch": 0.8412121212121212,
      "grad_norm": 0.07941880822181702,
      "learning_rate": 0.0001667153284671533,
      "loss": 0.5291,
      "step": 347
    },
    {
      "epoch": 0.8436363636363636,
      "grad_norm": 0.07369414716959,
      "learning_rate": 0.00016661800486618007,
      "loss": 0.5515,
      "step": 348
    },
    {
      "epoch": 0.8460606060606061,
      "grad_norm": 0.10566204786300659,
      "learning_rate": 0.00016652068126520682,
      "loss": 0.5576,
      "step": 349
    },
    {
      "epoch": 0.8484848484848485,
      "grad_norm": 0.07749351859092712,
      "learning_rate": 0.0001664233576642336,
      "loss": 0.5616,
      "step": 350
    },
    {
      "epoch": 0.850909090909091,
      "grad_norm": 0.06561629474163055,
      "learning_rate": 0.00016632603406326036,
      "loss": 0.5736,
      "step": 351
    },
    {
      "epoch": 0.8533333333333334,
      "grad_norm": 0.06700663268566132,
      "learning_rate": 0.00016622871046228713,
      "loss": 0.5177,
      "step": 352
    },
    {
      "epoch": 0.8557575757575757,
      "grad_norm": 0.06279561668634415,
      "learning_rate": 0.0001661313868613139,
      "loss": 0.5511,
      "step": 353
    },
    {
      "epoch": 0.8581818181818182,
      "grad_norm": 0.06577979773283005,
      "learning_rate": 0.00016603406326034064,
      "loss": 0.5752,
      "step": 354
    },
    {
      "epoch": 0.8606060606060606,
      "grad_norm": 0.09091326594352722,
      "learning_rate": 0.0001659367396593674,
      "loss": 0.5409,
      "step": 355
    },
    {
      "epoch": 0.863030303030303,
      "grad_norm": 0.06229273974895477,
      "learning_rate": 0.00016583941605839418,
      "loss": 0.5574,
      "step": 356
    },
    {
      "epoch": 0.8654545454545455,
      "grad_norm": 0.06422200798988342,
      "learning_rate": 0.00016574209245742095,
      "loss": 0.5225,
      "step": 357
    },
    {
      "epoch": 0.8678787878787879,
      "grad_norm": 0.07569282501935959,
      "learning_rate": 0.0001656447688564477,
      "loss": 0.5601,
      "step": 358
    },
    {
      "epoch": 0.8703030303030304,
      "grad_norm": 0.06488022953271866,
      "learning_rate": 0.00016554744525547446,
      "loss": 0.5663,
      "step": 359
    },
    {
      "epoch": 0.8727272727272727,
      "grad_norm": 0.061794087290763855,
      "learning_rate": 0.00016545012165450123,
      "loss": 0.5597,
      "step": 360
    },
    {
      "epoch": 0.8751515151515151,
      "grad_norm": 0.06778302788734436,
      "learning_rate": 0.00016535279805352798,
      "loss": 0.5606,
      "step": 361
    },
    {
      "epoch": 0.8775757575757576,
      "grad_norm": 0.07145091891288757,
      "learning_rate": 0.00016525547445255475,
      "loss": 0.5825,
      "step": 362
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.06406552344560623,
      "learning_rate": 0.00016515815085158152,
      "loss": 0.5285,
      "step": 363
    },
    {
      "epoch": 0.8824242424242424,
      "grad_norm": 0.062254372984170914,
      "learning_rate": 0.00016506082725060826,
      "loss": 0.5267,
      "step": 364
    },
    {
      "epoch": 0.8848484848484849,
      "grad_norm": 0.0661516785621643,
      "learning_rate": 0.00016496350364963503,
      "loss": 0.5378,
      "step": 365
    },
    {
      "epoch": 0.8872727272727273,
      "grad_norm": 0.18471062183380127,
      "learning_rate": 0.0001648661800486618,
      "loss": 0.5307,
      "step": 366
    },
    {
      "epoch": 0.8896969696969697,
      "grad_norm": 0.07140319049358368,
      "learning_rate": 0.00016476885644768857,
      "loss": 0.5384,
      "step": 367
    },
    {
      "epoch": 0.8921212121212121,
      "grad_norm": 0.06179990619421005,
      "learning_rate": 0.00016467153284671531,
      "loss": 0.5546,
      "step": 368
    },
    {
      "epoch": 0.8945454545454545,
      "grad_norm": 0.08868462592363358,
      "learning_rate": 0.00016457420924574208,
      "loss": 0.5574,
      "step": 369
    },
    {
      "epoch": 0.896969696969697,
      "grad_norm": 0.0605100579559803,
      "learning_rate": 0.00016447688564476886,
      "loss": 0.5378,
      "step": 370
    },
    {
      "epoch": 0.8993939393939394,
      "grad_norm": 0.07448717206716537,
      "learning_rate": 0.00016437956204379563,
      "loss": 0.5226,
      "step": 371
    },
    {
      "epoch": 0.9018181818181819,
      "grad_norm": 0.058721281588077545,
      "learning_rate": 0.0001642822384428224,
      "loss": 0.5227,
      "step": 372
    },
    {
      "epoch": 0.9042424242424243,
      "grad_norm": 0.10651890933513641,
      "learning_rate": 0.00016418491484184914,
      "loss": 0.5495,
      "step": 373
    },
    {
      "epoch": 0.9066666666666666,
      "grad_norm": 0.06286682188510895,
      "learning_rate": 0.0001640875912408759,
      "loss": 0.5556,
      "step": 374
    },
    {
      "epoch": 0.9090909090909091,
      "grad_norm": 0.061558134853839874,
      "learning_rate": 0.00016399026763990268,
      "loss": 0.5599,
      "step": 375
    },
    {
      "epoch": 0.9115151515151515,
      "grad_norm": 0.0807129442691803,
      "learning_rate": 0.00016389294403892945,
      "loss": 0.5607,
      "step": 376
    },
    {
      "epoch": 0.9139393939393939,
      "grad_norm": 0.1463339477777481,
      "learning_rate": 0.00016379562043795622,
      "loss": 0.5379,
      "step": 377
    },
    {
      "epoch": 0.9163636363636364,
      "grad_norm": 0.06681551784276962,
      "learning_rate": 0.00016369829683698296,
      "loss": 0.5821,
      "step": 378
    },
    {
      "epoch": 0.9187878787878788,
      "grad_norm": 0.0629209652543068,
      "learning_rate": 0.00016360097323600973,
      "loss": 0.5408,
      "step": 379
    },
    {
      "epoch": 0.9212121212121213,
      "grad_norm": 0.08325511962175369,
      "learning_rate": 0.0001635036496350365,
      "loss": 0.5447,
      "step": 380
    },
    {
      "epoch": 0.9236363636363636,
      "grad_norm": 0.059034720063209534,
      "learning_rate": 0.00016340632603406327,
      "loss": 0.5323,
      "step": 381
    },
    {
      "epoch": 0.926060606060606,
      "grad_norm": 0.38955235481262207,
      "learning_rate": 0.00016330900243309004,
      "loss": 0.521,
      "step": 382
    },
    {
      "epoch": 0.9284848484848485,
      "grad_norm": 0.13808448612689972,
      "learning_rate": 0.00016321167883211679,
      "loss": 0.5534,
      "step": 383
    },
    {
      "epoch": 0.9309090909090909,
      "grad_norm": 0.05884072557091713,
      "learning_rate": 0.00016311435523114356,
      "loss": 0.5402,
      "step": 384
    },
    {
      "epoch": 0.9333333333333333,
      "grad_norm": 0.13356482982635498,
      "learning_rate": 0.00016301703163017033,
      "loss": 0.5691,
      "step": 385
    },
    {
      "epoch": 0.9357575757575758,
      "grad_norm": 0.09560886770486832,
      "learning_rate": 0.0001629197080291971,
      "loss": 0.5465,
      "step": 386
    },
    {
      "epoch": 0.9381818181818182,
      "grad_norm": 0.15289190411567688,
      "learning_rate": 0.00016282238442822387,
      "loss": 0.5107,
      "step": 387
    },
    {
      "epoch": 0.9406060606060606,
      "grad_norm": 0.07369023561477661,
      "learning_rate": 0.0001627250608272506,
      "loss": 0.5357,
      "step": 388
    },
    {
      "epoch": 0.943030303030303,
      "grad_norm": 0.06464044004678726,
      "learning_rate": 0.00016262773722627738,
      "loss": 0.5615,
      "step": 389
    },
    {
      "epoch": 0.9454545454545454,
      "grad_norm": 0.07892990112304688,
      "learning_rate": 0.00016253041362530415,
      "loss": 0.5118,
      "step": 390
    },
    {
      "epoch": 0.9478787878787879,
      "grad_norm": 1.0883806943893433,
      "learning_rate": 0.00016243309002433092,
      "loss": 0.5373,
      "step": 391
    },
    {
      "epoch": 0.9503030303030303,
      "grad_norm": 0.2524948716163635,
      "learning_rate": 0.0001623357664233577,
      "loss": 0.5254,
      "step": 392
    },
    {
      "epoch": 0.9527272727272728,
      "grad_norm": 0.0685998871922493,
      "learning_rate": 0.00016223844282238443,
      "loss": 0.5754,
      "step": 393
    },
    {
      "epoch": 0.9551515151515152,
      "grad_norm": 0.1674545258283615,
      "learning_rate": 0.0001621411192214112,
      "loss": 0.5356,
      "step": 394
    },
    {
      "epoch": 0.9575757575757575,
      "grad_norm": 0.06556844711303711,
      "learning_rate": 0.00016204379562043797,
      "loss": 0.5238,
      "step": 395
    },
    {
      "epoch": 0.96,
      "grad_norm": 2.013521909713745,
      "learning_rate": 0.00016194647201946474,
      "loss": 0.558,
      "step": 396
    },
    {
      "epoch": 0.9624242424242424,
      "grad_norm": 0.060163550078868866,
      "learning_rate": 0.00016184914841849151,
      "loss": 0.5225,
      "step": 397
    },
    {
      "epoch": 0.9648484848484848,
      "grad_norm": 0.08271557092666626,
      "learning_rate": 0.00016175182481751826,
      "loss": 0.5526,
      "step": 398
    },
    {
      "epoch": 0.9672727272727273,
      "grad_norm": 0.07372593134641647,
      "learning_rate": 0.00016165450121654503,
      "loss": 0.5869,
      "step": 399
    },
    {
      "epoch": 0.9696969696969697,
      "grad_norm": 0.06488582491874695,
      "learning_rate": 0.0001615571776155718,
      "loss": 0.5643,
      "step": 400
    },
    {
      "epoch": 0.9721212121212122,
      "grad_norm": 0.06240461394190788,
      "learning_rate": 0.00016145985401459854,
      "loss": 0.5608,
      "step": 401
    },
    {
      "epoch": 0.9745454545454545,
      "grad_norm": 0.10943777114152908,
      "learning_rate": 0.0001613625304136253,
      "loss": 0.5465,
      "step": 402
    },
    {
      "epoch": 0.9769696969696969,
      "grad_norm": 0.0842636451125145,
      "learning_rate": 0.00016126520681265208,
      "loss": 0.5564,
      "step": 403
    },
    {
      "epoch": 0.9793939393939394,
      "grad_norm": 0.0634654089808464,
      "learning_rate": 0.00016116788321167882,
      "loss": 0.5632,
      "step": 404
    },
    {
      "epoch": 0.9818181818181818,
      "grad_norm": 0.07495876401662827,
      "learning_rate": 0.0001610705596107056,
      "loss": 0.5606,
      "step": 405
    },
    {
      "epoch": 0.9842424242424243,
      "grad_norm": 0.07579754292964935,
      "learning_rate": 0.00016097323600973237,
      "loss": 0.5116,
      "step": 406
    },
    {
      "epoch": 0.9866666666666667,
      "grad_norm": 0.07818548381328583,
      "learning_rate": 0.0001608759124087591,
      "loss": 0.5678,
      "step": 407
    },
    {
      "epoch": 0.9890909090909091,
      "grad_norm": 0.07886462658643723,
      "learning_rate": 0.00016077858880778588,
      "loss": 0.5591,
      "step": 408
    },
    {
      "epoch": 0.9915151515151515,
      "grad_norm": 0.06973772495985031,
      "learning_rate": 0.00016068126520681265,
      "loss": 0.567,
      "step": 409
    },
    {
      "epoch": 0.9939393939393939,
      "grad_norm": 0.06554748117923737,
      "learning_rate": 0.00016058394160583942,
      "loss": 0.5487,
      "step": 410
    },
    {
      "epoch": 0.9963636363636363,
      "grad_norm": 0.08189699798822403,
      "learning_rate": 0.0001604866180048662,
      "loss": 0.5647,
      "step": 411
    },
    {
      "epoch": 0.9987878787878788,
      "grad_norm": 0.08697541058063507,
      "learning_rate": 0.00016038929440389293,
      "loss": 0.539,
      "step": 412
    },
    {
      "epoch": 1.0012121212121212,
      "grad_norm": 0.11948265880346298,
      "learning_rate": 0.0001602919708029197,
      "loss": 0.5451,
      "step": 413
    },
    {
      "epoch": 1.0036363636363637,
      "grad_norm": 0.07803041487932205,
      "learning_rate": 0.00016019464720194647,
      "loss": 0.51,
      "step": 414
    },
    {
      "epoch": 1.006060606060606,
      "grad_norm": 0.07906968146562576,
      "learning_rate": 0.00016009732360097324,
      "loss": 0.5448,
      "step": 415
    },
    {
      "epoch": 1.0084848484848485,
      "grad_norm": 0.23532415926456451,
      "learning_rate": 0.00016,
      "loss": 0.5389,
      "step": 416
    },
    {
      "epoch": 1.010909090909091,
      "grad_norm": 0.0702560618519783,
      "learning_rate": 0.00015990267639902676,
      "loss": 0.5137,
      "step": 417
    },
    {
      "epoch": 1.0133333333333334,
      "grad_norm": 0.09237232804298401,
      "learning_rate": 0.00015980535279805353,
      "loss": 0.4929,
      "step": 418
    },
    {
      "epoch": 1.0157575757575759,
      "grad_norm": 0.22942174971103668,
      "learning_rate": 0.0001597080291970803,
      "loss": 0.5067,
      "step": 419
    },
    {
      "epoch": 1.018181818181818,
      "grad_norm": 0.07129258662462234,
      "learning_rate": 0.00015961070559610707,
      "loss": 0.5337,
      "step": 420
    },
    {
      "epoch": 1.0206060606060605,
      "grad_norm": 0.09399973601102829,
      "learning_rate": 0.00015951338199513384,
      "loss": 0.545,
      "step": 421
    },
    {
      "epoch": 1.023030303030303,
      "grad_norm": 0.11831745505332947,
      "learning_rate": 0.00015941605839416058,
      "loss": 0.5214,
      "step": 422
    },
    {
      "epoch": 1.0254545454545454,
      "grad_norm": 0.2561107277870178,
      "learning_rate": 0.00015931873479318735,
      "loss": 0.5242,
      "step": 423
    },
    {
      "epoch": 1.0278787878787878,
      "grad_norm": 0.16861043870449066,
      "learning_rate": 0.00015922141119221412,
      "loss": 0.5299,
      "step": 424
    },
    {
      "epoch": 1.0303030303030303,
      "grad_norm": 0.07801260054111481,
      "learning_rate": 0.0001591240875912409,
      "loss": 0.498,
      "step": 425
    },
    {
      "epoch": 1.0327272727272727,
      "grad_norm": 0.10205968469381332,
      "learning_rate": 0.00015902676399026766,
      "loss": 0.5217,
      "step": 426
    },
    {
      "epoch": 1.0351515151515152,
      "grad_norm": 0.07868583500385284,
      "learning_rate": 0.0001589294403892944,
      "loss": 0.511,
      "step": 427
    },
    {
      "epoch": 1.0375757575757576,
      "grad_norm": 0.08247793465852737,
      "learning_rate": 0.00015883211678832117,
      "loss": 0.5201,
      "step": 428
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.08052457123994827,
      "learning_rate": 0.00015873479318734794,
      "loss": 0.5321,
      "step": 429
    },
    {
      "epoch": 1.0424242424242425,
      "grad_norm": 0.08852489292621613,
      "learning_rate": 0.00015863746958637471,
      "loss": 0.5117,
      "step": 430
    },
    {
      "epoch": 1.044848484848485,
      "grad_norm": 0.07379024475812912,
      "learning_rate": 0.00015854014598540148,
      "loss": 0.4899,
      "step": 431
    },
    {
      "epoch": 1.0472727272727274,
      "grad_norm": 0.09352800995111465,
      "learning_rate": 0.00015844282238442823,
      "loss": 0.5208,
      "step": 432
    },
    {
      "epoch": 1.0496969696969698,
      "grad_norm": 0.09359347820281982,
      "learning_rate": 0.000158345498783455,
      "loss": 0.4816,
      "step": 433
    },
    {
      "epoch": 1.0521212121212122,
      "grad_norm": 0.11520864814519882,
      "learning_rate": 0.00015824817518248177,
      "loss": 0.5564,
      "step": 434
    },
    {
      "epoch": 1.0545454545454545,
      "grad_norm": 0.0901479572057724,
      "learning_rate": 0.00015815085158150854,
      "loss": 0.5113,
      "step": 435
    },
    {
      "epoch": 1.056969696969697,
      "grad_norm": 0.09867888689041138,
      "learning_rate": 0.00015805352798053528,
      "loss": 0.5325,
      "step": 436
    },
    {
      "epoch": 1.0593939393939393,
      "grad_norm": 0.08376406133174896,
      "learning_rate": 0.00015795620437956205,
      "loss": 0.5106,
      "step": 437
    },
    {
      "epoch": 1.0618181818181818,
      "grad_norm": 0.28106987476348877,
      "learning_rate": 0.00015785888077858882,
      "loss": 0.5013,
      "step": 438
    },
    {
      "epoch": 1.0642424242424242,
      "grad_norm": 0.07944633066654205,
      "learning_rate": 0.0001577615571776156,
      "loss": 0.5337,
      "step": 439
    },
    {
      "epoch": 1.0666666666666667,
      "grad_norm": 0.8428522348403931,
      "learning_rate": 0.00015766423357664236,
      "loss": 0.4969,
      "step": 440
    },
    {
      "epoch": 1.069090909090909,
      "grad_norm": 0.09679432958364487,
      "learning_rate": 0.0001575669099756691,
      "loss": 0.5111,
      "step": 441
    },
    {
      "epoch": 1.0715151515151515,
      "grad_norm": 0.0897364467382431,
      "learning_rate": 0.00015746958637469588,
      "loss": 0.5178,
      "step": 442
    },
    {
      "epoch": 1.073939393939394,
      "grad_norm": 0.10259881615638733,
      "learning_rate": 0.00015737226277372265,
      "loss": 0.5387,
      "step": 443
    },
    {
      "epoch": 1.0763636363636364,
      "grad_norm": 0.10026432573795319,
      "learning_rate": 0.00015727493917274942,
      "loss": 0.502,
      "step": 444
    },
    {
      "epoch": 1.0787878787878789,
      "grad_norm": 0.09740475565195084,
      "learning_rate": 0.00015717761557177616,
      "loss": 0.5164,
      "step": 445
    },
    {
      "epoch": 1.0812121212121213,
      "grad_norm": 1.0940067768096924,
      "learning_rate": 0.00015708029197080293,
      "loss": 0.5119,
      "step": 446
    },
    {
      "epoch": 1.0836363636363637,
      "grad_norm": 0.10390187054872513,
      "learning_rate": 0.0001569829683698297,
      "loss": 0.4889,
      "step": 447
    },
    {
      "epoch": 1.086060606060606,
      "grad_norm": 0.11603379249572754,
      "learning_rate": 0.00015688564476885644,
      "loss": 0.4958,
      "step": 448
    },
    {
      "epoch": 1.0884848484848484,
      "grad_norm": 0.13268797099590302,
      "learning_rate": 0.0001567883211678832,
      "loss": 0.5119,
      "step": 449
    },
    {
      "epoch": 1.0909090909090908,
      "grad_norm": 0.08276034891605377,
      "learning_rate": 0.00015669099756690998,
      "loss": 0.5211,
      "step": 450
    },
    {
      "epoch": 1.0933333333333333,
      "grad_norm": 0.19291619956493378,
      "learning_rate": 0.00015659367396593673,
      "loss": 0.5359,
      "step": 451
    },
    {
      "epoch": 1.0957575757575757,
      "grad_norm": 0.0860522985458374,
      "learning_rate": 0.0001564963503649635,
      "loss": 0.5072,
      "step": 452
    },
    {
      "epoch": 1.0981818181818181,
      "grad_norm": 0.08189697563648224,
      "learning_rate": 0.00015639902676399027,
      "loss": 0.5251,
      "step": 453
    },
    {
      "epoch": 1.1006060606060606,
      "grad_norm": 0.10226292163133621,
      "learning_rate": 0.00015630170316301704,
      "loss": 0.4952,
      "step": 454
    },
    {
      "epoch": 1.103030303030303,
      "grad_norm": 0.08467255532741547,
      "learning_rate": 0.0001562043795620438,
      "loss": 0.5269,
      "step": 455
    },
    {
      "epoch": 1.1054545454545455,
      "grad_norm": 0.16166187822818756,
      "learning_rate": 0.00015610705596107055,
      "loss": 0.5067,
      "step": 456
    },
    {
      "epoch": 1.107878787878788,
      "grad_norm": 0.13106173276901245,
      "learning_rate": 0.00015600973236009732,
      "loss": 0.5124,
      "step": 457
    },
    {
      "epoch": 1.1103030303030303,
      "grad_norm": 0.07907097786664963,
      "learning_rate": 0.0001559124087591241,
      "loss": 0.5238,
      "step": 458
    },
    {
      "epoch": 1.1127272727272728,
      "grad_norm": 0.0969403013586998,
      "learning_rate": 0.00015581508515815086,
      "loss": 0.5118,
      "step": 459
    },
    {
      "epoch": 1.1151515151515152,
      "grad_norm": 0.08411287516355515,
      "learning_rate": 0.00015571776155717763,
      "loss": 0.525,
      "step": 460
    },
    {
      "epoch": 1.1175757575757577,
      "grad_norm": 0.2570047676563263,
      "learning_rate": 0.00015562043795620437,
      "loss": 0.4981,
      "step": 461
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.09194251149892807,
      "learning_rate": 0.00015552311435523114,
      "loss": 0.4952,
      "step": 462
    },
    {
      "epoch": 1.1224242424242423,
      "grad_norm": 0.09415578842163086,
      "learning_rate": 0.00015542579075425791,
      "loss": 0.5053,
      "step": 463
    },
    {
      "epoch": 1.1248484848484848,
      "grad_norm": 0.08985944092273712,
      "learning_rate": 0.00015532846715328468,
      "loss": 0.5035,
      "step": 464
    },
    {
      "epoch": 1.1272727272727272,
      "grad_norm": 0.10237359255552292,
      "learning_rate": 0.00015523114355231145,
      "loss": 0.5061,
      "step": 465
    },
    {
      "epoch": 1.1296969696969696,
      "grad_norm": 0.08705998957157135,
      "learning_rate": 0.0001551338199513382,
      "loss": 0.4956,
      "step": 466
    },
    {
      "epoch": 1.132121212121212,
      "grad_norm": 0.0913153737783432,
      "learning_rate": 0.00015503649635036497,
      "loss": 0.5451,
      "step": 467
    },
    {
      "epoch": 1.1345454545454545,
      "grad_norm": 0.09190309047698975,
      "learning_rate": 0.00015493917274939174,
      "loss": 0.5148,
      "step": 468
    },
    {
      "epoch": 1.136969696969697,
      "grad_norm": 0.08330673724412918,
      "learning_rate": 0.0001548418491484185,
      "loss": 0.522,
      "step": 469
    },
    {
      "epoch": 1.1393939393939394,
      "grad_norm": 0.09082568436861038,
      "learning_rate": 0.00015474452554744528,
      "loss": 0.5396,
      "step": 470
    },
    {
      "epoch": 1.1418181818181818,
      "grad_norm": 0.0848437175154686,
      "learning_rate": 0.00015464720194647202,
      "loss": 0.4883,
      "step": 471
    },
    {
      "epoch": 1.1442424242424243,
      "grad_norm": 0.10349821299314499,
      "learning_rate": 0.0001545498783454988,
      "loss": 0.5163,
      "step": 472
    },
    {
      "epoch": 1.1466666666666667,
      "grad_norm": 0.10405348241329193,
      "learning_rate": 0.00015445255474452556,
      "loss": 0.4941,
      "step": 473
    },
    {
      "epoch": 1.1490909090909092,
      "grad_norm": 0.08469447493553162,
      "learning_rate": 0.00015435523114355233,
      "loss": 0.5098,
      "step": 474
    },
    {
      "epoch": 1.1515151515151516,
      "grad_norm": 0.08546050637960434,
      "learning_rate": 0.00015425790754257908,
      "loss": 0.5197,
      "step": 475
    },
    {
      "epoch": 1.1539393939393938,
      "grad_norm": 0.08997242152690887,
      "learning_rate": 0.00015416058394160585,
      "loss": 0.499,
      "step": 476
    },
    {
      "epoch": 1.1563636363636363,
      "grad_norm": 0.08245165646076202,
      "learning_rate": 0.00015406326034063262,
      "loss": 0.5129,
      "step": 477
    },
    {
      "epoch": 1.1587878787878787,
      "grad_norm": 0.08958356082439423,
      "learning_rate": 0.00015396593673965939,
      "loss": 0.5175,
      "step": 478
    },
    {
      "epoch": 1.1612121212121211,
      "grad_norm": 0.08009914308786392,
      "learning_rate": 0.00015386861313868616,
      "loss": 0.534,
      "step": 479
    },
    {
      "epoch": 1.1636363636363636,
      "grad_norm": 0.089272640645504,
      "learning_rate": 0.0001537712895377129,
      "loss": 0.5156,
      "step": 480
    },
    {
      "epoch": 1.166060606060606,
      "grad_norm": 0.08497253060340881,
      "learning_rate": 0.00015367396593673967,
      "loss": 0.5169,
      "step": 481
    },
    {
      "epoch": 1.1684848484848485,
      "grad_norm": 0.08458175510168076,
      "learning_rate": 0.00015357664233576644,
      "loss": 0.5134,
      "step": 482
    },
    {
      "epoch": 1.170909090909091,
      "grad_norm": 0.08339492976665497,
      "learning_rate": 0.0001534793187347932,
      "loss": 0.5013,
      "step": 483
    },
    {
      "epoch": 1.1733333333333333,
      "grad_norm": 0.10656485706567764,
      "learning_rate": 0.00015338199513381998,
      "loss": 0.5187,
      "step": 484
    },
    {
      "epoch": 1.1757575757575758,
      "grad_norm": 0.0818299651145935,
      "learning_rate": 0.00015328467153284672,
      "loss": 0.5056,
      "step": 485
    },
    {
      "epoch": 1.1781818181818182,
      "grad_norm": 0.1118079349398613,
      "learning_rate": 0.0001531873479318735,
      "loss": 0.5227,
      "step": 486
    },
    {
      "epoch": 1.1806060606060607,
      "grad_norm": 0.0880877748131752,
      "learning_rate": 0.00015309002433090026,
      "loss": 0.5076,
      "step": 487
    },
    {
      "epoch": 1.183030303030303,
      "grad_norm": 0.08330365270376205,
      "learning_rate": 0.000152992700729927,
      "loss": 0.5078,
      "step": 488
    },
    {
      "epoch": 1.1854545454545455,
      "grad_norm": 0.08401932567358017,
      "learning_rate": 0.00015289537712895378,
      "loss": 0.5022,
      "step": 489
    },
    {
      "epoch": 1.187878787878788,
      "grad_norm": 0.09882496297359467,
      "learning_rate": 0.00015279805352798055,
      "loss": 0.516,
      "step": 490
    },
    {
      "epoch": 1.1903030303030304,
      "grad_norm": 0.08196999877691269,
      "learning_rate": 0.0001527007299270073,
      "loss": 0.4995,
      "step": 491
    },
    {
      "epoch": 1.1927272727272726,
      "grad_norm": 0.1815212368965149,
      "learning_rate": 0.00015260340632603406,
      "loss": 0.5208,
      "step": 492
    },
    {
      "epoch": 1.195151515151515,
      "grad_norm": 0.10694020986557007,
      "learning_rate": 0.00015250608272506083,
      "loss": 0.5298,
      "step": 493
    },
    {
      "epoch": 1.1975757575757575,
      "grad_norm": 0.08709581196308136,
      "learning_rate": 0.0001524087591240876,
      "loss": 0.5185,
      "step": 494
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.0916096493601799,
      "learning_rate": 0.00015231143552311434,
      "loss": 0.5158,
      "step": 495
    },
    {
      "epoch": 1.2024242424242424,
      "grad_norm": 0.08709704130887985,
      "learning_rate": 0.00015221411192214111,
      "loss": 0.5075,
      "step": 496
    },
    {
      "epoch": 1.2048484848484848,
      "grad_norm": 0.08242951333522797,
      "learning_rate": 0.00015211678832116788,
      "loss": 0.5183,
      "step": 497
    },
    {
      "epoch": 1.2072727272727273,
      "grad_norm": 0.09210577607154846,
      "learning_rate": 0.00015201946472019465,
      "loss": 0.5563,
      "step": 498
    },
    {
      "epoch": 1.2096969696969697,
      "grad_norm": 0.08756948262453079,
      "learning_rate": 0.00015192214111922142,
      "loss": 0.5096,
      "step": 499
    },
    {
      "epoch": 1.2121212121212122,
      "grad_norm": 0.08763476461172104,
      "learning_rate": 0.00015182481751824817,
      "loss": 0.5366,
      "step": 500
    },
    {
      "epoch": 1.2157575757575758,
      "grad_norm": 0.09851865470409393,
      "learning_rate": 0.00015172749391727494,
      "loss": 0.513,
      "step": 501
    },
    {
      "epoch": 1.2181818181818183,
      "grad_norm": 0.08382665365934372,
      "learning_rate": 0.0001516301703163017,
      "loss": 0.5228,
      "step": 502
    },
    {
      "epoch": 1.2206060606060607,
      "grad_norm": 0.08667465299367905,
      "learning_rate": 0.00015153284671532848,
      "loss": 0.5605,
      "step": 503
    },
    {
      "epoch": 1.2230303030303031,
      "grad_norm": 0.08665841072797775,
      "learning_rate": 0.00015143552311435525,
      "loss": 0.4944,
      "step": 504
    },
    {
      "epoch": 1.2254545454545456,
      "grad_norm": 0.09344764053821564,
      "learning_rate": 0.000151338199513382,
      "loss": 0.5148,
      "step": 505
    },
    {
      "epoch": 1.2278787878787878,
      "grad_norm": 0.11476101726293564,
      "learning_rate": 0.00015124087591240876,
      "loss": 0.4943,
      "step": 506
    },
    {
      "epoch": 1.2303030303030302,
      "grad_norm": 0.08675657957792282,
      "learning_rate": 0.00015114355231143553,
      "loss": 0.5026,
      "step": 507
    },
    {
      "epoch": 1.2327272727272727,
      "grad_norm": 0.0824153870344162,
      "learning_rate": 0.0001510462287104623,
      "loss": 0.498,
      "step": 508
    },
    {
      "epoch": 1.2351515151515151,
      "grad_norm": 0.08708232641220093,
      "learning_rate": 0.00015094890510948907,
      "loss": 0.5157,
      "step": 509
    },
    {
      "epoch": 1.2375757575757576,
      "grad_norm": 0.11077408492565155,
      "learning_rate": 0.00015085158150851582,
      "loss": 0.484,
      "step": 510
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.13466417789459229,
      "learning_rate": 0.00015075425790754259,
      "loss": 0.5141,
      "step": 511
    },
    {
      "epoch": 1.2424242424242424,
      "grad_norm": 0.08861487358808517,
      "learning_rate": 0.00015065693430656936,
      "loss": 0.5377,
      "step": 512
    },
    {
      "epoch": 1.2448484848484849,
      "grad_norm": 0.08291108161211014,
      "learning_rate": 0.00015055961070559613,
      "loss": 0.4983,
      "step": 513
    },
    {
      "epoch": 1.2472727272727273,
      "grad_norm": 0.08234492689371109,
      "learning_rate": 0.00015046228710462287,
      "loss": 0.5004,
      "step": 514
    },
    {
      "epoch": 1.2496969696969698,
      "grad_norm": 0.08518437296152115,
      "learning_rate": 0.00015036496350364964,
      "loss": 0.4999,
      "step": 515
    },
    {
      "epoch": 1.2521212121212122,
      "grad_norm": 0.09255598485469818,
      "learning_rate": 0.0001502676399026764,
      "loss": 0.4991,
      "step": 516
    },
    {
      "epoch": 1.2545454545454544,
      "grad_norm": 0.10292229801416397,
      "learning_rate": 0.00015017031630170318,
      "loss": 0.5311,
      "step": 517
    },
    {
      "epoch": 1.2569696969696968,
      "grad_norm": 0.08543982356786728,
      "learning_rate": 0.00015007299270072995,
      "loss": 0.4944,
      "step": 518
    },
    {
      "epoch": 1.2593939393939393,
      "grad_norm": 0.09525194764137268,
      "learning_rate": 0.0001499756690997567,
      "loss": 0.5092,
      "step": 519
    },
    {
      "epoch": 1.2618181818181817,
      "grad_norm": 0.1020321249961853,
      "learning_rate": 0.00014987834549878346,
      "loss": 0.5262,
      "step": 520
    },
    {
      "epoch": 1.2642424242424242,
      "grad_norm": 0.09426764398813248,
      "learning_rate": 0.00014978102189781023,
      "loss": 0.5013,
      "step": 521
    },
    {
      "epoch": 1.2666666666666666,
      "grad_norm": 0.13493221998214722,
      "learning_rate": 0.000149683698296837,
      "loss": 0.4999,
      "step": 522
    },
    {
      "epoch": 1.269090909090909,
      "grad_norm": 0.08331029117107391,
      "learning_rate": 0.00014958637469586377,
      "loss": 0.5145,
      "step": 523
    },
    {
      "epoch": 1.2715151515151515,
      "grad_norm": 0.09309305250644684,
      "learning_rate": 0.00014948905109489052,
      "loss": 0.5147,
      "step": 524
    },
    {
      "epoch": 1.273939393939394,
      "grad_norm": 0.08079483360052109,
      "learning_rate": 0.0001493917274939173,
      "loss": 0.5081,
      "step": 525
    },
    {
      "epoch": 1.2763636363636364,
      "grad_norm": 0.09371911734342575,
      "learning_rate": 0.00014929440389294406,
      "loss": 0.5227,
      "step": 526
    },
    {
      "epoch": 1.2787878787878788,
      "grad_norm": 0.08061868697404861,
      "learning_rate": 0.00014919708029197083,
      "loss": 0.5065,
      "step": 527
    },
    {
      "epoch": 1.2812121212121212,
      "grad_norm": 0.09465505182743073,
      "learning_rate": 0.00014909975669099757,
      "loss": 0.5242,
      "step": 528
    },
    {
      "epoch": 1.2836363636363637,
      "grad_norm": 0.08646652847528458,
      "learning_rate": 0.00014900243309002434,
      "loss": 0.5198,
      "step": 529
    },
    {
      "epoch": 1.2860606060606061,
      "grad_norm": 0.09964391589164734,
      "learning_rate": 0.0001489051094890511,
      "loss": 0.5187,
      "step": 530
    },
    {
      "epoch": 1.2884848484848486,
      "grad_norm": 0.2668514549732208,
      "learning_rate": 0.00014880778588807785,
      "loss": 0.5063,
      "step": 531
    },
    {
      "epoch": 1.290909090909091,
      "grad_norm": 0.8861544728279114,
      "learning_rate": 0.00014871046228710462,
      "loss": 0.5352,
      "step": 532
    },
    {
      "epoch": 1.2933333333333334,
      "grad_norm": 0.09407690167427063,
      "learning_rate": 0.0001486131386861314,
      "loss": 0.504,
      "step": 533
    },
    {
      "epoch": 1.2957575757575759,
      "grad_norm": 0.0829433873295784,
      "learning_rate": 0.00014851581508515814,
      "loss": 0.5226,
      "step": 534
    },
    {
      "epoch": 1.298181818181818,
      "grad_norm": 0.09572310000658035,
      "learning_rate": 0.0001484184914841849,
      "loss": 0.5181,
      "step": 535
    },
    {
      "epoch": 1.3006060606060605,
      "grad_norm": 0.1050073653459549,
      "learning_rate": 0.00014832116788321168,
      "loss": 0.495,
      "step": 536
    },
    {
      "epoch": 1.303030303030303,
      "grad_norm": 0.09953190386295319,
      "learning_rate": 0.00014822384428223845,
      "loss": 0.5148,
      "step": 537
    },
    {
      "epoch": 1.3054545454545454,
      "grad_norm": 0.09054164588451385,
      "learning_rate": 0.00014812652068126522,
      "loss": 0.5316,
      "step": 538
    },
    {
      "epoch": 1.3078787878787879,
      "grad_norm": 0.09377751499414444,
      "learning_rate": 0.00014802919708029196,
      "loss": 0.5237,
      "step": 539
    },
    {
      "epoch": 1.3103030303030303,
      "grad_norm": 0.09183742105960846,
      "learning_rate": 0.00014793187347931873,
      "loss": 0.5081,
      "step": 540
    },
    {
      "epoch": 1.3127272727272727,
      "grad_norm": 0.0925275981426239,
      "learning_rate": 0.0001478345498783455,
      "loss": 0.5081,
      "step": 541
    },
    {
      "epoch": 1.3151515151515152,
      "grad_norm": 0.10807181149721146,
      "learning_rate": 0.00014773722627737227,
      "loss": 0.5204,
      "step": 542
    },
    {
      "epoch": 1.3175757575757576,
      "grad_norm": 0.10067620128393173,
      "learning_rate": 0.00014763990267639904,
      "loss": 0.5078,
      "step": 543
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.09460193663835526,
      "learning_rate": 0.00014754257907542579,
      "loss": 0.4712,
      "step": 544
    },
    {
      "epoch": 1.3224242424242425,
      "grad_norm": 0.1714082807302475,
      "learning_rate": 0.00014744525547445256,
      "loss": 0.5307,
      "step": 545
    },
    {
      "epoch": 1.3248484848484847,
      "grad_norm": 0.10749589651823044,
      "learning_rate": 0.00014734793187347933,
      "loss": 0.5141,
      "step": 546
    },
    {
      "epoch": 1.3272727272727272,
      "grad_norm": 0.10069436579942703,
      "learning_rate": 0.0001472506082725061,
      "loss": 0.5343,
      "step": 547
    },
    {
      "epoch": 1.3296969696969696,
      "grad_norm": 0.14761832356452942,
      "learning_rate": 0.00014715328467153284,
      "loss": 0.5028,
      "step": 548
    },
    {
      "epoch": 1.332121212121212,
      "grad_norm": 1.3738667964935303,
      "learning_rate": 0.0001470559610705596,
      "loss": 0.4939,
      "step": 549
    },
    {
      "epoch": 1.3345454545454545,
      "grad_norm": 0.3520508408546448,
      "learning_rate": 0.00014695863746958638,
      "loss": 0.5027,
      "step": 550
    },
    {
      "epoch": 1.336969696969697,
      "grad_norm": 0.10602544248104095,
      "learning_rate": 0.00014686131386861315,
      "loss": 0.5536,
      "step": 551
    },
    {
      "epoch": 1.3393939393939394,
      "grad_norm": 0.09854532778263092,
      "learning_rate": 0.00014676399026763992,
      "loss": 0.5253,
      "step": 552
    },
    {
      "epoch": 1.3418181818181818,
      "grad_norm": 0.08934779465198517,
      "learning_rate": 0.00014666666666666666,
      "loss": 0.5004,
      "step": 553
    },
    {
      "epoch": 1.3442424242424242,
      "grad_norm": 0.08334718644618988,
      "learning_rate": 0.00014656934306569343,
      "loss": 0.4879,
      "step": 554
    },
    {
      "epoch": 1.3466666666666667,
      "grad_norm": 0.08755338191986084,
      "learning_rate": 0.0001464720194647202,
      "loss": 0.5041,
      "step": 555
    },
    {
      "epoch": 1.3490909090909091,
      "grad_norm": 0.10793605446815491,
      "learning_rate": 0.00014637469586374697,
      "loss": 0.5145,
      "step": 556
    },
    {
      "epoch": 1.3515151515151516,
      "grad_norm": 0.1267707496881485,
      "learning_rate": 0.00014627737226277374,
      "loss": 0.5543,
      "step": 557
    },
    {
      "epoch": 1.353939393939394,
      "grad_norm": 0.09821425378322601,
      "learning_rate": 0.0001461800486618005,
      "loss": 0.4993,
      "step": 558
    },
    {
      "epoch": 1.3563636363636364,
      "grad_norm": 0.09854073822498322,
      "learning_rate": 0.00014608272506082726,
      "loss": 0.5296,
      "step": 559
    },
    {
      "epoch": 1.3587878787878789,
      "grad_norm": 0.08731967210769653,
      "learning_rate": 0.00014598540145985403,
      "loss": 0.4931,
      "step": 560
    },
    {
      "epoch": 1.3612121212121213,
      "grad_norm": 0.12153112888336182,
      "learning_rate": 0.0001458880778588808,
      "loss": 0.5063,
      "step": 561
    },
    {
      "epoch": 1.3636363636363638,
      "grad_norm": 0.09742265194654465,
      "learning_rate": 0.00014579075425790757,
      "loss": 0.5067,
      "step": 562
    },
    {
      "epoch": 1.3660606060606062,
      "grad_norm": 0.09881233423948288,
      "learning_rate": 0.0001456934306569343,
      "loss": 0.5556,
      "step": 563
    },
    {
      "epoch": 1.3684848484848484,
      "grad_norm": 0.08841077983379364,
      "learning_rate": 0.00014559610705596108,
      "loss": 0.537,
      "step": 564
    },
    {
      "epoch": 1.3709090909090909,
      "grad_norm": 0.08286780118942261,
      "learning_rate": 0.00014549878345498785,
      "loss": 0.4852,
      "step": 565
    },
    {
      "epoch": 1.3733333333333333,
      "grad_norm": 0.10221046954393387,
      "learning_rate": 0.00014540145985401462,
      "loss": 0.5136,
      "step": 566
    },
    {
      "epoch": 1.3757575757575757,
      "grad_norm": 0.11805588752031326,
      "learning_rate": 0.0001453041362530414,
      "loss": 0.5167,
      "step": 567
    },
    {
      "epoch": 1.3781818181818182,
      "grad_norm": 0.10228164494037628,
      "learning_rate": 0.00014520681265206813,
      "loss": 0.5193,
      "step": 568
    },
    {
      "epoch": 1.3806060606060606,
      "grad_norm": 0.09577467292547226,
      "learning_rate": 0.0001451094890510949,
      "loss": 0.5484,
      "step": 569
    },
    {
      "epoch": 1.383030303030303,
      "grad_norm": 0.10035896301269531,
      "learning_rate": 0.00014501216545012167,
      "loss": 0.5295,
      "step": 570
    },
    {
      "epoch": 1.3854545454545455,
      "grad_norm": 0.09537103027105331,
      "learning_rate": 0.00014491484184914842,
      "loss": 0.4905,
      "step": 571
    },
    {
      "epoch": 1.387878787878788,
      "grad_norm": 0.12688210606575012,
      "learning_rate": 0.0001448175182481752,
      "loss": 0.5122,
      "step": 572
    },
    {
      "epoch": 1.3903030303030304,
      "grad_norm": 0.11108087748289108,
      "learning_rate": 0.00014472019464720196,
      "loss": 0.5167,
      "step": 573
    },
    {
      "epoch": 1.3927272727272726,
      "grad_norm": 0.08123259991407394,
      "learning_rate": 0.0001446228710462287,
      "loss": 0.4984,
      "step": 574
    },
    {
      "epoch": 1.395151515151515,
      "grad_norm": 0.09493537247180939,
      "learning_rate": 0.00014452554744525547,
      "loss": 0.5122,
      "step": 575
    },
    {
      "epoch": 1.3975757575757575,
      "grad_norm": 0.10610169917345047,
      "learning_rate": 0.00014442822384428224,
      "loss": 0.5077,
      "step": 576
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.12278426438570023,
      "learning_rate": 0.000144330900243309,
      "loss": 0.5822,
      "step": 577
    },
    {
      "epoch": 1.4024242424242424,
      "grad_norm": 0.08439641445875168,
      "learning_rate": 0.00014423357664233576,
      "loss": 0.4969,
      "step": 578
    },
    {
      "epoch": 1.4048484848484848,
      "grad_norm": 0.1579558104276657,
      "learning_rate": 0.00014413625304136253,
      "loss": 0.508,
      "step": 579
    },
    {
      "epoch": 1.4072727272727272,
      "grad_norm": 0.10641365498304367,
      "learning_rate": 0.0001440389294403893,
      "loss": 0.5318,
      "step": 580
    },
    {
      "epoch": 1.4096969696969697,
      "grad_norm": 0.4571323096752167,
      "learning_rate": 0.00014394160583941607,
      "loss": 0.5568,
      "step": 581
    },
    {
      "epoch": 1.412121212121212,
      "grad_norm": 0.09110407531261444,
      "learning_rate": 0.00014384428223844284,
      "loss": 0.5055,
      "step": 582
    },
    {
      "epoch": 1.4145454545454546,
      "grad_norm": 0.10636278986930847,
      "learning_rate": 0.00014374695863746958,
      "loss": 0.5248,
      "step": 583
    },
    {
      "epoch": 1.416969696969697,
      "grad_norm": 0.09190414845943451,
      "learning_rate": 0.00014364963503649635,
      "loss": 0.5061,
      "step": 584
    },
    {
      "epoch": 1.4193939393939394,
      "grad_norm": 0.08538050204515457,
      "learning_rate": 0.00014355231143552312,
      "loss": 0.4963,
      "step": 585
    },
    {
      "epoch": 1.4218181818181819,
      "grad_norm": 0.08791066706180573,
      "learning_rate": 0.0001434549878345499,
      "loss": 0.4981,
      "step": 586
    },
    {
      "epoch": 1.4242424242424243,
      "grad_norm": 0.16966612637043,
      "learning_rate": 0.00014335766423357663,
      "loss": 0.4886,
      "step": 587
    },
    {
      "epoch": 1.4266666666666667,
      "grad_norm": 0.11110067367553711,
      "learning_rate": 0.0001432603406326034,
      "loss": 0.5101,
      "step": 588
    },
    {
      "epoch": 1.4290909090909092,
      "grad_norm": 0.12022274732589722,
      "learning_rate": 0.00014316301703163017,
      "loss": 0.5187,
      "step": 589
    },
    {
      "epoch": 1.4315151515151516,
      "grad_norm": 0.09382260590791702,
      "learning_rate": 0.00014306569343065694,
      "loss": 0.5234,
      "step": 590
    },
    {
      "epoch": 1.433939393939394,
      "grad_norm": 0.08684837073087692,
      "learning_rate": 0.0001429683698296837,
      "loss": 0.4994,
      "step": 591
    },
    {
      "epoch": 1.4363636363636363,
      "grad_norm": 0.3479120135307312,
      "learning_rate": 0.00014287104622871046,
      "loss": 0.4933,
      "step": 592
    },
    {
      "epoch": 1.4387878787878787,
      "grad_norm": 0.29582905769348145,
      "learning_rate": 0.00014277372262773723,
      "loss": 0.4984,
      "step": 593
    },
    {
      "epoch": 1.4412121212121212,
      "grad_norm": 0.22288404405117035,
      "learning_rate": 0.000142676399026764,
      "loss": 0.5313,
      "step": 594
    },
    {
      "epoch": 1.4436363636363636,
      "grad_norm": 0.39515429735183716,
      "learning_rate": 0.00014257907542579077,
      "loss": 0.5122,
      "step": 595
    },
    {
      "epoch": 1.446060606060606,
      "grad_norm": 0.11622841656208038,
      "learning_rate": 0.00014248175182481754,
      "loss": 0.5141,
      "step": 596
    },
    {
      "epoch": 1.4484848484848485,
      "grad_norm": 0.11276782304048538,
      "learning_rate": 0.00014238442822384428,
      "loss": 0.5231,
      "step": 597
    },
    {
      "epoch": 1.450909090909091,
      "grad_norm": 0.24036924540996552,
      "learning_rate": 0.00014228710462287105,
      "loss": 0.5443,
      "step": 598
    },
    {
      "epoch": 1.4533333333333334,
      "grad_norm": 0.10040941834449768,
      "learning_rate": 0.00014218978102189782,
      "loss": 0.5093,
      "step": 599
    },
    {
      "epoch": 1.4557575757575758,
      "grad_norm": 0.1752922534942627,
      "learning_rate": 0.0001420924574209246,
      "loss": 0.5303,
      "step": 600
    },
    {
      "epoch": 1.4581818181818182,
      "grad_norm": 0.08805153518915176,
      "learning_rate": 0.00014199513381995136,
      "loss": 0.4744,
      "step": 601
    },
    {
      "epoch": 1.4606060606060607,
      "grad_norm": 0.10997084528207779,
      "learning_rate": 0.0001418978102189781,
      "loss": 0.4902,
      "step": 602
    },
    {
      "epoch": 1.463030303030303,
      "grad_norm": 0.13261787593364716,
      "learning_rate": 0.00014180048661800487,
      "loss": 0.5407,
      "step": 603
    },
    {
      "epoch": 1.4654545454545453,
      "grad_norm": 0.131486713886261,
      "learning_rate": 0.00014170316301703164,
      "loss": 0.5017,
      "step": 604
    },
    {
      "epoch": 1.4678787878787878,
      "grad_norm": 0.12537068128585815,
      "learning_rate": 0.00014160583941605841,
      "loss": 0.5246,
      "step": 605
    },
    {
      "epoch": 1.4703030303030302,
      "grad_norm": 0.08722874522209167,
      "learning_rate": 0.00014150851581508519,
      "loss": 0.5131,
      "step": 606
    },
    {
      "epoch": 1.4727272727272727,
      "grad_norm": 0.09783386439085007,
      "learning_rate": 0.00014141119221411193,
      "loss": 0.5207,
      "step": 607
    },
    {
      "epoch": 1.475151515151515,
      "grad_norm": 0.6664203405380249,
      "learning_rate": 0.0001413138686131387,
      "loss": 0.5184,
      "step": 608
    },
    {
      "epoch": 1.4775757575757575,
      "grad_norm": 0.14857949316501617,
      "learning_rate": 0.00014121654501216547,
      "loss": 0.5153,
      "step": 609
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.25771790742874146,
      "learning_rate": 0.00014111922141119224,
      "loss": 0.5269,
      "step": 610
    },
    {
      "epoch": 1.4824242424242424,
      "grad_norm": 0.6608598828315735,
      "learning_rate": 0.00014102189781021898,
      "loss": 0.5262,
      "step": 611
    },
    {
      "epoch": 1.4848484848484849,
      "grad_norm": 0.13859528303146362,
      "learning_rate": 0.00014092457420924575,
      "loss": 0.5063,
      "step": 612
    },
    {
      "epoch": 1.4872727272727273,
      "grad_norm": 0.10319739580154419,
      "learning_rate": 0.00014082725060827252,
      "loss": 0.5036,
      "step": 613
    },
    {
      "epoch": 1.4896969696969697,
      "grad_norm": 0.9096177816390991,
      "learning_rate": 0.00014072992700729927,
      "loss": 0.5173,
      "step": 614
    },
    {
      "epoch": 1.4921212121212122,
      "grad_norm": 0.1416400820016861,
      "learning_rate": 0.00014063260340632604,
      "loss": 0.499,
      "step": 615
    },
    {
      "epoch": 1.4945454545454546,
      "grad_norm": 0.12297678738832474,
      "learning_rate": 0.0001405352798053528,
      "loss": 0.5033,
      "step": 616
    },
    {
      "epoch": 1.496969696969697,
      "grad_norm": 0.10917158424854279,
      "learning_rate": 0.00014043795620437955,
      "loss": 0.5309,
      "step": 617
    },
    {
      "epoch": 1.4993939393939395,
      "grad_norm": 0.7008136510848999,
      "learning_rate": 0.00014034063260340632,
      "loss": 0.5244,
      "step": 618
    },
    {
      "epoch": 1.4993939393939395,
      "eval_loss": 0.5426867008209229,
      "eval_runtime": 241.8347,
      "eval_samples_per_second": 0.715,
      "eval_steps_per_second": 0.091,
      "step": 618
    },
    {
      "epoch": 1.501818181818182,
      "grad_norm": 0.12174824625253677,
      "learning_rate": 0.0001402433090024331,
      "loss": 0.5116,
      "step": 619
    },
    {
      "epoch": 1.5042424242424244,
      "grad_norm": 0.09832018613815308,
      "learning_rate": 0.00014014598540145986,
      "loss": 0.5273,
      "step": 620
    },
    {
      "epoch": 1.5066666666666668,
      "grad_norm": 0.08344907313585281,
      "learning_rate": 0.00014004866180048663,
      "loss": 0.4947,
      "step": 621
    },
    {
      "epoch": 1.509090909090909,
      "grad_norm": 0.3412723243236542,
      "learning_rate": 0.00013995133819951337,
      "loss": 0.4909,
      "step": 622
    },
    {
      "epoch": 1.5115151515151515,
      "grad_norm": 0.10445137321949005,
      "learning_rate": 0.00013985401459854014,
      "loss": 0.5256,
      "step": 623
    },
    {
      "epoch": 1.513939393939394,
      "grad_norm": 0.10021518915891647,
      "learning_rate": 0.0001397566909975669,
      "loss": 0.5393,
      "step": 624
    },
    {
      "epoch": 1.5163636363636364,
      "grad_norm": 0.4056515693664551,
      "learning_rate": 0.00013965936739659368,
      "loss": 0.5157,
      "step": 625
    },
    {
      "epoch": 1.5187878787878788,
      "grad_norm": 1.1741892099380493,
      "learning_rate": 0.00013956204379562043,
      "loss": 0.52,
      "step": 626
    },
    {
      "epoch": 1.5212121212121212,
      "grad_norm": 0.0901217833161354,
      "learning_rate": 0.0001394647201946472,
      "loss": 0.5247,
      "step": 627
    },
    {
      "epoch": 1.5236363636363637,
      "grad_norm": 0.10133036226034164,
      "learning_rate": 0.00013936739659367397,
      "loss": 0.509,
      "step": 628
    },
    {
      "epoch": 1.526060606060606,
      "grad_norm": 0.09520047158002853,
      "learning_rate": 0.00013927007299270074,
      "loss": 0.5248,
      "step": 629
    },
    {
      "epoch": 1.5284848484848483,
      "grad_norm": 0.1501193791627884,
      "learning_rate": 0.0001391727493917275,
      "loss": 0.4868,
      "step": 630
    },
    {
      "epoch": 1.5309090909090908,
      "grad_norm": 0.08849448710680008,
      "learning_rate": 0.00013907542579075425,
      "loss": 0.4835,
      "step": 631
    },
    {
      "epoch": 1.5333333333333332,
      "grad_norm": 0.08529596030712128,
      "learning_rate": 0.00013897810218978102,
      "loss": 0.5078,
      "step": 632
    },
    {
      "epoch": 1.5357575757575757,
      "grad_norm": 0.08893850445747375,
      "learning_rate": 0.0001388807785888078,
      "loss": 0.493,
      "step": 633
    },
    {
      "epoch": 1.538181818181818,
      "grad_norm": 0.09190589189529419,
      "learning_rate": 0.00013878345498783456,
      "loss": 0.5126,
      "step": 634
    },
    {
      "epoch": 1.5406060606060605,
      "grad_norm": 0.0931849256157875,
      "learning_rate": 0.00013868613138686133,
      "loss": 0.5153,
      "step": 635
    },
    {
      "epoch": 1.543030303030303,
      "grad_norm": 0.09835103154182434,
      "learning_rate": 0.00013858880778588807,
      "loss": 0.5113,
      "step": 636
    },
    {
      "epoch": 1.5454545454545454,
      "grad_norm": 0.09628862887620926,
      "learning_rate": 0.00013849148418491484,
      "loss": 0.5276,
      "step": 637
    },
    {
      "epoch": 1.5478787878787879,
      "grad_norm": 0.0881367102265358,
      "learning_rate": 0.00013839416058394161,
      "loss": 0.5157,
      "step": 638
    },
    {
      "epoch": 1.5503030303030303,
      "grad_norm": 0.08636005222797394,
      "learning_rate": 0.00013829683698296838,
      "loss": 0.5031,
      "step": 639
    },
    {
      "epoch": 1.5527272727272727,
      "grad_norm": 0.08914078027009964,
      "learning_rate": 0.00013819951338199516,
      "loss": 0.5212,
      "step": 640
    },
    {
      "epoch": 1.5551515151515152,
      "grad_norm": 0.1205536350607872,
      "learning_rate": 0.0001381021897810219,
      "loss": 0.5378,
      "step": 641
    },
    {
      "epoch": 1.5575757575757576,
      "grad_norm": 0.10296133160591125,
      "learning_rate": 0.00013800486618004867,
      "loss": 0.5385,
      "step": 642
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.26666656136512756,
      "learning_rate": 0.00013790754257907544,
      "loss": 0.5389,
      "step": 643
    },
    {
      "epoch": 1.5624242424242425,
      "grad_norm": 0.09611054509878159,
      "learning_rate": 0.0001378102189781022,
      "loss": 0.5435,
      "step": 644
    },
    {
      "epoch": 1.564848484848485,
      "grad_norm": 0.09267331659793854,
      "learning_rate": 0.00013771289537712898,
      "loss": 0.5035,
      "step": 645
    },
    {
      "epoch": 1.5672727272727274,
      "grad_norm": 0.09073900431394577,
      "learning_rate": 0.00013761557177615572,
      "loss": 0.5239,
      "step": 646
    },
    {
      "epoch": 1.5696969696969698,
      "grad_norm": 0.3817671835422516,
      "learning_rate": 0.0001375182481751825,
      "loss": 0.4936,
      "step": 647
    },
    {
      "epoch": 1.5721212121212123,
      "grad_norm": 0.24356655776500702,
      "learning_rate": 0.00013742092457420926,
      "loss": 0.5329,
      "step": 648
    },
    {
      "epoch": 1.5745454545454547,
      "grad_norm": 0.09004390984773636,
      "learning_rate": 0.00013732360097323603,
      "loss": 0.5176,
      "step": 649
    },
    {
      "epoch": 1.5769696969696971,
      "grad_norm": 0.08625171333551407,
      "learning_rate": 0.0001372262773722628,
      "loss": 0.5148,
      "step": 650
    },
    {
      "epoch": 1.5793939393939394,
      "grad_norm": 0.11838056892156601,
      "learning_rate": 0.00013712895377128955,
      "loss": 0.5157,
      "step": 651
    },
    {
      "epoch": 1.5818181818181818,
      "grad_norm": 0.09113223105669022,
      "learning_rate": 0.00013703163017031632,
      "loss": 0.5138,
      "step": 652
    },
    {
      "epoch": 1.5842424242424242,
      "grad_norm": 0.08658754080533981,
      "learning_rate": 0.00013693430656934309,
      "loss": 0.5,
      "step": 653
    },
    {
      "epoch": 1.5866666666666667,
      "grad_norm": 0.10554317384958267,
      "learning_rate": 0.00013683698296836983,
      "loss": 0.494,
      "step": 654
    },
    {
      "epoch": 1.589090909090909,
      "grad_norm": 0.09069076180458069,
      "learning_rate": 0.0001367396593673966,
      "loss": 0.4789,
      "step": 655
    },
    {
      "epoch": 1.5915151515151515,
      "grad_norm": 0.17110930383205414,
      "learning_rate": 0.00013664233576642337,
      "loss": 0.5083,
      "step": 656
    },
    {
      "epoch": 1.593939393939394,
      "grad_norm": 0.08961903303861618,
      "learning_rate": 0.0001365450121654501,
      "loss": 0.499,
      "step": 657
    },
    {
      "epoch": 1.5963636363636362,
      "grad_norm": 1.077021598815918,
      "learning_rate": 0.00013644768856447688,
      "loss": 0.5072,
      "step": 658
    },
    {
      "epoch": 1.5987878787878786,
      "grad_norm": 0.10393751412630081,
      "learning_rate": 0.00013635036496350365,
      "loss": 0.4947,
      "step": 659
    },
    {
      "epoch": 1.601212121212121,
      "grad_norm": 0.12997040152549744,
      "learning_rate": 0.0001362530413625304,
      "loss": 0.517,
      "step": 660
    },
    {
      "epoch": 1.6036363636363635,
      "grad_norm": 0.10494109243154526,
      "learning_rate": 0.00013615571776155717,
      "loss": 0.5237,
      "step": 661
    },
    {
      "epoch": 1.606060606060606,
      "grad_norm": 0.09220349043607712,
      "learning_rate": 0.00013605839416058394,
      "loss": 0.5005,
      "step": 662
    },
    {
      "epoch": 1.6084848484848484,
      "grad_norm": 0.0959923192858696,
      "learning_rate": 0.0001359610705596107,
      "loss": 0.5124,
      "step": 663
    },
    {
      "epoch": 1.6109090909090908,
      "grad_norm": 0.19840312004089355,
      "learning_rate": 0.00013586374695863748,
      "loss": 0.4995,
      "step": 664
    },
    {
      "epoch": 1.6133333333333333,
      "grad_norm": 0.10880960524082184,
      "learning_rate": 0.00013576642335766422,
      "loss": 0.5094,
      "step": 665
    },
    {
      "epoch": 1.6157575757575757,
      "grad_norm": 0.9609275460243225,
      "learning_rate": 0.000135669099756691,
      "loss": 0.5424,
      "step": 666
    },
    {
      "epoch": 1.6181818181818182,
      "grad_norm": 0.11702941358089447,
      "learning_rate": 0.00013557177615571776,
      "loss": 0.5516,
      "step": 667
    },
    {
      "epoch": 1.6206060606060606,
      "grad_norm": 0.09722508490085602,
      "learning_rate": 0.00013547445255474453,
      "loss": 0.5183,
      "step": 668
    },
    {
      "epoch": 1.623030303030303,
      "grad_norm": 0.30718985199928284,
      "learning_rate": 0.0001353771289537713,
      "loss": 0.5169,
      "step": 669
    },
    {
      "epoch": 1.6254545454545455,
      "grad_norm": 0.0923367589712143,
      "learning_rate": 0.00013527980535279804,
      "loss": 0.5247,
      "step": 670
    },
    {
      "epoch": 1.627878787878788,
      "grad_norm": 0.08521062880754471,
      "learning_rate": 0.00013518248175182481,
      "loss": 0.4884,
      "step": 671
    },
    {
      "epoch": 1.6303030303030304,
      "grad_norm": 0.11123323440551758,
      "learning_rate": 0.00013508515815085158,
      "loss": 0.5244,
      "step": 672
    },
    {
      "epoch": 1.6327272727272728,
      "grad_norm": 1.1226167678833008,
      "learning_rate": 0.00013498783454987835,
      "loss": 0.5367,
      "step": 673
    },
    {
      "epoch": 1.6351515151515152,
      "grad_norm": 0.1280689239501953,
      "learning_rate": 0.00013489051094890512,
      "loss": 0.5272,
      "step": 674
    },
    {
      "epoch": 1.6375757575757577,
      "grad_norm": 0.0885777547955513,
      "learning_rate": 0.00013479318734793187,
      "loss": 0.5496,
      "step": 675
    },
    {
      "epoch": 1.6400000000000001,
      "grad_norm": 0.12351541966199875,
      "learning_rate": 0.00013469586374695864,
      "loss": 0.4887,
      "step": 676
    },
    {
      "epoch": 1.6424242424242426,
      "grad_norm": 0.2573789358139038,
      "learning_rate": 0.0001345985401459854,
      "loss": 0.5442,
      "step": 677
    },
    {
      "epoch": 1.644848484848485,
      "grad_norm": 0.11176514625549316,
      "learning_rate": 0.00013450121654501218,
      "loss": 0.518,
      "step": 678
    },
    {
      "epoch": 1.6472727272727272,
      "grad_norm": 0.09179411828517914,
      "learning_rate": 0.00013440389294403895,
      "loss": 0.4743,
      "step": 679
    },
    {
      "epoch": 1.6496969696969697,
      "grad_norm": 0.09446976333856583,
      "learning_rate": 0.0001343065693430657,
      "loss": 0.5204,
      "step": 680
    },
    {
      "epoch": 1.652121212121212,
      "grad_norm": 0.08393451571464539,
      "learning_rate": 0.00013420924574209246,
      "loss": 0.5038,
      "step": 681
    },
    {
      "epoch": 1.6545454545454545,
      "grad_norm": 10.819347381591797,
      "learning_rate": 0.00013411192214111923,
      "loss": 0.5149,
      "step": 682
    },
    {
      "epoch": 1.656969696969697,
      "grad_norm": 0.10026857256889343,
      "learning_rate": 0.000134014598540146,
      "loss": 0.5279,
      "step": 683
    },
    {
      "epoch": 1.6593939393939394,
      "grad_norm": 0.09785015136003494,
      "learning_rate": 0.00013391727493917277,
      "loss": 0.5266,
      "step": 684
    },
    {
      "epoch": 1.6618181818181819,
      "grad_norm": 0.08740323036909103,
      "learning_rate": 0.00013381995133819952,
      "loss": 0.4778,
      "step": 685
    },
    {
      "epoch": 1.664242424242424,
      "grad_norm": 0.10364487767219543,
      "learning_rate": 0.00013372262773722629,
      "loss": 0.5387,
      "step": 686
    },
    {
      "epoch": 1.6666666666666665,
      "grad_norm": 0.08338481187820435,
      "learning_rate": 0.00013362530413625306,
      "loss": 0.4942,
      "step": 687
    },
    {
      "epoch": 1.669090909090909,
      "grad_norm": 0.08858414739370346,
      "learning_rate": 0.00013352798053527983,
      "loss": 0.511,
      "step": 688
    },
    {
      "epoch": 1.6715151515151514,
      "grad_norm": 0.0987328365445137,
      "learning_rate": 0.0001334306569343066,
      "loss": 0.518,
      "step": 689
    },
    {
      "epoch": 1.6739393939393938,
      "grad_norm": 0.09510836750268936,
      "learning_rate": 0.00013333333333333334,
      "loss": 0.5345,
      "step": 690
    },
    {
      "epoch": 1.6763636363636363,
      "grad_norm": 0.09336994588375092,
      "learning_rate": 0.0001332360097323601,
      "loss": 0.5237,
      "step": 691
    },
    {
      "epoch": 1.6787878787878787,
      "grad_norm": 0.0897902324795723,
      "learning_rate": 0.00013313868613138688,
      "loss": 0.5104,
      "step": 692
    },
    {
      "epoch": 1.6812121212121212,
      "grad_norm": 0.11481337994337082,
      "learning_rate": 0.00013304136253041365,
      "loss": 0.5257,
      "step": 693
    },
    {
      "epoch": 1.6836363636363636,
      "grad_norm": 0.09148294478654861,
      "learning_rate": 0.0001329440389294404,
      "loss": 0.5414,
      "step": 694
    },
    {
      "epoch": 1.686060606060606,
      "grad_norm": 0.09387300163507462,
      "learning_rate": 0.00013284671532846716,
      "loss": 0.5274,
      "step": 695
    },
    {
      "epoch": 1.6884848484848485,
      "grad_norm": 0.382906973361969,
      "learning_rate": 0.00013274939172749393,
      "loss": 0.5291,
      "step": 696
    },
    {
      "epoch": 1.690909090909091,
      "grad_norm": 0.08967170864343643,
      "learning_rate": 0.00013265206812652068,
      "loss": 0.5028,
      "step": 697
    },
    {
      "epoch": 1.6933333333333334,
      "grad_norm": 0.09124873578548431,
      "learning_rate": 0.00013255474452554745,
      "loss": 0.5129,
      "step": 698
    },
    {
      "epoch": 1.6957575757575758,
      "grad_norm": 0.0910126343369484,
      "learning_rate": 0.00013245742092457422,
      "loss": 0.4981,
      "step": 699
    },
    {
      "epoch": 1.6981818181818182,
      "grad_norm": 0.0941682979464531,
      "learning_rate": 0.00013236009732360096,
      "loss": 0.5118,
      "step": 700
    },
    {
      "epoch": 1.7006060606060607,
      "grad_norm": 0.09924320131540298,
      "learning_rate": 0.00013226277372262773,
      "loss": 0.5338,
      "step": 701
    },
    {
      "epoch": 1.7030303030303031,
      "grad_norm": 0.7421607971191406,
      "learning_rate": 0.0001321654501216545,
      "loss": 0.5102,
      "step": 702
    },
    {
      "epoch": 1.7054545454545456,
      "grad_norm": 0.10555288940668106,
      "learning_rate": 0.00013206812652068127,
      "loss": 0.5096,
      "step": 703
    },
    {
      "epoch": 1.707878787878788,
      "grad_norm": 0.11547896265983582,
      "learning_rate": 0.00013197080291970801,
      "loss": 0.4991,
      "step": 704
    },
    {
      "epoch": 1.7103030303030304,
      "grad_norm": 0.1316634863615036,
      "learning_rate": 0.00013187347931873478,
      "loss": 0.5309,
      "step": 705
    },
    {
      "epoch": 1.7127272727272729,
      "grad_norm": 0.08588851243257523,
      "learning_rate": 0.00013177615571776155,
      "loss": 0.5016,
      "step": 706
    },
    {
      "epoch": 1.7151515151515153,
      "grad_norm": 0.20941755175590515,
      "learning_rate": 0.00013167883211678832,
      "loss": 0.504,
      "step": 707
    },
    {
      "epoch": 1.7175757575757575,
      "grad_norm": 0.08991261571645737,
      "learning_rate": 0.0001315815085158151,
      "loss": 0.5253,
      "step": 708
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.0975075513124466,
      "learning_rate": 0.00013148418491484184,
      "loss": 0.5072,
      "step": 709
    },
    {
      "epoch": 1.7224242424242424,
      "grad_norm": 0.11055546253919601,
      "learning_rate": 0.0001313868613138686,
      "loss": 0.5313,
      "step": 710
    },
    {
      "epoch": 1.7248484848484849,
      "grad_norm": 0.12106135487556458,
      "learning_rate": 0.00013128953771289538,
      "loss": 0.519,
      "step": 711
    },
    {
      "epoch": 1.7272727272727273,
      "grad_norm": 0.08486786484718323,
      "learning_rate": 0.00013119221411192215,
      "loss": 0.4988,
      "step": 712
    },
    {
      "epoch": 1.7296969696969697,
      "grad_norm": 0.10315895080566406,
      "learning_rate": 0.00013109489051094892,
      "loss": 0.4932,
      "step": 713
    },
    {
      "epoch": 1.7321212121212122,
      "grad_norm": 0.08965547382831573,
      "learning_rate": 0.00013099756690997566,
      "loss": 0.51,
      "step": 714
    },
    {
      "epoch": 1.7345454545454544,
      "grad_norm": 0.08985651284456253,
      "learning_rate": 0.00013090024330900243,
      "loss": 0.5309,
      "step": 715
    },
    {
      "epoch": 1.7369696969696968,
      "grad_norm": 0.7184354066848755,
      "learning_rate": 0.0001308029197080292,
      "loss": 0.514,
      "step": 716
    },
    {
      "epoch": 1.7393939393939393,
      "grad_norm": 0.08635924011468887,
      "learning_rate": 0.00013070559610705597,
      "loss": 0.5191,
      "step": 717
    },
    {
      "epoch": 1.7418181818181817,
      "grad_norm": 0.18263818323612213,
      "learning_rate": 0.00013060827250608274,
      "loss": 0.523,
      "step": 718
    },
    {
      "epoch": 1.7442424242424241,
      "grad_norm": 0.08877100795507431,
      "learning_rate": 0.00013051094890510949,
      "loss": 0.5108,
      "step": 719
    },
    {
      "epoch": 1.7466666666666666,
      "grad_norm": 0.09095145761966705,
      "learning_rate": 0.00013041362530413626,
      "loss": 0.5421,
      "step": 720
    },
    {
      "epoch": 1.749090909090909,
      "grad_norm": 0.1015603169798851,
      "learning_rate": 0.00013031630170316303,
      "loss": 0.4953,
      "step": 721
    },
    {
      "epoch": 1.7515151515151515,
      "grad_norm": 0.08863016963005066,
      "learning_rate": 0.0001302189781021898,
      "loss": 0.5278,
      "step": 722
    },
    {
      "epoch": 1.753939393939394,
      "grad_norm": 0.0910492092370987,
      "learning_rate": 0.00013012165450121657,
      "loss": 0.5306,
      "step": 723
    },
    {
      "epoch": 1.7563636363636363,
      "grad_norm": 0.0929514616727829,
      "learning_rate": 0.0001300243309002433,
      "loss": 0.5689,
      "step": 724
    },
    {
      "epoch": 1.7587878787878788,
      "grad_norm": 0.08800509572029114,
      "learning_rate": 0.00012992700729927008,
      "loss": 0.4995,
      "step": 725
    },
    {
      "epoch": 1.7612121212121212,
      "grad_norm": 0.09410610049962997,
      "learning_rate": 0.00012982968369829685,
      "loss": 0.5154,
      "step": 726
    },
    {
      "epoch": 1.7636363636363637,
      "grad_norm": 0.09670054912567139,
      "learning_rate": 0.00012973236009732362,
      "loss": 0.4949,
      "step": 727
    },
    {
      "epoch": 1.766060606060606,
      "grad_norm": 0.09172822535037994,
      "learning_rate": 0.0001296350364963504,
      "loss": 0.5429,
      "step": 728
    },
    {
      "epoch": 1.7684848484848485,
      "grad_norm": 0.11385251581668854,
      "learning_rate": 0.00012953771289537713,
      "loss": 0.5397,
      "step": 729
    },
    {
      "epoch": 1.770909090909091,
      "grad_norm": 0.1383325755596161,
      "learning_rate": 0.0001294403892944039,
      "loss": 0.5142,
      "step": 730
    },
    {
      "epoch": 1.7733333333333334,
      "grad_norm": 0.09166649729013443,
      "learning_rate": 0.00012934306569343067,
      "loss": 0.5378,
      "step": 731
    },
    {
      "epoch": 1.7757575757575759,
      "grad_norm": 0.09131027013063431,
      "learning_rate": 0.00012924574209245744,
      "loss": 0.5094,
      "step": 732
    },
    {
      "epoch": 1.7781818181818183,
      "grad_norm": 0.08862757682800293,
      "learning_rate": 0.00012914841849148421,
      "loss": 0.5415,
      "step": 733
    },
    {
      "epoch": 1.7806060606060607,
      "grad_norm": 0.09112738072872162,
      "learning_rate": 0.00012905109489051096,
      "loss": 0.5128,
      "step": 734
    },
    {
      "epoch": 1.7830303030303032,
      "grad_norm": 0.08921059966087341,
      "learning_rate": 0.00012895377128953773,
      "loss": 0.4888,
      "step": 735
    },
    {
      "epoch": 1.7854545454545454,
      "grad_norm": 0.09269854426383972,
      "learning_rate": 0.0001288564476885645,
      "loss": 0.5037,
      "step": 736
    },
    {
      "epoch": 1.7878787878787878,
      "grad_norm": 0.10408861190080643,
      "learning_rate": 0.00012875912408759124,
      "loss": 0.5119,
      "step": 737
    },
    {
      "epoch": 1.7903030303030303,
      "grad_norm": 0.090974822640419,
      "learning_rate": 0.000128661800486618,
      "loss": 0.5193,
      "step": 738
    },
    {
      "epoch": 1.7927272727272727,
      "grad_norm": 0.10164156556129456,
      "learning_rate": 0.00012856447688564478,
      "loss": 0.5205,
      "step": 739
    },
    {
      "epoch": 1.7951515151515152,
      "grad_norm": 0.08849482983350754,
      "learning_rate": 0.00012846715328467152,
      "loss": 0.5046,
      "step": 740
    },
    {
      "epoch": 1.7975757575757576,
      "grad_norm": 0.0911843404173851,
      "learning_rate": 0.0001283698296836983,
      "loss": 0.5313,
      "step": 741
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.09959738701581955,
      "learning_rate": 0.00012827250608272506,
      "loss": 0.5272,
      "step": 742
    },
    {
      "epoch": 1.8024242424242423,
      "grad_norm": 0.08860497921705246,
      "learning_rate": 0.0001281751824817518,
      "loss": 0.5079,
      "step": 743
    },
    {
      "epoch": 1.8048484848484847,
      "grad_norm": 0.08846903592348099,
      "learning_rate": 0.00012807785888077858,
      "loss": 0.5294,
      "step": 744
    },
    {
      "epoch": 1.8072727272727271,
      "grad_norm": 0.20647649466991425,
      "learning_rate": 0.00012798053527980535,
      "loss": 0.5075,
      "step": 745
    },
    {
      "epoch": 1.8096969696969696,
      "grad_norm": 0.08633381128311157,
      "learning_rate": 0.00012788321167883212,
      "loss": 0.5174,
      "step": 746
    },
    {
      "epoch": 1.812121212121212,
      "grad_norm": 0.4191194772720337,
      "learning_rate": 0.0001277858880778589,
      "loss": 0.5259,
      "step": 747
    },
    {
      "epoch": 1.8145454545454545,
      "grad_norm": 0.09402153640985489,
      "learning_rate": 0.00012768856447688563,
      "loss": 0.5134,
      "step": 748
    },
    {
      "epoch": 1.816969696969697,
      "grad_norm": 0.12032829970121384,
      "learning_rate": 0.0001275912408759124,
      "loss": 0.5332,
      "step": 749
    },
    {
      "epoch": 1.8193939393939393,
      "grad_norm": 0.08934567868709564,
      "learning_rate": 0.00012749391727493917,
      "loss": 0.5008,
      "step": 750
    },
    {
      "epoch": 1.8218181818181818,
      "grad_norm": 0.08638783544301987,
      "learning_rate": 0.00012739659367396594,
      "loss": 0.5155,
      "step": 751
    },
    {
      "epoch": 1.8242424242424242,
      "grad_norm": 0.08566386997699738,
      "learning_rate": 0.0001272992700729927,
      "loss": 0.4963,
      "step": 752
    },
    {
      "epoch": 1.8266666666666667,
      "grad_norm": 0.0870693251490593,
      "learning_rate": 0.00012720194647201946,
      "loss": 0.5004,
      "step": 753
    },
    {
      "epoch": 1.829090909090909,
      "grad_norm": 0.08611666411161423,
      "learning_rate": 0.00012710462287104623,
      "loss": 0.5093,
      "step": 754
    },
    {
      "epoch": 1.8315151515151515,
      "grad_norm": 0.08691076934337616,
      "learning_rate": 0.000127007299270073,
      "loss": 0.4812,
      "step": 755
    },
    {
      "epoch": 1.833939393939394,
      "grad_norm": 0.0951455757021904,
      "learning_rate": 0.00012690997566909977,
      "loss": 0.5315,
      "step": 756
    },
    {
      "epoch": 1.8363636363636364,
      "grad_norm": 0.09671323001384735,
      "learning_rate": 0.00012681265206812654,
      "loss": 0.5313,
      "step": 757
    },
    {
      "epoch": 1.8387878787878789,
      "grad_norm": 0.08943960070610046,
      "learning_rate": 0.00012671532846715328,
      "loss": 0.4818,
      "step": 758
    },
    {
      "epoch": 1.8412121212121213,
      "grad_norm": 0.543646514415741,
      "learning_rate": 0.00012661800486618005,
      "loss": 0.549,
      "step": 759
    },
    {
      "epoch": 1.8436363636363637,
      "grad_norm": 0.09677150845527649,
      "learning_rate": 0.00012652068126520682,
      "loss": 0.5282,
      "step": 760
    },
    {
      "epoch": 1.8460606060606062,
      "grad_norm": 0.0970912054181099,
      "learning_rate": 0.0001264233576642336,
      "loss": 0.5057,
      "step": 761
    },
    {
      "epoch": 1.8484848484848486,
      "grad_norm": 0.15448987483978271,
      "learning_rate": 0.00012632603406326036,
      "loss": 0.506,
      "step": 762
    },
    {
      "epoch": 1.850909090909091,
      "grad_norm": 0.08929318934679031,
      "learning_rate": 0.0001262287104622871,
      "loss": 0.4842,
      "step": 763
    },
    {
      "epoch": 1.8533333333333335,
      "grad_norm": 0.09471229463815689,
      "learning_rate": 0.00012613138686131387,
      "loss": 0.5467,
      "step": 764
    },
    {
      "epoch": 1.8557575757575757,
      "grad_norm": 0.09816062450408936,
      "learning_rate": 0.00012603406326034064,
      "loss": 0.5119,
      "step": 765
    },
    {
      "epoch": 1.8581818181818182,
      "grad_norm": 0.09478120505809784,
      "learning_rate": 0.00012593673965936741,
      "loss": 0.486,
      "step": 766
    },
    {
      "epoch": 1.8606060606060606,
      "grad_norm": 0.105666883289814,
      "learning_rate": 0.00012583941605839418,
      "loss": 0.5171,
      "step": 767
    },
    {
      "epoch": 1.863030303030303,
      "grad_norm": 2.7261853218078613,
      "learning_rate": 0.00012574209245742093,
      "loss": 0.5399,
      "step": 768
    },
    {
      "epoch": 1.8654545454545455,
      "grad_norm": 0.19340859353542328,
      "learning_rate": 0.0001256447688564477,
      "loss": 0.4785,
      "step": 769
    },
    {
      "epoch": 1.867878787878788,
      "grad_norm": 0.2958947718143463,
      "learning_rate": 0.00012554744525547447,
      "loss": 0.4912,
      "step": 770
    },
    {
      "epoch": 1.8703030303030304,
      "grad_norm": 0.08767300099134445,
      "learning_rate": 0.00012545012165450124,
      "loss": 0.5343,
      "step": 771
    },
    {
      "epoch": 1.8727272727272726,
      "grad_norm": 0.09966003149747849,
      "learning_rate": 0.00012535279805352798,
      "loss": 0.5247,
      "step": 772
    },
    {
      "epoch": 1.875151515151515,
      "grad_norm": 0.10545093566179276,
      "learning_rate": 0.00012525547445255475,
      "loss": 0.5523,
      "step": 773
    },
    {
      "epoch": 1.8775757575757575,
      "grad_norm": 0.08584802597761154,
      "learning_rate": 0.00012515815085158152,
      "loss": 0.4944,
      "step": 774
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.09761699289083481,
      "learning_rate": 0.0001250608272506083,
      "loss": 0.4996,
      "step": 775
    },
    {
      "epoch": 1.8824242424242423,
      "grad_norm": 0.09306132793426514,
      "learning_rate": 0.00012496350364963506,
      "loss": 0.5591,
      "step": 776
    },
    {
      "epoch": 1.8848484848484848,
      "grad_norm": 0.08716336637735367,
      "learning_rate": 0.0001248661800486618,
      "loss": 0.5036,
      "step": 777
    },
    {
      "epoch": 1.8872727272727272,
      "grad_norm": 0.08988406509160995,
      "learning_rate": 0.00012476885644768858,
      "loss": 0.5165,
      "step": 778
    },
    {
      "epoch": 1.8896969696969697,
      "grad_norm": 0.09809139370918274,
      "learning_rate": 0.00012467153284671535,
      "loss": 0.5001,
      "step": 779
    },
    {
      "epoch": 1.892121212121212,
      "grad_norm": 0.09962083399295807,
      "learning_rate": 0.0001245742092457421,
      "loss": 0.5089,
      "step": 780
    },
    {
      "epoch": 1.8945454545454545,
      "grad_norm": 0.10465238243341446,
      "learning_rate": 0.00012447688564476886,
      "loss": 0.5011,
      "step": 781
    },
    {
      "epoch": 1.896969696969697,
      "grad_norm": 0.09510939568281174,
      "learning_rate": 0.00012437956204379563,
      "loss": 0.5393,
      "step": 782
    },
    {
      "epoch": 1.8993939393939394,
      "grad_norm": 0.09439969062805176,
      "learning_rate": 0.00012428223844282237,
      "loss": 0.5191,
      "step": 783
    },
    {
      "epoch": 1.9018181818181819,
      "grad_norm": 0.09120645374059677,
      "learning_rate": 0.00012418491484184914,
      "loss": 0.495,
      "step": 784
    },
    {
      "epoch": 1.9042424242424243,
      "grad_norm": 0.09338613599538803,
      "learning_rate": 0.0001240875912408759,
      "loss": 0.5278,
      "step": 785
    },
    {
      "epoch": 1.9066666666666667,
      "grad_norm": 0.08689048886299133,
      "learning_rate": 0.00012399026763990268,
      "loss": 0.4954,
      "step": 786
    },
    {
      "epoch": 1.9090909090909092,
      "grad_norm": 0.08768396824598312,
      "learning_rate": 0.00012389294403892943,
      "loss": 0.4949,
      "step": 787
    },
    {
      "epoch": 1.9115151515151516,
      "grad_norm": 0.09092915058135986,
      "learning_rate": 0.0001237956204379562,
      "loss": 0.5382,
      "step": 788
    },
    {
      "epoch": 1.913939393939394,
      "grad_norm": 0.08935719728469849,
      "learning_rate": 0.00012369829683698297,
      "loss": 0.5247,
      "step": 789
    },
    {
      "epoch": 1.9163636363636365,
      "grad_norm": 0.10470893234014511,
      "learning_rate": 0.00012360097323600974,
      "loss": 0.5349,
      "step": 790
    },
    {
      "epoch": 1.918787878787879,
      "grad_norm": 0.085293710231781,
      "learning_rate": 0.0001235036496350365,
      "loss": 0.4808,
      "step": 791
    },
    {
      "epoch": 1.9212121212121214,
      "grad_norm": 0.09115397185087204,
      "learning_rate": 0.00012340632603406325,
      "loss": 0.5431,
      "step": 792
    },
    {
      "epoch": 1.9236363636363636,
      "grad_norm": 0.09491927176713943,
      "learning_rate": 0.00012330900243309002,
      "loss": 0.5488,
      "step": 793
    },
    {
      "epoch": 1.926060606060606,
      "grad_norm": 0.08544593304395676,
      "learning_rate": 0.0001232116788321168,
      "loss": 0.4999,
      "step": 794
    },
    {
      "epoch": 1.9284848484848485,
      "grad_norm": 0.10310874134302139,
      "learning_rate": 0.00012311435523114356,
      "loss": 0.5079,
      "step": 795
    },
    {
      "epoch": 1.930909090909091,
      "grad_norm": 0.09561016410589218,
      "learning_rate": 0.00012301703163017033,
      "loss": 0.5006,
      "step": 796
    },
    {
      "epoch": 1.9333333333333333,
      "grad_norm": 0.08766445517539978,
      "learning_rate": 0.00012291970802919707,
      "loss": 0.5059,
      "step": 797
    },
    {
      "epoch": 1.9357575757575758,
      "grad_norm": 0.09482428431510925,
      "learning_rate": 0.00012282238442822384,
      "loss": 0.5136,
      "step": 798
    },
    {
      "epoch": 1.9381818181818182,
      "grad_norm": 0.08856713026762009,
      "learning_rate": 0.00012272506082725061,
      "loss": 0.5165,
      "step": 799
    },
    {
      "epoch": 1.9406060606060604,
      "grad_norm": 0.09778013825416565,
      "learning_rate": 0.00012262773722627738,
      "loss": 0.5437,
      "step": 800
    },
    {
      "epoch": 1.9430303030303029,
      "grad_norm": 0.09532886743545532,
      "learning_rate": 0.00012253041362530415,
      "loss": 0.5003,
      "step": 801
    },
    {
      "epoch": 1.9454545454545453,
      "grad_norm": 0.09176535159349442,
      "learning_rate": 0.0001224330900243309,
      "loss": 0.5101,
      "step": 802
    },
    {
      "epoch": 1.9478787878787878,
      "grad_norm": 0.09599539637565613,
      "learning_rate": 0.00012233576642335767,
      "loss": 0.5278,
      "step": 803
    },
    {
      "epoch": 1.9503030303030302,
      "grad_norm": 0.09246640652418137,
      "learning_rate": 0.00012223844282238444,
      "loss": 0.518,
      "step": 804
    },
    {
      "epoch": 1.9527272727272726,
      "grad_norm": 0.09071104228496552,
      "learning_rate": 0.0001221411192214112,
      "loss": 0.4952,
      "step": 805
    },
    {
      "epoch": 1.955151515151515,
      "grad_norm": 0.08889231830835342,
      "learning_rate": 0.00012204379562043798,
      "loss": 0.4956,
      "step": 806
    },
    {
      "epoch": 1.9575757575757575,
      "grad_norm": 0.08892664313316345,
      "learning_rate": 0.00012194647201946472,
      "loss": 0.5136,
      "step": 807
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.09058476984500885,
      "learning_rate": 0.00012184914841849149,
      "loss": 0.4966,
      "step": 808
    },
    {
      "epoch": 1.9624242424242424,
      "grad_norm": 0.08980938792228699,
      "learning_rate": 0.00012175182481751826,
      "loss": 0.5026,
      "step": 809
    },
    {
      "epoch": 1.9648484848484848,
      "grad_norm": 0.09324628859758377,
      "learning_rate": 0.00012165450121654502,
      "loss": 0.5268,
      "step": 810
    },
    {
      "epoch": 1.9672727272727273,
      "grad_norm": 0.10839447379112244,
      "learning_rate": 0.00012155717761557177,
      "loss": 0.5274,
      "step": 811
    },
    {
      "epoch": 1.9696969696969697,
      "grad_norm": 0.1231616735458374,
      "learning_rate": 0.00012145985401459854,
      "loss": 0.5354,
      "step": 812
    },
    {
      "epoch": 1.9721212121212122,
      "grad_norm": 0.09501399099826813,
      "learning_rate": 0.0001213625304136253,
      "loss": 0.5042,
      "step": 813
    },
    {
      "epoch": 1.9745454545454546,
      "grad_norm": 0.0927252322435379,
      "learning_rate": 0.00012126520681265207,
      "loss": 0.5228,
      "step": 814
    },
    {
      "epoch": 1.976969696969697,
      "grad_norm": 0.0906762108206749,
      "learning_rate": 0.00012116788321167884,
      "loss": 0.5337,
      "step": 815
    },
    {
      "epoch": 1.9793939393939395,
      "grad_norm": 0.09021347016096115,
      "learning_rate": 0.00012107055961070559,
      "loss": 0.5142,
      "step": 816
    },
    {
      "epoch": 1.981818181818182,
      "grad_norm": 0.09397910535335541,
      "learning_rate": 0.00012097323600973236,
      "loss": 0.521,
      "step": 817
    },
    {
      "epoch": 1.9842424242424244,
      "grad_norm": 0.09386926889419556,
      "learning_rate": 0.00012087591240875913,
      "loss": 0.4991,
      "step": 818
    },
    {
      "epoch": 1.9866666666666668,
      "grad_norm": 0.08884267508983612,
      "learning_rate": 0.0001207785888077859,
      "loss": 0.5129,
      "step": 819
    },
    {
      "epoch": 1.9890909090909092,
      "grad_norm": 0.08428987860679626,
      "learning_rate": 0.00012068126520681267,
      "loss": 0.4866,
      "step": 820
    },
    {
      "epoch": 1.9915151515151515,
      "grad_norm": 0.08853484690189362,
      "learning_rate": 0.00012058394160583941,
      "loss": 0.5231,
      "step": 821
    },
    {
      "epoch": 1.993939393939394,
      "grad_norm": 0.09515362977981567,
      "learning_rate": 0.00012048661800486618,
      "loss": 0.5146,
      "step": 822
    },
    {
      "epoch": 1.9963636363636363,
      "grad_norm": 0.09877179563045502,
      "learning_rate": 0.00012038929440389295,
      "loss": 0.5214,
      "step": 823
    },
    {
      "epoch": 1.9987878787878788,
      "grad_norm": 0.09505092352628708,
      "learning_rate": 0.00012029197080291972,
      "loss": 0.5446,
      "step": 824
    },
    {
      "epoch": 2.001212121212121,
      "grad_norm": 0.0967167392373085,
      "learning_rate": 0.00012019464720194649,
      "loss": 0.4763,
      "step": 825
    },
    {
      "epoch": 2.0036363636363634,
      "grad_norm": 0.10012511163949966,
      "learning_rate": 0.00012009732360097323,
      "loss": 0.4718,
      "step": 826
    },
    {
      "epoch": 2.006060606060606,
      "grad_norm": 0.10317825525999069,
      "learning_rate": 0.00012,
      "loss": 0.4235,
      "step": 827
    },
    {
      "epoch": 2.0084848484848483,
      "grad_norm": 0.10244196653366089,
      "learning_rate": 0.00011990267639902677,
      "loss": 0.4579,
      "step": 828
    },
    {
      "epoch": 2.0109090909090908,
      "grad_norm": 0.12022425979375839,
      "learning_rate": 0.00011980535279805354,
      "loss": 0.4548,
      "step": 829
    },
    {
      "epoch": 2.013333333333333,
      "grad_norm": 0.1597747802734375,
      "learning_rate": 0.00011970802919708031,
      "loss": 0.4499,
      "step": 830
    },
    {
      "epoch": 2.0157575757575756,
      "grad_norm": 0.18637588620185852,
      "learning_rate": 0.00011961070559610706,
      "loss": 0.4407,
      "step": 831
    },
    {
      "epoch": 2.018181818181818,
      "grad_norm": 0.15569084882736206,
      "learning_rate": 0.00011951338199513383,
      "loss": 0.4557,
      "step": 832
    },
    {
      "epoch": 2.0206060606060605,
      "grad_norm": 0.12851150333881378,
      "learning_rate": 0.0001194160583941606,
      "loss": 0.4247,
      "step": 833
    },
    {
      "epoch": 2.023030303030303,
      "grad_norm": 0.12869220972061157,
      "learning_rate": 0.00011931873479318735,
      "loss": 0.4453,
      "step": 834
    },
    {
      "epoch": 2.0254545454545454,
      "grad_norm": 0.2023470401763916,
      "learning_rate": 0.00011922141119221412,
      "loss": 0.4722,
      "step": 835
    },
    {
      "epoch": 2.027878787878788,
      "grad_norm": 0.13581857085227966,
      "learning_rate": 0.00011912408759124087,
      "loss": 0.49,
      "step": 836
    },
    {
      "epoch": 2.0303030303030303,
      "grad_norm": 0.1261352002620697,
      "learning_rate": 0.00011902676399026764,
      "loss": 0.4332,
      "step": 837
    },
    {
      "epoch": 2.0327272727272727,
      "grad_norm": 0.1322736293077469,
      "learning_rate": 0.00011892944038929441,
      "loss": 0.4371,
      "step": 838
    },
    {
      "epoch": 2.035151515151515,
      "grad_norm": 0.14847400784492493,
      "learning_rate": 0.00011883211678832118,
      "loss": 0.4483,
      "step": 839
    },
    {
      "epoch": 2.0375757575757576,
      "grad_norm": 0.14245353639125824,
      "learning_rate": 0.00011873479318734795,
      "loss": 0.4369,
      "step": 840
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.15060240030288696,
      "learning_rate": 0.00011863746958637469,
      "loss": 0.4567,
      "step": 841
    },
    {
      "epoch": 2.0424242424242425,
      "grad_norm": 0.14029966294765472,
      "learning_rate": 0.00011854014598540146,
      "loss": 0.4402,
      "step": 842
    },
    {
      "epoch": 2.044848484848485,
      "grad_norm": 0.1448403149843216,
      "learning_rate": 0.00011844282238442823,
      "loss": 0.4659,
      "step": 843
    },
    {
      "epoch": 2.0472727272727274,
      "grad_norm": 0.13572503626346588,
      "learning_rate": 0.000118345498783455,
      "loss": 0.4186,
      "step": 844
    },
    {
      "epoch": 2.04969696969697,
      "grad_norm": 0.1491190642118454,
      "learning_rate": 0.00011824817518248177,
      "loss": 0.4567,
      "step": 845
    },
    {
      "epoch": 2.0521212121212122,
      "grad_norm": 0.14656828343868256,
      "learning_rate": 0.00011815085158150851,
      "loss": 0.4383,
      "step": 846
    },
    {
      "epoch": 2.0545454545454547,
      "grad_norm": 0.1408441811800003,
      "learning_rate": 0.00011805352798053529,
      "loss": 0.4414,
      "step": 847
    },
    {
      "epoch": 2.056969696969697,
      "grad_norm": 0.13931046426296234,
      "learning_rate": 0.00011795620437956206,
      "loss": 0.4293,
      "step": 848
    },
    {
      "epoch": 2.0593939393939396,
      "grad_norm": 0.1728801429271698,
      "learning_rate": 0.00011785888077858883,
      "loss": 0.4425,
      "step": 849
    },
    {
      "epoch": 2.061818181818182,
      "grad_norm": 0.14435625076293945,
      "learning_rate": 0.00011776155717761557,
      "loss": 0.4237,
      "step": 850
    },
    {
      "epoch": 2.0642424242424244,
      "grad_norm": 0.14443416893482208,
      "learning_rate": 0.00011766423357664234,
      "loss": 0.4447,
      "step": 851
    },
    {
      "epoch": 2.066666666666667,
      "grad_norm": 0.1427779346704483,
      "learning_rate": 0.00011756690997566911,
      "loss": 0.4347,
      "step": 852
    },
    {
      "epoch": 2.0690909090909093,
      "grad_norm": 0.13561396300792694,
      "learning_rate": 0.00011746958637469588,
      "loss": 0.4288,
      "step": 853
    },
    {
      "epoch": 2.0715151515151513,
      "grad_norm": 0.2509133517742157,
      "learning_rate": 0.00011737226277372264,
      "loss": 0.4521,
      "step": 854
    },
    {
      "epoch": 2.0739393939393937,
      "grad_norm": 0.15379662811756134,
      "learning_rate": 0.00011727493917274939,
      "loss": 0.4406,
      "step": 855
    },
    {
      "epoch": 2.076363636363636,
      "grad_norm": 0.153169646859169,
      "learning_rate": 0.00011717761557177616,
      "loss": 0.4405,
      "step": 856
    },
    {
      "epoch": 2.0787878787878786,
      "grad_norm": 0.14913836121559143,
      "learning_rate": 0.00011708029197080292,
      "loss": 0.454,
      "step": 857
    },
    {
      "epoch": 2.081212121212121,
      "grad_norm": 0.14886410534381866,
      "learning_rate": 0.00011698296836982969,
      "loss": 0.466,
      "step": 858
    },
    {
      "epoch": 2.0836363636363635,
      "grad_norm": 0.1551828235387802,
      "learning_rate": 0.00011688564476885646,
      "loss": 0.4759,
      "step": 859
    },
    {
      "epoch": 2.086060606060606,
      "grad_norm": 0.15338976681232452,
      "learning_rate": 0.0001167883211678832,
      "loss": 0.4533,
      "step": 860
    },
    {
      "epoch": 2.0884848484848484,
      "grad_norm": 0.14516839385032654,
      "learning_rate": 0.00011669099756690997,
      "loss": 0.4298,
      "step": 861
    },
    {
      "epoch": 2.090909090909091,
      "grad_norm": 0.1438421905040741,
      "learning_rate": 0.00011659367396593674,
      "loss": 0.4524,
      "step": 862
    },
    {
      "epoch": 2.0933333333333333,
      "grad_norm": 0.14316144585609436,
      "learning_rate": 0.00011649635036496351,
      "loss": 0.4298,
      "step": 863
    },
    {
      "epoch": 2.0957575757575757,
      "grad_norm": 0.143064484000206,
      "learning_rate": 0.00011639902676399028,
      "loss": 0.4402,
      "step": 864
    },
    {
      "epoch": 2.098181818181818,
      "grad_norm": 0.14081144332885742,
      "learning_rate": 0.00011630170316301703,
      "loss": 0.4301,
      "step": 865
    },
    {
      "epoch": 2.1006060606060606,
      "grad_norm": 0.1520814150571823,
      "learning_rate": 0.0001162043795620438,
      "loss": 0.4779,
      "step": 866
    },
    {
      "epoch": 2.103030303030303,
      "grad_norm": 0.13676992058753967,
      "learning_rate": 0.00011610705596107057,
      "loss": 0.4352,
      "step": 867
    },
    {
      "epoch": 2.1054545454545455,
      "grad_norm": 0.14227993786334991,
      "learning_rate": 0.00011600973236009734,
      "loss": 0.4396,
      "step": 868
    },
    {
      "epoch": 2.107878787878788,
      "grad_norm": 0.14002273976802826,
      "learning_rate": 0.00011591240875912411,
      "loss": 0.4582,
      "step": 869
    },
    {
      "epoch": 2.1103030303030303,
      "grad_norm": 0.14792470633983612,
      "learning_rate": 0.00011581508515815085,
      "loss": 0.4696,
      "step": 870
    },
    {
      "epoch": 2.112727272727273,
      "grad_norm": 0.1495278775691986,
      "learning_rate": 0.00011571776155717762,
      "loss": 0.4734,
      "step": 871
    },
    {
      "epoch": 2.1151515151515152,
      "grad_norm": 0.1436813622713089,
      "learning_rate": 0.00011562043795620439,
      "loss": 0.4387,
      "step": 872
    },
    {
      "epoch": 2.1175757575757577,
      "grad_norm": 0.14377760887145996,
      "learning_rate": 0.00011552311435523116,
      "loss": 0.4592,
      "step": 873
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.13850253820419312,
      "learning_rate": 0.00011542579075425792,
      "loss": 0.4184,
      "step": 874
    },
    {
      "epoch": 2.1224242424242425,
      "grad_norm": 0.15206634998321533,
      "learning_rate": 0.00011532846715328467,
      "loss": 0.4403,
      "step": 875
    },
    {
      "epoch": 2.124848484848485,
      "grad_norm": 0.15292242169380188,
      "learning_rate": 0.00011523114355231144,
      "loss": 0.4447,
      "step": 876
    },
    {
      "epoch": 2.1272727272727274,
      "grad_norm": 0.15286611020565033,
      "learning_rate": 0.0001151338199513382,
      "loss": 0.4365,
      "step": 877
    },
    {
      "epoch": 2.12969696969697,
      "grad_norm": 0.14964686334133148,
      "learning_rate": 0.00011503649635036497,
      "loss": 0.4328,
      "step": 878
    },
    {
      "epoch": 2.1321212121212123,
      "grad_norm": 0.14387696981430054,
      "learning_rate": 0.00011493917274939174,
      "loss": 0.4464,
      "step": 879
    },
    {
      "epoch": 2.1345454545454547,
      "grad_norm": 0.15581028163433075,
      "learning_rate": 0.00011484184914841848,
      "loss": 0.47,
      "step": 880
    },
    {
      "epoch": 2.1369696969696967,
      "grad_norm": 0.14610400795936584,
      "learning_rate": 0.00011474452554744525,
      "loss": 0.4475,
      "step": 881
    },
    {
      "epoch": 2.1393939393939396,
      "grad_norm": 0.45074987411499023,
      "learning_rate": 0.00011464720194647203,
      "loss": 0.4269,
      "step": 882
    },
    {
      "epoch": 2.1418181818181816,
      "grad_norm": 0.14146916568279266,
      "learning_rate": 0.0001145498783454988,
      "loss": 0.441,
      "step": 883
    },
    {
      "epoch": 2.144242424242424,
      "grad_norm": 0.14262646436691284,
      "learning_rate": 0.00011445255474452554,
      "loss": 0.4383,
      "step": 884
    },
    {
      "epoch": 2.1466666666666665,
      "grad_norm": 0.15300217270851135,
      "learning_rate": 0.00011435523114355231,
      "loss": 0.4518,
      "step": 885
    },
    {
      "epoch": 2.149090909090909,
      "grad_norm": 0.14850080013275146,
      "learning_rate": 0.00011425790754257908,
      "loss": 0.4608,
      "step": 886
    },
    {
      "epoch": 2.1515151515151514,
      "grad_norm": 0.15248863399028778,
      "learning_rate": 0.00011416058394160585,
      "loss": 0.4511,
      "step": 887
    },
    {
      "epoch": 2.153939393939394,
      "grad_norm": 0.14763478934764862,
      "learning_rate": 0.00011406326034063262,
      "loss": 0.4453,
      "step": 888
    },
    {
      "epoch": 2.1563636363636363,
      "grad_norm": 0.17985759675502777,
      "learning_rate": 0.00011396593673965936,
      "loss": 0.4452,
      "step": 889
    },
    {
      "epoch": 2.1587878787878787,
      "grad_norm": 0.14906847476959229,
      "learning_rate": 0.00011386861313868613,
      "loss": 0.4637,
      "step": 890
    },
    {
      "epoch": 2.161212121212121,
      "grad_norm": 0.14293552935123444,
      "learning_rate": 0.0001137712895377129,
      "loss": 0.4444,
      "step": 891
    },
    {
      "epoch": 2.1636363636363636,
      "grad_norm": 0.15392620861530304,
      "learning_rate": 0.00011367396593673967,
      "loss": 0.4365,
      "step": 892
    },
    {
      "epoch": 2.166060606060606,
      "grad_norm": 0.14848355948925018,
      "learning_rate": 0.00011357664233576644,
      "loss": 0.4416,
      "step": 893
    },
    {
      "epoch": 2.1684848484848485,
      "grad_norm": 0.19540120661258698,
      "learning_rate": 0.00011347931873479319,
      "loss": 0.442,
      "step": 894
    },
    {
      "epoch": 2.170909090909091,
      "grad_norm": 0.156706303358078,
      "learning_rate": 0.00011338199513381996,
      "loss": 0.4694,
      "step": 895
    },
    {
      "epoch": 2.1733333333333333,
      "grad_norm": 0.14385440945625305,
      "learning_rate": 0.00011328467153284673,
      "loss": 0.4468,
      "step": 896
    },
    {
      "epoch": 2.175757575757576,
      "grad_norm": 0.13837039470672607,
      "learning_rate": 0.00011318734793187348,
      "loss": 0.4415,
      "step": 897
    },
    {
      "epoch": 2.178181818181818,
      "grad_norm": 0.1489117443561554,
      "learning_rate": 0.00011309002433090025,
      "loss": 0.4777,
      "step": 898
    },
    {
      "epoch": 2.1806060606060607,
      "grad_norm": 0.192404642701149,
      "learning_rate": 0.00011299270072992701,
      "loss": 0.4646,
      "step": 899
    },
    {
      "epoch": 2.183030303030303,
      "grad_norm": 0.1404554396867752,
      "learning_rate": 0.00011289537712895377,
      "loss": 0.4179,
      "step": 900
    },
    {
      "epoch": 2.1854545454545455,
      "grad_norm": 0.1411352902650833,
      "learning_rate": 0.00011279805352798054,
      "loss": 0.4533,
      "step": 901
    },
    {
      "epoch": 2.187878787878788,
      "grad_norm": 0.14318902790546417,
      "learning_rate": 0.00011270072992700731,
      "loss": 0.4508,
      "step": 902
    },
    {
      "epoch": 2.1903030303030304,
      "grad_norm": 0.14495916664600372,
      "learning_rate": 0.00011260340632603408,
      "loss": 0.4667,
      "step": 903
    },
    {
      "epoch": 2.192727272727273,
      "grad_norm": 0.14783106744289398,
      "learning_rate": 0.00011250608272506082,
      "loss": 0.4559,
      "step": 904
    },
    {
      "epoch": 2.1951515151515153,
      "grad_norm": 0.14354673027992249,
      "learning_rate": 0.00011240875912408759,
      "loss": 0.4415,
      "step": 905
    },
    {
      "epoch": 2.1975757575757577,
      "grad_norm": 0.14829877018928528,
      "learning_rate": 0.00011231143552311436,
      "loss": 0.442,
      "step": 906
    },
    {
      "epoch": 2.2,
      "grad_norm": 3.183814287185669,
      "learning_rate": 0.00011221411192214113,
      "loss": 0.4557,
      "step": 907
    },
    {
      "epoch": 2.2024242424242426,
      "grad_norm": 0.15062963962554932,
      "learning_rate": 0.0001121167883211679,
      "loss": 0.4375,
      "step": 908
    },
    {
      "epoch": 2.204848484848485,
      "grad_norm": 0.14615307748317719,
      "learning_rate": 0.00011201946472019464,
      "loss": 0.4335,
      "step": 909
    },
    {
      "epoch": 2.207272727272727,
      "grad_norm": 0.150095596909523,
      "learning_rate": 0.00011192214111922141,
      "loss": 0.4381,
      "step": 910
    },
    {
      "epoch": 2.2096969696969695,
      "grad_norm": 0.13941073417663574,
      "learning_rate": 0.00011182481751824818,
      "loss": 0.4323,
      "step": 911
    },
    {
      "epoch": 2.212121212121212,
      "grad_norm": 0.13930098712444305,
      "learning_rate": 0.00011172749391727495,
      "loss": 0.4409,
      "step": 912
    },
    {
      "epoch": 2.2145454545454544,
      "grad_norm": 0.34152379631996155,
      "learning_rate": 0.00011163017031630173,
      "loss": 0.4456,
      "step": 913
    },
    {
      "epoch": 2.216969696969697,
      "grad_norm": 0.1522255539894104,
      "learning_rate": 0.00011153284671532847,
      "loss": 0.4647,
      "step": 914
    },
    {
      "epoch": 2.2193939393939393,
      "grad_norm": 0.15707463026046753,
      "learning_rate": 0.00011143552311435524,
      "loss": 0.4599,
      "step": 915
    },
    {
      "epoch": 2.2218181818181817,
      "grad_norm": 0.1789575070142746,
      "learning_rate": 0.00011133819951338201,
      "loss": 0.4322,
      "step": 916
    },
    {
      "epoch": 2.224242424242424,
      "grad_norm": 0.44210487604141235,
      "learning_rate": 0.00011124087591240877,
      "loss": 0.4459,
      "step": 917
    },
    {
      "epoch": 2.2266666666666666,
      "grad_norm": 0.17179574072360992,
      "learning_rate": 0.00011114355231143554,
      "loss": 0.4564,
      "step": 918
    },
    {
      "epoch": 2.229090909090909,
      "grad_norm": 0.168086439371109,
      "learning_rate": 0.00011104622871046229,
      "loss": 0.4548,
      "step": 919
    },
    {
      "epoch": 2.2315151515151515,
      "grad_norm": 0.15385954082012177,
      "learning_rate": 0.00011094890510948905,
      "loss": 0.4638,
      "step": 920
    },
    {
      "epoch": 2.233939393939394,
      "grad_norm": 0.14608129858970642,
      "learning_rate": 0.00011085158150851582,
      "loss": 0.4279,
      "step": 921
    },
    {
      "epoch": 2.2363636363636363,
      "grad_norm": 0.15550445020198822,
      "learning_rate": 0.00011075425790754259,
      "loss": 0.425,
      "step": 922
    },
    {
      "epoch": 2.2387878787878788,
      "grad_norm": 0.1575833261013031,
      "learning_rate": 0.00011065693430656933,
      "loss": 0.4505,
      "step": 923
    },
    {
      "epoch": 2.241212121212121,
      "grad_norm": 0.15843921899795532,
      "learning_rate": 0.0001105596107055961,
      "loss": 0.4296,
      "step": 924
    },
    {
      "epoch": 2.2436363636363637,
      "grad_norm": 0.14898784458637238,
      "learning_rate": 0.00011046228710462287,
      "loss": 0.4396,
      "step": 925
    },
    {
      "epoch": 2.246060606060606,
      "grad_norm": 0.16527162492275238,
      "learning_rate": 0.00011036496350364964,
      "loss": 0.4684,
      "step": 926
    },
    {
      "epoch": 2.2484848484848485,
      "grad_norm": 0.1438622772693634,
      "learning_rate": 0.00011026763990267641,
      "loss": 0.4209,
      "step": 927
    },
    {
      "epoch": 2.250909090909091,
      "grad_norm": 0.1721169650554657,
      "learning_rate": 0.00011017031630170316,
      "loss": 0.4649,
      "step": 928
    },
    {
      "epoch": 2.2533333333333334,
      "grad_norm": 0.1469012051820755,
      "learning_rate": 0.00011007299270072993,
      "loss": 0.4433,
      "step": 929
    },
    {
      "epoch": 2.255757575757576,
      "grad_norm": 0.148786723613739,
      "learning_rate": 0.0001099756690997567,
      "loss": 0.4485,
      "step": 930
    },
    {
      "epoch": 2.2581818181818183,
      "grad_norm": 0.1535569429397583,
      "learning_rate": 0.00010987834549878347,
      "loss": 0.4601,
      "step": 931
    },
    {
      "epoch": 2.2606060606060607,
      "grad_norm": 0.14983242750167847,
      "learning_rate": 0.00010978102189781024,
      "loss": 0.4379,
      "step": 932
    },
    {
      "epoch": 2.263030303030303,
      "grad_norm": 0.1450941264629364,
      "learning_rate": 0.00010968369829683698,
      "loss": 0.4412,
      "step": 933
    },
    {
      "epoch": 2.2654545454545456,
      "grad_norm": 0.15355803072452545,
      "learning_rate": 0.00010958637469586375,
      "loss": 0.4537,
      "step": 934
    },
    {
      "epoch": 2.267878787878788,
      "grad_norm": 0.16354668140411377,
      "learning_rate": 0.00010948905109489052,
      "loss": 0.4681,
      "step": 935
    },
    {
      "epoch": 2.2703030303030305,
      "grad_norm": 0.15848971903324127,
      "learning_rate": 0.00010939172749391729,
      "loss": 0.4384,
      "step": 936
    },
    {
      "epoch": 2.2727272727272725,
      "grad_norm": 0.15447020530700684,
      "learning_rate": 0.00010929440389294405,
      "loss": 0.4303,
      "step": 937
    },
    {
      "epoch": 2.2751515151515154,
      "grad_norm": 0.153970405459404,
      "learning_rate": 0.0001091970802919708,
      "loss": 0.4611,
      "step": 938
    },
    {
      "epoch": 2.2775757575757574,
      "grad_norm": 0.14822937548160553,
      "learning_rate": 0.00010909975669099757,
      "loss": 0.4705,
      "step": 939
    },
    {
      "epoch": 2.2800000000000002,
      "grad_norm": 0.1481243520975113,
      "learning_rate": 0.00010900243309002433,
      "loss": 0.4541,
      "step": 940
    },
    {
      "epoch": 2.2824242424242422,
      "grad_norm": 0.13288946449756622,
      "learning_rate": 0.0001089051094890511,
      "loss": 0.4132,
      "step": 941
    },
    {
      "epoch": 2.2848484848484847,
      "grad_norm": 0.140370711684227,
      "learning_rate": 0.00010880778588807787,
      "loss": 0.4599,
      "step": 942
    },
    {
      "epoch": 2.287272727272727,
      "grad_norm": 0.17118783295154572,
      "learning_rate": 0.00010871046228710461,
      "loss": 0.4456,
      "step": 943
    },
    {
      "epoch": 2.2896969696969696,
      "grad_norm": 0.1552475094795227,
      "learning_rate": 0.00010861313868613138,
      "loss": 0.481,
      "step": 944
    },
    {
      "epoch": 2.292121212121212,
      "grad_norm": 0.15115559101104736,
      "learning_rate": 0.00010851581508515815,
      "loss": 0.455,
      "step": 945
    },
    {
      "epoch": 2.2945454545454544,
      "grad_norm": 0.14893369376659393,
      "learning_rate": 0.00010841849148418492,
      "loss": 0.4655,
      "step": 946
    },
    {
      "epoch": 2.296969696969697,
      "grad_norm": 0.14986753463745117,
      "learning_rate": 0.0001083211678832117,
      "loss": 0.452,
      "step": 947
    },
    {
      "epoch": 2.2993939393939393,
      "grad_norm": 0.15874557197093964,
      "learning_rate": 0.00010822384428223844,
      "loss": 0.4818,
      "step": 948
    },
    {
      "epoch": 2.3018181818181818,
      "grad_norm": 0.23429961502552032,
      "learning_rate": 0.00010812652068126521,
      "loss": 0.4396,
      "step": 949
    },
    {
      "epoch": 2.304242424242424,
      "grad_norm": 0.15405958890914917,
      "learning_rate": 0.00010802919708029198,
      "loss": 0.4571,
      "step": 950
    },
    {
      "epoch": 2.3066666666666666,
      "grad_norm": 0.15500204265117645,
      "learning_rate": 0.00010793187347931875,
      "loss": 0.4749,
      "step": 951
    },
    {
      "epoch": 2.309090909090909,
      "grad_norm": 0.2947006821632385,
      "learning_rate": 0.00010783454987834552,
      "loss": 0.4703,
      "step": 952
    },
    {
      "epoch": 2.3115151515151515,
      "grad_norm": 0.15470005571842194,
      "learning_rate": 0.00010773722627737226,
      "loss": 0.4222,
      "step": 953
    },
    {
      "epoch": 2.313939393939394,
      "grad_norm": 1.6296932697296143,
      "learning_rate": 0.00010763990267639903,
      "loss": 0.4331,
      "step": 954
    },
    {
      "epoch": 2.3163636363636364,
      "grad_norm": 0.1407933086156845,
      "learning_rate": 0.0001075425790754258,
      "loss": 0.4497,
      "step": 955
    },
    {
      "epoch": 2.318787878787879,
      "grad_norm": 0.14693894982337952,
      "learning_rate": 0.00010744525547445257,
      "loss": 0.4461,
      "step": 956
    },
    {
      "epoch": 2.3212121212121213,
      "grad_norm": 0.14499633014202118,
      "learning_rate": 0.00010734793187347933,
      "loss": 0.4569,
      "step": 957
    },
    {
      "epoch": 2.3236363636363637,
      "grad_norm": 0.14763018488883972,
      "learning_rate": 0.00010725060827250609,
      "loss": 0.4538,
      "step": 958
    },
    {
      "epoch": 2.326060606060606,
      "grad_norm": 0.14959433674812317,
      "learning_rate": 0.00010715328467153286,
      "loss": 0.4678,
      "step": 959
    },
    {
      "epoch": 2.3284848484848486,
      "grad_norm": 0.1443047821521759,
      "learning_rate": 0.00010705596107055961,
      "loss": 0.436,
      "step": 960
    },
    {
      "epoch": 2.330909090909091,
      "grad_norm": 0.15435656905174255,
      "learning_rate": 0.00010695863746958638,
      "loss": 0.4649,
      "step": 961
    },
    {
      "epoch": 2.3333333333333335,
      "grad_norm": 0.16343559324741364,
      "learning_rate": 0.00010686131386861314,
      "loss": 0.4588,
      "step": 962
    },
    {
      "epoch": 2.335757575757576,
      "grad_norm": 0.14841103553771973,
      "learning_rate": 0.0001067639902676399,
      "loss": 0.4415,
      "step": 963
    },
    {
      "epoch": 2.3381818181818184,
      "grad_norm": 0.1527913361787796,
      "learning_rate": 0.00010666666666666667,
      "loss": 0.4253,
      "step": 964
    },
    {
      "epoch": 2.340606060606061,
      "grad_norm": 0.155622199177742,
      "learning_rate": 0.00010656934306569344,
      "loss": 0.4678,
      "step": 965
    },
    {
      "epoch": 2.343030303030303,
      "grad_norm": 0.1431821584701538,
      "learning_rate": 0.0001064720194647202,
      "loss": 0.4175,
      "step": 966
    },
    {
      "epoch": 2.3454545454545457,
      "grad_norm": 0.14897063374519348,
      "learning_rate": 0.00010637469586374695,
      "loss": 0.4389,
      "step": 967
    },
    {
      "epoch": 2.3478787878787877,
      "grad_norm": 0.1525375097990036,
      "learning_rate": 0.00010627737226277372,
      "loss": 0.4579,
      "step": 968
    },
    {
      "epoch": 2.35030303030303,
      "grad_norm": 0.14723564684391022,
      "learning_rate": 0.00010618004866180049,
      "loss": 0.4342,
      "step": 969
    },
    {
      "epoch": 2.3527272727272726,
      "grad_norm": 0.17184695601463318,
      "learning_rate": 0.00010608272506082726,
      "loss": 0.4449,
      "step": 970
    },
    {
      "epoch": 2.355151515151515,
      "grad_norm": 0.14835083484649658,
      "learning_rate": 0.00010598540145985403,
      "loss": 0.4251,
      "step": 971
    },
    {
      "epoch": 2.3575757575757574,
      "grad_norm": 0.1516774594783783,
      "learning_rate": 0.00010588807785888077,
      "loss": 0.4651,
      "step": 972
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.2057667076587677,
      "learning_rate": 0.00010579075425790754,
      "loss": 0.4228,
      "step": 973
    },
    {
      "epoch": 2.3624242424242423,
      "grad_norm": 0.15877927839756012,
      "learning_rate": 0.00010569343065693431,
      "loss": 0.4527,
      "step": 974
    },
    {
      "epoch": 2.3648484848484848,
      "grad_norm": 0.14161978662014008,
      "learning_rate": 0.00010559610705596108,
      "loss": 0.4362,
      "step": 975
    },
    {
      "epoch": 2.367272727272727,
      "grad_norm": 0.15546800196170807,
      "learning_rate": 0.00010549878345498785,
      "loss": 0.4349,
      "step": 976
    },
    {
      "epoch": 2.3696969696969696,
      "grad_norm": 0.16080473363399506,
      "learning_rate": 0.0001054014598540146,
      "loss": 0.4849,
      "step": 977
    },
    {
      "epoch": 2.372121212121212,
      "grad_norm": 0.14790257811546326,
      "learning_rate": 0.00010530413625304137,
      "loss": 0.4427,
      "step": 978
    },
    {
      "epoch": 2.3745454545454545,
      "grad_norm": 0.144058495759964,
      "learning_rate": 0.00010520681265206814,
      "loss": 0.4308,
      "step": 979
    },
    {
      "epoch": 2.376969696969697,
      "grad_norm": 0.15358056128025055,
      "learning_rate": 0.0001051094890510949,
      "loss": 0.4734,
      "step": 980
    },
    {
      "epoch": 2.3793939393939394,
      "grad_norm": 0.14141666889190674,
      "learning_rate": 0.00010501216545012166,
      "loss": 0.421,
      "step": 981
    },
    {
      "epoch": 2.381818181818182,
      "grad_norm": 0.24263212084770203,
      "learning_rate": 0.00010491484184914842,
      "loss": 0.4841,
      "step": 982
    },
    {
      "epoch": 2.3842424242424243,
      "grad_norm": 0.14512264728546143,
      "learning_rate": 0.00010481751824817518,
      "loss": 0.4466,
      "step": 983
    },
    {
      "epoch": 2.3866666666666667,
      "grad_norm": 0.16197247803211212,
      "learning_rate": 0.00010472019464720195,
      "loss": 0.4729,
      "step": 984
    },
    {
      "epoch": 2.389090909090909,
      "grad_norm": 0.15200011432170868,
      "learning_rate": 0.00010462287104622872,
      "loss": 0.4555,
      "step": 985
    },
    {
      "epoch": 2.3915151515151516,
      "grad_norm": 0.15327486395835876,
      "learning_rate": 0.00010452554744525549,
      "loss": 0.4889,
      "step": 986
    },
    {
      "epoch": 2.393939393939394,
      "grad_norm": 0.16182540357112885,
      "learning_rate": 0.00010442822384428223,
      "loss": 0.5051,
      "step": 987
    },
    {
      "epoch": 2.3963636363636365,
      "grad_norm": 0.14665138721466064,
      "learning_rate": 0.000104330900243309,
      "loss": 0.4743,
      "step": 988
    },
    {
      "epoch": 2.398787878787879,
      "grad_norm": 0.14561952650547028,
      "learning_rate": 0.00010423357664233577,
      "loss": 0.4579,
      "step": 989
    },
    {
      "epoch": 2.4012121212121214,
      "grad_norm": 0.2904788553714752,
      "learning_rate": 0.00010413625304136254,
      "loss": 0.4709,
      "step": 990
    },
    {
      "epoch": 2.403636363636364,
      "grad_norm": 0.1349778175354004,
      "learning_rate": 0.00010403892944038931,
      "loss": 0.4191,
      "step": 991
    },
    {
      "epoch": 2.4060606060606062,
      "grad_norm": 0.15318076312541962,
      "learning_rate": 0.00010394160583941606,
      "loss": 0.4701,
      "step": 992
    },
    {
      "epoch": 2.4084848484848487,
      "grad_norm": 0.13948829472064972,
      "learning_rate": 0.00010384428223844283,
      "loss": 0.4241,
      "step": 993
    },
    {
      "epoch": 2.410909090909091,
      "grad_norm": 0.15684042870998383,
      "learning_rate": 0.0001037469586374696,
      "loss": 0.4387,
      "step": 994
    },
    {
      "epoch": 2.413333333333333,
      "grad_norm": 0.16169635951519012,
      "learning_rate": 0.00010364963503649637,
      "loss": 0.4755,
      "step": 995
    },
    {
      "epoch": 2.415757575757576,
      "grad_norm": 0.15233686566352844,
      "learning_rate": 0.00010355231143552311,
      "loss": 0.4727,
      "step": 996
    },
    {
      "epoch": 2.418181818181818,
      "grad_norm": 0.14484240114688873,
      "learning_rate": 0.00010345498783454988,
      "loss": 0.4429,
      "step": 997
    },
    {
      "epoch": 2.4206060606060604,
      "grad_norm": 0.14583870768547058,
      "learning_rate": 0.00010335766423357665,
      "loss": 0.4697,
      "step": 998
    },
    {
      "epoch": 2.423030303030303,
      "grad_norm": 0.1526746153831482,
      "learning_rate": 0.00010326034063260342,
      "loss": 0.497,
      "step": 999
    },
    {
      "epoch": 2.4254545454545453,
      "grad_norm": 0.14777158200740814,
      "learning_rate": 0.00010316301703163018,
      "loss": 0.4507,
      "step": 1000
    },
    {
      "epoch": 2.4278787878787877,
      "grad_norm": 0.14107218384742737,
      "learning_rate": 0.00010306569343065693,
      "loss": 0.4387,
      "step": 1001
    },
    {
      "epoch": 2.43030303030303,
      "grad_norm": 0.141019806265831,
      "learning_rate": 0.0001029683698296837,
      "loss": 0.4431,
      "step": 1002
    },
    {
      "epoch": 2.4327272727272726,
      "grad_norm": 0.1393575817346573,
      "learning_rate": 0.00010287104622871046,
      "loss": 0.4195,
      "step": 1003
    },
    {
      "epoch": 2.435151515151515,
      "grad_norm": 0.1567479372024536,
      "learning_rate": 0.00010277372262773723,
      "loss": 0.4642,
      "step": 1004
    },
    {
      "epoch": 2.4375757575757575,
      "grad_norm": 0.7772144675254822,
      "learning_rate": 0.000102676399026764,
      "loss": 0.4724,
      "step": 1005
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.16814333200454712,
      "learning_rate": 0.00010257907542579074,
      "loss": 0.4502,
      "step": 1006
    },
    {
      "epoch": 2.4424242424242424,
      "grad_norm": 0.15450254082679749,
      "learning_rate": 0.00010248175182481751,
      "loss": 0.4491,
      "step": 1007
    },
    {
      "epoch": 2.444848484848485,
      "grad_norm": 1.1365419626235962,
      "learning_rate": 0.00010238442822384428,
      "loss": 0.4575,
      "step": 1008
    },
    {
      "epoch": 2.4472727272727273,
      "grad_norm": 0.14532102644443512,
      "learning_rate": 0.00010228710462287105,
      "loss": 0.4345,
      "step": 1009
    },
    {
      "epoch": 2.4496969696969697,
      "grad_norm": 0.14277055859565735,
      "learning_rate": 0.00010218978102189782,
      "loss": 0.4367,
      "step": 1010
    },
    {
      "epoch": 2.452121212121212,
      "grad_norm": 0.1425575613975525,
      "learning_rate": 0.00010209245742092457,
      "loss": 0.4401,
      "step": 1011
    },
    {
      "epoch": 2.4545454545454546,
      "grad_norm": 0.15533199906349182,
      "learning_rate": 0.00010199513381995134,
      "loss": 0.4359,
      "step": 1012
    },
    {
      "epoch": 2.456969696969697,
      "grad_norm": 0.14376497268676758,
      "learning_rate": 0.00010189781021897811,
      "loss": 0.4549,
      "step": 1013
    },
    {
      "epoch": 2.4593939393939395,
      "grad_norm": 0.13736559450626373,
      "learning_rate": 0.00010180048661800488,
      "loss": 0.435,
      "step": 1014
    },
    {
      "epoch": 2.461818181818182,
      "grad_norm": 0.14802619814872742,
      "learning_rate": 0.00010170316301703165,
      "loss": 0.469,
      "step": 1015
    },
    {
      "epoch": 2.4642424242424243,
      "grad_norm": 0.14817754924297333,
      "learning_rate": 0.00010160583941605839,
      "loss": 0.4784,
      "step": 1016
    },
    {
      "epoch": 2.466666666666667,
      "grad_norm": 0.14196836948394775,
      "learning_rate": 0.00010150851581508516,
      "loss": 0.4519,
      "step": 1017
    },
    {
      "epoch": 2.4690909090909092,
      "grad_norm": 0.15159180760383606,
      "learning_rate": 0.00010141119221411193,
      "loss": 0.4492,
      "step": 1018
    },
    {
      "epoch": 2.4715151515151517,
      "grad_norm": 0.2163730412721634,
      "learning_rate": 0.0001013138686131387,
      "loss": 0.4515,
      "step": 1019
    },
    {
      "epoch": 2.473939393939394,
      "grad_norm": 0.16242019832134247,
      "learning_rate": 0.00010121654501216546,
      "loss": 0.4621,
      "step": 1020
    },
    {
      "epoch": 2.4763636363636365,
      "grad_norm": 0.15401983261108398,
      "learning_rate": 0.00010111922141119222,
      "loss": 0.4516,
      "step": 1021
    },
    {
      "epoch": 2.4787878787878785,
      "grad_norm": 0.15765289962291718,
      "learning_rate": 0.00010102189781021899,
      "loss": 0.4455,
      "step": 1022
    },
    {
      "epoch": 2.4812121212121214,
      "grad_norm": 0.16131676733493805,
      "learning_rate": 0.00010092457420924574,
      "loss": 0.459,
      "step": 1023
    },
    {
      "epoch": 2.4836363636363634,
      "grad_norm": 0.155371755361557,
      "learning_rate": 0.00010082725060827251,
      "loss": 0.4515,
      "step": 1024
    },
    {
      "epoch": 2.4860606060606063,
      "grad_norm": 0.1773020476102829,
      "learning_rate": 0.00010072992700729928,
      "loss": 0.4613,
      "step": 1025
    },
    {
      "epoch": 2.4884848484848483,
      "grad_norm": 0.15098758041858673,
      "learning_rate": 0.00010063260340632603,
      "loss": 0.4416,
      "step": 1026
    },
    {
      "epoch": 2.4909090909090907,
      "grad_norm": 0.1562860906124115,
      "learning_rate": 0.0001005352798053528,
      "loss": 0.4599,
      "step": 1027
    },
    {
      "epoch": 2.493333333333333,
      "grad_norm": 0.15414492785930634,
      "learning_rate": 0.00010043795620437957,
      "loss": 0.4492,
      "step": 1028
    },
    {
      "epoch": 2.4957575757575756,
      "grad_norm": 0.15291479229927063,
      "learning_rate": 0.00010034063260340634,
      "loss": 0.5001,
      "step": 1029
    },
    {
      "epoch": 2.498181818181818,
      "grad_norm": 0.15232262015342712,
      "learning_rate": 0.0001002433090024331,
      "loss": 0.4372,
      "step": 1030
    },
    {
      "epoch": 2.5006060606060605,
      "grad_norm": 0.14886482059955597,
      "learning_rate": 0.00010014598540145985,
      "loss": 0.4419,
      "step": 1031
    },
    {
      "epoch": 2.503030303030303,
      "grad_norm": 0.15573027729988098,
      "learning_rate": 0.00010004866180048662,
      "loss": 0.4803,
      "step": 1032
    },
    {
      "epoch": 2.5054545454545454,
      "grad_norm": 0.1409841775894165,
      "learning_rate": 9.995133819951339e-05,
      "loss": 0.4546,
      "step": 1033
    },
    {
      "epoch": 2.507878787878788,
      "grad_norm": 0.14967647194862366,
      "learning_rate": 9.985401459854015e-05,
      "loss": 0.4556,
      "step": 1034
    },
    {
      "epoch": 2.5103030303030303,
      "grad_norm": 0.1449194997549057,
      "learning_rate": 9.975669099756692e-05,
      "loss": 0.4414,
      "step": 1035
    },
    {
      "epoch": 2.5127272727272727,
      "grad_norm": 0.15387798845767975,
      "learning_rate": 9.965936739659369e-05,
      "loss": 0.4529,
      "step": 1036
    },
    {
      "epoch": 2.515151515151515,
      "grad_norm": 0.15112294256687164,
      "learning_rate": 9.956204379562044e-05,
      "loss": 0.4377,
      "step": 1037
    },
    {
      "epoch": 2.5175757575757576,
      "grad_norm": 0.14906667172908783,
      "learning_rate": 9.946472019464721e-05,
      "loss": 0.4488,
      "step": 1038
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.157342791557312,
      "learning_rate": 9.936739659367397e-05,
      "loss": 0.4506,
      "step": 1039
    },
    {
      "epoch": 2.5224242424242425,
      "grad_norm": 0.15800057351589203,
      "learning_rate": 9.927007299270074e-05,
      "loss": 0.4731,
      "step": 1040
    },
    {
      "epoch": 2.524848484848485,
      "grad_norm": 0.14763669669628143,
      "learning_rate": 9.917274939172751e-05,
      "loss": 0.456,
      "step": 1041
    },
    {
      "epoch": 2.5272727272727273,
      "grad_norm": 0.15247882902622223,
      "learning_rate": 9.907542579075427e-05,
      "loss": 0.4428,
      "step": 1042
    },
    {
      "epoch": 2.5296969696969698,
      "grad_norm": 0.1480463743209839,
      "learning_rate": 9.897810218978102e-05,
      "loss": 0.4439,
      "step": 1043
    },
    {
      "epoch": 2.532121212121212,
      "grad_norm": 0.3687064051628113,
      "learning_rate": 9.88807785888078e-05,
      "loss": 0.4446,
      "step": 1044
    },
    {
      "epoch": 2.5345454545454547,
      "grad_norm": 0.142240509390831,
      "learning_rate": 9.878345498783455e-05,
      "loss": 0.4517,
      "step": 1045
    },
    {
      "epoch": 2.536969696969697,
      "grad_norm": 0.15285535156726837,
      "learning_rate": 9.868613138686131e-05,
      "loss": 0.4763,
      "step": 1046
    },
    {
      "epoch": 2.5393939393939395,
      "grad_norm": 0.13912059366703033,
      "learning_rate": 9.858880778588808e-05,
      "loss": 0.4482,
      "step": 1047
    },
    {
      "epoch": 2.541818181818182,
      "grad_norm": 0.14527744054794312,
      "learning_rate": 9.849148418491485e-05,
      "loss": 0.4502,
      "step": 1048
    },
    {
      "epoch": 2.544242424242424,
      "grad_norm": 0.14560475945472717,
      "learning_rate": 9.83941605839416e-05,
      "loss": 0.4491,
      "step": 1049
    },
    {
      "epoch": 2.546666666666667,
      "grad_norm": 0.14710666239261627,
      "learning_rate": 9.829683698296837e-05,
      "loss": 0.455,
      "step": 1050
    },
    {
      "epoch": 2.549090909090909,
      "grad_norm": 0.1450130045413971,
      "learning_rate": 9.819951338199513e-05,
      "loss": 0.4436,
      "step": 1051
    },
    {
      "epoch": 2.5515151515151517,
      "grad_norm": 0.15259845554828644,
      "learning_rate": 9.81021897810219e-05,
      "loss": 0.4666,
      "step": 1052
    },
    {
      "epoch": 2.5539393939393937,
      "grad_norm": 0.16316521167755127,
      "learning_rate": 9.800486618004867e-05,
      "loss": 0.4617,
      "step": 1053
    },
    {
      "epoch": 2.5563636363636366,
      "grad_norm": 0.15875141322612762,
      "learning_rate": 9.790754257907543e-05,
      "loss": 0.4398,
      "step": 1054
    },
    {
      "epoch": 2.5587878787878786,
      "grad_norm": 0.1644798070192337,
      "learning_rate": 9.78102189781022e-05,
      "loss": 0.4601,
      "step": 1055
    },
    {
      "epoch": 2.561212121212121,
      "grad_norm": 0.16556371748447418,
      "learning_rate": 9.771289537712896e-05,
      "loss": 0.4655,
      "step": 1056
    },
    {
      "epoch": 2.5636363636363635,
      "grad_norm": 0.15182849764823914,
      "learning_rate": 9.761557177615573e-05,
      "loss": 0.4459,
      "step": 1057
    },
    {
      "epoch": 2.566060606060606,
      "grad_norm": 0.1462545245885849,
      "learning_rate": 9.75182481751825e-05,
      "loss": 0.4461,
      "step": 1058
    },
    {
      "epoch": 2.5684848484848484,
      "grad_norm": 0.17706230282783508,
      "learning_rate": 9.742092457420925e-05,
      "loss": 0.4708,
      "step": 1059
    },
    {
      "epoch": 2.570909090909091,
      "grad_norm": 0.15341050922870636,
      "learning_rate": 9.732360097323602e-05,
      "loss": 0.4634,
      "step": 1060
    },
    {
      "epoch": 2.5733333333333333,
      "grad_norm": 0.2451661080121994,
      "learning_rate": 9.722627737226278e-05,
      "loss": 0.4213,
      "step": 1061
    },
    {
      "epoch": 2.5757575757575757,
      "grad_norm": 0.13928139209747314,
      "learning_rate": 9.712895377128955e-05,
      "loss": 0.4423,
      "step": 1062
    },
    {
      "epoch": 2.578181818181818,
      "grad_norm": 0.1560385525226593,
      "learning_rate": 9.70316301703163e-05,
      "loss": 0.4565,
      "step": 1063
    },
    {
      "epoch": 2.5806060606060606,
      "grad_norm": 0.15397030115127563,
      "learning_rate": 9.693430656934308e-05,
      "loss": 0.4508,
      "step": 1064
    },
    {
      "epoch": 2.583030303030303,
      "grad_norm": 0.14546804130077362,
      "learning_rate": 9.683698296836983e-05,
      "loss": 0.4336,
      "step": 1065
    },
    {
      "epoch": 2.5854545454545454,
      "grad_norm": 0.1540607511997223,
      "learning_rate": 9.673965936739659e-05,
      "loss": 0.4472,
      "step": 1066
    },
    {
      "epoch": 2.587878787878788,
      "grad_norm": 0.1459294557571411,
      "learning_rate": 9.664233576642336e-05,
      "loss": 0.4327,
      "step": 1067
    },
    {
      "epoch": 2.5903030303030303,
      "grad_norm": 0.1588231772184372,
      "learning_rate": 9.654501216545012e-05,
      "loss": 0.49,
      "step": 1068
    },
    {
      "epoch": 2.5927272727272728,
      "grad_norm": 0.15938682854175568,
      "learning_rate": 9.644768856447689e-05,
      "loss": 0.4568,
      "step": 1069
    },
    {
      "epoch": 2.595151515151515,
      "grad_norm": 0.15703575313091278,
      "learning_rate": 9.635036496350366e-05,
      "loss": 0.4589,
      "step": 1070
    },
    {
      "epoch": 2.5975757575757576,
      "grad_norm": 0.15630324184894562,
      "learning_rate": 9.625304136253041e-05,
      "loss": 0.4608,
      "step": 1071
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.16018500924110413,
      "learning_rate": 9.615571776155718e-05,
      "loss": 0.4788,
      "step": 1072
    },
    {
      "epoch": 2.6024242424242425,
      "grad_norm": 0.15075302124023438,
      "learning_rate": 9.605839416058394e-05,
      "loss": 0.4463,
      "step": 1073
    },
    {
      "epoch": 2.604848484848485,
      "grad_norm": 0.15616914629936218,
      "learning_rate": 9.596107055961071e-05,
      "loss": 0.4662,
      "step": 1074
    },
    {
      "epoch": 2.6072727272727274,
      "grad_norm": 0.26297321915626526,
      "learning_rate": 9.586374695863748e-05,
      "loss": 0.4443,
      "step": 1075
    },
    {
      "epoch": 2.60969696969697,
      "grad_norm": 0.14817090332508087,
      "learning_rate": 9.576642335766424e-05,
      "loss": 0.4284,
      "step": 1076
    },
    {
      "epoch": 2.6121212121212123,
      "grad_norm": 0.1445614993572235,
      "learning_rate": 9.566909975669101e-05,
      "loss": 0.4381,
      "step": 1077
    },
    {
      "epoch": 2.6145454545454543,
      "grad_norm": 0.14387845993041992,
      "learning_rate": 9.557177615571776e-05,
      "loss": 0.4307,
      "step": 1078
    },
    {
      "epoch": 2.616969696969697,
      "grad_norm": 0.15789172053337097,
      "learning_rate": 9.547445255474453e-05,
      "loss": 0.4701,
      "step": 1079
    },
    {
      "epoch": 2.619393939393939,
      "grad_norm": 0.1540183126926422,
      "learning_rate": 9.537712895377129e-05,
      "loss": 0.4717,
      "step": 1080
    },
    {
      "epoch": 2.621818181818182,
      "grad_norm": 0.14611539244651794,
      "learning_rate": 9.527980535279806e-05,
      "loss": 0.4315,
      "step": 1081
    },
    {
      "epoch": 2.624242424242424,
      "grad_norm": 0.15681228041648865,
      "learning_rate": 9.518248175182483e-05,
      "loss": 0.4558,
      "step": 1082
    },
    {
      "epoch": 2.626666666666667,
      "grad_norm": 0.32579606771469116,
      "learning_rate": 9.508515815085159e-05,
      "loss": 0.4438,
      "step": 1083
    },
    {
      "epoch": 2.629090909090909,
      "grad_norm": 0.15655089914798737,
      "learning_rate": 9.498783454987836e-05,
      "loss": 0.4422,
      "step": 1084
    },
    {
      "epoch": 2.6315151515151514,
      "grad_norm": 0.14544989168643951,
      "learning_rate": 9.489051094890511e-05,
      "loss": 0.4372,
      "step": 1085
    },
    {
      "epoch": 2.633939393939394,
      "grad_norm": 0.14761105179786682,
      "learning_rate": 9.479318734793187e-05,
      "loss": 0.4628,
      "step": 1086
    },
    {
      "epoch": 2.6363636363636362,
      "grad_norm": 0.14942094683647156,
      "learning_rate": 9.469586374695864e-05,
      "loss": 0.4537,
      "step": 1087
    },
    {
      "epoch": 2.6387878787878787,
      "grad_norm": 0.15289287269115448,
      "learning_rate": 9.45985401459854e-05,
      "loss": 0.4437,
      "step": 1088
    },
    {
      "epoch": 2.641212121212121,
      "grad_norm": 0.16516593098640442,
      "learning_rate": 9.450121654501217e-05,
      "loss": 0.4653,
      "step": 1089
    },
    {
      "epoch": 2.6436363636363636,
      "grad_norm": 0.15496282279491425,
      "learning_rate": 9.440389294403893e-05,
      "loss": 0.4635,
      "step": 1090
    },
    {
      "epoch": 2.646060606060606,
      "grad_norm": 0.16049064695835114,
      "learning_rate": 9.43065693430657e-05,
      "loss": 0.4537,
      "step": 1091
    },
    {
      "epoch": 2.6484848484848484,
      "grad_norm": 0.15346796810626984,
      "learning_rate": 9.420924574209247e-05,
      "loss": 0.4673,
      "step": 1092
    },
    {
      "epoch": 2.650909090909091,
      "grad_norm": 0.16162927448749542,
      "learning_rate": 9.411192214111922e-05,
      "loss": 0.4359,
      "step": 1093
    },
    {
      "epoch": 2.6533333333333333,
      "grad_norm": 0.7326859831809998,
      "learning_rate": 9.401459854014599e-05,
      "loss": 0.4651,
      "step": 1094
    },
    {
      "epoch": 2.6557575757575758,
      "grad_norm": 0.15089721977710724,
      "learning_rate": 9.391727493917275e-05,
      "loss": 0.4566,
      "step": 1095
    },
    {
      "epoch": 2.658181818181818,
      "grad_norm": 0.1494409739971161,
      "learning_rate": 9.381995133819952e-05,
      "loss": 0.4628,
      "step": 1096
    },
    {
      "epoch": 2.6606060606060606,
      "grad_norm": 0.14899663627147675,
      "learning_rate": 9.372262773722629e-05,
      "loss": 0.4507,
      "step": 1097
    },
    {
      "epoch": 2.663030303030303,
      "grad_norm": 0.15657715499401093,
      "learning_rate": 9.362530413625305e-05,
      "loss": 0.4454,
      "step": 1098
    },
    {
      "epoch": 2.6654545454545455,
      "grad_norm": 0.14880792796611786,
      "learning_rate": 9.352798053527982e-05,
      "loss": 0.4428,
      "step": 1099
    },
    {
      "epoch": 2.667878787878788,
      "grad_norm": 0.15397605299949646,
      "learning_rate": 9.343065693430657e-05,
      "loss": 0.463,
      "step": 1100
    },
    {
      "epoch": 2.6703030303030304,
      "grad_norm": 0.18763011693954468,
      "learning_rate": 9.333333333333334e-05,
      "loss": 0.461,
      "step": 1101
    },
    {
      "epoch": 2.672727272727273,
      "grad_norm": 1.8244496583938599,
      "learning_rate": 9.32360097323601e-05,
      "loss": 0.441,
      "step": 1102
    },
    {
      "epoch": 2.6751515151515153,
      "grad_norm": 0.14248137176036835,
      "learning_rate": 9.313868613138687e-05,
      "loss": 0.4356,
      "step": 1103
    },
    {
      "epoch": 2.6775757575757577,
      "grad_norm": 0.14895792305469513,
      "learning_rate": 9.304136253041364e-05,
      "loss": 0.4722,
      "step": 1104
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.15542294085025787,
      "learning_rate": 9.29440389294404e-05,
      "loss": 0.45,
      "step": 1105
    },
    {
      "epoch": 2.6824242424242426,
      "grad_norm": 0.15362198650836945,
      "learning_rate": 9.284671532846715e-05,
      "loss": 0.4639,
      "step": 1106
    },
    {
      "epoch": 2.6848484848484846,
      "grad_norm": 0.15591295063495636,
      "learning_rate": 9.274939172749392e-05,
      "loss": 0.469,
      "step": 1107
    },
    {
      "epoch": 2.6872727272727275,
      "grad_norm": 0.14857544004917145,
      "learning_rate": 9.265206812652068e-05,
      "loss": 0.4569,
      "step": 1108
    },
    {
      "epoch": 2.6896969696969695,
      "grad_norm": 0.15380679070949554,
      "learning_rate": 9.255474452554745e-05,
      "loss": 0.4584,
      "step": 1109
    },
    {
      "epoch": 2.6921212121212124,
      "grad_norm": 0.15392328798770905,
      "learning_rate": 9.245742092457421e-05,
      "loss": 0.458,
      "step": 1110
    },
    {
      "epoch": 2.6945454545454544,
      "grad_norm": 0.14772014319896698,
      "learning_rate": 9.236009732360098e-05,
      "loss": 0.4749,
      "step": 1111
    },
    {
      "epoch": 2.6969696969696972,
      "grad_norm": 0.16292931139469147,
      "learning_rate": 9.226277372262773e-05,
      "loss": 0.459,
      "step": 1112
    },
    {
      "epoch": 2.6993939393939392,
      "grad_norm": 0.34073606133461,
      "learning_rate": 9.21654501216545e-05,
      "loss": 0.4535,
      "step": 1113
    },
    {
      "epoch": 2.7018181818181817,
      "grad_norm": 0.1524346023797989,
      "learning_rate": 9.206812652068127e-05,
      "loss": 0.4609,
      "step": 1114
    },
    {
      "epoch": 2.704242424242424,
      "grad_norm": 0.15549011528491974,
      "learning_rate": 9.197080291970803e-05,
      "loss": 0.4757,
      "step": 1115
    },
    {
      "epoch": 2.7066666666666666,
      "grad_norm": 0.1459454596042633,
      "learning_rate": 9.18734793187348e-05,
      "loss": 0.4451,
      "step": 1116
    },
    {
      "epoch": 2.709090909090909,
      "grad_norm": 0.14687874913215637,
      "learning_rate": 9.177615571776156e-05,
      "loss": 0.4342,
      "step": 1117
    },
    {
      "epoch": 2.7115151515151514,
      "grad_norm": 0.1503492146730423,
      "learning_rate": 9.167883211678833e-05,
      "loss": 0.4532,
      "step": 1118
    },
    {
      "epoch": 2.713939393939394,
      "grad_norm": 0.1463162750005722,
      "learning_rate": 9.158150851581508e-05,
      "loss": 0.4419,
      "step": 1119
    },
    {
      "epoch": 2.7163636363636363,
      "grad_norm": 0.1530592143535614,
      "learning_rate": 9.148418491484186e-05,
      "loss": 0.4593,
      "step": 1120
    },
    {
      "epoch": 2.7187878787878788,
      "grad_norm": 0.14833654463291168,
      "learning_rate": 9.138686131386863e-05,
      "loss": 0.4238,
      "step": 1121
    },
    {
      "epoch": 2.721212121212121,
      "grad_norm": 0.48917075991630554,
      "learning_rate": 9.128953771289538e-05,
      "loss": 0.4556,
      "step": 1122
    },
    {
      "epoch": 2.7236363636363636,
      "grad_norm": 0.15495605766773224,
      "learning_rate": 9.119221411192215e-05,
      "loss": 0.4605,
      "step": 1123
    },
    {
      "epoch": 2.726060606060606,
      "grad_norm": 0.1454140543937683,
      "learning_rate": 9.109489051094891e-05,
      "loss": 0.4335,
      "step": 1124
    },
    {
      "epoch": 2.7284848484848485,
      "grad_norm": 0.16370148956775665,
      "learning_rate": 9.099756690997568e-05,
      "loss": 0.4508,
      "step": 1125
    },
    {
      "epoch": 2.730909090909091,
      "grad_norm": 0.1480460911989212,
      "learning_rate": 9.090024330900244e-05,
      "loss": 0.4429,
      "step": 1126
    },
    {
      "epoch": 2.7333333333333334,
      "grad_norm": 0.16494211554527283,
      "learning_rate": 9.08029197080292e-05,
      "loss": 0.469,
      "step": 1127
    },
    {
      "epoch": 2.735757575757576,
      "grad_norm": 0.14550013840198517,
      "learning_rate": 9.070559610705596e-05,
      "loss": 0.4439,
      "step": 1128
    },
    {
      "epoch": 2.7381818181818183,
      "grad_norm": 0.14877015352249146,
      "learning_rate": 9.060827250608272e-05,
      "loss": 0.4549,
      "step": 1129
    },
    {
      "epoch": 2.7406060606060607,
      "grad_norm": 0.14919789135456085,
      "learning_rate": 9.051094890510949e-05,
      "loss": 0.4583,
      "step": 1130
    },
    {
      "epoch": 2.743030303030303,
      "grad_norm": 0.36338576674461365,
      "learning_rate": 9.041362530413626e-05,
      "loss": 0.4753,
      "step": 1131
    },
    {
      "epoch": 2.7454545454545456,
      "grad_norm": 0.15098725259304047,
      "learning_rate": 9.031630170316302e-05,
      "loss": 0.4643,
      "step": 1132
    },
    {
      "epoch": 2.747878787878788,
      "grad_norm": 0.15312537550926208,
      "learning_rate": 9.021897810218979e-05,
      "loss": 0.4587,
      "step": 1133
    },
    {
      "epoch": 2.75030303030303,
      "grad_norm": 0.14490102231502533,
      "learning_rate": 9.012165450121654e-05,
      "loss": 0.4426,
      "step": 1134
    },
    {
      "epoch": 2.752727272727273,
      "grad_norm": 0.1473163664340973,
      "learning_rate": 9.002433090024331e-05,
      "loss": 0.4153,
      "step": 1135
    },
    {
      "epoch": 2.755151515151515,
      "grad_norm": 0.15106014907360077,
      "learning_rate": 8.992700729927007e-05,
      "loss": 0.4636,
      "step": 1136
    },
    {
      "epoch": 2.757575757575758,
      "grad_norm": 0.15918298065662384,
      "learning_rate": 8.982968369829684e-05,
      "loss": 0.4635,
      "step": 1137
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.15909415483474731,
      "learning_rate": 8.973236009732361e-05,
      "loss": 0.4899,
      "step": 1138
    },
    {
      "epoch": 2.7624242424242427,
      "grad_norm": 0.1491507738828659,
      "learning_rate": 8.963503649635037e-05,
      "loss": 0.4458,
      "step": 1139
    },
    {
      "epoch": 2.7648484848484847,
      "grad_norm": 0.16084419190883636,
      "learning_rate": 8.953771289537714e-05,
      "loss": 0.4526,
      "step": 1140
    },
    {
      "epoch": 2.767272727272727,
      "grad_norm": 0.1551460474729538,
      "learning_rate": 8.94403892944039e-05,
      "loss": 0.4548,
      "step": 1141
    },
    {
      "epoch": 2.7696969696969695,
      "grad_norm": 0.14913871884346008,
      "learning_rate": 8.934306569343066e-05,
      "loss": 0.464,
      "step": 1142
    },
    {
      "epoch": 2.772121212121212,
      "grad_norm": 0.14851976931095123,
      "learning_rate": 8.924574209245743e-05,
      "loss": 0.4473,
      "step": 1143
    },
    {
      "epoch": 2.7745454545454544,
      "grad_norm": 0.1512073278427124,
      "learning_rate": 8.914841849148419e-05,
      "loss": 0.4518,
      "step": 1144
    },
    {
      "epoch": 2.776969696969697,
      "grad_norm": 0.15622961521148682,
      "learning_rate": 8.905109489051096e-05,
      "loss": 0.4636,
      "step": 1145
    },
    {
      "epoch": 2.7793939393939393,
      "grad_norm": 0.15085558593273163,
      "learning_rate": 8.895377128953772e-05,
      "loss": 0.4636,
      "step": 1146
    },
    {
      "epoch": 2.7818181818181817,
      "grad_norm": 0.14131072163581848,
      "learning_rate": 8.885644768856449e-05,
      "loss": 0.4547,
      "step": 1147
    },
    {
      "epoch": 2.784242424242424,
      "grad_norm": 0.13961507380008698,
      "learning_rate": 8.875912408759124e-05,
      "loss": 0.4417,
      "step": 1148
    },
    {
      "epoch": 2.7866666666666666,
      "grad_norm": 0.14207591116428375,
      "learning_rate": 8.8661800486618e-05,
      "loss": 0.4445,
      "step": 1149
    },
    {
      "epoch": 2.789090909090909,
      "grad_norm": 0.141916885972023,
      "learning_rate": 8.856447688564477e-05,
      "loss": 0.4505,
      "step": 1150
    },
    {
      "epoch": 2.7915151515151515,
      "grad_norm": 0.14219476282596588,
      "learning_rate": 8.846715328467153e-05,
      "loss": 0.4346,
      "step": 1151
    },
    {
      "epoch": 2.793939393939394,
      "grad_norm": 0.15048106014728546,
      "learning_rate": 8.83698296836983e-05,
      "loss": 0.4672,
      "step": 1152
    },
    {
      "epoch": 2.7963636363636364,
      "grad_norm": 0.15795375406742096,
      "learning_rate": 8.827250608272507e-05,
      "loss": 0.4645,
      "step": 1153
    },
    {
      "epoch": 2.798787878787879,
      "grad_norm": 0.14954645931720734,
      "learning_rate": 8.817518248175182e-05,
      "loss": 0.4397,
      "step": 1154
    },
    {
      "epoch": 2.8012121212121213,
      "grad_norm": 0.15358731150627136,
      "learning_rate": 8.80778588807786e-05,
      "loss": 0.4637,
      "step": 1155
    },
    {
      "epoch": 2.8036363636363637,
      "grad_norm": 0.15263046324253082,
      "learning_rate": 8.798053527980535e-05,
      "loss": 0.4552,
      "step": 1156
    },
    {
      "epoch": 2.806060606060606,
      "grad_norm": 0.14825956523418427,
      "learning_rate": 8.788321167883212e-05,
      "loss": 0.4263,
      "step": 1157
    },
    {
      "epoch": 2.8084848484848486,
      "grad_norm": 0.15396203100681305,
      "learning_rate": 8.778588807785888e-05,
      "loss": 0.4568,
      "step": 1158
    },
    {
      "epoch": 2.810909090909091,
      "grad_norm": 0.1562288999557495,
      "learning_rate": 8.768856447688565e-05,
      "loss": 0.4538,
      "step": 1159
    },
    {
      "epoch": 2.8133333333333335,
      "grad_norm": 0.16246117651462555,
      "learning_rate": 8.759124087591242e-05,
      "loss": 0.485,
      "step": 1160
    },
    {
      "epoch": 2.815757575757576,
      "grad_norm": 0.15099431574344635,
      "learning_rate": 8.749391727493918e-05,
      "loss": 0.4543,
      "step": 1161
    },
    {
      "epoch": 2.8181818181818183,
      "grad_norm": 0.1497875303030014,
      "learning_rate": 8.739659367396595e-05,
      "loss": 0.4507,
      "step": 1162
    },
    {
      "epoch": 2.8206060606060603,
      "grad_norm": 0.14126376807689667,
      "learning_rate": 8.72992700729927e-05,
      "loss": 0.4354,
      "step": 1163
    },
    {
      "epoch": 2.8230303030303032,
      "grad_norm": 0.1506192684173584,
      "learning_rate": 8.720194647201947e-05,
      "loss": 0.4369,
      "step": 1164
    },
    {
      "epoch": 2.825454545454545,
      "grad_norm": 0.14884966611862183,
      "learning_rate": 8.710462287104624e-05,
      "loss": 0.456,
      "step": 1165
    },
    {
      "epoch": 2.827878787878788,
      "grad_norm": 0.7063042521476746,
      "learning_rate": 8.7007299270073e-05,
      "loss": 0.4372,
      "step": 1166
    },
    {
      "epoch": 2.83030303030303,
      "grad_norm": 0.14909909665584564,
      "learning_rate": 8.690997566909977e-05,
      "loss": 0.4517,
      "step": 1167
    },
    {
      "epoch": 2.832727272727273,
      "grad_norm": 0.15126119554042816,
      "learning_rate": 8.681265206812653e-05,
      "loss": 0.4584,
      "step": 1168
    },
    {
      "epoch": 2.835151515151515,
      "grad_norm": 0.15395906567573547,
      "learning_rate": 8.671532846715328e-05,
      "loss": 0.4454,
      "step": 1169
    },
    {
      "epoch": 2.8375757575757574,
      "grad_norm": 0.15106594562530518,
      "learning_rate": 8.661800486618005e-05,
      "loss": 0.4605,
      "step": 1170
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.15366089344024658,
      "learning_rate": 8.652068126520681e-05,
      "loss": 0.4448,
      "step": 1171
    },
    {
      "epoch": 2.8424242424242423,
      "grad_norm": 0.1520150750875473,
      "learning_rate": 8.642335766423358e-05,
      "loss": 0.4432,
      "step": 1172
    },
    {
      "epoch": 2.8448484848484847,
      "grad_norm": 0.18023084104061127,
      "learning_rate": 8.632603406326034e-05,
      "loss": 0.448,
      "step": 1173
    },
    {
      "epoch": 2.847272727272727,
      "grad_norm": 0.15413041412830353,
      "learning_rate": 8.622871046228711e-05,
      "loss": 0.4517,
      "step": 1174
    },
    {
      "epoch": 2.8496969696969696,
      "grad_norm": 0.14416517317295074,
      "learning_rate": 8.613138686131386e-05,
      "loss": 0.4321,
      "step": 1175
    },
    {
      "epoch": 2.852121212121212,
      "grad_norm": 0.15141478180885315,
      "learning_rate": 8.603406326034063e-05,
      "loss": 0.4736,
      "step": 1176
    },
    {
      "epoch": 2.8545454545454545,
      "grad_norm": 0.14860540628433228,
      "learning_rate": 8.59367396593674e-05,
      "loss": 0.4352,
      "step": 1177
    },
    {
      "epoch": 2.856969696969697,
      "grad_norm": 0.1465403437614441,
      "learning_rate": 8.583941605839416e-05,
      "loss": 0.4506,
      "step": 1178
    },
    {
      "epoch": 2.8593939393939394,
      "grad_norm": 0.1442267894744873,
      "learning_rate": 8.574209245742093e-05,
      "loss": 0.4558,
      "step": 1179
    },
    {
      "epoch": 2.861818181818182,
      "grad_norm": 0.14357613027095795,
      "learning_rate": 8.564476885644769e-05,
      "loss": 0.4329,
      "step": 1180
    },
    {
      "epoch": 2.8642424242424243,
      "grad_norm": 0.15301117300987244,
      "learning_rate": 8.554744525547446e-05,
      "loss": 0.4738,
      "step": 1181
    },
    {
      "epoch": 2.8666666666666667,
      "grad_norm": 0.14442108571529388,
      "learning_rate": 8.545012165450123e-05,
      "loss": 0.4565,
      "step": 1182
    },
    {
      "epoch": 2.869090909090909,
      "grad_norm": 0.14972566068172455,
      "learning_rate": 8.535279805352798e-05,
      "loss": 0.4563,
      "step": 1183
    },
    {
      "epoch": 2.8715151515151516,
      "grad_norm": 0.14972306787967682,
      "learning_rate": 8.525547445255475e-05,
      "loss": 0.4612,
      "step": 1184
    },
    {
      "epoch": 2.873939393939394,
      "grad_norm": 0.15028472244739532,
      "learning_rate": 8.515815085158151e-05,
      "loss": 0.4661,
      "step": 1185
    },
    {
      "epoch": 2.8763636363636365,
      "grad_norm": 0.14874383807182312,
      "learning_rate": 8.506082725060828e-05,
      "loss": 0.4442,
      "step": 1186
    },
    {
      "epoch": 2.878787878787879,
      "grad_norm": 0.22082550823688507,
      "learning_rate": 8.496350364963505e-05,
      "loss": 0.4564,
      "step": 1187
    },
    {
      "epoch": 2.8812121212121213,
      "grad_norm": 0.14753304421901703,
      "learning_rate": 8.486618004866181e-05,
      "loss": 0.4486,
      "step": 1188
    },
    {
      "epoch": 2.8836363636363638,
      "grad_norm": 0.15483854711055756,
      "learning_rate": 8.476885644768856e-05,
      "loss": 0.4681,
      "step": 1189
    },
    {
      "epoch": 2.886060606060606,
      "grad_norm": 0.14668704569339752,
      "learning_rate": 8.467153284671534e-05,
      "loss": 0.4458,
      "step": 1190
    },
    {
      "epoch": 2.8884848484848487,
      "grad_norm": 0.14590631425380707,
      "learning_rate": 8.457420924574209e-05,
      "loss": 0.4332,
      "step": 1191
    },
    {
      "epoch": 2.8909090909090907,
      "grad_norm": 0.15077605843544006,
      "learning_rate": 8.447688564476885e-05,
      "loss": 0.4554,
      "step": 1192
    },
    {
      "epoch": 2.8933333333333335,
      "grad_norm": 0.15332667529582977,
      "learning_rate": 8.437956204379562e-05,
      "loss": 0.4452,
      "step": 1193
    },
    {
      "epoch": 2.8957575757575755,
      "grad_norm": 0.14926253259181976,
      "learning_rate": 8.428223844282239e-05,
      "loss": 0.4523,
      "step": 1194
    },
    {
      "epoch": 2.8981818181818184,
      "grad_norm": 0.15714851021766663,
      "learning_rate": 8.418491484184915e-05,
      "loss": 0.4574,
      "step": 1195
    },
    {
      "epoch": 2.9006060606060604,
      "grad_norm": 0.15909716486930847,
      "learning_rate": 8.408759124087592e-05,
      "loss": 0.4697,
      "step": 1196
    },
    {
      "epoch": 2.9030303030303033,
      "grad_norm": 0.15957073867321014,
      "learning_rate": 8.399026763990267e-05,
      "loss": 0.4307,
      "step": 1197
    },
    {
      "epoch": 2.9054545454545453,
      "grad_norm": 0.20201903581619263,
      "learning_rate": 8.389294403892944e-05,
      "loss": 0.4788,
      "step": 1198
    },
    {
      "epoch": 2.9078787878787877,
      "grad_norm": 0.15662510693073273,
      "learning_rate": 8.379562043795621e-05,
      "loss": 0.4694,
      "step": 1199
    },
    {
      "epoch": 2.91030303030303,
      "grad_norm": 0.14907363057136536,
      "learning_rate": 8.369829683698297e-05,
      "loss": 0.4385,
      "step": 1200
    },
    {
      "epoch": 2.9127272727272726,
      "grad_norm": 0.15326297283172607,
      "learning_rate": 8.360097323600974e-05,
      "loss": 0.4736,
      "step": 1201
    },
    {
      "epoch": 2.915151515151515,
      "grad_norm": 0.15161417424678802,
      "learning_rate": 8.35036496350365e-05,
      "loss": 0.4714,
      "step": 1202
    },
    {
      "epoch": 2.9175757575757575,
      "grad_norm": 0.15002967417240143,
      "learning_rate": 8.340632603406327e-05,
      "loss": 0.4303,
      "step": 1203
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.16486920416355133,
      "learning_rate": 8.330900243309004e-05,
      "loss": 0.4694,
      "step": 1204
    },
    {
      "epoch": 2.9224242424242424,
      "grad_norm": 0.14730888605117798,
      "learning_rate": 8.32116788321168e-05,
      "loss": 0.4413,
      "step": 1205
    },
    {
      "epoch": 2.924848484848485,
      "grad_norm": 0.1449362188577652,
      "learning_rate": 8.311435523114356e-05,
      "loss": 0.4352,
      "step": 1206
    },
    {
      "epoch": 2.9272727272727272,
      "grad_norm": 0.15497927367687225,
      "learning_rate": 8.301703163017032e-05,
      "loss": 0.464,
      "step": 1207
    },
    {
      "epoch": 2.9296969696969697,
      "grad_norm": 0.1530403196811676,
      "learning_rate": 8.291970802919709e-05,
      "loss": 0.4585,
      "step": 1208
    },
    {
      "epoch": 2.932121212121212,
      "grad_norm": 0.14539624750614166,
      "learning_rate": 8.282238442822385e-05,
      "loss": 0.4293,
      "step": 1209
    },
    {
      "epoch": 2.9345454545454546,
      "grad_norm": 0.15153078734874725,
      "learning_rate": 8.272506082725062e-05,
      "loss": 0.4478,
      "step": 1210
    },
    {
      "epoch": 2.936969696969697,
      "grad_norm": 0.9030705094337463,
      "learning_rate": 8.262773722627737e-05,
      "loss": 0.4486,
      "step": 1211
    },
    {
      "epoch": 2.9393939393939394,
      "grad_norm": 0.15473003685474396,
      "learning_rate": 8.253041362530413e-05,
      "loss": 0.4381,
      "step": 1212
    },
    {
      "epoch": 2.941818181818182,
      "grad_norm": 0.15381209552288055,
      "learning_rate": 8.24330900243309e-05,
      "loss": 0.4424,
      "step": 1213
    },
    {
      "epoch": 2.9442424242424243,
      "grad_norm": 0.1559678465127945,
      "learning_rate": 8.233576642335766e-05,
      "loss": 0.4606,
      "step": 1214
    },
    {
      "epoch": 2.9466666666666668,
      "grad_norm": 0.15731468796730042,
      "learning_rate": 8.223844282238443e-05,
      "loss": 0.4432,
      "step": 1215
    },
    {
      "epoch": 2.949090909090909,
      "grad_norm": 0.15813948214054108,
      "learning_rate": 8.21411192214112e-05,
      "loss": 0.4692,
      "step": 1216
    },
    {
      "epoch": 2.9515151515151516,
      "grad_norm": 0.1606149971485138,
      "learning_rate": 8.204379562043795e-05,
      "loss": 0.4717,
      "step": 1217
    },
    {
      "epoch": 2.953939393939394,
      "grad_norm": 0.15300804376602173,
      "learning_rate": 8.194647201946472e-05,
      "loss": 0.4307,
      "step": 1218
    },
    {
      "epoch": 2.9563636363636365,
      "grad_norm": 0.7375220060348511,
      "learning_rate": 8.184914841849148e-05,
      "loss": 0.4361,
      "step": 1219
    },
    {
      "epoch": 2.958787878787879,
      "grad_norm": 0.15638276934623718,
      "learning_rate": 8.175182481751825e-05,
      "loss": 0.4685,
      "step": 1220
    },
    {
      "epoch": 2.961212121212121,
      "grad_norm": 0.14605866372585297,
      "learning_rate": 8.165450121654502e-05,
      "loss": 0.4483,
      "step": 1221
    },
    {
      "epoch": 2.963636363636364,
      "grad_norm": 0.16888822615146637,
      "learning_rate": 8.155717761557178e-05,
      "loss": 0.4616,
      "step": 1222
    },
    {
      "epoch": 2.966060606060606,
      "grad_norm": 0.15215495228767395,
      "learning_rate": 8.145985401459855e-05,
      "loss": 0.4535,
      "step": 1223
    },
    {
      "epoch": 2.9684848484848487,
      "grad_norm": 0.14885415136814117,
      "learning_rate": 8.13625304136253e-05,
      "loss": 0.4506,
      "step": 1224
    },
    {
      "epoch": 2.9709090909090907,
      "grad_norm": 0.1428089290857315,
      "learning_rate": 8.126520681265208e-05,
      "loss": 0.4391,
      "step": 1225
    },
    {
      "epoch": 2.9733333333333336,
      "grad_norm": 0.14959967136383057,
      "learning_rate": 8.116788321167885e-05,
      "loss": 0.4512,
      "step": 1226
    },
    {
      "epoch": 2.9757575757575756,
      "grad_norm": 0.14785008132457733,
      "learning_rate": 8.10705596107056e-05,
      "loss": 0.4337,
      "step": 1227
    },
    {
      "epoch": 2.978181818181818,
      "grad_norm": 0.15062853693962097,
      "learning_rate": 8.097323600973237e-05,
      "loss": 0.4384,
      "step": 1228
    },
    {
      "epoch": 2.9806060606060605,
      "grad_norm": 0.1604447066783905,
      "learning_rate": 8.087591240875913e-05,
      "loss": 0.4633,
      "step": 1229
    },
    {
      "epoch": 2.983030303030303,
      "grad_norm": 0.15331320464611053,
      "learning_rate": 8.07785888077859e-05,
      "loss": 0.4347,
      "step": 1230
    },
    {
      "epoch": 2.9854545454545454,
      "grad_norm": 0.15809215605258942,
      "learning_rate": 8.068126520681266e-05,
      "loss": 0.4451,
      "step": 1231
    },
    {
      "epoch": 2.987878787878788,
      "grad_norm": 0.14871720969676971,
      "learning_rate": 8.058394160583941e-05,
      "loss": 0.4295,
      "step": 1232
    },
    {
      "epoch": 2.9903030303030302,
      "grad_norm": 0.16143910586833954,
      "learning_rate": 8.048661800486618e-05,
      "loss": 0.4396,
      "step": 1233
    },
    {
      "epoch": 2.9927272727272727,
      "grad_norm": 0.15381896495819092,
      "learning_rate": 8.038929440389294e-05,
      "loss": 0.4498,
      "step": 1234
    },
    {
      "epoch": 2.995151515151515,
      "grad_norm": 0.16157235205173492,
      "learning_rate": 8.029197080291971e-05,
      "loss": 0.4541,
      "step": 1235
    },
    {
      "epoch": 2.9975757575757576,
      "grad_norm": 0.14805541932582855,
      "learning_rate": 8.019464720194647e-05,
      "loss": 0.4304,
      "step": 1236
    },
    {
      "epoch": 2.9975757575757576,
      "eval_loss": 0.5582337379455566,
      "eval_runtime": 241.6313,
      "eval_samples_per_second": 0.716,
      "eval_steps_per_second": 0.091,
      "step": 1236
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.1469334065914154,
      "learning_rate": 8.009732360097324e-05,
      "loss": 0.4522,
      "step": 1237
    },
    {
      "epoch": 3.0024242424242424,
      "grad_norm": 0.18832074105739594,
      "learning_rate": 8e-05,
      "loss": 0.3787,
      "step": 1238
    },
    {
      "epoch": 3.004848484848485,
      "grad_norm": 0.1926063448190689,
      "learning_rate": 7.990267639902676e-05,
      "loss": 0.362,
      "step": 1239
    },
    {
      "epoch": 3.0072727272727273,
      "grad_norm": 0.20369300246238708,
      "learning_rate": 7.980535279805353e-05,
      "loss": 0.345,
      "step": 1240
    },
    {
      "epoch": 3.0096969696969698,
      "grad_norm": 0.21047723293304443,
      "learning_rate": 7.970802919708029e-05,
      "loss": 0.3542,
      "step": 1241
    },
    {
      "epoch": 3.012121212121212,
      "grad_norm": 0.2980373799800873,
      "learning_rate": 7.961070559610706e-05,
      "loss": 0.3534,
      "step": 1242
    },
    {
      "epoch": 3.0145454545454546,
      "grad_norm": 0.42560744285583496,
      "learning_rate": 7.951338199513383e-05,
      "loss": 0.357,
      "step": 1243
    },
    {
      "epoch": 3.016969696969697,
      "grad_norm": 0.32947972416877747,
      "learning_rate": 7.941605839416059e-05,
      "loss": 0.3477,
      "step": 1244
    },
    {
      "epoch": 3.0193939393939395,
      "grad_norm": 0.25690245628356934,
      "learning_rate": 7.931873479318736e-05,
      "loss": 0.3463,
      "step": 1245
    },
    {
      "epoch": 3.021818181818182,
      "grad_norm": 0.227237269282341,
      "learning_rate": 7.922141119221411e-05,
      "loss": 0.3392,
      "step": 1246
    },
    {
      "epoch": 3.0242424242424244,
      "grad_norm": 0.22057172656059265,
      "learning_rate": 7.912408759124088e-05,
      "loss": 0.3305,
      "step": 1247
    },
    {
      "epoch": 3.026666666666667,
      "grad_norm": 0.19415120780467987,
      "learning_rate": 7.902676399026764e-05,
      "loss": 0.329,
      "step": 1248
    },
    {
      "epoch": 3.0290909090909093,
      "grad_norm": 0.20225338637828827,
      "learning_rate": 7.892944038929441e-05,
      "loss": 0.3557,
      "step": 1249
    },
    {
      "epoch": 3.0315151515151517,
      "grad_norm": 0.20309656858444214,
      "learning_rate": 7.883211678832118e-05,
      "loss": 0.3406,
      "step": 1250
    },
    {
      "epoch": 3.033939393939394,
      "grad_norm": 0.20034508407115936,
      "learning_rate": 7.873479318734794e-05,
      "loss": 0.3249,
      "step": 1251
    },
    {
      "epoch": 3.036363636363636,
      "grad_norm": 0.26177480816841125,
      "learning_rate": 7.863746958637471e-05,
      "loss": 0.3519,
      "step": 1252
    },
    {
      "epoch": 3.0387878787878786,
      "grad_norm": 0.2467910498380661,
      "learning_rate": 7.854014598540146e-05,
      "loss": 0.3446,
      "step": 1253
    },
    {
      "epoch": 3.041212121212121,
      "grad_norm": 0.261962354183197,
      "learning_rate": 7.844282238442822e-05,
      "loss": 0.3385,
      "step": 1254
    },
    {
      "epoch": 3.0436363636363635,
      "grad_norm": 0.27076271176338196,
      "learning_rate": 7.834549878345499e-05,
      "loss": 0.3456,
      "step": 1255
    },
    {
      "epoch": 3.046060606060606,
      "grad_norm": 0.30468061566352844,
      "learning_rate": 7.824817518248175e-05,
      "loss": 0.3362,
      "step": 1256
    },
    {
      "epoch": 3.0484848484848484,
      "grad_norm": 0.29882538318634033,
      "learning_rate": 7.815085158150852e-05,
      "loss": 0.3534,
      "step": 1257
    },
    {
      "epoch": 3.050909090909091,
      "grad_norm": 0.2675188481807709,
      "learning_rate": 7.805352798053527e-05,
      "loss": 0.3489,
      "step": 1258
    },
    {
      "epoch": 3.0533333333333332,
      "grad_norm": 0.23997759819030762,
      "learning_rate": 7.795620437956205e-05,
      "loss": 0.3282,
      "step": 1259
    },
    {
      "epoch": 3.0557575757575757,
      "grad_norm": 0.22771893441677094,
      "learning_rate": 7.785888077858882e-05,
      "loss": 0.3455,
      "step": 1260
    },
    {
      "epoch": 3.058181818181818,
      "grad_norm": 0.22761069238185883,
      "learning_rate": 7.776155717761557e-05,
      "loss": 0.3494,
      "step": 1261
    },
    {
      "epoch": 3.0606060606060606,
      "grad_norm": 0.21867774426937103,
      "learning_rate": 7.766423357664234e-05,
      "loss": 0.3277,
      "step": 1262
    },
    {
      "epoch": 3.063030303030303,
      "grad_norm": 0.21832974255084991,
      "learning_rate": 7.75669099756691e-05,
      "loss": 0.3352,
      "step": 1263
    },
    {
      "epoch": 3.0654545454545454,
      "grad_norm": 0.23491297662258148,
      "learning_rate": 7.746958637469587e-05,
      "loss": 0.3644,
      "step": 1264
    },
    {
      "epoch": 3.067878787878788,
      "grad_norm": 0.2253408581018448,
      "learning_rate": 7.737226277372264e-05,
      "loss": 0.3318,
      "step": 1265
    },
    {
      "epoch": 3.0703030303030303,
      "grad_norm": 0.24414293467998505,
      "learning_rate": 7.72749391727494e-05,
      "loss": 0.3385,
      "step": 1266
    },
    {
      "epoch": 3.0727272727272728,
      "grad_norm": 0.25268054008483887,
      "learning_rate": 7.717761557177617e-05,
      "loss": 0.3446,
      "step": 1267
    },
    {
      "epoch": 3.075151515151515,
      "grad_norm": 0.25268301367759705,
      "learning_rate": 7.708029197080292e-05,
      "loss": 0.3223,
      "step": 1268
    },
    {
      "epoch": 3.0775757575757576,
      "grad_norm": 0.2814798355102539,
      "learning_rate": 7.698296836982969e-05,
      "loss": 0.3457,
      "step": 1269
    },
    {
      "epoch": 3.08,
      "grad_norm": 0.26427793502807617,
      "learning_rate": 7.688564476885645e-05,
      "loss": 0.3505,
      "step": 1270
    },
    {
      "epoch": 3.0824242424242425,
      "grad_norm": 0.2765287458896637,
      "learning_rate": 7.678832116788322e-05,
      "loss": 0.3446,
      "step": 1271
    },
    {
      "epoch": 3.084848484848485,
      "grad_norm": 0.24835379421710968,
      "learning_rate": 7.669099756690999e-05,
      "loss": 0.3596,
      "step": 1272
    },
    {
      "epoch": 3.0872727272727274,
      "grad_norm": 0.23326824605464935,
      "learning_rate": 7.659367396593675e-05,
      "loss": 0.3275,
      "step": 1273
    },
    {
      "epoch": 3.08969696969697,
      "grad_norm": 0.24342262744903564,
      "learning_rate": 7.64963503649635e-05,
      "loss": 0.3559,
      "step": 1274
    },
    {
      "epoch": 3.0921212121212123,
      "grad_norm": 0.22764480113983154,
      "learning_rate": 7.639902676399027e-05,
      "loss": 0.3418,
      "step": 1275
    },
    {
      "epoch": 3.0945454545454547,
      "grad_norm": 0.23003914952278137,
      "learning_rate": 7.630170316301703e-05,
      "loss": 0.3346,
      "step": 1276
    },
    {
      "epoch": 3.096969696969697,
      "grad_norm": 0.24587181210517883,
      "learning_rate": 7.62043795620438e-05,
      "loss": 0.3362,
      "step": 1277
    },
    {
      "epoch": 3.0993939393939396,
      "grad_norm": 0.2370363026857376,
      "learning_rate": 7.610705596107056e-05,
      "loss": 0.3368,
      "step": 1278
    },
    {
      "epoch": 3.101818181818182,
      "grad_norm": 0.234881192445755,
      "learning_rate": 7.600973236009733e-05,
      "loss": 0.3305,
      "step": 1279
    },
    {
      "epoch": 3.1042424242424245,
      "grad_norm": 0.24674008786678314,
      "learning_rate": 7.591240875912408e-05,
      "loss": 0.3363,
      "step": 1280
    },
    {
      "epoch": 3.1066666666666665,
      "grad_norm": 0.250619113445282,
      "learning_rate": 7.581508515815085e-05,
      "loss": 0.3426,
      "step": 1281
    },
    {
      "epoch": 3.109090909090909,
      "grad_norm": 0.24327164888381958,
      "learning_rate": 7.571776155717762e-05,
      "loss": 0.3284,
      "step": 1282
    },
    {
      "epoch": 3.1115151515151513,
      "grad_norm": 0.26408690214157104,
      "learning_rate": 7.562043795620438e-05,
      "loss": 0.3531,
      "step": 1283
    },
    {
      "epoch": 3.113939393939394,
      "grad_norm": 0.2465321272611618,
      "learning_rate": 7.552311435523115e-05,
      "loss": 0.3248,
      "step": 1284
    },
    {
      "epoch": 3.1163636363636362,
      "grad_norm": 0.24922390282154083,
      "learning_rate": 7.542579075425791e-05,
      "loss": 0.3329,
      "step": 1285
    },
    {
      "epoch": 3.1187878787878787,
      "grad_norm": 0.24838267266750336,
      "learning_rate": 7.532846715328468e-05,
      "loss": 0.3577,
      "step": 1286
    },
    {
      "epoch": 3.121212121212121,
      "grad_norm": 0.23608709871768951,
      "learning_rate": 7.523114355231143e-05,
      "loss": 0.3481,
      "step": 1287
    },
    {
      "epoch": 3.1236363636363635,
      "grad_norm": 0.2345752865076065,
      "learning_rate": 7.51338199513382e-05,
      "loss": 0.3383,
      "step": 1288
    },
    {
      "epoch": 3.126060606060606,
      "grad_norm": 0.2371385097503662,
      "learning_rate": 7.503649635036497e-05,
      "loss": 0.3427,
      "step": 1289
    },
    {
      "epoch": 3.1284848484848484,
      "grad_norm": 0.24000217020511627,
      "learning_rate": 7.493917274939173e-05,
      "loss": 0.3426,
      "step": 1290
    },
    {
      "epoch": 3.130909090909091,
      "grad_norm": 0.23996226489543915,
      "learning_rate": 7.48418491484185e-05,
      "loss": 0.3482,
      "step": 1291
    },
    {
      "epoch": 3.1333333333333333,
      "grad_norm": 0.2497062385082245,
      "learning_rate": 7.474452554744526e-05,
      "loss": 0.3456,
      "step": 1292
    },
    {
      "epoch": 3.1357575757575757,
      "grad_norm": 0.26309168338775635,
      "learning_rate": 7.464720194647203e-05,
      "loss": 0.3507,
      "step": 1293
    },
    {
      "epoch": 3.138181818181818,
      "grad_norm": 0.250863254070282,
      "learning_rate": 7.454987834549879e-05,
      "loss": 0.3436,
      "step": 1294
    },
    {
      "epoch": 3.1406060606060606,
      "grad_norm": 0.27917566895484924,
      "learning_rate": 7.445255474452556e-05,
      "loss": 0.3354,
      "step": 1295
    },
    {
      "epoch": 3.143030303030303,
      "grad_norm": 0.2702292501926422,
      "learning_rate": 7.435523114355231e-05,
      "loss": 0.3737,
      "step": 1296
    },
    {
      "epoch": 3.1454545454545455,
      "grad_norm": 0.25198206305503845,
      "learning_rate": 7.425790754257907e-05,
      "loss": 0.3542,
      "step": 1297
    },
    {
      "epoch": 3.147878787878788,
      "grad_norm": 0.24700187146663666,
      "learning_rate": 7.416058394160584e-05,
      "loss": 0.3473,
      "step": 1298
    },
    {
      "epoch": 3.1503030303030304,
      "grad_norm": 0.22809982299804688,
      "learning_rate": 7.406326034063261e-05,
      "loss": 0.3341,
      "step": 1299
    },
    {
      "epoch": 3.152727272727273,
      "grad_norm": 0.23588506877422333,
      "learning_rate": 7.396593673965937e-05,
      "loss": 0.3278,
      "step": 1300
    },
    {
      "epoch": 3.1551515151515153,
      "grad_norm": 0.23556450009346008,
      "learning_rate": 7.386861313868614e-05,
      "loss": 0.3431,
      "step": 1301
    },
    {
      "epoch": 3.1575757575757577,
      "grad_norm": 0.23438061773777008,
      "learning_rate": 7.377128953771289e-05,
      "loss": 0.3458,
      "step": 1302
    },
    {
      "epoch": 3.16,
      "grad_norm": 0.23322877287864685,
      "learning_rate": 7.367396593673966e-05,
      "loss": 0.3578,
      "step": 1303
    },
    {
      "epoch": 3.1624242424242426,
      "grad_norm": 0.25878530740737915,
      "learning_rate": 7.357664233576642e-05,
      "loss": 0.3422,
      "step": 1304
    },
    {
      "epoch": 3.164848484848485,
      "grad_norm": 0.24078910052776337,
      "learning_rate": 7.347931873479319e-05,
      "loss": 0.3381,
      "step": 1305
    },
    {
      "epoch": 3.1672727272727275,
      "grad_norm": 0.23279693722724915,
      "learning_rate": 7.338199513381996e-05,
      "loss": 0.3283,
      "step": 1306
    },
    {
      "epoch": 3.16969696969697,
      "grad_norm": 0.25831571221351624,
      "learning_rate": 7.328467153284672e-05,
      "loss": 0.34,
      "step": 1307
    },
    {
      "epoch": 3.172121212121212,
      "grad_norm": 0.26779279112815857,
      "learning_rate": 7.318734793187349e-05,
      "loss": 0.3433,
      "step": 1308
    },
    {
      "epoch": 3.174545454545455,
      "grad_norm": 0.272426962852478,
      "learning_rate": 7.309002433090024e-05,
      "loss": 0.3559,
      "step": 1309
    },
    {
      "epoch": 3.1769696969696968,
      "grad_norm": 0.271476149559021,
      "learning_rate": 7.299270072992701e-05,
      "loss": 0.3419,
      "step": 1310
    },
    {
      "epoch": 3.179393939393939,
      "grad_norm": 0.28191259503364563,
      "learning_rate": 7.289537712895378e-05,
      "loss": 0.3569,
      "step": 1311
    },
    {
      "epoch": 3.1818181818181817,
      "grad_norm": 0.24737802147865295,
      "learning_rate": 7.279805352798054e-05,
      "loss": 0.3407,
      "step": 1312
    },
    {
      "epoch": 3.184242424242424,
      "grad_norm": 0.23878653347492218,
      "learning_rate": 7.270072992700731e-05,
      "loss": 0.3295,
      "step": 1313
    },
    {
      "epoch": 3.1866666666666665,
      "grad_norm": 0.23207639157772064,
      "learning_rate": 7.260340632603407e-05,
      "loss": 0.3267,
      "step": 1314
    },
    {
      "epoch": 3.189090909090909,
      "grad_norm": 0.2412373274564743,
      "learning_rate": 7.250608272506084e-05,
      "loss": 0.339,
      "step": 1315
    },
    {
      "epoch": 3.1915151515151514,
      "grad_norm": 0.24443306028842926,
      "learning_rate": 7.24087591240876e-05,
      "loss": 0.3516,
      "step": 1316
    },
    {
      "epoch": 3.193939393939394,
      "grad_norm": 0.23631471395492554,
      "learning_rate": 7.231143552311435e-05,
      "loss": 0.3299,
      "step": 1317
    },
    {
      "epoch": 3.1963636363636363,
      "grad_norm": 0.2530081570148468,
      "learning_rate": 7.221411192214112e-05,
      "loss": 0.3576,
      "step": 1318
    },
    {
      "epoch": 3.1987878787878787,
      "grad_norm": 0.24023771286010742,
      "learning_rate": 7.211678832116788e-05,
      "loss": 0.3666,
      "step": 1319
    },
    {
      "epoch": 3.201212121212121,
      "grad_norm": 0.2427687793970108,
      "learning_rate": 7.201946472019465e-05,
      "loss": 0.3502,
      "step": 1320
    },
    {
      "epoch": 3.2036363636363636,
      "grad_norm": 0.24361278116703033,
      "learning_rate": 7.192214111922142e-05,
      "loss": 0.3404,
      "step": 1321
    },
    {
      "epoch": 3.206060606060606,
      "grad_norm": 0.2522955536842346,
      "learning_rate": 7.182481751824817e-05,
      "loss": 0.3222,
      "step": 1322
    },
    {
      "epoch": 3.2084848484848485,
      "grad_norm": 0.25558778643608093,
      "learning_rate": 7.172749391727494e-05,
      "loss": 0.3467,
      "step": 1323
    },
    {
      "epoch": 3.210909090909091,
      "grad_norm": 0.23466543853282928,
      "learning_rate": 7.16301703163017e-05,
      "loss": 0.3191,
      "step": 1324
    },
    {
      "epoch": 3.2133333333333334,
      "grad_norm": 0.24857905507087708,
      "learning_rate": 7.153284671532847e-05,
      "loss": 0.3456,
      "step": 1325
    },
    {
      "epoch": 3.215757575757576,
      "grad_norm": 0.25163623690605164,
      "learning_rate": 7.143552311435523e-05,
      "loss": 0.3606,
      "step": 1326
    },
    {
      "epoch": 3.2181818181818183,
      "grad_norm": 0.25483477115631104,
      "learning_rate": 7.1338199513382e-05,
      "loss": 0.3711,
      "step": 1327
    },
    {
      "epoch": 3.2206060606060607,
      "grad_norm": 0.24369637668132782,
      "learning_rate": 7.124087591240877e-05,
      "loss": 0.3383,
      "step": 1328
    },
    {
      "epoch": 3.223030303030303,
      "grad_norm": 0.2425348460674286,
      "learning_rate": 7.114355231143553e-05,
      "loss": 0.3561,
      "step": 1329
    },
    {
      "epoch": 3.2254545454545456,
      "grad_norm": 0.25509050488471985,
      "learning_rate": 7.10462287104623e-05,
      "loss": 0.3524,
      "step": 1330
    },
    {
      "epoch": 3.227878787878788,
      "grad_norm": 0.22463764250278473,
      "learning_rate": 7.094890510948905e-05,
      "loss": 0.3391,
      "step": 1331
    },
    {
      "epoch": 3.2303030303030305,
      "grad_norm": 0.24649523198604584,
      "learning_rate": 7.085158150851582e-05,
      "loss": 0.3555,
      "step": 1332
    },
    {
      "epoch": 3.232727272727273,
      "grad_norm": 0.23605135083198547,
      "learning_rate": 7.075425790754259e-05,
      "loss": 0.3434,
      "step": 1333
    },
    {
      "epoch": 3.2351515151515153,
      "grad_norm": 0.24161779880523682,
      "learning_rate": 7.065693430656935e-05,
      "loss": 0.3458,
      "step": 1334
    },
    {
      "epoch": 3.2375757575757578,
      "grad_norm": 0.23707473278045654,
      "learning_rate": 7.055961070559612e-05,
      "loss": 0.3285,
      "step": 1335
    },
    {
      "epoch": 3.24,
      "grad_norm": 0.22737528383731842,
      "learning_rate": 7.046228710462288e-05,
      "loss": 0.3249,
      "step": 1336
    },
    {
      "epoch": 3.242424242424242,
      "grad_norm": 0.22886578738689423,
      "learning_rate": 7.036496350364963e-05,
      "loss": 0.3372,
      "step": 1337
    },
    {
      "epoch": 3.2448484848484846,
      "grad_norm": 0.2604653835296631,
      "learning_rate": 7.02676399026764e-05,
      "loss": 0.3431,
      "step": 1338
    },
    {
      "epoch": 3.247272727272727,
      "grad_norm": 0.25369566679000854,
      "learning_rate": 7.017031630170316e-05,
      "loss": 0.345,
      "step": 1339
    },
    {
      "epoch": 3.2496969696969695,
      "grad_norm": 0.2555517852306366,
      "learning_rate": 7.007299270072993e-05,
      "loss": 0.348,
      "step": 1340
    },
    {
      "epoch": 3.252121212121212,
      "grad_norm": 0.2473197877407074,
      "learning_rate": 6.997566909975669e-05,
      "loss": 0.3482,
      "step": 1341
    },
    {
      "epoch": 3.2545454545454544,
      "grad_norm": 0.25248342752456665,
      "learning_rate": 6.987834549878346e-05,
      "loss": 0.3459,
      "step": 1342
    },
    {
      "epoch": 3.256969696969697,
      "grad_norm": 0.2418750673532486,
      "learning_rate": 6.978102189781021e-05,
      "loss": 0.3426,
      "step": 1343
    },
    {
      "epoch": 3.2593939393939393,
      "grad_norm": 0.24582740664482117,
      "learning_rate": 6.968369829683698e-05,
      "loss": 0.3545,
      "step": 1344
    },
    {
      "epoch": 3.2618181818181817,
      "grad_norm": 0.23256193101406097,
      "learning_rate": 6.958637469586375e-05,
      "loss": 0.3311,
      "step": 1345
    },
    {
      "epoch": 3.264242424242424,
      "grad_norm": 0.2395593374967575,
      "learning_rate": 6.948905109489051e-05,
      "loss": 0.3332,
      "step": 1346
    },
    {
      "epoch": 3.2666666666666666,
      "grad_norm": 0.24272769689559937,
      "learning_rate": 6.939172749391728e-05,
      "loss": 0.345,
      "step": 1347
    },
    {
      "epoch": 3.269090909090909,
      "grad_norm": 0.24460440874099731,
      "learning_rate": 6.929440389294404e-05,
      "loss": 0.3367,
      "step": 1348
    },
    {
      "epoch": 3.2715151515151515,
      "grad_norm": 0.2691957354545593,
      "learning_rate": 6.919708029197081e-05,
      "loss": 0.3526,
      "step": 1349
    },
    {
      "epoch": 3.273939393939394,
      "grad_norm": 0.25839459896087646,
      "learning_rate": 6.909975669099758e-05,
      "loss": 0.3609,
      "step": 1350
    },
    {
      "epoch": 3.2763636363636364,
      "grad_norm": 0.25760430097579956,
      "learning_rate": 6.900243309002433e-05,
      "loss": 0.3466,
      "step": 1351
    },
    {
      "epoch": 3.278787878787879,
      "grad_norm": 0.24365445971488953,
      "learning_rate": 6.89051094890511e-05,
      "loss": 0.3504,
      "step": 1352
    },
    {
      "epoch": 3.2812121212121212,
      "grad_norm": 0.24353216588497162,
      "learning_rate": 6.880778588807786e-05,
      "loss": 0.3489,
      "step": 1353
    },
    {
      "epoch": 3.2836363636363637,
      "grad_norm": 0.5757017135620117,
      "learning_rate": 6.871046228710463e-05,
      "loss": 0.3557,
      "step": 1354
    },
    {
      "epoch": 3.286060606060606,
      "grad_norm": 0.22905206680297852,
      "learning_rate": 6.86131386861314e-05,
      "loss": 0.3361,
      "step": 1355
    },
    {
      "epoch": 3.2884848484848486,
      "grad_norm": 0.24213021993637085,
      "learning_rate": 6.851581508515816e-05,
      "loss": 0.3319,
      "step": 1356
    },
    {
      "epoch": 3.290909090909091,
      "grad_norm": 0.2529546320438385,
      "learning_rate": 6.841849148418491e-05,
      "loss": 0.3452,
      "step": 1357
    },
    {
      "epoch": 3.2933333333333334,
      "grad_norm": 0.2521001696586609,
      "learning_rate": 6.832116788321168e-05,
      "loss": 0.3421,
      "step": 1358
    },
    {
      "epoch": 3.295757575757576,
      "grad_norm": 0.23100505769252777,
      "learning_rate": 6.822384428223844e-05,
      "loss": 0.3208,
      "step": 1359
    },
    {
      "epoch": 3.2981818181818183,
      "grad_norm": 0.24679666757583618,
      "learning_rate": 6.81265206812652e-05,
      "loss": 0.3594,
      "step": 1360
    },
    {
      "epoch": 3.3006060606060608,
      "grad_norm": 0.2552964687347412,
      "learning_rate": 6.802919708029197e-05,
      "loss": 0.3589,
      "step": 1361
    },
    {
      "epoch": 3.303030303030303,
      "grad_norm": 0.2537272572517395,
      "learning_rate": 6.793187347931874e-05,
      "loss": 0.3376,
      "step": 1362
    },
    {
      "epoch": 3.3054545454545456,
      "grad_norm": 0.2618548274040222,
      "learning_rate": 6.78345498783455e-05,
      "loss": 0.3447,
      "step": 1363
    },
    {
      "epoch": 3.3078787878787876,
      "grad_norm": 0.2519689202308655,
      "learning_rate": 6.773722627737227e-05,
      "loss": 0.3409,
      "step": 1364
    },
    {
      "epoch": 3.3103030303030305,
      "grad_norm": 0.4273337125778198,
      "learning_rate": 6.763990267639902e-05,
      "loss": 0.3396,
      "step": 1365
    },
    {
      "epoch": 3.3127272727272725,
      "grad_norm": 0.2569044232368469,
      "learning_rate": 6.754257907542579e-05,
      "loss": 0.3511,
      "step": 1366
    },
    {
      "epoch": 3.315151515151515,
      "grad_norm": 0.24175718426704407,
      "learning_rate": 6.744525547445256e-05,
      "loss": 0.3223,
      "step": 1367
    },
    {
      "epoch": 3.3175757575757574,
      "grad_norm": 0.2560249865055084,
      "learning_rate": 6.734793187347932e-05,
      "loss": 0.3664,
      "step": 1368
    },
    {
      "epoch": 3.32,
      "grad_norm": 0.2339029610157013,
      "learning_rate": 6.725060827250609e-05,
      "loss": 0.3324,
      "step": 1369
    },
    {
      "epoch": 3.3224242424242423,
      "grad_norm": 0.2634497284889221,
      "learning_rate": 6.715328467153285e-05,
      "loss": 0.3617,
      "step": 1370
    },
    {
      "epoch": 3.3248484848484847,
      "grad_norm": 0.24913105368614197,
      "learning_rate": 6.705596107055962e-05,
      "loss": 0.3596,
      "step": 1371
    },
    {
      "epoch": 3.327272727272727,
      "grad_norm": 0.24121133983135223,
      "learning_rate": 6.695863746958639e-05,
      "loss": 0.3501,
      "step": 1372
    },
    {
      "epoch": 3.3296969696969696,
      "grad_norm": 0.21949036419391632,
      "learning_rate": 6.686131386861314e-05,
      "loss": 0.3387,
      "step": 1373
    },
    {
      "epoch": 3.332121212121212,
      "grad_norm": 0.24682512879371643,
      "learning_rate": 6.676399026763991e-05,
      "loss": 0.3622,
      "step": 1374
    },
    {
      "epoch": 3.3345454545454545,
      "grad_norm": 0.259108304977417,
      "learning_rate": 6.666666666666667e-05,
      "loss": 0.3581,
      "step": 1375
    },
    {
      "epoch": 3.336969696969697,
      "grad_norm": 0.23647883534431458,
      "learning_rate": 6.656934306569344e-05,
      "loss": 0.3448,
      "step": 1376
    },
    {
      "epoch": 3.3393939393939394,
      "grad_norm": 0.2464858889579773,
      "learning_rate": 6.64720194647202e-05,
      "loss": 0.3658,
      "step": 1377
    },
    {
      "epoch": 3.341818181818182,
      "grad_norm": 0.2407102882862091,
      "learning_rate": 6.637469586374697e-05,
      "loss": 0.3383,
      "step": 1378
    },
    {
      "epoch": 3.3442424242424242,
      "grad_norm": 0.2421446293592453,
      "learning_rate": 6.627737226277372e-05,
      "loss": 0.3304,
      "step": 1379
    },
    {
      "epoch": 3.3466666666666667,
      "grad_norm": 0.33485469222068787,
      "learning_rate": 6.618004866180048e-05,
      "loss": 0.3397,
      "step": 1380
    },
    {
      "epoch": 3.349090909090909,
      "grad_norm": 0.25261804461479187,
      "learning_rate": 6.608272506082725e-05,
      "loss": 0.3325,
      "step": 1381
    },
    {
      "epoch": 3.3515151515151516,
      "grad_norm": 0.2482929229736328,
      "learning_rate": 6.598540145985401e-05,
      "loss": 0.353,
      "step": 1382
    },
    {
      "epoch": 3.353939393939394,
      "grad_norm": 0.28278160095214844,
      "learning_rate": 6.588807785888078e-05,
      "loss": 0.3518,
      "step": 1383
    },
    {
      "epoch": 3.3563636363636364,
      "grad_norm": 0.23684793710708618,
      "learning_rate": 6.579075425790755e-05,
      "loss": 0.3305,
      "step": 1384
    },
    {
      "epoch": 3.358787878787879,
      "grad_norm": 0.23816519975662231,
      "learning_rate": 6.56934306569343e-05,
      "loss": 0.3403,
      "step": 1385
    },
    {
      "epoch": 3.3612121212121213,
      "grad_norm": 0.2542620897293091,
      "learning_rate": 6.559610705596107e-05,
      "loss": 0.351,
      "step": 1386
    },
    {
      "epoch": 3.3636363636363638,
      "grad_norm": 0.2468714565038681,
      "learning_rate": 6.549878345498783e-05,
      "loss": 0.3405,
      "step": 1387
    },
    {
      "epoch": 3.366060606060606,
      "grad_norm": 0.2900804281234741,
      "learning_rate": 6.54014598540146e-05,
      "loss": 0.3461,
      "step": 1388
    },
    {
      "epoch": 3.3684848484848486,
      "grad_norm": 0.24841201305389404,
      "learning_rate": 6.530413625304137e-05,
      "loss": 0.3533,
      "step": 1389
    },
    {
      "epoch": 3.370909090909091,
      "grad_norm": 0.24060815572738647,
      "learning_rate": 6.520681265206813e-05,
      "loss": 0.3389,
      "step": 1390
    },
    {
      "epoch": 3.3733333333333335,
      "grad_norm": 0.23293520510196686,
      "learning_rate": 6.51094890510949e-05,
      "loss": 0.3228,
      "step": 1391
    },
    {
      "epoch": 3.375757575757576,
      "grad_norm": 0.31137949228286743,
      "learning_rate": 6.501216545012165e-05,
      "loss": 0.3468,
      "step": 1392
    },
    {
      "epoch": 3.378181818181818,
      "grad_norm": 0.23585145175457,
      "learning_rate": 6.491484184914843e-05,
      "loss": 0.3488,
      "step": 1393
    },
    {
      "epoch": 3.380606060606061,
      "grad_norm": 0.24276411533355713,
      "learning_rate": 6.48175182481752e-05,
      "loss": 0.3304,
      "step": 1394
    },
    {
      "epoch": 3.383030303030303,
      "grad_norm": 0.30272138118743896,
      "learning_rate": 6.472019464720195e-05,
      "loss": 0.3646,
      "step": 1395
    },
    {
      "epoch": 3.3854545454545453,
      "grad_norm": 0.24582447111606598,
      "learning_rate": 6.462287104622872e-05,
      "loss": 0.347,
      "step": 1396
    },
    {
      "epoch": 3.3878787878787877,
      "grad_norm": 0.2537463903427124,
      "learning_rate": 6.452554744525548e-05,
      "loss": 0.3463,
      "step": 1397
    },
    {
      "epoch": 3.39030303030303,
      "grad_norm": 0.2434852421283722,
      "learning_rate": 6.442822384428225e-05,
      "loss": 0.3505,
      "step": 1398
    },
    {
      "epoch": 3.3927272727272726,
      "grad_norm": 0.2614525556564331,
      "learning_rate": 6.4330900243309e-05,
      "loss": 0.3639,
      "step": 1399
    },
    {
      "epoch": 3.395151515151515,
      "grad_norm": 0.24416708946228027,
      "learning_rate": 6.423357664233576e-05,
      "loss": 0.3358,
      "step": 1400
    },
    {
      "epoch": 3.3975757575757575,
      "grad_norm": 0.24926069378852844,
      "learning_rate": 6.413625304136253e-05,
      "loss": 0.349,
      "step": 1401
    },
    {
      "epoch": 3.4,
      "grad_norm": 0.2625396251678467,
      "learning_rate": 6.403892944038929e-05,
      "loss": 0.3636,
      "step": 1402
    },
    {
      "epoch": 3.4024242424242424,
      "grad_norm": 0.2577027678489685,
      "learning_rate": 6.394160583941606e-05,
      "loss": 0.3381,
      "step": 1403
    },
    {
      "epoch": 3.404848484848485,
      "grad_norm": 0.25167596340179443,
      "learning_rate": 6.384428223844282e-05,
      "loss": 0.3546,
      "step": 1404
    },
    {
      "epoch": 3.4072727272727272,
      "grad_norm": 0.2653845250606537,
      "learning_rate": 6.374695863746959e-05,
      "loss": 0.3575,
      "step": 1405
    },
    {
      "epoch": 3.4096969696969697,
      "grad_norm": 0.25445544719696045,
      "learning_rate": 6.364963503649636e-05,
      "loss": 0.3472,
      "step": 1406
    },
    {
      "epoch": 3.412121212121212,
      "grad_norm": 0.2381397932767868,
      "learning_rate": 6.355231143552311e-05,
      "loss": 0.3331,
      "step": 1407
    },
    {
      "epoch": 3.4145454545454546,
      "grad_norm": 0.23393183946609497,
      "learning_rate": 6.345498783454988e-05,
      "loss": 0.3377,
      "step": 1408
    },
    {
      "epoch": 3.416969696969697,
      "grad_norm": 0.23281355202198029,
      "learning_rate": 6.335766423357664e-05,
      "loss": 0.3418,
      "step": 1409
    },
    {
      "epoch": 3.4193939393939394,
      "grad_norm": 0.23753127455711365,
      "learning_rate": 6.326034063260341e-05,
      "loss": 0.3443,
      "step": 1410
    },
    {
      "epoch": 3.421818181818182,
      "grad_norm": 0.22591717541217804,
      "learning_rate": 6.316301703163018e-05,
      "loss": 0.3235,
      "step": 1411
    },
    {
      "epoch": 3.4242424242424243,
      "grad_norm": 0.23874294757843018,
      "learning_rate": 6.306569343065694e-05,
      "loss": 0.3517,
      "step": 1412
    },
    {
      "epoch": 3.4266666666666667,
      "grad_norm": 0.31138548254966736,
      "learning_rate": 6.296836982968371e-05,
      "loss": 0.3539,
      "step": 1413
    },
    {
      "epoch": 3.429090909090909,
      "grad_norm": 0.24329309165477753,
      "learning_rate": 6.287104622871046e-05,
      "loss": 0.3495,
      "step": 1414
    },
    {
      "epoch": 3.4315151515151516,
      "grad_norm": 0.25434768199920654,
      "learning_rate": 6.277372262773723e-05,
      "loss": 0.3698,
      "step": 1415
    },
    {
      "epoch": 3.433939393939394,
      "grad_norm": 0.25118815898895264,
      "learning_rate": 6.267639902676399e-05,
      "loss": 0.3543,
      "step": 1416
    },
    {
      "epoch": 3.4363636363636365,
      "grad_norm": 0.2330043911933899,
      "learning_rate": 6.257907542579076e-05,
      "loss": 0.332,
      "step": 1417
    },
    {
      "epoch": 3.438787878787879,
      "grad_norm": 0.23667402565479279,
      "learning_rate": 6.248175182481753e-05,
      "loss": 0.3384,
      "step": 1418
    },
    {
      "epoch": 3.4412121212121214,
      "grad_norm": 0.24790428578853607,
      "learning_rate": 6.238442822384429e-05,
      "loss": 0.3541,
      "step": 1419
    },
    {
      "epoch": 3.443636363636364,
      "grad_norm": 0.2627272605895996,
      "learning_rate": 6.228710462287104e-05,
      "loss": 0.3754,
      "step": 1420
    },
    {
      "epoch": 3.4460606060606063,
      "grad_norm": 0.2604016363620758,
      "learning_rate": 6.218978102189781e-05,
      "loss": 0.3618,
      "step": 1421
    },
    {
      "epoch": 3.4484848484848483,
      "grad_norm": 0.2568618357181549,
      "learning_rate": 6.209245742092457e-05,
      "loss": 0.3402,
      "step": 1422
    },
    {
      "epoch": 3.450909090909091,
      "grad_norm": 0.29759350419044495,
      "learning_rate": 6.199513381995134e-05,
      "loss": 0.3684,
      "step": 1423
    },
    {
      "epoch": 3.453333333333333,
      "grad_norm": 0.2692122459411621,
      "learning_rate": 6.18978102189781e-05,
      "loss": 0.3637,
      "step": 1424
    },
    {
      "epoch": 3.4557575757575756,
      "grad_norm": 0.23859082162380219,
      "learning_rate": 6.180048661800487e-05,
      "loss": 0.3444,
      "step": 1425
    },
    {
      "epoch": 3.458181818181818,
      "grad_norm": 0.24776384234428406,
      "learning_rate": 6.170316301703162e-05,
      "loss": 0.3497,
      "step": 1426
    },
    {
      "epoch": 3.4606060606060605,
      "grad_norm": 0.24561594426631927,
      "learning_rate": 6.16058394160584e-05,
      "loss": 0.3463,
      "step": 1427
    },
    {
      "epoch": 3.463030303030303,
      "grad_norm": 0.244963139295578,
      "learning_rate": 6.150851581508517e-05,
      "loss": 0.3458,
      "step": 1428
    },
    {
      "epoch": 3.4654545454545453,
      "grad_norm": 0.23784932494163513,
      "learning_rate": 6.141119221411192e-05,
      "loss": 0.3301,
      "step": 1429
    },
    {
      "epoch": 3.467878787878788,
      "grad_norm": 0.26570093631744385,
      "learning_rate": 6.131386861313869e-05,
      "loss": 0.3592,
      "step": 1430
    },
    {
      "epoch": 3.4703030303030302,
      "grad_norm": 0.2470712959766388,
      "learning_rate": 6.121654501216545e-05,
      "loss": 0.3371,
      "step": 1431
    },
    {
      "epoch": 3.4727272727272727,
      "grad_norm": 0.2576739490032196,
      "learning_rate": 6.111922141119222e-05,
      "loss": 0.3507,
      "step": 1432
    },
    {
      "epoch": 3.475151515151515,
      "grad_norm": 0.24634967744350433,
      "learning_rate": 6.102189781021899e-05,
      "loss": 0.3432,
      "step": 1433
    },
    {
      "epoch": 3.4775757575757575,
      "grad_norm": 0.23249222338199615,
      "learning_rate": 6.0924574209245746e-05,
      "loss": 0.3326,
      "step": 1434
    },
    {
      "epoch": 3.48,
      "grad_norm": 0.26086851954460144,
      "learning_rate": 6.082725060827251e-05,
      "loss": 0.3585,
      "step": 1435
    },
    {
      "epoch": 3.4824242424242424,
      "grad_norm": 0.2422354817390442,
      "learning_rate": 6.072992700729927e-05,
      "loss": 0.3357,
      "step": 1436
    },
    {
      "epoch": 3.484848484848485,
      "grad_norm": 0.3057824969291687,
      "learning_rate": 6.0632603406326036e-05,
      "loss": 0.3527,
      "step": 1437
    },
    {
      "epoch": 3.4872727272727273,
      "grad_norm": 0.2498726099729538,
      "learning_rate": 6.053527980535279e-05,
      "loss": 0.3342,
      "step": 1438
    },
    {
      "epoch": 3.4896969696969697,
      "grad_norm": 0.2516727149486542,
      "learning_rate": 6.043795620437956e-05,
      "loss": 0.3417,
      "step": 1439
    },
    {
      "epoch": 3.492121212121212,
      "grad_norm": 0.2587926685810089,
      "learning_rate": 6.034063260340633e-05,
      "loss": 0.3353,
      "step": 1440
    },
    {
      "epoch": 3.4945454545454546,
      "grad_norm": 0.24842970073223114,
      "learning_rate": 6.024330900243309e-05,
      "loss": 0.3332,
      "step": 1441
    },
    {
      "epoch": 3.496969696969697,
      "grad_norm": 0.26456910371780396,
      "learning_rate": 6.014598540145986e-05,
      "loss": 0.3505,
      "step": 1442
    },
    {
      "epoch": 3.4993939393939395,
      "grad_norm": 0.2516278922557831,
      "learning_rate": 6.0048661800486616e-05,
      "loss": 0.3408,
      "step": 1443
    },
    {
      "epoch": 3.501818181818182,
      "grad_norm": 0.23062697052955627,
      "learning_rate": 5.995133819951339e-05,
      "loss": 0.3237,
      "step": 1444
    },
    {
      "epoch": 3.5042424242424244,
      "grad_norm": 0.22631797194480896,
      "learning_rate": 5.985401459854016e-05,
      "loss": 0.3165,
      "step": 1445
    },
    {
      "epoch": 3.506666666666667,
      "grad_norm": 0.27206864953041077,
      "learning_rate": 5.9756690997566913e-05,
      "loss": 0.3638,
      "step": 1446
    },
    {
      "epoch": 3.509090909090909,
      "grad_norm": 0.24331706762313843,
      "learning_rate": 5.965936739659368e-05,
      "loss": 0.3442,
      "step": 1447
    },
    {
      "epoch": 3.5115151515151517,
      "grad_norm": 0.25501856207847595,
      "learning_rate": 5.9562043795620434e-05,
      "loss": 0.3593,
      "step": 1448
    },
    {
      "epoch": 3.5139393939393937,
      "grad_norm": 0.2407158613204956,
      "learning_rate": 5.9464720194647204e-05,
      "loss": 0.3285,
      "step": 1449
    },
    {
      "epoch": 3.5163636363636366,
      "grad_norm": 0.26517653465270996,
      "learning_rate": 5.9367396593673974e-05,
      "loss": 0.3393,
      "step": 1450
    },
    {
      "epoch": 3.5187878787878786,
      "grad_norm": 0.2483583390712738,
      "learning_rate": 5.927007299270073e-05,
      "loss": 0.3408,
      "step": 1451
    },
    {
      "epoch": 3.5212121212121215,
      "grad_norm": 0.2703670561313629,
      "learning_rate": 5.91727493917275e-05,
      "loss": 0.3497,
      "step": 1452
    },
    {
      "epoch": 3.5236363636363635,
      "grad_norm": 0.26931992173194885,
      "learning_rate": 5.907542579075426e-05,
      "loss": 0.3537,
      "step": 1453
    },
    {
      "epoch": 3.526060606060606,
      "grad_norm": 0.2592732310295105,
      "learning_rate": 5.897810218978103e-05,
      "loss": 0.352,
      "step": 1454
    },
    {
      "epoch": 3.5284848484848483,
      "grad_norm": 0.24940568208694458,
      "learning_rate": 5.8880778588807784e-05,
      "loss": 0.3538,
      "step": 1455
    },
    {
      "epoch": 3.5309090909090908,
      "grad_norm": 0.2441382110118866,
      "learning_rate": 5.8783454987834554e-05,
      "loss": 0.3466,
      "step": 1456
    },
    {
      "epoch": 3.533333333333333,
      "grad_norm": 0.23235933482646942,
      "learning_rate": 5.868613138686132e-05,
      "loss": 0.3423,
      "step": 1457
    },
    {
      "epoch": 3.5357575757575757,
      "grad_norm": 0.24240760505199432,
      "learning_rate": 5.858880778588808e-05,
      "loss": 0.3465,
      "step": 1458
    },
    {
      "epoch": 3.538181818181818,
      "grad_norm": 0.24112941324710846,
      "learning_rate": 5.8491484184914845e-05,
      "loss": 0.3432,
      "step": 1459
    },
    {
      "epoch": 3.5406060606060605,
      "grad_norm": 0.24603120982646942,
      "learning_rate": 5.83941605839416e-05,
      "loss": 0.3378,
      "step": 1460
    },
    {
      "epoch": 3.543030303030303,
      "grad_norm": 0.24990525841712952,
      "learning_rate": 5.829683698296837e-05,
      "loss": 0.3538,
      "step": 1461
    },
    {
      "epoch": 3.5454545454545454,
      "grad_norm": 0.24304012954235077,
      "learning_rate": 5.819951338199514e-05,
      "loss": 0.3302,
      "step": 1462
    },
    {
      "epoch": 3.547878787878788,
      "grad_norm": 0.24985484778881073,
      "learning_rate": 5.81021897810219e-05,
      "loss": 0.3398,
      "step": 1463
    },
    {
      "epoch": 3.5503030303030303,
      "grad_norm": 0.25689607858657837,
      "learning_rate": 5.800486618004867e-05,
      "loss": 0.3368,
      "step": 1464
    },
    {
      "epoch": 3.5527272727272727,
      "grad_norm": 0.26213836669921875,
      "learning_rate": 5.7907542579075425e-05,
      "loss": 0.3471,
      "step": 1465
    },
    {
      "epoch": 3.555151515151515,
      "grad_norm": 0.2655291259288788,
      "learning_rate": 5.7810218978102195e-05,
      "loss": 0.3702,
      "step": 1466
    },
    {
      "epoch": 3.5575757575757576,
      "grad_norm": 0.2569165825843811,
      "learning_rate": 5.771289537712896e-05,
      "loss": 0.3571,
      "step": 1467
    },
    {
      "epoch": 3.56,
      "grad_norm": 0.25780487060546875,
      "learning_rate": 5.761557177615572e-05,
      "loss": 0.358,
      "step": 1468
    },
    {
      "epoch": 3.5624242424242425,
      "grad_norm": 0.26622122526168823,
      "learning_rate": 5.7518248175182486e-05,
      "loss": 0.3421,
      "step": 1469
    },
    {
      "epoch": 3.564848484848485,
      "grad_norm": 0.25681716203689575,
      "learning_rate": 5.742092457420924e-05,
      "loss": 0.3602,
      "step": 1470
    },
    {
      "epoch": 3.5672727272727274,
      "grad_norm": 0.25022268295288086,
      "learning_rate": 5.732360097323601e-05,
      "loss": 0.3447,
      "step": 1471
    },
    {
      "epoch": 3.56969696969697,
      "grad_norm": 0.24262358248233795,
      "learning_rate": 5.722627737226277e-05,
      "loss": 0.3705,
      "step": 1472
    },
    {
      "epoch": 3.5721212121212123,
      "grad_norm": 0.23382312059402466,
      "learning_rate": 5.712895377128954e-05,
      "loss": 0.3402,
      "step": 1473
    },
    {
      "epoch": 3.5745454545454547,
      "grad_norm": 0.24009956419467926,
      "learning_rate": 5.703163017031631e-05,
      "loss": 0.3568,
      "step": 1474
    },
    {
      "epoch": 3.576969696969697,
      "grad_norm": 0.25817346572875977,
      "learning_rate": 5.6934306569343066e-05,
      "loss": 0.363,
      "step": 1475
    },
    {
      "epoch": 3.579393939393939,
      "grad_norm": 0.4240845739841461,
      "learning_rate": 5.6836982968369836e-05,
      "loss": 0.3374,
      "step": 1476
    },
    {
      "epoch": 3.581818181818182,
      "grad_norm": 0.2556062936782837,
      "learning_rate": 5.673965936739659e-05,
      "loss": 0.37,
      "step": 1477
    },
    {
      "epoch": 3.584242424242424,
      "grad_norm": 0.24141578376293182,
      "learning_rate": 5.664233576642336e-05,
      "loss": 0.3268,
      "step": 1478
    },
    {
      "epoch": 3.586666666666667,
      "grad_norm": 0.24141445755958557,
      "learning_rate": 5.654501216545013e-05,
      "loss": 0.3243,
      "step": 1479
    },
    {
      "epoch": 3.589090909090909,
      "grad_norm": 0.24350209534168243,
      "learning_rate": 5.644768856447688e-05,
      "loss": 0.3423,
      "step": 1480
    },
    {
      "epoch": 3.5915151515151518,
      "grad_norm": 0.2639533579349518,
      "learning_rate": 5.6350364963503654e-05,
      "loss": 0.3437,
      "step": 1481
    },
    {
      "epoch": 3.5939393939393938,
      "grad_norm": 0.26790133118629456,
      "learning_rate": 5.625304136253041e-05,
      "loss": 0.3545,
      "step": 1482
    },
    {
      "epoch": 3.596363636363636,
      "grad_norm": 0.26600006222724915,
      "learning_rate": 5.615571776155718e-05,
      "loss": 0.3574,
      "step": 1483
    },
    {
      "epoch": 3.5987878787878786,
      "grad_norm": 0.2451973706483841,
      "learning_rate": 5.605839416058395e-05,
      "loss": 0.3611,
      "step": 1484
    },
    {
      "epoch": 3.601212121212121,
      "grad_norm": 0.2468308061361313,
      "learning_rate": 5.596107055961071e-05,
      "loss": 0.3337,
      "step": 1485
    },
    {
      "epoch": 3.6036363636363635,
      "grad_norm": 0.2541499137878418,
      "learning_rate": 5.586374695863748e-05,
      "loss": 0.3553,
      "step": 1486
    },
    {
      "epoch": 3.606060606060606,
      "grad_norm": 0.241505965590477,
      "learning_rate": 5.5766423357664234e-05,
      "loss": 0.3502,
      "step": 1487
    },
    {
      "epoch": 3.6084848484848484,
      "grad_norm": 0.2537235915660858,
      "learning_rate": 5.5669099756691004e-05,
      "loss": 0.3644,
      "step": 1488
    },
    {
      "epoch": 3.610909090909091,
      "grad_norm": 0.2320072054862976,
      "learning_rate": 5.557177615571777e-05,
      "loss": 0.3379,
      "step": 1489
    },
    {
      "epoch": 3.6133333333333333,
      "grad_norm": 0.23377613723278046,
      "learning_rate": 5.5474452554744524e-05,
      "loss": 0.3308,
      "step": 1490
    },
    {
      "epoch": 3.6157575757575757,
      "grad_norm": 0.2574687600135803,
      "learning_rate": 5.5377128953771295e-05,
      "loss": 0.3561,
      "step": 1491
    },
    {
      "epoch": 3.618181818181818,
      "grad_norm": 0.2439401000738144,
      "learning_rate": 5.527980535279805e-05,
      "loss": 0.3362,
      "step": 1492
    },
    {
      "epoch": 3.6206060606060606,
      "grad_norm": 0.2550938129425049,
      "learning_rate": 5.518248175182482e-05,
      "loss": 0.3413,
      "step": 1493
    },
    {
      "epoch": 3.623030303030303,
      "grad_norm": 0.2654500901699066,
      "learning_rate": 5.508515815085158e-05,
      "loss": 0.3626,
      "step": 1494
    },
    {
      "epoch": 3.6254545454545455,
      "grad_norm": 0.25898149609565735,
      "learning_rate": 5.498783454987835e-05,
      "loss": 0.3394,
      "step": 1495
    },
    {
      "epoch": 3.627878787878788,
      "grad_norm": 0.26385724544525146,
      "learning_rate": 5.489051094890512e-05,
      "loss": 0.3587,
      "step": 1496
    },
    {
      "epoch": 3.6303030303030304,
      "grad_norm": 0.2611154615879059,
      "learning_rate": 5.4793187347931875e-05,
      "loss": 0.3545,
      "step": 1497
    },
    {
      "epoch": 3.632727272727273,
      "grad_norm": 0.25089535117149353,
      "learning_rate": 5.4695863746958645e-05,
      "loss": 0.3495,
      "step": 1498
    },
    {
      "epoch": 3.6351515151515152,
      "grad_norm": 0.2630158066749573,
      "learning_rate": 5.45985401459854e-05,
      "loss": 0.3626,
      "step": 1499
    },
    {
      "epoch": 3.6375757575757577,
      "grad_norm": 0.2499200701713562,
      "learning_rate": 5.4501216545012165e-05,
      "loss": 0.3464,
      "step": 1500
    }
  ],
  "logging_steps": 1,
  "max_steps": 2060,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 5,
  "save_steps": 100,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 1.0279176502247424e+19,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}