{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.8325008325008325,
  "global_step": 230000,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0,
      "learning_rate": 4.996983692635866e-05,
      "loss": 9.3743,
      "step": 500
    },
    {
      "epoch": 0.0,
      "learning_rate": 4.9939673852717336e-05,
      "loss": 8.6211,
      "step": 1000
    },
    {
      "epoch": 0.0,
      "eval_loss": 8.523540496826172,
      "eval_runtime": 4.1116,
      "eval_samples_per_second": 243.213,
      "eval_steps_per_second": 15.322,
      "step": 1000
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.9909510779075997e-05,
      "loss": 8.3996,
      "step": 1500
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.9879347705434663e-05,
      "loss": 8.2439,
      "step": 2000
    },
    {
      "epoch": 0.01,
      "eval_loss": 8.210819244384766,
      "eval_runtime": 4.2077,
      "eval_samples_per_second": 237.661,
      "eval_steps_per_second": 14.973,
      "step": 2000
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.984924495794061e-05,
      "loss": 8.1275,
      "step": 2500
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.981908188429928e-05,
      "loss": 8.0166,
      "step": 3000
    },
    {
      "epoch": 0.01,
      "eval_loss": 7.937699317932129,
      "eval_runtime": 4.3727,
      "eval_samples_per_second": 228.692,
      "eval_steps_per_second": 14.408,
      "step": 3000
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.978891881065794e-05,
      "loss": 7.922,
      "step": 3500
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.975875573701661e-05,
      "loss": 7.8304,
      "step": 4000
    },
    {
      "epoch": 0.01,
      "eval_loss": 7.840174674987793,
      "eval_runtime": 4.2845,
      "eval_samples_per_second": 233.399,
      "eval_steps_per_second": 14.704,
      "step": 4000
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.9728592663375274e-05,
      "loss": 7.7459,
      "step": 4500
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.9698489915881224e-05,
      "loss": 7.705,
      "step": 5000
    },
    {
      "epoch": 0.02,
      "eval_loss": 7.6650848388671875,
      "eval_runtime": 4.3176,
      "eval_samples_per_second": 231.609,
      "eval_steps_per_second": 14.591,
      "step": 5000
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.966832684223989e-05,
      "loss": 7.653,
      "step": 5500
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.963816376859856e-05,
      "loss": 7.5734,
      "step": 6000
    },
    {
      "epoch": 0.02,
      "eval_loss": 7.5711894035339355,
      "eval_runtime": 4.3326,
      "eval_samples_per_second": 230.807,
      "eval_steps_per_second": 14.541,
      "step": 6000
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.960800069495722e-05,
      "loss": 7.5223,
      "step": 6500
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.9577837621315885e-05,
      "loss": 7.4853,
      "step": 7000
    },
    {
      "epoch": 0.03,
      "eval_loss": 7.468273639678955,
      "eval_runtime": 4.3863,
      "eval_samples_per_second": 227.982,
      "eval_steps_per_second": 14.363,
      "step": 7000
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.9547734873821834e-05,
      "loss": 7.419,
      "step": 7500
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.9517571800180494e-05,
      "loss": 7.3788,
      "step": 8000
    },
    {
      "epoch": 0.03,
      "eval_loss": 7.432778358459473,
      "eval_runtime": 4.2901,
      "eval_samples_per_second": 233.096,
      "eval_steps_per_second": 14.685,
      "step": 8000
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.948740872653916e-05,
      "loss": 7.3405,
      "step": 8500
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.945724565289783e-05,
      "loss": 7.2813,
      "step": 9000
    },
    {
      "epoch": 0.03,
      "eval_loss": 7.341405868530273,
      "eval_runtime": 4.4257,
      "eval_samples_per_second": 225.951,
      "eval_steps_per_second": 14.235,
      "step": 9000
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.9427082579256495e-05,
      "loss": 7.2549,
      "step": 9500
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.9396919505615156e-05,
      "loss": 7.213,
      "step": 10000
    },
    {
      "epoch": 0.04,
      "eval_loss": 7.239240646362305,
      "eval_runtime": 4.2885,
      "eval_samples_per_second": 233.181,
      "eval_steps_per_second": 14.69,
      "step": 10000
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.936675643197383e-05,
      "loss": 7.1898,
      "step": 10500
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.933659335833249e-05,
      "loss": 7.1662,
      "step": 11000
    },
    {
      "epoch": 0.04,
      "eval_loss": 7.204339504241943,
      "eval_runtime": 4.306,
      "eval_samples_per_second": 232.234,
      "eval_steps_per_second": 14.631,
      "step": 11000
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.930655093698572e-05,
      "loss": 7.1373,
      "step": 11500
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.927638786334439e-05,
      "loss": 7.0908,
      "step": 12000
    },
    {
      "epoch": 0.04,
      "eval_loss": 7.1362996101379395,
      "eval_runtime": 4.278,
      "eval_samples_per_second": 233.752,
      "eval_steps_per_second": 14.726,
      "step": 12000
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.9246224789703056e-05,
      "loss": 7.0629,
      "step": 12500
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.9216061716061716e-05,
      "loss": 7.0458,
      "step": 13000
    },
    {
      "epoch": 0.05,
      "eval_loss": 7.110766410827637,
      "eval_runtime": 4.4164,
      "eval_samples_per_second": 226.429,
      "eval_steps_per_second": 14.265,
      "step": 13000
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.918589864242038e-05,
      "loss": 7.0147,
      "step": 13500
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.915573556877905e-05,
      "loss": 6.9895,
      "step": 14000
    },
    {
      "epoch": 0.05,
      "eval_loss": 6.985559940338135,
      "eval_runtime": 4.3309,
      "eval_samples_per_second": 230.901,
      "eval_steps_per_second": 14.547,
      "step": 14000
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.912563282128499e-05,
      "loss": 6.9634,
      "step": 14500
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.9095469747643666e-05,
      "loss": 6.9537,
      "step": 15000
    },
    {
      "epoch": 0.05,
      "eval_loss": 7.012362480163574,
      "eval_runtime": 4.2388,
      "eval_samples_per_second": 235.918,
      "eval_steps_per_second": 14.863,
      "step": 15000
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.9065306674002326e-05,
      "loss": 6.9295,
      "step": 15500
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.903514360036099e-05,
      "loss": 6.9067,
      "step": 16000
    },
    {
      "epoch": 0.06,
      "eval_loss": 6.980933666229248,
      "eval_runtime": 4.272,
      "eval_samples_per_second": 234.082,
      "eval_steps_per_second": 14.747,
      "step": 16000
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.900504085286694e-05,
      "loss": 6.8896,
      "step": 16500
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.897487777922561e-05,
      "loss": 6.8678,
      "step": 17000
    },
    {
      "epoch": 0.06,
      "eval_loss": 6.871150493621826,
      "eval_runtime": 4.2596,
      "eval_samples_per_second": 234.765,
      "eval_steps_per_second": 14.79,
      "step": 17000
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.894471470558427e-05,
      "loss": 6.8301,
      "step": 17500
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.891455163194294e-05,
      "loss": 6.8388,
      "step": 18000
    },
    {
      "epoch": 0.07,
      "eval_loss": 6.891202449798584,
      "eval_runtime": 4.2654,
      "eval_samples_per_second": 234.445,
      "eval_steps_per_second": 14.77,
      "step": 18000
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.8884388558301604e-05,
      "loss": 6.8197,
      "step": 18500
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.885422548466027e-05,
      "loss": 6.8031,
      "step": 19000
    },
    {
      "epoch": 0.07,
      "eval_loss": 6.856838703155518,
      "eval_runtime": 4.3078,
      "eval_samples_per_second": 232.139,
      "eval_steps_per_second": 14.625,
      "step": 19000
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.882406241101893e-05,
      "loss": 6.7821,
      "step": 19500
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.8793899337377605e-05,
      "loss": 6.7818,
      "step": 20000
    },
    {
      "epoch": 0.07,
      "eval_loss": 6.831137180328369,
      "eval_runtime": 4.3011,
      "eval_samples_per_second": 232.498,
      "eval_steps_per_second": 14.647,
      "step": 20000
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.876379658988355e-05,
      "loss": 6.7754,
      "step": 20500
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.8733633516242215e-05,
      "loss": 6.7548,
      "step": 21000
    },
    {
      "epoch": 0.08,
      "eval_loss": 6.813143253326416,
      "eval_runtime": 6.2764,
      "eval_samples_per_second": 159.326,
      "eval_steps_per_second": 10.038,
      "step": 21000
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.870347044260088e-05,
      "loss": 6.7458,
      "step": 21500
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.867330736895955e-05,
      "loss": 6.7351,
      "step": 22000
    },
    {
      "epoch": 0.08,
      "eval_loss": 6.724792957305908,
      "eval_runtime": 4.2249,
      "eval_samples_per_second": 236.695,
      "eval_steps_per_second": 14.912,
      "step": 22000
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.864314429531821e-05,
      "loss": 6.7107,
      "step": 22500
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.8612981221676876e-05,
      "loss": 6.6927,
      "step": 23000
    },
    {
      "epoch": 0.08,
      "eval_loss": 6.75374698638916,
      "eval_runtime": 4.3504,
      "eval_samples_per_second": 229.864,
      "eval_steps_per_second": 14.481,
      "step": 23000
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.8582878474182825e-05,
      "loss": 6.6837,
      "step": 23500
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.8552715400541485e-05,
      "loss": 6.6863,
      "step": 24000
    },
    {
      "epoch": 0.09,
      "eval_loss": 6.72822380065918,
      "eval_runtime": 4.384,
      "eval_samples_per_second": 228.102,
      "eval_steps_per_second": 14.37,
      "step": 24000
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.852255232690016e-05,
      "loss": 6.6608,
      "step": 24500
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.849238925325882e-05,
      "loss": 6.6452,
      "step": 25000
    },
    {
      "epoch": 0.09,
      "eval_loss": 6.719581604003906,
      "eval_runtime": 4.3427,
      "eval_samples_per_second": 230.271,
      "eval_steps_per_second": 14.507,
      "step": 25000
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.8462226179617486e-05,
      "loss": 6.6261,
      "step": 25500
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.8432123432123436e-05,
      "loss": 6.6153,
      "step": 26000
    },
    {
      "epoch": 0.09,
      "eval_loss": 6.65714168548584,
      "eval_runtime": 4.3559,
      "eval_samples_per_second": 229.574,
      "eval_steps_per_second": 14.463,
      "step": 26000
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.84019603584821e-05,
      "loss": 6.6081,
      "step": 26500
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.837179728484076e-05,
      "loss": 6.6114,
      "step": 27000
    },
    {
      "epoch": 0.1,
      "eval_loss": 6.6556854248046875,
      "eval_runtime": 4.4221,
      "eval_samples_per_second": 226.135,
      "eval_steps_per_second": 14.247,
      "step": 27000
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.834163421119943e-05,
      "loss": 6.5909,
      "step": 27500
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.831153146370538e-05,
      "loss": 6.6003,
      "step": 28000
    },
    {
      "epoch": 0.1,
      "eval_loss": 6.645580291748047,
      "eval_runtime": 4.321,
      "eval_samples_per_second": 231.43,
      "eval_steps_per_second": 14.58,
      "step": 28000
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.8281368390064047e-05,
      "loss": 6.5773,
      "step": 28500
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.825120531642271e-05,
      "loss": 6.5656,
      "step": 29000
    },
    {
      "epoch": 0.1,
      "eval_loss": 6.621737480163574,
      "eval_runtime": 4.2363,
      "eval_samples_per_second": 236.056,
      "eval_steps_per_second": 14.872,
      "step": 29000
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.822104224278138e-05,
      "loss": 6.5753,
      "step": 29500
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.819087916914004e-05,
      "loss": 6.5518,
      "step": 30000
    },
    {
      "epoch": 0.11,
      "eval_loss": 6.60227632522583,
      "eval_runtime": 4.3472,
      "eval_samples_per_second": 230.034,
      "eval_steps_per_second": 14.492,
      "step": 30000
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.816071609549871e-05,
      "loss": 6.5431,
      "step": 30500
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.813061334800466e-05,
      "loss": 6.5407,
      "step": 31000
    },
    {
      "epoch": 0.11,
      "eval_loss": 6.591599464416504,
      "eval_runtime": 4.2945,
      "eval_samples_per_second": 232.858,
      "eval_steps_per_second": 14.67,
      "step": 31000
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.810045027436332e-05,
      "loss": 6.5197,
      "step": 31500
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.8070287200721984e-05,
      "loss": 6.5069,
      "step": 32000
    },
    {
      "epoch": 0.12,
      "eval_loss": 6.563199996948242,
      "eval_runtime": 4.2853,
      "eval_samples_per_second": 233.356,
      "eval_steps_per_second": 14.701,
      "step": 32000
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.804012412708065e-05,
      "loss": 6.508,
      "step": 32500
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.800996105343932e-05,
      "loss": 6.5031,
      "step": 33000
    },
    {
      "epoch": 0.12,
      "eval_loss": 6.495542526245117,
      "eval_runtime": 4.2956,
      "eval_samples_per_second": 232.797,
      "eval_steps_per_second": 14.666,
      "step": 33000
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.797979797979798e-05,
      "loss": 6.4874,
      "step": 33500
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.7949634906156645e-05,
      "loss": 6.4795,
      "step": 34000
    },
    {
      "epoch": 0.12,
      "eval_loss": 6.54636812210083,
      "eval_runtime": 4.3345,
      "eval_samples_per_second": 230.706,
      "eval_steps_per_second": 14.534,
      "step": 34000
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.7919532158662595e-05,
      "loss": 6.4765,
      "step": 34500
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.788936908502126e-05,
      "loss": 6.4749,
      "step": 35000
    },
    {
      "epoch": 0.13,
      "eval_loss": 6.562394142150879,
      "eval_runtime": 4.214,
      "eval_samples_per_second": 237.303,
      "eval_steps_per_second": 14.95,
      "step": 35000
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.785920601137993e-05,
      "loss": 6.4512,
      "step": 35500
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.7829042937738596e-05,
      "loss": 6.4453,
      "step": 36000
    },
    {
      "epoch": 0.13,
      "eval_loss": 6.480181694030762,
      "eval_runtime": 4.3457,
      "eval_samples_per_second": 230.112,
      "eval_steps_per_second": 14.497,
      "step": 36000
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.779894019024454e-05,
      "loss": 6.471,
      "step": 36500
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.7768777116603206e-05,
      "loss": 6.4371,
      "step": 37000
    },
    {
      "epoch": 0.13,
      "eval_loss": 6.513635635375977,
      "eval_runtime": 4.3597,
      "eval_samples_per_second": 229.373,
      "eval_steps_per_second": 14.45,
      "step": 37000
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.773861404296187e-05,
      "loss": 6.4295,
      "step": 37500
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.770845096932054e-05,
      "loss": 6.4302,
      "step": 38000
    },
    {
      "epoch": 0.14,
      "eval_loss": 6.495160102844238,
      "eval_runtime": 4.2204,
      "eval_samples_per_second": 236.944,
      "eval_steps_per_second": 14.927,
      "step": 38000
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.76782878956792e-05,
      "loss": 6.4215,
      "step": 38500
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.764818514818515e-05,
      "loss": 6.4062,
      "step": 39000
    },
    {
      "epoch": 0.14,
      "eval_loss": 6.4935173988342285,
      "eval_runtime": 4.366,
      "eval_samples_per_second": 229.044,
      "eval_steps_per_second": 14.43,
      "step": 39000
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.7618022074543816e-05,
      "loss": 6.3908,
      "step": 39500
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.7587859000902476e-05,
      "loss": 6.4109,
      "step": 40000
    },
    {
      "epoch": 0.14,
      "eval_loss": 6.459984302520752,
      "eval_runtime": 4.3414,
      "eval_samples_per_second": 230.343,
      "eval_steps_per_second": 14.512,
      "step": 40000
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.755769592726115e-05,
      "loss": 6.3959,
      "step": 40500
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.752753285361981e-05,
      "loss": 6.3828,
      "step": 41000
    },
    {
      "epoch": 0.15,
      "eval_loss": 6.429795265197754,
      "eval_runtime": 4.3398,
      "eval_samples_per_second": 230.427,
      "eval_steps_per_second": 14.517,
      "step": 41000
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.749736977997848e-05,
      "loss": 6.3775,
      "step": 41500
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.7467206706337144e-05,
      "loss": 6.3739,
      "step": 42000
    },
    {
      "epoch": 0.15,
      "eval_loss": 6.406271457672119,
      "eval_runtime": 4.3187,
      "eval_samples_per_second": 231.553,
      "eval_steps_per_second": 14.588,
      "step": 42000
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.743704363269581e-05,
      "loss": 6.3638,
      "step": 42500
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.7406940885201754e-05,
      "loss": 6.3449,
      "step": 43000
    },
    {
      "epoch": 0.16,
      "eval_loss": 6.363914489746094,
      "eval_runtime": 6.5899,
      "eval_samples_per_second": 151.748,
      "eval_steps_per_second": 9.56,
      "step": 43000
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.737677781156043e-05,
      "loss": 6.3654,
      "step": 43500
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.734661473791909e-05,
      "loss": 6.3473,
      "step": 44000
    },
    {
      "epoch": 0.16,
      "eval_loss": 6.375613212585449,
      "eval_runtime": 4.323,
      "eval_samples_per_second": 231.319,
      "eval_steps_per_second": 14.573,
      "step": 44000
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.7316451664277755e-05,
      "loss": 6.3486,
      "step": 44500
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.7286348916783704e-05,
      "loss": 6.3462,
      "step": 45000
    },
    {
      "epoch": 0.16,
      "eval_loss": 6.379289150238037,
      "eval_runtime": 4.2624,
      "eval_samples_per_second": 234.609,
      "eval_steps_per_second": 14.78,
      "step": 45000
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.725624616928965e-05,
      "loss": 6.3313,
      "step": 45500
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.7226083095648314e-05,
      "loss": 6.3323,
      "step": 46000
    },
    {
      "epoch": 0.17,
      "eval_loss": 6.387815475463867,
      "eval_runtime": 4.3758,
      "eval_samples_per_second": 228.53,
      "eval_steps_per_second": 14.397,
      "step": 46000
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.719592002200698e-05,
      "loss": 6.3256,
      "step": 46500
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.716575694836565e-05,
      "loss": 6.3098,
      "step": 47000
    },
    {
      "epoch": 0.17,
      "eval_loss": 6.394986629486084,
      "eval_runtime": 4.3311,
      "eval_samples_per_second": 230.889,
      "eval_steps_per_second": 14.546,
      "step": 47000
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.713559387472431e-05,
      "loss": 6.3082,
      "step": 47500
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.7105430801082975e-05,
      "loss": 6.298,
      "step": 48000
    },
    {
      "epoch": 0.17,
      "eval_loss": 6.3571929931640625,
      "eval_runtime": 4.3274,
      "eval_samples_per_second": 231.084,
      "eval_steps_per_second": 14.558,
      "step": 48000
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.707526772744164e-05,
      "loss": 6.3032,
      "step": 48500
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.704510465380031e-05,
      "loss": 6.3095,
      "step": 49000
    },
    {
      "epoch": 0.18,
      "eval_loss": 6.37529182434082,
      "eval_runtime": 4.2983,
      "eval_samples_per_second": 232.652,
      "eval_steps_per_second": 14.657,
      "step": 49000
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.701500190630625e-05,
      "loss": 6.2991,
      "step": 49500
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.6984838832664926e-05,
      "loss": 6.2891,
      "step": 50000
    },
    {
      "epoch": 0.18,
      "eval_loss": 6.396151542663574,
      "eval_runtime": 4.4316,
      "eval_samples_per_second": 225.65,
      "eval_steps_per_second": 14.216,
      "step": 50000
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.6954675759023586e-05,
      "loss": 6.2902,
      "step": 50500
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.692451268538225e-05,
      "loss": 6.2847,
      "step": 51000
    },
    {
      "epoch": 0.18,
      "eval_loss": 6.3496623039245605,
      "eval_runtime": 4.3566,
      "eval_samples_per_second": 229.537,
      "eval_steps_per_second": 14.461,
      "step": 51000
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.689434961174092e-05,
      "loss": 6.278,
      "step": 51500
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.686424686424687e-05,
      "loss": 6.2635,
      "step": 52000
    },
    {
      "epoch": 0.19,
      "eval_loss": 6.37539005279541,
      "eval_runtime": 4.338,
      "eval_samples_per_second": 230.523,
      "eval_steps_per_second": 14.523,
      "step": 52000
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.683408379060553e-05,
      "loss": 6.2571,
      "step": 52500
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.68039207169642e-05,
      "loss": 6.2554,
      "step": 53000
    },
    {
      "epoch": 0.19,
      "eval_loss": 6.27804708480835,
      "eval_runtime": 4.3755,
      "eval_samples_per_second": 228.546,
      "eval_steps_per_second": 14.398,
      "step": 53000
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.6773757643322863e-05,
      "loss": 6.2548,
      "step": 53500
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.6743594569681524e-05,
      "loss": 6.2407,
      "step": 54000
    },
    {
      "epoch": 0.2,
      "eval_loss": 6.285305023193359,
      "eval_runtime": 4.3656,
      "eval_samples_per_second": 229.064,
      "eval_steps_per_second": 14.431,
      "step": 54000
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.67134314960402e-05,
      "loss": 6.2262,
      "step": 54500
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.668326842239886e-05,
      "loss": 6.2222,
      "step": 55000
    },
    {
      "epoch": 0.2,
      "eval_loss": 6.287919044494629,
      "eval_runtime": 4.3582,
      "eval_samples_per_second": 229.452,
      "eval_steps_per_second": 14.455,
      "step": 55000
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.6653105348757525e-05,
      "loss": 6.2463,
      "step": 55500
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.6623002601263474e-05,
      "loss": 6.2233,
      "step": 56000
    },
    {
      "epoch": 0.2,
      "eval_loss": 6.290223598480225,
      "eval_runtime": 4.3327,
      "eval_samples_per_second": 230.801,
      "eval_steps_per_second": 14.54,
      "step": 56000
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.659283952762214e-05,
      "loss": 6.2253,
      "step": 56500
    },
    {
      "epoch": 0.21,
      "learning_rate": 4.65626764539808e-05,
      "loss": 6.2147,
      "step": 57000
    },
    {
      "epoch": 0.21,
      "eval_loss": 6.265440464019775,
      "eval_runtime": 4.367,
      "eval_samples_per_second": 228.992,
      "eval_steps_per_second": 14.426,
      "step": 57000
    },
    {
      "epoch": 0.21,
      "learning_rate": 4.653251338033947e-05,
      "loss": 6.2245,
      "step": 57500
    },
    {
      "epoch": 0.21,
      "learning_rate": 4.650241063284542e-05,
      "loss": 6.2118,
      "step": 58000
    },
    {
      "epoch": 0.21,
      "eval_loss": 6.265470504760742,
      "eval_runtime": 4.2827,
      "eval_samples_per_second": 233.497,
      "eval_steps_per_second": 14.71,
      "step": 58000
    },
    {
      "epoch": 0.21,
      "learning_rate": 4.6472247559204085e-05,
      "loss": 6.2082,
      "step": 58500
    },
    {
      "epoch": 0.21,
      "learning_rate": 4.6442084485562745e-05,
      "loss": 6.2039,
      "step": 59000
    },
    {
      "epoch": 0.21,
      "eval_loss": 6.2890191078186035,
      "eval_runtime": 4.3624,
      "eval_samples_per_second": 229.229,
      "eval_steps_per_second": 14.441,
      "step": 59000
    },
    {
      "epoch": 0.22,
      "learning_rate": 4.641192141192142e-05,
      "loss": 6.2145,
      "step": 59500
    },
    {
      "epoch": 0.22,
      "learning_rate": 4.638175833828008e-05,
      "loss": 6.1805,
      "step": 60000
    },
    {
      "epoch": 0.22,
      "eval_loss": 6.290516376495361,
      "eval_runtime": 4.3339,
      "eval_samples_per_second": 230.741,
      "eval_steps_per_second": 14.537,
      "step": 60000
    },
    {
      "epoch": 0.22,
      "learning_rate": 4.6351595264638746e-05,
      "loss": 6.1993,
      "step": 60500
    },
    {
      "epoch": 0.22,
      "learning_rate": 4.632143219099741e-05,
      "loss": 6.1947,
      "step": 61000
    },
    {
      "epoch": 0.22,
      "eval_loss": 6.219234466552734,
      "eval_runtime": 4.3446,
      "eval_samples_per_second": 230.172,
      "eval_steps_per_second": 14.501,
      "step": 61000
    },
    {
      "epoch": 0.22,
      "learning_rate": 4.6291329443503356e-05,
      "loss": 6.2058,
      "step": 61500
    },
    {
      "epoch": 0.22,
      "learning_rate": 4.626116636986202e-05,
      "loss": 6.1748,
      "step": 62000
    },
    {
      "epoch": 0.22,
      "eval_loss": 6.209784030914307,
      "eval_runtime": 4.371,
      "eval_samples_per_second": 228.781,
      "eval_steps_per_second": 14.413,
      "step": 62000
    },
    {
      "epoch": 0.23,
      "learning_rate": 4.623100329622069e-05,
      "loss": 6.1758,
      "step": 62500
    },
    {
      "epoch": 0.23,
      "learning_rate": 4.6200840222579356e-05,
      "loss": 6.1761,
      "step": 63000
    },
    {
      "epoch": 0.23,
      "eval_loss": 6.212859153747559,
      "eval_runtime": 4.4203,
      "eval_samples_per_second": 226.231,
      "eval_steps_per_second": 14.253,
      "step": 63000
    },
    {
      "epoch": 0.23,
      "learning_rate": 4.617067714893802e-05,
      "loss": 6.1741,
      "step": 63500
    },
    {
      "epoch": 0.23,
      "learning_rate": 4.6140514075296684e-05,
      "loss": 6.156,
      "step": 64000
    },
    {
      "epoch": 0.23,
      "eval_loss": 6.214317321777344,
      "eval_runtime": 4.3952,
      "eval_samples_per_second": 227.52,
      "eval_steps_per_second": 14.334,
      "step": 64000
    },
    {
      "epoch": 0.23,
      "learning_rate": 4.611035100165535e-05,
      "loss": 6.1674,
      "step": 64500
    },
    {
      "epoch": 0.24,
      "learning_rate": 4.608018792801402e-05,
      "loss": 6.1669,
      "step": 65000
    },
    {
      "epoch": 0.24,
      "eval_loss": 6.188581943511963,
      "eval_runtime": 4.4051,
      "eval_samples_per_second": 227.008,
      "eval_steps_per_second": 14.302,
      "step": 65000
    },
    {
      "epoch": 0.24,
      "learning_rate": 4.605008518051997e-05,
      "loss": 6.16,
      "step": 65500
    },
    {
      "epoch": 0.24,
      "learning_rate": 4.6019922106878634e-05,
      "loss": 6.1483,
      "step": 66000
    },
    {
      "epoch": 0.24,
      "eval_loss": 6.198948383331299,
      "eval_runtime": 4.3438,
      "eval_samples_per_second": 230.215,
      "eval_steps_per_second": 14.504,
      "step": 66000
    },
    {
      "epoch": 0.24,
      "learning_rate": 4.5989759033237294e-05,
      "loss": 6.1433,
      "step": 66500
    },
    {
      "epoch": 0.24,
      "learning_rate": 4.595959595959596e-05,
      "loss": 6.1573,
      "step": 67000
    },
    {
      "epoch": 0.24,
      "eval_loss": 6.161040782928467,
      "eval_runtime": 6.3766,
      "eval_samples_per_second": 156.823,
      "eval_steps_per_second": 9.88,
      "step": 67000
    },
    {
      "epoch": 0.24,
      "learning_rate": 4.592943288595463e-05,
      "loss": 6.1463,
      "step": 67500
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.589933013846058e-05,
      "loss": 6.1414,
      "step": 68000
    },
    {
      "epoch": 0.25,
      "eval_loss": 6.161304473876953,
      "eval_runtime": 4.3109,
      "eval_samples_per_second": 231.972,
      "eval_steps_per_second": 14.614,
      "step": 68000
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.586916706481924e-05,
      "loss": 6.1435,
      "step": 68500
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.583900399117791e-05,
      "loss": 6.1202,
      "step": 69000
    },
    {
      "epoch": 0.25,
      "eval_loss": 6.174992561340332,
      "eval_runtime": 4.3065,
      "eval_samples_per_second": 232.209,
      "eval_steps_per_second": 14.629,
      "step": 69000
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.580884091753657e-05,
      "loss": 6.1219,
      "step": 69500
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.577867784389523e-05,
      "loss": 6.115,
      "step": 70000
    },
    {
      "epoch": 0.25,
      "eval_loss": 6.18692684173584,
      "eval_runtime": 4.3917,
      "eval_samples_per_second": 227.7,
      "eval_steps_per_second": 14.345,
      "step": 70000
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.5748514770253906e-05,
      "loss": 6.1257,
      "step": 70500
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.571841202275985e-05,
      "loss": 6.1381,
      "step": 71000
    },
    {
      "epoch": 0.26,
      "eval_loss": 6.09669828414917,
      "eval_runtime": 4.3181,
      "eval_samples_per_second": 231.583,
      "eval_steps_per_second": 14.59,
      "step": 71000
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.5688248949118515e-05,
      "loss": 6.1158,
      "step": 71500
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.565808587547718e-05,
      "loss": 6.1182,
      "step": 72000
    },
    {
      "epoch": 0.26,
      "eval_loss": 6.138221740722656,
      "eval_runtime": 4.3099,
      "eval_samples_per_second": 232.023,
      "eval_steps_per_second": 14.617,
      "step": 72000
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.562792280183585e-05,
      "loss": 6.1063,
      "step": 72500
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.559775972819451e-05,
      "loss": 6.096,
      "step": 73000
    },
    {
      "epoch": 0.26,
      "eval_loss": 6.156211853027344,
      "eval_runtime": 4.3788,
      "eval_samples_per_second": 228.373,
      "eval_steps_per_second": 14.388,
      "step": 73000
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.5567596654553177e-05,
      "loss": 6.117,
      "step": 73500
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.5537433580911844e-05,
      "loss": 6.1019,
      "step": 74000
    },
    {
      "epoch": 0.27,
      "eval_loss": 6.182168483734131,
      "eval_runtime": 4.3493,
      "eval_samples_per_second": 229.923,
      "eval_steps_per_second": 14.485,
      "step": 74000
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.550727050727051e-05,
      "loss": 6.0936,
      "step": 74500
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.547716775977646e-05,
      "loss": 6.0907,
      "step": 75000
    },
    {
      "epoch": 0.27,
      "eval_loss": 6.1323113441467285,
      "eval_runtime": 4.3544,
      "eval_samples_per_second": 229.654,
      "eval_steps_per_second": 14.468,
      "step": 75000
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.544706501228241e-05,
      "loss": 6.086,
      "step": 75500
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.541690193864107e-05,
      "loss": 6.0914,
      "step": 76000
    },
    {
      "epoch": 0.28,
      "eval_loss": 6.1409149169921875,
      "eval_runtime": 4.3453,
      "eval_samples_per_second": 230.134,
      "eval_steps_per_second": 14.498,
      "step": 76000
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.538673886499974e-05,
      "loss": 6.0774,
      "step": 76500
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.5356575791358404e-05,
      "loss": 6.0911,
      "step": 77000
    },
    {
      "epoch": 0.28,
      "eval_loss": 6.122730255126953,
      "eval_runtime": 4.2779,
      "eval_samples_per_second": 233.759,
      "eval_steps_per_second": 14.727,
      "step": 77000
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.5326412717717064e-05,
      "loss": 6.0764,
      "step": 77500
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.5296309970223013e-05,
      "loss": 6.0789,
      "step": 78000
    },
    {
      "epoch": 0.28,
      "eval_loss": 6.096778392791748,
      "eval_runtime": 6.4313,
      "eval_samples_per_second": 155.49,
      "eval_steps_per_second": 9.796,
      "step": 78000
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.526614689658168e-05,
      "loss": 6.0659,
      "step": 78500
    },
    {
      "epoch": 0.29,
      "learning_rate": 4.523598382294035e-05,
      "loss": 6.0649,
      "step": 79000
    },
    {
      "epoch": 0.29,
      "eval_loss": 6.110874176025391,
      "eval_runtime": 4.3543,
      "eval_samples_per_second": 229.655,
      "eval_steps_per_second": 14.468,
      "step": 79000
    },
    {
      "epoch": 0.29,
      "learning_rate": 4.520582074929901e-05,
      "loss": 6.0598,
      "step": 79500
    },
    {
      "epoch": 0.29,
      "learning_rate": 4.517565767565768e-05,
      "loss": 6.0721,
      "step": 80000
    },
    {
      "epoch": 0.29,
      "eval_loss": 6.144255638122559,
      "eval_runtime": 4.2916,
      "eval_samples_per_second": 233.012,
      "eval_steps_per_second": 14.68,
      "step": 80000
    },
    {
      "epoch": 0.29,
      "learning_rate": 4.5145554928163624e-05,
      "loss": 6.0663,
      "step": 80500
    },
    {
      "epoch": 0.29,
      "learning_rate": 4.511539185452229e-05,
      "loss": 6.0543,
      "step": 81000
    },
    {
      "epoch": 0.29,
      "eval_loss": 6.099493980407715,
      "eval_runtime": 4.4139,
      "eval_samples_per_second": 226.556,
      "eval_steps_per_second": 14.273,
      "step": 81000
    },
    {
      "epoch": 0.29,
      "learning_rate": 4.508522878088096e-05,
      "loss": 6.0371,
      "step": 81500
    },
    {
      "epoch": 0.3,
      "learning_rate": 4.5055065707239625e-05,
      "loss": 6.0491,
      "step": 82000
    },
    {
      "epoch": 0.3,
      "eval_loss": 6.0733723640441895,
      "eval_runtime": 4.3153,
      "eval_samples_per_second": 231.736,
      "eval_steps_per_second": 14.599,
      "step": 82000
    },
    {
      "epoch": 0.3,
      "learning_rate": 4.5024902633598285e-05,
      "loss": 6.0488,
      "step": 82500
    },
    {
      "epoch": 0.3,
      "learning_rate": 4.499473955995695e-05,
      "loss": 6.0392,
      "step": 83000
    },
    {
      "epoch": 0.3,
      "eval_loss": 6.062073230743408,
      "eval_runtime": 4.372,
      "eval_samples_per_second": 228.728,
      "eval_steps_per_second": 14.41,
      "step": 83000
    },
    {
      "epoch": 0.3,
      "learning_rate": 4.496457648631562e-05,
      "loss": 6.0402,
      "step": 83500
    },
    {
      "epoch": 0.3,
      "learning_rate": 4.4934413412674286e-05,
      "loss": 6.0487,
      "step": 84000
    },
    {
      "epoch": 0.3,
      "eval_loss": 6.08383321762085,
      "eval_runtime": 6.5143,
      "eval_samples_per_second": 153.507,
      "eval_steps_per_second": 9.671,
      "step": 84000
    },
    {
      "epoch": 0.31,
      "learning_rate": 4.4904310665180236e-05,
      "loss": 6.0402,
      "step": 84500
    },
    {
      "epoch": 0.31,
      "learning_rate": 4.487420791768618e-05,
      "loss": 6.0314,
      "step": 85000
    },
    {
      "epoch": 0.31,
      "eval_loss": 6.082727432250977,
      "eval_runtime": 4.3196,
      "eval_samples_per_second": 231.502,
      "eval_steps_per_second": 14.585,
      "step": 85000
    },
    {
      "epoch": 0.31,
      "learning_rate": 4.4844044844044845e-05,
      "loss": 6.0249,
      "step": 85500
    },
    {
      "epoch": 0.31,
      "learning_rate": 4.481388177040351e-05,
      "loss": 6.0329,
      "step": 86000
    },
    {
      "epoch": 0.31,
      "eval_loss": 6.075023651123047,
      "eval_runtime": 4.2685,
      "eval_samples_per_second": 234.274,
      "eval_steps_per_second": 14.759,
      "step": 86000
    },
    {
      "epoch": 0.31,
      "learning_rate": 4.478371869676218e-05,
      "loss": 6.0329,
      "step": 86500
    },
    {
      "epoch": 0.31,
      "learning_rate": 4.475361594926812e-05,
      "loss": 6.0233,
      "step": 87000
    },
    {
      "epoch": 0.31,
      "eval_loss": 6.072445392608643,
      "eval_runtime": 4.3773,
      "eval_samples_per_second": 228.453,
      "eval_steps_per_second": 14.393,
      "step": 87000
    },
    {
      "epoch": 0.32,
      "learning_rate": 4.472345287562679e-05,
      "loss": 6.032,
      "step": 87500
    },
    {
      "epoch": 0.32,
      "learning_rate": 4.4693289801985456e-05,
      "loss": 6.0296,
      "step": 88000
    },
    {
      "epoch": 0.32,
      "eval_loss": 6.064884185791016,
      "eval_runtime": 4.3333,
      "eval_samples_per_second": 230.771,
      "eval_steps_per_second": 14.539,
      "step": 88000
    },
    {
      "epoch": 0.32,
      "learning_rate": 4.466312672834412e-05,
      "loss": 6.0324,
      "step": 88500
    },
    {
      "epoch": 0.32,
      "learning_rate": 4.463296365470278e-05,
      "loss": 6.0141,
      "step": 89000
    },
    {
      "epoch": 0.32,
      "eval_loss": 6.0311689376831055,
      "eval_runtime": 4.3204,
      "eval_samples_per_second": 231.461,
      "eval_steps_per_second": 14.582,
      "step": 89000
    },
    {
      "epoch": 0.32,
      "learning_rate": 4.460280058106146e-05,
      "loss": 6.0171,
      "step": 89500
    },
    {
      "epoch": 0.33,
      "learning_rate": 4.457263750742012e-05,
      "loss": 6.0109,
      "step": 90000
    },
    {
      "epoch": 0.33,
      "eval_loss": 6.072292804718018,
      "eval_runtime": 6.2611,
      "eval_samples_per_second": 159.717,
      "eval_steps_per_second": 10.062,
      "step": 90000
    },
    {
      "epoch": 0.33,
      "learning_rate": 4.4542474433778784e-05,
      "loss": 6.001,
      "step": 90500
    },
    {
      "epoch": 0.33,
      "learning_rate": 4.4512371686284734e-05,
      "loss": 5.9988,
      "step": 91000
    },
    {
      "epoch": 0.33,
      "eval_loss": 6.042818546295166,
      "eval_runtime": 4.3121,
      "eval_samples_per_second": 231.908,
      "eval_steps_per_second": 14.61,
      "step": 91000
    },
    {
      "epoch": 0.33,
      "learning_rate": 4.44822086126434e-05,
      "loss": 6.0103,
      "step": 91500
    },
    {
      "epoch": 0.33,
      "learning_rate": 4.445210586514934e-05,
      "loss": 6.0061,
      "step": 92000
    },
    {
      "epoch": 0.33,
      "eval_loss": 6.017780303955078,
      "eval_runtime": 4.3583,
      "eval_samples_per_second": 229.448,
      "eval_steps_per_second": 14.455,
      "step": 92000
    },
    {
      "epoch": 0.33,
      "learning_rate": 4.442194279150801e-05,
      "loss": 6.0035,
      "step": 92500
    },
    {
      "epoch": 0.34,
      "learning_rate": 4.439177971786668e-05,
      "loss": 6.0009,
      "step": 93000
    },
    {
      "epoch": 0.34,
      "eval_loss": 6.078599452972412,
      "eval_runtime": 4.3628,
      "eval_samples_per_second": 229.211,
      "eval_steps_per_second": 14.44,
      "step": 93000
    },
    {
      "epoch": 0.34,
      "learning_rate": 4.436161664422534e-05,
      "loss": 6.0004,
      "step": 93500
    },
    {
      "epoch": 0.34,
      "learning_rate": 4.433145357058401e-05,
      "loss": 5.9976,
      "step": 94000
    },
    {
      "epoch": 0.34,
      "eval_loss": 6.076462745666504,
      "eval_runtime": 4.4135,
      "eval_samples_per_second": 226.579,
      "eval_steps_per_second": 14.274,
      "step": 94000
    },
    {
      "epoch": 0.34,
      "learning_rate": 4.4301350823089954e-05,
      "loss": 6.004,
      "step": 94500
    },
    {
      "epoch": 0.34,
      "learning_rate": 4.427118774944862e-05,
      "loss": 5.9857,
      "step": 95000
    },
    {
      "epoch": 0.34,
      "eval_loss": 6.037008762359619,
      "eval_runtime": 4.3059,
      "eval_samples_per_second": 232.239,
      "eval_steps_per_second": 14.631,
      "step": 95000
    },
    {
      "epoch": 0.35,
      "learning_rate": 4.424102467580729e-05,
      "loss": 5.9964,
      "step": 95500
    },
    {
      "epoch": 0.35,
      "learning_rate": 4.4210861602165955e-05,
      "loss": 5.9927,
      "step": 96000
    },
    {
      "epoch": 0.35,
      "eval_loss": 6.015842914581299,
      "eval_runtime": 4.2524,
      "eval_samples_per_second": 235.159,
      "eval_steps_per_second": 14.815,
      "step": 96000
    },
    {
      "epoch": 0.35,
      "learning_rate": 4.4180698528524615e-05,
      "loss": 5.999,
      "step": 96500
    },
    {
      "epoch": 0.35,
      "learning_rate": 4.415053545488328e-05,
      "loss": 5.9784,
      "step": 97000
    },
    {
      "epoch": 0.35,
      "eval_loss": 6.02786111831665,
      "eval_runtime": 4.3676,
      "eval_samples_per_second": 228.957,
      "eval_steps_per_second": 14.424,
      "step": 97000
    },
    {
      "epoch": 0.35,
      "learning_rate": 4.412037238124195e-05,
      "loss": 5.9761,
      "step": 97500
    },
    {
      "epoch": 0.35,
      "learning_rate": 4.4090329959895174e-05,
      "loss": 5.9748,
      "step": 98000
    },
    {
      "epoch": 0.35,
      "eval_loss": 6.014493465423584,
      "eval_runtime": 4.2894,
      "eval_samples_per_second": 233.134,
      "eval_steps_per_second": 14.687,
      "step": 98000
    },
    {
      "epoch": 0.36,
      "learning_rate": 4.406016688625385e-05,
      "loss": 5.9804,
      "step": 98500
    },
    {
      "epoch": 0.36,
      "learning_rate": 4.403000381261251e-05,
      "loss": 5.9741,
      "step": 99000
    },
    {
      "epoch": 0.36,
      "eval_loss": 6.044219493865967,
      "eval_runtime": 4.3247,
      "eval_samples_per_second": 231.229,
      "eval_steps_per_second": 14.567,
      "step": 99000
    },
    {
      "epoch": 0.36,
      "learning_rate": 4.3999840738971175e-05,
      "loss": 5.9778,
      "step": 99500
    },
    {
      "epoch": 0.36,
      "learning_rate": 4.396967766532984e-05,
      "loss": 5.9699,
      "step": 100000
    },
    {
      "epoch": 0.36,
      "eval_loss": 6.005799293518066,
      "eval_runtime": 4.3718,
      "eval_samples_per_second": 228.741,
      "eval_steps_per_second": 14.411,
      "step": 100000
    },
    {
      "epoch": 0.36,
      "learning_rate": 4.393951459168851e-05,
      "loss": 5.9631,
      "step": 100500
    },
    {
      "epoch": 0.37,
      "learning_rate": 4.390935151804717e-05,
      "loss": 5.9899,
      "step": 101000
    },
    {
      "epoch": 0.37,
      "eval_loss": 5.946277618408203,
      "eval_runtime": 4.3243,
      "eval_samples_per_second": 231.25,
      "eval_steps_per_second": 14.569,
      "step": 101000
    },
    {
      "epoch": 0.37,
      "learning_rate": 4.3879188444405836e-05,
      "loss": 5.9565,
      "step": 101500
    },
    {
      "epoch": 0.37,
      "learning_rate": 4.38490253707645e-05,
      "loss": 5.9728,
      "step": 102000
    },
    {
      "epoch": 0.37,
      "eval_loss": 6.005879878997803,
      "eval_runtime": 4.4401,
      "eval_samples_per_second": 225.223,
      "eval_steps_per_second": 14.189,
      "step": 102000
    },
    {
      "epoch": 0.37,
      "learning_rate": 4.381886229712317e-05,
      "loss": 5.9722,
      "step": 102500
    },
    {
      "epoch": 0.37,
      "learning_rate": 4.378869922348183e-05,
      "loss": 5.9503,
      "step": 103000
    },
    {
      "epoch": 0.37,
      "eval_loss": 5.96213436126709,
      "eval_runtime": 4.349,
      "eval_samples_per_second": 229.939,
      "eval_steps_per_second": 14.486,
      "step": 103000
    },
    {
      "epoch": 0.37,
      "learning_rate": 4.3758536149840504e-05,
      "loss": 5.9631,
      "step": 103500
    },
    {
      "epoch": 0.38,
      "learning_rate": 4.3728373076199164e-05,
      "loss": 5.9573,
      "step": 104000
    },
    {
      "epoch": 0.38,
      "eval_loss": 6.019954681396484,
      "eval_runtime": 4.3963,
      "eval_samples_per_second": 227.464,
      "eval_steps_per_second": 14.33,
      "step": 104000
    },
    {
      "epoch": 0.38,
      "learning_rate": 4.3698270328705114e-05,
      "loss": 5.9604,
      "step": 104500
    },
    {
      "epoch": 0.38,
      "learning_rate": 4.366810725506378e-05,
      "loss": 5.9563,
      "step": 105000
    },
    {
      "epoch": 0.38,
      "eval_loss": 6.00137996673584,
      "eval_runtime": 4.4013,
      "eval_samples_per_second": 227.207,
      "eval_steps_per_second": 14.314,
      "step": 105000
    },
    {
      "epoch": 0.38,
      "learning_rate": 4.363794418142245e-05,
      "loss": 5.9479,
      "step": 105500
    },
    {
      "epoch": 0.38,
      "learning_rate": 4.360778110778111e-05,
      "loss": 5.9414,
      "step": 106000
    },
    {
      "epoch": 0.38,
      "eval_loss": 5.9667510986328125,
      "eval_runtime": 4.2409,
      "eval_samples_per_second": 235.8,
      "eval_steps_per_second": 14.855,
      "step": 106000
    },
    {
      "epoch": 0.39,
      "learning_rate": 4.357773868643434e-05,
      "loss": 5.9349,
      "step": 106500
    },
    {
      "epoch": 0.39,
      "learning_rate": 4.354757561279301e-05,
      "loss": 5.9311,
      "step": 107000
    },
    {
      "epoch": 0.39,
      "eval_loss": 6.016119956970215,
      "eval_runtime": 6.3445,
      "eval_samples_per_second": 157.617,
      "eval_steps_per_second": 9.93,
      "step": 107000
    },
    {
      "epoch": 0.39,
      "learning_rate": 4.351741253915167e-05,
      "loss": 5.9398,
      "step": 107500
    },
    {
      "epoch": 0.39,
      "learning_rate": 4.348724946551034e-05,
      "loss": 5.9357,
      "step": 108000
    },
    {
      "epoch": 0.39,
      "eval_loss": 5.970701217651367,
      "eval_runtime": 4.3817,
      "eval_samples_per_second": 228.222,
      "eval_steps_per_second": 14.378,
      "step": 108000
    },
    {
      "epoch": 0.39,
      "learning_rate": 4.3457086391869e-05,
      "loss": 5.9368,
      "step": 108500
    },
    {
      "epoch": 0.39,
      "learning_rate": 4.342698364437495e-05,
      "loss": 5.9312,
      "step": 109000
    },
    {
      "epoch": 0.39,
      "eval_loss": 5.961437702178955,
      "eval_runtime": 4.3658,
      "eval_samples_per_second": 229.052,
      "eval_steps_per_second": 14.43,
      "step": 109000
    },
    {
      "epoch": 0.4,
      "learning_rate": 4.339682057073362e-05,
      "loss": 5.9306,
      "step": 109500
    },
    {
      "epoch": 0.4,
      "learning_rate": 4.3366657497092285e-05,
      "loss": 5.9337,
      "step": 110000
    },
    {
      "epoch": 0.4,
      "eval_loss": 5.9670586585998535,
      "eval_runtime": 4.3639,
      "eval_samples_per_second": 229.152,
      "eval_steps_per_second": 14.437,
      "step": 110000
    },
    {
      "epoch": 0.4,
      "learning_rate": 4.3336494423450945e-05,
      "loss": 5.9424,
      "step": 110500
    },
    {
      "epoch": 0.4,
      "learning_rate": 4.330633134980961e-05,
      "loss": 5.9361,
      "step": 111000
    },
    {
      "epoch": 0.4,
      "eval_loss": 6.001840591430664,
      "eval_runtime": 4.3398,
      "eval_samples_per_second": 230.423,
      "eval_steps_per_second": 14.517,
      "step": 111000
    },
    {
      "epoch": 0.4,
      "learning_rate": 4.327616827616828e-05,
      "loss": 5.9411,
      "step": 111500
    },
    {
      "epoch": 0.41,
      "learning_rate": 4.324606552867423e-05,
      "loss": 5.9163,
      "step": 112000
    },
    {
      "epoch": 0.41,
      "eval_loss": 5.968799114227295,
      "eval_runtime": 4.2961,
      "eval_samples_per_second": 232.767,
      "eval_steps_per_second": 14.664,
      "step": 112000
    },
    {
      "epoch": 0.41,
      "learning_rate": 4.321596278118018e-05,
      "loss": 5.9305,
      "step": 112500
    },
    {
      "epoch": 0.41,
      "learning_rate": 4.318579970753884e-05,
      "loss": 5.9078,
      "step": 113000
    },
    {
      "epoch": 0.41,
      "eval_loss": 5.962240219116211,
      "eval_runtime": 4.405,
      "eval_samples_per_second": 227.013,
      "eval_steps_per_second": 14.302,
      "step": 113000
    },
    {
      "epoch": 0.41,
      "learning_rate": 4.3155636633897505e-05,
      "loss": 5.9165,
      "step": 113500
    },
    {
      "epoch": 0.41,
      "learning_rate": 4.312547356025617e-05,
      "loss": 5.9351,
      "step": 114000
    },
    {
      "epoch": 0.41,
      "eval_loss": 5.99934196472168,
      "eval_runtime": 4.3193,
      "eval_samples_per_second": 231.518,
      "eval_steps_per_second": 14.586,
      "step": 114000
    },
    {
      "epoch": 0.41,
      "learning_rate": 4.309531048661484e-05,
      "loss": 5.9126,
      "step": 114500
    },
    {
      "epoch": 0.42,
      "learning_rate": 4.30651474129735e-05,
      "loss": 5.9191,
      "step": 115000
    },
    {
      "epoch": 0.42,
      "eval_loss": 5.963631629943848,
      "eval_runtime": 6.2259,
      "eval_samples_per_second": 160.621,
      "eval_steps_per_second": 10.119,
      "step": 115000
    },
    {
      "epoch": 0.42,
      "learning_rate": 4.3034984339332166e-05,
      "loss": 5.9279,
      "step": 115500
    },
    {
      "epoch": 0.42,
      "learning_rate": 4.300482126569083e-05,
      "loss": 5.9058,
      "step": 116000
    },
    {
      "epoch": 0.42,
      "eval_loss": 5.989487171173096,
      "eval_runtime": 4.3475,
      "eval_samples_per_second": 230.019,
      "eval_steps_per_second": 14.491,
      "step": 116000
    },
    {
      "epoch": 0.42,
      "learning_rate": 4.29746581920495e-05,
      "loss": 5.9151,
      "step": 116500
    },
    {
      "epoch": 0.42,
      "learning_rate": 4.294449511840816e-05,
      "loss": 5.9031,
      "step": 117000
    },
    {
      "epoch": 0.42,
      "eval_loss": 5.9690752029418945,
      "eval_runtime": 4.1678,
      "eval_samples_per_second": 239.936,
      "eval_steps_per_second": 15.116,
      "step": 117000
    },
    {
      "epoch": 0.43,
      "learning_rate": 4.2914332044766834e-05,
      "loss": 5.9153,
      "step": 117500
    },
    {
      "epoch": 0.43,
      "learning_rate": 4.288422929727278e-05,
      "loss": 5.9167,
      "step": 118000
    },
    {
      "epoch": 0.43,
      "eval_loss": 5.953476428985596,
      "eval_runtime": 4.2534,
      "eval_samples_per_second": 235.107,
      "eval_steps_per_second": 14.812,
      "step": 118000
    },
    {
      "epoch": 0.43,
      "learning_rate": 4.2854066223631444e-05,
      "loss": 5.8958,
      "step": 118500
    },
    {
      "epoch": 0.43,
      "learning_rate": 4.282390314999011e-05,
      "loss": 5.9013,
      "step": 119000
    },
    {
      "epoch": 0.43,
      "eval_loss": 5.934565544128418,
      "eval_runtime": 4.1119,
      "eval_samples_per_second": 243.194,
      "eval_steps_per_second": 15.321,
      "step": 119000
    },
    {
      "epoch": 0.43,
      "learning_rate": 4.279374007634878e-05,
      "loss": 5.8967,
      "step": 119500
    },
    {
      "epoch": 0.43,
      "learning_rate": 4.276357700270744e-05,
      "loss": 5.9066,
      "step": 120000
    },
    {
      "epoch": 0.43,
      "eval_loss": 5.935710906982422,
      "eval_runtime": 4.1492,
      "eval_samples_per_second": 241.009,
      "eval_steps_per_second": 15.184,
      "step": 120000
    },
    {
      "epoch": 0.44,
      "learning_rate": 4.2733413929066105e-05,
      "loss": 5.9031,
      "step": 120500
    },
    {
      "epoch": 0.44,
      "learning_rate": 4.270325085542477e-05,
      "loss": 5.8929,
      "step": 121000
    },
    {
      "epoch": 0.44,
      "eval_loss": 5.922500133514404,
      "eval_runtime": 3.9626,
      "eval_samples_per_second": 252.362,
      "eval_steps_per_second": 15.899,
      "step": 121000
    },
    {
      "epoch": 0.44,
      "learning_rate": 4.2673148107930715e-05,
      "loss": 5.9005,
      "step": 121500
    },
    {
      "epoch": 0.44,
      "learning_rate": 4.264298503428938e-05,
      "loss": 5.9015,
      "step": 122000
    },
    {
      "epoch": 0.44,
      "eval_loss": 5.941558361053467,
      "eval_runtime": 4.1057,
      "eval_samples_per_second": 243.562,
      "eval_steps_per_second": 15.344,
      "step": 122000
    },
    {
      "epoch": 0.44,
      "learning_rate": 4.261282196064805e-05,
      "loss": 5.8931,
      "step": 122500
    },
    {
      "epoch": 0.45,
      "learning_rate": 4.2582658887006715e-05,
      "loss": 5.8834,
      "step": 123000
    },
    {
      "epoch": 0.45,
      "eval_loss": 5.9397172927856445,
      "eval_runtime": 4.1106,
      "eval_samples_per_second": 243.275,
      "eval_steps_per_second": 15.326,
      "step": 123000
    },
    {
      "epoch": 0.45,
      "learning_rate": 4.2552495813365376e-05,
      "loss": 5.8849,
      "step": 123500
    },
    {
      "epoch": 0.45,
      "learning_rate": 4.252239306587133e-05,
      "loss": 5.8941,
      "step": 124000
    },
    {
      "epoch": 0.45,
      "eval_loss": 5.900291919708252,
      "eval_runtime": 4.2978,
      "eval_samples_per_second": 232.678,
      "eval_steps_per_second": 14.659,
      "step": 124000
    },
    {
      "epoch": 0.45,
      "learning_rate": 4.249222999222999e-05,
      "loss": 5.8869,
      "step": 124500
    },
    {
      "epoch": 0.45,
      "learning_rate": 4.246206691858866e-05,
      "loss": 5.8926,
      "step": 125000
    },
    {
      "epoch": 0.45,
      "eval_loss": 5.94087028503418,
      "eval_runtime": 4.2807,
      "eval_samples_per_second": 233.609,
      "eval_steps_per_second": 14.717,
      "step": 125000
    },
    {
      "epoch": 0.45,
      "learning_rate": 4.2431903844947326e-05,
      "loss": 5.8719,
      "step": 125500
    },
    {
      "epoch": 0.46,
      "learning_rate": 4.2401801097453276e-05,
      "loss": 5.8807,
      "step": 126000
    },
    {
      "epoch": 0.46,
      "eval_loss": 5.909360408782959,
      "eval_runtime": 4.3061,
      "eval_samples_per_second": 232.228,
      "eval_steps_per_second": 14.63,
      "step": 126000
    },
    {
      "epoch": 0.46,
      "learning_rate": 4.2371638023811936e-05,
      "loss": 5.8892,
      "step": 126500
    },
    {
      "epoch": 0.46,
      "learning_rate": 4.234147495017061e-05,
      "loss": 5.8809,
      "step": 127000
    },
    {
      "epoch": 0.46,
      "eval_loss": 5.925731658935547,
      "eval_runtime": 4.3535,
      "eval_samples_per_second": 229.703,
      "eval_steps_per_second": 14.471,
      "step": 127000
    },
    {
      "epoch": 0.46,
      "learning_rate": 4.231131187652927e-05,
      "loss": 5.8775,
      "step": 127500
    },
    {
      "epoch": 0.46,
      "learning_rate": 4.228120912903521e-05,
      "loss": 5.8816,
      "step": 128000
    },
    {
      "epoch": 0.46,
      "eval_loss": 5.949062347412109,
      "eval_runtime": 6.324,
      "eval_samples_per_second": 158.127,
      "eval_steps_per_second": 9.962,
      "step": 128000
    },
    {
      "epoch": 0.47,
      "learning_rate": 4.2251046055393886e-05,
      "loss": 5.8887,
      "step": 128500
    },
    {
      "epoch": 0.47,
      "learning_rate": 4.2220882981752546e-05,
      "loss": 5.8612,
      "step": 129000
    },
    {
      "epoch": 0.47,
      "eval_loss": 5.9013543128967285,
      "eval_runtime": 4.2793,
      "eval_samples_per_second": 233.683,
      "eval_steps_per_second": 14.722,
      "step": 129000
    },
    {
      "epoch": 0.47,
      "learning_rate": 4.2190719908111213e-05,
      "loss": 5.876,
      "step": 129500
    },
    {
      "epoch": 0.47,
      "learning_rate": 4.216055683446988e-05,
      "loss": 5.8685,
      "step": 130000
    },
    {
      "epoch": 0.47,
      "eval_loss": 5.895120143890381,
      "eval_runtime": 4.4394,
      "eval_samples_per_second": 225.255,
      "eval_steps_per_second": 14.191,
      "step": 130000
    },
    {
      "epoch": 0.47,
      "learning_rate": 4.213039376082855e-05,
      "loss": 5.8975,
      "step": 130500
    },
    {
      "epoch": 0.47,
      "learning_rate": 4.210029101333449e-05,
      "loss": 5.8759,
      "step": 131000
    },
    {
      "epoch": 0.47,
      "eval_loss": 5.904821872711182,
      "eval_runtime": 6.1491,
      "eval_samples_per_second": 162.626,
      "eval_steps_per_second": 10.245,
      "step": 131000
    },
    {
      "epoch": 0.48,
      "learning_rate": 4.207012793969316e-05,
      "loss": 5.8635,
      "step": 131500
    },
    {
      "epoch": 0.48,
      "learning_rate": 4.2039964866051824e-05,
      "loss": 5.875,
      "step": 132000
    },
    {
      "epoch": 0.48,
      "eval_loss": 5.9182329177856445,
      "eval_runtime": 4.3366,
      "eval_samples_per_second": 230.597,
      "eval_steps_per_second": 14.528,
      "step": 132000
    },
    {
      "epoch": 0.48,
      "learning_rate": 4.200980179241049e-05,
      "loss": 5.8747,
      "step": 132500
    },
    {
      "epoch": 0.48,
      "learning_rate": 4.197963871876915e-05,
      "loss": 5.8686,
      "step": 133000
    },
    {
      "epoch": 0.48,
      "eval_loss": 5.91906213760376,
      "eval_runtime": 4.3148,
      "eval_samples_per_second": 231.759,
      "eval_steps_per_second": 14.601,
      "step": 133000
    },
    {
      "epoch": 0.48,
      "learning_rate": 4.194953597127511e-05,
      "loss": 5.8716,
      "step": 133500
    },
    {
      "epoch": 0.49,
      "learning_rate": 4.191937289763377e-05,
      "loss": 5.8808,
      "step": 134000
    },
    {
      "epoch": 0.49,
      "eval_loss": 5.845741271972656,
      "eval_runtime": 4.3065,
      "eval_samples_per_second": 232.206,
      "eval_steps_per_second": 14.629,
      "step": 134000
    },
    {
      "epoch": 0.49,
      "learning_rate": 4.1889209823992435e-05,
      "loss": 5.8677,
      "step": 134500
    },
    {
      "epoch": 0.49,
      "learning_rate": 4.18590467503511e-05,
      "loss": 5.8624,
      "step": 135000
    },
    {
      "epoch": 0.49,
      "eval_loss": 5.901210308074951,
      "eval_runtime": 4.2572,
      "eval_samples_per_second": 234.896,
      "eval_steps_per_second": 14.798,
      "step": 135000
    },
    {
      "epoch": 0.49,
      "learning_rate": 4.182888367670977e-05,
      "loss": 5.8513,
      "step": 135500
    },
    {
      "epoch": 0.49,
      "learning_rate": 4.179872060306843e-05,
      "loss": 5.865,
      "step": 136000
    },
    {
      "epoch": 0.49,
      "eval_loss": 5.93388557434082,
      "eval_runtime": 4.3004,
      "eval_samples_per_second": 232.539,
      "eval_steps_per_second": 14.65,
      "step": 136000
    },
    {
      "epoch": 0.49,
      "learning_rate": 4.17685575294271e-05,
      "loss": 5.8666,
      "step": 136500
    },
    {
      "epoch": 0.5,
      "learning_rate": 4.173839445578576e-05,
      "loss": 5.8595,
      "step": 137000
    },
    {
      "epoch": 0.5,
      "eval_loss": 5.921290874481201,
      "eval_runtime": 4.3562,
      "eval_samples_per_second": 229.559,
      "eval_steps_per_second": 14.462,
      "step": 137000
    },
    {
      "epoch": 0.5,
      "learning_rate": 4.170823138214443e-05,
      "loss": 5.8616,
      "step": 137500
    },
    {
      "epoch": 0.5,
      "learning_rate": 4.167812863465038e-05,
      "loss": 5.8664,
      "step": 138000
    },
    {
      "epoch": 0.5,
      "eval_loss": 5.8725409507751465,
      "eval_runtime": 4.2779,
      "eval_samples_per_second": 233.757,
      "eval_steps_per_second": 14.727,
      "step": 138000
    },
    {
      "epoch": 0.5,
      "learning_rate": 4.164796556100904e-05,
      "loss": 5.8355,
      "step": 138500
    },
    {
      "epoch": 0.5,
      "learning_rate": 4.1617802487367706e-05,
      "loss": 5.8529,
      "step": 139000
    },
    {
      "epoch": 0.5,
      "eval_loss": 5.918557643890381,
      "eval_runtime": 4.3121,
      "eval_samples_per_second": 231.903,
      "eval_steps_per_second": 14.61,
      "step": 139000
    },
    {
      "epoch": 0.5,
      "learning_rate": 4.1587699739873656e-05,
      "loss": 5.8408,
      "step": 139500
    },
    {
      "epoch": 0.51,
      "learning_rate": 4.155753666623232e-05,
      "loss": 5.8419,
      "step": 140000
    },
    {
      "epoch": 0.51,
      "eval_loss": 5.910894870758057,
      "eval_runtime": 4.3311,
      "eval_samples_per_second": 230.888,
      "eval_steps_per_second": 14.546,
      "step": 140000
    },
    {
      "epoch": 0.51,
      "learning_rate": 4.152737359259098e-05,
      "loss": 5.8523,
      "step": 140500
    },
    {
      "epoch": 0.51,
      "learning_rate": 4.149721051894965e-05,
      "loss": 5.8436,
      "step": 141000
    },
    {
      "epoch": 0.51,
      "eval_loss": 5.868130207061768,
      "eval_runtime": 4.3137,
      "eval_samples_per_second": 231.819,
      "eval_steps_per_second": 14.605,
      "step": 141000
    },
    {
      "epoch": 0.51,
      "learning_rate": 4.146704744530832e-05,
      "loss": 5.8501,
      "step": 141500
    },
    {
      "epoch": 0.51,
      "learning_rate": 4.143694469781427e-05,
      "loss": 5.8394,
      "step": 142000
    },
    {
      "epoch": 0.51,
      "eval_loss": 5.902928829193115,
      "eval_runtime": 4.3712,
      "eval_samples_per_second": 228.77,
      "eval_steps_per_second": 14.412,
      "step": 142000
    },
    {
      "epoch": 0.52,
      "learning_rate": 4.140678162417293e-05,
      "loss": 5.843,
      "step": 142500
    },
    {
      "epoch": 0.52,
      "learning_rate": 4.13766185505316e-05,
      "loss": 5.8433,
      "step": 143000
    },
    {
      "epoch": 0.52,
      "eval_loss": 5.870312690734863,
      "eval_runtime": 4.2876,
      "eval_samples_per_second": 233.229,
      "eval_steps_per_second": 14.693,
      "step": 143000
    },
    {
      "epoch": 0.52,
      "learning_rate": 4.134645547689026e-05,
      "loss": 5.8436,
      "step": 143500
    },
    {
      "epoch": 0.52,
      "learning_rate": 4.131629240324893e-05,
      "loss": 5.8415,
      "step": 144000
    },
    {
      "epoch": 0.52,
      "eval_loss": 5.892139434814453,
      "eval_runtime": 4.3156,
      "eval_samples_per_second": 231.716,
      "eval_steps_per_second": 14.598,
      "step": 144000
    },
    {
      "epoch": 0.52,
      "learning_rate": 4.1286129329607595e-05,
      "loss": 5.8496,
      "step": 144500
    },
    {
      "epoch": 0.52,
      "learning_rate": 4.125602658211354e-05,
      "loss": 5.8489,
      "step": 145000
    },
    {
      "epoch": 0.52,
      "eval_loss": 5.9164910316467285,
      "eval_runtime": 4.382,
      "eval_samples_per_second": 228.207,
      "eval_steps_per_second": 14.377,
      "step": 145000
    },
    {
      "epoch": 0.53,
      "learning_rate": 4.1225863508472204e-05,
      "loss": 5.8353,
      "step": 145500
    },
    {
      "epoch": 0.53,
      "learning_rate": 4.119570043483087e-05,
      "loss": 5.8531,
      "step": 146000
    },
    {
      "epoch": 0.53,
      "eval_loss": 5.896515846252441,
      "eval_runtime": 4.3161,
      "eval_samples_per_second": 231.693,
      "eval_steps_per_second": 14.597,
      "step": 146000
    },
    {
      "epoch": 0.53,
      "learning_rate": 4.116553736118954e-05,
      "loss": 5.833,
      "step": 146500
    },
    {
      "epoch": 0.53,
      "learning_rate": 4.11353742875482e-05,
      "loss": 5.8285,
      "step": 147000
    },
    {
      "epoch": 0.53,
      "eval_loss": 5.857729911804199,
      "eval_runtime": 4.3275,
      "eval_samples_per_second": 231.083,
      "eval_steps_per_second": 14.558,
      "step": 147000
    },
    {
      "epoch": 0.53,
      "learning_rate": 4.110521121390687e-05,
      "loss": 5.8368,
      "step": 147500
    },
    {
      "epoch": 0.54,
      "learning_rate": 4.107504814026553e-05,
      "loss": 5.8258,
      "step": 148000
    },
    {
      "epoch": 0.54,
      "eval_loss": 5.907439231872559,
      "eval_runtime": 4.3373,
      "eval_samples_per_second": 230.556,
      "eval_steps_per_second": 14.525,
      "step": 148000
    },
    {
      "epoch": 0.54,
      "learning_rate": 4.10448850666242e-05,
      "loss": 5.8369,
      "step": 148500
    },
    {
      "epoch": 0.54,
      "learning_rate": 4.101478231913015e-05,
      "loss": 5.8342,
      "step": 149000
    },
    {
      "epoch": 0.54,
      "eval_loss": 5.867617130279541,
      "eval_runtime": 4.3431,
      "eval_samples_per_second": 230.249,
      "eval_steps_per_second": 14.506,
      "step": 149000
    },
    {
      "epoch": 0.54,
      "learning_rate": 4.0984619245488816e-05,
      "loss": 5.8303,
      "step": 149500
    },
    {
      "epoch": 0.54,
      "learning_rate": 4.0954456171847476e-05,
      "loss": 5.8182,
      "step": 150000
    },
    {
      "epoch": 0.54,
      "eval_loss": 5.870373725891113,
      "eval_runtime": 4.346,
      "eval_samples_per_second": 230.099,
      "eval_steps_per_second": 14.496,
      "step": 150000
    },
    {
      "epoch": 0.54,
      "learning_rate": 4.092429309820614e-05,
      "loss": 5.8311,
      "step": 150500
    },
    {
      "epoch": 0.55,
      "learning_rate": 4.089419035071209e-05,
      "loss": 5.8423,
      "step": 151000
    },
    {
      "epoch": 0.55,
      "eval_loss": 5.850360870361328,
      "eval_runtime": 4.3581,
      "eval_samples_per_second": 229.46,
      "eval_steps_per_second": 14.456,
      "step": 151000
    },
    {
      "epoch": 0.55,
      "learning_rate": 4.086402727707076e-05,
      "loss": 5.8341,
      "step": 151500
    },
    {
      "epoch": 0.55,
      "learning_rate": 4.083386420342942e-05,
      "loss": 5.8201,
      "step": 152000
    },
    {
      "epoch": 0.55,
      "eval_loss": 5.889283180236816,
      "eval_runtime": 6.4869,
      "eval_samples_per_second": 154.156,
      "eval_steps_per_second": 9.712,
      "step": 152000
    },
    {
      "epoch": 0.55,
      "learning_rate": 4.080370112978809e-05,
      "loss": 5.8177,
      "step": 152500
    },
    {
      "epoch": 0.55,
      "learning_rate": 4.0773538056146754e-05,
      "loss": 5.8277,
      "step": 153000
    },
    {
      "epoch": 0.55,
      "eval_loss": 5.80609130859375,
      "eval_runtime": 4.3836,
      "eval_samples_per_second": 228.121,
      "eval_steps_per_second": 14.372,
      "step": 153000
    },
    {
      "epoch": 0.56,
      "learning_rate": 4.0743374982505414e-05,
      "loss": 5.8206,
      "step": 153500
    },
    {
      "epoch": 0.56,
      "learning_rate": 4.071321190886409e-05,
      "loss": 5.8245,
      "step": 154000
    },
    {
      "epoch": 0.56,
      "eval_loss": 5.86394739151001,
      "eval_runtime": 4.2559,
      "eval_samples_per_second": 234.966,
      "eval_steps_per_second": 14.803,
      "step": 154000
    },
    {
      "epoch": 0.56,
      "learning_rate": 4.068310916137003e-05,
      "loss": 5.8145,
      "step": 154500
    },
    {
      "epoch": 0.56,
      "learning_rate": 4.06529460877287e-05,
      "loss": 5.8244,
      "step": 155000
    },
    {
      "epoch": 0.56,
      "eval_loss": 5.874474048614502,
      "eval_runtime": 4.2932,
      "eval_samples_per_second": 232.925,
      "eval_steps_per_second": 14.674,
      "step": 155000
    },
    {
      "epoch": 0.56,
      "learning_rate": 4.0622783014087364e-05,
      "loss": 5.828,
      "step": 155500
    },
    {
      "epoch": 0.56,
      "learning_rate": 4.059261994044603e-05,
      "loss": 5.8241,
      "step": 156000
    },
    {
      "epoch": 0.56,
      "eval_loss": 5.891319274902344,
      "eval_runtime": 4.1898,
      "eval_samples_per_second": 238.672,
      "eval_steps_per_second": 15.036,
      "step": 156000
    },
    {
      "epoch": 0.57,
      "learning_rate": 4.0562517192951974e-05,
      "loss": 5.8099,
      "step": 156500
    },
    {
      "epoch": 0.57,
      "learning_rate": 4.053235411931065e-05,
      "loss": 5.816,
      "step": 157000
    },
    {
      "epoch": 0.57,
      "eval_loss": 5.805520534515381,
      "eval_runtime": 4.1865,
      "eval_samples_per_second": 238.861,
      "eval_steps_per_second": 15.048,
      "step": 157000
    },
    {
      "epoch": 0.57,
      "learning_rate": 4.050219104566931e-05,
      "loss": 5.8202,
      "step": 157500
    },
    {
      "epoch": 0.57,
      "learning_rate": 4.0472027972027975e-05,
      "loss": 5.8128,
      "step": 158000
    },
    {
      "epoch": 0.57,
      "eval_loss": 5.84921407699585,
      "eval_runtime": 5.9007,
      "eval_samples_per_second": 169.472,
      "eval_steps_per_second": 10.677,
      "step": 158000
    },
    {
      "epoch": 0.57,
      "learning_rate": 4.044186489838664e-05,
      "loss": 5.8166,
      "step": 158500
    },
    {
      "epoch": 0.58,
      "learning_rate": 4.041170182474531e-05,
      "loss": 5.8186,
      "step": 159000
    },
    {
      "epoch": 0.58,
      "eval_loss": 5.864505290985107,
      "eval_runtime": 4.302,
      "eval_samples_per_second": 232.451,
      "eval_steps_per_second": 14.644,
      "step": 159000
    },
    {
      "epoch": 0.58,
      "learning_rate": 4.038159907725125e-05,
      "loss": 5.7966,
      "step": 159500
    },
    {
      "epoch": 0.58,
      "learning_rate": 4.035143600360992e-05,
      "loss": 5.8179,
      "step": 160000
    },
    {
      "epoch": 0.58,
      "eval_loss": 5.826276779174805,
      "eval_runtime": 4.3186,
      "eval_samples_per_second": 231.558,
      "eval_steps_per_second": 14.588,
      "step": 160000
    },
    {
      "epoch": 0.58,
      "learning_rate": 4.0321272929968586e-05,
      "loss": 5.8101,
      "step": 160500
    },
    {
      "epoch": 0.58,
      "learning_rate": 4.0291109856327246e-05,
      "loss": 5.8193,
      "step": 161000
    },
    {
      "epoch": 0.58,
      "eval_loss": 5.851203918457031,
      "eval_runtime": 6.3135,
      "eval_samples_per_second": 158.39,
      "eval_steps_per_second": 9.979,
      "step": 161000
    },
    {
      "epoch": 0.58,
      "learning_rate": 4.0261007108833195e-05,
      "loss": 5.8154,
      "step": 161500
    },
    {
      "epoch": 0.59,
      "learning_rate": 4.023084403519186e-05,
      "loss": 5.7945,
      "step": 162000
    },
    {
      "epoch": 0.59,
      "eval_loss": 5.839649677276611,
      "eval_runtime": 4.357,
      "eval_samples_per_second": 229.515,
      "eval_steps_per_second": 14.459,
      "step": 162000
    },
    {
      "epoch": 0.59,
      "learning_rate": 4.020068096155053e-05,
      "loss": 5.801,
      "step": 162500
    },
    {
      "epoch": 0.59,
      "learning_rate": 4.017051788790919e-05,
      "loss": 5.804,
      "step": 163000
    },
    {
      "epoch": 0.59,
      "eval_loss": 5.798958778381348,
      "eval_runtime": 4.3729,
      "eval_samples_per_second": 228.679,
      "eval_steps_per_second": 14.407,
      "step": 163000
    },
    {
      "epoch": 0.59,
      "learning_rate": 4.014035481426786e-05,
      "loss": 5.8083,
      "step": 163500
    },
    {
      "epoch": 0.59,
      "learning_rate": 4.0110252066773806e-05,
      "loss": 5.8002,
      "step": 164000
    },
    {
      "epoch": 0.59,
      "eval_loss": 5.807581424713135,
      "eval_runtime": 6.5612,
      "eval_samples_per_second": 152.412,
      "eval_steps_per_second": 9.602,
      "step": 164000
    },
    {
      "epoch": 0.6,
      "learning_rate": 4.008008899313247e-05,
      "loss": 5.8106,
      "step": 164500
    },
    {
      "epoch": 0.6,
      "learning_rate": 4.004992591949114e-05,
      "loss": 5.8056,
      "step": 165000
    },
    {
      "epoch": 0.6,
      "eval_loss": 5.79323673248291,
      "eval_runtime": 4.3218,
      "eval_samples_per_second": 231.385,
      "eval_steps_per_second": 14.577,
      "step": 165000
    },
    {
      "epoch": 0.6,
      "learning_rate": 4.001976284584981e-05,
      "loss": 5.8112,
      "step": 165500
    },
    {
      "epoch": 0.6,
      "learning_rate": 3.998966009835575e-05,
      "loss": 5.7934,
      "step": 166000
    },
    {
      "epoch": 0.6,
      "eval_loss": 5.81195592880249,
      "eval_runtime": 4.3688,
      "eval_samples_per_second": 228.895,
      "eval_steps_per_second": 14.42,
      "step": 166000
    },
    {
      "epoch": 0.6,
      "learning_rate": 3.9959497024714423e-05,
      "loss": 5.7962,
      "step": 166500
    },
    {
      "epoch": 0.6,
      "learning_rate": 3.9929333951073084e-05,
      "loss": 5.8154,
      "step": 167000
    },
    {
      "epoch": 0.6,
      "eval_loss": 5.7888407707214355,
      "eval_runtime": 4.3098,
      "eval_samples_per_second": 232.032,
      "eval_steps_per_second": 14.618,
      "step": 167000
    },
    {
      "epoch": 0.61,
      "learning_rate": 3.9899170877431744e-05,
      "loss": 5.802,
      "step": 167500
    },
    {
      "epoch": 0.61,
      "learning_rate": 3.986900780379042e-05,
      "loss": 5.8044,
      "step": 168000
    },
    {
      "epoch": 0.61,
      "eval_loss": 5.808478355407715,
      "eval_runtime": 4.3839,
      "eval_samples_per_second": 228.11,
      "eval_steps_per_second": 14.371,
      "step": 168000
    },
    {
      "epoch": 0.61,
      "learning_rate": 3.983884473014908e-05,
      "loss": 5.7986,
      "step": 168500
    },
    {
      "epoch": 0.61,
      "learning_rate": 3.980874198265503e-05,
      "loss": 5.8019,
      "step": 169000
    },
    {
      "epoch": 0.61,
      "eval_loss": 5.862877368927002,
      "eval_runtime": 4.306,
      "eval_samples_per_second": 232.233,
      "eval_steps_per_second": 14.631,
      "step": 169000
    },
    {
      "epoch": 0.61,
      "learning_rate": 3.9778578909013694e-05,
      "loss": 5.7873,
      "step": 169500
    },
    {
      "epoch": 0.62,
      "learning_rate": 3.974841583537236e-05,
      "loss": 5.7818,
      "step": 170000
    },
    {
      "epoch": 0.62,
      "eval_loss": 5.815363883972168,
      "eval_runtime": 6.2718,
      "eval_samples_per_second": 159.444,
      "eval_steps_per_second": 10.045,
      "step": 170000
    },
    {
      "epoch": 0.62,
      "learning_rate": 3.971825276173102e-05,
      "loss": 5.801,
      "step": 170500
    },
    {
      "epoch": 0.62,
      "learning_rate": 3.968808968808969e-05,
      "loss": 5.8158,
      "step": 171000
    },
    {
      "epoch": 0.62,
      "eval_loss": 5.889772415161133,
      "eval_runtime": 4.3105,
      "eval_samples_per_second": 231.99,
      "eval_steps_per_second": 14.615,
      "step": 171000
    },
    {
      "epoch": 0.62,
      "learning_rate": 3.965798694059564e-05,
      "loss": 5.7831,
      "step": 171500
    },
    {
      "epoch": 0.62,
      "learning_rate": 3.9627823866954305e-05,
      "loss": 5.7964,
      "step": 172000
    },
    {
      "epoch": 0.62,
      "eval_loss": 5.8176398277282715,
      "eval_runtime": 4.2897,
      "eval_samples_per_second": 233.118,
      "eval_steps_per_second": 14.686,
      "step": 172000
    },
    {
      "epoch": 0.62,
      "learning_rate": 3.9597660793312965e-05,
      "loss": 5.8032,
      "step": 172500
    },
    {
      "epoch": 0.63,
      "learning_rate": 3.956749771967164e-05,
      "loss": 5.7874,
      "step": 173000
    },
    {
      "epoch": 0.63,
      "eval_loss": 5.859738349914551,
      "eval_runtime": 4.2313,
      "eval_samples_per_second": 236.336,
      "eval_steps_per_second": 14.889,
      "step": 173000
    },
    {
      "epoch": 0.63,
      "learning_rate": 3.953739497217758e-05,
      "loss": 5.7942,
      "step": 173500
    },
    {
      "epoch": 0.63,
      "learning_rate": 3.950723189853625e-05,
      "loss": 5.7831,
      "step": 174000
    },
    {
      "epoch": 0.63,
      "eval_loss": 5.804076194763184,
      "eval_runtime": 4.3301,
      "eval_samples_per_second": 230.94,
      "eval_steps_per_second": 14.549,
      "step": 174000
    },
    {
      "epoch": 0.63,
      "learning_rate": 3.9477068824894915e-05,
      "loss": 5.7912,
      "step": 174500
    },
    {
      "epoch": 0.63,
      "learning_rate": 3.9446905751253576e-05,
      "loss": 5.7917,
      "step": 175000
    },
    {
      "epoch": 0.63,
      "eval_loss": 5.769659042358398,
      "eval_runtime": 4.3337,
      "eval_samples_per_second": 230.752,
      "eval_steps_per_second": 14.537,
      "step": 175000
    },
    {
      "epoch": 0.64,
      "learning_rate": 3.941674267761224e-05,
      "loss": 5.7979,
      "step": 175500
    },
    {
      "epoch": 0.64,
      "learning_rate": 3.938663993011819e-05,
      "loss": 5.7897,
      "step": 176000
    },
    {
      "epoch": 0.64,
      "eval_loss": 5.812716007232666,
      "eval_runtime": 6.3065,
      "eval_samples_per_second": 158.566,
      "eval_steps_per_second": 9.99,
      "step": 176000
    },
    {
      "epoch": 0.64,
      "learning_rate": 3.935647685647686e-05,
      "loss": 5.7918,
      "step": 176500
    },
    {
      "epoch": 0.64,
      "learning_rate": 3.932631378283552e-05,
      "loss": 5.787,
      "step": 177000
    },
    {
      "epoch": 0.64,
      "eval_loss": 5.8294172286987305,
      "eval_runtime": 4.4089,
      "eval_samples_per_second": 226.814,
      "eval_steps_per_second": 14.289,
      "step": 177000
    },
    {
      "epoch": 0.64,
      "learning_rate": 3.929615070919419e-05,
      "loss": 5.78,
      "step": 177500
    },
    {
      "epoch": 0.64,
      "learning_rate": 3.926598763555285e-05,
      "loss": 5.7881,
      "step": 178000
    },
    {
      "epoch": 0.64,
      "eval_loss": 5.794092178344727,
      "eval_runtime": 4.3295,
      "eval_samples_per_second": 230.971,
      "eval_steps_per_second": 14.551,
      "step": 178000
    },
    {
      "epoch": 0.65,
      "learning_rate": 3.92358848880588e-05,
      "loss": 5.776,
      "step": 178500
    },
    {
      "epoch": 0.65,
      "learning_rate": 3.920572181441747e-05,
      "loss": 5.7757,
      "step": 179000
    },
    {
      "epoch": 0.65,
      "eval_loss": 5.8026957511901855,
      "eval_runtime": 6.3375,
      "eval_samples_per_second": 157.79,
      "eval_steps_per_second": 9.941,
      "step": 179000
    },
    {
      "epoch": 0.65,
      "learning_rate": 3.917555874077614e-05,
      "loss": 5.7966,
      "step": 179500
    },
    {
      "epoch": 0.65,
      "learning_rate": 3.91453956671348e-05,
      "loss": 5.7837,
      "step": 180000
    },
    {
      "epoch": 0.65,
      "eval_loss": 5.851541519165039,
      "eval_runtime": 4.3261,
      "eval_samples_per_second": 231.153,
      "eval_steps_per_second": 14.563,
      "step": 180000
    },
    {
      "epoch": 0.65,
      "learning_rate": 3.9115232593493464e-05,
      "loss": 5.7852,
      "step": 180500
    },
    {
      "epoch": 0.66,
      "learning_rate": 3.908506951985213e-05,
      "loss": 5.7766,
      "step": 181000
    },
    {
      "epoch": 0.66,
      "eval_loss": 5.806175708770752,
      "eval_runtime": 4.2789,
      "eval_samples_per_second": 233.704,
      "eval_steps_per_second": 14.723,
      "step": 181000
    },
    {
      "epoch": 0.66,
      "learning_rate": 3.90549064462108e-05,
      "loss": 5.7912,
      "step": 181500
    },
    {
      "epoch": 0.66,
      "learning_rate": 3.902474337256946e-05,
      "loss": 5.7799,
      "step": 182000
    },
    {
      "epoch": 0.66,
      "eval_loss": 5.806212425231934,
      "eval_runtime": 4.4158,
      "eval_samples_per_second": 226.461,
      "eval_steps_per_second": 14.267,
      "step": 182000
    },
    {
      "epoch": 0.66,
      "learning_rate": 3.899464062507541e-05,
      "loss": 5.787,
      "step": 182500
    },
    {
      "epoch": 0.66,
      "learning_rate": 3.896453787758136e-05,
      "loss": 5.7831,
      "step": 183000
    },
    {
      "epoch": 0.66,
      "eval_loss": 5.78677225112915,
      "eval_runtime": 4.3143,
      "eval_samples_per_second": 231.789,
      "eval_steps_per_second": 14.603,
      "step": 183000
    },
    {
      "epoch": 0.66,
      "learning_rate": 3.8934374803940024e-05,
      "loss": 5.7735,
      "step": 183500
    },
    {
      "epoch": 0.67,
      "learning_rate": 3.890421173029869e-05,
      "loss": 5.7758,
      "step": 184000
    },
    {
      "epoch": 0.67,
      "eval_loss": 5.771059513092041,
      "eval_runtime": 4.2501,
      "eval_samples_per_second": 235.289,
      "eval_steps_per_second": 14.823,
      "step": 184000
    },
    {
      "epoch": 0.67,
      "learning_rate": 3.887404865665735e-05,
      "loss": 5.7717,
      "step": 184500
    },
    {
      "epoch": 0.67,
      "learning_rate": 3.884388558301602e-05,
      "loss": 5.7854,
      "step": 185000
    },
    {
      "epoch": 0.67,
      "eval_loss": 5.744887828826904,
      "eval_runtime": 4.38,
      "eval_samples_per_second": 228.313,
      "eval_steps_per_second": 14.384,
      "step": 185000
    },
    {
      "epoch": 0.67,
      "learning_rate": 3.881378283552197e-05,
      "loss": 5.7759,
      "step": 185500
    },
    {
      "epoch": 0.67,
      "learning_rate": 3.8783619761880635e-05,
      "loss": 5.782,
      "step": 186000
    },
    {
      "epoch": 0.67,
      "eval_loss": 5.777120113372803,
      "eval_runtime": 4.3199,
      "eval_samples_per_second": 231.487,
      "eval_steps_per_second": 14.584,
      "step": 186000
    },
    {
      "epoch": 0.68,
      "learning_rate": 3.8753456688239295e-05,
      "loss": 5.7735,
      "step": 186500
    },
    {
      "epoch": 0.68,
      "learning_rate": 3.872329361459797e-05,
      "loss": 5.7806,
      "step": 187000
    },
    {
      "epoch": 0.68,
      "eval_loss": 5.791393280029297,
      "eval_runtime": 4.2777,
      "eval_samples_per_second": 233.768,
      "eval_steps_per_second": 14.727,
      "step": 187000
    },
    {
      "epoch": 0.68,
      "learning_rate": 3.869319086710391e-05,
      "loss": 5.7717,
      "step": 187500
    },
    {
      "epoch": 0.68,
      "learning_rate": 3.866302779346258e-05,
      "loss": 5.7649,
      "step": 188000
    },
    {
      "epoch": 0.68,
      "eval_loss": 5.816986560821533,
      "eval_runtime": 6.3859,
      "eval_samples_per_second": 156.596,
      "eval_steps_per_second": 9.866,
      "step": 188000
    },
    {
      "epoch": 0.68,
      "learning_rate": 3.8632864719821245e-05,
      "loss": 5.7693,
      "step": 188500
    },
    {
      "epoch": 0.68,
      "learning_rate": 3.8602701646179906e-05,
      "loss": 5.776,
      "step": 189000
    },
    {
      "epoch": 0.68,
      "eval_loss": 5.79604959487915,
      "eval_runtime": 4.3399,
      "eval_samples_per_second": 230.421,
      "eval_steps_per_second": 14.516,
      "step": 189000
    },
    {
      "epoch": 0.69,
      "learning_rate": 3.857253857253857e-05,
      "loss": 5.7631,
      "step": 189500
    },
    {
      "epoch": 0.69,
      "learning_rate": 3.854243582504452e-05,
      "loss": 5.7604,
      "step": 190000
    },
    {
      "epoch": 0.69,
      "eval_loss": 5.783555507659912,
      "eval_runtime": 4.4137,
      "eval_samples_per_second": 226.565,
      "eval_steps_per_second": 14.274,
      "step": 190000
    },
    {
      "epoch": 0.69,
      "learning_rate": 3.851227275140319e-05,
      "loss": 5.7713,
      "step": 190500
    },
    {
      "epoch": 0.69,
      "learning_rate": 3.848210967776185e-05,
      "loss": 5.7778,
      "step": 191000
    },
    {
      "epoch": 0.69,
      "eval_loss": 5.775600433349609,
      "eval_runtime": 4.2997,
      "eval_samples_per_second": 232.575,
      "eval_steps_per_second": 14.652,
      "step": 191000
    },
    {
      "epoch": 0.69,
      "learning_rate": 3.845194660412052e-05,
      "loss": 5.7759,
      "step": 191500
    },
    {
      "epoch": 0.69,
      "learning_rate": 3.842178353047918e-05,
      "loss": 5.7705,
      "step": 192000
    },
    {
      "epoch": 0.69,
      "eval_loss": 5.826145648956299,
      "eval_runtime": 4.2643,
      "eval_samples_per_second": 234.504,
      "eval_steps_per_second": 14.774,
      "step": 192000
    },
    {
      "epoch": 0.7,
      "learning_rate": 3.839162045683785e-05,
      "loss": 5.7729,
      "step": 192500
    },
    {
      "epoch": 0.7,
      "learning_rate": 3.836145738319652e-05,
      "loss": 5.7658,
      "step": 193000
    },
    {
      "epoch": 0.7,
      "eval_loss": 5.824615001678467,
      "eval_runtime": 4.3664,
      "eval_samples_per_second": 229.021,
      "eval_steps_per_second": 14.428,
      "step": 193000
    },
    {
      "epoch": 0.7,
      "learning_rate": 3.833135463570247e-05,
      "loss": 5.767,
      "step": 193500
    },
    {
      "epoch": 0.7,
      "learning_rate": 3.830119156206113e-05,
      "loss": 5.7687,
      "step": 194000
    },
    {
      "epoch": 0.7,
      "eval_loss": 5.796684741973877,
      "eval_runtime": 4.322,
      "eval_samples_per_second": 231.375,
      "eval_steps_per_second": 14.577,
      "step": 194000
    },
    {
      "epoch": 0.7,
      "learning_rate": 3.8271028488419794e-05,
      "loss": 5.7601,
      "step": 194500
    },
    {
      "epoch": 0.71,
      "learning_rate": 3.824086541477846e-05,
      "loss": 5.7589,
      "step": 195000
    },
    {
      "epoch": 0.71,
      "eval_loss": 5.798003673553467,
      "eval_runtime": 6.0617,
      "eval_samples_per_second": 164.97,
      "eval_steps_per_second": 10.393,
      "step": 195000
    },
    {
      "epoch": 0.71,
      "learning_rate": 3.821070234113713e-05,
      "loss": 5.7691,
      "step": 195500
    },
    {
      "epoch": 0.71,
      "learning_rate": 3.818053926749579e-05,
      "loss": 5.7713,
      "step": 196000
    },
    {
      "epoch": 0.71,
      "eval_loss": 5.799909591674805,
      "eval_runtime": 4.3023,
      "eval_samples_per_second": 232.433,
      "eval_steps_per_second": 14.643,
      "step": 196000
    },
    {
      "epoch": 0.71,
      "learning_rate": 3.815043652000174e-05,
      "loss": 5.7676,
      "step": 196500
    },
    {
      "epoch": 0.71,
      "learning_rate": 3.8120273446360404e-05,
      "loss": 5.7616,
      "step": 197000
    },
    {
      "epoch": 0.71,
      "eval_loss": 5.801938533782959,
      "eval_runtime": 4.062,
      "eval_samples_per_second": 246.183,
      "eval_steps_per_second": 15.51,
      "step": 197000
    },
    {
      "epoch": 0.71,
      "learning_rate": 3.8090110372719065e-05,
      "loss": 5.7518,
      "step": 197500
    },
    {
      "epoch": 0.72,
      "learning_rate": 3.805994729907774e-05,
      "loss": 5.7643,
      "step": 198000
    },
    {
      "epoch": 0.72,
      "eval_loss": 5.786435127258301,
      "eval_runtime": 4.2697,
      "eval_samples_per_second": 234.21,
      "eval_steps_per_second": 14.755,
      "step": 198000
    },
    {
      "epoch": 0.72,
      "learning_rate": 3.802984455158368e-05,
      "loss": 5.7582,
      "step": 198500
    },
    {
      "epoch": 0.72,
      "learning_rate": 3.799968147794235e-05,
      "loss": 5.7634,
      "step": 199000
    },
    {
      "epoch": 0.72,
      "eval_loss": 5.755306720733643,
      "eval_runtime": 4.4039,
      "eval_samples_per_second": 227.072,
      "eval_steps_per_second": 14.306,
      "step": 199000
    },
    {
      "epoch": 0.72,
      "learning_rate": 3.7969518404301015e-05,
      "loss": 5.7523,
      "step": 199500
    },
    {
      "epoch": 0.72,
      "learning_rate": 3.793935533065968e-05,
      "loss": 5.7582,
      "step": 200000
    },
    {
      "epoch": 0.72,
      "eval_loss": 5.787529468536377,
      "eval_runtime": 4.2787,
      "eval_samples_per_second": 233.717,
      "eval_steps_per_second": 14.724,
      "step": 200000
    },
    {
      "epoch": 0.73,
      "learning_rate": 3.790919225701834e-05,
      "loss": 5.7647,
      "step": 200500
    },
    {
      "epoch": 0.73,
      "learning_rate": 3.7879029183377016e-05,
      "loss": 5.7548,
      "step": 201000
    },
    {
      "epoch": 0.73,
      "eval_loss": 5.7919721603393555,
      "eval_runtime": 4.347,
      "eval_samples_per_second": 230.043,
      "eval_steps_per_second": 14.493,
      "step": 201000
    },
    {
      "epoch": 0.73,
      "learning_rate": 3.7848866109735676e-05,
      "loss": 5.7659,
      "step": 201500
    },
    {
      "epoch": 0.73,
      "learning_rate": 3.781870303609434e-05,
      "loss": 5.7602,
      "step": 202000
    },
    {
      "epoch": 0.73,
      "eval_loss": 5.796759605407715,
      "eval_runtime": 4.367,
      "eval_samples_per_second": 228.988,
      "eval_steps_per_second": 14.426,
      "step": 202000
    },
    {
      "epoch": 0.73,
      "learning_rate": 3.778860028860029e-05,
      "loss": 5.7507,
      "step": 202500
    },
    {
      "epoch": 0.73,
      "learning_rate": 3.7758497541106235e-05,
      "loss": 5.7575,
      "step": 203000
    },
    {
      "epoch": 0.73,
      "eval_loss": 5.792579174041748,
      "eval_runtime": 4.2917,
      "eval_samples_per_second": 233.009,
      "eval_steps_per_second": 14.68,
      "step": 203000
    },
    {
      "epoch": 0.74,
      "learning_rate": 3.77283344674649e-05,
      "loss": 5.7526,
      "step": 203500
    },
    {
      "epoch": 0.74,
      "learning_rate": 3.769817139382357e-05,
      "loss": 5.76,
      "step": 204000
    },
    {
      "epoch": 0.74,
      "eval_loss": 5.783504962921143,
      "eval_runtime": 4.2736,
      "eval_samples_per_second": 233.996,
      "eval_steps_per_second": 14.742,
      "step": 204000
    },
    {
      "epoch": 0.74,
      "learning_rate": 3.7668008320182236e-05,
      "loss": 5.7642,
      "step": 204500
    },
    {
      "epoch": 0.74,
      "learning_rate": 3.7637845246540896e-05,
      "loss": 5.7455,
      "step": 205000
    },
    {
      "epoch": 0.74,
      "eval_loss": 5.809587478637695,
      "eval_runtime": 6.5273,
      "eval_samples_per_second": 153.202,
      "eval_steps_per_second": 9.652,
      "step": 205000
    },
    {
      "epoch": 0.74,
      "learning_rate": 3.760774249904685e-05,
      "loss": 5.7621,
      "step": 205500
    },
    {
      "epoch": 0.75,
      "learning_rate": 3.757757942540551e-05,
      "loss": 5.7508,
      "step": 206000
    },
    {
      "epoch": 0.75,
      "eval_loss": 5.8115620613098145,
      "eval_runtime": 4.3241,
      "eval_samples_per_second": 231.263,
      "eval_steps_per_second": 14.57,
      "step": 206000
    },
    {
      "epoch": 0.75,
      "learning_rate": 3.754741635176418e-05,
      "loss": 5.7566,
      "step": 206500
    },
    {
      "epoch": 0.75,
      "learning_rate": 3.751725327812285e-05,
      "loss": 5.7472,
      "step": 207000
    },
    {
      "epoch": 0.75,
      "eval_loss": 5.75007963180542,
      "eval_runtime": 4.2843,
      "eval_samples_per_second": 233.408,
      "eval_steps_per_second": 14.705,
      "step": 207000
    },
    {
      "epoch": 0.75,
      "learning_rate": 3.7487090204481514e-05,
      "loss": 5.7621,
      "step": 207500
    },
    {
      "epoch": 0.75,
      "learning_rate": 3.745698745698746e-05,
      "loss": 5.7459,
      "step": 208000
    },
    {
      "epoch": 0.75,
      "eval_loss": 5.7589802742004395,
      "eval_runtime": 4.249,
      "eval_samples_per_second": 235.35,
      "eval_steps_per_second": 14.827,
      "step": 208000
    },
    {
      "epoch": 0.75,
      "learning_rate": 3.7426824383346124e-05,
      "loss": 5.748,
      "step": 208500
    },
    {
      "epoch": 0.76,
      "learning_rate": 3.739666130970479e-05,
      "loss": 5.7457,
      "step": 209000
    },
    {
      "epoch": 0.76,
      "eval_loss": 5.755953788757324,
      "eval_runtime": 4.381,
      "eval_samples_per_second": 228.257,
      "eval_steps_per_second": 14.38,
      "step": 209000
    },
    {
      "epoch": 0.76,
      "learning_rate": 3.736649823606346e-05,
      "loss": 5.7559,
      "step": 209500
    },
    {
      "epoch": 0.76,
      "learning_rate": 3.733633516242212e-05,
      "loss": 5.7514,
      "step": 210000
    },
    {
      "epoch": 0.76,
      "eval_loss": 5.743694305419922,
      "eval_runtime": 4.3893,
      "eval_samples_per_second": 227.825,
      "eval_steps_per_second": 14.353,
      "step": 210000
    },
    {
      "epoch": 0.76,
      "learning_rate": 3.730623241492807e-05,
      "loss": 5.7522,
      "step": 210500
    },
    {
      "epoch": 0.76,
      "learning_rate": 3.7276069341286734e-05,
      "loss": 5.758,
      "step": 211000
    },
    {
      "epoch": 0.76,
      "eval_loss": 5.809187889099121,
      "eval_runtime": 4.3578,
      "eval_samples_per_second": 229.472,
      "eval_steps_per_second": 14.457,
      "step": 211000
    },
    {
      "epoch": 0.77,
      "learning_rate": 3.7245906267645394e-05,
      "loss": 5.7386,
      "step": 211500
    },
    {
      "epoch": 0.77,
      "learning_rate": 3.721574319400407e-05,
      "loss": 5.7412,
      "step": 212000
    },
    {
      "epoch": 0.77,
      "eval_loss": 5.790631294250488,
      "eval_runtime": 6.9155,
      "eval_samples_per_second": 144.603,
      "eval_steps_per_second": 9.11,
      "step": 212000
    },
    {
      "epoch": 0.77,
      "learning_rate": 3.718564044651001e-05,
      "loss": 5.7447,
      "step": 212500
    },
    {
      "epoch": 0.77,
      "learning_rate": 3.715547737286868e-05,
      "loss": 5.7564,
      "step": 213000
    },
    {
      "epoch": 0.77,
      "eval_loss": 5.766078472137451,
      "eval_runtime": 4.3057,
      "eval_samples_per_second": 232.248,
      "eval_steps_per_second": 14.632,
      "step": 213000
    },
    {
      "epoch": 0.77,
      "learning_rate": 3.7125314299227345e-05,
      "loss": 5.7403,
      "step": 213500
    },
    {
      "epoch": 0.77,
      "learning_rate": 3.7095211551733294e-05,
      "loss": 5.7473,
      "step": 214000
    },
    {
      "epoch": 0.77,
      "eval_loss": 5.826783657073975,
      "eval_runtime": 4.2915,
      "eval_samples_per_second": 233.02,
      "eval_steps_per_second": 14.68,
      "step": 214000
    },
    {
      "epoch": 0.78,
      "learning_rate": 3.7065048478091955e-05,
      "loss": 5.7359,
      "step": 214500
    },
    {
      "epoch": 0.78,
      "learning_rate": 3.703488540445063e-05,
      "loss": 5.7439,
      "step": 215000
    },
    {
      "epoch": 0.78,
      "eval_loss": 5.752542018890381,
      "eval_runtime": 6.2452,
      "eval_samples_per_second": 160.123,
      "eval_steps_per_second": 10.088,
      "step": 215000
    },
    {
      "epoch": 0.78,
      "learning_rate": 3.700472233080929e-05,
      "loss": 5.7517,
      "step": 215500
    },
    {
      "epoch": 0.78,
      "learning_rate": 3.6974559257167956e-05,
      "loss": 5.7482,
      "step": 216000
    },
    {
      "epoch": 0.78,
      "eval_loss": 5.75383996963501,
      "eval_runtime": 4.2741,
      "eval_samples_per_second": 233.968,
      "eval_steps_per_second": 14.74,
      "step": 216000
    },
    {
      "epoch": 0.78,
      "learning_rate": 3.694439618352662e-05,
      "loss": 5.7552,
      "step": 216500
    },
    {
      "epoch": 0.79,
      "learning_rate": 3.691429343603257e-05,
      "loss": 5.7498,
      "step": 217000
    },
    {
      "epoch": 0.79,
      "eval_loss": 5.778792858123779,
      "eval_runtime": 4.3819,
      "eval_samples_per_second": 228.21,
      "eval_steps_per_second": 14.377,
      "step": 217000
    },
    {
      "epoch": 0.79,
      "learning_rate": 3.688413036239123e-05,
      "loss": 5.7418,
      "step": 217500
    },
    {
      "epoch": 0.79,
      "learning_rate": 3.68539672887499e-05,
      "loss": 5.7276,
      "step": 218000
    },
    {
      "epoch": 0.79,
      "eval_loss": 5.756528377532959,
      "eval_runtime": 4.3385,
      "eval_samples_per_second": 230.495,
      "eval_steps_per_second": 14.521,
      "step": 218000
    },
    {
      "epoch": 0.79,
      "learning_rate": 3.6823804215108566e-05,
      "loss": 5.7493,
      "step": 218500
    },
    {
      "epoch": 0.79,
      "learning_rate": 3.6793641141467226e-05,
      "loss": 5.7559,
      "step": 219000
    },
    {
      "epoch": 0.79,
      "eval_loss": 5.770053863525391,
      "eval_runtime": 4.3798,
      "eval_samples_per_second": 228.323,
      "eval_steps_per_second": 14.384,
      "step": 219000
    },
    {
      "epoch": 0.79,
      "learning_rate": 3.676347806782589e-05,
      "loss": 5.7309,
      "step": 219500
    },
    {
      "epoch": 0.8,
      "learning_rate": 3.673331499418456e-05,
      "loss": 5.7466,
      "step": 220000
    },
    {
      "epoch": 0.8,
      "eval_loss": 5.751831531524658,
      "eval_runtime": 4.3885,
      "eval_samples_per_second": 227.868,
      "eval_steps_per_second": 14.356,
      "step": 220000
    },
    {
      "epoch": 0.8,
      "learning_rate": 3.670315192054323e-05,
      "loss": 5.754,
      "step": 220500
    },
    {
      "epoch": 0.8,
      "learning_rate": 3.667304917304917e-05,
      "loss": 5.7441,
      "step": 221000
    },
    {
      "epoch": 0.8,
      "eval_loss": 5.766170024871826,
      "eval_runtime": 4.4111,
      "eval_samples_per_second": 226.7,
      "eval_steps_per_second": 14.282,
      "step": 221000
    },
    {
      "epoch": 0.8,
      "learning_rate": 3.6642886099407844e-05,
      "loss": 5.739,
      "step": 221500
    },
    {
      "epoch": 0.8,
      "learning_rate": 3.6612723025766504e-05,
      "loss": 5.7352,
      "step": 222000
    },
    {
      "epoch": 0.8,
      "eval_loss": 5.74399995803833,
      "eval_runtime": 4.3561,
      "eval_samples_per_second": 229.561,
      "eval_steps_per_second": 14.462,
      "step": 222000
    },
    {
      "epoch": 0.81,
      "learning_rate": 3.658255995212517e-05,
      "loss": 5.7368,
      "step": 222500
    },
    {
      "epoch": 0.81,
      "learning_rate": 3.655239687848384e-05,
      "loss": 5.739,
      "step": 223000
    },
    {
      "epoch": 0.81,
      "eval_loss": 5.763323783874512,
      "eval_runtime": 4.3227,
      "eval_samples_per_second": 231.335,
      "eval_steps_per_second": 14.574,
      "step": 223000
    },
    {
      "epoch": 0.81,
      "learning_rate": 3.652229413098979e-05,
      "loss": 5.7403,
      "step": 223500
    },
    {
      "epoch": 0.81,
      "learning_rate": 3.649213105734845e-05,
      "loss": 5.7391,
      "step": 224000
    },
    {
      "epoch": 0.81,
      "eval_loss": 5.7649736404418945,
      "eval_runtime": 4.3622,
      "eval_samples_per_second": 229.24,
      "eval_steps_per_second": 14.442,
      "step": 224000
    },
    {
      "epoch": 0.81,
      "learning_rate": 3.646196798370712e-05,
      "loss": 5.744,
      "step": 224500
    },
    {
      "epoch": 0.81,
      "learning_rate": 3.643180491006578e-05,
      "loss": 5.7363,
      "step": 225000
    },
    {
      "epoch": 0.81,
      "eval_loss": 5.732951641082764,
      "eval_runtime": 4.3989,
      "eval_samples_per_second": 227.33,
      "eval_steps_per_second": 14.322,
      "step": 225000
    },
    {
      "epoch": 0.82,
      "learning_rate": 3.6401702162571724e-05,
      "loss": 5.7421,
      "step": 225500
    },
    {
      "epoch": 0.82,
      "learning_rate": 3.63715390889304e-05,
      "loss": 5.7414,
      "step": 226000
    },
    {
      "epoch": 0.82,
      "eval_loss": 5.73438024520874,
      "eval_runtime": 4.3577,
      "eval_samples_per_second": 229.481,
      "eval_steps_per_second": 14.457,
      "step": 226000
    },
    {
      "epoch": 0.82,
      "learning_rate": 3.634137601528906e-05,
      "loss": 5.7274,
      "step": 226500
    },
    {
      "epoch": 0.82,
      "learning_rate": 3.6311212941647725e-05,
      "loss": 5.7385,
      "step": 227000
    },
    {
      "epoch": 0.82,
      "eval_loss": 5.781483173370361,
      "eval_runtime": 4.3808,
      "eval_samples_per_second": 228.267,
      "eval_steps_per_second": 14.381,
      "step": 227000
    },
    {
      "epoch": 0.82,
      "learning_rate": 3.628104986800639e-05,
      "loss": 5.7458,
      "step": 227500
    },
    {
      "epoch": 0.83,
      "learning_rate": 3.625094712051234e-05,
      "loss": 5.7521,
      "step": 228000
    },
    {
      "epoch": 0.83,
      "eval_loss": 5.737205982208252,
      "eval_runtime": 4.3898,
      "eval_samples_per_second": 227.799,
      "eval_steps_per_second": 14.351,
      "step": 228000
    },
    {
      "epoch": 0.83,
      "learning_rate": 3.6220784046871e-05,
      "loss": 5.7272,
      "step": 228500
    },
    {
      "epoch": 0.83,
      "learning_rate": 3.619062097322967e-05,
      "loss": 5.7258,
      "step": 229000
    },
    {
      "epoch": 0.83,
      "eval_loss": 5.73113489151001,
      "eval_runtime": 4.264,
      "eval_samples_per_second": 234.524,
      "eval_steps_per_second": 14.775,
      "step": 229000
    },
    {
      "epoch": 0.83,
      "learning_rate": 3.6160457899588336e-05,
      "loss": 5.7354,
      "step": 229500
    },
    {
      "epoch": 0.83,
      "learning_rate": 3.6130294825947e-05,
      "loss": 5.7256,
      "step": 230000
    },
    {
      "epoch": 0.83,
      "eval_loss": 5.771120071411133,
      "eval_runtime": 4.2667,
      "eval_samples_per_second": 234.371,
      "eval_steps_per_second": 14.765,
      "step": 230000
    }
  ],
  "max_steps": 828828,
  "num_train_epochs": 3,
  "total_flos": 2.819512759114629e+17,
  "trial_name": null,
  "trial_params": null
}