{
  "best_metric": 2.555936574935913,
  "best_model_checkpoint": "./model_tweets_2020_Q2_50/checkpoint-160000",
  "epoch": 10.105263157894736,
  "eval_steps": 8000,
  "global_step": 2400000,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.03,
      "eval_loss": 2.664475917816162,
      "eval_runtime": 220.2299,
      "eval_samples_per_second": 908.142,
      "eval_steps_per_second": 56.759,
      "step": 8000
    },
    {
      "epoch": 0.07,
      "learning_rate": 9.939131159843243e-06,
      "loss": 2.8656,
      "step": 16000
    },
    {
      "epoch": 0.07,
      "eval_loss": 2.6464931964874268,
      "eval_runtime": 221.9882,
      "eval_samples_per_second": 900.949,
      "eval_steps_per_second": 56.309,
      "step": 16000
    },
    {
      "epoch": 0.1,
      "eval_loss": 2.6185896396636963,
      "eval_runtime": 220.2227,
      "eval_samples_per_second": 908.172,
      "eval_steps_per_second": 56.761,
      "step": 24000
    },
    {
      "epoch": 0.13,
      "learning_rate": 9.872425581589261e-06,
      "loss": 2.7946,
      "step": 32000
    },
    {
      "epoch": 0.13,
      "eval_loss": 2.6234936714172363,
      "eval_runtime": 220.6677,
      "eval_samples_per_second": 906.34,
      "eval_steps_per_second": 56.646,
      "step": 32000
    },
    {
      "epoch": 0.17,
      "eval_loss": 2.615138292312622,
      "eval_runtime": 221.7491,
      "eval_samples_per_second": 901.92,
      "eval_steps_per_second": 56.37,
      "step": 40000
    },
    {
      "epoch": 0.2,
      "learning_rate": 9.80572000333528e-06,
      "loss": 2.7911,
      "step": 48000
    },
    {
      "epoch": 0.2,
      "eval_loss": 2.6128268241882324,
      "eval_runtime": 221.3475,
      "eval_samples_per_second": 903.557,
      "eval_steps_per_second": 56.472,
      "step": 48000
    },
    {
      "epoch": 0.24,
      "eval_loss": 2.6009654998779297,
      "eval_runtime": 221.2039,
      "eval_samples_per_second": 904.143,
      "eval_steps_per_second": 56.509,
      "step": 56000
    },
    {
      "epoch": 0.27,
      "learning_rate": 9.739014425081299e-06,
      "loss": 2.7898,
      "step": 64000
    },
    {
      "epoch": 0.27,
      "eval_loss": 2.614436149597168,
      "eval_runtime": 221.9246,
      "eval_samples_per_second": 901.207,
      "eval_steps_per_second": 56.325,
      "step": 64000
    },
    {
      "epoch": 0.3,
      "eval_loss": 2.597571611404419,
      "eval_runtime": 222.8659,
      "eval_samples_per_second": 897.401,
      "eval_steps_per_second": 56.088,
      "step": 72000
    },
    {
      "epoch": 0.34,
      "learning_rate": 9.672308846827316e-06,
      "loss": 2.7791,
      "step": 80000
    },
    {
      "epoch": 0.34,
      "eval_loss": 2.6006274223327637,
      "eval_runtime": 221.9145,
      "eval_samples_per_second": 901.248,
      "eval_steps_per_second": 56.328,
      "step": 80000
    },
    {
      "epoch": 0.37,
      "eval_loss": 2.5888915061950684,
      "eval_runtime": 223.9796,
      "eval_samples_per_second": 892.938,
      "eval_steps_per_second": 55.809,
      "step": 88000
    },
    {
      "epoch": 0.4,
      "learning_rate": 9.605603268573334e-06,
      "loss": 2.7776,
      "step": 96000
    },
    {
      "epoch": 0.4,
      "eval_loss": 2.5888023376464844,
      "eval_runtime": 221.625,
      "eval_samples_per_second": 902.425,
      "eval_steps_per_second": 56.402,
      "step": 96000
    },
    {
      "epoch": 0.44,
      "eval_loss": 2.584191083908081,
      "eval_runtime": 222.5849,
      "eval_samples_per_second": 898.533,
      "eval_steps_per_second": 56.158,
      "step": 104000
    },
    {
      "epoch": 0.47,
      "learning_rate": 9.538897690319354e-06,
      "loss": 2.7702,
      "step": 112000
    },
    {
      "epoch": 0.47,
      "eval_loss": 2.5760483741760254,
      "eval_runtime": 222.9149,
      "eval_samples_per_second": 897.203,
      "eval_steps_per_second": 56.075,
      "step": 112000
    },
    {
      "epoch": 0.51,
      "eval_loss": 2.5719943046569824,
      "eval_runtime": 220.2346,
      "eval_samples_per_second": 908.123,
      "eval_steps_per_second": 56.758,
      "step": 120000
    },
    {
      "epoch": 0.54,
      "learning_rate": 9.472192112065373e-06,
      "loss": 2.7661,
      "step": 128000
    },
    {
      "epoch": 0.54,
      "eval_loss": 2.5709779262542725,
      "eval_runtime": 221.9288,
      "eval_samples_per_second": 901.19,
      "eval_steps_per_second": 56.324,
      "step": 128000
    },
    {
      "epoch": 0.57,
      "eval_loss": 2.56732177734375,
      "eval_runtime": 222.0037,
      "eval_samples_per_second": 900.886,
      "eval_steps_per_second": 56.305,
      "step": 136000
    },
    {
      "epoch": 0.61,
      "learning_rate": 9.405486533811392e-06,
      "loss": 2.7609,
      "step": 144000
    },
    {
      "epoch": 0.61,
      "eval_loss": 2.5692689418792725,
      "eval_runtime": 221.4862,
      "eval_samples_per_second": 902.991,
      "eval_steps_per_second": 56.437,
      "step": 144000
    },
    {
      "epoch": 0.64,
      "eval_loss": 2.5623199939727783,
      "eval_runtime": 222.634,
      "eval_samples_per_second": 898.335,
      "eval_steps_per_second": 56.146,
      "step": 152000
    },
    {
      "epoch": 0.67,
      "learning_rate": 9.338780955557409e-06,
      "loss": 2.7557,
      "step": 160000
    },
    {
      "epoch": 0.67,
      "eval_loss": 2.555936574935913,
      "eval_runtime": 222.9827,
      "eval_samples_per_second": 896.93,
      "eval_steps_per_second": 56.058,
      "step": 160000
    },
    {
      "epoch": 0.71,
      "eval_loss": 2.564979314804077,
      "eval_runtime": 223.4268,
      "eval_samples_per_second": 895.148,
      "eval_steps_per_second": 55.947,
      "step": 168000
    },
    {
      "epoch": 0.74,
      "learning_rate": 9.272075377303427e-06,
      "loss": 2.7584,
      "step": 176000
    },
    {
      "epoch": 0.74,
      "eval_loss": 2.558361053466797,
      "eval_runtime": 223.2855,
      "eval_samples_per_second": 895.714,
      "eval_steps_per_second": 55.982,
      "step": 176000
    },
    {
      "epoch": 0.77,
      "eval_loss": 2.5590734481811523,
      "eval_runtime": 224.766,
      "eval_samples_per_second": 889.814,
      "eval_steps_per_second": 55.613,
      "step": 184000
    },
    {
      "epoch": 0.81,
      "learning_rate": 9.205369799049446e-06,
      "loss": 2.7619,
      "step": 192000
    },
    {
      "epoch": 0.81,
      "eval_loss": 2.5597450733184814,
      "eval_runtime": 223.3408,
      "eval_samples_per_second": 895.492,
      "eval_steps_per_second": 55.968,
      "step": 192000
    },
    {
      "epoch": 0.84,
      "eval_loss": 2.564985990524292,
      "eval_runtime": 222.3245,
      "eval_samples_per_second": 899.586,
      "eval_steps_per_second": 56.224,
      "step": 200000
    },
    {
      "epoch": 0.88,
      "learning_rate": 9.138664220795464e-06,
      "loss": 2.7678,
      "step": 208000
    },
    {
      "epoch": 0.88,
      "eval_loss": 2.572838306427002,
      "eval_runtime": 222.9177,
      "eval_samples_per_second": 897.192,
      "eval_steps_per_second": 56.074,
      "step": 208000
    },
    {
      "epoch": 0.91,
      "eval_loss": 2.571180820465088,
      "eval_runtime": 222.4106,
      "eval_samples_per_second": 899.238,
      "eval_steps_per_second": 56.202,
      "step": 216000
    },
    {
      "epoch": 0.94,
      "learning_rate": 9.071958642541483e-06,
      "loss": 2.7735,
      "step": 224000
    },
    {
      "epoch": 0.94,
      "eval_loss": 2.5728507041931152,
      "eval_runtime": 221.0881,
      "eval_samples_per_second": 904.617,
      "eval_steps_per_second": 56.539,
      "step": 224000
    },
    {
      "epoch": 0.98,
      "eval_loss": 2.5754916667938232,
      "eval_runtime": 224.4187,
      "eval_samples_per_second": 891.191,
      "eval_steps_per_second": 55.699,
      "step": 232000
    },
    {
      "epoch": 1.01,
      "learning_rate": 9.005253064287502e-06,
      "loss": 2.777,
      "step": 240000
    },
    {
      "epoch": 1.01,
      "eval_loss": 2.571467876434326,
      "eval_runtime": 223.3627,
      "eval_samples_per_second": 895.405,
      "eval_steps_per_second": 55.963,
      "step": 240000
    },
    {
      "epoch": 1.04,
      "eval_loss": 2.5747482776641846,
      "eval_runtime": 223.2929,
      "eval_samples_per_second": 895.685,
      "eval_steps_per_second": 55.98,
      "step": 248000
    },
    {
      "epoch": 1.08,
      "learning_rate": 8.93854748603352e-06,
      "loss": 2.7692,
      "step": 256000
    },
    {
      "epoch": 1.08,
      "eval_loss": 2.5781774520874023,
      "eval_runtime": 225.2908,
      "eval_samples_per_second": 887.742,
      "eval_steps_per_second": 55.484,
      "step": 256000
    },
    {
      "epoch": 1.11,
      "eval_loss": 2.58413028717041,
      "eval_runtime": 223.7883,
      "eval_samples_per_second": 893.702,
      "eval_steps_per_second": 55.856,
      "step": 264000
    },
    {
      "epoch": 1.15,
      "learning_rate": 8.871841907779539e-06,
      "loss": 2.7826,
      "step": 272000
    },
    {
      "epoch": 1.15,
      "eval_loss": 2.573080539703369,
      "eval_runtime": 222.4765,
      "eval_samples_per_second": 898.971,
      "eval_steps_per_second": 56.186,
      "step": 272000
    },
    {
      "epoch": 1.18,
      "eval_loss": 2.5836124420166016,
      "eval_runtime": 222.4727,
      "eval_samples_per_second": 898.987,
      "eval_steps_per_second": 56.187,
      "step": 280000
    },
    {
      "epoch": 1.21,
      "learning_rate": 8.805136329525557e-06,
      "loss": 2.7845,
      "step": 288000
    },
    {
      "epoch": 1.21,
      "eval_loss": 2.5840952396392822,
      "eval_runtime": 223.8774,
      "eval_samples_per_second": 893.346,
      "eval_steps_per_second": 55.834,
      "step": 288000
    },
    {
      "epoch": 1.25,
      "eval_loss": 2.5810587406158447,
      "eval_runtime": 224.0492,
      "eval_samples_per_second": 892.661,
      "eval_steps_per_second": 55.791,
      "step": 296000
    },
    {
      "epoch": 1.28,
      "learning_rate": 8.738430751271576e-06,
      "loss": 2.7909,
      "step": 304000
    },
    {
      "epoch": 1.28,
      "eval_loss": 2.592771530151367,
      "eval_runtime": 224.5453,
      "eval_samples_per_second": 890.689,
      "eval_steps_per_second": 55.668,
      "step": 304000
    },
    {
      "epoch": 1.31,
      "eval_loss": 2.597700834274292,
      "eval_runtime": 222.8877,
      "eval_samples_per_second": 897.313,
      "eval_steps_per_second": 56.082,
      "step": 312000
    },
    {
      "epoch": 1.35,
      "learning_rate": 8.671725173017595e-06,
      "loss": 2.7993,
      "step": 320000
    },
    {
      "epoch": 1.35,
      "eval_loss": 2.6025121212005615,
      "eval_runtime": 223.4062,
      "eval_samples_per_second": 895.23,
      "eval_steps_per_second": 55.952,
      "step": 320000
    },
    {
      "epoch": 1.38,
      "eval_loss": 2.6072068214416504,
      "eval_runtime": 222.1596,
      "eval_samples_per_second": 900.254,
      "eval_steps_per_second": 56.266,
      "step": 328000
    },
    {
      "epoch": 1.41,
      "learning_rate": 8.605019594763613e-06,
      "loss": 2.8107,
      "step": 336000
    },
    {
      "epoch": 1.41,
      "eval_loss": 2.6110291481018066,
      "eval_runtime": 221.489,
      "eval_samples_per_second": 902.979,
      "eval_steps_per_second": 56.436,
      "step": 336000
    },
    {
      "epoch": 1.45,
      "eval_loss": 2.6020007133483887,
      "eval_runtime": 221.5356,
      "eval_samples_per_second": 902.79,
      "eval_steps_per_second": 56.424,
      "step": 344000
    },
    {
      "epoch": 1.48,
      "learning_rate": 8.538314016509632e-06,
      "loss": 2.8102,
      "step": 352000
    },
    {
      "epoch": 1.48,
      "eval_loss": 2.606468677520752,
      "eval_runtime": 221.9142,
      "eval_samples_per_second": 901.249,
      "eval_steps_per_second": 56.328,
      "step": 352000
    },
    {
      "epoch": 1.52,
      "eval_loss": 2.620694637298584,
      "eval_runtime": 223.9159,
      "eval_samples_per_second": 893.193,
      "eval_steps_per_second": 55.825,
      "step": 360000
    },
    {
      "epoch": 1.55,
      "learning_rate": 8.471608438255649e-06,
      "loss": 2.8247,
      "step": 368000
    },
    {
      "epoch": 1.55,
      "eval_loss": 2.6191916465759277,
      "eval_runtime": 224.0761,
      "eval_samples_per_second": 892.554,
      "eval_steps_per_second": 55.785,
      "step": 368000
    },
    {
      "epoch": 1.58,
      "eval_loss": 2.6223857402801514,
      "eval_runtime": 224.2988,
      "eval_samples_per_second": 891.668,
      "eval_steps_per_second": 55.729,
      "step": 376000
    },
    {
      "epoch": 1.62,
      "learning_rate": 8.404902860001667e-06,
      "loss": 2.8271,
      "step": 384000
    },
    {
      "epoch": 1.62,
      "eval_loss": 2.6205480098724365,
      "eval_runtime": 224.6631,
      "eval_samples_per_second": 890.222,
      "eval_steps_per_second": 55.639,
      "step": 384000
    },
    {
      "epoch": 1.65,
      "eval_loss": 2.62916898727417,
      "eval_runtime": 221.5526,
      "eval_samples_per_second": 902.72,
      "eval_steps_per_second": 56.42,
      "step": 392000
    },
    {
      "epoch": 1.68,
      "learning_rate": 8.338197281747686e-06,
      "loss": 2.8415,
      "step": 400000
    },
    {
      "epoch": 1.68,
      "eval_loss": 2.6347849369049072,
      "eval_runtime": 222.2459,
      "eval_samples_per_second": 899.904,
      "eval_steps_per_second": 56.244,
      "step": 400000
    },
    {
      "epoch": 1.72,
      "eval_loss": 2.6518216133117676,
      "eval_runtime": 222.7257,
      "eval_samples_per_second": 897.966,
      "eval_steps_per_second": 56.123,
      "step": 408000
    },
    {
      "epoch": 1.75,
      "learning_rate": 8.271491703493705e-06,
      "loss": 2.842,
      "step": 416000
    },
    {
      "epoch": 1.75,
      "eval_loss": 2.6465137004852295,
      "eval_runtime": 221.6934,
      "eval_samples_per_second": 902.147,
      "eval_steps_per_second": 56.384,
      "step": 416000
    },
    {
      "epoch": 1.79,
      "eval_loss": 2.6434342861175537,
      "eval_runtime": 222.3028,
      "eval_samples_per_second": 899.674,
      "eval_steps_per_second": 56.23,
      "step": 424000
    },
    {
      "epoch": 1.82,
      "learning_rate": 8.204786125239725e-06,
      "loss": 2.8431,
      "step": 432000
    },
    {
      "epoch": 1.82,
      "eval_loss": 2.641423225402832,
      "eval_runtime": 222.8849,
      "eval_samples_per_second": 897.324,
      "eval_steps_per_second": 56.083,
      "step": 432000
    },
    {
      "epoch": 1.85,
      "eval_loss": 2.6531593799591064,
      "eval_runtime": 223.101,
      "eval_samples_per_second": 896.455,
      "eval_steps_per_second": 56.028,
      "step": 440000
    },
    {
      "epoch": 1.89,
      "learning_rate": 8.138080546985743e-06,
      "loss": 2.8599,
      "step": 448000
    },
    {
      "epoch": 1.89,
      "eval_loss": 2.6645281314849854,
      "eval_runtime": 222.7835,
      "eval_samples_per_second": 897.732,
      "eval_steps_per_second": 56.108,
      "step": 448000
    },
    {
      "epoch": 1.92,
      "eval_loss": 2.6651265621185303,
      "eval_runtime": 222.493,
      "eval_samples_per_second": 898.905,
      "eval_steps_per_second": 56.182,
      "step": 456000
    },
    {
      "epoch": 1.95,
      "learning_rate": 8.07137496873176e-06,
      "loss": 2.8567,
      "step": 464000
    },
    {
      "epoch": 1.95,
      "eval_loss": 2.6693992614746094,
      "eval_runtime": 221.9941,
      "eval_samples_per_second": 900.925,
      "eval_steps_per_second": 56.308,
      "step": 464000
    },
    {
      "epoch": 1.99,
      "eval_loss": 2.66097354888916,
      "eval_runtime": 222.2278,
      "eval_samples_per_second": 899.977,
      "eval_steps_per_second": 56.249,
      "step": 472000
    },
    {
      "epoch": 2.02,
      "learning_rate": 8.004669390477779e-06,
      "loss": 2.8682,
      "step": 480000
    },
    {
      "epoch": 2.02,
      "eval_loss": 2.687664747238159,
      "eval_runtime": 222.351,
      "eval_samples_per_second": 899.479,
      "eval_steps_per_second": 56.217,
      "step": 480000
    },
    {
      "epoch": 2.05,
      "eval_loss": 2.6723899841308594,
      "eval_runtime": 224.037,
      "eval_samples_per_second": 892.71,
      "eval_steps_per_second": 55.794,
      "step": 488000
    },
    {
      "epoch": 2.09,
      "learning_rate": 7.937963812223798e-06,
      "loss": 2.8693,
      "step": 496000
    },
    {
      "epoch": 2.09,
      "eval_loss": 2.683910608291626,
      "eval_runtime": 223.5884,
      "eval_samples_per_second": 894.501,
      "eval_steps_per_second": 55.906,
      "step": 496000
    },
    {
      "epoch": 2.12,
      "eval_loss": 2.692282199859619,
      "eval_runtime": 222.8054,
      "eval_samples_per_second": 897.644,
      "eval_steps_per_second": 56.103,
      "step": 504000
    },
    {
      "epoch": 2.16,
      "learning_rate": 7.871258233969816e-06,
      "loss": 2.8881,
      "step": 512000
    },
    {
      "epoch": 2.16,
      "eval_loss": 2.696408987045288,
      "eval_runtime": 223.0143,
      "eval_samples_per_second": 896.803,
      "eval_steps_per_second": 56.05,
      "step": 512000
    },
    {
      "epoch": 2.19,
      "eval_loss": 2.698155403137207,
      "eval_runtime": 223.8418,
      "eval_samples_per_second": 893.488,
      "eval_steps_per_second": 55.843,
      "step": 520000
    },
    {
      "epoch": 2.22,
      "learning_rate": 7.804552655715835e-06,
      "loss": 2.8874,
      "step": 528000
    },
    {
      "epoch": 2.22,
      "eval_loss": 2.6960911750793457,
      "eval_runtime": 224.8442,
      "eval_samples_per_second": 889.505,
      "eval_steps_per_second": 55.594,
      "step": 528000
    },
    {
      "epoch": 2.26,
      "eval_loss": 2.6883530616760254,
      "eval_runtime": 223.4198,
      "eval_samples_per_second": 895.176,
      "eval_steps_per_second": 55.948,
      "step": 536000
    },
    {
      "epoch": 2.29,
      "learning_rate": 7.737847077461853e-06,
      "loss": 2.8899,
      "step": 544000
    },
    {
      "epoch": 2.29,
      "eval_loss": 2.7055277824401855,
      "eval_runtime": 222.7527,
      "eval_samples_per_second": 897.857,
      "eval_steps_per_second": 56.116,
      "step": 544000
    },
    {
      "epoch": 2.32,
      "eval_loss": 2.6987791061401367,
      "eval_runtime": 226.517,
      "eval_samples_per_second": 882.936,
      "eval_steps_per_second": 55.183,
      "step": 552000
    },
    {
      "epoch": 2.36,
      "learning_rate": 7.671141499207872e-06,
      "loss": 2.8966,
      "step": 560000
    },
    {
      "epoch": 2.36,
      "eval_loss": 2.7103066444396973,
      "eval_runtime": 226.9023,
      "eval_samples_per_second": 881.437,
      "eval_steps_per_second": 55.09,
      "step": 560000
    },
    {
      "epoch": 2.39,
      "eval_loss": 2.709984302520752,
      "eval_runtime": 226.5608,
      "eval_samples_per_second": 882.765,
      "eval_steps_per_second": 55.173,
      "step": 568000
    },
    {
      "epoch": 2.43,
      "learning_rate": 7.604435920953891e-06,
      "loss": 2.9,
      "step": 576000
    },
    {
      "epoch": 2.43,
      "eval_loss": 2.716878652572632,
      "eval_runtime": 227.2343,
      "eval_samples_per_second": 880.149,
      "eval_steps_per_second": 55.009,
      "step": 576000
    },
    {
      "epoch": 2.46,
      "eval_loss": 2.718041181564331,
      "eval_runtime": 224.0002,
      "eval_samples_per_second": 892.856,
      "eval_steps_per_second": 55.804,
      "step": 584000
    },
    {
      "epoch": 2.49,
      "learning_rate": 7.537730342699909e-06,
      "loss": 2.9237,
      "step": 592000
    },
    {
      "epoch": 2.49,
      "eval_loss": 2.7270028591156006,
      "eval_runtime": 223.2886,
      "eval_samples_per_second": 895.702,
      "eval_steps_per_second": 55.981,
      "step": 592000
    },
    {
      "epoch": 2.53,
      "eval_loss": 2.726536989212036,
      "eval_runtime": 222.779,
      "eval_samples_per_second": 897.751,
      "eval_steps_per_second": 56.109,
      "step": 600000
    },
    {
      "epoch": 2.56,
      "learning_rate": 7.471024764445928e-06,
      "loss": 2.9236,
      "step": 608000
    },
    {
      "epoch": 2.56,
      "eval_loss": 2.732328176498413,
      "eval_runtime": 223.8713,
      "eval_samples_per_second": 893.37,
      "eval_steps_per_second": 55.836,
      "step": 608000
    },
    {
      "epoch": 2.59,
      "eval_loss": 2.73500394821167,
      "eval_runtime": 225.493,
      "eval_samples_per_second": 886.945,
      "eval_steps_per_second": 55.434,
      "step": 616000
    },
    {
      "epoch": 2.63,
      "learning_rate": 7.4043191861919465e-06,
      "loss": 2.9276,
      "step": 624000
    },
    {
      "epoch": 2.63,
      "eval_loss": 2.7333498001098633,
      "eval_runtime": 224.8806,
      "eval_samples_per_second": 889.361,
      "eval_steps_per_second": 55.585,
      "step": 624000
    },
    {
      "epoch": 2.66,
      "eval_loss": 2.734511613845825,
      "eval_runtime": 225.2251,
      "eval_samples_per_second": 888.001,
      "eval_steps_per_second": 55.5,
      "step": 632000
    },
    {
      "epoch": 2.69,
      "learning_rate": 7.337613607937964e-06,
      "loss": 2.9252,
      "step": 640000
    },
    {
      "epoch": 2.69,
      "eval_loss": 2.749704360961914,
      "eval_runtime": 225.1054,
      "eval_samples_per_second": 888.473,
      "eval_steps_per_second": 55.53,
      "step": 640000
    },
    {
      "epoch": 2.73,
      "eval_loss": 2.74284029006958,
      "eval_runtime": 224.0229,
      "eval_samples_per_second": 892.766,
      "eval_steps_per_second": 55.798,
      "step": 648000
    },
    {
      "epoch": 2.76,
      "learning_rate": 7.270908029683983e-06,
      "loss": 2.9364,
      "step": 656000
    },
    {
      "epoch": 2.76,
      "eval_loss": 2.7391881942749023,
      "eval_runtime": 224.6028,
      "eval_samples_per_second": 890.461,
      "eval_steps_per_second": 55.654,
      "step": 656000
    },
    {
      "epoch": 2.8,
      "eval_loss": 2.750549077987671,
      "eval_runtime": 223.6418,
      "eval_samples_per_second": 894.287,
      "eval_steps_per_second": 55.893,
      "step": 664000
    },
    {
      "epoch": 2.83,
      "learning_rate": 7.2042024514300015e-06,
      "loss": 2.9366,
      "step": 672000
    },
    {
      "epoch": 2.83,
      "eval_loss": 2.7392961978912354,
      "eval_runtime": 223.5241,
      "eval_samples_per_second": 894.758,
      "eval_steps_per_second": 55.922,
      "step": 672000
    },
    {
      "epoch": 2.86,
      "eval_loss": 2.7371537685394287,
      "eval_runtime": 223.9923,
      "eval_samples_per_second": 892.888,
      "eval_steps_per_second": 55.805,
      "step": 680000
    },
    {
      "epoch": 2.9,
      "learning_rate": 7.13749687317602e-06,
      "loss": 2.9437,
      "step": 688000
    },
    {
      "epoch": 2.9,
      "eval_loss": 2.7450687885284424,
      "eval_runtime": 223.0769,
      "eval_samples_per_second": 896.552,
      "eval_steps_per_second": 56.034,
      "step": 688000
    },
    {
      "epoch": 2.93,
      "eval_loss": 2.748831033706665,
      "eval_runtime": 222.9228,
      "eval_samples_per_second": 897.172,
      "eval_steps_per_second": 56.073,
      "step": 696000
    },
    {
      "epoch": 2.96,
      "learning_rate": 7.070791294922038e-06,
      "loss": 2.9483,
      "step": 704000
    },
    {
      "epoch": 2.96,
      "eval_loss": 2.7586183547973633,
      "eval_runtime": 223.3142,
      "eval_samples_per_second": 895.599,
      "eval_steps_per_second": 55.975,
      "step": 704000
    },
    {
      "epoch": 3.0,
      "eval_loss": 2.7612552642822266,
      "eval_runtime": 222.226,
      "eval_samples_per_second": 899.985,
      "eval_steps_per_second": 56.249,
      "step": 712000
    },
    {
      "epoch": 3.03,
      "learning_rate": 7.0040857166680564e-06,
      "loss": 2.9588,
      "step": 720000
    },
    {
      "epoch": 3.03,
      "eval_loss": 2.76190447807312,
      "eval_runtime": 222.4583,
      "eval_samples_per_second": 899.045,
      "eval_steps_per_second": 56.19,
      "step": 720000
    },
    {
      "epoch": 3.07,
      "eval_loss": 2.7680461406707764,
      "eval_runtime": 221.9857,
      "eval_samples_per_second": 900.959,
      "eval_steps_per_second": 56.31,
      "step": 728000
    },
    {
      "epoch": 3.1,
      "learning_rate": 6.937380138414076e-06,
      "loss": 2.9422,
      "step": 736000
    },
    {
      "epoch": 3.1,
      "eval_loss": 2.754580020904541,
      "eval_runtime": 221.9355,
      "eval_samples_per_second": 901.163,
      "eval_steps_per_second": 56.323,
      "step": 736000
    },
    {
      "epoch": 3.13,
      "eval_loss": 2.762883424758911,
      "eval_runtime": 221.6295,
      "eval_samples_per_second": 902.407,
      "eval_steps_per_second": 56.4,
      "step": 744000
    },
    {
      "epoch": 3.17,
      "learning_rate": 6.8706745601600945e-06,
      "loss": 2.965,
      "step": 752000
    },
    {
      "epoch": 3.17,
      "eval_loss": 2.759537696838379,
      "eval_runtime": 221.2415,
      "eval_samples_per_second": 903.99,
      "eval_steps_per_second": 56.499,
      "step": 752000
    },
    {
      "epoch": 3.2,
      "eval_loss": 2.776278018951416,
      "eval_runtime": 221.0108,
      "eval_samples_per_second": 904.933,
      "eval_steps_per_second": 56.558,
      "step": 760000
    },
    {
      "epoch": 3.23,
      "learning_rate": 6.803968981906113e-06,
      "loss": 2.959,
      "step": 768000
    },
    {
      "epoch": 3.23,
      "eval_loss": 2.7738993167877197,
      "eval_runtime": 221.3449,
      "eval_samples_per_second": 903.567,
      "eval_steps_per_second": 56.473,
      "step": 768000
    },
    {
      "epoch": 3.27,
      "eval_loss": 2.7838892936706543,
      "eval_runtime": 223.8916,
      "eval_samples_per_second": 893.29,
      "eval_steps_per_second": 55.831,
      "step": 776000
    },
    {
      "epoch": 3.3,
      "learning_rate": 6.737263403652131e-06,
      "loss": 2.9604,
      "step": 784000
    },
    {
      "epoch": 3.3,
      "eval_loss": 2.7680771350860596,
      "eval_runtime": 223.8457,
      "eval_samples_per_second": 893.473,
      "eval_steps_per_second": 55.842,
      "step": 784000
    },
    {
      "epoch": 3.33,
      "eval_loss": 2.7816002368927,
      "eval_runtime": 224.025,
      "eval_samples_per_second": 892.757,
      "eval_steps_per_second": 55.797,
      "step": 792000
    },
    {
      "epoch": 3.37,
      "learning_rate": 6.6705578253981495e-06,
      "loss": 2.9638,
      "step": 800000
    },
    {
      "epoch": 3.37,
      "eval_loss": 2.7812399864196777,
      "eval_runtime": 224.4231,
      "eval_samples_per_second": 891.174,
      "eval_steps_per_second": 55.698,
      "step": 800000
    },
    {
      "epoch": 3.4,
      "eval_loss": 2.7845778465270996,
      "eval_runtime": 223.1998,
      "eval_samples_per_second": 896.058,
      "eval_steps_per_second": 56.004,
      "step": 808000
    },
    {
      "epoch": 3.44,
      "learning_rate": 6.603852247144168e-06,
      "loss": 2.9704,
      "step": 816000
    },
    {
      "epoch": 3.44,
      "eval_loss": 2.7766318321228027,
      "eval_runtime": 222.3046,
      "eval_samples_per_second": 899.667,
      "eval_steps_per_second": 56.229,
      "step": 816000
    },
    {
      "epoch": 3.47,
      "eval_loss": 2.786909580230713,
      "eval_runtime": 221.8638,
      "eval_samples_per_second": 901.454,
      "eval_steps_per_second": 56.341,
      "step": 824000
    },
    {
      "epoch": 3.5,
      "learning_rate": 6.537146668890187e-06,
      "loss": 2.9684,
      "step": 832000
    },
    {
      "epoch": 3.5,
      "eval_loss": 2.7741353511810303,
      "eval_runtime": 222.0395,
      "eval_samples_per_second": 900.741,
      "eval_steps_per_second": 56.296,
      "step": 832000
    },
    {
      "epoch": 3.54,
      "eval_loss": 2.773477077484131,
      "eval_runtime": 225.8502,
      "eval_samples_per_second": 885.543,
      "eval_steps_per_second": 55.346,
      "step": 840000
    },
    {
      "epoch": 3.57,
      "learning_rate": 6.4704410906362044e-06,
      "loss": 2.9723,
      "step": 848000
    },
    {
      "epoch": 3.57,
      "eval_loss": 2.7700908184051514,
      "eval_runtime": 226.2294,
      "eval_samples_per_second": 884.058,
      "eval_steps_per_second": 55.254,
      "step": 848000
    },
    {
      "epoch": 3.6,
      "eval_loss": 2.7779886722564697,
      "eval_runtime": 224.2673,
      "eval_samples_per_second": 891.793,
      "eval_steps_per_second": 55.737,
      "step": 856000
    },
    {
      "epoch": 3.64,
      "learning_rate": 6.403735512382223e-06,
      "loss": 2.9734,
      "step": 864000
    },
    {
      "epoch": 3.64,
      "eval_loss": 2.7833447456359863,
      "eval_runtime": 223.9605,
      "eval_samples_per_second": 893.014,
      "eval_steps_per_second": 55.813,
      "step": 864000
    },
    {
      "epoch": 3.67,
      "eval_loss": 2.790961503982544,
      "eval_runtime": 223.0622,
      "eval_samples_per_second": 896.611,
      "eval_steps_per_second": 56.038,
      "step": 872000
    },
    {
      "epoch": 3.71,
      "learning_rate": 6.337029934128242e-06,
      "loss": 2.9806,
      "step": 880000
    },
    {
      "epoch": 3.71,
      "eval_loss": 2.794116258621216,
      "eval_runtime": 222.8246,
      "eval_samples_per_second": 897.567,
      "eval_steps_per_second": 56.098,
      "step": 880000
    },
    {
      "epoch": 3.74,
      "eval_loss": 2.7997074127197266,
      "eval_runtime": 223.2842,
      "eval_samples_per_second": 895.719,
      "eval_steps_per_second": 55.982,
      "step": 888000
    },
    {
      "epoch": 3.77,
      "learning_rate": 6.270324355874261e-06,
      "loss": 2.9808,
      "step": 896000
    },
    {
      "epoch": 3.77,
      "eval_loss": 2.802687406539917,
      "eval_runtime": 223.8034,
      "eval_samples_per_second": 893.641,
      "eval_steps_per_second": 55.853,
      "step": 896000
    },
    {
      "epoch": 3.81,
      "eval_loss": 2.797201156616211,
      "eval_runtime": 221.8286,
      "eval_samples_per_second": 901.597,
      "eval_steps_per_second": 56.35,
      "step": 904000
    },
    {
      "epoch": 3.84,
      "learning_rate": 6.20361877762028e-06,
      "loss": 3.0008,
      "step": 912000
    },
    {
      "epoch": 3.84,
      "eval_loss": 2.8025898933410645,
      "eval_runtime": 222.2117,
      "eval_samples_per_second": 900.042,
      "eval_steps_per_second": 56.253,
      "step": 912000
    },
    {
      "epoch": 3.87,
      "eval_loss": 2.7974584102630615,
      "eval_runtime": 222.1337,
      "eval_samples_per_second": 900.358,
      "eval_steps_per_second": 56.272,
      "step": 920000
    },
    {
      "epoch": 3.91,
      "learning_rate": 6.1369131993662975e-06,
      "loss": 2.9934,
      "step": 928000
    },
    {
      "epoch": 3.91,
      "eval_loss": 2.797086000442505,
      "eval_runtime": 221.5435,
      "eval_samples_per_second": 902.757,
      "eval_steps_per_second": 56.422,
      "step": 928000
    },
    {
      "epoch": 3.94,
      "eval_loss": 2.8030388355255127,
      "eval_runtime": 226.5332,
      "eval_samples_per_second": 882.873,
      "eval_steps_per_second": 55.18,
      "step": 936000
    },
    {
      "epoch": 3.97,
      "learning_rate": 6.070207621112316e-06,
      "loss": 2.9927,
      "step": 944000
    },
    {
      "epoch": 3.97,
      "eval_loss": 2.8082187175750732,
      "eval_runtime": 224.5948,
      "eval_samples_per_second": 890.492,
      "eval_steps_per_second": 55.656,
      "step": 944000
    },
    {
      "epoch": 4.01,
      "eval_loss": 2.820798397064209,
      "eval_runtime": 224.7429,
      "eval_samples_per_second": 889.906,
      "eval_steps_per_second": 55.619,
      "step": 952000
    },
    {
      "epoch": 4.04,
      "learning_rate": 6.003502042858335e-06,
      "loss": 3.0013,
      "step": 960000
    },
    {
      "epoch": 4.04,
      "eval_loss": 2.8129076957702637,
      "eval_runtime": 224.0828,
      "eval_samples_per_second": 892.527,
      "eval_steps_per_second": 55.783,
      "step": 960000
    },
    {
      "epoch": 4.08,
      "eval_loss": 2.823551893234253,
      "eval_runtime": 222.6379,
      "eval_samples_per_second": 898.32,
      "eval_steps_per_second": 56.145,
      "step": 968000
    },
    {
      "epoch": 4.11,
      "learning_rate": 5.936796464604353e-06,
      "loss": 2.9996,
      "step": 976000
    },
    {
      "epoch": 4.11,
      "eval_loss": 2.8225581645965576,
      "eval_runtime": 223.2923,
      "eval_samples_per_second": 895.687,
      "eval_steps_per_second": 55.98,
      "step": 976000
    },
    {
      "epoch": 4.14,
      "eval_loss": 2.827303409576416,
      "eval_runtime": 223.5156,
      "eval_samples_per_second": 894.792,
      "eval_steps_per_second": 55.925,
      "step": 984000
    },
    {
      "epoch": 4.18,
      "learning_rate": 5.870090886350371e-06,
      "loss": 3.0125,
      "step": 992000
    },
    {
      "epoch": 4.18,
      "eval_loss": 2.8161449432373047,
      "eval_runtime": 222.4898,
      "eval_samples_per_second": 898.917,
      "eval_steps_per_second": 56.182,
      "step": 992000
    },
    {
      "epoch": 4.21,
      "eval_loss": 2.8249175548553467,
      "eval_runtime": 224.1746,
      "eval_samples_per_second": 892.162,
      "eval_steps_per_second": 55.76,
      "step": 1000000
    },
    {
      "epoch": 4.24,
      "learning_rate": 5.80338530809639e-06,
      "loss": 3.0086,
      "step": 1008000
    },
    {
      "epoch": 4.24,
      "eval_loss": 2.832012414932251,
      "eval_runtime": 224.9255,
      "eval_samples_per_second": 889.184,
      "eval_steps_per_second": 55.574,
      "step": 1008000
    },
    {
      "epoch": 4.28,
      "eval_loss": 2.831321954727173,
      "eval_runtime": 225.1137,
      "eval_samples_per_second": 888.44,
      "eval_steps_per_second": 55.528,
      "step": 1016000
    },
    {
      "epoch": 4.31,
      "learning_rate": 5.736679729842408e-06,
      "loss": 3.0077,
      "step": 1024000
    },
    {
      "epoch": 4.31,
      "eval_loss": 2.83213210105896,
      "eval_runtime": 224.7924,
      "eval_samples_per_second": 889.71,
      "eval_steps_per_second": 55.607,
      "step": 1024000
    },
    {
      "epoch": 4.35,
      "eval_loss": 2.833178758621216,
      "eval_runtime": 225.4632,
      "eval_samples_per_second": 887.063,
      "eval_steps_per_second": 55.441,
      "step": 1032000
    },
    {
      "epoch": 4.38,
      "learning_rate": 5.669974151588427e-06,
      "loss": 3.0186,
      "step": 1040000
    },
    {
      "epoch": 4.38,
      "eval_loss": 2.8288471698760986,
      "eval_runtime": 225.9333,
      "eval_samples_per_second": 885.217,
      "eval_steps_per_second": 55.326,
      "step": 1040000
    },
    {
      "epoch": 4.41,
      "eval_loss": 2.839233160018921,
      "eval_runtime": 225.2383,
      "eval_samples_per_second": 887.949,
      "eval_steps_per_second": 55.497,
      "step": 1048000
    },
    {
      "epoch": 4.45,
      "learning_rate": 5.603268573334446e-06,
      "loss": 3.0311,
      "step": 1056000
    },
    {
      "epoch": 4.45,
      "eval_loss": 2.824310302734375,
      "eval_runtime": 223.8873,
      "eval_samples_per_second": 893.307,
      "eval_steps_per_second": 55.832,
      "step": 1056000
    },
    {
      "epoch": 4.48,
      "eval_loss": 2.852445602416992,
      "eval_runtime": 226.2506,
      "eval_samples_per_second": 883.976,
      "eval_steps_per_second": 55.248,
      "step": 1064000
    },
    {
      "epoch": 4.51,
      "learning_rate": 5.536562995080464e-06,
      "loss": 3.0199,
      "step": 1072000
    },
    {
      "epoch": 4.51,
      "eval_loss": 2.834698438644409,
      "eval_runtime": 224.6576,
      "eval_samples_per_second": 890.244,
      "eval_steps_per_second": 55.64,
      "step": 1072000
    },
    {
      "epoch": 4.55,
      "eval_loss": 2.8437862396240234,
      "eval_runtime": 224.6897,
      "eval_samples_per_second": 890.116,
      "eval_steps_per_second": 55.632,
      "step": 1080000
    },
    {
      "epoch": 4.58,
      "learning_rate": 5.469857416826483e-06,
      "loss": 3.0198,
      "step": 1088000
    },
    {
      "epoch": 4.58,
      "eval_loss": 2.8415181636810303,
      "eval_runtime": 223.938,
      "eval_samples_per_second": 893.104,
      "eval_steps_per_second": 55.819,
      "step": 1088000
    },
    {
      "epoch": 4.61,
      "eval_loss": 2.84600567817688,
      "eval_runtime": 222.512,
      "eval_samples_per_second": 898.828,
      "eval_steps_per_second": 56.177,
      "step": 1096000
    },
    {
      "epoch": 4.65,
      "learning_rate": 5.403151838572501e-06,
      "loss": 3.0279,
      "step": 1104000
    },
    {
      "epoch": 4.65,
      "eval_loss": 2.855103015899658,
      "eval_runtime": 224.3844,
      "eval_samples_per_second": 891.328,
      "eval_steps_per_second": 55.708,
      "step": 1104000
    },
    {
      "epoch": 4.68,
      "eval_loss": 2.8528149127960205,
      "eval_runtime": 222.2925,
      "eval_samples_per_second": 899.715,
      "eval_steps_per_second": 56.232,
      "step": 1112000
    },
    {
      "epoch": 4.72,
      "learning_rate": 5.33644626031852e-06,
      "loss": 3.0319,
      "step": 1120000
    },
    {
      "epoch": 4.72,
      "eval_loss": 2.8601133823394775,
      "eval_runtime": 225.9192,
      "eval_samples_per_second": 885.272,
      "eval_steps_per_second": 55.33,
      "step": 1120000
    },
    {
      "epoch": 4.75,
      "eval_loss": 2.8543853759765625,
      "eval_runtime": 228.4752,
      "eval_samples_per_second": 875.369,
      "eval_steps_per_second": 54.711,
      "step": 1128000
    },
    {
      "epoch": 4.78,
      "learning_rate": 5.269740682064538e-06,
      "loss": 3.0371,
      "step": 1136000
    },
    {
      "epoch": 4.78,
      "eval_loss": 2.855318069458008,
      "eval_runtime": 229.1947,
      "eval_samples_per_second": 872.621,
      "eval_steps_per_second": 54.539,
      "step": 1136000
    },
    {
      "epoch": 4.82,
      "eval_loss": 2.8596949577331543,
      "eval_runtime": 228.9063,
      "eval_samples_per_second": 873.72,
      "eval_steps_per_second": 54.607,
      "step": 1144000
    },
    {
      "epoch": 4.85,
      "learning_rate": 5.203035103810556e-06,
      "loss": 3.038,
      "step": 1152000
    },
    {
      "epoch": 4.85,
      "eval_loss": 2.865326166152954,
      "eval_runtime": 228.6229,
      "eval_samples_per_second": 874.803,
      "eval_steps_per_second": 54.675,
      "step": 1152000
    },
    {
      "epoch": 4.88,
      "eval_loss": 2.856044292449951,
      "eval_runtime": 224.6889,
      "eval_samples_per_second": 890.12,
      "eval_steps_per_second": 55.632,
      "step": 1160000
    },
    {
      "epoch": 4.92,
      "learning_rate": 5.136329525556575e-06,
      "loss": 3.0318,
      "step": 1168000
    },
    {
      "epoch": 4.92,
      "eval_loss": 2.860161542892456,
      "eval_runtime": 223.8596,
      "eval_samples_per_second": 893.417,
      "eval_steps_per_second": 55.839,
      "step": 1168000
    },
    {
      "epoch": 4.95,
      "eval_loss": 2.8483996391296387,
      "eval_runtime": 223.3074,
      "eval_samples_per_second": 895.627,
      "eval_steps_per_second": 55.977,
      "step": 1176000
    },
    {
      "epoch": 4.99,
      "learning_rate": 5.0696239473025935e-06,
      "loss": 3.0449,
      "step": 1184000
    },
    {
      "epoch": 4.99,
      "eval_loss": 2.861185073852539,
      "eval_runtime": 223.8763,
      "eval_samples_per_second": 893.35,
      "eval_steps_per_second": 55.834,
      "step": 1184000
    },
    {
      "epoch": 5.02,
      "eval_loss": 2.8597800731658936,
      "eval_runtime": 223.5703,
      "eval_samples_per_second": 894.573,
      "eval_steps_per_second": 55.911,
      "step": 1192000
    },
    {
      "epoch": 5.05,
      "learning_rate": 5.002918369048611e-06,
      "loss": 3.0384,
      "step": 1200000
    },
    {
      "epoch": 5.05,
      "eval_loss": 2.8580985069274902,
      "eval_runtime": 223.5118,
      "eval_samples_per_second": 894.807,
      "eval_steps_per_second": 55.925,
      "step": 1200000
    },
    {
      "epoch": 5.09,
      "eval_loss": 2.8481242656707764,
      "eval_runtime": 222.9723,
      "eval_samples_per_second": 896.972,
      "eval_steps_per_second": 56.061,
      "step": 1208000
    },
    {
      "epoch": 5.12,
      "learning_rate": 4.936212790794631e-06,
      "loss": 3.0243,
      "step": 1216000
    },
    {
      "epoch": 5.12,
      "eval_loss": 2.845810651779175,
      "eval_runtime": 223.4767,
      "eval_samples_per_second": 894.948,
      "eval_steps_per_second": 55.934,
      "step": 1216000
    },
    {
      "epoch": 5.15,
      "eval_loss": 2.849405527114868,
      "eval_runtime": 224.1558,
      "eval_samples_per_second": 892.237,
      "eval_steps_per_second": 55.765,
      "step": 1224000
    },
    {
      "epoch": 5.19,
      "learning_rate": 4.869507212540649e-06,
      "loss": 3.0345,
      "step": 1232000
    },
    {
      "epoch": 5.19,
      "eval_loss": 2.854433536529541,
      "eval_runtime": 223.6399,
      "eval_samples_per_second": 894.295,
      "eval_steps_per_second": 55.893,
      "step": 1232000
    },
    {
      "epoch": 5.22,
      "eval_loss": 2.8487536907196045,
      "eval_runtime": 223.5008,
      "eval_samples_per_second": 894.851,
      "eval_steps_per_second": 55.928,
      "step": 1240000
    },
    {
      "epoch": 5.25,
      "learning_rate": 4.802801634286667e-06,
      "loss": 3.0251,
      "step": 1248000
    },
    {
      "epoch": 5.25,
      "eval_loss": 2.845292568206787,
      "eval_runtime": 224.0031,
      "eval_samples_per_second": 892.845,
      "eval_steps_per_second": 55.803,
      "step": 1248000
    },
    {
      "epoch": 5.29,
      "eval_loss": 2.8464181423187256,
      "eval_runtime": 225.2034,
      "eval_samples_per_second": 888.086,
      "eval_steps_per_second": 55.505,
      "step": 1256000
    },
    {
      "epoch": 5.32,
      "learning_rate": 4.7360960560326865e-06,
      "loss": 3.0234,
      "step": 1264000
    },
    {
      "epoch": 5.32,
      "eval_loss": 2.848585367202759,
      "eval_runtime": 223.6745,
      "eval_samples_per_second": 894.156,
      "eval_steps_per_second": 55.885,
      "step": 1264000
    },
    {
      "epoch": 5.36,
      "eval_loss": 2.8435869216918945,
      "eval_runtime": 223.3913,
      "eval_samples_per_second": 895.29,
      "eval_steps_per_second": 55.956,
      "step": 1272000
    },
    {
      "epoch": 5.39,
      "learning_rate": 4.669390477778704e-06,
      "loss": 3.0205,
      "step": 1280000
    },
    {
      "epoch": 5.39,
      "eval_loss": 2.8476340770721436,
      "eval_runtime": 223.5929,
      "eval_samples_per_second": 894.483,
      "eval_steps_per_second": 55.905,
      "step": 1280000
    },
    {
      "epoch": 5.42,
      "eval_loss": 2.8326635360717773,
      "eval_runtime": 224.8548,
      "eval_samples_per_second": 889.463,
      "eval_steps_per_second": 55.591,
      "step": 1288000
    },
    {
      "epoch": 5.46,
      "learning_rate": 4.602684899524723e-06,
      "loss": 3.0228,
      "step": 1296000
    },
    {
      "epoch": 5.46,
      "eval_loss": 2.8452436923980713,
      "eval_runtime": 223.4053,
      "eval_samples_per_second": 895.234,
      "eval_steps_per_second": 55.952,
      "step": 1296000
    },
    {
      "epoch": 5.49,
      "eval_loss": 2.837240695953369,
      "eval_runtime": 225.2471,
      "eval_samples_per_second": 887.914,
      "eval_steps_per_second": 55.495,
      "step": 1304000
    },
    {
      "epoch": 5.52,
      "learning_rate": 4.5359793212707415e-06,
      "loss": 3.0063,
      "step": 1312000
    },
    {
      "epoch": 5.52,
      "eval_loss": 2.830629348754883,
      "eval_runtime": 224.2293,
      "eval_samples_per_second": 891.944,
      "eval_steps_per_second": 55.746,
      "step": 1312000
    },
    {
      "epoch": 5.56,
      "eval_loss": 2.841139078140259,
      "eval_runtime": 226.2486,
      "eval_samples_per_second": 883.983,
      "eval_steps_per_second": 55.249,
      "step": 1320000
    },
    {
      "epoch": 5.59,
      "learning_rate": 4.46927374301676e-06,
      "loss": 3.0068,
      "step": 1328000
    },
    {
      "epoch": 5.59,
      "eval_loss": 2.827270030975342,
      "eval_runtime": 226.3948,
      "eval_samples_per_second": 883.413,
      "eval_steps_per_second": 55.213,
      "step": 1328000
    },
    {
      "epoch": 5.63,
      "eval_loss": 2.834273338317871,
      "eval_runtime": 226.3338,
      "eval_samples_per_second": 883.651,
      "eval_steps_per_second": 55.228,
      "step": 1336000
    },
    {
      "epoch": 5.66,
      "learning_rate": 4.402568164762779e-06,
      "loss": 3.0109,
      "step": 1344000
    },
    {
      "epoch": 5.66,
      "eval_loss": 2.8328187465667725,
      "eval_runtime": 225.4917,
      "eval_samples_per_second": 886.95,
      "eval_steps_per_second": 55.434,
      "step": 1344000
    },
    {
      "epoch": 5.69,
      "eval_loss": 2.843144655227661,
      "eval_runtime": 224.1529,
      "eval_samples_per_second": 892.248,
      "eval_steps_per_second": 55.766,
      "step": 1352000
    },
    {
      "epoch": 5.73,
      "learning_rate": 4.335862586508797e-06,
      "loss": 3.0068,
      "step": 1360000
    },
    {
      "epoch": 5.73,
      "eval_loss": 2.8331680297851562,
      "eval_runtime": 224.2839,
      "eval_samples_per_second": 891.727,
      "eval_steps_per_second": 55.733,
      "step": 1360000
    },
    {
      "epoch": 5.76,
      "eval_loss": 2.827512502670288,
      "eval_runtime": 223.7519,
      "eval_samples_per_second": 893.847,
      "eval_steps_per_second": 55.865,
      "step": 1368000
    },
    {
      "epoch": 5.79,
      "learning_rate": 4.269157008254816e-06,
      "loss": 3.002,
      "step": 1376000
    },
    {
      "epoch": 5.79,
      "eval_loss": 2.8313817977905273,
      "eval_runtime": 224.094,
      "eval_samples_per_second": 892.483,
      "eval_steps_per_second": 55.78,
      "step": 1376000
    },
    {
      "epoch": 5.83,
      "eval_loss": 2.8324134349823,
      "eval_runtime": 226.0373,
      "eval_samples_per_second": 884.81,
      "eval_steps_per_second": 55.301,
      "step": 1384000
    },
    {
      "epoch": 5.86,
      "learning_rate": 4.202451430000834e-06,
      "loss": 3.0037,
      "step": 1392000
    },
    {
      "epoch": 5.86,
      "eval_loss": 2.839409351348877,
      "eval_runtime": 223.5509,
      "eval_samples_per_second": 894.651,
      "eval_steps_per_second": 55.916,
      "step": 1392000
    },
    {
      "epoch": 5.89,
      "eval_loss": 2.8337831497192383,
      "eval_runtime": 223.4898,
      "eval_samples_per_second": 894.895,
      "eval_steps_per_second": 55.931,
      "step": 1400000
    },
    {
      "epoch": 5.93,
      "learning_rate": 4.135745851746852e-06,
      "loss": 3.0086,
      "step": 1408000
    },
    {
      "epoch": 5.93,
      "eval_loss": 2.8447976112365723,
      "eval_runtime": 223.3032,
      "eval_samples_per_second": 895.643,
      "eval_steps_per_second": 55.978,
      "step": 1408000
    },
    {
      "epoch": 5.96,
      "eval_loss": 2.8326330184936523,
      "eval_runtime": 225.1553,
      "eval_samples_per_second": 888.276,
      "eval_steps_per_second": 55.517,
      "step": 1416000
    },
    {
      "epoch": 6.0,
      "learning_rate": 4.069040273492872e-06,
      "loss": 2.9977,
      "step": 1424000
    },
    {
      "epoch": 6.0,
      "eval_loss": 2.8310978412628174,
      "eval_runtime": 224.0959,
      "eval_samples_per_second": 892.475,
      "eval_steps_per_second": 55.78,
      "step": 1424000
    },
    {
      "epoch": 6.03,
      "eval_loss": 2.8410427570343018,
      "eval_runtime": 223.4994,
      "eval_samples_per_second": 894.857,
      "eval_steps_per_second": 55.929,
      "step": 1432000
    },
    {
      "epoch": 6.06,
      "learning_rate": 4.0023346952388895e-06,
      "loss": 2.9984,
      "step": 1440000
    },
    {
      "epoch": 6.06,
      "eval_loss": 2.8358559608459473,
      "eval_runtime": 223.5492,
      "eval_samples_per_second": 894.658,
      "eval_steps_per_second": 55.916,
      "step": 1440000
    },
    {
      "epoch": 6.1,
      "eval_loss": 2.839256763458252,
      "eval_runtime": 228.1513,
      "eval_samples_per_second": 876.611,
      "eval_steps_per_second": 54.788,
      "step": 1448000
    },
    {
      "epoch": 6.13,
      "learning_rate": 3.935629116984908e-06,
      "loss": 3.0095,
      "step": 1456000
    },
    {
      "epoch": 6.13,
      "eval_loss": 2.838825225830078,
      "eval_runtime": 226.4727,
      "eval_samples_per_second": 883.109,
      "eval_steps_per_second": 55.194,
      "step": 1456000
    },
    {
      "epoch": 6.16,
      "eval_loss": 2.844802141189575,
      "eval_runtime": 226.1587,
      "eval_samples_per_second": 884.335,
      "eval_steps_per_second": 55.271,
      "step": 1464000
    },
    {
      "epoch": 6.2,
      "learning_rate": 3.868923538730927e-06,
      "loss": 3.0051,
      "step": 1472000
    },
    {
      "epoch": 6.2,
      "eval_loss": 2.8472418785095215,
      "eval_runtime": 228.0091,
      "eval_samples_per_second": 877.158,
      "eval_steps_per_second": 54.822,
      "step": 1472000
    },
    {
      "epoch": 6.23,
      "eval_loss": 2.842092514038086,
      "eval_runtime": 224.1053,
      "eval_samples_per_second": 892.438,
      "eval_steps_per_second": 55.777,
      "step": 1480000
    },
    {
      "epoch": 6.27,
      "learning_rate": 3.8022179604769453e-06,
      "loss": 3.0142,
      "step": 1488000
    },
    {
      "epoch": 6.27,
      "eval_loss": 2.842365264892578,
      "eval_runtime": 223.8921,
      "eval_samples_per_second": 893.287,
      "eval_steps_per_second": 55.83,
      "step": 1488000
    },
    {
      "epoch": 6.3,
      "eval_loss": 2.847733974456787,
      "eval_runtime": 223.983,
      "eval_samples_per_second": 892.925,
      "eval_steps_per_second": 55.808,
      "step": 1496000
    },
    {
      "epoch": 6.33,
      "learning_rate": 3.735512382222964e-06,
      "loss": 3.0149,
      "step": 1504000
    },
    {
      "epoch": 6.33,
      "eval_loss": 2.842820405960083,
      "eval_runtime": 224.541,
      "eval_samples_per_second": 890.706,
      "eval_steps_per_second": 55.669,
      "step": 1504000
    },
    {
      "epoch": 6.37,
      "eval_loss": 2.8529434204101562,
      "eval_runtime": 229.172,
      "eval_samples_per_second": 872.707,
      "eval_steps_per_second": 54.544,
      "step": 1512000
    },
    {
      "epoch": 6.4,
      "learning_rate": 3.668806803968982e-06,
      "loss": 3.0147,
      "step": 1520000
    },
    {
      "epoch": 6.4,
      "eval_loss": 2.854137420654297,
      "eval_runtime": 228.0077,
      "eval_samples_per_second": 877.163,
      "eval_steps_per_second": 54.823,
      "step": 1520000
    },
    {
      "epoch": 6.43,
      "eval_loss": 2.8518521785736084,
      "eval_runtime": 227.8943,
      "eval_samples_per_second": 877.6,
      "eval_steps_per_second": 54.85,
      "step": 1528000
    },
    {
      "epoch": 6.47,
      "learning_rate": 3.6021012257150007e-06,
      "loss": 3.0205,
      "step": 1536000
    },
    {
      "epoch": 6.47,
      "eval_loss": 2.852667808532715,
      "eval_runtime": 227.5511,
      "eval_samples_per_second": 878.924,
      "eval_steps_per_second": 54.933,
      "step": 1536000
    },
    {
      "epoch": 6.5,
      "eval_loss": 2.8470675945281982,
      "eval_runtime": 223.3626,
      "eval_samples_per_second": 895.405,
      "eval_steps_per_second": 55.963,
      "step": 1544000
    },
    {
      "epoch": 6.53,
      "learning_rate": 3.535395647461019e-06,
      "loss": 3.029,
      "step": 1552000
    },
    {
      "epoch": 6.53,
      "eval_loss": 2.8583133220672607,
      "eval_runtime": 224.8105,
      "eval_samples_per_second": 889.638,
      "eval_steps_per_second": 55.602,
      "step": 1552000
    },
    {
      "epoch": 6.57,
      "eval_loss": 2.84967303276062,
      "eval_runtime": 223.9635,
      "eval_samples_per_second": 893.002,
      "eval_steps_per_second": 55.813,
      "step": 1560000
    },
    {
      "epoch": 6.6,
      "learning_rate": 3.468690069207038e-06,
      "loss": 3.024,
      "step": 1568000
    },
    {
      "epoch": 6.6,
      "eval_loss": 2.865325689315796,
      "eval_runtime": 223.4985,
      "eval_samples_per_second": 894.86,
      "eval_steps_per_second": 55.929,
      "step": 1568000
    },
    {
      "epoch": 6.64,
      "eval_loss": 2.855334997177124,
      "eval_runtime": 225.852,
      "eval_samples_per_second": 885.536,
      "eval_steps_per_second": 55.346,
      "step": 1576000
    },
    {
      "epoch": 6.67,
      "learning_rate": 3.4019844909530565e-06,
      "loss": 3.0371,
      "step": 1584000
    },
    {
      "epoch": 6.67,
      "eval_loss": 2.865299940109253,
      "eval_runtime": 224.5284,
      "eval_samples_per_second": 890.756,
      "eval_steps_per_second": 55.672,
      "step": 1584000
    },
    {
      "epoch": 6.7,
      "eval_loss": 2.860386848449707,
      "eval_runtime": 223.6209,
      "eval_samples_per_second": 894.371,
      "eval_steps_per_second": 55.898,
      "step": 1592000
    },
    {
      "epoch": 6.74,
      "learning_rate": 3.3352789126990747e-06,
      "loss": 3.0319,
      "step": 1600000
    },
    {
      "epoch": 6.74,
      "eval_loss": 2.862384080886841,
      "eval_runtime": 223.9592,
      "eval_samples_per_second": 893.02,
      "eval_steps_per_second": 55.814,
      "step": 1600000
    },
    {
      "epoch": 6.77,
      "eval_loss": 2.8657121658325195,
      "eval_runtime": 226.5681,
      "eval_samples_per_second": 882.737,
      "eval_steps_per_second": 55.171,
      "step": 1608000
    },
    {
      "epoch": 6.8,
      "learning_rate": 3.2685733344450933e-06,
      "loss": 3.0369,
      "step": 1616000
    },
    {
      "epoch": 6.8,
      "eval_loss": 2.861598491668701,
      "eval_runtime": 224.0599,
      "eval_samples_per_second": 892.618,
      "eval_steps_per_second": 55.789,
      "step": 1616000
    },
    {
      "epoch": 6.84,
      "eval_loss": 2.8666746616363525,
      "eval_runtime": 224.0122,
      "eval_samples_per_second": 892.808,
      "eval_steps_per_second": 55.801,
      "step": 1624000
    },
    {
      "epoch": 6.87,
      "learning_rate": 3.2018677561911115e-06,
      "loss": 3.0357,
      "step": 1632000
    },
    {
      "epoch": 6.87,
      "eval_loss": 2.86602783203125,
      "eval_runtime": 223.9311,
      "eval_samples_per_second": 893.132,
      "eval_steps_per_second": 55.821,
      "step": 1632000
    },
    {
      "epoch": 6.91,
      "eval_loss": 2.868190050125122,
      "eval_runtime": 224.6108,
      "eval_samples_per_second": 890.429,
      "eval_steps_per_second": 55.652,
      "step": 1640000
    },
    {
      "epoch": 6.94,
      "learning_rate": 3.1351621779371306e-06,
      "loss": 3.0342,
      "step": 1648000
    },
    {
      "epoch": 6.94,
      "eval_loss": 2.867553472518921,
      "eval_runtime": 224.9283,
      "eval_samples_per_second": 889.172,
      "eval_steps_per_second": 55.573,
      "step": 1648000
    },
    {
      "epoch": 6.97,
      "eval_loss": 2.881544589996338,
      "eval_runtime": 225.5949,
      "eval_samples_per_second": 886.545,
      "eval_steps_per_second": 55.409,
      "step": 1656000
    },
    {
      "epoch": 7.01,
      "learning_rate": 3.0684565996831487e-06,
      "loss": 3.0375,
      "step": 1664000
    },
    {
      "epoch": 7.01,
      "eval_loss": 2.8667211532592773,
      "eval_runtime": 224.8671,
      "eval_samples_per_second": 889.414,
      "eval_steps_per_second": 55.588,
      "step": 1664000
    },
    {
      "epoch": 7.04,
      "eval_loss": 2.8734593391418457,
      "eval_runtime": 226.9159,
      "eval_samples_per_second": 881.384,
      "eval_steps_per_second": 55.086,
      "step": 1672000
    },
    {
      "epoch": 7.07,
      "learning_rate": 3.0017510214291673e-06,
      "loss": 3.0419,
      "step": 1680000
    },
    {
      "epoch": 7.07,
      "eval_loss": 2.8788318634033203,
      "eval_runtime": 226.3899,
      "eval_samples_per_second": 883.432,
      "eval_steps_per_second": 55.214,
      "step": 1680000
    },
    {
      "epoch": 7.11,
      "eval_loss": 2.8766632080078125,
      "eval_runtime": 225.7385,
      "eval_samples_per_second": 885.981,
      "eval_steps_per_second": 55.374,
      "step": 1688000
    },
    {
      "epoch": 7.14,
      "learning_rate": 2.9350454431751855e-06,
      "loss": 3.0403,
      "step": 1696000
    },
    {
      "epoch": 7.14,
      "eval_loss": 2.8811895847320557,
      "eval_runtime": 225.9242,
      "eval_samples_per_second": 885.253,
      "eval_steps_per_second": 55.328,
      "step": 1696000
    },
    {
      "epoch": 7.17,
      "eval_loss": 2.879542827606201,
      "eval_runtime": 225.7881,
      "eval_samples_per_second": 885.786,
      "eval_steps_per_second": 55.362,
      "step": 1704000
    },
    {
      "epoch": 7.21,
      "learning_rate": 2.868339864921204e-06,
      "loss": 3.0482,
      "step": 1712000
    },
    {
      "epoch": 7.21,
      "eval_loss": 2.88046932220459,
      "eval_runtime": 225.2755,
      "eval_samples_per_second": 887.802,
      "eval_steps_per_second": 55.488,
      "step": 1712000
    },
    {
      "epoch": 7.24,
      "eval_loss": 2.8794021606445312,
      "eval_runtime": 226.8559,
      "eval_samples_per_second": 881.617,
      "eval_steps_per_second": 55.101,
      "step": 1720000
    },
    {
      "epoch": 7.28,
      "learning_rate": 2.801634286667223e-06,
      "loss": 3.0533,
      "step": 1728000
    },
    {
      "epoch": 7.28,
      "eval_loss": 2.8787782192230225,
      "eval_runtime": 225.0025,
      "eval_samples_per_second": 888.879,
      "eval_steps_per_second": 55.555,
      "step": 1728000
    },
    {
      "epoch": 7.31,
      "eval_loss": 2.884382724761963,
      "eval_runtime": 225.9472,
      "eval_samples_per_second": 885.163,
      "eval_steps_per_second": 55.323,
      "step": 1736000
    },
    {
      "epoch": 7.34,
      "learning_rate": 2.7349287084132413e-06,
      "loss": 3.0453,
      "step": 1744000
    },
    {
      "epoch": 7.34,
      "eval_loss": 2.870943069458008,
      "eval_runtime": 225.043,
      "eval_samples_per_second": 888.719,
      "eval_steps_per_second": 55.545,
      "step": 1744000
    },
    {
      "epoch": 7.38,
      "eval_loss": 2.8835349082946777,
      "eval_runtime": 225.0959,
      "eval_samples_per_second": 888.51,
      "eval_steps_per_second": 55.532,
      "step": 1752000
    },
    {
      "epoch": 7.41,
      "learning_rate": 2.66822313015926e-06,
      "loss": 3.0562,
      "step": 1760000
    },
    {
      "epoch": 7.41,
      "eval_loss": 2.8891103267669678,
      "eval_runtime": 224.5495,
      "eval_samples_per_second": 890.672,
      "eval_steps_per_second": 55.667,
      "step": 1760000
    },
    {
      "epoch": 7.44,
      "eval_loss": 2.8902649879455566,
      "eval_runtime": 225.1215,
      "eval_samples_per_second": 888.409,
      "eval_steps_per_second": 55.526,
      "step": 1768000
    },
    {
      "epoch": 7.48,
      "learning_rate": 2.601517551905278e-06,
      "loss": 3.0617,
      "step": 1776000
    },
    {
      "epoch": 7.48,
      "eval_loss": 2.884901762008667,
      "eval_runtime": 225.0729,
      "eval_samples_per_second": 888.601,
      "eval_steps_per_second": 55.538,
      "step": 1776000
    },
    {
      "epoch": 7.51,
      "eval_loss": 2.8766396045684814,
      "eval_runtime": 224.6011,
      "eval_samples_per_second": 890.468,
      "eval_steps_per_second": 55.654,
      "step": 1784000
    },
    {
      "epoch": 7.55,
      "learning_rate": 2.5348119736512967e-06,
      "loss": 3.0539,
      "step": 1792000
    },
    {
      "epoch": 7.55,
      "eval_loss": 2.8871917724609375,
      "eval_runtime": 224.4825,
      "eval_samples_per_second": 890.938,
      "eval_steps_per_second": 55.684,
      "step": 1792000
    },
    {
      "epoch": 7.58,
      "eval_loss": 2.898136615753174,
      "eval_runtime": 225.2799,
      "eval_samples_per_second": 887.784,
      "eval_steps_per_second": 55.487,
      "step": 1800000
    },
    {
      "epoch": 7.61,
      "learning_rate": 2.4681063953973154e-06,
      "loss": 3.0561,
      "step": 1808000
    },
    {
      "epoch": 7.61,
      "eval_loss": 2.886209487915039,
      "eval_runtime": 226.1006,
      "eval_samples_per_second": 884.562,
      "eval_steps_per_second": 55.285,
      "step": 1808000
    },
    {
      "epoch": 7.65,
      "eval_loss": 2.8940441608428955,
      "eval_runtime": 227.2765,
      "eval_samples_per_second": 879.986,
      "eval_steps_per_second": 54.999,
      "step": 1816000
    },
    {
      "epoch": 7.68,
      "learning_rate": 2.4014008171433335e-06,
      "loss": 3.0529,
      "step": 1824000
    },
    {
      "epoch": 7.68,
      "eval_loss": 2.887427568435669,
      "eval_runtime": 225.5383,
      "eval_samples_per_second": 886.767,
      "eval_steps_per_second": 55.423,
      "step": 1824000
    },
    {
      "epoch": 7.71,
      "eval_loss": 2.883918046951294,
      "eval_runtime": 226.0624,
      "eval_samples_per_second": 884.711,
      "eval_steps_per_second": 55.294,
      "step": 1832000
    },
    {
      "epoch": 7.75,
      "learning_rate": 2.334695238889352e-06,
      "loss": 3.0484,
      "step": 1840000
    },
    {
      "epoch": 7.75,
      "eval_loss": 2.883819103240967,
      "eval_runtime": 225.1615,
      "eval_samples_per_second": 888.251,
      "eval_steps_per_second": 55.516,
      "step": 1840000
    },
    {
      "epoch": 7.78,
      "eval_loss": 2.8856074810028076,
      "eval_runtime": 226.1802,
      "eval_samples_per_second": 884.251,
      "eval_steps_per_second": 55.266,
      "step": 1848000
    },
    {
      "epoch": 7.81,
      "learning_rate": 2.2679896606353707e-06,
      "loss": 3.0562,
      "step": 1856000
    },
    {
      "epoch": 7.81,
      "eval_loss": 2.8983583450317383,
      "eval_runtime": 227.809,
      "eval_samples_per_second": 877.929,
      "eval_steps_per_second": 54.871,
      "step": 1856000
    },
    {
      "epoch": 7.85,
      "eval_loss": 2.884408473968506,
      "eval_runtime": 228.3309,
      "eval_samples_per_second": 875.922,
      "eval_steps_per_second": 54.745,
      "step": 1864000
    },
    {
      "epoch": 7.88,
      "learning_rate": 2.2012840823813894e-06,
      "loss": 3.0578,
      "step": 1872000
    },
    {
      "epoch": 7.88,
      "eval_loss": 2.8873543739318848,
      "eval_runtime": 226.4275,
      "eval_samples_per_second": 883.285,
      "eval_steps_per_second": 55.205,
      "step": 1872000
    },
    {
      "epoch": 7.92,
      "eval_loss": 2.8886616230010986,
      "eval_runtime": 226.5836,
      "eval_samples_per_second": 882.676,
      "eval_steps_per_second": 55.167,
      "step": 1880000
    },
    {
      "epoch": 7.95,
      "learning_rate": 2.134578504127408e-06,
      "loss": 3.0553,
      "step": 1888000
    },
    {
      "epoch": 7.95,
      "eval_loss": 2.879803419113159,
      "eval_runtime": 228.4861,
      "eval_samples_per_second": 875.327,
      "eval_steps_per_second": 54.708,
      "step": 1888000
    },
    {
      "epoch": 7.98,
      "eval_loss": 2.8788740634918213,
      "eval_runtime": 228.0679,
      "eval_samples_per_second": 876.932,
      "eval_steps_per_second": 54.808,
      "step": 1896000
    },
    {
      "epoch": 8.02,
      "learning_rate": 2.067872925873426e-06,
      "loss": 3.0623,
      "step": 1904000
    },
    {
      "epoch": 8.02,
      "eval_loss": 2.8968303203582764,
      "eval_runtime": 229.4287,
      "eval_samples_per_second": 871.731,
      "eval_steps_per_second": 54.483,
      "step": 1904000
    },
    {
      "epoch": 8.05,
      "eval_loss": 2.8834211826324463,
      "eval_runtime": 227.0353,
      "eval_samples_per_second": 880.92,
      "eval_steps_per_second": 55.058,
      "step": 1912000
    },
    {
      "epoch": 8.08,
      "learning_rate": 2.0011673476194448e-06,
      "loss": 3.0652,
      "step": 1920000
    },
    {
      "epoch": 8.08,
      "eval_loss": 2.8902077674865723,
      "eval_runtime": 227.3091,
      "eval_samples_per_second": 879.859,
      "eval_steps_per_second": 54.991,
      "step": 1920000
    },
    {
      "epoch": 8.12,
      "eval_loss": 2.8821847438812256,
      "eval_runtime": 226.7104,
      "eval_samples_per_second": 882.183,
      "eval_steps_per_second": 55.136,
      "step": 1928000
    },
    {
      "epoch": 8.15,
      "learning_rate": 1.9344617693654634e-06,
      "loss": 3.0487,
      "step": 1936000
    },
    {
      "epoch": 8.15,
      "eval_loss": 2.8844268321990967,
      "eval_runtime": 227.086,
      "eval_samples_per_second": 880.724,
      "eval_steps_per_second": 55.045,
      "step": 1936000
    },
    {
      "epoch": 8.19,
      "eval_loss": 2.890925407409668,
      "eval_runtime": 227.5282,
      "eval_samples_per_second": 879.012,
      "eval_steps_per_second": 54.938,
      "step": 1944000
    },
    {
      "epoch": 8.22,
      "learning_rate": 1.867756191111482e-06,
      "loss": 3.0546,
      "step": 1952000
    },
    {
      "epoch": 8.22,
      "eval_loss": 2.8915293216705322,
      "eval_runtime": 226.2178,
      "eval_samples_per_second": 884.104,
      "eval_steps_per_second": 55.256,
      "step": 1952000
    },
    {
      "epoch": 8.25,
      "eval_loss": 2.8869712352752686,
      "eval_runtime": 234.1736,
      "eval_samples_per_second": 854.067,
      "eval_steps_per_second": 53.379,
      "step": 1960000
    },
    {
      "epoch": 8.29,
      "learning_rate": 1.8010506128575004e-06,
      "loss": 3.0524,
      "step": 1968000
    },
    {
      "epoch": 8.29,
      "eval_loss": 2.882768154144287,
      "eval_runtime": 232.3633,
      "eval_samples_per_second": 860.721,
      "eval_steps_per_second": 53.795,
      "step": 1968000
    },
    {
      "epoch": 8.32,
      "eval_loss": 2.878105401992798,
      "eval_runtime": 232.7641,
      "eval_samples_per_second": 859.239,
      "eval_steps_per_second": 53.702,
      "step": 1976000
    },
    {
      "epoch": 8.35,
      "learning_rate": 1.734345034603519e-06,
      "loss": 3.0491,
      "step": 1984000
    },
    {
      "epoch": 8.35,
      "eval_loss": 2.894814968109131,
      "eval_runtime": 235.0584,
      "eval_samples_per_second": 850.852,
      "eval_steps_per_second": 53.178,
      "step": 1984000
    },
    {
      "epoch": 8.39,
      "eval_loss": 2.8903963565826416,
      "eval_runtime": 227.9139,
      "eval_samples_per_second": 877.524,
      "eval_steps_per_second": 54.845,
      "step": 1992000
    },
    {
      "epoch": 8.42,
      "learning_rate": 1.6676394563495374e-06,
      "loss": 3.0534,
      "step": 2000000
    },
    {
      "epoch": 8.42,
      "eval_loss": 2.8839056491851807,
      "eval_runtime": 229.0151,
      "eval_samples_per_second": 873.305,
      "eval_steps_per_second": 54.582,
      "step": 2000000
    },
    {
      "epoch": 8.45,
      "eval_loss": 2.891777276992798,
      "eval_runtime": 227.2746,
      "eval_samples_per_second": 879.993,
      "eval_steps_per_second": 55.0,
      "step": 2008000
    },
    {
      "epoch": 8.49,
      "learning_rate": 1.6009338780955558e-06,
      "loss": 3.0547,
      "step": 2016000
    },
    {
      "epoch": 8.49,
      "eval_loss": 2.8738794326782227,
      "eval_runtime": 227.7519,
      "eval_samples_per_second": 878.149,
      "eval_steps_per_second": 54.884,
      "step": 2016000
    },
    {
      "epoch": 8.52,
      "eval_loss": 2.868389129638672,
      "eval_runtime": 228.3511,
      "eval_samples_per_second": 875.844,
      "eval_steps_per_second": 54.74,
      "step": 2024000
    },
    {
      "epoch": 8.56,
      "learning_rate": 1.5342282998415744e-06,
      "loss": 3.0544,
      "step": 2032000
    },
    {
      "epoch": 8.56,
      "eval_loss": 2.8739755153656006,
      "eval_runtime": 229.9365,
      "eval_samples_per_second": 869.806,
      "eval_steps_per_second": 54.363,
      "step": 2032000
    },
    {
      "epoch": 8.59,
      "eval_loss": 2.8784215450286865,
      "eval_runtime": 228.6391,
      "eval_samples_per_second": 874.741,
      "eval_steps_per_second": 54.671,
      "step": 2040000
    },
    {
      "epoch": 8.62,
      "learning_rate": 1.4675227215875928e-06,
      "loss": 3.0448,
      "step": 2048000
    },
    {
      "epoch": 8.62,
      "eval_loss": 2.8758127689361572,
      "eval_runtime": 229.161,
      "eval_samples_per_second": 872.749,
      "eval_steps_per_second": 54.547,
      "step": 2048000
    },
    {
      "epoch": 8.66,
      "eval_loss": 2.880105972290039,
      "eval_runtime": 230.876,
      "eval_samples_per_second": 866.266,
      "eval_steps_per_second": 54.142,
      "step": 2056000
    },
    {
      "epoch": 8.69,
      "learning_rate": 1.4008171433336116e-06,
      "loss": 3.0499,
      "step": 2064000
    },
    {
      "epoch": 8.69,
      "eval_loss": 2.8793435096740723,
      "eval_runtime": 229.0938,
      "eval_samples_per_second": 873.005,
      "eval_steps_per_second": 54.563,
      "step": 2064000
    },
    {
      "epoch": 8.72,
      "eval_loss": 2.8707237243652344,
      "eval_runtime": 228.2778,
      "eval_samples_per_second": 876.126,
      "eval_steps_per_second": 54.758,
      "step": 2072000
    },
    {
      "epoch": 8.76,
      "learning_rate": 1.33411156507963e-06,
      "loss": 3.0368,
      "step": 2080000
    },
    {
      "epoch": 8.76,
      "eval_loss": 2.872204065322876,
      "eval_runtime": 229.9264,
      "eval_samples_per_second": 869.844,
      "eval_steps_per_second": 54.365,
      "step": 2080000
    },
    {
      "epoch": 8.79,
      "eval_loss": 2.875173807144165,
      "eval_runtime": 229.2278,
      "eval_samples_per_second": 872.495,
      "eval_steps_per_second": 54.531,
      "step": 2088000
    },
    {
      "epoch": 8.83,
      "learning_rate": 1.2674059868256484e-06,
      "loss": 3.0548,
      "step": 2096000
    },
    {
      "epoch": 8.83,
      "eval_loss": 2.8879776000976562,
      "eval_runtime": 228.5322,
      "eval_samples_per_second": 875.15,
      "eval_steps_per_second": 54.697,
      "step": 2096000
    },
    {
      "epoch": 8.86,
      "eval_loss": 2.87813663482666,
      "eval_runtime": 228.0244,
      "eval_samples_per_second": 877.099,
      "eval_steps_per_second": 54.819,
      "step": 2104000
    },
    {
      "epoch": 8.89,
      "learning_rate": 1.2007004085716668e-06,
      "loss": 3.0457,
      "step": 2112000
    },
    {
      "epoch": 8.89,
      "eval_loss": 2.882504463195801,
      "eval_runtime": 228.7296,
      "eval_samples_per_second": 874.395,
      "eval_steps_per_second": 54.65,
      "step": 2112000
    },
    {
      "epoch": 8.93,
      "eval_loss": 2.8827481269836426,
      "eval_runtime": 231.2951,
      "eval_samples_per_second": 864.696,
      "eval_steps_per_second": 54.044,
      "step": 2120000
    },
    {
      "epoch": 8.96,
      "learning_rate": 1.1339948303176854e-06,
      "loss": 3.0377,
      "step": 2128000
    },
    {
      "epoch": 8.96,
      "eval_loss": 2.880984306335449,
      "eval_runtime": 231.2589,
      "eval_samples_per_second": 864.832,
      "eval_steps_per_second": 54.052,
      "step": 2128000
    },
    {
      "epoch": 8.99,
      "eval_loss": 2.872668981552124,
      "eval_runtime": 231.1403,
      "eval_samples_per_second": 865.275,
      "eval_steps_per_second": 54.08,
      "step": 2136000
    },
    {
      "epoch": 9.03,
      "learning_rate": 1.067289252063704e-06,
      "loss": 3.0341,
      "step": 2144000
    },
    {
      "epoch": 9.03,
      "eval_loss": 2.8749947547912598,
      "eval_runtime": 232.6534,
      "eval_samples_per_second": 859.648,
      "eval_steps_per_second": 53.728,
      "step": 2144000
    },
    {
      "epoch": 9.06,
      "eval_loss": 2.8637659549713135,
      "eval_runtime": 232.1804,
      "eval_samples_per_second": 861.399,
      "eval_steps_per_second": 53.837,
      "step": 2152000
    },
    {
      "epoch": 9.09,
      "learning_rate": 1.0005836738097224e-06,
      "loss": 3.0275,
      "step": 2160000
    },
    {
      "epoch": 9.09,
      "eval_loss": 2.8689756393432617,
      "eval_runtime": 233.8191,
      "eval_samples_per_second": 855.362,
      "eval_steps_per_second": 53.46,
      "step": 2160000
    },
    {
      "epoch": 9.13,
      "eval_loss": 2.866030693054199,
      "eval_runtime": 231.4154,
      "eval_samples_per_second": 864.247,
      "eval_steps_per_second": 54.015,
      "step": 2168000
    },
    {
      "epoch": 9.16,
      "learning_rate": 9.33878095555741e-07,
      "loss": 3.0413,
      "step": 2176000
    },
    {
      "epoch": 9.16,
      "eval_loss": 2.8578262329101562,
      "eval_runtime": 233.839,
      "eval_samples_per_second": 855.289,
      "eval_steps_per_second": 53.456,
      "step": 2176000
    },
    {
      "epoch": 9.2,
      "eval_loss": 2.8692455291748047,
      "eval_runtime": 236.8158,
      "eval_samples_per_second": 844.538,
      "eval_steps_per_second": 52.784,
      "step": 2184000
    },
    {
      "epoch": 9.23,
      "learning_rate": 8.671725173017595e-07,
      "loss": 3.0272,
      "step": 2192000
    },
    {
      "epoch": 9.23,
      "eval_loss": 2.8701837062835693,
      "eval_runtime": 235.4116,
      "eval_samples_per_second": 849.576,
      "eval_steps_per_second": 53.098,
      "step": 2192000
    },
    {
      "epoch": 9.26,
      "eval_loss": 2.870734453201294,
      "eval_runtime": 236.6161,
      "eval_samples_per_second": 845.251,
      "eval_steps_per_second": 52.828,
      "step": 2200000
    },
    {
      "epoch": 9.3,
      "learning_rate": 8.004669390477779e-07,
      "loss": 3.034,
      "step": 2208000
    },
    {
      "epoch": 9.3,
      "eval_loss": 2.866581916809082,
      "eval_runtime": 233.8393,
      "eval_samples_per_second": 855.288,
      "eval_steps_per_second": 53.456,
      "step": 2208000
    },
    {
      "epoch": 9.33,
      "eval_loss": 2.873441219329834,
      "eval_runtime": 229.9559,
      "eval_samples_per_second": 869.732,
      "eval_steps_per_second": 54.358,
      "step": 2216000
    },
    {
      "epoch": 9.36,
      "learning_rate": 7.337613607937964e-07,
      "loss": 3.0346,
      "step": 2224000
    },
    {
      "epoch": 9.36,
      "eval_loss": 2.8685038089752197,
      "eval_runtime": 229.1295,
      "eval_samples_per_second": 872.869,
      "eval_steps_per_second": 54.554,
      "step": 2224000
    },
    {
      "epoch": 9.4,
      "eval_loss": 2.867513656616211,
      "eval_runtime": 228.6384,
      "eval_samples_per_second": 874.744,
      "eval_steps_per_second": 54.671,
      "step": 2232000
    },
    {
      "epoch": 9.43,
      "learning_rate": 6.67055782539815e-07,
      "loss": 3.0234,
      "step": 2240000
    },
    {
      "epoch": 9.43,
      "eval_loss": 2.866205930709839,
      "eval_runtime": 228.8031,
      "eval_samples_per_second": 874.114,
      "eval_steps_per_second": 54.632,
      "step": 2240000
    },
    {
      "epoch": 9.47,
      "eval_loss": 2.8670058250427246,
      "eval_runtime": 230.0362,
      "eval_samples_per_second": 869.428,
      "eval_steps_per_second": 54.339,
      "step": 2248000
    },
    {
      "epoch": 9.5,
      "learning_rate": 6.003502042858334e-07,
      "loss": 3.0256,
      "step": 2256000
    },
    {
      "epoch": 9.5,
      "eval_loss": 2.8764402866363525,
      "eval_runtime": 228.8894,
      "eval_samples_per_second": 873.784,
      "eval_steps_per_second": 54.612,
      "step": 2256000
    },
    {
      "epoch": 9.53,
      "eval_loss": 2.8664441108703613,
      "eval_runtime": 228.7947,
      "eval_samples_per_second": 874.146,
      "eval_steps_per_second": 54.634,
      "step": 2264000
    },
    {
      "epoch": 9.57,
      "learning_rate": 5.33644626031852e-07,
      "loss": 3.0232,
      "step": 2272000
    },
    {
      "epoch": 9.57,
      "eval_loss": 2.8624887466430664,
      "eval_runtime": 229.0315,
      "eval_samples_per_second": 873.242,
      "eval_steps_per_second": 54.578,
      "step": 2272000
    },
    {
      "epoch": 9.6,
      "eval_loss": 2.8646833896636963,
      "eval_runtime": 229.8068,
      "eval_samples_per_second": 870.296,
      "eval_steps_per_second": 54.394,
      "step": 2280000
    },
    {
      "epoch": 9.63,
      "learning_rate": 4.669390477778705e-07,
      "loss": 3.0309,
      "step": 2288000
    },
    {
      "epoch": 9.63,
      "eval_loss": 2.8561413288116455,
      "eval_runtime": 229.8225,
      "eval_samples_per_second": 870.237,
      "eval_steps_per_second": 54.39,
      "step": 2288000
    },
    {
      "epoch": 9.67,
      "eval_loss": 2.8657453060150146,
      "eval_runtime": 230.8107,
      "eval_samples_per_second": 866.511,
      "eval_steps_per_second": 54.157,
      "step": 2296000
    },
    {
      "epoch": 9.7,
      "learning_rate": 4.0023346952388894e-07,
      "loss": 3.0254,
      "step": 2304000
    },
    {
      "epoch": 9.7,
      "eval_loss": 2.8666698932647705,
      "eval_runtime": 230.9054,
      "eval_samples_per_second": 866.156,
      "eval_steps_per_second": 54.135,
      "step": 2304000
    },
    {
      "epoch": 9.73,
      "eval_loss": 2.861841917037964,
      "eval_runtime": 233.616,
      "eval_samples_per_second": 856.106,
      "eval_steps_per_second": 53.507,
      "step": 2312000
    },
    {
      "epoch": 9.77,
      "learning_rate": 3.335278912699075e-07,
      "loss": 3.0198,
      "step": 2320000
    },
    {
      "epoch": 9.77,
      "eval_loss": 2.8649652004241943,
      "eval_runtime": 232.9095,
      "eval_samples_per_second": 858.702,
      "eval_steps_per_second": 53.669,
      "step": 2320000
    },
    {
      "epoch": 9.8,
      "eval_loss": 2.8629865646362305,
      "eval_runtime": 233.276,
      "eval_samples_per_second": 857.353,
      "eval_steps_per_second": 53.585,
      "step": 2328000
    },
    {
      "epoch": 9.84,
      "learning_rate": 2.66822313015926e-07,
      "loss": 3.0109,
      "step": 2336000
    },
    {
      "epoch": 9.84,
      "eval_loss": 2.8533174991607666,
      "eval_runtime": 232.7296,
      "eval_samples_per_second": 859.366,
      "eval_steps_per_second": 53.71,
      "step": 2336000
    },
    {
      "epoch": 9.87,
      "eval_loss": 2.8656232357025146,
      "eval_runtime": 230.1435,
      "eval_samples_per_second": 869.023,
      "eval_steps_per_second": 54.314,
      "step": 2344000
    },
    {
      "epoch": 9.9,
      "learning_rate": 2.0011673476194447e-07,
      "loss": 3.0316,
      "step": 2352000
    },
    {
      "epoch": 9.9,
      "eval_loss": 2.8606715202331543,
      "eval_runtime": 229.4357,
      "eval_samples_per_second": 871.704,
      "eval_steps_per_second": 54.482,
      "step": 2352000
    },
    {
      "epoch": 9.94,
      "eval_loss": 2.8572158813476562,
      "eval_runtime": 229.9275,
      "eval_samples_per_second": 869.839,
      "eval_steps_per_second": 54.365,
      "step": 2360000
    },
    {
      "epoch": 9.97,
      "learning_rate": 1.33411156507963e-07,
      "loss": 3.0225,
      "step": 2368000
    },
    {
      "epoch": 9.97,
      "eval_loss": 2.8617327213287354,
      "eval_runtime": 229.6061,
      "eval_samples_per_second": 871.057,
      "eval_steps_per_second": 54.441,
      "step": 2368000
    },
    {
      "epoch": 10.0,
      "eval_loss": 2.8604278564453125,
      "eval_runtime": 229.8413,
      "eval_samples_per_second": 870.166,
      "eval_steps_per_second": 54.385,
      "step": 2376000
    },
    {
      "epoch": 10.04,
      "learning_rate": 6.67055782539815e-08,
      "loss": 3.0132,
      "step": 2384000
    },
    {
      "epoch": 10.04,
      "eval_loss": 2.857710838317871,
      "eval_runtime": 229.9337,
      "eval_samples_per_second": 869.816,
      "eval_steps_per_second": 54.364,
      "step": 2384000
    },
    {
      "epoch": 10.07,
      "eval_loss": 2.8534834384918213,
      "eval_runtime": 230.8863,
      "eval_samples_per_second": 866.227,
      "eval_steps_per_second": 54.139,
      "step": 2392000
    },
    {
      "epoch": 10.11,
      "learning_rate": 0.0,
      "loss": 3.0202,
      "step": 2400000
    },
    {
      "epoch": 10.11,
      "eval_loss": 2.8565549850463867,
      "eval_runtime": 230.1736,
      "eval_samples_per_second": 868.909,
      "eval_steps_per_second": 54.307,
      "step": 2400000
    },
    {
      "epoch": 10.11,
      "step": 2400000,
      "total_flos": 7.688849395607474e+17,
      "train_loss": 2.9681437548828127,
      "train_runtime": 221059.9809,
      "train_samples_per_second": 173.709,
      "train_steps_per_second": 10.857
    }
  ],
  "logging_steps": 16000,
  "max_steps": 2400000,
  "num_train_epochs": 11,
  "save_steps": 32000,
  "total_flos": 7.688849395607474e+17,
  "trial_name": null,
  "trial_params": null
}