{
  "best_metric": 1.9023408889770508,
  "best_model_checkpoint": "./model_tweets_2020_Q1_75/checkpoint-2336000",
  "epoch": 19.569471624266146,
  "eval_steps": 8000,
  "global_step": 2400000,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.07,
      "eval_loss": 2.2396600246429443,
      "eval_runtime": 113.355,
      "eval_samples_per_second": 911.075,
      "eval_steps_per_second": 56.945,
      "step": 8000
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.0726666666666665e-07,
      "loss": 2.4342,
      "step": 16000
    },
    {
      "epoch": 0.13,
      "eval_loss": 2.1510801315307617,
      "eval_runtime": 111.953,
      "eval_samples_per_second": 922.486,
      "eval_steps_per_second": 57.658,
      "step": 16000
    },
    {
      "epoch": 0.2,
      "eval_loss": 2.1108760833740234,
      "eval_runtime": 111.7901,
      "eval_samples_per_second": 923.83,
      "eval_steps_per_second": 57.742,
      "step": 24000
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.0453333333333336e-07,
      "loss": 2.2417,
      "step": 32000
    },
    {
      "epoch": 0.26,
      "eval_loss": 2.0788779258728027,
      "eval_runtime": 111.8843,
      "eval_samples_per_second": 923.051,
      "eval_steps_per_second": 57.694,
      "step": 32000
    },
    {
      "epoch": 0.33,
      "eval_loss": 2.065674066543579,
      "eval_runtime": 111.7346,
      "eval_samples_per_second": 924.288,
      "eval_steps_per_second": 57.771,
      "step": 40000
    },
    {
      "epoch": 0.39,
      "learning_rate": 4.018e-07,
      "loss": 2.1852,
      "step": 48000
    },
    {
      "epoch": 0.39,
      "eval_loss": 2.0397331714630127,
      "eval_runtime": 114.2687,
      "eval_samples_per_second": 903.791,
      "eval_steps_per_second": 56.49,
      "step": 48000
    },
    {
      "epoch": 0.46,
      "eval_loss": 2.0303494930267334,
      "eval_runtime": 112.0167,
      "eval_samples_per_second": 921.961,
      "eval_steps_per_second": 57.625,
      "step": 56000
    },
    {
      "epoch": 0.52,
      "learning_rate": 3.9906666666666667e-07,
      "loss": 2.1511,
      "step": 64000
    },
    {
      "epoch": 0.52,
      "eval_loss": 2.024770975112915,
      "eval_runtime": 112.2634,
      "eval_samples_per_second": 919.935,
      "eval_steps_per_second": 57.499,
      "step": 64000
    },
    {
      "epoch": 0.59,
      "eval_loss": 2.022064685821533,
      "eval_runtime": 112.5031,
      "eval_samples_per_second": 917.975,
      "eval_steps_per_second": 57.376,
      "step": 72000
    },
    {
      "epoch": 0.65,
      "learning_rate": 3.963333333333333e-07,
      "loss": 2.1261,
      "step": 80000
    },
    {
      "epoch": 0.65,
      "eval_loss": 2.0128211975097656,
      "eval_runtime": 113.0139,
      "eval_samples_per_second": 913.826,
      "eval_steps_per_second": 57.117,
      "step": 80000
    },
    {
      "epoch": 0.72,
      "eval_loss": 2.0067052841186523,
      "eval_runtime": 112.3731,
      "eval_samples_per_second": 919.037,
      "eval_steps_per_second": 57.443,
      "step": 88000
    },
    {
      "epoch": 0.78,
      "learning_rate": 3.936e-07,
      "loss": 2.1179,
      "step": 96000
    },
    {
      "epoch": 0.78,
      "eval_loss": 2.003864288330078,
      "eval_runtime": 113.5425,
      "eval_samples_per_second": 909.571,
      "eval_steps_per_second": 56.851,
      "step": 96000
    },
    {
      "epoch": 0.85,
      "eval_loss": 1.9972714185714722,
      "eval_runtime": 112.6781,
      "eval_samples_per_second": 916.549,
      "eval_steps_per_second": 57.287,
      "step": 104000
    },
    {
      "epoch": 0.91,
      "learning_rate": 3.908666666666667e-07,
      "loss": 2.1097,
      "step": 112000
    },
    {
      "epoch": 0.91,
      "eval_loss": 1.98354971408844,
      "eval_runtime": 112.0904,
      "eval_samples_per_second": 921.355,
      "eval_steps_per_second": 57.587,
      "step": 112000
    },
    {
      "epoch": 0.98,
      "eval_loss": 1.9983153343200684,
      "eval_runtime": 112.7204,
      "eval_samples_per_second": 916.205,
      "eval_steps_per_second": 57.266,
      "step": 120000
    },
    {
      "epoch": 1.04,
      "learning_rate": 3.8813333333333334e-07,
      "loss": 2.1031,
      "step": 128000
    },
    {
      "epoch": 1.04,
      "eval_loss": 1.9898955821990967,
      "eval_runtime": 114.024,
      "eval_samples_per_second": 905.731,
      "eval_steps_per_second": 56.611,
      "step": 128000
    },
    {
      "epoch": 1.11,
      "eval_loss": 1.9755431413650513,
      "eval_runtime": 114.5549,
      "eval_samples_per_second": 901.533,
      "eval_steps_per_second": 56.349,
      "step": 136000
    },
    {
      "epoch": 1.17,
      "learning_rate": 3.854e-07,
      "loss": 2.0977,
      "step": 144000
    },
    {
      "epoch": 1.17,
      "eval_loss": 1.9855457544326782,
      "eval_runtime": 113.3525,
      "eval_samples_per_second": 911.096,
      "eval_steps_per_second": 56.946,
      "step": 144000
    },
    {
      "epoch": 1.24,
      "eval_loss": 1.9721323251724243,
      "eval_runtime": 114.0229,
      "eval_samples_per_second": 905.739,
      "eval_steps_per_second": 56.611,
      "step": 152000
    },
    {
      "epoch": 1.3,
      "learning_rate": 3.8266666666666665e-07,
      "loss": 2.0892,
      "step": 160000
    },
    {
      "epoch": 1.3,
      "eval_loss": 1.9813446998596191,
      "eval_runtime": 113.5565,
      "eval_samples_per_second": 909.459,
      "eval_steps_per_second": 56.844,
      "step": 160000
    },
    {
      "epoch": 1.37,
      "eval_loss": 1.9827616214752197,
      "eval_runtime": 113.4289,
      "eval_samples_per_second": 910.482,
      "eval_steps_per_second": 56.908,
      "step": 168000
    },
    {
      "epoch": 1.44,
      "learning_rate": 3.799333333333333e-07,
      "loss": 2.0882,
      "step": 176000
    },
    {
      "epoch": 1.44,
      "eval_loss": 1.9703537225723267,
      "eval_runtime": 112.6429,
      "eval_samples_per_second": 916.835,
      "eval_steps_per_second": 57.305,
      "step": 176000
    },
    {
      "epoch": 1.5,
      "eval_loss": 1.9728624820709229,
      "eval_runtime": 113.7442,
      "eval_samples_per_second": 907.958,
      "eval_steps_per_second": 56.75,
      "step": 184000
    },
    {
      "epoch": 1.57,
      "learning_rate": 3.772e-07,
      "loss": 2.0884,
      "step": 192000
    },
    {
      "epoch": 1.57,
      "eval_loss": 1.9721413850784302,
      "eval_runtime": 113.2577,
      "eval_samples_per_second": 911.859,
      "eval_steps_per_second": 56.994,
      "step": 192000
    },
    {
      "epoch": 1.63,
      "eval_loss": 1.9663499593734741,
      "eval_runtime": 115.0819,
      "eval_samples_per_second": 897.404,
      "eval_steps_per_second": 56.09,
      "step": 200000
    },
    {
      "epoch": 1.7,
      "learning_rate": 3.7446666666666667e-07,
      "loss": 2.0814,
      "step": 208000
    },
    {
      "epoch": 1.7,
      "eval_loss": 1.9612431526184082,
      "eval_runtime": 113.9384,
      "eval_samples_per_second": 906.411,
      "eval_steps_per_second": 56.653,
      "step": 208000
    },
    {
      "epoch": 1.76,
      "eval_loss": 1.971712350845337,
      "eval_runtime": 113.4328,
      "eval_samples_per_second": 910.451,
      "eval_steps_per_second": 56.906,
      "step": 216000
    },
    {
      "epoch": 1.83,
      "learning_rate": 3.7173333333333333e-07,
      "loss": 2.0806,
      "step": 224000
    },
    {
      "epoch": 1.83,
      "eval_loss": 1.959405541419983,
      "eval_runtime": 113.1738,
      "eval_samples_per_second": 912.535,
      "eval_steps_per_second": 57.036,
      "step": 224000
    },
    {
      "epoch": 1.89,
      "eval_loss": 1.960507869720459,
      "eval_runtime": 112.7387,
      "eval_samples_per_second": 916.056,
      "eval_steps_per_second": 57.256,
      "step": 232000
    },
    {
      "epoch": 1.96,
      "learning_rate": 3.69e-07,
      "loss": 2.0838,
      "step": 240000
    },
    {
      "epoch": 1.96,
      "eval_loss": 1.9555588960647583,
      "eval_runtime": 113.0742,
      "eval_samples_per_second": 913.338,
      "eval_steps_per_second": 57.086,
      "step": 240000
    },
    {
      "epoch": 2.02,
      "eval_loss": 1.955155849456787,
      "eval_runtime": 114.9852,
      "eval_samples_per_second": 898.159,
      "eval_steps_per_second": 56.138,
      "step": 248000
    },
    {
      "epoch": 2.09,
      "learning_rate": 3.6626666666666664e-07,
      "loss": 2.0711,
      "step": 256000
    },
    {
      "epoch": 2.09,
      "eval_loss": 1.965279459953308,
      "eval_runtime": 115.2918,
      "eval_samples_per_second": 895.771,
      "eval_steps_per_second": 55.988,
      "step": 256000
    },
    {
      "epoch": 2.15,
      "eval_loss": 1.9581040143966675,
      "eval_runtime": 112.9905,
      "eval_samples_per_second": 914.015,
      "eval_steps_per_second": 57.129,
      "step": 264000
    },
    {
      "epoch": 2.22,
      "learning_rate": 3.6353333333333335e-07,
      "loss": 2.065,
      "step": 272000
    },
    {
      "epoch": 2.22,
      "eval_loss": 1.9558922052383423,
      "eval_runtime": 113.2393,
      "eval_samples_per_second": 912.007,
      "eval_steps_per_second": 57.003,
      "step": 272000
    },
    {
      "epoch": 2.28,
      "eval_loss": 1.9615230560302734,
      "eval_runtime": 113.7321,
      "eval_samples_per_second": 908.055,
      "eval_steps_per_second": 56.756,
      "step": 280000
    },
    {
      "epoch": 2.35,
      "learning_rate": 3.608e-07,
      "loss": 2.0769,
      "step": 288000
    },
    {
      "epoch": 2.35,
      "eval_loss": 1.9493736028671265,
      "eval_runtime": 113.1393,
      "eval_samples_per_second": 912.813,
      "eval_steps_per_second": 57.054,
      "step": 288000
    },
    {
      "epoch": 2.41,
      "eval_loss": 1.9487217664718628,
      "eval_runtime": 112.3053,
      "eval_samples_per_second": 919.591,
      "eval_steps_per_second": 57.477,
      "step": 296000
    },
    {
      "epoch": 2.48,
      "learning_rate": 3.5806666666666666e-07,
      "loss": 2.0733,
      "step": 304000
    },
    {
      "epoch": 2.48,
      "eval_loss": 1.9546173810958862,
      "eval_runtime": 113.1729,
      "eval_samples_per_second": 912.542,
      "eval_steps_per_second": 57.037,
      "step": 304000
    },
    {
      "epoch": 2.54,
      "eval_loss": 1.9445385932922363,
      "eval_runtime": 112.3458,
      "eval_samples_per_second": 919.26,
      "eval_steps_per_second": 57.457,
      "step": 312000
    },
    {
      "epoch": 2.61,
      "learning_rate": 3.553333333333333e-07,
      "loss": 2.0675,
      "step": 320000
    },
    {
      "epoch": 2.61,
      "eval_loss": 1.9534730911254883,
      "eval_runtime": 113.0946,
      "eval_samples_per_second": 913.174,
      "eval_steps_per_second": 57.076,
      "step": 320000
    },
    {
      "epoch": 2.67,
      "eval_loss": 1.9580506086349487,
      "eval_runtime": 112.7099,
      "eval_samples_per_second": 916.291,
      "eval_steps_per_second": 57.271,
      "step": 328000
    },
    {
      "epoch": 2.74,
      "learning_rate": 3.5259999999999997e-07,
      "loss": 2.0599,
      "step": 336000
    },
    {
      "epoch": 2.74,
      "eval_loss": 1.9472216367721558,
      "eval_runtime": 113.0268,
      "eval_samples_per_second": 913.722,
      "eval_steps_per_second": 57.11,
      "step": 336000
    },
    {
      "epoch": 2.8,
      "eval_loss": 1.9545352458953857,
      "eval_runtime": 112.8522,
      "eval_samples_per_second": 915.135,
      "eval_steps_per_second": 57.199,
      "step": 344000
    },
    {
      "epoch": 2.87,
      "learning_rate": 3.498666666666667e-07,
      "loss": 2.0675,
      "step": 352000
    },
    {
      "epoch": 2.87,
      "eval_loss": 1.9551931619644165,
      "eval_runtime": 112.8344,
      "eval_samples_per_second": 915.28,
      "eval_steps_per_second": 57.208,
      "step": 352000
    },
    {
      "epoch": 2.94,
      "eval_loss": 1.9397163391113281,
      "eval_runtime": 112.7266,
      "eval_samples_per_second": 916.155,
      "eval_steps_per_second": 57.262,
      "step": 360000
    },
    {
      "epoch": 3.0,
      "learning_rate": 3.4713333333333333e-07,
      "loss": 2.0711,
      "step": 368000
    },
    {
      "epoch": 3.0,
      "eval_loss": 1.9475340843200684,
      "eval_runtime": 113.527,
      "eval_samples_per_second": 909.695,
      "eval_steps_per_second": 56.859,
      "step": 368000
    },
    {
      "epoch": 3.07,
      "eval_loss": 1.9387180805206299,
      "eval_runtime": 112.9318,
      "eval_samples_per_second": 914.49,
      "eval_steps_per_second": 57.158,
      "step": 376000
    },
    {
      "epoch": 3.13,
      "learning_rate": 3.444e-07,
      "loss": 2.0663,
      "step": 384000
    },
    {
      "epoch": 3.13,
      "eval_loss": 1.948356032371521,
      "eval_runtime": 113.6939,
      "eval_samples_per_second": 908.36,
      "eval_steps_per_second": 56.775,
      "step": 384000
    },
    {
      "epoch": 3.2,
      "eval_loss": 1.942366361618042,
      "eval_runtime": 112.9142,
      "eval_samples_per_second": 914.633,
      "eval_steps_per_second": 57.167,
      "step": 392000
    },
    {
      "epoch": 3.26,
      "learning_rate": 3.416666666666667e-07,
      "loss": 2.0628,
      "step": 400000
    },
    {
      "epoch": 3.26,
      "eval_loss": 1.941139578819275,
      "eval_runtime": 112.7091,
      "eval_samples_per_second": 916.297,
      "eval_steps_per_second": 57.271,
      "step": 400000
    },
    {
      "epoch": 3.33,
      "eval_loss": 1.940949559211731,
      "eval_runtime": 112.6381,
      "eval_samples_per_second": 916.875,
      "eval_steps_per_second": 57.307,
      "step": 408000
    },
    {
      "epoch": 3.39,
      "learning_rate": 3.3893333333333335e-07,
      "loss": 2.0651,
      "step": 416000
    },
    {
      "epoch": 3.39,
      "eval_loss": 1.9446566104888916,
      "eval_runtime": 112.949,
      "eval_samples_per_second": 914.351,
      "eval_steps_per_second": 57.15,
      "step": 416000
    },
    {
      "epoch": 3.46,
      "eval_loss": 1.940216064453125,
      "eval_runtime": 114.0012,
      "eval_samples_per_second": 905.912,
      "eval_steps_per_second": 56.622,
      "step": 424000
    },
    {
      "epoch": 3.52,
      "learning_rate": 3.3619999999999995e-07,
      "loss": 2.0598,
      "step": 432000
    },
    {
      "epoch": 3.52,
      "eval_loss": 1.9503767490386963,
      "eval_runtime": 113.8999,
      "eval_samples_per_second": 906.717,
      "eval_steps_per_second": 56.673,
      "step": 432000
    },
    {
      "epoch": 3.59,
      "eval_loss": 1.9414310455322266,
      "eval_runtime": 113.4917,
      "eval_samples_per_second": 909.978,
      "eval_steps_per_second": 56.876,
      "step": 440000
    },
    {
      "epoch": 3.65,
      "learning_rate": 3.3346666666666666e-07,
      "loss": 2.0612,
      "step": 448000
    },
    {
      "epoch": 3.65,
      "eval_loss": 1.9329679012298584,
      "eval_runtime": 113.8065,
      "eval_samples_per_second": 907.462,
      "eval_steps_per_second": 56.719,
      "step": 448000
    },
    {
      "epoch": 3.72,
      "eval_loss": 1.942373514175415,
      "eval_runtime": 112.7208,
      "eval_samples_per_second": 916.202,
      "eval_steps_per_second": 57.265,
      "step": 456000
    },
    {
      "epoch": 3.78,
      "learning_rate": 3.307333333333333e-07,
      "loss": 2.0653,
      "step": 464000
    },
    {
      "epoch": 3.78,
      "eval_loss": 1.930959939956665,
      "eval_runtime": 113.0386,
      "eval_samples_per_second": 913.626,
      "eval_steps_per_second": 57.104,
      "step": 464000
    },
    {
      "epoch": 3.85,
      "eval_loss": 1.9363598823547363,
      "eval_runtime": 112.8486,
      "eval_samples_per_second": 915.164,
      "eval_steps_per_second": 57.201,
      "step": 472000
    },
    {
      "epoch": 3.91,
      "learning_rate": 3.28e-07,
      "loss": 2.0585,
      "step": 480000
    },
    {
      "epoch": 3.91,
      "eval_loss": 1.9507150650024414,
      "eval_runtime": 114.0147,
      "eval_samples_per_second": 905.804,
      "eval_steps_per_second": 56.615,
      "step": 480000
    },
    {
      "epoch": 3.98,
      "eval_loss": 1.9320358037948608,
      "eval_runtime": 113.3729,
      "eval_samples_per_second": 910.932,
      "eval_steps_per_second": 56.936,
      "step": 488000
    },
    {
      "epoch": 4.04,
      "learning_rate": 3.252666666666667e-07,
      "loss": 2.0593,
      "step": 496000
    },
    {
      "epoch": 4.04,
      "eval_loss": 1.9416472911834717,
      "eval_runtime": 113.4866,
      "eval_samples_per_second": 910.02,
      "eval_steps_per_second": 56.879,
      "step": 496000
    },
    {
      "epoch": 4.11,
      "eval_loss": 1.934741735458374,
      "eval_runtime": 112.805,
      "eval_samples_per_second": 915.518,
      "eval_steps_per_second": 57.223,
      "step": 504000
    },
    {
      "epoch": 4.17,
      "learning_rate": 3.2253333333333334e-07,
      "loss": 2.0671,
      "step": 512000
    },
    {
      "epoch": 4.17,
      "eval_loss": 1.9390867948532104,
      "eval_runtime": 112.908,
      "eval_samples_per_second": 914.683,
      "eval_steps_per_second": 57.17,
      "step": 512000
    },
    {
      "epoch": 4.24,
      "eval_loss": 1.9453818798065186,
      "eval_runtime": 112.778,
      "eval_samples_per_second": 915.737,
      "eval_steps_per_second": 57.236,
      "step": 520000
    },
    {
      "epoch": 4.31,
      "learning_rate": 3.198e-07,
      "loss": 2.0552,
      "step": 528000
    },
    {
      "epoch": 4.31,
      "eval_loss": 1.9501063823699951,
      "eval_runtime": 112.534,
      "eval_samples_per_second": 917.723,
      "eval_steps_per_second": 57.36,
      "step": 528000
    },
    {
      "epoch": 4.37,
      "eval_loss": 1.935518741607666,
      "eval_runtime": 113.9789,
      "eval_samples_per_second": 906.089,
      "eval_steps_per_second": 56.633,
      "step": 536000
    },
    {
      "epoch": 4.44,
      "learning_rate": 3.1706666666666665e-07,
      "loss": 2.0626,
      "step": 544000
    },
    {
      "epoch": 4.44,
      "eval_loss": 1.9239717721939087,
      "eval_runtime": 112.9585,
      "eval_samples_per_second": 914.273,
      "eval_steps_per_second": 57.145,
      "step": 544000
    },
    {
      "epoch": 4.5,
      "eval_loss": 1.9398826360702515,
      "eval_runtime": 113.7219,
      "eval_samples_per_second": 908.137,
      "eval_steps_per_second": 56.761,
      "step": 552000
    },
    {
      "epoch": 4.57,
      "learning_rate": 3.1433333333333336e-07,
      "loss": 2.0592,
      "step": 560000
    },
    {
      "epoch": 4.57,
      "eval_loss": 1.9360318183898926,
      "eval_runtime": 113.1836,
      "eval_samples_per_second": 912.456,
      "eval_steps_per_second": 57.031,
      "step": 560000
    },
    {
      "epoch": 4.63,
      "eval_loss": 1.9377766847610474,
      "eval_runtime": 113.185,
      "eval_samples_per_second": 912.444,
      "eval_steps_per_second": 57.031,
      "step": 568000
    },
    {
      "epoch": 4.7,
      "learning_rate": 3.116e-07,
      "loss": 2.0584,
      "step": 576000
    },
    {
      "epoch": 4.7,
      "eval_loss": 1.9293311834335327,
      "eval_runtime": 113.6435,
      "eval_samples_per_second": 908.763,
      "eval_steps_per_second": 56.8,
      "step": 576000
    },
    {
      "epoch": 4.76,
      "eval_loss": 1.943053126335144,
      "eval_runtime": 113.0332,
      "eval_samples_per_second": 913.67,
      "eval_steps_per_second": 57.107,
      "step": 584000
    },
    {
      "epoch": 4.83,
      "learning_rate": 3.0886666666666667e-07,
      "loss": 2.0515,
      "step": 592000
    },
    {
      "epoch": 4.83,
      "eval_loss": 1.9324830770492554,
      "eval_runtime": 113.1852,
      "eval_samples_per_second": 912.443,
      "eval_steps_per_second": 57.03,
      "step": 592000
    },
    {
      "epoch": 4.89,
      "eval_loss": 1.9265968799591064,
      "eval_runtime": 113.5248,
      "eval_samples_per_second": 909.713,
      "eval_steps_per_second": 56.86,
      "step": 600000
    },
    {
      "epoch": 4.96,
      "learning_rate": 3.061333333333333e-07,
      "loss": 2.0545,
      "step": 608000
    },
    {
      "epoch": 4.96,
      "eval_loss": 1.921515941619873,
      "eval_runtime": 113.9086,
      "eval_samples_per_second": 906.648,
      "eval_steps_per_second": 56.668,
      "step": 608000
    },
    {
      "epoch": 5.02,
      "eval_loss": 1.924493670463562,
      "eval_runtime": 113.1157,
      "eval_samples_per_second": 913.003,
      "eval_steps_per_second": 57.065,
      "step": 616000
    },
    {
      "epoch": 5.09,
      "learning_rate": 3.034e-07,
      "loss": 2.0525,
      "step": 624000
    },
    {
      "epoch": 5.09,
      "eval_loss": 1.9372978210449219,
      "eval_runtime": 113.8901,
      "eval_samples_per_second": 906.795,
      "eval_steps_per_second": 56.677,
      "step": 624000
    },
    {
      "epoch": 5.15,
      "eval_loss": 1.934131145477295,
      "eval_runtime": 112.8536,
      "eval_samples_per_second": 915.124,
      "eval_steps_per_second": 57.198,
      "step": 632000
    },
    {
      "epoch": 5.22,
      "learning_rate": 3.0066666666666663e-07,
      "loss": 2.0556,
      "step": 640000
    },
    {
      "epoch": 5.22,
      "eval_loss": 1.9312899112701416,
      "eval_runtime": 113.0744,
      "eval_samples_per_second": 913.336,
      "eval_steps_per_second": 57.086,
      "step": 640000
    },
    {
      "epoch": 5.28,
      "eval_loss": 1.922965407371521,
      "eval_runtime": 113.8801,
      "eval_samples_per_second": 906.875,
      "eval_steps_per_second": 56.682,
      "step": 648000
    },
    {
      "epoch": 5.35,
      "learning_rate": 2.9793333333333334e-07,
      "loss": 2.0567,
      "step": 656000
    },
    {
      "epoch": 5.35,
      "eval_loss": 1.930014729499817,
      "eval_runtime": 112.8937,
      "eval_samples_per_second": 914.799,
      "eval_steps_per_second": 57.178,
      "step": 656000
    },
    {
      "epoch": 5.41,
      "eval_loss": 1.9337064027786255,
      "eval_runtime": 113.4421,
      "eval_samples_per_second": 910.376,
      "eval_steps_per_second": 56.901,
      "step": 664000
    },
    {
      "epoch": 5.48,
      "learning_rate": 2.952e-07,
      "loss": 2.0506,
      "step": 672000
    },
    {
      "epoch": 5.48,
      "eval_loss": 1.9316705465316772,
      "eval_runtime": 113.3757,
      "eval_samples_per_second": 910.91,
      "eval_steps_per_second": 56.935,
      "step": 672000
    },
    {
      "epoch": 5.54,
      "eval_loss": 1.9275363683700562,
      "eval_runtime": 113.4405,
      "eval_samples_per_second": 910.389,
      "eval_steps_per_second": 56.902,
      "step": 680000
    },
    {
      "epoch": 5.61,
      "learning_rate": 2.9246666666666665e-07,
      "loss": 2.0561,
      "step": 688000
    },
    {
      "epoch": 5.61,
      "eval_loss": 1.9376088380813599,
      "eval_runtime": 113.0322,
      "eval_samples_per_second": 913.678,
      "eval_steps_per_second": 57.108,
      "step": 688000
    },
    {
      "epoch": 5.68,
      "eval_loss": 1.9461050033569336,
      "eval_runtime": 113.738,
      "eval_samples_per_second": 908.008,
      "eval_steps_per_second": 56.753,
      "step": 696000
    },
    {
      "epoch": 5.74,
      "learning_rate": 2.897333333333333e-07,
      "loss": 2.0496,
      "step": 704000
    },
    {
      "epoch": 5.74,
      "eval_loss": 1.9239321947097778,
      "eval_runtime": 113.8527,
      "eval_samples_per_second": 907.093,
      "eval_steps_per_second": 56.696,
      "step": 704000
    },
    {
      "epoch": 5.81,
      "eval_loss": 1.9250530004501343,
      "eval_runtime": 113.6483,
      "eval_samples_per_second": 908.725,
      "eval_steps_per_second": 56.798,
      "step": 712000
    },
    {
      "epoch": 5.87,
      "learning_rate": 2.8699999999999996e-07,
      "loss": 2.045,
      "step": 720000
    },
    {
      "epoch": 5.87,
      "eval_loss": 1.9309498071670532,
      "eval_runtime": 114.1187,
      "eval_samples_per_second": 904.979,
      "eval_steps_per_second": 56.564,
      "step": 720000
    },
    {
      "epoch": 5.94,
      "eval_loss": 1.925881266593933,
      "eval_runtime": 113.5651,
      "eval_samples_per_second": 909.391,
      "eval_steps_per_second": 56.84,
      "step": 728000
    },
    {
      "epoch": 6.0,
      "learning_rate": 2.8426666666666667e-07,
      "loss": 2.0512,
      "step": 736000
    },
    {
      "epoch": 6.0,
      "eval_loss": 1.9236810207366943,
      "eval_runtime": 113.1127,
      "eval_samples_per_second": 913.027,
      "eval_steps_per_second": 57.067,
      "step": 736000
    },
    {
      "epoch": 6.07,
      "eval_loss": 1.9148136377334595,
      "eval_runtime": 113.2705,
      "eval_samples_per_second": 911.756,
      "eval_steps_per_second": 56.987,
      "step": 744000
    },
    {
      "epoch": 6.13,
      "learning_rate": 2.815333333333333e-07,
      "loss": 2.0512,
      "step": 752000
    },
    {
      "epoch": 6.13,
      "eval_loss": 1.9219812154769897,
      "eval_runtime": 114.1512,
      "eval_samples_per_second": 904.721,
      "eval_steps_per_second": 56.548,
      "step": 752000
    },
    {
      "epoch": 6.2,
      "eval_loss": 1.9397040605545044,
      "eval_runtime": 113.2005,
      "eval_samples_per_second": 912.319,
      "eval_steps_per_second": 57.023,
      "step": 760000
    },
    {
      "epoch": 6.26,
      "learning_rate": 2.7880000000000003e-07,
      "loss": 2.0445,
      "step": 768000
    },
    {
      "epoch": 6.26,
      "eval_loss": 1.9240758419036865,
      "eval_runtime": 113.1775,
      "eval_samples_per_second": 912.505,
      "eval_steps_per_second": 57.034,
      "step": 768000
    },
    {
      "epoch": 6.33,
      "eval_loss": 1.9330027103424072,
      "eval_runtime": 113.0566,
      "eval_samples_per_second": 913.481,
      "eval_steps_per_second": 57.095,
      "step": 776000
    },
    {
      "epoch": 6.39,
      "learning_rate": 2.7606666666666664e-07,
      "loss": 2.0481,
      "step": 784000
    },
    {
      "epoch": 6.39,
      "eval_loss": 1.9123960733413696,
      "eval_runtime": 113.268,
      "eval_samples_per_second": 911.775,
      "eval_steps_per_second": 56.989,
      "step": 784000
    },
    {
      "epoch": 6.46,
      "eval_loss": 1.9267631769180298,
      "eval_runtime": 113.7712,
      "eval_samples_per_second": 907.743,
      "eval_steps_per_second": 56.737,
      "step": 792000
    },
    {
      "epoch": 6.52,
      "learning_rate": 2.733333333333333e-07,
      "loss": 2.048,
      "step": 800000
    },
    {
      "epoch": 6.52,
      "eval_loss": 1.921078085899353,
      "eval_runtime": 113.8106,
      "eval_samples_per_second": 907.429,
      "eval_steps_per_second": 56.717,
      "step": 800000
    },
    {
      "epoch": 6.59,
      "eval_loss": 1.9279391765594482,
      "eval_runtime": 113.2864,
      "eval_samples_per_second": 911.627,
      "eval_steps_per_second": 56.979,
      "step": 808000
    },
    {
      "epoch": 6.65,
      "learning_rate": 2.706e-07,
      "loss": 2.0555,
      "step": 816000
    },
    {
      "epoch": 6.65,
      "eval_loss": 1.9168628454208374,
      "eval_runtime": 113.2491,
      "eval_samples_per_second": 911.928,
      "eval_steps_per_second": 56.998,
      "step": 816000
    },
    {
      "epoch": 6.72,
      "eval_loss": 1.922944188117981,
      "eval_runtime": 113.2414,
      "eval_samples_per_second": 911.99,
      "eval_steps_per_second": 57.002,
      "step": 824000
    },
    {
      "epoch": 6.78,
      "learning_rate": 2.6786666666666666e-07,
      "loss": 2.052,
      "step": 832000
    },
    {
      "epoch": 6.78,
      "eval_loss": 1.9253454208374023,
      "eval_runtime": 114.0468,
      "eval_samples_per_second": 905.549,
      "eval_steps_per_second": 56.6,
      "step": 832000
    },
    {
      "epoch": 6.85,
      "eval_loss": 1.9244375228881836,
      "eval_runtime": 113.2582,
      "eval_samples_per_second": 911.855,
      "eval_steps_per_second": 56.994,
      "step": 840000
    },
    {
      "epoch": 6.91,
      "learning_rate": 2.651333333333333e-07,
      "loss": 2.0475,
      "step": 848000
    },
    {
      "epoch": 6.91,
      "eval_loss": 1.9191728830337524,
      "eval_runtime": 113.2946,
      "eval_samples_per_second": 911.561,
      "eval_steps_per_second": 56.975,
      "step": 848000
    },
    {
      "epoch": 6.98,
      "eval_loss": 1.9167262315750122,
      "eval_runtime": 113.3788,
      "eval_samples_per_second": 910.884,
      "eval_steps_per_second": 56.933,
      "step": 856000
    },
    {
      "epoch": 7.05,
      "learning_rate": 2.624e-07,
      "loss": 2.0521,
      "step": 864000
    },
    {
      "epoch": 7.05,
      "eval_loss": 1.9202110767364502,
      "eval_runtime": 113.3134,
      "eval_samples_per_second": 911.41,
      "eval_steps_per_second": 56.966,
      "step": 864000
    },
    {
      "epoch": 7.11,
      "eval_loss": 1.9240491390228271,
      "eval_runtime": 113.6592,
      "eval_samples_per_second": 908.638,
      "eval_steps_per_second": 56.793,
      "step": 872000
    },
    {
      "epoch": 7.18,
      "learning_rate": 2.596666666666667e-07,
      "loss": 2.0516,
      "step": 880000
    },
    {
      "epoch": 7.18,
      "eval_loss": 1.923065423965454,
      "eval_runtime": 113.5487,
      "eval_samples_per_second": 909.522,
      "eval_steps_per_second": 56.848,
      "step": 880000
    },
    {
      "epoch": 7.24,
      "eval_loss": 1.9245978593826294,
      "eval_runtime": 114.3166,
      "eval_samples_per_second": 903.412,
      "eval_steps_per_second": 56.466,
      "step": 888000
    },
    {
      "epoch": 7.31,
      "learning_rate": 2.5693333333333333e-07,
      "loss": 2.0526,
      "step": 896000
    },
    {
      "epoch": 7.31,
      "eval_loss": 1.9173697233200073,
      "eval_runtime": 113.4859,
      "eval_samples_per_second": 910.025,
      "eval_steps_per_second": 56.879,
      "step": 896000
    },
    {
      "epoch": 7.37,
      "eval_loss": 1.9256370067596436,
      "eval_runtime": 114.6588,
      "eval_samples_per_second": 900.716,
      "eval_steps_per_second": 56.297,
      "step": 904000
    },
    {
      "epoch": 7.44,
      "learning_rate": 2.542e-07,
      "loss": 2.044,
      "step": 912000
    },
    {
      "epoch": 7.44,
      "eval_loss": 1.9233709573745728,
      "eval_runtime": 114.8311,
      "eval_samples_per_second": 899.364,
      "eval_steps_per_second": 56.213,
      "step": 912000
    },
    {
      "epoch": 7.5,
      "eval_loss": 1.9208239316940308,
      "eval_runtime": 114.4555,
      "eval_samples_per_second": 902.316,
      "eval_steps_per_second": 56.397,
      "step": 920000
    },
    {
      "epoch": 7.57,
      "learning_rate": 2.5146666666666664e-07,
      "loss": 2.0493,
      "step": 928000
    },
    {
      "epoch": 7.57,
      "eval_loss": 1.9232600927352905,
      "eval_runtime": 113.2901,
      "eval_samples_per_second": 911.598,
      "eval_steps_per_second": 56.978,
      "step": 928000
    },
    {
      "epoch": 7.63,
      "eval_loss": 1.918021321296692,
      "eval_runtime": 114.0382,
      "eval_samples_per_second": 905.617,
      "eval_steps_per_second": 56.604,
      "step": 936000
    },
    {
      "epoch": 7.7,
      "learning_rate": 2.4873333333333335e-07,
      "loss": 2.0535,
      "step": 944000
    },
    {
      "epoch": 7.7,
      "eval_loss": 1.919961929321289,
      "eval_runtime": 114.7577,
      "eval_samples_per_second": 899.94,
      "eval_steps_per_second": 56.249,
      "step": 944000
    },
    {
      "epoch": 7.76,
      "eval_loss": 1.9151924848556519,
      "eval_runtime": 113.434,
      "eval_samples_per_second": 910.441,
      "eval_steps_per_second": 56.905,
      "step": 952000
    },
    {
      "epoch": 7.83,
      "learning_rate": 2.46e-07,
      "loss": 2.0454,
      "step": 960000
    },
    {
      "epoch": 7.83,
      "eval_loss": 1.926845669746399,
      "eval_runtime": 114.0309,
      "eval_samples_per_second": 905.676,
      "eval_steps_per_second": 56.607,
      "step": 960000
    },
    {
      "epoch": 7.89,
      "eval_loss": 1.9206236600875854,
      "eval_runtime": 113.4283,
      "eval_samples_per_second": 910.487,
      "eval_steps_per_second": 56.908,
      "step": 968000
    },
    {
      "epoch": 7.96,
      "learning_rate": 2.4326666666666666e-07,
      "loss": 2.0428,
      "step": 976000
    },
    {
      "epoch": 7.96,
      "eval_loss": 1.9169600009918213,
      "eval_runtime": 113.0231,
      "eval_samples_per_second": 913.751,
      "eval_steps_per_second": 57.112,
      "step": 976000
    },
    {
      "epoch": 8.02,
      "eval_loss": 1.923983097076416,
      "eval_runtime": 114.0029,
      "eval_samples_per_second": 905.898,
      "eval_steps_per_second": 56.621,
      "step": 984000
    },
    {
      "epoch": 8.09,
      "learning_rate": 2.405333333333333e-07,
      "loss": 2.052,
      "step": 992000
    },
    {
      "epoch": 8.09,
      "eval_loss": 1.9306118488311768,
      "eval_runtime": 114.2567,
      "eval_samples_per_second": 903.886,
      "eval_steps_per_second": 56.496,
      "step": 992000
    },
    {
      "epoch": 8.15,
      "eval_loss": 1.9191603660583496,
      "eval_runtime": 114.2092,
      "eval_samples_per_second": 904.262,
      "eval_steps_per_second": 56.519,
      "step": 1000000
    },
    {
      "epoch": 8.22,
      "learning_rate": 2.3779999999999997e-07,
      "loss": 2.0472,
      "step": 1008000
    },
    {
      "epoch": 8.22,
      "eval_loss": 1.9313241243362427,
      "eval_runtime": 114.3737,
      "eval_samples_per_second": 902.961,
      "eval_steps_per_second": 56.438,
      "step": 1008000
    },
    {
      "epoch": 8.28,
      "eval_loss": 1.9238113164901733,
      "eval_runtime": 114.2747,
      "eval_samples_per_second": 903.743,
      "eval_steps_per_second": 56.487,
      "step": 1016000
    },
    {
      "epoch": 8.35,
      "learning_rate": 2.3506666666666668e-07,
      "loss": 2.0454,
      "step": 1024000
    },
    {
      "epoch": 8.35,
      "eval_loss": 1.9162325859069824,
      "eval_runtime": 114.6251,
      "eval_samples_per_second": 900.98,
      "eval_steps_per_second": 56.314,
      "step": 1024000
    },
    {
      "epoch": 8.41,
      "eval_loss": 1.913014531135559,
      "eval_runtime": 113.9073,
      "eval_samples_per_second": 906.658,
      "eval_steps_per_second": 56.669,
      "step": 1032000
    },
    {
      "epoch": 8.48,
      "learning_rate": 2.3233333333333334e-07,
      "loss": 2.0503,
      "step": 1040000
    },
    {
      "epoch": 8.48,
      "eval_loss": 1.9260133504867554,
      "eval_runtime": 114.9945,
      "eval_samples_per_second": 898.086,
      "eval_steps_per_second": 56.133,
      "step": 1040000
    },
    {
      "epoch": 8.55,
      "eval_loss": 1.9212397336959839,
      "eval_runtime": 113.1012,
      "eval_samples_per_second": 913.12,
      "eval_steps_per_second": 57.073,
      "step": 1048000
    },
    {
      "epoch": 8.61,
      "learning_rate": 2.2960000000000002e-07,
      "loss": 2.0511,
      "step": 1056000
    },
    {
      "epoch": 8.61,
      "eval_loss": 1.9114716053009033,
      "eval_runtime": 113.5853,
      "eval_samples_per_second": 909.229,
      "eval_steps_per_second": 56.83,
      "step": 1056000
    },
    {
      "epoch": 8.68,
      "eval_loss": 1.9123215675354004,
      "eval_runtime": 113.8372,
      "eval_samples_per_second": 907.217,
      "eval_steps_per_second": 56.704,
      "step": 1064000
    },
    {
      "epoch": 8.74,
      "learning_rate": 2.2686666666666667e-07,
      "loss": 2.049,
      "step": 1072000
    },
    {
      "epoch": 8.74,
      "eval_loss": 1.9258580207824707,
      "eval_runtime": 115.4682,
      "eval_samples_per_second": 894.402,
      "eval_steps_per_second": 55.903,
      "step": 1072000
    },
    {
      "epoch": 8.81,
      "eval_loss": 1.932053804397583,
      "eval_runtime": 113.8053,
      "eval_samples_per_second": 907.471,
      "eval_steps_per_second": 56.72,
      "step": 1080000
    },
    {
      "epoch": 8.87,
      "learning_rate": 2.2413333333333333e-07,
      "loss": 2.0463,
      "step": 1088000
    },
    {
      "epoch": 8.87,
      "eval_loss": 1.9148298501968384,
      "eval_runtime": 114.0323,
      "eval_samples_per_second": 905.664,
      "eval_steps_per_second": 56.607,
      "step": 1088000
    },
    {
      "epoch": 8.94,
      "eval_loss": 1.9144847393035889,
      "eval_runtime": 113.7624,
      "eval_samples_per_second": 907.813,
      "eval_steps_per_second": 56.741,
      "step": 1096000
    },
    {
      "epoch": 9.0,
      "learning_rate": 2.214e-07,
      "loss": 2.0494,
      "step": 1104000
    },
    {
      "epoch": 9.0,
      "eval_loss": 1.9097198247909546,
      "eval_runtime": 114.8448,
      "eval_samples_per_second": 899.257,
      "eval_steps_per_second": 56.206,
      "step": 1104000
    },
    {
      "epoch": 9.07,
      "eval_loss": 1.9135308265686035,
      "eval_runtime": 114.2552,
      "eval_samples_per_second": 903.898,
      "eval_steps_per_second": 56.496,
      "step": 1112000
    },
    {
      "epoch": 9.13,
      "learning_rate": 2.1866666666666667e-07,
      "loss": 2.0467,
      "step": 1120000
    },
    {
      "epoch": 9.13,
      "eval_loss": 1.9163955450057983,
      "eval_runtime": 114.3157,
      "eval_samples_per_second": 903.419,
      "eval_steps_per_second": 56.466,
      "step": 1120000
    },
    {
      "epoch": 9.2,
      "eval_loss": 1.9224337339401245,
      "eval_runtime": 113.5325,
      "eval_samples_per_second": 909.652,
      "eval_steps_per_second": 56.856,
      "step": 1128000
    },
    {
      "epoch": 9.26,
      "learning_rate": 2.1593333333333332e-07,
      "loss": 2.0483,
      "step": 1136000
    },
    {
      "epoch": 9.26,
      "eval_loss": 1.9134596586227417,
      "eval_runtime": 113.9566,
      "eval_samples_per_second": 906.266,
      "eval_steps_per_second": 56.644,
      "step": 1136000
    },
    {
      "epoch": 9.33,
      "eval_loss": 1.919922947883606,
      "eval_runtime": 114.7403,
      "eval_samples_per_second": 900.076,
      "eval_steps_per_second": 56.257,
      "step": 1144000
    },
    {
      "epoch": 9.39,
      "learning_rate": 2.132e-07,
      "loss": 2.0437,
      "step": 1152000
    },
    {
      "epoch": 9.39,
      "eval_loss": 1.9213168621063232,
      "eval_runtime": 113.9265,
      "eval_samples_per_second": 906.505,
      "eval_steps_per_second": 56.659,
      "step": 1152000
    },
    {
      "epoch": 9.46,
      "eval_loss": 1.9161458015441895,
      "eval_runtime": 114.3737,
      "eval_samples_per_second": 902.961,
      "eval_steps_per_second": 56.438,
      "step": 1160000
    },
    {
      "epoch": 9.52,
      "learning_rate": 2.1046666666666666e-07,
      "loss": 2.0526,
      "step": 1168000
    },
    {
      "epoch": 9.52,
      "eval_loss": 1.9148198366165161,
      "eval_runtime": 113.75,
      "eval_samples_per_second": 907.912,
      "eval_steps_per_second": 56.747,
      "step": 1168000
    },
    {
      "epoch": 9.59,
      "eval_loss": 1.9182627201080322,
      "eval_runtime": 114.4421,
      "eval_samples_per_second": 902.421,
      "eval_steps_per_second": 56.404,
      "step": 1176000
    },
    {
      "epoch": 9.65,
      "learning_rate": 2.0773333333333334e-07,
      "loss": 2.0408,
      "step": 1184000
    },
    {
      "epoch": 9.65,
      "eval_loss": 1.9078502655029297,
      "eval_runtime": 116.0253,
      "eval_samples_per_second": 890.108,
      "eval_steps_per_second": 55.634,
      "step": 1184000
    },
    {
      "epoch": 9.72,
      "eval_loss": 1.918637752532959,
      "eval_runtime": 116.0532,
      "eval_samples_per_second": 889.893,
      "eval_steps_per_second": 55.621,
      "step": 1192000
    },
    {
      "epoch": 9.78,
      "learning_rate": 2.05e-07,
      "loss": 2.0488,
      "step": 1200000
    },
    {
      "epoch": 9.78,
      "eval_loss": 1.9140615463256836,
      "eval_runtime": 114.9098,
      "eval_samples_per_second": 898.748,
      "eval_steps_per_second": 56.174,
      "step": 1200000
    },
    {
      "epoch": 9.85,
      "eval_loss": 1.907893419265747,
      "eval_runtime": 114.1171,
      "eval_samples_per_second": 904.991,
      "eval_steps_per_second": 56.565,
      "step": 1208000
    },
    {
      "epoch": 9.92,
      "learning_rate": 2.0226666666666668e-07,
      "loss": 2.0441,
      "step": 1216000
    },
    {
      "epoch": 9.92,
      "eval_loss": 1.9250520467758179,
      "eval_runtime": 113.8841,
      "eval_samples_per_second": 906.843,
      "eval_steps_per_second": 56.68,
      "step": 1216000
    },
    {
      "epoch": 9.98,
      "eval_loss": 1.9254791736602783,
      "eval_runtime": 114.3655,
      "eval_samples_per_second": 903.026,
      "eval_steps_per_second": 56.442,
      "step": 1224000
    },
    {
      "epoch": 10.05,
      "learning_rate": 1.9953333333333333e-07,
      "loss": 2.0483,
      "step": 1232000
    },
    {
      "epoch": 10.05,
      "eval_loss": 1.9108103513717651,
      "eval_runtime": 114.7681,
      "eval_samples_per_second": 899.858,
      "eval_steps_per_second": 56.244,
      "step": 1232000
    },
    {
      "epoch": 10.11,
      "eval_loss": 1.904534935951233,
      "eval_runtime": 115.2497,
      "eval_samples_per_second": 896.097,
      "eval_steps_per_second": 56.009,
      "step": 1240000
    },
    {
      "epoch": 10.18,
      "learning_rate": 1.968e-07,
      "loss": 2.0503,
      "step": 1248000
    },
    {
      "epoch": 10.18,
      "eval_loss": 1.9169738292694092,
      "eval_runtime": 115.5795,
      "eval_samples_per_second": 893.541,
      "eval_steps_per_second": 55.849,
      "step": 1248000
    },
    {
      "epoch": 10.24,
      "eval_loss": 1.9024699926376343,
      "eval_runtime": 115.6553,
      "eval_samples_per_second": 892.955,
      "eval_steps_per_second": 55.812,
      "step": 1256000
    },
    {
      "epoch": 10.31,
      "learning_rate": 1.9406666666666667e-07,
      "loss": 2.0334,
      "step": 1264000
    },
    {
      "epoch": 10.31,
      "eval_loss": 1.9198503494262695,
      "eval_runtime": 115.9185,
      "eval_samples_per_second": 890.927,
      "eval_steps_per_second": 55.686,
      "step": 1264000
    },
    {
      "epoch": 10.37,
      "eval_loss": 1.9187484979629517,
      "eval_runtime": 114.9362,
      "eval_samples_per_second": 898.542,
      "eval_steps_per_second": 56.162,
      "step": 1272000
    },
    {
      "epoch": 10.44,
      "learning_rate": 1.9133333333333333e-07,
      "loss": 2.0388,
      "step": 1280000
    },
    {
      "epoch": 10.44,
      "eval_loss": 1.902976393699646,
      "eval_runtime": 115.6842,
      "eval_samples_per_second": 892.732,
      "eval_steps_per_second": 55.798,
      "step": 1280000
    },
    {
      "epoch": 10.5,
      "eval_loss": 1.9231475591659546,
      "eval_runtime": 114.4315,
      "eval_samples_per_second": 902.505,
      "eval_steps_per_second": 56.409,
      "step": 1288000
    },
    {
      "epoch": 10.57,
      "learning_rate": 1.886e-07,
      "loss": 2.0489,
      "step": 1296000
    },
    {
      "epoch": 10.57,
      "eval_loss": 1.9084066152572632,
      "eval_runtime": 114.2511,
      "eval_samples_per_second": 903.93,
      "eval_steps_per_second": 56.498,
      "step": 1296000
    },
    {
      "epoch": 10.63,
      "eval_loss": 1.9184343814849854,
      "eval_runtime": 115.1565,
      "eval_samples_per_second": 896.823,
      "eval_steps_per_second": 56.054,
      "step": 1304000
    },
    {
      "epoch": 10.7,
      "learning_rate": 1.8586666666666666e-07,
      "loss": 2.0476,
      "step": 1312000
    },
    {
      "epoch": 10.7,
      "eval_loss": 1.9159677028656006,
      "eval_runtime": 114.4329,
      "eval_samples_per_second": 902.494,
      "eval_steps_per_second": 56.409,
      "step": 1312000
    },
    {
      "epoch": 10.76,
      "eval_loss": 1.9276108741760254,
      "eval_runtime": 114.2813,
      "eval_samples_per_second": 903.691,
      "eval_steps_per_second": 56.483,
      "step": 1320000
    },
    {
      "epoch": 10.83,
      "learning_rate": 1.8313333333333332e-07,
      "loss": 2.037,
      "step": 1328000
    },
    {
      "epoch": 10.83,
      "eval_loss": 1.9041118621826172,
      "eval_runtime": 114.8143,
      "eval_samples_per_second": 899.496,
      "eval_steps_per_second": 56.221,
      "step": 1328000
    },
    {
      "epoch": 10.89,
      "eval_loss": 1.9227638244628906,
      "eval_runtime": 115.0142,
      "eval_samples_per_second": 897.933,
      "eval_steps_per_second": 56.124,
      "step": 1336000
    },
    {
      "epoch": 10.96,
      "learning_rate": 1.804e-07,
      "loss": 2.0447,
      "step": 1344000
    },
    {
      "epoch": 10.96,
      "eval_loss": 1.9151026010513306,
      "eval_runtime": 115.3034,
      "eval_samples_per_second": 895.68,
      "eval_steps_per_second": 55.983,
      "step": 1344000
    },
    {
      "epoch": 11.02,
      "eval_loss": 1.9068875312805176,
      "eval_runtime": 114.8441,
      "eval_samples_per_second": 899.263,
      "eval_steps_per_second": 56.207,
      "step": 1352000
    },
    {
      "epoch": 11.09,
      "learning_rate": 1.7766666666666666e-07,
      "loss": 2.039,
      "step": 1360000
    },
    {
      "epoch": 11.09,
      "eval_loss": 1.9274860620498657,
      "eval_runtime": 116.0333,
      "eval_samples_per_second": 890.046,
      "eval_steps_per_second": 55.631,
      "step": 1360000
    },
    {
      "epoch": 11.15,
      "eval_loss": 1.9066658020019531,
      "eval_runtime": 115.792,
      "eval_samples_per_second": 891.901,
      "eval_steps_per_second": 55.747,
      "step": 1368000
    },
    {
      "epoch": 11.22,
      "learning_rate": 1.7493333333333334e-07,
      "loss": 2.0434,
      "step": 1376000
    },
    {
      "epoch": 11.22,
      "eval_loss": 1.9086920022964478,
      "eval_runtime": 115.0319,
      "eval_samples_per_second": 897.795,
      "eval_steps_per_second": 56.115,
      "step": 1376000
    },
    {
      "epoch": 11.29,
      "eval_loss": 1.9041084051132202,
      "eval_runtime": 115.5247,
      "eval_samples_per_second": 893.965,
      "eval_steps_per_second": 55.876,
      "step": 1384000
    },
    {
      "epoch": 11.35,
      "learning_rate": 1.722e-07,
      "loss": 2.0501,
      "step": 1392000
    },
    {
      "epoch": 11.35,
      "eval_loss": 1.9032894372940063,
      "eval_runtime": 115.2083,
      "eval_samples_per_second": 896.42,
      "eval_steps_per_second": 56.029,
      "step": 1392000
    },
    {
      "epoch": 11.42,
      "eval_loss": 1.9152663946151733,
      "eval_runtime": 115.0179,
      "eval_samples_per_second": 897.903,
      "eval_steps_per_second": 56.122,
      "step": 1400000
    },
    {
      "epoch": 11.48,
      "learning_rate": 1.6946666666666668e-07,
      "loss": 2.0455,
      "step": 1408000
    },
    {
      "epoch": 11.48,
      "eval_loss": 1.9173645973205566,
      "eval_runtime": 115.462,
      "eval_samples_per_second": 894.45,
      "eval_steps_per_second": 55.906,
      "step": 1408000
    },
    {
      "epoch": 11.55,
      "eval_loss": 1.9174134731292725,
      "eval_runtime": 114.825,
      "eval_samples_per_second": 899.412,
      "eval_steps_per_second": 56.216,
      "step": 1416000
    },
    {
      "epoch": 11.61,
      "learning_rate": 1.6673333333333333e-07,
      "loss": 2.0466,
      "step": 1424000
    },
    {
      "epoch": 11.61,
      "eval_loss": 1.9260660409927368,
      "eval_runtime": 114.5404,
      "eval_samples_per_second": 901.647,
      "eval_steps_per_second": 56.356,
      "step": 1424000
    },
    {
      "epoch": 11.68,
      "eval_loss": 1.9181084632873535,
      "eval_runtime": 115.0034,
      "eval_samples_per_second": 898.017,
      "eval_steps_per_second": 56.129,
      "step": 1432000
    },
    {
      "epoch": 11.74,
      "learning_rate": 1.64e-07,
      "loss": 2.0424,
      "step": 1440000
    },
    {
      "epoch": 11.74,
      "eval_loss": 1.9141377210617065,
      "eval_runtime": 114.2837,
      "eval_samples_per_second": 903.672,
      "eval_steps_per_second": 56.482,
      "step": 1440000
    },
    {
      "epoch": 11.81,
      "eval_loss": 1.9004480838775635,
      "eval_runtime": 114.3666,
      "eval_samples_per_second": 903.017,
      "eval_steps_per_second": 56.441,
      "step": 1448000
    },
    {
      "epoch": 11.87,
      "learning_rate": 1.6126666666666667e-07,
      "loss": 2.0441,
      "step": 1456000
    },
    {
      "epoch": 11.87,
      "eval_loss": 1.919699788093567,
      "eval_runtime": 115.2012,
      "eval_samples_per_second": 896.475,
      "eval_steps_per_second": 56.032,
      "step": 1456000
    },
    {
      "epoch": 11.94,
      "eval_loss": 1.9074804782867432,
      "eval_runtime": 114.4122,
      "eval_samples_per_second": 902.658,
      "eval_steps_per_second": 56.419,
      "step": 1464000
    },
    {
      "epoch": 12.0,
      "learning_rate": 1.5853333333333332e-07,
      "loss": 2.04,
      "step": 1472000
    },
    {
      "epoch": 12.0,
      "eval_loss": 1.9121414422988892,
      "eval_runtime": 114.3242,
      "eval_samples_per_second": 903.352,
      "eval_steps_per_second": 56.462,
      "step": 1472000
    },
    {
      "epoch": 12.07,
      "eval_loss": 1.9210638999938965,
      "eval_runtime": 114.213,
      "eval_samples_per_second": 904.231,
      "eval_steps_per_second": 56.517,
      "step": 1480000
    },
    {
      "epoch": 12.13,
      "learning_rate": 1.558e-07,
      "loss": 2.0375,
      "step": 1488000
    },
    {
      "epoch": 12.13,
      "eval_loss": 1.9110891819000244,
      "eval_runtime": 114.5716,
      "eval_samples_per_second": 901.401,
      "eval_steps_per_second": 56.34,
      "step": 1488000
    },
    {
      "epoch": 12.2,
      "eval_loss": 1.9187558889389038,
      "eval_runtime": 114.4912,
      "eval_samples_per_second": 902.034,
      "eval_steps_per_second": 56.38,
      "step": 1496000
    },
    {
      "epoch": 12.26,
      "learning_rate": 1.5306666666666666e-07,
      "loss": 2.0482,
      "step": 1504000
    },
    {
      "epoch": 12.26,
      "eval_loss": 1.9099169969558716,
      "eval_runtime": 114.3549,
      "eval_samples_per_second": 903.109,
      "eval_steps_per_second": 56.447,
      "step": 1504000
    },
    {
      "epoch": 12.33,
      "eval_loss": 1.9160943031311035,
      "eval_runtime": 116.1161,
      "eval_samples_per_second": 889.412,
      "eval_steps_per_second": 55.591,
      "step": 1512000
    },
    {
      "epoch": 12.39,
      "learning_rate": 1.5033333333333332e-07,
      "loss": 2.0432,
      "step": 1520000
    },
    {
      "epoch": 12.39,
      "eval_loss": 1.9197900295257568,
      "eval_runtime": 114.3248,
      "eval_samples_per_second": 903.347,
      "eval_steps_per_second": 56.462,
      "step": 1520000
    },
    {
      "epoch": 12.46,
      "eval_loss": 1.9154330492019653,
      "eval_runtime": 114.7975,
      "eval_samples_per_second": 899.627,
      "eval_steps_per_second": 56.229,
      "step": 1528000
    },
    {
      "epoch": 12.52,
      "learning_rate": 1.476e-07,
      "loss": 2.0514,
      "step": 1536000
    },
    {
      "epoch": 12.52,
      "eval_loss": 1.9058637619018555,
      "eval_runtime": 114.484,
      "eval_samples_per_second": 902.091,
      "eval_steps_per_second": 56.383,
      "step": 1536000
    },
    {
      "epoch": 12.59,
      "eval_loss": 1.920427680015564,
      "eval_runtime": 114.3098,
      "eval_samples_per_second": 903.466,
      "eval_steps_per_second": 56.469,
      "step": 1544000
    },
    {
      "epoch": 12.65,
      "learning_rate": 1.4486666666666665e-07,
      "loss": 2.0397,
      "step": 1552000
    },
    {
      "epoch": 12.65,
      "eval_loss": 1.9054511785507202,
      "eval_runtime": 114.3602,
      "eval_samples_per_second": 903.068,
      "eval_steps_per_second": 56.444,
      "step": 1552000
    },
    {
      "epoch": 12.72,
      "eval_loss": 1.896202802658081,
      "eval_runtime": 115.3412,
      "eval_samples_per_second": 895.387,
      "eval_steps_per_second": 55.964,
      "step": 1560000
    },
    {
      "epoch": 12.79,
      "learning_rate": 1.4213333333333334e-07,
      "loss": 2.0454,
      "step": 1568000
    },
    {
      "epoch": 12.79,
      "eval_loss": 1.9040275812149048,
      "eval_runtime": 114.7741,
      "eval_samples_per_second": 899.811,
      "eval_steps_per_second": 56.241,
      "step": 1568000
    },
    {
      "epoch": 12.85,
      "eval_loss": 1.916807770729065,
      "eval_runtime": 114.6956,
      "eval_samples_per_second": 900.427,
      "eval_steps_per_second": 56.279,
      "step": 1576000
    },
    {
      "epoch": 12.92,
      "learning_rate": 1.3940000000000002e-07,
      "loss": 2.0391,
      "step": 1584000
    },
    {
      "epoch": 12.92,
      "eval_loss": 1.9037362337112427,
      "eval_runtime": 114.764,
      "eval_samples_per_second": 899.89,
      "eval_steps_per_second": 56.246,
      "step": 1584000
    },
    {
      "epoch": 12.98,
      "eval_loss": 1.9186286926269531,
      "eval_runtime": 114.5005,
      "eval_samples_per_second": 901.961,
      "eval_steps_per_second": 56.375,
      "step": 1592000
    },
    {
      "epoch": 13.05,
      "learning_rate": 1.3666666666666665e-07,
      "loss": 2.0414,
      "step": 1600000
    },
    {
      "epoch": 13.05,
      "eval_loss": 1.9122203588485718,
      "eval_runtime": 114.4898,
      "eval_samples_per_second": 902.045,
      "eval_steps_per_second": 56.381,
      "step": 1600000
    },
    {
      "epoch": 13.11,
      "eval_loss": 1.9115867614746094,
      "eval_runtime": 115.3456,
      "eval_samples_per_second": 895.352,
      "eval_steps_per_second": 55.962,
      "step": 1608000
    },
    {
      "epoch": 13.18,
      "learning_rate": 1.3393333333333333e-07,
      "loss": 2.0431,
      "step": 1616000
    },
    {
      "epoch": 13.18,
      "eval_loss": 1.9056520462036133,
      "eval_runtime": 114.6382,
      "eval_samples_per_second": 900.878,
      "eval_steps_per_second": 56.308,
      "step": 1616000
    },
    {
      "epoch": 13.24,
      "eval_loss": 1.9115238189697266,
      "eval_runtime": 114.36,
      "eval_samples_per_second": 903.07,
      "eval_steps_per_second": 56.445,
      "step": 1624000
    },
    {
      "epoch": 13.31,
      "learning_rate": 1.312e-07,
      "loss": 2.0368,
      "step": 1632000
    },
    {
      "epoch": 13.31,
      "eval_loss": 1.911974549293518,
      "eval_runtime": 114.4999,
      "eval_samples_per_second": 901.966,
      "eval_steps_per_second": 56.376,
      "step": 1632000
    },
    {
      "epoch": 13.37,
      "eval_loss": 1.9113932847976685,
      "eval_runtime": 115.0038,
      "eval_samples_per_second": 898.014,
      "eval_steps_per_second": 56.129,
      "step": 1640000
    },
    {
      "epoch": 13.44,
      "learning_rate": 1.2846666666666667e-07,
      "loss": 2.0427,
      "step": 1648000
    },
    {
      "epoch": 13.44,
      "eval_loss": 1.9128488302230835,
      "eval_runtime": 115.5184,
      "eval_samples_per_second": 894.013,
      "eval_steps_per_second": 55.879,
      "step": 1648000
    },
    {
      "epoch": 13.5,
      "eval_loss": 1.9200862646102905,
      "eval_runtime": 115.9784,
      "eval_samples_per_second": 890.467,
      "eval_steps_per_second": 55.657,
      "step": 1656000
    },
    {
      "epoch": 13.57,
      "learning_rate": 1.2573333333333332e-07,
      "loss": 2.0366,
      "step": 1664000
    },
    {
      "epoch": 13.57,
      "eval_loss": 1.9053164720535278,
      "eval_runtime": 115.3446,
      "eval_samples_per_second": 895.361,
      "eval_steps_per_second": 55.963,
      "step": 1664000
    },
    {
      "epoch": 13.63,
      "eval_loss": 1.9077204465866089,
      "eval_runtime": 114.7784,
      "eval_samples_per_second": 899.777,
      "eval_steps_per_second": 56.239,
      "step": 1672000
    },
    {
      "epoch": 13.7,
      "learning_rate": 1.23e-07,
      "loss": 2.0423,
      "step": 1680000
    },
    {
      "epoch": 13.7,
      "eval_loss": 1.9155118465423584,
      "eval_runtime": 114.5734,
      "eval_samples_per_second": 901.387,
      "eval_steps_per_second": 56.339,
      "step": 1680000
    },
    {
      "epoch": 13.76,
      "eval_loss": 1.9025253057479858,
      "eval_runtime": 115.4889,
      "eval_samples_per_second": 894.242,
      "eval_steps_per_second": 55.893,
      "step": 1688000
    },
    {
      "epoch": 13.83,
      "learning_rate": 1.2026666666666666e-07,
      "loss": 2.0345,
      "step": 1696000
    },
    {
      "epoch": 13.83,
      "eval_loss": 1.911736011505127,
      "eval_runtime": 115.8028,
      "eval_samples_per_second": 891.818,
      "eval_steps_per_second": 55.741,
      "step": 1696000
    },
    {
      "epoch": 13.89,
      "eval_loss": 1.9146357774734497,
      "eval_runtime": 115.518,
      "eval_samples_per_second": 894.017,
      "eval_steps_per_second": 55.879,
      "step": 1704000
    },
    {
      "epoch": 13.96,
      "learning_rate": 1.1753333333333334e-07,
      "loss": 2.0523,
      "step": 1712000
    },
    {
      "epoch": 13.96,
      "eval_loss": 1.9094045162200928,
      "eval_runtime": 115.0577,
      "eval_samples_per_second": 897.593,
      "eval_steps_per_second": 56.102,
      "step": 1712000
    },
    {
      "epoch": 14.02,
      "eval_loss": 1.9028066396713257,
      "eval_runtime": 115.3284,
      "eval_samples_per_second": 895.486,
      "eval_steps_per_second": 55.971,
      "step": 1720000
    },
    {
      "epoch": 14.09,
      "learning_rate": 1.1480000000000001e-07,
      "loss": 2.0405,
      "step": 1728000
    },
    {
      "epoch": 14.09,
      "eval_loss": 1.9033746719360352,
      "eval_runtime": 116.3993,
      "eval_samples_per_second": 887.247,
      "eval_steps_per_second": 55.456,
      "step": 1728000
    },
    {
      "epoch": 14.16,
      "eval_loss": 1.903308629989624,
      "eval_runtime": 115.3224,
      "eval_samples_per_second": 895.533,
      "eval_steps_per_second": 55.973,
      "step": 1736000
    },
    {
      "epoch": 14.22,
      "learning_rate": 1.1206666666666666e-07,
      "loss": 2.0416,
      "step": 1744000
    },
    {
      "epoch": 14.22,
      "eval_loss": 1.8958499431610107,
      "eval_runtime": 115.3629,
      "eval_samples_per_second": 895.218,
      "eval_steps_per_second": 55.954,
      "step": 1744000
    },
    {
      "epoch": 14.29,
      "eval_loss": 1.9071624279022217,
      "eval_runtime": 114.3411,
      "eval_samples_per_second": 903.218,
      "eval_steps_per_second": 56.454,
      "step": 1752000
    },
    {
      "epoch": 14.35,
      "learning_rate": 1.0933333333333333e-07,
      "loss": 2.0453,
      "step": 1760000
    },
    {
      "epoch": 14.35,
      "eval_loss": 1.90669846534729,
      "eval_runtime": 114.9673,
      "eval_samples_per_second": 898.299,
      "eval_steps_per_second": 56.146,
      "step": 1760000
    },
    {
      "epoch": 14.42,
      "eval_loss": 1.9112778902053833,
      "eval_runtime": 115.0041,
      "eval_samples_per_second": 898.012,
      "eval_steps_per_second": 56.128,
      "step": 1768000
    },
    {
      "epoch": 14.48,
      "learning_rate": 1.066e-07,
      "loss": 2.0425,
      "step": 1776000
    },
    {
      "epoch": 14.48,
      "eval_loss": 1.9103703498840332,
      "eval_runtime": 115.7959,
      "eval_samples_per_second": 891.871,
      "eval_steps_per_second": 55.745,
      "step": 1776000
    },
    {
      "epoch": 14.55,
      "eval_loss": 1.9110212326049805,
      "eval_runtime": 115.8835,
      "eval_samples_per_second": 891.197,
      "eval_steps_per_second": 55.702,
      "step": 1784000
    },
    {
      "epoch": 14.61,
      "learning_rate": 1.0386666666666667e-07,
      "loss": 2.0404,
      "step": 1792000
    },
    {
      "epoch": 14.61,
      "eval_loss": 1.9037020206451416,
      "eval_runtime": 115.7942,
      "eval_samples_per_second": 891.884,
      "eval_steps_per_second": 55.745,
      "step": 1792000
    },
    {
      "epoch": 14.68,
      "eval_loss": 1.9003052711486816,
      "eval_runtime": 115.8783,
      "eval_samples_per_second": 891.236,
      "eval_steps_per_second": 55.705,
      "step": 1800000
    },
    {
      "epoch": 14.74,
      "learning_rate": 1.0113333333333334e-07,
      "loss": 2.0427,
      "step": 1808000
    },
    {
      "epoch": 14.74,
      "eval_loss": 1.911608099937439,
      "eval_runtime": 116.1597,
      "eval_samples_per_second": 889.078,
      "eval_steps_per_second": 55.57,
      "step": 1808000
    },
    {
      "epoch": 14.81,
      "eval_loss": 1.9105613231658936,
      "eval_runtime": 116.0079,
      "eval_samples_per_second": 890.241,
      "eval_steps_per_second": 55.643,
      "step": 1816000
    },
    {
      "epoch": 14.87,
      "learning_rate": 9.84e-08,
      "loss": 2.0368,
      "step": 1824000
    },
    {
      "epoch": 14.87,
      "eval_loss": 1.9095083475112915,
      "eval_runtime": 116.8018,
      "eval_samples_per_second": 884.19,
      "eval_steps_per_second": 55.265,
      "step": 1824000
    },
    {
      "epoch": 14.94,
      "eval_loss": 1.8979859352111816,
      "eval_runtime": 114.5417,
      "eval_samples_per_second": 901.637,
      "eval_steps_per_second": 56.355,
      "step": 1832000
    },
    {
      "epoch": 15.0,
      "learning_rate": 9.566666666666666e-08,
      "loss": 2.0441,
      "step": 1840000
    },
    {
      "epoch": 15.0,
      "eval_loss": 1.918567419052124,
      "eval_runtime": 114.9208,
      "eval_samples_per_second": 898.662,
      "eval_steps_per_second": 56.169,
      "step": 1840000
    },
    {
      "epoch": 15.07,
      "eval_loss": 1.903983473777771,
      "eval_runtime": 114.4082,
      "eval_samples_per_second": 902.689,
      "eval_steps_per_second": 56.421,
      "step": 1848000
    },
    {
      "epoch": 15.13,
      "learning_rate": 9.293333333333333e-08,
      "loss": 2.0313,
      "step": 1856000
    },
    {
      "epoch": 15.13,
      "eval_loss": 1.9185600280761719,
      "eval_runtime": 115.728,
      "eval_samples_per_second": 892.394,
      "eval_steps_per_second": 55.777,
      "step": 1856000
    },
    {
      "epoch": 15.2,
      "eval_loss": 1.9016015529632568,
      "eval_runtime": 114.5834,
      "eval_samples_per_second": 901.308,
      "eval_steps_per_second": 56.335,
      "step": 1864000
    },
    {
      "epoch": 15.26,
      "learning_rate": 9.02e-08,
      "loss": 2.0488,
      "step": 1872000
    },
    {
      "epoch": 15.26,
      "eval_loss": 1.9047600030899048,
      "eval_runtime": 115.0099,
      "eval_samples_per_second": 897.966,
      "eval_steps_per_second": 56.126,
      "step": 1872000
    },
    {
      "epoch": 15.33,
      "eval_loss": 1.899457335472107,
      "eval_runtime": 115.8151,
      "eval_samples_per_second": 891.723,
      "eval_steps_per_second": 55.735,
      "step": 1880000
    },
    {
      "epoch": 15.39,
      "learning_rate": 8.746666666666667e-08,
      "loss": 2.0361,
      "step": 1888000
    },
    {
      "epoch": 15.39,
      "eval_loss": 1.9119617938995361,
      "eval_runtime": 116.351,
      "eval_samples_per_second": 887.616,
      "eval_steps_per_second": 55.479,
      "step": 1888000
    },
    {
      "epoch": 15.46,
      "eval_loss": 1.907942295074463,
      "eval_runtime": 116.3149,
      "eval_samples_per_second": 887.892,
      "eval_steps_per_second": 55.496,
      "step": 1896000
    },
    {
      "epoch": 15.53,
      "learning_rate": 8.473333333333334e-08,
      "loss": 2.0449,
      "step": 1904000
    },
    {
      "epoch": 15.53,
      "eval_loss": 1.9109671115875244,
      "eval_runtime": 114.9775,
      "eval_samples_per_second": 898.219,
      "eval_steps_per_second": 56.141,
      "step": 1904000
    },
    {
      "epoch": 15.59,
      "eval_loss": 1.909091591835022,
      "eval_runtime": 115.2151,
      "eval_samples_per_second": 896.367,
      "eval_steps_per_second": 56.026,
      "step": 1912000
    },
    {
      "epoch": 15.66,
      "learning_rate": 8.2e-08,
      "loss": 2.043,
      "step": 1920000
    },
    {
      "epoch": 15.66,
      "eval_loss": 1.9061814546585083,
      "eval_runtime": 115.9012,
      "eval_samples_per_second": 891.06,
      "eval_steps_per_second": 55.694,
      "step": 1920000
    },
    {
      "epoch": 15.72,
      "eval_loss": 1.9070407152175903,
      "eval_runtime": 115.1701,
      "eval_samples_per_second": 896.717,
      "eval_steps_per_second": 56.048,
      "step": 1928000
    },
    {
      "epoch": 15.79,
      "learning_rate": 7.926666666666666e-08,
      "loss": 2.0414,
      "step": 1936000
    },
    {
      "epoch": 15.79,
      "eval_loss": 1.913381576538086,
      "eval_runtime": 115.5442,
      "eval_samples_per_second": 893.814,
      "eval_steps_per_second": 55.866,
      "step": 1936000
    },
    {
      "epoch": 15.85,
      "eval_loss": 1.9079296588897705,
      "eval_runtime": 115.3858,
      "eval_samples_per_second": 895.041,
      "eval_steps_per_second": 55.943,
      "step": 1944000
    },
    {
      "epoch": 15.92,
      "learning_rate": 7.653333333333333e-08,
      "loss": 2.0419,
      "step": 1952000
    },
    {
      "epoch": 15.92,
      "eval_loss": 1.9060734510421753,
      "eval_runtime": 115.6219,
      "eval_samples_per_second": 893.213,
      "eval_steps_per_second": 55.829,
      "step": 1952000
    },
    {
      "epoch": 15.98,
      "eval_loss": 1.9058138132095337,
      "eval_runtime": 115.3288,
      "eval_samples_per_second": 895.483,
      "eval_steps_per_second": 55.97,
      "step": 1960000
    },
    {
      "epoch": 16.05,
      "learning_rate": 7.38e-08,
      "loss": 2.0384,
      "step": 1968000
    },
    {
      "epoch": 16.05,
      "eval_loss": 1.9113844633102417,
      "eval_runtime": 115.36,
      "eval_samples_per_second": 895.241,
      "eval_steps_per_second": 55.955,
      "step": 1968000
    },
    {
      "epoch": 16.11,
      "eval_loss": 1.904008150100708,
      "eval_runtime": 115.3314,
      "eval_samples_per_second": 895.463,
      "eval_steps_per_second": 55.969,
      "step": 1976000
    },
    {
      "epoch": 16.18,
      "learning_rate": 7.106666666666667e-08,
      "loss": 2.0391,
      "step": 1984000
    },
    {
      "epoch": 16.18,
      "eval_loss": 1.9094995260238647,
      "eval_runtime": 116.0038,
      "eval_samples_per_second": 890.273,
      "eval_steps_per_second": 55.645,
      "step": 1984000
    },
    {
      "epoch": 16.24,
      "eval_loss": 1.918182134628296,
      "eval_runtime": 117.9985,
      "eval_samples_per_second": 875.223,
      "eval_steps_per_second": 54.704,
      "step": 1992000
    },
    {
      "epoch": 16.31,
      "learning_rate": 6.833333333333332e-08,
      "loss": 2.0405,
      "step": 2000000
    },
    {
      "epoch": 16.31,
      "eval_loss": 1.9111247062683105,
      "eval_runtime": 115.7318,
      "eval_samples_per_second": 892.365,
      "eval_steps_per_second": 55.776,
      "step": 2000000
    },
    {
      "epoch": 16.37,
      "eval_loss": 1.9056226015090942,
      "eval_runtime": 115.3321,
      "eval_samples_per_second": 895.458,
      "eval_steps_per_second": 55.969,
      "step": 2008000
    },
    {
      "epoch": 16.44,
      "learning_rate": 6.56e-08,
      "loss": 2.0404,
      "step": 2016000
    },
    {
      "epoch": 16.44,
      "eval_loss": 1.9133949279785156,
      "eval_runtime": 115.6177,
      "eval_samples_per_second": 893.245,
      "eval_steps_per_second": 55.831,
      "step": 2016000
    },
    {
      "epoch": 16.5,
      "eval_loss": 1.9069831371307373,
      "eval_runtime": 116.2332,
      "eval_samples_per_second": 888.516,
      "eval_steps_per_second": 55.535,
      "step": 2024000
    },
    {
      "epoch": 16.57,
      "learning_rate": 6.286666666666666e-08,
      "loss": 2.0414,
      "step": 2032000
    },
    {
      "epoch": 16.57,
      "eval_loss": 1.9084620475769043,
      "eval_runtime": 115.922,
      "eval_samples_per_second": 890.901,
      "eval_steps_per_second": 55.684,
      "step": 2032000
    },
    {
      "epoch": 16.63,
      "eval_loss": 1.9063148498535156,
      "eval_runtime": 116.5212,
      "eval_samples_per_second": 886.319,
      "eval_steps_per_second": 55.398,
      "step": 2040000
    },
    {
      "epoch": 16.7,
      "learning_rate": 6.013333333333333e-08,
      "loss": 2.0483,
      "step": 2048000
    },
    {
      "epoch": 16.7,
      "eval_loss": 1.9186962842941284,
      "eval_runtime": 116.2964,
      "eval_samples_per_second": 888.032,
      "eval_steps_per_second": 55.505,
      "step": 2048000
    },
    {
      "epoch": 16.76,
      "eval_loss": 1.9105137586593628,
      "eval_runtime": 115.5049,
      "eval_samples_per_second": 894.118,
      "eval_steps_per_second": 55.885,
      "step": 2056000
    },
    {
      "epoch": 16.83,
      "learning_rate": 5.7400000000000004e-08,
      "loss": 2.0452,
      "step": 2064000
    },
    {
      "epoch": 16.83,
      "eval_loss": 1.9117952585220337,
      "eval_runtime": 116.0281,
      "eval_samples_per_second": 890.086,
      "eval_steps_per_second": 55.633,
      "step": 2064000
    },
    {
      "epoch": 16.89,
      "eval_loss": 1.9091888666152954,
      "eval_runtime": 117.9897,
      "eval_samples_per_second": 875.288,
      "eval_steps_per_second": 54.708,
      "step": 2072000
    },
    {
      "epoch": 16.96,
      "learning_rate": 5.4666666666666666e-08,
      "loss": 2.0401,
      "step": 2080000
    },
    {
      "epoch": 16.96,
      "eval_loss": 1.9113515615463257,
      "eval_runtime": 116.2625,
      "eval_samples_per_second": 888.291,
      "eval_steps_per_second": 55.521,
      "step": 2080000
    },
    {
      "epoch": 17.03,
      "eval_loss": 1.9098221063613892,
      "eval_runtime": 115.7155,
      "eval_samples_per_second": 892.491,
      "eval_steps_per_second": 55.783,
      "step": 2088000
    },
    {
      "epoch": 17.09,
      "learning_rate": 5.1933333333333335e-08,
      "loss": 2.0353,
      "step": 2096000
    },
    {
      "epoch": 17.09,
      "eval_loss": 1.9069087505340576,
      "eval_runtime": 116.5348,
      "eval_samples_per_second": 886.216,
      "eval_steps_per_second": 55.391,
      "step": 2096000
    },
    {
      "epoch": 17.16,
      "eval_loss": 1.9027125835418701,
      "eval_runtime": 115.7058,
      "eval_samples_per_second": 892.566,
      "eval_steps_per_second": 55.788,
      "step": 2104000
    },
    {
      "epoch": 17.22,
      "learning_rate": 4.92e-08,
      "loss": 2.0468,
      "step": 2112000
    },
    {
      "epoch": 17.22,
      "eval_loss": 1.910232424736023,
      "eval_runtime": 115.6722,
      "eval_samples_per_second": 892.825,
      "eval_steps_per_second": 55.804,
      "step": 2112000
    },
    {
      "epoch": 17.29,
      "eval_loss": 1.9046436548233032,
      "eval_runtime": 116.4733,
      "eval_samples_per_second": 886.684,
      "eval_steps_per_second": 55.42,
      "step": 2120000
    },
    {
      "epoch": 17.35,
      "learning_rate": 4.6466666666666666e-08,
      "loss": 2.0448,
      "step": 2128000
    },
    {
      "epoch": 17.35,
      "eval_loss": 1.9024384021759033,
      "eval_runtime": 115.5381,
      "eval_samples_per_second": 893.861,
      "eval_steps_per_second": 55.869,
      "step": 2128000
    },
    {
      "epoch": 17.42,
      "eval_loss": 1.910799264907837,
      "eval_runtime": 116.2371,
      "eval_samples_per_second": 888.486,
      "eval_steps_per_second": 55.533,
      "step": 2136000
    },
    {
      "epoch": 17.48,
      "learning_rate": 4.3733333333333335e-08,
      "loss": 2.0435,
      "step": 2144000
    },
    {
      "epoch": 17.48,
      "eval_loss": 1.9122228622436523,
      "eval_runtime": 116.6097,
      "eval_samples_per_second": 885.647,
      "eval_steps_per_second": 55.356,
      "step": 2144000
    },
    {
      "epoch": 17.55,
      "eval_loss": 1.9043642282485962,
      "eval_runtime": 115.6604,
      "eval_samples_per_second": 892.916,
      "eval_steps_per_second": 55.81,
      "step": 2152000
    },
    {
      "epoch": 17.61,
      "learning_rate": 4.1e-08,
      "loss": 2.0421,
      "step": 2160000
    },
    {
      "epoch": 17.61,
      "eval_loss": 1.9069358110427856,
      "eval_runtime": 116.7738,
      "eval_samples_per_second": 884.402,
      "eval_steps_per_second": 55.278,
      "step": 2160000
    },
    {
      "epoch": 17.68,
      "eval_loss": 1.9019508361816406,
      "eval_runtime": 116.2558,
      "eval_samples_per_second": 888.342,
      "eval_steps_per_second": 55.524,
      "step": 2168000
    },
    {
      "epoch": 17.74,
      "learning_rate": 3.8266666666666665e-08,
      "loss": 2.0366,
      "step": 2176000
    },
    {
      "epoch": 17.74,
      "eval_loss": 1.9152798652648926,
      "eval_runtime": 116.0194,
      "eval_samples_per_second": 890.153,
      "eval_steps_per_second": 55.637,
      "step": 2176000
    },
    {
      "epoch": 17.81,
      "eval_loss": 1.9072139263153076,
      "eval_runtime": 115.6971,
      "eval_samples_per_second": 892.633,
      "eval_steps_per_second": 55.792,
      "step": 2184000
    },
    {
      "epoch": 17.87,
      "learning_rate": 3.5533333333333334e-08,
      "loss": 2.034,
      "step": 2192000
    },
    {
      "epoch": 17.87,
      "eval_loss": 1.9181559085845947,
      "eval_runtime": 116.0059,
      "eval_samples_per_second": 890.256,
      "eval_steps_per_second": 55.644,
      "step": 2192000
    },
    {
      "epoch": 17.94,
      "eval_loss": 1.9085872173309326,
      "eval_runtime": 116.4771,
      "eval_samples_per_second": 886.655,
      "eval_steps_per_second": 55.419,
      "step": 2200000
    },
    {
      "epoch": 18.0,
      "learning_rate": 3.28e-08,
      "loss": 2.0397,
      "step": 2208000
    },
    {
      "epoch": 18.0,
      "eval_loss": 1.9070638418197632,
      "eval_runtime": 116.2437,
      "eval_samples_per_second": 888.435,
      "eval_steps_per_second": 55.53,
      "step": 2208000
    },
    {
      "epoch": 18.07,
      "eval_loss": 1.9146629571914673,
      "eval_runtime": 117.2397,
      "eval_samples_per_second": 880.887,
      "eval_steps_per_second": 55.058,
      "step": 2216000
    },
    {
      "epoch": 18.13,
      "learning_rate": 3.0066666666666665e-08,
      "loss": 2.0374,
      "step": 2224000
    },
    {
      "epoch": 18.13,
      "eval_loss": 1.9199682474136353,
      "eval_runtime": 116.9772,
      "eval_samples_per_second": 882.865,
      "eval_steps_per_second": 55.182,
      "step": 2224000
    },
    {
      "epoch": 18.2,
      "eval_loss": 1.917845368385315,
      "eval_runtime": 116.926,
      "eval_samples_per_second": 883.251,
      "eval_steps_per_second": 55.206,
      "step": 2232000
    },
    {
      "epoch": 18.26,
      "learning_rate": 2.7333333333333333e-08,
      "loss": 2.0413,
      "step": 2240000
    },
    {
      "epoch": 18.26,
      "eval_loss": 1.9089611768722534,
      "eval_runtime": 116.5053,
      "eval_samples_per_second": 886.44,
      "eval_steps_per_second": 55.405,
      "step": 2240000
    },
    {
      "epoch": 18.33,
      "eval_loss": 1.9036976099014282,
      "eval_runtime": 115.8055,
      "eval_samples_per_second": 891.797,
      "eval_steps_per_second": 55.74,
      "step": 2248000
    },
    {
      "epoch": 18.4,
      "learning_rate": 2.46e-08,
      "loss": 2.047,
      "step": 2256000
    },
    {
      "epoch": 18.4,
      "eval_loss": 1.9126322269439697,
      "eval_runtime": 116.2519,
      "eval_samples_per_second": 888.372,
      "eval_steps_per_second": 55.526,
      "step": 2256000
    },
    {
      "epoch": 18.46,
      "eval_loss": 1.9117310047149658,
      "eval_runtime": 116.138,
      "eval_samples_per_second": 889.244,
      "eval_steps_per_second": 55.58,
      "step": 2264000
    },
    {
      "epoch": 18.53,
      "learning_rate": 2.1866666666666667e-08,
      "loss": 2.0395,
      "step": 2272000
    },
    {
      "epoch": 18.53,
      "eval_loss": 1.911027431488037,
      "eval_runtime": 116.0632,
      "eval_samples_per_second": 889.817,
      "eval_steps_per_second": 55.616,
      "step": 2272000
    },
    {
      "epoch": 18.59,
      "eval_loss": 1.9157801866531372,
      "eval_runtime": 116.0777,
      "eval_samples_per_second": 889.706,
      "eval_steps_per_second": 55.609,
      "step": 2280000
    },
    {
      "epoch": 18.66,
      "learning_rate": 1.9133333333333333e-08,
      "loss": 2.0447,
      "step": 2288000
    },
    {
      "epoch": 18.66,
      "eval_loss": 1.9016647338867188,
      "eval_runtime": 116.0944,
      "eval_samples_per_second": 889.578,
      "eval_steps_per_second": 55.601,
      "step": 2288000
    },
    {
      "epoch": 18.72,
      "eval_loss": 1.9071747064590454,
      "eval_runtime": 117.2998,
      "eval_samples_per_second": 880.436,
      "eval_steps_per_second": 55.03,
      "step": 2296000
    },
    {
      "epoch": 18.79,
      "learning_rate": 1.64e-08,
      "loss": 2.0377,
      "step": 2304000
    },
    {
      "epoch": 18.79,
      "eval_loss": 1.91358482837677,
      "eval_runtime": 118.15,
      "eval_samples_per_second": 874.101,
      "eval_steps_per_second": 54.634,
      "step": 2304000
    },
    {
      "epoch": 18.85,
      "eval_loss": 1.9084006547927856,
      "eval_runtime": 118.6409,
      "eval_samples_per_second": 870.484,
      "eval_steps_per_second": 54.408,
      "step": 2312000
    },
    {
      "epoch": 18.92,
      "learning_rate": 1.3666666666666667e-08,
      "loss": 2.0312,
      "step": 2320000
    },
    {
      "epoch": 18.92,
      "eval_loss": 1.909172773361206,
      "eval_runtime": 117.7813,
      "eval_samples_per_second": 876.837,
      "eval_steps_per_second": 54.805,
      "step": 2320000
    },
    {
      "epoch": 18.98,
      "eval_loss": 1.9103314876556396,
      "eval_runtime": 117.0394,
      "eval_samples_per_second": 882.395,
      "eval_steps_per_second": 55.152,
      "step": 2328000
    },
    {
      "epoch": 19.05,
      "learning_rate": 1.0933333333333334e-08,
      "loss": 2.0387,
      "step": 2336000
    },
    {
      "epoch": 19.05,
      "eval_loss": 1.9023408889770508,
      "eval_runtime": 117.1786,
      "eval_samples_per_second": 881.347,
      "eval_steps_per_second": 55.087,
      "step": 2336000
    },
    {
      "epoch": 19.11,
      "eval_loss": 1.9034806489944458,
      "eval_runtime": 118.479,
      "eval_samples_per_second": 871.674,
      "eval_steps_per_second": 54.482,
      "step": 2344000
    },
    {
      "epoch": 19.18,
      "learning_rate": 8.2e-09,
      "loss": 2.0358,
      "step": 2352000
    },
    {
      "epoch": 19.18,
      "eval_loss": 1.9131251573562622,
      "eval_runtime": 116.6651,
      "eval_samples_per_second": 885.226,
      "eval_steps_per_second": 55.329,
      "step": 2352000
    },
    {
      "epoch": 19.24,
      "eval_loss": 1.9065865278244019,
      "eval_runtime": 118.6652,
      "eval_samples_per_second": 870.306,
      "eval_steps_per_second": 54.397,
      "step": 2360000
    },
    {
      "epoch": 19.31,
      "learning_rate": 5.466666666666667e-09,
      "loss": 2.0402,
      "step": 2368000
    },
    {
      "epoch": 19.31,
      "eval_loss": 1.9083107709884644,
      "eval_runtime": 117.2736,
      "eval_samples_per_second": 880.633,
      "eval_steps_per_second": 55.042,
      "step": 2368000
    },
    {
      "epoch": 19.37,
      "eval_loss": 1.9068409204483032,
      "eval_runtime": 117.4261,
      "eval_samples_per_second": 879.49,
      "eval_steps_per_second": 54.971,
      "step": 2376000
    },
    {
      "epoch": 19.44,
      "learning_rate": 2.7333333333333334e-09,
      "loss": 2.0319,
      "step": 2384000
    },
    {
      "epoch": 19.44,
      "eval_loss": 1.9011958837509155,
      "eval_runtime": 117.8174,
      "eval_samples_per_second": 876.568,
      "eval_steps_per_second": 54.788,
      "step": 2384000
    },
    {
      "epoch": 19.5,
      "eval_loss": 1.927274465560913,
      "eval_runtime": 118.5235,
      "eval_samples_per_second": 871.346,
      "eval_steps_per_second": 54.462,
      "step": 2392000
    },
    {
      "epoch": 19.57,
      "learning_rate": 0.0,
      "loss": 2.0436,
      "step": 2400000
    },
    {
      "epoch": 19.57,
      "eval_loss": 1.905896782875061,
      "eval_runtime": 116.8523,
      "eval_samples_per_second": 883.808,
      "eval_steps_per_second": 55.241,
      "step": 2400000
    },
    {
      "epoch": 19.57,
      "step": 2400000,
      "total_flos": 7.485113755399533e+17,
      "train_loss": 2.0565961393229166,
      "train_runtime": 185876.2415,
      "train_samples_per_second": 206.589,
      "train_steps_per_second": 12.912
    }
  ],
  "logging_steps": 16000,
  "max_steps": 2400000,
  "num_train_epochs": 20,
  "save_steps": 32000,
  "total_flos": 7.485113755399533e+17,
  "trial_name": null,
  "trial_params": null
}