{
  "best_metric": 2.7100777626037598,
  "best_model_checkpoint": "./model_tweets_2020_Q2/checkpoint-192000",
  "epoch": 19.569471624266146,
  "eval_steps": 8000,
  "global_step": 2400000,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.07,
      "eval_loss": 2.977957248687744,
      "eval_runtime": 125.5213,
      "eval_samples_per_second": 822.769,
      "eval_steps_per_second": 51.426,
      "step": 8000
    },
    {
      "epoch": 0.13,
      "learning_rate": 9.939131159843243e-06,
      "loss": 3.1296,
      "step": 16000
    },
    {
      "epoch": 0.13,
      "eval_loss": 2.894831418991089,
      "eval_runtime": 126.0129,
      "eval_samples_per_second": 819.559,
      "eval_steps_per_second": 51.225,
      "step": 16000
    },
    {
      "epoch": 0.2,
      "eval_loss": 2.8589611053466797,
      "eval_runtime": 125.8909,
      "eval_samples_per_second": 820.353,
      "eval_steps_per_second": 51.275,
      "step": 24000
    },
    {
      "epoch": 0.26,
      "learning_rate": 9.872425581589261e-06,
      "loss": 2.9018,
      "step": 32000
    },
    {
      "epoch": 0.26,
      "eval_loss": 2.8033480644226074,
      "eval_runtime": 125.7264,
      "eval_samples_per_second": 821.427,
      "eval_steps_per_second": 51.342,
      "step": 32000
    },
    {
      "epoch": 0.33,
      "eval_loss": 2.7938032150268555,
      "eval_runtime": 125.7192,
      "eval_samples_per_second": 821.474,
      "eval_steps_per_second": 51.345,
      "step": 40000
    },
    {
      "epoch": 0.39,
      "learning_rate": 9.80572000333528e-06,
      "loss": 2.8331,
      "step": 48000
    },
    {
      "epoch": 0.39,
      "eval_loss": 2.7694976329803467,
      "eval_runtime": 127.0405,
      "eval_samples_per_second": 812.93,
      "eval_steps_per_second": 50.811,
      "step": 48000
    },
    {
      "epoch": 0.46,
      "eval_loss": 2.7614457607269287,
      "eval_runtime": 125.7185,
      "eval_samples_per_second": 821.478,
      "eval_steps_per_second": 51.345,
      "step": 56000
    },
    {
      "epoch": 0.52,
      "learning_rate": 9.739014425081299e-06,
      "loss": 2.7723,
      "step": 64000
    },
    {
      "epoch": 0.52,
      "eval_loss": 2.7416625022888184,
      "eval_runtime": 126.1624,
      "eval_samples_per_second": 818.588,
      "eval_steps_per_second": 51.164,
      "step": 64000
    },
    {
      "epoch": 0.59,
      "eval_loss": 2.7248806953430176,
      "eval_runtime": 126.0454,
      "eval_samples_per_second": 819.348,
      "eval_steps_per_second": 51.212,
      "step": 72000
    },
    {
      "epoch": 0.65,
      "learning_rate": 9.672308846827316e-06,
      "loss": 2.75,
      "step": 80000
    },
    {
      "epoch": 0.65,
      "eval_loss": 2.7202229499816895,
      "eval_runtime": 126.948,
      "eval_samples_per_second": 813.522,
      "eval_steps_per_second": 50.848,
      "step": 80000
    },
    {
      "epoch": 0.72,
      "eval_loss": 2.7112038135528564,
      "eval_runtime": 126.8524,
      "eval_samples_per_second": 814.135,
      "eval_steps_per_second": 50.886,
      "step": 88000
    },
    {
      "epoch": 0.78,
      "learning_rate": 9.605603268573334e-06,
      "loss": 2.735,
      "step": 96000
    },
    {
      "epoch": 0.78,
      "eval_loss": 2.7228710651397705,
      "eval_runtime": 126.981,
      "eval_samples_per_second": 813.311,
      "eval_steps_per_second": 50.834,
      "step": 96000
    },
    {
      "epoch": 0.85,
      "eval_loss": 2.7370951175689697,
      "eval_runtime": 126.6893,
      "eval_samples_per_second": 815.183,
      "eval_steps_per_second": 50.951,
      "step": 104000
    },
    {
      "epoch": 0.91,
      "learning_rate": 9.538897690319354e-06,
      "loss": 2.7137,
      "step": 112000
    },
    {
      "epoch": 0.91,
      "eval_loss": 2.7059037685394287,
      "eval_runtime": 126.3306,
      "eval_samples_per_second": 817.498,
      "eval_steps_per_second": 51.096,
      "step": 112000
    },
    {
      "epoch": 0.98,
      "eval_loss": 2.7120730876922607,
      "eval_runtime": 126.2744,
      "eval_samples_per_second": 817.862,
      "eval_steps_per_second": 51.119,
      "step": 120000
    },
    {
      "epoch": 1.04,
      "learning_rate": 9.472192112065373e-06,
      "loss": 2.7155,
      "step": 128000
    },
    {
      "epoch": 1.04,
      "eval_loss": 2.7248668670654297,
      "eval_runtime": 126.8126,
      "eval_samples_per_second": 814.391,
      "eval_steps_per_second": 50.902,
      "step": 128000
    },
    {
      "epoch": 1.11,
      "eval_loss": 2.7130985260009766,
      "eval_runtime": 126.6262,
      "eval_samples_per_second": 815.589,
      "eval_steps_per_second": 50.977,
      "step": 136000
    },
    {
      "epoch": 1.17,
      "learning_rate": 9.405486533811392e-06,
      "loss": 2.7152,
      "step": 144000
    },
    {
      "epoch": 1.17,
      "eval_loss": 2.6999881267547607,
      "eval_runtime": 126.4279,
      "eval_samples_per_second": 816.868,
      "eval_steps_per_second": 51.057,
      "step": 144000
    },
    {
      "epoch": 1.24,
      "eval_loss": 2.703012704849243,
      "eval_runtime": 126.2932,
      "eval_samples_per_second": 817.74,
      "eval_steps_per_second": 51.111,
      "step": 152000
    },
    {
      "epoch": 1.3,
      "learning_rate": 9.338780955557409e-06,
      "loss": 2.7151,
      "step": 160000
    },
    {
      "epoch": 1.3,
      "eval_loss": 2.721385955810547,
      "eval_runtime": 126.566,
      "eval_samples_per_second": 815.977,
      "eval_steps_per_second": 51.001,
      "step": 160000
    },
    {
      "epoch": 1.37,
      "eval_loss": 2.707641839981079,
      "eval_runtime": 126.5896,
      "eval_samples_per_second": 815.826,
      "eval_steps_per_second": 50.992,
      "step": 168000
    },
    {
      "epoch": 1.44,
      "learning_rate": 9.272075377303427e-06,
      "loss": 2.7166,
      "step": 176000
    },
    {
      "epoch": 1.44,
      "eval_loss": 2.7106387615203857,
      "eval_runtime": 126.9356,
      "eval_samples_per_second": 813.602,
      "eval_steps_per_second": 50.853,
      "step": 176000
    },
    {
      "epoch": 1.5,
      "eval_loss": 2.719717025756836,
      "eval_runtime": 127.5317,
      "eval_samples_per_second": 809.798,
      "eval_steps_per_second": 50.615,
      "step": 184000
    },
    {
      "epoch": 1.57,
      "learning_rate": 9.205369799049446e-06,
      "loss": 2.7144,
      "step": 192000
    },
    {
      "epoch": 1.57,
      "eval_loss": 2.7100777626037598,
      "eval_runtime": 126.3318,
      "eval_samples_per_second": 817.49,
      "eval_steps_per_second": 51.096,
      "step": 192000
    },
    {
      "epoch": 1.63,
      "eval_loss": 2.723472833633423,
      "eval_runtime": 127.1568,
      "eval_samples_per_second": 812.186,
      "eval_steps_per_second": 50.764,
      "step": 200000
    },
    {
      "epoch": 1.7,
      "learning_rate": 9.138664220795464e-06,
      "loss": 2.7179,
      "step": 208000
    },
    {
      "epoch": 1.7,
      "eval_loss": 2.706564426422119,
      "eval_runtime": 127.089,
      "eval_samples_per_second": 812.62,
      "eval_steps_per_second": 50.791,
      "step": 208000
    },
    {
      "epoch": 1.76,
      "eval_loss": 2.7282984256744385,
      "eval_runtime": 127.4927,
      "eval_samples_per_second": 810.047,
      "eval_steps_per_second": 50.63,
      "step": 216000
    },
    {
      "epoch": 1.83,
      "learning_rate": 9.071958642541483e-06,
      "loss": 2.7231,
      "step": 224000
    },
    {
      "epoch": 1.83,
      "eval_loss": 2.7203216552734375,
      "eval_runtime": 127.4298,
      "eval_samples_per_second": 810.446,
      "eval_steps_per_second": 50.655,
      "step": 224000
    },
    {
      "epoch": 1.89,
      "eval_loss": 2.711085319519043,
      "eval_runtime": 126.4739,
      "eval_samples_per_second": 816.571,
      "eval_steps_per_second": 51.038,
      "step": 232000
    },
    {
      "epoch": 1.96,
      "learning_rate": 9.005253064287502e-06,
      "loss": 2.7284,
      "step": 240000
    },
    {
      "epoch": 1.96,
      "eval_loss": 2.721714973449707,
      "eval_runtime": 126.401,
      "eval_samples_per_second": 817.043,
      "eval_steps_per_second": 51.068,
      "step": 240000
    },
    {
      "epoch": 2.02,
      "eval_loss": 2.725090265274048,
      "eval_runtime": 127.0199,
      "eval_samples_per_second": 813.061,
      "eval_steps_per_second": 50.819,
      "step": 248000
    },
    {
      "epoch": 2.09,
      "learning_rate": 8.93854748603352e-06,
      "loss": 2.7242,
      "step": 256000
    },
    {
      "epoch": 2.09,
      "eval_loss": 2.718090057373047,
      "eval_runtime": 127.9402,
      "eval_samples_per_second": 807.213,
      "eval_steps_per_second": 50.453,
      "step": 256000
    },
    {
      "epoch": 2.15,
      "eval_loss": 2.723750591278076,
      "eval_runtime": 127.1287,
      "eval_samples_per_second": 812.366,
      "eval_steps_per_second": 50.775,
      "step": 264000
    },
    {
      "epoch": 2.22,
      "learning_rate": 8.871841907779539e-06,
      "loss": 2.7171,
      "step": 272000
    },
    {
      "epoch": 2.22,
      "eval_loss": 2.748772144317627,
      "eval_runtime": 128.6406,
      "eval_samples_per_second": 802.818,
      "eval_steps_per_second": 50.179,
      "step": 272000
    },
    {
      "epoch": 2.28,
      "eval_loss": 2.731541633605957,
      "eval_runtime": 127.5368,
      "eval_samples_per_second": 809.766,
      "eval_steps_per_second": 50.613,
      "step": 280000
    },
    {
      "epoch": 2.35,
      "learning_rate": 8.805136329525557e-06,
      "loss": 2.7312,
      "step": 288000
    },
    {
      "epoch": 2.35,
      "eval_loss": 2.746854305267334,
      "eval_runtime": 127.6128,
      "eval_samples_per_second": 809.284,
      "eval_steps_per_second": 50.583,
      "step": 288000
    },
    {
      "epoch": 2.41,
      "eval_loss": 2.7363078594207764,
      "eval_runtime": 127.9259,
      "eval_samples_per_second": 807.303,
      "eval_steps_per_second": 50.459,
      "step": 296000
    },
    {
      "epoch": 2.48,
      "learning_rate": 8.738430751271576e-06,
      "loss": 2.7386,
      "step": 304000
    },
    {
      "epoch": 2.48,
      "eval_loss": 2.7398250102996826,
      "eval_runtime": 127.3013,
      "eval_samples_per_second": 811.264,
      "eval_steps_per_second": 50.706,
      "step": 304000
    },
    {
      "epoch": 2.54,
      "eval_loss": 2.747743844985962,
      "eval_runtime": 127.9865,
      "eval_samples_per_second": 806.921,
      "eval_steps_per_second": 50.435,
      "step": 312000
    },
    {
      "epoch": 2.61,
      "learning_rate": 8.671725173017595e-06,
      "loss": 2.7457,
      "step": 320000
    },
    {
      "epoch": 2.61,
      "eval_loss": 2.753558397293091,
      "eval_runtime": 128.9208,
      "eval_samples_per_second": 801.073,
      "eval_steps_per_second": 50.069,
      "step": 320000
    },
    {
      "epoch": 2.67,
      "eval_loss": 2.748337984085083,
      "eval_runtime": 128.758,
      "eval_samples_per_second": 802.086,
      "eval_steps_per_second": 50.133,
      "step": 328000
    },
    {
      "epoch": 2.74,
      "learning_rate": 8.605019594763613e-06,
      "loss": 2.7496,
      "step": 336000
    },
    {
      "epoch": 2.74,
      "eval_loss": 2.752856969833374,
      "eval_runtime": 128.3684,
      "eval_samples_per_second": 804.521,
      "eval_steps_per_second": 50.285,
      "step": 336000
    },
    {
      "epoch": 2.8,
      "eval_loss": 2.749178171157837,
      "eval_runtime": 129.8422,
      "eval_samples_per_second": 795.388,
      "eval_steps_per_second": 49.714,
      "step": 344000
    },
    {
      "epoch": 2.87,
      "learning_rate": 8.538314016509632e-06,
      "loss": 2.7521,
      "step": 352000
    },
    {
      "epoch": 2.87,
      "eval_loss": 2.761200189590454,
      "eval_runtime": 127.6309,
      "eval_samples_per_second": 809.169,
      "eval_steps_per_second": 50.576,
      "step": 352000
    },
    {
      "epoch": 2.94,
      "eval_loss": 2.7700963020324707,
      "eval_runtime": 128.3946,
      "eval_samples_per_second": 804.356,
      "eval_steps_per_second": 50.275,
      "step": 360000
    },
    {
      "epoch": 3.0,
      "learning_rate": 8.471608438255649e-06,
      "loss": 2.7649,
      "step": 368000
    },
    {
      "epoch": 3.0,
      "eval_loss": 2.7705161571502686,
      "eval_runtime": 128.8577,
      "eval_samples_per_second": 801.466,
      "eval_steps_per_second": 50.094,
      "step": 368000
    },
    {
      "epoch": 3.07,
      "eval_loss": 2.782761335372925,
      "eval_runtime": 129.17,
      "eval_samples_per_second": 799.528,
      "eval_steps_per_second": 49.973,
      "step": 376000
    },
    {
      "epoch": 3.13,
      "learning_rate": 8.404902860001667e-06,
      "loss": 2.7516,
      "step": 384000
    },
    {
      "epoch": 3.13,
      "eval_loss": 2.7680482864379883,
      "eval_runtime": 128.9028,
      "eval_samples_per_second": 801.185,
      "eval_steps_per_second": 50.077,
      "step": 384000
    },
    {
      "epoch": 3.2,
      "eval_loss": 2.784294605255127,
      "eval_runtime": 128.4737,
      "eval_samples_per_second": 803.861,
      "eval_steps_per_second": 50.244,
      "step": 392000
    },
    {
      "epoch": 3.26,
      "learning_rate": 8.338197281747686e-06,
      "loss": 2.762,
      "step": 400000
    },
    {
      "epoch": 3.26,
      "eval_loss": 2.7915961742401123,
      "eval_runtime": 128.2651,
      "eval_samples_per_second": 805.168,
      "eval_steps_per_second": 50.325,
      "step": 400000
    },
    {
      "epoch": 3.33,
      "eval_loss": 2.7691826820373535,
      "eval_runtime": 128.6705,
      "eval_samples_per_second": 802.632,
      "eval_steps_per_second": 50.167,
      "step": 408000
    },
    {
      "epoch": 3.39,
      "learning_rate": 8.271491703493705e-06,
      "loss": 2.7789,
      "step": 416000
    },
    {
      "epoch": 3.39,
      "eval_loss": 2.783369302749634,
      "eval_runtime": 128.6603,
      "eval_samples_per_second": 802.695,
      "eval_steps_per_second": 50.171,
      "step": 416000
    },
    {
      "epoch": 3.46,
      "eval_loss": 2.7788405418395996,
      "eval_runtime": 129.7209,
      "eval_samples_per_second": 796.132,
      "eval_steps_per_second": 49.761,
      "step": 424000
    },
    {
      "epoch": 3.52,
      "learning_rate": 8.204786125239725e-06,
      "loss": 2.7879,
      "step": 432000
    },
    {
      "epoch": 3.52,
      "eval_loss": 2.803699493408203,
      "eval_runtime": 128.2575,
      "eval_samples_per_second": 805.216,
      "eval_steps_per_second": 50.328,
      "step": 432000
    },
    {
      "epoch": 3.59,
      "eval_loss": 2.791905403137207,
      "eval_runtime": 129.4159,
      "eval_samples_per_second": 798.009,
      "eval_steps_per_second": 49.878,
      "step": 440000
    },
    {
      "epoch": 3.65,
      "learning_rate": 8.138080546985743e-06,
      "loss": 2.7853,
      "step": 448000
    },
    {
      "epoch": 3.65,
      "eval_loss": 2.8077127933502197,
      "eval_runtime": 127.9753,
      "eval_samples_per_second": 806.992,
      "eval_steps_per_second": 50.439,
      "step": 448000
    },
    {
      "epoch": 3.72,
      "eval_loss": 2.7903032302856445,
      "eval_runtime": 128.9005,
      "eval_samples_per_second": 801.2,
      "eval_steps_per_second": 50.077,
      "step": 456000
    },
    {
      "epoch": 3.78,
      "learning_rate": 8.07137496873176e-06,
      "loss": 2.7976,
      "step": 464000
    },
    {
      "epoch": 3.78,
      "eval_loss": 2.810896158218384,
      "eval_runtime": 129.0626,
      "eval_samples_per_second": 800.193,
      "eval_steps_per_second": 50.014,
      "step": 464000
    },
    {
      "epoch": 3.85,
      "eval_loss": 2.795713424682617,
      "eval_runtime": 128.0638,
      "eval_samples_per_second": 806.434,
      "eval_steps_per_second": 50.405,
      "step": 472000
    },
    {
      "epoch": 3.91,
      "learning_rate": 8.004669390477779e-06,
      "loss": 2.789,
      "step": 480000
    },
    {
      "epoch": 3.91,
      "eval_loss": 2.8023178577423096,
      "eval_runtime": 128.1962,
      "eval_samples_per_second": 805.601,
      "eval_steps_per_second": 50.353,
      "step": 480000
    },
    {
      "epoch": 3.98,
      "eval_loss": 2.8125839233398438,
      "eval_runtime": 128.7992,
      "eval_samples_per_second": 801.83,
      "eval_steps_per_second": 50.117,
      "step": 488000
    },
    {
      "epoch": 4.04,
      "learning_rate": 7.937963812223798e-06,
      "loss": 2.8089,
      "step": 496000
    },
    {
      "epoch": 4.04,
      "eval_loss": 2.815424919128418,
      "eval_runtime": 128.7985,
      "eval_samples_per_second": 801.834,
      "eval_steps_per_second": 50.117,
      "step": 496000
    },
    {
      "epoch": 4.11,
      "eval_loss": 2.8122923374176025,
      "eval_runtime": 127.4092,
      "eval_samples_per_second": 810.577,
      "eval_steps_per_second": 50.664,
      "step": 504000
    },
    {
      "epoch": 4.17,
      "learning_rate": 7.871258233969816e-06,
      "loss": 2.7915,
      "step": 512000
    },
    {
      "epoch": 4.17,
      "eval_loss": 2.8145976066589355,
      "eval_runtime": 128.9266,
      "eval_samples_per_second": 801.037,
      "eval_steps_per_second": 50.067,
      "step": 512000
    },
    {
      "epoch": 4.24,
      "eval_loss": 2.8249683380126953,
      "eval_runtime": 129.1348,
      "eval_samples_per_second": 799.746,
      "eval_steps_per_second": 49.987,
      "step": 520000
    },
    {
      "epoch": 4.31,
      "learning_rate": 7.804552655715835e-06,
      "loss": 2.8094,
      "step": 528000
    },
    {
      "epoch": 4.31,
      "eval_loss": 2.820560932159424,
      "eval_runtime": 129.6096,
      "eval_samples_per_second": 796.816,
      "eval_steps_per_second": 49.803,
      "step": 528000
    },
    {
      "epoch": 4.37,
      "eval_loss": 2.818159341812134,
      "eval_runtime": 128.5096,
      "eval_samples_per_second": 803.637,
      "eval_steps_per_second": 50.23,
      "step": 536000
    },
    {
      "epoch": 4.44,
      "learning_rate": 7.737847077461853e-06,
      "loss": 2.8196,
      "step": 544000
    },
    {
      "epoch": 4.44,
      "eval_loss": 2.8351361751556396,
      "eval_runtime": 129.1287,
      "eval_samples_per_second": 799.783,
      "eval_steps_per_second": 49.989,
      "step": 544000
    },
    {
      "epoch": 4.5,
      "eval_loss": 2.839430570602417,
      "eval_runtime": 129.5203,
      "eval_samples_per_second": 797.365,
      "eval_steps_per_second": 49.838,
      "step": 552000
    },
    {
      "epoch": 4.57,
      "learning_rate": 7.671141499207872e-06,
      "loss": 2.8316,
      "step": 560000
    },
    {
      "epoch": 4.57,
      "eval_loss": 2.8396623134613037,
      "eval_runtime": 128.6713,
      "eval_samples_per_second": 802.627,
      "eval_steps_per_second": 50.167,
      "step": 560000
    },
    {
      "epoch": 4.63,
      "eval_loss": 2.8402562141418457,
      "eval_runtime": 128.654,
      "eval_samples_per_second": 802.735,
      "eval_steps_per_second": 50.173,
      "step": 568000
    },
    {
      "epoch": 4.7,
      "learning_rate": 7.604435920953891e-06,
      "loss": 2.8444,
      "step": 576000
    },
    {
      "epoch": 4.7,
      "eval_loss": 2.8350980281829834,
      "eval_runtime": 129.3424,
      "eval_samples_per_second": 798.462,
      "eval_steps_per_second": 49.906,
      "step": 576000
    },
    {
      "epoch": 4.76,
      "eval_loss": 2.8574254512786865,
      "eval_runtime": 129.6206,
      "eval_samples_per_second": 796.748,
      "eval_steps_per_second": 49.799,
      "step": 584000
    },
    {
      "epoch": 4.83,
      "learning_rate": 7.537730342699909e-06,
      "loss": 2.833,
      "step": 592000
    },
    {
      "epoch": 4.83,
      "eval_loss": 2.86171293258667,
      "eval_runtime": 129.2684,
      "eval_samples_per_second": 798.919,
      "eval_steps_per_second": 49.935,
      "step": 592000
    },
    {
      "epoch": 4.89,
      "eval_loss": 2.857750654220581,
      "eval_runtime": 128.5027,
      "eval_samples_per_second": 803.679,
      "eval_steps_per_second": 50.232,
      "step": 600000
    },
    {
      "epoch": 4.96,
      "learning_rate": 7.471024764445928e-06,
      "loss": 2.839,
      "step": 608000
    },
    {
      "epoch": 4.96,
      "eval_loss": 2.8577184677124023,
      "eval_runtime": 128.7081,
      "eval_samples_per_second": 802.397,
      "eval_steps_per_second": 50.152,
      "step": 608000
    },
    {
      "epoch": 5.02,
      "eval_loss": 2.8726649284362793,
      "eval_runtime": 128.6474,
      "eval_samples_per_second": 802.776,
      "eval_steps_per_second": 50.176,
      "step": 616000
    },
    {
      "epoch": 5.09,
      "learning_rate": 7.4043191861919465e-06,
      "loss": 2.8427,
      "step": 624000
    },
    {
      "epoch": 5.09,
      "eval_loss": 2.858550786972046,
      "eval_runtime": 129.0947,
      "eval_samples_per_second": 799.994,
      "eval_steps_per_second": 50.002,
      "step": 624000
    },
    {
      "epoch": 5.15,
      "eval_loss": 2.880849599838257,
      "eval_runtime": 128.221,
      "eval_samples_per_second": 805.445,
      "eval_steps_per_second": 50.343,
      "step": 632000
    },
    {
      "epoch": 5.22,
      "learning_rate": 7.337613607937964e-06,
      "loss": 2.8599,
      "step": 640000
    },
    {
      "epoch": 5.22,
      "eval_loss": 2.8959789276123047,
      "eval_runtime": 129.9831,
      "eval_samples_per_second": 794.527,
      "eval_steps_per_second": 49.66,
      "step": 640000
    },
    {
      "epoch": 5.28,
      "eval_loss": 2.8883421421051025,
      "eval_runtime": 129.4941,
      "eval_samples_per_second": 797.527,
      "eval_steps_per_second": 49.848,
      "step": 648000
    },
    {
      "epoch": 5.35,
      "learning_rate": 7.270908029683983e-06,
      "loss": 2.8694,
      "step": 656000
    },
    {
      "epoch": 5.35,
      "eval_loss": 2.8884825706481934,
      "eval_runtime": 129.3172,
      "eval_samples_per_second": 798.618,
      "eval_steps_per_second": 49.916,
      "step": 656000
    },
    {
      "epoch": 5.41,
      "eval_loss": 2.887291431427002,
      "eval_runtime": 129.1298,
      "eval_samples_per_second": 799.777,
      "eval_steps_per_second": 49.988,
      "step": 664000
    },
    {
      "epoch": 5.48,
      "learning_rate": 7.2042024514300015e-06,
      "loss": 2.8626,
      "step": 672000
    },
    {
      "epoch": 5.48,
      "eval_loss": 2.8929550647735596,
      "eval_runtime": 129.4886,
      "eval_samples_per_second": 797.56,
      "eval_steps_per_second": 49.85,
      "step": 672000
    },
    {
      "epoch": 5.54,
      "eval_loss": 2.8987772464752197,
      "eval_runtime": 129.8683,
      "eval_samples_per_second": 795.229,
      "eval_steps_per_second": 49.704,
      "step": 680000
    },
    {
      "epoch": 5.61,
      "learning_rate": 7.13749687317602e-06,
      "loss": 2.8921,
      "step": 688000
    },
    {
      "epoch": 5.61,
      "eval_loss": 2.9117259979248047,
      "eval_runtime": 128.3205,
      "eval_samples_per_second": 804.821,
      "eval_steps_per_second": 50.304,
      "step": 688000
    },
    {
      "epoch": 5.68,
      "eval_loss": 2.912231206893921,
      "eval_runtime": 128.7871,
      "eval_samples_per_second": 801.905,
      "eval_steps_per_second": 50.121,
      "step": 696000
    },
    {
      "epoch": 5.74,
      "learning_rate": 7.070791294922038e-06,
      "loss": 2.8884,
      "step": 704000
    },
    {
      "epoch": 5.74,
      "eval_loss": 2.900118827819824,
      "eval_runtime": 130.1834,
      "eval_samples_per_second": 793.304,
      "eval_steps_per_second": 49.584,
      "step": 704000
    },
    {
      "epoch": 5.81,
      "eval_loss": 2.9093644618988037,
      "eval_runtime": 129.4918,
      "eval_samples_per_second": 797.541,
      "eval_steps_per_second": 49.849,
      "step": 712000
    },
    {
      "epoch": 5.87,
      "learning_rate": 7.0040857166680564e-06,
      "loss": 2.8974,
      "step": 720000
    },
    {
      "epoch": 5.87,
      "eval_loss": 2.9110264778137207,
      "eval_runtime": 129.9051,
      "eval_samples_per_second": 795.003,
      "eval_steps_per_second": 49.69,
      "step": 720000
    },
    {
      "epoch": 5.94,
      "eval_loss": 2.9044594764709473,
      "eval_runtime": 129.2324,
      "eval_samples_per_second": 799.141,
      "eval_steps_per_second": 49.949,
      "step": 728000
    },
    {
      "epoch": 6.0,
      "learning_rate": 6.937380138414076e-06,
      "loss": 2.903,
      "step": 736000
    },
    {
      "epoch": 6.0,
      "eval_loss": 2.933678388595581,
      "eval_runtime": 130.3644,
      "eval_samples_per_second": 792.202,
      "eval_steps_per_second": 49.515,
      "step": 736000
    },
    {
      "epoch": 6.07,
      "eval_loss": 2.931581735610962,
      "eval_runtime": 128.3976,
      "eval_samples_per_second": 804.337,
      "eval_steps_per_second": 50.274,
      "step": 744000
    },
    {
      "epoch": 6.13,
      "learning_rate": 6.8706745601600945e-06,
      "loss": 2.9057,
      "step": 752000
    },
    {
      "epoch": 6.13,
      "eval_loss": 2.944746971130371,
      "eval_runtime": 128.9912,
      "eval_samples_per_second": 800.636,
      "eval_steps_per_second": 50.042,
      "step": 752000
    },
    {
      "epoch": 6.2,
      "eval_loss": 2.936281681060791,
      "eval_runtime": 129.9533,
      "eval_samples_per_second": 794.709,
      "eval_steps_per_second": 49.672,
      "step": 760000
    },
    {
      "epoch": 6.26,
      "learning_rate": 6.803968981906113e-06,
      "loss": 2.9146,
      "step": 768000
    },
    {
      "epoch": 6.26,
      "eval_loss": 2.943751096725464,
      "eval_runtime": 129.9494,
      "eval_samples_per_second": 794.732,
      "eval_steps_per_second": 49.673,
      "step": 768000
    },
    {
      "epoch": 6.33,
      "eval_loss": 2.9474806785583496,
      "eval_runtime": 130.0993,
      "eval_samples_per_second": 793.817,
      "eval_steps_per_second": 49.616,
      "step": 776000
    },
    {
      "epoch": 6.39,
      "learning_rate": 6.737263403652131e-06,
      "loss": 2.9221,
      "step": 784000
    },
    {
      "epoch": 6.39,
      "eval_loss": 2.9394171237945557,
      "eval_runtime": 129.1928,
      "eval_samples_per_second": 799.387,
      "eval_steps_per_second": 49.964,
      "step": 784000
    },
    {
      "epoch": 6.46,
      "eval_loss": 2.937087297439575,
      "eval_runtime": 129.9118,
      "eval_samples_per_second": 794.963,
      "eval_steps_per_second": 49.688,
      "step": 792000
    },
    {
      "epoch": 6.52,
      "learning_rate": 6.6705578253981495e-06,
      "loss": 2.9316,
      "step": 800000
    },
    {
      "epoch": 6.52,
      "eval_loss": 2.949429512023926,
      "eval_runtime": 129.8602,
      "eval_samples_per_second": 795.278,
      "eval_steps_per_second": 49.707,
      "step": 800000
    },
    {
      "epoch": 6.59,
      "eval_loss": 2.9727399349212646,
      "eval_runtime": 130.9441,
      "eval_samples_per_second": 788.695,
      "eval_steps_per_second": 49.296,
      "step": 808000
    },
    {
      "epoch": 6.65,
      "learning_rate": 6.603852247144168e-06,
      "loss": 2.9421,
      "step": 816000
    },
    {
      "epoch": 6.65,
      "eval_loss": 2.9758830070495605,
      "eval_runtime": 129.8861,
      "eval_samples_per_second": 795.12,
      "eval_steps_per_second": 49.697,
      "step": 816000
    },
    {
      "epoch": 6.72,
      "eval_loss": 2.966480016708374,
      "eval_runtime": 129.44,
      "eval_samples_per_second": 797.86,
      "eval_steps_per_second": 49.869,
      "step": 824000
    },
    {
      "epoch": 6.78,
      "learning_rate": 6.537146668890187e-06,
      "loss": 2.9538,
      "step": 832000
    },
    {
      "epoch": 6.78,
      "eval_loss": 2.9650251865386963,
      "eval_runtime": 129.4919,
      "eval_samples_per_second": 797.54,
      "eval_steps_per_second": 49.849,
      "step": 832000
    },
    {
      "epoch": 6.85,
      "eval_loss": 2.976144313812256,
      "eval_runtime": 129.8294,
      "eval_samples_per_second": 795.467,
      "eval_steps_per_second": 49.719,
      "step": 840000
    },
    {
      "epoch": 6.91,
      "learning_rate": 6.4704410906362044e-06,
      "loss": 2.9594,
      "step": 848000
    },
    {
      "epoch": 6.91,
      "eval_loss": 2.990086317062378,
      "eval_runtime": 129.827,
      "eval_samples_per_second": 795.482,
      "eval_steps_per_second": 49.72,
      "step": 848000
    },
    {
      "epoch": 6.98,
      "eval_loss": 2.973181962966919,
      "eval_runtime": 131.5126,
      "eval_samples_per_second": 785.286,
      "eval_steps_per_second": 49.083,
      "step": 856000
    },
    {
      "epoch": 7.05,
      "learning_rate": 6.403735512382223e-06,
      "loss": 2.9564,
      "step": 864000
    },
    {
      "epoch": 7.05,
      "eval_loss": 2.9896528720855713,
      "eval_runtime": 129.878,
      "eval_samples_per_second": 795.169,
      "eval_steps_per_second": 49.7,
      "step": 864000
    },
    {
      "epoch": 7.11,
      "eval_loss": 2.980059862136841,
      "eval_runtime": 129.5351,
      "eval_samples_per_second": 797.274,
      "eval_steps_per_second": 49.832,
      "step": 872000
    },
    {
      "epoch": 7.18,
      "learning_rate": 6.337029934128242e-06,
      "loss": 2.9561,
      "step": 880000
    },
    {
      "epoch": 7.18,
      "eval_loss": 2.983869791030884,
      "eval_runtime": 130.0357,
      "eval_samples_per_second": 794.205,
      "eval_steps_per_second": 49.64,
      "step": 880000
    },
    {
      "epoch": 7.24,
      "eval_loss": 2.9887585639953613,
      "eval_runtime": 130.015,
      "eval_samples_per_second": 794.331,
      "eval_steps_per_second": 49.648,
      "step": 888000
    },
    {
      "epoch": 7.31,
      "learning_rate": 6.270324355874261e-06,
      "loss": 2.9669,
      "step": 896000
    },
    {
      "epoch": 7.31,
      "eval_loss": 2.99999737739563,
      "eval_runtime": 130.6345,
      "eval_samples_per_second": 790.564,
      "eval_steps_per_second": 49.413,
      "step": 896000
    },
    {
      "epoch": 7.37,
      "eval_loss": 2.9786183834075928,
      "eval_runtime": 129.9739,
      "eval_samples_per_second": 794.582,
      "eval_steps_per_second": 49.664,
      "step": 904000
    },
    {
      "epoch": 7.44,
      "learning_rate": 6.20361877762028e-06,
      "loss": 2.9649,
      "step": 912000
    },
    {
      "epoch": 7.44,
      "eval_loss": 2.994581460952759,
      "eval_runtime": 131.0156,
      "eval_samples_per_second": 788.265,
      "eval_steps_per_second": 49.269,
      "step": 912000
    },
    {
      "epoch": 7.5,
      "eval_loss": 3.0002031326293945,
      "eval_runtime": 131.7355,
      "eval_samples_per_second": 783.957,
      "eval_steps_per_second": 49.0,
      "step": 920000
    },
    {
      "epoch": 7.57,
      "learning_rate": 6.1369131993662975e-06,
      "loss": 2.9665,
      "step": 928000
    },
    {
      "epoch": 7.57,
      "eval_loss": 2.9960474967956543,
      "eval_runtime": 131.6559,
      "eval_samples_per_second": 784.431,
      "eval_steps_per_second": 49.029,
      "step": 928000
    },
    {
      "epoch": 7.63,
      "eval_loss": 3.0067989826202393,
      "eval_runtime": 131.8152,
      "eval_samples_per_second": 783.483,
      "eval_steps_per_second": 48.97,
      "step": 936000
    },
    {
      "epoch": 7.7,
      "learning_rate": 6.070207621112316e-06,
      "loss": 2.9708,
      "step": 944000
    },
    {
      "epoch": 7.7,
      "eval_loss": 2.993788242340088,
      "eval_runtime": 130.3799,
      "eval_samples_per_second": 792.108,
      "eval_steps_per_second": 49.509,
      "step": 944000
    },
    {
      "epoch": 7.76,
      "eval_loss": 3.0126230716705322,
      "eval_runtime": 130.4447,
      "eval_samples_per_second": 791.715,
      "eval_steps_per_second": 49.485,
      "step": 952000
    },
    {
      "epoch": 7.83,
      "learning_rate": 6.003502042858335e-06,
      "loss": 2.981,
      "step": 960000
    },
    {
      "epoch": 7.83,
      "eval_loss": 2.9959194660186768,
      "eval_runtime": 132.0738,
      "eval_samples_per_second": 781.949,
      "eval_steps_per_second": 48.874,
      "step": 960000
    },
    {
      "epoch": 7.89,
      "eval_loss": 2.995976448059082,
      "eval_runtime": 130.9412,
      "eval_samples_per_second": 788.713,
      "eval_steps_per_second": 49.297,
      "step": 968000
    },
    {
      "epoch": 7.96,
      "learning_rate": 5.936796464604353e-06,
      "loss": 2.9805,
      "step": 976000
    },
    {
      "epoch": 7.96,
      "eval_loss": 2.991947889328003,
      "eval_runtime": 130.0819,
      "eval_samples_per_second": 793.923,
      "eval_steps_per_second": 49.623,
      "step": 976000
    },
    {
      "epoch": 8.02,
      "eval_loss": 3.0058255195617676,
      "eval_runtime": 130.7007,
      "eval_samples_per_second": 790.164,
      "eval_steps_per_second": 49.388,
      "step": 984000
    },
    {
      "epoch": 8.09,
      "learning_rate": 5.870090886350371e-06,
      "loss": 2.9705,
      "step": 992000
    },
    {
      "epoch": 8.09,
      "eval_loss": 3.0232017040252686,
      "eval_runtime": 129.9163,
      "eval_samples_per_second": 794.935,
      "eval_steps_per_second": 49.686,
      "step": 992000
    },
    {
      "epoch": 8.15,
      "eval_loss": 3.0046939849853516,
      "eval_runtime": 130.7903,
      "eval_samples_per_second": 789.623,
      "eval_steps_per_second": 49.354,
      "step": 1000000
    },
    {
      "epoch": 8.22,
      "learning_rate": 5.80338530809639e-06,
      "loss": 2.9715,
      "step": 1008000
    },
    {
      "epoch": 8.22,
      "eval_loss": 3.0068600177764893,
      "eval_runtime": 131.6119,
      "eval_samples_per_second": 784.693,
      "eval_steps_per_second": 49.046,
      "step": 1008000
    },
    {
      "epoch": 8.28,
      "eval_loss": 3.0018742084503174,
      "eval_runtime": 131.7567,
      "eval_samples_per_second": 783.831,
      "eval_steps_per_second": 48.992,
      "step": 1016000
    },
    {
      "epoch": 8.35,
      "learning_rate": 5.736679729842408e-06,
      "loss": 2.9695,
      "step": 1024000
    },
    {
      "epoch": 8.35,
      "eval_loss": 3.021596670150757,
      "eval_runtime": 131.2334,
      "eval_samples_per_second": 786.956,
      "eval_steps_per_second": 49.187,
      "step": 1024000
    },
    {
      "epoch": 8.41,
      "eval_loss": 3.0219063758850098,
      "eval_runtime": 131.6228,
      "eval_samples_per_second": 784.629,
      "eval_steps_per_second": 49.042,
      "step": 1032000
    },
    {
      "epoch": 8.48,
      "learning_rate": 5.669974151588427e-06,
      "loss": 2.9762,
      "step": 1040000
    },
    {
      "epoch": 8.48,
      "eval_loss": 3.018242597579956,
      "eval_runtime": 131.898,
      "eval_samples_per_second": 782.991,
      "eval_steps_per_second": 48.939,
      "step": 1040000
    },
    {
      "epoch": 8.55,
      "eval_loss": 3.0332210063934326,
      "eval_runtime": 132.3771,
      "eval_samples_per_second": 780.158,
      "eval_steps_per_second": 48.762,
      "step": 1048000
    },
    {
      "epoch": 8.61,
      "learning_rate": 5.603268573334446e-06,
      "loss": 2.9786,
      "step": 1056000
    },
    {
      "epoch": 8.61,
      "eval_loss": 3.001666307449341,
      "eval_runtime": 131.4368,
      "eval_samples_per_second": 785.739,
      "eval_steps_per_second": 49.111,
      "step": 1056000
    },
    {
      "epoch": 8.68,
      "eval_loss": 3.0236458778381348,
      "eval_runtime": 130.9562,
      "eval_samples_per_second": 788.622,
      "eval_steps_per_second": 49.291,
      "step": 1064000
    },
    {
      "epoch": 8.74,
      "learning_rate": 5.536562995080464e-06,
      "loss": 2.9889,
      "step": 1072000
    },
    {
      "epoch": 8.74,
      "eval_loss": 3.0273077487945557,
      "eval_runtime": 131.9047,
      "eval_samples_per_second": 782.952,
      "eval_steps_per_second": 48.937,
      "step": 1072000
    },
    {
      "epoch": 8.81,
      "eval_loss": 3.01967191696167,
      "eval_runtime": 131.9615,
      "eval_samples_per_second": 782.615,
      "eval_steps_per_second": 48.916,
      "step": 1080000
    },
    {
      "epoch": 8.87,
      "learning_rate": 5.469857416826483e-06,
      "loss": 2.9842,
      "step": 1088000
    },
    {
      "epoch": 8.87,
      "eval_loss": 3.037600040435791,
      "eval_runtime": 131.9507,
      "eval_samples_per_second": 782.679,
      "eval_steps_per_second": 48.92,
      "step": 1088000
    },
    {
      "epoch": 8.94,
      "eval_loss": 3.032285213470459,
      "eval_runtime": 131.7234,
      "eval_samples_per_second": 784.029,
      "eval_steps_per_second": 49.004,
      "step": 1096000
    },
    {
      "epoch": 9.0,
      "learning_rate": 5.403151838572501e-06,
      "loss": 2.9912,
      "step": 1104000
    },
    {
      "epoch": 9.0,
      "eval_loss": 3.031731367111206,
      "eval_runtime": 131.8868,
      "eval_samples_per_second": 783.058,
      "eval_steps_per_second": 48.944,
      "step": 1104000
    },
    {
      "epoch": 9.07,
      "eval_loss": 3.022475481033325,
      "eval_runtime": 131.0568,
      "eval_samples_per_second": 788.017,
      "eval_steps_per_second": 49.253,
      "step": 1112000
    },
    {
      "epoch": 9.13,
      "learning_rate": 5.33644626031852e-06,
      "loss": 2.9919,
      "step": 1120000
    },
    {
      "epoch": 9.13,
      "eval_loss": 3.036106824874878,
      "eval_runtime": 132.2182,
      "eval_samples_per_second": 781.095,
      "eval_steps_per_second": 48.821,
      "step": 1120000
    },
    {
      "epoch": 9.2,
      "eval_loss": 3.0432300567626953,
      "eval_runtime": 131.9088,
      "eval_samples_per_second": 782.927,
      "eval_steps_per_second": 48.935,
      "step": 1128000
    },
    {
      "epoch": 9.26,
      "learning_rate": 5.269740682064538e-06,
      "loss": 2.9872,
      "step": 1136000
    },
    {
      "epoch": 9.26,
      "eval_loss": 3.0306613445281982,
      "eval_runtime": 131.2348,
      "eval_samples_per_second": 786.948,
      "eval_steps_per_second": 49.187,
      "step": 1136000
    },
    {
      "epoch": 9.33,
      "eval_loss": 3.0481879711151123,
      "eval_runtime": 131.7205,
      "eval_samples_per_second": 784.046,
      "eval_steps_per_second": 49.005,
      "step": 1144000
    },
    {
      "epoch": 9.39,
      "learning_rate": 5.203035103810556e-06,
      "loss": 2.9823,
      "step": 1152000
    },
    {
      "epoch": 9.39,
      "eval_loss": 3.035399913787842,
      "eval_runtime": 131.2188,
      "eval_samples_per_second": 787.044,
      "eval_steps_per_second": 49.193,
      "step": 1152000
    },
    {
      "epoch": 9.46,
      "eval_loss": 3.0419015884399414,
      "eval_runtime": 131.8024,
      "eval_samples_per_second": 783.559,
      "eval_steps_per_second": 48.975,
      "step": 1160000
    },
    {
      "epoch": 9.52,
      "learning_rate": 5.136329525556575e-06,
      "loss": 2.9882,
      "step": 1168000
    },
    {
      "epoch": 9.52,
      "eval_loss": 3.0567431449890137,
      "eval_runtime": 132.7773,
      "eval_samples_per_second": 777.806,
      "eval_steps_per_second": 48.615,
      "step": 1168000
    },
    {
      "epoch": 9.59,
      "eval_loss": 3.0395400524139404,
      "eval_runtime": 131.6554,
      "eval_samples_per_second": 784.434,
      "eval_steps_per_second": 49.03,
      "step": 1176000
    },
    {
      "epoch": 9.65,
      "learning_rate": 5.0696239473025935e-06,
      "loss": 3.0079,
      "step": 1184000
    },
    {
      "epoch": 9.65,
      "eval_loss": 3.0572261810302734,
      "eval_runtime": 132.0184,
      "eval_samples_per_second": 782.278,
      "eval_steps_per_second": 48.895,
      "step": 1184000
    },
    {
      "epoch": 9.72,
      "eval_loss": 3.04028058052063,
      "eval_runtime": 131.8056,
      "eval_samples_per_second": 783.54,
      "eval_steps_per_second": 48.974,
      "step": 1192000
    },
    {
      "epoch": 9.78,
      "learning_rate": 5.002918369048611e-06,
      "loss": 3.0243,
      "step": 1200000
    },
    {
      "epoch": 9.78,
      "eval_loss": 3.047227621078491,
      "eval_runtime": 131.9863,
      "eval_samples_per_second": 782.467,
      "eval_steps_per_second": 48.907,
      "step": 1200000
    },
    {
      "epoch": 9.85,
      "eval_loss": 3.052279472351074,
      "eval_runtime": 132.2017,
      "eval_samples_per_second": 781.193,
      "eval_steps_per_second": 48.827,
      "step": 1208000
    },
    {
      "epoch": 9.92,
      "learning_rate": 4.936212790794631e-06,
      "loss": 3.0127,
      "step": 1216000
    },
    {
      "epoch": 9.92,
      "eval_loss": 3.053439140319824,
      "eval_runtime": 131.3363,
      "eval_samples_per_second": 786.34,
      "eval_steps_per_second": 49.149,
      "step": 1216000
    },
    {
      "epoch": 9.98,
      "eval_loss": 3.0434141159057617,
      "eval_runtime": 131.7363,
      "eval_samples_per_second": 783.952,
      "eval_steps_per_second": 48.999,
      "step": 1224000
    },
    {
      "epoch": 10.05,
      "learning_rate": 4.869507212540649e-06,
      "loss": 3.0106,
      "step": 1232000
    },
    {
      "epoch": 10.05,
      "eval_loss": 3.0687036514282227,
      "eval_runtime": 131.4287,
      "eval_samples_per_second": 785.788,
      "eval_steps_per_second": 49.114,
      "step": 1232000
    },
    {
      "epoch": 10.11,
      "eval_loss": 3.0677733421325684,
      "eval_runtime": 132.6312,
      "eval_samples_per_second": 778.663,
      "eval_steps_per_second": 48.669,
      "step": 1240000
    },
    {
      "epoch": 10.18,
      "learning_rate": 4.802801634286667e-06,
      "loss": 3.0063,
      "step": 1248000
    },
    {
      "epoch": 10.18,
      "eval_loss": 3.0652401447296143,
      "eval_runtime": 132.5035,
      "eval_samples_per_second": 779.413,
      "eval_steps_per_second": 48.716,
      "step": 1248000
    },
    {
      "epoch": 10.24,
      "eval_loss": 3.0768234729766846,
      "eval_runtime": 131.7104,
      "eval_samples_per_second": 784.107,
      "eval_steps_per_second": 49.009,
      "step": 1256000
    },
    {
      "epoch": 10.31,
      "learning_rate": 4.7360960560326865e-06,
      "loss": 3.0187,
      "step": 1264000
    },
    {
      "epoch": 10.31,
      "eval_loss": 3.069179058074951,
      "eval_runtime": 132.7895,
      "eval_samples_per_second": 777.735,
      "eval_steps_per_second": 48.611,
      "step": 1264000
    },
    {
      "epoch": 10.37,
      "eval_loss": 3.0621213912963867,
      "eval_runtime": 132.041,
      "eval_samples_per_second": 782.144,
      "eval_steps_per_second": 48.886,
      "step": 1272000
    },
    {
      "epoch": 10.44,
      "learning_rate": 4.669390477778704e-06,
      "loss": 3.0202,
      "step": 1280000
    },
    {
      "epoch": 10.44,
      "eval_loss": 3.0663187503814697,
      "eval_runtime": 132.2635,
      "eval_samples_per_second": 780.828,
      "eval_steps_per_second": 48.804,
      "step": 1280000
    },
    {
      "epoch": 10.5,
      "eval_loss": 3.0537171363830566,
      "eval_runtime": 132.2536,
      "eval_samples_per_second": 780.886,
      "eval_steps_per_second": 48.808,
      "step": 1288000
    },
    {
      "epoch": 10.57,
      "learning_rate": 4.602684899524723e-06,
      "loss": 3.0219,
      "step": 1296000
    },
    {
      "epoch": 10.57,
      "eval_loss": 3.072500705718994,
      "eval_runtime": 132.0295,
      "eval_samples_per_second": 782.212,
      "eval_steps_per_second": 48.891,
      "step": 1296000
    },
    {
      "epoch": 10.63,
      "eval_loss": 3.0664169788360596,
      "eval_runtime": 131.9651,
      "eval_samples_per_second": 782.593,
      "eval_steps_per_second": 48.914,
      "step": 1304000
    },
    {
      "epoch": 10.7,
      "learning_rate": 4.5359793212707415e-06,
      "loss": 3.0232,
      "step": 1312000
    },
    {
      "epoch": 10.7,
      "eval_loss": 3.0724074840545654,
      "eval_runtime": 133.2104,
      "eval_samples_per_second": 775.277,
      "eval_steps_per_second": 48.457,
      "step": 1312000
    },
    {
      "epoch": 10.76,
      "eval_loss": 3.0476126670837402,
      "eval_runtime": 132.7171,
      "eval_samples_per_second": 778.159,
      "eval_steps_per_second": 48.637,
      "step": 1320000
    },
    {
      "epoch": 10.83,
      "learning_rate": 4.46927374301676e-06,
      "loss": 3.0247,
      "step": 1328000
    },
    {
      "epoch": 10.83,
      "eval_loss": 3.0729353427886963,
      "eval_runtime": 132.4018,
      "eval_samples_per_second": 780.012,
      "eval_steps_per_second": 48.753,
      "step": 1328000
    },
    {
      "epoch": 10.89,
      "eval_loss": 3.0645902156829834,
      "eval_runtime": 133.3334,
      "eval_samples_per_second": 774.562,
      "eval_steps_per_second": 48.412,
      "step": 1336000
    },
    {
      "epoch": 10.96,
      "learning_rate": 4.402568164762779e-06,
      "loss": 3.0335,
      "step": 1344000
    },
    {
      "epoch": 10.96,
      "eval_loss": 3.0603559017181396,
      "eval_runtime": 131.9232,
      "eval_samples_per_second": 782.842,
      "eval_steps_per_second": 48.93,
      "step": 1344000
    },
    {
      "epoch": 11.02,
      "eval_loss": 3.0630509853363037,
      "eval_runtime": 132.4502,
      "eval_samples_per_second": 779.727,
      "eval_steps_per_second": 48.735,
      "step": 1352000
    },
    {
      "epoch": 11.09,
      "learning_rate": 4.335862586508797e-06,
      "loss": 3.0182,
      "step": 1360000
    },
    {
      "epoch": 11.09,
      "eval_loss": 3.0669026374816895,
      "eval_runtime": 133.3499,
      "eval_samples_per_second": 774.466,
      "eval_steps_per_second": 48.406,
      "step": 1360000
    },
    {
      "epoch": 11.15,
      "eval_loss": 3.0626471042633057,
      "eval_runtime": 133.0041,
      "eval_samples_per_second": 776.48,
      "eval_steps_per_second": 48.532,
      "step": 1368000
    },
    {
      "epoch": 11.22,
      "learning_rate": 4.269157008254816e-06,
      "loss": 3.0124,
      "step": 1376000
    },
    {
      "epoch": 11.22,
      "eval_loss": 3.053469181060791,
      "eval_runtime": 133.5969,
      "eval_samples_per_second": 773.034,
      "eval_steps_per_second": 48.317,
      "step": 1376000
    },
    {
      "epoch": 11.29,
      "eval_loss": 3.076792001724243,
      "eval_runtime": 133.0672,
      "eval_samples_per_second": 776.112,
      "eval_steps_per_second": 48.509,
      "step": 1384000
    },
    {
      "epoch": 11.35,
      "learning_rate": 4.202451430000834e-06,
      "loss": 3.016,
      "step": 1392000
    },
    {
      "epoch": 11.35,
      "eval_loss": 3.0615081787109375,
      "eval_runtime": 133.9693,
      "eval_samples_per_second": 770.886,
      "eval_steps_per_second": 48.183,
      "step": 1392000
    },
    {
      "epoch": 11.42,
      "eval_loss": 3.0689148902893066,
      "eval_runtime": 134.418,
      "eval_samples_per_second": 768.312,
      "eval_steps_per_second": 48.022,
      "step": 1400000
    },
    {
      "epoch": 11.48,
      "learning_rate": 4.135745851746852e-06,
      "loss": 3.0133,
      "step": 1408000
    },
    {
      "epoch": 11.48,
      "eval_loss": 3.069943428039551,
      "eval_runtime": 133.7409,
      "eval_samples_per_second": 772.202,
      "eval_steps_per_second": 48.265,
      "step": 1408000
    },
    {
      "epoch": 11.55,
      "eval_loss": 3.0647213459014893,
      "eval_runtime": 134.5422,
      "eval_samples_per_second": 767.603,
      "eval_steps_per_second": 47.977,
      "step": 1416000
    },
    {
      "epoch": 11.61,
      "learning_rate": 4.069040273492872e-06,
      "loss": 3.0227,
      "step": 1424000
    },
    {
      "epoch": 11.61,
      "eval_loss": 3.0704684257507324,
      "eval_runtime": 135.8934,
      "eval_samples_per_second": 759.97,
      "eval_steps_per_second": 47.5,
      "step": 1424000
    },
    {
      "epoch": 11.68,
      "eval_loss": 3.0705504417419434,
      "eval_runtime": 133.4155,
      "eval_samples_per_second": 774.086,
      "eval_steps_per_second": 48.383,
      "step": 1432000
    },
    {
      "epoch": 11.74,
      "learning_rate": 4.0023346952388895e-06,
      "loss": 3.0267,
      "step": 1440000
    },
    {
      "epoch": 11.74,
      "eval_loss": 3.069384813308716,
      "eval_runtime": 133.2021,
      "eval_samples_per_second": 775.326,
      "eval_steps_per_second": 48.46,
      "step": 1440000
    },
    {
      "epoch": 11.81,
      "eval_loss": 3.0720527172088623,
      "eval_runtime": 133.9349,
      "eval_samples_per_second": 771.083,
      "eval_steps_per_second": 48.195,
      "step": 1448000
    },
    {
      "epoch": 11.87,
      "learning_rate": 3.935629116984908e-06,
      "loss": 3.021,
      "step": 1456000
    },
    {
      "epoch": 11.87,
      "eval_loss": 3.068966865539551,
      "eval_runtime": 132.597,
      "eval_samples_per_second": 778.864,
      "eval_steps_per_second": 48.681,
      "step": 1456000
    },
    {
      "epoch": 11.94,
      "eval_loss": 3.060349702835083,
      "eval_runtime": 134.1972,
      "eval_samples_per_second": 769.576,
      "eval_steps_per_second": 48.101,
      "step": 1464000
    },
    {
      "epoch": 12.0,
      "learning_rate": 3.868923538730927e-06,
      "loss": 3.0144,
      "step": 1472000
    },
    {
      "epoch": 12.0,
      "eval_loss": 3.065760374069214,
      "eval_runtime": 134.4544,
      "eval_samples_per_second": 768.104,
      "eval_steps_per_second": 48.009,
      "step": 1472000
    },
    {
      "epoch": 12.07,
      "eval_loss": 3.0719916820526123,
      "eval_runtime": 133.6199,
      "eval_samples_per_second": 772.902,
      "eval_steps_per_second": 48.309,
      "step": 1480000
    },
    {
      "epoch": 12.13,
      "learning_rate": 3.8022179604769453e-06,
      "loss": 3.0204,
      "step": 1488000
    },
    {
      "epoch": 12.13,
      "eval_loss": 3.066779851913452,
      "eval_runtime": 133.3793,
      "eval_samples_per_second": 774.296,
      "eval_steps_per_second": 48.396,
      "step": 1488000
    },
    {
      "epoch": 12.2,
      "eval_loss": 3.0773117542266846,
      "eval_runtime": 135.2249,
      "eval_samples_per_second": 763.728,
      "eval_steps_per_second": 47.735,
      "step": 1496000
    },
    {
      "epoch": 12.26,
      "learning_rate": 3.735512382222964e-06,
      "loss": 3.0085,
      "step": 1504000
    },
    {
      "epoch": 12.26,
      "eval_loss": 3.0847675800323486,
      "eval_runtime": 133.4406,
      "eval_samples_per_second": 773.94,
      "eval_steps_per_second": 48.374,
      "step": 1504000
    },
    {
      "epoch": 12.33,
      "eval_loss": 3.0567853450775146,
      "eval_runtime": 136.5184,
      "eval_samples_per_second": 756.492,
      "eval_steps_per_second": 47.283,
      "step": 1512000
    },
    {
      "epoch": 12.39,
      "learning_rate": 3.668806803968982e-06,
      "loss": 3.0146,
      "step": 1520000
    },
    {
      "epoch": 12.39,
      "eval_loss": 3.0783281326293945,
      "eval_runtime": 134.8805,
      "eval_samples_per_second": 765.678,
      "eval_steps_per_second": 47.857,
      "step": 1520000
    },
    {
      "epoch": 12.46,
      "eval_loss": 3.073552370071411,
      "eval_runtime": 133.8542,
      "eval_samples_per_second": 771.549,
      "eval_steps_per_second": 48.224,
      "step": 1528000
    },
    {
      "epoch": 12.52,
      "learning_rate": 3.6021012257150007e-06,
      "loss": 3.02,
      "step": 1536000
    },
    {
      "epoch": 12.52,
      "eval_loss": 3.0533952713012695,
      "eval_runtime": 133.5934,
      "eval_samples_per_second": 773.055,
      "eval_steps_per_second": 48.318,
      "step": 1536000
    },
    {
      "epoch": 12.59,
      "eval_loss": 3.0684494972229004,
      "eval_runtime": 133.2901,
      "eval_samples_per_second": 774.814,
      "eval_steps_per_second": 48.428,
      "step": 1544000
    },
    {
      "epoch": 12.65,
      "learning_rate": 3.535395647461019e-06,
      "loss": 3.0229,
      "step": 1552000
    },
    {
      "epoch": 12.65,
      "eval_loss": 3.07673978805542,
      "eval_runtime": 134.115,
      "eval_samples_per_second": 770.048,
      "eval_steps_per_second": 48.13,
      "step": 1552000
    },
    {
      "epoch": 12.72,
      "eval_loss": 3.0568747520446777,
      "eval_runtime": 134.3484,
      "eval_samples_per_second": 768.71,
      "eval_steps_per_second": 48.047,
      "step": 1560000
    },
    {
      "epoch": 12.79,
      "learning_rate": 3.468690069207038e-06,
      "loss": 3.0152,
      "step": 1568000
    },
    {
      "epoch": 12.79,
      "eval_loss": 3.0787863731384277,
      "eval_runtime": 133.764,
      "eval_samples_per_second": 772.068,
      "eval_steps_per_second": 48.257,
      "step": 1568000
    },
    {
      "epoch": 12.85,
      "eval_loss": 3.066344738006592,
      "eval_runtime": 133.9216,
      "eval_samples_per_second": 771.16,
      "eval_steps_per_second": 48.2,
      "step": 1576000
    },
    {
      "epoch": 12.92,
      "learning_rate": 3.4019844909530565e-06,
      "loss": 3.02,
      "step": 1584000
    },
    {
      "epoch": 12.92,
      "eval_loss": 3.067016839981079,
      "eval_runtime": 133.9971,
      "eval_samples_per_second": 770.725,
      "eval_steps_per_second": 48.173,
      "step": 1584000
    },
    {
      "epoch": 12.98,
      "eval_loss": 3.0683343410491943,
      "eval_runtime": 134.2208,
      "eval_samples_per_second": 769.441,
      "eval_steps_per_second": 48.092,
      "step": 1592000
    },
    {
      "epoch": 13.05,
      "learning_rate": 3.3352789126990747e-06,
      "loss": 3.0128,
      "step": 1600000
    },
    {
      "epoch": 13.05,
      "eval_loss": 3.071779489517212,
      "eval_runtime": 134.2033,
      "eval_samples_per_second": 769.541,
      "eval_steps_per_second": 48.099,
      "step": 1600000
    },
    {
      "epoch": 13.11,
      "eval_loss": 3.0846707820892334,
      "eval_runtime": 134.6625,
      "eval_samples_per_second": 766.917,
      "eval_steps_per_second": 47.935,
      "step": 1608000
    },
    {
      "epoch": 13.18,
      "learning_rate": 3.2685733344450933e-06,
      "loss": 3.016,
      "step": 1616000
    },
    {
      "epoch": 13.18,
      "eval_loss": 3.066356897354126,
      "eval_runtime": 134.4556,
      "eval_samples_per_second": 768.097,
      "eval_steps_per_second": 48.008,
      "step": 1616000
    },
    {
      "epoch": 13.24,
      "eval_loss": 3.0687520503997803,
      "eval_runtime": 134.3299,
      "eval_samples_per_second": 768.816,
      "eval_steps_per_second": 48.053,
      "step": 1624000
    },
    {
      "epoch": 13.31,
      "learning_rate": 3.2018677561911115e-06,
      "loss": 3.0007,
      "step": 1632000
    },
    {
      "epoch": 13.31,
      "eval_loss": 3.0740671157836914,
      "eval_runtime": 134.4424,
      "eval_samples_per_second": 768.173,
      "eval_steps_per_second": 48.013,
      "step": 1632000
    },
    {
      "epoch": 13.37,
      "eval_loss": 3.0663323402404785,
      "eval_runtime": 134.2383,
      "eval_samples_per_second": 769.341,
      "eval_steps_per_second": 48.086,
      "step": 1640000
    },
    {
      "epoch": 13.44,
      "learning_rate": 3.1351621779371306e-06,
      "loss": 3.0241,
      "step": 1648000
    },
    {
      "epoch": 13.44,
      "eval_loss": 3.0607213973999023,
      "eval_runtime": 134.0502,
      "eval_samples_per_second": 770.42,
      "eval_steps_per_second": 48.154,
      "step": 1648000
    },
    {
      "epoch": 13.5,
      "eval_loss": 3.0635085105895996,
      "eval_runtime": 133.9453,
      "eval_samples_per_second": 771.024,
      "eval_steps_per_second": 48.191,
      "step": 1656000
    },
    {
      "epoch": 13.57,
      "learning_rate": 3.0684565996831487e-06,
      "loss": 3.0103,
      "step": 1664000
    },
    {
      "epoch": 13.57,
      "eval_loss": 3.0730724334716797,
      "eval_runtime": 135.0683,
      "eval_samples_per_second": 764.613,
      "eval_steps_per_second": 47.791,
      "step": 1664000
    },
    {
      "epoch": 13.63,
      "eval_loss": 3.0649466514587402,
      "eval_runtime": 134.138,
      "eval_samples_per_second": 769.916,
      "eval_steps_per_second": 48.122,
      "step": 1672000
    },
    {
      "epoch": 13.7,
      "learning_rate": 3.0017510214291673e-06,
      "loss": 3.0188,
      "step": 1680000
    },
    {
      "epoch": 13.7,
      "eval_loss": 3.058675765991211,
      "eval_runtime": 134.4659,
      "eval_samples_per_second": 768.039,
      "eval_steps_per_second": 48.005,
      "step": 1680000
    },
    {
      "epoch": 13.76,
      "eval_loss": 3.0703861713409424,
      "eval_runtime": 134.1628,
      "eval_samples_per_second": 769.773,
      "eval_steps_per_second": 48.113,
      "step": 1688000
    },
    {
      "epoch": 13.83,
      "learning_rate": 2.9350454431751855e-06,
      "loss": 3.0217,
      "step": 1696000
    },
    {
      "epoch": 13.83,
      "eval_loss": 3.066443920135498,
      "eval_runtime": 135.8944,
      "eval_samples_per_second": 759.965,
      "eval_steps_per_second": 47.5,
      "step": 1696000
    },
    {
      "epoch": 13.89,
      "eval_loss": 3.0626626014709473,
      "eval_runtime": 135.45,
      "eval_samples_per_second": 762.458,
      "eval_steps_per_second": 47.656,
      "step": 1704000
    },
    {
      "epoch": 13.96,
      "learning_rate": 2.868339864921204e-06,
      "loss": 3.0282,
      "step": 1712000
    },
    {
      "epoch": 13.96,
      "eval_loss": 3.071357488632202,
      "eval_runtime": 134.3182,
      "eval_samples_per_second": 768.883,
      "eval_steps_per_second": 48.058,
      "step": 1712000
    },
    {
      "epoch": 14.02,
      "eval_loss": 3.0688371658325195,
      "eval_runtime": 135.2782,
      "eval_samples_per_second": 763.427,
      "eval_steps_per_second": 47.716,
      "step": 1720000
    },
    {
      "epoch": 14.09,
      "learning_rate": 2.801634286667223e-06,
      "loss": 3.0166,
      "step": 1728000
    },
    {
      "epoch": 14.09,
      "eval_loss": 3.05212664604187,
      "eval_runtime": 135.0648,
      "eval_samples_per_second": 764.633,
      "eval_steps_per_second": 47.792,
      "step": 1728000
    },
    {
      "epoch": 14.16,
      "eval_loss": 3.0538179874420166,
      "eval_runtime": 134.2844,
      "eval_samples_per_second": 769.076,
      "eval_steps_per_second": 48.07,
      "step": 1736000
    },
    {
      "epoch": 14.22,
      "learning_rate": 2.7349287084132413e-06,
      "loss": 3.0134,
      "step": 1744000
    },
    {
      "epoch": 14.22,
      "eval_loss": 3.064086437225342,
      "eval_runtime": 135.4053,
      "eval_samples_per_second": 762.71,
      "eval_steps_per_second": 47.672,
      "step": 1744000
    },
    {
      "epoch": 14.29,
      "eval_loss": 3.063884735107422,
      "eval_runtime": 134.2537,
      "eval_samples_per_second": 769.253,
      "eval_steps_per_second": 48.081,
      "step": 1752000
    },
    {
      "epoch": 14.35,
      "learning_rate": 2.66822313015926e-06,
      "loss": 3.0032,
      "step": 1760000
    },
    {
      "epoch": 14.35,
      "eval_loss": 3.0587823390960693,
      "eval_runtime": 135.0451,
      "eval_samples_per_second": 764.745,
      "eval_steps_per_second": 47.799,
      "step": 1760000
    },
    {
      "epoch": 14.42,
      "eval_loss": 3.064620018005371,
      "eval_runtime": 134.9837,
      "eval_samples_per_second": 765.092,
      "eval_steps_per_second": 47.821,
      "step": 1768000
    },
    {
      "epoch": 14.48,
      "learning_rate": 2.601517551905278e-06,
      "loss": 3.0136,
      "step": 1776000
    },
    {
      "epoch": 14.48,
      "eval_loss": 3.062889337539673,
      "eval_runtime": 134.9119,
      "eval_samples_per_second": 765.499,
      "eval_steps_per_second": 47.846,
      "step": 1776000
    },
    {
      "epoch": 14.55,
      "eval_loss": 3.0578110218048096,
      "eval_runtime": 136.5221,
      "eval_samples_per_second": 756.471,
      "eval_steps_per_second": 47.282,
      "step": 1784000
    },
    {
      "epoch": 14.61,
      "learning_rate": 2.5348119736512967e-06,
      "loss": 3.0086,
      "step": 1792000
    },
    {
      "epoch": 14.61,
      "eval_loss": 3.0528934001922607,
      "eval_runtime": 135.6145,
      "eval_samples_per_second": 761.534,
      "eval_steps_per_second": 47.598,
      "step": 1792000
    },
    {
      "epoch": 14.68,
      "eval_loss": 3.0615251064300537,
      "eval_runtime": 135.3281,
      "eval_samples_per_second": 763.145,
      "eval_steps_per_second": 47.699,
      "step": 1800000
    },
    {
      "epoch": 14.74,
      "learning_rate": 2.4681063953973154e-06,
      "loss": 3.019,
      "step": 1808000
    },
    {
      "epoch": 14.74,
      "eval_loss": 3.0565857887268066,
      "eval_runtime": 134.9377,
      "eval_samples_per_second": 765.353,
      "eval_steps_per_second": 47.837,
      "step": 1808000
    },
    {
      "epoch": 14.81,
      "eval_loss": 3.0658679008483887,
      "eval_runtime": 135.2159,
      "eval_samples_per_second": 763.778,
      "eval_steps_per_second": 47.738,
      "step": 1816000
    },
    {
      "epoch": 14.87,
      "learning_rate": 2.4014008171433335e-06,
      "loss": 3.024,
      "step": 1824000
    },
    {
      "epoch": 14.87,
      "eval_loss": 3.061464786529541,
      "eval_runtime": 135.2789,
      "eval_samples_per_second": 763.423,
      "eval_steps_per_second": 47.716,
      "step": 1824000
    },
    {
      "epoch": 14.94,
      "eval_loss": 3.0530033111572266,
      "eval_runtime": 135.9081,
      "eval_samples_per_second": 759.889,
      "eval_steps_per_second": 47.495,
      "step": 1832000
    },
    {
      "epoch": 15.0,
      "learning_rate": 2.334695238889352e-06,
      "loss": 3.0089,
      "step": 1840000
    },
    {
      "epoch": 15.0,
      "eval_loss": 3.0796985626220703,
      "eval_runtime": 135.2715,
      "eval_samples_per_second": 763.465,
      "eval_steps_per_second": 47.719,
      "step": 1840000
    },
    {
      "epoch": 15.07,
      "eval_loss": 3.0700411796569824,
      "eval_runtime": 136.6273,
      "eval_samples_per_second": 755.888,
      "eval_steps_per_second": 47.245,
      "step": 1848000
    },
    {
      "epoch": 15.13,
      "learning_rate": 2.2679896606353707e-06,
      "loss": 3.0174,
      "step": 1856000
    },
    {
      "epoch": 15.13,
      "eval_loss": 3.0748071670532227,
      "eval_runtime": 136.44,
      "eval_samples_per_second": 756.926,
      "eval_steps_per_second": 47.31,
      "step": 1856000
    },
    {
      "epoch": 15.2,
      "eval_loss": 3.064267635345459,
      "eval_runtime": 135.3728,
      "eval_samples_per_second": 762.894,
      "eval_steps_per_second": 47.683,
      "step": 1864000
    },
    {
      "epoch": 15.26,
      "learning_rate": 2.2012840823813894e-06,
      "loss": 3.0176,
      "step": 1872000
    },
    {
      "epoch": 15.26,
      "eval_loss": 3.0627517700195312,
      "eval_runtime": 135.5713,
      "eval_samples_per_second": 761.776,
      "eval_steps_per_second": 47.613,
      "step": 1872000
    },
    {
      "epoch": 15.33,
      "eval_loss": 3.0629563331604004,
      "eval_runtime": 135.894,
      "eval_samples_per_second": 759.967,
      "eval_steps_per_second": 47.5,
      "step": 1880000
    },
    {
      "epoch": 15.39,
      "learning_rate": 2.134578504127408e-06,
      "loss": 3.0164,
      "step": 1888000
    },
    {
      "epoch": 15.39,
      "eval_loss": 3.0721538066864014,
      "eval_runtime": 135.9329,
      "eval_samples_per_second": 759.75,
      "eval_steps_per_second": 47.487,
      "step": 1888000
    },
    {
      "epoch": 15.46,
      "eval_loss": 3.0744197368621826,
      "eval_runtime": 135.4506,
      "eval_samples_per_second": 762.455,
      "eval_steps_per_second": 47.656,
      "step": 1896000
    },
    {
      "epoch": 15.53,
      "learning_rate": 2.067872925873426e-06,
      "loss": 3.0302,
      "step": 1904000
    },
    {
      "epoch": 15.53,
      "eval_loss": 3.0739452838897705,
      "eval_runtime": 135.8281,
      "eval_samples_per_second": 760.336,
      "eval_steps_per_second": 47.523,
      "step": 1904000
    },
    {
      "epoch": 15.59,
      "eval_loss": 3.0700225830078125,
      "eval_runtime": 136.0724,
      "eval_samples_per_second": 758.971,
      "eval_steps_per_second": 47.438,
      "step": 1912000
    },
    {
      "epoch": 15.66,
      "learning_rate": 2.0011673476194448e-06,
      "loss": 3.0204,
      "step": 1920000
    },
    {
      "epoch": 15.66,
      "eval_loss": 3.0751476287841797,
      "eval_runtime": 136.119,
      "eval_samples_per_second": 758.711,
      "eval_steps_per_second": 47.422,
      "step": 1920000
    },
    {
      "epoch": 15.72,
      "eval_loss": 3.0597870349884033,
      "eval_runtime": 136.3427,
      "eval_samples_per_second": 757.466,
      "eval_steps_per_second": 47.344,
      "step": 1928000
    },
    {
      "epoch": 15.79,
      "learning_rate": 1.9344617693654634e-06,
      "loss": 3.0147,
      "step": 1936000
    },
    {
      "epoch": 15.79,
      "eval_loss": 3.0522122383117676,
      "eval_runtime": 136.0082,
      "eval_samples_per_second": 759.329,
      "eval_steps_per_second": 47.46,
      "step": 1936000
    },
    {
      "epoch": 15.85,
      "eval_loss": 3.065509557723999,
      "eval_runtime": 136.1421,
      "eval_samples_per_second": 758.582,
      "eval_steps_per_second": 47.414,
      "step": 1944000
    },
    {
      "epoch": 15.92,
      "learning_rate": 1.867756191111482e-06,
      "loss": 3.0245,
      "step": 1952000
    },
    {
      "epoch": 15.92,
      "eval_loss": 3.0568597316741943,
      "eval_runtime": 136.6776,
      "eval_samples_per_second": 755.61,
      "eval_steps_per_second": 47.228,
      "step": 1952000
    },
    {
      "epoch": 15.98,
      "eval_loss": 3.062300205230713,
      "eval_runtime": 136.0258,
      "eval_samples_per_second": 759.231,
      "eval_steps_per_second": 47.454,
      "step": 1960000
    },
    {
      "epoch": 16.05,
      "learning_rate": 1.8010506128575004e-06,
      "loss": 3.0069,
      "step": 1968000
    },
    {
      "epoch": 16.05,
      "eval_loss": 3.059983730316162,
      "eval_runtime": 136.4638,
      "eval_samples_per_second": 756.794,
      "eval_steps_per_second": 47.302,
      "step": 1968000
    },
    {
      "epoch": 16.11,
      "eval_loss": 3.0638678073883057,
      "eval_runtime": 137.569,
      "eval_samples_per_second": 750.714,
      "eval_steps_per_second": 46.922,
      "step": 1976000
    },
    {
      "epoch": 16.18,
      "learning_rate": 1.734345034603519e-06,
      "loss": 3.0068,
      "step": 1984000
    },
    {
      "epoch": 16.18,
      "eval_loss": 3.077465534210205,
      "eval_runtime": 136.0507,
      "eval_samples_per_second": 759.092,
      "eval_steps_per_second": 47.446,
      "step": 1984000
    },
    {
      "epoch": 16.24,
      "eval_loss": 3.0668864250183105,
      "eval_runtime": 136.2552,
      "eval_samples_per_second": 757.953,
      "eval_steps_per_second": 47.374,
      "step": 1992000
    },
    {
      "epoch": 16.31,
      "learning_rate": 1.6676394563495374e-06,
      "loss": 3.0275,
      "step": 2000000
    },
    {
      "epoch": 16.31,
      "eval_loss": 3.062725782394409,
      "eval_runtime": 136.3436,
      "eval_samples_per_second": 757.461,
      "eval_steps_per_second": 47.344,
      "step": 2000000
    },
    {
      "epoch": 16.37,
      "eval_loss": 3.0644514560699463,
      "eval_runtime": 137.752,
      "eval_samples_per_second": 749.717,
      "eval_steps_per_second": 46.86,
      "step": 2008000
    },
    {
      "epoch": 16.44,
      "learning_rate": 1.6009338780955558e-06,
      "loss": 3.0164,
      "step": 2016000
    },
    {
      "epoch": 16.44,
      "eval_loss": 3.0666866302490234,
      "eval_runtime": 135.9171,
      "eval_samples_per_second": 759.838,
      "eval_steps_per_second": 47.492,
      "step": 2016000
    },
    {
      "epoch": 16.5,
      "eval_loss": 3.048987627029419,
      "eval_runtime": 136.0156,
      "eval_samples_per_second": 759.288,
      "eval_steps_per_second": 47.458,
      "step": 2024000
    },
    {
      "epoch": 16.57,
      "learning_rate": 1.5342282998415744e-06,
      "loss": 3.0148,
      "step": 2032000
    },
    {
      "epoch": 16.57,
      "eval_loss": 3.061800003051758,
      "eval_runtime": 137.187,
      "eval_samples_per_second": 752.805,
      "eval_steps_per_second": 47.053,
      "step": 2032000
    },
    {
      "epoch": 16.63,
      "eval_loss": 3.0544731616973877,
      "eval_runtime": 137.5014,
      "eval_samples_per_second": 751.083,
      "eval_steps_per_second": 46.945,
      "step": 2040000
    },
    {
      "epoch": 16.7,
      "learning_rate": 1.4675227215875928e-06,
      "loss": 3.022,
      "step": 2048000
    },
    {
      "epoch": 16.7,
      "eval_loss": 3.0651352405548096,
      "eval_runtime": 137.0124,
      "eval_samples_per_second": 753.764,
      "eval_steps_per_second": 47.113,
      "step": 2048000
    },
    {
      "epoch": 16.76,
      "eval_loss": 3.068650484085083,
      "eval_runtime": 137.324,
      "eval_samples_per_second": 752.053,
      "eval_steps_per_second": 47.006,
      "step": 2056000
    },
    {
      "epoch": 16.83,
      "learning_rate": 1.4008171433336116e-06,
      "loss": 3.0235,
      "step": 2064000
    },
    {
      "epoch": 16.83,
      "eval_loss": 3.0515873432159424,
      "eval_runtime": 137.8405,
      "eval_samples_per_second": 749.235,
      "eval_steps_per_second": 46.829,
      "step": 2064000
    },
    {
      "epoch": 16.89,
      "eval_loss": 3.0761473178863525,
      "eval_runtime": 137.435,
      "eval_samples_per_second": 751.446,
      "eval_steps_per_second": 46.968,
      "step": 2072000
    },
    {
      "epoch": 16.96,
      "learning_rate": 1.33411156507963e-06,
      "loss": 3.0194,
      "step": 2080000
    },
    {
      "epoch": 16.96,
      "eval_loss": 3.0807414054870605,
      "eval_runtime": 136.8928,
      "eval_samples_per_second": 754.423,
      "eval_steps_per_second": 47.154,
      "step": 2080000
    },
    {
      "epoch": 17.03,
      "eval_loss": 3.060075283050537,
      "eval_runtime": 136.6441,
      "eval_samples_per_second": 755.796,
      "eval_steps_per_second": 47.24,
      "step": 2088000
    },
    {
      "epoch": 17.09,
      "learning_rate": 1.2674059868256484e-06,
      "loss": 3.0142,
      "step": 2096000
    },
    {
      "epoch": 17.09,
      "eval_loss": 3.0721395015716553,
      "eval_runtime": 136.5201,
      "eval_samples_per_second": 756.482,
      "eval_steps_per_second": 47.282,
      "step": 2096000
    },
    {
      "epoch": 17.16,
      "eval_loss": 3.0653316974639893,
      "eval_runtime": 138.2812,
      "eval_samples_per_second": 746.848,
      "eval_steps_per_second": 46.68,
      "step": 2104000
    },
    {
      "epoch": 17.22,
      "learning_rate": 1.2007004085716668e-06,
      "loss": 3.0183,
      "step": 2112000
    },
    {
      "epoch": 17.22,
      "eval_loss": 3.061683416366577,
      "eval_runtime": 136.6654,
      "eval_samples_per_second": 755.678,
      "eval_steps_per_second": 47.232,
      "step": 2112000
    },
    {
      "epoch": 17.29,
      "eval_loss": 3.062178373336792,
      "eval_runtime": 137.9621,
      "eval_samples_per_second": 748.575,
      "eval_steps_per_second": 46.788,
      "step": 2120000
    },
    {
      "epoch": 17.35,
      "learning_rate": 1.1339948303176854e-06,
      "loss": 3.0092,
      "step": 2128000
    },
    {
      "epoch": 17.35,
      "eval_loss": 3.068242311477661,
      "eval_runtime": 137.4752,
      "eval_samples_per_second": 751.227,
      "eval_steps_per_second": 46.954,
      "step": 2128000
    },
    {
      "epoch": 17.42,
      "eval_loss": 3.073157787322998,
      "eval_runtime": 136.5003,
      "eval_samples_per_second": 756.592,
      "eval_steps_per_second": 47.289,
      "step": 2136000
    },
    {
      "epoch": 17.48,
      "learning_rate": 1.067289252063704e-06,
      "loss": 3.0071,
      "step": 2144000
    },
    {
      "epoch": 17.48,
      "eval_loss": 3.0763022899627686,
      "eval_runtime": 137.95,
      "eval_samples_per_second": 748.641,
      "eval_steps_per_second": 46.792,
      "step": 2144000
    },
    {
      "epoch": 17.55,
      "eval_loss": 3.0674524307250977,
      "eval_runtime": 137.3106,
      "eval_samples_per_second": 752.127,
      "eval_steps_per_second": 47.01,
      "step": 2152000
    },
    {
      "epoch": 17.61,
      "learning_rate": 1.0005836738097224e-06,
      "loss": 3.0272,
      "step": 2160000
    },
    {
      "epoch": 17.61,
      "eval_loss": 3.0671498775482178,
      "eval_runtime": 138.0717,
      "eval_samples_per_second": 747.981,
      "eval_steps_per_second": 46.751,
      "step": 2160000
    },
    {
      "epoch": 17.68,
      "eval_loss": 3.062239170074463,
      "eval_runtime": 138.0499,
      "eval_samples_per_second": 748.099,
      "eval_steps_per_second": 46.758,
      "step": 2168000
    },
    {
      "epoch": 17.74,
      "learning_rate": 9.33878095555741e-07,
      "loss": 3.0235,
      "step": 2176000
    },
    {
      "epoch": 17.74,
      "eval_loss": 3.0789263248443604,
      "eval_runtime": 137.5626,
      "eval_samples_per_second": 750.749,
      "eval_steps_per_second": 46.924,
      "step": 2176000
    },
    {
      "epoch": 17.81,
      "eval_loss": 3.062295436859131,
      "eval_runtime": 138.8694,
      "eval_samples_per_second": 743.684,
      "eval_steps_per_second": 46.483,
      "step": 2184000
    },
    {
      "epoch": 17.87,
      "learning_rate": 8.671725173017595e-07,
      "loss": 3.0179,
      "step": 2192000
    },
    {
      "epoch": 17.87,
      "eval_loss": 3.078376054763794,
      "eval_runtime": 136.985,
      "eval_samples_per_second": 753.914,
      "eval_steps_per_second": 47.122,
      "step": 2192000
    },
    {
      "epoch": 17.94,
      "eval_loss": 3.062905788421631,
      "eval_runtime": 137.7472,
      "eval_samples_per_second": 749.743,
      "eval_steps_per_second": 46.861,
      "step": 2200000
    },
    {
      "epoch": 18.0,
      "learning_rate": 8.004669390477779e-07,
      "loss": 3.0209,
      "step": 2208000
    },
    {
      "epoch": 18.0,
      "eval_loss": 3.0731070041656494,
      "eval_runtime": 138.0906,
      "eval_samples_per_second": 747.878,
      "eval_steps_per_second": 46.745,
      "step": 2208000
    },
    {
      "epoch": 18.07,
      "eval_loss": 3.0945563316345215,
      "eval_runtime": 137.4959,
      "eval_samples_per_second": 751.113,
      "eval_steps_per_second": 46.947,
      "step": 2216000
    },
    {
      "epoch": 18.13,
      "learning_rate": 7.337613607937964e-07,
      "loss": 3.0237,
      "step": 2224000
    },
    {
      "epoch": 18.13,
      "eval_loss": 3.065315008163452,
      "eval_runtime": 138.0159,
      "eval_samples_per_second": 748.283,
      "eval_steps_per_second": 46.77,
      "step": 2224000
    },
    {
      "epoch": 18.2,
      "eval_loss": 3.0589962005615234,
      "eval_runtime": 137.6387,
      "eval_samples_per_second": 750.334,
      "eval_steps_per_second": 46.898,
      "step": 2232000
    },
    {
      "epoch": 18.26,
      "learning_rate": 6.67055782539815e-07,
      "loss": 3.0164,
      "step": 2240000
    },
    {
      "epoch": 18.26,
      "eval_loss": 3.070741891860962,
      "eval_runtime": 138.4523,
      "eval_samples_per_second": 745.925,
      "eval_steps_per_second": 46.623,
      "step": 2240000
    },
    {
      "epoch": 18.33,
      "eval_loss": 3.0545763969421387,
      "eval_runtime": 138.1194,
      "eval_samples_per_second": 747.723,
      "eval_steps_per_second": 46.735,
      "step": 2248000
    },
    {
      "epoch": 18.4,
      "learning_rate": 6.003502042858334e-07,
      "loss": 3.0206,
      "step": 2256000
    },
    {
      "epoch": 18.4,
      "eval_loss": 3.0741806030273438,
      "eval_runtime": 138.8634,
      "eval_samples_per_second": 743.717,
      "eval_steps_per_second": 46.485,
      "step": 2256000
    },
    {
      "epoch": 18.46,
      "eval_loss": 3.0793333053588867,
      "eval_runtime": 138.6181,
      "eval_samples_per_second": 745.032,
      "eval_steps_per_second": 46.567,
      "step": 2264000
    },
    {
      "epoch": 18.53,
      "learning_rate": 5.33644626031852e-07,
      "loss": 3.0138,
      "step": 2272000
    },
    {
      "epoch": 18.53,
      "eval_loss": 3.05604887008667,
      "eval_runtime": 139.1325,
      "eval_samples_per_second": 742.278,
      "eval_steps_per_second": 46.395,
      "step": 2272000
    },
    {
      "epoch": 18.59,
      "eval_loss": 3.086977958679199,
      "eval_runtime": 137.8163,
      "eval_samples_per_second": 749.367,
      "eval_steps_per_second": 46.838,
      "step": 2280000
    },
    {
      "epoch": 18.66,
      "learning_rate": 4.669390477778705e-07,
      "loss": 3.0377,
      "step": 2288000
    },
    {
      "epoch": 18.66,
      "eval_loss": 3.07423996925354,
      "eval_runtime": 137.4738,
      "eval_samples_per_second": 751.234,
      "eval_steps_per_second": 46.954,
      "step": 2288000
    },
    {
      "epoch": 18.72,
      "eval_loss": 3.0675508975982666,
      "eval_runtime": 138.0596,
      "eval_samples_per_second": 748.046,
      "eval_steps_per_second": 46.755,
      "step": 2296000
    },
    {
      "epoch": 18.79,
      "learning_rate": 4.0023346952388894e-07,
      "loss": 3.0227,
      "step": 2304000
    },
    {
      "epoch": 18.79,
      "eval_loss": 3.06254506111145,
      "eval_runtime": 139.3504,
      "eval_samples_per_second": 741.117,
      "eval_steps_per_second": 46.322,
      "step": 2304000
    },
    {
      "epoch": 18.85,
      "eval_loss": 3.0736207962036133,
      "eval_runtime": 139.5433,
      "eval_samples_per_second": 740.093,
      "eval_steps_per_second": 46.258,
      "step": 2312000
    },
    {
      "epoch": 18.92,
      "learning_rate": 3.335278912699075e-07,
      "loss": 3.0359,
      "step": 2320000
    },
    {
      "epoch": 18.92,
      "eval_loss": 3.0800607204437256,
      "eval_runtime": 138.2846,
      "eval_samples_per_second": 746.829,
      "eval_steps_per_second": 46.679,
      "step": 2320000
    },
    {
      "epoch": 18.98,
      "eval_loss": 3.0709972381591797,
      "eval_runtime": 139.0505,
      "eval_samples_per_second": 742.716,
      "eval_steps_per_second": 46.422,
      "step": 2328000
    },
    {
      "epoch": 19.05,
      "learning_rate": 2.66822313015926e-07,
      "loss": 3.0248,
      "step": 2336000
    },
    {
      "epoch": 19.05,
      "eval_loss": 3.069218158721924,
      "eval_runtime": 138.9779,
      "eval_samples_per_second": 743.104,
      "eval_steps_per_second": 46.446,
      "step": 2336000
    },
    {
      "epoch": 19.11,
      "eval_loss": 3.067660331726074,
      "eval_runtime": 138.4099,
      "eval_samples_per_second": 746.154,
      "eval_steps_per_second": 46.637,
      "step": 2344000
    },
    {
      "epoch": 19.18,
      "learning_rate": 2.0011673476194447e-07,
      "loss": 3.0235,
      "step": 2352000
    },
    {
      "epoch": 19.18,
      "eval_loss": 3.089552879333496,
      "eval_runtime": 138.573,
      "eval_samples_per_second": 745.275,
      "eval_steps_per_second": 46.582,
      "step": 2352000
    },
    {
      "epoch": 19.24,
      "eval_loss": 3.0777699947357178,
      "eval_runtime": 140.4362,
      "eval_samples_per_second": 735.388,
      "eval_steps_per_second": 45.964,
      "step": 2360000
    },
    {
      "epoch": 19.31,
      "learning_rate": 1.33411156507963e-07,
      "loss": 3.0187,
      "step": 2368000
    },
    {
      "epoch": 19.31,
      "eval_loss": 3.069951295852661,
      "eval_runtime": 140.0319,
      "eval_samples_per_second": 737.511,
      "eval_steps_per_second": 46.097,
      "step": 2368000
    },
    {
      "epoch": 19.37,
      "eval_loss": 3.0742506980895996,
      "eval_runtime": 139.3192,
      "eval_samples_per_second": 741.283,
      "eval_steps_per_second": 46.332,
      "step": 2376000
    },
    {
      "epoch": 19.44,
      "learning_rate": 6.67055782539815e-08,
      "loss": 3.0189,
      "step": 2384000
    },
    {
      "epoch": 19.44,
      "eval_loss": 3.0780065059661865,
      "eval_runtime": 138.4114,
      "eval_samples_per_second": 746.145,
      "eval_steps_per_second": 46.636,
      "step": 2384000
    },
    {
      "epoch": 19.5,
      "eval_loss": 3.0866599082946777,
      "eval_runtime": 138.3665,
      "eval_samples_per_second": 746.387,
      "eval_steps_per_second": 46.651,
      "step": 2392000
    },
    {
      "epoch": 19.57,
      "learning_rate": 0.0,
      "loss": 3.0184,
      "step": 2400000
    },
    {
      "epoch": 19.57,
      "eval_loss": 3.079288959503174,
      "eval_runtime": 138.4519,
      "eval_samples_per_second": 745.927,
      "eval_steps_per_second": 46.623,
      "step": 2400000
    },
    {
      "epoch": 19.57,
      "step": 2400000,
      "total_flos": 7.178820925216543e+17,
      "train_loss": 2.9400340771484377,
      "train_runtime": 198144.865,
      "train_samples_per_second": 193.798,
      "train_steps_per_second": 12.112
    }
  ],
  "logging_steps": 16000,
  "max_steps": 2400000,
  "num_train_epochs": 20,
  "save_steps": 32000,
  "total_flos": 7.178820925216543e+17,
  "trial_name": null,
  "trial_params": null
}