{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.999647266313933,
  "eval_steps": 500,
  "global_step": 1417,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.007054673721340388,
      "grad_norm": 115.35001373291016,
      "learning_rate": 2.3255813953488376e-06,
      "loss": 1.0881,
      "step": 10
    },
    {
      "epoch": 0.014109347442680775,
      "grad_norm": 5.279795169830322,
      "learning_rate": 4.651162790697675e-06,
      "loss": 0.8862,
      "step": 20
    },
    {
      "epoch": 0.021164021164021163,
      "grad_norm": 27.812728881835938,
      "learning_rate": 6.976744186046513e-06,
      "loss": 0.8146,
      "step": 30
    },
    {
      "epoch": 0.02821869488536155,
      "grad_norm": 9.345685958862305,
      "learning_rate": 9.30232558139535e-06,
      "loss": 0.801,
      "step": 40
    },
    {
      "epoch": 0.03527336860670194,
      "grad_norm": 6.3061394691467285,
      "learning_rate": 9.999359597383509e-06,
      "loss": 0.7874,
      "step": 50
    },
    {
      "epoch": 0.042328042328042326,
      "grad_norm": 1.8903306722640991,
      "learning_rate": 9.996223326413813e-06,
      "loss": 0.7194,
      "step": 60
    },
    {
      "epoch": 0.04938271604938271,
      "grad_norm": 2.133230209350586,
      "learning_rate": 9.990475199606672e-06,
      "loss": 0.7148,
      "step": 70
    },
    {
      "epoch": 0.0564373897707231,
      "grad_norm": 1.4513609409332275,
      "learning_rate": 9.98211822188752e-06,
      "loss": 0.7243,
      "step": 80
    },
    {
      "epoch": 0.06349206349206349,
      "grad_norm": 2.1481471061706543,
      "learning_rate": 9.971156762000433e-06,
      "loss": 0.7277,
      "step": 90
    },
    {
      "epoch": 0.07054673721340388,
      "grad_norm": 1.173839807510376,
      "learning_rate": 9.957596550224285e-06,
      "loss": 0.7353,
      "step": 100
    },
    {
      "epoch": 0.07760141093474426,
      "grad_norm": 1.4322820901870728,
      "learning_rate": 9.941444675377163e-06,
      "loss": 0.7113,
      "step": 110
    },
    {
      "epoch": 0.08465608465608465,
      "grad_norm": 1.3356482982635498,
      "learning_rate": 9.922709581110572e-06,
      "loss": 0.7174,
      "step": 120
    },
    {
      "epoch": 0.09171075837742504,
      "grad_norm": 1.0274397134780884,
      "learning_rate": 9.901401061495379e-06,
      "loss": 0.7255,
      "step": 130
    },
    {
      "epoch": 0.09876543209876543,
      "grad_norm": 1.5810225009918213,
      "learning_rate": 9.877530255901806e-06,
      "loss": 0.6945,
      "step": 140
    },
    {
      "epoch": 0.10582010582010581,
      "grad_norm": 1.04205322265625,
      "learning_rate": 9.851109643176146e-06,
      "loss": 0.7116,
      "step": 150
    },
    {
      "epoch": 0.1128747795414462,
      "grad_norm": 1.1779258251190186,
      "learning_rate": 9.822153035117246e-06,
      "loss": 0.7137,
      "step": 160
    },
    {
      "epoch": 0.11992945326278659,
      "grad_norm": 1.8828872442245483,
      "learning_rate": 9.790675569256162e-06,
      "loss": 0.7192,
      "step": 170
    },
    {
      "epoch": 0.12698412698412698,
      "grad_norm": 1.9084962606430054,
      "learning_rate": 9.756693700942791e-06,
      "loss": 0.7016,
      "step": 180
    },
    {
      "epoch": 0.13403880070546736,
      "grad_norm": 1.151208758354187,
      "learning_rate": 9.720225194743544e-06,
      "loss": 0.7082,
      "step": 190
    },
    {
      "epoch": 0.14109347442680775,
      "grad_norm": 0.9000202417373657,
      "learning_rate": 9.68128911515466e-06,
      "loss": 0.6848,
      "step": 200
    },
    {
      "epoch": 0.14814814814814814,
      "grad_norm": 1.135209560394287,
      "learning_rate": 9.63990581663592e-06,
      "loss": 0.7069,
      "step": 210
    },
    {
      "epoch": 0.15520282186948853,
      "grad_norm": 1.0848864316940308,
      "learning_rate": 9.596096932970035e-06,
      "loss": 0.6933,
      "step": 220
    },
    {
      "epoch": 0.16225749559082892,
      "grad_norm": 1.3427878618240356,
      "learning_rate": 9.549885365953231e-06,
      "loss": 0.6958,
      "step": 230
    },
    {
      "epoch": 0.1693121693121693,
      "grad_norm": 0.9182235598564148,
      "learning_rate": 9.501295273422977e-06,
      "loss": 0.6945,
      "step": 240
    },
    {
      "epoch": 0.1763668430335097,
      "grad_norm": 1.105715274810791,
      "learning_rate": 9.450352056629083e-06,
      "loss": 0.7185,
      "step": 250
    },
    {
      "epoch": 0.18342151675485008,
      "grad_norm": 1.121604084968567,
      "learning_rate": 9.397082346954788e-06,
      "loss": 0.6918,
      "step": 260
    },
    {
      "epoch": 0.19047619047619047,
      "grad_norm": 1.0246633291244507,
      "learning_rate": 9.341513991994782e-06,
      "loss": 0.6788,
      "step": 270
    },
    {
      "epoch": 0.19753086419753085,
      "grad_norm": 0.8249167203903198,
      "learning_rate": 9.283676040997426e-06,
      "loss": 0.6839,
      "step": 280
    },
    {
      "epoch": 0.20458553791887124,
      "grad_norm": 1.0380276441574097,
      "learning_rate": 9.223598729678796e-06,
      "loss": 0.674,
      "step": 290
    },
    {
      "epoch": 0.21164021164021163,
      "grad_norm": 1.1450995206832886,
      "learning_rate": 9.16131346441647e-06,
      "loss": 0.6862,
      "step": 300
    },
    {
      "epoch": 0.21869488536155202,
      "grad_norm": 1.0937360525131226,
      "learning_rate": 9.096852805831348e-06,
      "loss": 0.6976,
      "step": 310
    },
    {
      "epoch": 0.2257495590828924,
      "grad_norm": 0.9538255333900452,
      "learning_rate": 9.030250451766063e-06,
      "loss": 0.6931,
      "step": 320
    },
    {
      "epoch": 0.2328042328042328,
      "grad_norm": 0.8853999972343445,
      "learning_rate": 8.961541219668894e-06,
      "loss": 0.6815,
      "step": 330
    },
    {
      "epoch": 0.23985890652557318,
      "grad_norm": 1.1163867712020874,
      "learning_rate": 8.890761028392385e-06,
      "loss": 0.6757,
      "step": 340
    },
    {
      "epoch": 0.24691358024691357,
      "grad_norm": 0.9354677796363831,
      "learning_rate": 8.81794687941619e-06,
      "loss": 0.669,
      "step": 350
    },
    {
      "epoch": 0.25396825396825395,
      "grad_norm": 1.0241669416427612,
      "learning_rate": 8.743136837503958e-06,
      "loss": 0.6993,
      "step": 360
    },
    {
      "epoch": 0.26102292768959434,
      "grad_norm": 1.064002275466919,
      "learning_rate": 8.666370010804361e-06,
      "loss": 0.6771,
      "step": 370
    },
    {
      "epoch": 0.26807760141093473,
      "grad_norm": 0.9746055006980896,
      "learning_rate": 8.587686530406698e-06,
      "loss": 0.6713,
      "step": 380
    },
    {
      "epoch": 0.2751322751322751,
      "grad_norm": 1.0910983085632324,
      "learning_rate": 8.507127529361701e-06,
      "loss": 0.6718,
      "step": 390
    },
    {
      "epoch": 0.2821869488536155,
      "grad_norm": 1.1008247137069702,
      "learning_rate": 8.424735121178598e-06,
      "loss": 0.6805,
      "step": 400
    },
    {
      "epoch": 0.2892416225749559,
      "grad_norm": 1.003998041152954,
      "learning_rate": 8.340552377809583e-06,
      "loss": 0.6693,
      "step": 410
    },
    {
      "epoch": 0.2962962962962963,
      "grad_norm": 0.8205435872077942,
      "learning_rate": 8.254623307133268e-06,
      "loss": 0.6709,
      "step": 420
    },
    {
      "epoch": 0.30335097001763667,
      "grad_norm": 1.8825165033340454,
      "learning_rate": 8.166992829948868e-06,
      "loss": 0.6741,
      "step": 430
    },
    {
      "epoch": 0.31040564373897706,
      "grad_norm": 1.8884265422821045,
      "learning_rate": 8.077706756493115e-06,
      "loss": 0.6832,
      "step": 440
    },
    {
      "epoch": 0.31746031746031744,
      "grad_norm": 2.289461374282837,
      "learning_rate": 7.986811762492238e-06,
      "loss": 0.6612,
      "step": 450
    },
    {
      "epoch": 0.32451499118165783,
      "grad_norm": 0.982627809047699,
      "learning_rate": 7.894355364761476e-06,
      "loss": 0.6884,
      "step": 460
    },
    {
      "epoch": 0.3315696649029982,
      "grad_norm": 0.9346070885658264,
      "learning_rate": 7.800385896364891e-06,
      "loss": 0.6511,
      "step": 470
    },
    {
      "epoch": 0.3386243386243386,
      "grad_norm": 1.2878808975219727,
      "learning_rate": 7.704952481348497e-06,
      "loss": 0.7015,
      "step": 480
    },
    {
      "epoch": 0.345679012345679,
      "grad_norm": 1.1145753860473633,
      "learning_rate": 7.608105009059867e-06,
      "loss": 0.6602,
      "step": 490
    },
    {
      "epoch": 0.3527336860670194,
      "grad_norm": 1.05735445022583,
      "learning_rate": 7.509894108067688e-06,
      "loss": 0.6552,
      "step": 500
    },
    {
      "epoch": 0.35978835978835977,
      "grad_norm": 1.2025394439697266,
      "learning_rate": 7.410371119694853e-06,
      "loss": 0.6859,
      "step": 510
    },
    {
      "epoch": 0.36684303350970016,
      "grad_norm": 0.9669170379638672,
      "learning_rate": 7.309588071178968e-06,
      "loss": 0.6741,
      "step": 520
    },
    {
      "epoch": 0.37389770723104054,
      "grad_norm": 0.8190459609031677,
      "learning_rate": 7.20759764847428e-06,
      "loss": 0.6617,
      "step": 530
    },
    {
      "epoch": 0.38095238095238093,
      "grad_norm": 0.8968316912651062,
      "learning_rate": 7.104453168709251e-06,
      "loss": 0.6803,
      "step": 540
    },
    {
      "epoch": 0.3880070546737213,
      "grad_norm": 1.4003444910049438,
      "learning_rate": 7.000208552314166e-06,
      "loss": 0.6986,
      "step": 550
    },
    {
      "epoch": 0.3950617283950617,
      "grad_norm": 1.2237335443496704,
      "learning_rate": 6.894918294833375e-06,
      "loss": 0.6861,
      "step": 560
    },
    {
      "epoch": 0.4021164021164021,
      "grad_norm": 0.8748601675033569,
      "learning_rate": 6.788637438436863e-06,
      "loss": 0.659,
      "step": 570
    },
    {
      "epoch": 0.4091710758377425,
      "grad_norm": 0.9667354822158813,
      "learning_rate": 6.68142154314608e-06,
      "loss": 0.6717,
      "step": 580
    },
    {
      "epoch": 0.41622574955908287,
      "grad_norm": 0.9487342238426208,
      "learning_rate": 6.573326657789052e-06,
      "loss": 0.6701,
      "step": 590
    },
    {
      "epoch": 0.42328042328042326,
      "grad_norm": 0.8148359060287476,
      "learning_rate": 6.4644092906999464e-06,
      "loss": 0.6514,
      "step": 600
    },
    {
      "epoch": 0.43033509700176364,
      "grad_norm": 0.83194899559021,
      "learning_rate": 6.354726380178442e-06,
      "loss": 0.6483,
      "step": 610
    },
    {
      "epoch": 0.43738977072310403,
      "grad_norm": 0.9354776740074158,
      "learning_rate": 6.244335264724324e-06,
      "loss": 0.6702,
      "step": 620
    },
    {
      "epoch": 0.4444444444444444,
      "grad_norm": 1.0666841268539429,
      "learning_rate": 6.1332936530628566e-06,
      "loss": 0.6855,
      "step": 630
    },
    {
      "epoch": 0.4514991181657848,
      "grad_norm": 1.1487241983413696,
      "learning_rate": 6.021659593976621e-06,
      "loss": 0.6507,
      "step": 640
    },
    {
      "epoch": 0.4585537918871252,
      "grad_norm": 0.7753041982650757,
      "learning_rate": 5.909491445959592e-06,
      "loss": 0.6645,
      "step": 650
    },
    {
      "epoch": 0.4656084656084656,
      "grad_norm": 0.916018009185791,
      "learning_rate": 5.796847846709295e-06,
      "loss": 0.6622,
      "step": 660
    },
    {
      "epoch": 0.47266313932980597,
      "grad_norm": 1.0919137001037598,
      "learning_rate": 5.683787682473003e-06,
      "loss": 0.6427,
      "step": 670
    },
    {
      "epoch": 0.47971781305114636,
      "grad_norm": 0.925925076007843,
      "learning_rate": 5.570370057264022e-06,
      "loss": 0.6714,
      "step": 680
    },
    {
      "epoch": 0.48677248677248675,
      "grad_norm": 1.2635247707366943,
      "learning_rate": 5.456654261964105e-06,
      "loss": 0.6737,
      "step": 690
    },
    {
      "epoch": 0.49382716049382713,
      "grad_norm": 0.9747036099433899,
      "learning_rate": 5.342699743328203e-06,
      "loss": 0.655,
      "step": 700
    },
    {
      "epoch": 0.5008818342151675,
      "grad_norm": 0.852257490158081,
      "learning_rate": 5.2285660729077194e-06,
      "loss": 0.6602,
      "step": 710
    },
    {
      "epoch": 0.5079365079365079,
      "grad_norm": 1.0026270151138306,
      "learning_rate": 5.114312915908521e-06,
      "loss": 0.6512,
      "step": 720
    },
    {
      "epoch": 0.5149911816578483,
      "grad_norm": 0.8537666201591492,
      "learning_rate": 5e-06,
      "loss": 0.6371,
      "step": 730
    },
    {
      "epoch": 0.5220458553791887,
      "grad_norm": 0.847064197063446,
      "learning_rate": 4.885687084091482e-06,
      "loss": 0.654,
      "step": 740
    },
    {
      "epoch": 0.5291005291005291,
      "grad_norm": 1.0153273344039917,
      "learning_rate": 4.771433927092283e-06,
      "loss": 0.6685,
      "step": 750
    },
    {
      "epoch": 0.5361552028218695,
      "grad_norm": 0.9921353459358215,
      "learning_rate": 4.6573002566717974e-06,
      "loss": 0.6318,
      "step": 760
    },
    {
      "epoch": 0.5432098765432098,
      "grad_norm": 0.8610924482345581,
      "learning_rate": 4.543345738035896e-06,
      "loss": 0.6693,
      "step": 770
    },
    {
      "epoch": 0.5502645502645502,
      "grad_norm": 0.8362808227539062,
      "learning_rate": 4.429629942735979e-06,
      "loss": 0.6608,
      "step": 780
    },
    {
      "epoch": 0.5573192239858906,
      "grad_norm": 0.8920891880989075,
      "learning_rate": 4.3162123175269985e-06,
      "loss": 0.6609,
      "step": 790
    },
    {
      "epoch": 0.564373897707231,
      "grad_norm": 1.0621840953826904,
      "learning_rate": 4.203152153290708e-06,
      "loss": 0.6592,
      "step": 800
    },
    {
      "epoch": 0.5714285714285714,
      "grad_norm": 0.9206342101097107,
      "learning_rate": 4.09050855404041e-06,
      "loss": 0.6528,
      "step": 810
    },
    {
      "epoch": 0.5784832451499118,
      "grad_norm": 0.7734974026679993,
      "learning_rate": 3.97834040602338e-06,
      "loss": 0.6509,
      "step": 820
    },
    {
      "epoch": 0.5855379188712522,
      "grad_norm": 0.8939641714096069,
      "learning_rate": 3.866706346937146e-06,
      "loss": 0.6664,
      "step": 830
    },
    {
      "epoch": 0.5925925925925926,
      "grad_norm": 1.0148942470550537,
      "learning_rate": 3.7556647352756774e-06,
      "loss": 0.6398,
      "step": 840
    },
    {
      "epoch": 0.599647266313933,
      "grad_norm": 0.87893146276474,
      "learning_rate": 3.6452736198215586e-06,
      "loss": 0.6531,
      "step": 850
    },
    {
      "epoch": 0.6067019400352733,
      "grad_norm": 0.8536015152931213,
      "learning_rate": 3.5355907093000565e-06,
      "loss": 0.6573,
      "step": 860
    },
    {
      "epoch": 0.6137566137566137,
      "grad_norm": 0.8043096661567688,
      "learning_rate": 3.426673342210948e-06,
      "loss": 0.6452,
      "step": 870
    },
    {
      "epoch": 0.6208112874779541,
      "grad_norm": 0.910137414932251,
      "learning_rate": 3.3185784568539194e-06,
      "loss": 0.651,
      "step": 880
    },
    {
      "epoch": 0.6278659611992945,
      "grad_norm": 1.0096960067749023,
      "learning_rate": 3.2113625615631383e-06,
      "loss": 0.655,
      "step": 890
    },
    {
      "epoch": 0.6349206349206349,
      "grad_norm": 1.19089937210083,
      "learning_rate": 3.105081705166626e-06,
      "loss": 0.6529,
      "step": 900
    },
    {
      "epoch": 0.6419753086419753,
      "grad_norm": 0.7892714738845825,
      "learning_rate": 2.9997914476858346e-06,
      "loss": 0.6231,
      "step": 910
    },
    {
      "epoch": 0.6490299823633157,
      "grad_norm": 0.8603525757789612,
      "learning_rate": 2.895546831290751e-06,
      "loss": 0.6443,
      "step": 920
    },
    {
      "epoch": 0.656084656084656,
      "grad_norm": 1.0305092334747314,
      "learning_rate": 2.79240235152572e-06,
      "loss": 0.6565,
      "step": 930
    },
    {
      "epoch": 0.6631393298059964,
      "grad_norm": 0.8617172837257385,
      "learning_rate": 2.6904119288210347e-06,
      "loss": 0.6475,
      "step": 940
    },
    {
      "epoch": 0.6701940035273368,
      "grad_norm": 0.8842372894287109,
      "learning_rate": 2.5896288803051507e-06,
      "loss": 0.6523,
      "step": 950
    },
    {
      "epoch": 0.6772486772486772,
      "grad_norm": 1.02742338180542,
      "learning_rate": 2.490105891932313e-06,
      "loss": 0.657,
      "step": 960
    },
    {
      "epoch": 0.6843033509700176,
      "grad_norm": 0.8691167831420898,
      "learning_rate": 2.3918949909401335e-06,
      "loss": 0.6539,
      "step": 970
    },
    {
      "epoch": 0.691358024691358,
      "grad_norm": 0.833465039730072,
      "learning_rate": 2.2950475186515033e-06,
      "loss": 0.6428,
      "step": 980
    },
    {
      "epoch": 0.6984126984126984,
      "grad_norm": 0.7142367362976074,
      "learning_rate": 2.1996141036351084e-06,
      "loss": 0.6296,
      "step": 990
    },
    {
      "epoch": 0.7054673721340388,
      "grad_norm": 0.9713394045829773,
      "learning_rate": 2.1056446352385237e-06,
      "loss": 0.6426,
      "step": 1000
    },
    {
      "epoch": 0.7125220458553791,
      "grad_norm": 0.7999907732009888,
      "learning_rate": 2.013188237507761e-06,
      "loss": 0.6592,
      "step": 1010
    },
    {
      "epoch": 0.7195767195767195,
      "grad_norm": 0.7915384769439697,
      "learning_rate": 1.9222932435068856e-06,
      "loss": 0.6437,
      "step": 1020
    },
    {
      "epoch": 0.7266313932980599,
      "grad_norm": 0.8565017580986023,
      "learning_rate": 1.8330071700511344e-06,
      "loss": 0.6541,
      "step": 1030
    },
    {
      "epoch": 0.7336860670194003,
      "grad_norm": 0.7671453356742859,
      "learning_rate": 1.745376692866732e-06,
      "loss": 0.6576,
      "step": 1040
    },
    {
      "epoch": 0.7407407407407407,
      "grad_norm": 0.7234519720077515,
      "learning_rate": 1.6594476221904193e-06,
      "loss": 0.6359,
      "step": 1050
    },
    {
      "epoch": 0.7477954144620811,
      "grad_norm": 0.7395116686820984,
      "learning_rate": 1.5752648788214037e-06,
      "loss": 0.6486,
      "step": 1060
    },
    {
      "epoch": 0.7548500881834215,
      "grad_norm": 0.830199658870697,
      "learning_rate": 1.4928724706383007e-06,
      "loss": 0.6552,
      "step": 1070
    },
    {
      "epoch": 0.7619047619047619,
      "grad_norm": 0.8220341801643372,
      "learning_rate": 1.412313469593305e-06,
      "loss": 0.6484,
      "step": 1080
    },
    {
      "epoch": 0.7689594356261023,
      "grad_norm": 0.8400722742080688,
      "learning_rate": 1.3336299891956405e-06,
      "loss": 0.648,
      "step": 1090
    },
    {
      "epoch": 0.7760141093474426,
      "grad_norm": 0.768605649471283,
      "learning_rate": 1.2568631624960443e-06,
      "loss": 0.6405,
      "step": 1100
    },
    {
      "epoch": 0.783068783068783,
      "grad_norm": 1.05420982837677,
      "learning_rate": 1.182053120583811e-06,
      "loss": 0.6141,
      "step": 1110
    },
    {
      "epoch": 0.7901234567901234,
      "grad_norm": 0.8074650168418884,
      "learning_rate": 1.1092389716076146e-06,
      "loss": 0.6348,
      "step": 1120
    },
    {
      "epoch": 0.7971781305114638,
      "grad_norm": 1.0388602018356323,
      "learning_rate": 1.0384587803311063e-06,
      "loss": 0.6415,
      "step": 1130
    },
    {
      "epoch": 0.8042328042328042,
      "grad_norm": 0.8282116651535034,
      "learning_rate": 9.697495482339375e-07,
      "loss": 0.6357,
      "step": 1140
    },
    {
      "epoch": 0.8112874779541446,
      "grad_norm": 0.8346076607704163,
      "learning_rate": 9.031471941686526e-07,
      "loss": 0.6557,
      "step": 1150
    },
    {
      "epoch": 0.818342151675485,
      "grad_norm": 0.7977052330970764,
      "learning_rate": 8.386865355835317e-07,
      "loss": 0.6538,
      "step": 1160
    },
    {
      "epoch": 0.8253968253968254,
      "grad_norm": 0.7763214111328125,
      "learning_rate": 7.76401270321206e-07,
      "loss": 0.622,
      "step": 1170
    },
    {
      "epoch": 0.8324514991181657,
      "grad_norm": 1.0067726373672485,
      "learning_rate": 7.16323959002575e-07,
      "loss": 0.6444,
      "step": 1180
    },
    {
      "epoch": 0.8395061728395061,
      "grad_norm": 0.8241051435470581,
      "learning_rate": 6.584860080052196e-07,
      "loss": 0.6395,
      "step": 1190
    },
    {
      "epoch": 0.8465608465608465,
      "grad_norm": 0.949482262134552,
      "learning_rate": 6.029176530452142e-07,
      "loss": 0.6392,
      "step": 1200
    },
    {
      "epoch": 0.8536155202821869,
      "grad_norm": 0.8672659397125244,
      "learning_rate": 5.496479433709179e-07,
      "loss": 0.6366,
      "step": 1210
    },
    {
      "epoch": 0.8606701940035273,
      "grad_norm": 0.6712846159934998,
      "learning_rate": 4.987047265770234e-07,
      "loss": 0.6378,
      "step": 1220
    },
    {
      "epoch": 0.8677248677248677,
      "grad_norm": 0.8121318221092224,
      "learning_rate": 4.501146340467699e-07,
      "loss": 0.6465,
      "step": 1230
    },
    {
      "epoch": 0.8747795414462081,
      "grad_norm": 0.8526197671890259,
      "learning_rate": 4.039030670299665e-07,
      "loss": 0.6554,
      "step": 1240
    },
    {
      "epoch": 0.8818342151675485,
      "grad_norm": 0.8755106925964355,
      "learning_rate": 3.600941833640809e-07,
      "loss": 0.6288,
      "step": 1250
    },
    {
      "epoch": 0.8888888888888888,
      "grad_norm": 0.8961088061332703,
      "learning_rate": 3.1871088484534074e-07,
      "loss": 0.65,
      "step": 1260
    },
    {
      "epoch": 0.8959435626102292,
      "grad_norm": 0.8168111443519592,
      "learning_rate": 2.7977480525645694e-07,
      "loss": 0.6427,
      "step": 1270
    },
    {
      "epoch": 0.9029982363315696,
      "grad_norm": 0.9570055603981018,
      "learning_rate": 2.433062990572099e-07,
      "loss": 0.645,
      "step": 1280
    },
    {
      "epoch": 0.91005291005291,
      "grad_norm": 0.8489954471588135,
      "learning_rate": 2.0932443074383747e-07,
      "loss": 0.6365,
      "step": 1290
    },
    {
      "epoch": 0.9171075837742504,
      "grad_norm": 0.8661020994186401,
      "learning_rate": 1.7784696488275576e-07,
      "loss": 0.6461,
      "step": 1300
    },
    {
      "epoch": 0.9241622574955908,
      "grad_norm": 0.8599199652671814,
      "learning_rate": 1.4889035682385476e-07,
      "loss": 0.6393,
      "step": 1310
    },
    {
      "epoch": 0.9312169312169312,
      "grad_norm": 0.870004415512085,
      "learning_rate": 1.2246974409819424e-07,
      "loss": 0.6453,
      "step": 1320
    },
    {
      "epoch": 0.9382716049382716,
      "grad_norm": 0.7713905572891235,
      "learning_rate": 9.859893850462154e-08,
      "loss": 0.6465,
      "step": 1330
    },
    {
      "epoch": 0.9453262786596119,
      "grad_norm": 0.7856795191764832,
      "learning_rate": 7.729041888942912e-08,
      "loss": 0.6515,
      "step": 1340
    },
    {
      "epoch": 0.9523809523809523,
      "grad_norm": 0.8113290667533875,
      "learning_rate": 5.855532462283875e-08,
      "loss": 0.6363,
      "step": 1350
    },
    {
      "epoch": 0.9594356261022927,
      "grad_norm": 1.0180243253707886,
      "learning_rate": 4.2403449775716975e-08,
      "loss": 0.6138,
      "step": 1360
    },
    {
      "epoch": 0.9664902998236331,
      "grad_norm": 0.8159411549568176,
      "learning_rate": 2.8843237999567896e-08,
      "loss": 0.6557,
      "step": 1370
    },
    {
      "epoch": 0.9735449735449735,
      "grad_norm": 0.8671702742576599,
      "learning_rate": 1.78817781124796e-08,
      "loss": 0.6511,
      "step": 1380
    },
    {
      "epoch": 0.9805996472663139,
      "grad_norm": 0.7939236760139465,
      "learning_rate": 9.524800393329037e-09,
      "loss": 0.6335,
      "step": 1390
    },
    {
      "epoch": 0.9876543209876543,
      "grad_norm": 0.7437721490859985,
      "learning_rate": 3.776673586187718e-09,
      "loss": 0.641,
      "step": 1400
    },
    {
      "epoch": 0.9947089947089947,
      "grad_norm": 0.9690260291099548,
      "learning_rate": 6.404026164913424e-10,
      "loss": 0.6454,
      "step": 1410
    },
    {
      "epoch": 0.999647266313933,
      "step": 1417,
      "total_flos": 1.6726588600551997e+19,
      "train_loss": 0.6722105355353615,
      "train_runtime": 64207.2503,
      "train_samples_per_second": 1.413,
      "train_steps_per_second": 0.022
    }
  ],
  "logging_steps": 10,
  "max_steps": 1417,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 256,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 1.6726588600551997e+19,
  "train_batch_size": 1,
  "trial_name": null,
  "trial_params": null
}