{ "best_metric": null, "best_model_checkpoint": null, "epoch": 1.0158730158730158, "global_step": 8000, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.0, "learning_rate": 9.995833333333334e-05, "loss": 5.6962, "step": 10 }, { "epoch": 0.0, "learning_rate": 9.991666666666666e-05, "loss": 5.606, "step": 20 }, { "epoch": 0.0, "learning_rate": 9.9875e-05, "loss": 5.5894, "step": 30 }, { "epoch": 0.01, "learning_rate": 9.983333333333334e-05, "loss": 5.3125, "step": 40 }, { "epoch": 0.01, "learning_rate": 9.979166666666668e-05, "loss": 5.1938, "step": 50 }, { "epoch": 0.01, "learning_rate": 9.975000000000001e-05, "loss": 5.1897, "step": 60 }, { "epoch": 0.01, "learning_rate": 9.970833333333334e-05, "loss": 4.8633, "step": 70 }, { "epoch": 0.01, "learning_rate": 9.966666666666667e-05, "loss": 4.8125, "step": 80 }, { "epoch": 0.01, "learning_rate": 9.9625e-05, "loss": 4.7096, "step": 90 }, { "epoch": 0.01, "learning_rate": 9.958333333333335e-05, "loss": 4.5862, "step": 100 }, { "epoch": 0.01, "learning_rate": 9.954166666666667e-05, "loss": 4.5359, "step": 110 }, { "epoch": 0.02, "learning_rate": 9.95e-05, "loss": 4.495, "step": 120 }, { "epoch": 0.02, "learning_rate": 9.945833333333334e-05, "loss": 4.4779, "step": 130 }, { "epoch": 0.02, "learning_rate": 9.941666666666667e-05, "loss": 4.4726, "step": 140 }, { "epoch": 0.02, "learning_rate": 9.9375e-05, "loss": 4.3168, "step": 150 }, { "epoch": 0.02, "learning_rate": 9.933333333333334e-05, "loss": 4.2627, "step": 160 }, { "epoch": 0.02, "learning_rate": 9.929166666666668e-05, "loss": 4.2219, "step": 170 }, { "epoch": 0.02, "learning_rate": 9.925000000000001e-05, "loss": 4.205, "step": 180 }, { "epoch": 0.02, "learning_rate": 9.920833333333334e-05, "loss": 4.2089, "step": 190 }, { "epoch": 0.03, "learning_rate": 9.916666666666667e-05, "loss": 4.1319, "step": 200 }, { "epoch": 0.03, "learning_rate": 9.9125e-05, "loss": 4.2085, "step": 210 }, { "epoch": 0.03, "learning_rate": 9.908333333333333e-05, "loss": 4.1744, "step": 220 }, { "epoch": 0.03, "learning_rate": 9.904166666666667e-05, "loss": 4.1779, "step": 230 }, { "epoch": 0.03, "learning_rate": 9.900000000000001e-05, "loss": 4.0996, "step": 240 }, { "epoch": 0.03, "learning_rate": 9.895833333333334e-05, "loss": 4.0474, "step": 250 }, { "epoch": 0.03, "learning_rate": 9.891666666666667e-05, "loss": 3.988, "step": 260 }, { "epoch": 0.03, "learning_rate": 9.8875e-05, "loss": 4.0699, "step": 270 }, { "epoch": 0.04, "learning_rate": 9.883333333333333e-05, "loss": 3.9252, "step": 280 }, { "epoch": 0.04, "learning_rate": 9.879166666666666e-05, "loss": 4.0514, "step": 290 }, { "epoch": 0.04, "learning_rate": 9.875000000000002e-05, "loss": 3.9951, "step": 300 }, { "epoch": 0.04, "learning_rate": 9.870833333333334e-05, "loss": 3.9394, "step": 310 }, { "epoch": 0.04, "learning_rate": 9.866666666666668e-05, "loss": 4.0393, "step": 320 }, { "epoch": 0.04, "learning_rate": 9.8625e-05, "loss": 4.0064, "step": 330 }, { "epoch": 0.04, "learning_rate": 9.858333333333334e-05, "loss": 4.0176, "step": 340 }, { "epoch": 0.04, "learning_rate": 9.854166666666667e-05, "loss": 3.9664, "step": 350 }, { "epoch": 0.05, "learning_rate": 9.850000000000001e-05, "loss": 3.9659, "step": 360 }, { "epoch": 0.05, "learning_rate": 9.845833333333335e-05, "loss": 3.9458, "step": 370 }, { "epoch": 0.05, "learning_rate": 9.841666666666667e-05, "loss": 3.9883, "step": 380 }, { "epoch": 0.05, "learning_rate": 9.8375e-05, "loss": 3.9369, "step": 390 }, { "epoch": 0.05, "learning_rate": 9.833333333333333e-05, "loss": 3.9379, "step": 400 }, { "epoch": 0.05, "learning_rate": 9.829166666666667e-05, "loss": 3.9671, "step": 410 }, { "epoch": 0.05, "learning_rate": 9.825e-05, "loss": 3.8764, "step": 420 }, { "epoch": 0.05, "learning_rate": 9.820833333333334e-05, "loss": 3.8621, "step": 430 }, { "epoch": 0.06, "learning_rate": 9.816666666666668e-05, "loss": 3.8764, "step": 440 }, { "epoch": 0.06, "learning_rate": 9.8125e-05, "loss": 3.8916, "step": 450 }, { "epoch": 0.06, "learning_rate": 9.808333333333334e-05, "loss": 3.8894, "step": 460 }, { "epoch": 0.06, "learning_rate": 9.804166666666667e-05, "loss": 3.8715, "step": 470 }, { "epoch": 0.06, "learning_rate": 9.8e-05, "loss": 3.9725, "step": 480 }, { "epoch": 0.06, "learning_rate": 9.795833333333335e-05, "loss": 3.9346, "step": 490 }, { "epoch": 0.06, "learning_rate": 9.791666666666667e-05, "loss": 3.7902, "step": 500 }, { "epoch": 0.06, "learning_rate": 9.787500000000001e-05, "loss": 3.9029, "step": 510 }, { "epoch": 0.07, "learning_rate": 9.783333333333334e-05, "loss": 3.8927, "step": 520 }, { "epoch": 0.07, "learning_rate": 9.779166666666667e-05, "loss": 3.8808, "step": 530 }, { "epoch": 0.07, "learning_rate": 9.775e-05, "loss": 3.8342, "step": 540 }, { "epoch": 0.07, "learning_rate": 9.770833333333334e-05, "loss": 3.8998, "step": 550 }, { "epoch": 0.07, "learning_rate": 9.766666666666668e-05, "loss": 3.8303, "step": 560 }, { "epoch": 0.07, "learning_rate": 9.7625e-05, "loss": 3.8536, "step": 570 }, { "epoch": 0.07, "learning_rate": 9.758333333333334e-05, "loss": 3.9243, "step": 580 }, { "epoch": 0.07, "learning_rate": 9.754166666666667e-05, "loss": 3.9258, "step": 590 }, { "epoch": 0.08, "learning_rate": 9.75e-05, "loss": 3.7761, "step": 600 }, { "epoch": 0.08, "learning_rate": 9.745833333333334e-05, "loss": 3.7839, "step": 610 }, { "epoch": 0.08, "learning_rate": 9.741666666666667e-05, "loss": 3.7681, "step": 620 }, { "epoch": 0.08, "learning_rate": 9.737500000000001e-05, "loss": 3.8076, "step": 630 }, { "epoch": 0.08, "learning_rate": 9.733333333333335e-05, "loss": 3.8641, "step": 640 }, { "epoch": 0.08, "learning_rate": 9.729166666666667e-05, "loss": 3.7614, "step": 650 }, { "epoch": 0.08, "learning_rate": 9.725e-05, "loss": 3.8849, "step": 660 }, { "epoch": 0.09, "learning_rate": 9.720833333333333e-05, "loss": 3.8421, "step": 670 }, { "epoch": 0.09, "learning_rate": 9.716666666666667e-05, "loss": 3.8132, "step": 680 }, { "epoch": 0.09, "learning_rate": 9.7125e-05, "loss": 3.811, "step": 690 }, { "epoch": 0.09, "learning_rate": 9.708333333333334e-05, "loss": 3.816, "step": 700 }, { "epoch": 0.09, "learning_rate": 9.704166666666668e-05, "loss": 3.8549, "step": 710 }, { "epoch": 0.09, "learning_rate": 9.7e-05, "loss": 3.7762, "step": 720 }, { "epoch": 0.09, "learning_rate": 9.695833333333334e-05, "loss": 3.8504, "step": 730 }, { "epoch": 0.09, "learning_rate": 9.691666666666667e-05, "loss": 3.8264, "step": 740 }, { "epoch": 0.1, "learning_rate": 9.687500000000001e-05, "loss": 3.8069, "step": 750 }, { "epoch": 0.1, "learning_rate": 9.683333333333335e-05, "loss": 3.8511, "step": 760 }, { "epoch": 0.1, "learning_rate": 9.679166666666667e-05, "loss": 3.7774, "step": 770 }, { "epoch": 0.1, "learning_rate": 9.675000000000001e-05, "loss": 3.7132, "step": 780 }, { "epoch": 0.1, "learning_rate": 9.670833333333333e-05, "loss": 3.8334, "step": 790 }, { "epoch": 0.1, "learning_rate": 9.666666666666667e-05, "loss": 3.878, "step": 800 }, { "epoch": 0.1, "learning_rate": 9.6625e-05, "loss": 3.7504, "step": 810 }, { "epoch": 0.1, "learning_rate": 9.658333333333334e-05, "loss": 3.7379, "step": 820 }, { "epoch": 0.11, "learning_rate": 9.654166666666668e-05, "loss": 3.7727, "step": 830 }, { "epoch": 0.11, "learning_rate": 9.65e-05, "loss": 3.8309, "step": 840 }, { "epoch": 0.11, "learning_rate": 9.645833333333334e-05, "loss": 3.7832, "step": 850 }, { "epoch": 0.11, "learning_rate": 9.641666666666666e-05, "loss": 3.7925, "step": 860 }, { "epoch": 0.11, "learning_rate": 9.6375e-05, "loss": 3.8546, "step": 870 }, { "epoch": 0.11, "learning_rate": 9.633333333333335e-05, "loss": 3.765, "step": 880 }, { "epoch": 0.11, "learning_rate": 9.629166666666667e-05, "loss": 3.7293, "step": 890 }, { "epoch": 0.11, "learning_rate": 9.625000000000001e-05, "loss": 3.7991, "step": 900 }, { "epoch": 0.12, "learning_rate": 9.620833333333333e-05, "loss": 3.7637, "step": 910 }, { "epoch": 0.12, "learning_rate": 9.616666666666667e-05, "loss": 3.6497, "step": 920 }, { "epoch": 0.12, "learning_rate": 9.6125e-05, "loss": 3.84, "step": 930 }, { "epoch": 0.12, "learning_rate": 9.608333333333334e-05, "loss": 3.7027, "step": 940 }, { "epoch": 0.12, "learning_rate": 9.604166666666668e-05, "loss": 3.7893, "step": 950 }, { "epoch": 0.12, "learning_rate": 9.6e-05, "loss": 3.7691, "step": 960 }, { "epoch": 0.12, "learning_rate": 9.595833333333334e-05, "loss": 3.7277, "step": 970 }, { "epoch": 0.12, "learning_rate": 9.591666666666666e-05, "loss": 3.7715, "step": 980 }, { "epoch": 0.13, "learning_rate": 9.5875e-05, "loss": 3.8022, "step": 990 }, { "epoch": 0.13, "learning_rate": 9.583333333333334e-05, "loss": 3.7461, "step": 1000 }, { "epoch": 0.13, "learning_rate": 9.579166666666667e-05, "loss": 3.7569, "step": 1010 }, { "epoch": 0.13, "learning_rate": 9.575000000000001e-05, "loss": 3.7301, "step": 1020 }, { "epoch": 0.13, "learning_rate": 9.570833333333333e-05, "loss": 3.6613, "step": 1030 }, { "epoch": 0.13, "learning_rate": 9.566666666666667e-05, "loss": 3.7284, "step": 1040 }, { "epoch": 0.13, "learning_rate": 9.562500000000001e-05, "loss": 3.6935, "step": 1050 }, { "epoch": 0.13, "learning_rate": 9.558333333333333e-05, "loss": 3.8481, "step": 1060 }, { "epoch": 0.14, "learning_rate": 9.554166666666667e-05, "loss": 3.7903, "step": 1070 }, { "epoch": 0.14, "learning_rate": 9.55e-05, "loss": 3.6514, "step": 1080 }, { "epoch": 0.14, "learning_rate": 9.545833333333334e-05, "loss": 3.7198, "step": 1090 }, { "epoch": 0.14, "learning_rate": 9.541666666666668e-05, "loss": 3.7371, "step": 1100 }, { "epoch": 0.14, "learning_rate": 9.5375e-05, "loss": 3.677, "step": 1110 }, { "epoch": 0.14, "learning_rate": 9.533333333333334e-05, "loss": 3.7313, "step": 1120 }, { "epoch": 0.14, "learning_rate": 9.529166666666667e-05, "loss": 3.7882, "step": 1130 }, { "epoch": 0.14, "learning_rate": 9.525000000000001e-05, "loss": 3.7064, "step": 1140 }, { "epoch": 0.15, "learning_rate": 9.520833333333333e-05, "loss": 3.7431, "step": 1150 }, { "epoch": 0.15, "learning_rate": 9.516666666666667e-05, "loss": 3.6859, "step": 1160 }, { "epoch": 0.15, "learning_rate": 9.512500000000001e-05, "loss": 3.752, "step": 1170 }, { "epoch": 0.15, "learning_rate": 9.508333333333333e-05, "loss": 3.689, "step": 1180 }, { "epoch": 0.15, "learning_rate": 9.504166666666667e-05, "loss": 3.7506, "step": 1190 }, { "epoch": 0.15, "learning_rate": 9.5e-05, "loss": 3.6811, "step": 1200 }, { "epoch": 0.15, "learning_rate": 9.495833333333334e-05, "loss": 3.7533, "step": 1210 }, { "epoch": 0.15, "learning_rate": 9.491666666666668e-05, "loss": 3.7534, "step": 1220 }, { "epoch": 0.16, "learning_rate": 9.4875e-05, "loss": 3.7964, "step": 1230 }, { "epoch": 0.16, "learning_rate": 9.483333333333334e-05, "loss": 3.7098, "step": 1240 }, { "epoch": 0.16, "learning_rate": 9.479166666666666e-05, "loss": 3.6728, "step": 1250 }, { "epoch": 0.16, "learning_rate": 9.475e-05, "loss": 3.7314, "step": 1260 }, { "epoch": 0.16, "learning_rate": 9.470833333333335e-05, "loss": 3.7794, "step": 1270 }, { "epoch": 0.16, "learning_rate": 9.466666666666667e-05, "loss": 3.7596, "step": 1280 }, { "epoch": 0.16, "learning_rate": 9.462500000000001e-05, "loss": 3.6681, "step": 1290 }, { "epoch": 0.17, "learning_rate": 9.458333333333333e-05, "loss": 3.758, "step": 1300 }, { "epoch": 0.17, "learning_rate": 9.454166666666667e-05, "loss": 3.6213, "step": 1310 }, { "epoch": 0.17, "learning_rate": 9.449999999999999e-05, "loss": 3.6408, "step": 1320 }, { "epoch": 0.17, "learning_rate": 9.445833333333334e-05, "loss": 3.6497, "step": 1330 }, { "epoch": 0.17, "learning_rate": 9.441666666666668e-05, "loss": 3.7481, "step": 1340 }, { "epoch": 0.17, "learning_rate": 9.4375e-05, "loss": 3.7018, "step": 1350 }, { "epoch": 0.17, "learning_rate": 9.433333333333334e-05, "loss": 3.7097, "step": 1360 }, { "epoch": 0.17, "learning_rate": 9.429166666666666e-05, "loss": 3.6016, "step": 1370 }, { "epoch": 0.18, "learning_rate": 9.425e-05, "loss": 3.7295, "step": 1380 }, { "epoch": 0.18, "learning_rate": 9.420833333333334e-05, "loss": 3.6309, "step": 1390 }, { "epoch": 0.18, "learning_rate": 9.416666666666667e-05, "loss": 3.6671, "step": 1400 }, { "epoch": 0.18, "learning_rate": 9.412500000000001e-05, "loss": 3.7647, "step": 1410 }, { "epoch": 0.18, "learning_rate": 9.408333333333333e-05, "loss": 3.8146, "step": 1420 }, { "epoch": 0.18, "learning_rate": 9.404166666666667e-05, "loss": 3.7173, "step": 1430 }, { "epoch": 0.18, "learning_rate": 9.4e-05, "loss": 3.6274, "step": 1440 }, { "epoch": 0.18, "learning_rate": 9.395833333333333e-05, "loss": 3.6567, "step": 1450 }, { "epoch": 0.19, "learning_rate": 9.391666666666668e-05, "loss": 3.7923, "step": 1460 }, { "epoch": 0.19, "learning_rate": 9.3875e-05, "loss": 3.7348, "step": 1470 }, { "epoch": 0.19, "learning_rate": 9.383333333333334e-05, "loss": 3.7182, "step": 1480 }, { "epoch": 0.19, "learning_rate": 9.379166666666667e-05, "loss": 3.6463, "step": 1490 }, { "epoch": 0.19, "learning_rate": 9.375e-05, "loss": 3.6461, "step": 1500 }, { "epoch": 0.19, "learning_rate": 9.370833333333334e-05, "loss": 3.6839, "step": 1510 }, { "epoch": 0.19, "learning_rate": 9.366666666666668e-05, "loss": 3.7423, "step": 1520 }, { "epoch": 0.19, "learning_rate": 9.362500000000001e-05, "loss": 3.7018, "step": 1530 }, { "epoch": 0.2, "learning_rate": 9.358333333333334e-05, "loss": 3.6553, "step": 1540 }, { "epoch": 0.2, "learning_rate": 9.354166666666667e-05, "loss": 3.6288, "step": 1550 }, { "epoch": 0.2, "learning_rate": 9.350000000000001e-05, "loss": 3.5729, "step": 1560 }, { "epoch": 0.2, "learning_rate": 9.345833333333333e-05, "loss": 3.6607, "step": 1570 }, { "epoch": 0.2, "learning_rate": 9.341666666666667e-05, "loss": 3.648, "step": 1580 }, { "epoch": 0.2, "learning_rate": 9.3375e-05, "loss": 3.673, "step": 1590 }, { "epoch": 0.2, "learning_rate": 9.333333333333334e-05, "loss": 3.6409, "step": 1600 }, { "epoch": 0.2, "learning_rate": 9.329166666666667e-05, "loss": 3.7027, "step": 1610 }, { "epoch": 0.21, "learning_rate": 9.325e-05, "loss": 3.6854, "step": 1620 }, { "epoch": 0.21, "learning_rate": 9.320833333333334e-05, "loss": 3.6768, "step": 1630 }, { "epoch": 0.21, "learning_rate": 9.316666666666666e-05, "loss": 3.718, "step": 1640 }, { "epoch": 0.21, "learning_rate": 9.3125e-05, "loss": 3.6742, "step": 1650 }, { "epoch": 0.21, "learning_rate": 9.308333333333334e-05, "loss": 3.7546, "step": 1660 }, { "epoch": 0.21, "learning_rate": 9.304166666666667e-05, "loss": 3.642, "step": 1670 }, { "epoch": 0.21, "learning_rate": 9.300000000000001e-05, "loss": 3.5488, "step": 1680 }, { "epoch": 0.21, "learning_rate": 9.295833333333333e-05, "loss": 3.6423, "step": 1690 }, { "epoch": 0.22, "learning_rate": 9.291666666666667e-05, "loss": 3.6759, "step": 1700 }, { "epoch": 0.22, "learning_rate": 9.2875e-05, "loss": 3.584, "step": 1710 }, { "epoch": 0.22, "learning_rate": 9.283333333333334e-05, "loss": 3.5464, "step": 1720 }, { "epoch": 0.22, "learning_rate": 9.279166666666667e-05, "loss": 3.6228, "step": 1730 }, { "epoch": 0.22, "learning_rate": 9.275e-05, "loss": 3.7678, "step": 1740 }, { "epoch": 0.22, "learning_rate": 9.270833333333334e-05, "loss": 3.6972, "step": 1750 }, { "epoch": 0.22, "learning_rate": 9.266666666666666e-05, "loss": 3.6424, "step": 1760 }, { "epoch": 0.22, "learning_rate": 9.2625e-05, "loss": 3.6437, "step": 1770 }, { "epoch": 0.23, "learning_rate": 9.258333333333334e-05, "loss": 3.6169, "step": 1780 }, { "epoch": 0.23, "learning_rate": 9.254166666666668e-05, "loss": 3.651, "step": 1790 }, { "epoch": 0.23, "learning_rate": 9.250000000000001e-05, "loss": 3.6005, "step": 1800 }, { "epoch": 0.23, "learning_rate": 9.245833333333334e-05, "loss": 3.5943, "step": 1810 }, { "epoch": 0.23, "learning_rate": 9.241666666666667e-05, "loss": 3.6791, "step": 1820 }, { "epoch": 0.23, "learning_rate": 9.2375e-05, "loss": 3.7206, "step": 1830 }, { "epoch": 0.23, "learning_rate": 9.233333333333333e-05, "loss": 3.7598, "step": 1840 }, { "epoch": 0.23, "learning_rate": 9.229166666666668e-05, "loss": 3.6462, "step": 1850 }, { "epoch": 0.24, "learning_rate": 9.225e-05, "loss": 3.6769, "step": 1860 }, { "epoch": 0.24, "learning_rate": 9.220833333333334e-05, "loss": 3.591, "step": 1870 }, { "epoch": 0.24, "learning_rate": 9.216666666666667e-05, "loss": 3.7013, "step": 1880 }, { "epoch": 0.24, "learning_rate": 9.2125e-05, "loss": 3.5322, "step": 1890 }, { "epoch": 0.24, "learning_rate": 9.208333333333333e-05, "loss": 3.6238, "step": 1900 }, { "epoch": 0.24, "learning_rate": 9.204166666666668e-05, "loss": 3.5167, "step": 1910 }, { "epoch": 0.24, "learning_rate": 9.200000000000001e-05, "loss": 3.5294, "step": 1920 }, { "epoch": 0.25, "learning_rate": 9.195833333333334e-05, "loss": 3.5221, "step": 1930 }, { "epoch": 0.25, "learning_rate": 9.191666666666667e-05, "loss": 3.6577, "step": 1940 }, { "epoch": 0.25, "learning_rate": 9.1875e-05, "loss": 3.6815, "step": 1950 }, { "epoch": 0.25, "learning_rate": 9.183333333333333e-05, "loss": 3.6283, "step": 1960 }, { "epoch": 0.25, "learning_rate": 9.179166666666667e-05, "loss": 3.5666, "step": 1970 }, { "epoch": 0.25, "learning_rate": 9.175000000000001e-05, "loss": 3.6114, "step": 1980 }, { "epoch": 0.25, "learning_rate": 9.170833333333334e-05, "loss": 3.6437, "step": 1990 }, { "epoch": 0.25, "learning_rate": 9.166666666666667e-05, "loss": 3.6249, "step": 2000 }, { "epoch": 0.26, "learning_rate": 9.1625e-05, "loss": 3.6903, "step": 2010 }, { "epoch": 0.26, "learning_rate": 9.158333333333334e-05, "loss": 3.6114, "step": 2020 }, { "epoch": 0.26, "learning_rate": 9.154166666666666e-05, "loss": 3.6118, "step": 2030 }, { "epoch": 0.26, "learning_rate": 9.15e-05, "loss": 3.6899, "step": 2040 }, { "epoch": 0.26, "learning_rate": 9.145833333333334e-05, "loss": 3.5376, "step": 2050 }, { "epoch": 0.26, "learning_rate": 9.141666666666668e-05, "loss": 3.5762, "step": 2060 }, { "epoch": 0.26, "learning_rate": 9.1375e-05, "loss": 3.6631, "step": 2070 }, { "epoch": 0.26, "learning_rate": 9.133333333333334e-05, "loss": 3.6239, "step": 2080 }, { "epoch": 0.27, "learning_rate": 9.129166666666667e-05, "loss": 3.5948, "step": 2090 }, { "epoch": 0.27, "learning_rate": 9.125e-05, "loss": 3.7066, "step": 2100 }, { "epoch": 0.27, "learning_rate": 9.120833333333335e-05, "loss": 3.5988, "step": 2110 }, { "epoch": 0.27, "learning_rate": 9.116666666666667e-05, "loss": 3.6094, "step": 2120 }, { "epoch": 0.27, "learning_rate": 9.1125e-05, "loss": 3.6496, "step": 2130 }, { "epoch": 0.27, "learning_rate": 9.108333333333334e-05, "loss": 3.6264, "step": 2140 }, { "epoch": 0.27, "learning_rate": 9.104166666666667e-05, "loss": 3.6847, "step": 2150 }, { "epoch": 0.27, "learning_rate": 9.1e-05, "loss": 3.6219, "step": 2160 }, { "epoch": 0.28, "learning_rate": 9.095833333333334e-05, "loss": 3.5926, "step": 2170 }, { "epoch": 0.28, "learning_rate": 9.091666666666668e-05, "loss": 3.6462, "step": 2180 }, { "epoch": 0.28, "learning_rate": 9.0875e-05, "loss": 3.7046, "step": 2190 }, { "epoch": 0.28, "learning_rate": 9.083333333333334e-05, "loss": 3.6339, "step": 2200 }, { "epoch": 0.28, "learning_rate": 9.079166666666667e-05, "loss": 3.638, "step": 2210 }, { "epoch": 0.28, "learning_rate": 9.075e-05, "loss": 3.5889, "step": 2220 }, { "epoch": 0.28, "learning_rate": 9.070833333333333e-05, "loss": 3.5873, "step": 2230 }, { "epoch": 0.28, "learning_rate": 9.066666666666667e-05, "loss": 3.6018, "step": 2240 }, { "epoch": 0.29, "learning_rate": 9.062500000000001e-05, "loss": 3.6165, "step": 2250 }, { "epoch": 0.29, "learning_rate": 9.058333333333334e-05, "loss": 3.6604, "step": 2260 }, { "epoch": 0.29, "learning_rate": 9.054166666666667e-05, "loss": 3.5496, "step": 2270 }, { "epoch": 0.29, "learning_rate": 9.05e-05, "loss": 3.5681, "step": 2280 }, { "epoch": 0.29, "learning_rate": 9.045833333333333e-05, "loss": 3.6743, "step": 2290 }, { "epoch": 0.29, "learning_rate": 9.041666666666668e-05, "loss": 3.5665, "step": 2300 }, { "epoch": 0.29, "learning_rate": 9.037500000000001e-05, "loss": 3.6597, "step": 2310 }, { "epoch": 0.29, "learning_rate": 9.033333333333334e-05, "loss": 3.5597, "step": 2320 }, { "epoch": 0.3, "learning_rate": 9.029166666666667e-05, "loss": 3.5795, "step": 2330 }, { "epoch": 0.3, "learning_rate": 9.025e-05, "loss": 3.616, "step": 2340 }, { "epoch": 0.3, "learning_rate": 9.020833333333334e-05, "loss": 3.6256, "step": 2350 }, { "epoch": 0.3, "learning_rate": 9.016666666666667e-05, "loss": 3.5777, "step": 2360 }, { "epoch": 0.3, "learning_rate": 9.012500000000001e-05, "loss": 3.5951, "step": 2370 }, { "epoch": 0.3, "learning_rate": 9.008333333333335e-05, "loss": 3.5977, "step": 2380 }, { "epoch": 0.3, "learning_rate": 9.004166666666667e-05, "loss": 3.5592, "step": 2390 }, { "epoch": 0.3, "learning_rate": 9e-05, "loss": 3.577, "step": 2400 }, { "epoch": 0.31, "learning_rate": 8.995833333333333e-05, "loss": 3.6809, "step": 2410 }, { "epoch": 0.31, "learning_rate": 8.991666666666667e-05, "loss": 3.5507, "step": 2420 }, { "epoch": 0.31, "learning_rate": 8.9875e-05, "loss": 3.5874, "step": 2430 }, { "epoch": 0.31, "learning_rate": 8.983333333333334e-05, "loss": 3.5566, "step": 2440 }, { "epoch": 0.31, "learning_rate": 8.979166666666668e-05, "loss": 3.6029, "step": 2450 }, { "epoch": 0.31, "learning_rate": 8.975e-05, "loss": 3.5728, "step": 2460 }, { "epoch": 0.31, "learning_rate": 8.970833333333334e-05, "loss": 3.6276, "step": 2470 }, { "epoch": 0.31, "learning_rate": 8.966666666666666e-05, "loss": 3.5466, "step": 2480 }, { "epoch": 0.32, "learning_rate": 8.962500000000001e-05, "loss": 3.5827, "step": 2490 }, { "epoch": 0.32, "learning_rate": 8.958333333333335e-05, "loss": 3.6722, "step": 2500 }, { "epoch": 0.32, "learning_rate": 8.954166666666667e-05, "loss": 3.5451, "step": 2510 }, { "epoch": 0.32, "learning_rate": 8.950000000000001e-05, "loss": 3.5437, "step": 2520 }, { "epoch": 0.32, "learning_rate": 8.945833333333333e-05, "loss": 3.5791, "step": 2530 }, { "epoch": 0.32, "learning_rate": 8.941666666666667e-05, "loss": 3.5276, "step": 2540 }, { "epoch": 0.32, "learning_rate": 8.9375e-05, "loss": 3.5872, "step": 2550 }, { "epoch": 0.33, "learning_rate": 8.933333333333334e-05, "loss": 3.5438, "step": 2560 }, { "epoch": 0.33, "learning_rate": 8.929166666666668e-05, "loss": 3.5816, "step": 2570 }, { "epoch": 0.33, "learning_rate": 8.925e-05, "loss": 3.5472, "step": 2580 }, { "epoch": 0.33, "learning_rate": 8.920833333333334e-05, "loss": 3.5757, "step": 2590 }, { "epoch": 0.33, "learning_rate": 8.916666666666667e-05, "loss": 3.5685, "step": 2600 }, { "epoch": 0.33, "learning_rate": 8.9125e-05, "loss": 3.5189, "step": 2610 }, { "epoch": 0.33, "learning_rate": 8.908333333333333e-05, "loss": 3.6445, "step": 2620 }, { "epoch": 0.33, "learning_rate": 8.904166666666667e-05, "loss": 3.5371, "step": 2630 }, { "epoch": 0.34, "learning_rate": 8.900000000000001e-05, "loss": 3.6894, "step": 2640 }, { "epoch": 0.34, "learning_rate": 8.895833333333333e-05, "loss": 3.5709, "step": 2650 }, { "epoch": 0.34, "learning_rate": 8.891666666666667e-05, "loss": 3.6759, "step": 2660 }, { "epoch": 0.34, "learning_rate": 8.8875e-05, "loss": 3.573, "step": 2670 }, { "epoch": 0.34, "learning_rate": 8.883333333333333e-05, "loss": 3.6293, "step": 2680 }, { "epoch": 0.34, "learning_rate": 8.879166666666668e-05, "loss": 3.5639, "step": 2690 }, { "epoch": 0.34, "learning_rate": 8.875e-05, "loss": 3.5901, "step": 2700 }, { "epoch": 0.34, "learning_rate": 8.870833333333334e-05, "loss": 3.5491, "step": 2710 }, { "epoch": 0.35, "learning_rate": 8.866666666666668e-05, "loss": 3.593, "step": 2720 }, { "epoch": 0.35, "learning_rate": 8.8625e-05, "loss": 3.5188, "step": 2730 }, { "epoch": 0.35, "learning_rate": 8.858333333333334e-05, "loss": 3.5111, "step": 2740 }, { "epoch": 0.35, "learning_rate": 8.854166666666667e-05, "loss": 3.6174, "step": 2750 }, { "epoch": 0.35, "learning_rate": 8.850000000000001e-05, "loss": 3.5433, "step": 2760 }, { "epoch": 0.35, "learning_rate": 8.845833333333335e-05, "loss": 3.5762, "step": 2770 }, { "epoch": 0.35, "learning_rate": 8.841666666666667e-05, "loss": 3.6014, "step": 2780 }, { "epoch": 0.35, "learning_rate": 8.837500000000001e-05, "loss": 3.6187, "step": 2790 }, { "epoch": 0.36, "learning_rate": 8.833333333333333e-05, "loss": 3.5356, "step": 2800 }, { "epoch": 0.36, "learning_rate": 8.829166666666667e-05, "loss": 3.5976, "step": 2810 }, { "epoch": 0.36, "learning_rate": 8.825e-05, "loss": 3.6202, "step": 2820 }, { "epoch": 0.36, "learning_rate": 8.820833333333334e-05, "loss": 3.5689, "step": 2830 }, { "epoch": 0.36, "learning_rate": 8.816666666666668e-05, "loss": 3.584, "step": 2840 }, { "epoch": 0.36, "learning_rate": 8.8125e-05, "loss": 3.6313, "step": 2850 }, { "epoch": 0.36, "learning_rate": 8.808333333333334e-05, "loss": 3.4663, "step": 2860 }, { "epoch": 0.36, "learning_rate": 8.804166666666666e-05, "loss": 3.551, "step": 2870 }, { "epoch": 0.37, "learning_rate": 8.800000000000001e-05, "loss": 3.5278, "step": 2880 }, { "epoch": 0.37, "learning_rate": 8.795833333333335e-05, "loss": 3.6646, "step": 2890 }, { "epoch": 0.37, "learning_rate": 8.791666666666667e-05, "loss": 3.5352, "step": 2900 }, { "epoch": 0.37, "learning_rate": 8.787500000000001e-05, "loss": 3.5872, "step": 2910 }, { "epoch": 0.37, "learning_rate": 8.783333333333333e-05, "loss": 3.5603, "step": 2920 }, { "epoch": 0.37, "learning_rate": 8.779166666666667e-05, "loss": 3.5646, "step": 2930 }, { "epoch": 0.37, "learning_rate": 8.775e-05, "loss": 3.5852, "step": 2940 }, { "epoch": 0.37, "learning_rate": 8.770833333333334e-05, "loss": 3.5948, "step": 2950 }, { "epoch": 0.38, "learning_rate": 8.766666666666668e-05, "loss": 3.5809, "step": 2960 }, { "epoch": 0.38, "learning_rate": 8.7625e-05, "loss": 3.5288, "step": 2970 }, { "epoch": 0.38, "learning_rate": 8.758333333333334e-05, "loss": 3.5888, "step": 2980 }, { "epoch": 0.38, "learning_rate": 8.754166666666666e-05, "loss": 3.5975, "step": 2990 }, { "epoch": 0.38, "learning_rate": 8.75e-05, "loss": 3.5653, "step": 3000 }, { "epoch": 0.38, "learning_rate": 8.745833333333334e-05, "loss": 3.5267, "step": 3010 }, { "epoch": 0.38, "learning_rate": 8.741666666666667e-05, "loss": 3.5633, "step": 3020 }, { "epoch": 0.38, "learning_rate": 8.737500000000001e-05, "loss": 3.6054, "step": 3030 }, { "epoch": 0.39, "learning_rate": 8.733333333333333e-05, "loss": 3.5804, "step": 3040 }, { "epoch": 0.39, "learning_rate": 8.729166666666667e-05, "loss": 3.6081, "step": 3050 }, { "epoch": 0.39, "learning_rate": 8.725e-05, "loss": 3.542, "step": 3060 }, { "epoch": 0.39, "learning_rate": 8.720833333333333e-05, "loss": 3.4898, "step": 3070 }, { "epoch": 0.39, "learning_rate": 8.716666666666668e-05, "loss": 3.5706, "step": 3080 }, { "epoch": 0.39, "learning_rate": 8.7125e-05, "loss": 3.5234, "step": 3090 }, { "epoch": 0.39, "learning_rate": 8.708333333333334e-05, "loss": 3.5172, "step": 3100 }, { "epoch": 0.39, "learning_rate": 8.704166666666666e-05, "loss": 3.5843, "step": 3110 }, { "epoch": 0.4, "learning_rate": 8.7e-05, "loss": 3.5884, "step": 3120 }, { "epoch": 0.4, "learning_rate": 8.695833333333334e-05, "loss": 3.5674, "step": 3130 }, { "epoch": 0.4, "learning_rate": 8.691666666666667e-05, "loss": 3.5009, "step": 3140 }, { "epoch": 0.4, "learning_rate": 8.687500000000001e-05, "loss": 3.5878, "step": 3150 }, { "epoch": 0.4, "learning_rate": 8.683333333333333e-05, "loss": 3.5782, "step": 3160 }, { "epoch": 0.4, "learning_rate": 8.679166666666667e-05, "loss": 3.5315, "step": 3170 }, { "epoch": 0.4, "learning_rate": 8.675000000000001e-05, "loss": 3.548, "step": 3180 }, { "epoch": 0.41, "learning_rate": 8.670833333333333e-05, "loss": 3.5129, "step": 3190 }, { "epoch": 0.41, "learning_rate": 8.666666666666667e-05, "loss": 3.4788, "step": 3200 }, { "epoch": 0.41, "learning_rate": 8.6625e-05, "loss": 3.5658, "step": 3210 }, { "epoch": 0.41, "learning_rate": 8.658333333333334e-05, "loss": 3.6415, "step": 3220 }, { "epoch": 0.41, "learning_rate": 8.654166666666667e-05, "loss": 3.5296, "step": 3230 }, { "epoch": 0.41, "learning_rate": 8.65e-05, "loss": 3.5592, "step": 3240 }, { "epoch": 0.41, "learning_rate": 8.645833333333334e-05, "loss": 3.5959, "step": 3250 }, { "epoch": 0.41, "learning_rate": 8.641666666666666e-05, "loss": 3.5589, "step": 3260 }, { "epoch": 0.42, "learning_rate": 8.637500000000001e-05, "loss": 3.595, "step": 3270 }, { "epoch": 0.42, "learning_rate": 8.633333333333334e-05, "loss": 3.6233, "step": 3280 }, { "epoch": 0.42, "learning_rate": 8.629166666666667e-05, "loss": 3.5681, "step": 3290 }, { "epoch": 0.42, "learning_rate": 8.625000000000001e-05, "loss": 3.5758, "step": 3300 }, { "epoch": 0.42, "learning_rate": 8.620833333333333e-05, "loss": 3.6147, "step": 3310 }, { "epoch": 0.42, "learning_rate": 8.616666666666667e-05, "loss": 3.6335, "step": 3320 }, { "epoch": 0.42, "learning_rate": 8.6125e-05, "loss": 3.5977, "step": 3330 }, { "epoch": 0.42, "learning_rate": 8.608333333333334e-05, "loss": 3.5908, "step": 3340 }, { "epoch": 0.43, "learning_rate": 8.604166666666668e-05, "loss": 3.6289, "step": 3350 }, { "epoch": 0.43, "learning_rate": 8.6e-05, "loss": 3.5793, "step": 3360 }, { "epoch": 0.43, "learning_rate": 8.595833333333334e-05, "loss": 3.6071, "step": 3370 }, { "epoch": 0.43, "learning_rate": 8.591666666666666e-05, "loss": 3.559, "step": 3380 }, { "epoch": 0.43, "learning_rate": 8.5875e-05, "loss": 3.6015, "step": 3390 }, { "epoch": 0.43, "learning_rate": 8.583333333333334e-05, "loss": 3.5323, "step": 3400 }, { "epoch": 0.43, "learning_rate": 8.579166666666667e-05, "loss": 3.5883, "step": 3410 }, { "epoch": 0.43, "learning_rate": 8.575000000000001e-05, "loss": 3.5277, "step": 3420 }, { "epoch": 0.44, "learning_rate": 8.570833333333333e-05, "loss": 3.5964, "step": 3430 }, { "epoch": 0.44, "learning_rate": 8.566666666666667e-05, "loss": 3.5347, "step": 3440 }, { "epoch": 0.44, "learning_rate": 8.5625e-05, "loss": 3.5467, "step": 3450 }, { "epoch": 0.44, "learning_rate": 8.558333333333333e-05, "loss": 3.5546, "step": 3460 }, { "epoch": 0.44, "learning_rate": 8.554166666666668e-05, "loss": 3.5645, "step": 3470 }, { "epoch": 0.44, "learning_rate": 8.55e-05, "loss": 3.6104, "step": 3480 }, { "epoch": 0.44, "learning_rate": 8.545833333333334e-05, "loss": 3.5779, "step": 3490 }, { "epoch": 0.44, "learning_rate": 8.541666666666666e-05, "loss": 3.5404, "step": 3500 }, { "epoch": 0.45, "learning_rate": 8.5375e-05, "loss": 3.5237, "step": 3510 }, { "epoch": 0.45, "learning_rate": 8.533333333333334e-05, "loss": 3.6821, "step": 3520 }, { "epoch": 0.45, "learning_rate": 8.529166666666668e-05, "loss": 3.5769, "step": 3530 }, { "epoch": 0.45, "learning_rate": 8.525000000000001e-05, "loss": 3.5597, "step": 3540 }, { "epoch": 0.45, "learning_rate": 8.520833333333334e-05, "loss": 3.5896, "step": 3550 }, { "epoch": 0.45, "learning_rate": 8.516666666666667e-05, "loss": 3.5191, "step": 3560 }, { "epoch": 0.45, "learning_rate": 8.5125e-05, "loss": 3.5904, "step": 3570 }, { "epoch": 0.45, "learning_rate": 8.508333333333333e-05, "loss": 3.611, "step": 3580 }, { "epoch": 0.46, "learning_rate": 8.504166666666667e-05, "loss": 3.608, "step": 3590 }, { "epoch": 0.46, "learning_rate": 8.5e-05, "loss": 3.5337, "step": 3600 }, { "epoch": 0.46, "learning_rate": 8.495833333333334e-05, "loss": 3.4978, "step": 3610 }, { "epoch": 0.46, "learning_rate": 8.491666666666667e-05, "loss": 3.4914, "step": 3620 }, { "epoch": 0.46, "learning_rate": 8.4875e-05, "loss": 3.5841, "step": 3630 }, { "epoch": 0.46, "learning_rate": 8.483333333333334e-05, "loss": 3.6888, "step": 3640 }, { "epoch": 0.46, "learning_rate": 8.479166666666666e-05, "loss": 3.5585, "step": 3650 }, { "epoch": 0.46, "learning_rate": 8.475000000000001e-05, "loss": 3.4403, "step": 3660 }, { "epoch": 0.47, "learning_rate": 8.470833333333334e-05, "loss": 3.5531, "step": 3670 }, { "epoch": 0.47, "learning_rate": 8.466666666666667e-05, "loss": 3.5483, "step": 3680 }, { "epoch": 0.47, "learning_rate": 8.4625e-05, "loss": 3.6014, "step": 3690 }, { "epoch": 0.47, "learning_rate": 8.458333333333333e-05, "loss": 3.5384, "step": 3700 }, { "epoch": 0.47, "learning_rate": 8.454166666666667e-05, "loss": 3.4553, "step": 3710 }, { "epoch": 0.47, "learning_rate": 8.450000000000001e-05, "loss": 3.568, "step": 3720 }, { "epoch": 0.47, "learning_rate": 8.445833333333334e-05, "loss": 3.4683, "step": 3730 }, { "epoch": 0.47, "learning_rate": 8.441666666666667e-05, "loss": 3.521, "step": 3740 }, { "epoch": 0.48, "learning_rate": 8.4375e-05, "loss": 3.671, "step": 3750 }, { "epoch": 0.48, "learning_rate": 8.433333333333334e-05, "loss": 3.6247, "step": 3760 }, { "epoch": 0.48, "learning_rate": 8.429166666666666e-05, "loss": 3.5611, "step": 3770 }, { "epoch": 0.48, "learning_rate": 8.425e-05, "loss": 3.5846, "step": 3780 }, { "epoch": 0.48, "learning_rate": 8.420833333333334e-05, "loss": 3.5522, "step": 3790 }, { "epoch": 0.48, "learning_rate": 8.416666666666668e-05, "loss": 3.5258, "step": 3800 }, { "epoch": 0.48, "learning_rate": 8.412500000000001e-05, "loss": 3.6439, "step": 3810 }, { "epoch": 0.49, "learning_rate": 8.408333333333334e-05, "loss": 3.5508, "step": 3820 }, { "epoch": 0.49, "learning_rate": 8.404166666666667e-05, "loss": 3.5548, "step": 3830 }, { "epoch": 0.49, "learning_rate": 8.4e-05, "loss": 3.5514, "step": 3840 }, { "epoch": 0.49, "learning_rate": 8.395833333333333e-05, "loss": 3.5882, "step": 3850 }, { "epoch": 0.49, "learning_rate": 8.391666666666667e-05, "loss": 3.5604, "step": 3860 }, { "epoch": 0.49, "learning_rate": 8.3875e-05, "loss": 3.6402, "step": 3870 }, { "epoch": 0.49, "learning_rate": 8.383333333333334e-05, "loss": 3.509, "step": 3880 }, { "epoch": 0.49, "learning_rate": 8.379166666666667e-05, "loss": 3.6873, "step": 3890 }, { "epoch": 0.5, "learning_rate": 8.375e-05, "loss": 3.5629, "step": 3900 }, { "epoch": 0.5, "learning_rate": 8.370833333333334e-05, "loss": 3.6112, "step": 3910 }, { "epoch": 0.5, "learning_rate": 8.366666666666668e-05, "loss": 3.6512, "step": 3920 }, { "epoch": 0.5, "learning_rate": 8.362500000000001e-05, "loss": 3.6235, "step": 3930 }, { "epoch": 0.5, "learning_rate": 8.358333333333334e-05, "loss": 3.6178, "step": 3940 }, { "epoch": 0.5, "learning_rate": 8.354166666666667e-05, "loss": 3.5812, "step": 3950 }, { "epoch": 0.5, "learning_rate": 8.35e-05, "loss": 3.5623, "step": 3960 }, { "epoch": 0.5, "learning_rate": 8.345833333333333e-05, "loss": 3.604, "step": 3970 }, { "epoch": 0.51, "learning_rate": 8.341666666666667e-05, "loss": 3.514, "step": 3980 }, { "epoch": 0.51, "learning_rate": 8.337500000000001e-05, "loss": 3.5046, "step": 3990 }, { "epoch": 0.51, "learning_rate": 8.333333333333334e-05, "loss": 3.5992, "step": 4000 }, { "epoch": 0.51, "learning_rate": 8.329166666666667e-05, "loss": 3.6196, "step": 4010 }, { "epoch": 0.51, "learning_rate": 8.325e-05, "loss": 3.6404, "step": 4020 }, { "epoch": 0.51, "learning_rate": 8.320833333333333e-05, "loss": 3.5881, "step": 4030 }, { "epoch": 0.51, "learning_rate": 8.316666666666666e-05, "loss": 3.5469, "step": 4040 }, { "epoch": 0.51, "learning_rate": 8.312500000000001e-05, "loss": 3.6347, "step": 4050 }, { "epoch": 0.52, "learning_rate": 8.308333333333334e-05, "loss": 3.5652, "step": 4060 }, { "epoch": 0.52, "learning_rate": 8.304166666666667e-05, "loss": 3.5397, "step": 4070 }, { "epoch": 0.52, "learning_rate": 8.3e-05, "loss": 3.5893, "step": 4080 }, { "epoch": 0.52, "learning_rate": 8.295833333333333e-05, "loss": 3.7198, "step": 4090 }, { "epoch": 0.52, "learning_rate": 8.291666666666667e-05, "loss": 3.6358, "step": 4100 }, { "epoch": 0.52, "learning_rate": 8.287500000000001e-05, "loss": 3.5774, "step": 4110 }, { "epoch": 0.52, "learning_rate": 8.283333333333335e-05, "loss": 3.6091, "step": 4120 }, { "epoch": 0.52, "learning_rate": 8.279166666666667e-05, "loss": 3.5642, "step": 4130 }, { "epoch": 0.53, "learning_rate": 8.275e-05, "loss": 3.6204, "step": 4140 }, { "epoch": 0.53, "learning_rate": 8.270833333333333e-05, "loss": 3.6095, "step": 4150 }, { "epoch": 0.53, "learning_rate": 8.266666666666667e-05, "loss": 3.4866, "step": 4160 }, { "epoch": 0.53, "learning_rate": 8.2625e-05, "loss": 3.617, "step": 4170 }, { "epoch": 0.53, "learning_rate": 8.258333333333334e-05, "loss": 3.6752, "step": 4180 }, { "epoch": 0.53, "learning_rate": 8.254166666666668e-05, "loss": 3.6078, "step": 4190 }, { "epoch": 0.53, "learning_rate": 8.25e-05, "loss": 3.6327, "step": 4200 }, { "epoch": 0.53, "learning_rate": 8.245833333333334e-05, "loss": 3.5697, "step": 4210 }, { "epoch": 0.54, "learning_rate": 8.241666666666667e-05, "loss": 3.5216, "step": 4220 }, { "epoch": 0.54, "learning_rate": 8.2375e-05, "loss": 3.5554, "step": 4230 }, { "epoch": 0.54, "learning_rate": 8.233333333333333e-05, "loss": 3.5954, "step": 4240 }, { "epoch": 0.54, "learning_rate": 8.229166666666667e-05, "loss": 3.5724, "step": 4250 }, { "epoch": 0.54, "learning_rate": 8.225000000000001e-05, "loss": 3.6008, "step": 4260 }, { "epoch": 0.54, "learning_rate": 8.220833333333334e-05, "loss": 3.5765, "step": 4270 }, { "epoch": 0.54, "learning_rate": 8.216666666666667e-05, "loss": 3.5846, "step": 4280 }, { "epoch": 0.54, "learning_rate": 8.2125e-05, "loss": 3.483, "step": 4290 }, { "epoch": 0.55, "learning_rate": 8.208333333333334e-05, "loss": 3.6283, "step": 4300 }, { "epoch": 0.55, "learning_rate": 8.204166666666668e-05, "loss": 3.5488, "step": 4310 }, { "epoch": 0.55, "learning_rate": 8.2e-05, "loss": 3.662, "step": 4320 }, { "epoch": 0.55, "learning_rate": 8.195833333333334e-05, "loss": 3.644, "step": 4330 }, { "epoch": 0.55, "learning_rate": 8.191666666666667e-05, "loss": 3.5158, "step": 4340 }, { "epoch": 0.55, "learning_rate": 8.1875e-05, "loss": 3.5948, "step": 4350 }, { "epoch": 0.55, "learning_rate": 8.183333333333333e-05, "loss": 3.6159, "step": 4360 }, { "epoch": 0.55, "learning_rate": 8.179166666666667e-05, "loss": 3.5238, "step": 4370 }, { "epoch": 0.56, "learning_rate": 8.175000000000001e-05, "loss": 3.5101, "step": 4380 }, { "epoch": 0.56, "learning_rate": 8.170833333333335e-05, "loss": 3.5034, "step": 4390 }, { "epoch": 0.56, "learning_rate": 8.166666666666667e-05, "loss": 3.6427, "step": 4400 }, { "epoch": 0.56, "learning_rate": 8.1625e-05, "loss": 3.4548, "step": 4410 }, { "epoch": 0.56, "learning_rate": 8.158333333333333e-05, "loss": 3.6167, "step": 4420 }, { "epoch": 0.56, "learning_rate": 8.154166666666667e-05, "loss": 3.5687, "step": 4430 }, { "epoch": 0.56, "learning_rate": 8.15e-05, "loss": 3.4888, "step": 4440 }, { "epoch": 0.57, "learning_rate": 8.145833333333334e-05, "loss": 3.617, "step": 4450 }, { "epoch": 0.57, "learning_rate": 8.141666666666668e-05, "loss": 3.5811, "step": 4460 }, { "epoch": 0.57, "learning_rate": 8.1375e-05, "loss": 3.5973, "step": 4470 }, { "epoch": 0.57, "learning_rate": 8.133333333333334e-05, "loss": 3.5755, "step": 4480 }, { "epoch": 0.57, "learning_rate": 8.129166666666666e-05, "loss": 3.5174, "step": 4490 }, { "epoch": 0.57, "learning_rate": 8.125000000000001e-05, "loss": 3.5322, "step": 4500 }, { "epoch": 0.57, "learning_rate": 8.120833333333335e-05, "loss": 3.6837, "step": 4510 }, { "epoch": 0.57, "learning_rate": 8.116666666666667e-05, "loss": 3.6291, "step": 4520 }, { "epoch": 0.58, "learning_rate": 8.112500000000001e-05, "loss": 3.587, "step": 4530 }, { "epoch": 0.58, "learning_rate": 8.108333333333333e-05, "loss": 3.4809, "step": 4540 }, { "epoch": 0.58, "learning_rate": 8.104166666666667e-05, "loss": 3.6029, "step": 4550 }, { "epoch": 0.58, "learning_rate": 8.1e-05, "loss": 3.6137, "step": 4560 }, { "epoch": 0.58, "learning_rate": 8.095833333333334e-05, "loss": 3.5583, "step": 4570 }, { "epoch": 0.58, "learning_rate": 8.091666666666668e-05, "loss": 3.5253, "step": 4580 }, { "epoch": 0.58, "learning_rate": 8.0875e-05, "loss": 3.5053, "step": 4590 }, { "epoch": 0.58, "learning_rate": 8.083333333333334e-05, "loss": 3.5736, "step": 4600 }, { "epoch": 0.59, "learning_rate": 8.079166666666666e-05, "loss": 3.6078, "step": 4610 }, { "epoch": 0.59, "learning_rate": 8.075e-05, "loss": 3.5355, "step": 4620 }, { "epoch": 0.59, "learning_rate": 8.070833333333335e-05, "loss": 3.5972, "step": 4630 }, { "epoch": 0.59, "learning_rate": 8.066666666666667e-05, "loss": 3.5816, "step": 4640 }, { "epoch": 0.59, "learning_rate": 8.062500000000001e-05, "loss": 3.5812, "step": 4650 }, { "epoch": 0.59, "learning_rate": 8.058333333333333e-05, "loss": 3.6055, "step": 4660 }, { "epoch": 0.59, "learning_rate": 8.054166666666667e-05, "loss": 3.6101, "step": 4670 }, { "epoch": 0.59, "learning_rate": 8.05e-05, "loss": 3.5963, "step": 4680 }, { "epoch": 0.6, "learning_rate": 8.045833333333334e-05, "loss": 3.5943, "step": 4690 }, { "epoch": 0.6, "learning_rate": 8.041666666666668e-05, "loss": 3.5905, "step": 4700 }, { "epoch": 0.6, "learning_rate": 8.0375e-05, "loss": 3.4845, "step": 4710 }, { "epoch": 0.6, "learning_rate": 8.033333333333334e-05, "loss": 3.6023, "step": 4720 }, { "epoch": 0.6, "learning_rate": 8.029166666666666e-05, "loss": 3.6224, "step": 4730 }, { "epoch": 0.6, "learning_rate": 8.025e-05, "loss": 3.5426, "step": 4740 }, { "epoch": 0.6, "learning_rate": 8.020833333333334e-05, "loss": 3.53, "step": 4750 }, { "epoch": 0.6, "learning_rate": 8.016666666666667e-05, "loss": 3.5731, "step": 4760 }, { "epoch": 0.61, "learning_rate": 8.012500000000001e-05, "loss": 3.5987, "step": 4770 }, { "epoch": 0.61, "learning_rate": 8.008333333333333e-05, "loss": 3.5692, "step": 4780 }, { "epoch": 0.61, "learning_rate": 8.004166666666667e-05, "loss": 3.609, "step": 4790 }, { "epoch": 0.61, "learning_rate": 8e-05, "loss": 3.58, "step": 4800 }, { "epoch": 0.61, "learning_rate": 7.995833333333333e-05, "loss": 3.5773, "step": 4810 }, { "epoch": 0.61, "learning_rate": 7.991666666666667e-05, "loss": 3.5839, "step": 4820 }, { "epoch": 0.61, "learning_rate": 7.9875e-05, "loss": 3.531, "step": 4830 }, { "epoch": 0.61, "learning_rate": 7.983333333333334e-05, "loss": 3.5792, "step": 4840 }, { "epoch": 0.62, "learning_rate": 7.979166666666668e-05, "loss": 3.6252, "step": 4850 }, { "epoch": 0.62, "learning_rate": 7.975e-05, "loss": 3.6222, "step": 4860 }, { "epoch": 0.62, "learning_rate": 7.970833333333334e-05, "loss": 3.627, "step": 4870 }, { "epoch": 0.62, "learning_rate": 7.966666666666666e-05, "loss": 3.5692, "step": 4880 }, { "epoch": 0.62, "learning_rate": 7.962500000000001e-05, "loss": 3.6166, "step": 4890 }, { "epoch": 0.62, "learning_rate": 7.958333333333333e-05, "loss": 3.6172, "step": 4900 }, { "epoch": 0.62, "learning_rate": 7.954166666666667e-05, "loss": 3.549, "step": 4910 }, { "epoch": 0.62, "learning_rate": 7.950000000000001e-05, "loss": 3.64, "step": 4920 }, { "epoch": 0.63, "learning_rate": 7.945833333333333e-05, "loss": 3.5726, "step": 4930 }, { "epoch": 0.63, "learning_rate": 7.941666666666667e-05, "loss": 3.472, "step": 4940 }, { "epoch": 0.63, "learning_rate": 7.9375e-05, "loss": 3.5556, "step": 4950 }, { "epoch": 0.63, "learning_rate": 7.933333333333334e-05, "loss": 3.6197, "step": 4960 }, { "epoch": 0.63, "learning_rate": 7.929166666666668e-05, "loss": 3.4841, "step": 4970 }, { "epoch": 0.63, "learning_rate": 7.925e-05, "loss": 3.583, "step": 4980 }, { "epoch": 0.63, "learning_rate": 7.920833333333334e-05, "loss": 3.6083, "step": 4990 }, { "epoch": 0.63, "learning_rate": 7.916666666666666e-05, "loss": 3.6286, "step": 5000 }, { "epoch": 0.64, "learning_rate": 7.9125e-05, "loss": 3.6039, "step": 5010 }, { "epoch": 0.64, "learning_rate": 7.908333333333335e-05, "loss": 3.6782, "step": 5020 }, { "epoch": 0.64, "learning_rate": 7.904166666666667e-05, "loss": 3.5572, "step": 5030 }, { "epoch": 0.64, "learning_rate": 7.900000000000001e-05, "loss": 3.5877, "step": 5040 }, { "epoch": 0.64, "learning_rate": 7.895833333333333e-05, "loss": 3.6277, "step": 5050 }, { "epoch": 0.64, "learning_rate": 7.891666666666667e-05, "loss": 3.575, "step": 5060 }, { "epoch": 0.64, "learning_rate": 7.887499999999999e-05, "loss": 3.5921, "step": 5070 }, { "epoch": 0.65, "learning_rate": 7.883333333333334e-05, "loss": 3.6023, "step": 5080 }, { "epoch": 0.65, "learning_rate": 7.879166666666668e-05, "loss": 3.5427, "step": 5090 }, { "epoch": 0.65, "learning_rate": 7.875e-05, "loss": 3.6063, "step": 5100 }, { "epoch": 0.65, "learning_rate": 7.870833333333334e-05, "loss": 3.6503, "step": 5110 }, { "epoch": 0.65, "learning_rate": 7.866666666666666e-05, "loss": 3.486, "step": 5120 }, { "epoch": 0.65, "learning_rate": 7.8625e-05, "loss": 3.6132, "step": 5130 }, { "epoch": 0.65, "learning_rate": 7.858333333333334e-05, "loss": 3.6411, "step": 5140 }, { "epoch": 0.65, "learning_rate": 7.854166666666667e-05, "loss": 3.6532, "step": 5150 }, { "epoch": 0.66, "learning_rate": 7.850000000000001e-05, "loss": 3.592, "step": 5160 }, { "epoch": 0.66, "learning_rate": 7.845833333333333e-05, "loss": 3.6006, "step": 5170 }, { "epoch": 0.66, "learning_rate": 7.841666666666667e-05, "loss": 3.5708, "step": 5180 }, { "epoch": 0.66, "learning_rate": 7.8375e-05, "loss": 3.4465, "step": 5190 }, { "epoch": 0.66, "learning_rate": 7.833333333333333e-05, "loss": 3.6227, "step": 5200 }, { "epoch": 0.66, "learning_rate": 7.829166666666667e-05, "loss": 3.6649, "step": 5210 }, { "epoch": 0.66, "learning_rate": 7.825e-05, "loss": 3.6357, "step": 5220 }, { "epoch": 0.66, "learning_rate": 7.820833333333334e-05, "loss": 3.5557, "step": 5230 }, { "epoch": 0.67, "learning_rate": 7.816666666666666e-05, "loss": 3.6042, "step": 5240 }, { "epoch": 0.67, "learning_rate": 7.8125e-05, "loss": 3.7021, "step": 5250 }, { "epoch": 0.67, "learning_rate": 7.808333333333334e-05, "loss": 3.6158, "step": 5260 }, { "epoch": 0.67, "learning_rate": 7.804166666666666e-05, "loss": 3.5807, "step": 5270 }, { "epoch": 0.67, "learning_rate": 7.800000000000001e-05, "loss": 3.6692, "step": 5280 }, { "epoch": 0.67, "learning_rate": 7.795833333333334e-05, "loss": 3.5827, "step": 5290 }, { "epoch": 0.67, "learning_rate": 7.791666666666667e-05, "loss": 3.5021, "step": 5300 }, { "epoch": 0.67, "learning_rate": 7.787500000000001e-05, "loss": 3.5635, "step": 5310 }, { "epoch": 0.68, "learning_rate": 7.783333333333333e-05, "loss": 3.5199, "step": 5320 }, { "epoch": 0.68, "learning_rate": 7.779166666666667e-05, "loss": 3.5815, "step": 5330 }, { "epoch": 0.68, "learning_rate": 7.775e-05, "loss": 3.5408, "step": 5340 }, { "epoch": 0.68, "learning_rate": 7.770833333333334e-05, "loss": 3.6337, "step": 5350 }, { "epoch": 0.68, "learning_rate": 7.766666666666667e-05, "loss": 3.6977, "step": 5360 }, { "epoch": 0.68, "learning_rate": 7.7625e-05, "loss": 3.5419, "step": 5370 }, { "epoch": 0.68, "learning_rate": 7.758333333333334e-05, "loss": 3.6615, "step": 5380 }, { "epoch": 0.68, "learning_rate": 7.754166666666666e-05, "loss": 3.5808, "step": 5390 }, { "epoch": 0.69, "learning_rate": 7.75e-05, "loss": 3.6164, "step": 5400 }, { "epoch": 0.69, "learning_rate": 7.745833333333334e-05, "loss": 3.5611, "step": 5410 }, { "epoch": 0.69, "learning_rate": 7.741666666666667e-05, "loss": 3.5983, "step": 5420 }, { "epoch": 0.69, "learning_rate": 7.737500000000001e-05, "loss": 3.65, "step": 5430 }, { "epoch": 0.69, "learning_rate": 7.733333333333333e-05, "loss": 3.492, "step": 5440 }, { "epoch": 0.69, "learning_rate": 7.729166666666667e-05, "loss": 3.6027, "step": 5450 }, { "epoch": 0.69, "learning_rate": 7.725e-05, "loss": 3.5726, "step": 5460 }, { "epoch": 0.69, "learning_rate": 7.720833333333334e-05, "loss": 3.655, "step": 5470 }, { "epoch": 0.7, "learning_rate": 7.716666666666667e-05, "loss": 3.5587, "step": 5480 }, { "epoch": 0.7, "learning_rate": 7.7125e-05, "loss": 3.6136, "step": 5490 }, { "epoch": 0.7, "learning_rate": 7.708333333333334e-05, "loss": 3.7317, "step": 5500 }, { "epoch": 0.7, "learning_rate": 7.704166666666666e-05, "loss": 3.5423, "step": 5510 }, { "epoch": 0.7, "learning_rate": 7.7e-05, "loss": 3.5956, "step": 5520 }, { "epoch": 0.7, "learning_rate": 7.695833333333334e-05, "loss": 3.5298, "step": 5530 }, { "epoch": 0.7, "learning_rate": 7.691666666666668e-05, "loss": 3.6145, "step": 5540 }, { "epoch": 0.7, "learning_rate": 7.687500000000001e-05, "loss": 3.5994, "step": 5550 }, { "epoch": 0.71, "learning_rate": 7.683333333333334e-05, "loss": 3.6129, "step": 5560 }, { "epoch": 0.71, "learning_rate": 7.679166666666667e-05, "loss": 3.6203, "step": 5570 }, { "epoch": 0.71, "learning_rate": 7.675e-05, "loss": 3.6052, "step": 5580 }, { "epoch": 0.71, "learning_rate": 7.670833333333333e-05, "loss": 3.6751, "step": 5590 }, { "epoch": 0.71, "learning_rate": 7.666666666666667e-05, "loss": 3.6544, "step": 5600 }, { "epoch": 0.71, "learning_rate": 7.6625e-05, "loss": 3.594, "step": 5610 }, { "epoch": 0.71, "learning_rate": 7.658333333333334e-05, "loss": 3.6104, "step": 5620 }, { "epoch": 0.71, "learning_rate": 7.654166666666667e-05, "loss": 3.5696, "step": 5630 }, { "epoch": 0.72, "learning_rate": 7.65e-05, "loss": 3.6245, "step": 5640 }, { "epoch": 0.72, "learning_rate": 7.645833333333333e-05, "loss": 3.6363, "step": 5650 }, { "epoch": 0.72, "learning_rate": 7.641666666666668e-05, "loss": 3.5791, "step": 5660 }, { "epoch": 0.72, "learning_rate": 7.637500000000001e-05, "loss": 3.5783, "step": 5670 }, { "epoch": 0.72, "learning_rate": 7.633333333333334e-05, "loss": 3.6416, "step": 5680 }, { "epoch": 0.72, "learning_rate": 7.629166666666667e-05, "loss": 3.6714, "step": 5690 }, { "epoch": 0.72, "learning_rate": 7.625e-05, "loss": 3.5001, "step": 5700 }, { "epoch": 0.73, "learning_rate": 7.620833333333333e-05, "loss": 3.502, "step": 5710 }, { "epoch": 0.73, "learning_rate": 7.616666666666667e-05, "loss": 3.585, "step": 5720 }, { "epoch": 0.73, "learning_rate": 7.612500000000001e-05, "loss": 3.5355, "step": 5730 }, { "epoch": 0.73, "learning_rate": 7.608333333333334e-05, "loss": 3.5467, "step": 5740 }, { "epoch": 0.73, "learning_rate": 7.604166666666667e-05, "loss": 3.6266, "step": 5750 }, { "epoch": 0.73, "learning_rate": 7.6e-05, "loss": 3.6623, "step": 5760 }, { "epoch": 0.73, "learning_rate": 7.595833333333334e-05, "loss": 3.5713, "step": 5770 }, { "epoch": 0.73, "learning_rate": 7.591666666666666e-05, "loss": 3.5865, "step": 5780 }, { "epoch": 0.74, "learning_rate": 7.5875e-05, "loss": 3.5256, "step": 5790 }, { "epoch": 0.74, "learning_rate": 7.583333333333334e-05, "loss": 3.5898, "step": 5800 }, { "epoch": 0.74, "learning_rate": 7.579166666666667e-05, "loss": 3.6288, "step": 5810 }, { "epoch": 0.74, "learning_rate": 7.575e-05, "loss": 3.5965, "step": 5820 }, { "epoch": 0.74, "learning_rate": 7.570833333333333e-05, "loss": 3.5972, "step": 5830 }, { "epoch": 0.74, "learning_rate": 7.566666666666667e-05, "loss": 3.5695, "step": 5840 }, { "epoch": 0.74, "learning_rate": 7.5625e-05, "loss": 3.6182, "step": 5850 }, { "epoch": 0.74, "learning_rate": 7.558333333333335e-05, "loss": 3.5899, "step": 5860 }, { "epoch": 0.75, "learning_rate": 7.554166666666667e-05, "loss": 3.5776, "step": 5870 }, { "epoch": 0.75, "learning_rate": 7.55e-05, "loss": 3.5523, "step": 5880 }, { "epoch": 0.75, "learning_rate": 7.545833333333334e-05, "loss": 3.5161, "step": 5890 }, { "epoch": 0.75, "learning_rate": 7.541666666666667e-05, "loss": 3.696, "step": 5900 }, { "epoch": 0.75, "learning_rate": 7.5375e-05, "loss": 3.6256, "step": 5910 }, { "epoch": 0.75, "learning_rate": 7.533333333333334e-05, "loss": 3.5272, "step": 5920 }, { "epoch": 0.75, "learning_rate": 7.529166666666668e-05, "loss": 3.6017, "step": 5930 }, { "epoch": 0.75, "learning_rate": 7.525e-05, "loss": 3.6112, "step": 5940 }, { "epoch": 0.76, "learning_rate": 7.520833333333334e-05, "loss": 3.5916, "step": 5950 }, { "epoch": 0.76, "learning_rate": 7.516666666666667e-05, "loss": 3.5972, "step": 5960 }, { "epoch": 0.76, "learning_rate": 7.5125e-05, "loss": 3.6372, "step": 5970 }, { "epoch": 0.76, "learning_rate": 7.508333333333333e-05, "loss": 3.6178, "step": 5980 }, { "epoch": 0.76, "learning_rate": 7.504166666666667e-05, "loss": 3.6852, "step": 5990 }, { "epoch": 0.76, "learning_rate": 7.500000000000001e-05, "loss": 3.6744, "step": 6000 }, { "epoch": 0.76, "learning_rate": 7.495833333333334e-05, "loss": 3.637, "step": 6010 }, { "epoch": 0.76, "learning_rate": 7.491666666666667e-05, "loss": 3.613, "step": 6020 }, { "epoch": 0.77, "learning_rate": 7.4875e-05, "loss": 3.5574, "step": 6030 }, { "epoch": 0.77, "learning_rate": 7.483333333333333e-05, "loss": 3.693, "step": 6040 }, { "epoch": 0.77, "learning_rate": 7.479166666666668e-05, "loss": 3.6124, "step": 6050 }, { "epoch": 0.77, "learning_rate": 7.475000000000001e-05, "loss": 3.6032, "step": 6060 }, { "epoch": 0.77, "learning_rate": 7.470833333333334e-05, "loss": 3.6401, "step": 6070 }, { "epoch": 0.77, "learning_rate": 7.466666666666667e-05, "loss": 3.673, "step": 6080 }, { "epoch": 0.77, "learning_rate": 7.4625e-05, "loss": 3.626, "step": 6090 }, { "epoch": 0.77, "learning_rate": 7.458333333333333e-05, "loss": 3.5867, "step": 6100 }, { "epoch": 0.78, "learning_rate": 7.454166666666667e-05, "loss": 3.5955, "step": 6110 }, { "epoch": 0.78, "learning_rate": 7.450000000000001e-05, "loss": 3.6471, "step": 6120 }, { "epoch": 0.78, "learning_rate": 7.445833333333335e-05, "loss": 3.5714, "step": 6130 }, { "epoch": 0.78, "learning_rate": 7.441666666666667e-05, "loss": 3.5623, "step": 6140 }, { "epoch": 0.78, "learning_rate": 7.4375e-05, "loss": 3.6082, "step": 6150 }, { "epoch": 0.78, "learning_rate": 7.433333333333333e-05, "loss": 3.6811, "step": 6160 }, { "epoch": 0.78, "learning_rate": 7.429166666666667e-05, "loss": 3.5692, "step": 6170 }, { "epoch": 0.78, "learning_rate": 7.425e-05, "loss": 3.6096, "step": 6180 }, { "epoch": 0.79, "learning_rate": 7.420833333333334e-05, "loss": 3.5637, "step": 6190 }, { "epoch": 0.79, "learning_rate": 7.416666666666668e-05, "loss": 3.5481, "step": 6200 }, { "epoch": 0.79, "learning_rate": 7.4125e-05, "loss": 3.6366, "step": 6210 }, { "epoch": 0.79, "learning_rate": 7.408333333333334e-05, "loss": 3.6967, "step": 6220 }, { "epoch": 0.79, "learning_rate": 7.404166666666666e-05, "loss": 3.6183, "step": 6230 }, { "epoch": 0.79, "learning_rate": 7.4e-05, "loss": 3.6573, "step": 6240 }, { "epoch": 0.79, "learning_rate": 7.395833333333335e-05, "loss": 3.568, "step": 6250 }, { "epoch": 0.79, "learning_rate": 7.391666666666667e-05, "loss": 3.6373, "step": 6260 }, { "epoch": 0.8, "learning_rate": 7.3875e-05, "loss": 3.5763, "step": 6270 }, { "epoch": 0.8, "learning_rate": 7.383333333333333e-05, "loss": 3.5712, "step": 6280 }, { "epoch": 0.8, "learning_rate": 7.379166666666667e-05, "loss": 3.6983, "step": 6290 }, { "epoch": 0.8, "learning_rate": 7.375e-05, "loss": 3.6403, "step": 6300 }, { "epoch": 0.8, "learning_rate": 7.370833333333334e-05, "loss": 3.5991, "step": 6310 }, { "epoch": 0.8, "learning_rate": 7.366666666666668e-05, "loss": 3.6517, "step": 6320 }, { "epoch": 0.8, "learning_rate": 7.3625e-05, "loss": 3.5366, "step": 6330 }, { "epoch": 0.81, "learning_rate": 7.358333333333334e-05, "loss": 3.5838, "step": 6340 }, { "epoch": 0.81, "learning_rate": 7.354166666666667e-05, "loss": 3.5929, "step": 6350 }, { "epoch": 0.81, "learning_rate": 7.35e-05, "loss": 3.6244, "step": 6360 }, { "epoch": 0.81, "learning_rate": 7.345833333333333e-05, "loss": 3.6554, "step": 6370 }, { "epoch": 0.81, "learning_rate": 7.341666666666667e-05, "loss": 3.5908, "step": 6380 }, { "epoch": 0.81, "learning_rate": 7.337500000000001e-05, "loss": 3.5754, "step": 6390 }, { "epoch": 0.81, "learning_rate": 7.333333333333333e-05, "loss": 3.5116, "step": 6400 }, { "epoch": 0.81, "learning_rate": 7.329166666666667e-05, "loss": 3.6581, "step": 6410 }, { "epoch": 0.82, "learning_rate": 7.325e-05, "loss": 3.6699, "step": 6420 }, { "epoch": 0.82, "learning_rate": 7.320833333333333e-05, "loss": 3.6547, "step": 6430 }, { "epoch": 0.82, "learning_rate": 7.316666666666668e-05, "loss": 3.5862, "step": 6440 }, { "epoch": 0.82, "learning_rate": 7.3125e-05, "loss": 3.5927, "step": 6450 }, { "epoch": 0.82, "learning_rate": 7.308333333333334e-05, "loss": 3.5676, "step": 6460 }, { "epoch": 0.82, "learning_rate": 7.304166666666668e-05, "loss": 3.583, "step": 6470 }, { "epoch": 0.82, "learning_rate": 7.3e-05, "loss": 3.6514, "step": 6480 }, { "epoch": 0.82, "learning_rate": 7.295833333333334e-05, "loss": 3.7006, "step": 6490 }, { "epoch": 0.83, "learning_rate": 7.291666666666667e-05, "loss": 3.6397, "step": 6500 }, { "epoch": 0.83, "learning_rate": 7.287500000000001e-05, "loss": 3.5993, "step": 6510 }, { "epoch": 0.83, "learning_rate": 7.283333333333335e-05, "loss": 3.5214, "step": 6520 }, { "epoch": 0.83, "learning_rate": 7.279166666666667e-05, "loss": 3.697, "step": 6530 }, { "epoch": 0.83, "learning_rate": 7.275e-05, "loss": 3.5773, "step": 6540 }, { "epoch": 0.83, "learning_rate": 7.270833333333333e-05, "loss": 3.6391, "step": 6550 }, { "epoch": 0.83, "learning_rate": 7.266666666666667e-05, "loss": 3.6754, "step": 6560 }, { "epoch": 0.83, "learning_rate": 7.2625e-05, "loss": 3.6288, "step": 6570 }, { "epoch": 0.84, "learning_rate": 7.258333333333334e-05, "loss": 3.6624, "step": 6580 }, { "epoch": 0.84, "learning_rate": 7.254166666666668e-05, "loss": 3.5863, "step": 6590 }, { "epoch": 0.84, "learning_rate": 7.25e-05, "loss": 3.6313, "step": 6600 }, { "epoch": 0.84, "learning_rate": 7.245833333333334e-05, "loss": 3.6312, "step": 6610 }, { "epoch": 0.84, "learning_rate": 7.241666666666666e-05, "loss": 3.6251, "step": 6620 }, { "epoch": 0.84, "learning_rate": 7.2375e-05, "loss": 3.5856, "step": 6630 }, { "epoch": 0.84, "learning_rate": 7.233333333333335e-05, "loss": 3.6479, "step": 6640 }, { "epoch": 0.84, "learning_rate": 7.229166666666667e-05, "loss": 3.6932, "step": 6650 }, { "epoch": 0.85, "learning_rate": 7.225000000000001e-05, "loss": 3.5276, "step": 6660 }, { "epoch": 0.85, "learning_rate": 7.220833333333333e-05, "loss": 3.6116, "step": 6670 }, { "epoch": 0.85, "learning_rate": 7.216666666666667e-05, "loss": 3.5596, "step": 6680 }, { "epoch": 0.85, "learning_rate": 7.2125e-05, "loss": 3.6613, "step": 6690 }, { "epoch": 0.85, "learning_rate": 7.208333333333334e-05, "loss": 3.5726, "step": 6700 }, { "epoch": 0.85, "learning_rate": 7.204166666666668e-05, "loss": 3.6115, "step": 6710 }, { "epoch": 0.85, "learning_rate": 7.2e-05, "loss": 3.5552, "step": 6720 }, { "epoch": 0.85, "learning_rate": 7.195833333333334e-05, "loss": 3.6163, "step": 6730 }, { "epoch": 0.86, "learning_rate": 7.191666666666666e-05, "loss": 3.6747, "step": 6740 }, { "epoch": 0.86, "learning_rate": 7.1875e-05, "loss": 3.653, "step": 6750 }, { "epoch": 0.86, "learning_rate": 7.183333333333334e-05, "loss": 3.6209, "step": 6760 }, { "epoch": 0.86, "learning_rate": 7.179166666666667e-05, "loss": 3.6271, "step": 6770 }, { "epoch": 0.86, "learning_rate": 7.175000000000001e-05, "loss": 3.5417, "step": 6780 }, { "epoch": 0.86, "learning_rate": 7.170833333333333e-05, "loss": 3.6343, "step": 6790 }, { "epoch": 0.86, "learning_rate": 7.166666666666667e-05, "loss": 3.6546, "step": 6800 }, { "epoch": 0.86, "learning_rate": 7.1625e-05, "loss": 3.6718, "step": 6810 }, { "epoch": 0.87, "learning_rate": 7.158333333333333e-05, "loss": 3.6653, "step": 6820 }, { "epoch": 0.87, "learning_rate": 7.154166666666668e-05, "loss": 3.5813, "step": 6830 }, { "epoch": 0.87, "learning_rate": 7.15e-05, "loss": 3.6247, "step": 6840 }, { "epoch": 0.87, "learning_rate": 7.145833333333334e-05, "loss": 3.6902, "step": 6850 }, { "epoch": 0.87, "learning_rate": 7.141666666666666e-05, "loss": 3.6518, "step": 6860 }, { "epoch": 0.87, "learning_rate": 7.1375e-05, "loss": 3.6537, "step": 6870 }, { "epoch": 0.87, "learning_rate": 7.133333333333334e-05, "loss": 3.6581, "step": 6880 }, { "epoch": 0.87, "learning_rate": 7.129166666666667e-05, "loss": 3.6255, "step": 6890 }, { "epoch": 0.88, "learning_rate": 7.125000000000001e-05, "loss": 3.6557, "step": 6900 }, { "epoch": 0.88, "learning_rate": 7.120833333333333e-05, "loss": 3.6133, "step": 6910 }, { "epoch": 0.88, "learning_rate": 7.116666666666667e-05, "loss": 3.6028, "step": 6920 }, { "epoch": 0.88, "learning_rate": 7.112500000000001e-05, "loss": 3.6415, "step": 6930 }, { "epoch": 0.88, "learning_rate": 7.108333333333333e-05, "loss": 3.6231, "step": 6940 }, { "epoch": 0.88, "learning_rate": 7.104166666666667e-05, "loss": 3.6098, "step": 6950 }, { "epoch": 0.88, "learning_rate": 7.1e-05, "loss": 3.5184, "step": 6960 }, { "epoch": 0.89, "learning_rate": 7.095833333333334e-05, "loss": 3.6309, "step": 6970 }, { "epoch": 0.89, "learning_rate": 7.091666666666666e-05, "loss": 3.6115, "step": 6980 }, { "epoch": 0.89, "learning_rate": 7.0875e-05, "loss": 3.5802, "step": 6990 }, { "epoch": 0.89, "learning_rate": 7.083333333333334e-05, "loss": 3.7062, "step": 7000 }, { "epoch": 0.89, "learning_rate": 7.079166666666666e-05, "loss": 3.5883, "step": 7010 }, { "epoch": 0.89, "learning_rate": 7.075e-05, "loss": 3.5863, "step": 7020 }, { "epoch": 0.89, "learning_rate": 7.070833333333334e-05, "loss": 3.6354, "step": 7030 }, { "epoch": 0.89, "learning_rate": 7.066666666666667e-05, "loss": 3.6159, "step": 7040 }, { "epoch": 0.9, "learning_rate": 7.062500000000001e-05, "loss": 3.6854, "step": 7050 }, { "epoch": 0.9, "learning_rate": 7.058333333333333e-05, "loss": 3.4773, "step": 7060 }, { "epoch": 0.9, "learning_rate": 7.054166666666667e-05, "loss": 3.6573, "step": 7070 }, { "epoch": 0.9, "learning_rate": 7.05e-05, "loss": 3.6132, "step": 7080 }, { "epoch": 0.9, "learning_rate": 7.045833333333334e-05, "loss": 3.6659, "step": 7090 }, { "epoch": 0.9, "learning_rate": 7.041666666666668e-05, "loss": 3.6111, "step": 7100 }, { "epoch": 0.9, "learning_rate": 7.0375e-05, "loss": 3.6581, "step": 7110 }, { "epoch": 0.9, "learning_rate": 7.033333333333334e-05, "loss": 3.6115, "step": 7120 }, { "epoch": 0.91, "learning_rate": 7.029166666666666e-05, "loss": 3.551, "step": 7130 }, { "epoch": 0.91, "learning_rate": 7.025e-05, "loss": 3.5641, "step": 7140 }, { "epoch": 0.91, "learning_rate": 7.020833333333334e-05, "loss": 3.6425, "step": 7150 }, { "epoch": 0.91, "learning_rate": 7.016666666666667e-05, "loss": 3.6238, "step": 7160 }, { "epoch": 0.91, "learning_rate": 7.012500000000001e-05, "loss": 3.5818, "step": 7170 }, { "epoch": 0.91, "learning_rate": 7.008333333333333e-05, "loss": 3.6587, "step": 7180 }, { "epoch": 0.91, "learning_rate": 7.004166666666667e-05, "loss": 3.6578, "step": 7190 }, { "epoch": 0.91, "learning_rate": 7e-05, "loss": 3.5527, "step": 7200 }, { "epoch": 0.92, "learning_rate": 6.995833333333333e-05, "loss": 3.6557, "step": 7210 }, { "epoch": 0.92, "learning_rate": 6.991666666666668e-05, "loss": 3.62, "step": 7220 }, { "epoch": 0.92, "learning_rate": 6.9875e-05, "loss": 3.773, "step": 7230 }, { "epoch": 0.92, "learning_rate": 6.983333333333334e-05, "loss": 3.5704, "step": 7240 }, { "epoch": 0.92, "learning_rate": 6.979166666666666e-05, "loss": 3.6377, "step": 7250 }, { "epoch": 0.92, "learning_rate": 6.975e-05, "loss": 3.6313, "step": 7260 }, { "epoch": 0.92, "learning_rate": 6.970833333333334e-05, "loss": 3.6741, "step": 7270 }, { "epoch": 0.92, "learning_rate": 6.966666666666668e-05, "loss": 3.621, "step": 7280 }, { "epoch": 0.93, "learning_rate": 6.962500000000001e-05, "loss": 3.6661, "step": 7290 }, { "epoch": 0.93, "learning_rate": 6.958333333333334e-05, "loss": 3.5894, "step": 7300 }, { "epoch": 0.93, "learning_rate": 6.954166666666667e-05, "loss": 3.6891, "step": 7310 }, { "epoch": 0.93, "learning_rate": 6.95e-05, "loss": 3.7526, "step": 7320 }, { "epoch": 0.93, "learning_rate": 6.945833333333333e-05, "loss": 3.5909, "step": 7330 }, { "epoch": 0.93, "learning_rate": 6.941666666666667e-05, "loss": 3.5817, "step": 7340 }, { "epoch": 0.93, "learning_rate": 6.9375e-05, "loss": 3.5532, "step": 7350 }, { "epoch": 0.93, "learning_rate": 6.933333333333334e-05, "loss": 3.6459, "step": 7360 }, { "epoch": 0.94, "learning_rate": 6.929166666666667e-05, "loss": 3.626, "step": 7370 }, { "epoch": 0.94, "learning_rate": 6.925e-05, "loss": 3.6428, "step": 7380 }, { "epoch": 0.94, "learning_rate": 6.920833333333334e-05, "loss": 3.5831, "step": 7390 }, { "epoch": 0.94, "learning_rate": 6.916666666666666e-05, "loss": 3.7133, "step": 7400 }, { "epoch": 0.94, "learning_rate": 6.9125e-05, "loss": 3.6442, "step": 7410 }, { "epoch": 0.94, "learning_rate": 6.908333333333334e-05, "loss": 3.6774, "step": 7420 }, { "epoch": 0.94, "learning_rate": 6.904166666666667e-05, "loss": 3.649, "step": 7430 }, { "epoch": 0.94, "learning_rate": 6.9e-05, "loss": 3.6296, "step": 7440 }, { "epoch": 0.95, "learning_rate": 6.895833333333333e-05, "loss": 3.59, "step": 7450 }, { "epoch": 0.95, "learning_rate": 6.891666666666667e-05, "loss": 3.6575, "step": 7460 }, { "epoch": 0.95, "learning_rate": 6.887500000000001e-05, "loss": 3.5483, "step": 7470 }, { "epoch": 0.95, "learning_rate": 6.883333333333334e-05, "loss": 3.7135, "step": 7480 }, { "epoch": 0.95, "learning_rate": 6.879166666666667e-05, "loss": 3.6777, "step": 7490 }, { "epoch": 0.95, "learning_rate": 6.875e-05, "loss": 3.6744, "step": 7500 }, { "epoch": 0.95, "learning_rate": 6.870833333333334e-05, "loss": 3.6978, "step": 7510 }, { "epoch": 0.95, "learning_rate": 6.866666666666666e-05, "loss": 3.6336, "step": 7520 }, { "epoch": 0.96, "learning_rate": 6.8625e-05, "loss": 3.6304, "step": 7530 }, { "epoch": 0.96, "learning_rate": 6.858333333333334e-05, "loss": 3.679, "step": 7540 }, { "epoch": 0.96, "learning_rate": 6.854166666666667e-05, "loss": 3.6326, "step": 7550 }, { "epoch": 0.96, "learning_rate": 6.850000000000001e-05, "loss": 3.627, "step": 7560 }, { "epoch": 0.96, "learning_rate": 6.845833333333333e-05, "loss": 3.5692, "step": 7570 }, { "epoch": 0.96, "learning_rate": 6.841666666666667e-05, "loss": 3.6638, "step": 7580 }, { "epoch": 0.96, "learning_rate": 6.8375e-05, "loss": 3.6219, "step": 7590 }, { "epoch": 0.97, "learning_rate": 6.833333333333333e-05, "loss": 3.6572, "step": 7600 }, { "epoch": 0.97, "learning_rate": 6.829166666666667e-05, "loss": 3.6416, "step": 7610 }, { "epoch": 0.97, "learning_rate": 6.825e-05, "loss": 3.6522, "step": 7620 }, { "epoch": 0.97, "learning_rate": 6.820833333333334e-05, "loss": 3.5686, "step": 7630 }, { "epoch": 0.97, "learning_rate": 6.816666666666667e-05, "loss": 3.6147, "step": 7640 }, { "epoch": 0.97, "learning_rate": 6.8125e-05, "loss": 3.6432, "step": 7650 }, { "epoch": 0.97, "learning_rate": 6.808333333333333e-05, "loss": 3.6337, "step": 7660 }, { "epoch": 0.97, "learning_rate": 6.804166666666668e-05, "loss": 3.5795, "step": 7670 }, { "epoch": 0.98, "learning_rate": 6.800000000000001e-05, "loss": 3.5902, "step": 7680 }, { "epoch": 0.98, "learning_rate": 6.795833333333334e-05, "loss": 3.6275, "step": 7690 }, { "epoch": 0.98, "learning_rate": 6.791666666666667e-05, "loss": 3.5903, "step": 7700 }, { "epoch": 0.98, "learning_rate": 6.7875e-05, "loss": 3.7018, "step": 7710 }, { "epoch": 0.98, "learning_rate": 6.783333333333333e-05, "loss": 3.6826, "step": 7720 }, { "epoch": 0.98, "learning_rate": 6.779166666666667e-05, "loss": 3.6941, "step": 7730 }, { "epoch": 0.98, "learning_rate": 6.775000000000001e-05, "loss": 3.7062, "step": 7740 }, { "epoch": 0.98, "learning_rate": 6.770833333333334e-05, "loss": 3.6414, "step": 7750 }, { "epoch": 0.99, "learning_rate": 6.766666666666667e-05, "loss": 3.6746, "step": 7760 }, { "epoch": 0.99, "learning_rate": 6.7625e-05, "loss": 3.7169, "step": 7770 }, { "epoch": 0.99, "learning_rate": 6.758333333333333e-05, "loss": 3.6632, "step": 7780 }, { "epoch": 0.99, "learning_rate": 6.754166666666666e-05, "loss": 3.6028, "step": 7790 }, { "epoch": 0.99, "learning_rate": 6.750000000000001e-05, "loss": 3.728, "step": 7800 }, { "epoch": 0.99, "learning_rate": 6.745833333333334e-05, "loss": 3.6415, "step": 7810 }, { "epoch": 0.99, "learning_rate": 6.741666666666667e-05, "loss": 3.6762, "step": 7820 }, { "epoch": 0.99, "learning_rate": 6.7375e-05, "loss": 3.5947, "step": 7830 }, { "epoch": 1.0, "learning_rate": 6.733333333333333e-05, "loss": 3.6485, "step": 7840 }, { "epoch": 1.0, "learning_rate": 6.729166666666667e-05, "loss": 3.6835, "step": 7850 }, { "epoch": 1.0, "learning_rate": 6.725000000000001e-05, "loss": 3.6607, "step": 7860 }, { "epoch": 1.0, "learning_rate": 6.720833333333335e-05, "loss": 3.5278, "step": 7870 }, { "epoch": 1.0, "learning_rate": 6.716666666666667e-05, "loss": 3.6371, "step": 7880 }, { "epoch": 1.0, "learning_rate": 6.7125e-05, "loss": 3.6302, "step": 7890 }, { "epoch": 1.0, "learning_rate": 6.708333333333333e-05, "loss": 3.6583, "step": 7900 }, { "epoch": 1.0, "learning_rate": 6.704166666666667e-05, "loss": 3.6342, "step": 7910 }, { "epoch": 1.01, "learning_rate": 6.7e-05, "loss": 3.6867, "step": 7920 }, { "epoch": 1.01, "learning_rate": 6.695833333333334e-05, "loss": 3.643, "step": 7930 }, { "epoch": 1.01, "learning_rate": 6.691666666666668e-05, "loss": 3.7439, "step": 7940 }, { "epoch": 1.01, "learning_rate": 6.6875e-05, "loss": 3.5414, "step": 7950 }, { "epoch": 1.01, "learning_rate": 6.683333333333334e-05, "loss": 3.625, "step": 7960 }, { "epoch": 1.01, "learning_rate": 6.679166666666667e-05, "loss": 3.6337, "step": 7970 }, { "epoch": 1.01, "learning_rate": 6.675e-05, "loss": 3.6016, "step": 7980 }, { "epoch": 1.01, "learning_rate": 6.670833333333333e-05, "loss": 3.6238, "step": 7990 }, { "epoch": 1.02, "learning_rate": 6.666666666666667e-05, "loss": 3.6432, "step": 8000 } ], "max_steps": 24000, "num_train_epochs": 4, "total_flos": 2.354939158331392e+18, "trial_name": null, "trial_params": null }