{ "best_metric": null, "best_model_checkpoint": null, "epoch": 2.0317460317460316, "global_step": 16000, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.0, "learning_rate": 9.995833333333334e-05, "loss": 5.6962, "step": 10 }, { "epoch": 0.0, "learning_rate": 9.991666666666666e-05, "loss": 5.606, "step": 20 }, { "epoch": 0.0, "learning_rate": 9.9875e-05, "loss": 5.5894, "step": 30 }, { "epoch": 0.01, "learning_rate": 9.983333333333334e-05, "loss": 5.3125, "step": 40 }, { "epoch": 0.01, "learning_rate": 9.979166666666668e-05, "loss": 5.1938, "step": 50 }, { "epoch": 0.01, "learning_rate": 9.975000000000001e-05, "loss": 5.1897, "step": 60 }, { "epoch": 0.01, "learning_rate": 9.970833333333334e-05, "loss": 4.8633, "step": 70 }, { "epoch": 0.01, "learning_rate": 9.966666666666667e-05, "loss": 4.8125, "step": 80 }, { "epoch": 0.01, "learning_rate": 9.9625e-05, "loss": 4.7096, "step": 90 }, { "epoch": 0.01, "learning_rate": 9.958333333333335e-05, "loss": 4.5862, "step": 100 }, { "epoch": 0.01, "learning_rate": 9.954166666666667e-05, "loss": 4.5359, "step": 110 }, { "epoch": 0.02, "learning_rate": 9.95e-05, "loss": 4.495, "step": 120 }, { "epoch": 0.02, "learning_rate": 9.945833333333334e-05, "loss": 4.4779, "step": 130 }, { "epoch": 0.02, "learning_rate": 9.941666666666667e-05, "loss": 4.4726, "step": 140 }, { "epoch": 0.02, "learning_rate": 9.9375e-05, "loss": 4.3168, "step": 150 }, { "epoch": 0.02, "learning_rate": 9.933333333333334e-05, "loss": 4.2627, "step": 160 }, { "epoch": 0.02, "learning_rate": 9.929166666666668e-05, "loss": 4.2219, "step": 170 }, { "epoch": 0.02, "learning_rate": 9.925000000000001e-05, "loss": 4.205, "step": 180 }, { "epoch": 0.02, "learning_rate": 9.920833333333334e-05, "loss": 4.2089, "step": 190 }, { "epoch": 0.03, "learning_rate": 9.916666666666667e-05, "loss": 4.1319, "step": 200 }, { "epoch": 0.03, "learning_rate": 9.9125e-05, "loss": 4.2085, "step": 210 }, { "epoch": 0.03, "learning_rate": 9.908333333333333e-05, "loss": 4.1744, "step": 220 }, { "epoch": 0.03, "learning_rate": 9.904166666666667e-05, "loss": 4.1779, "step": 230 }, { "epoch": 0.03, "learning_rate": 9.900000000000001e-05, "loss": 4.0996, "step": 240 }, { "epoch": 0.03, "learning_rate": 9.895833333333334e-05, "loss": 4.0474, "step": 250 }, { "epoch": 0.03, "learning_rate": 9.891666666666667e-05, "loss": 3.988, "step": 260 }, { "epoch": 0.03, "learning_rate": 9.8875e-05, "loss": 4.0699, "step": 270 }, { "epoch": 0.04, "learning_rate": 9.883333333333333e-05, "loss": 3.9252, "step": 280 }, { "epoch": 0.04, "learning_rate": 9.879166666666666e-05, "loss": 4.0514, "step": 290 }, { "epoch": 0.04, "learning_rate": 9.875000000000002e-05, "loss": 3.9951, "step": 300 }, { "epoch": 0.04, "learning_rate": 9.870833333333334e-05, "loss": 3.9394, "step": 310 }, { "epoch": 0.04, "learning_rate": 9.866666666666668e-05, "loss": 4.0393, "step": 320 }, { "epoch": 0.04, "learning_rate": 9.8625e-05, "loss": 4.0064, "step": 330 }, { "epoch": 0.04, "learning_rate": 9.858333333333334e-05, "loss": 4.0176, "step": 340 }, { "epoch": 0.04, "learning_rate": 9.854166666666667e-05, "loss": 3.9664, "step": 350 }, { "epoch": 0.05, "learning_rate": 9.850000000000001e-05, "loss": 3.9659, "step": 360 }, { "epoch": 0.05, "learning_rate": 9.845833333333335e-05, "loss": 3.9458, "step": 370 }, { "epoch": 0.05, "learning_rate": 9.841666666666667e-05, "loss": 3.9883, "step": 380 }, { "epoch": 0.05, "learning_rate": 9.8375e-05, "loss": 3.9369, "step": 390 }, { "epoch": 0.05, "learning_rate": 9.833333333333333e-05, "loss": 3.9379, "step": 400 }, { "epoch": 0.05, "learning_rate": 9.829166666666667e-05, "loss": 3.9671, "step": 410 }, { "epoch": 0.05, "learning_rate": 9.825e-05, "loss": 3.8764, "step": 420 }, { "epoch": 0.05, "learning_rate": 9.820833333333334e-05, "loss": 3.8621, "step": 430 }, { "epoch": 0.06, "learning_rate": 9.816666666666668e-05, "loss": 3.8764, "step": 440 }, { "epoch": 0.06, "learning_rate": 9.8125e-05, "loss": 3.8916, "step": 450 }, { "epoch": 0.06, "learning_rate": 9.808333333333334e-05, "loss": 3.8894, "step": 460 }, { "epoch": 0.06, "learning_rate": 9.804166666666667e-05, "loss": 3.8715, "step": 470 }, { "epoch": 0.06, "learning_rate": 9.8e-05, "loss": 3.9725, "step": 480 }, { "epoch": 0.06, "learning_rate": 9.795833333333335e-05, "loss": 3.9346, "step": 490 }, { "epoch": 0.06, "learning_rate": 9.791666666666667e-05, "loss": 3.7902, "step": 500 }, { "epoch": 0.06, "learning_rate": 9.787500000000001e-05, "loss": 3.9029, "step": 510 }, { "epoch": 0.07, "learning_rate": 9.783333333333334e-05, "loss": 3.8927, "step": 520 }, { "epoch": 0.07, "learning_rate": 9.779166666666667e-05, "loss": 3.8808, "step": 530 }, { "epoch": 0.07, "learning_rate": 9.775e-05, "loss": 3.8342, "step": 540 }, { "epoch": 0.07, "learning_rate": 9.770833333333334e-05, "loss": 3.8998, "step": 550 }, { "epoch": 0.07, "learning_rate": 9.766666666666668e-05, "loss": 3.8303, "step": 560 }, { "epoch": 0.07, "learning_rate": 9.7625e-05, "loss": 3.8536, "step": 570 }, { "epoch": 0.07, "learning_rate": 9.758333333333334e-05, "loss": 3.9243, "step": 580 }, { "epoch": 0.07, "learning_rate": 9.754166666666667e-05, "loss": 3.9258, "step": 590 }, { "epoch": 0.08, "learning_rate": 9.75e-05, "loss": 3.7761, "step": 600 }, { "epoch": 0.08, "learning_rate": 9.745833333333334e-05, "loss": 3.7839, "step": 610 }, { "epoch": 0.08, "learning_rate": 9.741666666666667e-05, "loss": 3.7681, "step": 620 }, { "epoch": 0.08, "learning_rate": 9.737500000000001e-05, "loss": 3.8076, "step": 630 }, { "epoch": 0.08, "learning_rate": 9.733333333333335e-05, "loss": 3.8641, "step": 640 }, { "epoch": 0.08, "learning_rate": 9.729166666666667e-05, "loss": 3.7614, "step": 650 }, { "epoch": 0.08, "learning_rate": 9.725e-05, "loss": 3.8849, "step": 660 }, { "epoch": 0.09, "learning_rate": 9.720833333333333e-05, "loss": 3.8421, "step": 670 }, { "epoch": 0.09, "learning_rate": 9.716666666666667e-05, "loss": 3.8132, "step": 680 }, { "epoch": 0.09, "learning_rate": 9.7125e-05, "loss": 3.811, "step": 690 }, { "epoch": 0.09, "learning_rate": 9.708333333333334e-05, "loss": 3.816, "step": 700 }, { "epoch": 0.09, "learning_rate": 9.704166666666668e-05, "loss": 3.8549, "step": 710 }, { "epoch": 0.09, "learning_rate": 9.7e-05, "loss": 3.7762, "step": 720 }, { "epoch": 0.09, "learning_rate": 9.695833333333334e-05, "loss": 3.8504, "step": 730 }, { "epoch": 0.09, "learning_rate": 9.691666666666667e-05, "loss": 3.8264, "step": 740 }, { "epoch": 0.1, "learning_rate": 9.687500000000001e-05, "loss": 3.8069, "step": 750 }, { "epoch": 0.1, "learning_rate": 9.683333333333335e-05, "loss": 3.8511, "step": 760 }, { "epoch": 0.1, "learning_rate": 9.679166666666667e-05, "loss": 3.7774, "step": 770 }, { "epoch": 0.1, "learning_rate": 9.675000000000001e-05, "loss": 3.7132, "step": 780 }, { "epoch": 0.1, "learning_rate": 9.670833333333333e-05, "loss": 3.8334, "step": 790 }, { "epoch": 0.1, "learning_rate": 9.666666666666667e-05, "loss": 3.878, "step": 800 }, { "epoch": 0.1, "learning_rate": 9.6625e-05, "loss": 3.7504, "step": 810 }, { "epoch": 0.1, "learning_rate": 9.658333333333334e-05, "loss": 3.7379, "step": 820 }, { "epoch": 0.11, "learning_rate": 9.654166666666668e-05, "loss": 3.7727, "step": 830 }, { "epoch": 0.11, "learning_rate": 9.65e-05, "loss": 3.8309, "step": 840 }, { "epoch": 0.11, "learning_rate": 9.645833333333334e-05, "loss": 3.7832, "step": 850 }, { "epoch": 0.11, "learning_rate": 9.641666666666666e-05, "loss": 3.7925, "step": 860 }, { "epoch": 0.11, "learning_rate": 9.6375e-05, "loss": 3.8546, "step": 870 }, { "epoch": 0.11, "learning_rate": 9.633333333333335e-05, "loss": 3.765, "step": 880 }, { "epoch": 0.11, "learning_rate": 9.629166666666667e-05, "loss": 3.7293, "step": 890 }, { "epoch": 0.11, "learning_rate": 9.625000000000001e-05, "loss": 3.7991, "step": 900 }, { "epoch": 0.12, "learning_rate": 9.620833333333333e-05, "loss": 3.7637, "step": 910 }, { "epoch": 0.12, "learning_rate": 9.616666666666667e-05, "loss": 3.6497, "step": 920 }, { "epoch": 0.12, "learning_rate": 9.6125e-05, "loss": 3.84, "step": 930 }, { "epoch": 0.12, "learning_rate": 9.608333333333334e-05, "loss": 3.7027, "step": 940 }, { "epoch": 0.12, "learning_rate": 9.604166666666668e-05, "loss": 3.7893, "step": 950 }, { "epoch": 0.12, "learning_rate": 9.6e-05, "loss": 3.7691, "step": 960 }, { "epoch": 0.12, "learning_rate": 9.595833333333334e-05, "loss": 3.7277, "step": 970 }, { "epoch": 0.12, "learning_rate": 9.591666666666666e-05, "loss": 3.7715, "step": 980 }, { "epoch": 0.13, "learning_rate": 9.5875e-05, "loss": 3.8022, "step": 990 }, { "epoch": 0.13, "learning_rate": 9.583333333333334e-05, "loss": 3.7461, "step": 1000 }, { "epoch": 0.13, "learning_rate": 9.579166666666667e-05, "loss": 3.7569, "step": 1010 }, { "epoch": 0.13, "learning_rate": 9.575000000000001e-05, "loss": 3.7301, "step": 1020 }, { "epoch": 0.13, "learning_rate": 9.570833333333333e-05, "loss": 3.6613, "step": 1030 }, { "epoch": 0.13, "learning_rate": 9.566666666666667e-05, "loss": 3.7284, "step": 1040 }, { "epoch": 0.13, "learning_rate": 9.562500000000001e-05, "loss": 3.6935, "step": 1050 }, { "epoch": 0.13, "learning_rate": 9.558333333333333e-05, "loss": 3.8481, "step": 1060 }, { "epoch": 0.14, "learning_rate": 9.554166666666667e-05, "loss": 3.7903, "step": 1070 }, { "epoch": 0.14, "learning_rate": 9.55e-05, "loss": 3.6514, "step": 1080 }, { "epoch": 0.14, "learning_rate": 9.545833333333334e-05, "loss": 3.7198, "step": 1090 }, { "epoch": 0.14, "learning_rate": 9.541666666666668e-05, "loss": 3.7371, "step": 1100 }, { "epoch": 0.14, "learning_rate": 9.5375e-05, "loss": 3.677, "step": 1110 }, { "epoch": 0.14, "learning_rate": 9.533333333333334e-05, "loss": 3.7313, "step": 1120 }, { "epoch": 0.14, "learning_rate": 9.529166666666667e-05, "loss": 3.7882, "step": 1130 }, { "epoch": 0.14, "learning_rate": 9.525000000000001e-05, "loss": 3.7064, "step": 1140 }, { "epoch": 0.15, "learning_rate": 9.520833333333333e-05, "loss": 3.7431, "step": 1150 }, { "epoch": 0.15, "learning_rate": 9.516666666666667e-05, "loss": 3.6859, "step": 1160 }, { "epoch": 0.15, "learning_rate": 9.512500000000001e-05, "loss": 3.752, "step": 1170 }, { "epoch": 0.15, "learning_rate": 9.508333333333333e-05, "loss": 3.689, "step": 1180 }, { "epoch": 0.15, "learning_rate": 9.504166666666667e-05, "loss": 3.7506, "step": 1190 }, { "epoch": 0.15, "learning_rate": 9.5e-05, "loss": 3.6811, "step": 1200 }, { "epoch": 0.15, "learning_rate": 9.495833333333334e-05, "loss": 3.7533, "step": 1210 }, { "epoch": 0.15, "learning_rate": 9.491666666666668e-05, "loss": 3.7534, "step": 1220 }, { "epoch": 0.16, "learning_rate": 9.4875e-05, "loss": 3.7964, "step": 1230 }, { "epoch": 0.16, "learning_rate": 9.483333333333334e-05, "loss": 3.7098, "step": 1240 }, { "epoch": 0.16, "learning_rate": 9.479166666666666e-05, "loss": 3.6728, "step": 1250 }, { "epoch": 0.16, "learning_rate": 9.475e-05, "loss": 3.7314, "step": 1260 }, { "epoch": 0.16, "learning_rate": 9.470833333333335e-05, "loss": 3.7794, "step": 1270 }, { "epoch": 0.16, "learning_rate": 9.466666666666667e-05, "loss": 3.7596, "step": 1280 }, { "epoch": 0.16, "learning_rate": 9.462500000000001e-05, "loss": 3.6681, "step": 1290 }, { "epoch": 0.17, "learning_rate": 9.458333333333333e-05, "loss": 3.758, "step": 1300 }, { "epoch": 0.17, "learning_rate": 9.454166666666667e-05, "loss": 3.6213, "step": 1310 }, { "epoch": 0.17, "learning_rate": 9.449999999999999e-05, "loss": 3.6408, "step": 1320 }, { "epoch": 0.17, "learning_rate": 9.445833333333334e-05, "loss": 3.6497, "step": 1330 }, { "epoch": 0.17, "learning_rate": 9.441666666666668e-05, "loss": 3.7481, "step": 1340 }, { "epoch": 0.17, "learning_rate": 9.4375e-05, "loss": 3.7018, "step": 1350 }, { "epoch": 0.17, "learning_rate": 9.433333333333334e-05, "loss": 3.7097, "step": 1360 }, { "epoch": 0.17, "learning_rate": 9.429166666666666e-05, "loss": 3.6016, "step": 1370 }, { "epoch": 0.18, "learning_rate": 9.425e-05, "loss": 3.7295, "step": 1380 }, { "epoch": 0.18, "learning_rate": 9.420833333333334e-05, "loss": 3.6309, "step": 1390 }, { "epoch": 0.18, "learning_rate": 9.416666666666667e-05, "loss": 3.6671, "step": 1400 }, { "epoch": 0.18, "learning_rate": 9.412500000000001e-05, "loss": 3.7647, "step": 1410 }, { "epoch": 0.18, "learning_rate": 9.408333333333333e-05, "loss": 3.8146, "step": 1420 }, { "epoch": 0.18, "learning_rate": 9.404166666666667e-05, "loss": 3.7173, "step": 1430 }, { "epoch": 0.18, "learning_rate": 9.4e-05, "loss": 3.6274, "step": 1440 }, { "epoch": 0.18, "learning_rate": 9.395833333333333e-05, "loss": 3.6567, "step": 1450 }, { "epoch": 0.19, "learning_rate": 9.391666666666668e-05, "loss": 3.7923, "step": 1460 }, { "epoch": 0.19, "learning_rate": 9.3875e-05, "loss": 3.7348, "step": 1470 }, { "epoch": 0.19, "learning_rate": 9.383333333333334e-05, "loss": 3.7182, "step": 1480 }, { "epoch": 0.19, "learning_rate": 9.379166666666667e-05, "loss": 3.6463, "step": 1490 }, { "epoch": 0.19, "learning_rate": 9.375e-05, "loss": 3.6461, "step": 1500 }, { "epoch": 0.19, "learning_rate": 9.370833333333334e-05, "loss": 3.6839, "step": 1510 }, { "epoch": 0.19, "learning_rate": 9.366666666666668e-05, "loss": 3.7423, "step": 1520 }, { "epoch": 0.19, "learning_rate": 9.362500000000001e-05, "loss": 3.7018, "step": 1530 }, { "epoch": 0.2, "learning_rate": 9.358333333333334e-05, "loss": 3.6553, "step": 1540 }, { "epoch": 0.2, "learning_rate": 9.354166666666667e-05, "loss": 3.6288, "step": 1550 }, { "epoch": 0.2, "learning_rate": 9.350000000000001e-05, "loss": 3.5729, "step": 1560 }, { "epoch": 0.2, "learning_rate": 9.345833333333333e-05, "loss": 3.6607, "step": 1570 }, { "epoch": 0.2, "learning_rate": 9.341666666666667e-05, "loss": 3.648, "step": 1580 }, { "epoch": 0.2, "learning_rate": 9.3375e-05, "loss": 3.673, "step": 1590 }, { "epoch": 0.2, "learning_rate": 9.333333333333334e-05, "loss": 3.6409, "step": 1600 }, { "epoch": 0.2, "learning_rate": 9.329166666666667e-05, "loss": 3.7027, "step": 1610 }, { "epoch": 0.21, "learning_rate": 9.325e-05, "loss": 3.6854, "step": 1620 }, { "epoch": 0.21, "learning_rate": 9.320833333333334e-05, "loss": 3.6768, "step": 1630 }, { "epoch": 0.21, "learning_rate": 9.316666666666666e-05, "loss": 3.718, "step": 1640 }, { "epoch": 0.21, "learning_rate": 9.3125e-05, "loss": 3.6742, "step": 1650 }, { "epoch": 0.21, "learning_rate": 9.308333333333334e-05, "loss": 3.7546, "step": 1660 }, { "epoch": 0.21, "learning_rate": 9.304166666666667e-05, "loss": 3.642, "step": 1670 }, { "epoch": 0.21, "learning_rate": 9.300000000000001e-05, "loss": 3.5488, "step": 1680 }, { "epoch": 0.21, "learning_rate": 9.295833333333333e-05, "loss": 3.6423, "step": 1690 }, { "epoch": 0.22, "learning_rate": 9.291666666666667e-05, "loss": 3.6759, "step": 1700 }, { "epoch": 0.22, "learning_rate": 9.2875e-05, "loss": 3.584, "step": 1710 }, { "epoch": 0.22, "learning_rate": 9.283333333333334e-05, "loss": 3.5464, "step": 1720 }, { "epoch": 0.22, "learning_rate": 9.279166666666667e-05, "loss": 3.6228, "step": 1730 }, { "epoch": 0.22, "learning_rate": 9.275e-05, "loss": 3.7678, "step": 1740 }, { "epoch": 0.22, "learning_rate": 9.270833333333334e-05, "loss": 3.6972, "step": 1750 }, { "epoch": 0.22, "learning_rate": 9.266666666666666e-05, "loss": 3.6424, "step": 1760 }, { "epoch": 0.22, "learning_rate": 9.2625e-05, "loss": 3.6437, "step": 1770 }, { "epoch": 0.23, "learning_rate": 9.258333333333334e-05, "loss": 3.6169, "step": 1780 }, { "epoch": 0.23, "learning_rate": 9.254166666666668e-05, "loss": 3.651, "step": 1790 }, { "epoch": 0.23, "learning_rate": 9.250000000000001e-05, "loss": 3.6005, "step": 1800 }, { "epoch": 0.23, "learning_rate": 9.245833333333334e-05, "loss": 3.5943, "step": 1810 }, { "epoch": 0.23, "learning_rate": 9.241666666666667e-05, "loss": 3.6791, "step": 1820 }, { "epoch": 0.23, "learning_rate": 9.2375e-05, "loss": 3.7206, "step": 1830 }, { "epoch": 0.23, "learning_rate": 9.233333333333333e-05, "loss": 3.7598, "step": 1840 }, { "epoch": 0.23, "learning_rate": 9.229166666666668e-05, "loss": 3.6462, "step": 1850 }, { "epoch": 0.24, "learning_rate": 9.225e-05, "loss": 3.6769, "step": 1860 }, { "epoch": 0.24, "learning_rate": 9.220833333333334e-05, "loss": 3.591, "step": 1870 }, { "epoch": 0.24, "learning_rate": 9.216666666666667e-05, "loss": 3.7013, "step": 1880 }, { "epoch": 0.24, "learning_rate": 9.2125e-05, "loss": 3.5322, "step": 1890 }, { "epoch": 0.24, "learning_rate": 9.208333333333333e-05, "loss": 3.6238, "step": 1900 }, { "epoch": 0.24, "learning_rate": 9.204166666666668e-05, "loss": 3.5167, "step": 1910 }, { "epoch": 0.24, "learning_rate": 9.200000000000001e-05, "loss": 3.5294, "step": 1920 }, { "epoch": 0.25, "learning_rate": 9.195833333333334e-05, "loss": 3.5221, "step": 1930 }, { "epoch": 0.25, "learning_rate": 9.191666666666667e-05, "loss": 3.6577, "step": 1940 }, { "epoch": 0.25, "learning_rate": 9.1875e-05, "loss": 3.6815, "step": 1950 }, { "epoch": 0.25, "learning_rate": 9.183333333333333e-05, "loss": 3.6283, "step": 1960 }, { "epoch": 0.25, "learning_rate": 9.179166666666667e-05, "loss": 3.5666, "step": 1970 }, { "epoch": 0.25, "learning_rate": 9.175000000000001e-05, "loss": 3.6114, "step": 1980 }, { "epoch": 0.25, "learning_rate": 9.170833333333334e-05, "loss": 3.6437, "step": 1990 }, { "epoch": 0.25, "learning_rate": 9.166666666666667e-05, "loss": 3.6249, "step": 2000 }, { "epoch": 0.26, "learning_rate": 9.1625e-05, "loss": 3.6903, "step": 2010 }, { "epoch": 0.26, "learning_rate": 9.158333333333334e-05, "loss": 3.6114, "step": 2020 }, { "epoch": 0.26, "learning_rate": 9.154166666666666e-05, "loss": 3.6118, "step": 2030 }, { "epoch": 0.26, "learning_rate": 9.15e-05, "loss": 3.6899, "step": 2040 }, { "epoch": 0.26, "learning_rate": 9.145833333333334e-05, "loss": 3.5376, "step": 2050 }, { "epoch": 0.26, "learning_rate": 9.141666666666668e-05, "loss": 3.5762, "step": 2060 }, { "epoch": 0.26, "learning_rate": 9.1375e-05, "loss": 3.6631, "step": 2070 }, { "epoch": 0.26, "learning_rate": 9.133333333333334e-05, "loss": 3.6239, "step": 2080 }, { "epoch": 0.27, "learning_rate": 9.129166666666667e-05, "loss": 3.5948, "step": 2090 }, { "epoch": 0.27, "learning_rate": 9.125e-05, "loss": 3.7066, "step": 2100 }, { "epoch": 0.27, "learning_rate": 9.120833333333335e-05, "loss": 3.5988, "step": 2110 }, { "epoch": 0.27, "learning_rate": 9.116666666666667e-05, "loss": 3.6094, "step": 2120 }, { "epoch": 0.27, "learning_rate": 9.1125e-05, "loss": 3.6496, "step": 2130 }, { "epoch": 0.27, "learning_rate": 9.108333333333334e-05, "loss": 3.6264, "step": 2140 }, { "epoch": 0.27, "learning_rate": 9.104166666666667e-05, "loss": 3.6847, "step": 2150 }, { "epoch": 0.27, "learning_rate": 9.1e-05, "loss": 3.6219, "step": 2160 }, { "epoch": 0.28, "learning_rate": 9.095833333333334e-05, "loss": 3.5926, "step": 2170 }, { "epoch": 0.28, "learning_rate": 9.091666666666668e-05, "loss": 3.6462, "step": 2180 }, { "epoch": 0.28, "learning_rate": 9.0875e-05, "loss": 3.7046, "step": 2190 }, { "epoch": 0.28, "learning_rate": 9.083333333333334e-05, "loss": 3.6339, "step": 2200 }, { "epoch": 0.28, "learning_rate": 9.079166666666667e-05, "loss": 3.638, "step": 2210 }, { "epoch": 0.28, "learning_rate": 9.075e-05, "loss": 3.5889, "step": 2220 }, { "epoch": 0.28, "learning_rate": 9.070833333333333e-05, "loss": 3.5873, "step": 2230 }, { "epoch": 0.28, "learning_rate": 9.066666666666667e-05, "loss": 3.6018, "step": 2240 }, { "epoch": 0.29, "learning_rate": 9.062500000000001e-05, "loss": 3.6165, "step": 2250 }, { "epoch": 0.29, "learning_rate": 9.058333333333334e-05, "loss": 3.6604, "step": 2260 }, { "epoch": 0.29, "learning_rate": 9.054166666666667e-05, "loss": 3.5496, "step": 2270 }, { "epoch": 0.29, "learning_rate": 9.05e-05, "loss": 3.5681, "step": 2280 }, { "epoch": 0.29, "learning_rate": 9.045833333333333e-05, "loss": 3.6743, "step": 2290 }, { "epoch": 0.29, "learning_rate": 9.041666666666668e-05, "loss": 3.5665, "step": 2300 }, { "epoch": 0.29, "learning_rate": 9.037500000000001e-05, "loss": 3.6597, "step": 2310 }, { "epoch": 0.29, "learning_rate": 9.033333333333334e-05, "loss": 3.5597, "step": 2320 }, { "epoch": 0.3, "learning_rate": 9.029166666666667e-05, "loss": 3.5795, "step": 2330 }, { "epoch": 0.3, "learning_rate": 9.025e-05, "loss": 3.616, "step": 2340 }, { "epoch": 0.3, "learning_rate": 9.020833333333334e-05, "loss": 3.6256, "step": 2350 }, { "epoch": 0.3, "learning_rate": 9.016666666666667e-05, "loss": 3.5777, "step": 2360 }, { "epoch": 0.3, "learning_rate": 9.012500000000001e-05, "loss": 3.5951, "step": 2370 }, { "epoch": 0.3, "learning_rate": 9.008333333333335e-05, "loss": 3.5977, "step": 2380 }, { "epoch": 0.3, "learning_rate": 9.004166666666667e-05, "loss": 3.5592, "step": 2390 }, { "epoch": 0.3, "learning_rate": 9e-05, "loss": 3.577, "step": 2400 }, { "epoch": 0.31, "learning_rate": 8.995833333333333e-05, "loss": 3.6809, "step": 2410 }, { "epoch": 0.31, "learning_rate": 8.991666666666667e-05, "loss": 3.5507, "step": 2420 }, { "epoch": 0.31, "learning_rate": 8.9875e-05, "loss": 3.5874, "step": 2430 }, { "epoch": 0.31, "learning_rate": 8.983333333333334e-05, "loss": 3.5566, "step": 2440 }, { "epoch": 0.31, "learning_rate": 8.979166666666668e-05, "loss": 3.6029, "step": 2450 }, { "epoch": 0.31, "learning_rate": 8.975e-05, "loss": 3.5728, "step": 2460 }, { "epoch": 0.31, "learning_rate": 8.970833333333334e-05, "loss": 3.6276, "step": 2470 }, { "epoch": 0.31, "learning_rate": 8.966666666666666e-05, "loss": 3.5466, "step": 2480 }, { "epoch": 0.32, "learning_rate": 8.962500000000001e-05, "loss": 3.5827, "step": 2490 }, { "epoch": 0.32, "learning_rate": 8.958333333333335e-05, "loss": 3.6722, "step": 2500 }, { "epoch": 0.32, "learning_rate": 8.954166666666667e-05, "loss": 3.5451, "step": 2510 }, { "epoch": 0.32, "learning_rate": 8.950000000000001e-05, "loss": 3.5437, "step": 2520 }, { "epoch": 0.32, "learning_rate": 8.945833333333333e-05, "loss": 3.5791, "step": 2530 }, { "epoch": 0.32, "learning_rate": 8.941666666666667e-05, "loss": 3.5276, "step": 2540 }, { "epoch": 0.32, "learning_rate": 8.9375e-05, "loss": 3.5872, "step": 2550 }, { "epoch": 0.33, "learning_rate": 8.933333333333334e-05, "loss": 3.5438, "step": 2560 }, { "epoch": 0.33, "learning_rate": 8.929166666666668e-05, "loss": 3.5816, "step": 2570 }, { "epoch": 0.33, "learning_rate": 8.925e-05, "loss": 3.5472, "step": 2580 }, { "epoch": 0.33, "learning_rate": 8.920833333333334e-05, "loss": 3.5757, "step": 2590 }, { "epoch": 0.33, "learning_rate": 8.916666666666667e-05, "loss": 3.5685, "step": 2600 }, { "epoch": 0.33, "learning_rate": 8.9125e-05, "loss": 3.5189, "step": 2610 }, { "epoch": 0.33, "learning_rate": 8.908333333333333e-05, "loss": 3.6445, "step": 2620 }, { "epoch": 0.33, "learning_rate": 8.904166666666667e-05, "loss": 3.5371, "step": 2630 }, { "epoch": 0.34, "learning_rate": 8.900000000000001e-05, "loss": 3.6894, "step": 2640 }, { "epoch": 0.34, "learning_rate": 8.895833333333333e-05, "loss": 3.5709, "step": 2650 }, { "epoch": 0.34, "learning_rate": 8.891666666666667e-05, "loss": 3.6759, "step": 2660 }, { "epoch": 0.34, "learning_rate": 8.8875e-05, "loss": 3.573, "step": 2670 }, { "epoch": 0.34, "learning_rate": 8.883333333333333e-05, "loss": 3.6293, "step": 2680 }, { "epoch": 0.34, "learning_rate": 8.879166666666668e-05, "loss": 3.5639, "step": 2690 }, { "epoch": 0.34, "learning_rate": 8.875e-05, "loss": 3.5901, "step": 2700 }, { "epoch": 0.34, "learning_rate": 8.870833333333334e-05, "loss": 3.5491, "step": 2710 }, { "epoch": 0.35, "learning_rate": 8.866666666666668e-05, "loss": 3.593, "step": 2720 }, { "epoch": 0.35, "learning_rate": 8.8625e-05, "loss": 3.5188, "step": 2730 }, { "epoch": 0.35, "learning_rate": 8.858333333333334e-05, "loss": 3.5111, "step": 2740 }, { "epoch": 0.35, "learning_rate": 8.854166666666667e-05, "loss": 3.6174, "step": 2750 }, { "epoch": 0.35, "learning_rate": 8.850000000000001e-05, "loss": 3.5433, "step": 2760 }, { "epoch": 0.35, "learning_rate": 8.845833333333335e-05, "loss": 3.5762, "step": 2770 }, { "epoch": 0.35, "learning_rate": 8.841666666666667e-05, "loss": 3.6014, "step": 2780 }, { "epoch": 0.35, "learning_rate": 8.837500000000001e-05, "loss": 3.6187, "step": 2790 }, { "epoch": 0.36, "learning_rate": 8.833333333333333e-05, "loss": 3.5356, "step": 2800 }, { "epoch": 0.36, "learning_rate": 8.829166666666667e-05, "loss": 3.5976, "step": 2810 }, { "epoch": 0.36, "learning_rate": 8.825e-05, "loss": 3.6202, "step": 2820 }, { "epoch": 0.36, "learning_rate": 8.820833333333334e-05, "loss": 3.5689, "step": 2830 }, { "epoch": 0.36, "learning_rate": 8.816666666666668e-05, "loss": 3.584, "step": 2840 }, { "epoch": 0.36, "learning_rate": 8.8125e-05, "loss": 3.6313, "step": 2850 }, { "epoch": 0.36, "learning_rate": 8.808333333333334e-05, "loss": 3.4663, "step": 2860 }, { "epoch": 0.36, "learning_rate": 8.804166666666666e-05, "loss": 3.551, "step": 2870 }, { "epoch": 0.37, "learning_rate": 8.800000000000001e-05, "loss": 3.5278, "step": 2880 }, { "epoch": 0.37, "learning_rate": 8.795833333333335e-05, "loss": 3.6646, "step": 2890 }, { "epoch": 0.37, "learning_rate": 8.791666666666667e-05, "loss": 3.5352, "step": 2900 }, { "epoch": 0.37, "learning_rate": 8.787500000000001e-05, "loss": 3.5872, "step": 2910 }, { "epoch": 0.37, "learning_rate": 8.783333333333333e-05, "loss": 3.5603, "step": 2920 }, { "epoch": 0.37, "learning_rate": 8.779166666666667e-05, "loss": 3.5646, "step": 2930 }, { "epoch": 0.37, "learning_rate": 8.775e-05, "loss": 3.5852, "step": 2940 }, { "epoch": 0.37, "learning_rate": 8.770833333333334e-05, "loss": 3.5948, "step": 2950 }, { "epoch": 0.38, "learning_rate": 8.766666666666668e-05, "loss": 3.5809, "step": 2960 }, { "epoch": 0.38, "learning_rate": 8.7625e-05, "loss": 3.5288, "step": 2970 }, { "epoch": 0.38, "learning_rate": 8.758333333333334e-05, "loss": 3.5888, "step": 2980 }, { "epoch": 0.38, "learning_rate": 8.754166666666666e-05, "loss": 3.5975, "step": 2990 }, { "epoch": 0.38, "learning_rate": 8.75e-05, "loss": 3.5653, "step": 3000 }, { "epoch": 0.38, "learning_rate": 8.745833333333334e-05, "loss": 3.5267, "step": 3010 }, { "epoch": 0.38, "learning_rate": 8.741666666666667e-05, "loss": 3.5633, "step": 3020 }, { "epoch": 0.38, "learning_rate": 8.737500000000001e-05, "loss": 3.6054, "step": 3030 }, { "epoch": 0.39, "learning_rate": 8.733333333333333e-05, "loss": 3.5804, "step": 3040 }, { "epoch": 0.39, "learning_rate": 8.729166666666667e-05, "loss": 3.6081, "step": 3050 }, { "epoch": 0.39, "learning_rate": 8.725e-05, "loss": 3.542, "step": 3060 }, { "epoch": 0.39, "learning_rate": 8.720833333333333e-05, "loss": 3.4898, "step": 3070 }, { "epoch": 0.39, "learning_rate": 8.716666666666668e-05, "loss": 3.5706, "step": 3080 }, { "epoch": 0.39, "learning_rate": 8.7125e-05, "loss": 3.5234, "step": 3090 }, { "epoch": 0.39, "learning_rate": 8.708333333333334e-05, "loss": 3.5172, "step": 3100 }, { "epoch": 0.39, "learning_rate": 8.704166666666666e-05, "loss": 3.5843, "step": 3110 }, { "epoch": 0.4, "learning_rate": 8.7e-05, "loss": 3.5884, "step": 3120 }, { "epoch": 0.4, "learning_rate": 8.695833333333334e-05, "loss": 3.5674, "step": 3130 }, { "epoch": 0.4, "learning_rate": 8.691666666666667e-05, "loss": 3.5009, "step": 3140 }, { "epoch": 0.4, "learning_rate": 8.687500000000001e-05, "loss": 3.5878, "step": 3150 }, { "epoch": 0.4, "learning_rate": 8.683333333333333e-05, "loss": 3.5782, "step": 3160 }, { "epoch": 0.4, "learning_rate": 8.679166666666667e-05, "loss": 3.5315, "step": 3170 }, { "epoch": 0.4, "learning_rate": 8.675000000000001e-05, "loss": 3.548, "step": 3180 }, { "epoch": 0.41, "learning_rate": 8.670833333333333e-05, "loss": 3.5129, "step": 3190 }, { "epoch": 0.41, "learning_rate": 8.666666666666667e-05, "loss": 3.4788, "step": 3200 }, { "epoch": 0.41, "learning_rate": 8.6625e-05, "loss": 3.5658, "step": 3210 }, { "epoch": 0.41, "learning_rate": 8.658333333333334e-05, "loss": 3.6415, "step": 3220 }, { "epoch": 0.41, "learning_rate": 8.654166666666667e-05, "loss": 3.5296, "step": 3230 }, { "epoch": 0.41, "learning_rate": 8.65e-05, "loss": 3.5592, "step": 3240 }, { "epoch": 0.41, "learning_rate": 8.645833333333334e-05, "loss": 3.5959, "step": 3250 }, { "epoch": 0.41, "learning_rate": 8.641666666666666e-05, "loss": 3.5589, "step": 3260 }, { "epoch": 0.42, "learning_rate": 8.637500000000001e-05, "loss": 3.595, "step": 3270 }, { "epoch": 0.42, "learning_rate": 8.633333333333334e-05, "loss": 3.6233, "step": 3280 }, { "epoch": 0.42, "learning_rate": 8.629166666666667e-05, "loss": 3.5681, "step": 3290 }, { "epoch": 0.42, "learning_rate": 8.625000000000001e-05, "loss": 3.5758, "step": 3300 }, { "epoch": 0.42, "learning_rate": 8.620833333333333e-05, "loss": 3.6147, "step": 3310 }, { "epoch": 0.42, "learning_rate": 8.616666666666667e-05, "loss": 3.6335, "step": 3320 }, { "epoch": 0.42, "learning_rate": 8.6125e-05, "loss": 3.5977, "step": 3330 }, { "epoch": 0.42, "learning_rate": 8.608333333333334e-05, "loss": 3.5908, "step": 3340 }, { "epoch": 0.43, "learning_rate": 8.604166666666668e-05, "loss": 3.6289, "step": 3350 }, { "epoch": 0.43, "learning_rate": 8.6e-05, "loss": 3.5793, "step": 3360 }, { "epoch": 0.43, "learning_rate": 8.595833333333334e-05, "loss": 3.6071, "step": 3370 }, { "epoch": 0.43, "learning_rate": 8.591666666666666e-05, "loss": 3.559, "step": 3380 }, { "epoch": 0.43, "learning_rate": 8.5875e-05, "loss": 3.6015, "step": 3390 }, { "epoch": 0.43, "learning_rate": 8.583333333333334e-05, "loss": 3.5323, "step": 3400 }, { "epoch": 0.43, "learning_rate": 8.579166666666667e-05, "loss": 3.5883, "step": 3410 }, { "epoch": 0.43, "learning_rate": 8.575000000000001e-05, "loss": 3.5277, "step": 3420 }, { "epoch": 0.44, "learning_rate": 8.570833333333333e-05, "loss": 3.5964, "step": 3430 }, { "epoch": 0.44, "learning_rate": 8.566666666666667e-05, "loss": 3.5347, "step": 3440 }, { "epoch": 0.44, "learning_rate": 8.5625e-05, "loss": 3.5467, "step": 3450 }, { "epoch": 0.44, "learning_rate": 8.558333333333333e-05, "loss": 3.5546, "step": 3460 }, { "epoch": 0.44, "learning_rate": 8.554166666666668e-05, "loss": 3.5645, "step": 3470 }, { "epoch": 0.44, "learning_rate": 8.55e-05, "loss": 3.6104, "step": 3480 }, { "epoch": 0.44, "learning_rate": 8.545833333333334e-05, "loss": 3.5779, "step": 3490 }, { "epoch": 0.44, "learning_rate": 8.541666666666666e-05, "loss": 3.5404, "step": 3500 }, { "epoch": 0.45, "learning_rate": 8.5375e-05, "loss": 3.5237, "step": 3510 }, { "epoch": 0.45, "learning_rate": 8.533333333333334e-05, "loss": 3.6821, "step": 3520 }, { "epoch": 0.45, "learning_rate": 8.529166666666668e-05, "loss": 3.5769, "step": 3530 }, { "epoch": 0.45, "learning_rate": 8.525000000000001e-05, "loss": 3.5597, "step": 3540 }, { "epoch": 0.45, "learning_rate": 8.520833333333334e-05, "loss": 3.5896, "step": 3550 }, { "epoch": 0.45, "learning_rate": 8.516666666666667e-05, "loss": 3.5191, "step": 3560 }, { "epoch": 0.45, "learning_rate": 8.5125e-05, "loss": 3.5904, "step": 3570 }, { "epoch": 0.45, "learning_rate": 8.508333333333333e-05, "loss": 3.611, "step": 3580 }, { "epoch": 0.46, "learning_rate": 8.504166666666667e-05, "loss": 3.608, "step": 3590 }, { "epoch": 0.46, "learning_rate": 8.5e-05, "loss": 3.5337, "step": 3600 }, { "epoch": 0.46, "learning_rate": 8.495833333333334e-05, "loss": 3.4978, "step": 3610 }, { "epoch": 0.46, "learning_rate": 8.491666666666667e-05, "loss": 3.4914, "step": 3620 }, { "epoch": 0.46, "learning_rate": 8.4875e-05, "loss": 3.5841, "step": 3630 }, { "epoch": 0.46, "learning_rate": 8.483333333333334e-05, "loss": 3.6888, "step": 3640 }, { "epoch": 0.46, "learning_rate": 8.479166666666666e-05, "loss": 3.5585, "step": 3650 }, { "epoch": 0.46, "learning_rate": 8.475000000000001e-05, "loss": 3.4403, "step": 3660 }, { "epoch": 0.47, "learning_rate": 8.470833333333334e-05, "loss": 3.5531, "step": 3670 }, { "epoch": 0.47, "learning_rate": 8.466666666666667e-05, "loss": 3.5483, "step": 3680 }, { "epoch": 0.47, "learning_rate": 8.4625e-05, "loss": 3.6014, "step": 3690 }, { "epoch": 0.47, "learning_rate": 8.458333333333333e-05, "loss": 3.5384, "step": 3700 }, { "epoch": 0.47, "learning_rate": 8.454166666666667e-05, "loss": 3.4553, "step": 3710 }, { "epoch": 0.47, "learning_rate": 8.450000000000001e-05, "loss": 3.568, "step": 3720 }, { "epoch": 0.47, "learning_rate": 8.445833333333334e-05, "loss": 3.4683, "step": 3730 }, { "epoch": 0.47, "learning_rate": 8.441666666666667e-05, "loss": 3.521, "step": 3740 }, { "epoch": 0.48, "learning_rate": 8.4375e-05, "loss": 3.671, "step": 3750 }, { "epoch": 0.48, "learning_rate": 8.433333333333334e-05, "loss": 3.6247, "step": 3760 }, { "epoch": 0.48, "learning_rate": 8.429166666666666e-05, "loss": 3.5611, "step": 3770 }, { "epoch": 0.48, "learning_rate": 8.425e-05, "loss": 3.5846, "step": 3780 }, { "epoch": 0.48, "learning_rate": 8.420833333333334e-05, "loss": 3.5522, "step": 3790 }, { "epoch": 0.48, "learning_rate": 8.416666666666668e-05, "loss": 3.5258, "step": 3800 }, { "epoch": 0.48, "learning_rate": 8.412500000000001e-05, "loss": 3.6439, "step": 3810 }, { "epoch": 0.49, "learning_rate": 8.408333333333334e-05, "loss": 3.5508, "step": 3820 }, { "epoch": 0.49, "learning_rate": 8.404166666666667e-05, "loss": 3.5548, "step": 3830 }, { "epoch": 0.49, "learning_rate": 8.4e-05, "loss": 3.5514, "step": 3840 }, { "epoch": 0.49, "learning_rate": 8.395833333333333e-05, "loss": 3.5882, "step": 3850 }, { "epoch": 0.49, "learning_rate": 8.391666666666667e-05, "loss": 3.5604, "step": 3860 }, { "epoch": 0.49, "learning_rate": 8.3875e-05, "loss": 3.6402, "step": 3870 }, { "epoch": 0.49, "learning_rate": 8.383333333333334e-05, "loss": 3.509, "step": 3880 }, { "epoch": 0.49, "learning_rate": 8.379166666666667e-05, "loss": 3.6873, "step": 3890 }, { "epoch": 0.5, "learning_rate": 8.375e-05, "loss": 3.5629, "step": 3900 }, { "epoch": 0.5, "learning_rate": 8.370833333333334e-05, "loss": 3.6112, "step": 3910 }, { "epoch": 0.5, "learning_rate": 8.366666666666668e-05, "loss": 3.6512, "step": 3920 }, { "epoch": 0.5, "learning_rate": 8.362500000000001e-05, "loss": 3.6235, "step": 3930 }, { "epoch": 0.5, "learning_rate": 8.358333333333334e-05, "loss": 3.6178, "step": 3940 }, { "epoch": 0.5, "learning_rate": 8.354166666666667e-05, "loss": 3.5812, "step": 3950 }, { "epoch": 0.5, "learning_rate": 8.35e-05, "loss": 3.5623, "step": 3960 }, { "epoch": 0.5, "learning_rate": 8.345833333333333e-05, "loss": 3.604, "step": 3970 }, { "epoch": 0.51, "learning_rate": 8.341666666666667e-05, "loss": 3.514, "step": 3980 }, { "epoch": 0.51, "learning_rate": 8.337500000000001e-05, "loss": 3.5046, "step": 3990 }, { "epoch": 0.51, "learning_rate": 8.333333333333334e-05, "loss": 3.5992, "step": 4000 }, { "epoch": 0.51, "learning_rate": 8.329166666666667e-05, "loss": 3.6196, "step": 4010 }, { "epoch": 0.51, "learning_rate": 8.325e-05, "loss": 3.6404, "step": 4020 }, { "epoch": 0.51, "learning_rate": 8.320833333333333e-05, "loss": 3.5881, "step": 4030 }, { "epoch": 0.51, "learning_rate": 8.316666666666666e-05, "loss": 3.5469, "step": 4040 }, { "epoch": 0.51, "learning_rate": 8.312500000000001e-05, "loss": 3.6347, "step": 4050 }, { "epoch": 0.52, "learning_rate": 8.308333333333334e-05, "loss": 3.5652, "step": 4060 }, { "epoch": 0.52, "learning_rate": 8.304166666666667e-05, "loss": 3.5397, "step": 4070 }, { "epoch": 0.52, "learning_rate": 8.3e-05, "loss": 3.5893, "step": 4080 }, { "epoch": 0.52, "learning_rate": 8.295833333333333e-05, "loss": 3.7198, "step": 4090 }, { "epoch": 0.52, "learning_rate": 8.291666666666667e-05, "loss": 3.6358, "step": 4100 }, { "epoch": 0.52, "learning_rate": 8.287500000000001e-05, "loss": 3.5774, "step": 4110 }, { "epoch": 0.52, "learning_rate": 8.283333333333335e-05, "loss": 3.6091, "step": 4120 }, { "epoch": 0.52, "learning_rate": 8.279166666666667e-05, "loss": 3.5642, "step": 4130 }, { "epoch": 0.53, "learning_rate": 8.275e-05, "loss": 3.6204, "step": 4140 }, { "epoch": 0.53, "learning_rate": 8.270833333333333e-05, "loss": 3.6095, "step": 4150 }, { "epoch": 0.53, "learning_rate": 8.266666666666667e-05, "loss": 3.4866, "step": 4160 }, { "epoch": 0.53, "learning_rate": 8.2625e-05, "loss": 3.617, "step": 4170 }, { "epoch": 0.53, "learning_rate": 8.258333333333334e-05, "loss": 3.6752, "step": 4180 }, { "epoch": 0.53, "learning_rate": 8.254166666666668e-05, "loss": 3.6078, "step": 4190 }, { "epoch": 0.53, "learning_rate": 8.25e-05, "loss": 3.6327, "step": 4200 }, { "epoch": 0.53, "learning_rate": 8.245833333333334e-05, "loss": 3.5697, "step": 4210 }, { "epoch": 0.54, "learning_rate": 8.241666666666667e-05, "loss": 3.5216, "step": 4220 }, { "epoch": 0.54, "learning_rate": 8.2375e-05, "loss": 3.5554, "step": 4230 }, { "epoch": 0.54, "learning_rate": 8.233333333333333e-05, "loss": 3.5954, "step": 4240 }, { "epoch": 0.54, "learning_rate": 8.229166666666667e-05, "loss": 3.5724, "step": 4250 }, { "epoch": 0.54, "learning_rate": 8.225000000000001e-05, "loss": 3.6008, "step": 4260 }, { "epoch": 0.54, "learning_rate": 8.220833333333334e-05, "loss": 3.5765, "step": 4270 }, { "epoch": 0.54, "learning_rate": 8.216666666666667e-05, "loss": 3.5846, "step": 4280 }, { "epoch": 0.54, "learning_rate": 8.2125e-05, "loss": 3.483, "step": 4290 }, { "epoch": 0.55, "learning_rate": 8.208333333333334e-05, "loss": 3.6283, "step": 4300 }, { "epoch": 0.55, "learning_rate": 8.204166666666668e-05, "loss": 3.5488, "step": 4310 }, { "epoch": 0.55, "learning_rate": 8.2e-05, "loss": 3.662, "step": 4320 }, { "epoch": 0.55, "learning_rate": 8.195833333333334e-05, "loss": 3.644, "step": 4330 }, { "epoch": 0.55, "learning_rate": 8.191666666666667e-05, "loss": 3.5158, "step": 4340 }, { "epoch": 0.55, "learning_rate": 8.1875e-05, "loss": 3.5948, "step": 4350 }, { "epoch": 0.55, "learning_rate": 8.183333333333333e-05, "loss": 3.6159, "step": 4360 }, { "epoch": 0.55, "learning_rate": 8.179166666666667e-05, "loss": 3.5238, "step": 4370 }, { "epoch": 0.56, "learning_rate": 8.175000000000001e-05, "loss": 3.5101, "step": 4380 }, { "epoch": 0.56, "learning_rate": 8.170833333333335e-05, "loss": 3.5034, "step": 4390 }, { "epoch": 0.56, "learning_rate": 8.166666666666667e-05, "loss": 3.6427, "step": 4400 }, { "epoch": 0.56, "learning_rate": 8.1625e-05, "loss": 3.4548, "step": 4410 }, { "epoch": 0.56, "learning_rate": 8.158333333333333e-05, "loss": 3.6167, "step": 4420 }, { "epoch": 0.56, "learning_rate": 8.154166666666667e-05, "loss": 3.5687, "step": 4430 }, { "epoch": 0.56, "learning_rate": 8.15e-05, "loss": 3.4888, "step": 4440 }, { "epoch": 0.57, "learning_rate": 8.145833333333334e-05, "loss": 3.617, "step": 4450 }, { "epoch": 0.57, "learning_rate": 8.141666666666668e-05, "loss": 3.5811, "step": 4460 }, { "epoch": 0.57, "learning_rate": 8.1375e-05, "loss": 3.5973, "step": 4470 }, { "epoch": 0.57, "learning_rate": 8.133333333333334e-05, "loss": 3.5755, "step": 4480 }, { "epoch": 0.57, "learning_rate": 8.129166666666666e-05, "loss": 3.5174, "step": 4490 }, { "epoch": 0.57, "learning_rate": 8.125000000000001e-05, "loss": 3.5322, "step": 4500 }, { "epoch": 0.57, "learning_rate": 8.120833333333335e-05, "loss": 3.6837, "step": 4510 }, { "epoch": 0.57, "learning_rate": 8.116666666666667e-05, "loss": 3.6291, "step": 4520 }, { "epoch": 0.58, "learning_rate": 8.112500000000001e-05, "loss": 3.587, "step": 4530 }, { "epoch": 0.58, "learning_rate": 8.108333333333333e-05, "loss": 3.4809, "step": 4540 }, { "epoch": 0.58, "learning_rate": 8.104166666666667e-05, "loss": 3.6029, "step": 4550 }, { "epoch": 0.58, "learning_rate": 8.1e-05, "loss": 3.6137, "step": 4560 }, { "epoch": 0.58, "learning_rate": 8.095833333333334e-05, "loss": 3.5583, "step": 4570 }, { "epoch": 0.58, "learning_rate": 8.091666666666668e-05, "loss": 3.5253, "step": 4580 }, { "epoch": 0.58, "learning_rate": 8.0875e-05, "loss": 3.5053, "step": 4590 }, { "epoch": 0.58, "learning_rate": 8.083333333333334e-05, "loss": 3.5736, "step": 4600 }, { "epoch": 0.59, "learning_rate": 8.079166666666666e-05, "loss": 3.6078, "step": 4610 }, { "epoch": 0.59, "learning_rate": 8.075e-05, "loss": 3.5355, "step": 4620 }, { "epoch": 0.59, "learning_rate": 8.070833333333335e-05, "loss": 3.5972, "step": 4630 }, { "epoch": 0.59, "learning_rate": 8.066666666666667e-05, "loss": 3.5816, "step": 4640 }, { "epoch": 0.59, "learning_rate": 8.062500000000001e-05, "loss": 3.5812, "step": 4650 }, { "epoch": 0.59, "learning_rate": 8.058333333333333e-05, "loss": 3.6055, "step": 4660 }, { "epoch": 0.59, "learning_rate": 8.054166666666667e-05, "loss": 3.6101, "step": 4670 }, { "epoch": 0.59, "learning_rate": 8.05e-05, "loss": 3.5963, "step": 4680 }, { "epoch": 0.6, "learning_rate": 8.045833333333334e-05, "loss": 3.5943, "step": 4690 }, { "epoch": 0.6, "learning_rate": 8.041666666666668e-05, "loss": 3.5905, "step": 4700 }, { "epoch": 0.6, "learning_rate": 8.0375e-05, "loss": 3.4845, "step": 4710 }, { "epoch": 0.6, "learning_rate": 8.033333333333334e-05, "loss": 3.6023, "step": 4720 }, { "epoch": 0.6, "learning_rate": 8.029166666666666e-05, "loss": 3.6224, "step": 4730 }, { "epoch": 0.6, "learning_rate": 8.025e-05, "loss": 3.5426, "step": 4740 }, { "epoch": 0.6, "learning_rate": 8.020833333333334e-05, "loss": 3.53, "step": 4750 }, { "epoch": 0.6, "learning_rate": 8.016666666666667e-05, "loss": 3.5731, "step": 4760 }, { "epoch": 0.61, "learning_rate": 8.012500000000001e-05, "loss": 3.5987, "step": 4770 }, { "epoch": 0.61, "learning_rate": 8.008333333333333e-05, "loss": 3.5692, "step": 4780 }, { "epoch": 0.61, "learning_rate": 8.004166666666667e-05, "loss": 3.609, "step": 4790 }, { "epoch": 0.61, "learning_rate": 8e-05, "loss": 3.58, "step": 4800 }, { "epoch": 0.61, "learning_rate": 7.995833333333333e-05, "loss": 3.5773, "step": 4810 }, { "epoch": 0.61, "learning_rate": 7.991666666666667e-05, "loss": 3.5839, "step": 4820 }, { "epoch": 0.61, "learning_rate": 7.9875e-05, "loss": 3.531, "step": 4830 }, { "epoch": 0.61, "learning_rate": 7.983333333333334e-05, "loss": 3.5792, "step": 4840 }, { "epoch": 0.62, "learning_rate": 7.979166666666668e-05, "loss": 3.6252, "step": 4850 }, { "epoch": 0.62, "learning_rate": 7.975e-05, "loss": 3.6222, "step": 4860 }, { "epoch": 0.62, "learning_rate": 7.970833333333334e-05, "loss": 3.627, "step": 4870 }, { "epoch": 0.62, "learning_rate": 7.966666666666666e-05, "loss": 3.5692, "step": 4880 }, { "epoch": 0.62, "learning_rate": 7.962500000000001e-05, "loss": 3.6166, "step": 4890 }, { "epoch": 0.62, "learning_rate": 7.958333333333333e-05, "loss": 3.6172, "step": 4900 }, { "epoch": 0.62, "learning_rate": 7.954166666666667e-05, "loss": 3.549, "step": 4910 }, { "epoch": 0.62, "learning_rate": 7.950000000000001e-05, "loss": 3.64, "step": 4920 }, { "epoch": 0.63, "learning_rate": 7.945833333333333e-05, "loss": 3.5726, "step": 4930 }, { "epoch": 0.63, "learning_rate": 7.941666666666667e-05, "loss": 3.472, "step": 4940 }, { "epoch": 0.63, "learning_rate": 7.9375e-05, "loss": 3.5556, "step": 4950 }, { "epoch": 0.63, "learning_rate": 7.933333333333334e-05, "loss": 3.6197, "step": 4960 }, { "epoch": 0.63, "learning_rate": 7.929166666666668e-05, "loss": 3.4841, "step": 4970 }, { "epoch": 0.63, "learning_rate": 7.925e-05, "loss": 3.583, "step": 4980 }, { "epoch": 0.63, "learning_rate": 7.920833333333334e-05, "loss": 3.6083, "step": 4990 }, { "epoch": 0.63, "learning_rate": 7.916666666666666e-05, "loss": 3.6286, "step": 5000 }, { "epoch": 0.64, "learning_rate": 7.9125e-05, "loss": 3.6039, "step": 5010 }, { "epoch": 0.64, "learning_rate": 7.908333333333335e-05, "loss": 3.6782, "step": 5020 }, { "epoch": 0.64, "learning_rate": 7.904166666666667e-05, "loss": 3.5572, "step": 5030 }, { "epoch": 0.64, "learning_rate": 7.900000000000001e-05, "loss": 3.5877, "step": 5040 }, { "epoch": 0.64, "learning_rate": 7.895833333333333e-05, "loss": 3.6277, "step": 5050 }, { "epoch": 0.64, "learning_rate": 7.891666666666667e-05, "loss": 3.575, "step": 5060 }, { "epoch": 0.64, "learning_rate": 7.887499999999999e-05, "loss": 3.5921, "step": 5070 }, { "epoch": 0.65, "learning_rate": 7.883333333333334e-05, "loss": 3.6023, "step": 5080 }, { "epoch": 0.65, "learning_rate": 7.879166666666668e-05, "loss": 3.5427, "step": 5090 }, { "epoch": 0.65, "learning_rate": 7.875e-05, "loss": 3.6063, "step": 5100 }, { "epoch": 0.65, "learning_rate": 7.870833333333334e-05, "loss": 3.6503, "step": 5110 }, { "epoch": 0.65, "learning_rate": 7.866666666666666e-05, "loss": 3.486, "step": 5120 }, { "epoch": 0.65, "learning_rate": 7.8625e-05, "loss": 3.6132, "step": 5130 }, { "epoch": 0.65, "learning_rate": 7.858333333333334e-05, "loss": 3.6411, "step": 5140 }, { "epoch": 0.65, "learning_rate": 7.854166666666667e-05, "loss": 3.6532, "step": 5150 }, { "epoch": 0.66, "learning_rate": 7.850000000000001e-05, "loss": 3.592, "step": 5160 }, { "epoch": 0.66, "learning_rate": 7.845833333333333e-05, "loss": 3.6006, "step": 5170 }, { "epoch": 0.66, "learning_rate": 7.841666666666667e-05, "loss": 3.5708, "step": 5180 }, { "epoch": 0.66, "learning_rate": 7.8375e-05, "loss": 3.4465, "step": 5190 }, { "epoch": 0.66, "learning_rate": 7.833333333333333e-05, "loss": 3.6227, "step": 5200 }, { "epoch": 0.66, "learning_rate": 7.829166666666667e-05, "loss": 3.6649, "step": 5210 }, { "epoch": 0.66, "learning_rate": 7.825e-05, "loss": 3.6357, "step": 5220 }, { "epoch": 0.66, "learning_rate": 7.820833333333334e-05, "loss": 3.5557, "step": 5230 }, { "epoch": 0.67, "learning_rate": 7.816666666666666e-05, "loss": 3.6042, "step": 5240 }, { "epoch": 0.67, "learning_rate": 7.8125e-05, "loss": 3.7021, "step": 5250 }, { "epoch": 0.67, "learning_rate": 7.808333333333334e-05, "loss": 3.6158, "step": 5260 }, { "epoch": 0.67, "learning_rate": 7.804166666666666e-05, "loss": 3.5807, "step": 5270 }, { "epoch": 0.67, "learning_rate": 7.800000000000001e-05, "loss": 3.6692, "step": 5280 }, { "epoch": 0.67, "learning_rate": 7.795833333333334e-05, "loss": 3.5827, "step": 5290 }, { "epoch": 0.67, "learning_rate": 7.791666666666667e-05, "loss": 3.5021, "step": 5300 }, { "epoch": 0.67, "learning_rate": 7.787500000000001e-05, "loss": 3.5635, "step": 5310 }, { "epoch": 0.68, "learning_rate": 7.783333333333333e-05, "loss": 3.5199, "step": 5320 }, { "epoch": 0.68, "learning_rate": 7.779166666666667e-05, "loss": 3.5815, "step": 5330 }, { "epoch": 0.68, "learning_rate": 7.775e-05, "loss": 3.5408, "step": 5340 }, { "epoch": 0.68, "learning_rate": 7.770833333333334e-05, "loss": 3.6337, "step": 5350 }, { "epoch": 0.68, "learning_rate": 7.766666666666667e-05, "loss": 3.6977, "step": 5360 }, { "epoch": 0.68, "learning_rate": 7.7625e-05, "loss": 3.5419, "step": 5370 }, { "epoch": 0.68, "learning_rate": 7.758333333333334e-05, "loss": 3.6615, "step": 5380 }, { "epoch": 0.68, "learning_rate": 7.754166666666666e-05, "loss": 3.5808, "step": 5390 }, { "epoch": 0.69, "learning_rate": 7.75e-05, "loss": 3.6164, "step": 5400 }, { "epoch": 0.69, "learning_rate": 7.745833333333334e-05, "loss": 3.5611, "step": 5410 }, { "epoch": 0.69, "learning_rate": 7.741666666666667e-05, "loss": 3.5983, "step": 5420 }, { "epoch": 0.69, "learning_rate": 7.737500000000001e-05, "loss": 3.65, "step": 5430 }, { "epoch": 0.69, "learning_rate": 7.733333333333333e-05, "loss": 3.492, "step": 5440 }, { "epoch": 0.69, "learning_rate": 7.729166666666667e-05, "loss": 3.6027, "step": 5450 }, { "epoch": 0.69, "learning_rate": 7.725e-05, "loss": 3.5726, "step": 5460 }, { "epoch": 0.69, "learning_rate": 7.720833333333334e-05, "loss": 3.655, "step": 5470 }, { "epoch": 0.7, "learning_rate": 7.716666666666667e-05, "loss": 3.5587, "step": 5480 }, { "epoch": 0.7, "learning_rate": 7.7125e-05, "loss": 3.6136, "step": 5490 }, { "epoch": 0.7, "learning_rate": 7.708333333333334e-05, "loss": 3.7317, "step": 5500 }, { "epoch": 0.7, "learning_rate": 7.704166666666666e-05, "loss": 3.5423, "step": 5510 }, { "epoch": 0.7, "learning_rate": 7.7e-05, "loss": 3.5956, "step": 5520 }, { "epoch": 0.7, "learning_rate": 7.695833333333334e-05, "loss": 3.5298, "step": 5530 }, { "epoch": 0.7, "learning_rate": 7.691666666666668e-05, "loss": 3.6145, "step": 5540 }, { "epoch": 0.7, "learning_rate": 7.687500000000001e-05, "loss": 3.5994, "step": 5550 }, { "epoch": 0.71, "learning_rate": 7.683333333333334e-05, "loss": 3.6129, "step": 5560 }, { "epoch": 0.71, "learning_rate": 7.679166666666667e-05, "loss": 3.6203, "step": 5570 }, { "epoch": 0.71, "learning_rate": 7.675e-05, "loss": 3.6052, "step": 5580 }, { "epoch": 0.71, "learning_rate": 7.670833333333333e-05, "loss": 3.6751, "step": 5590 }, { "epoch": 0.71, "learning_rate": 7.666666666666667e-05, "loss": 3.6544, "step": 5600 }, { "epoch": 0.71, "learning_rate": 7.6625e-05, "loss": 3.594, "step": 5610 }, { "epoch": 0.71, "learning_rate": 7.658333333333334e-05, "loss": 3.6104, "step": 5620 }, { "epoch": 0.71, "learning_rate": 7.654166666666667e-05, "loss": 3.5696, "step": 5630 }, { "epoch": 0.72, "learning_rate": 7.65e-05, "loss": 3.6245, "step": 5640 }, { "epoch": 0.72, "learning_rate": 7.645833333333333e-05, "loss": 3.6363, "step": 5650 }, { "epoch": 0.72, "learning_rate": 7.641666666666668e-05, "loss": 3.5791, "step": 5660 }, { "epoch": 0.72, "learning_rate": 7.637500000000001e-05, "loss": 3.5783, "step": 5670 }, { "epoch": 0.72, "learning_rate": 7.633333333333334e-05, "loss": 3.6416, "step": 5680 }, { "epoch": 0.72, "learning_rate": 7.629166666666667e-05, "loss": 3.6714, "step": 5690 }, { "epoch": 0.72, "learning_rate": 7.625e-05, "loss": 3.5001, "step": 5700 }, { "epoch": 0.73, "learning_rate": 7.620833333333333e-05, "loss": 3.502, "step": 5710 }, { "epoch": 0.73, "learning_rate": 7.616666666666667e-05, "loss": 3.585, "step": 5720 }, { "epoch": 0.73, "learning_rate": 7.612500000000001e-05, "loss": 3.5355, "step": 5730 }, { "epoch": 0.73, "learning_rate": 7.608333333333334e-05, "loss": 3.5467, "step": 5740 }, { "epoch": 0.73, "learning_rate": 7.604166666666667e-05, "loss": 3.6266, "step": 5750 }, { "epoch": 0.73, "learning_rate": 7.6e-05, "loss": 3.6623, "step": 5760 }, { "epoch": 0.73, "learning_rate": 7.595833333333334e-05, "loss": 3.5713, "step": 5770 }, { "epoch": 0.73, "learning_rate": 7.591666666666666e-05, "loss": 3.5865, "step": 5780 }, { "epoch": 0.74, "learning_rate": 7.5875e-05, "loss": 3.5256, "step": 5790 }, { "epoch": 0.74, "learning_rate": 7.583333333333334e-05, "loss": 3.5898, "step": 5800 }, { "epoch": 0.74, "learning_rate": 7.579166666666667e-05, "loss": 3.6288, "step": 5810 }, { "epoch": 0.74, "learning_rate": 7.575e-05, "loss": 3.5965, "step": 5820 }, { "epoch": 0.74, "learning_rate": 7.570833333333333e-05, "loss": 3.5972, "step": 5830 }, { "epoch": 0.74, "learning_rate": 7.566666666666667e-05, "loss": 3.5695, "step": 5840 }, { "epoch": 0.74, "learning_rate": 7.5625e-05, "loss": 3.6182, "step": 5850 }, { "epoch": 0.74, "learning_rate": 7.558333333333335e-05, "loss": 3.5899, "step": 5860 }, { "epoch": 0.75, "learning_rate": 7.554166666666667e-05, "loss": 3.5776, "step": 5870 }, { "epoch": 0.75, "learning_rate": 7.55e-05, "loss": 3.5523, "step": 5880 }, { "epoch": 0.75, "learning_rate": 7.545833333333334e-05, "loss": 3.5161, "step": 5890 }, { "epoch": 0.75, "learning_rate": 7.541666666666667e-05, "loss": 3.696, "step": 5900 }, { "epoch": 0.75, "learning_rate": 7.5375e-05, "loss": 3.6256, "step": 5910 }, { "epoch": 0.75, "learning_rate": 7.533333333333334e-05, "loss": 3.5272, "step": 5920 }, { "epoch": 0.75, "learning_rate": 7.529166666666668e-05, "loss": 3.6017, "step": 5930 }, { "epoch": 0.75, "learning_rate": 7.525e-05, "loss": 3.6112, "step": 5940 }, { "epoch": 0.76, "learning_rate": 7.520833333333334e-05, "loss": 3.5916, "step": 5950 }, { "epoch": 0.76, "learning_rate": 7.516666666666667e-05, "loss": 3.5972, "step": 5960 }, { "epoch": 0.76, "learning_rate": 7.5125e-05, "loss": 3.6372, "step": 5970 }, { "epoch": 0.76, "learning_rate": 7.508333333333333e-05, "loss": 3.6178, "step": 5980 }, { "epoch": 0.76, "learning_rate": 7.504166666666667e-05, "loss": 3.6852, "step": 5990 }, { "epoch": 0.76, "learning_rate": 7.500000000000001e-05, "loss": 3.6744, "step": 6000 }, { "epoch": 0.76, "learning_rate": 7.495833333333334e-05, "loss": 3.637, "step": 6010 }, { "epoch": 0.76, "learning_rate": 7.491666666666667e-05, "loss": 3.613, "step": 6020 }, { "epoch": 0.77, "learning_rate": 7.4875e-05, "loss": 3.5574, "step": 6030 }, { "epoch": 0.77, "learning_rate": 7.483333333333333e-05, "loss": 3.693, "step": 6040 }, { "epoch": 0.77, "learning_rate": 7.479166666666668e-05, "loss": 3.6124, "step": 6050 }, { "epoch": 0.77, "learning_rate": 7.475000000000001e-05, "loss": 3.6032, "step": 6060 }, { "epoch": 0.77, "learning_rate": 7.470833333333334e-05, "loss": 3.6401, "step": 6070 }, { "epoch": 0.77, "learning_rate": 7.466666666666667e-05, "loss": 3.673, "step": 6080 }, { "epoch": 0.77, "learning_rate": 7.4625e-05, "loss": 3.626, "step": 6090 }, { "epoch": 0.77, "learning_rate": 7.458333333333333e-05, "loss": 3.5867, "step": 6100 }, { "epoch": 0.78, "learning_rate": 7.454166666666667e-05, "loss": 3.5955, "step": 6110 }, { "epoch": 0.78, "learning_rate": 7.450000000000001e-05, "loss": 3.6471, "step": 6120 }, { "epoch": 0.78, "learning_rate": 7.445833333333335e-05, "loss": 3.5714, "step": 6130 }, { "epoch": 0.78, "learning_rate": 7.441666666666667e-05, "loss": 3.5623, "step": 6140 }, { "epoch": 0.78, "learning_rate": 7.4375e-05, "loss": 3.6082, "step": 6150 }, { "epoch": 0.78, "learning_rate": 7.433333333333333e-05, "loss": 3.6811, "step": 6160 }, { "epoch": 0.78, "learning_rate": 7.429166666666667e-05, "loss": 3.5692, "step": 6170 }, { "epoch": 0.78, "learning_rate": 7.425e-05, "loss": 3.6096, "step": 6180 }, { "epoch": 0.79, "learning_rate": 7.420833333333334e-05, "loss": 3.5637, "step": 6190 }, { "epoch": 0.79, "learning_rate": 7.416666666666668e-05, "loss": 3.5481, "step": 6200 }, { "epoch": 0.79, "learning_rate": 7.4125e-05, "loss": 3.6366, "step": 6210 }, { "epoch": 0.79, "learning_rate": 7.408333333333334e-05, "loss": 3.6967, "step": 6220 }, { "epoch": 0.79, "learning_rate": 7.404166666666666e-05, "loss": 3.6183, "step": 6230 }, { "epoch": 0.79, "learning_rate": 7.4e-05, "loss": 3.6573, "step": 6240 }, { "epoch": 0.79, "learning_rate": 7.395833333333335e-05, "loss": 3.568, "step": 6250 }, { "epoch": 0.79, "learning_rate": 7.391666666666667e-05, "loss": 3.6373, "step": 6260 }, { "epoch": 0.8, "learning_rate": 7.3875e-05, "loss": 3.5763, "step": 6270 }, { "epoch": 0.8, "learning_rate": 7.383333333333333e-05, "loss": 3.5712, "step": 6280 }, { "epoch": 0.8, "learning_rate": 7.379166666666667e-05, "loss": 3.6983, "step": 6290 }, { "epoch": 0.8, "learning_rate": 7.375e-05, "loss": 3.6403, "step": 6300 }, { "epoch": 0.8, "learning_rate": 7.370833333333334e-05, "loss": 3.5991, "step": 6310 }, { "epoch": 0.8, "learning_rate": 7.366666666666668e-05, "loss": 3.6517, "step": 6320 }, { "epoch": 0.8, "learning_rate": 7.3625e-05, "loss": 3.5366, "step": 6330 }, { "epoch": 0.81, "learning_rate": 7.358333333333334e-05, "loss": 3.5838, "step": 6340 }, { "epoch": 0.81, "learning_rate": 7.354166666666667e-05, "loss": 3.5929, "step": 6350 }, { "epoch": 0.81, "learning_rate": 7.35e-05, "loss": 3.6244, "step": 6360 }, { "epoch": 0.81, "learning_rate": 7.345833333333333e-05, "loss": 3.6554, "step": 6370 }, { "epoch": 0.81, "learning_rate": 7.341666666666667e-05, "loss": 3.5908, "step": 6380 }, { "epoch": 0.81, "learning_rate": 7.337500000000001e-05, "loss": 3.5754, "step": 6390 }, { "epoch": 0.81, "learning_rate": 7.333333333333333e-05, "loss": 3.5116, "step": 6400 }, { "epoch": 0.81, "learning_rate": 7.329166666666667e-05, "loss": 3.6581, "step": 6410 }, { "epoch": 0.82, "learning_rate": 7.325e-05, "loss": 3.6699, "step": 6420 }, { "epoch": 0.82, "learning_rate": 7.320833333333333e-05, "loss": 3.6547, "step": 6430 }, { "epoch": 0.82, "learning_rate": 7.316666666666668e-05, "loss": 3.5862, "step": 6440 }, { "epoch": 0.82, "learning_rate": 7.3125e-05, "loss": 3.5927, "step": 6450 }, { "epoch": 0.82, "learning_rate": 7.308333333333334e-05, "loss": 3.5676, "step": 6460 }, { "epoch": 0.82, "learning_rate": 7.304166666666668e-05, "loss": 3.583, "step": 6470 }, { "epoch": 0.82, "learning_rate": 7.3e-05, "loss": 3.6514, "step": 6480 }, { "epoch": 0.82, "learning_rate": 7.295833333333334e-05, "loss": 3.7006, "step": 6490 }, { "epoch": 0.83, "learning_rate": 7.291666666666667e-05, "loss": 3.6397, "step": 6500 }, { "epoch": 0.83, "learning_rate": 7.287500000000001e-05, "loss": 3.5993, "step": 6510 }, { "epoch": 0.83, "learning_rate": 7.283333333333335e-05, "loss": 3.5214, "step": 6520 }, { "epoch": 0.83, "learning_rate": 7.279166666666667e-05, "loss": 3.697, "step": 6530 }, { "epoch": 0.83, "learning_rate": 7.275e-05, "loss": 3.5773, "step": 6540 }, { "epoch": 0.83, "learning_rate": 7.270833333333333e-05, "loss": 3.6391, "step": 6550 }, { "epoch": 0.83, "learning_rate": 7.266666666666667e-05, "loss": 3.6754, "step": 6560 }, { "epoch": 0.83, "learning_rate": 7.2625e-05, "loss": 3.6288, "step": 6570 }, { "epoch": 0.84, "learning_rate": 7.258333333333334e-05, "loss": 3.6624, "step": 6580 }, { "epoch": 0.84, "learning_rate": 7.254166666666668e-05, "loss": 3.5863, "step": 6590 }, { "epoch": 0.84, "learning_rate": 7.25e-05, "loss": 3.6313, "step": 6600 }, { "epoch": 0.84, "learning_rate": 7.245833333333334e-05, "loss": 3.6312, "step": 6610 }, { "epoch": 0.84, "learning_rate": 7.241666666666666e-05, "loss": 3.6251, "step": 6620 }, { "epoch": 0.84, "learning_rate": 7.2375e-05, "loss": 3.5856, "step": 6630 }, { "epoch": 0.84, "learning_rate": 7.233333333333335e-05, "loss": 3.6479, "step": 6640 }, { "epoch": 0.84, "learning_rate": 7.229166666666667e-05, "loss": 3.6932, "step": 6650 }, { "epoch": 0.85, "learning_rate": 7.225000000000001e-05, "loss": 3.5276, "step": 6660 }, { "epoch": 0.85, "learning_rate": 7.220833333333333e-05, "loss": 3.6116, "step": 6670 }, { "epoch": 0.85, "learning_rate": 7.216666666666667e-05, "loss": 3.5596, "step": 6680 }, { "epoch": 0.85, "learning_rate": 7.2125e-05, "loss": 3.6613, "step": 6690 }, { "epoch": 0.85, "learning_rate": 7.208333333333334e-05, "loss": 3.5726, "step": 6700 }, { "epoch": 0.85, "learning_rate": 7.204166666666668e-05, "loss": 3.6115, "step": 6710 }, { "epoch": 0.85, "learning_rate": 7.2e-05, "loss": 3.5552, "step": 6720 }, { "epoch": 0.85, "learning_rate": 7.195833333333334e-05, "loss": 3.6163, "step": 6730 }, { "epoch": 0.86, "learning_rate": 7.191666666666666e-05, "loss": 3.6747, "step": 6740 }, { "epoch": 0.86, "learning_rate": 7.1875e-05, "loss": 3.653, "step": 6750 }, { "epoch": 0.86, "learning_rate": 7.183333333333334e-05, "loss": 3.6209, "step": 6760 }, { "epoch": 0.86, "learning_rate": 7.179166666666667e-05, "loss": 3.6271, "step": 6770 }, { "epoch": 0.86, "learning_rate": 7.175000000000001e-05, "loss": 3.5417, "step": 6780 }, { "epoch": 0.86, "learning_rate": 7.170833333333333e-05, "loss": 3.6343, "step": 6790 }, { "epoch": 0.86, "learning_rate": 7.166666666666667e-05, "loss": 3.6546, "step": 6800 }, { "epoch": 0.86, "learning_rate": 7.1625e-05, "loss": 3.6718, "step": 6810 }, { "epoch": 0.87, "learning_rate": 7.158333333333333e-05, "loss": 3.6653, "step": 6820 }, { "epoch": 0.87, "learning_rate": 7.154166666666668e-05, "loss": 3.5813, "step": 6830 }, { "epoch": 0.87, "learning_rate": 7.15e-05, "loss": 3.6247, "step": 6840 }, { "epoch": 0.87, "learning_rate": 7.145833333333334e-05, "loss": 3.6902, "step": 6850 }, { "epoch": 0.87, "learning_rate": 7.141666666666666e-05, "loss": 3.6518, "step": 6860 }, { "epoch": 0.87, "learning_rate": 7.1375e-05, "loss": 3.6537, "step": 6870 }, { "epoch": 0.87, "learning_rate": 7.133333333333334e-05, "loss": 3.6581, "step": 6880 }, { "epoch": 0.87, "learning_rate": 7.129166666666667e-05, "loss": 3.6255, "step": 6890 }, { "epoch": 0.88, "learning_rate": 7.125000000000001e-05, "loss": 3.6557, "step": 6900 }, { "epoch": 0.88, "learning_rate": 7.120833333333333e-05, "loss": 3.6133, "step": 6910 }, { "epoch": 0.88, "learning_rate": 7.116666666666667e-05, "loss": 3.6028, "step": 6920 }, { "epoch": 0.88, "learning_rate": 7.112500000000001e-05, "loss": 3.6415, "step": 6930 }, { "epoch": 0.88, "learning_rate": 7.108333333333333e-05, "loss": 3.6231, "step": 6940 }, { "epoch": 0.88, "learning_rate": 7.104166666666667e-05, "loss": 3.6098, "step": 6950 }, { "epoch": 0.88, "learning_rate": 7.1e-05, "loss": 3.5184, "step": 6960 }, { "epoch": 0.89, "learning_rate": 7.095833333333334e-05, "loss": 3.6309, "step": 6970 }, { "epoch": 0.89, "learning_rate": 7.091666666666666e-05, "loss": 3.6115, "step": 6980 }, { "epoch": 0.89, "learning_rate": 7.0875e-05, "loss": 3.5802, "step": 6990 }, { "epoch": 0.89, "learning_rate": 7.083333333333334e-05, "loss": 3.7062, "step": 7000 }, { "epoch": 0.89, "learning_rate": 7.079166666666666e-05, "loss": 3.5883, "step": 7010 }, { "epoch": 0.89, "learning_rate": 7.075e-05, "loss": 3.5863, "step": 7020 }, { "epoch": 0.89, "learning_rate": 7.070833333333334e-05, "loss": 3.6354, "step": 7030 }, { "epoch": 0.89, "learning_rate": 7.066666666666667e-05, "loss": 3.6159, "step": 7040 }, { "epoch": 0.9, "learning_rate": 7.062500000000001e-05, "loss": 3.6854, "step": 7050 }, { "epoch": 0.9, "learning_rate": 7.058333333333333e-05, "loss": 3.4773, "step": 7060 }, { "epoch": 0.9, "learning_rate": 7.054166666666667e-05, "loss": 3.6573, "step": 7070 }, { "epoch": 0.9, "learning_rate": 7.05e-05, "loss": 3.6132, "step": 7080 }, { "epoch": 0.9, "learning_rate": 7.045833333333334e-05, "loss": 3.6659, "step": 7090 }, { "epoch": 0.9, "learning_rate": 7.041666666666668e-05, "loss": 3.6111, "step": 7100 }, { "epoch": 0.9, "learning_rate": 7.0375e-05, "loss": 3.6581, "step": 7110 }, { "epoch": 0.9, "learning_rate": 7.033333333333334e-05, "loss": 3.6115, "step": 7120 }, { "epoch": 0.91, "learning_rate": 7.029166666666666e-05, "loss": 3.551, "step": 7130 }, { "epoch": 0.91, "learning_rate": 7.025e-05, "loss": 3.5641, "step": 7140 }, { "epoch": 0.91, "learning_rate": 7.020833333333334e-05, "loss": 3.6425, "step": 7150 }, { "epoch": 0.91, "learning_rate": 7.016666666666667e-05, "loss": 3.6238, "step": 7160 }, { "epoch": 0.91, "learning_rate": 7.012500000000001e-05, "loss": 3.5818, "step": 7170 }, { "epoch": 0.91, "learning_rate": 7.008333333333333e-05, "loss": 3.6587, "step": 7180 }, { "epoch": 0.91, "learning_rate": 7.004166666666667e-05, "loss": 3.6578, "step": 7190 }, { "epoch": 0.91, "learning_rate": 7e-05, "loss": 3.5527, "step": 7200 }, { "epoch": 0.92, "learning_rate": 6.995833333333333e-05, "loss": 3.6557, "step": 7210 }, { "epoch": 0.92, "learning_rate": 6.991666666666668e-05, "loss": 3.62, "step": 7220 }, { "epoch": 0.92, "learning_rate": 6.9875e-05, "loss": 3.773, "step": 7230 }, { "epoch": 0.92, "learning_rate": 6.983333333333334e-05, "loss": 3.5704, "step": 7240 }, { "epoch": 0.92, "learning_rate": 6.979166666666666e-05, "loss": 3.6377, "step": 7250 }, { "epoch": 0.92, "learning_rate": 6.975e-05, "loss": 3.6313, "step": 7260 }, { "epoch": 0.92, "learning_rate": 6.970833333333334e-05, "loss": 3.6741, "step": 7270 }, { "epoch": 0.92, "learning_rate": 6.966666666666668e-05, "loss": 3.621, "step": 7280 }, { "epoch": 0.93, "learning_rate": 6.962500000000001e-05, "loss": 3.6661, "step": 7290 }, { "epoch": 0.93, "learning_rate": 6.958333333333334e-05, "loss": 3.5894, "step": 7300 }, { "epoch": 0.93, "learning_rate": 6.954166666666667e-05, "loss": 3.6891, "step": 7310 }, { "epoch": 0.93, "learning_rate": 6.95e-05, "loss": 3.7526, "step": 7320 }, { "epoch": 0.93, "learning_rate": 6.945833333333333e-05, "loss": 3.5909, "step": 7330 }, { "epoch": 0.93, "learning_rate": 6.941666666666667e-05, "loss": 3.5817, "step": 7340 }, { "epoch": 0.93, "learning_rate": 6.9375e-05, "loss": 3.5532, "step": 7350 }, { "epoch": 0.93, "learning_rate": 6.933333333333334e-05, "loss": 3.6459, "step": 7360 }, { "epoch": 0.94, "learning_rate": 6.929166666666667e-05, "loss": 3.626, "step": 7370 }, { "epoch": 0.94, "learning_rate": 6.925e-05, "loss": 3.6428, "step": 7380 }, { "epoch": 0.94, "learning_rate": 6.920833333333334e-05, "loss": 3.5831, "step": 7390 }, { "epoch": 0.94, "learning_rate": 6.916666666666666e-05, "loss": 3.7133, "step": 7400 }, { "epoch": 0.94, "learning_rate": 6.9125e-05, "loss": 3.6442, "step": 7410 }, { "epoch": 0.94, "learning_rate": 6.908333333333334e-05, "loss": 3.6774, "step": 7420 }, { "epoch": 0.94, "learning_rate": 6.904166666666667e-05, "loss": 3.649, "step": 7430 }, { "epoch": 0.94, "learning_rate": 6.9e-05, "loss": 3.6296, "step": 7440 }, { "epoch": 0.95, "learning_rate": 6.895833333333333e-05, "loss": 3.59, "step": 7450 }, { "epoch": 0.95, "learning_rate": 6.891666666666667e-05, "loss": 3.6575, "step": 7460 }, { "epoch": 0.95, "learning_rate": 6.887500000000001e-05, "loss": 3.5483, "step": 7470 }, { "epoch": 0.95, "learning_rate": 6.883333333333334e-05, "loss": 3.7135, "step": 7480 }, { "epoch": 0.95, "learning_rate": 6.879166666666667e-05, "loss": 3.6777, "step": 7490 }, { "epoch": 0.95, "learning_rate": 6.875e-05, "loss": 3.6744, "step": 7500 }, { "epoch": 0.95, "learning_rate": 6.870833333333334e-05, "loss": 3.6978, "step": 7510 }, { "epoch": 0.95, "learning_rate": 6.866666666666666e-05, "loss": 3.6336, "step": 7520 }, { "epoch": 0.96, "learning_rate": 6.8625e-05, "loss": 3.6304, "step": 7530 }, { "epoch": 0.96, "learning_rate": 6.858333333333334e-05, "loss": 3.679, "step": 7540 }, { "epoch": 0.96, "learning_rate": 6.854166666666667e-05, "loss": 3.6326, "step": 7550 }, { "epoch": 0.96, "learning_rate": 6.850000000000001e-05, "loss": 3.627, "step": 7560 }, { "epoch": 0.96, "learning_rate": 6.845833333333333e-05, "loss": 3.5692, "step": 7570 }, { "epoch": 0.96, "learning_rate": 6.841666666666667e-05, "loss": 3.6638, "step": 7580 }, { "epoch": 0.96, "learning_rate": 6.8375e-05, "loss": 3.6219, "step": 7590 }, { "epoch": 0.97, "learning_rate": 6.833333333333333e-05, "loss": 3.6572, "step": 7600 }, { "epoch": 0.97, "learning_rate": 6.829166666666667e-05, "loss": 3.6416, "step": 7610 }, { "epoch": 0.97, "learning_rate": 6.825e-05, "loss": 3.6522, "step": 7620 }, { "epoch": 0.97, "learning_rate": 6.820833333333334e-05, "loss": 3.5686, "step": 7630 }, { "epoch": 0.97, "learning_rate": 6.816666666666667e-05, "loss": 3.6147, "step": 7640 }, { "epoch": 0.97, "learning_rate": 6.8125e-05, "loss": 3.6432, "step": 7650 }, { "epoch": 0.97, "learning_rate": 6.808333333333333e-05, "loss": 3.6337, "step": 7660 }, { "epoch": 0.97, "learning_rate": 6.804166666666668e-05, "loss": 3.5795, "step": 7670 }, { "epoch": 0.98, "learning_rate": 6.800000000000001e-05, "loss": 3.5902, "step": 7680 }, { "epoch": 0.98, "learning_rate": 6.795833333333334e-05, "loss": 3.6275, "step": 7690 }, { "epoch": 0.98, "learning_rate": 6.791666666666667e-05, "loss": 3.5903, "step": 7700 }, { "epoch": 0.98, "learning_rate": 6.7875e-05, "loss": 3.7018, "step": 7710 }, { "epoch": 0.98, "learning_rate": 6.783333333333333e-05, "loss": 3.6826, "step": 7720 }, { "epoch": 0.98, "learning_rate": 6.779166666666667e-05, "loss": 3.6941, "step": 7730 }, { "epoch": 0.98, "learning_rate": 6.775000000000001e-05, "loss": 3.7062, "step": 7740 }, { "epoch": 0.98, "learning_rate": 6.770833333333334e-05, "loss": 3.6414, "step": 7750 }, { "epoch": 0.99, "learning_rate": 6.766666666666667e-05, "loss": 3.6746, "step": 7760 }, { "epoch": 0.99, "learning_rate": 6.7625e-05, "loss": 3.7169, "step": 7770 }, { "epoch": 0.99, "learning_rate": 6.758333333333333e-05, "loss": 3.6632, "step": 7780 }, { "epoch": 0.99, "learning_rate": 6.754166666666666e-05, "loss": 3.6028, "step": 7790 }, { "epoch": 0.99, "learning_rate": 6.750000000000001e-05, "loss": 3.728, "step": 7800 }, { "epoch": 0.99, "learning_rate": 6.745833333333334e-05, "loss": 3.6415, "step": 7810 }, { "epoch": 0.99, "learning_rate": 6.741666666666667e-05, "loss": 3.6762, "step": 7820 }, { "epoch": 0.99, "learning_rate": 6.7375e-05, "loss": 3.5947, "step": 7830 }, { "epoch": 1.0, "learning_rate": 6.733333333333333e-05, "loss": 3.6485, "step": 7840 }, { "epoch": 1.0, "learning_rate": 6.729166666666667e-05, "loss": 3.6835, "step": 7850 }, { "epoch": 1.0, "learning_rate": 6.725000000000001e-05, "loss": 3.6607, "step": 7860 }, { "epoch": 1.0, "learning_rate": 6.720833333333335e-05, "loss": 3.5278, "step": 7870 }, { "epoch": 1.0, "learning_rate": 6.716666666666667e-05, "loss": 3.6371, "step": 7880 }, { "epoch": 1.0, "learning_rate": 6.7125e-05, "loss": 3.6302, "step": 7890 }, { "epoch": 1.0, "learning_rate": 6.708333333333333e-05, "loss": 3.6583, "step": 7900 }, { "epoch": 1.0, "learning_rate": 6.704166666666667e-05, "loss": 3.6342, "step": 7910 }, { "epoch": 1.01, "learning_rate": 6.7e-05, "loss": 3.6867, "step": 7920 }, { "epoch": 1.01, "learning_rate": 6.695833333333334e-05, "loss": 3.643, "step": 7930 }, { "epoch": 1.01, "learning_rate": 6.691666666666668e-05, "loss": 3.7439, "step": 7940 }, { "epoch": 1.01, "learning_rate": 6.6875e-05, "loss": 3.5414, "step": 7950 }, { "epoch": 1.01, "learning_rate": 6.683333333333334e-05, "loss": 3.625, "step": 7960 }, { "epoch": 1.01, "learning_rate": 6.679166666666667e-05, "loss": 3.6337, "step": 7970 }, { "epoch": 1.01, "learning_rate": 6.675e-05, "loss": 3.6016, "step": 7980 }, { "epoch": 1.01, "learning_rate": 6.670833333333333e-05, "loss": 3.6238, "step": 7990 }, { "epoch": 1.02, "learning_rate": 6.666666666666667e-05, "loss": 3.6432, "step": 8000 }, { "epoch": 1.02, "learning_rate": 6.6625e-05, "loss": 3.632, "step": 8010 }, { "epoch": 1.02, "learning_rate": 6.658333333333334e-05, "loss": 3.6297, "step": 8020 }, { "epoch": 1.02, "learning_rate": 6.654166666666667e-05, "loss": 3.5859, "step": 8030 }, { "epoch": 1.02, "learning_rate": 6.65e-05, "loss": 3.6107, "step": 8040 }, { "epoch": 1.02, "learning_rate": 6.645833333333333e-05, "loss": 3.7411, "step": 8050 }, { "epoch": 1.02, "learning_rate": 6.641666666666668e-05, "loss": 3.6646, "step": 8060 }, { "epoch": 1.02, "learning_rate": 6.6375e-05, "loss": 3.5941, "step": 8070 }, { "epoch": 1.03, "learning_rate": 6.633333333333334e-05, "loss": 3.6162, "step": 8080 }, { "epoch": 1.03, "learning_rate": 6.629166666666667e-05, "loss": 3.6068, "step": 8090 }, { "epoch": 1.03, "learning_rate": 6.625e-05, "loss": 3.598, "step": 8100 }, { "epoch": 1.03, "learning_rate": 6.620833333333333e-05, "loss": 3.607, "step": 8110 }, { "epoch": 1.03, "learning_rate": 6.616666666666667e-05, "loss": 3.6102, "step": 8120 }, { "epoch": 1.03, "learning_rate": 6.612500000000001e-05, "loss": 3.6435, "step": 8130 }, { "epoch": 1.03, "learning_rate": 6.608333333333334e-05, "loss": 3.6095, "step": 8140 }, { "epoch": 1.03, "learning_rate": 6.604166666666667e-05, "loss": 3.6075, "step": 8150 }, { "epoch": 1.04, "learning_rate": 6.6e-05, "loss": 3.6006, "step": 8160 }, { "epoch": 1.04, "learning_rate": 6.595833333333333e-05, "loss": 3.6398, "step": 8170 }, { "epoch": 1.04, "learning_rate": 6.591666666666667e-05, "loss": 3.6074, "step": 8180 }, { "epoch": 1.04, "learning_rate": 6.5875e-05, "loss": 3.621, "step": 8190 }, { "epoch": 1.04, "learning_rate": 6.583333333333334e-05, "loss": 3.6508, "step": 8200 }, { "epoch": 1.04, "learning_rate": 6.579166666666668e-05, "loss": 3.7174, "step": 8210 }, { "epoch": 1.04, "learning_rate": 6.575e-05, "loss": 3.6493, "step": 8220 }, { "epoch": 1.05, "learning_rate": 6.570833333333334e-05, "loss": 3.6365, "step": 8230 }, { "epoch": 1.05, "learning_rate": 6.566666666666666e-05, "loss": 3.6363, "step": 8240 }, { "epoch": 1.05, "learning_rate": 6.562500000000001e-05, "loss": 3.6871, "step": 8250 }, { "epoch": 1.05, "learning_rate": 6.558333333333335e-05, "loss": 3.6071, "step": 8260 }, { "epoch": 1.05, "learning_rate": 6.554166666666667e-05, "loss": 3.6192, "step": 8270 }, { "epoch": 1.05, "learning_rate": 6.55e-05, "loss": 3.6518, "step": 8280 }, { "epoch": 1.05, "learning_rate": 6.545833333333333e-05, "loss": 3.6558, "step": 8290 }, { "epoch": 1.05, "learning_rate": 6.541666666666667e-05, "loss": 3.6503, "step": 8300 }, { "epoch": 1.06, "learning_rate": 6.5375e-05, "loss": 3.5823, "step": 8310 }, { "epoch": 1.06, "learning_rate": 6.533333333333334e-05, "loss": 3.6947, "step": 8320 }, { "epoch": 1.06, "learning_rate": 6.529166666666668e-05, "loss": 3.7215, "step": 8330 }, { "epoch": 1.06, "learning_rate": 6.525e-05, "loss": 3.6136, "step": 8340 }, { "epoch": 1.06, "learning_rate": 6.520833333333334e-05, "loss": 3.7318, "step": 8350 }, { "epoch": 1.06, "learning_rate": 6.516666666666666e-05, "loss": 3.6445, "step": 8360 }, { "epoch": 1.06, "learning_rate": 6.5125e-05, "loss": 3.5984, "step": 8370 }, { "epoch": 1.06, "learning_rate": 6.508333333333333e-05, "loss": 3.6102, "step": 8380 }, { "epoch": 1.07, "learning_rate": 6.504166666666667e-05, "loss": 3.7225, "step": 8390 }, { "epoch": 1.07, "learning_rate": 6.500000000000001e-05, "loss": 3.5608, "step": 8400 }, { "epoch": 1.07, "learning_rate": 6.495833333333333e-05, "loss": 3.6203, "step": 8410 }, { "epoch": 1.07, "learning_rate": 6.491666666666667e-05, "loss": 3.6541, "step": 8420 }, { "epoch": 1.07, "learning_rate": 6.4875e-05, "loss": 3.6543, "step": 8430 }, { "epoch": 1.07, "learning_rate": 6.483333333333333e-05, "loss": 3.649, "step": 8440 }, { "epoch": 1.07, "learning_rate": 6.479166666666668e-05, "loss": 3.6429, "step": 8450 }, { "epoch": 1.07, "learning_rate": 6.475e-05, "loss": 3.6686, "step": 8460 }, { "epoch": 1.08, "learning_rate": 6.470833333333334e-05, "loss": 3.5738, "step": 8470 }, { "epoch": 1.08, "learning_rate": 6.466666666666666e-05, "loss": 3.6891, "step": 8480 }, { "epoch": 1.08, "learning_rate": 6.4625e-05, "loss": 3.6664, "step": 8490 }, { "epoch": 1.08, "learning_rate": 6.458333333333334e-05, "loss": 3.6875, "step": 8500 }, { "epoch": 1.08, "learning_rate": 6.454166666666667e-05, "loss": 3.4882, "step": 8510 }, { "epoch": 1.08, "learning_rate": 6.450000000000001e-05, "loss": 3.6216, "step": 8520 }, { "epoch": 1.08, "learning_rate": 6.445833333333333e-05, "loss": 3.632, "step": 8530 }, { "epoch": 1.08, "learning_rate": 6.441666666666667e-05, "loss": 3.7165, "step": 8540 }, { "epoch": 1.09, "learning_rate": 6.4375e-05, "loss": 3.625, "step": 8550 }, { "epoch": 1.09, "learning_rate": 6.433333333333333e-05, "loss": 3.5206, "step": 8560 }, { "epoch": 1.09, "learning_rate": 6.429166666666667e-05, "loss": 3.6363, "step": 8570 }, { "epoch": 1.09, "learning_rate": 6.425e-05, "loss": 3.6607, "step": 8580 }, { "epoch": 1.09, "learning_rate": 6.420833333333334e-05, "loss": 3.7823, "step": 8590 }, { "epoch": 1.09, "learning_rate": 6.416666666666668e-05, "loss": 3.6433, "step": 8600 }, { "epoch": 1.09, "learning_rate": 6.4125e-05, "loss": 3.6924, "step": 8610 }, { "epoch": 1.09, "learning_rate": 6.408333333333334e-05, "loss": 3.6536, "step": 8620 }, { "epoch": 1.1, "learning_rate": 6.404166666666666e-05, "loss": 3.6465, "step": 8630 }, { "epoch": 1.1, "learning_rate": 6.400000000000001e-05, "loss": 3.6922, "step": 8640 }, { "epoch": 1.1, "learning_rate": 6.395833333333333e-05, "loss": 3.6768, "step": 8650 }, { "epoch": 1.1, "learning_rate": 6.391666666666667e-05, "loss": 3.5954, "step": 8660 }, { "epoch": 1.1, "learning_rate": 6.387500000000001e-05, "loss": 3.6304, "step": 8670 }, { "epoch": 1.1, "learning_rate": 6.383333333333333e-05, "loss": 3.5948, "step": 8680 }, { "epoch": 1.1, "learning_rate": 6.379166666666667e-05, "loss": 3.6687, "step": 8690 }, { "epoch": 1.1, "learning_rate": 6.375e-05, "loss": 3.6119, "step": 8700 }, { "epoch": 1.11, "learning_rate": 6.370833333333334e-05, "loss": 3.6121, "step": 8710 }, { "epoch": 1.11, "learning_rate": 6.366666666666668e-05, "loss": 3.6827, "step": 8720 }, { "epoch": 1.11, "learning_rate": 6.3625e-05, "loss": 3.6367, "step": 8730 }, { "epoch": 1.11, "learning_rate": 6.358333333333334e-05, "loss": 3.6837, "step": 8740 }, { "epoch": 1.11, "learning_rate": 6.354166666666666e-05, "loss": 3.6945, "step": 8750 }, { "epoch": 1.11, "learning_rate": 6.35e-05, "loss": 3.6909, "step": 8760 }, { "epoch": 1.11, "learning_rate": 6.345833333333334e-05, "loss": 3.6015, "step": 8770 }, { "epoch": 1.11, "learning_rate": 6.341666666666667e-05, "loss": 3.6225, "step": 8780 }, { "epoch": 1.12, "learning_rate": 6.337500000000001e-05, "loss": 3.6179, "step": 8790 }, { "epoch": 1.12, "learning_rate": 6.333333333333333e-05, "loss": 3.6641, "step": 8800 }, { "epoch": 1.12, "learning_rate": 6.329166666666667e-05, "loss": 3.6197, "step": 8810 }, { "epoch": 1.12, "learning_rate": 6.324999999999999e-05, "loss": 3.693, "step": 8820 }, { "epoch": 1.12, "learning_rate": 6.320833333333334e-05, "loss": 3.546, "step": 8830 }, { "epoch": 1.12, "learning_rate": 6.316666666666668e-05, "loss": 3.6509, "step": 8840 }, { "epoch": 1.12, "learning_rate": 6.3125e-05, "loss": 3.6934, "step": 8850 }, { "epoch": 1.13, "learning_rate": 6.308333333333334e-05, "loss": 3.688, "step": 8860 }, { "epoch": 1.13, "learning_rate": 6.304166666666666e-05, "loss": 3.6028, "step": 8870 }, { "epoch": 1.13, "learning_rate": 6.3e-05, "loss": 3.6877, "step": 8880 }, { "epoch": 1.13, "learning_rate": 6.295833333333334e-05, "loss": 3.6398, "step": 8890 }, { "epoch": 1.13, "learning_rate": 6.291666666666667e-05, "loss": 3.7039, "step": 8900 }, { "epoch": 1.13, "learning_rate": 6.287500000000001e-05, "loss": 3.6253, "step": 8910 }, { "epoch": 1.13, "learning_rate": 6.283333333333333e-05, "loss": 3.5922, "step": 8920 }, { "epoch": 1.13, "learning_rate": 6.279166666666667e-05, "loss": 3.6811, "step": 8930 }, { "epoch": 1.14, "learning_rate": 6.275e-05, "loss": 3.6264, "step": 8940 }, { "epoch": 1.14, "learning_rate": 6.270833333333333e-05, "loss": 3.701, "step": 8950 }, { "epoch": 1.14, "learning_rate": 6.266666666666667e-05, "loss": 3.679, "step": 8960 }, { "epoch": 1.14, "learning_rate": 6.2625e-05, "loss": 3.7005, "step": 8970 }, { "epoch": 1.14, "learning_rate": 6.258333333333334e-05, "loss": 3.6087, "step": 8980 }, { "epoch": 1.14, "learning_rate": 6.254166666666666e-05, "loss": 3.5983, "step": 8990 }, { "epoch": 1.14, "learning_rate": 6.25e-05, "loss": 3.6384, "step": 9000 }, { "epoch": 1.14, "learning_rate": 6.245833333333334e-05, "loss": 3.5942, "step": 9010 }, { "epoch": 1.15, "learning_rate": 6.241666666666666e-05, "loss": 3.6542, "step": 9020 }, { "epoch": 1.15, "learning_rate": 6.237500000000001e-05, "loss": 3.609, "step": 9030 }, { "epoch": 1.15, "learning_rate": 6.233333333333334e-05, "loss": 3.6478, "step": 9040 }, { "epoch": 1.15, "learning_rate": 6.229166666666667e-05, "loss": 3.7998, "step": 9050 }, { "epoch": 1.15, "learning_rate": 6.225000000000001e-05, "loss": 3.6304, "step": 9060 }, { "epoch": 1.15, "learning_rate": 6.220833333333333e-05, "loss": 3.6887, "step": 9070 }, { "epoch": 1.15, "learning_rate": 6.216666666666667e-05, "loss": 3.613, "step": 9080 }, { "epoch": 1.15, "learning_rate": 6.2125e-05, "loss": 3.5882, "step": 9090 }, { "epoch": 1.16, "learning_rate": 6.208333333333334e-05, "loss": 3.6692, "step": 9100 }, { "epoch": 1.16, "learning_rate": 6.204166666666667e-05, "loss": 3.6726, "step": 9110 }, { "epoch": 1.16, "learning_rate": 6.2e-05, "loss": 3.6294, "step": 9120 }, { "epoch": 1.16, "learning_rate": 6.195833333333334e-05, "loss": 3.7559, "step": 9130 }, { "epoch": 1.16, "learning_rate": 6.191666666666666e-05, "loss": 3.6824, "step": 9140 }, { "epoch": 1.16, "learning_rate": 6.1875e-05, "loss": 3.711, "step": 9150 }, { "epoch": 1.16, "learning_rate": 6.183333333333334e-05, "loss": 3.6407, "step": 9160 }, { "epoch": 1.16, "learning_rate": 6.179166666666667e-05, "loss": 3.6422, "step": 9170 }, { "epoch": 1.17, "learning_rate": 6.175000000000001e-05, "loss": 3.6902, "step": 9180 }, { "epoch": 1.17, "learning_rate": 6.170833333333333e-05, "loss": 3.6746, "step": 9190 }, { "epoch": 1.17, "learning_rate": 6.166666666666667e-05, "loss": 3.62, "step": 9200 }, { "epoch": 1.17, "learning_rate": 6.1625e-05, "loss": 3.6849, "step": 9210 }, { "epoch": 1.17, "learning_rate": 6.158333333333334e-05, "loss": 3.6763, "step": 9220 }, { "epoch": 1.17, "learning_rate": 6.154166666666667e-05, "loss": 3.6402, "step": 9230 }, { "epoch": 1.17, "learning_rate": 6.15e-05, "loss": 3.6534, "step": 9240 }, { "epoch": 1.17, "learning_rate": 6.145833333333334e-05, "loss": 3.6946, "step": 9250 }, { "epoch": 1.18, "learning_rate": 6.141666666666666e-05, "loss": 3.7708, "step": 9260 }, { "epoch": 1.18, "learning_rate": 6.1375e-05, "loss": 3.6702, "step": 9270 }, { "epoch": 1.18, "learning_rate": 6.133333333333334e-05, "loss": 3.7912, "step": 9280 }, { "epoch": 1.18, "learning_rate": 6.129166666666667e-05, "loss": 3.7387, "step": 9290 }, { "epoch": 1.18, "learning_rate": 6.125000000000001e-05, "loss": 3.6574, "step": 9300 }, { "epoch": 1.18, "learning_rate": 6.120833333333333e-05, "loss": 3.6333, "step": 9310 }, { "epoch": 1.18, "learning_rate": 6.116666666666667e-05, "loss": 3.6458, "step": 9320 }, { "epoch": 1.18, "learning_rate": 6.1125e-05, "loss": 3.6351, "step": 9330 }, { "epoch": 1.19, "learning_rate": 6.108333333333333e-05, "loss": 3.6901, "step": 9340 }, { "epoch": 1.19, "learning_rate": 6.104166666666667e-05, "loss": 3.6675, "step": 9350 }, { "epoch": 1.19, "learning_rate": 6.1e-05, "loss": 3.6377, "step": 9360 }, { "epoch": 1.19, "learning_rate": 6.095833333333334e-05, "loss": 3.67, "step": 9370 }, { "epoch": 1.19, "learning_rate": 6.0916666666666666e-05, "loss": 3.666, "step": 9380 }, { "epoch": 1.19, "learning_rate": 6.0875e-05, "loss": 3.6604, "step": 9390 }, { "epoch": 1.19, "learning_rate": 6.083333333333333e-05, "loss": 3.6848, "step": 9400 }, { "epoch": 1.19, "learning_rate": 6.079166666666667e-05, "loss": 3.6623, "step": 9410 }, { "epoch": 1.2, "learning_rate": 6.0750000000000006e-05, "loss": 3.8147, "step": 9420 }, { "epoch": 1.2, "learning_rate": 6.0708333333333336e-05, "loss": 3.6678, "step": 9430 }, { "epoch": 1.2, "learning_rate": 6.066666666666667e-05, "loss": 3.6893, "step": 9440 }, { "epoch": 1.2, "learning_rate": 6.0624999999999996e-05, "loss": 3.6844, "step": 9450 }, { "epoch": 1.2, "learning_rate": 6.058333333333333e-05, "loss": 3.6784, "step": 9460 }, { "epoch": 1.2, "learning_rate": 6.054166666666668e-05, "loss": 3.566, "step": 9470 }, { "epoch": 1.2, "learning_rate": 6.05e-05, "loss": 3.5748, "step": 9480 }, { "epoch": 1.21, "learning_rate": 6.045833333333334e-05, "loss": 3.6244, "step": 9490 }, { "epoch": 1.21, "learning_rate": 6.041666666666667e-05, "loss": 3.7506, "step": 9500 }, { "epoch": 1.21, "learning_rate": 6.0375000000000004e-05, "loss": 3.7759, "step": 9510 }, { "epoch": 1.21, "learning_rate": 6.033333333333334e-05, "loss": 3.6868, "step": 9520 }, { "epoch": 1.21, "learning_rate": 6.029166666666667e-05, "loss": 3.6505, "step": 9530 }, { "epoch": 1.21, "learning_rate": 6.025000000000001e-05, "loss": 3.6349, "step": 9540 }, { "epoch": 1.21, "learning_rate": 6.020833333333333e-05, "loss": 3.6644, "step": 9550 }, { "epoch": 1.21, "learning_rate": 6.0166666666666674e-05, "loss": 3.5617, "step": 9560 }, { "epoch": 1.22, "learning_rate": 6.0125e-05, "loss": 3.5975, "step": 9570 }, { "epoch": 1.22, "learning_rate": 6.0083333333333335e-05, "loss": 3.7142, "step": 9580 }, { "epoch": 1.22, "learning_rate": 6.004166666666667e-05, "loss": 3.7521, "step": 9590 }, { "epoch": 1.22, "learning_rate": 6e-05, "loss": 3.6562, "step": 9600 }, { "epoch": 1.22, "learning_rate": 5.995833333333334e-05, "loss": 3.7024, "step": 9610 }, { "epoch": 1.22, "learning_rate": 5.991666666666667e-05, "loss": 3.6826, "step": 9620 }, { "epoch": 1.22, "learning_rate": 5.9875000000000005e-05, "loss": 3.5579, "step": 9630 }, { "epoch": 1.22, "learning_rate": 5.983333333333334e-05, "loss": 3.7197, "step": 9640 }, { "epoch": 1.23, "learning_rate": 5.9791666666666665e-05, "loss": 3.5977, "step": 9650 }, { "epoch": 1.23, "learning_rate": 5.975000000000001e-05, "loss": 3.6837, "step": 9660 }, { "epoch": 1.23, "learning_rate": 5.970833333333333e-05, "loss": 3.6857, "step": 9670 }, { "epoch": 1.23, "learning_rate": 5.966666666666667e-05, "loss": 3.6311, "step": 9680 }, { "epoch": 1.23, "learning_rate": 5.9625e-05, "loss": 3.6708, "step": 9690 }, { "epoch": 1.23, "learning_rate": 5.9583333333333336e-05, "loss": 3.5506, "step": 9700 }, { "epoch": 1.23, "learning_rate": 5.954166666666667e-05, "loss": 3.6641, "step": 9710 }, { "epoch": 1.23, "learning_rate": 5.95e-05, "loss": 3.6556, "step": 9720 }, { "epoch": 1.24, "learning_rate": 5.945833333333334e-05, "loss": 3.6825, "step": 9730 }, { "epoch": 1.24, "learning_rate": 5.941666666666666e-05, "loss": 3.6673, "step": 9740 }, { "epoch": 1.24, "learning_rate": 5.9375e-05, "loss": 3.6237, "step": 9750 }, { "epoch": 1.24, "learning_rate": 5.9333333333333343e-05, "loss": 3.6509, "step": 9760 }, { "epoch": 1.24, "learning_rate": 5.929166666666667e-05, "loss": 3.627, "step": 9770 }, { "epoch": 1.24, "learning_rate": 5.9250000000000004e-05, "loss": 3.7513, "step": 9780 }, { "epoch": 1.24, "learning_rate": 5.9208333333333334e-05, "loss": 3.6349, "step": 9790 }, { "epoch": 1.24, "learning_rate": 5.916666666666667e-05, "loss": 3.6307, "step": 9800 }, { "epoch": 1.25, "learning_rate": 5.912500000000001e-05, "loss": 3.6541, "step": 9810 }, { "epoch": 1.25, "learning_rate": 5.908333333333334e-05, "loss": 3.7137, "step": 9820 }, { "epoch": 1.25, "learning_rate": 5.9041666666666674e-05, "loss": 3.6465, "step": 9830 }, { "epoch": 1.25, "learning_rate": 5.9e-05, "loss": 3.6362, "step": 9840 }, { "epoch": 1.25, "learning_rate": 5.8958333333333334e-05, "loss": 3.616, "step": 9850 }, { "epoch": 1.25, "learning_rate": 5.8916666666666664e-05, "loss": 3.5616, "step": 9860 }, { "epoch": 1.25, "learning_rate": 5.8875e-05, "loss": 3.7057, "step": 9870 }, { "epoch": 1.25, "learning_rate": 5.883333333333334e-05, "loss": 3.6692, "step": 9880 }, { "epoch": 1.26, "learning_rate": 5.879166666666667e-05, "loss": 3.6783, "step": 9890 }, { "epoch": 1.26, "learning_rate": 5.8750000000000005e-05, "loss": 3.7219, "step": 9900 }, { "epoch": 1.26, "learning_rate": 5.8708333333333335e-05, "loss": 3.7026, "step": 9910 }, { "epoch": 1.26, "learning_rate": 5.866666666666667e-05, "loss": 3.6347, "step": 9920 }, { "epoch": 1.26, "learning_rate": 5.862500000000001e-05, "loss": 3.6662, "step": 9930 }, { "epoch": 1.26, "learning_rate": 5.858333333333333e-05, "loss": 3.6287, "step": 9940 }, { "epoch": 1.26, "learning_rate": 5.8541666666666676e-05, "loss": 3.6864, "step": 9950 }, { "epoch": 1.26, "learning_rate": 5.85e-05, "loss": 3.6488, "step": 9960 }, { "epoch": 1.27, "learning_rate": 5.8458333333333336e-05, "loss": 3.6063, "step": 9970 }, { "epoch": 1.27, "learning_rate": 5.8416666666666666e-05, "loss": 3.6124, "step": 9980 }, { "epoch": 1.27, "learning_rate": 5.8375e-05, "loss": 3.6815, "step": 9990 }, { "epoch": 1.27, "learning_rate": 5.833333333333334e-05, "loss": 3.7327, "step": 10000 }, { "epoch": 1.27, "learning_rate": 5.829166666666667e-05, "loss": 3.6742, "step": 10010 }, { "epoch": 1.27, "learning_rate": 5.8250000000000006e-05, "loss": 3.6578, "step": 10020 }, { "epoch": 1.27, "learning_rate": 5.820833333333333e-05, "loss": 3.7088, "step": 10030 }, { "epoch": 1.27, "learning_rate": 5.8166666666666667e-05, "loss": 3.675, "step": 10040 }, { "epoch": 1.28, "learning_rate": 5.812500000000001e-05, "loss": 3.6111, "step": 10050 }, { "epoch": 1.28, "learning_rate": 5.8083333333333333e-05, "loss": 3.6449, "step": 10060 }, { "epoch": 1.28, "learning_rate": 5.804166666666667e-05, "loss": 3.7025, "step": 10070 }, { "epoch": 1.28, "learning_rate": 5.8e-05, "loss": 3.6737, "step": 10080 }, { "epoch": 1.28, "learning_rate": 5.795833333333334e-05, "loss": 3.6015, "step": 10090 }, { "epoch": 1.28, "learning_rate": 5.7916666666666674e-05, "loss": 3.5666, "step": 10100 }, { "epoch": 1.28, "learning_rate": 5.7875000000000004e-05, "loss": 3.6185, "step": 10110 }, { "epoch": 1.29, "learning_rate": 5.783333333333334e-05, "loss": 3.5986, "step": 10120 }, { "epoch": 1.29, "learning_rate": 5.7791666666666664e-05, "loss": 3.6523, "step": 10130 }, { "epoch": 1.29, "learning_rate": 5.775e-05, "loss": 3.5746, "step": 10140 }, { "epoch": 1.29, "learning_rate": 5.770833333333333e-05, "loss": 3.6137, "step": 10150 }, { "epoch": 1.29, "learning_rate": 5.766666666666667e-05, "loss": 3.666, "step": 10160 }, { "epoch": 1.29, "learning_rate": 5.7625000000000005e-05, "loss": 3.6871, "step": 10170 }, { "epoch": 1.29, "learning_rate": 5.7583333333333335e-05, "loss": 3.7299, "step": 10180 }, { "epoch": 1.29, "learning_rate": 5.754166666666667e-05, "loss": 3.7084, "step": 10190 }, { "epoch": 1.3, "learning_rate": 5.7499999999999995e-05, "loss": 3.5648, "step": 10200 }, { "epoch": 1.3, "learning_rate": 5.745833333333334e-05, "loss": 3.626, "step": 10210 }, { "epoch": 1.3, "learning_rate": 5.7416666666666675e-05, "loss": 3.6527, "step": 10220 }, { "epoch": 1.3, "learning_rate": 5.7375e-05, "loss": 3.7248, "step": 10230 }, { "epoch": 1.3, "learning_rate": 5.7333333333333336e-05, "loss": 3.6707, "step": 10240 }, { "epoch": 1.3, "learning_rate": 5.7291666666666666e-05, "loss": 3.6918, "step": 10250 }, { "epoch": 1.3, "learning_rate": 5.725e-05, "loss": 3.6482, "step": 10260 }, { "epoch": 1.3, "learning_rate": 5.720833333333334e-05, "loss": 3.6463, "step": 10270 }, { "epoch": 1.31, "learning_rate": 5.716666666666667e-05, "loss": 3.6066, "step": 10280 }, { "epoch": 1.31, "learning_rate": 5.7125000000000006e-05, "loss": 3.7097, "step": 10290 }, { "epoch": 1.31, "learning_rate": 5.7083333333333336e-05, "loss": 3.6059, "step": 10300 }, { "epoch": 1.31, "learning_rate": 5.704166666666667e-05, "loss": 3.6668, "step": 10310 }, { "epoch": 1.31, "learning_rate": 5.6999999999999996e-05, "loss": 3.7171, "step": 10320 }, { "epoch": 1.31, "learning_rate": 5.695833333333333e-05, "loss": 3.6391, "step": 10330 }, { "epoch": 1.31, "learning_rate": 5.691666666666668e-05, "loss": 3.6633, "step": 10340 }, { "epoch": 1.31, "learning_rate": 5.6875e-05, "loss": 3.6196, "step": 10350 }, { "epoch": 1.32, "learning_rate": 5.683333333333334e-05, "loss": 3.7164, "step": 10360 }, { "epoch": 1.32, "learning_rate": 5.679166666666667e-05, "loss": 3.6647, "step": 10370 }, { "epoch": 1.32, "learning_rate": 5.6750000000000004e-05, "loss": 3.6591, "step": 10380 }, { "epoch": 1.32, "learning_rate": 5.670833333333334e-05, "loss": 3.6141, "step": 10390 }, { "epoch": 1.32, "learning_rate": 5.666666666666667e-05, "loss": 3.731, "step": 10400 }, { "epoch": 1.32, "learning_rate": 5.662500000000001e-05, "loss": 3.6261, "step": 10410 }, { "epoch": 1.32, "learning_rate": 5.658333333333333e-05, "loss": 3.6371, "step": 10420 }, { "epoch": 1.32, "learning_rate": 5.654166666666667e-05, "loss": 3.6756, "step": 10430 }, { "epoch": 1.33, "learning_rate": 5.65e-05, "loss": 3.632, "step": 10440 }, { "epoch": 1.33, "learning_rate": 5.6458333333333335e-05, "loss": 3.6044, "step": 10450 }, { "epoch": 1.33, "learning_rate": 5.641666666666667e-05, "loss": 3.6443, "step": 10460 }, { "epoch": 1.33, "learning_rate": 5.6375e-05, "loss": 3.6846, "step": 10470 }, { "epoch": 1.33, "learning_rate": 5.633333333333334e-05, "loss": 3.6906, "step": 10480 }, { "epoch": 1.33, "learning_rate": 5.629166666666666e-05, "loss": 3.6289, "step": 10490 }, { "epoch": 1.33, "learning_rate": 5.6250000000000005e-05, "loss": 3.7552, "step": 10500 }, { "epoch": 1.33, "learning_rate": 5.620833333333334e-05, "loss": 3.6984, "step": 10510 }, { "epoch": 1.34, "learning_rate": 5.6166666666666665e-05, "loss": 3.5922, "step": 10520 }, { "epoch": 1.34, "learning_rate": 5.6125e-05, "loss": 3.7713, "step": 10530 }, { "epoch": 1.34, "learning_rate": 5.608333333333333e-05, "loss": 3.6502, "step": 10540 }, { "epoch": 1.34, "learning_rate": 5.604166666666667e-05, "loss": 3.6541, "step": 10550 }, { "epoch": 1.34, "learning_rate": 5.6000000000000006e-05, "loss": 3.6833, "step": 10560 }, { "epoch": 1.34, "learning_rate": 5.5958333333333336e-05, "loss": 3.6737, "step": 10570 }, { "epoch": 1.34, "learning_rate": 5.591666666666667e-05, "loss": 3.7128, "step": 10580 }, { "epoch": 1.34, "learning_rate": 5.5875e-05, "loss": 3.5758, "step": 10590 }, { "epoch": 1.35, "learning_rate": 5.583333333333334e-05, "loss": 3.6266, "step": 10600 }, { "epoch": 1.35, "learning_rate": 5.579166666666666e-05, "loss": 3.6916, "step": 10610 }, { "epoch": 1.35, "learning_rate": 5.575e-05, "loss": 3.7139, "step": 10620 }, { "epoch": 1.35, "learning_rate": 5.5708333333333343e-05, "loss": 3.7073, "step": 10630 }, { "epoch": 1.35, "learning_rate": 5.566666666666667e-05, "loss": 3.7251, "step": 10640 }, { "epoch": 1.35, "learning_rate": 5.5625000000000004e-05, "loss": 3.6791, "step": 10650 }, { "epoch": 1.35, "learning_rate": 5.5583333333333334e-05, "loss": 3.6562, "step": 10660 }, { "epoch": 1.35, "learning_rate": 5.554166666666667e-05, "loss": 3.7417, "step": 10670 }, { "epoch": 1.36, "learning_rate": 5.550000000000001e-05, "loss": 3.6631, "step": 10680 }, { "epoch": 1.36, "learning_rate": 5.545833333333334e-05, "loss": 3.6677, "step": 10690 }, { "epoch": 1.36, "learning_rate": 5.5416666666666674e-05, "loss": 3.6814, "step": 10700 }, { "epoch": 1.36, "learning_rate": 5.5375e-05, "loss": 3.6453, "step": 10710 }, { "epoch": 1.36, "learning_rate": 5.5333333333333334e-05, "loss": 3.7488, "step": 10720 }, { "epoch": 1.36, "learning_rate": 5.5291666666666664e-05, "loss": 3.7207, "step": 10730 }, { "epoch": 1.36, "learning_rate": 5.525e-05, "loss": 3.5959, "step": 10740 }, { "epoch": 1.37, "learning_rate": 5.520833333333334e-05, "loss": 3.6224, "step": 10750 }, { "epoch": 1.37, "learning_rate": 5.516666666666667e-05, "loss": 3.6353, "step": 10760 }, { "epoch": 1.37, "learning_rate": 5.5125000000000005e-05, "loss": 3.6978, "step": 10770 }, { "epoch": 1.37, "learning_rate": 5.508333333333333e-05, "loss": 3.7253, "step": 10780 }, { "epoch": 1.37, "learning_rate": 5.504166666666667e-05, "loss": 3.6004, "step": 10790 }, { "epoch": 1.37, "learning_rate": 5.500000000000001e-05, "loss": 3.6505, "step": 10800 }, { "epoch": 1.37, "learning_rate": 5.495833333333333e-05, "loss": 3.6211, "step": 10810 }, { "epoch": 1.37, "learning_rate": 5.491666666666667e-05, "loss": 3.6519, "step": 10820 }, { "epoch": 1.38, "learning_rate": 5.4875e-05, "loss": 3.6705, "step": 10830 }, { "epoch": 1.38, "learning_rate": 5.4833333333333336e-05, "loss": 3.6321, "step": 10840 }, { "epoch": 1.38, "learning_rate": 5.479166666666667e-05, "loss": 3.6996, "step": 10850 }, { "epoch": 1.38, "learning_rate": 5.475e-05, "loss": 3.6226, "step": 10860 }, { "epoch": 1.38, "learning_rate": 5.470833333333334e-05, "loss": 3.5508, "step": 10870 }, { "epoch": 1.38, "learning_rate": 5.466666666666666e-05, "loss": 3.6584, "step": 10880 }, { "epoch": 1.38, "learning_rate": 5.4625000000000006e-05, "loss": 3.5992, "step": 10890 }, { "epoch": 1.38, "learning_rate": 5.458333333333333e-05, "loss": 3.524, "step": 10900 }, { "epoch": 1.39, "learning_rate": 5.4541666666666667e-05, "loss": 3.6488, "step": 10910 }, { "epoch": 1.39, "learning_rate": 5.45e-05, "loss": 3.6885, "step": 10920 }, { "epoch": 1.39, "learning_rate": 5.4458333333333333e-05, "loss": 3.7318, "step": 10930 }, { "epoch": 1.39, "learning_rate": 5.441666666666667e-05, "loss": 3.6136, "step": 10940 }, { "epoch": 1.39, "learning_rate": 5.4375e-05, "loss": 3.7003, "step": 10950 }, { "epoch": 1.39, "learning_rate": 5.433333333333334e-05, "loss": 3.6042, "step": 10960 }, { "epoch": 1.39, "learning_rate": 5.4291666666666674e-05, "loss": 3.6453, "step": 10970 }, { "epoch": 1.39, "learning_rate": 5.4250000000000004e-05, "loss": 3.6693, "step": 10980 }, { "epoch": 1.4, "learning_rate": 5.420833333333334e-05, "loss": 3.6273, "step": 10990 }, { "epoch": 1.4, "learning_rate": 5.4166666666666664e-05, "loss": 3.636, "step": 11000 }, { "epoch": 1.4, "learning_rate": 5.4125e-05, "loss": 3.6991, "step": 11010 }, { "epoch": 1.4, "learning_rate": 5.4083333333333345e-05, "loss": 3.6282, "step": 11020 }, { "epoch": 1.4, "learning_rate": 5.404166666666667e-05, "loss": 3.7419, "step": 11030 }, { "epoch": 1.4, "learning_rate": 5.4000000000000005e-05, "loss": 3.6237, "step": 11040 }, { "epoch": 1.4, "learning_rate": 5.3958333333333335e-05, "loss": 3.6899, "step": 11050 }, { "epoch": 1.4, "learning_rate": 5.391666666666667e-05, "loss": 3.6694, "step": 11060 }, { "epoch": 1.41, "learning_rate": 5.3874999999999995e-05, "loss": 3.7453, "step": 11070 }, { "epoch": 1.41, "learning_rate": 5.383333333333334e-05, "loss": 3.6928, "step": 11080 }, { "epoch": 1.41, "learning_rate": 5.3791666666666675e-05, "loss": 3.7353, "step": 11090 }, { "epoch": 1.41, "learning_rate": 5.375e-05, "loss": 3.6318, "step": 11100 }, { "epoch": 1.41, "learning_rate": 5.3708333333333336e-05, "loss": 3.6235, "step": 11110 }, { "epoch": 1.41, "learning_rate": 5.3666666666666666e-05, "loss": 3.6982, "step": 11120 }, { "epoch": 1.41, "learning_rate": 5.3625e-05, "loss": 3.6122, "step": 11130 }, { "epoch": 1.41, "learning_rate": 5.358333333333334e-05, "loss": 3.613, "step": 11140 }, { "epoch": 1.42, "learning_rate": 5.354166666666667e-05, "loss": 3.738, "step": 11150 }, { "epoch": 1.42, "learning_rate": 5.3500000000000006e-05, "loss": 3.5995, "step": 11160 }, { "epoch": 1.42, "learning_rate": 5.345833333333333e-05, "loss": 3.7115, "step": 11170 }, { "epoch": 1.42, "learning_rate": 5.341666666666667e-05, "loss": 3.5739, "step": 11180 }, { "epoch": 1.42, "learning_rate": 5.3374999999999996e-05, "loss": 3.6507, "step": 11190 }, { "epoch": 1.42, "learning_rate": 5.333333333333333e-05, "loss": 3.7168, "step": 11200 }, { "epoch": 1.42, "learning_rate": 5.329166666666667e-05, "loss": 3.5905, "step": 11210 }, { "epoch": 1.42, "learning_rate": 5.325e-05, "loss": 3.7008, "step": 11220 }, { "epoch": 1.43, "learning_rate": 5.320833333333334e-05, "loss": 3.6587, "step": 11230 }, { "epoch": 1.43, "learning_rate": 5.316666666666667e-05, "loss": 3.6438, "step": 11240 }, { "epoch": 1.43, "learning_rate": 5.3125000000000004e-05, "loss": 3.6849, "step": 11250 }, { "epoch": 1.43, "learning_rate": 5.308333333333334e-05, "loss": 3.5441, "step": 11260 }, { "epoch": 1.43, "learning_rate": 5.3041666666666664e-05, "loss": 3.6499, "step": 11270 }, { "epoch": 1.43, "learning_rate": 5.300000000000001e-05, "loss": 3.6825, "step": 11280 }, { "epoch": 1.43, "learning_rate": 5.295833333333333e-05, "loss": 3.7125, "step": 11290 }, { "epoch": 1.43, "learning_rate": 5.291666666666667e-05, "loss": 3.5764, "step": 11300 }, { "epoch": 1.44, "learning_rate": 5.2875000000000005e-05, "loss": 3.6257, "step": 11310 }, { "epoch": 1.44, "learning_rate": 5.2833333333333335e-05, "loss": 3.6471, "step": 11320 }, { "epoch": 1.44, "learning_rate": 5.279166666666667e-05, "loss": 3.7449, "step": 11330 }, { "epoch": 1.44, "learning_rate": 5.275e-05, "loss": 3.6706, "step": 11340 }, { "epoch": 1.44, "learning_rate": 5.270833333333334e-05, "loss": 3.6147, "step": 11350 }, { "epoch": 1.44, "learning_rate": 5.266666666666666e-05, "loss": 3.6046, "step": 11360 }, { "epoch": 1.44, "learning_rate": 5.2625000000000005e-05, "loss": 3.7031, "step": 11370 }, { "epoch": 1.45, "learning_rate": 5.258333333333334e-05, "loss": 3.7216, "step": 11380 }, { "epoch": 1.45, "learning_rate": 5.2541666666666665e-05, "loss": 3.6176, "step": 11390 }, { "epoch": 1.45, "learning_rate": 5.25e-05, "loss": 3.7635, "step": 11400 }, { "epoch": 1.45, "learning_rate": 5.245833333333333e-05, "loss": 3.7326, "step": 11410 }, { "epoch": 1.45, "learning_rate": 5.241666666666667e-05, "loss": 3.676, "step": 11420 }, { "epoch": 1.45, "learning_rate": 5.2375000000000006e-05, "loss": 3.6251, "step": 11430 }, { "epoch": 1.45, "learning_rate": 5.2333333333333336e-05, "loss": 3.7052, "step": 11440 }, { "epoch": 1.45, "learning_rate": 5.229166666666667e-05, "loss": 3.6649, "step": 11450 }, { "epoch": 1.46, "learning_rate": 5.2249999999999996e-05, "loss": 3.6644, "step": 11460 }, { "epoch": 1.46, "learning_rate": 5.220833333333334e-05, "loss": 3.5728, "step": 11470 }, { "epoch": 1.46, "learning_rate": 5.216666666666666e-05, "loss": 3.6729, "step": 11480 }, { "epoch": 1.46, "learning_rate": 5.2125e-05, "loss": 3.5963, "step": 11490 }, { "epoch": 1.46, "learning_rate": 5.208333333333334e-05, "loss": 3.64, "step": 11500 }, { "epoch": 1.46, "learning_rate": 5.204166666666667e-05, "loss": 3.6497, "step": 11510 }, { "epoch": 1.46, "learning_rate": 5.2000000000000004e-05, "loss": 3.6751, "step": 11520 }, { "epoch": 1.46, "learning_rate": 5.1958333333333334e-05, "loss": 3.6566, "step": 11530 }, { "epoch": 1.47, "learning_rate": 5.191666666666667e-05, "loss": 3.678, "step": 11540 }, { "epoch": 1.47, "learning_rate": 5.187500000000001e-05, "loss": 3.5812, "step": 11550 }, { "epoch": 1.47, "learning_rate": 5.183333333333333e-05, "loss": 3.6381, "step": 11560 }, { "epoch": 1.47, "learning_rate": 5.1791666666666674e-05, "loss": 3.7332, "step": 11570 }, { "epoch": 1.47, "learning_rate": 5.175e-05, "loss": 3.6399, "step": 11580 }, { "epoch": 1.47, "learning_rate": 5.1708333333333334e-05, "loss": 3.6593, "step": 11590 }, { "epoch": 1.47, "learning_rate": 5.166666666666667e-05, "loss": 3.6458, "step": 11600 }, { "epoch": 1.47, "learning_rate": 5.1625e-05, "loss": 3.7382, "step": 11610 }, { "epoch": 1.48, "learning_rate": 5.158333333333334e-05, "loss": 3.6909, "step": 11620 }, { "epoch": 1.48, "learning_rate": 5.154166666666667e-05, "loss": 3.713, "step": 11630 }, { "epoch": 1.48, "learning_rate": 5.1500000000000005e-05, "loss": 3.5459, "step": 11640 }, { "epoch": 1.48, "learning_rate": 5.145833333333333e-05, "loss": 3.5099, "step": 11650 }, { "epoch": 1.48, "learning_rate": 5.141666666666667e-05, "loss": 3.71, "step": 11660 }, { "epoch": 1.48, "learning_rate": 5.137500000000001e-05, "loss": 3.6733, "step": 11670 }, { "epoch": 1.48, "learning_rate": 5.133333333333333e-05, "loss": 3.6348, "step": 11680 }, { "epoch": 1.48, "learning_rate": 5.129166666666667e-05, "loss": 3.7146, "step": 11690 }, { "epoch": 1.49, "learning_rate": 5.125e-05, "loss": 3.6936, "step": 11700 }, { "epoch": 1.49, "learning_rate": 5.1208333333333336e-05, "loss": 3.651, "step": 11710 }, { "epoch": 1.49, "learning_rate": 5.116666666666667e-05, "loss": 3.6312, "step": 11720 }, { "epoch": 1.49, "learning_rate": 5.1125e-05, "loss": 3.6397, "step": 11730 }, { "epoch": 1.49, "learning_rate": 5.108333333333334e-05, "loss": 3.6444, "step": 11740 }, { "epoch": 1.49, "learning_rate": 5.104166666666666e-05, "loss": 3.7243, "step": 11750 }, { "epoch": 1.49, "learning_rate": 5.1000000000000006e-05, "loss": 3.654, "step": 11760 }, { "epoch": 1.49, "learning_rate": 5.095833333333334e-05, "loss": 3.6895, "step": 11770 }, { "epoch": 1.5, "learning_rate": 5.0916666666666666e-05, "loss": 3.6252, "step": 11780 }, { "epoch": 1.5, "learning_rate": 5.0875e-05, "loss": 3.6078, "step": 11790 }, { "epoch": 1.5, "learning_rate": 5.0833333333333333e-05, "loss": 3.7227, "step": 11800 }, { "epoch": 1.5, "learning_rate": 5.079166666666667e-05, "loss": 3.7034, "step": 11810 }, { "epoch": 1.5, "learning_rate": 5.075e-05, "loss": 3.6327, "step": 11820 }, { "epoch": 1.5, "learning_rate": 5.070833333333334e-05, "loss": 3.5757, "step": 11830 }, { "epoch": 1.5, "learning_rate": 5.0666666666666674e-05, "loss": 3.6881, "step": 11840 }, { "epoch": 1.5, "learning_rate": 5.0625e-05, "loss": 3.7342, "step": 11850 }, { "epoch": 1.51, "learning_rate": 5.058333333333334e-05, "loss": 3.6803, "step": 11860 }, { "epoch": 1.51, "learning_rate": 5.0541666666666664e-05, "loss": 3.7067, "step": 11870 }, { "epoch": 1.51, "learning_rate": 5.05e-05, "loss": 3.5804, "step": 11880 }, { "epoch": 1.51, "learning_rate": 5.045833333333334e-05, "loss": 3.6896, "step": 11890 }, { "epoch": 1.51, "learning_rate": 5.041666666666667e-05, "loss": 3.6621, "step": 11900 }, { "epoch": 1.51, "learning_rate": 5.0375000000000005e-05, "loss": 3.6624, "step": 11910 }, { "epoch": 1.51, "learning_rate": 5.0333333333333335e-05, "loss": 3.7038, "step": 11920 }, { "epoch": 1.51, "learning_rate": 5.029166666666667e-05, "loss": 3.61, "step": 11930 }, { "epoch": 1.52, "learning_rate": 5.0249999999999995e-05, "loss": 3.6532, "step": 11940 }, { "epoch": 1.52, "learning_rate": 5.020833333333333e-05, "loss": 3.6816, "step": 11950 }, { "epoch": 1.52, "learning_rate": 5.0166666666666675e-05, "loss": 3.6747, "step": 11960 }, { "epoch": 1.52, "learning_rate": 5.0125e-05, "loss": 3.7266, "step": 11970 }, { "epoch": 1.52, "learning_rate": 5.0083333333333335e-05, "loss": 3.5706, "step": 11980 }, { "epoch": 1.52, "learning_rate": 5.0041666666666666e-05, "loss": 3.6219, "step": 11990 }, { "epoch": 1.52, "learning_rate": 5e-05, "loss": 3.6157, "step": 12000 }, { "epoch": 1.53, "learning_rate": 4.995833333333333e-05, "loss": 3.5763, "step": 12010 }, { "epoch": 1.53, "learning_rate": 4.991666666666667e-05, "loss": 3.7418, "step": 12020 }, { "epoch": 1.53, "learning_rate": 4.9875000000000006e-05, "loss": 3.6968, "step": 12030 }, { "epoch": 1.53, "learning_rate": 4.9833333333333336e-05, "loss": 3.6861, "step": 12040 }, { "epoch": 1.53, "learning_rate": 4.979166666666667e-05, "loss": 3.6605, "step": 12050 }, { "epoch": 1.53, "learning_rate": 4.975e-05, "loss": 3.5995, "step": 12060 }, { "epoch": 1.53, "learning_rate": 4.970833333333333e-05, "loss": 3.6068, "step": 12070 }, { "epoch": 1.53, "learning_rate": 4.966666666666667e-05, "loss": 3.6135, "step": 12080 }, { "epoch": 1.54, "learning_rate": 4.962500000000001e-05, "loss": 3.7864, "step": 12090 }, { "epoch": 1.54, "learning_rate": 4.958333333333334e-05, "loss": 3.6014, "step": 12100 }, { "epoch": 1.54, "learning_rate": 4.954166666666667e-05, "loss": 3.6135, "step": 12110 }, { "epoch": 1.54, "learning_rate": 4.9500000000000004e-05, "loss": 3.7334, "step": 12120 }, { "epoch": 1.54, "learning_rate": 4.9458333333333334e-05, "loss": 3.6901, "step": 12130 }, { "epoch": 1.54, "learning_rate": 4.9416666666666664e-05, "loss": 3.5814, "step": 12140 }, { "epoch": 1.54, "learning_rate": 4.937500000000001e-05, "loss": 3.7297, "step": 12150 }, { "epoch": 1.54, "learning_rate": 4.933333333333334e-05, "loss": 3.5952, "step": 12160 }, { "epoch": 1.55, "learning_rate": 4.929166666666667e-05, "loss": 3.6411, "step": 12170 }, { "epoch": 1.55, "learning_rate": 4.9250000000000004e-05, "loss": 3.6863, "step": 12180 }, { "epoch": 1.55, "learning_rate": 4.9208333333333335e-05, "loss": 3.6398, "step": 12190 }, { "epoch": 1.55, "learning_rate": 4.9166666666666665e-05, "loss": 3.7241, "step": 12200 }, { "epoch": 1.55, "learning_rate": 4.9125e-05, "loss": 3.7389, "step": 12210 }, { "epoch": 1.55, "learning_rate": 4.908333333333334e-05, "loss": 3.7257, "step": 12220 }, { "epoch": 1.55, "learning_rate": 4.904166666666667e-05, "loss": 3.6272, "step": 12230 }, { "epoch": 1.55, "learning_rate": 4.9e-05, "loss": 3.5992, "step": 12240 }, { "epoch": 1.56, "learning_rate": 4.8958333333333335e-05, "loss": 3.6406, "step": 12250 }, { "epoch": 1.56, "learning_rate": 4.891666666666667e-05, "loss": 3.6028, "step": 12260 }, { "epoch": 1.56, "learning_rate": 4.8875e-05, "loss": 3.6634, "step": 12270 }, { "epoch": 1.56, "learning_rate": 4.883333333333334e-05, "loss": 3.6605, "step": 12280 }, { "epoch": 1.56, "learning_rate": 4.879166666666667e-05, "loss": 3.721, "step": 12290 }, { "epoch": 1.56, "learning_rate": 4.875e-05, "loss": 3.6788, "step": 12300 }, { "epoch": 1.56, "learning_rate": 4.8708333333333336e-05, "loss": 3.6359, "step": 12310 }, { "epoch": 1.56, "learning_rate": 4.866666666666667e-05, "loss": 3.7146, "step": 12320 }, { "epoch": 1.57, "learning_rate": 4.8625e-05, "loss": 3.6679, "step": 12330 }, { "epoch": 1.57, "learning_rate": 4.858333333333333e-05, "loss": 3.7306, "step": 12340 }, { "epoch": 1.57, "learning_rate": 4.854166666666667e-05, "loss": 3.582, "step": 12350 }, { "epoch": 1.57, "learning_rate": 4.85e-05, "loss": 3.666, "step": 12360 }, { "epoch": 1.57, "learning_rate": 4.845833333333334e-05, "loss": 3.6541, "step": 12370 }, { "epoch": 1.57, "learning_rate": 4.8416666666666673e-05, "loss": 3.714, "step": 12380 }, { "epoch": 1.57, "learning_rate": 4.8375000000000004e-05, "loss": 3.6607, "step": 12390 }, { "epoch": 1.57, "learning_rate": 4.8333333333333334e-05, "loss": 3.6943, "step": 12400 }, { "epoch": 1.58, "learning_rate": 4.829166666666667e-05, "loss": 3.7126, "step": 12410 }, { "epoch": 1.58, "learning_rate": 4.825e-05, "loss": 3.6141, "step": 12420 }, { "epoch": 1.58, "learning_rate": 4.820833333333333e-05, "loss": 3.5991, "step": 12430 }, { "epoch": 1.58, "learning_rate": 4.8166666666666674e-05, "loss": 3.6463, "step": 12440 }, { "epoch": 1.58, "learning_rate": 4.8125000000000004e-05, "loss": 3.6104, "step": 12450 }, { "epoch": 1.58, "learning_rate": 4.8083333333333334e-05, "loss": 3.7673, "step": 12460 }, { "epoch": 1.58, "learning_rate": 4.804166666666667e-05, "loss": 3.6957, "step": 12470 }, { "epoch": 1.58, "learning_rate": 4.8e-05, "loss": 3.6367, "step": 12480 }, { "epoch": 1.59, "learning_rate": 4.795833333333333e-05, "loss": 3.6545, "step": 12490 }, { "epoch": 1.59, "learning_rate": 4.791666666666667e-05, "loss": 3.6432, "step": 12500 }, { "epoch": 1.59, "learning_rate": 4.7875000000000005e-05, "loss": 3.7156, "step": 12510 }, { "epoch": 1.59, "learning_rate": 4.7833333333333335e-05, "loss": 3.6955, "step": 12520 }, { "epoch": 1.59, "learning_rate": 4.7791666666666665e-05, "loss": 3.6593, "step": 12530 }, { "epoch": 1.59, "learning_rate": 4.775e-05, "loss": 3.6595, "step": 12540 }, { "epoch": 1.59, "learning_rate": 4.770833333333334e-05, "loss": 3.6616, "step": 12550 }, { "epoch": 1.59, "learning_rate": 4.766666666666667e-05, "loss": 3.6561, "step": 12560 }, { "epoch": 1.6, "learning_rate": 4.7625000000000006e-05, "loss": 3.5984, "step": 12570 }, { "epoch": 1.6, "learning_rate": 4.7583333333333336e-05, "loss": 3.603, "step": 12580 }, { "epoch": 1.6, "learning_rate": 4.7541666666666666e-05, "loss": 3.5314, "step": 12590 }, { "epoch": 1.6, "learning_rate": 4.75e-05, "loss": 3.6655, "step": 12600 }, { "epoch": 1.6, "learning_rate": 4.745833333333334e-05, "loss": 3.7007, "step": 12610 }, { "epoch": 1.6, "learning_rate": 4.741666666666667e-05, "loss": 3.6349, "step": 12620 }, { "epoch": 1.6, "learning_rate": 4.7375e-05, "loss": 3.6241, "step": 12630 }, { "epoch": 1.61, "learning_rate": 4.7333333333333336e-05, "loss": 3.5688, "step": 12640 }, { "epoch": 1.61, "learning_rate": 4.7291666666666666e-05, "loss": 3.6508, "step": 12650 }, { "epoch": 1.61, "learning_rate": 4.7249999999999997e-05, "loss": 3.6735, "step": 12660 }, { "epoch": 1.61, "learning_rate": 4.720833333333334e-05, "loss": 3.6153, "step": 12670 }, { "epoch": 1.61, "learning_rate": 4.716666666666667e-05, "loss": 3.699, "step": 12680 }, { "epoch": 1.61, "learning_rate": 4.7125e-05, "loss": 3.6756, "step": 12690 }, { "epoch": 1.61, "learning_rate": 4.708333333333334e-05, "loss": 3.6188, "step": 12700 }, { "epoch": 1.61, "learning_rate": 4.704166666666667e-05, "loss": 3.6668, "step": 12710 }, { "epoch": 1.62, "learning_rate": 4.7e-05, "loss": 3.649, "step": 12720 }, { "epoch": 1.62, "learning_rate": 4.695833333333334e-05, "loss": 3.6222, "step": 12730 }, { "epoch": 1.62, "learning_rate": 4.691666666666667e-05, "loss": 3.6403, "step": 12740 }, { "epoch": 1.62, "learning_rate": 4.6875e-05, "loss": 3.6108, "step": 12750 }, { "epoch": 1.62, "learning_rate": 4.683333333333334e-05, "loss": 3.6849, "step": 12760 }, { "epoch": 1.62, "learning_rate": 4.679166666666667e-05, "loss": 3.6122, "step": 12770 }, { "epoch": 1.62, "learning_rate": 4.6750000000000005e-05, "loss": 3.6042, "step": 12780 }, { "epoch": 1.62, "learning_rate": 4.6708333333333335e-05, "loss": 3.5696, "step": 12790 }, { "epoch": 1.63, "learning_rate": 4.666666666666667e-05, "loss": 3.5621, "step": 12800 }, { "epoch": 1.63, "learning_rate": 4.6625e-05, "loss": 3.6251, "step": 12810 }, { "epoch": 1.63, "learning_rate": 4.658333333333333e-05, "loss": 3.6391, "step": 12820 }, { "epoch": 1.63, "learning_rate": 4.654166666666667e-05, "loss": 3.607, "step": 12830 }, { "epoch": 1.63, "learning_rate": 4.6500000000000005e-05, "loss": 3.7364, "step": 12840 }, { "epoch": 1.63, "learning_rate": 4.6458333333333335e-05, "loss": 3.6102, "step": 12850 }, { "epoch": 1.63, "learning_rate": 4.641666666666667e-05, "loss": 3.6449, "step": 12860 }, { "epoch": 1.63, "learning_rate": 4.6375e-05, "loss": 3.614, "step": 12870 }, { "epoch": 1.64, "learning_rate": 4.633333333333333e-05, "loss": 3.5765, "step": 12880 }, { "epoch": 1.64, "learning_rate": 4.629166666666667e-05, "loss": 3.7523, "step": 12890 }, { "epoch": 1.64, "learning_rate": 4.6250000000000006e-05, "loss": 3.6719, "step": 12900 }, { "epoch": 1.64, "learning_rate": 4.6208333333333336e-05, "loss": 3.6867, "step": 12910 }, { "epoch": 1.64, "learning_rate": 4.6166666666666666e-05, "loss": 3.6955, "step": 12920 }, { "epoch": 1.64, "learning_rate": 4.6125e-05, "loss": 3.6408, "step": 12930 }, { "epoch": 1.64, "learning_rate": 4.608333333333333e-05, "loss": 3.667, "step": 12940 }, { "epoch": 1.64, "learning_rate": 4.604166666666666e-05, "loss": 3.6993, "step": 12950 }, { "epoch": 1.65, "learning_rate": 4.600000000000001e-05, "loss": 3.6139, "step": 12960 }, { "epoch": 1.65, "learning_rate": 4.595833333333334e-05, "loss": 3.6572, "step": 12970 }, { "epoch": 1.65, "learning_rate": 4.591666666666667e-05, "loss": 3.6944, "step": 12980 }, { "epoch": 1.65, "learning_rate": 4.5875000000000004e-05, "loss": 3.6663, "step": 12990 }, { "epoch": 1.65, "learning_rate": 4.5833333333333334e-05, "loss": 3.5841, "step": 13000 }, { "epoch": 1.65, "learning_rate": 4.579166666666667e-05, "loss": 3.6171, "step": 13010 }, { "epoch": 1.65, "learning_rate": 4.575e-05, "loss": 3.7203, "step": 13020 }, { "epoch": 1.65, "learning_rate": 4.570833333333334e-05, "loss": 3.5683, "step": 13030 }, { "epoch": 1.66, "learning_rate": 4.566666666666667e-05, "loss": 3.6595, "step": 13040 }, { "epoch": 1.66, "learning_rate": 4.5625e-05, "loss": 3.5759, "step": 13050 }, { "epoch": 1.66, "learning_rate": 4.5583333333333335e-05, "loss": 3.6979, "step": 13060 }, { "epoch": 1.66, "learning_rate": 4.554166666666667e-05, "loss": 3.7075, "step": 13070 }, { "epoch": 1.66, "learning_rate": 4.55e-05, "loss": 3.6512, "step": 13080 }, { "epoch": 1.66, "learning_rate": 4.545833333333334e-05, "loss": 3.6897, "step": 13090 }, { "epoch": 1.66, "learning_rate": 4.541666666666667e-05, "loss": 3.6496, "step": 13100 }, { "epoch": 1.66, "learning_rate": 4.5375e-05, "loss": 3.6297, "step": 13110 }, { "epoch": 1.67, "learning_rate": 4.5333333333333335e-05, "loss": 3.7341, "step": 13120 }, { "epoch": 1.67, "learning_rate": 4.529166666666667e-05, "loss": 3.6341, "step": 13130 }, { "epoch": 1.67, "learning_rate": 4.525e-05, "loss": 3.6201, "step": 13140 }, { "epoch": 1.67, "learning_rate": 4.520833333333334e-05, "loss": 3.7258, "step": 13150 }, { "epoch": 1.67, "learning_rate": 4.516666666666667e-05, "loss": 3.6571, "step": 13160 }, { "epoch": 1.67, "learning_rate": 4.5125e-05, "loss": 3.6941, "step": 13170 }, { "epoch": 1.67, "learning_rate": 4.5083333333333336e-05, "loss": 3.5662, "step": 13180 }, { "epoch": 1.67, "learning_rate": 4.504166666666667e-05, "loss": 3.7259, "step": 13190 }, { "epoch": 1.68, "learning_rate": 4.5e-05, "loss": 3.6372, "step": 13200 }, { "epoch": 1.68, "learning_rate": 4.495833333333333e-05, "loss": 3.6048, "step": 13210 }, { "epoch": 1.68, "learning_rate": 4.491666666666667e-05, "loss": 3.6423, "step": 13220 }, { "epoch": 1.68, "learning_rate": 4.4875e-05, "loss": 3.6876, "step": 13230 }, { "epoch": 1.68, "learning_rate": 4.483333333333333e-05, "loss": 3.6473, "step": 13240 }, { "epoch": 1.68, "learning_rate": 4.4791666666666673e-05, "loss": 3.6701, "step": 13250 }, { "epoch": 1.68, "learning_rate": 4.4750000000000004e-05, "loss": 3.6766, "step": 13260 }, { "epoch": 1.69, "learning_rate": 4.4708333333333334e-05, "loss": 3.6457, "step": 13270 }, { "epoch": 1.69, "learning_rate": 4.466666666666667e-05, "loss": 3.6484, "step": 13280 }, { "epoch": 1.69, "learning_rate": 4.4625e-05, "loss": 3.7561, "step": 13290 }, { "epoch": 1.69, "learning_rate": 4.458333333333334e-05, "loss": 3.633, "step": 13300 }, { "epoch": 1.69, "learning_rate": 4.454166666666667e-05, "loss": 3.5717, "step": 13310 }, { "epoch": 1.69, "learning_rate": 4.4500000000000004e-05, "loss": 3.5501, "step": 13320 }, { "epoch": 1.69, "learning_rate": 4.4458333333333334e-05, "loss": 3.5943, "step": 13330 }, { "epoch": 1.69, "learning_rate": 4.4416666666666664e-05, "loss": 3.6681, "step": 13340 }, { "epoch": 1.7, "learning_rate": 4.4375e-05, "loss": 3.6585, "step": 13350 }, { "epoch": 1.7, "learning_rate": 4.433333333333334e-05, "loss": 3.5762, "step": 13360 }, { "epoch": 1.7, "learning_rate": 4.429166666666667e-05, "loss": 3.6048, "step": 13370 }, { "epoch": 1.7, "learning_rate": 4.4250000000000005e-05, "loss": 3.6575, "step": 13380 }, { "epoch": 1.7, "learning_rate": 4.4208333333333335e-05, "loss": 3.6554, "step": 13390 }, { "epoch": 1.7, "learning_rate": 4.4166666666666665e-05, "loss": 3.6992, "step": 13400 }, { "epoch": 1.7, "learning_rate": 4.4125e-05, "loss": 3.6409, "step": 13410 }, { "epoch": 1.7, "learning_rate": 4.408333333333334e-05, "loss": 3.5807, "step": 13420 }, { "epoch": 1.71, "learning_rate": 4.404166666666667e-05, "loss": 3.644, "step": 13430 }, { "epoch": 1.71, "learning_rate": 4.4000000000000006e-05, "loss": 3.6684, "step": 13440 }, { "epoch": 1.71, "learning_rate": 4.3958333333333336e-05, "loss": 3.759, "step": 13450 }, { "epoch": 1.71, "learning_rate": 4.3916666666666666e-05, "loss": 3.6246, "step": 13460 }, { "epoch": 1.71, "learning_rate": 4.3875e-05, "loss": 3.5906, "step": 13470 }, { "epoch": 1.71, "learning_rate": 4.383333333333334e-05, "loss": 3.6376, "step": 13480 }, { "epoch": 1.71, "learning_rate": 4.379166666666667e-05, "loss": 3.683, "step": 13490 }, { "epoch": 1.71, "learning_rate": 4.375e-05, "loss": 3.6379, "step": 13500 }, { "epoch": 1.72, "learning_rate": 4.3708333333333336e-05, "loss": 3.6606, "step": 13510 }, { "epoch": 1.72, "learning_rate": 4.3666666666666666e-05, "loss": 3.6485, "step": 13520 }, { "epoch": 1.72, "learning_rate": 4.3625e-05, "loss": 3.6923, "step": 13530 }, { "epoch": 1.72, "learning_rate": 4.358333333333334e-05, "loss": 3.6224, "step": 13540 }, { "epoch": 1.72, "learning_rate": 4.354166666666667e-05, "loss": 3.7138, "step": 13550 }, { "epoch": 1.72, "learning_rate": 4.35e-05, "loss": 3.5687, "step": 13560 }, { "epoch": 1.72, "learning_rate": 4.345833333333334e-05, "loss": 3.6153, "step": 13570 }, { "epoch": 1.72, "learning_rate": 4.341666666666667e-05, "loss": 3.6668, "step": 13580 }, { "epoch": 1.73, "learning_rate": 4.3375000000000004e-05, "loss": 3.7174, "step": 13590 }, { "epoch": 1.73, "learning_rate": 4.3333333333333334e-05, "loss": 3.5391, "step": 13600 }, { "epoch": 1.73, "learning_rate": 4.329166666666667e-05, "loss": 3.6198, "step": 13610 }, { "epoch": 1.73, "learning_rate": 4.325e-05, "loss": 3.6348, "step": 13620 }, { "epoch": 1.73, "learning_rate": 4.320833333333333e-05, "loss": 3.6271, "step": 13630 }, { "epoch": 1.73, "learning_rate": 4.316666666666667e-05, "loss": 3.6456, "step": 13640 }, { "epoch": 1.73, "learning_rate": 4.3125000000000005e-05, "loss": 3.6502, "step": 13650 }, { "epoch": 1.73, "learning_rate": 4.3083333333333335e-05, "loss": 3.7002, "step": 13660 }, { "epoch": 1.74, "learning_rate": 4.304166666666667e-05, "loss": 3.6327, "step": 13670 }, { "epoch": 1.74, "learning_rate": 4.3e-05, "loss": 3.7379, "step": 13680 }, { "epoch": 1.74, "learning_rate": 4.295833333333333e-05, "loss": 3.6058, "step": 13690 }, { "epoch": 1.74, "learning_rate": 4.291666666666667e-05, "loss": 3.6668, "step": 13700 }, { "epoch": 1.74, "learning_rate": 4.2875000000000005e-05, "loss": 3.6412, "step": 13710 }, { "epoch": 1.74, "learning_rate": 4.2833333333333335e-05, "loss": 3.5506, "step": 13720 }, { "epoch": 1.74, "learning_rate": 4.2791666666666666e-05, "loss": 3.6548, "step": 13730 }, { "epoch": 1.74, "learning_rate": 4.275e-05, "loss": 3.6239, "step": 13740 }, { "epoch": 1.75, "learning_rate": 4.270833333333333e-05, "loss": 3.6458, "step": 13750 }, { "epoch": 1.75, "learning_rate": 4.266666666666667e-05, "loss": 3.6842, "step": 13760 }, { "epoch": 1.75, "learning_rate": 4.2625000000000006e-05, "loss": 3.6767, "step": 13770 }, { "epoch": 1.75, "learning_rate": 4.2583333333333336e-05, "loss": 3.6619, "step": 13780 }, { "epoch": 1.75, "learning_rate": 4.2541666666666666e-05, "loss": 3.6865, "step": 13790 }, { "epoch": 1.75, "learning_rate": 4.25e-05, "loss": 3.6469, "step": 13800 }, { "epoch": 1.75, "learning_rate": 4.245833333333333e-05, "loss": 3.5855, "step": 13810 }, { "epoch": 1.75, "learning_rate": 4.241666666666667e-05, "loss": 3.676, "step": 13820 }, { "epoch": 1.76, "learning_rate": 4.237500000000001e-05, "loss": 3.7536, "step": 13830 }, { "epoch": 1.76, "learning_rate": 4.233333333333334e-05, "loss": 3.6346, "step": 13840 }, { "epoch": 1.76, "learning_rate": 4.229166666666667e-05, "loss": 3.6358, "step": 13850 }, { "epoch": 1.76, "learning_rate": 4.2250000000000004e-05, "loss": 3.625, "step": 13860 }, { "epoch": 1.76, "learning_rate": 4.2208333333333334e-05, "loss": 3.6976, "step": 13870 }, { "epoch": 1.76, "learning_rate": 4.216666666666667e-05, "loss": 3.6869, "step": 13880 }, { "epoch": 1.76, "learning_rate": 4.2125e-05, "loss": 3.6241, "step": 13890 }, { "epoch": 1.77, "learning_rate": 4.208333333333334e-05, "loss": 3.5997, "step": 13900 }, { "epoch": 1.77, "learning_rate": 4.204166666666667e-05, "loss": 3.5887, "step": 13910 }, { "epoch": 1.77, "learning_rate": 4.2e-05, "loss": 3.69, "step": 13920 }, { "epoch": 1.77, "learning_rate": 4.1958333333333335e-05, "loss": 3.6011, "step": 13930 }, { "epoch": 1.77, "learning_rate": 4.191666666666667e-05, "loss": 3.5861, "step": 13940 }, { "epoch": 1.77, "learning_rate": 4.1875e-05, "loss": 3.7214, "step": 13950 }, { "epoch": 1.77, "learning_rate": 4.183333333333334e-05, "loss": 3.6634, "step": 13960 }, { "epoch": 1.77, "learning_rate": 4.179166666666667e-05, "loss": 3.7179, "step": 13970 }, { "epoch": 1.78, "learning_rate": 4.175e-05, "loss": 3.637, "step": 13980 }, { "epoch": 1.78, "learning_rate": 4.1708333333333335e-05, "loss": 3.695, "step": 13990 }, { "epoch": 1.78, "learning_rate": 4.166666666666667e-05, "loss": 3.6255, "step": 14000 }, { "epoch": 1.78, "learning_rate": 4.1625e-05, "loss": 3.5674, "step": 14010 }, { "epoch": 1.78, "learning_rate": 4.158333333333333e-05, "loss": 3.65, "step": 14020 }, { "epoch": 1.78, "learning_rate": 4.154166666666667e-05, "loss": 3.6727, "step": 14030 }, { "epoch": 1.78, "learning_rate": 4.15e-05, "loss": 3.6669, "step": 14040 }, { "epoch": 1.78, "learning_rate": 4.1458333333333336e-05, "loss": 3.7255, "step": 14050 }, { "epoch": 1.79, "learning_rate": 4.141666666666667e-05, "loss": 3.5966, "step": 14060 }, { "epoch": 1.79, "learning_rate": 4.1375e-05, "loss": 3.7048, "step": 14070 }, { "epoch": 1.79, "learning_rate": 4.133333333333333e-05, "loss": 3.6402, "step": 14080 }, { "epoch": 1.79, "learning_rate": 4.129166666666667e-05, "loss": 3.595, "step": 14090 }, { "epoch": 1.79, "learning_rate": 4.125e-05, "loss": 3.6325, "step": 14100 }, { "epoch": 1.79, "learning_rate": 4.120833333333334e-05, "loss": 3.6714, "step": 14110 }, { "epoch": 1.79, "learning_rate": 4.116666666666667e-05, "loss": 3.6314, "step": 14120 }, { "epoch": 1.79, "learning_rate": 4.1125000000000004e-05, "loss": 3.6435, "step": 14130 }, { "epoch": 1.8, "learning_rate": 4.1083333333333334e-05, "loss": 3.6947, "step": 14140 }, { "epoch": 1.8, "learning_rate": 4.104166666666667e-05, "loss": 3.7005, "step": 14150 }, { "epoch": 1.8, "learning_rate": 4.1e-05, "loss": 3.6954, "step": 14160 }, { "epoch": 1.8, "learning_rate": 4.095833333333334e-05, "loss": 3.7354, "step": 14170 }, { "epoch": 1.8, "learning_rate": 4.091666666666667e-05, "loss": 3.695, "step": 14180 }, { "epoch": 1.8, "learning_rate": 4.0875000000000004e-05, "loss": 3.6784, "step": 14190 }, { "epoch": 1.8, "learning_rate": 4.0833333333333334e-05, "loss": 3.6342, "step": 14200 }, { "epoch": 1.8, "learning_rate": 4.0791666666666664e-05, "loss": 3.6773, "step": 14210 }, { "epoch": 1.81, "learning_rate": 4.075e-05, "loss": 3.6478, "step": 14220 }, { "epoch": 1.81, "learning_rate": 4.070833333333334e-05, "loss": 3.5489, "step": 14230 }, { "epoch": 1.81, "learning_rate": 4.066666666666667e-05, "loss": 3.5947, "step": 14240 }, { "epoch": 1.81, "learning_rate": 4.0625000000000005e-05, "loss": 3.6796, "step": 14250 }, { "epoch": 1.81, "learning_rate": 4.0583333333333335e-05, "loss": 3.6839, "step": 14260 }, { "epoch": 1.81, "learning_rate": 4.0541666666666665e-05, "loss": 3.6928, "step": 14270 }, { "epoch": 1.81, "learning_rate": 4.05e-05, "loss": 3.6746, "step": 14280 }, { "epoch": 1.81, "learning_rate": 4.045833333333334e-05, "loss": 3.69, "step": 14290 }, { "epoch": 1.82, "learning_rate": 4.041666666666667e-05, "loss": 3.6316, "step": 14300 }, { "epoch": 1.82, "learning_rate": 4.0375e-05, "loss": 3.6509, "step": 14310 }, { "epoch": 1.82, "learning_rate": 4.0333333333333336e-05, "loss": 3.6079, "step": 14320 }, { "epoch": 1.82, "learning_rate": 4.0291666666666666e-05, "loss": 3.6643, "step": 14330 }, { "epoch": 1.82, "learning_rate": 4.025e-05, "loss": 3.7018, "step": 14340 }, { "epoch": 1.82, "learning_rate": 4.020833333333334e-05, "loss": 3.664, "step": 14350 }, { "epoch": 1.82, "learning_rate": 4.016666666666667e-05, "loss": 3.6515, "step": 14360 }, { "epoch": 1.82, "learning_rate": 4.0125e-05, "loss": 3.6021, "step": 14370 }, { "epoch": 1.83, "learning_rate": 4.0083333333333336e-05, "loss": 3.6355, "step": 14380 }, { "epoch": 1.83, "learning_rate": 4.0041666666666666e-05, "loss": 3.5886, "step": 14390 }, { "epoch": 1.83, "learning_rate": 4e-05, "loss": 3.7008, "step": 14400 }, { "epoch": 1.83, "learning_rate": 3.995833333333333e-05, "loss": 3.6699, "step": 14410 }, { "epoch": 1.83, "learning_rate": 3.991666666666667e-05, "loss": 3.6558, "step": 14420 }, { "epoch": 1.83, "learning_rate": 3.9875e-05, "loss": 3.6549, "step": 14430 }, { "epoch": 1.83, "learning_rate": 3.983333333333333e-05, "loss": 3.6448, "step": 14440 }, { "epoch": 1.83, "learning_rate": 3.979166666666667e-05, "loss": 3.5935, "step": 14450 }, { "epoch": 1.84, "learning_rate": 3.9750000000000004e-05, "loss": 3.7036, "step": 14460 }, { "epoch": 1.84, "learning_rate": 3.9708333333333334e-05, "loss": 3.798, "step": 14470 }, { "epoch": 1.84, "learning_rate": 3.966666666666667e-05, "loss": 3.7184, "step": 14480 }, { "epoch": 1.84, "learning_rate": 3.9625e-05, "loss": 3.7293, "step": 14490 }, { "epoch": 1.84, "learning_rate": 3.958333333333333e-05, "loss": 3.6292, "step": 14500 }, { "epoch": 1.84, "learning_rate": 3.9541666666666675e-05, "loss": 3.6317, "step": 14510 }, { "epoch": 1.84, "learning_rate": 3.9500000000000005e-05, "loss": 3.6867, "step": 14520 }, { "epoch": 1.85, "learning_rate": 3.9458333333333335e-05, "loss": 3.6317, "step": 14530 }, { "epoch": 1.85, "learning_rate": 3.941666666666667e-05, "loss": 3.6994, "step": 14540 }, { "epoch": 1.85, "learning_rate": 3.9375e-05, "loss": 3.6529, "step": 14550 }, { "epoch": 1.85, "learning_rate": 3.933333333333333e-05, "loss": 3.714, "step": 14560 }, { "epoch": 1.85, "learning_rate": 3.929166666666667e-05, "loss": 3.6756, "step": 14570 }, { "epoch": 1.85, "learning_rate": 3.9250000000000005e-05, "loss": 3.6792, "step": 14580 }, { "epoch": 1.85, "learning_rate": 3.9208333333333335e-05, "loss": 3.6091, "step": 14590 }, { "epoch": 1.85, "learning_rate": 3.9166666666666665e-05, "loss": 3.7351, "step": 14600 }, { "epoch": 1.86, "learning_rate": 3.9125e-05, "loss": 3.6347, "step": 14610 }, { "epoch": 1.86, "learning_rate": 3.908333333333333e-05, "loss": 3.6962, "step": 14620 }, { "epoch": 1.86, "learning_rate": 3.904166666666667e-05, "loss": 3.6883, "step": 14630 }, { "epoch": 1.86, "learning_rate": 3.9000000000000006e-05, "loss": 3.6065, "step": 14640 }, { "epoch": 1.86, "learning_rate": 3.8958333333333336e-05, "loss": 3.7618, "step": 14650 }, { "epoch": 1.86, "learning_rate": 3.8916666666666666e-05, "loss": 3.6417, "step": 14660 }, { "epoch": 1.86, "learning_rate": 3.8875e-05, "loss": 3.6627, "step": 14670 }, { "epoch": 1.86, "learning_rate": 3.883333333333333e-05, "loss": 3.5963, "step": 14680 }, { "epoch": 1.87, "learning_rate": 3.879166666666667e-05, "loss": 3.6779, "step": 14690 }, { "epoch": 1.87, "learning_rate": 3.875e-05, "loss": 3.7155, "step": 14700 }, { "epoch": 1.87, "learning_rate": 3.870833333333334e-05, "loss": 3.6848, "step": 14710 }, { "epoch": 1.87, "learning_rate": 3.866666666666667e-05, "loss": 3.6445, "step": 14720 }, { "epoch": 1.87, "learning_rate": 3.8625e-05, "loss": 3.6808, "step": 14730 }, { "epoch": 1.87, "learning_rate": 3.8583333333333334e-05, "loss": 3.7444, "step": 14740 }, { "epoch": 1.87, "learning_rate": 3.854166666666667e-05, "loss": 3.6107, "step": 14750 }, { "epoch": 1.87, "learning_rate": 3.85e-05, "loss": 3.6454, "step": 14760 }, { "epoch": 1.88, "learning_rate": 3.845833333333334e-05, "loss": 3.7621, "step": 14770 }, { "epoch": 1.88, "learning_rate": 3.841666666666667e-05, "loss": 3.6496, "step": 14780 }, { "epoch": 1.88, "learning_rate": 3.8375e-05, "loss": 3.7098, "step": 14790 }, { "epoch": 1.88, "learning_rate": 3.8333333333333334e-05, "loss": 3.5932, "step": 14800 }, { "epoch": 1.88, "learning_rate": 3.829166666666667e-05, "loss": 3.6513, "step": 14810 }, { "epoch": 1.88, "learning_rate": 3.825e-05, "loss": 3.627, "step": 14820 }, { "epoch": 1.88, "learning_rate": 3.820833333333334e-05, "loss": 3.6612, "step": 14830 }, { "epoch": 1.88, "learning_rate": 3.816666666666667e-05, "loss": 3.6053, "step": 14840 }, { "epoch": 1.89, "learning_rate": 3.8125e-05, "loss": 3.5921, "step": 14850 }, { "epoch": 1.89, "learning_rate": 3.8083333333333335e-05, "loss": 3.6669, "step": 14860 }, { "epoch": 1.89, "learning_rate": 3.804166666666667e-05, "loss": 3.6227, "step": 14870 }, { "epoch": 1.89, "learning_rate": 3.8e-05, "loss": 3.6963, "step": 14880 }, { "epoch": 1.89, "learning_rate": 3.795833333333333e-05, "loss": 3.627, "step": 14890 }, { "epoch": 1.89, "learning_rate": 3.791666666666667e-05, "loss": 3.6423, "step": 14900 }, { "epoch": 1.89, "learning_rate": 3.7875e-05, "loss": 3.6918, "step": 14910 }, { "epoch": 1.89, "learning_rate": 3.7833333333333336e-05, "loss": 3.6418, "step": 14920 }, { "epoch": 1.9, "learning_rate": 3.779166666666667e-05, "loss": 3.7408, "step": 14930 }, { "epoch": 1.9, "learning_rate": 3.775e-05, "loss": 3.616, "step": 14940 }, { "epoch": 1.9, "learning_rate": 3.770833333333333e-05, "loss": 3.7092, "step": 14950 }, { "epoch": 1.9, "learning_rate": 3.766666666666667e-05, "loss": 3.6429, "step": 14960 }, { "epoch": 1.9, "learning_rate": 3.7625e-05, "loss": 3.7059, "step": 14970 }, { "epoch": 1.9, "learning_rate": 3.7583333333333337e-05, "loss": 3.6699, "step": 14980 }, { "epoch": 1.9, "learning_rate": 3.754166666666667e-05, "loss": 3.7474, "step": 14990 }, { "epoch": 1.9, "learning_rate": 3.7500000000000003e-05, "loss": 3.579, "step": 15000 }, { "epoch": 1.91, "learning_rate": 3.7458333333333334e-05, "loss": 3.6288, "step": 15010 }, { "epoch": 1.91, "learning_rate": 3.7416666666666664e-05, "loss": 3.6706, "step": 15020 }, { "epoch": 1.91, "learning_rate": 3.737500000000001e-05, "loss": 3.7037, "step": 15030 }, { "epoch": 1.91, "learning_rate": 3.733333333333334e-05, "loss": 3.6654, "step": 15040 }, { "epoch": 1.91, "learning_rate": 3.729166666666667e-05, "loss": 3.6425, "step": 15050 }, { "epoch": 1.91, "learning_rate": 3.7250000000000004e-05, "loss": 3.6742, "step": 15060 }, { "epoch": 1.91, "learning_rate": 3.7208333333333334e-05, "loss": 3.6121, "step": 15070 }, { "epoch": 1.91, "learning_rate": 3.7166666666666664e-05, "loss": 3.5657, "step": 15080 }, { "epoch": 1.92, "learning_rate": 3.7125e-05, "loss": 3.5743, "step": 15090 }, { "epoch": 1.92, "learning_rate": 3.708333333333334e-05, "loss": 3.6048, "step": 15100 }, { "epoch": 1.92, "learning_rate": 3.704166666666667e-05, "loss": 3.685, "step": 15110 }, { "epoch": 1.92, "learning_rate": 3.7e-05, "loss": 3.654, "step": 15120 }, { "epoch": 1.92, "learning_rate": 3.6958333333333335e-05, "loss": 3.6857, "step": 15130 }, { "epoch": 1.92, "learning_rate": 3.6916666666666665e-05, "loss": 3.7052, "step": 15140 }, { "epoch": 1.92, "learning_rate": 3.6875e-05, "loss": 3.5659, "step": 15150 }, { "epoch": 1.93, "learning_rate": 3.683333333333334e-05, "loss": 3.6801, "step": 15160 }, { "epoch": 1.93, "learning_rate": 3.679166666666667e-05, "loss": 3.6484, "step": 15170 }, { "epoch": 1.93, "learning_rate": 3.675e-05, "loss": 3.5955, "step": 15180 }, { "epoch": 1.93, "learning_rate": 3.6708333333333336e-05, "loss": 3.65, "step": 15190 }, { "epoch": 1.93, "learning_rate": 3.6666666666666666e-05, "loss": 3.651, "step": 15200 }, { "epoch": 1.93, "learning_rate": 3.6625e-05, "loss": 3.6877, "step": 15210 }, { "epoch": 1.93, "learning_rate": 3.658333333333334e-05, "loss": 3.6687, "step": 15220 }, { "epoch": 1.93, "learning_rate": 3.654166666666667e-05, "loss": 3.6354, "step": 15230 }, { "epoch": 1.94, "learning_rate": 3.65e-05, "loss": 3.648, "step": 15240 }, { "epoch": 1.94, "learning_rate": 3.6458333333333336e-05, "loss": 3.6376, "step": 15250 }, { "epoch": 1.94, "learning_rate": 3.641666666666667e-05, "loss": 3.7018, "step": 15260 }, { "epoch": 1.94, "learning_rate": 3.6375e-05, "loss": 3.5984, "step": 15270 }, { "epoch": 1.94, "learning_rate": 3.633333333333333e-05, "loss": 3.6249, "step": 15280 }, { "epoch": 1.94, "learning_rate": 3.629166666666667e-05, "loss": 3.6597, "step": 15290 }, { "epoch": 1.94, "learning_rate": 3.625e-05, "loss": 3.6485, "step": 15300 }, { "epoch": 1.94, "learning_rate": 3.620833333333333e-05, "loss": 3.6391, "step": 15310 }, { "epoch": 1.95, "learning_rate": 3.6166666666666674e-05, "loss": 3.6959, "step": 15320 }, { "epoch": 1.95, "learning_rate": 3.6125000000000004e-05, "loss": 3.5816, "step": 15330 }, { "epoch": 1.95, "learning_rate": 3.6083333333333334e-05, "loss": 3.7344, "step": 15340 }, { "epoch": 1.95, "learning_rate": 3.604166666666667e-05, "loss": 3.6713, "step": 15350 }, { "epoch": 1.95, "learning_rate": 3.6e-05, "loss": 3.5934, "step": 15360 }, { "epoch": 1.95, "learning_rate": 3.595833333333333e-05, "loss": 3.5905, "step": 15370 }, { "epoch": 1.95, "learning_rate": 3.591666666666667e-05, "loss": 3.6577, "step": 15380 }, { "epoch": 1.95, "learning_rate": 3.5875000000000005e-05, "loss": 3.6492, "step": 15390 }, { "epoch": 1.96, "learning_rate": 3.5833333333333335e-05, "loss": 3.6076, "step": 15400 }, { "epoch": 1.96, "learning_rate": 3.5791666666666665e-05, "loss": 3.6347, "step": 15410 }, { "epoch": 1.96, "learning_rate": 3.575e-05, "loss": 3.6359, "step": 15420 }, { "epoch": 1.96, "learning_rate": 3.570833333333333e-05, "loss": 3.5988, "step": 15430 }, { "epoch": 1.96, "learning_rate": 3.566666666666667e-05, "loss": 3.7752, "step": 15440 }, { "epoch": 1.96, "learning_rate": 3.5625000000000005e-05, "loss": 3.7235, "step": 15450 }, { "epoch": 1.96, "learning_rate": 3.5583333333333335e-05, "loss": 3.7023, "step": 15460 }, { "epoch": 1.96, "learning_rate": 3.5541666666666665e-05, "loss": 3.611, "step": 15470 }, { "epoch": 1.97, "learning_rate": 3.55e-05, "loss": 3.5754, "step": 15480 }, { "epoch": 1.97, "learning_rate": 3.545833333333333e-05, "loss": 3.6671, "step": 15490 }, { "epoch": 1.97, "learning_rate": 3.541666666666667e-05, "loss": 3.5988, "step": 15500 }, { "epoch": 1.97, "learning_rate": 3.5375e-05, "loss": 3.6239, "step": 15510 }, { "epoch": 1.97, "learning_rate": 3.5333333333333336e-05, "loss": 3.632, "step": 15520 }, { "epoch": 1.97, "learning_rate": 3.5291666666666666e-05, "loss": 3.6501, "step": 15530 }, { "epoch": 1.97, "learning_rate": 3.525e-05, "loss": 3.6467, "step": 15540 }, { "epoch": 1.97, "learning_rate": 3.520833333333334e-05, "loss": 3.6938, "step": 15550 }, { "epoch": 1.98, "learning_rate": 3.516666666666667e-05, "loss": 3.6121, "step": 15560 }, { "epoch": 1.98, "learning_rate": 3.5125e-05, "loss": 3.5321, "step": 15570 }, { "epoch": 1.98, "learning_rate": 3.508333333333334e-05, "loss": 3.7028, "step": 15580 }, { "epoch": 1.98, "learning_rate": 3.504166666666667e-05, "loss": 3.6512, "step": 15590 }, { "epoch": 1.98, "learning_rate": 3.5e-05, "loss": 3.5741, "step": 15600 }, { "epoch": 1.98, "learning_rate": 3.495833333333334e-05, "loss": 3.6376, "step": 15610 }, { "epoch": 1.98, "learning_rate": 3.491666666666667e-05, "loss": 3.7537, "step": 15620 }, { "epoch": 1.98, "learning_rate": 3.4875e-05, "loss": 3.7209, "step": 15630 }, { "epoch": 1.99, "learning_rate": 3.483333333333334e-05, "loss": 3.7263, "step": 15640 }, { "epoch": 1.99, "learning_rate": 3.479166666666667e-05, "loss": 3.662, "step": 15650 }, { "epoch": 1.99, "learning_rate": 3.475e-05, "loss": 3.6684, "step": 15660 }, { "epoch": 1.99, "learning_rate": 3.4708333333333334e-05, "loss": 3.6494, "step": 15670 }, { "epoch": 1.99, "learning_rate": 3.466666666666667e-05, "loss": 3.6581, "step": 15680 }, { "epoch": 1.99, "learning_rate": 3.4625e-05, "loss": 3.6369, "step": 15690 }, { "epoch": 1.99, "learning_rate": 3.458333333333333e-05, "loss": 3.6691, "step": 15700 }, { "epoch": 1.99, "learning_rate": 3.454166666666667e-05, "loss": 3.7042, "step": 15710 }, { "epoch": 2.0, "learning_rate": 3.45e-05, "loss": 3.6599, "step": 15720 }, { "epoch": 2.0, "learning_rate": 3.4458333333333335e-05, "loss": 3.7212, "step": 15730 }, { "epoch": 2.0, "learning_rate": 3.441666666666667e-05, "loss": 3.6126, "step": 15740 }, { "epoch": 2.0, "learning_rate": 3.4375e-05, "loss": 3.6423, "step": 15750 }, { "epoch": 2.0, "learning_rate": 3.433333333333333e-05, "loss": 3.6465, "step": 15760 }, { "epoch": 2.0, "learning_rate": 3.429166666666667e-05, "loss": 3.6427, "step": 15770 }, { "epoch": 2.0, "learning_rate": 3.4250000000000006e-05, "loss": 3.6909, "step": 15780 }, { "epoch": 2.01, "learning_rate": 3.4208333333333336e-05, "loss": 3.6819, "step": 15790 }, { "epoch": 2.01, "learning_rate": 3.4166666666666666e-05, "loss": 3.6277, "step": 15800 }, { "epoch": 2.01, "learning_rate": 3.4125e-05, "loss": 3.6169, "step": 15810 }, { "epoch": 2.01, "learning_rate": 3.408333333333333e-05, "loss": 3.5508, "step": 15820 }, { "epoch": 2.01, "learning_rate": 3.404166666666666e-05, "loss": 3.6733, "step": 15830 }, { "epoch": 2.01, "learning_rate": 3.4000000000000007e-05, "loss": 3.6348, "step": 15840 }, { "epoch": 2.01, "learning_rate": 3.3958333333333337e-05, "loss": 3.7007, "step": 15850 }, { "epoch": 2.01, "learning_rate": 3.391666666666667e-05, "loss": 3.6038, "step": 15860 }, { "epoch": 2.02, "learning_rate": 3.3875000000000003e-05, "loss": 3.6143, "step": 15870 }, { "epoch": 2.02, "learning_rate": 3.3833333333333334e-05, "loss": 3.5984, "step": 15880 }, { "epoch": 2.02, "learning_rate": 3.3791666666666664e-05, "loss": 3.6418, "step": 15890 }, { "epoch": 2.02, "learning_rate": 3.375000000000001e-05, "loss": 3.6749, "step": 15900 }, { "epoch": 2.02, "learning_rate": 3.370833333333334e-05, "loss": 3.638, "step": 15910 }, { "epoch": 2.02, "learning_rate": 3.366666666666667e-05, "loss": 3.5864, "step": 15920 }, { "epoch": 2.02, "learning_rate": 3.3625000000000004e-05, "loss": 3.7156, "step": 15930 }, { "epoch": 2.02, "learning_rate": 3.3583333333333334e-05, "loss": 3.6295, "step": 15940 }, { "epoch": 2.03, "learning_rate": 3.3541666666666664e-05, "loss": 3.6419, "step": 15950 }, { "epoch": 2.03, "learning_rate": 3.35e-05, "loss": 3.6358, "step": 15960 }, { "epoch": 2.03, "learning_rate": 3.345833333333334e-05, "loss": 3.6497, "step": 15970 }, { "epoch": 2.03, "learning_rate": 3.341666666666667e-05, "loss": 3.7358, "step": 15980 }, { "epoch": 2.03, "learning_rate": 3.3375e-05, "loss": 3.6868, "step": 15990 }, { "epoch": 2.03, "learning_rate": 3.3333333333333335e-05, "loss": 3.6473, "step": 16000 } ], "max_steps": 24000, "num_train_epochs": 4, "total_flos": 4.709878316662784e+18, "trial_name": null, "trial_params": null }