diff --git "a/trainer_state.json" "b/trainer_state.json" new file mode 100644--- /dev/null +++ "b/trainer_state.json" @@ -0,0 +1,10542 @@ +{ + "best_metric": null, + "best_model_checkpoint": null, + "epoch": 3.0, + "eval_steps": 500, + "global_step": 750000, + "is_hyper_param_search": false, + "is_local_process_zero": true, + "is_world_process_zero": true, + "log_history": [ + { + "epoch": 0.002, + "grad_norm": 4.8645100593566895, + "learning_rate": 4.996666666666667e-05, + "loss": 2.7797, + "step": 500 + }, + { + "epoch": 0.004, + "grad_norm": 5.379912853240967, + "learning_rate": 4.993333333333334e-05, + "loss": 2.6052, + "step": 1000 + }, + { + "epoch": 0.006, + "grad_norm": 3.9640469551086426, + "learning_rate": 4.99e-05, + "loss": 2.558, + "step": 1500 + }, + { + "epoch": 0.008, + "grad_norm": 3.1447696685791016, + "learning_rate": 4.986666666666667e-05, + "loss": 2.535, + "step": 2000 + }, + { + "epoch": 0.01, + "grad_norm": 4.1346330642700195, + "learning_rate": 4.9833333333333336e-05, + "loss": 2.4799, + "step": 2500 + }, + { + "epoch": 0.012, + "grad_norm": 4.81771183013916, + "learning_rate": 4.9800000000000004e-05, + "loss": 2.445, + "step": 3000 + }, + { + "epoch": 0.014, + "grad_norm": 3.2848784923553467, + "learning_rate": 4.9766666666666666e-05, + "loss": 2.5137, + "step": 3500 + }, + { + "epoch": 0.016, + "grad_norm": 4.020968437194824, + "learning_rate": 4.973333333333334e-05, + "loss": 2.4714, + "step": 4000 + }, + { + "epoch": 0.018, + "grad_norm": 3.6858625411987305, + "learning_rate": 4.97e-05, + "loss": 2.4405, + "step": 4500 + }, + { + "epoch": 0.02, + "grad_norm": 5.601511478424072, + "learning_rate": 4.966666666666667e-05, + "loss": 2.4184, + "step": 5000 + }, + { + "epoch": 0.022, + "grad_norm": 4.523524761199951, + "learning_rate": 4.963333333333334e-05, + "loss": 2.4376, + "step": 5500 + }, + { + "epoch": 0.024, + "grad_norm": 3.962721347808838, + "learning_rate": 4.96e-05, + "loss": 2.4003, + "step": 6000 + }, + { + "epoch": 0.026, + "grad_norm": 6.19443416595459, + "learning_rate": 4.956666666666667e-05, + "loss": 2.4151, + "step": 6500 + }, + { + "epoch": 0.028, + "grad_norm": 4.02651309967041, + "learning_rate": 4.9533333333333336e-05, + "loss": 2.3803, + "step": 7000 + }, + { + "epoch": 0.03, + "grad_norm": 4.385961055755615, + "learning_rate": 4.9500000000000004e-05, + "loss": 2.3912, + "step": 7500 + }, + { + "epoch": 0.032, + "grad_norm": 4.189236640930176, + "learning_rate": 4.9466666666666665e-05, + "loss": 2.3441, + "step": 8000 + }, + { + "epoch": 0.034, + "grad_norm": 3.693387508392334, + "learning_rate": 4.943333333333334e-05, + "loss": 2.3357, + "step": 8500 + }, + { + "epoch": 0.036, + "grad_norm": 2.807659149169922, + "learning_rate": 4.94e-05, + "loss": 2.3653, + "step": 9000 + }, + { + "epoch": 0.038, + "grad_norm": 3.522406816482544, + "learning_rate": 4.936666666666667e-05, + "loss": 2.3387, + "step": 9500 + }, + { + "epoch": 0.04, + "grad_norm": 5.274356842041016, + "learning_rate": 4.933333333333334e-05, + "loss": 2.2758, + "step": 10000 + }, + { + "epoch": 0.042, + "grad_norm": 3.6869125366210938, + "learning_rate": 4.93e-05, + "loss": 2.3385, + "step": 10500 + }, + { + "epoch": 0.044, + "grad_norm": 3.541245460510254, + "learning_rate": 4.926666666666667e-05, + "loss": 2.313, + "step": 11000 + }, + { + "epoch": 0.046, + "grad_norm": 3.681368589401245, + "learning_rate": 4.9233333333333335e-05, + "loss": 2.3263, + "step": 11500 + }, + { + "epoch": 0.048, + "grad_norm": 5.731677055358887, + "learning_rate": 4.92e-05, + "loss": 2.3098, + "step": 12000 + }, + { + "epoch": 0.05, + "grad_norm": 3.5993146896362305, + "learning_rate": 4.9166666666666665e-05, + "loss": 2.3609, + "step": 12500 + }, + { + "epoch": 0.052, + "grad_norm": 3.599547863006592, + "learning_rate": 4.913333333333334e-05, + "loss": 2.3419, + "step": 13000 + }, + { + "epoch": 0.054, + "grad_norm": 4.167891502380371, + "learning_rate": 4.91e-05, + "loss": 2.2413, + "step": 13500 + }, + { + "epoch": 0.056, + "grad_norm": 3.4915518760681152, + "learning_rate": 4.906666666666667e-05, + "loss": 2.3372, + "step": 14000 + }, + { + "epoch": 0.058, + "grad_norm": 5.390059471130371, + "learning_rate": 4.903333333333334e-05, + "loss": 2.3426, + "step": 14500 + }, + { + "epoch": 0.06, + "grad_norm": 4.040329456329346, + "learning_rate": 4.9e-05, + "loss": 2.3551, + "step": 15000 + }, + { + "epoch": 0.062, + "grad_norm": 4.870177268981934, + "learning_rate": 4.8966666666666667e-05, + "loss": 2.2974, + "step": 15500 + }, + { + "epoch": 0.064, + "grad_norm": 2.722949743270874, + "learning_rate": 4.8933333333333335e-05, + "loss": 2.2941, + "step": 16000 + }, + { + "epoch": 0.066, + "grad_norm": 3.273509979248047, + "learning_rate": 4.89e-05, + "loss": 2.3103, + "step": 16500 + }, + { + "epoch": 0.068, + "grad_norm": 4.021369934082031, + "learning_rate": 4.886666666666667e-05, + "loss": 2.2787, + "step": 17000 + }, + { + "epoch": 0.07, + "grad_norm": 4.276086330413818, + "learning_rate": 4.883333333333334e-05, + "loss": 2.2616, + "step": 17500 + }, + { + "epoch": 0.072, + "grad_norm": 3.5050389766693115, + "learning_rate": 4.88e-05, + "loss": 2.2795, + "step": 18000 + }, + { + "epoch": 0.074, + "grad_norm": 4.199524402618408, + "learning_rate": 4.876666666666667e-05, + "loss": 2.2871, + "step": 18500 + }, + { + "epoch": 0.076, + "grad_norm": 4.081117630004883, + "learning_rate": 4.8733333333333337e-05, + "loss": 2.2821, + "step": 19000 + }, + { + "epoch": 0.078, + "grad_norm": 3.5695736408233643, + "learning_rate": 4.87e-05, + "loss": 2.3156, + "step": 19500 + }, + { + "epoch": 0.08, + "grad_norm": 5.097811222076416, + "learning_rate": 4.866666666666667e-05, + "loss": 2.311, + "step": 20000 + }, + { + "epoch": 0.082, + "grad_norm": 2.6825947761535645, + "learning_rate": 4.8633333333333334e-05, + "loss": 2.3048, + "step": 20500 + }, + { + "epoch": 0.084, + "grad_norm": 3.4080872535705566, + "learning_rate": 4.86e-05, + "loss": 2.2669, + "step": 21000 + }, + { + "epoch": 0.086, + "grad_norm": 4.328364372253418, + "learning_rate": 4.856666666666667e-05, + "loss": 2.2935, + "step": 21500 + }, + { + "epoch": 0.088, + "grad_norm": 4.735811233520508, + "learning_rate": 4.853333333333334e-05, + "loss": 2.2341, + "step": 22000 + }, + { + "epoch": 0.09, + "grad_norm": 4.199121475219727, + "learning_rate": 4.85e-05, + "loss": 2.2832, + "step": 22500 + }, + { + "epoch": 0.092, + "grad_norm": 3.812959909439087, + "learning_rate": 4.8466666666666675e-05, + "loss": 2.2997, + "step": 23000 + }, + { + "epoch": 0.094, + "grad_norm": 5.936341285705566, + "learning_rate": 4.8433333333333336e-05, + "loss": 2.2248, + "step": 23500 + }, + { + "epoch": 0.096, + "grad_norm": 3.2249481678009033, + "learning_rate": 4.8400000000000004e-05, + "loss": 2.2531, + "step": 24000 + }, + { + "epoch": 0.098, + "grad_norm": 5.251713275909424, + "learning_rate": 4.836666666666667e-05, + "loss": 2.2289, + "step": 24500 + }, + { + "epoch": 0.1, + "grad_norm": 3.292351007461548, + "learning_rate": 4.8333333333333334e-05, + "loss": 2.2534, + "step": 25000 + }, + { + "epoch": 0.102, + "grad_norm": 2.7489211559295654, + "learning_rate": 4.83e-05, + "loss": 2.2509, + "step": 25500 + }, + { + "epoch": 0.104, + "grad_norm": 2.556155204772949, + "learning_rate": 4.826666666666667e-05, + "loss": 2.2749, + "step": 26000 + }, + { + "epoch": 0.106, + "grad_norm": 3.8081729412078857, + "learning_rate": 4.823333333333334e-05, + "loss": 2.2825, + "step": 26500 + }, + { + "epoch": 0.108, + "grad_norm": 3.964282751083374, + "learning_rate": 4.82e-05, + "loss": 2.1973, + "step": 27000 + }, + { + "epoch": 0.11, + "grad_norm": 3.4347293376922607, + "learning_rate": 4.8166666666666674e-05, + "loss": 2.2707, + "step": 27500 + }, + { + "epoch": 0.112, + "grad_norm": 4.294029235839844, + "learning_rate": 4.8133333333333336e-05, + "loss": 2.1915, + "step": 28000 + }, + { + "epoch": 0.114, + "grad_norm": 4.330965518951416, + "learning_rate": 4.8100000000000004e-05, + "loss": 2.1753, + "step": 28500 + }, + { + "epoch": 0.116, + "grad_norm": 4.579583644866943, + "learning_rate": 4.806666666666667e-05, + "loss": 2.2813, + "step": 29000 + }, + { + "epoch": 0.118, + "grad_norm": 3.2384727001190186, + "learning_rate": 4.803333333333333e-05, + "loss": 2.2486, + "step": 29500 + }, + { + "epoch": 0.12, + "grad_norm": 2.8345494270324707, + "learning_rate": 4.8e-05, + "loss": 2.2553, + "step": 30000 + }, + { + "epoch": 0.122, + "grad_norm": 3.484576463699341, + "learning_rate": 4.796666666666667e-05, + "loss": 2.2019, + "step": 30500 + }, + { + "epoch": 0.124, + "grad_norm": 3.3220837116241455, + "learning_rate": 4.793333333333334e-05, + "loss": 2.2267, + "step": 31000 + }, + { + "epoch": 0.126, + "grad_norm": 4.989398002624512, + "learning_rate": 4.79e-05, + "loss": 2.1817, + "step": 31500 + }, + { + "epoch": 0.128, + "grad_norm": 3.302114248275757, + "learning_rate": 4.7866666666666674e-05, + "loss": 2.224, + "step": 32000 + }, + { + "epoch": 0.13, + "grad_norm": 3.5390403270721436, + "learning_rate": 4.7833333333333335e-05, + "loss": 2.2016, + "step": 32500 + }, + { + "epoch": 0.132, + "grad_norm": 2.661050319671631, + "learning_rate": 4.78e-05, + "loss": 2.1926, + "step": 33000 + }, + { + "epoch": 0.134, + "grad_norm": 3.876189947128296, + "learning_rate": 4.776666666666667e-05, + "loss": 2.2749, + "step": 33500 + }, + { + "epoch": 0.136, + "grad_norm": 4.3662800788879395, + "learning_rate": 4.773333333333333e-05, + "loss": 2.1771, + "step": 34000 + }, + { + "epoch": 0.138, + "grad_norm": 3.5553414821624756, + "learning_rate": 4.77e-05, + "loss": 2.2333, + "step": 34500 + }, + { + "epoch": 0.14, + "grad_norm": 3.3606815338134766, + "learning_rate": 4.766666666666667e-05, + "loss": 2.2021, + "step": 35000 + }, + { + "epoch": 0.142, + "grad_norm": 2.821028232574463, + "learning_rate": 4.763333333333334e-05, + "loss": 2.1815, + "step": 35500 + }, + { + "epoch": 0.144, + "grad_norm": 3.8814945220947266, + "learning_rate": 4.76e-05, + "loss": 2.2017, + "step": 36000 + }, + { + "epoch": 0.146, + "grad_norm": 4.055913925170898, + "learning_rate": 4.756666666666667e-05, + "loss": 2.1921, + "step": 36500 + }, + { + "epoch": 0.148, + "grad_norm": 2.8168225288391113, + "learning_rate": 4.7533333333333334e-05, + "loss": 2.215, + "step": 37000 + }, + { + "epoch": 0.15, + "grad_norm": 2.923954725265503, + "learning_rate": 4.75e-05, + "loss": 2.1728, + "step": 37500 + }, + { + "epoch": 0.152, + "grad_norm": 3.0966224670410156, + "learning_rate": 4.746666666666667e-05, + "loss": 2.1879, + "step": 38000 + }, + { + "epoch": 0.154, + "grad_norm": 3.9779932498931885, + "learning_rate": 4.743333333333333e-05, + "loss": 2.1823, + "step": 38500 + }, + { + "epoch": 0.156, + "grad_norm": 3.8520679473876953, + "learning_rate": 4.74e-05, + "loss": 2.2028, + "step": 39000 + }, + { + "epoch": 0.158, + "grad_norm": 3.9359588623046875, + "learning_rate": 4.736666666666667e-05, + "loss": 2.1436, + "step": 39500 + }, + { + "epoch": 0.16, + "grad_norm": 3.2693755626678467, + "learning_rate": 4.7333333333333336e-05, + "loss": 2.1961, + "step": 40000 + }, + { + "epoch": 0.162, + "grad_norm": 2.5243139266967773, + "learning_rate": 4.73e-05, + "loss": 2.1738, + "step": 40500 + }, + { + "epoch": 0.164, + "grad_norm": 4.016306400299072, + "learning_rate": 4.726666666666667e-05, + "loss": 2.1829, + "step": 41000 + }, + { + "epoch": 0.166, + "grad_norm": 3.190603017807007, + "learning_rate": 4.7233333333333334e-05, + "loss": 2.2625, + "step": 41500 + }, + { + "epoch": 0.168, + "grad_norm": 5.114010810852051, + "learning_rate": 4.72e-05, + "loss": 2.1802, + "step": 42000 + }, + { + "epoch": 0.17, + "grad_norm": 3.469277858734131, + "learning_rate": 4.716666666666667e-05, + "loss": 2.2688, + "step": 42500 + }, + { + "epoch": 0.172, + "grad_norm": 3.814119577407837, + "learning_rate": 4.713333333333333e-05, + "loss": 2.1262, + "step": 43000 + }, + { + "epoch": 0.174, + "grad_norm": 4.100981712341309, + "learning_rate": 4.71e-05, + "loss": 2.1781, + "step": 43500 + }, + { + "epoch": 0.176, + "grad_norm": 4.354139804840088, + "learning_rate": 4.706666666666667e-05, + "loss": 2.2184, + "step": 44000 + }, + { + "epoch": 0.178, + "grad_norm": 4.569510459899902, + "learning_rate": 4.7033333333333336e-05, + "loss": 2.1911, + "step": 44500 + }, + { + "epoch": 0.18, + "grad_norm": 3.179772138595581, + "learning_rate": 4.7e-05, + "loss": 2.1917, + "step": 45000 + }, + { + "epoch": 0.182, + "grad_norm": 3.42645525932312, + "learning_rate": 4.696666666666667e-05, + "loss": 2.1263, + "step": 45500 + }, + { + "epoch": 0.184, + "grad_norm": 5.382231712341309, + "learning_rate": 4.6933333333333333e-05, + "loss": 2.2493, + "step": 46000 + }, + { + "epoch": 0.186, + "grad_norm": 5.931434631347656, + "learning_rate": 4.69e-05, + "loss": 2.1616, + "step": 46500 + }, + { + "epoch": 0.188, + "grad_norm": 2.6758346557617188, + "learning_rate": 4.686666666666667e-05, + "loss": 2.1895, + "step": 47000 + }, + { + "epoch": 0.19, + "grad_norm": 4.499919891357422, + "learning_rate": 4.683333333333334e-05, + "loss": 2.1534, + "step": 47500 + }, + { + "epoch": 0.192, + "grad_norm": 3.2183690071105957, + "learning_rate": 4.6800000000000006e-05, + "loss": 2.2583, + "step": 48000 + }, + { + "epoch": 0.194, + "grad_norm": 2.868917226791382, + "learning_rate": 4.676666666666667e-05, + "loss": 2.1716, + "step": 48500 + }, + { + "epoch": 0.196, + "grad_norm": 3.731288433074951, + "learning_rate": 4.6733333333333335e-05, + "loss": 2.2447, + "step": 49000 + }, + { + "epoch": 0.198, + "grad_norm": 3.4196813106536865, + "learning_rate": 4.6700000000000003e-05, + "loss": 2.1791, + "step": 49500 + }, + { + "epoch": 0.2, + "grad_norm": 4.53775691986084, + "learning_rate": 4.666666666666667e-05, + "loss": 2.1751, + "step": 50000 + }, + { + "epoch": 0.202, + "grad_norm": 3.948880195617676, + "learning_rate": 4.663333333333333e-05, + "loss": 2.202, + "step": 50500 + }, + { + "epoch": 0.204, + "grad_norm": 5.424979209899902, + "learning_rate": 4.660000000000001e-05, + "loss": 2.1322, + "step": 51000 + }, + { + "epoch": 0.206, + "grad_norm": 3.3181073665618896, + "learning_rate": 4.656666666666667e-05, + "loss": 2.1802, + "step": 51500 + }, + { + "epoch": 0.208, + "grad_norm": 3.727454662322998, + "learning_rate": 4.653333333333334e-05, + "loss": 2.1418, + "step": 52000 + }, + { + "epoch": 0.21, + "grad_norm": 4.028873920440674, + "learning_rate": 4.6500000000000005e-05, + "loss": 2.1675, + "step": 52500 + }, + { + "epoch": 0.212, + "grad_norm": 4.989190578460693, + "learning_rate": 4.646666666666667e-05, + "loss": 2.1399, + "step": 53000 + }, + { + "epoch": 0.214, + "grad_norm": 3.221280813217163, + "learning_rate": 4.6433333333333335e-05, + "loss": 2.1777, + "step": 53500 + }, + { + "epoch": 0.216, + "grad_norm": 3.428086519241333, + "learning_rate": 4.64e-05, + "loss": 2.1646, + "step": 54000 + }, + { + "epoch": 0.218, + "grad_norm": 3.5606329441070557, + "learning_rate": 4.636666666666667e-05, + "loss": 2.1985, + "step": 54500 + }, + { + "epoch": 0.22, + "grad_norm": 4.00446081161499, + "learning_rate": 4.633333333333333e-05, + "loss": 2.1758, + "step": 55000 + }, + { + "epoch": 0.222, + "grad_norm": 3.827890157699585, + "learning_rate": 4.630000000000001e-05, + "loss": 2.1452, + "step": 55500 + }, + { + "epoch": 0.224, + "grad_norm": 3.6797239780426025, + "learning_rate": 4.626666666666667e-05, + "loss": 2.1319, + "step": 56000 + }, + { + "epoch": 0.226, + "grad_norm": 2.939504623413086, + "learning_rate": 4.623333333333334e-05, + "loss": 2.1941, + "step": 56500 + }, + { + "epoch": 0.228, + "grad_norm": 2.9682395458221436, + "learning_rate": 4.6200000000000005e-05, + "loss": 2.1591, + "step": 57000 + }, + { + "epoch": 0.23, + "grad_norm": 2.7204818725585938, + "learning_rate": 4.6166666666666666e-05, + "loss": 2.1492, + "step": 57500 + }, + { + "epoch": 0.232, + "grad_norm": 2.3042027950286865, + "learning_rate": 4.6133333333333334e-05, + "loss": 2.2162, + "step": 58000 + }, + { + "epoch": 0.234, + "grad_norm": 8.11201286315918, + "learning_rate": 4.61e-05, + "loss": 2.1961, + "step": 58500 + }, + { + "epoch": 0.236, + "grad_norm": 4.328165531158447, + "learning_rate": 4.606666666666667e-05, + "loss": 2.1703, + "step": 59000 + }, + { + "epoch": 0.238, + "grad_norm": 2.358962297439575, + "learning_rate": 4.603333333333333e-05, + "loss": 2.1451, + "step": 59500 + }, + { + "epoch": 0.24, + "grad_norm": 2.828664541244507, + "learning_rate": 4.600000000000001e-05, + "loss": 2.1237, + "step": 60000 + }, + { + "epoch": 0.242, + "grad_norm": 3.2035675048828125, + "learning_rate": 4.596666666666667e-05, + "loss": 2.0976, + "step": 60500 + }, + { + "epoch": 0.244, + "grad_norm": 3.383072853088379, + "learning_rate": 4.5933333333333336e-05, + "loss": 2.1939, + "step": 61000 + }, + { + "epoch": 0.246, + "grad_norm": 3.0149519443511963, + "learning_rate": 4.5900000000000004e-05, + "loss": 2.1504, + "step": 61500 + }, + { + "epoch": 0.248, + "grad_norm": 3.882446527481079, + "learning_rate": 4.5866666666666666e-05, + "loss": 2.1422, + "step": 62000 + }, + { + "epoch": 0.25, + "grad_norm": 3.4065513610839844, + "learning_rate": 4.5833333333333334e-05, + "loss": 2.1733, + "step": 62500 + }, + { + "epoch": 0.252, + "grad_norm": 4.781372547149658, + "learning_rate": 4.58e-05, + "loss": 2.1758, + "step": 63000 + }, + { + "epoch": 0.254, + "grad_norm": 5.701450347900391, + "learning_rate": 4.576666666666667e-05, + "loss": 2.1758, + "step": 63500 + }, + { + "epoch": 0.256, + "grad_norm": 2.9135901927948, + "learning_rate": 4.573333333333333e-05, + "loss": 2.1873, + "step": 64000 + }, + { + "epoch": 0.258, + "grad_norm": 3.19520902633667, + "learning_rate": 4.5700000000000006e-05, + "loss": 2.1595, + "step": 64500 + }, + { + "epoch": 0.26, + "grad_norm": 4.735665798187256, + "learning_rate": 4.566666666666667e-05, + "loss": 2.1277, + "step": 65000 + }, + { + "epoch": 0.262, + "grad_norm": 3.377713203430176, + "learning_rate": 4.5633333333333336e-05, + "loss": 2.1647, + "step": 65500 + }, + { + "epoch": 0.264, + "grad_norm": 2.931816816329956, + "learning_rate": 4.5600000000000004e-05, + "loss": 2.1857, + "step": 66000 + }, + { + "epoch": 0.266, + "grad_norm": 3.2189459800720215, + "learning_rate": 4.556666666666667e-05, + "loss": 2.1273, + "step": 66500 + }, + { + "epoch": 0.268, + "grad_norm": 2.6468396186828613, + "learning_rate": 4.553333333333333e-05, + "loss": 2.1315, + "step": 67000 + }, + { + "epoch": 0.27, + "grad_norm": 3.905832290649414, + "learning_rate": 4.55e-05, + "loss": 2.102, + "step": 67500 + }, + { + "epoch": 0.272, + "grad_norm": 4.4523420333862305, + "learning_rate": 4.546666666666667e-05, + "loss": 2.132, + "step": 68000 + }, + { + "epoch": 0.274, + "grad_norm": 3.438626289367676, + "learning_rate": 4.543333333333333e-05, + "loss": 2.073, + "step": 68500 + }, + { + "epoch": 0.276, + "grad_norm": 4.564730167388916, + "learning_rate": 4.5400000000000006e-05, + "loss": 2.0854, + "step": 69000 + }, + { + "epoch": 0.278, + "grad_norm": 3.2972309589385986, + "learning_rate": 4.536666666666667e-05, + "loss": 2.131, + "step": 69500 + }, + { + "epoch": 0.28, + "grad_norm": 3.035818576812744, + "learning_rate": 4.5333333333333335e-05, + "loss": 2.106, + "step": 70000 + }, + { + "epoch": 0.282, + "grad_norm": 7.811884880065918, + "learning_rate": 4.53e-05, + "loss": 2.1292, + "step": 70500 + }, + { + "epoch": 0.284, + "grad_norm": 5.092980861663818, + "learning_rate": 4.526666666666667e-05, + "loss": 2.1491, + "step": 71000 + }, + { + "epoch": 0.286, + "grad_norm": 3.103090524673462, + "learning_rate": 4.523333333333333e-05, + "loss": 2.1384, + "step": 71500 + }, + { + "epoch": 0.288, + "grad_norm": 3.5172979831695557, + "learning_rate": 4.52e-05, + "loss": 2.0726, + "step": 72000 + }, + { + "epoch": 0.29, + "grad_norm": 2.4746406078338623, + "learning_rate": 4.516666666666667e-05, + "loss": 2.1094, + "step": 72500 + }, + { + "epoch": 0.292, + "grad_norm": 3.892256498336792, + "learning_rate": 4.513333333333333e-05, + "loss": 2.1232, + "step": 73000 + }, + { + "epoch": 0.294, + "grad_norm": 3.967252254486084, + "learning_rate": 4.5100000000000005e-05, + "loss": 2.1418, + "step": 73500 + }, + { + "epoch": 0.296, + "grad_norm": 2.4911153316497803, + "learning_rate": 4.5066666666666667e-05, + "loss": 2.0842, + "step": 74000 + }, + { + "epoch": 0.298, + "grad_norm": 3.2252719402313232, + "learning_rate": 4.5033333333333335e-05, + "loss": 2.098, + "step": 74500 + }, + { + "epoch": 0.3, + "grad_norm": 2.985283136367798, + "learning_rate": 4.5e-05, + "loss": 2.1425, + "step": 75000 + }, + { + "epoch": 0.302, + "grad_norm": 3.0429468154907227, + "learning_rate": 4.496666666666667e-05, + "loss": 2.1294, + "step": 75500 + }, + { + "epoch": 0.304, + "grad_norm": 2.7342679500579834, + "learning_rate": 4.493333333333333e-05, + "loss": 2.1986, + "step": 76000 + }, + { + "epoch": 0.306, + "grad_norm": 4.057483673095703, + "learning_rate": 4.49e-05, + "loss": 2.119, + "step": 76500 + }, + { + "epoch": 0.308, + "grad_norm": 2.410175323486328, + "learning_rate": 4.486666666666667e-05, + "loss": 2.0871, + "step": 77000 + }, + { + "epoch": 0.31, + "grad_norm": 2.3968799114227295, + "learning_rate": 4.483333333333333e-05, + "loss": 2.0911, + "step": 77500 + }, + { + "epoch": 0.312, + "grad_norm": 2.9172019958496094, + "learning_rate": 4.4800000000000005e-05, + "loss": 2.1253, + "step": 78000 + }, + { + "epoch": 0.314, + "grad_norm": 3.167297601699829, + "learning_rate": 4.4766666666666666e-05, + "loss": 2.0541, + "step": 78500 + }, + { + "epoch": 0.316, + "grad_norm": 3.127229690551758, + "learning_rate": 4.473333333333334e-05, + "loss": 2.1449, + "step": 79000 + }, + { + "epoch": 0.318, + "grad_norm": 3.1288318634033203, + "learning_rate": 4.47e-05, + "loss": 2.1658, + "step": 79500 + }, + { + "epoch": 0.32, + "grad_norm": 2.388526201248169, + "learning_rate": 4.466666666666667e-05, + "loss": 2.1652, + "step": 80000 + }, + { + "epoch": 0.322, + "grad_norm": 3.584243059158325, + "learning_rate": 4.463333333333334e-05, + "loss": 2.1232, + "step": 80500 + }, + { + "epoch": 0.324, + "grad_norm": 1.7563213109970093, + "learning_rate": 4.46e-05, + "loss": 2.1008, + "step": 81000 + }, + { + "epoch": 0.326, + "grad_norm": 2.9459004402160645, + "learning_rate": 4.456666666666667e-05, + "loss": 2.0999, + "step": 81500 + }, + { + "epoch": 0.328, + "grad_norm": 3.793452501296997, + "learning_rate": 4.4533333333333336e-05, + "loss": 2.0838, + "step": 82000 + }, + { + "epoch": 0.33, + "grad_norm": 3.2618210315704346, + "learning_rate": 4.4500000000000004e-05, + "loss": 2.1374, + "step": 82500 + }, + { + "epoch": 0.332, + "grad_norm": 3.7118992805480957, + "learning_rate": 4.4466666666666666e-05, + "loss": 2.0699, + "step": 83000 + }, + { + "epoch": 0.334, + "grad_norm": 3.5839309692382812, + "learning_rate": 4.443333333333334e-05, + "loss": 2.1548, + "step": 83500 + }, + { + "epoch": 0.336, + "grad_norm": 4.390428066253662, + "learning_rate": 4.44e-05, + "loss": 2.0963, + "step": 84000 + }, + { + "epoch": 0.338, + "grad_norm": 2.715428113937378, + "learning_rate": 4.436666666666667e-05, + "loss": 2.0966, + "step": 84500 + }, + { + "epoch": 0.34, + "grad_norm": 2.7761735916137695, + "learning_rate": 4.433333333333334e-05, + "loss": 2.1553, + "step": 85000 + }, + { + "epoch": 0.342, + "grad_norm": 4.191737174987793, + "learning_rate": 4.43e-05, + "loss": 2.1021, + "step": 85500 + }, + { + "epoch": 0.344, + "grad_norm": 3.5068883895874023, + "learning_rate": 4.426666666666667e-05, + "loss": 2.0895, + "step": 86000 + }, + { + "epoch": 0.346, + "grad_norm": 2.2797133922576904, + "learning_rate": 4.4233333333333336e-05, + "loss": 2.0971, + "step": 86500 + }, + { + "epoch": 0.348, + "grad_norm": 3.373415470123291, + "learning_rate": 4.4200000000000004e-05, + "loss": 2.1137, + "step": 87000 + }, + { + "epoch": 0.35, + "grad_norm": 3.57524037361145, + "learning_rate": 4.4166666666666665e-05, + "loss": 2.0742, + "step": 87500 + }, + { + "epoch": 0.352, + "grad_norm": 3.6643145084381104, + "learning_rate": 4.413333333333334e-05, + "loss": 2.1568, + "step": 88000 + }, + { + "epoch": 0.354, + "grad_norm": 3.4529213905334473, + "learning_rate": 4.41e-05, + "loss": 2.1251, + "step": 88500 + }, + { + "epoch": 0.356, + "grad_norm": 3.4587767124176025, + "learning_rate": 4.406666666666667e-05, + "loss": 2.0994, + "step": 89000 + }, + { + "epoch": 0.358, + "grad_norm": 3.905923843383789, + "learning_rate": 4.403333333333334e-05, + "loss": 2.1044, + "step": 89500 + }, + { + "epoch": 0.36, + "grad_norm": 3.8221778869628906, + "learning_rate": 4.4000000000000006e-05, + "loss": 2.0868, + "step": 90000 + }, + { + "epoch": 0.362, + "grad_norm": 3.8898580074310303, + "learning_rate": 4.396666666666667e-05, + "loss": 2.1366, + "step": 90500 + }, + { + "epoch": 0.364, + "grad_norm": 2.8539063930511475, + "learning_rate": 4.3933333333333335e-05, + "loss": 2.0988, + "step": 91000 + }, + { + "epoch": 0.366, + "grad_norm": 3.7087953090667725, + "learning_rate": 4.39e-05, + "loss": 2.0389, + "step": 91500 + }, + { + "epoch": 0.368, + "grad_norm": 4.052675247192383, + "learning_rate": 4.3866666666666665e-05, + "loss": 2.1131, + "step": 92000 + }, + { + "epoch": 0.37, + "grad_norm": 2.6268131732940674, + "learning_rate": 4.383333333333334e-05, + "loss": 2.082, + "step": 92500 + }, + { + "epoch": 0.372, + "grad_norm": 2.995457649230957, + "learning_rate": 4.38e-05, + "loss": 2.0898, + "step": 93000 + }, + { + "epoch": 0.374, + "grad_norm": 3.6384551525115967, + "learning_rate": 4.376666666666667e-05, + "loss": 2.1156, + "step": 93500 + }, + { + "epoch": 0.376, + "grad_norm": 1.7209620475769043, + "learning_rate": 4.373333333333334e-05, + "loss": 2.087, + "step": 94000 + }, + { + "epoch": 0.378, + "grad_norm": 3.265519380569458, + "learning_rate": 4.3700000000000005e-05, + "loss": 2.0531, + "step": 94500 + }, + { + "epoch": 0.38, + "grad_norm": 3.0279839038848877, + "learning_rate": 4.3666666666666666e-05, + "loss": 2.0767, + "step": 95000 + }, + { + "epoch": 0.382, + "grad_norm": 5.8288493156433105, + "learning_rate": 4.3633333333333335e-05, + "loss": 2.0825, + "step": 95500 + }, + { + "epoch": 0.384, + "grad_norm": 4.257803440093994, + "learning_rate": 4.36e-05, + "loss": 2.0819, + "step": 96000 + }, + { + "epoch": 0.386, + "grad_norm": 2.3219985961914062, + "learning_rate": 4.3566666666666664e-05, + "loss": 2.142, + "step": 96500 + }, + { + "epoch": 0.388, + "grad_norm": 3.8289096355438232, + "learning_rate": 4.353333333333334e-05, + "loss": 2.1156, + "step": 97000 + }, + { + "epoch": 0.39, + "grad_norm": 4.018870830535889, + "learning_rate": 4.35e-05, + "loss": 2.1038, + "step": 97500 + }, + { + "epoch": 0.392, + "grad_norm": 3.5996994972229004, + "learning_rate": 4.346666666666667e-05, + "loss": 2.1344, + "step": 98000 + }, + { + "epoch": 0.394, + "grad_norm": 5.009657859802246, + "learning_rate": 4.3433333333333336e-05, + "loss": 2.0643, + "step": 98500 + }, + { + "epoch": 0.396, + "grad_norm": 3.2676007747650146, + "learning_rate": 4.3400000000000005e-05, + "loss": 2.0461, + "step": 99000 + }, + { + "epoch": 0.398, + "grad_norm": 4.084861755371094, + "learning_rate": 4.3366666666666666e-05, + "loss": 2.0873, + "step": 99500 + }, + { + "epoch": 0.4, + "grad_norm": 3.0719213485717773, + "learning_rate": 4.3333333333333334e-05, + "loss": 2.0876, + "step": 100000 + }, + { + "epoch": 0.402, + "grad_norm": 4.066457748413086, + "learning_rate": 4.33e-05, + "loss": 2.1435, + "step": 100500 + }, + { + "epoch": 0.404, + "grad_norm": 3.7681031227111816, + "learning_rate": 4.3266666666666664e-05, + "loss": 2.121, + "step": 101000 + }, + { + "epoch": 0.406, + "grad_norm": 3.9134926795959473, + "learning_rate": 4.323333333333334e-05, + "loss": 2.1102, + "step": 101500 + }, + { + "epoch": 0.408, + "grad_norm": 5.633421897888184, + "learning_rate": 4.32e-05, + "loss": 2.0901, + "step": 102000 + }, + { + "epoch": 0.41, + "grad_norm": 2.6770498752593994, + "learning_rate": 4.316666666666667e-05, + "loss": 2.1348, + "step": 102500 + }, + { + "epoch": 0.412, + "grad_norm": 3.900874614715576, + "learning_rate": 4.3133333333333336e-05, + "loss": 2.0964, + "step": 103000 + }, + { + "epoch": 0.414, + "grad_norm": 7.085757255554199, + "learning_rate": 4.3100000000000004e-05, + "loss": 2.1136, + "step": 103500 + }, + { + "epoch": 0.416, + "grad_norm": 4.378531455993652, + "learning_rate": 4.3066666666666665e-05, + "loss": 2.0943, + "step": 104000 + }, + { + "epoch": 0.418, + "grad_norm": 5.20663595199585, + "learning_rate": 4.3033333333333334e-05, + "loss": 2.083, + "step": 104500 + }, + { + "epoch": 0.42, + "grad_norm": 4.048889636993408, + "learning_rate": 4.3e-05, + "loss": 2.0464, + "step": 105000 + }, + { + "epoch": 0.422, + "grad_norm": 3.5435705184936523, + "learning_rate": 4.296666666666666e-05, + "loss": 2.0341, + "step": 105500 + }, + { + "epoch": 0.424, + "grad_norm": 3.88645076751709, + "learning_rate": 4.293333333333334e-05, + "loss": 2.0686, + "step": 106000 + }, + { + "epoch": 0.426, + "grad_norm": 2.0479886531829834, + "learning_rate": 4.29e-05, + "loss": 2.0904, + "step": 106500 + }, + { + "epoch": 0.428, + "grad_norm": 3.7434587478637695, + "learning_rate": 4.286666666666667e-05, + "loss": 2.0684, + "step": 107000 + }, + { + "epoch": 0.43, + "grad_norm": 5.205404758453369, + "learning_rate": 4.2833333333333335e-05, + "loss": 2.1565, + "step": 107500 + }, + { + "epoch": 0.432, + "grad_norm": 3.417572498321533, + "learning_rate": 4.2800000000000004e-05, + "loss": 2.0853, + "step": 108000 + }, + { + "epoch": 0.434, + "grad_norm": 2.5680015087127686, + "learning_rate": 4.2766666666666665e-05, + "loss": 2.1047, + "step": 108500 + }, + { + "epoch": 0.436, + "grad_norm": 2.610365390777588, + "learning_rate": 4.273333333333333e-05, + "loss": 2.0632, + "step": 109000 + }, + { + "epoch": 0.438, + "grad_norm": 2.8608062267303467, + "learning_rate": 4.27e-05, + "loss": 2.0585, + "step": 109500 + }, + { + "epoch": 0.44, + "grad_norm": 3.0791268348693848, + "learning_rate": 4.266666666666667e-05, + "loss": 2.0507, + "step": 110000 + }, + { + "epoch": 0.442, + "grad_norm": 5.4177775382995605, + "learning_rate": 4.263333333333334e-05, + "loss": 2.0372, + "step": 110500 + }, + { + "epoch": 0.444, + "grad_norm": 5.032754898071289, + "learning_rate": 4.26e-05, + "loss": 2.0846, + "step": 111000 + }, + { + "epoch": 0.446, + "grad_norm": 4.747138023376465, + "learning_rate": 4.2566666666666674e-05, + "loss": 2.0895, + "step": 111500 + }, + { + "epoch": 0.448, + "grad_norm": 4.253020286560059, + "learning_rate": 4.2533333333333335e-05, + "loss": 2.115, + "step": 112000 + }, + { + "epoch": 0.45, + "grad_norm": 4.46184778213501, + "learning_rate": 4.25e-05, + "loss": 2.095, + "step": 112500 + }, + { + "epoch": 0.452, + "grad_norm": 3.109792470932007, + "learning_rate": 4.246666666666667e-05, + "loss": 2.1052, + "step": 113000 + }, + { + "epoch": 0.454, + "grad_norm": 7.856069087982178, + "learning_rate": 4.243333333333334e-05, + "loss": 2.0776, + "step": 113500 + }, + { + "epoch": 0.456, + "grad_norm": 3.9295754432678223, + "learning_rate": 4.24e-05, + "loss": 2.1196, + "step": 114000 + }, + { + "epoch": 0.458, + "grad_norm": 3.329394578933716, + "learning_rate": 4.236666666666667e-05, + "loss": 2.1217, + "step": 114500 + }, + { + "epoch": 0.46, + "grad_norm": 2.929871082305908, + "learning_rate": 4.233333333333334e-05, + "loss": 2.0731, + "step": 115000 + }, + { + "epoch": 0.462, + "grad_norm": 3.9470176696777344, + "learning_rate": 4.23e-05, + "loss": 2.0762, + "step": 115500 + }, + { + "epoch": 0.464, + "grad_norm": 2.9162380695343018, + "learning_rate": 4.226666666666667e-05, + "loss": 2.1109, + "step": 116000 + }, + { + "epoch": 0.466, + "grad_norm": 3.983062744140625, + "learning_rate": 4.2233333333333334e-05, + "loss": 2.0822, + "step": 116500 + }, + { + "epoch": 0.468, + "grad_norm": 4.452120780944824, + "learning_rate": 4.22e-05, + "loss": 2.0367, + "step": 117000 + }, + { + "epoch": 0.47, + "grad_norm": 3.6147115230560303, + "learning_rate": 4.216666666666667e-05, + "loss": 2.0391, + "step": 117500 + }, + { + "epoch": 0.472, + "grad_norm": 3.7301905155181885, + "learning_rate": 4.213333333333334e-05, + "loss": 2.0909, + "step": 118000 + }, + { + "epoch": 0.474, + "grad_norm": 3.6918649673461914, + "learning_rate": 4.21e-05, + "loss": 2.0537, + "step": 118500 + }, + { + "epoch": 0.476, + "grad_norm": 2.606703758239746, + "learning_rate": 4.206666666666667e-05, + "loss": 2.0796, + "step": 119000 + }, + { + "epoch": 0.478, + "grad_norm": 4.6035919189453125, + "learning_rate": 4.2033333333333336e-05, + "loss": 2.1071, + "step": 119500 + }, + { + "epoch": 0.48, + "grad_norm": 3.273329496383667, + "learning_rate": 4.2e-05, + "loss": 2.0831, + "step": 120000 + }, + { + "epoch": 0.482, + "grad_norm": 3.0302696228027344, + "learning_rate": 4.196666666666667e-05, + "loss": 2.0546, + "step": 120500 + }, + { + "epoch": 0.484, + "grad_norm": 4.3502583503723145, + "learning_rate": 4.1933333333333334e-05, + "loss": 2.0926, + "step": 121000 + }, + { + "epoch": 0.486, + "grad_norm": 4.17106294631958, + "learning_rate": 4.19e-05, + "loss": 2.1072, + "step": 121500 + }, + { + "epoch": 0.488, + "grad_norm": 3.400022029876709, + "learning_rate": 4.186666666666667e-05, + "loss": 1.9922, + "step": 122000 + }, + { + "epoch": 0.49, + "grad_norm": 9.018649101257324, + "learning_rate": 4.183333333333334e-05, + "loss": 2.1444, + "step": 122500 + }, + { + "epoch": 0.492, + "grad_norm": 6.39442253112793, + "learning_rate": 4.18e-05, + "loss": 2.0598, + "step": 123000 + }, + { + "epoch": 0.494, + "grad_norm": 3.2140920162200928, + "learning_rate": 4.176666666666667e-05, + "loss": 2.0591, + "step": 123500 + }, + { + "epoch": 0.496, + "grad_norm": 3.08949613571167, + "learning_rate": 4.1733333333333336e-05, + "loss": 2.0333, + "step": 124000 + }, + { + "epoch": 0.498, + "grad_norm": 4.796686172485352, + "learning_rate": 4.17e-05, + "loss": 2.0813, + "step": 124500 + }, + { + "epoch": 0.5, + "grad_norm": 3.2902324199676514, + "learning_rate": 4.166666666666667e-05, + "loss": 2.111, + "step": 125000 + }, + { + "epoch": 0.502, + "grad_norm": 3.1211979389190674, + "learning_rate": 4.1633333333333333e-05, + "loss": 2.1149, + "step": 125500 + }, + { + "epoch": 0.504, + "grad_norm": 3.3916032314300537, + "learning_rate": 4.16e-05, + "loss": 2.0738, + "step": 126000 + }, + { + "epoch": 0.506, + "grad_norm": 2.5486552715301514, + "learning_rate": 4.156666666666667e-05, + "loss": 2.0776, + "step": 126500 + }, + { + "epoch": 0.508, + "grad_norm": 3.1618568897247314, + "learning_rate": 4.153333333333334e-05, + "loss": 2.0995, + "step": 127000 + }, + { + "epoch": 0.51, + "grad_norm": 2.678793430328369, + "learning_rate": 4.15e-05, + "loss": 2.0531, + "step": 127500 + }, + { + "epoch": 0.512, + "grad_norm": 2.9615633487701416, + "learning_rate": 4.146666666666667e-05, + "loss": 2.0667, + "step": 128000 + }, + { + "epoch": 0.514, + "grad_norm": 3.363345146179199, + "learning_rate": 4.1433333333333335e-05, + "loss": 2.1193, + "step": 128500 + }, + { + "epoch": 0.516, + "grad_norm": 2.689866304397583, + "learning_rate": 4.14e-05, + "loss": 2.0989, + "step": 129000 + }, + { + "epoch": 0.518, + "grad_norm": 3.714822769165039, + "learning_rate": 4.136666666666667e-05, + "loss": 2.0501, + "step": 129500 + }, + { + "epoch": 0.52, + "grad_norm": 2.598795175552368, + "learning_rate": 4.133333333333333e-05, + "loss": 2.0491, + "step": 130000 + }, + { + "epoch": 0.522, + "grad_norm": 2.874335289001465, + "learning_rate": 4.13e-05, + "loss": 2.0749, + "step": 130500 + }, + { + "epoch": 0.524, + "grad_norm": 3.205214738845825, + "learning_rate": 4.126666666666667e-05, + "loss": 2.0623, + "step": 131000 + }, + { + "epoch": 0.526, + "grad_norm": 4.125555515289307, + "learning_rate": 4.123333333333334e-05, + "loss": 2.0028, + "step": 131500 + }, + { + "epoch": 0.528, + "grad_norm": 3.410125732421875, + "learning_rate": 4.12e-05, + "loss": 2.0544, + "step": 132000 + }, + { + "epoch": 0.53, + "grad_norm": 3.3796143531799316, + "learning_rate": 4.116666666666667e-05, + "loss": 2.0707, + "step": 132500 + }, + { + "epoch": 0.532, + "grad_norm": 2.917487859725952, + "learning_rate": 4.1133333333333335e-05, + "loss": 2.0796, + "step": 133000 + }, + { + "epoch": 0.534, + "grad_norm": 2.9457132816314697, + "learning_rate": 4.11e-05, + "loss": 2.0417, + "step": 133500 + }, + { + "epoch": 0.536, + "grad_norm": 3.2625885009765625, + "learning_rate": 4.106666666666667e-05, + "loss": 2.0701, + "step": 134000 + }, + { + "epoch": 0.538, + "grad_norm": 2.5929174423217773, + "learning_rate": 4.103333333333333e-05, + "loss": 2.0365, + "step": 134500 + }, + { + "epoch": 0.54, + "grad_norm": 3.7858805656433105, + "learning_rate": 4.1e-05, + "loss": 2.0688, + "step": 135000 + }, + { + "epoch": 0.542, + "grad_norm": 2.518702268600464, + "learning_rate": 4.096666666666667e-05, + "loss": 2.0347, + "step": 135500 + }, + { + "epoch": 0.544, + "grad_norm": 2.147878885269165, + "learning_rate": 4.093333333333334e-05, + "loss": 2.0907, + "step": 136000 + }, + { + "epoch": 0.546, + "grad_norm": 2.583623170852661, + "learning_rate": 4.09e-05, + "loss": 2.0574, + "step": 136500 + }, + { + "epoch": 0.548, + "grad_norm": 3.7128000259399414, + "learning_rate": 4.086666666666667e-05, + "loss": 2.0317, + "step": 137000 + }, + { + "epoch": 0.55, + "grad_norm": 3.355604410171509, + "learning_rate": 4.0833333333333334e-05, + "loss": 2.0925, + "step": 137500 + }, + { + "epoch": 0.552, + "grad_norm": 2.571455955505371, + "learning_rate": 4.08e-05, + "loss": 2.0609, + "step": 138000 + }, + { + "epoch": 0.554, + "grad_norm": 4.0345964431762695, + "learning_rate": 4.076666666666667e-05, + "loss": 2.0588, + "step": 138500 + }, + { + "epoch": 0.556, + "grad_norm": 2.335813283920288, + "learning_rate": 4.073333333333333e-05, + "loss": 2.0593, + "step": 139000 + }, + { + "epoch": 0.558, + "grad_norm": 2.635006904602051, + "learning_rate": 4.07e-05, + "loss": 2.0305, + "step": 139500 + }, + { + "epoch": 0.56, + "grad_norm": 3.2713277339935303, + "learning_rate": 4.066666666666667e-05, + "loss": 2.101, + "step": 140000 + }, + { + "epoch": 0.562, + "grad_norm": 3.0536394119262695, + "learning_rate": 4.0633333333333336e-05, + "loss": 2.0822, + "step": 140500 + }, + { + "epoch": 0.564, + "grad_norm": 2.738590955734253, + "learning_rate": 4.0600000000000004e-05, + "loss": 2.0657, + "step": 141000 + }, + { + "epoch": 0.566, + "grad_norm": 2.7430801391601562, + "learning_rate": 4.056666666666667e-05, + "loss": 2.0501, + "step": 141500 + }, + { + "epoch": 0.568, + "grad_norm": 3.0719614028930664, + "learning_rate": 4.0533333333333334e-05, + "loss": 2.0858, + "step": 142000 + }, + { + "epoch": 0.57, + "grad_norm": 3.7511579990386963, + "learning_rate": 4.05e-05, + "loss": 2.0379, + "step": 142500 + }, + { + "epoch": 0.572, + "grad_norm": 2.9549365043640137, + "learning_rate": 4.046666666666667e-05, + "loss": 2.061, + "step": 143000 + }, + { + "epoch": 0.574, + "grad_norm": 2.747694492340088, + "learning_rate": 4.043333333333333e-05, + "loss": 2.0594, + "step": 143500 + }, + { + "epoch": 0.576, + "grad_norm": 3.0523245334625244, + "learning_rate": 4.0400000000000006e-05, + "loss": 2.0242, + "step": 144000 + }, + { + "epoch": 0.578, + "grad_norm": 3.2143924236297607, + "learning_rate": 4.036666666666667e-05, + "loss": 2.0594, + "step": 144500 + }, + { + "epoch": 0.58, + "grad_norm": 3.238633394241333, + "learning_rate": 4.0333333333333336e-05, + "loss": 2.0018, + "step": 145000 + }, + { + "epoch": 0.582, + "grad_norm": 3.028563976287842, + "learning_rate": 4.0300000000000004e-05, + "loss": 2.0638, + "step": 145500 + }, + { + "epoch": 0.584, + "grad_norm": 3.076982259750366, + "learning_rate": 4.026666666666667e-05, + "loss": 2.0542, + "step": 146000 + }, + { + "epoch": 0.586, + "grad_norm": 3.362534761428833, + "learning_rate": 4.023333333333333e-05, + "loss": 2.0644, + "step": 146500 + }, + { + "epoch": 0.588, + "grad_norm": 3.74678373336792, + "learning_rate": 4.02e-05, + "loss": 2.0504, + "step": 147000 + }, + { + "epoch": 0.59, + "grad_norm": 3.791611671447754, + "learning_rate": 4.016666666666667e-05, + "loss": 2.0707, + "step": 147500 + }, + { + "epoch": 0.592, + "grad_norm": 2.929403066635132, + "learning_rate": 4.013333333333333e-05, + "loss": 2.0457, + "step": 148000 + }, + { + "epoch": 0.594, + "grad_norm": 3.552448034286499, + "learning_rate": 4.0100000000000006e-05, + "loss": 2.036, + "step": 148500 + }, + { + "epoch": 0.596, + "grad_norm": 5.283909797668457, + "learning_rate": 4.006666666666667e-05, + "loss": 2.0015, + "step": 149000 + }, + { + "epoch": 0.598, + "grad_norm": 4.07560396194458, + "learning_rate": 4.0033333333333335e-05, + "loss": 2.0624, + "step": 149500 + }, + { + "epoch": 0.6, + "grad_norm": 4.289628982543945, + "learning_rate": 4e-05, + "loss": 2.0246, + "step": 150000 + }, + { + "epoch": 0.602, + "grad_norm": 4.160073757171631, + "learning_rate": 3.996666666666667e-05, + "loss": 2.0213, + "step": 150500 + }, + { + "epoch": 0.604, + "grad_norm": 3.4908013343811035, + "learning_rate": 3.993333333333333e-05, + "loss": 2.0658, + "step": 151000 + }, + { + "epoch": 0.606, + "grad_norm": 2.9672882556915283, + "learning_rate": 3.99e-05, + "loss": 2.0558, + "step": 151500 + }, + { + "epoch": 0.608, + "grad_norm": 3.672718048095703, + "learning_rate": 3.986666666666667e-05, + "loss": 2.1092, + "step": 152000 + }, + { + "epoch": 0.61, + "grad_norm": 2.5369906425476074, + "learning_rate": 3.983333333333333e-05, + "loss": 2.0265, + "step": 152500 + }, + { + "epoch": 0.612, + "grad_norm": 2.8393161296844482, + "learning_rate": 3.9800000000000005e-05, + "loss": 2.0251, + "step": 153000 + }, + { + "epoch": 0.614, + "grad_norm": 3.6911427974700928, + "learning_rate": 3.9766666666666667e-05, + "loss": 2.1154, + "step": 153500 + }, + { + "epoch": 0.616, + "grad_norm": 4.792574405670166, + "learning_rate": 3.9733333333333335e-05, + "loss": 2.0488, + "step": 154000 + }, + { + "epoch": 0.618, + "grad_norm": 2.8738489151000977, + "learning_rate": 3.97e-05, + "loss": 2.0367, + "step": 154500 + }, + { + "epoch": 0.62, + "grad_norm": 2.669877290725708, + "learning_rate": 3.966666666666667e-05, + "loss": 2.0635, + "step": 155000 + }, + { + "epoch": 0.622, + "grad_norm": 3.7285993099212646, + "learning_rate": 3.963333333333333e-05, + "loss": 2.0624, + "step": 155500 + }, + { + "epoch": 0.624, + "grad_norm": 2.3784637451171875, + "learning_rate": 3.960000000000001e-05, + "loss": 2.0818, + "step": 156000 + }, + { + "epoch": 0.626, + "grad_norm": 3.081803560256958, + "learning_rate": 3.956666666666667e-05, + "loss": 2.088, + "step": 156500 + }, + { + "epoch": 0.628, + "grad_norm": 3.345363140106201, + "learning_rate": 3.9533333333333337e-05, + "loss": 2.0417, + "step": 157000 + }, + { + "epoch": 0.63, + "grad_norm": 3.539335012435913, + "learning_rate": 3.9500000000000005e-05, + "loss": 2.0896, + "step": 157500 + }, + { + "epoch": 0.632, + "grad_norm": 9.583149909973145, + "learning_rate": 3.9466666666666666e-05, + "loss": 2.0003, + "step": 158000 + }, + { + "epoch": 0.634, + "grad_norm": 3.890080451965332, + "learning_rate": 3.9433333333333334e-05, + "loss": 2.0148, + "step": 158500 + }, + { + "epoch": 0.636, + "grad_norm": 3.9122307300567627, + "learning_rate": 3.94e-05, + "loss": 2.0528, + "step": 159000 + }, + { + "epoch": 0.638, + "grad_norm": 3.224517345428467, + "learning_rate": 3.936666666666667e-05, + "loss": 2.0549, + "step": 159500 + }, + { + "epoch": 0.64, + "grad_norm": 3.221017837524414, + "learning_rate": 3.933333333333333e-05, + "loss": 2.006, + "step": 160000 + }, + { + "epoch": 0.642, + "grad_norm": 4.312368869781494, + "learning_rate": 3.9300000000000007e-05, + "loss": 2.0563, + "step": 160500 + }, + { + "epoch": 0.644, + "grad_norm": 4.354990005493164, + "learning_rate": 3.926666666666667e-05, + "loss": 2.0434, + "step": 161000 + }, + { + "epoch": 0.646, + "grad_norm": 3.228994607925415, + "learning_rate": 3.9233333333333336e-05, + "loss": 2.0358, + "step": 161500 + }, + { + "epoch": 0.648, + "grad_norm": 3.925718307495117, + "learning_rate": 3.9200000000000004e-05, + "loss": 2.0136, + "step": 162000 + }, + { + "epoch": 0.65, + "grad_norm": 4.197310447692871, + "learning_rate": 3.9166666666666665e-05, + "loss": 2.0355, + "step": 162500 + }, + { + "epoch": 0.652, + "grad_norm": 1.8161051273345947, + "learning_rate": 3.9133333333333334e-05, + "loss": 2.0368, + "step": 163000 + }, + { + "epoch": 0.654, + "grad_norm": 3.0000922679901123, + "learning_rate": 3.91e-05, + "loss": 2.0392, + "step": 163500 + }, + { + "epoch": 0.656, + "grad_norm": 3.431110382080078, + "learning_rate": 3.906666666666667e-05, + "loss": 2.0281, + "step": 164000 + }, + { + "epoch": 0.658, + "grad_norm": 2.8818106651306152, + "learning_rate": 3.903333333333333e-05, + "loss": 2.0448, + "step": 164500 + }, + { + "epoch": 0.66, + "grad_norm": 3.118952989578247, + "learning_rate": 3.9000000000000006e-05, + "loss": 2.0006, + "step": 165000 + }, + { + "epoch": 0.662, + "grad_norm": 2.253390073776245, + "learning_rate": 3.896666666666667e-05, + "loss": 2.0293, + "step": 165500 + }, + { + "epoch": 0.664, + "grad_norm": 2.047863483428955, + "learning_rate": 3.8933333333333336e-05, + "loss": 2.0546, + "step": 166000 + }, + { + "epoch": 0.666, + "grad_norm": 3.777038097381592, + "learning_rate": 3.8900000000000004e-05, + "loss": 2.0403, + "step": 166500 + }, + { + "epoch": 0.668, + "grad_norm": 3.8852968215942383, + "learning_rate": 3.8866666666666665e-05, + "loss": 2.0197, + "step": 167000 + }, + { + "epoch": 0.67, + "grad_norm": 3.944096326828003, + "learning_rate": 3.883333333333333e-05, + "loss": 1.9839, + "step": 167500 + }, + { + "epoch": 0.672, + "grad_norm": 3.3165063858032227, + "learning_rate": 3.88e-05, + "loss": 2.0727, + "step": 168000 + }, + { + "epoch": 0.674, + "grad_norm": 1.9157897233963013, + "learning_rate": 3.876666666666667e-05, + "loss": 2.0726, + "step": 168500 + }, + { + "epoch": 0.676, + "grad_norm": 3.022778034210205, + "learning_rate": 3.873333333333333e-05, + "loss": 2.1037, + "step": 169000 + }, + { + "epoch": 0.678, + "grad_norm": 4.450779914855957, + "learning_rate": 3.8700000000000006e-05, + "loss": 2.0933, + "step": 169500 + }, + { + "epoch": 0.68, + "grad_norm": 2.4837646484375, + "learning_rate": 3.866666666666667e-05, + "loss": 2.0606, + "step": 170000 + }, + { + "epoch": 0.682, + "grad_norm": 4.857231616973877, + "learning_rate": 3.8633333333333335e-05, + "loss": 2.0332, + "step": 170500 + }, + { + "epoch": 0.684, + "grad_norm": 2.8678693771362305, + "learning_rate": 3.86e-05, + "loss": 1.9745, + "step": 171000 + }, + { + "epoch": 0.686, + "grad_norm": 5.499651908874512, + "learning_rate": 3.8566666666666664e-05, + "loss": 2.0567, + "step": 171500 + }, + { + "epoch": 0.688, + "grad_norm": 2.0079879760742188, + "learning_rate": 3.853333333333334e-05, + "loss": 1.9684, + "step": 172000 + }, + { + "epoch": 0.69, + "grad_norm": 2.0177042484283447, + "learning_rate": 3.85e-05, + "loss": 2.1217, + "step": 172500 + }, + { + "epoch": 0.692, + "grad_norm": 5.115923881530762, + "learning_rate": 3.846666666666667e-05, + "loss": 2.0093, + "step": 173000 + }, + { + "epoch": 0.694, + "grad_norm": 3.7766571044921875, + "learning_rate": 3.843333333333334e-05, + "loss": 2.0359, + "step": 173500 + }, + { + "epoch": 0.696, + "grad_norm": 2.047942638397217, + "learning_rate": 3.8400000000000005e-05, + "loss": 2.0344, + "step": 174000 + }, + { + "epoch": 0.698, + "grad_norm": 3.307086229324341, + "learning_rate": 3.8366666666666666e-05, + "loss": 2.0404, + "step": 174500 + }, + { + "epoch": 0.7, + "grad_norm": 2.840266704559326, + "learning_rate": 3.8333333333333334e-05, + "loss": 2.0766, + "step": 175000 + }, + { + "epoch": 0.702, + "grad_norm": 3.1452879905700684, + "learning_rate": 3.83e-05, + "loss": 2.0492, + "step": 175500 + }, + { + "epoch": 0.704, + "grad_norm": 3.49600887298584, + "learning_rate": 3.8266666666666664e-05, + "loss": 2.0102, + "step": 176000 + }, + { + "epoch": 0.706, + "grad_norm": 4.95923376083374, + "learning_rate": 3.823333333333334e-05, + "loss": 2.0691, + "step": 176500 + }, + { + "epoch": 0.708, + "grad_norm": 2.7085061073303223, + "learning_rate": 3.82e-05, + "loss": 1.9888, + "step": 177000 + }, + { + "epoch": 0.71, + "grad_norm": 3.8144969940185547, + "learning_rate": 3.816666666666667e-05, + "loss": 2.0206, + "step": 177500 + }, + { + "epoch": 0.712, + "grad_norm": 4.484845161437988, + "learning_rate": 3.8133333333333336e-05, + "loss": 2.0543, + "step": 178000 + }, + { + "epoch": 0.714, + "grad_norm": 3.1691911220550537, + "learning_rate": 3.8100000000000005e-05, + "loss": 2.0377, + "step": 178500 + }, + { + "epoch": 0.716, + "grad_norm": 3.4520392417907715, + "learning_rate": 3.8066666666666666e-05, + "loss": 2.0044, + "step": 179000 + }, + { + "epoch": 0.718, + "grad_norm": 3.3601908683776855, + "learning_rate": 3.803333333333334e-05, + "loss": 2.0651, + "step": 179500 + }, + { + "epoch": 0.72, + "grad_norm": 3.411925792694092, + "learning_rate": 3.8e-05, + "loss": 2.0288, + "step": 180000 + }, + { + "epoch": 0.722, + "grad_norm": 3.8035693168640137, + "learning_rate": 3.796666666666667e-05, + "loss": 2.0361, + "step": 180500 + }, + { + "epoch": 0.724, + "grad_norm": 2.7599313259124756, + "learning_rate": 3.793333333333334e-05, + "loss": 2.0456, + "step": 181000 + }, + { + "epoch": 0.726, + "grad_norm": 2.216534376144409, + "learning_rate": 3.79e-05, + "loss": 2.0082, + "step": 181500 + }, + { + "epoch": 0.728, + "grad_norm": 3.6396164894104004, + "learning_rate": 3.786666666666667e-05, + "loss": 2.0084, + "step": 182000 + }, + { + "epoch": 0.73, + "grad_norm": 4.180398464202881, + "learning_rate": 3.7833333333333336e-05, + "loss": 2.0389, + "step": 182500 + }, + { + "epoch": 0.732, + "grad_norm": 3.7922286987304688, + "learning_rate": 3.7800000000000004e-05, + "loss": 2.0179, + "step": 183000 + }, + { + "epoch": 0.734, + "grad_norm": 2.810511827468872, + "learning_rate": 3.7766666666666665e-05, + "loss": 2.0514, + "step": 183500 + }, + { + "epoch": 0.736, + "grad_norm": 4.541322708129883, + "learning_rate": 3.773333333333334e-05, + "loss": 2.0042, + "step": 184000 + }, + { + "epoch": 0.738, + "grad_norm": 4.0907464027404785, + "learning_rate": 3.77e-05, + "loss": 2.0381, + "step": 184500 + }, + { + "epoch": 0.74, + "grad_norm": 3.044689893722534, + "learning_rate": 3.766666666666667e-05, + "loss": 1.98, + "step": 185000 + }, + { + "epoch": 0.742, + "grad_norm": 3.764763593673706, + "learning_rate": 3.763333333333334e-05, + "loss": 2.0708, + "step": 185500 + }, + { + "epoch": 0.744, + "grad_norm": 2.8387868404388428, + "learning_rate": 3.76e-05, + "loss": 2.0284, + "step": 186000 + }, + { + "epoch": 0.746, + "grad_norm": 3.0459678173065186, + "learning_rate": 3.756666666666667e-05, + "loss": 2.0759, + "step": 186500 + }, + { + "epoch": 0.748, + "grad_norm": 3.9302046298980713, + "learning_rate": 3.7533333333333335e-05, + "loss": 1.9959, + "step": 187000 + }, + { + "epoch": 0.75, + "grad_norm": 3.901703119277954, + "learning_rate": 3.7500000000000003e-05, + "loss": 2.0327, + "step": 187500 + }, + { + "epoch": 0.752, + "grad_norm": 2.5649538040161133, + "learning_rate": 3.7466666666666665e-05, + "loss": 2.0695, + "step": 188000 + }, + { + "epoch": 0.754, + "grad_norm": 3.121854066848755, + "learning_rate": 3.743333333333334e-05, + "loss": 2.005, + "step": 188500 + }, + { + "epoch": 0.756, + "grad_norm": 3.9959986209869385, + "learning_rate": 3.74e-05, + "loss": 1.9709, + "step": 189000 + }, + { + "epoch": 0.758, + "grad_norm": 2.3672749996185303, + "learning_rate": 3.736666666666667e-05, + "loss": 2.017, + "step": 189500 + }, + { + "epoch": 0.76, + "grad_norm": 2.247828483581543, + "learning_rate": 3.733333333333334e-05, + "loss": 2.0144, + "step": 190000 + }, + { + "epoch": 0.762, + "grad_norm": 3.7833261489868164, + "learning_rate": 3.73e-05, + "loss": 2.0452, + "step": 190500 + }, + { + "epoch": 0.764, + "grad_norm": 2.969160795211792, + "learning_rate": 3.726666666666667e-05, + "loss": 2.072, + "step": 191000 + }, + { + "epoch": 0.766, + "grad_norm": 3.3136720657348633, + "learning_rate": 3.7233333333333335e-05, + "loss": 2.0299, + "step": 191500 + }, + { + "epoch": 0.768, + "grad_norm": 3.0349690914154053, + "learning_rate": 3.72e-05, + "loss": 2.0142, + "step": 192000 + }, + { + "epoch": 0.77, + "grad_norm": 3.991732597351074, + "learning_rate": 3.7166666666666664e-05, + "loss": 2.0271, + "step": 192500 + }, + { + "epoch": 0.772, + "grad_norm": 9.109725952148438, + "learning_rate": 3.713333333333334e-05, + "loss": 2.0119, + "step": 193000 + }, + { + "epoch": 0.774, + "grad_norm": 3.485161542892456, + "learning_rate": 3.71e-05, + "loss": 2.0165, + "step": 193500 + }, + { + "epoch": 0.776, + "grad_norm": 2.7301113605499268, + "learning_rate": 3.706666666666667e-05, + "loss": 2.0534, + "step": 194000 + }, + { + "epoch": 0.778, + "grad_norm": 3.1116385459899902, + "learning_rate": 3.703333333333334e-05, + "loss": 2.0406, + "step": 194500 + }, + { + "epoch": 0.78, + "grad_norm": 3.623192071914673, + "learning_rate": 3.7e-05, + "loss": 2.0708, + "step": 195000 + }, + { + "epoch": 0.782, + "grad_norm": 2.810889720916748, + "learning_rate": 3.6966666666666666e-05, + "loss": 2.0517, + "step": 195500 + }, + { + "epoch": 0.784, + "grad_norm": 3.8478283882141113, + "learning_rate": 3.6933333333333334e-05, + "loss": 2.0147, + "step": 196000 + }, + { + "epoch": 0.786, + "grad_norm": 3.1300742626190186, + "learning_rate": 3.69e-05, + "loss": 2.0125, + "step": 196500 + }, + { + "epoch": 0.788, + "grad_norm": 5.76196813583374, + "learning_rate": 3.6866666666666664e-05, + "loss": 2.0579, + "step": 197000 + }, + { + "epoch": 0.79, + "grad_norm": 3.5048184394836426, + "learning_rate": 3.683333333333334e-05, + "loss": 2.0092, + "step": 197500 + }, + { + "epoch": 0.792, + "grad_norm": 2.922041177749634, + "learning_rate": 3.68e-05, + "loss": 2.0052, + "step": 198000 + }, + { + "epoch": 0.794, + "grad_norm": 2.5056612491607666, + "learning_rate": 3.676666666666667e-05, + "loss": 2.0202, + "step": 198500 + }, + { + "epoch": 0.796, + "grad_norm": 3.1135616302490234, + "learning_rate": 3.6733333333333336e-05, + "loss": 2.0354, + "step": 199000 + }, + { + "epoch": 0.798, + "grad_norm": 4.489212989807129, + "learning_rate": 3.6700000000000004e-05, + "loss": 1.9958, + "step": 199500 + }, + { + "epoch": 0.8, + "grad_norm": 3.027749538421631, + "learning_rate": 3.6666666666666666e-05, + "loss": 2.0489, + "step": 200000 + }, + { + "epoch": 0.802, + "grad_norm": 4.058797836303711, + "learning_rate": 3.6633333333333334e-05, + "loss": 2.0437, + "step": 200500 + }, + { + "epoch": 0.804, + "grad_norm": 2.8988873958587646, + "learning_rate": 3.66e-05, + "loss": 2.021, + "step": 201000 + }, + { + "epoch": 0.806, + "grad_norm": 3.1798198223114014, + "learning_rate": 3.656666666666666e-05, + "loss": 1.969, + "step": 201500 + }, + { + "epoch": 0.808, + "grad_norm": 2.8060543537139893, + "learning_rate": 3.653333333333334e-05, + "loss": 2.0367, + "step": 202000 + }, + { + "epoch": 0.81, + "grad_norm": 4.770681381225586, + "learning_rate": 3.65e-05, + "loss": 2.0055, + "step": 202500 + }, + { + "epoch": 0.812, + "grad_norm": 4.299195289611816, + "learning_rate": 3.646666666666667e-05, + "loss": 2.0018, + "step": 203000 + }, + { + "epoch": 0.814, + "grad_norm": 2.6850523948669434, + "learning_rate": 3.6433333333333336e-05, + "loss": 2.0712, + "step": 203500 + }, + { + "epoch": 0.816, + "grad_norm": 5.222832679748535, + "learning_rate": 3.6400000000000004e-05, + "loss": 1.9887, + "step": 204000 + }, + { + "epoch": 0.818, + "grad_norm": 1.5856728553771973, + "learning_rate": 3.636666666666667e-05, + "loss": 1.985, + "step": 204500 + }, + { + "epoch": 0.82, + "grad_norm": 2.768526554107666, + "learning_rate": 3.633333333333333e-05, + "loss": 2.0219, + "step": 205000 + }, + { + "epoch": 0.822, + "grad_norm": 3.7961578369140625, + "learning_rate": 3.63e-05, + "loss": 1.9997, + "step": 205500 + }, + { + "epoch": 0.824, + "grad_norm": 4.291576385498047, + "learning_rate": 3.626666666666667e-05, + "loss": 2.0073, + "step": 206000 + }, + { + "epoch": 0.826, + "grad_norm": 3.5727875232696533, + "learning_rate": 3.623333333333334e-05, + "loss": 2.0515, + "step": 206500 + }, + { + "epoch": 0.828, + "grad_norm": 2.564605236053467, + "learning_rate": 3.62e-05, + "loss": 1.98, + "step": 207000 + }, + { + "epoch": 0.83, + "grad_norm": 6.970737934112549, + "learning_rate": 3.6166666666666674e-05, + "loss": 1.9978, + "step": 207500 + }, + { + "epoch": 0.832, + "grad_norm": 4.531256675720215, + "learning_rate": 3.6133333333333335e-05, + "loss": 2.0149, + "step": 208000 + }, + { + "epoch": 0.834, + "grad_norm": 3.8876969814300537, + "learning_rate": 3.61e-05, + "loss": 2.0041, + "step": 208500 + }, + { + "epoch": 0.836, + "grad_norm": 2.57814359664917, + "learning_rate": 3.606666666666667e-05, + "loss": 2.0239, + "step": 209000 + }, + { + "epoch": 0.838, + "grad_norm": 4.07957649230957, + "learning_rate": 3.603333333333333e-05, + "loss": 1.9832, + "step": 209500 + }, + { + "epoch": 0.84, + "grad_norm": 3.2439143657684326, + "learning_rate": 3.6e-05, + "loss": 2.0308, + "step": 210000 + }, + { + "epoch": 0.842, + "grad_norm": 3.726674795150757, + "learning_rate": 3.596666666666667e-05, + "loss": 2.0384, + "step": 210500 + }, + { + "epoch": 0.844, + "grad_norm": 4.029228687286377, + "learning_rate": 3.593333333333334e-05, + "loss": 2.0201, + "step": 211000 + }, + { + "epoch": 0.846, + "grad_norm": 3.6475327014923096, + "learning_rate": 3.59e-05, + "loss": 2.0273, + "step": 211500 + }, + { + "epoch": 0.848, + "grad_norm": 3.280093193054199, + "learning_rate": 3.586666666666667e-05, + "loss": 2.0265, + "step": 212000 + }, + { + "epoch": 0.85, + "grad_norm": 3.7539923191070557, + "learning_rate": 3.5833333333333335e-05, + "loss": 1.9668, + "step": 212500 + }, + { + "epoch": 0.852, + "grad_norm": 2.8362836837768555, + "learning_rate": 3.58e-05, + "loss": 2.0024, + "step": 213000 + }, + { + "epoch": 0.854, + "grad_norm": 2.5496578216552734, + "learning_rate": 3.576666666666667e-05, + "loss": 2.0336, + "step": 213500 + }, + { + "epoch": 0.856, + "grad_norm": 2.3501594066619873, + "learning_rate": 3.573333333333333e-05, + "loss": 1.9949, + "step": 214000 + }, + { + "epoch": 0.858, + "grad_norm": 3.0411014556884766, + "learning_rate": 3.57e-05, + "loss": 2.0541, + "step": 214500 + }, + { + "epoch": 0.86, + "grad_norm": 2.0441277027130127, + "learning_rate": 3.566666666666667e-05, + "loss": 1.9775, + "step": 215000 + }, + { + "epoch": 0.862, + "grad_norm": 3.871142864227295, + "learning_rate": 3.563333333333334e-05, + "loss": 2.0222, + "step": 215500 + }, + { + "epoch": 0.864, + "grad_norm": 4.2942681312561035, + "learning_rate": 3.56e-05, + "loss": 2.0236, + "step": 216000 + }, + { + "epoch": 0.866, + "grad_norm": 2.8449583053588867, + "learning_rate": 3.556666666666667e-05, + "loss": 1.9874, + "step": 216500 + }, + { + "epoch": 0.868, + "grad_norm": 2.9076645374298096, + "learning_rate": 3.5533333333333334e-05, + "loss": 2.0187, + "step": 217000 + }, + { + "epoch": 0.87, + "grad_norm": 2.323218584060669, + "learning_rate": 3.55e-05, + "loss": 1.9891, + "step": 217500 + }, + { + "epoch": 0.872, + "grad_norm": 4.182117938995361, + "learning_rate": 3.546666666666667e-05, + "loss": 2.0188, + "step": 218000 + }, + { + "epoch": 0.874, + "grad_norm": 2.033358573913574, + "learning_rate": 3.543333333333333e-05, + "loss": 1.9769, + "step": 218500 + }, + { + "epoch": 0.876, + "grad_norm": 2.572456121444702, + "learning_rate": 3.54e-05, + "loss": 2.0148, + "step": 219000 + }, + { + "epoch": 0.878, + "grad_norm": 3.266324520111084, + "learning_rate": 3.536666666666667e-05, + "loss": 2.005, + "step": 219500 + }, + { + "epoch": 0.88, + "grad_norm": 4.314316272735596, + "learning_rate": 3.5333333333333336e-05, + "loss": 2.0426, + "step": 220000 + }, + { + "epoch": 0.882, + "grad_norm": 3.1086277961730957, + "learning_rate": 3.53e-05, + "loss": 2.039, + "step": 220500 + }, + { + "epoch": 0.884, + "grad_norm": 2.5646815299987793, + "learning_rate": 3.526666666666667e-05, + "loss": 2.005, + "step": 221000 + }, + { + "epoch": 0.886, + "grad_norm": 3.548635721206665, + "learning_rate": 3.5233333333333334e-05, + "loss": 1.9444, + "step": 221500 + }, + { + "epoch": 0.888, + "grad_norm": 3.8797554969787598, + "learning_rate": 3.52e-05, + "loss": 1.9985, + "step": 222000 + }, + { + "epoch": 0.89, + "grad_norm": 5.387217998504639, + "learning_rate": 3.516666666666667e-05, + "loss": 2.0176, + "step": 222500 + }, + { + "epoch": 0.892, + "grad_norm": 2.7053544521331787, + "learning_rate": 3.513333333333334e-05, + "loss": 2.0576, + "step": 223000 + }, + { + "epoch": 0.894, + "grad_norm": 3.1920294761657715, + "learning_rate": 3.51e-05, + "loss": 2.0648, + "step": 223500 + }, + { + "epoch": 0.896, + "grad_norm": 3.1956534385681152, + "learning_rate": 3.506666666666667e-05, + "loss": 1.9883, + "step": 224000 + }, + { + "epoch": 0.898, + "grad_norm": 5.129436492919922, + "learning_rate": 3.5033333333333336e-05, + "loss": 2.0399, + "step": 224500 + }, + { + "epoch": 0.9, + "grad_norm": 3.581359624862671, + "learning_rate": 3.5e-05, + "loss": 2.0282, + "step": 225000 + }, + { + "epoch": 0.902, + "grad_norm": 5.721236705780029, + "learning_rate": 3.496666666666667e-05, + "loss": 1.9926, + "step": 225500 + }, + { + "epoch": 0.904, + "grad_norm": 3.101463794708252, + "learning_rate": 3.493333333333333e-05, + "loss": 2.0188, + "step": 226000 + }, + { + "epoch": 0.906, + "grad_norm": 4.087904930114746, + "learning_rate": 3.49e-05, + "loss": 2.0416, + "step": 226500 + }, + { + "epoch": 0.908, + "grad_norm": 3.628141403198242, + "learning_rate": 3.486666666666667e-05, + "loss": 2.0289, + "step": 227000 + }, + { + "epoch": 0.91, + "grad_norm": 2.313952922821045, + "learning_rate": 3.483333333333334e-05, + "loss": 2.0119, + "step": 227500 + }, + { + "epoch": 0.912, + "grad_norm": 3.634509801864624, + "learning_rate": 3.48e-05, + "loss": 2.0395, + "step": 228000 + }, + { + "epoch": 0.914, + "grad_norm": 4.622471332550049, + "learning_rate": 3.476666666666667e-05, + "loss": 2.0134, + "step": 228500 + }, + { + "epoch": 0.916, + "grad_norm": 3.440319538116455, + "learning_rate": 3.4733333333333335e-05, + "loss": 2.0852, + "step": 229000 + }, + { + "epoch": 0.918, + "grad_norm": 2.6960558891296387, + "learning_rate": 3.4699999999999996e-05, + "loss": 2.0298, + "step": 229500 + }, + { + "epoch": 0.92, + "grad_norm": 1.829918622970581, + "learning_rate": 3.466666666666667e-05, + "loss": 1.9915, + "step": 230000 + }, + { + "epoch": 0.922, + "grad_norm": 3.5196449756622314, + "learning_rate": 3.463333333333333e-05, + "loss": 1.982, + "step": 230500 + }, + { + "epoch": 0.924, + "grad_norm": 2.8546199798583984, + "learning_rate": 3.46e-05, + "loss": 2.0097, + "step": 231000 + }, + { + "epoch": 0.926, + "grad_norm": 2.301971197128296, + "learning_rate": 3.456666666666667e-05, + "loss": 2.0415, + "step": 231500 + }, + { + "epoch": 0.928, + "grad_norm": 3.687763214111328, + "learning_rate": 3.453333333333334e-05, + "loss": 1.9564, + "step": 232000 + }, + { + "epoch": 0.93, + "grad_norm": 3.731511354446411, + "learning_rate": 3.45e-05, + "loss": 2.0516, + "step": 232500 + }, + { + "epoch": 0.932, + "grad_norm": 4.483029365539551, + "learning_rate": 3.4466666666666666e-05, + "loss": 2.0385, + "step": 233000 + }, + { + "epoch": 0.934, + "grad_norm": 3.008272409439087, + "learning_rate": 3.4433333333333335e-05, + "loss": 2.034, + "step": 233500 + }, + { + "epoch": 0.936, + "grad_norm": 2.278749942779541, + "learning_rate": 3.4399999999999996e-05, + "loss": 1.9857, + "step": 234000 + }, + { + "epoch": 0.938, + "grad_norm": 2.739610195159912, + "learning_rate": 3.436666666666667e-05, + "loss": 1.9976, + "step": 234500 + }, + { + "epoch": 0.94, + "grad_norm": 3.2660326957702637, + "learning_rate": 3.433333333333333e-05, + "loss": 2.0563, + "step": 235000 + }, + { + "epoch": 0.942, + "grad_norm": 3.092320203781128, + "learning_rate": 3.430000000000001e-05, + "loss": 2.0053, + "step": 235500 + }, + { + "epoch": 0.944, + "grad_norm": 2.2529335021972656, + "learning_rate": 3.426666666666667e-05, + "loss": 2.0104, + "step": 236000 + }, + { + "epoch": 0.946, + "grad_norm": 2.7059290409088135, + "learning_rate": 3.4233333333333336e-05, + "loss": 1.9848, + "step": 236500 + }, + { + "epoch": 0.948, + "grad_norm": 2.823878526687622, + "learning_rate": 3.4200000000000005e-05, + "loss": 2.0381, + "step": 237000 + }, + { + "epoch": 0.95, + "grad_norm": 4.369820594787598, + "learning_rate": 3.4166666666666666e-05, + "loss": 1.9899, + "step": 237500 + }, + { + "epoch": 0.952, + "grad_norm": 4.533642292022705, + "learning_rate": 3.4133333333333334e-05, + "loss": 2.0017, + "step": 238000 + }, + { + "epoch": 0.954, + "grad_norm": 3.950101375579834, + "learning_rate": 3.41e-05, + "loss": 1.9672, + "step": 238500 + }, + { + "epoch": 0.956, + "grad_norm": 2.77771258354187, + "learning_rate": 3.406666666666667e-05, + "loss": 1.992, + "step": 239000 + }, + { + "epoch": 0.958, + "grad_norm": 2.934579849243164, + "learning_rate": 3.403333333333333e-05, + "loss": 2.0151, + "step": 239500 + }, + { + "epoch": 0.96, + "grad_norm": 3.074580430984497, + "learning_rate": 3.4000000000000007e-05, + "loss": 2.0646, + "step": 240000 + }, + { + "epoch": 0.962, + "grad_norm": 2.964944362640381, + "learning_rate": 3.396666666666667e-05, + "loss": 1.9509, + "step": 240500 + }, + { + "epoch": 0.964, + "grad_norm": 4.4962687492370605, + "learning_rate": 3.3933333333333336e-05, + "loss": 1.9964, + "step": 241000 + }, + { + "epoch": 0.966, + "grad_norm": 4.716154098510742, + "learning_rate": 3.3900000000000004e-05, + "loss": 1.9935, + "step": 241500 + }, + { + "epoch": 0.968, + "grad_norm": 4.54582405090332, + "learning_rate": 3.3866666666666665e-05, + "loss": 2.0571, + "step": 242000 + }, + { + "epoch": 0.97, + "grad_norm": 2.189838409423828, + "learning_rate": 3.3833333333333334e-05, + "loss": 1.9956, + "step": 242500 + }, + { + "epoch": 0.972, + "grad_norm": 5.158834457397461, + "learning_rate": 3.38e-05, + "loss": 2.045, + "step": 243000 + }, + { + "epoch": 0.974, + "grad_norm": 3.4111690521240234, + "learning_rate": 3.376666666666667e-05, + "loss": 2.0074, + "step": 243500 + }, + { + "epoch": 0.976, + "grad_norm": 2.365373373031616, + "learning_rate": 3.373333333333333e-05, + "loss": 1.973, + "step": 244000 + }, + { + "epoch": 0.978, + "grad_norm": 3.524280548095703, + "learning_rate": 3.3700000000000006e-05, + "loss": 2.0566, + "step": 244500 + }, + { + "epoch": 0.98, + "grad_norm": 2.8778977394104004, + "learning_rate": 3.366666666666667e-05, + "loss": 1.9827, + "step": 245000 + }, + { + "epoch": 0.982, + "grad_norm": 3.2189018726348877, + "learning_rate": 3.3633333333333335e-05, + "loss": 1.9813, + "step": 245500 + }, + { + "epoch": 0.984, + "grad_norm": 2.961458921432495, + "learning_rate": 3.3600000000000004e-05, + "loss": 1.9986, + "step": 246000 + }, + { + "epoch": 0.986, + "grad_norm": 2.770312786102295, + "learning_rate": 3.356666666666667e-05, + "loss": 1.9991, + "step": 246500 + }, + { + "epoch": 0.988, + "grad_norm": 4.443371295928955, + "learning_rate": 3.353333333333333e-05, + "loss": 1.9913, + "step": 247000 + }, + { + "epoch": 0.99, + "grad_norm": 2.6619489192962646, + "learning_rate": 3.35e-05, + "loss": 1.9642, + "step": 247500 + }, + { + "epoch": 0.992, + "grad_norm": 5.80720853805542, + "learning_rate": 3.346666666666667e-05, + "loss": 1.9737, + "step": 248000 + }, + { + "epoch": 0.994, + "grad_norm": 1.39483642578125, + "learning_rate": 3.343333333333333e-05, + "loss": 2.0171, + "step": 248500 + }, + { + "epoch": 0.996, + "grad_norm": 2.9843904972076416, + "learning_rate": 3.3400000000000005e-05, + "loss": 1.9704, + "step": 249000 + }, + { + "epoch": 0.998, + "grad_norm": 1.9182007312774658, + "learning_rate": 3.336666666666667e-05, + "loss": 2.0012, + "step": 249500 + }, + { + "epoch": 1.0, + "grad_norm": 3.832106113433838, + "learning_rate": 3.3333333333333335e-05, + "loss": 1.959, + "step": 250000 + }, + { + "epoch": 1.002, + "grad_norm": 3.529172658920288, + "learning_rate": 3.33e-05, + "loss": 1.9519, + "step": 250500 + }, + { + "epoch": 1.004, + "grad_norm": 3.227151870727539, + "learning_rate": 3.326666666666667e-05, + "loss": 2.0104, + "step": 251000 + }, + { + "epoch": 1.006, + "grad_norm": 4.671088695526123, + "learning_rate": 3.323333333333333e-05, + "loss": 1.9652, + "step": 251500 + }, + { + "epoch": 1.008, + "grad_norm": 5.364327907562256, + "learning_rate": 3.32e-05, + "loss": 1.9155, + "step": 252000 + }, + { + "epoch": 1.01, + "grad_norm": 5.8365797996521, + "learning_rate": 3.316666666666667e-05, + "loss": 1.9725, + "step": 252500 + }, + { + "epoch": 1.012, + "grad_norm": 3.8017468452453613, + "learning_rate": 3.313333333333333e-05, + "loss": 2.0161, + "step": 253000 + }, + { + "epoch": 1.014, + "grad_norm": 2.7072255611419678, + "learning_rate": 3.3100000000000005e-05, + "loss": 1.9622, + "step": 253500 + }, + { + "epoch": 1.016, + "grad_norm": 4.904727458953857, + "learning_rate": 3.3066666666666666e-05, + "loss": 1.9632, + "step": 254000 + }, + { + "epoch": 1.018, + "grad_norm": 4.010406970977783, + "learning_rate": 3.3033333333333334e-05, + "loss": 1.9613, + "step": 254500 + }, + { + "epoch": 1.02, + "grad_norm": 3.1618449687957764, + "learning_rate": 3.3e-05, + "loss": 1.98, + "step": 255000 + }, + { + "epoch": 1.022, + "grad_norm": 3.0833239555358887, + "learning_rate": 3.296666666666667e-05, + "loss": 1.9708, + "step": 255500 + }, + { + "epoch": 1.024, + "grad_norm": 3.199995756149292, + "learning_rate": 3.293333333333333e-05, + "loss": 1.9723, + "step": 256000 + }, + { + "epoch": 1.026, + "grad_norm": 3.322235584259033, + "learning_rate": 3.29e-05, + "loss": 1.9792, + "step": 256500 + }, + { + "epoch": 1.028, + "grad_norm": 2.7396552562713623, + "learning_rate": 3.286666666666667e-05, + "loss": 1.951, + "step": 257000 + }, + { + "epoch": 1.03, + "grad_norm": 3.056389093399048, + "learning_rate": 3.283333333333333e-05, + "loss": 1.9421, + "step": 257500 + }, + { + "epoch": 1.032, + "grad_norm": 2.7470860481262207, + "learning_rate": 3.2800000000000004e-05, + "loss": 1.9245, + "step": 258000 + }, + { + "epoch": 1.034, + "grad_norm": 2.7722136974334717, + "learning_rate": 3.2766666666666666e-05, + "loss": 1.9622, + "step": 258500 + }, + { + "epoch": 1.036, + "grad_norm": 4.122127056121826, + "learning_rate": 3.2733333333333334e-05, + "loss": 1.9326, + "step": 259000 + }, + { + "epoch": 1.038, + "grad_norm": 2.4798827171325684, + "learning_rate": 3.27e-05, + "loss": 1.9907, + "step": 259500 + }, + { + "epoch": 1.04, + "grad_norm": 3.258105754852295, + "learning_rate": 3.266666666666667e-05, + "loss": 1.937, + "step": 260000 + }, + { + "epoch": 1.042, + "grad_norm": 3.6283533573150635, + "learning_rate": 3.263333333333333e-05, + "loss": 2.0038, + "step": 260500 + }, + { + "epoch": 1.044, + "grad_norm": 3.2314536571502686, + "learning_rate": 3.26e-05, + "loss": 2.0125, + "step": 261000 + }, + { + "epoch": 1.046, + "grad_norm": 3.685002088546753, + "learning_rate": 3.256666666666667e-05, + "loss": 1.9459, + "step": 261500 + }, + { + "epoch": 1.048, + "grad_norm": 3.896249294281006, + "learning_rate": 3.253333333333333e-05, + "loss": 1.9259, + "step": 262000 + }, + { + "epoch": 1.05, + "grad_norm": 3.727299690246582, + "learning_rate": 3.2500000000000004e-05, + "loss": 1.9916, + "step": 262500 + }, + { + "epoch": 1.052, + "grad_norm": 3.4076099395751953, + "learning_rate": 3.2466666666666665e-05, + "loss": 1.9669, + "step": 263000 + }, + { + "epoch": 1.054, + "grad_norm": 4.583504676818848, + "learning_rate": 3.243333333333333e-05, + "loss": 1.9998, + "step": 263500 + }, + { + "epoch": 1.056, + "grad_norm": 3.0935134887695312, + "learning_rate": 3.24e-05, + "loss": 1.9161, + "step": 264000 + }, + { + "epoch": 1.058, + "grad_norm": 3.6007726192474365, + "learning_rate": 3.236666666666667e-05, + "loss": 1.9494, + "step": 264500 + }, + { + "epoch": 1.06, + "grad_norm": 3.0946245193481445, + "learning_rate": 3.233333333333333e-05, + "loss": 1.9526, + "step": 265000 + }, + { + "epoch": 1.062, + "grad_norm": 2.779569149017334, + "learning_rate": 3.2300000000000006e-05, + "loss": 1.9854, + "step": 265500 + }, + { + "epoch": 1.064, + "grad_norm": 3.2395145893096924, + "learning_rate": 3.226666666666667e-05, + "loss": 2.0255, + "step": 266000 + }, + { + "epoch": 1.066, + "grad_norm": 3.470747470855713, + "learning_rate": 3.2233333333333335e-05, + "loss": 1.9302, + "step": 266500 + }, + { + "epoch": 1.068, + "grad_norm": 2.9939773082733154, + "learning_rate": 3.2200000000000003e-05, + "loss": 1.9791, + "step": 267000 + }, + { + "epoch": 1.07, + "grad_norm": 3.405712127685547, + "learning_rate": 3.2166666666666665e-05, + "loss": 1.9445, + "step": 267500 + }, + { + "epoch": 1.072, + "grad_norm": 3.3660807609558105, + "learning_rate": 3.213333333333334e-05, + "loss": 1.9239, + "step": 268000 + }, + { + "epoch": 1.074, + "grad_norm": 3.351008176803589, + "learning_rate": 3.21e-05, + "loss": 1.965, + "step": 268500 + }, + { + "epoch": 1.076, + "grad_norm": 2.93300724029541, + "learning_rate": 3.206666666666667e-05, + "loss": 1.9289, + "step": 269000 + }, + { + "epoch": 1.078, + "grad_norm": 3.768631935119629, + "learning_rate": 3.203333333333334e-05, + "loss": 1.9255, + "step": 269500 + }, + { + "epoch": 1.08, + "grad_norm": 2.7596116065979004, + "learning_rate": 3.2000000000000005e-05, + "loss": 1.9067, + "step": 270000 + }, + { + "epoch": 1.082, + "grad_norm": 3.4423370361328125, + "learning_rate": 3.196666666666667e-05, + "loss": 2.0037, + "step": 270500 + }, + { + "epoch": 1.084, + "grad_norm": 3.480097532272339, + "learning_rate": 3.1933333333333335e-05, + "loss": 1.964, + "step": 271000 + }, + { + "epoch": 1.086, + "grad_norm": 2.8090388774871826, + "learning_rate": 3.19e-05, + "loss": 1.9531, + "step": 271500 + }, + { + "epoch": 1.088, + "grad_norm": 1.4494075775146484, + "learning_rate": 3.1866666666666664e-05, + "loss": 1.9398, + "step": 272000 + }, + { + "epoch": 1.09, + "grad_norm": 7.362401962280273, + "learning_rate": 3.183333333333334e-05, + "loss": 1.9683, + "step": 272500 + }, + { + "epoch": 1.092, + "grad_norm": 3.100543737411499, + "learning_rate": 3.18e-05, + "loss": 1.9526, + "step": 273000 + }, + { + "epoch": 1.094, + "grad_norm": 2.027784824371338, + "learning_rate": 3.176666666666667e-05, + "loss": 1.9208, + "step": 273500 + }, + { + "epoch": 1.096, + "grad_norm": 3.464214324951172, + "learning_rate": 3.173333333333334e-05, + "loss": 2.0073, + "step": 274000 + }, + { + "epoch": 1.098, + "grad_norm": 2.7647407054901123, + "learning_rate": 3.1700000000000005e-05, + "loss": 1.9478, + "step": 274500 + }, + { + "epoch": 1.1, + "grad_norm": 3.710768222808838, + "learning_rate": 3.1666666666666666e-05, + "loss": 1.9895, + "step": 275000 + }, + { + "epoch": 1.102, + "grad_norm": 5.687117099761963, + "learning_rate": 3.1633333333333334e-05, + "loss": 1.9889, + "step": 275500 + }, + { + "epoch": 1.104, + "grad_norm": 3.2564468383789062, + "learning_rate": 3.16e-05, + "loss": 1.9725, + "step": 276000 + }, + { + "epoch": 1.106, + "grad_norm": 3.0401391983032227, + "learning_rate": 3.1566666666666664e-05, + "loss": 1.9839, + "step": 276500 + }, + { + "epoch": 1.108, + "grad_norm": 3.5967485904693604, + "learning_rate": 3.153333333333334e-05, + "loss": 1.9638, + "step": 277000 + }, + { + "epoch": 1.11, + "grad_norm": 3.5948970317840576, + "learning_rate": 3.15e-05, + "loss": 1.9547, + "step": 277500 + }, + { + "epoch": 1.112, + "grad_norm": 2.420476198196411, + "learning_rate": 3.146666666666667e-05, + "loss": 1.9521, + "step": 278000 + }, + { + "epoch": 1.114, + "grad_norm": 2.943868398666382, + "learning_rate": 3.1433333333333336e-05, + "loss": 1.95, + "step": 278500 + }, + { + "epoch": 1.116, + "grad_norm": 3.260451555252075, + "learning_rate": 3.1400000000000004e-05, + "loss": 1.9483, + "step": 279000 + }, + { + "epoch": 1.1179999999999999, + "grad_norm": 4.045527935028076, + "learning_rate": 3.1366666666666666e-05, + "loss": 1.971, + "step": 279500 + }, + { + "epoch": 1.12, + "grad_norm": 3.394606351852417, + "learning_rate": 3.1333333333333334e-05, + "loss": 1.9192, + "step": 280000 + }, + { + "epoch": 1.1219999999999999, + "grad_norm": 3.6779961585998535, + "learning_rate": 3.13e-05, + "loss": 1.966, + "step": 280500 + }, + { + "epoch": 1.124, + "grad_norm": 2.4559202194213867, + "learning_rate": 3.126666666666666e-05, + "loss": 1.9586, + "step": 281000 + }, + { + "epoch": 1.126, + "grad_norm": 3.6582748889923096, + "learning_rate": 3.123333333333334e-05, + "loss": 1.9806, + "step": 281500 + }, + { + "epoch": 1.1280000000000001, + "grad_norm": 4.684147357940674, + "learning_rate": 3.12e-05, + "loss": 1.9257, + "step": 282000 + }, + { + "epoch": 1.13, + "grad_norm": 3.2761385440826416, + "learning_rate": 3.116666666666667e-05, + "loss": 1.9436, + "step": 282500 + }, + { + "epoch": 1.1320000000000001, + "grad_norm": 3.5441782474517822, + "learning_rate": 3.1133333333333336e-05, + "loss": 1.9869, + "step": 283000 + }, + { + "epoch": 1.134, + "grad_norm": 3.5346860885620117, + "learning_rate": 3.1100000000000004e-05, + "loss": 1.9372, + "step": 283500 + }, + { + "epoch": 1.1360000000000001, + "grad_norm": 2.440453290939331, + "learning_rate": 3.1066666666666665e-05, + "loss": 1.9658, + "step": 284000 + }, + { + "epoch": 1.138, + "grad_norm": 5.322811603546143, + "learning_rate": 3.103333333333333e-05, + "loss": 1.9713, + "step": 284500 + }, + { + "epoch": 1.1400000000000001, + "grad_norm": 2.808006763458252, + "learning_rate": 3.1e-05, + "loss": 1.9839, + "step": 285000 + }, + { + "epoch": 1.142, + "grad_norm": 2.8712430000305176, + "learning_rate": 3.096666666666666e-05, + "loss": 1.9384, + "step": 285500 + }, + { + "epoch": 1.144, + "grad_norm": 3.9947776794433594, + "learning_rate": 3.093333333333334e-05, + "loss": 1.944, + "step": 286000 + }, + { + "epoch": 1.146, + "grad_norm": 4.884302616119385, + "learning_rate": 3.09e-05, + "loss": 1.9763, + "step": 286500 + }, + { + "epoch": 1.148, + "grad_norm": 3.3440279960632324, + "learning_rate": 3.086666666666667e-05, + "loss": 1.9307, + "step": 287000 + }, + { + "epoch": 1.15, + "grad_norm": 2.6648025512695312, + "learning_rate": 3.0833333333333335e-05, + "loss": 2.0214, + "step": 287500 + }, + { + "epoch": 1.152, + "grad_norm": 4.617626190185547, + "learning_rate": 3.08e-05, + "loss": 1.9456, + "step": 288000 + }, + { + "epoch": 1.154, + "grad_norm": 3.55499529838562, + "learning_rate": 3.0766666666666665e-05, + "loss": 1.9803, + "step": 288500 + }, + { + "epoch": 1.156, + "grad_norm": 3.234593629837036, + "learning_rate": 3.073333333333334e-05, + "loss": 1.9191, + "step": 289000 + }, + { + "epoch": 1.158, + "grad_norm": 2.5377213954925537, + "learning_rate": 3.07e-05, + "loss": 1.9538, + "step": 289500 + }, + { + "epoch": 1.16, + "grad_norm": 3.115741491317749, + "learning_rate": 3.066666666666667e-05, + "loss": 1.9639, + "step": 290000 + }, + { + "epoch": 1.162, + "grad_norm": 3.1304171085357666, + "learning_rate": 3.063333333333334e-05, + "loss": 1.9286, + "step": 290500 + }, + { + "epoch": 1.164, + "grad_norm": 2.4939486980438232, + "learning_rate": 3.06e-05, + "loss": 1.9397, + "step": 291000 + }, + { + "epoch": 1.166, + "grad_norm": 3.71409010887146, + "learning_rate": 3.0566666666666667e-05, + "loss": 2.0122, + "step": 291500 + }, + { + "epoch": 1.168, + "grad_norm": 2.6886892318725586, + "learning_rate": 3.0533333333333335e-05, + "loss": 1.9683, + "step": 292000 + }, + { + "epoch": 1.17, + "grad_norm": 1.988845705986023, + "learning_rate": 3.05e-05, + "loss": 1.9289, + "step": 292500 + }, + { + "epoch": 1.172, + "grad_norm": 2.950002431869507, + "learning_rate": 3.0466666666666664e-05, + "loss": 1.9677, + "step": 293000 + }, + { + "epoch": 1.174, + "grad_norm": 3.880573034286499, + "learning_rate": 3.0433333333333336e-05, + "loss": 1.9738, + "step": 293500 + }, + { + "epoch": 1.176, + "grad_norm": 4.110548496246338, + "learning_rate": 3.04e-05, + "loss": 1.9293, + "step": 294000 + }, + { + "epoch": 1.178, + "grad_norm": 2.448448419570923, + "learning_rate": 3.0366666666666665e-05, + "loss": 1.9623, + "step": 294500 + }, + { + "epoch": 1.18, + "grad_norm": 2.491990327835083, + "learning_rate": 3.0333333333333337e-05, + "loss": 1.9821, + "step": 295000 + }, + { + "epoch": 1.182, + "grad_norm": 3.182067632675171, + "learning_rate": 3.03e-05, + "loss": 1.9474, + "step": 295500 + }, + { + "epoch": 1.184, + "grad_norm": 3.369154691696167, + "learning_rate": 3.0266666666666666e-05, + "loss": 1.9866, + "step": 296000 + }, + { + "epoch": 1.186, + "grad_norm": 3.41951060295105, + "learning_rate": 3.0233333333333334e-05, + "loss": 1.9288, + "step": 296500 + }, + { + "epoch": 1.188, + "grad_norm": 5.4748101234436035, + "learning_rate": 3.02e-05, + "loss": 1.9657, + "step": 297000 + }, + { + "epoch": 1.19, + "grad_norm": 4.121461391448975, + "learning_rate": 3.016666666666667e-05, + "loss": 1.9054, + "step": 297500 + }, + { + "epoch": 1.192, + "grad_norm": 4.263454437255859, + "learning_rate": 3.0133333333333335e-05, + "loss": 1.946, + "step": 298000 + }, + { + "epoch": 1.194, + "grad_norm": 2.8658368587493896, + "learning_rate": 3.01e-05, + "loss": 1.9306, + "step": 298500 + }, + { + "epoch": 1.196, + "grad_norm": 3.3679144382476807, + "learning_rate": 3.006666666666667e-05, + "loss": 1.9949, + "step": 299000 + }, + { + "epoch": 1.198, + "grad_norm": 3.039523124694824, + "learning_rate": 3.0033333333333336e-05, + "loss": 1.9905, + "step": 299500 + }, + { + "epoch": 1.2, + "grad_norm": 1.3373075723648071, + "learning_rate": 3e-05, + "loss": 1.9708, + "step": 300000 + }, + { + "epoch": 1.202, + "grad_norm": 2.54362154006958, + "learning_rate": 2.9966666666666672e-05, + "loss": 1.9249, + "step": 300500 + }, + { + "epoch": 1.204, + "grad_norm": 4.981725692749023, + "learning_rate": 2.9933333333333337e-05, + "loss": 1.963, + "step": 301000 + }, + { + "epoch": 1.206, + "grad_norm": 3.2178914546966553, + "learning_rate": 2.9900000000000002e-05, + "loss": 2.0233, + "step": 301500 + }, + { + "epoch": 1.208, + "grad_norm": 4.110596656799316, + "learning_rate": 2.986666666666667e-05, + "loss": 1.9957, + "step": 302000 + }, + { + "epoch": 1.21, + "grad_norm": 2.6844451427459717, + "learning_rate": 2.9833333333333335e-05, + "loss": 1.9797, + "step": 302500 + }, + { + "epoch": 1.212, + "grad_norm": 2.7491493225097656, + "learning_rate": 2.98e-05, + "loss": 1.9373, + "step": 303000 + }, + { + "epoch": 1.214, + "grad_norm": 2.2133188247680664, + "learning_rate": 2.976666666666667e-05, + "loss": 1.9831, + "step": 303500 + }, + { + "epoch": 1.216, + "grad_norm": 3.1350815296173096, + "learning_rate": 2.9733333333333336e-05, + "loss": 1.9739, + "step": 304000 + }, + { + "epoch": 1.218, + "grad_norm": 4.361825942993164, + "learning_rate": 2.97e-05, + "loss": 1.9041, + "step": 304500 + }, + { + "epoch": 1.22, + "grad_norm": 2.5476202964782715, + "learning_rate": 2.9666666666666672e-05, + "loss": 1.925, + "step": 305000 + }, + { + "epoch": 1.222, + "grad_norm": 2.9587409496307373, + "learning_rate": 2.9633333333333336e-05, + "loss": 1.9649, + "step": 305500 + }, + { + "epoch": 1.224, + "grad_norm": 4.673561096191406, + "learning_rate": 2.96e-05, + "loss": 1.9441, + "step": 306000 + }, + { + "epoch": 1.226, + "grad_norm": 4.757534027099609, + "learning_rate": 2.956666666666667e-05, + "loss": 2.003, + "step": 306500 + }, + { + "epoch": 1.228, + "grad_norm": 2.7775943279266357, + "learning_rate": 2.9533333333333334e-05, + "loss": 1.9134, + "step": 307000 + }, + { + "epoch": 1.23, + "grad_norm": 2.4004340171813965, + "learning_rate": 2.95e-05, + "loss": 1.9976, + "step": 307500 + }, + { + "epoch": 1.232, + "grad_norm": 5.399781703948975, + "learning_rate": 2.946666666666667e-05, + "loss": 1.9294, + "step": 308000 + }, + { + "epoch": 1.234, + "grad_norm": 1.8388854265213013, + "learning_rate": 2.9433333333333335e-05, + "loss": 1.9158, + "step": 308500 + }, + { + "epoch": 1.236, + "grad_norm": 2.5463201999664307, + "learning_rate": 2.94e-05, + "loss": 2.0071, + "step": 309000 + }, + { + "epoch": 1.238, + "grad_norm": 2.6961874961853027, + "learning_rate": 2.936666666666667e-05, + "loss": 1.9348, + "step": 309500 + }, + { + "epoch": 1.24, + "grad_norm": 1.8212966918945312, + "learning_rate": 2.9333333333333336e-05, + "loss": 1.9694, + "step": 310000 + }, + { + "epoch": 1.242, + "grad_norm": 2.46610426902771, + "learning_rate": 2.93e-05, + "loss": 1.9325, + "step": 310500 + }, + { + "epoch": 1.244, + "grad_norm": 2.851161241531372, + "learning_rate": 2.926666666666667e-05, + "loss": 1.9539, + "step": 311000 + }, + { + "epoch": 1.246, + "grad_norm": 2.508186101913452, + "learning_rate": 2.9233333333333334e-05, + "loss": 1.9993, + "step": 311500 + }, + { + "epoch": 1.248, + "grad_norm": 3.743149995803833, + "learning_rate": 2.9199999999999998e-05, + "loss": 1.9341, + "step": 312000 + }, + { + "epoch": 1.25, + "grad_norm": 2.6007370948791504, + "learning_rate": 2.916666666666667e-05, + "loss": 1.9394, + "step": 312500 + }, + { + "epoch": 1.252, + "grad_norm": 8.935428619384766, + "learning_rate": 2.9133333333333334e-05, + "loss": 1.9592, + "step": 313000 + }, + { + "epoch": 1.254, + "grad_norm": 2.37782883644104, + "learning_rate": 2.91e-05, + "loss": 1.9776, + "step": 313500 + }, + { + "epoch": 1.256, + "grad_norm": 3.160939931869507, + "learning_rate": 2.906666666666667e-05, + "loss": 1.9509, + "step": 314000 + }, + { + "epoch": 1.258, + "grad_norm": 3.2063426971435547, + "learning_rate": 2.9033333333333335e-05, + "loss": 1.9855, + "step": 314500 + }, + { + "epoch": 1.26, + "grad_norm": 3.0128235816955566, + "learning_rate": 2.9e-05, + "loss": 1.9211, + "step": 315000 + }, + { + "epoch": 1.262, + "grad_norm": 4.047041416168213, + "learning_rate": 2.8966666666666668e-05, + "loss": 1.9128, + "step": 315500 + }, + { + "epoch": 1.264, + "grad_norm": 2.325835943222046, + "learning_rate": 2.8933333333333333e-05, + "loss": 2.0063, + "step": 316000 + }, + { + "epoch": 1.266, + "grad_norm": 3.5710012912750244, + "learning_rate": 2.8899999999999998e-05, + "loss": 1.9788, + "step": 316500 + }, + { + "epoch": 1.268, + "grad_norm": 4.672359943389893, + "learning_rate": 2.886666666666667e-05, + "loss": 1.9281, + "step": 317000 + }, + { + "epoch": 1.27, + "grad_norm": 4.793974876403809, + "learning_rate": 2.8833333333333334e-05, + "loss": 1.968, + "step": 317500 + }, + { + "epoch": 1.272, + "grad_norm": 1.8592233657836914, + "learning_rate": 2.88e-05, + "loss": 1.9662, + "step": 318000 + }, + { + "epoch": 1.274, + "grad_norm": 3.927013397216797, + "learning_rate": 2.876666666666667e-05, + "loss": 1.9835, + "step": 318500 + }, + { + "epoch": 1.276, + "grad_norm": 4.40059757232666, + "learning_rate": 2.8733333333333335e-05, + "loss": 2.007, + "step": 319000 + }, + { + "epoch": 1.278, + "grad_norm": 3.1267943382263184, + "learning_rate": 2.87e-05, + "loss": 1.9333, + "step": 319500 + }, + { + "epoch": 1.28, + "grad_norm": 4.13264799118042, + "learning_rate": 2.8666666666666668e-05, + "loss": 1.9863, + "step": 320000 + }, + { + "epoch": 1.282, + "grad_norm": 3.432161569595337, + "learning_rate": 2.8633333333333336e-05, + "loss": 1.8894, + "step": 320500 + }, + { + "epoch": 1.284, + "grad_norm": 3.4222466945648193, + "learning_rate": 2.86e-05, + "loss": 1.9474, + "step": 321000 + }, + { + "epoch": 1.286, + "grad_norm": 3.0571742057800293, + "learning_rate": 2.856666666666667e-05, + "loss": 1.9766, + "step": 321500 + }, + { + "epoch": 1.288, + "grad_norm": 2.558643341064453, + "learning_rate": 2.8533333333333333e-05, + "loss": 1.9461, + "step": 322000 + }, + { + "epoch": 1.29, + "grad_norm": 3.561150074005127, + "learning_rate": 2.8499999999999998e-05, + "loss": 1.9584, + "step": 322500 + }, + { + "epoch": 1.292, + "grad_norm": 4.499176979064941, + "learning_rate": 2.846666666666667e-05, + "loss": 1.9395, + "step": 323000 + }, + { + "epoch": 1.294, + "grad_norm": 3.4617388248443604, + "learning_rate": 2.8433333333333334e-05, + "loss": 1.9721, + "step": 323500 + }, + { + "epoch": 1.296, + "grad_norm": 3.8133533000946045, + "learning_rate": 2.84e-05, + "loss": 1.9494, + "step": 324000 + }, + { + "epoch": 1.298, + "grad_norm": 2.4999990463256836, + "learning_rate": 2.836666666666667e-05, + "loss": 1.9296, + "step": 324500 + }, + { + "epoch": 1.3, + "grad_norm": 3.675123691558838, + "learning_rate": 2.8333333333333335e-05, + "loss": 1.9677, + "step": 325000 + }, + { + "epoch": 1.302, + "grad_norm": 4.2841386795043945, + "learning_rate": 2.83e-05, + "loss": 1.9303, + "step": 325500 + }, + { + "epoch": 1.304, + "grad_norm": 3.6480119228363037, + "learning_rate": 2.8266666666666668e-05, + "loss": 1.9121, + "step": 326000 + }, + { + "epoch": 1.306, + "grad_norm": 2.399094820022583, + "learning_rate": 2.8233333333333333e-05, + "loss": 1.9808, + "step": 326500 + }, + { + "epoch": 1.308, + "grad_norm": 3.567394256591797, + "learning_rate": 2.8199999999999998e-05, + "loss": 1.9368, + "step": 327000 + }, + { + "epoch": 1.31, + "grad_norm": 3.490063190460205, + "learning_rate": 2.816666666666667e-05, + "loss": 1.9698, + "step": 327500 + }, + { + "epoch": 1.312, + "grad_norm": 2.0350863933563232, + "learning_rate": 2.8133333333333334e-05, + "loss": 1.9752, + "step": 328000 + }, + { + "epoch": 1.314, + "grad_norm": 2.805644989013672, + "learning_rate": 2.8100000000000005e-05, + "loss": 1.8955, + "step": 328500 + }, + { + "epoch": 1.316, + "grad_norm": 2.807559013366699, + "learning_rate": 2.806666666666667e-05, + "loss": 1.9508, + "step": 329000 + }, + { + "epoch": 1.318, + "grad_norm": 4.305173397064209, + "learning_rate": 2.8033333333333335e-05, + "loss": 1.8898, + "step": 329500 + }, + { + "epoch": 1.32, + "grad_norm": 3.788299560546875, + "learning_rate": 2.8000000000000003e-05, + "loss": 1.9835, + "step": 330000 + }, + { + "epoch": 1.322, + "grad_norm": 2.9872121810913086, + "learning_rate": 2.7966666666666668e-05, + "loss": 1.8811, + "step": 330500 + }, + { + "epoch": 1.324, + "grad_norm": 4.520979881286621, + "learning_rate": 2.7933333333333332e-05, + "loss": 1.9734, + "step": 331000 + }, + { + "epoch": 1.326, + "grad_norm": 4.454957485198975, + "learning_rate": 2.7900000000000004e-05, + "loss": 1.9085, + "step": 331500 + }, + { + "epoch": 1.328, + "grad_norm": 2.5593771934509277, + "learning_rate": 2.786666666666667e-05, + "loss": 1.8897, + "step": 332000 + }, + { + "epoch": 1.33, + "grad_norm": 3.120297431945801, + "learning_rate": 2.7833333333333333e-05, + "loss": 1.9646, + "step": 332500 + }, + { + "epoch": 1.332, + "grad_norm": 2.089595317840576, + "learning_rate": 2.7800000000000005e-05, + "loss": 1.9754, + "step": 333000 + }, + { + "epoch": 1.334, + "grad_norm": 3.0772883892059326, + "learning_rate": 2.776666666666667e-05, + "loss": 1.9736, + "step": 333500 + }, + { + "epoch": 1.336, + "grad_norm": 3.437891721725464, + "learning_rate": 2.7733333333333334e-05, + "loss": 1.9182, + "step": 334000 + }, + { + "epoch": 1.338, + "grad_norm": 3.688281536102295, + "learning_rate": 2.7700000000000002e-05, + "loss": 1.9581, + "step": 334500 + }, + { + "epoch": 1.34, + "grad_norm": 2.9639856815338135, + "learning_rate": 2.7666666666666667e-05, + "loss": 1.952, + "step": 335000 + }, + { + "epoch": 1.342, + "grad_norm": 2.8647725582122803, + "learning_rate": 2.7633333333333332e-05, + "loss": 1.9763, + "step": 335500 + }, + { + "epoch": 1.3439999999999999, + "grad_norm": 3.314138412475586, + "learning_rate": 2.7600000000000003e-05, + "loss": 1.9759, + "step": 336000 + }, + { + "epoch": 1.346, + "grad_norm": 4.604184150695801, + "learning_rate": 2.7566666666666668e-05, + "loss": 1.9265, + "step": 336500 + }, + { + "epoch": 1.3479999999999999, + "grad_norm": 3.743720531463623, + "learning_rate": 2.7533333333333333e-05, + "loss": 1.9293, + "step": 337000 + }, + { + "epoch": 1.35, + "grad_norm": 5.8576130867004395, + "learning_rate": 2.7500000000000004e-05, + "loss": 1.8839, + "step": 337500 + }, + { + "epoch": 1.3519999999999999, + "grad_norm": 2.8141660690307617, + "learning_rate": 2.746666666666667e-05, + "loss": 1.9335, + "step": 338000 + }, + { + "epoch": 1.354, + "grad_norm": 2.964207887649536, + "learning_rate": 2.7433333333333334e-05, + "loss": 1.9472, + "step": 338500 + }, + { + "epoch": 1.3559999999999999, + "grad_norm": 2.9222464561462402, + "learning_rate": 2.7400000000000002e-05, + "loss": 1.9207, + "step": 339000 + }, + { + "epoch": 1.358, + "grad_norm": 2.14105486869812, + "learning_rate": 2.7366666666666667e-05, + "loss": 1.9598, + "step": 339500 + }, + { + "epoch": 1.3599999999999999, + "grad_norm": 4.700246334075928, + "learning_rate": 2.733333333333333e-05, + "loss": 1.9482, + "step": 340000 + }, + { + "epoch": 1.362, + "grad_norm": 2.867978811264038, + "learning_rate": 2.7300000000000003e-05, + "loss": 1.9142, + "step": 340500 + }, + { + "epoch": 1.3639999999999999, + "grad_norm": 4.173141956329346, + "learning_rate": 2.7266666666666668e-05, + "loss": 1.9375, + "step": 341000 + }, + { + "epoch": 1.366, + "grad_norm": 3.5684845447540283, + "learning_rate": 2.7233333333333332e-05, + "loss": 1.9163, + "step": 341500 + }, + { + "epoch": 1.3679999999999999, + "grad_norm": 2.9499728679656982, + "learning_rate": 2.7200000000000004e-05, + "loss": 1.9405, + "step": 342000 + }, + { + "epoch": 1.37, + "grad_norm": 3.1491172313690186, + "learning_rate": 2.716666666666667e-05, + "loss": 1.8542, + "step": 342500 + }, + { + "epoch": 1.3719999999999999, + "grad_norm": 2.936821699142456, + "learning_rate": 2.7133333333333333e-05, + "loss": 1.9541, + "step": 343000 + }, + { + "epoch": 1.374, + "grad_norm": 3.2853519916534424, + "learning_rate": 2.7100000000000005e-05, + "loss": 1.9577, + "step": 343500 + }, + { + "epoch": 1.376, + "grad_norm": 2.245823383331299, + "learning_rate": 2.706666666666667e-05, + "loss": 1.9285, + "step": 344000 + }, + { + "epoch": 1.3780000000000001, + "grad_norm": 2.8352787494659424, + "learning_rate": 2.7033333333333334e-05, + "loss": 1.9186, + "step": 344500 + }, + { + "epoch": 1.38, + "grad_norm": 4.069087505340576, + "learning_rate": 2.7000000000000002e-05, + "loss": 1.9573, + "step": 345000 + }, + { + "epoch": 1.3820000000000001, + "grad_norm": 3.304542303085327, + "learning_rate": 2.6966666666666667e-05, + "loss": 1.9355, + "step": 345500 + }, + { + "epoch": 1.384, + "grad_norm": 2.1801648139953613, + "learning_rate": 2.6933333333333332e-05, + "loss": 1.9079, + "step": 346000 + }, + { + "epoch": 1.3860000000000001, + "grad_norm": 3.3709545135498047, + "learning_rate": 2.6900000000000003e-05, + "loss": 1.9793, + "step": 346500 + }, + { + "epoch": 1.388, + "grad_norm": 3.504084825515747, + "learning_rate": 2.6866666666666668e-05, + "loss": 1.9197, + "step": 347000 + }, + { + "epoch": 1.3900000000000001, + "grad_norm": 2.0547022819519043, + "learning_rate": 2.6833333333333333e-05, + "loss": 1.9099, + "step": 347500 + }, + { + "epoch": 1.392, + "grad_norm": 1.8306704759597778, + "learning_rate": 2.6800000000000004e-05, + "loss": 1.9424, + "step": 348000 + }, + { + "epoch": 1.3940000000000001, + "grad_norm": 4.02212381362915, + "learning_rate": 2.676666666666667e-05, + "loss": 2.0033, + "step": 348500 + }, + { + "epoch": 1.396, + "grad_norm": 1.6803699731826782, + "learning_rate": 2.6733333333333334e-05, + "loss": 1.9181, + "step": 349000 + }, + { + "epoch": 1.3980000000000001, + "grad_norm": 4.2084059715271, + "learning_rate": 2.6700000000000002e-05, + "loss": 1.9311, + "step": 349500 + }, + { + "epoch": 1.4, + "grad_norm": 3.3669347763061523, + "learning_rate": 2.6666666666666667e-05, + "loss": 1.9072, + "step": 350000 + }, + { + "epoch": 1.4020000000000001, + "grad_norm": 3.185051441192627, + "learning_rate": 2.663333333333333e-05, + "loss": 1.9342, + "step": 350500 + }, + { + "epoch": 1.404, + "grad_norm": 2.6800904273986816, + "learning_rate": 2.6600000000000003e-05, + "loss": 2.0068, + "step": 351000 + }, + { + "epoch": 1.4060000000000001, + "grad_norm": 3.8787059783935547, + "learning_rate": 2.6566666666666668e-05, + "loss": 1.9726, + "step": 351500 + }, + { + "epoch": 1.408, + "grad_norm": 3.4934422969818115, + "learning_rate": 2.6533333333333332e-05, + "loss": 1.9318, + "step": 352000 + }, + { + "epoch": 1.41, + "grad_norm": 2.6452531814575195, + "learning_rate": 2.6500000000000004e-05, + "loss": 1.9746, + "step": 352500 + }, + { + "epoch": 1.412, + "grad_norm": 2.4151275157928467, + "learning_rate": 2.646666666666667e-05, + "loss": 1.895, + "step": 353000 + }, + { + "epoch": 1.414, + "grad_norm": 3.3392443656921387, + "learning_rate": 2.6433333333333333e-05, + "loss": 1.9206, + "step": 353500 + }, + { + "epoch": 1.416, + "grad_norm": 3.3407106399536133, + "learning_rate": 2.64e-05, + "loss": 1.9167, + "step": 354000 + }, + { + "epoch": 1.418, + "grad_norm": 2.2099573612213135, + "learning_rate": 2.6366666666666666e-05, + "loss": 1.9366, + "step": 354500 + }, + { + "epoch": 1.42, + "grad_norm": 2.664048433303833, + "learning_rate": 2.633333333333333e-05, + "loss": 1.9466, + "step": 355000 + }, + { + "epoch": 1.422, + "grad_norm": 3.3587818145751953, + "learning_rate": 2.6300000000000002e-05, + "loss": 1.9178, + "step": 355500 + }, + { + "epoch": 1.424, + "grad_norm": 3.2821812629699707, + "learning_rate": 2.6266666666666667e-05, + "loss": 1.9028, + "step": 356000 + }, + { + "epoch": 1.426, + "grad_norm": 4.078558444976807, + "learning_rate": 2.6233333333333332e-05, + "loss": 1.9448, + "step": 356500 + }, + { + "epoch": 1.428, + "grad_norm": 3.0505146980285645, + "learning_rate": 2.6200000000000003e-05, + "loss": 1.9064, + "step": 357000 + }, + { + "epoch": 1.43, + "grad_norm": 3.850769281387329, + "learning_rate": 2.6166666666666668e-05, + "loss": 1.9225, + "step": 357500 + }, + { + "epoch": 1.432, + "grad_norm": 3.470407485961914, + "learning_rate": 2.6133333333333333e-05, + "loss": 1.9643, + "step": 358000 + }, + { + "epoch": 1.434, + "grad_norm": 4.019693374633789, + "learning_rate": 2.61e-05, + "loss": 1.9883, + "step": 358500 + }, + { + "epoch": 1.436, + "grad_norm": 2.8907523155212402, + "learning_rate": 2.6066666666666666e-05, + "loss": 1.9508, + "step": 359000 + }, + { + "epoch": 1.438, + "grad_norm": 3.7923696041107178, + "learning_rate": 2.6033333333333337e-05, + "loss": 1.9239, + "step": 359500 + }, + { + "epoch": 1.44, + "grad_norm": 3.8597493171691895, + "learning_rate": 2.6000000000000002e-05, + "loss": 1.9362, + "step": 360000 + }, + { + "epoch": 1.442, + "grad_norm": 3.4547104835510254, + "learning_rate": 2.5966666666666667e-05, + "loss": 1.9351, + "step": 360500 + }, + { + "epoch": 1.444, + "grad_norm": 4.025310039520264, + "learning_rate": 2.5933333333333338e-05, + "loss": 1.9289, + "step": 361000 + }, + { + "epoch": 1.446, + "grad_norm": 4.879772663116455, + "learning_rate": 2.5900000000000003e-05, + "loss": 1.9901, + "step": 361500 + }, + { + "epoch": 1.448, + "grad_norm": 2.230199098587036, + "learning_rate": 2.5866666666666667e-05, + "loss": 1.9696, + "step": 362000 + }, + { + "epoch": 1.45, + "grad_norm": 2.6082305908203125, + "learning_rate": 2.5833333333333336e-05, + "loss": 1.9478, + "step": 362500 + }, + { + "epoch": 1.452, + "grad_norm": 3.0089962482452393, + "learning_rate": 2.58e-05, + "loss": 1.9212, + "step": 363000 + }, + { + "epoch": 1.454, + "grad_norm": 2.923159122467041, + "learning_rate": 2.5766666666666665e-05, + "loss": 1.9708, + "step": 363500 + }, + { + "epoch": 1.456, + "grad_norm": 3.1495614051818848, + "learning_rate": 2.5733333333333337e-05, + "loss": 1.9587, + "step": 364000 + }, + { + "epoch": 1.458, + "grad_norm": 3.246243476867676, + "learning_rate": 2.57e-05, + "loss": 1.9605, + "step": 364500 + }, + { + "epoch": 1.46, + "grad_norm": 3.223666191101074, + "learning_rate": 2.5666666666666666e-05, + "loss": 1.9245, + "step": 365000 + }, + { + "epoch": 1.462, + "grad_norm": 3.237511157989502, + "learning_rate": 2.5633333333333338e-05, + "loss": 1.9382, + "step": 365500 + }, + { + "epoch": 1.464, + "grad_norm": 3.490596055984497, + "learning_rate": 2.5600000000000002e-05, + "loss": 1.8842, + "step": 366000 + }, + { + "epoch": 1.466, + "grad_norm": 2.6978297233581543, + "learning_rate": 2.5566666666666667e-05, + "loss": 1.9508, + "step": 366500 + }, + { + "epoch": 1.468, + "grad_norm": 2.619743824005127, + "learning_rate": 2.553333333333334e-05, + "loss": 1.9715, + "step": 367000 + }, + { + "epoch": 1.47, + "grad_norm": 3.37778377532959, + "learning_rate": 2.5500000000000003e-05, + "loss": 1.929, + "step": 367500 + }, + { + "epoch": 1.472, + "grad_norm": 3.4646658897399902, + "learning_rate": 2.5466666666666668e-05, + "loss": 1.9261, + "step": 368000 + }, + { + "epoch": 1.474, + "grad_norm": 3.0174248218536377, + "learning_rate": 2.5433333333333336e-05, + "loss": 1.9276, + "step": 368500 + }, + { + "epoch": 1.476, + "grad_norm": 3.012357473373413, + "learning_rate": 2.54e-05, + "loss": 1.9175, + "step": 369000 + }, + { + "epoch": 1.478, + "grad_norm": 3.678093433380127, + "learning_rate": 2.5366666666666665e-05, + "loss": 1.9499, + "step": 369500 + }, + { + "epoch": 1.48, + "grad_norm": 5.938042640686035, + "learning_rate": 2.5333333333333337e-05, + "loss": 1.9167, + "step": 370000 + }, + { + "epoch": 1.482, + "grad_norm": 2.5942413806915283, + "learning_rate": 2.5300000000000002e-05, + "loss": 1.9544, + "step": 370500 + }, + { + "epoch": 1.484, + "grad_norm": 3.5059385299682617, + "learning_rate": 2.5266666666666666e-05, + "loss": 1.9381, + "step": 371000 + }, + { + "epoch": 1.486, + "grad_norm": 2.4190146923065186, + "learning_rate": 2.5233333333333338e-05, + "loss": 1.8837, + "step": 371500 + }, + { + "epoch": 1.488, + "grad_norm": 3.440899610519409, + "learning_rate": 2.5200000000000003e-05, + "loss": 1.9224, + "step": 372000 + }, + { + "epoch": 1.49, + "grad_norm": 2.267256736755371, + "learning_rate": 2.5166666666666667e-05, + "loss": 1.9666, + "step": 372500 + }, + { + "epoch": 1.492, + "grad_norm": 3.44594669342041, + "learning_rate": 2.5133333333333336e-05, + "loss": 1.9257, + "step": 373000 + }, + { + "epoch": 1.494, + "grad_norm": 3.7082021236419678, + "learning_rate": 2.51e-05, + "loss": 1.9857, + "step": 373500 + }, + { + "epoch": 1.496, + "grad_norm": 3.378018856048584, + "learning_rate": 2.5066666666666665e-05, + "loss": 1.9248, + "step": 374000 + }, + { + "epoch": 1.498, + "grad_norm": 3.2708401679992676, + "learning_rate": 2.5033333333333336e-05, + "loss": 1.9328, + "step": 374500 + }, + { + "epoch": 1.5, + "grad_norm": 3.076033592224121, + "learning_rate": 2.5e-05, + "loss": 1.8765, + "step": 375000 + }, + { + "epoch": 1.502, + "grad_norm": 2.799485921859741, + "learning_rate": 2.496666666666667e-05, + "loss": 1.9374, + "step": 375500 + }, + { + "epoch": 1.504, + "grad_norm": 2.7775092124938965, + "learning_rate": 2.4933333333333334e-05, + "loss": 1.9935, + "step": 376000 + }, + { + "epoch": 1.506, + "grad_norm": 3.209745168685913, + "learning_rate": 2.4900000000000002e-05, + "loss": 1.9675, + "step": 376500 + }, + { + "epoch": 1.508, + "grad_norm": 2.625767230987549, + "learning_rate": 2.486666666666667e-05, + "loss": 1.9351, + "step": 377000 + }, + { + "epoch": 1.51, + "grad_norm": 2.3749732971191406, + "learning_rate": 2.4833333333333335e-05, + "loss": 1.9686, + "step": 377500 + }, + { + "epoch": 1.512, + "grad_norm": 3.2491095066070557, + "learning_rate": 2.48e-05, + "loss": 1.9175, + "step": 378000 + }, + { + "epoch": 1.514, + "grad_norm": 3.3169057369232178, + "learning_rate": 2.4766666666666668e-05, + "loss": 1.912, + "step": 378500 + }, + { + "epoch": 1.516, + "grad_norm": 2.665933847427368, + "learning_rate": 2.4733333333333333e-05, + "loss": 1.9495, + "step": 379000 + }, + { + "epoch": 1.518, + "grad_norm": 3.2926623821258545, + "learning_rate": 2.47e-05, + "loss": 1.9063, + "step": 379500 + }, + { + "epoch": 1.52, + "grad_norm": 4.455011367797852, + "learning_rate": 2.466666666666667e-05, + "loss": 1.9446, + "step": 380000 + }, + { + "epoch": 1.522, + "grad_norm": 3.1576755046844482, + "learning_rate": 2.4633333333333334e-05, + "loss": 1.9727, + "step": 380500 + }, + { + "epoch": 1.524, + "grad_norm": 2.488983392715454, + "learning_rate": 2.46e-05, + "loss": 1.9032, + "step": 381000 + }, + { + "epoch": 1.526, + "grad_norm": 3.984022378921509, + "learning_rate": 2.456666666666667e-05, + "loss": 1.96, + "step": 381500 + }, + { + "epoch": 1.528, + "grad_norm": 3.8776423931121826, + "learning_rate": 2.4533333333333334e-05, + "loss": 1.9868, + "step": 382000 + }, + { + "epoch": 1.53, + "grad_norm": 4.296087265014648, + "learning_rate": 2.45e-05, + "loss": 1.8783, + "step": 382500 + }, + { + "epoch": 1.532, + "grad_norm": 4.618283748626709, + "learning_rate": 2.4466666666666667e-05, + "loss": 1.949, + "step": 383000 + }, + { + "epoch": 1.534, + "grad_norm": 6.0405964851379395, + "learning_rate": 2.4433333333333335e-05, + "loss": 1.9301, + "step": 383500 + }, + { + "epoch": 1.536, + "grad_norm": 2.9348373413085938, + "learning_rate": 2.44e-05, + "loss": 1.9798, + "step": 384000 + }, + { + "epoch": 1.538, + "grad_norm": 3.9813971519470215, + "learning_rate": 2.4366666666666668e-05, + "loss": 1.9274, + "step": 384500 + }, + { + "epoch": 1.54, + "grad_norm": 2.8931353092193604, + "learning_rate": 2.4333333333333336e-05, + "loss": 1.948, + "step": 385000 + }, + { + "epoch": 1.542, + "grad_norm": 6.178744316101074, + "learning_rate": 2.43e-05, + "loss": 1.8994, + "step": 385500 + }, + { + "epoch": 1.544, + "grad_norm": 3.171900749206543, + "learning_rate": 2.426666666666667e-05, + "loss": 1.9392, + "step": 386000 + }, + { + "epoch": 1.546, + "grad_norm": 2.611449956893921, + "learning_rate": 2.4233333333333337e-05, + "loss": 1.9093, + "step": 386500 + }, + { + "epoch": 1.548, + "grad_norm": 3.3204538822174072, + "learning_rate": 2.4200000000000002e-05, + "loss": 1.9131, + "step": 387000 + }, + { + "epoch": 1.55, + "grad_norm": 5.410957336425781, + "learning_rate": 2.4166666666666667e-05, + "loss": 1.9213, + "step": 387500 + }, + { + "epoch": 1.552, + "grad_norm": 3.4421000480651855, + "learning_rate": 2.4133333333333335e-05, + "loss": 2.0055, + "step": 388000 + }, + { + "epoch": 1.554, + "grad_norm": 2.8660736083984375, + "learning_rate": 2.41e-05, + "loss": 1.9366, + "step": 388500 + }, + { + "epoch": 1.556, + "grad_norm": 1.9283561706542969, + "learning_rate": 2.4066666666666668e-05, + "loss": 1.9643, + "step": 389000 + }, + { + "epoch": 1.558, + "grad_norm": 3.334333658218384, + "learning_rate": 2.4033333333333336e-05, + "loss": 1.9114, + "step": 389500 + }, + { + "epoch": 1.56, + "grad_norm": 2.810943126678467, + "learning_rate": 2.4e-05, + "loss": 1.9396, + "step": 390000 + }, + { + "epoch": 1.562, + "grad_norm": 1.7711280584335327, + "learning_rate": 2.396666666666667e-05, + "loss": 1.9947, + "step": 390500 + }, + { + "epoch": 1.564, + "grad_norm": 2.992372751235962, + "learning_rate": 2.3933333333333337e-05, + "loss": 1.9469, + "step": 391000 + }, + { + "epoch": 1.5659999999999998, + "grad_norm": 4.435489177703857, + "learning_rate": 2.39e-05, + "loss": 1.9853, + "step": 391500 + }, + { + "epoch": 1.568, + "grad_norm": 3.219182252883911, + "learning_rate": 2.3866666666666666e-05, + "loss": 1.909, + "step": 392000 + }, + { + "epoch": 1.5699999999999998, + "grad_norm": 2.1483545303344727, + "learning_rate": 2.3833333333333334e-05, + "loss": 1.9778, + "step": 392500 + }, + { + "epoch": 1.572, + "grad_norm": 3.510859489440918, + "learning_rate": 2.38e-05, + "loss": 1.9053, + "step": 393000 + }, + { + "epoch": 1.5739999999999998, + "grad_norm": 5.1270222663879395, + "learning_rate": 2.3766666666666667e-05, + "loss": 1.9781, + "step": 393500 + }, + { + "epoch": 1.576, + "grad_norm": 2.5209779739379883, + "learning_rate": 2.3733333333333335e-05, + "loss": 1.9793, + "step": 394000 + }, + { + "epoch": 1.5779999999999998, + "grad_norm": 3.370201349258423, + "learning_rate": 2.37e-05, + "loss": 1.9202, + "step": 394500 + }, + { + "epoch": 1.58, + "grad_norm": 2.933300495147705, + "learning_rate": 2.3666666666666668e-05, + "loss": 1.9601, + "step": 395000 + }, + { + "epoch": 1.5819999999999999, + "grad_norm": 3.4246957302093506, + "learning_rate": 2.3633333333333336e-05, + "loss": 1.9644, + "step": 395500 + }, + { + "epoch": 1.584, + "grad_norm": 5.153846263885498, + "learning_rate": 2.36e-05, + "loss": 1.9268, + "step": 396000 + }, + { + "epoch": 1.5859999999999999, + "grad_norm": 3.2302634716033936, + "learning_rate": 2.3566666666666666e-05, + "loss": 1.8953, + "step": 396500 + }, + { + "epoch": 1.588, + "grad_norm": 2.646941661834717, + "learning_rate": 2.3533333333333334e-05, + "loss": 1.901, + "step": 397000 + }, + { + "epoch": 1.5899999999999999, + "grad_norm": 3.758988618850708, + "learning_rate": 2.35e-05, + "loss": 1.8888, + "step": 397500 + }, + { + "epoch": 1.592, + "grad_norm": 5.059525966644287, + "learning_rate": 2.3466666666666667e-05, + "loss": 1.9675, + "step": 398000 + }, + { + "epoch": 1.5939999999999999, + "grad_norm": 3.5756661891937256, + "learning_rate": 2.3433333333333335e-05, + "loss": 1.9416, + "step": 398500 + }, + { + "epoch": 1.596, + "grad_norm": 2.9694342613220215, + "learning_rate": 2.3400000000000003e-05, + "loss": 1.9383, + "step": 399000 + }, + { + "epoch": 1.5979999999999999, + "grad_norm": 2.9568989276885986, + "learning_rate": 2.3366666666666668e-05, + "loss": 1.9001, + "step": 399500 + }, + { + "epoch": 1.6, + "grad_norm": 3.1025218963623047, + "learning_rate": 2.3333333333333336e-05, + "loss": 1.8966, + "step": 400000 + }, + { + "epoch": 1.6019999999999999, + "grad_norm": 3.721906900405884, + "learning_rate": 2.3300000000000004e-05, + "loss": 1.9514, + "step": 400500 + }, + { + "epoch": 1.604, + "grad_norm": 2.4749765396118164, + "learning_rate": 2.326666666666667e-05, + "loss": 1.9496, + "step": 401000 + }, + { + "epoch": 1.6059999999999999, + "grad_norm": 2.983774423599243, + "learning_rate": 2.3233333333333333e-05, + "loss": 1.9398, + "step": 401500 + }, + { + "epoch": 1.608, + "grad_norm": 4.208621978759766, + "learning_rate": 2.32e-05, + "loss": 1.9826, + "step": 402000 + }, + { + "epoch": 1.6099999999999999, + "grad_norm": 3.238241195678711, + "learning_rate": 2.3166666666666666e-05, + "loss": 1.9313, + "step": 402500 + }, + { + "epoch": 1.612, + "grad_norm": 3.130443811416626, + "learning_rate": 2.3133333333333334e-05, + "loss": 1.9445, + "step": 403000 + }, + { + "epoch": 1.6139999999999999, + "grad_norm": 4.063137531280518, + "learning_rate": 2.3100000000000002e-05, + "loss": 1.9255, + "step": 403500 + }, + { + "epoch": 1.616, + "grad_norm": 4.2964558601379395, + "learning_rate": 2.3066666666666667e-05, + "loss": 1.9336, + "step": 404000 + }, + { + "epoch": 1.6179999999999999, + "grad_norm": 2.6687209606170654, + "learning_rate": 2.3033333333333335e-05, + "loss": 1.9325, + "step": 404500 + }, + { + "epoch": 1.62, + "grad_norm": 4.380516052246094, + "learning_rate": 2.3000000000000003e-05, + "loss": 1.9764, + "step": 405000 + }, + { + "epoch": 1.6219999999999999, + "grad_norm": 5.203883647918701, + "learning_rate": 2.2966666666666668e-05, + "loss": 1.9431, + "step": 405500 + }, + { + "epoch": 1.624, + "grad_norm": 4.030825138092041, + "learning_rate": 2.2933333333333333e-05, + "loss": 1.9116, + "step": 406000 + }, + { + "epoch": 1.626, + "grad_norm": 4.258131504058838, + "learning_rate": 2.29e-05, + "loss": 1.9386, + "step": 406500 + }, + { + "epoch": 1.6280000000000001, + "grad_norm": 2.3082876205444336, + "learning_rate": 2.2866666666666666e-05, + "loss": 1.8925, + "step": 407000 + }, + { + "epoch": 1.63, + "grad_norm": 2.6121292114257812, + "learning_rate": 2.2833333333333334e-05, + "loss": 1.9199, + "step": 407500 + }, + { + "epoch": 1.6320000000000001, + "grad_norm": 3.0361194610595703, + "learning_rate": 2.2800000000000002e-05, + "loss": 1.9182, + "step": 408000 + }, + { + "epoch": 1.634, + "grad_norm": 3.141012668609619, + "learning_rate": 2.2766666666666667e-05, + "loss": 1.9183, + "step": 408500 + }, + { + "epoch": 1.6360000000000001, + "grad_norm": 2.518684148788452, + "learning_rate": 2.2733333333333335e-05, + "loss": 1.9084, + "step": 409000 + }, + { + "epoch": 1.638, + "grad_norm": 3.1415364742279053, + "learning_rate": 2.2700000000000003e-05, + "loss": 1.917, + "step": 409500 + }, + { + "epoch": 1.6400000000000001, + "grad_norm": 3.0325417518615723, + "learning_rate": 2.2666666666666668e-05, + "loss": 1.9427, + "step": 410000 + }, + { + "epoch": 1.642, + "grad_norm": 5.173191547393799, + "learning_rate": 2.2633333333333336e-05, + "loss": 1.917, + "step": 410500 + }, + { + "epoch": 1.6440000000000001, + "grad_norm": 2.372633218765259, + "learning_rate": 2.26e-05, + "loss": 1.9792, + "step": 411000 + }, + { + "epoch": 1.646, + "grad_norm": 1.6606264114379883, + "learning_rate": 2.2566666666666665e-05, + "loss": 1.8753, + "step": 411500 + }, + { + "epoch": 1.6480000000000001, + "grad_norm": 2.6684279441833496, + "learning_rate": 2.2533333333333333e-05, + "loss": 1.9233, + "step": 412000 + }, + { + "epoch": 1.65, + "grad_norm": 3.7809250354766846, + "learning_rate": 2.25e-05, + "loss": 1.9915, + "step": 412500 + }, + { + "epoch": 1.6520000000000001, + "grad_norm": 2.4720022678375244, + "learning_rate": 2.2466666666666666e-05, + "loss": 1.9192, + "step": 413000 + }, + { + "epoch": 1.654, + "grad_norm": 3.4547295570373535, + "learning_rate": 2.2433333333333334e-05, + "loss": 1.9234, + "step": 413500 + }, + { + "epoch": 1.6560000000000001, + "grad_norm": 1.382089614868164, + "learning_rate": 2.2400000000000002e-05, + "loss": 1.9395, + "step": 414000 + }, + { + "epoch": 1.658, + "grad_norm": 2.934108257293701, + "learning_rate": 2.236666666666667e-05, + "loss": 1.9058, + "step": 414500 + }, + { + "epoch": 1.6600000000000001, + "grad_norm": 3.9861598014831543, + "learning_rate": 2.2333333333333335e-05, + "loss": 1.9716, + "step": 415000 + }, + { + "epoch": 1.662, + "grad_norm": 3.44126033782959, + "learning_rate": 2.23e-05, + "loss": 1.9689, + "step": 415500 + }, + { + "epoch": 1.6640000000000001, + "grad_norm": 3.3755643367767334, + "learning_rate": 2.2266666666666668e-05, + "loss": 1.9328, + "step": 416000 + }, + { + "epoch": 1.666, + "grad_norm": 2.6279067993164062, + "learning_rate": 2.2233333333333333e-05, + "loss": 1.9265, + "step": 416500 + }, + { + "epoch": 1.6680000000000001, + "grad_norm": 4.753332138061523, + "learning_rate": 2.22e-05, + "loss": 1.9296, + "step": 417000 + }, + { + "epoch": 1.67, + "grad_norm": 3.099449634552002, + "learning_rate": 2.216666666666667e-05, + "loss": 1.9148, + "step": 417500 + }, + { + "epoch": 1.6720000000000002, + "grad_norm": 3.0518150329589844, + "learning_rate": 2.2133333333333334e-05, + "loss": 1.8784, + "step": 418000 + }, + { + "epoch": 1.674, + "grad_norm": 3.0889222621917725, + "learning_rate": 2.2100000000000002e-05, + "loss": 1.9786, + "step": 418500 + }, + { + "epoch": 1.6760000000000002, + "grad_norm": 2.642021894454956, + "learning_rate": 2.206666666666667e-05, + "loss": 1.8791, + "step": 419000 + }, + { + "epoch": 1.678, + "grad_norm": 3.9760305881500244, + "learning_rate": 2.2033333333333335e-05, + "loss": 1.9599, + "step": 419500 + }, + { + "epoch": 1.6800000000000002, + "grad_norm": 3.1071484088897705, + "learning_rate": 2.2000000000000003e-05, + "loss": 1.9407, + "step": 420000 + }, + { + "epoch": 1.682, + "grad_norm": 3.741133689880371, + "learning_rate": 2.1966666666666668e-05, + "loss": 1.9729, + "step": 420500 + }, + { + "epoch": 1.6840000000000002, + "grad_norm": 3.7305397987365723, + "learning_rate": 2.1933333333333332e-05, + "loss": 1.9332, + "step": 421000 + }, + { + "epoch": 1.686, + "grad_norm": 3.7074167728424072, + "learning_rate": 2.19e-05, + "loss": 1.9677, + "step": 421500 + }, + { + "epoch": 1.688, + "grad_norm": 2.668675661087036, + "learning_rate": 2.186666666666667e-05, + "loss": 1.9697, + "step": 422000 + }, + { + "epoch": 1.69, + "grad_norm": 3.2775230407714844, + "learning_rate": 2.1833333333333333e-05, + "loss": 1.8848, + "step": 422500 + }, + { + "epoch": 1.692, + "grad_norm": 2.878530979156494, + "learning_rate": 2.18e-05, + "loss": 1.9991, + "step": 423000 + }, + { + "epoch": 1.694, + "grad_norm": 4.312577247619629, + "learning_rate": 2.176666666666667e-05, + "loss": 1.9181, + "step": 423500 + }, + { + "epoch": 1.696, + "grad_norm": 2.9347195625305176, + "learning_rate": 2.1733333333333334e-05, + "loss": 1.8913, + "step": 424000 + }, + { + "epoch": 1.698, + "grad_norm": 2.45108699798584, + "learning_rate": 2.1700000000000002e-05, + "loss": 1.9078, + "step": 424500 + }, + { + "epoch": 1.7, + "grad_norm": 5.436616897583008, + "learning_rate": 2.1666666666666667e-05, + "loss": 1.9352, + "step": 425000 + }, + { + "epoch": 1.702, + "grad_norm": 2.882488250732422, + "learning_rate": 2.1633333333333332e-05, + "loss": 1.9747, + "step": 425500 + }, + { + "epoch": 1.704, + "grad_norm": 3.8497514724731445, + "learning_rate": 2.16e-05, + "loss": 1.9085, + "step": 426000 + }, + { + "epoch": 1.706, + "grad_norm": 2.8580403327941895, + "learning_rate": 2.1566666666666668e-05, + "loss": 1.9231, + "step": 426500 + }, + { + "epoch": 1.708, + "grad_norm": 3.8605587482452393, + "learning_rate": 2.1533333333333333e-05, + "loss": 1.9148, + "step": 427000 + }, + { + "epoch": 1.71, + "grad_norm": 2.743581533432007, + "learning_rate": 2.15e-05, + "loss": 1.9138, + "step": 427500 + }, + { + "epoch": 1.712, + "grad_norm": 3.476142406463623, + "learning_rate": 2.146666666666667e-05, + "loss": 1.8806, + "step": 428000 + }, + { + "epoch": 1.714, + "grad_norm": 3.239506483078003, + "learning_rate": 2.1433333333333334e-05, + "loss": 1.9722, + "step": 428500 + }, + { + "epoch": 1.716, + "grad_norm": 3.1536738872528076, + "learning_rate": 2.1400000000000002e-05, + "loss": 1.9762, + "step": 429000 + }, + { + "epoch": 1.718, + "grad_norm": 3.4705638885498047, + "learning_rate": 2.1366666666666667e-05, + "loss": 1.908, + "step": 429500 + }, + { + "epoch": 1.72, + "grad_norm": 3.0438194274902344, + "learning_rate": 2.1333333333333335e-05, + "loss": 1.9374, + "step": 430000 + }, + { + "epoch": 1.722, + "grad_norm": 2.8619210720062256, + "learning_rate": 2.13e-05, + "loss": 1.9054, + "step": 430500 + }, + { + "epoch": 1.724, + "grad_norm": 3.936366319656372, + "learning_rate": 2.1266666666666667e-05, + "loss": 1.9911, + "step": 431000 + }, + { + "epoch": 1.726, + "grad_norm": 3.868184804916382, + "learning_rate": 2.1233333333333336e-05, + "loss": 1.9126, + "step": 431500 + }, + { + "epoch": 1.728, + "grad_norm": 3.1653971672058105, + "learning_rate": 2.12e-05, + "loss": 1.9632, + "step": 432000 + }, + { + "epoch": 1.73, + "grad_norm": 4.440386772155762, + "learning_rate": 2.116666666666667e-05, + "loss": 1.8954, + "step": 432500 + }, + { + "epoch": 1.732, + "grad_norm": 3.320260524749756, + "learning_rate": 2.1133333333333337e-05, + "loss": 1.9161, + "step": 433000 + }, + { + "epoch": 1.734, + "grad_norm": 3.6116676330566406, + "learning_rate": 2.11e-05, + "loss": 1.9107, + "step": 433500 + }, + { + "epoch": 1.736, + "grad_norm": 2.696512460708618, + "learning_rate": 2.106666666666667e-05, + "loss": 1.9168, + "step": 434000 + }, + { + "epoch": 1.738, + "grad_norm": 2.7827653884887695, + "learning_rate": 2.1033333333333334e-05, + "loss": 1.8904, + "step": 434500 + }, + { + "epoch": 1.74, + "grad_norm": 2.947371006011963, + "learning_rate": 2.1e-05, + "loss": 1.9016, + "step": 435000 + }, + { + "epoch": 1.742, + "grad_norm": 4.626327037811279, + "learning_rate": 2.0966666666666667e-05, + "loss": 1.9066, + "step": 435500 + }, + { + "epoch": 1.744, + "grad_norm": 3.5825893878936768, + "learning_rate": 2.0933333333333335e-05, + "loss": 1.9514, + "step": 436000 + }, + { + "epoch": 1.746, + "grad_norm": 4.205458641052246, + "learning_rate": 2.09e-05, + "loss": 1.9369, + "step": 436500 + }, + { + "epoch": 1.748, + "grad_norm": 3.084803819656372, + "learning_rate": 2.0866666666666668e-05, + "loss": 1.9283, + "step": 437000 + }, + { + "epoch": 1.75, + "grad_norm": 3.3208982944488525, + "learning_rate": 2.0833333333333336e-05, + "loss": 1.9233, + "step": 437500 + }, + { + "epoch": 1.752, + "grad_norm": 3.270139694213867, + "learning_rate": 2.08e-05, + "loss": 1.939, + "step": 438000 + }, + { + "epoch": 1.754, + "grad_norm": 4.778740406036377, + "learning_rate": 2.076666666666667e-05, + "loss": 1.9674, + "step": 438500 + }, + { + "epoch": 1.756, + "grad_norm": 5.207311630249023, + "learning_rate": 2.0733333333333334e-05, + "loss": 1.9133, + "step": 439000 + }, + { + "epoch": 1.758, + "grad_norm": 2.929720401763916, + "learning_rate": 2.07e-05, + "loss": 1.9142, + "step": 439500 + }, + { + "epoch": 1.76, + "grad_norm": 3.3526523113250732, + "learning_rate": 2.0666666666666666e-05, + "loss": 1.934, + "step": 440000 + }, + { + "epoch": 1.762, + "grad_norm": 3.6016769409179688, + "learning_rate": 2.0633333333333335e-05, + "loss": 1.9077, + "step": 440500 + }, + { + "epoch": 1.764, + "grad_norm": 3.197774648666382, + "learning_rate": 2.06e-05, + "loss": 1.8532, + "step": 441000 + }, + { + "epoch": 1.766, + "grad_norm": 3.8975322246551514, + "learning_rate": 2.0566666666666667e-05, + "loss": 1.9767, + "step": 441500 + }, + { + "epoch": 1.768, + "grad_norm": 3.488940477371216, + "learning_rate": 2.0533333333333336e-05, + "loss": 1.8531, + "step": 442000 + }, + { + "epoch": 1.77, + "grad_norm": 4.04154109954834, + "learning_rate": 2.05e-05, + "loss": 1.9166, + "step": 442500 + }, + { + "epoch": 1.772, + "grad_norm": 3.363910436630249, + "learning_rate": 2.046666666666667e-05, + "loss": 1.8636, + "step": 443000 + }, + { + "epoch": 1.774, + "grad_norm": 3.8854823112487793, + "learning_rate": 2.0433333333333336e-05, + "loss": 1.8861, + "step": 443500 + }, + { + "epoch": 1.776, + "grad_norm": 5.251601696014404, + "learning_rate": 2.04e-05, + "loss": 1.8962, + "step": 444000 + }, + { + "epoch": 1.778, + "grad_norm": 5.260472774505615, + "learning_rate": 2.0366666666666666e-05, + "loss": 1.9711, + "step": 444500 + }, + { + "epoch": 1.78, + "grad_norm": 5.123081684112549, + "learning_rate": 2.0333333333333334e-05, + "loss": 1.9124, + "step": 445000 + }, + { + "epoch": 1.782, + "grad_norm": 1.2691650390625, + "learning_rate": 2.0300000000000002e-05, + "loss": 1.9353, + "step": 445500 + }, + { + "epoch": 1.784, + "grad_norm": 4.626059532165527, + "learning_rate": 2.0266666666666667e-05, + "loss": 1.9753, + "step": 446000 + }, + { + "epoch": 1.786, + "grad_norm": 3.9657695293426514, + "learning_rate": 2.0233333333333335e-05, + "loss": 1.9422, + "step": 446500 + }, + { + "epoch": 1.788, + "grad_norm": 3.382976770401001, + "learning_rate": 2.0200000000000003e-05, + "loss": 1.9348, + "step": 447000 + }, + { + "epoch": 1.79, + "grad_norm": 3.3544819355010986, + "learning_rate": 2.0166666666666668e-05, + "loss": 1.9643, + "step": 447500 + }, + { + "epoch": 1.792, + "grad_norm": 2.7417047023773193, + "learning_rate": 2.0133333333333336e-05, + "loss": 1.9228, + "step": 448000 + }, + { + "epoch": 1.794, + "grad_norm": 4.532870292663574, + "learning_rate": 2.01e-05, + "loss": 1.9616, + "step": 448500 + }, + { + "epoch": 1.796, + "grad_norm": 2.7241365909576416, + "learning_rate": 2.0066666666666665e-05, + "loss": 1.9295, + "step": 449000 + }, + { + "epoch": 1.798, + "grad_norm": 3.696352958679199, + "learning_rate": 2.0033333333333334e-05, + "loss": 1.9934, + "step": 449500 + }, + { + "epoch": 1.8, + "grad_norm": 3.4224777221679688, + "learning_rate": 2e-05, + "loss": 1.9546, + "step": 450000 + }, + { + "epoch": 1.802, + "grad_norm": 4.845315456390381, + "learning_rate": 1.9966666666666666e-05, + "loss": 1.9355, + "step": 450500 + }, + { + "epoch": 1.804, + "grad_norm": 4.044910907745361, + "learning_rate": 1.9933333333333334e-05, + "loss": 1.9407, + "step": 451000 + }, + { + "epoch": 1.806, + "grad_norm": 2.890526056289673, + "learning_rate": 1.9900000000000003e-05, + "loss": 1.944, + "step": 451500 + }, + { + "epoch": 1.808, + "grad_norm": 3.2103819847106934, + "learning_rate": 1.9866666666666667e-05, + "loss": 1.9371, + "step": 452000 + }, + { + "epoch": 1.81, + "grad_norm": 1.7022625207901, + "learning_rate": 1.9833333333333335e-05, + "loss": 1.9236, + "step": 452500 + }, + { + "epoch": 1.812, + "grad_norm": 4.029776096343994, + "learning_rate": 1.9800000000000004e-05, + "loss": 1.9205, + "step": 453000 + }, + { + "epoch": 1.814, + "grad_norm": 3.312782049179077, + "learning_rate": 1.9766666666666668e-05, + "loss": 1.9365, + "step": 453500 + }, + { + "epoch": 1.8159999999999998, + "grad_norm": 3.0180747509002686, + "learning_rate": 1.9733333333333333e-05, + "loss": 1.9685, + "step": 454000 + }, + { + "epoch": 1.818, + "grad_norm": 2.507460355758667, + "learning_rate": 1.97e-05, + "loss": 1.9416, + "step": 454500 + }, + { + "epoch": 1.8199999999999998, + "grad_norm": 3.9633641242980957, + "learning_rate": 1.9666666666666666e-05, + "loss": 1.9297, + "step": 455000 + }, + { + "epoch": 1.822, + "grad_norm": 3.120065927505493, + "learning_rate": 1.9633333333333334e-05, + "loss": 1.9313, + "step": 455500 + }, + { + "epoch": 1.8239999999999998, + "grad_norm": 2.927708864212036, + "learning_rate": 1.9600000000000002e-05, + "loss": 1.9414, + "step": 456000 + }, + { + "epoch": 1.826, + "grad_norm": 4.327637195587158, + "learning_rate": 1.9566666666666667e-05, + "loss": 1.9294, + "step": 456500 + }, + { + "epoch": 1.8279999999999998, + "grad_norm": 2.902700662612915, + "learning_rate": 1.9533333333333335e-05, + "loss": 1.9924, + "step": 457000 + }, + { + "epoch": 1.83, + "grad_norm": 3.670992136001587, + "learning_rate": 1.9500000000000003e-05, + "loss": 1.9314, + "step": 457500 + }, + { + "epoch": 1.8319999999999999, + "grad_norm": 2.3672289848327637, + "learning_rate": 1.9466666666666668e-05, + "loss": 1.9235, + "step": 458000 + }, + { + "epoch": 1.834, + "grad_norm": 4.721717357635498, + "learning_rate": 1.9433333333333332e-05, + "loss": 1.8869, + "step": 458500 + }, + { + "epoch": 1.8359999999999999, + "grad_norm": 3.915574073791504, + "learning_rate": 1.94e-05, + "loss": 1.9474, + "step": 459000 + }, + { + "epoch": 1.838, + "grad_norm": 3.4359326362609863, + "learning_rate": 1.9366666666666665e-05, + "loss": 1.9029, + "step": 459500 + }, + { + "epoch": 1.8399999999999999, + "grad_norm": 3.5459322929382324, + "learning_rate": 1.9333333333333333e-05, + "loss": 1.9173, + "step": 460000 + }, + { + "epoch": 1.842, + "grad_norm": 3.6038920879364014, + "learning_rate": 1.93e-05, + "loss": 1.9139, + "step": 460500 + }, + { + "epoch": 1.8439999999999999, + "grad_norm": 4.2726898193359375, + "learning_rate": 1.926666666666667e-05, + "loss": 1.8639, + "step": 461000 + }, + { + "epoch": 1.846, + "grad_norm": 2.9363956451416016, + "learning_rate": 1.9233333333333334e-05, + "loss": 1.9039, + "step": 461500 + }, + { + "epoch": 1.8479999999999999, + "grad_norm": 3.254714250564575, + "learning_rate": 1.9200000000000003e-05, + "loss": 1.9238, + "step": 462000 + }, + { + "epoch": 1.85, + "grad_norm": 5.399760723114014, + "learning_rate": 1.9166666666666667e-05, + "loss": 1.8977, + "step": 462500 + }, + { + "epoch": 1.8519999999999999, + "grad_norm": 4.284369468688965, + "learning_rate": 1.9133333333333332e-05, + "loss": 1.8972, + "step": 463000 + }, + { + "epoch": 1.854, + "grad_norm": 3.318804979324341, + "learning_rate": 1.91e-05, + "loss": 1.8872, + "step": 463500 + }, + { + "epoch": 1.8559999999999999, + "grad_norm": 2.4969356060028076, + "learning_rate": 1.9066666666666668e-05, + "loss": 1.876, + "step": 464000 + }, + { + "epoch": 1.858, + "grad_norm": 4.2779998779296875, + "learning_rate": 1.9033333333333333e-05, + "loss": 1.8645, + "step": 464500 + }, + { + "epoch": 1.8599999999999999, + "grad_norm": 3.9311721324920654, + "learning_rate": 1.9e-05, + "loss": 1.955, + "step": 465000 + }, + { + "epoch": 1.862, + "grad_norm": 5.360598564147949, + "learning_rate": 1.896666666666667e-05, + "loss": 1.9189, + "step": 465500 + }, + { + "epoch": 1.8639999999999999, + "grad_norm": 4.165648937225342, + "learning_rate": 1.8933333333333334e-05, + "loss": 1.9643, + "step": 466000 + }, + { + "epoch": 1.866, + "grad_norm": 3.3789327144622803, + "learning_rate": 1.8900000000000002e-05, + "loss": 1.9457, + "step": 466500 + }, + { + "epoch": 1.8679999999999999, + "grad_norm": 2.632772922515869, + "learning_rate": 1.886666666666667e-05, + "loss": 1.9538, + "step": 467000 + }, + { + "epoch": 1.87, + "grad_norm": 2.74198842048645, + "learning_rate": 1.8833333333333335e-05, + "loss": 1.9059, + "step": 467500 + }, + { + "epoch": 1.8719999999999999, + "grad_norm": 3.201322555541992, + "learning_rate": 1.88e-05, + "loss": 1.9677, + "step": 468000 + }, + { + "epoch": 1.874, + "grad_norm": 3.470842123031616, + "learning_rate": 1.8766666666666668e-05, + "loss": 1.8851, + "step": 468500 + }, + { + "epoch": 1.876, + "grad_norm": 2.5852577686309814, + "learning_rate": 1.8733333333333332e-05, + "loss": 1.9228, + "step": 469000 + }, + { + "epoch": 1.8780000000000001, + "grad_norm": 4.127476692199707, + "learning_rate": 1.87e-05, + "loss": 1.9099, + "step": 469500 + }, + { + "epoch": 1.88, + "grad_norm": 3.2494888305664062, + "learning_rate": 1.866666666666667e-05, + "loss": 1.9128, + "step": 470000 + }, + { + "epoch": 1.8820000000000001, + "grad_norm": 3.6338748931884766, + "learning_rate": 1.8633333333333333e-05, + "loss": 1.8728, + "step": 470500 + }, + { + "epoch": 1.884, + "grad_norm": 3.7255539894104004, + "learning_rate": 1.86e-05, + "loss": 1.9554, + "step": 471000 + }, + { + "epoch": 1.8860000000000001, + "grad_norm": 3.644660234451294, + "learning_rate": 1.856666666666667e-05, + "loss": 1.9264, + "step": 471500 + }, + { + "epoch": 1.888, + "grad_norm": 2.7023730278015137, + "learning_rate": 1.8533333333333334e-05, + "loss": 1.8853, + "step": 472000 + }, + { + "epoch": 1.8900000000000001, + "grad_norm": 2.7731287479400635, + "learning_rate": 1.85e-05, + "loss": 1.9345, + "step": 472500 + }, + { + "epoch": 1.892, + "grad_norm": 3.208306074142456, + "learning_rate": 1.8466666666666667e-05, + "loss": 1.9623, + "step": 473000 + }, + { + "epoch": 1.8940000000000001, + "grad_norm": 3.389620780944824, + "learning_rate": 1.8433333333333332e-05, + "loss": 1.958, + "step": 473500 + }, + { + "epoch": 1.896, + "grad_norm": 4.9747724533081055, + "learning_rate": 1.84e-05, + "loss": 1.9203, + "step": 474000 + }, + { + "epoch": 1.8980000000000001, + "grad_norm": 3.4500491619110107, + "learning_rate": 1.8366666666666668e-05, + "loss": 1.8884, + "step": 474500 + }, + { + "epoch": 1.9, + "grad_norm": 3.523895502090454, + "learning_rate": 1.8333333333333333e-05, + "loss": 1.9645, + "step": 475000 + }, + { + "epoch": 1.9020000000000001, + "grad_norm": 3.284940242767334, + "learning_rate": 1.83e-05, + "loss": 1.9552, + "step": 475500 + }, + { + "epoch": 1.904, + "grad_norm": 3.399803400039673, + "learning_rate": 1.826666666666667e-05, + "loss": 1.9005, + "step": 476000 + }, + { + "epoch": 1.9060000000000001, + "grad_norm": 4.672763347625732, + "learning_rate": 1.8233333333333334e-05, + "loss": 1.8722, + "step": 476500 + }, + { + "epoch": 1.908, + "grad_norm": 2.5503244400024414, + "learning_rate": 1.8200000000000002e-05, + "loss": 1.9488, + "step": 477000 + }, + { + "epoch": 1.9100000000000001, + "grad_norm": 3.6954541206359863, + "learning_rate": 1.8166666666666667e-05, + "loss": 1.9132, + "step": 477500 + }, + { + "epoch": 1.912, + "grad_norm": 3.0261995792388916, + "learning_rate": 1.8133333333333335e-05, + "loss": 1.9014, + "step": 478000 + }, + { + "epoch": 1.9140000000000001, + "grad_norm": 2.897448778152466, + "learning_rate": 1.81e-05, + "loss": 1.9485, + "step": 478500 + }, + { + "epoch": 1.916, + "grad_norm": 4.201462268829346, + "learning_rate": 1.8066666666666668e-05, + "loss": 1.9614, + "step": 479000 + }, + { + "epoch": 1.9180000000000001, + "grad_norm": 2.8987390995025635, + "learning_rate": 1.8033333333333336e-05, + "loss": 1.858, + "step": 479500 + }, + { + "epoch": 1.92, + "grad_norm": 2.299197196960449, + "learning_rate": 1.8e-05, + "loss": 1.9101, + "step": 480000 + }, + { + "epoch": 1.9220000000000002, + "grad_norm": 3.8119993209838867, + "learning_rate": 1.796666666666667e-05, + "loss": 1.9533, + "step": 480500 + }, + { + "epoch": 1.924, + "grad_norm": 3.0587425231933594, + "learning_rate": 1.7933333333333337e-05, + "loss": 1.9387, + "step": 481000 + }, + { + "epoch": 1.9260000000000002, + "grad_norm": 2.6371004581451416, + "learning_rate": 1.79e-05, + "loss": 1.9034, + "step": 481500 + }, + { + "epoch": 1.928, + "grad_norm": 2.8021397590637207, + "learning_rate": 1.7866666666666666e-05, + "loss": 1.9347, + "step": 482000 + }, + { + "epoch": 1.9300000000000002, + "grad_norm": 5.199395656585693, + "learning_rate": 1.7833333333333334e-05, + "loss": 1.8959, + "step": 482500 + }, + { + "epoch": 1.932, + "grad_norm": 4.500895977020264, + "learning_rate": 1.78e-05, + "loss": 1.9165, + "step": 483000 + }, + { + "epoch": 1.9340000000000002, + "grad_norm": 4.193163871765137, + "learning_rate": 1.7766666666666667e-05, + "loss": 1.9305, + "step": 483500 + }, + { + "epoch": 1.936, + "grad_norm": 4.5656585693359375, + "learning_rate": 1.7733333333333335e-05, + "loss": 1.9732, + "step": 484000 + }, + { + "epoch": 1.938, + "grad_norm": 4.961602210998535, + "learning_rate": 1.77e-05, + "loss": 1.9507, + "step": 484500 + }, + { + "epoch": 1.94, + "grad_norm": 2.8561315536499023, + "learning_rate": 1.7666666666666668e-05, + "loss": 1.8744, + "step": 485000 + }, + { + "epoch": 1.942, + "grad_norm": 3.1731960773468018, + "learning_rate": 1.7633333333333336e-05, + "loss": 1.9143, + "step": 485500 + }, + { + "epoch": 1.944, + "grad_norm": 2.702399969100952, + "learning_rate": 1.76e-05, + "loss": 1.9142, + "step": 486000 + }, + { + "epoch": 1.946, + "grad_norm": 2.8238747119903564, + "learning_rate": 1.756666666666667e-05, + "loss": 1.9085, + "step": 486500 + }, + { + "epoch": 1.948, + "grad_norm": 3.7742156982421875, + "learning_rate": 1.7533333333333334e-05, + "loss": 1.961, + "step": 487000 + }, + { + "epoch": 1.95, + "grad_norm": 3.195427179336548, + "learning_rate": 1.75e-05, + "loss": 1.8293, + "step": 487500 + }, + { + "epoch": 1.952, + "grad_norm": 2.2018630504608154, + "learning_rate": 1.7466666666666667e-05, + "loss": 1.9127, + "step": 488000 + }, + { + "epoch": 1.954, + "grad_norm": 4.2638092041015625, + "learning_rate": 1.7433333333333335e-05, + "loss": 1.8868, + "step": 488500 + }, + { + "epoch": 1.956, + "grad_norm": 3.522920608520508, + "learning_rate": 1.74e-05, + "loss": 1.8576, + "step": 489000 + }, + { + "epoch": 1.958, + "grad_norm": 3.4361538887023926, + "learning_rate": 1.7366666666666668e-05, + "loss": 1.9602, + "step": 489500 + }, + { + "epoch": 1.96, + "grad_norm": 2.6690571308135986, + "learning_rate": 1.7333333333333336e-05, + "loss": 1.9257, + "step": 490000 + }, + { + "epoch": 1.962, + "grad_norm": 3.4189460277557373, + "learning_rate": 1.73e-05, + "loss": 1.9053, + "step": 490500 + }, + { + "epoch": 1.964, + "grad_norm": 3.2636494636535645, + "learning_rate": 1.726666666666667e-05, + "loss": 1.9066, + "step": 491000 + }, + { + "epoch": 1.966, + "grad_norm": 2.9824066162109375, + "learning_rate": 1.7233333333333333e-05, + "loss": 1.9618, + "step": 491500 + }, + { + "epoch": 1.968, + "grad_norm": 3.5257973670959473, + "learning_rate": 1.7199999999999998e-05, + "loss": 1.8851, + "step": 492000 + }, + { + "epoch": 1.97, + "grad_norm": 1.9112154245376587, + "learning_rate": 1.7166666666666666e-05, + "loss": 1.9247, + "step": 492500 + }, + { + "epoch": 1.972, + "grad_norm": 3.0634167194366455, + "learning_rate": 1.7133333333333334e-05, + "loss": 1.9762, + "step": 493000 + }, + { + "epoch": 1.974, + "grad_norm": 2.112546920776367, + "learning_rate": 1.7100000000000002e-05, + "loss": 1.9128, + "step": 493500 + }, + { + "epoch": 1.976, + "grad_norm": 2.6833152770996094, + "learning_rate": 1.7066666666666667e-05, + "loss": 1.9312, + "step": 494000 + }, + { + "epoch": 1.978, + "grad_norm": 3.0724921226501465, + "learning_rate": 1.7033333333333335e-05, + "loss": 1.9515, + "step": 494500 + }, + { + "epoch": 1.98, + "grad_norm": 2.273602247238159, + "learning_rate": 1.7000000000000003e-05, + "loss": 1.9258, + "step": 495000 + }, + { + "epoch": 1.982, + "grad_norm": 2.6353919506073, + "learning_rate": 1.6966666666666668e-05, + "loss": 1.9377, + "step": 495500 + }, + { + "epoch": 1.984, + "grad_norm": 2.9519219398498535, + "learning_rate": 1.6933333333333333e-05, + "loss": 1.9656, + "step": 496000 + }, + { + "epoch": 1.986, + "grad_norm": 3.816542387008667, + "learning_rate": 1.69e-05, + "loss": 1.8408, + "step": 496500 + }, + { + "epoch": 1.988, + "grad_norm": 3.413533926010132, + "learning_rate": 1.6866666666666666e-05, + "loss": 1.9059, + "step": 497000 + }, + { + "epoch": 1.99, + "grad_norm": 4.297741413116455, + "learning_rate": 1.6833333333333334e-05, + "loss": 1.8856, + "step": 497500 + }, + { + "epoch": 1.992, + "grad_norm": 2.428008556365967, + "learning_rate": 1.6800000000000002e-05, + "loss": 1.8678, + "step": 498000 + }, + { + "epoch": 1.994, + "grad_norm": 3.6683671474456787, + "learning_rate": 1.6766666666666667e-05, + "loss": 1.938, + "step": 498500 + }, + { + "epoch": 1.996, + "grad_norm": 3.5515244007110596, + "learning_rate": 1.6733333333333335e-05, + "loss": 1.9577, + "step": 499000 + }, + { + "epoch": 1.998, + "grad_norm": 2.1118688583374023, + "learning_rate": 1.6700000000000003e-05, + "loss": 1.91, + "step": 499500 + }, + { + "epoch": 2.0, + "grad_norm": 4.061803817749023, + "learning_rate": 1.6666666666666667e-05, + "loss": 1.9263, + "step": 500000 + }, + { + "epoch": 2.002, + "grad_norm": 7.516952037811279, + "learning_rate": 1.6633333333333336e-05, + "loss": 1.8706, + "step": 500500 + }, + { + "epoch": 2.004, + "grad_norm": 1.99518883228302, + "learning_rate": 1.66e-05, + "loss": 1.8827, + "step": 501000 + }, + { + "epoch": 2.006, + "grad_norm": 2.8842196464538574, + "learning_rate": 1.6566666666666665e-05, + "loss": 1.9248, + "step": 501500 + }, + { + "epoch": 2.008, + "grad_norm": 3.3798069953918457, + "learning_rate": 1.6533333333333333e-05, + "loss": 1.9396, + "step": 502000 + }, + { + "epoch": 2.01, + "grad_norm": 2.733304023742676, + "learning_rate": 1.65e-05, + "loss": 1.968, + "step": 502500 + }, + { + "epoch": 2.012, + "grad_norm": 3.890256404876709, + "learning_rate": 1.6466666666666666e-05, + "loss": 1.9008, + "step": 503000 + }, + { + "epoch": 2.014, + "grad_norm": 2.991520404815674, + "learning_rate": 1.6433333333333334e-05, + "loss": 1.9079, + "step": 503500 + }, + { + "epoch": 2.016, + "grad_norm": 4.143782138824463, + "learning_rate": 1.6400000000000002e-05, + "loss": 1.8297, + "step": 504000 + }, + { + "epoch": 2.018, + "grad_norm": 2.547020673751831, + "learning_rate": 1.6366666666666667e-05, + "loss": 1.9209, + "step": 504500 + }, + { + "epoch": 2.02, + "grad_norm": 2.988551139831543, + "learning_rate": 1.6333333333333335e-05, + "loss": 1.8811, + "step": 505000 + }, + { + "epoch": 2.022, + "grad_norm": 2.994225025177002, + "learning_rate": 1.63e-05, + "loss": 1.8975, + "step": 505500 + }, + { + "epoch": 2.024, + "grad_norm": 3.2524096965789795, + "learning_rate": 1.6266666666666665e-05, + "loss": 1.9288, + "step": 506000 + }, + { + "epoch": 2.026, + "grad_norm": 3.9552001953125, + "learning_rate": 1.6233333333333333e-05, + "loss": 1.8949, + "step": 506500 + }, + { + "epoch": 2.028, + "grad_norm": 3.5442562103271484, + "learning_rate": 1.62e-05, + "loss": 1.8644, + "step": 507000 + }, + { + "epoch": 2.03, + "grad_norm": 3.977022409439087, + "learning_rate": 1.6166666666666665e-05, + "loss": 1.8287, + "step": 507500 + }, + { + "epoch": 2.032, + "grad_norm": 3.1233479976654053, + "learning_rate": 1.6133333333333334e-05, + "loss": 1.8862, + "step": 508000 + }, + { + "epoch": 2.034, + "grad_norm": 3.709524393081665, + "learning_rate": 1.6100000000000002e-05, + "loss": 1.8659, + "step": 508500 + }, + { + "epoch": 2.036, + "grad_norm": 3.5073769092559814, + "learning_rate": 1.606666666666667e-05, + "loss": 1.9096, + "step": 509000 + }, + { + "epoch": 2.038, + "grad_norm": 3.7665152549743652, + "learning_rate": 1.6033333333333335e-05, + "loss": 1.8907, + "step": 509500 + }, + { + "epoch": 2.04, + "grad_norm": 4.603018283843994, + "learning_rate": 1.6000000000000003e-05, + "loss": 1.8886, + "step": 510000 + }, + { + "epoch": 2.042, + "grad_norm": 4.710312843322754, + "learning_rate": 1.5966666666666667e-05, + "loss": 1.9498, + "step": 510500 + }, + { + "epoch": 2.044, + "grad_norm": 3.4907758235931396, + "learning_rate": 1.5933333333333332e-05, + "loss": 1.9231, + "step": 511000 + }, + { + "epoch": 2.046, + "grad_norm": 2.5031802654266357, + "learning_rate": 1.59e-05, + "loss": 1.8835, + "step": 511500 + }, + { + "epoch": 2.048, + "grad_norm": 3.5436174869537354, + "learning_rate": 1.586666666666667e-05, + "loss": 1.9235, + "step": 512000 + }, + { + "epoch": 2.05, + "grad_norm": 3.064300060272217, + "learning_rate": 1.5833333333333333e-05, + "loss": 1.8486, + "step": 512500 + }, + { + "epoch": 2.052, + "grad_norm": 4.113504409790039, + "learning_rate": 1.58e-05, + "loss": 1.8788, + "step": 513000 + }, + { + "epoch": 2.054, + "grad_norm": 2.2760467529296875, + "learning_rate": 1.576666666666667e-05, + "loss": 1.9129, + "step": 513500 + }, + { + "epoch": 2.056, + "grad_norm": 3.8424925804138184, + "learning_rate": 1.5733333333333334e-05, + "loss": 1.9266, + "step": 514000 + }, + { + "epoch": 2.058, + "grad_norm": 3.4564108848571777, + "learning_rate": 1.5700000000000002e-05, + "loss": 1.885, + "step": 514500 + }, + { + "epoch": 2.06, + "grad_norm": 3.039109945297241, + "learning_rate": 1.5666666666666667e-05, + "loss": 1.907, + "step": 515000 + }, + { + "epoch": 2.062, + "grad_norm": 2.940662145614624, + "learning_rate": 1.563333333333333e-05, + "loss": 1.9565, + "step": 515500 + }, + { + "epoch": 2.064, + "grad_norm": 4.041988849639893, + "learning_rate": 1.56e-05, + "loss": 1.8616, + "step": 516000 + }, + { + "epoch": 2.066, + "grad_norm": 2.848482608795166, + "learning_rate": 1.5566666666666668e-05, + "loss": 1.9008, + "step": 516500 + }, + { + "epoch": 2.068, + "grad_norm": 2.872119665145874, + "learning_rate": 1.5533333333333333e-05, + "loss": 1.883, + "step": 517000 + }, + { + "epoch": 2.07, + "grad_norm": 3.5374927520751953, + "learning_rate": 1.55e-05, + "loss": 1.9051, + "step": 517500 + }, + { + "epoch": 2.072, + "grad_norm": 3.942072629928589, + "learning_rate": 1.546666666666667e-05, + "loss": 1.8929, + "step": 518000 + }, + { + "epoch": 2.074, + "grad_norm": 2.7304999828338623, + "learning_rate": 1.5433333333333334e-05, + "loss": 1.8927, + "step": 518500 + }, + { + "epoch": 2.076, + "grad_norm": 3.5837740898132324, + "learning_rate": 1.54e-05, + "loss": 1.891, + "step": 519000 + }, + { + "epoch": 2.078, + "grad_norm": 2.614603281021118, + "learning_rate": 1.536666666666667e-05, + "loss": 1.9218, + "step": 519500 + }, + { + "epoch": 2.08, + "grad_norm": 2.8395819664001465, + "learning_rate": 1.5333333333333334e-05, + "loss": 1.9042, + "step": 520000 + }, + { + "epoch": 2.082, + "grad_norm": 3.220353364944458, + "learning_rate": 1.53e-05, + "loss": 1.91, + "step": 520500 + }, + { + "epoch": 2.084, + "grad_norm": 3.600212574005127, + "learning_rate": 1.5266666666666667e-05, + "loss": 1.9439, + "step": 521000 + }, + { + "epoch": 2.086, + "grad_norm": 3.132828950881958, + "learning_rate": 1.5233333333333332e-05, + "loss": 1.8983, + "step": 521500 + }, + { + "epoch": 2.088, + "grad_norm": 3.937420129776001, + "learning_rate": 1.52e-05, + "loss": 1.8759, + "step": 522000 + }, + { + "epoch": 2.09, + "grad_norm": 2.952033042907715, + "learning_rate": 1.5166666666666668e-05, + "loss": 1.9049, + "step": 522500 + }, + { + "epoch": 2.092, + "grad_norm": 2.5694615840911865, + "learning_rate": 1.5133333333333333e-05, + "loss": 1.9664, + "step": 523000 + }, + { + "epoch": 2.094, + "grad_norm": 3.440437078475952, + "learning_rate": 1.51e-05, + "loss": 1.8997, + "step": 523500 + }, + { + "epoch": 2.096, + "grad_norm": 2.9814558029174805, + "learning_rate": 1.5066666666666668e-05, + "loss": 1.9387, + "step": 524000 + }, + { + "epoch": 2.098, + "grad_norm": 4.388236999511719, + "learning_rate": 1.5033333333333336e-05, + "loss": 1.8811, + "step": 524500 + }, + { + "epoch": 2.1, + "grad_norm": 5.515291213989258, + "learning_rate": 1.5e-05, + "loss": 1.8794, + "step": 525000 + }, + { + "epoch": 2.102, + "grad_norm": 3.57409930229187, + "learning_rate": 1.4966666666666668e-05, + "loss": 1.9401, + "step": 525500 + }, + { + "epoch": 2.104, + "grad_norm": 2.788435935974121, + "learning_rate": 1.4933333333333335e-05, + "loss": 1.9224, + "step": 526000 + }, + { + "epoch": 2.106, + "grad_norm": 3.6159706115722656, + "learning_rate": 1.49e-05, + "loss": 1.8863, + "step": 526500 + }, + { + "epoch": 2.108, + "grad_norm": 3.8776602745056152, + "learning_rate": 1.4866666666666668e-05, + "loss": 1.8946, + "step": 527000 + }, + { + "epoch": 2.11, + "grad_norm": 3.5020999908447266, + "learning_rate": 1.4833333333333336e-05, + "loss": 1.9351, + "step": 527500 + }, + { + "epoch": 2.112, + "grad_norm": 4.156538486480713, + "learning_rate": 1.48e-05, + "loss": 1.9466, + "step": 528000 + }, + { + "epoch": 2.114, + "grad_norm": 3.4934823513031006, + "learning_rate": 1.4766666666666667e-05, + "loss": 1.8991, + "step": 528500 + }, + { + "epoch": 2.116, + "grad_norm": 3.538376808166504, + "learning_rate": 1.4733333333333335e-05, + "loss": 1.8784, + "step": 529000 + }, + { + "epoch": 2.118, + "grad_norm": 4.742537975311279, + "learning_rate": 1.47e-05, + "loss": 1.901, + "step": 529500 + }, + { + "epoch": 2.12, + "grad_norm": 2.6691787242889404, + "learning_rate": 1.4666666666666668e-05, + "loss": 1.8687, + "step": 530000 + }, + { + "epoch": 2.122, + "grad_norm": 3.3258254528045654, + "learning_rate": 1.4633333333333334e-05, + "loss": 1.9045, + "step": 530500 + }, + { + "epoch": 2.124, + "grad_norm": 2.6713833808898926, + "learning_rate": 1.4599999999999999e-05, + "loss": 1.8878, + "step": 531000 + }, + { + "epoch": 2.126, + "grad_norm": 3.0347344875335693, + "learning_rate": 1.4566666666666667e-05, + "loss": 1.8862, + "step": 531500 + }, + { + "epoch": 2.128, + "grad_norm": 2.6107699871063232, + "learning_rate": 1.4533333333333335e-05, + "loss": 1.897, + "step": 532000 + }, + { + "epoch": 2.13, + "grad_norm": 2.6980161666870117, + "learning_rate": 1.45e-05, + "loss": 1.901, + "step": 532500 + }, + { + "epoch": 2.132, + "grad_norm": 2.668734550476074, + "learning_rate": 1.4466666666666667e-05, + "loss": 1.8761, + "step": 533000 + }, + { + "epoch": 2.134, + "grad_norm": 4.179068088531494, + "learning_rate": 1.4433333333333335e-05, + "loss": 1.8778, + "step": 533500 + }, + { + "epoch": 2.136, + "grad_norm": 2.7158665657043457, + "learning_rate": 1.44e-05, + "loss": 1.8767, + "step": 534000 + }, + { + "epoch": 2.138, + "grad_norm": 3.4450862407684326, + "learning_rate": 1.4366666666666667e-05, + "loss": 1.8997, + "step": 534500 + }, + { + "epoch": 2.14, + "grad_norm": 2.5921220779418945, + "learning_rate": 1.4333333333333334e-05, + "loss": 1.9043, + "step": 535000 + }, + { + "epoch": 2.142, + "grad_norm": 2.932007312774658, + "learning_rate": 1.43e-05, + "loss": 1.9328, + "step": 535500 + }, + { + "epoch": 2.144, + "grad_norm": 3.7363457679748535, + "learning_rate": 1.4266666666666667e-05, + "loss": 1.8865, + "step": 536000 + }, + { + "epoch": 2.146, + "grad_norm": 2.9383416175842285, + "learning_rate": 1.4233333333333335e-05, + "loss": 1.9289, + "step": 536500 + }, + { + "epoch": 2.148, + "grad_norm": 5.275363445281982, + "learning_rate": 1.42e-05, + "loss": 1.9072, + "step": 537000 + }, + { + "epoch": 2.15, + "grad_norm": 4.390030860900879, + "learning_rate": 1.4166666666666668e-05, + "loss": 1.9127, + "step": 537500 + }, + { + "epoch": 2.152, + "grad_norm": 3.8136355876922607, + "learning_rate": 1.4133333333333334e-05, + "loss": 1.9097, + "step": 538000 + }, + { + "epoch": 2.154, + "grad_norm": 2.7460992336273193, + "learning_rate": 1.4099999999999999e-05, + "loss": 1.8847, + "step": 538500 + }, + { + "epoch": 2.156, + "grad_norm": 2.7037174701690674, + "learning_rate": 1.4066666666666667e-05, + "loss": 1.8886, + "step": 539000 + }, + { + "epoch": 2.158, + "grad_norm": 3.254654884338379, + "learning_rate": 1.4033333333333335e-05, + "loss": 1.86, + "step": 539500 + }, + { + "epoch": 2.16, + "grad_norm": 0.9252458214759827, + "learning_rate": 1.4000000000000001e-05, + "loss": 1.8845, + "step": 540000 + }, + { + "epoch": 2.162, + "grad_norm": 2.2878942489624023, + "learning_rate": 1.3966666666666666e-05, + "loss": 1.9081, + "step": 540500 + }, + { + "epoch": 2.164, + "grad_norm": 3.7458975315093994, + "learning_rate": 1.3933333333333334e-05, + "loss": 1.8792, + "step": 541000 + }, + { + "epoch": 2.166, + "grad_norm": 1.9481960535049438, + "learning_rate": 1.3900000000000002e-05, + "loss": 1.9414, + "step": 541500 + }, + { + "epoch": 2.168, + "grad_norm": 3.8123795986175537, + "learning_rate": 1.3866666666666667e-05, + "loss": 1.8878, + "step": 542000 + }, + { + "epoch": 2.17, + "grad_norm": 3.0898687839508057, + "learning_rate": 1.3833333333333334e-05, + "loss": 1.9291, + "step": 542500 + }, + { + "epoch": 2.172, + "grad_norm": 3.913783550262451, + "learning_rate": 1.3800000000000002e-05, + "loss": 1.866, + "step": 543000 + }, + { + "epoch": 2.174, + "grad_norm": 4.678142547607422, + "learning_rate": 1.3766666666666666e-05, + "loss": 1.8901, + "step": 543500 + }, + { + "epoch": 2.176, + "grad_norm": 4.407011985778809, + "learning_rate": 1.3733333333333335e-05, + "loss": 1.9181, + "step": 544000 + }, + { + "epoch": 2.178, + "grad_norm": 3.8431427478790283, + "learning_rate": 1.3700000000000001e-05, + "loss": 1.8872, + "step": 544500 + }, + { + "epoch": 2.18, + "grad_norm": 5.471756458282471, + "learning_rate": 1.3666666666666666e-05, + "loss": 1.8523, + "step": 545000 + }, + { + "epoch": 2.182, + "grad_norm": 4.193549633026123, + "learning_rate": 1.3633333333333334e-05, + "loss": 1.9087, + "step": 545500 + }, + { + "epoch": 2.184, + "grad_norm": 6.040940284729004, + "learning_rate": 1.3600000000000002e-05, + "loss": 1.904, + "step": 546000 + }, + { + "epoch": 2.186, + "grad_norm": 4.958623886108398, + "learning_rate": 1.3566666666666667e-05, + "loss": 1.8872, + "step": 546500 + }, + { + "epoch": 2.188, + "grad_norm": 3.5732219219207764, + "learning_rate": 1.3533333333333335e-05, + "loss": 1.8854, + "step": 547000 + }, + { + "epoch": 2.19, + "grad_norm": 2.6640355587005615, + "learning_rate": 1.3500000000000001e-05, + "loss": 1.9091, + "step": 547500 + }, + { + "epoch": 2.192, + "grad_norm": 2.6168007850646973, + "learning_rate": 1.3466666666666666e-05, + "loss": 1.9159, + "step": 548000 + }, + { + "epoch": 2.194, + "grad_norm": 3.4819018840789795, + "learning_rate": 1.3433333333333334e-05, + "loss": 1.9258, + "step": 548500 + }, + { + "epoch": 2.196, + "grad_norm": 4.565124034881592, + "learning_rate": 1.3400000000000002e-05, + "loss": 1.8849, + "step": 549000 + }, + { + "epoch": 2.198, + "grad_norm": 3.159424304962158, + "learning_rate": 1.3366666666666667e-05, + "loss": 1.9123, + "step": 549500 + }, + { + "epoch": 2.2, + "grad_norm": 2.9942736625671387, + "learning_rate": 1.3333333333333333e-05, + "loss": 1.9404, + "step": 550000 + }, + { + "epoch": 2.202, + "grad_norm": 2.966594934463501, + "learning_rate": 1.3300000000000001e-05, + "loss": 1.8928, + "step": 550500 + }, + { + "epoch": 2.204, + "grad_norm": 2.156978130340576, + "learning_rate": 1.3266666666666666e-05, + "loss": 1.8976, + "step": 551000 + }, + { + "epoch": 2.206, + "grad_norm": 2.2983994483947754, + "learning_rate": 1.3233333333333334e-05, + "loss": 1.8812, + "step": 551500 + }, + { + "epoch": 2.208, + "grad_norm": 3.509923219680786, + "learning_rate": 1.32e-05, + "loss": 1.864, + "step": 552000 + }, + { + "epoch": 2.21, + "grad_norm": 5.821509838104248, + "learning_rate": 1.3166666666666665e-05, + "loss": 1.8775, + "step": 552500 + }, + { + "epoch": 2.212, + "grad_norm": 2.919370174407959, + "learning_rate": 1.3133333333333334e-05, + "loss": 1.942, + "step": 553000 + }, + { + "epoch": 2.214, + "grad_norm": 1.576897144317627, + "learning_rate": 1.3100000000000002e-05, + "loss": 1.8807, + "step": 553500 + }, + { + "epoch": 2.216, + "grad_norm": 1.7386987209320068, + "learning_rate": 1.3066666666666666e-05, + "loss": 1.8703, + "step": 554000 + }, + { + "epoch": 2.218, + "grad_norm": 5.212026119232178, + "learning_rate": 1.3033333333333333e-05, + "loss": 1.9167, + "step": 554500 + }, + { + "epoch": 2.22, + "grad_norm": 2.764861583709717, + "learning_rate": 1.3000000000000001e-05, + "loss": 1.8782, + "step": 555000 + }, + { + "epoch": 2.222, + "grad_norm": 3.53177809715271, + "learning_rate": 1.2966666666666669e-05, + "loss": 1.8982, + "step": 555500 + }, + { + "epoch": 2.224, + "grad_norm": 3.263517379760742, + "learning_rate": 1.2933333333333334e-05, + "loss": 1.8831, + "step": 556000 + }, + { + "epoch": 2.226, + "grad_norm": 3.6698548793792725, + "learning_rate": 1.29e-05, + "loss": 1.9103, + "step": 556500 + }, + { + "epoch": 2.228, + "grad_norm": 2.7414796352386475, + "learning_rate": 1.2866666666666668e-05, + "loss": 1.9035, + "step": 557000 + }, + { + "epoch": 2.23, + "grad_norm": 2.726566791534424, + "learning_rate": 1.2833333333333333e-05, + "loss": 1.8897, + "step": 557500 + }, + { + "epoch": 2.232, + "grad_norm": 2.6382150650024414, + "learning_rate": 1.2800000000000001e-05, + "loss": 1.9157, + "step": 558000 + }, + { + "epoch": 2.234, + "grad_norm": 5.427677631378174, + "learning_rate": 1.276666666666667e-05, + "loss": 1.8836, + "step": 558500 + }, + { + "epoch": 2.2359999999999998, + "grad_norm": 3.0854194164276123, + "learning_rate": 1.2733333333333334e-05, + "loss": 1.9062, + "step": 559000 + }, + { + "epoch": 2.238, + "grad_norm": 5.310868740081787, + "learning_rate": 1.27e-05, + "loss": 1.8599, + "step": 559500 + }, + { + "epoch": 2.24, + "grad_norm": 2.9961390495300293, + "learning_rate": 1.2666666666666668e-05, + "loss": 1.8811, + "step": 560000 + }, + { + "epoch": 2.242, + "grad_norm": 2.962911367416382, + "learning_rate": 1.2633333333333333e-05, + "loss": 1.8505, + "step": 560500 + }, + { + "epoch": 2.2439999999999998, + "grad_norm": 2.7005624771118164, + "learning_rate": 1.2600000000000001e-05, + "loss": 1.8509, + "step": 561000 + }, + { + "epoch": 2.246, + "grad_norm": 3.6591291427612305, + "learning_rate": 1.2566666666666668e-05, + "loss": 1.9609, + "step": 561500 + }, + { + "epoch": 2.248, + "grad_norm": 4.7681565284729, + "learning_rate": 1.2533333333333332e-05, + "loss": 1.913, + "step": 562000 + }, + { + "epoch": 2.25, + "grad_norm": 1.7412201166152954, + "learning_rate": 1.25e-05, + "loss": 1.8559, + "step": 562500 + }, + { + "epoch": 2.252, + "grad_norm": 2.5334091186523438, + "learning_rate": 1.2466666666666667e-05, + "loss": 1.8927, + "step": 563000 + }, + { + "epoch": 2.254, + "grad_norm": 3.22037935256958, + "learning_rate": 1.2433333333333335e-05, + "loss": 1.8908, + "step": 563500 + }, + { + "epoch": 2.2560000000000002, + "grad_norm": 2.89141845703125, + "learning_rate": 1.24e-05, + "loss": 1.9244, + "step": 564000 + }, + { + "epoch": 2.258, + "grad_norm": 4.080277442932129, + "learning_rate": 1.2366666666666666e-05, + "loss": 1.8939, + "step": 564500 + }, + { + "epoch": 2.26, + "grad_norm": 4.0698442459106445, + "learning_rate": 1.2333333333333334e-05, + "loss": 1.8698, + "step": 565000 + }, + { + "epoch": 2.262, + "grad_norm": 5.503513813018799, + "learning_rate": 1.23e-05, + "loss": 1.9065, + "step": 565500 + }, + { + "epoch": 2.2640000000000002, + "grad_norm": 2.9533393383026123, + "learning_rate": 1.2266666666666667e-05, + "loss": 1.862, + "step": 566000 + }, + { + "epoch": 2.266, + "grad_norm": 3.555912733078003, + "learning_rate": 1.2233333333333334e-05, + "loss": 1.8454, + "step": 566500 + }, + { + "epoch": 2.268, + "grad_norm": 2.3965213298797607, + "learning_rate": 1.22e-05, + "loss": 1.8947, + "step": 567000 + }, + { + "epoch": 2.27, + "grad_norm": 3.87776255607605, + "learning_rate": 1.2166666666666668e-05, + "loss": 1.8961, + "step": 567500 + }, + { + "epoch": 2.2720000000000002, + "grad_norm": 3.0097196102142334, + "learning_rate": 1.2133333333333335e-05, + "loss": 1.9398, + "step": 568000 + }, + { + "epoch": 2.274, + "grad_norm": 2.555629014968872, + "learning_rate": 1.2100000000000001e-05, + "loss": 1.8943, + "step": 568500 + }, + { + "epoch": 2.276, + "grad_norm": 3.1103897094726562, + "learning_rate": 1.2066666666666667e-05, + "loss": 1.9077, + "step": 569000 + }, + { + "epoch": 2.278, + "grad_norm": 2.6799404621124268, + "learning_rate": 1.2033333333333334e-05, + "loss": 1.8463, + "step": 569500 + }, + { + "epoch": 2.2800000000000002, + "grad_norm": 2.889711380004883, + "learning_rate": 1.2e-05, + "loss": 1.8218, + "step": 570000 + }, + { + "epoch": 2.282, + "grad_norm": 2.04535174369812, + "learning_rate": 1.1966666666666668e-05, + "loss": 1.8976, + "step": 570500 + }, + { + "epoch": 2.284, + "grad_norm": 2.933461904525757, + "learning_rate": 1.1933333333333333e-05, + "loss": 1.9186, + "step": 571000 + }, + { + "epoch": 2.286, + "grad_norm": 3.440293550491333, + "learning_rate": 1.19e-05, + "loss": 1.9146, + "step": 571500 + }, + { + "epoch": 2.288, + "grad_norm": 4.65705680847168, + "learning_rate": 1.1866666666666668e-05, + "loss": 1.9066, + "step": 572000 + }, + { + "epoch": 2.29, + "grad_norm": 4.189986705780029, + "learning_rate": 1.1833333333333334e-05, + "loss": 1.9129, + "step": 572500 + }, + { + "epoch": 2.292, + "grad_norm": 3.0416994094848633, + "learning_rate": 1.18e-05, + "loss": 1.874, + "step": 573000 + }, + { + "epoch": 2.294, + "grad_norm": 2.981658697128296, + "learning_rate": 1.1766666666666667e-05, + "loss": 1.8945, + "step": 573500 + }, + { + "epoch": 2.296, + "grad_norm": 2.5901129245758057, + "learning_rate": 1.1733333333333333e-05, + "loss": 1.9399, + "step": 574000 + }, + { + "epoch": 2.298, + "grad_norm": 1.855245590209961, + "learning_rate": 1.1700000000000001e-05, + "loss": 1.8979, + "step": 574500 + }, + { + "epoch": 2.3, + "grad_norm": 5.531369209289551, + "learning_rate": 1.1666666666666668e-05, + "loss": 1.8559, + "step": 575000 + }, + { + "epoch": 2.302, + "grad_norm": 2.6655666828155518, + "learning_rate": 1.1633333333333334e-05, + "loss": 1.8883, + "step": 575500 + }, + { + "epoch": 2.304, + "grad_norm": 3.288712501525879, + "learning_rate": 1.16e-05, + "loss": 1.8703, + "step": 576000 + }, + { + "epoch": 2.306, + "grad_norm": 3.378002405166626, + "learning_rate": 1.1566666666666667e-05, + "loss": 1.9143, + "step": 576500 + }, + { + "epoch": 2.308, + "grad_norm": 2.586623430252075, + "learning_rate": 1.1533333333333334e-05, + "loss": 1.8799, + "step": 577000 + }, + { + "epoch": 2.31, + "grad_norm": 2.1906540393829346, + "learning_rate": 1.1500000000000002e-05, + "loss": 1.8487, + "step": 577500 + }, + { + "epoch": 2.312, + "grad_norm": 2.9062159061431885, + "learning_rate": 1.1466666666666666e-05, + "loss": 1.8397, + "step": 578000 + }, + { + "epoch": 2.314, + "grad_norm": 3.4913947582244873, + "learning_rate": 1.1433333333333333e-05, + "loss": 1.9508, + "step": 578500 + }, + { + "epoch": 2.316, + "grad_norm": 5.257672309875488, + "learning_rate": 1.1400000000000001e-05, + "loss": 1.8991, + "step": 579000 + }, + { + "epoch": 2.318, + "grad_norm": 3.3229730129241943, + "learning_rate": 1.1366666666666667e-05, + "loss": 1.8936, + "step": 579500 + }, + { + "epoch": 2.32, + "grad_norm": 2.4324612617492676, + "learning_rate": 1.1333333333333334e-05, + "loss": 1.895, + "step": 580000 + }, + { + "epoch": 2.322, + "grad_norm": 3.121965169906616, + "learning_rate": 1.13e-05, + "loss": 1.9267, + "step": 580500 + }, + { + "epoch": 2.324, + "grad_norm": 2.727795362472534, + "learning_rate": 1.1266666666666667e-05, + "loss": 1.8442, + "step": 581000 + }, + { + "epoch": 2.326, + "grad_norm": 3.414295196533203, + "learning_rate": 1.1233333333333333e-05, + "loss": 1.9144, + "step": 581500 + }, + { + "epoch": 2.328, + "grad_norm": 3.7727465629577637, + "learning_rate": 1.1200000000000001e-05, + "loss": 1.9024, + "step": 582000 + }, + { + "epoch": 2.33, + "grad_norm": 2.759531259536743, + "learning_rate": 1.1166666666666668e-05, + "loss": 1.9023, + "step": 582500 + }, + { + "epoch": 2.332, + "grad_norm": 2.8397293090820312, + "learning_rate": 1.1133333333333334e-05, + "loss": 1.9022, + "step": 583000 + }, + { + "epoch": 2.334, + "grad_norm": 3.569690227508545, + "learning_rate": 1.11e-05, + "loss": 1.9019, + "step": 583500 + }, + { + "epoch": 2.336, + "grad_norm": 3.554769277572632, + "learning_rate": 1.1066666666666667e-05, + "loss": 1.8686, + "step": 584000 + }, + { + "epoch": 2.338, + "grad_norm": 3.0585317611694336, + "learning_rate": 1.1033333333333335e-05, + "loss": 1.8991, + "step": 584500 + }, + { + "epoch": 2.34, + "grad_norm": 4.547719955444336, + "learning_rate": 1.1000000000000001e-05, + "loss": 1.8881, + "step": 585000 + }, + { + "epoch": 2.342, + "grad_norm": 2.882516384124756, + "learning_rate": 1.0966666666666666e-05, + "loss": 1.8466, + "step": 585500 + }, + { + "epoch": 2.344, + "grad_norm": 2.5705254077911377, + "learning_rate": 1.0933333333333334e-05, + "loss": 1.9461, + "step": 586000 + }, + { + "epoch": 2.346, + "grad_norm": 4.421859264373779, + "learning_rate": 1.09e-05, + "loss": 1.9265, + "step": 586500 + }, + { + "epoch": 2.348, + "grad_norm": 2.880268096923828, + "learning_rate": 1.0866666666666667e-05, + "loss": 1.8919, + "step": 587000 + }, + { + "epoch": 2.35, + "grad_norm": 4.9404191970825195, + "learning_rate": 1.0833333333333334e-05, + "loss": 1.888, + "step": 587500 + }, + { + "epoch": 2.352, + "grad_norm": 3.3267626762390137, + "learning_rate": 1.08e-05, + "loss": 1.9035, + "step": 588000 + }, + { + "epoch": 2.354, + "grad_norm": 3.39530611038208, + "learning_rate": 1.0766666666666666e-05, + "loss": 1.9084, + "step": 588500 + }, + { + "epoch": 2.356, + "grad_norm": 2.8372628688812256, + "learning_rate": 1.0733333333333334e-05, + "loss": 1.9451, + "step": 589000 + }, + { + "epoch": 2.358, + "grad_norm": 2.246088981628418, + "learning_rate": 1.0700000000000001e-05, + "loss": 1.8733, + "step": 589500 + }, + { + "epoch": 2.36, + "grad_norm": 3.605590343475342, + "learning_rate": 1.0666666666666667e-05, + "loss": 1.8825, + "step": 590000 + }, + { + "epoch": 2.362, + "grad_norm": 4.215860366821289, + "learning_rate": 1.0633333333333334e-05, + "loss": 1.8785, + "step": 590500 + }, + { + "epoch": 2.364, + "grad_norm": 3.2889246940612793, + "learning_rate": 1.06e-05, + "loss": 1.8804, + "step": 591000 + }, + { + "epoch": 2.366, + "grad_norm": 3.1713948249816895, + "learning_rate": 1.0566666666666668e-05, + "loss": 1.917, + "step": 591500 + }, + { + "epoch": 2.368, + "grad_norm": 3.532456159591675, + "learning_rate": 1.0533333333333335e-05, + "loss": 1.8703, + "step": 592000 + }, + { + "epoch": 2.37, + "grad_norm": 3.9838836193084717, + "learning_rate": 1.05e-05, + "loss": 1.8841, + "step": 592500 + }, + { + "epoch": 2.372, + "grad_norm": 7.132261753082275, + "learning_rate": 1.0466666666666668e-05, + "loss": 1.9091, + "step": 593000 + }, + { + "epoch": 2.374, + "grad_norm": 3.121617317199707, + "learning_rate": 1.0433333333333334e-05, + "loss": 1.8464, + "step": 593500 + }, + { + "epoch": 2.376, + "grad_norm": 3.3648314476013184, + "learning_rate": 1.04e-05, + "loss": 1.8886, + "step": 594000 + }, + { + "epoch": 2.378, + "grad_norm": 4.1274285316467285, + "learning_rate": 1.0366666666666667e-05, + "loss": 1.8994, + "step": 594500 + }, + { + "epoch": 2.38, + "grad_norm": 2.946350574493408, + "learning_rate": 1.0333333333333333e-05, + "loss": 1.9031, + "step": 595000 + }, + { + "epoch": 2.382, + "grad_norm": 2.427210569381714, + "learning_rate": 1.03e-05, + "loss": 1.866, + "step": 595500 + }, + { + "epoch": 2.384, + "grad_norm": 3.5120413303375244, + "learning_rate": 1.0266666666666668e-05, + "loss": 1.8928, + "step": 596000 + }, + { + "epoch": 2.386, + "grad_norm": 4.003697395324707, + "learning_rate": 1.0233333333333334e-05, + "loss": 1.8438, + "step": 596500 + }, + { + "epoch": 2.388, + "grad_norm": 3.2927663326263428, + "learning_rate": 1.02e-05, + "loss": 1.9155, + "step": 597000 + }, + { + "epoch": 2.39, + "grad_norm": 3.4086220264434814, + "learning_rate": 1.0166666666666667e-05, + "loss": 1.8742, + "step": 597500 + }, + { + "epoch": 2.392, + "grad_norm": 2.480473756790161, + "learning_rate": 1.0133333333333333e-05, + "loss": 1.8541, + "step": 598000 + }, + { + "epoch": 2.394, + "grad_norm": 3.448462963104248, + "learning_rate": 1.0100000000000002e-05, + "loss": 1.846, + "step": 598500 + }, + { + "epoch": 2.396, + "grad_norm": 2.509504556655884, + "learning_rate": 1.0066666666666668e-05, + "loss": 1.919, + "step": 599000 + }, + { + "epoch": 2.398, + "grad_norm": 3.439053535461426, + "learning_rate": 1.0033333333333333e-05, + "loss": 1.8858, + "step": 599500 + }, + { + "epoch": 2.4, + "grad_norm": 3.9890522956848145, + "learning_rate": 1e-05, + "loss": 1.8591, + "step": 600000 + }, + { + "epoch": 2.402, + "grad_norm": 4.084634780883789, + "learning_rate": 9.966666666666667e-06, + "loss": 1.8489, + "step": 600500 + }, + { + "epoch": 2.404, + "grad_norm": 3.9349868297576904, + "learning_rate": 9.933333333333334e-06, + "loss": 1.9189, + "step": 601000 + }, + { + "epoch": 2.406, + "grad_norm": 2.616210460662842, + "learning_rate": 9.900000000000002e-06, + "loss": 1.8826, + "step": 601500 + }, + { + "epoch": 2.408, + "grad_norm": 2.397810935974121, + "learning_rate": 9.866666666666667e-06, + "loss": 1.8374, + "step": 602000 + }, + { + "epoch": 2.41, + "grad_norm": 2.768425226211548, + "learning_rate": 9.833333333333333e-06, + "loss": 1.8738, + "step": 602500 + }, + { + "epoch": 2.412, + "grad_norm": 2.4304420948028564, + "learning_rate": 9.800000000000001e-06, + "loss": 1.886, + "step": 603000 + }, + { + "epoch": 2.414, + "grad_norm": 3.587301015853882, + "learning_rate": 9.766666666666667e-06, + "loss": 1.8647, + "step": 603500 + }, + { + "epoch": 2.416, + "grad_norm": 4.408061981201172, + "learning_rate": 9.733333333333334e-06, + "loss": 1.8166, + "step": 604000 + }, + { + "epoch": 2.418, + "grad_norm": 3.5019145011901855, + "learning_rate": 9.7e-06, + "loss": 1.8832, + "step": 604500 + }, + { + "epoch": 2.42, + "grad_norm": 3.0120651721954346, + "learning_rate": 9.666666666666667e-06, + "loss": 1.9178, + "step": 605000 + }, + { + "epoch": 2.422, + "grad_norm": 2.9974324703216553, + "learning_rate": 9.633333333333335e-06, + "loss": 1.889, + "step": 605500 + }, + { + "epoch": 2.424, + "grad_norm": 3.556570053100586, + "learning_rate": 9.600000000000001e-06, + "loss": 1.8461, + "step": 606000 + }, + { + "epoch": 2.426, + "grad_norm": 2.4842612743377686, + "learning_rate": 9.566666666666666e-06, + "loss": 1.9208, + "step": 606500 + }, + { + "epoch": 2.428, + "grad_norm": 2.987746000289917, + "learning_rate": 9.533333333333334e-06, + "loss": 1.8918, + "step": 607000 + }, + { + "epoch": 2.43, + "grad_norm": 2.7800424098968506, + "learning_rate": 9.5e-06, + "loss": 1.9339, + "step": 607500 + }, + { + "epoch": 2.432, + "grad_norm": 2.9803011417388916, + "learning_rate": 9.466666666666667e-06, + "loss": 1.8775, + "step": 608000 + }, + { + "epoch": 2.434, + "grad_norm": 4.389027118682861, + "learning_rate": 9.433333333333335e-06, + "loss": 1.8805, + "step": 608500 + }, + { + "epoch": 2.436, + "grad_norm": 3.4128823280334473, + "learning_rate": 9.4e-06, + "loss": 1.8729, + "step": 609000 + }, + { + "epoch": 2.438, + "grad_norm": 2.8874900341033936, + "learning_rate": 9.366666666666666e-06, + "loss": 1.8718, + "step": 609500 + }, + { + "epoch": 2.44, + "grad_norm": 3.416203260421753, + "learning_rate": 9.333333333333334e-06, + "loss": 1.9095, + "step": 610000 + }, + { + "epoch": 2.442, + "grad_norm": 4.16544246673584, + "learning_rate": 9.3e-06, + "loss": 1.8894, + "step": 610500 + }, + { + "epoch": 2.444, + "grad_norm": 3.1699767112731934, + "learning_rate": 9.266666666666667e-06, + "loss": 1.8726, + "step": 611000 + }, + { + "epoch": 2.446, + "grad_norm": 2.9980835914611816, + "learning_rate": 9.233333333333334e-06, + "loss": 1.847, + "step": 611500 + }, + { + "epoch": 2.448, + "grad_norm": 7.348918914794922, + "learning_rate": 9.2e-06, + "loss": 1.8976, + "step": 612000 + }, + { + "epoch": 2.45, + "grad_norm": 3.5759294033050537, + "learning_rate": 9.166666666666666e-06, + "loss": 1.9164, + "step": 612500 + }, + { + "epoch": 2.452, + "grad_norm": 2.815521001815796, + "learning_rate": 9.133333333333335e-06, + "loss": 1.8361, + "step": 613000 + }, + { + "epoch": 2.454, + "grad_norm": 5.427938938140869, + "learning_rate": 9.100000000000001e-06, + "loss": 1.9235, + "step": 613500 + }, + { + "epoch": 2.456, + "grad_norm": 3.424795150756836, + "learning_rate": 9.066666666666667e-06, + "loss": 1.874, + "step": 614000 + }, + { + "epoch": 2.458, + "grad_norm": 2.8467607498168945, + "learning_rate": 9.033333333333334e-06, + "loss": 1.8536, + "step": 614500 + }, + { + "epoch": 2.46, + "grad_norm": 2.978062868118286, + "learning_rate": 9e-06, + "loss": 1.8803, + "step": 615000 + }, + { + "epoch": 2.462, + "grad_norm": 5.436339855194092, + "learning_rate": 8.966666666666668e-06, + "loss": 1.8785, + "step": 615500 + }, + { + "epoch": 2.464, + "grad_norm": 1.8794487714767456, + "learning_rate": 8.933333333333333e-06, + "loss": 1.8593, + "step": 616000 + }, + { + "epoch": 2.466, + "grad_norm": 3.4503533840179443, + "learning_rate": 8.9e-06, + "loss": 1.867, + "step": 616500 + }, + { + "epoch": 2.468, + "grad_norm": 2.631411552429199, + "learning_rate": 8.866666666666668e-06, + "loss": 1.8725, + "step": 617000 + }, + { + "epoch": 2.4699999999999998, + "grad_norm": 6.06883430480957, + "learning_rate": 8.833333333333334e-06, + "loss": 1.8865, + "step": 617500 + }, + { + "epoch": 2.472, + "grad_norm": 3.6540019512176514, + "learning_rate": 8.8e-06, + "loss": 1.9046, + "step": 618000 + }, + { + "epoch": 2.474, + "grad_norm": 2.980518341064453, + "learning_rate": 8.766666666666667e-06, + "loss": 1.8854, + "step": 618500 + }, + { + "epoch": 2.476, + "grad_norm": 2.0326669216156006, + "learning_rate": 8.733333333333333e-06, + "loss": 1.832, + "step": 619000 + }, + { + "epoch": 2.4779999999999998, + "grad_norm": 2.8870391845703125, + "learning_rate": 8.7e-06, + "loss": 1.8247, + "step": 619500 + }, + { + "epoch": 2.48, + "grad_norm": 4.120845317840576, + "learning_rate": 8.666666666666668e-06, + "loss": 1.8905, + "step": 620000 + }, + { + "epoch": 2.482, + "grad_norm": 4.375402450561523, + "learning_rate": 8.633333333333334e-06, + "loss": 1.8321, + "step": 620500 + }, + { + "epoch": 2.484, + "grad_norm": 2.3824880123138428, + "learning_rate": 8.599999999999999e-06, + "loss": 1.9073, + "step": 621000 + }, + { + "epoch": 2.4859999999999998, + "grad_norm": 2.720569372177124, + "learning_rate": 8.566666666666667e-06, + "loss": 1.8597, + "step": 621500 + }, + { + "epoch": 2.488, + "grad_norm": 2.6215107440948486, + "learning_rate": 8.533333333333334e-06, + "loss": 1.9298, + "step": 622000 + }, + { + "epoch": 2.49, + "grad_norm": 3.2964539527893066, + "learning_rate": 8.500000000000002e-06, + "loss": 1.862, + "step": 622500 + }, + { + "epoch": 2.492, + "grad_norm": 3.0264010429382324, + "learning_rate": 8.466666666666666e-06, + "loss": 1.8335, + "step": 623000 + }, + { + "epoch": 2.4939999999999998, + "grad_norm": 3.0339627265930176, + "learning_rate": 8.433333333333333e-06, + "loss": 1.8592, + "step": 623500 + }, + { + "epoch": 2.496, + "grad_norm": 2.6013669967651367, + "learning_rate": 8.400000000000001e-06, + "loss": 1.9027, + "step": 624000 + }, + { + "epoch": 2.498, + "grad_norm": 2.994971752166748, + "learning_rate": 8.366666666666667e-06, + "loss": 1.8922, + "step": 624500 + }, + { + "epoch": 2.5, + "grad_norm": 2.7267160415649414, + "learning_rate": 8.333333333333334e-06, + "loss": 1.868, + "step": 625000 + }, + { + "epoch": 2.502, + "grad_norm": 4.416297435760498, + "learning_rate": 8.3e-06, + "loss": 1.8751, + "step": 625500 + }, + { + "epoch": 2.504, + "grad_norm": 3.436997652053833, + "learning_rate": 8.266666666666667e-06, + "loss": 1.889, + "step": 626000 + }, + { + "epoch": 2.5060000000000002, + "grad_norm": 3.987461566925049, + "learning_rate": 8.233333333333333e-06, + "loss": 1.9109, + "step": 626500 + }, + { + "epoch": 2.508, + "grad_norm": 3.127805233001709, + "learning_rate": 8.200000000000001e-06, + "loss": 1.8472, + "step": 627000 + }, + { + "epoch": 2.51, + "grad_norm": 3.108248472213745, + "learning_rate": 8.166666666666668e-06, + "loss": 1.9126, + "step": 627500 + }, + { + "epoch": 2.512, + "grad_norm": 2.689952850341797, + "learning_rate": 8.133333333333332e-06, + "loss": 1.8856, + "step": 628000 + }, + { + "epoch": 2.5140000000000002, + "grad_norm": 4.6352033615112305, + "learning_rate": 8.1e-06, + "loss": 1.8516, + "step": 628500 + }, + { + "epoch": 2.516, + "grad_norm": 3.287313222885132, + "learning_rate": 8.066666666666667e-06, + "loss": 1.9164, + "step": 629000 + }, + { + "epoch": 2.518, + "grad_norm": 4.914368629455566, + "learning_rate": 8.033333333333335e-06, + "loss": 1.8996, + "step": 629500 + }, + { + "epoch": 2.52, + "grad_norm": 2.392132043838501, + "learning_rate": 8.000000000000001e-06, + "loss": 1.8622, + "step": 630000 + }, + { + "epoch": 2.5220000000000002, + "grad_norm": 3.10549259185791, + "learning_rate": 7.966666666666666e-06, + "loss": 1.9089, + "step": 630500 + }, + { + "epoch": 2.524, + "grad_norm": 3.105255126953125, + "learning_rate": 7.933333333333334e-06, + "loss": 1.8842, + "step": 631000 + }, + { + "epoch": 2.526, + "grad_norm": 4.36549186706543, + "learning_rate": 7.9e-06, + "loss": 1.8433, + "step": 631500 + }, + { + "epoch": 2.528, + "grad_norm": 4.413882255554199, + "learning_rate": 7.866666666666667e-06, + "loss": 1.8941, + "step": 632000 + }, + { + "epoch": 2.5300000000000002, + "grad_norm": 1.928449273109436, + "learning_rate": 7.833333333333333e-06, + "loss": 1.8648, + "step": 632500 + }, + { + "epoch": 2.532, + "grad_norm": 4.413303852081299, + "learning_rate": 7.8e-06, + "loss": 1.8699, + "step": 633000 + }, + { + "epoch": 2.534, + "grad_norm": 3.7028002738952637, + "learning_rate": 7.766666666666666e-06, + "loss": 1.892, + "step": 633500 + }, + { + "epoch": 2.536, + "grad_norm": 2.7936835289001465, + "learning_rate": 7.733333333333334e-06, + "loss": 1.8817, + "step": 634000 + }, + { + "epoch": 2.5380000000000003, + "grad_norm": 3.6933412551879883, + "learning_rate": 7.7e-06, + "loss": 1.8423, + "step": 634500 + }, + { + "epoch": 2.54, + "grad_norm": 3.0467052459716797, + "learning_rate": 7.666666666666667e-06, + "loss": 1.8422, + "step": 635000 + }, + { + "epoch": 2.542, + "grad_norm": 1.9489444494247437, + "learning_rate": 7.633333333333334e-06, + "loss": 1.8713, + "step": 635500 + }, + { + "epoch": 2.544, + "grad_norm": 2.9168665409088135, + "learning_rate": 7.6e-06, + "loss": 1.8741, + "step": 636000 + }, + { + "epoch": 2.5460000000000003, + "grad_norm": 3.4203386306762695, + "learning_rate": 7.5666666666666665e-06, + "loss": 1.8308, + "step": 636500 + }, + { + "epoch": 2.548, + "grad_norm": 2.8358335494995117, + "learning_rate": 7.533333333333334e-06, + "loss": 1.8909, + "step": 637000 + }, + { + "epoch": 2.55, + "grad_norm": 3.406254291534424, + "learning_rate": 7.5e-06, + "loss": 1.8564, + "step": 637500 + }, + { + "epoch": 2.552, + "grad_norm": 2.576655387878418, + "learning_rate": 7.4666666666666675e-06, + "loss": 1.8583, + "step": 638000 + }, + { + "epoch": 2.5540000000000003, + "grad_norm": 4.063394069671631, + "learning_rate": 7.433333333333334e-06, + "loss": 1.8913, + "step": 638500 + }, + { + "epoch": 2.556, + "grad_norm": 2.8183672428131104, + "learning_rate": 7.4e-06, + "loss": 1.9312, + "step": 639000 + }, + { + "epoch": 2.558, + "grad_norm": 3.0902271270751953, + "learning_rate": 7.3666666666666676e-06, + "loss": 1.9171, + "step": 639500 + }, + { + "epoch": 2.56, + "grad_norm": 3.2803256511688232, + "learning_rate": 7.333333333333334e-06, + "loss": 1.9173, + "step": 640000 + }, + { + "epoch": 2.5620000000000003, + "grad_norm": 2.6414859294891357, + "learning_rate": 7.2999999999999996e-06, + "loss": 1.84, + "step": 640500 + }, + { + "epoch": 2.564, + "grad_norm": 3.431950569152832, + "learning_rate": 7.266666666666668e-06, + "loss": 1.8935, + "step": 641000 + }, + { + "epoch": 2.566, + "grad_norm": 3.556243419647217, + "learning_rate": 7.233333333333333e-06, + "loss": 1.8872, + "step": 641500 + }, + { + "epoch": 2.568, + "grad_norm": 2.9917585849761963, + "learning_rate": 7.2e-06, + "loss": 1.8785, + "step": 642000 + }, + { + "epoch": 2.57, + "grad_norm": 2.0157723426818848, + "learning_rate": 7.166666666666667e-06, + "loss": 1.9314, + "step": 642500 + }, + { + "epoch": 2.572, + "grad_norm": 3.5743918418884277, + "learning_rate": 7.133333333333333e-06, + "loss": 1.8509, + "step": 643000 + }, + { + "epoch": 2.574, + "grad_norm": 3.145385980606079, + "learning_rate": 7.1e-06, + "loss": 1.8937, + "step": 643500 + }, + { + "epoch": 2.576, + "grad_norm": 5.946051120758057, + "learning_rate": 7.066666666666667e-06, + "loss": 1.8461, + "step": 644000 + }, + { + "epoch": 2.578, + "grad_norm": 4.228523254394531, + "learning_rate": 7.0333333333333335e-06, + "loss": 1.8707, + "step": 644500 + }, + { + "epoch": 2.58, + "grad_norm": 3.083113670349121, + "learning_rate": 7.000000000000001e-06, + "loss": 1.8774, + "step": 645000 + }, + { + "epoch": 2.582, + "grad_norm": 3.1056864261627197, + "learning_rate": 6.966666666666667e-06, + "loss": 1.8693, + "step": 645500 + }, + { + "epoch": 2.584, + "grad_norm": 4.9116621017456055, + "learning_rate": 6.933333333333334e-06, + "loss": 1.8742, + "step": 646000 + }, + { + "epoch": 2.586, + "grad_norm": 2.5638844966888428, + "learning_rate": 6.900000000000001e-06, + "loss": 1.8612, + "step": 646500 + }, + { + "epoch": 2.588, + "grad_norm": 3.8515875339508057, + "learning_rate": 6.866666666666667e-06, + "loss": 1.8663, + "step": 647000 + }, + { + "epoch": 2.59, + "grad_norm": 5.321290493011475, + "learning_rate": 6.833333333333333e-06, + "loss": 1.8763, + "step": 647500 + }, + { + "epoch": 2.592, + "grad_norm": 2.7012779712677, + "learning_rate": 6.800000000000001e-06, + "loss": 1.9116, + "step": 648000 + }, + { + "epoch": 2.594, + "grad_norm": 2.7859761714935303, + "learning_rate": 6.766666666666667e-06, + "loss": 1.8571, + "step": 648500 + }, + { + "epoch": 2.596, + "grad_norm": 3.347858428955078, + "learning_rate": 6.733333333333333e-06, + "loss": 1.907, + "step": 649000 + }, + { + "epoch": 2.598, + "grad_norm": 3.5790727138519287, + "learning_rate": 6.700000000000001e-06, + "loss": 1.9023, + "step": 649500 + }, + { + "epoch": 2.6, + "grad_norm": 4.641330242156982, + "learning_rate": 6.666666666666667e-06, + "loss": 1.9167, + "step": 650000 + }, + { + "epoch": 2.602, + "grad_norm": 5.059780597686768, + "learning_rate": 6.633333333333333e-06, + "loss": 1.9566, + "step": 650500 + }, + { + "epoch": 2.604, + "grad_norm": 2.7773430347442627, + "learning_rate": 6.6e-06, + "loss": 1.8656, + "step": 651000 + }, + { + "epoch": 2.606, + "grad_norm": 3.263288736343384, + "learning_rate": 6.566666666666667e-06, + "loss": 1.872, + "step": 651500 + }, + { + "epoch": 2.608, + "grad_norm": 3.293905258178711, + "learning_rate": 6.533333333333333e-06, + "loss": 1.8372, + "step": 652000 + }, + { + "epoch": 2.61, + "grad_norm": 3.077204942703247, + "learning_rate": 6.5000000000000004e-06, + "loss": 1.8536, + "step": 652500 + }, + { + "epoch": 2.612, + "grad_norm": 3.416551351547241, + "learning_rate": 6.466666666666667e-06, + "loss": 1.8844, + "step": 653000 + }, + { + "epoch": 2.614, + "grad_norm": 4.306375026702881, + "learning_rate": 6.433333333333334e-06, + "loss": 1.9029, + "step": 653500 + }, + { + "epoch": 2.616, + "grad_norm": 2.501620292663574, + "learning_rate": 6.4000000000000006e-06, + "loss": 1.8938, + "step": 654000 + }, + { + "epoch": 2.618, + "grad_norm": 2.192352771759033, + "learning_rate": 6.366666666666667e-06, + "loss": 1.8985, + "step": 654500 + }, + { + "epoch": 2.62, + "grad_norm": 5.223537921905518, + "learning_rate": 6.333333333333334e-06, + "loss": 1.8473, + "step": 655000 + }, + { + "epoch": 2.622, + "grad_norm": 3.3766655921936035, + "learning_rate": 6.300000000000001e-06, + "loss": 1.8564, + "step": 655500 + }, + { + "epoch": 2.624, + "grad_norm": 4.073780536651611, + "learning_rate": 6.266666666666666e-06, + "loss": 1.8498, + "step": 656000 + }, + { + "epoch": 2.626, + "grad_norm": 2.6815459728240967, + "learning_rate": 6.2333333333333335e-06, + "loss": 1.8989, + "step": 656500 + }, + { + "epoch": 2.628, + "grad_norm": 3.543757915496826, + "learning_rate": 6.2e-06, + "loss": 1.871, + "step": 657000 + }, + { + "epoch": 2.63, + "grad_norm": 3.6465091705322266, + "learning_rate": 6.166666666666667e-06, + "loss": 1.9044, + "step": 657500 + }, + { + "epoch": 2.632, + "grad_norm": 3.619927167892456, + "learning_rate": 6.133333333333334e-06, + "loss": 1.8821, + "step": 658000 + }, + { + "epoch": 2.634, + "grad_norm": 3.724942207336426, + "learning_rate": 6.1e-06, + "loss": 1.8779, + "step": 658500 + }, + { + "epoch": 2.636, + "grad_norm": 4.038952827453613, + "learning_rate": 6.066666666666667e-06, + "loss": 1.9313, + "step": 659000 + }, + { + "epoch": 2.638, + "grad_norm": 2.9567649364471436, + "learning_rate": 6.033333333333334e-06, + "loss": 1.8617, + "step": 659500 + }, + { + "epoch": 2.64, + "grad_norm": 5.773310661315918, + "learning_rate": 6e-06, + "loss": 1.9206, + "step": 660000 + }, + { + "epoch": 2.642, + "grad_norm": 2.9293549060821533, + "learning_rate": 5.9666666666666666e-06, + "loss": 1.8501, + "step": 660500 + }, + { + "epoch": 2.644, + "grad_norm": 2.4616734981536865, + "learning_rate": 5.933333333333334e-06, + "loss": 1.8543, + "step": 661000 + }, + { + "epoch": 2.646, + "grad_norm": 2.237765073776245, + "learning_rate": 5.9e-06, + "loss": 1.9431, + "step": 661500 + }, + { + "epoch": 2.648, + "grad_norm": 2.2172420024871826, + "learning_rate": 5.866666666666667e-06, + "loss": 1.893, + "step": 662000 + }, + { + "epoch": 2.65, + "grad_norm": 3.7040140628814697, + "learning_rate": 5.833333333333334e-06, + "loss": 1.8742, + "step": 662500 + }, + { + "epoch": 2.652, + "grad_norm": 3.914787530899048, + "learning_rate": 5.8e-06, + "loss": 1.9271, + "step": 663000 + }, + { + "epoch": 2.654, + "grad_norm": 4.496729850769043, + "learning_rate": 5.766666666666667e-06, + "loss": 1.9143, + "step": 663500 + }, + { + "epoch": 2.656, + "grad_norm": 3.6321325302124023, + "learning_rate": 5.733333333333333e-06, + "loss": 1.8792, + "step": 664000 + }, + { + "epoch": 2.658, + "grad_norm": 2.219710350036621, + "learning_rate": 5.7000000000000005e-06, + "loss": 1.8786, + "step": 664500 + }, + { + "epoch": 2.66, + "grad_norm": 3.3534481525421143, + "learning_rate": 5.666666666666667e-06, + "loss": 1.8897, + "step": 665000 + }, + { + "epoch": 2.662, + "grad_norm": 2.505182981491089, + "learning_rate": 5.633333333333333e-06, + "loss": 1.8787, + "step": 665500 + }, + { + "epoch": 2.664, + "grad_norm": 2.429156541824341, + "learning_rate": 5.600000000000001e-06, + "loss": 1.9101, + "step": 666000 + }, + { + "epoch": 2.666, + "grad_norm": 2.7629823684692383, + "learning_rate": 5.566666666666667e-06, + "loss": 1.8969, + "step": 666500 + }, + { + "epoch": 2.668, + "grad_norm": 2.949223279953003, + "learning_rate": 5.5333333333333334e-06, + "loss": 1.9275, + "step": 667000 + }, + { + "epoch": 2.67, + "grad_norm": 2.6248672008514404, + "learning_rate": 5.500000000000001e-06, + "loss": 1.931, + "step": 667500 + }, + { + "epoch": 2.672, + "grad_norm": 2.91471529006958, + "learning_rate": 5.466666666666667e-06, + "loss": 1.8849, + "step": 668000 + }, + { + "epoch": 2.674, + "grad_norm": 3.159327983856201, + "learning_rate": 5.4333333333333335e-06, + "loss": 1.8682, + "step": 668500 + }, + { + "epoch": 2.676, + "grad_norm": 4.286912441253662, + "learning_rate": 5.4e-06, + "loss": 1.892, + "step": 669000 + }, + { + "epoch": 2.678, + "grad_norm": 5.190775394439697, + "learning_rate": 5.366666666666667e-06, + "loss": 1.8521, + "step": 669500 + }, + { + "epoch": 2.68, + "grad_norm": 2.9026002883911133, + "learning_rate": 5.333333333333334e-06, + "loss": 1.9133, + "step": 670000 + }, + { + "epoch": 2.682, + "grad_norm": 3.2781126499176025, + "learning_rate": 5.3e-06, + "loss": 1.8533, + "step": 670500 + }, + { + "epoch": 2.684, + "grad_norm": 2.569183349609375, + "learning_rate": 5.266666666666667e-06, + "loss": 1.8538, + "step": 671000 + }, + { + "epoch": 2.686, + "grad_norm": 3.1960971355438232, + "learning_rate": 5.233333333333334e-06, + "loss": 1.9273, + "step": 671500 + }, + { + "epoch": 2.6879999999999997, + "grad_norm": 4.6884870529174805, + "learning_rate": 5.2e-06, + "loss": 1.8714, + "step": 672000 + }, + { + "epoch": 2.69, + "grad_norm": 2.3329176902770996, + "learning_rate": 5.166666666666667e-06, + "loss": 1.8797, + "step": 672500 + }, + { + "epoch": 2.692, + "grad_norm": 2.7218334674835205, + "learning_rate": 5.133333333333334e-06, + "loss": 1.8643, + "step": 673000 + }, + { + "epoch": 2.694, + "grad_norm": 3.568103313446045, + "learning_rate": 5.1e-06, + "loss": 1.9037, + "step": 673500 + }, + { + "epoch": 2.6959999999999997, + "grad_norm": 3.6968801021575928, + "learning_rate": 5.066666666666667e-06, + "loss": 1.9357, + "step": 674000 + }, + { + "epoch": 2.698, + "grad_norm": 3.1816065311431885, + "learning_rate": 5.033333333333334e-06, + "loss": 2.0061, + "step": 674500 + }, + { + "epoch": 2.7, + "grad_norm": 2.1746315956115723, + "learning_rate": 5e-06, + "loss": 1.8365, + "step": 675000 + }, + { + "epoch": 2.702, + "grad_norm": 2.9095511436462402, + "learning_rate": 4.966666666666667e-06, + "loss": 1.8734, + "step": 675500 + }, + { + "epoch": 2.7039999999999997, + "grad_norm": 2.8963634967803955, + "learning_rate": 4.933333333333333e-06, + "loss": 1.8695, + "step": 676000 + }, + { + "epoch": 2.706, + "grad_norm": 2.6536638736724854, + "learning_rate": 4.9000000000000005e-06, + "loss": 1.8506, + "step": 676500 + }, + { + "epoch": 2.708, + "grad_norm": 3.057424783706665, + "learning_rate": 4.866666666666667e-06, + "loss": 1.9007, + "step": 677000 + }, + { + "epoch": 2.71, + "grad_norm": 2.339240550994873, + "learning_rate": 4.833333333333333e-06, + "loss": 1.9088, + "step": 677500 + }, + { + "epoch": 2.7119999999999997, + "grad_norm": 4.8444671630859375, + "learning_rate": 4.800000000000001e-06, + "loss": 1.8862, + "step": 678000 + }, + { + "epoch": 2.714, + "grad_norm": 4.375866413116455, + "learning_rate": 4.766666666666667e-06, + "loss": 1.8701, + "step": 678500 + }, + { + "epoch": 2.716, + "grad_norm": 3.7420687675476074, + "learning_rate": 4.7333333333333335e-06, + "loss": 1.9296, + "step": 679000 + }, + { + "epoch": 2.718, + "grad_norm": 1.8531460762023926, + "learning_rate": 4.7e-06, + "loss": 1.895, + "step": 679500 + }, + { + "epoch": 2.7199999999999998, + "grad_norm": 3.4381535053253174, + "learning_rate": 4.666666666666667e-06, + "loss": 1.8961, + "step": 680000 + }, + { + "epoch": 2.722, + "grad_norm": 3.2771215438842773, + "learning_rate": 4.633333333333334e-06, + "loss": 1.8786, + "step": 680500 + }, + { + "epoch": 2.724, + "grad_norm": 3.374859094619751, + "learning_rate": 4.6e-06, + "loss": 1.9132, + "step": 681000 + }, + { + "epoch": 2.726, + "grad_norm": 2.9684982299804688, + "learning_rate": 4.566666666666667e-06, + "loss": 1.8955, + "step": 681500 + }, + { + "epoch": 2.7279999999999998, + "grad_norm": 2.923057794570923, + "learning_rate": 4.533333333333334e-06, + "loss": 1.8509, + "step": 682000 + }, + { + "epoch": 2.73, + "grad_norm": 3.275190830230713, + "learning_rate": 4.5e-06, + "loss": 1.8985, + "step": 682500 + }, + { + "epoch": 2.732, + "grad_norm": 3.1415112018585205, + "learning_rate": 4.4666666666666665e-06, + "loss": 1.8938, + "step": 683000 + }, + { + "epoch": 2.734, + "grad_norm": 4.726484298706055, + "learning_rate": 4.433333333333334e-06, + "loss": 1.894, + "step": 683500 + }, + { + "epoch": 2.7359999999999998, + "grad_norm": 3.5498578548431396, + "learning_rate": 4.4e-06, + "loss": 1.8895, + "step": 684000 + }, + { + "epoch": 2.738, + "grad_norm": 4.273956775665283, + "learning_rate": 4.366666666666667e-06, + "loss": 1.9009, + "step": 684500 + }, + { + "epoch": 2.74, + "grad_norm": 3.276571273803711, + "learning_rate": 4.333333333333334e-06, + "loss": 1.8943, + "step": 685000 + }, + { + "epoch": 2.742, + "grad_norm": 3.2255356311798096, + "learning_rate": 4.2999999999999995e-06, + "loss": 1.924, + "step": 685500 + }, + { + "epoch": 2.7439999999999998, + "grad_norm": 3.6334052085876465, + "learning_rate": 4.266666666666667e-06, + "loss": 1.8437, + "step": 686000 + }, + { + "epoch": 2.746, + "grad_norm": 2.3026280403137207, + "learning_rate": 4.233333333333333e-06, + "loss": 1.9063, + "step": 686500 + }, + { + "epoch": 2.748, + "grad_norm": 2.8906328678131104, + "learning_rate": 4.2000000000000004e-06, + "loss": 1.8796, + "step": 687000 + }, + { + "epoch": 2.75, + "grad_norm": 3.116187334060669, + "learning_rate": 4.166666666666667e-06, + "loss": 1.9125, + "step": 687500 + }, + { + "epoch": 2.752, + "grad_norm": 2.7661359310150146, + "learning_rate": 4.133333333333333e-06, + "loss": 1.9462, + "step": 688000 + }, + { + "epoch": 2.754, + "grad_norm": 3.3297812938690186, + "learning_rate": 4.1000000000000006e-06, + "loss": 1.8935, + "step": 688500 + }, + { + "epoch": 2.7560000000000002, + "grad_norm": 2.6931254863739014, + "learning_rate": 4.066666666666666e-06, + "loss": 1.8205, + "step": 689000 + }, + { + "epoch": 2.758, + "grad_norm": 2.2474148273468018, + "learning_rate": 4.033333333333333e-06, + "loss": 1.9069, + "step": 689500 + }, + { + "epoch": 2.76, + "grad_norm": 1.9933154582977295, + "learning_rate": 4.000000000000001e-06, + "loss": 1.8686, + "step": 690000 + }, + { + "epoch": 2.762, + "grad_norm": 2.461827516555786, + "learning_rate": 3.966666666666667e-06, + "loss": 1.8009, + "step": 690500 + }, + { + "epoch": 2.7640000000000002, + "grad_norm": 3.75205397605896, + "learning_rate": 3.9333333333333335e-06, + "loss": 1.8483, + "step": 691000 + }, + { + "epoch": 2.766, + "grad_norm": 3.3759922981262207, + "learning_rate": 3.9e-06, + "loss": 1.8769, + "step": 691500 + }, + { + "epoch": 2.768, + "grad_norm": 4.364626884460449, + "learning_rate": 3.866666666666667e-06, + "loss": 1.8619, + "step": 692000 + }, + { + "epoch": 2.77, + "grad_norm": 4.0554633140563965, + "learning_rate": 3.833333333333334e-06, + "loss": 1.872, + "step": 692500 + }, + { + "epoch": 2.7720000000000002, + "grad_norm": 3.803511381149292, + "learning_rate": 3.8e-06, + "loss": 1.8582, + "step": 693000 + }, + { + "epoch": 2.774, + "grad_norm": 2.885103464126587, + "learning_rate": 3.766666666666667e-06, + "loss": 1.9041, + "step": 693500 + }, + { + "epoch": 2.776, + "grad_norm": 5.55342435836792, + "learning_rate": 3.7333333333333337e-06, + "loss": 1.8881, + "step": 694000 + }, + { + "epoch": 2.778, + "grad_norm": 3.852508306503296, + "learning_rate": 3.7e-06, + "loss": 1.9092, + "step": 694500 + }, + { + "epoch": 2.7800000000000002, + "grad_norm": 3.4544615745544434, + "learning_rate": 3.666666666666667e-06, + "loss": 1.8667, + "step": 695000 + }, + { + "epoch": 2.782, + "grad_norm": 3.607158660888672, + "learning_rate": 3.633333333333334e-06, + "loss": 1.8646, + "step": 695500 + }, + { + "epoch": 2.784, + "grad_norm": 4.708215236663818, + "learning_rate": 3.6e-06, + "loss": 1.9006, + "step": 696000 + }, + { + "epoch": 2.786, + "grad_norm": 3.173060655593872, + "learning_rate": 3.5666666666666667e-06, + "loss": 1.8191, + "step": 696500 + }, + { + "epoch": 2.7880000000000003, + "grad_norm": 3.328235387802124, + "learning_rate": 3.5333333333333335e-06, + "loss": 1.8772, + "step": 697000 + }, + { + "epoch": 2.79, + "grad_norm": 4.168435096740723, + "learning_rate": 3.5000000000000004e-06, + "loss": 1.8957, + "step": 697500 + }, + { + "epoch": 2.792, + "grad_norm": 1.336233377456665, + "learning_rate": 3.466666666666667e-06, + "loss": 1.8777, + "step": 698000 + }, + { + "epoch": 2.794, + "grad_norm": 3.9781460762023926, + "learning_rate": 3.4333333333333336e-06, + "loss": 1.8889, + "step": 698500 + }, + { + "epoch": 2.7960000000000003, + "grad_norm": 3.8768365383148193, + "learning_rate": 3.4000000000000005e-06, + "loss": 1.8395, + "step": 699000 + }, + { + "epoch": 2.798, + "grad_norm": 2.8166561126708984, + "learning_rate": 3.3666666666666665e-06, + "loss": 1.8927, + "step": 699500 + }, + { + "epoch": 2.8, + "grad_norm": 3.0701918601989746, + "learning_rate": 3.3333333333333333e-06, + "loss": 1.8829, + "step": 700000 + }, + { + "epoch": 2.802, + "grad_norm": 4.882094860076904, + "learning_rate": 3.3e-06, + "loss": 1.872, + "step": 700500 + }, + { + "epoch": 2.8040000000000003, + "grad_norm": 3.2382917404174805, + "learning_rate": 3.2666666666666666e-06, + "loss": 1.806, + "step": 701000 + }, + { + "epoch": 2.806, + "grad_norm": 3.6363778114318848, + "learning_rate": 3.2333333333333334e-06, + "loss": 1.9015, + "step": 701500 + }, + { + "epoch": 2.808, + "grad_norm": 3.6446800231933594, + "learning_rate": 3.2000000000000003e-06, + "loss": 1.8551, + "step": 702000 + }, + { + "epoch": 2.81, + "grad_norm": 2.472050189971924, + "learning_rate": 3.166666666666667e-06, + "loss": 1.8831, + "step": 702500 + }, + { + "epoch": 2.8120000000000003, + "grad_norm": 1.4477039575576782, + "learning_rate": 3.133333333333333e-06, + "loss": 1.8571, + "step": 703000 + }, + { + "epoch": 2.814, + "grad_norm": 3.0914952754974365, + "learning_rate": 3.1e-06, + "loss": 1.8771, + "step": 703500 + }, + { + "epoch": 2.816, + "grad_norm": 3.063697099685669, + "learning_rate": 3.066666666666667e-06, + "loss": 1.8898, + "step": 704000 + }, + { + "epoch": 2.818, + "grad_norm": 3.131847858428955, + "learning_rate": 3.0333333333333337e-06, + "loss": 1.8933, + "step": 704500 + }, + { + "epoch": 2.82, + "grad_norm": 3.0374350547790527, + "learning_rate": 3e-06, + "loss": 1.8895, + "step": 705000 + }, + { + "epoch": 2.822, + "grad_norm": 3.479525327682495, + "learning_rate": 2.966666666666667e-06, + "loss": 1.8629, + "step": 705500 + }, + { + "epoch": 2.824, + "grad_norm": 3.781367301940918, + "learning_rate": 2.9333333333333333e-06, + "loss": 1.865, + "step": 706000 + }, + { + "epoch": 2.826, + "grad_norm": 3.139104127883911, + "learning_rate": 2.9e-06, + "loss": 1.8914, + "step": 706500 + }, + { + "epoch": 2.828, + "grad_norm": 2.448465585708618, + "learning_rate": 2.8666666666666666e-06, + "loss": 1.9189, + "step": 707000 + }, + { + "epoch": 2.83, + "grad_norm": 2.543330192565918, + "learning_rate": 2.8333333333333335e-06, + "loss": 1.8773, + "step": 707500 + }, + { + "epoch": 2.832, + "grad_norm": 2.5747554302215576, + "learning_rate": 2.8000000000000003e-06, + "loss": 1.8879, + "step": 708000 + }, + { + "epoch": 2.834, + "grad_norm": 3.935971975326538, + "learning_rate": 2.7666666666666667e-06, + "loss": 1.8781, + "step": 708500 + }, + { + "epoch": 2.836, + "grad_norm": 5.765059947967529, + "learning_rate": 2.7333333333333336e-06, + "loss": 1.9233, + "step": 709000 + }, + { + "epoch": 2.838, + "grad_norm": 2.88075852394104, + "learning_rate": 2.7e-06, + "loss": 1.8694, + "step": 709500 + }, + { + "epoch": 2.84, + "grad_norm": 3.8271071910858154, + "learning_rate": 2.666666666666667e-06, + "loss": 1.9014, + "step": 710000 + }, + { + "epoch": 2.842, + "grad_norm": 3.081481695175171, + "learning_rate": 2.6333333333333337e-06, + "loss": 1.8843, + "step": 710500 + }, + { + "epoch": 2.844, + "grad_norm": 4.267486572265625, + "learning_rate": 2.6e-06, + "loss": 1.9062, + "step": 711000 + }, + { + "epoch": 2.846, + "grad_norm": 2.9984750747680664, + "learning_rate": 2.566666666666667e-06, + "loss": 1.9176, + "step": 711500 + }, + { + "epoch": 2.848, + "grad_norm": 4.184579372406006, + "learning_rate": 2.5333333333333334e-06, + "loss": 1.9378, + "step": 712000 + }, + { + "epoch": 2.85, + "grad_norm": 5.722200393676758, + "learning_rate": 2.5e-06, + "loss": 1.9227, + "step": 712500 + }, + { + "epoch": 2.852, + "grad_norm": 4.274919033050537, + "learning_rate": 2.4666666666666666e-06, + "loss": 1.924, + "step": 713000 + }, + { + "epoch": 2.854, + "grad_norm": 4.337162494659424, + "learning_rate": 2.4333333333333335e-06, + "loss": 1.9143, + "step": 713500 + }, + { + "epoch": 2.856, + "grad_norm": 2.632171392440796, + "learning_rate": 2.4000000000000003e-06, + "loss": 1.858, + "step": 714000 + }, + { + "epoch": 2.858, + "grad_norm": 3.834346294403076, + "learning_rate": 2.3666666666666667e-06, + "loss": 1.8872, + "step": 714500 + }, + { + "epoch": 2.86, + "grad_norm": 2.2637805938720703, + "learning_rate": 2.3333333333333336e-06, + "loss": 1.8588, + "step": 715000 + }, + { + "epoch": 2.862, + "grad_norm": 4.327826976776123, + "learning_rate": 2.3e-06, + "loss": 1.8092, + "step": 715500 + }, + { + "epoch": 2.864, + "grad_norm": 2.888615369796753, + "learning_rate": 2.266666666666667e-06, + "loss": 1.8602, + "step": 716000 + }, + { + "epoch": 2.866, + "grad_norm": 4.713193416595459, + "learning_rate": 2.2333333333333333e-06, + "loss": 1.8584, + "step": 716500 + }, + { + "epoch": 2.868, + "grad_norm": 3.606935501098633, + "learning_rate": 2.2e-06, + "loss": 1.8967, + "step": 717000 + }, + { + "epoch": 2.87, + "grad_norm": 2.1838111877441406, + "learning_rate": 2.166666666666667e-06, + "loss": 1.8946, + "step": 717500 + }, + { + "epoch": 2.872, + "grad_norm": 3.7687795162200928, + "learning_rate": 2.1333333333333334e-06, + "loss": 1.9139, + "step": 718000 + }, + { + "epoch": 2.874, + "grad_norm": 7.575896739959717, + "learning_rate": 2.1000000000000002e-06, + "loss": 1.8402, + "step": 718500 + }, + { + "epoch": 2.876, + "grad_norm": 5.441267967224121, + "learning_rate": 2.0666666666666666e-06, + "loss": 1.8831, + "step": 719000 + }, + { + "epoch": 2.878, + "grad_norm": 3.8765416145324707, + "learning_rate": 2.033333333333333e-06, + "loss": 1.8554, + "step": 719500 + }, + { + "epoch": 2.88, + "grad_norm": 3.4756643772125244, + "learning_rate": 2.0000000000000003e-06, + "loss": 1.8842, + "step": 720000 + }, + { + "epoch": 2.882, + "grad_norm": 2.9635679721832275, + "learning_rate": 1.9666666666666668e-06, + "loss": 1.9283, + "step": 720500 + }, + { + "epoch": 2.884, + "grad_norm": 2.5824897289276123, + "learning_rate": 1.9333333333333336e-06, + "loss": 1.9019, + "step": 721000 + }, + { + "epoch": 2.886, + "grad_norm": 3.4831085205078125, + "learning_rate": 1.9e-06, + "loss": 1.8591, + "step": 721500 + }, + { + "epoch": 2.888, + "grad_norm": 3.385176181793213, + "learning_rate": 1.8666666666666669e-06, + "loss": 1.9048, + "step": 722000 + }, + { + "epoch": 2.89, + "grad_norm": 3.2539241313934326, + "learning_rate": 1.8333333333333335e-06, + "loss": 1.895, + "step": 722500 + }, + { + "epoch": 2.892, + "grad_norm": 5.749492645263672, + "learning_rate": 1.8e-06, + "loss": 1.9309, + "step": 723000 + }, + { + "epoch": 2.894, + "grad_norm": 2.7174322605133057, + "learning_rate": 1.7666666666666668e-06, + "loss": 1.8445, + "step": 723500 + }, + { + "epoch": 2.896, + "grad_norm": 2.7712209224700928, + "learning_rate": 1.7333333333333334e-06, + "loss": 1.9178, + "step": 724000 + }, + { + "epoch": 2.898, + "grad_norm": 1.3377387523651123, + "learning_rate": 1.7000000000000002e-06, + "loss": 1.8638, + "step": 724500 + }, + { + "epoch": 2.9, + "grad_norm": 3.467402935028076, + "learning_rate": 1.6666666666666667e-06, + "loss": 1.9449, + "step": 725000 + }, + { + "epoch": 2.902, + "grad_norm": 3.3706672191619873, + "learning_rate": 1.6333333333333333e-06, + "loss": 1.9124, + "step": 725500 + }, + { + "epoch": 2.904, + "grad_norm": 3.8773839473724365, + "learning_rate": 1.6000000000000001e-06, + "loss": 1.9136, + "step": 726000 + }, + { + "epoch": 2.906, + "grad_norm": 4.234633445739746, + "learning_rate": 1.5666666666666666e-06, + "loss": 1.9176, + "step": 726500 + }, + { + "epoch": 2.908, + "grad_norm": 5.16817569732666, + "learning_rate": 1.5333333333333334e-06, + "loss": 1.8742, + "step": 727000 + }, + { + "epoch": 2.91, + "grad_norm": 3.343552827835083, + "learning_rate": 1.5e-06, + "loss": 1.863, + "step": 727500 + }, + { + "epoch": 2.912, + "grad_norm": 2.861416816711426, + "learning_rate": 1.4666666666666667e-06, + "loss": 1.8693, + "step": 728000 + }, + { + "epoch": 2.914, + "grad_norm": 3.7512595653533936, + "learning_rate": 1.4333333333333333e-06, + "loss": 1.9071, + "step": 728500 + }, + { + "epoch": 2.916, + "grad_norm": 2.6083507537841797, + "learning_rate": 1.4000000000000001e-06, + "loss": 1.8977, + "step": 729000 + }, + { + "epoch": 2.918, + "grad_norm": 3.132286548614502, + "learning_rate": 1.3666666666666668e-06, + "loss": 1.9353, + "step": 729500 + }, + { + "epoch": 2.92, + "grad_norm": 3.0331499576568604, + "learning_rate": 1.3333333333333334e-06, + "loss": 1.8482, + "step": 730000 + }, + { + "epoch": 2.922, + "grad_norm": 3.1883797645568848, + "learning_rate": 1.3e-06, + "loss": 1.8904, + "step": 730500 + }, + { + "epoch": 2.924, + "grad_norm": 3.809069871902466, + "learning_rate": 1.2666666666666667e-06, + "loss": 1.8232, + "step": 731000 + }, + { + "epoch": 2.926, + "grad_norm": 2.1572530269622803, + "learning_rate": 1.2333333333333333e-06, + "loss": 1.8619, + "step": 731500 + }, + { + "epoch": 2.928, + "grad_norm": 3.737730026245117, + "learning_rate": 1.2000000000000002e-06, + "loss": 1.8671, + "step": 732000 + }, + { + "epoch": 2.93, + "grad_norm": 3.6985459327697754, + "learning_rate": 1.1666666666666668e-06, + "loss": 1.8908, + "step": 732500 + }, + { + "epoch": 2.932, + "grad_norm": 3.3398325443267822, + "learning_rate": 1.1333333333333334e-06, + "loss": 1.8751, + "step": 733000 + }, + { + "epoch": 2.934, + "grad_norm": 3.314117908477783, + "learning_rate": 1.1e-06, + "loss": 1.832, + "step": 733500 + }, + { + "epoch": 2.936, + "grad_norm": 2.206191062927246, + "learning_rate": 1.0666666666666667e-06, + "loss": 1.8902, + "step": 734000 + }, + { + "epoch": 2.9379999999999997, + "grad_norm": 4.159761905670166, + "learning_rate": 1.0333333333333333e-06, + "loss": 1.8915, + "step": 734500 + }, + { + "epoch": 2.94, + "grad_norm": 2.5982918739318848, + "learning_rate": 1.0000000000000002e-06, + "loss": 1.9171, + "step": 735000 + }, + { + "epoch": 2.942, + "grad_norm": 2.9663453102111816, + "learning_rate": 9.666666666666668e-07, + "loss": 1.9466, + "step": 735500 + }, + { + "epoch": 2.944, + "grad_norm": 2.447366952896118, + "learning_rate": 9.333333333333334e-07, + "loss": 1.8575, + "step": 736000 + }, + { + "epoch": 2.9459999999999997, + "grad_norm": 1.9691654443740845, + "learning_rate": 9e-07, + "loss": 1.86, + "step": 736500 + }, + { + "epoch": 2.948, + "grad_norm": 4.8213934898376465, + "learning_rate": 8.666666666666667e-07, + "loss": 1.9459, + "step": 737000 + }, + { + "epoch": 2.95, + "grad_norm": 5.141754627227783, + "learning_rate": 8.333333333333333e-07, + "loss": 1.8701, + "step": 737500 + }, + { + "epoch": 2.952, + "grad_norm": 3.454430103302002, + "learning_rate": 8.000000000000001e-07, + "loss": 1.8754, + "step": 738000 + }, + { + "epoch": 2.9539999999999997, + "grad_norm": 2.3353068828582764, + "learning_rate": 7.666666666666667e-07, + "loss": 1.9119, + "step": 738500 + }, + { + "epoch": 2.956, + "grad_norm": 2.3898520469665527, + "learning_rate": 7.333333333333333e-07, + "loss": 1.8981, + "step": 739000 + }, + { + "epoch": 2.958, + "grad_norm": 4.047188758850098, + "learning_rate": 7.000000000000001e-07, + "loss": 1.8586, + "step": 739500 + }, + { + "epoch": 2.96, + "grad_norm": 3.5045583248138428, + "learning_rate": 6.666666666666667e-07, + "loss": 1.9015, + "step": 740000 + }, + { + "epoch": 2.9619999999999997, + "grad_norm": 3.017232656478882, + "learning_rate": 6.333333333333333e-07, + "loss": 1.8759, + "step": 740500 + }, + { + "epoch": 2.964, + "grad_norm": 3.38450026512146, + "learning_rate": 6.000000000000001e-07, + "loss": 1.8671, + "step": 741000 + }, + { + "epoch": 2.966, + "grad_norm": 2.8586947917938232, + "learning_rate": 5.666666666666667e-07, + "loss": 1.8921, + "step": 741500 + }, + { + "epoch": 2.968, + "grad_norm": 4.179366588592529, + "learning_rate": 5.333333333333333e-07, + "loss": 1.8749, + "step": 742000 + }, + { + "epoch": 2.9699999999999998, + "grad_norm": 3.9916365146636963, + "learning_rate": 5.000000000000001e-07, + "loss": 1.843, + "step": 742500 + }, + { + "epoch": 2.972, + "grad_norm": 3.4197537899017334, + "learning_rate": 4.666666666666667e-07, + "loss": 1.8876, + "step": 743000 + }, + { + "epoch": 2.974, + "grad_norm": 3.2435264587402344, + "learning_rate": 4.3333333333333335e-07, + "loss": 1.8799, + "step": 743500 + }, + { + "epoch": 2.976, + "grad_norm": 2.610262870788574, + "learning_rate": 4.0000000000000003e-07, + "loss": 1.8933, + "step": 744000 + }, + { + "epoch": 2.9779999999999998, + "grad_norm": 1.8669228553771973, + "learning_rate": 3.6666666666666667e-07, + "loss": 1.9472, + "step": 744500 + }, + { + "epoch": 2.98, + "grad_norm": 2.308610677719116, + "learning_rate": 3.3333333333333335e-07, + "loss": 1.9156, + "step": 745000 + }, + { + "epoch": 2.982, + "grad_norm": 3.980257987976074, + "learning_rate": 3.0000000000000004e-07, + "loss": 1.8542, + "step": 745500 + }, + { + "epoch": 2.984, + "grad_norm": 2.6206302642822266, + "learning_rate": 2.6666666666666667e-07, + "loss": 1.9556, + "step": 746000 + }, + { + "epoch": 2.9859999999999998, + "grad_norm": 3.8740410804748535, + "learning_rate": 2.3333333333333336e-07, + "loss": 1.8761, + "step": 746500 + }, + { + "epoch": 2.988, + "grad_norm": 4.097892761230469, + "learning_rate": 2.0000000000000002e-07, + "loss": 1.8767, + "step": 747000 + }, + { + "epoch": 2.99, + "grad_norm": 3.058565855026245, + "learning_rate": 1.6666666666666668e-07, + "loss": 1.8983, + "step": 747500 + }, + { + "epoch": 2.992, + "grad_norm": 3.231644630432129, + "learning_rate": 1.3333333333333334e-07, + "loss": 1.8433, + "step": 748000 + }, + { + "epoch": 2.9939999999999998, + "grad_norm": 3.1899635791778564, + "learning_rate": 1.0000000000000001e-07, + "loss": 1.9081, + "step": 748500 + }, + { + "epoch": 2.996, + "grad_norm": 4.22212553024292, + "learning_rate": 6.666666666666667e-08, + "loss": 1.8689, + "step": 749000 + }, + { + "epoch": 2.998, + "grad_norm": 3.6926040649414062, + "learning_rate": 3.3333333333333334e-08, + "loss": 1.8267, + "step": 749500 + }, + { + "epoch": 3.0, + "grad_norm": 2.948345184326172, + "learning_rate": 0.0, + "loss": 1.8743, + "step": 750000 + }, + { + "epoch": 3.0, + "step": 750000, + "total_flos": 4.05331819977769e+16, + "train_loss": 0.04026198291015625, + "train_runtime": 1412.1214, + "train_samples_per_second": 2124.463, + "train_steps_per_second": 531.116 + } + ], + "logging_steps": 500, + "max_steps": 750000, + "num_input_tokens_seen": 0, + "num_train_epochs": 3, + "save_steps": 500, + "stateful_callbacks": { + "TrainerControl": { + "args": { + "should_epoch_stop": false, + "should_evaluate": false, + "should_log": false, + "should_save": true, + "should_training_stop": true + }, + "attributes": {} + } + }, + "total_flos": 4.05331819977769e+16, + "train_batch_size": 4, + "trial_name": null, + "trial_params": null +}